CN114200048A

CN114200048A - Lc-ms下机数据的处理方法及处理装置

Info

Publication number: CN114200048A
Application number: CN202111499762.7A
Authority: CN
Inventors: 于快; 时展; 李灏晖; 彭兴; 李琰
Original assignee: Shenzhen Maitu Precision Technology Co ltd
Current assignee: Shenzhen Maitu Precision Technology Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-18
Anticipated expiration: 2041-12-09
Also published as: CN114200048B

Abstract

本发明提供一种LC‑MS下机数据的处理方法及处理装置。处理方法包括：获取LC‑MS下机数据及参数文件并对数据进行转换的步骤；校正保留时间并进行色谱峰匹配的步骤；扣除次要加合离子峰并过滤冲突化合物的步骤；对互补峰进行合并的步骤；计算色谱峰之间的相关性的步骤；以及进行批次效应校正和标准化转换的步骤。采用上述方法，能够一次输入数百乃至数千个样本的LC‑MS下机数据，获得鉴定出尽可能多化合物的、去除批次效应的、去冗余的、可直接用于后续统计学分析的代谢组数据集。

Description

LC-MS下机数据的处理方法及处理装置

技术领域

本发明涉及分析化学领域的数据处理技术，特别是涉及一种对样本经LC-MS(液相色谱质谱联用仪)分析得到的下机数据进行处理获得代谢组数据集的方法及装置。

背景技术

代谢组学(metabolomics)是涉及代谢产物的化学过程的科学研究。具体而言，代谢组学是对特定的细胞过程遗留下的特殊化学指纹，即对它们的小分子代谢产物的整体研究。代谢组(metabolome)定义为在一个生物细胞、组织、器官或生物体中所有的代谢产物(化合物)的集合。

液相色谱质谱联用仪(LC-MS)因其卓越的灵敏度和广泛的覆盖范围成为代谢组学研究中常用的技术平台，通过它能快速而极为准确地鉴定生物小分子化合物。

LC-MS的高灵敏度导致对下机数据的处理相当复杂，主要的困难或陷阱包含以下几个方面：峰识别、峰积分(峰积分的目标是获得这些色谱峰的保留时间、高度和面积)、保留时间校正、加合离子去除、去除噪音和批次效应去除。目前的代谢组质谱数据处理方式多种多样，然而，对于以上提及困难的解决方法没有一致的标准，这就导致不同的处理方法获得的代谢组数据不同，降低了可比性与可信度。

色谱峰保留时间应具有高度可重复性，以便在样品之间准确选择峰。然而，给定代谢物(指同一化合物)的峰保留时间通常可能在相同检测条件不同检测批次中略有变化，可能是由色谱柱老化、样品过载、流动相pH值不稳定以及色谱柱温度和压力变化引起的。而且，即便在同一个样本中，不同的化合物对上述影响因素的反应不同，从而导致峰保留时间漂移的程度不同。所有这些在分析过程中都很难严格控制，尤其是在涉及数百或数千个样本的大规模代谢组学研究中。因此，保留时间的对齐是数据预处理中的一个重要步骤，以确保来自不同样品和不同检测批次中相同代谢物的峰对齐到相同的保留时间从而指向相同的代谢物或成分(化合物)。

LC-MS技术的高通量加上对大型实验的需求导致数据预处理，即跨样品的代谢物量化，成为主要瓶颈。目前市面上也有许多商用或非商用的数据处理软件，如CompoundDiscoverer,MSDIAL等。但是，现有软件最大的限制是单次处理的最大样本量受限，单次只能处理数十个样本，且极其耗费计算资源。对于数百甚至数千样本量的大型项目，必须分批次处理质谱数据，耗费极大的人力与时间成本。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种高通量的代谢组LC-MS下机数据的处理方法及装置。

为实现上述目的及其他相关目的，本发明第一方面提供一种液相色谱质谱联用仪数据的处理方法，所述方法至少包括以下步骤：

S1：读取LC-MS的下机数据、制作上机序列集(正模式B1和负模式B2)及参数文件，转换下机数据的一级全扫描图谱信息对每个数据进行解卷积并扣除背景基线，获得正模式数据集(A1)和负模式数据集(A2)。

S2：针对步骤S1获得的正模式数据集(A1)和负模式数据集(A2)，用至少一种方式校正每个样本间的保留时间漂移，再将每个样本内的色谱峰与参考数据库内的参考化合物特征进行匹配，将匹配上的化合物的色谱峰归为正模式靶向数据集(C1、C2、C3)和负模式靶向数据集(C4、C5、C6)；另将剩余未能匹配成功的色谱峰进行样本间的峰匹配，归为非靶向数据集(D1-D6)。

S3：对步骤S2不同方式下获得的正模式靶向数据集和负模式靶向数据集(C1和C4，C2和C5，C3和C6)的化合物分别进行匹配审查，按照只保留主要加合离子峰的原则扣除次要加合离子峰，并进行冲突化合物审查，对冲突化合物合并或过滤，针对不同方式分别建立靶向合并数据集(E1、E2和E3)。

S4：当进行了多种方式的保留时间校正时，对步骤S3获得的靶向合并数据集(E1、E2和E3)中不同方式下同一色谱峰在不同样本内的强度进行比较，保留最高样本检出率对应方式下该色谱峰的强度和化合物信息，建立平台靶向数据集(F)。

S5：将步骤S2和S3中获得的其中一种方式下产生的非靶向数据集和靶向合并数据集合并，计算两两色谱峰之间的相关性，保留低于相关性阈值的非靶向色谱峰，与步骤S4中得到的平台靶向数据集(F)合并，获得去冗余数据集(G)。

S6：对步骤S5获得的去冗余数据(G)进行缺失值填充处理后进行批次效应校正，再进行数据归一化，然后进行标准化转换，得到鉴定出化合物的、去除了批次效应的代谢组数据集(H)。

优选的是，在步骤S1中，批量将下机数据RAW文件(文件后缀为“.raw”)转换为BINARY文件(文件后缀为“.bin”)，再将BINARY文件再转化为HDF5文件(文件后缀为“.h5”)。

优选的是，步骤S1中，以用户自定义的适配文件中的参数值，将下机数据解卷积后，去除数据的噪音和背景后，按响应阈值筛选每个时间窗格中的色谱峰。

优选的是，在步骤S2中，所述方式包括：

方式一：参照样本的校正与化合物识别；

方式二：内部校准的校正与化合物识别；

方式三：不进行保留时间校正的化合物识别。

所述方式一是按设定的参数调整参数对步骤S1的数据集(A1或A2)中每个样本的保留时间漂移进行校正，并依据参考数据库中已储存的参考化合物不同加合离子的保留时间和质荷比进行化合物识别。方式一设定的参数为：参照样本中各校准化合物编号，化合物识别的保留时间窗口为正负0.4分钟，化合物识别的质量精度偏差为10ppm。

方式一保留时间漂移校正方法为：根据检测序列中邻近的两个参照样本内校准化合物的保留时间逐一对在这两个参照样本之间的其他样本的保留时间按区段进行校正，即将整个保留时间轴划分为多个时间段，在每个时间段内，计算参照样本中各校准化合物的实际保留时间与预期保留时间之间的差值，再使用局部线性校正的方法对其他生物样本的色谱峰的保留时间进行线性缩放。

具体的方式一保留时间漂移校正方法例如：在整个检测序列中，生物样本的保留时间按最邻近的头尾两个参照样本的保留时间进行校正，计算每个校准化合物在头尾两个参照样本内的保留时间差(RT₁-RT₂＝ΔRT)，将头尾两个参照样本中间的多生物样本对应的保留时间进行线性缩放至该校准化合物在头尾两个参照样本内的保留时间的均值(RT₁+0.5ΔRT)。

所述方式二是按设定的参数调整参数对步骤S1的数据集(A1或A2)中每个样本的保留时间漂移进行校正，并依据参考数据库中已储存的各参考化合物的不同加合离子的保留时间和质荷比进行化合物识别。方式二设定的参数为：化合物识别的保留时间窗口为正负0.4分钟，化合物识别的质量精度偏差为10ppm。

方式二保留时间漂移校正的方法为：不采用参照样本而是根据样本检出率和平均强度皆为最高的原则，在各保留时间轴上各时间段中筛选色谱峰作为校正其他生物样本的校正峰，再根据校正峰的保留时间轴逐一对其他样本的时间轴进行校正，用筛选出的校正峰的保留时间与质荷比信息匹配参考化合物，并将各匹配上参考化合物的校正峰的保留时间缺失值进行填充，再将各校正峰的实际保留时间替换为预期保留时间，最后对其他色谱峰的保留时间分段进行线性缩放。

具体的方式二保留时间漂移校正的方法例如：(a)筛选校正峰：按筛选校正峰的最低样本检出率(80％)，在各保留时间段(设定为0-1,1-2,2-5,5-8,8-10,10-11,11-13,13-16分钟)中用每个时间段对应的最低峰强度(分别为2+E07,5+E06,8+E06,2+E06,9+E05,5+E07,7+E07,9+E07)从参考化合物的色谱峰特征中筛选出备选校正峰；依据已存储于参考数据库中各参考化合物的不同加合离子的保留时间和质荷比对备选的校正峰进行化合物识别，筛选校正峰的化合物识别保留时间窗口为0.08分钟，筛选校正峰的化合物识别质量精度偏差为5ppm，筛选的备校正峰匹配上的参考化合物的预期保留时间即为校正峰的预期保留时间。对各校正峰保留时间的缺失值进行填充，填充值为该校正峰在所有检出样本中保留时间的中位值。(b)经过缺失值填充，每一个校正峰在所有样本中都有保留时间的值。将所有样本中的各校正峰一一对应后，将各校正峰的保留时间调整为预期保留时间，其余峰随之进行线性缩放完成校正。

所述方式三是指不对保留时间漂移进行校正，直接按设定的参数依据参考数据库中已储存的各参考化合物的不同加合离子的保留时间和质荷比对步骤S1的数据集(A1或A2)中每个样本进行化合物注释，产生靶向数据集(C3或C6)。设定的参数为：化合物识别的保留时间窗口为正负0.4分钟，化合物识别的质量精度偏差为10ppm。

优选的是，步骤S2中将色谱峰与参考化合物特征进行匹配的方法，包括以下步骤：1)对每个样本里的每个色谱峰，都与参考数据库中参考化合物不同加合离子的参考保留时间和参考质荷比进行匹配，其中，允许的质量精度偏差和保留时间窗口由用户自定义；2)计算每个加合离子的样本检出数、平均保留时间、平均质荷比和平均离子强度，并与参考保留时间、参考质荷比和参考离子强度进行对比。此步骤的目的是，一次过地对大批量的样本进行化合物鉴定，并返回代谢物谱易于判断的概括性特征，利于进行快速且精准的化合物鉴定。

优选的是，步骤S2中对剩余色谱峰进行样本间的峰匹配的方法，是将所有色谱峰在样本间进行两两对比，将在设定的质量精度偏差(如5ppm)以内和保留时间偏差(如0.03分钟)以内的峰作为同一化合物在不同样本间检测出的峰，归为同一个非靶向色谱峰。

优选的是，步骤S3中审查化合物匹配结果的方法，按参考化合物主要加合离子和各次要加合离子之间的关系，与样本中与之匹配的色谱峰组合间的关系进行比较。如果关系相似，认为是正确的化合物匹配结果，按照只保留主要加合离子峰的原则扣除次要加合离子峰；如果关系不相似，则认为是错误的匹配结果，此色谱峰组合归入未能匹配成功的非靶向数据集。关系相似至少需要满足以下条件：1)匹配到了主要加合离子，该离子峰在所有加合离子峰中强度最高；2)匹配到了第二加合离子或者第三加合离子，该离子峰的保留时间与主要加合离子峰的保留时间偏差在0.01分钟以内，且该离子峰的强度与主要加合离子峰强度的比值和参考化合物该次要加合离子峰与参考化合物主要加合离子峰强度的比值近似(两个比值偏差在0.1以内)；3)主要加合离子的检出样本数要不低于次要加合模式的检出样本数。

优选的是，步骤S3中过滤冲突化合物时，在化合物匹配结果正确的色谱峰中，比较具有相同保留时间和质荷比的色谱峰，筛选并合并满足特征的冲突化合物，不满足特征的色谱峰被过滤。保留的冲突化合物以化合物名称、保留时间偏差和质量精度偏差以“|”符号隔开合并表示。保留的冲突化合物至少需要满足以下特征：1)质量精度偏差小于设定值(如5ppm)，2)冲突化合物的检出样本数不低于此冲突组中最高检出样本数的设定百分比(如90％)。

优选的是，在步骤S5中，对步骤S2中采用参照样本的校正方式校正得到的非靶向数据集(D1和D4)，步骤S3中得到的靶向合并数据集(E1)中两两色谱峰的峰强度进行相关性比对，小于设定的相关性系数阈值(例如0.9)的非靶向色谱峰保留并入步骤S4中得到的平台靶向数据集(F)。

优选的是，步骤S6中，进行缺失值填充处理的方法采用Python语言的Pandas包进行，按实验设计进行调整：1)针对样本检出率低于设定百分数(如50％)的色谱峰，采用仪器检出下限的定值插补的方式进行处理，对样本检出率高于设定百分数(如50％)的色谱峰，采用插补该色谱峰中位值的方式进行处理；或者2)按实验设计分组，分别对每一个分组按每组的仪器检出下限进行定值插补；或者3)采用定值插补的方式进行处理，插补的值为仪器检出下限的五分之一。

步骤S6中，进行批次效应校正的方法，按实验设计和效果进行调整，包括1)NormAE方法：采用Python语言的NormAE脚本进行，输入步骤S1中的上机序列集的测量批次和测量顺序，使用默认参数，对色谱峰在不同批次的样本之间的强度进行校正，去除仪器响应波动的影响；或者2)总和方法：计算每个样本中所有色谱峰的强度总和，再计算所有样本强度总和的平均值和标准差，将每个样本强度总和减去该平均值后除以该标准差，获得缩放系数，最后将每个样本中的色谱峰强度都除以该样本的缩放系数；或者3)中位值方法：计算每个样本中所有色谱峰的强度中位值，再计算所有样本强度中位值的平均值和标准差，将每个样本强度中位值减去该平均值后除以该标准差，获得缩放系数，最后将每个样本中的色谱峰强度都除以该样本的缩放系数；或者4)分位数方法：将每个样本中的色谱峰强度按从高到低排序，计算排序第一的色谱峰强度的均值，并将所有样本中排序第一的色谱峰强度替换为该均值，同理对排序第二、三……的色谱峰强度进行替换。

步骤S6中，数据归一化的方法，按实验设计和效果进行调整，包括1)均值归一化：将每个样本中的色谱峰强度减去样本色谱峰强度的均值；或者2)Z-score标准化：将每个样本中的色谱峰强度减去样本色谱峰强度的均值后，除以样本色谱峰强度的标准差；或者3)离差标准化：将每个样本中的色谱峰强度减去样本色谱峰强度的均值后，除以样本色谱峰强度的强度范围(最大值减最小值)。

步骤S6中，标准化转换的方法选自log2标准化方法。

本发明第二方面提供一种代谢组质谱数据的分析方法，对本发明第一方面LC-MS下机数据的处理方法得到的代谢组数据集进行批次效应校正效果分析，包括以下步骤：

1)使用批次效应校正前的代谢组质谱数据，使用R语言的prcomp()函数，观察参照样本与待测样本代谢组在PC1和PC2上的空间位置；

2)使用批次效应校正后的代谢组数据，按照步骤1)同样的方法进行PCA分析，对比两步骤产生的PCA图。

本发明再一方面提供一种生物代谢组的液相色谱质谱联用仪数据的处理装置，执行前述对LC-MS下机数据处理方法的操作，所述装置包括：

获取模块，用于获取下机数据、上机序列集及参数文件，并对下机数据的一级全扫描图谱信息进行转换得到数据集；

保留时间校正及化合物识别模块，设定至少一种方式，用于校正样本间的保留时间漂移后，再将每个样本内的色谱峰与参考数据库内的参考化合物特征进行匹配，将匹配上的化合物的色谱峰归为靶向数据集；并将剩余未能匹配成功的色谱峰进行样本间的峰匹配，获得非靶向数据集；

化合物匹配及冲突化合物审查模块，用于审查每个样本内的色谱峰与数据库内的参考化合物特征进行匹配的关系是否正确，过滤或合并冲突化合物的色谱峰；

保留时间校正审查模块，用于比较不同保留时间校正及化合物识别方式下匹配上相同化合物的色谱峰；

冗余峰过滤模块，用于过滤相关性高的色谱峰；

批次效应校正模块，用于对所获得的去冗余数据进行缺失值处理，然后根据参数文件中的批次信息对缺失值处理后的数据进行批次效应校正，然后进行数据归一化，最后进行标准化转换，得到代谢组数据集。

本发明又一方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述对LC-MS下机数据的处理方法和前述代谢组质谱数据的分析方法。

如上所述，本发明的代谢组LC-MS下机数据处理方法及装置，具有以下有益效果：

本发明的代谢组LC-MS数据处理方法及装置针对不同化合物保留时间漂移程度不同的情况，设计有三种方式对保留时间进行校正并进而进行化合物鉴定。然后，针对鉴定出的化合物，审核其在不同方式下的样本检出率和强度并进行合并。这是因为大规模代谢组学研究的保留时间漂移范围可能很大，单一方式的保留时间校正可能没有办法完美校正所有样本的偏移，导致只能在部分样本中鉴定出的化合物。本发明同时采用三种保留时间校正与化合物识别方法，可以起到互相补充、互为印证的作用。与传统的单一保留时间校正与化合物识别方法相比，在化合物鉴定上具有显著的优越性。

本发明的代谢组LC-MS下机数据处理流程，其最大特征在于能够一次输入数百甚至数千个样本的LC-MS检测下机数据，获得一个鉴定出尽可能多化合物的、去除批次效应的、去冗余的、可直接用于后续统计学分析的代谢组数据集(其为由样本名称、色谱峰编号、化合物名称和峰强度构成的矩阵)。本发明针对LC-MS数据处理的困难进行各个击破并实现全局最优，显著降低了单个样本的处理时间和人力资源，在保证准确性的同时，使得该方法相比传统方法具有更好的适应性和应用范围。

附图说明

图1为本发明一实施例中代谢组LC-MS下机数据处理方法的流程图。

图2为本发明一实施例中代谢组LC-MS下机数据处理装置的示意图。

图3为本发明一实施例中代谢组LC-MS下机数据处理方法流程中涉及的具体数据集展示流程图。

图4为参照样本的一级全扫描色谱图(A幅为色谱图，B幅为质谱图)，显示了一个参照样本的下机数据，以总离子流图形式展示。

图5所示为某一示例标准化合物的散点图，显示采用参照样本的校正方法时，所有参照样本中该校准化合物按上机顺序排列的保留时间，以展示保留时间漂移。

图6所示为某一示例化合物的散点图，显示采用内部校准的校正方法时，所有样本中该化合物按上机顺序排列的保留时间，以展示保留时间漂移。

图7为本发明一实施例中保留时间校正审查的示例散点图。

图8为本发明一实施例中批次效应校正分析的示例散点图。

具体实施方式

本申请涉及一种对样本经LC-MS(液相色谱质谱联用仪)分析得到的下机数据进行处理获得代谢组数据集的方法及装置。

液相色谱(LC)，可根据化合物极性在时间维度(X轴)上分离样品中复杂混合物的组分，各组分(各化合物)流经质谱检测器时响应的连续信号在色谱图上显示为特征峰，质谱仪(MS)测量各特征峰对应化合物的质荷比(Y轴)及特征峰信号强度(Z轴)。由保留时间(X轴)、质荷比(Y轴)和信号强度(Z轴)组合定义的特征峰被称作色谱峰，全部色谱峰的集合生成一个能包含有样品中各组分信息的三维矩阵。本申请中的下机数据，是指样本通过例如ACQUITY UPLC I-Class液相色谱系统(沃特世)和例如Q-Exactive质谱系统(赛默飞世尔科技)联用的LC-MS检测产生的三维矩阵，以Q-Exactive质谱系统默认的RAW数据格式呈现。

参数文件指包含下述步骤中所有参数设定值的R语言脚本。

代谢组数据集，是指下机数据经本申请处理后最终产出的与诸多代谢物质(化合物)相关的信息，其为由色谱峰编号、化合物名称和在样本中检出的峰强度构成的数据集。

被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间，也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间，称为此组分的保留时间，用RT表示，常以分钟(min)为时间单位。

参考数据库：包含多个参考化合物在与样本相同色谱、质谱、离子源条件下产生的参考化合物特征。

参考化合物：是包含精确已知浓度的物质的化学标准品，参考样本中的校准化合物属于参考化合物的一种。

总离子流色谱图(TIC)是通过将属于同一扫描的所有质谱峰的强度相加而创建的色谱图(图4就是TIC)。

参考化合物特征为某个特定化合物在相同的LC-MS实验环境中产生的色谱峰，包含了常见的电喷雾离子源(ESI)加合离子类型的母离子的碎片信息，除了正离子模式下常见的[M+H]⁺和负离子模式下常见的[M-H]^-之外，还包含了[M+H-H₂O]⁺，[M+Na]⁺，[M+NH₄]⁺，[M+H-NH₃]⁺，[2M+H]⁺，[M-H-H2O]^-，[2M-H]^-和[M-2H]^2-等形式的加合离子数据。

正模式与负模式指质谱系统中电喷雾电离(electrospray ionization,ESI)的两种离子化模式。ESI将液态样品转为气相，并将不带电的分子变为带正电或者负电的分子离子。

特定的物质通过ESI后会根据其本身的物理化学性质被电离成一种到多种不同的加合离子，其中占比最多的是主要加合离子，占比第二多的是次要加合离子。

同一个色谱峰可能会被匹配上不同的化合物，这些化合物就被称为冲突化合物。

质荷比指带电离子的质量与所带电荷之比值，以m/z表示。质量精度偏差是描述实测离子质荷比与准确离子质荷比之间差异的指标(以ppm表示)。

主成分分析(Principle component analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分(Principle component,PC)。PC1为第一主成分，是数据集中对方差贡献最大的特征，同理，PC2为第二主成分。

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

以一个用于人类血浆代谢组学研究的数据为例，说明本发明提供的一种代谢组LC-MS下机数据的处理系统。

本实施例针对3300个样本进行LC-MS检测，样本包括生物样本(血浆)和参照样本。参照样本由数个化学标准品(包含校准化合物)混合而成，这些标准品的参考信息存在于参考数据库中。参照样本在每批血浆(例如，每批检测的生物样本数量为40个)检测开始、中间(例如，每间隔10个生物样本)和结束时上机检测。每个标准品在参照样本下机数据的色谱峰可用于评估该峰对称性，还可以评估色谱稳定性和质量精度，还可以用来进行保留时间校正。

本实施例中，所有样本使用ACQUITY UPLC I-Class液相色谱系统(沃特世)和Q-Exactive质谱系统(赛默飞世尔科技)采集信息，其中质谱仪为配有电喷雾电离源(ESI)的静电场轨道阱(Orbitrap)质谱。具体操作为：将待检批次的各样本玻璃进样小瓶中的3μl上清液注入经

1.8μm，2.1mm×30mm的ACQUITY UPLC HSS T3色谱柱分离(流动相A为含0.1％甲酸水溶液，流动相B为含0.1％甲酸的乙腈溶液，均为色谱纯)，随即由联用的Q-Exactive质谱系统进行检测，获得该批次各检测样品的下机数据，均为Q-Exactive质谱系统默认的RAW数据格式。

下面参照图1至图3，说明针对LC-MS下机数据的处理方法和处理装置。

对LC-MS检测的下机数据的处理具体包括如下步骤，是由图2所示的代谢组质谱数据处理装置的各个模块来执行的。本发明一实施例中数据处理方法流程(参见图1)中涉及的具体数据集如图3所示。

【步骤S1】读取LC-MS的下机数据、制作上机序列集及参数文件，转换下机数据的一级全扫描图谱信息对每个数据进行解卷积并扣除背景基线，获得正模式数据集A1和负模式数据集A2。

1)首先读取该批次样本检测产生的所有待处理的下机数据RAW文件的一级全扫描图谱信息(参见图4所示)，批量将RAW文件(文件后缀为“.raw”)转换为BINARY文件(文件后缀为“.bin”)，对每个数据进行解卷积并扣除背景基线并转化为HDF5文件(文件后缀为“.h5”)。正模式所有HDF5文件为数据集A1，负模式所有HDF5文件为数据集A2。

参照样本的一级全扫描色谱图参见图4所示，该参照样本的A1数据集如下表：

Peak_ID	RT	MZ	INTENSITY
				1	4.280215	102.0462	352698.4
2	4.3136504	102.0462	240689.3
				3	0.512868	102.9700	1744925.0
省略4048个	……	……	……
				4052	17.47795	993.7471	90258.9

注：表中，RT表示峰保留时间(X轴值)，MZ表示质荷比(Y轴值)，INTENSITY表示峰强度(即信号强度，Z轴值)。以下同。

该参照样本的A2数据集如下表：

Peak_ID	RT	MZ	INTENSITY
				1	0.625573	100.9336	1060720.3
2	3.237853	100.9334	1880686.7
				3	0.626843	101.9338	133571.5
省略3158个	……	……	……
				3162	9.458827	867.298	2002522

本实施例中某一生物样本的数据集A1和数据集A2如下表所示。

Peak_ID	RT	MZ	INTENSITY
				1	4.746851	128.4685	95820.3
2	8.074239	128.4695	105615.5
				3	8.496752	129.0016	132886.4
省略12813个	……	……	……
				12817	11.156785	794.5988	146583.4

2)接着制作所有样本的正模式上机序列集B1和负模式上机序列集B2。举例来说，一个样本分别检测了正模式和负模式，则需要分别制作正模式和负模式两个上机序列表，本实施例3300个样本的示例数据集B1和B2见表1和表2(表中省略了中间上机样本3294个)。上机序列表包含以下五个变量：

File_Name：该样本对应的HDF5文件名。

Group：样本对应的分组，生物样本标为“US”，参照样本标为“QM”。

Msrt_Day：测量批次，按测量开始日期从早到晚排序，并从1开始编号，每个批次内的编号一致。

Msrt_Order：测量顺序，按测量先后顺序从前到后排序，并从1开始顺序编号至所有测量批次的最后一个样本，每个批次内的编号不一致。

Sample_ID：样本编号，一个样本在同一平台内的样本编号唯一，且在上机序列表中分别对应上正模式的HDF5文件名和负模式的HDF5文件名。

表1：正模式上机序列表B1

表2：负模式上机序列表B2

File_Name	Group	Msrt_Day	Msrt_Order	Sample_ID
					SMP001_PN	QM	1	1	SMP0001
SMP002_PN	US	1	2	SMP0002
					SMP003_PN	US	1	3	SMP0003
……(省略7个)	US	1	……	……
					SMP0011_PN	QM	1	11	SMP0011
SMP0012_PN	US	1	12	SMP0012
					……(省略3287个)	……	……	……	……
SMP3300_PN	QM	74	3300	SMP3300

3)制作参数文件

参数文件为R语言脚本，内含后续所有步骤所需的参数，用户可根据实际需求调整参数。以下步骤中列举的本实施例中使用到的参数设定值都可通过此文件进行调整。参数包括：

参照样本中各校准化合物的编号：各校准化合物在参考数据库中的化合物编号。

化合物识别的保留时间窗口：进行化合物识别时，允许的实测保留时间和参考数据库中该化合物的保留时间之间的最大偏差范围。

化合物识别的质量精度偏差：进行化合物识别时，允许的实测质荷比和参考数据库中该化合物的质荷比之间的最大偏差范围。

筛选校正峰的最低样本检出率：筛选校正峰时允许的最低样本检出率。

筛选校正峰的化合物识别保留时间窗口：筛选校正峰的化合物时，进行该化合物识别允许的实测保留时间和参考数据库中参考化合物的保留时间之间的最大偏差范围。

筛选校正峰的化合物识别质量精度偏差：筛选校正峰时，进行化合物识别允许的实测质荷比和参考数据库中参考化合物的质荷比之间的最大偏差范围。

筛选校正峰的保留时间段：分保留时间段筛选校正峰。

筛选校正峰的保留时间段对应最低峰强度：每个保留时间段内筛选校正峰时，允许的最低峰强度。

【步骤S2】针对步骤S1获得的数据集A1和数据集A2，校正每个样本间的保留时间漂移，再将每个样本内的色谱峰与参考数据库内的参考化合物特征进行匹配，将匹配上的化合物的色谱峰归为靶向数据集(C1-C6)，并将剩余未能匹配成功的色谱峰进行样本间的峰匹配，归为非靶向数据集(D1-D6)。

校正和识别方式至少包括以下三种：

方式一：参照样本的校正与化合物识别

作为步骤S2的一种方式，可以将前述数据集A1和B1输入保留时间校正及化合物识别模块，该模块中加载有参考数据库，参考化合物的信息(如表3所示)已存储于参考数据库中，其中参照样本的校准化合物给定化合物编号，按设定的参数调整参数对每个样本的保留时间漂移进行校正，并依据各参考化合物的不同加合离子的保留时间和质荷比进行化合物识别。设定的参数为：参照样本中各校准化合物编号，化合物识别的保留时间窗口为正负0.4分钟，化合物识别的质量精度偏差为10ppm。

1)保留时间漂移校正的具体操作：在整个检测序列中，生物样本的保留时间按最邻近的头尾两个参照样本的保留时间进行校正。参照样本是同一样品的技术重复，因此所有参照样本中都有这十个校准化合物一一对应的色谱峰。一个校准化合物在头尾两个参照样本间的保留时间漂移可以反映中间十个生物学样本在此校准化合物保留时间附近色谱峰的保留时间漂移程度。假设保留时间的漂移是线性匀速的。因此，头尾两个参照样本内校准化合物一一对应后，计算每个校准化合物在头尾两个参照样本内的保留时间差(RT_obs-RT_ref＝ΔRT)，将两个参照样本中间的十个生物样本对应的保留时间(RT_obs+0.09ΔRT，RT_obs+0.18ΔRT，…,RT_obs+0.91ΔRT)进行线性缩放至该校准化合物在两个参照样本内的保留时间的均值(RT_obs+0.5ΔRT)。

本方式某一参照样本中各校准化合物的示例总离子流图见图4(图4为十种校准化合物的混和样本的正模式总离子流色谱图TIC)，各校准化合物的色谱峰已用箭头标出，A幅色谱峰上数值表示保留时间，B幅色谱峰上数值表示质荷比。

本方式中采用的校准化合物的预期保留时间与实测保留时间见图5(以其中一个校准化合物RfC0001为例)，图中横坐标表示该校准化合物上机检测顺序，纵坐标表示保留时间，参照样本中校准化合物的实测保留时间以点示意，预期保留时间以虚线表示。该图显示了该校准化合物RfC0001的保留时间漂移情况。

2)对采用参照样本的校正方式进行保留时间校正后的A1和B1的数据进行化合物识别，即与参考数据库中参考化合物的色谱峰特征进行匹配，产生正模式靶向数据集C1和正模式非靶向数据集D1。正模式下的靶向数据集C1中包含数据集A1中所有匹配上化合物的色谱峰(亦为离子峰)。将剩余未能匹配成功的色谱峰进行样本间的峰匹配，归为非靶向数据集D1，包含数据集A1中剩余的所有未匹配上化合物的色谱峰。下表展示一个生物样本经该步处理后的正模式靶向数据集C1，“Compound_ID”列显示了校准化合物的标号，“Adduct”列显示加合方式；剩余的所有未匹配上化合物的色谱峰归集到正模式非靶向数据集D1中，D1表格中没有“Compound_ID”和“Adduct”列。

Peak_ID	RT	MZ	INTENSITY	Compound_ID	Adduct
						111	4.9890	123.0447	1546892.6	RfC0001	[M+2H-HCOOH]2+
112	4.9890	273.0757	371254.1	RfC0001	[M+H-H2O]+
						省略2416个	……	……	……	……	……
11468	11.1567	794.5988	146583.4	RfC1963	[M+H]+

按照同样的方式，由前述数据集A2和B2，产生负模式靶向数据集C4和负模式非靶向数据集D4。

样本间峰匹配的方法为，所有色谱峰在样本间进行两两对比，质量精度偏差5ppm以内和保留时间偏差为0.03分钟以内的峰，可以认为是同一个物质在不同样本间检测出的峰，归为同一个非靶向色谱峰。

方式二：内部校准的校正与化合物识别

作为步骤S2的另一种方式，可以将前述数据集A1和B1输入保留时间校正及化合物识别模块，该模块中加载有参考数据库，参考化合物的信息(如表3所示)已存储于参考数据库中，按设定的参数调整参数对每个样本的保留时间漂移进行校正，并依据各参考化合物的不同加合离子的保留时间和质荷比进行化合物识别。设定的参数为：筛选校正峰的最低样本检出率为80％，筛选校正峰的保留时间段设定为0-1,1-2,2-5,5-8,8-10,10-11,11-13,13-16分钟，每个时间段对应的最低峰强度为2+E07,5+E06,8+E06,2+E06,9+E05,5+E07,7+E07,9+E07，筛选校正峰的化合物识别保留时间窗口为0.08分钟，筛选校正峰的化合物识别质量精度偏差为5ppm，化合物识别的保留时间窗口为正负0.4分钟，化合物识别的质量精度偏差为10ppm。

1)保留时间漂移校正的具体操作：(a)筛选校正峰：按筛选校正峰的最低样本检出率(80％)，在各保留时间段(设定为0-1,1-2,2-5,5-8,8-10,10-11,11-13,13-16分钟)中用每个时间段对应的最低峰强度(分别为2+E07,5+E06,8+E06,2+E06,9+E05,5+E07,7+E07,9+E07)从参考化合物的色谱峰特征(特征峰)中筛选出备选校正峰。备选的校正峰输入保留时间校正及化合物识别模块，该模块中加载有参考数据库，参考化合物的信息(如表3所示)已存储于参考数据库中，依据各参考化合物的不同加合离子的保留时间和质荷比进行化合物识别，筛选校正峰的化合物识别保留时间窗口为0.08分钟，筛选校正峰的化合物识别质量精度偏差为5ppm。通过筛选的备选校正峰即为校正峰，匹配上的参考化合物的预期保留时间即为校正峰的预期保留时间(图6中虚线表示)。对各校正峰保留时间的缺失值进行填充，填充值为该校正峰在所有检出样本中保留时间的中位值。(b)经过缺失值填充，每一个校正峰在所有样本中都有保留时间的值。将所有样本中的各校正峰一一对应后，将各校正峰的保留时间调整为预期保留时间，其余峰随之进行线性缩放，即达到了保留时间校正的目的。

本方式筛选出的参考化合物的预期保留时间与实测保留时间见图6(以其中一个参考化合物AnC4688为例)，图中横坐标表示上机检测顺序，纵坐标表示保留时间，参考化合物的实测保留时间以点示意，预期保留时间以虚线表示。该图显示了该参考化合物的保留时间漂移情况。

2)对采用内部校准的校正方式进行保留时间校正后的A1和B1数据进行化合物注释，即与数据库内的参考化合物特征进行匹配，产生正模式靶向数据集C2，将剩余未能匹配成功的色谱峰进行样本间的峰匹配，归为正模式非靶向数据集D2(数据集形式同前)。按照同样的方式，由前述数据集A2和B2，产生负模式靶向数据集C5和负模式非靶向数据集D5。

样本间峰匹配的方法为，所有色谱峰在样本间进行两两对比，质量精度偏差5ppm以内和保留时间偏差为0.03分钟以内的峰，可以认为是同一个物质在不同样本间检测出的峰，因此归为同一个非靶向色谱峰。

方式三：不进行保留时间校正的化合物识别

作为步骤S2的又一种方式，不对保留时间漂移进行校正，直接将前述数据集A1和B1输入化合物识别模块，该模块中加载有参考数据库，参考化合物的信息(如表3所示)已存储于参考数据库中，按设定的参数依据各参考化合物的不同加合离子的保留时间和质荷比进行化合物注释，产生正模式靶向数据集C3，将剩余未能匹配成功的色谱峰进行样本间的峰匹配，归为正模式非靶向数据集D3(数据集形式同前)。按照同样的方式，由前述数据集A2和B2，产生负模式靶向数据集C6和负模式非靶向数据集D6。设定的参数为：化合物识别的保留时间窗口为正负0.4分钟，化合物识别的质量精度偏差为10ppm。

化合物识别使用的参考化合物的信息示例(以一个校准化合物RfC0001为例)见表3。

表3：参考数据库(以D-(+)-Catechin(儿茶素)示例)

Mode

Compound_ID

Compound_Name

Adduct

MZ

RT

INT

Ratio

Pos

RfC0001

D-(+)-Catechin

[M+2H-HCOOH]2+

123.0447

4.916

8.00+E08

1.0

Pos

RfC0001

D-(+)-Catechin

[M+H-H2O]+

273.0757

4.916

1.92+E07

0.24

Pos

RfC0001

D-(+)-Catechin

[M+H]+

291.0865

4.916

7.2+E06

0.09

Neg

RfC0001

D-(+)-Catechin

[M-H]-

289.0717

4.918

1.00+E08

1.0

Neg

RfC0001

D-(+)-Catechin

[2M-H]-

579.1503

4.918

0

【步骤S3】对步骤S2不同方式下获得的正模式靶向数据集和负模式靶向数据集(C1和C4，C2和C5，C3和C6)的化合物分别进行匹配审查，按照只保留主要加合离子峰(即各加合离子峰中相对强度最高的峰)的原则扣除次要加合离子峰，并进行冲突化合物审查，对冲突化合物合并或过滤，针对不同方式分别建立靶向合并数据集(E1、E2和E3)。

将上述步骤S2方式一中得到的正模式数据集C1和负模式数据集C4输入化合物匹配及冲突化合物审查模块，按参考化合物主要加合离子和各次要加合离子之间的关系，与样本中与之匹配的色谱峰组合间的关系进行比较。如果关系相似，认为是正确的化合物匹配结果并给匹配度评级，按照只保留主要加合离子峰的原则扣除次要加合离子峰；如果关系不相似，则认为是错误的匹配结果，此色谱峰组合归入未能匹配成功的色谱峰矩阵。关系相似至少需要满足以下条件：1)匹配到了主要加合离子，该离子峰在所有加合离子峰中强度最高；2)匹配到了第二加合离子或者第三加合离子，该离子峰的保留时间与主要加合离子峰的保留时间偏差在0.01分钟以内，且该离子峰的强度与主要加合离子峰强度的比值和参考化合物该次要加合离子峰与参考化合物主要加合离子峰强度的比值近似(两个比值偏差在0.1以内)；3)主要加合离子的检出样本数要不低于次要加合模式的检出样本数。

化合物匹配审查示例如下，参见表4。

表4：化合物匹配审查(以儿茶素示例)

Peak	Mode	Adduct	Mean_RT	Mean_INT	Obs_Ratio	Count	RT	INT	Ratio
										111	Pos	[M+2H-HCOOH]2+	4.989	1.00+E06	1.0	1000	4.916	8.00+E08	1.0
112	Pos	[M+H-H2O]+	4.988	2.80+E05	0.28	500	4.916	1.92+E07	0.24
										113	Pos	[M+H]+	0	0	0	0	4.916	7.2+E06	0.09
114	Neg	[M-H]-	4.968	5.10+E05	1.0	500	4.916	1.00+E08	1.0
										115	Neg	[2M-H]-	4.973	4.08+E05	0.8	200	4.916	0	0

如此例所示，正模式和负模式数据集C1(离子峰111-113)和C4(离子峰114-115)中都匹配到了参考化合物——标号RfC0001的校准化合物儿茶素，审查认为其中正模式数据集C1的111号峰匹配满足了1)匹配到了主要加合离子[M+2H-HCOOH]2+，该离子峰在所有加合离子峰(111-115号)中强度(Mean_INT)最高；2)匹配到了第二加合离子[M+H-H2O]+，该离子峰(112号峰)的平均保留时间(Mean_RT)为4.988分钟，主要加合离子峰(111号峰)的保留时间(Mean_RT)为4.989分钟，二者的差值为0.001分钟，在0.01分钟以内；且该112号离子峰的强度与111号主要加合离子峰强度的比值(Obs_Ratio)为0.28，参考化合物该次要加合离子峰与参考化合物主要加合离子峰强度的比值(Ratio)为0.24的差值，二者差值为0.04，小于0.1；3)对应主要加合离子峰的检出样本数(Count)为1000，高于对应第二加合离子峰的检出样本数(Count)500。因此审查可以确认C1中的色谱峰111匹配的化合物是儿茶素。

步骤S3中冲突化合物审查时，在匹配审查确认化合物匹配结果正确的色谱峰中，比较具有相同保留时间和质荷比的色谱峰并进行筛选，保留的冲突化合物至少需要满足以下特征：1)质量精度偏差小于5ppm，2)冲突化合物的检出样本数不低于此冲突组中最高检出样本数的90％。不满足该标准的色谱峰被过滤。保留的化合物以化合物名称、保留时间偏差和质量精度偏差以“|”符号隔开合并表示。

化合物冲突过滤示例如下，参见表5。

表5：化合物冲突审查(以儿茶素和4',5,5'-三羟基-3-甲氧基-2'-甲基-2-联苯羧酸示例)

如此例所示，表5中的色谱峰111对应化合物儿茶素和色谱峰222(也如表4示例方式从C1数据集中确认得到)对应的化合物4',5,5'-Trihydroxy-3-methoxy-2prime-methyl-2-biphenylcarboxylic acid(4',5,5'-三羟基-3-甲氧基-2'-甲基-2-联苯羧酸)有相同的保留时间(Mean_RT)和质量精度(Mean_MZ)，且与各自参考保留时间偏差(RT_Diff)都小于0.01分钟，质量精度偏差(MZ_Difff_ppm)都小于5ppm，检出样本数量(Count)相等，都是[M+2H-HCOOH]2+加合离子且都是主要加合离子。因此表5中的色谱峰111和色谱峰222对应的为冲突化合物，合并为同一化合物，化合物名称(Compound)为“儿茶素|4',5,5'-三羟基-3-甲氧基-2'-甲基-2-联苯羧酸”，保留时间偏差(RT_Diff)为“-0.073|0.071”分钟，质量精度偏差(MZ_Difff_ppm)为“-3.1|0.1”ppm。将该化合物注释信息归入靶向合并数据集E1中。

按照同样的方式，由数据集C2和C5获得靶向合并数据集E2，由数据集C3和C6获得靶向合并数据集E3。

【步骤S4】当进行了多种方式的保留时间校正时，将步骤S3获得的靶向合并数据集(E1、E2和E3)，对不同保留时间校正方式下同一色谱峰在不同样本内的强度进行合并，保留最高强度，建立平台靶向数据集(F)。

由于步骤S2中采用了多种方式的保留时间校正，将步骤S3中得到的三个靶向合并数据集E1，E2和E3输入保留时间校正审查模块，在该模块评估不同保留时间校正方式下每个化合物注释的表现，每个注释取在不同保留时间校正方式下在每个样本(SMP0001……)中的最高强度。最终获得平台靶向数据集F，数据集F形式为二维矩阵，“行”为每一色谱峰，“列”为该色谱峰注释上的化合物信息和该峰在每个样本中的强度，表6以色谱峰111为例显示其在数据集F中的形式。

步骤S4示例见图7。此示例是某化合物在各检出样本中的保留时间(上图)和强度(下图)，按检测训练从左到右排列。参照样本的保留时间校正方法用交叉“×”表示，内部校准的保留时间校正方法用实心三角“▲”表示，不校正保留时间的方法用空心圆圈“○”表示。重叠的图形表示在不同的校正方法下找到的相同的色谱峰。此示例可以认为不校正保留时间的方式具有最高的样本检出率(出现该化合物的样本数量最多)，因此，在平台靶向数据集F中保留该化合物在不校正保留时间的方式下找到的化合物信息和样本强度。

【步骤S5】不管执行了几种保留时间校正方法，都只使用其中一种校正方式产生的非靶向数据集和靶向数据集进行合并，来计算两两色谱峰之间的相关性并过滤冗余非靶向色谱峰。

例如，将步骤S2和S3中获得的使用相同保留时间校正方式下产生的非靶向数据集(D1和D4)和靶向合并数据集(E1)合并，计算两两色谱峰之间的相关性，保留低于相关性阈值的非靶向色谱峰，与步骤S4中得到的平台靶向数据集(F)合并，获得去冗余数据集(G)。

将步骤S2中采用内部校准的校正方式校正得到的非靶向数据集D1和D4，步骤S3中得到的靶向合并数据集E1一起输入冗余峰过滤模块，在该模块中对两两色谱峰的峰强度进行相关性比对，设定相关性系数阈值为0.9，保留相关性系数小于0.9的非靶向色谱峰，并与步骤S4中得到的平台靶向数据集F合并，获得去冗余数据集G，数据集G的形式与数据集F相同。

【步骤S6】对步骤S5获得的去冗余数据集(G)进行缺失值填充处理后进行批次效应校正，然后进行标准化转换，得到鉴定出化合物的、去除了批次效应的代谢组数据集(H)。

具体操作为：将去冗余数据集G输入批次效应校正模块，首先进行缺失值填充处理，然后进行批次效应校正，最后进行标准化转换，得到最终代谢组数据集H。其中：

缺失值填充处理的方法包括采用Python语言的Pandas包进行，针对样本检出率低于50％的色谱峰，采用仪器检出下限的定值插补的方式进行处理，对样本检出率高于50％的色谱峰，采用插补该色谱峰中位值的方式进行处理，将色谱峰的缺失值填充完整。

批次效应校正的方法采用Python语言的NormAE

(https://github.com/luyiyun/NormAE)脚本进行，输入如表1和表2中所示的测量批次和测量顺序，使用默认参数，对色谱峰在不同批次的样本之间的强度进行校正，去除仪器响应波动的影响。该步骤同时对参照样本和生物样本进行批次效应校正，以便对批次效应的校正效果进行评估。

批次效应的校正效果评估也称批次效应校正效果分析。首先，对于去冗余数据集G进行缺失值填充处理后的数据，做PCA分析，作为批次效应校正前的数据。具体而言，使用R语言的prcomp()函数，观察参照样本与待测生物样本代谢组在PC1和PC2上的空间位置。然后，对于进行了批次效应校正后的数据，再做PCA分析，作为批次效应校正后的数据。同样，使用R语言的prcomp()函数，观察参照样本与待测生物样本代谢组在PC1和PC2上的空间位置。批次效应校正效果分析的示例见图8。图中灰色三角为待测样本，黑色方块为参照样本。可见批次效应校正前，参照样本和待测样本空间位置重叠，而批次效应校正后，两组的空间位置不重叠且聚集在各自的中心，认为批次效应校正的效果好。其余情况可认为效果不佳。

数据归一化的方法选择均值归一化，即将每个样本中的色谱峰强度减去样本色谱峰强度的均值。

标准化转换的方法选自log2标准化方法，即将样本中每个色谱峰的原始强度转化为以2为底的对数。将转化后的数据归入最终代谢数据集中。最终代谢组数据集H中某一化合物的示例见表7(以D-(+)-Catechin儿茶素示例)。

以上详细介绍了本发明的代谢组LC-MS下机数据的处理方法，对应的，本发明进一步提供一种生物代谢组的液相色谱质谱联用仪数据的处理装置，能够执行前述对LC-MS下机数据处理方法的操作，所述装置包括：

化合物匹配及冲突化合物审查模块，用于审查每个样本内的色谱峰与数据库内的参考化合物特征进行匹配的关系是否正确，过滤或合并具有相同保留时间和质荷比的冲突化合物的峰；

保留时间校正审查模块，用于确定不同保留时间校正及化合物识别方式下匹配上相同化合物的色谱峰；

冗余峰过滤模块，用于过滤相关性高的色谱峰；

本发明还依据前述LC-MS下机数据处理方法，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被计算机的处理器执行时实现包括步骤S1至步骤S6的处理方法。

Claims

1.一种LC-MS下机数据的处理方法，所述方法包括以下步骤：

S1：读取LC-MS的下机数据、制作上机序列集(正模式B1和负模式B2)及参数文件，转换下机数据的一级全扫描图谱信息对每个数据进行解卷积并扣除背景基线，获得正模式数据集(A1)和负模式数据集(A2)；

S2：针对步骤S1获得的正模式数据集(A1)和负模式数据集(A2)，用至少一种方式校正每个样本间的保留时间漂移，再将每个样本内的色谱峰与参考数据库内的参考化合物特征进行匹配，将匹配上的化合物的色谱峰归为正模式靶向数据集(C1、C2、C3)和负模式靶向数据集(C4、C5、C6)；另将剩余未能匹配成功的色谱峰进行样本间的峰匹配，归为非靶向数据集(D1-D6)；

S3：对步骤S2不同方式下获得的正模式靶向数据集和负模式靶向数据集(C1和C4，C2和C5，C3和C6)的化合物分别进行匹配审查，按照只保留主要加合离子峰的原则扣除次要加合离子峰，并进行冲突化合物审查，对冲突化合物合并或过滤，针对不同方式分别建立靶向合并数据集(E1、E2和E3)；

S4：当进行了多种方式的保留时间校正时，对步骤S3获得的靶向合并数据集(E1、E2和E3)中不同方式下同一色谱峰在不同样本内的强度进行比较，保留在每个样本中的最高强度和化合物信息，建立平台靶向数据集(F)；

S5：将步骤S2和S3中获得的其中一种方式下产生的非靶向数据集和靶向合并数据集合并，计算两两色谱峰之间的相关性，保留低于相关性阈值的非靶向色谱峰，与步骤S4中得到的平台靶向数据集(F)合并，获得去冗余数据集(G)；

2.如权利要求1所述的处理方法，其特征在于，

在步骤S1中，批量将下机数据RAW文件转换为BINARY文件，再将BINARY文件再转化为HDF5文件。

3.如权利要求1或2所述的处理方法，其特征在于，

在步骤S2中，所述方式包括下述方式一至方式三中的至少一种：

方式一：参照样本的校正与化合物识别；

方式二：内部校准的校正与化合物识别；

方式三：不进行保留时间校正的化合物识别。

4.如权利要求1-3的任一项所述的处理方法，其特征在于，

步骤S2中将色谱峰与参考化合物特征进行匹配的方法包括以下步骤：1)对每个样本里的每个色谱峰，都与参考数据库中参考化合物不同加合离子的参考保留时间和参考质荷比进行匹配，其中，允许的质量精度偏差和保留时间窗口由用户自定义；2)计算每个加合离子的样本检出数、平均保留时间、平均质荷比和平均离子强度，并与参考保留时间、参考质荷比和参考离子强度进行对比。

5.如权利要求1-4的任一项所述的处理方法，其特征在于，

步骤S2中对剩余色谱峰进行样本间的峰匹配的方法，是将所有色谱峰在样本间进行两两对比，将在设定的质量精度偏差(如5ppm)以内和保留时间偏差(如0.03分钟)以内的峰作为同一化合物在不同样本间检测出的峰，归为同一个非靶向色谱峰。

6.如权利要求1-5的任一项所述的处理方法，其特征在于，

步骤S3中审查化合物匹配结果的方法，按参考化合物主要加合离子和各次要加合离子之间的关系，与样本中与之匹配的色谱峰组合间的关系进行比较，如果关系相似，认为是正确的化合物匹配结果，按照只保留主要加合离子峰的原则扣除次要加合离子峰；如果关系不相似，则认为是错误的匹配结果，此色谱峰组合归入未能匹配成功的色谱峰矩阵；

其中，关系相似至少需要满足以下条件：1)匹配到了主要加合离子，该离子峰在所有加合离子峰中强度最高；2)匹配到了第二加合离子或者第三加合离子，该离子峰的保留时间与主要加合离子峰的保留时间偏差在设定时间(如0.01分钟)以内，且该离子峰的强度与主要加合离子峰强度的比值和参考化合物该次要加合离子峰与参考化合物主要加合离子峰强度的比值近似(如两个比值偏差在0.1以内)；3)主要加合离子的检出样本数要不低于次要加合模式的检出样本数。

7.如权利要求1-6的任一项所述的处理方法，其特征在于，

步骤S3中过滤冲突化合物时，在化合物匹配结果正确的色谱峰中，比较具有相同保留时间和质荷比的色谱峰，筛选并合并满足特征的冲突化合物，不满足特征的色谱峰被过滤。保留的冲突化合物以化合物名称、保留时间偏差和质量精度偏差以“|”符号隔开合并表示。保留的冲突化合物至少需要满足以下特征：1)质量精度偏差小于设定值(如5ppm)，2)冲突化合物的检出样本数不低于此冲突组中最高检出样本数的设定百分比(如90％)。

8.如权利要求1-7的任一项所述的处理方法，其特征在于，

在步骤S5中，对步骤S2中其中一种校正方式(如采用参照样本的校正方式)校正得到的非靶向数据集(如D1和D4)，步骤S3中得到的靶向合并数据集(如E1)中两两色谱峰的峰强度进行相关性比对，小于设定的相关性系数阈值(例如0.9)的非靶向色谱峰保留并入步骤S4中得到的平台靶向数据集(F)。

9.如权利要求1-8的任一项所述的处理方法，其特征在于，

步骤S6中，进行缺失值填充处理的方法采用Python语言的Pandas包进行，按实验设计进行调整：

1)针对样本检出率低于设定百分数(如50％)的色谱峰，采用仪器检出下限的定值插补的方式进行处理，对样本检出率高于设定百分数(如50％)的色谱峰，采用插补该色谱峰中位值的方式进行处理；或者，

2)按实验设计分组，分别对每一个分组按每组的仪器检出下限进行定值插补；或者，

3)采用定值插补的方式进行处理，插补的值为仪器检出下限的五分之一；

步骤S6中，进行批次效应校正的方法，按实验设计和效果进行调整，包括：

1)NormAE方法：采用Python语言的NormAE脚本进行，输入步骤S1中的上机序列集的测量批次和测量顺序，使用默认参数，对色谱峰在不同批次的样本之间的强度进行校正，去除仪器响应波动的影响；或者，

2)总和方法：计算每个样本中所有色谱峰的强度总和，再计算所有样本强度总和的平均值和标准差，将每个样本强度总和减去该平均值后除以该标准差，获得缩放系数，最后将每个样本中的色谱峰强度都除以该样本的缩放系数；或者，

3)中位值方法：计算每个样本中所有色谱峰的强度中位值，再计算所有样本强度中位值的平均值和标准差，将每个样本强度中位值减去该平均值后除以该标准差，获得缩放系数，最后将每个样本中的色谱峰强度都除以该样本的缩放系数；或者，

4)分位数方法：将每个样本中的色谱峰强度按从高到低排序，计算排序第一的色谱峰强度的均值，并将所有样本中排序第一的色谱峰强度替换为该均值，同理对排序第二、三……的色谱峰强度进行替换；

步骤S6中，数据归一化的方法，按实验设计和效果进行调整，包括：

1)均值归一化：将每个样本中的色谱峰强度减去样本色谱峰强度的均值；或者，

2)Z-score标准化：将每个样本中的色谱峰强度减去样本色谱峰强度的均值后，除以样本色谱峰强度的标准差；或者，

3)离差标准化：将每个样本中的色谱峰强度减去样本色谱峰强度的均值后，除以样本色谱峰强度的强度范围(最大值减最小值)；

步骤S6中，标准化转换的方法选自log2标准化方法。

10.如权利要求2所述的处理方法，其特征在于，

步骤S1中，以用户自定义的适配文件中的参数值，将下机数据解卷积后，去除数据的噪音和背景后，按响应阈值筛选每个时间窗格中的色谱峰。

11.如权利要求3所述的处理方法，其特征在于，

步骤S2中，所述方式一是按设定的参数调整参数对步骤S1的数据集(A1或A2)中每个样本的保留时间漂移进行校正，并依据参考数据库中已储存的各参考化合物的不同加合离子的保留时间和质荷比进行化合物识别；方式一设定的参数为：参照样本中各校准化合物编号，化合物识别的保留时间窗口例如为正负0.4分钟，化合物识别的质量精度偏差例如为10ppm。

12.如权利要求11所述的处理方法，其特征在于，

13.如权利要求3所述的处理方法，其特征在于，

步骤S2中，所述方式二是按设定的参数调整参数对步骤S1的数据集(A1或A2)中每个样本的保留时间漂移进行校正，并依据参考数据库中已储存的各参考化合物的不同加合离子的保留时间和质荷比进行化合物识别；方式二设定的参数为：化合物识别的保留时间窗口例如为正负0.4分钟，化合物识别的质量精度偏差例如为10ppm。

14.如权利要求13所述的处理方法，其特征在于，

15.如权利要求3所述的处理方法，其特征在于，

步骤S2中，所述方式三是指不对保留时间漂移进行校正，直接按设定的参数依据参考数据库中已储存的各参考化合物的不同加合离子的保留时间和质荷比对步骤S1的数据集(A1或A2)中每个样本进行化合物注释，产生靶向数据集(C3或C6)；设定的参数为：化合物识别的保留时间窗口例如为正负0.4分钟，化合物识别的质量精度偏差例如为10ppm。

16.一种代谢组质谱数据的分析方法，其特征在于，对采用权利要求1-15任一所述的LC-MS下机数据的处理方法得到的代谢组数据集进行批次效应校正效果分析，包括以下步骤：1)使用批次效应校正前的代谢组质谱数据，使用R语言的prcomp()函数，观察参照样本与待测样本代谢组在PC1和PC2上的空间位置；2)使用批次效应校正后的代谢组数据，按照步骤1)同样的方法进行PCA分析，对比两步骤产生的PCA图。

17.一种生物代谢组的液相色谱质谱联用仪数据的处理装置，执行权利要求1-15任一所述LC-MS下机数据处理方法的操作，所述装置包括：

化合物匹配及冲突化合物审查模块，用于审查每个样本内的色谱峰与数据库内的参考化合物特征进行匹配的关系是否正确，过滤、合并冲突化合物的色谱峰；

冗余峰过滤模块，用于过滤相关性高的色谱峰；

批次效应校正模块，用于对所获得的去冗余数据进行缺失值处理，然后根据参数文件中的批次信息对缺失值处理后的数据进行批次效应校正，最后进行标准化转换，得到代谢组数据集。

18.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-15的任一项所述的LC-MS下机数据的处理方法。