CN111157664A

CN111157664A - 生物代谢组学数据处理方法、分析方法及装置和应用

Info

Publication number: CN111157664A
Application number: CN201910256090.3A
Authority: CN
Inventors: 栾恩慧; 李尉; 龙巧云; 李德华; 王雅兰; 宋佳平; 李振宇; 刘兵行
Original assignee: Shenzhen Digital Life Institute; Shenzhen Weiban Biotechnology Co ltd; Shenzhen Icarbonx Intelligent Digital Life Health Management Co ltd
Current assignee: Shenzhen Digital Life Institute; Shenzhen Weiban Biotechnology Co ltd; Shenzhen Icarbonx Intelligent Digital Life Health Management Co ltd
Priority date: 2019-03-22
Filing date: 2019-03-29
Publication date: 2020-05-15
Also published as: WO2020199866A1

Abstract

本发明公开了一种生物代谢组学数据处理方法、分析方法及装置和应用。该生物代谢组学数据处理方法包括将多个生物样本的液相色谱‑质谱数据或气相色谱‑质谱数据进行整合以形成特征数据库的步骤，整合的步骤包括：S11，任意选取多个生物样本中的一个样本作为参照样本，根据参照样本的时间轴逐一对其他样本的时间轴进行校正；S12，对校正后的每一个样本，逐一进行一级质谱离子峰的峰识别处理，得到多个识别特征峰；以及S13，根据样本信息互补原则，对多个识别特征峰进行合并处理，得到多个生物样本的特征数据库。本发明的技术方案可以实现超大规模的代谢组数据的整合，可实现分批次或单个样本的数据校正与数据整合，且不受检测批次的影响。

Description

生物代谢组学数据处理方法、分析方法及装置和应用

技术领域

本发明涉及代谢组学技术领域，具体而言，涉及一种生物代谢组学数据处理方法、分析方法及装置和应用。

背景技术

代谢组学是继基因组学和蛋白质组学之后新起的一门学科，它是系统生物学的重要组成部分，主要考察生物体系受刺激或扰动前后所有小分子代谢物及其含量的动态变化。通过对生物体内所有的小分子代谢物进行整体的定性、定量分析，可以探索并发现代谢物与生理病理变化的关系。研究表明，代谢组在疾病早期诊断、生物标志物发现、药物筛选、毒性评价、运动医学、营养学等领域有着重要应用价值。

随着科学技术的快速发展，针对代谢组的研究和检测方法层出不穷，目前应用最为广泛、功能最强大的主要是液相色谱-质谱联用技术(LC-MS)。近年来，LC-MS技术得到了进一步的提高，大规模样本的检测应用也越来越多。随着检测样本数的增加，随之也产生了一系列问题，例如，大规模样本的检测时间较长，机器在长时间的运行过程中，会出现灵敏度下降、保留时间漂移等情况。因此，研究者们常常会将大规模样本分批次进行上机，可以保持机器的良好运行状态，但是这样又会有另一个问题，就是样本之间和批次之间的代谢组数据存在随机误差和系统误差，无法直接进行比较，需要进行数据整合。针对不同样本和不同批次间的数据的整合，目前也有一些方法可以使用，常见的是利用XCMS方法进行数据整合，可以实现多样本的代谢组学数据分析。

然而，利用诸如XCMS这些方法来整合不同样本和不同批次的代谢组数据，也存在一些问题和局限性。它们目前的处理方式是需要将所有的样本数据放在一起进行整合，不能分批次或单个样本单独进行整合。对于样本数规模固定的，它可以进行处理，且因样本数的大小，处理时间长短不同。这种处理方式有个弊端是，数据处理时间和难度会随样本数增加而增加，当样本数非常巨大或不断有新样本需要进行数据整合的时候，这种方式可能就不太适用了，且不利于商业化应用。同时，现有方法还存在一些问题和不足，例如不能有效利用不同批次间样本信息互补，不同批次样本都有各自的坐标，信息很难进行比较，也很难互补，会丢失一些信息，导致代谢物检测重复性和覆盖度会降低。

为解决上述问题，本发明提供一种生物代谢组学数据处理方法、分析方法及装置，可有效地解决代谢组数据处理过程中不能有效利用不同批次间样本信息互补，导致代谢物检测重复性差和覆盖度会降低等问题。

发明内容

本发明旨在提供一种生物代谢组学数据处理方法、分析方法及装置和应用，以适合处理更大规模代谢组学数据。

为了实现上述目的，根据本发明的一个方面，提供了一种生物代谢组学数据处理方法。该生物代谢组学数据包括液相色谱-质谱数据或气相色谱-质谱数据，液相色谱-质谱数据包括一级质谱数据，气相色谱-质谱数据包括一级质谱数据；生物代谢组学数据处理方法包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的步骤，整合的步骤包括：

S11，任意选取多个生物样本中的一个样本作为参照样本，根据参照样本的时间轴逐一对其他样本的时间轴进行校正；

S12，对校正后的每一个样本，逐一进行一级质谱离子峰的峰识别处理，得到多个识别特征峰；以及

S13，根据样本信息互补原则，对多个识别特征峰进行合并处理，得到多个生物样本的特征数据库。

进一步地，S13中：如果多个识别特征峰的[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻，则将多个识别特征峰合并为一个特征峰。

进一步地，S13包括：

S131，判断多个识别特征峰的[mzmin，mzmax]区域是否重叠或相邻，若重叠，进入S133；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入S133；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

S132，判断多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入S133；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[rtmin，rtmax]区域的间隔小于第二预设阈值，则判断为相邻，进入S133；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

S133，如果多个识别特征峰的同时满足S131中的重叠或相邻，和S132中的重叠或相邻两个条件，则将多个识别特征峰合并为一个特征峰；

S134，利用所有特征峰的数据生成特征列表即得到特征数据库。

进一步地，第一预设阈值依据仪器参数进行设定，第二预设阈值依据保留时间校正中时间偏差的最大值来进行设定；优选的，第一预设阈值设定为0.01～0.015Da，第二预设阈值设定为10～15。

进一步地，质谱数据还包括二级质谱数据，S13还包括：

S135，将多个生物样本的二级质谱数据比对到S134生成的特征数据库中，辅助判断峰合并的有效性。

进一步地，质谱数据还包括二级质谱数据，S11还包括对一级质谱数据和二级质谱数据进行保留时间校正；优选的，使用Obiwarp算法进行保留时间校正。

进一步地，峰识别的算法为CentWave算法、matchedFilter算法或mzMine算法。

进一步地，峰识别的算法的参数设置包括：ppm：采用仪器的分辨率；峰宽：设置为2～30；噪音：设置为0；信噪比：设置为10。

进一步地，生物样本包括人或动物的体液、组织或细胞，植物的根、茎、叶、果实或种子，或微生物的细胞培养液；其中，体液包括尿液、血液、唾液、脑脊液或羊水，组织包括器官组织、肌肉组织或肿瘤组织，细胞包括干细胞、体细胞、肿瘤细胞或微生物细胞。

根据本发明的另一个方面，提供一种生物代谢组学数据的分析方法。该分析方法依次包括生物代谢组学数据处理和通过二级质谱数据信息对代谢物进行定性鉴定的步骤，其中，生物代谢组学数据处理采用本发明上述任一种生物代谢组学数据处理方法进行。

进一步地，通过二级质谱数据信息对代谢物进行定性鉴定的步骤包括：

S21，获取各标准化合物的质荷比数据；

S22，在生物代谢组学数据处理后得到的特征数据库中任意选择一个特征值，并找到与该特征值对应的所有的二级质谱质荷比数据，根据所有的二级质谱质荷比数据，找到与其相匹配的标准化合物；

S23，以S22中选择的一个特征值所对应的所有的二级质谱质荷比数据为一方，以S22中找到的匹配的标准化合物的二级质谱质荷比数据为另一方，对二者进行相似性打分，计算点积分，根据积分值对代谢物进行定性。

进一步地，S23包括：计算匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数，选择中位数最大的化合物；优选的，根据化合物的中位数是否大于截止值，判别是否匹配。

进一步地，标准化合物的质荷比数据从已有的数据库中获得，数据库包括NISTlib、HMDB或METLIN。

进一步地，分析方法还包括生物代谢物定量的步骤。

进一步地，生物代谢物定量的步骤包括：

S31，根据参照样本的时间轴对待定量样本的时间轴进行校正；

S32，对所建立的特征数据库中待定量样本的对应的特征区域进行积分，得到生物代谢物相对定量的结果。

根据本发明的再一个方面，提供了一种上述生物代谢组学数据处理方法、生物代谢组学数据的分析方法在维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽鉴定中的应用。

根据本发明的又一个方面，提供了一种维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽的检测方法。该检测方法包括：对生物样本进行液相色谱-质谱和/或气相色谱-质谱检测，得到液相色谱-质谱数据和/或气相色谱-质谱数据；采用上述任一种生物代谢组学数据处理方法或生物代谢组学数据的分析方法对生物样本的液相色谱-质谱数据和/或气相色谱-质谱数据进行处理得到数据结果；以及根据数据结果换算出维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽。

根据本发明的再一个方面，提供了一种生物代谢组学数据处理装置。其中，生物代谢组学数据包括液相色谱-质谱数据或气相色谱-质谱数据，液相色谱-质谱数据包括一级质谱数据，气相色谱-质谱数据包括一级质谱数据；生物代谢组学数据处理装置包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的数据库生成模块，数据库生成模块包括:

时间轴校正子模块，用于任意选取多个生物样本中的一个样本作为参照样本，根据参照样本的时间轴逐一对其他样本的时间轴进行校正；

特征峰识别子模块，用于对校正后的每一个样本，逐一进行一级质谱离子峰的峰识别处理，得到多个识别特征峰；以及

特征数据库形成子模块，用于根据样本信息互补原则，对多个识别特征峰进行合并处理，得到多个生物样本的特征数据库。

进一步地，特征数据库形成子模块包括数据整合单元，数据整合单元用于将[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻的多个识别特征峰合并为一个特征峰。

进一步地，特征数据库形成子模块包括第一判断单元、第二判断单元、数据整合单元和特征数据库形成单元：

其中，第一判断单元，用于判断多个识别特征峰的[mzmin，mzmax]区域是否重叠，若重叠，进入数据整合单元；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入S133；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

第二判断单元，用于判断多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入数据整合单元；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[rtmin，rtmax]区域的间隔小于第二预设阈值，则判断为相邻，进入数据整合单元；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

数据整合单元，用于将[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻的多个识别特征峰合并为一个特征峰；

特征数据库形成单元，用于利用所有特征峰的数据生成特征列表即得到特征数据库。

进一步地，质谱数据还包括二级质谱数据，生物代谢组学数据处理装置还包括：峰合并有效性验证子模块，用于将多个生物样本的二级质谱数据比对到特征数据库中，辅助判断峰合并的有效性。

进一步地，质谱数据还包括二级质谱数据，时间轴校正子模块还用于对一级质谱数据和二级质谱数据进行保留时间校正；优选的，使用Obiwarp算法进行保留时间校正。

根据本发明的又一个方面，提供了一种生物代谢组学数据的分析装置。该分析装置包括用于生物代谢组学数据处理的模块和用于通过二级质谱数据信息对代谢物进行定性鉴定的模块，其中，用于生物代谢组学数据处理的模块为上述任一种生物代谢组学数据处理装置。

进一步地，用于通过二级质谱数据信息对代谢物进行定性鉴定的模块包括：

标准化合物质荷比数据获取子模块，用于获取各标准化合物的质荷比数据；

标准化合物匹配子模块，用于在生物代谢组学数据处理后得到的特征数据库中任意选择一个特征值，并找到与该特征值对应的所有的二级质谱质荷比数据，根据所有的二级质谱质荷比数据，找到与其相匹配的标准化合物；

积分定性子模块，用于以标准化合物匹配子模块中选择的一个特征值所对应的所有的二级质谱质荷比数据为一方，以标准化合物匹配子模块中找到的匹配的标准化合物的二级质谱质核比数据为另一方，对二者进行相似性打分，计算点积分，根据积分值对代谢物进行定性。

进一步地，积分定性子模块用于计算匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数，选择中位数最大的化合物；优选的，根据化合物的中位数是否大于截止值，判别是否匹配。

进一步地，分析装置还包括用于生物代谢物定量的模块。

进一步地，用于生物代谢物定量的模块包括：

时间轴校正子模块，用于根据参照样本的时间轴对待定量样本的时间轴进行校正；

生物代谢物相对定量子模块，用于对所建立的特征数据库中待定量样本的对应的特征区域进行积分，得到生物代谢物相对定量的结果。

通过实施上述技术方法，本发明至少有如下有益效果：

应用本发明的技术方案，通过构建特征(feature)数据库、统一时间轴、利用样本间信息互补原则进行峰(peak)合并等方式，可以实现超大规模的代谢组数据的整合，可实现分批次或单个样本的数据校正与数据整合，且不受检测批次的影响，且适用于商业化检测。

本发明构建特征数据库，固定一个参照样本，统一时间轴，可保证后续样本在时间上具有可对比性，使得代谢组数据处理过程中实现有效利用不同批次间样本信息互补，有效地提高了代谢物检测重复性和覆盖度。

本发明在构建特征数据库过程中进行合并峰处理，合并后的峰可以覆盖更大的区域，使得在只检测一个样本的情况下，也能更准确地进行定量，即使对于色谱峰型不好的代谢物依旧具有很好的效果，并产生了更大的覆盖区域使得更有效地兼容后续样本，有效地减少保留时间(RT)的偏移造成的影响。

本发明通过建立特征数据库后，有效提高样本的分析效率，使得后续样本在时间上具有可比性，且不用对样本进行回滚，在商业上可广泛使用。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明一实施方式中的构建特征数据库的流程示意图；

图2示出了本发明一实施方式中的合并识别特征峰的流程示意图；

图3示出了实施例1中的一样本保留时间校正图；

图4示出了实施例1中的16个标准化合物的电离形式图；

图5示出了实施例1的35个MS2和匹配上的16个标准化合物的相似性比较图；

图6示出了实施例1的特征缺失值数目分布；

图7示出了实施例1和对比例1样本间的变异系数(CV)比较图；

图8示出了实施例1和对比例1PCA的结果显示图；

图9示出了实施例1和对比例1鉴定到的代谢物数目比较；

图10示出了实施例1中FT08341对应的MS2母离子的mz和RT分布；以及

图11示出了实施例1中FT08341的35个MS2谱图的相似性。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明中涉及的缩写及术语解释如下：

代谢组：指生物体内代谢物质的动态整体，通常所指的代谢组只涉及相对分子质量约小于1000Da(Da：道尔顿)的小分子代谢物质的总称。

质谱：又称质谱法(Mass Spectrometry，MS)，是将被测物质离子化，用电场和磁场将运动的离子，按它们的质荷比分离后进行检测的方法。

母离子：又称作前体离子，是可以进一步发生分解反应产生碎片离子的离子。

子离子：某一分子离子(母离子)进行高能碎裂后得到的碎片离子。

一级质谱(MS1)：检测所有带电离子的质荷比和强度，形成一级谱图，一级质谱中的信号为母离子信号。

二级质谱(MS2)：按照一定方式选择母离子，将其进一步解离，分析所形成的子离子的质荷比和强度，形成二级谱图。

质荷比(mz)：带电离子的质量与所带电荷之比值，是该离子的物理特性，为一定值。受仪器分辨率的限制，检测出的mz会有波动。

保留时间(Retention Time，RT)：被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间，也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间。对于特定的分离柱，组分(分子离子)的保留时间与其物理化学性质有关。

离子峰(peaks)：某一样品中的离子峰，以[mzmin,mzmax,rtmin,rtmax]表示。

特征(features)：与peaks有相同的表示形式[mzmin,mzmax,rtmin,rtmax]，与peaks不同的是，features可代表该分子离子(peaks是该分子离子的一部分，一个分子离子可有多个peaks)。features可由一个样本的多个peaks合并而来，也可由多个样本的多个peaks合并而来。

PPM：parts per million，是比率的表示，表示“百万分之…”。

基于LC-MS技术，目前大规模样本的代谢组检测都是依次检测和分批次进行的，存在样本之间和批次间的偏差，需要对同一批次和不同批次的样本数据进行整合后才能进行下一步比较分析。针对大规模代谢组学数据的整合分析，现有的一些技术(例如XCMS)存在着弊端，它们需要将所有的样本数据放在一起进行整合，不能分批次或单个样本单独进行整合，同时在代谢物定性定量方面也存在着一些不足。

针对现有技术中的这些不足，本发明提出了一种新的代谢组数据整合思路，可以适用于大规模的代谢组数据分析，可实现分批次或单个样本的数据校正与数据整合，且不受检测批次的影响，同时在代谢物覆盖度以及定性定量准确性上也有所提高。

根据本发明一种典型的实施方式，提供一种生物代谢组学数据处理方法。生物代谢组学数据包括液相色谱-质谱数据和/或气相色谱-质谱数据，液相色谱-质谱数据包括一级质谱数据，气相色谱-质谱数据包括一级质谱数据；该生物代谢组学数据处理方法包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的步骤，整合的步骤包括：

S12，对校正后的每一个样本，逐一进行一级质谱离子峰的峰识别处理，得到多个识别特征峰；

以及S13，根据样本信息互补原则，对多个识别特征峰进行合并处理，得到多个生物样本的特征数据库。

应用本发明的技术方案，首先选择一样本为参照样本，其他样本的时间轴都根据这个样本进行校正，即确定统一的坐标轴，使样本的液相色谱-质谱数据或气相色谱-质谱数据在时间上具有可比性；在校正后的时间轴上，对每一个样本的一级质谱离子峰做峰识别，然后利用样本间信息互补原则进行峰(peak)合并构建得到特征(feature)数据库，从而可以实现超大规模的代谢组数据的整合。由于所有样本均根据参照样本进行时间轴校正，因此可实现分批次或单个样本的数据校正与数据整合，且不受检测批次的影响，这适用于商业化检测。

在本发明一实施方式中，质谱数据还包括二级质谱数据，S11还包括对一级质谱数据和二级质谱数据进行保留时间校正，进一步提高质谱数据的准确性；优选的，使用Obiwarp算法进行保留时间校正，具有运算速度快，数据处理准确度高等优点。

在本发明一实施方式中，S13包括：如果多个识别特征峰的[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻，则将多个识别特征峰合并为一个特征峰；优选的，S13包括：S131，判断多个识别特征峰的[mzmin，mzmax]区域是否重叠，若重叠，进入S133；若不重叠，进一步判断是否相邻，如果所述多个识别特征峰的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入S133；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；S132，判断多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入S133；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[rtmin，rtmax]区域的间隔小于第二预设阈值，则判断为相邻，进入S133；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；S133，如果多个识别特征峰的同时满足S131中的重叠或相邻和S132中的重叠或相邻两个条件，则将多个识别特征峰合并为一个特征峰；S134，利用所有特征峰的数据生成特征列表即得到特征数据库。如此合并后的特征峰可以覆盖更大的区域，即使只检测一个样本，也可以更准确地进行定量(对于色谱峰型不好的代谢物很有效)，并且更大的覆盖区域可以更有效地兼容后续样本，有效地减少保留时间(RT)的偏移造成的影响。

优选的，峰识别的算法为CentWave算法、matchedFilter算法或mzMine算法，更优选为CentWave算法，因为该方法可提高灵敏度，限制其误差，最精确地发现最多的识别特征峰。如此在CentWave算法的基础上进行peaks的合并，能够有效地利用CentWave对最大响应区域的定位。在本发明中，算法参数设置遵循“尽可能提高检测灵敏度”的思想，优选的，峰识别的算法的参数设置包括：ppm：采用仪器的分辨率；峰宽：设置为2～30；噪音：设置为0；信噪比：设置为10。

在本发明一实施方式中，第一预设阈值依据仪器参数进行设定，第二预设阈值依据保留时间校正中时间偏差的最大值来进行设定；优选的，第一预设阈值设定为0.01～0.015Da，更优选的，第一预设阈值设定为0.01Da、0.011Da、0.012Da、0.013Da、0.014Da或0.015Da，第二预设阈值设定为10～15，更优选的，第二预设阈值设定为10、11、12、13、14或15，以提高峰合并的有效性，进而提高特征数据库的准确性。

在本发明一实施方式中，优选的，质谱数据还包括二级质谱数据，S13还包括：S135，将多个生物样本的二级质谱数据比对到S134生成的特征数据库中，辅助判断峰合并的有效性，二级质谱数据比对到特征数据库的比率越高，说明峰合并的有效性越强。

本发明的生物代谢组学数据处理方法，几乎适合于所有能够进行液相色谱-质谱和/或气相色谱-质谱检测的生物样本，这些生物样本包括但不限于人或动物的体液、组织或细胞，植物的根、茎、叶、果实或种子，或微生物的细胞培养液等；其中，体液包括尿液、血液、唾液、脑脊液或羊水等，组织包括器官组织、肌肉组织或肿瘤组织等，细胞包括干细胞、体细胞、肿瘤细胞或微生物细胞等。

在本发明的发明宗旨之下，还提供一种生物代谢组学数据的分析方法。该生物代谢组学数据的分析方法依次包括生物代谢组学数据处理和通过二级质谱数据信息对代谢物进行定性鉴定的步骤，其中，生物代谢组学数据处理采用本发明上述任一种生物代谢组学数据处理方法进行。由于本发明上述生物代谢组学数据处理方法可以不受检测批次的影响，从而可以不断的积累特征数据库的样本数据量，从而可以不断地提高通过二级质谱数据信息对代谢物进行定性鉴定的准确性。

根据本发明一种典型的实施方式，通过二级质谱数据信息对代谢物进行定性鉴定的步骤包括：

S21，获取各标准化合物的质荷比数据；

S22，在生物代谢组学数据处理后得到的特征数据库中任意选择一个特征值，并找到与该特征值对应的所有的二级质谱质荷比数据，根据所有的二级质谱质荷比数据，找到与其相匹配的标准化合物的集合；

此方法能够有效避免中位数不具有代表性这个问题，且操作简单。

在本发明一实施方式中，也可以采用通用的计算点积的方法对MS2相似性打分，该方法从属于同一个feature的多个MS2与标准化合物的MS2进行比对，通过积分情况可以达到对feature进行鉴定的目的。

优选的，S23具体包括：计算匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数，选择中位数最大的化合物；更优选的，根据化合物的中位数是否大于截止值(cut-off)，判别是否匹配。采用上述步骤，不仅包含“有代表性的”MS2，而且加上了化合物各种可能的MS2，增加了与标准化合物的匹配度。

在本发明中，标准化合物的质荷比数据从已有的数据库中获得，例如数据库包括NISTlib、HMDB或METLIN等。

在本发明一种典型的实施方式中，分析方法还包括生物代谢物定量的步骤。经过了上述数据的处理及定性的步骤，确定了统一的时间轴，对保留时间进行了校正，还获得了数据量丰富的特征数据库，这样就尽可能地提高了母离子(mz)的覆盖区域，可以减少质荷比mz和保留时间RT的波动带来的影响，提高了生物代谢物定量的准确性。优选的，生物代谢物定量的步骤包括：S31，根据参照样本的时间轴对待定量样本的时间轴进行校正；S32，对所建立的特征数据库中待定量样本的对应的特征区域进行积分，得到生物代谢物相对定量的结果。

基于上述技术方案的阐述，在本发明一实施方式或实施例中，具体的技术方案如下：

1.构建特征(features)数据库，进行多样本代谢组数据整合。构建特征数据库的流程参见图1。

1)确定统一的坐标轴，使样本的液相色谱-质谱数据或气相色谱-质谱数据在时间上具有可比性。

在整个检测过程中，选择一样本为参照样本(参照样本与检测样本类型一致，可理解作为标准品，仅需检测一次)，其他样本的时间轴都根据这个样本进行校正，该样本为reference.xml，即固定一个参照样本，保证后续样本在时间上具有可比性。

2)新样本首先做保留时间(RT)的校正，这一步使用Obiwarp算法，同时对一级质谱数据(MS1)和二级质谱数据(MS2)进行保留时间(RT)校正。

3)在校正后的时间轴上，使用CentWave算法对每一个样本一级质谱离子峰做峰识别(findPeaks)。其中，峰识别算法包括但不限于CentWave、matchedFilter、mzMine，优选CentWave。该方法可提高灵敏度，限制其误差，最精确地发现最多的识别特征峰(peak1，peak2，…，peakn)。高灵敏度带来的噪音和严格的ppm设置带来的同一个离子峰被分成两个离子峰的问题交由样本信息互补来处理。

其中，算法参数设置遵循“尽可能提高检测灵敏度”的思想：

①ppm：根据仪器的类别，采用仪器的分辨率，降低容错率。

②peakwidth(峰宽)：设置为2～30。该参数设置跟色谱柱类型和洗脱时间有关，一般为洗脱时间的1/10，选取2作为下限的目的是识别很窄的峰，提高findPeaks的灵敏度。

③noise(噪音)：设置为0。该参数表示噪音强度，设置为0的目的是为了提高灵敏度。噪音越大灵敏度越小

④snthresh(信噪比)：设置为10。该参数表示信噪比，采用默认参数。

4)根据样本信息互补原则，合并识别特征峰(peaks)，生成统一的坐标，即特征(features)数据库。处理方式如下(参见图2)：

对来自多个样本的识别特征峰peak1，peak2，…，peakn，作如下判断：

①判断多个识别特征峰的[mzmin，mzmax]区域是否重叠或相邻，若重叠，进入③；若不重叠，进一步判断是否相邻，如果peak m+1，peak m+2，…，peak m+a的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入③；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

②判断多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入③；若不重叠，判断是否相邻，如果peak m+1，peak m+2，…，peak m+a的[rtmin，rtmax]区域的间隔小于第二预设阈值absRt，则判断为相邻，进入③；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

③如果peak m+1，peak m+2，…，peak m+a的关系同时满足①中的重叠或相邻和②中的重叠或相邻两个条件，则判定peak m+1，peak m+2，…，peak m+a属于同一个特征峰，新特征峰的坐标取a者的并集，生成特征列表，即得到特征数据库；

其中，n和a分别独立的取值于正整数，m取值于0和正整数，m<n。

④将多个样本的二级质谱数据比对到特征数据库(由[“mzmin”,“mzmax”,“rtmin”,“rtmax”]确定的矩形区域)。该步骤可以辅助判断峰合并的有效性。

2.代谢物鉴定(定性)。

通过二级质谱(MS2)数据信息，对代谢物进行鉴定，具体方法如下：

1)获取标准化合物的质荷比mz(标准化合物从已有的数据库中获得，数据库主要为NISTlib，也可以是HMDB，METLIN等公开的数据库)。

2)找与MS2的母离子质荷比mz相同的标准化合物(参数设置：absMz＝0.015Da(Da：道尔顿)，absMz根据仪器参数设定，可设定为0.01～0.015Da这个范围)。

3)比较多个实验得到的MS2和匹配上的多个标准化合物的相似性，进行相似性打分，计算点积分。

综合多个MS2的结果，选择最匹配的标准化合物，进行代谢物鉴定。该步骤计算每个化合物与多个MS2相似性的中位数，选择中位数最大的化合物。根据该化合物的中位数是否大于指定值(也称截止值，指定值可根据实际情况确定为0.5～1)，判别是否匹配。

3.代谢物的相对定量

经过上述两大步骤，具备了相对定量的前提条件：

(1)特征(features)的坐标[“mzmin”，“mzmax”，“rtmin”，“rtmax”]，这些坐标尽可能地提高了母离子(mz)的覆盖区域，可以减少质荷比mz和保留时间RT的波动带来的影响。

(2)与features相匹配的MS2数据库，以及对MS2的鉴定结果。

(3)对于每一个feature，有[“mzmin”，“mzmax”，“rtmin”，“rtmax”，“metabolite”，“adduct”]，可以对一个feature进行完整注释(备注：“Metabolite”和“adduct”信息从参考数据库中(如NISTlib等)获得，“Metabolite”和“adduct”信息用于定性过程)。

定量方法如下：

1)根据参考样本信息(reference.xml),校正样本的时间轴。

2)对样本的features区域进行积分，得到代谢物相对定量的结果。

在本发明总体的发明构思之下，本发明还提供了上述生物代谢组学数据处理方法、生物代谢组学数据的分析方法在维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽鉴定中的应用。由于本发明上述生物代谢组学数据处理方法可以不受检测批次的影响，从而可以不断的积累特征数据库的样本数据量，从而也可增加维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽鉴定准确性和精确度。

进一步地，本发明还提供一种维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽的检测方法。该检测方法包括：对生物样本进行液相色谱-质谱和/或气相色谱-质谱检测，得到液相色谱-质谱数据和/或气相色谱-质谱数据；采用上述任一种生物代谢组学数据处理方法或生物代谢组学数据的分析方法对生物样本的液相色谱-质谱数据和/或气相色谱-质谱数据进行处理得到数据结果；以及根据数据结果换算出维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽的种类、含量。同样的，由于本发明生物代谢组学数据的处理方法及分析方法的先进行，维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽的检测结果也必将更加精准。

另外，为了方便本发明上述方法的实现，在本发明的发明宗旨之下，根据本发明一种典型的实施方式，提供一种生物代谢组学数据处理装置。生物代谢组学数据包括液相色谱-质谱数据和/或气相色谱-质谱数据，液相色谱-质谱数据包括一级质谱数据，气相色谱-质谱数据包括一级质谱数据；该生物代谢组学数据处理装置包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的数据库生成模块，数据库生成模块包括：时间轴校正子模块、特征峰识别子模块和特征数据库形成子模块，其中，时间轴校正子模块用于任意选取多个生物样本中的一个样本作为参照样本，根据参照样本的时间轴逐一对其他样本的时间轴进行校正；特征峰识别子模块用于对校正后的每一个样本，逐一进行一级质谱离子峰的峰识别处理，得到多个识别特征峰；以及特征数据库形成子模块用于根据样本信息互补原则，对多个识别特征峰进行合并处理，得到多个生物样本的特征数据库。

应用本发明的装置，首先选择一样本为参照样本，其他样本的时间轴都根据这个样本进行校正，即确定统一的坐标轴，使样本的液相色谱-质谱数据或气相色谱-质谱数据在时间上具有可比性；在校正后的时间轴上，对每一个样本一级质谱离子峰做峰识别，然后利用样本间信息互补原则进行峰(peak)合并构建得到特征(feature)数据库，从而可以实现超大规模的代谢组数据的整合。由于所有样本均根据参照样本进行时间轴校正，因此可实现分批次或单个样本的数据校正与数据整合，且不受检测批次的影响，这适用于商业化检测。

在本发明一实施方式中，质谱数据还包括二级质谱数据，时间轴校正子模块还用于对一级质谱数据和二级质谱数据进行保留时间校正，进一步提高质谱数据的准确性；优选的，使用Obiwarp算法进行保留时间校正，具有运算速度快，数据处理准确度高等优点。

在本发明一实施方式中，特征数据库形成子模块包括数据整合单元，数据整合单元用于将[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻的多个识别特征峰合并为一个特征峰；优选的，特征数据库形成子模块包括第一判断单元、第二判断单元、数据整合单元和特征数据库形成单元：其中，第一判断单元用于判断多个识别特征峰的[mzmin，mzmax]区域是否重叠，若重叠，进入数据整合单元；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入S133；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；第二判断单元，用于判断多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入数据整合单元；若不重叠，进一步判断是否相邻，如果多个识别特征峰的[rtmin，rtmax]区域的间隔小于第二预设阈值，则判断为相邻，进入数据整合单元；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；数据整合单元，用于将[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻的多个识别特征峰合并为一个特征峰；数据库形成模块，利用所有特征峰的数据生成特征列表即得到特征数据库。如此合并后的特征峰可以覆盖更大的区域，即使只检测一个样本，也可以更准确地进行定量(对于色谱峰型不好的代谢物很有效)，并且更大的覆盖区域可以更有效地兼容后续样本，有效地减少保留时间(RT)的偏移造成的影响。

在本发明一实施方式中，优选的，质谱数据还包括二级质谱数据，生物代谢组学数据处理装置还包括：峰合并有效性验证子模块，用于将多个生物样本的二级质谱数据比对到特征数据库中，辅助判断峰合并的有效性，二级质谱数据比对到特征数据库的比率越高，说明峰合并的有效性越强。

在本发明的发明宗旨之下，还提供一种生物代谢组学数据的分析装置。该分析装置包括用于生物代谢组学数据处理的模块和用于通过二级质谱数据信息对代谢物进行定性鉴定的模块，其中，用于生物代谢组学数据处理的模块为本发明的上述生物代谢组学数据处理装置。由于本发明上述生物代谢组学数据处理装置可以不受检测批次的影响，从而可以不断的积累特征数据库的样本数据量，从而可以不断地提高通过二级质谱数据信息对代谢物进行定性鉴定的准确性。

根据本发明一种典型的实施方式，用于通过二级质谱数据信息对代谢物进行定性鉴定的模块包括标准化合物质荷比数据获取子模块和标准化合物匹配子模块，其中，标准化合物质荷比数据获取子模块用于获取各标准化合物的质荷比数据；标准化合物匹配子模块用于在生物代谢组学数据处理后得到的特征数据库中任意选择一个特征值，并找到与该特征值对应的所有的二级质谱质荷比数据，根据所有的二级质谱质荷比数据，找到与其相匹配的标准化合物；积分定性子模块，用于以标准化合物匹配子模块中选择的一个特征值所对应的所有的二级质谱质荷比数据为一方，以标准化合物匹配子模块中找到的匹配的标准化合物的二级质谱质核比数据为另一方，对二者进行相似性打分，计算点积分，根据积分值对代谢物进行定性。此方法借鉴了knn算法的参数设置和density算法的合并方法，能够有效避免中位数不具有代表性这个问题，且操作简单。

优选的，积分定性子模块用于计算匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数，选择中位数最大的化合物；更优选的，根据化合物的中位数是否大于截止值，判别是否匹配。采用上述算法，不仅包含“有代表性的”MS2，而且加上了化合物各种可能的MS2，增加了与标准化合物的匹配度。

在本发明一种典型的实施方式中，分析装置还包括用于生物代谢物定量的模块。经过了上述数据的处理及定性，确定了统一的时间轴，对保留时间进行了校正，还获得了数据量丰富的特征数据库，这样就尽可能地提高了母离子(mz)的覆盖区域，可以减少质荷比mz和保留时间RT的波动带来的影响，提高了生物代谢物定量的准确性。优选的，用于生物代谢物定量的模块包括时间轴校正子模块和生物代谢物相对定量子模块，其中，时间轴校正子模块用于根据参照样本的时间轴对待定量样本的时间轴进行校正；生物代谢物相对定量子模块，用于对所建立的特征数据库中待定量样本的对应的特征区域进行积分，得到生物代谢物相对定量的结果。

下面将结合实施例进一步说明本发明的有益效果。

以101个干血片样本为例，利用本发明的技术方案(实施例1)和现有技术的方法(对比例1)对这101个样本的代谢组数据进行整合，同时进行定性和定量分析，具体如下。

实施例1

1、构建features数据库

1)确定统一的坐标轴，使样本在时间上具有可比性。从所有样本中挑选一个固定样本作为参照，其他样本的时间轴都根据这个样本进行校正，该样本为reference.xml。

2)新样本首先做保留时间(RT)的校正，这一步使用Obiwarp算法,同时对一级质谱数据(MS1)和二级质谱数据(MS2)进行保留时间(RT)校正。本实施例中一样本保留时间校正如图3所示(注：横轴是保留时间RT(单位：s)，纵轴是样本的保留时间偏离参照样本的时间(单位：s)，也称保留时间偏差。横线是参照样本(reference)，曲线是其他样本(sample)。

3)在校正后的时间轴上，使用CentWave算法对每一个样本做峰识别(findPeaks)，最精确地发现最多的peaks。高灵敏度带来的噪音和严格的ppm设置带来的同一个peak被分成两个peak的问题交由样本信息互补来处理。

算法参数设置遵循“尽可能提高检测灵敏度”的原则进行设置，本实施例中具体设置如下：

ppm：10

Peakwidth：2～30

Noise：0

Snthresh：10

结果：每个样本大概有3600～5000个peaks，101个样本共431695个peaks。

4)根据样本信息互补原则，合并101个样本的peaks，生成统一的坐标，即特征(features)数据库，具体处理如下(参见图2)：

对来自101个样本的peak1，peak2，…，peakn，作如下判断：

①101个样本中的[mzmin,mzmax]区域是否重叠或相邻，若重叠，进入第③步；若不重叠，进一步判断是否相邻，如果peak m+1，peak m+2，…，peak m+a的[mzmin，mzmax]区域的间隔小于第一预设阈值0.015Da，则判定为相邻，进入③；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

②101个样本的[rtmin,rtmax]区域是否重叠或者相邻，若重叠，进入第③步；若不重叠，判断是否相邻：设置第二预设阈值absRt＝15,如果peak m+1，peak m+2，…，peak m+a的RT区域的间隔小于absRt，则判断为相邻，进入第③步；若既不重叠也不相邻，则判定多个识别特征峰分别为独立的特征峰；

③如果peak m+1，peak m+2，…，peak m+a的关系同时满足上面重叠/相邻和重叠/相邻两个条件，则判定peak m+1，peak m+2，…，peak m+a属于同一个peak。新peak的坐标取a者的并集，生成feature列表。其中，n和a分别独立的取值于正整数，m取值于0和正整数，m<n。

结果：合并后，成23799个features(特征数据库)。

4)将MS2比对到合并后的features(由[“mzmin”,“mzmax”,“rtmin”,“rtmax”]确定的矩形区域)。101个样本共有346518个MS2,其中279568个比对到features上，对率80.68％，单样本的MS2对率只有50％左右。共有6916个features有对应的MS2，这些features拥有的MS2的数量从1到2272不等。

5)根据特征数据库中已知的信息，对101个样本的代谢组数据依次单个进行整合。

整合结果如下表1：

表1

2、代谢物鉴定

以其中一个feature(编号FT08341)为例，其mz为[352.158899,352.168942]，RT为[167.3529,189.8049]。

代谢物鉴定步骤如下：

1)获取标准化合物的质荷比mz，每个标准化合物含有18种电离形式，具体见表2(标准化合物的电离形式种类)。检测样本的时候，会获得化合物的一个或多个电离形式的mz，每个化合物含有一个或多个电离形式，表3列举了5个标准化合物(S0001-S0005)及其5种电离形式对应的mz。

表2

表3

	M+	(M+H)+	(M+H-H20)+	(M+H-2H20)+	(M+NH4)+
						S0001	74	75.01	57	38.99	92.03
S0002	112	113	95.02	77.01	130.1
						S0003	116	117	99.01	81	134
S0004	116	117	99.01	81	134
						S0005	117.1	118.1	100.1	82.04	135.1

注：S0001是化合物的编号，M+是电离形式，74等是mz。

2)找与MS2的母离mz相同的标准化合物

具体过程：

a.找到匹配到FT08341上的所有MS2，共35个；

b.计算这35个MS2母离子的mz中位数，命名为mzmed，计算得到mzmed＝352.1652；

c.寻找与这35个MS2的mzmed相同的标准化合物，共找到16个，这些标准化合物的电离形式，质荷比mz和强度intensity如图4所示(与feature(FT08341)的MS2的mz相近的标准化合物的MS2，注n01701等是化合物编号，(M+)等是该化合物的电离形式)。

3)较实验得到的35个MS2和匹配上的16个标准化合物的相似性，见图5。其中，FT08341的MS2与n01696的相似度较(大部分MS2与n01696的相似性均大于0.8，平均相似度最大)。

注：图5横轴是标准化合物，纵轴是FT08341的35个MS2，例如，第一列是35个MS2与n01701MS2的相似性。

4)综合35个MS2的结果，选择最匹配的标准化合物，进行代谢物鉴定。

计算这16个标准化合物与35个MS2相似性的中位数，具体如表4所示。选择中位数最大的化合物n01696，由于该化合物的中位数0.890大于指定值(cutoff＝0.5)，所以鉴定n01696为FT08341匹配上的化合物，该结果也与图5结果一致。

表4

指定值可根据实际情况确定为0.5～1，本实施例的指定值为cutoff＝0.5。

3、单个样本代谢物相对定量

1)根据reference.xml，校正样本的时间轴。

2)对样本的features区域进积分，确定代谢物相对定量值。

表5

表5为代谢物的相对定量结果(部分)，GXP104，GX107等为样本名称，score为化合物的匹配得分，metabolite为鉴定到的化合物。

例如，FT08341匹配上的代谢物名称为Phe-Trp(在标准化合物的数据库中获得匹配代谢物的名称，数据库主要为NISTlib，数据库可也替换成HMDB，METLIN等公开的数据库)，得分为0.89分，可信度很高。在GXP104样本中，该代谢物的相对定量值为8495.393221，而在GXP107的相对定量值为5096.885985。

又如，如表5所示，样本GXP104中的化合物FT02707的相对定量值为12386.06788；样本GXP104中的化合物FT05421的相对定量值为2252.548371。

由此可见，运用本发明的技术方案可以准确的对代谢物进行相对定量。

上述实施例中进行处理的是液相色谱-质谱数据，本领域技术人员可以理解的是气相色谱-质谱数据也可以采用此方法进行处理，并且得到相同的技术效果。

对比例1

1)将101个干血片的下机原始文件转换为mzXML格式；

2)使用XCMS的obiwarp方法对保留时间进行校正，校正每个扫描(scan)的时间，相关参数设置为：

ppm：25

Peakwidth：4～10

Noise：10

Snthresh：3

3)使用XCMS的CentWave方法来进行离子峰(peaks)识别；

4)上面3步得到单个mzXML的peaks，peaks以[“mzmin”,“mzmax”,“rtmin”,“rtmax”,“into”,“maxo”]的形式存在，其中[“mzmin”,“mzmax”,“rtmin”,“rtmax”]是peaks的坐标，[“into”,“maxo”]是定量信息(积分和最大值)；

5)通过将peaks进行对齐和合并(alignment&group)，得到一系列特征(features)，确保[“mzmin”，“mzmax”，“rtmin”，“rtmax”]区域无重叠。这里的mzmin是取多个样本mz的中位数的最小值，mzmax是多个样本mz中位数的最大值，101个样本共得到4289个features；

6)缺失值填充：根据统一的坐标，对mzXML的相关区域进行积分，缺失值填充是根据发现的坐标对该区域进行积分。

实施例1与对比例1处理结果对比如下：

1、实施例1发现23799个特征，特征非缺失值21273个，对比例1分析4289个特征，特征非缺失值4042个。说明本发明的技术方案可以发现更多的特征(feature)，且特征缺失值数目更少。图6示出了实施例1的特征缺失值数目分布，一共101个样本，85％的特征缺失值数目小于20。

2、图7示出了实施例1和对比例1样本间的变异系数(CV，标准差除于均值)比较。其中，图7中：中位数线(坐标系中从左到右第一条直线(与纵坐标平行))代表中位数，四分位数线(坐标系中从左到右第二条直线(与纵坐标平行))代表上四分位数(75％)，即在中位数线(坐标系中从左到右第一条直线(与纵坐标平行))的左侧有50％的features的CV值小于中位数线对应的值，在四分位数线(坐标系中从左到右第二条直线(与纵坐标平行))的左侧有75％的features的CV值小于四分位数线(坐标系中从左到右第二条直线(与纵坐标平行))对应的值。由图7可知，实施例1的样本间的变异系数(CV)更小，因为实施例1中构建了feature数据库，使得实施例1中的feature更加稳定，且排除了出峰时间(RT)的差异，最大限度地挖掘了分子离子(mz)本身的丰度。QC样本的一致性也有所提高。

图8示出了实施例1和对比例1PCA的结果显示，实施例1样本间的一致性要优于对比例1。一方面，实施例1PC1和PC2可以解释的比例大大增加，另一方面，实验样本(实线圈)和QC样本(虚线圈)的区分度也更明显。

另外，实施例1取得的有益效果还表现在充分利用了样本的MS2信息，一方面大大提高了MS2的鉴定率，另一方面带来的一个益处是产生了一个MS2数据库，可以用来评估新的MS2相似性算法。这些效果的获得主要是因为：

1)同一个feature有来自多个样本的MS2，这涵盖了该母离子多种碎裂方式，提高与标准化合物的匹配效率，因此可以鉴定到更多的代谢物。

2)多个MS2与标准化合物进行比较，这种方法有效避免了单个MS2匹配到多个化合物的问题，减少假阳性。图9示出了实施例1和对比例1鉴定到的代谢物数目比较。

3)属于同一个features的多个MS2之间的相关性，可以辅助判断peaks合并算法的有效性。

进一步地，图10示出了实施例1中FT08341对应的MS2母离子的mz和RT分布。①如果mz和RT分布在很窄的范围，可以断定属于同一个母离子，因此可以用来评价MS2相似性算法。②如果mz和RT(主要是RT)的范围比较宽，则在给定MS2相似性算法的情况下，可以根据相应的MS2评价母离子是否为同一个，进而可以辅助判断peaks合并的合理性。

图11示出了实施例1中FT08341的35个MS2谱图的相似性。同一个features的多个MS2的相似性比较可以用来辅助判断peaks合并成features的效果。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

1、在时间轴校正方面，固定一个参照样本，可保证后续样本在时间上具有可比性。

2、该方法在CentWave算法的基础上进行peaks的合并，有效地利用了CentWave对最大响应区域的定位。

3、借鉴了knn算法的参数设置和density算法的合并方法，并且有效避免了中位数不具有代表性这个问题，操作简单。

4、合并后的peak可以覆盖更大的区域，即使只检测一个样本，也可以更准确地进行定量(对于色谱峰型不好的代谢物很有效)，更大的覆盖区域可以更有效地兼容后续样本,有效地减少保留时间(RT)的偏移造成的影响。

5、建立数据库后，提高样本的分析效率，后续样本在时间上具有可比性，不用对样本进行回滚，提高商业可用性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生物代谢组学数据处理方法，其特征在于，所述生物代谢组学数据包括液相色谱-质谱数据或气相色谱-质谱数据，所述液相色谱-质谱数据包括一级质谱数据，所述气相色谱-质谱数据包括一级质谱数据；所述生物代谢组学数据处理方法包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的步骤，所述整合的步骤包括：

S11，任意选取所述多个生物样本中的一个样本作为参照样本，根据所述参照样本的时间轴逐一对其他样本的时间轴进行校正；

S13，根据样本信息互补原则，对所述多个识别特征峰进行合并处理，得到所述多个生物样本的特征数据库。

2.根据权利要求1所述的生物代谢组学数据处理方法，其特征在于，所述S13中：如果所述多个识别特征峰的[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻，则将所述多个识别特征峰合并为一个特征峰。

3.根据权利要求2所述的生物代谢组学数据处理方法，其特征在于，所述S13包括：

S131，判断所述多个识别特征峰的[mzmin，mzmax]区域是否重叠或相邻，若重叠，进入S133；若不重叠，进一步判断是否相邻，如果所述多个识别特征峰的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入S133；若既不重叠也不相邻，则判定所述多个识别特征峰分别为独立的特征峰；

S132，判断所述多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入S133；若不重叠，进一步判断是否相邻，如果所述多个识别特征峰的[rtmin，rtmax]区域的间隔小于第二预设阈值，则判断为相邻，进入S133；若既不重叠也不相邻，则判定所述多个识别特征峰分别为独立的特征峰；

S133，如果所述多个识别特征峰的同时满足S131中的重叠或相邻，和S132中的重叠或相邻两个条件，则将所述多个识别特征峰合并为一个特征峰；

S134，利用所有特征峰的数据生成特征列表即得到所述特征数据库。

4.根据权利要求3所述的生物代谢组学数据处理方法，其特征在于，所述第一预设阈值依据仪器参数进行设定，所述第二预设阈值依据保留时间校正中时间偏差的最大值来进行设定；

优选的，所述第一预设阈值设定为0.01～0.015Da，所述第二预设阈值设定为10～15。

5.根据权利要求3所述的生物代谢组学数据处理方法，其特征在于，所述质谱数据还包括二级质谱数据，所述S13还包括：

S135，将所述多个生物样本的二级质谱数据比对到所述S134生成的特征数据库中，辅助判断峰合并的有效性。

6.根据权利要求1所述的生物代谢组学数据处理方法，其特征在于，所述质谱数据还包括二级质谱数据，所述S11还包括对所述一级质谱数据和所述二级质谱数据进行保留时间校正；

优选的，使用Obiwarp算法进行保留时间校正。

7.根据权利要求1所述的生物代谢组学数据处理方法，其特征在于，所述峰识别的算法为CentWave算法、matchedFilter算法或mzMine算法。

8.根据权利要求7所述的生物代谢组学数据处理方法，其特征在于，所述峰识别的算法的参数设置包括：ppm：采用仪器的分辨率；峰宽：设置为2～30；噪音：设置为0；信噪比：设置为10。

9.根据权利要求1所述的生物代谢组学数据处理方法，其特征在于，所述生物样本包括人或动物的体液、组织或细胞，植物的根、茎、叶、果实或种子，或微生物的细胞培养液；其中，所述体液包括尿液、血液、唾液、脑脊液或羊水，所述组织包括器官组织、肌肉组织或肿瘤组织，所述细胞包括干细胞、体细胞、肿瘤细胞或微生物细胞。

10.一种生物代谢组学数据的分析方法，其特征在于，依次包括生物代谢组学数据处理和通过二级质谱数据信息对代谢物进行定性鉴定的步骤，其中，所述生物代谢组学数据处理采用如权利要求1至9中任一项所述的生物代谢组学数据处理方法进行。

11.根据权利要求10所述的分析方法，其特征在于，通过二级质谱数据信息对代谢物进行定性鉴定的步骤包括：

S21，获取各标准化合物的质荷比数据；

S22，在生物代谢组学数据处理后得到的特征数据库中任意选择一个特征值，并找到与该特征值对应的所有的二级质谱质荷比数据，根据所述所有的二级质谱质荷比数据，找到与其相匹配的标准化合物；

S23，以所述S22中选择的所述一个特征值所对应的所述所有的二级质谱质荷比数据为一方，以所述S22中找到的所述匹配的标准化合物的二级质谱质荷比数据为另一方，对二者进行相似性打分，计算点积分，根据积分值对代谢物进行定性。

12.根据权利要求11所述的分析方法，其特征在于，所述S23包括：计算所述匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数，选择中位数最大的化合物；

优选的，根据化合物的中位数是否大于截止值，判别是否匹配。

13.根据权利要求11所述的分析方法，其特征在于，所述标准化合物的质荷比数据从已有的数据库中获得，所述数据库包括NISTlib、HMDB或METLIN。

14.根据权利要求10所述的分析方法，其特征在于，所述分析方法还包括生物代谢物定量的步骤。

15.根据权利要求14所述的方法，其特征在于，所述生物代谢物定量的步骤包括：

S32，对所建立的特征数据库中所述待定量样本的对应的特征区域进行积分，得到生物代谢物相对定量的结果。

16.权利要求1至9中任一项所述的生物代谢组学数据处理方法、权利要求10至15中任一项所述的生物代谢组学数据的分析方法在维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽鉴定中的应用。

17.一种维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽的检测方法，其特征在于，包括：对生物样本进行液相色谱-质谱和/或气相色谱-质谱检测，得到液相色谱-质谱数据和/或气相色谱-质谱数据；采用如权利要求1至9中任一项所述的生物代谢组学数据处理方法或权利要求10至15中任一项所述的生物代谢组学数据的分析方法对所述生物样本的液相色谱-质谱数据和/或气相色谱-质谱数据进行处理得到数据结果；以及根据所述数据结果换算出所述维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽。

18.一种生物代谢组学数据处理装置，其特征在于，所述生物代谢组学数据包括液相色谱-质谱数据或气相色谱-质谱数据，所述液相色谱-质谱数据包括一级质谱数据，所述气相色谱-质谱数据包括一级质谱数据；所述生物代谢组学数据处理装置包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的数据库生成模块，所述数据库生成模块包括:

时间轴校正子模块，用于任意选取所述多个生物样本中的一个样本作为参照样本，根据所述参照样本的时间轴逐一对其他样本的时间轴进行校正；

特征数据库形成子模块，用于根据样本信息互补原则，对所述多个识别特征峰进行合并处理，得到所述多个生物样本的特征数据库。

19.根据权利要求18所述的生物代谢组学数据处理装置，其特征在于，所述特征数据库形成子模块包括数据整合单元，所述数据整合单元用于将[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻的多个识别特征峰合并为一个特征峰。

20.根据权利要求19所述的生物代谢组学数据处理装置，其特征在于，所述特征数据库形成子模块包括第一判断单元、第二判断单元、所述数据整合单元和特征数据库形成单元：

其中，所述第一判断单元，用于判断所述多个识别特征峰的[mzmin，mzmax]区域是否重叠，若重叠，进入所述数据整合单元；若不重叠，进一步判断是否相邻，如果所述多个识别特征峰的[mzmin，mzmax]区域的间隔小于第一预设阈值，则判定为相邻，进入S133；若既不重叠也不相邻，则判定所述多个识别特征峰分别为独立的特征峰；

所述第二判断单元，用于判断所述多个识别特征峰的[rtmin，rtmax]区域是否重叠或者相邻，若重叠，进入所述数据整合单元；若不重叠，进一步判断是否相邻，如果所述多个识别特征峰的[rtmin，rtmax]区域的间隔小于第二预设阈值，则判断为相邻，进入所述数据整合单元；若既不重叠也不相邻，则判定所述多个识别特征峰分别为独立的特征峰；

所述数据整合单元，用于将[mzmin，mzmax]区域重叠或相邻，且[rtmin，rtmax]区域重叠或相邻的多个识别特征峰合并为一个特征峰；

所述特征数据库形成单元，用于利用所有特征峰的数据生成特征列表即得到所述特征数据库。

21.根据权利要求20所述的生物代谢组学数据处理装置，其特征在于，所述第一预设阈值依据仪器参数进行设定，所述第二预设阈值依据保留时间校正中时间偏差的最大值来进行设定；

22.根据权利要求20所述的生物代谢组学数据处理装置，其特征在于，所述质谱数据还包括二级质谱数据，所述生物代谢组学数据处理装置还包括：

峰合并有效性验证子模块，用于将所述多个生物样本的二级质谱数据比对到所述特征数据库中，辅助判断峰合并的有效性。

23.根据权利要求18所述的生物代谢组学数据处理装置，其特征在于，所述质谱数据还包括二级质谱数据，所述时间轴校正子模块还用于对所述一级质谱数据和所述二级质谱数据进行保留时间校正；

优选的，使用Obiwarp算法进行保留时间校正。

24.根据权利要求18所述的生物代谢组学数据处理装置，其特征在于，所述峰识别的算法为CentWave算法、matchedFilter算法或mzMine算法。

25.根据权利要求24所述的生物代谢组学数据处理装置，其特征在于，所述峰识别的算法的参数设置包括：ppm：采用仪器的分辨率；峰宽：设置为2～30；噪音：设置为0；信噪比：设置为10。

26.一种生物代谢组学数据的分析装置，其特征在于，包括用于生物代谢组学数据处理的模块和用于通过二级质谱数据信息对代谢物进行定性鉴定的模块，其中，所述用于生物代谢组学数据处理的模块为权利要求18至25中任一项所述的生物代谢组学数据处理装置。

27.根据权利要求26所述的分析装置，其特征在于，所述用于通过二级质谱数据信息对代谢物进行定性鉴定的模块包括：

标准化合物匹配子模块，用于在生物代谢组学数据处理后得到的所述特征数据库中任意选择一个特征值，并找到与该特征值对应的所有的二级质谱质荷比数据，根据所述所有的二级质谱质荷比数据，找到与其相匹配的标准化合物；

积分定性子模块，用于以所述标准化合物匹配子模块中选择的所述一个特征值所对应的所述所有的二级质谱质荷比数据为一方，以所述标准化合物匹配子模块中找到的所述匹配的标准化合物的二级质谱质核比数据为另一方，对二者进行相似性打分，计算点积分，根据积分值对代谢物进行定性。

28.根据权利要求27所述的分析装置，其特征在于，所述积分定性子模块用于计算所述匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数，选择中位数最大的化合物；

29.根据权利要求27所述的分析装置，其特征在于，所述标准化合物的质荷比数据从已有的数据库中获得，所述数据库包括NISTlib、HMDB或METLIN。

30.根据权利要求26所述的分析装置，其特征在于，所述分析装置还包括用于生物代谢物定量的模块。

31.根据权利要求30所述的装置，其特征在于，所述用于生物代谢物定量的模块包括：

生物代谢物相对定量子模块，用于对所建立的特征数据库中所述待定量样本的对应的特征区域进行积分，得到生物代谢物相对定量的结果。