CN110632228B

CN110632228B - 一种自动实现uplc-hrms中保留时间漂移校正与化合物注册的方法

Info

Publication number: CN110632228B
Application number: CN201910903550.7A
Authority: CN
Inventors: 于永杰; 郭晓萌; 周婕婕; 张茜; 张玉颖
Original assignee: Ningxia Medical University
Current assignee: Ningxia Medical University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-01-11
Anticipated expiration: 2039-09-24
Also published as: CN110632228A

Abstract

一种实现UPLC‑HRMS中保留时间漂移校正与化合物注册的方法，通过UPLC‑HRMS同时定性和定量表征复杂样本中的化学成分，自动提取化合物信息并构建其质谱谱图，筛选质谱谱图中离子信息丰富的化合物作为标志物，采用动态时间规划算法进行样本间的时间漂移粗略校正，然后对EIC峰进行精细化校正，并根据校正后的保留时间结合化合物的高精度m/z值，利用网络链接聚类算法实现化合物注册。该方法适用于利用基于UPLC‑HRMS的大批量样本解析，包括代谢组学、脂质组学、蛋白质组学等研究领域，以及食品分析、中药分析等复杂样本解析。

Description

一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法

技术领域

本发明涉及基于UPLC-HRMS的大批量样本解析技术领域，尤其涉及一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法。

背景技术

超高效液相色谱联用高分辨质谱技术（ultra-high performance liquidchromatography-high resolution mass spectrometry, UPLC-HRMS）的发展，为当前极为复杂的样本分析提供了强力支持。高分辨率质谱技术所具备的精准识别分子质量相近的化合物的能力与超高效液相色谱技术的分离能力有机结合，能够有效解决传统色谱分析技术如液相色谱联用二极管阵列检测器中的化合物共流出以致难以识别其中的化学成分等问题。借助于UPLC-HRMS这一先进的分析技术，研究人员能够轻易获得复杂样本中上千种化学成分的定性和定量信息。因此，UPLC-RHMS被广泛应用于如代谢组学、蛋白质组学、脂质组学、产地溯源、品质监控等领域中。

在实际应用中，UPLC-RHMS分析仍面临诸多挑战，比如目前公认UPLC-HRMS中化合物信息的高效率提取是其中的一个难题，并已经成为制约UPLC-HRMS在复杂样本分析中深入发展的瓶颈问题。另一方面，在复杂样本分析中，特别是大批量样本分析中，由于样本构成中化学成分变化、色谱系统中仪器参数改变、色谱柱老化等问题，色谱保留时间漂移不可避免。近些年针对UPLC-HRMS中化学物质信息提取已经有了一些方法，比如XCMS、MS-DIAL、Mzmine2、ADAP、AntDAS等，并且这些方法在实际应用中也取得了成功，但这些方法均无法有效处理样本间严重的时间漂移。

色谱保留时间漂移会将一个成分在不同样本中识别为不同的物质，或者将不同的化学物质错误地判定为同一个成分，从而直接影响最后的分析结果。由于复杂样本保留时间漂移在整个流出段中呈现非线性特征，传统通过添加内标进行时间校正的方法不适用于复杂样本分析。目前围绕色谱保留时间漂移校正的方法多是针对一维的色谱信号，如传统的液相色谱或是气相色谱指纹图谱，这类方法以相关性优化变形（COW）最为经典，但这一方法存在消耗时间的问题，难以应用到含有上千个提取离子色谱谱图（extracted ionchromatogram, EIC）的UPLC-HRMS中。另外，这些一维色谱保留时间校正方法都是基于整张色谱谱图，欠缺色谱峰信息提取步骤，因而无法直接植入到当前的UPLC-HRMS解析的方法中。近些年，国内外的研究小组提出了人为添加一些标志物到样本中，然后利用这些标志物进行时间漂移校正。这种方式虽不失为一种好的解决方式，但在复杂样本分析时仍然同样面临挑战，如：（1）需要慎重筛选标志物，必须保证其均匀分布于整个流出段且不能对样本中的化学成分造成干扰；（2）缺乏适用性，需要针对不同的分析体系筛选标志物，甚至当流动相条件发生改变时需要重新筛选标志物；（3）目前的UPLC-HRMS解析方法中暂不支持这种做法，难以做到自动化分析大批量样本的数据。因此，如何有效校正UPLC-HRMS中的时间漂移，使得UPLC-HRMS的数据分析流程自动化，是当前复杂样本分析中亟待解决的难题。

发明内容

针对当前的实际需求，本发明提出了一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法。该方法基于课题组近些年工作的原创性研究工作，并发展了一些新的算法，能够全自动实现UPLC-HRMS分析中化学物质信息提取、样本间时间漂移精准校正、化合物注册，最终给分析人员提供化合物×样本的物质信息矩阵，用于其后续的分析。

本发明解决其技术问题所采用的技术方案是：

一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，通过UPLC-HRMS同时定性和定量表征复杂样本中的化学成分，自动提取化合物信息并构建其质谱谱图，筛选质谱谱图中离子信息丰富的化合物作为标志物，采用动态时间规划算法进行样本间的时间漂移粗略校正，然后对EIC峰进行精细化校正，并根据校正后的保留时间结合化合物的高精度m/z值，利用网络链接聚类算法实现化合物注册。

最优的，具体步骤包括：

a.单样本中EIC构建：（1）在给定HRMS仪器高精度m/z允差（tolerance）下，对UPLC-HRMS采集的每一张质谱谱图下的高精度离子整合到一起；（2）计算整个质谱空间下步长为0.1*tolerance下的离子数量分布图；（3）查找分布图中的所有极大值，建立极大值集合；（4）首先选择离子数量最大的极大值作为第一个EIC的中心m/z值，并删除与该中心m/z值相近的极大值；在剩下的极大值中，找离子数目最大的极大值作为第二个EIC的中心m/z值，并删除第二个中心m/z值附近的所有极大值，依次类推，直到极大值集合为空；（5）在离子数量分布图中将所有的EIC中心m/z值从小到大逐个标记出来，两个连续的EIC边界确定为两个中心值m/z范围内具有最小离子数目的质谱空间所对应的m/z值；（6）待每个EIC的m/z范围确定后，将UPLC-HRMS中所有的离子根据其m/z值划分到相应的EIC中；（7）最后，根据离子的扫描点、离子信号强度构建EIC；

b.单样本中EIC峰提取：（1）提取EIC中的极大值，并在保留时间轴上标记出来极大值的位置；（2）以极大值为中心，分别向左右两侧拓展；在拓展过程中，每次分别向左侧和右侧拓展一个扫描点，任何一侧的拓展过程终止条件为（i）出现信号强度大于极大值，（ii）碰到信号强度为0，（iii）涵盖了15个扫描点；（3）计算极大值的窗口宽度为左侧和右侧的涵盖的扫描点数目加和，从而获得所有极大值的窗口宽度；（4）选择窗口宽度大于预先设定值的极大值，并融合过于接近的极大值，获得潜在的色谱峰信号；（5）剔除信噪比小于3的极大值，最终实现EIC信号中的色谱峰检出，根据峰顶位置离子的高精度m/z值，对峰进行标记；

c.单样本中同位素离子和加和离子识别：针对每一个EIC峰，由保留时间和高精度m/z值表征其定性信息；根据同一个化合物的同位素离子和加和离子在色谱保留时间上基本相同，高精度m/z值相差一定数值的特征，在预先设定保留时间允差范围内，搜索满足[M+H]⁺、[M+1+H]⁺、[M+2+H]⁺、[M+3+H]⁺等离子质量差异的离子，视作为同位素离子，同时搜索[M+Na]⁺、[M+K]⁺、[M+NH₄]⁺、[M+2Na-H]⁺、[M+2K-H]⁺、[M-H₂O+H]⁺、[M-2H₂O+H]⁺等离子质量差异的离子，视作加和离子，最终完成同位素离子和加和离子的识别；

d.单样本中化合物中性丢失碎片离子识别：（1）在同位素离子和加和离子识别基础上，仅选择标识为[M+H]⁺的EIC峰作为潜在的化合物碎片离子，明确每一个EIC峰的流出时间；（2）将所有标识为[M+H]⁺离子的EIC峰按照峰强度由高到低进行排序；（3）选择信号强度最大的EIC峰作为参比，搜索保留时间0.02-0.04 min或者相差2-4个扫描点内的其它EIC峰，并计算EIC峰形与参比峰形的Pearson相关系数，若相关系数大于设定阈值，阈值设定为0.95，则将其识别为来自同一个化合物的碎片离子；（4）在剩下的EIC峰中，选择信号强度最大的峰作为参比峰，并搜索保留时间0.02-0.04 min或者相差2个扫描点内的其它未识别为碎片离子的EIC峰，计算其与参比峰的Pearson相关系数并将相关系数大于设定阈值的识别为来自同一个化合物的碎片离子；（5）重复步骤（4）直到最小信号强度的EIC峰；（6）对于识别为来自同一个化合物的碎片离子，将附属于各碎片离子同位素离子及加和离子提取出来，构建该化合物的质谱谱图；

e.样本间的保留时间时间漂移粗略校正：（1）针对每个样本中存在碎片离子的化合物，将离子数量大于5的化合物作为标志物，将标志物数量最多的样本设定为参比样本，其它样本设定为测样，每一个测样的保留时间校正独立进行；（2）对于参比样本中的每一个标志物，在预先设定保留时间漂移时间范围内，搜索测样中的标志物，并计算其与参比样本中标志物的Pearson相关系数，依次构建参比样本与测样中标志物的质谱谱图相关系数矩阵；（3）利用动态规划算法，通过寻找相关系数矩阵中元素数值累加最大的路径，获得与参比中标志物相配对的测样标志物，根据保留时间的差异，判断出测样标志物保留时间点下的时间漂移数值，随后，通过二次多项式平滑获得测样中每个保留时间下的漂移数值，进行测样的保留时间漂移粗略校正；

f.样本间EIC峰保留时间漂移精细化校准：（1）在步骤a的EIC构建结果的基础上，将不同样本间EIC中心m/z值相差在m/z tolerance范围内的所有EIC识别为一个EIC族，色谱峰精细化时间校正针对每一个EIC族独立进行；（2）针对每一个EIC族，选择EIC峰数量最多的EIC作为参比，其它样本的EIC识别为测样EIC，每个测样的精细化校正单独进行；（3）针对参比EIC中的每一个色谱峰，搜索在一定保留时间范围内并且m/z也满足m/z tolerance的测样EIC峰，作为候选色谱峰，计算色谱峰形的Pearson相关系数，构建出参比与测样的色谱峰形的相关系数矩阵；（4）利用动态规划算法搜索与EIC参比峰相匹配的测样峰，根据这些配对的EIC峰的保留时间，采用线性插值估计出测样中EIC峰的精确保留时间漂移值，最终完成EIC峰保留时间漂移的精细化校准；

g.不同样本中来自同一个化合物注册：经过精细化时间漂移校正后，每一个EIC峰均由三个参数予以定性表征，即样本号、保留时间值、及高精度m/z值，设计基于一次形成聚类的网络链接算法，具体为：（1）针对每一个的EIC峰，搜索其它样本中满足m/z tolerance和保留时间允差范围内的所有EIC峰，视作待链接色谱峰集，保留时间允差为0.1 min；（2）针对每一个EIC峰，待链接色谱峰集中具有最小保留时间差的色谱峰视作为最优先链接点；（3）针对每一个EIC峰，若该EIC峰与其最优先链接点所对应的EIC峰互相一致，则判断两个EIC峰所属的类中是否有共同的样本，若无共同的样本，将两类中的所有EIC峰链接起来；（4）更新每个EIC峰的最优先链接点，重复第（3）步，直至无法形成新的链接，最终将链接到一起的EIC峰识别为不同样本中对应于同一个化合物的EIC峰，从而实现化合物的注册。

最优的，根据a所述的EIC构建算法中，给定HRMS仪器高精度m/z允差tolerance设定范围是0.1-0.001 Da。

最优的，根据a所述的EIC构建算法中，计算整个质谱空间中步长为0.1*tolerance下的离子数量分布图的具体过程为：（1）整合了单样本中所有离子m/z后，获得m/z最大值（m/z _max）和最小值（m/z _min），计算样本的质谱空间为：m/z _max - m/z _min；（2）将整个质谱空间等分为0.1* tolerance宽度的子空间：（m/z _max - m/z _min）/（0.1* tolerance）；（3）将样本中的所有离子根据其m/z值划分到相应的子空间；（4）统计每个子空间下的离子数目，以子空间中心点的m/z做x轴，离子数目做y轴，获得样本质谱空间中步长为0.1*tolerance下离子数量分布图。

最优的，根据b中所述的EIC峰检出中，所述选择窗口宽度大于预先设定值的极大值，并融合过于接近的极大值的具体步骤为，窗口宽度预先设定值为20-30个扫描点；融合过于接近的极大值的步骤指的是两个极大值在保留时间轴上小于0.04 min或少于4个扫描点，融合后，仅保留信号强度大的极大值，消除信号强度小的极大值。

最优的，根据c中所述预先设定保留时间允差范围的数值为0.02-0.06 min，或者2-6个扫描点。

最优的，根据e中所述预先设定保留时间漂移时间范围的数值为0.5-6 min。

最优的，f中所述的“针对参比EIC中的每一个色谱峰，搜索在一定保留时间范围内并且m/z也满足m/z tolerance的测样EIC峰，作为候选色谱峰”，一定保留时间范围的设定值为0.1-0.2 min。

上述自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法中，通过UPLC-HRMS同时定性和定量表征复杂样本中的化学成分，自动提取化合物信息并构建其质谱谱图，筛选质谱谱图中离子信息丰富的化合物作为标志物，采用动态时间规划算法进行样本间的时间漂移粗略校正，然后对EIC峰进行精细化校正，并根据校正后的保留时间结合化合物的高精度m/z值，利用网络链接聚类算法实现化合物注册，如此能够有效校正UPLC-HRMS中的时间漂移，使得UPLC-HRMS的数据分析流程自动化。

附图说明

图1.针对单样本中EIC构建示例图组，图组中：（A）为UPLC-HRMS采集的单个样本中的离子分布；（B）为在步长为0.001 Da(0.1*tolerance)下质谱空间中的离子分布特征；（C）为基于本发明方法将不同的离子划分到不同的EIC中；（D）为本发明构建的中心m/z质量为163.0384的EIC。

图2.单个EIC中色谱峰的提取示例图组，图组中：（A）为EIC谱图；（B）为EIC谱图中极大值的窗口宽度；（C）为EIC中的峰提取结果。

图3.识别化合物中性离子丢失与构建的标志物质谱谱图示例图组，图组中：（A）为EIC峰提取结果；（B）为化合物中性丢失识别结果；（C）、（D）、（E）为基于化合物中心丢失识别出来的化学成分。

图4.基于标志物实现样本间的粗略时间漂移校正示例图组，图组中：（A）为参比样本和测试样本中标志物的质谱谱图相似度矩阵；（B）为基于动态规划算法获得标志物保留时间漂移量；（C）为示例流出段内TIC时间漂移校正结果；（D）为测样时间漂移校正结果。

图5.基于EIC峰的精细化时间校正示例图组，图组中：（A）为原始EIC及其峰检出结果，插图给出了基于标志物的粗略时间漂移估计值；（B）为经过粗略时间漂移校正后的EIC峰；（C）为EIC峰相似度矩阵及基于动态规划算法获得的匹配路径；（D）为EIC峰精细化校正结果。

图6.基于本发明的色谱峰注册结果示例图组，图组中：A1-A4、B1-B4、C1-C4分别给出了不同流出状态下的EIC色谱峰，第一列：EIC色谱峰流出状况；第二列：EIC峰位置；第三列：经过网络链接算法得到的EIC峰注册结果；第四列：注册为同一个物质的EIC轮廓图。

图7.对比本发明与当前最先进方法在时间漂移存在下注册化合物结果图组，图组中：（A）为XCMS结果；（B）为AntDAS结果；（C）为本发明结果。

图8.对比本发明与当前最先进方法分析UPLC-HRMS样本聚类结果图组，图组中：（A）为本发明结果；（B）为XCMS结果；（C）为MS-DIAL结果；（D）为AntDAS结果。

具体实施方式

本发明提供的自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，通过UPLC-HRMS同时定性和定量表征复杂样本中的化学成分，自动提取化合物信息并构建其质谱谱图，筛选质谱谱图中离子信息丰富的化合物作为标志物，采用动态时间规划算法进行样本间的时间漂移粗略校正，然后对EIC峰进行精细化校正，并根据校正后的保留时间结合化合物的高精度m/z值，利用网络链接聚类算法实现化合物注册。

上述自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，具体步骤包括：

d.单样本中化合物中性丢失碎片离子识别：（1）在同位素离子和加和离子识别基础上，仅选择标识为[M+H]⁺的EIC峰作为潜在的化合物碎片离子，明确每一个EIC峰的流出时间；（2）将所有标识为[M+H]⁺离子的EIC峰按照峰强度由高到低进行排序；（3）选择信号强度最大的EIC峰作为参比，搜索保留时间0.02-0.04 min或者相差2-4个扫描点内的其它EIC峰，并计算EIC峰形与参比峰形的Pearson相关系数，若相关系数大于设定阈值，阈值设定为0.95，则将其识别为来自同一个化合物的碎片离子；（3）在剩下的EIC峰中，选择信号强度最大的峰作为参比峰，并搜索保留时间0.02-0.04 min或者相差2个扫描点内的其它未识别为碎片离子的EIC峰，计算其与参比峰的Pearson相关系数并将相关系数大于设定阈值的识别为来自同一个化合物的碎片离子；（4）重复步骤（3）直到最小信号强度的EIC峰；（5）对于识别为来自同一个化合物的碎片离子，将附属于各碎片离子同位素离子及加和离子提取出来，构建该化合物的质谱谱图；

其中，在“a.单样本中EIC构建”步骤中，给定HRMS仪器高精度m/z允差（tolerance）设定范围是0.1-0.001 Da；在“a.单样本中EIC构建”步骤中，计算整个质谱空间中步长为0.1*tolerance下的离子数量分布图的具体过程为：（1）整合了单样本中所有离子m/z后，获得m/z最大值（m/z _max）和最小值（m/z _min），计算样本的质谱空间为：m/z _max - m/z _min。（2）将整个质谱空间等分为0.1* tolerance宽度的子空间：（m/z _max - m/z _min）/（0.1* tolerance）。（3）将样本中的所有离子根据其m/z值划分到相应的子空间。（4）统计每个子空间下的离子数目，以子空间中心点的m/z做x轴，离子数目做y轴，获得样本质谱空间中步长为0.1*tolerance下离子数量分布图。

其中，在“b.单样本中EIC峰提取”步骤中，所述选择窗口宽度大于预先设定值的极大值，并融合过于接近的极大值的具体步骤为，窗口宽度预先设定值为20-30个扫描点；融合过于接近的极大值的步骤指的是两个极大值在保留时间轴上小于0.04 min或少于4个扫描点，融合后，仅保留信号强度大的极大值，消除信号强度小的极大值。

其中，在“c.单样本中同位素离子和加和离子识别”步骤中，所述预先设定保留时间允差范围的数值为0.02-0.06 min，或者2-6个扫描点。

其中，在“e.样本间的保留时间时间漂移粗略校正”步骤中，所述预先设定保留时间漂移时间范围的数值为0.5-6 min。其中，所述预先设定保留时间漂移时间范围的数值越大，计算消耗时间越长，本发明设定的默认值为4 min。

其中，在“f.样本间EIC峰保留时间漂移精细化校准”步骤中，所述的“针对参比EIC中的每一个色谱峰，搜索在一定保留时间范围内并且m/z也满足m/z tolerance的测样EIC峰，作为候选色谱峰”，一定保留时间范围的设定值为0.1-0.2 min。

请同时参看图1至图8，以下对发明实施的技术方案做进一步的详细阐述，以通过以下示例展示IPLC-HRMS中保留时间漂移校正与化合物注册的整个过程：

S1. UPLC-HRMS数据获取：

植物样本粉碎，经溶剂提取后进入Agilent 1290II-6545 UPLC-QTOF进行分析，获得每一个样本中的物质信息。色谱流动相由（A）水和（B）0.1%的甲酸乙腈溶液构成,采用梯度洗脱条件使得化合物尽可能在整个保留时间段中均匀分布，并具有较好的色谱峰形。质谱分析中利用正离子模式下收集化合物的离子，数据采集模式为centroid，扫描范围50-1000。我们收集了中国某种植物上千个样本，从中挑选了3个产地100多个样本阐释本发明进行UPLC-HRMS分析的具体工作方式。

S2. 单样本中EIC构建：

首先确定HRMS仪器质谱仪允差（tolerance）。本发明采用0.01 Da作为允差进行分析。随后，将这个质谱空间划分为步长为0.001 Da的子空间并统计每个子空间的离子数目，获得离子分布特征曲线。查找特征曲线中的极大值并通过迭代优化获得EIC的质谱空间，将样本中所有的离子根据其m/z值划分到相应的EIC质谱空间中，根据扫描位置构建EIC。

图1给出了EIC提取示例图。选择了m/z为162.99-163.09范围内的离子进行说明。图1A给出了该范围内离子在整个采样扫描点下的分布。从图中可以看出离子主要分布于几个m/z数值范围内。图1B中给出了离子的分布特征曲线，明显能够看到在m/z数值为162.99-163.09范围内出现了4个极大值。根据这些极大值对质谱空间进行划分，获得每个EIC的质谱空间。图1C给出了不同EIC空间中的离子，可以看出，样本中的离子根据其m/z数值获得了较好的聚类。图1D给出了根据一个EIC空间中的离子构建的提取离子色谱谱图，能够看出该EIC中含有了数个色谱峰，表面物质信息得到了有效提取。

S3. EIC中色谱峰的提取：

首先提取EIC中的极大值，并在保留时间轴上标记出来极大值的位置。以极大值为中心，分别向左右两侧拓展，从而获得所有极大值的窗口宽度。选择窗口宽度大于预先设定值的极大值，并融合过于接近的极大值，获得潜在的色谱峰信号。剔除信噪比小于3的极大值后，最终实现EIC信号中的色谱峰检出结果，根据峰顶位置离子的高精度m/z值，对峰进行标记。

图2给出了EIC中的峰提取结果。图2A中给出了一张EIC谱图。提取其中的极大值之后，通过动态窗口拓展获得每个极大值的窗口，并展示于图2B中。能够看出，不同极大值的窗口宽度并不一致。最终本发明给出了该EIC下的峰提取结果。图2C中给出了本发明提取出来的9个色谱峰，从中可以看出化合物色谱峰不仅得到有有效提取，而且色谱峰的范围得到了很好的估计。

S4. 单样本中同位素离子和加和离子识别：

针对每一个EIC峰，由保留时间和高精度m/z值表征其定性信息。根据同一个化合物的同位素离子和加和离子在色谱保留时间上基本相同，高精度m/z值相差一定数值的特征，在预先设定保留时间允差范围内，搜索满足[M+H]⁺、[M+1+H]⁺、[M+2+H]⁺、[M+3+H]⁺等离子质量差异的离子，视作为同位素离子，同时搜索[M+Na]⁺、[M+K]⁺、[M+NH₄]⁺、[M+2Na-H]⁺、[M+2K-H]⁺、[M-H₂O+H]⁺、[M-2H₂O+H]⁺等离子质量差异的离子，视作加和离子，最终完成同位素离子和加和离子的识别。

S5. 单样本中化合物中性丢失碎片离子识别：

本发明中针对中性离子丢失的识别基于[M+H]⁺色谱峰。将所有标识为[M+H]⁺离子的EIC峰按照峰强度由高到低进行排序，选择信号强度最大的EIC峰作为参比，搜索保留时间0.02-0.04 min或者相差2-4个扫描点内的其它EIC峰，并计算EIC峰形与参比峰形的Pearson相关系数，若相关系数大于设定阈值（阈值设定为0.95），则将其识别为来自同一个化合物的碎片离子。在剩下的EIC峰中，选择信号强度最大的峰作为参比峰，并搜索保留时间0.02-0.04 min或者相差2个扫描点内的其它未识别为碎片离子的EIC峰，计算其与参比峰的Pearson相关系数并将相关系数大于设定阈值的识别为来自同一个化合物的碎片离子。依次类推，最终完成化合物中性丢失碎片离子的识别，构建化合物的质谱谱图。

图3给出了本发明实现化合物中性碎片离子识别构建化合物质谱谱图的结果。图3A给出了EIC的峰提取结果。通过Pearson相关系数，识别出来自化合物的碎片离子并展示于图3B中。进一步的分析表明，本发明中的化合物碎片离子识别准确识别出来了化合物Rutin、Umbelliferone、Kaempferol 3-rutinosid的碎片离子，分别展示于图3C、图3D、和图3E中。

S6. 样本间的保留时间时间漂移粗略校正：

选择碎片离子大于5的化合物作为标志物，将标志物数量最多的样本设定为参比样本，其它样本设定为测样。通过比较参比样本和测试样本中标志物的质谱谱图相似度，构建化合物匹配相似度矩阵。利用动态规划算法，获得与参比中标志物相配对的测样标志物，并估计出测样中标志物保留时间点下的时间漂移值，最后通过平滑获得测样中的整体时间漂移值，完成粗略校正。

图4给出了粗略时间漂移校正示例。图4A给出了参比样本中的某一流出段范围内的标志物和以及测样中的标志物，以及根据标志物的质谱谱图获得的标志物相似度矩阵。可以看出，化合物质谱谱图越接近，相似度矩阵中的数值越高。通过动态规划算法，获得相匹配的标志物后，所估计出来的时间漂移值展示于图4B中。该图清晰地表明测样中保留时间在不同的时间点下呈现非线性特征。基于这些标志物下的保留时间漂移值，最终估计出来样本的整体时间漂移并以实线形式展示于图4B中。图4C给出了该流出段内测样的时间漂移校正结果。可以看出，通过时间漂移校正该流出段下测样的TIC与参比样本基本一致。图4D给出了测样整个流出段中的时间漂移校正结果，该图中清楚地表面经过粗略时间漂移校正后，测样的TIC与参比样本中的TIC高度重合，校正结果较为理想。

S7. 样本间EIC峰保留时间漂移精细化校准：

经过粗略时间漂移校正后，进一步对EIC中的峰进行精细化的时间校正。首先对不同样本中属于同一个m/z的EIC识别为一个EIC族。选择该族中EIC峰数量最多的作为参比。对每个参比的EIC峰，计算满足高精度m/z允差值和保留时间允差的测样EIC峰的峰轮廓相似度。构建EIC色谱峰相似度矩阵，通过动态规划算法所有与参比EIC峰相匹配的测样EIC峰，完成精细化的EIC峰时间校正。

图5给出了EIC峰的时间校正示例。图5A给出了原始信号中的EIC及其中的色谱峰，插图给出了该样本估计出来的粗略时间漂移值。经过粗略时间校正后的EIC峰展示于图5B中。从该图中可以明显看到EIC峰得到了较好的校正。但对于少数几个EIC峰，仍然存在保留时间漂移的问题。比如测样中的第4、5、10、17号峰仍存在轻微的时间漂移。在质谱允差和保留时间允差范围内，构建了色谱峰轮廓相似度矩阵（见图5C），并通过动态规划算法获得了参比EIC峰和测样EIC峰的匹配结果，最终实现了EIC峰的精细化校正（图5D）。

S8. 不同样本中来自同一个化合物注册：

经过精细化时间漂移校正后，每一个EIC峰均由三个参数予以定性表征，即样本号、保留时间值、及高精度m/z，以期实现化合物注册。在满足保留时间允差和m/z允差范围内的所有EIC峰视作待链接色谱峰集。针对每一个EIC峰，待链接色谱峰集中具有最小保留时间差的色谱峰视作为最优先链接点，若最优先链接点所对应的色谱峰其最优先链接点是当前峰，则判断两个EIC峰所属的类中是否有共同的样本，若无共同的样本，将两类中的所有EIC峰链接起来。该过程迭代运行，直至无法形成新的链接。最终将链接到一起的EIC峰识别为不同样本中对应于同一个化合物的EIC峰，从而实现化合物的注册。

图6给出了化合物注册的示例。在图6中选择了3个不同流出状态的EIC峰进行诠释。其中图6A1-A4是只含有一个EIC峰的流出情况，图6B1-B4是含有多个EIC峰的流出情况，图6C1-C4是有两个色谱峰轮廓相近，且保留时间也较为接近的流出情况。为便于解释本发明的化合物注册，用加深颜色标注出来手动选择的EIC峰。图6中的第一列和第二列分别展示了原始的EIC信号和EIC信号中提取的色谱峰位置，能够明显看到样本间的时间漂移情况。经过粗略校正和精细化校正后，采用网络链接获得的注册EIC峰。图6中的第3列将注册为同一个化合物的EIC峰同样用加深颜色标出。图6第4列给出了相对应的EIC轮廓图。从图中可以看出，本发明能够准确识别不同流出状况下的EIC峰的注册。所得结果较为满意。

为进一步说明本发明的优势。引入了目前国际上应用范围较广、当前最先进的几个算法进行了比较，包括XCMS、MS-DIAL、AntDAS。需要指出，我们用Mzmine2对数据进行了分析，该方法给出结果完全不可靠，因此其结果没有展示。XCMS分析我们选择了美国的XCMSOnline版本，该版本针对UPLC-QTOF仪器已经做了优化，可以直接分析数据。图7给出了一个EIC峰在不同方法中所得结果与参比结果的对比。该EIC峰展示于图6A中。参比结果为手动积分了所有样本中该物质的EIC峰所得到的峰面积。图7A展示的是XCMS分析该组数据注册的化合物，图7B是AntDAS分析该组数据所注册的化合物。图7C是本发明分析该组数据所注册的化合物。MS-DIAL分析该组数据后，没有得到该物质。从图7C中可以看出，本发明结果最优。

最后，根据不同方法所得结果，进行主成分分析，查看不同产地的样本是否能够在主成分图上得到较好的区分。图8给出了不同方法下得到的聚类结果。其中图8A给出了本发明的结果。能够看出，基于本发明分析后，不同产地的样本能够得到较好的区分。图8B给出了XCMS的分析结果，虽然不同产地样本呈现了区分的趋势，但仍然存在部分重叠。图8C和图8D分别给出了MS-DIAL和AntDAS的结果，这两个方法明显无法给出合理的解析结果。

综上可以看出本发明所提出的一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法能够完成UPLC-HRMS分析，得到较为满意的分析结果。该方法优于当前先进的分析方法。本发明提出的方法另一个优势在于能够实现UPLC-HRMS数据的全自动分析，方便人员使用。

Claims

1.一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：该方法通过UPLC-HRMS同时定性和定量表征复杂样本中的化学成分，自动提取化合物信息并构建其质谱谱图，筛选质谱谱图中离子信息丰富的化合物作为标志物，利用动态时间规划进行样本间的时间漂移粗略校正，然后对EIC峰进行精细化校正，并根据校正后的保留时间结合化合物的高精度m/z值，采用网络链接聚类算法，实现化合物注册；

具体步骤为：

a.单样本中EIC构建：（1）在给定HRMS仪器高精度m/z允差 tolerance下，对UPLC-HRMS采集的每一张质谱谱图下的高精度离子整合到一起；（2）计算整个质谱空间下步长为0.1*tolerance下的离子数量分布图；（3）查找分布图中的所有极大值，建立极大值集合；（4）首先选择离子数量最大的极大值作为第一个EIC的中心m/z值，并删除与该中心m/z值相近的极大值；在剩下的极大值中，找离子数目最大的极大值作为第二个EIC的中心m/z值，并删除第二个中心m/z值附近的所有极大值，依次类推，直到极大值集合为空；（5）在离子数量分布图中将所有的EIC中心m/z值从小到大逐个标记出来，两个连续的EIC边界确定为两个中心值m/z范围内具有最小离子数目的质谱空间所对应的m/z值；（6）待每个EIC的m/z范围确定后，将UPLC-HRMS中所有的离子根据其m/z值划分到相应的EIC中；（7）最后，根据离子的扫描点、离子信号强度构建EIC；

2.根据权利要求1中所述一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：在“a.单样本中EIC构建”步骤中，给定HRMS仪器高精度m/z允差tolerance设定范围是0.1-0.001 Da。

3.根据权利要求1中所述一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：在“a.单样本中EIC构建”步骤中，计算整个质谱空间中步长为0.1*tolerance下的离子数量分布图的具体过程为：（1）整合了单样本中所有离子m/z后，获得m/ z最大值m/z _max和最小值m/z _min，计算样本的质谱空间为：m/z _max - m/z _min，（2）将整个质谱空间等分为0.1* tolerance宽度的子空间：（m/z _max - m/z _min）/（0.1* tolerance），（3）将样本中的所有离子根据其m/z值划分到相应的子空间，（4）统计每个子空间下的离子数目，以子空间中心点的m/z做x轴，离子数目做y轴，获得样本质谱空间中步长为0.1*tolerance下离子数量分布图。

4.根据权利要求1中所述一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：在“b.单样本中EIC峰提取”步骤中，所述选择窗口宽度大于预先设定值的极大值的具体步骤为，窗口宽度预先设定值为20-30个扫描点；融合过于接近的极大值的步骤指的是两个极大值在保留时间轴上小于0.04 min或少于4个扫描点，融合后，仅保留信号强度大的极大值，消除信号强度小的极大值。

5.根据权利要求1中所述一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：在“c.单样本中同位素离子和加和离子识别”步骤中，所述预先设定保留时间允差范围的数值为0.02-0.06 min，或者2-6个扫描点。

6.根据权利要求1中所述一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：在“e.样本间的保留时间时间漂移粗略校正”步骤中，所述预先设定保留时间漂移时间范围的数值为0.5-6 min。

7.根据权利要求1中所述一种自动实现UPLC-HRMS中保留时间漂移校正与化合物注册的方法，其特征在于：在“f.样本间EIC峰保留时间漂移精细化校准”步骤中，所述的“针对参比EIC中的每一个色谱峰，搜索在一定保留时间范围内并且m/z也满足m/z tolerance的测样EIC峰，作为候选色谱峰”中一定保留时间范围的设定值为0.1-0.2 min。