CN114324713B

CN114324713B - Uhplc-hrms数据依赖性采集的信息解析方法

Info

Publication number: CN114324713B
Application number: CN202210037156.1A
Authority: CN
Inventors: 于永杰; 张佳妮; 刘佳楠; 汪兴财; 佘远斌
Original assignee: Ningxia Medical University
Current assignee: Ningxia Medical University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2023-01-13
Anticipated expiration: 2042-01-13
Also published as: CN114324713A

Abstract

本发明公开一种UHPLC‑HRMS数据依赖性采集的信息解析方法，包括以下步骤：基于UHPLC‑HRMS采集得到数据依赖性采集数据，基于所述数据依赖性采集数据中的MS¹数据构建EIC；提取所述EIC中的EIC峰；基于所述EIC峰，通过SVD建立MS/MS谱图；基于所述MS/MS谱图识别源内碎片离子，并根据所述碎片离子识别结果构建MS¹谱图，完成UHPLC‑HRMS分析。本发明能有效实现EIC提取、EIC峰提取、MS/MS构建和碎片离子鉴定以及MS¹谱图构建，改善假阳性和假阴性的问题。

Description

UHPLC-HRMS数据依赖性采集的信息解析方法

技术领域

本发明属于超高效液相色谱-高分辨质谱数据解析技术领域，尤其涉及一种UHPLC-HRMS数据依赖性采集的信息解析方法。

背景技术

超高效液相色谱-高分辨质谱(UHPLC-HRMS)的采用已被全球广泛接受，用于进行靶向和非靶向分析，如代谢组学、脂质组学、食品分析等。数据依赖性采集(DDA)模式是安捷伦、ThermoFisher和ABSCIEX(称为IDA)等高级UHPLC-HRMS仪器支持的数据采集模式。在DDA的帮助下，MS¹和MS/MS光谱都可以在一个采样循环内获得。来自DDA的MS¹信息可用于筛选目标化合物，如标记物，而每个筛选化合物对应的MS/MS信息可用于化合物识别。因此，DDA可以极大地帮助分析人员同时进行非靶向数据分析和化合物鉴定。

DDA已广泛用于蛋白质组学，以全面表征分析样品中的肽段。近年来，利用DDA完成地理来源判别、质量控制、生物标志物筛选等方面发表了多篇科学论文。与数据独立采集(DIA)相比，DDA的一个优势是可以直接获取离子的MS/MS谱图，因此可以潜在地用于源内碎片离子识别。在复杂的样品分析中，源内碎裂的发生会导致化合物产生许多离子，这些离子经常在未经适当处理的情况下从各种化合物中识别为准分子离子。

当前的数据分析工具，如MS-DIAL、Mzmine2、Progenesis QI和CompoundDiscovery，无法在数据分析过程中进行碎片离子鉴定。XCMS的开发人员设计了一种策略，即通过使用库中存储的标准质谱来识别源内碎片离子，无法识别库中不存在的碎片离子。相比之下，来自DDA模式的MS/MS信息可以自动用于识别分析样品中的碎片离子，理论上，由于在数据收集中使用相同的仪器条件，这比库中的碎片离子更准确。

尽管已经出现了许多数据分析工具用于非靶向代谢谱分析，包括MS-DIAL、XCMS、Mzmine2、KPIC2和AntDAS，但当前的数据分析工具并未完全获取来自DDA的信息。换句话说，当前的数据分析侧重于执行基于MS¹的非靶向代谢组学，以筛选丰度在组间显示出显着差异的特征。化合物鉴定和碎片离子鉴定尚未完全针对DDA模式进行开发。

发明内容

针对现有技术的不足，本发明提供UHPLC-HRMS数据依赖性采集的信息解析方法，该方法能有效实现提取离子色谱(EIC)提取、EIC峰提取、MS/MS构建和碎片离子鉴定，改善假阳性和假阴性的问题。

为实现上述目的，本发明提供了UHPLC-HRMS数据依赖性采集的信息解析方法，包括以下步骤：

基于UHPLC-HRMS采集得到数据依赖性采集数据，基于所述数据依赖性采集数据中的MS¹数据构建EIC；

提取所述EIC中的EIC峰；

基于所述EIC峰，通过SVD建立MS/MS谱图；

基于所述MS/MS谱图识别源内碎片离子；

根据所述源内碎片离子的识别结果构建MS¹谱图，完成UHPLC-HRMS分析。

可选地，构建所述EIC的方法包括：

根据离子丰度进行EIC种子的选择，获得EIC种子群；

将所述EIC种子群中每一个离子作为簇的中心位置，对所述EIC种子群进行分类；

对所述分类后的EIC种子群中的离子段进行填充优化，获得所述EIC。

可选地，获得所述EIC种子群的方法为：

选择离子丰度最大的离子作为第一个种子并将其添加到初始EIC种子集中，继续选择剩余的离子中离子丰度最大的离子，判断相邻两次选择的离子之间的最小m/z差值是否大于预设的m/z允差，是则将该离子添加到初始EIC种子集中，否则，将该离子标记为非种子离子，重复上述步骤，直到所有离子得到选择或标记，最终获得所述EIC种子集。

可选地，对所述EIC种子群进行分类的方法为：

以所述EIC种子集中的每一个离子作为簇的中心位置，根据离子之间m/z差值将所有离子归类到最近的EIC种子，完成所述EIC种子群的分类。

可选地，基于离子段间隙对所述分类后的EIC种子群中的离子段进行填充优化；

所述离子段间隙定义为离子在5次连续扫描中均能检测出。

可选地，提取所述EIC中的所述EIC峰的方法为：

利用基于局部最小值策略对所述EIC进行基线漂移校正处理，利用多尺度Mexico-Hat小波分析基线校正后的所述EIC，获得所述EIC中的峰位置，根据所述峰位置，提取对应的EIC峰，并将所述对应的EIC峰中S/N低于预设值的过滤，获得所述EIC峰。

可选地，所述多尺度Mexico-Hat小波分析为小波尺度从1到5验证，增量步长为0.2。

可选地，基于所述MS/MS谱图识别所述源内碎片离子的方法为：

通过Pearson系数计算所述EIC峰之间洗脱曲线的相似度；

基于所述EIC峰之间洗脱曲线的相似度识别所述源内碎片离子。

可选地，构建所述MS¹谱图的方法为：

根据所述识别结果中的来自同一化合物的碎片离子以及与所述碎片离子具有相关性的离子构建所述MS¹谱图；

具有相关性的所述离子包括：同位素离子、加合离子以及中性丢失离子。

与现有技术相比，本发明具有如下优点和技术效果：

本发明提供了一种UHPLC-HRMS数据依赖性采集的信息解析方法，先对UHPLC-HRMS采集得到的数据依赖性采集数据中的MS¹数据进行色谱信号构建，依据离子丰度进行种子的选择，根据预设的m/z允差对离子进行分配，并对离子进行分类和EIC验证及优化，实现EIC的构建；对所有m/z对应的EIC利用基于局部最小值策略做基线漂移校正处理；待基线校正后，利用多尺度Mexihat小波分析来获得各EIC中的峰位置，根据峰的位置，提取对应的EIC峰；通过收集一个EIC峰中的所有MS/MS谱图，以执行奇异值分解建立MS/MS谱图；依据两个EIC峰进行碎片离子识别；借助构建的MS/MS谱图和碎片离子识别结果，完成MS¹谱图构建，最终完成质谱数据的解析。该方法中的EIC提取方法和EIC峰提取方法可以有效减少假阳性和假阴性结果；可以充分利用多个样品中的MS/MS信息，为注册的EIC峰自动提供MS/MS谱集；借助已开发的基于MS/MS的碎片离子识别技术，可以大大降低化合物识别错误的风险；碎片离子鉴定还可以减少假阳性鉴定结果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的UHPLC-HRMS数据依赖性采集的信息解析方法流程示意图；

图2为本发明实施例中的多种算法示意图，其中，a1)-a3)为开发的EIC构建算法示意图，b1)–b3)为基于小波的EIC峰提取算法示意图，c1)–c3)为提取EIC峰开发的MS/MS构建算法示意图，d1)–d3)为开发的碎片离子识别算法示意图；

图3为本发明实施例中的附加化合物检测结果示意图；

图4为本发明实施例中的各种植物基质中MF的分布示意图；

图5为本发明实施例中的特征筛选及分类、鉴定结果示意图；其中，a)为特征筛选程序示意图，b)为筛选出的特征显示PLS-DA的分类结果示意图，c)-h)为MS¹和MS/MS谱图的化合物鉴定示意图；

图6为本发明实施例中的不准确化合物识别的示例示意图，其中，a)为化合物的MS¹谱图和相关离子的色谱洗脱示意图，b-d)为分子离子m/z识别结果示意图；

图7为本发明实施例中的本发明与MS-DIAL和XCMS之间的简要比较示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例

以下分别以甘草、菊花、金银花和烟草四种植物作为基质添加38种药物作为样品，用ThermoFisherUHPLC-QExtractive-Orbitrap仪器进行UHPLC-HRMS分析。

首先，进行基于UHPLC-HRMS采集得到本发明所需的数据依赖性采集数据。在本实施例中具体包括如下步骤：

(1)混合标准品制备过程：将38种药物的储备溶液，如表1标准化合物的信息表所示，混合以获得每种化合物为2mg/ml的混合物。通过用CH₃OH稀释储备溶液来制备浓度为300ng/ml的标准溶液。用CH₃OH稀释储备液，制备16种药物工作液，浓度范围为100ng/ml至3100ng/ml，增量为200ng/ml。

表1

(2)甘草样品的制备过程：将约0.40g甘草粉称入50ml离心管中，然后加入30ml由CH₃OH/H₂O(7:3,v/v)组成的提取液，然后超声提取30min。然后，将管以13000g离心10min。通过将0.9ml上清液与0.1ml标准工作溶液混合制备了16种药物添加剂溶液。

(3)ThermoFisherUHPLC-QExtractive-Orbitrap分析甘草样本：

进行ThermoFisherUHPLC-QExtractive-Orbitrap分析甘草样本的色谱条件为：将约2μl药物添加剂溶液注入ThermoFisher Ultimate3000。使用WatersACQUITY

BEHC18 BEH柱(2.1×100mm，1.7μm)。流动相A和B分别为水和乙腈，均含有0.1％甲酸。梯度洗脱如下表2。

进行ThermoFisherUHPLC-QExtractive-Orbitrap分析甘草样本的质谱条件为：使用了QExactive-Orbitrap。选择DDA模式，即完整MS/ddMS²(TopN)来执行数据收集。包括全质量参数：100-1000Da的扫描范围；分辨率35000；AGC目标5e6；最大IT 100ms。ddMS2参数为：分辨率17500；AGC目标5e6；最大IT 25ms；循环次数4；NCE 35；隔离窗0.4Da；动态排除4.5s；其他条件均为默认条件，最终获得UHPLC-HRMS分析的液相色谱-质谱图谱。

(4)菊花样品的制备过程：将约0.40g菊花粉称重到50ml离心管中，然后加入30ml由CH₃OH/H₂O(6:4,v/v)组成的提取液，然后超声提取30min。然后，将管以13000g离心10min。通过将0.9ml上清液与0.1ml标准工作溶液混合制备了16种药物添加剂溶液。

(5)ThermoFisherUHPLC-QExtractive-Orbitrap分析菊花样本：使用WatersACQUITY

BEH C18 BEH色谱柱(2.1×100mm，1.7μm)进行代谢物的色谱分离，梯度洗脱见表2。注射体积为2μl。MS参数与甘草样品相同。最终获得UHPLC-HRMS分析的液相色谱-质谱图谱。

(6)金银花样品的制备过程：将约0.40g金银花粉称量到50ml离心管中，然后加入30ml由CH₃OH/H₂O(8:2,v/v)组成的提取液，然后超声提取30min。然后，将管以13000g离心10min。通过将0.9ml上清液与0.1ml标准工作溶液混合制备了16种药物添加剂溶液。

(7)ThermoFisherUHPLC-QExtractive-Orbitrap分析金银花样本：WatersACQUITY

HSS T3柱(2.1×100mm，1.7μm)用于代谢物的色谱分离，梯度洗脱见表S2。注射体积为2μl。MS参数与甘草样品相同。最终获得UHPLC-HRMS分析的液相色谱-质谱图谱。

(8)烟叶样品的制备过程：将约0.40g烟草粉末称重到50ml离心管中，然后加入30ml由CH₃OH/H₂O(7:3,v/v)组成的提取溶液，然后超声提取30min。然后，将管以13000g离心10min。通过将0.9ml上清液与0.1ml标准工作溶液混合制备了16种药物添加剂溶液。

(9)ThermoFisher UHPLC-QExtractive-Orbitrap分析烟叶样本：使用WatersACQUITY

BEH C18 BEH色谱柱(2.1×100mm，1.7μm)进行代谢物的色谱分离，梯度洗脱见表2四种样品基质的优化色谱分析参数表所示。注射体积为2μl。MS参数与甘草样品相同最终获得UHPLC-HRMS分析的液相色谱-质谱图谱。

表2

(10)不同产地金银花UHPLC-HRMS数据的获取：

样本信息：从封丘(河南省)、新密(河南省)和平邑(山东省)三个主要产区采集了约93个样品。在每个地区，所有样品都是从当地的农民那里收集的，并在10小时内运输到实验室。所有采集的样品均保存于-80℃直至仪器分析。

样本前处理及UHPLC-HRMS分析：将样品粉碎以进行代谢物提取，样本的制备过程同上述金银花样品的制备过程。质量控制(QC)样品是通过将所有96个样品等量合并而设计的。每进样7个样品后进行一次QC进样。样品处理和仪器参数与上述金银花相同。

其次，UHPLC-HRMS数据依赖性采集的化合物信息解析方法，如图1所示，具体包括如下步骤：

S1.基于UHPLC-HRMS采集得到数据依赖性采集数据，基于数据依赖性采集数据中的MS¹数据构建EIC；

构建EIC的方法包括：

根据离子丰度进行EI种子的选择，获得EIC种子群；选择离子丰度最大的离子作为第一个种子并将其添加到初始EIC种子集中，继续选择剩余的离子中离子丰度最大的离子，判断相邻两次选择的离子之间的最小m/z差值是否大于预设的m/z允差，是则将该离子添加到初始EIC种子集中，否则，将该离子标记为非种子离子，重复上述步骤，直到所有离子得到选择或标记，最终获得EIC种子集。

将EIC种子群中每一个离子作为簇的中心位置，对EIC种子群进行分类；以EIC种子集中的每一个离子作为簇的中心位置，根据离子之间m/z差值将所有离子归类到最近的EIC种子，完成EIC种子群的分类。

对分类后的EIC种子群中的离子段进行填充优化，获得EIC；基于离子段间隙对分类后的EIC种子群中的离子段进行填充优化；离子段间隙定义为离子在5次连续扫描中均能检测出。

在本实施例中，单个样本提取离子色谱谱图(Extracted Ion Chromatogram,EIC)构建：针对UHPLC-HRMS采集得到的数据依赖性采集(Data Depended Acquisition,DDA或Independent Data Acquisition,IDA)数据中的MS¹数据进行色谱信号构建，首先进行EIC种子选择，然后进行离子分类和EIC验证，最后对EIC进行优化。

EIC种子集构建：将每个样本中所有保留时间下采集获得质谱谱图整合成一个A＝[m/z intensity scan]的矩阵，其中intensity为离子强度，scan表示保留时间。选择离子丰度最大的离子作为第一个种子并将其添加到EIC种子集中。对于样品中剩余的采集离子，选择离子丰度最大的那个。如果所选离子与EIC种子集中的离子之间的最小m/z差值大于预设的m/z允差，则该离子将被添加到EIC种子集中。否则，该离子将标记为非种子离子。重复上述步骤，直到样品中所有采集的离子都得到了检查。最终获得EIC种子集，用于后续的EIC构建。

EIC种子集分类：以EIC种子集中的每一个离子作为簇的中心位置，根据m/z差值将样品中所有离子归类到最近的种子。每一个簇中的离子都用于EIC构建。根据簇中离子的扫描时间标记EIC中的位置，离子的强度标记EIC中的信号强度。如果有多个离子排列在相同的位置，则将它们的离子丰度加和。检查构建的EIC以验证它是否包含化合物信息或仅包含仪器随机噪声。该验证程序是通过计算沿色谱维度连续出现的离子数来完成的。

EIC种子集优化：EIC优化旨在对离子段(定义为离子在5次连续扫描中均能检出)之间进行填充。离子间隙定义为相邻离子段无法找到符合预设预定m/z允差的离子。EIC优化中会针对离子段间隙位置的质谱进行再次扫描，通过扩大m/z允差，去搜索可能用于填充的离子。如果在同一间隙位置可以找到多个离子，则将选择与EIC种子具有最小m/z差值的离子。

其中，预设的m/z允差为0.015Da，沿色谱维度连续出现的离子数为5，两个离子段之间的间隙为离子连续出现在至少5次洗脱扫描中。

S2.提取EIC中的EIC峰；

提取EIC中的色谱峰的方法为：利用基于局部最小值策略对EIC进行基线漂移校正处理，利用多尺度Mexico-Hat小波分析基线校正后的EIC，获得EIC中的峰位置，根据峰位置，提取对应的EIC峰。多尺度Mexico-Hat小波分析为小波尺度从1到5验证，增量步长为0.2。基于色谱峰获取EIC中的EIC峰还包括：将EIC中S/N低于预设值的EIC峰过滤；预设值为3。

在本实施例中，单个样本中色谱峰提取：针对每一个EIC，首先对潜在EIC峰进行检出，然后对每个EIC峰进行验证。

将每个m/z下的EIC利用基于局部最小值策略做基线漂移校正处理，以消除基线漂移的影响，得到基线校正后的m/z的EIC。然后对每个EIC使用多尺度Mexico-Hat小波分析来提取可能对应于化合物EIC峰的局部最大值。接着为原始EIC中的每个局部最大值提取脊线。仅选取脊线大于10个小波尺度的局部最大值作为以下验证步骤的基础EIC峰。其中，多尺度Mexico-Hat小波分析为小波尺度从1到5验证，增量步长为0.2。

EIC峰验证：对于包含潜在EIC峰的EIC，将围绕EIC峰顶点位置不断增加(或减少)的信号设置为缺失值。通过这种方式，获得一个仅包含仪器噪声的新EIC。使用移动窗口中值平滑方法对新的EIC进行平滑，窗口大小为31次扫描数。然后，通过线性插值策略估计潜在EIC峰下的缺失值。每个EIC峰的洗脱范围被确定为离子丰度高于估计仪器噪声的扫描数。每个EIC峰的信噪比(S/N)估计为相应EIC峰洗脱范围内的比值的平均值，并过滤掉S/N低于预设值的EIC峰。其中，S/N低于预设值为3。

S3.基于EIC的EIC峰，通过SVD建立MS/MS谱图；

在本实施例中，单样本中MS/MS谱图构建：通过收集一个EIC峰中的所有MS/MS谱图，以执行奇异值分解(SVD)。该策略背后的原理是来自化合物的相同母离子的MS/MS谱图服从双线性结构，使用SVD可以大大降低仪器噪声的影响。

S4.基于MS/MS谱图识别碎片离子；

基于MS/MS谱图识别碎片离子的方法为：通过Pearson系数计算MS/MS谱图之间洗脱曲线的EPS，基于EPS预设范围，获取EPS预设范围内的EPS，基于预设范围内的EPS识别出来自同一化合物的碎片离子。其中，EPS预设范围为EPS大于0.975。

在本实施例中，针对分析中存在的源内碎裂，基于构建的MS/MS谱图执行碎片离子的识别。对同时满足以下两种情况的两个EIC峰：1)两个EIC峰在几乎相同的位置洗脱并获得较高的洗脱曲线相似性(EPS)；2)m/z值较小的EIC峰的离子可以在另一个EIC峰的MS/MS质谱图中找到，或者两个EIC峰的MS/MS质谱图共享一些公共离子，则可以将其视为来自同一化合物的碎片离子。检测EIC峰之间洗脱曲线的相似度通过Pearson系数计算，低于0.975的值将自动设置为0。挑选出EPS最大的配对EIC峰进行碎片离子验证。如果ⅱ)中的情况得到满足，则将执行后一步骤。否则，通过将它们的EPS设置为0并重复此步骤，这两个离子将被识别为来自不同的化合物。然后计算成对EIC峰的簇相似度，这是通过选择每个簇中前10％的EIC峰(通过离子丰度来衡量)，然后找到最低的EPS来完成的。如果最低EPS大于0.975，则配对EIC峰将被识别为来自同一化合物的碎片离子。两个簇将被合并，簇内EIC峰的EPS设置为0。重复以上两个步骤，直到验证所有功能。

S5.根据所述源内碎片离子的识别结果构建MS¹谱图，完成UHPLC-HRMS分析。

在本实施例中，MS¹谱图构建：借助构建的MS/MS谱图，在识别来自同一化合物的碎片离子后，化合物的碎片离子用于MS¹谱图构建。同时，与碎片离子的相关的一些离子，如同位素离子(如M+1、M+2等)、加合离子(如M+Na、M+K、M+NH₄等，中性丢失离子(如M-H₂O、M-2H₂O等)，也将引入构建，最终完成化合物MS¹谱图的构建。

本发明的部分分析数据结果如下：

进一步说明本发明的工作原理。如附图2所述，插图a1)-a3)展示了开发的EIC构建算法；其中插图a1)显示了EIC种子周围的离子。“Core circle”显示根据m/z值分类为种子的离子。“Gap filling circle”显示可用于EIC优化的离子范围；插图a2)显示了用于执行EIC构建的离子；插图a3)显示构建的EIC；插图b1)–b3)展示了提出的基于小波的EIC峰提取算法；其中插图b1)显示提取的跨小波尺度的脊线；插图b2)显示了基于提取的脊线选择的最大值；在去除低信噪比的最大值后，最终提取了三个EIC峰，如插图b3)所示；插图c1)–c3)描述了为提取EIC峰开发的MS/MS构建算法；其中插图c1)显示了在DDA模式下使用MS/MS谱图采集的EIC峰中的两个离子；插图c2)显示了两种离子的MS/MS谱图；插图c3)显示为该EIC峰构建的MS/MS；插图d1)–d3)显示了开发的碎片离子识别算法；其中插图d1)显示了几个EIC峰的色谱洗脱曲线；插图d2)显示了可以根据MS/MS或中性丢失离子归为一个簇的离子；本发明将这些离子识别为来自化合物的源内碎片离子；插图d3)显示了基于这些离子构建的MS¹谱图。

使用四种植物样本获取的UHPLC-HRMS数据集对本发明的特征能力进行了综合研究，附加化合物检测结果如附图3所示。当浓度大于100ng/ml时，所有添加的药物均可被检测到。事实上，大多数药物在最低添加剂水平10ng/ml(对应于0.83μg/g)下即可检测到。附图3中的结果清楚地表明，即使植物基质完全不同，大多数化合物也可以使用构建的MS/MS谱图进行提取。通过使用基于复杂植物基质中构建的MS/MS质谱图与库中参考质谱图之间的点积计算的匹配因子(MF)来研究构建的MS/MS质谱图的质量。附图4提供了各种植物基质中MF的分布。对于所有样本矩阵，大约80％的EIC峰可以获得0.9以上的MF，这在实际应用中是可以接受的。

在附图5中，插图a)显示了本发明中的EIC峰筛选程序。分析不同产地金银花数据直接得到一个50395行(注册EIC峰)93列(样本)的EIC峰矩阵，去除70％样本检测不到的EIC峰后，可以保留25929个注册EIC峰用于一下数据分析。进一步调查表明，MS/MS谱图发现了11720个EIC峰，在分析的数据集中提取了约89.6％的信息(通过峰面积测量)。方差分析在三个生长区中筛选了13093个显着不同的EIC峰(p值<0.001)。碎片离子鉴定分析表明，这些显着不同的EIC峰可能来自8212种潜在化合物，MS/MS谱图中发现了7889种化合物；插图b)根据筛选出的EIC峰显示PLS-DA的分类结果，来自不同区域的样品可以清楚地分开。本发明也支持化合物的鉴定，插图c)-h)显示了基于本发明中的MS¹和MS/MS谱图的化合物鉴定；插图c)显示在4.471min和m/z为182.0839Da处洗脱的筛选EIC峰，该EIC峰被鉴定为化合物的分子离子；插图d)显示构建的MS¹谱；插图e)显示了对应于MS¹质谱图中离子的色谱洗脱曲线。离子182.0839的MS/MS谱图显示在插图f)中；插图g)和h)分别提供基于MS1和MS/MS谱的化合物鉴定结果；使用MS1和MS/MS谱图鉴定了相同的化合物。

碎片离子鉴定还可以减少假阳性鉴定结果，因为在实际应用中，可能会错误地将碎片离子识别为[M+H]⁺。附图6中显示了不准确化合物识别的示例，说明在了本发明中使用MS1和MS/MS光谱准确进行化合物鉴定的优势；插图a)显示了化合物的MS¹谱图和相关离子的色谱洗脱图；根据其MS/MS谱图，离子m/z 325.0962被鉴定为skimming，然而，该离子只是未知化合物的碎片离子，其分子离子为517.1623Da；插图b)分子离子m/z 517.1623无法识别；在插图c-d)中也观察到了类似的情况，其中m/z为287.0588和449.1141的离子分别被鉴定为花青素和山奈酚-3-O-葡萄糖苷。而这两种离子都是化合物nictoflorin的碎片离子。插图c)显示了另一种化合物的构建MS¹谱图；插图d)根据MS/MS谱图，MS¹中的三个离子来自三种不同的化合物；事实上，根据MS¹和MS/MS谱图，只有分子离子595.1734被正确识别。

最后，为证明本发明同经典方法相比具有更准确的数据解析优势，如附图7所示，本发明提供了本发明与MS-DIAL和XCMS之间的简要比较。由于并非所有方法都可以为用户提供MS1和MS/MS光谱，因此比较侧重于EIC峰提取的质量。在DDA分析中，带有MS/MS的EIC峰可用作评估的基本事实。插图a)、b)、c)和d)分别显示了四种植物甘草、菊花、金银花和烟草样本数据集的EIC峰提取结果。结果表明本发明(英文简称为AntDAS DDA)为所有样本矩阵提供了最少数量的EIC峰。然而，MS/MS的EIC峰数量表明本发明为甘草和菊花样品提供了最高值。MS-DIAL为金银花提供了最好的，比本发明高一点。本发明和MS-DIAL都提供了与MS/MS几乎相同数量的EIC峰。MS/MS的EIC峰百分比表明本发明是四个矩阵中所有样品的最佳方法。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.UHPLC-HRMS数据依赖性采集的信息解析方法，其特征在于，包括以下步骤：

提取所述EIC中的EIC峰；

基于所述EIC峰，通过SVD建立MS/MS谱图；

基于所述MS/MS谱图识别源内碎片离子；

根据所述源内碎片离子的识别结果构建MS¹谱图，完成UHPLC-HRMS分析；

构建所述EIC的方法包括：

根据离子丰度进行EIC种子的选择，获得EIC种子群；

对所述分类后的EIC种子群中的离子段进行填充优化，获得所述EIC；

提取所述EIC中的所述EIC峰的方法为：

利用基于局部最小值策略对所述EIC进行基线漂移校正处理，利用多尺度Mexico-Hat小波分析基线校正后的所述EIC，获得所述EIC中的峰位置，根据所述峰位置，提取对应的EIC峰，并将所述对应的EIC峰中S/N低于预设值的过滤，获得所述EIC峰；

基于所述MS/MS谱图识别所述源内碎片离子的方法为：

通过Pearson系数计算所述EIC峰之间洗脱曲线的相似度；

基于所述EIC峰之间洗脱曲线的相似度识别所述源内碎片离子；

构建所述MS¹谱图的方法为：

具有相关性所述离子包括：同位素离子、加合离子以及中性丢失离子；

获得所述EIC峰还包括：对所述EIC峰进行验证；

对所述EIC峰进行验证包括：对于包含潜在所述EIC峰的EIC，将围绕所述EIC峰顶点位置不断增加或减少的信号设置为缺失值；通过上述方式，获得一个仅包含仪器噪声的新EIC；使用移动窗口中值平滑方法对所述新EIC进行平滑；然后，通过线性插值策略获取潜在所述EIC峰下的缺失值；每个所述EIC峰的洗脱范围被确定为离子丰度高于仪器噪声的扫描数；每个所述EIC峰的信噪比为对应EIC峰洗脱范围内的比值的平均值，并过滤掉S/N低于所述预设值的所述EIC峰。

2.根据权利要求1所述的UHPLC-HRMS数据依赖性采集的信息解析方法，其特征在于，

获得所述EIC种子群的方法为：

选择离子丰度最大的离子作为第一个种子并将其添加到初始EIC种子集中，继续选择剩余的离子中离子丰度最大的离子，判断相邻两次选择的离子之间的最小m/z差值是否大于预设的m/z允差，是，则将该离子添加到初始EIC种子集中，否则，将该离子标记为非种子离子，重复上述步骤，直到所有离子得到选择或标记，最终获得所述EIC种子集。

3.根据权利要求2所述的UHPLC-HRMS数据依赖性采集的信息解析方法，其特征在于，

对所述EIC种子群进行分类的方法为：

4.根据权利要求1所述的UHPLC

-HRMS数据依赖性采集的信息解析方法，其特征在于，

所述多尺度Mexico-Hat小波分析为小波尺度从1到5验证，增量步长为0.2。