CN110806456B

CN110806456B - 一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法

Info

Publication number: CN110806456B
Application number: CN201911099889.2A
Authority: CN
Inventors: 佘远斌; 汪兴财; 付海燕; 于永杰; 胡瑛
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2022-03-15
Anticipated expiration: 2039-11-12
Also published as: CN110806456A

Abstract

本发明公开了一种UPLC‑HRMS Profile模式非靶向代谢轮廓数据自动解析的方法，针对样品UPLC‑HRMS非靶标代谢轮廓解析获得样品中化学成分信息。该方法首先将UPLC‑HRMS Profile模式数据根据不同仪器自适应转化为Centroid模式数据；在转化后色谱信号的基础上按照预先设定的m/z精度进行聚类，选取强度最大的离子作为种子，估计EIC范围计算离子密度，实现EIC的构建；对所有m/z对应的EIC利用局部极小值实现基线校正；待基线校正后，利用多尺度平滑卷积运算结合窗口拓展的策略获得各EIC中的色谱峰位置，根据色谱峰的位置，提取对应的色谱峰；根据保留时间和色谱峰形相似以及碎片离子m/z差值实现峰注释；并根据峰高相似性实现碎片离子的识别，最终实现样品数据的自动化解析。

Description

一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法

技术领域

本发明属于超高效液相色谱-高分辨质谱数据解析技术领域，具体地涉及一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法。

背景技术

近年来，UPLC-HRMS(超高效液相色谱-高分辨质谱)因其能够对样品中的化学成分进行较为全面的分析，在植物非靶向代谢轮廓分析研究中得到广泛的应用。多数厂商的仪器能够提供Centroid和Profile两种数据采集模式。然而，目前多种数据分析方法都是针对Centroid模式开发的，针对目前Centroid模式数据可能存在的化合物信息丢失以及信息冗余等情况，如何能够直接对质谱原始Profile模式数据实现快速分析处理，实现样本数据中包含的上千种化合物成分信息快速提取，是当前应用中一个具有挑战性的难题。

当前方法中，能够实现基于UPLC-HRMS Profile模式数据解析的有最为著名的XCMS以及一些仪器厂商自带的数据分析工具包。虽然这些工具所采用的方法原理各有所长，但这些方法本身仍存在着诸多问题，如对多种仪器无法较好地全部满足分析需求，可能存在数据转换结果质量不佳造成结果冗余或者化合物信息丢失等情况。并且假阳性和假阴性色谱峰的问题仍然存在，假阳性色谱峰的存在会干扰物质成分的确定，导致出现错误的判断，假阴性的问题则是化合物信息提取不全将导致严重的化合物信息丢失。离子注释及碎片离子识别的结果将直接影响物质成分的准确定性。

发明内容

鉴于现有技术的不足，本发明提供了一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法，该方法能够有效地实现Profile模式数据转换为Centroid模式数据，并解决其中的假阳性和假阴性的问题。

本发明的目的是采用如下技术方案实现的：一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法，包括以下步骤：

(1)将单个样本Profile模式数据转换为Centroid数据：首先提取保留每张质谱图中极大值对应的离子，构建新的质谱谱图；然后，采用迭代优化策略识别新构建的质谱谱图中来自背景噪声离子，估计背景噪声强度；剔除小于仪器对应背景噪声一定倍数的离子，合并离子的高精度质量m/z值为0.015Da的离子，将原始采集的Profile模式质谱数据替换成转换后的Centroid质谱谱图。所述仪器包括：Agilent、Thermo和Waters；所述仪器对应背景噪声一定倍数分别为：Agilent为2倍，Thermo为0倍，Waters为1倍。

(2)单个样本提取离子色谱谱图EIC构建：将每个样本中所有保留时间下采集获得Centroid质谱谱图整合成一个A＝[m/z intensity scan]的矩阵，其中intensity为离子强度，scan表示保留时间；将A矩阵按照m/z值从小到大进行排序，获得排序后的矩阵B；对B中的离子按照预先设定的m/z精度进行聚类，选取每一类中强度最大的离子对应的m/z作为EIC种子，合并m/z差值小于设定合并的m/z精度的种子；对EIC种子按照m/z进行排序，对于相邻的两个种子，将其m/z差值进一步划分为10个质谱空间，并统计每个空间中的离子数量，获得离子密度分布，以密度最低处作为这两个相邻种子的分界线，最终获得所有EIC种子质谱窗口；依据矩阵A中离子m/z值和各EIC种子窗口分布，对样本中的所有离子进行划分，并依据scan和intensity构建相应的EIC；剔除连续离子数目小于10、信噪比小于3的的EIC，最终完成单个样本中EIC的构建。

(3)单个样本中色谱峰提取：针对每一个EIC，首先进行色谱基线校正，然后进行色谱峰提取。

(3.1)每个EIC的基线校正：将每一个m/z下的EIC利用局部最小值策略做基线校正处理，得到基线校正后的m/z的EIC；

(3.2)每个EIC中色谱峰的提取：对EIC连续进行平滑卷积运算，即每一次的平滑运算都是在上一次平滑结果的基础上完成，获得原始EIC信号的多尺度平滑矩阵S＝[s₀,s₁,…,s_n]，其中s₀表示原始信号，s_i(i>＝1)表示第i次平滑；提取每一次平滑后色谱信号中的所有的局部极大值，并且标记所有局部极大值的位置，通过脊线寻优的方法，分别获取EIC信号中每个色谱峰的保留时间及其脊线长度，删除脊线长度小于最小脊线长度阈值的所有色谱峰；对于剩下的每一个色谱峰，采用窗口拓展策略估计峰窗口宽度，即以色谱峰保留时间为中心，向两端延伸，直到出现信号强度为0，或者信号强度大于该色谱峰时，停止窗口拓展，窗口拓展的半窗口宽度小于最大半窗口宽度，计算窗口宽度，最终获得每个峰的初始流出范围；剔除初始流出范围小于最小色谱峰流出范围阈值的色谱峰；估计EIC中的仪器噪声水平，剔除色谱信号与仪器噪声之比小于3的色谱峰，最终完成单样本中每个EIC下色谱峰的提取。

(4)离子注释：使用峰形相似性和保留时间允差来初步确定同位素离子，即[M+1+H]⁺，随后根据m/z差值搜索常见的固定离子，完成离子注释。

(5)碎片离子识别：在每个样本进行峰提取和离子注释的基础上，搜索在不同样本中保留时间基本一致，色谱峰形状、离子相对丰度变化高度一致的[M+H]⁺离子，利用峰高的Pearson相关系数和奇异值分解(SVD)方法进行识源自相同代谢物的离子，最终获得对齐后的离子色谱峰信息列表以及碎片离子识别结果。

进一步地，步骤2中，所述预先设定的m/z精度为0.01Da，所述设定合并的m/z精度为0.015Da。

进一步地，步骤3中，所述平滑卷积运算的步长N为3，最小脊线长度阈值为3，最大半窗口宽度为15，最小色谱峰流出范围阈值为0.06min。

进一步地，步骤5中，所述峰高的Pearson相关系数大于0.95，所述奇异值分解的首个特征值的占比大于0.9。

与现有技术相比，本发明具有如下有益效果：本发明提供了一种基于UPLC-HRMSProfile模式非靶向代谢轮廓数据自动解析的方法，先将UPLC-HRMS Profile模式数据根据不同仪器自适应转化为Centroid模式数据；在转化后的基础上按照预先设定的m/z精度进行聚类，选取强度最大的离子作为种子，估计EIC范围计算离子密度，实现EIC的构建；对所有m/z对应的EIC利用局部极小值实现基线校正；待基线校正后，利用多尺度平滑卷积运算结合窗口拓展的策略获得各EIC中的色谱峰位置，根据色谱峰的位置，提取对应的色谱峰；根据保留时间和色谱峰形相似以及碎片离子m/z差值的原则实现峰注释；并根据峰高相似性实现碎片离子的识别，最终完成质谱数据的解析。该方法中自适应的数据转换方法能够适应多种仪器的数据转换，普适性较强，并达到较优的结果，利用强度与密度结合的方法能够更准确地实现EIC的构建，多尺度平滑结合窗口拓展的方法，并利用噪声估计剔除信噪比较低的色谱峰，能够有效减少假阳性和假阴性的色谱峰提取结果。该自动解析的方法能够实现样品UPLC-HRMS Profile模式非靶标代谢轮廓数据的有效解析，适合小批量数据的精确分析。

附图说明

图1为UPLC-HRMS Profile模式质谱数据分布情况特点及转换方法：图1A为本发明所述的Profile模式质谱数据分布情况；图1B给出了保留局部极大值之后的质谱数据情况，以及该质谱图下的噪声阈值水平线和相邻特征值之间的距离Δm/z计算方式；

图2为不同UPLC-HRMS仪器所得到的Profile模式数据分布情况：图2A给出了通过Agilent 1290-6545 UPLC-QTOF分析所得到的Profile模式质谱数据分布情况；图2B给出了通过Thermo Scientific^TM Q Exactive^TM分析得到的Profile模式质谱数据分布情况；图2C给出了Waters ACQUITY UPLC/Xevo G2 QTOF分析得到的Profile模式质谱数据分布情况；

图3为UPLC-HRMS Profile模式数据经过峰检出的一个m/z为173.04的EIC示例：图3A中给出了EIC的离子分布情况；图3B中给出了EIC当中提取出的四个色谱峰；

图4为UPLC-HRMS Centroid模式数据经过峰检出的一个m/z为173.04的EIC示例：图4A中给出EIC的离子分布情况；图4B中给出了EIC当中提取的四个色谱峰；

图5为本发明给出的色谱峰提取示例：图5A给出的为原始色谱信号；图5B给出了所有色谱峰的脊线长度及峰宽度情况；图5C给出的是经过假阳性峰过滤后所保留的色谱峰的脊线长度和峰宽情况；图5D为本发明提取原始色谱信号的11个色谱峰；

图6为本发明与XCMS和AntDAS色谱峰提取对比结果：图6A是本发明色谱峰提取结果，图6B和图6C分别是AntDAS和XCMS提取结果；

图7为本发明给出的碎片离子识别结果示例：图7A为所有碎片离子的色谱峰；图7B为所有碎片离子的保留时间(RT)，m/z，ID，强度(Intensity)，注释(Annotation)结果；图7C是对应色谱峰的质谱图结果；

图8为三种不同仪器获取的Centroid模式和Profile模式数据在三种不同方法下提取的化合物的Pearson相关系数分布情况：图8A显示的是AntDASProfiler质心模式数据分析的结果。图8B，8C和8D分别显示了来自AntDASProfiler，AntDAS和XCMS Profile模式数据分析的结果。

具体实施方式

下面结合本发明的附图，对发明实施的技术方案做进一步的解释说明。

以下分别以茶叶、甘草作为样品，用Agilent、Thermo和Waters仪器进行UPLC-HRMS分析。

S1：Agilent分析的茶叶样品制备过程：将获取的龙井茶叶样品在冻干后进行粉碎，分别称取1mg，2mg，3mg，4mg，5mg，6mg粉碎样品，向各样品加入提取液1.5mL，所述提取液包括按体积比为1:9的甲醇和水以及0.98mg/L内标伞形花内酯，涡旋2分钟后，常温条件超声30分钟，然后在13000r/s转速下离心10min后，取1mL上清液转移至色谱瓶，待UPLC-HRMS分析。

S2：Agilent 1290-6545 UPLC-QTOF分析：

进行Agilent 1290-6545 UPLC-QTOF分析的色谱条件为：色谱柱为Agilent C18柱(2.1mm×100mm，1.8μm)，柱温为35℃，流速为0.2mL/min，流动相A为100％纯化水(v/v)，流动相B是含有0.1％甲酸乙腈(v/v)，色谱分析时，流动相梯度洗脱条件如下表1：

表1为Agilent所采用的流动相梯度洗脱条件

进行Agilent 1290-6545 UPLC-QTOF-MS分析的质谱条件为：质谱扫描范围为100-1000Da；数据采集速率为3.0s/spectra；鞘气温度为350℃；鞘气流量为12L/min；干燥气体流量为12L/min；喷雾器压力为40psig；电离电压为3500V；负离子模式，最终获得Agilent分析的液相色谱-质谱图谱。

S3：Thermo分析的甘草样品制备过程：收集了源自4个产地的164个甘草样本，在室温下进行粉碎，取相同质量的粉碎样品进行混合制备甘草QC样品。分别称取1mg，3mg，5mg，7mg，9mg，11mg，13mg，15mg QC样品，各样品加入1.5mL甲醇，涡旋2分钟，常温条件超声30分钟，然后在13000r/s转速下离心10min后，取1mL上清液转移至色谱瓶，待UPLC-HRMS分析。

S4：Thermo Scientific^TM Q Exactive^TM分析：

进行Thermo Scientific^TM Q Exactive^TM分析的色谱条件为：色谱柱为ThermoScientific Syncronis C18(3mm×100mm，1.7μm)，柱温为35℃，流速为0.2mL/min，流动相A为100％纯化水(v/v)，流动相B是含有0.1％甲酸乙腈(v/v)，色谱分析时，流动相梯度洗脱条件如下表2：

表2为Thermo所采用的流动相梯度洗脱条件

进行Thermo Scientific^TM Q Exactive^TM分析的质谱条件为：质谱扫描范围为66.7-1000；分辨率为35000；数据采集速率为0.2s/spectra；正离子模式；其他条件均为默认条件，最终获得Thermo分析的液相色谱-质谱图谱。

S5：Waters分析的甘草样品制备过程：分别称取与Thermo分析当中同一QC样品2mg，4mg，6g，8mg，10mg，12mg，14mg，16mg，g，18mg，20mg，其他前样品制备过程均与Thermo分析当中的样品制备过程一致。

S6：Waters ACQUITY UPLC/Xevo G2 QTOF分析：

进行Waters ACQUITY UPLC/Xevo G2 QTOF分析的色谱条件为：色谱柱为BEH C18柱(1.7μm)，柱温为45℃，样品盘温度为20℃，流速为0.3mL/min，流动相A是含有0.1％甲酸的纯化水(v/v)，B是含有0.1％甲酸的乙腈(v/v)，色谱分析时，流动相梯度洗脱条件如下表3：

表3为Waters所采用的流动相梯度洗脱条件

进行Waters ACQUITY UPLC/Xevo G2 QTOF分析的质谱条件为：质谱扫描范围为100-1200Da；数据采集速率为0.3s/spectra；正离子模式；其他条件均为默认条件，最终获得Waters分析的液相色谱-质谱图谱。

S7：单个样本Profile模式数据转换为Centroid数据：将Agilent、Thermo、Waters仪器分析所获得的液相色谱-质谱图谱原始数据转化为mzML格式，进入MATLAB环境进行分析。首先提取保留每张质谱图中极大值(即对于任意的xi，满足xi>xi-1且xi>xi+1)对应的离子，构建新的质谱谱图；然后，根据信号中来自背景的极大值远低于化合物信号极大值的特点，采用迭代优化策略识别新构建质谱谱图中来自背景噪声离子，估计背景噪声强度；剔除小于仪器对应背景噪声一定倍数的离子，合并离子的高精度质量m/z值为0.015Da的离子，最终实现每张质谱谱图的Centroid转换，将原始采集的Profile质谱数据替换成转换后的Centroid质谱谱图。所述仪器包括：Agilent、Thermo和Waters；所述仪器对应背景噪声一定倍数分别为：Agilent为2倍，Thermo为0倍，Waters为1倍。如附图1所述，UPLC-HRMSProfile模式质谱数据分布情况特点及转换方法。图1A是本发明所述的Profile模式质谱数据分布情况。图1给出了保留局部极大值之后的质谱数据情况，以及该质谱图下的噪声阈值水平线和相邻特征值之间的距离Δm/z计算方式，从图中可以看出，本发明在噪声阈值水平线条件下能够过虑大部分的噪声，大大降低数据量，有效地实现Profile模式数据的转换。并且如图2所述，不同UPLC-HRMS仪器所得到的Profile模式普数据分布情况。图2A给出了通过Agilent 1290-6545 UPLC-QTOF-M分析所得到的Profile模式质谱数据分布情况。图2B给出了通过Thermo Scientific^TM Q Exactive^TM分析得到的Profile模式质谱数据分布情况。图2C给出了Waters ACQUITY UPLC/Xevo G2 QTOF分析得到的Profile模式质谱数据分布情况。从图中可以看出，不同仪器之间获得的Profile模式质谱数据的分布情况各有不同，因此导致的多个代表值的情况Thermo仪器所获得的Profile模式质谱数据表现的最为明显。

S8：单个样本提取离子色谱谱图(Extracted Ion Chromatogram,EIC)构建：将每个样本中所有保留时间下采集获得Centroid质谱谱图质谱谱图数据整合成一个A＝[m/zintensity scan]的矩阵，其中m/z是离子的高精度质量，intensity为离子强度，scan表示保留时间；将A矩阵按照m/z值从小到大进行排序，获得排序后的矩阵B；对B中的离子按照预先设定的m/z精度0.01Da进行聚类，选取每一类中的强度最大的离子对应的m/z作为EIC种子，合并m/z差值小于设定0.015Da精度的种子；对EIC种子按照m/z进行排序，对于相邻的两个种子，将其m/z差值进一步划分为10个质谱空间，并统计每个空间中的离子数量，获得离子密度分布，以密度最低处作为这两个相邻种子的分界线，最终获得所有EIC种子质谱窗口；依据矩阵A中离子m/z值和各EIC种子窗口分布，对样本中的所有离子进行划分，并依据scan和intensity构建相应的EIC；依据矩阵剔除连续离子数目小于10、信噪比小于3的的EIC剔除离子数目少、信噪比低的EIC，最终完成单个样本中EIC的构建。如附图3所示，UPLC-HRMS Profile模式数据经过峰检出的一个m/z为173.04的EIC示例。图3A中给出了EIC的离子分布情况，图3B中给出了EIC当中提取出的四个色谱峰，从图中可以看出，峰强度最高的点被选择为中心点，在色谱峰存在的情况下，离子分布较为聚集，离子密度较大，离子几乎不存在波动。图4为UPLC-HRMS Centroid模式数据经过峰检出的一个m/z为173.04的EIC示例：图4A中给出EIC的离子分布情况；图4B中给出了EIC当中提取的四个色谱峰；从图中可以看出，峰强度最高的点被选择为中心点，在色谱峰存在的情况下，离子分布较为聚集，离子密度较大。相比与图3中本发明Profile模式数据下的结果，该结果中离子产生较大的波动。因此，本发明能够得到更优的Centroid模式数据，有利于EIC的准确提取。

S9：单个样本中色谱峰提取：针对每一个EIC，首先进行色谱基线校正，然后进行色谱峰提取。具体包括：(1)每个EIC的基线校正：将每一个m/z下的EIC利用局部最小值策略做基线校正处理，得到基线校正后的m/z的EIC；(2)每个EIC中色谱峰的提取：对EIC连续进行平滑卷积运算，所述平滑卷积运算的步长N为3，即每一次的平滑运算都是在上一次平滑结果的基础上完成，获得原始EIC信号的多尺度平滑矩阵S＝[s0,s1,…,sn]，其中s0表示原始信号，si(i>＝1)表示第i次平滑；提取每一次平滑后色谱信号中的所有的局部极大值，并且标记所有局部极大值的位置，通过脊线寻优的方法，分别获取EIC信号中每个色谱峰的保留时间及其脊线长度，删除脊线长度小于最小脊线长度阈值的所有色谱峰，最小脊线长度阈值为3；对于剩下的每一个色谱峰，采用窗口拓展策略估计峰窗口宽度，即以色谱峰保留时间为中心，向两端延伸，直到出现信号强度为0，或者信号强度大于该色谱峰时，停止窗口拓展，窗口拓展的半窗口宽度小于最大半窗口宽度，最大半窗口宽度为15，计算窗口宽度，最终获得每个峰的初始流出范围；剔除初始流出范围小于设定值的色谱峰，最小色谱峰流出范围阈值为0.06min，估计EIC中的仪器噪声水平，剔除色谱信号与仪器噪声之比小于3的色谱峰，最终完成单样本中每个EIC下色谱峰的提取。如附图5所示，本发明给出的色谱峰提取示例。图5A给出的为原始色谱信号，图5B给出了所有色谱峰的脊线长度及峰宽度情况，有多个色谱峰被选择进入阈值区域内；图5C给出的是经过假阳性峰过滤后所保留的色谱峰的脊线长度和峰宽情况，所有提取出的色谱峰的脊线长度以及峰宽都在阈值范围内。图5D给出的是本发明提取原始色谱信号的11个色谱峰，所有的色谱峰都具有较好的峰形及强度，没有发现假阴性的情况，提取结果令人满意。为了证明本发明同其他方法相比具有的色谱峰准确提取的优势，如附图6所示，本发明与XCMS和AntDAS色谱峰提取对比结果。图6A是本发明(英文简称为AntDASProfiler)色谱峰提取结果，图6B和图6C分别是AntDAS和XCMS提取结果。其中AntDAS存在一些假阴性的色谱峰提取结果，XCMS出现多个假阳性和假阴性的色谱峰提取结果。三种方法比较中，本发明有效地避免了假阳性和假阴性问题，所得的结果表现为最优。

S10：使用峰形相似性和保留时间允差来初步确定同位素离子，即[M+1+H]⁺，随后根据m/z差值搜索常见的固定离子如[M+2+H]⁺、[M+3+H]⁺、[M+Na]⁺、[M+K]⁺、[M+NH₄]⁺、[M-H₂O+H]⁺、[M-CO₂+H]⁺，完成离子注释。

S11：本发明中碎片离子识别基于多个样本，在每个样本进行峰提取和离子注释的基础上，搜索在不同样本中保留时间基本一致，色谱峰形状、离子相对丰度变化高度一致的[M+H]⁺离子，利用峰高的Pearson相关系数和奇异值分解(SVD)方法进行识源自相同代谢物的离子，所述峰高的Pearson相关系数大于0.95，所述奇异值分解的首个特征值的占比大于0.9，最终获得对齐后的离子色谱峰信息列表以及碎片离子识别结果。在峰提取的基础上，本发明对色谱峰进行离子注释和碎片离子识别。如附图7所示，本发明给出的碎片离子识别结果示例。图7A为所有碎片离子的色谱峰，图7B为所有碎片离子的保留时间(RT)，m/z，ID，强度(Intensity)，注释(Annotation)结果。所有的碎片离子均完成的对应的注释。图7C是对应色谱峰的质谱图结果。本发明识别的碎片离子共包含16个离子，对应的所有色谱峰都具有极高的保留时间和色谱峰形相似性，碎片离子在本发明得到较好的识别。

最后，通过对比从三种不同仪器获取得到的茶叶及甘草样本数据物质解析结果，证明了本发明的结果优于XCMS方法和AntDAS方法。如附图8所示，给出的是三种不同仪器获取的Centroid模式和Profile模式数据在三种不同方法下提取的化合物的Pearson相关系数分布情况。图8A显示的是AntDASProfiler质心模式数据分析的结果，图8B，8C和8D分别显示了来自AntDASProfiler，AntDAS和XCMS Profile模式数据分析的结果。第一行是通过安捷伦Centroid模式和Profile模式采集的不同浓度龙井茶数据集，第二行是Thermo采集的不同浓度的甘草QC数据集，第三行是Waters采集的不同浓度的甘草QC数据集。通过对比分析，Profile模式获取的结果优于Centroid模式，尤其表现在Waters数据的结果，过多的假阳性出现。本发明对比与AntDAS和XCMS的结果来看，本发明的在处理各种仪器的数据时都能保持较好的分析结果，每次的分析结果都优于AntDAS方法，方法的稳定性和普适性优于XCMS方法。通过对比分析，Profile模式获取的结果优于Centroid模式，尤其表现在Waters数据的结果，过多的假阳性出现。本发明对比与AntDAS和XCMS的结果来看，本发明的在处理各种仪器的数据时都能保持较好的分析结果，每次的分析结果都优于AntDAS方法，方法的稳定性和普适性优于XCMS方法。

Claims

1.一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法，其特征在于，包括以下步骤：

(1)将单个样本Profile模式数据转换为Centroid数据：首先提取保留每张质谱图中极大值对应的离子，构建新的质谱谱图；然后，采用迭代优化策略识别新构建的质谱谱图中来自背景噪声离子，估计背景噪声强度；剔除小于仪器对应背景噪声一定倍数的离子，合并离子的高精度质量m/z值为0.015Da的离子，将原始采集的Profile模式质谱数据替换成转换后的Centroid质谱谱图；所述仪器包括：Agilent、Thermo和Waters；所述仪器对应背景噪声一定倍数分别为：Agilent为2倍，Thermo为0倍，Waters为1倍；

(2)单个样本提取离子色谱谱图EIC构建：将每个样本中所有保留时间下采集获得Centroid质谱谱图整合成一个A＝[m/z intensity scan]的矩阵，其中intensity为离子强度，scan表示保留时间；将A矩阵按照m/z值从小到大进行排序，获得排序后的矩阵B；对B中的离子按照预先设定的m/z精度进行聚类，所述预先设定的m/z精度为0.01Da，所述设定合并的m/z精度为0.015Da；选取每一类中强度最大的离子对应的m/z作为EIC种子，合并m/z差值小于设定合并的m/z精度的种子；对EIC种子按照m/z进行排序，对于相邻的两个种子，将其m/z差值进一步划分为10个质谱空间，并统计每个空间中的离子数量，获得离子密度分布，以密度最低处作为这两个相邻种子的分界线，最终获得所有EIC种子质谱窗口；依据矩阵A中离子m/z值和各EIC种子窗口分布，对样本中的所有离子进行划分，并依据scan和intensity构建相应的EIC；剔除连续离子数目小于10、信噪比小于3的的EIC，最终完成单个样本中EIC的构建；

(3)单个样本中色谱峰提取：针对每一个EIC，首先进行色谱基线校正，然后进行色谱峰提取；

(3.2)每个EIC中色谱峰的提取：对EIC连续进行平滑卷积运算，即每一次的平滑运算都是在上一次平滑结果的基础上完成，获得原始EIC信号的多尺度平滑矩阵S＝[s₀,s₁,…,s_n]，其中s₀表示原始信号，s_i表示第i次平滑；提取每一次平滑后色谱信号中的所有的局部极大值，并且标记所有局部极大值的位置，通过脊线寻优的方法，分别获取EIC信号中每个色谱峰的保留时间及其脊线长度，删除脊线长度小于最小脊线长度阈值的所有色谱峰；对于剩下的每一个色谱峰，采用窗口拓展策略估计峰窗口宽度，即以色谱峰保留时间为中心，向两端延伸，直到出现信号强度为0，或者信号强度大于该色谱峰时，停止窗口拓展，窗口拓展的半窗口宽度小于最大半窗口宽度，计算窗口宽度，最终获得每个峰的初始流出范围；剔除初始流出范围小于最小色谱峰流出范围阈值的色谱峰；所述平滑卷积运算的步长N为3，最小脊线长度阈值为3，最大半窗口宽度为15，最小色谱峰流出范围阈值为0.06min；估计EIC中的仪器噪声水平，剔除色谱信号与仪器噪声之比小于3的色谱峰，最终完成单样本中每个EIC下色谱峰的提取；

(4)离子注释：使用峰形相似性和保留时间允差来初步确定同位素离子，即[M+1+H]⁺，随后根据m/z差值搜索常见的固定离子，完成离子注释；

2.根据权利要求1所述UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法，其特征在于：步骤5中，所述峰高的Pearson相关系数大于0.95，所述奇异值分解的首个特征值的占比大于0.9。