CN110806456B - 一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法 - Google Patents
一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法 Download PDFInfo
- Publication number
- CN110806456B CN110806456B CN201911099889.2A CN201911099889A CN110806456B CN 110806456 B CN110806456 B CN 110806456B CN 201911099889 A CN201911099889 A CN 201911099889A CN 110806456 B CN110806456 B CN 110806456B
- Authority
- CN
- China
- Prior art keywords
- eic
- chromatographic
- ions
- peak
- ion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/26—Conditioning of the fluid carrier; Flow patterns
- G01N30/38—Flow patterns
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/26—Conditioning of the fluid carrier; Flow patterns
- G01N30/38—Flow patterns
- G01N2030/388—Elution in two different directions on one stationary phase
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8603—Signal analysis with integration or differentiation
- G01N2030/862—Other mathematical operations for data preprocessing
Abstract
本发明公开了一种UPLC‑HRMS Profile模式非靶向代谢轮廓数据自动解析的方法,针对样品UPLC‑HRMS非靶标代谢轮廓解析获得样品中化学成分信息。该方法首先将UPLC‑HRMS Profile模式数据根据不同仪器自适应转化为Centroid模式数据;在转化后色谱信号的基础上按照预先设定的m/z精度进行聚类,选取强度最大的离子作为种子,估计EIC范围计算离子密度,实现EIC的构建;对所有m/z对应的EIC利用局部极小值实现基线校正;待基线校正后,利用多尺度平滑卷积运算结合窗口拓展的策略获得各EIC中的色谱峰位置,根据色谱峰的位置,提取对应的色谱峰;根据保留时间和色谱峰形相似以及碎片离子m/z差值实现峰注释;并根据峰高相似性实现碎片离子的识别,最终实现样品数据的自动化解析。
Description
技术领域
本发明属于超高效液相色谱-高分辨质谱数据解析技术领域,具体地涉及一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法。
背景技术
近年来,UPLC-HRMS(超高效液相色谱-高分辨质谱)因其能够对样品中的化学成分进行较为全面的分析,在植物非靶向代谢轮廓分析研究中得到广泛的应用。多数厂商的仪器能够提供Centroid和Profile两种数据采集模式。然而,目前多种数据分析方法都是针对Centroid模式开发的,针对目前Centroid模式数据可能存在的化合物信息丢失以及信息冗余等情况,如何能够直接对质谱原始Profile模式数据实现快速分析处理,实现样本数据中包含的上千种化合物成分信息快速提取,是当前应用中一个具有挑战性的难题。
当前方法中,能够实现基于UPLC-HRMS Profile模式数据解析的有最为著名的XCMS以及一些仪器厂商自带的数据分析工具包。虽然这些工具所采用的方法原理各有所长,但这些方法本身仍存在着诸多问题,如对多种仪器无法较好地全部满足分析需求,可能存在数据转换结果质量不佳造成结果冗余或者化合物信息丢失等情况。并且假阳性和假阴性色谱峰的问题仍然存在,假阳性色谱峰的存在会干扰物质成分的确定,导致出现错误的判断,假阴性的问题则是化合物信息提取不全将导致严重的化合物信息丢失。离子注释及碎片离子识别的结果将直接影响物质成分的准确定性。
发明内容
鉴于现有技术的不足,本发明提供了一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法,该方法能够有效地实现Profile模式数据转换为Centroid模式数据,并解决其中的假阳性和假阴性的问题。
本发明的目的是采用如下技术方案实现的:一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法,包括以下步骤:
(1)将单个样本Profile模式数据转换为Centroid数据:首先提取保留每张质谱图中极大值对应的离子,构建新的质谱谱图;然后,采用迭代优化策略识别新构建的质谱谱图中来自背景噪声离子,估计背景噪声强度;剔除小于仪器对应背景噪声一定倍数的离子,合并离子的高精度质量m/z值为0.015Da的离子,将原始采集的Profile模式质谱数据替换成转换后的Centroid质谱谱图。所述仪器包括:Agilent、Thermo和Waters;所述仪器对应背景噪声一定倍数分别为:Agilent为2倍,Thermo为0倍,Waters为1倍。
(2)单个样本提取离子色谱谱图EIC构建:将每个样本中所有保留时间下采集获得Centroid质谱谱图整合成一个A=[m/z intensity scan]的矩阵,其中intensity为离子强度,scan表示保留时间;将A矩阵按照m/z值从小到大进行排序,获得排序后的矩阵B;对B中的离子按照预先设定的m/z精度进行聚类,选取每一类中强度最大的离子对应的m/z作为EIC种子,合并m/z差值小于设定合并的m/z精度的种子;对EIC种子按照m/z进行排序,对于相邻的两个种子,将其m/z差值进一步划分为10个质谱空间,并统计每个空间中的离子数量,获得离子密度分布,以密度最低处作为这两个相邻种子的分界线,最终获得所有EIC种子质谱窗口;依据矩阵A中离子m/z值和各EIC种子窗口分布,对样本中的所有离子进行划分,并依据scan和intensity构建相应的EIC;剔除连续离子数目小于10、信噪比小于3的的EIC,最终完成单个样本中EIC的构建。
(3)单个样本中色谱峰提取:针对每一个EIC,首先进行色谱基线校正,然后进行色谱峰提取。
(3.1)每个EIC的基线校正:将每一个m/z下的EIC利用局部最小值策略做基线校正处理,得到基线校正后的m/z的EIC;
(3.2)每个EIC中色谱峰的提取:对EIC连续进行平滑卷积运算,即每一次的平滑运算都是在上一次平滑结果的基础上完成,获得原始EIC信号的多尺度平滑矩阵S=[s0,s1,…,sn],其中s0表示原始信号,si(i>=1)表示第i次平滑;提取每一次平滑后色谱信号中的所有的局部极大值,并且标记所有局部极大值的位置,通过脊线寻优的方法,分别获取EIC信号中每个色谱峰的保留时间及其脊线长度,删除脊线长度小于最小脊线长度阈值的所有色谱峰;对于剩下的每一个色谱峰,采用窗口拓展策略估计峰窗口宽度,即以色谱峰保留时间为中心,向两端延伸,直到出现信号强度为0,或者信号强度大于该色谱峰时,停止窗口拓展,窗口拓展的半窗口宽度小于最大半窗口宽度,计算窗口宽度,最终获得每个峰的初始流出范围;剔除初始流出范围小于最小色谱峰流出范围阈值的色谱峰;估计EIC中的仪器噪声水平,剔除色谱信号与仪器噪声之比小于3的色谱峰,最终完成单样本中每个EIC下色谱峰的提取。
(4)离子注释:使用峰形相似性和保留时间允差来初步确定同位素离子,即[M+1+H]+,随后根据m/z差值搜索常见的固定离子,完成离子注释。
(5)碎片离子识别:在每个样本进行峰提取和离子注释的基础上,搜索在不同样本中保留时间基本一致,色谱峰形状、离子相对丰度变化高度一致的[M+H]+离子,利用峰高的Pearson相关系数和奇异值分解(SVD)方法进行识源自相同代谢物的离子,最终获得对齐后的离子色谱峰信息列表以及碎片离子识别结果。
进一步地,步骤2中,所述预先设定的m/z精度为0.01Da,所述设定合并的m/z精度为0.015Da。
进一步地,步骤3中,所述平滑卷积运算的步长N为3,最小脊线长度阈值为3,最大半窗口宽度为15,最小色谱峰流出范围阈值为0.06min。
进一步地,步骤5中,所述峰高的Pearson相关系数大于0.95,所述奇异值分解的首个特征值的占比大于0.9。
与现有技术相比,本发明具有如下有益效果:本发明提供了一种基于UPLC-HRMSProfile模式非靶向代谢轮廓数据自动解析的方法,先将UPLC-HRMS Profile模式数据根据不同仪器自适应转化为Centroid模式数据;在转化后的基础上按照预先设定的m/z精度进行聚类,选取强度最大的离子作为种子,估计EIC范围计算离子密度,实现EIC的构建;对所有m/z对应的EIC利用局部极小值实现基线校正;待基线校正后,利用多尺度平滑卷积运算结合窗口拓展的策略获得各EIC中的色谱峰位置,根据色谱峰的位置,提取对应的色谱峰;根据保留时间和色谱峰形相似以及碎片离子m/z差值的原则实现峰注释;并根据峰高相似性实现碎片离子的识别,最终完成质谱数据的解析。该方法中自适应的数据转换方法能够适应多种仪器的数据转换,普适性较强,并达到较优的结果,利用强度与密度结合的方法能够更准确地实现EIC的构建,多尺度平滑结合窗口拓展的方法,并利用噪声估计剔除信噪比较低的色谱峰,能够有效减少假阳性和假阴性的色谱峰提取结果。该自动解析的方法能够实现样品UPLC-HRMS Profile模式非靶标代谢轮廓数据的有效解析,适合小批量数据的精确分析。
附图说明
图1为UPLC-HRMS Profile模式质谱数据分布情况特点及转换方法:图1A为本发明所述的Profile模式质谱数据分布情况;图1B给出了保留局部极大值之后的质谱数据情况,以及该质谱图下的噪声阈值水平线和相邻特征值之间的距离Δm/z计算方式;
图2为不同UPLC-HRMS仪器所得到的Profile模式数据分布情况:图2A给出了通过Agilent 1290-6545 UPLC-QTOF分析所得到的Profile模式质谱数据分布情况;图2B给出了通过Thermo ScientificTM Q ExactiveTM分析得到的Profile模式质谱数据分布情况;图2C给出了Waters ACQUITY UPLC/Xevo G2 QTOF分析得到的Profile模式质谱数据分布情况;
图3为UPLC-HRMS Profile模式数据经过峰检出的一个m/z为173.04的EIC示例:图3A中给出了EIC的离子分布情况;图3B中给出了EIC当中提取出的四个色谱峰;
图4为UPLC-HRMS Centroid模式数据经过峰检出的一个m/z为173.04的EIC示例:图4A中给出EIC的离子分布情况;图4B中给出了EIC当中提取的四个色谱峰;
图5为本发明给出的色谱峰提取示例:图5A给出的为原始色谱信号;图5B给出了所有色谱峰的脊线长度及峰宽度情况;图5C给出的是经过假阳性峰过滤后所保留的色谱峰的脊线长度和峰宽情况;图5D为本发明提取原始色谱信号的11个色谱峰;
图6为本发明与XCMS和AntDAS色谱峰提取对比结果:图6A是本发明色谱峰提取结果,图6B和图6C分别是AntDAS和XCMS提取结果;
图7为本发明给出的碎片离子识别结果示例:图7A为所有碎片离子的色谱峰;图7B为所有碎片离子的保留时间(RT),m/z,ID,强度(Intensity),注释(Annotation)结果;图7C是对应色谱峰的质谱图结果;
图8为三种不同仪器获取的Centroid模式和Profile模式数据在三种不同方法下提取的化合物的Pearson相关系数分布情况:图8A显示的是AntDASProfiler质心模式数据分析的结果。图8B,8C和8D分别显示了来自AntDASProfiler,AntDAS和XCMS Profile模式数据分析的结果。
具体实施方式
下面结合本发明的附图,对发明实施的技术方案做进一步的解释说明。
以下分别以茶叶、甘草作为样品,用Agilent、Thermo和Waters仪器进行UPLC-HRMS分析。
S1:Agilent分析的茶叶样品制备过程:将获取的龙井茶叶样品在冻干后进行粉碎,分别称取1mg,2mg,3mg,4mg,5mg,6mg粉碎样品,向各样品加入提取液1.5mL,所述提取液包括按体积比为1:9的甲醇和水以及0.98mg/L内标伞形花内酯,涡旋2分钟后,常温条件超声30分钟,然后在13000r/s转速下离心10min后,取1mL上清液转移至色谱瓶,待UPLC-HRMS分析。
S2:Agilent 1290-6545 UPLC-QTOF分析:
进行Agilent 1290-6545 UPLC-QTOF分析的色谱条件为:色谱柱为Agilent C18柱(2.1mm×100mm,1.8μm),柱温为35℃,流速为0.2mL/min,流动相A为100%纯化水(v/v),流动相B是含有0.1%甲酸乙腈(v/v),色谱分析时,流动相梯度洗脱条件如下表1:
表1为Agilent所采用的流动相梯度洗脱条件
进行Agilent 1290-6545 UPLC-QTOF-MS分析的质谱条件为:质谱扫描范围为100-1000Da;数据采集速率为3.0s/spectra;鞘气温度为350℃;鞘气流量为12L/min;干燥气体流量为12L/min;喷雾器压力为40psig;电离电压为3500V;负离子模式,最终获得Agilent分析的液相色谱-质谱图谱。
S3:Thermo分析的甘草样品制备过程:收集了源自4个产地的164个甘草样本,在室温下进行粉碎,取相同质量的粉碎样品进行混合制备甘草QC样品。分别称取1mg,3mg,5mg,7mg,9mg,11mg,13mg,15mg QC样品,各样品加入1.5mL甲醇,涡旋2分钟,常温条件超声30分钟,然后在13000r/s转速下离心10min后,取1mL上清液转移至色谱瓶,待UPLC-HRMS分析。
S4:Thermo ScientificTM Q ExactiveTM分析:
进行Thermo ScientificTM Q ExactiveTM分析的色谱条件为:色谱柱为ThermoScientific Syncronis C18(3mm×100mm,1.7μm),柱温为35℃,流速为0.2mL/min,流动相A为100%纯化水(v/v),流动相B是含有0.1%甲酸乙腈(v/v),色谱分析时,流动相梯度洗脱条件如下表2:
表2为Thermo所采用的流动相梯度洗脱条件
进行Thermo ScientificTM Q ExactiveTM分析的质谱条件为:质谱扫描范围为66.7-1000;分辨率为35000;数据采集速率为0.2s/spectra;正离子模式;其他条件均为默认条件,最终获得Thermo分析的液相色谱-质谱图谱。
S5:Waters分析的甘草样品制备过程:分别称取与Thermo分析当中同一QC样品2mg,4mg,6g,8mg,10mg,12mg,14mg,16mg,g,18mg,20mg,其他前样品制备过程均与Thermo分析当中的样品制备过程一致。
S6:Waters ACQUITY UPLC/Xevo G2 QTOF分析:
进行Waters ACQUITY UPLC/Xevo G2 QTOF分析的色谱条件为:色谱柱为BEH C18柱(1.7μm),柱温为45℃,样品盘温度为20℃,流速为0.3mL/min,流动相A是含有0.1%甲酸的纯化水(v/v),B是含有0.1%甲酸的乙腈(v/v),色谱分析时,流动相梯度洗脱条件如下表3:
表3为Waters所采用的流动相梯度洗脱条件
进行Waters ACQUITY UPLC/Xevo G2 QTOF分析的质谱条件为:质谱扫描范围为100-1200Da;数据采集速率为0.3s/spectra;正离子模式;其他条件均为默认条件,最终获得Waters分析的液相色谱-质谱图谱。
S7:单个样本Profile模式数据转换为Centroid数据:将Agilent、Thermo、Waters仪器分析所获得的液相色谱-质谱图谱原始数据转化为mzML格式,进入MATLAB环境进行分析。首先提取保留每张质谱图中极大值(即对于任意的xi,满足xi>xi-1且xi>xi+1)对应的离子,构建新的质谱谱图;然后,根据信号中来自背景的极大值远低于化合物信号极大值的特点,采用迭代优化策略识别新构建质谱谱图中来自背景噪声离子,估计背景噪声强度;剔除小于仪器对应背景噪声一定倍数的离子,合并离子的高精度质量m/z值为0.015Da的离子,最终实现每张质谱谱图的Centroid转换,将原始采集的Profile质谱数据替换成转换后的Centroid质谱谱图。所述仪器包括:Agilent、Thermo和Waters;所述仪器对应背景噪声一定倍数分别为:Agilent为2倍,Thermo为0倍,Waters为1倍。如附图1所述,UPLC-HRMSProfile模式质谱数据分布情况特点及转换方法。图1A是本发明所述的Profile模式质谱数据分布情况。图1给出了保留局部极大值之后的质谱数据情况,以及该质谱图下的噪声阈值水平线和相邻特征值之间的距离Δm/z计算方式,从图中可以看出,本发明在噪声阈值水平线条件下能够过虑大部分的噪声,大大降低数据量,有效地实现Profile模式数据的转换。并且如图2所述,不同UPLC-HRMS仪器所得到的Profile模式普数据分布情况。图2A给出了通过Agilent 1290-6545 UPLC-QTOF-M分析所得到的Profile模式质谱数据分布情况。图2B给出了通过Thermo ScientificTM Q ExactiveTM分析得到的Profile模式质谱数据分布情况。图2C给出了Waters ACQUITY UPLC/Xevo G2 QTOF分析得到的Profile模式质谱数据分布情况。从图中可以看出,不同仪器之间获得的Profile模式质谱数据的分布情况各有不同,因此导致的多个代表值的情况Thermo仪器所获得的Profile模式质谱数据表现的最为明显。
S8:单个样本提取离子色谱谱图(Extracted Ion Chromatogram,EIC)构建:将每个样本中所有保留时间下采集获得Centroid质谱谱图质谱谱图数据整合成一个A=[m/zintensity scan]的矩阵,其中m/z是离子的高精度质量,intensity为离子强度,scan表示保留时间;将A矩阵按照m/z值从小到大进行排序,获得排序后的矩阵B;对B中的离子按照预先设定的m/z精度0.01Da进行聚类,选取每一类中的强度最大的离子对应的m/z作为EIC种子,合并m/z差值小于设定0.015Da精度的种子;对EIC种子按照m/z进行排序,对于相邻的两个种子,将其m/z差值进一步划分为10个质谱空间,并统计每个空间中的离子数量,获得离子密度分布,以密度最低处作为这两个相邻种子的分界线,最终获得所有EIC种子质谱窗口;依据矩阵A中离子m/z值和各EIC种子窗口分布,对样本中的所有离子进行划分,并依据scan和intensity构建相应的EIC;依据矩阵剔除连续离子数目小于10、信噪比小于3的的EIC剔除离子数目少、信噪比低的EIC,最终完成单个样本中EIC的构建。如附图3所示,UPLC-HRMS Profile模式数据经过峰检出的一个m/z为173.04的EIC示例。图3A中给出了EIC的离子分布情况,图3B中给出了EIC当中提取出的四个色谱峰,从图中可以看出,峰强度最高的点被选择为中心点,在色谱峰存在的情况下,离子分布较为聚集,离子密度较大,离子几乎不存在波动。图4为UPLC-HRMS Centroid模式数据经过峰检出的一个m/z为173.04的EIC示例:图4A中给出EIC的离子分布情况;图4B中给出了EIC当中提取的四个色谱峰;从图中可以看出,峰强度最高的点被选择为中心点,在色谱峰存在的情况下,离子分布较为聚集,离子密度较大。相比与图3中本发明Profile模式数据下的结果,该结果中离子产生较大的波动。因此,本发明能够得到更优的Centroid模式数据,有利于EIC的准确提取。
S9:单个样本中色谱峰提取:针对每一个EIC,首先进行色谱基线校正,然后进行色谱峰提取。具体包括:(1)每个EIC的基线校正:将每一个m/z下的EIC利用局部最小值策略做基线校正处理,得到基线校正后的m/z的EIC;(2)每个EIC中色谱峰的提取:对EIC连续进行平滑卷积运算,所述平滑卷积运算的步长N为3,即每一次的平滑运算都是在上一次平滑结果的基础上完成,获得原始EIC信号的多尺度平滑矩阵S=[s0,s1,…,sn],其中s0表示原始信号,si(i>=1)表示第i次平滑;提取每一次平滑后色谱信号中的所有的局部极大值,并且标记所有局部极大值的位置,通过脊线寻优的方法,分别获取EIC信号中每个色谱峰的保留时间及其脊线长度,删除脊线长度小于最小脊线长度阈值的所有色谱峰,最小脊线长度阈值为3;对于剩下的每一个色谱峰,采用窗口拓展策略估计峰窗口宽度,即以色谱峰保留时间为中心,向两端延伸,直到出现信号强度为0,或者信号强度大于该色谱峰时,停止窗口拓展,窗口拓展的半窗口宽度小于最大半窗口宽度,最大半窗口宽度为15,计算窗口宽度,最终获得每个峰的初始流出范围;剔除初始流出范围小于设定值的色谱峰,最小色谱峰流出范围阈值为0.06min,估计EIC中的仪器噪声水平,剔除色谱信号与仪器噪声之比小于3的色谱峰,最终完成单样本中每个EIC下色谱峰的提取。如附图5所示,本发明给出的色谱峰提取示例。图5A给出的为原始色谱信号,图5B给出了所有色谱峰的脊线长度及峰宽度情况,有多个色谱峰被选择进入阈值区域内;图5C给出的是经过假阳性峰过滤后所保留的色谱峰的脊线长度和峰宽情况,所有提取出的色谱峰的脊线长度以及峰宽都在阈值范围内。图5D给出的是本发明提取原始色谱信号的11个色谱峰,所有的色谱峰都具有较好的峰形及强度,没有发现假阴性的情况,提取结果令人满意。为了证明本发明同其他方法相比具有的色谱峰准确提取的优势,如附图6所示,本发明与XCMS和AntDAS色谱峰提取对比结果。图6A是本发明(英文简称为AntDASProfiler)色谱峰提取结果,图6B和图6C分别是AntDAS和XCMS提取结果。其中AntDAS存在一些假阴性的色谱峰提取结果,XCMS出现多个假阳性和假阴性的色谱峰提取结果。三种方法比较中,本发明有效地避免了假阳性和假阴性问题,所得的结果表现为最优。
S10:使用峰形相似性和保留时间允差来初步确定同位素离子,即[M+1+H]+,随后根据m/z差值搜索常见的固定离子如[M+2+H]+、[M+3+H]+、[M+Na]+、[M+K]+、[M+NH4]+、[M-H2O+H]+、[M-CO2+H]+,完成离子注释。
S11:本发明中碎片离子识别基于多个样本,在每个样本进行峰提取和离子注释的基础上,搜索在不同样本中保留时间基本一致,色谱峰形状、离子相对丰度变化高度一致的[M+H]+离子,利用峰高的Pearson相关系数和奇异值分解(SVD)方法进行识源自相同代谢物的离子,所述峰高的Pearson相关系数大于0.95,所述奇异值分解的首个特征值的占比大于0.9,最终获得对齐后的离子色谱峰信息列表以及碎片离子识别结果。在峰提取的基础上,本发明对色谱峰进行离子注释和碎片离子识别。如附图7所示,本发明给出的碎片离子识别结果示例。图7A为所有碎片离子的色谱峰,图7B为所有碎片离子的保留时间(RT),m/z,ID,强度(Intensity),注释(Annotation)结果。所有的碎片离子均完成的对应的注释。图7C是对应色谱峰的质谱图结果。本发明识别的碎片离子共包含16个离子,对应的所有色谱峰都具有极高的保留时间和色谱峰形相似性,碎片离子在本发明得到较好的识别。
最后,通过对比从三种不同仪器获取得到的茶叶及甘草样本数据物质解析结果,证明了本发明的结果优于XCMS方法和AntDAS方法。如附图8所示,给出的是三种不同仪器获取的Centroid模式和Profile模式数据在三种不同方法下提取的化合物的Pearson相关系数分布情况。图8A显示的是AntDASProfiler质心模式数据分析的结果,图8B,8C和8D分别显示了来自AntDASProfiler,AntDAS和XCMS Profile模式数据分析的结果。第一行是通过安捷伦Centroid模式和Profile模式采集的不同浓度龙井茶数据集,第二行是Thermo采集的不同浓度的甘草QC数据集,第三行是Waters采集的不同浓度的甘草QC数据集。通过对比分析,Profile模式获取的结果优于Centroid模式,尤其表现在Waters数据的结果,过多的假阳性出现。本发明对比与AntDAS和XCMS的结果来看,本发明的在处理各种仪器的数据时都能保持较好的分析结果,每次的分析结果都优于AntDAS方法,方法的稳定性和普适性优于XCMS方法。通过对比分析,Profile模式获取的结果优于Centroid模式,尤其表现在Waters数据的结果,过多的假阳性出现。本发明对比与AntDAS和XCMS的结果来看,本发明的在处理各种仪器的数据时都能保持较好的分析结果,每次的分析结果都优于AntDAS方法,方法的稳定性和普适性优于XCMS方法。
Claims (2)
1.一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法,其特征在于,包括以下步骤:
(1)将单个样本Profile模式数据转换为Centroid数据:首先提取保留每张质谱图中极大值对应的离子,构建新的质谱谱图;然后,采用迭代优化策略识别新构建的质谱谱图中来自背景噪声离子,估计背景噪声强度;剔除小于仪器对应背景噪声一定倍数的离子,合并离子的高精度质量m/z值为0.015Da的离子,将原始采集的Profile模式质谱数据替换成转换后的Centroid质谱谱图;所述仪器包括:Agilent、Thermo和Waters;所述仪器对应背景噪声一定倍数分别为:Agilent为2倍,Thermo为0倍,Waters为1倍;
(2)单个样本提取离子色谱谱图EIC构建:将每个样本中所有保留时间下采集获得Centroid质谱谱图整合成一个A=[m/z intensity scan]的矩阵,其中intensity为离子强度,scan表示保留时间;将A矩阵按照m/z值从小到大进行排序,获得排序后的矩阵B;对B中的离子按照预先设定的m/z精度进行聚类,所述预先设定的m/z精度为0.01Da,所述设定合并的m/z精度为0.015Da;选取每一类中强度最大的离子对应的m/z作为EIC种子,合并m/z差值小于设定合并的m/z精度的种子;对EIC种子按照m/z进行排序,对于相邻的两个种子,将其m/z差值进一步划分为10个质谱空间,并统计每个空间中的离子数量,获得离子密度分布,以密度最低处作为这两个相邻种子的分界线,最终获得所有EIC种子质谱窗口;依据矩阵A中离子m/z值和各EIC种子窗口分布,对样本中的所有离子进行划分,并依据scan和intensity构建相应的EIC;剔除连续离子数目小于10、信噪比小于3的的EIC,最终完成单个样本中EIC的构建;
(3)单个样本中色谱峰提取:针对每一个EIC,首先进行色谱基线校正,然后进行色谱峰提取;
(3.1)每个EIC的基线校正:将每一个m/z下的EIC利用局部最小值策略做基线校正处理,得到基线校正后的m/z的EIC;
(3.2)每个EIC中色谱峰的提取:对EIC连续进行平滑卷积运算,即每一次的平滑运算都是在上一次平滑结果的基础上完成,获得原始EIC信号的多尺度平滑矩阵S=[s0,s1,…,sn],其中s0表示原始信号,si表示第i次平滑;提取每一次平滑后色谱信号中的所有的局部极大值,并且标记所有局部极大值的位置,通过脊线寻优的方法,分别获取EIC信号中每个色谱峰的保留时间及其脊线长度,删除脊线长度小于最小脊线长度阈值的所有色谱峰;对于剩下的每一个色谱峰,采用窗口拓展策略估计峰窗口宽度,即以色谱峰保留时间为中心,向两端延伸,直到出现信号强度为0,或者信号强度大于该色谱峰时,停止窗口拓展,窗口拓展的半窗口宽度小于最大半窗口宽度,计算窗口宽度,最终获得每个峰的初始流出范围;剔除初始流出范围小于最小色谱峰流出范围阈值的色谱峰;所述平滑卷积运算的步长N为3,最小脊线长度阈值为3,最大半窗口宽度为15,最小色谱峰流出范围阈值为0.06min;估计EIC中的仪器噪声水平,剔除色谱信号与仪器噪声之比小于3的色谱峰,最终完成单样本中每个EIC下色谱峰的提取;
(4)离子注释:使用峰形相似性和保留时间允差来初步确定同位素离子,即[M+1+H]+,随后根据m/z差值搜索常见的固定离子,完成离子注释;
(5)碎片离子识别:在每个样本进行峰提取和离子注释的基础上,搜索在不同样本中保留时间基本一致,色谱峰形状、离子相对丰度变化高度一致的[M+H]+离子,利用峰高的Pearson相关系数和奇异值分解(SVD)方法进行识源自相同代谢物的离子,最终获得对齐后的离子色谱峰信息列表以及碎片离子识别结果。
2.根据权利要求1所述UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法,其特征在于:步骤5中,所述峰高的Pearson相关系数大于0.95,所述奇异值分解的首个特征值的占比大于0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099889.2A CN110806456B (zh) | 2019-11-12 | 2019-11-12 | 一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099889.2A CN110806456B (zh) | 2019-11-12 | 2019-11-12 | 一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110806456A CN110806456A (zh) | 2020-02-18 |
CN110806456B true CN110806456B (zh) | 2022-03-15 |
Family
ID=69502148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911099889.2A Active CN110806456B (zh) | 2019-11-12 | 2019-11-12 | 一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110806456B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114324713B (zh) * | 2022-01-13 | 2023-01-13 | 宁夏医科大学 | Uhplc-hrms数据依赖性采集的信息解析方法 |
CN114894949A (zh) * | 2022-04-12 | 2022-08-12 | 北京清谱科技有限公司 | 一种脂质精细结构分析流程和控制处理系统 |
CN116010663B (zh) * | 2023-03-21 | 2023-06-30 | 上海美吉生物医药科技有限公司 | 一种tmt项目图谱解析和数据分析的方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101002460A (zh) * | 2004-06-23 | 2007-07-18 | 兰达解决方案公司 | 输入数据的自动背景去除 |
CN101776671A (zh) * | 2010-01-05 | 2010-07-14 | 浙江大学 | 一种用于中药复杂成分分析的实时特征提取方法 |
CN102369275A (zh) * | 2009-02-02 | 2012-03-07 | 卓莫赛尔公司 | 新型细胞系和方法 |
CN102893156A (zh) * | 2009-12-21 | 2013-01-23 | 爱尔兰国立科克大学 | 子痫前期风险的检测 |
CN103389335A (zh) * | 2012-05-11 | 2013-11-13 | 中国科学院大连化学物理研究所 | 一种鉴定生物大分子的分析装置和方法 |
KR20140091311A (ko) * | 2013-01-11 | 2014-07-21 | 재단법인 한국한방산업진흥원 | 단삼 추출물로부터 항산화, 미백, 주름개선에 유용한 유효 성분인 탄시논 i 및 탄시논 iia을 다향 함유한 정제물을 생산하는 제조방법 |
CN104063570A (zh) * | 2013-03-20 | 2014-09-24 | 中国科学院大连化学物理研究所 | 一种脂质代谢网络动态研究的方法 |
JP2015055485A (ja) * | 2013-09-10 | 2015-03-23 | 株式会社島津製作所 | 液体クロマトグラフ質量分析装置 |
US9159538B1 (en) * | 2014-06-11 | 2015-10-13 | Thermo Finnigan Llc | Use of mass spectral difference networks for determining charge state, adduction, neutral loss and polymerization |
CN105334279A (zh) * | 2014-08-14 | 2016-02-17 | 大连达硕信息技术有限公司 | 一种高分辨质谱数据的处理方法 |
CN106841494A (zh) * | 2017-04-17 | 2017-06-13 | 宁夏医科大学 | 基于uplc‑qtof的植物差异性代谢物快速筛选方法 |
CN106950315A (zh) * | 2017-04-17 | 2017-07-14 | 宁夏医科大学 | 基于uplc‑qtof快速表征样品中化学成分的方法 |
CN107607642A (zh) * | 2017-09-06 | 2018-01-19 | 上海烟草集团有限责任公司 | 一种鉴定烟草中蛋白与蛋白组的多维液相色谱质谱联用法 |
CN107860845A (zh) * | 2017-11-09 | 2018-03-30 | 宁夏医科大学 | 自动解析gc‑ms重叠峰准确识别化合物的方法 |
CN109416926A (zh) * | 2016-04-11 | 2019-03-01 | 迪森德克斯公司 | 质谱数据分析工作流程 |
EP3514545A1 (en) * | 2018-01-22 | 2019-07-24 | Univerzita Pardubice | A method of diagnosing pancreatic cancer based on lipidomic analysis of a body fluid |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8761465B2 (en) * | 2009-03-18 | 2014-06-24 | Microsoft Corporation | Centroid processing |
US20140179020A1 (en) * | 2012-12-20 | 2014-06-26 | David A. Wright | Methods and Apparatus for Identifying Ion Species Formed during Gas-Phase Reactions |
WO2017027559A1 (en) * | 2015-08-10 | 2017-02-16 | Massachusetts Institute Of Technology | Systems, apparatus, and methods for analyzing and predicting cellular pathways |
-
2019
- 2019-11-12 CN CN201911099889.2A patent/CN110806456B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101002460A (zh) * | 2004-06-23 | 2007-07-18 | 兰达解决方案公司 | 输入数据的自动背景去除 |
CN102369275A (zh) * | 2009-02-02 | 2012-03-07 | 卓莫赛尔公司 | 新型细胞系和方法 |
CN102893156A (zh) * | 2009-12-21 | 2013-01-23 | 爱尔兰国立科克大学 | 子痫前期风险的检测 |
CN101776671A (zh) * | 2010-01-05 | 2010-07-14 | 浙江大学 | 一种用于中药复杂成分分析的实时特征提取方法 |
CN103389335A (zh) * | 2012-05-11 | 2013-11-13 | 中国科学院大连化学物理研究所 | 一种鉴定生物大分子的分析装置和方法 |
KR20140091311A (ko) * | 2013-01-11 | 2014-07-21 | 재단법인 한국한방산업진흥원 | 단삼 추출물로부터 항산화, 미백, 주름개선에 유용한 유효 성분인 탄시논 i 및 탄시논 iia을 다향 함유한 정제물을 생산하는 제조방법 |
CN104063570A (zh) * | 2013-03-20 | 2014-09-24 | 中国科学院大连化学物理研究所 | 一种脂质代谢网络动态研究的方法 |
JP2015055485A (ja) * | 2013-09-10 | 2015-03-23 | 株式会社島津製作所 | 液体クロマトグラフ質量分析装置 |
US9159538B1 (en) * | 2014-06-11 | 2015-10-13 | Thermo Finnigan Llc | Use of mass spectral difference networks for determining charge state, adduction, neutral loss and polymerization |
CN105334279A (zh) * | 2014-08-14 | 2016-02-17 | 大连达硕信息技术有限公司 | 一种高分辨质谱数据的处理方法 |
CN109416926A (zh) * | 2016-04-11 | 2019-03-01 | 迪森德克斯公司 | 质谱数据分析工作流程 |
CN106841494A (zh) * | 2017-04-17 | 2017-06-13 | 宁夏医科大学 | 基于uplc‑qtof的植物差异性代谢物快速筛选方法 |
CN106950315A (zh) * | 2017-04-17 | 2017-07-14 | 宁夏医科大学 | 基于uplc‑qtof快速表征样品中化学成分的方法 |
CN107607642A (zh) * | 2017-09-06 | 2018-01-19 | 上海烟草集团有限责任公司 | 一种鉴定烟草中蛋白与蛋白组的多维液相色谱质谱联用法 |
CN107860845A (zh) * | 2017-11-09 | 2018-03-30 | 宁夏医科大学 | 自动解析gc‑ms重叠峰准确识别化合物的方法 |
EP3514545A1 (en) * | 2018-01-22 | 2019-07-24 | Univerzita Pardubice | A method of diagnosing pancreatic cancer based on lipidomic analysis of a body fluid |
Non-Patent Citations (5)
Title |
---|
A novel strategy for extracted ion chromatogram extraction to improve peak detection in UPLC-HRMS;Peng Lu 等;《Analytical Methods》;20181231;第10卷;第5118-5126页 * |
K. Magnus A˚berg 等.Feature detection and alignment of hyphenated chromatographic–mass spectrometric data: Extraction of pure ion chromatograms using Kalman tracking.《Journal of Chromatography A》.2008,第1192卷第139-146页. * |
Quantification of acid metabolites in complex plant samples by using second-order calibration coupled with GC-mass spectrometry detection to resolve the influence of seriously overlapped chromatographic peaks;Hai-Yan Fu 等;《Analytical Methods》;20161231;第8卷;第747-755页 * |
Recent developments in software tools for high-throughput in vitro ADME support with high-resolution MS;Anthony Paiva 等;《Bioanalysis》;20160720;第8卷(第16期);第1723-1733页 * |
基于液相色谱-高分辨质谱联用的代谢组学数据峰匹配方法研究;路鑫 等;《第三届全国质谱分析学术报告会摘要集-分会场2:蛋白组学与代谢组学》;20171231;第237页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110806456A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110806456B (zh) | 一种UPLC-HRMS Profile模式非靶向代谢轮廓数据自动解析的方法 | |
US7197401B2 (en) | Peak selection in multidimensional data | |
Bos et al. | Recent applications of chemometrics in one‐and two‐dimensional chromatography | |
US6787761B2 (en) | Median filter for liquid chromatography-mass spectrometry data | |
US6989100B2 (en) | Methods for time-alignment of liquid chromatography-mass spectrometry data | |
CN107077592B (zh) | 高分辨率气相色谱-质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波 | |
Causon et al. | Fingerprinting of traditionally produced red wines using liquid chromatography combined with drift tube ion mobility-mass spectrometry | |
Rubert et al. | Metabolic fingerprinting based on high-resolution tandem mass spectrometry: a reliable tool for wine authentication? | |
CN105334279B (zh) | 一种高分辨质谱数据的处理方法 | |
Vaclavik et al. | The use of high performance liquid chromatography–quadrupole time-of-flight mass spectrometry coupled to advanced data mining and chemometric tools for discrimination and classification of red wines according to their variety | |
DE102004015018B4 (de) | Verfahren zum Identifizieren von Ionen aus Chromatographie-Massenspektral-Datensätzen, die überlappende Komponenten enthalten | |
US7488935B2 (en) | Apparatus and method for processing of mass spectrometry data | |
Bianchi et al. | Characterization of the volatile profile of thistle honey using headspace solid-phase microextraction and gas chromatography–mass spectrometry | |
JP2007527992A (ja) | 液体クロマトグラフィ/質量分析データ中のピークを同定し、スペクトルおよびクロマトグラムを形成するための装置および方法 | |
CN110967428A (zh) | 一种基于高效液相指纹图谱信息建立评价中药化橘红质量的模式识别方法 | |
Fu et al. | Simple automatic strategy for background drift correction in chromatographic data analysis | |
Chatterjee et al. | Using pattern recognition entropy to select mass chromatograms to prepare total ion current chromatograms from raw liquid chromatography–mass spectrometry data | |
Yu et al. | A chemometric-assisted method based on gas chromatography–mass spectrometry for metabolic profiling analysis | |
Zhou et al. | Combination of continuous wavelet transform and genetic algorithm-based Otsu for efficient mass spectrometry peak detection | |
Tang et al. | A new method for alignment of LC-MALDI-TOF data | |
CN108445134B (zh) | 酒类产品鉴别的方法 | |
CN114324713B (zh) | Uhplc-hrms数据依赖性采集的信息解析方法 | |
CN108375639B (zh) | 一种快速建立样品中组分质谱数据库的方法 | |
CN117153295B (zh) | 一种非靶向识别全氟化合物同系物的方法以及识别系统 | |
Lim et al. | A flow-injection mass spectrometry fingerprinting scaffold for feature selection and quantitation of Cordyceps and Ganoderma extracts in beverage: a predictive artificial neural network modelling strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |