CN107860845B

CN107860845B - 自动解析gc-ms重叠峰准确识别化合物的方法

Info

Publication number: CN107860845B
Application number: CN201711099024.7A
Authority: CN
Inventors: 于永杰; 张月明; 白长财; 佘远斌
Original assignee: Ningxia Medical University
Current assignee: Ningxia Medical University
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2020-05-12
Anticipated expiration: 2037-11-09
Also published as: CN107860845A

Abstract

一种自动解析GC‑MS重叠峰准确识别化合物的方法，利用GC‑MS获得表征样本中化合物的数据信息，随后针对各m/z下的色谱信号(EIC)采用多尺度高斯平滑函数提取其中的色谱峰信息。利用基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨‑交替最小二乘法实现单样本中重叠化合物的解析。该发明能够快速、准确地实现样本中化合物的自动化解析并筛选差异性化合物，对复杂植物样本分析如非靶向代谢组学研究具有重要价值。

Description

自动解析GC-MS重叠峰准确识别化合物的方法

技术领域

本发明涉及解析气相色谱-质谱联用仪数据的领域，尤其涉及一种自动解析GC-MS重叠峰准确识别化合物的方法。

背景技术

气相色谱-质谱联用仪(GC-MS：Gas Chromatography-Mass Spectrometer)分析技术被用于不同的科研领域中来剖析研究对象中的挥发性化学组分。由于植物样本的复杂性，特别是在非靶向代谢组学研究中强调针对全成分的分析，导致GC-MS分析中色谱峰的数量超出色谱柱的分离能力，不可避免地出现色谱重叠峰问题。这一问题对于后续的数据分析，如化合物准确识别、定量分析、差异性代谢物的筛选有严重影响。

另一方面，在植物代谢组分研究中，植物资源在不同的生长环境中产生的次生代谢物构成极为复杂，利用GC-MS技术筛选不同产地间具有差异性的代谢物，对于产地溯源、植物代谢通路研究、香精香料品质调控等具有重要的实际意义。然而由于GC-MS中的重叠峰问题，会导致数据分析结果的质量大幅降低。如何从复杂的GC-MS中准确识别其中的化学成分是目前极具挑战性的科研工作，也是当前分析化学领域的研究热点和难点。

目前已有一些可用于GC-MS数据分析的方法，如XCMS、AMDIS、ADAP等。我们在使用中发现这些方法存在一些问题，如XCMS强调EIC峰的解析，无法自动将解析结果整合以实现GC-MS中重叠峰的解析，需要人为干预。AMDIS是美国NIST库中推荐的方法，它在峰检出的基础上采用模式峰进行重叠峰解析，由于模式峰本身可能受到其它物质的影响，这个方法在解析复杂的重叠峰会出现问题。在实际的分析中AMDIS的另一个重要问题是产生的大量假阳性结果，分析人员必须逐一识别色谱峰，导致分析效率极低。ADAP是目前较为先进的一种方法，Du课题组对ADAP进行了一系列升级，对其中的色谱峰和EIC峰聚类进行了优化：从早期利用一阶导数进行峰检出到目前基于连续小波变换峰检出，从K均值聚类EIC峰到目前的基于距离聚类的方法。然而，由于连续小波变换本身的问题，导致这一方法存在假阴性问题。另外，K均值聚类中会导致假阳性和假阴性的聚类结果，导致最终的物质信息解析出现问题。除此以外，ADAP和AMDIS一样采用的是模式峰对信号进行拟合，如果初始的模式峰存在问题，最终的定性和定量结果可靠性大大降低。在重叠峰解析问题上，利用化学计量学方法有望提供高质量的重叠峰解析结果，其中的代表性方法为多元曲线分辨-交替最小二乘法。遗憾是，目前所有的化学计量学算法需要分析人员手动设定计算参数，难以做到自动化实现重叠信号的解析。虽然报道了某方法在代谢组学中一些应用，但由于无法实现数据的自动化解析，使其难以胜任上百个色谱峰的高效分析，因而尚无法在非靶向代谢组学研究中进行深入推广。总之，目前在代谢组学等复杂样本研究中亟待自动化、高质量的物质剖析新方法。

发明内容

针对现有技术的不足，本发明提供一种自动解析GC-MS重叠峰准确识别化合物的新方法，该发明能够快速、准确地实现样本中化合物解析并实现筛选样本差异性化合物，对非靶向代谢组学等复杂样本的分析研究具有重要价值。

本发明解决其技术问题所采用的技术方案是：

一种自动解析GC-MS重叠峰准确识别化合物的方法，利用GC-MS获得单样本中化合物的数据信息，提取其中的色谱峰信息，基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析，实现单样本中化合物的解析。

最优的，具体步骤包括：

单样本中EIC峰的聚类：根据获得的EIC信号中有效色谱峰，将设定数目采样点范围内的EIC色谱峰划分为一个大类，设定所有色谱峰的平均值作为参考峰，计算每个EIC峰与参考峰的相似度，结合每一个EIC色谱峰的保留时间，作为一个点投影到时间-相似度的二维坐标系中，计算每一个点的局部密度，选择局部密度数值最大的点最为第一个子类的中心，第一个子类中心设定波动范围内的点都归属第一个子类，然后，剔除属于第一个子类的点，随后，在剩余点中选择局部密度数值最大点作为第二个子类的中心，第二个子类中心设定波动范围内的点都归属第二个子类，然后，剔除属于第二个子类的点，如此反复，一直到所有的点都被聚类，最终得到单样本中EIC色谱峰的聚类。

最优的，所述单样本中EIC峰的聚类步骤中，对于每一个子类，中心设定波动范围，是对应子类的中心点的时间和相似度坐标±2～4个采样点时间且±0.01～0.02相似度。

最优的，所述单样本中EIC峰的聚类步骤中，将设定数目采样点范围内的EIC色谱峰划分为一个大类，设定数目采样点为3～5个采样点。

最优的，所述单样本中EIC峰的聚类步骤中，对于每一个子类，统计点的数量，当点的数量小于2～4时，剔除该子类所有的点。

最优的，具体步骤还包括：

单样本中色谱峰的解析：气质联用信号具有双线性结构，采用非负约束的多元曲线分辨-交替最小二乘法，利用公式X＝CS^T，公式中X为采集的信号，C为物质的色谱信号，S为物质的质谱信号，C和S均为需要求解的部分，在解析过程中，首先根据得到的单样本中EIC色谱峰的聚类，通过奇异值分析来初始化各物质的色谱信号矩阵C，然后通过S^T＝C⁺X求解S，再通过C＝X(S^T)⁺求解C，交替求解C和S，直到收敛，接着对于样本中基线已分离的色谱峰，也通过该方法进行求解C和S，其中基线分离的定义为：初始化色谱信号之间重叠区域占各自面积的比值不超过5％，最终得到单样本中解析后的化合物。

最优的，具体步骤还包括：

单样本中EIC基线校正：利用获得的单样本GC-MS分析后的化合物数据信息，将GC-MS中质谱信号中质谱四舍五入圆整，在不同采样点下，对应于同一个m/z值的信号提取到一个色谱峰中，构成EIC，提取EIC下极小值，建立一个向量，通过移动窗口迭代优化修正属于色谱峰的极小值，窗口宽度用信号中的采样点数表示，且窗口内含有奇数个采样点，取窗口内所有数值的中位数与窗口中心位置的数值进行对比，若两者的差值大于窗口内所有数值一阶导数的标准偏差的2～3倍，则将中心位置的数值更换成窗口内所有数值的中位数，接着将窗口向右移动一个采样点，直到所有数据点均进行平滑，随后，根据这些极小值在原始EIC信号中的位置，利用线性插值估计出EIC的基线漂移值，扣除后实现基线校正，得到基线校正后的EIC。

最优的，具体步骤还包括：

单样本中EIC有效色谱峰提取：针对基线校正后的EIC，使用不同尺度高斯平滑卷积运算进行EIC信号平滑，对于每一个尺度平滑后的EIC信号，提取其中所有的极大值，利用脊线寻优算法，确定属于色谱峰的脊线，即将脊线长度超过设定阈值的判定为潜在色谱峰，将色谱最高点设定为中心位置，其左侧单调递增和右侧单调的信号判定为该色谱峰的信号，随后，将数据中非色谱峰部分信号中大于90％点的数值确定为仪器噪声，剔除信噪比小于设定值的色谱峰，剩下的色谱峰为有效色谱峰，即获得EIC信号中的有效色谱峰。

最优的，所述单样本中EIC有效色谱峰提取步骤中，使用不同尺度高斯平滑卷积运算进行EIC信号平滑具体是以高斯函数的标准偏差作为平滑尺度，以0.1为步长，将尺度从1逐步增长到13；色谱峰的脊线长度设定阈值为20～30；另剔除信噪比小于设定值的色谱峰中，设定值为8～11。

最优的，具体步骤还包括：

GC-MS分析：将样品进行GC-MS分析，且质谱条件为，EI源，全扫模式，获得单样本GC-MS分析后的化合物数据信息。

由上述技术方案可知，本发明提供的自动解析GC-MS重叠峰准确识别化合物的方法，采用多尺度高斯平滑函数提取EIC中的色谱峰信息，利用基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析。根据各化合物的质谱信息，利用动态时间规划实现样本间的时间漂移校正，对齐属于同一化合物的色谱峰。以峰面积作为定量信息，利用方差分析筛选不同组别间具有差异性的代谢物，并将其质谱信息导出为MSP文件，该文件能够在NIST谱库中自动匹配候选化合物。该发明能够快速、准确地实现样本中化合物解析并实现筛选样本差异性化合物，对非靶向代谢组学等复杂样本的分析研究具有重要价值。

附图说明

图1：自动解析GC-MS重叠峰准确识别化合物的方法的EIC色谱峰提取与聚类示例图。(A)原始TIC信号。(B)EIC信号。(C)经过基线校正EIC信号及色谱峰提取结果。(D)统计不同流出时间下的色谱峰数目。(E)经过密度函数聚类法获得9个子类及在信号中保留时间。

图2.：自动解析GC-MS重叠峰准确识别化合物的方法进行重叠峰解析示例图。(A)EIC信号中的第6个子类下的所有EIC峰。(B)将第6类下EIC单独提取出，进行奇异值分解后获得(C)抽象色谱图，共有9个抽象色谱。(D)经过多元曲线分辨-交替最小二乘法解析最终获得8个组分，及其对应的质谱图。插图D给出了m/z为73下原始信号和重构信号。

图3.：自动解析GC-MS重叠峰准确识别化合物的方法在信噪比低时的解析结果。(A)EIC色谱信号。(B)经过基线校正后的信号。(C)利用多元曲线分辨-交替最小二乘法解析所得4个组分的色谱与质谱结果。(D)原始信号与重构信号。

具体实施方式

结合本发明的附图，对发明实施例的技术方案做进一步的详细阐述。

本发明通过以下示例展示自动解析GC-MS重叠峰准确识别化合物的方法的整个过程。

S1：植物样本前处理：

烟叶样本冷冻干燥后，粉碎处理。称量样本100mg，用5mL二氯甲烷提取，经过涡旋、超声后离心，取上清液1mL，吹干，加入100μL BSTFA，70℃环境下衍生1h。经过GC-MS分析，得到单样本GC-MS分析后的化合物数据信息。GC-MS分析条件为：色谱条件：色谱柱为AgilentDB-5MS柱(60m×2.5mm,i.d.,2.5μm)。程序升温，初始柱温50℃，以5℃/min升温至300℃。进样口温度280℃，传输线温度230℃。He气作为载气，分流比为10:1，流速为1mL。质谱条件：EI源，全扫模式，扫描范围50-500，采样频率3Scan/s。

S2：单样本中EIC基线校正：

利用获得的单样本GC-MS分析后的化合物数据信息，将GC-MS中质谱信号中质谱四舍五入圆整，在不同采样点下，对应于同一个m/z值的信号提取到一个色谱峰中，构成EIC，提取EIC下极小值，建立一个向量，通过移动窗口迭代优化修正属于色谱峰的极小值，窗口宽度用信号中的采样点数表示，且窗口内含有奇数个采样点，取窗口内所有数值的中位数与窗口中心位置的数值进行对比，若两者的差值大于窗口内所有数值一阶导数的标准偏差的2～3倍，则将中心位置的数值更换成窗口内所有数值的中位数，接着将窗口向右移动一个采样点，直到所有数据点均进行平滑，随后，根据这些极小值在原始EIC信号中的位置，利用线性插值估计出EIC的基线漂移值，扣除后实现基线校正，得到基线校正后的EIC。

图1(A)给出了GC-MS分析常见TIC色谱信号，从图中可以看出有4个色谱峰。但在图1(B)中的EIC中可以看出，存在重叠峰，其中的28.25min和28.50min的峰在TIC中被相邻的大峰覆盖了，并且在28.10min，28.4～28.45min没有组分的区域看到明显的色谱基线。图1(C)中给出了经过步骤单样本中EIC基线校正后的色谱信号，可以看出其中的基线问题已得到解决。

S3：单样本中EIC有效色谱峰提取：

针对基线校正后的EIC，使用不同尺度高斯平滑卷积运算进行EIC信号平滑，即以高斯函数的标准偏差作为平滑尺度，以0.1为步长，将尺度从1逐步增长到13，对于每一个尺度平滑后的EIC信号，提取其中所有的局部极大值，利用脊线寻优算法，确定属于色谱峰的脊线，即将脊线长度超过20的判定为潜在色谱峰，将色谱最高点设定为中心位置，其左侧单调递增和右侧单调的信号判定为该色谱峰的信号，随后，将数据中非色谱峰部分信号中大于90％点的数值确定为仪器噪声，剔除信噪比小于10的色谱峰，剩下的色谱峰为有效色谱峰，即获得EIC信号中的有效色谱峰。

图1(C)中用原点标记出了本发明中检测出的各EIC下的色谱峰，从图中可以看出，信号中的有效色谱峰均得到了提取。

S4：单样本中EIC峰的聚类：

根据获得的EIC信号中有效色谱峰，将五个采样点范围内的EIC色谱峰划分为一个大类，设定所有色谱峰的平均值作为参考峰，计算每个EIC峰与参考峰的相似度结合每一个EIC色谱峰的保留时间，作为一个点投影到时间-相似度的二维坐标系中，计算每一个点的局部密度，选择局部密度数值最大的点最为第一个子类的中心，第一个子类中心设定波动范围内的点都归属第一个子类，设定波动范围是对应子类的中心点的时间和相似度坐标±2～4个采样点时间且±0.01～0.02相似度，然后，剔除属于第一个子类的点，随后，在剩余点中选择局部密度数值最大点作为第二个子类的中心，第二个子类中心设定波动范围内的点都归属第二个子类，然后，剔除属于第二个子类的点，如此反复，一直到所有的点都被聚类，对于每一个子类，统计点的数量，当点的数量小于3时，剔除该子类所有的点，最终得到单样本中EIC色谱峰的聚类。

图1(D)中给出了各流出时间下色谱峰数量的统计。图1(E)中给出了经过步骤单样本中EIC峰的聚类后的结果。对比图1(D)和图1(E)中可以看出，最终获得了9个子类的聚类结果。

S5：单样本中色谱峰的解析：

气质联用信号具有双线性结构，采用非负约束的多元曲线分辨-交替最小二乘法，利用公式X＝CS^T，公式中X为采集的信号，C为物质的色谱信号，S为物质的质谱信号，C和S均为需要求解的部分，在解析过程中，首先根据得到的单样本中EIC色谱峰的聚类，通过奇异值分析来初始化各物质的色谱信号矩阵C，然后通过S^T＝C⁺X求解S，再通过C＝X(S^T)⁺求解C，交替求解C和S，直到收敛，接着对于样本中基线已分离的色谱峰，也通过该方法进行求解C和S，其中基线分离的定义为：初始化色谱信号之间重叠区域占各自面积的比值不超过5％，最终得到单样本中解析后的化合物。

图2(A)给出了9个聚类结果中第6类的所有EIC色谱峰，其中的图2(B)给出了将该类中所有EIC峰提取后的结果，经过单样本中EIC峰的聚类步骤后，获得图2(C)中标号为“6”的抽象色谱峰。图2(C)中给出了9个类的所有抽象色谱峰。经过单样本中色谱峰解析步骤中的多元曲线分辨-交替最小二乘法解析后，最终获得8个组分，展示于图2(D)中。为了证明本发明的可靠性，图2(D)中的插图给出了m/z 73下的原始EIC图以及经过解析出的组分进行重构的信号，两者基本一致，证明本发明的方法可靠。

为了进一步证明本发明在低信噪比下的适用性。图3给出了本发明在高噪声水平下的重叠信号解析结果。图3(A)给出了EIC信号，可以出、看出EIC信号嘈杂，信噪比水平低，并且基线问题严重。从EIC信号中仅能看出3个色谱峰。图3(B)给出了基线校正后的色谱信号，基线漂移得到了较好校正，从该图也看出有可能存在四个色谱峰。图3(C)给出了本发明最终的解析结果，最终获得了4个组分及其对应的质谱信息。为了进一步证明本发明的可靠性，图3(D)给出了原始的EIC信号以及基于解析出4个组分进行重构的信号，可以看出，重构信号基本与原始信号一致。表明本发明解析结果可靠。

综上所述，本发明是利用GC-MS获得单样本中化合物的数据信息，提取其中的色谱峰信息，基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析，实现单样本中重叠化合物的解析。

同经典方法相比，本方法优势在于：(1)EIC的色谱提取能够有效避免假阳性和假阴性的色谱峰提取结果，(2)能够实现色谱信号中物质信息的全自动剖析。另外，本发明将色谱峰自动化提取和聚类与经典多元曲线分辨-交替最小二乘法结合能够有效解决重叠峰自动化解析的问题，获得更为准确的解析结果。此外，本发明能够实现植物样本中具有差异性代谢物的全自动快速筛查，降低工作量，提高分析效率。

Claims

1.一种自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于：包括以下步骤：

单样本中 EIC 基线校正：利用获得的单样本 GC-MS 分析后的化合物数据信

息，将 GC-MS 中质谱信号中质谱四舍五入圆整，在不同采样点下，对应于同一个 m/z值的信号提取到一个色谱峰中，构成 EIC，提取 EIC 下极小值，建立一个向量，通过移动窗口迭代优化修正属于色谱峰的极小值，窗口宽度用信号中的采样点数表示，且窗口内含有奇数个采样点，取窗口内所有数值的中位数与窗口中心位置的数值进行对比，若两者的差值大于窗口内所有数值一阶导数的标准偏差的 2～3 倍，则将中心位置的数值更换成窗口内所有数值的中位数，接着将窗口向右移动一个采样点，直到所有数据点均进行平滑，随后，根据这些极小值在原始 EIC 信号中的位置，利用线性插值估计出 EIC 的基线漂移值，扣除后实现基线校正，得到基线校正后的 EIC；

单样本中 EIC 有效色谱峰提取：针对基线校正后的 EIC，使用不同尺度高斯

平滑卷积运算进行 EIC 信号平滑，对于每一个尺度平滑后的 EIC 信号，提取其中所有的极大值，利用脊线寻优算法，确定属于色谱峰的脊线，即将脊线长度超过设定阈值的判定为潜在色谱峰，将色谱最高点设定为中心位置，其左侧单调递增和右侧单调的信号判定为该色谱峰的信号，随后，将数据中非色谱峰部分信号中大于 90%点的数值确定为仪器噪声，剔除信噪比小于设定值的色谱峰，剩下的色谱峰为有效色谱峰，即获得 EIC 信号中的有效色谱峰；

提取其中的有效色谱峰信息，基于密度函数的聚类方法，以 EIC 色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的 EIC 峰聚类到一起，采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析，实现单样本中重叠化合物的解析。

2.根据权利要求 1 所述的自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于，具体步骤包括：

单样本中 EIC 峰的聚类：根据获得的 EIC 信号中有效色谱峰，将设定数目采样点范围内的 EIC 色谱峰划分为一个大类，设定所有色谱峰的平均值作为参考峰，计算每个 EIC峰与参考峰的相似度，结合每一个 EIC 色谱峰的保留时间，

作为一个点投影到时间-相似度的二维坐标系中，计算每一个点的局部密度，选

择局部密度数值最大的点最为第一个子类的中心，第一个子类中心设定波动范

围内的点都归属第一个子类，然后，剔除属于第一个子类的点，随后，在剩余

点中选择局部密度数值最大点作为第二个子类的中心，第二个子类中心设定波

动范围内的点都归属第二个子类，然后，剔除属于第二个子类的点，如此反复，

一直到所有的点都被聚类，最终得到单样本中 EIC 色谱峰的聚类。

3.根据权利要求 2 所述的自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于：所述单样本中 EIC 峰的聚类步骤中，对于每一个子类，中心设定波动范围，是对应子类的中心点的时间和相似度坐标±2～4 个采样点时间±0.01～

0.02 相似度。

4.根据权利要求 3 所述的自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于：所述单样本中 EIC 峰的聚类步骤中，将设定数目采样点范围内的 EIC色谱峰划分为一个大类，设定数目采样点为 3～5 个采样点。

5.根据权利要求 4 所述的自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于：所述单样本中 EIC 峰的聚类步骤中，对于每一个子类，统计点的数量，当点的数量小于2～4 时，剔除该子类所有的点。

6.根据权利要求 1～5 中任意一项所述的自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于，具体步骤还包括：

单样本中色谱峰的解析：气质联用信号具有双线性结构，采用非负约束的多元曲线分辨-交替最小二乘法，利用公式X=CST，公式中X 为采集的信号，C

为物质的色谱信号，S 为物质的质谱信号，C 和S 均为需要求解的部分，在解析过程中，首先根据得到的单样本中 EIC 色谱峰的聚类，通过奇异值分析来初始化各物质的色谱信号矩阵C，然后通过ST=C+X 求解S，再通过C=X(ST)+ 求解C，交替求解C 和S，直到收敛；对于样本中基线已分离的色谱峰，也通过该方法进行求解 C 和 S，其中基线分离的定义为：初始化色谱信号之间重叠区域占各自面积的比值不超过 5%，最终得到单样本中解析后的化合物。

7.根据权利要求 6 所述的自动解析 GC-MS 重叠峰准确识别化合物的方法，其特征在于：所述单样本中 EIC 有效色谱峰提取步骤中，使用不同尺度高斯平滑卷积运算进行 EIC信号平滑具体是以高斯函数的标准偏差作为平滑尺度，以 0.1为步长，将尺度从 1 逐步增长到 13；色谱峰的脊线长度设定阈值为 20～30；另剔除信噪比小于设定值的色谱峰中，设定值为 8～11。

8.根据权利要求7所述的自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于，具体步骤还包括：

GC-MS 分析：将样品进行 GC-MS 分析，且质谱条件为，EI源，全扫模式，

获得单样本 GC-MS 分析后的化合物数据信息。