CN104504706A - 一种气相色谱质谱谱图匹配方法 - Google Patents

一种气相色谱质谱谱图匹配方法 Download PDF

Info

Publication number
CN104504706A
CN104504706A CN201410828340.3A CN201410828340A CN104504706A CN 104504706 A CN104504706 A CN 104504706A CN 201410828340 A CN201410828340 A CN 201410828340A CN 104504706 A CN104504706 A CN 104504706A
Authority
CN
China
Prior art keywords
spectrogram
mass
standard
vector
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410828340.3A
Other languages
English (en)
Inventor
赵学玒
汪曣
杜康
蒋学慧
孙传强
孙运
宋爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410828340.3A priority Critical patent/CN104504706A/zh
Publication of CN104504706A publication Critical patent/CN104504706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种气相色谱质谱谱图匹配方法,包括下列步骤:根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;对质谱数据库里的标准质谱图进行筛选;峰强度比例缩放;采用基于向量空间模型的方法进行谱图的相似性计算;根据计算结果进行谱图匹配。本发明具有较好的匹配性能。

Description

一种气相色谱质谱谱图匹配方法
技术领域
本发明涉及一种气相色谱-质谱联用仪(GC-MS)。
背景技术
应用气相色谱-质谱联用仪对混合物样品进行定性分析,首先要对采集到的GC-MS原始数据进行分析,并提取干净的质谱图,然后需要将它们与质谱库中的标准谱图进行对比,通过比较未知物质谱图与标准质谱图的相似程度来确定该样品包含何种成分,最终实现定性分析。由于每次分析实验都会产生大量的数据和质谱图,并且质谱库中存有成千上万的标准谱图,若仅采用人工鉴定的方法对未知物进行判定,将是一项非常耗费时间和人力的工作。因此,有必要采用计算机辅助的形式代替人工鉴定的方式,以实现对混合物样品正确、快速、可靠的定性分析,该方法仅需要低分辨率的质谱图即可实现未知物的鉴定。实现计算机辅助定性分析的关键技术是质谱谱库检索算法的实现。
目前,大部分的商用气相色谱-质谱联用仪都带有自己的质谱数据库检索系统,以实现计算机辅助定性分析。其中,检索算法的实现是检索系统的重要组成部分,检索算法的研究对提高GC-MS定性性能发挥着重要的作用。
质谱谱库检索原理包含三部分,分别是质谱图的简化及编码、标准质谱库的建立、检索算法的实现。在不损失质谱图的重要信息及不影响定性分析的情况下对质谱图进行简化及编码,主要目的是减少存储空间并提高检索速度。另外,实现质谱库检索的前提是标准质谱数据库的建立。标准质谱数据库中保存了在标准电离条件下得到的已知化合物的标准质谱图,同时也存储了化合物的名称、分子式、结构等信息。应用一定的检索算法,比较标准电离条件下得到的未知化合物的质谱图与标准谱图库的质谱图的相似性,并将检索结果按照相似程度的大小排列,质谱图的相似程度越高,说明两者越可能是同一种物质,通常用匹配因子表示质谱图的相似程度,检索结果是按照匹配因子的大小排列的。
质谱数据库检索类型主要有两种,一种是“一致性”检索,另一种是“相似性”检索。在“一致性”检索中,假设标准质谱数据库中包含未知物的谱图。“相似性”检索则是假设标准质谱数据库中不包含未知物的谱图。通常情况下检索方法均为“一致性”检索。质谱数据库检索系统通过计算质谱数据库中的标准质谱图与未知物质谱图的相似程度,并将检索的结果按照匹配因子的大小排列,匹配因子越大,说明两个谱图越相似,质谱数据库中参考物与未知物越有可能是同一种物质。
质谱数据库检索算法主要包括数据预处理和质谱图相似性计算两步。首先,需要对质谱图进行预处理以提高检索速度,数据预处理主要包括谱峰选择、峰强度的比例缩放。质谱图相似性计算的方法有多种,如两幅质谱图中峰强差的平方和、两幅质谱图中峰强差的绝对值之和、两谱峰向量间夹角的计算等。质谱数据库的检索模式主要有两种,分别是正检索与反检索。在正检索中,在计算匹配因子时,未知物与标准质谱图中的所有质谱峰全部参与计算。而在反检索中,只有在未知物质谱图中出现而未在标准质谱图中出现的质谱峰不参与计算。
发明内容
本发明的目的是提出一种可以提高匹配准确性的GC-MS匹配方法,以提高其定性分析的能力。本发明的技术方案如下:
一种气相色谱质谱谱图匹配方法,包括下列步骤:
(1)根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;
(2)对质谱数据库里的标准质谱图进行筛选:将未知物质谱图中的最强锋与质谱库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较为止,若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉;
(3)峰强度比例缩放:一张质谱图中包含质荷比m/z和强度I两个信息,一张质谱图的特征也是由m/z和I共同决定的,对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放,谱图强度比例缩放的权重因子为(m/x)3I05
(4)采用基于向量空间模型的方法进行谱图的相似性计算,方法如下:
a)将每幅质谱图都可以表示成一个n维向量(w1,w2,...,wn),其中,n表示质量数的个数,向量的每个分量wi表示与第i个质量数相对应的权重值,即将未知物质谱图与质谱库的标准质谱图都表示成向量形式,未知物质谱图的向量表示形式MS=(wS1,wS2,...wSm),其中,是未知物质谱图中第i个质量数对应的权重值,标准质谱图的向量表示形式MR=(wR1,wR2,...wRn),其中,是标准质谱图中第i个质量数对应的权重值;
b)采用基于p范数的相似度计算未知物质谱图与标准质谱图的相似程度,未知物质谱图向量MS与标准质谱图向量MR之间的相似度计算公式为
c)计算得到的Fd的值越大,表明未知物质谱图向量MS和标准质谱图向量MR越相似,从而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一种物质;
(5)根据计算结果进行谱图匹配。
本发明给出的谱图匹配方法,将未知物质谱图和标准质谱库中的质谱图均表示成向量形式,通过计算向量之间的相似性来确定质谱图间的相似程度。两个向量的相似性计算采用的是基于p范数的计算公式。
具体实施方式
本发明采用的检索算法主要分为以下几个步骤。
1、谱图筛选
质谱数据库中存储了大量的标准质谱图,如果计算未知物质谱图与所有的标准谱图的匹配因子,势必会影响检索速度。因此,有必要在检索之前对质谱数据库里的标准质谱图进行筛选,去掉一些不相似的质谱图。本发明采用的筛选算法是首先将未知物质谱图中的最强锋与质谱库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较为止[2]。若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉。
2、峰强度比例缩放
一张质谱图中包含质荷比(m/z)和强度(I)两个信息,一张质谱图的特征也是由m/z和I共同决定的。因此,在设计检索算法时需要同时考虑质荷比和强度信息,一般来讲,强度大的峰比强度小的峰重要,高质量端的质量比低质量端的质量重要,质荷比比强度信息更重要。因此,为了达到更好的检索效果,在计算谱图相似性之前,需要对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放,强度比例缩放的公式为(m/z)nIm。n和m的取值大小直接影响最后的检索结果。律俊祥等人提出的检索算法以为权重因子对峰强进行比例缩放,扈庆等人提出的算法以(m/z)I为权重因子进行比例缩放,两种检索算法得到的检索结果均不够理想。本发明中,采用的是n=3和m=0.5,谱图强度比例缩放的权重因子为(m/z)3I0.5
3、谱图的相似性计算
本发明相似性计算方法采用的是基于向量空间模型的方法。质谱数据可以以向量的形式表示。每幅质谱图都可以表示成一个n维向量(w1,w2,...,wn),其中,n表示质量数的个数,向量的每个分量wi表示与第i个质量数相对应的权重值,即将未知物质谱图与质谱库的标准质谱图都表示成向量形式,如式(1)和式(2)所示。
ΜS=(wS1,wS2,...wSm)     (1)
MS是未知物质谱图的向量表示形式,其中,是未知物质谱图中第i个质量数对应的权重值。
MR=(wR1,wR2,...wRn)       (2)
MR是标准质谱图的向量表示形式,其中,是标准质谱图中第i个质量数对应的权重值。
未知物质谱图与标准质谱图的相似程度可以利用向量MS和向量MR之间相似度的计算方法来计算。向量之间的相似度计算方法主要有三种,分别是内积相似度计算、余弦相似度计算和基于p范数的相似度计算。向量Q=(wq1,wq2,...,wqn)与向量D=(wd1,wd2,...,wdn)的相似度计算如表(1)所示。
表1 向量的相似度方法
基于向量之间相似度的计算方法,本发明中未知物谱图向量MS和标准谱图向量MR之间的相似度计算采用基于p范数的相似度计算公式。由于未知物谱图向量与标准谱图向量的维数不能确保一致,并且它们的每个分量对应的质量数也不能确保一致,因此,首要需要对向量MS和向量MR进行扩充,以保证两个向量的维数及每个分量对应的质量数一致。假设未知物质谱图中的质量数集合为mS={(m/z)S1,(m/z)S2,...(m/z)Sm},强度集合为IS={IS1,IS2,...ISn}。标准质谱图中的质量数集合为mR={(m/z)R1,(m/z)R2,...(m/z)Rn},强度集合为IR={IR1,IR2,...IRn},取未知物质谱图的质量数集合mS与标准谱图的质量数集合mR的并集mU={(m/z)1,(m/z)2...(m/z)u},并设mU中的元素个数为u个。
那么以mU作为质量数集合,未知物质谱图的向量MS可以写成下列形式。
ΜS=(wS1,wS2,...wSu)     (3)
式中,wSi为质量数(m/z)i对应的权重值,它的值如式(4)所示。
w Si = ( m / z ) i 3 I i 0.5 , ( m / z ) i ∈ m S w Si = 0 , ( m / z ) i ∉ m S - - - ( 4 )
以mU作为质量数集合,标准质谱图的向量MR可以写成
ΜR=(wR1,wR2,...wRu)       (5)
式中,wRi为质量数(m/z)i对应的权重值,它的值如式(6)所示。
w Ri = ( m / z ) i 3 I i 0.5 , ( m / z ) i ∈ m R w Ri = 0 , ( m / z ) i ∉ m R - - - ( 6 )
根据表(1)中基于p范数的向量相似度计算公式,未知物质谱图向量MS与标准质谱图向量MR之间的相似度计算公式如式(7)所示。
F d = [ Σ i = 1 u | w Si - w Ri | p ] 1 p - - - ( 7 )
计算得到的Fd的值越大,表明未知物质谱图向量MS和标准质谱图向量MR越相似,从而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一种物质。
下面通过实验对本发明提出的谱图检索方法进行验证。
实验选用的主要仪器:气相色谱-质谱联用仪,美国Agilent公司产品,型号7890A/5975C,配有电子轰击离子源(EI)及MSD Productivity ChemStation。
试验样品:DDV STD,在对该样品的GC-MS数据,进行了纯净质谱图的提取后,提取出九种成分。分别用NIST05自带的检索软件和自编检索算法对其中几种成分进行定性分析,其中自编库中的标准谱图来源于NIST05质谱库,共20000张质谱图,基于p范数的向量相似度计算公式中p取值为2。检索结果对比如表(2)所示。
表2NIST05与自编算法的检索结果
(a)Pyridinium,1-(carboxymethyl)-,hydroxide,inner salt
(b)1H-pyrrole,2,3-dimethyl-
(c)Borazine,2-methyl-
(d)3-Buten-2-one,4-(2-furanyl)-
(e)Carbonic acid,1-methylethyl phenyl ester
(f)1,3,2-Dioxathiolane,4,dimethyl-,2-oxide
表(2)中NIST05质谱数据库的复制库是对主库的补充,两者包含相同的物质在不同的仪器条件下得到的标准质谱图。由表(2)中的结果可以看出,自编检索算法的前五位检索结果与NIST05自带检索软件的检索结果具有高度的一致性,可以实现正确的定性分析,表明自编的检索算法可以达到较好的检索性能。

Claims (1)

1.一种气相色谱质谱谱图匹配方法,包括下列步骤:
(1)根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;
(2)对质谱数据库里的标准质谱图进行筛选:将未知物质谱图中的最强锋与质谱库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较为止,若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉;
(3)峰强度比例缩放:一张质谱图中包含质荷比m/z和强度I两个信息,一张质谱图的特征也是由m/z和I共同决定的,对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放,谱图强度比例缩放的权重因子为(m/z)3I0.5
(4)采用基于向量空间模型的方法进行谱图的相似性计算,方法如下:
a)将每幅质谱图都可以表示成一个n维向量(w1,w2,...,wn),其中,n表示质量数的个数,向量的每个分量wi表示与第i个质量数相对应的权重值,即;将未知物质谱图与质谱库的标准质谱图都表示成向量形式,未知物质谱图的向量表示形式MS=(wS1,wS2,...wSm),其中,是未知物质谱图中第i个质量数对应的权重值,标准质谱图的向量表示形式MR=(wR1,wR2,...wRn),其中,是标准质谱图中第i个质量数对应的权重值;
b)采用基于p范数的相似度计算未知物质谱图与标准质谱图的相似程度,未知物质谱图向量MS与标准质谱图向量MR之间的相似度计算公式为
c)计算得到的Fd的值越大,表明未知物质谱图向量MS和标准质谱图向量MR越相似,从而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一种物质;
(5)根据计算结果进行谱图匹配。
CN201410828340.3A 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法 Pending CN104504706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410828340.3A CN104504706A (zh) 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410828340.3A CN104504706A (zh) 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法

Publications (1)

Publication Number Publication Date
CN104504706A true CN104504706A (zh) 2015-04-08

Family

ID=52946100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410828340.3A Pending CN104504706A (zh) 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法

Country Status (1)

Country Link
CN (1) CN104504706A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650779A (zh) * 2016-10-17 2017-05-10 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN108139356A (zh) * 2015-09-25 2018-06-08 株式会社岛津制作所 用于定性分析的质谱分析数据处理装置
CN108351331A (zh) * 2015-11-05 2018-07-31 株式会社岛津制作所 色谱质谱分析数据处理方法以及处理装置
CN109932436A (zh) * 2017-12-19 2019-06-25 湖南中烟工业有限责任公司 一种基于特征质谱图谱的数字化辨香方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103115991A (zh) * 2013-02-26 2013-05-22 湖南中烟工业有限责任公司 一种针对混合物质质谱图的谱库筛选方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103115991A (zh) * 2013-02-26 2013-05-22 湖南中烟工业有限责任公司 一种针对混合物质质谱图的谱库筛选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄超: "《气相色谱-谱联用仪关键技术的研究》", 《中国博士学位论文全文数据库工程科技I辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108139356A (zh) * 2015-09-25 2018-06-08 株式会社岛津制作所 用于定性分析的质谱分析数据处理装置
CN108351331A (zh) * 2015-11-05 2018-07-31 株式会社岛津制作所 色谱质谱分析数据处理方法以及处理装置
CN106650779A (zh) * 2016-10-17 2017-05-10 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN106650779B (zh) * 2016-10-17 2019-10-25 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN109932436A (zh) * 2017-12-19 2019-06-25 湖南中烟工业有限责任公司 一种基于特征质谱图谱的数字化辨香方法
CN109932436B (zh) * 2017-12-19 2022-04-12 湖南中烟工业有限责任公司 一种基于特征质谱图谱的数字化辨香方法

Similar Documents

Publication Publication Date Title
CN104303258B (zh) 用于得到增强的质谱数据的方法和装置
Fenaille et al. Data acquisition workflows in liquid chromatography coupled to high resolution mass spectrometry-based metabolomics: Where do we stand?
CN104572910A (zh) 一种基于向量模型的气相色谱质谱谱图检索方法
Thomas et al. Dimensionality reduction of mass spectrometry imaging data using autoencoders
Toprak et al. Conserved peptide fragmentation as a benchmarking tool for mass spectrometers and a discriminating feature for targeted proteomics
JP5542433B2 (ja) イオン検出およびn次元データのパラメータ推定
Katajamaa et al. Data processing for mass spectrometry-based metabolomics
US8615369B2 (en) Method of improving the resolution of compounds eluted from a chromatography device
CN104122210B (zh) 一种基于最佳指数‑相关系数法的高光谱波段提取方法
Boskamp et al. A new classification method for MALDI imaging mass spectrometry data acquired on formalin-fixed paraffin-embedded tissue samples
JP2008519262A (ja) 定性的なおよび定量的な質量スペクトル分析
CN105574474A (zh) 一种基于质谱信息的生物特征图像识别方法
CN104504706A (zh) 一种气相色谱质谱谱图匹配方法
CN103959426B (zh) 用于通过质谱术识别微生物的方法
CN103235057A (zh) 一种利用气相色谱-质谱不解析化合物鉴别白酒原产地的方法
US11378561B2 (en) Automated spectral library retention time correction
JP2024526079A (ja) 質量スペクトル中の分子種を同定するための方法及び装置
CN105528580A (zh) 一种基于吸收峰特征的高光谱曲线匹配方法
WO2007092575A2 (en) A two-step method to align three dimensional lc-ms chromatographic surfaces
Wang et al. Effect of preprocessing high-resolution mass spectra on the pattern recognition of Cannabis, hemp, and liquor
CN104267108A (zh) 一种基于mrem化学计量法与色谱联用的中药成分分析方法
Li et al. An effective two-stage spectral library search approach based on lifting wavelet decomposition for complicated mass spectra
CN104502495A (zh) 一种气相色谱质谱纯净谱图提取方法
US11181511B2 (en) Rapid scoring of LC-MS/MS peptide data
US20150032383A1 (en) Method and system for filtering gas chromatography-mass spectrometry data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150408

WD01 Invention patent application deemed withdrawn after publication