CN104504706A - 一种气相色谱质谱谱图匹配方法 - Google Patents

一种气相色谱质谱谱图匹配方法 Download PDF

Info

Publication number
CN104504706A
CN104504706A CN201410828340.3A CN201410828340A CN104504706A CN 104504706 A CN104504706 A CN 104504706A CN 201410828340 A CN201410828340 A CN 201410828340A CN 104504706 A CN104504706 A CN 104504706A
Authority
CN
China
Prior art keywords
spectrogram
mass
standard
vector
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410828340.3A
Other languages
English (en)
Inventor
赵学玒
汪曣
杜康
蒋学慧
孙传强
孙运
宋爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410828340.3A priority Critical patent/CN104504706A/zh
Publication of CN104504706A publication Critical patent/CN104504706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种气相色谱质谱谱图匹配方法,包括下列步骤:根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;对质谱数据库里的标准质谱图进行筛选;峰强度比例缩放;采用基于向量空间模型的方法进行谱图的相似性计算;根据计算结果进行谱图匹配。本发明具有较好的匹配性能。

Description

一种气相色谱质谱谱图匹配方法
技术领域
本发明涉及一种气相色谱-质谱联用仪(GC-MS)。
背景技术
应用气相色谱-质谱联用仪对混合物样品进行定性分析,首先要对采集到的GC-MS原始数据进行分析,并提取干净的质谱图,然后需要将它们与质谱库中的标准谱图进行对比,通过比较未知物质谱图与标准质谱图的相似程度来确定该样品包含何种成分,最终实现定性分析。由于每次分析实验都会产生大量的数据和质谱图,并且质谱库中存有成千上万的标准谱图,若仅采用人工鉴定的方法对未知物进行判定,将是一项非常耗费时间和人力的工作。因此,有必要采用计算机辅助的形式代替人工鉴定的方式,以实现对混合物样品正确、快速、可靠的定性分析,该方法仅需要低分辨率的质谱图即可实现未知物的鉴定。实现计算机辅助定性分析的关键技术是质谱谱库检索算法的实现。
目前,大部分的商用气相色谱-质谱联用仪都带有自己的质谱数据库检索系统,以实现计算机辅助定性分析。其中,检索算法的实现是检索系统的重要组成部分,检索算法的研究对提高GC-MS定性性能发挥着重要的作用。
质谱谱库检索原理包含三部分,分别是质谱图的简化及编码、标准质谱库的建立、检索算法的实现。在不损失质谱图的重要信息及不影响定性分析的情况下对质谱图进行简化及编码,主要目的是减少存储空间并提高检索速度。另外,实现质谱库检索的前提是标准质谱数据库的建立。标准质谱数据库中保存了在标准电离条件下得到的已知化合物的标准质谱图,同时也存储了化合物的名称、分子式、结构等信息。应用一定的检索算法,比较标准电离条件下得到的未知化合物的质谱图与标准谱图库的质谱图的相似性,并将检索结果按照相似程度的大小排列,质谱图的相似程度越高,说明两者越可能是同一种物质,通常用匹配因子表示质谱图的相似程度,检索结果是按照匹配因子的大小排列的。
质谱数据库检索类型主要有两种,一种是“一致性”检索,另一种是“相似性”检索。在“一致性”检索中,假设标准质谱数据库中包含未知物的谱图。“相似性”检索则是假设标准质谱数据库中不包含未知物的谱图。通常情况下检索方法均为“一致性”检索。质谱数据库检索系统通过计算质谱数据库中的标准质谱图与未知物质谱图的相似程度,并将检索的结果按照匹配因子的大小排列,匹配因子越大,说明两个谱图越相似,质谱数据库中参考物与未知物越有可能是同一种物质。
质谱数据库检索算法主要包括数据预处理和质谱图相似性计算两步。首先,需要对质谱图进行预处理以提高检索速度,数据预处理主要包括谱峰选择、峰强度的比例缩放。质谱图相似性计算的方法有多种,如两幅质谱图中峰强差的平方和、两幅质谱图中峰强差的绝对值之和、两谱峰向量间夹角的计算等。质谱数据库的检索模式主要有两种,分别是正检索与反检索。在正检索中,在计算匹配因子时,未知物与标准质谱图中的所有质谱峰全部参与计算。而在反检索中,只有在未知物质谱图中出现而未在标准质谱图中出现的质谱峰不参与计算。
发明内容
本发明的目的是提出一种可以提高匹配准确性的GC-MS匹配方法,以提高其定性分析的能力。本发明的技术方案如下:
一种气相色谱质谱谱图匹配方法,包括下列步骤:
(1)根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;
(2)对质谱数据库里的标准质谱图进行筛选:将未知物质谱图中的最强锋与质谱库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较为止,若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉;
(3)峰强度比例缩放:一张质谱图中包含质荷比m/z和强度I两个信息,一张质谱图的特征也是由m/z和I共同决定的,对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放,谱图强度比例缩放的权重因子为(m/x)3I05
(4)采用基于向量空间模型的方法进行谱图的相似性计算,方法如下:
a)将每幅质谱图都可以表示成一个n维向量(w1,w2,...,wn),其中,n表示质量数的个数,向量的每个分量wi表示与第i个质量数相对应的权重值,即将未知物质谱图与质谱库的标准质谱图都表示成向量形式,未知物质谱图的向量表示形式MS=(wS1,wS2,...wSm),其中,是未知物质谱图中第i个质量数对应的权重值,标准质谱图的向量表示形式MR=(wR1,wR2,...wRn),其中,是标准质谱图中第i个质量数对应的权重值;
b)采用基于p范数的相似度计算未知物质谱图与标准质谱图的相似程度,未知物质谱图向量MS与标准质谱图向量MR之间的相似度计算公式为
c)计算得到的Fd的值越大,表明未知物质谱图向量MS和标准质谱图向量MR越相似,从而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一种物质;
(5)根据计算结果进行谱图匹配。
本发明给出的谱图匹配方法,将未知物质谱图和标准质谱库中的质谱图均表示成向量形式,通过计算向量之间的相似性来确定质谱图间的相似程度。两个向量的相似性计算采用的是基于p范数的计算公式。
具体实施方式
本发明采用的检索算法主要分为以下几个步骤。
1、谱图筛选
质谱数据库中存储了大量的标准质谱图,如果计算未知物质谱图与所有的标准谱图的匹配因子,势必会影响检索速度。因此,有必要在检索之前对质谱数据库里的标准质谱图进行筛选,去掉一些不相似的质谱图。本发明采用的筛选算法是首先将未知物质谱图中的最强锋与质谱库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较为止[2]。若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉。
2、峰强度比例缩放
一张质谱图中包含质荷比(m/z)和强度(I)两个信息,一张质谱图的特征也是由m/z和I共同决定的。因此,在设计检索算法时需要同时考虑质荷比和强度信息,一般来讲,强度大的峰比强度小的峰重要,高质量端的质量比低质量端的质量重要,质荷比比强度信息更重要。因此,为了达到更好的检索效果,在计算谱图相似性之前,需要对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放,强度比例缩放的公式为(m/z)nIm。n和m的取值大小直接影响最后的检索结果。律俊祥等人提出的检索算法以为权重因子对峰强进行比例缩放,扈庆等人提出的算法以(m/z)I为权重因子进行比例缩放,两种检索算法得到的检索结果均不够理想。本发明中,采用的是n=3和m=0.5,谱图强度比例缩放的权重因子为(m/z)3I0.5
3、谱图的相似性计算
本发明相似性计算方法采用的是基于向量空间模型的方法。质谱数据可以以向量的形式表示。每幅质谱图都可以表示成一个n维向量(w1,w2,...,wn),其中,n表示质量数的个数,向量的每个分量wi表示与第i个质量数相对应的权重值,即将未知物质谱图与质谱库的标准质谱图都表示成向量形式,如式(1)和式(2)所示。
ΜS=(wS1,wS2,...wSm)     (1)
MS是未知物质谱图的向量表示形式,其中,是未知物质谱图中第i个质量数对应的权重值。
MR=(wR1,wR2,...wRn)       (2)
MR是标准质谱图的向量表示形式,其中,是标准质谱图中第i个质量数对应的权重值。
未知物质谱图与标准质谱图的相似程度可以利用向量MS和向量MR之间相似度的计算方法来计算。向量之间的相似度计算方法主要有三种,分别是内积相似度计算、余弦相似度计算和基于p范数的相似度计算。向量Q=(wq1,wq2,...,wqn)与向量D=(wd1,wd2,...,wdn)的相似度计算如表(1)所示。
表1 向量的相似度方法
基于向量之间相似度的计算方法,本发明中未知物谱图向量MS和标准谱图向量MR之间的相似度计算采用基于p范数的相似度计算公式。由于未知物谱图向量与标准谱图向量的维数不能确保一致,并且它们的每个分量对应的质量数也不能确保一致,因此,首要需要对向量MS和向量MR进行扩充,以保证两个向量的维数及每个分量对应的质量数一致。假设未知物质谱图中的质量数集合为mS={(m/z)S1,(m/z)S2,...(m/z)Sm},强度集合为IS={IS1,IS2,...ISn}。标准质谱图中的质量数集合为mR={(m/z)R1,(m/z)R2,...(m/z)Rn},强度集合为IR={IR1,IR2,...IRn},取未知物质谱图的质量数集合mS与标准谱图的质量数集合mR的并集mU={(m/z)1,(m/z)2...(m/z)u},并设mU中的元素个数为u个。
那么以mU作为质量数集合,未知物质谱图的向量MS可以写成下列形式。
ΜS=(wS1,wS2,...wSu)     (3)
式中,wSi为质量数(m/z)i对应的权重值,它的值如式(4)所示。
w Si = ( m / z ) i 3 I i 0.5 , ( m / z ) i ∈ m S w Si = 0 , ( m / z ) i ∉ m S - - - ( 4 )
以mU作为质量数集合,标准质谱图的向量MR可以写成
ΜR=(wR1,wR2,...wRu)       (5)
式中,wRi为质量数(m/z)i对应的权重值,它的值如式(6)所示。
w Ri = ( m / z ) i 3 I i 0.5 , ( m / z ) i ∈ m R w Ri = 0 , ( m / z ) i ∉ m R - - - ( 6 )
根据表(1)中基于p范数的向量相似度计算公式,未知物质谱图向量MS与标准质谱图向量MR之间的相似度计算公式如式(7)所示。
F d = [ Σ i = 1 u | w Si - w Ri | p ] 1 p - - - ( 7 )
计算得到的Fd的值越大,表明未知物质谱图向量MS和标准质谱图向量MR越相似,从而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一种物质。
下面通过实验对本发明提出的谱图检索方法进行验证。
实验选用的主要仪器:气相色谱-质谱联用仪,美国Agilent公司产品,型号7890A/5975C,配有电子轰击离子源(EI)及MSD Productivity ChemStation。
试验样品:DDV STD,在对该样品的GC-MS数据,进行了纯净质谱图的提取后,提取出九种成分。分别用NIST05自带的检索软件和自编检索算法对其中几种成分进行定性分析,其中自编库中的标准谱图来源于NIST05质谱库,共20000张质谱图,基于p范数的向量相似度计算公式中p取值为2。检索结果对比如表(2)所示。
表2NIST05与自编算法的检索结果
(a)Pyridinium,1-(carboxymethyl)-,hydroxide,inner salt
(b)1H-pyrrole,2,3-dimethyl-
(c)Borazine,2-methyl-
(d)3-Buten-2-one,4-(2-furanyl)-
(e)Carbonic acid,1-methylethyl phenyl ester
(f)1,3,2-Dioxathiolane,4,dimethyl-,2-oxide
表(2)中NIST05质谱数据库的复制库是对主库的补充,两者包含相同的物质在不同的仪器条件下得到的标准质谱图。由表(2)中的结果可以看出,自编检索算法的前五位检索结果与NIST05自带检索软件的检索结果具有高度的一致性,可以实现正确的定性分析,表明自编的检索算法可以达到较好的检索性能。

Claims (1)

1.一种气相色谱质谱谱图匹配方法,包括下列步骤:
(1)根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;
(2)对质谱数据库里的标准质谱图进行筛选:将未知物质谱图中的最强锋与质谱库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较为止,若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉;
(3)峰强度比例缩放:一张质谱图中包含质荷比m/z和强度I两个信息,一张质谱图的特征也是由m/z和I共同决定的,对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放,谱图强度比例缩放的权重因子为(m/z)3I0.5
(4)采用基于向量空间模型的方法进行谱图的相似性计算,方法如下:
a)将每幅质谱图都可以表示成一个n维向量(w1,w2,...,wn),其中,n表示质量数的个数,向量的每个分量wi表示与第i个质量数相对应的权重值,即;将未知物质谱图与质谱库的标准质谱图都表示成向量形式,未知物质谱图的向量表示形式MS=(wS1,wS2,...wSm),其中,是未知物质谱图中第i个质量数对应的权重值,标准质谱图的向量表示形式MR=(wR1,wR2,...wRn),其中,是标准质谱图中第i个质量数对应的权重值;
b)采用基于p范数的相似度计算未知物质谱图与标准质谱图的相似程度,未知物质谱图向量MS与标准质谱图向量MR之间的相似度计算公式为
c)计算得到的Fd的值越大,表明未知物质谱图向量MS和标准质谱图向量MR越相似,从而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一种物质;
(5)根据计算结果进行谱图匹配。
CN201410828340.3A 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法 Pending CN104504706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410828340.3A CN104504706A (zh) 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410828340.3A CN104504706A (zh) 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法

Publications (1)

Publication Number Publication Date
CN104504706A true CN104504706A (zh) 2015-04-08

Family

ID=52946100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410828340.3A Pending CN104504706A (zh) 2014-12-26 2014-12-26 一种气相色谱质谱谱图匹配方法

Country Status (1)

Country Link
CN (1) CN104504706A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650779A (zh) * 2016-10-17 2017-05-10 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN108139356A (zh) * 2015-09-25 2018-06-08 株式会社岛津制作所 用于定性分析的质谱分析数据处理装置
CN108351331A (zh) * 2015-11-05 2018-07-31 株式会社岛津制作所 色谱质谱分析数据处理方法以及处理装置
CN109932436A (zh) * 2017-12-19 2019-06-25 湖南中烟工业有限责任公司 一种基于特征质谱图谱的数字化辨香方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103115991A (zh) * 2013-02-26 2013-05-22 湖南中烟工业有限责任公司 一种针对混合物质质谱图的谱库筛选方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103115991A (zh) * 2013-02-26 2013-05-22 湖南中烟工业有限责任公司 一种针对混合物质质谱图的谱库筛选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄超: "《气相色谱-谱联用仪关键技术的研究》", 《中国博士学位论文全文数据库工程科技I辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108139356A (zh) * 2015-09-25 2018-06-08 株式会社岛津制作所 用于定性分析的质谱分析数据处理装置
CN108351331A (zh) * 2015-11-05 2018-07-31 株式会社岛津制作所 色谱质谱分析数据处理方法以及处理装置
CN106650779A (zh) * 2016-10-17 2017-05-10 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN106650779B (zh) * 2016-10-17 2019-10-25 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN109932436A (zh) * 2017-12-19 2019-06-25 湖南中烟工业有限责任公司 一种基于特征质谱图谱的数字化辨香方法
CN109932436B (zh) * 2017-12-19 2022-04-12 湖南中烟工业有限责任公司 一种基于特征质谱图谱的数字化辨香方法

Similar Documents

Publication Publication Date Title
CN104303258B (zh) 用于得到增强的质谱数据的方法和装置
Rasmussen et al. A tutorial on the Lasso approach to sparse modeling
Kang et al. Bayesian inference for the spatial random effects model
CN104504706A (zh) 一种气相色谱质谱谱图匹配方法
US20040196287A1 (en) Dynamic visualization of data streams
US20120150890A1 (en) Method of searching for multimedia contents and apparatus therefor
CN104572910A (zh) 一种基于向量模型的气相色谱质谱谱图检索方法
JP2013537312A5 (zh)
GB2534535A (en) Data structuring and searching methods and apparatus
Orozco-Alzate et al. The DTW-based representation space for seismic pattern classification
Klerk et al. Extended data analysis strategies for high resolution imaging MS: New methods to deal with extremely large image hyperspectral datasets
Rüger et al. Comprehensive chemical comparison of fuel composition and aerosol particles emitted from a ship diesel engine by gas chromatography atmospheric pressure chemical ionisation ultra-high resolution mass spectrometry with improved data processing routines
Mahbub et al. Positive-parity excited states of the nucleon in quenched lattice QCD
Clapham Ordination methods and the evaluation of Ediacaran communities
Dobigeon et al. Robust nonnegative matrix factorization for nonlinear unmixing of hyperspectral images
Hu et al. Retrieval of crop chlorophyll content and leaf area index from decompressed hyperspectral data: the effects of data compression
VukovicÌ New multiway model for identification of crude oil and asphaltene origin based on diffusion-ordered nuclear magnetic resonance spectroscopy
Shan Robust RFI Excision for Pulsar Signals by a Novel Nonlinear M-type Estimator with an Application to Pulsar Timing
Wang et al. Feature selection of gas chromatography/mass spectrometry chemical profiles of basil plants using a bootstrapped fuzzy rule-building expert system
Boucher et al. Manifold preprocessing for laser‐induced breakdown spectroscopy under Mars conditions
Li et al. A LLS operator based S‐I WT de‐noising algorithm applied in EDXRF
CN102054273B (zh) 基于单形体三角分解的高光谱遥感图像混合像元分解方法
Sun et al. Tree phytochemical diversity and herbivory are higher in the tropics
Li et al. Linearly supporting feature extraction for automated estimation of stellar atmospheric parameters
CN107179292B (zh) 不同近红外光谱变量优选结果融合方法及应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150408