CN106650779B - 谱图相似度的计算方法 - Google Patents

谱图相似度的计算方法 Download PDF

Info

Publication number
CN106650779B
CN106650779B CN201610905235.4A CN201610905235A CN106650779B CN 106650779 B CN106650779 B CN 106650779B CN 201610905235 A CN201610905235 A CN 201610905235A CN 106650779 B CN106650779 B CN 106650779B
Authority
CN
China
Prior art keywords
spectrogram
peak
euclidean distance
similarity
calculation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610905235.4A
Other languages
English (en)
Other versions
CN106650779A (zh
Inventor
乔振刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuanming (Ningbo) Chemical Technology Co., Ltd
Original Assignee
Zhejiang Spectrum Biological Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Spectrum Biological Technology Co Ltd filed Critical Zhejiang Spectrum Biological Technology Co Ltd
Priority to CN201610905235.4A priority Critical patent/CN106650779B/zh
Publication of CN106650779A publication Critical patent/CN106650779A/zh
Application granted granted Critical
Publication of CN106650779B publication Critical patent/CN106650779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种谱图相似度的计算方法,可以综合评价样品谱图与标准谱图相似度的方法,既能反映待评价样品谱图与标准谱图之间共峰的相似性,也考虑了非共峰数目及其大小对相似度评价的影响,能整体反映谱图之间的相似程度,该相似度的大小能够灵敏地表达样品谱图与标准谱图的定性和定量差异,可靠地鉴定待评价样品。

Description

谱图相似度的计算方法
技术领域
本发明涉及谱图,特别涉及谱图相似度的计算方法。
背景技术
谱图的匹配比对在生物医学、化学、物理学等领域中有着广泛的应用。
在血液细菌感染(菌血症)的细菌鉴定工作中,由于患者的临床表现不典型,给感染的诊断带来困难。目前,临床上菌血症诊断的金标准是血液细菌培养法,但血液培养的阳性率极低从而导致延误治疗。相比之下,质谱谱图法准确度高、稳定性好、操作简单,易于临床推广。从1990年代起,基质辅助激光解析电离源飞行时间质谱(MALDI-TOF-MS)被用于细菌鉴定[R.D.Holland,J.G.Wilkes,F.Rafii,J.B.Sutherland,C.C.Persons,K.J.Voorhees,J.O.Lay,Rapid Communications in Mass Spectrometry 1996,10,1227-1232;M.A.Claydon,S.N.Davey,V.EdwardsJones,D.B.Gordon,Nature Biotechnology1996,14,1584-1586.]。通过分析不同的细菌,科学家发现从完整的细菌细胞中可以得到具有指纹特征性的质谱图。通过记录多种单一纯细菌的指纹质谱图可以构建细菌鉴定所需的生物特征数据库。之后通过比对临床样本中采集的细菌的MALDI-TOF-MS指纹质谱图,可以实现细菌种类的鉴定[A.Croxatto,G.Prod'hom,G.Greub,Fems Microbiology Reviews2012,36,380-407;T.R.Sandrin,J.E.Goldstein,S.Schumaker,Mass SpectrometryReviews 2013,32,188-217.]。
谱图匹配也广泛用于蛋白质测序工作。肽段质量指纹谱图(peptide massfingerprint)匹配法用于蛋白酶解产物的质谱分析,根据数据库中已有蛋白的序列及酶解反应特征可以生成单个蛋白的理论肽段列表暨理论标准谱图,通过比对实验谱图可以实现未知蛋白的鉴定。[Webster J,Oxley D,Methods Mol Biol 2005,310,227-240.]蛋白质组学中常使用的“鸟枪法”(shotgun)也是依赖于质谱图的匹配完成的,如基于二级碎片质谱图的肽谱匹配打分和蛋白质鉴定。[Fernández-Puente P,Mateos J,Blanco FJ,Ruiz-Romero C,Methods Mol Biol 2014,1156,27-38.]质谱匹配已经成为当今蛋白质鉴定中至关重要的技术手段。
基于谱学方法的检测、鉴定中最为关键的一步是实验样本和标准样本的谱图匹配。近年来发展了多种用于谱图匹配的打分方法。Seongho Kim和Xiang Zhang研究了质谱图相似性打分的夹角余弦法、皮尔森和斯皮尔曼相关系数法、偏相关与部分相关系数法。[S.Kim,X.Zhang,Computational&Mathematical Methods in Medicine 2013,9,399-412]但是现有谱图相似度打分方法灵敏度不高,导致谱图鉴定的可靠性不足。
发明内容
本发明为了克服现有技术的至少一个不足,提供一种谱图相似度的计算方法,以实现鉴定可靠性高的目的。
为了实现上述目的,本发明采用以下技术方案:
一种谱图相似度的计算方法,所述方法包括以下步骤:
一种谱图相似度算法,它包括以下步骤:
(1)预处理。根据实验谱图得到峰列表,这些峰列表均包含峰值质核比x、强度y和半峰宽信息fwhm。随后对峰强度进行归一化处理,方法是将峰值表中的强度列同时除以该列表中峰值强度的最大值并乘以100。将处理好的数据用于下一步的谱图匹配打分。
(2)取共峰。针对实验谱图的峰列表,在与参考谱图进行比对时将在实验谱图的峰的半峰宽范围内的参考谱图的峰作为共峰。我们引入表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰对应的峰值质荷比构成的向量,表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰的峰值强度构成的向量。
(3)任选下列两种基于欧氏距离公式中的一种进行相似度打分。相似度打分的详细过程如下:
(a)相对欧氏距离法。实验谱图i与参考谱图j的一对共峰之间的欧式距离定义为两共峰的质荷比差值和峰值强度差值的平方和的平方根
对该距离进行相对化处理并对没有匹配为共峰的我们称之为“罚峰”的峰引入“罚分”机制。相对化处理要求以该组共峰的最大可能欧式距离为除数,该最大可能欧式距离当且仅当共峰中的一支峰强趋近于0,同时两个峰的质荷比差值趋向于fwhmi/2时得到
因此得到该对共峰的相对欧式距离
“罚分”机制旨在突出显示没有匹配的“罚峰”对分值的拉低作用,在相对欧式距离法和强度加权相对欧式距离法中,由于罚峰处的欧式距离即为该组罚峰的最大可能欧式距离,因此该罚峰处的相对欧式距离为1,即对“罚峰”的罚分。经过适当变换调整后的公式为:
式中,ni为实验谱图i中的峰个数,nj为参考谱图j中的峰个数。
(b)强度加权相对欧式距离法。该方法是通过求谱图i和谱图j的共峰的强度加权相对欧式距离并且引入对未匹配为共峰的“罚峰”的惩罚分数实现的,该公式中的权重系数为第k组共峰的峰强和占所有峰强度和的比例,公式为
Eu和iEu为两种独立的谱图相似性计算方法,匹配得到的分数在0到1之间,得分越接近1表示相似度越高,也即峰值之间的相对欧式距离越小。
与现有技术相比,本发明具有以下优点:
本发明是一种综合评价样品谱图与标准谱图相似度的方法,既能反映待评价样品谱图与标准谱图之间共峰的相似性,也考虑了非共峰数目及其大小对相似度评价的影响,能整体反映谱图之间的相似程度,该相似度的大小能够灵敏地表达样品谱图与标准谱图的定性和定量差异,可靠地鉴定待评价样品。
本发明中,通过基于欧式距离公式的相似度大小表征待评价样品与标准样品间的一致性,相似度越大表示它们的一致性越好;相似度越小,表示它们的差异越大。应用时,可通过经验或有效性试验确定相似度阈值,凡待评价样品相似度大于阈值的表示一致性好;根据相似度的大小也可用于样品的分类。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1为实验谱图与参考谱图一对共峰间的欧式距离euk,最大可能欧式距离eumk,以及相对欧式距离Euk的示意图。
具体实施方式
下面结合实施例对本发明作进一步的说明。
以Basillus subtilis ATCC 6633细菌的实验谱图为例,我们根据上述公式利用R语言和C语言构建了细菌质谱图分析程序,上传1张实验谱图后算法程序会将其与数据库中所有的参考谱图逐一进行相似性比对,并根据Eu和iEu分值大小排序给出数据库检索结果。
表1是该样品基于相对欧式距离法的数据库检索结果,按照相似性得分从高到低列出数据库中与实验谱图相似性最高的五张参考谱图对应的菌株名称及相应的相似性得分。
表2是该样品基于强度加权相对欧式距离法的数据库检索结果,按照相似性得分从高到低列出数据库中与实验谱图相似性最高的五张参考谱图对应的菌株名称及相应的相似性得分。
表1 是样品基于相对欧式距离法的数据库检索结果。
表2 是样品基于强度加权相对欧式距离法的数据库检索结果。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims (7)

1.一种谱图相似度的计算方法,其特征在于,所述方法如下:
所述计算方法提供基于欧式距离公式的谱图相似性打分的方法;
(1)针对实验谱图的原始数据计算出每个峰的半峰宽,记为fwhmi,在与参考谱图进行比对时,将在实验谱图的峰的半峰宽范围内出现的参考谱图的峰作为共峰;引入表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰对应的峰值的质荷比构成的向量,表示实验谱图i和参考谱图j,取l=lij个共峰后由实验谱图i中共峰的峰值强度构成的向量;
(2)从下列两种基于欧式距离的公式中任选一种评价实验谱图与参考谱图的相似度:
(a)相对欧氏距离法,实验谱图i与参考谱图j的一对共峰之间的欧式距离定义为它们的峰值质荷比差值和峰值强度差值的平方和的平方根,
对该距离进行相对化处理,相对化处理要求以所述一对共峰的最大可能欧式距离为除数,所述最大可能欧式距离为:
因此,在共峰处的相对欧式距离可以表示为
对没有匹配为共峰的峰引入罚分机制,暨假设所述没有匹配为共峰的峰存在一个相对欧式距离为1的共峰,引入罚分后的谱图的相对欧式距离打分公式经过适当变换调整为
式中,ni为实验谱图i中的峰个数,nj为参考谱图j中的峰个数,Eu为两张谱图相似性得分,其分值在0到1之间,分值越高则谱图相似性越高;
(b)强度加权相对欧式距离法;通过求实验谱图i和参考谱图j的共峰的强度加权相对欧式距离,并且引入对未匹配为共峰的峰的惩罚分数实现,该公式中的权重系数为第k组共峰的峰强和占所有峰强度和的比例;
公式为
式中,iEu视为两张谱图相似性得分,其分值在0到1之间,分值越高则谱图相似性越高。
2.根据权利要求1所述的谱图相似度的计算方法,其特征在于,(b)中,强度加权相对欧式距离法中的惩罚分数用于突出显示没有匹配的峰对分值的拉低作用。
3.根据权利要求1所述的谱图相似度的计算方法,其特征在于,在相对欧式距离法和强度加权相对欧式距离法中,罚峰处的欧式距离为所述罚峰的最大可能欧式距离的极限值,暨1。
4.根据权利要求1所述的谱图相似度的计算方法,其特征在于,所述计算方法开始之前,对谱图进行预处理;对实验谱图及参考谱图的峰强度进行归一化处理,处理的方法是将每张谱图的峰值除以该谱图中峰值的最大值然后乘以100。
5.根据权利要求1所述的谱图相似度的计算方法,其特征在于,谱图相似度计算方法用于含有二维数据量的谱图。
6.根据权利要求5所述的谱图相似度的计算方法,其特征在于,谱图相似度计算方法用于质谱图、核磁共振谱图、色谱图、光谱图中的一种或多种。
7.根据权利要求1所述的谱图相似度的计算方法,其特征在于,谱图相似度计算方法用于各种样品,包括蛋白质、基因、化学成分、微生物中的一种或多种。
CN201610905235.4A 2016-10-17 2016-10-17 谱图相似度的计算方法 Active CN106650779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610905235.4A CN106650779B (zh) 2016-10-17 2016-10-17 谱图相似度的计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610905235.4A CN106650779B (zh) 2016-10-17 2016-10-17 谱图相似度的计算方法

Publications (2)

Publication Number Publication Date
CN106650779A CN106650779A (zh) 2017-05-10
CN106650779B true CN106650779B (zh) 2019-10-25

Family

ID=58855479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610905235.4A Active CN106650779B (zh) 2016-10-17 2016-10-17 谱图相似度的计算方法

Country Status (1)

Country Link
CN (1) CN106650779B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220625B (zh) * 2017-06-01 2020-05-01 中国海洋大学 一种对样品的libs光谱自动识别分类方法
CN107271533B (zh) * 2017-06-29 2019-09-13 浙江和谱生物科技有限公司 基于maldi-tof质谱数据鉴定细菌混合样品的算法
CN107798342A (zh) * 2017-10-16 2018-03-13 浙江和谱生物科技有限公司 基于自助抽样法的谱图搜库结果统计验证方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101871945A (zh) * 2010-06-13 2010-10-27 中国科学院计算技术研究所 谱库的生成方法和串联质谱谱图鉴定方法
CN103278591A (zh) * 2013-05-16 2013-09-04 江苏师范大学 一种色谱指纹图谱相似度评价方法
CN104504706A (zh) * 2014-12-26 2015-04-08 天津大学 一种气相色谱质谱谱图匹配方法
CN104572910A (zh) * 2014-12-26 2015-04-29 天津大学 一种基于向量模型的气相色谱质谱谱图检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101871945A (zh) * 2010-06-13 2010-10-27 中国科学院计算技术研究所 谱库的生成方法和串联质谱谱图鉴定方法
CN103278591A (zh) * 2013-05-16 2013-09-04 江苏师范大学 一种色谱指纹图谱相似度评价方法
CN104504706A (zh) * 2014-12-26 2015-04-08 天津大学 一种气相色谱质谱谱图匹配方法
CN104572910A (zh) * 2014-12-26 2015-04-29 天津大学 一种基于向量模型的气相色谱质谱谱图检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Generalization of Subpixel Analysis for Hyperspectral Data With Flexibility in Spectral Similarity Measrues》;Jin Chen et al;《IEEE Transaction on Geoscience and Remote Sensing》;20090407;全文 *
《谱图相似度分析结合保留指数对单萜烯同分异构体的GC-MS定性分析》;苏越等;《分析测试学报》;20090531;全文 *

Also Published As

Publication number Publication date
CN106650779A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
Spitzer et al. Mass cytometry: single cells, many features
CN106570351B (zh) 基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法
Olsen et al. The anatomy of single cell mass cytometry data
Merwin et al. DeepRiPP integrates multiomics data to automate discovery of novel ribosomally synthesized natural products
US6675104B2 (en) Method for analyzing mass spectra
Karunratanakul et al. Uncovering thousands of new peptides with sequence-mask-search hybrid de novo peptide sequencing framework
US20020193950A1 (en) Method for analyzing mass spectra
CN103890164B (zh) 细胞识别装置以及程序
CN106650779B (zh) 谱图相似度的计算方法
CN104215729B (zh) 串联质谱数据母离子检测模型训练方法及母离子检测方法
WO2014116711A1 (en) Methods and apparatuses involving mass spectrometry to identify proteins in a sample
Mantini et al. Independent component analysis for the extraction of reliable protein signal profiles from MALDI-TOF mass spectra
Weis et al. Topological and kernel-based microbial phenotype prediction from MALDI-TOF mass spectra
CN113707316A (zh) 免疫状态评估方法及应用
Wang et al. Rapid and accurate discrimination of Mycobacterium abscessus subspecies based on matrix-assisted laser desorption ionization-time of flight Spectrum and machine learning algorithms
CN108699601A (zh) 第三代测序比对算法
Zhu et al. Algorithms push forward the application of MALDI–TOF mass fingerprinting in rapid precise diagnosis
Dotan et al. Effect of tokenization on transformers for biological sequences
CN107271533B (zh) 基于maldi-tof质谱数据鉴定细菌混合样品的算法
Mappa et al. Mix24X, a lab-assembled reference to evaluate interpretation procedures for tandem mass spectrometry proteotyping of complex samples
CN107798342A (zh) 基于自助抽样法的谱图搜库结果统计验证方法
Wilk et al. On Stability of Feature Selection Based on MALDI Mass Spectrometry Imaging Data and Simulated Biopsy
Fujimoto et al. A generalizable method for false-discovery rate estimation in mass spectrometry-based lipidomics
Chung et al. Towards accurate identification of antibiotic-resistant pathogens through the ensemble of multiple preprocessing methods based on MALDI-TOF spectra
Lysiak et al. SpecGlob: rapid and accurate alignment of mass spectra differing from their peptide models by several unknown modifications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200706

Address after: Building 2, No. 189 Guangming Road, Zhuangshi street, Zhenhai District, Ningbo City, Zhejiang Province, 315000

Patentee after: Chuanming (Ningbo) Chemical Technology Co., Ltd

Address before: Hangzhou City, Zhejiang province Binjiang District 310000 shore road 688 Building 5 room 1512

Patentee before: ZHEJIANG BIOHARMONIOUS TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right