CN112466412A - 一种基于质谱数据的化合物相似度检测方法 - Google Patents

一种基于质谱数据的化合物相似度检测方法 Download PDF

Info

Publication number
CN112466412A
CN112466412A CN202011412426.XA CN202011412426A CN112466412A CN 112466412 A CN112466412 A CN 112466412A CN 202011412426 A CN202011412426 A CN 202011412426A CN 112466412 A CN112466412 A CN 112466412A
Authority
CN
China
Prior art keywords
mass
compound
similarity
compounds
charge ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011412426.XA
Other languages
English (en)
Inventor
魏宇鋆
刘轩
陈鸿琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202011412426.XA priority Critical patent/CN112466412A/zh
Publication of CN112466412A publication Critical patent/CN112466412A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种基于质谱数据的化合物相似度检测的方法,其中,包括:(1)根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库;(2)通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数;(3)通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数,并得到最终的化合物的相似度。本发明提出的基于质谱数据的化合物相似度检测方法,计算简便,所得的相似度精度高,检测速度快,剩余参考谱数量少,在未知化合物预测、毒物检测等方面有重要价值。

Description

一种基于质谱数据的化合物相似度检测方法
技术领域
本发明涉及化合物检测技术,特别涉及一种基于质谱数据的化合物相似度检测方法。
背景技术
质谱仪是未知化合物成分分析的有力工具,它在生物医药、食品科学和环境检测方面都发挥着重要的作用。为了鉴定未知化合物,人们将未知化合物的质谱图与标准参考谱库中的质谱图进行相似度计算,从而确定未知化合物。
目前,一个标准的质谱库大约包含几十万个化合物的信息,且质谱库每年都会收集成千上万的新化合物,因此检索的精度和效率就成为衡量质谱库检索算法性能的重要指标。
传统的质谱库检索算法有欧几里得距离算法、概率匹配准则(PBM算法)、Herz相似度算法和点积相似度算法等。目前较为常用的基于向量空间模型(VSM)的质谱库算法,通过计算向量之间的夹角来判定查询谱图和参考谱图的相似度。人们在VSM的基础上,对该算法进行了改进,采用查询谱图和参考谱图的交集作为向量空间模型,并优化了权值因子,提高了相似度,但对于大规模的参考谱图,效果仍不理想。
为了提高检索效率,有必要采用谱库预检索的方式,先过滤谱库中绝大部分不相关的质谱图。常用的“十峰法”和小波变换相结合的谱库预检索算法,能有效地减少剩余参考谱图的数量,缺点是时间较长。有改进的二级谱库预检索算法(TSLP),与传统的“十峰法”和加权点积相似度算法相比,能够减少剩余参考谱图的数量并提高了预检索精度,但该算法固定了查询谱图和参考谱图特征峰的数量,忽视了化合物即使在相同的电离条件下同等质荷比的峰强度也会有所不同的情况,这不利于预检索精度的进一步提升和剩余参考谱图数量的进一步减少。
如果能有一个高效并且贴合化合物的实际情况的预检索算法,结合一个能全面利用质谱数据的全匹配算法,就能有效提高检索精度和检索速度。本发明正是基于这样的现实需求而产生的。
发明内容
本发明的目的在于提供一种基于质谱数据的化合物相似度检测的方法,用于解决上述现有技术的问题。
本发明一种基于质谱数据的化合物相似度检测的方法,其中,包括:(1)根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库;(2)通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数;(3)通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数,并得到最终的化合物的相似度。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,所述步骤(1)中,将未知化合物中质荷比最大的3个峰和峰强度最大的7个峰,组成未知峰组;将参考库内已知化合物中质荷比最大的5个峰和峰强度最大的12个峰,组成参考峰组;将与未知化合物匹配个数达到7个以上的已知化合物放到参考库内。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,所述步骤(2)中,计算所有质荷比之间的差值
Figure BDA0002815550410000031
其中,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和,计算bi=未知化合物中所有质荷比差值的平均值/参考库内化合物中所有质荷比差值的平均值,将bi作为化合物相似度的系数。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,所述步骤(3)中,针对质荷比和丰度值,结合相似度系数,得到最终的不相似度,以两个因素结合值
Figure BDA0002815550410000032
作为参数,用公式
Figure BDA0002815550410000033
计算不相似度,其中,I是质荷比的丰度,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和,结合相似度系数bi,用公式(1-bi)*DI得到两个化合物最终的不相似度。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,如果比较的两个化合物中,其中有一个长度短缺,说明这两个化合物在这个质荷比上完全不相似,将短缺的数值填补上0,再计算求得最后的DI值。
本发明提出的基于质谱数据的化合物相似度检测方法,计算简便,所得的相似度精度高,检测速度快,剩余参考谱数量少,在未知化合物预测、毒物检测等方面有重要价值。
附图说明
图1是本发明的一种基于质谱数据的化合物相似度检测方法的流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为实现上述目的,本发明提出了一种基于质谱数据的化合物相似度检测方法,该方法包括:
(1)预检索步骤。根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。
(2)初始相似度计算步骤。通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数。
(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数。并通过相应的方法运算,得到最终的化合物的相似度。
图1是本发明的一种基于质谱数据的化合物相似度检测方法的流程图。如图1所示,该方法包括:
(1)预检索步骤。根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。
具体实施时,根据未知化合物的质荷比和丰度,将未知化合物的质荷比最大的3个值和峰强度最大的7个值对应的质荷比,组合成未知化合物峰组;将标准库内的已知化合物质荷比最大的5个值和峰强度最大的12个值对应的质荷比,组成参考库峰组;将未知化合物峰组与参考库峰组进行比对,当两个峰组的匹配个数能达到7个以上时,将标准参考库内化合物放入新的参考库内,由此得到新的用于全匹配运算的参考库。
(2)初始相似度计算步骤。通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数。
具体实施时,一张图谱中的峰值的密集程度一定程度上反应了化合物的相似度,求出所有质荷比之间的差值
Figure BDA0002815550410000051
其中,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和。然后计算比值bi=未知化合物质荷比差值的平均数/参考库内已知化合物质荷比差值的平均数,将bi作为两者的相似度系数。
(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数。并通过相应的方法运算,得到最终的化合物的相似度。
具体实施时,质荷比和丰度是质谱仪得到的数据,一张谱图的本质特征是由这两个因素共同决定的。一般强度大的峰比强度小的峰重要,高质量端的峰比低质量端的峰的峰重要,引入参数
Figure BDA0002815550410000061
和公式
Figure BDA0002815550410000062
其中,I是质荷比的丰度,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和。利用公式计算出两个化合物的不相似度DI,再结合前面针对质荷比密度所得的相似度系数bi,得到最终的不相似度值(1-bi)*DI,不相似度越小,说明相似度越高。
由于每个化合物的质荷比和丰度值采集到的个数不一样,如果比较的两个化合物中,其中有一个长度短缺,说明这两个化合物在这个质荷比上完全不相似,所以将短缺的数值填补上0,然后再一一带入公式计算求得最后的DI值。
本发明公开了一种基于质谱数据的化合物相似度检测方法,该方法包括:(1)预检索步骤。根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。(2)初始相似度计算步骤。通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数。(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数。并通过相应的方法运算,得到最终的化合物的相似度。
本方法在计算化合物相似度的过程中,首先利用预检索的方法将标准图谱库内特征峰匹配数多的化合物组成新的参考库,用于随后的全匹配运算,极大的减少了大量运算需要的时间和空间,能够高效精准的完成检索任务。因此,本发明在化合物相似度检测、毒物检测判定中将发挥重要的作用。
本发明提供一种基于质谱数据的化合物相似度检测方法,满足高效精准判断未知化合物,计算与标准质谱图库的化合物相似度的需求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于质谱数据的化合物相似度检测的方法,其特征在于,包括:
(1)根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库;
(2)通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数;
(3)通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数,并得到最终的化合物的相似度。
2.如权利要求1所述的一种基于质谱数据的化合物相似度检测方法,其特征在于,所述步骤(1)中,将未知化合物中质荷比最大的3个峰和峰强度最大的7个峰,组成未知峰组;将参考库内已知化合物中质荷比最大的5个峰和峰强度最大的12个峰,组成参考峰组;将与未知化合物匹配个数达到7个以上的已知化合物放到参考库内。
3.如权利要求1所述的一种基于质谱数据的化合物相似度检测方法,其特征在于,所述步骤(2)中,计算所有质荷比之间的差值
Figure FDA0002815550400000011
其中,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和,计算bi=未知化合物中所有质荷比差值的平均值/参考库内化合物中所有质荷比差值的平均值,将bi作为化合物相似度的系数。
4.如权利要求3所述的一种基于质谱数据的化合物相似度检测方法,其特征在于,所述步骤(3)中,针对质荷比和丰度值,结合相似度系数,得到最终的不相似度,以两个因素结合值
Figure FDA0002815550400000021
作为参数,用公式
Figure FDA0002815550400000022
计算不相似度,其中,I是质荷比的丰度,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和,结合相似度系数bi,用公式(1-bi)*DI得到两个化合物最终的不相似度。
5.如权利要求4所述的一种基于质谱数据的化合物相似度检测方法,其特征在于,如果比较的两个化合物中,其中有一个长度短缺,说明这两个化合物在这个质荷比上完全不相似,将短缺的数值填补上0,再计算求得最后的DI值。
CN202011412426.XA 2020-12-03 2020-12-03 一种基于质谱数据的化合物相似度检测方法 Pending CN112466412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011412426.XA CN112466412A (zh) 2020-12-03 2020-12-03 一种基于质谱数据的化合物相似度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011412426.XA CN112466412A (zh) 2020-12-03 2020-12-03 一种基于质谱数据的化合物相似度检测方法

Publications (1)

Publication Number Publication Date
CN112466412A true CN112466412A (zh) 2021-03-09

Family

ID=74806565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011412426.XA Pending CN112466412A (zh) 2020-12-03 2020-12-03 一种基于质谱数据的化合物相似度检测方法

Country Status (1)

Country Link
CN (1) CN112466412A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572910A (zh) * 2014-12-26 2015-04-29 天津大学 一种基于向量模型的气相色谱质谱谱图检索方法
CN105008908A (zh) * 2013-02-22 2015-10-28 株式会社岛津制作所 数据处理装置以及数据处理方法
CN105917221A (zh) * 2014-01-20 2016-08-31 株式会社岛津制作所 串联质谱分析数据处理装置
JP2016170174A (ja) * 2016-05-25 2016-09-23 株式会社島津製作所 タンデム質量分析データ処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105008908A (zh) * 2013-02-22 2015-10-28 株式会社岛津制作所 数据处理装置以及数据处理方法
US20150380225A1 (en) * 2013-02-22 2015-12-31 Shimadzu Corporation Data processing device and data processing method
CN105917221A (zh) * 2014-01-20 2016-08-31 株式会社岛津制作所 串联质谱分析数据处理装置
CN104572910A (zh) * 2014-12-26 2015-04-29 天津大学 一种基于向量模型的气相色谱质谱谱图检索方法
JP2016170174A (ja) * 2016-05-25 2016-09-23 株式会社島津製作所 タンデム質量分析データ処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
律祥俊,林少凡,张金碚,张法义: "一种有机质谱谱图的库检索新算法", 《高等学校化学学报》 *
黄嵩等: "基于质谱图特征峰匹配的谱库预检索算法", 《真空科学与技术学报》 *

Similar Documents

Publication Publication Date Title
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
US7962301B2 (en) Method of processing and storing mass spectrometry data
US8615369B2 (en) Method of improving the resolution of compounds eluted from a chromatography device
CN102959624B (zh) 用于音频媒体识别的系统和方法
JP6004080B2 (ja) データ処理装置及びデータ処理方法
CN113933373B (zh) 一种利用质谱数据确定有机物结构的方法和系统
CN113225209B (zh) 一种基于时间序列相似检索的网络监控实时预警方法
CN109472287A (zh) 基于二维Gabor小波的三维荧光光谱特征提取方法
US20130124102A1 (en) Systems and methods for processing fragment ion spectra to determine mechanism of fragmentation and structure of molecule
US20050159902A1 (en) Apparatus for library searches in mass spectrometry
CN112466412A (zh) 一种基于质谱数据的化合物相似度检测方法
Kekre et al. Retrieval of images using DCT and DCT wavelet over image blocks
CN112534267A (zh) 复杂样本中相关化合物的识别和评分
US10714210B2 (en) Sample mass spectrum analysis
EP3335236B1 (en) Library search tolerant to isotopes
CN114487072A (zh) 一种飞行时间质谱峰拟合方法
EP2936544B1 (en) Compound identification using multiple spectra at different collision energies
US10446376B2 (en) Compound identification using multiple spectra at different collision energies
Gao et al. Fuzzy-precise positioning: A pre-search algorithm based on feature peaks of mass spectra for acceleration of chemical compound recognition
Fiehn et al. Flash entropy search to query all mass spectral libraries in real time
CN116698802A (zh) 一种用于三维荧光光谱的关键点特征提取方法
Hansen et al. Automated work-flow for processing high-resolution direct infusion electrospray ionization mass spectral fingerprints
JP2018119897A (ja) 質量分析を用いた物質同定方法及び質量分析データ処理装置
WO2023199175A1 (en) Library search using deep learning based spectral compression
CN115293226A (zh) 一种联合lttb与时间序列局部特征的数据降维压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210309

RJ01 Rejection of invention patent application after publication