CN112466412A - 一种基于质谱数据的化合物相似度检测方法 - Google Patents
一种基于质谱数据的化合物相似度检测方法 Download PDFInfo
- Publication number
- CN112466412A CN112466412A CN202011412426.XA CN202011412426A CN112466412A CN 112466412 A CN112466412 A CN 112466412A CN 202011412426 A CN202011412426 A CN 202011412426A CN 112466412 A CN112466412 A CN 112466412A
- Authority
- CN
- China
- Prior art keywords
- mass
- compound
- similarity
- compounds
- charge ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 124
- 238000001514 detection method Methods 0.000 title claims abstract description 10
- 238000001819 mass spectrum Methods 0.000 title abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 3
- 238000004949 mass spectrometry Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 abstract description 11
- 239000002574 poison Substances 0.000 abstract description 3
- 231100000614 poison Toxicity 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101000845170 Homo sapiens Thymic stromal lymphopoietin Proteins 0.000 description 1
- 102100031294 Thymic stromal lymphopoietin Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及一种基于质谱数据的化合物相似度检测的方法,其中,包括:(1)根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库;(2)通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数;(3)通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数,并得到最终的化合物的相似度。本发明提出的基于质谱数据的化合物相似度检测方法,计算简便,所得的相似度精度高,检测速度快,剩余参考谱数量少,在未知化合物预测、毒物检测等方面有重要价值。
Description
技术领域
本发明涉及化合物检测技术,特别涉及一种基于质谱数据的化合物相似度检测方法。
背景技术
质谱仪是未知化合物成分分析的有力工具,它在生物医药、食品科学和环境检测方面都发挥着重要的作用。为了鉴定未知化合物,人们将未知化合物的质谱图与标准参考谱库中的质谱图进行相似度计算,从而确定未知化合物。
目前,一个标准的质谱库大约包含几十万个化合物的信息,且质谱库每年都会收集成千上万的新化合物,因此检索的精度和效率就成为衡量质谱库检索算法性能的重要指标。
传统的质谱库检索算法有欧几里得距离算法、概率匹配准则(PBM算法)、Herz相似度算法和点积相似度算法等。目前较为常用的基于向量空间模型(VSM)的质谱库算法,通过计算向量之间的夹角来判定查询谱图和参考谱图的相似度。人们在VSM的基础上,对该算法进行了改进,采用查询谱图和参考谱图的交集作为向量空间模型,并优化了权值因子,提高了相似度,但对于大规模的参考谱图,效果仍不理想。
为了提高检索效率,有必要采用谱库预检索的方式,先过滤谱库中绝大部分不相关的质谱图。常用的“十峰法”和小波变换相结合的谱库预检索算法,能有效地减少剩余参考谱图的数量,缺点是时间较长。有改进的二级谱库预检索算法(TSLP),与传统的“十峰法”和加权点积相似度算法相比,能够减少剩余参考谱图的数量并提高了预检索精度,但该算法固定了查询谱图和参考谱图特征峰的数量,忽视了化合物即使在相同的电离条件下同等质荷比的峰强度也会有所不同的情况,这不利于预检索精度的进一步提升和剩余参考谱图数量的进一步减少。
如果能有一个高效并且贴合化合物的实际情况的预检索算法,结合一个能全面利用质谱数据的全匹配算法,就能有效提高检索精度和检索速度。本发明正是基于这样的现实需求而产生的。
发明内容
本发明的目的在于提供一种基于质谱数据的化合物相似度检测的方法,用于解决上述现有技术的问题。
本发明一种基于质谱数据的化合物相似度检测的方法,其中,包括:(1)根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库;(2)通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数;(3)通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数,并得到最终的化合物的相似度。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,所述步骤(1)中,将未知化合物中质荷比最大的3个峰和峰强度最大的7个峰,组成未知峰组;将参考库内已知化合物中质荷比最大的5个峰和峰强度最大的12个峰,组成参考峰组;将与未知化合物匹配个数达到7个以上的已知化合物放到参考库内。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,所述步骤(2)中,计算所有质荷比之间的差值其中,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和,计算bi=未知化合物中所有质荷比差值的平均值/参考库内化合物中所有质荷比差值的平均值,将bi作为化合物相似度的系数。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,所述步骤(3)中,针对质荷比和丰度值,结合相似度系数,得到最终的不相似度,以两个因素结合值作为参数,用公式计算不相似度,其中,I是质荷比的丰度,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和,结合相似度系数bi,用公式(1-bi)*DI得到两个化合物最终的不相似度。
根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例,其中,如果比较的两个化合物中,其中有一个长度短缺,说明这两个化合物在这个质荷比上完全不相似,将短缺的数值填补上0,再计算求得最后的DI值。
本发明提出的基于质谱数据的化合物相似度检测方法,计算简便,所得的相似度精度高,检测速度快,剩余参考谱数量少,在未知化合物预测、毒物检测等方面有重要价值。
附图说明
图1是本发明的一种基于质谱数据的化合物相似度检测方法的流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为实现上述目的,本发明提出了一种基于质谱数据的化合物相似度检测方法,该方法包括:
(1)预检索步骤。根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。
(2)初始相似度计算步骤。通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数。
(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数。并通过相应的方法运算,得到最终的化合物的相似度。
图1是本发明的一种基于质谱数据的化合物相似度检测方法的流程图。如图1所示,该方法包括:
(1)预检索步骤。根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。
具体实施时,根据未知化合物的质荷比和丰度,将未知化合物的质荷比最大的3个值和峰强度最大的7个值对应的质荷比,组合成未知化合物峰组;将标准库内的已知化合物质荷比最大的5个值和峰强度最大的12个值对应的质荷比,组成参考库峰组;将未知化合物峰组与参考库峰组进行比对,当两个峰组的匹配个数能达到7个以上时,将标准参考库内化合物放入新的参考库内,由此得到新的用于全匹配运算的参考库。
(2)初始相似度计算步骤。通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数。
具体实施时,一张图谱中的峰值的密集程度一定程度上反应了化合物的相似度,求出所有质荷比之间的差值其中,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和。然后计算比值bi=未知化合物质荷比差值的平均数/参考库内已知化合物质荷比差值的平均数,将bi作为两者的相似度系数。
(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数。并通过相应的方法运算,得到最终的化合物的相似度。
具体实施时,质荷比和丰度是质谱仪得到的数据,一张谱图的本质特征是由这两个因素共同决定的。一般强度大的峰比强度小的峰重要,高质量端的峰比低质量端的峰的峰重要,引入参数和公式其中,I是质荷比的丰度,m是化合物的质量,e是化合物的电荷,max是化合物所有质荷比距离之和。利用公式计算出两个化合物的不相似度DI,再结合前面针对质荷比密度所得的相似度系数bi,得到最终的不相似度值(1-bi)*DI,不相似度越小,说明相似度越高。
由于每个化合物的质荷比和丰度值采集到的个数不一样,如果比较的两个化合物中,其中有一个长度短缺,说明这两个化合物在这个质荷比上完全不相似,所以将短缺的数值填补上0,然后再一一带入公式计算求得最后的DI值。
本发明公开了一种基于质谱数据的化合物相似度检测方法,该方法包括:(1)预检索步骤。根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。(2)初始相似度计算步骤。通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数。(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数。并通过相应的方法运算,得到最终的化合物的相似度。
本方法在计算化合物相似度的过程中,首先利用预检索的方法将标准图谱库内特征峰匹配数多的化合物组成新的参考库,用于随后的全匹配运算,极大的减少了大量运算需要的时间和空间,能够高效精准的完成检索任务。因此,本发明在化合物相似度检测、毒物检测判定中将发挥重要的作用。
本发明提供一种基于质谱数据的化合物相似度检测方法,满足高效精准判断未知化合物,计算与标准质谱图库的化合物相似度的需求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种基于质谱数据的化合物相似度检测的方法,其特征在于,包括:
(1)根据未知化合物的特性,从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库;
(2)通过质荷比密度匹配算法,将未知化合物的数据与参考库中数据进行计算,得到针对质荷比密度的相似度系数;
(3)通过质荷比和丰度结合的全匹配算法,得出两种化合物的不相似度系数,并得到最终的化合物的相似度。
2.如权利要求1所述的一种基于质谱数据的化合物相似度检测方法,其特征在于,所述步骤(1)中,将未知化合物中质荷比最大的3个峰和峰强度最大的7个峰,组成未知峰组;将参考库内已知化合物中质荷比最大的5个峰和峰强度最大的12个峰,组成参考峰组;将与未知化合物匹配个数达到7个以上的已知化合物放到参考库内。
5.如权利要求4所述的一种基于质谱数据的化合物相似度检测方法,其特征在于,如果比较的两个化合物中,其中有一个长度短缺,说明这两个化合物在这个质荷比上完全不相似,将短缺的数值填补上0,再计算求得最后的DI值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412426.XA CN112466412A (zh) | 2020-12-03 | 2020-12-03 | 一种基于质谱数据的化合物相似度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412426.XA CN112466412A (zh) | 2020-12-03 | 2020-12-03 | 一种基于质谱数据的化合物相似度检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112466412A true CN112466412A (zh) | 2021-03-09 |
Family
ID=74806565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412426.XA Pending CN112466412A (zh) | 2020-12-03 | 2020-12-03 | 一种基于质谱数据的化合物相似度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466412A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572910A (zh) * | 2014-12-26 | 2015-04-29 | 天津大学 | 一种基于向量模型的气相色谱质谱谱图检索方法 |
CN105008908A (zh) * | 2013-02-22 | 2015-10-28 | 株式会社岛津制作所 | 数据处理装置以及数据处理方法 |
CN105917221A (zh) * | 2014-01-20 | 2016-08-31 | 株式会社岛津制作所 | 串联质谱分析数据处理装置 |
JP2016170174A (ja) * | 2016-05-25 | 2016-09-23 | 株式会社島津製作所 | タンデム質量分析データ処理装置 |
-
2020
- 2020-12-03 CN CN202011412426.XA patent/CN112466412A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105008908A (zh) * | 2013-02-22 | 2015-10-28 | 株式会社岛津制作所 | 数据处理装置以及数据处理方法 |
US20150380225A1 (en) * | 2013-02-22 | 2015-12-31 | Shimadzu Corporation | Data processing device and data processing method |
CN105917221A (zh) * | 2014-01-20 | 2016-08-31 | 株式会社岛津制作所 | 串联质谱分析数据处理装置 |
CN104572910A (zh) * | 2014-12-26 | 2015-04-29 | 天津大学 | 一种基于向量模型的气相色谱质谱谱图检索方法 |
JP2016170174A (ja) * | 2016-05-25 | 2016-09-23 | 株式会社島津製作所 | タンデム質量分析データ処理装置 |
Non-Patent Citations (2)
Title |
---|
律祥俊,林少凡,张金碚,张法义: "一种有机质谱谱图的库检索新算法", 《高等学校化学学报》 * |
黄嵩等: "基于质谱图特征峰匹配的谱库预检索算法", 《真空科学与技术学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
US7962301B2 (en) | Method of processing and storing mass spectrometry data | |
US8615369B2 (en) | Method of improving the resolution of compounds eluted from a chromatography device | |
CN102959624B (zh) | 用于音频媒体识别的系统和方法 | |
JP6004080B2 (ja) | データ処理装置及びデータ処理方法 | |
CN113933373B (zh) | 一种利用质谱数据确定有机物结构的方法和系统 | |
CN113225209B (zh) | 一种基于时间序列相似检索的网络监控实时预警方法 | |
CN109472287A (zh) | 基于二维Gabor小波的三维荧光光谱特征提取方法 | |
US20130124102A1 (en) | Systems and methods for processing fragment ion spectra to determine mechanism of fragmentation and structure of molecule | |
US20050159902A1 (en) | Apparatus for library searches in mass spectrometry | |
CN112466412A (zh) | 一种基于质谱数据的化合物相似度检测方法 | |
Kekre et al. | Retrieval of images using DCT and DCT wavelet over image blocks | |
CN112534267A (zh) | 复杂样本中相关化合物的识别和评分 | |
US10714210B2 (en) | Sample mass spectrum analysis | |
EP3335236B1 (en) | Library search tolerant to isotopes | |
CN114487072A (zh) | 一种飞行时间质谱峰拟合方法 | |
EP2936544B1 (en) | Compound identification using multiple spectra at different collision energies | |
US10446376B2 (en) | Compound identification using multiple spectra at different collision energies | |
Gao et al. | Fuzzy-precise positioning: A pre-search algorithm based on feature peaks of mass spectra for acceleration of chemical compound recognition | |
Fiehn et al. | Flash entropy search to query all mass spectral libraries in real time | |
CN116698802A (zh) | 一种用于三维荧光光谱的关键点特征提取方法 | |
Hansen et al. | Automated work-flow for processing high-resolution direct infusion electrospray ionization mass spectral fingerprints | |
JP2018119897A (ja) | 質量分析を用いた物質同定方法及び質量分析データ処理装置 | |
WO2023199175A1 (en) | Library search using deep learning based spectral compression | |
CN115293226A (zh) | 一种联合lttb与时间序列局部特征的数据降维压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |
|
RJ01 | Rejection of invention patent application after publication |