CN112466412A

CN112466412A - 一种基于质谱数据的化合物相似度检测方法

Info

Publication number: CN112466412A
Application number: CN202011412426.XA
Authority: CN
Inventors: 魏宇鋆; 刘轩; 陈鸿琼
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-09

Abstract

本发明涉及一种基于质谱数据的化合物相似度检测的方法，其中，包括：(1)根据未知化合物的特性，从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库；(2)通过质荷比密度匹配算法，将未知化合物的数据与参考库中数据进行计算，得到针对质荷比密度的相似度系数；(3)通过质荷比和丰度结合的全匹配算法，得出两种化合物的不相似度系数，并得到最终的化合物的相似度。本发明提出的基于质谱数据的化合物相似度检测方法，计算简便，所得的相似度精度高，检测速度快，剩余参考谱数量少，在未知化合物预测、毒物检测等方面有重要价值。

Description

一种基于质谱数据的化合物相似度检测方法

技术领域

本发明涉及化合物检测技术，特别涉及一种基于质谱数据的化合物相似度检测方法。

背景技术

质谱仪是未知化合物成分分析的有力工具，它在生物医药、食品科学和环境检测方面都发挥着重要的作用。为了鉴定未知化合物，人们将未知化合物的质谱图与标准参考谱库中的质谱图进行相似度计算，从而确定未知化合物。

目前，一个标准的质谱库大约包含几十万个化合物的信息，且质谱库每年都会收集成千上万的新化合物，因此检索的精度和效率就成为衡量质谱库检索算法性能的重要指标。

传统的质谱库检索算法有欧几里得距离算法、概率匹配准则(PBM算法)、Herz相似度算法和点积相似度算法等。目前较为常用的基于向量空间模型(VSM)的质谱库算法，通过计算向量之间的夹角来判定查询谱图和参考谱图的相似度。人们在VSM的基础上，对该算法进行了改进，采用查询谱图和参考谱图的交集作为向量空间模型，并优化了权值因子，提高了相似度，但对于大规模的参考谱图，效果仍不理想。

为了提高检索效率，有必要采用谱库预检索的方式，先过滤谱库中绝大部分不相关的质谱图。常用的“十峰法”和小波变换相结合的谱库预检索算法，能有效地减少剩余参考谱图的数量，缺点是时间较长。有改进的二级谱库预检索算法(TSLP)，与传统的“十峰法”和加权点积相似度算法相比，能够减少剩余参考谱图的数量并提高了预检索精度，但该算法固定了查询谱图和参考谱图特征峰的数量，忽视了化合物即使在相同的电离条件下同等质荷比的峰强度也会有所不同的情况，这不利于预检索精度的进一步提升和剩余参考谱图数量的进一步减少。

如果能有一个高效并且贴合化合物的实际情况的预检索算法，结合一个能全面利用质谱数据的全匹配算法，就能有效提高检索精度和检索速度。本发明正是基于这样的现实需求而产生的。

发明内容

本发明的目的在于提供一种基于质谱数据的化合物相似度检测的方法，用于解决上述现有技术的问题。

本发明一种基于质谱数据的化合物相似度检测的方法，其中，包括：(1)根据未知化合物的特性，从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库；(2)通过质荷比密度匹配算法，将未知化合物的数据与参考库中数据进行计算，得到针对质荷比密度的相似度系数；(3)通过质荷比和丰度结合的全匹配算法，得出两种化合物的不相似度系数，并得到最终的化合物的相似度。

根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例，其中，所述步骤(1)中，将未知化合物中质荷比最大的3个峰和峰强度最大的7个峰，组成未知峰组；将参考库内已知化合物中质荷比最大的5个峰和峰强度最大的12个峰，组成参考峰组；将与未知化合物匹配个数达到7个以上的已知化合物放到参考库内。

根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例，其中，所述步骤(2)中，计算所有质荷比之间的差值

其中，m是化合物的质量，e是化合物的电荷，max是化合物所有质荷比距离之和，计算bi＝未知化合物中所有质荷比差值的平均值/参考库内化合物中所有质荷比差值的平均值，将bi作为化合物相似度的系数。

根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例，其中，所述步骤(3)中，针对质荷比和丰度值，结合相似度系数，得到最终的不相似度，以两个因素结合值

作为参数，用公式

计算不相似度，其中，I是质荷比的丰度，m是化合物的质量，e是化合物的电荷，max是化合物所有质荷比距离之和，结合相似度系数bi，用公式(1-bi)*DI得到两个化合物最终的不相似度。

根据本发明一种基于质谱数据的化合物相似度检测方法的一实施例，其中，如果比较的两个化合物中，其中有一个长度短缺，说明这两个化合物在这个质荷比上完全不相似，将短缺的数值填补上0，再计算求得最后的DI值。

本发明提出的基于质谱数据的化合物相似度检测方法，计算简便，所得的相似度精度高，检测速度快，剩余参考谱数量少，在未知化合物预测、毒物检测等方面有重要价值。

附图说明

图1是本发明的一种基于质谱数据的化合物相似度检测方法的流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为实现上述目的，本发明提出了一种基于质谱数据的化合物相似度检测方法，该方法包括：

(1)预检索步骤。根据未知化合物的特性，从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。

(2)初始相似度计算步骤。通过质荷比密度匹配算法，将未知化合物的数据与参考库中数据进行计算，得到针对质荷比密度的相似度系数。

(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法，得出两种化合物的不相似度系数。并通过相应的方法运算，得到最终的化合物的相似度。

图1是本发明的一种基于质谱数据的化合物相似度检测方法的流程图。如图1所示，该方法包括：

具体实施时，根据未知化合物的质荷比和丰度，将未知化合物的质荷比最大的3个值和峰强度最大的7个值对应的质荷比，组合成未知化合物峰组；将标准库内的已知化合物质荷比最大的5个值和峰强度最大的12个值对应的质荷比，组成参考库峰组；将未知化合物峰组与参考库峰组进行比对，当两个峰组的匹配个数能达到7个以上时，将标准参考库内化合物放入新的参考库内，由此得到新的用于全匹配运算的参考库。

具体实施时，一张图谱中的峰值的密集程度一定程度上反应了化合物的相似度，求出所有质荷比之间的差值

其中，m是化合物的质量，e是化合物的电荷，max是化合物所有质荷比距离之和。然后计算比值bi＝未知化合物质荷比差值的平均数/参考库内已知化合物质荷比差值的平均数，将bi作为两者的相似度系数。

具体实施时，质荷比和丰度是质谱仪得到的数据，一张谱图的本质特征是由这两个因素共同决定的。一般强度大的峰比强度小的峰重要,高质量端的峰比低质量端的峰的峰重要，引入参数

和公式

其中，I是质荷比的丰度，m是化合物的质量，e是化合物的电荷，max是化合物所有质荷比距离之和。利用公式计算出两个化合物的不相似度DI，再结合前面针对质荷比密度所得的相似度系数bi，得到最终的不相似度值(1-bi)*DI，不相似度越小，说明相似度越高。

由于每个化合物的质荷比和丰度值采集到的个数不一样，如果比较的两个化合物中，其中有一个长度短缺，说明这两个化合物在这个质荷比上完全不相似，所以将短缺的数值填补上0，然后再一一带入公式计算求得最后的DI值。

本发明公开了一种基于质谱数据的化合物相似度检测方法，该方法包括：(1)预检索步骤。根据未知化合物的特性，从数据库内海量已有化合物数据中筛选出一些相似度高的化合物作为新的参考库。(2)初始相似度计算步骤。通过质荷比密度匹配算法，将未知化合物的数据与参考库中数据进行计算，得到针对质荷比密度的相似度系数。(3)最终相似度计算步骤。通过质荷比和丰度结合的全匹配算法，得出两种化合物的不相似度系数。并通过相应的方法运算，得到最终的化合物的相似度。

本方法在计算化合物相似度的过程中，首先利用预检索的方法将标准图谱库内特征峰匹配数多的化合物组成新的参考库，用于随后的全匹配运算，极大的减少了大量运算需要的时间和空间，能够高效精准的完成检索任务。因此，本发明在化合物相似度检测、毒物检测判定中将发挥重要的作用。

本发明提供一种基于质谱数据的化合物相似度检测方法，满足高效精准判断未知化合物，计算与标准质谱图库的化合物相似度的需求。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于质谱数据的化合物相似度检测的方法，其特征在于，包括：

(1)根据未知化合物的特性，从数据库内海量已有化合物数据中筛选出相似度高的化合物作为参考库；

(2)通过质荷比密度匹配算法，将未知化合物的数据与参考库中数据进行计算，得到针对质荷比密度的相似度系数；

(3)通过质荷比和丰度结合的全匹配算法，得出两种化合物的不相似度系数，并得到最终的化合物的相似度。

2.如权利要求1所述的一种基于质谱数据的化合物相似度检测方法，其特征在于，所述步骤(1)中，将未知化合物中质荷比最大的3个峰和峰强度最大的7个峰，组成未知峰组；将参考库内已知化合物中质荷比最大的5个峰和峰强度最大的12个峰，组成参考峰组；将与未知化合物匹配个数达到7个以上的已知化合物放到参考库内。

3.如权利要求1所述的一种基于质谱数据的化合物相似度检测方法，其特征在于，所述步骤(2)中，计算所有质荷比之间的差值

4.如权利要求3所述的一种基于质谱数据的化合物相似度检测方法，其特征在于，所述步骤(3)中，针对质荷比和丰度值，结合相似度系数，得到最终的不相似度，以两个因素结合值

作为参数，用公式

5.如权利要求4所述的一种基于质谱数据的化合物相似度检测方法，其特征在于，如果比较的两个化合物中，其中有一个长度短缺，说明这两个化合物在这个质荷比上完全不相似，将短缺的数值填补上0，再计算求得最后的DI值。