CN113484400B

CN113484400B - 基于机器学习的质谱图分子式计算方法

Info

Publication number: CN113484400B
Application number: CN202110747845.7A
Authority: CN
Inventors: 沈红斌; 王瑞升; 冯蕾; 汪航
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2022-11-22
Anticipated expiration: 2041-07-01
Also published as: CN113484400A

Abstract

本发明提供了一种基于机器学习的质谱图分子式计算方法，具体步骤包括：输入已知的质谱图数据；根据有机物分子式领域知识规律遍历搜索出一个峰所有的可能解；结合分子式的信息确认特征，对多组可能的特征进行排列组合；根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的召回率，确认训练特征和训练模型；遍历出所有的可能解并利用训练模型进行筛选。本发明对所有的遍历求解都依据有机物分子式的一般领域知识规律进行筛选，防止分类器过拟合，并对分类特征进行正则化和分块处理，增加了筛选精度；故本发明的基于机器学习的质谱图分子式计算方法具有快速、准确率高、对质谱图信息利用率高等优点。

Description

基于机器学习的质谱图分子式计算方法

技术领域

本发明属于计算机应用、化学分析技术领域，具体涉及一种基于机器学习的质谱图分子式计算方法。

背景技术

用不同高度线段表征离子相对丰度，以位置表征不同质核比所构成的质谱图是质谱分析的依据。质谱图能够提供分子结构的许多信息，是对纯物质进行鉴定的最有力工具之一，主要应用于相对分子质量测定、分子式确定、结构鉴定及定量分析等方面。

质谱仪的各种离子源离子化途径各不相同，因此所形成的质谱图不尽相同，而且由于离子峰比较多使得质谱图较复杂，区分质谱图中众多离子峰所对应离子的类型，可以获取质谱图中所蕴含的大量分析信息。利用质谱图上分子离子峰的质荷比可以准确地确定化合物的相对分子质量。

过去常用同位素峰相对强度法来确定有机化合物的分子式，随着高分辨质谱仪器的发展，目前主要用高分辨质谱法确定分子式。因为C、H、O、N的相对原子质量分别为12.000000、1.007852、15.994914、14.003074，如果能精确测定化合物的相对分子质量，可以方便由计算机快速计算出所含不同元素的个数，从而确定分子式。但是，随着研究需求的扩大，有机物所含元素越来越复杂，所求有机物分子量也有扩大的趋势，而且质谱仪的误差也有着无法忽略的影响，导致了往往会计算出多个可能解，但是运用传统的筛选方法会删除很多有效的信息。传统方法所包含的同位素分析法，由于峰强度的相对误差很大，所以精度有限，局部最优解的情况经常出现。

发明内容

针对当前领域内对计算机快速、准确解析算法的迫切需求，本发明的目的在于提供一种质谱图分子式自动化快速计算方法，即基于机器线性模型的一个重要问题是如何将每一个峰的最优解作为训练特征，因此，如何从分子式中提取特征是本发明的关键问题。

为达到上述目的，本发明的解决方案是：

一种基于机器学习的质谱图分子式计算方法，其包括以下步骤：

输入已知的质谱图数据；

结合有机物分子式规律遍历搜索出一个峰所有的可能解；

结合分子式的信息确认特征，对多组可能的特征进行排列组合；

根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型；

遍历出所有的可能解并利用训练模型进行筛选。

作为本发明的一种优选实施例，输入已知的质谱图数据为多组实际样本检测所得的质谱图数据，其中包括质核比、峰强度、信噪比以及部分能计算出结果的分子式，训练集包含33816组峰。

作为本发明的一种优选实施例，结合有机物分子式规律遍历搜索出一个峰所有的可能解中，有机物分子式规律为有机物中O/C、H/C比例以及偶氮原则。

遍历所使用的公式如下：

a*m(C)+b*m(H)+c*m(O)+d*m(N)+e*m(S)+f*m(Cl)∈[mz-误差，mz+误差]。其中，a、b、c、d、e、f分别表示碳、氢、氧、氮、硫、氯原子的数量，m(·)表示·原子的精确相对原子质量，如m(C)表示C原子的相对原子质量12.000000，mz为实际质谱图测量的质核比，相对误差在本发明研究过程中取1ppm，即误差等于mz*1/10⁶。

作为本发明的一种优选实施例，结合分子式的信息确认特征，对多组可能的特征进行排列组合，具体包括以下步骤：

依据有机物分子式规律确定可能需要训练的特征；

对所有的特征进行排列组合。

作为本发明的一种优选实施例，根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型，具体包括以下步骤：

结合分子式的信息确认特征中，对多组可能的特征进行排列组合中特征的所有排列组合分别训练；

计算出测试组每一个峰所有的可能解，通过训练的逻辑回归模型确认最优解，与结果比对计算召回率；

依据每一组特征训练模型的召回率确认最优模型用于筛选。

作为本发明的一种优选实施例，遍历出所有的可能解并利用训练模型进行筛选中，训练模型为根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型中的最优模型；遍历的过程与结合有机物分子式规律遍历搜索出一个峰所有的可能解中遍历完全相同，将计算处理的结果输出。

由于采用上述方案，本发明的有益效果是：

第一、本发明提出了通过遍历的方法搜索所有可能解的方法，在使用测试集验证时，可以对输入质谱图的1492组峰中1174组峰计算出分子式，可以利用到输入数据的78.69％，利用率高。原样本实际检测结果得到827组分子式，本发明计算出的1174组分子式中有821组符合原测量结果，召回率达到99.27％，准确率高，故本发明的基于机器学习的质谱图分子式计算方法具有快速、准确率高、对质谱图信息利用率高等优点。

第二、本发明对所有的遍历求解都依据有机物分子式的一般领域知识规律进行筛选，防止分类器过拟合。

第三、本发明对分类特征进行正则化和分块处理，增加了筛选精度，从而适应更大质量范围的质谱图分子式计算。

附图说明

图1为本发明的实施例中基于机器学习的质谱图分子式计算方法的流程图。

图2为本发明的实施例中碳原子数量和DBE关系示意图。

图3为本发明的实施例中碳氢比和碳氧比关系示意图。

具体实施方式

本发明提供了一种基于机器学习的质谱图分子式计算方法。基于机器学习方法，使用遍历方法计算所有的可能解，并使用逻辑回归学习分类器实现最优解的筛选。

以下结合实施例对本发明作进一步的说明。

实施例：

如图1所示，本实施例的基于机器学习的质谱图分子式计算方法包括以下步骤：

S1：输入已知的质谱图数据；

S2：结合有机物分子式规律遍历搜索出一个峰所有的可能解；

S3：结合分子式的信息确认特征，对多组可能的特征进行排列组合；

S4：根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型；

S5：遍历出所有的可能解并利用训练模型进行筛选。

其中，在步骤S1中，输入已知的质谱图数据中质谱图数据为多组实际样本检测所得的质谱图数据，其中包括质核比、峰强度、信噪比以及部分能计算出结果的分子式，训练集包含33816组峰。

在步骤S2中，结合有机物分子式规律遍历搜索出一个峰所有的可能解，具体包括以下步骤：

从质谱图数据中提取质核比和峰强度，通过搜索算法扩大训练集得到92939条记录，其中共有19044条正样本。

清洗样本信息，剔除掉不符合有机物分子式排布的样本，得到62785组样本，将清洗过程加入到搜索算法的筛选流程中。

具体地，步骤S2中，有机物分子式规律为有机物中O/C、H/C比例以及偶氮原则。

遍历所使用的公式如下：

如图2和图3所示，考虑到遍历解可能会违背有机物分子式的一般规律，所以在遍历过程中会对原子个数依据有机物质量进行限制，H元素数量和O元素数量依据C元素数量不同而采用不同的遍历范围，C元素数量依据质量有不同的遍历范围，对N元素采用偶氮原则进行限制。

在步骤S3中，结合分子式的信息确认特征，对多组可能的特征进行排列组合，具体如下：

从分子式各原子数目之间的关系提取原始特征，所谓原始特征就是指分子式中不同元素原子的数目及其之间的关系。假设组建的分子式标准数据集为N(N_1，N_2，…，N_M)，那么分子式可以表示为N＝C_aH_bO_cN_dS_eCl_f，这里a、b、c、d、e和f表示各元素原子数目。接下来需要将a、b、c、d、e、f和质核比进行数学计算得到多个可能的原始特征，对其进行排列组合用于之后的训练模型。

在步骤S4中，根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型，具体包括以下步骤：

依据步骤S1中输入的已知质谱图数据，确认测试集每一个峰的最优解。

Logistic Regression(LR，逻辑回归)在分类的情形下，经过学习之后的LR分类器事实上就是一组权值w₀，w₁，...，w_m。当输入测试样本集中的测试数据时，这一组权值按照与测试数据线性加和的方式，求出一个z值：

z＝w₀+w₁×x₁+w₂×x₂+…+w_m×x_m ①

其中，x₁，x₂，...，x_m是某样本数据的各个特征，维度为m。

之后依照sigmoid函数的形式求出：

因为sigmoid函数的定义域是R，而值域为(0，1)。

因此最主要的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数，每个样本点，都能够通过上述的公式①和②计算出其概率密度。而LR分类器的关键问题就是求出这一组权值w₀，w₁，...，w_m。

对每个训练好的模型进行测试，测试时对每个峰的所有可能解的z值进行排序，取z值最大且大于0.5的可能解为最优解，再与已知结果比对，确定准确率，进而确定特征和最优模型。

在步骤S5中，利用步骤S4确定的最优模型和特征以及公式①，对每一个峰值筛选出最优解，输出到excel并绘制图像。

本发明将分类器得分最高的分子式作为最优解，将最优解的匹配度作为评价指标。计算如下：

实验的预测结果如表1所示：

表1

数据集	精确度
		40D	0.9959
40N	0.9968
		640D	0.9948
640N	0.9833
		PN	0.9554
PD	0.9981

此外，本发明发现训练样本中存在着较为严重的数据分布不平衡问题。例如，在初次组建的分子式数据集中，正样本的数量和负样本的数量分别为19044和73895。本发明会对样本进行预处理，按照有机化合物分子式规律，删除负样本中不符合有机物分子排布的样本，并将删除的方法加入到搜索的算法中，最终使得正样本和负样本的比值约为1∶2，缓解了数据不平衡对实验结果造成的影响。

上述对实施例的描述是为了便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术人员显然可以容易的对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中，而不必经过创造性的劳动。因此，本发明不限于上述实施例。本领域技术人员根据本发明的原理，不脱离本发明的范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于机器学习的质谱图分子式计算方法，其特征在于：其包括以下步骤：

输入已知的质谱图数据；

结合有机物分子式规律遍历搜索出一个峰所有的可能解；

遍历出所有的可能解并利用训练模型进行筛选；

其中，结合有机物分子式规律遍历搜索出一个峰所有的可能解中，有机物分子式规律为有机物中O/C、H/C比例以及偶氮原则；

遍历所使用的公式如下：

a*m(C)+b*m(H)+c*m(O)+d*m(N)+e*m(S)+f*m(Cl)∈[mz-误差，mz+误差]，其中，a、b、c、d、e、f分别表示碳、氢、氧、氮、硫、氯原子的数量，mz为实际质谱图测量的质核比；

结合分子式的信息确认特征，对多组可能的特征进行排列组合中，从分子式各原子数目之间的关系提取原始特征，所谓原始特征就是指分子式中不同元素原子的数目及其之间的关系，假设组建的分子式标准数据集为

那么分子式可以表示为N＝C_aH_bO_cN_dS_eCl_f，这里a、b、c、d、e和f表示各元素原子数目，接下来需要将a、b、c、d、e、f和质核比进行数学计算得到多个可能的原始特征，对其进行排列组合用于之后的训练模型。

2.根据权利要求1所述的基于机器学习的质谱图分子式计算方法，其特征在于：所述输入已知的质谱图数据中质谱图数据为实际样本的质核比、峰强度、信噪比以及计算出结果的分子式，训练集包含33816组峰。

3.根据权利要求1所述的基于机器学习的质谱图分子式计算方法，其特征在于：所述根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型，具体包括以下步骤：

依据每一组特征训练模型的召回率确认最优模型用于筛选。

4.根据权利要求1所述的基于机器学习的质谱图分子式计算方法，其特征在于：所述遍历出所有的可能解并利用训练模型进行筛选中，所述训练模型为根据已知信息确认正确解，利用逻辑回归进行训练，比对不同特征组合的准确率，确认训练特征和训练模型中的最优模型；遍历的过程与所述结合有机物分子式规律遍历搜索出一个峰所有的可能解中遍历完全相同，将计算处理的结果输出。