CN113484400B - 基于机器学习的质谱图分子式计算方法 - Google Patents
基于机器学习的质谱图分子式计算方法 Download PDFInfo
- Publication number
- CN113484400B CN113484400B CN202110747845.7A CN202110747845A CN113484400B CN 113484400 B CN113484400 B CN 113484400B CN 202110747845 A CN202110747845 A CN 202110747845A CN 113484400 B CN113484400 B CN 113484400B
- Authority
- CN
- China
- Prior art keywords
- molecular formula
- training
- mass spectrogram
- confirming
- traversing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于机器学习的质谱图分子式计算方法,具体步骤包括:输入已知的质谱图数据;根据有机物分子式领域知识规律遍历搜索出一个峰所有的可能解;结合分子式的信息确认特征,对多组可能的特征进行排列组合;根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的召回率,确认训练特征和训练模型;遍历出所有的可能解并利用训练模型进行筛选。本发明对所有的遍历求解都依据有机物分子式的一般领域知识规律进行筛选,防止分类器过拟合,并对分类特征进行正则化和分块处理,增加了筛选精度;故本发明的基于机器学习的质谱图分子式计算方法具有快速、准确率高、对质谱图信息利用率高等优点。
Description
技术领域
本发明属于计算机应用、化学分析技术领域,具体涉及一种基于机器学习的质谱图分子式计算方法。
背景技术
用不同高度线段表征离子相对丰度,以位置表征不同质核比所构成的质谱图是质谱分析的依据。质谱图能够提供分子结构的许多信息,是对纯物质进行鉴定的最有力工具之一,主要应用于相对分子质量测定、分子式确定、结构鉴定及定量分析等方面。
质谱仪的各种离子源离子化途径各不相同,因此所形成的质谱图不尽相同,而且由于离子峰比较多使得质谱图较复杂,区分质谱图中众多离子峰所对应离子的类型,可以获取质谱图中所蕴含的大量分析信息。利用质谱图上分子离子峰的质荷比可以准确地确定化合物的相对分子质量。
过去常用同位素峰相对强度法来确定有机化合物的分子式,随着高分辨质谱仪器的发展,目前主要用高分辨质谱法确定分子式。因为C、H、O、N的相对原子质量分别为12.000000、1.007852、15.994914、14.003074,如果能精确测定化合物的相对分子质量,可以方便由计算机快速计算出所含不同元素的个数,从而确定分子式。但是,随着研究需求的扩大,有机物所含元素越来越复杂,所求有机物分子量也有扩大的趋势,而且质谱仪的误差也有着无法忽略的影响,导致了往往会计算出多个可能解,但是运用传统的筛选方法会删除很多有效的信息。传统方法所包含的同位素分析法,由于峰强度的相对误差很大,所以精度有限,局部最优解的情况经常出现。
发明内容
针对当前领域内对计算机快速、准确解析算法的迫切需求,本发明的目的在于提供一种质谱图分子式自动化快速计算方法,即基于机器线性模型的一个重要问题是如何将每一个峰的最优解作为训练特征,因此,如何从分子式中提取特征是本发明的关键问题。
为达到上述目的,本发明的解决方案是:
一种基于机器学习的质谱图分子式计算方法,其包括以下步骤:
输入已知的质谱图数据;
结合有机物分子式规律遍历搜索出一个峰所有的可能解;
结合分子式的信息确认特征,对多组可能的特征进行排列组合;
根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型;
遍历出所有的可能解并利用训练模型进行筛选。
作为本发明的一种优选实施例,输入已知的质谱图数据为多组实际样本检测所得的质谱图数据,其中包括质核比、峰强度、信噪比以及部分能计算出结果的分子式,训练集包含33816组峰。
作为本发明的一种优选实施例,结合有机物分子式规律遍历搜索出一个峰所有的可能解中,有机物分子式规律为有机物中O/C、H/C比例以及偶氮原则。
遍历所使用的公式如下:
a*m(C)+b*m(H)+c*m(O)+d*m(N)+e*m(S)+f*m(Cl)∈[mz-误差,mz+误差]。其中,a、b、c、d、e、f分别表示碳、氢、氧、氮、硫、氯原子的数量,m(·)表示·原子的精确相对原子质量,如m(C)表示C原子的相对原子质量12.000000,mz为实际质谱图测量的质核比,相对误差在本发明研究过程中取1ppm,即误差等于mz*1/106。
作为本发明的一种优选实施例,结合分子式的信息确认特征,对多组可能的特征进行排列组合,具体包括以下步骤:
依据有机物分子式规律确定可能需要训练的特征;
对所有的特征进行排列组合。
作为本发明的一种优选实施例,根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型,具体包括以下步骤:
结合分子式的信息确认特征中,对多组可能的特征进行排列组合中特征的所有排列组合分别训练;
计算出测试组每一个峰所有的可能解,通过训练的逻辑回归模型确认最优解,与结果比对计算召回率;
依据每一组特征训练模型的召回率确认最优模型用于筛选。
作为本发明的一种优选实施例,遍历出所有的可能解并利用训练模型进行筛选中,训练模型为根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型中的最优模型;遍历的过程与结合有机物分子式规律遍历搜索出一个峰所有的可能解中遍历完全相同,将计算处理的结果输出。
由于采用上述方案,本发明的有益效果是:
第一、本发明提出了通过遍历的方法搜索所有可能解的方法,在使用测试集验证时,可以对输入质谱图的1492组峰中1174组峰计算出分子式,可以利用到输入数据的78.69%,利用率高。原样本实际检测结果得到827组分子式,本发明计算出的1174组分子式中有821组符合原测量结果,召回率达到99.27%,准确率高,故本发明的基于机器学习的质谱图分子式计算方法具有快速、准确率高、对质谱图信息利用率高等优点。
第二、本发明对所有的遍历求解都依据有机物分子式的一般领域知识规律进行筛选,防止分类器过拟合。
第三、本发明对分类特征进行正则化和分块处理,增加了筛选精度,从而适应更大质量范围的质谱图分子式计算。
附图说明
图1为本发明的实施例中基于机器学习的质谱图分子式计算方法的流程图。
图2为本发明的实施例中碳原子数量和DBE关系示意图。
图3为本发明的实施例中碳氢比和碳氧比关系示意图。
具体实施方式
本发明提供了一种基于机器学习的质谱图分子式计算方法。基于机器学习方法,使用遍历方法计算所有的可能解,并使用逻辑回归学习分类器实现最优解的筛选。
以下结合实施例对本发明作进一步的说明。
实施例:
如图1所示,本实施例的基于机器学习的质谱图分子式计算方法包括以下步骤:
S1:输入已知的质谱图数据;
S2:结合有机物分子式规律遍历搜索出一个峰所有的可能解;
S3:结合分子式的信息确认特征,对多组可能的特征进行排列组合;
S4:根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型;
S5:遍历出所有的可能解并利用训练模型进行筛选。
其中,在步骤S1中,输入已知的质谱图数据中质谱图数据为多组实际样本检测所得的质谱图数据,其中包括质核比、峰强度、信噪比以及部分能计算出结果的分子式,训练集包含33816组峰。
在步骤S2中,结合有机物分子式规律遍历搜索出一个峰所有的可能解,具体包括以下步骤:
从质谱图数据中提取质核比和峰强度,通过搜索算法扩大训练集得到92939条记录,其中共有19044条正样本。
清洗样本信息,剔除掉不符合有机物分子式排布的样本,得到62785组样本,将清洗过程加入到搜索算法的筛选流程中。
具体地,步骤S2中,有机物分子式规律为有机物中O/C、H/C比例以及偶氮原则。
遍历所使用的公式如下:
a*m(C)+b*m(H)+c*m(O)+d*m(N)+e*m(S)+f*m(Cl)∈[mz-误差,mz+误差]。其中,a、b、c、d、e、f分别表示碳、氢、氧、氮、硫、氯原子的数量,m(·)表示·原子的精确相对原子质量,如m(C)表示C原子的相对原子质量12.000000,mz为实际质谱图测量的质核比,相对误差在本发明研究过程中取1ppm,即误差等于mz*1/106。
如图2和图3所示,考虑到遍历解可能会违背有机物分子式的一般规律,所以在遍历过程中会对原子个数依据有机物质量进行限制,H元素数量和O元素数量依据C元素数量不同而采用不同的遍历范围,C元素数量依据质量有不同的遍历范围,对N元素采用偶氮原则进行限制。
在步骤S3中,结合分子式的信息确认特征,对多组可能的特征进行排列组合,具体如下:
从分子式各原子数目之间的关系提取原始特征,所谓原始特征就是指分子式中不同元素原子的数目及其之间的关系。假设组建的分子式标准数据集为N(N_1,N_2,…,N_M),那么分子式可以表示为N=CaHbOcNdSeClf,这里a、b、c、d、e和f表示各元素原子数目。接下来需要将a、b、c、d、e、f和质核比进行数学计算得到多个可能的原始特征,对其进行排列组合用于之后的训练模型。
在步骤S4中,根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型,具体包括以下步骤:
依据步骤S1中输入的已知质谱图数据,确认测试集每一个峰的最优解。
Logistic Regression(LR,逻辑回归)在分类的情形下,经过学习之后的LR分类器事实上就是一组权值w0,w1,...,wm。当输入测试样本集中的测试数据时,这一组权值按照与测试数据线性加和的方式,求出一个z值:
z=w0+w1×x1+w2×x2+…+wm×xm ①
其中,x1,x2,...,xm是某样本数据的各个特征,维度为m。
之后依照sigmoid函数的形式求出:
因为sigmoid函数的定义域是R,而值域为(0,1)。
因此最主要的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数,每个样本点,都能够通过上述的公式①和②计算出其概率密度。而LR分类器的关键问题就是求出这一组权值w0,w1,...,wm。
对每个训练好的模型进行测试,测试时对每个峰的所有可能解的z值进行排序,取z值最大且大于0.5的可能解为最优解,再与已知结果比对,确定准确率,进而确定特征和最优模型。
在步骤S5中,利用步骤S4确定的最优模型和特征以及公式①,对每一个峰值筛选出最优解,输出到excel并绘制图像。
本发明将分类器得分最高的分子式作为最优解,将最优解的匹配度作为评价指标。计算如下:
实验的预测结果如表1所示:
表1
数据集 | 精确度 |
40D | 0.9959 |
40N | 0.9968 |
640D | 0.9948 |
640N | 0.9833 |
PN | 0.9554 |
PD | 0.9981 |
此外,本发明发现训练样本中存在着较为严重的数据分布不平衡问题。例如,在初次组建的分子式数据集中,正样本的数量和负样本的数量分别为19044和73895。本发明会对样本进行预处理,按照有机化合物分子式规律,删除负样本中不符合有机物分子排布的样本,并将删除的方法加入到搜索的算法中,最终使得正样本和负样本的比值约为1∶2,缓解了数据不平衡对实验结果造成的影响。
上述对实施例的描述是为了便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术人员显然可以容易的对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中,而不必经过创造性的劳动。因此,本发明不限于上述实施例。本领域技术人员根据本发明的原理,不脱离本发明的范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (4)
1.一种基于机器学习的质谱图分子式计算方法,其特征在于:其包括以下步骤:
输入已知的质谱图数据;
结合有机物分子式规律遍历搜索出一个峰所有的可能解;
结合分子式的信息确认特征,对多组可能的特征进行排列组合;
根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型;
遍历出所有的可能解并利用训练模型进行筛选;
其中,结合有机物分子式规律遍历搜索出一个峰所有的可能解中,有机物分子式规律为有机物中O/C、H/C比例以及偶氮原则;
遍历所使用的公式如下:
a*m(C)+b*m(H)+c*m(O)+d*m(N)+e*m(S)+f*m(Cl)∈[mz-误差,mz+误差],其中,a、b、c、d、e、f分别表示碳、氢、氧、氮、硫、氯原子的数量,mz为实际质谱图测量的质核比;
2.根据权利要求1所述的基于机器学习的质谱图分子式计算方法,其特征在于:所述输入已知的质谱图数据中质谱图数据为实际样本的质核比、峰强度、信噪比以及计算出结果的分子式,训练集包含33816组峰。
3.根据权利要求1所述的基于机器学习的质谱图分子式计算方法,其特征在于:所述根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型,具体包括以下步骤:
结合分子式的信息确认特征中,对多组可能的特征进行排列组合中特征的所有排列组合分别训练;
计算出测试组每一个峰所有的可能解,通过训练的逻辑回归模型确认最优解,与结果比对计算召回率;
依据每一组特征训练模型的召回率确认最优模型用于筛选。
4.根据权利要求1所述的基于机器学习的质谱图分子式计算方法,其特征在于:所述遍历出所有的可能解并利用训练模型进行筛选中,所述训练模型为根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的准确率,确认训练特征和训练模型中的最优模型;遍历的过程与所述结合有机物分子式规律遍历搜索出一个峰所有的可能解中遍历完全相同,将计算处理的结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110747845.7A CN113484400B (zh) | 2021-07-01 | 2021-07-01 | 基于机器学习的质谱图分子式计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110747845.7A CN113484400B (zh) | 2021-07-01 | 2021-07-01 | 基于机器学习的质谱图分子式计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113484400A CN113484400A (zh) | 2021-10-08 |
CN113484400B true CN113484400B (zh) | 2022-11-22 |
Family
ID=77940066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110747845.7A Active CN113484400B (zh) | 2021-07-01 | 2021-07-01 | 基于机器学习的质谱图分子式计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113484400B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114171130A (zh) * | 2021-10-22 | 2022-03-11 | 西安电子科技大学 | 一种核心岩藻糖鉴定方法、系统、设备、介质及终端 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004536276A (ja) * | 2000-11-16 | 2004-12-02 | シファーゲン バイオシステムズ, インコーポレイテッド | 質量スペクトルを分析する方法 |
WO2004099432A2 (en) * | 2003-05-02 | 2004-11-18 | The Johns Hopkins University | Identification of biomarkers for detecting pancreatic cancer |
WO2018020652A1 (ja) * | 2016-07-29 | 2018-02-01 | 株式会社島津製作所 | 質量分析データ解析装置及び解析方法 |
CN107389779B (zh) * | 2016-11-01 | 2020-05-12 | 苏州芷宁信息科技有限公司 | 一种化学结构的快速分析方法 |
JP6813833B6 (ja) * | 2017-03-30 | 2021-02-10 | 一般財団法人石油エネルギー技術センター | 多成分混合物の分子構造を近似的に特定する方法及びプログラム(CSA1s) |
KR20200050434A (ko) * | 2018-11-01 | 2020-05-11 | 주식회사 노스퀘스트 | 질량 스펙트럼에 기초한 균주 동정 방법 및 장치 |
CN109884302B (zh) * | 2019-03-14 | 2023-02-03 | 北京博远精准医疗科技有限公司 | 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用 |
CN111413444B (zh) * | 2020-05-22 | 2021-10-22 | 南京大学 | 基于特征液质碎片匹配的环境样品中雄激素活性物质的鉴别方法 |
-
2021
- 2021-07-01 CN CN202110747845.7A patent/CN113484400B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113484400A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729721B (zh) | 一种代谢物鉴定及紊乱通路分析方法 | |
WO2012125121A1 (en) | A method, an apparatus, and a computer program product for identifying metabolites from liquid chromatography-mass spectrometry measurements | |
CN116523320B (zh) | 基于互联网大数据的知识产权风险智能分析方法 | |
CN113484400B (zh) | 基于机器学习的质谱图分子式计算方法 | |
US8543625B2 (en) | Methods and systems for analysis of multi-sample, two-dimensional data | |
Huang et al. | Weighting method for feature selection in k-means | |
CN110231328B (zh) | 一种基于半峰高距离法的拉曼光谱定量分析方法 | |
JP2007127652A (ja) | 全同位体の正確なイオン質量測定値を用いた未知化合物の化学実験式の決定 | |
CN111859275B (zh) | 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统 | |
TWI428581B (zh) | 辨識光譜的方法 | |
CN112289386A (zh) | 确定化合物分子量的方法及装置 | |
Wu et al. | Optimization and improvement based on K-Means Cluster algorithm | |
CN115862749A (zh) | 基于Transformer的质谱数据定性方法 | |
CN115952426A (zh) | 基于随机采样的分布式噪音数据聚类方法及用户分类方法 | |
CN115015131A (zh) | 红外光谱训练集样本筛选方法 | |
Nikolikj et al. | Sensitivity Analysis of RF+ clust for Leave-one-problem-out Performance Prediction | |
Doran et al. | A computer program to simplify analysis of mass scan data of organometallic compounds from high‐resolution mass spectrometers | |
CN113744814B (zh) | 基于贝叶斯后验概率模型的质谱数据搜库方法及系统 | |
CN111883214B (zh) | 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置 | |
CN114067169A (zh) | 一种基于卷积神经网络的拉曼光谱分析方法 | |
CN112269854B (zh) | 基于倒排索引的大规模数据相似特征检测方法 | |
Novi Inverardi et al. | Outlier detection through mixtures with an improper component | |
CN114756823B (zh) | 提升花椒光谱模型预测能力的方法 | |
US11990327B2 (en) | Method, system and program for processing mass spectrometry data | |
Conway et al. | Calculation of cross section upper limits combining channels incorporating correlated and uncorrelated systematic uncertainties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |