CN111062411A - 从质谱数据中识别多种化合物的方法、装置和设备 - Google Patents

从质谱数据中识别多种化合物的方法、装置和设备 Download PDF

Info

Publication number
CN111062411A
CN111062411A CN201911077440.6A CN201911077440A CN111062411A CN 111062411 A CN111062411 A CN 111062411A CN 201911077440 A CN201911077440 A CN 201911077440A CN 111062411 A CN111062411 A CN 111062411A
Authority
CN
China
Prior art keywords
data
mass spectrum
identifying
data set
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911077440.6A
Other languages
English (en)
Inventor
王振宇
秦东风
魏剑
陈严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911077440.6A priority Critical patent/CN111062411A/zh
Publication of CN111062411A publication Critical patent/CN111062411A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrochemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明实施例公开了一种从质谱数据中识别多种化合物的方法、装置和设备,涉及混合物分析领域,该方法包括:提供混合物质谱数据集;对所述化合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型;根据所述识别模型对目标质谱数据进行识别得到化合物信息。本发明分析串联质谱数据中的化学峰信息,且使用的模型可以提取不同化合物的特征并对多标记质谱数据进行分类。

Description

从质谱数据中识别多种化合物的方法、装置和设备
技术领域
本发明实施例涉及混合物分析领域,具体涉及从质谱数据中识别多种化合物的方法、装置和设备。
背景技术
混合物分析可以提供比单个组分更多的信息。重要的是要检测实际复杂样品中的不同化合物。但是,混合物通常会受到杂质和噪音的干扰,从而影响分析的准确性。净化和去噪将花费大量算法时间。
质谱法是鉴定纯物质的最强大工具之一。质谱数据包含一系列质荷比(m/z)及其强度。物质定性分析信息,例如相对分子量测定,化学式确定和结构鉴定,可以通过手动比较测得的质谱图和标准质谱图来获得。质谱图中的峰表示样品中离子的分布。根据分辨率差异,质谱数据可分为两种类型:高分辨率和低分辨率。低分辨率质谱只能区分不同的标称质量离子。高分辨率质谱可以计算每种电离化合物的精确质量。高分辨率质谱也可以区分同位素。同位素的存在,以及样品的纯度,电子噪声或质谱仪的准确性,都会严重影响高分辨率的质谱数据。即使在精密的实验条件控制下,也很难获得相同的质谱。
但是,在现实生活中,通常将不同的化合物混合在一起。由于质谱的复杂性,经常使用数学方法来检测混合样品中的特定化合物。机器学习作为分析化学中的有效工具已被长期使用。偏最小二乘(Partial Least Squares,PLS)是用于化合物检测的方法之一。但是,当数据量很大时,PLS不能很好地工作。
通常,人工神经网络的良好性能通常基于大规模数据集。此外,质谱输入数据的大尺寸是“数据-响应”相关问题的自然特征。但是,少量的样本和较大的输入构成了现实数据集的典型难题。在分析化学中,主要成分分析(Principal Components Analysis,PCA)通常用于数据的降维。尽管PCA具有广泛的应用领域,例如消除冗余和消除数据噪声的数据压缩,但PCA只能获得单一方向的主要成分,贡献率小的主成分通常可能包含有关样本差异的重要信息。在某些情况下,这些主要组成部分不能忽略。
发明内容
本发明实施例的目的在于提供从质谱数据中识别多种化合物的方法、装置和设备,用以解决现有混合物分析准确性低和效率低的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种从质谱数据中识别多种化合物的方法,包括:提供混合物质谱数据集;对所述化合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;对所述预处理数据集使用卷积神经网络(Convolutional NeuralNetworks,CNN)进行训练得到用于从质谱数据中识别化合物的识别模型;根据所述识别模型对目标质谱数据进行识别得到化合物信息。
进一步地,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。
进一步地,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。
进一步地,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。
第二方面,本发明实施例还提供一种从质谱数据中识别多种化合物的装置,包括:提供模块,用于提供混合物质谱数据集;模型训练模块,用于对所述化合物质谱数据集进行数据预处理得到预处理数据集,并对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型,其中,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;模型使用模块,用于根据所述识别模型对目标质谱数据进行识别得到化合物信息。
进一步地,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。
进一步地,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。
进一步地,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的从质谱数据中识别多种化合物的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于执行如第一方面所述的从质谱数据中识别多种化合物的方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例提供的从质谱数据中识别多种化合物的方法、装置和设备,通过卷积神经网络可以减少数据预处理的时间,并可以提取不同化合物的特征并对多标记质谱数据进行分类。本发明对混合物分析准确性高和效率高。
附图说明
图1为本发明实施例的从质谱数据中识别多种化合物的方法的流程图;
图2为本发明实施例中使用卷积神经网络进行卷积运算的示意图;
图3为本发明实施例中添加噪声前后不同能量的质谱图;
图4为本发明实施例中卷积神经网络的流程示意图;
图5为本发明实施例中使用卷积神经网络对真实阳性MS数据进行预测的示意图;
图6为本发明实施例中使用卷积神经网络对假阳性MS数据进行预测的示意图;
图7为本发明实施例中使用卷积神经网络对真实的阴性MS数据进行预测的示意图;
图8为本发明实施例的从质谱数据中识别多种化合物的装置的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”和“连接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明实施例的从质谱数据中识别多种化合物的方法的流程图。如图1所示,本发明实施例的从质谱数据中识别多种化合物的方法,包括:
S1:提供混合物质谱数据集。
S2:对混合物质谱数据集进行数据预处理得到预处理数据集。其中,数据预处理包括对混合物质谱数据集添加噪声和对混合物质谱数据集添加化合物类别标签。
示例性地,以混合物质谱数据集为基础,70%作为训练集20%作为验证集、10%作为测试集。数据添加一部分噪声来保证训练后模型的鲁棒性与泛用性,噪声是通过高斯函数来加的高斯噪声。此外需要对数据进行标注、一共有20种化合物类别,为数据集各个质谱数据所含化合物类别打上标签(one-hot形式)。
S3:对预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型。其中,卷积神经网络包括两个卷积层、一个变平层和三个全连接层。卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到识别模型。卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。
具体地,卷积神经网络首先卷积层的向前传播过程是,通过卷积核对输入数据进行卷积操作得到卷积操作结果。
数据在实际的网络中的计算过程中。3*3的卷积核采用步长为1的卷积方式,卷积整个输入数据,形成了局部感受野,然后与其进行卷积算法,即权值矩阵与数据的特征值进行加权和(再加上一个偏置量),然后通过激活函数得到输出。
卷积层提取的特征作为输入传到池化层,通过池化层的池化操作,降低数据的维度,可以避免过拟合。最大池化方法也就是选取特征图中的最大值。特征图进过卷积层和下采样层的特征提取之后,将提取出来的特征传到全连接层中,通过全连接层,进行分类,获得分类模型,得到最后的结果,参数的个数=全连接层中节点的个数×输入的特征的个数+节点的个数(偏置量)。
得到输出矩阵后,经过激励函数f(y)的激活,传入下一层,卷积神经网络输出的结果与期望值不相符时,则进行反向传播过程。求出结果与期望值的误差,再将误差一层一层的返回,计算出每一层的误差,然后进行权值更新。该过程的主要目的是通过训练样本和期望值来调整网络权值。
误差的传递过程为:数据从输入层到输出层,期间经过了卷积层,下采样层,全连接层,而数据在各层之间传递的过程中难免会造成数据的损失,则也就导致了误差的产生。而每一层造成的误差值是不一样的,所以当求出网络的总误差之后,需要将误差传入网络中,求得该各层对于总的误差应该承担多少比重。
反向传播的训练过程的第一步为计算出网络总的误差:求出输出层的输出与目标值之间为误差,求出网络的总差之后,进行反向传播过程,将误差传入输出层的上一层全连接层,求出在该层中,产生了多少误差。而网络的误差又是由组成该网络的神经元所造成的,所以求出每个神经元在网络中的误差。求上一层的误差,需要找出上一层中哪些节点与该输出层连接,然后用误差乘以节点的权值,求得每个节点的误差。
卷积层的误差更新过程为:将误差矩阵当作卷积核,卷积输入的特征图,并得到了权值的偏差矩阵,然后与原先的卷积核的权值相加,并得到了更新后的卷积核,全连接层中的权值更新过程为:求出权值的偏导数值:学习速率乘以激励函数的倒数乘以输入值;原先的权值加上偏导值得到新的权值矩阵。
图2为本发明实施例中使用卷积神经网络进行卷积运算的示意图,如图2所示,此操作称为“卷积”。使用共享卷积内核,CNN对高维数据处理没有压力。同时,CNN无需手动选择特征即可获得出色的特征分类效果。与其他技术相比,CNN还可以利用数据的几何特性而不受噪声的影响。
S4:根据识别模型对目标质谱数据进行识别得到化合物信息。
为使本领域人员进一步理解本发明,将通过以下实施例进行具体说明。
假设混合物的质谱等于各个化合物的质谱加权和。混合物的质谱图可由数组表示:
Figure BDA0002262933100000061
其中,xi,j是第j个混合物中第i个质量的强度,n是混合物中的组分数,aik是纯化合物k中质量i的强度,skj是化合物k在中的浓度混合物的来源j。则上述公式可以表示为:
Xm=AS
其中Xm是i×j矩阵,A是i×k矩阵,S是k×j矩阵;i、j和k分别代表不同混合物、质量和纯化合物的数量,X、A和S分别代表重叠的质谱数据矩阵、纯化合物矩阵和浓度矩阵。
根据线性混合模型的假设,可以将来自多个光谱的峰合并为一个光谱。如果它们的m/z值之差小于10ppm,则强度和来自输入光谱的m/z值将汇总为一个峰。同时,为了呈现化学噪声,部分添加了高斯噪声以模拟真实数据:
X=Xm+Xn
其中,X是用于训练和测试模型的仿真数据矩阵,Xm是重叠的质谱数据矩阵,而Xn是高斯噪声矩阵。
为了测试模型的去噪能力,选择了不同强度的噪声添加到模型中,如图3所示。图3为本发明实施例中添加噪声前后不同能量的质谱图。其中,(a)、(b)和(c)是无噪声的MS数据;(d)、(e)和(f)是具有平均强度为1且方差为0.2的噪声的MS数据;(g)、(h)和(i)是具有平均强度为4,方差为0.8的噪声的MS数据;(j)、(k)和(l)是具有平均强度为8,方差为1.6的噪声的MS数据。
为了模拟人体中发现的小分子代谢物的质谱数据,人类代谢组中的20种纯LC-MS/MS阳性数据化合物(1-甲基组氨酸,1,3-二氨基丙烷,2-酮丁酸等)选择数据库(HMDB)作为目标标签,并且每个标签都具有三种能量(10、20、40eV)。HMDB是一个基于Web的代谢组学数据库,其中包含有关人类代谢物的全面信息。与LC-MS数据相比,串联质谱(LC-MS/MS)包含更多的分子结构信息,可以减少数据中的杂质干扰。基于线性混合模型,已生成了3000个具有随机浓度(范围为0至100%)的化合物的模拟数据。该数据集分为1920个训练集,480个验证集和600个测试集。在标签数据中,将1/0设置为指示指定化合物的存在/不存在。
通过数据预处理步骤(平滑,基线校正,归一化,峰选择和峰校准)将无关信息的影响最小化。特征选择或降维对于传统的机器学习算法很重要。有了更多功能,这些传统算法可能会花费更多时间分析功能和训练模型。它将导致“维度灾难”,从而产生一个非常复杂的模型。为了收集自我信息,而不是外部变量和噪声(例如杂散光,样本背景),必须使用合适的特征选择算法。它可以在光谱信息和含量值之间传递良好的相关性。PCA也通常与SVM一起用于分析MS数据。作为一种端到端算法,DNN可以直接处理原始数据,对特征进行去噪和提取。
利用特定的CNN来学习直接从原始MS数据中识别重叠的化合物。但是,DNN是一种基于大规模数据集的算法,在实际场景中很难获得足够的MS数据,所以选择仿真数据来训练模型。最后,将训练有素的模型应用于鉴定测试样品中的目标化合物。Keras和Scikit-learn python模块也被用来构建模型。
图4为本发明实施例中卷积神经网络的流程示意图。如图4所示,利用间隔为10ppm(从17到875m/z)的524m/z窗口,可以将每种能量的MS数据展平为一维矩阵。具有输入特性,一维卷积层可以进一步简化模型。卷积层可以识别不同能量之间的信息。应用最大池化层来抽象该区域的特征并降低模型的耦合度。卷积层和池化层用于特征提取。将完全连接的层应用于分类。在最后一个完全连接的层中,使用S型激活来输出每种化合物存在的概率。通常,模型阈值设置为0.5。该阈值也可以根据实际情况进行修改。
从图4可以看出,卷积神经网络采用MS数据作为输入,可以有效地从大量样本中学习相应的特征,并避免了复杂的特征提取过程。
本发明使用损失函数来估计模型的预测值与真实值之间的不一致程度。损失函数越小,模型的鲁棒性越好。在机器学习的两标签分类问题中,交叉熵通常用作损失函数。在这项工作中,分类交叉熵(Categorical Cross entropy,CCE)被用作多标签分类的损失函数,可快速训练模型并需要较少的内存:
Figure BDA0002262933100000081
其中x是输入样本,C是要分类的类别总数,y是与第i个类别相对应的实数标签,f是相应的模型输出值。
由于假定每个标签的输出都是独立的,所以多标签二进制分类的常见配置是分类交叉熵和S形激活函数。每个类别的输出对应一个S形。Adam算法被用作优化器,以基于训练数据迭代更新神经网络权重。Adam的主要优点是,经过偏移量校正后,每次迭代学习率都有一定范围,这使得参数相对稳定。经过100个星期的训练后,每种化合物用于目标化合物检测的模型在测试集上的准确性,查全率和精密度列于表1。
表1:三种型号的准确性/召回率/精度
Figure BDA0002262933100000091
在表1中,1a表示无噪音的MS数据;2b表示具有噪声的MS数据(平均强度=1,方差=0.2);3c表示具有噪声的MS数据(平均强度=4,方差=0.8);4d表示具有噪声的MS数据(平均强度=8,方差=1.6)。
在表1中,正确率就是一定的待测样本中,分类识别正确的比例。召回率是覆盖面的指标。如化合物存在为正例、有多少正例被分为正例,所以召回率高正确率就低,精度是被分为正例中,真正为正例的比例。
以上三种机器学习模型都可以实现高精度,以检测重叠样品中的多种目标化合物。结果表明,以上三种机器学习模型可以直接从原始MS数据中有效地学习特征。无论噪音多么大,CNN始终都比其他两个模型获得更高的精度。实际上,当平均噪声强度为4且方差为0.8时,大多数低强度信息已被噪声覆盖。由于具有良好的自适应性和离群值处理能力,CNN具有最佳的提取功能。此外,对于目标化合物的检测,召回率是更重要的指标。召回反映了正确预测的成分(“正”)占应预测的所有成分(“正”和“负”)的比例。尽管PCA+SVM的精度似乎并不太低,但PCA+SVM的性能却远低于神经网络。由于PCA+SVM模型可预测大量带有阳性标签为假(不会检测到化合物)的样品,因此其召回性能要比DNN和CNN差得多。三种模型的各种类化合物正确率(带有平均强度为1,方差为0.2的噪声的MS数据)的比较如表2所示。
表2各种类化合物图正确率情况表
化合物种类 SVM检测正负正确率 DNN检测正负准确率 CNN分类正负准确率
种类1 0.84 0.90 0.97
种类2 0.84 0.94 0.98
种类3 0.85 0.97 0.96
种类4 0.86 0.97 0.99
种类5 0.73 0.91 0.98
种类6 0.86 0.94 0.93
种类7 0.89 0.99 0.98
种类8 0.9 0.97 0.99
种类9 0.74 0.92 0.97
种类10 0.82 0.92 0.92
种类11 0.89 0.94 0.92
种类12 0.84 0.93 0.94
种类13 0.91 0.95 0.93
种类14 0.82 0.98 0.95
种类15 0.90 0.96 0.98
种类16 0.82 0.90 0.96
种类17 0.78 0.95 0.90
种类18 0.80 0.98 0.95
种类19 0.80 0.96 0.98
种类20 0.84 0.97 0.96
平均 0.84 0.95 0.97
根据表2可知,DNN和CNN的区分性能优于PCA+SVM。DNN的第1类和第16类下的面积小于其他类(平均面积为0.95),这表明DNN模型对于部分类而言不够鲁棒。平均精度(Average Precision,AP)分数可以将精度调用曲线总结为在每个阈值处达到的精度的加权平均值,以估计以下三个模型:
Figure BDA0002262933100000101
其中,Pn和Rn是第n个阈值的精度和召回率。AP可以被认为是阳性样品的分数。在多标签分类中,平均精度均值(Mean Average Precision,mAP)是一种常见的评估指标:
Figure BDA0002262933100000111
其中,APn是第n个标签的平均精度。mAP等于平均ROC曲线下的面积。PCA+SVM的分类器性能较差。与DNN相比,CNN模型对所有化合物的目标检测性能更稳定。
表3:三种型号的精度/召回率/精度(添加的干扰数据)
Figure BDA0002262933100000112
表4:三种模型的平均精度得分(添加的干扰数据)
PCA+SVM DNN CNN
平均精度得分 0.65 0.80 0.95
根据表3和表4,添加的化合物越多,CNN的错误分类的可能性就越小。CNN对于大样本检测更可行。
与传统的机器学习算法相比,深度学习不需要太多的预处理或去噪。使用SVM或深度学习在单个质谱数据分类中表现良好。在混合质谱数据的多标签目标检测中,CNN比SVM和DNN表现更好。本发明使用600MS数据进行测试。使用CNN模型,有424个MS数据可检测到所有化合物(真阳性),有173个MS数据可检测到部分化合物(假阳性),还有7个MS数据可预测不存在的化合物(真阴性)。使用DNN模型,可以检测到所有化合物的293MS数据,可以检测到部分化合物的294MS数据,可以预测不存在的化合物的23MS数据。使用SVM模型,有282个MS数据可检测到所有化合物,而有318MS数据可检测到部分化合物。测试MS数据的结果表明,CNN是用于混合MS数据的多标记目标检测的最优模型。实际上,SVM对两标签分类问题有很好的效果,但在多标签分类问题中效果不佳。与DNN相比,CNN在混合MS数据上具有更好的性能。
图5为本发明实施例中使用卷积神经网络对真实阳性MS数据进行预测的示意图,图6为本发明实施例中使用卷积神经网络对假阳性MS数据进行预测的示意图,图7为本发明实施例中使用卷积神经网络对真实的阴性MS数据进行预测的示意图。
本发明选择三个MS数据来分析CNN模型的预测。如图5所示,MS数据由化合物3,化合物13,化合物18和所有化合物组成。在图6中,MS数据由化合物4,化合物18,化合物15和化合物16组成,但化合物4在模型预测中未包含。发现化合物4的强度比其他三种化合物小得多,因此很难检测到该MS数据中的化合物4。在图7中,MS数据由化合物6,化合物8,化合物16和化合物18组成。通过观察,我们发现化合物6和化合物16与化合物8相比要小得多,并且两者的强度都较小。预测化合物6的存在是错误的,而未检测到化合物6。
CNN具有从复杂输入中学习低级功能的良好能力。同时,由于滤波器的鲁棒性,CNN受噪声的影响较小。如果有更多不同能量的MS数据作为输入,CNN将了解更多不同能量之间的关系。一旦添加了更多不同能量的MS数据作为输入,甚至是能量轴上的连续信号,就需要对CNN的体系结构进行进一步研究,包括深度,交替层和过滤器尺寸,以提高学习和检测目标化合物的能力。选择能量而不是时间作为输入通道之一的原因是,能量是较容易控制的可变因素。
包含少量样本的光谱数据集的分析是包括DNN,CNN等在内的深度学习的瓶颈。通常,这些模型需要大量数据集才能学习样本特征。]因此,当光谱数据集较小时,深度学习可能无法在目标检测中获得良好的性能。基于线性混合模型的假设,将模拟数据添加到数据集中是解决训练数据不足的一种方法。
与传统算法相比,深度学习具有更大的可传递性,并且受数据的影响较小。通过从不同仪器输入MS数据来训练模型,添加更多的偏移MS数据将使模型具有更强的通用性。本发明的实施例的从质谱数据中识别多种化合物的方法可以从串联质谱数据中有效地实现多种化合物的识别。
图8为本发明实施例的从质谱数据中识别多种化合物的装置的结构框图。如图2所示,本发明实施例的从质谱数据中识别多种化合物的装置,包括:提供模块100、模型训练模块200和模型使用模块300。
其中,提供模块100用于提供混合物质谱数据。模型训练模块200用于对混合物质谱数据集进行数据预处理得到预处理数据集,并对预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型。其中,数据预处理包括对混合物质谱数据集添加噪声和对混合物质谱数据集添加化合物类别标签。模型使用模块300用于根据识别模型对目标质谱数据进行识别得到化合物信息。
在本发明的一个实施例中,卷积神经网络包括两个卷积层、一个变平层和三个全连接层。
在本发明的一个实施例中,卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到识别模型。
在本发明的一个实施例中,卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。
需要说明的是,本发明实施例的从质谱数据中识别多种化合物的装置的具体实施方式与本发明实施例的从质谱数据中识别多种化合物的方法的具体实施方式类似,具体参见从质谱数据中识别多种化合物的方法部分的描述,为了减少冗余,不做赘述。
本发明的实施例公开一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如上述的从质谱数据中识别多种化合物的方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的从质谱数据中识别多种化合物的方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,简称ESDRAM)、同步链接动态随机存取存储器(Synchronous Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种从质谱数据中识别多种化合物的方法,其特征在于,包括:
提供混合物质谱数据集;
对所述混合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;
对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型;
根据所述识别模型对目标质谱数据进行识别得到化合物信息。
2.根据权利要求1所述的从质谱数据中识别多种化合物的方法,其特征在于,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。
3.根据权利要求1所述的从质谱数据中识别多种化合物的方法,其特征在于,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。
4.根据权利要求1所述的从质谱数据中识别多种化合物的方法,其特征在于,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。
5.一种从质谱数据中识别多种化合物的装置,其特征在于,包括:
提供模块,用于提供混合物质谱数据集;
模型训练模块,用于对所述混合物质谱数据集进行数据预处理得到预处理数据集,并对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型,其中,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;
模型使用模块,用于根据所述识别模型对目标质谱数据进行识别得到化合物信息。
6.根据权利要求5所述的从质谱数据中识别多种化合物的装置,其特征在于,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。
7.根据权利要求5所述的从质谱数据中识别多种化合物的装置,其特征在于,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。
8.根据权利要求5所述的从质谱数据中识别多种化合物的装置,其特征在于,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-4任一项所述的从质谱数据中识别多种化合物的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的从质谱数据中识别多种化合物的方法。
CN201911077440.6A 2019-11-06 2019-11-06 从质谱数据中识别多种化合物的方法、装置和设备 Pending CN111062411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911077440.6A CN111062411A (zh) 2019-11-06 2019-11-06 从质谱数据中识别多种化合物的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911077440.6A CN111062411A (zh) 2019-11-06 2019-11-06 从质谱数据中识别多种化合物的方法、装置和设备

Publications (1)

Publication Number Publication Date
CN111062411A true CN111062411A (zh) 2020-04-24

Family

ID=70297685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911077440.6A Pending CN111062411A (zh) 2019-11-06 2019-11-06 从质谱数据中识别多种化合物的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111062411A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554176A (zh) * 2021-06-24 2021-10-26 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN113960152A (zh) * 2021-10-18 2022-01-21 北方工业大学 一种基于离子迁移谱的痕量爆炸物识别方法及系统
CN115406852A (zh) * 2021-12-28 2022-11-29 中山小池科技有限公司 基于多标签卷积神经网络的织物纤维成分定性方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070221835A1 (en) * 2006-03-06 2007-09-27 Daniel Raftery Combined Spectroscopic Method for Rapid Differentiation of Biological Samples
CN103293141A (zh) * 2013-03-25 2013-09-11 江苏省质量安全工程研究院 基于离子迁移谱/质谱/拉曼光谱融合技术的白酒年份识别方法
US20150283206A1 (en) * 2014-04-04 2015-10-08 Biodesix, Inc. Treatment selection for lung cancer patients using mass spectrum of blood-based sample
US20180301326A1 (en) * 2017-01-26 2018-10-18 Marshall Bern Methods and apparatuses for determining the intact mass of large molecules from mass spectrographic data
US20190034586A1 (en) * 2017-07-28 2019-01-31 The Translational Genomics Research Institute Methods of Profiling Mass Spectral Data Using Neural Networks
CN109376777A (zh) * 2018-10-18 2019-02-22 四川木牛流马智能科技有限公司 基于深度学习的宫颈癌组织病理学图像分析方法及设备
CN109978041A (zh) * 2019-03-19 2019-07-05 上海理工大学 一种基于交替更新卷积神经网络的高光谱图像分类方法
CN110110743A (zh) * 2019-03-26 2019-08-09 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070221835A1 (en) * 2006-03-06 2007-09-27 Daniel Raftery Combined Spectroscopic Method for Rapid Differentiation of Biological Samples
CN103293141A (zh) * 2013-03-25 2013-09-11 江苏省质量安全工程研究院 基于离子迁移谱/质谱/拉曼光谱融合技术的白酒年份识别方法
US20150283206A1 (en) * 2014-04-04 2015-10-08 Biodesix, Inc. Treatment selection for lung cancer patients using mass spectrum of blood-based sample
US20180301326A1 (en) * 2017-01-26 2018-10-18 Marshall Bern Methods and apparatuses for determining the intact mass of large molecules from mass spectrographic data
US20190034586A1 (en) * 2017-07-28 2019-01-31 The Translational Genomics Research Institute Methods of Profiling Mass Spectral Data Using Neural Networks
CN109376777A (zh) * 2018-10-18 2019-02-22 四川木牛流马智能科技有限公司 基于深度学习的宫颈癌组织病理学图像分析方法及设备
CN109978041A (zh) * 2019-03-19 2019-07-05 上海理工大学 一种基于交替更新卷积神经网络的高光谱图像分类方法
CN110110743A (zh) * 2019-03-26 2019-08-09 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554176A (zh) * 2021-06-24 2021-10-26 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN113554176B (zh) * 2021-06-24 2023-09-05 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN113960152A (zh) * 2021-10-18 2022-01-21 北方工业大学 一种基于离子迁移谱的痕量爆炸物识别方法及系统
CN115406852A (zh) * 2021-12-28 2022-11-29 中山小池科技有限公司 基于多标签卷积神经网络的织物纤维成分定性方法

Similar Documents

Publication Publication Date Title
Berrar Cross-validation.
US8731839B2 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
CN108182259B (zh) 基于深度长短期记忆神经网络对多变量时间序列分类方法
CN109543763B (zh) 一种基于卷积神经网络的拉曼光谱分析方法
JP7250126B2 (ja) 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ
CN111062411A (zh) 从质谱数据中识别多种化合物的方法、装置和设备
US20210081798A1 (en) Neural network method and apparatus
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
US20210097345A1 (en) Computer architecture for object detection using point-wise labels
CN111008898B (zh) 评估模型解释工具的方法和装置
JP7214863B2 (ja) 人工画像生成用コンピュータアーキテクチャ
Gundry et al. Inclusion of multiple cycling of potential in the deep neural network classification of voltammetric reaction mechanisms
US20220012613A1 (en) System and method for evaluating machine learning model behavior over data segments
CN113555110B (zh) 一种训练多疾病转诊模型的方法及设备
CN109063750B (zh) 基于cnn和svm决策融合的sar目标分类方法
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Jang et al. Decision fusion approach for detecting unknown wafer bin map patterns based on a deep multitask learning model
EP3901791A1 (en) Systems and method for evaluating identity disclosure risks in synthetic personal data
CN114093435A (zh) 一种基于深度学习的化学分子相关水溶性预测方法
US11526693B1 (en) Sequential ensemble model training for open sets
US20230092949A1 (en) System and method for estimating model metrics without labels
US20220269991A1 (en) Evaluating reliability of artificial intelligence
Foldager et al. On the role of model uncertainties in Bayesian optimisation
Vutov et al. Multiple two‐sample testing under arbitrary covariance dependency with an application in imaging mass spectrometry
US11676391B2 (en) Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424