CN111508565B - 用于确定分析物中是否存在化学元素的质谱法 - Google Patents
用于确定分析物中是否存在化学元素的质谱法 Download PDFInfo
- Publication number
- CN111508565B CN111508565B CN202010062202.4A CN202010062202A CN111508565B CN 111508565 B CN111508565 B CN 111508565B CN 202010062202 A CN202010062202 A CN 202010062202A CN 111508565 B CN111508565 B CN 111508565B
- Authority
- CN
- China
- Prior art keywords
- mass
- peak
- isotope
- mass spectrometry
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 229910052729 chemical element Inorganic materials 0.000 title claims abstract description 49
- 238000004949 mass spectrometry Methods 0.000 title claims abstract description 34
- 239000012491 analyte Substances 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000012706 support-vector machine Methods 0.000 claims abstract description 26
- 239000000126 substance Substances 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 13
- 150000001875 compounds Chemical class 0.000 claims description 46
- 230000000155 isotopic effect Effects 0.000 claims description 35
- 230000009466 transformation Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 13
- 150000002500 ions Chemical class 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 9
- 229910052698 phosphorus Inorganic materials 0.000 claims description 5
- 229910052700 potassium Inorganic materials 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 229910052717 sulfur Inorganic materials 0.000 claims description 5
- 229910052731 fluorine Inorganic materials 0.000 claims description 4
- 229910052740 iodine Inorganic materials 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000005259 measurement Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 13
- 150000001793 charged compounds Chemical class 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 229910052799 carbon Inorganic materials 0.000 description 6
- 229910052757 nitrogen Inorganic materials 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 229910052739 hydrogen Inorganic materials 0.000 description 4
- 238000004811 liquid chromatography Methods 0.000 description 4
- 238000001819 mass spectrum Methods 0.000 description 4
- 101001134169 Homo sapiens Otoferlin Proteins 0.000 description 3
- 102100034198 Otoferlin Human genes 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 239000007789 gas Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013529 biological neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000132 electrospray ionisation Methods 0.000 description 2
- 238000004817 gas chromatography Methods 0.000 description 2
- 238000005468 ion implantation Methods 0.000 description 2
- 238000001871 ion mobility spectroscopy Methods 0.000 description 2
- 238000005040 ion trap Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 2
- 238000011551 log transformation method Methods 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000000575 pesticide Substances 0.000 description 2
- 238000013055 trapped ion mobility spectrometry Methods 0.000 description 2
- 101100328463 Mus musculus Cmya5 gene Proteins 0.000 description 1
- 238000000451 chemical ionisation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000003795 desorption Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000010265 fast atom bombardment Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 238000000176 thermal ionisation mass spectrometry Methods 0.000 description 1
- 239000003440 toxic substance Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0095—Particular arrangements for generating, introducing or analyzing both positive and negative analyte ions
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/26—Mass spectrometers or separator tubes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
- G01N30/7233—Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/02—Details
- H01J49/04—Arrangements for introducing or extracting samples to be analysed, e.g. vacuum locks; Arrangements for external adjustment of electron- or ion-optical components
- H01J49/0431—Arrangements for introducing or extracting samples to be analysed, e.g. vacuum locks; Arrangements for external adjustment of electron- or ion-optical components for liquid samples
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Optics & Photonics (AREA)
- Plasma & Fusion (AREA)
Abstract
本发明涉及一种用于确定(预测)分析物中是否存在化学元素的质谱法,其为降低对分析物注释化学式的复杂性而提供有价值的信息。该方法基于将分析物的测量的同位素模式表示为特征向量,并且使用机器学习算法(如,支持向量机(SVM)或人工神经网络(NN))将特征向量分配到存在/不存在的分类。
Description
技术领域
本发明涉及用于确定化合物中是否存在化学元素的质谱法。
背景技术
质谱法(MS)是一种广泛使用的分析方法,其用于定性和定量识别多种样品中的化合物,包括代谢组学、蛋白质组学、杀虫剂分析、天然化合物识别和制药学。MS可以结合液/气相分离技术,如,液相色谱法(LC)或气相色谱法(GC)。这些联用技术LC/MS和GC/MS对于检测、识别和定量复杂混合物中的化合物是极其有用的。在另一种联用技术中,MS或LC/MS与离子迁移谱(IMS)结合。
质谱技术包括将样品的化合物转化为气相,在离子源中电离化合物,在质量分析器中根据质荷比分离化合物的分子离子,并检测分离的分子离子。质荷比通常由符号“m/z”表示,其中“m”是离子质量,“z”是分子离子的基本电荷数。可选地,可以使分子离子成为碎片,以形成碎片离子,然后根据质荷比将碎片离子分离并检测。
存在许多不同类型的离子源,如化学电离、快原子轰击、基质辅助激光解吸/电离(MALDI)和电喷雾电离(ESI),以及存在许多不同类型的质量分析器,如四极质量过滤器、飞行时间质量分析器、具有正交离子注入的飞行时间质量分析器、RF离子阱、DC离子阱(如轨道阱或卡西尼(Cassini)阱)和离子回旋共振阱。
测量的质谱包括分子离子的峰(信号),并且在横坐标上显示每个峰的质荷比,在纵坐标上显示该峰的相应的相对强度。每个峰由m/z值和强度值(信号高度)表征。
由于化学元素的同位素,单一化合物的分子离子的质谱呈现一组具有不同m/z值的峰。这组(同位素)峰被称为“同位素模式”。具有相同化学式的化合物显示相同的同位素模式。同位素峰的测量的强度与化合物的同位素模式内的特定分子离子的丰度相关。同位素峰的相对强度与同位素的相对丰度相关联。
化合物的测量的同位素模式可用于对化合物注释化学式,并且通常用于识别化合物。虽然这对于非常小的分子是容易完成的,但是对于较大的分子,这很快变成艰巨的任务。
化合物的复杂混合物所获得的质谱包含多种同位素模式。将关于m/z和强度值的测量的同位素模式与理论上得到的同位素模式进行匹配以对相应化合物注释化学式不是容易的任务。首先,计算一组同位素模式,用于随后与测量的同位素模式进行比较。概念上,这是通过以下方式完成的:针对预先选择的化学元素的所有可能的元素组合(化学式),对这些化学元素的同位素模式进行卷积,这些化学元素在预定的质量容差内匹配单一同位素峰的m/z值。对于可能的化学式中的每一个,计算同位素模式并将其与测量的同位素模式进行比较。该计算可以用不同的方法完成,例如Pearsonsχ2统计。
然而,由于所含化学元素的组合学,可能的化学式的量变得非常大。可以针对不同组的化学元素计算在特定m/z值附近并且在预定质量容差内的可能化学式的数目。图1示出三组感兴趣的化学元素({C,H,N,O},{C,H,N,O,P,S,NA,K,Cl},{C,H,N,O,P,S,NA,K,Cl,BR,F,I}的在100和600Da之间的m/z范围中在5mDa的质量容差内可能的化学式的数目。可能的化学式的量呈指数增长。考虑用于生成化学式的化学元素越多,在质量容差内可能的化学式越多。
由于不是所有理论上得到的化学式在化学上都是有效的,因此可以通过应用启发式规则来减少可能的化学式。然而,由于可能的化学式随m/z呈指数增长,剩余候选的数量仍然可以非常大。
当前的软件工具通常依赖于如上所述的模式比较。已经对这种方法进行了适应性修改,并且提出了例如使用马尔可夫链(Markov-Chains)来计算同位素模式的新方法,其通过进行折衷来降低计算成本。然而,它们没有解决可能的化学式的指数的问题。用于计算可能的化学式的一组化学元素是组合问题的核心。预先提供或排除某些元素减少要计算和匹配的可能的化学式的量。因此,需要确定(预测)化合物中存在的化学元素,以在对化合物注释化学式期间降低复杂性。
发明内容
本发明提供一种用于确定分析物中是否存在化学元素的质谱法,其包括以下步骤:
(a)生成分析物的分子离子;
(b)通过质谱法测量所述分子离子的同位素模式,其中所述同位素模式包含多个同位素峰,且每一同位素峰由质量值和强度值表征;
(c)将所述同位素模式表示为特征向量
(d)将所述特征向量应用于监督元素分类器,所述监督元素分类器将所述特征向量/>分配给第一分类(存在化学元素)或第二分类(不存在化学元素),其中所述监督元素分类器是在表示具有已知元素组成的化合物的同位素模式的一组特征向量/>上训练的,并且其中所述化学元素存在于所述化合物的真子集中。
具有已知元素组成的一组化合物包括其中存在化学元素的化合物的真子集和其中不存在化学元素的已知化合物的真子集,即,两个子集都不是空的。优选地,化合物以至少20/80的比例被分配到两个子集。更优选地,该比例基本上为50/50。这些化合物的分子质量优选小于1000Da,更优选小于600Da,特别是在100与600Da之间。例如,可以以质量分辨率R≤100000(特别是以R≤50000,更特别是以R≤25000)执行分析物的同位素模式的质谱测量。
可以在理论上导出和/或实验上测量用于训练监督元素分类器的同位素模式。在实验上测量用于训练监督元素分类器的化合物的同位素模式的情况下,优选地在相同的质谱系统上测量这些化合物和分析物的同位素模式。然而,收集在数据库中(例如在KEGG数据库(京都基因和基因组百科全书))中的已知化合物的同位素模式可用于选择包含待确定的化学元素的化合物。可以通过将已知的化学构造规则(如“Lewis规则”和“氮规则”)应用于相应的化学式,来选择理论上导出的同位素模式。
待确定的化学元素优选是Br、Cl、S、I、F、P、K、Na和Pt中的一种。可以通过使用不同的监督元素分类器对多种化学元素执行步骤(d)中的分配,以实现多元素确定。优选地,监督元素分类器固有地对一组两个或更多个化学元素执行多标记分类。所分配的分类还可以对应于一组两个或更多个化学元素是否存在,其中,所述监督元素分类器是在表示具有已知元素组成的化合物的同位素模式的一组特征向量上训练的,并且其中所述化学元素中的两个或更多个存在于所述化合物的真子集中。
在第一实施例中,表示对应同位素模式的特征向量和/>中的每一个包括同位素峰的质量值和归一化强度值。特征向量/>和/>优选地包括单一同位素峰的质量值、所述单一同位素峰与其它同位素峰之间的质量差以及所述同位素峰的归一化强度值。更优选地,特征向量/>和/>中的每一个还包括所述单一同位素峰与标称质量之间的质量差。
特征向量和/>中的每一个例如可以被如下布置::
其中,i=1…N,其中m0是所述单一同位素峰的质量值,/>是所述单一同位素峰的归一化强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,/>是所述第i个同位素峰的归一化强度值,以及d(m0,M0)是所述单一同位素峰的质量值与所述标称质量M0之间的差。该差优选地是数值减法的结果,但是可以是更一般的距离测量。N优选大于1,更优选大于4,特别是等于9。对于N=2,特征向量看起来像
通过使用p范数,根据相应同位素峰的强度值si,计算特征向量的归一化强度值
其中,||s||=(Σ|si|p)1/p,其中,1≤p,特别是p=1。
在第二实施例中,表示对应同位素模式的特征向量和/>中的每一个包括同位素峰的质量值和变换的强度值。优选地,通过中心对数比变换(clr变换)或通过等距对数比变换(ilr变换)来变换所述对应同位素模式的同位素峰的强度值。
对于clr变换,特征向量和/>中的每一个被如下布置:
[m0,clr0,d(m0,mi),clri,d(m0,M0)],其中,i=1…N,
其中,m0是所述单一同位素峰的质量值,clr0是所述单一同位素峰的clr变换后的强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,clri是所述第i个同位素峰的clr变换后的强度值,以及d(m0,M0)是所述单一同位素峰的质量值与标称质量之间的差,以及
其中,所述clr变换通过以下被定义:
clri=log(si/(s0·s1·...sN)1/(N+1)),其中,Si=0…N是所述同位素峰的强度值。
N优选大于1,更优选大于4,特别是等于9。对于N=2,特征向量看起来像[m0,clr0,d(m0,m1),clr1,d(m0,m2),clr2,d(m0,M0)]。
对于ilr变换,特征向量和/>中的每一个被如下布置:
[m0,ilr0,d(m0,mi),ilri,d(m0,mN),d(m0,M0)]其中,i=1…N-1,
其中,m0是所述单一同位素峰的质量值,ilri是所述同位素峰的ilr变换后的强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,以及d(m0,M0)是所述单一同位素峰的质量值与所述标称质量之间的差,以及
其中,所述ilr变换通过以下被定义:
其中,/>降低维度的平衡矩阵B为dim(B)=(N+1)×N,以及B·B T=I N。
N优选大于1,更优选大于4,特别是等于9。对于N=2,特征向量看起来像[m0,ilr0,d(m0,m1),ilr1,d(m0,m2),d(m0,M0)]。
例如,监督元素分类器是支持向量机(SVM)、人工神经网络(NN)(如,卷积神经网络(CNN)或长短期记忆网络(LSTMN))或随机森林分类器(RF,随机决策森林)中的一个。优选地,在监督元素分类器的训练期间,例如通过使用群优化、进化算法、遗传算法、多起点优化、模拟退火和模式搜索中的一个来优化监督元素分类器的固有参数(超参数)。超参数通常取决于同位素模式如何被表示为特征向量,即例如取决于所选择的特征、特征向量的长度、强度值的归一化/变换、m/z值的表示以及特征在特征向量内的布置。
优选地,在所述监督元素分类器的训练期间,优化所述同位素模式作为特征向量的呈现。例如,可以关于特征向量的维度、测量的强度值的归一化或变换、特征向量的分量的布置来优化该表示。特征选择或特征重要性的估计也可以是优化的一部分,并且在监督元素分类器的训练期间例如通过LASSO算法(最小绝对收缩和选择算子)或RF算法(随机森林)来执行。
分析物的同位素模式优选通过质量分析仪测量,该质量分析仪耦接到上游离子迁移率分析仪和/或气相或液相色谱仪。优选地,质量分析仪是具有正交离子注入(OTOF)的飞行时间质量分析仪。更优选地,OTOF耦接到离子迁移率质量分析仪,特别是耦接到TIMS分析仪(捕获离子迁移谱)。
在另一方面中,根据本发明的确定化学元素是否存在的结果用于减少或增加在向分析物注释化学式期间(特别是,在计算该组同位素模式以用于随后与测量的同位素模式比较期间)考虑的化学元素的数目。优选在LC分离或GC分离期间,更优选在耦接的LC-IMS分离或GC-IMS分离期间测量分析物离子的同位素模式。
附图说明
图1示出三组感兴趣的化学元素({C,H,N,O},{C,H,N,O,P,S,NA,K,Cl},{C,H,N,O,P,S,NA,K,Cl,Br,F,I}的在100和600Da之间的m/z范围中在5mDa的质量容差内可能的化学式的数目。
图2示出根据本发明的方法的流程图。
图3示出以用于训练和验证的等量而制备的感兴趣的化学元素的实验测量的化合物(阳性和阴性)的数量。数据组被分为80%/20%,以用于对监督元素分类器进行训练和验证。
图4示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM(smart-margin RBF-Kernel SVM)的结果。同位素模式的测量的强度值通过具有p=1的p范数(闭包(closure))归一化。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。
图5示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM的结果。同位素模式的测量的强度值通过中心对数比变换(clr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。
图6示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM的结果。同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。
图7示出具有偏差的密集前馈神经网络的示意图。神经元中的数字描述神经元的指数,而不代表它们的值。
图8示出在实验数据上训练并通过进化算法优化的密集前馈人工神经网络的结果。同位素模式的测量的强度值通过具有p=1(闭包)的p范数归一化。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。
图9示出在实验数据上训练并通过进化算法优化的密集前馈人工神经网络的结果。同位素模式的测量的强度值通过中心对数比变换(clr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。
图10示出在实验数据上训练并通过进化算法优化的密集前馈人工神经网络的结果。同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。
具体实施方式
尽管已经参照本发明的多个不同实施例示出和描述了本发明,但是本领域技术人员将认识到,在不脱离由所附权利要求限定的本发明的范围的情况下,可以在此进行形式和细节上的各种改变。
元素组成是生成给定m/z值的可能化学式的组合问题的核心。本发明的范围是从分析物的测量的同位素模式预测分析物中包含的化学元素,并因此确定用于随后生成可能的化学式的分析物的元素组成。提供或排除某些化学元素减少要计算和比较的可能化学式的量。根据本发明,通过使用监督分类器的机器学习提供了解决该问题的方式。
除了降低注释过程的复杂性之外,根据本发明的方法允许基于特定化学元素的存在,特定地选择和仅检查某些同位素模式,并因此特定地选择和仅检查感兴趣的化合物。
定义
术语“质量值”在此可互换地用于分子离子的质荷比(m/z值)以及用于相应化合物的分子质量。分子离子的质荷比可以例如通过电荷解卷积转换为相应化合物的分子质量。
化学元素的“标称质量”是其最丰富的天然存在的稳定同位素的质量数。对于分子离子或分子,标称质量是组成原子的标称质量之和。例如,碳具有两种稳定同位素,98.9%天然丰度时为12C,1.1%天然丰度时为13C,因此碳的标称质量为12。
“单一同位素峰”的质量是使用每种化学元素的主要(最丰富)同位素的质量的分子中原子的质量之和。标称质量和单一同位素质量之间的差被称为质量亏损。
“混淆矩阵”是允许分类器(通常是监督分类器)的性能可视化的表。混淆矩阵的每一行表示预测的分类中的实例,而每一列表示实际的分类中的实例:
支持向量机(SVM):
支持向量机(SVM)是一种监督机器学习方法,其可以用于分类。在训练期间,SVM在高维数据空间中构造超平面,超平面将标记的训练数据点相对于它们的分类标记分开。优化超平面的参数,使得到任何分类的最近训练数据点的距离(所谓的边界)最大化。这种几何描述的重要结果是最大边界的超平面完全由位于最接近它的那些数据点确定。这些数据点被称为支持向量。通过确定未标记数据点位于哪一侧来对训练后要分类的未标记数据点进行分配。一旦被适当地训练,就可以将未标记的数据点以快速和低计算工作量分配给一个分类。
SVM可以扩展到数据不能线性分离的情况,例如通过引入所谓的“软边界”。“软边界”允许训练数据点不被边界准确地分开。SVM的内部未训练的参数(超参数)确定增加边界和确保所有训练数据点位于边界的正确侧之间的折衷。
还可以通过应用所谓的核技巧(kernel trick)来对SVM进行一般化,通过核技巧将输入空间的数据点变换到变换特征空间中。该变换允许拟合变换特征空间中的最大边界超平面。变换可以是非线性的,并且变换特征空间比输入空间的维数高。尽管分类器基于变换特征空间中的分离的超平面,但是它在原始输入空间中可以是非线性的。非线性核函数可以进一步包括附加的超参数(未训练的预定参数)。公共核函数包括例如多项式(齐次或非齐次)、径向基函数(RBF)和双曲正切函数。
人工神经网络(ANN)
人工神经网络(ANN)是由生物神经网络启发的系统。ANN通常基于许多连接的节点(人工神经元)。人工神经元(如,生物神经网络中的突触)之间的每个连接(边缘),可以将信号从一个人工神经元发送到另一个人工神经元。接收到信号的人工神经元可以处理该信号,然后向连接到该人工神经元的另外的人工神经元发信号。每个人工神经元的输出由其输入之和的一些非线性函数(激活函数)计算。人工神经元可以具有阈值,使得仅在输入之和高于该阈值时才发送信号。
通常,人工神经元聚集成层。不同的层可以对它们的输入执行不同类型的变换。信号从第一层(输入层)可能在穿过多个隐藏层之后,行进到最后一层(输出层)。
人工神经元之间的连接通常具有在训练期间被调整的权重。该权重增加或减少连接处的信号强度。许多算法可用于训练神经网络模型。它们中的大多数可以被视为采用某种形式的梯度下降并使用反向传播来计算实际梯度的优化。
人工神经网络通常包括多个超参数,特别是比SVM多的超参数。人工神经网络的超参数可以与网络本身的结构(例如,隐藏层的数量、节点的数量、节点或层的偏差)有关,以及与节点的激活函数的参数和在过度拟合的情况下惩罚决策边界的正则化参数有关。
示例1
这里,监督元素分类器是使用“软边界”和RBF核的支持向量机(SVM)。超参数与“软边界”和RBF核相关,并且在训练期间通过粒子群优化来优化。实验测量用于训练和验证SVM的同位素模式。
实验数据是从对OTOF质谱仪的测量获得的,该质谱仪具有与LC耦接的电喷雾源。具有已知元素组成的化合物属于不同的化合物分类:咖啡代谢组学、合成分子、杀虫剂和有毒物质。
元素测定仅适用于分子质量低于600Da的化合物。训练数据组用等量的含有元素的化合物(阳性)和不含元素的化合物(阴性)平衡。感兴趣的化学元素是:Br、Cl、S、I、F、P、K和Na。元素C、H、N和O几乎总是存在的,因此不是分类的一部分。对感兴趣的元素的选择基于它们出现在实验数据和绝大多数生物分子中。图3示出用于训练和验证SVM的感兴趣化学元素的化合物(阳性和阴性)的数量。将数据组分为用于训练(80%)和验证(20%)。用于验证的化合物的数量是:
通过使用具有p=1的p归一化(称为闭包)、中心对数比变换(称为clr)和等距对数比变换(称为ilr),以三种不同的方式表示同位素模式。对于闭包和clr表示,特征向量被如下布置:[m0,Int0,mi-m0,Inti,mDef],其中,i=1…9,其中m0和mi是同位素峰质量值,mDef是质量亏损,Int0和Inti是从测量的强度值si计算的归一化或变换的强度值。对于ilr表示,特征向量不包括Int9分量。特征向量的长度是21(闭包和clr)和20(ilr)。SVM的超参数针对每个表示被单独优化。
图4至图6示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM的结果。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。在图4中,同位素模式的测量的强度值通过具有p=1的p范数(闭包)归一化。在图5中,同位素模式的测量的强度值通过中心对数比变换(clr)来变换。在图6中,同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。
示例2
这里,监督元素分类器是具有偏差的密集前馈人工神经网络ANN,如图7所示。在密集网络中,每层都完全连接到下一层。ANN的激活函数是整流的线性单元:
通过经过ANN的前馈通路来进行对验证数据组的预测。
实验测量用于训练和验证ANN的同位素模式。实验数据和同位素模式的表示与示例1中的相同。
在训练期间,特征向量被分批提交给ANN。批次是用于训练ANN的所有特征向量的子集。一旦一个批次已经通过ANN,则发生反向传播。通过ANN,将当前预测的误差传播回去,以便通过以小步长将它们的值向最佳梯度调整来更新权重。针对给定的一组超参数调整权重。
ANN的超参数是正则化参数、隐藏层的数量和隐藏层中的人工神经元的数量。使用进化算法来优化ANN的超参数。
图8至图10示出ANN的结果。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。在图8中,同位素模式的测量的强度值通过具有p=1的p范数(闭包)归一化。在图9中,同位素模式的测量的强度值通过中心对数比变换(clr)来变换。在图10中,同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。
两个示例的结果都示出,所使用的机器学习算法对从质谱信号进行元素预测实现了良好预测结果。SVM比ANN更有效。对多同位素(polyisotopic)化学元素的预测通常比对单一同位素化学元素的预测更准确。
考虑到在对测量的分析物注释化学式期间减少化学元素的使用情况,如果这样预测,则可以根据这种考虑去除元素。然而,需要防止在注释期间根据该考虑去除存在于潜在分析物中的元素。否则不能找到正确的匹配。对于这种使用情况,分类器的阴性预测值(NPV)是重要的。它指的是在阴性条件下正确的阴性预测的百分比。
SVM分类器示出多同位素化学元素的NPV为89-100%。ANN的NPV通常较差。
对于在对测量的分析物注释化学式期间建议的元素的相反的使用情况,阳性预测值(PPV)是重要的。PPV指的是阳性条件下正确的阳性预测的百分比。然而,建议不是潜在分析物的一部分的化学元素导致假阳性化学式的添加并且增加总体复杂性。因此,用于这种使用情况的分类器需要具有高的PPV值。
SVM分类器示出多同位素化学元素的PPV≥89%。NN的PPV通常较差。
上面已经参照本发明的多个不同实施例示出和描述了本发明。然而,本领域技术人员将理解,在不脱离本发明的范围的情况下,如果可行的话,可以改变本发明的各个方面或细节,或者可以任意组合不同实施例的各个方面或细节。通常,前面的描述仅用于说明的目的,而不是用于限制本发明,本发明仅由所附权利要求限定,根据具体情况,本发明包括任何等同的实施方式。
Claims (20)
1.一种用于确定分析物中是否存在化学元素的质谱法,其包括以下步骤:
(a)生成分析物离子;
(b)通过质谱法测量所述分析物离子的同位素模式,其中所述同位素模式包含多个同位素峰,且每一同位素峰由质量值和强度值表征;
(c)将所述同位素模式表示为特征向量
(d)将所述特征向量应用于监督元素分类器,所述监督元素分类器将所述特征向量/>分配给与存在所述化学元素对应的第一分类或与不存在所述化学元素对应的第二分类,其中所述监督元素分类器在一组特征向量/>上训练,所述一组特征向量表示具有已知元素组成的化合物的同位素模式,并且其中所述化学元素存在于所述化合物的真子集中。
2.根据权利要求1所述的质谱法,其中,表示对应同位素模式的特征向量和/>中的每一个包括所述同位素峰的质量值和归一化强度值。
3.根据权利要求2所述的质谱法,其中,表示对应同位素模式的特征向量和/>中的每一个包括单一同位素峰的质量值、所述单一同位素峰与其它同位素峰之间的质量差以及所述同位素峰的归一化强度值。
4.根据权利要求3所述的质谱法,其中,所述特征向量和/>中的每一个还包括所述单一同位素峰与标称质量之间的质量差。
5.根据权利要求4所述的质谱法,其中,所述特征向量和/>中的每一个被如下布置:其中,i=1…N,其中m0是所述单一同位素峰的质量值,/>是所述单一同位素峰的归一化强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,/>是所述第i个同位素峰的归一化强度值,以及d(m0,M0)是所述单一同位素峰的质量值与所述标称质量M0之间的差。
6.根据权利要求2至5中任一项所述的质谱法,其中,通过使用p范数,根据相应同位素峰的强度值si,计算特征向量的归一化强度值 其中,||s||=(∑|si|p)1/p,其中,1≤p。
7.根据权利要求1所述的质谱法,其中,表示对应同位素模式的特征向量和/>中的每一个包括所述同位素峰的质量值和变换的强度值。
8.根据权利要求7所述的质谱法,其中,通过中心对数比clr变换或通过等距对数比ilr变换来变换所述对应同位素模式的同位素峰的强度值。
9.根据权利要求8所述的质谱法,其中,所述特征向量和/>中的每一个被如下布置:[m0,clr0,d(m0,mi),clri,d(m0,M0)],其中,i=1…N,
其中,m0是单一同位素峰的质量值,clr0是所述单一同位素峰的clr变换后的强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,clri是所述第i个同位素峰的clr变换后的强度值,以及d(m0,M0)是所述单一同位素峰的质量值与标称质量之间的差,以及
其中,所述clr变换通过以下被定义:
其中,si=0…N是所述同位素峰的强度值。
10.根据权利要求9所述的质谱法,其中,所述特征向量和/>中的每一个被如下布置:
[m0,ilr0,d(m0,mi),ilri,d(m0,mN),d(m0,M0)],其中,i=1…N-1,
其中,m0是所述单一同位素峰的质量值,ilri是所述同位素峰的ilr变换后的强度值,d(m0,Mi)是所述单一同位素峰与第i个同位素峰之间的质量差,d(m0,mN)是所述单一同位素峰与第N个同位素峰之间的质量差,以及d(m0,M0)是所述单一同位素峰的质量值与所述标称质量之间的差,以及
其中,所述clr变换通过以下被定义:
其中,/>降低维度的平衡矩阵B为dim(B)=(N+1)×N,以及B·B T=I N。
11.根据权利要求1所述的质谱法,其中,所述监督元素分类器是支持向量机(SVM)、人工神经网络(NN)和随机森林(RF,随机决策森林)分类器中的一个。
12.根据权利要求11所述的质谱法,其中,在对所述监督元素分类器训练期间,优化所述监督元素分类器的固有参数。
13.根据权利要求1所述的质谱法,其中,在对所述监督元素分类器训练期间,优化所述同位素模式作为特征向量的呈现。
14.根据权利要求13所述的质谱法,其中,在对所述监督元素分类器训练期间,执行特征的选择或特征重要性的估计。
15.根据权利要求1所述的质谱法,其中,所述化学元素是Br、Cl、S、I、F、P、K、Na和Pt中的一种。
16.根据权利要求15所述的质谱法,其中,在步骤(d)中,所述第一分类对应于所述化学元素中的两个或更多个的存在,并且所述第二分类对应于所述化学元素中的所述两个或更多个的不存在,并且其中,所述监督元素分类器是在表示具有已知元素组成的化合物的同位素模式的一组特征向量上训练的,并且其中,所述化学元素中的所述两个或更多个存在于所述化合物的真子集中。
17.根据权利要求1所述的质谱法,其中,理论上导出用于训练所述监督元素分类器的化合物的同位素模式。
18.根据权利要求1所述的质谱法,其中,实验测量用于训练所述监督元素分类器的化合物的同位素模式。
19.根据权利要求18所述的质谱法,其中,在相同的质谱系统上测量用于所述监督元素分类器的化合物的同位素模式和所述分析物离子的同位素模式。
20.根据权利要求1所述的质谱法,其中,确定所述化学元素是否存在用于在对所述分析物注释化学式期间减少或增加化学元素的数量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962798531P | 2019-01-30 | 2019-01-30 | |
US62/798,531 | 2019-01-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508565A CN111508565A (zh) | 2020-08-07 |
CN111508565B true CN111508565B (zh) | 2024-01-30 |
Family
ID=69186886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010062202.4A Active CN111508565B (zh) | 2019-01-30 | 2020-01-19 | 用于确定分析物中是否存在化学元素的质谱法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11211237B2 (zh) |
CN (1) | CN111508565B (zh) |
DE (1) | DE102020101408A1 (zh) |
GB (1) | GB2585258B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273987B (zh) * | 2022-09-23 | 2023-01-20 | 中国农业科学院农业质量标准与检测技术研究所 | 一种特征品质成分的识别方法、系统、设备及存储介质 |
CN116595399B (zh) * | 2023-06-14 | 2024-01-05 | 中国矿业大学(北京) | 一种煤中元素相关性不一致问题的分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104237364A (zh) * | 2013-06-07 | 2014-12-24 | 塞莫费雪科学(不来梅)有限公司 | 同位素模式识别 |
WO2018223025A1 (en) * | 2017-06-01 | 2018-12-06 | Brandeis University | System and method for determining glycan topology using tandem mass spectra |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6983213B2 (en) * | 2003-10-20 | 2006-01-03 | Cerno Bioscience Llc | Methods for operating mass spectrometry (MS) instrument systems |
WO2004111609A2 (en) * | 2003-06-12 | 2004-12-23 | Predicant Biosciences, Inc. | Methods for accurate component intensity extraction from separations-mass spectrometry data |
WO2005009039A2 (en) * | 2003-07-03 | 2005-01-27 | Waters Investments Limited | System and method for isotopic signature and mass analysis |
US20060249668A1 (en) * | 2005-05-05 | 2006-11-09 | Palo Alto Research Center Incorporated | Automatic detection of quality spectra |
EP1882931A4 (en) * | 2005-05-13 | 2011-01-12 | Shimadzu Corp | MASS ANALYSIS DATA ANALYSIS DEVICE AND PROGRAM |
US7781729B2 (en) * | 2006-05-26 | 2010-08-24 | Cerno Bioscience Llc | Analyzing mass spectral data |
EP2128791B1 (en) * | 2008-05-30 | 2018-08-01 | Thermo Fisher Scientific (Bremen) GmbH | Method of processing spectrometric data |
US20130131998A1 (en) * | 2011-11-18 | 2013-05-23 | David A. Wright | Methods and Apparatus for Identifying Mass Spectral Isotope Patterns |
EP2798658B1 (en) * | 2011-12-30 | 2017-03-01 | DH Technologies Development Pte. Ltd. | Systems and methods for sequencing peptides by mass spectrometry |
JP6020315B2 (ja) * | 2012-04-27 | 2016-11-02 | 株式会社島津製作所 | 質量分析データ処理方法及び質量分析データ処理装置 |
US9111735B1 (en) * | 2013-01-30 | 2015-08-18 | Bruker Daltonik Gmbh | Determination of elemental composition of substances from ultrahigh-resolved isotopic fine structure mass spectra |
WO2019094507A1 (en) * | 2017-11-10 | 2019-05-16 | Pataigin, Llc | Method for data analysis |
-
2019
- 2019-12-18 GB GB1918705.3A patent/GB2585258B/en active Active
-
2020
- 2020-01-19 CN CN202010062202.4A patent/CN111508565B/zh active Active
- 2020-01-22 DE DE102020101408.2A patent/DE102020101408A1/de active Granted
- 2020-01-28 US US16/774,571 patent/US11211237B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104237364A (zh) * | 2013-06-07 | 2014-12-24 | 塞莫费雪科学(不来梅)有限公司 | 同位素模式识别 |
WO2018223025A1 (en) * | 2017-06-01 | 2018-12-06 | Brandeis University | System and method for determining glycan topology using tandem mass spectra |
Also Published As
Publication number | Publication date |
---|---|
GB201918705D0 (en) | 2020-01-29 |
CN111508565A (zh) | 2020-08-07 |
US20200243315A1 (en) | 2020-07-30 |
US11211237B2 (en) | 2021-12-28 |
GB2585258A (en) | 2021-01-06 |
GB2585258B (en) | 2022-10-19 |
DE102020101408A1 (de) | 2020-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heinonen et al. | Metabolite identification and molecular fingerprint prediction through machine learning | |
Renard et al. | NITPICK: peak identification for mass spectrometry data | |
CN111508565B (zh) | 用于确定分析物中是否存在化学元素的质谱法 | |
US9244045B2 (en) | Systems and methods for identifying classes of substances | |
Guo et al. | Deep multiple instance learning classifies subtissue locations in mass spectrometry images from tissue-level annotations | |
Koo et al. | Analysis of Metabolomic Profiling Data Acquired on GC–MS | |
US20230410947A1 (en) | Systems and methods for rapid microbial identification | |
CN109964300B (zh) | 用于实时同位素识别的系统和方法 | |
CN114973245A (zh) | 基于机器学习的细胞外囊泡分类方法、装置、设备及介质 | |
CN116438625A (zh) | 用于在调谐质谱设备时选择参数值的方法、介质和系统 | |
US11495323B2 (en) | Microbial classification of a biological sample by analysis of a mass spectrum | |
Sotnezova et al. | Use of PLS discriminant analysis for revealing the absence of a compound in an electron ionization mass spectral database | |
CN111896609A (zh) | 一种基于人工智能分析质谱数据的方法 | |
Tian et al. | Extract Metabolomic Information from Mass Spectrometry Images Using Advanced Data Analysis | |
EP4102509A1 (en) | Method and apparatus for identifying molecular species in a mass spectrum | |
Settelmeier | Theoretical Fundamentals of Computational Proteomics and Deep Learning-Based Identification of Chimeric Mass Spectrometry Data | |
Price | Optimising the statistical pipeline for quantitative proteomics | |
WO2024072802A1 (en) | Methods and systems for classification of a condition using mass spectrometry data | |
Leonard | Tackling Missing Values in Mass Spectrometry-based Proteomics Data | |
Altenburg et al. | AHLF: ad hoc learning of fragmentation patterns in mass spectra detects post-translationally modified peptides prior to database search | |
Plechawska-Wojcik | A Comprehensive Analysis of MALDI-TOF Spectrometry Data | |
Lytvynenko | Synthesis of the wavelet-neural networks for the classification of mass spectra using clonal algorithm | |
Li et al. | Mono-isotope prediction for mass spectra using Bayes network | |
Wu | Statistical methods in analyzing mass spectrometry dataset | |
CN115798626A (zh) | 基于深度学习的Vocs组分分子质谱图预测方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210727 Address after: Bremen, Germany Applicant after: Brooke Dalton limited and Lianghe Co. Address before: Bremen, Germany Applicant before: Brook Dalton Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |