CN118120041A - 用于定性和定量分析工作流程的三维化学峰寻找器 - Google Patents

用于定性和定量分析工作流程的三维化学峰寻找器 Download PDF

Info

Publication number
CN118120041A
CN118120041A CN202280069598.2A CN202280069598A CN118120041A CN 118120041 A CN118120041 A CN 118120041A CN 202280069598 A CN202280069598 A CN 202280069598A CN 118120041 A CN118120041 A CN 118120041A
Authority
CN
China
Prior art keywords
mass
analyte
peaks
sample
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280069598.2A
Other languages
English (en)
Inventor
E·杜乔斯拉夫
P·纳拉亚纳斯瓦米
S·泰特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DH Technologies Development Pte Ltd
Original Assignee
DH Technologies Development Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DH Technologies Development Pte Ltd filed Critical DH Technologies Development Pte Ltd
Publication of CN118120041A publication Critical patent/CN118120041A/zh
Pending legal-status Critical Current

Links

Abstract

提供了使用质谱法来识别样本中的分析物的方法和系统。一种用于识别质谱数据中的分析物的方法,包括:将样本引入质谱仪;在多个循环中用质谱仪分析样本;对于每个循环,生成包括至少一个峰的质谱;基于峰之间的关系标注质谱中的峰;为每个峰分配最佳离子类型;处理质谱的每个循环以相对于与峰相关的可能中性质量为其所述至少一个峰中的每个峰分配分数;对共享共同中性质量的峰进行分组;以及输出分析物中性质量。

Description

用于定性和定量分析工作流程的三维化学峰寻找器
相关申请的交叉引用
本申请于2022年9月9日作为PCT国际专利申请提交,要求于2021年9月10日提交的美国临时申请No.63/242,609的优先权和权益,该申请通过引用整体并入本文。
背景技术
液相色谱-质谱法(LC-MS)广泛用于许多应用中的定性和定量分析,包括代谢组学、药物开发、法医学。当使用质谱仪分析分析物时,分析物离子通常通过添加或去除质子,或添加金属离子(诸如钠离子、钾离子或钙离子)来形成,以生成正模式和/或负模式的分子离子,或其它类型的离子。许多其它电离过程是已知的,因此即使单一分析物的谱也可以包含许多不同的物种。许多相关物种的存在会产生许多后果。谱解释更加复杂,因为“真实的”分子离子,即,[M+H]或中性物种的分子质量(中性质量),很难确定。另外,通过LC-MS分析更复杂的样本可以产生数千个特征,表示为保留时间(RT)和质量/电荷值(m/z)的对,其事实上与数量少得多的实际分析物对应。因此,需要高效地分析质谱以准确地识别存在的离子并确定基础分析物的分子量。
还需要可以充分利用质谱数据、改进MS峰和信号的标注和分配、减少错误的发现、执行严格的评估和交叉比较并准确识别样本中的分析物的高效方法、分析工作流程和工具。
发明内容
本公开的示例针对与质谱法相关的系统和方法以及分析工作流程,特别是样本分析、分析物识别、质谱法数据处理、样本身份预测和库构造。
在一个方面,本公开提供了一种用于分析样本的系统,该系统包括质谱仪和计算设备。质谱仪被配置为电离并分析样本的一种或多种分析物以生成质谱的多个循环。计算设备包括处理器和存储指令的存储器,指令在被处理器执行时促进操作的执行。在一些实施例中,质谱仪是高分辨率质谱仪。操作的非限制性示例包括:从质谱仪接收样本的质谱的多个循环,每个循环包括至少一个峰;基于峰之间的关系标注(annotate)质谱中的峰;为每个峰分配最佳离子类型;处理质谱的每个循环以相对于与峰相关的可能中性质量为其至少一个峰中的每个峰分配分数;对共享共同中性质量的峰进行分组;以及输出样本中识别出的分析物。
在本系统的一些实施例中,操作还包括:生成质谱的子集谱峰列表;计算一个或多个初始中性质量;假设不存在质子化的峰,寻找中性质量;将质量差异关系分配给峰;基于寻找和分配来更新中性质量值;以及将m/z误差和分数分配给谱峰标注。
在本系统的一些实施例中,操作还包括:基于质量误差和个体标注的共性来解决竞争标注;以及通过确认复杂离子类型对互补峰进行分组。
在本系统的一些实施例中,操作还包括:以0到1的标度对属于一组的多个峰中的每个峰进行评分,其中具有矛盾关系的峰具有分数0并且具有归因于相同分析物的最高可能性的峰具有分数1;通过根据时间按连续循环进行分组和对形状评分来根据时间评定(qualify)针对每个m/z离子的结果、以及离子类型的一致性;基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组;从单个循环、单个成员中性质量组中移除噪声;以及基于分数识别分析物。
在另一方面,本公开提供了使用本系统来识别质谱法数据中的分析物的方法或分析工作流程。该方法或工作流程可以由诸如软件包之类的计算工具来执行,以执行该方法或工作流程的任何操作。在一些实施例中,方法或分析工作流程包括以下操作中的一个或多个:将样本引入质谱仪;在多个循环中用质谱仪分析样本;对于每个循环,生成包括至少一个峰的质谱;基于峰之间的关系标注质谱中的峰;为每个峰分配最佳离子类型;处理质谱的每个循环以相对于与峰相关的可能中性质量为其至少一个峰中的每个峰分配分数;对共享共同中性质量的峰进行分组;以及输出分析物中性质量。在一些实施例中,每个离子的质荷(m/z)比由高分辨率质量分析仪确定。
在一些实施例中,本方法或分析工作流程还包括:标注质谱中的峰还包括:生成质谱的子集谱峰列表;计算一个或多个初始中性质量;假设不存在质子化的峰,寻找中性质量;将质量差异关系分配给峰;基于寻找和分配来更新中性质量值;以及将m/z误差和分数分配给谱峰标注。
在一些实施例中,本方法或分析工作流程还包括:基于质量误差和个体标注的共性来解决竞争标注;以及通过确认复杂离子类型对互补峰进行分组。
在一些实施例中,本方法或分析工作流程还包括:以0到1的标度对属于一组的多个峰中的每个峰进行评分,其中具有矛盾关系的峰具有分数0并且具有归因于相同分析物的最高可能性的峰具有分数1;通过根据时间按连续循环进行分组和对形状评分来根据时间评定针对每个m/z离子的结果、以及离子类型的一致性;基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组;从单个循环、单个成员中性质量组中移除噪声;以及基于分数识别分析物。在一些实施例中,多个峰的评分从具有最高强度的峰的组开始。在一些实施例中,从单个循环、单个成员中性质量组中移除噪声还包括:识别单个循环中与任何其它循环中的任何峰没有关系的单个峰;将该单个峰识别为噪声;以及从分析中移除该单个峰。
在一些实施例中,本方法或分析工作流程还包括:在将样本引入质谱仪之前,将样本引入色谱仪以将样本分离成两种或更多种分析物。在一些实施例中,色谱仪实现差分迁移率分析仪以基于电迁移率分离样本。在一些实施例中,样本包括多种分析物,当这些分析物被色谱仪分离并从色谱仪转移时,由质谱仪对其进行分析。
在本方法或分析工作流程的一些实施例中,将样本引入质谱仪而无需事先进行分析物分离。
在一些实施例中,本方法或分析工作流程还包括通过从质谱中移除噪声来预处理质谱。
在一些实施例中,处理质谱的循环还包括将低聚物分配给峰,该低聚物表示两个分子的聚集体。在一些实施例中,处理质谱的循环还包括:检索相关的MS/MS谱并将内部碎片分配给表示分子的碎片的峰。在一些实施例中,处理质谱的循环还包括在分配质量差异关系之后分配跨电荷状态的关系。
在又一方面,本公开提供了一种存储可执行指令的非暂态机器可读存储介质,指令在由处理器执行时促进操作的执行。操作包括:将样本引入质谱仪;在多个循环中用质谱仪分析样本;对于每个循环,生成包括至少一个峰的质谱;基于峰之间的关系标注质谱中的峰;为每个峰分配最佳离子类型;处理质谱的每个循环以相对于与峰相关的可能中性质量为其至少一个峰中的每个峰分配分数;对共享共同中性质量的峰进行分组;以及输出分析物中性质量。
在另一方面,本公开提供了一种用于构建分析物库的系统,该系统包括至少一个处理设备,以及存储指令的至少一个存储器设备,指令在由该至少一个处理设备执行时使得系统接收来自使用质谱法对样本进行分析的质谱数据,该质谱数据包括质谱和样本基质,并且样本包括分析物,识别质谱中的峰,将至少一种离子类型分配给峰,基于样本基质标注分析物的峰,基于标注的峰提取分析物的离子指纹,以及存储包括分析物的离子指纹的分析物标识条目。
在又一个方面,本公开提供了一种用于使用分析物库来识别至少一种分析物的系统,该系统包括至少一个处理设备和至少一个存储指令的存储器设备,指令在由该至少一个处理设备执行时使得系统接收来自使用质谱法对样本进行分析的质谱数据,该质谱数据包括质谱和样本基质,并且样本包括至少一种分析物,识别质谱中的峰,将至少一种离子类型分配给峰,基于样本基质标注分析物的峰,基于标注的峰提取分析物的离子指纹,通过将该离子指纹与分析物库中存储的离子指纹进行比较在分析物库中搜索样本的至少一个匹配,以及提供该至少一个匹配。
在另一方面,本公开提供了一种用于构建分析物库的方法,该方法包括接收来自使用质谱法对样本进行分析的质谱数据,该质谱数据包括质谱和样本基质,并且样本包括分析物,识别质谱中的峰,将至少一种离子类型分配给峰,基于样本基质标注分析物的峰,基于标注的峰提取分析物的离子指纹,以及存储包括分析物的离子指纹的分析物标识条目。
在另一方面,本公开提供了一种预测未知样本中分析物的身份的方法,该方法包括访问数据库,该数据库包括来自使用质谱法对样本进行分析以识别分析物的多个结果,该多个结果包括标注的离子指纹,用多个结果训练机器学习模型,以及将机器学习模型应用于未知样本以预测未知样本中一种或多种分析物的身份。
在又一方面,本公开提供了一种用于预测未知样本中分析物的身份的系统,该系统包括计算系统,该计算系统包括处理器和存储指令的存储器,指令在由处理器执行时使得计算系统接收来自使用质谱法对样本进行分析的质谱数据,该质谱数据包括离子类型特征;以及用机器学习模型分析质谱数据以识别样本的一种或多种分析物,该机器学习模型至少在离子类型特征上进行训练。
在另一方面,本公开提供了一个或多个存储数据指令的非暂态计算机可读存储设备,指令在由系统的至少一个处理设备执行时使得系统访问数据库,该数据库包括来自使用质谱法对样本进行分析以识别分析物的多个结果,该多个结果包括标注的离子指纹,用多个结果训练机器学习模型,以及将机器学习模型应用于一个或多个未知样本以预测每个未知样本中一种或多种分析物的身份。
一种或多种技术的细节在附图和下面的描述中阐述。这些技术的其它特征、目的和优点将从说明书、附图和权利要求中变得显而易见。
附图说明
图1是图示样本和多种离子物种的复杂化学性质的示例,这可以衍生自通过质谱法系统分析的单一分析物。
图2是用于识别质谱法数据中的分析物的示例系统的示意图。
图3是示例性质谱法系统的示意图。
图4是示例计算系统的示意图。
图5是示出用于识别样本中的分析物的实施例方法的操作的示例性流程图。
图6(a)示出了从LC-MS数据获得的样本的3D m/z(RT)特征图的示例。图6(b)示出了将3D m/z(RT)特征图约简为3D中性质量M(RT)图。
图7是示出用于识别样本中的(一种或多种)分析物的另一个实施例方法的操作的示例性流程图550。
图8(a)-(c)示出了根据各种实施例的MS峰分配的示例性输出。图8(a)示出了一种示例代谢物的TOF质谱,其峰查找阈值被设置为基峰的0.1%。图8(b)示出了使用本方法从质谱中获得的单同位素m/z峰的示例组,它们共享232.121Da的共同中性质量。图8(c)示出了包括分配给图8(a)的质谱中针对不同中性质量的峰的示例离子类型的汇总的示例输出。
图9图示了根据图7的操作的一个实施例的示例性流程图。
图10图示了根据图7的操作的一个实施例的示例性流程图。
图11(a)-(g)图示了根据各种实施例的质量误差的示例,其被用于解析样本的所选择离子物种的竞争标注。
图12图示了根据图7的操作的一个实施例的示例性流程图。
图13图示了根据各种实施例的在LC保留时间内包含中性质量的LC中性质量分组的特征图。
图14(a)-(d)图示了离子类型分数的输出评分分布的各种示例。
图15(a)-(d)图示了离子类型LC组分数的输出评分分布的各种示例。
图16(a)-(d)图示了初始分子质量LC组分数的输出评分分布的各种示例。
图17(a)和17(b)分别图示了离子类型LC峰分组结果和初始分子质量LC分组结果的示例。
图18(a)和18(b)图示了用于解析样本中两种不同分析物的本方法的示例实施方式。
图19(a)图示了根据图18(a)和18(b)的两种不同分析物的提取的离子色谱(EIC)。
图19(b)图示了根据图18(a)、18(b)和19(a)的分析物识别的结果。
图20图示了示例分析物库。
图21图示了分析物记录条目的示例数据结构590。图22图示了分析物库构建器的示例系统流程图。
图23图示了构建分析物库的示例方法。
图24图示了分析物库搜索模块的示例系统流程图。
图25图示了使用分析物数据库来识别至少一种分析物的示例方法。
图26图示了示例分析物识别器。
图27是图示用于训练和应用分析物识别器的方法的示例系统流程图。
图28图示了用于训练和应用用于分析物识别器的模型的示例方法。
在详细描述本教导的一个或多个实施例之前,本领域技术人员将认识到的是,本教导的应用不限于在以下详细描述中阐述或附图中示出的构造、部件的布置和步骤的布置的细节。而且,应该理解的是,本文中使用的措辞和术语是为了描述的目的并且不应被视为限制。
具体实施方式
将参考附图详细描述各种实施例,其中在几个视图中相似的附图标记表示相似的部分和组件。对各种实施例的参考并不限制所附权利要求的范围。此外,本说明书中设定的任何示例并不旨在进行限制,而仅仅阐述所附权利要求的许多可能实施例中的一些。
一般而言,本公开的示例针对与质谱法相关的系统和方法以及分析工作流程,特别是针对样本分析、分析物识别、质谱法数据处理、样本身份预测和库构造。
3D化学峰寻找器
在一个方面,本公开针对用于使用质谱法系统或质谱仪来分析样本的系统和方法。另一方面,本公开针对用于从样本的质谱法数据中识别样本中的分析物的系统和方法以及分析工作流程。在另一方面,本公开针对用于预测样本的分析物身份的系统和方法以及分析工作流程。在又一方面,本公开针对用于构建分析物识别库的系统、方法和工作流程。
质谱法被广泛用于确定样本中分析物的分子质量并阐明其化学结构。但是,取决于实验方法和被分析的样本,来自质谱法数据的输出数据集可以包含多达数万个离子/峰及其特征。一般而言,样本的质谱中每种分析物不太可能只有一个离子。图1中图示了质谱法分析中离子物种的复杂性的示例。通过LC-MS分析的纯标准分析物烟酰胺腺嘌呤二核苷酸[NAD]可以从中衍生出各种离子物种和离子产物。这些从NAD衍生出的离子物种或离子产物可以在NAD的质谱中被识别,包括[M+H]+、[M+Na]+、[M+H+H]2+、其它加合物、二聚体、低聚物,以及具有一种或多种电荷状态的内部碎片。
质谱中MS峰的自动化和分配对于在基于LC-MS的大型分析中(诸如在代谢组学中)收集的谱的数量至关重要,而且对于实时的数据依赖分析(DDA)和减少单个谱的分析中的错误也是有价值的。虽然存在已知的用于色谱特征检测的软件工具,但自动标注和分配仍然具有挑战性。这些现有的包可以在一千种代谢物的混合物中生成数万个信号,大大高估了真实代谢物的数量。另外,现有的数据约简方法通常涉及LC/MS峰拾取,然后进行LC/MS峰分组。在化学相关分析物的LC分离不充分的情况下,这种初始数据约简会消除维持所需特异性所必需的细节并造成峰的未分配、虚假分配或错误分配,特别是同量异位信号。此外,以前的方法常常仅在标注和/或分组相关峰之后应用化学知识来确定分析物的结构,而没有正确识别那些相关MS峰之间的关系和/或分析物的准确中性质量。
本公开提供了一种通过在数据处理和/或质谱的分析中在MS峰拾取之前将化学知识应用于数据约简来从样本的质谱数据中准确且有效地识别样本的分析物的解决方案。特别地,本系统和方法以及分析工作流程提供了多个优点。首先,通过将常见的LC/MS特征分组为LC特征并简化测定输出,可以更高效地识别分析物。分组是稳健的并且可以应用于具有不同复杂性的样本(诸如蛋白质、小分子和大分子)的完整分析物数据处理工作流程。其次,可以建立基于电荷状态与内部碎片的MS测量之间的关系,并且可以正确地分组单电荷物种的所有MS峰。所提供的解决方案有利地允许基于互补m/z峰解析同量异位信号并且准确地解析与色谱峰相关的多种分析物的信息。
图2图示了用于使用质谱法来分析样本(S)的示例系统100。该系统还可以用于:识别样本的分析物、预测样本身份、构建分析物识别库或其任何组合。系统100包括计算系统102,该计算系统102被配置为执行各种功能,包括但不限于:接收和响应用户指令、处理质谱法数据、分析样本的质谱数据、操作各种计算功能(包括中性质量、单同位素质量、平均质量、最丰度质量、质量差异和移位的计算)、执行数据库或库检索,以及输出/显示数据分析结果。
在一个实施例中,系统100包括质谱法系统106。质谱法系统106可以可操作地连接到计算系统102。质谱法系统106被配置为接收被引入其中的样本(S)、产生离子、分析离子、生成包括与离子相关联的m/z和强度的质谱法数据、将生成的数据存储在计算机可读介质上和/或将数据传输到计算系统。
(一个或多个)样本可以是包括分析物的隔离的或纯化的分析物,或者可替代地,多种分析物的混合物。样本可以含有小分子、生物分子、大分子、生物大分子和/或其衍生物、简并物、代谢物。样本的示例包括但不限于氨基酸、碳水化合物、脂肪酸、核苷酸、蛋白质、肽、多核苷酸、脂质、多糖。在一个实例中,样本是包括代谢组学的特定代谢产物。由质谱法系统106产生的样本的离子可以包括正模式或负模式的离子。正离子模式的非限制性示例包括[M+H]+、[M+NH4]+、[M+H+H]2+、[M+Na]+、[M+K]+、[M+H+Na]2+、[M+H+K]2+、[M+M+H]+、[M+M+Na]+、[M+M+K]+。负离子模式的非限制性示例包括[M-H]-、[M-H-H]2-、[M-H-H+Na]-、[M-H-H+K]-、[M+M-H]-、[M+M-H-H+Na]-、[M+M-H-H+K]-、[M+Cl]-、[M+F]-、[M+HCOO]-、[M+NO3]-。样本的离子还可以包括其各种衍生物,包括但不限于简并物种、加合物、低聚物、内部碎片(IF)、源内碎片(ISF)或其任何组合。
在一个实施例中,质谱法系统106与计算系统102电通信或无线通信,并且计算系统102被配置为或者自动地或者根据用户指令直接接收由质谱法系统106生成并从其传输的质谱法数据。在另一个实施例中,质谱法数据存储在计算机可读介质上,并且计算系统102被配置为读取该介质并从其检索质谱法数据。
在一个实施例中,该系统包括网络116。网络116可以可操作地连接到系统100中的任何一个或所有部件。网络116是通信网络。在示例性实施例中,网络116是无线局域网(WLAN)。网络116可以是任何合适类型的网络和/或网络的组合。网络116可以是有线的或无线的并且具有任何通信协议。网络116可以包括但不限于互联网、局域网(LAN)、广域网(WAN)、无线LAN(WLAN)、网状网络、虚拟专用网(VPN)、蜂窝网络,和/或允许系统100如本文所述操作的任何其它网络。
在一个实施例中,系统100包括可操作地连接到计算系统102的分析物识别器108。分析物识别器被配置为通过分析样本的质谱和/或由计算系统102生成和处理的质谱数据来识别样本的(一种或多种)分析物。在一个实施例中,分析物识别器108是软件包的形式,其包括执行分析和识别的模块。在一个特定实施例中,分析物识别器108包括被配置为用来自一个或多个数据库的多个结果进行训练的机器学习(ML)模型112。计算系统102被配置为将机器学习模型112应用于一个或多个未知样本以预测每个样本中的一种或多种分析物的识别。
在一个实施例中,系统100包括一个或多个分析物库110。分析物库110可以包含在商业数据库中,或包含来自先前分析的样本的分析信息的专用数据库中,或两者的混合。分析物库110包括存储在其中的已知分析物的化学知识,包括但不限于中性质量、从其衍生出的离子物种的质量、其内部碎片的质量。计算系统102被配置为将由质谱法产生并由计算系统102处理的数据与其中包含分子质量信息的分析物库110进行比较,以促进数据分析和分析物识别。
在一个特定示例中,质谱法系统106是LC/MS系统,如图3中所示。LC/MS系统200包括样本引入系统122,其被配置为接收被引入样本引入系统122中的样本。本文描述的质谱法系统106包括质谱仪120。质谱仪可以是能够以高分辨率测量分析物质量的任何质谱仪。质谱仪的示例包括但不限于电喷雾质谱法(ESI)、飞行时间质谱法(TOF)、基质辅助的激光解吸电离飞行时间质谱法(MALDI-TOF)以及任何串联MS(诸如QTOF、TOFTOF等)。质谱仪120可以包括分别在空间或时间上的单独的质谱法阶段或步骤。在一个实施例中,质谱仪120包括离子源128、质量分析仪130、检测器132。
样本引入系统122可以使用包括但不限于注入、液相色谱(LC)、气相色谱、直接输注或毛细管电泳的技术将样本引入到质谱仪。在这种配置中,在将样本引入到质谱仪120之前,将样本引入到色谱仪中以将样本分离成两种或更多种分析物。在一个实施例中,LC/MS系统200包括可操作地连接到样本引入系统122的LC柱124,并且LC柱124被配置为分离引入的样本的一种或多种分析物。在一个特定实施例中,本LC是被配置为基于吸附分离样本的高性能液相色谱(HPLC)。在一个实施例中,色谱仪实现差分迁移率分析仪以基于电迁移率分离样本。在一个实施例中,使用直接输注将样本引入质谱仪120。在一些实施例中,将样本引入质谱仪而无需预先进行分析物分离。
分离的一种或多种分析物被离子源128电离,从而产生包含在样本中的一种或多种分析物的前体离子的离子束。可选地,可以通过质谱仪120选择并裂解前体离子。检测器132被配置为检测电离的前体和/或产生的裂解的离子物种,并且质量分析仪130被配置为分析产生的离子物种并测量产生的离子物种的强度和质荷比(m/z)以生成并输出样本的质谱数据。质量分析仪可以包括但不限于飞行时间(TOF)、四极杆、离子阱、线性离子阱、轨道阱、磁性四扇区质量分析仪、混合四极杆飞行时间(Q-TOF)质量分析仪,或傅立叶变换质量分析仪。在一个实施例中,质量分析仪是TOF分析仪,并且每个离子的质荷(m/z)比通过在质谱仪120处进行的TOF测量来确定。
质谱仪120以多个间隔中的每个间隔对分离的样本混合物执行一次或多次质谱法扫描。间隔可以包括但不限于时间间隔或离子迁移率的间隔。一次或多次质谱法扫描具有一个或多个顺序质量窗口宽度,以便以该间隔处跨越整个质量范围。因此,质谱仪120产生针对多个间隔的整个质量范围的谱的集合。这个谱的集合是质谱法数据的一部分并且可以存储在例如存储器中。在一个实施例中,质谱法系统106是LC-MS系统,并且质谱法数据包括LC保留时间、离子物种的m/z信号以及信号强度。质谱法数据的输出可以直接或间接传送到计算系统102。
计算系统102可以是与质谱系统106结合使用的任何计算系统,用于接收、分析、处理、操纵或管理质谱法数据。图4是图示计算系统102及其各种物理部件的示例的框图。计算系统102被配置为执行本文提出的可以实现的各种方法。计算系统102包括总线302或用于传送信息的其它通信机制,以及与总线302耦合以用于处理信息的处理器304。计算系统102还包括存储器306,存储器306可以是随机存取存储器(RAM)或其它动态存储设备,其耦合到总线302用于存储将由处理器304执行的指令。存储器306还可以用于在执行要由处理器404执行的指令期间存储临时变量或其它中间信息。计算系统102还包括耦合到总线302的只读存储器(ROM)308或其它静态存储设备,用于存储用于处理器104的静态信息和指令。提供诸如磁盘或光盘之类的存储设备310并将其耦合到总线302以用于存储信息和指令。
计算系统102可以经由总线302耦合到显示器312,诸如阴极射线管(CRT)或液晶显示器(LCD),用于向用户显示信息。包括字母数字键和其它键的输入设备314耦合到总线302,用于将信息和命令选择传送到处理器304。另一种类型的用户输入设备是光标控件316(诸如鼠标、轨迹球或光标方向键),用于将方向信息和命令选择传送到处理器304并用于控制显示器312上的光标移动。这个输入设备通常在两个轴(第一轴(即,x)和第二轴(即,y))上具有两个自由度,这允许设备指定平面中的位置。
计算系统102可以与本公开的某些实施方式一致地执行本公开,并且由计算系统102响应于处理器304执行包含在存储器306中的一个或多个指令的一个或多个序列而提供结果。此类指令可以从诸如存储设备310之类的另一个计算机可读介质读入存储器306。包含在存储器306中的指令序列的执行使得处理器304执行本文描述的过程。可替代地,可以使用硬连线电路系统来代替软件指令或与软件指令组合来实现本教导。因此,本教导的实施方式不限于硬件电路系统和软件的任何特定组合。
在各种实施例中,计算系统102可以跨网络116连接到一个或多个其它计算系统或设备(如计算系统102)以形成联网系统。网络116可以包括专用网络或诸如互联网之类的公共网络。在联网系统中,一个或多个计算系统或设备可以存储数据并将数据提供给其它系统。在云计算场景中,存储和提供数据的一个或多个计算系统或设备可以被称为服务器或云。例如,一个或多个计算系统或设备可以包括一个或多个web服务器。例如,向服务器或云发送数据以及从服务器或云接收数据的其它计算系统或设备可以被称为客户端或云设备。
如本文所使用的术语“计算机可读介质”是指参与向处理器304提供指令以供执行的任何介质。这种介质可以采用许多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘,诸如存储设备310。易失性介质包括动态存储器,诸如存储器306。传输介质包括同轴电缆、铜线和光纤,包括构成总线302的电线。在某些示例中,计算机可读存储介质包括完全非暂态介质。
计算机可读介质或计算机程序产品的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁性介质、CD-ROM、数字视频光盘(DVD)、蓝光光碟、任何其它光学介质、拇指驱动器、存储卡、RAM、PROM和EPROM、FLASHEPROM、任何其它存储器芯片或盒,或者计算机可以从其读取的任何其它有形介质。
各种形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器404以供执行。例如,指令最初可以在远程计算机的磁盘上携带。远程计算机可以将指令加载到其动态存储器中并使用调制解调器通过电话线发送指令。计算系统102本地的调制解调器可以接收电话线上的数据并使用红外发送器将数据转换成红外信号。耦合到总线302的红外检测器可以接收红外信号中携带的数据并将该数据放在总线302上。总线302将数据携带到存储器306,处理器304从存储器306检索并执行指令。由存储器306接收的指令可以可选地在由处理器304执行之前或之后存储在存储设备310上。
根据各种实施例,被配置为由处理器执行以执行方法的指令被存储在计算机可读介质上。计算机可读介质可以是存储数字信息的设备。例如,计算机可读介质包括本领域已知的用于存储软件的光盘只读存储器(CDROM)。计算机可读介质由适合于执行被配置为被执行的指令的处理器访问。
为了说明和描述的目的,给出了本方法和过程的各种实施方式的以下描述。它不是详尽的并且不将本公开限制到所公开的精确形式。根据上述教导,修改和变化是可能的,或者可以从本公开的实践中获得。此外,所描述的实施方式包括软件,但是本公开可以被实现为硬件和软件的组合或者单独以硬件实现。本公开的方法和过程可以用面向对象和非面向对象的编程系统来实现。
图5图示了示出用于识别样本中的分析物的实施例方法500的操作的示例性流程图。方法500可以使用本文描述的系统100来实现或执行。方法500包括操作502、504、506、508、510和512。在开始时,将样本引入包括质谱仪的质谱系统中。操作502包括在多个循环中用质谱仪采样。本文使用的“循环”是指由质谱仪的质量分析仪针对包括电离中生成的离子物种的质量范围在每个分离间隔处执行的单次质量扫描。随着时间的推移,收集在每次扫描中发现的离子物种的强度,并将其作为谱的集合进行分析。在通过LC执行分离的情况下,循环数与保留时间相关。将每个循环中获得的谱的集合在保留时间内进行映射生成样本的三维(3D)LC-MS谱或特征图。图6(a)和(b)示出了通过本方法分析的样本的3D特征图的示例。在每个循环,可以检测各种离子物种并测量它们的m/z值,并将结果编译并记录在质谱法数据中。例如,离子物种可以包括正模式或负模式的各种离子类型、内部碎片、或具有不同电荷状态的分子离子(例如,具有多个电荷的中性分子),或分子离子的经修饰的形式。这些离子物种全都与样本中分析物的中性分子相关并衍生自样本中分析物的中性分子。
操作504包括处理每个循环的质谱以将一种或多种离子类型分配给其多个峰中的每个峰。通常,对于每个循环都会获得2D质谱,该循环与至少一种分析物从LC柱中洗脱的特定点或保留时间段对应。对于每个循环,2D质谱包括至少一个与离子物种相关的MS峰。在操作504中,将离子类型分配给至少一个MS峰中的每个峰。在某些实施例中,每个循环的质谱包括多个MS峰,并且为多个MS峰中的每个峰分配一种或多种离子类型。操作506包括生成用于样本的中性质量的标注的MS指纹。质谱法数据的标注和中性质量MS指纹的生成基于离子类型分配和操作504的输出。根据本公开的MS指纹可以包括指示分析物存在或不存在的提取的谱特征。指纹可以从标注的MS峰、峰之间的质量或m/z差异关系、MS峰的相对强度或者共享共同中性质量的处于变化的电荷状态的离子类型、离子物种或离子产物、同位素簇之间的任何特征关系中提取。在一些实施例中,操作506还包括提取样本中分析物的离子指纹。
标注可以由本文描述的计算系统计算地执行。在一些实施例中,计算标注包括:对源自相同分析物的特征进行分组,诸如加合物、同位素和源内碎片,这为分析物识别给出了有价值的化学信息;以及通过标注所形成的加合物峰、中性损失等来确定每种分析物的单同位素或中性分子质量。
操作508包括基于标注的中性质量指纹、质谱法数据以及前体元数据构建库或数据库。构建库或数据库可以包括收集或分类由本系统分析的样本的质谱法数据、使用本方法生成或由离子类型分配、质谱标注和分析物识别产生的数据,和/或预先存在的来自其它库或数据库的数据。操作510包括使用所构建的库或数据库中的数据来训练用于预测分析物身份的机器学习模型。操作512包括将经训练的模型应用于LC/MS数据以识别样本中的分析物。根据本公开,操作508和510的更多示例在图20-28中示出。例如,根据本公开,构建分析物识别库的特定示例方法在图23中示出并在方法650中描述。作为另一个示例,根据本公开,用于训练机器学习模型以识别样本中的分析物的特定示例方法在图28中示出并在方法850中描述。
图7图示了示出用于识别样本中的(一种或多种)分析物的另一个实施例方法550的操作的示例性流程图。方法550包括操作552、554、556、558、560、562、564和566。操作552包括将样本引入本文描述的质谱法系统。操作554包括在多个循环中用质谱法系统的质谱仪分析样本。操作556包括生成每个循环的质谱。操作558包括基于峰之间的关系来标注质谱中的峰。操作560包括将最佳谱峰离子类型分配给每个峰。操作562包括处理多个循环中的每个循环以相对于其可能的中性质量将分数分配给质谱的每个峰。操作564包括对共享共同中性质量的峰进行分组。操作566包括输出识别出的(一种或多种)分析物。
在一个实施例中,方法550还包括移除质谱的噪声。噪声可以是背景噪声、或数学噪声、或绝对噪声、或相对噪声,或其任何组合。在各种实施例中,来自质谱仪的测得的信号例如可以包括基础信号和绝对噪声。基础信号进而可以包括背景信号和感兴趣的信号。基础信号可以是例如由样本产生的信号。背景信号可以是例如不具有作为样本的特点的信息的基础信号的信号分量。因此,从生物或化学的角度来看,这种背景信号是无意义的。在各种实施例中,背景信号可以主要是离子源相关的和/或独立变量(质荷比(m/z)或时间)相关的。感兴趣的信号可以是例如携带关于样本的显著信息的基础信号的一个或多个信号分量。因此,测得的信号的绝对噪声可以包括来自背景信号的背景噪声和来自感兴趣的信号的噪声。
在一些实施例中,可以根据数学噪声模型来估计质谱仪的噪声。例如,可以基于关于测得的信号的数据获取过程的知识来选择数学噪声模型。在各种实施例中,可以基于从测得的信号进行的观察来选择数学噪声模型。观察可以包括例如基于测量点的群的统计和/或数值建模。
例如,可以通过从测得的信号中减去基础信号的估计来估计绝对噪声。例如,可以通过平滑测得的信号来获得对基础信号的估计。在各种实施例中,可以通过对测得的信号应用噪声滤波器来获得基础信号的估计。在各种实施例中,可以通过对测得的信号应用滤波器来估计绝对噪声。然后可以通过从测得的信号中减去估计的绝对噪声来估计基础信号。在各种实施例中,用于估计和移除噪声的方法可以结合在分析工具(诸如软件包)中,并且方法的执行可以由本文描述的计算系统执行。
在各种实施例中,可以提供指令来指导计算系统执行本文描述的方法或其操作。例如,可以向用于分析2D质谱、标注MS峰、分配离子类型、对峰分组、计算质量误差、确定分数及其它的操作提供包括各种输入要求的指令。输入要求可以包括感兴趣的基本离子类型(诸如H+、Na+、K+、NH4+或正模式下的其它类型的离子,H-、Cl-、F-、HCOO-或负模式下的其它离子)、中性质量移位(诸如H2O或NH3的损失、或H被Na或K等交换)、质量和强度容差,和/或LC/MS处理细节。在一些实施例中,本文描述的计算系统在接收指令时将根据指令执行方法或其操作。本文描述的方法的执行或其操作可以生成每个操作的输出。
在一个实施例中,可以生成针对2D质谱的峰分配的输出。输出可以由计算系统102显示。例如,可以经由来自被配置为执行本方法或执行其操作的分析工具的显示窗口的信息的屏幕截图来将输出传送给用户。这种峰分配输出的示例在图8(a)-8(c)中示出。图8(a)示出了一种示例代谢物的TOF质谱,其峰查找阈值设置在基峰的0.1%。图8(b)示出了具有峰列表的示例输出,该峰列表包括共享共同中性质量的多个峰。应该注意的是,基于每种离子类型与中性分子之间和/或彼此之间的关系(诸如质量差异),可以将最佳离子类型分配给列表中的各个峰中的每个峰。图8(c)示出了从方法550获得的另一个示例输出。输出包括分配给质谱的峰的所选择的离子类型的汇总。
图9图示了根据图7的操作558的一个实施例的示例性流程图。在一个实施例中,操作558包括操作5581、5582、5583、5584、5585和5586。操作5581包括根据从正被分析的样本的质谱法数据获得的每个循环的质谱生成一个或多个子集谱峰列表。操作5582包括基于(一个或多个)子集谱峰列表计算初始中性质量。操作5583包括假设不存在质子化的峰来寻找中性质量。操作5554包括将质量差异关系分配给峰。操作5585包括基于寻找和分配来更新中性质量值。操作5586包括将m/z误差和分数分配给谱峰标注。作为示例,如图8(a)-8(b)中所示,执行558中包括的用于分析图8(a)的质谱的操作可以产生涉及如图8(b)中所示的具有不同m/z值的多个单同位素峰的谱峰列表的子集。可以基于识别出的单同位素峰和确定的m/z值生成初始中性质量。可以估计或计算假设不存在质子或其它类型的离子的中性质量。可以分配和确定质量差异关系。关系包括但不限于每个单独峰与假设的中性分子之间或每个单独峰之间的质量差异。关系可以包括从样本中分析物的电离生成的各种离子类型、离子物种或离子产物、处于变化的电荷状态的同位素簇之间的质量差异。离子产物可以来自同一循环,或来自两个相邻循环,或来自多个相邻循环,或来自多个连续或部分连续循环。例如,关系可以包括与常见带电物种或中性分子相关的m/z峰值之间的差异。关系可以通过离子源中可能的化学可能性来确定,包括内部碎片、低聚物和共轭物。作为示例,21.9819的质量差异与[M+H]+与[M+Na]+之间的差异对应,并建立离子之间的关系。可以基于寻找和分配的质量关系来更新中性质量值,并且可以确定具有高准确性的最终中性质量值。此外,还可以将m/z误差和谱峰标注的分数分配给峰列表中的每个峰。
在一个实施例中,方法550或操作558还包括处理质谱的循环,这包括将低聚物分配给峰,该低聚物表示两个或更多个分子的聚集体。在一个特定实施例中,处理质谱的循环还包括:检索相关MS/MS谱并将内部碎片(INF)或源内碎片(ISF)分配给表示分子的碎片的峰。在另一个实施例中,处理高分辨率质谱的循环还包括在分配质量差异关系之后分配跨电荷状态的关系。
图10图示了方法500的操作560的一个特定示例的框图。在所示示例中,操作560还包括操作5602和5604。操作5602包括基于质量误差和各个标注的共性来解决竞争标注。操作5604包括通过确认复杂离子类型来对互补峰进行分组。形成的离子物种常常会是复杂的,并且当两个或更多个候选离子竞争时,将难以生成离子类型的明确列表。例如,由于质量差异小,[M+K]+和[M-H+Ca]+形式的两个单电荷物种可以是单个m/z峰的两个候选。在这种情况下,识别和分组互补峰对于解决竞争离子类型可以是重要的。在操作560处,(1)可以将内部碎片与其完整分子相关联;(2)预先存在的化学知识(诸如关于假设内部碎片的化学元数据和与碎片相关的MS/MS数据)可以在适当的情况下用于如蛋白质的复杂分子;(3)考虑到基峰可以不是同位素峰,离子分组可以被扩展到具有多个电荷的离子物种(例如,z从1-10);(4)同位素峰可以在适当的情况下成为分组信息的一部分;(5)如果有的话,还应考虑分组的峰的色谱分布的化学元数据或一致性。
在操作5602和/或5604处,可以考虑各种权重因子。这些因素包括但不限于位移m/z-m/z关系的质量准确度、质量误差、干扰或信噪比的可能性、与优势物种的相关性、每个单独标注的共性、质量位移或m/z差异的共性、峰的相对强度、内部碎片的级联关系或相邻MS循环中的标注。已知的化学知识或通过MS/MS建立的关系也可以用于对峰进行评分和解决竞争峰标注。在图11中图示了为解决所选择的离子物种的竞争标注而考虑的质量准确性和质量误差的示例。
图12图示了根据图5的方法500的一个示例操作562的框图。在所示示例中,操作562还包括操作5621、5622、5623、5624和5625。操作5621包括按0到1的标度对每个峰进行评分。操作5622包括通过根据时间按连续循环进行分组和对形状评分来根据时间评定针对每个m/z离子的结果。操作5623包括基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组。操作5624包括从单个循环、单个成员中性质量组中移除噪声。操作5625包括基于分数识别样本的(一种或多种)分析物。
在一个实施例中,操作5621包括以0到1的标度对属于一组的多个峰中的每个峰进行评分。可以对组中每个带标注的峰给予初始分数。具有矛盾关系的峰具有分数0,而具有归因于相同分析物的最高可能性的峰具有分数1。默认分数被设置在0.5。在存在锚峰(被定义为质谱中默认(质子化或去质子化)或已确认离子类型的峰)的情况下,可以基于步阶数(number of steps)和先前离子类型的存在对其它峰进行评分。评分的考虑因素还包括衍生自锚峰的m/z误差的限制和针对内部碎片的放宽的限制。评分可以由计算系统102或其处理器304执行。在一个实施例中,多个峰的评分从具有最高强度的峰的一组锚峰开始。
在一些实施例中,实现方法550或其操作的计算系统或设备可以在给定的保留时间执行所收集的MS与MS/MS谱的对准,以识别MS谱内的MS峰的推定的内部碎片。将其质量在质谱的MS峰的质量的质量容差内的内部碎片的离子类型分配给MS峰。分配给峰的离子类型被给予分数。该分数可以基于来自已建立的化学知识的裂解规则,其考虑例如断裂键的数量、断裂键的类型、内部键的类型、质量移位、级联裂解的证据、氢迁移、重排以及来自类似结构的分析物的产物离子谱中的碎片的证据。然后,例如,基于最高分数为质谱的MS峰选择至少一种分配的离子类型。
操作5623包括基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组。操作5624包括从单个循环或单个成员中性质量组中移除噪声。在一个实施例中,操作5624还包括识别单个循环中与任何其它循环中的任何峰没有关系的单个峰;将该单个峰识别为噪声,并从分析中移除该单个峰。操作560的输出可以包括中性质量随LC保留时间的谱。该输出可以由计算系统102显示并且经由来自显示窗口的信息的屏幕截图传送给用户。在图13中提供了示例LC中性质量分组。
方法550或其任何操作的执行可以生成至少三种类型的分数。当标注每个循环的峰并将离子类型分配给峰时,生成离子类型分数。为每组峰生成离子类型LC组分数,其中相同m/z的所有离子具有相同的离子类型并分配有最佳离子名称。离子类型LC组分数可以通过考虑最大总分数与组信号的顶点的接近度来获得。考虑因素还包括具有相同离子类型名称(或最大部分的贡献)的相同m/z的所有离子、色谱峰宽度的后续循环中标注的m/z以及从m/z信号相对于m/z阈值所需的循环数。初始分子质量LC组分数也是通过考虑组中基峰的顶点与总组信号的顶点的对准来生成的。通常,最高循环组分数与总组信号的顶点对准。初始分子质量LC组跨越连续的循环,并且对于循环间隙,将对分数施加罚分。初始分子质量LC组分数是组成员的加权分数或组成员的归一化的分数。对于成员数量少于最低成员数量的组,给予分数零。作为执行本方法的结果,可以针对离子类型分数、离子类型LC组分数和/或初始分子质量LC组分数中的每一个生成输出评分分布。在图14、图15和图16中分别提供了离子类型分数、离子类型LC组分数和初始分子质量LC组分数的输出评分分布的示例。
方法550或其任何操作的执行可以生成包括峰分组结果的输出。在图17(a)和17(b)中示出了示例输出。如可以看出的,LC组分数包括在离子类型LC峰结果中(如图17(a)中所示)并被视为对初始分子质量LC组结果进行评分时的属性(如图17(b)中所示)。输出可以可选地包括到分析物储存库的链接,用于分析物识别和/或其化学结构。例如,化学结构可以从现有的数据库的库中获得。通常,本领域普通技术人员将现有库视为包含谱和(通常)化学结构的单个数据库。但是,化学结构也可以从存储化学结构的一些计算机目录中获得,或者从其中响应于分析物识别器(名称等)获得结构的化学结构的可搜索数据库中获得。
图18(a)和18(b)示出了用于解析复杂样本中的混合分析物的方法500或550的示例实施方式。将组氨酸和肌肽这两种分析物混合并注入LC-MS系统。组氨酸是由组氨酸单元组成的单一氨基酸。肌肽是丙氨酸和组氨酸的二聚体,并且因此其中包括组氨酸单元。相对于衍生自组氨酸单元的离子物种,单一组氨酸分析物(图18(a))和单一肌肽分析物(图18(b))的质谱相似。具有组氨酸和肌肽混合物的样本的质谱包括衍生自组氨酸和肌肽两者的离子物种的MS峰。通过常规方法,很难正确识别两种分析物和/或解析它们的复杂性。但是,通过使用本方法,可以使用色谱图的逐循环处理来识别两种独立但密切相关的分析物。峰分配和分析物识别的结果在图19中示出。
构建和使用分析物库
另一方面,本公开针对用于构建和使用分析物库来进行分析物识别的系统和方法。在一些实施例中,质谱数据的预处理用于改进分析物库的搜索。例如,可以预处理质谱数据以包括标注、元数据和其它已知的/计算出的信息以定制库搜索参数。在一些实施例中,在从各种样本收集的质谱数据中识别一种或多种分析物的离子类型指纹,以构建具有多种分析物离子形式的分析物库。
图20图示了示例分析物库110。分析物库110存储支持分析物识别所需的记录。分析物库110可以包含在商业数据库、专用数据库或两者中。分析物库110包括来自先前分析的样本或混合物的分析信息。在一些实施例中,所收集或接收到的质谱数据存储在分析物库110中。在一些示例中,分析物库110包括已知分析物的化学知识,包括但不限于中性质量、衍生自其中的离子物种的质量、其内部碎片的质量。
在一些实施例中,分析物库110存储数十万或数百万个谱和相关的分析信息。因而,在许多实施例中,分析物库110存储在多个服务器上。在一些示例中,使用云存储服务器系统。在一些示例中,多个服务器是一个存储服务器系统的一部分。在其它示例中,多个服务器可以是不同系统的一部分。例如,几个研究机构可以具有包括分析物库的服务器系统(专用的和/或公共的),可以使用本文描述的方法和系统来搜索其集合。
分析物库存储分析物记录的条目。在一些示例中,分析物条目存储分析物细节580和分析物谱数据582。分析物细节580和分析物谱数据582被用于执行分析物库110的搜索。存储在分析物细节580中的数据的示例包括分析物名称、元素组成、神经质量CAS、HMDB等。分析物细节580的另一个示例在图21中示出。存储在分析物谱数据582中的数据的示例包括谱数据类型、谱数据、M/Z数据、谱峰标注和谱元数据。分析物谱数据582的另一个示例在图21中示出。
在一些实施例中,分析物记录条目包括来自先前分析的样本或混合物的分析信息。例如,分析物记录条目可以包括一个或多个质谱、串联质谱(MS/MS)数据、样本基质、电荷剂、中性质量、离子标注、质谱峰、3D质谱峰、质量移位、m/z电荷、m/z误差、提取出的谱特征、离子名称、离子类型分配、同位素模式或分布、信噪(S/N)比、LC保留时间、循环数、实验条件等。在一些实施例中,搜索分析物记录条目以识别可以与识别未知样本中的一种或多种分析物相关的条目。在一些实施例中,分析物记录条目与多个表一起存储在关系数据库中。
在一个示例中,分析物记录被存储在表中。该表存储用于每个分析物记录条目的通用标识符“uid”。通用标识符可以被用于将条目与其它表和/或文件中的相关联的数据链接。还存储关于条目的其它信息,包括前体m/z、正极性、峰数、前体同位素指数、前体类型、前体初始分子质量、前体置信度、前体信噪比、色谱保留时间、一次计数强度、隔离窗口、S/N质量、前体强度、前体窗口基峰强度、前体窗口纯度、高于阈值的峰数、库设置、分析物名称/成分、纯度分数、拟合分数、高于阈值的峰、移位数据,以及其它质谱数据。可以存储的其它数据包括样本名称、质谱类型、测得的质谱、获取日期和时间、库命中、分析物名称、谱密钥、其它MS数据、MS/MS数据及MS^n数据。本文描述了包括在分析物相关记录中的数据的进一步示例。
在许多实施例中,上述表包括指向存储谱数据(例如,MS数据、MS/MS数据和MS^n数据)的一个或多个数据文件的指针。类似地,库设置(也称为库搜索设置)可以存储在与所示的数据结构相关的表中。在一些示例中,库设置包括用于以下的字段:分数强度阈值、碎片m/z容差、前体m/z容差、强度因子、中性质量容差、使用中性质量、最小拟合分数、最小纯度分数、最小碰撞能量、按设置的排序、最大命中数、前体置信度阈值、考虑自然电荷、库峰计数的阈值百分比、谱移位、要移位的离子以及高于前体的内部碎片最大值。
本文描述了组织用于分析物库的数据的进一步示例。另外,在一些示例中,用于分析物库的数据结构基于分析物库的用例或收集的数据的类型进行修改。图21中图示了用于分析物记录条目的数据结构590的一个示例。
图21图示了用于分析物记录条目的示例数据结构590。数据结构590包括分析物细节580、分析物谱数据582、样本元数据584和分析元数据586。
示例数据结构590包括分析物细节580。在一些实施例中,分析物细节580被组织在具有多个数据字段的表中。在一些示例中,分析物细节580包括用于分析物名称、元素成分、CAS标识符、人类代谢组数据库(HMDB)标识符和/或其它分析物标识信息的数据字段。分析物细节还可以包括中性质量数据和其它细节。例如,分析物结构细节。分析物细节包括到分析物谱数据582和样本元数据584的链接。
示例数据结构590包括分析物谱数据582。在一些实施例中,分析物谱数据582存储在具有多个数据字段的表中。在一些示例中,这些字段包括用于谱数据类型、谱(信号-f(m/z))数据的字段。谱峰标注、谱元数据(例如,扫描类型、极性前体信息、前体Q1窗口信息、保留时间)以及分析物的其它谱数据。分析物谱数据582包括到分析物细节580、样本元数据584和分析元数据586的链接。在一些实施例中,示例数据结构590包括样本元数据584。在一些实施例中,样本元数据584被存储在具有多个字段的表中。存储的数据的示例包括样本基质(例如,哺乳动物,诸如组织、血液、血浆等、细菌、病毒、植物、水)、样本制备信息和附加信息(例如,样本位置、存储条件)。样本元数据584包括到分析物细节580和分析物谱数据582的链接。
在一些实施例中,示例数据结构590包括分析元数据586。在一些实施例中,分析元数据586被存储在具有多个字段的表中。存储在分析元数据586中的数据的示例包括仪器类型、样本注入模式、分离技术、消耗品细节(例如,溶剂、化学品、样本管)、通用仪器(LC/MS)设置。分析元数据586包括到分析物谱数据582的链接。
在一些实施例中,记录条目仅需要包含分析物细节580和分析物谱数据582以便执行库搜索。
图22图示了用于分析物库构建器600的示例系统流程图。分析物库构建器600图示了用于构建可以被用于识别未知样本中的一种或多种分析物的分析物库的过程的示例。在一些实施例中,分析物库构建器被用于提取和标注质谱数据以便优化分析物库以供搜索。分析物库构建器600包括质谱数据6002、分配离子类型模块6004、分配离子类型设置6006、离子指纹识别器6008、前体识别器6010以及具有分析物记录6012的分析物库110。
质谱数据6002包括样本的至少一个质谱。在一些实施例中,质谱数据6002包括多种分析物的分析物细节和分析物谱数据582。在一些示例中,MS数据包括飞行时间MS数据(TOF MS数据)。类似地,MS/MS数据可以包括飞行时间MS/MS数据(TOF MS/MS数据)和顺序质谱数据(MS^n)。此外,质谱数据6002可以包括来自样本基质的信号。样本基质是其中分析一种或多种分析物的介质,例如基于植物的样本基质、基于微生物的样本基质、哺乳动物样本基质(细胞、组织、尿液等)或溶剂的基质中的任何其它合成/纯化的分析物。在一些示例中,样本基质影响样本中所有或大部分分析物的质谱。包括在质谱数据6002中的其它可能数据的非限制性示例包括质谱的集合、一个或多个质谱的进一步碎片、质谱的色谱2D迹线(概述强度对时间)、实验条件(例如,保留时间、斜升时间、强度、LC条件等)以及一个或多个质谱梯度。
在一些实施例中,使用图2中所示的质谱法系统106来测量质谱数据6002。另一个示例在图3中示出。在一些示例中,使用高分辨率质谱法来测量质谱。在一些实例中,使用液相色谱-质谱法(LC-MS)测量一个或多个质谱。用于测量质谱数据6002的其它示例方法包括流注入质谱法、毛细管电泳质谱法(CEMS)、气相色谱质谱法(GCMS)、离子迁移率质谱法、直接注入质谱法、开放端口界面(OPI)质谱法和基质辅助的激光解吸电离(MALDI)质谱法。在一些实施例中,质谱数据6002包括在多个循环上测得的几个质谱,例如,如上所述。质谱数据6002用其它信息(诸如样本基质和实验条件)补充。本文描述了质谱数据的其它示例。
在一些实施例中,分析物库构建器600包括用于在存储分析物记录之前预处理质谱数据6002的两条路径。在这些示例中的一些中,第一路径是MS路径,其包括向分配离子类型模块6004提供MS质谱分子离子。在一些示例中,存在MS/MS和/或MS^n路径。这个路径包括向前体识别器6010证明(proving)MS/MS或MS^n质谱前体离子碎片。
分配离子类型模块6004使用质谱数据6002来识别样本中的一种或多种离子。在一些实施例中,质谱数据6002包括MS和MS/MS路径。在这些示例中的一些中,分配离子类型模块接收MS路径。在一些实施例中,分配类型模块6004是分析物识别器108的一部分并且在计算系统102上执行,如图2中所示。在一些示例中,分配类型模块6004使用本文讨论的3D峰寻找器。例如,分配离子类型模块可以检测一个或多个质谱中的峰的组并对峰的组进行评分以识别用于峰的组的离子类型。
分配离子类型设置6006包括用于分配离子类型模块6004的设置。在一些示例中,用户手动录入针对给定样本优化的设置。用户可以基于样本类型、样本制备和分离条件选择特定设置。例如,用户可以选择用于血液样本的特定设置和用于水样本的不同设置选择。在其它示例中,基于样本中检测到的不同特征自动选择设置。在一些实施例中,设置包括用于样本的质量容差、用于化学空间的种子、要提取的标注的类型、m/z和保留时间范围、信号阈值、峰组阈值、最小峰宽度等。
离子指纹识别器6008基于来自分配离子类型模块的结果来确定哪个识别出的峰与特定中性质量相关。在一些示例中,离子指纹识别器6008基于由分配离子类型模块6004识别和标注的峰提取用于样本中的分析物的离子指纹。生成用于中性质量的MS指纹的示例在图5中示出并且在方法500或操作506和/或508中描述。离子指纹对于样本中的分析物是特定且独特的。
前体识别器6010(有时称为前体MS/MS、MS^N识别器)识别样本中的前体离子。在一些示例中,前体识别器经由MS/MS路径接收质谱数据6002。对样本执行质谱实验可以导致识别前体离子,这对于指示样本中存在分析物是有用的。在一些示例中,前体离子在TOF MS/MS片段中被识别。在一些实施例中,前体离子用中性质量、离子类型、离子电荷、离子类型置信度测量、Q1窗口纯度等进行标注。在一些示例中,在6008中识别出的离子类型指纹被用于将TOF MS/MS变换成类似于默认电荷剂的TOF MS/MS。例如,TOF MS/MS的变换可以类似于质子化或去质子化。该变换可以涉及碎片的元素成分分配。在一些示例中,分析物记录6012仅存储用于默认电荷剂的MS/MS数据。在一些实施例中,前体识别器6010是可选的或不被包括用于构建分析物库。
分析物库110是图2和图20中所示的分析物库110的另一个示例。分析物库110包括分析物记录6012。分析物记录6012可以存储质谱数据,该质谱数据如上所述被预处理以构建一个或多个库以供搜索,包括具有多种分析物离子形式的库。例如,分析物记录6012可以包括分析物的储存库,其包括分析物分类、分析物结构、实验元数据、MS谱、MS/MS谱、离子类型指纹、碎片标注、全峰寻找器结果、前体离子、前体离子类型指纹等。可以对分析物记录6012建索引以改进对分析物的搜索。例如,可以编译前体元数据并将其用于对分析物的存储库建索引。
在许多实施例中,分析物记录6012包括数十万或数百万个谱。一些或全部谱被预处理、标注和/或以相关元数据编译。此外,存储在分析物库110中的每个谱可以包含多个片段、MS/MS谱等。因而,在许多实施例中,分析物库110存储在多个服务器上,包括一个服务器系统中的多个服务器或几个不同服务器系统的集合。存储分析物库110的一个或多个服务器可以被连接(例如,通过网络)并建索引以允许本文描述的搜索方法。
图23图示了用于构建分析物库的示例方法650。在一些示例中,分析物库包括存储在数据库中的分析物MS指纹记录。在一些示例中,方法650被存储为指令,指令在由计算系统(例如,图2中的计算系统102)执行时使得在用于在质谱法中识别分析物的系统执行以下操作中的一些或全部。方法650包括操作6502、6504、6506、6508、6510、6512、6514和6516。
操作6502接收来自使用质谱法对样本进行分析的质谱数据。在一些实施例中,使用图2和图3中示出和描述的质谱法系统106来测量质谱数据。在一些示例中,接收到的质谱数据包括样本基质。包括在接收到的质谱数据中的其它可能数据的非限制性示例包括质谱的集合、一个或多个质谱的碎片、质谱的色谱2D迹线(概述强度对时间)、实验条件(例如,保留时间、斜升时间、强度、LC条件等)、串联质谱法(MS/MS)数据、顺序质谱(MS^n)数据,以及一个或多个质谱梯度。在一些示例中,质谱数据全部包括在数据文件中。在其它示例中,质谱数据是从单独的文件中收集的,或者部分地手动编译的。例如,质谱可以在一个文件中,样本基质可以在单独的文件中,并且用户可以输入实验条件。
操作6504识别质谱中的峰。在一些示例中,操作6504使用上述用于3D峰值寻找器的方法和系统。也可以使用一种或多种其它质谱峰寻找器方法和系统。
操作6506将离子类型分配给识别出的峰。例如,可以基于质谱数据中的峰之间的关系对峰进行分组,以识别样本中的至少一种分析物。上面描述了用于识别峰的方法和系统的示例。
操作6508标注样本中的一种或多种分析物的识别出的峰。在一些示例中,标注基于样本基质和实验条件中的至少一个。这允许分析物库存储具有不同样本类型和/或实验条件的分析物的多个离子指纹。
操作6504、6506和6508的附加示例在图7中示出并且在方法550或其操作中描述。在替代实施例中,操作6504、6506和6508由用于将离子类型分配给质谱数据的替代方法替代。
操作6510提取分析物的离子指纹。在一些实施例中,基于标注的峰提取离子指纹。例如,带标注的质谱峰可以被用于提取离子指纹。指纹特定于样本中的分析物。在一些示例中,分析物可以具有稍微不同的指纹,这取决于分析物在其中被识别出的样本。例如,纯样本可以提取具有某些特征的指纹,而含有污染物和相同的分析物的样本提取出不同的离子类型指纹。例如,具有污染物的样本可以包括具有噪声的样本基质、具有较宽峰的谱和具有较低强度的峰。在一些实施例中,操作6510识别样本中分析物的特定指纹以提取对于现实世界场景中的分析物识别有用的离子类型指纹。现实世界场景包括使用不纯的样本。其它示例包括提取对于血液样本、河水的样本或小鼠组织样本中的分析物识别有用的离子类型指纹。
操作6512从质谱数据提取前体离子。在一些示例中,操作6512使用离子类型指纹来查找与分析物对应的前体质量并提取相关的MS和MS/MS谱以识别前体离子。在一些示例中,前体质量与特定于样本中存在的分析物的给定离子类型指纹之间存在关系。在一些示例中,识别并存储识别出的前体离子的电荷剂,因为该电荷剂对于给分析物库建索引是有用的。在替代实施例中,操作6512是可选的。
操作6514编译用于样本的前体元数据。在一些示例中,前体元数据由进行质谱实验的用户手动编译。前体元数据的示例包括关于色谱法的信息或关于样本基质的信息。在其它示例中,前体元数据是基于在质谱数据中检测到的特征自动编译的。前体元数据可以存储在分析物库中并用于对库建索引。如下文更详细讨论的,前体元数据有时在执行分析物库搜索时被用于充当约束。在替代实施例中,操作6514是可选的。
操作6516将分析物标识条目(有时称为分析物记录)存储在分析物库中。操作6516将离子类型指纹存储在分析物库中。在一些实施例中,质谱数据和检测到的特征的整体被存储在分析物库中。通常,对库建索引以帮助改进分析物库的搜索。在一些示例中,分析物标识条目是参考图21描述的数据的组的组合。
在不同的实施例中,上述变化的各种组合是可能的。例如,一些实施例包括操作6502、6504、6506、6508、6510和6516。其它组合也是可能的,诸如添加操作6512和操作6514之一。
一般而言,关于图22和23,有时构建分析物库以包括许多不同的现实世界样本而不是分析物的纯或药理学等级样本或者作为其补充中的分析物是有利的。不同样本基质中的给定分析物可以产生具有不同特征的质谱。例如,根据样本,谱可以具有不同的峰强度或峰宽度。使用上述方法和系统在可使用的库中收集和编译这些结果的一个优点是提供能够识别多种样本基质中的分析物的更稳健的库。
图24图示了用于分析物库搜索模块700的示例系统流程图。分析物库搜索模块700包括质谱数据7002、离子类型模块7004、分配离子类型设置7006、离子指纹识别器7008、前体识别器7010(有时称为前体MS/MS、MS^n识别器),具有分析物记录7012的分析物库110、库搜索设置7014、库搜索模块7016和分析物库搜索结果7018。
质谱数据7002类似于图22中所示的示例性质谱数据6002。在一些实施例中,使用高分辨率质谱法测量质谱数据。LC-MS也可以被用于测量样本。用于测量质谱数据7002的其它示例方法可以例如包括流注入质谱法、毛细管电泳质谱法(CEMS)、气相色谱质谱法(GCMS)和离子迁移质谱法。质谱数据的示例包括从样本收集的质谱、实验条件、样本类型和样本基质。在一些实施例中,使用图2中所示的质谱法系统来测量质谱数据7002。另一个示例在图3中示出。在许多实施例中,用于搜索分析物库的质谱数据7002是未知或部分未知的样本。例如,样本可以是包含未知量的分析物的血液样本,或者可以包含或可以不包含感兴趣的分析物的河水样本。
在一些实施例中,分析物库搜索模块700包括用于在执行库搜索之前预处理质谱数据7002的两条路径。在这些示例中的一些中,第一路径是MS路径,其包括向分配离子类型模块7004提供MS质谱分子离子。在一些示例中,存在MS/MS和/或MS^n路径。这条路径包括向前体识别器7010证明MS/MS或MS^n质谱前体离子碎片。
分配离子类型模块7004是图22中所示的分配离子类型模块6004的另一个示例。分配离子类型模块7004操作以识别样本中的一个或多个离子。在一些实施例中,分配离子类型模块7004检测一个或多个质谱中的峰的组并对峰的组进行评分以识别峰的离子类型。在一些示例中,分配离子类型模块7004使用上述3D峰寻找器方法和系统,例如图7中所示的方法550及其操作。
分配离子类型设置7006是图22中所示的分配离子类型设置6006的另一个示例。离子类型设置7006可以由用户手动录入或者基于在质谱数据中检测到的特征自动录入。分配离子类型设置7006的示例包括用于样本的质量容差、用于化学空间的种子、要提取的标注的类型、m/z保留、m/z时间范围、信号阈值、峰组阈值、最小峰宽度等。
离子指纹识别器7008基于来自分配离子类型模块的结果来确定哪个识别出的峰与特定中性质量相关。在一些示例中,离子指纹识别器6008基于由分配离子类型模块6004识别和标注的峰提取样本中分析物的离子指纹。离子指纹识别器7008是图22中所示的离子指纹识别器6008的另一个示例。
前体识别器7010识别样本中的前体MS/MS离子。例如,对样本执行质谱法可以导致识别前体离子的MS/MS,这对于指示样本中存在分析物是有用的。前体识别器7010是参考图22详细描述的前体识别器6010的另一个示例。
参考图2和图20示出并描述分析物库110的示例。分析物库110包括分析物记录7012。分析物记录7012是参考图22示出和描述的分析物记录6012的另一个示例。在一些示例中,分析物库110用分析物记录构建,其中每个分析物记录包括分析物谱数据、样本元数据和分析元数据。
库搜索设置7014操作以配置库搜索模块7016。在一些实施例中,用于库搜索的设置基于来自分配离子类型模块7004的结果、在7008中识别出的离子类型指纹以及来自7010的前体离子谱(例如,MS/MS谱)动态地改变。库搜索设置的示例包括库收集约束、搜索结果排名设置、搜索分数设置、分析物纯度分数阈值、分析物拟合分数阈值和反向命中分数阈值。可能的库搜索设置7014的一个示例包括分数强度阈值、碎片m/z容差、前体m/z容差、强度因子、中性质量容差、使用中性质量、最小拟合分数、最小纯度分数、最小碰撞能量、按设置排序(例如,按纯度拟合排序)、最大命中数、前体置信度阈值、考虑自然电荷、用于库峰计数的阈值百分比、谱移位、要移位的离子,以及高于前体的内部碎片最大值。
库搜索模块7016操作以执行分析物库110的搜索。在一些示例中,上述对未知样本的预处理定制输入以提高库搜索的速度和准确性。在一些示例中,库搜索模块将由离子指纹识别器7008识别出的离子类型指纹进行比较,作为与存储在分析物库110中的离子类型指纹的比较。在一些示例中,提取出的前体离子和相关联的MS/MS数据可以被用于限制搜索。例如,基于提取出的前体离子,搜索模块可以确信前体属于分析物库的子集。在一些示例中,库搜索模块7016使用基于概率的限制来限制搜索以节省时间和资源。在这些示例中的一些中,基于概率的限制被用于TOF MS/MS搜索。在一些实施例中,使用TOF MS数据的搜索首先使用基于概率的限制来识别高于置信度阈值的条目,然后对识别出的条目执行中性质量和/或元素成分搜索。在一些实施例中,库搜索模块7016首先确定哪些分析物标识条目在样本的前体容差内,然后对这些条目执行搜索。
在一些示例中,库搜索模块7016使用置信度分数来识别哪些条目可以与未知样本匹配。在一些示例中,使用分析物纯度分数来计算置信度分数。通过将存储的分析物标识条目中的所有峰与样本的质谱数据中识别的所有峰进行匹配来计算分析物纯度分数。在一些示例中,使用分析物拟合分数来计算置信度分数。通过将分析物标识条目中的所有峰与样本的质谱数据的整体进行比较来计算分析物拟合分数。在另外的示例中,使用纯度分数和拟合分数的组合来计算置信度分数。在一些实施例中,置信度分数与对应的搜索结果一起存储在分析物库搜索结果7018中。
分析物库搜索结果7018包括在库搜索中识别出的一个或多个存储的分析物标识条目。分析物库搜索结果7018包括录入的样本中的匹配和可能的匹配。对于每个分析物标识条目包括的数据的示例包括质谱数据、离子类型指纹、MS/MS指纹、时间和形状数据、实验元数据、LC/MS峰、实验质量、电荷状态、离子类型组、关于离子类型分配的置信度测量、库搜索分数、错误发现率(FDR)分数、正交分离属性元数据以及元素成分。在一些示例中,库搜索结果包括以如参考图21示出和描述的类似结构存储的数据。具有LC/MS峰的示例中的一些包括具有标识的峰,而替代示例包括没有标识的LC/MS峰。在一些实施例中,分析物库搜索结果7018中的条目被用于训练模型以识别未知样本中的一种或多种分析物。
图25图示了用于使用分析物标识库来识别至少一种分析物的示例方法750。在一些示例中,方法750被存储为指令,指令在由计算系统(例如,图2中的计算系统102)执行时使得用于在质谱法中识别分析物的系统执行以下操作中的一些或全部。方法750包括操作7502、7504、7506、7508、7510、7512、7514、7516和7518。
操作7502接收来自使用质谱法对样本进行分析的质谱数据。可以被接收的质谱数据的示例包括样本基质、质谱的集合、一个或多个质谱的碎片、谱的色谱2D迹线、实验条件、串联质谱法(MS/MS)数据、顺序质谱法(MS^n)数据和/或更多质谱梯度。本文描述了接收质谱数据的示例。
操作7504识别质谱中的峰。在一些示例中,操作7504使用本文描述的3D峰寻找器来识别峰。也可以使用一个或多个其它质谱峰寻找器方法和系统。
操作7506将离子类型分配给识别出的峰。在一些示例中,基于质谱数据中的峰之间的关系对峰进行分组,以识别样本中存在的至少一种分析物。
操作7508标注样本中分析物的识别出的峰。在一些实施例中,标注基于样本基质和实验条件中的至少一个。识别出的峰的这种标注允许基于不同的存储的样本类型和/或实验条件来搜索正确的条目。
操作7504、7506和7508的附加示例在图7中示出并且在本文描述的方法550或其操作中进行描述。在替代实施例中,操作7504、7506和7508由用于将离子类型分配给质谱数据的替代方法替代。
操作7510提取分析物的离子指纹。在一些示例中,基于带标注的峰来提取离子指纹(例如,带标注的峰被用于提取离子指纹)。在许多示例中,离子类型指纹特定于分析物,但可以包括基于样本的变化。例如,现实世界样本中的分析物将具有与纯样本中不同的指纹(例如,质谱可以包括噪声、更宽的峰和强度较低的峰)。根据本公开,提取分析物的离子指纹的附加示例可以在图5或操作506/508中找到。
操作7512从质谱数据中提取前体离子。在一些示例中,使用在操作7510处提取的离子指纹来提取前体离子。例如,离子类型指纹可以与前体质量组合可以与感兴趣的分析物对应。因而,提取用于识别前体离子的相关的MS和MS/MS谱图,并在执行分析物库搜索时将其用于与分析物标识条目进行比较。
操作7514编译样本的前体元数据。在不同的实施例中,前体元数据可以手动、自动编译或两者兼有。在一些实施例中,前体元数据被用于约束分析物库的搜索。例如,元数据可以包括实验条件信息或样本信息,这有助于将搜索范围缩小到具有在类似情形下收集的数据的条目。
操作7516在分析物库中搜索样本数据的至少一个匹配。在一些示例中,在质谱数据中检测到的各种特征被用来缩小可以与未知样本匹配的可能条目的范围。然后使用离子类型指纹或其它质谱数据来比较这些条目,以找到可以与分析物匹配的一个或多个存储的分析物标识条目。在一些示例中,将样本的样本基质与存储的样本基质进行比较。质谱、MS/MS指纹、实验元数据、提取出的前体离子和编译的前体元数据也可以被用作对搜索的约束。在一些示例中,在搜索中识别出的一个或多个分析物标识条目中的每一个都与基于样本与条目匹配程度的置信度分数一起返回。
操作7518合并来自库搜索的结果。在一些示例中,与样本数据最接近匹配的分析物标识条目被存储在库搜索结果数据库中。在一些示例中,存储设定数量的匹配。在其它示例中,选择置信度分数高于阈值的所有匹配并将其存储在库搜索结果数据库中。用于确定存储什么匹配的设置可以在一些示例中手动设置并且在其它示例中自动设置。例如,可以基于下述机器学习过程的结果自动更新设置。在一些实施例中,从搜索返回的匹配被用于训练用于识别未知样本中的分析物的模型。
分析物识别器
在另一方面,本公开针对用于识别样本中的一种或多种分析物的系统和方法。在一些实施例中,对样本进行一个或多个实验以生成样本的离子类型分配属性。实验可以在各种仪器运行条件下运行,实验元数据与收集的实验数据一起记录。机器学习技术至少应用于这个数据以训练一个或多个模型来识别分析物。在一些示例中,样本可以包含许多未知分析物。此外,实验可以产生相当大量的实验数据和元数据。从一个或多个实验生成的离子类型辅助属性与机器学习模型一起使用以创建分析物识别器。
图26图示了示例分析物识别器108。分析物识别器108包括机器学习模型112。
分析物识别器108被配置为通过分析样本的质谱和/或质谱法数据来识别样本的(一种或多种)分析物。在一个实施例中,分析物识别器108是软件包的形式,其包括执行分析和识别的模块。在一些实施例中,分析物识别器108包括被配置为用来自一个或多个分析物库或数据库的多个结果来训练的机器学习模型112。
机器学习模型112被训练为识别样本中的一种或多种分析物。在一些实施例中,使用离子类型分配信息来训练机器学习模型112以增加样本中可以被识别的未知分析物的数量并且为至少一种分析物的识别提供更高的置信度。在一些实施例中,机器学习模型112使用关于离子类型(碎片、离子、加合物)的元数据信息来改进模型。例如,元数据信息可以被用于确认样本中的每种分析物具有预期的裂解。检查整个谱中的预期裂解允许检测多种独特的分析物,而不会重叠。机器学习模型将使用这个信息来确定检测到的分析物是否是预期的。
在一些实施例中,机器学习模型112围绕特定分析物/分析物(以分析物为中心的模型)进行训练。在其它实施例中,机器学习模型112围绕特定样本基质(以样本为中心的模型)进行训练。例如,模型可以围绕血液中检测到的分析物构建。在这些示例中,模型可以是多维的并且可以包括以下的任何组合:MS1、MS/MS、MS^n、强度、标注和标识分数以及分析条件数据。
图27是图示用于训练和应用分析物识别器的方法800的示例系统流程图。在一些实施例中,方法800图示了用于训练用于分析物识别器108的机器学习模型112的过程。方法800包括质谱数据8002、分析物库搜索结果7018、模型训练模块8004、模型测试模块8008、分析物标识预测8010、评估模块8012以及包括机器学习模型112的分析物识别器108。
质谱数据8002类似于分别在图22和图24中示出和描述的质谱数据6002和7002。在一些实施例中,使用图2和图3中所示的质谱法系统来测量质谱数据8002。在这个示例中,质谱数据8002被用作分析物库搜索模块700的输入。分析物库搜索模块700基于所提供的质谱数据8002来提供分析物标识条目。在一些示例中,质谱数据8002被应用于模型测试模块8008处的机器学习模型112。在一些示例中,质谱数据8002被用于评估机器学习模型112。在一些示例中,质谱数据8002可以被用于搜索以检索训练数据,并且相同或不同的质谱数据8002可以被用作测试/验证数据。
分析物库搜索结果7018被用于训练模型以识别一种或多种分析物。在一些示例中,分析物库搜索结果7018存储在数据库中。在一些示例中,图24中所示的分析物库搜索模块700被用于识别一个或多个分析物标识条目(有时称为分析物记录)。识别出的一个或多个分析物标识条目被用于训练模型以识别一种或多种分析物。
模型训练模块8004被用于训练机器学习模型112以识别样本中的一种或多种分析物。在一些示例中,训练模型开始于在初始阶段使用受控数据并使用来自分析物库搜索模块700的结果来细化模型,如图24中所示。在一些示例中,来自分析物库搜索模块700的结果被存储在分析物库搜索结果7018中。这些结果可以包括使用现实世界样本收集和分析的数据。这个数据被用于确认模型的通用性,并确保模型不会被训练为过度拟合数据。可以被用于训练机器学习模型112的机器学习方法的非限制性示例包括支持向量机、加权投票系统、神经网络、k-最近邻、决策树和逻辑回归。在一些示例中,使用多种机器学习方法来训练数据以生成用于分析物预测的模型。在一些实施例中,模型训练模块8004直接使用分析物库搜索结果7018来训练机器学习模型112。
用于训练机器学习模型的一种示例方法包括集成与样本基质和质谱数据集相关联的多个变量。在一些示例中,专家用户检查并确定识别分析物的结果是否是真阳性、真阴性、假阳性、假阴性,并且相应地标记每个分析物标识条目。在一些示例中,多个变量被存储在分析物库搜索结果7018中(图24中所示)。可能变量的示例包括测量,如正交分离方法、样本基质类型、带有分数的离子类型组、时间、电荷剂、置信度测量、实验前体m/z、MS/MS碎片、MS^n碎片、库搜索分数、分析物身份、化学成分、未标注的离子。这些变量被用作输入数据集,用于训练用于分析物预测的模型。
训练数据被预处理。在一个示例中,预处理训练数据包括创建训练数据集和测试/验证集以及选择变量。例如,可以从分析物库搜索结果7018中手动或自动选择变量。例如,可以自动选择不同的特征来训练各种模型,然后比较每个模型以确定哪个特征集合产生令人满意的模型。在其它示例中,专家用户手动选择感兴趣的特征。
在一些示例中,使用交叉验证来训练模型(例如,在模型训练模块8004处)并评估(例如,在评估模块8012处)模型。例如,用于训练模型的数据集可以被拆分为初始训练集和验证/测试集。在一些示例中,训练数据集与验证/测试训练集的比率是9比1。使用交叉验证来训练模型允许构建许多不同的模型,随后可以对这些模型进行评估和验证以寻找优化的模型。
模型测试模块8008测试机器学习模型112。在一些示例中,测试经训练的模型包括将机器学习模型112与验证/测试集一起应用。分析物识别预测8010是通过应用机器学习模型112做出的分析物预测。例如,机器学习模型112可以在模型测试模块8008处应用以生成分析物识别预测。使用评估模块8012评估由模型测试模块做出的分析物识别预测(8010)。
评估模块8012评估机器学习模型112。在所示的示例中,评估模块评估由模型测试模块8008做出的分析物识别预测(8010)。在一些实施例中,使用新数据评估训练模型的高效分析物识别。在一个实施例中,使用用于不同类型结果的分类度量来评估由经训练的模型做出的预测。可能的结果包括真阳性、真阴性、假阳性和假阴性。分类度量可以绘制在具有预测的值和实际值的混淆矩阵上,并基于这些结果分配预测。在一些实施例中,模型的评估跟踪预测准确性、精度、特异性等。此外,回归度量(诸如方差、均方误差和R2系数)可以被用于评估模型。在一些实施例中,通过绘制模型的任何欠拟合或过度拟合的验证曲线来评估模型的泛化。在一些示例中,评估模型的泛化性是使用交叉验证来完成的。
在许多示例中,模型的训练是个迭代过程。例如,执行模型训练的迭代以产生优化的模型。在一些示例中,如果模型的评估未能满足设定的基准或阈值,那么模型将经历附加的训练。当模型未通过评估步骤时,迭代过程可以包括添加新变量或移除用于训练新模型的变量。在一些示例中,随着收集更多样本,模型被进一步细化。例如,模型可以用新特征进行训练过程,以创建基于附加样本进行更新的模型。在其它示例中,用数据集的多模型方法来训练多个模型。
在一些示例中,迭代过程从使用新数据执行分析物库搜索开始。在其它示例中,迭代过程从从分析物库搜索模块选择不同变量或用经调整的设置执行附加搜索开始。在另外的示例中,迭代过程包括调整用于机器学习模块的训练。可以进行上述调整的组合,并且也有可能对训练数据或机器学习算法进行附加的调整。
分析物识别器108识别分析物。在一些示例中,分析物识别器108是图26中所示的分析物识别器108的另一个示例。分析物识别器包括机器学习模型112。在一些示例中,分析物识别器108被优化用于进行分析物身份预测。机器学习模型112可以被用于对未知样本进行分析物身份预测。在一些示例中,模型由质量控制协议监视。例如,针对偏差和效率的质量控制样本。在一些示例中,一旦模型被训练并成功评估,未来的未知样本就不需要经过分析物库搜索模块700,如图24中所示。样本可以绕过分配离子类型、库搜索和机器学习过程的过程。例如,可以为小鼠组织构建模型。一旦用于运行分析物库搜索和使用小鼠组织样本构建模型的过程完成,未来的实验就可以仅使用已完成的一个或多个模型来识别任何新的小鼠组织样本中的分析物。
机器学习模型112是图26中所示的机器学习模型112的另一个示例。在一些实施例中,机器学习模型112使用离子类型分配信息(例如,分数、强度比)。在这些示例中的一些中,离子类型分配信息包括离子类型指纹。例如,该模型可以使用来自训练数据的离子类型指纹来创建模型,以根据未知样本数据中的未知子结构识别进行预测。
在一些实施例中,使用元数据,包括关于离子类型(例如,碎片、离子、加合物)的元数据。在一些示例中,机器学习模型112被训练为使用元数据信息来确认样本中的分析物在测得的谱的其它部分中具有预期的碎片和化学添加。此外,机器学习模型112可以被训练为查找谱中重叠的证据并确定非目标分析物是否是预期的。在一些实施例中,用附加的峰跟踪信息来训练机器学习模型。例如,模型可以使用一种方法来使用离子类型信息、3D中性质量峰值寻找器(如上所述)信息、其它3D多循环属性和仪器运行条件。
图28图示了用于训练和应用分析物识别器的示例方法850部分或全部在如图2中所示的计算系统102上执行。在一些示例中,方法850的部分或全部在一个或多个服务器上执行。方法850包括操作8502、8504、8506、8508、8510、8512和8514。
操作8502接收分析物库搜索结果。分析物库搜索结果的示例在图24和图27中被图示和描述为分析物库搜索结果7018。在一些示例中,库搜索结果存储多个分析物记录。
分析物记录包含与分析物相关的数据的集合,包括质谱数据。质谱数据的非限制性示例包括质谱的集合、一个或多个质谱的碎片、质谱的色谱2D迹线(概述强度对时间)、实验条件(例如,保留时间、斜升时间、强度、LC条件等)、串联质谱法(MS/MS)数据、顺序质谱法(MS^n)数据以及一个或多个质谱梯度。在一些示例中,质谱数据全部包括在数据文件中。在其它示例中,质谱数据是从单独的文件收集的,或者是手动录入的。例如,质谱可以在一个文件中,样本基质可以在单独的文件中,并且用户可以输入实验条件。
操作8504基于分析物库搜索结果来训练用于分析物识别的模型。在一些示例中,使用监督机器学习训练算法来训练模型。在其它示例中,使用无监督机器学习训练算法来训练模型。可能的机器学习方法的示例包括支持向量机、加权投票系统、神经网络、k-最近邻、决策树和逻辑回归。机器学习过程被用于处理这个数据并生成机器学习模型。在一些实施例中,训练数据被预处理成训练集和测试/验证集。在这些实施例中的一些中,用不同的训练集重复这些步骤。训练机器学习模型包括集成与样本基质和谱数据集相关联的多个变量。这个数据可以包括被识别为存在于样本中的一种或多种分析物。数据还可以与识别出的分析物是真阳性、真阴性、假阳性还是假阴性的标签一起存储。在一些示例中,这些标签由专家用户提供。在其它示例中,使用算法来分配这些标签。用于训练机器学习模型的可能变量的示例包括测量,如正交分离方法、样本基质类型、带有分数的离子类型组、时间、电荷剂、置信度测量、实验前体m/z、MS/MS碎片、MS^n碎片、库搜索分数、分析物身份、化学成分、未标注的离子、离子类型分配信息(例如,分数、强度比、离子类型指纹、离子类型元数据(例如,碎片、离子加合物)等)。用于训练机器学习模块的附加细节参考图27示出并描述。
操作8506验证模型。在一些实施例中,通过用机器学习模型分析多个已知样本以生成预测并将预测与多个已知样本的身份进行比较来验证模型。
操作8508确定模型是否被令人满意地执行。在一些实施例中,如果在操作8508处模型没有被成功验证,那么方法850通过重复操作802、804和806来迭代。还可以使用调整机器学习模型的其它方法。参考图27示出并描述用于验证模型的进一步示例。
一旦模型经过验证,它就可以被用于未知样本的分析物识别。在一些实施例中,这是使用分析物识别器108来完成的。
在一些实施例中,操作8510接收来自未知分析物的质谱数据。操作8512使用接收到的数据执行分析物识别。在一些示例中,从未知样本收集的数据被提供给分析物识别器108,如本文所述,几乎不需要预处理。这允许高效的分析物识别。在其它示例中,对谱数据进行预处理,但绕过分析物库搜索。在一些示例中,当分析新的未知样本时,处理质谱测量并将其录入识别多种分析物的库搜索中;识别结果被用于使用机器学习技术训练模型。一旦训练了模型,就提供未知的样本质谱测量来识别未知样本中的一种或多种分析物。
操作8512执行分析物识别。来自操作8512的结果在操作8514处提供。在图2中所示的示例中,结果被提供给计算设备102上的用户。在一些示例中,结果被提供给操作8504以继续训练模型或提供强化训练。
上述各种实施例仅以说明的方式提供,并且不应当被解释为限制随附的权利要求书。本领域技术人员将容易地认识到,在不遵循本文所示和描述的示例实施例和应用的情况下,并且在不背离以下权利要求的真实精神和范围的情况下,可以做出各种修改和改变。

Claims (20)

1.一种用于识别质谱法数据中的分析物的方法,所述方法包括:
将样本引入质谱仪;
在多个循环中用所述质谱仪分析所述样本;
对于每个循环,生成包括至少一个峰的质谱;
基于峰之间的关系标注所述质谱中的峰;
将最佳离子类型分配给每个峰;
处理所述质谱的每个循环以相对于与所述峰相关的可能中性质量为质谱的所述至少一个峰中的每个峰分配分数;
对共享共同的中性质量的峰进行分组;以及
输出分析物中性质量。
2.如权利要求1所述的方法,其中标注所述质谱中的峰还包括:
生成所述质谱的子集谱峰列表;
计算一个或多个初始中性质量;
假设不存在质子化的峰,寻找中性质量;
将质量差异关系分配给所述峰;
基于所述寻找和分配来更新中性质量值;以及
将m/z误差和分数分配给谱峰标注。
3.如权利要求1-2中的任一项所述的方法,其中将最佳离子类型分配给每个峰还包括:
基于质量误差和个体标注的共性解决竞争标注;以及
通过确认复杂离子类型对互补峰进行分组。
4.如权利要求1-3中的任一项所述的方法,其中处理所述多个循环中的每个循环还包括:
以0到1的标度对属于一组的多个峰中的每个峰进行评分,其中具有矛盾关系的峰具有分数0并且具有归因于相同分析物的最高可能性的峰具有分数1;
通过根据时间按连续循环进行分组和对形状评分来根据时间评定针对每个m/z离子的结果、以及离子类型的一致性;
基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组;
从单个循环、单个成员中性质量组中移除噪声;以及
基于分数识别分析物。
5.如权利要求1-4中的任一项所述的方法,还包括:在将所述样本引入质谱仪之前将所述样本引入色谱仪以将样本分离成两种或更多种分析物。
6.如权利要求5所述的方法,其中所述色谱仪实现差分迁移率分析仪以基于电迁移率分离所述样本。
7.如权利要求1-4中的任一项所述的方法,其中将所述样本引入所述质谱仪而无需事先的分析物分离。
8.如权利要求5-6中的任一项所述的方法,其中所述样本包括多种分析物,当所述多种分析物被所述色谱仪分离并从所述色谱仪转移时,由所述质谱仪对它们进行分析。
9.如权利要求1-8中的任一项所述的方法,还包括:通过从所述质谱中移除噪声来预处理所述质谱。
10.如权利要求4-9中的任一项所述的方法,其中对所述多个峰的评分从具有最高强度的峰的组开始。
11.如权利要求4-10中的任一项所述的方法,其中从单个循环、单个成员中性质量组移除噪声包括:
识别单个循环中与任何其它循环中的任何峰没有关系的单个峰;
将所述单个峰识别为噪声;以及
从分析中移除所述单个峰。
12.如权利要求1-11中的任一项所述的方法,其中通过在所述质谱仪处进行的高分辨率测量来确定每个离子的质荷(m/z)比。
13.如权利要求1-12中的任一项所述的方法,其中处理高分辨率质谱的循环还包括:检索相关的MS/MS谱并将内部碎片分配给表示分子的碎片的峰。
14.如权利要求1-13中的任一项所述的方法,其中处理高分辨率质谱的循环还包括:在分配质量差关系之后,分配跨电荷状态的关系。
15.一种用于分析样本的系统,包括:
质谱仪,被配置为电离并分析样本的一种或多种分析物以生成质谱的多个循环;以及
计算设备,包括处理器和存储指令的存储器,所述指令在由所述处理器执行时促进操作的执行,所述操作包括:
从所述质谱仪接收所述样本的质谱的多个循环,每个循环包括至少一个峰;
基于峰之间的关系标注所述质谱中的峰;
将最佳离子类型分配给每个峰;
处理所述质谱的每个循环以相对于与所述峰相关的可能中性质量为质谱的所述至少一个峰中的每个峰分配分数;
对共享共同的中性质量的峰进行分组;以及
输出所述样本中识别出的分析物。
16.如权利要求15所述的系统,其中所述操作还包括:
生成所述质谱的子集谱峰列表;
计算一个或多个初始中性质量;
假设不存在质子化的峰,寻找中性质量;
将质量差异关系分配给所述峰;
基于所述寻找和分配来更新中性质量值;
将m/z误差和分数分配给谱峰标注;
基于质量误差和个体标注的共性解决竞争标注;以及
通过确认复杂离子类型对互补峰进行分组。
17.如权利要求15-16中任一项所述的系统,其中所述操作还包括:
以0到1的标度对属于一组的多个峰中的每个峰进行评分,其中具有矛盾关系的峰具有分数0并且具有归因于相同分析物的最高可能性的峰具有分数1;
通过根据时间按连续循环进行分组和对形状评分来根据时间评定针对每个m/z离子的结果、以及离子类型的一致性;
基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组;
从单个循环、单个成员中性质量组中移除噪声;以及
基于分数识别分析物。
18.如权利要求15-17中的任一项所述的系统,还包括被配置为将所述样本引入所述质谱仪中的样本引入系统。
19.如权利要求15-18中的任一项所述的系统,还包括被配置为将识别出的分析物存储在数据存储库中的数据系统。
20.一种或多种非暂态计算机可读介质,其上实施有计算机可执行指令,所述计算机可执行指令在由至少一个计算系统执行时使所述至少一个计算系统执行以下操作中的一项或多项:
接收待分析样本的质谱的多个循环,每个谱包括至少一个峰并且每个样本包括两种或更多种分析物;
通过以下操作来处理质谱的每个循环:
生成所述质谱的子集谱峰列表;
计算一个或多个初始中性质量;
假设不存在质子化的峰,寻找中性质量;
将质量差异关系分配给所述峰;
基于所述寻找和分配来更新中性质量值;
将m/z误差和分数分配给谱峰标注;
基于峰之间的关系标注所述质谱中的峰;
基于质量误差和个体标注的共性解决竞争标注;
通过确认复杂离子类型对互补峰进行分组;
将最佳离子类型分配给每个峰;
以0到1的标度对属于一组的多个峰中的每个峰进行评分,其中具有矛盾关系的峰具有分数0并且具有归因于相同分析物的最高可能性的峰具有分数1;
通过根据时间按连续循环进行分组和对形状评分来根据时间评定针对每个m/z离子的结果、以及离子类型的一致性;
基于证据和分数根据时间评定针对每个中性质量的结果以按连续循环和对形状评分对中性质量进行分组;
从单个循环、单个成员中性质量组中移除噪声;
基于所述分数识别分析物;
对共享共同的中性质量的峰进行分组;以及
输出所述样本中识别出的分析物。
CN202280069598.2A 2021-09-10 2022-09-09 用于定性和定量分析工作流程的三维化学峰寻找器 Pending CN118120041A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US63/242,609 2021-09-10

Publications (1)

Publication Number Publication Date
CN118120041A true CN118120041A (zh) 2024-05-31

Family

ID=

Similar Documents

Publication Publication Date Title
Domingo-Almenara et al. Annotation: a computational solution for streamlining metabolomics analysis
JP7026148B2 (ja) 生成イオンスペクトルのデータ独立取得および参照スペクトルライブラリ照合
US8975577B2 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
Draper et al. Metabolite signal identification in accurate mass metabolomics data with MZedDB, an interactive m/z annotation tool utilising predicted ionisation behaviour'rules'
EP3544016B1 (en) Methods for combining predicted and observed mass spectral fragmentation data
WO2019240289A1 (ja) 化合物の構造を同定するための方法およびシステム
Fenyö et al. Mass spectrometric protein identification using the global proteome machine
Godzien et al. Metabolite annotation and identification
CN114923992B (zh) 鉴定已知和未知代谢物的分析方法、装置和设备
CN115380212A (zh) 用于比较群组内和群组间数据的方法、介质和系统
US20230251224A1 (en) Method and system for identifying structure of compound
CN112534267A (zh) 复杂样本中相关化合物的识别和评分
CN118120041A (zh) 用于定性和定量分析工作流程的三维化学峰寻找器
CN118176540A (zh) 用于未知化合物检测和识别的化学峰寻找器模型
WO2023037295A2 (en) Chemical peak finder model for unknown compound detection and identification
WO2023037306A2 (en) Three-dimensional chemical peak finder for qualitative and quantitative analytical workflows
US20230047202A1 (en) Method and system for the identification of compounds in complex biological or environmental samples
WO2023037293A2 (en) Ion type tailored library search pre-processing, constraints and spectral database building
CN114609318B (zh) 一种基于分子结构关联网络的规模化代谢组定性方法
Wang et al. GPA: An algorithm for LC/MS based glycan profile annotation
WO2018007921A1 (en) Results dependent analysis - iterative analysis of swath data
Lynn et al. An Automated Identification Tool for LC-MS Based Metabolomics Studies
Nash Improving metabolite annotation and identification in untargeted UHPLC-MS metabolomics studies
Zhang et al. Mass informatics in differential proteomics
WO2023057925A1 (en) Methods for enhancing complete data extraction of dia data

Legal Events

Date Code Title Description
PB01 Publication