CN115004307A - 用于在复杂生物学或环境样品中鉴定化合物的方法和系统 - Google Patents

用于在复杂生物学或环境样品中鉴定化合物的方法和系统 Download PDF

Info

Publication number
CN115004307A
CN115004307A CN202180010505.4A CN202180010505A CN115004307A CN 115004307 A CN115004307 A CN 115004307A CN 202180010505 A CN202180010505 A CN 202180010505A CN 115004307 A CN115004307 A CN 115004307A
Authority
CN
China
Prior art keywords
mass
intensity
region
interest
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180010505.4A
Other languages
English (en)
Inventor
罗杰·吉内贝托梅乌
O·扬尼斯特拉多
J·卡佩拉德斯托姆斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luo JieJineibeituomeiwu
Pere Wilgill Institute Foundation For Health Research
Biomedical Network Research Consortium Center
Universitat Rovira i Virgili URV
Original Assignee
Luo JieJineibeituomeiwu
Pere Wilgill Institute Foundation For Health Research
Biomedical Network Research Consortium Center
Universitat Rovira i Virgili URV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luo JieJineibeituomeiwu, Pere Wilgill Institute Foundation For Health Research, Biomedical Network Research Consortium Center, Universitat Rovira i Virgili URV filed Critical Luo JieJineibeituomeiwu
Publication of CN115004307A publication Critical patent/CN115004307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8682Group type analysis, e.g. of components having structural properties in common

Landscapes

  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Library & Information Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

用于在复杂生物学或环境样品中鉴定化合物的方法和系统。所述方法包括:从与分离技术联用的质谱法接收(102)质谱(1);对于质谱(1)的各数据点(2),在注释数据库(12)中注释(106)式和加合物的组合,其理论质荷比(m/z)T相应于数据点(2)的测量质荷比(m/z);对于注释的各式和加合物,根据表征标准在保留时间范围(RT0‑RT1)内检测(108)关注区;产生(110)包含列表(14),其具有与关注区关联的式和加合物的保留时间范围(RT0‑RT1)和理论质荷比(m/z)T;和将包含列表发送(112)至质谱仪用于鉴定样品中的化合物通过串联质谱法。

Description

用于在复杂生物学或环境样品中鉴定化合物的方法和系统
发明领域
本发明属于代谢组学领域,其特征是在复杂生物学或环境样品中,比如血浆、尿、组织和废水中分析代谢物和小有机分子。
发明背景
具有很高分辨率(>40,000FWHM)和质量精确度(<1-5ppm)的现代质谱仪称为HRMS("高分辨率质谱法"的首字母缩写),其非常快速地(数毫秒)施行质量扫描(在MS1或"完全扫描"模式中)从而在复杂生物学或环境样品中分析电离的化合物产生的离子。
在高分辨率质谱仪与分离技术耦合(称为"联用的MS")例如与液相色谱法耦合(LC-HRMS,"液相色谱法-高分辨率质谱法")或毛细管电泳耦合(CE-HRMS,"毛细管电泳-高分辨率质谱法")用于非靶向代谢组学实验的情况下,原始数据矩阵在复杂样品的情况下能够含有数万或数十万个数据点(也称为扫描)。
然而直至今日,在非靶向代谢组学研究中通过LC-HRMS或CE-HRMS注释和鉴定代谢物是复杂,并且鉴定的代谢物数量是非常受限的。本发明提出新的方法,其使得在生物学样品中鉴定更多(并且甚至全部)电离的化合物成为可能;因此增加可能检测的生物标记的范围。
发明概要
本发明涉及基于将质谱法与分离技术例如液相色谱法(LC-MS)或毛细管电泳(CE-MS)耦合用于分析非靶向代谢组学数据的方法。在质谱法中,能够用不同的电离方法来产生离子,比如电喷雾电离(ESI)或大气压化学电离(APCI)。分析样品能够是生物学样品(血浆、组织等)或复杂环境样品(也即下水道污物)。
根据本发明的第一方面,提供用于在复杂生物学或环境样品中鉴定化合物的方法。所述方法包括下述步骤:
-从施用至样品的与分离技术联用的质谱法分析接收质谱,其中所述质谱包含多个数据点,其具有保留时间、测量质荷比和所测信号的强度的信息。
-查阅分子式数据库,其包括多个分子式和电离加合物的分子离子的理论质荷比。
-对于质谱的各数据点,在注释数据库中注释分子式和电离加合物的组合,其理论质荷比在考虑给定质量误差的情况下相应于所述数据点的测量质荷比,其中各注释包括数据点的保留时间和所测信号的强度。
-对于注释数据库中注释的各分子式和电离加合物,检测在保留时间范围中定义的关注区,其中所注释的数据点符合表征标准。
-产生包含列表,其包括所检测的关注区的保留时间范围和与各关注区关联的分子式和电离加合物的理论质荷比。
-将包含列表发送至质谱仪用于通过串联质谱法鉴定样品中的化合物。
所述方法可以包括在质谱中检测与所注释的分子式和/或电离加合物关联的同位素类似物的步骤。检测同位素类似物包括:
-在各关注区的保留时间范围中搜寻质谱的数据点,其测量质荷比在考虑质量误差的情况下相应于与关注区关联的分子式和/或电离加合物的同位素类似物的理论质荷比。
-获得所发现的数据点的所测信号的强度。
-起始自相应于分子式和/或电离加合物的关注区的数据点的所测信号的强度,计算所发现的数据点的理论强度。
-将测量强度与计算理论强度比较。
-基于所述比较确定同位素类似物的检测。
在一种实施方式中,检测关注区包括确定在保留时间范围中定义的候选区,其具有最少个数的数据点和/或最小密度的注释数据点;表征候选区(20),获得表征参数;和选择表征参数符合某些表征标准的那些候选区作为关注区。
所用的表征标准能够是十分多样的:
-从候选区中的注释数据点计算线性回归的斜率,和验证计算斜率的绝对值大于阈值斜率。
-从候选区中的注释数据点计算所测信号的平均强度和/或最大强度,和验证计算的平均强度和/或最大强度大于平均强度和/或最大阈值。
-从候选区中的注释数据点计算所测信号的强度范围,所述强度范围通过候选区中最大强度与最小强度的比率定义,和验证计算的强度范围大于阈值强度范围。
-计算与候选区中的注释数据点关联的强度水平和与位于围绕候选区的区域中的质谱的数据点关联的强度水平之间的信噪比,和验证计算的信噪比大于阈值信噪比。围绕候选区的区域能够通过由下述界定的空间定义:
i.质荷比范围,其包括相应于候选区的质荷比范围,和
ii.保留时间范围,其包括相应于候选区的保留时间范围。
方法可以包括取决于待分析的样品定义一组分子式,定义与所述分子式关联的电离加合物,和产生分子式数据库,其包括对于各分子式和有关电离加合物的理论质荷比。
方法可以包括进行施用至样品的与分离技术联用的质谱法分析以便获得质谱。
方法可以包括进行用包含列表中所含的信息串联质谱法分析以便鉴定样品中的化合物。
本发明的第二方面涉及用于在复杂生物学或环境样品中鉴定化合物的系统。所述系统包含具有数据处理手段的控制单元,其经配置以执行预先定义的方法步骤。
系统可以包含质谱仪,其负责对样品进行与分离技术联用的质谱法分析以便获得质谱。
系统可以包含质谱仪,其负责用包含列表中所含的信息进行串联质谱法分析以便鉴定样品中的化合物。
本发明也涉及用于在复杂生物学或环境样品中鉴定化合物的程序产品。程序产品包含程序指令,其用于在所述程序于处理器中执行时进行预先定义的方法。程序产品可以包含储存所述程序指令的至少一种计算机可读存储介质。
附图说明
下文很简单地描述一系列附图,其有助于更佳地理解本发明并且其清楚地涉及通过非限制性实例展示的本发明的实施方式。
图1代表通过与分离技术耦合的质谱仪获得的质谱。
图2A和2B根据现有技术说明关注区的检测和在质谱注释过程中的光谱峰。
图3A、3B和3C根据现有技术代表在质谱注释过程中光谱峰的归类。
图4A和4B分别代表腺苷三磷酸和S-腺苷基甲硫氨酸的洗脱形式。
图5代表本发明方法的实施方式的流程图。
图6A和6B代表对于质谱的一个相同数据点注释的式和加合物的重叠数,考虑质谱仪的质量误差分别为1ppm和5ppm。
图7说明根据一种实施方式检测关注区的过程的流程图。
图8显示确定和表征候选区的实例。
图9代表根据不同标准表征候选区。
图10说明围绕候选区的区域,其用来确定候选区的表征标准(信噪比)。
图11说明根据本发明实施方式检测同位素类似物的过程的流程图。
图12A和12B显示质谱仪分辨率对可能的同位素类似物检测的效果的两个实例。
图13代表实例,其中观察到具体式(M0)的真实和理论同位素类似物(M1,M2)模式。
发明详述
在与分离技术耦合的质谱仪(即与质谱法耦合的液相色谱法LC-MS或与质谱法耦合的毛细管电泳CE-MS)中以MS1模式获得的质谱1的数据点2含有(如图1的图代表)三个信息轴:所检测离子的质荷比(m/z),强度(与所检测离子的丰度成比例),以及洗脱时间或保留时间RT。质谱1的各数据点2(或扫描)通常对于给定的时间瞬间含有相当宽质荷比m/z范围(例如100至1,000的m/z)的信息,能够具有多至数千个质荷比m/z的测量(取决于设备分辨率)。
目前,MS1模式的质谱1的注释(MS1注释)遵循下述方案:
1)对于原始数据中关注区3(ROI)的检测使用算法(也即CentWave),其在色谱分离区域或者与HRMS耦合的任何其它分离技术(水平轴代表保留时间RT而垂直轴代表所测信号的强度,如图2A代表)中应用连续小波变换和高斯平差,以便对于不同的质荷比(m/z)和保留时间(RT)值检测全部质谱1中的光谱峰4,如图2B所示。
2)随后,用又一算法(也即CAMERA,CliqueMS)将由于对加合物和同位素存在的冗余而属于相同化合物的光谱峰4归类(图3A)。示于图3A的源碎片主要是由于损失水,也即:正电离中的[M-H2O+H]+或负电离中的[M-H2O-H]-。光谱峰4的归类能够通过峰形的关联来进行(图3B),其中寻求峰形的高关联。显示弱关联的光谱峰4不进行归类。归类还能够用不同样品通过峰的丰度或强度的关联来进行。在图3C的实例中,在质荷比A的峰强度与质荷比C的峰强度之间观察到几乎恒定的比率(线性回归的决定系数R2=0.98)。类似地,在质荷比B与质荷比D之间存在强关联(R2=0.92)。然而,在质荷比A与B之间不存在关联(R2=0.03)。然而,该方法在代谢物的洗脱形式不配合期望配合数据的函数(也即高斯)的情况下有严重局限,所述情况例如随腺苷三磷酸(ATP,图4A)或S-腺苷基甲硫氨酸(SAM,图4B)发生。
在完成MS1注释之后,为了代谢物的表征或鉴定通过使用串联质谱法或MSn(n≥2)进行MS2注释。对于在非靶向代谢组学中通过LC-MS/CE-MS(或LC-HRMS/CE-HRMS)和MSn鉴定代谢物,目前存在三种方法:
-包含列表(靶向MS/MS):以MS1模式分析样品并且通过检测和排列峰的一种或多种软件程序处理数据(如图3A中解释)。通常遵循分组或实验条件之间的统计学变化标准,在随后的实验中这些m/z的一部分通过MS2或MSn分析碎片化。
-数据依赖采集(DDA):在相同的非靶向代谢组学分析中,质谱仪收集MS1和MSn数据。在该时刻洗脱的m/z的MS1识别短工作循环用来控制m/z强度和鉴定/选择待碎片化的可能m/z。然后,施用"n"个MS2或MSn循环,在其各自期间将单个m/z前体分离和碎片化,并且检测其碎片。以强度降序将前体碎片化。一般用动态排除窗口来确保最近已通过MS2扫描的m/z并不经常地再碎片化,条件是可获得新m/z。
-数据非依赖采集(DIA):在相同的非靶向代谢组学分析中,质谱仪收集MS1和MSn数据。其是确定分子结构的方法,其中将所选m/z范围内的全部离子碎片化并且检测碎片的混合物。MSn质谱图如下获得:在给定的时间将进入质谱仪的全部离子碎片化(宽带DIA),或者将m/z范围内的全部离子分离和依次碎片化(SWATHTM,全理论质谱图顺序窗口化采集)。
本发明由新方法组成,其用于处理来自MS1模式LC-HRMS或CE-HRMS分析的原始数据并且选择质荷比(m/z)和保留时间(RT)范围用于在随后通过串联质谱法或MSn(n≥2)进行的分析中鉴定代谢物。
本发明的方法100包括示于图5流程图的步骤。
首先,方法100包括从对生物学或环境样品施用的LC-MS或CE-MS分析(以MS1模式获得)接收102质谱1。质谱1包含多个数据点2,其具有包括保留时间(RT)、测量质荷比(m/z)和所测信号的强度的信息。
随后,访问或查阅104分子式数据库10,其包括多个分子式和有关电离加合物的分子离子的理论质荷比(m/z)T。在一种实施方式中,分子式数据库10包含式列表和加合物列表,具有各式和各加合物的理论荷质比,从而能够随后计算分子式和电离加合物的组合的理论荷质比,所述计算起始自分子式的单一同位素质量加上在源位带电的电离加合物贡献的质量差(也即H、Na K)。在又一实施方式中,分子式数据库10直接储存不同式和加合物的组合的理论荷质比,从而不需要随后计算。
分子式数据库10的内容或在查阅104中访问的信息优选朝向待分析的特定样品,其基于涉及待分析基质(血清、尿、细胞、环境样品等)的分子式大全域或空间。在生物医药关注的生物学基质的情况下,能够使用人类代谢组数据库(HMDB)中包括的分子式。例如,能够取决于待分析的样品和与分子式的关联已知的电离来定义一组分子式。能够考虑数据库,其仅包括朝向特定样品的分子式(例如期望在血浆中发现的式),或较大的数据库比如HMDB数据库,其包括人体中存在的超过10,000种代谢物的信息。
一旦定义分子式及其电离加合物,则能够产生分子式数据库10的内容,包括分子式的各分子离子和各关联的电离加合物的理论质荷比(m/z)T,其能够在考虑相应原子重量的情况下从分子式直接获得。方法可以包括产生分子式数据库10的步骤。另选地,分子式数据库10可以在进行方法100之前已经形成,从而方法100仅需要访问储存了预先产生的分子式数据库10的存储(也即本地装置或云)。
分子式数据库10的构造可以包括产生含有全部理论质荷比(m/z)T的表,其考虑所考虑的各独特分子式的主要同位素类似物(也即M1、M2、M3)和在正和负电离两者中的已知加合物(源碎片能够视为在加合物列表中的加合物)。分子式数据库10中包含的信息能够例如以表的形式结构化,其中在各列中包括不同的式/加合物/同位素类似物。表能够通过第一栏的理论质荷比(m/z)T排序,如下述实例代表:
m/z<sup>T</sup> 加合物 同位素类似物
376.2312 C21H27NO4 +NH4 M1
方法在LC-MS或CE-MS质谱1的各数据点2搜寻在预定误差以内(一般1至5ppm)的全部理论质荷比(m/z)T值。另选地,在质谱1的数据点2进行扫描并且对各数据点2验证其测量质荷比(m/z)是否相应于分子式数据库10的理论质荷比(m/z)T。为了促进搜寻,分子式数据库10能够包括从最低到最高理论质荷比(m/z)T排序的数据。
对于各质谱1的数据点2,在注释数据库中12注释106理论质荷比(m/z)T相应于所述数据点的测量质荷比(m/z)的分子式和电离加合物,其考虑某些容限或质量误差(来自测量精确度或质谱仪校准)。对于所注释的各分子式和电离加合物,注释数据库12包括与式/加合物关联的数据点的保留时间(RT)和所测信号的强度。注释数据库12中包含的信息能够例如以表的形式结构化,其中各列中包括不同的注释。因此各列将是新的注释,其将包括所注释的式和/或加合物,其相应的保留时间(RT),关联的质谱1数据点2的所测信号的强度,和任选的测量质荷比(m/z)。
加合物 RT 强度 测量m/z
C21H27NO4 +NH4 375.2281
在注释数据库12中对表不同列中的一种相同式和加合物进行的保留时间(RT)和强度的不同注释能够被归类(并且甚至在图中展示,如图8对式C21H27NO4加合物+NH4所示),用于随后分析检测关注区。
根据定义的质量误差,对一个相同数据点2注释的可能式和/或加合物将存在或多或少的重叠。在图6A的图中,对于质谱1数据点的不同质荷比(m/z),考虑到1ppm的质量误差,用水平轴代表所产生的重叠数(从0个重叠至7个重叠),并且用垂直轴代表各不同的重叠数的出现次数。例如,在质谱1数据点2的测量质荷比(m/z)能够相应于两种不同的式/加合物,考虑到1ppm的质量误差:分子式C6H9NO2的负电离加合物-H-NH3,和分子式C6H6O2的负分子离子-H。因此在两种式和/或加合物之间存在重叠。在N个式和/或加合物之间发生重叠的情况下,认为存在N-1个重叠。在图6A的实例中,在质谱1的几乎100,000个数据点2中,在超过40,000个数据点不存在重叠,在超过20,000个数据点存在1个重叠而在超过10,000个数据点存在2个重叠。随质量误差增加,在不同的可能式-加合物之间的重叠增多(在图6B中显示5ppm质量误差下的重叠)。
随后,一旦已进行注释106,则分析注释数据库12的各分子式和电离加合物,归类对一种相同式/加合物发生的全部注释(参见图8实例),以便检测108在保留时间范围(RT0-RT1)中定义的关注区,其中所注释的数据点符合某些表征标准。来自注释数据库12的单个式/加合物可以包括单个关注区或在不同保留时间范围中检测的数个关注区。
方法100施行算法以便基于验证一种或多种表征标准来找到关注区,首先考虑关注区中最小的密度和/或最少个数的数据点(其将确定候选区)的标准,并且随后考虑额外标准,比如关注区中数据点的最小斜率或某种最小信噪比。所检测的关注区还能够以任选但是推荐的方式与样品空白比较以便排除假阳性或样品之外的数据点。
因此并且与现有技术不同,确定关注区并不是由通过用数据拟合模型(也即高斯)在质谱1中寻峰构成。新方法的途径不依赖光谱峰4的形状和确定,并不是必需进行光谱峰之间的任何类型的关联(如图3B和3C对现有技术所示)。这使得本发明方法不依赖色谱条件。
图7显示根据一种实施方式检测108关注区的过程的流程图。检测108关注区包括对于注释数据库12的各分子式和电离加合物确定122在保留时间范围(RTC0-RTC1)中定义的候选区20,比如图8实例中代表的那些,其具有最少个数的数据点和/或最小密度的候选区20中的注释数据点。该步骤相应于通过数据点密度进行过滤,仅考虑聚集最少个数的数据点和/或最小密度的数据点的那些时间窗口的可能关注区(也即候选区20)。在示于图8的实例中,注释数据库12中注释的质谱1数据点2代表分子式C21H27NO4的加合物[M+NH4]+。还显示已通过密度过滤的候选区20;例如,选择在某一最大时间范围中含至少五个质谱1数据点2的时间范围作为候选区20。
随后,表征124候选区20,获得候选区20的表征参数22。最后,将获得的表征参数22与表征标准比较126,并且选择128表征参数22符合某些表征标准的那些候选区20作为关注区。
图9显示表征124候选区20的不同方式以及能够考虑候选区20必须实现的不同表征标准。例如,尤其考虑下述表征标准的任何组合:
-候选区20中的数据点2的最小斜率:候选区20的表征可以包括计算132候选区20中的注释数据点2的线性回归24(参见图8)的斜率(m)。表征标准可以包括验证142计算斜率的绝对值大于最小斜率(mmin)或阈值斜率。
-候选区中所测信号的平均和/或最大强度:候选区的表征可以包括从候选区20中的注释数据点2计算134所测信号的平均强度(Iavg)和/或计算136所测信号的最大强度(Imax)。表征标准可以包括验证144计算的平均强度(Iavg)大于阈值平均强度(Iavg TH)和/或验证146计算的最大强度(Imax)大于最大阈值强度(Imax TH)。
-候选区中的强度范围:候选区的表征可以包括从候选区中的注释数据点计算138所测信号的强度范围,其中所述强度范围通过候选区中的最大强度与最小强度的比率来定义(例如,候选区20中的注释数据点2的最大强度值Imax与最小强度值Imin的对数比率)。表征标准可以包括验证148计算的强度范围大于阈值强度范围。
-最小信噪比(SNR):候选区的表征可以包括计算140与候选区20中的注释数据点2关联的强度水平和与位于围绕候选区20的区域中的质谱1数据点2关联的强度水平之间的信噪比(SNR)。表征标准可以包括验证150计算的信噪比(SNR)大于阈值信噪比(SNRTH)。根据示于图10的实施方式,围绕候选区20的区域26能够通过由质荷比范围(m/zP0-m/zP1)界定的空间来定义,其包括相应于候选区20的质荷比范围(m/zC0-m/zC1),并且对于保留时间范围(RTP0-RTP1),其包括相应于候选区20的保留时间范围(RTC0-RTC1),其中所述空间可以或可以不包括候选区20本身(在图10中候选区的范围m/zC0-m/zC1并非按比例显示,出于示例性意图其已放大;在实践中,范围m/zP0-m/zP1显著大于范围m/zC0-m/zC1,甚至大多至100,000倍)。候选区能够视为包括质荷比范围(m/zC0-m/zC1),原因是其视为注释数据库12中的注释的质量误差。
-关注区的保留时间范围(RT0-RT1)的最小和/或最大幅度(也即从该区起点至终点(RT0-RT1)的最小和/或最大时间距离)。
然而,可能使用其它不同的表征参数或标准。另外,表征标准能够与机器学习技术(人工神经网络、随机森林等)耦合以便过滤候选区20和产生更具体的包含列表以交换应用与学习方法本身关联的偏差。
在图8的实例中,并未选择左侧候选区作为关注区,原因是其不符合最小斜率标准(|m|<mmin)。也并未选择中间候选区作为关注区,原因是其数据点2的平均强度(Iavg)小于阈值平均强度(Iavg TH)。选择128右侧候选区20作为关注区28,原因是表征参数22符合所需的表征标准(也即|m|>mmin;Imed>Imed TH等)。在所代表的情况中,关注区28匹配候选区(RTCO=RT0,RTC1=RT1)。然而,最终考虑的关注区28可以来自其它重叠区域的归类(例如归类候选区或其它重叠关注区)。
方法100继续产生110经注释的且高度精确的包含列表14,其根据各m/z的洗脱特征具有可变时间范围,对于MS/MS(或MSn)实验这促进对代谢物的鉴定。包含列表14包括所检测的关注区的保留时间范围(RT0-RT1)以及与各所检测的关注区关联的分子式和/或电离加合物的理论质荷比(m/z)T。任选地,包含列表还可以包括与各所检测的关注区关联的分子式和/或电离加合物。
最后,将包含列表14发送112至质谱仪从而通过使用来自包含列表14的数据借助串联质谱法分析进行对样品中的代谢物的鉴定。任选地,方法可以包括通过使用包含列表中所含的信息进行串联质谱法分析以便鉴定样品中的代谢物。在LC-MS分析中进行的MS1模式质量扫描之后进行MS/MS分析,需要第二次注射相同样品,原因是目前并无在MS1中检测之后聚集或储存离子的技术。
新方法分析以MS1模式获得的代表性生物学样品的质谱的数据点,以便选择将在随后的MSn实验中碎片化的那些质荷比m/z(及其时间范围)。本发明的新方面是选择质荷比(m/z)和保留时间范围以便施行MSn分析的方式,原因是其并非基于峰的检测;其是不依赖化合物色谱洗脱特征的方法,能够检测具有非高斯洗脱形状的或相似的代谢物(比如图4A和4B那些)。另外,在将与所检测的关注区关联的分子式和/或电离加合物发送至质谱仪的情况下,所述质谱仪能够在碎裂后分析中使用该信息以便更快速地鉴定化合物,原因是其开始于候选式的某些列表。
另外,本发明展示检测质谱1中的分子式和/或电离加合物的同位素类似物的新方式。一旦已检测108分子式和电离加合物的关注区28,则能够验证同位素类似物的检测。如图11流程图所代表,同位素类似物120的检测包括在各关注区28的保留时间范围(RT0-RT1)中(或至少在所述范围RT0-RT1中包括的时间间隔中)搜寻162质谱1的数据点2,其测量质荷比(m/z)在考虑质量误差的情况下相应于与关注区关联的分子式和/或电离加合物(M0)的同位素类似物(也即M1)的理论质荷比(m/z)T。以该方式验证的是,质荷比m/z在考虑光谱仪质量误差的情况下符合同位素类似物的理论质荷比。
随后,获得164在搜寻162中所发现的各数据点的所测信号的强度。计算166在搜寻162中所发现的数据点的理论强度,其起始自关注区的数据点(也即相应于主要式/加合物M0的数据点)的强度,并且取决于所期望发现的有关同位素类似物相对主要式或加合物M0的理论丰度比(无论其是M1、M2等)。例如,如果同位素类似物M1相对主要式/加合物M0的理论丰度比是2.5%,则同位素类似物的理论强度会是2.5%的关注区数据点的强度水平。将测量强度与理论计算强度比较168,并且基于该比较确定170同位素类似物的检测与否。在一种实施方式中对所发现的各数据点验证数据点的测量强度是否相应于同位素类似物的理论强度,其考虑某些强度容限(目的是预期例如测量中的可能敏感性误差或相对同位素类似物相对式/加合物M0的理论丰度比的发散)。为了计算同位素类似物的理论强度,考虑相应M0的强度(Int(M0))(也即在相应的时间瞬间RT-在相同扫描中-关注区数据点28所测信号的强度)和同位素类似物相对M0的理论丰度比(比率)。在测量强度与理论强度的比较168中,考虑强度容限;例如,验证同位素类似物的测量强度(Int(iso))包括在围绕会相应于同位素类似物的理论值(Int(M0)*比率)构建的间隔(作为值k的函数)中:
Int(M0)*比率*(1+k)>Int(iso)>Int(M0)*比率*(1-k)
然后能够任选进行基于余弦相似性比较的额外验证,其定义为:
Figure BDA0003758788190000131
所述验证能够以下述方式进行:
·在注释数据库12中,在相应于M0分析关注区的RT间隔中搜寻对应待比较条件(也即M0与同位素类似物M1比较)的条目。
·搜寻各组中共享保留时间RT的全部那些条目(换言之,在一次相同扫描(也即相同时间瞬间RT)中已发现两个条件M0和M1的条目)。
·如果存在足够的条目(也即超过5个,以便避免小N情况下的假阳性),则计算余弦相似性(其中I=<i1,i2,i3…iN>且J=<j1,j2,j3…jN>,待比较的两个条件的强度矢量):
Cos=(i1j1+i2j2+…iNjN)/(模(I)*模(J))
·如果Cos>k(也即k=0.99),则确定已发现同位素类似物并且记录其身份。
相应于具有某些式和加合物的同位素类似物的数据点的搜寻162能够通过查阅注释数据库12进行,其除了式/加合物(M0)的注释之外还能够包括同位素类似物(M1、M2,…)的注释。为此,在进行式/加合物(M0)的注释106时,验证质荷比关系相应于同位素类似物(M1、M2,…)的数据点的存在和接近理论值的强度,并且在该情况下进行同位素类似物的注释。另选地,对同位素类似物的搜寻162能够在质谱1中直接进行(原因是已知时间瞬间RT和待搜寻的质荷比)。
对于所注释的各式和/或加合物必须确定存在与否的同位素类似物的搜寻能够在分子式数据库10中确定,其可以包括例如对各式和/或加合物将考虑的同位素类似物(例如各式/加合物M0的主要同位素类似物M1和M2)及其相应的理论质荷比(m/z)T。分子式数据库10还可以包括同位素类似物的理论丰度比。在一种实施方式中,在理论上能够检测的同位素类似物基于在所分析的质荷比m/z范围中的光谱的质量分辨率来确定,这使得可能取决于设备分辨率对各M0调节质谱仪能够检测的同位素类似物空间。涉及同位素类似物的信息能够例如包括在同位素类似物数据库中,其中储存质谱仪可检测的同位素类似物(M1,M2,…)的组成,关于M0的质荷比m/z和丰度比。
因此,该方法使得可能计算各式的同位素谱,并且区分给定关于M0的强度比率和质谱仪分辨率时可通过设备检测哪些同位素类似物。确定计算同位素类似物的峰是否可分离的方法取决于所用的质量分析仪(如例如文献"Orbitrap Mass Spectrometry",Zubarevet al.,Analytical Chemistry 2013,85(11),第5288-5296页所解释)。在Orbitrap分析仪的情况下,分辨率与m/z的平方根成反比,并且因此能够在数学上计算。在FTICR分析仪的情况下,分辨率与m/z成反比,因此也能够在数学上计算。与之相对,TOF分析仪中的分辨率独立于m/z,因此各m/z分辨率通过校准曲线计算。
图12A和12B显示苯丙氨酸(C9H11N5O2)同位素谱(M0、M1和M2)的实例,其中解释分辨率的效果以便区分同位素类似物和更高的分辨率如何使得能够区分不同于M1和M2的其它同位素类似物。图12A相应于200000分辨率(Orbitrap)而图12B相应于60000分辨率(QTOF)。这些图显示的是:
-垂直虚线:根据各原子的各天然同位素的相对丰度,显示理论质荷比m/z(及其丰度)。
-曲线:由于设备,根据其分辨率,它们不能完美区分理论质荷比m/z(如果适当则是检测的那些),在质谱中真正观察到的是涵盖它们的曲线(曲线)。根据分辨率,该曲线更佳或更劣地定义垂直虚线。
-垂直实线:这些是曲线的简化(概括),该方式防止收集曲线的全部数据点,而是将它们涵盖在单个信号中(称为质心)。该值是曲线中涵盖的质荷比m/z及其丰度的"加权平均"。
在图12A的实例中,200000分辨率(Orbitrap)足以完全区分同位素类似物M1和M2。然而,在示于图12B(分辨率60000,QTOF)的情况中,能够分离同位素类似物M1但无法分辨且不能分离同位素类似物M2。
图13代表真实的实例,其中观察到特定式M0的同位素类似物M1、M2)谱,以及它们如何大致遵循计算理论强度比率(虚线)。
在对于给定质荷比(m/z)有数个式-加合物重叠的情况下,能够用通过该方法已检测的与一种相同式关联的同位素类似物的数量来相对其它式优先考虑一种候选式,提供关于在甚至进行串联质谱法之前能够处理哪种化合物的有关信息。

Claims (16)

1.用于在复杂生物学或环境样品中鉴定化合物的方法,特征在于其包括:
从施用至样品的与分离技术联用的质谱法分析接收(102)质谱(1),其中所述质谱(1)包含多个数据点(2),所述数据点具有保留时间(RT)、测量质荷比(m/z)和所测信号的强度信息;
查阅(104)分子式数据库(10),其包括多个分子式和电离加合物的分子离子的理论质荷比(m/z)T
对于质谱(1)的各数据点(2),在注释数据库(12)中注释(106)分子式和电离加合物的组合,其理论质荷比(m/z)T在考虑给定质量误差的情况下相应于所述数据点(2)的测量质荷比(m/z),其中各注释包括数据点(2)的保留时间(RT)和所测信号的强度;
对于注释数据库(12)中注释的各分子式和电离加合物,检测(108)在保留时间范围(RT0-RT1)中定义的关注区,其中所注释的数据点符合表征标准;
产生(110)包含列表(14),其包括所检测的关注区的保留时间范围(RT0-RT1)和与各关注区关联的分子式和电离加合物的理论质荷比(m/z)T;并且
将包含列表发送(112)至质谱仪用于通过串联质谱法鉴定样品中的化合物。
2.权利要求1的方法,其包括在质谱(1)中检测与所注释的分子式和/或电离加合物关联的同位素类似物,其中同位素类似物的检测包括:
在各关注区(28)的保留时间范围(RT0-RT1)中搜寻(162)质谱(1)的数据点(2),其测量质荷比(m/z)在考虑质量误差的情况下相应于与关注区(28)关联的分子式和/或电离加合物的同位素类似物的理论质荷比(m/z)T
获得(164)所发现的数据点的所测信号的强度;
起始自相应于分子式和/或电离加合物的关注区(28)的数据点的所测信号的强度,计算(166)所发现的数据点的理论强度;
将测量强度与计算理论强度比较(168);
基于所述比较确定(170)同位素类似物的检测。
3.前述权利要求中任一项的方法,其中关注区的检测(108)包括:
确定(122)在保留时间范围(RTC0-RTC1)中定义的候选区(20),其具有最少个数的数据点和/或最小密度的注释数据点;
表征(124)候选区(20),获得表征参数(22);并且
选择(128)表征参数(22)符合某些表征标准的那些候选区(20)作为关注区。
4.权利要求3的方法,其中候选区(20)的表征(124)包括从候选区(20)中的注释数据点(2)计算(132)线性回归(24)的斜率(m);
并且其中表征标准包括验证(142)计算斜率(m)的绝对值大于阈值斜率(mmin)。
5.权利要求3至4中任一项的方法,其中候选区(20)的表征(124)包括从候选区(20)中的注释数据点(2)计算(134,136)所测信号的平均强度(Iavg)和/或最大强度(Imax);
并且其中表征标准包括验证(144,146)计算的平均强度(Iavg)和/或最大强度(Imax)大于平均强度(Iavg TH)和/或阈值最大强度(Imax TH)。
6.权利要求3至5中任一项的方法,其中候选区(20)的表征(124)包括从候选区(20)中的注释数据点(2)计算(138)所测信号的强度范围,所述强度范围通过候选区(20)中最大强度与最小强度的比率定义;
并且其中所述表征标准包括验证(148)计算的强度范围大于阈值强度范围。
7.权利要求3至6中任一项的方法,其中候选区(20)的表征(124)包括计算(140)与候选区(20)中的注释数据点(2)关联的强度水平和与位于围绕候选区(20)的区域(26)中的质谱(1)的数据点(2)关联的强度水平之间的信噪比(SNR);
并且其中所述表征标准包括验证(150)计算的信噪比(SNR)大于阈值信噪比(SNRTH)。
8.权利要求7的方法,其中围绕候选区(20)的区域(26)通过由质荷比范围(m/zP0-m/zP1)界定的空间来定义,其包括相应于候选区(20)的质荷比范围(m/zC0-m/zC1),并且对于保留时间范围(RTP0-RTP1),其包括相应于候选区20的保留时间范围(RTC0-RTC1)。
9.前述权利要求中任一项的方法,包括:
-取决于待分析的样品定义一组分子式;
-定义与所述分子式关联的电离加合物;和
-产生分子式数据库(10),包括对于各分子式和有关电离加合物的理论质荷比(m/z)T
10.前述权利要求中任一项的方法,其包括进行施用至样品的与分离技术联用的质谱法分析以获得质谱(1)。
11.前述权利要求中任一项的方法,其包括用包含列表中所含的信息进行串联质谱法分析以便鉴定样品中的化合物。
12.用于在复杂生物学或环境样品中鉴定化合物的系统,特征在于其包含具有数据处理手段的控制单元,其经配置以执行根据权利要求1-11中任一项的方法步骤。
13.权利要求12的系统,包含质谱仪,其负责对样品进行与分离技术联用的质谱法分析以便获得质谱(1)。
14.权利要求12至13中任一项的系统,包含质谱仪,其负责用包含列表中所含的信息进行串联质谱法分析以便鉴定样品中的化合物。
15.用于在复杂生物学或环境样品中鉴定化合物的程序产品,包含程序指令,其用于在所述程序于处理器中执行时进行权利要求1-11中任一项所定义的方法。
16.根据权利要求15的程序产品,包含储存所述程序指令的至少一种计算机可读存储介质。
CN202180010505.4A 2020-01-24 2021-01-19 用于在复杂生物学或环境样品中鉴定化合物的方法和系统 Pending CN115004307A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ESP202030061 2020-01-24
ES202030061A ES2767375B2 (es) 2020-01-24 2020-01-24 Metodo , sistema y producto de programa para la identificacion de compuestos en muestras biologicas o ambientales complejas
PCT/EP2021/051000 WO2021148371A1 (en) 2020-01-24 2021-01-19 Method and system for the identification of compounds in complex biological or environmental samples

Publications (1)

Publication Number Publication Date
CN115004307A true CN115004307A (zh) 2022-09-02

Family

ID=71080020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180010505.4A Pending CN115004307A (zh) 2020-01-24 2021-01-19 用于在复杂生物学或环境样品中鉴定化合物的方法和系统

Country Status (7)

Country Link
US (1) US20230047202A1 (zh)
EP (1) EP4078600B1 (zh)
JP (1) JP2023511456A (zh)
CN (1) CN115004307A (zh)
CA (1) CA3163129A1 (zh)
ES (1) ES2767375B2 (zh)
WO (1) WO2021148371A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2767375B2 (es) * 2020-01-24 2020-12-17 Consorcio Centro De Investig Biomedica En Red M P Metodo , sistema y producto de programa para la identificacion de compuestos en muestras biologicas o ambientales complejas
CN114624317B (zh) * 2020-12-10 2024-07-26 中国科学院大连化学物理研究所 一种基于直接进样质谱的定性和定量分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010116409A1 (ja) * 2009-04-07 2010-10-14 株式会社島津製作所 質量分析データ処理方法及び装置
US20130131998A1 (en) * 2011-11-18 2013-05-23 David A. Wright Methods and Apparatus for Identifying Mass Spectral Isotope Patterns
US9847216B2 (en) * 2015-08-14 2017-12-19 Thermo Finnigan Llc Systems and methods for targeted top down discovery
US10636636B2 (en) * 2016-05-23 2020-04-28 Thermo Finnigan Llc Systems and methods for sample comparison and classification
ES2767375B2 (es) * 2020-01-24 2020-12-17 Consorcio Centro De Investig Biomedica En Red M P Metodo , sistema y producto de programa para la identificacion de compuestos en muestras biologicas o ambientales complejas

Also Published As

Publication number Publication date
ES2767375B2 (es) 2020-12-17
WO2021148371A1 (en) 2021-07-29
US20230047202A1 (en) 2023-02-16
EP4078600A1 (en) 2022-10-26
CA3163129A1 (en) 2021-07-29
EP4078600C0 (en) 2024-04-24
EP4078600B1 (en) 2024-04-24
ES2767375A1 (es) 2020-06-17
JP2023511456A (ja) 2023-03-17

Similar Documents

Publication Publication Date Title
US9395341B2 (en) Method of improving the resolution of compounds eluted from a chromatography device
US8975577B2 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
US7279679B2 (en) Methods and systems for peak detection and quantitation
US20140138535A1 (en) Interpreting Multiplexed Tandem Mass Spectra Using Local Spectral Libraries
EP2617052A2 (en) Data independent acquisition of production spectra and reference spectra library matching
US11031218B2 (en) Data acquisition method in a mass spectrometer
CN114965728A (zh) 用数据非依赖性采集质谱分析生物分子样品的方法和设备
CN115004307A (zh) 用于在复杂生物学或环境样品中鉴定化合物的方法和系统
CN117461087A (zh) 用于鉴别质谱中的分子种类的方法和装置
US11959898B2 (en) Identification and scoring of related compounds in complex samples
JP7108697B2 (ja) 候補分析種を順位づけるための方法
CN118736340A (zh) 一种基于数据分析的质谱仪分辨率提升方法及系统
Needham et al. i, United States Patent (10) Patent No.: US 7,800,055 B2

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination