CN109643633B - 自动化质谱库保留时间校正 - Google Patents

自动化质谱库保留时间校正 Download PDF

Info

Publication number
CN109643633B
CN109643633B CN201780051347.0A CN201780051347A CN109643633B CN 109643633 B CN109643633 B CN 109643633B CN 201780051347 A CN201780051347 A CN 201780051347A CN 109643633 B CN109643633 B CN 109643633B
Authority
CN
China
Prior art keywords
measured
retention time
xic
known compounds
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780051347.0A
Other languages
English (en)
Other versions
CN109643633A (zh
Inventor
斯蒂芬·泰特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DH Technologies Development Pte Ltd
Original Assignee
DH Technologies Development Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DH Technologies Development Pte Ltd filed Critical DH Technologies Development Pte Ltd
Publication of CN109643633A publication Critical patent/CN109643633A/zh
Application granted granted Critical
Publication of CN109643633B publication Critical patent/CN109643633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8682Group type analysis, e.g. of components having structural properties in common
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8665Signal analysis for calibrating the measuring apparatus
    • G01N30/8668Signal analysis for calibrating the measuring apparatus using retention times
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/004Combinations of spectrometers, tandem spectrometers, e.g. MS/MS, MSn

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

使用DIA串联质谱方法来产生多个经测量产物离子质谱。从已知化合物质谱库中检索一或多个产物离子,或针对数据库的所述已知化合物计算一或多个理论产物离子。对于每一已知或理论产物离子,根据所述经测量产物离子质谱计算XIC。对于产生已知化合物子集的所述已知化合物,将高于阈值强度的经测量XIC峰值进行分组。针对所述已知化合物子集检索或计算已知或理论保留时间。将所述已知化合物子集的所述已知或理论保留时间用作自变量,且将所述已知化合物子集的所述经测量XIC峰值组的所述经测量保留时间用作因变量,来计算回归函数,以校正所述已知或理论保留时间。

Description

自动化质谱库保留时间校正
相关申请的交叉引用
本申请案要求2016年8月10日提交的第62/372,854号美国临时专利申请案的权益,所述申请案的内容以其全文引用的方式并入本文中。
技术领域
本文中的教示涉及使用与串联质谱或质谱/质谱(mass spectrometry/massspectrometry,MS/MS)耦合的分离技术对样本混合物中的已知化合物进行识别。更具体地说,本文中的教示涉及用于在每一样本基础上校正理论离子或所存储库离子的保留时间以使得可将所述保留时间与样本混合物的离子的经测量保留时间进行比较且用于识别样本混合物中的已知化合物的系统和方法。
背景技术
质谱法中的常见问题是确定存在于样本中的化合物的属性。在蛋白质组学中,例如,所述问题是确定存在于样本中的蛋白质的属性。典型地,使用两步骤串联质谱方法在样本中识别化合物或蛋白质。
在第一步骤中,获取实验数据。使用如胰蛋白酶的酶来消化样本中的蛋白质,使每一蛋白质产生一或多种肽。应注意,如本文中所使用,肽是蛋白质的经消化部分。一些蛋白质可被完整地消化,因而肽也可以是完整蛋白质。然而,在大多数情况下,肽是蛋白质的经消化部分。
随后使用样本引入装置或分离装置将由蛋白质消化而来的肽随时间而与样本分离。随后使用离子源使分离肽离子化。利用质荷比(m/z)来选择离子化肽或肽前体离子,使所选前体离子碎裂,并使用串联质谱仪对所得产物离子进行质量分析。第一步骤的结果是在一或多个不同时间所测量的一或多个产物离子质谱的集合。
在第二步骤中,从所存储质谱库或数据库中获取或计算机生成关于预期在实验样本中的已知化合物或蛋白质的信息。将这一已知数据与实验数据进行比较。这一已知数据包含例如产物离子在特定保留时间处的质荷比值。
关于已知化合物的产物离子的信息例如可从质谱库或数据库中获取。质谱库包含例如根据分别分析已知化合物中的每一种所收集的质谱数据。随后将来自此先前所收集质谱数据的产物离子与根据样本混合物在一或多个不同时间中的每一个处经测量的一或多个经测量产物离子质谱中的每一个进行比较。典型地,基于已知化合物的库产物离子与一或多个经测量产物离子质谱相匹配的良好程度来对已知化合物进行评分。随后从最高评分已知化合物中识别样本混合物中的化合物。
类似地,已知蛋白质例如可从数据库中获取,且可使用用于串联质谱实验中的相同酶在计算上消化,使每一已知蛋白质产生一或多种理论肽。在计算上选择并碎裂理论肽,使每一已知蛋白质产生理论产物离子。也可以计算出理论保留时间。随后将所得理论产物离子与在一或多个不同时间中的每一个处的一或多个经测量产物离子质谱中的每一个进行比较。典型地,基于已知蛋白质的理论产物离子与一或多个经测量产物离子质谱相匹配的良好程度来对已知蛋白质进行评分。随后从最高评分已知蛋白质中识别样本中的蛋白质。因此,可通过将库或理论产物离子m/z和保留时间值与根据样本混合物经测量的实验产物离子m/z和保留时间值进行比较来识别样本混合物中的已知化合物或蛋白质。
然而,不幸的是,库或理论保留时间值通常并不与经测量的保留时间值完全匹配。这是由于用于测量库保留时间值或用于计算理论保留时间值的分离媒体与用以测量样本混合物的分离媒体并不相同。库或理论保留时间值的此不准确性可能不利地影响对化合物或蛋白质的识别。
解决这一问题的一种方法是开发内部保留时间标准物。已提出的另一种方法是使用标记肽(landmark peptide)或管家蛋白质(housekeeping protein)的标记物。极少商业试剂盒可供用于此目的。使用这两种方法的问题是,其并不提供足以精确地校正可能存在于样本混合物中的数千种不同化合物或肽的信息。换句话说,这些方法限制了能够在任一时间处分析的化合物的数量。
解决这一问题的又一种方法是使用计算机生成的保留时间。示例性开放源保留时间计算器为SSRcalc。这种方法允许针对大量化合物计算保留时间。然而,这种方法与所使用的样本混合物或分离媒体几乎不具有联系。
因此,需要基于特定样本混合物和实验来精确地校正质谱库或理论产物离子的保留时间以使得可将所述保留时间与实验中经测量的保留时间进行比较且用于识别已知化合物的系统和方法。
精确地校正质谱库或理论产物离子的保留时间对于数据非依赖性采集(DIA)方法来说特别重要。DIA是串联质谱工作流。一般来说,串联质谱或MS/MS是用于分析化合物的熟知技术。串联质谱涉及对来自样本的一或多种化合物的离子化、对一或多种化合物的一或多种前体离子的选择、一或多种前体离子到产物离子的碎裂化以及对产物离子的质量分析。
串联质谱可提供质量和定量信息两者。产物离子质谱可用以识别所关注分子。一或多种产物离子的强度可用以定量存在于样本中的化合物的量。
可使用串联质谱仪执行大量不同类型的实验方法或工作流。这些工作流的三种广泛类别是靶向采集、信息依赖性采集(IDA)或数据依赖性采集(DDA)和DIA。
在靶向采集方法中,对一或多种蛋白质预定义肽前体离子到产物离子的一或多种转变。随着将样本引入到串联质谱仪中,在多个时间段或循环中的每一时间段或循环期间查询一或多种转变。换句话说,质谱仪选择且碎裂每一转变的肽前体离子,且对转变的产物离子执行靶向质量分析。因此,针对每一转变产生质谱。靶向采集方法包含但不限于多反应监测(multiple reaction monitoring,MRM)和选定反应监测(selected reactionmonitoring,SRM)。
IDA是一种柔性串联质谱方法,其中在将样本引入到串联质谱仪中时,用户可指定用于执行对产物离子的靶向或非靶向质量分析的判据。举例来说,在IDA方法中,执行前体离子或质谱分析(MS)全谱扫描以生成前体离子峰值列表。用户可选择判据以针对峰值列表上的前体离子子集过滤峰值列表。随后对前体离子子集中的每一前体离子执行MS/MS。针对每一前体离子产生产物离子质谱。随着将样本引入到串联质谱仪中,对前体离子子集中的前体离子反复执行MS/MS。
然而,在蛋白质组学和许多其它样本类型中,化合物的复杂度和动态范围非常大。这造成了对传统的靶向和IDA方法的挑战,需要极高速MS/MS采集来深入地查询样本,以便对广泛范围的分析物进行识别和定量两者。
因此,DIA方法已用以增加对由复杂样本的数据采集的可再现性和全面性。DIA方法也可称为非特异性碎裂方法。在传统DIA方法中,串联质谱仪的作用基于在前一前体或产物离子扫描中所采集的数据而在MS/MS扫描当中不发生变化。替代地,选择前体离子质量范围。随后在前体离子质量范围内步进前体离子质量选择窗口。前体离子质量选择窗口中的全部前体离子碎裂,且对前体离子质量选择窗口中的全部前体离子的全部产物离子进行质量分析。
用以扫描质量范围的前体离子质量选择窗口可以极窄,以使得窗口内有多个前体的可能性较小。这一类型的DIA方法称为例如MS/MSALL。在MS/MSALL方法中,在整个质量范围内扫描或步进约1amu的前体离子质量选择窗口。针对每一1amu前体质量窗口产生产物离子质谱。通过将每一质量选择窗口的产物离子质谱进行组合来产生整个前体离子质量范围的产物离子质谱。分析或扫描整个质量范围一次所花费的时间称为一个扫描循环。然而,在每一循环期间在广泛前体离子质量范围内扫描较窄前体离子质量选择窗口对一些器械和实验来说并不现实。
因此,在整个前体质量范围内步进较大前体离子质量选择窗口或具有较大宽度的选择窗口。这一类型的DIA方法称为例如SWATH采集。在SWATH采集中,在每一循环中于前体质量范围内所步进的前体离子质量选择窗口可具有5到25amu或甚至更大的宽度。如同MS/MSALL方法,每一前体离子质量选择窗口中的全部前体离子碎裂,且对每一质量隔离窗口中的全部前体离子的全部产物离子进行质量分析。然而,因为使用较宽前体离子质量选择窗口,所以相比于MS/MSALL方法的循环时间,循环时间可显著减小。
第8,809,770号美国专利描述SWATH采集可如何用以提供关于所关注化合物的前体离子的定量和定性信息。具体地说,将根据碎裂前体离子质量选择窗口所发现的产物离子与所关注化合物的已知产物离子的数据库进行比较。另外,对根据碎裂前体离子质量选择窗口所发现的产物离子的离子迹线或所提取离子色谱图(XIC)进行分析,以提供定量和定性信息。
然而,如上文所描述,因为没有具备前体离子质量选择窗口的肽前体离子信息来帮助确定产生每一产物离子的前体离子,所以使用SWATH采集来识别所分析样本中的蛋白质例如可较为困难。另外,因为没有具备前体离子质量选择窗口的肽前体离子信息,所以也难以确定产物离子是否从前体离子质量选择窗口内的多个前体离子中卷积有或包含比重。
保留时间可用于DIA方法和SWATH采集中,尤其针对确定产生每一产物离子的前体离子以及确定产物离子是否从多个前体离子中卷积有或包含比重。因此,在DIA方法中确定已知化合物或蛋白质的精确保留时间特别重要。
常规地,DIA方法包含人工校准步骤以校正样本混合物的保留时间。在这一步骤中,对于每一样本,用户选择少量已知化合物来校准保留时间。在实验期间,测量所选已知化合物的实际与实验保留时间差,且这些差用以校正实验中所使用的全部已知化合物的保留时间。如同上文关于内部标准和实验标记物所提及的方法,这种方法并不提供足以精确地校正可能存在于样本混合物中的数千种不同化合物或肽的信息。因此,具体地说,需要在DIA实验中基于特定样本混合物和实验来精确地且自动地校正质谱库或理论产物离子的保留时间以使得可将所述保留时间与实验中经测量的保留时间进行比较且用于识别已知化合物的系统和方法。
发明内容
公开一种用于自动地计算回归函数的系统,其用以描述在串联质谱数据非依赖性采集(DIA)实验中已知化合物的质谱库的已知保留时间如何随样本而变化。公开一种用于自动地计算回归函数的类似系统,其用以描述在串联质谱DIA实验中已知化合物的理论产物离子的理论保留时间如何随样本而变化。
两个系统包含分离装置、离子源、串联质谱仪和处理器。分离装置随时间使化合物从样本分离。离子源从分离装置接收多种化合物并使多种化合物离子化,从而产生前体离子的离子束。串联质谱仪从离子源接收离子束,将离子束的m/z范围分为两个或更多个前体离子质量选择窗口,并在多次循环中的每一循环期间选择且碎裂两个或更多个前体离子质量选择窗口,从而产生多个经测量产物离子质谱。
处理器从串联质谱仪接收多个经测量产物离子质谱。在一个系统中,处理器从已知化合物的质谱库中检索每一已知化合物的一或多种产物离子。在其它系统中,处理器从数据库中检索多种已知化合物。对于数据库的每一已知化合物,处理器在理论上碎裂已知化合物,从而产生一或多种理论产物离子。
对于质谱库或数据库的每一已知化合物的每一产物离子,处理器根据多个经测量产物离子质谱计算XIC。处理器将来自针对质谱库的每一已知化合物所计算的XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组。针对具有强度高于预定强度阈值的经测量XIC峰值的质谱库的已知化合物子集产生一或多个经测量XIC峰值组。
在一个系统中,处理器从质谱库中检索已知化合物子集中的每一已知化合物的已知保留时间。在其它系统中,对于从数据库中获取的已知化合物,处理器计算已知化合物子集中的每一已知化合物的理论保留时间。
最后,处理器计算回归函数以描述质谱库的已知保留时间或针对已知化合物数据库所计算的理论保留时间如何在样本中变化。将已知化合物子集的已知或理论保留时间用作自变量来计算回归函数。将已知化合物子集的经测量XIC峰值组的经测量保留时间用作因变量。
类似地,公开一种根据各种实施例用于自动地计算回归函数的方法,其用以描述在串联质谱DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化。公开另一种用于自动地计算回归函数的方法,其用以描述在串联质谱DIA实验中已知化合物的理论产物离子的理论保留时间如何随样本而变化。
在两种方法中,从串联质谱仪接收多个经测量的产物离子质谱。
在一种方法中,从已知化合物的质谱库中检索每一已知化合物的一或多种产物离子。在其它方法中,从数据库中检索多种已知化合物。对于多种已知化合物中的每一已知化合物,已知化合物在理论上碎裂以产生一或多种理论产物离子。
对于质谱库或数据库的每一已知化合物的每一产物离子,根据多个经测量产物离子质谱计算XIC。将来自针对质谱库或数据库的每一已知化合物所计算的XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对具有强度高于预定强度阈值的经测量XIC峰值的质谱库或库的已知化合物子集产生一或多个经测量XIC峰值组。
在一种方法中,从质谱库中检索已知化合物子集中的每一已知化合物的已知保留时间。在其它方法中,针对已知化合物子集中的每一已知化合物计算理论保留时间。
最后,计算回归函数以描述质谱库的已知保留时间或数据库的理论保留时间如何在样本中变化。将已知化合物子集的已知或理论保留时间用作自变量。将已知化合物子集的经测量XIC峰值组的经测量保留时间用作因变量。
申请人所教示的这些和其它特征阐述于本文中。
附图说明
所述领域的技术人员将理解下文描述的图式仅出于说明的目的。所述图式并不意图以任何方式限制本发明教示的范围。
图1是说明可在其上实施本发明教示的实施例的计算机系统的框图。
图2是根据各种实施例的针对数据非依赖性采集(DIA)工作流分为十个前体离子质量选择窗口的前体离子质荷比(m/z)范围的示例性图式。
图3是以图形方式描绘根据各种实施例的用于在DIA工作流的每一循环期间从每一前体离子质量选择窗口获取产物离子迹线或XIC的步骤的示例性图式。
图4是展示根据各种实施例的针对前体离子质量选择窗口随时间所获取的XIC的三维的示例性图式。
图5是根据各种实施例的相对于已知化合物的质谱库或数据库的已知化合物子集的XIC峰值组的经测量保留时间和其已知或理论保留时间所绘制的展示在样本中具有XIC峰值组的已知化合物的质谱库或数据库的已知化合物子集的示例性图。
图6是根据各种实施例的用于自动地计算回归函数以描述在串联质谱DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化的系统的示意图。
图7是展示根据各种实施例的用于自动地计算回归函数以描述在串联质谱DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化的方法的流程图。
图8是展示根据各种实施例的用于自动地计算回归函数以描述在串联质谱DIA实验中已知化合物的理论产物离子的理论保留时间如何随样本而变化的方法的流程图。
在详细地描述本发明教示的一或多个实施例之前,所属领域技术人员将了解,本发明教示不限于其在构造细节、组件布置以及以下实施方式中所阐述或附图中所说明的步骤的布置中的应用。而且,应理解,本文中所使用的措词和术语是出于描述的目的且不应视为限制性的。
具体实施方式
计算机实施系统
图1是说明可在其上实施本发明教示的实施例的计算机系统100的框图。计算机系统100包含用于传送信息的总线102或其它通信机构以及与总线102耦合以用于处理信息的处理器104。计算机系统100还包含可以是随机存取存储器(random access memory,RAM)或其它动态存储装置的存储器106,其耦合到总线102以用于存储待由处理器104执行的指令的。存储器106也可用于在执行待由处理器104执行的指令期间存储临时变量或其它中间信息。计算系统100进一步包含只读存储器(read only memory,ROM)108或耦合到总线102以用于存储处理器104的静态信息和指令的其它静态存储装置。提供如磁盘或光盘的存储装置110,且将其耦合到总线102以用于存储信息和指令。
计算机系统100可经由总线102耦合到如阴极射线管(cathode ray tube,CRT)或液晶显示器(liquid crystal display,LCD)的显示器112,以用于向计算机用户显示信息。包含字母数字键和其它键的输入装置114耦合到总线102以用于将信息和命令选择传送到处理器104。另一类型的用户输入装置是用于将方向信息和命令选择传送到处理器104并用于控制显示器112上的光标移动的光标控制件116,例如鼠标、轨迹球或光标方向键。输入装置典型地在第一轴(即x)和第二轴(即y)的两个轴上具有两个自由度,这使得将装置的位置限定在平面中。
计算机系统100可执行本发明教示。符合本发明教示的某些实施方案,计算机系统100响应于处理器104执行包含于存储器106中的一或多个指令的一或多个序列而提供结果。可将这类指令从另一计算机可读介质(如存储装置110)读取到存储器106中。包含于存储器106中的指令的序列的执行促使处理器104执行本文中所描述的过程。或者,可以使用硬连线电路代替软件指令或与软件指令相组合来实施本发明教示。因此,本发明教示的实施方案不限于硬件电路和软件的任何特定组合。
在各种实施例中,计算机系统100可通过网络连接到如计算机系统100的一或多个其它计算机系统以形成连网系统。网络可包含私用网络或公用网络,如因特网。在连网系统中,一或多个计算机系统可将数据存储并供应到其它计算机系统。在云端计算情形下,存储并供应数据的一或多个计算机系统可称为服务器或云端。举例来说,一或多个计算机系统可包含一或多个网络服务器。举例来说,将数据发送到服务器或云端且从服务器或云端接收数据的其它计算机系统可称为用户端或云端装置。
如本文中所用的术语“计算机可读介质”指代参与将指令提供到处理器104以用于执行的任何媒体。这种介质可呈许多形式,包含但不限于非易失性媒体、易失性媒体和传输媒体。非易失性媒体包含例如光盘或磁盘,如存储装置110。易失性媒体包含动态存储器,如存储器106。传输媒体包括同轴电缆、铜线和光纤,包含包括总线102的电线。
计算机可读媒体或计算机程序产品的常见形式包含例如软盘、软磁盘、硬盘、磁带,或任何其它磁性介质、CD-ROM、数字视频光盘(digital video disc,DVD)、蓝光光盘、任何其它光学介质、随身盘、存储卡、RAM、PROM和EPROM、FLASH-EPROM、任何其它存储芯片或盒带,或计算机可从其读取的任何其它有形介质。
在将一或多个指令的一或多个序列载送到处理器104以用于执行时,可以涉及各种形式的计算机可读媒体。举例来说,可最初将指令载送于远程计算机的磁盘上。远程计算机可将指令加载到其动态存储器中,并使用调制解调器经由电话线发送指令。计算机系统100本地的调制解调器可接收电话线上的数据并使用红外发射器将数据转换成红外信号。耦合到总线102的红外检测器可接收载送于红外信号中的数据并将数据置于总线102上。总线102将数据载送到存储器106,处理器104从所述存储器106检索并执行指令。由存储器106接收到的指令可任选地在由处理器104执行之前或之后存储在存储装置110上。
根据各种实施例,将配置成由处理器执行以执行方法的指令存储在计算机可读介质上。计算机可读介质可以是存储数字信息的装置。举例来说,计算机可读介质包含如所属领域中已知用于存储软件的光盘只读存储器(CD-ROM)。计算机可读介质由适于执行配置成被执行的指令的处理器存取。
已出于说明和描述的目的呈现了对本发明教示的各种实施方案的以下描述。其并不详尽且并不将本发明教示限制于所公开的精确形式。有可能鉴于以上教示内容进行修改和改变,或可从本发明教示的实践中获得修改和改变。另外,所描述的实施方案包含软件,但本发明教示可以实施为硬件与软件的组合或单独以硬件形式实施。本发明教示可以使用面向对象和非面向对象编程系统两者来实施。
用以确定保留时间的回归分析
如上文所描述,数据非依赖性采集(DIA)方法一般包含人工校准步骤以校正样本混合物的保留时间。在这一步骤中,对于每一样本,用户选择少量已知化合物来校准保留时间。在实验期间,测量所选已知化合物的实际与实验保留时间差,且这些差用以校正实验中所使用的全部已知化合物的保留时间。如同上文关于内部标准和实验标记物所提及的方法,这种方法并不提供足以精确地校正可能存在于样本混合物中的数千种不同化合物或肽的信息。因此,需要在DIA实验中基于特定样本混合物和实验来精确地且自动地校正质谱库或理论产物离子的保留时间以使得可将所述保留时间与实验中经测量的保留时间进行比较且用于识别已知化合物的系统和方法。
在各种实施例中,回归分析用以自动地校正质谱库的保留时间或特定样本的理论产物离子的理论保留时间。具体地说,在DIA实验之后,提取质谱库的全部产物离子或针对已知化合物数据库所生成的全部理论产物离子的全部经测量产物离子数据。在这第一次传递数据中,提取经测量的产物离子数据而不考虑保留时间。所提取的经测量产物离子数据包含质谱库的每一产物离子或针对已知化合物数据库所生成的每一理论产物离子的所提取离子色谱图(XIC)。
高于预定强度阈值的XIC峰值发现于所提取XIC中。随后将所发现XIC峰值按其经测量保留时间进行分组。来自质谱库或经发现具有一或多个XIC峰值组的已知化合物数据库中的已知化合物的数量一般为质谱库子集或已知化合物数据库子集。这是因为并非全部已知化合物都可存在于样本中。然而,这个数量对于如蛋白质组样本的复杂样本可能较大(>1,000)。
来自质谱库或已知化合物数据库中的已知化合物子集的XIC峰值组的经测量保留时间充当回归分析的因变量。来自质谱库或已知化合物数据库中的已知化合物子集的已知或理论保留时间充当回归分析的自变量。使用这些自变量和因变量,计算回归函数。
随后在第二次传递所提取数据时识别样本的已知化合物。在这第二次传递数据时,使用所计算的回归函数来校正已知化合物子集的已知或理论保留时间。随后将经校正的保留时间与已知化合物子集的XIC峰值组的经测量保留时间进行比较。将不具有与经校正保留时间相对应的经测量保留时间的XIC峰值组移除。因此,已知化合物子集的剩余XIC峰值组识别存在于样本中的已知化合物。
因为在每一DIA实验中存在大量数据,所以这种回归分析方法是可行的。DIA方法提供比例如SRM的靶向采集方法更大的数据量。然而,与如SRM的靶向采集方法不同,DIA方法并不提供关于特定前体离子的信息,每一产物离子由所述特定前体离子产生。
图2是根据各种实施例的针对数据非依赖性采集(DIA)工作流分为十个前体离子质量选择窗口的前体离子质荷比(m/z)范围的示例性图式200。图2中展示的m/z范围是200m/z。注意,术语“质量”与“m/z”在本文中互换使用。一般来说,以m/z得到质谱法测量值,且通过乘以电荷来将所述测量值转化成质量。
十个前体离子质量选择或隔离窗口中的每一个横跨或具有20m/z的宽度。十个前体离子质量选择窗口中的三个窗口201、202和210展示在图2中。前体离子质量选择窗口201、202和210展示为具有相同宽度的非重叠窗口。在各种实施例中,前体离子质量选择窗口可重叠且/或可具有可变宽度。举例来说,第14/401,032号美国专利申请案描述在SWATH采集的单次循环中使用重叠前体离子质量选择窗口。举例来说,第8,809,772号美国专利描述在SWATH采集中使用可变前体离子质量选择窗口的SWATH采集的单次循环中使用具有可变宽度的前体离子质量选择窗口。在常规SWATH采集中,选择且随后碎裂十个前体离子质量选择窗口中的每一个,从而产生针对图2中展示的整个m/z范围的十个产物离子质谱。
图2描绘用于示例性SWATH采集的单次循环中的非可变且非重叠前体离子质量选择窗口。可执行SWATH采集方法的串联质谱仪可进一步与样本引入装置耦合。举例来说,在蛋白质组学中,在将样本引入到串联质谱仪中之前,典型地使用如胰蛋白酶的酶来消化样本的蛋白质。因此,举例来说,样本引入装置随时间从样本中分离一或多种蛋白质消化蛋白质或肽。样本引入装置可使用包含但不限于以下的技术来将样本引入到串联质谱仪:注入、液相色谱、气相色谱、毛细电泳或离子迁移。利用离子源使经分离的一或多种肽离子化,从而产生由串联质谱仪选择并碎裂的一或多种蛋白质的前体离子的离子束。
因此,对于经分离蛋白质的样本引入的每一步骤,选择且随后碎裂十个前体离子质量选择窗口中的每一个,从而产生整个m/z范围的十个产物离子质谱。换句话说,在多次循环中的每一循环期间,选择且随后碎裂十个前体离子质量选择窗口中的每一个。
图3是示例性图式300,以图形方式描绘根据各种实施例用于在DIA工作流的每一循环期间从每一前体离子质量选择窗口获取产物离子迹线或XIC的步骤。举例来说,在总共1000次循环中的每一循环期间,选择且碎裂由图3中的前体离子质量选择窗口201、202和210表示的十个前体离子质量选择窗口。
在每一循环期间,针对每一前体离子质量选择窗口获取产物离子质谱。举例来说,通过在第1次循环期间碎裂前体离子质量选择窗口201来获取产物离子质谱311,通过在第2次循环期间碎裂前体离子质量选择窗口201来获取产物离子质谱312,且通过在第1000次循环期间碎裂前体离子质量选择窗口201来获取产物离子质谱313。
通过绘制产物离子随时间在每一前体离子质量选择窗口的每一产物离子质谱中的强度,从而针对每一前体离子质量选择窗口获取XIC。举例来说,根据前体离子质量选择窗口201的第1,000个产物离子质谱来计算XIC 320。XIC 320包含在1000次循环期间由碎裂前体离子质量选择窗口201所产生的全部产物离子的XIC峰值或迹线。注意,可依据时间或循环来绘制XIC。
XIC 320展示为以二维形式绘制在图3中。然而,因为不同XIC峰值表示不同m/z值,所以每一前体离子质量选择窗口的每一XIC实际上是三维的。
图4是展示根据各种实施例的针对前体离子质量选择窗口随时间所获取的XIC的三维的示例性图式400。在图4中,x轴为时间或循环次数,y轴为产物离子强度,且z轴为m/z。从这个三维图中,获取更多信息。
举例来说,XIC峰值410与420两者具有相同形状且同时或在相同保留时间出现。然而,XIC峰值410与420具有不同m/z值。这可能意味着XIC峰值410与420是同位素峰或表示来自相同前体离子的不同产物离子。举例来说,如果XIC峰值410与420表示来自相同前体离子的不同产物离子,那么便可将其分组到XIC峰值组中。XIC峰值组是具有相同保留时间的一或多个XIC峰值的组。
类似地,XIC峰值430与440具有相同m/z值但在不同时间出现。这可能意味着XIC峰值430与440是相同产物离子,但其来自两种不同前体离子。XIC峰值430与440展示,需要精确保留时间来确定每一已知化合物的校正产物离子XIC峰值。
在使用DIA方法获取产物离子实验数据之后,通过将质谱库的已知产物离子或从已知化合物数据库中产生的理论产物离子与产物离子实验数据进行比较来识别样本中的已知化合物。质谱库包含先前针对库中的每一已知化合物所获取的一或多个质谱。举例来说,针对包括仅一种已知化合物的样本获取质谱。在计算上根据所存储的关于一或多种已知化合物的信息来产生理论产物离子。这一所存储的信息可以包含但不限于数据库和平面文件的许多不同形式来存储。
在各种实施例中,从FASTA文件中获取关于已知蛋白质或肽的所存储信息。解析FASTA文件。随后使用用以在实验中消化样本的相同酶在计算上消化从FASTA文件中解析的蛋白质。一或多种已知蛋白质的计算上消化产生每一蛋白质的一或多种理论肽或一或多种肽前体离子。通过在计算上碎裂每一蛋白质的理论肽前体离子来获取每一蛋白质的理论产物离子。举例来说,通过选择理论肽前体离子的b和y碎片来获取理论产物离子。
如上文所描述,因为每一质谱中的产物离子可来自超过一种前体离子,所以保留时间特别有助于在DIA实验中识别已知化合物。因此,用以识别已知化合物的保留时间尽可能精确至关重要。另外,如上文所描述,归因于用于质谱库的样本媒体中的差或在理论上计算的分离的差,从质谱库中获取或针对理论产物离子所计算的保留时间并不与在样本中测量的保留时间相对应。
在各种实施例中,使用回归分析来校正从质谱库中获取或针对理论产物离子所计算的保留时间。如上文所描述,在第一次传递数据中,提取经测量产物离子数据而不考虑保留时间。所提取的经测量产物离子数据包含质谱库的每一产物离子或针对已知化合物数据库所生成的每一理论产物离子的XIC。高于预定强度阈值的XIC峰值发现于所提取XIC中。随后将所发现XIC峰值按其经测量保留时间进行分组。
来自质谱库或已知化合物数据库中的已知化合物子集的XIC峰值组的经测量保留时间充当回归分析的因变量。来自质谱库或已知化合物数据库中的已知化合物子集的已知或理论保留时间充当回归分析的自变量。
图5是根据各种实施例的相对于已知化合物的质谱库或数据库的已知化合物子集的XIC峰值组的经测量保留时间和其已知或理论保留时间所绘制的展示在样本中具有XIC峰值组的已知化合物的质谱库或数据库的已知化合物子集的示例性图500。举例来说,已知化合物510来自已知化合物的质谱库或数据库且被发现具有强度大于预定强度阈值的样本中的峰值组。因为并非已知化合物的质谱库或数据库中的全部已知化合物都具有强度大于预定强度阈值的样本中的峰值组,所以已知化合物510是已知化合物的质谱库或数据库子集的部分。
已知化合物510定位在其已知或理论保留时间K与其样本中的峰值组的经测量保留时间M的相交点处。同样,通过获取具有强度大于预定强度阈值的样本中的至少一个峰值组的多种其它已知化合物,可对这一数据执行回归分析以确定已知化合物的峰值组的经测量保留时间在样本中相对于已知化合物的已知或理论保留如何变化。
如果执行线性回归分析,那么便根据数据寻找线性函数。这一线性函数由例如图5中的直线520表示。然而,各种实施例不限于线性回归分析。可执行包含但不限于线性或非线性回归分析的任何形式的回归分析。
同样,在各种实施例中,并非具有强度大于预定强度阈值的样本中的至少一个峰值组的全部已知化合物都可用于回归分析中。举例来说,可排除已知具有修改形式或已知产生误裂解的已知化合物。
用于校正保留时间的系统
图6是根据各种实施例的用于自动地计算回归函数以描述在串联质谱DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化的系统600的示意图。系统600包含离子源610、串联质谱仪620和处理器630。在各种实施例中,系统600还可包含分离装置640。
分离装置640可使用多种技术中的一种随时间使化合物从样本分离。这些技术包含但不限于离子迁移、气相色谱(gas chromatography,GC)、液相色谱(liquidchromatography,LC)、毛细电泳(capillary electrophoresis,CE)或流动注射分析(flowinjection analysis,FIA)。
离子源610可以是串联质谱仪620的部分,或可以是分离装置。离子源610从分离装置640接收多种化合物并使多种化合物离子化,从而产生前体离子的离子束。
串联质谱仪620可包含例如一或多个物理质量过滤器和一或多个物理质量分析仪。串联质谱仪620的质量分析仪可包含但不限于飞行时间(TOF)、四极子、离子阱、线性离子阱、轨道阱或傅里叶变换质量分析仪。
串联质谱仪620从离子源610接收离子束。串联质谱仪620将离子束的m/z范围分为两个或更多个前体离子质量选择窗口,并在多次循环中的每一循环期间选择且碎裂两个或更多个前体离子质量选择窗口,从而产生多个经测量产物离子质谱。
处理器630可以是(但不限于)计算机、微处理器或能够发送和接收来自串联质谱仪620的控制信号和数据并处理数据的任何装置。处理器630可以是例如图1的计算机系统100。在各种实施例中,处理器630与串联质谱仪620和分离装置640通信。
处理器630执行数个步骤。步骤(a)中,处理器630从串联质谱仪620接收多个经测量产物离子质谱。在步骤(b)中,处理器630从已知化合物的质谱库中检索每一已知化合物的一或多种产物离子。或者,在各种实施例中,处理器630从数据库中检索多种已知化合物。举例来说,数据库可以是蛋白质或肽数据库。对于数据库的每一已知化合物,处理器630在理论上碎裂已知化合物,从而产生一或多种理论产物离子。
在步骤(c)中,对于质谱库或数据库的每一已知化合物的每一产物离子,处理器630根据多个经测量产物离子质谱计算XIC。在步骤(d)中,处理器630将来自针对质谱库的每一已知化合物所计算的XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组。针对具有强度高于预定强度阈值的经测量XIC峰值的质谱库的已知化合物子集产生一或多个经测量XIC峰值组。
在步骤(e)中,处理器630从质谱库中检索已知化合物子集中的每一已知化合物的已知保留时间。或者,对于从数据库中获取的已知化合物,处理器630计算已知化合物子集中的每一已知化合物的理论保留时间。
最后,在步骤(f)中,处理器630计算回归函数以描述质谱库的已知保留时间或针对已知化合物数据库所计算的理论保留时间如何在样本中变化。将已知化合物子集的已知或理论保留时间用作自变量来计算回归函数。将已知化合物子集的经测量XIC峰值组的经测量保留时间用作因变量。
在各种实施例中,已知化合物子集中的每一已知化合物的仅一个经测量XIC峰值组用于计算回归函数。
在各种实施例中,在步骤(e)之前,处理器630从已知化合物子集中移除表示已知化合物的修改或误裂解的任何经测量XIC峰值组。
在各种实施例中,在步骤(f)中所计算的回归函数是线性回归函数或非线性回归函数。
在各种实施例中,处理器630进一步识别样本中的已知化合物。在步骤(g)中,处理器630使用回归函数和每一已知化合物的已知或理论保留时间来计算已知化合物子集中的每一已知化合物的经校正保留时间。
在步骤(h)中,处理器630将已知化合物子集中的每一已知化合物的经校正保留时间与每一已知化合物的每一经测量XIC峰值组的经测量保留时间进行比较。如果经测量XIC峰值组的经测量保留时间不在每一已知化合物的经校正保留时间的预定保留时间阈值内,那么处理器630便移除经测量XIC峰值组。预定保留时间阈值基本上确定数据的回归线周围的置信区间。将那些落入置信区间内的XIC峰值组用作校正XIC峰值组。
最后,在步骤(i)中,处理器630将样本的已知化合物识别为具有剩余经测量XIC峰值组的已知化合物子集中的已知化合物。
用于校正质谱库的保留时间的方法
图7是展示根据各种实施例的用于自动地计算回归函数以描述在串联质谱DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化的方法700的流程图。
在方法700的步骤710中,使用处理器从串联质谱仪接收多个经测量产物离子质谱。由串联质谱仪通过将离子束的m/z范围分为两个或更多个前体离子质量选择窗口,并在多次循环中的每一循环期间选择且碎裂两个或更多个前体离子质量选择窗口来产生多个经测量产物离子质谱。利用使多种化合物离子化以产生前体离子的离子束的离子源来产生离子束。利用分离装置使多种化合物与样本分离。
在步骤720中,使用处理器从已知化合物的质谱库中检索每一已知化合物的一或多种产物离子。
在步骤730中,对于质谱库的每一已知化合物的每一产物离子,使用处理器根据多个经测量产物离子质谱来计算XIC。
在步骤740中,使用处理器将来自针对质谱库的每一已知化合物所计算的XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对具有强度高于预定强度阈值的经测量XIC峰值的质谱库的已知化合物子集产生一或多个经测量XIC峰值组。
在步骤750中,使用处理器从质谱库中检索已知化合物子集中的每一已知化合物的已知保留时间。
在步骤760中,使用处理器计算回归函数以描述质谱库的已知保留时间如何在样本中变化。将已知化合物子集的已知保留时间用作自变量。将已知化合物子集的经测量XIC峰值组的经测量保留时间用作因变量。
用于校正理论保留时间的方法
图8是展示根据各种实施例的用于自动地计算回归函数以描述在串联质谱DIA实验中已知化合物的理论产物离子的理论保留时间如何随样本而变化的方法800的流程图。
在方法800的步骤810中,使用处理器从串联质谱仪接收多个经测量产物离子质谱。由串联质谱仪通过将离子束的m/z范围分为两个或更多个前体离子质量选择窗口,并在多次循环中的每一循环期间选择且碎裂两个或更多个前体离子质量选择窗口来产生多个经测量产物离子质谱。利用使多种化合物离子化以产生前体离子的离子束的离子源来产生离子束。利用分离装置使多种化合物与样本分离。
在步骤820中,使用处理器从数据库中检索多种已知化合物。
在步骤830中,对于多种已知化合物中的每一已知化合物,使用处理器在理论上碎裂已知化合物以产生一或多种理论产物离子。
在步骤840中,对于数据库的每一已知化合物的每一产物离子,使用处理器根据多个经测量产物离子质谱来计算XIC。
在步骤850中,使用处理器将来自针对数据库的每一已知化合物所计算的XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对具有强度高于预定强度阈值的经测量XIC峰值的质谱库的已知化合物子集产生一或多个经测量XIC峰值组。
在步骤860中,使用处理器针对已知化合物子集中的每一已知化合物计算理论保留时间。
在步骤870中,使用处理器计算回归函数以描述数据库的理论保留时间如何在样本中变化。将已知化合物子集的理论保留时间用作自变量。将已知化合物子集的经测量XIC峰值组的经测量保留时间用作因变量。
虽然结合各种实施例描述本发明教示,但本发明教示并不意图限制于这类实施例。相反地,如所属领域的技术人员应了解,本发明教示涵盖各种替代方案、修改和等效物。
此外,在描述各种实施例时,本说明书可能已将方法和/或过程呈现为特定序列的步骤。然而,在方法或过程不依赖于本文中所阐述步骤的特定次序的程度上,方法或过程不应限于所描述步骤的特定序列。如所属领域的一般技术人员将了解,步骤的其它序列是有可能的。因此,在说明书中所阐述步骤的特定次序不应解释为对权利要求的限制。另外,针对方法和/或过程的权利要求书不应限于以所写的次序执行其步骤,且所属领域的技术人员可易于了解,序列可以变化且仍保持在各种实施例的精神和范围内。

Claims (15)

1.一种用于自动地计算回归函数的系统,其用以描述在串联质谱数据非依赖性采集DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化,所述系统包括:
分离装置,所述分离装置随时间使多种化合物从样本分离;
离子源,所述离子源从所述分离装置接收所述多种化合物并使所述多种化合物离子化,从而产生前体离子的离子束;
串联质谱仪,所述串联质谱仪接收所述离子束,将所述离子束的质荷比m/z范围分为两个或更多个前体离子质量选择窗口,并在多次循环中的每一循环期间选择且碎裂所述两个或更多个前体离子质量选择窗口,从而产生多个经测量产物离子质谱;和
处理器,所述处理器与所述串联质谱仪通信,所述处理器进行以下步骤:
(a)从所述串联质谱仪接收所述多个经测量产物离子质谱,
(b)从已知化合物的质谱库中检索每种已知化合物的一种或多种产物离子,
(c)对于所述质谱库的每种已知化合物的每种产物离子,根据所述多个经测量产物离子质谱来计算所提取离子色谱图XIC,
(d)将来自针对所述质谱库的每种已知化合物所计算的所述XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对所述质谱库的具有强度高于所述预定强度阈值的经测量XIC峰值的已知化合物子集产生一个或多个经测量XIC峰值组,
(e)从所述质谱库中检索所述已知化合物子集中的每种已知化合物的已知保留时间,以及
(f)将所述已知化合物子集的所述已知保留时间用作自变量,且将所述已知化合物子集的所述经测量XIC峰值组的所述经测量保留时间用作因变量,来计算回归函数,以描述所述质谱库的所述已知保留时间如何在所述样本中变化。
2.根据权利要求1所述的系统,其中在步骤(e)之前,所述处理器进一步从所述已知化合物子集中移除表示已知化合物的修改或误裂解的任何经测量XIC峰值组。
3.根据权利要求1所述的系统,其中步骤(f)的所述回归函数包括线性回归函数。
4.根据权利要求1所述的系统,其中步骤(f)的所述回归函数包括非线性回归函数。
5.根据权利要求1所述的系统,其中所述处理器通过以下步骤进一步识别所述样本中的已知化合物:
(g)使用所述回归函数和所述已知化合物子集中的每种已知化合物的所述已知保留时间来计算所述每种已知化合物的经校正保留时间,
(h)将所述已知化合物子集中的每种已知化合物的经校正保留时间与所述每种已知化合物的每一经测量XIC峰值组的经测量保留时间进行比较,且如果所述每一经测量XIC峰值组的所述经测量保留时间不在所述每种已知化合物的所述经校正保留时间的预定保留时间阈值内,则移除所述每一经测量XIC峰值组,以及
(i)将所述样本的已知化合物识别为所述已知化合物子集中的具有剩余经测量XIC峰值组的已知化合物。
6.一种用于自动地计算回归函数的系统,其用以描述在串联质谱数据非依赖性采集DIA实验中已知化合物的理论产物离子的理论保留时间如何随样本而变化,所述系统包括:
分离装置,所述分离装置随时间使多种化合物从样本分离;
离子源,所述离子源从所述分离装置接收所述多种化合物并使所述多种化合物离子化,从而产生前体离子的离子束;
串联质谱仪,所述串联质谱仪接收所述离子束,将所述离子束的质荷比m/z范围分为两个或更多个前体离子质量选择窗口,并在多次循环中的每一循环期间选择且碎裂所述两个或更多个前体离子质量选择窗口,从而产生多个经测量产物离子质谱;和
处理器,所述处理器与所述串联质谱仪通信,所述处理器进行以下步骤:
(a)从所述串联质谱仪接收所述多个经测量产物离子质谱,
(b)从数据库中检索多种已知化合物,
(c)对于所述多种已知化合物中的每种已知化合物,在理论上碎裂所述已知化合物以产生一种或多种理论产物离子,
(d)对于所述数据库的每种已知化合物的每种产物离子,根据所述多个经测量产物离子质谱来计算所提取离子色谱图XIC,
(e)将来自针对所述数据库的每种已知化合物所计算的所述XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对所述数据库的具有强度高于所述预定强度阈值的经测量XIC峰值的已知化合物子集产生一个或多个经测量XIC峰值组,
(f)针对所述已知化合物子集中的每种已知化合物计算理论保留时间,以及
(g)将所述已知化合物子集的所述理论保留时间用作自变量,且将所述已知化合物子集的所述经测量XIC峰值组的所述经测量保留时间用作因变量,来计算回归函数,以描述所述数据库的所述理论保留时间如何在所述样本中变化。
7.根据权利要求6所述的系统,其中在步骤(f)之前,所述处理器进一步从所述已知化合物子集中移除表示已知化合物的修改或误裂解的任何经测量XIC峰值组。
8.根据权利要求6所述的系统,其中步骤(g)的所述回归函数包括线性回归函数。
9.根据权利要求6所述的系统,其中步骤(g)的所述回归函数包括非线性回归函数。
10.根据权利要求6所述的系统,其中所述处理器通过以下步骤进一步识别所述样本中的已知化合物:
(h)使用所述回归函数和所述已知化合物子集中的每种已知化合物的所述理论保留时间来计算所述每种已知化合物的经校正保留时间,
(i)将所述已知化合物子集中的每种已知化合物的经校正保留时间与所述每种已知化合物的每一经测量XIC峰值组的经测量保留时间进行比较,且如果所述每一经测量XIC峰值组的所述经测量保留时间不在所述每种已知化合物的所述经校正保留时间的预定保留时间阈值内,则移除所述每一经测量XIC峰值组,以及
(j)将所述样本的已知化合物识别为所述已知化合物子集中的具有剩余经测量XIC峰值组的已知化合物。
11.一种用于自动地计算回归函数的方法,其用以描述在串联质谱数据非依赖性采集DIA实验中已知化合物的质谱库的已知保留时间如何随样本而变化,所述方法包括以下步骤:
(a)使用处理器从串联质谱仪接收多个经测量产物离子质谱,
其中由所述串联质谱仪通过将离子束的质荷比m/z范围分为两个或更多个前体离子质量选择窗口并在多次循环中的每一循环期间选择且碎裂所述两个或更多个前体离子质量选择窗口来产生所述多个经测量产物离子质谱,
其中由使多种化合物离子化以产生前体离子的离子束的离子源来产生所述离子束,且
其中由分离装置来使所述多种化合物从样本分离;
(b)使用所述处理器从已知化合物的质谱库中检索每种已知化合物的一种或多种产物离子;
(c)对于所述质谱库的每种已知化合物的每种产物离子,使用所述处理器根据所述多个经测量产物离子质谱来计算所提取离子色谱图XIC;
(d)使用所述处理器将来自针对所述质谱库的每种已知化合物所计算的所述XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对所述质谱库的具有强度高于所述预定强度阈值的经测量XIC峰值的已知化合物子集产生一个或多个经测量XIC峰值组;
(e)使用所述处理器从所述质谱库中检索所述已知化合物子集中的每种已知化合物的已知保留时间;以及
(f)使用所述处理器将所述已知化合物子集的所述已知保留时间用作自变量,且将所述已知化合物子集的所述经测量XIC峰值组的所述经测量保留时间用作因变量,来计算回归函数,以描述所述质谱库的所述已知保留时间如何在所述样本中变化。
12.根据权利要求11所述的方法,进一步包括:在步骤(e)之前,从所述已知化合物子集中移除表示已知化合物的修改或误裂解的任何经测量XIC峰值组。
13.根据权利要求11所述的方法,其中步骤(f)的所述回归函数包括线性回归函数或非线性回归函数。
14.根据权利要求11所述的方法,进一步包括
(g)使用所述处理器使用所述回归函数和所述已知化合物子集中的每种已知化合物的所述已知保留时间来计算所述每种已知化合物的经校正保留时间,
(h)使用所述处理器将所述已知化合物子集中的每种已知化合物的经校正保留时间与所述每种已知化合物的每一经测量XIC峰值组的经测量保留时间进行比较,且如果所述每一经测量XIC峰值组的所述经测量保留时间不在所述每种已知化合物的所述经校正保留时间的预定保留时间阈值内,则移除所述每一经测量XIC峰值组,以及
(i)使用所述处理器将所述样本的已知化合物识别为所述已知化合物子集中的具有剩余经测量XIC峰值组的已知化合物。
15.一种用于自动地计算回归函数的方法,其用以描述在串联质谱数据非依赖性采集DIA实验中已知化合物的理论产物离子的理论保留时间如何随样本而变化,所述方法包括:
(a)使用处理器从串联质谱仪接收多个经测量产物离子质谱,
其中由所述串联质谱仪通过将离子束的质荷比m/z范围分为两个或更多个前体离子质量选择窗口并在多次循环中的每一循环期间选择且碎裂所述两个或更多个前体离子质量选择窗口来产生所述多个经测量产物离子质谱,
其中由使多种化合物离子化以产生前体离子的离子束的离子源来产生所述离子束,且
其中由分离装置来使所述多种化合物从样本分离;
(b)使用所述处理器从数据库中检索多种已知化合物;
(c)对于所述多种已知化合物中的每种已知化合物,使用所述处理器在理论上碎裂所述已知化合物以产生一种或多种理论产物离子;
(d)对于所述数据库的每种已知化合物的每种产物离子,使用所述处理器根据所述多个经测量产物离子质谱来计算所提取离子色谱图XIC;
(e)使用所述处理器将来自针对所述数据库的每种已知化合物所计算的所述XIC的强度高于预定强度阈值的XIC峰值按经测量保留时间进行分组,针对所述数据库的具有强度高于所述预定强度阈值的经测量XIC峰值的已知化合物子集产生一个或多个经测量XIC峰值组;
(f)使用所述处理器针对所述已知化合物子集中的每种已知化合物计算理论保留时间;以及
(g)使用所述处理器将所述已知化合物子集的所述理论保留时间用作自变量,且将所述已知化合物子集的所述经测量XIC峰值组的所述经测量保留时间用作因变量,来计算回归函数,以描述所述数据库的所述理论保留时间如何在所述样本中变化。
CN201780051347.0A 2016-08-10 2017-07-19 自动化质谱库保留时间校正 Active CN109643633B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662372854P 2016-08-10 2016-08-10
US62/372,854 2016-08-10
PCT/IB2017/054384 WO2018029554A1 (en) 2016-08-10 2017-07-19 Automated spectral library retention time correction

Publications (2)

Publication Number Publication Date
CN109643633A CN109643633A (zh) 2019-04-16
CN109643633B true CN109643633B (zh) 2021-09-14

Family

ID=61163377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780051347.0A Active CN109643633B (zh) 2016-08-10 2017-07-19 自动化质谱库保留时间校正

Country Status (4)

Country Link
US (1) US11378561B2 (zh)
EP (1) EP3497709B1 (zh)
CN (1) CN109643633B (zh)
WO (1) WO2018029554A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108760909A (zh) * 2017-04-17 2018-11-06 中国检验检疫科学研究院 一种食用农产品农药残留非靶标、多指标、快速侦测的电子化方法
JP7386234B2 (ja) * 2018-08-31 2023-11-24 ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド 複合試料内の関連化合物の同定およびスコア化
CN111721829B (zh) * 2020-05-29 2022-02-01 清华大学 基于便携式质谱仪的检测方法
EP4047371A1 (en) * 2021-02-18 2022-08-24 Thermo Fisher Scientific (Bremen) GmbH Method and apparatus for analysing samples of biomolecules using mass spectrometry with data-independent acquisition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057208A1 (en) * 2003-12-03 2005-06-23 Prolexys Pharmaceuticals, Inc. Methods of identifying peptides and proteins
CN103109345A (zh) * 2010-09-15 2013-05-15 Dh科技发展私人贸易有限公司 产物离子光谱的数据独立获取及参考光谱库匹配
CN104718449A (zh) * 2012-11-15 2015-06-17 Dh科技发展私人贸易有限公司 用于在不使用前体离子信息的情况下从ms/ms数据识别化合物的系统及方法
WO2016046513A1 (en) * 2014-09-26 2016-03-31 Micromass Uk Limited Accurate mobility chromatograms

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103650100A (zh) * 2011-04-28 2014-03-19 菲利普莫里斯生产公司 计算机辅助结构识别
EP2798664B1 (en) 2011-12-29 2020-10-28 DH Technologies Development Pte. Ltd. Use of windowed mass spectrometry data for retention time determination or confirmation
US20150162175A1 (en) 2013-12-11 2015-06-11 Thermo Finnigan Llc Methods for Isolation and Decomposition of Mass Spectrometric Protein Signatures
US10121643B2 (en) * 2014-07-24 2018-11-06 Shimadzu Corporation Chromatography/mass spectrometry data processing device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057208A1 (en) * 2003-12-03 2005-06-23 Prolexys Pharmaceuticals, Inc. Methods of identifying peptides and proteins
CN103109345A (zh) * 2010-09-15 2013-05-15 Dh科技发展私人贸易有限公司 产物离子光谱的数据独立获取及参考光谱库匹配
CN104718449A (zh) * 2012-11-15 2015-06-17 Dh科技发展私人贸易有限公司 用于在不使用前体离子信息的情况下从ms/ms数据识别化合物的系统及方法
WO2016046513A1 (en) * 2014-09-26 2016-03-31 Micromass Uk Limited Accurate mobility chromatograms

Also Published As

Publication number Publication date
EP3497709B1 (en) 2021-09-01
US20210293764A1 (en) 2021-09-23
EP3497709A1 (en) 2019-06-19
US11378561B2 (en) 2022-07-05
CN109643633A (zh) 2019-04-16
EP3497709A4 (en) 2020-04-01
WO2018029554A1 (en) 2018-02-15

Similar Documents

Publication Publication Date Title
US9791424B2 (en) Use of windowed mass spectrometry data for retention time determination or confirmation
US9343279B2 (en) Data independent acquisition of product ion spectra and reference spectra library matching
CN109643633B (zh) 自动化质谱库保留时间校正
EP3488460A1 (en) Systems and methods for identifying precursor and product ion pairs in scanning swath data
US9768000B2 (en) Systems and methods for acquiring data for mass spectrometry images
JP6698668B2 (ja) 断片化エネルギーを切り替えながらの幅広い四重極rf窓の高速スキャニング
US10163613B2 (en) Deconvolution of mixed spectra
EP3308154B1 (en) Method for deconvolution
CN112534267A (zh) 复杂样本中相关化合物的识别和评分
US11181511B2 (en) Rapid scoring of LC-MS/MS peptide data
WO2023026136A1 (en) Method for enhancing information in dda mass spectrometry
EP3482211B1 (en) Results dependent analysis - iterative analysis of swath data
US20230393107A1 (en) Compound Identification by Mass Spectrometry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant