CN118525336A - 用于增强对dia数据的完整数据提取的方法 - Google Patents

用于增强对dia数据的完整数据提取的方法 Download PDF

Info

Publication number
CN118525336A
CN118525336A CN202280079697.9A CN202280079697A CN118525336A CN 118525336 A CN118525336 A CN 118525336A CN 202280079697 A CN202280079697 A CN 202280079697A CN 118525336 A CN118525336 A CN 118525336A
Authority
CN
China
Prior art keywords
compounds
spectra
ion
product
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280079697.9A
Other languages
English (en)
Inventor
S·A·泰特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DH Technologies Development Pte Ltd
Original Assignee
DH Technologies Development Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DH Technologies Development Pte Ltd filed Critical DH Technologies Development Pte Ltd
Publication of CN118525336A publication Critical patent/CN118525336A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)

Abstract

将DIA方法的n个谱与产物离子谱库进行比较,以识别对应于l个谱的初始的i种化合物。执行强化学习算法(RLA)。(a)RLA的代理执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法来预测这i+j种化合物的k个谱。(b)RLA的环境将该k个谱与该n个谱进行比较,从而产生状态St,其中i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt。(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)‑(c)。

Description

用于增强对DIA数据的完整数据提取的方法
相关申请
本申请要求于2021年10月5日提交的美国临时专利申请第63/262,112号的权益,其内容通过引用整体并入本文。
技术领域
本文的教导涉及用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的系统和方法。更具体地,本文的教导涉及其中使用强化学习算法从DIA数据提取附加化合物的系统和方法,在强化学习算法中使用先前识别的化合物的相关化合物来增加从DIA数据识别的化合物的数量。
本文的系统和方法可以结合处理器、控制器或计算机系统(诸如图1的计算机系统)来执行。
背景技术
DIA数据提取
如下所述,数据非依赖采集(DIA)是一种无目标且非特异性的碎裂方法。在传统的DIA方法中,串联质谱仪的动作没有基于先前的前体或产物离子扫描中采集的数据而在MS/MS扫描之间变化。相反,选择前体离子质量范围。然后使前体离子质量选择窗步进跨越前体离子质量范围。对前体离子质量选择窗中的所有前体离子进行碎裂,并且对前体离子质量选择窗中的所有前体离子的所有产物离子进行质量分析。
DIA数据的信息非常丰富,并且在大多数情况下,数据处理是利用谱库进行的。该库提供了样品中可能存在的化合物的谱,并且使得能够提取它们的定量信息。目前,如果谱库中不存在某种化合物,则没有解决方案能够从DIA数据中提取信息。换句话说,如果化合物不在库中,则无法在DIA数据中找到它。
用于从DIA数据文件提取信息的库来自一系列不同的源。它们可以来自多个数据依赖采集(DDA)类型的实验,其中产物离子谱与不同的化合物相匹配,然后结果用于构建特定的库。此外,在最近的案例中,它们可以来自通过使用深度学习方法对肽谱进行的预测。
诸如ProSIT、pDeep3或MS2PIP之类的深度学习预测方法提供了通过使用内部校准或通过使用诸如DeepRT之类的工具来预测产物离子谱的片段模式以及肽的保留时间的方法。在一个示例性案例中,MS2PIP已用于生成所有理论肽的全蛋白质组库,然后这些库被用于从DIA数据中提取蛋白质或肽。
当使用深度学习预测方法从DIA数据中提取蛋白质或肽时,出现了两个主要问题。第一,此类方法可以为产物离子产生拥挤的质量空间。这会产生非常大的库,其中带有许多由质谱技术无法获得的肽。因此,这会导致假阴性率增加,从而影响真实信号的总体假发现率(FDR)评分。这反过来又削弱了扩展库的功能。第二,极其庞大的库增加了计算时间,因为需要提取每种化合物。此外,当考虑到对不同序列的修改时,所需的计算时间的增加可能成为棘手的问题。
因此,需要能够允许深度学习预测方法用于从DIA数据提取信息而不产生大量假阴性结果并且不显著增加所需计算时间的系统和方法。
串联质谱法背景
一般而言,串联质谱法或质谱法/质谱法(MS/MS)是用于分析化合物的众所周知的技术。串联质谱法涉及对来自样品的一种或多种化合物的电离、选择一种或多种化合物的一种或多种前体离子、将一种或多种前体离子碎裂成片段或产物离子、以及对产物离子的质量分析。
串联质谱法可以提供定性和定量信息二者。产物离子谱可用于识别关注的分子。一种或多种产物离子的强度可用于定量样品中存在的化合物的量。
可以使用串联质谱仪来执行大量不同类型的实验方法或工作流程。这些工作流程的三大类是针对性采集、信息依赖采集(IDA)或数据依赖采集(DDA)以及数据非依赖采集(DIA)。
在针对性采集方法中,为关注的化合物预定义前体离子到产物离子的一个或多个转变,或者如果要收集完整的碎裂谱,则仅提供前体质量。当样品被引入串联质谱仪时,在多个时间段或循环中的每个时间段或循环期间询问这一个或多个转变。换句话说,质谱仪选择并碎裂每个转变的前体离子,并对转变的产物离子进行针对性质量分析。结果,为每个转变产生强度(产物离子强度)。针对性采集方法包括但不限于多反应监测(MRM)和选择反应监测(SRM)。
在IDA方法中,当样品被引入串联质谱仪时,用户可以指定用于执行对产物离子的非针对性质量分析的标准。例如,在IDA方法中,执行前体离子或质谱法(MS)调查扫描以生成前体离子峰列表。用户可以选择标准来过滤峰列表以得到峰列表上的前体离子的子集。然后对前体离子的子集中的每种前体离子执行MS/MS。为每种前体离子生成产物离子谱。当样品被引入串联质谱仪时,对前体离子的子集中的前体离子重复执行MS/MS。
然而,在蛋白质组学和许多其他样品类型中,化合物的复杂性和动态范围非常大。这对传统的针对性方法和IDA方法提出了挑战,需要非常高速的MS/MS采集来深入询问样品,以便识别和量化各种分析物。
因此,开发了DIA方法,即第三大类串联质谱法。这些DIA方法已用于提高从复杂样品收集数据的再现性和全面性。DIA方法也可以称为非特异性碎裂方法。在传统的DIA方法中,串联质谱仪的动作没有基于先前的前体或产物离子扫描中采集的数据而在MS/MS扫描之间变化。相反,选择前体离子质量范围。然后使前体离子质量选择窗步进跨越前体离子质量范围。对前体离子质量选择窗中的所有前体离子进行碎裂,并且对前体离子质量选择窗中的所有前体离子的所有产物离子进行质量分析。
用于扫描质量范围的前体离子质量选择窗可以非常窄,使得窗内有多个前体的可能性很小。这种类型的DIA方法称为例如MS/MSALL。在MS/MSALL方法中,跨整个质量范围扫描或步进约1amu的前体离子质量选择窗。为每个1amu前体质量窗产生产物离子谱。分析或扫描整个质量范围一次所需的时间称为一个扫描循环。然而,在每个循环期间跨宽的前体离子质量范围扫描窄的前体离子质量选择窗对于某些仪器和实验来说是不切实际的。
因此,跨整个前体质量范围步进较大的前体离子质量选择窗或具有较大宽度的选择窗。这种类型的DIA方法例如称为SWATH采集。在SWATH采集中,在每个循环中跨前体质量范围步进的前体离子质量选择窗可以具有1-25amu或甚至更大的宽度。与MS/MSALL方法类似,对每个前体离子质量选择窗中的所有前体离子进行碎裂,并且对每个质量选择窗中的所有前体离子的所有产物离子进行质量分析。然而,由于使用了较宽的前体离子质量选择窗,因此与MS/MSALL方法的循环时间相比,循环时间可以显著缩短。或者,对于液相色谱(LC),可以增加累积时间。一般来说,对于LC,循环时间由LC峰定义。必须在LC峰上获得足够的点(强度作为循环时间的函数)才能确定其形状。当循环时间由LC定义时,一个循环中可以执行的实验或质谱法扫描的数量定义了每个实验或扫描可以累积离子观测值的时间。因此,使用更宽的前体离子质量选择窗可以增加累积时间。
美国专利第8,809,770号描述了如何使用SWATH采集来提供关于关注的化合物的前体离子的定量和定性信息。特别地,将从前体离子质量选择窗的碎裂中发现的产物离子与关注的化合物的已知产物离子的数据库进行比较。此外,可以对从前体离子质量选择窗的碎裂中发现的产物离子的离子迹线或提取离子色谱图(XIC)进行分析,以提供定量和定性信息。
然而,例如,识别使用SWATH采集分析的样品中的关注的化合物可能很困难。这可能很困难是因为要么没有提供有前体离子质量选择窗的前体离子信息来帮助确定产生每种产物离子的前体离子,要么所提供的前体离子信息来自具有低灵敏度的质谱法(MS)观察。另外,因为很少有或没有提供有前体离子质量选择窗的特定前体离子信息,所以也难以确定产物离子是否与前体离子质量选择窗内的多种前体离子卷积或包括来自该多种前体离子的贡献。
扫描SWATH背景
因此,开发了一种在SWATH采集中扫描前体离子质量选择窗的方法,称为扫描SWATH。本质上,在扫描SWATH中,前体离子质量选择窗跨质量范围进行扫描,使得连续的窗具有大面积的重叠和小面积的非重叠。该扫描使所得产物离子成为扫描前体离子质量选择窗的函数。该附加信息又可用于识别负责每种产物离子的一种或多种前体离子。
扫描SWATH已在国际公布第WO2013/171459A2号(下文中称为“‘459申请”)中描述。在‘459申请中,随时间扫描前体离子质量选择窗或25Da的前体离子质量选择窗,使得前体离子质量选择窗的范围随时间改变。然后,使检测产物离子的定时与传输其前体离子的前体离子质量选择窗的定时相关联。
通过首先将检测到的每种产物离子的质荷比(m/z)绘制为由四极质量过滤器传输的前体离子m/z值的函数来完成上述关联。由于随时间扫描前体离子质量选择窗,因此由四极质量过滤器传输的前体离子m/z值也可以被视为时间。使检测到特定产物离子的开始和结束时间与其前体从四极传输的开始和结束时间相关联。因此,产物离子信号的开始和结束时间用于确定其对应前体离子的开始和结束时间。
扫描SWATH也在美国专利第10,068,753号(下文中称为“‘753专利”)中进行了描述。‘753专利通过组合来自连续组的重叠的矩形前体离子质量选择窗的产物离子谱,提高了产物离子与其对应前体离子的关联的准确性。通过连续求和产物离子谱中的产物离子的强度来组合来自连续组的产物离子谱。该求和产生的函数可以具有与前体质量不恒定的形状。该形状将产物离子强度描述为前体质量的函数。前体离子是根据为产物离子计算的函数来识别的。
用于在扫描SWATH数据中识别与产物离子相对应的一种或多种前体离子的系统和方法在美国专利第10,651,019号(下文中称为“‘019专利”)中进一步描述。执行扫描SWATH,从而跨前体离子质量范围产生一系列重叠窗。对每个重叠窗进行碎裂和质量分析,从而产生该质量范围的多个产物离子谱。从谱中选择产物离子。针对跨质量范围的至少一次扫描,检索所选产物离子的强度,从而产生强度相对于前体离子m/z的迹线。创建矩阵乘法方程来描述一种或多种前体离子如何对应于所选产物离子的迹线。使用数值方法针对与所选产物离子相对应的一种或多种前体离子求解矩阵乘法方程。
如上所述,SWATH是串联质谱技术,其允许使用相邻或重叠的前体离子质量选择窗的多次前体离子扫描在一定时间间隔内扫描质量范围。质量过滤器选择每个前体质量窗用于碎裂。然后使用高分辨率质量分析器来检测从每个前体质量窗的碎裂产生的产物离子。SWATH允许提高前体离子扫描的灵敏度,而没有传统的特异性损失。
然而不幸的是,通过在SWATH方法中使用顺序前体质量窗而获得的增加的灵敏度并非没有成本。这些前体质量窗中的每一个都可以包括许多其他前体离子,这会混淆对一组产物离子的正确前体离子的识别。本质上,任何给定产物离子的精确前体离子只能被定位到前体质量窗。
图2是通常在SWATH采集中使用的单个前体离子质量选择窗的示例性绘图200。前体离子质量选择窗210传输m/z值在M1和M2之间的前体离子,具有设定质量或中心质量215,并且具有尖锐的垂直边缘220和230。SWATH前体离子质量选择窗的宽度是M2-M1。前体离子质量选择窗210传输前体离子的速率相对于前体m/z是恒定的。注意,本领域技术人员可以理解,术语“m/z”和“质量”可以互换使用。通过将m/z值乘以电荷,可以容易地从m/z值获得质量。
图3是示出了在常规SWATH中产物离子如何与前体离子相关联的示例性系列绘图300。绘图310示出了从100m/z到300m/z的前体离子质量范围。当使用前体离子扫描对该前体离子质量范围进行质量过滤和分析时,找到绘图310中所示的前体离子质谱。前体离子质谱包括例如前体离子峰311、312、313和314。
在常规SWATH采集中,跨前体离子质量范围选择一系列前体离子质量选择窗,如图2的前体离子质量选择窗210。例如,对于图3的绘图310中所示的从100m/z到300m/z的前体离子质量范围,可以选择十个前体离子质量选择窗,其中每个前体离子质量选择窗的宽度为20m/z。绘图320示出了对于从100m/z到300m/z的前体离子质量范围的10个前体离子质量选择窗中的三个前体离子质量选择窗321、322和323。注意,绘图320的前体离子质量选择窗不重叠。在其他常规SWATH扫描中,前体离子质量选择窗可以重叠。
对于每次常规SWATH扫描,对前体离子质量选择窗顺序地进行碎裂并进行质量分析。因此,对于每次扫描,都会为每个前体离子质量选择窗产生产物离子谱。绘图331是为绘图320的前体离子质量选择窗321产生的产物离子谱。绘图332是为绘图320的前体离子质量选择窗322产生的产物离子谱。并且,绘图333是为绘图320的前体离子质量选择窗323产生的产物离子谱。
通过定位每种产物离子的前体离子质量选择窗并根据从前体离子扫描获得的前体离子谱确定前体离子质量选择窗的前体离子,将常规SWATH的产物离子与前体离子相关联。例如,绘图331的产物离子341、342和343是通过对绘图320的前体离子质量选择窗321进行碎裂而产生的。基于其在前体离子质量范围中的位置以及来自前体离子扫描的结果,已知前体离子质量选择窗321包括绘图310的前体离子311。由于前体离子311是绘图320的前体离子质量选择窗321中唯一的前体离子,因此将绘图331的产物离子341、342和343与绘图310的前体离子311相关联。
类似地,绘图333的产物离子361是通过对绘图320的前体离子质量选择窗323进行碎裂而产生的。基于其在前体离子质量范围中的位置以及来自前体离子扫描的结果,已知前体离子质量选择窗323包括绘图310的前体离子314。由于前体离子314是绘图320的前体离子质量选择窗323中唯一的前体离子,因此将产物离子361与绘图310的前体离子314相关联。
然而,当前体离子质量选择窗包括多于一种前体离子并且那些前体离子可能产生相同或相似的产物离子时,这种关联变得更加困难。换句话说,当干扰前体离子出现在同一前体离子质量选择窗中时,在没有附加信息的情况下不可能将共同产物离子与干扰前体离子相关联。
例如,绘图332的产物离子351和352是通过对绘图320的前体离子质量选择窗322进行碎裂而产生的。基于其在前体离子质量范围中的位置以及来自前体离子扫描的结果,已知前体离子质量选择窗322包括绘图310的前体离子312和313。因此,绘图332的产物离子351和352可以来自绘图310的前体离子312或313。此外,已知前体离子312和313都可以产生处于或接近产物离子351的m/z处的产物离子。换言之,两种前体离子都可以对产物离子峰351提供贡献。因此,将产物离子与前体离子相关联或与来自前体离子的特定贡献相关联变得更加困难。
在常规SWATH采集中,色谱峰,诸如LC峰,也可以用于改善关联。换言之,随时间分离关注的化合物,并且在多个不同的洗脱或保留时间执行SWATH采集。然后比较产物和前体离子色谱峰的保留时间和/或形状以增强关联。然而不幸的是,由于前体离子扫描的灵敏度较低,因此前体离子的色谱峰可能会发生卷积,从而进一步混淆关联。
在各种实施例中,扫描SWATH提供与色谱峰提供的信息类似的附加信息,但具有增强的灵敏度。在扫描SWATH中,重叠的前体离子质量选择窗用于关联前体离子和产物离子。例如,诸如图2的前体离子质量选择窗210之类的单个前体离子质量选择窗跨前体质量范围以小步移动,使得连续的前体离子质量选择窗之间存在大的重叠。随着前体离子质量选择窗之间的重叠的量增加,将产物离子与前体离子相关联的准确性也增加。
本质上,当将从通过重叠的前体离子质量选择窗过滤的前体离子产生的产物离子的强度绘制为跨前体质量范围移动的前体离子质量选择窗的函数时,每种产物离子具有针对已传输其前体离子的相同前体质量范围的强度。换句话说,对于以相对于前体质量恒定的速率传输前体离子的矩形前体离子质量选择窗(诸如图2的前体离子质量选择窗210),当前体离子质量选择跨前体质量范围步进时,边缘(诸如图2的边缘220和230)定义了前体离子前体离子质量选择和产物离子强度的唯一边界。
图4是前体离子质量选择窗410的示例性绘图400,其跨前体离子质量范围移动或扫描以便产生重叠的前体离子质量选择窗。例如,当前缘430到达具有m/z值420的前体离子时,前体离子质量选择窗410开始传输具有m/z值420的前体离子。当前体离子质量选择窗410跨m/z范围移动时,传输具有m/z值420的前体离子直到后缘440到达m/z值420。
当绘制来自由重叠窗产生的产物离子谱的产物离子的强度(例如,作为前缘430的m/z值的函数)时,由具有m/z值420的前体离子产生的任何产物离子将在前缘430的m/z值450和m/z值420之间具有强度。本领域技术人员可以理解,可以将由重叠窗产生的产物离子的强度绘制为基于前体离子质量选择窗410的任何参数的前体离子m/z值的函数,该参数包括但不限于后缘440、设定质量、重心或前缘430。
图5是示出在扫描SWATH中产物离子如何与前体离子相关联的示例性系列绘图500。绘图510与图3的绘图310相同。图5的绘图510示出了从100m/z到300m/z的前体离子质量范围。当使用前体离子扫描对该前体离子质量范围进行质量过滤和分析时,找到绘图510中所示的前体离子质谱。前体离子质谱包括例如前体离子峰311、312、313和314。
然而,在扫描SWATH中,不是对跨质量范围的非重叠前体离子质量选择窗进行选择然后进行碎裂和质量分析,而是在每次扫描SWATH扫描中跨前体离子质量范围快速移动或扫描前体离子质量选择窗,其中窗之间存在大的重叠。例如,在扫描1期间,绘图520的前体离子质量选择窗521从100m/z延伸至120m/z。在扫描1期间对前体离子质量选择窗521的碎裂和对所得片段的质量分析产生绘图531的产物离子。已知绘图531的产物离子541、542和543与绘图510的前体离子311相关联,因为前体离子311是绘图520的前体离子质量选择窗521内的唯一前体。注意,绘图531包括与图3的绘图331相同的产物离子。
对于扫描2,前体离子质量选择窗521移动1m/z,如绘图530中所示。绘图530的前体离子质量选择窗521不再包括绘图510的前体离子311。然而,绘图530的前体离子质量选择窗521现在包括绘图510的前体离子312。在扫描2期间对前体离子质量选择窗521的碎裂和对所得片段的质量分析产生绘图532的产物离子。已知绘图532的产物离子551与绘图510的前体离子312相关联,因为前体离子312是绘图530的前体离子质量选择窗521内的唯一前体。注意,绘图532的产物离子551具有与图3的绘图332的产物离子351相同的m/z值但强度不同。根据图5的绘图532,现在知道图3的绘图332的351的什么部分来自绘图510的前体离子312。
对于扫描3,前体离子质量选择窗521再移动1m/z,如绘图540中所示。绘图540的前体离子质量选择窗521现在包括绘图510的前体离子312和313。在扫描3期间对前体离子质量选择窗521的碎裂和对所得片段的质量分析产生绘图533的产物离子。因为绘图540的前体离子质量选择窗521包括绘图510的前体离子312和313,所以绘图533的产物离子551和552可以来自任一前体离子或两种前体离子。
注意,绘图533包括与图3的绘图332相同的产物离子。然而,由于来自扫描SWATH的附加信息,关联现在是可能的。如上所述,根据图5的绘图532,现在知道图3的绘图332的351的什么部分来自绘图510的前体离子312。换言之,当前体离子质量选择窗521的前缘到达绘图510的前体离子312且前体离子质量选择窗521的后缘不再包括绘图510的前体离子312时,知道绘图510的前体离子312的贡献。
此外,比较图5的绘图532和533确定绘图510的前体离子313的贡献。注意,一旦前体离子质量选择窗521的前缘到达绘图510的前体离子313,则绘图533的产物离子552出现并且产物离子551的强度增加。因此,产物离子552与绘图510的前体离子313相关联,并且产物离子551的附加强度也与绘图510的前体离子313相关联。
发明内容
公开了用于从DIA质谱法实验提取附加信息的系统、方法和计算机程序产品。该系统包括离子源装置、串联质谱仪和处理器。
离子源装置将样品或来自样品的关注的化合物转变为离子束。串联质谱仪将离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析。产生每个窗的产物离子谱和该质量范围的n个产物离子谱。
处理器将该n个谱与已知化合物的产物离子质谱库进行比较以识别对应于l个谱的初始的i种化合物。处理器使用多个步骤执行强化学习算法。在步骤(a)中,处理器担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱。在步骤(b)中,处理器担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt。在步骤(c)中,如果产生了Rt,则处理器将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,提供了一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的系统,该系统包括:离子源装置,该离子源装置电离样品的一种或多种化合物,从而产生离子束;串联质谱仪,该串联质谱仪将离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而产生每个窗的产物离子谱和该质量范围的n个产物离子谱;以及处理器,该处理器将该n个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物,并执行强化学习算法(RLA),其中处理器进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,提供了一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的方法,该方法包括:使用处理器指示离子源装置电离样品的一种或多种化合物,从而产生离子束;使用处理器指示串联质谱仪将离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而产生每个窗的产物离子谱和该质量范围的n个产物离子谱;使用处理器将该n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别样品的对应于l个谱的初始的i种化合物,并使用处理器执行强化学习算法(RLA),其中处理器进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括非暂态有形计算机可读存储介质,该非暂态有形计算机可读存储介质的内容包括具有指令的程序,该指令在处理器上执行以用于验证通过共聚类检测到的组的化合物与生物过程相关,该计算机程序产品包括:提供系统,其中该系统包括一个或多个不同的软件模块,并且其中不同的软件模块包括控制模块和分析模块;使用控制模块指示离子源装置电离样品的一种或多种化合物,从而产生离子束;使用控制模块指示串联质谱仪将离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而产生每个窗的产物离子谱和该质量范围的n个产物离子谱;使用分析模块将该n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物,并且使用分析模块执行强化学习算法(RLA),其中分析模块进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,提供了一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的系统,该系统包括:处理器,该处理器进行以下操作:从串联质谱仪接收n个产物离子谱,其中串联质谱仪将来自电离样品的一种或多种化合物的离子源的离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而产生每个窗的产物离子谱和该质量范围的n个产物离子谱;将该n个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物;以及执行强化学习算法(RLA),其中处理器进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。在一些实施例中,处理器从串联质谱仪接收n×t个产物离子谱,其中已在分离装置中随时间分离样品的一种或多种化合物,并且离子源装置已电离样品的所分离的一种或多种化合物从而产生离子束,并且其中串联质谱仪在t个时间步中的每个时间步处,对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而为每个窗产生产物离子谱,为该质量范围产生n个产物离子谱,以及为整个分离产生n×t个产物离子谱;将该n×t个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物,并且处理器执行RLA,其中处理器进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n×t个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括非暂态有形计算机可读存储介质,该非暂态有形计算机可读存储介质的内容包括具有指令的程序,该指令在处理器上执行以用于验证通过共聚类检测到的组的化合物与生物过程相关,该计算机程序产品包括:提供系统,其中该系统包括一个或多个不同的软件模块,并且其中不同的软件模块包括分析模块;分析模块从串联质谱仪接收n个产物离子谱,其中串联质谱仪将来自电离样品的一种或多种化合物的离子源的离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而产生每个窗的产物离子谱和该质量范围的n个产物离子谱;使用分析模块将该n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物;并且使用分析模块执行强化学习算法(RLA),其中分析模块进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,描述了一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的系统。该系统包括:处理器,该处理器进行以下操作:获得样品的一种或多种化合物的n个产物离子谱;将该n个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物;以及执行强化学习算法(RLA),其中处理器进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,描述了一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的方法。该方法包括:在处理器中获得n个产物离子谱;使用处理器将该n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别样品的对应于l个谱的初始的i种化合物;以及使用处理器执行强化学习算法(RLA),其中处理器进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在一些实施例中,描述了一种计算机程序产品,该计算机程序产品包括非暂态有形计算机可读存储介质,该非暂态有形计算机可读存储介质的内容包括具有指令的程序,该指令在处理器上执行以用于验证通过共聚类检测到的组的化合物与生物过程相关,该计算机程序产品包括:提供系统,其中该系统包括一个或多个不同的软件模块,并且其中不同的软件模块包括分析模块;分析模块获得n个产物离子谱;使用分析模块将该n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物;并且使用分析模块执行强化学习算法(RLA),其中分析模块进行以下操作:(a)担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测该i+j种化合物的k个产物离子谱;(b)担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中该i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt;以及(c)如果产生了Rt,则将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
申请人教导的这些和其他特征在本文中阐述。
附图说明
技术人员将理解,下面描述的附图仅用于说明目的。附图无意以任何方式限制本教导的范围。
图1是示出可以在其上实现本教导的实施例的计算机系统的框图。
图2是通常在SWATH采集中使用的单个前体离子质量选择窗的示例性绘图。
图3是示出了在常规SWATH中如何将产物离子与前体离子相关联的示例性系列绘图3。
图4是前体离子质量选择窗跨前体离子质量范围移动或扫描以便产生重叠的前体离子质量选择窗的示例性绘图。
图5是示出在扫描SWATH中如何将产物离子与前体离子相关联的示例性系列绘图。
图6是Ronghui论文的方法的示例图。
图7是示出强化学习算法的部件的示例图。
图8是示出根据各种实施例的如何使用强化学习算法来最大化在针对样品获得的实验DIA数据中识别的肽的数量的示例图。
图9是示出根据各种实施例的用于从DIA质谱法实验提取附加信息的质谱法系统的示意图。
图10是示出根据各种实施例的用于从DIA质谱法实验提取附加信息的方法的流程图。
图11是根据各种实施例的包括一个或多个不同软件模块的系统的示意图,该软件模块执行用于从DIA质谱法实验提取附加信息的方法。
在详细描述本教导的一个或多个实施例之前,本领域技术人员将理解,本教导的应用不限于在下面的详细描述中阐述或在附图中示出的构造细节、部件布置和步骤布置。此外,应当理解,本文中使用的措辞和术语是为了描述的目的并且不应被视为限制。
具体实施方式
计算机实现的系统
图1是示出可以在其上实现本教导的实施例的计算机系统100的框图。计算机系统100包括总线102或用于传送信息的其他通信机制,以及与总线102耦接以用于处理信息的处理器104。计算机系统100还包括存储器106,其可以是随机存取存储器(RAM)或其他动态存储装置,其耦接到总线102以用于存储要由处理器104执行的指令。存储器106还可以用于存储在要由处理器104执行的指令的执行期间的临时变量或其他中间信息。计算机系统100还包括只读存储器(ROM)108或其他静态存储装置,其耦接到总线102以用于存储用于处理器104的静态信息和指令。诸如磁盘或光盘之类的存储装置110被提供并耦接到总线102以用于存储信息和指令。
计算机系统100可以经由总线102耦接到显示器112(诸如阴极射线管(CRT)或液晶显示器(LCD)),用于向计算机用户显示信息。包括字母数字键和其他键的输入装置114耦接到总线102,用于将信息和命令选择传送到处理器104。另一种类型的用户输入装置是光标控制装置116(诸如鼠标、轨迹球或光标方向键),用于传送方向信息和命令选择至处理器104,并用于控制显示器112上的光标移动。该输入装置通常在两个轴(第一轴(即,x)和第二轴(即,y))上具有两个自由度,这允许装置指定平面中的位置。
计算机系统100可以执行本教导。与本教导的某些实施方式一致,由计算机系统100响应于处理器104执行存储器106中包含的一个或多个指令的一个或多个序列而提供结果。这样的指令可以从另一计算机可读介质(诸如存储装置110)读入存储器106中。存储器106中包含的指令序列的执行使得处理器104执行本文描述的过程。可替代地,可以使用硬连线电路系统来代替软件指令或与软件指令组合来实现本教导。因此,本教导的实现不限于硬件电路系统和软件的任何特定组合。
如本文所使用的术语“计算机可读介质”指的是参与向处理器104提供指令以供执行的任何介质。这样的介质可以采用多种形式,包括但不限于非易失性介质、易失性介质和前体离子质量选择介质。非易失性介质包括例如光盘或磁盘,诸如存储装置110。易失性介质包括动态存储器,诸如存储器106。前体离子质量选择介质包括同轴电缆、铜线和光纤,包括构成总线102的电线。
计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其他磁性介质、CD-ROM、数字视频盘(DVD)、蓝光盘、任何其他光学介质、拇指驱动器、存储卡、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、或者计算机可以从中读取的任何其他有形介质。
各种形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器104以供执行。例如,指令最初可以携带在远程计算机的磁盘上。远程计算机可以将指令加载到其动态存储器中并使用调制解调器通过电话线发送指令。计算机系统100本地的调制解调器可以接收电话线上的数据并使用红外发射器将数据转换为红外信号。耦接到总线102的红外检测器可以接收红外信号中携带的数据并将该数据放置在总线102上。总线102将数据携带到存储器106,处理器104从存储器106检索并执行指令。由存储器106接收的指令可以可选地在由处理器104执行之前或之后存储在存储装置110上。
根据各种实施例,被配置为由处理器执行以执行方法的指令存储在计算机可读介质上。计算机可读介质可以是存储数字信息的装置。例如,计算机可读介质包括本领域已知的用于存储软件的致密盘只读存储器(CD-ROM)。计算机可读介质由适合于执行被配置为被执行的指令的处理器访问。
为了说明和描述的目的,已经给出了本教导的各种实施方式的以下描述。其不是穷尽的并且不将本教导限制于所公开的精确形式。根据上述教导,修改和变化是可能的,或者可以从本教导的实践中获得。另外,所描述的实施方式包括软件,但是本教导可以实现为硬件和软件的组合或者单独以硬件实现或者在某些实施例中单独以软件实现。本教导可以用面向对象和非面向对象的编程系统来实现。
在DIA数据提取中使用强化学习
如上所述,DIA数据的信息非常丰富,并且用于从DIA数据提取信息的库可以来自一系列不同的源。最近,深度学习方法已被用于预测肽谱。尽管前景广阔,但使用利用深度学习方法创建的库增加了肽识别的假阴性率,并增加了肽识别所需的总体计算时间。
因此,需要能够允许深度学习预测方法用于从DIA数据提取信息而不产生大量假阴性结果并且不显著增加所需计算时间的系统和方法。FDR率的增加是质量空间中卷积复杂性增加以及数据中不存在的化合物的提取增加的结果。
在各种实施例中,当前数据工作流程用于识别可能相对于实验数据以显著方式变化的蛋白质和其他化合物。例如,对该蛋白质和其他化合物的列表的计算机模拟碎裂为深度学习算法提供了输入,而深度学习算法反过来又可以提供额外的谱和保留时间(RT)。这然后用于重新分析DIA数据,并根据需要重复该过程。
另外,强化学习模式可以应用在深度学习系统之上。在这种强化学习中,根据DDA数据产生的原始库用于根据正在使用的仪器条件来改进库,并增强模型预测的置信度。还可以重复使用从SWATH数据中提取的化合物的强度信息来重建MSMS碎裂谱,并又将这些信息用于强化学习。
换句话说,各种实施例解决了当使用FDR估计时强力谱库方法的问题,其固有地假设库的大部分存在于样品中。与针对样品定制的较小库相比,这会导致较大库的假阴性率高。另外,各种实施例旨在扩展预先存在的库以包括具有低序列覆盖度并且可相对于实验元数据以显著方式改变的蛋白质。这增加了蛋白质组覆盖度。
如ProSIT、pDeep3和MS2PIP的深度学习方法已经证明深度学习可以有效地用于预测训练期间未使用的蛋白质的片段强度和RT。这些模型可以经过训练以包括实验条件和仪器类型。
例如,Ronghui等,“Hybrid Spectral Library Combining DIA-MS Data and aTargeted Virtual Library Substantially Deepens the Proteome Coverage(结合DIA-MS数据和针对性虚拟库的混合谱库大幅加深蛋白质组覆盖度)”,iScience(《交叉科学》),第23卷,第3期,2020,100903,ISSN2589-0042,https://doi.org/10.1016/j.isci.2020.100903(下文中称为“Ronghui论文”)表明,使用针对性亚蛋白质组虚拟库扩展库增加了识别的蛋白质数量。
Ronghui论文通过深度学习(pDeep和DeepRT)构建了混合谱库,该混合谱库将实验库与针对蛋白质家族的虚拟预测库相结合。Ronghui论文还提到,预测整个蛋白质组的所有肽会导致庞大的库,并增加假发现率。由于生物学研究关注于特定的蛋白质类别,因此Ronghui论文建议为给定的蛋白质超家族构建针对性虚拟库。
本文描述的各种实施例与Ronghui论文的不同之处在于用于预测相关化合物的策略。本文描述的各种实施例与Ronghui论文的不同之处还在于使用强化学习来利用新数据迭代地改进预测模型。
本文描述的各种实施例用附加的预测谱来扩展谱库,该附加的预测谱可能尚未存在于所使用的原始库中。与对所有可能的理论化合物的强力预测相反,这些实施例提供了更专注的方法,其中仅用目标实验的相关蛋白质或化合物来增强库。这些新的增强库提供了定量关注的途径或蛋白质的更深覆盖度。此外,随着新结果的生成,迭代学习改进了预测模型。
图6是Ronghui论文的方法的示例图600。最初,将作为目标的蛋白质家族在计算机中模拟消化,从而产生肽前体605的组。提供肽前体605的组作为预训练深度学习模型610的输入。本质上,像pDeep和DeepRT这样的深度学习模型分别根据肽前体605(或肽序列)预测片段离子强度和保留时间。用于质谱法实验的谱库620包括通过特定质谱仪(例如使用DDA方法)针对一组已知化合物或蛋白质产生的实际实验谱。使用迁移学习,将谱库620用于重新训练深度学习模型610,从而产生重新训练的模型。
然后使用重新训练的深度学习模型610来产生作为目标的蛋白质家族的虚拟谱库630。然后,将谱库620和虚拟谱库630组合以产生混合谱库640。
最后,将样品的实验DIA数据650与混合谱库640进行比较以识别样品中发现的蛋白质660。
如图6所示,Ronghui论文的方法使用谱库620来重新训练深度学习模型610,并且还将谱库620与虚拟谱库630组合以产生混合谱库640。然而,Ronghui论文没有直接使用计算机模拟消化的肽来产生附加的虚拟谱,并未迭代地更新深度学习模型610的输入,并且没有执行强化学习。
图7是示出强化学习算法的部件的示例图700。强化学习涉及代理710和环境720之间的交互。代理710关于环境720执行动作Ai。作为Ai的结果,代理710处于状态Si。代理710还接收对于Ai的奖励Ri。奖励也可以包括惩罚。例如,代理710和环境720之间的交互继续进行,直到代理710接收到的累积奖励或惩罚超过某个阈值。
在各种实施例中,从DIA数据识别化合物是强化学习问题,其中先前的化合物识别用于预测附加的化合物识别。在这种情况下,代理710是尝试识别样品的实验DIA数据中的最大数量的化合物的算法。环境720是从实验DIA数据中提取化合物,或者更具体地,将样品的实验DIA数据与由深度学习算法产生的虚拟谱进行比较。
图8是示出根据各种实施例的如何使用强化学习算法来最大化在针对样品获得的实验DIA数据中识别的肽的数量的示例图800。首先,执行比较801,其中将样品的实验DIA数据810的n个产物离子谱与包括对应于许多不同已知化合物的谱的实验谱库820进行比较。从比较801中找到对应于l个谱的i种匹配肽。
将i种肽和l个谱提供给强化学习算法的代理830作为代理830的初始状态。换言之,库的i种肽和l个谱的识别是来自实验DIA数据810的代理830的初始状态。
代理830使用i种肽执行对肽数据库的搜索831以找到j种相关肽。搜索相关肽是本领域技术人员众所周知的并且可以通过许多不同的方式来完成。例如,Bimpikis等,“BLAST2SRS,a web server for flexible retrieval of related protein sequencesin the SWISS-PROT and SPTrEMBL databases(BLAST2SRS,用于灵活检索SWISS-PROT和SPTrEMBL数据库中相关蛋白质序列的网络服务器)”,Nucleic Acids Res(《核酸研究》),2003年7月1日,31(13):3792-4(下文中称为“Bimpikis论文”)描述了使用诸如SWISS-PROT和SPTrEMBL之类的肽数据库查找相关肽。在Bimpikis论文中,使用肽序列或与肽相关的关键字来搜索肽数据库。在各种实施例中,搜索还可以包括肽的保留时间。注意,本领域技术人员还理解,本文关于肽描述的各种实施例同样适用于蛋白质。
SWISS-PROT和SPTrEMBL数据库已被组合在称为UniProt数据库的单个数据库下。因此,例如,搜索831可以使用UniProt数据库来查找这j种相关肽。
为了产生j种肽的虚拟或理论谱,代理830使用深度学习模型832。深度学习算法的深度学习模型832可以产生这j种肽的产物离子谱,并且这些谱可以与实验谱库820的对应于那i种肽的l个谱组合,从而产生混合虚拟库,如Ronghui论文那样。替代地如图8所示,j种肽可以与i种肽组合。然后深度学习模型832产生这i+j种肽的k个虚拟产物离子谱。
因此,代理830的动作是为环境840提供k个谱。环境840执行k个谱与实验DIA数据810的n个谱的比较841,从而产生m种匹配肽。
强化学习算法的目标是最大化实验DIA数据810中识别的肽的数量。因此,环境840做出关于从比较841中发现的m种肽的决定842。环境840通过将当前识别的肽的数量m与先前识别的肽的数量i比较来确定识别的肽的数量是否增加。
如果m>i,则通过强化学习算法识别的肽的数量仍在增加。因此,环境840向代理830提供奖励843。在接收到奖励843时,代理830执行其状态的更新833并且开始强化学习算法的另一次迭代。更新833包括将那i种肽设置为或重置为这m种肽以及将那l个谱设置为或重置为这k个谱。
如果m≤i,则通过强化学习算法识别的肽的数量不再增加。因此,环境840向代理830提供惩罚844。在接收到惩罚844时,代理830执行其状态的更新834并且结束强化学习算法。更新834包括将实验DIA数据810的肽识别为先前识别的i种肽,并将实验DIA数据810的虚拟库识别为包括先前识别的l个谱。
与图6中所示的Ronghui论文的方法相比,图8的方法通过寻找与先前识别的化合物相关的化合物来扩展识别的数量。由于没有像Ronghui论文的方法那样使用整个蛋白质家族来扩大识别的数量,因此FDR比Ronghui论文的方法有所改进。由于与先前识别的化合物相关的化合物的数量通常远小于蛋白质家族中的化合物的数量,因此与Ronghui论文的方法相比,化合物识别所需的计算时间减少。
用于提取附加信息的系统
图9是示出根据各种实施例的用于从DIA质谱法实验提取附加信息的质谱法系统的示意图900。图9的系统900包括离子源装置910、串联质谱仪930和处理器940。在各种实施例中,离子源装置910可以是串联质谱仪930的一部分或单独的装置。
在各种实施例中,系统900还可以包括样品引入装置950。例如,样品引入装置950随时间将来自样品的一种或多种关注的化合物引入到离子源装置910。样品引入装置950可以执行包括但不限于注入、液相色谱、气相色谱、毛细管电泳或离子迁移率的技术。
例如,离子源装置910将由样品引入装置950提供的样品或来自样品的关注的化合物转变为离子束。离子源装置910可执行电离技术,包括但不限于基质辅助激光解吸/电离(MALDI)或电喷雾电离(ESI)。
串联质谱仪930将离子束的质量范围划分为n个前体离子质量选择窗,并且对于n个窗中的每个窗,使每个窗的前体离子碎裂并且对从碎裂得到的产物离子进行质量分析。为每个窗产生产物离子谱,并为该质量范围产生n个产物离子谱。
处理器940可以是但不限于计算机、微处理器、图1的计算机系统或能够向串联质谱仪930发送控制信号和数据以及从其接收控制信号和数据并处理数据的任何装置。处理器940与离子源装置910和串联质谱仪930通信。
处理器940将n个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物。处理器940使用多个步骤来执行强化学习算法。在步骤(a)中,处理器940担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测这i+j种化合物的k个产物离子谱。在步骤(b)中,处理器940担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt。在步骤(c)中,如果产生了Rt,则处理器940将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并重复步骤(a)-(c)。
在各种实施例中,系统900进一步包括随时间分离样品的一种或多种化合物的分离装置950。因此,在整个分离过程中产生了n×t个产物离子谱。处理器940将n×t个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物。在步骤(b)中,处理器940担当RLA的环境,将k个谱与n×t个谱进行比较,从而产生状态St,其中i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt
在各种实施例中,处理器940将n×t个产物离子谱和从n×t个产物离子谱得到的保留时间与产物离子质谱库进行比较,并且在步骤(b)中将i+j种化合物的预测谱和保留时间与n×t个产物离子谱和从n×t个产物离子谱得到的保留时间进行比较。
在各种实施例中,处理器940进一步在步骤(a)-(c)之前使用从n个谱与库的比较中找到的i种化合物和对应的l个谱来重新训练一种或多种DLPA。
在各种实施例中,从n个谱与库的比较中找到的l个谱包括库的匹配谱和n个谱的匹配谱中的一个或多个。换句话说,l个谱可以来自DIA数据、库或这两者。DIA数据还可以包括离子强度测量的XIC、这些XIC的面积或这些XIC的形心。
在各种实施例中,样品的一种或多种化合物包括一种或多种肽,库包括已知肽的产物离子质谱库,i种化合物包括i种肽,i种化合物包括i种肽,m种化合物包括m种肽,一个或多个化合物数据库包括一个或多个肽数据库。
在各种实施例中,在步骤(a)中,处理器940使用至少一种肽的序列、关键字或保留时间来在一个或多个肽数据库中搜索与i种肽中的至少一种肽相关的肽。
在各种实施例中,一种或多种肽数据库包括UniProt。
在各种实施例中,一种或多种DLPA包括ProSIT、pDeep、pDeep3、DeepRT和MS2PIP中的一种或多种。
在各种实施例中,在步骤(b)中,如果m≤i,则处理器940还为代理产生惩罚Pt
在各种实施例中,在步骤(c)中,如果产生了Pt,则处理器940将i种化合物识别为在样品中发现的化合物,以及将l个谱识别为样品的虚拟库的谱。
用于提取附加信息的方法
图10是示出根据各种实施例的用于从DIA质谱法实验提取附加信息的方法的流程图1000。
在方法1000的步骤1010中,使用处理器指示离子源装置电离样品的一种或多种化合物,从而产生离子束。
在步骤1020中,使用处理器指示串联质谱仪将离子束的质量范围划分为n个前体离子质量选择窗,并且对于n个窗中的每个窗,使每个窗的前体离子碎裂并对从碎裂得到的产物离子进行质量分析,从而使用处理器为每个窗产生产物离子谱和为该质量范围产生n个产物离子谱。
在步骤1030中,使用处理器将n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别样品的对应于l个谱的初始的i种化合物。
在步骤1040中,使用处理器执行强化学习算法(RLA),其中处理器执行以下步骤。
在步骤1050中,处理器担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测这i+j种化合物的k个产物离子谱。
在步骤1060中,处理器担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt
在步骤1070中,如果产生了Rt,则处理器将该i种化合物设置为该m种化合物并将该l个谱设置为该k个谱,并且重复步骤1050-1070。
用于提取附加信息的计算机程序产品
在各种实施例中,计算机程序产品包括非暂态有形计算机可读存储介质,该非暂态有形计算机可读存储介质的内容包括具有指令的程序,该指令在处理器上执行以便从DIA质谱法实验提取附加信息。该方法由包括一个或多个不同软件模块的系统来执行。
图11是根据各种实施例的系统1100的示意图,该系统包括执行用于从DIA质谱法实验提取附加信息的方法的一个或多个不同的软件模块。系统1100包括控制模块1110和分析模块1120。
控制模块1110指示离子源装置电离样品的一种或多种化合物,从而产生离子束。控制模块1410指示串联质谱仪将离子束的质量范围划分为n个前体离子质量选择窗,并且对于n个窗中的每个窗,使每个窗的前体离子碎裂并对从碎裂得到的产物离子进行质量分析,从而产生每个窗的产物离子谱和该质量范围的n个产物离子谱。
分析模块1120将n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物。分析模块1120执行强化学习算法(RLA),其中分析模块1120执行多个步骤。
控制模块和分析模块不需要存在于同一计算机程序产品中,并且它们可以被分入在不同处理器上执行的不同计算机程序产品。在某些实施例中,可以执行包括控制模块的计算机程序产品以从串联质谱仪获取数据,并且将数据存储和/或转移到包括分析模块的单独的计算机程序产品以执行如本文所述的步骤。在某些实施例中,可以利用自身包括分析模块的软件产品来通过接收从串联质谱仪获取的数据使用本教导来处理数据。
在步骤(a)中,分析模块1120担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与该i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法(DLPA)来预测这i+j种化合物的k个产物离子谱。
在步骤(b)中,分析模块1120担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中i+j种化合物产生m种匹配化合物,并且如果m>i则为该代理产生奖励Rt
在步骤(c)中,如果产生了Rt,则分析模块1120将该i种化合物设置为该m种化合物以及将该l个谱设置为该k个谱,并且重复步骤(a)-(c)。
虽然结合各种实施例描述了本教导,但并不旨在将本教导限制于此类实施例。相反,如本领域技术人员将理解的,本教导涵盖各种替代、修改和等同物。
此外,在描述各种实施例时,说明书可以将方法和/或过程呈现为特定的步骤序列。然而,就该方法或过程不依赖于本文阐述的步骤的特定顺序而言,该方法或过程不应限于所描述的特定的步骤序列。如本领域普通技术人员将理解的,其他步骤序列也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。另外,针对方法和/或过程的权利要求不应限于按所写顺序执行它们的步骤,并且本领域技术人员可以容易地理解,序列可以改变并且仍然保持在各种实施例的精神和范围内。

Claims (17)

1.一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的系统,包括:
处理器,所述处理器:
获得样品的一种或多种化合物的n个产物离子谱;
将该n个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物,以及
执行强化学习算法RLA,其中所述处理器:
a.担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与所述i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法DLPA来预测i+j种化合物的k个产物离子谱,
b.担当RLA的环境,将该k个谱与所述n个谱进行比较,从而产生状态St,其中所述i+j种化合物产生m种匹配化合物,并且如果m>i则为所述代理产生奖励Rt,并且
c.如果产生了Rt,则将所述i种化合物设置为该m种化合物以及将所述l个谱设置为所述k个谱,并重复步骤(a)-(c)。
2.根据前述系统权利要求的任意组合所述的系统,其中所述处理器:
获得n×t个产物离子谱,其中在分离装置中随时间分离所述样品的所述一种或多种化合物,并且离子源装置已电离所述样品的所分离的一种或多种化合物从而产生离子束,并且其中串联质谱仪已将所述离子束的质量范围划分为n个前体离子质量选择窗,并且其中在t个时间步中的每个时间步处,对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而为每个窗产生产物离子谱,为所述质量范围产生n个产物离子谱,以及为整个分离产生n×t个产物离子谱;
将该n×t个谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物,以及
执行RLA,其中所述处理器:
a.担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与所述i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法DLPA来预测i+j种化合物的k个产物离子谱,
b.担当RLA的环境,将该k个谱与所述n×t个谱进行比较,
从而产生状态St,其中所述i+j种化合物产生m种匹配化合物,
并且如果m>i则为所述代理产生奖励Rt,以及
c.如果产生了Rt,则将所述i种化合物设置为该m种化合物以及将所述l个谱设置为所述k个谱,并重复步骤(a)-(c)。
3.根据前述系统权利要求的任意组合所述的系统,其中所述处理器将所述n×t个产物离子谱和从所述n×t个产物离子谱得到的保留时间与产物离子质谱库进行比较,并且在步骤(b)中,将所述i+j种化合物的预测谱和保留时间与所述n×t个产物离子谱和从所述n×t个产物离子谱得到的保留时间进行比较。
4.根据前述系统权利要求的任意组合所述的系统,其中所述处理器进一步在步骤(a)-(c)之前使用从所述n个谱与库的比较中找到的所述i种化合物和对应的l个谱来重新训练所述一种或多种DLPA。
5.根据前述系统权利要求的任意组合所述的系统,其中所述样品的所述一种或多种化合物包括一种或多种肽,库包括已知肽的产物离子质谱库,所述i种化合物包括i种肽,所述i种化合物包括i种肽,所述m种化合物包括m种肽,所述一个或多个化合物数据库包括一个或多个肽数据库。
6.根据前述系统权利要求的任意组合所述的系统,其中在步骤(a)中,所述处理器使用i种肽中的至少一种肽的序列来在一个或多个肽数据库中搜索与所述至少一种肽相关的肽。
7.根据前述系统权利要求的任意组合所述的系统,其中在步骤(a)中,所述处理器使用i种肽中的至少一种肽的关键字来在一个或多个肽数据库中搜索与所述至少一种肽相关的肽。
8.根据前述系统权利要求的任意组合所述的系统,其中在步骤(a)中,所述处理器使用i种肽中的至少一种肽的保留时间来在一个或多个肽数据库中搜索与所述至少一种肽相关的肽。
9.根据前述系统权利要求的任意组合所述的系统,其中一个或多个肽数据库包括UniProt。
10.根据前述系统权利要求的任意组合所述的系统,其中从所述n个谱与库的比较中找到的l个谱包括库的匹配谱和所述n个谱的匹配谱中的一个或多个。
11.根据前述系统权利要求的任意组合所述的系统,其中所述一种或多种DLPA包括ProSIT、pDeep、pDeep3、DeepRT和MS2PIP中的一个或多个。
12.根据前述系统权利要求的任意组合所述的系统,其中在步骤(b)中,如果m≤i,则所述处理器还为所述代理产生惩罚Pt
13.根据前述系统权利要求的任意组合所述的系统,其中在步骤(c)中,如果产生了Pt,则所述处理器将所述i种化合物识别为在所述样品中发现的化合物,以及将l个谱识别为所述样品的虚拟库的谱。
14.一种用于从数据非依赖采集(DIA)质谱法实验中提取附加信息的方法,包括:
在处理器中获得n个产物离子谱;
使用所述处理器将所述n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别样品的对应于l个谱的初始的i种化合物,以及
使用所述处理器执行强化学习算法RLA,其中所述处理器:
a.担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与所述i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法DLPA来预测i+j种化合物的k个产物离子谱,
b.担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中所述i+j种化合物产生m种匹配化合物,并且如果m>i则为所述代理产生奖励Rt,以及
c.如果产生了Rt,则将所述i种化合物设置为该m种化合物以及将所述l个谱设置为所述k个谱,并重复步骤(a)-(c)。
15.一种计算机程序产品,包括非暂态有形计算机可读存储介质,所述非暂态有形计算机可读存储介质的内容包括具有指令的程序,所述指令在处理器上执行以用于验证通过共聚类检测到的组的化合物与生物过程相关,所述计算机程序产品包括:
提供系统,其中所述系统包括一个或多个不同的软件模块,并且其中所述不同的软件模块包括分析模块;
所述分析模块获得n个产物离子谱;
使用所述分析模块将所述n个产物离子谱与已知化合物的产物离子质谱库进行比较,以识别对应于l个谱的初始的i种化合物,以及
使用所述分析模块执行强化学习算法RLA,其中所述分析模块:
a.担当RLA的代理,执行动作At,包括在一个或多个化合物数据库中搜索与所述i种化合物相关的化合物,从而产生j种相关化合物,以及应用一种或多种深度学习预测算法DLPA来预测i+j种化合物的k个产物离子谱,
b.担当RLA的环境,将该k个谱与该n个谱进行比较,从而产生状态St,其中所述i+j种化合物产生m种匹配化合物,并且如果m>i则为所述代理产生奖励Rt,以及
c.如果产生了Rt,则将所述i种化合物设置为该m种化合物以及将所述l个谱设置为所述k个谱,并重复步骤(a)-(c)。
16.根据权利要求1所述的系统,其中所述n个产物离子谱是从串联质谱仪获得的,其中所述串联质谱仪将来自电离样品的一种或多种化合物的离子源的离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而为每个窗产生产物离子谱和为所述质量范围产生所述n个产物离子谱。
17.根据权利要求14所述的方法,其中所述方法包括使用所述处理器指示离子源电离样品的一种或多种化合物,从而产生离子束;
使用所述处理器指示串联质谱仪将所述离子束的质量范围划分为n个前体离子质量选择窗,并且对于该n个窗中的每个窗,将每个窗的前体离子碎裂并对从碎裂中得到的产物离子进行质量分析,从而为每个窗产生产物离子谱和为所述质量范围产生所述n个产物离子谱。
CN202280079697.9A 2021-10-05 2022-10-05 用于增强对dia数据的完整数据提取的方法 Pending CN118525336A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163262112P 2021-10-05 2021-10-05
US63/262,112 2021-10-05
PCT/IB2022/059511 WO2023057925A1 (en) 2021-10-05 2022-10-05 Methods for enhancing complete data extraction of dia data

Publications (1)

Publication Number Publication Date
CN118525336A true CN118525336A (zh) 2024-08-20

Family

ID=83899402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280079697.9A Pending CN118525336A (zh) 2021-10-05 2022-10-05 用于增强对dia数据的完整数据提取的方法

Country Status (3)

Country Link
EP (1) EP4413583A1 (zh)
CN (1) CN118525336A (zh)
WO (1) WO2023057925A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2810473C (en) 2010-09-15 2018-06-26 Dh Technologies Development Pte. Ltd. Data independent acquisition of product ion spectra and reference spectra library matching
GB201208961D0 (en) 2012-05-18 2012-07-04 Micromass Ltd 2 dimensional MSMS
EP3058581B1 (en) 2013-10-16 2021-01-06 DH Technologies Development PTE. Ltd. Systems and methods for identifying precursor ions from product ions using arbitrary transmission windowing
CN109643635B (zh) 2016-07-25 2021-08-17 Dh科技发展私人贸易有限公司 用于在扫描swath数据中识别前体及产物离子对的系统及方法
US11694769B2 (en) * 2017-07-17 2023-07-04 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning

Also Published As

Publication number Publication date
WO2023057925A1 (en) 2023-04-13
EP4413583A1 (en) 2024-08-14

Similar Documents

Publication Publication Date Title
US12033839B2 (en) Data independent acquisition of product ion spectra and reference spectra library matching
EP3488460B1 (en) Systems and methods for identifying precursor and product ion pairs in scanning swath data
US9768000B2 (en) Systems and methods for acquiring data for mass spectrometry images
EP3497709B1 (en) Automated spectral library retention time correction
CN118043938A (zh) 用于增强dda质谱法中的信息的方法
CN118525336A (zh) 用于增强对dia数据的完整数据提取的方法
CN109564227B (zh) 结果相依分析-swath数据的迭代分析
CN114616645A (zh) 利用正交碎裂方法的质量分析-swath方法
US20240355604A1 (en) Data independent acquisition of product ion spectra and reference spectra library matching
US20230366863A1 (en) Automated Modeling of LC Peak Shape

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication