CN109564227B

CN109564227B - 结果相依分析-swath数据的迭代分析

Info

Publication number: CN109564227B
Application number: CN201780050970.4A
Authority: CN
Inventors: 斯蒂芬·A·泰特
Original assignee: DH Technologies Development Pte Ltd
Current assignee: DH Technologies Development Pte Ltd
Priority date: 2016-07-06
Filing date: 2017-06-30
Publication date: 2022-06-14
Anticipated expiration: 2037-06-30
Also published as: EP3482211B1; US11373735B2; EP3482211A1; EP3482211A4; CN109564227A; US20190180848A1; WO2018007921A1

Abstract

使用DIA串联质谱法产生多个测量产物离子频谱。从已知化合物的频谱库中检索一或多个产物离子，或者针对数据库的所述已知化合物计算一或多个理论产物离子。将针对每一已知化合物的所述一或多个产物离子或一或多个理论产物离子与所述测量产物离子频谱进行比较，以识别所述样本中的一或多个已知化合物。使用一或多个已知化合物搜索相关已知化合物的数据库，从而针对每一相关化合物产生一或多个匹配相关化合物及一或多个产物离子。将针对每一相关化合物的所述一或多个产物离子与所述测量产物离子频谱进行比较，以识别所述样本中的一或多个相关化合物。

Description

结果相依分析-SWATH数据的迭代分析

相关申请案的交叉参考

本申请案主张2016年7月6日申请的序列号为62/359,189的美国临时专利申请案的权益，所述申请案的全部内容以引用的方式并入本文中。

技术领域

本文的教示涉及迭代分析串联质谱或质谱/质谱(MS/MS)数据。更特定来说，本文的教示涉及系统及方法，其用于自动重新分析从数据独立采集(DIA)串联质谱方法收集的数据，以使用来自一或多个外部源的信息来确认假设或识别潜在的新假设。

背景技术

质谱中的常见问题是确定样本中存在的化合物的同一性。举例来说，在蛋白质组学中，问题是确定样本中存在的蛋白质的同一性。通常，使用两步骤串联质谱法在样本中识别或定量化合物或蛋白质。

在第一步骤中，获得实验数据。使用例如胰蛋白酶的酶消化样本中的蛋白质，从而针对每一蛋白质产生一或多个肽。应注意，如本文所使用，肽是蛋白质的消化部分。一些蛋白质可完整消化，因此肽也可为整个蛋白质。然而，在大多数情况下，肽是蛋白质的消化部分。

然后使用样本引入装置或分离装置随时间将从蛋白质消化的肽与样本分离。然后使用离子源离子化分离的肽。通过质荷比(m/z)选择离子化的肽或肽前体离子，将所选择的前体离子碎片化，并使用串联质谱仪对所得产物离子进行质量分析。第一步骤的结果是在一或多个不同时间测量的一或多个产物离子质谱的集合。

在第二步骤中，从A)存储频谱库或数据库获得关于预期在实验样本中的已知化合物或蛋白质的信息，或者B)电子(insilico)产生所述信息。将此已知数据与实验数据进行比较。此已知数据包含例如在特定保留时间的产物离子的质荷比值。

A)举例来说，可从频谱库或数据库获得关于已知化合物的产物离子的信息。频谱库包含例如单独从分析已知化合物中的每一者收集的频谱数据。然后将来自此先前收集的频谱数据的产物离子与在一或多个不同时间中的每一者从样本混合物测量的一或多个测量产物离子质谱中的每一者进行比较。通常，通过一系列方法对已知化合物进行评分，所述方法可包含使用频谱库或来自不同碎片离子的信号的相关性。然后从最高得分的已知化合物中识别样本混合物中的化合物。

B)类似地，举例来说，可从数据库获得已知蛋白质，并且可使用串联质谱实验中使用的相同酶进行电子消化，从而针对每一已知蛋白质产生一或多个理论肽。计算上使理论肽碎片化，从而针对每一电子衍生肽产生理论产物离子。也可使用一系列不同方法计算理论保留时间，即，SSRCalc(曼尼托巴大学)、大疏水性测度等等。然后在一或多个不同时间中的每一者将所得理论产物离子与一或多个测量产物离子质谱中的每一者进行比较。如上所述，这些电子衍生蛋白质数据集是基于其理论产物离子与一或多个测量产物离子质谱匹配的程度进行评分。然后从最高得分的已知蛋白质中识别样本中的蛋白质。因此，通过将库或理论产物离子m/z及保留时间值与从样本混合物测量的实验产物离子m/z及保留时间值进行比较，可识别样本混合物中的已知化合物或蛋白质。

通过使用上文所描述的任一种方法在样本中识别的化合物或蛋白质是实验的结果。其还用于提供或确认第一或原始假设。质谱实验可涉及许多其它原始结果或假设，例如确定样本中的已知化合物或蛋白质的量。然而，一般来说，一个质谱实验涉及一个结果或假设。为确定或确认关于样本的另一假设，需要执行额外实验，所述实验可包含从质谱仪对额外数据进行不同的样本收集及产生。额外实验是必要的，这是因为例如单反应监测、母离子监测及数据相依采集等等的大多数串联质谱方法并不提供足够的数据来确定或确认多个假设。

然而，数据独立串联质谱方法确实提供用于质荷比m/z范围的完整数据集，其可用于确定或确认多个假设。然而，常规上，也使用用于确定或确认单个假设的方法。使用相同数据来确定多个假设的有效性的想法是已知的。许多研究人员收集关于蛋白质丰度改变或样本中化合物的直接识别的数据，以试图对样本中发生的事情提出假设。此形式的分析需要提供完全无偏差样本分析及无偏差数据提取的方法。因此，需要用于收集及自动分析DIA串联质谱数据以确认或确定关于样本的两个或更多个假设的系统及方法。

DIA是串联质谱方法或工作流程。一般来说，串联质谱或MS/MS是用于分析化合物的众所周知的技术。串联质谱涉及从样本中离子化一或多个化合物，选择一或多个化合物的一或多个前体离子，将一或多个前体离子碎片化成产物离子，以及质量分析产物离子。

串联质谱可提供定性及定量信息。产物离子频谱可用于识别所关注的分子。一或多个产物离子的强度可用于定量样本中存在的化合物的量。

可使用串联质谱仪执行大量不同类型的实验方法或工作流程。这些工作流程的三大类是目标采集、信息相依采集(IDA)或数据相依采集(DDA)，及DIA。

在目标采集方法中，针对一或多个蛋白质预定义肽前体离子向产物离子的一或多个转变。当样本被引入到串联质谱仪中时，在多个时间周期或循环中的每一时间周期或循环期间询问一或多个转变。换句话说，质谱仪选择及碎片化每一转变的肽前体离子，并对转变的产物离子执行目标质量分析。因此，针对每一转变产生质谱。目标采集方法包含但不限于多反应监测(MRM)及选择反应监测(SRM)。

IDA是灵活的串联质谱方法，其中用户可指定用于在将样本引入到串联质谱仪中的同时执行产物离子的目标或非目标质量分析的标准。举例来说，在IDA方法中，执行前体离子或质谱(MS)全元素扫描以产生前体离子峰列表。用户可选择标准来过滤峰列表以得到峰列表上的前体离子子集。然后对前体离子子集的每一前体离子执行MS/MS。针对每一前体离子产生产物离子频谱。当样本被引入到串联质谱仪中时，对前体离子子集的前体离子重复执行MS/MS。

然而，在蛋白质组学及许多其它样本类型中，化合物的复杂性及动态范围非常大。这对传统的目标及IDA方法提出挑战，从而需要非常高速的MS/MS采集来深入询问样本，以便识别及定量广泛范围的分析物。

因此，已经使用DIA方法来增加来自复杂样本的数据收集的再现性及全面性。DIA方法也可被称为非特定碎片化方法。在传统的DIA方法中，基于在先前前体或产物离子扫描中采集的数据，串联质谱仪的动作在MS/MS扫描当中不变化。代替地选择前体离子质量范围。然后使前体离子质量选择窗口跨前体离子质量范围步进。使前体离子质量选择窗口中的所有前体离子碎片化，并且对前体离子质量选择窗口中的所有前体离子的所有产物离子进行质量分析。

用于扫描质量范围的前体离子质量选择窗口可非常窄，使得窗口内的多个前体的可能性很小。此类型的DIA方法被称为例如MS/MS^ALL。在MS/MS^ALL方法中，跨整个质量范围扫描或步进约1amu的前体离子质量选择窗口。针对每一1amu前体质量窗口产生产物离子频谱。通过组合针对每一质量选择窗口的产物离子频谱产生针对整个前体离子质量范围的产物离子频谱。分析或扫描整个质量范围一次所花费的时间被称为一个扫描循环。然而，在每一循环期间跨宽前体离子质量范围扫描窄前体离子质量选择窗口对于一些仪器及实验是不切实际的。

因此，使较大的前体离子质量选择窗口或具有较大宽度的选择窗口跨整个前体质量范围步进。此类型的DIA方法被称为例如SWATH采集。在SWATH采集中，在每一循环中跨前体质量范围步进的前体离子质量选择窗口可具有任何宽度或甚至更大。与MS/MS^ALL方法类似，使每一前体离子质量选择窗口中的所有前体离子都碎片化，并且对每一质量分离窗口中的所有前体离子的所有产物离子都进行质量分析。然而，因为使用较宽的前体离子质量选择窗口，所以与MS/MS^ALL方法的循环时间相比，循环时间可显著减少。

第8,809,770号美国专利描述了SWATH采集如何用于提供关于所关注的化合物的前体离子的定量及定性信息。特定来说，将从碎片化前体离子质量选择窗口发现的产物离子与所关注的化合物的已知产物离子的数据库进行比较。另外，分析从碎片化前体离子质量选择窗口发现的产物离子的离子迹线或提取离子色谱图(XIC)，以提供关于整个m/z范围的定量及定性信息。

如上文所描述，即使DIA方法(例如SWATH采集)提供整个m/z范围的完整数据集，但迄今为止这些方法仍尚未用于确定或确认多个假设。因此，需要用于收集及自动分析SWATH串联质谱数据以确认或确定关于样本的两个或更多个假设的系统及方法。

发明内容

揭示一种用于识别样本中的频谱库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的系统。揭示一种用于识别样本中的已知化合物的数据库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的类似系统。

两种系统都包含分离装置、离子源、串联质谱仪及处理器。所述分离装置随时间将化合物与样本分离。所述离子源从所述分离装置接收所述多个化合物并离子化所述多个化合物，从而产生前体离子的离子束。所述串联质谱仪从所述离子源接收所述离子束，将所述离子束的m/z范围分成两个或更多个前体离子质量选择窗口，并在多个循环中的每一循环期间选择及碎片化所述两个或更多个前体离子质量选择窗口，从而产生多个测量产物离子频谱。

所述处理器从所述串联质谱仪接收所述多个测量产物离子频谱。在一种系统中，所述处理器从已知化合物的频谱库中检索针对每一已知化合物的一或多个产物离子。在另一系统中，所述处理器从数据库中检索多个已知化合物。针对所述数据库的每一已知化合物，所述处理器理论上碎片化所述已知化合物，从而产生一或多个理论产物离子。

所述处理器将针对每一已知化合物的所述一或多个产物离子或所述一或多个理论产物离子与所述测量产物离子频谱进行比较，以识别所述样本中的一或多个已知化合物。所述处理器使用一或多个已知化合物搜索相关已知化合物的数据库，从而针对每一相关化合物产生一或多个匹配相关化合物及一或多个产物离子。最后，所述处理器将针对每一相关化合物的所述一或多个产物离子与所述测量产物离子频谱进行比较，以识别所述样本中的一或多个相关化合物。

类似地，揭示一种用于识别样本中的频谱库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的方法。揭示用于识别样本中的已知化合物的数据库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的另一方法。

在两种方法中，从串联质谱仪接收多个测量产物离子频谱。

在一种方法中，从已知化合物的频谱库中检索针对每一已知化合物的一或多个产物离子。在另一方法中，从数据库中检索多个已知化合物。针对所述多个已知化合物中的每一已知化合物，理论上碎片化所述已知化合物，从而产生一或多个理论产物离子。

将针对每一已知化合物的所述一或多个产物离子或所述一或多个理论产物离子与所述测量产物离子频谱进行比较，以识别所述样本中的一或多个已知化合物。使用一或多个已知化合物搜索相关已知化合物的数据库，从而针对每一相关化合物产生一或多个匹配相关化合物及一或多个产物离子。最后，将针对每一相关化合物的所述一或多个产物离子与所述测量产物离子频谱进行比较，以识别所述样本中的一或多个相关化合物。

本文阐述了申请人的教示的这些及其它特征。

附图说明

所属领域的技术人员将理解，下文所描述的图式仅用于说明目的。图式不希望以任何方式限制本教示的范围。

图1是绘示可在其上实施本教示的实施例的计算机系统的框图。

图2是根据各种实施例的被分成用于数据独立采集(DIA)工作流程的十个前体离子质量选择窗口的前体离子质荷比(m/z)范围的示范性图。

图3是根据各种实施例的用图形描绘在DIA工作流程的每一循环期间从每一前体离子质量选择窗口获得产物离子迹线或XIC的步骤的示范性图。

图4是展示根据各种实施例的针对前体离子质量选择窗口随时间获得的XIC的三维性的示范性图。

图5是展示根据各种实施例的如何执行DIA质谱数据的语义搜索及重新分析以确认或确定多个假设的示范性图。

图6是根据各种实施例的系统的示意图，所述系统用于识别样本中的频谱库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析样本的情况下识别样本中的相关已知化合物。

图7是展示根据各种实施例的方法的流程图，所述方法用于识别样本中的频谱库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析样本的情况下识别样本中的相关已知化合物。

图8是展示根据各种实施例的方法的流程图，所述方法用于从样本中的已知化合物的数据库中识别已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析样本的情况下识别样本中的相关已知化合物。

在详细描述本教示的一或多个实施例之前，所属领域的技术人员将了解，本教示在其应用方面不限于构造细节、组件布置及步骤布置，在下文详细描述中对其进行阐述或在图式中对其进行绘示。此外，应理解，本文所使用的措辞及术语是用于描述的目的，且不应被认为是限制性的。

具体实施方式

计算机实施系统

图1是绘示可在其上实施本教示的实施例的计算机系统100的框图。计算机系统100包含用于传达信息的总线102或其它通信机构，以及与总线102耦合以用于处理信息的处理器104。计算机系统100还包含存储器106，其可为随机存取存储器(RAM)或其它动态存储装置，耦合到总线102以用于存储待由处理器104执行的指令。存储器106还可用于在执行待由处理器104执行的指令期间存储临时变量或其它中间信息。计算机系统100进一步包含耦合到总线102以用于存储针对处理器104的静态信息及指令的只读存储器(ROM)108或其它静态存储装置。存储装置110(例如磁盘或光盘)被提供并耦合到总线102以用于存储信息及指令。

存储装置110还可包含多于一个装置。举例来说，存储装置110可为阵列或数据场的部分。在各种实施例中，可使用许多不同技术将数据存储在一或多个装置上。举例来说，所使用的数据存储方法可包含但不限于文件系统方法、关系数据库方法、面向对象的数据库方法、索引数据库方法，或数据湖方法。数据湖是一种在系统内存储数据的方法，其便于以变体模式及结构形式(例如通常是对象二进制大对象(blob)或文件)对数据进行主机托管。请参阅https://en.wikipedia.org/wiki/Data_lake。

计算机系统100可经由总线102耦合到显示器112，例如阴极射线管(CRT)或液晶显示器(LCD)，以用于向计算机用户显示信息。包含字母数字键及其它键的输入装置114耦合到总线102以用于将信息及命令选择传达到处理器104。另一类型的用户输入装置是光标控制116，例如鼠标、轨迹球或光标方向键，其用于将方向信息及命令选择传达到处理器104并用于控制显示器112上的光标移动。此输入装置通常在两个轴(第一轴(即，x)及第二轴(即，y))上具有两个自由度，其允许装置在平面中指定位置。

计算机系统100可执行本教示。与本教示的某些实施方案一致，响应于处理器104执行存储器106中含有的一或多个指令的一或多个序列，由计算机系统100提供结果。此类指令可从另一计算机可读媒体(例如，存储装置110)读取到存储器106中。存储器106中含有的指令序列的执行致使处理器104执行本文所描述的过程。替代地，可使用硬连线电路代替软件指令或与软件指令组合以实施本教示。因此，本教示的实施方案不限于硬件电路及软件的任何特定组合。

在各种实施例中，计算机系统100可跨越网络连接到一或多个其它计算机系统(例如计算机系统100)以形成联网系统。网络可包含专用网络或例如因特网的公用网络。在联网系统中，一或多个计算机系统可存储数据并将数据提供给其它计算机系统。在云计算场景中，存储及提供数据的一或多个计算机系统可被称为服务器或云。举例来说，一或多个计算机系统可包含一或多个网站服务器。举例来说，向服务器或云发送数据及从服务器或云接收数据的其它计算机系统可被称为客户端或云装置。

如本文所使用的术语“计算机可读媒体”是指参与向处理器104提供指令以供执行的任何媒体。此类媒体可呈许多形式，包含但不限于非易失性媒体、易失性媒体及传输媒体。非易失性媒体包含例如光盘或磁盘，例如存储装置110。易失性媒体包含动态存储器，例如存储器106。传输媒体包含同轴电缆、铜线及光纤，其包含包括总线102的导线。

计算机可读媒体或计算机程序产品的常见形式包含例如软盘、软性盘、硬盘、磁带或任何其它磁媒体、CD–ROM、数字视频盘(DVD)、蓝光盘、任何其它光学媒体、拇指驱动器、存储卡、RAM、PROM及EPROM、FLASH-EPROM、任何其它存储器芯片或盒式磁带，或计算机可从其中读取的任何其它有形媒体。

各种形式的计算机可读媒体可涉及将一或多个指令的一或多个序列携载到处理器104以供执行。举例来说，指令最初可在远程计算机的磁盘上携载。远程计算机可将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。对于计算机系统100来说是本地的调制解调器可在电话线上接收数据并使用红外发射器以将数据转换成红外信号。耦合到总线102的红外检测器可接收红外信号中携载的数据并将数据放置在总线102上。总线102将数据携载到存储器106，处理器104从存储器106检索及执行指令。由存储器106接收的指令可任选地在由处理器104执行之前或之后存储在存储装置110上。

根据各种实施例，经配置以由处理器执行以执行方法的指令存储在计算机可读媒体上。计算机可读媒体可为存储数字信息的装置。举例来说，计算机可读媒体包含所属领域已知的用于存储软件的光盘只读存储器(CD-ROM)。计算机可读媒体由适合于执行经配置以执行的指令的处理器存取。

出于说明及描述的目的，已呈现了本教示的各种实施方案的以下描述。其并非是穷尽性的，且不将本教示限于所揭示的精确形式。鉴于上文教示，修改及变化是可能的，或可从本教示的实践获取修改及变化。另外，所描述的实施方案包含软件，但是本教示可被实施为硬件及软件的组合或仅在硬件中实施。本教示可用面向对象及非面向对象的编程系统来实施。

结果相依分析

如上文所描述，即使数据独立采集(DIA)方法(例如SWATH采集)提供整个m/z范围的完整数据集，但迄今为止这些方法仍尚未用于确定或确认多个假设。因此，需要用于收集及自动分析SWATH串联质谱数据以确认或确定关于样本的两个或更多个假设的系统及方法。举例来说，确认或确定关于样本的多个假设通常是串行完成的。

在各种实施例中，语义搜索用于自动分析SWATH串联质谱数据以确认或确定关于样本的两个或更多个假设。在第一步骤中，通过执行SWATH串联质谱实验来确认或确定涉及识别或定量样本中的某些已知化合物或蛋白质的第一假设。在第二步骤中，样本中识别或定量的已知化合物或蛋白质的名称衍生新假设，所述新假设可来自搜索外部源或来自对系统的个人理解。使用第二假设重新处理数据，所述第二假设可从相同的SWATH串联质谱数据中为此提供证据。

举例来说，针对外部数据库的搜索可用于发现可能与针对特定生物途径/疾病状态、蛋白质相互作用网络或任何其它生物参考源识别的蛋白质一起出现的其它蛋白质。或者，举例来说，针对外部数据库的搜索可用于发现样本中识别或定量的已知化合物或蛋白质的修饰。

在任一种情况下，再次针对其它蛋白质及修饰分析SWATH串联质谱数据。因此，确认或确定第二假设。

在SWATH串联质谱中使用语义搜索会提供对用于分析样本的当前系统及方法的显著改进。首先，确认或确定关于样本的多个假设所花费的时间显著减少，这是因为不再必须执行多个实验。其次，其允许对仅在有限量或有限时间内可用的样本确认或确定多个假设，且因此不能在多个实验中进行分析。

此种在SWATH串联质谱中使用语义搜索可应用于许多不同工作流程。在以下八个步骤中描述一个示范性工作流程。

1)从原始生物学问题的解释中定义的样本中提取少量蛋白质(即，响应于修饰，哪些蛋白质与CDK4相互作用)。

2)确认跨越实验的蛋白质的存在及其丰度改变，并分析其与实验假设的匹配程度。

3)如果未能与实验假设相匹配，那么使用数据中的相关性来识别潜在的新假设。

4)从新假设扩展待提取的蛋白质的数目并重新测试新假设。

S)如果确认原始假设，那么通过研究回答假设的分子来扩展数据分析。

6)包含每一蛋白质中可能存在的关键修饰

7)包含针对每一蛋白质的替代结合配偶体。

8)重新提取及确认替代结合蛋白质的相关性或对实验的修改。

可执行的迭代类型的分析的数目很大并且基本上允许开发专家系统，其试图以自动化方式回答实验问题。这基于最终用户正在进行的实验以及允许研究人员扩展其工作而向最终用户提供关键结果。

由于每一DIA实验中存在大量数据，因此确认或确定关于样本的多个假设是可能的。举例来说，DIA方法相比于例如SRM的目标采集方法提供较大量的数据。

图2是根据各种实施例的被分成用于数据独立采集(DIA)工作流程的十个前体离子质量选择窗口的前体离子质荷比(m/z)范围的示范性图200。图2中所展示的m/z范围是200m/z。应注意，术语“质量”及“m/z”在本文中可互换使用。一般来说，质谱测量以m/z进行，并通过倍增电荷转换为质量。

十个前体离子质量选择或隔离窗口中的每一者跨越或具有20m/z的宽度。在图2中展示十个前体离子质量选择窗口中的三者，即，窗口201、202及210。前体离子质量选择窗口201、202及210被展示为具有相同宽度的非重叠窗口。在各种实施例中，前体离子质量选择窗口可重叠及/或可具有可变宽度。举例来说，第9,202,677号美国专利描述了在SWATH采集的单个循环中使用重叠前体离子质量选择窗口。第8,809,772号美国专利描述了在SWATH采集的单个循环中使用具有可变宽度的前体离子质量选择窗口，例如使用SWATH采集中的可变前体离子质量选择窗口。在常规SWATH采集中，选择十个前体离子质量选择窗口中的每一者，且然后进行碎片化，从而产生图2中所展示的针对整个m/z范围的十个产物离子频谱。

图2描绘在示范性SWATH采集的单个循环中使用的非可变及非重叠前体离子质量选择窗口。可执行SWATH采集方法的串联质谱仪可进一步与样本引入装置耦合。举例来说，在蛋白质组学中，在将样本引入到串联质谱仪中之前，通常使用酶(例如胰蛋白酶)消化样本的蛋白质。因此，举例来说，样本引入装置随时间将一或多个蛋白质消化蛋白质或肽与样本分离。样本引入装置可使用包含但不限于注射、液相色谱、气相色谱、毛细管电泳或离子迁移的技术将样本引入到串联质谱仪。由离子源离子化分离的一或多个肽，从而产生由串联质谱仪选择及碎片化的一或多个蛋白质的前体离子的离子束。

因此，针对分离的蛋白质的样本引入的每一时间步，选择十个前体离子质量选择窗口中的每一者，且然后进行碎片化，从而产生针对整个m/z范围的十个产物离子频谱。换句话说，在多个循环中的每一循环期间选择十个前体离子质量选择窗口中的每一者，且然后进行碎片化。

图3是根据各种实施例的用图形描绘在DIA工作流程的每一循环期间从每一前体离子质量选择窗口获得产物离子迹线或XIC的步骤的示范性图300。举例来说，在总共1000个循环中的每一循环期间，选择及碎片化由图3中的前体离子质量选择窗口201、202及210表示的十个前体离子质量选择窗口。

在每一循环期间，针对每一前体离子质量选择窗口获得产物离子频谱。举例来说，通过在循环1期间碎片化前体离子质量选择窗口201来获得产物离子频谱311，通过在循环2期间碎片化前体离子质量选择窗口201来获得产物离子频谱312，并且通过在循环1000期间碎片化前体离子质量选择窗口201来获得产物离子频谱313。

通过绘制每一前体离子质量选择窗口的每一产物离子频谱中的产物离子的强度随时间的变化，针对每一前体离子质量选择窗口获得XIC。举例来说，从前体离子质量选择窗口201的第1,000个产物离子频谱计算XIC 320。XIC 320包含在1000个循环期间从碎片化前体离子质量选择窗口201产生的所有产物离子的XIC峰或迹线。应注意，XIC可按时间或循环绘制。

在图3中展示以二维绘制的XIC 320。然而，每一前体离子质量选择窗口的每一XIC实际上是三维的，这是因为不同的XIC峰表示不同的m/z值。

图4是展示根据各种实施例的针对前体离子质量选择窗口随时间获得的XIC的三维性的示范性图400。在图4中，x轴是时间或循环数目，y轴是产物离子强度，且z轴是m/z。从此三维绘图，获得更多信息。

举例来说，XIC峰410及420两者都具有相同的形状并且同时或在相同的保留时间出现。然而，XIC峰410及420具有不同的m/z值。这可能意味着XIC峰410及420是同位素峰或表示来自同一前体离子的不同产物离子。如果XIC峰410及420表示来自同一前体离子的不同产物离子，那么其可被分组为例如XIC峰群组。XIC峰群组是具有相同保留时间的一或多个XIC峰的群组。

类似地，XIC峰430及440具有相同的m/z值，但是在不同的时间出现。这可能意味着XIC峰430及440是同一产物离子，但其来自两种不同前体离子。XIC峰430及440展示需要准确保留时间来确定针对每一已知化合物的正确产物离子XIC峰。

在使用DIA方法获得产物离子实验数据之后，通过比较频谱库的已知产物离子或从已知化合物数据库产生的理论产物离子与产物离子实验数据来识别样本中的已知化合物。频谱库包含针对库中的每一已知化合物先前获得一或多个频谱。举例来说，针对仅包含一个已知化合物的样本获得频谱。从关于一或多个已知化合物的存储信息计算上产生理论产物离子。此存储信息可以许多不同形式存储，其包含但不限于数据库及平面文件。

在各种实施例中，从FASTA文件获得关于已知蛋白质或肽的存储信息。分析FASTA文件。然后使用在实验中用于消化样本的相同酶计算上消化从FASTA文件分析的蛋白质。一或多个已知蛋白质的计算消化针对每一蛋白质产生一或多个理论肽，或一或多个肽前体离子。通过计算上碎片化每一蛋白质的理论肽前体离子来获得针对每一蛋白质的理论产物离子。举例来说，通过选择理论肽前体离子的b及y碎片来获得理论产物离子。

如上文所描述，保留时间特别有助于在DIA实验中识别已知化合物，这是因为每一质谱中的产物离子可来自多于一个前体离子。因此，用于识别已知化合物的保留时间尽可能准确是重要的。

在各种实施例中，在DIA实验中识别或定量已知化合物之后，执行语义搜索。举例来说，针对具有与原始假设及实验设计相关的其它元数据的外部数据库搜索所识别或定量的化合物的名称。外部数据库可为但不限于生物途径、科学文献、蛋白质、蛋白质修饰或蛋白质功能的数据库。示范性外部数据库包含但不限于UniProt、BindDB及STRINGdb。

执行语义搜索以确定第二假设。第二假设涉及例如从相同DIA数据中识别或定量一或多个额外化合物，并遵循将产物离子信息与频谱库或已知化合物数据库进行比较的相同过程。

在各种实施例中，一旦识别或定量化合物就执行针对另一假设的语义搜索且然后通过重新分析数据以识别或定量额外化合物来确认或确定假设的过程可迭代地执行以确认或确定多个假设。

图5是展示根据各种实施例的如何执行DIA质谱数据的语义搜索及重新分析以确认或确定多个假设的示范性图500。在步骤501中，使用处理器510针对样本(未展示)选择第一假设511。然后，处理器510使用串联质谱仪530及DIA方法分析样本。举例来说，还可使用分离装置520分析样本。

产生DIA数据512。处理器510使用DIA数据512确认第一假设511。举例来说，第一假设511可为从样本中的频谱库中识别已知化合物。然后，样本中识别的已知化合物是所确认的第一假设信息513。所确认的第一假设信息513是例如所识别的化合物的名称。

在步骤502中，使用所确认的第一假设信息513来自动产生第二假设514。处理器510针对第一外部数据库540搜索所确认的第一假设信息513。举例来说，所确认的第一假设信息513可为所识别的蛋白质的名称，且第一外部数据库540可为修饰形式的蛋白质的数据库。然后，第二假设514是通过语义搜索找到的所识别的蛋白质的匹配修饰形式的列表。

在步骤503中，处理器510将第二假设514与DIA数据512进行比较。举例来说，如果第二假设514是DIA数据512中识别的蛋白质的匹配修饰形式的列表，那么进一步分析DIA数据512以识别这些修饰形式。找到的修饰形式是所得的所确认的第二假设信息515。

在步骤504中，使用所确认的第二假设信息515来自动产生第三假设516。步骤504展示步骤502可重复迭代地自动产生数据相依的多个假设。类似于步骤503的步骤可遵循步骤504以确认第三假设516。

常规DIA方法仅执行步骤501。为确认或确定多个假设，这些方法迭代地重新运行步骤501。换句话说，针对每一新假设，由串联质谱仪530重新分析样本。另外，不自动产生额外假设。每当重新运行步骤501时，就手动选择新假设。

用于自动产生额外假设的系统

图6是根据各种实施例的系统600的示意图，所述系统用于识别样本中的频谱库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析样本的情况下识别样本中的相关已知化合物。系统600包含离子源610、串联质谱仪620及处理器630。在各种实施例中，系统600还可包含分离装置640。

分离装置640可使用多种技术中的一者随时间将化合物与样本分离。这些技术包含但不限于离子迁移、气相色谱(GC)、液相色谱(LC)、毛细管电泳(CE)或流动注射分析(FIA)。

离子源610可为串联质谱仪620的部分，或者可为单独装置。离子源610从分离装置640接收多个化合物并离子化多个化合物，从而产生前体离子的离子束。

串联质谱仪620可包含例如一或多个物理质量过滤器及一或多个物理质量分析器。串联质谱仪620的质量分析器可包含但不限于飞行时间(TOF)、四极、离子阱、线性离子阱、轨道阱或傅立叶变换质量分析器。

串联质谱仪620从离子源610接收离子束。串联质谱仪620将离子束的m/z范围分成两个或更多个前体离子质量选择窗口，并在多个循环中的每一循环期间选择及碎片化两个或更多个前体离子质量选择窗口，从而产生多个测量产物离子频谱。

处理器630可为但不限于计算机、微处理器，或能够从串联质谱仪620发送及接收控制信号及数据且处理数据的任何装置。处理器630可为例如图1的计算机系统100。在各种实施例中，处理器630与串联质谱仪620及分离装置640通信。

处理器630执行数个步骤。在步骤(a)中，处理器630从串联质谱仪620接收多个测量产物离子频谱。在步骤(b)中，处理器630从已知化合物的频谱库中检索针对每一已知化合物的一或多个产物离子。替代地，在各种实施例中，处理器630从数据库中检索多个已知化合物。举例来说，数据库可为蛋白质或肽数据库。针对数据库的每一已知化合物，处理器630理论上碎片化已知化合物，从而产生一或多个理论产物离子。

在步骤(c)中，处理器630将针对每一已知化合物的一或多个产物离子与测量产物离子频谱进行比较，以识别样本中的一或多个已知化合物。在步骤(d)中，处理器630使用一或多个已知化合物搜索相关已知化合物的数据库，从而针对每一相关化合物产生一或多个匹配相关化合物及一或多个产物离子。最后，在步骤(e)中，处理器630将针对每一相关化合物的一或多个产物离子与测量产物离子频谱进行比较，以识别样本中的一或多个相关化合物。

在各种实施例中，通过从相关化合物的频谱库中检索针对每一相关化合物的一或多个产物离子，针对每一相关化合物产生一或多个产物离子。替代地，在各种实施例中，通过理论上碎片化一或多个匹配相关化合物的每一相关化合物，针对每一相关化合物产生一或多个产物离子。

用于使用频谱库自动产生额外假设的方法

图7是展示根据各种实施例的方法700的流程图，所述方法用于识别样本中的频谱库的已知化合物，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析样本的情况下识别样本中的相关已知化合物。

在方法700的步骤710中，使用处理器从串联质谱仪接收多个测量产物离子频谱。由串联质谱仪通过将离子束的m/z范围分成两个或更多个前体离子质量选择窗口并在多个循环中的每一循环期间选择及碎片化两个或更多个前体离子质量选择窗口来产生多个测量产物离子频谱。由离子源产生离子束，离子源离子化多个化合物，从而产生前体离子的离子束。由分离装置将多个化合物与样本分离。

在步骤720中，使用处理器从已知化合物的频谱库中检索针对每一已知化合物的一或多个产物离子。

在步骤730中，使用处理器将针对每一已知化合物的一或多个产物离子与测量产物离子频谱进行比较，以识别样本中的一或多个已知化合物。

在步骤740中，使用处理器使用一或多个已知化合物搜索相关已知化合物的数据库，从而针对每一相关化合物产生一或多个匹配相关化合物及一或多个产物离子。

在步骤750中，使用处理器将针对每一相关化合物的一或多个产物离子与测量产物离子频谱进行比较，以识别样本中的一或多个相关化合物。

用于使用数据库自动产生额外假设的方法

图8是展示根据各种实施例的方法800的流程图，所述方法用于从样本中的已知化合物的数据库中识别已知化合物的系统，自动产生相关已知化合物的列表，并且在不使用串联质谱DIA方法重新分析样本的情况下识别样本中的相关已知化合物。

在方法800的步骤810中，使用处理器从串联质谱仪接收多个测量产物离子频谱。由串联质谱仪通过将离子束的m/z范围分成两个或更多个前体离子质量选择窗口并在多个循环中的每一循环期间选择及碎片化两个或更多个前体离子质量选择窗口来产生多个测量产物离子频谱。由离子源产生离子束，离子源离子化多个化合物，从而产生前体离子的离子束。由分离装置将多个化合物与样本分离。

在步骤820中，使用处理器从已知化合物的数据库中检索多个已知化合物。

在步骤830中，针对多个已知化合物中的每一已知化合物，使用处理器理论上碎片化已知化合物，从而产生一或多个理论产物离子。

在步骤840中，使用处理器将针对每一已知化合物的一或多个理论产物离子与测量产物离子频谱进行比较，以识别样本中的一或多个已知化合物。

在步骤850中，使用处理器使用一或多个已知化合物搜索相关已知化合物的数据库，从而针对每一相关化合物产生一或多个匹配相关化合物及一或多个产物离子。

在步骤860中，使用处理器将针对每一相关化合物的一或多个产物离子与测量产物离子频谱进行比较，以识别样本中的一或多个相关化合物。

虽然结合各种实施例描述了本教示，但是并不希望本教示限于此类实施例。相反，所属领域的技术人员将了解，本教示涵盖各种替代、修改及等效物。

此外，在描述各种实施例时，本说明书可能已经将方法及/或过程呈现为特定步骤序列。然而，就方法或过程不依赖于本文所阐述的特定步骤顺序来说，所述方法或过程不应限于所描述的特定步骤顺序。所属领域的一般技术人员将了解，其它步骤序列也是可能的。因此，本说明书中所阐述的步骤的特定顺序不应被认作对权利要求书的限制。另外，涉及所述方法及/或过程的权利要求书不应限于以书写顺序执行其步骤，并且所属领域的技术人员可容易了解，序列可变化并且仍然保持在各种实施例的精神及范围内。

Claims

1.一种用于使用串联质谱数据独立采集DIA方法在样本中识别谱库中的已知化合物、自动产生相关已知化合物的列表并且在不使用DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的系统，包括：

分离装置，所述分离装置随时间从样本中分离多种化合物；

离子源，所述离子源从所述分离装置接收所述多种化合物并离子化所述多种化合物，从而产生前体离子的离子束；

串联质谱仪，所述串联质谱仪接收所述离子束，并且通过将所述离子束的质荷比m/z范围分成两个或更多个前体离子质量选择窗口并在多个循环中的每个循环期间选择及碎片化所述两个或更多个前体离子质量选择窗口来执行DIA方法，从而产生多个测量产物离子谱；及

处理器，所述处理器与所述串联质谱仪通信，所述处理器进行以下操作

(a)从所述串联质谱仪接收所述多个测量产物离子谱，

(b)从已知化合物的谱库中检索针对每种已知化合物的一种或多种产物离子，

(c)将针对每种已知化合物的所述一种或多种产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的作为第一假设的已知化合物，

(d)使用所识别的已知化合物的名称执行相关已知化合物的数据库的语义搜索，从而自动产生在所述语义搜索中找到的作为第二假设的一种或多种匹配相关化合物及针对每种匹配相关化合物的一种或多种产物离子的列表，其中所述数据库是生物途径、蛋白质修饰或蛋白质功能的数据库，并且其中匹配相关化合物是在生物途径、疾病状态或蛋白质相互作用网络中与所识别的已知化合物一起出现的蛋白质，或是所识别的已知化合物的已知修饰形式，以及

(e)将针对每种匹配相关化合物的所述一种或多种产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的一种或多种相关化合物。

2.根据权利要求1所述的系统，其中通过从匹配相关化合物的谱库中检索针对每种匹配相关化合物的一种或多种产物离子，来针对每种匹配相关化合物产生一种或多种产物离子。

3.根据权利要求1所述的系统，其中通过理论上碎片化所述一种或多种匹配相关化合物中的每种匹配相关化合物，来针对每种匹配相关化合物产生一种或多种产物离子。

4.一种用于使用串联质谱数据独立采集DIA方法在样本中识别来自已知化合物的数据库的已知化合物、自动产生相关已知化合物的列表并且在不使用DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的系统，包括：

分离装置，所述分离装置随时间从样本中分离多种化合物；

(a)从所述串联质谱仪接收所述多个测量产物离子谱，

(b)从已知化合物的数据库中检索多种已知化合物，

(c)针对所述多种已知化合物中的每种已知化合物，理论上碎片化该已知化合物，从而产生一种或多种理论产物离子，

(d)将针对每种已知化合物的所述一种或多种理论产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的作为第一假设的已知化合物，

(e)使用所识别的已知化合物的名称执行相关已知化合物的数据库的语义搜索，从而自动产生在所述语义搜索中找到的作为第二假设的一种或多种匹配相关化合物及针对每种匹配相关化合物的一种或多种产物离子的列表，其中所述数据库是生物途径、蛋白质修饰或蛋白质功能的数据库，并且其中匹配相关化合物是在生物途径、疾病状态或蛋白质相互作用网络中与所识别的已知化合物一起出现的蛋白质，或是所识别的已知化合物的已知修饰形式，以及

(f)将针对每种匹配相关化合物的所述一种或多种产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的一种或多种相关化合物。

5.根据权利要求4所述的系统，其中通过从匹配相关化合物的谱库中检索针对每种匹配相关化合物的一种或多种产物离子，来针对每种匹配相关化合物产生一种或多种产物离子。

6.根据权利要求4所述的系统，其中通过理论上碎片化所述一种或多种匹配相关化合物中的每种匹配相关化合物，来针对每种匹配相关化合物产生一种或多种产物离子。

7.一种用于使用串联质谱数据独立采集DIA方法在样本中识别谱库中的已知化合物、自动产生相关已知化合物的列表并且在不使用DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的方法，包括：

(a)使用处理器从串联质谱仪接收多个测量产物离子谱，

其中由所述串联质谱仪通过将离子束的质荷比m/z范围分成两个或更多个前体离子质量选择窗口并在多个循环中的每个循环期间选择及碎片化所述两个或更多个前体离子质量选择窗口来执行DIA方法产生所述多个测量产物离子谱，

其中由离子源产生所述离子束，所述离子源离子化多种化合物，从而产生前体离子的离子束，且

其中由分离装置从样本中分离所述多种化合物；

(b)使用所述处理器从已知化合物的谱库中检索针对每种已知化合物的一种或多种产物离子；

(c)使用所述处理器将针对每种已知化合物的所述一种或多种产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的作为第一假设的已知化合物；

(d)使用所述处理器使用所识别的已知化合物的名称执行相关已知化合物的数据库的语义搜索，从而自动产生在所述语义搜索中找到的作为第二假设的一种或多种匹配相关化合物及针对每种匹配相关化合物的一种或多种产物离子的列表，其中所述数据库是生物途径、蛋白质修饰或蛋白质功能的数据库，并且其中匹配相关化合物是在生物途径、疾病状态或蛋白质相互作用网络中与所识别的已知化合物一起出现的蛋白质，或是所识别的已知化合物的已知修饰形式；以及

(e)使用所述处理器将针对每种匹配相关化合物的所述一种或多种产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的一种或多种相关化合物。

8.根据权利要求7所述的方法，其中通过从匹配相关化合物的谱库中检索针对每种匹配相关化合物的一种或多种产物离子，来针对每种匹配相关化合物产生一种或多种产物离子。

9.根据权利要求7所述的方法，其中通过理论上碎片化所述一种或多种匹配相关化合物中的每种匹配相关化合物，来针对每种匹配相关化合物产生一种或多种产物离子。

10.一种用于使用串联质谱数据独立采集DIA方法在样本中识别来自已知化合物的数据库的已知化合物、自动产生相关已知化合物的列表并且在不使用DIA方法重新分析所述样本的情况下识别所述样本中的相关已知化合物的方法，包括：

(a)使用处理器从串联质谱仪接收多个测量产物离子谱，

其中由分离装置从样本中分离所述多种化合物；

(b)使用所述处理器从数据库检索多种已知化合物；

(c)针对所述多种已知化合物中的每种已知化合物，使用所述处理器理论上碎片化该已知化合物，从而产生一种或多种理论产物离子；

(d)使用所述处理器将针对每种已知化合物的所述一种或多种理论产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的作为第一假设的已知化合物；

(e)使用所述处理器使用所识别的已知化合物的名称执行相关已知化合物的数据库的语义搜索，从而自动产生在所述语义搜索中找到的作为第二假设的一种或多种匹配相关化合物及针对每种匹配相关化合物的一种或多种产物离子的列表，其中所述数据库是生物途径、蛋白质修饰或蛋白质功能的数据库，并且其中匹配相关化合物是在生物途径、疾病状态或蛋白质相互作用网络中与所识别的已知化合物一起出现的蛋白质，或是所识别的已知化合物的已知修饰形式；以及

(f)使用所述处理器将针对每种匹配相关化合物的所述一种或多种产物离子与所述多个测量产物离子谱进行比较，以识别所述样本中的一种或多种相关化合物。

11.根据权利要求10所述的方法，其中通过从匹配相关化合物的谱库中检索针对每种匹配相关化合物的一种或多种产物离子，来针对每种匹配相关化合物产生一种或多种产物离子。

12.根据权利要求10所述的方法，其中通过理论上碎片化所述一种或多种匹配相关化合物中的每种匹配相关化合物，来针对每种匹配相关化合物产生一种或多种产物离子。