CN109964300B

CN109964300B - 用于实时同位素识别的系统和方法

Info

Publication number: CN109964300B
Application number: CN201780069565.7A
Authority: CN
Inventors: S·R·科朗文特; J·L·斯蒂芬森; P·F·伊普
Original assignee: Thermo Finnigan LLC
Current assignee: Thermo Finnigan LLC
Priority date: 2016-10-07
Filing date: 2017-10-05
Publication date: 2022-07-15
Anticipated expiration: 2037-10-05
Also published as: WO2018067772A1; US10369521B2; EP3523818B1; EP3523818A1; CN109964300A; US20180099249A1

Abstract

描述了一种用于实时材料识别的方法的实施例，其包括根据从未知材料的质谱分析得到的光谱信息确定未知材料的近似质量值；使用该近似质量值从数据结构中检索对应于已知材料的轮廓模型；将来自光谱信息的未知材料的样本轮廓拟合到轮廓模型，以生成每个拟合的拟合分数，其中最低拟合分数对应于最佳拟合；从最佳拟合轮廓模型和样本轮廓计算质量值。

Description

用于实时同位素识别的系统和方法

技术领域

本发明涉及材料的质谱分析和用于光谱轮廓的实时解卷积的方法以及丰度的定量测量。

背景技术

质谱测量法已被广泛用于识别各种应用的样本中存在的材料。然而，由于精确光谱解卷积所需的高水平处理，已经证明光谱数据的实时分析非常具有挑战性。使用包括电喷雾电离(也称为“ESI”)或激光喷雾电离技术的各种技术产生的数据的质谱分析特别具有挑战性，因为它们通常产生具有相同同位素轮廓(profile)的离子，这些离子由于分析物分子的多次充电而在多个电荷态被检测到。这通常将质谱分析的效用限制在那些不需要实时分析数据的应用中。

这里使用的术语“实时”通常是指以基本相同的速率报告、描绘或反应事件，有时基本上与它们展开同时，而不是延迟报告或动作。例如，“基本相同”的速率和/或时间可以包括与事件展开的速率和/或时间的一些小的差异。在本实例中，实时报告或动作还可以被描述为与事件展开的速率和/或时间“接近”、“相似”或“可比较”。

出于多种原因，实时光谱解卷积、材料识别和报告是重要的。一个原因包括所产生的答案对于指导时间敏感的决策很有用。一些决定包括在同一分析过程中可以制作的主题材料的附加分析，该分析过程产生材料的原始光谱信息。例如，提供实时决策权的能力在临床环境中尤其重要，其中患者结局可以显著改善。

ESI是一种广泛用于质谱分析应用的技术，用于从大分子产生离子种类。在典型的应用中，感兴趣的分析物溶解在液体溶液中并通过具有电势的ESI发射器喷射以产生带电液滴。液滴携带电荷，该电荷与溶剂蒸发的效果相结合，导致包括具有各种电荷状态的分析物的气相离子的产生。离子前进到质谱仪的其他区域以供分析。

类似地，利用激光喷射电离，当固定到载玻片上并用基质(例如2,5-二羟基苯乙酮)覆盖的样本被来自载玻片背面的激光脉冲撞击时，可以形成多种带电离子。然后，使用电势将来自电离李的作为结果的离子转移到质谱仪中。在某些情况下，激光喷雾电离比ESI具有更好的效率，并且离子丰度可以高出几个数量级。例如，激光喷雾电离的一些实施方案提供了某些类型的生物分子或生物分子组合(例如蛋白质-DNA相互作用)的溶液相特征的更好表示。

最近，拟合和生物(或聚合物)样本的质谱同位素轮廓建模领域的进步已经使得实时光谱解卷积更加可行。第一个进步包括有时被称为“Averagine(平均氨基酸)”的概念。通过估算化合物的元素组成，Averagine方法产生作为质量的函数的同位素轮廓模型的近似值。1995年Senko等人在JASMS中描述了Averagine方法的实例，标题为“来自解析的同位素分布的大生物分子的单一同位素质量和离子群的确定”，出于所有目的其通过引用整体并入本文。

第二个进步包括使用同位素查找表和电荷状态测定，其包括通过快速电荷状态测定和在查找表中预先缓存同位素轮廓的大规模自动拟合过程。一个实例包括有时被称为由Horn等人在2000年的JASMS中描述的“THRASH”算法，标题为“大分子的高分辨率电喷雾质谱的自动还原和解释”，出于所有目的其通过引用结合到本文中。

第三个进步包括表征同位素轮廓，其或者是通过电荷重叠的(例如，如Zhang等人在1997年JASMS中所描述的，标题为“A universal algorithm for fast and automatedcharge state deconvolution of electrospray mass-to-charge ratio spectra(用于电喷雾质荷比光谱的快速和自动电荷状态解卷积的通用算法)”，出于所有目的通过引用将其整体并入本文)，或者是强度(例如，如Renard在2008年BMC生物信息学中所描述的，标题为“NITPICK Peak identification for mass spectroscopy data(质谱数据的NITPICK峰识别)”；或Kronewitter在2012年Proteomics中所描述的，标题为“The Glycolyzerautomated glycan annotation software for high performance mass spectrometryand it application to ovarian cancer glycan biomarker discovery(用于高性能质谱分析的糖酵解器自动聚糖注释软件及其在卵巢癌聚糖生物标志物发现中的应用)”，出于所有目的其中的每一个都通过引用整体并入本文)。

最后，第四个进步包括使用精确的元素组成，而不是Averagine方法来开发同位素轮廓模型。元素组成方法先验地利用材料元素组成的知识来生成材料的一个或多个同位素轮廓模型(例如，如Kronewitter在2014年Anal.Chem.中所描述的，标题为“GlyQ-IQglycomics quintavariate-informed quantification with high-performancecomputing and GlycoGrid4D visualization(具有高性能计算和GlycoGrid 4D可视化的GlyQ-IQ糖组学五元变量通知的量化)”，出于所有目的将其通过引用整体并入本文)。

通常，先前描述的方法在运行时计算同位素轮廓或执行预先计算的轮廓的简单阵列查找。不幸的是，先前的方法在从大量候选物中识别材料的能力方面太慢且受限，而质谱仪正在获取来自其他材料的质谱信息。

因此，非常希望具有一种分析方法，该分析方法在本质上提高计算机处理的速度和性能，以便为广泛的应用提供化合物的准确实时识别和量化。例如，增加的处理性能更快地完成每个任务，从而为其他实时计算任务释放处理资源，这使得快速和准确的识别和量化成为可能。

发明内容

在此，关于说明性的、非限制性实施方式描述了用于解决这些和其他需求的系统、方法和产品。各种替代、修改和等同物是可能的。

描述了一种用于实时材料识别的方法的实施例，其包括：从未知材料的质谱分析得到的光谱信息确定未知材料的近似质量值；使用近似质量值检索与数据结构中的已知材料相对应的轮廓模型；将来自光谱信息的未知材料的样本轮廓拟合到轮廓模型以生成每个拟合的拟合分数，其中最低拟合分数对应于最佳拟合；从最佳拟合轮廓模型和样本轮廓计算质量值。

在一些实施方式中，该方法还可以包括确定对应于最佳拟合轮廓模型的已知材料并计算已知材料的丰度的测量。例如，可以通过用强度校正因子缩放(scaling)样本轮廓来计算丰度的测量。在一些情况下，可以使用顶点同位素强度作为被除数的除数来计算强度校正因子关系，其包括缩放到顶点同位素强度的样本轮廓。或者，可以使用同位素轮廓的浮滤区(floating filter area)作为被除数的除数来计算强度校正因子关系，其包括缩放到同位素轮廓的浮滤区的样本轮廓。

同样，描述了用于计算材料的质量值的系统的实施例，其包括：适于从未知材料生成光谱信息的质谱仪；以及存储有可执行代码的计算机，其中可执行代码执行包括以下步骤的方法：从光谱信息确定未知材料的近似质量值；使用近似质量值从数据结构中检索对应于已知材料的多个轮廓模型；将来自光谱信息的未知材料的样本轮廓拟合到轮廓模型以生成每个拟合的拟合分数，其中最低拟合分数对应于最佳拟合；以及从最佳拟合轮廓模型和样本轮廓计算质量值。

上述实施例和实施方式不必要相互包括或相互排斥，并且可以以任何非冲突的和其他可能的方式组合，无论它们是与相同或不同的实施例或实施方式相关联地呈现。一个实施例或实施方式的描述不旨在限制其他实施例和/或实施方式。同样，在替代实施方式中，本说明书中其他地方描述的任何一个或多个功能、步骤、操作或技术可以与发明内容中描述的任何一个或多个功能、步骤、操作或技术组合。因此，上述实施例和实施方式是说明性的而非限制性的。

附图说明

从以下结合附图的详细描述中将更清楚地理解上述和其他特征。在附图中，相同的附图标记表示相同的结构、元件或方法步骤，并且附图标记的最左边的数字表示参考元件首次出现在其中的图的编号(例如，元件120首先出现在图1中)。然而，所有这些惯例都是典型的或说明性的，而不是限制性的。

图1是质谱仪仪器和从质谱仪接收信息的计算机的一个实施例的简化图形表示；

图2是图1的质谱仪和计算机的一个实施例的功能框图，其中解释应用程序与数据结构通信；

图3A是使用定量强度校正因子与相对低质量的样本材料信息的结果比较的一个实施例的图形表示；

图3B是使用定量强度校正因子与相对高质量的样本材料信息的结果比较的一个实施例的图形表示；

图4是预先计算的同位素轮廓模型的一个实施例的简化图形表示；

图5是用于计算材料丰度的测量的多次扫描的样本同位素轮廓的建模与测量报告的总和强度的一个实施例的简化图形表示；

图6是基于可比较化合物的组成差异的预先计算的同位素轮廓模型之间的差异的一个实施例的简化图形表示；

图7是应用了不同浮动区域滤波器的预先计算的同位素轮廓模型的一个实施例的简化图形表示；

图8是图7的浮动区域滤波器的一个实施例的简化图形表示，包括同位素梳状滤波器；

图9是用于将未知材料的样本轮廓数据拟合到轮廓模型并确定材料的精确质量的过程的一个实施例的功能框图；

图10是迭代表的一个实施例的简化图形表示，以及示出拟合分数的关系的图表，拟合分数是在应用迭代表中定义的移位时获得的；

图11是使用对参考同位素轮廓模型的最佳拟合样本同位素轮廓的质量计算的一个实施例的简化图形表示；以及

图12是使用对参考同位素轮廓模型的最佳拟合的未解析的样本同位素轮廓的质量计算的一个实施例的简化图形表示。

贯穿附图的若干视图，相同的附图标记指代对应的部件。

具体实施方式

如下面将更详细描述的，所描述的发明的实施例包括用于实时光谱解卷积和材料识别以及丰度量化的计算机处理性能的实质性改进。更具体地，本发明包括使用散列表数据结构来优化信息检索的速度，将来自样本数据的同位素轮廓拟合到从散列表中检索的对应的参考同位素轮廓模型，并且在拟合之前对对应于各自材料的同位素的多个电荷状态样本轮廓进行求和/平均。在本文所述的实施例中，所述材料可包括细菌、酵母、真菌、蛋白质、肽、化学品或通过质谱分析法分析的其他材料。

图1提供了能够与计算机110和样本120交互的用户101的简化的说明性实例，以及计算机110和质谱仪150之间以及计算机110和自动样本处理器140之间的网络连接。此外，自动样本处理器140也可以与质谱仪150网络通信。应当理解，图1的实例示出了元件之间的直接网络连接(例如，包括由闪电箭表示的有线或无线数据传输)，然而示例性网络连接还包括经由其他设备(例如，交换机，路由器，控制器，计算机等)的间接通信，因此不应被视为限制。

同样，用户110可手动制备样本120以供质谱仪150分析，或者可制备样本120并以自动方式例如通过机器人平台加载到质谱仪150中。例如，自动样本处理器140接收原材料并根据一个或多个协议执行处理操作。然后，自动样本处理器140可以将处理过的材料引入质谱仪150而无需用户101的介入。用于处理质谱分析的原材料的自动化平台的另一个实例描述于名称为“Apparatus and methods for microbial identification by massspectrometry(用于通过质谱分析法进行微生物识别的设备与方法)”的美国专利No.9,074,236中，出于所有目的将其通过引用整体并入本文。

质谱仪150可包括任何类型的质谱仪，其转移带电荷或不带电荷的分析物以产生用于以质谱形式分析的离子。质谱仪150的实施例通常包括但不限于将分析物分子转换成离子并使用电场或磁场来加速、减速、漂移、捕获、隔离和/或碎裂以产生独特质谱的元件。样本120可包括能够由质谱仪150分析的任何类型的样本，例如包括生物蛋白样本的分子。应理解，术语“分子”包括被认为具有“低质量”的分子。质谱仪150仪器采用的技术的一些实例包括但不限于飞行时间(例如，TOF)、高分辨率离子淌度、离子阱等。可与现在描述的发明的一些或所有实施例一起使用的质谱仪系统的另外的实例，可包括可从美国马萨诸塞州沃尔瑟姆的Thermo Fisher Scientific获得的Thermo Scientific^TM Orbitrap Fusion^TM质谱仪。

质谱仪150或自动样本处理器140的一些实施例可采用一种或多种装置，包括但不限于液体色谱仪、毛细管电泳、直接进样等。例如，依照众所周知的色谱原理，色谱仪接收包含分析物混合物的样本120，并且至少部分地将分析物混合物分离成单独的化学组分。将得到的至少部分分离的化学组分在不同的相应时间转移到质谱仪150以进行质量分析。当质谱仪接收每种化学成分时，它被质谱仪的电离源电离。电离源可以产生包括多种离子种类(例如，多种前体离子种类)的多种离子，所述离子种类包括来自每种化学组分的不同电荷或质量。因此，可以为每种化学组分产生不同的相应质荷比的多种离子种类，每种这样的组分在其自身的特征时间从色谱仪中洗脱。通过质谱仪的质量分析器-通常通过空间或时间分离-分析这些各种各样的离子种类，并通过像电流、电子倍增器或现有技术中已知的其他装置进行检测。作为该过程的结果，可以根据它们的各种质荷比(m/z)适当地识别离子种类(例如分子量的确定)。同样在一些实施例中，质谱仪150包括反应/碰撞单元以碎裂或引起前体离子的其他反应，从而产生包含多个产物离子种类的多个产物离子。

同样，在一些实施例中，质谱仪系统150可以与控制器进行电子通信，该控制器包括用于执行数据分析和控制功能的硬件和/或软件逻辑。这种控制器可以以任何合适的形式实现，例如专用或通用处理器、现场可编程门阵列以及专用电路中的其中之一或组合。在操作中，控制器通过调节施加到离子光学组件和质量分析器的各种电极的电压(例如，RF、DC和AC电压)来实现质谱仪系统的期望功能(例如，分析扫描、隔离和解离)，并且还接收和处理来自检测器的信号。控制器可以另外被配置成存储和运行数据相关方法，其中基于对所获取的质谱数据应用输入标准，实时选择和执行输出动作。数据相关方法以及其他控制和数据分析功能通常以由控制器执行的软件或固件指令编码。

计算机110可以包括任何类型的计算机平台，诸如工作站、个人计算机、平板电脑、“智能电话”、服务器、计算集群(本地或远程)、或任何其他现有或未来的计算机或计算机集群。计算机通常包括已知组件，例如一个或多个处理器、操作系统、系统存储器、存储器存储设备、输入-输出控制器、输入-输出设备、以及显示设备。还应当理解，可以使用计算机110的一个以上的实现方式来在不同实施例中执行各种操作，因此图1中的计算机110的表示不应被视为限制。

在一些实施例中，计算机110可以采用计算机程序产品，该计算机程序产品包括其中存储有控制逻辑(计算机软件程序，包括程序代码)的计算机可用介质。当由处理器执行时，控制逻辑使处理器执行本文描述的功能。在其他实施例中，一些功能使用例如硬件状态机主要以硬件实现。执行本文描述的功能的硬件状态机的实现，对于相关领域的技术人员来说是显而易见的。同样在相同的或其他实施例中，计算机110可以使用因特网客户端，其可以包括能够经由网络访问远程信息的专用软件应用程序。网络可以包括本领域普通技术人员公知的许多不同类型的网络中的一个或多个。例如，网络可以包括本地或广域网，其采用通常被称为TCP/IP协议套件的通信。网络可以包括这样的网络，该网络包含通常被称为互联网的互连的计算机网络的全球系统，或者还可以包括各种内联网架构。相关领域的普通技术人员还将理解，联网环境中的一些用户可能更喜欢使用通常所称的“防火墙”(有时也称为数据包滤波器或边界保护设备)，以控制进出硬件和/或软件系统的信息流量。例如，防火墙可以包括硬件或软件元件或其某种组合，并且通常被设计成实施由用户(例如网络管理员等)实现的安全策略。

同样，如上所述，计算机110可以存储和执行被配置成执行数据分析功能的一个或多个软件程序。图2提供了计算机110的实施例的说明性实例，计算机110包括数据处理应用程序210，其接收来自质谱仪150的原始质谱信息并对原始信息(例如，一个或多个“质谱”)执行一个或多个处理，以产生可用于进一步解释的样本数据215。例如，数据处理应用程序210的一个实施例处理与材料相关联的光谱信息，并输出信息，诸如通过分析未知材料样本所识别的已知材料，所分析的材料的质量值(例如单一同位素质量或平均质量值)，和/或来自材料的修改的光谱轮廓(例如，包括“质心”，其减少表征轮廓所需的数据量)。本文所用的术语“单一同位素质量”应根据相关领域普通技术人员的理解来解释，并且通常是指使用每种元素的最丰富同位素的未结合的基态静止质量，分子中原子质量的总和。同样，这里使用的术语“质心”应该根据相关领域普通技术人员的理解来解释，并且通常是指用于表征光谱的测量，其中质心指示质量中心基于轮廓峰的模拟顶点而位于何处。在2016年3月11日提交的名称为“Methods for Data-Dependent Mass Spectrometry of Mixed BiomolecularAnalytes(用于混合生物分子分析物的数据相关质谱分析的方法)”的美国专利申请公开号No.US 2016-0268112 A1中描述了用于数据处理的软件程序的其他实例，出于所有目的将其全部内容通过引用并入本文。

如上所述，本发明的实施例包括用于实时光谱解卷积、材料识别以及丰度量化的系统和方法。更具体地，本发明包括采用散列表数据结构，如图2中的数据结构230所示，以存储和实现适当的参考模型和其他相关数据的快速识别。本领域普通技术人员理解，其他类型的数据结构也可以与当前描述的实施例一起使用，因此散列表数据结构的描述不应被视为限制。例如，实现快速数据检索的数据结构可以包括树、散列、图表、非简单列表或本领域已知的用于有效数据检索的其他数据结构。

重要的是，解释应用程序220将样本数据215中的材料信息与从数据结构230检索的参考模型对齐并拟合，而不是将参考模型拟合到已经是历史方法的样本数据中的材料信息。与现有技术方法相比，本发明的实施例提供了将轮廓模型和样本轮廓拟合在一起的速度的显着改进。例如，每个轮廓检索可能需要大约1.36μs来执行，并且整个拟合过程可能需要大约13μs来使用计算机110执行，其具有典型的用于质谱分析的伴随计算设备的实施例的适当处理能力。

还应当理解，尽管图2将数据处理应用程序210和解释应用程序220示为单独的元件，但是如本文所述的应用程序210和220的功能可以由单个应用程序执行。此外，描述为由应用程序210执行的一些功能可以由应用程序220执行，反之亦然。因此，不应将图2中所示的实例视为限制。

本发明的一些实施例包括在用质谱仪150测试样本材料之前在散列表数据结构中生成预先计算的同位素轮廓模型信息的高速缓存，使得在运行时仅需要对样本数据215进行最小数量的计算。相关领域的普通技术人员将理解，通过最小化在该过程期间执行的计算的数量，产生材料数据245所需的处理时间减少。在一些实施例中，同位素轮廓模型可包括任何实验得出的或理论的模型。在一个可能的实例中，可以使用上述的Averagine方法计算同位素轮廓模型。普通技术人员理解，Averagine方法可以使用适合于样本的任何平均单位(average unit)或多个单位。或者，如果材料的元素信息是先验已知的，也可以使用元素组成法计算同位素轮廓模型，如上所述。同样，可以采用Averagine和元素组成法的某种组合。此外，如果样本包含化学标记分子和非标记分子，则可以使用相同材料的两种或更多种同位素轮廓模型的某种组合。

散列表数据结构的使用提供了极快的数据检索机制，其中返回信息所需的时间根据搜索时间的平均值而缩放，该搜索时间是恒定的预期时间t(1)。例如，理论上最坏情况的场景用搜索时间t(n)来缩放，其中用于材料识别目的的“n”可以是十万或更大的量级。重要的是，由于使用“平衡”散列方法，解释应用程序220可以在t(1)场景中操作并且避免t(n)场景。如本领域普通技术人员所理解的，平衡散列，有时也称为“一致散列”，通常是指在添加新对象时对散列表中的对象的一致映射。因此，散列键将一贯地指向散列表中的正确对象。例如，平衡的散列方法转化为极快的关键字搜索，每个同位素轮廓大约1-2μs(或更快)，以完成使用计算机110，其具有典型的用于质谱分析的伴随计算设备的实施例的适当处理能力。相比之下，标准查找表可能需要两倍多那样长的时间。在所描述的实例中，解释应用程序220可以按每个轮廓(电荷后解卷积)在～10μs内(或更快)分析数据。

除了高速缓存同位素轮廓模型之外，本发明的实施例还可以包括散列表数据结构中的“迭代表”的高速缓存。这里使用的术语“迭代表”通常是指以表格格式存储的信息，其是从材料的已知同位素轮廓模型预先计算的。通过提供将样本轮廓离散地移位在迭代表中指定的某种程度的能力，该迭代表已知与材料的同位素相关联，迭代表使得样本轮廓能够快速对齐到同位素轮廓模型。例如，迭代表包括具有“偏移”值的列，其对应于自峰质心的移位的程度和方向(例如，以Da的+/-表示)。对于每次迭代，应用自迭代表的移位并计算拟合分数。在本实例中，每行对应于自已知同位素轮廓预先计算的偏移值。

此外，所感兴趣的材料的所有质量(例如单一同位素质量或平均质量)和得分参数也被高速缓存在数据结构中。在一些实施例中，一个或多个定量强度校正因子也被高速缓存或可以实时计算以提供改进的结果，特别是对于具有相对高质量的材料或在噪声水平附近检测到的材料。同样，在所描述的实施例中，这能够通过对理论同位素轮廓模型进行积分(例如求和)并将积分值除以样本同位素轮廓的顶点处的测量强度，来计算材料丰度的精确测量。

例如，可以通过以下方程式计算定量强度校正因子：

定量强度校正因子＝X质量^Y

X和Y是适合于将强度校正因子拟合到所选择的同位素轮廓集或所使用的集合的拟合系数。例如，对于人Averagine估计，可以使用X＝0.064247和Y＝0.503492，但是其他系数可以在适用时替换。

继续本实例，应当理解，可以使用用于计算定量强度校正因子的其他类似系数或方程式，因此这里给出的方程式不应被视为限制。图3A和3B提供了将使用定量强度校正因子的结果与样本数据215中的材料信息进行比较的说明性实例。更具体地，图3A示出了低质量的图，其中模型拟合线305(例如，使用定量强度校正因子计算)偏离样本数据215中的单一同位素质量值。重要的是，在相对低的质量值(例如～1500Da和更低)，样本数据线310提供了比模型拟合线305更好的强度比测量，并且应该从数据结构中缓存和检索，因为强度比不应该到1以下。相反，图3B示出了高质量的图，其中模型拟合线305提供了样本数据215中的单一同位素质量值的良好表示。因此，对于相对高的质量值，应当理解，使用定量强度校正因子或计算的模型计算的值可用于提供良好的结果。

与使用查找表的二进制搜索相比，适当的信息缓存可以将所需的运行时间减少大约98％，并且提供比在运行时间期间为每个轮廓计算一个或多个同位素轮廓模型的更复杂算法更快的处理时间。

如上所述，计算同位素轮廓模型在计算上是昂贵的过程，其中计算成本随着材料质量的增加而增加。因此，预先计算轮廓模型并将其存储以供以后使用，大大降低了分子质量测定的实时处理要求。典型的同位素轮廓模型是如图4的实例中所示的概率分布，其示出了材料的预先计算的同位素轮廓模型，在质量19kDa处具有峰。图4的实例中的同位素数量(例如X轴上的标度)包括148个同位素，这是由于这样的事实即约150个同位素为本发明的实施例提供了合适的范围。然而，较大或较小的同位素数量范围可适合于相应的较大或较小质量范围，因为同位素数量通常与化合物的单一同位素质量相关。同样，在所描述的实施例中，可以处理轮廓模型并将其表示为质心值，其被显示为具有零线宽的离散质荷比(例如，有时表示为“m/z”)。质心数据的优点是文件大小要小得多，因为描述轮廓模型所需的信息较少。

确定定量强度校正因子也可以是计算上昂贵的过程。强度校正因子是样本同位素轮廓的顶点同位素处的测量强度与模拟的参考同位素轮廓的整个区域之间的关系，其包括模型中的所有同位素峰。如上所述，可以通过用强度校正因子来缩放样本同位素轮廓的顶点同位素的强度，来计算材料丰度的测量。或者，可以使用浮滤区和模型参考同位素轮廓之间的关系来代替基于顶点的关系。由“浮动滤波器”定义的区域有时是优选的，因为当同位素轮廓的顶点处的测量强度由于差的离子静电或噪声而变化时，它有助于减少不确定性。可以在模型构建过程中使用轮廓或质心(例如，仅峰值顶点)峰值数据并作为样本数据。

图5提供了多次扫描的同位素顶点处的模拟与测量强度的说明性表示，用于计算具有单一同位素质量值9016.37Da的材料的丰度测量值。例如，报告的总强度对应于检测到的每种同位素的强度总和。“建模”系列对应于本文所述的单一同位素质量为9106.37Da的模拟强度，并且模型中的所有同位素相加。“SN1”、“SN3”、“SN5”、“SN10”系列表示这样的强度，其中在信噪比阈值以下检测到的同位素(例如，SN5的小于信号/噪声＝5的峰)不包括在总和强度计算中，其通常产生低于预期的值。在所描述的实例中，解释应用程序220可以通过对最佳拟合同位素轮廓模型积分并通过样本轮廓的顶点处的测量强度将积分值分开，来计算对应于最佳拟合参考轮廓模型(例如，如将在下面更详细地描述的那样)的已知材料的丰度的测量。

本发明的一些实施例可以创建多个散列表数据结构，其各对应于可以具有独特特征的基本相似且可比较的材料的源。或者，可以在相同的散列表数据结构中创建基本相似和可比较的材料的单独示例，每个示例对应于独特特征之一。如果示例足够不同，则可以分别识别基本相似的材料的来源。例如，一些材料可具有源的组成特征，其影响材料的轮廓模型的计算的分布，例如硫或碳水化合物的存在/不存在。图6提供了包含组成差异的可比化合物(例如蛋白质)的同位素轮廓模型的说明性实例。更具体地，图6的实例证明了轮廓605分布中的移位可归因于人类中的蛋白质材料中硫的存在，而在来自细菌的蛋白质材料中的基本相似的轮廓615中看不到硫。

当前描述的发明的一些实施例还可以利用可以被称为“区域滤波器”(有时也称为“浮动滤波器”)的滤波器来隔离全同位素模型的最准确区域。然后，将同位素轮廓模型的浮动滤波器版本存储在散列表数据结构中。图7中提供了浮动滤波的同位素轮廓模型的说明性实例。这显示，将轮廓模型隔离到以轮廓的最丰富的峰为中心的区域，消除了轮廓曲线的尾部区域中的总轮廓面积的一些百分比。

相关领域的普通技术人员理解，全同位素轮廓模型需要大量的数据存储容量，因此使用浮动滤波器减少了需要存储在散列表数据结构中的数据量。另外，表示通过应用浮动滤波器产生的同位素轮廓模型的数据，对于在本文描述的实施例中的拟合是最优的。例如，由浮动滤波器产生的轮廓模型的信息内容相对未过滤的轮廓增加，因为在样本数据215到轮廓模型的拟合中仅使用具有最高信噪比的同位素峰。

在一些实施例中，获得感兴趣材料的全同位素轮廓模型库，并对每个同位素轮廓模型应用浮动滤波器。浮动滤波器的覆盖程度(例如，如图7中所示的百分比)可以是用户定义的，预设为预定义值，基于与将区域过滤的轮廓拟合到样本数据215的计算性能相关联的一个或多个标准来定义，或其他度量标准。例如，基于样本数据中的分析物的数量或感兴趣的质量范围，用于浮动滤波器的同位素轮廓模型的区域百分比可以通过置信水平来定义。在本实例中，具有窄的宽度和高强度的同位素轮廓可以使用比具有宽的宽度和低峰强度(例如具有长尾)的同位素轮廓更高百分比的总轮廓面积。

在一些实施例中，可以采用聚类方法来改进本文描述的解卷积策略的结果。如相关领域的普通技术人员所理解的，由于中子的质量约为1Da(例如，材料的同位素具有不同的中子数量)，材料的同位素应当彼此相差大约1Da的质量增量。因此，在一些实施例中，浮动滤波器还可以包括所谓的“梳状滤波器”，其包括在标度或轴上彼此相差1Da增量的“齿”参数。例如，梳状滤波器可用于穿越扫描或在数据集之间聚类属于相同材料的同位素轮廓。在一些情况下，差的数据质量(例如离子统计)可导致样本同位素轮廓的不期望的欠采样，其随后可导致模型拟合误差，因为没有足够质量的足够的同位素轮廓信息。在本实例中，当测定单一同位素质量时，模型拟合误差传播到离散误差(±nDa)。因此，在聚类不同数据质量的两个或更多个轮廓期间，误差对于相同样本材料的所有同位素(例如具有特定质量的材料)是一致的，并且因此与梳状滤波器的齿参数一致。

图8提供了梳状滤波器概念的说明性实例，其示出了两种蛋白质的轮廓重叠的情况。例如，由于同位素轮廓模型准确地表示单一材料的同位素的增加的确定性，浮动滤波器自动预先设定梳状滤波器的窗口的大小。在图8的实例中，不对应于第一材料的齿间距的数据点属于第二材料，允许具有相似但不同质量的材料的高分辨率区分。还应当理解，可以使用另外的统计分析来进一步细化和/或验证聚类。

然后，将感兴趣材料的每个已知同位素的计算的浮动滤波轮廓模型高速缓存在数据结构230的散列表中。在一些或所有所述实施例中，感兴趣材料的质量值(例如，整数值)可以用作存储在散列表中的信息的关键字。同样，除了缓存每个同位素的浮动滤波的轮廓模型之外，还基于相同的关键字缓存感兴趣材料各自的迭代表。存储最小的、信息丰富的轮廓模型和非冗余迭代表有助于限制散列表数据结构的内存占用，并减少从散列表数据结构中检索信息时的运行时间。

在一些实施例中，样本数据215中的样本同位素轮廓可包括所谓的“未解析的”轮廓模型。相关领域的普通技术人员理解，本文所用的术语“未解析的”轮廓或质谱包括含有部分或没有解析的同位素峰的轮廓。还应理解，未解析的样本同位素轮廓对确定单一同位素质量值提出了挑战。分辨率通常定义为m/Δm或质量/峰宽(例如，在所谓的“半峰全宽”(FWHM)处)。在一些或所有所述实施例中，可以使用本领域普通技术人员已知的数学函数来计算分辨率的FWHM。例如，FWHM是通常用于描述光谱上的峰宽度的参数，并且用于计算FWHM的公式至少部分地取决于峰或曲线的形状(例如，Gaussian，Lorentzian，Welch，Connes，Sync等)。在本实例中，可以选择多种FWHM公式用于计算，并且使用哪种算法并不重要，只要相同的算法一致地用于测量即可。

所描述的发明的一个实施例使用填充的散列表(完全定义的参考同位素分布模型)，如上所述，作为用于拟合未解析的样本同位素轮廓的模型的资源，用于精确的单一同位素质量测定。应当理解，浮动滤波器可以与如上所述的参考同位素轮廓模型一起使用，以与未解析的样本同位素轮廓相配。同样，类似于上述同位素迭代表的使用，解释应用程序220可以将未解析的样本同位素轮廓迭代地拟合到完整参考同位素轮廓模型。由于未解析的样本同位素轮廓模型中的各个同位素未完全解析(例如，分辨度太低而不能在轮廓中提供个别的同位素质心)，因此拟合程序不限于类似于梳状滤波器的整数值。例如，应用程序220使用样本轮廓的“几何质心”计算未解析的样本轮廓对完整参考同位素轮廓模型的最优拟合。本文使用的术语“几何质心”通常是指样本同位素轮廓的质量中心或峰顶点(例如，从样本数据建模或近似)处的质心(以质量维度)。知道了与样本同位素轮廓的几何质心相关联的质量值，与参考同位素轮廓模型的几何质心相关联的质量值，以及参考同位素轮廓模型的几何质心与单一同位素质量之间的已知质量差异，则可以计算单一同位素质量。在所描述的实例中，当样本同位素轮廓数据未被高速缓存在散列表中的参考同位素轮廓模型很好地表示或者如果数据质量差(例如，差的离子统计)时，可能发生错误。

图9提供了用于识别材料的工作流程的实例，该工作流程包括步骤905以确定哪个散列关键字与对应的材料数据相对应，从而返回适当的模型。在本文描述的实施例中，数据处理应用程序210能够根据从质谱仪150接收的数据计算每种材料的近似单一同位素质量或平均质量值，将近似单一同位素质量值或平均质量值作为样本数据215输出。然后，可以使用近似单一同位素质量值或平均质量值来提取可能对应于所述材料的参考模型。例如，可以通过从近似单一同位素质量值中截取、舍入、向上取整或取小数部分最低额，留下近似单一同位素质量的整数值作为关键字值，来产生散列表数据结构的适当关键字。截断的过程在计算上比舍入或取最低额的值快几倍，并且比插值方法快几个数量级。关键字可用于返回轮廓模型、迭代表以及可能包含关于模型的元数据的其他信息。

如步骤915所示，解释应用程序220使用关键字值从散列表数据结构中检索轮廓模型和迭代表。然后，解释应用程序220将样本数据215中的信息与参考同位素轮廓模型对齐，并评估拟合的质量。在一些实施例中，可以采用所谓的“拟合优度”统计方法，来确定来自样本数据215的样本同位素轮廓中的数据点的分布与来自散列表的参考同位素轮廓模型的数据点的分布在统计上是否相同。应当理解，拟合优度方法通常产生观察到的样本值与所讨论的轮廓的期望值之间的差异或拟合误差的测量，其可以被称为“拟合分数”。如上所述，所描述的实施例的方法是将来自样本数据215的样本同位素轮廓拟合到参考同位素轮廓模型(例如参考模型)，因此该方法确定表示样本同位素轮廓与参考同位素轮廓模型匹配得如何的拟合分数，其中具有最小误差的最低拟合分数对应于最佳拟合。

同样如上所述，利用模型检索的迭代表包括整数阵列，其包括参考同位素轮廓模型数据点的最丰富点与样本同位素轮廓数据点之间的“偏移”值。换句话说，使用参考同位素轮廓模型在方向和值的程度上的偏移测试拟合优度。例如，通过用于迭代的表中的值以及为确定拟合优度的最低值而用参考同位素轮廓模型测试的拟合优度，可以对由最丰富的质心表示的样本同位素轮廓的中心进行位置平移。

图10提供了迭代表和图表的示例性实例，该图表描绘了在应用迭代表中定义的移位时获得的拟合分数的关系。在一些实施例中，迭代表包括整数值，其表示模型的同位素与样本的同位素之间的指数偏移。如图10所示，迭代表1010包含用于通过增量值有效地相对于参考同位素轮廓模型偏移样本同位素轮廓数据的信息，以找到数据和模型之间的最优拟合。迭代表1010中的信息包括感兴趣的材料的每个同位素轮廓的行。可以应用迭代表中的偏移值以将样本数据215中的样本轮廓移位偏移值的程度，以获得与样本数据215中识别的未知材料的近似质量相关联的轮廓模型的拟合分数。在每次迭代中，计算拟合分数，其中最低拟合分数对应于样本同位素轮廓与在迭代表中定义的该迭代的偏移处的参考同位素轮廓模型之间的最佳拟合(例如，提供说明性实例作为图10中的拟合线1030)。由于许多参考同位素轮廓模型在模型中具有相同数量的同位素，因此可以去除散列表中的重复迭代表条目，以提高检索速度并减少内存占用。在所描述的实例中，“0”值表示用于迭代的轮廓的中心的位置。

在一些或所有所述实施例中，解释应用程序220遍历迭代表的每一行，以应用偏移值以将样本同位素轮廓中的质心峰的位置平移表中的值(例如，以道尔顿为单位)，以及计算对参考同位素轮廓模型的拟合优度。行中的偏移值可以是有序的(例如，顺序的平移次序，例如1,2,3,4等)，或交错次序(例如3,1,4,2等)，只要所有相关的对齐都经过测试。由整数散列关键字、相应的浮动滤波器范围以及数据中最丰富的样本同位素质心与参考同位素轮廓模型中最丰富的同位素之间的差异确定迭代表。使用固定数量的起始点来充分考虑噪声样本轮廓，其中最丰富的同位素质心不是中心同位素质心。

在一些实施例中，待拟合的样本同位素轮廓可包括对应于单一电荷状态的样本同位素轮廓，或者可选地，样本同位素轮廓可包括由来自多个电荷状态的样本轮廓产生的平均样本同位素轮廓。对来自多个电荷状态的样本轮廓数据求平均可降低噪声，并改善用于拟合过程的样本轮廓数据的形状。为了拟合模型，数据越过迭代表中的每一行而递增，以生成候选对齐。

如步骤925所示，解释应用程序220对拟合分数进行排序并确定对应于最佳拟合的最低分数。迭代表中的相应行指示样本轮廓与轮廓模型之间的最佳对齐，以允许快速识别最优轮廓模型。例如，理论的单一同位素质量值可以比轮廓模型中最丰富峰的质量值小约10Da。然而，应当理解，理论的单一同位素质量值与轮廓模型中最丰富峰的质量值之间的差异程度可以根据各种因素而变化。在一些实施例中，应用程序220计算样本轮廓中的每一个同位素点的单一同位素质量值，并使用多个数据点确定平均单一同位素质量，进一步提高其准确度。同样，解释应用程序220可以返回强度校正因子，该强度校正因子用于确定由匹配于所述数据的参考同位素轮廓模型识别的材料的丰度的测量。此外，在步骤925，解释应用程序还可以确定对应于最佳拟合轮廓模型的已知材料，并将该信息返回给用户101。

图11提供了使用对参考同位素轮廓模型的最佳拟合样本同位素轮廓的质量计算的说明性实例。样本同位素轮廓包括同位素峰的分布(例如描绘为线和点的“锯齿”轮廓)，其得自单一同位素质量值为16941.0391的蛋白质。样本同位素轮廓分布中的每个峰包含质心(例如每个描绘为小方块)。将图11的实例中所示的理论同位素轮廓迭代地拟合到样本同位素轮廓分布，直到确定具有0.042的拟合分数的最优拟合(例如描绘为虚线)。图11的顶部还示出了一系列Δ质量值，其描绘了每个单独的同位素峰对单一同位素质量值的关系(例如，Δ9处的同位素峰大约是单一同位素质量值+9质量单位)。如本文所用的术语“质量单位”通常是指平均C12-C13质量差异的值，在质量上其与中子质量相似。此外，单一同位素质量值的位置在图11中由大约m/z＝771(电荷状态+22)处的粗垂直线表示，其对应于16941.0391Da，这距离全样本轮廓(例如高分辨率)的峰质心大约10Da远。

继续图11中所示的实例，右上部分中的表格示出了来自每个同位素的计算的单一同位素质量值以及计算的单一同位素质量值的平均值，其提供了单一同位素质量值更准确的值。应当理解，不应将平均值的使用视为限制，并且还可以使用其他数据合并方法，包括但不限于加权平均值、平均值、模式、中间质量或质荷比值。在目前描述的实例中，仅使用浮动滤波器选择最丰富的同位素质心用于平均计算(例如，使用浮动滤波器组来选择最丰富的75％的质心)。通过从样本同位素轮廓中消除易出错的低丰度质心，提高了计算的准确性和速度。

图12提供了精确质量计算的另一个说明性实例，使用了对参考同位素轮廓模型的最佳拟合的未解析的样本同位素轮廓。使用最佳拟合同位素轮廓和49Da的已知模型顶点对单一同位素质量Δ，蛋白质的单一同位素质量值为约80,738.6Da。原始数据表示为虚线，最佳拟合模型同位素轮廓图示为实线，单一同位素质量值的位置表示为垂直虚线。在本实例中，样本同位素轮廓不包括各个同位素质心的表示，因此使用样本同位素轮廓的近似单一同位素质量值，将样本同位素轮廓的几何峰拟合到参考同位素轮廓模型的几何质心，以识别适当的参考同位素轮廓模型。

在本文描述的实施例中，解释应用程序220识别对应于单一同位素质量值和最佳拟合参考模型的材料，在图2中所示为材料数据245，其经由计算机110提供给用户101。

已经描述了各种实施例和实现方式，对相关领域的技术人员明显的是，前述内容仅是说明性的而非限制性的，仅作为示例呈现。用于在所示实施例的各种功能元件之间分配功能的许多其他方案是可能的。在替代实施例中，可以以各种方式执行任何元件的功能。

Claims

1.一种用于计算材料的质量值的方法，包括：

从未知材料的质谱分析得到的谱信息来确定所述未知材料的近似质量值；

使用所述近似质量值从散列表数据结构中检索多个同位素轮廓模型，所述多个同位素轮廓模型中的每个同位素轮廓模型对应于已知材料；

将来自谱信息的所述未知材料的样本同位素轮廓拟合到所述多个同位素轮廓模型，以生成每个拟合的拟合分数，其中最低拟合分数对应于最佳拟合；

从所述多个同位素轮廓模型中的与最佳拟合对应的最佳拟合同位素轮廓模型和所述样本同位素轮廓计算所述未知材料的质量值。

2.一种用于计算材料的质量值的系统，包括：

质谱仪，适于从未知材料生成谱信息；以及

其上存储有可执行代码的计算机，其中所述可执行代码执行包括以下步骤的方法：

从谱信息确定未知材料的近似质量值；

使用所述近似质量值从散列表数据结构中检索对应于已知材料的多个同位素轮廓模型；

将来自谱信息的所述未知材料的样本同位素轮廓拟合到所述多个同位素轮廓模型，以生成每个拟合的拟合分数，其中最低拟合分数对应于最佳拟合；以及

3.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中所述方法还包括确定与最佳拟合同位素轮廓模型相对应的已知材料。

4.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中所述方法还包括计算已知材料的丰度的测量。

5.根据权利要求4所述的方法或者根据权利要求4所述的系统，其中通过由强度校正因子缩放样本同位素轮廓来计算丰度的测量。

6.根据权利要求5所述的方法或者根据权利要求5所述的系统，其中：使用i)顶点同位素强度作为被除数的除数来计算强度校正因子，其包括缩放到所述顶点同位素强度的样本同位素轮廓，或者使用ii)同位素轮廓的浮滤区作为被除数的除数来计算强度校正因子，其包括缩放到所述同位素轮廓的浮滤区的样本同位素轮廓。

7.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中：所述近似质量值包括单一同位素质量值或者平均质量值。

8.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中：所述未知材料的近似质量值对应于所述已知材料的质量值。

9.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中：所述近似质量值包括用于访问所述散列表数据结构中的同位素轮廓模型的关键字值。

10.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中所述方法还包括：

从所述散列表数据结构中检索迭代表；以及使用所述迭代表将所述未知材料的样本同位素轮廓拟合到所述多个同位素轮廓模型。

11.根据权利要求10所述的方法或者根据权利要求10所述的系统，其中基于对应于已知材料的同位素信息预先计算所述迭代表。

12.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中：使用各自对应于来自样本同位素轮廓的同位素质心的多个质量值的数据合并方法计算所述质量值。

13.根据权利要求12所述的方法或者根据权利要求12所述的系统，其中所述数据合并方法包括平均。

14.根据权利要求12所述的方法或者根据权利要求12所述的系统，其中：来自样本同位素轮廓的所述同位素质心对应于使用浮动滤波器选择的所述多个质量值。

15.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中：所述多个同位素轮廓模型包括对应于使用浮动滤波器减小尺寸的已知材料的全同位素轮廓模型。

16.根据权利要求15所述的方法或者根据权利要求15所述的系统，其中所述浮动滤波器定义以同位素轮廓模型的峰为中心的同位素轮廓模型的百分比范围。

17.根据权利要求1所述的方法或者根据权利要求2所述的系统，其中：样本同位素轮廓包括来自与所述未知材料相对应的多个同位素轮廓的平均。

18.根据权利要求1所述的方法或者根据权利要求2所述的系统，还包括：将所述质量值和所述最佳拟合同位素轮廓模型返回给用户。