CN104170052B

CN104170052B - 用于改进的质谱分析法定量作用的方法和装置

Info

Publication number: CN104170052B
Application number: CN201380015675.7A
Authority: CN
Inventors: R·佐巴瑞夫; Y·硫特维斯基
Original assignee: Thermo Fisher Scientific Bremen GmbH
Current assignee: Thermo Fisher Scientific Bremen GmbH
Priority date: 2012-04-02
Filing date: 2013-03-28
Publication date: 2017-08-11
Anticipated expiration: 2033-03-28
Also published as: EP2834835A1; CN104170052A; WO2013149963A1; US20150073727A1; DK2834835T3; EP2834835B1; US10401337B2

Abstract

在此披露一种从质谱数据量化一种或多种分析物的方法，该方法包括：从自一个色谱柱洗脱的一个第一分析物组获得一个第一质谱数据组；从自一个色谱柱洗脱的一个第二分析物组获得一个第二质谱数据组；其中每个数据组中的大多数分析物是两个数据组所共有的；确定每个数据组中至少一些分析物的表观丰度；选择一种分析物作为一种目标分析物，并且依据多种分析物就保留时间而言与该目标分析物的局部性来为该目标分析物确定多种局部化相邻分析物；基于该第一数据组与该第二数据组之间在这些所确定的局部化相邻分析物的表观丰度方面的差异来确定该目标分析物的一个局部校正后丰度；并且基于该目标分析物的校正后丰度来对其进行量化。这些相邻分析物中的大多数的实际丰度在该第一数据组与该第二数据组之间典型地是大致不变的，并且可以用于比对这些数据组之间的丰度。

Description

用于改进的质谱分析法定量作用的方法和装置

发明领域

本发明涉及质谱分析法，更具体地说，涉及定量质谱分析法。该方法可以用于对例如从液相色谱质谱分析(LC/MS)获得的质谱数据进行分析。

背景技术

质谱分析法不仅越来越多地用于鉴定样品，而且用于确定这些样品的绝对量或相对量。对如蛋白质的生物分子的丰度中与疾病相关和/或治疗相关变化的鉴定和定量是一个重要的研究领域。例如多种特定蛋白质或其变型的丰度的变化可以表明一个有机体健康与患病之间的差异。此外，集中于蛋白质差异鉴定的蛋白质组学技术的发展可以提高我们对疾病的理解和治疗性干预的有效性。在此领域中，基于质谱分析法的蛋白质组学现在是广泛使用的技术。

典型地，这种借助质谱分析法的定量作用是通过用一个参考样品(即，一个已知量的样品)的峰对一个样品的质谱峰进行校准来完成。当仅要求相对定量时，这可以通过将两个样品峰进行比较或将一个样品峰与典型地被同位素标记的一个参考峰进行比较来完成。在称为细胞培养中氨基酸稳定同位素标记(SILAC)的这样一种标记实验中，两个细胞群被供以一种氨基酸，该氨基酸在不同情况下被以不同方式进行同位素标记，这样使得含有这种肽的蛋白质将会由于同位素的已知质量差而在质谱中被容易地鉴定出来。来自这两个细胞群的蛋白质可以结合起来并且通过质谱分析法一起分析，并且所鉴定的它们的峰强度的比反映它们的丰度。利用同位素标记的方法的多个实例例如在以下文献中进行了描述：堀井·Y.等人，“部署在倒塌后的世界贸易中心的工人的血浆中的多氯化二苯并-P-二英、多氯化二苯并呋喃、多氯化联苯以及多氯化萘”，环境科学与技术，美国化学学会，2010，44，5188-5194(Horii,Y.et al,“Polychlorinated Dibenzo-p-dioxins,Dibenzofurans,Biphenyls,and Naphthalenes in Plasma of Workers Deployed at the World TradeCenter after the Collapse”,Environmental Science&Technology,American ChemicalSociety,2010,44,5188-5194)；阿门塔·J.M.等人，“使用稳定同位素标记和PQD线性离子阱MS技术的蛋白质差异表达分析”，美国质谱学会杂志，2009年，20，1287-1302(Armenta,J.M.et al,“Differential Protein Expression Analysis Using Stable IsotopeLabelling and PQD Linear Ion Trap MS Technology”,J.Am.Soc.Mass Spectrom.,2009,20,1287-1302)；以及康坦·G.T.等人，“结合基于蛋白质的IMAC、基于肽的IMAC以及MudPIT用于高效磷酸蛋白质组分析”，蛋白质组研究杂志，2008，7，1346-1351(Cantin,G.T.et al,“Combining Protein-Based IMAC,Peptide-Based IMAC,and MudPIT forEfficient Phosphoproteomic Analysis”,Journal of Proteome Research,2008,7,1346-1351)。

为了便于使用标记进行量化，德国的马克斯·普朗克生物化学研究所(MPI)的“MaxQuant”包目前处在数据处理的最前沿，如在以下文献中所描述的：考克斯·J.和曼·M.，“MaxQuant”实现了高的肽鉴定率、个体化ppb-范围质量准确度以及蛋白质组范围内的蛋白质量化，“自然生物技术”，26，1367-1372(2008)(Cox,J.&Mann,M.,“MaxQuant enableshigh peptide identification rates,individualized ppb-range mass accuraciesand proteome-wide protein quantification”,Nature Biotechnology 26,1367-1372(2008))；以及考克斯·J.和曼·M.，“确定和改进轨道阱中的蛋白质组测量的质量精度和准确度的计算原理”，美国质谱学会杂志，2009，20，1477-148(Cox,J.&Mann,M.,“Computational Principles of Determining and Improving Mass Precision andAccuracy for Proteome Measurements in an Orbitrap”,Journal of the AmericanSociety for Mass Spectrometry,2009,20,1477-148)。

在美国2008/091359中以及在马尔科森思-阿霍等人：“使用多种内标物优选的用于代谢组学数据的归一化方法”，BMC生物信息学，生物医学中心，伦敦，英国，卷8，第1期，2007年3月15日(2007-03-15)，第93页(Marko Sysi-Aho et al:"Normalization methodfor metabolomics data using optimal selection of multiple internalstandards",BMC BIOINFORMATICS,Biomed Central,London,GB,vol.8,no.1,15 March2007(2007-03-15),page93)中，描述了一种用于代谢物的定量方法，其中在样品中有意掺入多种内标物。这些标准物可以具有与某些分析物相同的化学结构，但它们都使用同位素标记来合成。在该方法中，归一化值是基于有限数目的有意掺入的标准物的已知和测得的丰度来计算。使用同一组标准用于归一化所有代谢物，并且在用作标准物的分子与作为分析物的那些分子之间存在明显的区别。它通过测量标准物和分析物在一组LC-MS运行内的协变性来估计标准物与目标分析物之间的化学相似性，并且从这一协变性推断内标物的重量。总体而言，该算法解决了在一组LC-MS运行内，即从一次运行到另一次运行，仪器响应经历变化的问题，并且不考虑单次LC-MS运行期间出现的变化。

然而，实验中对同位素标记的需要增加了复杂性和成本。此外，在一些实验中，将峰强度与存在于数据组内的校准物进行比较是不可行的，并且因此所谓的无标记定量是必要的。

一种无标记方法在维纳·M.等人，差分质谱分析法：一种用于发现复合肽与蛋白质混合物中的显著差异的无标记LC-MS方法，分析化学，2004，76，6085-6096(Wiener,M.etal,Differential Mass Spectrometry:A Label-Free LC-MS Method for FindingSignificant Differences in Complex Peptide and Protein Mixtures AnalyticalChemistry,2004,76,6085-6096)中进行了描述。在这种方法中，一种算法被用来发现从两个样品取得的质谱分析法数据中的差异。该算法使用质荷比(m/z)、保留时间以及强度以每种(m/z，时间)组合对来自这些样品的该数据进行比较。使用随时间(即，在一个足够长的时间范围内)保持不变的基于t检验的统计学上显著的差异来进行定量。

用于蛋白质、肽以及代谢物的无标记、半定量的差异表达分析的被称为SIEVE的商业软件可以从赛默飞世尔(Thermo Scientific)购得，该软件减小了样品之间色谱可变性的影响。

在美国2003-111596(贝克尔(Becker)等人)中，一种定量方法利用数据的归一化(缩放)，但缩放对象是整个质谱，即，在一个单一质谱中出现的所有离子信号。因此，贝克尔等人使他们的“峰”归一化而不考虑它们的保留时间，即，在整个LC-MS实验中一致地进行。由于贝克尔等人针对整个LC-MS运行使用相同的归一化值，他们补偿了不同LC/MS运行之间仪器响应的平均差异，但他们无法补偿诸如发生在同一LC-MS运行内的电喷雾流、电离效率以及仪器灵敏度的波动之类的时间相关的可变性来源。

然而，无标记方法使定量数据更容易变化。这类实验典型地是采用电喷雾离子化(ESI)的液相色谱质谱分析法(LC/MS)实验。除了样品制备和色谱分析中的变化(可以被最小化)之外，在无标记LC/MS实验中引起肽丰度变化的一个主要因素是ESI流的波动。这些波动在所有时间尺度上发生，从几毫秒到几分钟和几小时。虽然总ESI流可以通过仪器来监测并且记录在数据组中，目前将它考虑在内导致质量改进有限或根本没有改进。这大概是因为造成ESI流的主要因素是背景离子，这些背景离子的组成对于LC梯度、环境空气或雾化气体质量以及喷雾条件非常敏感。

鉴于以述现有技术，存在提高LC/MS中量化准确度的需要。所希望的是使无标记量化的准确度更接近标记实验(例如，iTRAQ、TMT以及SILAC)的准确度或与其相似。在此背景下做出本发明。

发明内容

根据本发明的一个方面，提供了一种从质谱数据对一种或多种分析物进行量化的方法，该方法包括：

从自一个色谱柱洗脱的一个第一分析物组获得一个第一质谱数据组；

从自一个色谱柱洗脱的一个第二分析物组获得一个第二质谱数据组；其中每个数据组中的大多数分析物是两个数据组所共有的；

确定每个数据组中至少一些分析物的表观丰度；

选择一种分析物作为一种目标分析物，并且依据多种分析物就保留时间而言与该目标分析物的局部性(locality)来为该目标分析物确定多种局部化相邻分析物；并且

基于在该第一数据组与第二数据组之间在这些所确定的局部化相邻分析物的表观丰度方面的差异来确定该目标分析物的一个局部校正后丰度。

本发明进一步提供了基于该目标分析物的校正后丰度来对其进行量化。量化该目标分析物可以是量化该目标分析物的一个相对量或一个绝对量。

优选地，该方法进一步包括选择一种或多种另外的分析物作为目标分析物，并且对于作为一种目标分析物的每种这样的另外的分析物：

依据多种分析物就保留时间而言与这种另外的分析物的局部性来为这种另外的分析物确定多种局部化相邻分析物；

基于在该第一数据组与该第二数据组之间在这些所确定的局部化相邻分析物的表观丰度方面的差异来确定这种另外的分析物的一个局部校正后丰度；并且

任选地，基于这种另外的分析物的校正后丰度来量化这种另外的分析物；其中该多种所确定的局部化相邻分析物对于至少一些不同的目标分析物而言是不同的。

该方法优选(虽然并非必要地)至少部分地在计算机软件中实施。质谱数据可以在一台质谱仪上获得，并且该数据的处理可以在诸如计算机的一个数据处理系统中实施。该质谱仪可以包括该数据处理系统。

根据本发明的另一个方面，提供了一种具有用于实施本发明的方法，更确切地说这些数据处理步骤的程序代码元素的计算机程序。

根据本发明的再一个方面，提供了一种携载该具有用于实施本发明的方法，更确切地说这些数据处理步骤的程序代码元素的计算机程序的计算机可读介质。

根据本发明的又一个方面，提供了一种包括用于实施本发明的方法的一个数据处理系统的质谱仪。该数据处理系统优选是被编程用于实施本发明的方法的一个计算机。

根据本发明的另外一个方面，提供了一种处于一个控制器的控制下的质谱仪，其中该控制器被配置成使得该质谱仪可操作用于执行根据本发明的方法的步骤。该控制器优选被编程为具有根据本发明的计算机程序。

本发明可以显著改进对质谱数据，特别是色谱质谱数据的处理，以提高分析物，特别是生物分子诸如蛋白质、肽、脂质以及其他实体的定量的准确度。

本发明通过比对复杂质谱(特别是LC/MS蛋白质组学)数据组之间的离子丰度(即，峰强度)实现了无标记量化的准确度的提高。这种比对减少了例如电喷雾(ESI)流的波动的影响，这种影响是无标记定量蛋白质组学中的一个主要误差来源。已经发现，在至少一些情况下，本发明所提供的定量准确度可以接近SILAC实验的定量准确度。

作为通过执行本发明的方法实现的数据质量提高的结果，可以使用更小数量的重复实验来实现统计学上显著的结果。相反，对于给定数量的重复测量结果，数据的统计数据得到改进，从而例如在诊断应用中得到更大的结果可靠性。

本发明在采用快速和超快色谱的LC/MS实验中可以是有用的。

有利地，本发明所提供的改进是通过数据处理提供的，而不需要在样品制备、硬件或LC/MS实验工作流程方面进行改变。

本发明优选是部分通过计算机实施的，特别是这些数据处理步骤，并且因此优选包括一种自动数据分析方法。该方法在计算上是高效的。

与现有技术相比，本发明不仅考虑了色谱图至色谱图间的丰度变化(例如，由于多种因素，如不精确稀释)，而且对一次色谱运行内可能较显著的仪器响应变化(例如，由于ESI流波动)作出校正。

与上面引用的维纳·M.等人相比，本发明实施对目标分析物丰度的校正，该校正是基于对处于该目标分析物的保留时间(即，在液相色谱柱中的保留时间)相近局部的多种相邻分析物的丰度的比对。与美国2008/091359相比，并未向样品中掺入标准物，并且因此没有浓度是先验已知的。代替掺入的标准物，这些相邻分析物被用作“标准物”。也就是说，对于一个归一化步骤，本发明利用(在一个局部保留时间内)天然存在于样品中的所有可获得分子的测得值，而没有对这类组分的数量或选择的任何其他特殊限制。

本发明不同于贝克尔等人，在贝克尔等人的方法中，同一归一化值被计算用于整个MS实验，无论它是一次LC-MS运行或一个单独MS谱。然而与现有技术的全局归一化方法(单个归一化值用于整个LC-MS实验)相比，在本发明的方法中，采用了对同一LC-MS运行的不同部分以不同方式缩放的一种局部归一化法。

本发明利用了以下事实：每个数据组中的大多数分析物是两个数据组所共有的，即，它们存在于两个数据组中；并且典型情况是，在例如蛋白质组学实验中,这些共有分析物中的大部分均具有在多个样品之间大致不变的实际丰度(即，真实丰度)。在一个典型的蛋白质组学实验中，所有肽中的大部分具有小于实验不确定度(>10％)的一个实际丰度变化，即被认为是大致不变的。因此，该第一分析物组与该第二分析物组典型地在它们的特性方面密切相关，其中这些分析物中的大多数的实际丰度在该第一组与该第二组之间大致不变。在本发明中使用这些不变的分析物(即，它们在这两个不同样品中具有加权的丰度)用于丰度比对或配合。换句话说，在保留时间方面邻近一种目标分析物的多种不变分析物可以用作参考物来校正例如该目标分析物在这一保留时间时在数据组之间的丰度，因为例如电喷雾流的波动和其他因素以相同程度影响所有同时洗脱的分析物。在复杂混合物例如全蛋白质组消化物中，分析物密度是非常高的，例如，成千上万的肽经约100分钟的一个LC梯度洗脱，形成每分钟>10肽的平均密度，因此在整个洗脱时间内存在足够的分析物用于代表性统计分析。

本发明借以提供多种优点的手段的进一步细节在下面给出。

发明详细说明

该第一分析物组典型地是来自一个第一样品或第一样品组。该第二分析物组典型地是来自一个第二样品或第二样品组。该第一样品和第二样品或第一样品组和第二样品组可以分别为案例样品和对照样品。该第一分析物组因此可以是一个案例分析物组。该第二分析物组因此可以是一个对照分析物组。这样，一种或多种分析物的绝对量或相对量可以在该案例组与该对照组之间进行比较。该第二或对照样品可以是包含已知丰度或浓度的一种或多种分析物的一个参考样品，从而允许确定该第一或案例样品中一种或多种分析物的绝对丰度。可替代地，该第二或对照样品可以具有未知丰度或浓度的分析物，从而仅允许确定该第一或案例样品中分析物的相对丰度(即，相对于该第二或对照样品中的丰度)。例如在差异表达实验中所要求的常常仅是相对丰度。这些样品可以是例如一个蛋白质差异表达实验中的两个不同样品。应了解，本发明可以应用于多于两个样品的情况，并且因此，虽然为简单起见，在此主要关于第一样品和第二样品或第一样品组和第二样品组(从其分别产生第一数据组和第二数据组)对本发明进行描述，但本发明的范围(包括如权利要求书中所限定的)意在包括具有至少两个样品的实施例，即，不排除具有任何另外数量的样品的实施例。

该第一样品和/或第二样品各自可以是通过汇集多个其他样品而制成的样品。以这种方式汇集可以例如减小样品之间基质变化所带来的影响。血液样品汇集就是一个例子。

本发明典型地可以应用于例如像血液、尿液、血清、细胞裂解物等的生物样品中分析物的分析。

该第一样品和第二样品(案例和对照)在它们所包含的分析物的特性方面典型地是相似的，并且在一些实施例中，就它们所包含的分析物的特性而言可以是近乎相同的(可能甚至是相同的)。

在本发明中，一个特征是：每个数据组中的大多数分析物(即，大于50％)是两个数据组所共有的，优选每个数据组中至少60％、至少70％、至少80％或至少90％(按优选性渐增顺序)的分析物是两个数据组所共有的。更优选地，每个数据组中超过95％的分析物是两个数据组所共有的。在一些情况下，每个数据组中的分析物的高达98％，或者在某种情况下更多可以是两个数据组共有的。

本发明通过以下方式利用了该第一分析物组和第二分析物组的组成的这种相似性：基于数据组之间分析物的表观丰度的差异，执行处于每种目标分析物的保留时间局部的分析物丰度(即，质谱峰强度)的局部比对。由此可以针对每个目标分析物获得比使用现有技术无标记定量分析方法可能实现的丰度校正更准确的一种丰度校正。分析物丰度局部比对能够考虑到ESI流波动，这种ESI流波动可能在很短的时间尺度上发生并且无法仅仅通过总数据组的彼此缩放或归一化而得到充分考虑。

这些样品可以包含例如，蛋白质、肽、脂质和其他生物分析物，以及非生物分析物。本发明可以应用于血液、尿液、血清、细胞裂解物或其他样品类型中的一种药物的代谢物的分析。因此，这些分析物可以是任何上述分析物，但不限于任何上述分析物，即蛋白质、肽、脂类、药物和/或代谢物。在蛋白质的情况下，从色谱柱洗脱并且经受质谱分析的分析物将是来自蛋白质消化的更小的肽。然而，从通过本发明的方法对这些肽进行的定量分析，可以获得蛋白质的定量。本发明在其中分析物是来自蛋白质混合物的消化的肽的蛋白质组学中尤其有用。

有利地，本发明可用于无标记分析物，即，非同位素标记的分析物和非化学标记的分析物。然而，应了解，本发明还可以应用于标记分析物的测量。

质谱数据优选是液相色谱质谱数据。质谱数据可以是洗脱分析物种类(即，母分析物)的质谱数据。任选地，质谱数据可以包括MS/MS或MSⁿ数据，即，其中在MS的一个第一阶段后，依据这些洗脱分析物的质荷比(m/z)对它们进行选择并且然后使其成碎片，这样使得在MS的一个第二阶段中测量它们的碎片(即，MS/MS分析)。还可以执行MS的又一些另外的阶段以获得MSⁿ数据。在事先未知这些分析物的特性所以有必要使用质谱数据鉴定这些分析物的情况下，可能希望使用MS/MS或MSⁿ测量结果。因此，获得这些质谱数据数据组中的一个或两者的一个或多个步骤可以包括从自一个色谱柱洗脱的分析物组获得一个MS/MS或MSⁿ质谱数据组。确切地说，该方法可以包括如下两个数据采集步骤之一：从自一个色谱柱上洗脱的该第一分析物组获得一个第一MS/MS或MSⁿ质谱数据组；以及从自一个色谱柱上洗脱的该第二分析物组获得一个第二MS/MS或MSⁿ质谱数据组。

如本领域所已知的，MS/MS或MSⁿ数据可以用于数据库搜索，或用于从头开始方法，以鉴定这些分析物。这种方法可以应用于多种分析物的复杂混合物，例如像来自蛋白质消化的多种肽的情况。这种分析物鉴定可以在后处理中执行或者在数据采集期间即时执行。然而，在这些分析物的特性例如在LC/MS实验之前已经已知的情况下，可以不要求MS/MS或MSⁿ采集。

该第一质谱数据组和/或该第二质谱数据组可以各自独立地是从单次色谱洗脱获得的数据或从若干次色谱洗脱获得的数据(例如，技术性重复数据或再次测量结果)。该第一组和/或第二组各自甚至可以是来自不同的(但密切相关的)样品的若干次色谱洗脱的数据(即，非技术性重复数据)。

本发明最优选是计算机实施的。本发明包括处理所获得的质谱数据组，该处理优选是使用一个计算机执行的(即，是计算机实施的)。

对这些质谱数据组的处理包括：确定每个数据组中至少一些分析物的表观丰度；选择一种分析物作为目标分析物并且确定就保留时间而言该目标分析物的多种局部化相邻分析物；并且基于该第一数据组与第二数据组之间这些相邻分析物的表观丰度的差异确定该目标分析物的局部校正后丰度。进一步的处理步骤可以如下所述执行，这些处理步骤优选是计算机实施的。

在例如其中这些数据组中的一些或所有分析物的化学特性不是已知的或不是完全已知的或不是完全确定的实施例中，该方法可以进一步包括以下一个步骤：在该局部丰度缩放步骤(见下文)之前并且优选在该表观丰度确定之前，优选使用MS/MS或MSⁿ数据鉴定这些分析物(例如，肽)中的一些或全部。这些分析物可以使用一种数据库搜索以(例如)将所获得的MS/MS(这里还包括MSⁿ)峰图案与已知分析物的峰图案或该数据库中所包含的理论图案进行匹配来鉴定，或者通过从头开始方法来鉴定。该搜索可以包括将所测得的MS/MS碎片谱与假设或可能包含在该样品中的分析物的理论碎片或存储库碎片进行比较。因此，这些MS/MS测量结果可以使得能够从一种分析物的碎片质谱数据鉴定该分析物。作为一个例子，如果该样品是酵母，可以使用一种计算机算法将一个酵母蛋白质数据库“消化”成多种肽，并且使用另一种算法使这些肽“成碎片”，以便给出每种肽的预测质量数和每种蛋白质的预测肽数。这典型地被存储在一个导出数据库中，该导出数据库典型地通过肽质量来索引。这一操作的实施方式可以发生变化，例如，MS/MS模拟可以即时完成。因此，在该搜索中，可以使用一种前体离子的质量来鉴定接近这个质量的多种候选肽，并且将为这种肽计算出的MS/MS碎片与该前体离子的测得MS/MS谱进行比较以发现最接近的候选匹配。这对这种MS/MS谱解释存在各种程序，流行的一些是Sequest和Mascot。

在其他情况下，这些分析物中的一些或全部可以是已知的，即预先鉴定的，这样使得它们的化学特性是已知的，并且因此它们也可以被称为已鉴定分析物，尽管不需要或执行一个数据处理步骤来鉴定它们。因此，在此术语已鉴定分析物意指例如如已描述的通过使用MS/MS或MSⁿ数据或者在实验开始前，或者在数据处理前，或者在鉴定步骤后已得知其化学特性的一种分析物。

在一些情况下，MS/MS或MSⁿ鉴定可以在一个单独实验中有可能对具有更高可获得性的一个相关样品(例如，对更便宜的一个样品，特别是在样品量非常有限的情况下)执行。

任选地，可以使这些分析物的表观丰度经受一种所谓的全局缩放或归一化。这包括调整一个或两个数据组中的表观丰度，这样使得每个数据组的总分析物丰度是大致相同的。

该全局缩放或归一化可以包括缩放该第一质谱数据组和/或该第二质谱数据组以使得在缩放后它们具有相同的集成总离子流(TIC)的一个步骤(全局缩放)。优选地，该第一质谱数据组和/或该第二质谱数据组的这种缩放包括对一个组中的所有数据应用一个共同缩放，这样使得在缩放后，该第一组和第二组具有相同的积分总离子流(TIC)。因此，在这种缩放后，该第一质谱数据组中所有分析物的总丰度(如从质谱数据中这些分析物的离子峰强度确定的)变得与该第二质谱数据组中所有分析物的总丰度相同。例如，这种所谓的数据全局缩放可以这样执行以使得每个数据组的TIC在缩放后给出一个共同积分值，例如1，或100，或1×10⁶或1×10⁹任意单位(a.u.)。然后，后续步骤仅使用这些全局缩放的数据组，其中每个数据组的总分析物丰度已变得大致相同。该任选的全局缩放步骤(缩放该第一质谱数据组和/或该第二质谱数据组以使得它们具有相同的积分总离子流(TIC))可以在该任选的鉴定分析物的步骤之后或之前执行。这样一种任选全局缩放步骤形式在使用时，优选在该局部缩放或峰比对步骤或表观丰度确定之前执行，或者甚至在该分析物鉴定步骤之前执行。

在另一个实施例中，该全局缩放或归一化可以包括调整所确定的在一个或两个数据组中这些分析物的表观丰度(即，在这些分析物丰度已被确定之后)，以便使得每个数据组的总(表观)分析物丰度变得相同。

每个质谱数据组中已鉴定分析物的表观丰度可以按照各种方式来确定，该表观丰度是从该质谱数据(在根据本发明确定校正后丰度之前)确定的丰度。在一个优选实施例中，在每个数据组中，针对每种已鉴定分析物将MS数据中来自一种已鉴定分析物的离子的所有峰集合在一起并且确定集合在一起的这些峰下方的面积。应了解，来自同一分析物的离子的不同峰的存在可能是由于例如不同的电荷状态和不同的同位素。由此确定的面积因此表示该分析物在相应数据组中的丰度。还应了解，在其他实施例中，有可能使用少于所有的来自每种分析物的离子的峰来表示该分析物丰度。例如，有可能使用每种分析物的指定多个峰，或仅使用每种分析物的基峰或最强峰。可替代地，定量信息可以这样导出：基于对该分析物的同位素分布的一个拟合，例如，使用用于该物质类别的一个一般模型分布(例如，“求平均值”)或一种已鉴定分析物的理论同位素分布。

在一个任选步骤中，该方法可以进一步包括创建这些分析物的一个提取离子色谱图(XIC)，即，用于每个数据组的一个XIC。这优选涉及将来自单种分析物的多种例如所有离子(即，所有这类离子的峰)集合在一起，对所有已鉴定分析物执行这种集合，并且相对保留时间标绘这些所集合的离子。这提供了这些已鉴定分析物的一个XIC，即，包含每种分析物相对于保留时间的峰。该质谱数据中的峰(m/z峰)由于该同一分析物的不同离子应具有与彼此相同的保留时间内的峰。通过将各单种分析物的多种例如所有离子集合在一起，统计数据可以得到改进。单种分析物的不同类型的离子(峰)优选包括所有的电荷状态和同位素。然而，作为将单种分析物的所有离子集合在一起的替代方案，有可能使用少于所有的每种分析物的离子来执行该方法。例如，可以仅将每种分析物的一些离子(即，仅一些峰)集合在一起，而例如忽略最弱离子中的一种或多种。在一些情况下，仅使用单种离子，例如最强离子或基峰可能就足够了。因此，该XIC可以通过相对保留时间标绘代表每种分析物的这类代表性离子来提供。用于色谱峰检测和形成该XIC的方法是本领域中已知的。可以与本发明一起使用的一种优选的这样的方法在EP2322922中进行了描述。当结合使用诸如在EP2322922中所描述的一种方法与一种良好的色谱(即，保留时间)比对方法时，鉴定步骤可以是不必要的。这在其中“基质”经常不能被很好地理解的无标记差异代谢组学或毒理学实验中是有帮助的。

可以对该XIC执行多个任选处理步骤，包括色谱峰形状的平滑化或峰拟合以提高数据质量。

该XIC可以用于针对每个分析物峰确定峰面积(或高度)来表示表观丰度以及保留时间。优选使用峰的质心来确定一个保留时间。质心方法是众所周知的。可以使用其他已知的峰位置确定方法，例如使用一个模型峰或抛物线的峰拟合。

当比较两个或更多个XIC时，如下文所描述，可以发现这些色谱图在形状方面显著不同。如果是这样，它们可能仍然具有形状对应的一个共同部分(例如，在最坏情况下，其中仅三个最高时间点对应)。在这种情况下，为了确定色谱图之间的丰度变化，可能优选仅使用该提取离子色谱图的该“共同的”或“一致的”部分用于计算一个丰度比。

该XIC优选在确定就保留时间而言每种目标分析物的n种相邻分析物之前执行。因此，这n种相邻分析物可以从该XIC确定。然而，有可能通过直接挖掘该质谱数据组来得到这n种相邻肽的个体分析物丰度和保留时间数据，而无需创建一个单独的XIC。

这些已鉴定分析物在两个数据组中被比对，即，源自每种已鉴定分析物的多个峰在每个数据组中被定位并且因属于同一分析物而彼此相关联。

如果任何分析物在一个数据组中具有零丰度，优选在进一步处理中将它忽略。可以例如通过针对每种分析物将该分析物在该第一数据组和第二数据组中的丰度相乘来检测零丰度的存在，这样使得任何零值指示该分析物将不被用于进一步处理(即，不用于丰度校正)。在其他实施例中，有可能使用在一个数据组中具有良好信噪比但在另一个数据组中具有零丰度的一种分析物的丰度。在这类情况下，该分析物的相对丰度可以被称为该第二数据组中的噪声级。

如果该第一数据组和该第二数据组各自包括来自若干重复实验的多个数据组(这是常有的情况)，那么应将这些重复数据组相互比对。也就是说，每种分析物的色谱峰应在这些重复数据组中进行比对。这适宜地是通过选中这些重复数据组中的一个并且和将一个或多个其他重复数据组与所选中的一个进行比对来完成。可替代地，如果针对该第一数据组和该第二数据组各组使用大量的重复数据组，那么可以优选针对每组使用作为所有这些重复实验的平均值的一个平均数据组。这些(优选保留时间比对的)重复组可以加在一起，例如以便形成该第一数据组抑或第二数据组。

如现在更详细地描述的执行基于在一种目标分析物局部的多种相邻分析物的一种局部丰度校正或缩放。

在选择一种分析物即一种已鉴定分析物作为目标分析物的步骤中，优选该步骤包括从该第一质谱数据组中选择一种分析物。在选择一种已鉴定分析物的步骤中，该已鉴定分析物是典型地(但非必须地)在第一数据组和第二数据组中均出现的一种分析物。该目标分析物典型地是需要进行量化的一种分析物。

这些局部化相邻分析物是两个数据组所共有的在保留时间方面与该目标分析物近邻的已鉴定分析物。优选地，使用在跨越该目标分析物的保留时间的一个合适时间间隔(局部时间间隔)内尽可能多的分析物作为相邻分析物，优选包括该目标分析物本身作为这些相邻分析物之一用于丰度比对。优选地，用于限定相邻分析物的这种局部时间间隔是至少与该目标分析物的色谱峰宽度(在峰基处测得)一样宽，并且可以典型地近似为该目标分析物的色谱峰宽度。用于限定相邻分析物的该局部时间间隔可以小于该目标分析物的色谱峰宽度的两倍。这种局部时间间隔是例如最长达0.5分钟、或最长达1分钟或最长达2分钟或最长达3分钟，例如0.5分钟至2分钟的一个时间间隔。然而，如果需要的话，该时间间隔可以比这个更长。该时间间隔跨越该目标分析物的保留时间。优选地，该目标时间的保留时间被定位在用于限定相邻分析物的时间间隔的中间处或中间附近(即，大致在中间处)。这样，典型地，将从该目标分析物的保留时间的任一侧选择相邻分析物，并且该目标分析物的保留时间的任一侧的相邻分析物的数量相似，或理想地相等。

局部化相邻分析物的数量n可以取决于样品中存在的种类的数量。相邻分析物的数量n可以从只有几种如3或5种到7种。相邻分析物的数量n可以是例如多达约15种分析物、或多达约25种、或多达约50种，或多达约100种分析物。因此，相邻分析物的数量n可以是在3至100、或3至50、或3至25，或3至15种这些范围中的一个范围之内。相邻分析物的数量n可以是在3至15、或15至25、或25至50、或50至100，或甚至多于100种这些特定范围中的一个范围之内。然而，n<分析物总数量，并且典型地n<<分析物总数量，即，n远少于分析物总数量，该总数量可能是几百或几千，如在蛋白质组学实验中的那样。该n种相邻分析物组优选包括该目标分析物本身。多达约15种相邻分析物是统计学上有效的同时是在计算上高效的。更多数量的相邻分析物可能不会进一步显著改进统计数据，但总是使用更多数量的分析物会增大计算要求。数量n优选是至少3、或4或5，特别是至少5。因此，一个有效数量n典型地是从5至25，更优选5至15，例如6、7、8、9或10。这些相邻分析物应优选是就保留时间而言大致位于最接近该目标分析物处的那些n种分析物，其中该目标分析物本身优选包括在n中。典型地，这n种相邻分析物中的一些分析物将具有比该目标分析物更长的保留时间而一些具有更短的保留时间，即，这些相邻分析物就保留时间而言典型地将位于该目标分析物的任一侧。相邻分析物组可以跨越例如最长达0.5分钟、或最长达1分钟或最长达2分钟或最长达3分钟的一个保留时间范围。

对于这些相邻分析物，如果任一种具有一个“可疑的”峰形状，例如像一个“尾巴”，那么可以将该可疑部分排除在考虑之外，或者可以在后序处理中放弃将该分析物作为一种相邻分析物一起考虑。

确定该目标分析物的局部校正后丰度的步骤可以涉及确定该目标分析物在该第一数据组和第二数据组中的至少一个中的校正后丰度。该校正后丰度可以是一个校正后绝对丰度或相对丰度，例如在该第一数据组与第二数据组之间的一个校正后丰度比。基于在该第一数据组与第二数据组之间这些相邻分析物的丰度差异来确定对该目标分析物的丰度的一个校正的过程优选包括：基于在该第一数据组与第二数据组之间这些相邻分析物的丰度差异来确定一个或多个校正因子，并且将该一个或多个校正因子应用于该目标分析物的丰度以提供该校正后丰度。

优选是一个或多个缩放因子的该一个或多个校正因子优选可以应用于该第一质谱数据组或第二质谱数据组或两者，以便改进在该第一数据组与第二数据组中这些相邻分析物的表观丰度之间的相关性。也就是说，将该一个或多个校正因子应用于这些相邻分析物的丰度改进了在该第一数据组与第二数据组中相邻分析物的表观丰度之间的相关性。由于实验的性质(例如，在蛋白质组学中)，这些相邻分析物中的大多数在它们的实际丰度方面在该第一数据组与第二数据组之间应是大致不变的，这样使得改进的相关性表示定量数据值的改进。可以使用例如一个线性相关因子来显示在该第一数据组与第二数据组中这些相邻分析物的丰度之间的一种改进的相关性。

基于在该第一数据组与第二数据组之间这些相邻分析物的丰度的差异的该丰度校正因此优选是基于在该第一数据组与第二数据组之间在实际丰度方面大致不变的那些相邻分析物。大多数相邻分析物优选在该第一数据组与第二数据组之间在实际丰度方面大致不变。更优选地，这些相邻分析物中的至少60％、或70％、或80％、或90％(按优选性增加顺序)在该第一数据组与第二数据组之间在实际丰度方面大致不变。

可能是有利的是，当任何分析物在这些数据组之间的丰度比通过一次先前计算已被确定为显著改变时，不将这些分析物作为相邻分析物考虑。相反，已确定的显著改变的相邻分析物，例如强且高可信度的相邻分析物，可以用于校正，不过使用它们的所确定的丰度比。如果“不变”相邻分析物的数量变得太小，那么后者可能是必要的。如果要采用这些类型的“程序”，可能明智的是使用至少一种两遍(two-pass)校正方法。换句话说，执行第一遍该校正方法，其中确定所有丰度比(即，针对这些数据组中已鉴定的所有分析物)并且应用这些校正，接着是使用来自该第一遍的“标志”进行第二遍该方法，其中标志可以是例如将一种分析物排除在考虑之外，或者针对一种分析物使用一个所确定的比率或丰度的一个指示。

该一个或多个校正因子可以应用于在该第一数据组或该第二数据组中任一组或两组中该目标分析物的丰度。基于在该第一数据组与第二数据组之间这些相邻分析物的丰度差异来确定对该目标分析物的丰度的一个校正的过程优选包括以下步骤：从这些相邻分析物确定一个值K_平均形式的一个校正因子，K_平均表示一个比率K的一个集中趋势值，其中对于每种相邻分析物，K为在该第一质谱数据组中它的丰度与在该第二质谱数据组中它的丰度的一个比率；并且基于该丰度比K的集中趋势值K_平均，确定该目标分析物的一个校正后丰度。K_平均的确定在以下进行更详细地描述。K_平均可以是比率K的使用或不使用加权的一个均值或中值。

在这类实施例中，一旦这些相邻分析物已被确定，对于每种相邻分析物，该方法优选包括计算在该第一质谱数据组中它的丰度与在该第二质谱数据组中它的丰度的一个比率K。为了计算每种相邻分析物的丰度比，有可能例如使用在该第一质谱数据组中该分析物的丰度A₁与在该第二质谱数据组中该分析物的丰度A₂的比率K，即，K＝A₁/A₂。在这种情况下，为了计算该目标分析物的一个校正后丰度，将在该第一数据组中该目标分析物的丰度除以平均比率K_平均。可替代地，为了计算该目标分析物的一个校正后丰度，将在该第二数据组中该目标分析物的丰度乘以平均比率K_平均。例如，如果与在该第二数据组中这些相邻分析物的丰度(A₂)相比，在该第一数据组中这些相邻分析物的丰度(A₁)是大约两倍大，从而使得K_平均～2，那么将在该第一数据组中该目标分析物的丰度除以～2的K_平均给出该校正后目标分析物丰度。可替代地，在该第二数据组中的丰度可以通过将它乘以～2的K_平均来校正。

比率K可以是在不同数据组中一种分析物的丰度的一个简单比率，即，不使用加权(也称为加权值为1)。然而，假设更强峰(即，具有良好S/N的那些)具有较小误差，优选地，给予每个比率K一个加权，这是例如通过采用上述丰度比并且将其乘以一个加权因子，或者以其他方式将一个加权因子W与每个比率K相关联而实现的。这种加权因子因此相对于更强峰应优选减小更小强度的峰的影响。一个合适的加权因子可以是在这些数据组之一(例如，该第二(对照)数据组)中该分析物的丰度(例如，A₂)的平方根(sqrt)。因此，该比率K可以是例如，K＝(A₁/A₂).W，其中例如W＝sqrt(A₂)。一个平方根加权例如良好地反映了TOF仪器中的离子统计数据影响，而对于FTMS仪器，使用S形函数的一个加权可以是优选的。因此，一个加权均值可以被确定并且用作K_平均。该加权均值通过以下公式给出：

其中n是如前文的相邻分析物数量，并且W_i是用于第i种分析物的加权，并且K_i是第i种分析物的比率K。

比该均值或一个加权均值更好的是使用用于K_平均的中值或最优选地用于K_平均的一个加权中值，如下面更详细地描述的。

在此，K_平均是指表示这些相邻分析物的K值(丰度比)的集中趋势的一个值。当确定平均K值K_平均时，离群K值对K_平均的作用或影响优选被减小，更优选被排除。因此，本发明优选有效地确定所谓的“不变”相邻分析物(即，在这些数据组之间在实际丰度方面未发生显著变化的相邻分析物)的一个平均值K_平均。对于这些不变分析物，比率K应因此是相似的，并且典型地可能各自相对接近一致，例如，从0.5至2.0。然而，在丰度方面“变化”的分析物将典型地具有显著不同于大部分其他分析物的K值(假设其中大部分分析物不变的典型情况)。这些值可以被认为是该K值组中的离群值。换句话说，K_平均优选是大致来自不变分析物的比率K的一个平均值。因此，有效地忽略离群值的一个平均值K_平均应仅反映在数据组之间丰度的系统变化。

当通过选择中间K值作为K_平均来确定K_平均时，离群值(离群K值)的影响可以被有效且适宜地减小。由于典型地大部分K值(即，来自不变分析物)是相似的并且落在一个相对窄的范围内，并且至多仅少数K值是显著落在该范围之外的，因此，该中值将是来自该相对窄范围内的一个值并且因此良好地表示一种不变分析物在与该目标分析物近似相同的保留时间时的K值(因为它是从相邻分析物确定的)。因此，该中值比算术均值(甚至是如上描述的一个加权算术均值)更优选。可以使用该算术均值，但它是次优选的，因为在它是所有K值的均值的情况下它不能排除离群值的影响。另一种优选的集中趋势K_平均将是温塞均值(Winsorized mean)。

用作K_平均的一种更优选的均值是一个加权中值，但也可以使用一个未加权的或常规的中值并且具有良好的效果。一种用于确定一个加权中值的方法包括对计算出的多个比率K按照它们的大小(即，大小渐增或渐减)进行排序。针对每个K(即，针对每种分析物)计算出一个加权W。已经发现，用于每个K值的优选加权的一个例子是在这些数据组之一中该分析物的丰度的平方根。在所有这些相邻分析物的多个比率K按大小顺序排列并且每个K具有与它相关联的一个加权的情况下，K的加权中值通过具有以下特征的K值给出：用于在这个K值下方的多个K值的加权W的加和大致等于用于在这个K值上方的多个K值的加权W的加和。

加权中值可以例如使用在A.I.·奥尔洛夫：计量经济学课程，出版商：“Examen”(A.I.Orlov:Econometrics course,publisher:"Examen")(俄语)中描述的方法，或如在http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/R.basic/html/ weighted.median.html(英语)中所描述的方法来计算。优选加权是丰度平方根，但可以使用一个对数加权。使用S形函数的加权也起到很好的作用。减小离群值对确定K_平均值的影响的其他方法可以是使用大多数但不是所有的K值来确定平均值K_平均。在减小离群值影响的另一种方法中，例如，仅使用这些K值中的X％，其中X是至多80％、或至多70％、或至多60％、或至多50％。由于这些K值大部分是来自不变分析物，因此限制用于计算平均值K_平均的K值的数量应该会减小在计算中包括来自一个离群值的一个K值的可能性。更优选的将是，使用这样的X％的K值：它们是最接近这些K值的算术均值的多个K值或处于分布的中间的多个K值。

从名义上不变的分析物有效地确定的K_平均值，特别是在取一个中值作为K_平均时，表示这些质谱峰强度(并且因此分析物丰度)在该第一数据组与第二数据组之间已变化的程度。由于该集中趋势K_平均是从在保留时间方面与该目标分析物相邻的不变分析物确定的，因此这提供了在这一局部保留时间在数据组之间的强度和丰度变化的一个量度(并且因此提供了局部丰度缩放)，并且因此比在现有技术中所实现的更精确地表示在数据组之间强度或丰度的波动。因此，值K_平均可以用于校正该目标分析物在它从其中被选择出来的该第一数据组中的丰度，并且校正后丰度可以用于改进该目标分析物的量化。

计算该目标分析物的一个校正后丰度优选包括基于比率K_平均计算在该第一质谱数据组中该目标分析物的丰度相对于在该第二质谱数据组中它的丰度的一个校正后丰度比K_校正。例如，K_校正＝(A₁/A₂)/K_平均。然而，应了解，一个校正后比率可以反方向表达(即，其中该比率反方向(A₂/A₁)表达，即表达为K_校正＝(A₂/A₁)/K_平均。因此，它可以被写成K_校正＝K_目标/K_平均，其中K_目标是在该第一质谱数据组中该目标分析物的丰度(A₁)相对于在该第二质谱数据组中它的丰度(A₂)的比率，表达为A₁/A₂抑或A₂/A₁。这提供了在该第一样品和第二样品(数据组)中该目标分析物的一个校正后相对丰度。该目标分析物的一个绝对校正后丰度或量A_校正可以从A_校正＝A₂·K_校正获得。因此，如果丰度A₂是一个已知绝对值，例如如果该第二样品是具有一个已知参考量的该目标分析物的一个对照样品，那么可以获得该目标分析物的一个校正后绝对量A_校正。

因此，该目标分析物的量化是确定该目标分析物的一个相对量(例如，在该第一分析物组(第一样品)中该目标分析物的量相对于在该第二分析物组(第二样品)中它的量，该相对量可以表达为一个比率K)，或者基于使用该在该第二分析物组(第二或对照样品)中目标分析物的已知绝对量确定该目标分析物的一个绝对量。

目标分析物是从丰度已被确定的那些分析物中选择的。该方法可以针对所需要那么多的目标分析物进行重复。也就是说，该方法典型地将包括重复选择一种目标分析物并且针对一种或多种另外的分析物确定它的丰度校正的步骤。例如，可以选择一种第二目标分析物并确定它的n种相邻分析物，接着进行上述其余步骤来得到该另外的目标分析物的一个校正后丰度。对于不同的目标分析物，可以改变相邻分析物的数量n，但典型地将使用同一n。

目标分析物可以例如在蛋白质组学实验中基于预先确定的标准进行选择，目标分析物可以是从所希望测量的量的一种蛋白质的消化所得的多种肽。目标分析物还可以基于该质谱数据进行选择，例如通过确定所有已鉴定分析物的丰度比K，并且使用选择具有足够高的K值的那些分析物作为其丰度在这些样品之间已发生显著变化的候选分析物的阈值标准。可替代地，反过来每种分析物可以被选择作为一种目标分析物。

在例如针对该第一数据组和该第二数据组中各组产生多个重复数据组(不论是技术性重复数据组还是非技术性重复数据组)的情况(优选是通过改进的统计数据来改进测量结果可靠性的情况)下，每个重复数据组可以用于如根据本发明所述的确定用于校正或比对该目标分析物丰度的一个校正因子。例如，可以将一个数据组中的每个重复数据组与另一数据组中的多个重复数据组成对地进行比较，并且接收多个成对的丰度比对值，即，校正因子如K_平均。对于每种目标分析物，该校正因子(例如，K_平均)因此可以被确定为这些校正因子的一个平均值(例如，中值)。这具有不存在唯一“参考”数据组，而是所有数据组实际上都变成参考的优点。结果是，统计数据更为稳健，并且结果更为准确。

确定如多个重复数据组的多个样品中一种分析物的一个表达因子或比率(表示两个样品之间的丰度差异)可以通过利用一个“参考矩阵”来直接完成。这包括构造所有成对比率K的一个矩阵(即，来自所有的不同样品组合)。计算出该矩阵每一列的几何均值，该几何均值是通过该列乘积的n次方根给出。这些列的几何均值表示在这些样品中该分析物的表达因子。两个样品之间的一个表达比是通过表示其中一个样品的列的几何均值与表示另一个样品的列的几何均值的比率给出。例如，考虑四个样品。因此，一个示例参考矩阵可以这样构造：

列1和列2的几何均值(表达因子)通过给出。

列3和列4的几何均值(表达因子)通过给出。

与样品1比较，样品3的表达因子是通过相应列的几何均值的比率＝√2/√.5＝2给出。

从所确定的该目标分析物的量有可能确定该目标分析物从其衍生的一种次级分析物的相对量或绝对量。例如，在蛋白质组学中，一种蛋白质，典型地一种蛋白质混合物被消化并且所得的多种肽在LC/MS实验中被洗脱。这些肽因此是本方法的目标分析物，但所确定的该肽(分析物)的量是指示它从其衍生的蛋白质(次级分析物)的量。优选地，在这类情况下，将从一种特定的次级分析物(例如，蛋白质)衍生的所有分析物(例如，肽)集合在一起并且在该第一数据组和第二数据组中比较它们的校正后丰度。

可以利用一个参考矩阵来确定蛋白表达因子。一个矩阵是使用多个元素：a_i,j构造而成，a_i,j是在样品i与j之间测得的蛋白质丰度的比率。对于一种特定蛋白质，蛋白质丰度被估算为在两个样品中所发现的肽的丰度的一个中值。因此，它正比于在第i个样品中该蛋白质的“真实”丰度，准确度在误差δ_i,j内。蛋白质丰度比因此可以取为它的肽丰度的中值。这些元素像这样被插入到一个矩阵中：

可以从以下这些列中形成蛋白表达因子的一个矢量：

一个表达因子或比表示一种分析物的丰度的变化。在另一个方面，本发明进一步提供了使用本发明的方法来鉴定在多个样品或样品组之间，即在两个样品或两个样品组之间(其中一个样品或一个样品组可以是对照组而另一个样品或另一个样品组是案例组)在丰度方面发生显著改变的分析物。以这种方式鉴定的分析物被该方法进一步报告为具有潜在进一步关注或意义的分析物。所报告的这些分析物可以是已知的(已鉴定的)或未知的(未鉴定的)。于是研究员可以例如通过查看这些分析物是否具有生物或医学意义而进一步利用这些分析物。以这种方式分析的样品可以是血液(人的或非人的)(如在下面实例中所示的)，或任何其他生物样品，如组织(最有可能以一种已知方式溶解)、尿液、植物提取物等。

因此，本发明提供了一种根据本发明校正种肽的丰度的方法，并且该方法包括：确定在两个或更多个样品之间目标分析物的变化；并且报告显示显著变化的分析物。

该显著变化可以包括高于一个阈值，例如在某个丰度比窗口之外的一个变化。该显著变化可以包括基于用于限定的确定性的许多统计学检验之一表明是显著的(例如，高于某个概率阈值)的变化。这类检验可以包括t-检验、ANOVA等。该变化可以包括该分析物在一个样品或一个样品组中的出现以及它在另一个样品或另一个样品组中的缺失。典型地，这将要求它在其中出现的样品或样品组中的一个良好的信噪比(S/N)，或者该分析物在一组的多个技术性重复数据中出现并且在另一组的多个技术性重复数据中不出现。

在具体实施方式中，该方法可以进一步包括从所确定的分析物变化确定一个生物状态。例如，可能已知的是，一个样品或样品组是来自一个或多个健康样本，而另一个样品或样品组是来自一个或多个患病样本。在另一种情况下，可能已知的是，一个样品或样品组是来自一个或多个男性样本，而另一个样品或样品组是来自一个或多个女性样本。因此，这些所确定的分析物变化可以用于确定一个给定样品的生物状态(例如，健康或患病；男性或女性等)。该方法还可以因此包括根据这些所确定的变化评估一个疾病状态。该方法还可以包括发现一种疾病的一个标志物(如随疾病状态变化的一种分析物)。

优选的是执行一个或多个质量控制测量以确保该方法的质量控制。例如，可以在该LC/MS实验的保留时间内绘制平均比率K_平均。分布应是相对连续的，在K_平均值中没有大的突然跳跃。在另一种质量控制测量中，可以确定这些分析物在两个技术性重复品之间的丰度比率并且可以绘制出这些丰度比率的分布，该分布在已使用本发明的方法校正数据后应当更窄。类似地，这些分析物在两个技术性重复品之间的丰度的一个相关性曲线图在通过本发明的方法进行丰度校正后应显示一个更大的相关性。

一种另外的可能方法包括针对每种蛋白质执行T-检验。这种T检验质量控制方法还可以应用于定量地评估本发明的方法的变化形式。

该方法优选包括输出例如该分析物的量，和/或从该分析物的量导出的一种次级分析物的量这类结果的一个步骤。如果需要的话，可以输出在该方法的任何步骤中所采集的、处理的或生成的任何数据。输出意思是输出至一种资源，即，有形介质。输出可以是输出至如一种硬拷贝形式(如纸)的资源，或软拷贝形式的资源，如显示在一个视频显示器上。输出可以是输出至如一种计算机可读数据存储介质的资源。

可以使用任何已知合适类型的质谱仪来获得质谱数据，但优选使用能够进行高分辨质谱分析和准确质量测量的一种质谱仪。在高分辨率质谱分析的情况下，分析物的精确质量可以用于在这些不同数据组之间比对这些分析物。优选实例包括：轨道静电阱质谱仪(例如，来自赛默飞世尔的一种Orbitrap^TM质谱仪)、飞行时间(TOF)质谱仪，优选多反射TOF(MR-TOF)、傅里叶变换质谱仪(FT-MS)，例如一种FT-ICR质谱仪、离子阱质谱仪等。质谱仪可以采用任何合适类型的离子源，特别是与液相色谱法兼容的一种离子源，例如像电喷雾离子化(ESI)，包括纳米喷雾离子化等。

一种色谱装置被连接到该质谱仪上(例如，LC/MS)，即这样使得来自该色谱装置的洗脱液中的至少一些进入该质谱仪中以用于质谱数据的测量。

对该数据执行的多个数据处理步骤优选是在一个计算机上执行。同一计算机可以另外控制该质谱仪。这些数据处理步骤可以使用一种数据处理包来实施，该数据处理包例如像Microsoft Excel^TM，或者更优选地，同样可以实施该整个方法的专用软件。

在一个另外的方面，本发明提供了一种具有多个程序代码元素的计算机程序，这些程序代码元素在被执行时实施前面所描述的该方法。在再一个方面，本发明提供了一种携载所述程序的计算机可读介质。

该计算机程序优选包括多个程序代码元素(“模块”)，这些程序代码元素使得一个计算机系统能够实施与一个模块相关联的某一动作。该方法的每个步骤可以通过一个或多个模块来实施。该程序优选包括：用于确定每个数据组中至少一些分析物的表观丰度的一个模块；用于选择一种分析物作为目标分析物并且确定就保留时间而言该目标分析物的多种相邻分析物的一个模块；用于基于在该第一数据组与第二数据组之间这些相邻分析物的表观丰度的差异来确定该目标分析物的一个校正后丰度的一个模块；以及用于基于该目标分析物的校正后丰度来量化该目标分析物的一个模块。

该计算机程序和该计算机可读介质优选形成一个计算机系统的一部分，该程序使得该计算机系统可操作来执行本发明的方法，并且该计算机系统包括用于执行程序代码并执行数据处理的至少一个计算机处理器。处理后数据可以写入到一个存储系统(例如，计算机存储器)。该计算机系统优选包括例如用于接收来自该质谱仪的数据组的一个输入接口。该计算机系统优选包括例如用于输出结果的一个输出接口。该计算机系统典型地具有一个人用户界面，以使得一个用户能够改变或设置该方法所使用的某些参数。

实施例说明

为了进一步理解本发明，现在将通过示例的方式参照附图详细描述多个实施例，这些实施例仅用于说明而不意在并且不限制本发明的范围。

附图列表

图1示出一个案例色谱图(a)、一个对照色谱图(b)以及已根据本发明进行校正的一个校正后色谱图(c)的示意性部分色谱图。

图2示出在对两个技术性重复品的一次LC/MS运行内的一个校正系数分布。

图3示出校正前和校正后的一个肽丰度比分布。

图4示出在无校正情况下两个技术性重复品之间的一个相关性曲线图。

图5示出在根据本发明进行校正后两个技术性重复品之间的一个相关性曲线图。

图6示出在男性血液样品与女性血液样品之间触珠蛋白相关蛋白质(HPR)的相对含量的校正前数据，该数据可以用于评估一种生物状态。

图7示出根据本发明的丰度校正对图6中的数据的影响。

图8示出针对CM(左手)组和M1(右手)组各组的两个技术性重复品使用轨道阱MS分析的总离子流(TIC)色谱图。

图9示出来自一对技术性重复品(CM-1，CM-2)的代表性信号的多个代表性提取离子色谱图(XIC)(在一个放大的保留时间区域中)。

图10示出(上图)每种肽的丰度比(CM-1/CM-2)，这些丰度比按渐增顺序排序，如图10中所示；以及(下图)它们的相关联的加权。

图11示出在校正时这些丰度比(CM-1/CM-2)的中值的变化。

图12示出一种选定蛋白质的校正后数据组。

图13示出与图12相对应的未校正数据。

在一个实施例中，两个LC/MS质谱数据组是以一种常规方式分别从一个第一样品(以下称为案例样品)和一个第二样品(以下称为对照样品)获得。因此，这些数据组以下分别称为一个案例数据组和一个对照数据组。该案例数据组和该对照数据组各自可以包括来自两个或更多个技术性重复品的数据组。这两个样品均是无标记蛋白质样品的消化产物，这些无标记蛋白质样品具有依据该实验的本质大致相同的定性蛋白质含量，但这些蛋白质中的少量蛋白质具有不同的定量含量。典型地，这些蛋白质中的小于5％、或小于2％、或小于1％、或小于0.1％、或者甚至小于0.01％在这些样品之间具有一个定量差异。换句话说，这些蛋白质中的大多数在量或丰度方面在案例样品与对照样品之间不变，这反映了在蛋白质组学领域中的许多实际例子。目的是为了量化分析物的相对量，该分析物在这个实例中是存在于案例样品和对照样品中的来自蛋白质消化的肽。从这些肽的相对量，可以导出在案例样品和对照样品中这些蛋白质的相对量。

应了解，除肽之外，该方法也适用于其他分析物。换句话说，通过在以下实施例中用其他合适类型的分析物代替这些肽，加上必要的修改，该方法可以是适用的。

分析物鉴定和数据组比对

首先，这两个质谱(MS)数据组都被用于鉴定这些肽的目的。使用两个数据组，而不是一组，可提高肽鉴定的可靠性。该质谱数据包括MS/MS数据，并且如本领域中所已知的使用该MS/MS数据执行一种数据库搜索以便鉴定这些肽。然后可以将该MS数据中的峰分配给已被鉴定出的特定肽。

一旦这些肽已被鉴定出，然后就针对每个数据组确定肽丰度。在这个实施例中，在每个数据组中，对于每种已鉴定的肽将MS数据中来自一种已鉴定肽的离子的所有峰集合在一起并且确定集合在一起的这些峰下方的面积。对于某些类型的MS仪器，例如FTMS，可以通过峰高度来确定丰度。应了解，来自相同肽的离子的不同峰可能是由于不同的电荷状态和不同的同位素。因此，所确定的面积或高度表示该肽在相应数据组中的丰度。还应了解，在其他实施例中，有可能使用少于所有的来自每种肽的离子的峰来表示该肽丰度。例如，有可能仅使用每种肽的基峰或最强峰，或每种肽的指定多个峰。

然后，可以对案例样品和对照样品的肽数据进行比对。例如，可以编写一个表，在该表中，将肽身份相对于它在案例数据组和对照数据组中的丰度(分别为A_案例和A_对照)制表。因此，这样一个表的格式可以看起来像下表1。这些肽可以按任何所希望的顺序来排序，例如，按照序列、修饰、保留时间等来排序。按照保留时间对这些肽进行排序对后面的处理有帮助。

任选地，这种方法可以用于为每个数据组绘制一个提取离子色谱图(XIC)，在该色谱图中，这些肽被按照它们的保留时间排列，并且从该XIC确定这些肽峰下方的面积以提供该肽丰度。

在一种类型的情况下，在任何数据组中具有零丰度的任何肽都被除去不进行进一步处理。可以鉴定并标记这类肽以将其除去不进行进一步处理，例如通过在前面提及的表1中创建用于乘积A_案例·A_对照的一个列，其中这一列中的任何零值充当忽略这种肽的一个标记。

在另一种类型的情况下，在任何数据组中具有零丰度的任何肽都被除去不进行进一步处理，除非该肽在另一数据组中具有丰度并带有一个良好的信噪比(S/N)，在这种情况下它被保留并且比率K(见下文)被设置为A_案例/噪声_对照。这是因为有时一个零丰度实际上可能是重要的信息。

因此，在任何数据组中具有零丰度的肽可以被保留下来，并且比率K(见下文)被设置为A_案例/噪声_对照和/或标记为丢失等。

表1.

肽身份(ID)	丰度，A_案例	丰度，A_对照	A_案例.A_对照
				肽#1
肽#2

肽#3
				等

全局丰度缩放

任选地使这些肽的丰度经受一种所谓的全局缩放或归一化。这包括调整一个或两个数据组中的丰度，这样使得每个数据组的总肽丰度是相同的。

这种全局缩放可以任选更早地(例如在丰度确定之前)，通过缩放一个或两个MS数据组以使得每个数据组的积分总离子流(TIC)变得相等来施行。

在后续处理中，(在执行全局缩放的地方)使用这些全局缩放的丰度。

丰度比

然后，可以计算每种肽的案例和对照丰度的相对丰度比K(A_案例/A_对照)。因此，优选在该表中包括另外一列，如表2中所示。任选地，对比率K进行加权，优选将它乘以一个加权因子，例如像A_对照的平方根(sqrt)。优选在后续处理中基于K使用一个加权K值。

表2.

每种分析物丰度的局部缩放

为了提供对这些丰度的一种改进的校正，本发明提供了对每种定量相关肽(目标肽)的丰度的一种缩放，这种缩放考虑到丰度中的局部时间波动。

对于每种目标肽，确定在保留时间内的一个相邻肽组，典型地是具有在跨越该目标肽的保留时间，特别是跨越该目标肽的峰宽度的一个指定局部时间间隔内的保留时间的那些肽。该时间间隔典型地近似该目标肽的色谱峰宽度。该时间间隔可以是最长达约2分钟宽，但在一些情况下，可能仅最长达约1分钟宽。典型地这样选择时间间隔以使得该目标肽的保留时间在该时间间隔的中心处。该组典型地包括至少5种相邻肽，并且可以包括多达100种肽。更优选地，在该组中心处选择该目标肽，即，在任一侧上具有大致相等数量的相邻肽。这些肽的保留时间是例如通过确定质心，或通过本领域中已知的其他方法从这些肽峰获得。如果这些表包含按照保留时间比对的肽，那么该步骤会变得更容易。通过选择在保留时间方面相近的相邻肽，由此确保它们与该目标肽或多或少同时洗脱，可以使用在数据组之间它们的丰度差异来作出相对于该目标分析物局部化的一个丰度校正。

应了解，该方法可以这样执行，借此所描述的这些表仅需包含这些目标肽和所确定的它们的相邻肽。例如，只有这些目标肽和所确定的它们的相邻肽，才需要计算它们的丰度比。然而，在实践中，计算所有分析物的丰度比可能是最简单的。

该步骤的下一部分涉及使用在该案例与对照之间在量或丰度方面不变的那些相邻肽(不变肽)，从而意识到大部分肽实际上是不变的。作为这些肽中的大部分，不变肽典型地将各自表现出一个相似的相对丰度比K。任何变化的肽或乱真测量结果将典型地显示为离群K值。已经发现一种可靠的丰度校正方法，该方法通过取大致来自不变肽的比率K的一个集中趋势值K_平均而实现丰度校正。可以按若干种不同的方式取得值K_平均。例如，K_平均可以是来自不变肽(即，彼此具有相似K值的那些肽)的K值的一个算术均值，并且忽略了具有离群K值的肽。一种特别优选且适宜的方法是使用比率K的一个中值作为K_平均，这确保该中值近乎是这些不变肽的均值而无需像这样鉴定离群值，并且任何离群值的影响被有效排除而不会影响K_平均的值。

校正案例/对照比

在确定K_平均后，可以根据K_校正＝(A_案例/A_对照)/K_平均来校正案例/对照丰度比，其中K_校正是校正后案例/对照丰度比。

该目标肽在该案例样品中的一个校正后丰度A_案例校正可以从A_案例校正＝A_对照·K_校正＝A_案例/K_平均获得。如果丰度A_对照是一个已知绝对值，那么可以获得该目标分析物的一个校正后绝对量。

该目标肽的量化被用于量化该目标肽从其衍生的蛋白质，典型地连同量化从这种蛋白质衍生的其他目标肽。

该方法可以针对所需要那么多的其他目标肽进行重复。

目标肽的已校正过的丰度可以用于后续的目标肽丰度校正计算中。

该方法的操作原理示意性地示出于图1中。在图1(a)中示意性地示出一个案例数据组的一个色谱图(XIC)的一部分(运行1)，并且在图1(b)中示出一个对照数据组的一个色谱图的对应部分(运行2)。这些肽峰是已在该案例组与对照组之间比对的在保留时间方面相邻的峰。在图1(b)中示出在约莫该保留时间时的平均ESI流水平(仪器响应)，其中对照色谱图的平均仪器响应(虚线2)比案例色谱图的平均仪器响应(实线4)低约20％。对于这个示意性实例，没有描述导致案例组与对照组之间信号变化的其他因素，但本发明的方法的一个优点是，信号变化的所有来源都被考虑在内并且得到校正。在图1(a)中，示出若干肽峰的案例丰度：a₁、b₁以及c₁。在图1(b)中，示出这些案例丰度(即，来自色谱图(a))以便与对应的对照丰度：a₂、b₂以及c₂进行比较。示出一种目标分析物i，该目标分析物具有在运行1中所观测的案例丰度i₁，并且具有在运行2中所观测的对照丰度i₂。由于在该案例组和在该对照组中肽身份和丰度大部分都相同，因此这些色谱图中的峰大多数应是不变的，除了低20％的仪器响应之外。在示意性图1色谱图中，在该目标分析物的一个给定保留时间窗口+/-ΔRT内，局部化相邻峰a、b以及c是不变的(即，丰度变化极小)。在实践时，在蛋白质组学中绝大多数峰将是不变的。仅使用这些不变峰，就获得案例组与对照组之间这些峰丰度的比率K_平均(A_案例/A_对照)，在这种情况下，K_平均是大约1.0/0.8或1.25。这从这些相邻峰提供了一个校正因子f≈a₁/a₂≈b₁/b₂≈c₁/c₂。在图1(c)中示出用于该目标分析物峰i的校正后色谱图(连续线)i_校正，其中该对照峰已通过缩放或归一化该丰度而得到校正，该缩放或归一化是通过以下方式实现的：按为了产生在该案例组和对照组中这些不变峰的丰度的一个拟合所要求的量来调整该丰度，即，使用平均丰度比K_平均(校正因子f)。因此，该目标分析物在运行2对运行1中的“真实”相对丰度＝i_校正/i₁＝(i₂*f)/i₁。基于这种局部化丰度归一化的该目标肽的校正后丰度可以用来确定一个更准确的相对于该对照色谱图的丰度变化。

质量控制

优选的是在该方法中包括检查该方法是否改进该丰度比对，即，质量控制。存在以下若干种执行质量控制的方式：

1)通过监测校正因子如K_平均在LC/MS运行(保留时间，RT)上的分布。该分布应是仅具有小的突然“跳跃”的一条连续线(如图2中所示)；和/或

2)通过比较同一样品的两个技术性重复品，肽丰度比的分布在丰度校正后应变得更窄(如图3中所示，其中左手分布(y轴＝频率；x轴＝肽比率)是校正前的，并且右手分布是校正后的)；和/或

3)通过计算案例丰度与对照丰度之间的线性相关因子R²。这个相关性因子应在丰度比对时增大。增大的在两个技术性重复品之间的相关性的一个实例示出于图4和图5中。图4是在应用本发明的校正方法前的肽丰度的一个相关性曲线图(x轴，样品1；y轴，样品2)，并且图5是在应用本发明的方法后的相同样品的一个相关性曲线图。这两个样品是技术性重复品，即，它们是同一样品的多个部分，并且因此对于一个完美实验，所预期的相关性R²尽可能地接近1.0。

4)通过T检验质量控制方法来定量地评估本发明的方法的丰度比对。

实例

以下实例使用血浆样品，但应了解样品可以是任何生物样品。

血浆

使用来自赛默飞世尔的一种Orbitrap^TM Velos MS系统来从8个血浆样品(无标记的)采集LC/MS数据。该系统被设置为具有以120分钟梯度操作的Proxeon^TM纳米-LC。这8个样品中的每一个均是从25名个体汇集的。然后，每个样品被消化3次，并且然后每个消化物在该LC/MS系统中运行两次(即，2次技术性重复)。因此，这8个样品每个都被运行6次。

然后，在使用本发明的方法下对所采集的质谱数据进行评价(这类结果称为“校正前”)和在不使用本发明的方法下对所采集的质谱数据进行评价(这类结果称为“校正后”)。数据采集和处理在以下详细描述。

图4和图5分别示出在校正前和校正后两个技术性重复品之间的相关性。这两个技术性重复品校正后的数据清楚地显示出一个高得多的相关性。事实上，已发现，校正后数据与来自SILAC实验的数据一样好或者几乎一样好。

图6示出在男性血液样品与女性血液样品之间触珠蛋白相关蛋白质(HPR)的相对含量的校正前数据，并且图7示出在根据本发明的丰度校正之后的数据。y轴表示针对x轴上的不同运行绘制的任意单位的肽丰度。参照图6，该HPR含量是由通过左手4组(每组运行6次)和右手4组(每组运行6次)所示的4种肽来表示，其中左手4组是来自男性样品并且右手4组是来自女性样品，该女性样品具有大体较低的HPR含量。这些组内的平均变化因数(CV)在图6中所示的校正前数据中是22％。对应的校正后数据在图7中示出，在图7中可以明显看出数据质量的改善，并且这些组内的平均CV是7％。

数据采集和处理

现在详细描述在该实例中的数据采集及其处理。

以上所提及的8个血液样品各自分别表示男性患者和女性患者的不同程度的阿尔茨海默病，如下表3中所示：

表3

	男性样品	女性样品
			健康	CM	CF
稳定记忆障碍	M1	SF
			渐进性记忆障碍	M2	F2
确诊的阿尔茨海默病	M3	F3

出于说明的目的，如使用轨道阱MS针对CM组和M1组各组的两个技术性重复品所分析的色谱图的总离子流(TIC)示出于图8中。左上方TIC是重复品CM-1，右上方是重复品M1-1，左下方是重复品CM-2，并且右下方是重复品M1-2。用于每个样品CM和M1的后缀1和2指代每个情况下的两个技术性重复品，即，同一样品的再次测量结果。从这些TIC的相似性可以看出，大多数肽在每种样品中是相同的。

(i)肽鉴定和保留时间比对

使用一种Mascot^TM数据库搜索从所采集的MS/MS数据鉴定肽。可以使用如Sequest^TM的其他程序。对于这个步骤，所有的数据，即来自上表中的所有8个样品的数据，被合并并且发送以用于使用Mascot进行MS/MS鉴定。这鉴定出从约150种蛋白质衍的约1200种肽。总体而言，该方法因此优选进一步包括一个鉴定这些分析物的步骤。分析物的鉴定可以包括为每种分析物分配一种组成，例如，一种元素组成，或者分配一种肽、肽序列或肽/蛋白质ID。该鉴定可以包括通过RT(保留时间)和/或RO(保留顺序)以及精确质量来查找这些分析物。该鉴定分析物的步骤优选是在确定分析物表观丰度之前执行。

在下一步骤中，对这些不同样品的保留时间进行比对。本领域的技术人员应了解，可以使用不同方法来比对保留时间。在这个实例中使用下面这种方法。总体而言，该方法因此优选进一步包括一个比对由所获得的第一质谱数据组和所获得的第二质谱数据组构成的质量色谱图的步骤，该步骤更优选在实施该丰度比对过程前，例如，在确定分析物表观丰度和/或确定一个校正后丰度之前进行。

该保留时间比对被用于使该色谱图中的多个信号与一个确定的保留时间顺序相关联。因此，集中于注解这些色谱图，而不是输出一个校正后色谱图。该比对是如下进行的一个两阶段过程。

保留时间比对，阶段1：

建立洗脱顺序。

在一个第一阶段中，确定一个平均洗脱顺序。总体而言，这优选是从假定是一个相似色谱图“家族”(使用相同方法对相同样品运行的多个色谱图(技术性重复品)，或多个相似色谱图(例如，样品与对照；组A vs.相关组B；处理样品vs.未处理样品；等))的多个色谱图来完成，因为这些色谱图预期共享大多数信号(在代谢组学实验的情况下，典型地被称为“基质”)。对于这样的一个相似色谱图“家族”，合乎理想地是使用所有色谱图基于多种相似性如“等同物质”或“洗脱时间、精确质量以及同位素模式的一致性”来建立一个洗脱顺序。在常规分析情况下，洗脱顺序当然可以在总样品的一个子集上建立，其中这种洗脱顺序例如被应用于未来相关样品的测量。

用于分析的这些色谱图数据组可以简单地是如由该仪器递送的数据，或如使用EP2322922中所描述的一种方法创建的事件列表，或从该色谱图中提取的简单峰列表文件。峰列表文件的实例是Mascot^TM输入文件(.mgf)或一个Sequest^TM输入文件集合(.dta)，这两者实质上将一个扫描数量(或保留时间)、一个母体质量以及一个碎片列表组合在一个数据组中，这些数据组集体为一个质量色谱图的表示。如果已对这些信号完成了某种形式的鉴定(例如，肽鉴定或元素组成确定)，如这种情况这样，那么这将有助于本过程。

阶段1的步骤：

在该色谱数据组家族中，在每个色谱图中，“实体”被鉴定为表示一种特定物质，例如肽。如果要为一个实体选择一个谱：那么采用该色谱图中的最佳或最大实例。不然一个“实体”将通过一个或多个精确质量和一个色谱(即，时间或扫描数量)位置来鉴定。就肽而言，一种简单算法依赖于如提交给Mascot^TM的MS/MS谱，并且如果一种前体质量不止一次被选中，那么多个MS/MS谱可能属于同一实体。

对于每个“实体”，在该色谱图家族中的多个拷贝上的实体依据相似性而被关联。在使用Mascot^TM输入的情况下，如这种情况这样，这种相似性判断可以是基于该实体家族的成员之间共享的一个(最小)数量的匹配峰。当使用“事件处理”时，可以例如依据多个实体共享准确质量和同位素模式(连同它们处于一个合理的保留顺序窗口内)而建立一个实体家族。

从每个实体家族选择最佳代表，其可以是例如最强实体。

这些“最佳代表”整体形成在这种情况下代表多种肽的按洗脱顺序粗略排序的多个实体的一个新的色谱集合。

下一个步骤是如下确定一个平均洗脱顺序。

对于该最佳代表集合中的每个实体，按以下方式计算出一个“平衡值”EV。

对于每个色谱数据组“i”：

a)鉴定“当前”实体最大化所处的位置(即，鉴定同一实体的最佳谱作为该集合的当前实体)。如果这个色谱数据组中不存在这个实体，那么跳过这个步骤的其余步骤并且将EV值设定为EV[i]＝0。

b)从这个位置(谱指数，其与保留时间相关)，对在该当前色谱图中比该当前实体出现得早(即，处于一个更低的谱指数或保留时间)，但在该集合中比该当前实体出现得晚(即，处于一个更高的谱指数)的所有实体进行计数。这个计数在此被称为NEV。

c)从同一位置对在该当前色谱图中比该当前实体出现得晚，但在该集合中比该当前实体出现得早的所有实体进行计数。这个计数在此被称为PEV。

因此，如果一个实体在该当前色谱图和该集合两者中均出现在该当前位置之前，那么它不会影响计数NEV或PEV。

d)确定EV[i]＝NEV–PEV

然后，EV＝所有EV[i]的总和。

这样做的结果是，该集合中的每个实体都被注解有用于它在该集合中的当前位置的一个EV值。该集合的“最佳”或“平均”排序(并且因此最佳的或平均的或“一致的”洗脱时间顺序)是使所有EV的总和最小化的排序。

使所有EV的总和最小化的一种简单方式如下。

在递增的指数位置中，对于该集合中的每一对相邻肽，可以对它就以下方面进行检验：当它们交换位置时，它们的EV的总和是否减小(通过使用以上步骤a)至d)确定EV来确定它们的新位置)。如果它们的EV总和减小，那么应当交换它们的位置，否则应当保持它们的顺序。这个过程可以重复，直到不需进一步的交换。

阶段1的输出是按照它们在一个色谱实验中被预期洗脱的顺序、类似于用作阶段1的输入的那些那样设置的多个实体(其可以具有或不具有标识符)的一个列表。这消除了对实际保留时间的依赖，这意味着不必将一个色谱图“拉伸”或“压缩”或“时间移位”，因为仅使用这些实体的按照它们最可能相继出现的顺序的枚举用于比较。

保留时间比对，阶段2：

接着，在某时对单个色谱图进行分析，该色谱图可以是或可以不是阶段1的输入的一个色谱图。

在以下步骤中确定一个“窗口”，该窗口由一个“时间”窗口和一个“质量”窗口组成。这可以是一个质量和保留时间窗口的用户输入。“时间”窗口可以是从阶段1或该当前数据确定的一个平均色谱峰宽度，或者可以是所使用的色谱方法说明的一部分，或者可以简单地是一定数量的指数。“质量”窗口可以是从该用户获得的一个质量准确度窗口、一个仪器说明或例如阶段1的数据的变化。这个“时间”或“指数”窗口在此被称为RO，并且该“质量”窗口在此被称为dm。

对于阶段1的输出上的每个项目：

i)在该色谱图中找到在以上定义的窗口内与它匹配的一个特征。特征是指用于一种特定物质的离子信号的总和。它包括在全部保留时间内属于一种特定物质的电荷和同位素分布。特征是用于定量的总和。与在阶段1中一样，仅考虑一个色谱图内最强的特征(即，最接近一个色谱峰的顶点的那个)。强度较小的那些被简单地忽略。

ii)计算表征每个特征的一个距离值，这每个特征如此按以下方式寻找：

a.鉴定相对于当前实体以错误顺序出现的所有实体，即，这些实体在该色谱图中出现在该当前特征之前并且在该阶段1输出中出现它之后，或者在该色谱图中出现在该当前特征之后并且在该阶段1输出中出现在它之前。因此，该过程与上面的NEV和PEV确定中的过程相同。

b.对于以错误顺序出现的所有这些鉴定出的实体，确定离该当前实体的距离。

c.计算这些距离的总和，该总和在此称为DV。注意：这个距离能够以多个指数以及以保留时间表达。

iii)确定中值DV。将具有低于该中值的DV的特征视为“找到”而另一半视为“未找到”。这意味着这些特征中的50％将在第一次运行中被正确地鉴定出来。如果预料到一个更差的比率，那么应在第一次运行中保留更少数量的特征。

如果有必要，调整保留时间/指数标度来对所找到的特征与阶段1输出进行比对。

接着将该“时间”(或指数)窗口减小至四分之一(即，设置RO'＝RO/4)。然后，仅在所找到特征周围的此窗口内(即，在该总时基的约50％内)再次搜索在该减小的“时间窗口”RO'以及如在该第一步骤中所定义的完整“质量窗口”dm内匹配的特征。再次确定DV，但这次仅丢弃最差的25％(如果早先时候已丢弃更多的话，那么可以调整这一比例)。然后在RO/2内并且使用一个RO/2搜索窗口针对其余特征对实体对进行再次运行。最后，执行使用该完整窗口RO的一次运行。这种方法的目的是首先获得更好的匹配，并且直到那时才允许进一步的偏差。

现在处于离该平均保留顺序一个可接受距离内的所有特征均被鉴定出来。在此之后，在该阶段1输出上以及在用于阶段2的色谱图中可能存在未分配的项目。

提取离子色谱图(XIC)

在鉴定这些肽后，生成多个提取离子色谱图(XIC)，其中来自单种肽的所有离子都被集合在一起。图9示出来自一对技术性重复品(CM-1，CM-2)的代表性信号的多个代表性XIC(在一个放大的保留时间区域中)。左图示出具有多种同位素的一种单一电荷状态的XIC，其中在每个XIC下方还示出代表性质谱，并且右图示出同一分析物的不同电荷状态的集合数据。

(ii)局部丰度校正

生成包含所有这些鉴定出的肽(即，从所有这些不同运行所发现的那些)的一个表。下表4示出这样一个表的一部分。

为了依次校正每种目标肽的丰度，首先选中该目标肽(在表4中，为了说明，肽HRLEDMEQALSPSVFK以粗体突出显示为该目标)。接着选中这种目标肽的相邻肽。表4示出在该目标肽的两侧上大约1分钟的一个时间窗口(大约2分钟宽的时间窗口)内洗脱的那些肽。这些肽被视为相邻肽。

从这些相邻肽，然后使用如下一个一般程序确定用于该目标肽的丰度校正因子K_平均。

a)针对每种相邻肽，包括该目标肽，确定两个样品之间的丰度比K。在表4中，为了说明，给出了样品CM-1的原始(即，未校正的)丰度(列4)和样品CM-2的原始丰度(列5)。针对每种肽计算出这些丰度的比(CM-1/CM-2)，并且示出于列6中。然后，将这些原始丰度比K以递增顺序排序，如图10(上图)中所示。可以看出，在这种情况下，这些比率的范围是从约0.68至1.31，但大多数比率落在0.8与1.0之间，其中在任一端处有几个离群值。此时，已有可能的是，在一个替代实施例中继续确定该有序比率分布的简单中值。然而，在这个优选实例中如下确定加权的中值。使用该“加权的”中值的原因是，一个更强离子通常具有更高的可信任度，因此所希望的是使它比一个强度更小的离子对该中值影响更大。

b)这些相邻肽的比率K中的每个均与一个加权相关联，加权值包含在表4的列7中。该加权值被计算为sqrt(CM-2丰度)，即，列5中的丰度值的平方根。这种计算的结果也示出于图10(上图)中，该图示出已排序的比率。用于每种肽的标志物的大小指示与它相关联的加权。

c)该加权列表被视为限定在0.5与N+0.5(其中N是比率数量)之间的一个阶梯函数w(x)，其中这些加权值是以它们相关联的比率K的顺序来排序(见图10(下图))。

d)该加权中值m被计算为具有以下特征的(实数，而非整数)指数，对于该指数，m之下的w(x)的积分(在该图中的“左”侧)等于m之上的积分(在“右”侧)，即，所得加权中值被转换成表4列8中的一个比率K_平均(“校正因子”)，该比率是与该加权中值相关联的K比率。因此，在所有相邻肽的比率K按大小顺序排列并且每个K具有与其相关联的一个加权的情况下，K的加权中值由具有以下特征的K值给出：对于该K值，小于该K值的多个K值的加权的总和等于大于这个K值的多个K值的加权的总和。

e)然后，使用该校正因子K_平均来计算这些强度之一的一个更新后的值(在表4中，CM-2，见列9)，这样使得可以计算出一个校正后比率(在表4中，CM-2，见列10和列11)。如可以看出，这使比率CM-1/CM-2从0.916(列6)变为1.042。鉴于CM-1和CM-2是同一样品的再次测量结果(因此理想地具有一个比率1)，这直接就可以被评估为一种显著改进。

(iii)计算蛋白质比率

以一种类似的方式，确定和校正在所有样品中所有已鉴定肽的比率。然后，使用这些肽比率来如下计算蛋白质比率。

通过举例的方式，与以上所分析的肽(HRLEDMEQALSPSVFK)相关联的蛋白质示出于表5中。为了与一种现有技术情况进行比较，已增加给出基于总离子流积分而“全局归一化”后的丰度的一个额外列(列6)，连同所得到的归一化的比率(列9)。为了该全局归一化，CM-2的所有丰度值均被乘以相同的全局归一化因子0.72477，这使得CM-1的所有所测得丰度的总和等于CM-2的所有所测得丰度的总和。与使用本发明的方法所确定的校正后比率(列10)相比，所得到的全局归一化比率显然是在对以上所分析的肽(HRLEDMEQALSPSVFK)的丰度比对方面的一种恶化。

来自该蛋白质的这些肽的丰度比被用来计算一个中值(如前面一样，例如基于这些肽的一定置信水平，可以使用一个加权中值，但这里使用一个常规中值)。该中值从基于该校正前数据的0.7935变为基于该校正后数据的0.9611(见表6和表7还有图11)。与现有技术的基于总离子流的归一化的一个比较显示这种蛋白质的变化是相当剧烈的，并且该校正后中值远更接近于期望值(对于相同样品，1:1比率)。

表6和表7还示出在评价2个对照组样品(CM-1，CM-2)与2个阿尔茨海默样品(M3-1，M3-2)时可能的不同样品对的肽丰度比(按大小顺序排序以用于中值确定)。然后如下评价所有样品对的所确定中值。将这些中值输入到所有成对比率的一个参考矩阵(表8和表9)中。然后通过这些列的几何均值的比率给出表达比。

虽然在校正前数据中似乎不存在一个趋势(甚至在技术性重复品之间也没有)，但在校正后，技术性重复品之间的比率几乎是1(CM-1/CM-2＝0.938/0.925＝1.01并且M3-1/M3-2＝1.072/1.073＝1.00)并且对照组与阿尔茨海默病组之间的比率是约0.87。这可能是该分析物中的显著变化，并且因此可以报告该分析物。从使用本发明的方法所报告的这种或其他分析物中可以发现用于该疾病的一种标志物。

图12示出所选定蛋白质的完整校正后数据组。尽管在未校正数据中已经可见一个趋势(图13)，但对于校正后数据，很清楚的是在女性群体中在患有阿尔茨海默病的案例与不患有这种病的案例之间这种蛋白质具有不同的表达水平。与此相反的是，对于男性群体，该蛋白质在患有阿尔茨海默病的组与对照组之间具有无差别可能性。特别是对于男性对照组数据，扩散减小是相当明显的。图11和图12要点：男性(M)；女性(F)；健康(HC)；稳定记忆障碍(SMCI)；渐进性记忆障碍(PMCI)；确诊阿尔茨海默病(AD)。

表6

(校正前数据)

表7

(校正后数据)

表8-蛋白质丰度参考矩阵-校正前

表9-蛋白质丰度参考矩阵-校正后

如在此使用的，包括在权利要求中，除非上下文另外说明，否则在此术语的单数形式应当理解为包括复数形式，并且反之亦然。

贯穿本说明书的描述和权利要求，词语“包括(comprise)”、“包含(including)”、“具有(having)”以及“含有(contain)”以及这些词语的变化形式(例如“包括(comprising)”和“包括(comprises)”等等)表示“包括但不限于”并且不旨在(并且不会)排除其他部件。

应理解，可以对本发明的以上实施例进行变更，而这些变更仍落在本发明的范围之内。除非另有说明，否则本说明书中披露的每个特征可以由用于相同、等同或类似目的的替代特征来代替。因此，除非另有说明，否则所披露的每个特征只是一个一般系列的等同或类似特征中的一个实例。

使用在此提供的任何一个以及全部实例、或示例性语言(“例如”、“如”、“举例来说”以及相似语言)，仅旨在更好地说明本发明并且不指示对本发明的范围进行限制，除非另外要求。本说明书中的任何语言都不应当被理解为是在指示：任何未提出权利要求的元件是对本发明的实现是至关重要的。

本说明书中描述的任何步骤可以按照任何顺序来进行或同时进行，除非另有说明或上下文要求。

本说明书中披露的所有特征可以按任何组合形式进行组合，除了这类特征和/或步骤中的至少一些相互排斥的组合。具体地说，本发明的优选特征适用于本发明的所有方面并且可以按任何组合来使用。同样，非本质的组合中描述的特征可以单独使用(不进行组合)。

Claims

1.一种从质谱数据量化一种或多种分析物的方法，该方法包括：

从自色谱柱洗脱的第一分析物组获得第一质谱数据组；

从自色谱柱洗脱的第二分析物组获得第二质谱数据组；其中每个数据组中的大多数分析物是两个数据组所共有的；

确定每个数据组中至少一些分析物的表观丰度；

选择一种分析物作为目标分析物，并且为该目标分析物确定就保留时间而言与该目标分析物邻近的多种分析物，作为局部化相邻分析物，其中所述局部化相邻分析物的数量小于分析物总数；

基于在该第一质谱数据组与第二质谱数据组之间在这些所确定的局部化相邻分析物的表观丰度方面的差异来确定该目标分析物的局部校正后丰度；并且

基于该目标分析物的校正后丰度来对其进行量化。

2.如权利要求1所述的方法，进一步包括选择一种或多种另外的分析物作为目标分析物，并且对于作为一种目标分析物的每种这样的另外的分析物：

基于在该第一质谱数据组与该第二质谱数据组之间在这些所确定的局部化相邻分析物的表观丰度方面的差异来确定这种另外的分析物的一个局部校正后丰度；并且

基于这种另外的分析物的校正后丰度来量化这种另外的分析物；其中该多种所确定的局部化相邻分析物对于至少一些不同的目标分析物而言是不同的。

3.如权利要求1或2所述的方法，其中每个数据组中的分析物的至少80％是两个数据组所共有的。

4.如权利要求1或2所述的方法，包括将该多种局部化相邻分析物确定为具有跨越该目标分析物的该保留时间的一个给定时间间隔内的一个保留时间的分析物。

5.如权利要求4所述的方法，其中该时间间隔的宽度与该目标分析物的色谱峰宽度大致相同。

6.如权利要求4所述的方法，其中该时间间隔的宽度最长达2分钟。

7.如权利要求1或2所述的方法，其中这些所确定的局部化相邻分析物的数量n为从5至100。

8.如权利要求1或2所述的方法，其中这些局部化相邻分析物中的大多数的实际丰度在该第一质谱数据组与该第二质谱数据组之间大致不变。

9.如权利要求1或2所述的方法，其中确定该目标分析物的该局部校正后丰度包括：基于在该第一质谱数据组与该第二质谱数据组之间在这些所确定的局部化相邻分析物的丰度方面的所述差异确定一个或多个校正因子，并且将该一个或多个校正因子应用于该目标分析物的该丰度来确定该校正后丰度。

10.如权利要求9所述的方法，其中确定该一个或多个校正因子包括：从具有一个比率K的这些所确定的局部化相邻分析物来确定表示一个集中趋势值的一个值K_平均，其中对于每种相邻分析物，K为在该第一质谱数据组中其丰度与在该第二质谱数据组中其丰度的一个比率。

11.如权利要求10所述的方法，其中离群K值被从确定该值K_平均中排除。

12.如权利要求11所述的方法，其中一个中值K值被选择作为K_平均。

13.如权利要求12所述的方法，其中该中值K值是一个加权中值。

14.如权利要求10至13中任一项所述的方法，其中该比率K是该第一质谱数据组和该第二质谱数据组中的丰度的一个加权比率。

15.如权利要求10至13中任一项所述的方法，进一步包括比对由所获得的第一质谱数据组和所获得的第二质谱数据组构成的多个质量色谱图。

16.如权利要求10至13中任一项所述的方法，其中该方法包括根据K_校正＝K_目标/K_平均确定一个校正后丰度比K_校正，其中K_目标是在该第一质谱数据组中该目标分析物的丰度与在该第二质谱数据组中其丰度的比率。

17.如权利要求1或2所述的方法，包括针对每个数据组创建分析物的一个提取离子色谱图XIC，并且从该XIC确定所述至少一些分析物的表观丰度。

18.如权利要求1或2所述的方法，进一步包括在确定所述至少一些分析物的表观丰度之前，鉴定所述至少一些分析物。

19.如权利要求1或2所述的方法，其中电喷雾流波动在获得不同数据组之间的影响被减小。

20.如权利要求1或2所述的方法，其中所述一种或多种分析物是选自下组，该组由以下各项组成：蛋白质、肽、脂质、药物和/或代谢物。

21.一种计算机系统，包括：

携载计算机程序的计算机可读介质；

处理器，耦合到所述计算机可读介质并用于实施如以上任一项权利要求所述的方法。