CN104126119A

CN104126119A - 处理色谱系统中数据的系统及方法

Info

Publication number: CN104126119A
Application number: CN201280069812.0A
Authority: CN
Inventors: 王纪红; P·M·威利斯
Original assignee: Leco Corp
Current assignee: Leco Corp
Priority date: 2012-01-16
Filing date: 2012-09-11
Publication date: 2014-10-29
Anticipated expiration: 2032-09-11
Also published as: CN104126119B; DE112012005677T5; US20150051843A1; JP6077568B2; JP2015503763A; WO2013109314A1

Abstract

描述了用于处理色谱系统中的数据的系统及方法。在实现中，系统及方法包括处理由色谱系统生成的数据，以生成处理后的数据，分析处理后的数据，并且基于处理后的数据准备和提供结果。

Description

处理色谱系统中数据的系统及方法

优先权声明

本申请要求于2012年3月12日提交的国际申请No.PCT/US2012/028754和于2012年1月16日提交的美国临时申请序列No.61/587,041的优先权。以上提到的每个申请的全部内容都通过引用被结合于此。

技术领域

本公开内容涉及用于在色谱质谱分析系统中所获得的数据的数据处理技术。

背景技术

已知色谱质谱仪产生大量数据并且许多数据包括噪声或不想要的信息。期望高效并精确地区分相关信息和噪声并且以高效和高分辨率方式处理其的系统及方法。

发明内容

描述了用于处理色谱系统中的数据的系统及方法。在实现中，该系统及方法包括处理由色谱系统生成的数据以生成处理后的数据，分析处理后的数据，并且基于处理后的数据准备和提供结果。

附图说明

图1绘出了根据本公开内容中所描述的实现的、涉及识别并去卷积色谱峰的因子分析技术的一般过程；

图2是气相色谱、质谱系统的一般框图；

图3说明了根据实现的技术的特征；

图4代表根据实现的、用于预先处理来自数据获取系统的数据的示例性方法；

图5代表根据实现的基线校正的示例性方法；

图6识别过滤过程的示例性实现；

图7绘出了根据本公开内容中所讨论的原理的、识别基本上优化的系数的代表性过程；

图8说明了根据实施例的、可以用来证明子簇峰形状的资格(限制，qualify)的代表性过程；

图9陈述了根据实现的、通常无关数据可以从子簇除去以便精炼数据的方法；

图10绘出了识别共享质量的代表性过程；

图11绘出了根据这里所述实现的各方面的引种(seeding)方法；

图12说明了根据所述实施例的、用于因子识别的过程；

图13绘出了示例性系统中M相对于峰相关性阈值的比较；

图14用图形方式证明了实现中M与峰相关性阈值的关系曲线；

图15提供了防止因子分裂的方法；

图16绘出了根据本公开内容中所描述的实现的、涉及峰分组的一般过程；

图17绘出了根据实现的、用于确定峰均值(mean)和峰标准差的示例性方法；

图18绘出了根据实现的、用于确定第一峰和第二峰的均值保留时间是否基本相同的示例性方法；以及

图19绘出了根据实现的、用于确定第一峰和第二峰的方差是否基本相同的示例性方法。

相同的标号在各个图中指相同的元件。

具体实施方式

参考图1，公开了用于因子分子技术的示例性方法，该技术从色谱、质谱系统识别并去卷积色谱峰。应当理解，这种方法可以在所有类型的色谱系统中使用，包括液相和气相。在实施例中，并且如所说明的，该方法包括步骤(i)预处理由分析系统接收到的数据(S200)，(ii)分析预处理后的数据(S300)，(iii)处理与被相信在所述数据中表示的任何同位素或加合物关联的数据(S400)；以及(v)准备并提供关联的结果(S500)。

在实现中，由与质谱仪关联的数据获取系统提供要分析的数据。对于本公开内容，应当理解，数据获取系统可以是如在美国7,501,621、美国7,825,373和美国7,884,319中所阐述的系统。

另外，在进行这种分析之前，来自数据获取系统的数据可以被调整，如在美国临时专利申请序列No.61/445,674中所阐述的。以上所述的以及所有其它引用的专利和申请的全部内容都通过引用被结合于此。当所结合的参考文件中的术语的定义或使用与本文所提供的那个术语的定义不一致或相反时，应用本文所提供的那个术语的定义并且不应用参考文件中那个术语的定义。

总而言之，上述数据获取系统通常把来自质谱仪系统的原始数据转换成称为“棒(stick)”的质心质谱，每个棒都代表一个离子峰并且由强度、确切的质量值和质量分辨率值组成。在棒的构造过程中，来自模数转换器的原始数据已经经历了大约10⁴或10⁵:1的压缩并且大部分获取噪声和冗余信息已经被除去了。结果是非常稀疏的两维数据，但是化学背景噪声仍然可以存在，因为这种数据获取系统的目标是把所有离子信息转发到后续的处理阶段。接下来，棒在相邻的保留时间扫描中被漂移校正并收集到统计相似质量的簇中。

在实现中，具有相似强度分布的簇被认为代表来自从色谱柱洗脱的分子化合物的各种同位素、加合物及碎片离子。此外，还有来自于诸如柱流失(column bleed)、移动相污染、环境污染等各种来源的、不具有色谱结构的背景离子的簇。簇过滤器可以被应用来去除具有小于期望的最小信噪比水平的簇，并且其余的簇之后被送到处理系统，用于继续分析。

应当理解，基于本公开的内容，如图3所示，在数据处理的每个阶段，通常优选地是以保留一些残差噪声为代价来保留好的信息。一般地，所描述的系统具有经优化的保留噪声量，以保持数据的完整性。

图4代表用于预处理由处理系统从数据获取系统接收到的数据的示例性方法。在实现中，处理(S200)包括步骤：分离长簇与短簇并且对长簇进行基线校正(S210)、过滤数据以平滑数据(S220)、将过滤后的簇划分为子簇(S230)以及证明子簇的资格(S240)。在实施例中，如下文中更具体讨论的，子簇的资格证明可以包括证明峰形状的资格和证明信噪比的资格中至少一个。

已经发现，长簇可以具有与整个分析的长度接近的持续时间并且大部分长簇是如果不被适当处理就可能使结果实际上偏移的背景离子。而且，长簇常常相对强并且通常具有与其相关联的高噪声。但是，因为，由于来自于洗脱化合物的共享质量的贡献，一些这种数据也可能包括期望的色谱数据，所以优选地对长簇提供进一步分析，而不是将它们全部提取出来。由于它们提升的强度，因此，在实现中，这种长簇可以首先经受基线校正。

现在将公开这种基线校正的方法。在实现中并且如图5所示，对数据执行基线校正的步骤可以包括以下过程：将数据分离成块，每个块的长度被确定为色谱数据的期望全宽半高的倍数(S211)、基于那个块的下四分位中的基线强度估计在块的中心的基线强度(S212)、在前述等距四分位点之间进行线性内插，以产生基线估计(S213)、把基线之上的数据剪切到基线水平，并且保留基线以下的数据(S214)、平滑所剪切的数据的曲线，以产生基线的改善版本(S215)以及重复步骤(S214)和(S215)，直到全部或基本全部数据降到平滑后基线之上的最小公差内。上述基线校正可以对每个期望的分离后的块进行，在实现中，块可以包括全部或基本全部分离后的块。类似地，校正可以应用到每个长簇，在实现中，长簇可以包括全部或基本全部长簇。

在实现中，在步骤(S211)期间块的长度被估计为色谱数据的期望全宽半高的五(5)倍，但应当理解，基于本公开内容，该长度可以大于或小于五(5)倍。

如所讨论的，剪切数据(S214)涉及平滑剪切后的数据的曲线。在实现中，实现Savitzky-Golay平滑算法，以提供平滑步骤。其它平滑算法也可以采用并且本发明不应当由此受到限制。

继续参照图4，数据可以接下来被过滤，以去除噪声(S220)。这种过滤过程的实现在图6中说明。在实现中并且如所讨论的，无限脉冲响应滤波器被用来执行这个步骤，但应当理解，基于这里的内容，其它类型的滤波器也可以代替使用，诸如有限脉冲响应滤波器。继续参照图6，识别数据内的最大峰并且估计该峰的全宽半高(S221)。这个估计的值接下来对照预定义的查找表进行匹配，以便基于它们的全宽半高识别一组前向和反向二级无限脉冲响应滤波器系数，这些系数都被优化以平滑色谱峰(S222)。使用在步骤(S222)中得出的识别出的、经优化的系数，数据被平滑(S223)。接下来，平滑后的数据与原始数据相比较，以识别每个簇的噪声图(S224)。在实现中，每个簇的噪声图作为平滑数据与原始数据之间的残差的标准差来计算。为了基于本公开内容将变得明显的目的，噪声图被保留，因为其将会被分配到根据(S230)从簇得出的每个子簇。这种方法提供了最大似然最小二乘法估计，其有助于没有受到高强度数据过度影响的分析，并且允许低强度数据被充分表示。

如所讨论的，在实施例中，通过在(S222)使用查找表来识别经优化的系数。在实现中，在进行任何处理之前，对于若干期望的全宽半高值，优化后的系数被预先计算并保存在系统中。图7说明了可以预先计算系数的一种方式。

在(S225)，在每个期望的全宽半高，形成若干纯高斯峰。在实现中，这些峰的宽度基本在目标全宽半高的约三分之一(1/3)到全宽半高的三(3)倍之间或者在这二者处，并且它们被存储为基准峰。接下来在(S226)将噪声添加到全部或选定的基准峰。在实现中，噪声可以是白噪声并且可以根据高斯分布添加到每个峰。之后，在(S227)，以将经平滑的噪声峰与基准峰之间的残差基本最小化的方式，每一个或选定的峰峰被优化，以调整滤波器系数。可以使用非线性Levenburg-Marquardt法来提供优化(S227)。在优化期间，系数可以被约束，以产生稳定的脉冲响应。对于每个或选定的基准全宽半高重复这个过程(S228)并且优化后的系数值存储在查找表中(S229)。在实现中，示例性结果平滑滤波器的脉冲响应类似于正弦滤波器的脉冲响应，其中滤波器的原瓣的宽度近似为目标全宽半高的一半。使用这种实现，峰形状和结构可以基本被保留并且所检测到的错误正峰的数目可以基本被最小化。

返回去参照图4，过滤后的簇可以被划分为子簇(S230)。在实现中，过滤后的簇数据被检查，以识别(位于两个峰或顶点之间的)谷中的最小点小于最近峰的限定强度的每个实例。作为例子，峰强度可以被选择为处于一个或两个最近峰的强度的二分之一(1/2)或大约二分之一。一旦被识别出，该谷就被认为是簇切割点，由此将簇分离为一个或多个子簇。如将会理解的，划分后的子簇的数目将取决于给定簇的簇切割点的量。

图8说明了可以被用来证明子簇峰形状的资格的代表性过程(S240)。这个过程可以帮助确保相关子簇包括色谱信息。在实践中，一些子簇可以包括不含色谱信息的数据，下文中将其称作为离群值(异常值，outlier)。优选的是从数据中提取并免除在实践可能的情况下尽可能多的离群值，而不去除相关数据。在实现中，可以使用以下一种或多种技术来从离群值中分离期望的子簇：(i)选择具有比最小信噪比更大的信噪比的子簇(S242)；(ii)选择具有比最小质量更高的峰形状的子簇(S244)；以及(iii)选择具有最小簇长度的子簇(S246)。在实现中，在3-8棒之间、在4-7棒之间、在3-7棒之间、在4-8棒之间、在4-6棒之间、在5棒处或者在以上范围的边界处选择最小簇长度。可以使用其它的最小簇长度。在实现中，可以使用每种分离过程。为了便于公开，本公开内容将讨论如图8所述使用全部过程的实施例。此外，无论使用哪种分离过程，本公开内容都不应当局限于它们被处理的顺序。

提供了用于选择具有比最小或阈值信噪比更大的信噪比的子簇的示例性过程(S241)。在实现中，阈值比率可以被选择为硬编码值与用户限定值之间的较小者。作为例子，阈值可以为十(10)或约为十。在其它技术中，噪声可以被测量为四分之一(1/4)离子面积的预定义获取噪声或者原始簇数据与平滑后的簇数据之间的残差的标准差。但是，应当理解，如果具有阈值之下的比率的子簇是合格的峰的同位素或加合物，则它们仍可以被用在因子分析中。

因为具有比阈值更大的信噪比的子簇仍然可能包含冗余的数据或噪声，所以可能期望进一步修剪该子簇。一种修剪方法涉及从峰的左侧和右侧都修剪这种子簇的基线。在实现中，子簇内的原始数据被从两端或一端向中心扫描-强度(左/右)上升到阈值以上的位置变为子簇的新的末端并且基线数据被丢弃。在实现中，阈值强度是子簇噪声的标准差的四(4)倍。

如前所述，识别期望子簇并消除离群值的另一种技术是选择具有比最小或阈值质量更高的峰形状的子簇(S244)。在实现中，阈值质量可以基于色谱峰具有可以优选地使用双高斯曲线合理建模的一般形状的假设，但是本发明不应当被局限于此。双高斯曲线相对于诸如Pearson IV的其它峰形状更优的地方在于拟合的速度和稳定性。因此，在实施例中并如图9所示，每个子簇首先被拟合到双高斯峰(S247)。识别子簇与拟合峰之间的相关性(S248)。选择具有比阈值相关性更大或基本在阈值相关性处的相关性的峰，具有比阈值相关性更小的相关性的峰被识别为离群值(S249)。在实现中，阈值相关性可以是0.6，优选地为0.8。

因为每个子簇可以被认为包括单个色谱峰，所以可以理解，由于来自两个或更多个共洗脱化合物的组合信息，因此每个子簇可以是共享的质量成分峰。因此，在实现中，去卷积方法及系统可以可选地被采用，以确定峰是否包括共享的质量并且进一步识别可以关联到单个成分的峰的组。在识别这种峰的组时，去卷积过程可以对一个、一些或全部色谱峰实现，以解密每个分析过的峰可以属于的分组。

如将理解的，耦合到质谱仪的色谱系统既可以产生质量峰，又可以产生色谱峰。质量峰可以非常像高斯形状并且，当与色谱峰比较时，通常不显著变形或者包括噪声。因此，高斯模型常常在与质量峰的去卷积关联的去卷积过程中实现。例如，已知跨这种质量峰采用期望最大化(EM)算法。

不像质量峰，色谱峰常常不非常像高斯形状并且会在噪声处包括显著的变形。因此，由于峰的歪斜，高斯和双高斯模型常常不很好地拟合色谱峰并且EM算法具有差的汇聚。非线性迭代方法也已经介绍过，以估计峰参数，但是这种方法在系统中会慢并且迟钝。

本发明人已经开发出新的曲线类型来建模峰，诸如以上讨论的色谱峰。对于本公开内容，所讨论的模型和曲线类型将在这里被称为双指数模型或者双指数曲线。按照惯例，并且如以上所讨论的，高斯、双高斯或一般指数曲线和模型已经被采用。新的双指数模型在顶点分离峰并且利用独立的指数曲线建模峰的每一侧。

在实现中，双指数模型可以如下表示：

f (t; h, m, σ_{1}, σ_{2}, a_{1}, a_{2}) = \{\begin{matrix} h e^{\frac{{(t - m)}^{a_{1}}}{2 σ_{1}^{a_{1}}},} & if t \leq m \\ h e^{\frac{{(t - m)}^{a_{2}}}{2 σ_{2}^{a_{2}}},} & if t > m \end{matrix}

如基于本公开内容可以被理解的，如果a₁和a₂每个都设置在二(2)，则双指数模型与双高斯模型相同。与一般化的指数模型相比，双指数模型允许a₁和a₂之间的变化。

因此，利用上述模型，峰曲线可以利用如下双指数曲线的求和来表示：

y_{i} = y (t_{i}) = Σ_{k = 1}^{P} f (t_{i}; h_{k}, m_{k}, σ_{1}, σ_{2}, a_{1}, a_{2}) + e_{i}

在高分辨率飞行时间质谱仪中，共享质量(shared massed)的峰形状将只在强度和位置上有区别，使得所有P个峰具有通常公共的σ₁、σ₂、a₁和a₂常常都是典型的，这简化了如下所述的进一步分析。

在实现中并且参照图10，分析预处理后的数据的步骤可以可选地在之后跟着在(S285)利用双指数模型建模信号并且识别残差拟合的步骤，并且，如果残差拟合是不期望的，则在(S290)迭代增加信号一个或多个峰，以拟合色谱，直到拟合的残差在预定义的残差内。应当理解，预定义的残差可以设置成根据期望目标的约束。

在实现中，信号被优化并且(S290)可以通过使用Levenberg-Marquardt(LM)算法来实现。在传统上，LM算法如下动态计算Jacobian矩阵：

J = \frac{y (t_{i}, θ + Δθ) - y (t_{i}, θ)}{Δθ}

利用本文所述的双指数模型，以及与其结合使用的受约束的参数，本发明人已经发现，动态计算可以被摈弃并且Jacobian矩阵可以代替地利用以下的解析表达式来确定：

在实现中，因为上述计算中使用许多计算，所以某些计算可以存储在存储器中，供随后访问，例如

现在返回去参照图1，根据上文内容预先处理并且然后可选地如在图10中所阐述的那样去卷积的数据现在在(S300)中接受分析。在这一步骤中，公开了确定用于因子分析的显著因子的数目以及提供那些因子的初始种子估计的方法。这里讨论的因子引种的应用产生了防止因子分析过度地集中到局部极小值的方法。因此，可以迅速地获得具有更高准确度和分辨率的结果。

在实施例中并且如图11中所说明的，所公开的引种方法涉及在(S310)处划拨(appropriating)一个或多个值来处理或在其它情况下确定有效因子的数目并且控制去卷积。在实施例中，可以被使用的值其中包括色谱分辨率的程度、峰重叠或峰相关性阈值以及结果产生的因子的最小质量。这些值可以是用户选择的、预定义的或者在预引种过程期间基于分析结果动态产生的。

在实施例中，多程(multi-pass)过程会便于因子确定。现在将讨论双程处理，但是应当理解，基于本公开内容，可以使用变程过程并且本发明有权具有其全部范围。此外，双程过程可以是可选的，使得在确定来自单程过程的结果足够的情况下可以使用这种单程过程。总之，这种过程便于在确定因子时排除低质量峰，因为这种峰会使结果模糊或者在其它情况下减慢处理。但是，如之后所讨论的，被排除的一些或全部峰可以在过程中在之后的时刻被结合，如果这种峰被确定为与同位素或加合物相关。

在实现中，第一程被用来提供所确定的因子的第一估计(S320)。如图12所说明的，该程可以开始于选择因子的基础峰或者浓度分布(S321)。基础峰可以手动选择或者诸如通过算法函数的实现等来自动选择。在实施例中，数据集合中最强的子簇峰被选择为基础峰，因为可以假定这个峰可能相比于相对更不强的子簇峰最佳地表示纯化学品。在实现中，选定的子簇峰被选择为因子的基础峰或浓度分布。

在选择基础峰之后，全部的局部数据(例如，可能与这个基础峰相交的子簇)被评估并与基础峰关联，以对于基础峰划拨相关性值C(S322)。可以使用已知的关联方法。在实施例中，具有预定最小相关性值的局部数据与基础峰相结合，以创建因子(S323)。之后可以对所识别的因子规定谱S的初始估计(S324)。

接下来，其余数据中的最强峰被选择为下一个因子，并且再次根据上述过程结合相关的数据(S325)。这个过程继续，直到全部子簇已经被初始地分配到因子。

现在可以采用第二程(S330)，由此来自第一程的因子被进一步分析并且确定在第一程中识别出的单个因子是否可以或者应当被进一步分离为个别因子。在这个步骤期间，相关性参数和相关的置信区间可以被用来分离可能在第一程中已经被错误地合并的数据。在实现中，相关性参数可以是用户识别的或预定义的。

图13举例说明了可以被用在第二程中的实现(S330)。如图所示，选择因子中将被识别为基础峰的最强子簇(S331)，但是也可以使用其它项。计算基础峰与因子中一个或全部其它子簇之间的相关性(S332)。也可以对包括基础峰的每个子簇计算顶点位置置信区间(S333)。示例性置信区间确定可以是：

在以上公式中，(i)M表示sigma倍数并且与期望的标准差的数目相关，M可以与下文讨论的峰相关性阈值相关，(ii)峰宽度是期望得到其置信区间的子簇峰的全宽半高，(iii)S/N是子簇的信噪比，其被计算为子簇的峰高与峰-峰噪声之比，并且顶点位置是峰的顶点的时间位置。虽然公开了示例性置信区间确定，但是可以使用其它计算，并且，除非特别否认，否则本发明应当不局限于所公开的例子。

如果是优选的并且如前所述，在实现中，M可以如图13所示与峰相关性阈值通过函数相关。图14基于以可变量时移的两个高斯的相关性和置信区间重叠的测量结果，通过图形证明了M与峰相关性阈值的关系曲线。可以使用所图示的关系，使得当峰相关性阈值或M中的任一者被识别时，另一个值可以基于这个经过证明的关系自动得出。作为代替，在实现中，可能期望提供独立的峰相关性阈值和M。

在实现中，高置信性趋于具有大的M(在2或4处、在2-4之间、在3处或约为3)和宽的置信区间。并且，对于非常强的峰(例如，趋于具有升高的信噪比的那些峰)，置信区间可以趋于狭窄，因为有足够数量的离子以使得峰位置的不确定性非常小。例如，如果3的sigma倍数被用于顶点位于时刻20处的基础峰(或子簇)，该峰具有2的宽度、2560的高度和10的峰-峰噪声，那么置信区间对于基础峰的顶点位置为20±0.375。置信区间与基础峰的置信区间重叠并且与基础峰的相关性大于用户规定的峰相关性阈值的全部子簇都被一同分组到一个因子中(S334)。如果期望，那么，如果有任何其余的子簇，那么其余子簇中的最强子簇被选择为用于新的因子的基础峰并且重复该过程，直到不再有子簇剩余(S335)。通过这个过程产生的新因子的量与共洗脱化合物的量有关。第二程提供了其中具有基本相同的顶点位置但是具有不同形状的两个峰被去卷积的方法。

与前述内容同时，或者在完成如前所述的一个、一些或全部因子识别后，对每个因子计算平均浓度分布(S340)，见图11。作为例子，多元曲线分辨(MCR)方法可以被用来确定每个因子的平均浓度分布。在实现中，对于一个或全部因子，所计算的平均浓度分布被用作为每个因子的所估计的峰形状。可选地，如果对一个或全部因子期望，则基础峰形状可以被识别为所估计的峰形状。此外，两个估计的峰形状可以被使用，使得所计算出的平均浓度分布和基础峰形状可以被用于一个或全部因子。

通过使用平均浓度分布，另外的不期望的因子可以通过测量平均浓度分布的峰质量(PQ)的进一步计算而取出(withdraw)(S350)。在实现中，PQ可以通过确定每个浓度分布的拟合的残差的偏差来计算。可以采用不同的偏差法，例如，可以优选地使用双高斯系统中的标准差。在实现中，小于阈值峰质量(例如，0.5)的峰质量被从数据和继续运算中去除(S360)。但应当理解，PQ阈值的选择和偏差计算及其方法可以依赖期望的结果而变，并且本发明不应当由此受到限制。

返回参照图1，可能期望将数据增加回与同位素和加合物相关的因子中(S400)。在实现中，原始数据被检查，并且被认为与同位素和加合物相关的数据被选择并且之后对照全部或选定的因子证明其资格。如果数据表示相关性大于具有比阈值错误率更小的错误率的最小相关性，那么对因子的资格证明发生。在实现中，最小相关性是0.9，并且错误率是百分之二十。如果资格得以证明，则之后将该数据分配给那个因子。

在实现中，可以通过对照原始数据检查典型的同位素m/z间隔和加合物m/z间隔并且基于检查提取出表示同位素/加合物的数据，来识别同位素/加合物。例如，包括化合物的单核碳(singly-chargedcarbon)具有间隔约n*1.003质量单位的同位素,其中n＝1、2、3……；在含氯化合物中，同位素通常间隔1.997质量单位。对于加合物，如果使用单钠离子将分子离子化，则将会相对于由单氢离子离子化的相同分子具有21.982质量单位的质量移动。

此外，化合物的同位素/加合物可能已经与相邻的共洗脱因子不正确地分组(例如，噪声可能已经使得同位素/加合物峰与相邻峰相对于与其真实的基础峰具有更高的相关性)。当被识别时，期望再分配这种同位素/加合物。确定并再分配这种不正确的分组的一种方法是将因子与其相邻的一个或多个因子进行比较。在实现中，基于第一因子的浓度分布与最近因子的浓度分布之间的相关性来识别什么因子可以构成相邻因子。如果相关性大于最小相关性，那么该因子被识别为相邻因子并且潜在地包括来自第一因子的同位素或加合物。在实现中，最小相关性是0.9。接下来，相邻因子被扫描并且，如果同位素/加合物被证明具有属于第一因子的资格，则它们被再分配到第一因子。在实现中，这个过程可以对于下一个最近因子重复，直到相关性小于最小相关性为止。如果数据表示相关性大于具有比阈值错误率更小的错误率的最小相关性，则可以进行因子与同位素/加合物之间的资格证明。在实现中，最小相关性是0.9，并且错误率是百分之二十。如果这个过程将因子的全部构成部分排空，则该因子被排除。这个过程可以对于数据的全部或选定部分重复。

在该过程期间有时候，可以注意到相关性阈值可能太高。例如，这可能由于尝试对紧密(closely)共洗脱的化合物去卷积而发生。但是，如果同位素和加合物没有这样高度相关，则可能由于过高的相关性阈值而导致因子分裂(即，单洗脱化合物由一个以上的因子建模)。在图15中示出了有助于防止因子被这样分裂的一种方法。一个因子(即，最强)内的基础同位素/加合物子簇与其它子簇之间的相关性的平均值被在该因子内计算，“局部相关性阈值”(S610)。接下来，确定因子以及与该因子相邻的因子的浓度分布之间的相关性(S620)。如果因子之间的相关性大于局部相关性阈值，则将这两个因子合并(S630)。这个过程可以跨全部因子对每个识别出的基础同位素/加合物子簇重复。

作为一种备选，或者与以上讨论的相关性阈值相结合，可以使用一个过程来识别峰分组。参照图16，公开了用于峰分组和识别的示例性方法，即，识别数据集内离散的峰并且识别每个识别出的离散峰的频谱。如可以理解的，这种峰的正确识别可以方便随后数据分析步骤中更高效的处理。

在利用所公开方法和过程的实现中，离子统计是信号中方差的主要来源。把离子统计实现为主要来源可以通过使用通常抑制信号内电噪声的超高分辨率质谱仪来方便其实现。基于该系统，这种系统内的大部分质谱干扰会由于仪器内的高分辨率质量而自动分解。进而，这产生外部质谱干扰的显著避免并且，如果存在共享的质量，则这种系统可以去卷积。

为了使用本文所讨论的方法的实施例，分析过的信号中所存在的离子数目是已知的并且噪声通常从信号中除去。此外，对于图16-图19，将讨论使用第一峰(x)和第二峰(y)的说明，每个峰都具有1的尺寸(m)。这些例子中的命名将把以下变量归于第一和第二峰(x,y)。

x：基础峰的色谱峰的柱矢量；

x_i：x的第i个元素的标量；

y：为了与x合并而检查的色谱峰的柱矢量；

y_i：y的第i个元素的标量；

t_i：第i个位置的保留时间的标量；

m：x和y的长度的标量；

n_px：峰x中离子数目的标量；

n_py：峰y中离子数目的标量；

a：显著性水平的标量；

mean_px：峰x的均值的标量；

mean_py：峰y的均值的标量；

σ_px：峰x的标准差的标量；

σ_py：峰y的标准差的标量；

s_px：峰x的标准差的估计的标量；

s_py：峰y的标准差的估计的标量；以及

r_xy：矢量x和y的相关性系数的标量。

参考图16，在实现中，分组和识别峰的方法包括在S710比较第一峰(x)与第二峰并且在S720确定第一峰和第二峰(x,y)是否应当分组到一起。

对于图16-19，应当理解，所引用的峰被认为是具有均值和标准差的离子的概率分布，因为离子统计基本上占主导地位，噪声通常被消除了并且离子体积是已知的。在实现中，比较步骤S710可以包括在S720比较第一峰(x)的均值保留时间与第二峰(y)的均值保留时间，在S760比较第一峰(x)的方差与第二峰(y)的方差，并且在S780基于两个比较步骤的情况把第一和第二峰(x,y)归类为相关或不相关。此外，在实现中，如果(a)第一峰和第二峰的均值保留时间基本上相同并且(b)第一峰和第二峰的方差基本上相同，则第一和第二峰(x,y)被归类为相关。

图17绘出了用于确定随后可以使用的峰均值和峰标准差的示例性方法。如所说明的，第一峰(x)的均值与第二峰(y)的均值在S810确定。在实现中，均值是根据以下等式确定的：

\begin{matrix} {mean}_{px} = \frac{Σ_{i = 1}^{m} x_{i} t_{i}}{Σ_{i = 1}^{m} x_{i}} \times \frac{n_{px}}{n_{px} - 1} \\ {mean}_{py} = \frac{Σ_{i = 1}^{m} y_{i} t_{i}}{Σ_{i = 1}^{m} y_{i}} \times \frac{n_{py}}{n_{py} - 1} \end{matrix}

继续参照图17，第一峰(x)的标准差与第二峰(y)的标准差在S820确定。这些标准差可以如以下等式中阐述的来确定：

\begin{matrix} s_{px} = \sqrt{\frac{Σ_{i = 1}^{m} x_{i} {(t_{i} - {mean}_{px})}^{2}}{Σ_{i = 1}^{m} x_{i}} \times \frac{n_{px}}{n_{px} - 1}} \\ s_{py} = \sqrt{\frac{Σ_{i = 1}^{m} y_{i} {(t_{i} - {mean}_{py})}^{2}}{Σ_{i = 1}^{m} y_{i}} \times \frac{n_{py}}{n_{py} - 1}} \end{matrix}

应当理解，除了本文所阐述的例子，其它方法也可以用来确定峰均值和峰标准差。例如，并且除其它的之外，在峰具有带高强度和通常平滑离子概率密度函数(PDF)的正态(例如，高斯)分布的情况下，峰均值可以被估计为顶点位置并且峰标准差可以关联到信号全宽半最大值(FWHM)。但还要理解，顶点/FWHM关联在低密度峰的情况下可能不适用，因为峰均值和顶点位置之间的偏差会大。作为替代，各种平滑可以应用到峰，以最小化顶点和均值之间以及FWHM和标准差之间的偏差。

在实现中并且如对本公开内容其余部分所引用的，比较第一峰(x)的均值保留时间与第二峰(y)的均值保留时间(S720)被称为t-假设。t-假设可以用来测试第一峰(x)和第二峰(y)的保留时间的均值是否基本上相同，使得其间的置信区间潜在地保证第一峰(x)与第二峰(y)的分组。

现在参照图18，公开了比较第一峰(x)的均值保留时间与第二峰(y)的均值保留时间的实现。首先，对于给定的置信区间，根据以下等式在步骤S724确定t-统计：

t = \frac{{mean}_{px} - {mean}_{py}}{\sqrt{\frac{(n_{px} - 1) s_{px}^{2} + (n_{py} - 1) s_{py}^{2}}{n_{px} + n_{py} - 2}} \sqrt{\frac{1}{n_{px}} + \frac{1}{n_{py}}}}

在实现中，置信区间可以用来在S728扩展t-统计，关于其，以下等式仅仅是归结这种置信区间的一个例子：

[- t \frac{α}{2} (n_{px} + n_{py} - 2), t \frac{α}{2} (n_{px} + n_{py} - 2)]

在S732，第一峰(x)和第二峰(y)的保留时间的均值基本上相同，使得，如果

- t \frac{α}{2} (n_{px} + n_{py} - 2) \leq t \leq t \frac{α}{2} (n_{px} + n_{py} - 2),

则其间的置信区间基本上保证第一峰(x)和第二峰(y)的分组。

在实现中并且如对本公开内容其余部分所引用的，比较第一峰(x)的保留时间的方差与第二峰(y)的保留时间的方差被称为F-假设。在实现中，F-假设被用来测试第一峰(x)与第二峰(y)的保留时间的方差是否基本相同，使得其间的置信区间潜在地保证第一峰(x)与第二峰(y)的分组。

现在参照图19，公开了比较第一峰(x)的方差与第二峰(y)的方差的实现。首先，对于给定的显著性水平，F-统计是根据以下等式在步骤S764确定的：

F = \frac{s_{px}^{2}}{s_{py}^{2}}

在实现中，置信区间可以在S768用来扩展的值，关于其，以下等式仅仅是归结这种置信区间的一个例子：

[F (1 - \frac{α}{2}, n_{px} - 1, n_{py} - 1), F (\frac{α}{2}, n_{px} - 1, n_{py} - 1)]

在S772，第一峰(x)和第二峰(y)的保留时间的方差基本相同，使得，如果

F (1 - \frac{α}{2}, n_{px} - 1, n_{py} - 1) \leq F \leq F (\frac{α}{2}, n_{px} - 1, n_{py} - 1) .,

则其间的置信区间基本上保证第一峰(x)和第二峰(y)的分组。

在大尺寸的数据集中，从处理角度看，每次都计算峰之间的F-统计可能太迟钝了。在实现中，可以帮助加速该过程的确定F-统计的备选方法包括在系统中存储预先确定的F-统计值。预先确定的F-统计值是利用单值分解计算的并且存储在系统的存储器中。在实施例中，存储在存储器中的表可以包括以下F-统计信息：

{Ftable}_{1 - \frac{α}{2}} (i, j) = F (1 - \frac{α}{2}, i, j), where i = 1, . . ., 1000; j = 1, . . ., 1000

在实现中，该表还可以通过如下对预先计算的F-统计实现单值分解来分解：

{Ftable}_{1 - \frac{α}{2}} (i, j) = Σ_{p = 1}^{3} u_{ip} Λ_{pp} v_{jp}

或者

{Ftable}_{1 - \frac{α}{2}} (i, j) = Σ_{p = 1}^{3} {FtableX}_{ip} Ftable Y_{jp}

因此，分解后的表将存储六千(6000)个值，而不是一百万(1,000,000)个值，由此减少了存储器需求并且提高了计算速度，因为只有FtableX和FtableY。此外，Ftable(i,j)可以通过以上等式重构。

有两个表可以用来计算α/2和1-α/2的两侧尾部F-统计。对于大于1000的自由度的情况，在重构F-统计时使用值1000：

\begin{matrix} F (1 - \frac{α}{2}, n_{px} - 1, n_{py} - 1) = {Ftable}_{1 - \frac{α}{2}} (\max (n_{px} - 1,1000), \max (n_{py} - 1,1000)), \\ F (1 - \frac{α}{2}, n_{px} - 1, n_{py} - 1) = {Ftable}_{\frac{α}{2}} (\max (n_{px} - 1,1000), \max (n_{py} - 1,1000)) . \end{matrix}

一旦识别出因子并且为因子选择了适当估计的浓度分布，所估计的峰形状就可以与具有已知参数的选定曲线进行比较(S370)。在实现中，估计的浓度分布被归一化并且之后与一个或多个预确的、预先计算的曲线相比较。归一化可以由通过重新采样过程进行拉伸或收缩来提供并且之后使其居中以与预先计算的曲线的宽度和中心相匹配。

之后计算新的数据与预定义曲线集合之间的相关性(S380)，并且用于最佳匹配的偏度和峰度值被选择作为优化的种子(S390)。

在实现中，Pearson函数被用来分配预先计算的曲线，优选地是Pearson IV曲线。Pearson IV曲线可以被提到具有五个参数：(i)高度；(ii)中心；(iii)宽度；(iv)偏度(第三矩)；和(v)峰度(第四矩)。在实现中，预先计算的曲线是偏度和峰度中至少一个的排列，而其余参数保持恒定，使得之后对于每个排列记录并保存峰形状。应当理解，其它排列也可以使用，并且权利要求不应当如此限制到这里公开的示例性实现。例如，其中，高度和偏度可以改变，同时保持中心、宽度和峰度为恒定的值。

应当理解，这里描述的系统和技术的各种实现可以以数字电子电路、集成电路、特殊设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合来实现。这些各种实现可以包括可以在可编程系统上执行和/或解释的一个或多个计算机程序中的实现，该可编程系统包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备，其中至少一个可编程的处理器可以是专用或通用的，并且耦合成从存储系统接收数据和指令并且向存储系统发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程性和/或面向对象的编程语言和/或以汇编/机器语言实现。如这里所使用的，术语“机器可读介质”、“计算机可读介质”指的是用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的系统和技术可以在具有用于将信息显示给用户的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示)监视器)以及用户用其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)的计算机上实现。其它种类的设备也可以用来提供与用户的交互，例如，提供给用户的反馈可以是任何形式的传感器反馈(例如，视觉反馈、音频反馈或触觉反馈)，并且来自用户的输入可以以任何形式，包括声音、语音或触摸输入，来接收。

这里描述的系统和技术可以在计算系统中实现，该计算系统包括后端组件(例如，数据服务器)，或者包括中间设备组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面或网络浏览器的客户端计算机，通过图形用户界面或网络浏览器，用户可以与这里描述的系统和技术的实现交互)，或者包括诸如后端、中间设备或前端组件的任何组合。系统的组件可以由任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的例子包括局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序来实现。

本说明书中描述的主题和功能操作的实现可以在数字电子电路中，或者在包括本说明书中公开的结构以及它们的结构等价物的计算机硬件、固件或软件中，或者在它们中一个或多个的组合中。本说明书中所述主题的实现可以实现为一个或多个计算机程序产品，即，在计算机可读介质上编码的计算机程序指令的一个或多个模块，用于由数据处理设备执行或者控制数据处理设备的操作。计算机可读介质可以是机器可读存储设备、机器可读存储衬底、记忆设备、实现机器可读传播信号的物质组成，或者其中一个或多个的结合。术语“数据处理装置”涵盖用于经由例如可编程处理器、计算机或多个处理器或计算机来处理数据的全部装置、设备和机器。除硬件之外，装置可以包括对所讨论的计算机创造执行环境的代码，例如，构成处理器固件、协议堆栈、数据库管理系统、操作系统或它们中一个或多个的组合的代码。传播信号是人工产生的信号，例如，机器产生的电、光或电磁信号，这种信号被产生，以便对信息进行编码，用于将其传送到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言来书写，包括编译或解释语言，并且可以以任何形式来部署，包括作为独立程序或作为模块、组件、子例程或适于用在计算环境中的其它单元。计算机程序不必对应于文件系统中的文件。程序可以存储在保持其它程序或数据的文件的一部分中(例如，存储在标记语言文件中的一个或多个脚本)、存储在专用于所讨论的程序的单个文件中，或者存储在多个相关联的文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以被部署成在位于一个地点或分布到多个地点并且由通信网络互连的一个计算机或多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器来执行，以通过对输入数据操作并产生输出来执行功能。过程和逻辑流程也可以由特殊用途逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行，或者设备也可以被实现为特殊用途逻辑电路。

作为例子，适于执行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。一般地，处理器将从只读存储器或随机存取存储器或这二者接收指令和数据。计算机的关键元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。一般地，计算机也将包括或者被可操作地耦合到用于存储数据的一个或多个大容量存储设备，例如，磁盘、磁光盘或光盘，以便从其接收数据或将数据传递过去。但是，计算机不需要具有这种设备。而且，计算机可以被嵌入另一个设备，例如移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器，这仅仅是几个例子。适于存储计算机程序指令和数据的计算机可读介质包括各种形式的非易失性存储器、介质和存储器设备，作为例子，包括半导体存储器设备，例如，EPROM、EEPROM和闪存存储器装置；磁盘，例如，内置硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以例如由特殊用途逻辑电路补充或结合在其中。

为了提供与用户的交互，本说明书中描述的主题的实现可以在计算机上实现，其中计算机具有用于将信息显示给用户的显示设备，例如，CRT(阴极射线管)或LCD(液晶显示)监视器，以及用户可以由其向计算机提供输入的键盘和定点设备，例如，鼠标或轨迹球。其它类型的设备也可以用来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感器反馈，例如，视觉反馈、音频反馈或触觉反馈；并且来自用户的输入可以以任何形式接收，包括声音、语音或触摸输入。

虽然本说明书包括许多细节，但是这些不应当被理解为对本发明范围或者要求保护的范围的限制，而是作为对特定于本发明特定实现的特征的描述。在本说明书中、在独立实现的语境中描述的某些特征也可以在单个实现中结合实现。相反，在单个实现的语境中描述的各个特征也可以分离地或者以任何合适的子结合在多个实现中实现。而且，虽然以上的描述中可以将特征描述为以某些组合发挥作用并且甚至最初就是这样要求保护的，但是，在有些情况下，来自一个要求保护的组合的一个或多个特征可以从该组合中删去，并且要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定顺序图示了操作，但是这不应当被理解为，为了实现期望的结果，要求这些操作以示出的特定次序或顺序次序执行，或者全部说明的操作都要被执行。在某些环境中，多任务和并行处理可以是有利的。而且，上述实现中各种系统组件的分离不应当被理解为在全部实现中都需要这种分离，并且应当理解，所描述的程序组件和系统一般可以被一同集成到单个软件产品中或封装到多个软件产品中。

已经描述了大量实现。然而，应当理解，在不背离本公开内容主旨与范围的情况下可以进行各种修改。例如，可以使用上文示出的流程的各种形式，其中步骤可以被重新排序、增加或去除。而且，虽然已经描述了系统和方法的若干应用，但是应当认识到，各种其它应用也是预期的。因此，其它实现在以下权利要求的范围中。

Claims

1.一种处理来自色谱、质谱系统中数据获取系统的数据的方法，包括：

处理数据，以生成处理后的数据；

分析处理后的数据，以从中提取噪声；以及

准备并提供关于处理后的数据的结果。

2.如权利要求1所述的方法，其中数据包括长簇和短簇并且处理步骤包括：

分离长簇与短簇；

过滤数据以平滑数据，由此产生过滤后的簇；

把过滤后的簇分成子簇；以及

证明子簇的资格，以便从其中提取不期望的子簇。

3.如权利要求2所述的方法，其中分离步骤还包括：

把数据分离成块；

估计每块中心基线的强度；

在每块的等距四分位点之间线性内插，以产生基线估计；

剪切基线水平之上的数据并且保留该基线以下的数据；以及

平滑剪切后的数据，以产生基线的改进版本。

4.如权利要求3所述的方法，其中每块的长度是数据的预期全宽半高的倍数。

5.如权利要求3所述的方法，其中每块的长度被估计为是数据的预期全宽半高的五倍。

6.如权利要求3所述的方法，其中平滑步骤涉及Savitzky-Golay平滑算法的应用。

7.如权利要求3所述的方法，其中块中心基线的强度的估计是基于该块下四分位中基线的强度。

8.如权利要求2所述的方法，其中资格证明步骤包括以下至少一个：

选择具有大于阈值信噪比的信噪比的子簇；

选择具有大于阈值质量的峰形状的子簇；以及

选择具有最小簇长度的子簇。

9.如权利要求8所述的方法，其中阈值信噪比是10。

10.如权利要求8所述的方法，其中噪声是四分之一(1/4)离子面积的预定义获取噪声。

11.如权利要求8所述的方法，其中噪声是原始簇数据和平滑后的簇数据之间残差的标准差。

12.如权利要求8所述的方法，其中，如果具有小于阈值信噪比的信噪比的子簇是同位素或加合物，则它们仍然在因子分析中使用。

13.如权利要求8所述的方法，还包括步骤：

从峰的左和右侧修剪子簇的基线。

14.如权利要求13所述的方法，其中修剪步骤还包括：

从末端到中心扫描子簇中的原始数据；

识别在每个末端强度上升到高于阈值的地方为新的端点；

丢弃新端点之外的数据。

15.如权利要求14所述的方法，其中阈值是子簇的标准差的四倍。

16.如权利要求8所述的方法，其中阈值质量是基于子簇的拟合和预定义曲线之间的相关性。

17.如权利要求16所述的方法，其中预定义的曲线是双-高斯曲线。

18.如权利要求16所述的方法，其中阈值相关性是0.6。

19.如权利要求17所述的方法，其中阈值相关性是0.8。

20.如权利要求2所述的方法，其中过滤步骤使用无限脉冲响应滤波器。

21.如权利要求2所述的方法，其中过滤步骤包括：

识别数据中的最大峰；

估计所识别出的峰的全宽半高；

对照查找表匹配估计出的全宽半高，以识别一个或多个优化的滤波器系数；

基于优化的滤波器系数平滑数据；以及

为每个簇识别噪声图。

22.如权利要求21所述的方法，其中优化的滤波器系数是一组正向和反向二级无限脉冲响应滤波器系数。

23.如权利要求22所述的方法，其中噪声图是平滑数据和原始数据之间残差的标准差。

24.如权利要求23所述的方法，其中噪声图分配给偏离簇的每个子簇。

25.如权利要求22所述的方法，其中优化的系数是根据以下步骤计算的：

在每个预期的全宽半高形成高斯峰；

向高斯峰添加噪声，由此产生带噪声的高斯峰；以及

优化高斯峰，以便以基本上最小化噪声高斯峰和高斯峰之间残差的方式调整滤波器系数。

26.如权利要求25所述的方法，其中优化步骤使用非线性Levenberg-Marquardt过程。

27.如权利要求2所述的方法，其中簇具有峰和谷并且划分步骤还包括：

识别过滤后的簇中的每个实例，其中位于两个峰之间的谷具有小于两个峰的定义的强度的最小值点；以及

如果有，基于每个识别出的实例把簇分离成子簇。

28.如权利要求19所述的方法，其中定义的强度是或者大约是两个峰之一或二者的强度的一半。

29.如权利要求2所述的方法，其中分析步骤还包括：

确定用于因子分析的显著性因子；以及

提供那些因子的初始种子估计。

30.如权利要求29所述的方法，还包括：

消除较低质量的峰。

31.如权利要求2所述的方法，其中分析步骤还包括：

在数据中选择基础峰；

评估并关联所有局部数据与该基础峰；

组合具有预定最小相关值的局部数据与该基础峰，以创建因子；以及

为该因子估计频谱。

32.如权利要求31所述的方法，其中基础峰是手动选择的。

33.如权利要求31所述的方法，其中数据集中的最强子簇峰被选作基础峰。

34.如权利要求31所述的方法，其中最小相关性值是0.6。

35.如权利要求34所述的方法，还包括：

A)一旦识别出基础峰，就在其余数据中选择下一个最强的峰作为下一个因子；

B)在完成步骤(A)之后，选择其余数据中下一个最强的峰作为下一个因子；以及

C)重复步骤(B)，直到为所有子簇都分配了因子。

36.如权利要求31所述的方法，还包括：

比较相关性阈值和相关置信区间之一或者二者都比较，以便把在组合步骤中组合但不应当被组合的局部数据分离成分离因子。

37.如权利要求36所述的方法，其中比较步骤还包括：

选择因子中最强的子簇；

确定基本子簇和该因子中至少一个其它子簇之间的相关性；

为这至少一个子簇确定顶点位置置信区间；

把具有以下条件的子簇分组到一起：(i)重叠基础峰；以及(ii)与大于定义的相关性阈值的基础峰相关，其中每个分组都是因子。

38.如权利要求36所述的方法，还包括：

为每个因子计算平均浓度分布。

39.如权利要求38所述的方法，其中计算步骤利用多元曲线分辨率方法来为每个因子确定平均浓度分布。

40.如权利要求39所述的方法，其中计算出的平均浓度分布用作每个因子的估计的峰形状。

41.如权利要求38所述的方法，还包括：

测量平均浓度分布的峰质量；以及

除去具有小于阈值峰质量的峰质量的数据。

42.如权利要求41所述的方法，其中测量步骤是通过确定每个浓度分布的拟合的残差的偏差来计算的。

43.如权利要求42所述的方法，其中偏差是双-高斯系统中的标准差。

44.如权利要求41所述的方法，其中阈值峰质量是0.5。

45.如权利要求44所述的方法，其中输入相关性参数是手动录入的。

46.如权利要求40所述的方法，还包括：

比较估计的峰形状与至少一个预先选择的曲线。

47.如权利要求46所述的方法，还包括：

在比较步骤之前归一化估计出的峰形状，以确定归一化的估计的峰形状。

48.如权利要求47所述的方法，其中归一化步骤包括通过重新采样过程拉伸或收缩中至少一个，然后使估计出的峰形状居中，以匹配至少一个预先选择的曲线的宽度和中心。

49.如权利要求47所述的方法，还包括：

计算归一化的峰形状和至少一个预先选定的曲线之间的相关性。

50.如权利要求49所述的方法，其中用于最佳匹配的偏度和峰度值被选择作为用于优化的种子。

51.如权利要求46所述的方法，其中至少一个预先选定的曲线是从Pearson IV函数生成的。

52.如权利要求51所述的方法，其中至少一个预先选定的曲线是偏度和峰度中至少一个的排列，而其余的参数保持恒定，使得峰形状其后为每个排列记录并保存。

53.如权利要求1所述的方法，还包括：

检查用于与同位素和加合物之一或二者关联的信息的数据；

选择该关联的数据；

证明该关联数据的资格；以及

如果该关联数据有资格，就把其分配给因子。

54.如权利要求53所述的方法，其中资格证明步骤包括：

对照因子计算数据的相关性；以及

如果相关性大于最小相关性，就把其分配给因子。

55.如权利要求54所述的方法，其中最小相关性是0.9。

56.如权利要求36所述的方法，还包括：

识别利用因子被不正确地分组的同位素/加合物；以及

把这样识别出的同位素/加合物重新分配给正确的因子。

57.如权利要求56所述的方法，其中识别步骤包括：

比较因子的浓度分布与相邻因子的浓度分布，以识别相关性；

如果第一因子的浓度分布与相邻因子的浓度分布之间的相关性大于阈值相关性，就检查该相邻因子，以便从第一因子定位同位素/加合物；以及

基于检查步骤把同位素/加合物重新分配给第一因子。

58.如权利要求57所述的方法，其中阈值相关性是0.9。

59.如权利要求36所述的方法，其中相关性参数是用户定义的。

60.如权利要求36所述的方法，还包括：

防止因子分裂。

61.如权利要求60所述的方法，其中防止步骤包括：

确定基于因子内基础同位素/加合物子簇和该因子内其它子簇之间的平均相关性的局部相关性阈值；

关联该因子和最近因子的浓度分布；以及

如果相关性大于局部相关性阈值，则合并该因子与所述最近因子。

62.如权利要求61所述的方法，还包括：

如果因子被合并，则关联该因子与下一个最近因子的浓度分布。

63.如权利要求61所述的方法，其中阈值相关性是0.9。

64.如权利要求8所述的方法，其中最小簇长度是5个棒。

65.如权利要求60所述的方法，其中防止步骤包括：

基于其间的一个或多个条件比较第一峰和第二峰；以及

基于所述一个或多个条件把第一和第二峰归类为相关或不相关，其中比较步骤包括以下一个或两个步骤：(i)比较第一峰的方差和第二峰的方差；以及(ii)比较第一峰的均值保留时间和第二峰的均值保留时间。

66.如权利要求65所述的用于处理色谱系统中色谱峰的方法，其中比较步骤既比较第一峰的方差和第二峰的方差，又比较第一峰的均值保留时间和第二峰的均值保留时间。

67.如权利要求66所述的用于处理色谱系统中色谱峰的方法，其中比较第一峰的方差和第二峰的方差的步骤包括子步骤：

确定第一峰和第二峰之间的F-统计；

分配与t-统计相关的F-统计置信区间；

比较F-统计置信区间与预定的t-统计参数；

基于比较F-统计置信区间与预定F-统计参数的步骤，把第一峰和第二峰特征化为相关或不相关。

68.如权利要求66所述的用于处理色谱系统中色谱峰的方法，其中比较第一峰的均值保留时间和第二峰的均值保留时间的步骤包括子步骤：

确定第一峰和第二峰之间的t-统计；

分配与F-统计相关的t-统计置信区间；

比较t-统计置信区间与预定的F-统计参数；

基于比较t-统计置信区间与预定的F-统计参数的步骤，把第一峰和第二峰特征化为相关或不相关。

69.如权利要求66所述的用于处理色谱系统中色谱峰的方法，其中比较第一峰的均值保留时间和第二峰的均值保留时间的步骤包括子步骤：

确定第一峰和第二峰之间的t-统计；

分配与F-统计相关的t-统计置信区间；

比较t-统计置信区间与预定的F-统计参数；

并且其中比较第一峰的方差和第二峰的方差的步骤包括子步骤：

确定第一峰和第二峰之间的F-统计；

分配与t-统计相关的F-统计置信区间；

比较F-统计置信区间与预定的t-统计参数；

基于(i)比较t-统计置信区间与预定的F-统计参数的步骤和(ii)比较F-统计置信区间与预定的t-统计参数的步骤，把第一峰和第二峰特征化为相关或不相关。

70.如权利要求66所述的用于处理色谱系统中色谱峰的方法，其中色谱系统包括具有F-统计查找表的存储器并且其中确定F-统计的步骤包括在查找表上查找F-统计的步骤。

71.如权利要求70所述的用于处理色谱系统中色谱峰的方法，其中F-统计查找表包括利用单值分解计算出并且存储在系统存储器中的预定F-统计值。

72.如权利要求69所述的用于处理色谱系统中色谱峰的方法，其中色谱系统包括具有F-统计查找表的存储器并且其中确定F-统计的步骤包括在查找表上查找F-统计的步骤。

73.如权利要求72所述的用于处理色谱系统中色谱峰的方法，其中F-统计查找表包括利用单值分解计算出并且存储在系统存储器中的预定F-统计值。

74.如权利要求35所述的用于处理色谱系统中色谱峰的方法，其中因子包括一个或多个峰并且a1、σ1、a2和σ2一般对多个峰中每一个受约束，该方法还包括：

利用双指数模型建模一个或多个色谱峰并且识别一个或多个色谱峰和双指数模型之间的残差拟合；以及

如果残差拟合不满足残差拟合的预定条件，则迭代地增加信号再多一个峰，直到迭代的残差满足迭代残差拟合的预定条件。

75.如权利要求74所述的处理数据的方法，其中迭代增加的步骤涉及优化信号。

76.如权利要求75所述的处理数据的方法，其中信号是通过使用Levenberg-Marquardt(LM)算法优化的。

77.如权利要求76所述的处理数据的方法，其中LM算法是利用解析表达式计算的。

78.如权利要求36所述的用于处理色谱系统中色谱峰的方法，其中因子包括一个或多个峰并且a1、σ1、a2和σ2一般对多个峰中每一个受约束，该方法还包括：

79.如权利要求78所述的处理数据的方法，其中迭代增加的步骤涉及优化信号。

80.如权利要求79所述的处理数据的方法，其中信号是通过使用Levenberg-Marquardt(LM)算法优化的。

81.如权利要求80所述的处理数据的方法，其中LM算法是利用解析表达式计算的。