CN104364624B

CN104364624B - 用于确定混合物谱中的谱成分存在的系统和方法

Info

Publication number: CN104364624B
Application number: CN201380027527.7A
Authority: CN
Inventors: 理查德·杰克逊; 王茜
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-05-31
Filing date: 2013-05-30
Publication date: 2016-06-08
Anticipated expiration: 2033-05-30
Also published as: EP2859313A1; WO2013181429A1; EP2859313B1; EP2859313A4; CN104364624A; US20130325400A1

Abstract

本发明公开了一种系统和方法，用于检测一种混合物的谱中未知成分的谱和/或用于验证一种混合物的谱中疑似成分的存在。该系统和方法涉及使用算法执行一个包含混合中的这些目标谱和已知谱的回归分析，计算当该目标谱的系数为零时的一个残差，被称为提取谱，并且对比该提取谱和该目标谱。该系统和方法可以与化学计量学算法、多个已知谱、和/或多个目标谱一起使用。

Description

用于确定混合物谱中的谱成分存在的系统和方法

相关申请的交叉引用

本申请要求于2012年5月31日提交的标题为“用于确定混合物的谱中的谱成分存在的算法和方法”的共同未决的美国临时专利申请序列号61/653743的优先权，其披露内容通过引用以其整体结合在此。

所引用的专利和参考资料：

以下文件和参考资料通过引用以其整体结合在此，霍尔特(Hoult)(美国专利第5,023,804号)、伊瓦尔迪(Ivaldi)等人(美国专利第5,308,982号)、里特(Ritter)等人(美国专利第7,698,098号)、博通吉奇-塞希奇(Botonjic-Sehic)等人(美国专利申请第2011/0213746号)、K.田边(K.Tanabe)等人，分析化学47，118(1975)，、彼得R.格里菲思(PeterR.Griffiths)等人的“自加权相关系数以及它们对于测量谱相似性的应用(Self-WeightedCorrelationCoefficientsandTheirApplicationtoMeasureSpectralSimilarity)”，应用波谱学(Appl.Spec.)，第63卷，第916至919页(2009)、“为使用一种谱搜索算法鉴别的混合物成分估计概率置信度(EstimatingProbabilisticConfidenceforMixtureComponentsIdentifiedUsingaSpectralSearchAlgorithm)”，应用波谱学，第66卷，第334-340页(2012)。

技术领域

本发明涉及数据分析，并且更具体地是一种用于确定混合物的谱成分的系统和方法。

背景技术

将一种样品的谱与一个参考谱进行对比以验证或鉴别该样品在分析化学中是一种常规做法。用于这个目的的这些类谱的实例包括但不限于红外谱、近红外谱、拉曼谱、质谱、紫外-可见谱、以及核磁共振(NMR)谱。有很多用于这种谱对比的度量(metrics)，包含欧氏(Euclidian)距离、最大距离、以及相关系数。

当对比纯样或成分的谱、或混合物的谱，其中该样品谱和参考谱包含相似浓度的相同成分时，这些度量效果良好。当将一种混合物的样品谱与包含在该混合物中的一种纯成分的参考谱进行对比时，或者与一种与该样品谱中成分相同但浓度不同的混合物的参考谱进行对比时，它们却表现不佳，并且事实上可能表现非常糟糕。在本文中应该注意的是“混合物”并不必定是指这些成分是物理混合的，而是它们都对该谱有贡献。

当使用该术语谱(或这些谱)时，我们指的是如所测量原样的这些数据和/或是所述数据的任何的后续数学转换，包含导数(包含一阶、二阶、三阶以及任何后续导数)、平滑处理、基线校正等。

本发明是一种改进的对比系统及方法，用于当一个样品谱为多种成分的混合物时。这样一种混合物可包含已知存在的成分、疑似存在但其存在需确定的成分、需鉴别的未知成分、或其任何组合。已知存在的这些成分可能已经通过任何方法得以鉴别，包含通过应用以上提到的那些简单对比度量、或通过应用此处描述的对比方法。

当要被鉴别或确认的成分的浓度相比其他成分的浓度较小时，与其他对比度量相比本发明表现特别好。在某些情况下，当该样品谱中的两个或更多个成分为未知时，它也表现良好。

发明内容

这部分的目的是总结本发明的一些方面并且简略介绍一些优选实施方式。为避免模糊这部分的目的可能进行了简化或省略。这样的简化或省略不是有意限制本发明的范围。

所有的参考资料，包含在本说明书中所引用的任何专利或专利申请都通过引用结合在此。不承认任何参考资料构成现有技术。对这些参考资料的讨论陈述了其作者的主张，并且诸位申请人保留怀疑所引用文件的准确性和针对性的权利。将会清楚理解的是，尽管多个现有技术公开物被引用在此，但是此引用不承认这些文件中的任一个形成在现有技术中的公知常识。

确认的是术语“包括”可以(在不同的法律管辖范围内)被归为一种封闭性的或开放性的意思。对于本发明的目的，并且除非另有注明，术语“包括“应有包含的意思-即，将用来指包含不仅它直接引用的这些所列成分，还有其他非指定的成分或元素。当术语“包括了”或“包括有”与一种方法或工艺中的一个或多个步骤相关地使用时，也将使用此理论。

在一个方面，本发明是关于一种用于确定在一种混合物中的谱成分存在的方法，所述方法包括执行一种回归分析，该回归分析包含目标谱以及一种混合物中存在的一个或多个已知的其他成分谱，计算提取谱，其中所述提取谱为该目标谱的系数被设为零的情况下的残差(residual)，并且使用一种对比度量对比所述提取谱与所述目标谱。在另一个方面，所述对比度量为一个相关系数、加权相关系数、欧氏距离和/或最大距离中的至少一个。又另一个方面，所述加权相关系数中的这些权重不都相同。

在另一个方面，它是关于对比所述提取谱与残差谱。在一个方面，所述方法以一种迭代方式使用。在另一个方面，所述回归分析包括一个基线谱或其他成分的谱。在一个方面，所述回归分析谱包括导数谱或乘以一个包络函数的导数谱。又另一个方面，它是关于使用一个或多个回归系数来计算浓度。在一个方面，该方法进一步包括一种目标成分的多个谱以及一种已知成分的多个谱中的至少一个。

在另一个方面，在所述混合物中存在多个目标并且对于每个不同目标使用不同的谱区。在一个方面，使用多个谱区。又另一个方面，一种鉴别的或目标成分的多个谱被因子化，并且这些因子的一个子集包含在所述回归分析中。在另一个方面，对不同目标成分执行两次或更多次回归分析。

在一个方面，本发明关于该方法进一步包括将多个目标谱因子化，将这些要被分析的谱和这些已知成分的谱投影到因子空间中，在该因子空间中执行所述回归分析，并且在该因子空间中对比该提取谱和这些目标谱，或者将该提取谱投影回到该原始谱空间并且在该原始谱空间中执行在该提取谱与这些目标谱之间的对比。

在一个方面，该方面进一步包括对于数个成分中的每一个将数个目标谱分组成簇，使用这些目标谱的平均值、全部目标谱或者使用在每个簇中这些目标谱的这些因子的一个子集对每个簇中的这些目标谱执行所述回归分析，为每个簇计算提取谱并且对比这些提取谱与目标谱的这些簇来确定该目标谱属于哪一个(如果有的话)簇。又另一个方面，这些回归分析中包含一种已知成分的多个谱，或者这些回归分析中包含一种已知成分的多个谱的因子载荷(factorloadings)的一个子集。在一个方面，使用一个相关系数、一个加权的相关系数、一个欧氏距离、或最大距离执行这些对比。又另一个方面，它进一步包含对比这些提取谱与这些残差谱。在另一个方面，这些回归分析包含一个基线谱或其他成分谱。在一个方面，使用多个谱区。在另一个方面，该方法使用一个或多个回归系数来计算浓度。

在一个发明，该方面包括对于数个目标成分中的每一个将数个目标谱因子化，将这些因子分组成簇，将这些要被分析的谱和这些已知成分的谱投影到因子空间中；使用这些目标谱的这些因子的平均值、或这些目标谱的全部这些因子，在该因子空间中对每个簇的这些目标谱执行所述回归分析，为每个簇计算该提取谱，并且在该因子空间中对比这些提取谱和目标谱，或者将这些提取谱投影回该原始谱空间并且在该原始谱空间中在这些提取谱与这些目标谱之间执行对比，以确定该目标谱属于哪一个(如果有的话)簇。

在另一个方面，该回归分析中包含一种已知成分的多个谱。又另一个方面，使用一个相关系数、一个加权的相关系数、一个欧氏距离、或一个最大距离。在一个方面，它进一步包括对比这些提取谱与这些残差谱。又另一个方面，这些回归分析包含一个基线谱或其他成分谱。在另一个方面，使用多个谱区。在另一个方面，该方法包括使用一个或多个回归系数来计算浓度。

在一个方面，本发明是关于一种用于存储计算机代码的非瞬时性计算机可读存储介质，该计算机代码用于一种用于确定混合物中谱成分的存在的方法，所述方法包括执行一种回归分析，该回归分析包括目标谱以及在一种混合物中存在的一个或多个已知的其他成分谱；计算所述提取谱，其中所述提取谱为该目标谱的系数被设为零的情况下的残差；以及使用一种对比度量来对比所述提取谱与所述目标谱。

通过结合附图对以下一个本发明实施方式的详细说明的查看，本发明的其他特征和优点将变得清晰。

附图说明

图1根据本发明的一个示例性实施方式展示了在水蒸气的存在下100ppm的氧化亚氮(NO)的谱(虚线)以及水蒸气的谱(实线)的图示。

图2根据本发明的一个示例性实施方式展示了在水蒸气的存在下100ppm的NO的谱(实线)以及该残差谱(虚线)的图示。

图3根据本发明的一个示例性实施方式展示了NO的目标谱(虚线)以及提取谱(实线)的图示。

图4展示了用于计算NO的部分相关系数的这些残差谱的图示。

图5A-5C展示了来自在100ppm的NO样品谱中一氧化碳和一氧化二氮的分析的这些谱的图示。图5A为一氧化二氮的目标谱(虚线)以及来自第二次分析的提取谱(实线)。图5B为一氧化碳的目标谱(虚线)以及来自第一次分析的提取谱(实线)。图5C为样品谱。以上均为根据本发明的示例性实施方式。

图6根据本发明的一个示例性实施方式展示了使用拉曼谱仪采集到的一个瓶内的药品的水溶液的谱(实线)、该瓶的谱(虚线)、水的谱(点虚线)、以及该药品的目标谱(点线)的图示。

图7A-7C展示了来自一个瓶中的药品的水溶液的拉曼谱的分析的这些目标谱(7A)、提取谱(7B)以及残差谱(7C)的图示。以上均为根据本发明的示例性实施方式。

图8根据本发明的一个示例性实施方式展示了来自于未转换的数据(底)的该药品(顶)目标谱以及该提取谱的图示。

图9-10展示了混合物谱的实例簇，图9，以及目标成分的谱，图10。

从以下详细说明、附图、以及所附权利要求书中，本领域的普通技术人员将会领会和理解上述以及其他特征。

具体实施方式

为提供对本发明的全面理解，现在将说明某些说明性实施方式和实例。然而，本领域的普通技术人员将会理解的是相同或等价的功能和顺序可以通过不同的实施方式完成，这些实施方式也旨在包含于本披露的精神和范围内。这里描述的这些组合物、仪器、系统和/或方法可以被适配并修改为对于试图解决的应用而言是适当的，并且这里描述的那些可以用于其他合适的应用，并且这样的其他的添加和修改将不背离本发明范围。

在一个实施方式中，使S为一种样品的谱，该样品由具有谱K₁...K_n的n个成分组成。假设服从比尔-朗伯定律，该样品谱可被建模为：

S = Σ_{i = 1}^{n} (c_{i} \cdot K_{i}) + R

其中K为这些样品成分的参考谱的矩阵，c₁...c_n为未知系数并且R为一个残差项，或误差项。对于这些系数c₁...c_n的方程式的最小二乘解可以通过标准矩阵代数发现。这是一种本领域中众所周知的技术，并且在标准化学计量学术语中通常被称为经典最小二乘法(CLS)，或K矩阵，回归分析。将领会的是虽然最小二乘法是用来确定这些系数c₁...c_n的最常见的方法，但是可以使用其他技术。例如，最大可能性可被用来实现一种类似的结果。在一个实施方式中，以上该方程式中假设所有谱的数据点具有相同的横坐标值。若这不是该情况，那么这些谱可在该回归分析前被内插到相同的横坐标值。约束条件，如非负性，可应用在该回归分析中。

如在现有技术中众所周知的，通过将一个或多个列添加到矩阵K中可以将一个基线加入到该回归分析。例如，添加一列一(多个1或1’)将在该回归分析中包含一个偏移；添加一列1以及一个包含这些横坐标值的列，如波数(或波长)值，将在该回归分析中包含一个线性基线。添加一个列1，一个包含波数(或波长)值的列以及一个包含波数(或波长)值的平方的列将在该回归分析中包含一个二次基线，等。

这些额外的列可被认为是额外的参考谱，并且n相应地增加。其他参考谱也可添加到该矩阵K来考虑这些谱数据中的测量误差或其他偏差(在其他方式中将不会在该模型中考虑这些误差或偏差)。例如，伊瓦尔迪(Ivaldi)等人的US5,308,982说明了包含导数谱、或乘以包络函数的导数谱，以考虑在该样品谱S与K中的这些谱之间横坐标上的变化。

在本申请的上下文中，在该回归分析中包含该样品谱的导数将补偿在该样品谱S与K中的这些谱之间横坐标上的移位。简单的一阶导数谱可以被乘以一个直线包络函数的一阶导数谱所替代，该直线包络函数从左边的-I变化到右边的+I。在该模型中包含此修改的导数将允许补偿具有零平均移位的尺度(scale)扩大/压缩。明显地，可将该简单移位补偿以及该扩大/压缩补偿结合以补偿一个更一般的尺度变化。该横坐标尺度的任何复杂扭曲效果可通过包含更高阶的包络函数来建模。一个恒包络函数对应于一个简单移位。一个线性包络函数对应于一个尺度扩大或压缩。一个抛物线包络函数对应于该谱二分之一的压缩和另二分之一的扩大等。事实上，这些补偿函数的整个族由以下组成：所有阶导数谱各自与这些阶包络函数之一结合地相乘。谱扭曲可能原因的知识将有助于将这个集合限制于可控比例。

若每个谱包含m个数据点，那么我们可以将其以矩阵记号书写为：

S＝K·c+R

其中S和R为m×1矩阵，K为参考谱的一个m×n矩阵，并且c为一个n×1的系数矩阵。经常地，K中表示的这些成分为目前已知的，并且该回归分析的目标是寻找这些系数c，然后这些系数c可以被用来计算它们的相对浓度。然而，在某些情况下，这些成分之一可能是一种需要被鉴别的未知成分或一种在该混合物中其存在需要被确定的疑似成分。如果我们将此成分指定为该目标成分，并将此成分的谱指定为T(目标谱)，那么为了简便我们可以将该方程式重写为：

S＝T·c₀+K’·c’+R

其中S、T以及R为m×1矩阵，K’为一个m×(n-1)的已知成分参考谱矩阵，该已知成分参考谱矩阵不包含T中的谱，c’为一个(n-1)×1的系数矩阵，并且c₀为一个标量系数。应该注意的是在该回归分析中，在该目标和已知成分的这些谱之间在数学上没有区别。其区别在这里仅仅是为了清楚说明该方法的目的。

常规做法是通过检验残差R的大小来判断这些上述方程表示的模型的质量。如果这些残差相对于谱S较小，那么该模型被认为是良好的。这里，“小”可以指平均值或均方根(RMS)意义上的小，或它可以指这些残差必须在该谱中的所有点上都小(参见伊瓦尔迪(Ivaldi)等人的US5,308,982)。

其他方法也可用来判断该模型的质量，例如计算对比度量，如该谱S与该总和谱T·c₀+K’·c’之间的相关系数(参见里特(Ritter)等人的US7,698,098)。只要该项T·c₀在数量上大于或大致相似于该项K’·c’(即，该目标谱T是该样品谱的一个实质性的部分)以上所给的这些对比度量通常(虽然不总是)该目标谱存在的合理指示。

然而，如果该目标成分对该谱S的贡献非常小，那么以上所给的这些对比度量对该目标成分的存在是非常糟糕的指示。这是因为仅这些已知成分K’的回归分析将导致对该样品谱S的非常好的拟合，从而产生一个非常小的残差(接近于零)以及一个高的相关系数(接近于一)。将一种目标成分的谱添加到此回归分析必定减小这些残差的数量并且增大该相关系数，因为该回归分析中这些系数的数量已经增加，但是在这些残差的数量上的减小以及该相关系数的增大将是较小的因为这些残差不能小于零并且该相关系数不能大于一。这使之非常难以判断该拟合中的改善是否显著，并且因此指示一种目标成分的存在。

用来指示一种成分是否存在于一种混合物中的另一个度量是一个部分相关系数(参见应用波谱学，2012年，第66卷，第334页以及博通吉奇-塞希奇等人的美国专利申请第2011/0213746号)。在该样品谱与该目标谱之间的部分相关系数就是当针对与目标谱不同的所有成分的谱回归分析该样品谱时(即，当针对K’回归分析S时)的残差与当针对所有其他成分的谱回归分析该目标谱(即，当针对K’回归分析T时)时的残差之间的相关系数。

然而，该部分相关系数不如这里描述的方法灵活。这两个残差之间仅有的适当的对比为相关性，因为这些残差可能在非常不同的尺度上并且具有大的基线差异。这两个残差也不适合视觉对比，因为两者以不可预知的方式都不同于已知量，即，该目标成分的参考谱。因此，分析人员，甚至技术熟练的谱学工作者视觉解读这些残差会非常困难或者是不可能的。

这里所述的途径为通过首先执行一个回归分析来首先计算对该目标谱的一个近似，该回归分析包含目标谱和已知的谱(S＝Tc₀+K’c’+R)，并且然后在该目标谱系数c₀设为0的情况下计算一个残差，定义为该提取谱或E。

E＝S-K’·c’

这可以与该残差R的表达式对比；

R＝S-T·c₀-K’·c’

如果该目标成分不存在并且K’·c’是对S的良好的近似(在该情况下该系数c₀将接近于零)，或者如果该目标成分存在并且T·c₀+K’·c’是对S的良好的近似，那么该残差R将是较小的。如以上提出的，因此这不是一个对该目标成分的存在的良好指示。如果该目标成分不存在并且K’·c’是对S的良好的近似(即，K’中包含在该混合物中存在的所以成分的谱)，那么该提取谱E也将是较小的，并且将接近于R。然而，如果该目标成分以任何显著的浓度存在于该样品中并且T·c₀+K’·c’是对S的良好的近似，那么该提取谱将接近于该目标成分的谱。还有，如果该目标成分不存在并且因为存在未包含在该回归分析中另一种成分所以K’·c’不是对S的良好的近似，那么该提取谱将不接近于R或该目标谱。

因此，对比该提取谱与该目标谱(典型地通过该回归系数c₀改变尺度)可以用作对该目标成分存在的可靠指示。通过在计算机屏幕上重叠这两个谱可以看到该对比，或者它可以是一个计算的度量如皮尔逊(Pearson)相关系数、加权的相关系数、欧氏距离、或这些谱之间的最大绝对差。

在一个实施方式中，该对比度量是一个加权的相关系数，其中这些权重用于突出这些数据的某些特征或方面而同时抑制其他特征或方面。例如，这些权重可以被设置等于该目标谱的绝对值，从而突出该目标谱具有特征的谱区并且抑制没有特征的区。根据要突出或抑制这些数据的哪些特征或方面，有很多其他可能的方式来计算这些权重，根据该方法被应用于的问题的性质选择加权方案。还有，有时候它可以有用于在该提取谱与常规的残差R之间进行类似的对比。

如果该样品包含多于一个需要被确认的疑似成分，只要所有存在的成分的谱包含在该回归分析中，上述该方法也将起效。在此情况中，这些目标谱之一为T，其他所有目标谱包含在K’中，计算该提取谱并且与该目标谱对比。然后对其他目标谱的每一个重复这个步骤。如果这些疑似成分的一些或全部存在，那么存在的这些成分的这些提取谱将接近于这些相应的目标谱，并且不存在的成分的这些提取谱将接近于该残差R。

上述该方法还可以对多于一个未知成分的情况起效，尤其如果这些未知成分的本质谱特征在不同的谱区中时。以这样的方式，可以鉴别一种混合物中的这些单独的成分。

此方法的一个另外优势是来自该回归分析的这些系数可用于计算这些成分的估计浓度、或相对浓度。

作为一个实例，我们将考虑存在于高浓度水蒸气中的低浓度一氧化氮(NO)的红外谱。图1展示了100在区域1200-2000cm^-1上，在水蒸气存在下的100ppmNO的一个样品谱102(虚线)以及纯水蒸气的一个谱104(虚线)。由于该水蒸气谱随温度变化，所以在同一天使用相同的仪器收集这两个谱。

如果在此区上针对该样品谱回归分析该水蒸气谱加一个线性基线，RMS残差为0.006668并且在所拟合的(即，总和)谱与该样品谱之间的相关系数为0.998229。图2展示了200在相同的尺度上的样品谱202以及残差R204。该残差204确实显示不接近于随机噪声的特征，并且技术熟练的谱学工作者可能将这些特征中的一些或全部解释为应包含在该回归分析中丢失的成分。然而，在该方法的很多真实应用中，执行该测量的分析人员将不是技术熟练的谱学工作者，在此情况中，视觉检查将不会是对一种从该回归分析中丢失的成分的实用指示。

如果该目标是一种取决于这些分析结果的自动响应，那么上述视觉检查也没有用处，因为然后需要一种数字度量。

如果一个NO的参考谱也包含在该回归分析中，该RMS残差降至0.003881，并且在该拟合谱与该样品谱之间的回归系数增加至0.999401。然而，这些度量中的这种数量的变化不足以指示是否存在NO，因为添加一个谱到该回归分析保证降低该RMS残差并且增大该相关系数。图3展示了300由该回归系数改变尺度的NO目标(或参考)谱302(虚线)以及来自该回归分析中的提取谱304(实线)。这些谱之间的相关系数为0.860623，其足够高以给予NO存在的强的指示。这通过视觉对比被清楚地确认，该视觉对比还展示了该相关系数为什么不是更高。该提取谱展示了来自未补偿的水蒸气吸收的在1400与1800cm^-1之间的特征，以及在1400与1800cm^-1之间的一个特征，该特征归因于痕量的二氧化硫(SO₂)，事实上该二氧化硫已知存在于此样品中。因为该水蒸气比该NO吸收强多于一个数量级，所以出现来自该水蒸气的这些特征，并且因此在该参考谱与该样品谱之间的甚至一个小的差(例如这可由温度变化造成)将会导致一个在数量上与该NO的吸收可对比的残差。

为了对比的目的，该NO目标谱与该100ppm的NO样品谱之间的该部分相关为0.812922。这并不是像在该目标谱与该提取谱之间的系数一样高，但是确实也给出该样品中存在NO的指示。图4展示了400用于计算该NO目标谱与该100ppm的NO样品谱的部分相关系数的这两个残差谱。第一个残差402(虚线)通过针对该水蒸气谱和一个基线回归分析该样品谱获得。第一个残差404(实线)通过针对该水蒸气谱和一个基线回归分析该NO目标谱获得。

与这些提取谱和目标谱对比，难以解释这些第一和第二残差谱，因为它们都包含与NO不相关的谱特征，并且在没有与该NO参考谱对比的情况下不可能知道这些是哪些特征。此外，由于这两个残差谱的这些非常不同的尺度(约两个数量级)，很多潜在的对比度量(如最大差)不是可适用的。在此实例中，该部分相关系数以及这些相关的残差因此在指示NO的存在上显然不如该提取谱与该目标谱的对比(即，计算的相关系数和/或目视对比)可靠。

为了该对比使用一个更小的谱范围、或多于一个谱范围将会明显地减少未补偿的特征和未包含在该回归分析中的痕量成分减少在这些提取和目标谱之间的相关性的问题。如果该成分是一个疑似成分并且目标是确认其存在，那么基于在该目标谱中的独有特征选择一个更小的、更适合的谱范围典型地将是容易的。

然而，如果该成分是一种未知成分，并且目标是为了鉴别它，选择一个太小的谱范围可能意味着这些目标谱中的一些在那个谱范围中没有独有吸收特征。因此，上述方法的一个变体是对不同的目标成分使用不同的谱范围。有很多可能的方法或算法来为每种目标成分选择合适的谱范围，并且每种目标成分可能有一个、两个、或更多个与它相关的谱范围。因为某些对比度量可能取决于该总谱范围的大小，那么希望的是(尽管不是必要的)使所有的目标成分的总谱范围具有相同的大小。

作为一个实例，我们将考虑与以上所使用的相同的样品谱，即，100ppm的NO在水蒸气中，但不是与仅一个目标谱(NO的目标谱)对比，它将与一个包含超过400个目标谱的数据库对比。在此实例中，该样品谱是在一个比以上更宽的谱范围中分析的，1000至2400cm^-1，并且水蒸气和二氧化碳两者都作为已知成分被包含。然后执行一系列回归分析，每个回归分析包含该目标谱成分的谱、这两种已知成分的谱、以及一个线性基线。每个目标成分的谱范围被设为在范围1000至2400cm^-1内的最强吸收的±75cm^-1。前十个匹配，如由在这些提取谱和目标谱之间的相关系数所定义的，展示在以下表1中。

表1.对于水蒸气中100ppmNO的前十个匹配。

R1为该提取谱与该目标谱之间的相关系数，R2为该残差谱与该提取谱之间的相关系数，并且R3为该样品谱与该拟合(总和)谱之间的相关系数。对于前三个匹配，R1大于0.98，但是对于第四个匹配它降至仅0.81。相反地，对于前三个匹配，R2小于0.2，但是对于第四个匹配它增加至几乎0.6。前三个匹配事实上是已知存在于该样品中的，而其他的匹配为已知不存在的。因此，R1和R2良好指示该样品中的一种目标成分的存在。

该样品谱与该拟合谱之间的相关系数，以及用于该回归分析的RMS残差也展示在该表中。能够看出这些是已知不存在的目标成分，其相关系数高于已知存在成分的相关系数。类似地，有已知不存在的目标成分，其RMS残差低于已知存在的成分。如已阐述的，因此这两个度量非常糟糕地指示一种目标成分的存在。该表中的这些估计浓度是基于这些回归系数计算的。NO的估计浓度与该已知的100ppm浓度良好一致。

该方法的另一个变体在于将其以一种迭代的方式应用。一旦基于R1和R2已经确定某些成分存在于该样品谱中，它们的谱可被添加到已知成分的列表中。然后可以再次分析该样品谱以寻找较低浓度的未知成分，这些较低浓度的未知成分可能在先前分析中还未被发现，因为该回归分析可能未包含事实上在该样品谱中存在的全部成分。可以重复此程序直到没有另外的成分被鉴别。作为一个实例，一氧化氮、一氧化碳、以及二氧化硫的谱被添加到该已知成分列表中并且从第一次分析所使用的该目标谱列表中移除，并且执行一系列的新的回归分析。表2展示了来自对100ppmNO样品谱的第二次分析的前十个匹配。

表2.在水蒸气中100ppmNO的第二次分析的前十个匹配。

R1和R2的值清楚地指明一氧化二氮(N₂O)也存在于该样品中，但以小于2ppm的非常低的浓度。此成分事实上也是已知以痕量存在。在第一次分析中此成分的存在是被遮蔽的，因为N₂O主吸收带与一氧化碳的主吸收带重叠，一氧化碳以高得多的浓度存在。因此，在第一次分析中对N₂O的回归分析未包含在用于分析的谱范围中具有显著吸收的所有成分的谱。

在一氧化二氮和一氧化碳两者都包含在该回归分析中的情况下，还可以对于一氧化碳计算出41.2ppm的修正的浓度(在第一次分析中鉴别的其他成分的浓度未改变)。该样品谱506，以及对一氧化碳和一氧化二氮的目标谱和提取谱(分别为虚线和实线)展示在图5A至5C中。一氧化碳的这些谱502来自第一次分析，一氧化二氮的这些谱504来自第二次分析。该样品谱中的不是由于一氧化碳或一氧化二氮导致的特征是归因于水蒸气和二氧化碳。视觉检查清楚地确认这两种成分的存在。

在一些情况中，可能的是该目标成分谱或这些已知成分的一个或多个谱，或者这两者可以展现从一次测量到下一次测量的显著变化。这可导致来自该回归分析的一个大的残差，该残差将遮蔽该目标成分的存在(即便它是存在的)，或导致其估计浓度中的误差。存在该对比方法的多于一个的变体，这些变体将最小化或消除这些效果。

在一些情况中，通过在应用该对比方法之前预处理或转换这些谱，可能最小化或甚至消除这些谱中的变化的效果。例如，该样品谱可能包含不可重现性波动，该不可重现性波动比该目标谱的谱特征宽得多，然而过于复杂无法通过以上所述的基线来建模。在此情况中，计算包含在该回归分析中的所有谱的导数将导致该目标成分存在的更可靠的指示，以及对这些成分的相对比例的更准确的估计。这是因为导数是斜率的量度，并且因此相对于缓慢变化的特征突出了迅速变化的特征。然后，该提取谱(如上定义的)明显也是一个导数，但是可能的是用这些回归系数来计算一个不是导数的提取谱。

可以通过使用这些预处理的或变换的谱计算S＝T·c₀+K’·c’+R中的这些回归系数，并且然后使用这些系数与这些原始谱来用E＝S-K’·c’计算该提取谱，从而计算这样一个提取谱。使用未转换数据计算提取谱的优势在于对于分析人员视觉上对比未经转换的提取谱和目标谱经常更容易，即使数学对比可能指示糟糕的匹配(即，低的相关系数)。很多其他预处理步骤或转换，例如平滑处理，在现有技术中是可行且已知的。

展示了在应用该对比方法前预处理这些数据的优势的一个实例是一种可注射药物的稀(0.5％)水溶液的拉曼谱，该拉曼谱通过一个玻璃瓶壁获得。因为该瓶是对该样品谱有贡献的成分之一，所以该对比方法要求在该回归分析中包含一个该瓶单独的谱。可以容易地获得另一个空瓶的谱，但是玻璃展示了在不同瓶之间不是完全可重现的光致发光。与来自该药物的这些拉曼峰相比，此光致发光非常强，但是它也具有广得多的特征。瓶中的药物样品谱602(实线)和这三个成分药品604(点线)、水606(点虚线)、以及瓶608(虚线)的谱展示在图6中。

如果该目标谱是该药品604的谱，这些已知的谱是水的谱606和该瓶的谱608，并且一个弯曲的基线包含在该回归分析中，那么该提取谱与该目标谱之间的相关系数为0.5631，而该提取谱与该残差之间的相关系数为0.8261，意味着该药品谱不是该样品谱的一个成分。

然而，如图7中展示的，该提取谱704和该残差谱706都被空瓶的光致发光与包含该药物溶液的瓶之间的差异所主导，这导致该目标谱702中不存在的、这两个谱中的宽的谱特征。如果这些谱通过对它们求导首先预处理，并且从该回归分析中移除该弯曲的基线，那么该提取谱与该目标谱之间的相关系数为0.9335并且该提取谱与该残差之间的相关系数为0.3588，表示该药物事实上存在于该溶液中。图8展示了该目标谱802以及来自这些未转换的数据的提取谱804。尽管基线变化大，视觉检查明显地确认该药物的存在。

通过使用一个加权的相关系数进一步改进该对比是可能的。该提取谱有显著噪音，这减小了该提取谱与该目标谱之间的相关系数。然而，因为该目标谱具有强度变化的峰，一些谱区对确定该目标成分的存在比其他谱区更有用。因此，我们可以计算一个加权的相关系数，该加权的相关系数更突出具有更大谱强度的区。有很多将该相关系数加权的方式，例如“自加权相关系数以及它们对于测量谱相似性的应用”，应用波谱学，第63卷，第916-919页(2009年)中所述的加权方式，但是对于此实例，我们将使用与该目标谱强度的平方简单地成比例的权重。当我们对该对比使用这样一个加权的相关系数时，该提取谱与该目标谱之间的相关系数为0.9754并且该提取谱与该残差之间的相关系数为0.1718，给出非常清晰的指示，即该药物存在于该溶液中。

该方法的可最小化或消除这些测量之间的谱变化效果的另一个变体是在该回归分析中包含该目标成分或一种已知成分，或两者，的多个谱。如果一种已知成分的多个谱包含在该回归分析中，那么在这些方程S＝T·c₀+K’·c+R、R＝S-T·c₀-K’·c’以及E＝S-K’·c’中我们可以简单地添加更多列到K’以及更多的行到c’。如果一个目标成分的多个谱包含在该回归分析中，那么对于一种目标成分的p谱我们可以重写该回归方程如下：

S＝T’·c_t+K”·c”+R

其中S和R为m×1矩阵，T’为该目标成分的谱的一个m×p矩阵，K”为不包含T’中这些谱的已知谱成分的一个m×(n-p)矩阵，c”是一个(n-p)×1的系数矩阵，并且c_t为一个p×1的系数矩阵。通过将该目标成分的这些谱的所有这些系数c_t同时设为0计算该提取谱。该提取谱和残差的这些方程变为：

E＝S-K”·c”

R＝S-T’·c_t-K”·c”

该目标成分不再有一个单一的谱，但是T’·c_t为最佳匹配该提取谱的该目标成分的谱的一个加权平均。因此可以在此加权平均目标谱与该提取谱之间计算该相关系数，或其他对比度量。如果一个目标成分或一种已知成分的多个谱包含在该回归分析中，那么那个成分的浓度，或相对浓度可以使用它们的回归系数的适当加权的总和来计算。

如果大量目标谱或一个或多个已知成分的谱是可用的，那么可能有利的是使用包含主成分分析(PCA)的若干方法之一首先将这些谱因子化。将这些谱因子化，将它们投影到一个新的空间中，在该空间中常常有可能选择这些因子的一个子集使得噪音被减小但是仅仅丢失少量其他信息。该因子子集的这些因子载荷(而非这些原始谱)然后用在这些方程S＝T·c₀+K’·c’+R、R＝S-T·c₀-K’·c’以及E＝S-K’·c’中；或这些方程S＝T’·c_t+K”·c”+R、R＝S-T’·c_t-K”·c”以及E＝S-K”·c”中。

所述方法还可结合到众所周知的更复杂的化学计量算法中，包含但不限于判别分析和SIMCA。如果一种未知样品的谱要与参考谱相对比，众所周知的是这些参考谱将总是展现在这些测量值和参考样品之间的一些变化。如果有每个参考谱的若干实例可用，那么就存在可以将这些参考谱分组成簇的算法。然后将一种未知的样品与这些簇对比以确定它有可能属于哪一个(如果有的话)。这些算法中的很多依赖于将这些数据因子化以首先减少维度。这些数据经常被因子化成它的主要成分，尽管其他因子化的方案也是可能的。也可一次对全部参考谱执行因子化，或可以独立地将每组参考谱因子化。

当使用这些算法时，如果该未知谱是一种多成分混合物的谱，那么正常地这些参考谱也必须是这些成分的混合物的谱，即使不是对该混合物中的全部成分感兴趣。进一步地，如果一种感兴趣的成分，即一个目标成分在其他成分存在的情况下被测量，并且这些其他成分中的一种或多种的谱展现了显著变化，那么为了考虑那种变化必须测量大量的参考谱。这个是必需的，即使该目标成分的谱本身展现非常小的变化。

也可能的是每个参考样品中的目标成分将是不同的，但是这些其他成分将是相同的，在这种情况下如果这些其他成分中的一种或多种的谱展现了显著变化那么对于每个参考样品将会需要大量的谱，导致必须测量非常大总数量的谱。再一次地，这将是必需的，即使这些目标成分的谱展现了很小的变化。

所述方法可用于改善这些化学计量算法。并不测量这些参考混合物的谱，而是替代地测量这些参考混合物的这些单独成分的谱。这常常是可能的，即使测量该未知混合物的这些单独成分的谱是不可能(或不实际)的。如果这些目标成分展现了很少的变化，那么需每一个将需要很少的谱。对确实展现了显著变化的任何其他成分将需要大量的谱，但是如果这些成分对于全部这些参考混合物是共用的，那么所需谱的总数量可以显著减少。

如果这些混合物的这些谱展现了比这些目标成分的谱更大的变化，那么代表这些混合物谱的簇将比代表这些目标谱的簇要大。进一步地，如果这些混合物中的与目标成分不同的成分对于所有这些混合物是共用的，那么这些混合物的谱将比这些目标成分的谱更相似。这些混合物谱的簇因此将比这些目标成分的谱更大并且更靠近在一起，并且更有可能重叠。

图9-10展示了实例簇。为简化，仅展示了两个混合物或目标成分的簇，并且仅用两个变量定义这些簇。然而，可能存在任何数量的簇，任何数量的变量可用于定义这些簇，并且可以存在很多不同的算法，这些算法可用来将这些谱分组成簇。这些变量可以是在不同波长(或波数)上的谱强度，或如果这些谱被因子化它们可以是因子得分。一个混合物或目标成分的每个谱表示为一个点，并且不同的混合物或目标成分作为圆形或正方形来区分。

如果该化学计量算法未将这些数据因子化那么可以执行一个回归分析并且使用合适的方程S＝T’·c_t+K”·c”+R、R＝S-T’·c_t-K”·c”以及E＝S-K”·c”对每个目标成分计算提取谱和残差谱。用于回归分析和计算该提取谱的该目标成分谱可以是该目标成分的所有谱的平均值、或者该目标成分的所有谱可包含在该回归分析中，或者，如上所述，该目标成分的这些谱的因子载荷的一个子集可包含在该回归分析中。

还有，该回归分析中可包含一种已知成分的所有谱，或者该回归分析中可包含该已知成分的这些谱的因子载荷的一个子集。每个目标的该提取谱与相应的目标谱的簇对比以确定样品中的该目标成分属于哪一个(如果有的话)。注意用于将这些谱分组成簇的算法以及用于对比这些提取谱与这些目标谱的方法可以是与该原始化学计量算法中的相同的。仅有的差异在代替于对比该未知混合物谱与参考混合物谱的簇，将这些提取谱与这些目标谱的簇对比。使用上述这些对比度量，这些提取谱还可与目标谱和残差谱对比。

如果该化学计量算法将这些目标谱因子化，那么该未知样品的谱以及这些已知成分的谱可被投影到与这些目标谱相同的因子空间中。方程S＝T’·c_t+K”·c”+R、R＝S-T’·c_t-K”·c”以及E＝S-K”·c”然后可用来在该因子空间中以与对未因子化的谱将会使用的完全类似的方式执行该回归分析并且计算该残差谱和提取谱。然后可使用与该原始化学计量算法中相同的方法来执行这些提取谱与这些目标谱的簇之间的对比。这些提取谱和残差谱还可首先被投影回该原始谱空间，并且然后可以使用上述这些对比度量之一将这些提取谱与这些目标谱和残差谱对比。

将该提取谱方法结合到这些化学计量算法中具有明显的优势。除了潜在地显著减少必须获得的参考谱的数量，这些簇不太可能相互重叠并且因此更可能进行正确的鉴别。

上述方法和/或系统还可以在有形媒体中实施的包含指令的计算机程序代码的形式实施，该有形媒体如，软盘、CD-ROM、硬盘驱动器(无论本地或在云端)、或任何其他计算机可读存储媒介，其中，当该计算机程序代码被一台计算机载入并且执行时，该计算机变成一个能执行该方法和/系统的装置。

本方法和/或系统还可以计算机程序代码的形式实施，例如，无论被存储在一种存储媒介中、被一台计算机载入和/或执行，还是作为数据信号传输无论是否是调制的载波、通过某种传输媒介(如在电线或缆线上、穿过光学纤维、或经由电磁辐射)，其中，当该计算机程序代码被一台计算机载入并且执行，该计算机变成一个能执行该方法和/或系统的装置。当在一个通用微处理器上实现时，这些计算机程序代码段对该微处理器进行配置，以产生特定的逻辑电路。

结论

总结该详细说明，应该注意，对本领域的技术人员显而易见的是在本质上未背离本发明原则的情况下很多变化和修改可以被认为是优选实施方式。同样，此类变化和修改在此旨在包含于所附权利要求书中提出的本发明的范围内。进一步地，在以下权利要求书中，这些结构、材料、行为以及所有装置或步骤加功能元件的等效物旨在包含任何用于执行所引用的其功能的结构、材料或行为。

应该强调的是本发明的上述这些实施方式，具体地任何“优选实施方式“仅仅是这些实现方式的可能实例，仅仅为了本发明原则的清晰理解而提出。在本质上不背离本发明这些原则的精神的情况下，可以对本发明的上述这些实施方式进行任何变化和修改。所有这些修改和变化此处旨在包含于本披露和本发明的范围内并且通过以下权利要求书保护。

已经以某种程度上的特殊性对本发明进行了足够详细地描述。其使用是本领域普通技术人员可以领会的。对于本领域普通技术人员可以理解的是，这些实施方式的披露是仅仅通过举例进行的并且在不背离提出权利要求的本发明精神及范围的情况下可采取手段对这些部分的安排和组合进行多种改变。因此，本发明的范围由所附权利要求书定义而非上述的实施方式的说明。

Claims

1.一种用于确定混合物中谱成分的存在的方法，所述方法包括：

执行一种回归分析，该回归分析包括目标谱以及在一种混合物中存在的一个或多个已知其他成分谱；

计算提取谱，其中所述提取谱为在该目标谱的系数被设为零的情况下的残差；以及

使用一种对比度量来对比所述提取谱与所述目标谱。

2.如权利要求1所述的方法，其中：

所述对比度量为皮尔逊相关系数、加权的皮尔逊相关系数、欧氏距离或绝对最大距离中的至少一个。

3.如权利要求2所述的方法，其中：

在所述加权的皮尔逊相关系数中的这些权重不都相同。

4.权利要求1所述的方法，进一步包括：

对比所述提取谱与残差谱。

5.权利要求1所述的方法，其中：

所述方法以一种迭代的方式使用。

6.权利要求1所述的方法，其中：

所述回归分析包含一个基线谱或多个其他成分谱。

7.权利要求6所述的方法，其中：

所述回归分析谱包含导数谱或者乘以一个包络函数的导数谱。

8.权利要求1所述的方法，进一步包括：

使用一个或多个回归系数来计算浓度。

9.权利要求1所述的方法，其中所述回归分析包括：

一种目标成分的多个谱中的至少一个，以及

一种已知成分的多个谱。

10.权利要求1所述的方法，其中：

使用多个谱区。

11.权利要求1所述的方法，其中：

将一种被鉴别的或目标成分的多个谱因子化，并且这些因子载荷的一个子集被包含在所述回归分析中。

12.权利要求1所述的方法，其中：

对不同的目标成分执行两次或更多次回归分析。

13.权利要求12所述的方法，其中：

所述混合物内存在多个目标成分并且对于每个不同的目标成分使用不同的谱区。

14.权利要求1所述的方法，进一步包括：

对于数个目标成分中的每一个，将数个目标谱分组成为簇；

使用每个簇中的这些目标谱的平均值、每个簇中的全部这些目标谱、或者通过将每一个簇中的这些目标谱因子化并且使用这些因子的一个子集，对于每个簇中的这些目标谱执行所述回归分析；

对于每一个簇计算该提取谱；以及

对比这些提取谱与目标谱的这些簇以确定该提取谱是否属于某个簇，并且如果属于某个簇的话则确定该提取谱属于哪一个簇。

15.权利要求14所述的方法，其中：

一种已知成分的多个谱被包含在这些回归分析中，或者一种已知成分的多个谱的因子载荷的一个子集被包含在这些回归分析中。

16.权利要求14所述的方法，其中：

使用皮尔逊相关系数、加权的皮尔逊相关系数、欧氏距离、或最大绝对距离执行这些对比。

17.权利要求16所述的方法，其中：

对比这些提取谱与残差谱。

18.权利要求14所述的方法，其中：

这些回归分析包含一个基线谱或其他成分谱。

19.权利要求14所述的方法，其中：

使用多个谱区。

20.权利要求14所述的方法，进一步包括

使用一个或多个回归系数来计算浓度。

21.权利要求1所述的方法，进一步包括：

对于数个目标成分中的每一个，将多个目标谱因子化；

将这些因子分组成簇；

将要分析的这些谱以及这些已知成分的谱投影到因子空间中；

使用这些目标谱的这些因子载荷的平均值、或者这些目标谱的全部因子载荷，对于该因子空间中的每一个簇中的这些目标谱执行所述回归分析；

对于每个簇计算该提取谱；以及

在该因子空间中对比这些提取谱和这些目标谱，或者将这些提取谱投影回这些目标谱的原始谱空间并且在该原始谱空间中执行这些提取谱与这些目标谱之间的对比，以确定该提取谱是否属于某个簇，并且如果属于某个簇的话则确定该提取谱属于哪一个簇。

22.权利要求21所述的方法，其中：

一种已知成分的多个谱被包含在该回归分析中。

23.权利要求21所述的方法，其中：

24.权利要求23所述的方法，进一步包括：

对比这些提取谱与残差谱。

25.权利要求21所述的方法，其中：

这些回归分析包含一个基线谱或其他成分谱。

26.权利要求21所述的方法，其中：

使用多个谱区。

27.如权利要求21所述的方法，其中：

使用一个或多个回归系数来计算浓度。