CN1423749A - 分析选定的多组分样品的方法 - Google Patents

分析选定的多组分样品的方法 Download PDF

Info

Publication number
CN1423749A
CN1423749A CN01806971A CN01806971A CN1423749A CN 1423749 A CN1423749 A CN 1423749A CN 01806971 A CN01806971 A CN 01806971A CN 01806971 A CN01806971 A CN 01806971A CN 1423749 A CN1423749 A CN 1423749A
Authority
CN
China
Prior art keywords
sample
separation
component
eigenvalue
distribution curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01806971A
Other languages
English (en)
Inventor
奥拉夫·夸尔海姆
比约·格龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PATTERN RECOGNITION SYSTEMS AS
Original Assignee
PATTERN RECOGNITION SYSTEMS AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PATTERN RECOGNITION SYSTEMS AS filed Critical PATTERN RECOGNITION SYSTEMS AS
Publication of CN1423749A publication Critical patent/CN1423749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8603Signal analysis with integration or differentiation
    • G01N30/8606Integration
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8658Optimising operation parameters
    • G01N30/8662Expert systems; optimising a large number of parameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8679Target compound analysis, i.e. whereby a limited number of peaks is analysed
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation

Landscapes

  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Sampling And Sample Adjustment (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本申请描述了一种由二维(2D)分离数据(GC-MS)对复杂的多组分混合物的化学或生物学性质(诸如毒性、致突变性)进行预测的方法。利用自动曲线解析程序(GENTLE)把数据解析成各个组分的谱峰(C)和谱项(S)。随后将已解析的峰值进行积分,并且把特征面积、分离参数和缔合谱图合并成一个预测值矩阵(X),这个矩阵可用作多元回归模型的输入项。利用部分最小二乘法(PLS)将一组测试集的2D分离数据与已测过的性质联系起来。随后,就可以用回归模型预测其他样品的性质。

Description

分析选定的多组分样品的方法
本发明涉及一种对数据、特别是对从包含多个组分的系统(例如含有多个未经鉴定的化合物的组合物)中得到的数据进行分析的方法,以及用于实施这种分析的程序和计算机。
在环境监测和医疗诊断分析中,分析人员可得到含有多个未经鉴定的化学或生物组分的样品(例如体液、废液或废气样品),比方说包含几百种化合物,分析人员需要确定出抽样分析的物质是否会造成环境危险或含有病状迹象。目前使用的一种典型技术是所谓的埃米斯(Ames)测试,这种技术是使一种细菌的选定突变菌株暴露在样品中,并通过测定细菌的突变程度来评估环境样品的毒性(致突变性),其中细菌由于发生突变,因此具有自然(野生)菌株中存在而选定的突变系中缺乏的特性。
我们可以看到,这样的测试仅仅表明特定的样品具有毒性,而并没有指出产生毒性的特定化合物或一组化合物,也没有给出预测其他样品毒性的基准。
同样,大多数诊断分析仅仅检测出一种单一化合物的存在或过量,但却没有指出还可表征特定病状或其他病状的其他化合物的存在或过量。
可以用色谱技术(例如用液相色谱或气相色谱)分离多组分混合物中的各个组分,也可以用光谱技术(例如质谱、IR、UV、拉曼、ESR和NMR光谱)来测定各个组分的光谱特征;然而,色谱分离一般无法分离出由几百种化合物组成的混合物中的每一种组分,而且色谱分离很昂贵、耗时,一般来说,对一个多组分样品的所有馏分或组分进行毒性分离或其他检测是不切实际的。
因此,人们需要一种对多组分混合物进行分析的方法,这种方法能够整体预测混合物的效应(例如毒性),而且可以集中并有可能鉴定出对这种效应起主要作用的组分。
现在,我们已经找到了这样的方法,它能够实现这样的功能,即对大多数相似的样品来说,我们可以得到样品效应的数据,也可以得到样品的分离馏分(例如样品的色谱分离馏分)的特征光谱数据。
因此,从一方面来看,本发明提供了一种用于分析选定的多组分样品的方法,以便预测样品的某种本征值(property value),这种方法包括:
i)确定多个相似的多组分样品的所述本征值;
ii)对每一种所述相似样品来说,
a)沿一个分离量度(dimension)分离样品的组分,
b)在沿以所述分离量度的多个位置上对样品的多个部分进行采样,
c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
d)为所述分离量度的各个部分选择几组所述图形(pattern),并且从其中确定所述部分的各个组分的特征图形和分离量度分布曲线;
iii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此可以鉴定出所述相似样品中的类似组分;
iv)将所述相似样品中的组分的所述本征值和所确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型;
v)对所述的选定样品来说,
A)沿一个分离量度分离其组分,
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
C)确定每一部分的图形,该图形可以表征该部分的单一或者多组分的性质,
D)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出这些部分的各个组分的特征图形和分离量度分布曲线,
E)将所述模型施加到所述选定样品中各个组分的已确定分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
“本征(property)”指的是任何能够被指定数值的性质;然而它也可能是例如零或者一,其中间级度(gradation)是不可能或不需要的,例如生或死、感染或未感染等等。
本发明的方法涉及到根据对相似样品的分析来构建一种预测模型,对于这样的相似样品来说,其本征值已经确定,然后将这种模型施加到无需确定本征的样品的分析结果中。由于相似性意味着样品是相同的类型,或具有相同或相似类型的来源,例如,样品都是来自于相同工艺或操作的废气或废液,或者是从相同物种的成员中的相同体液、组织、渗出液等中取得,例如血液、血清、血浆、尿液、粘液、唾液、粪便、汗液、体内气体等等。因此,“相似”的样品将共同含有“选定”样品中存在的多个、优选的是全部或绝大部分组分。
本发明的方法涉及对多组分样品的各个组分进行分离。这样的分离可以是但并不需要是完全的,而目每个取样部分(例如对于质谱分析来说)可以因此含有一种或多种成分。所以,如果借助于气相或液相色谱法进行分离,那么同样的组分可存在于沿分离量度(例如洗脱时间)的几个相邻部分中。因此,在用气相色谱-质谱(GC-MS)法时,这种方法涉及对相邻部分的质谱图谱的研究,以便鉴定出各个组分的MS特征峰,并且计算出各个组分沿洗脱时间的GC分布曲线。如果需要的话,可以排除分离量度的无用部分的数据,这样,需要确定分布曲线的组分可以仅仅需要包括所存在的全部组分的一个子集。那些已确定的分布曲线的强度(例如,峰高、峰的面积或简单的是/否的值)可用于预测模型的构建和应用。通过对不同样品的数据进行比较可精确制定出预测模型,这样就可以识别出在分布曲线(例如保留时间或调整保留时间)和图形(例如质谱)方面相同或非常相似的类似组分。
对许多样品的分析来说,一个供应商可以向用户提供预先计算好的预测模型,因此,从这一方面来看,本发明提供了一种用于预测多组分样品的本征值的预测模型的产生方法,这种方法包括:
i)确定出多个相似的多组分样品的所述本征值;
ii)对每一种所述的相似样品来说,
a)沿一分离量度分离它的组分,
b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
d)为所述分离量度的各个部分选择几组所述图形,并且从其中确定所述部分的各个组分的特征图形和分离量度分布曲线;
iii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;
iv)将所述相似样品中各个组分的所述本征值和确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型。
从另一方面看,本发明提供了一种对选定多组分样品进行分析的方法,以预测它的本征值。这种方法包括:
A)沿一分离量度分离样品的组分,
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
C)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
D)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出该部分的各个组分的特征图形和分离量度分布曲线,
E)将所述模型施加到所述选定样品中各个组分的已确定分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
同时,正如下面将要进一步讨论的,本发明的方法可以更广泛地应用于多组分样品,以下将进一步详细描述的这个方法,涉及到利用产生各个部分的色谱分离和产生图形的光谱分析对包含大量化合物的样品进行分析,以得到定量性质例如物理、化学性质,特别是生物学性质(例如毒性、致突变性、病状、基因型、治疗效果等等)。
虽然如上所述,我们可以使用许多不同的光谱分析方法,但光谱的波峰(或波谷)尖锐的技术是特别优选的,例如NMR,尤其是质谱(MS)。同样,优选的是采用液相色谱或更好的气相色谱进行分离。
可以利用能产生样品的色谱分离光谱数据的设备,例如GC-MS设备。
因此,用于按照本发明的分析方法的起始数据可以认为是一个二维矩阵(即色谱部分的数据和每一个色谱部分的光谱数据),再加上用于产生预测模型的每一样品的确定本征值和用于产生选定样品的预测值的二维矩阵(即色谱部分的数据和每一个色谱部分的光谱数据)。同样,色谱和光谱数据将包括强度和位置(例如洗脱时间或质量数或质荷比)数据。
为了减少所需的计算时间,这一点在样品含有几百种化合物的时候特别重要,我们可以通过去掉峰高低于预设最小值(例如,在馏分中样品的化合物的量为零或非常低,或者光谱的波峰处于噪声级)的数据,或者去掉与已知或认为对本征无影响的化合物相对应部分的数据(例如较低分子量、快速洗脱的化合物),来限制输入数据。
一般来说,数据矩阵可以首先通过去除在洗脱时间没有组分流出(即色谱信号(高度)低于预设界限)的洗脱时间数据而加以简化。然而,这种删除最好是在沿时间方向的位置上进行,在这个位置上信号与峰高的关联很小。
可以通过以下方式实现这一点:设定一个相邻波峰比值(,例如比值为0.1到0.4,优选的是0.3,并且只有在波峰的信号比率低于这个值时才去掉这个数据,而不是在信号达到跟随波峰分最小值的时间位置上或者在信号低于预设清除极限的时间位置上清除这个数据。清除极限本身一般根据用户的需要进行设置——一个更高的值会去掉更多的数据,因而会忽略更多的次要组分,反之也是如此。清除界限一般设定为最小可区分信号高度的5%-10%。很明显,清除极限越低,就会保留更多的数据,这样就会分析更多的组分。
2D GC-MS数据能够包括由各种原因产生的背景噪声。检测器性能方面的变化能够导致色谱基线的偏移和漂移,而且柱流失能够导致背景光谱的存在。这就需要我们在去除零信号或噪声信号保留时间之后,对剩余的色谱峰进行背景校正。这一点可以通过对一次(即线性)估算基线进行计算来实现,这条基线具有的斜率与峰簇任一侧的零组分区域的外推直线的斜率近似。
这样,对于以这种方式选定的每一色谱峰簇来说,都可以对单独的光谱数据集进行标准化,例如,设定最大的谱峰高度为1或总的谱峰面积为1,或者也可以把最大谱峰高度设定为与选定色谱峰簇的峰面积成比例的值。
优选的是,以这种方式选定的色谱峰簇延续至少20个分辨时间阀值(valves),即与它们关联的至少有20ms谱项。
随后,光谱数据的数据简化可以同样进行。因此,对MS来说,如果同时考虑整个洗脱时间,那么在可记录范围内的大多数,甚至全部质量数都包含至少一个组分的信号。然而,在色谱部分的质谱图中,许多质量数并不包含信号或者所包含的信号仅仅是由于噪声引起的。这种质量数的存在降低了解析过程的质量,所以,最好在解析之前就把它们从谱项中消除。
当然,检测出零信号的质量数是没有价值的,可以用形态学标准和F测试(参看Shen et al.Chemomem.Intell.Lab.Syst. 51:37-47(2000))相结合来检测由于随机噪声造成的信号的质量数,F测试利用了这样一个事实,即噪声的频率比一种化学组分发出的信号的频率更高。这样,在解析之前,就消除了高达约90%的质谱数据。
随后,调整的光谱数据就可以解析为单波峰。这实际上涉及到求解方程
          X=CST+E                           (1)
对C和S来说,X是被记录的数据,C是色谱分布曲线,S是质谱,T表示矩阵位移,E是剩余矩阵。
这个方程可以用多种方法求解。然而,优选的方法是Manne et al in Chemom.Intell.Lab.Syst. 50:35-46(2000)中描述的GENTLE方法,该文献的内容在此作为参考并入本文。
首先,例如用简化的Borgen方法(参见Grande et al.,Chemom.Intell.Lab.Syst. 50:19-33(2000),该文献的内容在此作为参考并入本文)找出A的关键谱项S。(“A”在这里是化学等级)。在峰簇中,关键谱项是最纯的谱项。可以通过把数据标准化为数据的第一个奇异(singular)向量上的常数投影而找到关键谱项。(术语“奇异”是指该向量是一个奇异值解析(SVD)的结果,SVD是一种标准的数值计算方法。在矩阵式中X=U∑VT,U的第一个列向量有时被称为第一左奇异向量,它被用来进行投影。随后,可以在凸边上的极值点处发现关键谱项,并且该关键谱项被界定为如此出现的数据的表示。关键谱项S0表示真实谱项S的初始估计值。真实色谱分布曲线C0的初始估计值C0可以随后通过求解关于C的方程(1)得到,因此,
    C0=XS0(S0 TS0)-1                        (2)
为了由初始估计值C0和S0得到真实分布曲线和谱项的估计值C和S,需要借助于迭代过程。可以通过确定方程(3)和(4)的变换矩阵T实现这一步:
            C=C0T                              (3)
            ST=T1S0 T                        (4)
T是几个初等矩阵的乘积,可以用迭代方法生成T,通过在C和S的中间解(intermediate solution)上设定某些限制可以使迭代方法变得易解。因此,对S和C来说,我们假定峰值(无论是在色谱中还是在质谱中)必须为正,而对C来说,我们假定一个纯的色谱峰应该是单峰。例如,下面的标准可用于实现解析和对解析进行评估:
组分窗口:可用线性回归使一个组分在色谱区域之外的非零偏差最小,这个区域在噪声极限之上。
平滑度:可以假定一个化合物的色谱峰是连续的(这样就可以把它和噪声区分开)。
显著性:一个组分的色谱峰的顶点强度一般应该明显高于数据的决定极限(即前面指出的消除极限或最小可区分信号高度);一般来说,只有顶点强度至少是决定极限两倍的峰值才可能被接受。
完全性:在选定的色谱峰簇完成之前,优选的是检查一下解析峰是否降低到噪声水平;如果没有,那么应该用一个更大的峰簇重复这个过程。
可以用一个相对大的数目(例如8到12,优选的是10)启动,从而逐阶得到化学等级或关键谱项的数目。在根据关键谱项的特定数目对计算出解(solution)之后,可根据上面的标准对解进行评估。如果分布曲线的解析质量很差,那么就应该用更大数目的关键谱项重复解析过程,更一般的做法是,用更小数目的关键谱项重复解析过程。
在解析之后,可以对解析的质谱S标准化,这样最大的强度为1.0,而色谱分布曲线C可用以下方程重新计算:
              C=XS(STS)-1                         (5)
然后,在光谱中就会给出定性信息,与此同时,在色谱分布曲线中会给出定量信息(该色谱分布曲线可积分,以便得到面积)。
实际上,解析过程涉及到比较一个样品的选定质谱图,以便鉴定出样品中各个化学组分的特征谱线组,并且解析过程还涉及到这些组分的特征色谱分布曲线的确定。随后,可把各个组分的列表做为一个样品的输出数据,这些组分可用质谱谱线和它们的色谱分布曲线的位置(即洗脱时间)和面积进行表征。对多个样品进行这样的操作,就可以产生一个预测值矩阵,而这个矩阵就可用于产生预测值模型。举例来说,Y=Xb,在这里,X是预测值矩阵,b是回归系数(预测值模型),Y是样品本征的预测值。
因此,在生成预测值矩阵的过程中,可对不同样品的输出数据进行比较,并测定相似组分(即化合物)的存在。随后,可用回归分析确定每一个组分对样品总的测定本征(例如致癌性)的贡献的相对大小和负面或正面性质。然后,这些贡献值就可以表达为每一个组分贡献的预测值模型。通过把这个预测值模型应用到另一个样品的已确定组分浓度的分布曲线中,就可以简单估算另一样品的本征值。
一般来说,预测值矩阵的产生包括如下几个步骤:
i)载荷已测定本征值的样品的解析分布曲线,每一个样品的分布曲线一般包括面积(色谱峰面积)、保留时间和每一个解析组分的标准化质谱图;
ii)使各个解析的分布曲线按照保留时间递增的顺序排列;
iii)将保留时间在特定范围内(1到8分钟,典型为4分钟)的不同组分的质谱进行比较,以便鉴定出两种或两种以上样品中共有的组分,从而就可以减少随后的回归分析的变量数目;
iv)为样品的解析组分建立回归模型,该模型把已测定的本征值与几组保留时间和面积值联系起来。
比较步骤(iii)一般涉及到有相似保留时间的不同样品中i和j组分的质谱Si和Sj之间的光谱相似指数Sij的测定。Sij可表示为:
           Sij=Si TSj                   (6)
而且,如果存在预置极限(例如0.9)之上的数值,那么组分i和j就可以分类为类似物。
当预测值矩阵已经建立时,可把本征的测定值与所计算的样品的解析组分的几组面积联系起来,从而对分类模型或回归模型进行评估。利用商业上购得的多元分类/回归分析计算机程序(例如从挪威卑尔根的模式识别系统公司购得的天狼星程序),可由预测值矩阵对模型进行计算。
在附图的图1中,示意性地给出了一个典型预测模型的例子。在这个图中,x轴是组分的保留时间,y轴是需要测定本征的样品中解析的每一种组分的回归系数值。在该情形中,所测定的本征是致突变性(用埃米斯测试测量),而样品是环境污水样品。
对具有更大回归系数的组分的生物学影响更大,而且,正如我们看到的,对具有更长保留时间的组分的生物学影响也更大。
如果需要的话,通过在GC-MS分析之前将具有已知质谱而样品中不存在的化合物掺入样品中,可使比较步骤容易实施。这些化合物的保留时间中的任何变化都可用来决定保留时间的选择范围的大小,这样就可以确定相似化合物。不过,那些掺加化合物的分布曲线不会用在预测值矩阵的生成过程中,因为这些化合物在未掺合的样品中并不存在,它们无疑对本征值并没有贡献。此外,在注入到GC-MS的样品的定量中,这种掺加化合物可用于校正样品之间的变化,也就是说,可以相对于掺加剂的峰面积来使这些峰面积标准化。
当然,上面的讨论主要是把多组分化学样品的GC-MS谱项与生物学影响的可测定数值联系起来,而本发明中的方法可适用于更一般的情况。举例来说,这些方法可用于检测食物样品的生物学或化学污染,例如被诸如DSP、PSP、ASP、黄曲霉毒素和肉毒杆菌毒素之类的毒素污染;或用于医学样品(例如淋巴液、血液、血清、血浆、尿液、粘液、精液、唾液、粪便或组织样品)的分析,以检测出各种情况例如细菌和病毒感染、与蛋白感染素关联的疾病、诸如阿尔茨海默病、马鞭式创伤(whiplash)等生理状况,或者滥用药品的情况(例如运动员使用违禁药品或物质)。然而,这些方法一般用于可测定本征与多个组分的一组“特征”信号联系起来的任何系统。
本发明的方法尤其可用于医学和法医诊断。因此在一个实施例中,如果用身体组织或液体(例如血液、血浆或血清)做样品,“本征”可以是正常/健康或不正常/不健康,并且如果它们出现在特定的浓度范围之外,那么就可以鉴定出与异常或健康不佳的状况相联系的组分。同样,可以鉴定出与特定的异常或病状相关联的组分或几组组分。在另一个实施例中,在人死后可对体液、组织或气体进行分析,并且生成的预测值模型可用于确定死亡时间,例如谋杀的受害者的死亡时间。
同样,这些方法也特别适用于对食品(例如奶酪)进行检验,以检测出异常情况或污染(化学或生物学)。
如果需要的话,本发明的方法可以扩展到用于鉴定样品的一种或多种解析组分,这可以通过把组分的特征数据(例如色谱分布曲线和/或质谱)与已知化合物(或其他组分)的相似特征数据进行比较而得以实现,例如可参考化学品资料库的计算机化数据库。举例来说,本发明的方法可用作一个粗过滤器,来鉴定可用于一个样品(或者个人或试验场地的多个样品)的更特殊或更精确的诊断测试。这样,无需进行全部有价值的诊断测试就可以发现问题。
从又一方面看,本发明还提供了一种计算机软件产品(例如磁盘、磁带、导线、存储器或其他载体),这种产品带有一个用于执行本发明方法的计算机程序。
从另一方面看,本发明提供了一种设置有用于实施本发明方法的程序的计算机。
在附图的图2和图3的流程图中,示意性地图解说明了按照本发明的程序操作。
参照图2,其图解说明了预测模型的构建过程。数据输入(步骤I)包括载荷多个样品的GC-MS数据和已测定的本征值。数据简化(步骤II)包括消除空白保留时间和消除背景(即鉴定出GC峰簇),消除空白质量数和消除MS背景(即从每个GC峰簇的质谱中鉴定出几组质谱峰)。分布曲线解析(步骤III)包括在这样的GC峰簇中鉴定出各个组分的质谱,并且为每一个解析组分确定出GC分布曲线(峰保留时间和峰的面积)。预测模型制作(步骤IV)包括在不同样品之间将解析组分的分布曲线进行比较,以鉴定出两种或两种以上样品中共有的组分,并且进行回归分析,为每一种解析组分提供表示该组分对测定本征的影响的回归系数,然后由所产生的预测值矩阵制作预测值模型。
参照图3,其图解说明了预测值模型的应用。数据输入(步骤I)包括载荷样品的GC-MS数据。数据简化(步骤II)和分布曲线解析(步骤III)与在图2中描述的一样。数值预测(步骤IV)包括将预先计算好的预测模型应用到解析分布曲线中。很明显,确定估算的本征值时只会考虑那些在构建预测模型时用到的组分。
正如前面所提到的,预测模型不需要根据表示组分对本征的贡献的回归系数进行推导,但预测模型可以反映出一种分类,即生/死、健康/不健康,所以,应用这个模型可以给出样品来源的相应分类作为所估计的本征值。
我们还可以看到,预测值矩阵可以用于在产生样品预测值时进行的数据简化;例如,在计算预测值矩阵时,可以把与已确定的低回归系数值相对应的GC保留时间去掉。
我们可以看到,可用位于远处的数据处理装置来完成本发明的分析测试。因此,从另一方面来看,本发明提供了一种包含指令的计算机程序产品,该指令在数据处理装置上实施时将预测选定多组分样品的本征值,其中计算机程序接收的数据是通过以下方式得到的:
A)沿一个分离量度分离样品的多个组分;
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
在这里,计算机程序执行如下步骤:
a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;
b)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出这些部分中的各个组分的特征图形和分类量度分布曲线;以及
c)将预测模型施加到所述选定样品中已确定的各个组分的分布曲线强度上,并由此对所述样品的所述本征值进行估算。
另一方面,本发明提供了一种包含指令的计算机程序产品,该指令在数据处理装置上实施时,将分析选定的多组分样品,以预测样品的本征值,其中计算机程序接收的数据是通过以下方式得到的:
i)为多个相似的多组分样品确定所述本征值;
ii)对每一种所述相似的样品来说,
    a)沿一个分离量度分离样品的各个组分,
    b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
iii)对所述选定的样品来说,
    A)沿一个分离量度分离样品的各个组分,
    B)在沿所述分离量度的多个位置上对样品的多个部分进行采样
在这里,计算机程序执行如下步骤:
i)对每一种所述相似的样品来说,
    a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;
    b)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;
ii)将沿分离量度的确定图形与其分布曲线的位置的进行比较,并由此鉴定出所述相似样品中的类似组分;
iii)将所述相似样品中的组分的所述本征值和确定分布曲线的强度进行比较,并由此生成预测样品的所述本征值的模型;
iv)对所述选定样品来说,
    A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;
    B)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出这些部分中各个组分的特征图形和分离量度分布曲线;
    C)把所述模型施加到所述选定样品中已确定的各个组分的分布曲线强度上,并由此对所述样品的所述本征值进行估算。
从另一方面看,本发明提供了一种包含指令的计算机程序产品,该指令在数据处理装置上实施时,将产生用于预测多组分样品的本征值的预测模型,其中计算机程序接收的数据是通过以下方式得到的:
i)为多个相似的多组分样品确定所述本征值;
ii)对每一所述相似的样品来说,
    a)沿一个分离量度分离样品的各个组分,
    b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
在这里,计算机程序执行如下步骤:
i)对每一种所述相似的样品来说,
    A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;
    B)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;
ii)将沿分离量度的确定图与其分布曲线的位置进行比较,并由此鉴定出所述相似样品中的类似组分;
iii)将所述相似样品中的组分的所述本征值和确定的分布曲线强度进行比较,并由此产生预测样品的所述本征值的模型。
本发明可进一步扩展成一种包含指令的计算机程序产品,该指令在数据处理装置上实施时将创建如上所述的计算机程序产品。

Claims (20)

1.一种分析选定的多组分样品的方法,以预测其本征值,该方法包括:
i)确定多个类似的多组分样品的所述本征值;
ii)对每一种所述的相似样品来说,
a)沿一分离量度分离样品的组分,
b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
d)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分的各个组分的特征图形和分离量度分布曲线;
iii)将沿分离量度所确定的图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;
iv)将所述类似样品中的各个组分的所述本征值与已确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型;
v)对所述的选定样品来说,
A)沿一分离量度分离样品的组分,
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
C)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
D)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分的各个组分的特征图形和分离量度分布曲线,
E)将所述模型施加到所述选定样品中的各个组分的已确定分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
2.一种产生用于预测多组分样品的本征值的预测模型的方法,该方法包括:
i)确定出多个相似多组分样品的所述本征值;
ii)对每一种所述的相似样品来说,
a)沿一分离量度分离样品的组分,
b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
d)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分的各个组分的特征图形和分离量度分布曲线;
iii)将沿分离量度所确定的图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;
iv)将所述相似样品中的各个组分的所述本征值与已确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型。
3.一种分析选定的多组分样品的方法,以便预测其本征值,该方法包括:
A)沿一分离量度分离样品的组分,
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
C)为每一部分确定一个图形,该图形表征该部分的单一或多组分的性质,
D)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分中的各个组分的特征图形和分离量度分布曲线,
E)将所述模型施加到所述选定样品中各个组分的已确定的分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
4.根据权利要求1-3任一项所述的方法,其中所述样品是包含多种不同化学或生物组分的组合物,所述样品的分离应用色谱法是有效的。
5.根据权利要求4所述的方法,其中所述图形为光谱图。
6.根据权利要求4或5所述的方法,其中所述样品是或取自体内组织或体液或分泌液,或者取自环境流体,其分离应用气相色谱或液相色谱是有效的。
7.根据权利要求4、5或6所述的方法,其中所述图形为质谱图。
8.根据前述任一项权利要求所述方法,其中选择所述图形组,以便排除所述分离量度的获得的采样信号在预定水平之下的部分。
9.根据权利要求8所述的方法,其中只有所述分离量度的某些部分被排除,这些部分的采样部分的信号级与沿分离量度的最接近峰的信号级之比小于0.1-0.4这个范围。
10.根据权利要求9所述的方法,其中只有所述分离量度的某些部分被排除,这些部分的采样部分的信号级与沿分离量度的接近峰值的信号级之比小于0.3。
11.根据前述任一项权利要求所述的方法,其中选择所述图形组,以便排除所述分离量度的某些部分,这些部分与已知或认为对所述本征几乎没有或没有任何影响的组分有关。
12.根据前述任一项权利要求所述的方法,其中对所述分离量度的所述选定的图形组进行背景噪声的校正。
13.根据权利要求5-12任一项所述的方法,其中排除所选定的这些图形中的那些没有包含任何信号或仅包含由于噪声而产生的信号的光谱数据。
14.根据权利要求5-13任一项所述的方法,其中利用Gentle方法将获得的光谱图形解析成单波峰。
15.一种用于实施权利要求1-14任一项所述方法的计算机软件产品。
16.一个为了实施权利要求1-14任一项所述的方法而编程的计算机。
17.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将预测出选定的多组分样品的本征值,其中计算机程序接收的数据是通过以下方式得到的:
A)沿一个分离量度分离样品的组分;
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,并且计算机程序执行以下步骤:
a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;
b)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分中各个组分的特征图形和分离量度分布曲线;
c)将预测模型施加到所述选定样品中组分的已确定分布曲线强度上,并由此对所述样品的所述本征值进行估算。
18.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将分析选定的多组分,以预测选定的多组分样品的本征值,其中计算机程序接收的数据是通过以下方式得到的:
i)确定多个相似的多组分样品的所述本征值;
ii)对每一种所述相似的样品来说,
a)沿一个分离量度分离样品的组分,
b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
iii)对所述选定的样品来说,
A)沿一个分离量度分离样品的组分,
B)在沿所述分离量度的多个位置上对样品的多个部分进行采样其中计算机程序执行如下步骤:
i)对每一个所述相似的样品来说,
a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
b)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;
ii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;
iii)将所述相似样品中的组分的所述本征值和确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型;
iv)对所述选定的样品来说,
A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
B)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出
这些部分中各个组分的特征图形和分离量度分布曲线;
C)将预测模型施加到所述选定样品中的组分的已确定分布曲线的强度上,由此对所述样品的所述本征值进行估算。
19.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将产生一个用于预测多组分样品的本征值的预测模型,其中计算机程序接收的数据是通过以下方式得到的:
i)确定多个相似的多组分样品的所述本征值;
ii)对每一种所述相似的样品来说,
a)沿一个分离量度分离样品的组分,
b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,
其中计算机程序执行如下步骤:
i)对每一所述相似的样品来说,
A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
B)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出
所述部分中各个组分的特征图形和分离量度分布曲线;
ii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;
iii)将所述相似样品中的组分的所述本征值与已确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型。
20.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将创建一个如权利要求15或17-19任一项所述的计算机程序产品或计算机软件产品。
CN01806971A 2000-07-04 2001-07-04 分析选定的多组分样品的方法 Pending CN1423749A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0016459.0 2000-07-04
GBGB0016459.0A GB0016459D0 (en) 2000-07-04 2000-07-04 Method

Publications (1)

Publication Number Publication Date
CN1423749A true CN1423749A (zh) 2003-06-11

Family

ID=9895034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01806971A Pending CN1423749A (zh) 2000-07-04 2001-07-04 分析选定的多组分样品的方法

Country Status (9)

Country Link
US (1) US20030124610A1 (zh)
EP (1) EP1305619A1 (zh)
JP (1) JP2004502934A (zh)
CN (1) CN1423749A (zh)
AU (1) AU2001266230A1 (zh)
BR (1) BR0112206A (zh)
CA (1) CA2414873A1 (zh)
GB (1) GB0016459D0 (zh)
WO (1) WO2002003056A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1690713B (zh) * 2004-04-23 2010-09-01 霍夫曼-拉罗奇有限公司 对样本进行分析以提供表征数据的方法、系统
CN113196053A (zh) * 2018-12-20 2021-07-30 佳能株式会社 信息处理装置、信息处理装置的控制方法及程序

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070021929A1 (en) * 2000-01-07 2007-01-25 Transform Pharmaceuticals, Inc. Computing methods for control of high-throughput experimental processing, digital analysis, and re-arraying comparative samples in computer-designed arrays
US20050118637A9 (en) * 2000-01-07 2005-06-02 Levinson Douglas A. Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds
US6977723B2 (en) * 2000-01-07 2005-12-20 Transform Pharmaceuticals, Inc. Apparatus and method for high-throughput preparation and spectroscopic classification and characterization of compositions
US20050089923A9 (en) * 2000-01-07 2005-04-28 Levinson Douglas A. Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds
KR20020071931A (ko) * 2000-01-07 2002-09-13 트렌스폼 파마수티컬스 인코퍼레이티드 다양한 고체-형태들의 고도의 자료 처리 편성, 확인 및분석
US20050095696A9 (en) * 2000-01-07 2005-05-05 Lemmo Anthony V. Apparatus and method for high-throughput preparation and characterization of compositions
US20070020662A1 (en) * 2000-01-07 2007-01-25 Transform Pharmaceuticals, Inc. Computerized control of high-throughput experimental processing and digital analysis of comparative samples for a compound of interest
US7108970B2 (en) * 2000-01-07 2006-09-19 Transform Pharmaceuticals, Inc. Rapid identification of conditions, compounds, or compositions that inhibit, prevent, induce, modify, or reverse transitions of physical state
WO2003023409A2 (en) * 2001-09-07 2003-03-20 Transform Pharmaceuticals, Inc. Apparatus and method for high-throughput preparation and characterization of compositions
WO2003102543A2 (en) * 2002-05-31 2003-12-11 Waters Investments Limited A method of using data binning in the analysis of chromatograhpy/spectrometry data
US6961677B1 (en) * 2003-08-25 2005-11-01 Itt Manufacturing Enterprises, Inc. Method and apparatus for categorizing unexplained residuals
GB0323451D0 (en) * 2003-10-07 2003-11-05 Imp College Innovations Ltd Methods for analysis of spectral data and their applications
US20070147685A1 (en) * 2005-12-23 2007-06-28 3M Innovative Properties Company User interface for statistical data analysis
US7571056B2 (en) * 2006-05-25 2009-08-04 Vialogy Corp. Analyzing information gathered using multiple analytical techniques
US8980637B2 (en) * 2007-10-04 2015-03-17 Purdue Research Foundation Breast cancer biomarkers and identification methods using NMR and gas chromatography-mass spectrometry
CA2777501A1 (en) * 2009-10-13 2011-04-21 M. Daniel Raftery Biomarkers and identification methods for the early detection and recurrence prediction of breast cancer using nmr
US20130204539A1 (en) 2011-06-01 2013-08-08 Tsumura & Co. Feature value preparing method, feature value preparing program, and feature value preparing device for pattern or fp
WO2013119435A1 (en) * 2012-02-10 2013-08-15 Waters Technologies Corporation Performing chemical reactions and/or ionization during gas chromatography-mass spectrometry runs
EP3285190A1 (en) 2016-05-23 2018-02-21 Thermo Finnigan LLC Systems and methods for sample comparison and classification
CN106650753A (zh) * 2016-12-20 2017-05-10 电子科技大学 一种基于特征选择的视觉映射方法
CN109854230B (zh) * 2017-11-30 2022-05-10 中国石油天然气股份有限公司 井的测试方法及装置
KR102073856B1 (ko) * 2018-05-28 2020-02-05 부경대학교 산학협력단 공정 모사를 위한 바이오 원유의 동시 모델링 및 복잡성 감소방법
KR102235934B1 (ko) * 2018-12-06 2021-04-05 세종대학교 산학협력단 물질의 판별 및 분석 방법
CN109709056B (zh) * 2019-02-22 2021-03-23 河南理工大学 一种基于光谱信息的混合物闪速定量分析方法及分析仪

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699269A (en) * 1995-06-23 1997-12-16 Exxon Research And Engineering Company Method for predicting chemical or physical properties of crude oils
US5602755A (en) * 1995-06-23 1997-02-11 Exxon Research And Engineering Company Method for predicting chemical or physical properties of complex mixtures
DE19522774A1 (de) * 1995-06-27 1997-01-02 Ifu Gmbh Einrichtung zur spektroskopischen Untersuchung von Proben, die dem menschlichen Körper entnommen wurden
FR2774768B1 (fr) * 1998-02-10 2000-03-24 Inst Francais Du Petrole Methode de determination d'au moins une propriete physicochimique d'une coupe petroliere

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1690713B (zh) * 2004-04-23 2010-09-01 霍夫曼-拉罗奇有限公司 对样本进行分析以提供表征数据的方法、系统
CN113196053A (zh) * 2018-12-20 2021-07-30 佳能株式会社 信息处理装置、信息处理装置的控制方法及程序

Also Published As

Publication number Publication date
EP1305619A1 (en) 2003-05-02
CA2414873A1 (en) 2002-01-10
US20030124610A1 (en) 2003-07-03
AU2001266230A1 (en) 2002-01-14
WO2002003056A1 (en) 2002-01-10
GB0016459D0 (en) 2000-08-23
WO2002003056A8 (en) 2002-04-18
JP2004502934A (ja) 2004-01-29
BR0112206A (pt) 2003-05-13

Similar Documents

Publication Publication Date Title
CN1423749A (zh) 分析选定的多组分样品的方法
US7329852B2 (en) Automatic background removal for input data having consecutive input points identification
Titaley et al. Automating data analysis for two-dimensional gas chromatography/time-of-flight mass spectrometry non‐targeted analysis of comparative samples
CN106716109A (zh) 用于光谱校正的水干扰估计
US7693689B2 (en) Noise-component removing method
Kelly et al. Evaluation of the reproducibility and repeatability of GCMS retention indices and mass spectra of novel psychoactive substances
De Carvalho et al. Determination of the geographical origin and ethanol content of Brazilian sugarcane spirit using near-infrared spectroscopy coupled with discriminant analysis
US6944549B2 (en) Method and apparatus for automated detection of peaks in spectroscopic data
Aebi et al. Advances in the use of mass spectral libraries for forensic toxicology
CN111537659A (zh) 一种筛选生物标志的方法
CN102854151B (zh) 一种光谱分析中样品集划分的化学计量学方法
CN1125329C (zh) 一种测定渣油组分含量的方法
Fakouri Baygi et al. Comparison between automated and user-interactive non-targeted screening tools: isotopic profile deconvoluted chromatogram (IPDC) algorithm and HaloSeeker 1.0
CN113484275B (zh) 基于中红外光谱采用分峰分析技术快速预测新鲜烟叶中油分含量的方法
CN1796980A (zh) 红外光谱测定c10~c13正构烃中二烯烃含量的方法
CN1605864A (zh) 利用特征峰值与农药浓度的关系检测农药残留量的方法
Rammal et al. Optimal preprocessing of Mid InfraRed spectra. Application to classification of lignocellulosic biomass: maize roots and miscanthus internodes.
Luo et al. Prediction of the Harvest Time of Cabernet Sauvignon Grapes Using Near-Infrared Spectroscopy
CN114041189B (zh) 用于预测饲料和/或饲料原料的方法
JP7108697B2 (ja) 候補分析種を順位づけるための方法
Prebihalo et al. Introduction to Gas Chromatography, Multidimensional Gas Chromatography, and Chemometric Data Analysis
Berteau Authors’ answer to a letter to the editor
Galeone et al. Prediction of soil PCBs content in a historically contaminated site of the SIN of Taranto (Southern Italy)
US8428881B2 (en) System and methods for non-targeted processing of chromatographic data
Pissot Correcting biological infrared spectroscopy data for atmospheric gases and Mie scattering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication