JP2004502934A - 選択された多成分サンプルの分析方法 - Google Patents
選択された多成分サンプルの分析方法 Download PDFInfo
- Publication number
- JP2004502934A JP2004502934A JP2002508068A JP2002508068A JP2004502934A JP 2004502934 A JP2004502934 A JP 2004502934A JP 2002508068 A JP2002508068 A JP 2002508068A JP 2002508068 A JP2002508068 A JP 2002508068A JP 2004502934 A JP2004502934 A JP 2004502934A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- separation dimension
- component
- pattern
- profile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8603—Signal analysis with integration or differentiation
- G01N30/8606—Integration
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8658—Optimising operation parameters
- G01N30/8662—Expert systems; optimising a large number of parameters
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
- G01N30/8679—Target compound analysis, i.e. whereby a limited number of peaks is analysed
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8693—Models, e.g. prediction of retention times, method development and validation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Sampling And Sample Adjustment (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本願は、例えばGC−MSのような2次元分解データから、複合的な多成分混合物の化学的または生物学的な特性(例えば毒性や変異原性など)を予測する方法を開示するものである。データは、自動曲線分解処理(GENTLE)により、個々の成分ごとにピーク(C)およびスペクトル(S)に分解される。分解されたピークは統合され、特徴領域、分離パラメータ、および関連するスペクトルは、多変量回帰モデルへの入力として用いられる予測行列(X)を生成するために合成される。部分最小二乗回帰(PLS)を用いて、トレーニングセットに対する2次元分離データを、測定された特性に相関づける。その後、回帰モデルを用いて、他のサンプルについての特性を予測することができる。
Description
【0001】
本発明は、データ、特に、例えば多数の不特定化合物を含む組成物のような、多数の成分を有する系から得たデータの分析方法と、このような分析を実行するためのプログラムおよびコンピュータに関する。
【0002】
環境モニタリングや医療診断分析において、分析者は、例えば何百もの化合物のような多数の不特定化合物または生物学的成分を含んだサンプル(例えば、体液や、廃液または排ガスのサンプル)を与えられ、サンプリングされた物質が環境的なリスクをもたらしたり疾病状態の兆候を示したりしているか否かを判断しなければならないことがある。
【0003】
一つの代表的な技術として、バクテリアの選択された突然変異株をサンプルとして、そのバクテリアの自然(野生)株が持つ性質であるが、選択された突然変異株にはない性質を持つためのバクテリアの変異の程度を判断することにより環境サンプルの毒性(変異原性)を評価する、いわゆるエームズ(Ames)試験が知られている。
【0004】
このような試験は、単に特定のサンプルの毒性の指標を提供するだけであり、その毒性の原因となる特定の化合物についての何の指標も与えるものではなく、他のサンプルの毒性を予測する何の根拠を与えるものでもない。
【0005】
同様に、ほとんどの診断分析は、単に、一つの化合物の存在または不存在を検出するだけであり、特定の疾病状態または他の疾病状態をも示し得る他の化合物の存在または不存在についての指標を与えるものではない。
【0006】
多成分混合物から個々の成分を分離するために、例えば液体またはガスクロマトグラフィのようなクロマトグラフ法を用いることができる。また、例えば質量分析、IR、UV、Raman、ESR、およびNMRスペクトル分析のようなスペクトル分析法を、そのような個々の成分のスペクトル特性を判定するために用いることができる。しかしながら、クロマトグラフ法による分離では、通常、何百もの化合物の混合物から個別成分のそれぞれを分離することはできないし、多成分サンプルの全ての留分(fractions)や成分について毒性分離や他の試験を行うことは、費用や時間がかかり、一般的に実用的ではない。
【0007】
このため、混合物全体としての影響(例えば毒性)を予測し、その影響をもたらす主な原因となる成分に焦点を合わせて可能であれば特定するために用い得る多成分混合物の分析方法が必要とされている。
【0008】
従来、そのような方法が有効であるのは、複数の類似したサンプルに対して、それらのサンプルの影響に対するデータが得られ、それらのサンプルから分離された留分(例えばクロマトグラフ法により分離されたサンプルの留分)に対して特徴的なスペクトル分析データが得られる場合であることが知られている。
【0009】
従って、一つの側面から見れば、本発明は、選択された多成分サンプルの特性値を予測する分析方法であって、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
c)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
d)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
iii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iv)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
v)選択されたサンプルについて、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
C)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
D) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
E)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0010】
「特性」とは、数値を与え得る任意のものであるが、例えば、特性が中間的な等級を持ち得ないものあるいは不要なものである場合(例えば、正または死、感染しているまたは感染していない、など)は、0または1であっても良い。
【0011】
本発明にかかる方法は、特性値が判明している類似サンプルの分析に基づいて予測モデルを構築することと、構築した予測モデルを、特性を判定する必要のないサンプルの分析結果へ適用することとを含む。「類似」とは、サンプルが同じタイプであって、同一または類似の種類の源から得られたものであることを意味する。例えば、サンプルが、全て、同じプロセスまたは工程からのガスまたは液体の廃棄物である場合、サンプルが、同種のメンバーの同じ体液、組織、滲出物など(例えば、血液、血清、血漿、尿、粘膜、喀痰、便、swat、身体ガスなど)から得られたものである場合である。このように、「類似」サンプルは、「選択された」サンプル中に存在する、複数の、好ましくは全てまたは大多数の成分を、一緒に含み得る。
【0012】
本発明にかかる方法は、多成分サンプル中の個々の成分の分離を含む。この分離は、完全な分離であっても良いし、必ずしも完全な分離でなくとも良い。サンプリングされた各々の部分(例えば、質量スペクトル分析用)は、これにより、一つまたは複数の成分を含む。従って、分離がガスクロマトグラフ法または液体クロマトグラフ法の場合、分離次元(例えば保持期間)に沿って近接するいくつかの部分に、同じ成分が存在することがある。ガスクロマトグラフ法−質量スペクトル分析(GC−MS)に適用した場合、本方法は、個々の成分の特徴を示すMSピークを特定するための、近接する部分に対するMSスペクトルの調査と、それらの個別成分の保持期間に沿ったGCプロファイルの計算とを含む。必要であれば、分離次元の関係のない区間のデータを廃棄しても良い。これにより、プロファイルを判定する成分は、現存する成分の総数の一部を含めば良いこととなる。それらの判定されたプロファイルの強度(例えば、ピーク高さまたはピーク領域、あるいは単にyes/no値)は、予測モデルの構築および適用に用いられる。予測モデルは、プロファイル(例えば保持期間または調整された保持期間)およびパターン(例えば質量スペクトル)の点で同一またはよく似ている類似成分として特定する互いに異なるサンプルのデータを比較することにより、正確なものとなる。
【0013】
多くのサンプルを分析するために、供給者は、ユーザに予め計算された予測モデルを供給しても良い。このように、他の観点から見れば、本発明は、多成分サンプルの特性値を予測するための予測モデルを生成する方法を提供するものであって、この方法は、以下の工程を含む。
【0014】
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
c)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
d)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
iii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iv)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成する。
【0015】
さらに他の観点から見ると、本発明は、選択された多成分サンプルの特性値を予測するための分析方法を提供するものであって、この方法は、以下の工程を含む。
【0016】
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
C)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
D) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
E)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0017】
本発明にかかる方法は、以下においてさらに説明するように、多成分サンプルに対してさらに広く適用されるものであるが、ここで、本方法について、複数の化合物を含むサンプルを、部分を生成するためのクロマトグラフ法による分離とパターンを生成するためのスペクトル分析とを用いて、物理的、化学的、および特に生物学的な性質(例えば、毒性、変異原性、疾病状態、遺伝子型、治療効果など)のような定量化可能な特性について分析する方法に関連して、さらに詳細に説明する。
【0018】
上述したように、様々な種類のスペクトル分析を用いることができるが、例えばnmrまたは特に質量分析(ms)のように、分光ピーク(または谷)がはっきりしている手法を用いることが特に好ましい。同様に、分離は、液体またはより好適にはガスクロマトグラフィによって行われることが好ましい。
【0019】
サンプルに対して、クロマトグラフ法によって分離されたスペクトル分析データを生成することができる装置として、例えばGC−MS装置などが利用可能である。
【0020】
このように、本発明にかかる分析の開始データは、予測モデルの生成用の各サンプルについて決定された特性値を伴う2次元行列(すなわち、クロマトグラフの部分データおよびクロマトグラフの各部分に対するスペクトル分析データ)と、選択されたサンプル(すなわち、クロマトグラフの部分データおよびクロマトグラフの各部分に対するスペクトル分析データ)に対する予測値を生成するための2次元行列であると考えられる。同様に、クロマトグラフデータおよびスペクトル分析データは、強度および位置(例えば溶出時間または質量数またはm/e比)を含む。
【0021】
演算所要時間を短くすることは、サンプル中の成分数が数百にも及ぶ場合は特に重要である。このため、予め設定された最小値を下回る高さである場合(例えば、留分中のサンプルからの成分量がゼロまたは非常に少ない場合、あるいは、分光ピークがノイズレベルである場合)、あるいは、その部分が既知の成分またはその特性に関係ないと考えられている成分(例えば、低分子量化合物や溶出速度が早い化合物)に対応する場合に、そのデータを除去することによって、入力データを制限しても良い。
【0022】
一般的に、まず、その時点でどの成分も溶出していない溶出時間、すなわち、クロマトグラフ信号(高さ)が予め設定された限界値よりも低い場合、のデータを捨てることにより、データ行列のデータ数を削減する。しかし、データのカットは、時間軸に沿った位置であって、信号がピークの高さよりも小さくなった位置においてされることが好ましい。
【0023】
これは、隣接するピークの比率の値を、例えば0.1〜0.4の範囲、好ましくは0.3に設定し、信号がピークの後に最小値に達した時点または信号が予め設定されたカットリミットを下回った時点ではなく、ピークに対する信号の比率がこの値より小さくなった場合にカットするだけで、実現することができる。カットリミット自体は、一般的に、ユーザの必要に応じて設定されるものであり、より高い値を設定すればより多いデータが廃棄されて微量成分が無視され、より低い値を設定すればその逆となる。一般的には、カットリミットは、識別可能な最小信号高さの5〜10%に設定すれば良い。カットリミットが低くなるほど、より多くのデータが保持され、より多くの成分が分析されることは、明らかである。
【0024】
2次元のGC−MSデータは、様々な理由により、バックグラウンドノイズを含むことがある。検出器性能の変化は、クロマトグラフの基準線のオフセットやドリフトを発生させることがあり、カラムブリード(column bleeding)はバックグラウンドスペクトルを生じさせることがある。このため、ゼロ信号またはノイズ信号保持時間を削除した後に残るクロマトグラフのピークに対して、バックグラウンド補正を行うことが好ましい。これは、ピーククラスタのいずれかの側のゼロ成分領域から外挿された線の傾きを近似する傾きの一次(すなわち線形)推定基準線を演算することによって可能である。
【0025】
このように選択された各々のクロマトグラムピーククラスタに対して、分離スペクトル分析データセットを規格化することができる。例えば、スペクトルピークの最高値を1にセットし、あるいは、全てのスペクトル分析ピーク領域を1にセットするか、または、選択されたクロマトグラフピーククラスタの当該ピーク領域に比例する値にセットする。
【0026】
このように選択されたクロマトグラフピーククラスタは、少なくとも20の分解時間バルブ(resolution time valves)に及ぶことが好ましい。すなわち、ピーククラスタは、分解時間バルブと、少なくとも20msのスペクトルと関連する。
【0027】
スペクトルデータの削減は、それから、同様に行われる。これにより、MSに対して、全溶出時間を一回で考慮する場合、記録可能な範囲におけるほとんどまたは全ての質量数は、少なくとも1つの成分からの信号を含む。しかし、クロマトグラム部分に対する質量スペクトルにおいて、多くの質量数は、信号を含まないか、あるいはノイズのみに起因する信号を有する。このような質量数の存在は、分解処理の品質を劣化させるものであり、分解に先立ってスペクトルから除去されることが好ましい。
【0028】
ゼロ信号を有する質量数を検出することは特に取り上げるべきことでもないが、ランダムノイズに起因する信号を有する質量数を、形態的基準とFテスト(Shenら、Chemomem. Intell. Lab. Syst. 51: 37−47 (2000)参照)との組み合わせを用いて検出することは可能である。なお、これは、ノイズが化学成分からの信号よりも高い周波数を持っているという事実を利用したものである。このようにして、最大90%程度までの質量スペクトルデータを、分解に先立って廃棄することができる。
【0029】
隣接するスペクトルデータは、その後、別個のピークに分解される。これは、事実上、以下の数式をCおよびSについて解くことを含む。
【0030】
X=CST+E (1)
ここで、Xは、記録されたデータであり、Cはクロマトグラフのプロファイルであり、Sは質量スペクトルであり、Tは行列の転置を表し、Eは残余行列である。
【0031】
これは、様々な方法で実現可能である。しかし、Mannらによって示されたGENTLE法(Chemom. Intell. Lab. Syst. 50: 35−46 (2000))が好ましい一つの方法である。
【0032】
まず、AキースペクトルS0が、例えば簡略化されたBorgen法(Grandeら、Chemom. Intell. Lab. Syst. 50: 19−33 (2000)参照)を用いて検出される。なお、ここでの“A”とは、化学的な階数(chemical rank)を表す。ピーククラスタにおいて、キースペクトルは、最も純粋なスペクトルである。キースペクトルは、データを、そのデータの最初の特異ベクトル上の連続射影に正規化することにより検出される。ここで、「特異」という用語は、そのベクトルが、標準的な数値処理法である特異値分解(SVD)の結果であることを意味する。行列形式では、
X=UΣVT
と表せる。最初の列ベクトルU(最初の左特異ベクトルと称されることもある)が、射影として用いられる。キースペクトルは、データの凸の閉ざされた表現の端点上で検出される。キースペクトルS0は、真のスペクトルSの初期予測値を表す。真のクロマトグラフプロファイルの初期予測値C0は、数式(1)をCについて解くことにより、次のように得られる。
【0033】
C0=XS0(S0 TS0)−1 (2)
真のプロファイルおよびスペクトルの予測値であるCおよびSを得るために、反復処理が行われる。これは、以下の数式(3)および(4)が成り立つような変換行列Tを決定することにより可能である。
【0034】
C=C0T (3)
ST=T−1S0 T (4)
Tは、いくつかの基本行列(elementary matrices)の積であり、反復処理によって生成できる。この反復処理において、CおよびSの中間解に何らかの制限を加えることにより、実行結果を早く得られる。このように、SおよびCに対してピーク(クロマトグラフまたは質量スペクトルのいずれであっても)は正でなければならないと考えられ、Cに対して純粋クロマトグラフピークは、単一モードであると考えられる。以下の基準は、例えば、分解の実現および評価に用いることができる。
【0035】
成分ウィンドウ:ノイズ限界を超えるクロマトグラフ領域以外の成分の非ゼロ偏差を最小化するために、直線回帰を用いることができる。
【0036】
平滑度(smoothness):一成分のクロマトグラフピークは、連続していると仮定することができる(これによりノイズと区別できる)。
【0037】
有意性(significance):一成分のクロマトグラフピークの頂点の輝度は、一般的にデータの決定限界(すなわち、前述のカットリミットまたは識別可能な最小信号高さ)よりも極めて高くなければならない。一般的に、ピークは、それらの頂点輝度が決定限界の少なくとも2倍の場合にのみ許容されるべきである。
【0038】
完全性:選択されたクロマトグラフピーククラスタが終了する前に、分解されたピークがノイズレベルを減少させるかどうかについてチェックすることが好ましい。ノイズレベルを減少させない場合は、より大きなピーククラスタについて処理を繰り返すべきである。
【0039】
化学的階数または検出すべきキースペクトルの数は、比較的大きい数(例えば8〜12、好ましくは10)から開始して、反復的に検出することができる。特定のキースペクトル数に応じて解を求めた後、上述の基準に従って、その解を評価する。分解されたプロファイルの品質が良くない場合は、さらに大きな、またはより一般的にはさらに小さなキースペクトル数を用いて、分解を繰り返す。
【0040】
分解の後、分解された質量スペクトルSを、最大輝度が1.0となるように正規化しても良い。また、クロマトグラフプロファイルCを以下のように再計算しても良い。
【0041】
C=XS(STS)−1 (5)
定性的な情報はスペクトル中に存在するが、定量的な情報はクロマトグラフプロファイル中に存在する(これらは、一つの領域を形成するよう統合できる)。
【0042】
実際には、分解処理においては、サンプル中の個々の化学成分のスペクトル線の特性グループを特定するために、一つのサンプルについて選択された質量スペクトル同士の比較を行うと共に、それらの成分に対する特徴的なクロマトグラフプロファイルの判定を行う。一つのサンプルについての出力データは、複数の質量スペクトル線並びにそれらのクロマトグラフプロファイルの位置(すなわち溶出時間)および領域で特徴付けられた、個々の成分のリストである。これを複数のサンプルについて行うことにより、予測行列を生成することができ、さらにこれを用いて、予測モデルを生成することができる。このように、例えば、Y=Xbが成り立つ。ここで、Xは予測行列、bは回帰係数(予測モデル)、Yはサンプル特性の予測値である。
【0043】
このように、予測行列の生成において、異なるサンプルに対する出力データが互いに比較され、類似の成分(すなわち化学成分)が存在するかどうか判定される。サンプルから測定された特性全体に対する各成分の寄与の相対的な大きさおよびネガティブまたはポジティブな性質を判定するために(例えば発ガン性)、回帰分析を用いることができる。これらの寄与度は、各成分ごとの寄与度予測モデルとして表現できる。この予測モデルを、さらなるサンプルの判定された成分濃度プロファイルに適用することにより、そのサンプルの特性値を簡単に予測することができる。
【0044】
一般的に、予測行列の生成は、以下のステップにより行う。
【0045】
i)特性値が測定されたサンプルの分解プロファイルと、一般的に一つの領域(クロマトグラフピーク領域)を含む各サンプルのプロファイルと、保持期間と、各分解成分ごとに正規化された質量スペクトルとをロードし、
ii)分解プロファイルを、保持期間の昇順にソートし、
iii) 2つ以上のサンプルに共通する成分を特定することによって後続する回帰分析の変数の数を減らすために、選択された範囲内(例えば、1〜8分、一般的には4分)の保持期間を持った互いに異なる成分の質量スペクトル同士を比較し、
iv)サンプルの分解された成分についての保持期間および領域の値の集合に対して、特性の測定値に相関する予測モデルを確立する。
【0046】
前記の比較ステップ(iii)は、一般的に、質量スペクトルSiおよびSj間のスペクトル類似指数Sijの判定を含む。質量スペクトルSiおよびSjは、互いに異なるサンプル中の成分iおよびjの質量スペクトルであるが、類似の保持期間を有する。Sijは、次のように表され、予め設定された限界値(例えば0.9)よりも大きい値を持つ場合、成分iおよびjを、類似しているものとして分類することができる。
【0047】
Sij=Si T・Sj (6)
予測行列が規定されると、特性の測定値をサンプルの分解成分に対して計算された領域の集合に相関づけて、分類モデルまたは回帰モデルが予測される。予測行列からのモデルの計算は、例えばノルウェイのベルゲンのパターン・レコグニション・システムズ・ASが提供するSiriusプログラムのような、市販の多変量分類/回帰分析コンピュータプログラムによって達成できる。
【0048】
添付図における図1に、典型的な予測モデルの一例を概略的に示す。この図において、x軸は成分保持期間であり、y軸は、特性を測定したサンプル中で分解された成分のそれぞれに対する回帰係数の値である。ここでは、測定した特性は、変異原性(エームズ試験により測定)であり、サンプルとしては環境排水サンプルを用いた。
【0049】
生物学的な影響は、回帰係数がより大きな値を持つ成分ほど大きく、図に示すように、そのような成分は、保持期間が大きい傾向を示す。
【0050】
前記の比較ステップは、必要であれば、GC−MS分析前のサンプルに、そのサンプルには含まれていない、既知の質量スペクトルを持つ化学成分を混入させて実行しても良い。類似成分を判定するための選択された範囲の保持期間のサイズを決定するために、これらの成分の保持期間を任意に変化させても良い。しかし、前記の混入成分のプロファイルは、予測行列の生成には用いられない。なぜならば、それらの混入成分は、混入前のサンプル中にはもともと存在するものではなく、特性値に影響を及ぼし得ないからである。さらに、前記の混入は、GC−MSへのサンプル注入量に関するサンプル間のばらつきを補償するためにも用いられる。すなわち、混入物のピーク領域に関連させて、ピーク領域を正規化することができる。
【0051】
上記の説明は、主として、多成分化学サンプルのGC−MSスペクトルと生物学的影響の測定値との相関に関するものであったが、本発明にかかる方法は、より広汎に適用可能である。例えば、本発明にかかる方法は、例えばDSP、PSP、ASP、アフラトキシン、あるいはボツリヌス毒素などの毒素による生物学的または化学的な汚染についての食物サンプルの試験に用いることができる。また、本発明にかかる方法は、細菌感染またはウィルス感染、プリオン関連の疾病、アルツハイマー症やむち打ち症などの生理学的状態、あるいは薬物乱用(例えば違法薬物の使用やスポーツ選手による規制薬物の使用)などの状態を発見するための、例えば、リンパ液、血液、血清、血漿、尿、粘膜、精液、喀痰、便、または組織サンプルなどの医学的サンプルの分析に用いることもできる。しかし、本発明の方法は、測定可能な特性を、複数の成分から得られる信号の固有の(signature)組み合わせに関連づけることが可能な任意のシステムに、広汎に適用することが可能である。
【0052】
本発明の方法は、特に、医学的および法医学的診断に適用可能である。このため、一つの実施形態において、サンプルとして身体組織や体液(例えば血液、血漿、血清)を用い、「特性」が、通常/健康または異常/不健康を意味し得る。また、成分を、異常または不健康に相関するものとして、あるいは、成分が特定の濃度範囲外にある場合に異常または不健康に相関するものとして、特定することができる。同様に、成分または成分の集合を、特定の異常または疾病状態に相関するものとして特定することもできる。他の実施形態において、体液、組織、またはガスで死後経過時間を分析し、その結果得られた予測モデルを用いて、例えば殺人の被害者の死亡時刻を決定することもできる。
【0053】
同様に、本発明の方法は、特に、異常や汚染(化学的または生物学的)を検出するための食料品(例えばチーズ)の検査にも適用可能である。
【0054】
必要に応じて、本発明の方法を拡張し、サンプルの一つまたは複数の分解成分を、その成分の特性を示すデータ(例えばクロマトグラフプロファイルおよび/または質量スペクトル)と、既知の化学物質(または他の成分)の同様の特性を示すデータとを比較することによって、識別することもできる。これは、例えば、コンピュータ化された化学物質ライブラリ用データベースを相互参照することによって可能である。このように、本発明にかかる方法は、例えば、あるサンプルに対して(あるいは個々のサイト(site)またはテストサイトとは異なる他のサンプルに対して)適用し得るさらに具体的なまたはさらに詳細な診断テストを特定するための、粗いフィルタとして用いられる。このようにして、利用可能な診断テストの全部を実行することを要さず、問題を特定することができる。
【0055】
他の側面から見ると、本発明は、本発明にかかる方法を実行するためのコンピュータプログラムを担持するコンピュータソフトウェア製品(例えばディスク、テープ、通信またはメモリデバイス、あるいは他の搬送媒体)を提供するものである。
【0056】
さらに他の側面から見ると、本発明は、本発明にかかる方法を実行するようにプログラムされたコンピュータを提供するものである。
【0057】
本発明にかかるプログラムの動作を、添付した図2および図3のフローチャートに概略的に示す。
【0058】
図2は、予測モデルの生成を示す。データ入力(ステップI)は、複数のサンプルに対するGC−MSデータおよび測定された特性値のロードを含む。データ削減(ステップII)は、空白の保持期間の廃棄およびバックグラウンドの除去(すなわちGCピーククラスタの識別)と、空白の質量数の廃棄およびMSバックグラウンドの除去(すなわち、各GCピーククラスタごとの質量スペクトルからの質量スペクトルピークの集合の識別)とを含む。プロファイル分解(ステップIII)は、そのようなGCピーククラスタ中の個々の成分ごとの質量スペクトルの識別と、各分解成分ごとのGCプロファイル(ピーク保持期間およびピーク領域)の決定とを含む。予測モデル生成(ステップIV)は、2つ以上のサンプルに共通する成分を識別するための、互いに異なるサンプル間の分解成分プロファイル同士の比較と、各分解成分に、その成分が測定された特性に与える影響を表す回帰係数を付与するための回帰分析と、その結果として得られた予測行列からの予測モデルの生成とを含む。
【0059】
図3に、予測モデルの適用を示す。データ入力(ステップI)は、一つのサンプルに対するGC−MSデータのロードを含む。データ削減(ステップII)およびプロファイル分解(ステップIII)は、図2で説明したとおりである。値予測(ステップIV)は、分解プロファイルへの、予め計算された予測モデルの適用を含む。従って、予測モデルの構築に用いられるそれらの成分のみが、特性予測値の決定に際して考慮されることは明らかである。
【0060】
前述したように、予測モデルは、必ずしも、成分の特性に対する寄与を表す回帰係数に基づいて得られるものでなくとも良いが、そのモデルの適用により予測特性値として対応するサンプル源の分類が得られるように、分類(すなわち、生/死、健康/不健康)を反映するものであっても良い。
【0061】
また、予測行列をサンプルに対する予測値を生成する際のデータ削減に用いても良い。これにより、例えば、予測行列の計算において決定された回帰係数の低い値に対応するGC保持期間を廃棄できる。
【0062】
本発明にかかる分析は、遠隔地に設置されたデータ処理手段によって実行しても良い。このため、さらに他の観点によれば、本発明は、データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測する命令を含む、コンピュータプログラム製品を提供するものである。前記コンピュータプログラムは、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
a)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
b) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
c)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0063】
他の側面から見れば、本発明は、データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測するために当該サンプルを分析する命令を含むコンピュータプログラム製品を提供するものであって、
前記コンピュータプログラムは、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
iii)選択されたサンプルについて、
A)当該サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で当該サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
i)前記類似サンプルのそれぞれについて、
a)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
b)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iii)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
iv)選択されたサンプルについて、
A)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
B)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
C)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0064】
さらに、他の側面から見れば、本発明は、データ処理手段で実行された場合に、多成分サンプルの特性値を予測するための予測モデルを生成する命令を含むコンピュータプログラム製品を提供するものであって、
前記コンピュータプログラムが、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
i)前記類似サンプルのそれぞれについて、
A)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
B)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iii)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成する。
【0065】
本発明は、さらに、データ処理手段で実行された場合に、上述したコンピュータプログラム製品を生成する命令を含むコンピュータプログラム製品に及ぶ。
本発明は、データ、特に、例えば多数の不特定化合物を含む組成物のような、多数の成分を有する系から得たデータの分析方法と、このような分析を実行するためのプログラムおよびコンピュータに関する。
【0002】
環境モニタリングや医療診断分析において、分析者は、例えば何百もの化合物のような多数の不特定化合物または生物学的成分を含んだサンプル(例えば、体液や、廃液または排ガスのサンプル)を与えられ、サンプリングされた物質が環境的なリスクをもたらしたり疾病状態の兆候を示したりしているか否かを判断しなければならないことがある。
【0003】
一つの代表的な技術として、バクテリアの選択された突然変異株をサンプルとして、そのバクテリアの自然(野生)株が持つ性質であるが、選択された突然変異株にはない性質を持つためのバクテリアの変異の程度を判断することにより環境サンプルの毒性(変異原性)を評価する、いわゆるエームズ(Ames)試験が知られている。
【0004】
このような試験は、単に特定のサンプルの毒性の指標を提供するだけであり、その毒性の原因となる特定の化合物についての何の指標も与えるものではなく、他のサンプルの毒性を予測する何の根拠を与えるものでもない。
【0005】
同様に、ほとんどの診断分析は、単に、一つの化合物の存在または不存在を検出するだけであり、特定の疾病状態または他の疾病状態をも示し得る他の化合物の存在または不存在についての指標を与えるものではない。
【0006】
多成分混合物から個々の成分を分離するために、例えば液体またはガスクロマトグラフィのようなクロマトグラフ法を用いることができる。また、例えば質量分析、IR、UV、Raman、ESR、およびNMRスペクトル分析のようなスペクトル分析法を、そのような個々の成分のスペクトル特性を判定するために用いることができる。しかしながら、クロマトグラフ法による分離では、通常、何百もの化合物の混合物から個別成分のそれぞれを分離することはできないし、多成分サンプルの全ての留分(fractions)や成分について毒性分離や他の試験を行うことは、費用や時間がかかり、一般的に実用的ではない。
【0007】
このため、混合物全体としての影響(例えば毒性)を予測し、その影響をもたらす主な原因となる成分に焦点を合わせて可能であれば特定するために用い得る多成分混合物の分析方法が必要とされている。
【0008】
従来、そのような方法が有効であるのは、複数の類似したサンプルに対して、それらのサンプルの影響に対するデータが得られ、それらのサンプルから分離された留分(例えばクロマトグラフ法により分離されたサンプルの留分)に対して特徴的なスペクトル分析データが得られる場合であることが知られている。
【0009】
従って、一つの側面から見れば、本発明は、選択された多成分サンプルの特性値を予測する分析方法であって、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
c)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
d)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
iii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iv)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
v)選択されたサンプルについて、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
C)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
D) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
E)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0010】
「特性」とは、数値を与え得る任意のものであるが、例えば、特性が中間的な等級を持ち得ないものあるいは不要なものである場合(例えば、正または死、感染しているまたは感染していない、など)は、0または1であっても良い。
【0011】
本発明にかかる方法は、特性値が判明している類似サンプルの分析に基づいて予測モデルを構築することと、構築した予測モデルを、特性を判定する必要のないサンプルの分析結果へ適用することとを含む。「類似」とは、サンプルが同じタイプであって、同一または類似の種類の源から得られたものであることを意味する。例えば、サンプルが、全て、同じプロセスまたは工程からのガスまたは液体の廃棄物である場合、サンプルが、同種のメンバーの同じ体液、組織、滲出物など(例えば、血液、血清、血漿、尿、粘膜、喀痰、便、swat、身体ガスなど)から得られたものである場合である。このように、「類似」サンプルは、「選択された」サンプル中に存在する、複数の、好ましくは全てまたは大多数の成分を、一緒に含み得る。
【0012】
本発明にかかる方法は、多成分サンプル中の個々の成分の分離を含む。この分離は、完全な分離であっても良いし、必ずしも完全な分離でなくとも良い。サンプリングされた各々の部分(例えば、質量スペクトル分析用)は、これにより、一つまたは複数の成分を含む。従って、分離がガスクロマトグラフ法または液体クロマトグラフ法の場合、分離次元(例えば保持期間)に沿って近接するいくつかの部分に、同じ成分が存在することがある。ガスクロマトグラフ法−質量スペクトル分析(GC−MS)に適用した場合、本方法は、個々の成分の特徴を示すMSピークを特定するための、近接する部分に対するMSスペクトルの調査と、それらの個別成分の保持期間に沿ったGCプロファイルの計算とを含む。必要であれば、分離次元の関係のない区間のデータを廃棄しても良い。これにより、プロファイルを判定する成分は、現存する成分の総数の一部を含めば良いこととなる。それらの判定されたプロファイルの強度(例えば、ピーク高さまたはピーク領域、あるいは単にyes/no値)は、予測モデルの構築および適用に用いられる。予測モデルは、プロファイル(例えば保持期間または調整された保持期間)およびパターン(例えば質量スペクトル)の点で同一またはよく似ている類似成分として特定する互いに異なるサンプルのデータを比較することにより、正確なものとなる。
【0013】
多くのサンプルを分析するために、供給者は、ユーザに予め計算された予測モデルを供給しても良い。このように、他の観点から見れば、本発明は、多成分サンプルの特性値を予測するための予測モデルを生成する方法を提供するものであって、この方法は、以下の工程を含む。
【0014】
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
c)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
d)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
iii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iv)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成する。
【0015】
さらに他の観点から見ると、本発明は、選択された多成分サンプルの特性値を予測するための分析方法を提供するものであって、この方法は、以下の工程を含む。
【0016】
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
C)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
D) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
E)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0017】
本発明にかかる方法は、以下においてさらに説明するように、多成分サンプルに対してさらに広く適用されるものであるが、ここで、本方法について、複数の化合物を含むサンプルを、部分を生成するためのクロマトグラフ法による分離とパターンを生成するためのスペクトル分析とを用いて、物理的、化学的、および特に生物学的な性質(例えば、毒性、変異原性、疾病状態、遺伝子型、治療効果など)のような定量化可能な特性について分析する方法に関連して、さらに詳細に説明する。
【0018】
上述したように、様々な種類のスペクトル分析を用いることができるが、例えばnmrまたは特に質量分析(ms)のように、分光ピーク(または谷)がはっきりしている手法を用いることが特に好ましい。同様に、分離は、液体またはより好適にはガスクロマトグラフィによって行われることが好ましい。
【0019】
サンプルに対して、クロマトグラフ法によって分離されたスペクトル分析データを生成することができる装置として、例えばGC−MS装置などが利用可能である。
【0020】
このように、本発明にかかる分析の開始データは、予測モデルの生成用の各サンプルについて決定された特性値を伴う2次元行列(すなわち、クロマトグラフの部分データおよびクロマトグラフの各部分に対するスペクトル分析データ)と、選択されたサンプル(すなわち、クロマトグラフの部分データおよびクロマトグラフの各部分に対するスペクトル分析データ)に対する予測値を生成するための2次元行列であると考えられる。同様に、クロマトグラフデータおよびスペクトル分析データは、強度および位置(例えば溶出時間または質量数またはm/e比)を含む。
【0021】
演算所要時間を短くすることは、サンプル中の成分数が数百にも及ぶ場合は特に重要である。このため、予め設定された最小値を下回る高さである場合(例えば、留分中のサンプルからの成分量がゼロまたは非常に少ない場合、あるいは、分光ピークがノイズレベルである場合)、あるいは、その部分が既知の成分またはその特性に関係ないと考えられている成分(例えば、低分子量化合物や溶出速度が早い化合物)に対応する場合に、そのデータを除去することによって、入力データを制限しても良い。
【0022】
一般的に、まず、その時点でどの成分も溶出していない溶出時間、すなわち、クロマトグラフ信号(高さ)が予め設定された限界値よりも低い場合、のデータを捨てることにより、データ行列のデータ数を削減する。しかし、データのカットは、時間軸に沿った位置であって、信号がピークの高さよりも小さくなった位置においてされることが好ましい。
【0023】
これは、隣接するピークの比率の値を、例えば0.1〜0.4の範囲、好ましくは0.3に設定し、信号がピークの後に最小値に達した時点または信号が予め設定されたカットリミットを下回った時点ではなく、ピークに対する信号の比率がこの値より小さくなった場合にカットするだけで、実現することができる。カットリミット自体は、一般的に、ユーザの必要に応じて設定されるものであり、より高い値を設定すればより多いデータが廃棄されて微量成分が無視され、より低い値を設定すればその逆となる。一般的には、カットリミットは、識別可能な最小信号高さの5〜10%に設定すれば良い。カットリミットが低くなるほど、より多くのデータが保持され、より多くの成分が分析されることは、明らかである。
【0024】
2次元のGC−MSデータは、様々な理由により、バックグラウンドノイズを含むことがある。検出器性能の変化は、クロマトグラフの基準線のオフセットやドリフトを発生させることがあり、カラムブリード(column bleeding)はバックグラウンドスペクトルを生じさせることがある。このため、ゼロ信号またはノイズ信号保持時間を削除した後に残るクロマトグラフのピークに対して、バックグラウンド補正を行うことが好ましい。これは、ピーククラスタのいずれかの側のゼロ成分領域から外挿された線の傾きを近似する傾きの一次(すなわち線形)推定基準線を演算することによって可能である。
【0025】
このように選択された各々のクロマトグラムピーククラスタに対して、分離スペクトル分析データセットを規格化することができる。例えば、スペクトルピークの最高値を1にセットし、あるいは、全てのスペクトル分析ピーク領域を1にセットするか、または、選択されたクロマトグラフピーククラスタの当該ピーク領域に比例する値にセットする。
【0026】
このように選択されたクロマトグラフピーククラスタは、少なくとも20の分解時間バルブ(resolution time valves)に及ぶことが好ましい。すなわち、ピーククラスタは、分解時間バルブと、少なくとも20msのスペクトルと関連する。
【0027】
スペクトルデータの削減は、それから、同様に行われる。これにより、MSに対して、全溶出時間を一回で考慮する場合、記録可能な範囲におけるほとんどまたは全ての質量数は、少なくとも1つの成分からの信号を含む。しかし、クロマトグラム部分に対する質量スペクトルにおいて、多くの質量数は、信号を含まないか、あるいはノイズのみに起因する信号を有する。このような質量数の存在は、分解処理の品質を劣化させるものであり、分解に先立ってスペクトルから除去されることが好ましい。
【0028】
ゼロ信号を有する質量数を検出することは特に取り上げるべきことでもないが、ランダムノイズに起因する信号を有する質量数を、形態的基準とFテスト(Shenら、Chemomem. Intell. Lab. Syst. 51: 37−47 (2000)参照)との組み合わせを用いて検出することは可能である。なお、これは、ノイズが化学成分からの信号よりも高い周波数を持っているという事実を利用したものである。このようにして、最大90%程度までの質量スペクトルデータを、分解に先立って廃棄することができる。
【0029】
隣接するスペクトルデータは、その後、別個のピークに分解される。これは、事実上、以下の数式をCおよびSについて解くことを含む。
【0030】
X=CST+E (1)
ここで、Xは、記録されたデータであり、Cはクロマトグラフのプロファイルであり、Sは質量スペクトルであり、Tは行列の転置を表し、Eは残余行列である。
【0031】
これは、様々な方法で実現可能である。しかし、Mannらによって示されたGENTLE法(Chemom. Intell. Lab. Syst. 50: 35−46 (2000))が好ましい一つの方法である。
【0032】
まず、AキースペクトルS0が、例えば簡略化されたBorgen法(Grandeら、Chemom. Intell. Lab. Syst. 50: 19−33 (2000)参照)を用いて検出される。なお、ここでの“A”とは、化学的な階数(chemical rank)を表す。ピーククラスタにおいて、キースペクトルは、最も純粋なスペクトルである。キースペクトルは、データを、そのデータの最初の特異ベクトル上の連続射影に正規化することにより検出される。ここで、「特異」という用語は、そのベクトルが、標準的な数値処理法である特異値分解(SVD)の結果であることを意味する。行列形式では、
X=UΣVT
と表せる。最初の列ベクトルU(最初の左特異ベクトルと称されることもある)が、射影として用いられる。キースペクトルは、データの凸の閉ざされた表現の端点上で検出される。キースペクトルS0は、真のスペクトルSの初期予測値を表す。真のクロマトグラフプロファイルの初期予測値C0は、数式(1)をCについて解くことにより、次のように得られる。
【0033】
C0=XS0(S0 TS0)−1 (2)
真のプロファイルおよびスペクトルの予測値であるCおよびSを得るために、反復処理が行われる。これは、以下の数式(3)および(4)が成り立つような変換行列Tを決定することにより可能である。
【0034】
C=C0T (3)
ST=T−1S0 T (4)
Tは、いくつかの基本行列(elementary matrices)の積であり、反復処理によって生成できる。この反復処理において、CおよびSの中間解に何らかの制限を加えることにより、実行結果を早く得られる。このように、SおよびCに対してピーク(クロマトグラフまたは質量スペクトルのいずれであっても)は正でなければならないと考えられ、Cに対して純粋クロマトグラフピークは、単一モードであると考えられる。以下の基準は、例えば、分解の実現および評価に用いることができる。
【0035】
成分ウィンドウ:ノイズ限界を超えるクロマトグラフ領域以外の成分の非ゼロ偏差を最小化するために、直線回帰を用いることができる。
【0036】
平滑度(smoothness):一成分のクロマトグラフピークは、連続していると仮定することができる(これによりノイズと区別できる)。
【0037】
有意性(significance):一成分のクロマトグラフピークの頂点の輝度は、一般的にデータの決定限界(すなわち、前述のカットリミットまたは識別可能な最小信号高さ)よりも極めて高くなければならない。一般的に、ピークは、それらの頂点輝度が決定限界の少なくとも2倍の場合にのみ許容されるべきである。
【0038】
完全性:選択されたクロマトグラフピーククラスタが終了する前に、分解されたピークがノイズレベルを減少させるかどうかについてチェックすることが好ましい。ノイズレベルを減少させない場合は、より大きなピーククラスタについて処理を繰り返すべきである。
【0039】
化学的階数または検出すべきキースペクトルの数は、比較的大きい数(例えば8〜12、好ましくは10)から開始して、反復的に検出することができる。特定のキースペクトル数に応じて解を求めた後、上述の基準に従って、その解を評価する。分解されたプロファイルの品質が良くない場合は、さらに大きな、またはより一般的にはさらに小さなキースペクトル数を用いて、分解を繰り返す。
【0040】
分解の後、分解された質量スペクトルSを、最大輝度が1.0となるように正規化しても良い。また、クロマトグラフプロファイルCを以下のように再計算しても良い。
【0041】
C=XS(STS)−1 (5)
定性的な情報はスペクトル中に存在するが、定量的な情報はクロマトグラフプロファイル中に存在する(これらは、一つの領域を形成するよう統合できる)。
【0042】
実際には、分解処理においては、サンプル中の個々の化学成分のスペクトル線の特性グループを特定するために、一つのサンプルについて選択された質量スペクトル同士の比較を行うと共に、それらの成分に対する特徴的なクロマトグラフプロファイルの判定を行う。一つのサンプルについての出力データは、複数の質量スペクトル線並びにそれらのクロマトグラフプロファイルの位置(すなわち溶出時間)および領域で特徴付けられた、個々の成分のリストである。これを複数のサンプルについて行うことにより、予測行列を生成することができ、さらにこれを用いて、予測モデルを生成することができる。このように、例えば、Y=Xbが成り立つ。ここで、Xは予測行列、bは回帰係数(予測モデル)、Yはサンプル特性の予測値である。
【0043】
このように、予測行列の生成において、異なるサンプルに対する出力データが互いに比較され、類似の成分(すなわち化学成分)が存在するかどうか判定される。サンプルから測定された特性全体に対する各成分の寄与の相対的な大きさおよびネガティブまたはポジティブな性質を判定するために(例えば発ガン性)、回帰分析を用いることができる。これらの寄与度は、各成分ごとの寄与度予測モデルとして表現できる。この予測モデルを、さらなるサンプルの判定された成分濃度プロファイルに適用することにより、そのサンプルの特性値を簡単に予測することができる。
【0044】
一般的に、予測行列の生成は、以下のステップにより行う。
【0045】
i)特性値が測定されたサンプルの分解プロファイルと、一般的に一つの領域(クロマトグラフピーク領域)を含む各サンプルのプロファイルと、保持期間と、各分解成分ごとに正規化された質量スペクトルとをロードし、
ii)分解プロファイルを、保持期間の昇順にソートし、
iii) 2つ以上のサンプルに共通する成分を特定することによって後続する回帰分析の変数の数を減らすために、選択された範囲内(例えば、1〜8分、一般的には4分)の保持期間を持った互いに異なる成分の質量スペクトル同士を比較し、
iv)サンプルの分解された成分についての保持期間および領域の値の集合に対して、特性の測定値に相関する予測モデルを確立する。
【0046】
前記の比較ステップ(iii)は、一般的に、質量スペクトルSiおよびSj間のスペクトル類似指数Sijの判定を含む。質量スペクトルSiおよびSjは、互いに異なるサンプル中の成分iおよびjの質量スペクトルであるが、類似の保持期間を有する。Sijは、次のように表され、予め設定された限界値(例えば0.9)よりも大きい値を持つ場合、成分iおよびjを、類似しているものとして分類することができる。
【0047】
Sij=Si T・Sj (6)
予測行列が規定されると、特性の測定値をサンプルの分解成分に対して計算された領域の集合に相関づけて、分類モデルまたは回帰モデルが予測される。予測行列からのモデルの計算は、例えばノルウェイのベルゲンのパターン・レコグニション・システムズ・ASが提供するSiriusプログラムのような、市販の多変量分類/回帰分析コンピュータプログラムによって達成できる。
【0048】
添付図における図1に、典型的な予測モデルの一例を概略的に示す。この図において、x軸は成分保持期間であり、y軸は、特性を測定したサンプル中で分解された成分のそれぞれに対する回帰係数の値である。ここでは、測定した特性は、変異原性(エームズ試験により測定)であり、サンプルとしては環境排水サンプルを用いた。
【0049】
生物学的な影響は、回帰係数がより大きな値を持つ成分ほど大きく、図に示すように、そのような成分は、保持期間が大きい傾向を示す。
【0050】
前記の比較ステップは、必要であれば、GC−MS分析前のサンプルに、そのサンプルには含まれていない、既知の質量スペクトルを持つ化学成分を混入させて実行しても良い。類似成分を判定するための選択された範囲の保持期間のサイズを決定するために、これらの成分の保持期間を任意に変化させても良い。しかし、前記の混入成分のプロファイルは、予測行列の生成には用いられない。なぜならば、それらの混入成分は、混入前のサンプル中にはもともと存在するものではなく、特性値に影響を及ぼし得ないからである。さらに、前記の混入は、GC−MSへのサンプル注入量に関するサンプル間のばらつきを補償するためにも用いられる。すなわち、混入物のピーク領域に関連させて、ピーク領域を正規化することができる。
【0051】
上記の説明は、主として、多成分化学サンプルのGC−MSスペクトルと生物学的影響の測定値との相関に関するものであったが、本発明にかかる方法は、より広汎に適用可能である。例えば、本発明にかかる方法は、例えばDSP、PSP、ASP、アフラトキシン、あるいはボツリヌス毒素などの毒素による生物学的または化学的な汚染についての食物サンプルの試験に用いることができる。また、本発明にかかる方法は、細菌感染またはウィルス感染、プリオン関連の疾病、アルツハイマー症やむち打ち症などの生理学的状態、あるいは薬物乱用(例えば違法薬物の使用やスポーツ選手による規制薬物の使用)などの状態を発見するための、例えば、リンパ液、血液、血清、血漿、尿、粘膜、精液、喀痰、便、または組織サンプルなどの医学的サンプルの分析に用いることもできる。しかし、本発明の方法は、測定可能な特性を、複数の成分から得られる信号の固有の(signature)組み合わせに関連づけることが可能な任意のシステムに、広汎に適用することが可能である。
【0052】
本発明の方法は、特に、医学的および法医学的診断に適用可能である。このため、一つの実施形態において、サンプルとして身体組織や体液(例えば血液、血漿、血清)を用い、「特性」が、通常/健康または異常/不健康を意味し得る。また、成分を、異常または不健康に相関するものとして、あるいは、成分が特定の濃度範囲外にある場合に異常または不健康に相関するものとして、特定することができる。同様に、成分または成分の集合を、特定の異常または疾病状態に相関するものとして特定することもできる。他の実施形態において、体液、組織、またはガスで死後経過時間を分析し、その結果得られた予測モデルを用いて、例えば殺人の被害者の死亡時刻を決定することもできる。
【0053】
同様に、本発明の方法は、特に、異常や汚染(化学的または生物学的)を検出するための食料品(例えばチーズ)の検査にも適用可能である。
【0054】
必要に応じて、本発明の方法を拡張し、サンプルの一つまたは複数の分解成分を、その成分の特性を示すデータ(例えばクロマトグラフプロファイルおよび/または質量スペクトル)と、既知の化学物質(または他の成分)の同様の特性を示すデータとを比較することによって、識別することもできる。これは、例えば、コンピュータ化された化学物質ライブラリ用データベースを相互参照することによって可能である。このように、本発明にかかる方法は、例えば、あるサンプルに対して(あるいは個々のサイト(site)またはテストサイトとは異なる他のサンプルに対して)適用し得るさらに具体的なまたはさらに詳細な診断テストを特定するための、粗いフィルタとして用いられる。このようにして、利用可能な診断テストの全部を実行することを要さず、問題を特定することができる。
【0055】
他の側面から見ると、本発明は、本発明にかかる方法を実行するためのコンピュータプログラムを担持するコンピュータソフトウェア製品(例えばディスク、テープ、通信またはメモリデバイス、あるいは他の搬送媒体)を提供するものである。
【0056】
さらに他の側面から見ると、本発明は、本発明にかかる方法を実行するようにプログラムされたコンピュータを提供するものである。
【0057】
本発明にかかるプログラムの動作を、添付した図2および図3のフローチャートに概略的に示す。
【0058】
図2は、予測モデルの生成を示す。データ入力(ステップI)は、複数のサンプルに対するGC−MSデータおよび測定された特性値のロードを含む。データ削減(ステップII)は、空白の保持期間の廃棄およびバックグラウンドの除去(すなわちGCピーククラスタの識別)と、空白の質量数の廃棄およびMSバックグラウンドの除去(すなわち、各GCピーククラスタごとの質量スペクトルからの質量スペクトルピークの集合の識別)とを含む。プロファイル分解(ステップIII)は、そのようなGCピーククラスタ中の個々の成分ごとの質量スペクトルの識別と、各分解成分ごとのGCプロファイル(ピーク保持期間およびピーク領域)の決定とを含む。予測モデル生成(ステップIV)は、2つ以上のサンプルに共通する成分を識別するための、互いに異なるサンプル間の分解成分プロファイル同士の比較と、各分解成分に、その成分が測定された特性に与える影響を表す回帰係数を付与するための回帰分析と、その結果として得られた予測行列からの予測モデルの生成とを含む。
【0059】
図3に、予測モデルの適用を示す。データ入力(ステップI)は、一つのサンプルに対するGC−MSデータのロードを含む。データ削減(ステップII)およびプロファイル分解(ステップIII)は、図2で説明したとおりである。値予測(ステップIV)は、分解プロファイルへの、予め計算された予測モデルの適用を含む。従って、予測モデルの構築に用いられるそれらの成分のみが、特性予測値の決定に際して考慮されることは明らかである。
【0060】
前述したように、予測モデルは、必ずしも、成分の特性に対する寄与を表す回帰係数に基づいて得られるものでなくとも良いが、そのモデルの適用により予測特性値として対応するサンプル源の分類が得られるように、分類(すなわち、生/死、健康/不健康)を反映するものであっても良い。
【0061】
また、予測行列をサンプルに対する予測値を生成する際のデータ削減に用いても良い。これにより、例えば、予測行列の計算において決定された回帰係数の低い値に対応するGC保持期間を廃棄できる。
【0062】
本発明にかかる分析は、遠隔地に設置されたデータ処理手段によって実行しても良い。このため、さらに他の観点によれば、本発明は、データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測する命令を含む、コンピュータプログラム製品を提供するものである。前記コンピュータプログラムは、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
a)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
b) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
c)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0063】
他の側面から見れば、本発明は、データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測するために当該サンプルを分析する命令を含むコンピュータプログラム製品を提供するものであって、
前記コンピュータプログラムは、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
iii)選択されたサンプルについて、
A)当該サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で当該サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
i)前記類似サンプルのそれぞれについて、
a)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
b)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iii)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
iv)選択されたサンプルについて、
A)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
B)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
C)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【0064】
さらに、他の側面から見れば、本発明は、データ処理手段で実行された場合に、多成分サンプルの特性値を予測するための予測モデルを生成する命令を含むコンピュータプログラム製品を提供するものであって、
前記コンピュータプログラムが、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
i)前記類似サンプルのそれぞれについて、
A)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
B)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iii)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成する。
【0065】
本発明は、さらに、データ処理手段で実行された場合に、上述したコンピュータプログラム製品を生成する命令を含むコンピュータプログラム製品に及ぶ。
Claims (20)
- 選択された多成分サンプルの特性値を予測する分析方法であって、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
c)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
d)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
iii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iv)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
v)選択されたサンプルについて、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
C)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
D) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
E)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とする方法。 - 多成分サンプルの特性値を予測するための予測モデルの生成方法であって、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
c)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
d)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
iii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iv)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成することを特徴とする方法。 - 選択された多成分サンプルの特性値を予測する分析方法であって、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
C)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
D) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
E)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とする方法。 - 前記サンプルが、複数の異なる化学的または生物学的成分を含む合成物であり、
前記サンプルの分離をクロマトグラフ法により行う、請求項1〜3のいずれか一項に記載の方法。 - 前記パターンが分光学的パターンである、請求項4に記載の方法。
- 前記サンプルが、体組織または体液あるいは滲出物から得られたもの、または、環境的な液体から得られたものであって、
分離をガスクロマトグラフ法または液体クロマトグラフ法により行う、請求項4または5に記載の方法。 - 前記パターンが質量スペクトルである、請求項4、5、または6に記載の方法。
- 前記分離次元において得られるサンプリング信号が所定のレベルを下回る区間を廃棄するために、前記パターンの集合を選択する、請求項1〜7のいずれか一項に記載の方法。
- 前記分離次元において、サンプリングされた部分の信号レベルの、前記分離次元に沿って最も近い位置にあるピークの信号レベルに対する比率が、0.1〜0.4の範囲より小さい区分のみを廃棄する、請求項8に記載の方法。
- 前記分離次元において、サンプリングされた部分の信号レベルの、前記分離次元に沿って最も近い位置にあるピークの信号レベルに対する比率が、0.3より小さい区分のみを廃棄する、請求項9に記載の方法。
- 前記分離次元において既知成分あるいは前記特性にほとんどまたは全く影響しないと考えられる成分に関連する区間を廃棄するために、前記パターンの集合を選択する、請求項1〜7のいずれか一項に記載の方法。
- 前記分離次元に対する前記選択パターン集合について、バックグラウンドノイズによる誤差を修正する、請求項1〜11のいずれか一項に記載の方法。
- 信号を含まない選択パターンまたはノイズによる信号のみを含む選択パターン中のスペクトルデータを廃棄する、請求項5〜12のいずれか一項に記載の方法。
- 得られたスペクトルパターンを、ジェントル(Gentle)法を用いて個別のピークに分解する、請求項5〜13のいずれか一項に記載の方法。
- 請求項1〜14のいずれか一項に記載の方法を実行するコンピュータソフトウェア製品。
- 請求項1〜14のいずれか一項に記載の方法を実行するようプログラムされたコンピュータ。
- データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測する命令を含むコンピュータプログラム製品であって、
前記コンピュータプログラムが、
A)前記サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
a)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
b) 前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
c)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とするコンピュータプログラム製品。 - データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測するために当該サンプルを分析する命令を含むコンピュータプログラム製品であって、
前記コンピュータプログラムが、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
iii)選択されたサンプルについて、
A)当該サンプルの成分を分離次元に沿って分離し、
B)前記分離次元に沿った複数位置で当該サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
i)前記類似サンプルのそれぞれについて、
a)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
b)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iii)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
iv)選択されたサンプルについて、
A)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
B)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
C)前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とするコンピュータプログラム製品。 - データ処理手段で実行された場合に、多成分サンプルの特性値を予測するための予測モデルを生成する命令を含むコンピュータプログラム製品であって、
前記コンピュータプログラムが、
i)複数の類似の多成分サンプルについて前記特性値を決定し、
ii)前記類似サンプルのそれぞれについて、
a)前記サンプルの成分を分離次元に沿って分離し、
b)前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
i)前記類似サンプルのそれぞれについて、
A)各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
B)前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ii)決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
iii)前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成することを特徴とするコンピュータプログラム製品。 - データ処理手段で実行された場合に、請求項15、17〜19のいずれか一項に記載のコンピュータプログラム製品またはコンピュータソフトウェア製品を生成する命令を含む、コンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB0016459.0A GB0016459D0 (en) | 2000-07-04 | 2000-07-04 | Method |
PCT/GB2001/002960 WO2002003056A1 (en) | 2000-07-04 | 2001-07-04 | Method for the analysis of a selected multicomponent sample |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004502934A true JP2004502934A (ja) | 2004-01-29 |
Family
ID=9895034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002508068A Withdrawn JP2004502934A (ja) | 2000-07-04 | 2001-07-04 | 選択された多成分サンプルの分析方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20030124610A1 (ja) |
EP (1) | EP1305619A1 (ja) |
JP (1) | JP2004502934A (ja) |
CN (1) | CN1423749A (ja) |
AU (1) | AU2001266230A1 (ja) |
BR (1) | BR0112206A (ja) |
CA (1) | CA2414873A1 (ja) |
GB (1) | GB0016459D0 (ja) |
WO (1) | WO2002003056A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200069222A (ko) * | 2018-12-06 | 2020-06-16 | 세종대학교산학협력단 | 물질의 판별 및 분석 방법 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070021929A1 (en) * | 2000-01-07 | 2007-01-25 | Transform Pharmaceuticals, Inc. | Computing methods for control of high-throughput experimental processing, digital analysis, and re-arraying comparative samples in computer-designed arrays |
US20050118637A9 (en) * | 2000-01-07 | 2005-06-02 | Levinson Douglas A. | Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds |
US6977723B2 (en) * | 2000-01-07 | 2005-12-20 | Transform Pharmaceuticals, Inc. | Apparatus and method for high-throughput preparation and spectroscopic classification and characterization of compositions |
US20050089923A9 (en) * | 2000-01-07 | 2005-04-28 | Levinson Douglas A. | Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds |
KR20020071931A (ko) * | 2000-01-07 | 2002-09-13 | 트렌스폼 파마수티컬스 인코퍼레이티드 | 다양한 고체-형태들의 고도의 자료 처리 편성, 확인 및분석 |
US20050095696A9 (en) * | 2000-01-07 | 2005-05-05 | Lemmo Anthony V. | Apparatus and method for high-throughput preparation and characterization of compositions |
US20070020662A1 (en) * | 2000-01-07 | 2007-01-25 | Transform Pharmaceuticals, Inc. | Computerized control of high-throughput experimental processing and digital analysis of comparative samples for a compound of interest |
US7108970B2 (en) * | 2000-01-07 | 2006-09-19 | Transform Pharmaceuticals, Inc. | Rapid identification of conditions, compounds, or compositions that inhibit, prevent, induce, modify, or reverse transitions of physical state |
WO2003023409A2 (en) * | 2001-09-07 | 2003-03-20 | Transform Pharmaceuticals, Inc. | Apparatus and method for high-throughput preparation and characterization of compositions |
WO2003102543A2 (en) * | 2002-05-31 | 2003-12-11 | Waters Investments Limited | A method of using data binning in the analysis of chromatograhpy/spectrometry data |
US6961677B1 (en) * | 2003-08-25 | 2005-11-01 | Itt Manufacturing Enterprises, Inc. | Method and apparatus for categorizing unexplained residuals |
GB0323451D0 (en) * | 2003-10-07 | 2003-11-05 | Imp College Innovations Ltd | Methods for analysis of spectral data and their applications |
CA2501003C (en) * | 2004-04-23 | 2009-05-19 | F. Hoffmann-La Roche Ag | Sample analysis to provide characterization data |
US20070147685A1 (en) * | 2005-12-23 | 2007-06-28 | 3M Innovative Properties Company | User interface for statistical data analysis |
US7571056B2 (en) * | 2006-05-25 | 2009-08-04 | Vialogy Corp. | Analyzing information gathered using multiple analytical techniques |
US8980637B2 (en) * | 2007-10-04 | 2015-03-17 | Purdue Research Foundation | Breast cancer biomarkers and identification methods using NMR and gas chromatography-mass spectrometry |
CA2777501A1 (en) * | 2009-10-13 | 2011-04-21 | M. Daniel Raftery | Biomarkers and identification methods for the early detection and recurrence prediction of breast cancer using nmr |
US20130204539A1 (en) | 2011-06-01 | 2013-08-08 | Tsumura & Co. | Feature value preparing method, feature value preparing program, and feature value preparing device for pattern or fp |
WO2013119435A1 (en) * | 2012-02-10 | 2013-08-15 | Waters Technologies Corporation | Performing chemical reactions and/or ionization during gas chromatography-mass spectrometry runs |
EP3285190A1 (en) | 2016-05-23 | 2018-02-21 | Thermo Finnigan LLC | Systems and methods for sample comparison and classification |
CN106650753A (zh) * | 2016-12-20 | 2017-05-10 | 电子科技大学 | 一种基于特征选择的视觉映射方法 |
CN109854230B (zh) * | 2017-11-30 | 2022-05-10 | 中国石油天然气股份有限公司 | 井的测试方法及装置 |
KR102073856B1 (ko) * | 2018-05-28 | 2020-02-05 | 부경대학교 산학협력단 | 공정 모사를 위한 바이오 원유의 동시 모델링 및 복잡성 감소방법 |
CN113196053A (zh) * | 2018-12-20 | 2021-07-30 | 佳能株式会社 | 信息处理装置、信息处理装置的控制方法及程序 |
CN109709056B (zh) * | 2019-02-22 | 2021-03-23 | 河南理工大学 | 一种基于光谱信息的混合物闪速定量分析方法及分析仪 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699269A (en) * | 1995-06-23 | 1997-12-16 | Exxon Research And Engineering Company | Method for predicting chemical or physical properties of crude oils |
US5602755A (en) * | 1995-06-23 | 1997-02-11 | Exxon Research And Engineering Company | Method for predicting chemical or physical properties of complex mixtures |
DE19522774A1 (de) * | 1995-06-27 | 1997-01-02 | Ifu Gmbh | Einrichtung zur spektroskopischen Untersuchung von Proben, die dem menschlichen Körper entnommen wurden |
FR2774768B1 (fr) * | 1998-02-10 | 2000-03-24 | Inst Francais Du Petrole | Methode de determination d'au moins une propriete physicochimique d'une coupe petroliere |
-
2000
- 2000-07-04 GB GBGB0016459.0A patent/GB0016459D0/en not_active Ceased
-
2001
- 2001-07-04 CA CA002414873A patent/CA2414873A1/en not_active Abandoned
- 2001-07-04 BR BR0112206-1A patent/BR0112206A/pt not_active Application Discontinuation
- 2001-07-04 EP EP01943698A patent/EP1305619A1/en not_active Withdrawn
- 2001-07-04 AU AU2001266230A patent/AU2001266230A1/en not_active Abandoned
- 2001-07-04 CN CN01806971A patent/CN1423749A/zh active Pending
- 2001-07-04 JP JP2002508068A patent/JP2004502934A/ja not_active Withdrawn
- 2001-07-04 WO PCT/GB2001/002960 patent/WO2002003056A1/en not_active Application Discontinuation
-
2003
- 2003-01-03 US US10/335,919 patent/US20030124610A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200069222A (ko) * | 2018-12-06 | 2020-06-16 | 세종대학교산학협력단 | 물질의 판별 및 분석 방법 |
KR102235934B1 (ko) | 2018-12-06 | 2021-04-05 | 세종대학교 산학협력단 | 물질의 판별 및 분석 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP1305619A1 (en) | 2003-05-02 |
CA2414873A1 (en) | 2002-01-10 |
US20030124610A1 (en) | 2003-07-03 |
AU2001266230A1 (en) | 2002-01-14 |
CN1423749A (zh) | 2003-06-11 |
WO2002003056A1 (en) | 2002-01-10 |
GB0016459D0 (en) | 2000-08-23 |
WO2002003056A8 (en) | 2002-04-18 |
BR0112206A (pt) | 2003-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004502934A (ja) | 選択された多成分サンプルの分析方法 | |
de Santana et al. | Visible and near infrared spectroscopy coupled to random forest to quantify some soil quality parameters | |
Olivieri | Practical guidelines for reporting results in single-and multi-component analytical calibration: A tutorial | |
US7983852B2 (en) | Methods of automated spectral peak detection and quantification without user input | |
Sorol et al. | Visible/near infrared-partial least-squares analysis of Brix in sugar cane juice: A test field for variable selection methods | |
JP6729455B2 (ja) | 分析データ解析装置及び分析データ解析方法 | |
CN1690713B (zh) | 对样本进行分析以提供表征数据的方法、系统 | |
US5606164A (en) | Method and apparatus for biological fluid analyte concentration measurement using generalized distance outlier detection | |
US20120089344A1 (en) | Methods of Automated Spectral Peak Detection and Quantification Having Learning Mode | |
US8494818B2 (en) | Analyzing spectral data for the selection of a calibration model | |
JP2022525427A (ja) | 質量分析法データにおける境界の自動検出 | |
CA2133412A1 (en) | Improved method for interpreting complex data and detecting abnormal instrument or process behavior | |
US20080128607A1 (en) | Mass Spectrometry Analysis Method and System | |
Van Zoonen et al. | Some practical examples of method validation in the analytical laboratory | |
Biancolillo et al. | Chemometrics applied to plant spectral analysis | |
Chen et al. | FT-NIR spectroscopy and Whittaker smoother applied to joint analysis of duel-components for corn | |
Möller et al. | Random forests for functional covariates | |
Campos et al. | Advanced predictive methods for wine age prediction: Part II–A comparison study of multiblock regression approaches | |
WO1997006418A1 (en) | Biological fluid analysis using distance outlier detection | |
JP2018040787A (ja) | 流体クラスのサンプル、特に生物流体のサンプルにおけるnmrスピン系の化学シフト値を予測する方法 | |
Ortiz-Herrero et al. | Multivariate (O) PLS regression methods in forensic dating | |
CA2603389C (en) | Identifying statistically linear data | |
JP6807319B2 (ja) | 自動定量的回帰 | |
Sun | A multivariate principal component regression analysis of NIR data | |
Ezenarro et al. | J-Score: a new joint parameter for PLSR model performance evaluation of spectroscopic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081007 |