JP2004502934A

JP2004502934A - 選択された多成分サンプルの分析方法

Info

Publication number: JP2004502934A
Application number: JP2002508068A
Authority: JP
Inventors: クヴァルハイム、オラフ; グルング、ビエルン
Original assignee: パターン　レコグニション　システムズ　ホールディング　エーエス
Priority date: 2000-07-04
Filing date: 2001-07-04
Publication date: 2004-01-29
Also published as: EP1305619A1; CA2414873A1; US20030124610A1; AU2001266230A1; CN1423749A; WO2002003056A1; GB0016459D0; WO2002003056A8; BR0112206A

Abstract

本願は、例えばＧＣ−ＭＳのような２次元分解データから、複合的な多成分混合物の化学的または生物学的な特性（例えば毒性や変異原性など）を予測する方法を開示するものである。データは、自動曲線分解処理（ＧＥＮＴＬＥ）により、個々の成分ごとにピーク（Ｃ）およびスペクトル（Ｓ）に分解される。分解されたピークは統合され、特徴領域、分離パラメータ、および関連するスペクトルは、多変量回帰モデルへの入力として用いられる予測行列（Ｘ）を生成するために合成される。部分最小二乗回帰（ＰＬＳ）を用いて、トレーニングセットに対する２次元分離データを、測定された特性に相関づける。その後、回帰モデルを用いて、他のサンプルについての特性を予測することができる。

Description

【０００１】
本発明は、データ、特に、例えば多数の不特定化合物を含む組成物のような、多数の成分を有する系から得たデータの分析方法と、このような分析を実行するためのプログラムおよびコンピュータに関する。
【０００２】
環境モニタリングや医療診断分析において、分析者は、例えば何百もの化合物のような多数の不特定化合物または生物学的成分を含んだサンプル（例えば、体液や、廃液または排ガスのサンプル）を与えられ、サンプリングされた物質が環境的なリスクをもたらしたり疾病状態の兆候を示したりしているか否かを判断しなければならないことがある。
【０００３】
一つの代表的な技術として、バクテリアの選択された突然変異株をサンプルとして、そのバクテリアの自然（野生）株が持つ性質であるが、選択された突然変異株にはない性質を持つためのバクテリアの変異の程度を判断することにより環境サンプルの毒性（変異原性）を評価する、いわゆるエームズ（Ａｍｅｓ）試験が知られている。
【０００４】
このような試験は、単に特定のサンプルの毒性の指標を提供するだけであり、その毒性の原因となる特定の化合物についての何の指標も与えるものではなく、他のサンプルの毒性を予測する何の根拠を与えるものでもない。
【０００５】
同様に、ほとんどの診断分析は、単に、一つの化合物の存在または不存在を検出するだけであり、特定の疾病状態または他の疾病状態をも示し得る他の化合物の存在または不存在についての指標を与えるものではない。
【０００６】
多成分混合物から個々の成分を分離するために、例えば液体またはガスクロマトグラフィのようなクロマトグラフ法を用いることができる。また、例えば質量分析、ＩＲ、ＵＶ、Ｒａｍａｎ、ＥＳＲ、およびＮＭＲスペクトル分析のようなスペクトル分析法を、そのような個々の成分のスペクトル特性を判定するために用いることができる。しかしながら、クロマトグラフ法による分離では、通常、何百もの化合物の混合物から個別成分のそれぞれを分離することはできないし、多成分サンプルの全ての留分（ｆｒａｃｔｉｏｎｓ）や成分について毒性分離や他の試験を行うことは、費用や時間がかかり、一般的に実用的ではない。
【０００７】
このため、混合物全体としての影響（例えば毒性）を予測し、その影響をもたらす主な原因となる成分に焦点を合わせて可能であれば特定するために用い得る多成分混合物の分析方法が必要とされている。
【０００８】
従来、そのような方法が有効であるのは、複数の類似したサンプルに対して、それらのサンプルの影響に対するデータが得られ、それらのサンプルから分離された留分（例えばクロマトグラフ法により分離されたサンプルの留分）に対して特徴的なスペクトル分析データが得られる場合であることが知られている。
【０００９】
従って、一つの側面から見れば、本発明は、選択された多成分サンプルの特性値を予測する分析方法であって、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｖ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
ｖ）選択されたサンプルについて、
Ａ）前記サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
Ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
Ｅ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【００１０】
「特性」とは、数値を与え得る任意のものであるが、例えば、特性が中間的な等級を持ち得ないものあるいは不要なものである場合（例えば、正または死、感染しているまたは感染していない、など）は、０または１であっても良い。
【００１１】
本発明にかかる方法は、特性値が判明している類似サンプルの分析に基づいて予測モデルを構築することと、構築した予測モデルを、特性を判定する必要のないサンプルの分析結果へ適用することとを含む。「類似」とは、サンプルが同じタイプであって、同一または類似の種類の源から得られたものであることを意味する。例えば、サンプルが、全て、同じプロセスまたは工程からのガスまたは液体の廃棄物である場合、サンプルが、同種のメンバーの同じ体液、組織、滲出物など（例えば、血液、血清、血漿、尿、粘膜、喀痰、便、ｓｗａｔ、身体ガスなど）から得られたものである場合である。このように、「類似」サンプルは、「選択された」サンプル中に存在する、複数の、好ましくは全てまたは大多数の成分を、一緒に含み得る。
【００１２】
本発明にかかる方法は、多成分サンプル中の個々の成分の分離を含む。この分離は、完全な分離であっても良いし、必ずしも完全な分離でなくとも良い。サンプリングされた各々の部分（例えば、質量スペクトル分析用）は、これにより、一つまたは複数の成分を含む。従って、分離がガスクロマトグラフ法または液体クロマトグラフ法の場合、分離次元（例えば保持期間）に沿って近接するいくつかの部分に、同じ成分が存在することがある。ガスクロマトグラフ法−質量スペクトル分析（ＧＣ−ＭＳ）に適用した場合、本方法は、個々の成分の特徴を示すＭＳピークを特定するための、近接する部分に対するＭＳスペクトルの調査と、それらの個別成分の保持期間に沿ったＧＣプロファイルの計算とを含む。必要であれば、分離次元の関係のない区間のデータを廃棄しても良い。これにより、プロファイルを判定する成分は、現存する成分の総数の一部を含めば良いこととなる。それらの判定されたプロファイルの強度（例えば、ピーク高さまたはピーク領域、あるいは単にｙｅｓ／ｎｏ値）は、予測モデルの構築および適用に用いられる。予測モデルは、プロファイル（例えば保持期間または調整された保持期間）およびパターン（例えば質量スペクトル）の点で同一またはよく似ている類似成分として特定する互いに異なるサンプルのデータを比較することにより、正確なものとなる。
【００１３】
多くのサンプルを分析するために、供給者は、ユーザに予め計算された予測モデルを供給しても良い。このように、他の観点から見れば、本発明は、多成分サンプルの特性値を予測するための予測モデルを生成する方法を提供するものであって、この方法は、以下の工程を含む。
【００１４】
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｖ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成する。
【００１５】
さらに他の観点から見ると、本発明は、選択された多成分サンプルの特性値を予測するための分析方法を提供するものであって、この方法は、以下の工程を含む。
【００１６】
Ａ）前記サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
Ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
Ｅ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【００１７】
本発明にかかる方法は、以下においてさらに説明するように、多成分サンプルに対してさらに広く適用されるものであるが、ここで、本方法について、複数の化合物を含むサンプルを、部分を生成するためのクロマトグラフ法による分離とパターンを生成するためのスペクトル分析とを用いて、物理的、化学的、および特に生物学的な性質（例えば、毒性、変異原性、疾病状態、遺伝子型、治療効果など）のような定量化可能な特性について分析する方法に関連して、さらに詳細に説明する。
【００１８】
上述したように、様々な種類のスペクトル分析を用いることができるが、例えばｎｍｒまたは特に質量分析（ｍｓ）のように、分光ピーク（または谷）がはっきりしている手法を用いることが特に好ましい。同様に、分離は、液体またはより好適にはガスクロマトグラフィによって行われることが好ましい。
【００１９】
サンプルに対して、クロマトグラフ法によって分離されたスペクトル分析データを生成することができる装置として、例えばＧＣ−ＭＳ装置などが利用可能である。
【００２０】
このように、本発明にかかる分析の開始データは、予測モデルの生成用の各サンプルについて決定された特性値を伴う２次元行列（すなわち、クロマトグラフの部分データおよびクロマトグラフの各部分に対するスペクトル分析データ）と、選択されたサンプル（すなわち、クロマトグラフの部分データおよびクロマトグラフの各部分に対するスペクトル分析データ）に対する予測値を生成するための２次元行列であると考えられる。同様に、クロマトグラフデータおよびスペクトル分析データは、強度および位置（例えば溶出時間または質量数またはｍ／ｅ比）を含む。
【００２１】
演算所要時間を短くすることは、サンプル中の成分数が数百にも及ぶ場合は特に重要である。このため、予め設定された最小値を下回る高さである場合（例えば、留分中のサンプルからの成分量がゼロまたは非常に少ない場合、あるいは、分光ピークがノイズレベルである場合）、あるいは、その部分が既知の成分またはその特性に関係ないと考えられている成分（例えば、低分子量化合物や溶出速度が早い化合物）に対応する場合に、そのデータを除去することによって、入力データを制限しても良い。
【００２２】
一般的に、まず、その時点でどの成分も溶出していない溶出時間、すなわち、クロマトグラフ信号（高さ）が予め設定された限界値よりも低い場合、のデータを捨てることにより、データ行列のデータ数を削減する。しかし、データのカットは、時間軸に沿った位置であって、信号がピークの高さよりも小さくなった位置においてされることが好ましい。
【００２３】
これは、隣接するピークの比率の値を、例えば０．１〜０．４の範囲、好ましくは０．３に設定し、信号がピークの後に最小値に達した時点または信号が予め設定されたカットリミットを下回った時点ではなく、ピークに対する信号の比率がこの値より小さくなった場合にカットするだけで、実現することができる。カットリミット自体は、一般的に、ユーザの必要に応じて設定されるものであり、より高い値を設定すればより多いデータが廃棄されて微量成分が無視され、より低い値を設定すればその逆となる。一般的には、カットリミットは、識別可能な最小信号高さの５〜１０％に設定すれば良い。カットリミットが低くなるほど、より多くのデータが保持され、より多くの成分が分析されることは、明らかである。
【００２４】
２次元のＧＣ−ＭＳデータは、様々な理由により、バックグラウンドノイズを含むことがある。検出器性能の変化は、クロマトグラフの基準線のオフセットやドリフトを発生させることがあり、カラムブリード（ｃｏｌｕｍｎｂｌｅｅｄｉｎｇ）はバックグラウンドスペクトルを生じさせることがある。このため、ゼロ信号またはノイズ信号保持時間を削除した後に残るクロマトグラフのピークに対して、バックグラウンド補正を行うことが好ましい。これは、ピーククラスタのいずれかの側のゼロ成分領域から外挿された線の傾きを近似する傾きの一次（すなわち線形）推定基準線を演算することによって可能である。
【００２５】
このように選択された各々のクロマトグラムピーククラスタに対して、分離スペクトル分析データセットを規格化することができる。例えば、スペクトルピークの最高値を１にセットし、あるいは、全てのスペクトル分析ピーク領域を１にセットするか、または、選択されたクロマトグラフピーククラスタの当該ピーク領域に比例する値にセットする。
【００２６】
このように選択されたクロマトグラフピーククラスタは、少なくとも２０の分解時間バルブ（ｒｅｓｏｌｕｔｉｏｎｔｉｍｅｖａｌｖｅｓ）に及ぶことが好ましい。すなわち、ピーククラスタは、分解時間バルブと、少なくとも２０ｍｓのスペクトルと関連する。
【００２７】
スペクトルデータの削減は、それから、同様に行われる。これにより、ＭＳに対して、全溶出時間を一回で考慮する場合、記録可能な範囲におけるほとんどまたは全ての質量数は、少なくとも１つの成分からの信号を含む。しかし、クロマトグラム部分に対する質量スペクトルにおいて、多くの質量数は、信号を含まないか、あるいはノイズのみに起因する信号を有する。このような質量数の存在は、分解処理の品質を劣化させるものであり、分解に先立ってスペクトルから除去されることが好ましい。
【００２８】
ゼロ信号を有する質量数を検出することは特に取り上げるべきことでもないが、ランダムノイズに起因する信号を有する質量数を、形態的基準とＦテスト（Ｓｈｅｎら、Ｃｈｅｍｏｍｅｍ．Ｉｎｔｅｌｌ．Ｌａｂ．Ｓｙｓｔ．５１：３７−４７（２０００）参照）との組み合わせを用いて検出することは可能である。なお、これは、ノイズが化学成分からの信号よりも高い周波数を持っているという事実を利用したものである。このようにして、最大９０％程度までの質量スペクトルデータを、分解に先立って廃棄することができる。
【００２９】
隣接するスペクトルデータは、その後、別個のピークに分解される。これは、事実上、以下の数式をＣおよびＳについて解くことを含む。
【００３０】
Ｘ＝ＣＳ^Ｔ＋Ｅ　　　　　　　　　　　　　　　　　（１）
ここで、Ｘは、記録されたデータであり、Ｃはクロマトグラフのプロファイルであり、Ｓは質量スペクトルであり、Ｔは行列の転置を表し、Ｅは残余行列である。
【００３１】
これは、様々な方法で実現可能である。しかし、Ｍａｎｎらによって示されたＧＥＮＴＬＥ法（Ｃｈｅｍｏｍ．Ｉｎｔｅｌｌ．Ｌａｂ．Ｓｙｓｔ．５０：３５−４６（２０００））が好ましい一つの方法である。
【００３２】
まず、ＡキースペクトルＳ_０が、例えば簡略化されたＢｏｒｇｅｎ法（Ｇｒａｎｄｅら、Ｃｈｅｍｏｍ．Ｉｎｔｅｌｌ．Ｌａｂ．Ｓｙｓｔ．５０：１９−３３（２０００）参照）を用いて検出される。なお、ここでの“Ａ”とは、化学的な階数（ｃｈｅｍｉｃａｌｒａｎｋ）を表す。ピーククラスタにおいて、キースペクトルは、最も純粋なスペクトルである。キースペクトルは、データを、そのデータの最初の特異ベクトル上の連続射影に正規化することにより検出される。ここで、「特異」という用語は、そのベクトルが、標準的な数値処理法である特異値分解（ＳＶＤ）の結果であることを意味する。行列形式では、
Ｘ＝ＵΣＶ^Ｔ
と表せる。最初の列ベクトルＵ（最初の左特異ベクトルと称されることもある）が、射影として用いられる。キースペクトルは、データの凸の閉ざされた表現の端点上で検出される。キースペクトルＳ_０は、真のスペクトルＳの初期予測値を表す。真のクロマトグラフプロファイルの初期予測値Ｃ_０は、数式（１）をＣについて解くことにより、次のように得られる。
【００３３】
Ｃ_０＝ＸＳ_０（Ｓ_０ ^ＴＳ_０）^−１　　　　　　　　　　　（２）
真のプロファイルおよびスペクトルの予測値であるＣおよびＳを得るために、反復処理が行われる。これは、以下の数式（３）および（４）が成り立つような変換行列Ｔを決定することにより可能である。
【００３４】
Ｃ＝Ｃ_０Ｔ　　　　　　　　　　　　　　　　　　　（３）
Ｓ^Ｔ＝Ｔ^−１Ｓ_０ ^Ｔ　　　　　　　　　　　　　　　　　（４）
Ｔは、いくつかの基本行列（ｅｌｅｍｅｎｔａｒｙｍａｔｒｉｃｅｓ）の積であり、反復処理によって生成できる。この反復処理において、ＣおよびＳの中間解に何らかの制限を加えることにより、実行結果を早く得られる。このように、ＳおよびＣに対してピーク（クロマトグラフまたは質量スペクトルのいずれであっても）は正でなければならないと考えられ、Ｃに対して純粋クロマトグラフピークは、単一モードであると考えられる。以下の基準は、例えば、分解の実現および評価に用いることができる。
【００３５】
成分ウィンドウ：ノイズ限界を超えるクロマトグラフ領域以外の成分の非ゼロ偏差を最小化するために、直線回帰を用いることができる。
【００３６】
平滑度（ｓｍｏｏｔｈｎｅｓｓ）：一成分のクロマトグラフピークは、連続していると仮定することができる（これによりノイズと区別できる）。
【００３７】
有意性（ｓｉｇｎｉｆｉｃａｎｃｅ）：一成分のクロマトグラフピークの頂点の輝度は、一般的にデータの決定限界（すなわち、前述のカットリミットまたは識別可能な最小信号高さ）よりも極めて高くなければならない。一般的に、ピークは、それらの頂点輝度が決定限界の少なくとも２倍の場合にのみ許容されるべきである。
【００３８】
完全性：選択されたクロマトグラフピーククラスタが終了する前に、分解されたピークがノイズレベルを減少させるかどうかについてチェックすることが好ましい。ノイズレベルを減少させない場合は、より大きなピーククラスタについて処理を繰り返すべきである。
【００３９】
化学的階数または検出すべきキースペクトルの数は、比較的大きい数（例えば８〜１２、好ましくは１０）から開始して、反復的に検出することができる。特定のキースペクトル数に応じて解を求めた後、上述の基準に従って、その解を評価する。分解されたプロファイルの品質が良くない場合は、さらに大きな、またはより一般的にはさらに小さなキースペクトル数を用いて、分解を繰り返す。
【００４０】
分解の後、分解された質量スペクトルＳを、最大輝度が１．０となるように正規化しても良い。また、クロマトグラフプロファイルＣを以下のように再計算しても良い。
【００４１】
Ｃ＝ＸＳ（Ｓ^ＴＳ）^−１　　　　　　　　　　　　　　（５）
定性的な情報はスペクトル中に存在するが、定量的な情報はクロマトグラフプロファイル中に存在する（これらは、一つの領域を形成するよう統合できる）。
【００４２】
実際には、分解処理においては、サンプル中の個々の化学成分のスペクトル線の特性グループを特定するために、一つのサンプルについて選択された質量スペクトル同士の比較を行うと共に、それらの成分に対する特徴的なクロマトグラフプロファイルの判定を行う。一つのサンプルについての出力データは、複数の質量スペクトル線並びにそれらのクロマトグラフプロファイルの位置（すなわち溶出時間）および領域で特徴付けられた、個々の成分のリストである。これを複数のサンプルについて行うことにより、予測行列を生成することができ、さらにこれを用いて、予測モデルを生成することができる。このように、例えば、Ｙ＝Ｘｂが成り立つ。ここで、Ｘは予測行列、ｂは回帰係数（予測モデル）、Ｙはサンプル特性の予測値である。
【００４３】
このように、予測行列の生成において、異なるサンプルに対する出力データが互いに比較され、類似の成分（すなわち化学成分）が存在するかどうか判定される。サンプルから測定された特性全体に対する各成分の寄与の相対的な大きさおよびネガティブまたはポジティブな性質を判定するために（例えば発ガン性）、回帰分析を用いることができる。これらの寄与度は、各成分ごとの寄与度予測モデルとして表現できる。この予測モデルを、さらなるサンプルの判定された成分濃度プロファイルに適用することにより、そのサンプルの特性値を簡単に予測することができる。
【００４４】
一般的に、予測行列の生成は、以下のステップにより行う。
【００４５】
ｉ）特性値が測定されたサンプルの分解プロファイルと、一般的に一つの領域（クロマトグラフピーク領域）を含む各サンプルのプロファイルと、保持期間と、各分解成分ごとに正規化された質量スペクトルとをロードし、
ｉｉ）分解プロファイルを、保持期間の昇順にソートし、
ｉｉｉ）２つ以上のサンプルに共通する成分を特定することによって後続する回帰分析の変数の数を減らすために、選択された範囲内（例えば、１〜８分、一般的には４分）の保持期間を持った互いに異なる成分の質量スペクトル同士を比較し、
ｉｖ）サンプルの分解された成分についての保持期間および領域の値の集合に対して、特性の測定値に相関する予測モデルを確立する。
【００４６】
前記の比較ステップ（ｉｉｉ）は、一般的に、質量スペクトルＳ_ｉおよびＳ_ｊ間のスペクトル類似指数Ｓ_ｉｊの判定を含む。質量スペクトルＳ_ｉおよびＳ_ｊは、互いに異なるサンプル中の成分ｉおよびｊの質量スペクトルであるが、類似の保持期間を有する。Ｓ_ｉｊは、次のように表され、予め設定された限界値（例えば０．９）よりも大きい値を持つ場合、成分ｉおよびｊを、類似しているものとして分類することができる。
【００４７】
Ｓ_ｉｊ＝Ｓ_ｉ ^Ｔ・Ｓ_ｊ　　　　　　　　　　　　　　　（６）
予測行列が規定されると、特性の測定値をサンプルの分解成分に対して計算された領域の集合に相関づけて、分類モデルまたは回帰モデルが予測される。予測行列からのモデルの計算は、例えばノルウェイのベルゲンのパターン・レコグニション・システムズ・ＡＳが提供するＳｉｒｉｕｓプログラムのような、市販の多変量分類／回帰分析コンピュータプログラムによって達成できる。
【００４８】
添付図における図１に、典型的な予測モデルの一例を概略的に示す。この図において、ｘ軸は成分保持期間であり、ｙ軸は、特性を測定したサンプル中で分解された成分のそれぞれに対する回帰係数の値である。ここでは、測定した特性は、変異原性（エームズ試験により測定）であり、サンプルとしては環境排水サンプルを用いた。
【００４９】
生物学的な影響は、回帰係数がより大きな値を持つ成分ほど大きく、図に示すように、そのような成分は、保持期間が大きい傾向を示す。
【００５０】
前記の比較ステップは、必要であれば、ＧＣ−ＭＳ分析前のサンプルに、そのサンプルには含まれていない、既知の質量スペクトルを持つ化学成分を混入させて実行しても良い。類似成分を判定するための選択された範囲の保持期間のサイズを決定するために、これらの成分の保持期間を任意に変化させても良い。しかし、前記の混入成分のプロファイルは、予測行列の生成には用いられない。なぜならば、それらの混入成分は、混入前のサンプル中にはもともと存在するものではなく、特性値に影響を及ぼし得ないからである。さらに、前記の混入は、ＧＣ−ＭＳへのサンプル注入量に関するサンプル間のばらつきを補償するためにも用いられる。すなわち、混入物のピーク領域に関連させて、ピーク領域を正規化することができる。
【００５１】
上記の説明は、主として、多成分化学サンプルのＧＣ−ＭＳスペクトルと生物学的影響の測定値との相関に関するものであったが、本発明にかかる方法は、より広汎に適用可能である。例えば、本発明にかかる方法は、例えばＤＳＰ、ＰＳＰ、ＡＳＰ、アフラトキシン、あるいはボツリヌス毒素などの毒素による生物学的または化学的な汚染についての食物サンプルの試験に用いることができる。また、本発明にかかる方法は、細菌感染またはウィルス感染、プリオン関連の疾病、アルツハイマー症やむち打ち症などの生理学的状態、あるいは薬物乱用（例えば違法薬物の使用やスポーツ選手による規制薬物の使用）などの状態を発見するための、例えば、リンパ液、血液、血清、血漿、尿、粘膜、精液、喀痰、便、または組織サンプルなどの医学的サンプルの分析に用いることもできる。しかし、本発明の方法は、測定可能な特性を、複数の成分から得られる信号の固有の（ｓｉｇｎａｔｕｒｅ）組み合わせに関連づけることが可能な任意のシステムに、広汎に適用することが可能である。
【００５２】
本発明の方法は、特に、医学的および法医学的診断に適用可能である。このため、一つの実施形態において、サンプルとして身体組織や体液（例えば血液、血漿、血清）を用い、「特性」が、通常／健康または異常／不健康を意味し得る。また、成分を、異常または不健康に相関するものとして、あるいは、成分が特定の濃度範囲外にある場合に異常または不健康に相関するものとして、特定することができる。同様に、成分または成分の集合を、特定の異常または疾病状態に相関するものとして特定することもできる。他の実施形態において、体液、組織、またはガスで死後経過時間を分析し、その結果得られた予測モデルを用いて、例えば殺人の被害者の死亡時刻を決定することもできる。
【００５３】
同様に、本発明の方法は、特に、異常や汚染（化学的または生物学的）を検出するための食料品（例えばチーズ）の検査にも適用可能である。
【００５４】
必要に応じて、本発明の方法を拡張し、サンプルの一つまたは複数の分解成分を、その成分の特性を示すデータ（例えばクロマトグラフプロファイルおよび／または質量スペクトル）と、既知の化学物質（または他の成分）の同様の特性を示すデータとを比較することによって、識別することもできる。これは、例えば、コンピュータ化された化学物質ライブラリ用データベースを相互参照することによって可能である。このように、本発明にかかる方法は、例えば、あるサンプルに対して（あるいは個々のサイト（ｓｉｔｅ）またはテストサイトとは異なる他のサンプルに対して）適用し得るさらに具体的なまたはさらに詳細な診断テストを特定するための、粗いフィルタとして用いられる。このようにして、利用可能な診断テストの全部を実行することを要さず、問題を特定することができる。
【００５５】
他の側面から見ると、本発明は、本発明にかかる方法を実行するためのコンピュータプログラムを担持するコンピュータソフトウェア製品（例えばディスク、テープ、通信またはメモリデバイス、あるいは他の搬送媒体）を提供するものである。
【００５６】
さらに他の側面から見ると、本発明は、本発明にかかる方法を実行するようにプログラムされたコンピュータを提供するものである。
【００５７】
本発明にかかるプログラムの動作を、添付した図２および図３のフローチャートに概略的に示す。
【００５８】
図２は、予測モデルの生成を示す。データ入力（ステップＩ）は、複数のサンプルに対するＧＣ−ＭＳデータおよび測定された特性値のロードを含む。データ削減（ステップＩＩ）は、空白の保持期間の廃棄およびバックグラウンドの除去（すなわちＧＣピーククラスタの識別）と、空白の質量数の廃棄およびＭＳバックグラウンドの除去（すなわち、各ＧＣピーククラスタごとの質量スペクトルからの質量スペクトルピークの集合の識別）とを含む。プロファイル分解（ステップＩＩＩ）は、そのようなＧＣピーククラスタ中の個々の成分ごとの質量スペクトルの識別と、各分解成分ごとのＧＣプロファイル（ピーク保持期間およびピーク領域）の決定とを含む。予測モデル生成（ステップＩＶ）は、２つ以上のサンプルに共通する成分を識別するための、互いに異なるサンプル間の分解成分プロファイル同士の比較と、各分解成分に、その成分が測定された特性に与える影響を表す回帰係数を付与するための回帰分析と、その結果として得られた予測行列からの予測モデルの生成とを含む。
【００５９】
図３に、予測モデルの適用を示す。データ入力（ステップＩ）は、一つのサンプルに対するＧＣ−ＭＳデータのロードを含む。データ削減（ステップＩＩ）およびプロファイル分解（ステップＩＩＩ）は、図２で説明したとおりである。値予測（ステップＩＶ）は、分解プロファイルへの、予め計算された予測モデルの適用を含む。従って、予測モデルの構築に用いられるそれらの成分のみが、特性予測値の決定に際して考慮されることは明らかである。
【００６０】
前述したように、予測モデルは、必ずしも、成分の特性に対する寄与を表す回帰係数に基づいて得られるものでなくとも良いが、そのモデルの適用により予測特性値として対応するサンプル源の分類が得られるように、分類（すなわち、生／死、健康／不健康）を反映するものであっても良い。
【００６１】
また、予測行列をサンプルに対する予測値を生成する際のデータ削減に用いても良い。これにより、例えば、予測行列の計算において決定された回帰係数の低い値に対応するＧＣ保持期間を廃棄できる。
【００６２】
本発明にかかる分析は、遠隔地に設置されたデータ処理手段によって実行しても良い。このため、さらに他の観点によれば、本発明は、データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測する命令を含む、コンピュータプログラム製品を提供するものである。前記コンピュータプログラムは、
Ａ）前記サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｃ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【００６３】
他の側面から見れば、本発明は、データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測するために当該サンプルを分析する命令を含むコンピュータプログラム製品を提供するものであって、
前記コンピュータプログラムは、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
ｉｉｉ）選択されたサンプルについて、
Ａ）当該サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で当該サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
ｉ）前記類似サンプルのそれぞれについて、
ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｉｉ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
ｉｖ）選択されたサンプルについて、
Ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
Ｃ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成する。
【００６４】
さらに、他の側面から見れば、本発明は、データ処理手段で実行された場合に、多成分サンプルの特性値を予測するための予測モデルを生成する命令を含むコンピュータプログラム製品を提供するものであって、
前記コンピュータプログラムが、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
ｉ）前記類似サンプルのそれぞれについて、
Ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｉｉ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成する。
【００６５】
本発明は、さらに、データ処理手段で実行された場合に、上述したコンピュータプログラム製品を生成する命令を含むコンピュータプログラム製品に及ぶ。

Claims

選択された多成分サンプルの特性値を予測する分析方法であって、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｖ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
ｖ）選択されたサンプルについて、
Ａ）前記サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
Ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
Ｅ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とする方法。
多成分サンプルの特性値を予測するための予測モデルの生成方法であって、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｖ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成することを特徴とする方法。
選択された多成分サンプルの特性値を予測する分析方法であって、
Ａ）前記サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
Ｃ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｄ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
Ｅ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とする方法。
前記サンプルが、複数の異なる化学的または生物学的成分を含む合成物であり、
前記サンプルの分離をクロマトグラフ法により行う、請求項１〜３のいずれか一項に記載の方法。
前記パターンが分光学的パターンである、請求項４に記載の方法。
前記サンプルが、体組織または体液あるいは滲出物から得られたもの、または、環境的な液体から得られたものであって、
分離をガスクロマトグラフ法または液体クロマトグラフ法により行う、請求項４または５に記載の方法。
前記パターンが質量スペクトルである、請求項４、５、または６に記載の方法。
前記分離次元において得られるサンプリング信号が所定のレベルを下回る区間を廃棄するために、前記パターンの集合を選択する、請求項１〜７のいずれか一項に記載の方法。
前記分離次元において、サンプリングされた部分の信号レベルの、前記分離次元に沿って最も近い位置にあるピークの信号レベルに対する比率が、０．１〜０．４の範囲より小さい区分のみを廃棄する、請求項８に記載の方法。
前記分離次元において、サンプリングされた部分の信号レベルの、前記分離次元に沿って最も近い位置にあるピークの信号レベルに対する比率が、０．３より小さい区分のみを廃棄する、請求項９に記載の方法。
前記分離次元において既知成分あるいは前記特性にほとんどまたは全く影響しないと考えられる成分に関連する区間を廃棄するために、前記パターンの集合を選択する、請求項１〜７のいずれか一項に記載の方法。
前記分離次元に対する前記選択パターン集合について、バックグラウンドノイズによる誤差を修正する、請求項１〜１１のいずれか一項に記載の方法。
信号を含まない選択パターンまたはノイズによる信号のみを含む選択パターン中のスペクトルデータを廃棄する、請求項５〜１２のいずれか一項に記載の方法。
得られたスペクトルパターンを、ジェントル（Ｇｅｎｔｌｅ）法を用いて個別のピークに分解する、請求項５〜１３のいずれか一項に記載の方法。
請求項１〜１４のいずれか一項に記載の方法を実行するコンピュータソフトウェア製品。
請求項１〜１４のいずれか一項に記載の方法を実行するようプログラムされたコンピュータ。
データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測する命令を含むコンピュータプログラム製品であって、
前記コンピュータプログラムが、
Ａ）前記サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｃ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に予測モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とするコンピュータプログラム製品。
データ処理手段で実行された場合に、選択された多成分サンプルの特性値を予測するために当該サンプルを分析する命令を含むコンピュータプログラム製品であって、
前記コンピュータプログラムが、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングし、
ｉｉｉ）選択されたサンプルについて、
Ａ）当該サンプルの成分を分離次元に沿って分離し、
Ｂ）前記分離次元に沿った複数位置で当該サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
ｉ）前記類似サンプルのそれぞれについて、
ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｉｉ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成し、
ｉｖ）選択されたサンプルについて、
Ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
Ｃ）前記選択されたサンプル中の成分に対して決定されたプロファイルの強度に前記モデルを適用することにより、前記選択されたサンプルの特性予測値を生成することを特徴とするコンピュータプログラム製品。
データ処理手段で実行された場合に、多成分サンプルの特性値を予測するための予測モデルを生成する命令を含むコンピュータプログラム製品であって、
前記コンピュータプログラムが、
ｉ）複数の類似の多成分サンプルについて前記特性値を決定し、
ｉｉ）前記類似サンプルのそれぞれについて、
ａ）前記サンプルの成分を分離次元に沿って分離し、
ｂ）前記分離次元に沿った複数位置で前記サンプルの部分をサンプリングする、ことにより得られたデータを受け取り、
前記コンピュータプログラムは、
ｉ）前記類似サンプルのそれぞれについて、
Ａ）各部分について、その部分の一つまたは多成分の性質の特性を示すパターンを決定し、
Ｂ）前記分離次元の複数区間に対する前記パターンの組み合わせを選択し、選択した組み合わせから、前記部分における個々の成分の特性を示すパターンおよび分離次元プロファイルを決定し、
ｉｉ）決定されたパターンおよびそのプロファイルの前記分離次元に沿った位置を比較することにより、前記類似サンプル中の類似成分を識別し、
ｉｉｉ）前記特性値および前記類似サンプル中の成分について決定された前記プロファイルの強度を比較することにより、サンプルの特性値を予測するモデルを生成することを特徴とするコンピュータプログラム製品。
データ処理手段で実行された場合に、請求項１５、１７〜１９のいずれか一項に記載のコンピュータプログラム製品またはコンピュータソフトウェア製品を生成する命令を含む、コンピュータプログラム製品。