JP2011520183A

JP2011520183A - サンプルデータの分類

Info

Publication number: JP2011520183A
Application number: JP2011505631A
Authority: JP
Inventors: ヘルマンエムジェイソントロップ; ヴィルヘルムスエフジェイフェルハエフ; デンハムレネファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-04-25
Filing date: 2009-04-21
Publication date: 2011-07-14
Also published as: CN102016881B; WO2009130663A1; EP2272028A1; CN102016881A; RU2517286C2; US8515681B2; RU2010147926A; US20110040491A1

Abstract

生体分子データの分類のための分類システム１００が提供される。システムの入力部は、分類されるべきサンプルの複数の特徴１０２と、複数の各誤差推定値１０４を受け取る。統計モジュール１０６は確率密度関数１０８を特徴と関連付け、確率密度関数の分散は誤差推定値に依存する。複製モジュール１１０はサンプルの複数の摂動されたレプリカ１１２を生成し、特徴は対応する各確率密度関数に従ってランダムに摂動される。分類器１１４は摂動された特徴に基づいて摂動されたレプリカを分類する。アナライザ１１８はサンプル分類１２０を得るために分類されたレプリカ１１６の統計解析に基づいて分類されるべきサンプルを分類する。

Description

本発明は分類に関し、特にノイズのある測定データを含むサンプルの分類に関する。より具体的には、本発明は生体分子データの分類に関する。

分子診断の分野において、マイクロアレイデータ及びプロテオミクスデータは、患者を分類する新たな試験を開発するためにますます使用されるようになっている。こうした試験の一例は、"Ｍｕｌｔｉｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏａｒｒａｙｄａｔａｗｉｔｈｒｅｐｅａｔｅｄｍｅａｓｕｒｅｍｅｎｔｓ：ａｐｐｌｉｃａｔｉｏｎｔｏｃａｎｃｅｒ"ｂｙＫ．Ｙ．ＹｅｕｎｇａｎｄＲ．Ｅ．Ｂｕｍｇａｒｎｅｒ，ｉｎＧｅｎｏｍｅＢｉｏｌｏｇｙ，２００４，４：Ｒ８３に記載されている。

マイクロアレイデータ及びプロテオミクスデータの分類は、例えば診断と患者の層別化に関連し得る。この分類の根拠とするために、正しいバイオマーカー、例えば正しい遺伝子又はタンパク質のセットを見つけ出すこと、及びこれらのバイオマーカーの測定値を分類に変換する正しい規則を見つけ出すことは、分類精度に大きな影響を及ぼし得るため、最も重要である。バイオマーカーと分類規則が与えられれば、新規の症例が、臨床の場で、又は一般開業医の下で分類されることができる。

マイクロアレイは、サンプルあたり何千もの遺伝子発現レベルを同時に測定する能力を容易にすることによって、生物学者に重要手段を提供する。マイクロアレイ分類の主要な役割の１つは、遺伝子発現測定値のセット、特徴を、所与の標的ラベル、すなわち患者のクラスにマップすることである。人の体温又は人の身長を測定するのとは対照的に、遺伝子発現レベルを測定することは非常に困難であり、費用がかかり、時間がかかる。これは多くの個別手順が実行されなければならない多段階プロセスである。これらの段階のいくつかは、完全に制御されることができない条件を含み、分類結果を信頼できないものにし得る。

改良された生体分子データの分類を持つことが有利である。この問題によりよく対処するために、本発明の第一の態様において、以下を有する分類システムが提示される。
分類されるべきサンプルの複数の数値的特徴の測定値と、複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るための入力部。
各確率密度関数を複数の数値的特徴の各々と関連付けるための統計モジュール。各確率密度関数は各数値的特徴の各誤差推定値に依存する。
サンプルの複数の摂動されたレプリカを生成するための複製モジュール。摂動されたレプリカは摂動された特徴を含む。摂動された特徴を得るために、複数の数値的特徴の各々が、対応する各確率密度関数に従ってランダムに摂動される。
摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、複数の摂動されたレプリカの各々を分類するための分類器。各分類されたレプリカはそれに関連するクラスを持つ。
サンプル分類を得るために、分類されたレプリカの統計解析に基づいて、分類されるべきサンプルを分類するためのアナライザ。

レプリカの数値的特徴が摂動されるので、分類は一般的に全てのレプリカに対して同じであるとは限らない。さらに、レプリカの特徴は、測定された特徴に存在するノイズに起因する確率分布に従って摂動されるため、特定のクラスであると分類されるレプリカの数は、ノイズを考慮して、分類されるべきサンプルがその特定のクラスである確率又は尤度に関連する。従って、アナライザはこの確率を考慮して、改良された分類を提供し、及び／又は分類の信頼性に見通しをつけることができる。

好適には、統計モジュールは誤差推定値に依存して、例えば誤差推定値に比例して、分散を変化させる。

例えば、アナライザは最も高い確率又は尤度を持つクラスをサンプルに割り当てる。これは分類の精度（例えば特異性及び／又は感度）を改良する。

好適には、アナライザはサンプルが特定クラスに属する尤度を示す値を計算するように構成される。これは分類システムのユーザに、分類を信頼することができるかどうかを決定するために使用することができる指標を与える。尤度は、例えば統計的仮説検定の確率値又はｐ値を用いて示され得る。

好適には、複数の尤度値が計算され、各尤度値はサンプルが各特定クラスに属する確率又は尤度を示す。これは、サンプルが属し得ると考えられるクラスをユーザがよりよく理解することを可能にし、これはさらなる診断が必要かどうかを決定するために使用され得る。

よい分類器を得るために、分類器は各サンプルの複数の摂動されたレプリカを有する訓練データ集合を用いて訓練され得る。

本発明の他の態様は独立クレームに規定される。従属クレームは有利な実施形態を規定する。

本発明のこれらの及び他の態様は、図面を参照してさらに明瞭にされ、説明される。

図１は分類システムのブロック図である。図２は分類システムの処理ステップを図示するフローチャートである。図３は、分類器を訓練し、訓練された分類器で分類を実行する基本プロセスを図示するフローチャートである。図４は適切な特徴の部分集合を選択するプロセスを図示するフローチャートである。図５は特徴選択プロセスにおいて個々の特徴における測定ノイズを用いるプロセスを図示するフローチャートである。図６はハードウェアアーキテクチャのブロック図である。

マイクロアレイデータなどの分子測定に伴う問題の１つは、これらが非常にノイズが多いことである。マイクロアレイデータにおけるこのノイズの源の１つは、ハイブリダイゼーションにおける変動によって与えられる。しかしながら、マイクロアレイ測定は遺伝子発現の指標を与えるだけでなく、とりわけアレイに対するハイブリダイゼーションの差によって導入される誤差の推定値も与える。この誤差推定値は、バイオマーカー発見段階においてある程度使用されており、例えばＬ．Ｊ．ｖａｎ'ｔＶｅｅｒｅｔａｌ．，"Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｉｎｇｐｒｅｄｉｃｔｓｃｌｉｎｉｃａｌｏｕｔｃｏｍｅｏｆｂｒｅａｓｔｃａｎｃｅｒ"，ｉｎＮａｔｕｒｅ，４１５：５３０‐５３６，２００２（以下：Ｖａｎ'ｔＶｅｅｒｅｔａｌ．）に記載されるようにフィルタリング前段階において使用されている。

誤差推定値が最終的な分類に使用されない場合、新症例の分類は遺伝子発現測定値のみに基づき、これらの測定値が極めて不正確であるかもしれないということを考慮しない。

一実施形態において、症例は実測値に基づいて、一度だけではなく何度も分類され、毎回、摂動ノイズが所与の誤差推定値に従って加えられる。より詳細にはこれは次のように実行され得る。

通常は、バイオマーカーに使用されるｎ個の遺伝子と、遺伝子ｉ＝１，…，ｎに対する測定値ｘ_ｉが与えられる。これらの遺伝子測定値は分類器において使用され、これは関数

として見られ、症例のデータ

に対して一度呼び出される。

各測定値ｘ_ｉの誤差推定値がｅ_ｉによってあらわされる場合、新たな事例

は摂動ノイズを

に加えることによって作られる。こうした新たな事例

すなわちレプリカは、何度も（例えば１０００回）作られる。例えば、誤差が正規分布し（マイクロアレイデータでよくあるように）、ｅ_ｉが測定値の推定標準偏差を示す場合、新たな事例は

によって生成され、Ｎ（０，ｅ_ｉ）は平均ゼロと標準偏差ｅ_ｉを持つ正規分布である。そして分類されたレプリカを得るために、分類器ｆがレプリカの各々に適用される。分類されたレプリカの結果は１つの結果に組み合わされる。後者に適用されることができる規則は多数決を使用し、特定クラスに分類されたレプリカはそのクラスに対する票をあらわす。加えて、測定誤差によって導入される不確かさの指標を与えるために、各票がどのくらいの頻度で発生したかを示すことができる。そしてこの種の情報は、最終アドバイスにおいて考慮するために臨床決定支援システム（ＣＤＳＳ）において使用されることができる。

これらの技術は、マイクロアレイデータに対して使用されることができるだけでなく、測定ノイズに対して推定値が利用可能である限り他のデータに対しても使用されることができる。このノイズは、マイクロアレイ実験における技術的ノイズに起因し得るが、例えば繰り返し実験に基づくノイズモデルからのノイズにも起因し得る。

上記の技術を適用する際、この技術は実測値だけでなく誤差推定値も使用するため、測定誤差が分類結果に影響を及ぼす。さらに、この方法は１つの分類結果だけでなく、異なる結果にわたる確率分布も与えることができる。

図１は生体分子データの分類のための分類システム１００の一実施形態を図示する。この分類システム１００は測定データを受け取るための入力部を持つ。測定データは、例えば次のうちの少なくとも１つを有し得る。
（ａ）遺伝子発現データ、
（ｂ）ＤＮＡ転写産物データ（遺伝子発現だけでなく、細胞に発現され得る、及び細胞の機能に影響し得る他のＤＮＡ断片も測定する）、又は、
（ｃ）プロテオミクスデータ（例えばサンプル中の複数のタンパク質の濃度）

上記のデータタイプ（ａ）及び（ｂ）は典型的にはマイクロアレイ又はアッセイを用いて測定され得る。データタイプ（ｃ）は典型的には質量分析計を用いて測定され得る。しかしながら、他の種類の測定値もまた使用され得る。

分類システム１００の入力部は分類されるべきサンプルの複数の特徴１０２の測定値を受けとるように構成される。ここで、特徴は例えば（ａ）、（ｂ）、及び（ｃ）で上記に概説されたデータの種類を有する。例えば、特徴はサンプル中の特定物質の濃度を示す。特徴は特定の遺伝子又はＤＮＡ転写産物がどの程度まで発現に達しているかをあらわしてもよい。分類システム１００の入力部はまた、複数の特徴の各々の複数の各誤差推定値１０４を受け取るようにも構成される。これらの誤差推定値は特徴の測定値が信頼されることができる程度の指標を与える。

システム１００は各確率密度関数１０８を複数の特徴の各々と関連付けるための統計モジュール１０６を有する。確率密度関数１０８は測定誤差の確率密度関数をあらわしてもよく、この場合確率密度関数は通常、平均ゼロと、誤差推定値に依存する分散を持つ。あるいは、確率密度関数１０８は特徴自体の確率密度関数をあらわしてもよく、この場合かかる確率密度関数の平均は通常、特徴の測定値に対応し、分散は特徴の誤差推定値に依存する。確率密度関数１０８の基礎となる確率分布の一般型は全ての特徴に対して同じであり得る。典型的には、正規分布が確率密度関数に対して使用されることができ、分散は各誤差推定値１０４に依存し、平均はゼロである（又は測定された特徴に対応する）。しかしながら、特に測定値が正規分布でない誤差分布を持つとわかっているときには、他の確率密度関数が使用されることができる。分類システム１００の直接的実施においては、独立確率分布が各特徴に対して想定されるが、より高度な実施においては、確率密度関数は多変量で、複数の又は全ての測定された特徴１０２及び／又は誤差推定値１０４に依存し得る。

システム１００はサンプルの複数の摂動されたレプリカ１１２、すなわち複数の特徴１０２の摂動されたレプリカ（及び場合により複数の誤差推定値１０４の摂動されたレプリカ、誤差推定値が摂動されるかどうかはわからない）を生成するための複製モジュール１１０を有する。摂動されたレプリカを生成するために、複製モジュール１１０は対応する各確率密度関数に従って特徴１０２にランダムに摂動する。これらの各確率密度関数は、統計モジュール１０６によって特徴と関連付けられる、誤差推定値に基づく異なる分散を持ち得る。上述の通り、直接的実施において確率密度関数は全て同じ種類の分布（例えば正規分布）を持ち得る。摂動されたレプリカは摂動された特徴を有する。

システム１００は摂動された特徴に基づいて複数の摂動されたレプリカの各々を分類するための分類器１１４を有する。分類器は分類されたレプリカ１１６を得るために所定の分類基準を適用することによって摂動されたレプリカの摂動された特徴を評価する。多くの種類の分類器が当該技術分野において知られている。適切な分類器は、例えば最近傍平均分類器、又はサポートベクターマシンであることができる。

システム１００は、サンプルクラス１２０を得るために分類されたレプリカ１１６の統計解析に基づいて分類されるべきサンプルを分類するためのアナライザ１１８を有する。アナライザ１１８によって実行される統計解析は投票システムを有し得る（例えば最も摂動されたレプリカを持つクラスがサンプル分類となる）。

サンプルが特定クラスに属する尤度を示す値を計算するために、サンプルクラス中のレプリカの百分率が計算されることができる。これはサンプル分類の信頼性の指標を与え、これは、十分な確信を持つ診断を得るために、追加の測定、又は任意の他の診断活動が必要かどうかを決定するためにオペレータによって使用され得る。尤度は例えば確率又はｐスコア（信頼基準）であり得る。

アナライザ１１８はまた、複数の尤度値を計算するように構成されてもよく、各々の尤度値はサンプルが各特定クラスに属する確率、尤度、又は信頼度を示す。これは例えば、クラスのうちの１つがいかなる他のクラスよりもはるかに起こりそうであるかどうか、又は２つ以上のクラスが大体同程度に起こりそうであるかどうかを発見するために使用されることができる。後者の場合、結果の信頼性が下がる可能性があり、それがわかるのはよいことである。またこれは、非常に低い尤度を持つ場合クラスのうちの１つ以上を除外することも可能にする。

さらによい結果をもたらす特に効率的な実施形態において、統計モジュール１０６は、ゼロ平均と、誤差推定値に比例する標準偏差とに、正規分布を関連付けるように構成される。

分類器１１４は、各特徴の各誤差推定値に基づいて個々のレプリカの複数の特徴の各々に各重みを加えるように構成され得る。このようにして、より大きな誤差推定値を持つ特徴の影響は、より小さな誤差推定値を持つ特徴の影響に比べて削減される。これは摂動されたレプリカの個々の分類を改良し、非常に大きな誤差推定値を持つ特徴の影響を削減するために使用されることができる。

例えば、分類器が、クラスの各々に対して平均プロファイル（重心）が与えられる最近傍重心法を使用すると仮定する。サンプル（又はより具体的には摂動されたレプリカ）は、異なる重心への距離を計算し、最近傍重心を選ぶことによって分類され得る。そして、分類されるべき患者の特定の測定値が非常にノイズか多い場合、分類に対するこの測定値の影響は距離の計算を修正することによって削減されることができる（例えば特徴は特徴の測定値の推定誤差に反比例する重みで重み付けされることができる）。ｋ近傍法規則が使用される場合、使用された距離測度への測定値の寄与を重み付けすることも可能である。これは分類されるべき患者の測定誤差のみならず、'近傍'の測定値における誤差にも基づき得る。これはマイクロアレイデータに対して使用されることができるが、測定ノイズに対して推定値が利用可能である限り他のデータに対しても使用されることができる。これはマイクロアレイ実験において与えられるような技術的ノイズを含むだけでなく、繰り返し測定に基づくノイズモデルからのノイズも含むことができる。

分類システム１００は、例えばマイクロアレイシステム若しくはアッセイ、又は質量分析計などの測定システムの中に組み込まれてもよい。これはまた、ワークステーション、パーソナルコンピュータ、ＰＤＡなどといった任意の適切な処理デバイス上で実行されるコンピュータプログラムとして実施されてもよい。好適には処理デバイスはデータリンクを介して（ＵＳＢなどの直接リンク、又はイーサネット（登録商標）若しくは無線ＬＡＮ若しくはインターネットなどのネットワークを介して）測定システムに結合される。アナライザの結果は、処理デバイスのディスプレイ又は別々のディスプレイ上に表示されてもよく、これは印刷されるか、又はさらなる処理のために別のソフトウェアモジュール若しくは別のデバイスに伝えられてもよい。例えば、アナライザの出力は臨床決定支援システムの入力であってもよい。こうした臨床決定支援システムは、分類システム１００の出力、及び臨床決定支援システムが利用可能であり得る任意の他のデータに基づいて診断を生成し得る。アナライザの出力はまた、コンピュータ支援検出及び／又はコンピュータ支援診断システムにおいても使用され得る。

典型的には、分類器１１４は信頼できる分類結果を与えるために訓練される必要がある。例えば摂動されたレプリカの利点が訓練手順中にも使用され得る。この目的のため、訓練データ集合生成器と訓練モジュールが提供され得る。これらのアイテムは図には示されていない。分類器１１４を訓練するために、訓練データ集合生成器は訓練データ集合を生成する。好適には、訓練データ集合生成器は複数の摂動されたレプリカを訓練データ集合に含めるように構成される。例えば、これは複数のサンプルの測定された特徴を含む訓練データ集合から開始する。これらの測定された特徴は例えばマイクロアッセイから得られ、好適にはｇｒｏｕｎｄｔｒｕｔｈ分類を伴う。各サンプルの測定された特徴は、各サンプルの複数の摂動されたレプリカを得るために何度も複製される。訓練モジュールはこうして生成される訓練データ集合を用いて分類器を訓練するために使用される。訓練後、訓練された分類器は、好適には新たなサンプルの摂動されたレプリカの集合と併せて、新たなサンプルを分類するために使用され得る。

図２は、生体分子データを分類する方法の処理ステップを図示する。この方法は、例えばユーザ入力コマンドに応答して、ステップ２００において開始される。ステップ２０２において測定データが受信される。測定データは、分類されるべきサンプルの複数の特徴１０２の測定値と、複数の特徴の各々の複数の各誤差推定値１０４を有する。ステップ２０４において、各確率密度関数１０８が複数の特徴の各々に関連付けられる。各確率密度関数の各分散は各特徴の各誤差推定値に依存する。ステップ２０６において、サンプルの複数の摂動されたレプリカ１１２が生成される。摂動されたレプリカは摂動された特徴を有する。複数の特徴の各々は、摂動された特徴を得るために対応する各確率密度関数に従ってランダムに摂動される。ステップ２０８において、複数の摂動されたレプリカの各々は、摂動された特徴に基づいて、かつ所定の分類基準を適用することによって分類される。これは分類されたレプリカ１１６をもたらす。結果として、各分類されたレプリカはそれに関連するクラスを持つ。ステップ２１０において、サンプル分類１２０を得るために分類されたレプリカ１１６の統計解析に基づいてサンプルが分類される。

かかる方法は、電子回路を用いて、又は、好適には機械可読命令を有するコンピュータプログラムを用いて実施され得る。

図６は、図１のシステム及び／又は図２の方法、及び本文において記載された他の技術を実施するのに適したハードウェアアーキテクチャを図示する。示されたハードウェアアーキテクチャは一例に過ぎない。図はプロセッサ６０２とメモリ６０６を示す。コンピュータプログラムはメモリ６０６（例えばＲＯＭ又はＲＡＭメモリ）にロードされ得、プロセッサ６０２は、機械可読命令を用いて規定される、メモリ６０６に保存されるステップを実行するように構成される。コンピュータプログラムは本文において記載された技術のうちの１つ以上を適用するために必要な機械可読命令を有する。入力６０４は、データ入力、データ処理、分類の開始、視覚化の制御及び他の結果の出力といった特定の活動をトリガーするために使用されることができる。ディスプレイ６１２は例えば分類結果を示すための方法を提供する。通信ポート６０８は、場合によっては上記のネットワークを介して、例えばマイクロアッセイに接続され得る。通信ポート６０８はまた、例えば決定支援をもたらすために、システム１００若しくは方法の出力をさらに処理するデバイスにも接続され得る。あるいは、データは取り外し可能なメディアデバイス６１０（例えばＤＶＤリーダ又はＣＤ‐ＲＯＭリーダ又はフラッシュメモリＵＳＢスティック）を用いて提供されてもよい。取り外し可能なメディアデバイスが書き込み機能を持つ場合（例えばＤＶＤ＋ＲＷ互換である、又はフラッシュメモリＵＳＢスティックである）、分類システム１００の最終結果及び／又は中間結果を取り外し可能なメディアにも出力することが可能である。

マイクロアレイは、その個々の測定値において様々な程度の不確かさを持つ、本質的にノイズの多い技術である。マイクロアレイ測定における不確かさの程度は、測定プロセスを乱す異なる原因を定量化しようとするノイズモデルを介して定量化されることができる。これらは例えば信頼区間又はＰ値の形でマイクロアレイ測定値の変動についての情報を提供する。この情報は発現差異の決定又はタスクのクラスタリングに反映され得る。しかしながら、変動情報は分類問題においても使用され得る。こうした特徴ノイズは特徴選択及び分類に影響を及ぼす。

マイクロアレイはハイブリダイゼーション強度測定を介して間接的に遺伝子発現を測定し得る。測定されたハイブリダイゼーション強度はサンプル中のｍＲＮＡ量におよそ比例する。おそらくこれらの測定の最も重要な用途は、異なる条件下での遺伝子発現の変化を研究することである。２色アレイにおいて、２つのｍＲＮＡ源が同じアレイに競合的にハイブリダイズされる。プローブあたり２つの強度測度Ｉ_１（ｉ，ｊ）及びＩ_２（ｉ，ｊ）が得られ、ｉはマイクロアレイの指標であり、ｊは'遺伝子'又は標的配列をあらわす。次式によって与えられる強度測定値の対数比に関心がもたれることが多い。

比率

は倍率変化（ｆｏｌｄ‐ｃｈａｎｇｅ）と呼ばれる。両強度が等しいとき、ｘ_ｉｊはゼロであることに留意されたい。ゼロでない対数比は、個々の強度間の測定された強度における変化を反映する。例えば、対数比２は強度Ｉ_２が強度Ｉ_１より１０^２＝１００倍高かったことを示唆する。これらの倍率変化の対数をとることは、さもなければより偏った強度分布を対称的にする傾向があり、例えば

など、アップレギュレーションとダウンレギュレーションを同様に扱うため、いくつかの利点を持つ。

先に述べた通り、個々のマイクロアレイ強度測定値は非常にノイズが多い。いわゆる誤差モデルは各強度測定値にその変動についての推定値を与える。結果として、特徴値ｘ_ｉｊも同様に確率的になる。

２つの先行研究において使用されたデータ集合は、本明細書に開示される技術の性能を評価するために使用される。両研究は全員が乳癌を発症した女性患者のグループを対象とする。Ｖａｎ'ｔＶｅｅｒｅｔａｌ．における目的は、患者が５年以内に遠隔転移を起こすか否かを予測するために使用され得る、除去された腫瘍組織に存在すると推定される遺伝子発現特性を決定することであった。これらの患者はいわゆるリンパ節転移陰性であった、すなわち診断時には局所リンパ節に腫瘍細胞を持っていなかった。

Ｖａｎ'ｔＶｅｅｒｅｔａｌ．のデータは７８患者の訓練集合と１９患者の検証集合を含んでいた。他のデータ集合は"Ａｇｅｎｅ‐ｅｘｐｒｅｓｓｉｏｎｓｉｇｎａｔｕｒｅａｓａｐｒｅｄｉｃｔｏｒｏｆｓｕｒｖｉｖａｌｉｎｂｒｅａｓｔｃａｎｃｅｒ"ｂｙＶａｎｄｅＶｉｊｖｅｒｅｔａｌ．，ｉｎＮｅｗＥｎｇｌａｎｄＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎｅ，３４７（２５）：１９９９‐２００９，Ｄｅｃ．２００２，ＥｖａｌｕａｔｉｏｎＳｔｕｄｉｅｓ（以下：ＶａｎｄｅＶｉｊｖｅｒｅｔａｌ．）に記載されていた。ＶａｎｄｅＶｉｊｖｅｒｅｔａｌ．は、Ｖａｎ'ｔＶｅｅｒｅｔａｌ．で得られた特性の予後値をさらに検証するために使用された２９５患者のコホートを扱う。両研究は同じマイクロアレイとプロトコルを使用した、従ってデータはプールされ得る。本研究においては、両研究のデータが７８患者の訓練集合と１０６の検証集合に組み合わされた。注目すべきは、ＶａｎｄｅＶｉｊｖｅｒｅｔａｌ．がリンパ節転移陰性（１５１）とリンパ節転移陽性（１４４）の患者両方を含むことである。２９５症例のコホートが、Ｖａｎ'ｔＶｅｅｒｅｔａｌ．にも存在する６１の訓練症例と３の検証症例を含むため、Ｖａｎ'ｔＶｅｅｒｅｔａｌ．とＶａｎｄｅＶｉｊｖｅｒｅｔａｌ．の患者グループは重複する。均質集団を得るために、リンパ節転移陰性の症例のみが考慮される。元の１９症例の検証集合は追加の１５１−（６１＋３）＝８７症例を加えて拡大された。これは全部で１９＋８７＝１０６症例を含むより大きな検証集合を提供する。

図３は、分類器を訓練し、訓練された分類器で分類を実行する基本プロセスを図示する。ステップ３００においてプロセスが開始される。ブロック３０１（ステップ３０２と３０４を含む）は分類器の訓練に関与するステップを示す。ステップ３０６は訓練された分類器で分類を実行するステップを図示する。ステップ３０２において、分類器を訓練するために、訓練データ集合が次のように与えられる。Ｉ^ｇは予後良好クラスに属するｎ_ｇ患者の集合を示し、Ｉ^ｐは予後不良クラスに属するｎ_ｐ患者の集合を示すものとする。患者ｉのクラスラベルはＬ_ｉで示される。ステップ３０４において、平均良好プロファイルｘ^ｇと平均不良プロファイルｘ^ｐが計算される。ｘ_ｉで患者ｉの発現レベルを含むベクトルを示す。平均良好プロファイルｘ^ｇと平均不良プロファイルｘ^ｐは次のように定義される。

ｘ^ｇとｘ^ｐを定義するこれらの式は、平均良好プロファイルｘ^ｇと平均不良プロファイルｘ^ｐを計算するためにステップ３０４で使用される。

Ｖａｎ'ｔＶｅｅｒｅｔａｌ．とＶａｎｄｅＶｉｊｖｅｒｅｔａｌ．によって採用された分類器は、その距離測度としてコサイン相関を用いる最近傍平均分類器である。他の分類器と他の距離測度もまた使用され得る。かかる分類器は、ｄ（ｘ_ｉ，ｘ^ｇ）によって示されるｘ_ｉからｘ^ｇの距離が、ｄ（ｘ_ｉ，ｘ^ｐ）によって示されるｘ_ｉからｘ^ｐの距離よりも小さい場合、患者ｉを予後良好クラスに分類する。コサイン距離の定義から、発現ベクトルｘ_ｉを持つ患者ｉは、次の場合かつその場合に限り、予後良好であると分類され得ることになる。

ここで

と定義する。

方程式１の分類規則は線形分類器をもたらすことに留意されたい。しかしながら、Ｖａｎ'ｔＶｅｅｒｅｔａｌ．で使用された分類器は、より少ない偽陰性に偏っており、もはや線形ではなくなっているため、少し異なる。ここではかかる非線形分類器もまた使用され得る。ステップ３０６において、新たなサンプル（訓練データ集合からではない）が方程式１の分類規則（ｘ_ｉ ^Ｔｘ^ｄｉｆ＞０）に従って分類される。ステップ３０６は検証データ集合からのサンプルに対して実行され得る。これはまた、例えば患者の診断を助けるために、サンプルを分類するための分類器の実用中にも実行され得る。

最近傍平均分類器を作るために、平均特徴ベクトルが各クラスに対して決定され得る。こうした特定クラスの平均特徴ベクトルは、その特定クラスのものであるとわかっている特徴ベクトルの集合を平均化することによって得られ得る。新たな特徴ベクトルを分類するために最近傍平均分類器を使用するために、新たな特徴ベクトルから平均特徴ベクトルの各々までの距離が計算され得る。新たな特徴ベクトルは、新たな特徴ベクトルから最小距離を持つ平均特徴ベクトルのクラスに従って分類され得る。

いくつかの理由から、上記の分類は全特徴集合に対してではなく、特徴（又は遺伝子）の選択された部分集合に対してなされ得る。このため、２つの特徴フィルタリングステップ、特徴ランキングステップ、及び分類評価ステップを有する手順が使用され得る。一例として、各々が２４，４８１遺伝子についての報告された発現レベルを持つ、７８患者の訓練集合で開始してもよい。

図４は特徴の適切な部分集合を選択するプロセスを図示する。ステップ４００においてプロセスが開始される。プロセスは次のように進行する。

ステップ４０２：３症例よりも多くに対して、少なくとも２倍の変化

と、０．０１未満のＰ値（Ｐ値の概念は以下で詳細に説明される）を持つ特徴ｊのみを選択する。データ集合例すなわち７８患者においては、これは削減された４，９１８特徴の集合をもたらし得る。

ステップ４０４：ステップ４０２で選択されたもの（この例では４，９１８特徴）から、少なくとも０．３のクラスラベルを持つ絶対ピアソン相関を持つ特徴を選択する。この例において、これは特徴集合を２３１特徴の集合にさらに削減した。

ステップ４０６：ステップ４０４で選択された特徴（この例では２３１特徴）を、ピアソン相関係数の絶対値によって、最高値から始めて最低値へランク付けする。

ステップ４０８：最近傍平均分類器を、ｌｅａｖｅ‐ｏｎｅ‐ｏｕｔ法で（ｌｅａｖｅ‐ｏｎｅ‐ｏｕｔは当該技術分野で既知の技術である）、ステップ４０６でランク付けされたトップ５、トップ１０、トップ１５などの特徴を用いて、評価する。このステップは図３のプロセスを用いて選択された特徴の部分集合に基づいて分類器を訓練し評価することを含む。

ステップ４１０：最低全誤差率をもたらすステップ４０８で評価された特徴の部分集合を選択する。このデータ集合例において、これは７０特徴になることがわかった。

このデータ集合例において、トップ７０の特徴を用いる分類器は、７８クラスラベルから６５を正確に予測する。図４のプロセスにおいて、ステップ４０２は測定ノイズについての情報を含む唯一のステップである。

マイクロアレイを介して定量化された遺伝子発現情報を得る上での複雑性要因は、強度測定を妨げ得る多数の異なる原因があることである。加えて、測定誤差は強度依存性であり得、例えば強度測定値が高いほど、高い測定値を持ちやすい可能性がある。多くの統計的検定は各測定値に対して測定誤差が等しいと暗黙的に仮定することに留意されたい。マイクロアレイデータは、この、及び他の一般的な統計的仮定を著しく満たさないことが多い。

いくつかの原因は測定値を系統的に偏らせ、その方向は大体予測可能である。多くの場合、適切な変換のセットを適用することによってこれらの系統的影響を補正することが可能である。例えば、バックグラウンド補正、正規化、及びダイスワップ法が、系統的影響を補正するために開発され得る。

誤差モデルは、系統誤差の補正後にもまだ存在し得る偶然誤差をとらえようとし得る。これらの誤差の正確な値と方向は予測不可能であり得るが、偶然誤差の変動は、調べられ得る特定の規則に従い得る。誤差モデルはこの分散の予測可能な動きをとらえるために構築されることができる。誤差モデルの構築を助けるためにセルフ‐セルフハイブリダイゼーションがしばしば実行される。これらは同じｍＲＮＡ源が両チャネルにハイブリダイズされるハイブリダイゼーションであり、すなわち、発現差異はなく、全てのゼロではない対数比がノイズの影響である。

マイクロアレイ測定データ用に開発されている誤差モデルの１つは、"Ｒｏｓｅｔｔａｅｒｒｏｒｍｏｄｅｌｆｏｒｇｅｎｅｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓ"ｂｙＬ．Ｗｅｎｇｅｔａｌ．，ｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ，２２（９）：１１１１，２００６（以下：Ｒｏｓｅｔｔａ）である。このモデルの詳細な処理は、本明細書の範囲を超えている。各個々の強度測定値Ｉ（ｉ，ｊ）に対して、モデルはその変動σ_{Ｉ（ｉ，ｊ）}についての推定値を与える。前述の通り、個々のチャネル強度が確率的である場合、特徴値ｘ_ｉｊも同様に確率的であり得る。個々のチャネル強度の標準偏差は、ｘ_ｉｊの標準偏差を近似するために使用されることができる（Ｒｏｓｅｔｔａ論文を参照）。Ｒｏｓｅｔｔａ誤差モデルの適用後、各測定値は平均ｘ_ｉｊと標準偏差σ_ｉｊを持つ正規分布した確率としてあらわされ得、σ_ｉｊは測定値ｘ_ｉｊに対するモデル化されたノイズ情報をあらわす。

２つの異なるサンプルを比べるときには、いくつかの差は測定誤差に起因する可能性があるため、ゼロではない対数比の各々が２サンプル間の遺伝子発現の差に起因すると考えないように注意されたい。各比率ｘ_ｉｊにいわゆるＰ値、ｐ_ｉｊを割り当てるためにσ_ｉｊを使用することが可能である。このＰ値は、真の対数比がゼロである場合にｘ_ｉｊよりも極値である対数比の値を観察する確率の指標であり、一方測定誤差はσ_ｉｊである。従ってｐ_ｉｊは、測定誤差を考慮するときに対数比がゼロと有意差があるかどうかを示す。

測定ノイズの影響を解析するためには、それについて可能な限り詳細な情報を持つことが好ましい。あいにく、こうした情報は必ずしも利用可能であるか又は公開されているとは限らない。例えば、Ｖａｎ'ｔＶｅｅｒｅｔａｌ．においてただ１つの公開されたノイズ情報はＰ値の形である。誤差モデルが既知であるため、ほとんどの場合に対して対数比上での広がりを推測することが依然として可能であり、平均ゼロと標準偏差σ_ｉｊを持つ正規分布した確率Ｘ_ｉｊについて、両側Ｐ値が次式によって与えられる。

ここで、ｃｄｆはＮ（０，１）分布した確率変数の累積分布関数である。従って、ｘ_ｉｊとｐ_ｉｊが与えられれば、次式によってσ_ｉｊを計算することが可能である。

方程式２はｘ_ｉｊとｐ_ｉｊのほとんどのペアに対してσ_ｉｊの値を提供し得るが、次の２つの場合においては方程式２を用いてσ_ｉｊの値を推定することは容易ではない。
ｐ_ｉｊが１に等しい場合、方程式２の分母はゼロになり、従って方程式２における除算の結果は定義されない。
ｘ_ｉｊがゼロに等しい場合、ｐ_ｉｊの値にかかわらず方程式２は常にゼロを生じる。

両方の場合において、σ_ｉｊは保存的にゼロに設定され得る。しかしながらこれは他の解を除外しない。さらに、ｐ_ｉｊが１に近い、及び／又はσ_ｉｊがゼロに近い状況において丸めの影響が起こり得る。いくつかの場合において、これはσ_ｉｊを非現実的に高くする可能性がある。こうした値が生成されることを防ぐために、σ_ｉｊの値への上限σ_ｍａｘが適用され得る。

σ_ｉｊによってとらえられる計算されたノイズ情報は、元のデータから修正された発現レベルを生成するために使用され得る。遺伝子発現データを摂動させるために、平均ゼロと標準偏差σ_ｉｊを持ついくつかのガウスノイズが各測定値ｘ_ｉｊに加えられ、σ_ｉｊは方程式２によって計算される。患者に対して新たな特徴ベクトルを生成するために、誤差が独立しており正規分布に従うことが暗黙的に仮定されていることに留意されたい。しかしながら、異なる特徴の誤差分布は互いに依存し得る。この依存性は、摂動をより現実的にし、最終分類をより正確にするために、修正された発現レベルの生成において考慮され得る。また、クラスラベルは変更されない、すなわちＬ_ｉ ^ｍｏｄ＝Ｌ_ｉであることにも留意されたい。新たな発現ベクトルは次の方法を介して生成され得る。

σ_ｍａｘは摂動が大きくなり過ぎ得ることを避けるために使用され得る。例えば、各サンプルは方程式３を用いて１０００回複製され得る。

元のサンプルが２つの異なる分類間の境界付近である場合に、摂動は最も大きな影響を持ち得ることに留意されたい。いくつかの又は全ての個々の症例がノイズの影響を受けるとき、クラス平均も影響され得ることに留意されたい。これが起こるとき、決定境界自体がノイズの影響を受けることになる。

図５は、特徴選択プロセスにおいて個々の特徴における測定ノイズを用いるステップを図示する。ステップ５００において特徴選択プロセスが開始される。ステップ５０２において、２倍の変化と０．０１未満のＰ値を持つ遺伝子が、上述のステップ３０２のように処理される。ステップ５０４において、各訓練サンプルｉ及び特徴ｊに対して、多数の修正された発現ベクトル（例えば１０００の修正された発現ベクトル、１０００の代替訓練集合をもたらす）を作るために方程式３が使用される。これらの修正された発現ベクトルは、元の測定値の摂動されたレプリカと称され得る。ステップ５０６において、（不変の）クラスラベルを持つ各特徴（又は遺伝子）に対してピアソン相関係数が計算される。各遺伝子（又は特徴）に対してこれはピアソン相関係数の分布を与える。ステップ５０８において、特徴は全レプリカにわたる平均ピアソン相関の絶対値によって順序づけられる。全レプリカにわたる平均ピアソン相関を用いる代わりに、他の統計値、例えば第一四分位数が使用されることができる。ノイズは全症例に対して相関係数の値に影響を及ぼし得る。ステップ５１０において、ステップ５０８の順序づけられた特徴を用いて特徴の部分集合が選択される。ステップ５１０はステップ４０８‐４１０と同様である。

例えば図５のプロセスを用いて、特徴選択ステップにおいて特徴ノイズを用いることは、改良された特徴選択を可能にする。通常、異なる特徴に基づいて分類を実行することは、異なる分類結果につながり得るため、この改良された特徴選択は、間接的に個々の症例の分類に対する影響を持つ。しかしながら、一旦分類器が訓練されていれば、分類されるべき新たなサンプルの特徴ノイズが分類にどのように影響し得るかを見ることは興味深い。分類プロセス中に測定誤差の知識を用いることは、分類の精度（特異性及び／又は感度）を改良するため、有利となり得る。分類中に測定誤差を考慮することは、分類結果の確実性の指標を与えることも可能にし得る。

小さな特徴集合が使用される場合、ノイズ摂動に起因する偏位している分類の数が高くなり得ることが実験により示されている。しかしながら、ノイズは分類に含まれる特徴の数にかかわらずいくらかの影響を及ぼし得る。また、いくつかの実験においては、ノイズの影響は分類に含まれる特徴の数とともに単調減少していない。場合によっては、より多くの特徴を加えることが分類を安定化するのに役立つが、ある数の特徴においては、分類は再度ノイズによってより影響を受け始める。

上述の通り、ｘ^ｄｉｆを固定したまま、検証症例の特徴ベクトルｘ_ｉを複製することが可能である。訓練データからｘ^ｄｉｆを推定することが可能である。場合により固定された（摂動されない）検証集合を維持したまま、訓練集合を摂動することによって、その結果間接的にｘ^ｄｉｆを摂動することによって、特徴ノイズの影響を示すことも可能である。訓練データ集合と検証データ集合の両方を摂動することも可能である。ここで、検証集合は実用（例えば患者の診断）のためにサンプルを実際に試験するために使用されるサンプルの測定データと置き換えられ得る。偏位している分類は決定境界を変えることの結果であり得る。この決定境界は、摂動された訓練データに起因して変化した可能性がある。訓練データの摂動はまた、特に小さな特徴集合を用いるとき、分類精度も改良する。

本文で説明した通り、特徴ノイズは特徴選択と分類の両方に影響し得る。意味のある発現値を作るために必要な多くの異なる変換は、ノイズ情報を解析的に組み込むことを困難にする。ノイズモデルを介して発現レベルを摂動することは、これらの問題を回避する。本文においては、発現ベクトルを摂動するためにＲｏｓｅｔｔａ誤差モデルが使用された。このモデルは極めて一般的であり、他のマイクロアレイプラットフォームに適用されることができるが、決して存在する唯一の誤差モデルではない。既存の代替案もまた適用され得る。

異なる分類器を用いる実験は、ｋ‐近傍法、サポートベクターマシン、及びランダムフォレストなどの他の分類器も特徴ノイズの影響を受けることを明らかにする。当業者は本文に開示された技術（例えば摂動されたレプリカを用いる分類）がこうした分類器に適用され得ることを理解するだろう。

複製されたデータは、フィッティング手順を制御する、例えばオーバーフィッティングを防ぐ手段として使用されることができる。元のデータで訓練する代わりに、多くの複製されたデータ点を加え、より大きな訓練集合を用いて分類器を訓練することが可能である。こうしたノイズ注入は、Ｔｉｋｈｏｎｏｖ正則化と類似し得る。例えば、小さな特徴部分集合を見つけ出すことに集中した局所探索法は、訓練データにおいて多くのゼロ‐誤差パターンを容易に見つけ出す。しかしこれらのパターンは、よく検証しないことが多い。パターンが単なる偶然でデータにフィットする場合、小さな摂動は既に低誤差の分類結果を台無しにしてしまっていることが予測される。そうならば、摂動されたレプリカを含む誤差モデルは、疑似パターンをフィルタ除去するために使用され得る。

本発明は、本発明を実現するのに適したコンピュータプログラム、特にキャリア上又はキャリア内のコンピュータプログラムにも及ぶことが理解される。プログラムは、ソースコード、オブジェクトコード、コード中間ソース及びオブジェクトコードの形式、例えば部分的にコンパイルされた形式、又は本発明にかかる方法の実施における使用に適した任意の他の形式であってよい。かかるプログラムは多くの異なるアーキテクチャ設計を持ち得ることもまた理解される。例えば、本発明にかかる方法又はシステムの機能を実施するプログラムコードは、１つ以上のサブルーチンに分割され得る。これらのサブルーチンに機能を分配する多くの異なる方法が当業者に明らかである。サブルーチンは内蔵型プログラムを形成するために１つの実行ファイルに一緒に保存され得る。かかる実行ファイルは、コンピュータ実行可能命令、例えばプロセッサ命令及び／又はインタプリタ命令（例えばＪａｖａ（登録商標）インタプリタ命令）を有し得る。あるいは、サブルーチンの１つ以上又は全てが少なくとも１つの外部ライブラリファイルに保存され、静的に又は動的に、例えばランタイムにおいてメインプログラムとリンクされてもよい。メインプログラムはサブルーチンの少なくとも１つへの少なくとも１つの呼び出しを含む。また、サブルーチンは互いへの関数呼び出しを有し得る。コンピュータプログラムに関する一実施形態は、記載された方法の少なくとも１つの処理ステップの各々に対応するコンピュータ実行可能命令を有する。これらの命令はサブルーチンに分割され、及び／又は静的若しくは動的にリンクされ得る１つ以上のファイルに保存され得る。コンピュータプログラムに関する別の実施形態は、記載されたシステム及び／又は製品の少なくとも１つの手段の各々に対応するコンピュータ実行可能命令を有する。これらの命令はサブルーチンに分割され、及び／又は静的若しくは動的にリンクされ得る１つ以上のファイルに保存され得る。

コンピュータプログラムのキャリアはプログラムを保持することができる任意のエンティティ又はデバイスであってよい。例えば、キャリアは記憶媒体、例えばＣＤ‐ＲＯＭ若しくは半導体ＲＯＭなどのＲＯＭ、又は例えばフロッピー（登録商標）ディスク若しくはハードディスクなどの磁気記録媒体を含み得る。さらキャリアは、電気ケーブル若しくは光ケーブルを介して、又は無線通信若しくは他の手段によって伝達され得る、電気信号若しくは光信号などの伝導可能なキャリアであってもよい。プログラムがこうした信号に具体化されるとき、キャリアはこうしたケーブル又は他のデバイス若しくは手段によって構成され得る。あるいは、キャリアは中にプログラムが組み込まれる集積回路であってもよく、集積回路は関連方法を実行するのに適しているか、又は関連方法の実行における使用に適している。

上述の実施形態は本発明を制限するのではなく例示するものであり、当業者は添付のクレームの範囲から逸脱することなく多くの代替的な実施形態を設計することができることに留意すべきである。クレームにおいて、括弧の間に置かれた任意の参照符号は、クレームを限定するものと解釈されてはならない。"有する"という語及びその活用の使用は、クレームで述べられたもの以外の要素又はステップの存在を除外しない。ある要素に先行する冠詞"ａ"又は"ａｎ"はかかる要素の複数の存在を除外しない。本発明は複数の別個の要素を有するハードウェアを用いて、及び適切にプログラムされたコンピュータを用いて、実施され得る。複数の手段を列挙する装置クレームにおいて、これらの手段のいくつかはハードウェアの１つの同じアイテムによって具体化され得る。特定の手段が相互に異なる従属クレームに列挙されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。

Claims

生体分子データを分類するための分類システムであって、
分類されるべきサンプルの複数の数値的特徴の測定値と、前記複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るための入力部と、
各確率密度関数を前記複数の数値的特徴の各々と関連付けるための統計モジュールであって、前記各確率密度関数は前記各数値的特徴の前記各誤差推定値に依存する、統計モジュールと、
前記サンプルの複数の摂動されたレプリカを生成するための複製モジュールであって、前記摂動されたレプリカは摂動された特徴を有し、前記複数の数値的特徴の各々は、前記摂動された特徴を得るために前記対応する各確率密度関数に従ってランダムに摂動される、複製モジュールと、
前記摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、前記複数の摂動されたレプリカの各々を分類するための分類器であって、各分類されたレプリカはそれに関連するクラスを持つ、分類器と、
サンプル分類を得るために、複数の前記分類されたレプリカの統計解析に基づいて、前記分類されるべきサンプルを分類するためのアナライザと、を有する、分類システム。
前記アナライザが、前記サンプルが特定クラスに属する尤度を示す値を計算する、請求項１に記載の分類システム。
前記アナライザが複数の尤度値を計算し、各尤度値は前記サンプルが各特定クラスに属する尤度を示す、請求項２に記載の分類システム。
前記アナライザが、最大数の摂動されたレプリカに関連するクラスを確立するための手段と、前記最大数の摂動されたレプリカを持つ前記クラスに従って前記サンプルを分類するための手段とを有する、請求項１に記載の分類システム。
前記各確率密度関数が、前記誤差推定値に基づく各標準偏差を持つ各正規分布であり、前記複製モジュールが、摂動された特徴を得るために前記各正規分布の１つに従って値を生成するための手段を有する、請求項１に記載の分類システム。
前記分類器が最近傍平均分類器を有する、請求項１に記載の分類システム。
前記分類器が、前記各数値的特徴の前記各誤差推定値に基づいて個々のレプリカの前記複数の数値的特徴の各々に各重み付けを加え、大きな誤差推定値を持つ数値的特徴の影響が、小さな誤差推定値を持つ数値的特徴の影響に比べて削減される、請求項１に記載の分類システム。
前記入力部が、
遺伝子発現データと、
ＤＮＡ転写産物データと、
プロテオミクスデータのうちの少なくとも1つを有する測定データを受け取る、請求項１に記載の分類システム。
前記測定データを前記入力部に提供するためのアッセイリーダをさらに有する、請求項１に記載の分類システム。
臨床決定支援システムをさらに有し、前記臨床決定支援システムは、前記サンプル分類を受け取り、前記サンプル分類に基づいて診断を提供する、請求項１に記載の分類システム。
訓練データ集合を生成するための訓練データ集合生成器であって、前記訓練データ集合生成器は前記訓練データ集合において複数の前記レプリカを含む、訓練データ集合生成器と、
新たなサンプル及び／又は前記新たなサンプルのレプリカを分類するのに適した訓練された分類器を得るために、前記訓練データ集合に対して前記分類器を訓練するための訓練モジュールと、をさらに有する、請求項１に記載の分類システム。
生体分子データを分類する方法であって、
分類されるべきサンプルの複数の数値的特徴の測定値と、前記複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るステップと、
各確率密度関数を前記複数の数値的特徴の各々と関連付けるステップであって、前記各確率密度関数は前記各数値的特徴の前記各誤差推定値に依存する、ステップと、
前記サンプルの複数の摂動されたレプリカを生成するステップであって、前記摂動されたレプリカは摂動された特徴を有し、前記複数の数値的特徴の各々は、前記摂動された特徴を得るために前記対応する各確率密度関数に従ってランダムに摂動される、ステップと、
前記摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、前記複数の摂動されたレプリカの各々を分類するステップであって、各分類されたレプリカはそれに関連するクラスを持つ、ステップと、
サンプル分類を得るために、前記分類されたレプリカの統計解析に基づいて、前記分類されるべきサンプルを分類するステップと、を有する方法。
プロセッサに請求項１２に記載の方法を実行させるための機械可読命令を有するコンピュータプログラム。