JP2011520183A - サンプルデータの分類 - Google Patents
サンプルデータの分類 Download PDFInfo
- Publication number
- JP2011520183A JP2011520183A JP2011505631A JP2011505631A JP2011520183A JP 2011520183 A JP2011520183 A JP 2011520183A JP 2011505631 A JP2011505631 A JP 2011505631A JP 2011505631 A JP2011505631 A JP 2011505631A JP 2011520183 A JP2011520183 A JP 2011520183A
- Authority
- JP
- Japan
- Prior art keywords
- perturbed
- classification
- replicas
- features
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
- Automatic Analysis And Handling Materials Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
生体分子データの分類のための分類システム100が提供される。システムの入力部は、分類されるべきサンプルの複数の特徴102と、複数の各誤差推定値104を受け取る。統計モジュール106は確率密度関数108を特徴と関連付け、確率密度関数の分散は誤差推定値に依存する。複製モジュール110はサンプルの複数の摂動されたレプリカ112を生成し、特徴は対応する各確率密度関数に従ってランダムに摂動される。分類器114は摂動された特徴に基づいて摂動されたレプリカを分類する。アナライザ118はサンプル分類120を得るために分類されたレプリカ116の統計解析に基づいて分類されるべきサンプルを分類する。
Description
本発明は分類に関し、特にノイズのある測定データを含むサンプルの分類に関する。より具体的には、本発明は生体分子データの分類に関する。
分子診断の分野において、マイクロアレイデータ及びプロテオミクスデータは、患者を分類する新たな試験を開発するためにますます使用されるようになっている。こうした試験の一例は、"Multiclass classification of microarray data with repeated measurements:application to cancer"by K.Y.Yeung and R.E.Bumgarner,in Genome Biology,2004,4:R83に記載されている。
マイクロアレイデータ及びプロテオミクスデータの分類は、例えば診断と患者の層別化に関連し得る。この分類の根拠とするために、正しいバイオマーカー、例えば正しい遺伝子又はタンパク質のセットを見つけ出すこと、及びこれらのバイオマーカーの測定値を分類に変換する正しい規則を見つけ出すことは、分類精度に大きな影響を及ぼし得るため、最も重要である。バイオマーカーと分類規則が与えられれば、新規の症例が、臨床の場で、又は一般開業医の下で分類されることができる。
マイクロアレイは、サンプルあたり何千もの遺伝子発現レベルを同時に測定する能力を容易にすることによって、生物学者に重要手段を提供する。マイクロアレイ分類の主要な役割の1つは、遺伝子発現測定値のセット、特徴を、所与の標的ラベル、すなわち患者のクラスにマップすることである。人の体温又は人の身長を測定するのとは対照的に、遺伝子発現レベルを測定することは非常に困難であり、費用がかかり、時間がかかる。これは多くの個別手順が実行されなければならない多段階プロセスである。これらの段階のいくつかは、完全に制御されることができない条件を含み、分類結果を信頼できないものにし得る。
改良された生体分子データの分類を持つことが有利である。この問題によりよく対処するために、本発明の第一の態様において、以下を有する分類システムが提示される。
分類されるべきサンプルの複数の数値的特徴の測定値と、複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るための入力部。
各確率密度関数を複数の数値的特徴の各々と関連付けるための統計モジュール。各確率密度関数は各数値的特徴の各誤差推定値に依存する。
サンプルの複数の摂動されたレプリカを生成するための複製モジュール。摂動されたレプリカは摂動された特徴を含む。摂動された特徴を得るために、複数の数値的特徴の各々が、対応する各確率密度関数に従ってランダムに摂動される。
摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、複数の摂動されたレプリカの各々を分類するための分類器。各分類されたレプリカはそれに関連するクラスを持つ。
サンプル分類を得るために、分類されたレプリカの統計解析に基づいて、分類されるべきサンプルを分類するためのアナライザ。
分類されるべきサンプルの複数の数値的特徴の測定値と、複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るための入力部。
各確率密度関数を複数の数値的特徴の各々と関連付けるための統計モジュール。各確率密度関数は各数値的特徴の各誤差推定値に依存する。
サンプルの複数の摂動されたレプリカを生成するための複製モジュール。摂動されたレプリカは摂動された特徴を含む。摂動された特徴を得るために、複数の数値的特徴の各々が、対応する各確率密度関数に従ってランダムに摂動される。
摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、複数の摂動されたレプリカの各々を分類するための分類器。各分類されたレプリカはそれに関連するクラスを持つ。
サンプル分類を得るために、分類されたレプリカの統計解析に基づいて、分類されるべきサンプルを分類するためのアナライザ。
レプリカの数値的特徴が摂動されるので、分類は一般的に全てのレプリカに対して同じであるとは限らない。さらに、レプリカの特徴は、測定された特徴に存在するノイズに起因する確率分布に従って摂動されるため、特定のクラスであると分類されるレプリカの数は、ノイズを考慮して、分類されるべきサンプルがその特定のクラスである確率又は尤度に関連する。従って、アナライザはこの確率を考慮して、改良された分類を提供し、及び/又は分類の信頼性に見通しをつけることができる。
好適には、統計モジュールは誤差推定値に依存して、例えば誤差推定値に比例して、分散を変化させる。
例えば、アナライザは最も高い確率又は尤度を持つクラスをサンプルに割り当てる。これは分類の精度(例えば特異性及び/又は感度)を改良する。
好適には、アナライザはサンプルが特定クラスに属する尤度を示す値を計算するように構成される。これは分類システムのユーザに、分類を信頼することができるかどうかを決定するために使用することができる指標を与える。尤度は、例えば統計的仮説検定の確率値又はp値を用いて示され得る。
好適には、複数の尤度値が計算され、各尤度値はサンプルが各特定クラスに属する確率又は尤度を示す。これは、サンプルが属し得ると考えられるクラスをユーザがよりよく理解することを可能にし、これはさらなる診断が必要かどうかを決定するために使用され得る。
よい分類器を得るために、分類器は各サンプルの複数の摂動されたレプリカを有する訓練データ集合を用いて訓練され得る。
本発明の他の態様は独立クレームに規定される。従属クレームは有利な実施形態を規定する。
本発明のこれらの及び他の態様は、図面を参照してさらに明瞭にされ、説明される。
マイクロアレイデータなどの分子測定に伴う問題の1つは、これらが非常にノイズが多いことである。マイクロアレイデータにおけるこのノイズの源の1つは、ハイブリダイゼーションにおける変動によって与えられる。しかしながら、マイクロアレイ測定は遺伝子発現の指標を与えるだけでなく、とりわけアレイに対するハイブリダイゼーションの差によって導入される誤差の推定値も与える。この誤差推定値は、バイオマーカー発見段階においてある程度使用されており、例えばL.J.van't Veer et al.,"Gene expression profiling predicts clinical outcome of breast cancer",in Nature,415:530‐536,2002(以下:Van't Veer et al.)に記載されるようにフィルタリング前段階において使用されている。
誤差推定値が最終的な分類に使用されない場合、新症例の分類は遺伝子発現測定値のみに基づき、これらの測定値が極めて不正確であるかもしれないということを考慮しない。
一実施形態において、症例は実測値に基づいて、一度だけではなく何度も分類され、毎回、摂動ノイズが所与の誤差推定値に従って加えられる。より詳細にはこれは次のように実行され得る。
通常は、バイオマーカーに使用されるn個の遺伝子と、遺伝子i=1,…,nに対する測定値xiが与えられる。これらの遺伝子測定値は分類器において使用され、これは関数
として見られ、症例のデータ
に対して一度呼び出される。
として見られ、症例のデータ
に対して一度呼び出される。
各測定値xiの誤差推定値がeiによってあらわされる場合、新たな事例
は摂動ノイズを
に加えることによって作られる。こうした新たな事例
すなわちレプリカは、何度も(例えば1000回)作られる。例えば、誤差が正規分布し(マイクロアレイデータでよくあるように)、eiが測定値の推定標準偏差を示す場合、新たな事例は
によって生成され、N(0,ei)は平均ゼロと標準偏差eiを持つ正規分布である。そして分類されたレプリカを得るために、分類器fがレプリカの各々に適用される。分類されたレプリカの結果は1つの結果に組み合わされる。後者に適用されることができる規則は多数決を使用し、特定クラスに分類されたレプリカはそのクラスに対する票をあらわす。加えて、測定誤差によって導入される不確かさの指標を与えるために、各票がどのくらいの頻度で発生したかを示すことができる。そしてこの種の情報は、最終アドバイスにおいて考慮するために臨床決定支援システム(CDSS)において使用されることができる。
は摂動ノイズを
に加えることによって作られる。こうした新たな事例
すなわちレプリカは、何度も(例えば1000回)作られる。例えば、誤差が正規分布し(マイクロアレイデータでよくあるように)、eiが測定値の推定標準偏差を示す場合、新たな事例は
によって生成され、N(0,ei)は平均ゼロと標準偏差eiを持つ正規分布である。そして分類されたレプリカを得るために、分類器fがレプリカの各々に適用される。分類されたレプリカの結果は1つの結果に組み合わされる。後者に適用されることができる規則は多数決を使用し、特定クラスに分類されたレプリカはそのクラスに対する票をあらわす。加えて、測定誤差によって導入される不確かさの指標を与えるために、各票がどのくらいの頻度で発生したかを示すことができる。そしてこの種の情報は、最終アドバイスにおいて考慮するために臨床決定支援システム(CDSS)において使用されることができる。
これらの技術は、マイクロアレイデータに対して使用されることができるだけでなく、測定ノイズに対して推定値が利用可能である限り他のデータに対しても使用されることができる。このノイズは、マイクロアレイ実験における技術的ノイズに起因し得るが、例えば繰り返し実験に基づくノイズモデルからのノイズにも起因し得る。
上記の技術を適用する際、この技術は実測値だけでなく誤差推定値も使用するため、測定誤差が分類結果に影響を及ぼす。さらに、この方法は1つの分類結果だけでなく、異なる結果にわたる確率分布も与えることができる。
図1は生体分子データの分類のための分類システム100の一実施形態を図示する。この分類システム100は測定データを受け取るための入力部を持つ。測定データは、例えば次のうちの少なくとも1つを有し得る。
(a)遺伝子発現データ、
(b)DNA転写産物データ(遺伝子発現だけでなく、細胞に発現され得る、及び細胞の機能に影響し得る他のDNA断片も測定する)、又は、
(c)プロテオミクスデータ(例えばサンプル中の複数のタンパク質の濃度)
(a)遺伝子発現データ、
(b)DNA転写産物データ(遺伝子発現だけでなく、細胞に発現され得る、及び細胞の機能に影響し得る他のDNA断片も測定する)、又は、
(c)プロテオミクスデータ(例えばサンプル中の複数のタンパク質の濃度)
上記のデータタイプ(a)及び(b)は典型的にはマイクロアレイ又はアッセイを用いて測定され得る。データタイプ(c)は典型的には質量分析計を用いて測定され得る。しかしながら、他の種類の測定値もまた使用され得る。
分類システム100の入力部は分類されるべきサンプルの複数の特徴102の測定値を受けとるように構成される。ここで、特徴は例えば(a)、(b)、及び(c)で上記に概説されたデータの種類を有する。例えば、特徴はサンプル中の特定物質の濃度を示す。特徴は特定の遺伝子又はDNA転写産物がどの程度まで発現に達しているかをあらわしてもよい。分類システム100の入力部はまた、複数の特徴の各々の複数の各誤差推定値104を受け取るようにも構成される。これらの誤差推定値は特徴の測定値が信頼されることができる程度の指標を与える。
システム100は各確率密度関数108を複数の特徴の各々と関連付けるための統計モジュール106を有する。確率密度関数108は測定誤差の確率密度関数をあらわしてもよく、この場合確率密度関数は通常、平均ゼロと、誤差推定値に依存する分散を持つ。あるいは、確率密度関数108は特徴自体の確率密度関数をあらわしてもよく、この場合かかる確率密度関数の平均は通常、特徴の測定値に対応し、分散は特徴の誤差推定値に依存する。確率密度関数108の基礎となる確率分布の一般型は全ての特徴に対して同じであり得る。典型的には、正規分布が確率密度関数に対して使用されることができ、分散は各誤差推定値104に依存し、平均はゼロである(又は測定された特徴に対応する)。しかしながら、特に測定値が正規分布でない誤差分布を持つとわかっているときには、他の確率密度関数が使用されることができる。分類システム100の直接的実施においては、独立確率分布が各特徴に対して想定されるが、より高度な実施においては、確率密度関数は多変量で、複数の又は全ての測定された特徴102及び/又は誤差推定値104に依存し得る。
システム100はサンプルの複数の摂動されたレプリカ112、すなわち複数の特徴102の摂動されたレプリカ(及び場合により複数の誤差推定値104の摂動されたレプリカ、誤差推定値が摂動されるかどうかはわからない)を生成するための複製モジュール110を有する。摂動されたレプリカを生成するために、複製モジュール110は対応する各確率密度関数に従って特徴102にランダムに摂動する。これらの各確率密度関数は、統計モジュール106によって特徴と関連付けられる、誤差推定値に基づく異なる分散を持ち得る。上述の通り、直接的実施において確率密度関数は全て同じ種類の分布(例えば正規分布)を持ち得る。摂動されたレプリカは摂動された特徴を有する。
システム100は摂動された特徴に基づいて複数の摂動されたレプリカの各々を分類するための分類器114を有する。分類器は分類されたレプリカ116を得るために所定の分類基準を適用することによって摂動されたレプリカの摂動された特徴を評価する。多くの種類の分類器が当該技術分野において知られている。適切な分類器は、例えば最近傍平均分類器、又はサポートベクターマシンであることができる。
システム100は、サンプルクラス120を得るために分類されたレプリカ116の統計解析に基づいて分類されるべきサンプルを分類するためのアナライザ118を有する。アナライザ118によって実行される統計解析は投票システムを有し得る(例えば最も摂動されたレプリカを持つクラスがサンプル分類となる)。
サンプルが特定クラスに属する尤度を示す値を計算するために、サンプルクラス中のレプリカの百分率が計算されることができる。これはサンプル分類の信頼性の指標を与え、これは、十分な確信を持つ診断を得るために、追加の測定、又は任意の他の診断活動が必要かどうかを決定するためにオペレータによって使用され得る。尤度は例えば確率又はpスコア(信頼基準)であり得る。
アナライザ118はまた、複数の尤度値を計算するように構成されてもよく、各々の尤度値はサンプルが各特定クラスに属する確率、尤度、又は信頼度を示す。これは例えば、クラスのうちの1つがいかなる他のクラスよりもはるかに起こりそうであるかどうか、又は2つ以上のクラスが大体同程度に起こりそうであるかどうかを発見するために使用されることができる。後者の場合、結果の信頼性が下がる可能性があり、それがわかるのはよいことである。またこれは、非常に低い尤度を持つ場合クラスのうちの1つ以上を除外することも可能にする。
さらによい結果をもたらす特に効率的な実施形態において、統計モジュール106は、ゼロ平均と、誤差推定値に比例する標準偏差とに、正規分布を関連付けるように構成される。
分類器114は、各特徴の各誤差推定値に基づいて個々のレプリカの複数の特徴の各々に各重みを加えるように構成され得る。このようにして、より大きな誤差推定値を持つ特徴の影響は、より小さな誤差推定値を持つ特徴の影響に比べて削減される。これは摂動されたレプリカの個々の分類を改良し、非常に大きな誤差推定値を持つ特徴の影響を削減するために使用されることができる。
例えば、分類器が、クラスの各々に対して平均プロファイル(重心)が与えられる最近傍重心法を使用すると仮定する。サンプル(又はより具体的には摂動されたレプリカ)は、異なる重心への距離を計算し、最近傍重心を選ぶことによって分類され得る。そして、分類されるべき患者の特定の測定値が非常にノイズか多い場合、分類に対するこの測定値の影響は距離の計算を修正することによって削減されることができる(例えば特徴は特徴の測定値の推定誤差に反比例する重みで重み付けされることができる)。k近傍法規則が使用される場合、使用された距離測度への測定値の寄与を重み付けすることも可能である。これは分類されるべき患者の測定誤差のみならず、'近傍'の測定値における誤差にも基づき得る。これはマイクロアレイデータに対して使用されることができるが、測定ノイズに対して推定値が利用可能である限り他のデータに対しても使用されることができる。これはマイクロアレイ実験において与えられるような技術的ノイズを含むだけでなく、繰り返し測定に基づくノイズモデルからのノイズも含むことができる。
分類システム100は、例えばマイクロアレイシステム若しくはアッセイ、又は質量分析計などの測定システムの中に組み込まれてもよい。これはまた、ワークステーション、パーソナルコンピュータ、PDAなどといった任意の適切な処理デバイス上で実行されるコンピュータプログラムとして実施されてもよい。好適には処理デバイスはデータリンクを介して(USBなどの直接リンク、又はイーサネット(登録商標)若しくは無線LAN若しくはインターネットなどのネットワークを介して)測定システムに結合される。アナライザの結果は、処理デバイスのディスプレイ又は別々のディスプレイ上に表示されてもよく、これは印刷されるか、又はさらなる処理のために別のソフトウェアモジュール若しくは別のデバイスに伝えられてもよい。例えば、アナライザの出力は臨床決定支援システムの入力であってもよい。こうした臨床決定支援システムは、分類システム100の出力、及び臨床決定支援システムが利用可能であり得る任意の他のデータに基づいて診断を生成し得る。アナライザの出力はまた、コンピュータ支援検出及び/又はコンピュータ支援診断システムにおいても使用され得る。
典型的には、分類器114は信頼できる分類結果を与えるために訓練される必要がある。例えば摂動されたレプリカの利点が訓練手順中にも使用され得る。この目的のため、訓練データ集合生成器と訓練モジュールが提供され得る。これらのアイテムは図には示されていない。分類器114を訓練するために、訓練データ集合生成器は訓練データ集合を生成する。好適には、訓練データ集合生成器は複数の摂動されたレプリカを訓練データ集合に含めるように構成される。例えば、これは複数のサンプルの測定された特徴を含む訓練データ集合から開始する。これらの測定された特徴は例えばマイクロアッセイから得られ、好適にはground truth分類を伴う。各サンプルの測定された特徴は、各サンプルの複数の摂動されたレプリカを得るために何度も複製される。訓練モジュールはこうして生成される訓練データ集合を用いて分類器を訓練するために使用される。訓練後、訓練された分類器は、好適には新たなサンプルの摂動されたレプリカの集合と併せて、新たなサンプルを分類するために使用され得る。
図2は、生体分子データを分類する方法の処理ステップを図示する。この方法は、例えばユーザ入力コマンドに応答して、ステップ200において開始される。ステップ202において測定データが受信される。測定データは、分類されるべきサンプルの複数の特徴102の測定値と、複数の特徴の各々の複数の各誤差推定値104を有する。ステップ204において、各確率密度関数108が複数の特徴の各々に関連付けられる。各確率密度関数の各分散は各特徴の各誤差推定値に依存する。ステップ206において、サンプルの複数の摂動されたレプリカ112が生成される。摂動されたレプリカは摂動された特徴を有する。複数の特徴の各々は、摂動された特徴を得るために対応する各確率密度関数に従ってランダムに摂動される。ステップ208において、複数の摂動されたレプリカの各々は、摂動された特徴に基づいて、かつ所定の分類基準を適用することによって分類される。これは分類されたレプリカ116をもたらす。結果として、各分類されたレプリカはそれに関連するクラスを持つ。ステップ210において、サンプル分類120を得るために分類されたレプリカ116の統計解析に基づいてサンプルが分類される。
かかる方法は、電子回路を用いて、又は、好適には機械可読命令を有するコンピュータプログラムを用いて実施され得る。
図6は、図1のシステム及び/又は図2の方法、及び本文において記載された他の技術を実施するのに適したハードウェアアーキテクチャを図示する。示されたハードウェアアーキテクチャは一例に過ぎない。図はプロセッサ602とメモリ606を示す。コンピュータプログラムはメモリ606(例えばROM又はRAMメモリ)にロードされ得、プロセッサ602は、機械可読命令を用いて規定される、メモリ606に保存されるステップを実行するように構成される。コンピュータプログラムは本文において記載された技術のうちの1つ以上を適用するために必要な機械可読命令を有する。入力604は、データ入力、データ処理、分類の開始、視覚化の制御及び他の結果の出力といった特定の活動をトリガーするために使用されることができる。ディスプレイ612は例えば分類結果を示すための方法を提供する。通信ポート608は、場合によっては上記のネットワークを介して、例えばマイクロアッセイに接続され得る。通信ポート608はまた、例えば決定支援をもたらすために、システム100若しくは方法の出力をさらに処理するデバイスにも接続され得る。あるいは、データは取り外し可能なメディアデバイス610(例えばDVDリーダ又はCD‐ROMリーダ又はフラッシュメモリUSBスティック)を用いて提供されてもよい。取り外し可能なメディアデバイスが書き込み機能を持つ場合(例えばDVD+RW互換である、又はフラッシュメモリUSBスティックである)、分類システム100の最終結果及び/又は中間結果を取り外し可能なメディアにも出力することが可能である。
マイクロアレイは、その個々の測定値において様々な程度の不確かさを持つ、本質的にノイズの多い技術である。マイクロアレイ測定における不確かさの程度は、測定プロセスを乱す異なる原因を定量化しようとするノイズモデルを介して定量化されることができる。これらは例えば信頼区間又はP値の形でマイクロアレイ測定値の変動についての情報を提供する。この情報は発現差異の決定又はタスクのクラスタリングに反映され得る。しかしながら、変動情報は分類問題においても使用され得る。こうした特徴ノイズは特徴選択及び分類に影響を及ぼす。
マイクロアレイはハイブリダイゼーション強度測定を介して間接的に遺伝子発現を測定し得る。測定されたハイブリダイゼーション強度はサンプル中のmRNA量におよそ比例する。おそらくこれらの測定の最も重要な用途は、異なる条件下での遺伝子発現の変化を研究することである。2色アレイにおいて、2つのmRNA源が同じアレイに競合的にハイブリダイズされる。プローブあたり2つの強度測度I1(i,j)及びI2(i,j)が得られ、iはマイクロアレイの指標であり、jは'遺伝子'又は標的配列をあらわす。次式によって与えられる強度測定値の対数比に関心がもたれることが多い。
比率
は倍率変化(fold‐change)と呼ばれる。両強度が等しいとき、xijはゼロであることに留意されたい。ゼロでない対数比は、個々の強度間の測定された強度における変化を反映する。例えば、対数比2は強度I2が強度I1より102=100倍高かったことを示唆する。これらの倍率変化の対数をとることは、さもなければより偏った強度分布を対称的にする傾向があり、例えば
など、アップレギュレーションとダウンレギュレーションを同様に扱うため、いくつかの利点を持つ。
は倍率変化(fold‐change)と呼ばれる。両強度が等しいとき、xijはゼロであることに留意されたい。ゼロでない対数比は、個々の強度間の測定された強度における変化を反映する。例えば、対数比2は強度I2が強度I1より102=100倍高かったことを示唆する。これらの倍率変化の対数をとることは、さもなければより偏った強度分布を対称的にする傾向があり、例えば
など、アップレギュレーションとダウンレギュレーションを同様に扱うため、いくつかの利点を持つ。
先に述べた通り、個々のマイクロアレイ強度測定値は非常にノイズが多い。いわゆる誤差モデルは各強度測定値にその変動についての推定値を与える。結果として、特徴値xijも同様に確率的になる。
2つの先行研究において使用されたデータ集合は、本明細書に開示される技術の性能を評価するために使用される。両研究は全員が乳癌を発症した女性患者のグループを対象とする。Van't Veer et al.における目的は、患者が5年以内に遠隔転移を起こすか否かを予測するために使用され得る、除去された腫瘍組織に存在すると推定される遺伝子発現特性を決定することであった。これらの患者はいわゆるリンパ節転移陰性であった、すなわち診断時には局所リンパ節に腫瘍細胞を持っていなかった。
Van't Veer et al.のデータは78患者の訓練集合と19患者の検証集合を含んでいた。他のデータ集合は"A gene‐expression signature as a predictor of survival in breast cancer"by Van de Vijver et al.,in New England Journal of Medicine,347(25):1999‐2009,Dec.2002,Evaluation Studies(以下:Van de Vijver et al.)に記載されていた。Van de Vijver et al.は、Van't Veer et al.で得られた特性の予後値をさらに検証するために使用された295患者のコホートを扱う。両研究は同じマイクロアレイとプロトコルを使用した、従ってデータはプールされ得る。本研究においては、両研究のデータが78患者の訓練集合と106の検証集合に組み合わされた。注目すべきは、Van de Vijver et al.がリンパ節転移陰性(151)とリンパ節転移陽性(144)の患者両方を含むことである。295症例のコホートが、Van't Veer et al.にも存在する61の訓練症例と3の検証症例を含むため、Van't Veer et al.とVan de Vijver et al.の患者グループは重複する。均質集団を得るために、リンパ節転移陰性の症例のみが考慮される。元の19症例の検証集合は追加の151−(61+3)=87症例を加えて拡大された。これは全部で19+87=106症例を含むより大きな検証集合を提供する。
図3は、分類器を訓練し、訓練された分類器で分類を実行する基本プロセスを図示する。ステップ300においてプロセスが開始される。ブロック301(ステップ302と304を含む)は分類器の訓練に関与するステップを示す。ステップ306は訓練された分類器で分類を実行するステップを図示する。ステップ302において、分類器を訓練するために、訓練データ集合が次のように与えられる。Igは予後良好クラスに属するng患者の集合を示し、Ipは予後不良クラスに属するnp患者の集合を示すものとする。患者iのクラスラベルはLiで示される。ステップ304において、平均良好プロファイルxgと平均不良プロファイルxpが計算される。xiで患者iの発現レベルを含むベクトルを示す。平均良好プロファイルxgと平均不良プロファイルxpは次のように定義される。
xgとxpを定義するこれらの式は、平均良好プロファイルxgと平均不良プロファイルxpを計算するためにステップ304で使用される。
Van't Veer et al.とVan de Vijver et al.によって採用された分類器は、その距離測度としてコサイン相関を用いる最近傍平均分類器である。他の分類器と他の距離測度もまた使用され得る。かかる分類器は、d(xi,xg)によって示されるxiからxgの距離が、d(xi,xp)によって示されるxiからxpの距離よりも小さい場合、患者iを予後良好クラスに分類する。コサイン距離の定義から、発現ベクトルxiを持つ患者iは、次の場合かつその場合に限り、予後良好であると分類され得ることになる。
ここで
と定義する。
と定義する。
方程式1の分類規則は線形分類器をもたらすことに留意されたい。しかしながら、Van't Veer et al.で使用された分類器は、より少ない偽陰性に偏っており、もはや線形ではなくなっているため、少し異なる。ここではかかる非線形分類器もまた使用され得る。ステップ306において、新たなサンプル(訓練データ集合からではない)が方程式1の分類規則(xi Txdif>0)に従って分類される。ステップ306は検証データ集合からのサンプルに対して実行され得る。これはまた、例えば患者の診断を助けるために、サンプルを分類するための分類器の実用中にも実行され得る。
最近傍平均分類器を作るために、平均特徴ベクトルが各クラスに対して決定され得る。こうした特定クラスの平均特徴ベクトルは、その特定クラスのものであるとわかっている特徴ベクトルの集合を平均化することによって得られ得る。新たな特徴ベクトルを分類するために最近傍平均分類器を使用するために、新たな特徴ベクトルから平均特徴ベクトルの各々までの距離が計算され得る。新たな特徴ベクトルは、新たな特徴ベクトルから最小距離を持つ平均特徴ベクトルのクラスに従って分類され得る。
いくつかの理由から、上記の分類は全特徴集合に対してではなく、特徴(又は遺伝子)の選択された部分集合に対してなされ得る。このため、2つの特徴フィルタリングステップ、特徴ランキングステップ、及び分類評価ステップを有する手順が使用され得る。一例として、各々が24,481遺伝子についての報告された発現レベルを持つ、78患者の訓練集合で開始してもよい。
図4は特徴の適切な部分集合を選択するプロセスを図示する。ステップ400においてプロセスが開始される。プロセスは次のように進行する。
ステップ402:3症例よりも多くに対して、少なくとも2倍の変化
と、0.01未満のP値(P値の概念は以下で詳細に説明される)を持つ特徴jのみを選択する。データ集合例すなわち78患者においては、これは削減された4,918特徴の集合をもたらし得る。
と、0.01未満のP値(P値の概念は以下で詳細に説明される)を持つ特徴jのみを選択する。データ集合例すなわち78患者においては、これは削減された4,918特徴の集合をもたらし得る。
ステップ404:ステップ402で選択されたもの(この例では4,918特徴)から、少なくとも0.3のクラスラベルを持つ絶対ピアソン相関を持つ特徴を選択する。この例において、これは特徴集合を231特徴の集合にさらに削減した。
ステップ406:ステップ404で選択された特徴(この例では231特徴)を、ピアソン相関係数の絶対値によって、最高値から始めて最低値へランク付けする。
ステップ408:最近傍平均分類器を、leave‐one‐out法で(leave‐one‐outは当該技術分野で既知の技術である)、ステップ406でランク付けされたトップ5、トップ10、トップ15などの特徴を用いて、評価する。このステップは図3のプロセスを用いて選択された特徴の部分集合に基づいて分類器を訓練し評価することを含む。
ステップ410:最低全誤差率をもたらすステップ408で評価された特徴の部分集合を選択する。このデータ集合例において、これは70特徴になることがわかった。
このデータ集合例において、トップ70の特徴を用いる分類器は、78クラスラベルから65を正確に予測する。図4のプロセスにおいて、ステップ402は測定ノイズについての情報を含む唯一のステップである。
マイクロアレイを介して定量化された遺伝子発現情報を得る上での複雑性要因は、強度測定を妨げ得る多数の異なる原因があることである。加えて、測定誤差は強度依存性であり得、例えば強度測定値が高いほど、高い測定値を持ちやすい可能性がある。多くの統計的検定は各測定値に対して測定誤差が等しいと暗黙的に仮定することに留意されたい。マイクロアレイデータは、この、及び他の一般的な統計的仮定を著しく満たさないことが多い。
いくつかの原因は測定値を系統的に偏らせ、その方向は大体予測可能である。多くの場合、適切な変換のセットを適用することによってこれらの系統的影響を補正することが可能である。例えば、バックグラウンド補正、正規化、及びダイスワップ法が、系統的影響を補正するために開発され得る。
誤差モデルは、系統誤差の補正後にもまだ存在し得る偶然誤差をとらえようとし得る。これらの誤差の正確な値と方向は予測不可能であり得るが、偶然誤差の変動は、調べられ得る特定の規則に従い得る。誤差モデルはこの分散の予測可能な動きをとらえるために構築されることができる。誤差モデルの構築を助けるためにセルフ‐セルフハイブリダイゼーションがしばしば実行される。これらは同じmRNA源が両チャネルにハイブリダイズされるハイブリダイゼーションであり、すなわち、発現差異はなく、全てのゼロではない対数比がノイズの影響である。
マイクロアレイ測定データ用に開発されている誤差モデルの1つは、"Rosetta error model for gene expression analysis"by L. Weng et al.,in Bioinformatics,22(9):1111,2006(以下:Rosetta)である。このモデルの詳細な処理は、本明細書の範囲を超えている。各個々の強度測定値I(i,j)に対して、モデルはその変動σI(i,j)についての推定値を与える。前述の通り、個々のチャネル強度が確率的である場合、特徴値xijも同様に確率的であり得る。個々のチャネル強度の標準偏差は、xijの標準偏差を近似するために使用されることができる(Rosetta論文を参照)。Rosetta誤差モデルの適用後、各測定値は平均xijと標準偏差σijを持つ正規分布した確率としてあらわされ得、σijは測定値xijに対するモデル化されたノイズ情報をあらわす。
2つの異なるサンプルを比べるときには、いくつかの差は測定誤差に起因する可能性があるため、ゼロではない対数比の各々が2サンプル間の遺伝子発現の差に起因すると考えないように注意されたい。各比率xijにいわゆるP値、pijを割り当てるためにσijを使用することが可能である。このP値は、真の対数比がゼロである場合にxijよりも極値である対数比の値を観察する確率の指標であり、一方測定誤差はσijである。従ってpijは、測定誤差を考慮するときに対数比がゼロと有意差があるかどうかを示す。
測定ノイズの影響を解析するためには、それについて可能な限り詳細な情報を持つことが好ましい。あいにく、こうした情報は必ずしも利用可能であるか又は公開されているとは限らない。例えば、Van't Veer et al.においてただ1つの公開されたノイズ情報はP値の形である。誤差モデルが既知であるため、ほとんどの場合に対して対数比上での広がりを推測することが依然として可能であり、平均ゼロと標準偏差σijを持つ正規分布した確率Xijについて、両側P値が次式によって与えられる。
方程式2はxijとpijのほとんどのペアに対してσijの値を提供し得るが、次の2つの場合においては方程式2を用いてσijの値を推定することは容易ではない。
pijが1に等しい場合、方程式2の分母はゼロになり、従って方程式2における除算の結果は定義されない。
xijがゼロに等しい場合、pijの値にかかわらず方程式2は常にゼロを生じる。
pijが1に等しい場合、方程式2の分母はゼロになり、従って方程式2における除算の結果は定義されない。
xijがゼロに等しい場合、pijの値にかかわらず方程式2は常にゼロを生じる。
両方の場合において、σijは保存的にゼロに設定され得る。しかしながらこれは他の解を除外しない。さらに、pijが1に近い、及び/又はσijがゼロに近い状況において丸めの影響が起こり得る。いくつかの場合において、これはσijを非現実的に高くする可能性がある。こうした値が生成されることを防ぐために、σijの値への上限σmaxが適用され得る。
σijによってとらえられる計算されたノイズ情報は、元のデータから修正された発現レベルを生成するために使用され得る。遺伝子発現データを摂動させるために、平均ゼロと標準偏差σijを持ついくつかのガウスノイズが各測定値xijに加えられ、σijは方程式2によって計算される。患者に対して新たな特徴ベクトルを生成するために、誤差が独立しており正規分布に従うことが暗黙的に仮定されていることに留意されたい。しかしながら、異なる特徴の誤差分布は互いに依存し得る。この依存性は、摂動をより現実的にし、最終分類をより正確にするために、修正された発現レベルの生成において考慮され得る。また、クラスラベルは変更されない、すなわちLi mod=Liであることにも留意されたい。新たな発現ベクトルは次の方法を介して生成され得る。
σmaxは摂動が大きくなり過ぎ得ることを避けるために使用され得る。例えば、各サンプルは方程式3を用いて1000回複製され得る。
元のサンプルが2つの異なる分類間の境界付近である場合に、摂動は最も大きな影響を持ち得ることに留意されたい。いくつかの又は全ての個々の症例がノイズの影響を受けるとき、クラス平均も影響され得ることに留意されたい。これが起こるとき、決定境界自体がノイズの影響を受けることになる。
図5は、特徴選択プロセスにおいて個々の特徴における測定ノイズを用いるステップを図示する。ステップ500において特徴選択プロセスが開始される。ステップ502において、2倍の変化と0.01未満のP値を持つ遺伝子が、上述のステップ302のように処理される。ステップ504において、各訓練サンプルi及び特徴jに対して、多数の修正された発現ベクトル(例えば1000の修正された発現ベクトル、1000の代替訓練集合をもたらす)を作るために方程式3が使用される。これらの修正された発現ベクトルは、元の測定値の摂動されたレプリカと称され得る。ステップ506において、(不変の)クラスラベルを持つ各特徴(又は遺伝子)に対してピアソン相関係数が計算される。各遺伝子(又は特徴)に対してこれはピアソン相関係数の分布を与える。ステップ508において、特徴は全レプリカにわたる平均ピアソン相関の絶対値によって順序づけられる。全レプリカにわたる平均ピアソン相関を用いる代わりに、他の統計値、例えば第一四分位数が使用されることができる。ノイズは全症例に対して相関係数の値に影響を及ぼし得る。ステップ510において、ステップ508の順序づけられた特徴を用いて特徴の部分集合が選択される。ステップ510はステップ408‐410と同様である。
例えば図5のプロセスを用いて、特徴選択ステップにおいて特徴ノイズを用いることは、改良された特徴選択を可能にする。通常、異なる特徴に基づいて分類を実行することは、異なる分類結果につながり得るため、この改良された特徴選択は、間接的に個々の症例の分類に対する影響を持つ。しかしながら、一旦分類器が訓練されていれば、分類されるべき新たなサンプルの特徴ノイズが分類にどのように影響し得るかを見ることは興味深い。分類プロセス中に測定誤差の知識を用いることは、分類の精度(特異性及び/又は感度)を改良するため、有利となり得る。分類中に測定誤差を考慮することは、分類結果の確実性の指標を与えることも可能にし得る。
小さな特徴集合が使用される場合、ノイズ摂動に起因する偏位している分類の数が高くなり得ることが実験により示されている。しかしながら、ノイズは分類に含まれる特徴の数にかかわらずいくらかの影響を及ぼし得る。また、いくつかの実験においては、ノイズの影響は分類に含まれる特徴の数とともに単調減少していない。場合によっては、より多くの特徴を加えることが分類を安定化するのに役立つが、ある数の特徴においては、分類は再度ノイズによってより影響を受け始める。
上述の通り、xdifを固定したまま、検証症例の特徴ベクトルxiを複製することが可能である。訓練データからxdifを推定することが可能である。場合により固定された(摂動されない)検証集合を維持したまま、訓練集合を摂動することによって、その結果間接的にxdifを摂動することによって、特徴ノイズの影響を示すことも可能である。訓練データ集合と検証データ集合の両方を摂動することも可能である。ここで、検証集合は実用(例えば患者の診断)のためにサンプルを実際に試験するために使用されるサンプルの測定データと置き換えられ得る。偏位している分類は決定境界を変えることの結果であり得る。この決定境界は、摂動された訓練データに起因して変化した可能性がある。訓練データの摂動はまた、特に小さな特徴集合を用いるとき、分類精度も改良する。
本文で説明した通り、特徴ノイズは特徴選択と分類の両方に影響し得る。意味のある発現値を作るために必要な多くの異なる変換は、ノイズ情報を解析的に組み込むことを困難にする。ノイズモデルを介して発現レベルを摂動することは、これらの問題を回避する。本文においては、発現ベクトルを摂動するためにRosetta誤差モデルが使用された。このモデルは極めて一般的であり、他のマイクロアレイプラットフォームに適用されることができるが、決して存在する唯一の誤差モデルではない。既存の代替案もまた適用され得る。
異なる分類器を用いる実験は、k‐近傍法、サポートベクターマシン、及びランダムフォレストなどの他の分類器も特徴ノイズの影響を受けることを明らかにする。当業者は本文に開示された技術(例えば摂動されたレプリカを用いる分類)がこうした分類器に適用され得ることを理解するだろう。
複製されたデータは、フィッティング手順を制御する、例えばオーバーフィッティングを防ぐ手段として使用されることができる。元のデータで訓練する代わりに、多くの複製されたデータ点を加え、より大きな訓練集合を用いて分類器を訓練することが可能である。こうしたノイズ注入は、Tikhonov正則化と類似し得る。例えば、小さな特徴部分集合を見つけ出すことに集中した局所探索法は、訓練データにおいて多くのゼロ‐誤差パターンを容易に見つけ出す。しかしこれらのパターンは、よく検証しないことが多い。パターンが単なる偶然でデータにフィットする場合、小さな摂動は既に低誤差の分類結果を台無しにしてしまっていることが予測される。そうならば、摂動されたレプリカを含む誤差モデルは、疑似パターンをフィルタ除去するために使用され得る。
本発明は、本発明を実現するのに適したコンピュータプログラム、特にキャリア上又はキャリア内のコンピュータプログラムにも及ぶことが理解される。プログラムは、ソースコード、オブジェクトコード、コード中間ソース及びオブジェクトコードの形式、例えば部分的にコンパイルされた形式、又は本発明にかかる方法の実施における使用に適した任意の他の形式であってよい。かかるプログラムは多くの異なるアーキテクチャ設計を持ち得ることもまた理解される。例えば、本発明にかかる方法又はシステムの機能を実施するプログラムコードは、1つ以上のサブルーチンに分割され得る。これらのサブルーチンに機能を分配する多くの異なる方法が当業者に明らかである。サブルーチンは内蔵型プログラムを形成するために1つの実行ファイルに一緒に保存され得る。かかる実行ファイルは、コンピュータ実行可能命令、例えばプロセッサ命令及び/又はインタプリタ命令(例えばJava(登録商標)インタプリタ命令)を有し得る。あるいは、サブルーチンの1つ以上又は全てが少なくとも1つの外部ライブラリファイルに保存され、静的に又は動的に、例えばランタイムにおいてメインプログラムとリンクされてもよい。メインプログラムはサブルーチンの少なくとも1つへの少なくとも1つの呼び出しを含む。また、サブルーチンは互いへの関数呼び出しを有し得る。コンピュータプログラムに関する一実施形態は、記載された方法の少なくとも1つの処理ステップの各々に対応するコンピュータ実行可能命令を有する。これらの命令はサブルーチンに分割され、及び/又は静的若しくは動的にリンクされ得る1つ以上のファイルに保存され得る。コンピュータプログラムに関する別の実施形態は、記載されたシステム及び/又は製品の少なくとも1つの手段の各々に対応するコンピュータ実行可能命令を有する。これらの命令はサブルーチンに分割され、及び/又は静的若しくは動的にリンクされ得る1つ以上のファイルに保存され得る。
コンピュータプログラムのキャリアはプログラムを保持することができる任意のエンティティ又はデバイスであってよい。例えば、キャリアは記憶媒体、例えばCD‐ROM若しくは半導体ROMなどのROM、又は例えばフロッピー(登録商標)ディスク若しくはハードディスクなどの磁気記録媒体を含み得る。さらキャリアは、電気ケーブル若しくは光ケーブルを介して、又は無線通信若しくは他の手段によって伝達され得る、電気信号若しくは光信号などの伝導可能なキャリアであってもよい。プログラムがこうした信号に具体化されるとき、キャリアはこうしたケーブル又は他のデバイス若しくは手段によって構成され得る。あるいは、キャリアは中にプログラムが組み込まれる集積回路であってもよく、集積回路は関連方法を実行するのに適しているか、又は関連方法の実行における使用に適している。
上述の実施形態は本発明を制限するのではなく例示するものであり、当業者は添付のクレームの範囲から逸脱することなく多くの代替的な実施形態を設計することができることに留意すべきである。クレームにおいて、括弧の間に置かれた任意の参照符号は、クレームを限定するものと解釈されてはならない。"有する"という語及びその活用の使用は、クレームで述べられたもの以外の要素又はステップの存在を除外しない。ある要素に先行する冠詞"a"又は"an"はかかる要素の複数の存在を除外しない。本発明は複数の別個の要素を有するハードウェアを用いて、及び適切にプログラムされたコンピュータを用いて、実施され得る。複数の手段を列挙する装置クレームにおいて、これらの手段のいくつかはハードウェアの1つの同じアイテムによって具体化され得る。特定の手段が相互に異なる従属クレームに列挙されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。
Claims (13)
- 生体分子データを分類するための分類システムであって、
分類されるべきサンプルの複数の数値的特徴の測定値と、前記複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るための入力部と、
各確率密度関数を前記複数の数値的特徴の各々と関連付けるための統計モジュールであって、前記各確率密度関数は前記各数値的特徴の前記各誤差推定値に依存する、統計モジュールと、
前記サンプルの複数の摂動されたレプリカを生成するための複製モジュールであって、前記摂動されたレプリカは摂動された特徴を有し、前記複数の数値的特徴の各々は、前記摂動された特徴を得るために前記対応する各確率密度関数に従ってランダムに摂動される、複製モジュールと、
前記摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、前記複数の摂動されたレプリカの各々を分類するための分類器であって、各分類されたレプリカはそれに関連するクラスを持つ、分類器と、
サンプル分類を得るために、複数の前記分類されたレプリカの統計解析に基づいて、前記分類されるべきサンプルを分類するためのアナライザと、を有する、分類システム。 - 前記アナライザが、前記サンプルが特定クラスに属する尤度を示す値を計算する、請求項1に記載の分類システム。
- 前記アナライザが複数の尤度値を計算し、各尤度値は前記サンプルが各特定クラスに属する尤度を示す、請求項2に記載の分類システム。
- 前記アナライザが、最大数の摂動されたレプリカに関連するクラスを確立するための手段と、前記最大数の摂動されたレプリカを持つ前記クラスに従って前記サンプルを分類するための手段とを有する、請求項1に記載の分類システム。
- 前記各確率密度関数が、前記誤差推定値に基づく各標準偏差を持つ各正規分布であり、前記複製モジュールが、摂動された特徴を得るために前記各正規分布の1つに従って値を生成するための手段を有する、請求項1に記載の分類システム。
- 前記分類器が最近傍平均分類器を有する、請求項1に記載の分類システム。
- 前記分類器が、前記各数値的特徴の前記各誤差推定値に基づいて個々のレプリカの前記複数の数値的特徴の各々に各重み付けを加え、大きな誤差推定値を持つ数値的特徴の影響が、小さな誤差推定値を持つ数値的特徴の影響に比べて削減される、請求項1に記載の分類システム。
- 前記入力部が、
遺伝子発現データと、
DNA転写産物データと、
プロテオミクスデータのうちの少なくとも1つを有する測定データを受け取る、請求項1に記載の分類システム。 - 前記測定データを前記入力部に提供するためのアッセイリーダをさらに有する、請求項1に記載の分類システム。
- 臨床決定支援システムをさらに有し、前記臨床決定支援システムは、前記サンプル分類を受け取り、前記サンプル分類に基づいて診断を提供する、請求項1に記載の分類システム。
- 訓練データ集合を生成するための訓練データ集合生成器であって、前記訓練データ集合生成器は前記訓練データ集合において複数の前記レプリカを含む、訓練データ集合生成器と、
新たなサンプル及び/又は前記新たなサンプルのレプリカを分類するのに適した訓練された分類器を得るために、前記訓練データ集合に対して前記分類器を訓練するための訓練モジュールと、をさらに有する、請求項1に記載の分類システム。 - 生体分子データを分類する方法であって、
分類されるべきサンプルの複数の数値的特徴の測定値と、前記複数の数値的特徴の各々の複数の各誤差推定値とを有する測定データを受け取るステップと、
各確率密度関数を前記複数の数値的特徴の各々と関連付けるステップであって、前記各確率密度関数は前記各数値的特徴の前記各誤差推定値に依存する、ステップと、
前記サンプルの複数の摂動されたレプリカを生成するステップであって、前記摂動されたレプリカは摂動された特徴を有し、前記複数の数値的特徴の各々は、前記摂動された特徴を得るために前記対応する各確率密度関数に従ってランダムに摂動される、ステップと、
前記摂動された特徴に基づいて、かつ、分類されたレプリカを得るために所定の分類基準を適用することによって、前記複数の摂動されたレプリカの各々を分類するステップであって、各分類されたレプリカはそれに関連するクラスを持つ、ステップと、
サンプル分類を得るために、前記分類されたレプリカの統計解析に基づいて、前記分類されるべきサンプルを分類するステップと、を有する方法。 - プロセッサに請求項12に記載の方法を実行させるための機械可読命令を有するコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP08155148 | 2008-04-25 | ||
EP08155148.3 | 2008-04-25 | ||
PCT/IB2009/051628 WO2009130663A1 (en) | 2008-04-25 | 2009-04-21 | Classification of sample data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011520183A true JP2011520183A (ja) | 2011-07-14 |
Family
ID=40791500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011505631A Pending JP2011520183A (ja) | 2008-04-25 | 2009-04-21 | サンプルデータの分類 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8515681B2 (ja) |
EP (1) | EP2272028A1 (ja) |
JP (1) | JP2011520183A (ja) |
CN (1) | CN102016881B (ja) |
RU (1) | RU2517286C2 (ja) |
WO (1) | WO2009130663A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6029683B2 (ja) * | 2012-11-20 | 2016-11-24 | 株式会社日立製作所 | データ解析装置、データ解析プログラム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2732386A1 (en) * | 2011-07-13 | 2014-05-21 | Bio-Rad Laboratories, Inc. | Computation of real-world error using meta-analysis of replicates |
CN103092971B (zh) * | 2013-01-24 | 2016-05-25 | 电子科技大学 | 一种用于脑机接口中的分类方法 |
CN103336842B (zh) * | 2013-07-17 | 2016-10-05 | 山东师范大学 | 一种基于聚类和投票机制的主动学习初始样本选择方法 |
US10489707B2 (en) | 2014-03-20 | 2019-11-26 | The Regents Of The University Of California | Unsupervised high-dimensional behavioral data classifier |
US20170293660A1 (en) * | 2014-10-02 | 2017-10-12 | Hewlett-Packard Development Company, L.P. | Intent based clustering |
US10417192B2 (en) | 2014-11-17 | 2019-09-17 | Red Hat, Inc. | File classification in a distributed file system |
CN104539704A (zh) * | 2014-12-29 | 2015-04-22 | 芜湖乐锐思信息咨询有限公司 | 工业产品在线开发协作系统 |
CN104539705A (zh) * | 2014-12-29 | 2015-04-22 | 芜湖乐锐思信息咨询有限公司 | 基于便捷式客户端的产品协作开发系统 |
US10929774B2 (en) * | 2015-02-12 | 2021-02-23 | Koninklijke Philips N.V. | Robust classifier |
US10803074B2 (en) | 2015-08-10 | 2020-10-13 | Hewlett Packard Entperprise Development LP | Evaluating system behaviour |
KR101747783B1 (ko) * | 2016-11-09 | 2017-06-15 | (주) 바이오인프라생명과학 | 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치 |
CN110647945B (zh) * | 2019-09-27 | 2022-11-22 | 杭州智团信息技术有限公司 | 液基宫颈细胞涂片分类方法、系统和实现装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004344171A (ja) * | 2003-04-24 | 2004-12-09 | Veridex Llc | 乳癌予後予測法 |
WO2005030959A1 (ja) * | 2003-09-25 | 2005-04-07 | Chiba-Prefecture | 神経芽細胞腫予後診断のためのマイクロアレイと神経芽細胞腫予後診断方法 |
WO2006066240A2 (en) * | 2004-12-17 | 2006-06-22 | Veridex Llc | Methods for assessing patients with acute myeloid leukemia |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060287969A1 (en) * | 2003-09-05 | 2006-12-21 | Agency For Science, Technology And Research | Methods of processing biological data |
RU2271560C2 (ru) * | 2004-01-20 | 2006-03-10 | Александр Анатольевич Куклин | Способ оценки состояния многопараметрического объекта (варианты), средство вычислительной техники и носитель данных для осуществления способа |
RU2313828C2 (ru) * | 2005-10-25 | 2007-12-27 | Закрытое акционерное общество "МНИТИ" (Московский научно-исследовательский телевизионный институт) | Способ распознавания изображений |
CN101145171A (zh) * | 2007-09-15 | 2008-03-19 | 中国科学院合肥物质科学研究院 | 一种基于独立分量集成学习的基因微阵列数据预测方法 |
-
2009
- 2009-04-21 RU RU2010147926/08A patent/RU2517286C2/ru active
- 2009-04-21 CN CN2009801145611A patent/CN102016881B/zh active Active
- 2009-04-21 US US12/988,540 patent/US8515681B2/en active Active
- 2009-04-21 JP JP2011505631A patent/JP2011520183A/ja active Pending
- 2009-04-21 EP EP09733854A patent/EP2272028A1/en not_active Withdrawn
- 2009-04-21 WO PCT/IB2009/051628 patent/WO2009130663A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004344171A (ja) * | 2003-04-24 | 2004-12-09 | Veridex Llc | 乳癌予後予測法 |
WO2005030959A1 (ja) * | 2003-09-25 | 2005-04-07 | Chiba-Prefecture | 神経芽細胞腫予後診断のためのマイクロアレイと神経芽細胞腫予後診断方法 |
WO2006066240A2 (en) * | 2004-12-17 | 2006-06-22 | Veridex Llc | Methods for assessing patients with acute myeloid leukemia |
Non-Patent Citations (3)
Title |
---|
JPN6013045766; 鈴木 郁美 外3名: 'テスト性能の分散を考慮したロバストな判別器の選択基準' 電子情報通信学会技術研究報告 Vol.105 No.418, 20051111, pp.25-30 * |
JPN6013045767; 大羽 成征: '遺伝子発現データに基づく予測と推定:言いたいことと言えること' 統計数理 Vol.54 No.2, 2006, pp.405-423 * |
JPN6013045768; Ka Yee Yeung et al: 'Clustering gene-expression data withe repeated measurements' Genome Biology Vol.4 No.5, 20030425, pp.1-17(R34) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6029683B2 (ja) * | 2012-11-20 | 2016-11-24 | 株式会社日立製作所 | データ解析装置、データ解析プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN102016881B (zh) | 2013-06-12 |
WO2009130663A1 (en) | 2009-10-29 |
EP2272028A1 (en) | 2011-01-12 |
CN102016881A (zh) | 2011-04-13 |
RU2517286C2 (ru) | 2014-05-27 |
US8515681B2 (en) | 2013-08-20 |
RU2010147926A (ru) | 2012-05-27 |
US20110040491A1 (en) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011520183A (ja) | サンプルデータの分類 | |
Hanczar et al. | Small-sample precision of ROC-related estimates | |
KR101642270B1 (ko) | 진화 클러스터링 알고리즘 | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
Simon | Development and validation of biomarker classifiers for treatment selection | |
JP2013505730A (ja) | 患者を分類するためのシステムおよび方法 | |
JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
Simon | Resampling strategies for model assessment and selection | |
Yip et al. | A survey of classification techniques for microarray data analysis | |
CN115132273A (zh) | 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统 | |
Tirumala et al. | Classification and diagnostic prediction of prostate cancer using gene expression and artificial neural networks | |
Hossain et al. | An improved method on wilcoxon rank sum test for gene selection from microarray experiments | |
Eng et al. | Discrete mixture modeling to address genetic heterogeneity in time-to-event regression | |
US20090006055A1 (en) | Automated Reduction of Biomarkers | |
Dazard et al. | Cross‐validation and peeling strategies for survival bump hunting using recursive peeling methods | |
KR20210059325A (ko) | 딥러닝을 이용한 암의 예후 예측 모델 | |
Feng et al. | Statistical considerations in combining biomarkers for disease classification | |
Meijer et al. | Model selection for high-dimensional models | |
Zhu et al. | Variable selection in high-dimensional logistic regression models using a whitening approach | |
Tissier | Statistical methods for the analysis of complex omics data | |
Rotolo et al. | High-dimensional, penalized-regression models in time-to-event clinical trials | |
Jonnalagadda et al. | NIFTI: An evolutionary approach for finding number of clusters in microarray data | |
Gillies et al. | Gene expression classification using binary rule majority voting genetic programming classifier | |
Koo et al. | ResidualBind: Uncovering Sequence-Structure Preferences of RNA-Binding Proteins with Deep Neural Networks | |
Strino et al. | VDA, a method of choosing a better algorithm with fewer validations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130912 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140417 |