JP2007504542A

JP2007504542A - 生物学データを処理する方法

Info

Publication number: JP2007504542A
Application number: JP2006525010A
Authority: JP
Inventors: リ，ジニャン
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2003-09-05
Filing date: 2004-09-06
Publication date: 2007-03-01
Also published as: US20060287969A1; EP1661022A1; CN1871595A; WO2005024648A1

Abstract

【課題】本発明は、遺伝子発現のマイクロアレイ解析により得られるデータ等の、大量の高次元生物学データの処理に有用な方法に関する。この方法は、ガン等の疾患の分類、診断及び予後診断に利用可能な規則を提供するのに役立つものである。
【解決手段】本発明の方法は、繰り返して決定木を提供し、訓練データを処理し、規則を生成する。しかしながら、先行技術の方法とは異なり、記載の方法は、ブーストラップデータの使用を避けており、決定木生成工程を繰り返す度に、実質的に全訓練データセットを考慮する。

Description

本発明は、データ処理の技術分野に関する。より詳細には、本発明は、遺伝子発現のマイクロアレイ解析により得られるデータ等の、大量の高次元生物学データ（high-dimension biological data）を処理するのに有用な方法に関する。この方法は、ガン等の疾患の分類、診断及び予後診断に利用可能な規則を提供するのに有用である。

近年、ゲノミクスやプロテオミクスの分野の進歩により、生物科学研究者が利用できる情報が膨大に増加した。マイクロアレイ遺伝子発現プロファイル等の方法は、大量の生体サンプルを非常に迅速にスクリーニングできる。このデータが有用であるのは間違いないが、現在、律速段階となるのは、生データを使用可能な情報に変換することである。

決定木（decision trees）は、生データから意味のある情報を引き出すのによく知られた手法である。決定木は、離散値をとる目標関数の分類用学習関数を表す。決定木における各中間ノードは、ある種類のテストを表し、各枝は、その枝が由来するノードが表す属性に対する特定値に対応する。決定木は、木の根から葉ノードへ移動することにより新規項目を分類する。葉ノードは、その項目に分類をあてがう。決定木は、“もし−なら−他”規則（即ち、ｉｆ−ｔｈｅｎ−ｅｌｓｅ規則）とも見做されることに留意する。即ち、各決定木を、決定木を通る経路の各々における選言(disconjunction)とみなすことができる。ここで、各経路は、個々の事例における属性値を必ず保つ特徴の連言(conjunction)に対応する。

決定木は、分類タスクに特に適している。そこでは、項目を属性値ペアで記述することができ、目標関数は離散値をとっており、訓練データは訓練データラベル又は属性値にノイズを含んでいるかも知れない。明らかに、遺伝子発現データを用いる診断上の問題は、これらの特性に合うものである。各サンプルを、多数の遺伝子（属性）の発現レベル（値）で記述することができる。その目的は、サンプルを離散的な複数のクラス（例えば、急性リンパ性白血病（ＡＬＬ）又は急性骨髄性白血病（ＡＭＬ））のうちの一つに属するものとして分類することである。

決定木を用いる例は、ヒト腫瘍の分類においてである。これは、臨床、病理組織学、免疫組織化学、細胞遺伝学データに基づき、昔から行われている。この分類技術では、類似点を示すけれども重要な側面、例えば臨床経過、治療反応、又は生存面で大きく異なるような腫瘍を含むクラスが与えられる。ｃＤＮＡマイクロアレイを用いる技術は、治療反応又は生存予後に関して、患者のより正確な階層化に道を開いたが、臨床的指標と患者の特異遺伝子発現パターンとの相関についての報告は極めてまれである。その理由の一つは、パターン分類、規則帰納、大規模な遺伝子発現データ内の内部依存の検出に機械学習方法を適応させることは、コンピュータ科学社会にとって未だ大変な課題だからである。

ＣＡＲＴやＣ４．５等のソフトウェア実行方法から決定木を構成し、規則を得ることができる。Ｃ４．５(Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)は、決定木を誘導する発見アルゴリズムである。Ｃ４．５では、どの特徴が最も識別的かを決定するために、エントロピーに基づく選択尺度を用いる。この尺度は、利得比（gain ratio）又は最大情報利得（maximum information gain）とも称される。文献における決定木のほとんどは、Ｃ４．５により構成される。

決定木の構成は、再帰処理である。典型的な処理は、最も識別的な特徴を決定し、その後訓練データを複数の集合に分けることを含む。各集合は、この特徴によって分類されるように、多クラスのサンプル又は単一クラスのサンプルを含むことができる。次に各グループの著しい特徴を選択して、更に多クラスサブセット（集合）を分割する。すべてのサブセットが単一クラスサンプルを含むまで、この処理を再帰的に繰り返す。

集団或いは専門集団又は委員会（committee）における、要素決定或いは委員決定(member decisions)を、投票(voting)することによって、単一木（single trees）の誤差を減らす、アダブースト(AdaBoost)(Freund, Y., & Shapire, R. E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156))やバッギング(Bagging)(Breiman, L(1996). Machine Learning, 24, 123-140)等の、集団意思決定技術或いは委員会決定技術（committee decision techniques）も提案されている(Friedman, J. H., Kohavi, R., & Yun, Y(1996). Proceedings of the Thirteenth National Conference On Artificial Intelligence, AAAI96 (pp.717-724). Portland, Oregon: AAAI Press)(Quinlan, R. J. (1996). Proceedings of the Thirteenth National Conference on Artificial Intelligence, AAAI96 (pp. 725-730). Portland, Oregon: AAAI Press)。本出願人の手法とは異なり、アダブースト及びバッギングは、ベース分類器（例えば、Ｃ４．５）を複数回使用して、ブートストラップ訓練データ（bootstrapped training data）を用いる分類器の集団（committee of classifiers）を生成する。与えられた訓練データセットはＮ個のサンプルを有し、ベース分類器におけるＲ回の繰り返し又はトライアルが行われると仮定する。バッギング案により、各トライアルｔ＝１，２，．．．，Ｒについて、ブートストラップ訓練セットを元データから生成する。この新たな訓練セットは、元データと同じサイズであるが、この新たなセット中には、もはや現れることのないサンプルがあってもよく、一回よりも多く現れるサンプルがあってもよい。ブートストラップ訓練セットＢを、Ｂ_１，Ｂ_２，．．．，Ｂ_ｒとして示す。各Ｂ^＊に対して、分類器Ｃ_ｔが構成される。最後のバッギング分類器Ｃ^＊は、Ｃ_１，Ｃ_２，．．．，Ｃ_Ｒを集計することで構成される。Ｃ^＊の出力は、そのサブ分類器により最も頻繁に予測されたクラスであり、その結びつきは任意に断絶される。

バッギングと同様、ブースティングも、投票による分類に、分類器の集団（committee of classifiers）を用いる。ここでは、分類器の集団の構成が異なる。即ち、バッギングでは個々の分類器を別々に構成するが、ブースティングでは、新しい分類器が夫々前回構成された分類器の性能の影響を受けるように、分類器を順番に構成する。このようにして、新たなモデルを、難解な問題を分類する専門家に仕立て上げる目的で、前回のモデルで間違って分類されたサンプルを新たなモデルで強調することができる。この二つの集団技術における更なる違いは、ブースティングでは個々の分類器性能に応じて該個々の分類器の出力に重み付けをするが、バッギングでは全集団の要素に等しく重みをおくことである。アダブースト(Freund, Y., & Shapire, R. E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156))は、ブースティング概念の良い一例を示す。

イマージングパターン(emerging pattern)(Dong, G & Li, J (1999). Proceedings of the Fifth ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (pp.43-52). San Diego, CA: ACM Press)は、生物医学データから有効な規則を発見するために重要な概念であることが示された(Li, J & Wong L. (2002). Bioinformatics, 18, 725-734)。(Li et al., (2004); Bioinformatics, 19, 71-78)。しかしながら、そのパターン特有の複雑さのために、イマージングパターンのマイニングアルゴリズムは、高次元データ（例えば、１００以上のデータ次元）に利用される際にはあまり効率的ではない可能性がある。

Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann Freund, Y., & Shapire, R. E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156) Breiman, L(1996). Machine Learning, 24, 123-140 Friedman, J. H., Kohavi, R., & Yun, Y(1996). Proceedings of the Thirteenth National Conference On Artificial Intelligence, AAAI96 (pp.717-724). Portland, Oregon: AAAI Press Quinlan, R. J. (1996). Proceedings of the Thirteenth National Conference on Artificial Intelligence, AAAI96 (pp. 725-730). Portland, Oregon: AAAI Press Dong, G & Li, J (1999). Proceedings of the Fifth ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (pp.43-52). San Diego, CA: ACM Press Li, J & Wong L. (2002). Bioinformatics, 18, 725-734 Li et al., (2004); Bioinformatics, 19, 71-78

これらの先行技術の方法における課題は、それらが頻繁に不当な予測へ回帰することである。この先行技術における課題を克服又は軽減するために、本発明の態様は、疾患の特徴付け、予後診断及び診断において、比較的簡単で正確な規則を規定する方法を提供する。

本明細書に含まれる書類、行為、材料、装置、物品等に関する説明は、単に、本発明に背景或いは文脈（context）を提供するためのものである。いずれの又はすべてのこれらの事項は、本出願の優先日以前に存在していたので先行技術ベースの一部を形成した、或いは本発明に関連する分野における周知の一般的知識であった、ということを示唆又は断言するものではない。

第１の態様において、本発明は、生物学データの解析に有用な規則を識別する識別方法であって、複数の特徴を有する訓練データセットを提供する提供工程と、前記データセットを用いて決定木を生成する生成工程と、を備え、前記訓練データセットは、前記決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法を提供する。

第２の態様において、本発明は、生物学データの解析に有用な二以上の規則を識別する識別方法であって、複数の特徴を有する訓練データセットを提供する提供工程と、根ノードとして前記データセットの一つの特徴を有する第１決定木を生成する生成工程と、前記第１決定木から一の規則を得る獲得工程と、前記根ノードとして、その他の決定木で先に用いられていない前記データセットの特徴を有する一又は複数の決定木を生成する生成工程と、一又は複数の決定木の夫々から更なる規則を得る獲得工程と、を備え、前記訓練データセットは、少なくとも一の決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法を提供する。

好ましくは、前記二以上の決定木の夫々は、前記データセットにおける実質的に同じ特徴を考慮する。或いは、前記二以上の決定木の夫々は、前記データセットにおける実質的に同じ数の特徴を考慮する。

他の態様において、本発明は、本発明の識別方法を実行することができるコンピュータ実行可能プログラムも提供する。

他の態様において、本発明は、本発明の識別方法に従って作成される一又は一組の規則も提供する。

他の態様において、本発明は、本発明の識別方法を備えた、患者の疾患を分類し、特徴付けし、診断し、又は予後診断する方法も提供する。

本明細書の説明及び特許請求の範囲において、「備え、備える又は備えて(comprise)」とその変形（例えばcomprising及びcomprises等）は、その他の添加物や構成要素、整数、又は工程を排除するものではない。

出願人は、ここに記載の方法がＣ４．５、バッギング、ブースティング、ＳＶＭ、及びｋ−ＮＮと比較して精度面で非常に優位であることを示した。この方法は、生データを知識へ変換する際に役立つ非常に分かりやすい規則も提供する。

出願人の方法は、元の訓練データの管理において先行技術の集団分類器とは異なっている。バッギングやブースティングは、木を繰り返して構成する度に、ブートストラップ訓練データを生成する。好ましくは、出願人の方法は、決定木を生成する全工程の間中、元データのサイズ及び／又は特徴の値は、実質的に変えられない。結果として出願人の規則はより正確に元データの本質を反映することとなるが、ブートストラップ訓練データを使用するために、元の訓練データに適用される際にバッギング又はブースティング規則が成立しない場合もある。

ここで用いられるように、規則の一例は、予測項を有する一組の条件である。本発明の好適な実施例においては、その条件は連言条件である。本発明に関連する規則の概して好ましい形態の例を次に表す。

条件１かつ条件２かつ．．．条件ｍならば、予測項である。
（If cond₁ and cond₂ and ... cond_m, then a predictive term）
規則の予測項は、単一クラス（例えば、ガンの特定サブタイプ）に関するものであることが多い。本発明の一の形態では、規則における全条件は、前記予測クラスの少なくとも一つのサンプルにおいて成立することが必要であるが、前記予測項における前記クラス以外のクラスのサンプルにおいて、必ずしも成立することは必要でない。

ｍ個の条件における数は、５程度以下であることが好ましい。理想的には、ｍ＝１、２又は３の規則が、臨床診断には最良である。

一例として、次の規則(Li et al (2003), Bioinformatics, 19, 71-78)は、小児白血病細胞の遺伝子発現プロファイルに関する二つの条件を含んでいる。

40454_atの発現が8280.25以上、
かつ41254_atの発現が6821.75以上ならば、
このサンプルはサブタイプE2A-PBX1である。

E2A-PBX1以外の白血病サブタイプのいずれの細胞も、この規則を満足しないが、E2A-PBX1クラスのサンプルの１００％は、夫々、遺伝子発現プロファイリングに関する二つの条件をどちらも満たす。従って、臨床診断には有用である。

決定木は、熟練した当業者に知られた任意の方法により生成されてよい。最も便利な方法は、ＣＡＲＴ、Ｃ４．５、ＯＣ１、ＴｒｅｅＡｇｅ、Ａｌｂｅｒｏ、ＥＲＧＯ、ＥＲＧＯＶ、ＴＥＳＳ及びeＢｅｓｔＭａｔｃｈ等の多数の利用可能なソフトウェアパッケージの一つを用いて行われる。

当然ながら、本発明の方法は、単一決定木の生成に対してのみ考慮されるものではない。本発明の一の形態は、木の「集団」を提供するために、一よりも多い木の生成に頼るものである。木は、そのすべての葉が規則に対応する規則の集まりであるので、複数の木は多数の重要な規則を含むことができる。複数の木を用いると、先行技術の方法で示される単一カバレッジの制約がこわされ、同一の訓練データを、多数の重要な又は重要でない規則で説明することが可能となる。本発明の手法は、一の決定木における互いに排他的な規則が、特徴における多数の相互作用を断ち切るので有利である。驚いたことに、発明者等は、異なる面から多数の相互作用を捉えることができる重要な規則を複数の木が含む、ということを発見した。従って、この複数の交差支持型規則(cross-supportive rules)は予測力を増加させる。

ここに記載の方法は、基本的に、バッギング(Breiman, L (1996). Machine Learning, 24, 123-140)やブースティング(Freund, Y., & Shapire, R.E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156))等の、最先端の集団方法とは異なる。先行技術とは異なり、この方法は、ブーストラップ又は擬似訓練データの代わりに、元の訓練データを用いて一連の異なる決定木を構成する。このように複数の決定木を用いて得られる規則は、元の訓練データの本質をより正確に反映する。一方、バッギング又はブースティングにより作成した規則は、時々真の規則を近似するだけであるので、元データに適用される際に正しくない可能性がある。

熟練した当業者は、試行錯誤により、生成されるべき決定木の有効数について決定することが可能であろう。本発明の好適な実施例では、この方法において約２０の決定木が生成される。

本発明の特徴は、木の集団における決定木は、夫々、先行技術の方法よりも多くの数の特徴を考慮することである。好ましくは、前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約２５％を考慮する。より好ましくは、前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約５０％を考慮する。より好ましくは、前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約７５％を考慮する。

本発明の非常に好ましい形態では、前記二以上の決定木の夫々は、前記データセットの実質的にすべての特徴を考慮する。本発明のこの形態では、すべての元の特徴は、規則を作る際の選択用に、利用可能となっている。よって、この方法では、いくつの上位特徴を分類モデルに用いるべきかという難解な古典的問題を避けている。重要な規則は、下位特徴を含んでいることが多く、これらの特徴は分類器が完全な精度に達するために必要な場合もあることが分かった。従来のように、特別な番号の上位特徴のみを用いる場合は、重要な規則の多くが見逃されたり、又は正確でなかったりする。

好ましくは、前記二以上の決定木の夫々は、前記データセットの実質的に同じ特徴を考慮する。或いは、前記二以上の決定木の夫々は、前記データセットの実質的に同じ数の特徴を考慮する。

本発明の好適な実施例では、前記二以上の決定木はカスケード表示される。複数木の集団は、カスケード手法を用いて構成されてよい。まず、すべての特徴をその利得比に従ってリストに並べる(Quinlan, J.R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)。その後、前記根ノードとして第１位特徴を用いて前記第１の木が生成され、前記根ノードとして第２位特徴を用いて前記第２の木が生成され、以下同様である。一般に、根ノードとして第k位特徴を用いてk番目の木が生成される。

本発明の方法が多数の規則を提供し、またそのうちの幾つかが重要であることは明らかであろう。従って、この方法の更なる工程は、重要な規則を得るために、少なくとも二つの得られた規則の精度を比較することを備えていてよい。もちろん、これを行うためには、訓練データセットは、任意の与えられた規則の精度を決定するために検証された結果を含んでいなければならない。好ましくは、前記訓練データセットとの比較により、前記規則の精度を比較する。また、独立に検証された結果を有するテストデータセットを用いることにより、得られた規則の精度を比較してよい。

好ましくは、前記比較は、前記データセットのカバレッジに基づく前記規則の重み付けを含む。一の規則は、カバレッジ、即ち、その規則を満足させるクラス内のサンプルの百分率を有している。一のクラスが１００個の正サンプルからなり、一の規則がそのうち７５個により満足される場合、この規則のカバレッジは７５％である。当業者は、重要な規則に最も興味をもっているであろう。重要な規則とは、大きなカバレッジ、例えば少なくとも５０％のカバレッジを有する規則である。

分類用に公知サンプル又はテストサンプルが与えられると、この方法は、テストサンプルが満足する集団のｋ番目の木における規則を重み付け方式で投票(voting)することにより、最終決定を下してよい。規則に重みを割り付ける一つの方法は、元の訓練データにおけるカバレッジに基づく方法である。即ち、各規則は、この規則を満足するクラスにおける訓練サンプルの最高百分率により重み付けされる。この重み付け方法は、重要な規則と重要でない規則の区別をつけるので、これらの規則は全て、その比例的役割に従って、最終投票に寄与することとなる。

バッギング及びブースティングとは異なることに加え、出願人の方法は、ランダム決定木(randomized decision tree)(Dietterich, T.G. (2000). Machine Learning, 40, 139-158)と称される別の投票方法とも異なるものである。このアルゴリズムは、木の各中間ノードにおいてどの分割(split)を導入するかに関する決定を無作為に行う、Ｃ４．５学習アルゴリズムの変形型である。その後、異なる無作為の選択を行って、新たな木を構成する。一つの特徴に対して、２０個の最良分割（利得比に関して）を無作為選択のプールとみなした(Dietterich, T.G. (2000). Machine Learning, 40, 139-158)。この方法で構成したランダム木の集団のすべての要素(member)は、常に、同じ根ノードの特徴を共有する。要素間における唯一の違いは、それらの中間ノードにおいてである。一方、集団における出願人の木は、根ノードにおいてだけではなく、中間特徴においても互いに異なるものである。出願人の木の集団は、ランダム木よりもはるかに多様性である可能性がある。

ここに記載の方法を実施する際に、重要な規則がしばしば下位特徴を含むことに気づくことが多い。これは、先行技術により発見した規則では見られないことである。例えば、出願人は、５０個の腫瘍細胞と５０個の正常細胞からの発現プロファイルからなる前立腺疾患データセットから、重要な規則を発見した(Singh et al (2002), Cancer Cell, 1, 203-209)。

32598_atが２９以上、かつ33886_atが１０以上、かつ34950_atが５以下ならば、
これは腫瘍細胞である。

この規則は、腫瘍クラスにおいて９４％（４９／５２）のカバレッジを持つ、重要な規則である。上記規則で規定された３個の特徴の順位を考慮すると、遺伝子32598_atは第１位であるが、他の二つの遺伝子は、１２６００の遺伝子の組において第２１０位（遺伝子33886_at）及び第２６６位（遺伝子34950_at）と、全体的に下位に順位付けられている。

この順位は、利得比、信号ノイズ測定、時間統計（即ち、ｔ−統計或いはt-statistics）、エントロピー、及びX^２測定からなる群から選択される方法を用いて決定されてよい(Liu, H & Motoda, H (1998) Feature selection for knowledge discovery and data mining, Boston MA: Kluwer Academic Publishers)。実際に、本方法により得られる利益が、用いられた順位付け方法のアーチファクトではないことを検証するために、信号ノイズ比、時間統計、エントロピー、及びX^２測定等の、メトリクスに関して代替の順位付けを用いた。図１は、各種順位付け方法を用いた三つの遺伝子の順位を示している。遺伝子の順位は、異なる方法を用いる場合でも一致することが概して分かった。従って、この実施例は、非常に下位の遺伝子でさえも重要な規則に含むことができることを示している。

第２実施例として、出願人は、前述の同じ前立腺腫瘍データセットから発見した別の重要な規則を提示した。これは正常クラスにおいて支配的である。

32598_atが２９よりも大きく、かつ40707_atが−６より大きいならば、
これは正常細胞である。

この規則は、正常クラスにおいて８２％（４１／５０）のカバレッジを持っており、重要である。これら二つの遺伝子の順位は次の通りである。遺伝子32598_atは第１位であるが、その成分遺伝子の40707_atは、第１０００位以下と、全体的に下位に位置付けられている。

好ましくは、利得比又はエントロピーに従って、前記データセットにおける全特徴の順位付けを行うことにより、前記決定木の根ノードを規定する。二クラスのサンプル（正又は負）を有するデータセットのペアが与えられると、この二クラスを区別する特徴の識別力を、その利得比(Quinlan, J.R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)、又はエントロピー(Fayyad, U & Irani, K. (1992). Machine Learning; Proceedings of the Thirteenth International Conference on Artificial Intelligence (pp. 104-110). AAAI Press)によりおおよそ測定することができる。エントロピー法では、収集したすべてのサンプルの特徴の下で、クラス分布(class distribution)を測定する。その分布、例えばｘ腫瘍サンプル及び正常サンプルに対する遺伝子の発現レベルは、腫瘍クラスと正常クラスの境界を明らかに示す。この特徴は小エントロピー値を割り当てられる。小エントロピー値は、この単一の特徴による二クラスの識別に対して低い又はゼロの不確定性を示し、よってこのような特徴は上位に位置付けされる。

好ましくは、前記根ノードとして第１位特徴を用いて前記第１の木を生成し、前記根ノードとして第２位特徴を用いて前記第２の木を生成し、以下同様である。前述のように、幾つかの上位特徴を、繰り返して、新たな木の根ノードとすることで、木の集団を構成する。また、第２位が最良であり得るという出願人の考えに従ったその他の種類の木の集団を構成する別の方法もある。

本発明の一の代替形態では、第２レベルのノードを順位付けに基づいて選択することができる。すべてのノードに対してｋ個の特徴の選択（通常、上位ｋ特徴）が可能であるとすると、ｋ本の木の集団を、その木がｎ個のノードを有する場合に構成できる。仮に、最初の二つのレベルにおいてのみ（根レベルとその直後の子レベル）、ノードに対してｋ個の特徴の選択が可能であるとすると、ｋ＝３のときに２７本の木を得ることができる。この手法では、全体的に根ノードレベルにおいて、又は局所的に子ノードのレベルにおいて、上位の遺伝子に注目している。

本発明の他の代替形態では、前回の木を構成した後に一の特徴を削除することで、減少した訓練データをその後に続く木で用いる。この手法の一例として、すべての元データを用いて第１の木を構成する。その後、Ｃ４．５により最重要特徴として理解されていた特徴を元データから削除する。そして、Ｃ４．５を減少データに適用して第２の木を生成した。以下同様に行った。

本方法を先行技術と組み合わせることで精度を向上できるかを検討する。例えば、Ｃ４．５は発見的方法であるので、全ての重要な規則の発見に対する出願人の答えは、まだ不完全である。他方、イマージングパターン法では、データ次元がそれほど高度でなければ、この不完全問題を解決することができる。イマージングパターン法とＣ４．５ヒューリスティックスを組み合わせると、最適な答えにより近い近似が得られる可能性がある。

好ましくは、生物学的データ又は訓練データセットは高次の情報（high-dimensional information）である。ここで用いられるように、「高次の情報」とは、約１００以上の要素を含む情報という意味である。「生物学的データ」は、哺乳類、爬虫類、昆虫、魚、植物、細菌、酵母、ウイルス等の有機物から得られる任意の情報を含む。この情報は、転写情報又は翻訳情報等の遺伝子発現情報を含む。この情報は、サイズ：電荷比等の質量分析情報であってもよい。

好ましくは、生物学的データ又は訓練データセットは、マイクロアレイ装置又は質量分析計から得られる。

本発明の方法がコンピュータ実行可能プログラムの形態で実施されるか検討した。当業者は、当技術分野で周知の多数のプログラム言語のうちの一つで、ここに記載の方法を実施することができるであろう。このような言語は、Ｆｏｒｔａｎ、Ｐａｓｃａｌ、Ａｄａ、Ｃｏｂｏｌ、Ｃ、Ｃ^＋＋、Ｅｉｆｆｅｌ、ＶｉｓｕａｌＣ^＋＋、ＶｉｓｕａｌＢａｓｉｃ又はこれらの派生物等を含むが、これらに限定されない。このプログラムは、揮発性の形態で（例えば、ランダムアクセスメモリ）、又は磁気記憶装置（ハードドライブ等）等のより不変の形態で、或いはＣＤ−ＲＯＭ上に記憶されてよい。

他の態様において、本発明は、ここに記載のコンピュータ実行可能プログラムを含むコンピュータを提供する。当業者は、中央演算処理装置（ＣＰＵ）の選択は、実施すべき状況の複雑さによるものであることを理解しているであろう。好ましくは、中央演算処理装置は、Ｐｅｎｔｉｕｍ１、Ｐｅｎｔｉｕｍ２、Ｐｅｎｔｉｕｍ３、Ｐｅｎｔｉｕｍ４、Ｃｅｌｅｒｏｎ、ＭＩＰＳＲＩＳＣＲ１００００又は更によいものを含む群から選択される。

他の態様において、本発明は、ここに記載の識別方法に従って作成される一又は一組の規則を提供する。

更なる態様において、本発明は、ここに記載の識別方法を備えた、患者の疾患を分類し、特徴付けし、診断し、又は予後診断する方法を提供する。

他の態様において、本発明は、ここに記載の識別方法を備えた、疾患に含まれる生物学的過程を識別する識別方法を提供する。マイクロアレイ実験において特異的に発現した遺伝子は、アップストリーム原因の遺伝子であってよいし、又は単にダウンストリーム代替(surrogates)であってもよい。代替遺伝子(surrogate gene)の発現は、原因遺伝子の発現に強く相関するべきであり、故に同様の識別力を有し、同様の順位であるべきであうことに留意する。従って、重要な規則が上位遺伝子と下位遺伝子との両方を含む場合、これらの遺伝子は独立した活性化経路を有しており、よって、少なくとも二つの遺伝子が原因となることが疑われるであろう。この驚くべき発見は、小児白血病データセット (Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)、肺ガンデータセット（Gordon et al, (2002). Cancer Research, 62, 4963-4967)、卵巣疾患データセット(Petricoin, E.F., et al., (2002) Lancet, 359, 572-577)等の多くの他データセットにおいて観察されている。

本発明はガン以外の疾患の調査に用いられてよいことは理解できるであろう。関連する生物学的データが得られるいずれの疾患も、本発明で用いることができるかを検討する。

ここで、次の限定されない実施例を参照して本発明を更に説明する。

次の実施例では、本発明の方法の性能を、先行技術であるバッギング及びブースティング方法、並びに多様な発現データに関するサポートベクトルマシン（ＳＶＭ）(Burges (1998). Data Mining and Knowledge Discovery, 2, 121-167)及びｋ−最近傍法と比較する。該多様な発現データには、小児白血病遺伝子発現データ(Yeoh, E-J., et al. (2002). Cancer Cell 1, 1330143)、卵巣腫瘍プロテオームデータ(Petricoin, E. F., et al., (2002) Lancet, 359, 572-577)、及び他のデータ(Armstrong et al., (2002), Nature Genetics, 30, 41-47)が含まれる。これらのデータはすべて出願人の補足ウェブサイト(http://sdmc.lit.org.sg/GEdatasets)にグループ化されている。

結果を二つの尺度に基づき報告する。即ち、独立したテストサンプルに関する誤分類の数であるテストエラー番号と、１０分割交差検定のエラー番号である。エラー番号がｘ：ｙの形で表される場合、それは、第１クラスからのｘ個のサンプルと第２クラスからの任意の個数のサンプルが誤分類されたことを意味する。バッギング及びブースティングで用いる繰り返しの数は、２０と設定した。これは出願人の方法で使用される木の数と同じである。実験で用いた主なソフトウェアパッケージは、We/ca version 3.2であり、そのジャバで記述されたオープンソースは、ＧＮＵ；一般公衆利用許諾契約書(General Public License)の下、http://www.cs.waikato.ac.nz/ ~ml/weka/で利用可能である。
（実施例１：プロテオミクスによる卵巣腫瘍患者及び正常患者との分類）
まず出願人は、（ＤＮＡ発現の代わりに）血清プロテオミックパターンを用いた卵巣ガンと非ガンの区別の仕方に関する最近の卵巣データセット(Petricoin, E. F., et al., (2002) Lancet, 359, 572-577)について評価した。質量分析により生じたこのプロテオミックスペクトルデータは、http://clinicalproteomics.steem.comに載せている。このサイトには同様のデータセットが幾つかある。本実施例には、最も大きいデータセット（日付6-19-02）を選択した。このデータは総数２５３個のサンプル（９１個のコントロール（非ガン）と１６２個の卵巣ガン）を有する。各データサンプルは、１５１５４個の特徴で記述される。即ち、質量電荷比（M/Z)１５１５４における、強度の相対振幅で記述される。

各特徴に対して、すべての値（強度）を次式NV=(V-Min)/(Max-Mm)を用いて２５３個のサンプルについて正規化した。但し、NVは正規化数、Vは生の値、Mmは与えられた特徴における最小強度、Maxは最大強度である。正規化データは、出願人の補足ウェブサイト(http://sdmc.lit.org.sg/GEdatasets)に載せている。

元のデータセットは、テストデータセットを別に含んでいない。そのようなものとして、１０分割交差検定を用いて全データセットについて出願人の方法を評価した。その性能を図６にまとめた。本発明の方法は、Ｃ４．５族アルゴリズムのすべてと比べて著しく良好であることが分かる。即ち、１０又は７個の誤りを、総数２５３個のテストサンプルにおいてエラーの無い性能にまで減少させており、血清プロテオミックデータに基づく卵巣ガンに対して非常に優れた診断精度を生み出している。

更なる比較として、ＳＶＭ及び３−最近傍法を用いて、同じく１０分割交差検定を実施した。ＳＶＭもまた１００％の精度に達した。しかしながら、ＳＶＭは、決定の際に４０個のサポートベクトルと８３０８個のカーネル評価とともに、１５１５４個の入力特徴のすべてを用いた。このシステムにより下される任意の診断決定について、理解できる説明を導きだすのは難しい。一方、出願人の方法は、２０個の木と１００未満の規則のみを用いた。他の非線形分類器や３−最近傍法には、１５個の誤りがある。

特別な番号の或いは臨機応変の、上位特徴のみを分類モデルに用いる場合は、結果はどうなるであろうか。上位１０、２０、２５、３０、３５又は４０位にエントロピー順位付けされた特徴のみを用いる場合、サポートベクトルでは完全な精度に達することはできないであろう。また、出願人の方法も完全な１００％の精度に達することはできないであろう。ｋ−最近傍法、Ｃ４．５族アルゴリズム、又は単純なベイズ等の他のすべての分類器についても同様である。従って、出願人のアルゴリズムとサポートベクトルマシンは、すべての特徴空間を考慮する際、１００％精度に達することができるので、削除した閾値をこれらの特別な番号の一つに設定した場合は、分類アルゴリズムはこのデータセットにおいて完全な精度を逃すことになるであろう。実際、第３０００位以下に順位付けされた下位特徴を幾つか用いた。このような比較結果は、分類器が完全な性能を得るためには、幾つかの下位特徴が必要であることを示している。出願人の方法で用いられたように、全特徴を考慮に入れること（大抵は最終規則には従わないであろうが）は、上位特徴のみを用いるという考え方よりも柔軟な考え方である。
（実施例２：遺伝子発現による小児白血病のサブタイプ分類）
児童の急性リンパ性白血病（ＡＬＬ）は１種類ではない疾患(heterogeneous disease)である。白血病の正しいサブタイプを識別する現在の技術は、不明確で費用の高いプロセスであり、通常は、単一の病院に集まっていない多くの専門家からの専門的知識を結びつけることが必要である(Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)。マイクロアレイ遺伝子発現技術と教師付き分類(supervised classification)アルゴリズムとを用いることで、診断費用を減らし、かつ診断と予後診断の精度が増すように、この問題を解決することができる。

小児白血病のサブタイプ分類は、以前から総合的に研究されてきた。その全データは、３２７個のＡＬＬサンプルの遺伝子発現プロファイルからなる。これらのプロファイルは、１２５５８個の遺伝子に対するプローブを含むＡｆｆｙｍｅｔｒｉｘＵ９５ＡＧｅｎｅＣｈｉｐにおいて、ハイブリダイゼーションにより得た。このデータは、すべての公知の急性リンパ性白血病のサブタイプを含み、Ｔ細胞（Ｔ−ＡＬＬ）、Ｅ２Ａ−ＰＢＸ１、ＴＥＬ−ＡＭＬ１、ＢＣＲ、ＡＢＬ、ＭＬＬ、及びｈｙｐｅｒｄｉｐｌｏｉｄ（Ｈｙｐｅｒｄｉｐ＞５０）を含む。このデータを、２１５事例の訓練セットと１１２サンプルの独立テストセットとに分けた。Ｔ−ＡＬＬ、Ｅ２Ａ−ＰＢＸ１、ＴＥＬ−ＡＭＬ１、ＢＣＲＡＢＬ、ＭＬＬ、及びＨｙｐｅｒｄｉｐ＞５０に対して、夫々２８、１８、５２、９、１４、及び４２の訓練事例があり、また夫々１５、９、２７、６、６、及び２２のテストサンプルがある。他のハイブリッド型サブタイプには、５２の訓練事例と２７のテストサンプルがある。

元の訓練データ及びテストデータを、木構造で層状にした。図７に、６レベルの木構造データを用いた、４個の分類モデルにおけるテストエラー番号を示す。出願人のテスト精度はＣ４．５やブースティングと比べて非常に良好であり、またバッギングよりも優れていた。ＳＶＭは、１１２テストサンプルの同セットに２３個の誤りがあったが、３−最近傍法では２２個の誤りを生じた。従って、これらの精度は約８０％である（これは出願人の精度９４％をはるかに下回っている）。加えて、ＳＶＭモデルは非常に複雑で、何百ものカーネルベクトルと、何万ものカーネル評価とからなる。一方、出願人の規則は、カバレッジ（coverage）が非常に高い３又は４個の特徴を含むのみである。よって規則を容易に理解できる。

全データセットにおいて各サブタイプを他のすべてのサブタイプからうまく区別する方法を見るために、１０分割交差検定による結果も報告する。結果を図８に示す。この場合でも、出願人の方法は、Ｃ４．５アルゴリズム族や３−最近傍方（３−ＮＮ）よりも性能が優れており、ＳＶＭと同等の性能を示した。
（実施例３：遺伝子発現による肺ガンのタイプ分類）
遺伝子発現方法もまた肺ガンの分類に用いることができ、現行の扱いにくい従来方法に代わって、例えば悪性胸膜中皮腫（ＭＰＭ）と肺の腺癌（ＡＤＣＡ）との病理的な差異を検出できる可能性を秘めている。実際、最近の研究では、比率に基づく診断を用いて、１８１個の組織サンプル（３１のＭＰＭと１５０のＡＤＣＡ）でＭＰＭと肺ガンとを正確に識別した。これにより、遺伝子発現結果が肺ガンの臨床診断に有用であることが示唆された。

この場合、訓練セットはかなり小さいもので、３２個のサンプル（１６のＭＰＭ及び１６のＡＤＣＡ）を含むが、テストセットは比較的大きく、１４９個のサンプル（１５のＭＰＭと１３４のＡＤＣＡ）を有することに留意したい。各サンプルは、１２５３３の特徴（遺伝子）で記述される。Ｃ４．５族アルゴリズムとの比較結果を図９に示す。またしても、出願人の結果はＣ４．５（単一、バッギング、及びブースティング）よりも良好である。
（実施例４：他のデータセットにおける結果）
今までに検討したデータセットは、すべて、百サンプルよりも多い。本実施例では、二つの比較的小さいデータセット(Armstrong et al., (2002), Nature Genetics, 30, 41-47)を用いて、本発明の方法が小データセットの場合に、いかにうまく実施されるかを確認した結果を示す。

(Armstrong et al., (2002), Nature Genetics, 30, 41-47)からの第１小データセットを、ＭＬＬと他の従来型ＡＬＬサブタイプとの識別に用いる。合計５７クラスの訓練サンプルのみ（ＡＬＬ、ＭＬＬ、及びＡＭＬに対して夫々２０、１７、２０サンプル）と１５テストサンプル（ＡＬＬ、ＭＬＬ、及びＡＭＬに対して夫々４、３、８サンプル）がある。図８（第２列）は、対応する分類性能を示している。またしても、単一Ｃ４．５の木では他の分類器よりも数箇所多く誤りを生じた。一方、出願人の方法は際立って優れている。ＳＶＭは出願人の方法と同様な結果であり誤りを生じないが、３−最近傍法では２個の誤りを生じた（１：１：０）。広く用いられているＡＬＬ対ＡＭＬデータセット(Golub et al (1999), Science, 286, 531-537.)に対する性能も、図８に示す。この例では、出願人の方法は、３４テストサンプルでＣ４．５族アルゴリズムよりも一つ多い誤りを生じた。しかしながら、出願人の方法はＳＶＭ（５個の誤り）及び３−ＮＮ（１０個の誤り）よりも良好であった。他方、全７２サンプルにおける総合的な１０分割交差検定については、出願人の方法は、ただ一つの誤りを生じるだけで、Ｃ４．５族アルゴリズムよりも非常に良好であった（図８の最終列を参照）。この実験において、ＳＶＭは出願人の方法と同じ誤りを生じたが、ｋ−最近傍法は１０個の誤りを生じた。特別な番号（５０、１００、又は２００）の上位特徴を予め設定して用いる場合、どの分類器も、すべての元の特徴を考慮する場合よりも良好な性能に達することができない。あらためて、これは、全ての元の特徴を、出願人の規則形成における選択用に、利用可能とすることは、有利であることを意味する。
（実施例５：発見が少量の上位特徴に基づく場合、規則の重要性が減少変化）
ここではＣ４．５を用いて(Quinlan, J.R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)、二本の木、即ち二グループの規則を構成し、その後それらの規則を比較して変化があるかどうかを調べた。先ず、一本の木を、元の全特徴空間に基づいて構成する。木のノードの選択は、任意の特徴に自由に開かれており、全体的に下位の特徴を含んでいる。図２（ａ）に、前立腺疾患データセット(Singh et al (2002), Cancer Cell, 1, 203-209)から発見された木を示す。この木において根から葉へ至る各経路は、単一の規則を表している。従って、この木は五つの規則を有することが、その５枚の葉への深さ優先走査（depth-first traversal）により分かる。これらの規則を、左側から右側へ向かって１、２、３、４及び５とする。これらに対応するカバレッジ、及び含まれる特徴の数を図３に示す。規則１は、最重要規則であり、腫瘍クラスについて９４％のカバレッジを有する。前述のように、この規則は二つの極めて下位の特徴を含んでいることを思い出してもらいたい。

次に、構成すべき第２の木は、３個の全体的に上位にある特徴、即ち、32598_at、38406_at、及び37639_atに限定されている。この３という数は、最重要規則（第１の木の規則１）における特徴の数と同じになるように選択した。図２（ｂ）は、第２の木の構造を示している。規則の夫々のカバレッジ、及びそれらが含む特徴の数を図４に示す。

重要な観察結果は、予め選別された上位特徴のみで構成した第２の木では、上位の規則の重要性が予想外に減少したことである。この観察結果は、最良は第２位特徴グループであり得て、上位特徴を集めても必ずしも最重要規則を生じない、という出願人の意見を支持するものである。

実際、出願人は、最重要規則における最下位特徴の位置をｐとする場合に、少なくともｐ個の上位特徴が、同じ重要度の規則を含むことが可能な決定木を導き出すのに必要であることを示した。全特徴空間を考慮しないと、この数ｐを知ることは難しい。従って、上位特徴を選択するための閾値を予め設定することは、有益な下位特徴を失うというリスクをもつヒューリスティック（発見的方法）である。
（実施例６：予測の際、代替の木は等しく機能する）
本実施例の目的は、同じ訓練データセットから、多様化されているが予測の際に等しく機能する二本の木（又は二グループの規則）を生成することができるかについて調べることである。

データセットが与えられると、根ノードとして最も識別的（差別的）特徴を用いた「最適」の木を、Ｃ４．５を用いて生成した。次に、代替の木を生成するために、Ｃ４．５とは僅かに異なる手法を用いた。第２位特徴を、この木の根ノードとした。そして、残りのノードを標準Ｃ４．５方法により構成した。このような木のペアは、殆ど同様な予測力を有していることが多く、また第２の木が第１の木よりも機能面で優れる場合もあることを、出願人は見出した。

例として、いわゆる第２位の木（second-best tree）が実際に第１の木よりも非常に優れた機能を示すような一ペアの木を示す。図５に、小児白血病における他のサブタイプからサブタイプＨｙｐｅｒｄｉｐ＞５０を識別するために設定された、階層化データについて構成された「最適」Ｃ４．５の木を示す。このＣ４．５の木は、訓練データでは誤りがないが、４９テストサンプルのうち１３個の誤りを生じた。この場合、出願人の第２位の木は、テストセットについて９個の誤りを生じるのみで、第１の木の見るに耐えない精度を、独立に向上させることができた。興味深いことに、この木のペアを出願人の方法と組み合わせた際（次の項に示す）、得られるハイブリッド或いは組み合わせにおける誤りは更に少なく、６個のみであった。

この木のペアをさらに詳しく調べてみると、第１の木で用いた特徴のセットは、第２の木で用いたセットから分けられていることを、出願人は見出した。前者は次の４つの特徴をその木のノードで有している。即ち、3662_at、39806_at、32845_at、及び34365_atである。一方、後者はその木の４つのノードにおいて異なる組の特徴を有している。即ち、38518_at、32139_at、35214_at、及び40307_atである。従って、その二本の木は、実に多様化されている。その二本の木の夫々は、二つの重要規則を含んでおり、その夫々は二クラスのうちの一クラスに対するものである。この場合も、これらの重要規則は、第１８７８位にある34365_at等の、非常に下位の特徴を含む。ここで、他の特に興味深い点は、第２の木における上位規則のカバレッジは、第１の木における規則よりも増加したことである。これにより、なぜ第２の木が第１の木よりも機能が優れているのかの説明がつく。

それにもかかわらず、小児白血病のサブタイプＭＬＬをその他のサブタイプから識別するために、階層化データセット(Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)から構成される木において、別の例を発見できる。ここで、第１の標準Ｃ４．５の木は５５テストサンプル中１個の誤りを生じたが、出願人の第２の木は２個の誤りを生じた。しかしながら、この二本の木を組み合わせると、そのハイブリッド或いは組み合わせは、テストセットで誤りを生じなかった。無作為に、そのような１０個の木のペアを検討し、４対については第１の木が優れており、３対については第２の木が優れており、また３対については性能面でその二本の木の結びつきがあることが分かった。

出願人の木のペアは概ね同様の予測力を有しているので、データの特徴とそれら自体の多様化した経験との固有の内部関係を理解した「専門家(experts)」として取り扱うことができる。これは木の集団或いは専門集団（committee of trees）という手法を示唆する。即ち、第３の木や第４の木等を生成することにより、木の「専門的知識(expertise)」の多様性を増加できる。このような木の集団手法でもたらされる広範囲の多様性は、集団における個々の木の高品質性と共に、科学者が生物医学データを研究し、ガンの診断を確実に実施するのに良好な基礎を提供するであろう。
（実施例７：規則発見）
正負の二クラスのサンプルを有する訓練データセットＤが与えられると、次のステップにより、ＤからＤの木を繰り返して導き出した。ここでＤは、Ｄで用いる特数よりもかなり少なく、通常、Ｄを２０と設定した。
ステップ１：利得比を用いて、全特徴を最良の特徴を第１位にした順序付きリストに並べる。
ステップ２：ｉ＝１
ステップ３：ｉ番目の特徴を根ノードとして用いて、ｉ番目の木を構成する。
ステップ４：ｉ＝ｋになるまで、ｉを１だけ増加させ、ステップ３に進む
そして、深さ優先走査によりこれらの木から規則を直接生成することができる。重要な規則を識別するために、各規則のカバレッジに従って全規則の順位付けを行う。上位の規則が重要である。その後、これらの規則に含まれる特徴（例えば、遺伝子又はタンパク質）において可能な相互作用を理解するために、これらの重要な規則を用いてもよい。これらの規則をクラス予測に用いるために、出願人の方法を次項に述べる。
（実施例８：クラス予測）
テストサンプルＴが与えられると、集団におけるｋ本の木の夫々は、このテストサンプルに対して予測されるクラスラベルを教示する特定の規則を有するであろう。

木の集団から得られるｋ規則は、

ここで、k₁＋k ₂＝kである。各rule_i ^pos(1≦i≦k ₂)はＴが正クラスであると予測するが、各rule_i ^neg(1≦i≦k ₂)はＴが負クラスであると予測する。時々、k予測は同じになりうる。即ち、ｋ₁=0又はｋ₂=0となる。このような状況では、すべてのk規則からの予測は互いに一致し、最終決定は明白で信頼できそうである。しばしば、k決定を正クラスの大部分又は負クラスの大部分と混合する。このような状況で次式を用いてこれらの規則のカバレッジに基づく二つの分類スコアを算出した。

Score^pos(T)がScore^Neg(T)よりも大きい場合、正クラスはテストサンプルＴに割り当てられる。さもなければ、Ｔは負であると予測される。

この規則のカバレッジを、重み或いは重み付けとして用いると、バッギング(Breiman, L (1996). Machine Learning, 24, 123-140)により採用された単一で等しい投票(simple equal voting)の落とし穴は避けられる。出願人の重み付け方針により、予測工程において木の集団が自動的に貢献度を重要でない規則及び重要な規則から区別することができる。

多クラスの問題については、クラスＣと称する特定のクラスに対する分類スコアは次のように算出される。

その後、最高スコアを獲得するクラスをテストサンプルのクラスと予測する。

最後に、当然のことながら、本発明の精神及び範囲を逸脱することなく、前述の構成に対して多数の変更、変形、及び代替を行ってもよい。

前立腺疾患遺伝子発現プロファイリングデータから発見される重要規則で用いられる三つの特徴における各種順位位置を示している。ここで、Ｓ−Ｎ（S to N）は、信号ノイズ比の計測値を表す。１０２個の細胞の遺伝子発現プロファイルの前立腺疾患データセットから誘導された二本の木を示す。（ａ）すべての特徴セットを用いて構成した標準のＣ４．５の木。（ｂ）３個の上位特徴のみを用いて構成した木。前立腺疾患遺伝子発現プロファイリングデータに由来するＣ４．５の木における５つの規則を示す。３個の上位特徴のみに関して構成されたＣ４．５の木における出願人の規則を示す。サブタイプＨｙｐｅｒｄｉｐ＞５０を、小児白血病の他のサブタイプから識別するための、階層データセットからＣ４．５により誘導された決定木を示す。ここで、Ｈｒ５０＝Ｈｙｐｅｒｄｉｐ＞５０、ａ＝１６１１６．４、ｂ＝４４７７．９、ｃ＝３４５３．４、ｄ＝２４００．９である。２５３個のプロテオーム卵巣データサンプルについて、４個の分類モデルによる１０分割交差検定（１０−ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎ）のエラー番号（ガン：正常）を示す。ＡＬＬ疾患（Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143）の６サブタイプ分類の問題における１１２個の独立テストサンプルに関する４個のモデルのテストエラー番号を示す。ＡＬＬ疾患のサブタイプ分類の問題における１０分割交差検定の結果を示す。独立した１４９個のＭＰＭ及びＡＤＣＡ組織サンプルについて４個の分類モデルによるテストエラー番号（ＭＰＭ：ＡＤＣＡ）を示す。２個の小データセットに関する４個の分類モデルによるテストエラー番号（ＭＰＭ：ＡＤＣＡ）を示す。

Claims

生物学データの解析に有用な規則を識別する識別方法であって、
複数の特徴を有する訓練データセットを提供する提供工程と、
前記データセットを用いて決定木を生成する生成工程と、
を備え、
前記訓練データセットは、前記決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法。
前記データセットにおける特徴の数は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項１に記載の識別方法。
前記データセットにおける特徴の値は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項１又は２に記載の識別方法。
前記特徴は、遺伝子に関する情報を提供することを特徴とする請求項１から３のいずれか一項に記載の識別方法。
前記情報は、前記遺伝子の発現レベルに関することを特徴とする請求項４に記載の識別方法。
ＣＡＲＴ、Ｃ４．５、ＯＣ１、ＴｒｅｅＡｇｅ、Ａｌｂｅｒｏ、ＥＲＧＯ、ＥＲＧＯＶ、ＴＥＳＳ、及びeＢｅｓｔＭａｔｃｈからなる群から選択されるソフトウェアパッケージで具現化される方法を用いて、前記決定木は、生成されることを特徴とする請求項１から６のいずれか一項に記載の識別方法。
前記規則は、予測項を有する一又は複数の条件からなることを特徴とする請求項１から６のいずれか一項に記載の識別方法。
前記条件は、連言的であることを特徴とする請求項７に記載の識別方法。
前記規則は、
条件１かつ条件２かつ．．．条件ｍならば、予測項である
ことを特徴とする請求項８に記載の識別方法。
規則における全条件は、前記予測クラスの少なくとも一つのサンプルにおいて成立することが必要であることを特徴とする請求項７から９のいずれか一項に記載の識別方法。
規則における全条件は、前記予測項における前記クラス以外のいずれかのクラスのいずれかのサンプルにおいて、必ずしも成立することは必要でないことを特徴とする請求項７から１０のいずれか一項に記載の識別方法。
前記規則における条件の数は、約５よりも少ないことを特徴とする請求項７から１１のいずれか一項に記載の識別方法。
前記条件の数は、１又は２又は３であることを特徴とする請求項１２に記載の識別方法。
生物学データの解析に有用な二以上の規則を識別する識別方法であって、
複数の特徴を有する訓練データセットを提供する提供工程と、
根ノードとして前記データセットの一つの特徴を有する第１決定木を生成する生成工程と、
前記第１決定木から一の規則を得る獲得工程と、
前記根ノードとして、その他の決定木で先に用いられていない前記データセットの特徴を有する一又は複数の決定木を生成する生成工程と、
一又は複数の決定木の夫々から更なる規則を得る獲得工程と、
を備え、
前記訓練データセットは、少なくとも一の決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法。
前記データセットにおける特徴の数は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項１４に記載の識別方法。
前記データセットにおける特徴の値は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項１４又は１５に記載の識別方法。
前記特徴は、遺伝子に関する情報を提供することを特徴とする請求項１４から１６のいずれか一項に記載の識別方法。
前記情報は、前記遺伝子の発現レベルに関することを特徴とする請求項１７に記載の識別方法。
ＣＡＲＴ、Ｃ４．５、ＯＣ１、ＴｒｅｅＡｇｅ、Ａｌｂｅｒｏ、ＥＲＧＯ、ＥＲＧＯＶ、ＴＥＳＳ、及びeＢｅｓｔＭａｔｃｈからなる群から選択されるソフトウェアパッケージで具現化される方法を用いて、前記決定木は、生成されることを特徴とする請求項１４から１８のいずれか一項に記載の識別方法。
約２０の決定木が生成されることを特徴とする請求項１４から１９のいずれか一項に記載の識別方法。
前記規則は、予測項を有する一組の条件であることを特徴とする請求項１４から２０のいずれか一項に記載の識別方法。
前記条件は、連言的であることを特徴とする請求項２１に記載の識別方法。
前記規則は、
条件１かつ条件２かつ．．．条件ｍならば、予測項である
ことを特徴とする請求項２２に記載の識別方法。
規則における全条件は、前記予測クラスの少なくとも一つのサンプルにおいて成立することが必要であることを特徴とする請求項２１から２３のいずれか一項に記載の識別方法。
規則における全条件は、前記予測項における前記クラス以外のいずれかのクラスのいずれかのサンプルにおいて、必ずしも成立することは必要でないことを特徴とする請求項２１から２４のいずれか一項に記載の識別方法。
前記規則における条件の数は、約５よりも少ないことを特徴とする請求項２１から２５のいずれか一項に記載の識別方法。
前記条件の数は、１又は２又は３であることを特徴とする請求項２６に記載の識別方法。
前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約２５％を考慮することを特徴とする請求項１４から２７のいずれか一項に記載の識別方法。
前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約５０％を考慮することを特徴とする請求項２８に記載の識別方法。
前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約７５％を考慮することを特徴とする請求項２９に記載の識別方法。
前記二以上の決定木の夫々は、前記データセットの実質的にすべての特徴を考慮することを特徴とする請求項３０に記載の識別方法。
重要な規則を得るために、少なくとも二つの得られた規則の精度を比較する比較工程を更に備えることを特徴とする請求項１４から３１のいずれか一項に記載の識別方法。
前記訓練データセットとの比較により、又は独立に検証された結果を有するテストデータセットを用いることにより、前記規則の精度を比較することを特徴とする請求項３２に記載の識別方法。
前記比較は、前記データセットのカバレッジに基づく前記規則の重み付けを含むことを特徴とする請求項３３に記載の識別方法。
前記重要な規則は、下位特徴を含むことを特徴とする請求項３２から３４のいずれか一項に記載の識別方法。
利得比、信号ノイズ測定、時間統計、エントロピー、及びX^２測定からなる群から選択される方法を用いて、特徴の順位は、決定されることを特徴とする請求項３５に記載の識別方法。
利得比又はエントロピーに従って、前記データセットにおける全特徴の順位付けを行うことにより、前記決定木の根ノードを規定する前記複数の特徴は、選択されることを特徴とする請求項３２から３６のいずれか一項に記載の識別方法。
前記根ノードとして第１位特徴を用いて前記第１の木が生成され、前記根ノードとして第２位特徴を用いて前記第２の木が生成され、以下同様であることを特徴とする請求項１４から３７のいずれか一項に記載の識別方法。
請求項１から３８のいずれか一項に記載の識別方法を実行することができるコンピュータ実行可能プログラム。
請求項１から３８のいずれか一項に記載の識別方法に従って作成される一又は一組の規則。
請求項１から３８のいずれか一項に記載の識別方法を備えた、患者の疾患を分類し、特徴付けし、診断し、又は予後診断する方法。
請求項１から３８のいずれか一項に記載の識別方法を備えた、疾患に含まれる生物学的過程を識別する識別方法。
前記疾患がガンであることを特徴とする請求項４１又は４２に記載の方法。
前記ガンは、前立腺ガン、小児白血病、及び卵巣ガンからなる群から選択されることを特徴とする請求項４３に記載の方法。
任意の非比較の実施例を参照して実質的に明細書中に記述された請求項１に記載の識別方法。
任意の非比較の実施例を参照して実質的に明細書中に記述された請求項１４に記載の識別方法。