JP2007504542A - 生物学データを処理する方法 - Google Patents

生物学データを処理する方法 Download PDF

Info

Publication number
JP2007504542A
JP2007504542A JP2006525010A JP2006525010A JP2007504542A JP 2007504542 A JP2007504542 A JP 2007504542A JP 2006525010 A JP2006525010 A JP 2006525010A JP 2006525010 A JP2006525010 A JP 2006525010A JP 2007504542 A JP2007504542 A JP 2007504542A
Authority
JP
Japan
Prior art keywords
identification method
data set
rule
rules
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006525010A
Other languages
English (en)
Inventor
リ,ジニャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2003904855A external-priority patent/AU2003904855A0/en
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of JP2007504542A publication Critical patent/JP2007504542A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract


【課題】 本発明は、遺伝子発現のマイクロアレイ解析により得られるデータ等の、大量の高次元生物学データの処理に有用な方法に関する。この方法は、ガン等の疾患の分類、診断及び予後診断に利用可能な規則を提供するのに役立つものである。
【解決手段】 本発明の方法は、繰り返して決定木を提供し、訓練データを処理し、規則を生成する。しかしながら、先行技術の方法とは異なり、記載の方法は、ブーストラップデータの使用を避けており、決定木生成工程を繰り返す度に、実質的に全訓練データセットを考慮する。

Description

本発明は、データ処理の技術分野に関する。より詳細には、本発明は、遺伝子発現のマイクロアレイ解析により得られるデータ等の、大量の高次元生物学データ(high-dimension biological data)を処理するのに有用な方法に関する。この方法は、ガン等の疾患の分類、診断及び予後診断に利用可能な規則を提供するのに有用である。
近年、ゲノミクスやプロテオミクスの分野の進歩により、生物科学研究者が利用できる情報が膨大に増加した。マイクロアレイ遺伝子発現プロファイル等の方法は、大量の生体サンプルを非常に迅速にスクリーニングできる。このデータが有用であるのは間違いないが、現在、律速段階となるのは、生データを使用可能な情報に変換することである。
決定木(decision trees)は、生データから意味のある情報を引き出すのによく知られた手法である。決定木は、離散値をとる目標関数の分類用学習関数を表す。決定木における各中間ノードは、ある種類のテストを表し、各枝は、その枝が由来するノードが表す属性に対する特定値に対応する。決定木は、木の根から葉ノードへ移動することにより新規項目を分類する。葉ノードは、その項目に分類をあてがう。決定木は、“もし−なら−他”規則(即ち、if−then−else規則)とも見做されることに留意する。即ち、各決定木を、決定木を通る経路の各々における選言(disconjunction)とみなすことができる。ここで、各経路は、個々の事例における属性値を必ず保つ特徴の連言(conjunction)に対応する。
決定木は、分類タスクに特に適している。そこでは、項目を属性値ペアで記述することができ、目標関数は離散値をとっており、訓練データは訓練データラベル又は属性値にノイズを含んでいるかも知れない。明らかに、遺伝子発現データを用いる診断上の問題は、これらの特性に合うものである。各サンプルを、多数の遺伝子(属性)の発現レベル(値)で記述することができる。その目的は、サンプルを離散的な複数のクラス(例えば、急性リンパ性白血病(ALL)又は急性骨髄性白血病(AML))のうちの一つに属するものとして分類することである。
決定木を用いる例は、ヒト腫瘍の分類においてである。これは、臨床、病理組織学、免疫組織化学、細胞遺伝学データに基づき、昔から行われている。この分類技術では、類似点を示すけれども重要な側面、例えば臨床経過、治療反応、又は生存面で大きく異なるような腫瘍を含むクラスが与えられる。cDNAマイクロアレイを用いる技術は、治療反応又は生存予後に関して、患者のより正確な階層化に道を開いたが、臨床的指標と患者の特異遺伝子発現パターンとの相関についての報告は極めてまれである。その理由の一つは、パターン分類、規則帰納、大規模な遺伝子発現データ内の内部依存の検出に機械学習方法を適応させることは、コンピュータ科学社会にとって未だ大変な課題だからである。
CARTやC4.5等のソフトウェア実行方法から決定木を構成し、規則を得ることができる。C4.5(Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)は、決定木を誘導する発見アルゴリズムである。C4.5では、どの特徴が最も識別的かを決定するために、エントロピーに基づく選択尺度を用いる。この尺度は、利得比(gain ratio)又は最大情報利得(maximum information gain)とも称される。文献における決定木のほとんどは、C4.5により構成される。
決定木の構成は、再帰処理である。典型的な処理は、最も識別的な特徴を決定し、その後訓練データを複数の集合に分けることを含む。各集合は、この特徴によって分類されるように、多クラスのサンプル又は単一クラスのサンプルを含むことができる。次に各グループの著しい特徴を選択して、更に多クラスサブセット(集合)を分割する。すべてのサブセットが単一クラスサンプルを含むまで、この処理を再帰的に繰り返す。
集団或いは専門集団又は委員会(committee)における、要素決定或いは委員決定(member decisions)を、投票(voting)することによって、単一木(single trees)の誤差を減らす、アダブースト(AdaBoost)(Freund, Y., & Shapire, R. E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156))やバッギング(Bagging)(Breiman, L(1996). Machine Learning, 24, 123-140)等の、集団意思決定技術或いは委員会決定技術(committee decision techniques)も提案されている(Friedman, J. H., Kohavi, R., & Yun, Y(1996). Proceedings of the Thirteenth National Conference On Artificial Intelligence, AAAI96 (pp.717-724). Portland, Oregon: AAAI Press)(Quinlan, R. J. (1996). Proceedings of the Thirteenth National Conference on Artificial Intelligence, AAAI96 (pp. 725-730). Portland, Oregon: AAAI Press)。本出願人の手法とは異なり、アダブースト及びバッギングは、ベース分類器(例えば、C4.5)を複数回使用して、ブートストラップ訓練データ(bootstrapped training data)を用いる分類器の集団(committee of classifiers)を生成する。与えられた訓練データセットはN個のサンプルを有し、ベース分類器におけるR回の繰り返し又はトライアルが行われると仮定する。バッギング案により、各トライアルt=1,2,...,Rについて、ブートストラップ訓練セットを元データから生成する。この新たな訓練セットは、元データと同じサイズであるが、この新たなセット中には、もはや現れることのないサンプルがあってもよく、一回よりも多く現れるサンプルがあってもよい。ブートストラップ訓練セットBを、B,B,...,Bとして示す。各Bに対して、分類器Cが構成される。最後のバッギング分類器Cは、C,C,...,Cを集計することで構成される。Cの出力は、そのサブ分類器により最も頻繁に予測されたクラスであり、その結びつきは任意に断絶される。
バッギングと同様、ブースティングも、投票による分類に、分類器の集団(committee of classifiers)を用いる。ここでは、分類器の集団の構成が異なる。即ち、バッギングでは個々の分類器を別々に構成するが、ブースティングでは、新しい分類器が夫々前回構成された分類器の性能の影響を受けるように、分類器を順番に構成する。このようにして、新たなモデルを、難解な問題を分類する専門家に仕立て上げる目的で、前回のモデルで間違って分類されたサンプルを新たなモデルで強調することができる。この二つの集団技術における更なる違いは、ブースティングでは個々の分類器性能に応じて該個々の分類器の出力に重み付けをするが、バッギングでは全集団の要素に等しく重みをおくことである。アダブースト(Freund, Y., & Shapire, R. E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156))は、ブースティング概念の良い一例を示す。
イマージングパターン(emerging pattern)(Dong, G & Li, J (1999). Proceedings of the Fifth ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (pp.43-52). San Diego, CA: ACM Press)は、生物医学データから有効な規則を発見するために重要な概念であることが示された(Li, J & Wong L. (2002). Bioinformatics, 18, 725-734)。(Li et al., (2004); Bioinformatics, 19, 71-78)。しかしながら、そのパターン特有の複雑さのために、イマージングパターンのマイニングアルゴリズムは、高次元データ(例えば、100以上のデータ次元)に利用される際にはあまり効率的ではない可能性がある。
Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann Freund, Y., & Shapire, R. E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156) Breiman, L(1996). Machine Learning, 24, 123-140 Friedman, J. H., Kohavi, R., & Yun, Y(1996). Proceedings of the Thirteenth National Conference On Artificial Intelligence, AAAI96 (pp.717-724). Portland, Oregon: AAAI Press Quinlan, R. J. (1996). Proceedings of the Thirteenth National Conference on Artificial Intelligence, AAAI96 (pp. 725-730). Portland, Oregon: AAAI Press Dong, G & Li, J (1999). Proceedings of the Fifth ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (pp.43-52). San Diego, CA: ACM Press Li, J & Wong L. (2002). Bioinformatics, 18, 725-734 Li et al., (2004); Bioinformatics, 19, 71-78
これらの先行技術の方法における課題は、それらが頻繁に不当な予測へ回帰することである。この先行技術における課題を克服又は軽減するために、本発明の態様は、疾患の特徴付け、予後診断及び診断において、比較的簡単で正確な規則を規定する方法を提供する。
本明細書に含まれる書類、行為、材料、装置、物品等に関する説明は、単に、本発明に背景或いは文脈(context)を提供するためのものである。いずれの又はすべてのこれらの事項は、本出願の優先日以前に存在していたので先行技術ベースの一部を形成した、或いは本発明に関連する分野における周知の一般的知識であった、ということを示唆又は断言するものではない。
第1の態様において、本発明は、生物学データの解析に有用な規則を識別する識別方法であって、複数の特徴を有する訓練データセットを提供する提供工程と、前記データセットを用いて決定木を生成する生成工程と、を備え、前記訓練データセットは、前記決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法を提供する。
第2の態様において、本発明は、生物学データの解析に有用な二以上の規則を識別する識別方法であって、複数の特徴を有する訓練データセットを提供する提供工程と、根ノードとして前記データセットの一つの特徴を有する第1決定木を生成する生成工程と、前記第1決定木から一の規則を得る獲得工程と、前記根ノードとして、その他の決定木で先に用いられていない前記データセットの特徴を有する一又は複数の決定木を生成する生成工程と、一又は複数の決定木の夫々から更なる規則を得る獲得工程と、を備え、前記訓練データセットは、少なくとも一の決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法を提供する。
好ましくは、前記二以上の決定木の夫々は、前記データセットにおける実質的に同じ特徴を考慮する。或いは、前記二以上の決定木の夫々は、前記データセットにおける実質的に同じ数の特徴を考慮する。
他の態様において、本発明は、本発明の識別方法を実行することができるコンピュータ実行可能プログラムも提供する。
他の態様において、本発明は、本発明の識別方法に従って作成される一又は一組の規則も提供する。
他の態様において、本発明は、本発明の識別方法を備えた、患者の疾患を分類し、特徴付けし、診断し、又は予後診断する方法も提供する。
本明細書の説明及び特許請求の範囲において、「備え、備える又は備えて(comprise)」とその変形(例えばcomprising及びcomprises等)は、その他の添加物や構成要素、整数、又は工程を排除するものではない。
第1の態様において、本発明は、生物学データの解析に有用な規則を識別する識別方法であって、複数の特徴を有する訓練データセットを提供する提供工程と、前記データセットを用いて決定木を生成する生成工程と、を備え、前記訓練データセットは、前記決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法を提供する。
出願人は、ここに記載の方法がC4.5、バッギング、ブースティング、SVM、及びk−NNと比較して精度面で非常に優位であることを示した。この方法は、生データを知識へ変換する際に役立つ非常に分かりやすい規則も提供する。
出願人の方法は、元の訓練データの管理において先行技術の集団分類器とは異なっている。バッギングやブースティングは、木を繰り返して構成する度に、ブートストラップ訓練データを生成する。好ましくは、出願人の方法は、決定木を生成する全工程の間中、元データのサイズ及び/又は特徴の値は、実質的に変えられない。結果として出願人の規則はより正確に元データの本質を反映することとなるが、ブートストラップ訓練データを使用するために、元の訓練データに適用される際にバッギング又はブースティング規則が成立しない場合もある。
ここで用いられるように、規則の一例は、予測項を有する一組の条件である。本発明の好適な実施例においては、その条件は連言条件である。本発明に関連する規則の概して好ましい形態の例を次に表す。
条件1かつ条件2かつ...条件mならば、予測項である。
(If cond1 and cond2 and ... condm, then a predictive term)
規則の予測項は、単一クラス(例えば、ガンの特定サブタイプ)に関するものであることが多い。本発明の一の形態では、規則における全条件は、前記予測クラスの少なくとも一つのサンプルにおいて成立することが必要であるが、前記予測項における前記クラス以外のクラスのサンプルにおいて、必ずしも成立することは必要でない。
m個の条件における数は、5程度以下であることが好ましい。理想的には、m=1、2又は3の規則が、臨床診断には最良である。
一例として、次の規則(Li et al (2003), Bioinformatics, 19, 71-78)は、小児白血病細胞の遺伝子発現プロファイルに関する二つの条件を含んでいる。
40454_atの発現が8280.25以上、
かつ41254_atの発現が6821.75以上ならば、
このサンプルはサブタイプE2A-PBX1である。
E2A-PBX1以外の白血病サブタイプのいずれの細胞も、この規則を満足しないが、E2A-PBX1クラスのサンプルの100%は、夫々、遺伝子発現プロファイリングに関する二つの条件をどちらも満たす。従って、臨床診断には有用である。
決定木は、熟練した当業者に知られた任意の方法により生成されてよい。最も便利な方法は、CART、C4.5、OC1、TreeAge、Albero、ERGO、ERGOV、TESS及びeBestMatch等の多数の利用可能なソフトウェアパッケージの一つを用いて行われる。
第2の態様において、本発明は、生物学データの解析に有用な二以上の規則を識別する識別方法であって、複数の特徴を有する訓練データセットを提供する提供工程と、根ノードとして前記データセットの一つの特徴を有する第1決定木を生成する生成工程と、前記第1決定木から一の規則を得る獲得工程と、前記根ノードとして、その他の決定木で先に用いられていない前記データセットの特徴を有する一又は複数の決定木を生成する生成工程と、一又は複数の決定木の夫々から更なる規則を得る獲得工程と、を備え、前記訓練データセットは、少なくとも一の決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法を提供する。
当然ながら、本発明の方法は、単一決定木の生成に対してのみ考慮されるものではない。本発明の一の形態は、木の「集団」を提供するために、一よりも多い木の生成に頼るものである。木は、そのすべての葉が規則に対応する規則の集まりであるので、複数の木は多数の重要な規則を含むことができる。複数の木を用いると、先行技術の方法で示される単一カバレッジの制約がこわされ、同一の訓練データを、多数の重要な又は重要でない規則で説明することが可能となる。本発明の手法は、一の決定木における互いに排他的な規則が、特徴における多数の相互作用を断ち切るので有利である。驚いたことに、発明者等は、異なる面から多数の相互作用を捉えることができる重要な規則を複数の木が含む、ということを発見した。従って、この複数の交差支持型規則(cross-supportive rules)は予測力を増加させる。
ここに記載の方法は、基本的に、バッギング(Breiman, L (1996). Machine Learning, 24, 123-140)やブースティング(Freund, Y., & Shapire, R.E. (1996). Machine Learning: Proceedings of the thirteenth National Conference (pp.148-156))等の、最先端の集団方法とは異なる。先行技術とは異なり、この方法は、ブーストラップ又は擬似訓練データの代わりに、元の訓練データを用いて一連の異なる決定木を構成する。このように複数の決定木を用いて得られる規則は、元の訓練データの本質をより正確に反映する。一方、バッギング又はブースティングにより作成した規則は、時々真の規則を近似するだけであるので、元データに適用される際に正しくない可能性がある。
熟練した当業者は、試行錯誤により、生成されるべき決定木の有効数について決定することが可能であろう。本発明の好適な実施例では、この方法において約20の決定木が生成される。
本発明の特徴は、木の集団における決定木は、夫々、先行技術の方法よりも多くの数の特徴を考慮することである。好ましくは、前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約25%を考慮する。より好ましくは、前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約50%を考慮する。より好ましくは、前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約75%を考慮する。
本発明の非常に好ましい形態では、前記二以上の決定木の夫々は、前記データセットの実質的にすべての特徴を考慮する。本発明のこの形態では、すべての元の特徴は、規則を作る際の選択用に、利用可能となっている。よって、この方法では、いくつの上位特徴を分類モデルに用いるべきかという難解な古典的問題を避けている。重要な規則は、下位特徴を含んでいることが多く、これらの特徴は分類器が完全な精度に達するために必要な場合もあることが分かった。従来のように、特別な番号の上位特徴のみを用いる場合は、重要な規則の多くが見逃されたり、又は正確でなかったりする。
好ましくは、前記二以上の決定木の夫々は、前記データセットの実質的に同じ特徴を考慮する。或いは、前記二以上の決定木の夫々は、前記データセットの実質的に同じ数の特徴を考慮する。
本発明の好適な実施例では、前記二以上の決定木はカスケード表示される。複数木の集団は、カスケード手法を用いて構成されてよい。まず、すべての特徴をその利得比に従ってリストに並べる(Quinlan, J.R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)。その後、前記根ノードとして第1位特徴を用いて前記第1の木が生成され、前記根ノードとして第2位特徴を用いて前記第2の木が生成され、以下同様である。一般に、根ノードとして第k位特徴を用いてk番目の木が生成される。
本発明の方法が多数の規則を提供し、またそのうちの幾つかが重要であることは明らかであろう。従って、この方法の更なる工程は、重要な規則を得るために、少なくとも二つの得られた規則の精度を比較することを備えていてよい。もちろん、これを行うためには、訓練データセットは、任意の与えられた規則の精度を決定するために検証された結果を含んでいなければならない。好ましくは、前記訓練データセットとの比較により、前記規則の精度を比較する。また、独立に検証された結果を有するテストデータセットを用いることにより、得られた規則の精度を比較してよい。
好ましくは、前記比較は、前記データセットのカバレッジに基づく前記規則の重み付けを含む。一の規則は、カバレッジ、即ち、その規則を満足させるクラス内のサンプルの百分率を有している。一のクラスが100個の正サンプルからなり、一の規則がそのうち75個により満足される場合、この規則のカバレッジは75%である。当業者は、重要な規則に最も興味をもっているであろう。重要な規則とは、大きなカバレッジ、例えば少なくとも50%のカバレッジを有する規則である。
分類用に公知サンプル又はテストサンプルが与えられると、この方法は、テストサンプルが満足する集団のk番目の木における規則を重み付け方式で投票(voting)することにより、最終決定を下してよい。規則に重みを割り付ける一つの方法は、元の訓練データにおけるカバレッジに基づく方法である。即ち、各規則は、この規則を満足するクラスにおける訓練サンプルの最高百分率により重み付けされる。この重み付け方法は、重要な規則と重要でない規則の区別をつけるので、これらの規則は全て、その比例的役割に従って、最終投票に寄与することとなる。
バッギング及びブースティングとは異なることに加え、出願人の方法は、ランダム決定木(randomized decision tree)(Dietterich, T.G. (2000). Machine Learning, 40, 139-158)と称される別の投票方法とも異なるものである。このアルゴリズムは、木の各中間ノードにおいてどの分割(split)を導入するかに関する決定を無作為に行う、C4.5学習アルゴリズムの変形型である。その後、異なる無作為の選択を行って、新たな木を構成する。一つの特徴に対して、20個の最良分割(利得比に関して)を無作為選択のプールとみなした(Dietterich, T.G. (2000). Machine Learning, 40, 139-158)。この方法で構成したランダム木の集団のすべての要素(member)は、常に、同じ根ノードの特徴を共有する。要素間における唯一の違いは、それらの中間ノードにおいてである。一方、集団における出願人の木は、根ノードにおいてだけではなく、中間特徴においても互いに異なるものである。出願人の木の集団は、ランダム木よりもはるかに多様性である可能性がある。
ここに記載の方法を実施する際に、重要な規則がしばしば下位特徴を含むことに気づくことが多い。これは、先行技術により発見した規則では見られないことである。例えば、出願人は、50個の腫瘍細胞と50個の正常細胞からの発現プロファイルからなる前立腺疾患データセットから、重要な規則を発見した(Singh et al (2002), Cancer Cell, 1, 203-209)。
32598_atが29以上、かつ33886_atが10以上、かつ34950_atが5以下ならば、
これは腫瘍細胞である。
この規則は、腫瘍クラスにおいて94%(49/52)のカバレッジを持つ、重要な規則である。上記規則で規定された3個の特徴の順位を考慮すると、遺伝子32598_atは第1位であるが、他の二つの遺伝子は、12600の遺伝子の組において第210位(遺伝子33886_at)及び第266位(遺伝子34950_at)と、全体的に下位に順位付けられている。
この順位は、利得比、信号ノイズ測定、時間統計(即ち、t−統計或いはt-statistics)、エントロピー、及びX測定からなる群から選択される方法を用いて決定されてよい(Liu, H & Motoda, H (1998) Feature selection for knowledge discovery and data mining, Boston MA: Kluwer Academic Publishers)。実際に、本方法により得られる利益が、用いられた順位付け方法のアーチファクトではないことを検証するために、信号ノイズ比、時間統計、エントロピー、及びX測定等の、メトリクスに関して代替の順位付けを用いた。図1は、各種順位付け方法を用いた三つの遺伝子の順位を示している。遺伝子の順位は、異なる方法を用いる場合でも一致することが概して分かった。従って、この実施例は、非常に下位の遺伝子でさえも重要な規則に含むことができることを示している。
第2実施例として、出願人は、前述の同じ前立腺腫瘍データセットから発見した別の重要な規則を提示した。これは正常クラスにおいて支配的である。
32598_atが29よりも大きく、かつ40707_atが−6より大きいならば、
これは正常細胞である。
この規則は、正常クラスにおいて82%(41/50)のカバレッジを持っており、重要である。これら二つの遺伝子の順位は次の通りである。遺伝子32598_atは第1位であるが、その成分遺伝子の40707_atは、第1000位以下と、全体的に下位に位置付けられている。
好ましくは、利得比又はエントロピーに従って、前記データセットにおける全特徴の順位付けを行うことにより、前記決定木の根ノードを規定する。二クラスのサンプル(正又は負)を有するデータセットのペアが与えられると、この二クラスを区別する特徴の識別力を、その利得比(Quinlan, J.R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)、又はエントロピー(Fayyad, U & Irani, K. (1992). Machine Learning; Proceedings of the Thirteenth International Conference on Artificial Intelligence (pp. 104-110). AAAI Press)によりおおよそ測定することができる。エントロピー法では、収集したすべてのサンプルの特徴の下で、クラス分布(class distribution)を測定する。その分布、例えばx腫瘍サンプル及び正常サンプルに対する遺伝子の発現レベルは、腫瘍クラスと正常クラスの境界を明らかに示す。この特徴は小エントロピー値を割り当てられる。小エントロピー値は、この単一の特徴による二クラスの識別に対して低い又はゼロの不確定性を示し、よってこのような特徴は上位に位置付けされる。
好ましくは、前記根ノードとして第1位特徴を用いて前記第1の木を生成し、前記根ノードとして第2位特徴を用いて前記第2の木を生成し、以下同様である。前述のように、幾つかの上位特徴を、繰り返して、新たな木の根ノードとすることで、木の集団を構成する。また、第2位が最良であり得るという出願人の考えに従ったその他の種類の木の集団を構成する別の方法もある。
本発明の一の代替形態では、第2レベルのノードを順位付けに基づいて選択することができる。すべてのノードに対してk個の特徴の選択(通常、上位k特徴)が可能であるとすると、k本の木の集団を、その木がn個のノードを有する場合に構成できる。仮に、最初の二つのレベルにおいてのみ(根レベルとその直後の子レベル)、ノードに対してk個の特徴の選択が可能であるとすると、k=3のときに27本の木を得ることができる。この手法では、全体的に根ノードレベルにおいて、又は局所的に子ノードのレベルにおいて、上位の遺伝子に注目している。
本発明の他の代替形態では、前回の木を構成した後に一の特徴を削除することで、減少した訓練データをその後に続く木で用いる。この手法の一例として、すべての元データを用いて第1の木を構成する。その後、C4.5により最重要特徴として理解されていた特徴を元データから削除する。そして、C4.5を減少データに適用して第2の木を生成した。以下同様に行った。
本方法を先行技術と組み合わせることで精度を向上できるかを検討する。例えば、C4.5は発見的方法であるので、全ての重要な規則の発見に対する出願人の答えは、まだ不完全である。他方、イマージングパターン法では、データ次元がそれほど高度でなければ、この不完全問題を解決することができる。イマージングパターン法とC4.5ヒューリスティックスを組み合わせると、最適な答えにより近い近似が得られる可能性がある。
好ましくは、生物学的データ又は訓練データセットは高次の情報(high-dimensional information)である。ここで用いられるように、「高次の情報」とは、約100以上の要素を含む情報という意味である。「生物学的データ」は、哺乳類、爬虫類、昆虫、魚、植物、細菌、酵母、ウイルス等の有機物から得られる任意の情報を含む。この情報は、転写情報又は翻訳情報等の遺伝子発現情報を含む。この情報は、サイズ:電荷比等の質量分析情報であってもよい。
好ましくは、生物学的データ又は訓練データセットは、マイクロアレイ装置又は質量分析計から得られる。
本発明の方法がコンピュータ実行可能プログラムの形態で実施されるか検討した。当業者は、当技術分野で周知の多数のプログラム言語のうちの一つで、ここに記載の方法を実施することができるであろう。このような言語は、Fortan、Pascal、Ada、Cobol、C、C++、Eiffel、Visual C++、Visual Basic又はこれらの派生物等を含むが、これらに限定されない。このプログラムは、揮発性の形態で(例えば、ランダムアクセスメモリ)、又は磁気記憶装置(ハードドライブ等)等のより不変の形態で、或いはCD−ROM上に記憶されてよい。
他の態様において、本発明は、ここに記載のコンピュータ実行可能プログラムを含むコンピュータを提供する。当業者は、中央演算処理装置(CPU)の選択は、実施すべき状況の複雑さによるものであることを理解しているであろう。好ましくは、中央演算処理装置は、Pentium1、Pentium2、Pentium3、Pentium4、Celeron、MIPS RISC R10000又は更によいものを含む群から選択される。
他の態様において、本発明は、ここに記載の識別方法に従って作成される一又は一組の規則を提供する。
更なる態様において、本発明は、ここに記載の識別方法を備えた、患者の疾患を分類し、特徴付けし、診断し、又は予後診断する方法を提供する。
他の態様において、本発明は、ここに記載の識別方法を備えた、疾患に含まれる生物学的過程を識別する識別方法を提供する。マイクロアレイ実験において特異的に発現した遺伝子は、アップストリーム原因の遺伝子であってよいし、又は単にダウンストリーム代替(surrogates)であってもよい。代替遺伝子(surrogate gene)の発現は、原因遺伝子の発現に強く相関するべきであり、故に同様の識別力を有し、同様の順位であるべきであうことに留意する。従って、重要な規則が上位遺伝子と下位遺伝子との両方を含む場合、これらの遺伝子は独立した活性化経路を有しており、よって、少なくとも二つの遺伝子が原因となることが疑われるであろう。この驚くべき発見は、小児白血病データセット (Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)、肺ガンデータセット(Gordon et al, (2002). Cancer Research, 62, 4963-4967)、卵巣疾患データセット(Petricoin, E.F., et al., (2002) Lancet, 359, 572-577)等の多くの他データセットにおいて観察されている。
本発明はガン以外の疾患の調査に用いられてよいことは理解できるであろう。関連する生物学的データが得られるいずれの疾患も、本発明で用いることができるかを検討する。
ここで、次の限定されない実施例を参照して本発明を更に説明する。
次の実施例では、本発明の方法の性能を、先行技術であるバッギング及びブースティング方法、並びに多様な発現データに関するサポートベクトルマシン(SVM)(Burges (1998). Data Mining and Knowledge Discovery, 2, 121-167)及びk−最近傍法と比較する。該多様な発現データには、小児白血病遺伝子発現データ(Yeoh, E-J., et al. (2002). Cancer Cell 1, 1330143)、卵巣腫瘍プロテオームデータ(Petricoin, E. F., et al., (2002) Lancet, 359, 572-577)、及び他のデータ(Armstrong et al., (2002), Nature Genetics, 30, 41-47)が含まれる。これらのデータはすべて出願人の補足ウェブサイト(http://sdmc.lit.org.sg/GEdatasets)にグループ化されている。
結果を二つの尺度に基づき報告する。即ち、独立したテストサンプルに関する誤分類の数であるテストエラー番号と、10分割交差検定のエラー番号である。エラー番号がx:yの形で表される場合、それは、第1クラスからのx個のサンプルと第2クラスからの任意の個数のサンプルが誤分類されたことを意味する。バッギング及びブースティングで用いる繰り返しの数は、20と設定した。これは出願人の方法で使用される木の数と同じである。実験で用いた主なソフトウェアパッケージは、We/ca version 3.2であり、そのジャバで記述されたオープンソースは、GNU;一般公衆利用許諾契約書(General Public License)の下、http://www.cs.waikato.ac.nz/ ~ml/weka/で利用可能である。
(実施例1:プロテオミクスによる卵巣腫瘍患者及び正常患者との分類)
まず出願人は、(DNA発現の代わりに)血清プロテオミックパターンを用いた卵巣ガンと非ガンの区別の仕方に関する最近の卵巣データセット(Petricoin, E. F., et al., (2002) Lancet, 359, 572-577)について評価した。質量分析により生じたこのプロテオミックスペクトルデータは、http://clinicalproteomics.steem.comに載せている。このサイトには同様のデータセットが幾つかある。本実施例には、最も大きいデータセット(日付6-19-02)を選択した。このデータは総数253個のサンプル(91個のコントロール(非ガン)と162個の卵巣ガン)を有する。各データサンプルは、15154個の特徴で記述される。即ち、質量電荷比(M/Z)15154における、強度の相対振幅で記述される。
各特徴に対して、すべての値(強度)を次式NV=(V-Min)/(Max-Mm)を用いて253個のサンプルについて正規化した。但し、NVは正規化数、Vは生の値、Mmは与えられた特徴における最小強度、Maxは最大強度である。正規化データは、出願人の補足ウェブサイト(http://sdmc.lit.org.sg/GEdatasets)に載せている。
元のデータセットは、テストデータセットを別に含んでいない。そのようなものとして、10分割交差検定を用いて全データセットについて出願人の方法を評価した。その性能を図6にまとめた。本発明の方法は、C4.5族アルゴリズムのすべてと比べて著しく良好であることが分かる。即ち、10又は7個の誤りを、総数253個のテストサンプルにおいてエラーの無い性能にまで減少させており、血清プロテオミックデータに基づく卵巣ガンに対して非常に優れた診断精度を生み出している。
更なる比較として、SVM及び3−最近傍法を用いて、同じく10分割交差検定を実施した。SVMもまた100%の精度に達した。しかしながら、SVMは、決定の際に40個のサポートベクトルと8308個のカーネル評価とともに、15154個の入力特徴のすべてを用いた。このシステムにより下される任意の診断決定について、理解できる説明を導きだすのは難しい。一方、出願人の方法は、20個の木と100未満の規則のみを用いた。他の非線形分類器や3−最近傍法には、15個の誤りがある。
特別な番号の或いは臨機応変の、上位特徴のみを分類モデルに用いる場合は、結果はどうなるであろうか。上位10、20、25、30、35又は40位にエントロピー順位付けされた特徴のみを用いる場合、サポートベクトルでは完全な精度に達することはできないであろう。また、出願人の方法も完全な100%の精度に達することはできないであろう。k−最近傍法、C4.5族アルゴリズム、又は単純なベイズ等の他のすべての分類器についても同様である。従って、出願人のアルゴリズムとサポートベクトルマシンは、すべての特徴空間を考慮する際、100%精度に達することができるので、削除した閾値をこれらの特別な番号の一つに設定した場合は、分類アルゴリズムはこのデータセットにおいて完全な精度を逃すことになるであろう。実際、第3000位以下に順位付けされた下位特徴を幾つか用いた。このような比較結果は、分類器が完全な性能を得るためには、幾つかの下位特徴が必要であることを示している。出願人の方法で用いられたように、全特徴を考慮に入れること(大抵は最終規則には従わないであろうが)は、上位特徴のみを用いるという考え方よりも柔軟な考え方である。
(実施例2:遺伝子発現による小児白血病のサブタイプ分類)
児童の急性リンパ性白血病(ALL)は1種類ではない疾患(heterogeneous disease)である。白血病の正しいサブタイプを識別する現在の技術は、不明確で費用の高いプロセスであり、通常は、単一の病院に集まっていない多くの専門家からの専門的知識を結びつけることが必要である(Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)。マイクロアレイ遺伝子発現技術と教師付き分類(supervised classification)アルゴリズムとを用いることで、診断費用を減らし、かつ診断と予後診断の精度が増すように、この問題を解決することができる。
小児白血病のサブタイプ分類は、以前から総合的に研究されてきた。その全データは、327個のALLサンプルの遺伝子発現プロファイルからなる。これらのプロファイルは、12558個の遺伝子に対するプローブを含むAffymetrix U95A GeneChipにおいて、ハイブリダイゼーションにより得た。このデータは、すべての公知の急性リンパ性白血病のサブタイプを含み、T細胞(T−ALL)、E2A−PBX1、TEL−AML1、BCR、ABL、MLL、及びhyperdiploid(Hyperdip>50)を含む。このデータを、215事例の訓練セットと112サンプルの独立テストセットとに分けた。T−ALL、E2A−PBX1、TEL−AML1、BCRABL、MLL、及びHyperdip>50に対して、夫々28、18、52、9、14、及び42の訓練事例があり、また夫々15、9、27、6、6、及び22のテストサンプルがある。他のハイブリッド型サブタイプには、52の訓練事例と27のテストサンプルがある。
元の訓練データ及びテストデータを、木構造で層状にした。図7に、6レベルの木構造データを用いた、4個の分類モデルにおけるテストエラー番号を示す。出願人のテスト精度はC4.5やブースティングと比べて非常に良好であり、またバッギングよりも優れていた。SVMは、112テストサンプルの同セットに23個の誤りがあったが、3−最近傍法では22個の誤りを生じた。従って、これらの精度は約80%である(これは出願人の精度94%をはるかに下回っている)。加えて、SVMモデルは非常に複雑で、何百ものカーネルベクトルと、何万ものカーネル評価とからなる。一方、出願人の規則は、カバレッジ(coverage)が非常に高い3又は4個の特徴を含むのみである。よって規則を容易に理解できる。
全データセットにおいて各サブタイプを他のすべてのサブタイプからうまく区別する方法を見るために、10分割交差検定による結果も報告する。結果を図8に示す。この場合でも、出願人の方法は、C4.5アルゴリズム族や3−最近傍方(3−NN)よりも性能が優れており、SVMと同等の性能を示した。
(実施例3:遺伝子発現による肺ガンのタイプ分類)
遺伝子発現方法もまた肺ガンの分類に用いることができ、現行の扱いにくい従来方法に代わって、例えば悪性胸膜中皮腫(MPM)と肺の腺癌(ADCA)との病理的な差異を検出できる可能性を秘めている。実際、最近の研究では、比率に基づく診断を用いて、181個の組織サンプル(31のMPMと150のADCA)でMPMと肺ガンとを正確に識別した。これにより、遺伝子発現結果が肺ガンの臨床診断に有用であることが示唆された。
この場合、訓練セットはかなり小さいもので、32個のサンプル(16のMPM及び16のADCA)を含むが、テストセットは比較的大きく、149個のサンプル(15のMPMと134のADCA)を有することに留意したい。各サンプルは、12533の特徴(遺伝子)で記述される。C4.5族アルゴリズムとの比較結果を図9に示す。またしても、出願人の結果はC4.5(単一、バッギング、及びブースティング)よりも良好である。
(実施例4:他のデータセットにおける結果)
今までに検討したデータセットは、すべて、百サンプルよりも多い。本実施例では、二つの比較的小さいデータセット(Armstrong et al., (2002), Nature Genetics, 30, 41-47)を用いて、本発明の方法が小データセットの場合に、いかにうまく実施されるかを確認した結果を示す。
(Armstrong et al., (2002), Nature Genetics, 30, 41-47)からの第1小データセットを、MLLと他の従来型ALLサブタイプとの識別に用いる。合計57クラスの訓練サンプルのみ(ALL、MLL、及びAMLに対して夫々20、17、20サンプル)と15テストサンプル(ALL、MLL、及びAMLに対して夫々4、3、8サンプル)がある。図8(第2列)は、対応する分類性能を示している。またしても、単一C4.5の木では他の分類器よりも数箇所多く誤りを生じた。一方、出願人の方法は際立って優れている。SVMは出願人の方法と同様な結果であり誤りを生じないが、3−最近傍法では2個の誤りを生じた(1:1:0)。広く用いられているALL対AMLデータセット(Golub et al (1999), Science, 286, 531-537.)に対する性能も、図8に示す。この例では、出願人の方法は、34テストサンプルでC4.5族アルゴリズムよりも一つ多い誤りを生じた。しかしながら、出願人の方法はSVM(5個の誤り)及び3−NN(10個の誤り)よりも良好であった。他方、全72サンプルにおける総合的な10分割交差検定については、出願人の方法は、ただ一つの誤りを生じるだけで、C4.5族アルゴリズムよりも非常に良好であった(図8の最終列を参照)。この実験において、SVMは出願人の方法と同じ誤りを生じたが、k−最近傍法は10個の誤りを生じた。特別な番号(50、100、又は200)の上位特徴を予め設定して用いる場合、どの分類器も、すべての元の特徴を考慮する場合よりも良好な性能に達することができない。あらためて、これは、全ての元の特徴を、出願人の規則形成における選択用に、利用可能とすることは、有利であることを意味する。
(実施例5:発見が少量の上位特徴に基づく場合、規則の重要性が減少変化)
ここではC4.5を用いて(Quinlan, J.R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann)、二本の木、即ち二グループの規則を構成し、その後それらの規則を比較して変化があるかどうかを調べた。先ず、一本の木を、元の全特徴空間に基づいて構成する。木のノードの選択は、任意の特徴に自由に開かれており、全体的に下位の特徴を含んでいる。図2(a)に、前立腺疾患データセット(Singh et al (2002), Cancer Cell, 1, 203-209)から発見された木を示す。この木において根から葉へ至る各経路は、単一の規則を表している。従って、この木は五つの規則を有することが、その5枚の葉への深さ優先走査(depth-first traversal)により分かる。これらの規則を、左側から右側へ向かって1、2、3、4及び5とする。これらに対応するカバレッジ、及び含まれる特徴の数を図3に示す。規則1は、最重要規則であり、腫瘍クラスについて94%のカバレッジを有する。前述のように、この規則は二つの極めて下位の特徴を含んでいることを思い出してもらいたい。
次に、構成すべき第2の木は、3個の全体的に上位にある特徴、即ち、32598_at、38406_at、及び37639_atに限定されている。この3という数は、最重要規則(第1の木の規則1)における特徴の数と同じになるように選択した。図2(b)は、第2の木の構造を示している。規則の夫々のカバレッジ、及びそれらが含む特徴の数を図4に示す。
重要な観察結果は、予め選別された上位特徴のみで構成した第2の木では、上位の規則の重要性が予想外に減少したことである。この観察結果は、最良は第2位特徴グループであり得て、上位特徴を集めても必ずしも最重要規則を生じない、という出願人の意見を支持するものである。
実際、出願人は、最重要規則における最下位特徴の位置をpとする場合に、少なくともp個の上位特徴が、同じ重要度の規則を含むことが可能な決定木を導き出すのに必要であることを示した。全特徴空間を考慮しないと、この数pを知ることは難しい。従って、上位特徴を選択するための閾値を予め設定することは、有益な下位特徴を失うというリスクをもつヒューリスティック(発見的方法)である。
(実施例6:予測の際、代替の木は等しく機能する)
本実施例の目的は、同じ訓練データセットから、多様化されているが予測の際に等しく機能する二本の木(又は二グループの規則)を生成することができるかについて調べることである。
データセットが与えられると、根ノードとして最も識別的(差別的)特徴を用いた「最適」の木を、C4.5を用いて生成した。次に、代替の木を生成するために、C4.5とは僅かに異なる手法を用いた。第2位特徴を、この木の根ノードとした。そして、残りのノードを標準C4.5方法により構成した。このような木のペアは、殆ど同様な予測力を有していることが多く、また第2の木が第1の木よりも機能面で優れる場合もあることを、出願人は見出した。
例として、いわゆる第2位の木(second-best tree)が実際に第1の木よりも非常に優れた機能を示すような一ペアの木を示す。図5に、小児白血病における他のサブタイプからサブタイプHyperdip>50を識別するために設定された、階層化データについて構成された「最適」C4.5の木を示す。このC4.5の木は、訓練データでは誤りがないが、49テストサンプルのうち13個の誤りを生じた。この場合、出願人の第2位の木は、テストセットについて9個の誤りを生じるのみで、第1の木の見るに耐えない精度を、独立に向上させることができた。興味深いことに、この木のペアを出願人の方法と組み合わせた際(次の項に示す)、得られるハイブリッド或いは組み合わせにおける誤りは更に少なく、6個のみであった。
この木のペアをさらに詳しく調べてみると、第1の木で用いた特徴のセットは、第2の木で用いたセットから分けられていることを、出願人は見出した。前者は次の4つの特徴をその木のノードで有している。即ち、3662_at、39806_at、32845_at、及び34365_atである。一方、後者はその木の4つのノードにおいて異なる組の特徴を有している。即ち、38518_at、32139_at、35214_at、及び40307_atである。従って、その二本の木は、実に多様化されている。その二本の木の夫々は、二つの重要規則を含んでおり、その夫々は二クラスのうちの一クラスに対するものである。この場合も、これらの重要規則は、第1878位にある34365_at等の、非常に下位の特徴を含む。ここで、他の特に興味深い点は、第2の木における上位規則のカバレッジは、第1の木における規則よりも増加したことである。これにより、なぜ第2の木が第1の木よりも機能が優れているのかの説明がつく。
それにもかかわらず、小児白血病のサブタイプMLLをその他のサブタイプから識別するために、階層化データセット(Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)から構成される木において、別の例を発見できる。ここで、第1の標準C4.5の木は55テストサンプル中1個の誤りを生じたが、出願人の第2の木は2個の誤りを生じた。しかしながら、この二本の木を組み合わせると、そのハイブリッド或いは組み合わせは、テストセットで誤りを生じなかった。無作為に、そのような10個の木のペアを検討し、4対については第1の木が優れており、3対については第2の木が優れており、また3対については性能面でその二本の木の結びつきがあることが分かった。
出願人の木のペアは概ね同様の予測力を有しているので、データの特徴とそれら自体の多様化した経験との固有の内部関係を理解した「専門家(experts)」として取り扱うことができる。これは木の集団或いは専門集団(committee of trees)という手法を示唆する。即ち、第3の木や第4の木等を生成することにより、木の「専門的知識(expertise)」の多様性を増加できる。このような木の集団手法でもたらされる広範囲の多様性は、集団における個々の木の高品質性と共に、科学者が生物医学データを研究し、ガンの診断を確実に実施するのに良好な基礎を提供するであろう。
(実施例7:規則発見)
正負の二クラスのサンプルを有する訓練データセットDが与えられると、次のステップにより、DからDの木を繰り返して導き出した。ここでDは、Dで用いる特数よりもかなり少なく、通常、Dを20と設定した。
ステップ1:利得比を用いて、全特徴を最良の特徴を第1位にした順序付きリストに並べる。
ステップ2:i=1
ステップ3:i番目の特徴を根ノードとして用いて、i番目の木を構成する。
ステップ4:i=kになるまで、iを1だけ増加させ、ステップ3に進む
そして、深さ優先走査によりこれらの木から規則を直接生成することができる。重要な規則を識別するために、各規則のカバレッジに従って全規則の順位付けを行う。上位の規則が重要である。その後、これらの規則に含まれる特徴(例えば、遺伝子又はタンパク質)において可能な相互作用を理解するために、これらの重要な規則を用いてもよい。これらの規則をクラス予測に用いるために、出願人の方法を次項に述べる。
(実施例8:クラス予測)
テストサンプルTが与えられると、集団におけるk本の木の夫々は、このテストサンプルに対して予測されるクラスラベルを教示する特定の規則を有するであろう。
木の集団から得られるk規則は、
Figure 2007504542
ここで、k1+k 2=kである。各rulei pos(1≦i≦k 2)はTが正クラスであると予測するが、各rulei neg(1≦i≦k 2)はTが負クラスであると予測する。時々、k予測は同じになりうる。即ち、k1=0又はk2=0となる。このような状況では、すべてのk規則からの予測は互いに一致し、最終決定は明白で信頼できそうである。しばしば、k決定を正クラスの大部分又は負クラスの大部分と混合する。このような状況で次式を用いてこれらの規則のカバレッジに基づく二つの分類スコアを算出した。
Figure 2007504542
Scorepos(T)がScoreNeg(T)よりも大きい場合、正クラスはテストサンプルTに割り当てられる。さもなければ、Tは負であると予測される。
この規則のカバレッジを、重み或いは重み付けとして用いると、バッギング(Breiman, L (1996). Machine Learning, 24, 123-140)により採用された単一で等しい投票(simple equal voting)の落とし穴は避けられる。出願人の重み付け方針により、予測工程において木の集団が自動的に貢献度を重要でない規則及び重要な規則から区別することができる。
多クラスの問題については、クラスCと称する特定のクラスに対する分類スコアは次のように算出される。
Figure 2007504542
その後、最高スコアを獲得するクラスをテストサンプルのクラスと予測する。
最後に、当然のことながら、本発明の精神及び範囲を逸脱することなく、前述の構成に対して多数の変更、変形、及び代替を行ってもよい。
前立腺疾患遺伝子発現プロファイリングデータから発見される重要規則で用いられる三つの特徴における各種順位位置を示している。ここで、S−N(S to N)は、信号ノイズ比の計測値を表す。 102個の細胞の遺伝子発現プロファイルの前立腺疾患データセットから誘導された二本の木を示す。(a)すべての特徴セットを用いて構成した標準のC4.5の木。(b)3個の上位特徴のみを用いて構成した木。 前立腺疾患遺伝子発現プロファイリングデータに由来するC4.5の木における5つの規則を示す。 3個の上位特徴のみに関して構成されたC4.5の木における出願人の規則を示す。 サブタイプHyperdip>50を、小児白血病の他のサブタイプから識別するための、階層データセットからC4.5により誘導された決定木を示す。ここで、Hr50=Hyperdip>50、a=16116.4、b=4477.9、c=3453.4、d=2400.9である。 253個のプロテオーム卵巣データサンプルについて、4個の分類モデルによる10分割交差検定(10−fold cross validation)のエラー番号(ガン:正常)を示す。 ALL疾患(Yeoh, E-J., et al. (2002). Cancer Cell 1, 133-143)の6サブタイプ分類の問題における112個の独立テストサンプルに関する4個のモデルのテストエラー番号を示す。 ALL疾患のサブタイプ分類の問題における10分割交差検定の結果を示す。 独立した149個のMPM及びADCA組織サンプルについて4個の分類モデルによるテストエラー番号(MPM:ADCA)を示す。 2個の小データセットに関する4個の分類モデルによるテストエラー番号(MPM:ADCA)を示す。

Claims (46)

  1. 生物学データの解析に有用な規則を識別する識別方法であって、
    複数の特徴を有する訓練データセットを提供する提供工程と、
    前記データセットを用いて決定木を生成する生成工程と、
    を備え、
    前記訓練データセットは、前記決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法。
  2. 前記データセットにおける特徴の数は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項1に記載の識別方法。
  3. 前記データセットにおける特徴の値は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項1又は2に記載の識別方法。
  4. 前記特徴は、遺伝子に関する情報を提供することを特徴とする請求項1から3のいずれか一項に記載の識別方法。
  5. 前記情報は、前記遺伝子の発現レベルに関することを特徴とする請求項4に記載の識別方法。
  6. CART、C4.5、OC1、TreeAge、Albero、ERGO、ERGOV、TESS、及びeBestMatchからなる群から選択されるソフトウェアパッケージで具現化される方法を用いて、前記決定木は、生成されることを特徴とする請求項1から6のいずれか一項に記載の識別方法。
  7. 前記規則は、予測項を有する一又は複数の条件からなることを特徴とする請求項1から6のいずれか一項に記載の識別方法。
  8. 前記条件は、連言的であることを特徴とする請求項7に記載の識別方法。
  9. 前記規則は、
    条件1かつ条件2かつ...条件mならば、予測項である
    ことを特徴とする請求項8に記載の識別方法。
  10. 規則における全条件は、前記予測クラスの少なくとも一つのサンプルにおいて成立することが必要であることを特徴とする請求項7から9のいずれか一項に記載の識別方法。
  11. 規則における全条件は、前記予測項における前記クラス以外のいずれかのクラスのいずれかのサンプルにおいて、必ずしも成立することは必要でないことを特徴とする請求項7から10のいずれか一項に記載の識別方法。
  12. 前記規則における条件の数は、約5よりも少ないことを特徴とする請求項7から11のいずれか一項に記載の識別方法。
  13. 前記条件の数は、1又は2又は3であることを特徴とする請求項12に記載の識別方法。
  14. 生物学データの解析に有用な二以上の規則を識別する識別方法であって、
    複数の特徴を有する訓練データセットを提供する提供工程と、
    根ノードとして前記データセットの一つの特徴を有する第1決定木を生成する生成工程と、
    前記第1決定木から一の規則を得る獲得工程と、
    前記根ノードとして、その他の決定木で先に用いられていない前記データセットの特徴を有する一又は複数の決定木を生成する生成工程と、
    一又は複数の決定木の夫々から更なる規則を得る獲得工程と、
    を備え、
    前記訓練データセットは、少なくとも一の決定木が繰り返して構成される間、実質的に変えられないままであることを特徴とする識別方法。
  15. 前記データセットにおける特徴の数は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項14に記載の識別方法。
  16. 前記データセットにおける特徴の値は、前記決定木を生成する生成工程の間中、実質的に変えられないことを特徴とする請求項14又は15に記載の識別方法。
  17. 前記特徴は、遺伝子に関する情報を提供することを特徴とする請求項14から16のいずれか一項に記載の識別方法。
  18. 前記情報は、前記遺伝子の発現レベルに関することを特徴とする請求項17に記載の識別方法。
  19. CART、C4.5、OC1、TreeAge、Albero、ERGO、ERGOV、TESS、及びeBestMatchからなる群から選択されるソフトウェアパッケージで具現化される方法を用いて、前記決定木は、生成されることを特徴とする請求項14から18のいずれか一項に記載の識別方法。
  20. 約20の決定木が生成されることを特徴とする請求項14から19のいずれか一項に記載の識別方法。
  21. 前記規則は、予測項を有する一組の条件であることを特徴とする請求項14から20のいずれか一項に記載の識別方法。
  22. 前記条件は、連言的であることを特徴とする請求項21に記載の識別方法。
  23. 前記規則は、
    条件1かつ条件2かつ...条件mならば、予測項である
    ことを特徴とする請求項22に記載の識別方法。
  24. 規則における全条件は、前記予測クラスの少なくとも一つのサンプルにおいて成立することが必要であることを特徴とする請求項21から23のいずれか一項に記載の識別方法。
  25. 規則における全条件は、前記予測項における前記クラス以外のいずれかのクラスのいずれかのサンプルにおいて、必ずしも成立することは必要でないことを特徴とする請求項21から24のいずれか一項に記載の識別方法。
  26. 前記規則における条件の数は、約5よりも少ないことを特徴とする請求項21から25のいずれか一項に記載の識別方法。
  27. 前記条件の数は、1又は2又は3であることを特徴とする請求項26に記載の識別方法。
  28. 前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約25%を考慮することを特徴とする請求項14から27のいずれか一項に記載の識別方法。
  29. 前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約50%を考慮することを特徴とする請求項28に記載の識別方法。
  30. 前記二以上の決定木の夫々は、前記データセットの全特徴の少なくとも約75%を考慮することを特徴とする請求項29に記載の識別方法。
  31. 前記二以上の決定木の夫々は、前記データセットの実質的にすべての特徴を考慮することを特徴とする請求項30に記載の識別方法。
  32. 重要な規則を得るために、少なくとも二つの得られた規則の精度を比較する比較工程を更に備えることを特徴とする請求項14から31のいずれか一項に記載の識別方法。
  33. 前記訓練データセットとの比較により、又は独立に検証された結果を有するテストデータセットを用いることにより、前記規則の精度を比較することを特徴とする請求項32に記載の識別方法。
  34. 前記比較は、前記データセットのカバレッジに基づく前記規則の重み付けを含むことを特徴とする請求項33に記載の識別方法。
  35. 前記重要な規則は、下位特徴を含むことを特徴とする請求項32から34のいずれか一項に記載の識別方法。
  36. 利得比、信号ノイズ測定、時間統計、エントロピー、及びX測定からなる群から選択される方法を用いて、特徴の順位は、決定されることを特徴とする請求項35に記載の識別方法。
  37. 利得比又はエントロピーに従って、前記データセットにおける全特徴の順位付けを行うことにより、前記決定木の根ノードを規定する前記複数の特徴は、選択されることを特徴とする請求項32から36のいずれか一項に記載の識別方法。
  38. 前記根ノードとして第1位特徴を用いて前記第1の木が生成され、前記根ノードとして第2位特徴を用いて前記第2の木が生成され、以下同様であることを特徴とする請求項14から37のいずれか一項に記載の識別方法。
  39. 請求項1から38のいずれか一項に記載の識別方法を実行することができるコンピュータ実行可能プログラム。
  40. 請求項1から38のいずれか一項に記載の識別方法に従って作成される一又は一組の規則。
  41. 請求項1から38のいずれか一項に記載の識別方法を備えた、患者の疾患を分類し、特徴付けし、診断し、又は予後診断する方法。
  42. 請求項1から38のいずれか一項に記載の識別方法を備えた、疾患に含まれる生物学的過程を識別する識別方法。
  43. 前記疾患がガンであることを特徴とする請求項41又は42に記載の方法。
  44. 前記ガンは、前立腺ガン、小児白血病、及び卵巣ガンからなる群から選択されることを特徴とする請求項43に記載の方法。
  45. 任意の非比較の実施例を参照して実質的に明細書中に記述された請求項1に記載の識別方法。
  46. 任意の非比較の実施例を参照して実質的に明細書中に記述された請求項14に記載の識別方法。
JP2006525010A 2003-09-05 2004-09-06 生物学データを処理する方法 Abandoned JP2007504542A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2003904855A AU2003904855A0 (en) 2003-09-05 Methods of processing biological data
PCT/AU2004/001199 WO2005024648A1 (en) 2003-09-05 2004-09-06 Methods of processing biological data

Publications (1)

Publication Number Publication Date
JP2007504542A true JP2007504542A (ja) 2007-03-01

Family

ID=34230080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006525010A Abandoned JP2007504542A (ja) 2003-09-05 2004-09-06 生物学データを処理する方法

Country Status (5)

Country Link
US (1) US20060287969A1 (ja)
EP (1) EP1661022A1 (ja)
JP (1) JP2007504542A (ja)
CN (1) CN1871595A (ja)
WO (1) WO2005024648A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006036150A1 (en) * 2004-09-28 2006-04-06 Nielsen Media Research, Inc Data classification methods and apparatus for use with data fusion
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
RU2517286C2 (ru) * 2008-04-25 2014-05-27 Конинклейке Филипс Электроникс Н.В. Классификация данных выборок
KR101025848B1 (ko) * 2008-12-30 2011-03-30 삼성전자주식회사 개인 유전체 통합 관리 방법 및 장치
WO2012059839A2 (en) * 2010-11-01 2012-05-10 Koninklijke Philips Electronics N.V. In vitro diagnostic testing including automated brokering of royalty payments for proprietary tests
CN105468933B (zh) * 2014-08-28 2018-06-15 深圳先进技术研究院 生物学数据分析方法和系统
CN105101092A (zh) * 2015-09-01 2015-11-25 上海美慧软件有限公司 一种基于c4.5决策树的手机用户出行方式识别方法
CN106485146B (zh) * 2015-09-02 2019-08-13 腾讯科技(深圳)有限公司 一种信息处理方法及服务器
CN108446726B (zh) * 2018-03-13 2019-07-19 镇江云琛信息技术有限公司 基于信息熵增益率与fisher线性判别的车型识别分类方法
CN111343127B (zh) * 2018-12-18 2021-03-16 北京数安鑫云信息技术有限公司 一种提升爬虫识别召回率的方法、装置、介质及设备
US11393590B2 (en) * 2019-04-02 2022-07-19 Kpn Innovations, Llc Methods and systems for an artificial intelligence alimentary professional support network for vibrant constitutional guidance
US11461664B2 (en) * 2019-05-07 2022-10-04 Kpn Innovations, Llc. Methods and systems for an artificial intelligence alimentary professional support network for vibrant constitutional guidance
US10593431B1 (en) * 2019-06-03 2020-03-17 Kpn Innovations, Llc Methods and systems for causative chaining of prognostic label classifications

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000065480A2 (en) * 1999-04-23 2000-11-02 Oracle Corporation System and method for generating decision trees
US6532467B1 (en) * 2000-04-10 2003-03-11 Sas Institute Inc. Method for selecting node variables in a binary decision tree structure
WO2002047007A2 (en) * 2000-12-07 2002-06-13 Phase It Intelligent Solutions Ag Expert system for classification and prediction of genetic diseases

Also Published As

Publication number Publication date
US20060287969A1 (en) 2006-12-21
EP1661022A1 (en) 2006-05-31
CN1871595A (zh) 2006-11-29
WO2005024648A1 (en) 2005-03-17

Similar Documents

Publication Publication Date Title
Li et al. Discovery of significant rules for classifying cancer diagnosis data
Wei et al. Spatial charting of single-cell transcriptomes in tissues
Kuehn et al. Using GenePattern for gene expression analysis
JP5464503B2 (ja) 医療分析システム
Lazar et al. A survey on filter techniques for feature selection in gene expression microarray analysis
US20060259246A1 (en) Methods for efficiently mining broad data sets for biological markers
KR20030074585A (ko) 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의식별 방법
JP2012514783A (ja) 進化クラスタ化アルゴリズム
Horng et al. An expert system to classify microarray gene expression data using gene selection by decision tree
Armananzas et al. Peakbin selection in mass spectrometry data using a consensus approach with estimation of distribution algorithms
Athieniti et al. A guide to multi-omics data collection and integration for translational medicine
Yip et al. A survey of classification techniques for microarray data analysis
JP2007504542A (ja) 生物学データを処理する方法
Zolfaghari et al. Cancer prognosis and diagnosis methods based on ensemble learning
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Tian et al. Incorporating pathway information into feature selection towards better performed gene signatures
Tian et al. Weighted-SAMGSR: combining significance analysis of microarray-gene set reduction algorithm with pathway topology-based weights to select relevant genes
Dinger et al. Clustering gene expression data using a diffraction‐inspired framework
Sharma et al. Predicting survivability in oral cancer patients
Sajjadi et al. Network-based methods to identify highly discriminating subsets of biomarkers
Shi et al. An application based on bioinformatics and machine learning for risk prediction of sepsis at first clinical presentation using transcriptomic data
Mendonca-Neto et al. Classification of breast cancer subtypes: A study based on representative genes
Wong et al. A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection
CN115274136A (zh) 整合多组学与必需基因的肿瘤细胞系药物响应预测方法
WO2011119967A2 (en) System,method and computer-accessible medium for evaluating a maliganacy status in at-risk populations and during patient treatment management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070615

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090223