JP2005538437A - エマージングパターンからの尤度集合による予測 - Google Patents

エマージングパターンからの尤度集合による予測 Download PDF

Info

Publication number
JP2005538437A
JP2005538437A JP2004530722A JP2004530722A JP2005538437A JP 2005538437 A JP2005538437 A JP 2005538437A JP 2004530722 A JP2004530722 A JP 2004530722A JP 2004530722 A JP2004530722 A JP 2004530722A JP 2005538437 A JP2005538437 A JP 2005538437A
Authority
JP
Japan
Prior art keywords
data
class
emerging
list
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004530722A
Other languages
English (en)
Inventor
ジン, ヤン リ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of JP2005538437A publication Critical patent/JP2005538437A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】新しいデータを分類する時の非常に大きい数のエマージングパターンにより、CAEP(:エマージングパターン集合による分類) とジャンピング・エマージングパターンの両方の利用は、労働集約的である。非常に大きなデータセットに取り組むときの効率は、今日の応用において最高である。従って、方法は、それが有効で、新しく、有用で、かつ、わりやすい規則を導き、しかし、安価であることが望まれ、そして、分類に本当に有用である少ない数の規則の確認に対して、効率的アプローチの利用による、方法が望まれる。そのような方法の実現である。
【解決手段】nが2又はそれ以上であるn個のクラスのひとつに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法であって、少なくとも、各々のn個のクラスのデータの1個の実例を有する訓練データセットDから、複数のエマージングパターンを抽出すること、と、n個のリストを作成すること、そこでは、n個のリストのi番目のリストが、i番目のクラスのデータ内のゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEPi(m)の発生頻度fi(m)を含む、ことを特徴とする、と、kは、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、n個のスコアの計算すること、そこでは、前記n個のスコアのi番目のスコアを、また前記試験データで発生する前記i番目のスコアのk個のエマージングパターンの頻度から得る、ことを特徴とする、と、そして前記n個のスコアのもっとも高いものを選ぶことにより、試験データが、n個のクラスのデータのどこに分類されるかを推論すること、とから成る、nが2又はそれ以上であるn個のクラスのひとつに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法。

Description

本発明は、一般的に、データマイニング方法(データ発掘法)に関し、更に、特にそれらの分類におけるデータ知識に基づいた2個あるいはそれ以上の可能な分類の1つに試験サンプルを正しく分類する規則(ルール)を基準とした方法に関連する。 特に本発明はエマージングパターン手法を使っている。
デジタルの時代の到来はダムの崩壊に近かった:情報の本流が解き放されて、私たちは今データの上げ潮に洗い流されている。情報、結果、計測及び計算データは、一般的に、磁気記録、あるいは光学的媒体上に、現在大量にあり、そしてすぐに利用可能である。計算能力は引き続き増大しているので、膨大なデータを効率的に分析出来るという約束は、しばしば果たされるが、更なる大きな量を分析できるという期待は、更に複雑な分析的方法を開発するための原動力を提供している。従って、常にデータに意味を与える必要があり、それによって、それを有用な知識に変えることが、統計分析、パターン認識、データマイニング方法においての、相当の研究努力になっている。
データは数、値、あるいは構成されている述部以上のものです。データは ただ奇妙で複雑で、しかも、人間の脳によってすぐには理解できないリッチハーバや多彩な風景である、多次元空間に住んでいる。最も複雑なデータは、多くの明らかな独立変数に依存する測定や計算から生じる。何百もの変数を持つデータセットが、今日、以下を含む多くの階梯で生じます; ゲノムとそれが暗号化する様々なタンパク質間のリンクを明らかにするための遺伝子表現データ、潜在的な社会学的、経済学的傾向性を獲得することのための人口統計と消費者のプロファイリングデータ、そして、汚染、気象の変化及び影響問題の源のような現象を理解するための環境測定。
回帰、クラスタリング(群化)、要約、従属化モデリングおよび変化と偏差の検出のようなデータに関して達成されるであろう基本的運用の間では、分類が極めて重要である。特別な変数間に明らかな相関がないところでは、潜在的なパターンと規則(ルール)を推論する必要がある。データマイニング分類は、パターンあるいは規則のような、正確で効率的な分類器を構築することに狙いを定める。過去、これは可能であった、それは、大きなデータセットに対して骨の折れる学習でした、それゆえ、何年にもわたって、それが機械学習(マシーン・ラーニング)の分野をもたらした。
従って、簡単な調査による、パターン、関係及び潜在的法則の抽出は、自動化分析ツールの使用によって長い間取ってかわられている。それにもかかわらず、理想的にパターンを推論することは、複雑さの征服のみならず、また極めて重要なそれらのパラメーターと、新しい有利な実験への道に向かうポイントを示す推論原理を提示する。これが有用なデータマイニングの本質です;パターンは、データに構成を課するのみならず、また、新しいデータが常に獲得されるところの価値あるものに出来る予測の役割を提供する。この意味において、広く評価されたパラダイムは、よく訓練セット(トレーニング・セット)と呼ばれる何らかの初期データセットを用いて、パターンが、学習プロセスからもたらす1つである。しかし、今日用いられる多くの技術は、法則やパターンの構築をせずに新しいデータの特徴を予測するか、あるいは、予測されるが、特にわかりにくい分類規則を構築する。更に、これら方法の多くは、大きいデータに対しては非常に効率が悪い。
近年、パターンの4つの望ましい属性が明確になった(参照:ドン& リー:「エマージングパターンの効率的マイニング:傾向と差異の発見」、ACM SIGKDD、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52 (1999年8月)、尚、これらは、この中に完全に参照されている)。(a) それらは、有効である、すなわち、それらは、また、高い確定で新しいデータに観測される。(b)それらは、機械(マシーン)によって得られたパターンが専門家にとって明白ではなく、新しい洞察を提供するという意味で、斬新である。(c)それらは、有用である、すなわち、それらは、信頼性の高い予測を可能にする。そして(d)それらは、わかりやすい、すなわち、それらの表現は、それらの解釈への障害を引き起さない。
機械学習の分野において、最も広く使われた予測方法は、次のようなものである:K-ニアレストネイバー法(参照:例えば、カバー&ハート、「Nearest neighborsパターン分類」、IEEE Transactions on Information Theory、13: 21-27、(1967))、ニューラルネットワーク法(参照:例えば、ビショップ、「パターン認識のためのニューラルネットワーク」、オックスフォード大学出版(1995))、サポート・ベクター・マシーン法(参照:バジャー、「パターン認識のためのサポート・ベクター・マシーンの上の学習」、Data Mining and Knowledge Discovery、2:121-167、(1998))、ナイーブベイズ法(参照:例えば、ラングリー 他、「ベイズ系分類器の解析」、Proceedings of the Tenth National Conference on Artificial Intelligence、223-228、(AAAI出版、1992):原本:ヂューダ&ハート、「パターン分類及び場面分析」、(John Wiley & Sons, NY, 1973))、そして C4. 5法 (参照:クインラン、C4. 5:「機械学習のためのプログラム」、(Morgan Kaufmann、San Mateo、CA、1993))。それらの人気にもかかわらず、これらの方法の各々が、上記で述べた4つの望ましい属性を有するパターンを作成しないことを意味する何らかの欠点で苦しんでいる。
k-ニアレストネイバー法(K-nearest neighbors method)(以下、K-NN法と呼ぶ)は、実例の例あるいは、ラジー学習法(Lazy-learning method)である。ラジー学習法において、データの新しい実例は、決して明快なパターンを得ることなく、訓練セットの項目との直接比較によって分類される。K-NN法は、試験サンプルを、いくらかのメートルの距離の間で近隣度が測られる所の訓練サンプルの中のそのkニアレストネイバー(kの最も近い隣人)の分類に割り当てる。
ニューラルネット(参照:例えば、ミンスキー&パペート、"知覚:計算幾何学の導入、"MIT出版、Cambridge、MA、(1969))は、また新しいデータの分類を予測するツールの例であるが、人が理解できる規則を作成しない。ニューラルネット(神経網)は、ブラック・ボックス法の使用を好む人々に人気がある。
ナイーブベイズ(Naive Bayes)「以下NBと呼ぶ」は、データセットの各々のクラスのデータに対して、確率的要約を計算するためにベイズ系規則を用いる。試験サンプルが与えられた時、NBは、それらの確率的要約に基づくクラスを並べるための評価関数を用い、そして、サンプルを最高スコアのクラスに割り当てる。しかしながら、NBは、与えられた実例の試験データに対して確率をもたらすだけであり、そして一般に、認識可能な規則あるいはパターンには導かない。更に、NBにおいて利用される重要な仮定は、機能が統計的に独立であることです、ところが、多くのタイプのデータに対しては、これはケースではない。 例えば、遺伝子表現プロファイルに含まれる多くの遺伝子は、独立していないように現れるが、しかし、それらのいくつかは密接に関連する。 (参照:例えば、シェーナ他、「相補的DNAマイクロアレイを持つ遺伝子表現パターンの量的監視」、サイエンス、270、467-470、(1995)、ロックハート他、「高密度オリゴヌクレオチドアレイへのハイブリダイゼーションによる表現監視」、ネイチャー、バイオテック、14:1675-1680、(1996)、ベルカレシュウ他、「遺伝子表現の直列分析」、サイエンス、270: 484-487、(1995)、チュウ他、「発芽イースト菌の胞子の転写プログラム」、サイエンス、282:699-705、(1998)、デリシ他、「ゲノムスケール上での遺伝子表現の遺伝子コントロールと新陳代謝の探求」、サイエンス、278:680-686、(1997)、ロバート他、「広範囲の遺伝子表現プロファイルの行列によって明かされた多重MAPK経路の信号と回路」、サイエンス、287: 873-880、(2000)、アロン他、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proc. NATL. ACAD. SCI. U.S.A.、96: 6745-6750、(1999)、ゴルブ他、「癌の分子の分類:遺伝子表現の監視によるクラス発見とクラス予測」、サイエンス、286:531-537、(1999)、ぺロウ他、「人間の乳房の上皮細胞と乳癌の独特な遺伝子表現パターン」、Proc. NATL. ACAD. SCI. U.S.A, 96: 9212-9217、(1999)、ワング他、「cdnaマイクロアレイを用いる卵巣癌腫における遺伝子表現変化プロファイル変化の監視」 GENE、 229:101-108,、(1999))。
サポート・ベクター・マシーン(Support Vector Machines)(以下SVMと呼ぶ)は、線形方法によって効率的にモデル化されないデータに対処する。SVMは、サンプルとそれらクラス属性間の複雑なマッピングを構築するためにカーネル関数を用いる。それらが多次元空間のデータのクラスを分けるために最適な超面(hyper-plane)を定義する実例にハイライトをあてるので、結果としてのパターンは有益なものです。SVMは、複素データに対処することができる、しかし、ブラック・ボックス(フリー他、「サポート・ベクトル・マシーン分類とマイクロアレイ表現データを用いた癌組織サンプルの確認」、Bioinformatics、16: 906-914、(2000))と同様に振舞い、計算的に高価になる。加えるに、必ずしも出てくるわけではないが、適切な非線形のカーネル関数を選ぶためにデータの変数の何らかの理解があることが望ましい。
従って、データマイニングの視点から、外見上異種の情報をはっきりと理路整然とした規則に濃縮する技術がより好ましい。規則を基礎とするデータの構造パターンを明らかにする2つの原理手段は、デシジョンツリー(意思決定樹)と規則誘導(rule- induction)です。デシジョンツリーは、データセットを仕切る役に立って、有用で直観的な枠組みを提供する、しかし、選ばれた出発点に非常になりやすい。だから、数種類の規則が訓練セットにおいて明らかであると仮定すれば、直ちに、デシジョンツリーの構造を通して明らかになる規則は、決定的に、どの分類器がツリーの種を撒くのに使われるかに依存するだろう。だから、それはしばしば重要な規則であり、それゆえ、データに対する重要な分析的フレームワークは、デシジョンツリーに到達することで見渡せる。更に、ツリーからセットの規則への翻訳は、通常まっすぐに向かうが、それら規則は、通常最も明確かあるいは最も簡単なものではない。 対照的に、それらは、可能な限り多くの規則を明らかにすべく捜し求め、1個またはそれ以上の規則によりデータセットの全ての実例を分類するので、規則誘導法は優れている。数多くの規則誘導法とデシジョンツリー法の結合が工夫されているにもかかわらず、ツリー法の使用のたやすさと規則誘導方法の徹底のそれぞれに投資が試みられている。
C4. 5法は、今日用いられる最も成功したデシジョンツリー法の1つです。それは、デシジョンツリーを、連続変化データを含むデータセットへのアプローチに適応させる。デシジョンツリーのリーフノード(葉の節)に対してまっすぐな規則は、簡単に、ルートノード(根の節)からリーフへのツリーを通じての経路を横切って直面した全ての状態の連携であるのに対して、C4. 5法は、中間ポイントのツリーを刈り込むことによってこれらの規則の簡略化を試み、そして可能な刈り込みに対して誤差見積りを導入する。C4. 5法は、理解容易な規則を作成するが、決定境界が直線でない場合、ツリーの異なるポイントで特別変数を異なって区分けする必要の有る現象の場合は、良い性能を有しないであろう。
近年、上に述べた4つの好ましい特質を有するクラス予測法(class prediction method)が提案されている。それは、エマージングパターンのアイデアを基礎としている(参照:ドン&リー:ACM SIGKDD、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52(1999年8月))。エマージングパターン(以下EPと呼ぶ)は、データのクラスを比較するのに有用である、それは、第1クラスのデータ内の主に有る特徴、しかし、第2クラスの相補データ、つまり、第1クラスと重ならないデータ、内の主に無い特徴を指し示す。大きなデータセットからEP’s(EPのもの)を得るアルゴリズムが開発され、遺伝子表現データの分類に応用されている、(参照:リー&ワン、「エマージングパターン及び遺伝子表現データ」、Genome Informatics、12: 3-13、(2001)、 リー&ワン、「エマージングパターン概念を用いた遺伝子表現プロファイルからの良い診断遺伝子グループの確認」、Bioinformatics、18:725-734、(2002)、及びヤオ他、「分類、サブタイプ発見及び遺伝子表現プロファイルによる小児劇症リンパ腺白血病の結果の予測」、Cancer Cell、1:133-143、(2002)、尚、これらは、全てこの中に完全に参照されている)。
一般的に、与えられたデータセットから何千ものEP’sを発生させることが可能である、そのようなケースでは、新しい実例データの分類に対してのEP’sの使用は、扱いにくいかもしれない。この問題に対処する今までの試みを以下に示す:エマージングパターン集合による分類(Classification by Aggregating Emerging Patterns)「以下CAEPと呼ぶ」、(ドン他、「エマージングパターン集合による分類」、DS-99にて: Proceedings of Second International Conference on Discovery Science, 東京、日本、(1999年12月6日から8日)、また、Setsuo Arikawa & Koichi Furukawa、人工知能(Artificial Intelligence)での講演ノート: (Eds.)、1721: 30-42, (1999年春))、及び「ジャンピング EP's」の使用 (リー他、「分類に対して、最も表現的なジャンピング・エマージングパターンの使用」、Knowledge and Information Systems、3:131-145、(2001)、及びリー他、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000))、 全ては、完全にここで参照されている。CAEPにおいて、与えられたEPは、与えられたデータセットの小さな数の実例を分類することが出来るのみであると認識され、試験データのサンプルは、そのエマージングパターンの集合スコアを構築することで分類される。ジャンピングEP(以下J- EPと呼ぶ)は、特別なEPであり、そのサポートが1個のクラスのデータでゼロであり、しかし、そのサポートが相補クラスのデータでゼロでないものである。だから、J-EPは、それらが、パターンを提示し、そのものの変化が最も大きいので、分類に有用である、しかし、分析が、まだ厄介であることを意味する、そこにまだ非常に大きい数のそれらがあるかもしれない。
全ての上述の考察により、あるいは新しいデータを分類する時の非常に大きい数のEP’sにより、CAEP とJ-EP’sの両方の利用は、労働集約的である。非常に大きなデータセットに取り組むときの効率は、今日の応用において最高である。従って、方法は、それが有効で、新しく、有用で、かつ、わりやすい規則を導き、しかし、安価であることが望まれ、そして、分類に本当に有用である少ない数の規則の確認に対して、効率的アプローチの利用による、方法が望まれる。
本発明は、複数のクラスのひとつに、試験データTを有する試験サンプルが分類されるかどうかを決定するための方法、コンピュータプログラム製品及びシステムを提案するものである。
好ましくは、クラスのn数は2あるいはそれ以上であり、方法は、少なくとも、各々のn個のクラスのデータの1個の実例を有する訓練データセットDから、複数のエマージングパターンを抽出すること、と、n個のリストを作成すること、そこでは、n個のリストのi番目のリストが、i番目のクラスのデータのゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEPi(m)の発生頻度fi(m)を含む、と、kは、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、n個のスコアの計算すること、そこでは、n個のスコアのi番目のスコアを、また試験データで発生する前記i番目のスコアのk個のエマージングパターンの頻度から得る、と、そしてn個のスコアのもっとも高いものを選ぶことにより、試験データが、前記n個のクラスのデータのどこに分類されるかを推論すること、とから成る。
特に、本発明は、また、第1クラスあるいは第2クラスに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法を提供し、それは、少なくとも、第1クラスデータの1個の実例と第2クラスデータの1個の実例を有する訓練データセットDから、複数のエマージングパターンを抽出すること、と、第1及び第2リストを作成すること、そこでは、第1リストは、第1クラスのデータのゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEP1(m)の発生頻度f1(m)を含み、第2リストは、第2クラスのデータのゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEP(m)の発生頻度f(m)を含む、と、kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、また試験データで発生する前記第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、また前記試験データで発生する前記第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算すること、と、第1および第2スコアの高いものを選ぶことにより、試験データが、第1クラスあるいは第2クラスのデータに分類されるかどうかを推論すること、と、から成る。
更に、本発明は、試験データが存在する試験サンプルが、第1のクラスあるいは第2のクラスに分類されるかどうかを決定するためのコンピュータプログラム製品を提供し、コンピュータプログラム製品は、コンピュータシステムに関連して用いられるものであり、コンピュータプログラム製品は、コンピュータの読み出し可能な蓄積媒体とそこにはめ込まれたコンピュータプログラム機構から成り、コンピュータプログラム機構は、少なくとも1個の統計分析ツール、と、少なくとも1個のソーティングツール、と、少なくとも第1クラスのデータの1個の実例と、少なくとも第2クラスのデータの1個の実例とを有するデータセットにアクセスするための制御命令、と、データセットから複数のエマージングパターンを抽出すること、と、第1リストと第2リストの作成、そこでは、各々の複数のエマージングパターンに対して、第1リストは、第1クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (1)を含み、第2リストは、第2クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (2)を含む、と、kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、また試験データで発生する第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、また試験データで発生する第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算すること、と、第1および第2スコアの高いものを選ぶことにより、試験データが、第1クラスあるいは第2クラスのデータに分類されるかどうかを推論すること、と、から成る。
本発明は、また、試験データが存在する試験サンプルが、第1のクラスあるいは第2のクラスに分類されるかどうかを決定するためのシステムを提供し、システムは、少なくとも1個のメモリ、と、少なくとも1個のプロセッサー、と、少なくとも1個のユーザーインターフェース、とから成り、全ては、少なくとも1個のバスで互いに接続され、そこでは、少なくとも1個のプロセッサーは、少なくとも第1クラスのデータの1個の実例と少なくとも第2クラスのデータの1個の実例を有するデータセットをアクセス、と、データセットから複数のエマージングパターンを抽出、と、第1リストと第2リストの作成とを行うことを特徴とし、そこで、各々の複数のエマージングパターンに対して、第1リストは、第1クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (1)を含み、第2リストは、第2クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (2)を含み、kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用い、また試験データで発生する第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、また試験データで発生する前記第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算し、第1および第2スコアの高いものを選ぶことにより、試験データが、第1クラスあるいは第2クラスのデータに分類されるかどうかを推論すること、を特徴とする。
本発明の方法、システム及びコンピュータプログラム製品の更に詳細な具体例において、kは、約5から約50であり、好ましくは約20である。更に、本発明の他の好ましい具体例において、左側境界エマージングパッターンのみが利用される。更に他の好ましい具体例において、データセットは、遺伝子表現データ、患者の医療記録、金融取引、国勢調査、製造品の特徴、食品の特徴、原材料の特徴、気象データ、環境データ及び有機体(生物)母集団の特徴から成るグループから選定されたデータから成る。
本発明のエマージンパターンを基礎とした方法、システム及びコンピュータプログラム製品は、例えば、遺伝子表現プロファイルの分類に応用した際、高精度と簡単な解釈の両方の利点を有する。また、全てのサンプルの大きな集合に関する試験に際して、方法、システム及びコンピュータプログラム製品は、正確に全てのそのサブタイプを分類し、そして、C4.5、NB、SVM及びK-NN方法に比較して、きわめて小さな誤差率を達成する。
本発明の方法は、図1に示すように、コンピュータシステム100で達成されることが望ましい。コンピュータシステム100は、スパーコンピュータ、卓上ワークステーションコンピュータあるいはパーソナルコンピュータのような高性能マシーンが良い、あるいは、ラップトップまたはノートブックのような携帯コンピュータでも良い、あるいは、分散型計算アレイあるいはネットワークコンピュータのクラスター(群)でも良い。
システム100は、1個あるいはそれ以上のデータ処理ユニット(CPU)102、と、典型的に(1個またはそれ以上の磁気的デイスクドライブのような)不揮発性メモリと高速度ランダムアクセスメモリの両方を有するメモリ108、と、モニター、キーボード、マウス(と/又は)タッチパネル表示から成るユーザーインターフェース104、と、他のコンピュータ、または他の装置と通信するためのネットワークあるいは他の通信インターフェース134、と、CPU102を少なくともメモリ108、ユーザーインターフェース104及びネットワークインターフェース134に内部接続する1個またはそれ以上の通信バス106から構成される。
システム100は、また、データを直接メモリにダウンロードする研究所機器140に直接接続される。研究所機器は、データサンプリング装置、1個またはそれ以上の分光計、遺伝子表現分析に利用するマイクロアレイデータを集めるための装置、操作機器あるいはフィールドで用いる携帯機器を含む。
システム100は、また、ネットワークインターフェース134経由で遠隔データベース136に蓄積されたデータをアクセスする。遠隔データベース136は、1個またはそれ以上の他のコンピュータ、ディスク、ファイルシステムあるいはネットワークに分配される。遠隔データベース136は、リレーショナルデータベースあるいは、大きなデータアレイを処理する能力があるデータ蓄積のいかなる形式でも良く、例えば、限定しないが、マイクロソフトのエクセル、フラットファイル及びXMLデータベースなどのプログラムで作成されるスプレッドシートのようなものでも良い。
システム100は、また、随意的に、プリンター、あるいは、限定しないがCD-R、CD-RW、フラッシュカード、スマートメディア、メモリースティック、フロッピーディスク、Zipディスク、磁気テープあるいは光学メディアを含む他の書き込み装置などの出力装置150に接続される。
コンピュータシステムメモリ108は、手順とデータを蓄積する、そして、典型的に、基本システムサービスを提供するオペレーションシステム110、と、ファイルとデータを分類し構成化するファイルシステム112、と、統計分析118及びソーティング120に対するユーザーレベルツールなどの1個あるいはそれ以上のアプリケーションプログラム114、を含む。オペレーションシステム110は、次のどれかである:ULTRIX、Irix、SOLARIS及びAixなどのUNEベースシステム、Linux システム、 Windows 3.1、 Windows NT、Windows 95、Windows 98、Windows ME、Windows XPあるいはそれらの応用などのWindowsベースシステム、MacOS 8.x、MacOS 9.x及び MacOS XなどのMacintoshオペレーションシステムあるいは、VMSベースシステム、あるいは全ての互換オペレーションシステム。統計分析ツール118は、限定されないが、チイ―スクワード(chi-squared)分析、エントロピー・ベース離散化及びリーフ・ワン・カットクロスバリデーション(leave-one-out cross validation)などの相関基礎の機能選択を達成するためのツールを含む。
加えるに、メモリ108は、データセット126から得られたエマージングパターン122のセットと同様に、それらそれぞれの発生頻度124を蓄積する。データセット126は、好ましくは、少なくともD1として示される第1クラス128とDとして示される第2クラス130のデータ及び追加のクラスDi 、ここで、i>2 に分割される。データセット126は、リレーショナルデータベース、スプレッドシートあるいはプレインテキストなどを含むあらゆる便利な形式で蓄積される。試験データ132は、また、メモリ108に蓄積され、そして、それは直接研究所機器140から、あるいは、ユーザーインターフェース104から、あるいは136などの遠隔データベースから抽出され、あるいは、限定はしないが、フロッピーディスク、CD-Rom、CD-R、CD-RW あるいはフラッシュカードなどの外部メディアから提供される。
データセット126は、無制限の数と様々な供給源に対するデータを構成する。好ましい本発明の具体例では、データセット126は、遺伝子表現データから成り、その場合、第1クラスのデータは、正常セル(細胞)などの第1タイプのセルに対応し、第2クラスのデータは、腫瘍セルなどの第ニタイプのセルに対応する。データセット126が遺伝子表現データから成る時、それは、また、第1クラスのデータは、第1対象母集団のデータに対応し、第2クラスのデータは、第ニ対象母集団に対応する、でもよい。
データセット126からの他のタイプのデータは、以下に含まれるものから取り出せる:患者の医療記録、金融取引、国勢調査データ、人口統計のデータ、農産物などの食品の特徴、自動車やコンピュータあるいは衣類品などの製造品の特徴、例えば1箇所かそれ以上の場所で長期にわたって集められた情報を表すあるいは与えられた時間でたくさんの異なる場所に対する情報を表示する気象データ、有機体(生物)の母集団の特徴、例えばセールスや広告数字などのマーケットデータ、および、異なる時間あるいは異なる場所の異なる化学物質のための有毒な廃棄物数字の編集物あるいは地球温暖化傾向、森林伐採レベルや種の絶滅率などの環境データ。
データセット126は、リレーショナルデータベース(関連データベース)形式で蓄積されるのが望ましい。本発明の方法は、リレーショナルデータベースに限られるものではなく、また、データセットが何らかの適切な手順でリレーショナル形式に変換できる限りにおいて、XML、 Excel、スプレッドシートあるいはいかなる形式にも適用可能である。例えば、スプレッドシートに蓄積したデータは、普通の行列形式を有し、それ故、列Xと行Yが、記録X‘と属性Y’としてそれぞれ通訳され得る。対応して、列Xと行Yでセルのデータは、記録X‘の属性Y’の値Vとして通訳され得る。データセットをリレーショナル形式に変換する他の手段は、また、特別なデータセットに対する適切な通訳によって可能である。形式変換に対する適切な解釈と対応手順は、技術に優れた人の能力の範疇である。
データベースおよびデータマイニングにおける知識の発見
従来、データベースの知識の発見は、データの有効性、新しい、有用性及び最終的に理解可能なパターンを確認するつまらなくないプロセスであるべきと定義されていた。(参照:例えば、フロリー他、「データベースの知識の発見:概要」、 書籍(Knowledge Discovery in Databases)中、p1-27、G. Piatetsky-Shapiro&W. J. Frawley、EDS、 (AAAI/MIT出版、1991))。 本発明の方法によれば、「エマージングパターン」として参照されたあるタイプのパターンが、特別な興味である。
パターン確認のプロセスは、一般的に、「データマイニング」として参照され、そして、それは、受け入れ可能な計算の効率限界下のアルゴリズムの使用から成り、必要パターンの特別な一覧を作成する。データマイニングの主な側面は、データ間の従属関係を発見することであり、アソシエーション規則(協会規則)の利用で達成される着地点である、しかし同様に、現在、他のタイプの分類器に対しても実用的になっている。
リレーショナルデータベースは、リレーションと呼ばれる表の集合からなると考えられる、各々の表は、記録セットからなり、そして、各々の記録は、従属値ペア(対)のリストである。(参照:例えば、コッド、「大きな共用データバンクに対するリレーショナルモデル」、Communications of the ACM、13、(6): 377-387、(1970))。最も初歩的な関係は、特別な特性あるいは分類に対する単なる名前である、「属性」(または、「特徴」と呼ぶ)である。値は、特性あるいは分類を取ることができる特別な実例である。例えば、取引データベース(transactional databases)において、ビジネスの背景で用いられるように、属性は、ミルク、パン、チーズ、コンピュータ、車、本などの分類名であってよい。
属性は、区分できる(例えば、絶対的な)あるいは、つながることが出来る領域値を有する。個別の属性の例は、赤、黄色、青、緑などの値を取る色である。つながった属性の例は、同意範囲でいろいろな値、[0,120]など、を取る年齢である。取引データベースにおいて、例えば、属性は、0または1の二進数である、ここで、値1を持つ属性は、特別な品物を購入したことを意味する。属性値ペア(対)は、「アイテム(又は品目)」あるいは、代わりに「コンデイション(または状態)」と呼ばれる。だから、「色−緑」及び「ミルク−1」は、アイテム(あるいはコンディション)の例である。
アイテムのセットは、一般的に、含まれるアイテムの数に無関係に「アイテムセット」として参照される。データベースDは、多くの記録からなる。各々の記録は、多くのアイテムから成り、各々のアイテムは、データ内の属性の数に等しい基数を有する。記録は、質問の属性のなりゆきに従い、「取引(transaction)」あるいは「実例(instance)」と呼ばれる。特に、用語「取引」は、二進数属性値を有するデータベースの参照に典型的に用いられる、一方、用語「実例」は、多重値(あるいはマルチ価値)属性を含むデータベースの参照に普通は用いられる。だから、データベースあるいは「データセット」は、取引あるいは実例セットである。データベースの全ての実例に対して正確に同じ属性を持たす必要はない。属性値ペアとしての実例あるいは取引の定義は、自動的に、単一データセット内で混合した実例を提供する。
データベースDの「ボリューム(volume)」は、D内の実例の数である、正常セットとしてDを取り扱い、そして、|D|と表記される。Dの「デイメンジョン(dimension)」は、Dに使われた属性の数である、そして、しばしば基数として参照される。アイテムセットXの「カウント(count)」は、countD(X)と表記される、そして、Xを含むD内の取引Tの数であるとして定義される。Xを含む取引は、X⊆Tとして記述される。D内のXの「サポート(support)」は、suppD(X)と表記され、Xを含むD内の取引の比率である、つまり、
Figure 2005538437
である。「大きい(large)」あるいは「頻度(frequent)」アイテムセットは、そのサポートが、ある実数δより大きい、ここでは、0≦δ≦1、ものである。δの好ましい値は、分析されるデータのタイプに依存する。例えば、遺伝子表現データに対して、δの好ましい値は、0.5から0.9の間にあり、そこでは、後半の値が特に好ましい。実際には、対の片方あるいは反対側のクラスまたはデータのサポートが小さい限りにおいて、0.001より小さいδの値が、適当であるかもしれない。
D内の「アソシエーション規則 (association rule)」は、形式X→Yの意味(または含意 (implication))であり、X とYは、D内の2個のアイテムセットで、X∩Y=0である。アイテムセットXは、「前件(antecedent)」の規則であり、アイテムセットYは、「後件(consequent)」の規則である。D内のアソシエーション規則X→Yの「サポート」は、X∪Y を含むD内の取引比率である。だから、サポートの規則は、suppD(X∪Y)で表示される。アソシエーション規則の「コンフィデンス(confidence)」は、Xを含み、またYを含むD内の取引の比率である。だから、コンフィデンスの規則X→Yは、
Figure 2005538437
である。
マイニングアソシエーション規則の問題は、それぞれ、ユーザ特定最小サポートminsup及び最小コンフィデンスminconf より大きいかあるいは等しいかのサポートとコンフィデンスを有する全てのアソシエーション規則をいかに発生するかの1つになる。一般的に、この問題は、2つの補助問題に分解することで解決される、それは、minsupに関して全ての大きいアイテムセットを発生させる、及び、与えた大きいアイテムセットに対して、全てのアソシエーション規則を発生させ、コンフィデントがminconfを超えるそれらの規則のみを出力するものである、(参照:アグラワル他、(1993))。これら補助問題の二番目が容易であるが判明するので、効率よいマイニングアソシエーション規則への鍵は、それらのサポートが与えられた閾値を超える全ての大きいアイテムセットを発見することです。
これら大きいアイテムセットの発見へのナイーブアプローチは、D内の全ての可能なアイテムセットを発生し、そして、それぞれのサポートを確かめることです。デイメンジョンがnであるデータベースに対して、これは、2−1個のアイテムセットのサポートを確認することを要する(すなわち、空のセットは含まれない)、nの増加により急速に手に負えなくなる方法。ナイーブ法が持つこの困難さを部分的に克服する2つのアルゴリズムが開発されている:アプリオリ(アグラワル&スリカン、「マイニングアソシエーション規則のための高速アルゴリズム」、Proceedings of the 20th International Conference on Very Large Data Bases、487-499、(サンチアゴ、チリ、1994)) 及び MAX-MINER (バヤルド、「データベースからのロングパターンの効率的マイニング」、Proceedings of the 1998 ACM- SIGMOD International Conference on Management of Data、85-93、(ACM出版、1998))、 両方ともここで完全に参照されています。
アソシエーション規則の利用にもかかわらず、追加の分類器は、データマイニング応用に利用を見出している。非公式に、分類は、実例を基礎とした意思決定プロセスであり、それにより、新しい実例が多数の可能なグループの1つに指名される。グループは、それぞれ分類が、「教師有り(supervised)」あるいは「教師無し(unsupervised)」分類かどうかに従って、クラス又はクラスターのどちらかで呼ばれる。クラスタリング方法は、そこで実例のクラスターが定義され、決定される教師無し分類の例である。対照的に、教師有り分類においては、全ての与えられた実例のクラスが、最初から知られ、そして主要目的は、与えられた実例から規則あるいはパターンなどの知識を得ることである。本発明の方法は、教師有り分類の問題に適用することが好ましい。
教師有り分類において、知識の発見は、事前定義クラスの1つに新しい実例の分類を案内する。典型的に、分類問題は、「学習フェーズ(learning phase)」と「試験フェーズ(testing phase)」の2つのフェーズ(局面)からなる。教師有り分類において、学習フェーズは、パターンあるいは規則のセットを作成するために、与えられた実例の集合から知識の学習を伴う。試験フェーズは、そこで、作成されたパターンあるいは規則は新しい実例を分類するために利用することにつながる。「パターン」は簡単には、コンデイションのセットである。データマイニング分類は、学習フェーズで、パターン及び頻度や従属などが関連付けられた特徴を利用する。提示すべき2個の主要な問題は、パターンの定義及び発見のための効率的アルゴリズムの設計である。しかし、ボリュームのあるデータセットの場合、パターンの数は非常に大きいことがたびたびであるので、第三の重要な問題は、意思決定に対していかに効率的にパターンを選定するかである。第三の問題提示において、あまり複雑でなくかつ人が理解容易な分類器の到来が最も望まれている。
教師有り分類問題において、「訓練実例(training instance)」は、クラス ラベル(標札)が知られている実例である。例えば、健康と病気の母集団データに関するデータから成るデータセットにおいて、訓練実例は、健康として知られる人用データであってよい。対照的に、「試験実例(testing instance)」は、クラス ラベルが知られていない実例である。「分類器(classifier)」は、試験実例をクラス ラベルに位置づける機能である。広く使われている分類器の例を以下に示す:CBA (「アソシエーションを基礎とした分類」)、 分類器、(リユー他、「分類とアソシエーション規則マイニングの統合」、Proceedings of the fourth International Conference on Knowledge Discovery and Data Mining、80-86、New York, USA, AAAI 出版 (1998))、大きいベイズ分類器(「LB」)、(メレタキス&ウスリッチ、「長いアイテムセットを用いたナイーブベイズ分類器の拡張」、Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、165-174、San Diego, CA, ACM出版(1999))、C4. 5 (デシジョンツリーを基礎とした)分類器、(クインラン、C4. 5:Programs for machine Learning、Morgan Kaufmann、San Mateo、CA、(1993))、 K-NN (k-ニアレストネイバー)分類器、(フィックス&ホッジ、「差別的な分析、非母数の区別、一貫特徴」、Technical Report 4、Project Number 21-49-004、USAF School of Aviation Medicine、Randolph Field、TX、(1957))、 パーセプトロン (ローゼンブラット、ニューロ工学理論:パーセプトロンと脳の機構理論、Spartan Books, Washington D. C、(1962))、ニューラルネットワーク (ローゼンブラット、1962)、及び、NB (ナイーブベイズ)分類器、(ラングリー他、「ベイズ分類器の解析」、Proceedings of the Tenth National Conference on Artificial Intelligence、223-228、AAAI 出版、(1992))。
分類器の精度は、典型的に複数の手段の1つのなかで決定される。例えば、1手段において、訓練データのある比率は、保留され、分類器は、残りのデータ上で訓練され、そしてそれから分類器は、保留データに適用される。正しく分類された保留データの比率は、分類器の精度としてとられる。別の手段では、n-fold クロスバリデーション戦略が用いられる。このアプローチにおいて、訓練データは、n個のグループに分割される。それから、第1のグループは保持される。分類器は、他の(n−1)個の上で訓練され、そして保持グループに適用される。それから、このプロセスは、n番目のグループを通して、第2グループに対して繰り返される。分類器の精度は、これらn個のグループに対して得られた全ての平均精度としてとられる。第三の手段は、リーフ・ワン・カット戦略が用いられる、そこでは、第1訓練実例は保持され、そして残りの実例は、分類器の訓練に使われる、それから、保持された実例に適用される。そして、プロセスは、第2実例、第三実例そして第四と最後に達するまで繰り返される。この手段で正しく分類された実例の比率は、分類器の精度としてとられる。
本発明は、好ましくは、上に記載の3つの手段の測定精度の全て、あるいはデータマイニング、マシーン学習及び診断及び知られた技術の分野に共通の他の手段の測定精度より、良く実行する分類器を得ることである。
エマージングパターン(EP)
本発明の方法は、データベースから知識の発見のために、エマージングパターンと呼ばれる一種のパターンを用いる。一般的に述べれば、エマージングパターンは、2あるいはそれ以上のデータセットあるいはクラスのデータに結びつけ、そして、あるデータセットと別のデータセットあるいは他のものの間の著しい変化(例えば、差異あるいは動向)を記述することに使われる。EP’sは、次の文献に記載されている:J. リー、正確で効率的な分類器の構築のためのエマージングパターン、博士論文、Department of Computer Science and Software Engineering、メルボルン大学、オーストラリア、(2001)、これは、ここに完全に参照されている。エマージングパターンは、基本的に簡単なコンデイションの結合である。好ましくは、エマージングパターンは、4つの特質、つまり、有効性、斬新さ、潜在的な有用性及び理解可能、をもっている。
パターンの有効性は、新しいデータへのパターンの適用性に関係する。理想的には、発見されたEPは、新しいデータに適用するとき、いくらかの確実の程度をもって有効であるべきである。この特性を調査するひとつの手段は、少ない比率の新しいデータを加えることでオリジナルなデータベースを更新した後、EPの有効性を試験することである。大きな比率の新しいデータが前の処理データに組み入れられるときでさえ、それが有効であれば、EPは、特に強いかもしれない。
斬新さは、パターンは、伝統的な統計方法あるいは専門家により前に発見されていなかったかどうかに関係する。普通、そのようなパターンは、多くのコンディションあるいは低サポートレベルを伴う、理由は、専門家は、多少は知っているが全ては知らない故、あるいは専門家は、しばしば起きるそれらパターンに注意を向けるが、ほとんど起きないものには向けない故であえる。例えば、いくつかのEP‘sは、データセットの属性の数が1000のように大きいとき、15個以上のコンディションを含む、5個以上から構成する驚くほど長いパターンからなる、それにより、新しいそして前によく理解されている問題への思いがけない洞察を提供する。
パターンの潜在的有用性は、もしそれが予測的に使うことが出来れば、生じる。エマージングパターンは、いかなる2個あるいはそれ以上の重ならない時間データセット内の動向と2個あるいはそれ以上の空間データ内の著しい差異を記述することが出来る。この文脈のなかで、「差異」は、ほとんどのクラスのデータが満足するが他のクラスは一切満足しないコンデイションのセットを参照する。「動向」は、1個の時間ポイントに対してデータセット内のほとんどのデータが満足するが別の時間ポイントに対してデータセット内のデータが満足しないコンディションのセットを参照する。従って、EP’sは、予測ビジネス市場、異なる民族グループ間のいくつかの特別な病気の隠された原因を確認すること、手書き文字認識用、リボソームタンパク質の暗号を指定する遺伝子と他のたんぱく質の暗号を指定する遺伝子間の識別用および正の実例と負の実例、例えば離散データにおける「健康」あるいは「病気」、の区別用などの応用において相当利用されることが見出されるかもしれない。
パターンは、もしその意味がそれを調べることから直感的に明らかであるならば、理解可能である。EPが簡単なコンデイイションの結合である事実は、通常理解するのが簡単であることを意味する。EPの解釈は、2個のクラスのデータ間を識別するその能力に関する事実が知られるとき、特に助力される。
データセットのペアD及びD2を仮定する、EPは、そのサポートが1個のデータセットDから別のD2に著しく増加するアイテムセットとして定義される。データベースDiのアイテムセットXのサポートをsuppi(X)により表示し、D1からD2までのアイテムセットXの「成長率(growth rate)」は次の式で定義される、
Figure 2005538437
ここで、(∞)は無限大の意味、(otherwise)はそれ以外を意味する。
だから、成長率は、D1のそのサポートに対するD2のアイテムXのサポートの比である。EPの成長率は、そのサポート内の変化の程度を測定し、そして本発明の方法での興味の初期量である。成長率の代替定義は、アイテムセットの計算の区間に表現されることができる、2つのデータセットが非常な不釣合いな母集団を有する状況に特別な適用可能性を見つける定義。
ここに提示した公式は、2個のクラスのデータの場合に制限されるものではなく、特別にそれと反対に示されるところを除いて、従来技術の1つによってデータセットが3個あるいはそれ以上のクラスのデータを持つ場合に一般化(拡張)され得る、ことは理解される。従って、ここに提示された様々な方法の議論は、2個のクラスのデータからなる状況への応用による実証で、3個あるいはそれ以上のクラスのデータが検討される状況へ技術の1つにより一般化され得る、ことは更に理解される。データのクラスは、ここでは、大きいデータセット内のデータのサブセットであるとみなし、そしてサブセットがいくつかの共通の特徴をもつそのような手段において典型的に選択される。例えば、ある手段で試験された全員の横断データにおいて、1個のクラスは、それらの人あるいは特別な性別に関する、あるいは特別な処置を受けた人のデータであり得る。
EP’sは、その成長率が与えられた閾値ρよりも大きいアイテムセットであることがより特に望まれる。特に、成長率閾値として、ρ>1を与える、アイテムXは、もし、以下であれば、D1からD2までのρ―エマージングパターンと呼ばれる。
growth_rateD1→D2(X)≧ρ
D1からD2までのρ−EPは、ρ=∞のとき、D1からD2までの「ジャンピングEP」と呼ばれる。だから、D1からD2までのジャンピングEPは、D2に有り、Dに無い1つである。もし、D1およびD2が理解されれば、それは、ジャンピングJPあるいはJ-EPということは妥当である。本発明のエマージングパターンは、好ましくは、J-EP’sである。
次の様に2個のパターンXとYを与える、全ての可能な実例dに対して、Yがdで起きればいつもXがdで起きる、そのとき、それはXがYより一般的と言われる。それは、また、もしXがYより一般的である場合、YはXより特定的と言われる。
D1からD2までのEP’sの集合Cを与え、EPは、もしそれより一般的であるCで他のEPが無ければ、C内で最も一般的と言われる。同様に、EPは、もしそれより特定的であるCで他のEPが無ければ、C内で最も特定的と言われる。与えられたD1、D2及びCに対して、最も特定的として参照されるEPは1つ以上ある、そして最も一般的として参照されるEPは1つ以上ある。Cの最も一般的及び最も特定的EP’sは、双方とも、Cの「境界(border)」と呼ばれる。最も一般的EP’sは、また、Cの「左側境界EP’s(left boundary EP’s)」と呼ばれる。また、最も特定的なEP’sは、Cの右側境界EP’sと呼ばれる。文脈が明確であるところで、境界EP’sが、Cに言及せずに左側境界EP’sの意味に取られる。それらは最も一般的であるので、左側境界EP’sは、特別の興味である。
D1からD2のEP’sの集合Cを与え、CのサブセットC’は、もしそれがCの左側境界およびXを含む場合、「プラトー(plateau)」と呼ばれる、そしてC’の全てのEP’sは、XとしてD2で同じサポートを有し、そして、C’でないCでの他の全てのEP’sは、Xのそれと異なるD2でサポートを有する。C’内のEPは、Cの「プラトーEP’s」と呼ばれる。もしCが理解されるならば、それは、プラトーEP’sというに十分である。
DとDの1対のデータセットに対して、好まれた慣習は次をふくむ:EPのサポートとしてD2内のサポートを参照、「バックグランド」データとしてDを、及び「ターゲット」データセットとしてDを参照、ここでは、例えば、データは時間順序である、「負(negative)」クラスとしてDを及び「正(positive)」クラスとしてDを参照、ここでは、例えば、データはクラス関係である。
従って、エマージングパターンは、データセット間の著しい変化と差異を捕らえる。時間刻印データベースに適用したとき、EP’sは、母集団の行動におけるエマージング動向を捕らえることができる。これは、例えば、時間の異なるポイントでビジネスあるいは人口統計データの比較部分を含むデータベース内の連続時間ポイントでのデータセット間の差異は、動向を突き止めるために使うことができるからである。加えるに、離散クラスを有するデータセットに適用したとき、EPは、クラス間の有用な相違を捕らえることができる。そのようなクラスの例は、限定しないが、生物の母集団に関するデータの雄対雌、酵母菌の母集団の毒対食用、治療中の患者の母集団の治った対治らなかった、などを含む。EPは、例えば、多くのデータセットに対するC4. 5及びCBAより更に精度がよい非常に力強い分類器を構築する能力を証明した。1%から20%の低から中程度のサポートを有するEPは、「よくわかる」状況においてさえ、専門家に有用で新しい洞察と案内を与えることができる。
ある特別なタイプのEP’sを見出すことができる。他で議論されているように、成長率が無限大(∞)である、つまり、バックグラウンドデータセットにおけるサポートがゼロである、EPは、「ジャンピング・エマージングパターン」あるいはJ−EPと呼ばれる(参照:例えば、リー他、「ジャンピング・エマージングパターンの空間とその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558 (2000)、ここに完全に参照されている)。本発明の好ましい具体例は、「ジャンピング・エマージングパターン」を用いる。代替的具体例は、高い成長率を持つ最も一般的なEP’sを用いる、しかし、それは、それらの抽出がJ−EPより複雑である理由により及びそれらは、J−EPより、よい結果を与えないという理由で、好ましさは低下する。しかしながら、J−EPが可能ではない場合、(つまり、すべてのパターンが両方のクラスで観測される場合)、他の高い成長率のEPを使う必要がある。
EPがEP’s「ホーム(home)」クラスあるいはそれ自身のクラスとしてゼロでない頻度を有する、クラスを参照することが普通である。EPがゼロあるいは著しく低い頻度を有する他のクラスは、EP’s「カウンターパート(counterpart)」クラスと呼ばれる。2個以上のクラスがある状況では、ホームクラスは、EPが最も高い頻度を有するクラスであると取りえる。
加えるに、別の特別なタイプのEPは、「強いEP(strong EP)」として参照、その空でないサブセットの全てがまたEP’sであるサブセット・閉鎖特徴を満足するものである。一般的に、セットCの集合は、全てのセットX、(X∈C、つまり、XがCの要素(element)である)のアブセットの全てがまたCに属する場合のみ、サブセット・閉鎖を示す。もし、その要素の数(つまり、その基数)が少なくともkである全てのサブセットがまたEPであれば、EPは、「強いk−EP」と呼ばれる。強いEP’sの数は、少ないけれども、1個あるいはそれ以上の実例を訓練データに加えたとき、それらは他のEP’sよりも更に強い傾向(つまり、それらは有効のまま)があるので、強いEP’sは重要である。
EP’sの図式表現を図2に示す。成長率閾値ρおよび2個のデータセットDとDに対して、supp1(X)とsupp2(X)が、直行座標(デカルト座標)のそれぞれX軸とY軸上に表されることができる。座標面は、「サポート面」と呼ばれる。だから、横座標は、目的のデータセットD内の全てのアイテムセットのサポートを計量する。また、グラフに示すものは、原点Aを通る傾き(1/ρ)の直線であり、そして直線supp2(X)=1とCで交わる。supp2(X)=1の横軸上の点は、Bとして記述される。DからDの全てのエマージングパターンは、ポイント(supp1(X)、supp2(X))によって表現される。その成長率がρに等しいかあるいは超える場合、それは、三角形ABCの内部あるいは周囲に位置しなければならない。ジャンピング・エマージングパターンは、図2の水平軸上に位置する。
境界及びプラトーエマージングパターン
2個のクラスのデータを分離する境界規則の特徴を探索することは、エマージングパターンの更に多くの様相(facet)に導く。多くのEP’sは、それらのホームのクラスで非常に低い頻度(例えば、1または2)を有する。境界EP’sは、2個のクラス間の大きな差異を捕らえる目的のために提案される。「境界(boundary)」EPは、その固有のサブセットの全てがEP’sでない、EPである。明らかに、パターンが含むアイテムが少ないほど、与えられたクラスのその発生頻度が大きい。しかしながら、境界EPの定義から、これがなされるとき、カウンターパートのその頻度は、ゼロにならない、あるいは、EPが閾値比ρの値をもはや満足しないような手段で増加する。これは、定義により常に真である。
例えば、(ホームのクラスでゼロでない頻度、カウンターパートのクラスでゼロ頻度を有する)ジャンピング境界EPの場合にこれを見ると、そのサブパターンのどの1つもジャンピングEPではない。サブパターンは、ジャンピングEPではないので、それは、カウンターパートのクラスでゼロ頻度を持たなければならず、それ以外では、それは、またジャンピングEPであろう。ρ-EPの場合、ホームのクラス内のその頻度とカウンターパート内の頻度の比率は、ρより大きくなければならない。しかし、ρ-EPからアイテムを取り除くことは、両方のクラスのデータのより多くの実例にそれを満足させる、だから、比率ρは、もはや満足されえない、いくつかの状況の中にであってもそうであろう。従って、境界EP’sは、大きい頻度を持つことが出来きる境界EPのスーパーセットが無いので、それらホームのクラス内で最大頻度である。更に、上記で論じたように、しばしば、1個またはそれ以上のアイテムを存在する境界EPに加えた場合、結果としてのパターンは、最初のEPよりも小さい頻度になる。だから、境界EP’sは、それらが非-EP’sからEP’sを分離する特徴を有する。それらは、また低頻度のEP’sから高頻度のEP’sを識別する、だから、データのクラス間の大きい差異を捕らえるのに有用である。境界EP’sの効率的発見は、他に記載されている(参照:リー他、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000))。
先の例とは対照的に、更にもう一個のコンディション(アイテム)を境界EPに付加すると、それにより、EPのスーパーセットを発生し、スーパーセットEPは、ホームのクラス内の境界EPとしてまだ同じ頻度を有しているであろう。この特徴をもつEP’sは、「プラトーEP’s」と呼ばれる、そして次の手段で定義される:境界EPを与える、それ自身として同一頻度を有するそのスーパーセットの全てがその「プラトーEP’s」である。もちろん、境界EP’sは、通称それ自身のプラトーEP’sである。EPの頻度がゼロで無い限り、この特徴をもつスーパーセットEPは、また必然的にEPである。
全体としてのプラトーEP’sは、空間(space)を定義するのに用いることが出来る。お互いとして同じ頻度を持つ全境界EP’sの全のプラトーEP’sは、「プラトー空間(plateau space)」(あるいは簡単にP-空間)と呼ばれる。だから、P-空間内の全EP’sは、それらホームのクラス及びそれらカウンターパートのクラスの双方のそれらの発生の区間内の同じ著しいレベルにある。ホームの頻度がnであるとすれば、P-空間は、「Pn-空間」と表記される。
全P-空間は、P空間が、その最も一般的で最も特定的な要素によって簡素に表現できることを意味する、「コンベキシテイ(凸状、convexity)」と呼ばれる。P-空間の最も特定的な要素は、EP’sを基礎とした分類システムの高い精度に寄与する。コンベキシテイは、あるタイプの大きな集合のデータの重要な特徴である、そして簡素にそのような集合を現すために利用することができる。もし集合が凸の空間であれば、「コンベキシテイ」は、成立するといえる。定義により、全てのパターンX、YおよびZに対して、コンデイションX⊆Y⊆Z 及びX, Z∈C がそのY∈Cを含むならば、パターンの集合Cは、「凸の空間」である。コンベキシテイに関する更なる考察は次の文献にある(グンター他、「バージョン空間の共通オーダーの理論的な構造及びATMS's」, Artificial Intelligence、95: 357-407、(1997))。
P-空間の定理を次に示す:正の実例のセットDPと負の実例のセットDNを与える、全てのPn-空間(n≧1)は、凸の空間である。この定理の証明は、次である:定義により、Pn-空間は、同じホームのクラス内の同じ頻度nを有する全ての境界EP'sの全てのプラトーEP'sのセットである。一般性を失わないで、2個のパターンXとZが(i)X⊆Z;及び(ii) XとZが、Dp内でn個の発生を有する境界EP’sであることを仮定する、それから、X⊆Y⊆Zを満足する全てのパターンYに対して、それは、Dp内で同じn個の発生を有するプラトーEPである。これが理由である。
1.Xは、DNで発生しない、だから、XのスーパーセットYは、またDNで発生しない。
2. パターンZは、Dpでn個の発生を有する、だからZのサブセットYはDでゼロでない頻度を有する。
3. Dp内のYの頻度は、Xの頻度に等しいかそれより小さいに違いない、しかしZの頻度に等しいかそれより大きいに違いない。XとZの双方の頻度がnであるとき、D内のYの頻度はまたnである。
4. Xは、境界EPのスーパーセットである、だから、Yは、X⊆Yとしてどこかの境界EPのスーパーセットである。
最初の2個のポイントから、YがDpのEPであることが推論できる。第三のポイントから、DP内のY’sの発生がnである。ゆえに、第四のポイントで、YはプラトーEPである。ゆえに、全てのPn-空間は、凸の空間であることが証明された。
例えば、パッターン{a}、{a, b}、{a, c}、{a, d}、{a, b, c}および{a, b, d}は、凸の空間である。この空間の最も一般的要素からなるセットLは、{{a}}である。この空間の最も特定的要素からなるセットRは、{{a,b,c}、{a, b, d}}である。他の全ての要素は、LとRの間に有ると考えることができる。セットLは、境界EP’sから成る。これらEP’sは、P-空間の最も一般的要素である。通常、R内のパターンに含まれた機能は、L内のパターンより更に膨大な数である。これは、いくつかの機能グループがそれらの重要さを持ち続けながら拡大できることを示す。
プラトー空間の中央位置のパターンは、通常より面白い, 理由は、それら隣接パターン(中央パターンよりもアイテムが1個多いかあるいは少ない、空間のそれらパターン)は、全てEP'sである故。この状況は境界EP'sには生じない、理由は、それら特有のサブセットは、EP'sでない故。これらアイデアの全ては、プラトー空間の境界EP'sが最高頻度EP'sであるとき、特別に意味がある。
好ましくは、全てのEP'sが、それらのホームのクラスからそれらのカウンターパートのクラスに同じ無限頻度の成長率を有することである。しかし、境界EPの全ての特有のサブセットは、それらが2個のクラスの双方に起きるが故に、有限の成長率を有する。これらサブセットが2個のクラス間のそれら頻度を変えるやり方は、それら成長率を研究することにより確かめることができる。
シャドウパターンは、すぐ隣接のサブセットである、つまり、境界EPよりアイテムが1個少ない、そのような特別な特徴を有するもの。境界EPの存在確率は、境界EPのシャドウパターンの試験により、おおまかに見積もることが出来る。シャドウパターンはすぐ隣接のサブセットであるというアイデアを基礎に、境界EP’sは、「妥当(reasonable)」と「逆の注目 (adversely interesting)」の2個のタイプに分類することができる。
シャドウパターンは、境界EP’sの注目度を計測するために利用することができる。最も注目の境界EP’sは、高い発生頻度を有するそれらでしょう。しかし、また、「妥当」なそれら及び以下で論じるような「予期せぬ(unexpected)」それらを含むであろう。境界EPを与える、そのシャドウパターンの成長率が+∞あるいはρ-EP’sの場合のρに近づくならば、この境界EPの存在は、妥当である。これは、シャドウパターンが、EPそれ自身より認識がたやすい故である。だから、多くのシャドウパターンは、認識されうる、その場合、そのX自身がまた発生の高い頻度を持つことを推測することは、妥当である。それ以外で、シャドウパターンの成長率が、もし平均的に1あるいは2のような小さな数上であるならば、パターンXは、「逆の注目」である。これは、境界EPであるXの可能性が低いとき、その存在が「予期せぬ」であるからである。言い換えれば、もし多くのシャドウパターンが低頻度を有し、しかし、それらカウンターパート境界EPが高頻度を持ったならば、それは、驚くことであろう。
2個のクラスに対して、正と負、境界EP、Zは、正のクラスでゼロでない発生を持つと仮定する。{Z}∪AとしてZを表す、ここで、Xはアイテムであり、Aは空でないパターンである、AがZのすぐ隣のサブセットであることを観察する。定義により、パターンAは、正と負のクラスの双方でゼロでない発生を持つ。負のクラスのAの発生が小さい(1あるいは2)ならば、Zの存在は、妥当である。それ以外で、境界EP、Zは、逆の注目である。これは、以下ゆえである、
P (X, A) = P (A) * P (X | A)
ここで、P(pattern)は、「パターン」の確率、そして、それは、「パターン」の発生により近似できることを前提とする。負のクラスのP(A)が大きい場合、そのときは、負のクラスのP(X, A)もまた大きい。それから、境界EPになるパターンの機会 {X}∪A = Zは、小さい。従って、Zが確かに境界EPであれば、この結果は、逆の注目である。
エマージングパターンは、双方ともが異なるデータセット間の相違を捕らえる意図である意味で、判別式規則(discriminant rules)にいくらか表面的に類似している。しかし、判別式規則はそうではないが、エマージングパターンは、ある成長率閾値を満足する、そして、判別式規則は、主にクラス間の高いサポートの比較対照に向けられるが、エマージングパターンは、低いサポート、クラス間の高成長率相違を発見することが可能である。
本発明の方法は、大きい成長率を有するJ-EP’s及び他のEP’sに適用できる。方法は、また、例えば、入力EP’sが2,3,4,5を超えるあるいは全ての他の数の最も一般的EP’sであるときに適用できる。しかし、そのような状況で、データセットからのEP’sの抽出に対するアルゴリズムは、J-EP’sに対する利用と異なる。J-EP’sに対しては、好ましい抽出アルゴリズムは次の中で与えられている、(リー他、「ジャンピング・エマージングパターンの空間とその漸増的な保守アルゴリズム」、Proc. 17th International Conference on Machine Learning、552-558 (2000)、その全ては、ここに参照されている。非・J-EP’sに対しては、好ましくは次に記載されるような、更に複雑なアルゴリズムが利用される、(ドン& リー:“エマージングパターンの効率的マイニング:傾向と差異の発見”、Proc. 5th ACM SIGKDD、International Conference on Knowledge Discovery & Data Mining、15-18、(1999))、その全ては、ここに参照されている。
尤度集合による予測(PCL)の概要
「尤度集合による予測」、PCL(Prediction by Collective Likelihood)分類アルゴリズムとして引用される、本発明の方法の概要は、図3から5に関連して提供される。図3に示す全体のアプローチにおいて、Dで表記されたデータセット126で始める、そして、しばしば「訓練データ」あるいは「訓練セット」あるいは「なまデータ」として参照されるデータセット126は、第1クラスD1128と 第2クラスD2130に分割される。第1クラスおよび第2クラスから、エマージングパターンとD1とD2のそれらそれぞれの発生頻度がステップ202で決定される。別々に、試験データ132のエマージングパターンとそれらそれぞれの発生頻度、Tで表記、また試験サンプルとして参照される、がステップ204で決定される。データセットからのエマージングパターンの抽出の方法は、ここで引用した文献に記載されている。D1とD2及びTのエマージングパターンの発生頻度から、D1あるいはD2にあるTの尤度集合予想の計算は、ステップ 206で達成される。これは、Tのクラスの予測208、つまり、TがD1あるいはD2に分類されるべきかどうか、に帰着する。
図4において、データセットDからエマージングパターンを得るプロセスは、DからクラスD1とD2を持って300で開始する、エントロピー分析などの技術が、ステップ302で、データセットDの属性に対して、カットポイント304を作成するために適用される。カットポイントは、クラス1、ステップ308及びクラス2、ステップ312に対してエマージングパターンを抽出するために用いられる、エマージングパターンの特徴を満足するための規準から、パターンの確認を許す。クラス1に対するエマージングパターンは、好ましくは、ステップ312で、D1内の頻度の昇順に並べ替えられ、そしてクラス2に対するエマージングパターンは、好ましくは、ステップ314で、D内の頻度の昇順に並べ替えられる。
図5において、固定数のエマージングパターンからスコアを計算する方法が、記述される。ステップ400で、kの数が選定される、そしてT内の頻度に従ってトップKエマーギングパターンが、ステップ402で選定される。スッテプ408で、またD1内で見出されるT内のトップkエマージングパターン上で、D内の発生頻度を用いて404、スコアS1が計算される。同様に、スッテプ410で、またD内で見出されるT内のトップkエマージングパターン上で、D内の発生頻度を用いて406、スコアSが計算される。S1とSの値は、ステップ412で比較される。S1とSの値が、互いに異なる場合、S1とSの大きいものから416、ステップ414でTのクラスが推論される。
図3から5で示しはしないが、本発明の方法とコンピュータプログラム製品内及び方法を達成するためのシステム上の実際の形式へのその変形は、以下に記述されるように3あるいはそれ以上のクラスのデータからなるデータセットに適用可能なことは明らかである。
データの用意
ボリュームたっぷりのデータを分析することの主な挑戦は、属性あるいは機能の圧倒的な数である。例えば、遺伝子表現データにおいて、主な挑戦は、伴う膨大な数の遺伝子に伴うものである。いかに有益な機能を抽出するか、及びいかに雑音データ効果を避けるかが大量のデータの扱いにおいて重要な問題である。本発明の好ましい具体例は、離散化と機能選定を実行するために、それぞれ、エントロピー基礎の方法 (参照: U. フェヤド&K. イラニ、「分類学習用連続・値属性の多区間(multi-interval)離散化」、Proceedings of the 13th International Joint Conference on Artificial Intelligence、1022-1029、(1993) 及び R. カハビ、G. ジョン、R. ロング、D. マンリー及び K. プレジャー、「MLC++ : C++内の機械学習ライブラリー」、Tools with Artificial Intelligence、740-743、(1994))、及び、相関基礎の機能選定(「CFS(Correlation based Feature Selection)」)アルゴリズム(H. ウイッテン& E. フランク、データマイニング: ジャバ装備を有する実務的機械学習ツールと技術、Morgan Kaufmann、San Mateo、CA、(2000))を用いる。
多くのデータマイニングの仕事(task)は、離散化のために連続機能を必要とする。エントロピー基礎の離散化方法は、異なるクラスのラベルを持つランダム分布の値を含むそれら機能を無視する。それは、ほとんど同じクラスのポイントを含む大きな区間を有するそれら機能を見出す。CFS方法は、個々の機能にスコアを付ける(及びランク付け)よりは、むしろ離散化の後・プロセスである、方法は、離散化された機能のサブセットの価値にスコアを付ける(ランクを付ける)。
従って、本発明の好ましい具体例において、エントロピー基礎の離散化方法が、実数値の範囲を離散化するために利用される。この方法の基本的なアイデアは、区間のエントロピーを最小にするように、実数値の範囲を多数のばらばらの区間に分割することである。この離散化プロセスにおけるカットポイントの選定は、きわめて重要である。最小エントロピーアイデアで、区間は、1個のクラスのデータからの値及び他のクラスのデータからの値間で「最大(maximally)」及び信頼的に差別的である。この方法は、双方のクラスのデータから比較的に一様に混ぜられた値を含むそれら範囲を自動的に無視する。だから、多くの雑音データ及び雑音パターンが効果的に削除でき、残りの差別的な機能の調査を許すことができる。これを説明するために、次のテーブルAに示す2個のクラスのラベルC1とC2を持つポイントの範囲の3つの可能な分布を考察する:
表A
Figure 2005538437
全てのポイントがクラスのラベルに関係する実数の範囲に対して、ラベルの分布は、3つの主要な形状(shape)を有することができる、それは、(1)各々が同じクラスのポイントを含む広い重ならない範囲(2)少なくとも1つが同じクラスのポイントを含む広い重ならない範囲、(3)全体の範囲上でランダムに混合されたクラスのポイント。2個のクラス間の真ん中のポイント(中点)を用いて、エントロピー基礎の離散化方法(U. フェヤド&K. イラニ、1993)は、第1の場合の範囲を2個の区間に分割する。そのような分割のエントロピーは、0(ゼロ)である。範囲が少なくとも2個の区間に分割されるものは、「離散化」と呼ばれる。テーブルAの第2の場合、方法は、右側区間が可能な限り多くのC2ポイントを含むそして可能な限り少ないC1を含む、そのような手段で範囲を分割する。この目的は、エントロピーを最小にすることである。
テーブルAの第三の場合、双方のクラスからのポイントが全範囲上で分布する、方法は、機能を無視する、理由は範囲上の混合ポイントは、分類用の信頼性の高い規則を提供しない故である。
エントロピー基礎の離散化方法は、エントロピー最小化問題解決法(heuristic)を使用する離散化方法である。もちろん、全ての範囲のポイントは、それらの各々が同じクラスのポイントを含むように、ある数の区間に普通に分割できる。そのような分割のエントロピーは、0であるが、それらの適用範囲が非常に小さい時、区間(あるいは規則)は、役立たない。エントロピー基礎の方法は、区間の信頼性が高くして、それらが十分な適用範囲を有することを保証するために、繰り返し分割手順および、効果的分割停止規準を用いることによって、この問題を克服する。
次に示す表示法を付加する(J. ダゥガーテイ、R. コハビ & M. サハミ、「連続機能の教師あり及び教師無し」、Proceedings of the 12th International Conference on Machine learning、94-202、(1995))、Tに、例のセットSをサブセットS及びS2に分割させる。kクラスを、C1,…,Ckとし、P(Ci, Sj) をクラスCiを持つSj 内の例の割合とする。サブセットSj, j=1,2の「クラスエントロピー」は、次で定義される。
Figure 2005538437
ポイントTで、機能Aを分割することによりサブセットS及びS2が導入されると仮定する。
そのとき、分割の「クラス情報エントロピー」は、E(A, T; S)と表示され、次で与えられる。
Figure 2005538437
Aに対する2進数離散化は、カットポイントの全候補間でE(A, T; S)が最小であるカットポイントTAを選ぶことで、決定される。同じプロセスは、何らかの停止規準に達するまで、繰り返し、S及びS2に適用できる。
「最長記述長原理」は、好ましくは、分割を止めるために用いられる。この技術に従い、S値のセット内の繰り返し分割は、次の場合にのみ、停止する:
Figure 2005538437
ここで、Nは、セットSの値の数である、Gain(A, T; S) = Ent(S) - E(A, T; S) および、δ(A, T; S) = log2 (3K-2)- [K Ent(S)-K1 Ent (S1)-K2Ent (S2)]、ここで、kiは、セットSiの表示されたクラスのラベルの数である。
この2進数離散化方法は、MLC++が装備されている、そして実行可能なコードは、次のWebページから利用可能である、http://www. sgi. com/tech /mlc /。遺伝子表現プロファイルに適用したとき、エントロピー基礎の選定方法は、非常に有効であるというということが見出される。例えば、一般的にデータセットに10%しかない遺伝子は、技術によって選定され、だから、そのような選定比率は、重要な分類規則を得るためのより容易なプラットフォームを提供する。
エントロピー基礎の方法などの離散化方法は、顕著である、それは、自動的に大きいデータセットから機能の90%ほどを取り除く、これは、まだ1,000くらいもの機能がまだあることを意味するかもしれません。手でそれほど多くの機能を検査することはまだ退屈な仕事です。従って、本発明の好ましい具体例では、相関基礎の機能選定(CFS)法(ホール、相関基礎の機能選定機械学習、博士論文、 Department of Computer Science、University of waikato、Hamilton、New Zealand、(1998)と、H.ウイッテン& E.フランク、データマイニング: ジャバ装備を有する実務的機械学習ツールと技術、Morgan Kaufmann、San Mateo、CA、(2000)) 及び「チイ・スクワード」 (χ) 法(H.リュー & R.セチオノ、「Chi2 : 機能選定と数値属性の離散化」、Proceedings of the IEEE 7th International Conference on Tools with Artificial Intelligence、 338-391、(1995))、ウイッテン&フランク2000)が、更に重要な機能の検索を狭めるのに用いられる。そのような方法は、離散化後、残りの機能の数が扱いにくくてもいつでも、採用することは好ましい。
CFS法では、むしろ個々の機能へのスコア付け(ランク付け)より、方法は、機能のサブセットの価値にスコアを付ける(ランクを付ける)。機能として、サブセット空間は、常に巨大である、CFSは、最良優先探索問題解決法を用いる。この問題解決法アルゴリズムは、良い機能サブセットが、まだ互いの相関はないが、高度にクラスと相関した機能を含んでいる、という信念で、それらの間の相互相関のレベルに従って、クラスを予測するために個々の機能の有用性を勘定に入れる。CFSは、訓練データから、最初、機能―クラス行列及び機能―機能相関を計算する。そして、問題解決法により割り当てられたサブセット機能のスコアは、次で定義される:
Figure 2005538437
ここで、Merits(メリット)は、k機能を含む機能サブセットSの問題解決利点(ヒューリステイック メリット)である、rcfは、機能―クラス相関の平均である、そしてrff は、機能―機能相互相関の平均である。「対称的不確定」が、離散機能間あるいは機能と属性(ホール、1998、ウイッテン&フランク、2000)間の関係の程度を見積もるためにCFSで用いられる。対称的不確定が2個の属性に、あるいは属性とクラスXとYに用いられる、それは、[0,1]の範囲にあり、次の式で与えられる:
Figure 2005538437
ここで、H(X)は、属性のエントロピーであり、次で与えられる。
Figure 2005538437
CFSは、機能の空きセットから始まり、最良優先探索問題解決法は、5つの連続した完全に拡張された改善されないサブセットの停止規準で、利用する。検索の間に見つかった最も高いメリットでサブセットが選ばれる。
χ(「チイ・スクアード」)法は、機能選定への他のアプローチである。それは、クラスに関してチイ・スクアード(χ)統計を計測することで、個別に属性(機能を含む)を評価するために使われる。数値属性に対して、方法は、まず、離散化すべきその範囲に数個の区間を必要とする、例えば、上記記載のエントロピー基礎の離散化方法を用いる。属性の値χは、次で定義される:
Figure 2005538437
ここで、mは、区間の数、kは、クラスの数、Aijは、i番目の区間、j番目のクラスであり、Eijは、Aijの期待頻度である(つまり、Eij= Ri*Cj/N, ここでRi は、i番目の区間のサンプルの数である、Cjは、j番目のクラスのサンプルの数、そしてNは、サンプルの総数である)。全ての考察された機能のχ値の計算の後、値は、最初の位置に、最大のものを並べることが出来る、理由は、χ値の大きいものほど、より重要な機能であるからである。
離散化と選定の論議は、互いに分離されているが、離散化方法は、また選定に役割をはたす、理由は、1個の区間に離散化された全ての機能は、選定を達成する際に、無視出来るからである、このことは留意すべきである。研究分野に依存して、エマージングパターンは、つまりCFS方法により得られた全ての機能を用いて、あるいは、これらがおびただしい数と証明されれば、方法によってトップにランク付けされた選定機能を用いて、得ることが出来る。好ましい具体例では、20個の選定された機能が用いられる。他の具体例では、トップ10、25、30、50あるいは100個の選定された機能、あるいは、0から100の間の全ての他の便利な数が用いられる。記載されたやりかたや適当な方法で、100個以上の機能が、また用いられることは、理解されるべきである。
エマージングパターンの発生
データベースから強いエマージングパターンの効率的マイニングの問題は、アプリオリ (アグラワル&スリカン、「マイニングアソシエーション規則のための高速アルゴリズム」、Proceedings of the 20th International Conference on Very Large Data Bases、487-499、 (サンチアゴ、チリ、1994))及び MAX-MINER(バヤルド、「データベースからのロングパターンの効率的マイニング」、Proceedings of the 1998 ACM- SIGMOD International Conference on Management of Data、85-93、(ACM出版、1998)) 両方とも個々に完全に参照されている、などのようにマイニング頻度アイテムセットの問題に何らかの類似がある。しかしながら、一般的に、EP’sの効率的マイニングは、2つの主な理由により、挑戦的な問題である。第1は、アプリオリ特徴、つまり、長いパターンがしばしば発生するために、そのサブパターンの全てが、また、しばしば発生しなければならないので、もはやEP’sを保持しない、そして第2は、高いデイメンジョンのデータベースあるいは0.5%のような低いサポート閾値に対する大きな数のEP’s候補は、常にある。本発明と結合して用いて好ましいEP’s決定の効率的な方法は、ドン& リー:「エマージングパターンの効率的マイニング:傾向と差異の発見」、ACM SIGKDD、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52 (1999年8月)に記載されている、これは、ここで完全に参照されている。
伴う挑戦を説明するために、データセットD1からD2でEP'sを発見するためにナイーブアプローチを考察する:最初に、全ての可能なアイテムに対して、D1およびD2双方のサポートを計算する、それから、各々のアイテムセットの成長率が、与えた閾値に等しいかあるいは大きいかどうかの確認に着手する。関係は次で記述される、つまり、3つの分類的属性、例えば、色(color)、形(shape)及び大きさ(size)、ここで、各々の属性は、アイテムセット2個の可能な値を持つ、アイテムセットの可能な数の総和は、26である、つまり、
Figure 2005538437
それぞれ、単独のアイテムセット数と、それぞれにつき2個あるいは3個のアイテムを有するアイテムセット数とから成る合計。もちろん、アイテムセットの合計数は、属性の数で指数的に増加する、だから、多くの場合、エマージングパターンの推論のために全てのアイテムセットの全数検索をすることは、非常に費用がかかる。代わりのナイーブアルゴリズムを2個のステップに用いる:最初に、対象データセット内のいくつかのサポート閾値に関する大きなアイテムセットを発見する、それから、それらの頻度を列挙して、バックグラウンドデータセット内のそれらサポートを計算する、それにより、成長率閾値を満足するそれらアイテムセットとしてEP'sを確認する。それにしても、そのような2個のステップアプローチは、対象データセット内のゼロ・サポートやいくつかのノンゼロ・サポート、アイテムセットを列挙しないので、都合が良いが、それは、長い頻度アイテムセットに属する指数的な著しいサイズのセットのために、しばしば、現実的ではない。それゆえ、一般的に、ナイーブアルゴリズムは、通常、有効であるには、高い費用がかかる。
この問題を解決するために、(a)それら簡素な境界(最小のペアセットで、集合内の最大のアイテムセット)を用いて、アイテムセットの大きな集合の記述をすすめることが好ましい、(b)EPマイニング アルゴリズムは、それが、集合の境界のみで操作する(特に、多・境界・差分 アルゴリズムを用いて)、及びそれが境界を用いて発見したEP’sを表す、ように設計される。
制約を満足する全てのEP'sは、効率的に、MAX-MINER(参照:バヤルド、「データベースからのロングパターンの効率的マイニング」、Proceedings of the 1998 ACM- SIGMOD International Conference on Management of Data、85-93、(ACM出版、1998)) などのプログラムによって得られた、入力としての大きいアイテムセットの境界を取る、境界基礎のアルゴリズム、により発見できる。
マイニングEP’sの方法は、技術の1つとして取り付きやすい。本発明を有する使用に適したマイニングEP’sの好ましい方法の特別な記述は、「エマージングパターンの効率的マイニング:傾向と差異の発見」、ACM SIGKDD、International Conference on Knowledge Discovery and Data Mining, San Diego、43-52、(1999年8月)と「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000年) の中に見出される、尚、双方とも、ここで完全に参照されている。
分類におけるEP’sの利用:尤度集合による予測(PCL)
しばしば、境界EP’sの数は、大きい。そのようなパターンのランキングと視覚化は、重要な問題である。本発明の方法に従えば、境界EP’sはランク付けされる。特に、本発明の方法は、分類に対してトップ・ランクの頻度を用いる。トップ・ランクパターンは、ユーザがアプリケーションをより良く、より簡単に理解することを助けることができる。
境界EP’sを含むEP’sは、次の方法でランク付けされうる。
1.2個のEP’s Xi と Xj を与える、もし、Xiの頻度がXjのそれより大きければ、リスト中で、XiがXjより高い優先度とする。
2.Xiの頻度がXjの頻度と同じであるとき、もし、Xiの基数がXjのそれより大きければ、リスト中で、XiがXjより高い優先度とする。
3.XiとXjの頻度及び基数の双方が同じであれば、XiがXjに優先し、そしてEP’sを印刷・表示するコンピュータシステムあるいは方法によって、最初にXiが作成される。
実務において、試験サンプルは、それ自信のクラスからのEP’sだけでなく、カウンタ−パートのクラスからのEP’sも含む。これは、予測をより複雑にする。試験サンプルは、それ自信のクラスからの多くのトップ・ランクのEP’sを含むべきである、そしてカウンタ−パートのクラスからの好ましくは・数個の低い・ランク・でない・EP’sを含むのが好ましい。しかし、多種・広範囲のデータでの経験から、試験サンプルは、しばしば、まれではあるが、カウンタ−パートのクラスからの約1から約20個のトップ・ランクのEP’sを含むことが出来る。信頼性の有る予測を作るために、カウンタ−パートEP’sからの混乱信号を避けるためにホームのクラス内の高い頻度である多重(multiple)EP’sを用いることは妥当である。
好ましい予測方法は、次のように、2個のクラスのデータを含む試験サンプルTと境界EP’sのために実証される。少なくとも第1クラスのデータの1個の実例と少なくとも第2クラスのデータの1個の実例を持つ訓練データセットDを考察する、そして、Dを2個のデータセットDおよびDに分割する。DとDから複数の境界EP’sを抽出する。Dのランクn1の境界EP’sは、それらの頻度の降順に、{EP(i), i = 1, . . . n1 }として示され、そして、各々が、Dでのゼロでない(non-zero)発生を有する。同様に、D2のランクn2の境界EP’sは、また、それらの頻度の降順に、{EP2(j), j = 1, . . . n2 }として示され、そして、各々が、D2でのゼロでない(non-zero)発生を有する。境界EP’sのこれらセットの双方は、リスト形式に簡単に蓄積されうる。D1のi番目のEPの頻度は、f1(i) で示し、D2のj番目のEPの頻度は、f2(j) で示す。双方のリスト内のEP’sは、もし望めば、頻度の昇順に蓄積されうることは、また、理解されよう。
Tが、D1の次のEP’sを含むと仮定する、それは、境界EP’sでありえる:
{EP1(i1), EP1(i2), . . . . , EP1(ix) }
ここで、i1<i2<. . . .<ix≦n1 及び x≦n1 。 また、Tが、D2の次のEP’sを含むと仮定する、それは、境界EP’sでありえる:
{EP(j1), EP(j2), . . . . , EP(j) }
ここで、j1<j2<. . . .<j≦n 及び y≦n。実務において、第三リスト及び第四リストを作成することが便利である、ここで、第三リストは、f3(m)で示される、ここで、m番目のアイテムは、また試験データに発生し、そしてD1内でゼロでない発生を有する複数のエマージングパターンimから各々のエマージングパターンの第1クラスのデータ内に、発生頻度f(im)を含む、そして、ここで、第四リストは、f(m)で示される、ここで、m番目のアイテムは、また試験データに発生し、そしてD2内でゼロでない発生を有する複数のエマージングパターンimから各々のエマージングパターンの第1クラスのデータ内に、発生頻度f2(jm)を含む。だから、第三リストのエマージングパターンは、D内のそれらそれぞれの発生頻度の降順に並べられる、そして同様に、第四リストのエマージングパターンは、D内のそれらそれぞれの発生頻度の降順に並べられる、ことが好ましい。
次のステップは、Tのクラスのラベルを予測するために2個のスコアを計算する、ここで、各々のスコア(score)は、2個のクラスの1つに対応する。D1とD2のkトップ・ランクEP’sが使われると仮定する。そうすると、D1クラスのTのスコアは、次で定義される。
Figure 2005538437
同様に、DクラスのTのスコアは、次で定義される。
Figure 2005538437
もし、score(T)_D1 > score (T)_D2 であれば、サンプルTは、クラスD1にあると予測される。
それ以外で、Tは、クラスD2にあると予測される。もし、score(T)_D1 = score (T)_D2であれば、D1とD2のサイズが、好ましくは、決着をつけるために利用される、つまり、TがD1とD2の大きいほうに割り当てられる。もちろん、T内の最高発生頻度のEP’sは、D1とD2のどちらにおいてもトップ・ランクEP’sと同じである必要はない。
score(T)_D1 > score (T)_D2 は、双方とも商の総和であることに留意。もし、与えたクラスのトップi EP’sの各々が、T内で見出されば、i番目の商の値は、ただ1.0であるかもしれない。
一般的に、kは、エマージングパターンの総数より本質的に少なく選ばれた数、つまり、kは普通、k≪n1 とk≪n2のどちらかより更に少ないけれども、特に好ましいkの値は、20である。他のkの適当な値は、5、10、15、25、30、50及び100である。一般的に、好ましいkの値は、約5から約50の間にある。
代わりの具体例において、それぞれD1とD2のエマージングパターンn1とn2があるところで、kは、n1とn2のどちらかがより小さい固定比率に選ばれる。更に別の代わりの具体例では、kは、n1とn2の合計あるいはn1とn2の1つの固定比率に選ばれる。そのような具体例では、好ましい固定比率は、1%から5%の範囲である、そしてkは、kに対する固定比率が整数にならない場合において、最も近い整数値に丸められる。
上記に記載したスコアの計算方法は、マルチ・クラスデータの並列分類に一般化しうる。例えば、それは、他のサブタイプの全てから1つのサブタイプ区別するためのマルチ・遺伝子判別器やランク付けされた遺伝子リストの発見のために、特に有用である。そのような区別は、規則がそれ以下の残りのサブセットに対して1個のサブセットに基づいて表現されるので区別がローカル(局所)である階級的なツリー分類戦略とは対照的に、全部に対する1つであるので「グローバル(広範囲)」である。
cクラスのデータ、(c > 2) があり、D1, D2, . . . Dc で示されると仮定する。最初に、本発明の一般化された方法が、cグループのEP’sを発見する、そこで、n番目のグループ(1<n≦c)が、Dn対(∪i≠n Di)に対してである。機能選定と離散化は、典型的な2個のクラスデータを扱った同じ方法で達成しうる。例えば、Dnのランク付けされたEP’sは、
{EPn(i1), EPn(i2), . . . . , EPn(ix)}
で示され、そして、頻度の降順にリストされることが出来る。
次に、一対のスコアの代わりに、cスコアがTのクラスのラベルを予想するために計算できる。それは、クラスDn内のスコアTは、次の式で表される。
Figure 2005538437
対応して、最高スコアを有するクラスは、Tのクラスと予想され、Dnのサイズが決着をつけるために使われる。
本発明の方法の根底にある原理は、与えられたクラスのトップK EP’sからTに含まれたトップK EP’sがどれほど離れているかを計測するものである。1個以上のトップ・ランクEP’sを使うことで、更に信頼性のある尤度「集合」が用いられる。従って、この方法は、尤度集合による予測(「PCL(prediction by collective likelihood)」)と呼ばれる。
k=1の場合、score(T)_D1は、Tに含まれた第1ランクのEPが、D1の最高発生頻度EPから離れているかどうかを示す。この状況で、score(T)_D1が、その最大値1を持てば、そのとき、「距離(distance)」は非常に近い、つまり、D1の最も共通の特徴は、また試験サンプルにある。スコアが小さいことは、距離が大きいことを示す、だから、TがD1のクラスに属することが、よりありそうでなくなる。一般的に、それぞれのk トップ・ランクEP’sがTにある場合、score(T)_D1あるいはscore(T)_Dは、その最大値kを取る。
本発明の方法は、一般的に以下のエマージングパターンで達成される、ただ限定はされないが;境界エマージングパターン、左側境界エマージングパターンのみ、プラトーエマージングパターン、最も特定的プラトーエマージングパターンのみ、及び成長率が閾値ρより大きいエマージングパターン、ここでは、閾値は1より大きい全ての数、好ましくは2あるいは∞(ジャンピングEPでのように)あるいは2から10の数。
本発明の代わりの具体例では、プラトー空間(P-空間、上記に記載)が分類に利用され得る。特に、P-空間の最も特定の要素が利用される。PCLにおいて、ランク付けされた境界EP’sは、データセット内の全P-空間の最も特定的要素で置き換えられる、そして上記記載のPCLの他のステップで、達成される。
この具体例の有効性に対する理由は、P-空間の最も特定的要素の近隣は、ほとんどの場合で全てEP’sである。しかし、EP’sではない境界EP’sの隣接で多くのパターンがある。二番目は、P-空間の最も特定的要素に含まれたコンデイションは、通常、境界EP’sより更に多い。だから、コンデイション数が大きいほど、反対のクラスからEP’sを含む試験サンプルに対しての機会はより低い。それ故、正しく分類される確率は、高くなる。
分類においてのEP’sを用いる他の方法
PCLは、分類においてのEP’sを用いる方法のみではない。同じく信頼性が高くそして健全な結果を与える他の方法が現在の発明の目的と一致し、ここに述べられる。
従って、与えた試験実例を、Tで示す、そして、それは訓練データDに対応する、Tのクラスを予測するための第2方法は、次のスッテプから成る、ここで、表示法と用語が制限にならないように解釈する。
1.Dを2個のサブデータセットに分ける、それらをD1とD2と表示し、それぞれは、2個のクラスの1つからなる、そして、空リスト、ファイナルEP’s (finalEP’s)、を作成する。
2.D1のEP’sを発見、同様に、DのEP’sを発見する。
3.頻度と長さ(パターンのアイテム数)に応じて、EP’s(D1とD2双方から)を降順に並べる。ランク付けの規準は、以下である、
(a) 2個のEP’s、Xi とXj を与える、もし、XiがXjより大きければ、そのとき、Xiは、リスト内でXjに優先する。
(b) Xi とXjの頻度が同一の時、もし、XiがXjより大きければ、そのとき、Xiは、リスト内でXjに優先する。
(c) それらの頻度と長さが同一の時、2個のパターンは、同等に扱われる。ランク付けされたEPリストは、オーダーEP’s (ordered EP’s) として表示される。
4. オーダーEP’sの最初のEPをファイナルEP’s に入れる。
5.もし、最初のEPがD1(あるいはD2)からであれば、新しいD1(あるいは新しいD2)を設定する、それは、最初のEP を含まないD1(あるいはD2)のそれら実例からなる。
6.新しいD1あるいは新しいD2が空になるまで、ステップ2からステップ5を繰り返す。
7.Tに含まれた、あるいはすぐ隣の特有のEPのサブセットの1つがTに含まれたファイナルEP’s内の最初のEPを見出す。もし、EPが、第1クラスからであれば、試験実例は、第1クラスとして予想される。それ以外では、試験実例は、第2クラスとして予想される。
第三の方法によれば、システムが更に精度よく作られるかどうかを確かめるために強いEP’sが使われ、模範的なステップは以下の通りである、
1.Dを2個のサブデータセットに分ける、それらをD1とD2と表示し、それらは、それぞれ第1と第2クラスから成る。
2.D1内で強いEP’sを発見、同様にD内で強いEP’sを発見する。
3.頻度に応じて、各々の2個のEP’sのリストを降順に並べ替える。DとD内の強いEP’s対して、それぞれ、オーダーEPs1とオーダーEPs2としてオーダーEPリストを表示する。
4.それらが必ずTに含まれるように、オーダーEPs1から、トップk EP’s を見出す、そしてそれらを EP1(1), . . . . ,EP1(k) として表示する。同様に、それらが必ずTに含まれるように、オーダーEPs2から、トップk EP’s を見出す、そしてそれらを EP2(1), . . . . ,EP2(j)として表示する。
5.EP1(1)の頻度とEP2(1)の頻度を比較する、そして、もし前のものが大きければ、試験実例は、第1クラスのデータと予測される。それ以外では、もし後のものが大きければ、試験実例は、第2クラスのデータと予測される。同点状況は強い2-EP’s、つまり、その成長率が2より大きいEP’s、を用いることで壊される。
分類におけるEP’sの有用性の評価
エマージングパターンの有用性は、「リーフ・ワン・アウト・クロスバリデーション」(LOOCV)分類研究の実施により試験することが出来る。LOOCVでは、データセットの最初の実例は、試験実例としてみなされ、残りの実例は、訓練データとして扱われる。最初の実例から最後の1つまで、この手順を繰り返す、それは、精度、つまり、正しく予想された実例のパーセント、を評価可能である。精度評価の他の方法は、従来技術の1つとして知られており、本発明の方法と互換性がある。
本発明の実践は、今、数個の例によって示される。これらの例が、どのような形でも、現在の発明の範囲を制限するものではなく、単に代表的な具体例を示すだけであり、技術の1つとして理解されるべきである。
例、例1.エマージングパターン、例1.1: 生物学的なデータ
2.5の成長率閾値に対して、多くのEP’sが、UCI貯蔵庫(C.ブレーク&P. マーフィー、「UCI機械学習貯蔵庫」、http://www.cs.uci.edu/〜mlearn/MLRepository.html、あるいは、Department of Information and Computer Science, University of California, Irvine, USAから利用可能である) からのキノコのデータセット内に見出すことができる、以下は、2個の典型的なEP’sであり、各々は3個のアイテムからなる、
X = {(匂い = 無), (ひだ_サイズ = 広い), (リング_数 = 1)}
Y = {(傷 = 無), (ひだ_間隔 =接近), (ベール_色 = 白)} 。
キノコの2個のクラス内のそれらサポート、毒(poisonous)と食用(edible)は、次である。
Figure 2005538437
非常に大きい成長率を有するそれらEP’sは、食用と毒のキノコのクラス間の注目に値する区別特性を明らかにし、そして、それらは、強力な分類器(参照:例えば、J. リー、 G. ドン&K. ラマモハナラロ, 「分類用の最も顕示的ジャンピング・エマージングパターンの使用」、Knowledge an Information Systems、3: 131-145, (2001))の構築に有用であった。興味を引くのは、8個以上のアイテムを含むいくらかがあるが、単独個体アイテム{匂い = 無}、{ひだ_サイズ = 広い}及び{リング_数 = 1}のどの1つもEPではない。
例1.2:人口統計データ
13個以上のアイテムを含むEP’sの約120の集合は、アメリカで、国勢調査データセット「PUMS」(www. census. govで利用可)で発見された。これらEP’sは、成長率閾値1.2を使って、テキサスの人口をミシガンのそれと比較することにより得られる。そのようなEPの1つは、以下である。
{Disabl 1: 2. Langl: 2, Means: l, Mobili: 2, Perscar: 2, Rlabor:1, Travtim: [1.. 59], Work89: 1}
アイテムは、それぞれ、障害(Disabl)、自宅での言語(Langl)、交通(mobili)の手段(means)、個人医療(Perscar)、雇用状況(Rlabor)、通勤時間(Travtim)及び1989年の就労あるいは非就労(Work89)を表す、ここで、各々の属性値は領域値の列挙リスト内のアイテムに対応する。そのようなEP’sは、異なる社会と地理的グループ間の人口特性の差異を記述することが出来る。
例1.3:購買動向データ
1985年に2000万取引記録から1000個の購入パターン{コンピュータ, モデム, EDU-ソフトウェア}、そして1986年には、2000万取引記録から2100個のその購入があったと仮定する。この購入パターンは、1985年から1986年の成長率2のEPである、だから、成長率閾値が2以下で設定されたいかなる分析においても確認される。この場合、アイテムセットのサポートは、1986年でさえ非常に小さい。だから、低いサポートを有するパターンの重要性に感謝する価値さえある。
医療記録データ
癌患者の研究を考察する、ここで、1個のデータセットは、治った患者の記録を含み、他のデータは、治らなかった患者のデータを含む、そしてデータは、症状S及び治療Tに関する情報を含む。治らずから治ったの成長率9を有する仮定的に有効なEP {S1, S2, T1, T2, T3}は、そのように言えるであろう、つまり、双方の症状S1とS2を持った全ての癌患者とT1, T2 及び T3の全ての治療を受けた癌患者の間で、治った患者の数は、治らなかった患者の9倍である。これは、治療の組み合わせが、症状の組み合わせが生じるといつでも(良い方法が無ければ)、ほどこされるべきであることを示しているのかもしれない。EPは、ただ1%などの低いサポートを有しているが、それは、そのような低いサポートを有し及び非常に多くのアイテムからなるEP’sを見出すための効率的方法の不足ゆえ、おそらく、医療分野への新しい知識である。このEPは、例えば、症状Siに関する各々の治療の効果に関する支配的な知識を否定さえするかもしれない。だから、そのようなEP’sの選ばれたセットは、例えば、症状セットで示されるような、与えられた医療状況に対してどのような治療を用いるべきかの決定において、医者に有用な案内が出来る。
説明的遺伝子表現データ
遺伝子のDNA配列をRNAに書き換えるプロセスは、遺伝子表現と呼ばれる。翻訳後、RNAは、アミノ酸配列から成るタンパク質のため、コード化する。遺伝子表現レベルは、セル(細胞)で生産されたその遺伝子のRNAのおおよそのコピー数である。通常、以下に記載のマイクロアレイのような技術を用いて高度な平行実験により得られた遺伝子表現データは、特定の実験条件の下、遺伝子表現レベルを記録する:マイクロアレイ (参照:例えば、M. シェーナ、D. シャロン、R. デービス&P. ブラウン「相補的DNAマイクロアレイを持つ遺伝子表現パターンの量的監視」、サイエンス、270、467-470、(1995))、オリゴヌクレオチド「チップ」(参照:例えば、D. J. ロックハート、H. ドン、M. C. バヤン、M. T. フォレテイ、M. V. ガロ、M. S. チー、M. ミットマン、C. ワン、M. 小林、H. ホートン及びE. L. ブラウン、「高密度オリゴヌクレオチドアレイへのハイブリダイゼーションによる表現監視」、ネイチャー、バイオテック、14:1675-1680、(1996))、及び遺伝子表現の直列分析(参照:V. ベルカレシュウ、L. ツァン、B. ボーゲルスタイン&K. カインツラー、遺伝子表現の直列分析、サイエンス、270: 484-487、(1995))。
2個のクラスのデータ間の著しい差異の知識は、生物学において有用である。例えば、何がしかの遺伝子表現実験において、医者あるいは生物学者は、ある遺伝子あるいは遺伝子グループの表現レベルが正常セルと病気のセル間で急激に変化することを知ることを望む。そこで、これら遺伝子あるいはそれらのたんぱく質製品が、診断インジケータあるいは特定の病気対象の薬として用いることができる。
遺伝子表現データは、一般的に、行列として整理される。n列m行のマトリックスに対して、nは、通常、考えられた遺伝子の数を表現し、mは、実験の数を表現する。2つの主なタイプの実験がある。第1のタイプの実験は、コンデイションの変化の直列下で、同時にn個の遺伝子をm回の監視に向けられる(参照:例えば、J. L. デリシ、V. R. イヤー&P. O. ブラウン、「ゲノムスケール上での遺伝子表現の遺伝子コントロールと新陳代謝の探求」、サイエンス、278:680-686、(1997))。このタイプの実験は、コンデイションの直列下で、全ての単一の遺伝子の規則あるいは全ての可能な動向を提供するように意図される。結果としてのデータは、一般的に、時間的である。第2のタイプの実験は、単一環境、しかし、m個の異なるセルでn個の遺伝子を試験するために用いられる(参照:例えば、U. アロン、N. バーカイ、D. A. ノッタマン、K. ギシュ、S. イェバラ、D. マック&A. J. レビン、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proc. NATL. ACAD. SCI. U.S.A.、96: 6745-6750、(1999))。このタイプの実験は、新しいセルの分類を補助し、その表現が良い診断インジケータ[1, 8]である有用な遺伝子の確認用に期待される。結果としてのデータは、一般的に、空間的である。
遺伝子表現値は、連続的である。遺伝子を与える、genesで表示、コンデイションの直列下で、あるいは、単一コンデイション、しかし異なるタイプのセルの下で、その遺伝子表現値は、実数の範囲で形成する。この範囲は、[a, b] である、[c, d]は、[a, b]に含まれると仮定する。genej@[c, d]をアイテムと呼ぶ、genej の値は、cとd間に包括的に限定されることを意味する。1個の単一のアイテムのセット、あるいは異なる遺伝子からくる数個のアイテムセットは、パターンと呼ばれる。だから、パターンは、次の形式である、
{genei1@[ai1, bi1], . . . ., geneik@[aik, bik]
ここで、it≠is, 1≦k 。パターンは、常に、データセット内に頻度を有する。この例は、パターン、だから、エマージングパターンの頻度をいかに計算するかを示す。
表B
Figure 2005538437
表-Bは、3個が正常で、3個が癌である6個のセル内の4個の遺伝子の表現値から成る。表-Bの各々の6行は、「実例」である。パターン{gene1@[0.1, 0.3]}は、全データセット内で50%の頻度を有する、理由は、最初の3個の実例に対する遺伝子表現値が区間[0.1, 0.3]にあるからである。別のパッターン{gene1@[0.1, 0.3]}、{gene3@[0.30, 1.21]}は、全データセット内で0%の頻度を有する、理由は、2つの条件:(i)gene1’s値が範囲[0.1, 0.3]内でなければならない(ii)gene3’s値が範囲[0.30, 1.21]内でなければならない、を満足する単一の実例がないゆえである。しかしながら、パターン{gene1@[0.4, 0.6]}、{gene4@[0.41, 0.82]}は、50%の頻度を有すると見ることができる。
エマージングパターンを説明するために、表-Bのデータセットは、2個のサブデータセットに分割される:1個は、3個の正常セルの値から成り、他は、3個の癌セルの値から成る。与えられたパターンの頻度は、1個のサブデータセットから他のサブデータセットに変化することができる。エマージングパターンは、その頻度が、2個のサブセット間で、著しく変化するそれらパターンである。
パターン{gene1@[0.1, 0.3]}は、エマージングパターンである、理由は、それが、正常セルから成るサブデータセットでは頻度100%を有し、しかし、癌セルのサブセットでは頻度0%を有するからである。
パターン{gene1@[0.4, 0.6]}、{gene4@[0.41, 0.82]}は、また、エマージングパターンである、理由は、正常セルを有するサブデータセット内で頻度0%を有するからである。
次の例に使われた2個の一般にアクセス可能な遺伝子表現データ、白血病データセット(ゴルブ他、「癌の分子の分類:遺伝子表現の監視によるクラス発見とクラス予測」、サイエンス、286:531-537、(1999))、及び結腸腫瘍データセット(U. アロン、N. バーカイ、D. A. ノッタマン、K. ギシュ、S. イェバラ、D. マック&A. J. レビン、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proc. NATL. ACAD. SCI. U.S.A.、96: 6745-6750、(1999))が表-Cに記載される。遺伝子表現データの共通特性は、サンプルの数が、商業的な市場データと比較して、少ないことである。
表C
Figure 2005538437
別の表示法で、遺伝子Xの表現レベルは、gene(X)で与えることができる。正常組織のその0%の頻度を、この結腸腫瘍データセットから取られた癌組織の75%の頻度に変えるエマージングパターンの例は、次の3個のアイテムを含む:
{gene (K03001)≧89. 20, gene (R76254)≧127.16, gene (D31767) 63. 03}
ここで、K03001, R76254およびD31767は、特別な遺伝子である。このエマージングパターンによれば、新しいセル実験で、もし、遺伝子K03001の表現値が89. 20より小さくない及び遺伝子R76254の表現値が127.16より小さくない及び遺伝子D31767の表現値が63. 03より小さくないであれば、このセルは、正常なセルであるよりも癌のセルであることが見込まれる。
例2:腫瘍データセットからのエマージングパターン
このデータセットは、正常セルと癌セルの遺伝子表現レベルを含み、それは、例1.4で論議した実験の第2タイプの1つにより得られる。データは、Affymetrix HUM6000から得られた22の正常組織サンプルと40の結腸腫瘍組織サンプルの約6500の遺伝子に対しての遺伝子表現値からなる(参照:アロン他、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proceedings of National Academy of Science of the United State of America、96: 6745-6750、(1999))。これらサンプル2000の表現レベルは、それらサンプルにまたがる最小の強さに従い選ばれた、そして最小の強さ以下のそれら遺伝子は、無視された。減らされたデータセットは、インターネットサイト、http://microarray.princeton.edu/onocology/affydata/index.html、
で公に利用可能である。
このサンプルは、本質的に以下の問題に関する:
1.どの遺伝子の表現値の区間、あるいは多重遺伝子のどの区間の組み合わせ、のみが、正常組織ではなく癌組織で起きるのか、あるいは、癌組織ではなく正常組織で起きるのか?
2.上記の対照的な区間あるいは全てのEP’sの組み合わせ区間が有益で、信頼性が高いように、いかに遺伝子の表現値の範囲を多重区間に離散化することが可能か?
3.発見したパターンは、分類のタスクを実行するに利用できるか、つまり、同じタイプの表現実験の実施後、新しいセルが正常か癌であるかどうかを予測する?
これらの問題は、いくつかの技術で解決される。結腸癌データセットに対して、その2000個の遺伝子のうち35個の適切な遺伝子のみが、残りの1965個の遺伝子が方法により無視される間に、2個の区間に離散化される。この結果は、ほとんどの遺伝子が「取るに足らない(trivial)」ものとして見られるので非常に重要である、結果として、小さな数の良い診断インジケータが集中した簡単なプラットフォームをもたらす。
離散化に対して、データは、MLC++の利用により得られたフォーマットに応じて再編成される(参照:R. カハビ、G. ジョン、R. ロング、D. マンリー及び K. プレジャー、「MLC++ : C++内の機械学習ライブラリー」、Tools with Artificial Intelligence、740-743、(1994))。簡単に、再編成データセットは、当初のデータセットに対角対称である。この例では、私たちは、どの遺伝子が選ばれ、どの遺伝子が捨てられるかを見るために、離散化結果を提示する。エントロピー基礎の離散化方法は、正常なセルからの表現値と癌のセルからの表現値の間で「最高の」、信頼の高い差別的である区間を発生する。だから、エントロピー基礎の離散化方法は、自動的に、ほとんどの遺伝子を無視し、数個の最も差別的な遺伝子を選ぶ。
離散化方法は、2000の35のおのおのを2個のばらばらの区間に分割する、一方、残りの1965遺伝子にカットポイントはない。これは、遺伝子の1.75%(= 35/2000)のみが特別の差別的遺伝子として考察され、その他は分類用としては相対的に重要でないとして考察することができることを示す。良い診断遺伝子の少ない数を得る、だから、離散化方法は、信頼の高いエマージングパターンの効率的発見のための基盤を置く、それ故、膨大な数のうるさいパターンの発生を取り除く。
離散化結果は、最初の行が35個の遺伝子のリストを含み、2行目は、遺伝子番号を示す、区間は3行目に示す、そして遺伝子の手順と名前は、それぞれ4行目と5行目に示される表ーDに要約される。表-Dの区間は、よく知られた数学的表記法で示される、ここで、角括弧[は、範囲の境界数を包括するであり、丸括弧(は、境界数の除外を意味する。
Figure 2005538437
Figure 2005538437
総計70個の区間がある。従って、アイテムは区間にリンクした遺伝子から成るペア(対)である70個のアイテムを伴う。70個のアイテムは次のようにインデックス(索引)をつける:第1の遺伝子の2個の区間は、1番及び2番アイテムとして、i番目の遺伝子の2個の区間は、(i*1)番、(i*2)アイテムとして、そして35番目の遺伝子の2個の区間は、69番、70番アイテムとして索引がつけられる。この索引は、ェマージングパターンを書いたり読んだりする時、便利である。例えば、パターン{2}は、{geneT51560@[101.3719, +∞]} を表す。
離散化したデータを基礎のエマージングパターンは、次の2個の効率的境界-基礎アルゴリズムの利用により発見された、境界-差異及びJEP-作成器(Border-Diff and JEP-Producer)(参照:ドン& リー:“エマージングパターンの効率的マイニング:傾向と差異の発見”、Proc. 5th ACM SIGKDD、International Conference on Knowledge Discovery & Data Mining、43-52、(1999);リージェイ、正確で効率的な分類器の構築のためのエマージングパターン、博士論文、Department of Computer Science and Software Engineering、メルボルン大学、オーストラリア、(2001);J. リー、 G. ドン&K. ラマモハナラロ、「分類用の最も顕示的ジャンピング・エマージングパターンの使用」、Knowledge an Information Systems、3: 131-145, (2001);J. リー、K. ラマモハナラロ&G. ドン、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、551-558、(2000))。アルゴリズムは、「ジャンピング・エマージングパターン」―1個のクラス内の最大頻度である(つまり、正常組織あるいは、癌組織の場合)、しかし他のクラスの全てで起きない、それらEP’sを得ることが出来る。結腸腫瘍データセットの正常組織内のゼロでない頻度を有する19,501のEP’sの合計は、発見された、そして、癌組織内のゼロでない頻度を有する2,165のEP’sの合計は、これらアルゴリズムによって得られた。
表-E及び表-Fは、発生頻度の降順に並べられた、22個の正常組織と40個の癌組織に対する、トップ20のEP’sと強いEP’sのリストである。各々の場合、1行目は、EP’sを示す。パターン内の数は、例えば、パターン{16, 58, 62}の16、58及び62は、上記で論議し索引をつけたアイテムである。
表E
Figure 2005538437
表F
Figure 2005538437
エマージングパターンから推論できるいくつかの主要な洞察は、次に要約する。第1は、境界―基礎のアルゴリズムは、全てのエマージングパターンの発見を補償する。
いくつかのエマージングパターンは、驚くほど面白い、特に相対的に大きい数の遺伝子を含むものに対してである。例えば、パターン{2, 3, 6, 7,13, 17, 33}は、7個の遺伝子を互いに結合するけれど、それは、いまだ、正常組織において、非常に大きい頻度(90. 91%)を有することができる、つまり、ほとんど全ての正常セルの表現値は、7個のアイテムによって暗示された全てのコンデイションを満足する。しかしながら、単一の癌セルが全てのコンデイションを満足はしない。単独及び6個の組み合わせを含む、パターン{2, 3, 6, 7,13, 17, 33}の固有のサブパターンの全ては、正常及び癌組織の双方でゼロでない頻度を有しなければならないことを観察する。これは、{2, 3, 6, 7,13, 17, 33}の全てのサブパターンによって暗示されたコンデイションを満足する正常及び癌組織の双方から少なくとも1個のセルが存在しなければならないことを意味する。
{5}のような単独のエマージングパターンの頻度は、1個以上のアイテムを含むエマージングパターン、例えば、{16, 58, 62}、の頻度より大きい必要はない。だから、パターン{5}は、パターン{16, 58, 62}の頻度(75%)より約2.3倍小さい32.5%の頻度を持つ癌組織内のエマージングパターンである。これは、遺伝子表現データの分析に対して、遺伝子グループとそれら相関が単一の遺伝子より良く、更に重要であることを示す。
離散化方法及び境界-基礎EP発見アルゴリズム無しでは、大きな頻度を有するそれら信頼度の高いエマージングパターンを発見することは非常に難しい。1,965の他の遺伝子が、同様に各々2個の区間に分割されることを前提にして、そのとき、7の長さを有する7C2000*27個の可能なパターンがある。そのような膨大な数のパッターンの列挙とそれら頻度の計算は、今回、実際的に不可能である。たとえ、離散化方法でも、7C35*27個のパターンのナイーブ列挙は、まだ、パターン{2, 3, 6, 7, 13, 17, 33}の発見に対して、高価すぎる。いくつかの発見されたEP‘s(ここにはリストされていない)が、7個の遺伝子を含むことを認識する時、実際には、問題は更に複雑であることを理解することができる。
2個の境界-基礎のアルゴリズムの使用を通して、固有サブセットがエマージングパターンでないそれらEP’sのみが発見される。興味深く、その他EP’sは、発見したEP’sを用いて得ることができる。一般的に、発見したEPの全ての固有スーパーセットは、また、エマージングパターンである。例えば、カウント20のEP’s(表-E参照)を用いて、同じカウント20を持つ、12個の遺伝子から成る非常に長いエマージングパターン{2, 3, 6, 7, 9, 11,13, 17, 23, 29,3 3, 35}を得ることが出来る。
62個の組織の全てが、それ自身のクラスから少なくとも1個のエマージングパターンに適合しなければならない、しかし他のクラスからの全てのEP’sは含まないことに留意する。従って、システムは、データの全てのアイテムが、システムによって発見されたパターンによって発見されるので、うまく全部のデータを学習する。
要約すると、発見したエマージングパターンは、いつも、小さな数の遺伝子を含む。この結果は、ユーザに小さな数の良い診断遺伝子に焦点をあてさせるのみでなく、より重要なことは、遺伝子の区間の組み合わせ及び組み合わせ頻度で発生された遺伝子のいくつかの相互作用を明らかにすることである。発見したエマージングパターンは、新しいセルの特徴を予測するために使うことができる。
次に、エマージングパターンは、新しいセルが正常あるいは癌のどちらかの予測でパターンがいかに有用であるかを示すために、分類タスクを実行するために使われる。
表-E、表-Fに示すように、EP’sの頻度は、非常に大きい、だから、遺伝子のグループは、新しい組織を分類するために良いインジケータである。「リーフ・ワン・カット・バリデーション」(LOOCV)分類タスクを実施することによりパターンの有用性を試験することは有用である。LOOCVによって、62個の組織の最初の実例は、試験実例として確認され、残りの61個の実例は、訓練データとして取り扱われる。この手順を、最初の実例から62番目のものまで繰り返す、正しく予測された実例のパーセントによって与えられた、正確さ(精度)を得ることが可能である。
この例で、2個のサブデータセットはそれぞれ正常訓練組織と癌訓練組織から成る。バリデーションは、正しく62個組織の57を予想する。3個の正常組織(N1, N2 及び N39)のみが癌組織として間違って分類された、そして、2個の癌組織(T28 及び T33)が正常組織として間違って分類された。この結果は、文献の結果と比較することができる。フリー他(参照:T. S. フリー、N. クリスチアンニ、N. ダフィー、D. W. ベッドナアスキー、 M. シューマー及びD. ハウスラー、「サポート・ベクトル・マシーン分類とマイクロアレイ表現データを用いた癌組織サンプルの確認」、Bioinformatics、16: 906-914、(2000)) 分類ミスの6個の組織(T30, T33, T36, N8, N34, 及びN36)、1000個の遺伝子とSVMアプローチ使用。興味深いことは、ここで提示した方法による全ての分類ミスの例は、SVM法による分類ミスのそれらと、1個(T33は双方で分類ミス)を除いて異なることである。だから、ここに提示の分類方法の性能は、SVM法より優れている。
結腸腫瘍データセットは、非常に複雑であることを強調するものである。通常的にそして理想的に、試験正常(または癌)組織は、正常(または癌)訓練組織から大きい数のEP’sを、そして他のタイプの組織から小さな数のEP’sを含むべきである。しかしながら、ここに提示した方法を基礎にして、試験組織は、組織の双方のクラスから、多くのEP’s、トップ・ランクの高頻度EP’sさえ含むことができる。
上記に提示した第三の方法の使用により、62個組織の58個が正しく予測される。4個の正常組織(N1, N12, N27 及び N39)は、癌組織として間違って分類された。だから、分類の結果は、強いEP’sが使用されたとき、改善する。
同じデータセットの分類結果に従うと、私たちの方法は、SVN法及びクラスタリング法より優れている。
境界EP’sあるいは、CFS法が、最も重要である2000個のオリジナル遺伝子から23個の機能を選定した。23個の機能の全ては、2個の区間に分割される。
合計371個の境界EP’sは、正常セルのクラス内に、そして、これら23個の機能を用いて、癌セル内の131個の境界EP’sは、発見された。合計502個のパターンは、上記に記載の方法に従ってランク付けされる。いくらかのトップ・ランク境界EP’sは、表-Gに示される。
表G
Figure 2005538437
ALL/AMLデータと異なり、以下例3で論議されて、結腸腫瘍データに、正常と癌セルを明確に分離するためのアビトレーター(調停物)として働く単一遺伝子はない。代わりに、遺伝子グループは、2個のクラス間の相違を明らかにする。留意、また新しい、これら境界EP’s、特に、多くのコンデイションを有するそれらは、生物学者と医者には明らかではない。だから、それらは、新しい生物学的な機能を明らかにする可能性があり、そして新しい道(pathway)を見出す可能性を持ち得る。
P-空間
正常セルのクラスで同じ18の最高頻度を持つ合計10個の境界EP’sがあることを見ることが出来る。これら境界EP’sを基礎として、P18-空間は、唯一の最も特定の要素がZ = {2, 6, 7, 9,11, 15, 21, 23, 25, 31}内で発見することが出来る。凸状によって、また、10個の境界EP’sのどれか1つのスーパーセットであるZの全てのサブセットは、正常クラスないで18個の発生を有する。あるいは、凸状によって、この空間が、表-Hに示すように、11個のEP’sのみを用いて簡素に表示されることが出来る。
表H
Figure 2005538437
表-Hにおいて、最初の10個のEP’sは、最も一般的要素で、そして最後の1つが、空間内の最も特定の要素である。EP’sの全部は、それぞれ、頻度18と0で正常及び癌クラスの双方内で同じ発生を有する。
このP-空間から、重要な遺伝子グループ(境界EP’s)が、重要性を失うことなくいくつかの他の遺伝子を加えることにより拡張することが出来る、つまり、1個のクラス内で高い発生を保持する、しかし、他のクラス内では存在しない、を見ることが出来る。これは、生物学的道の最大長を確認するに有用であり得る。
同様に、P30-空間は、癌クラスで発見された。この空間内で最も一般的なEPは、{14, 34, 38}のみであり、最も特定のEPは、{14, 30, 34, 36, 38, 40, 41, 44, 45}のみである。それ故、境界EPは、その発生を変えずに、6個以上の遺伝子を加えることができる。
シャドウパターン
それは、また、シャドウパターンの発見に向かう。表-Jは、一列目に示すように、境界EP及びそのシャドウパターンを報告する。これらシャドウパターンは、また、境界EPの固有サブセットがゼロでない頻度で2個のクラス内で発生しなければならないポイントの説明に使うことができる。
表J
Figure 2005538437
結腸データセットに対して、PCL法を用いて、C4. 5、ナイーブベイズ、k-NN及びサポート・ベクター・マシーンなどの他の分類方法より、良いLOOCV誤差率を得ることができる。結果は、表-Kに要約される、ここでは、誤差率は、失敗予想の絶対数として表現される。
表K
Figure 2005538437
加えるに、P-空間は、分類用に使われることができる。例えば、結腸データセットに関して、ランク付けされた境界EP’sは、P-空間の最も特定の要素によって置き換えられた。言い換えれば、境界EP’sを抽出する代わりに、最も特定のプラトーEP’sは、抽出される。PCLを用いる残りのステップは、変化しない。LOOCVによって、6個のみの誤った分類の誤差率が得られる。この削減は、表-Kのそれらへの比較で重要です。
例3:最初の遺伝子表現データセット(白血病患者のために)
白血病データセット(T. R. ゴルブ、D. K. スロニム、P. タマヨ、C. ヒュアード、M. ガセンビーク、J. P. メシロフ、H. コラー、M.L. ロー、J.ダウニング、M. A. カリギュリ、C. D. ブルームフィールド及びE. S. ランダー、「癌の分子の分類:遺伝子表現の監視によるクラス発見とクラス予測」、サイエンス、286:531-537、(1999))は、上記の表-Cに示すように、劇症リンパ球白血病(ALL)の27個のサンプルの訓練セット及び劇症骨髄腫白血病(AML)の11個のサンプルを含む。(ALL及びAMLは、白血病の2個の主なサブタイプである。)この例は、20個のALLと14個のAMLの目隠し試験セットを使用した。高密度オリゴヌクレオチド・マイクロアレイは、6,817個の人間遺伝子の7,129個のプローブを使用した。このデータは、次のURLで公に利用可能である、http ://WWW. genome. wi. mit. edu/MPR。
例3.1:白血病データから得られたパターン
CFS方法は、7,129個の機能の全体から1個の遺伝子、Zyxinのみを選ぶ。離散化方法は、994でカットポイントを用いて、この機能を2個の区間に分割する。それから、それらホームクラス内で100%発生を有する、2個の境界EP’s、gene_zyxin@(-∞, 994)及びgene_zyxin@[ 994, -∞)は、発見された。
生物学的に、これら2個のEP’sは、サンプルセル内のZyxinの表現が994より小さければ、このセルがALLクラスに有ることを示す。それ以外、このセルは、AMLクラス内である。この規則は、例外なく38個の訓練サンプル全てを規制する。この規則をが34個の目隠し試験サンプルに適用すれば、3個のミス分類のみが得られる。この結果は、ゴルブ他、サイエンス、286: 531-537、(1999)に報告されたシステムの正確さより優れている。
生物学的及び技術的雑音は、データを作成する実験要綱内の多くの段階で、機械的及び人的双方の起源で、たびたび発生する。例は、以下を含む:DNAアレイの生産、サンプルの用意、表現レベルの抽出、また、不純物あるいは組織の誤った分類から。これら可能な誤差-同等、どこ-小さい、を克服するために、以下に論議するように、分類方法を強化するために1つ以上の遺伝子をことに使うことを提案する。
エントロピー基礎の離散化方法により分割された時、エントロピー値が他の7,127の機能全てのそれらより著しく小さい4個の遺伝子が発見された。これら4個の遺伝子、これらの名前、カットポイント及びアイテム索引が表-Lにリストされる、がパターン発見に対して選ばれた。表-L内の各々機能は、2行目のカットポイントを用いて、2個の区間に分割される。アイテム索引(インデックス)は、EPを示す。
表L
Figure 2005538437
合計6個の境界EP’sが発見された、3個ずつがALLとAMLクラス。表-Mは、全クラス内の境界EPと一緒にそれら発生と発生のパーセントを示す。パターン内に含まれる参照番号は、表-2の区間索引を参照する。
表M
Figure 2005538437
生物学的に、例としてEP {5, 7}は、CST3の表現が1419.5より小さく、Tropomysinが83. 5より小さいならば、このサンプルは、100%正確にALLである、といえる。だから、本発明の方法により得られた境界EP’sを伴うそれら遺伝子の全ては、ALLとAMLを分類するために、非常に良い診断インジケータである。
P-空間は、また、2個の境界EP’s {5, 7} と {1}を基準に、発見された。このP27-空間は、5個のプラトーEP’s: {1}、{1, 7}、{1, 5}、{5, 7} 及び {1, 5, 7}から成る。最も特定のプラトーEPは、{1, 5, 7}である。このEPは、まだ、ALLクラスで27個の完全発生を有することに留意。
PCL法の精度は、白血病データセット(ゴルブ他、1999)の34個の目隠し試験サンプルにそれを適用により、及び結腸データセットに関してリーフ・ワン・アウトクロスバリデーション(LOOCV)の実施により、試験された。白血病訓練データに適用した時、CFS法は、2個の区間に離散化された1個の遺伝子、Zyxinを正確に選んだ、それゆえ、簡単な規則を形成し、サンプル内のZyxinのレベルが994以下であれば、サンプルはALLである、それ以外は、サンプルはAMLである、として表現可能。従って、1つの規則しかないように、それを使うことに曖昧さはない。この規則は、訓練データに関して100%正確である。しかし、目隠し試験データのセットに適用した時、いつかの分類誤差をもたらした。精度を上げるために、いくつかの追加遺伝子を用いることが妥当である。白血病データの4個の遺伝子が、エントロピー基礎の離散化法により、最も重要なものとして選定されたことを思い出そう。これら4個の遺伝子から得られた境界EP’sに関してPCLを使って、2個のミス分類の試験誤差率が得られた。この結果は、Zyxin遺伝子のみを用いて得られた結果より1エラー少ない。
例4: 第2遺伝子表現データセット(劇症リンパ球白血病)
この例は、聖ジュード小児研究病院(A. E. -J ヤオ他、「診断での小児劇症リンパ球白血病(ALL)ブラストの表現プロファイリングは、再発リスクと治療による誘発劇症骨髄腫白血病(AML)の双方を正確に予測する」、Plenary talk at アメリカ血液学会43回年度会議、オランドー、フロリダ、(2001年12月))から得られた遺伝子表現プロファイルの大きい集合を使用する。データは、劇症リンパ球白血病(ALL)サンプルの327個の遺伝子表現プロファイルから成る。これらプロファイルは、12558に対するプローブを含むAffymetrix U95A GeneChipに関する交配により得られた。交配データは、(a) 3以下の全ての遺伝子「Pと呼ぶ」は、1で置き換えられる、(b) 全ての強度値「Aと呼ぶ」は、1で置き換えられる、(c) 全ての100以下の強度値は、1で置き換えられる、(d) 全ての45000以上の強度値は、45000で置き換えられる、(e) 最大及び最小強度値が100以下で異なる全ての遺伝子は1で置き換える、のようにクリーンアップされる。これら327遺伝子表現プロファイルは、T-cell (T-ALL)、E2A-PBX1、TEL-AML1、MLL、 BCR-ABL、及び hyperdiploid (Hyperdip>50) を含む全ての既知の劇症リンパ球白血病サブタイプを含む。
図6に示すように、ツリー構造決定システムがこれらサンプルの分類に使われた。与えたサンプルに対して、それがT-ALLあるいは他のサブタイプのサンプルであるかどうかを分類するために最初に規則が用いられる。それが、T-ALLとして分類されるならば、処理は終える。それ以外は、プロセスは、サンプルがE2A-PBX1として、あるいは残りの他のサブタイプの1つかどうかを見るため、ツリーのレベル2に移動する。同様の理由で、このツリー基礎の決定プロセスは、サンプルがHyperdip>50 あるいは簡単に「OTHERS(その他)」.であるかを決定するレベル6で終わることができる。
サンプルは、215個のサンプルの「訓練セット」と112個の目隠し「試験セット」に分割される。図6によれば、更に各々の2セットを6個のペアのサブセットに分割する必要がある、1個は、ツリーの各々のレベルに対応する。
表N
Figure 2005538437
表-Nの「OTHERS1」、「OTHERS2」、「OTHERS3」、「OTHERS4」、「OTHERS5」及び「OTHERS」は、表の2行目に示すように、1個以上のALLのサブタイプから成る。
例4.1:EP発生
エマージングパターンは、2個のステップで作成される。最初のステップは、訓練セットの12,558個の遺伝子の間から最も差別的遺伝子を選定する。第2ステップは、選定された遺伝子を基礎にエマージングパターンを作成する。
エントロピー基礎の遺伝子選定法が、遺伝子表現プロファイルに適用された。12,558個の遺伝子のほとんどが無視されるので、それは非常に有効であることを証明した。約1000個の遺伝子のみが分類に利用されるものとみなされた。10%選定率は、重要な規則を得るためのより簡単なプラットフォームを提供する。それにしても、1,000個ぐらいの遺伝子を手で検査することは、まだ退屈な仕事である。チイ・スクワード (χ) 法、H.リュー & R. セチオノ、「Chi2 : 機能選定と数値属性の離散化」、Proceedings of the IEEE 7th International Conference on Tools with Artificial Intelligence、 338-391、(1995)、 H. ウイッテン& E. フランク、データマイニング: ジャバ装備を有する実務的機械学習ツールと技術、Morgan Kaufmann、San Mateo、CA、(2000)、及び相関基礎の機能選定(CFS)法、(ホール、相関基礎の機能選定機械学習、博士論文、 Department of Computer Science、University of waikato、Hamilton、New Zealand、(1998)及びウイッテン&フランク2000)が、重要遺伝子のための検索を更に狭めるために使われる。この研究で、もしCFS方法が20より大きくない数の遺伝子を返せば、そのとき、CFS-選定遺伝子は、エマージングパターンを得るために使用される。それ以外に、方法によるトップ20ランクの遺伝子が、使われる。
この例では、特別なタイプのEP’s、ジャンピング「左側境界」EP’sと呼ぶ、が発見された。2個のデータセットD1とD2を与える、これらEP’sは、次の条件の満足を要求する:(i) D1(あるいはD2)内のそれら頻度は、ゼロでない、しかし、別のデータセットは、ゼロである。(ii) 固有サブセットは全てEPでない。ジャンピング左側境界EP’sは、EP’s間の大きい頻度を有するEP’sであることに留意。更に、ジャンピング左側境界EP’sのほとんどは、D1とD2双方内でゼロ頻度を持っていない限り、EP’sである。
最も差別的な遺伝子を選んで、離散化した後、BORDER-DIFF 及びJEP-PRODUCERアルゴリズム(ドン& リー、ACM SIGKDD、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52 (1999)、リー、正確で効率的な分類器の構築のためのマイニングエマージングパターン、博士論文、メルボルン大学、オーストラリア、(2001)、リー他、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000))が、処理データセットからEP’sを発見するために利用された。ほとんどの操作は、境界であり、これらアルゴリズムは非常に効率的である。
例4.2 EP’sから得られた規則(ルール)
この章は、訓練データセットから発見したEP’sを報告する。パターンは、ALLの種々の遺伝子表現プロファイルを識別するために規則の形成に拡張されることが出来る。
T-ALL 対 OTHERS 1 に対する規則:
最初のデータセットペアーT-ALL 対 OTHERS1に対して、CFS法は、最も重要なものとして、ただ1個の遺伝子38319_atを選定した。離散化法は、この遺伝子の表現範囲を2個の区間(-∞, 15975.6) 及び [15975.6, +∞)に分割した。EP発見アルゴリズムを用いて、2個のEP’s {gene_38319_at@ (-∞, 15975. 6)} 及び{ gene_38319_at@ (15975. 6, +∞)}が得られた。先のものはT-ALLクラス内に100%頻度を、しかしOTHERS 1クラス内にゼロ頻度を有する、後のものは、T-ALLクラス内にゼロ頻度を、しかしOTHERS 1クラス内に100%頻度を有する。だから、私たちは、次の規則を有する。
もし、38319_atの表現が、15975.6,以下であれば、
このALLサンプルは、T-ALLでなければならない、
それ以外、
OTHERS1内のサブタイプでなければならない。
この簡単な規則は、例外なく、215 ALLサンプル(28個のT-ALL + 187このOTHERS1)を規制する。
E2A-PBX1対OTHERS2に関する規則
また、E2A-PBX1対OTHERS2に対する簡単な規則がある。方法は、1個の遺伝子33355_atを拾い上げ、そして、それを2個の区間(-∞, 10966) 及び [10966, +∞)に離散化した。
{gene_33355_at@(-∞, 10966) } 及び{gene_33355_at@(10966, +∞)}が、それぞれE2A-PBX1 及び OTHERS2内で頻度100%を有するEP’sであると発見された。だから、これら187 個のALLのサンプル(18 個のE2A-PBX1 + 169 個のOTHERS2)に対する規則は、
もし、33355_atの表現が、10966以下であれば、
このALLのサンプルは、E2A-PBX1でなければならない、
それ以外、
OTHERS2内のサブタイプでなければならない。
残りの4個のペアデータセットに対して、CFS法は、20個以上の遺伝子を返す。だから、方法は、各々の4個のペアデータセットに対して、20個のトップ・ランク遺伝子が選ぶために使われる。表O、表P、表Q及び表Rは、それぞれ、選ばれた遺伝子、それらの区分及び4個のペアデータセットに対する区間への索引をリストする。索引は、遺伝子の名前及びそれら区間に一致し、結合するので、索引を用いてEP’sを読み、書きするにより便利である。
表O
Figure 2005538437
表P
Figure 2005538437
表Q
Figure 2005538437
表R
Figure 2005538437
選ばれた遺伝子の離散化後、4個のペアデータのそれぞれにEP’sの2個のグループが発見された。表-Sは、発見されたエマージングパターンの数を示す。表-Sの4行目は、発見されたエマージングパターンの数が比較的大きいことを示す。私たちは、それら頻度に従って、トップ10個のEP’sをリストするために、別の4個の表、表-T、表-U、表-V及び表-Wを用いる。それらトップ10のEP’sの頻度は、98. 94%に達することが出来、それらのほとんどは、80%付近である。トップにランク付けされたEPは、全てのクラスのサンプルをカバーしていないけれども、それはクラス全体を支配する。カウンターパートクラス内のそれらの不在は、トップにランク付けされたエマージングパターンが、クラスの性質を捕らえることが出来ることを実証する。
表S
Figure 2005538437
表T
Figure 2005538437
表U
Figure 2005538437
表V
Figure 2005538437
表W
Figure 2005538437
どのようにEP’sを規則に通訳すべきかの実証として、TEL-AML1クラスの最初のEP、つまり、{2, 33}を検討する。表-Oの索引によれば、このEP内の2番目が38652_atの右側区間に合致する、そして38652_atの表現は、8,997. 35に等しいかそれより大きい条件にある。同様に33番は、36937_s_atの左側区間に合致する、そして36937_s_atの表現は、13,617. 05より小さい条件にある。ゆえに、パターン{2, 33}は、TEL-AML1クラスの92. 31%(52個のサンプルの内の48個)が上記の2つの条件を満足するが、OTHERS3からは1個もこれら双方の条件を満足しないことを意味する。従って、この場合、全てのクラスは、トップ10のEP’sのすこしの数で全部がカバーされる。これらEP’sは、望まれる規則である。
規則の信頼性をテストする重要な方法論は、それらを前もって不明のサンプル(つまり、目隠し試験サンプル)に適用することである。この例では、112個の目隠し試験サンプルが前もって用意された。試験結果の要約は次の通りである:
レベル1で、15個のT-ALLサンプル全てが、正しくT-ALLとして予測された、97個のOTHERS1サンプル全てが、正しくOTHERS1として予測された。
レベル2で、9個のE2A-PBX1サンプル全てが、正しくE2A-PBX1として予測された、88個のOTHERS2サンプル全てが、正しくOTHERS2として予測された。
レベル3から6で、用いたEP’sの数に依存して、4−7個のサンプルのみに分類ミスがあった。大きな数のEP’sを用いることにより、誤差率は減少する。
レベル1及びレベル2の各々で1個の規則が発見された、これらの2つの規則を使うことに曖昧さはない。しかしながら、大きい数のEP’sが、ツリーの残りのレベルで見出された。従って、試験サンプルが、それ自身のクラスでEP’sを含むのみならずそのカウンターパートからもEP’sを含むので、信頼性のある予測には、カウンターパートEP’sから混乱信号を避ける「ホーム」クラスの多重高頻度EP’sを用いることが妥当である。だから、PCL法がレベル3から6に適用される。
複数の規則が用いられ、kを変えた時、試験精度が表-Xに示される。結果から、多重高頻度EP’s(あるいは多重の強い規則)がコンパクトで強力な尤度予測を提供することが出来ることを見ることが出来る。20、25及び30のkで、合計4個の分類ミスが作られた。4個の試験サンプルのIDは、ヤオ他、アメリカ血液学会43回年度会議、2001の表現方法を用いて、94-0359-U95A、 89-0142-U95A、 91-0697-U95A 及び 96-0379-U95Aである。
表X
Figure 2005538437
多重・クラス予測への一般化
BCR-ABLテストサンプルは、トップ20のBCR-ABL判別器の全てのほとんどを含んでいた。そして、19.6のスコアがそれに割り当てられた。いくつかのトップ20「OTHERS」判別器と一緒にトップ20リストを越えるいくつかが、また、この試験サンプルに含まされた。そして、別のスコア6.97が割り当てられた。この試験サンプルは、E2A-PBXL、 Hyperdip>50 あるいは T-ALLの判別器は一切含まれなかった。そして、スコアは次の表-Yになる。
表Y
Figure 2005538437
従って、このBCR-ABLサンプルは、非常に高い信頼性で、正しくBCR-ABLとして予測された。この方法によって、kを15から35まで変えた時、総数112個の試験サンプルに対して6から8個のみの分類ミスであった。しかしながら、C4.5、SVM、NB, 及び 3-NNは、それぞれ 27、26、29及び11個のミスがあった。
分類への改善
レベル1及びレベル2で、1個のみの遺伝子が分類及び予測に使用された。記録データ中の人的誤差や、まれだが存在するDNAチップによる機械的誤差などの可能な誤差を克服するために、1個以上の遺伝子が、システムを強力にするために使われ得る。
離散化方法によって分割される時、レベル1で、事前に選定された1個の遺伝子38319_atは、ゼロのエントロピーを有する。ゼロのエントロピーを有する他の遺伝子は無いことがわかる。そして、χ2法によりランク付けされたトップ20の遺伝子が、T-ALL及び OTHERS 1試験サンプルを分類するために選ばれた。これから、96個のEP’sと146個のEP’sが、それぞれT-ALL及び OTHERS 1クラス内で発見された。予測方法を用いて、目隠し試験サンプルに関して同じ完全精度100%が、単一の遺伝子が用いられた時のように達せられる。
レベル2で、離散化方法によって分割された時、ゼロ エントロピーを有する総計5個の遺伝子がある。5個の遺伝子の名前は、430_at、1287_at、33355_at、41146_at及び 32063_atである。33355_atは、事前選定の1個の遺伝子であることに留意。5個の遺伝子全ては、それぞれ次のカットポイント、30,246.05、34,313.9、10,966.25、842.15及び 4,068.7、で2個の区間に分割される。エントロピー ゼロとして、頻度100%を有するE2A-PBX1クラス及び OTHERS2クラス内で5個のEP’sがある。PCL予測法を用いて、全試験サンプル(レベル2で)がミス無しで正しく分類された、再度完全100%制度が達成した。
他の方法との比較
表-Zにおいて、予想精度が、同じ選定された遺伝子及び同じ訓練及び試験サンプルを用いて、k-NN、C4.5、NB及び SVM法によって達成された精度と比較される。PCL法は、C4.5の 14から71 %、NBの8から50%、k-NNの7から43%及びSVMの6.1から33%の分類ミスを減じた。医療取り扱いの観点から、この誤差の減少は、大いに患者のためになる。
表Z
Figure 2005538437
最初に議論したように、SVM、NB及びk- NNに対してPCL方法の明らかな利点は、意味ある及び信頼性のあるパターンと規則が得られることである。それらのエマージングパターンは、新しい洞察を遺伝子の相関と相互作用に提供することが出来、そして単に分類ができるというより更に詳細なサンプルの理解を手伝うことができる。C4.5は、同様な規則を発生できるが、時々悪く作用し(例えば、レベル6)、その規則は信頼性がない。
トップの20の遺伝子の使用の査定
最も重要な遺伝子の確認のための努力や計算がなされた。実験結果は、選定されたトップ遺伝子あるいはトップ20の遺伝子がPCL予測法で非常に有用であることが示された。しかしながら、選定された遺伝子の品質を判定する他の方法が可能である。この場合、20個の遺伝子あるいは1個の遺伝子がランダム(無作為)に拾い上げられ、精度の差異が調査される。
手順は、(a):レベル1及びレベル2で1個の遺伝子をランダムに選び、そして残りの4レベルの各々でランダムに20個の遺伝子を選ぶ、(b):SVM及び k-NNを走らす、各々のレベルの試験サンプルに関するそれら精度を得る、及び(c):(a)と(b)を100回繰り返す、そして平均と他の統計を計算する。
表-AAは、SVMとK-NNによる100回実験の最小、最大及び平均精度を示す。比較のために、ダミー分類器が、またリストされる。ダミー分類器によって、2個のアンバランスなクラスのデータが与えられたとすると、全ての試験サンプルは、大きいクラスとして平凡に予測される。次の2つの重要な事実が明らかになる。第1は、全ての平均精度はそれらダミー精度より低いか、わずかに大きい。第2は、全ての平均精度は著しく(少なくとも9%)選定遺伝子基準の精度より低い。差異は30%に達する。ゆえに、遺伝子選定方法は、予測方法で効率的に動作する。機能選定方法は、信頼の高い正確な予測モデルが確率される前の重要な基本ステップである。
表AA
Figure 2005538437
12,558個の遺伝子を持つオリジナルデータが予測法に適用されれば、また、精度の高い計算が可能である。実験結果は、遺伝子選定方法がまた大きな差異を生むことを示す。オリジナルデータに対して、SVM、k-NN、NB及び C4.5法は、それぞれ目隠し試験サンプルに関して23、23、63及び26個の分類ミスを作る。これらの結果は、減少データがそれぞれSVM、k-NN、NB及び C4.5法に適用されると、誤差率6、7、8及び13より更に悪い。従って、遺伝子選定方法は、信頼度のある予測モデルの確率のために重要である。
最後に、エマージングパターン基礎の方法は、特に遺伝子表現ファイルの分類に適用した時、高い精度と簡単な翻訳の双方に利点を有する。ALLサンプルの大きな集合の試験の時、方法は、精度良くそのサブタイプの全てを分類し、そして誤差率は、C4. 5、NB、SVM及びK-NNに比べて著しく小さい。試験は、訓練用でおおよそデータの2/3が、目隠し試験用で残りの1/3を使うことで実行された。事実、誤差率の同様な改善が、表-BBに示すように、また、訓練データに関して10・フォールド・クロス・バリデーション(10-fold cross validation)試験において観察された。
表BB
Figure 2005538437
本発明の精神及び範囲を逸脱しないで、ここに開示した発明を実現するために構成要素の変更や修正を与えても良いことは明らかであろう。たとえば、種々の変数、データセット、コンピュータ読み込みメデイア、計算装置の利用は全て、本発明の範囲である。だから、そのような追加の具体例も本発明及びここに要求する特許請求の範囲内である。
本発明のコンピュータシステムを示す。 座標システム上でサポートがいかに表現されるかを示す。 第1クラス及び第2クラスのデータにあるサンプルTの尤度集合を予測(PCL)するための本発明による方法を描写する。 2個のクラスのデータの発生の順序によるソートされた、エマージングパターンを得る表現方法を描写する。 エマージングパターンを用いて、Tがクラスのデータにある尤度予測を計算する方法を示す。 劇症リンパ腺白血病「全」サンプルの6個以上のサブタイプを予測するためのツリー構造システムを示す。
符号の説明
112:ファイルシステム
114:アプリケーションプログラム
118:統計分析ツール
120:ソーティングツール
122:エマージングパターン
124:発生頻度
126:データセットD
128:第一クラスD1
130:第二クラスD2
132:試験データT
202:EP’s及びD1、D2における発生頻度抽出
204:EP’s及びTにおける発生頻度抽出
206:D1あるいはD2であるTの尤度集合予測

Claims (75)

  1. nが2又はそれ以上であるn個のクラスのひとつに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法であって、
    少なくとも、各々の前記n個のクラスのデータの1個の実例を有する訓練データセットDから、複数のエマージングパターンを抽出すること、
    n個のリストを作成すること、そこでは、
    前記n個のリストのi番目のリストが、i番目のクラスのデータ内のゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンEPi(m)の発生頻度fi(m)を含む、ことを特徴とし、
    kは、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、n個のスコアの計算すること、そこでは、
    前記n個のスコアのi番目のスコアを、また前記試験データで発生する前記i番目のスコアのk個のエマージングパターンの頻度から得ることを特徴とし、
    そして
    前記n個のスコアのもっとも高いものを選ぶことにより、試験データが、前記n個のクラスのデータのどこに分類されるかを推論すること、
    から成る、nが2又はそれ以上であるn個のクラスのひとつに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法。
  2. 加えるに、最も高いスコアを持つものが1クラス以上あれば、最も高いスコアを持つデータのクラスの最大を選ぶことにより、試験データが、前記n個のクラスのデータのどこに分類されるかが推論されることを特徴とする請求の範囲第1項記載の方法。
  3. 前記試験データに発生するi番目のリストの前記k個のエマージングパターンは、全iに対して、前記試験データに発生する前記i番目のそれら全てのエマージングパターン間の前記i番目のリストにおける発生頻度の最大を持つことを特徴とする請求の範囲第1又は2項記載の方法。
  4. i番目のリストのエマージングパターンは、全iに対して、前記i番目のクラスのデータの前記発生頻度の降順に並べられることを特徴とする請求の範囲前記いずれかの請求項記載の方法。
  5. i番目のリストは、長さliを有し、kは、最小liの固定比率であることを特徴とする請求の範囲前記いずれかの請求項記載の方法。
  6. i番目のリストは、長さliを有し、 kは、比率が次の式である:
    Figure 2005538437
    ことを特徴とする請求の範囲第1から4項のいずれかに記載の方法。
  7. i番目のリストは、長さliを有し、 kは、liのあらゆる比率であることを特徴とする請求の範囲第1から4項のいずれかに記載の方法。
  8. 前記固定比率は、約1%から約5%であり、そしてkは最も近い整数に丸められることを特徴とする請求の範囲第5から7項のいずれかに記載の方法。
  9. n=2 である、
    ことを特徴とする請求の範囲前記いずれかの請求項記載の方法。
  10. n=3 またはそれ以上である、
    ことを特徴とする請求の範囲第1から8項のいずれかに記載の方法。
  11. 第1クラスあるいは第2クラスに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法であって、
    少なくとも、第1クラスデータの1個の実例と第2クラスデータの1個の実例を有する訓練データセットDから、複数のエマージングパターンを抽出すること、
    第1及び第2リストを作成すること、そこでは、
    前記第1リストは、前記第1クラスのデータのゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンEP1(m)の発生頻度f1(m)を含み、
    前記第2リストは、前記第2クラスのデータのゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンEP(m)の発生頻度f(m)を含む、ことを特徴とし、
    kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、
    また前記試験データで発生する前記第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、
    また前記試験データで発生する前記第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算すること、
    前記第1および第2スコアの高いものを選ぶことにより、試験データが、前記第1クラスあるいは第2クラスのデータに分類されるかどうかを推論すること、
    から成る、第1クラスあるいは第2クラスに、試験データTを有する試験サンプルが分類されるかどうかを決定する方法。
  12. 加えるに、前記第1スコアと前記第2スコアが同じであれば、第1及び第2クラスのデータの大きいものを選ぶことにより、試験サンプルが、前記第1あるいは第2クラスのデータに分類されるかどうかが推論されることから成る請求の範囲第11項記載の方法。
  13. 前記試験データに発生する前記第1リストの前記k個のエマージングパターンは、前記試験データに発生する前記第1リストのそれらエマージングパターンの全ての間の前記第1リストにおける最高発生頻度を有する、そして、前記試験データに発生する前記第2リストの前記k個のエマージングパターンは、前記試験データに発生する前記第2リストのそれらエマージングパターンの全ての間の前記第2リストにおける最高発生頻度を有することを特徴とする請求の範囲第11あるいは12項記載の方法。
  14. 前記第1リストのエマージングパターンは、前記第1クラスのデータにおける前記発生頻度の降順に並べられ、前記第2リストのエマージングパターンは、前記第2クラスのデータにおける前記発生頻度の降順に並べられることを特徴とする請求の範囲第11から13項のいずれかに記載の方法。
  15. 加えるに、第三リスト及び第四リストの作成することから成り、そこでは、
    前記第三リストは、また前記試験データに発生し、そして前記第1クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンimの前記第1クラスのデータにおける発生頻度f1 (im)を含み、
    前記第四リストは、また前記試験データに発生し、そして前記第2クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンjmの前記第2クラスのデータにおける発生頻度f2(jm)を含む、ことを特徴とし、そして
    前記第三リストのエマージングパターンは、第1クラスのデータの前記発生頻度の降順に並べられ、そして
    前記第四リストのエマージングパターンは、第2クラスのデータの前記発生頻度の降順に並べられる、
    ことを特徴とする請求の範囲第11から14項のいずれかに記載の方法。
  16. 前記第1スコアは、次の式で与えられる:
    Figure 2005538437
    前記第2スコアは、次の式で与えられる:
    Figure 2005538437
    ことを特徴とする請求の範囲第15項記載の方法。
  17. 前記第1リストは、長さl1を有し、前記第2リストが長さlを有し、そしてkは、l1及びlのどちらかよりも小さい固定比率であることを特徴とする請求の範囲第11から16項のいずれかに記載の方法。
  18. 前記第1リストは、長さl1を有し、前記第2リストが長さlを有し、そしてkは、l1及びlの合計の固定比率であることを特徴とする請求の範囲第11から16項のいずれかに記載の方法。
  19. 前記第1リストは、長さl1を有し、前記第2リストが長さlを有し、そしてkは、lあるいはlのいずれかの固定比率であることを特徴とする請求の範囲第11から16項のいずれかに記載の方法。
  20. 前記固定比率は、約1%から約5%であり、そしてkは最も近い整数に丸められることを特徴とする請求の範囲第11から17項のいずれかに記載の方法。
  21. kは、約5から約50であることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  22. kは、約20であることを特徴とする請求の範囲21項に記載の方法。
  23. 各々のエマージングパターンは、状態の結合として表現されることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  24. 左側境界のエマージングパターンのみが用いられることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  25. プラトーエマージングパターンのみが用いられることを特徴とする請求の範囲第1から23項のいずれかに記載の方法。
  26. 最も特定的プラトーエマージングパターンのみが用いられることを特徴とする請求の範囲第25項に記載の方法。
  27. 各々の前記エマージングパターンは、閾値、ρより大きい成長率を有することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  28. 前記閾値は、約2から約10であることを特徴とする請求の範囲第27項に記載の方法。
  29. 各々の前記エマージングパターンは、無限大の成長率を有することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  30. 加えるに、前記抽出の前に、前記データセットを離散化することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  31. 前記離散化は、エントロピー基礎の方法を利用することを特徴とする請求の範囲第30項に記載の方法。
  32. 前記離散化の後、相関基礎の機能選択方法を前記データセットに適用することを特徴とする請求の範囲第30及び31項に記載の方法。
  33. 加えるに、前記離散化の後、チイ・スクアード(Chi-Squared)方法を前記データセットに適用することを特徴とする請求の範囲第30及び31項に記載の方法。
  34. 前記データセットは、遺伝子表現データから構成されることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  35. 前記遺伝子表現データは、マイクロアレイ装置から獲得されることを特徴とする請求の範囲第34項に記載の方法。
  36. すくなくとも、1個のクラスデータは、第1タイプのセルに対応し、すくなくとも、別のクラスデータは、第2タイプのセルに対応することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  37. 前記第1タイプのセルは、正常なセルであり、そして、前記第2タイプのセルは、癌セルであることを特徴とする請求の範囲第36項に記載の方法。
  38. 少なくとも、1個のクラスデータは、対象の第1母集団に対応し、少なくとも、別のクラスデータは、対象の第2母集団に対応することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
  39. 前記データセットは、患者の医療記録から成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  40. 前記データセットは、金融取引から成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  41. 前記データセットは、国勢調査データから成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  42. 前記データセットは、食品、 製造品、そして原料からなるグループから選定された項目の特徴から成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  43. 前記データセットは、環境のデータから成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  44. 前記データセットは、気象データから成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  45. 前記データセットは、有機体(生物)の母集団の特徴から成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  46. 前記データセットは、マーケテイングデータから成ることを特徴とする請求の範囲第1から33項のいずれかに記載の方法。
  47. 試験データが存在する試験サンプルが、第1のクラスあるいは第2のクラスに分類されるかどうかを決定するためのコンピュータプログラム製品であって、
    コンピュータプログラム製品は、コンピュータシステムに関連して用いられるものであり、
    コンピュータプログラム製品は、コンピュータの読み出し可能な蓄積媒体とそこにはめ込まれたコンピュータプログラム機構から成り、
    コンピュータプログラム機構は、
    少なくとも1個の統計分析ツールと、
    少なくとも1個のソーティングツールと、
    少なくとも第1クラスのデータの1個の実例と、少なくとも第2クラスのデータの1個の実例とを有するデータセットにアクセスするための制御命令と、
    前記データセットから複数のエマージングパターンを抽出することと、
    第1リストと第2リストの作成、そこでは、
    各々の前記複数のエマージングパターンに対して、
    第1リストは、前記第1クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (1)を含み、
    第2リストは、前記第2クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (2)を含む、ことを特徴とし、
    kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、
    また前記試験データで発生する前記第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、
    また前記試験データで発生する前記第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算し、
    前記第1および第2スコアの高いものを選ぶことにより、試験データが、前記第1クラスあるいは第2クラスのデータに分類されるかどうかを推論することから成る、
    試験データが存在する試験サンプルが、第1のクラスあるいは第2のクラスに分類されるかどうかを決定するためのコンピュータプログラム製品。
  48. 加えるに、前記第1スコアと前記第2スコアが同じであれば、第1及び第2クラスのデータの大きいものを選ぶことにより、試験サンプルが、前記第1あるいは第2クラスのデータに分類されるかどうかが推論される、制御命令から成る請求の範囲第47項に記載のコンピュータプログラム製品。
  49. 前記試験データに発生する前記第1リストの前記k個のエマージングパターンは、前記試験データに発生する前記第1リストのそれらエマージングパターンの全ての間の前記第1リストにおける最高発生頻度を有する、そして、前記試験データに発生する前記第2リストの前記k個のエマージングパターンは、前記試験データに発生する前記第2リストのそれらエマージングパターンの全ての間の前記第2リストにおける最高発生頻度を有することを特徴とする請求の範囲第47あるいは48項に記載のコンピュータプログラム製品。
  50. 更に、前記第1リストのエマージングパターンを、前記第1クラスのデータにおける前記発生頻度の降順に並べ、前記第2リストのエマージングパターンを、前記第2クラスのデータにおける前記発生頻度の降順に並べる、制御命令から成る請求の範囲第47から49項のいずれかに記載のコンピュータプログラム製品。
  51. 加えるに、第三リスト及び第四リストの作成する:そこでは、前記第三リストは、また前記試験データに発生し、そして前記第1クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンimの前記第1クラスのデータにおける発生頻度f1(i)を含み、前記第四リストは、また前記試験データに発生し、そして前記第2クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンjmの前記第2クラスのデータにおける発生頻度f(j)を含む、ことを特徴とし、そして前記第三リストのエマージングパターンは、第1クラスのデータの前記発生頻度の降順に並べられ、そして前記第四リストのエマージングパターンは、第2クラスのデータの前記発生頻度の降順に並べられる、ことを特徴とする:制御命令から成る請求の範囲第47から50項のいずれかに記載のコンピュータプログラム製品。
  52. 更に、前記第1スコアは、次の式:
    Figure 2005538437
    前記第2スコアは、次の式:
    Figure 2005538437
    で計算する、命令から成る請求の範囲第51に記載のコンピュータプログラム製品。
  53. kは、約5から約50であることを特徴とする請求の範囲第47から52項のいずれかに記載のコンピュータプログラム製品。
  54. 左側境界のエマージングパターンのみが用いられることを特徴とする請求の範囲第47から53項のいずれかに記載のコンピュータプログラム製品。
  55. 各々の前記エマージングパターンは、無限大の成長率を有することを特徴とする請求の範囲第47から54項のいずれかに記載のコンピュータプログラム製品。
  56. 前記データセットは、遺伝子表現データ、患者の医療記録、金融取引、国勢調査、製造品の特徴、食品の特徴、原材料の特徴、気象データ、環境データ及び有機体(生物)母集団の特徴から成るグループから選定されたデータから成ることを特徴とする請求の範囲第47から55項のいずれかに記載のコンピュータプログラム製品。
  57. 試験データが存在する試験サンプルが、第1のクラスあるいは第2のクラスに分類されるかどうかを決定するためのシステムであって、
    システムは、
    少なくとも1個のメモリと、
    少なくとも1個のプロセッサーと、
    少なくとも1個のユーザーインターフェースとから成り、
    全ては、少なくとも1個のバスで互いに接続され、
    そこでは、前記少なくとも1個のプロセッサーは、
    少なくとも第1クラスのデータの1個の実例と少なくとも第2クラスのデータの1個の実例を有するデータセットをアクセスと、
    前記データセットから複数のエマージングパターンを抽出と、
    第1リストと第2リストの作成とを行うことを特徴とし、
    そこで、
    各々の前記複数のエマージングパターンに対して、
    第1リストは、前記第1クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (1)を含み、
    第2リストは、前記第2クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi( 2)を含み、
    kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用い、
    また前記試験データで発生する前記第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、
    また前記試験データで発生する前記第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算し、
    前記第1および第2スコアの高いものを選ぶことにより、試験データが、前記第1クラスあるいは第2クラスのデータに分類されるかどうかを推論すること
    を特徴とする
    試験データが存在する試験サンプルが、第1のクラスあるいは第2のクラスに分類されるかどうかを決定するためのシステム。
  58. 加えるに、前記プロセッサーは、前記第1スコアと前記第2スコアが同じであれば、第1及び第2クラスのデータの大きいものを選ぶことにより、試験サンプルが、前記第1あるいは第2クラスのデータに分類されるかどうかの推論を実行することを特徴とする請求の範囲第57項に記載のシステム。
  59. 前記試験データに発生する前記第1リストの前記k個のエマージングパターンは、前記試験データに発生する前記第1リストのそれらエマージングパターンの全ての間の前記第1リストにおける最高発生頻度を有する、そして、前記試験データに発生する前記第2リストの前記k個のエマージングパターンは、前記試験データに発生する前記第2リストのそれらエマージングパターンの全ての間の前記第2リストにおける最高発生頻度を有することを特徴とする請求の範囲第57あるいは58項に記載のシステム。
  60. 加えるに、前記プロセッサーは、前記第1リストのエマージングパターンを、前記第1クラスのデータにおける前記発生頻度の降順に並べ、前記第2リストのエマージングパターンを、前記第2クラスのデータにおける前記発生頻度の降順に並べる、ことを実行することを特徴とする請求の範囲第57、58あるいは59項に記載のシステム。
  61. 加えるに、前記プロセッサーは、第三リスト及び第四リストの作成を、実行し、
    そこでは、
    前記第三リストは、また前記試験データに発生し、そして前記第1クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンimの前記第1クラスのデータにおける発生頻度f1(i)を含み、
    前記第四リストは、また前記試験データに発生し、そして前記第2クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンjmの前記第2クラスのデータにおける発生頻度f(j)を含む、ことを特徴とし、そして
    前記第三リストのエマージングパターンは、第1クラスのデータの前記発生頻度の降順に並べられ、そして
    前記第四リストのエマージングパターンは、第2クラスのデータの前記発生頻度の降順に並べられる、ことを特徴とすることを特徴とする請求の範囲第57から60項のいずれかに記載のシステム。
  62. 加えるに、前記プロセッサーは、
    前記第1スコアを、次の式:
    Figure 2005538437
    前記第2スコアを、次の式:
    Figure 2005538437
    で計算することを、実行することを特徴とする請求の範囲第61項に記載のシステム。
  63. kは、約5から約50であることを特徴とする請求の範囲第57から62項のいずれかに記載のシステム。
  64. 左側境界のエマージングパターンのみが用いられることを特徴とする請求の範囲第57から63項のいずれかに記載のシステム。
  65. 各々の前記エマージングパターンは、無限大の成長率を有することを特徴とする請求の範囲第57から64項のいずれかに記載のシステム。
  66. 前記データセットは、遺伝子表現データ、患者の医療記録、金融取引、国勢調査、製造品の特徴、食品の特徴、原材料の特徴、気象データ、環境データ及び有機体(生物)母集団の特徴から成るグループから選定されたデータから成ることを特徴とする請求の範囲第57から65項のいずれかに記載のシステム。
  67. サンプルセルが癌かどうかを決める方法であって、
    複数の癌セルに対する遺伝子表現データと複数の正常セルに対する遺伝子表現データから成るデータセットから複数のエマージングパターンを抽出することと、
    第1リスト及び第2リストを作成すること、
    そこでは、
    前記第1リストは、前記癌セル内のゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度fi (1)を含み、
    前記第2リストは、前記正常セル内のゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度f2 (2)を含む、ことを特徴とする、と、
    kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、
    また前記試験データで発生する前記第1リストのk個のエマージングパターンの頻度から得られる第1スコアと、
    また前記試験データで発生する前記第2リストのk個のエマージングパターンの頻度から得られる第2スコアと、を計算することと、
    前記第1スコアが、前記第2スコアよりも高い場合、サンプルデータが、癌かどうかを推論する、
    ことから成るサンプルセルが癌かどうかを決める方法。
  68. 試験データTを有する試験サンプルが、本質的に多数のクラスの1つに分類されるどうかを決める方法であって、前条に記載したように、および、添付の図面に記載されたように、なされた試験データTを有する試験サンプルが、本質的に多数のクラスの1つに分類されるどうかを決める方法。
  69. 請求の範囲第47から56項のいずれかに記載のコンピュータプログラム製品であって、請求の範囲第1から46および67、68項のいずれかに記載の方法によって動作可能である請求の範囲第47から56項のいずれかに記載のコンピュータプログラム製品。
  70. コンピュータプログラム製品であって、請求の範囲第1から46および67、68項のいずれかに記載の方法によって動作可能であるコンピュータプログラム製品。
  71. 試験データが存在する試験サンプルが、多数のクラスの1つに分類されるどうかを決めるためのコンピュータプログラム製品であって、前条に記載したように、および、添付の図面に記載されたように、本質的に動作するために構成され配置された、試験データが存在する試験サンプルが、多数のクラスの1つに分類されるどうかを決めるためのコンピュータプログラム製品。
  72. 請求の範囲第57から66項のいずれかに記載のシステムであって、請求の範囲第1から46および67、68項のいずれかに記載の方法によって動作可能である、請求の範囲57から66項のいずれかに記載のシステム。
  73. 試験データが存在する試験サンプルが、多数のクラスの1つに分類されるどうかを決めるためのシステムであって、前条に記載したように、および、添付の図面に記載されたように、本質的に動作するために構成され配置された、試験データが存在する試験サンプルが、多数のクラスの1つに分類されるどうかを決めるためのシステム。
  74. システムであって、請求の範囲第1から46および67、68項のいずれかに記載の方法によって動作可能であるシステム。
  75. 請求の範囲第57から66および71から73項のいずれかに記載のシステムであって、請求の範囲第47から56および69から71項のいずれかに記載のコンピュータプログラム製品を利用する、請求の範囲第57から66および71から73項のいずれかに記載のシステム。
JP2004530722A 2002-08-22 2002-08-22 エマージングパターンからの尤度集合による予測 Pending JP2005538437A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SG2002/000190 WO2004019264A1 (en) 2002-08-22 2002-08-22 Prediction by collective likelihood from emerging patterns

Publications (1)

Publication Number Publication Date
JP2005538437A true JP2005538437A (ja) 2005-12-15

Family

ID=31944989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004530722A Pending JP2005538437A (ja) 2002-08-22 2002-08-22 エマージングパターンからの尤度集合による予測

Country Status (6)

Country Link
US (1) US20060074824A1 (ja)
EP (1) EP1550074A4 (ja)
JP (1) JP2005538437A (ja)
CN (1) CN1316419C (ja)
AU (1) AU2002330830A1 (ja)
WO (1) WO2004019264A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527635A (ja) * 2012-06-21 2015-09-17 フィリップ モリス プロダクツ エス アー 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041541B2 (en) * 2001-05-24 2011-10-18 Test Advantage, Inc. Methods and apparatus for data analysis
US20040163044A1 (en) * 2003-02-14 2004-08-19 Nahava Inc. Method and apparatus for information factoring
JP4202798B2 (ja) * 2003-03-20 2008-12-24 株式会社東芝 時系列パターン抽出装置および時系列パターン抽出プログラム
US8655911B2 (en) * 2003-08-18 2014-02-18 Oracle International Corporation Expressing frequent itemset counting operations
US20060089828A1 (en) * 2004-10-25 2006-04-27 International Business Machines Corporation Pattern solutions
WO2006062485A1 (en) * 2004-12-08 2006-06-15 Agency For Science, Technology And Research A method for classifying data
US7769579B2 (en) * 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
FR2882171A1 (fr) * 2005-02-14 2006-08-18 France Telecom Procede et dispositif de generation d'un arbre de classification permettant d'unifier les approches supervisees et non supervisees, produit programme d'ordinateur et moyen de stockage correspondants
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US9208229B2 (en) 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US7831545B1 (en) * 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US7567976B1 (en) * 2005-05-31 2009-07-28 Google Inc. Merging objects in a facts database
JP4429236B2 (ja) 2005-08-19 2010-03-10 富士通株式会社 分類ルール作成支援方法
WO2007067956A2 (en) * 2005-12-07 2007-06-14 The Trustees Of Columbia University In The City Of New York System and method for multiple-factor selection
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8700568B2 (en) * 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US8234077B2 (en) 2006-05-10 2012-07-31 The Trustees Of Columbia University In The City Of New York Method of selecting genes from gene expression data based on synergistic interactions among the genes
US20070293998A1 (en) * 2006-06-14 2007-12-20 Underdal Olav M Information object creation based on an optimized test procedure method and apparatus
US8762165B2 (en) 2006-06-14 2014-06-24 Bosch Automotive Service Solutions Llc Optimizing test procedures for a subject under test
US9081883B2 (en) 2006-06-14 2015-07-14 Bosch Automotive Service Solutions Inc. Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
US8423226B2 (en) * 2006-06-14 2013-04-16 Service Solutions U.S. Llc Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
US8428813B2 (en) 2006-06-14 2013-04-23 Service Solutions Us Llc Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
US7643916B2 (en) 2006-06-14 2010-01-05 Spx Corporation Vehicle state tracking method and apparatus for diagnostic testing
US20100324376A1 (en) * 2006-06-30 2010-12-23 Spx Corporation Diagnostics Data Collection and Analysis Method and Apparatus
US7958407B2 (en) * 2006-06-30 2011-06-07 Spx Corporation Conversion of static diagnostic procedure to dynamic test plan method and apparatus
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8291371B2 (en) * 2006-10-23 2012-10-16 International Business Machines Corporation Self-service creation and deployment of a pattern solution
US8086409B2 (en) 2007-01-30 2011-12-27 The Trustees Of Columbia University In The City Of New York Method of selecting genes from continuous gene expression data based on synergistic interactions among genes
US7873634B2 (en) 2007-03-12 2011-01-18 Hitlab Ulc. Method and a system for automatic evaluation of digital files
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US7966291B1 (en) 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US20090216584A1 (en) * 2008-02-27 2009-08-27 Fountain Gregory J Repair diagnostics based on replacement parts inventory
US20090216401A1 (en) * 2008-02-27 2009-08-27 Underdal Olav M Feedback loop on diagnostic procedure
US8239094B2 (en) * 2008-04-23 2012-08-07 Spx Corporation Test requirement list for diagnostic tests
US20100055652A1 (en) 2008-08-29 2010-03-04 Karen Miller-Kovach Processes and systems based on dietary fiber as energy
DE102008046703A1 (de) * 2008-09-11 2009-07-23 Siemens Ag Österreich Verfahren zum Trainieren und Testen eines Mustererkennungssystems
US20100235344A1 (en) * 2009-03-12 2010-09-16 Oracle International Corporation Mechanism for utilizing partitioning pruning techniques for xml indexes
US8648700B2 (en) * 2009-06-23 2014-02-11 Bosch Automotive Service Solutions Llc Alerts issued upon component detection failure
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US10431336B1 (en) 2010-10-01 2019-10-01 Cerner Innovation, Inc. Computerized systems and methods for facilitating clinical decision making
US11398310B1 (en) 2010-10-01 2022-07-26 Cerner Innovation, Inc. Clinical decision support for sepsis
US20120089421A1 (en) 2010-10-08 2012-04-12 Cerner Innovation, Inc. Multi-site clinical decision support for sepsis
US10628553B1 (en) 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
US8856156B1 (en) 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
US8856130B2 (en) * 2012-02-09 2014-10-07 Kenshoo Ltd. System, a method and a computer program product for performance assessment
US10163063B2 (en) * 2012-03-07 2018-12-25 International Business Machines Corporation Automatically mining patterns for rule based data standardization systems
US10249385B1 (en) 2012-05-01 2019-04-02 Cerner Innovation, Inc. System and method for record linkage
US8543523B1 (en) * 2012-06-01 2013-09-24 Rentrak Corporation Systems and methods for calibrating user and consumer data
US9110969B2 (en) * 2012-07-25 2015-08-18 Sap Se Association acceleration for transaction databases
CN102956023B (zh) * 2012-08-30 2016-02-03 南京信息工程大学 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法
US9282894B2 (en) * 2012-10-08 2016-03-15 Tosense, Inc. Internet-based system for evaluating ECG waveforms to determine the presence of p-mitrale and p-pulmonale
US10946311B1 (en) 2013-02-07 2021-03-16 Cerner Innovation, Inc. Discovering context-specific serial health trajectories
US10769241B1 (en) 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US11894117B1 (en) 2013-02-07 2024-02-06 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
ES2740323T3 (es) * 2013-05-28 2020-02-05 Five3 Genomics Llc Redes de respuesta a paradigma de fármaco
US10483003B1 (en) 2013-08-12 2019-11-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US10957449B1 (en) 2013-08-12 2021-03-23 Cerner Innovation, Inc. Determining new knowledge for clinical decision support
US12020814B1 (en) 2013-08-12 2024-06-25 Cerner Innovation, Inc. User interface for clinical decision support
US10521439B2 (en) * 2014-04-04 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, apparatus, and computer program for data mining
US20150332182A1 (en) * 2014-05-15 2015-11-19 Lightbeam Health Solutions, LLC Method for measuring risks and opportunities during patient care
WO2016028252A1 (en) * 2014-08-18 2016-02-25 Hewlett Packard Enterprise Development Lp Interactive sequential pattern mining
US20170011312A1 (en) * 2015-07-07 2017-01-12 Tyco Fire & Security Gmbh Predicting Work Orders For Scheduling Service Tasks On Intrusion And Fire Monitoring
CN105139093B (zh) * 2015-09-07 2019-05-31 河海大学 基于Boosting算法和支持向量机的洪水预报方法
US10733183B2 (en) * 2015-12-06 2020-08-04 Innominds Inc. Method for searching for reliable, significant and relevant patterns
WO2017191648A1 (en) * 2016-05-05 2017-11-09 Eswaran Kumar An universal classifier for learning and classification of data with uses in machine learning
US10515082B2 (en) * 2016-09-14 2019-12-24 Salesforce.Com, Inc. Identifying frequent item sets
US10956503B2 (en) 2016-09-20 2021-03-23 Salesforce.Com, Inc. Suggesting query items based on frequent item sets
US11270023B2 (en) * 2017-05-22 2022-03-08 International Business Machines Corporation Anonymity assessment system
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
US11132612B2 (en) * 2017-09-30 2021-09-28 Oracle International Corporation Event recommendation system
US10685175B2 (en) * 2017-10-21 2020-06-16 ScienceSheet Inc. Data analysis and prediction of a dataset through algorithm extrapolation from a spreadsheet formula
JP2021523745A (ja) 2018-05-16 2021-09-09 シンテゴ コーポレイション ガイドrna設計および使用のための方法およびシステム
WO2019232494A2 (en) * 2018-06-01 2019-12-05 Synthego Corporation Methods and systems for determining editing outcomes from repair of targeted endonuclease mediated cuts
US11227102B2 (en) * 2019-03-12 2022-01-18 Wipro Limited System and method for annotation of tokens for natural language processing
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
US11449607B2 (en) * 2019-08-07 2022-09-20 Rubrik, Inc. Anomaly and ransomware detection
US11522889B2 (en) 2019-08-07 2022-12-06 Rubrik, Inc. Anomaly and ransomware detection
US11730420B2 (en) 2019-12-17 2023-08-22 Cerner Innovation, Inc. Maternal-fetal sepsis indicator
CA3072901A1 (en) * 2020-02-19 2021-08-19 Minerva Intelligence Inc. Methods, systems, and apparatus for probabilistic reasoning
CN112801237B (zh) * 2021-04-15 2021-07-23 北京远鉴信息技术有限公司 暴恐内容识别模型的训练方法、训练装置及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527635A (ja) * 2012-06-21 2015-09-17 フィリップ モリス プロダクツ エス アー 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
US10373708B2 (en) 2012-06-21 2019-08-06 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques

Also Published As

Publication number Publication date
CN1689027A (zh) 2005-10-26
EP1550074A4 (en) 2009-10-21
AU2002330830A1 (en) 2004-03-11
EP1550074A1 (en) 2005-07-06
CN1316419C (zh) 2007-05-16
US20060074824A1 (en) 2006-04-06
WO2004019264A1 (en) 2004-03-04

Similar Documents

Publication Publication Date Title
JP2005538437A (ja) エマージングパターンからの尤度集合による予測
Oyelade et al. Clustering algorithms: their application to gene expression data
Hossain et al. Network analytics and machine learning for predictive risk modelling of cardiovascular disease in patients with type 2 diabetes
Slonim From patterns to pathways: gene expression data analysis comes of age
Inza et al. Machine learning: an indispensable tool in bioinformatics
ElKarami et al. Multi-omics data integration model based on UMAP embedding and convolutional neural network
Wang et al. Subtype dependent biomarker identification and tumor classification from gene expression profiles
Ciaramella et al. Data integration by fuzzy similarity-based hierarchical clustering
Han et al. A novel strategy for gene selection of microarray data based on gene-to-class sensitivity information
Benso et al. A cDNA microarray gene expression data classifier for clinical diagnostics based on graph theory
Mandal et al. A novel PSO-based graph-theoretic approach for identifying most relevant and non-redundant gene markers from gene expression data
Satpathy et al. Data analytics in bioinformatics: a machine learning perspective
Zhou et al. ImputEHR: a visualization tool of imputation for the prediction of biomedical data
Zhang Recursive partitioning and tree-based methods
JP2004535612A (ja) 遺伝子発現データの管理システムおよび方法
Fratello et al. Unsupervised algorithms for microarray sample stratification
Wahde et al. A survey of methods for classification of gene expression data using evolutionary algorithms
Zhu et al. caBIG™ VISDA: Modeling, visualization, and discovery for cluster analysis of genomic data
Yan Robust fuzzy cluster ensemble on cancer gene expression data
Bolshakova et al. Comparison of the data-based and gene ontology-based approaches to cluster validation methods for gene microarrays
Sun et al. Efficient gene selection with rough sets from gene expression data
De Bruyne et al. Methods for microarray data analysis
Dey et al. Predictive Models for Integrating Clinical and Genomic Data.
Bhattacharyya Analyzing deviation pattern in strongly-correlated genes through core cluster mining
Do et al. Application of gene shaving and mixture models to cluster microarray gene expression data

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090428