JP2005538437A

JP2005538437A - エマージングパターンからの尤度集合による予測

Info

Publication number: JP2005538437A
Application number: JP2004530722A
Authority: JP
Inventors: ジン，ヤンリ，
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2002-08-22
Filing date: 2002-08-22
Publication date: 2005-12-15
Also published as: CN1689027A; EP1550074A4; AU2002330830A1; EP1550074A1; CN1316419C; US20060074824A1; WO2004019264A1

Abstract

【課題】新しいデータを分類する時の非常に大きい数のエマージングパターンにより、CAEP(:エマージングパターン集合による分類) とジャンピング・エマージングパターンの両方の利用は、労働集約的である。非常に大きなデータセットに取り組むときの効率は、今日の応用において最高である。従って、方法は、それが有効で、新しく、有用で、かつ、わりやすい規則を導き、しかし、安価であることが望まれ、そして、分類に本当に有用である少ない数の規則の確認に対して、効率的アプローチの利用による、方法が望まれる。そのような方法の実現である。
【解決手段】nが２又はそれ以上であるn個のクラスのひとつに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法であって、少なくとも、各々のn個のクラスのデータの１個の実例を有する訓練データセットＤから、複数のエマージングパターンを抽出すること、と、n個のリストを作成すること、そこでは、n個のリストのi番目のリストが、i番目のクラスのデータ内のゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEP_i（m）の発生頻度f_i(m)を含む、ことを特徴とする、と、kは、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、n個のスコアの計算すること、そこでは、前記n個のスコアのi番目のスコアを、また前記試験データで発生する前記i番目のスコアのk個のエマージングパターンの頻度から得る、ことを特徴とする、と、そして前記n個のスコアのもっとも高いものを選ぶことにより、試験データが、n個のクラスのデータのどこに分類されるかを推論すること、とから成る、nが２又はそれ以上であるn個のクラスのひとつに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法。

Description

本発明は、一般的に、データマイニング方法（データ発掘法）に関し、更に、特にそれらの分類におけるデータ知識に基づいた２個あるいはそれ以上の可能な分類の１つに試験サンプルを正しく分類する規則（ルール）を基準とした方法に関連する。特に本発明はエマージングパターン手法を使っている。

デジタルの時代の到来はダムの崩壊に近かった：情報の本流が解き放されて、私たちは今データの上げ潮に洗い流されている。情報、結果、計測及び計算データは、一般的に、磁気記録、あるいは光学的媒体上に、現在大量にあり、そしてすぐに利用可能である。計算能力は引き続き増大しているので、膨大なデータを効率的に分析出来るという約束は、しばしば果たされるが、更なる大きな量を分析できるという期待は、更に複雑な分析的方法を開発するための原動力を提供している。従って、常にデータに意味を与える必要があり、それによって、それを有用な知識に変えることが、統計分析、パターン認識、データマイニング方法においての、相当の研究努力になっている。

データは数、値、あるいは構成されている述部以上のものです。データはただ奇妙で複雑で、しかも、人間の脳によってすぐには理解できないリッチハーバや多彩な風景である、多次元空間に住んでいる。最も複雑なデータは、多くの明らかな独立変数に依存する測定や計算から生じる。何百もの変数を持つデータセットが、今日、以下を含む多くの階梯で生じます；ゲノムとそれが暗号化する様々なタンパク質間のリンクを明らかにするための遺伝子表現データ、潜在的な社会学的、経済学的傾向性を獲得することのための人口統計と消費者のプロファイリングデータ、そして、汚染、気象の変化及び影響問題の源のような現象を理解するための環境測定。

回帰、クラスタリング（群化）、要約、従属化モデリングおよび変化と偏差の検出のようなデータに関して達成されるであろう基本的運用の間では、分類が極めて重要である。特別な変数間に明らかな相関がないところでは、潜在的なパターンと規則（ルール）を推論する必要がある。データマイニング分類は、パターンあるいは規則のような、正確で効率的な分類器を構築することに狙いを定める。過去、これは可能であった、それは、大きなデータセットに対して骨の折れる学習でした、それゆえ、何年にもわたって、それが機械学習（マシーン・ラーニング）の分野をもたらした。

従って、簡単な調査による、パターン、関係及び潜在的法則の抽出は、自動化分析ツールの使用によって長い間取ってかわられている。それにもかかわらず、理想的にパターンを推論することは、複雑さの征服のみならず、また極めて重要なそれらのパラメーターと、新しい有利な実験への道に向かうポイントを示す推論原理を提示する。これが有用なデータマイニングの本質です；パターンは、データに構成を課するのみならず、また、新しいデータが常に獲得されるところの価値あるものに出来る予測の役割を提供する。この意味において、広く評価されたパラダイムは、よく訓練セット(トレーニング・セット)と呼ばれる何らかの初期データセットを用いて、パターンが、学習プロセスからもたらす１つである。しかし、今日用いられる多くの技術は、法則やパターンの構築をせずに新しいデータの特徴を予測するか、あるいは、予測されるが、特にわかりにくい分類規則を構築する。更に、これら方法の多くは、大きいデータに対しては非常に効率が悪い。

近年、パターンの4つの望ましい属性が明確になった（参照：ドン＆リー：「エマージングパターンの効率的マイニング：傾向と差異の発見」、ＡＣＭＳＩＧＫＤＤ、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52 （1999年8月）、尚、これらは、この中に完全に参照されている）。（a）それらは、有効である、すなわち、それらは、また、高い確定で新しいデータに観測される。（b）それらは、機械（マシーン）によって得られたパターンが専門家にとって明白ではなく、新しい洞察を提供するという意味で、斬新である。（c）それらは、有用である、すなわち、それらは、信頼性の高い予測を可能にする。そして(d)それらは、わかりやすい、すなわち、それらの表現は、それらの解釈への障害を引き起さない。

機械学習の分野において、最も広く使われた予測方法は、次のようなものである：K-ニアレストネイバー法(参照：例えば、カバー＆ハート、「Nearest neighborsパターン分類」、IEEE Transactions on Information Theory、13: 21-27、(1967))、ニューラルネットワーク法(参照：例えば、ビショップ、「パターン認識のためのニューラルネットワーク」、オックスフォード大学出版(1995))、サポート・ベクター・マシーン法(参照：バジャー、「パターン認識のためのサポート・ベクター・マシーンの上の学習」、Data Mining and Knowledge Discovery、2:121-167、(1998))、ナイーブベイズ法(参照：例えば、ラングリー他、「ベイズ系分類器の解析」、Proceedings of the Tenth National Conference on Artificial Intelligence、223-228、(AAAI出版、1992)：原本：ヂューダ＆ハート、「パターン分類及び場面分析」、(John Wiley & Sons, NY, 1973))、そして C4. 5法 (参照：クインラン、C4. 5：「機械学習のためのプログラム」、(Morgan Kaufmann、San Mateo、CA、1993))。それらの人気にもかかわらず、これらの方法の各々が、上記で述べた4つの望ましい属性を有するパターンを作成しないことを意味する何らかの欠点で苦しんでいる。

ｋ-ニアレストネイバー法（K-nearest neighbors method）（以下、K-NN法と呼ぶ)は、実例の例あるいは、ラジー学習法（Lazy-learning method）である。ラジー学習法において、データの新しい実例は、決して明快なパターンを得ることなく、訓練セットの項目との直接比較によって分類される。K-NN法は、試験サンプルを、いくらかのメートルの距離の間で近隣度が測られる所の訓練サンプルの中のそのｋニアレストネイバー（ｋの最も近い隣人）の分類に割り当てる。

ニューラルネット（参照：例えば、ミンスキー＆パペート、"知覚：計算幾何学の導入、"MIT出版、Cambridge、MA、(1969))は、また新しいデータの分類を予測するツールの例であるが、人が理解できる規則を作成しない。ニューラルネット（神経網）は、ブラック・ボックス法の使用を好む人々に人気がある。

ナイーブベイズ（Naive Bayes）「以下NBと呼ぶ」は、データセットの各々のクラスのデータに対して、確率的要約を計算するためにベイズ系規則を用いる。試験サンプルが与えられた時、NBは、それらの確率的要約に基づくクラスを並べるための評価関数を用い、そして、サンプルを最高スコアのクラスに割り当てる。しかしながら、NBは、与えられた実例の試験データに対して確率をもたらすだけであり、そして一般に、認識可能な規則あるいはパターンには導かない。更に、NBにおいて利用される重要な仮定は、機能が統計的に独立であることです、ところが、多くのタイプのデータに対しては、これはケースではない。例えば、遺伝子表現プロファイルに含まれる多くの遺伝子は、独立していないように現れるが、しかし、それらのいくつかは密接に関連する。 (参照：例えば、シェーナ他、「相補的DNAマイクロアレイを持つ遺伝子表現パターンの量的監視」、サイエンス、270、467-470、(1995)、ロックハート他、「高密度オリゴヌクレオチドアレイへのハイブリダイゼーションによる表現監視」、ネイチャー、バイオテック、14：1675-1680、(1996)、ベルカレシュウ他、「遺伝子表現の直列分析」、サイエンス、270: 484-487、(1995)、チュウ他、「発芽イースト菌の胞子の転写プログラム」、サイエンス、282：699-705、(1998)、デリシ他、「ゲノムスケール上での遺伝子表現の遺伝子コントロールと新陳代謝の探求」、サイエンス、278：680-686、(1997)、ロバート他、「広範囲の遺伝子表現プロファイルの行列によって明かされた多重MAPK経路の信号と回路」、サイエンス、287: 873-880、(2000)、アロン他、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proc. NATL. ACAD. SCI. U.S.A.、96: 6745-6750、(1999)、ゴルブ他、「癌の分子の分類：遺伝子表現の監視によるクラス発見とクラス予測」、サイエンス、286：531-537、(1999)、ぺロウ他、「人間の乳房の上皮細胞と乳癌の独特な遺伝子表現パターン」、Proc. NATL. ACAD. SCI. U.S.A, 96: 9212-9217、(1999)、ワング他、「cdnaマイクロアレイを用いる卵巣癌腫における遺伝子表現変化プロファイル変化の監視」 GENE、 229：101-108,、(1999))。

サポート・ベクター・マシーン(Support Vector Machines)（以下SVMと呼ぶ)は、線形方法によって効率的にモデル化されないデータに対処する。SVMは、サンプルとそれらクラス属性間の複雑なマッピングを構築するためにカーネル関数を用いる。それらが多次元空間のデータのクラスを分けるために最適な超面（hyper-plane）を定義する実例にハイライトをあてるので、結果としてのパターンは有益なものです。SVMは、複素データに対処することができる、しかし、ブラック・ボックス（フリー他、「サポート・ベクトル・マシーン分類とマイクロアレイ表現データを用いた癌組織サンプルの確認」、Bioinformatics、16: 906-914、(2000))と同様に振舞い、計算的に高価になる。加えるに、必ずしも出てくるわけではないが、適切な非線形のカーネル関数を選ぶためにデータの変数の何らかの理解があることが望ましい。

従って、データマイニングの視点から、外見上異種の情報をはっきりと理路整然とした規則に濃縮する技術がより好ましい。規則を基礎とするデータの構造パターンを明らかにする２つの原理手段は、デシジョンツリー（意思決定樹）と規則誘導（rule- induction）です。デシジョンツリーは、データセットを仕切る役に立って、有用で直観的な枠組みを提供する、しかし、選ばれた出発点に非常になりやすい。だから、数種類の規則が訓練セットにおいて明らかであると仮定すれば、直ちに、デシジョンツリーの構造を通して明らかになる規則は、決定的に、どの分類器がツリーの種を撒くのに使われるかに依存するだろう。だから、それはしばしば重要な規則であり、それゆえ、データに対する重要な分析的フレームワークは、デシジョンツリーに到達することで見渡せる。更に、ツリーからセットの規則への翻訳は、通常まっすぐに向かうが、それら規則は、通常最も明確かあるいは最も簡単なものではない。対照的に、それらは、可能な限り多くの規則を明らかにすべく捜し求め、１個またはそれ以上の規則によりデータセットの全ての実例を分類するので、規則誘導法は優れている。数多くの規則誘導法とデシジョンツリー法の結合が工夫されているにもかかわらず、ツリー法の使用のたやすさと規則誘導方法の徹底のそれぞれに投資が試みられている。

C４. ５法は、今日用いられる最も成功したデシジョンツリー法の１つです。それは、デシジョンツリーを、連続変化データを含むデータセットへのアプローチに適応させる。デシジョンツリーのリーフノード（葉の節）に対してまっすぐな規則は、簡単に、ルートノード（根の節）からリーフへのツリーを通じての経路を横切って直面した全ての状態の連携であるのに対して、C４. ５法は、中間ポイントのツリーを刈り込むことによってこれらの規則の簡略化を試み、そして可能な刈り込みに対して誤差見積りを導入する。C４. ５法は、理解容易な規則を作成するが、決定境界が直線でない場合、ツリーの異なるポイントで特別変数を異なって区分けする必要の有る現象の場合は、良い性能を有しないであろう。

近年、上に述べた４つの好ましい特質を有するクラス予測法（class prediction method）が提案されている。それは、エマージングパターンのアイデアを基礎としている（参照：ドン＆リー：ＡＣＭＳＩＧＫＤＤ、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52（1999年8月））。エマージングパターン（以下EPと呼ぶ）は、データのクラスを比較するのに有用である、それは、第１クラスのデータ内の主に有る特徴、しかし、第２クラスの相補データ、つまり、第１クラスと重ならないデータ、内の主に無い特徴を指し示す。大きなデータセットからEP’ｓ（EPのもの）を得るアルゴリズムが開発され、遺伝子表現データの分類に応用されている、(参照：リー＆ワン、「エマージングパターン及び遺伝子表現データ」、Genome Informatics、12: 3-13、(2001)、リー＆ワン、「エマージングパターン概念を用いた遺伝子表現プロファイルからの良い診断遺伝子グループの確認」、Bioinformatics、18:725-734、(2002)、及びヤオ他、「分類、サブタイプ発見及び遺伝子表現プロファイルによる小児劇症リンパ腺白血病の結果の予測」、Cancer Cell、1:133-143、(2002)、尚、これらは、全てこの中に完全に参照されている)。

一般的に、与えられたデータセットから何千ものEP’sを発生させることが可能である、そのようなケースでは、新しい実例データの分類に対してのEP’sの使用は、扱いにくいかもしれない。この問題に対処する今までの試みを以下に示す:エマージングパターン集合による分類（Classification by Aggregating Emerging Patterns）「以下CAEPと呼ぶ」、（ドン他、「エマージングパターン集合による分類」、DS-99にて: Proceedings of Second International Conference on Discovery Science, 東京、日本、(１９９９年１２月６日から８日)、また、Setsuo Arikawa ＆ Koichi Furukawa、人工知能（Artificial Intelligence）での講演ノート： (Eds.)、1721: 30-42, (1999年春))、及び「ジャンピング EP's」の使用（リー他、「分類に対して、最も表現的なジャンピング・エマージングパターンの使用」、Knowledge and Information Systems、3：131-145、(2001)、及びリー他、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000))、全ては、完全にここで参照されている。CAEPにおいて、与えられたEPは、与えられたデータセットの小さな数の実例を分類することが出来るのみであると認識され、試験データのサンプルは、そのエマージングパターンの集合スコアを構築することで分類される。ジャンピングEP（以下J- EPと呼ぶ）は、特別なEPであり、そのサポートが１個のクラスのデータでゼロであり、しかし、そのサポートが相補クラスのデータでゼロでないものである。だから、J-EPは、それらが、パターンを提示し、そのものの変化が最も大きいので、分類に有用である、しかし、分析が、まだ厄介であることを意味する、そこにまだ非常に大きい数のそれらがあるかもしれない。

全ての上述の考察により、あるいは新しいデータを分類する時の非常に大きい数のEP’sにより、CAEP とJ-EP’sの両方の利用は、労働集約的である。非常に大きなデータセットに取り組むときの効率は、今日の応用において最高である。従って、方法は、それが有効で、新しく、有用で、かつ、わりやすい規則を導き、しかし、安価であることが望まれ、そして、分類に本当に有用である少ない数の規則の確認に対して、効率的アプローチの利用による、方法が望まれる。

本発明は、複数のクラスのひとつに、試験データＴを有する試験サンプルが分類されるかどうかを決定するための方法、コンピュータプログラム製品及びシステムを提案するものである。

好ましくは、クラスのｎ数は２あるいはそれ以上であり、方法は、少なくとも、各々のn個のクラスのデータの１個の実例を有する訓練データセットＤから、複数のエマージングパターンを抽出すること、と、n個のリストを作成すること、そこでは、n個のリストのi番目のリストが、i番目のクラスのデータのゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEP_i（m）の発生頻度f_i(m)を含む、と、kは、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、n個のスコアの計算すること、そこでは、n個のスコアのi番目のスコアを、また試験データで発生する前記i番目のスコアのk個のエマージングパターンの頻度から得る、と、そしてn個のスコアのもっとも高いものを選ぶことにより、試験データが、前記n個のクラスのデータのどこに分類されるかを推論すること、とから成る。

特に、本発明は、また、第１クラスあるいは第２クラスに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法を提供し、それは、少なくとも、第１クラスデータの１個の実例と第２クラスデータの１個の実例を有する訓練データセットＤから、複数のエマージングパターンを抽出すること、と、第１及び第２リストを作成すること、そこでは、第１リストは、第１クラスのデータのゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEP₁（m）の発生頻度f₁(m)を含み、第２リストは、第２クラスのデータのゼロでない頻度を有する複数のエマージングパターンから各々のエマージングパターンEP_２（m）の発生頻度f_２(m)を含む、と、kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、また試験データで発生する前記第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、また前記試験データで発生する前記第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算すること、と、第１および第２スコアの高いものを選ぶことにより、試験データが、第１クラスあるいは第２クラスのデータに分類されるかどうかを推論すること、と、から成る。

更に、本発明は、試験データが存在する試験サンプルが、第１のクラスあるいは第２のクラスに分類されるかどうかを決定するためのコンピュータプログラム製品を提供し、コンピュータプログラム製品は、コンピュータシステムに関連して用いられるものであり、コンピュータプログラム製品は、コンピュータの読み出し可能な蓄積媒体とそこにはめ込まれたコンピュータプログラム機構から成り、コンピュータプログラム機構は、少なくとも１個の統計分析ツール、と、少なくとも１個のソーティングツール、と、少なくとも第１クラスのデータの１個の実例と、少なくとも第２クラスのデータの１個の実例とを有するデータセットにアクセスするための制御命令、と、データセットから複数のエマージングパターンを抽出すること、と、第１リストと第２リストの作成、そこでは、各々の複数のエマージングパターンに対して、第１リストは、第１クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽¹⁾を含み、第２リストは、第２クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽²⁾を含む、と、kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、また試験データで発生する第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、また試験データで発生する第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算すること、と、第１および第２スコアの高いものを選ぶことにより、試験データが、第１クラスあるいは第２クラスのデータに分類されるかどうかを推論すること、と、から成る。

本発明は、また、試験データが存在する試験サンプルが、第１のクラスあるいは第２のクラスに分類されるかどうかを決定するためのシステムを提供し、システムは、少なくとも１個のメモリ、と、少なくとも１個のプロセッサー、と、少なくとも１個のユーザーインターフェース、とから成り、全ては、少なくとも１個のバスで互いに接続され、そこでは、少なくとも１個のプロセッサーは、少なくとも第１クラスのデータの１個の実例と少なくとも第２クラスのデータの１個の実例を有するデータセットをアクセス、と、データセットから複数のエマージングパターンを抽出、と、第１リストと第２リストの作成とを行うことを特徴とし、そこで、各々の複数のエマージングパターンに対して、第１リストは、第１クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽¹⁾を含み、第２リストは、第２クラスのデータの中でゼロでない発生を有する複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽²⁾を含み、kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用い、また試験データで発生する第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、また試験データで発生する前記第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算し、第１および第２スコアの高いものを選ぶことにより、試験データが、第１クラスあるいは第２クラスのデータに分類されるかどうかを推論すること、を特徴とする。

本発明の方法、システム及びコンピュータプログラム製品の更に詳細な具体例において、ｋは、約５から約５０であり、好ましくは約２０である。更に、本発明の他の好ましい具体例において、左側境界エマージングパッターンのみが利用される。更に他の好ましい具体例において、データセットは、遺伝子表現データ、患者の医療記録、金融取引、国勢調査、製造品の特徴、食品の特徴、原材料の特徴、気象データ、環境データ及び有機体（生物）母集団の特徴から成るグループから選定されたデータから成る。

本発明のエマージンパターンを基礎とした方法、システム及びコンピュータプログラム製品は、例えば、遺伝子表現プロファイルの分類に応用した際、高精度と簡単な解釈の両方の利点を有する。また、全てのサンプルの大きな集合に関する試験に際して、方法、システム及びコンピュータプログラム製品は、正確に全てのそのサブタイプを分類し、そして、C4.5、NB、SVM及びK-NN方法に比較して、きわめて小さな誤差率を達成する。

本発明の方法は、図１に示すように、コンピュータシステム１００で達成されることが望ましい。コンピュータシステム１００は、スパーコンピュータ、卓上ワークステーションコンピュータあるいはパーソナルコンピュータのような高性能マシーンが良い、あるいは、ラップトップまたはノートブックのような携帯コンピュータでも良い、あるいは、分散型計算アレイあるいはネットワークコンピュータのクラスター（群）でも良い。

システム１００は、１個あるいはそれ以上のデータ処理ユニット（CPU）１０２、と、典型的に（１個またはそれ以上の磁気的デイスクドライブのような）不揮発性メモリと高速度ランダムアクセスメモリの両方を有するメモリ１０８、と、モニター、キーボード、マウス(と/又は)タッチパネル表示から成るユーザーインターフェース１０４、と、他のコンピュータ、または他の装置と通信するためのネットワークあるいは他の通信インターフェース１３４、と、CPU１０２を少なくともメモリ１０８、ユーザーインターフェース１０４及びネットワークインターフェース１３４に内部接続する１個またはそれ以上の通信バス１０６から構成される。

システム１００は、また、データを直接メモリにダウンロードする研究所機器１４０に直接接続される。研究所機器は、データサンプリング装置、１個またはそれ以上の分光計、遺伝子表現分析に利用するマイクロアレイデータを集めるための装置、操作機器あるいはフィールドで用いる携帯機器を含む。

システム１００は、また、ネットワークインターフェース１３４経由で遠隔データベース１３６に蓄積されたデータをアクセスする。遠隔データベース１３６は、１個またはそれ以上の他のコンピュータ、ディスク、ファイルシステムあるいはネットワークに分配される。遠隔データベース１３６は、リレーショナルデータベースあるいは、大きなデータアレイを処理する能力があるデータ蓄積のいかなる形式でも良く、例えば、限定しないが、マイクロソフトのエクセル、フラットファイル及びXMLデータベースなどのプログラムで作成されるスプレッドシートのようなものでも良い。

システム１００は、また、随意的に、プリンター、あるいは、限定しないがCD-R、CD-RW、フラッシュカード、スマートメディア、メモリースティック、フロッピーディスク、Ｚｉｐディスク、磁気テープあるいは光学メディアを含む他の書き込み装置などの出力装置１５０に接続される。

コンピュータシステムメモリ１０８は、手順とデータを蓄積する、そして、典型的に、基本システムサービスを提供するオペレーションシステム１１０、と、ファイルとデータを分類し構成化するファイルシステム１１２、と、統計分析１１８及びソーティング１２０に対するユーザーレベルツールなどの１個あるいはそれ以上のアプリケーションプログラム１１４、を含む。オペレーションシステム１１０は、次のどれかである：ULTRIX、Irix、SOLARIS及びAixなどのUNEベースシステム、Linux システム、 Windows 3.1、 Windows NT、Windows 95、Windows 98、Windows ME、Windows XPあるいはそれらの応用などのWindowsベースシステム、MacOS 8.x、MacOS 9.x及び MacOS XなどのMacintoshオペレーションシステムあるいは、VMSベースシステム、あるいは全ての互換オペレーションシステム。統計分析ツール１１８は、限定されないが、チイ―スクワード（chi-squared）分析、エントロピー・ベース離散化及びリーフ・ワン・カットクロスバリデーション（leave-one-out cross validation）などの相関基礎の機能選択を達成するためのツールを含む。

加えるに、メモリ１０８は、データセット１２６から得られたエマージングパターン１２２のセットと同様に、それらそれぞれの発生頻度１２４を蓄積する。データセット１２６は、好ましくは、少なくともD₁として示される第１クラス１２８とD_２として示される第２クラス１３０のデータ及び追加のクラスD_i、ここで、i＞2 に分割される。データセット１２６は、リレーショナルデータベース、スプレッドシートあるいはプレインテキストなどを含むあらゆる便利な形式で蓄積される。試験データ１３２は、また、メモリ１０８に蓄積され、そして、それは直接研究所機器１４０から、あるいは、ユーザーインターフェース１０４から、あるいは１３６などの遠隔データベースから抽出され、あるいは、限定はしないが、フロッピーディスク、CD-Rom、CD-R、CD-RW あるいはフラッシュカードなどの外部メディアから提供される。

データセット１２６は、無制限の数と様々な供給源に対するデータを構成する。好ましい本発明の具体例では、データセット１２６は、遺伝子表現データから成り、その場合、第１クラスのデータは、正常セル（細胞）などの第１タイプのセルに対応し、第２クラスのデータは、腫瘍セルなどの第ニタイプのセルに対応する。データセット１２６が遺伝子表現データから成る時、それは、また、第１クラスのデータは、第１対象母集団のデータに対応し、第２クラスのデータは、第ニ対象母集団に対応する、でもよい。

データセット１２６からの他のタイプのデータは、以下に含まれるものから取り出せる：患者の医療記録、金融取引、国勢調査データ、人口統計のデータ、農産物などの食品の特徴、自動車やコンピュータあるいは衣類品などの製造品の特徴、例えば１箇所かそれ以上の場所で長期にわたって集められた情報を表すあるいは与えられた時間でたくさんの異なる場所に対する情報を表示する気象データ、有機体（生物）の母集団の特徴、例えばセールスや広告数字などのマーケットデータ、および、異なる時間あるいは異なる場所の異なる化学物質のための有毒な廃棄物数字の編集物あるいは地球温暖化傾向、森林伐採レベルや種の絶滅率などの環境データ。

データセット１２６は、リレーショナルデータベース（関連データベース）形式で蓄積されるのが望ましい。本発明の方法は、リレーショナルデータベースに限られるものではなく、また、データセットが何らかの適切な手順でリレーショナル形式に変換できる限りにおいて、XML、 Excel、スプレッドシートあるいはいかなる形式にも適用可能である。例えば、スプレッドシートに蓄積したデータは、普通の行列形式を有し、それ故、列Xと行Yが、記録X‘と属性Y’としてそれぞれ通訳され得る。対応して、列Xと行Yでセルのデータは、記録X‘の属性Y’の値Vとして通訳され得る。データセットをリレーショナル形式に変換する他の手段は、また、特別なデータセットに対する適切な通訳によって可能である。形式変換に対する適切な解釈と対応手順は、技術に優れた人の能力の範疇である。

データベースおよびデータマイニングにおける知識の発見
従来、データベースの知識の発見は、データの有効性、新しい、有用性及び最終的に理解可能なパターンを確認するつまらなくないプロセスであるべきと定義されていた。(参照：例えば、フロリー他、「データベースの知識の発見:概要」、書籍(Knowledge Discovery in Databases)中、p1-27、G. Piatetsky-Shapiro＆W. J. Frawley、EDS、 (AAAI/MIT出版、1991))。本発明の方法によれば、「エマージングパターン」として参照されたあるタイプのパターンが、特別な興味である。

パターン確認のプロセスは、一般的に、「データマイニング」として参照され、そして、それは、受け入れ可能な計算の効率限界下のアルゴリズムの使用から成り、必要パターンの特別な一覧を作成する。データマイニングの主な側面は、データ間の従属関係を発見することであり、アソシエーション規則（協会規則）の利用で達成される着地点である、しかし同様に、現在、他のタイプの分類器に対しても実用的になっている。

リレーショナルデータベースは、リレーションと呼ばれる表の集合からなると考えられる、各々の表は、記録セットからなり、そして、各々の記録は、従属値ペア(対）のリストである。（参照：例えば、コッド、「大きな共用データバンクに対するリレーショナルモデル」、Communications of the ACM、13、(6): 377-387、(1970))。最も初歩的な関係は、特別な特性あるいは分類に対する単なる名前である、「属性」（または、「特徴」と呼ぶ）である。値は、特性あるいは分類を取ることができる特別な実例である。例えば、取引データベース（transactional databases）において、ビジネスの背景で用いられるように、属性は、ミルク、パン、チーズ、コンピュータ、車、本などの分類名であってよい。

属性は、区分できる（例えば、絶対的な）あるいは、つながることが出来る領域値を有する。個別の属性の例は、赤、黄色、青、緑などの値を取る色である。つながった属性の例は、同意範囲でいろいろな値、[0,120]など、を取る年齢である。取引データベースにおいて、例えば、属性は、０または１の二進数である、ここで、値１を持つ属性は、特別な品物を購入したことを意味する。属性値ペア（対）は、「アイテム（又は品目）」あるいは、代わりに「コンデイション（または状態）」と呼ばれる。だから、「色−緑」及び「ミルク−１」は、アイテム（あるいはコンディション）の例である。

アイテムのセットは、一般的に、含まれるアイテムの数に無関係に「アイテムセット」として参照される。データベースDは、多くの記録からなる。各々の記録は、多くのアイテムから成り、各々のアイテムは、データ内の属性の数に等しい基数を有する。記録は、質問の属性のなりゆきに従い、「取引（transaction）」あるいは「実例（instance）」と呼ばれる。特に、用語「取引」は、二進数属性値を有するデータベースの参照に典型的に用いられる、一方、用語「実例」は、多重値（あるいはマルチ価値）属性を含むデータベースの参照に普通は用いられる。だから、データベースあるいは「データセット」は、取引あるいは実例セットである。データベースの全ての実例に対して正確に同じ属性を持たす必要はない。属性値ペアとしての実例あるいは取引の定義は、自動的に、単一データセット内で混合した実例を提供する。

データベースDの「ボリューム(volume)」は、D内の実例の数である、正常セットとしてDを取り扱い、そして、|D|と表記される。Dの「デイメンジョン(dimension)」は、Dに使われた属性の数である、そして、しばしば基数として参照される。アイテムセットXの「カウント(count)」は、count_D(X)と表記される、そして、Xを含むD内の取引Tの数であるとして定義される。Xを含む取引は、X⊆Tとして記述される。D内のXの「サポート(support)」は、supp_D(X)と表記され、Xを含むD内の取引の比率である、つまり、

である。「大きい(large)」あるいは「頻度(frequent)」アイテムセットは、そのサポートが、ある実数δより大きい、ここでは、０≦δ≦１、ものである。δの好ましい値は、分析されるデータのタイプに依存する。例えば、遺伝子表現データに対して、δの好ましい値は、０．５から０．９の間にあり、そこでは、後半の値が特に好ましい。実際には、対の片方あるいは反対側のクラスまたはデータのサポートが小さい限りにおいて、０．００１より小さいδの値が、適当であるかもしれない。

D内の「アソシエーション規則 (association rule)」は、形式X→Yの意味（または含意 (implication)）であり、X とYは、D内の２個のアイテムセットで、X∩Y＝０である。アイテムセットXは、「前件(antecedent)」の規則であり、アイテムセットYは、「後件(consequent)」の規則である。D内のアソシエーション規則X→Yの「サポート」は、X∪Y を含むD内の取引比率である。だから、サポートの規則は、supp_D（X∪Y）で表示される。アソシエーション規則の「コンフィデンス(confidence)」は、Xを含み、またYを含むD内の取引の比率である。だから、コンフィデンスの規則X→Yは、

である。

マイニングアソシエーション規則の問題は、それぞれ、ユーザ特定最小サポートminsup及び最小コンフィデンスminconf より大きいかあるいは等しいかのサポートとコンフィデンスを有する全てのアソシエーション規則をいかに発生するかの１つになる。一般的に、この問題は、２つの補助問題に分解することで解決される、それは、minsupに関して全ての大きいアイテムセットを発生させる、及び、与えた大きいアイテムセットに対して、全てのアソシエーション規則を発生させ、コンフィデントがminconfを超えるそれらの規則のみを出力するものである、（参照：アグラワル他、（1993））。これら補助問題の二番目が容易であるが判明するので、効率よいマイニングアソシエーション規則への鍵は、それらのサポートが与えられた閾値を超える全ての大きいアイテムセットを発見することです。

これら大きいアイテムセットの発見へのナイーブアプローチは、D内の全ての可能なアイテムセットを発生し、そして、それぞれのサポートを確かめることです。デイメンジョンがｎであるデータベースに対して、これは、２^ｎ−１個のアイテムセットのサポートを確認することを要する（すなわち、空のセットは含まれない）、nの増加により急速に手に負えなくなる方法。ナイーブ法が持つこの困難さを部分的に克服する２つのアルゴリズムが開発されている：アプリオリ(アグラワル＆スリカン、「マイニングアソシエーション規則のための高速アルゴリズム」、Proceedings of the 20th International Conference on Very Large Data Bases、487-499、(サンチアゴ、チリ、1994)) 及び MAX-MINER (バヤルド、「データベースからのロングパターンの効率的マイニング」、Proceedings of the 1998 ACM- SIGMOD International Conference on Management of Data、85-93、(ACM出版、1998))、両方ともここで完全に参照されています。

アソシエーション規則の利用にもかかわらず、追加の分類器は、データマイニング応用に利用を見出している。非公式に、分類は、実例を基礎とした意思決定プロセスであり、それにより、新しい実例が多数の可能なグループの１つに指名される。グループは、それぞれ分類が、「教師有り（supervised）」あるいは「教師無し（unsupervised）」分類かどうかに従って、クラス又はクラスターのどちらかで呼ばれる。クラスタリング方法は、そこで実例のクラスターが定義され、決定される教師無し分類の例である。対照的に、教師有り分類においては、全ての与えられた実例のクラスが、最初から知られ、そして主要目的は、与えられた実例から規則あるいはパターンなどの知識を得ることである。本発明の方法は、教師有り分類の問題に適用することが好ましい。

教師有り分類において、知識の発見は、事前定義クラスの１つに新しい実例の分類を案内する。典型的に、分類問題は、「学習フェーズ(learning phase)」と「試験フェーズ(testing phase)」の２つのフェーズ（局面）からなる。教師有り分類において、学習フェーズは、パターンあるいは規則のセットを作成するために、与えられた実例の集合から知識の学習を伴う。試験フェーズは、そこで、作成されたパターンあるいは規則は新しい実例を分類するために利用することにつながる。「パターン」は簡単には、コンデイションのセットである。データマイニング分類は、学習フェーズで、パターン及び頻度や従属などが関連付けられた特徴を利用する。提示すべき２個の主要な問題は、パターンの定義及び発見のための効率的アルゴリズムの設計である。しかし、ボリュームのあるデータセットの場合、パターンの数は非常に大きいことがたびたびであるので、第三の重要な問題は、意思決定に対していかに効率的にパターンを選定するかである。第三の問題提示において、あまり複雑でなくかつ人が理解容易な分類器の到来が最も望まれている。

教師有り分類問題において、「訓練実例(training instance)」は、クラスラベル(標札)が知られている実例である。例えば、健康と病気の母集団データに関するデータから成るデータセットにおいて、訓練実例は、健康として知られる人用データであってよい。対照的に、「試験実例（testing instance）」は、クラスラベルが知られていない実例である。「分類器(classifier)」は、試験実例をクラスラベルに位置づける機能である。広く使われている分類器の例を以下に示す：CBA (「アソシエーションを基礎とした分類」)、分類器、(リユー他、「分類とアソシエーション規則マイニングの統合」、Proceedings of the fourth International Conference on Knowledge Discovery and Data Mining、80-86、New York, USA, AAAI 出版 (1998))、大きいベイズ分類器（「LB」)、(メレタキス＆ウスリッチ、「長いアイテムセットを用いたナイーブベイズ分類器の拡張」、Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、165-174、San Diego, CA, ACM出版(1999))、C4. 5 (デシジョンツリーを基礎とした)分類器、(クインラン、C4. 5：Programs for machine Learning、Morgan Kaufmann、San Mateo、CA、(1993))、 K-NN (k-ニアレストネイバー)分類器、(フィックス＆ホッジ、「差別的な分析、非母数の区別、一貫特徴」、Technical Report 4、Project Number 21-49-004、USAF School of Aviation Medicine、Randolph Field、TX、(1957))、パーセプトロン (ローゼンブラット、ニューロ工学理論：パーセプトロンと脳の機構理論、Spartan Books, Washington D. C、(1962))、ニューラルネットワーク (ローゼンブラット、1962)、及び、NB (ナイーブベイズ)分類器、(ラングリー他、「ベイズ分類器の解析」、Proceedings of the Tenth National Conference on Artificial Intelligence、223-228、AAAI 出版、(1992))。

分類器の精度は、典型的に複数の手段の１つのなかで決定される。例えば、１手段において、訓練データのある比率は、保留され、分類器は、残りのデータ上で訓練され、そしてそれから分類器は、保留データに適用される。正しく分類された保留データの比率は、分類器の精度としてとられる。別の手段では、n-fold クロスバリデーション戦略が用いられる。このアプローチにおいて、訓練データは、n個のグループに分割される。それから、第１のグループは保持される。分類器は、他の（n−1）個の上で訓練され、そして保持グループに適用される。それから、このプロセスは、n番目のグループを通して、第２グループに対して繰り返される。分類器の精度は、これらn個のグループに対して得られた全ての平均精度としてとられる。第三の手段は、リーフ・ワン・カット戦略が用いられる、そこでは、第１訓練実例は保持され、そして残りの実例は、分類器の訓練に使われる、それから、保持された実例に適用される。そして、プロセスは、第２実例、第三実例そして第四と最後に達するまで繰り返される。この手段で正しく分類された実例の比率は、分類器の精度としてとられる。

本発明は、好ましくは、上に記載の３つの手段の測定精度の全て、あるいはデータマイニング、マシーン学習及び診断及び知られた技術の分野に共通の他の手段の測定精度より、良く実行する分類器を得ることである。

エマージングパターン（EP）
本発明の方法は、データベースから知識の発見のために、エマージングパターンと呼ばれる一種のパターンを用いる。一般的に述べれば、エマージングパターンは、２あるいはそれ以上のデータセットあるいはクラスのデータに結びつけ、そして、あるデータセットと別のデータセットあるいは他のものの間の著しい変化（例えば、差異あるいは動向）を記述することに使われる。EP’sは、次の文献に記載されている：J. リー、正確で効率的な分類器の構築のためのエマージングパターン、博士論文、Department of Computer Science and Software Engineering、メルボルン大学、オーストラリア、(2001)、これは、ここに完全に参照されている。エマージングパターンは、基本的に簡単なコンデイションの結合である。好ましくは、エマージングパターンは、４つの特質、つまり、有効性、斬新さ、潜在的な有用性及び理解可能、をもっている。

パターンの有効性は、新しいデータへのパターンの適用性に関係する。理想的には、発見されたEPは、新しいデータに適用するとき、いくらかの確実の程度をもって有効であるべきである。この特性を調査するひとつの手段は、少ない比率の新しいデータを加えることでオリジナルなデータベースを更新した後、EPの有効性を試験することである。大きな比率の新しいデータが前の処理データに組み入れられるときでさえ、それが有効であれば、EPは、特に強いかもしれない。

斬新さは、パターンは、伝統的な統計方法あるいは専門家により前に発見されていなかったかどうかに関係する。普通、そのようなパターンは、多くのコンディションあるいは低サポートレベルを伴う、理由は、専門家は、多少は知っているが全ては知らない故、あるいは専門家は、しばしば起きるそれらパターンに注意を向けるが、ほとんど起きないものには向けない故であえる。例えば、いくつかのEP‘ｓは、データセットの属性の数が１０００のように大きいとき、１５個以上のコンディションを含む、５個以上から構成する驚くほど長いパターンからなる、それにより、新しいそして前によく理解されている問題への思いがけない洞察を提供する。

パターンの潜在的有用性は、もしそれが予測的に使うことが出来れば、生じる。エマージングパターンは、いかなる２個あるいはそれ以上の重ならない時間データセット内の動向と２個あるいはそれ以上の空間データ内の著しい差異を記述することが出来る。この文脈のなかで、「差異」は、ほとんどのクラスのデータが満足するが他のクラスは一切満足しないコンデイションのセットを参照する。「動向」は、１個の時間ポイントに対してデータセット内のほとんどのデータが満足するが別の時間ポイントに対してデータセット内のデータが満足しないコンディションのセットを参照する。従って、EP’sは、予測ビジネス市場、異なる民族グループ間のいくつかの特別な病気の隠された原因を確認すること、手書き文字認識用、リボソームタンパク質の暗号を指定する遺伝子と他のたんぱく質の暗号を指定する遺伝子間の識別用および正の実例と負の実例、例えば離散データにおける「健康」あるいは「病気」、の区別用などの応用において相当利用されることが見出されるかもしれない。

パターンは、もしその意味がそれを調べることから直感的に明らかであるならば、理解可能である。EPが簡単なコンデイイションの結合である事実は、通常理解するのが簡単であることを意味する。EPの解釈は、２個のクラスのデータ間を識別するその能力に関する事実が知られるとき、特に助力される。

データセットのペアD_１及びD₂を仮定する、EPは、そのサポートが１個のデータセットD_１から別のD₂に著しく増加するアイテムセットとして定義される。データベースD_iのアイテムセットXのサポートをsupp_i(X)により表示し、D₁からD₂までのアイテムセットXの「成長率（growth rate）」は次の式で定義される、

ここで、（∞）は無限大の意味、（otherwise）はそれ以外を意味する。
だから、成長率は、D₁のそのサポートに対するD₂のアイテムXのサポートの比である。EPの成長率は、そのサポート内の変化の程度を測定し、そして本発明の方法での興味の初期量である。成長率の代替定義は、アイテムセットの計算の区間に表現されることができる、２つのデータセットが非常な不釣合いな母集団を有する状況に特別な適用可能性を見つける定義。

ここに提示した公式は、２個のクラスのデータの場合に制限されるものではなく、特別にそれと反対に示されるところを除いて、従来技術の１つによってデータセットが３個あるいはそれ以上のクラスのデータを持つ場合に一般化（拡張）され得る、ことは理解される。従って、ここに提示された様々な方法の議論は、２個のクラスのデータからなる状況への応用による実証で、３個あるいはそれ以上のクラスのデータが検討される状況へ技術の１つにより一般化され得る、ことは更に理解される。データのクラスは、ここでは、大きいデータセット内のデータのサブセットであるとみなし、そしてサブセットがいくつかの共通の特徴をもつそのような手段において典型的に選択される。例えば、ある手段で試験された全員の横断データにおいて、１個のクラスは、それらの人あるいは特別な性別に関する、あるいは特別な処置を受けた人のデータであり得る。

EP’sは、その成長率が与えられた閾値ρよりも大きいアイテムセットであることがより特に望まれる。特に、成長率閾値として、ρ＞１を与える、アイテムXは、もし、以下であれば、D₁からD₂までのρ―エマージングパターンと呼ばれる。
growth_rate_D1→D2(X)≧ρ

D₁からD₂までのρ−EPは、ρ＝∞のとき、D₁からD₂までの「ジャンピングEP」と呼ばれる。だから、D₁からD₂までのジャンピングEPは、D₂に有り、D_１に無い１つである。もし、D₁およびD₂が理解されれば、それは、ジャンピングJPあるいはJ-EPということは妥当である。本発明のエマージングパターンは、好ましくは、J-EP’sである。

次の様に２個のパターンXとYを与える、全ての可能な実例dに対して、Yがdで起きればいつもXがｄで起きる、そのとき、それはXがYより一般的と言われる。それは、また、もしXがYより一般的である場合、YはXより特定的と言われる。

D₁からD₂までのEP’sの集合Cを与え、EPは、もしそれより一般的であるCで他のEPが無ければ、C内で最も一般的と言われる。同様に、EPは、もしそれより特定的であるCで他のEPが無ければ、C内で最も特定的と言われる。与えられたD₁、D₂及びCに対して、最も特定的として参照されるEPは１つ以上ある、そして最も一般的として参照されるEPは１つ以上ある。Cの最も一般的及び最も特定的EP’sは、双方とも、Cの「境界(border)」と呼ばれる。最も一般的EP’sは、また、Cの「左側境界EP’s(left boundary EP’s)」と呼ばれる。また、最も特定的なEP’sは、Cの右側境界EP’sと呼ばれる。文脈が明確であるところで、境界EP’sが、Cに言及せずに左側境界EP’sの意味に取られる。それらは最も一般的であるので、左側境界EP’sは、特別の興味である。

D₁からD₂のEP’sの集合Cを与え、CのサブセットC’は、もしそれがCの左側境界およびXを含む場合、「プラトー(plateau)」と呼ばれる、そしてC’の全てのEP’sは、XとしてD₂で同じサポートを有し、そして、C’でないCでの他の全てのEP’sは、Xのそれと異なるD₂でサポートを有する。C’内のEPは、Cの「プラトーEP’s」と呼ばれる。もしCが理解されるならば、それは、プラトーEP’sというに十分である。

D_１とD_２の１対のデータセットに対して、好まれた慣習は次をふくむ：EPのサポートとしてＤ２内のサポートを参照、「バックグランド」データとしてD_１を、及び「ターゲット」データセットとしてD_２を参照、ここでは、例えば、データは時間順序である、「負(negative)」クラスとしてD_１を及び「正(positive)」クラスとしてＤ_２を参照、ここでは、例えば、データはクラス関係である。

従って、エマージングパターンは、データセット間の著しい変化と差異を捕らえる。時間刻印データベースに適用したとき、EP’sは、母集団の行動におけるエマージング動向を捕らえることができる。これは、例えば、時間の異なるポイントでビジネスあるいは人口統計データの比較部分を含むデータベース内の連続時間ポイントでのデータセット間の差異は、動向を突き止めるために使うことができるからである。加えるに、離散クラスを有するデータセットに適用したとき、EPは、クラス間の有用な相違を捕らえることができる。そのようなクラスの例は、限定しないが、生物の母集団に関するデータの雄対雌、酵母菌の母集団の毒対食用、治療中の患者の母集団の治った対治らなかった、などを含む。EPは、例えば、多くのデータセットに対するＣ４. ５及びＣＢＡより更に精度がよい非常に力強い分類器を構築する能力を証明した。１％から２０％の低から中程度のサポートを有するEPは、「よくわかる」状況においてさえ、専門家に有用で新しい洞察と案内を与えることができる。

ある特別なタイプのEP’sを見出すことができる。他で議論されているように、成長率が無限大（∞）である、つまり、バックグラウンドデータセットにおけるサポートがゼロである、EPは、「ジャンピング・エマージングパターン」あるいはＪ−EPと呼ばれる（参照：例えば、リー他、「ジャンピング・エマージングパターンの空間とその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558 (2000)、ここに完全に参照されている)。本発明の好ましい具体例は、「ジャンピング・エマージングパターン」を用いる。代替的具体例は、高い成長率を持つ最も一般的なEP’sを用いる、しかし、それは、それらの抽出がＪ−EPより複雑である理由により及びそれらは、Ｊ−EPより、よい結果を与えないという理由で、好ましさは低下する。しかしながら、Ｊ−EPが可能ではない場合、（つまり、すべてのパターンが両方のクラスで観測される場合）、他の高い成長率のEPを使う必要がある。

EPがEP’s「ホーム(home)」クラスあるいはそれ自身のクラスとしてゼロでない頻度を有する、クラスを参照することが普通である。EPがゼロあるいは著しく低い頻度を有する他のクラスは、EP’s「カウンターパート(counterpart)」クラスと呼ばれる。２個以上のクラスがある状況では、ホームクラスは、EPが最も高い頻度を有するクラスであると取りえる。

加えるに、別の特別なタイプのEPは、「強いEP(strong EP)」として参照、その空でないサブセットの全てがまたEP’sであるサブセット・閉鎖特徴を満足するものである。一般的に、セットＣの集合は、全てのセットＸ、（Ｘ∈Ｃ、つまり、ＸがＣの要素（element）である）のアブセットの全てがまたＣに属する場合のみ、サブセット・閉鎖を示す。もし、その要素の数（つまり、その基数）が少なくともkである全てのサブセットがまたEPであれば、EPは、「強いk−EP」と呼ばれる。強いEP’sの数は、少ないけれども、１個あるいはそれ以上の実例を訓練データに加えたとき、それらは他のEP’sよりも更に強い傾向（つまり、それらは有効のまま）があるので、強いEP’sは重要である。

EP’sの図式表現を図２に示す。成長率閾値ρおよび２個のデータセットＤ_１とＤ_２に対して、supp₁(X)とsupp₂(X)が、直行座標（デカルト座標）のそれぞれＸ軸とＹ軸上に表されることができる。座標面は、「サポート面」と呼ばれる。だから、横座標は、目的のデータセットＤ_２内の全てのアイテムセットのサポートを計量する。また、グラフに示すものは、原点Aを通る傾き（１/ρ）の直線であり、そして直線supp₂(X)＝１とＣで交わる。supp₂(X)＝１の横軸上の点は、Bとして記述される。Ｄ_１からＤ_２の全てのエマージングパターンは、ポイント（supp₁(X)、supp₂(X)）によって表現される。その成長率がρに等しいかあるいは超える場合、それは、三角形ＡＢＣの内部あるいは周囲に位置しなければならない。ジャンピング・エマージングパターンは、図２の水平軸上に位置する。

境界及びプラトーエマージングパターン
２個のクラスのデータを分離する境界規則の特徴を探索することは、エマージングパターンの更に多くの様相（facet）に導く。多くのEP’sは、それらのホームのクラスで非常に低い頻度（例えば、１または２）を有する。境界EP’sは、２個のクラス間の大きな差異を捕らえる目的のために提案される。「境界(boundary)」EPは、その固有のサブセットの全てがEP’sでない、EPである。明らかに、パターンが含むアイテムが少ないほど、与えられたクラスのその発生頻度が大きい。しかしながら、境界EPの定義から、これがなされるとき、カウンターパートのその頻度は、ゼロにならない、あるいは、EPが閾値比ρの値をもはや満足しないような手段で増加する。これは、定義により常に真である。

例えば、（ホームのクラスでゼロでない頻度、カウンターパートのクラスでゼロ頻度を有する）ジャンピング境界EPの場合にこれを見ると、そのサブパターンのどの１つもジャンピングEPではない。サブパターンは、ジャンピングEPではないので、それは、カウンターパートのクラスでゼロ頻度を持たなければならず、それ以外では、それは、またジャンピングEPであろう。ρ-EPの場合、ホームのクラス内のその頻度とカウンターパート内の頻度の比率は、ρより大きくなければならない。しかし、ρ-EPからアイテムを取り除くことは、両方のクラスのデータのより多くの実例にそれを満足させる、だから、比率ρは、もはや満足されえない、いくつかの状況の中にであってもそうであろう。従って、境界EP’sは、大きい頻度を持つことが出来きる境界EPのスーパーセットが無いので、それらホームのクラス内で最大頻度である。更に、上記で論じたように、しばしば、１個またはそれ以上のアイテムを存在する境界EPに加えた場合、結果としてのパターンは、最初のEPよりも小さい頻度になる。だから、境界EP’sは、それらが非-EP’sからEP’sを分離する特徴を有する。それらは、また低頻度のEP’sから高頻度のEP’sを識別する、だから、データのクラス間の大きい差異を捕らえるのに有用である。境界EP’sの効率的発見は、他に記載されている（参照：リー他、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000))。

先の例とは対照的に、更にもう一個のコンディション（アイテム）を境界EPに付加すると、それにより、EPのスーパーセットを発生し、スーパーセットEPは、ホームのクラス内の境界EPとしてまだ同じ頻度を有しているであろう。この特徴をもつEP’sは、「プラトーEP’s」と呼ばれる、そして次の手段で定義される：境界EPを与える、それ自身として同一頻度を有するそのスーパーセットの全てがその「プラトーEP’s」である。もちろん、境界EP’sは、通称それ自身のプラトーEP’sである。EPの頻度がゼロで無い限り、この特徴をもつスーパーセットEPは、また必然的にEPである。

全体としてのプラトーEP’sは、空間（space）を定義するのに用いることが出来る。お互いとして同じ頻度を持つ全境界EP’sの全のプラトーEP’sは、「プラトー空間（plateau space）」(あるいは簡単にP-空間)と呼ばれる。だから、P-空間内の全EP’sは、それらホームのクラス及びそれらカウンターパートのクラスの双方のそれらの発生の区間内の同じ著しいレベルにある。ホームの頻度がnであるとすれば、P-空間は、「P_n-空間」と表記される。

全P-空間は、P空間が、その最も一般的で最も特定的な要素によって簡素に表現できることを意味する、「コンベキシテイ（凸状、convexity)」と呼ばれる。P-空間の最も特定的な要素は、EP’sを基礎とした分類システムの高い精度に寄与する。コンベキシテイは、あるタイプの大きな集合のデータの重要な特徴である、そして簡素にそのような集合を現すために利用することができる。もし集合が凸の空間であれば、「コンベキシテイ」は、成立するといえる。定義により、全てのパターンX、YおよびZに対して、コンデイションX⊆Y⊆Z 及びX, Z∈C がそのY∈Cを含むならば、パターンの集合Cは、「凸の空間」である。コンベキシテイに関する更なる考察は次の文献にある(グンター他、「バージョン空間の共通オーダーの理論的な構造及びATMS's」, Artificial Intelligence、95: 357-407、(1997))。

P-空間の定理を次に示す：正の実例のセットD_Pと負の実例のセットD_Nを与える、全てのP_n-空間（n≧１）は、凸の空間である。この定理の証明は、次である：定義により、P_n-空間は、同じホームのクラス内の同じ頻度ｎを有する全ての境界EP'sの全てのプラトーEP'sのセットである。一般性を失わないで、２個のパターンXとZが（i）X⊆Z；及び（ii） XとZが、D_p内でn個の発生を有する境界EP’sであることを仮定する、それから、X⊆Y⊆Zを満足する全てのパターンYに対して、それは、D_p内で同じn個の発生を有するプラトーEPである。これが理由である。

１．Xは、D_Nで発生しない、だから、XのスーパーセットYは、またD_Nで発生しない。

２. パターンZは、D_pでｎ個の発生を有する、だからZのサブセットYはD_ｐでゼロでない頻度を有する。

３. D_p内のYの頻度は、Xの頻度に等しいかそれより小さいに違いない、しかしZの頻度に等しいかそれより大きいに違いない。XとZの双方の頻度がｎであるとき、D_ｐ内のYの頻度はまたｎである。

４. Xは、境界EPのスーパーセットである、だから、Yは、X⊆Yとしてどこかの境界EPのスーパーセットである。

最初の２個のポイントから、YがD_pのEPであることが推論できる。第三のポイントから、D_P内のY’sの発生がｎである。ゆえに、第四のポイントで、YはプラトーEPである。ゆえに、全てのP_n-空間は、凸の空間であることが証明された。

例えば、パッターン{a}、{a, b}、{a, c}、{a, d}、{a, b, c}および{a, b, d}は、凸の空間である。この空間の最も一般的要素からなるセットLは、｛｛a｝｝である。この空間の最も特定的要素からなるセットRは、｛｛a,b,c｝、{a, b, d}｝である。他の全ての要素は、LとRの間に有ると考えることができる。セットLは、境界EP’ｓから成る。これらEP’ｓは、P-空間の最も一般的要素である。通常、R内のパターンに含まれた機能は、L内のパターンより更に膨大な数である。これは、いくつかの機能グループがそれらの重要さを持ち続けながら拡大できることを示す。

プラトー空間の中央位置のパターンは、通常より面白い, 理由は、それら隣接パターン（中央パターンよりもアイテムが１個多いかあるいは少ない、空間のそれらパターン）は、全てEP'sである故。この状況は境界EP'sには生じない、理由は、それら特有のサブセットは、EP'sでない故。これらアイデアの全ては、プラトー空間の境界EP'sが最高頻度EP'sであるとき、特別に意味がある。

好ましくは、全てのEP'sが、それらのホームのクラスからそれらのカウンターパートのクラスに同じ無限頻度の成長率を有することである。しかし、境界EPの全ての特有のサブセットは、それらが２個のクラスの双方に起きるが故に、有限の成長率を有する。これらサブセットが２個のクラス間のそれら頻度を変えるやり方は、それら成長率を研究することにより確かめることができる。

シャドウパターンは、すぐ隣接のサブセットである、つまり、境界EPよりアイテムが１個少ない、そのような特別な特徴を有するもの。境界EPの存在確率は、境界EPのシャドウパターンの試験により、おおまかに見積もることが出来る。シャドウパターンはすぐ隣接のサブセットであるというアイデアを基礎に、境界EP’ｓは、「妥当(reasonable)」と「逆の注目 (adversely interesting)」の２個のタイプに分類することができる。

シャドウパターンは、境界EP’sの注目度を計測するために利用することができる。最も注目の境界EP’sは、高い発生頻度を有するそれらでしょう。しかし、また、「妥当」なそれら及び以下で論じるような「予期せぬ(unexpected)」それらを含むであろう。境界EPを与える、そのシャドウパターンの成長率が＋∞あるいはρ-EP’sの場合のρに近づくならば、この境界EPの存在は、妥当である。これは、シャドウパターンが、EPそれ自身より認識がたやすい故である。だから、多くのシャドウパターンは、認識されうる、その場合、そのX自身がまた発生の高い頻度を持つことを推測することは、妥当である。それ以外で、シャドウパターンの成長率が、もし平均的に１あるいは２のような小さな数上であるならば、パターンXは、「逆の注目」である。これは、境界EPであるXの可能性が低いとき、その存在が「予期せぬ」であるからである。言い換えれば、もし多くのシャドウパターンが低頻度を有し、しかし、それらカウンターパート境界EPが高頻度を持ったならば、それは、驚くことであろう。

２個のクラスに対して、正と負、境界EP、Zは、正のクラスでゼロでない発生を持つと仮定する。{Z}∪AとしてZを表す、ここで、Xはアイテムであり、Aは空でないパターンである、AがZのすぐ隣のサブセットであることを観察する。定義により、パターンAは、正と負のクラスの双方でゼロでない発生を持つ。負のクラスのAの発生が小さい（１あるいは２）ならば、Zの存在は、妥当である。それ以外で、境界EP、Zは、逆の注目である。これは、以下ゆえである、
P (X, A) = P (A) * P (X | A)
ここで、P(pattern)は、「パターン」の確率、そして、それは、「パターン」の発生により近似できることを前提とする。負のクラスのP(A)が大きい場合、そのときは、負のクラスのP(X, A)もまた大きい。それから、境界EPになるパターンの機会 {X}∪A = Zは、小さい。従って、Zが確かに境界EPであれば、この結果は、逆の注目である。

エマージングパターンは、双方ともが異なるデータセット間の相違を捕らえる意図である意味で、判別式規則(discriminant rules)にいくらか表面的に類似している。しかし、判別式規則はそうではないが、エマージングパターンは、ある成長率閾値を満足する、そして、判別式規則は、主にクラス間の高いサポートの比較対照に向けられるが、エマージングパターンは、低いサポート、クラス間の高成長率相違を発見することが可能である。

本発明の方法は、大きい成長率を有するJ-EP’s及び他のEP’sに適用できる。方法は、また、例えば、入力EP’sが２，３，４，５を超えるあるいは全ての他の数の最も一般的EP’sであるときに適用できる。しかし、そのような状況で、データセットからのEP’sの抽出に対するアルゴリズムは、J-EP’sに対する利用と異なる。J-EP’sに対しては、好ましい抽出アルゴリズムは次の中で与えられている、（リー他、「ジャンピング・エマージングパターンの空間とその漸増的な保守アルゴリズム」、Proc. 17th International Conference on Machine Learning、552-558 (2000)、その全ては、ここに参照されている。非・J-EP’sに対しては、好ましくは次に記載されるような、更に複雑なアルゴリズムが利用される、（ドン＆リー：“エマージングパターンの効率的マイニング：傾向と差異の発見”、Proc. 5th ACM SIGKDD、International Conference on Knowledge Discovery ＆ Data Mining、15-18、（1999））、その全ては、ここに参照されている。

尤度集合による予測（PCL）の概要
「尤度集合による予測」、PCL（Prediction by Collective Likelihood）分類アルゴリズムとして引用される、本発明の方法の概要は、図３から５に関連して提供される。図３に示す全体のアプローチにおいて、Dで表記されたデータセット１２６で始める、そして、しばしば「訓練データ」あるいは「訓練セット」あるいは「なまデータ」として参照されるデータセット１２６は、第１クラスD₁１２８と第２クラスD₂１３０に分割される。第１クラスおよび第２クラスから、エマージングパターンとD₁とD₂のそれらそれぞれの発生頻度がステップ２０２で決定される。別々に、試験データ１３２のエマージングパターンとそれらそれぞれの発生頻度、Tで表記、また試験サンプルとして参照される、がステップ２０４で決定される。データセットからのエマージングパターンの抽出の方法は、ここで引用した文献に記載されている。D₁とD₂及びTのエマージングパターンの発生頻度から、D₁あるいはD₂にあるTの尤度集合予想の計算は、ステップ２０６で達成される。これは、Tのクラスの予測２０８、つまり、TがD₁あるいはD₂に分類されるべきかどうか、に帰着する。

図４において、データセットDからエマージングパターンを得るプロセスは、DからクラスD₁とD₂を持って３００で開始する、エントロピー分析などの技術が、ステップ３０２で、データセットDの属性に対して、カットポイント３０４を作成するために適用される。カットポイントは、クラス１、ステップ３０８及びクラス２、ステップ３１２に対してエマージングパターンを抽出するために用いられる、エマージングパターンの特徴を満足するための規準から、パターンの確認を許す。クラス１に対するエマージングパターンは、好ましくは、ステップ３１２で、D₁内の頻度の昇順に並べ替えられ、そしてクラス２に対するエマージングパターンは、好ましくは、ステップ３１４で、D_２内の頻度の昇順に並べ替えられる。

図５において、固定数のエマージングパターンからスコアを計算する方法が、記述される。ステップ４００で、kの数が選定される、そしてT内の頻度に従ってトップKエマーギングパターンが、ステップ４０２で選定される。スッテプ４０８で、またD₁内で見出されるT内のトップkエマージングパターン上で、D_１内の発生頻度を用いて４０４、スコアS₁が計算される。同様に、スッテプ４１０で、またD_２内で見出されるT内のトップkエマージングパターン上で、D_２内の発生頻度を用いて４０６、スコアS_２が計算される。S₁とS_２の値は、ステップ４１２で比較される。S₁とS_２の値が、互いに異なる場合、S₁とS_２の大きいものから４１６、ステップ４１４でTのクラスが推論される。

図３から５で示しはしないが、本発明の方法とコンピュータプログラム製品内及び方法を達成するためのシステム上の実際の形式へのその変形は、以下に記述されるように３あるいはそれ以上のクラスのデータからなるデータセットに適用可能なことは明らかである。

データの用意
ボリュームたっぷりのデータを分析することの主な挑戦は、属性あるいは機能の圧倒的な数である。例えば、遺伝子表現データにおいて、主な挑戦は、伴う膨大な数の遺伝子に伴うものである。いかに有益な機能を抽出するか、及びいかに雑音データ効果を避けるかが大量のデータの扱いにおいて重要な問題である。本発明の好ましい具体例は、離散化と機能選定を実行するために、それぞれ、エントロピー基礎の方法 (参照： U. フェヤド＆K. イラニ、「分類学習用連続・値属性の多区間（multi-interval）離散化」、Proceedings of the 13ｔｈ International Joint Conference on Artificial Intelligence、1022-1029、(1993) 及び R. カハビ、G. ジョン、R. ロング、D. マンリー及び K. プレジャー、「MLC++ : C++内の機械学習ライブラリー」、Tools with Artificial Intelligence、740-743、(1994))、及び、相関基礎の機能選定（「CFS（Correlation based Feature Selection）」）アルゴリズム(H. ウイッテン& E. フランク、データマイニング: ジャバ装備を有する実務的機械学習ツールと技術、Morgan Kaufmann、San Mateo、CA、(2000))を用いる。

多くのデータマイニングの仕事(task)は、離散化のために連続機能を必要とする。エントロピー基礎の離散化方法は、異なるクラスのラベルを持つランダム分布の値を含むそれら機能を無視する。それは、ほとんど同じクラスのポイントを含む大きな区間を有するそれら機能を見出す。CFS方法は、個々の機能にスコアを付ける（及びランク付け）よりは、むしろ離散化の後・プロセスである、方法は、離散化された機能のサブセットの価値にスコアを付ける（ランクを付ける）。

従って、本発明の好ましい具体例において、エントロピー基礎の離散化方法が、実数値の範囲を離散化するために利用される。この方法の基本的なアイデアは、区間のエントロピーを最小にするように、実数値の範囲を多数のばらばらの区間に分割することである。この離散化プロセスにおけるカットポイントの選定は、きわめて重要である。最小エントロピーアイデアで、区間は、１個のクラスのデータからの値及び他のクラスのデータからの値間で「最大（maximally）」及び信頼的に差別的である。この方法は、双方のクラスのデータから比較的に一様に混ぜられた値を含むそれら範囲を自動的に無視する。だから、多くの雑音データ及び雑音パターンが効果的に削除でき、残りの差別的な機能の調査を許すことができる。これを説明するために、次のテーブルAに示す２個のクラスのラベルC₁とC₂を持つポイントの範囲の３つの可能な分布を考察する：
表Ａ

全てのポイントがクラスのラベルに関係する実数の範囲に対して、ラベルの分布は、３つの主要な形状(shape)を有することができる、それは、（１）各々が同じクラスのポイントを含む広い重ならない範囲（２）少なくとも１つが同じクラスのポイントを含む広い重ならない範囲、（３）全体の範囲上でランダムに混合されたクラスのポイント。２個のクラス間の真ん中のポイント（中点）を用いて、エントロピー基礎の離散化方法（U. フェヤド＆K. イラニ、1993）は、第１の場合の範囲を２個の区間に分割する。そのような分割のエントロピーは、０（ゼロ）である。範囲が少なくとも２個の区間に分割されるものは、「離散化」と呼ばれる。テーブルAの第２の場合、方法は、右側区間が可能な限り多くのC2ポイントを含むそして可能な限り少ないC1を含む、そのような手段で範囲を分割する。この目的は、エントロピーを最小にすることである。
テーブルAの第三の場合、双方のクラスからのポイントが全範囲上で分布する、方法は、機能を無視する、理由は範囲上の混合ポイントは、分類用の信頼性の高い規則を提供しない故である。

エントロピー基礎の離散化方法は、エントロピー最小化問題解決法（heuristic）を使用する離散化方法である。もちろん、全ての範囲のポイントは、それらの各々が同じクラスのポイントを含むように、ある数の区間に普通に分割できる。そのような分割のエントロピーは、０であるが、それらの適用範囲が非常に小さい時、区間（あるいは規則）は、役立たない。エントロピー基礎の方法は、区間の信頼性が高くして、それらが十分な適用範囲を有することを保証するために、繰り返し分割手順および、効果的分割停止規準を用いることによって、この問題を克服する。

次に示す表示法を付加する(J. ダゥガーテイ、R. コハビ & M. サハミ、「連続機能の教師あり及び教師無し」、Proceedings of the 12th International Conference on Machine learning、94-202、(1995))、Tに、例のセットSをサブセットS_１及びS₂に分割させる。ｋクラスを、C₁,…,C_kとし、P(C_i, S_j) をクラスC_iを持つS_j 内の例の割合とする。サブセットS_j, j=1,2の「クラスエントロピー」は、次で定義される。

ポイントTで、機能Aを分割することによりサブセットS_１及びS₂が導入されると仮定する。
そのとき、分割の「クラス情報エントロピー」は、E(A, T; S)と表示され、次で与えられる。

Aに対する２進数離散化は、カットポイントの全候補間でE(A, T; S)が最小であるカットポイントT_Aを選ぶことで、決定される。同じプロセスは、何らかの停止規準に達するまで、繰り返し、S_１及びS₂に適用できる。

「最長記述長原理」は、好ましくは、分割を止めるために用いられる。この技術に従い、S値のセット内の繰り返し分割は、次の場合にのみ、停止する：

ここで、Nは、セットSの値の数である、Gain(A, T; S) = Ent(S) - E(A, T; S) および、δ(A, T; S) = log₂(3^K-2)- [K Ent(S)-K₁ Ent (S₁)-K₂Ent (S₂)]、ここで、k_iは、セットS_iの表示されたクラスのラベルの数である。

この２進数離散化方法は、MLC++が装備されている、そして実行可能なコードは、次のWebページから利用可能である、http://www. sgi. com/tech /mlc /。遺伝子表現プロファイルに適用したとき、エントロピー基礎の選定方法は、非常に有効であるというということが見出される。例えば、一般的にデータセットに１０％しかない遺伝子は、技術によって選定され、だから、そのような選定比率は、重要な分類規則を得るためのより容易なプラットフォームを提供する。

エントロピー基礎の方法などの離散化方法は、顕著である、それは、自動的に大きいデータセットから機能の９０％ほどを取り除く、これは、まだ1,000くらいもの機能がまだあることを意味するかもしれません。手でそれほど多くの機能を検査することはまだ退屈な仕事です。従って、本発明の好ましい具体例では、相関基礎の機能選定（CFS）法(ホール、相関基礎の機能選定機械学習、博士論文、 Department of Computer Science、University of waikato、Hamilton、New Zealand、(1998)と、H.ウイッテン& E.フランク、データマイニング: ジャバ装備を有する実務的機械学習ツールと技術、Morgan Kaufmann、San Mateo、CA、(2000)) 及び「チイ・スクワード」 (χ^２) 法(H.リュー & R.セチオノ、「Chi2 : 機能選定と数値属性の離散化」、Proceedings of the IEEE 7^ｔｈInternational Conference on Tools with Artificial Intelligence、 338-391、(1995))、ウイッテン&フランク2000）が、更に重要な機能の検索を狭めるのに用いられる。そのような方法は、離散化後、残りの機能の数が扱いにくくてもいつでも、採用することは好ましい。

CFS法では、むしろ個々の機能へのスコア付け（ランク付け）より、方法は、機能のサブセットの価値にスコアを付ける（ランクを付ける）。機能として、サブセット空間は、常に巨大である、CFSは、最良優先探索問題解決法を用いる。この問題解決法アルゴリズムは、良い機能サブセットが、まだ互いの相関はないが、高度にクラスと相関した機能を含んでいる、という信念で、それらの間の相互相関のレベルに従って、クラスを予測するために個々の機能の有用性を勘定に入れる。CFSは、訓練データから、最初、機能―クラス行列及び機能―機能相関を計算する。そして、問題解決法により割り当てられたサブセット機能のスコアは、次で定義される：

ここで、Merits（メリット）は、ｋ機能を含む機能サブセットSの問題解決利点（ヒューリステイックメリット）である、r_cfは、機能―クラス相関の平均である、そしてr_ff は、機能―機能相互相関の平均である。「対称的不確定」が、離散機能間あるいは機能と属性（ホール、1998、ウイッテン＆フランク、2000）間の関係の程度を見積もるためにCFSで用いられる。対称的不確定が２個の属性に、あるいは属性とクラスXとYに用いられる、それは、[0,1]の範囲にあり、次の式で与えられる：

ここで、H(X)は、属性のエントロピーであり、次で与えられる。

CFSは、機能の空きセットから始まり、最良優先探索問題解決法は、５つの連続した完全に拡張された改善されないサブセットの停止規準で、利用する。検索の間に見つかった最も高いメリットでサブセットが選ばれる。

χ^２（「チイ・スクアード」）法は、機能選定への他のアプローチである。それは、クラスに関してチイ・スクアード（χ^２）統計を計測することで、個別に属性（機能を含む）を評価するために使われる。数値属性に対して、方法は、まず、離散化すべきその範囲に数個の区間を必要とする、例えば、上記記載のエントロピー基礎の離散化方法を用いる。属性の値χ^２は、次で定義される：

ここで、mは、区間の数、ｋは、クラスの数、A_ijは、i番目の区間、j番目のクラスであり、E_ijは、A_ijの期待頻度である（つまり、E_ij= R_i*C_j/N, ここでR_i は、i番目の区間のサンプルの数である、C_jは、j番目のクラスのサンプルの数、そしてNは、サンプルの総数である）。全ての考察された機能のχ^２値の計算の後、値は、最初の位置に、最大のものを並べることが出来る、理由は、χ^２値の大きいものほど、より重要な機能であるからである。

離散化と選定の論議は、互いに分離されているが、離散化方法は、また選定に役割をはたす、理由は、１個の区間に離散化された全ての機能は、選定を達成する際に、無視出来るからである、このことは留意すべきである。研究分野に依存して、エマージングパターンは、つまりCFS方法により得られた全ての機能を用いて、あるいは、これらがおびただしい数と証明されれば、方法によってトップにランク付けされた選定機能を用いて、得ることが出来る。好ましい具体例では、２０個の選定された機能が用いられる。他の具体例では、トップ１０、２５、３０、５０あるいは１００個の選定された機能、あるいは、０から１００の間の全ての他の便利な数が用いられる。記載されたやりかたや適当な方法で、１００個以上の機能が、また用いられることは、理解されるべきである。

エマージングパターンの発生
データベースから強いエマージングパターンの効率的マイニングの問題は、アプリオリ (アグラワル＆スリカン、「マイニングアソシエーション規則のための高速アルゴリズム」、Proceedings of the 20th International Conference on Very Large Data Bases、487-499、 (サンチアゴ、チリ、1994))及び MAX-MINER(バヤルド、「データベースからのロングパターンの効率的マイニング」、Proceedings of the 1998 ACM- SIGMOD International Conference on Management of Data、85-93、(ACM出版、1998)) 両方とも個々に完全に参照されている、などのようにマイニング頻度アイテムセットの問題に何らかの類似がある。しかしながら、一般的に、EP’sの効率的マイニングは、２つの主な理由により、挑戦的な問題である。第１は、アプリオリ特徴、つまり、長いパターンがしばしば発生するために、そのサブパターンの全てが、また、しばしば発生しなければならないので、もはやEP’sを保持しない、そして第２は、高いデイメンジョンのデータベースあるいは0.5%のような低いサポート閾値に対する大きな数のEP’s候補は、常にある。本発明と結合して用いて好ましいEP’s決定の効率的な方法は、ドン＆リー：「エマージングパターンの効率的マイニング：傾向と差異の発見」、ＡＣＭＳＩＧＫＤＤ、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52 （1999年8月）に記載されている、これは、ここで完全に参照されている。

伴う挑戦を説明するために、データセットD₁からD₂でEP'sを発見するためにナイーブアプローチを考察する：最初に、全ての可能なアイテムに対して、D₁およびD₂双方のサポートを計算する、それから、各々のアイテムセットの成長率が、与えた閾値に等しいかあるいは大きいかどうかの確認に着手する。関係は次で記述される、つまり、３つの分類的属性、例えば、色(color)、形(shape)及び大きさ（size）、ここで、各々の属性は、アイテムセット２個の可能な値を持つ、アイテムセットの可能な数の総和は、２６である、つまり、

それぞれ、単独のアイテムセット数と、それぞれにつき２個あるいは３個のアイテムを有するアイテムセット数とから成る合計。もちろん、アイテムセットの合計数は、属性の数で指数的に増加する、だから、多くの場合、エマージングパターンの推論のために全てのアイテムセットの全数検索をすることは、非常に費用がかかる。代わりのナイーブアルゴリズムを２個のステップに用いる：最初に、対象データセット内のいくつかのサポート閾値に関する大きなアイテムセットを発見する、それから、それらの頻度を列挙して、バックグラウンドデータセット内のそれらサポートを計算する、それにより、成長率閾値を満足するそれらアイテムセットとしてEP'sを確認する。それにしても、そのような２個のステップアプローチは、対象データセット内のゼロ・サポートやいくつかのノンゼロ・サポート、アイテムセットを列挙しないので、都合が良いが、それは、長い頻度アイテムセットに属する指数的な著しいサイズのセットのために、しばしば、現実的ではない。それゆえ、一般的に、ナイーブアルゴリズムは、通常、有効であるには、高い費用がかかる。

この問題を解決するために、（a）それら簡素な境界（最小のペアセットで、集合内の最大のアイテムセット）を用いて、アイテムセットの大きな集合の記述をすすめることが好ましい、（b）EPマイニングアルゴリズムは、それが、集合の境界のみで操作する（特に、多・境界・差分アルゴリズムを用いて）、及びそれが境界を用いて発見したEP’sを表す、ように設計される。
制約を満足する全てのEP'sは、効率的に、MAX-MINER(参照：バヤルド、「データベースからのロングパターンの効率的マイニング」、Proceedings of the 1998 ACM- SIGMOD International Conference on Management of Data、85-93、(ACM出版、1998)) などのプログラムによって得られた、入力としての大きいアイテムセットの境界を取る、境界基礎のアルゴリズム、により発見できる。

マイニングEP’sの方法は、技術の１つとして取り付きやすい。本発明を有する使用に適したマイニングEP’sの好ましい方法の特別な記述は、「エマージングパターンの効率的マイニング：傾向と差異の発見」、ＡＣＭＳＩＧＫＤＤ、International Conference on Knowledge Discovery and Data Mining, San Diego、43-52、（1999年8月）と「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000年) の中に見出される、尚、双方とも、ここで完全に参照されている。

分類におけるEP’sの利用：尤度集合による予測（PCL）
しばしば、境界EP’sの数は、大きい。そのようなパターンのランキングと視覚化は、重要な問題である。本発明の方法に従えば、境界EP’sはランク付けされる。特に、本発明の方法は、分類に対してトップ・ランクの頻度を用いる。トップ・ランクパターンは、ユーザがアプリケーションをより良く、より簡単に理解することを助けることができる。

境界EP’sを含むEP’sは、次の方法でランク付けされうる。

１．２個のEP’s X_i と X_j を与える、もし、X_iの頻度がX_jのそれより大きければ、リスト中で、X_iがX_jより高い優先度とする。

２．X_iの頻度がX_jの頻度と同じであるとき、もし、X_iの基数がX_jのそれより大きければ、リスト中で、X_iがX_jより高い優先度とする。

３．X_iとX_jの頻度及び基数の双方が同じであれば、X_iがX_jに優先し、そしてEP’sを印刷・表示するコンピュータシステムあるいは方法によって、最初にX_iが作成される。

実務において、試験サンプルは、それ自信のクラスからのEP’sだけでなく、カウンタ−パートのクラスからのEP’sも含む。これは、予測をより複雑にする。試験サンプルは、それ自信のクラスからの多くのトップ・ランクのEP’sを含むべきである、そしてカウンタ−パートのクラスからの好ましくは・数個の低い・ランク・でない・EP’sを含むのが好ましい。しかし、多種・広範囲のデータでの経験から、試験サンプルは、しばしば、まれではあるが、カウンタ−パートのクラスからの約１から約２０個のトップ・ランクのEP’sを含むことが出来る。信頼性の有る予測を作るために、カウンタ−パートEP’sからの混乱信号を避けるためにホームのクラス内の高い頻度である多重（multiple）EP’sを用いることは妥当である。

好ましい予測方法は、次のように、２個のクラスのデータを含む試験サンプルＴと境界EP’sのために実証される。少なくとも第１クラスのデータの１個の実例と少なくとも第２クラスのデータの１個の実例を持つ訓練データセットＤを考察する、そして、Ｄを２個のデータセットＤ_１およびＤ_２に分割する。Ｄ_１とＤ_２から複数の境界EP’sを抽出する。Ｄ_１のランクn₁の境界EP’sは、それらの頻度の降順に、｛EP_１(i), i = 1, . . . n₁ ｝として示され、そして、各々が、Ｄ_１でのゼロでない（non-zero）発生を有する。同様に、Ｄ₂のランクn₂の境界EP’sは、また、それらの頻度の降順に、｛EP₂(j), j = 1, . . . n₂ ｝として示され、そして、各々が、Ｄ₂でのゼロでない（non-zero）発生を有する。境界EP’sのこれらセットの双方は、リスト形式に簡単に蓄積されうる。D₁のi番目のEPの頻度は、ｆ₁(i) で示し、D₂のj番目のEPの頻度は、ｆ₂(j) で示す。双方のリスト内のEP’sは、もし望めば、頻度の昇順に蓄積されうることは、また、理解されよう。

Ｔが、D₁の次のEP’sを含むと仮定する、それは、境界EP’sでありえる:
｛EP₁(i₁), EP₁(i₂), . . . . , EP₁(i_x) ｝
ここで、i₁＜i₂＜. . . .＜i_x≦n₁ 及びｘ≦n₁。また、Ｔが、D₂の次のEP’sを含むと仮定する、それは、境界EP’sでありえる:
｛EP_２(ｊ₁), EP_２(ｊ₂), . . . . , EP_２(ｊ_ｙ) ｝
ここで、ｊ₁＜ｊ₂＜. . . .＜ｊ_ｙ≦n_２及びｙ≦n_２。実務において、第三リスト及び第四リストを作成することが便利である、ここで、第三リストは、ｆ₃(m)で示される、ここで、m番目のアイテムは、また試験データに発生し、そしてD₁内でゼロでない発生を有する複数のエマージングパターンi_mから各々のエマージングパターンの第１クラスのデータ内に、発生頻度ｆ_１(i_m)を含む、そして、ここで、第四リストは、ｆ_４(m)で示される、ここで、m番目のアイテムは、また試験データに発生し、そしてD₂内でゼロでない発生を有する複数のエマージングパターンi_mから各々のエマージングパターンの第１クラスのデータ内に、発生頻度ｆ₂(j_m)を含む。だから、第三リストのエマージングパターンは、D_１内のそれらそれぞれの発生頻度の降順に並べられる、そして同様に、第四リストのエマージングパターンは、D_２内のそれらそれぞれの発生頻度の降順に並べられる、ことが好ましい。

次のステップは、Tのクラスのラベルを予測するために２個のスコアを計算する、ここで、各々のスコア(score)は、２個のクラスの１つに対応する。D₁とD₂のkトップ・ランクEP’sが使われると仮定する。そうすると、D₁クラスのTのスコアは、次で定義される。

同様に、D_２クラスのTのスコアは、次で定義される。

もし、score(T)_D₁ > score (T)_D₂ であれば、サンプルTは、クラスD₁にあると予測される。
それ以外で、Tは、クラスD₂にあると予測される。もし、score(T)_D₁ = score (T)_D₂であれば、D₁とD₂のサイズが、好ましくは、決着をつけるために利用される、つまり、TがD₁とD₂の大きいほうに割り当てられる。もちろん、T内の最高発生頻度のEP’sは、D₁とD₂のどちらにおいてもトップ・ランクEP’sと同じである必要はない。

score(T)_D₁ > score (T)_D₂ は、双方とも商の総和であることに留意。もし、与えたクラスのトップi EP’sの各々が、T内で見出されば、i番目の商の値は、ただ1.0であるかもしれない。

一般的に、kは、エマージングパターンの総数より本質的に少なく選ばれた数、つまり、kは普通、k≪n₁ とｋ≪n₂のどちらかより更に少ないけれども、特に好ましいkの値は、２０である。他のkの適当な値は、５、１０、１５、２５、３０、５０及び１００である。一般的に、好ましいkの値は、約５から約５０の間にある。

代わりの具体例において、それぞれD₁とD₂のエマージングパターンn₁とn₂があるところで、kは、n₁とn₂のどちらかがより小さい固定比率に選ばれる。更に別の代わりの具体例では、kは、n₁とn₂の合計あるいはn₁とn₂の１つの固定比率に選ばれる。そのような具体例では、好ましい固定比率は、１％から５％の範囲である、そしてkは、kに対する固定比率が整数にならない場合において、最も近い整数値に丸められる。

上記に記載したスコアの計算方法は、マルチ・クラスデータの並列分類に一般化しうる。例えば、それは、他のサブタイプの全てから１つのサブタイプ区別するためのマルチ・遺伝子判別器やランク付けされた遺伝子リストの発見のために、特に有用である。そのような区別は、規則がそれ以下の残りのサブセットに対して１個のサブセットに基づいて表現されるので区別がローカル（局所）である階級的なツリー分類戦略とは対照的に、全部に対する1つであるので「グローバル（広範囲）」である。

ｃクラスのデータ、（c > 2) があり、D₁, D₂, . . . D_c で示されると仮定する。最初に、本発明の一般化された方法が、cグループのEP’sを発見する、そこで、n番目のグループ（１＜n≦c）が、D_n対（∪_i≠n D_i）に対してである。機能選定と離散化は、典型的な２個のクラスデータを扱った同じ方法で達成しうる。例えば、Dnのランク付けされたEP’sは、
{EP_n(i₁), EP_n(i₂), . . . . , EP_n(i_x)}
で示され、そして、頻度の降順にリストされることが出来る。

次に、一対のスコアの代わりに、cスコアがTのクラスのラベルを予想するために計算できる。それは、クラスD_n内のスコアTは、次の式で表される。

対応して、最高スコアを有するクラスは、Tのクラスと予想され、D_nのサイズが決着をつけるために使われる。

本発明の方法の根底にある原理は、与えられたクラスのトップK EP’sからTに含まれたトップK EP’sがどれほど離れているかを計測するものである。１個以上のトップ・ランクEP’sを使うことで、更に信頼性のある尤度「集合」が用いられる。従って、この方法は、尤度集合による予測（「PCL（prediction by collective likelihood）」）と呼ばれる。

ｋ=1の場合、score(T)_D₁は、Tに含まれた第１ランクのEPが、D₁の最高発生頻度EPから離れているかどうかを示す。この状況で、score(T)_D₁が、その最大値１を持てば、そのとき、「距離(distance)」は非常に近い、つまり、D₁の最も共通の特徴は、また試験サンプルにある。スコアが小さいことは、距離が大きいことを示す、だから、TがD₁のクラスに属することが、よりありそうでなくなる。一般的に、それぞれのｋトップ・ランクEP’sがTにある場合、score(T)_D₁あるいはscore(T)_D_２は、その最大値kを取る。

本発明の方法は、一般的に以下のエマージングパターンで達成される、ただ限定はされないが；境界エマージングパターン、左側境界エマージングパターンのみ、プラトーエマージングパターン、最も特定的プラトーエマージングパターンのみ、及び成長率が閾値ρより大きいエマージングパターン、ここでは、閾値は１より大きい全ての数、好ましくは２あるいは∞（ジャンピングEPでのように）あるいは２から１０の数。

本発明の代わりの具体例では、プラトー空間（P-空間、上記に記載）が分類に利用され得る。特に、P-空間の最も特定の要素が利用される。PCLにおいて、ランク付けされた境界EP’sは、データセット内の全P-空間の最も特定的要素で置き換えられる、そして上記記載のPCLの他のステップで、達成される。

この具体例の有効性に対する理由は、P-空間の最も特定的要素の近隣は、ほとんどの場合で全てEP’sである。しかし、EP’sではない境界EP’sの隣接で多くのパターンがある。二番目は、P-空間の最も特定的要素に含まれたコンデイションは、通常、境界EP’sより更に多い。だから、コンデイション数が大きいほど、反対のクラスからEP’sを含む試験サンプルに対しての機会はより低い。それ故、正しく分類される確率は、高くなる。

分類においてのEP’sを用いる他の方法
PCLは、分類においてのEP’sを用いる方法のみではない。同じく信頼性が高くそして健全な結果を与える他の方法が現在の発明の目的と一致し、ここに述べられる。

従って、与えた試験実例を、Tで示す、そして、それは訓練データDに対応する、Tのクラスを予測するための第２方法は、次のスッテプから成る、ここで、表示法と用語が制限にならないように解釈する。

１．Dを２個のサブデータセットに分ける、それらをD₁とD₂と表示し、それぞれは、２個のクラスの１つからなる、そして、空リスト、ファイナルEP’s (finalEP’s)、を作成する。

２．D₁のEP’sを発見、同様に、D_２のEP’sを発見する。

３．頻度と長さ（パターンのアイテム数）に応じて、EP’s（D₁とD₂双方から）を降順に並べる。ランク付けの規準は、以下である、
(a) ２個のEP’s、X_i とX_j を与える、もし、X_iがX_jより大きければ、そのとき、X_iは、リスト内でX_jに優先する。
(ｂ) X_i とX_jの頻度が同一の時、もし、X_iがX_jより大きければ、そのとき、X_iは、リスト内でX_jに優先する。
(ｃ) それらの頻度と長さが同一の時、２個のパターンは、同等に扱われる。ランク付けされたEPリストは、オーダーEP’s (ordered EP’s) として表示される。

４. オーダーEP’sの最初のEPをファイナルEP’s に入れる。

５．もし、最初のEPがD₁（あるいはD₂）からであれば、新しいD₁（あるいは新しいD₂）を設定する、それは、最初のEP を含まないD₁（あるいはD₂）のそれら実例からなる。

６．新しいD₁あるいは新しいD₂が空になるまで、ステップ２からステップ５を繰り返す。

７．Tに含まれた、あるいはすぐ隣の特有のEPのサブセットの１つがTに含まれたファイナルEP’s内の最初のEPを見出す。もし、EPが、第１クラスからであれば、試験実例は、第１クラスとして予想される。それ以外では、試験実例は、第２クラスとして予想される。

第三の方法によれば、システムが更に精度よく作られるかどうかを確かめるために強いEP’sが使われ、模範的なステップは以下の通りである、

１．Dを２個のサブデータセットに分ける、それらをD₁とD₂と表示し、それらは、それぞれ第１と第２クラスから成る。

２．D₁内で強いEP’sを発見、同様にD_２内で強いEP’sを発見する。

３．頻度に応じて、各々の２個のEP’sのリストを降順に並べ替える。D_１とD_２内の強いEP’s対して、それぞれ、オーダーEPs1とオーダーEPs2としてオーダーEPリストを表示する。

４．それらが必ずTに含まれるように、オーダーEPs1から、トップk EP’s を見出す、そしてそれらを EP₁(1), . . . . ,EP₁(ｋ) として表示する。同様に、それらが必ずTに含まれるように、オーダーEPs2から、トップk EP’s を見出す、そしてそれらを EP₂(1), . . . . ,EP₂(j)として表示する。

５．EP₁(1)の頻度とEP₂(1)の頻度を比較する、そして、もし前のものが大きければ、試験実例は、第１クラスのデータと予測される。それ以外では、もし後のものが大きければ、試験実例は、第２クラスのデータと予測される。同点状況は強い2-EP’s、つまり、その成長率が２より大きいEP’s、を用いることで壊される。

分類におけるEP’sの有用性の評価
エマージングパターンの有用性は、「リーフ・ワン・アウト・クロスバリデーション」（LOOCV）分類研究の実施により試験することが出来る。LOOCVでは、データセットの最初の実例は、試験実例としてみなされ、残りの実例は、訓練データとして扱われる。最初の実例から最後の１つまで、この手順を繰り返す、それは、精度、つまり、正しく予想された実例のパーセント、を評価可能である。精度評価の他の方法は、従来技術の１つとして知られており、本発明の方法と互換性がある。

本発明の実践は、今、数個の例によって示される。これらの例が、どのような形でも、現在の発明の範囲を制限するものではなく、単に代表的な具体例を示すだけであり、技術の１つとして理解されるべきである。

例、例１．エマージングパターン、例１.1: 生物学的なデータ
２．５の成長率閾値に対して、多くのEP’sが、UCI貯蔵庫（C.ブレーク＆P. マーフィー、「UCI機械学習貯蔵庫」、http://www.cs.uci.edu/〜mlearn/MLRepository.html、あるいは、Department of Information and Computer Science, University of California, Irvine, USAから利用可能である) からのキノコのデータセット内に見出すことができる、以下は、２個の典型的なEP’ｓであり、各々は３個のアイテムからなる、
X = {(匂い = 無), (ひだ_サイズ = 広い), (リング_数 = １)}
Y = {(傷 = 無), (ひだ_間隔 =接近), (ベール_色 = 白)} 。

キノコの２個のクラス内のそれらサポート、毒(poisonous)と食用(edible)は、次である。

非常に大きい成長率を有するそれらEP’sは、食用と毒のキノコのクラス間の注目に値する区別特性を明らかにし、そして、それらは、強力な分類器(参照：例えば、J. リー、 G. ドン＆K. ラマモハナラロ, 「分類用の最も顕示的ジャンピング・エマージングパターンの使用」、Knowledge an Information Systems、3: 131-145, (2001))の構築に有用であった。興味を引くのは、8個以上のアイテムを含むいくらかがあるが、単独個体アイテム{匂い = 無}、{ひだ_サイズ = 広い}及び{リング_数 = １}のどの１つもEPではない。

例1.2：人口統計データ
１３個以上のアイテムを含むEP’sの約１２０の集合は、アメリカで、国勢調査データセット「PUMS」(www. census. govで利用可)で発見された。これらEP’sは、成長率閾値1.2を使って、テキサスの人口をミシガンのそれと比較することにより得られる。そのようなEPの１つは、以下である。
{Disabl 1: 2. Langl: 2, Means: l, Mobili: 2, Perscar: 2, Rlabor:１, Travtim: [1.. 59], Work89: 1}

アイテムは、それぞれ、障害（Disabl）、自宅での言語（Langl）、交通(mobili)の手段(means)、個人医療（Perscar）、雇用状況（Rlabor）、通勤時間（Travtim）及び１９８９年の就労あるいは非就労（Work89）を表す、ここで、各々の属性値は領域値の列挙リスト内のアイテムに対応する。そのようなEP’sは、異なる社会と地理的グループ間の人口特性の差異を記述することが出来る。

例1.3：購買動向データ
１９８５年に２０００万取引記録から１０００個の購入パターン{コンピュータ, モデム, EDU-ソフトウェア}、そして１９８６年には、２０００万取引記録から２１００個のその購入があったと仮定する。この購入パターンは、１９８５年から１９８６年の成長率２のEPである、だから、成長率閾値が２以下で設定されたいかなる分析においても確認される。この場合、アイテムセットのサポートは、１９８６年でさえ非常に小さい。だから、低いサポートを有するパターンの重要性に感謝する価値さえある。

医療記録データ
癌患者の研究を考察する、ここで、１個のデータセットは、治った患者の記録を含み、他のデータは、治らなかった患者のデータを含む、そしてデータは、症状S及び治療Tに関する情報を含む。治らずから治ったの成長率９を有する仮定的に有効なEP {S₁, S₂, T₁, T₂, T₃}は、そのように言えるであろう、つまり、双方の症状S₁とS₂を持った全ての癌患者とT₁, T₂ 及び T₃の全ての治療を受けた癌患者の間で、治った患者の数は、治らなかった患者の９倍である。これは、治療の組み合わせが、症状の組み合わせが生じるといつでも（良い方法が無ければ）、ほどこされるべきであることを示しているのかもしれない。EPは、ただ１％などの低いサポートを有しているが、それは、そのような低いサポートを有し及び非常に多くのアイテムからなるEP’sを見出すための効率的方法の不足ゆえ、おそらく、医療分野への新しい知識である。このEPは、例えば、症状S_iに関する各々の治療の効果に関する支配的な知識を否定さえするかもしれない。だから、そのようなEP’sの選ばれたセットは、例えば、症状セットで示されるような、与えられた医療状況に対してどのような治療を用いるべきかの決定において、医者に有用な案内が出来る。

説明的遺伝子表現データ
遺伝子のDNA配列をRNAに書き換えるプロセスは、遺伝子表現と呼ばれる。翻訳後、RNAは、アミノ酸配列から成るタンパク質のため、コード化する。遺伝子表現レベルは、セル（細胞）で生産されたその遺伝子のRNAのおおよそのコピー数である。通常、以下に記載のマイクロアレイのような技術を用いて高度な平行実験により得られた遺伝子表現データは、特定の実験条件の下、遺伝子表現レベルを記録する：マイクロアレイ (参照：例えば、M. シェーナ、D. シャロン、R. デービス＆P. ブラウン「相補的DNAマイクロアレイを持つ遺伝子表現パターンの量的監視」、サイエンス、270、467-470、(1995))、オリゴヌクレオチド「チップ」（参照：例えば、D. J. ロックハート、H. ドン、M. C. バヤン、M. T. フォレテイ、M. V. ガロ、M. S. チー、M. ミットマン、C. ワン、M. 小林、H. ホートン及びE. L. ブラウン、「高密度オリゴヌクレオチドアレイへのハイブリダイゼーションによる表現監視」、ネイチャー、バイオテック、14：1675-1680、(1996)）、及び遺伝子表現の直列分析（参照：V. ベルカレシュウ、L. ツァン、B. ボーゲルスタイン＆K. カインツラー、遺伝子表現の直列分析、サイエンス、270: 484-487、(1995)）。

２個のクラスのデータ間の著しい差異の知識は、生物学において有用である。例えば、何がしかの遺伝子表現実験において、医者あるいは生物学者は、ある遺伝子あるいは遺伝子グループの表現レベルが正常セルと病気のセル間で急激に変化することを知ることを望む。そこで、これら遺伝子あるいはそれらのたんぱく質製品が、診断インジケータあるいは特定の病気対象の薬として用いることができる。

遺伝子表現データは、一般的に、行列として整理される。ｎ列m行のマトリックスに対して、nは、通常、考えられた遺伝子の数を表現し、mは、実験の数を表現する。２つの主なタイプの実験がある。第１のタイプの実験は、コンデイションの変化の直列下で、同時にn個の遺伝子をm回の監視に向けられる（参照：例えば、J. L. デリシ、V. R. イヤー＆P. O. ブラウン、「ゲノムスケール上での遺伝子表現の遺伝子コントロールと新陳代謝の探求」、サイエンス、278：680-686、(1997)）。このタイプの実験は、コンデイションの直列下で、全ての単一の遺伝子の規則あるいは全ての可能な動向を提供するように意図される。結果としてのデータは、一般的に、時間的である。第２のタイプの実験は、単一環境、しかし、m個の異なるセルでn個の遺伝子を試験するために用いられる（参照：例えば、U. アロン、N. バーカイ、D. A. ノッタマン、K. ギシュ、S. イェバラ、D. マック＆A. J. レビン、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proc. NATL. ACAD. SCI. U.S.A.、96: 6745-6750、(1999)）。このタイプの実験は、新しいセルの分類を補助し、その表現が良い診断インジケータ[1, 8]である有用な遺伝子の確認用に期待される。結果としてのデータは、一般的に、空間的である。

遺伝子表現値は、連続的である。遺伝子を与える、genesで表示、コンデイションの直列下で、あるいは、単一コンデイション、しかし異なるタイプのセルの下で、その遺伝子表現値は、実数の範囲で形成する。この範囲は、[a, b] である、[c, d]は、[a, b]に含まれると仮定する。gene_j@[c, d]をアイテムと呼ぶ、gene_jの値は、cとd間に包括的に限定されることを意味する。１個の単一のアイテムのセット、あるいは異なる遺伝子からくる数個のアイテムセットは、パターンと呼ばれる。だから、パターンは、次の形式である、
｛gene_i1@[a_i1, b_i1], . . . ., gene_ik@[a_ik, b_ik]
ここで、i_t≠i_s, 1≦k 。パターンは、常に、データセット内に頻度を有する。この例は、パターン、だから、エマージングパターンの頻度をいかに計算するかを示す。
表Ｂ

表-Ｂは、３個が正常で、３個が癌である６個のセル内の４個の遺伝子の表現値から成る。表-Ｂの各々の６行は、「実例」である。パターン｛gene₁@[0.1, 0.3]｝は、全データセット内で５０％の頻度を有する、理由は、最初の３個の実例に対する遺伝子表現値が区間[0.1, 0.3]にあるからである。別のパッターン｛gene₁@[0.1, 0.3]｝、｛gene₃@[0.30, 1.21]｝は、全データセット内で０％の頻度を有する、理由は、２つの条件：（i）gene₁’s値が範囲[0.1, 0.3]内でなければならない（ii）gene₃’s値が範囲[0.30, 1.21]内でなければならない、を満足する単一の実例がないゆえである。しかしながら、パターン｛gene₁@[0.4, 0.6]｝、｛gene₄@[0.41, 0.82]｝は、５０％の頻度を有すると見ることができる。

エマージングパターンを説明するために、表-Ｂのデータセットは、２個のサブデータセットに分割される：１個は、３個の正常セルの値から成り、他は、３個の癌セルの値から成る。与えられたパターンの頻度は、１個のサブデータセットから他のサブデータセットに変化することができる。エマージングパターンは、その頻度が、２個のサブセット間で、著しく変化するそれらパターンである。

パターン｛gene₁@[0.1, 0.3]｝は、エマージングパターンである、理由は、それが、正常セルから成るサブデータセットでは頻度１００％を有し、しかし、癌セルのサブセットでは頻度０％を有するからである。

パターン｛gene₁@[0.4, 0.6]｝、｛gene₄@[0.41, 0.82]｝は、また、エマージングパターンである、理由は、正常セルを有するサブデータセット内で頻度０％を有するからである。

次の例に使われた２個の一般にアクセス可能な遺伝子表現データ、白血病データセット（ゴルブ他、「癌の分子の分類：遺伝子表現の監視によるクラス発見とクラス予測」、サイエンス、286：531-537、(1999)）、及び結腸腫瘍データセット（U. アロン、N. バーカイ、D. A. ノッタマン、K. ギシュ、S. イェバラ、D. マック＆A. J. レビン、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proc. NATL. ACAD. SCI. U.S.A.、96: 6745-6750、(1999)）が表-Ｃに記載される。遺伝子表現データの共通特性は、サンプルの数が、商業的な市場データと比較して、少ないことである。
表Ｃ

別の表示法で、遺伝子Ｘの表現レベルは、gene(X)で与えることができる。正常組織のその０％の頻度を、この結腸腫瘍データセットから取られた癌組織の７５％の頻度に変えるエマージングパターンの例は、次の３個のアイテムを含む：
｛gene (K03001)≧89. 20, gene (R76254)≧127.16, gene (D31767) 63. 03}
ここで、K03001, R76254およびD31767は、特別な遺伝子である。このエマージングパターンによれば、新しいセル実験で、もし、遺伝子K03001の表現値が89. 20より小さくない及び遺伝子R76254の表現値が127.16より小さくない及び遺伝子D31767の表現値が63. 03より小さくないであれば、このセルは、正常なセルであるよりも癌のセルであることが見込まれる。

例２：腫瘍データセットからのエマージングパターン
このデータセットは、正常セルと癌セルの遺伝子表現レベルを含み、それは、例1.4で論議した実験の第２タイプの１つにより得られる。データは、Affymetrix HUM6000から得られた２２の正常組織サンプルと４０の結腸腫瘍組織サンプルの約６５００の遺伝子に対しての遺伝子表現値からなる（参照：アロン他、「オリゴヌクレオチドアレイ・プローブによる、腫瘍と正常な結腸組織のクラスタリング分析よって明らかにされた遺伝子表現の広範囲パターン」、Proceedings of National Academy of Science of the United State of America、96: 6745-6750、(1999)）。これらサンプル２０００の表現レベルは、それらサンプルにまたがる最小の強さに従い選ばれた、そして最小の強さ以下のそれら遺伝子は、無視された。減らされたデータセットは、インターネットサイト、http://microarray.princeton.edu/onocology/affydata/index.html、
で公に利用可能である。

このサンプルは、本質的に以下の問題に関する：

１．どの遺伝子の表現値の区間、あるいは多重遺伝子のどの区間の組み合わせ、のみが、正常組織ではなく癌組織で起きるのか、あるいは、癌組織ではなく正常組織で起きるのか？

２．上記の対照的な区間あるいは全てのEP’sの組み合わせ区間が有益で、信頼性が高いように、いかに遺伝子の表現値の範囲を多重区間に離散化することが可能か?

３．発見したパターンは、分類のタスクを実行するに利用できるか、つまり、同じタイプの表現実験の実施後、新しいセルが正常か癌であるかどうかを予測する？

これらの問題は、いくつかの技術で解決される。結腸癌データセットに対して、その２０００個の遺伝子のうち３５個の適切な遺伝子のみが、残りの１９６５個の遺伝子が方法により無視される間に、２個の区間に離散化される。この結果は、ほとんどの遺伝子が「取るに足らない(trivial)」ものとして見られるので非常に重要である、結果として、小さな数の良い診断インジケータが集中した簡単なプラットフォームをもたらす。

離散化に対して、データは、MLC++の利用により得られたフォーマットに応じて再編成される（参照：R. カハビ、G. ジョン、R. ロング、D. マンリー及び K. プレジャー、「MLC++ : C++内の機械学習ライブラリー」、Tools with Artificial Intelligence、740-743、(1994))。簡単に、再編成データセットは、当初のデータセットに対角対称である。この例では、私たちは、どの遺伝子が選ばれ、どの遺伝子が捨てられるかを見るために、離散化結果を提示する。エントロピー基礎の離散化方法は、正常なセルからの表現値と癌のセルからの表現値の間で「最高の」、信頼の高い差別的である区間を発生する。だから、エントロピー基礎の離散化方法は、自動的に、ほとんどの遺伝子を無視し、数個の最も差別的な遺伝子を選ぶ。

離散化方法は、２０００の３５のおのおのを２個のばらばらの区間に分割する、一方、残りの１９６５遺伝子にカットポイントはない。これは、遺伝子の1.75%（= 35/2000)のみが特別の差別的遺伝子として考察され、その他は分類用としては相対的に重要でないとして考察することができることを示す。良い診断遺伝子の少ない数を得る、だから、離散化方法は、信頼の高いエマージングパターンの効率的発見のための基盤を置く、それ故、膨大な数のうるさいパターンの発生を取り除く。

離散化結果は、最初の行が３５個の遺伝子のリストを含み、２行目は、遺伝子番号を示す、区間は３行目に示す、そして遺伝子の手順と名前は、それぞれ４行目と５行目に示される表ーＤに要約される。表-Ｄの区間は、よく知られた数学的表記法で示される、ここで、角括弧[は、範囲の境界数を包括するであり、丸括弧（は、境界数の除外を意味する。

総計７０個の区間がある。従って、アイテムは区間にリンクした遺伝子から成るペア（対）である７０個のアイテムを伴う。７０個のアイテムは次のようにインデックス（索引）をつける：第１の遺伝子の２個の区間は、1番及び２番アイテムとして、i番目の遺伝子の２個の区間は、（i^*1）番、（i^*2）アイテムとして、そして３５番目の遺伝子の２個の区間は、６９番、７０番アイテムとして索引がつけられる。この索引は、ェマージングパターンを書いたり読んだりする時、便利である。例えば、パターン｛２｝は、{gene_T51560@[101.3719, +∞]} を表す。

離散化したデータを基礎のエマージングパターンは、次の２個の効率的境界-基礎アルゴリズムの利用により発見された、境界-差異及びJEP-作成器（Border-Diff and JEP-Producer）（参照：ドン＆リー：“エマージングパターンの効率的マイニング：傾向と差異の発見”、Proc. 5th ACM SIGKDD、International Conference on Knowledge Discovery ＆ Data Mining、43-52、（1999）；リージェイ、正確で効率的な分類器の構築のためのエマージングパターン、博士論文、Department of Computer Science and Software Engineering、メルボルン大学、オーストラリア、(2001)；J. リー、 G. ドン＆K. ラマモハナラロ、「分類用の最も顕示的ジャンピング・エマージングパターンの使用」、Knowledge an Information Systems、3: 131-145, (2001)；J. リー、K. ラマモハナラロ＆G. ドン、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、551-558、(2000))。アルゴリズムは、「ジャンピング・エマージングパターン」―１個のクラス内の最大頻度である（つまり、正常組織あるいは、癌組織の場合）、しかし他のクラスの全てで起きない、それらEP’sを得ることが出来る。結腸腫瘍データセットの正常組織内のゼロでない頻度を有する１９,５０１のEP’sの合計は、発見された、そして、癌組織内のゼロでない頻度を有する２,１６５のEP’sの合計は、これらアルゴリズムによって得られた。

表-Ｅ及び表-Ｆは、発生頻度の降順に並べられた、２２個の正常組織と４０個の癌組織に対する、トップ２０のEP’sと強いEP’sのリストである。各々の場合、１行目は、EP’sを示す。パターン内の数は、例えば、パターン{16, 58, 62}の１６、５８及び６２は、上記で論議し索引をつけたアイテムである。
表Ｅ

表Ｆ

エマージングパターンから推論できるいくつかの主要な洞察は、次に要約する。第１は、境界―基礎のアルゴリズムは、全てのエマージングパターンの発見を補償する。

いくつかのエマージングパターンは、驚くほど面白い、特に相対的に大きい数の遺伝子を含むものに対してである。例えば、パターン{2, 3, 6, 7,13, 17, 33}は、７個の遺伝子を互いに結合するけれど、それは、いまだ、正常組織において、非常に大きい頻度(90. 91%)を有することができる、つまり、ほとんど全ての正常セルの表現値は、７個のアイテムによって暗示された全てのコンデイションを満足する。しかしながら、単一の癌セルが全てのコンデイションを満足はしない。単独及び６個の組み合わせを含む、パターン{2, 3, 6, 7,13, 17, 33}の固有のサブパターンの全ては、正常及び癌組織の双方でゼロでない頻度を有しなければならないことを観察する。これは、{2, 3, 6, 7,13, 17, 33}の全てのサブパターンによって暗示されたコンデイションを満足する正常及び癌組織の双方から少なくとも１個のセルが存在しなければならないことを意味する。

｛５｝のような単独のエマージングパターンの頻度は、１個以上のアイテムを含むエマージングパターン、例えば、{16, 58, 62}、の頻度より大きい必要はない。だから、パターン｛５｝は、パターン{16, 58, 62}の頻度(75%)より約2.3倍小さい32.5%の頻度を持つ癌組織内のエマージングパターンである。これは、遺伝子表現データの分析に対して、遺伝子グループとそれら相関が単一の遺伝子より良く、更に重要であることを示す。

離散化方法及び境界-基礎EP発見アルゴリズム無しでは、大きな頻度を有するそれら信頼度の高いエマージングパターンを発見することは非常に難しい。1,965の他の遺伝子が、同様に各々２個の区間に分割されることを前提にして、そのとき、７の長さを有する⁷C₂₀₀₀*2⁷個の可能なパターンがある。そのような膨大な数のパッターンの列挙とそれら頻度の計算は、今回、実際的に不可能である。たとえ、離散化方法でも、⁷C₃₅*2⁷個のパターンのナイーブ列挙は、まだ、パターン{2, 3, 6, 7, 13, 17, 33}の発見に対して、高価すぎる。いくつかの発見されたEP‘ｓ(ここにはリストされていない)が、７個の遺伝子を含むことを認識する時、実際には、問題は更に複雑であることを理解することができる。

２個の境界-基礎のアルゴリズムの使用を通して、固有サブセットがエマージングパターンでないそれらEP’sのみが発見される。興味深く、その他EP’sは、発見したEP’sを用いて得ることができる。一般的に、発見したEPの全ての固有スーパーセットは、また、エマージングパターンである。例えば、カウント２０のEP’s（表-Ｅ参照）を用いて、同じカウント２０を持つ、１２個の遺伝子から成る非常に長いエマージングパターン{2, 3, 6, 7, 9, 11,13, 17, 23, 29,3 3, 35}を得ることが出来る。

６２個の組織の全てが、それ自身のクラスから少なくとも１個のエマージングパターンに適合しなければならない、しかし他のクラスからの全てのEP’sは含まないことに留意する。従って、システムは、データの全てのアイテムが、システムによって発見されたパターンによって発見されるので、うまく全部のデータを学習する。

要約すると、発見したエマージングパターンは、いつも、小さな数の遺伝子を含む。この結果は、ユーザに小さな数の良い診断遺伝子に焦点をあてさせるのみでなく、より重要なことは、遺伝子の区間の組み合わせ及び組み合わせ頻度で発生された遺伝子のいくつかの相互作用を明らかにすることである。発見したエマージングパターンは、新しいセルの特徴を予測するために使うことができる。

次に、エマージングパターンは、新しいセルが正常あるいは癌のどちらかの予測でパターンがいかに有用であるかを示すために、分類タスクを実行するために使われる。

表-Ｅ、表-Ｆに示すように、EP’sの頻度は、非常に大きい、だから、遺伝子のグループは、新しい組織を分類するために良いインジケータである。「リーフ・ワン・カット・バリデーション」（LOOCV）分類タスクを実施することによりパターンの有用性を試験することは有用である。LOOCVによって、６２個の組織の最初の実例は、試験実例として確認され、残りの６１個の実例は、訓練データとして取り扱われる。この手順を、最初の実例から６２番目のものまで繰り返す、正しく予測された実例のパーセントによって与えられた、正確さ（精度）を得ることが可能である。

この例で、２個のサブデータセットはそれぞれ正常訓練組織と癌訓練組織から成る。バリデーションは、正しく６２個組織の５７を予想する。３個の正常組織(N1, N2 及び N39)のみが癌組織として間違って分類された、そして、２個の癌組織(T28 及び T33)が正常組織として間違って分類された。この結果は、文献の結果と比較することができる。フリー他（参照：T. S. フリー、N. クリスチアンニ、N. ダフィー、D. W. ベッドナアスキー、 M. シューマー及びD. ハウスラー、「サポート・ベクトル・マシーン分類とマイクロアレイ表現データを用いた癌組織サンプルの確認」、Bioinformatics、16: 906-914、(2000)) 分類ミスの６個の組織(T30, T33, T36, N8, N34, 及びN36)、１０００個の遺伝子とSVMアプローチ使用。興味深いことは、ここで提示した方法による全ての分類ミスの例は、SVM法による分類ミスのそれらと、１個（T33は双方で分類ミス）を除いて異なることである。だから、ここに提示の分類方法の性能は、SVM法より優れている。

結腸腫瘍データセットは、非常に複雑であることを強調するものである。通常的にそして理想的に、試験正常（または癌）組織は、正常（または癌）訓練組織から大きい数のEP’sを、そして他のタイプの組織から小さな数のEP’sを含むべきである。しかしながら、ここに提示した方法を基礎にして、試験組織は、組織の双方のクラスから、多くのEP’s、トップ・ランクの高頻度EP’sさえ含むことができる。

上記に提示した第三の方法の使用により、６２個組織の５８個が正しく予測される。４個の正常組織(N1, N12, N27 及び N39)は、癌組織として間違って分類された。だから、分類の結果は、強いEP’sが使用されたとき、改善する。

同じデータセットの分類結果に従うと、私たちの方法は、SVN法及びクラスタリング法より優れている。

境界EP’sあるいは、CFS法が、最も重要である２０００個のオリジナル遺伝子から２３個の機能を選定した。２３個の機能の全ては、２個の区間に分割される。

合計３７１個の境界EP’sは、正常セルのクラス内に、そして、これら２３個の機能を用いて、癌セル内の１３１個の境界EP’sは、発見された。合計５０２個のパターンは、上記に記載の方法に従ってランク付けされる。いくらかのトップ・ランク境界EP’sは、表-Ｇに示される。
表Ｇ

ALL/AMLデータと異なり、以下例３で論議されて、結腸腫瘍データに、正常と癌セルを明確に分離するためのアビトレーター（調停物）として働く単一遺伝子はない。代わりに、遺伝子グループは、２個のクラス間の相違を明らかにする。留意、また新しい、これら境界EP’s、特に、多くのコンデイションを有するそれらは、生物学者と医者には明らかではない。だから、それらは、新しい生物学的な機能を明らかにする可能性があり、そして新しい道(pathway)を見出す可能性を持ち得る。

P-空間
正常セルのクラスで同じ１８の最高頻度を持つ合計１０個の境界EP’sがあることを見ることが出来る。これら境界EP’sを基礎として、P₁₈-空間は、唯一の最も特定の要素がZ = {2, 6, 7, 9,11, 15, 21, 23, 25, 31}内で発見することが出来る。凸状によって、また、１０個の境界EP’sのどれか１つのスーパーセットであるZの全てのサブセットは、正常クラスないで１８個の発生を有する。あるいは、凸状によって、この空間が、表-Ｈに示すように、１１個のEP’sのみを用いて簡素に表示されることが出来る。
表Ｈ

表-Ｈにおいて、最初の１０個のEP’sは、最も一般的要素で、そして最後の１つが、空間内の最も特定の要素である。EP’sの全部は、それぞれ、頻度１８と０で正常及び癌クラスの双方内で同じ発生を有する。

このP-空間から、重要な遺伝子グループ（境界EP’s）が、重要性を失うことなくいくつかの他の遺伝子を加えることにより拡張することが出来る、つまり、１個のクラス内で高い発生を保持する、しかし、他のクラス内では存在しない、を見ることが出来る。これは、生物学的道の最大長を確認するに有用であり得る。

同様に、P₃₀-空間は、癌クラスで発見された。この空間内で最も一般的なEPは、{14, 34, 38}のみであり、最も特定のEPは、{14, 30, 34, 36, 38, 40, 41, 44, 45}のみである。それ故、境界EPは、その発生を変えずに、６個以上の遺伝子を加えることができる。

シャドウパターン
それは、また、シャドウパターンの発見に向かう。表-Ｊは、一列目に示すように、境界EP及びそのシャドウパターンを報告する。これらシャドウパターンは、また、境界EPの固有サブセットがゼロでない頻度で２個のクラス内で発生しなければならないポイントの説明に使うことができる。
表Ｊ

結腸データセットに対して、PCL法を用いて、C4. 5、ナイーブベイズ、k-NN及びサポート・ベクター・マシーンなどの他の分類方法より、良いLOOCV誤差率を得ることができる。結果は、表-Ｋに要約される、ここでは、誤差率は、失敗予想の絶対数として表現される。
表Ｋ

加えるに、P-空間は、分類用に使われることができる。例えば、結腸データセットに関して、ランク付けされた境界EP’sは、P-空間の最も特定の要素によって置き換えられた。言い換えれば、境界EP’sを抽出する代わりに、最も特定のプラトーEP’sは、抽出される。PCLを用いる残りのステップは、変化しない。LOOCVによって、６個のみの誤った分類の誤差率が得られる。この削減は、表-Ｋのそれらへの比較で重要です。

例３：最初の遺伝子表現データセット（白血病患者のために)
白血病データセット（T. R. ゴルブ、D. K. スロニム、P. タマヨ、C. ヒュアード、M. ガセンビーク、J. P. メシロフ、H. コラー、M.L. ロー、Ｊ．ダウニング、M. A. カリギュリ、C. D. ブルームフィールド及びE. S. ランダー、「癌の分子の分類：遺伝子表現の監視によるクラス発見とクラス予測」、サイエンス、286：531-537、(1999)）は、上記の表-Ｃに示すように、劇症リンパ球白血病(ALL)の２７個のサンプルの訓練セット及び劇症骨髄腫白血病(AML)の１１個のサンプルを含む。（ALL及びAMLは、白血病の２個の主なサブタイプである。）この例は、２０個のALLと１４個のAMLの目隠し試験セットを使用した。高密度オリゴヌクレオチド・マイクロアレイは、6,817個の人間遺伝子の7,129個のプローブを使用した。このデータは、次のURLで公に利用可能である、http ://WWW. genome. wi. mit. edu/MPR。

例3.1：白血病データから得られたパターン
CFS方法は、7,129個の機能の全体から１個の遺伝子、Zyxinのみを選ぶ。離散化方法は、994でカットポイントを用いて、この機能を２個の区間に分割する。それから、それらホームクラス内で100%発生を有する、２個の境界EP’s、gene_zyxin@(-∞, 994)及びgene_zyxin@[ 994, -∞)は、発見された。

生物学的に、これら２個のEP’sは、サンプルセル内のZyxinの表現が994より小さければ、このセルがALLクラスに有ることを示す。それ以外、このセルは、AMLクラス内である。この規則は、例外なく３８個の訓練サンプル全てを規制する。この規則をが３４個の目隠し試験サンプルに適用すれば、３個のミス分類のみが得られる。この結果は、ゴルブ他、サイエンス、286: 531-537、(1999)に報告されたシステムの正確さより優れている。

生物学的及び技術的雑音は、データを作成する実験要綱内の多くの段階で、機械的及び人的双方の起源で、たびたび発生する。例は、以下を含む：DNAアレイの生産、サンプルの用意、表現レベルの抽出、また、不純物あるいは組織の誤った分類から。これら可能な誤差-同等、どこ-小さい、を克服するために、以下に論議するように、分類方法を強化するために１つ以上の遺伝子をことに使うことを提案する。

エントロピー基礎の離散化方法により分割された時、エントロピー値が他の7,127の機能全てのそれらより著しく小さい４個の遺伝子が発見された。これら４個の遺伝子、これらの名前、カットポイント及びアイテム索引が表-Ｌにリストされる、がパターン発見に対して選ばれた。表-Ｌ内の各々機能は、２行目のカットポイントを用いて、２個の区間に分割される。アイテム索引（インデックス）は、EPを示す。
表Ｌ

合計６個の境界EP’sが発見された、３個ずつがALLとAMLクラス。表-Ｍは、全クラス内の境界EPと一緒にそれら発生と発生のパーセントを示す。パターン内に含まれる参照番号は、表-2の区間索引を参照する。
表Ｍ

生物学的に、例としてEP {5, 7}は、CST3の表現が1419.5より小さく、Tropomysinが83. 5より小さいならば、このサンプルは、100%正確にALLである、といえる。だから、本発明の方法により得られた境界EP’sを伴うそれら遺伝子の全ては、ALLとAMLを分類するために、非常に良い診断インジケータである。

P-空間は、また、２個の境界EP’s {5, 7} と {1}を基準に、発見された。このP₂₇-空間は、５個のプラトーEP’s: {1}、{1, 7}、{1, 5}、{5, 7} 及び {1, 5, 7}から成る。最も特定のプラトーEPは、{1, 5, 7}である。このEPは、まだ、ALLクラスで２７個の完全発生を有することに留意。

PCL法の精度は、白血病データセット（ゴルブ他、1999）の３４個の目隠し試験サンプルにそれを適用により、及び結腸データセットに関してリーフ・ワン・アウトクロスバリデーション（LOOCV）の実施により、試験された。白血病訓練データに適用した時、CFS法は、２個の区間に離散化された１個の遺伝子、Zyxinを正確に選んだ、それゆえ、簡単な規則を形成し、サンプル内のZyxinのレベルが994以下であれば、サンプルはALLである、それ以外は、サンプルはAMLである、として表現可能。従って、1つの規則しかないように、それを使うことに曖昧さはない。この規則は、訓練データに関して100％正確である。しかし、目隠し試験データのセットに適用した時、いつかの分類誤差をもたらした。精度を上げるために、いくつかの追加遺伝子を用いることが妥当である。白血病データの４個の遺伝子が、エントロピー基礎の離散化法により、最も重要なものとして選定されたことを思い出そう。これら４個の遺伝子から得られた境界EP’sに関してPCLを使って、２個のミス分類の試験誤差率が得られた。この結果は、Zyxin遺伝子のみを用いて得られた結果より１エラー少ない。

例4: 第２遺伝子表現データセット（劇症リンパ球白血病）
この例は、聖ジュード小児研究病院（A. E. -J ヤオ他、「診断での小児劇症リンパ球白血病(ALL)ブラストの表現プロファイリングは、再発リスクと治療による誘発劇症骨髄腫白血病（AML）の双方を正確に予測する」、Plenary talk at アメリカ血液学会43回年度会議、オランドー、フロリダ、（２００１年１２月））から得られた遺伝子表現プロファイルの大きい集合を使用する。データは、劇症リンパ球白血病(ALL)サンプルの３２７個の遺伝子表現プロファイルから成る。これらプロファイルは、12558に対するプローブを含むAffymetrix U95A GeneChipに関する交配により得られた。交配データは、(a) 3以下の全ての遺伝子「Pと呼ぶ」は、１で置き換えられる、(b) 全ての強度値「Aと呼ぶ」は、１で置き換えられる、(c) 全ての100以下の強度値は、１で置き換えられる、(d) 全ての45000以上の強度値は、45000で置き換えられる、(e) 最大及び最小強度値が100以下で異なる全ての遺伝子は１で置き換える、のようにクリーンアップされる。これら327遺伝子表現プロファイルは、T-cell (T-ALL)、E2A-PBX1、TEL-AML1、MLL、 BCR-ABL、及び hyperdiploid (Hyperdip>50) を含む全ての既知の劇症リンパ球白血病サブタイプを含む。

図６に示すように、ツリー構造決定システムがこれらサンプルの分類に使われた。与えたサンプルに対して、それがT-ALLあるいは他のサブタイプのサンプルであるかどうかを分類するために最初に規則が用いられる。それが、T-ALLとして分類されるならば、処理は終える。それ以外は、プロセスは、サンプルがE2A-PBX1として、あるいは残りの他のサブタイプの１つかどうかを見るため、ツリーのレベル２に移動する。同様の理由で、このツリー基礎の決定プロセスは、サンプルがHyperdip>50 あるいは簡単に「OTHERS（その他）」.であるかを決定するレベル６で終わることができる。

サンプルは、２１５個のサンプルの「訓練セット」と１１２個の目隠し「試験セット」に分割される。図６によれば、更に各々の２セットを６個のペアのサブセットに分割する必要がある、１個は、ツリーの各々のレベルに対応する。
表Ｎ

表-Ｎの「OTHERS1」、「OTHERS2」、「OTHERS3」、「OTHERS4」、「OTHERS5」及び「OTHERS」は、表の２行目に示すように、１個以上のALLのサブタイプから成る。

例4.1:EP発生
エマージングパターンは、２個のステップで作成される。最初のステップは、訓練セットの12,558個の遺伝子の間から最も差別的遺伝子を選定する。第２ステップは、選定された遺伝子を基礎にエマージングパターンを作成する。

エントロピー基礎の遺伝子選定法が、遺伝子表現プロファイルに適用された。12,558個の遺伝子のほとんどが無視されるので、それは非常に有効であることを証明した。約1000個の遺伝子のみが分類に利用されるものとみなされた。10%選定率は、重要な規則を得るためのより簡単なプラットフォームを提供する。それにしても、1,000個ぐらいの遺伝子を手で検査することは、まだ退屈な仕事である。チイ・スクワード (χ^２) 法、H.リュー & R. セチオノ、「Chi2 : 機能選定と数値属性の離散化」、Proceedings of the IEEE 7^ｔｈInternational Conference on Tools with Artificial Intelligence、 338-391、(1995)、 H. ウイッテン& E. フランク、データマイニング: ジャバ装備を有する実務的機械学習ツールと技術、Morgan Kaufmann、San Mateo、CA、(2000)、及び相関基礎の機能選定（CFS）法、（ホール、相関基礎の機能選定機械学習、博士論文、 Department of Computer Science、University of waikato、Hamilton、New Zealand、(1998)及びウイッテン&フランク2000）が、重要遺伝子のための検索を更に狭めるために使われる。この研究で、もしCFS方法が20より大きくない数の遺伝子を返せば、そのとき、CFS-選定遺伝子は、エマージングパターンを得るために使用される。それ以外に、方法によるトップ２０ランクの遺伝子が、使われる。

この例では、特別なタイプのEP’s、ジャンピング「左側境界」EP’sと呼ぶ、が発見された。２個のデータセットD₁とD₂を与える、これらEP’sは、次の条件の満足を要求する：(i) D₁（あるいはD₂）内のそれら頻度は、ゼロでない、しかし、別のデータセットは、ゼロである。(ii) 固有サブセットは全てEPでない。ジャンピング左側境界EP’sは、EP’s間の大きい頻度を有するEP’sであることに留意。更に、ジャンピング左側境界EP’sのほとんどは、D₁とD₂双方内でゼロ頻度を持っていない限り、EP’sである。

最も差別的な遺伝子を選んで、離散化した後、BORDER-DIFF 及びJEP-PRODUCERアルゴリズム（ドン＆リー、ＡＣＭＳＩＧＫＤＤ、International Conference on Knowledge Discovery and Data Mining, San Diego, 43-52 （1999）、リー、正確で効率的な分類器の構築のためのマイニングエマージングパターン、博士論文、メルボルン大学、オーストラリア、(2001)、リー他、「ジャンピング・エマージングパターンの空間及びその漸増的な保守アルゴリズム」、Proceedings of 17th International Conference on Machine Learning、552-558、(2000))が、処理データセットからEP’sを発見するために利用された。ほとんどの操作は、境界であり、これらアルゴリズムは非常に効率的である。

例4.2 EP’sから得られた規則（ルール）
この章は、訓練データセットから発見したEP’sを報告する。パターンは、ALLの種々の遺伝子表現プロファイルを識別するために規則の形成に拡張されることが出来る。
T-ALL 対 OTHERS 1 に対する規則:

最初のデータセットペアーT-ALL 対 OTHERS1に対して、CFS法は、最も重要なものとして、ただ１個の遺伝子38319_atを選定した。離散化法は、この遺伝子の表現範囲を２個の区間(-∞, 15975.6) 及び [15975.6, +∞)に分割した。EP発見アルゴリズムを用いて、２個のEP’s {gene_₃₈₃₁₉__at@(-∞, 15975. 6)} 及び{ gene_₃₈₃₁₉__at@(15975. 6, +∞)}が得られた。先のものはT-ALLクラス内に100%頻度を、しかしOTHERS 1クラス内にゼロ頻度を有する、後のものは、T-ALLクラス内にゼロ頻度を、しかしOTHERS 1クラス内に100%頻度を有する。だから、私たちは、次の規則を有する。

もし、38319_atの表現が、15975.6,以下であれば、
このALLサンプルは、T-ALLでなければならない、
それ以外、
OTHERS1内のサブタイプでなければならない。

この簡単な規則は、例外なく、215 ALLサンプル(28個のT-ALL ＋ 187このOTHERS1)を規制する。

E2A-PBX1対OTHERS2に関する規則
また、E2A-PBX1対OTHERS2に対する簡単な規則がある。方法は、１個の遺伝子33355_atを拾い上げ、そして、それを２個の区間(-∞, 10966) 及び [10966, +∞)に離散化した。
{gene_₃₃₃₅₅__at@(-∞, 10966) } 及び{gene_₃₃₃₅₅__at@(10966, +∞)}が、それぞれE2A-PBX1 及び OTHERS2内で頻度100%を有するEP’sであると発見された。だから、これら187 個のALLのサンプル(18 個のE2A-PBX1 ＋ 169 個のOTHERS2)に対する規則は、

もし、33355_atの表現が、10966以下であれば、
このALLのサンプルは、E2A-PBX1でなければならない、
それ以外、
OTHERS2内のサブタイプでなければならない。

残りの４個のペアデータセットに対して、CFS法は、２０個以上の遺伝子を返す。だから、方法は、各々の４個のペアデータセットに対して、２０個のトップ・ランク遺伝子が選ぶために使われる。表O、表P、表Q及び表Rは、それぞれ、選ばれた遺伝子、それらの区分及び４個のペアデータセットに対する区間への索引をリストする。索引は、遺伝子の名前及びそれら区間に一致し、結合するので、索引を用いてEP’sを読み、書きするにより便利である。
表Ｏ

表Ｐ

表Ｑ

表Ｒ

選ばれた遺伝子の離散化後、４個のペアデータのそれぞれにEP’sの２個のグループが発見された。表-Ｓは、発見されたエマージングパターンの数を示す。表-Ｓの４行目は、発見されたエマージングパターンの数が比較的大きいことを示す。私たちは、それら頻度に従って、トップ１０個のEP’sをリストするために、別の４個の表、表-Ｔ、表-Ｕ、表-Ｖ及び表-Ｗを用いる。それらトップ１０のEP’sの頻度は、98. 94%に達することが出来、それらのほとんどは、80%付近である。トップにランク付けされたEPは、全てのクラスのサンプルをカバーしていないけれども、それはクラス全体を支配する。カウンターパートクラス内のそれらの不在は、トップにランク付けされたエマージングパターンが、クラスの性質を捕らえることが出来ることを実証する。
表Ｓ

表Ｔ

表Ｕ

表Ｖ

表Ｗ

どのようにEP’sを規則に通訳すべきかの実証として、TEL-AML1クラスの最初のEP、つまり、{2, 33}を検討する。表-Ｏの索引によれば、このEP内の２番目が38652_atの右側区間に合致する、そして38652_atの表現は、8,997. 35に等しいかそれより大きい条件にある。同様に３３番は、36937_s_atの左側区間に合致する、そして36937_s_atの表現は、13,617. 05より小さい条件にある。ゆえに、パターン{2, 33}は、TEL-AML1クラスの92. 31%（５２個のサンプルの内の４８個）が上記の２つの条件を満足するが、OTHERS3からは１個もこれら双方の条件を満足しないことを意味する。従って、この場合、全てのクラスは、トップ１０のEP’sのすこしの数で全部がカバーされる。これらEP’sは、望まれる規則である。

規則の信頼性をテストする重要な方法論は、それらを前もって不明のサンプル（つまり、目隠し試験サンプル）に適用することである。この例では、１１２個の目隠し試験サンプルが前もって用意された。試験結果の要約は次の通りである：

レベル１で、１５個のT-ALLサンプル全てが、正しくT-ALLとして予測された、９７個のOTHERS1サンプル全てが、正しくOTHERS1として予測された。

レベル２で、９個のE2A-PBX1サンプル全てが、正しくE2A-PBX1として予測された、８８個のOTHERS２サンプル全てが、正しくOTHERS２として予測された。

レベル３から６で、用いたEP’sの数に依存して、４−７個のサンプルのみに分類ミスがあった。大きな数のEP’sを用いることにより、誤差率は減少する。

レベル１及びレベル２の各々で１個の規則が発見された、これらの２つの規則を使うことに曖昧さはない。しかしながら、大きい数のEP’sが、ツリーの残りのレベルで見出された。従って、試験サンプルが、それ自身のクラスでEP’sを含むのみならずそのカウンターパートからもEP’sを含むので、信頼性のある予測には、カウンターパートEP’sから混乱信号を避ける「ホーム」クラスの多重高頻度EP’sを用いることが妥当である。だから、PCL法がレベル３から６に適用される。

複数の規則が用いられ、kを変えた時、試験精度が表-Ｘに示される。結果から、多重高頻度EP’s（あるいは多重の強い規則）がコンパクトで強力な尤度予測を提供することが出来ることを見ることが出来る。２０、２５及び３０のkで、合計４個の分類ミスが作られた。４個の試験サンプルのIDは、ヤオ他、アメリカ血液学会43回年度会議、２００１の表現方法を用いて、94-0359-U95A、 89-0142-U95A、 91-0697-U95A 及び 96-0379-U95Aである。
表Ｘ

多重・クラス予測への一般化
BCR-ABLテストサンプルは、トップ２０のBCR-ABL判別器の全てのほとんどを含んでいた。そして、19.6のスコアがそれに割り当てられた。いくつかのトップ２０「OTHERS」判別器と一緒にトップ２０リストを越えるいくつかが、また、この試験サンプルに含まされた。そして、別のスコア6.97が割り当てられた。この試験サンプルは、E2A-PBXL、 Hyperdip>50 あるいは T-ALLの判別器は一切含まれなかった。そして、スコアは次の表-Ｙになる。
表Ｙ

従って、このBCR-ABLサンプルは、非常に高い信頼性で、正しくBCR-ABLとして予測された。この方法によって、kを１５から３５まで変えた時、総数１１２個の試験サンプルに対して６から８個のみの分類ミスであった。しかしながら、C4.5、SVM、NB, 及び 3-NNは、それぞれ２７、２６、２９及び１１個のミスがあった。

分類への改善
レベル１及びレベル２で、１個のみの遺伝子が分類及び予測に使用された。記録データ中の人的誤差や、まれだが存在するDNAチップによる機械的誤差などの可能な誤差を克服するために、１個以上の遺伝子が、システムを強力にするために使われ得る。

離散化方法によって分割される時、レベル１で、事前に選定された１個の遺伝子38319_atは、ゼロのエントロピーを有する。ゼロのエントロピーを有する他の遺伝子は無いことがわかる。そして、χ²法によりランク付けされたトップ２０の遺伝子が、T-ALL及び OTHERS 1試験サンプルを分類するために選ばれた。これから、９６個のEP’sと１４６個のEP’sが、それぞれT-ALL及び OTHERS 1クラス内で発見された。予測方法を用いて、目隠し試験サンプルに関して同じ完全精度100%が、単一の遺伝子が用いられた時のように達せられる。

レベル２で、離散化方法によって分割された時、ゼロエントロピーを有する総計５個の遺伝子がある。５個の遺伝子の名前は、430_at、1287_at、33355_at、41146_at及び 32063_atである。33355_atは、事前選定の１個の遺伝子であることに留意。５個の遺伝子全ては、それぞれ次のカットポイント、30,246.05、34,313.9、10,966.25、842.15及び 4,068.7、で２個の区間に分割される。エントロピーゼロとして、頻度100%を有するE2A-PBX1クラス及び OTHERS2クラス内で５個のEP’sがある。PCL予測法を用いて、全試験サンプル（レベル２で）がミス無しで正しく分類された、再度完全100%制度が達成した。

他の方法との比較
表-Ｚにおいて、予想精度が、同じ選定された遺伝子及び同じ訓練及び試験サンプルを用いて、k-NN、C4.5、NB及び SVM法によって達成された精度と比較される。PCL法は、C4.5の 14から71 %、NBの8から50%、k-NNの7から43%及びSVMの6.1から33%の分類ミスを減じた。医療取り扱いの観点から、この誤差の減少は、大いに患者のためになる。
表Ｚ

最初に議論したように、SVM、NB及びk- NNに対してPCL方法の明らかな利点は、意味ある及び信頼性のあるパターンと規則が得られることである。それらのエマージングパターンは、新しい洞察を遺伝子の相関と相互作用に提供することが出来、そして単に分類ができるというより更に詳細なサンプルの理解を手伝うことができる。C4.5は、同様な規則を発生できるが、時々悪く作用し（例えば、レベル６）、その規則は信頼性がない。

トップの20の遺伝子の使用の査定
最も重要な遺伝子の確認のための努力や計算がなされた。実験結果は、選定されたトップ遺伝子あるいはトップ２０の遺伝子がPCL予測法で非常に有用であることが示された。しかしながら、選定された遺伝子の品質を判定する他の方法が可能である。この場合、２０個の遺伝子あるいは１個の遺伝子がランダム（無作為）に拾い上げられ、精度の差異が調査される。

手順は、(a)：レベル１及びレベル２で１個の遺伝子をランダムに選び、そして残りの４レベルの各々でランダムに２０個の遺伝子を選ぶ、(b)：SVM及び k-NNを走らす、各々のレベルの試験サンプルに関するそれら精度を得る、及び(c)：(a)と(b)を１００回繰り返す、そして平均と他の統計を計算する。

表-ＡＡは、SVMとK-NNによる１００回実験の最小、最大及び平均精度を示す。比較のために、ダミー分類器が、またリストされる。ダミー分類器によって、２個のアンバランスなクラスのデータが与えられたとすると、全ての試験サンプルは、大きいクラスとして平凡に予測される。次の２つの重要な事実が明らかになる。第１は、全ての平均精度はそれらダミー精度より低いか、わずかに大きい。第２は、全ての平均精度は著しく(少なくとも9%)選定遺伝子基準の精度より低い。差異は30%に達する。ゆえに、遺伝子選定方法は、予測方法で効率的に動作する。機能選定方法は、信頼の高い正確な予測モデルが確率される前の重要な基本ステップである。
表ＡＡ

12,558個の遺伝子を持つオリジナルデータが予測法に適用されれば、また、精度の高い計算が可能である。実験結果は、遺伝子選定方法がまた大きな差異を生むことを示す。オリジナルデータに対して、SVM、k-NN、NB及び C4.5法は、それぞれ目隠し試験サンプルに関して２３、２３、６３及び２６個の分類ミスを作る。これらの結果は、減少データがそれぞれSVM、k-NN、NB及び C4.5法に適用されると、誤差率６、７、８及び１３より更に悪い。従って、遺伝子選定方法は、信頼度のある予測モデルの確率のために重要である。

最後に、エマージングパターン基礎の方法は、特に遺伝子表現ファイルの分類に適用した時、高い精度と簡単な翻訳の双方に利点を有する。ALLサンプルの大きな集合の試験の時、方法は、精度良くそのサブタイプの全てを分類し、そして誤差率は、C4. 5、NB、SVM及びK-NNに比べて著しく小さい。試験は、訓練用でおおよそデータの2/3が、目隠し試験用で残りの1/3を使うことで実行された。事実、誤差率の同様な改善が、表-ＢＢに示すように、また、訓練データに関して10・フォールド・クロス・バリデーション（10-fold cross validation）試験において観察された。
表ＢＢ

本発明の精神及び範囲を逸脱しないで、ここに開示した発明を実現するために構成要素の変更や修正を与えても良いことは明らかであろう。たとえば、種々の変数、データセット、コンピュータ読み込みメデイア、計算装置の利用は全て、本発明の範囲である。だから、そのような追加の具体例も本発明及びここに要求する特許請求の範囲内である。

本発明のコンピュータシステムを示す。座標システム上でサポートがいかに表現されるかを示す。第１クラス及び第２クラスのデータにあるサンプルTの尤度集合を予測（PCL）するための本発明による方法を描写する。２個のクラスのデータの発生の順序によるソートされた、エマージングパターンを得る表現方法を描写する。エマージングパターンを用いて、Tがクラスのデータにある尤度予測を計算する方法を示す。劇症リンパ腺白血病「全」サンプルの６個以上のサブタイプを予測するためのツリー構造システムを示す。

符号の説明

112：ファイルシステム
114：アプリケーションプログラム
118：統計分析ツール
120：ソーティングツール
122：エマージングパターン
124：発生頻度
126：データセットD
128：第一クラスD1
130：第二クラスD2
132：試験データＴ
202：EP’s及びD1、D2における発生頻度抽出
204：EP’s及びＴにおける発生頻度抽出
206：D1あるいはD2であるＴの尤度集合予測

Claims

nが２又はそれ以上であるn個のクラスのひとつに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法であって、
少なくとも、各々の前記n個のクラスのデータの１個の実例を有する訓練データセットＤから、複数のエマージングパターンを抽出すること、
n個のリストを作成すること、そこでは、
前記n個のリストのi番目のリストが、i番目のクラスのデータ内のゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンEP_i（m）の発生頻度f_i(m)を含む、ことを特徴とし、
kは、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、n個のスコアの計算すること、そこでは、
前記n個のスコアのi番目のスコアを、また前記試験データで発生する前記i番目のスコアのk個のエマージングパターンの頻度から得ることを特徴とし、
そして
前記n個のスコアのもっとも高いものを選ぶことにより、試験データが、前記n個のクラスのデータのどこに分類されるかを推論すること、
から成る、nが２又はそれ以上であるn個のクラスのひとつに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法。
加えるに、最も高いスコアを持つものが１クラス以上あれば、最も高いスコアを持つデータのクラスの最大を選ぶことにより、試験データが、前記n個のクラスのデータのどこに分類されるかが推論されることを特徴とする請求の範囲第１項記載の方法。
前記試験データに発生するi番目のリストの前記k個のエマージングパターンは、全iに対して、前記試験データに発生する前記i番目のそれら全てのエマージングパターン間の前記i番目のリストにおける発生頻度の最大を持つことを特徴とする請求の範囲第１又は２項記載の方法。
i番目のリストのエマージングパターンは、全iに対して、前記i番目のクラスのデータの前記発生頻度の降順に並べられることを特徴とする請求の範囲前記いずれかの請求項記載の方法。
i番目のリストは、長さl_iを有し、kは、最小l_iの固定比率であることを特徴とする請求の範囲前記いずれかの請求項記載の方法。
i番目のリストは、長さl_iを有し、 kは、比率が次の式である：

ことを特徴とする請求の範囲第１から４項のいずれかに記載の方法。
i番目のリストは、長さl_iを有し、 kは、l_iのあらゆる比率であることを特徴とする請求の範囲第１から４項のいずれかに記載の方法。
前記固定比率は、約１％から約５％であり、そしてkは最も近い整数に丸められることを特徴とする請求の範囲第５から７項のいずれかに記載の方法。
n＝２である、
ことを特徴とする請求の範囲前記いずれかの請求項記載の方法。
n＝３またはそれ以上である、
ことを特徴とする請求の範囲第１から８項のいずれかに記載の方法。
第１クラスあるいは第２クラスに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法であって、
少なくとも、第１クラスデータの１個の実例と第２クラスデータの１個の実例を有する訓練データセットＤから、複数のエマージングパターンを抽出すること、
第１及び第２リストを作成すること、そこでは、
前記第１リストは、前記第１クラスのデータのゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンＥＰ₁（m）の発生頻度f₁(m)を含み、
前記第２リストは、前記第２クラスのデータのゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンＥＰ_２（m）の発生頻度f_２(m)を含む、ことを特徴とし、
kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、
また前記試験データで発生する前記第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、
また前記試験データで発生する前記第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算すること、
前記第１および第２スコアの高いものを選ぶことにより、試験データが、前記第１クラスあるいは第２クラスのデータに分類されるかどうかを推論すること、
から成る、第１クラスあるいは第２クラスに、試験データＴを有する試験サンプルが分類されるかどうかを決定する方法。
加えるに、前記第１スコアと前記第２スコアが同じであれば、第１及び第２クラスのデータの大きいものを選ぶことにより、試験サンプルが、前記第１あるいは第２クラスのデータに分類されるかどうかが推論されることから成る請求の範囲第１１項記載の方法。
前記試験データに発生する前記第１リストの前記k個のエマージングパターンは、前記試験データに発生する前記第１リストのそれらエマージングパターンの全ての間の前記第１リストにおける最高発生頻度を有する、そして、前記試験データに発生する前記第２リストの前記k個のエマージングパターンは、前記試験データに発生する前記第２リストのそれらエマージングパターンの全ての間の前記第２リストにおける最高発生頻度を有することを特徴とする請求の範囲第１１あるいは１２項記載の方法。
前記第１リストのエマージングパターンは、前記第１クラスのデータにおける前記発生頻度の降順に並べられ、前記第２リストのエマージングパターンは、前記第２クラスのデータにおける前記発生頻度の降順に並べられることを特徴とする請求の範囲第１１から１３項のいずれかに記載の方法。
加えるに、第三リスト及び第四リストの作成することから成り、そこでは、
前記第三リストは、また前記試験データに発生し、そして前記第１クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンi_mの前記第１クラスのデータにおける発生頻度f₁ (i_m）を含み、
前記第四リストは、また前記試験データに発生し、そして前記第２クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンj_mの前記第２クラスのデータにおける発生頻度f₂(j_m）を含む、ことを特徴とし、そして
前記第三リストのエマージングパターンは、第１クラスのデータの前記発生頻度の降順に並べられ、そして
前記第四リストのエマージングパターンは、第２クラスのデータの前記発生頻度の降順に並べられる、
ことを特徴とする請求の範囲第１１から１４項のいずれかに記載の方法。
前記第１スコアは、次の式で与えられる：

前記第２スコアは、次の式で与えられる：

ことを特徴とする請求の範囲第１５項記載の方法。
前記第１リストは、長さl₁を有し、前記第２リストが長さl_２を有し、そしてkは、l₁及びl_２のどちらかよりも小さい固定比率であることを特徴とする請求の範囲第１１から１６項のいずれかに記載の方法。
前記第１リストは、長さl₁を有し、前記第２リストが長さl_２を有し、そしてkは、l₁及びl_２の合計の固定比率であることを特徴とする請求の範囲第１１から１６項のいずれかに記載の方法。
前記第１リストは、長さl₁を有し、前記第２リストが長さl_２を有し、そしてkは、l_１あるいはl_２のいずれかの固定比率であることを特徴とする請求の範囲第１１から１６項のいずれかに記載の方法。
前記固定比率は、約１％から約５％であり、そしてkは最も近い整数に丸められることを特徴とする請求の範囲第１１から１７項のいずれかに記載の方法。
kは、約５から約５０であることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
kは、約２０であることを特徴とする請求の範囲２１項に記載の方法。
各々のエマージングパターンは、状態の結合として表現されることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
左側境界のエマージングパターンのみが用いられることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
プラトーエマージングパターンのみが用いられることを特徴とする請求の範囲第１から２３項のいずれかに記載の方法。
最も特定的プラトーエマージングパターンのみが用いられることを特徴とする請求の範囲第２５項に記載の方法。
各々の前記エマージングパターンは、閾値、ρより大きい成長率を有することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
前記閾値は、約２から約１０であることを特徴とする請求の範囲第２７項に記載の方法。
各々の前記エマージングパターンは、無限大の成長率を有することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
加えるに、前記抽出の前に、前記データセットを離散化することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
前記離散化は、エントロピー基礎の方法を利用することを特徴とする請求の範囲第３０項に記載の方法。
前記離散化の後、相関基礎の機能選択方法を前記データセットに適用することを特徴とする請求の範囲第３０及び３１項に記載の方法。
加えるに、前記離散化の後、チイ・スクアード（Chi-Squared）方法を前記データセットに適用することを特徴とする請求の範囲第３０及び３１項に記載の方法。
前記データセットは、遺伝子表現データから構成されることを特徴とする前記請求の範囲のいずれかの項に記載の方法。
前記遺伝子表現データは、マイクロアレイ装置から獲得されることを特徴とする請求の範囲第３４項に記載の方法。
すくなくとも、１個のクラスデータは、第１タイプのセルに対応し、すくなくとも、別のクラスデータは、第２タイプのセルに対応することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
前記第１タイプのセルは、正常なセルであり、そして、前記第２タイプのセルは、癌セルであることを特徴とする請求の範囲第３６項に記載の方法。
少なくとも、１個のクラスデータは、対象の第１母集団に対応し、少なくとも、別のクラスデータは、対象の第２母集団に対応することを特徴とする前記請求の範囲のいずれかの項に記載の方法。
前記データセットは、患者の医療記録から成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、金融取引から成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、国勢調査データから成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、食品、製造品、そして原料からなるグループから選定された項目の特徴から成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、環境のデータから成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、気象データから成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、有機体（生物）の母集団の特徴から成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
前記データセットは、マーケテイングデータから成ることを特徴とする請求の範囲第１から３３項のいずれかに記載の方法。
試験データが存在する試験サンプルが、第１のクラスあるいは第２のクラスに分類されるかどうかを決定するためのコンピュータプログラム製品であって、
コンピュータプログラム製品は、コンピュータシステムに関連して用いられるものであり、
コンピュータプログラム製品は、コンピュータの読み出し可能な蓄積媒体とそこにはめ込まれたコンピュータプログラム機構から成り、
コンピュータプログラム機構は、
少なくとも１個の統計分析ツールと、
少なくとも１個のソーティングツールと、
少なくとも第１クラスのデータの１個の実例と、少なくとも第２クラスのデータの１個の実例とを有するデータセットにアクセスするための制御命令と、
前記データセットから複数のエマージングパターンを抽出することと、
第１リストと第２リストの作成、そこでは、
各々の前記複数のエマージングパターンに対して、
第１リストは、前記第１クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽¹⁾を含み、
第２リストは、前記第２クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽²⁾を含む、ことを特徴とし、
kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、
また前記試験データで発生する前記第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、
また前記試験データで発生する前記第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算し、
前記第１および第２スコアの高いものを選ぶことにより、試験データが、前記第１クラスあるいは第２クラスのデータに分類されるかどうかを推論することから成る、
試験データが存在する試験サンプルが、第１のクラスあるいは第２のクラスに分類されるかどうかを決定するためのコンピュータプログラム製品。
加えるに、前記第１スコアと前記第２スコアが同じであれば、第１及び第２クラスのデータの大きいものを選ぶことにより、試験サンプルが、前記第１あるいは第２クラスのデータに分類されるかどうかが推論される、制御命令から成る請求の範囲第４７項に記載のコンピュータプログラム製品。
前記試験データに発生する前記第１リストの前記k個のエマージングパターンは、前記試験データに発生する前記第１リストのそれらエマージングパターンの全ての間の前記第１リストにおける最高発生頻度を有する、そして、前記試験データに発生する前記第２リストの前記k個のエマージングパターンは、前記試験データに発生する前記第２リストのそれらエマージングパターンの全ての間の前記第２リストにおける最高発生頻度を有することを特徴とする請求の範囲第４７あるいは４８項に記載のコンピュータプログラム製品。
更に、前記第１リストのエマージングパターンを、前記第１クラスのデータにおける前記発生頻度の降順に並べ、前記第２リストのエマージングパターンを、前記第２クラスのデータにおける前記発生頻度の降順に並べる、制御命令から成る請求の範囲第４７から４９項のいずれかに記載のコンピュータプログラム製品。
加えるに、第三リスト及び第四リストの作成する：そこでは、前記第三リストは、また前記試験データに発生し、そして前記第１クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンimの前記第１クラスのデータにおける発生頻度f₁(i_ｍ）を含み、前記第四リストは、また前記試験データに発生し、そして前記第２クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンjmの前記第２クラスのデータにおける発生頻度f_２(j_ｍ）を含む、ことを特徴とし、そして前記第三リストのエマージングパターンは、第１クラスのデータの前記発生頻度の降順に並べられ、そして前記第四リストのエマージングパターンは、第２クラスのデータの前記発生頻度の降順に並べられる、ことを特徴とする：制御命令から成る請求の範囲第４７から５０項のいずれかに記載のコンピュータプログラム製品。
更に、前記第１スコアは、次の式：

前記第２スコアは、次の式：

で計算する、命令から成る請求の範囲第５１に記載のコンピュータプログラム製品。
kは、約５から約５０であることを特徴とする請求の範囲第４７から５２項のいずれかに記載のコンピュータプログラム製品。
左側境界のエマージングパターンのみが用いられることを特徴とする請求の範囲第４７から５３項のいずれかに記載のコンピュータプログラム製品。
各々の前記エマージングパターンは、無限大の成長率を有することを特徴とする請求の範囲第４７から５４項のいずれかに記載のコンピュータプログラム製品。
前記データセットは、遺伝子表現データ、患者の医療記録、金融取引、国勢調査、製造品の特徴、食品の特徴、原材料の特徴、気象データ、環境データ及び有機体（生物）母集団の特徴から成るグループから選定されたデータから成ることを特徴とする請求の範囲第４７から５５項のいずれかに記載のコンピュータプログラム製品。
試験データが存在する試験サンプルが、第１のクラスあるいは第２のクラスに分類されるかどうかを決定するためのシステムであって、
システムは、
少なくとも１個のメモリと、
少なくとも１個のプロセッサーと、
少なくとも１個のユーザーインターフェースとから成り、
全ては、少なくとも１個のバスで互いに接続され、
そこでは、前記少なくとも１個のプロセッサーは、
少なくとも第１クラスのデータの１個の実例と少なくとも第２クラスのデータの１個の実例を有するデータセットをアクセスと、
前記データセットから複数のエマージングパターンを抽出と、
第１リストと第２リストの作成とを行うことを特徴とし、
そこで、
各々の前記複数のエマージングパターンに対して、
第１リストは、前記第１クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i ⁽¹⁾を含み、
第２リストは、前記第２クラスのデータ内でゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度ｆ_i( ²⁾を含み、
kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用い、
また前記試験データで発生する前記第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、
また前記試験データで発生する前記第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算し、
前記第１および第２スコアの高いものを選ぶことにより、試験データが、前記第１クラスあるいは第２クラスのデータに分類されるかどうかを推論すること
を特徴とする
試験データが存在する試験サンプルが、第１のクラスあるいは第２のクラスに分類されるかどうかを決定するためのシステム。
加えるに、前記プロセッサーは、前記第１スコアと前記第２スコアが同じであれば、第１及び第２クラスのデータの大きいものを選ぶことにより、試験サンプルが、前記第１あるいは第２クラスのデータに分類されるかどうかの推論を実行することを特徴とする請求の範囲第５７項に記載のシステム。
前記試験データに発生する前記第１リストの前記k個のエマージングパターンは、前記試験データに発生する前記第１リストのそれらエマージングパターンの全ての間の前記第１リストにおける最高発生頻度を有する、そして、前記試験データに発生する前記第２リストの前記k個のエマージングパターンは、前記試験データに発生する前記第２リストのそれらエマージングパターンの全ての間の前記第２リストにおける最高発生頻度を有することを特徴とする請求の範囲第５７あるいは５８項に記載のシステム。
加えるに、前記プロセッサーは、前記第１リストのエマージングパターンを、前記第１クラスのデータにおける前記発生頻度の降順に並べ、前記第２リストのエマージングパターンを、前記第２クラスのデータにおける前記発生頻度の降順に並べる、ことを実行することを特徴とする請求の範囲第５７、５８あるいは５９項に記載のシステム。
加えるに、前記プロセッサーは、第三リスト及び第四リストの作成を、実行し、
そこでは、
前記第三リストは、また前記試験データに発生し、そして前記第１クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンi_mの前記第１クラスのデータにおける発生頻度f₁(ｉ_ｍ）を含み、
前記第四リストは、また前記試験データに発生し、そして前記第２クラスのデータにゼロでない発生を有する前記複数のエマージングパターンから各々のエマージングパターンj_mの前記第２クラスのデータにおける発生頻度f_２(j_ｍ）を含む、ことを特徴とし、そして
前記第三リストのエマージングパターンは、第１クラスのデータの前記発生頻度の降順に並べられ、そして
前記第四リストのエマージングパターンは、第２クラスのデータの前記発生頻度の降順に並べられる、ことを特徴とすることを特徴とする請求の範囲第５７から６０項のいずれかに記載のシステム。
加えるに、前記プロセッサーは、
前記第１スコアを、次の式：

前記第２スコアを、次の式：

で計算することを、実行することを特徴とする請求の範囲第６１項に記載のシステム。
kは、約５から約５０であることを特徴とする請求の範囲第５７から６２項のいずれかに記載のシステム。
左側境界のエマージングパターンのみが用いられることを特徴とする請求の範囲第５７から６３項のいずれかに記載のシステム。
各々の前記エマージングパターンは、無限大の成長率を有することを特徴とする請求の範囲第５７から６４項のいずれかに記載のシステム。
前記データセットは、遺伝子表現データ、患者の医療記録、金融取引、国勢調査、製造品の特徴、食品の特徴、原材料の特徴、気象データ、環境データ及び有機体（生物）母集団の特徴から成るグループから選定されたデータから成ることを特徴とする請求の範囲第５７から６５項のいずれかに記載のシステム。
サンプルセルが癌かどうかを決める方法であって、
複数の癌セルに対する遺伝子表現データと複数の正常セルに対する遺伝子表現データから成るデータセットから複数のエマージングパターンを抽出することと、
第１リスト及び第２リストを作成すること、
そこでは、
前記第１リストは、前記癌セル内のゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度f_i ^(１)を含み、
前記第２リストは、前記正常セル内のゼロでない頻度を有する前記複数のエマージングパターンから各々のエマージングパターンiの発生頻度f₂ ⁽²⁾を含む、ことを特徴とする、と、
kが、複数のエマージングパターンでのエマージングパターンの総数よりも本質的に少ない数である、固定数kのエマージングパターンを用いて、
また前記試験データで発生する前記第１リストのk個のエマージングパターンの頻度から得られる第１スコアと、
また前記試験データで発生する前記第２リストのk個のエマージングパターンの頻度から得られる第２スコアと、を計算することと、
前記第１スコアが、前記第２スコアよりも高い場合、サンプルデータが、癌かどうかを推論する、
ことから成るサンプルセルが癌かどうかを決める方法。
試験データＴを有する試験サンプルが、本質的に多数のクラスの１つに分類されるどうかを決める方法であって、前条に記載したように、および、添付の図面に記載されたように、なされた試験データＴを有する試験サンプルが、本質的に多数のクラスの１つに分類されるどうかを決める方法。
請求の範囲第４７から５６項のいずれかに記載のコンピュータプログラム製品であって、請求の範囲第１から４６および６７、６８項のいずれかに記載の方法によって動作可能である請求の範囲第４７から５６項のいずれかに記載のコンピュータプログラム製品。
コンピュータプログラム製品であって、請求の範囲第１から４６および６７、６８項のいずれかに記載の方法によって動作可能であるコンピュータプログラム製品。
試験データが存在する試験サンプルが、多数のクラスの１つに分類されるどうかを決めるためのコンピュータプログラム製品であって、前条に記載したように、および、添付の図面に記載されたように、本質的に動作するために構成され配置された、試験データが存在する試験サンプルが、多数のクラスの１つに分類されるどうかを決めるためのコンピュータプログラム製品。
請求の範囲第５７から６６項のいずれかに記載のシステムであって、請求の範囲第１から４６および６７、６８項のいずれかに記載の方法によって動作可能である、請求の範囲５７から６６項のいずれかに記載のシステム。
試験データが存在する試験サンプルが、多数のクラスの１つに分類されるどうかを決めるためのシステムであって、前条に記載したように、および、添付の図面に記載されたように、本質的に動作するために構成され配置された、試験データが存在する試験サンプルが、多数のクラスの１つに分類されるどうかを決めるためのシステム。
システムであって、請求の範囲第１から４６および６７、６８項のいずれかに記載の方法によって動作可能であるシステム。
請求の範囲第５７から６６および７１から７３項のいずれかに記載のシステムであって、請求の範囲第４７から５６および６９から７１項のいずれかに記載のコンピュータプログラム製品を利用する、請求の範囲第５７から６６および７１から７３項のいずれかに記載のシステム。