JPH0934716A

JPH0934716A - ルール誘導方法

Info

Publication number: JPH0934716A
Application number: JP8176117A
Authority: JP
Inventors: William W Cohen; ダブリュー．コーエンウィリアム
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-07-07
Filing date: 1996-07-05
Publication date: 1997-02-07
Also published as: EP0752648A1; CA2179211A1; US5719692A

Abstract

(57)【要約】【課題】高ノイズデータセットに対するデータアイテ
ムを分類するのに使用されるルールを誘導する方法を提
供する。【解決手段】各ルールを誘導し、剪定し、停止条件に
至るまで継続することにより分類ルールのセットを生成
するＩＲＥＰ法を剪定停止のルール・値距離とルールセ
ットの記述長さに左右される停止条件とにより改良す
る。改良法により得られるルールセットは、記述長さを
最小にするためにセットからルールを剪定することによ
り最適化され、かつ、各ルールについて置換ルール及び
修正ルールを作成し、ルールセット内で置換ルール、修
正ルール又はオリジナルルールを使用するか否か決定す
るために記述長さを使用することにより更に最適化され
る。オリジナルセットによりカバーされないデータアイ
テムのルールを誘導し、これらのルールを剪定すること
により更に改良される。カバーされないデータアイテム
のルールを誘導するステップを反復し、ルールを剪定
し、ルールを最適化し、所定回数再度剪定することによ
り更に改良される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は機械学習技術に関す
る。更に詳細には、本発明は高ノイズな巨大データ群を
効率的に分類する分類ルールを含む機械学習技術に関す
る。

【０００２】

【従来の技術】

機械分類：図１最も普遍的な人間活動の一つは分類である。例えば、一
群のオブジェクトがあると、人はこのオブジェクトの属
性に従ってこれらのオブジェクトを複数のサブセットに
分類する。例えば、このオブジェクトが請求書である場
合、人は支払日の属性に従ってこれらの請求書を分類す
る。例えば、支払期日を過ぎた請求書は一つのサブセッ
トを構成し、期日の来た請求書は別のサブセットを構成
し、未だ支払期日の来ない請求書は更に別のサブセット
を構成するように分類する。

【０００３】分類は常に手間暇の掛かる厄介な作業であ
り、その結果、技術により可能化された程度にまで常に
機械化されている。デジタルコンピュータが開発される
と、このコンピュータは直ちに分類作業に適用された。
図１は従来技術による分類システム１０１を示す。分類
システム１０１はデジタルプロセッサ１０５と、デジタ
ルデータを記憶するためのメモリシステム１０３により
構成されている。メモリ１０３は未分類データ１０７と
分類器１１１を有する。

【０００４】未分類データ１０７は一連のデータアイテ
ム１０８である。各データアイテム１０８は多数の属性
１１７（０．．．ｎ）に関する属性値１１８（０．．．
ｎ）を含む。前記の請求書例では、請求書を示すデータ
アイテム１０８の属性１１７（ｉ）は請求書の支払期日
及びその過ぎ去った支払期日を含み、所定のデータアイ
テム１０８の属性値１１８（ｉ）は支払期日及びこのデ
ータアイテムにより示される請求書に関する過ぎ去った
支払期日を含む。

【０００５】分類器１１１は分類器プログラム１１５を
含む。次に、システム１０１の動作を説明する。プロセ
ッサ１０５は分類器プログラム１１５を実行する。分類
器プログラム１１５は未分類データ１０７から各データ
アイテム１０８をプロセッサ１０５に読み出し、データ
アイテム１０８を分類し、そのクラス１１０に従って既
分類データ１０９に配置する。前記の請求書例では、３
種類のクラス１１０（支払期日未了、期日及び期日経
過）が存在する。

【０００６】分類ロジックがプログラムに構築されるよ
うに分類器プログラム１０５を構築することもできる
が、分類ロジック１１３とプログラムを分離させるのが
一般的である。そのため、様々な種類のアイテムを分類
するプログラムを使用するのに必要なことは、分類ロジ
ック１１３を変更することだけである。分類ロジック１
１３の一つの共通種は一組のルール１１９である。各ル
ールは一連の論理表現１２１とクラス指定子１２３から
なる。

【０００７】各論理表現１２１は分類されるデータアイ
テムの属性１２５、＝，＜，＞，≦又は≧のような論理
オペレータ及び属性１２５の値と比較されるべき値１３
１を有する。請求書例について更に説明すれば、請求書
の分類器論理１１３は次の３種類のルールから構成され
ている。ｐａｓｔｄｕｅｄａｔｅ＜ｃｕｒｒｄａｔｅ
−−＞期日経過ｄｕｅｄａｔｅ＝＜ｃｕｒｒｄａｔｅ及びｐａｓｔｄｕｅｄａｔｅ＞＝ｃｕｒｒｄａｔ
ｅ −−＞期日ｄｕｅｄａｔｅ＞ｃｕｒｒｄａｔｅ −−＞
期日未了

【０００８】−−＞記号の右側の表現が、ルールがデー
タアイテムに割り当てるクラスである。左側の表現は一
連の論理表現である。データアイテムを分類するため
に、全ての論理表現が真であることが発見されるまで、
分類器プログラム１１５はルール１１９をデータアイテ
ムに適用する。例えば、請求書の支払期日が６月１日で
あり、経過支払期日が６月１５日であり、現在日が６月
８日である場合、前記のルールセットに従ってプログラ
ム１１５を実行すると、前記の第２のルールが請求書の
データアイテムに適用され、その結果、請求書を“期
日”であると分類する。

【０００９】分類器論理１１３の誘導：図２請求書分類システムと同様に単純な事例の分類器論理１
１３の構築は人手により容易に行われる。しかし、分類
システムが複雑になるにつれて、分類器論理１１３の構
築を自動化する必要性が出てくる。従って、それぞれの
分類が付された一組のデータアイテムから一組のルール
を誘導するシステムが開発された。

【００１０】図２はこのようなシステム２０１を示す。
システム２０１もプロセッサとメモリから構成されてい
る。システム２０１は、既分類データ２１０と誘導プロ
グラム２０５を含む。既分類データ２０１は単純な一組
のデータアイテム１０８であり、各データアイテム１０
８は分類されている。２０３に示されるように、各既分
類データアイテム２０３は、多数の属性に関する値及び
データアイテムが属するクラスのクラス指定子１２３を
含む。分類器論理１１３は既分類データ２０１について
誘導プログラム２０５を実行することにより生成され
る。

【００１１】分類器論理１１３を誘導する２つの公知技
術が存在する。第１の技法では、誘導プログラム２０５
は、最初は、データを正しく分類するのに最適な論理よ
りも一層大量の論理を包含し、その後、そのサイズを低
下させるために分類器論理１１３を剪定する分類器論理
１１３を構築することにより始まる。第２の技法では、
分類器論理１１３はピース毎に構築され、分類器論理１
１３が正しいサイズに到達した時点で、構築が終了され
る。

【００１２】分類器論理１１３が最初必要な個数よりも
非常に多量に生成され、その後剪定される第１の技法は
Ｃ４．５システムにより例証される。このＣ４．５シス
テムは、J.Ross Quinlan, C4.5: Programs for Machine
Learning, Morgan Kaufman,San Mateo, CA, 1993に記
載されている。このシステムでは、誘導プログラム２０
５は、データを正しく分類する既分類データ２０１から
デシジョンツリーを生成し、その後、このデシジョンツ
リーを剪定する。

【００１３】Ｃ４．５ＲＵＬＥＳと呼ばれるＣ４．５の
或るバージョンは、根本から各葉まで順に走査すること
により、非剪定デシジョンツリーを一組のルールに変換
する。葉までの各走査の結果はルールである。次いで、
一組のルールを剪定し、同様にデータを正しく分類する
一層小さなサイズの一組のルールを生成する。

【００１４】この技術の欠点は、巨大で高ノイズなデー
タ群についてはうまく作用しないことである。機械学習
コンテクストでは、高ノイズデータセットは、所定のル
ールにより生成された分類が全く正しいものである一組
のルールを生成することは出来ず、むしろ、所定のルー
ルにより生成された分類が概ね正しいものである一組の
ルールの生成しかできない。実例データセットのサイズ
及び／又はノイズ性が増大するにつれて、計算時間及び
メモリスペースの両方の点から、この技術は高コスト的
になる。

【００１５】計算時間に関して、この技術の時間要件は
漸近的にＯ（ｎ⁴）に近ずく。ここで、ｎは既分類デー
タ２０１における既分類データアイテムの個数である。
メモリスペースに関して、この技術は、全体的デシジョ
ンツリーをメモリ内に構築することを必要とし、ルール
バージョンの場合には、デシジョンツリーから生成され
た全てのルールのための記憶スペースが存在しなければ
ならない。２種類のデータアイテムしか存在しない問題
については若干の改善が可能であるが、更に改善された
技術はＯ（ｎ³）時間及びＯ（ｎ²）スペースを必要とす
る。

【００１６】第２の技法は計算時間及びメモリスペース
については非常に安価である。増分エラー低減剪定(Inc
remental Reduced Error Pruning)又はＩＲＥＰと呼ば
れるこの技術は、Johannes Furnkranz and Gerhard Wid
mer, "Incremental reducederror pruning", in : Mach
ine Learning: Proceedings of the Eleventh Annual C
onference, Morgan Kaufmann, New Brunswick, NJ, 199
4に詳細に説明されている。

【００１７】ＩＲＥＰは、一度に一つのルール毎に、一
組のルールとして分類器論理１１３を構築する。ルール
が発見された後、ルール（ポジティブ及びネガティブの
両方）によりカバーされる全ての事例を既分類データ２
０１から削除する。この処理は、ポジティブ事例が存在
しなくなるまで、又はＩＲＥＰにより発見された最後の
ルールが受け入れ不能なほど大きな誤り率を有するまで
繰り返される。

【００１８】ルールを構築するために、ＩＲＥＰは下記
のような戦略を使用する。先ず、どんなルールにもカバ
ーされない既分類データ２０１からの事例を、成長セッ
トと剪定セットの２つのサブセットにランダムに区分け
する。

【００１９】次に、ＦＯＩＬのような技術を使用してル
ールを“成長”させる。ＦＯＩＬはJ.R. Quinlan and
R.M. Cameron-Jones, "FOIL: a Midterm Report", in:
PavelB. Brazdil, ed., Machine Learning: ECML-1993,
(Lecture Note in ComputerScience #667), Spring-Ve
rlag, Vienna, Austria, 1993に詳細に説明されてい
る。

【００２０】ＦＯＩＬは条件の空結合により開始され、
これに、Ａ_n＝υ，Ａ_c≦θ又はＡ_c≧θ（ここで、Ａ_nは
名目的属性であり、υはＡ_nのリーガル値であるか、ま
たは、Ａ_cは連続的変数であり、θは学習データ内に生
じるＡ_cの何らかの値である）の条件を追加することを
検討する。条件の追加がＦＯＩＬの情報利得基準を最大
にする場合に、追加されるべき条件を選択する。ルール
が成長データベースからのネガティブ事例を全くカバー
しなくなるまで、条件が追加される。

【００２１】成長したら、ルールは直ちに剪定される。
剪定は、ルールの単一の最終条件を削除し、下記の関数
を最大にする削除を選択することにより行われる。 υ(Rule,PrunePos,PruneNeg)≡｛ｐ＋（Ｎ−ｎ）｝／Ｐ＋Ｎ（１）前記式中、ＰはＰｒｕｎｅＰｏｓ内の事例の総数であ
り、ＮはＰｒｕｎｅＮｅｇ内の事例の総数であり、ｐは
ルールによりカバーされるＰｒｕｎｅＰｏｓ内の事例の
個数であり、ｎはルールによりカバーされるＰｒｕｎｅ
Ｎｅｇ内の事例の個数である。この処理は、削除により
υの値が改善されなくなるまで繰り返される。このよう
に成長され、かつ、剪定されたルールは、追加された最
後のルールの正確度が空ルールの正確度よりも低くなる
まで、ルールセットに追加される。

【００２２】ＩＲＥＰは実際、第１の技法により提起さ
れた計算時間及びメモリスペース問題を解決する。ＩＲ
ＥＰはＯ（ｎｌｏｇ²ｎ）の学習時間を有し、また、そ
のルールセットを成長させるので、第１の技法よりも遥
かに小さなメモリスペース要件を満たすだけでよい。Ｉ
ＲＥＰ及びＣ４．５ＲＵＬＥＳにより実験したところ、
５００，０００データアイテムを有する実例データセッ
トからルールセットを生成するのに、Ｃ４．５ＲＵＬＥ
Ｓは約７９ＣＰＵ年を要したが、ＩＲＥＰは７ＣＰＵ分
でこのデータセットからルールセットを生成することが
出来た。

【００２３】従って、ＩＲＥＰは多くの双方向用途で使
用するのに十分に高速であるが、Ｃ４．５ＲＵＬＥＳは
このような用途には不適である。しかし、ＩＲＥＰにも
２つの問題点が存在する。第１の問題点は、第１の技法
を用いて作成されたルールセットは、ＩＲＥＰを用いて
作成されたルールセットよりも遥かに低い分類エラーし
か犯さない。第２の問題点は、ＩＲＥＰは幾つかのデー
タセットに収束することができない。すなわち、これら
のデータセットから一層多数の既分類事例にＩＲＥＰを
暴露しても、ルールの誤り率を低下させることができな
い。

【００２４】

【発明が解決しようとする課題】従って、本発明の目的
は、ＩＲＥＰと同程度の計算時間及びメモリスペース要
件を有するが、収束し、そして、第１の技法により生成
されるものと同様に分類する複数組のルールを生成す
る、一組のルールの誘導技法を提供することである。

【００２５】

【課題を解決するための手段】前記課題は、使用されて
いる方法により作成することができる最大のルールセッ
トよりも遥かに小さなルールセットを作成し、次いで、
全体としてルールセットについて元々のルールセットを
最適化することにより最終ルールセットを生成すること
により解決される。小さなルールセットを作成すること
により、ＩＲＥＰ法の計算時間及びメモリスペースの利
点を享受することができ、また、全体としてルールセッ
トについて最適化することによりルールセットにより生
成される分類の品質を改善することができる。

【００２６】全体的ルールセットに関する最適化の特に
好都合な方法は、ルールセットの記述長さを低下させる
ために最適化することである。本発明はこのような最適
化の２つのタイプを特徴とする。一方のタイプでは、記
述長さを低下するために、ルールはルールセットから剪
定される。別のタイプでは、記述長さを低下するため
に、ルールセット内のルールを修正する。好ましい実施
態様では、先ずルールセットを剪定し、そして、その
後、この剪定ルールセットを修正する。

【００２７】最適化ルールセット内のルールによりカバ
ーされない全ての実例データアイテムについて繰り返す
ことにより別の改善が得られる。新たなルールが前記の
ようにしてこれらのデータアイテムについて生成させ、
そして、最初の繰り返しにより生成されたルールセット
に追加される。その後、この新たなルールセットが最適
化される。繰り返しは所定回数にわたって継続するか、
または、ルールセットにより正確に分類されないデータ
アイテムが存在しなくなるまで継続する。

【００２８】本発明の別の態様において、ルールセット
はルールを一つ毎に誘導し、そして、生成されるに応じ
て各ルールを剪定することにより生成される。ルールの
生成は、停止条件が満たされるまで続けられる。本発明
は更に、個々のルールの優れた剪定方法と、ルールの剪
定を停止させる時点を決定するための優れたルール・値
距離を提供する。また、これまで全てのルールセットに
ついて得られていた最小記述長さに関する新たなルール
を有するルールセットの記述長さに基づくルールセット
に関する停止条件を提供する。最後に、ＩＲＥＰはミッ
シング属性、数量的変数及び複数クラスをサポートする
ように改善されている。

【００２９】

【発明の実施の形態】以下、本発明による一組のルール
の誘導方法を三段階に分けて説明する。先ず、ＩＲＥＰ
^*と呼ばれるＩＲＥＰの改良バージョンについて説明
し：次いで、ＩＲＥＰ^*により生成されるルールセット
の最適化方法について説明し：その後、ＩＲＥＰ^*と最
適化を結合する方法について説明する。この方法はＲＩ
ＰＰＥＲ(Repeated Incremental Pruning to Produce E
rror Reduction)と命名されている。最後に、ＲＩＰＰ
ＥＲ_kと呼ばれるＲＩＰＰＥＲの反復バージョンについ
て説明する。そこで、ＩＲＥＰ^*及びＲＩＰＰＥＲの顕
著な部分の好ましい実施態様について詳細に説明する。

【００３０】ＩＲＥＰ^*：図４図４はＩＲＥＰ^*４０３の流れ図である。ＩＲＥＰ^*４０
３の最初の部分はループ４１４である。ループ４１４は
ルールセットすなわちルールのためのルールを構築す
る。ステップ４０７において、ルール１１９（ｉ）は、
ＩＲＥＰについて前記に説明したような仕方で成長され
る。次のステップ４０７において、ルール１１９（ｉ）
は剪定される。ＩＲＥＰと異なり、ルール１１９（ｉ）
における条件の全ての最終シーケンスは剪定対象と見做
され、下記のルール・値距離関数を最大にするこのシー
ケンスは保持される。 υ^*(Rule,PrunePos,PruneNeg)≡ｐ−ｎ／ｐ＋ｎ

【００３１】この関数は、データアイテムを２つのクラ
スに分類するルールに関するものである。ｐはポジティ
ブデータアイテムの個数、すなわち、ルールがルールの
クラスのメンバーとしてうまく分類するデータアイテム
の個数を示す。ｎはネガティブデータアイテムの個数、
すなわち、ルールがルールのクラスのメンバーではない
としてうまく分類するデータアイテムの個数を示す。ル
ール１１９（ｉ）が成長され、かつ、剪定された後、こ
れはルールセット１２０（ステップ４１１参照）に追加
される。

【００３２】決定ブロック４１３は、ルールセット１２
０に関する停止条件が満たされたか否かを決定する。満
たされていない場合、ループ４１４は反復される。停止
条件の適正な選択は、データを適正に分類するには十分
な大きさであるが、Ｃ４．５システムで使用されるよう
な技法の計算時間及びメモリスペース問題を避けるには
十分に小さいことを確保する。好ましい実施態様では、
停止条件は最小記述長さ原理を用いて次のように決定さ
れる。

【００３３】Quinlan, C4.5: Programs for Machine Le
arning, supra, p. 51f.，に記載されているように、こ
の原理は、学習データから誘導可能な最良のルールセッ
トは、ルールにより正確に分類されず、従って、ルール
の例外であるデータアイテムと共にルール群からなるメ
ッセージを符号化するのに必要なビット数を最小にす
る。所定のルール群に関するこのメッセージの長さはル
ールセットの記述長さであり、最良のルールセットは最
小記述長さを有するルールセットである。

【００３４】ＩＲＥＰ^*４０３において、ルールセット
の大きさが十分であるか否か決定するために、記述長さ
は、このように使用される。各ルールが追加された後、
新たなルールセットに関する記述長さが計算される。Ｉ
ＲＥＰ^*４０３は、この記述長さがこれまでの全てのル
ールセットについて得られた最小記述長さよりも大き
く、ｄビット超であるか、又はポジティブ事例が最早全
く存在しない場合に、ルールの追加を停止する。好まし
い実施態様では、ｄ＝６４である。

【００３５】好ましい実施態様において、ルールセット
の記述長さを符号化するのに使用されたスキーム及びそ
の例外はJ.Ross Quinlan, "MDL and categorical theor
ies(continued)", in: Machine Learning: Proceedings
of the Twifth International Conference, Lake Taho
e, CA, 1995, Morgan Kaufmannに詳述されている。この
符号化スキームの一部分は、ｋ個の条件を有するルール
を送信するのに必要なビット数を決定するのに使用でき
る。

【００３６】その所望部分は、Ｓ（ｎ，ｋ，ｐ）≡ｋｌｏｇ₂１／ｐ＋（ｎ−ｋ）ｌｏ
ｇ₂１／１−ｐ（前記式中、ｐはメッセージの受信者により既知であ
る）ビットを用いて、ｎ個の要素の既知セットのｋ個の
要素のサブセットを識別することができる。従って、本
発明によれば、‖ｋ‖＋Ｓ（ｎ，ｋ，ｋ／ｎ）ビットに
より、ｋ個の条件を有するルールを送信することができ
る。ここで、ｎはルール中に出現することができるであ
ろう可能条件の個数であり、‖ｋ‖は整数ｋを送信する
のに必要なビット数である。このセオリーを送信するの
に必要なビット推定値は、その後、属性中で起こりうる
冗長度を調整するために０．５倍される。

【００３７】例外を送信するのに必要なビット数は次の
ように決定される。下記の式において、Ｔは例外の個数
であり、Ｃはカバーされる事例の個数であり、Ｕはカバ
ーされない事例の個数であり、ｅはエラーの個数であ
り、ｆｐは偽ポジティブエラーの個数であり、ｆｎは偽
ネガティブエラーの個数である。例外を送信するための
ビット数は、（Ｃ＞Ｔ／２）である場合、ｌｏｇ（Ｔ＋１）＋Ｓ（Ｃ，ｆｐ，ｅ／２Ｃ）＋Ｓ
（Ｕ，ｆｎ，ｆｎ／Ｕ）であるか、さもなければ、ｌｏｇ（Ｔ＋１）＋Ｓ（Ｃ，ｆｎ，ｅ／２Ｕ）＋Ｓ
（Ｕ，ｆｐ，ｆｐ／Ｃ）である。

【００３８】停止条件が満たされた後、ステップ４１５
においてルールセットを剪定する。好ましい実施態様で
は、剪定は、各ルールを順番に（追加された最後のルー
ルから開始する）検査し、ルールを有する及び有しない
ルールセットの記述長さを計算し、そして、その不在に
より記述長さが低下される全てのルールを削除すること
により行われる。

【００３９】剪定ステップ４０９で使用されたルール・
値距離及びＩＲＥＰ^*４０３の停止条件４１３で使用さ
れた停止距離を一緒になってＩＲＥＰ性能を大幅に改善
する。ＩＲＥＰは収束できないが、ＩＲＥＰ^*４０３は
データセットに収束する。従って、ＩＲＥＰ^*４０３を
用いて生成されたルールセットは、ＩＲＥＰを用いて生
成された分類よりも正確な分類を極めて良好に行う。

【００４０】ルールを誘導するシステムの性能を決定す
るのに使用される一連のデータセットに対する試験で
は、ＩＲＥＰ^*４０３により生成されたルールセットの
分類エラーは、Ｃ４．５ＲＵＬＥＳにより生成されたル
ールセットの分類エラーよりも６％も優れていたし、Ｉ
ＲＥＰにより生成されたルールセットの分類エラーより
も１３％も優れていた。

【００４１】ＩＲＥＰ^*はＩＲＥＰの別の側面も同様に
改善する。元々から構成されているように、ＩＲＥＰは
データアイテム内のミッシング属性値、数量的値を有す
る属性又は複数クラスをサポートしない。ミッシング属
性値は次のように処理される。属性Ａを含む全てのテス
トは、Ａの値が不明である事例について失敗するように
定義される。これによりＩＲＥＰ^*は、成功することが
既知のテストを用いてポジティブ事例を分離することが
できる。

【００４２】ＩＲＥＰ^*又は２つのクラスを識別するこ
とができるルールを含む全ての方法は次のような仕方で
複数のクラスを処理するように拡張させることができ
る。先ず、クラスを配列させる。好ましい実施態様で
は、配列は常に、優先度の増大順序に従う。すなわち、
配列はＣ₁，．．．，Ｃ_k（ここで、Ｃ₁は最低優先度ク
ラスであり、Ｃ_kは最高優先度クラスである）の順に行
われる。次に、２クラスルール誘導法を用いて、Ｃ₁を
残りのクラスから分離するルールセットを発見する。

【００４３】これは、事例データをポジティブデータの
クラスとネガティブデータのクラスに分割し、次いで、
２クラスルール誘導法を呼出してＣ₁に関するルールを
誘導することにより行われる。前記ポジティブデータの
クラスはＣ₁標識を有する事例だけを包含し、前記ネガ
ティブデータのクラスはその他の全てのクラスの事例を
包含する。

【００４４】これが行われると、これらのルールにより
Ｃ₁に属するとして分類された全てのデータアイテムが
データセットから取り除かれる。次に、学習ルールセッ
トによりカバーされる全ての事例がデータセットから取
り除かれる。前記の方法は、最後のＣ_kだけが残るま
で、残りのＣ₂，．．．，Ｃ_kの各々について繰り返され
る。このクラスはデフォルトクラスとして使用される。

【００４５】ルールセットの最適化：図４ＩＲＥＰが有する問題点は、全体としてのルール群の品
質に対する所定のルールの効果が考慮されないことであ
る。ＩＲＥＰ^*４０３は前記のように、ルールセットを
剪定するステップ４１５でこの問題点を処理する。この
問題点を処理する更なるステップは、最適化ステップ４
１７である。最適化の目的は、全体的ルールセットのエ
ラーを最小にするためにルールセット内のルールを修正
することである。

【００４６】好ましい実施態様では、最適化ステップ４
１７で使用される方法は次の通りである。所定のルール
セット１２０Ｒ₁，．．．，Ｒ_kを順番に各ルールを検討
する。最初にＲ₁を、次いでＲ₂を、これらが導入された
順番に検討する。各ルールＲ_iについて、２つの選択肢
ルールが構築される。Ｒ_iの置換は、成長及びそれに次
ぐルールＲ’_iの剪定により形成される。剪定は、剪定
データに関する全体的ルールセットＲ₁，．．．，
Ｒ’_i，．．．，Ｒ_kのエラーを最小にするためにガイド
される。

【００４７】Ｒ_iの改訂は同様に行われる。但し、改訂
は空ルールよりもむしろ、Ｒ_iに条件を貪欲に追加する
ことにより成長される。最後に、前記のデシジョン長さ
技法を使用し、最終ルールセット１２０が改訂ルール、
置換ルール又はオリジナルルールを包含するか否か決定
する。これは、Ｒ_iの各変形体をルールセットに挿入
し、次いで、ルール及び事例の記述長さを増大させるル
ールを削除することにより行われる。その後、事例及び
簡易化ルールセットの記述長さを使用してＲ_iの変形体
を比較し、最短記述長さを有するルールセットを生成す
る変形体を選択する。

【００４８】ＲＩＰＰＥＲ：図５ＩＲＥＰ^*４０３及び最適化ステップ４１７は図５に示
されるＲＩＰＰＥＲ法５０１で使用される。流れ図４０
１に示されるように、最初のルールセットは、ＩＲＥＰ
^*４０３を使用し、そして、その結果を最適化（ステッ
プ４１７）することにより得られる。次いで、決定ブロ
ック５０３に示されるように、ルールセットを事例デー
タアイテムに適用し、ルールセットによりカバーされな
い、すなわち、ルールセットにより正確に分類されない
データアイテムが存在するか否かチェックする。

【００４９】存在すれば、ブロック５０９に示されるよ
うに、ループ５１１はＩＲＥＰ^*４０３を使用し、この
事例がカバーされるまでルールセットにルールを追加す
る。ＲＩＰＰＥＲ５０１はＩＲＥＰを更に改善する。Ｒ
ＩＰＰＥＲ５０１により生成されたルールセットはＣ
４．５ＲＵＬＥＳにより生成されたルールセットよりも
僅かに１％高の分類エラーしか起こさない。

【００５０】ＲＩＰＰＥＲ：図６ＲＩＰＰＥＲ５０１からループ５１１を、ルールセット
によりカバーされないデータアイテムの発見を繰返す別
のループに配置し、これらのデータアイテムに関するル
ールをルールセットに追加して拡大ルールセットを生成
し、次いで、ＩＲＥＰ^*について前記で説明したような
技法を用いて拡大ルールセットを最適化することにより
更なる性能改善を得ることができる。ＲＩＰＰＥＲ
_k（ここで、ｋは繰返回数である）と呼ばれる、この態
様の技法を図６に示す。

【００５１】ＲＩＰＰＥＲ_k６０１は流れ図４０１のス
テップ（すなわち、ＩＲＥＰ^*４０３＋最適化４１７）
により開始される。その後、ループ６１５に進入する。
ループ６１５は所定回数実行される。ループ６１５の各
繰返において、ＲＵＰＰＥＲループ５１１を実行し、全
ての事例をカバーするルールセットを得る。その後、こ
のルールセットを、最適化ステップ４１７に関して前記
に説明した仕方により、ステップ６１３で最適化し、そ
の後、剪定ステップ４１５に関して説明したように剪定
する。

【００５２】この最終バージョンの技法はｋ＝２のトラ
イアルデータセットについて実行される。ＲＩＰＰＥＲ
₂により生成されたルールセットは、Ｃ４．５ＲＵＬＥ
Ｓにより生成された分類と同様に良好な分類を行い、Ｒ
ＩＰＰＥＲ₂はＩＲＥＰのＯ（ｎｌｏｇ²ｎ）実行中時間
特性を保持する。

【００５３】好ましい実施態様の詳細：図３，７−１１前記の技法は好ましい実施態様において、図２に示され
た改良された誘導プログラム３０１により実行される。
誘導プログラム３０１は２組の構成要素を包含する。一
方の組の構成要素３０３はルールセットを作成し、その
他のセット３０５はルールセットを最適化する。構成要
素３０３を作成するルールセットは、ルール成長構成要
素３０７（各ルールを成長する）、ルール剪定構成要素
３０９（ルールを剪定し、ルール・値距離を包含す
る）、停止条件構成要素３１１（ルールを更にルールセ
ットに添加すべきか否か決定する）、及びルールセット
剪定構成要素（ルールセットを剪定する）を有する。ル
ールセット最適化器３０５は、置換ルールを作成する構
成要素３１５、改訂ルールを作成する構成要素３１７、
及びルールセット内でオリジナルルール、置換ルール又
は改訂ルールを使用するか否か決定する決定構成要素３
１９を有する。

【００５４】好ましい実施態様の擬似コード図７−１１は、好ましい実施態様において、ＲＩＰＰＥ
Ｒ_kについて必要な制御論理と共に、前記構成要素の処
理系用擬似コードを示す。処理系は２クラス分類システ
ムである。前記のように、このような２クラス分類シス
テムを使用し、複数クラス分類システムを実行すること
ができる。

【００５５】ｒｉｐｐｅｒ７０１図７の冒頭において、ｒｉｐｐｅｒ７０１は好ましい実
施態様においてＲＩＰＰＥＲ_kを実行するトップレベル
関数である。これは、引数として一組の既分類事例２０
１を獲得し、そして、一組のルールｈｙｐに戻る。符号
４０３が付されたｒｉｐｐｅｒ部分はＩＲＥＰ^*４０３
を実行するが、符号６０１が付された部分はＲＩＰＰＥ
Ｒ_kを実行する。７０３において、ｒｉｐｐｅｒは関数
ａｄｄｒｕｌｅｓを呼び出す。これは流れ図４０１のル
ープ４１４を実行し、データセット及び分類の最初のル
ールセットを生成する。次いで、関数ｒｅｄｕｃｅｄ
ｌｅｎはこのルールセットを剪定する。従って、流れ図
４０１のステップ４１５を実行する。

【００５６】その後、剪定ルールセットはループ７０４
においてｋ回対話処理的に最適化される。従って、図６
のループ６１５を実行する。ループ７０４において、関
数ｏｐｔｉｍｉｚｅｒｕｌｅｓ７０７は、関数ａｄｄ
ｒｕｌｅｓが現行のルールセットによりカバーされな
いデータアイテムに関するルールを追加する場合に、処
理ステップ６１１及び６１３を実行する。また、関数ｒ
ｅｄｕｃｅｄｌｅｎは剪定ステップ６１４を実行す
る。ループ７０４が指定回数にわたって実行されたら、
ｒｉｐｐｅｒは最終ルールセットに戻る。

【００５７】ａｄｄｒｕｌｅｓｒｉｐｐｅｒにより呼び出された関数について更に説明
する。図８の８０１はａｄｄｒｕｌｅｓを示す。最初
のステップ８０３は、既にルールセット内に存在するル
ールによりカバーされる事例を事例データから除去す
る。その後、停止条件が発生するまで、新たなルールを
ループ８０４で追加する。各ルールを構築するために、
事例データは先ず、ルール成長用のデータ群と、剪定処
理のためにこれをテストするデータ群に分割される（８
０５）。斯くして、新たなルールが構築される（８０
６）。構築は、クラス”＋”（なぜなら、これは２クラ
ス分類器なので）を有する“空ルール”と論理表現１２
１の空セットにより始められる。複数クラスシステムの
場合、空ルールは、ルールが現に作成されているクラス
を有する。

【００５８】８０７において、ｒｅｆｉｎｅ関数は論理
表現１２１をルールに追加する。この関数は図９の９０
３に示される。ループ９０４は、ルールによりカバーさ
れるネガティブ事例が存在しなくなるまで、論理表現を
一度に一つずつ追加する。各論理表現が追加されるに応
じて、その情報利得は、９０７で示されるように、ｒｅ
ｆｖａｌｕｅ関数９０５で計算される。論理表現を追
加する停止条件に到達したら、ルールは戻される。さも
なければ、論理表現はルールに追加され、リファインさ
れたルールにより最早カバーされないネガティブ事例が
データセットから除去され、そして、ループが繰り返さ
れる。

【００５９】次に、８０９において、ｓｉｍｐｌｉｆｙ
関数は新たなルールを剪定する。ｓｉｍｐｌｉｆｙ関数
は９０９に詳細に示されている。関数のループ９１０は
異なった剪定を行う。各剪定において、関数ｇｅｎｖ
ａｌｕｅはルール・値距離を計算する。現在の剪定に関
するルール・値距離が先に得られた最良値よりも優れて
いる場合、剪定は保留される。さもなければ、これは削
除される。剪定が保留される場合、剪定によりカバーさ
れないネガティブ事例はデータセットから除去され、ル
ールは反復される。ｇｅｎｖａｌｕｅ関数は図１０の
１００１に詳細に示される。現在の説明で特に重要なｇ
ｅｎｖａｌｕｅ関数部分は１００５である。前記に説
明したルール・値距離は１００７に示される。

【００６０】８１１において、関数ｒｅｊｅｃｔｒｕ
ｌｅが呼び出され、停止条件をチェックする。関数の擬
似コードは９０１に示される。ここに示されているよう
に、好ましい実施態様は２つの停止条件を有する。チェ
ックされるべき最初の停止条件（９１１）は記述長さを
使用し、現在のルールがルールセットに追加される場合
に生じる記述長さが、定量ＭＡＸＤＥＣＯＭＰＲＥＳ
ＳＩＯＮよりも大きいか又は等しい量だけ、ルールセッ
トについて既に達成された最短記述長さよりも大きい場
合に停止条件が生じることを示す。

【００６１】停止条件が生じなかった場合、関数は９１
３で、追加されるべきルールが５０％超の誤り率を有す
るか否かチェックする。これが行われる場合、関数は、
停止条件が生じたことを示す。停止条件が生じたら、可
変ｌａｓｔｒｕｌｅａｃｃｅｐｔｅｄをＦＡＬＳＥ
に設定する。このＦＡＬＳＥはループ８０４を停止させ
る。停止条件が生じていない場合、新たなルールにより
カバーされる事例をデータから除去し（８１３）、そし
て、新たなルールをルールセットに追加する（８１
５）。

【００６２】ｒｅｄｕｃｅｄｌｅｎｒｅｄｕｃｅｄｌｅｎ関数（７０５）はａｄｄｒｕ
ｌｅｓにより生成されたルールセットを剪定する。この
関数は図１１の１１０９に詳細に示されている。この関
数は主にループ１１１１からなる。ループ１１１１は、
各ルールについて順番に、ルール無しに現行ルールのコ
ピーを作成し、次いで、このルールを有するか又は有し
ない現行ルールセットの記述長さを計算する。

【００６３】ルールを有しない現行ルールセットの記述
長さが短い場合（１１１３）、このルールセットは現行
ルールセットになる。１１１５に示されるように、記述
長さは関数ｔｏｔａｌｄｌｅｎにより計算される。ｔ
ｏｔａｌｄｌｅｎ関数は最初ｄａｔａｄｌｅｎ関数
を使用し、現行ルールセットの例外であるデータアイテ
ムの記述長さを計算する（１１１７）。次いで、全体的
ルールセットの記述長さを作成する。

【００６４】１１１９に示されるように、これはデータ
アイテムの記述長さにより開始され、次いで、各ルール
の記述長さを順番に追加することにより行われる。ｄａ
ｔａｄｌｅｎに関して、この関数は１１０１に詳細に示
されている。この関数は前掲のQuinlan 1995の文献に記
載された方法を簡単に実行する。

【００６５】ｏｐｔｉｍｉｚｅｒｕｌｅｓこの関数はＩＲＥＰ＊４０３により生成されたルールを
獲得し、このルールを最適化する。この最適化は、ルー
ルセット内の各ルールに関する新たなルールを作成し、
ルールセット内の各ルールに関する修正ルールを作成
し、次いで、オリジナルルールを有する、新たなルール
を有する、及び修正ルールを有するルールセットの記述
長さを用いて最適化ルールセットに含まれる３種類の内
から一つを選択することにより行われる。この関数はル
ープ７１２を有する。このループはルールセット内の各
ルールについて実行される。

【００６６】各ルールについて、この関数は旧ルールを
セーブする（７１０）。その後、ａｄｄｒｕｌｅｓに
ついて説明した方法と同じ方法で新ルールを作成する
（７１３）。次いで、旧ルールに論理表現を追加するこ
とにより修正ルールを作成する（７１５）。追加及び剪
定もａｄｄｒｕｌｅｓについて説明した方法と同じ方
法で行われる。次いで、最短の記述長さを有するルール
セットを生成するルールを選択する（７１７）。次い
で、選択されたルールによりカバーされる事例を事例デ
ータから除去する（７２１）。

【００６７】記述長さを計算するのに使用される関数は
ｒｅｌａｔｉｖｅｃｏｍｐｒｅｓｓｉｏｎである。こ
の関数は図１０の１００９に詳細に示されている。この
関数は先ず、ルールを有するルールセットのコピーを生
成し、これをｒｅｄｕｃｅｄｌｅｎを用いて剪定する
（１０１１）。次いで、ルールを有しないルールセット
のコピーについて同じことを行う（１０１３）。

【００６８】次いで、剪定ルールセットの各々に関する
例外の記述長さを計算し（１０１５）、そして最後に、
ルールを有しないルールセットに関する例外の記述長さ
と、ルールを有するルールセットに関する例外の記述長
さにルールの記述長さをプラスした合計との間の差を戻
す（１０１７）。記述長さの計算は、前記のようなｄａ
ｔａｄｌｅｎを用いて行われる。

【００６９】結論以上、事例データセットから分類用のルールセットを誘
導する本発明の方法の具体的内容及び具体的なやり方に
ついて詳細に説明した。本発明の方法は、Ｃ４．５のよ
うなシステムにより生成されたルールセットと同程度の
正確度を有するルールセットを生成することができる
が、本発明の方法によれば、このルールセットの生成に
必要な計算資源（リソース）は非常に僅少で済む。

【００７０】資源は“必要十分”なルールを有するルー
ルセットを生成することによりセーブされ、正確度は、
ルールの剪定及びルールセットの成長を停止させるのに
使用される停止条件により、及び、ルールセットに関す
るルールセットを全体として最適化する最適化技術によ
り得られる。反復により、最適化技術の効率が高められ
る。本発明の方法の特別な利点は、停止条件の決定及び
ルールセットの最適化のために、記述長さを使用するこ
とである。

【００７１】この明細書に具体的に説明した実施態様以
外の実施態様も当然実施可能である。例えば、好ましい
実施態様ではルールセットの生成のために改善されたＩ
ＲＥＰを使用するが、“必要十分”なルールを同様に生
成するその他の技法も使用できる。更に、好ましい実施
態様では全体的ルールセットに対する最適化のために記
述長さを使用するが、全体的ルールセットを最適化する
その他の最適化技術も同様に使用できる。更に、この明
細書に示した剪定及び修正技術以外の最適化技術も使用
できる。最後に、本発明による擬似コードで説明した処
理系以外に、本発明の原理の処理系を構築することもで
きる。

【００７２】

【発明の効果】以上説明したように、本発明によれば、
Ｃ４．５のようなシステムにより生成されたルールセッ
トと同程度の正確度を有するルールセットを生成するこ
とができ、しかも、このルールセットの生成に必要な計
算資源（リソース）は非常に僅少で済ませることができ
る。資源は“必要十分”なルールを有するルールセット
を生成することによりセーブされ、正確度は、ルールの
剪定及びルールセットの成長を停止させるのに使用され
る停止条件により、及び、ルールセットに関するルール
セットを全体として最適化する最適化技術により得られ
る。

【図面の簡単な説明】

【図１】従来技術の分類器のブロック図である。

【図２】分類器論理を誘導する従来技術のシステムのブ
ロック図である。

【図３】誘導プログラムにおけるモジュールのブロック
図である。

【図４】第１のルール誘導方法の流れ図である。

【図５】第２のルール誘導方法の流れ図である。

【図６】第３のルール誘導方法の流れ図である。

【図７】図６の方法の第１の部分の好ましい実施態様の
擬似コードである。

【図８】図６の方法の第２の部分の好ましい実施態様の
擬似コードである。

【図９】図６の方法の第３の部分の好ましい実施態様の
擬似コードである。

【図１０】図６の方法の第４の部分の好ましい実施態様
の擬似コードである。

【図１１】図６の方法の第５の部分の好ましい実施態様
の擬似コードである。

【符号の説明】

１０１分類システム１０３メモリ１０５デジタルプロセッサ

Claims

【特許請求の範囲】

【請求項１】データアイテムの事例データセットから
データアイテムを分類する第２のルールセットを誘導す
るメモリシステムとプロセッサを有するコンピュータシ
ステムで実行されるルール誘導方法であり、該ルール及び事例データセットはメモリシステムに記憶
されており、該方法は、プロセッサ内で実行される、所定の方法に従って事例データセットから第１のルール
セットを誘導し、そして、この第１のルールセットをメ
モリシステムに記憶するステップと、ここで、第１のル
ールセットは所定の方法で生成し得る最大のルールセッ
トよりも大幅に小さい、第２のルールセットを生成するために、第１のルールセ
ット全体に対して第１のルールセットを最適化するステ
ップと、からなることを特徴とするルール誘導方法。
【請求項２】第２のルールセットを誘導した後、第２
のルールセットによりカバーされない事例データセット
からデータアイテムをカバーするために、第２のルール
セットにルールを追加することにより第３のルールセッ
トを誘導するステップを更に有する請求項１の方法。
【請求項３】方法はｎ回反復され、第２のルールセッ
トはｎ番目の反復で生成された新たな第２のルールセッ
トである請求項２の方法。
【請求項４】第１のルールセット又は第３のルールセ
ットを最適化するステップは、第１のルールセット又は
第３のルールセットの記述長さを計算し、この記述長さ
を最適化において使用するステップを有する請求項１，
２又は３の方法。
【請求項５】第１のルールセット又は第３のルールセ
ットを最適化するステップは、全第１のルールセットに
関して第１のルールセットを剪定するステップを有する
請求項４の方法。
【請求項６】各ルールをルールとして剪定するステッ
プは、関数ｐ−ｎ／ｐ＋ｎ（ここで、ｐは事例データセ
ット内のルールに関するポジティブ事例の個数であり、
ｎはルールに関するネガティブ事例の個数である）を最
大にさせる請求項５の方法。
【請求項７】第１のルールセットの剪定ステップは、
第１のルールセットの記述長さが短縮されるように、第
１のルールセットからルールを削除することにより行わ
れる請求項６の方法。
【請求項８】第１のルールセットの剪定ステップは、
第１のルールセットの記述長さが短縮されるように、第
１のルールセットからルールを削除することにより行わ
れる請求項５の方法。
【請求項９】第１のルールセットの最適化ステップ又
は第３のルールセットの最適化ステップは、第１又は第３のルールセット内の各ルールについて行わ
れる、ルールの修正を行い、全ルールセットのエラーを最小に
するために修正ルールを剪定するステップと、ルールの記述長さ及び修正ルールから、ルールを修正ル
ールと置換するか否か決定するステップと、からなる請
求項１，２又は３の方法。
【請求項１０】修正を行うステップは、ルールとは無関係に第１の修正を行うステップと、条件をルールに追加することにより第２の修正を行うス
テップとからなり、決定ステップは、ルールを第１の修正ルール又は第２の
修正ルールと置換するか否かを決定する請求項９の方
法。
【請求項１１】最適化は、第１のルールセットの記述長さが短縮されるように、第
１のルールセットからルールを削除することにより第１
のルールセットを剪定するステップを更に有する請求項
９の方法。
【請求項１２】第１のルールセットの誘導ステップ
は、所定の停止条件が生じるまで、ルール毎に、ルール
を誘導することにより行われる請求項１，２又は３の方
法。
【請求項１３】第１のルールセットの誘導ステップ
は、停止条件が生じたか否か決定するために、第１のル
ールセットの記述長さをチェックするステップを含む請
求項１２の方法。
【請求項１４】第１のルールセットの記述長さをチェ
ックするステップは反復的に行われ、停止条件が生じた
か否か決定するために、現行のルールセットの記述長さ
を、これまでに得られた最短の記述長さと比較するステ
ップを含む請求項１３の方法。
【請求項１５】記述長さの比較ステップは、現行ルー
ルセットの記述長さが最短記述長さよりも所定の値を超
えるほど大きい場合に、停止条件が生じたと決定する請
求項１４の方法。
【請求項１６】データアイテムの事例データセットか
らデータアイテムを分類するルールセットを誘導するメ
モリシステムとプロセッサを有するコンピュータシステ
ムで実行される方法であり、該ルール及び事例データセットはメモリシステムに記憶
されており、該方法は、プロセッサ内で実行される、各ルールについ
て、事例データセットに対するルールを誘導するステップ
と、このルールをルールセットに追加するステップと、追加ルールを有するルールセットの記述長さを計算する
ステップと、記述長さが所定の条件を満たす場合、該方法を停止させ
るステップと、からなることを特徴とする方法。
【請求項１７】所定の条件は、最小の予め計算された
記述長さよりも所定量だけ大きい記述長さである請求項
１６の方法。
【請求項１８】各ルールについて行われる、関数ｐ−
ｎ／ｐ＋ｎ（ここで、ｐは事例データセット内のルール
に関するポジティブ事例の個数であり、ｎはルールに関
するネガティブ事例の個数である）を最大にするために
ルールを剪定するステップを更に有する請求項１６の方
法。