JPH0764793A

JPH0764793A - 多数決型クラスタリング装置

Info

Publication number: JPH0764793A
Application number: JP5214061A
Authority: JP
Inventors: Shigeo Kaneda; 重郎金田; Fusein Arumoarimu; アルモアリム・フセイン; Yasuhiro Akiba; 泰弘秋葉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-08-30
Filing date: 1993-08-30
Publication date: 1995-03-10

Abstract

(57)【要約】【目的】概念学習アルゴリズムが生成した複数の判別
木／ルールを１つに絞らずに、複数の判別結果の多数決
を取ることにより未知事例からクラスを判定する性能を
向上した多数決型クラスタリング装置を提供する。【構成】概念学習手段により生成される複数のルール
／判別木を保持し、該保持している個々のルール／判別
木毎にまたは該保持しているルール／判別木から選択し
たルール／判別木毎に未知事例のクラスを複数のクラス
タリング手段１０で判定し、該複数のクラスタリング手
段１０の出力から最終的なクラスを多数決手段１１の多
数決により決定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、事例から概念学習によ
り獲得したルール／判別木を用いて、未知事例のクラス
を多数決により判定する多数決型クラスタリング装置に
関する。

【０００２】

【従来の技術】過去の観測事例から、将来の未知事例の
クラスを判別するためのルールを学習する方法は「概念
学習」と呼ばれ、種々の手法が提案されて来た。例え
ば、J.Ross.Quinlanの「ＩＤ３」は、その最も代表的な
ものである。以下、ＩＤ３に関する簡単な説明を行う。
尚、ＩＤ３の詳細は、又は他の概念学習アルゴリズムの
詳細は、例えば電総研人工知能研究グループ訳「知識獲
得と学習シリーズ第１〜第８巻」共立出版を参照された
い。

【０００３】ＩＤ３では、事例（ここでは、事例集合を
Ｃとした）として、以下の様な属性表現を用いる。

【０００４】（低い、ブロンド、青；＋）の「低い」、「ブロン
ド」、「青」は、それぞれ３つの属性の値である。ここ
では、「背の高さ」「髪の色」「目の色」と考えて頂き
たい。「−」「＋」は、この属性で決まるクラスであ
る。クラスの意味については、ここでは考えない。

【０００５】さて、上記の集合Ｃが得られた時、これら
の事例には無い未知事例、例えば、（低い、赤色、茶）
が到着した場合に、このクラスは何とすべきだろうか？
概念学習の目的は、この様な未知の事例のクラスを判別
するためのルールを既知の事例（上記ではＣ）から生成
する事である。

【０００６】ＩＤ３では、クラスを決定するルールは、
図２（ｂ）の「生成された判別木」の様な判別木（また
は決定木と呼ばれる）として表現される。この判別木の
意味は、まず最初に「髪の色」で未知事例を検査する。
この結果髪の色が「黒」であればただちにクラス「−」
と判別する。また、髪の色が「赤」であるならば、クラ
ス「＋」と判別する。もし、髪の色が「ブロンド」であ
るならば、更に、「目の色」について事例を調べ、目の
色が「青」であるならば、クラスを「＋」、茶であるな
らば、クラスを「−」とする。この様に、判別木では、
トップのノードから、順次、未知事例の属性値を質問す
る形でクラスの判定を行う。では、この判別木を事例Ｃ
からどの様にして作成したのだろうか？ＩＤ３では、先
ず最初に事例Ｃに関して、各属性で判別した時のツリー
を作成する。図２（ａ）は、属性「髪の色」で判別を行
った時の例である。８個の事例は、３個、１個、４個の
グループに分かれる。ここで、「黒」と「赤」について
は、事例の持つクラスがユニークである。これに対し
て、「ブロンド」に対しては、クラスがユニークでは無
い。ＩＤ３は、この属性「髪の色」による判別の良し悪
しをエントロピーのゲイン（利得）により判断する。即
ち、事例Ｃが持つエントロピーは、８個の事例に２種類
のクラスが３個、５個の割合で存在するので、以下の様
になる。但し、ｌｏｇは底が２とする。

【０００７】

【数１】一方、判別後のエントロピーが、「黒」「赤」「ブロン
ド」それぞれ、０，０，１ビットとなるので、判別後の
平均エントロピーは、

【数２】となる。従って、「髪の色」のエントロピーゲインは、
０．９５４−０．５＝０．４５４ビットとなる。

【０００８】一方、「背丈」で判別した場合のエントロ
ピーゲインは、同様にして、０．００３ビット、「目の
色」は０．３４７ビットとなる。ＩＤ３では、エントロ
ピーゲインが最大となる属性を優先する。即ち、この例
では、「髪の色」を最初の判別属性とする。判別の結
果、クラスがユニークに決定された属性値の分岐は、処
理を停止する。一方、クラスがユニークでない分岐につ
いては、同様のエントロピーゲイン計算により、判別に
利用する属性を決定する。この様な、判別属性の決定
は、全ての分岐において、クラスがユニークになるまで
繰り返される。この事例Ｃから生成されるのは、図２
（ｂ）の判別木である。

【０００９】

【発明が解決しようとする課題】上述した従来のＩＤ３
は優れた方法であるが、最大の問題は、得られた判別木
が、事例の持つ本質的な性質とは限らない事である。生
成された判別木は、事例が持つ性質の統計的な推定であ
って、必ずしも正しいとは限らないからである。たまた
ま、事例の個数が少なかったり、事例がたまたま偏った
性質を持つために、本来は生成されるべき判別木とは大
きく異なる木が生成される事が多い。そして、生成され
た判別木が正しいか否かを判定する手立てを我々は持た
ないのである。同様の問題は、ＡＱ等、全ての概念学習
手法にも当てはまる。また、事例からニューラルネット
によりルールを学習する事が近年活発に研究されている
が、この場合にも、ニューラルネットの初期値により種
々のルール（この場合には、ニューラルネットのニュー
ラル間の結合度）が得られる問題がある。

【００１０】本発明は、上記に鑑みてなされたもので、
その目的とするところは、概念学習アルゴリズムが生成
した複数の判別木／ルールを１つに絞らずに、複数の判
別結果の多数決を取ることにより未知事例からクラスを
判定する性能を向上した多数決型クラスタリング装置を
提供することにある。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、本発明の多数決型クラスタリング装置は、過去の観
測事例から未知の事例のクラスを判別するルールを学習
する概念学習手段により生成される複数のルール／判別
木を各々保持し、該保持している個々のルール／判別木
毎にまたは該保持しているルール／判別木から選択した
ルール／判別木毎に未知事例のクラスを判定する複数の
クラスタリング手段と、該複数のクラスタリング手段の
出力から多数決により最終的なクラスを決定する多数決
手段とを有することを要旨とする。

【００１２】また、本発明の多数決型クラスタリング装
置は、過去の観測事例から未知の事例のクラスを判別す
るルールを学習する概念学習手段により生成される複数
のルール／判別木を各々保持し、該保持している個々の
ルール／判別木毎にまたは該保持しているルール／判別
木から選択したルール／判別木毎に未知事例のクラスを
判定する複数のクラスタリング手段と、該複数のクラス
タリング手段の出力から多数決により最終的なクラスを
決定するとともに、前記クラスタリング手段に保持され
るルール／判別木の記述量が少ない程大きな重みを与え
て多数決を行う多数決手段とを有することを要旨とす
る。

【００１３】

【作用】本発明の多数決型クラスタリング装置では、概
念学習手段により生成される複数のルール／判別木を保
持し、該保持している個々のルール／判別木毎にまたは
該保持しているルール／判別木から選択したルール／判
別木毎に未知事例のクラスを複数のクラスタリング手段
で判定し、該複数のクラスタリング手段の出力から多数
決により最終的なクラスを決定する。

【００１４】また、本発明の多数決型クラスタリング装
置では、概念学習手段により生成される複数のルール／
判別木を保持し、該保持している個々のルール／判別木
毎にまたは該保持しているルール／判別木から選択した
ルール／判別木毎に未知事例のクラスを複数のクラスタ
リング手段で判定し、該複数のクラスタリング手段の出
力から多数決により最終的なクラスを決定するに当た
り、前記クラスタリング手段に保持されるルール／判別
木の記述量が少ない程大きい重みを与えて多数決を行っ
ている。

【００１５】

【実施例】以下、図面を用いて本発明の実施例を説明す
る。

【００１６】図１は、本発明の一実施例に係わる多数決
型クラスタリング装置の構成を示すブロック図である。
同図に示す多数決型クラスタリング装置１は、複数のク
ラスタリング手段１０と、多数決手段１１から構成され
る。クラスタリング手段１０は、未知の事例を入力とし
て、予め保持されているルール／判別木に基づいて、当
該事例のクラスを予測する。多数決手段１１は、クラス
タリング手段１０が出力するクラスを受信し、最も多く
のクラスタリング手段が指定するクラスを最終的な予測
クラスとして出力する機能を有する。

【００１７】各クラスタリング手段１０が保持している
ルール／判別木は、全く同一のものを入れてもあまり意
味がない。例えば、同一の既知事例（学習事例と言って
も良い）から、異なるルール／判別木を作成する。その
方法の一つは、既知事例から、一個を除いた事例集合を
それぞれ作成し、その一個を除いた事例集合からルール
／判別木を作成する事である。この方法では、事例の個
数だけのルール／判別木が作成される。もし、事例数が
多すぎる時には、サンプリングした事例のみを一個除く
こととすれば良い。また、ＡＱ等の他の概念学習アルゴ
リズムでは、概念探索の初期値を変更する事により、容
易に異なるルールが獲得できる。また、ニューラルネッ
トでも、初期値を変えて複数のルールを獲得させる事が
できる。

【００１８】以下、ＩＤ３の場合について、クラスタリ
ング手段１０および多数決手段１１の構成を示す。な
お、クラスタリングが判別木ではなく、ルールで行われ
る場合にも、容易に同様の判別フローを作成する事がで
きるだろう。

【００１９】図３は、クラスタリング手段１０の動作フ
ローを示したものである。まず最初に、未知事例が入力
される（ステップ２０）。この未知事例に対して、判別
木の最初の質問項目が調べられる（ステップ２１）。未
知事例は特定の属性値を持っているから、判別木のその
分岐を下がってゆく。そして、この分岐先に質問項目が
あるか否かを調べる（ステップ２２）。質問項目が無
く、クラス名称が記載されているならば、クラス名を出
力して処理を終了する（ステップ２３）。一方、分岐先
に質問項目があるか否かを調べた際（ステップ２２）、
質問項目が存在するならば、この新たな質問項目につい
て未知事例の属性値を調べ（ステップ２４）、再び分岐
を下りてゆく。この分岐を次々と下りてゆく動作は、最
終的に未知事例のクラスが確定するまで続けられる。

【００２０】図４は、多数決手段１１の構成例である。
但し、ここでは、クラスタリング手段１０は４個であ
り、出力されるクラスは、「０」「１」の２通りである
とした。入力１〜入力４までの出力中に２個以上「１」
が存在すれば、多数決手段の出力が「１」となる。クラ
スタリング手段の個数が４以外の場合でも、同様に多数
決手段を構成できる。また、クラスが「０」「１」以外
の場合でも、全てのクラスタリング手段の出力中に、最
も多く現れるクラスを多数決手段の出力とすれば良い。

【００２１】本発明のひとつの特徴は、ＩＤ３の様に、
計算量の少ない概念学習アルゴリズムを利用できるた
め、ルール／判別木の生成に時間を要しない事である。
また、概念学習アルゴリズム自体には何らの制限が無い
ので、どの様な概念学習アルゴリズムを適用する事もで
きる。また、多数決手段の動作は高速であるから、本発
明を用いた事により処理時間遅延は無視できる。図６に
は、実際に、属性数７（但し、その中でクラス決定に関
与する属性は３個）の場合について、ＩＤ３によるツリ
ー生成と、未知事例に対する判別性能の評価を行った結
果である。属性は「０」「１」の２値、クラスも「０」
「１」の２値である。

【００２２】事例数は３０と４０について行った。例え
ば、４０の場合には、まず最初に、乱数を用いて、４０
個の学習事例を作成し、この学習事例のクラスは、予め
分かっているクラス決定方法で決定しておく。もちろ
ん、このクラスの決定に利用しているルールは、ＩＤ３
を知らない。次に、この４０事例から１事例を抜いた３
９個の事例を作り、ＩＤ３により判別木を生成した。判
別木は、抜くべき事例が４０個あるので、４０個でき
る。次に、再び乱数を用いて、４０個のテスト事例（未
知事例）を作成する。そして、本発明の手法により、同
一事例から作成された４０個の判別木を用いて、このテ
スト事例（未知事例）の判別を行う。図６は、これを１
０００回繰り返した時の未知事例に対する平均の誤り率
である。比較の対象は、４０個の事例からＩＤ３により
判別木を一個作成して、テスト事例の評価に用いた場合
である。明らかに、本発明の方が従来の方法に比較して
高い識別性能を持つ事が分かる。

【００２３】図５は、本発明の他の実施例に係わる多数
決型クラスタリング装置の構成を示すブロック図であ
る。同図に示す多数決クラスタリング装置１は、クラス
タリング手段３０と多数決手段３１から構成される。但
し、クラスタリング手段３０は、図１のクラスタリング
手段１０と同一である。若干の修正が加えられているの
は、多数決手段３１である。ここでは、各クラスタリン
グ手段３０の出力にある重みを加えている。そして、そ
の重みを考慮した上で、多数決を行う。図５の例では、
クラスタリング手段３０の出力が「０」または「１」と
考えているので、重みは数値で与え、多数決手段３１の
スレショールドを大きめにとって、多数決を行ってい
る。もし、クラスタリング手段３０の出力が「０」
「１」でなく、２個以上のシンボルの場合には、そのシ
ンボルの個数をカウントする際に、各クラスタリング手
段の出力に対して、重み分のカウントを行えば良い。

【００２４】重みの決定には種々の方法が存在しうる。
但し、統計解析の分野で知られる「オッカムのかみそ
り」と呼ばれる規範に従って記述量の小さなルール／判
別木の方が未知事例に対する判別性能が良いと考える。
従って、記述量の小さなルール／判別木ほど小さな重み
を与える様にして、各重みを決定すればよい。一つの方
法は、判別木のもつ分岐の個数がある。

【００２５】

【発明の効果】以上説明したように、本発明によれば、
従来の概念学習アルゴリズムの構成を変更せずに、その
性能を向上させることができるとともに、また概念学習
アルゴリズムに制限を加えないので、ＩＤ３のように計
算量の少ない概念学習アルゴリズムを利用できる。更
に、多数決手段の動作が高速であるので、処理時間遅延
を無視することができる。

【図面の簡単な説明】

【図１】本発明の一実施例に係わる多数決型クラスタリ
ング装置の構成を示すブロック図である。

【図２】ＩＤ３における属性「髪の毛」による試行およ
び生成された判別木を示す図である。

【図３】判別木の実行手順を示すフローチャートであ
る。

【図４】多数決手段の構成を示す図である。

【図５】本発明の他の実施例の構成を示すブロック図で
ある。

【図６】未知事例に対する誤り率を本発明の場合と従来
の場合について示す図である。

【符号の説明】１多数決型クラスタリング装置１０クラスタリング手段１１多数決手段

Claims

【特許請求の範囲】

【請求項１】過去の観測事例から未知の事例のクラス
を判別するルールを学習する概念学習手段により生成さ
れる複数のルール／判別木を各々保持し、該保持してい
る個々のルール／判別木毎にまたは該保持しているルー
ル／判別木から選択したルール／判別木毎に未知事例の
クラスを判定する複数のクラスタリング手段と、該複数
のクラスタリング手段の出力から多数決により最終的な
クラスを決定する多数決手段とを有することを特徴とす
る多数決型クラスタリング装置。
【請求項２】過去の観測事例から未知の事例のクラス
を判別するルールを学習する概念学習手段により生成さ
れる複数のルール／判別木を各々保持し、該保持してい
る個々のルール／判別木毎にまたは該保持しているルー
ル／判別木から選択したルール／判別木毎に未知事例の
クラスを判定する複数のクラスタリング手段と、該複数
のクラスタリング手段の出力から多数決により最終的な
クラスを決定するとともに、前記クラスタリング手段に
保持されるルール／判別木の記述量が少ない程大きな重
みを与えて多数決を行う多数決手段とを有することを特
徴とする多数決型クラスタリング装置。