JPH0764793A - 多数決型クラスタリング装置 - Google Patents

多数決型クラスタリング装置

Info

Publication number
JPH0764793A
JPH0764793A JP5214061A JP21406193A JPH0764793A JP H0764793 A JPH0764793 A JP H0764793A JP 5214061 A JP5214061 A JP 5214061A JP 21406193 A JP21406193 A JP 21406193A JP H0764793 A JPH0764793 A JP H0764793A
Authority
JP
Japan
Prior art keywords
rule
class
tree
clustering
held
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5214061A
Other languages
English (en)
Inventor
Shigeo Kaneda
重郎 金田
Fusein Arumoarimu
アルモアリム・フセイン
Yasuhiro Akiba
泰弘 秋葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5214061A priority Critical patent/JPH0764793A/ja
Publication of JPH0764793A publication Critical patent/JPH0764793A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 概念学習アルゴリズムが生成した複数の判別
木/ルールを1つに絞らずに、複数の判別結果の多数決
を取ることにより未知事例からクラスを判定する性能を
向上した多数決型クラスタリング装置を提供する。 【構成】 概念学習手段により生成される複数のルール
/判別木を保持し、該保持している個々のルール/判別
木毎にまたは該保持しているルール/判別木から選択し
たルール/判別木毎に未知事例のクラスを複数のクラス
タリング手段10で判定し、該複数のクラスタリング手
段10の出力から最終的なクラスを多数決手段11の多
数決により決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、事例から概念学習によ
り獲得したルール/判別木を用いて、未知事例のクラス
を多数決により判定する多数決型クラスタリング装置に
関する。
【0002】
【従来の技術】過去の観測事例から、将来の未知事例の
クラスを判別するためのルールを学習する方法は「概念
学習」と呼ばれ、種々の手法が提案されて来た。例え
ば、J.Ross.Quinlanの「ID3」は、その最も代表的な
ものである。以下、ID3に関する簡単な説明を行う。
尚、ID3の詳細は、又は他の概念学習アルゴリズムの
詳細は、例えば電総研人工知能研究グループ訳「知識獲
得と学習シリーズ第1〜第8巻」共立出版を参照された
い。
【0003】ID3では、事例(ここでは、事例集合を
Cとした)として、以下の様な属性表現を用いる。
【0004】 (低い、ブロンド、青;+)の「低い」、「ブロン
ド」、「青」は、それぞれ3つの属性の値である。ここ
では、「背の高さ」「髪の色」「目の色」と考えて頂き
たい。「−」「+」は、この属性で決まるクラスであ
る。クラスの意味については、ここでは考えない。
【0005】さて、上記の集合Cが得られた時、これら
の事例には無い未知事例、例えば、(低い、赤色、茶)
が到着した場合に、このクラスは何とすべきだろうか?
概念学習の目的は、この様な未知の事例のクラスを判別
するためのルールを既知の事例(上記ではC)から生成
する事である。
【0006】ID3では、クラスを決定するルールは、
図2(b)の「生成された判別木」の様な判別木(また
は決定木と呼ばれる)として表現される。この判別木の
意味は、まず最初に「髪の色」で未知事例を検査する。
この結果髪の色が「黒」であればただちにクラス「−」
と判別する。また、髪の色が「赤」であるならば、クラ
ス「+」と判別する。もし、髪の色が「ブロンド」であ
るならば、更に、「目の色」について事例を調べ、目の
色が「青」であるならば、クラスを「+」、茶であるな
らば、クラスを「−」とする。この様に、判別木では、
トップのノードから、順次、未知事例の属性値を質問す
る形でクラスの判定を行う。では、この判別木を事例C
からどの様にして作成したのだろうか?ID3では、先
ず最初に事例Cに関して、各属性で判別した時のツリー
を作成する。図2(a)は、属性「髪の色」で判別を行
った時の例である。8個の事例は、3個、1個、4個の
グループに分かれる。ここで、「黒」と「赤」について
は、事例の持つクラスがユニークである。これに対し
て、「ブロンド」に対しては、クラスがユニークでは無
い。ID3は、この属性「髪の色」による判別の良し悪
しをエントロピーのゲイン(利得)により判断する。即
ち、事例Cが持つエントロピーは、8個の事例に2種類
のクラスが3個、5個の割合で存在するので、以下の様
になる。但し、logは底が2とする。
【0007】
【数1】 一方、判別後のエントロピーが、「黒」「赤」「ブロン
ド」それぞれ、0,0,1ビットとなるので、判別後の
平均エントロピーは、
【数2】 となる。従って、「髪の色」のエントロピーゲインは、
0.954−0.5=0.454ビットとなる。
【0008】一方、「背丈」で判別した場合のエントロ
ピーゲインは、同様にして、0.003ビット、「目の
色」は0.347ビットとなる。ID3では、エントロ
ピーゲインが最大となる属性を優先する。即ち、この例
では、「髪の色」を最初の判別属性とする。判別の結
果、クラスがユニークに決定された属性値の分岐は、処
理を停止する。一方、クラスがユニークでない分岐につ
いては、同様のエントロピーゲイン計算により、判別に
利用する属性を決定する。この様な、判別属性の決定
は、全ての分岐において、クラスがユニークになるまで
繰り返される。この事例Cから生成されるのは、図2
(b)の判別木である。
【0009】
【発明が解決しようとする課題】上述した従来のID3
は優れた方法であるが、最大の問題は、得られた判別木
が、事例の持つ本質的な性質とは限らない事である。生
成された判別木は、事例が持つ性質の統計的な推定であ
って、必ずしも正しいとは限らないからである。たまた
ま、事例の個数が少なかったり、事例がたまたま偏った
性質を持つために、本来は生成されるべき判別木とは大
きく異なる木が生成される事が多い。そして、生成され
た判別木が正しいか否かを判定する手立てを我々は持た
ないのである。同様の問題は、AQ等、全ての概念学習
手法にも当てはまる。また、事例からニューラルネット
によりルールを学習する事が近年活発に研究されている
が、この場合にも、ニューラルネットの初期値により種
々のルール(この場合には、ニューラルネットのニュー
ラル間の結合度)が得られる問題がある。
【0010】本発明は、上記に鑑みてなされたもので、
その目的とするところは、概念学習アルゴリズムが生成
した複数の判別木/ルールを1つに絞らずに、複数の判
別結果の多数決を取ることにより未知事例からクラスを
判定する性能を向上した多数決型クラスタリング装置を
提供することにある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明の多数決型クラスタリング装置は、過去の観
測事例から未知の事例のクラスを判別するルールを学習
する概念学習手段により生成される複数のルール/判別
木を各々保持し、該保持している個々のルール/判別木
毎にまたは該保持しているルール/判別木から選択した
ルール/判別木毎に未知事例のクラスを判定する複数の
クラスタリング手段と、該複数のクラスタリング手段の
出力から多数決により最終的なクラスを決定する多数決
手段とを有することを要旨とする。
【0012】また、本発明の多数決型クラスタリング装
置は、過去の観測事例から未知の事例のクラスを判別す
るルールを学習する概念学習手段により生成される複数
のルール/判別木を各々保持し、該保持している個々の
ルール/判別木毎にまたは該保持しているルール/判別
木から選択したルール/判別木毎に未知事例のクラスを
判定する複数のクラスタリング手段と、該複数のクラス
タリング手段の出力から多数決により最終的なクラスを
決定するとともに、前記クラスタリング手段に保持され
るルール/判別木の記述量が少ない程大きな重みを与え
て多数決を行う多数決手段とを有することを要旨とす
る。
【0013】
【作用】本発明の多数決型クラスタリング装置では、概
念学習手段により生成される複数のルール/判別木を保
持し、該保持している個々のルール/判別木毎にまたは
該保持しているルール/判別木から選択したルール/判
別木毎に未知事例のクラスを複数のクラスタリング手段
で判定し、該複数のクラスタリング手段の出力から多数
決により最終的なクラスを決定する。
【0014】また、本発明の多数決型クラスタリング装
置では、概念学習手段により生成される複数のルール/
判別木を保持し、該保持している個々のルール/判別木
毎にまたは該保持しているルール/判別木から選択した
ルール/判別木毎に未知事例のクラスを複数のクラスタ
リング手段で判定し、該複数のクラスタリング手段の出
力から多数決により最終的なクラスを決定するに当た
り、前記クラスタリング手段に保持されるルール/判別
木の記述量が少ない程大きい重みを与えて多数決を行っ
ている。
【0015】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0016】図1は、本発明の一実施例に係わる多数決
型クラスタリング装置の構成を示すブロック図である。
同図に示す多数決型クラスタリング装置1は、複数のク
ラスタリング手段10と、多数決手段11から構成され
る。クラスタリング手段10は、未知の事例を入力とし
て、予め保持されているルール/判別木に基づいて、当
該事例のクラスを予測する。多数決手段11は、クラス
タリング手段10が出力するクラスを受信し、最も多く
のクラスタリング手段が指定するクラスを最終的な予測
クラスとして出力する機能を有する。
【0017】各クラスタリング手段10が保持している
ルール/判別木は、全く同一のものを入れてもあまり意
味がない。例えば、同一の既知事例(学習事例と言って
も良い)から、異なるルール/判別木を作成する。その
方法の一つは、既知事例から、一個を除いた事例集合を
それぞれ作成し、その一個を除いた事例集合からルール
/判別木を作成する事である。この方法では、事例の個
数だけのルール/判別木が作成される。もし、事例数が
多すぎる時には、サンプリングした事例のみを一個除く
こととすれば良い。また、AQ等の他の概念学習アルゴ
リズムでは、概念探索の初期値を変更する事により、容
易に異なるルールが獲得できる。また、ニューラルネッ
トでも、初期値を変えて複数のルールを獲得させる事が
できる。
【0018】以下、ID3の場合について、クラスタリ
ング手段10および多数決手段11の構成を示す。な
お、クラスタリングが判別木ではなく、ルールで行われ
る場合にも、容易に同様の判別フローを作成する事がで
きるだろう。
【0019】図3は、クラスタリング手段10の動作フ
ローを示したものである。まず最初に、未知事例が入力
される(ステップ20)。この未知事例に対して、判別
木の最初の質問項目が調べられる(ステップ21)。未
知事例は特定の属性値を持っているから、判別木のその
分岐を下がってゆく。そして、この分岐先に質問項目が
あるか否かを調べる(ステップ22)。質問項目が無
く、クラス名称が記載されているならば、クラス名を出
力して処理を終了する(ステップ23)。一方、分岐先
に質問項目があるか否かを調べた際(ステップ22)、
質問項目が存在するならば、この新たな質問項目につい
て未知事例の属性値を調べ(ステップ24)、再び分岐
を下りてゆく。この分岐を次々と下りてゆく動作は、最
終的に未知事例のクラスが確定するまで続けられる。
【0020】図4は、多数決手段11の構成例である。
但し、ここでは、クラスタリング手段10は4個であ
り、出力されるクラスは、「0」「1」の2通りである
とした。入力1〜入力4までの出力中に2個以上「1」
が存在すれば、多数決手段の出力が「1」となる。クラ
スタリング手段の個数が4以外の場合でも、同様に多数
決手段を構成できる。また、クラスが「0」「1」以外
の場合でも、全てのクラスタリング手段の出力中に、最
も多く現れるクラスを多数決手段の出力とすれば良い。
【0021】本発明のひとつの特徴は、ID3の様に、
計算量の少ない概念学習アルゴリズムを利用できるた
め、ルール/判別木の生成に時間を要しない事である。
また、概念学習アルゴリズム自体には何らの制限が無い
ので、どの様な概念学習アルゴリズムを適用する事もで
きる。また、多数決手段の動作は高速であるから、本発
明を用いた事により処理時間遅延は無視できる。図6に
は、実際に、属性数7(但し、その中でクラス決定に関
与する属性は3個)の場合について、ID3によるツリ
ー生成と、未知事例に対する判別性能の評価を行った結
果である。属性は「0」「1」の2値、クラスも「0」
「1」の2値である。
【0022】事例数は30と40について行った。例え
ば、40の場合には、まず最初に、乱数を用いて、40
個の学習事例を作成し、この学習事例のクラスは、予め
分かっているクラス決定方法で決定しておく。もちろ
ん、このクラスの決定に利用しているルールは、ID3
を知らない。次に、この40事例から1事例を抜いた3
9個の事例を作り、ID3により判別木を生成した。判
別木は、抜くべき事例が40個あるので、40個でき
る。次に、再び乱数を用いて、40個のテスト事例(未
知事例)を作成する。そして、本発明の手法により、同
一事例から作成された40個の判別木を用いて、このテ
スト事例(未知事例)の判別を行う。図6は、これを1
000回繰り返した時の未知事例に対する平均の誤り率
である。比較の対象は、40個の事例からID3により
判別木を一個作成して、テスト事例の評価に用いた場合
である。明らかに、本発明の方が従来の方法に比較して
高い識別性能を持つ事が分かる。
【0023】図5は、本発明の他の実施例に係わる多数
決型クラスタリング装置の構成を示すブロック図であ
る。同図に示す多数決クラスタリング装置1は、クラス
タリング手段30と多数決手段31から構成される。但
し、クラスタリング手段30は、図1のクラスタリング
手段10と同一である。若干の修正が加えられているの
は、多数決手段31である。ここでは、各クラスタリン
グ手段30の出力にある重みを加えている。そして、そ
の重みを考慮した上で、多数決を行う。図5の例では、
クラスタリング手段30の出力が「0」または「1」と
考えているので、重みは数値で与え、多数決手段31の
スレショールドを大きめにとって、多数決を行ってい
る。もし、クラスタリング手段30の出力が「0」
「1」でなく、2個以上のシンボルの場合には、そのシ
ンボルの個数をカウントする際に、各クラスタリング手
段の出力に対して、重み分のカウントを行えば良い。
【0024】重みの決定には種々の方法が存在しうる。
但し、統計解析の分野で知られる「オッカムのかみそ
り」と呼ばれる規範に従って記述量の小さなルール/判
別木の方が未知事例に対する判別性能が良いと考える。
従って、記述量の小さなルール/判別木ほど小さな重み
を与える様にして、各重みを決定すればよい。一つの方
法は、判別木のもつ分岐の個数がある。
【0025】
【発明の効果】以上説明したように、本発明によれば、
従来の概念学習アルゴリズムの構成を変更せずに、その
性能を向上させることができるとともに、また概念学習
アルゴリズムに制限を加えないので、ID3のように計
算量の少ない概念学習アルゴリズムを利用できる。更
に、多数決手段の動作が高速であるので、処理時間遅延
を無視することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる多数決型クラスタリ
ング装置の構成を示すブロック図である。
【図2】ID3における属性「髪の毛」による試行およ
び生成された判別木を示す図である。
【図3】判別木の実行手順を示すフローチャートであ
る。
【図4】多数決手段の構成を示す図である。
【図5】本発明の他の実施例の構成を示すブロック図で
ある。
【図6】未知事例に対する誤り率を本発明の場合と従来
の場合について示す図である。
【符号の説明】 1 多数決型クラスタリング装置 10 クラスタリング手段 11 多数決手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 過去の観測事例から未知の事例のクラス
    を判別するルールを学習する概念学習手段により生成さ
    れる複数のルール/判別木を各々保持し、該保持してい
    る個々のルール/判別木毎にまたは該保持しているルー
    ル/判別木から選択したルール/判別木毎に未知事例の
    クラスを判定する複数のクラスタリング手段と、該複数
    のクラスタリング手段の出力から多数決により最終的な
    クラスを決定する多数決手段とを有することを特徴とす
    る多数決型クラスタリング装置。
  2. 【請求項2】 過去の観測事例から未知の事例のクラス
    を判別するルールを学習する概念学習手段により生成さ
    れる複数のルール/判別木を各々保持し、該保持してい
    る個々のルール/判別木毎にまたは該保持しているルー
    ル/判別木から選択したルール/判別木毎に未知事例の
    クラスを判定する複数のクラスタリング手段と、該複数
    のクラスタリング手段の出力から多数決により最終的な
    クラスを決定するとともに、前記クラスタリング手段に
    保持されるルール/判別木の記述量が少ない程大きな重
    みを与えて多数決を行う多数決手段とを有することを特
    徴とする多数決型クラスタリング装置。
JP5214061A 1993-08-30 1993-08-30 多数決型クラスタリング装置 Pending JPH0764793A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5214061A JPH0764793A (ja) 1993-08-30 1993-08-30 多数決型クラスタリング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5214061A JPH0764793A (ja) 1993-08-30 1993-08-30 多数決型クラスタリング装置

Publications (1)

Publication Number Publication Date
JPH0764793A true JPH0764793A (ja) 1995-03-10

Family

ID=16649616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5214061A Pending JPH0764793A (ja) 1993-08-30 1993-08-30 多数決型クラスタリング装置

Country Status (1)

Country Link
JP (1) JPH0764793A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004079627A1 (ja) * 2003-03-07 2006-06-08 株式会社ダイナコム 遺伝子を同定するための作用要素の選択方法
JP2008506180A (ja) * 2004-07-08 2008-02-28 アンドリュー・コーポレイション 監視構成
JP2015026372A (ja) * 2013-07-25 2015-02-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 並列ツリー・ベースの予測のための、コンピュータにより実行される方法、ストレージ媒体、およびコンピュータ・システム
WO2015056436A1 (ja) * 2013-10-15 2015-04-23 国立大学法人広島大学 認識システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004079627A1 (ja) * 2003-03-07 2006-06-08 株式会社ダイナコム 遺伝子を同定するための作用要素の選択方法
JP2008506180A (ja) * 2004-07-08 2008-02-28 アンドリュー・コーポレイション 監視構成
US7902972B2 (en) 2004-07-08 2011-03-08 Andrew Corporation Supervising arrangement
JP2015026372A (ja) * 2013-07-25 2015-02-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 並列ツリー・ベースの予測のための、コンピュータにより実行される方法、ストレージ媒体、およびコンピュータ・システム
WO2015056436A1 (ja) * 2013-10-15 2015-04-23 国立大学法人広島大学 認識システム

Similar Documents

Publication Publication Date Title
CN111177792B (zh) 基于隐私保护确定目标业务模型的方法及装置
CN111026917B (zh) 一种基于卷积神经网络的数据包分类方法及系统
EP0552575B1 (fr) Procédé de segmentation polytomique
CN110728177A (zh) 基于双协方差随机子空间的类噪声数据低频振荡辨识方法
CN117194920A (zh) 一种基于大数据分析的数据系统处理平台及处理方法
Aldous More uses of exchangeability: representations of complex random structures
CN111144546A (zh) 评分方法、装置、电子设备及存储介质
JPH0764793A (ja) 多数決型クラスタリング装置
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
CN111488950B (zh) 分类模型信息输出方法及装置
JP2003256839A (ja) パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
Solomonott Inductive Inference Theory-A Unified Approach to Problems in Pattern Recognition and Artificial Intelligence.
Lekhi et al. Outlier Reduction using Hybrid Approach in Data Mining
JP6659120B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Myles et al. Induction of decision trees using fuzzy partitions
CN110298750B (zh) 高并发交易数据处理方法、装置、计算机设备和存储介质
CN113673683A (zh) 一种基于cgan判别器和生成器的电子鼻识别模型优化方法
JPH08161172A (ja) 知識修正型学習システム
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
KR102546815B1 (ko) 통계적 특징점 선별 장치 및 방법
Diggans et al. Spanning trees of recursive scale-free graphs
CN115795314B (zh) 一种关键样本采样方法、系统、电子设备及存储介质
CN112131388B (zh) 一种包含文本型数据类型的异常数据检测方法
Overwater On the mathematical links between phylogenetic and feature diversity.
Van Horn et al. The BBG rule induction algorithm