JPH0793158A - 決定木学習生成装置 - Google Patents

決定木学習生成装置

Info

Publication number
JPH0793158A
JPH0793158A JP5238150A JP23815093A JPH0793158A JP H0793158 A JPH0793158 A JP H0793158A JP 5238150 A JP5238150 A JP 5238150A JP 23815093 A JP23815093 A JP 23815093A JP H0793158 A JPH0793158 A JP H0793158A
Authority
JP
Japan
Prior art keywords
classification
value
decision tree
feature
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5238150A
Other languages
English (en)
Inventor
Ryohei Orihara
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5238150A priority Critical patent/JPH0793158A/ja
Publication of JPH0793158A publication Critical patent/JPH0793158A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】連続値をとる特徴量分類用の決定木を自動生成
できるようにする。 【構成】事例の特徴を表す第1特徴量(D1)と、分類用の
属性を示す第2特徴量(D2)との少なくとも2種の特徴量
を有する事例データ(DT)を対象とし、複数のDTの集合に
対し、前記複数種の特徴量に応じてそのDT集合を、予め
定めた分類クラス(CL)のうちの対応するCLに分類するた
めの規則を得る装置として、与えられた複数のDTを順次
取り込み、そのD1の最大値と最小値との差(df)を属性別
に求めこのdfの分割後の値がD1を分類するために定めた
分類の粒度の値以下となるまでdfと当該粒度の値とによ
り定まるクラスタ数分に分割してCLとすると共に、各隣
接するCLの特徴値の境界値範囲を前記分割の際の各CLの
特徴値のうちの最も近い値の中間値を以て定めることで
決定木を生成する手段、CL夫々のCLのクラス分け誤り率
が予め定めた設定値に達すると決定木生成を終了する手
段とを設けて構成した。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、与えられたいくつかの
事例データを、適当な部分クラスに分類する分類規則
を、事例データから帰納的に学習する決定木学習装置に
関する。
【0002】
【従来の技術】近年、人口知能の研究において、例題を
与えることによって、対象とする概念の一般知識を発見
する機械学習の技術が広く研究されつつある。その一つ
の方向として、数値または記号で表現された幾つかの特
徴量と、それに対してオペレータ等が事前にデータを吟
味して与える分類結果を事例とし、多数の事例を分類装
置の例題として与えることによって、特徴量と分類結果
の間の一般法則を見付け出し、新たな事例が与えられた
時に、その事例の持つ特徴量を評価して分類結果を出力
すると云った処理をする学習装置が開発されている。
【0003】ここで、事例が分類されるべき部分クラス
の分類結果を分類クラスと呼ぶ。例えば、図7に示す事
例データは、2つの特徴量N1 (=604 〜 695)および
2(=A,B)と、分類クラス(C1 〜C5 )とを持
つ事例データである。
【0004】そして、事例データの持つ特徴量を評価し
てその事例データの分類結果を得ると云ったような分類
規則を導く方法の代表例として、特徴量を分類属性と
し、分類結果クラスを得る決定木(「特徴量Aの値がa
であり、特徴量Bの値がbであれば分類結果はCであ
る」と云った規則を、特徴量を“節”とし、分類結果を
“葉”とする木(ツリー)の形にまとめたもの)を導く
ようにする手法がある。
【0005】図8は、上述した図7の事例に対して、以
下で説明する公知の決定木学習アルゴリズムが導いた決
定木の例を示した図である。この決定木は、「特徴量N
2 の値が“A”であって、特徴量N1 の値が“614.
5”以下ならば、分類クラスはC4 、そうでなく、特徴
量N1 の値が“614.5”より大きく“649.5”
以下ならば、分類クラスはC5 、そうでなく…」と云う
知識を表す。
【0006】図9は、公知の決定木学習装置の構成を示
したものであり、図10は公知の決定木学習装置の処理
の流れを示したものである。図9において、91は決定
木学習用データ入力部であって、当該決定木学習装置に
決定木学習用データを入力するものであり、92は決定
木生成終了判定部であって、特徴量選択部94によって
選択された特徴量がどの値であるかによって、与えられ
たデータSを複数の部分に分割し、それぞれの部分につ
いて図10のSt81のステップ以降の処理を再帰的に
繰り返すことで、全ての枝が終了したか否かを判断する
ものであり、この時、生成中の決定木99に、選択され
た特徴量を付け加えることで決定木を成長させるのが決
定木生成部93である。94は特徴量選択部であって、
特徴量がどの値であるかを選択するものである。また、
95は連続値を区間に分割することによって記号的特徴
量に変換する連続値特徴量記号化装置、96は相互情報
量計算部であって、与えられたデータSの持つ情報量I
(S)と、すべての特徴量Ai について、その特徴量が
どの値であるかによってデータを分割した後の各部分の
情報量の和E(Ai ,S)、さらにその差gain(Ai
S)=I(S)−E(Ai ,S)を計算するものであ
り、この差gain(Ai ,S)が最も大きい特徴量を選ぶ
のが上述の特徴量選択部94である。
【0007】97は決定木出力部であって、決定木生成
終了判定部92が決定木生成終了と判定した場合に、生
成中の決定木99を完成した決定木として出力するもの
であり、98がこの決定木出力部97の出力した決定木
である。
【0008】このような構成の従来装置は、つぎのよう
な処理を行う。決定木学習用データ入力部91から決定
木学習用データが入力されると(図10のSt80)、
決定木生成終了判定部92によって、分類クラスに分け
られた事例データが、その分類クラスに該当するかの誤
り率である分類誤り率設定値(prune rate)以上を占め
るか否かが判断される(図10のSt81)。
【0009】もしそうであって、すべての再帰的繰り返
しについて、やはり同じことが言えているならば(図1
0のSt82)、決定木出力部97が生成中の決定木9
9を決定木98として出力し(図10のSt83)、処
理を終了する。
【0010】そうでないならば、決定木生成部93は、
特徴量選択部94によって選択された特徴量がどの値で
あるかによって、与えられたデータSを複数の部分に分
割し、それぞれの部分について(図10のSt81)以
降の処理を再帰的に繰り返すことを行う。この時、生成
中の決定木(99)に選択された特徴量を付け加えるこ
とで決定木を成長させる。
【0011】以上の処理における特徴量の選択は、つぎ
にようにして行う。すなわち、相互情報量計算部96に
より、与えられたデータSの持つ情報量I(S)と、す
べての特徴量Ai について、その特徴量がどの値である
かによってデータを分割した後の各部分の情報量の和E
(Ai ,S)、さらにその差gain(Ai ,S)=I
(S)−E(Ai ,S)を計算し(St85)、差gain
(Ai ,S)が最も大きい特徴量を選ぶ(St87)こ
とによって行う。ここで、分類クラスをC0 ,C1
…,Cn とし、上記与えられたデータS中でのクラスC
i の出現頻度をPi (S)としたとき、
【0012】
【数1】 である。
【0013】なお、これについては、「参考文献2」
(Quinlan,J.R., “Induction of Decision Trees ”,
Machine Learning Vol.1,1986.)に詳しい。この時、も
し特徴量中に連続値をとるものがあったならば(図10
のSt84)、連続値特徴量記号化装置95によって、
連続値を区間分割することによって記号的特徴量に変換
し(図10のSt86)、記号的特徴量と同様に扱う。
【0014】以下では、連続値特徴量記号化装置95に
おいて用いられる公知の区間分割アルゴリズムの例につ
いて説明する。図11は、連続値特徴量記号化装置95
において用いられる公知の区間分割アルゴリズムの例の
構成を示したものであり、図12は、連続値の区間を分
割する処理(図10のS86)において用いられる公知
の区間分割アルゴリズムの例における処理の流れを示し
たものである。
【0015】学習データ集合/連続値特徴量入力部71
には、決定木学習用データと、区間を分割すべき連続値
特徴量とが入力される(図12のSt30)。入力され
た特徴量をAとする。
【0016】次に、学習データ分類部72が、入力され
た決定木学習用データ79を、その分類クラスによって
分類する(図12のSt31)。次に、分類結果序列化
装置73が、分類された学習用データ80の各分類結果
を、それぞれ特徴量Aの値の平均値により順序付ける
(図12のSt32)。序列化された分類済み学習用デ
ータ81に対し、境界値決定部74は、隣合った分類結
果w1 、w2 に対して、以下の式で決められる境界値B
を計算する。ここで、mi は分類結果wi の特徴量Aの
平均を、di は分類結果wi の特徴量Aの値の分散を表
す。
【0017】 B=(m21 +m12 )/(d1 +d2 ) こうして、すべての分類結果に対し境界値を割り当てた
なら、再分割必要性判定部75が、再度分割すべき分類
結果があるかどうかを判定する。これは、分類結果wi
に対し、wi 中のデータで、wi に割り当てられた境界
値内に特徴量Aの値が属さないものの割合が、予め決め
られた割合(cluster rate)より大きいかどうかを判定
することにより行う(図12のSt34)。
【0018】その結果、もし大きいなら、例題分割部7
6が、その分類結果を2つに分割する(図12のSt3
5)。分割は、例えば、後述するk-means アルゴリズム
を、k=2として用いる。
【0019】ここで、一つでも分割された分類結果があ
ったならば、図12のSt32以降を繰り返す(図12
のSt36)。もしなかったならば、区間記号化装置7
7が、分割された各区間に記号を付与する(図12のS
t37)。そして、記号化特徴量出力部78が、特徴量
Aを記号化した特徴量を出力する(図12のS38)。
【0020】なお、これについては、「参考文献1」
(荒木大,小島昌一,“決定木学習における数値データ
の区間分割”,第5回人口知能学会大会論文集,199
1.)に詳しい。
【0021】図8は、図7に示す事例データから、上記
定められた割合の設定値(prune rate)を70%、与え
られたクラスタ誤り率のレート(cluster rate)を40
%として上記決定木学習装置を用いて導いた決定木であ
る。
【0022】
【発明が解決しようとする課題】以上述べた従来の技術
では、以下のような問題点がある。従来の決定木学習装
置においては、事例データ中に分類クラスが与えられる
ことを前提としており、しかもそれは離散的な値をとる
ものでなければならない。従って、ある特徴量にしたが
って分類を行うような決定木を求めたいが、その特徴量
が連続値をとる場合には、事前にオペレータ等が区間分
割等を行って、離散な分類クラスを定義してやる必要が
あった。
【0023】例えば、図3に示すような事例データが与
えられ、分類対象の特徴量N0 およびN2 の値に従って
分類を行う決定木を求めたいとするならば、たとえば特
徴量N0 に対して {620未満、620以上640未
満、640以上660未満、660以上680未満、6
80以上} と云うような区間分割を行い、この区間分
割によって得られたそれぞれの区間に、N2 の値である
Aの場合とBの場合とで例えば、 {C1 ,C2 ,C3
,C4 ,C5 } と云うような具合に分類クラスの名
前を与えた後に、事例データを決定木学習装置に入力す
る必要があった。図7に示す事例データは、図3に示す
ものに対してこのような操作を人手によって行い、得ら
れたものを示したものである。
【0024】しかし、人手によるこのような作業は、量
が少ない場合は良いが、量が膨大になったり、分類が複
雑になると手に負えなくなる。従って、この作業を自動
化する必要がある。
【0025】本発明の目的とするところは、連続値をと
る特徴量によって分類を行うような決定木を求めたい場
合に、その特徴量に対して適切な分類クラスを自動的に
設定し、連続値をとる特徴量による分類のための決定木
を自動的に導くことが出来るようにした決定木学習装置
を提供することにある。
【0026】
【課題を解決するための手段】上記目的を達成するた
め、本発明はつぎのように構成する。すなわち、事例の
特徴を表す第1の特徴量と、分類用の属性を示す第2の
特徴量との少なくとも2種の特徴量を有する事例データ
を対象とし、複数の事例データの集合に対し、前記複数
種の特徴量に応じてその事例データ集合を、予め定めた
分類クラスのうちの対応する分類クラスに分類するため
の規則を得る決定木学習生成装置として、与えられた複
数の事例データを順次取り込み、その第1の特徴量の最
大値と最小値との差を属性別に求め、この差の分割後の
値が前記第1の特徴量を分類するために予め定めた分類
の粒度の値以下となるまで、前記差と当該粒度の値とに
より定まるクラスタ数分に分割して分類クラスとすると
共に、各隣接する分類クラスの特徴値の境界値範囲を前
記分割の際の各分類クラスの特徴値のうちの最も近い値
の中間値を以て定めることにより決定木を生成する手
段、分類クラスそれぞれの分割クラスのクラス分け誤り
率が予め定めた設定値に達すると決定木生成を終了する
決定木生成終了制御手段とを設けて構成した。
【0027】
【作用】このような構成において、複数の事例データを
与えると、決定木生成手段は当該与えられた複数の事例
データを順次取り込み、その第1の特徴量の最大値と最
小値との差を属性別に求め、この差の分割後の値が前記
第1の特徴値(特徴量)を分類するために予め定めた分
類の粒度の値以下となるまで、予め設定されたクラスタ
数分に分割して分類クラスとすると共に、各隣接する分
類クラスの特徴値の境界値範囲を前記分割の際の各分類
クラスの特徴値のうちの最も近い値の中間値を以て定め
ることにより決定木を生成する。そして、決定木生成終
了制御手段は、分類クラスそれぞれの分割クラスのクラ
ス分け誤り率が予め定めた設定値に達するか、またはデ
ータ集合の分類クラスについて、定義されるべき特徴量
の分散が設定精度に達すると決定木生成を終了させる。
【0028】本発明は、事例の特徴を表す第1の特徴量
と、分類用の属性を示す第2の特徴量との少なくとも2
種の特徴量を有する事例データを対象とし、複数の事例
データの集合に対し、前記複数種の特徴量に応じてその
事例データ集合を、予め定めた分類クラスのうちの対応
する分類クラスに分類するための規則である決定木を、
事例データ集合を与えることで生成する決定木学習装置
であり、連続値をとる特徴量と属性によってデータの分
類を行う場合の決定木導出における各特徴量選択の段階
でクラス分け(クラスタリング)を行い、適切な区間を
この特徴量に対して設定する。クラスタリング・アルゴ
リズムに対するパラメータであるクラスタ数は、ユーザ
が必要とする分類の精度(分類の粒度)を与えることに
よって自動的に決定する。決定木導出は、データ集合の
分類クラスについて、定義されるべき特徴量の分散が設
定精度より小さくなるか、あるいは、その集合の、クラ
スタリングによって与えられた分類クラスの中でのクラ
ス分け誤り率が設定レート(prune rate)に収まるか、
またはデータ集合の分類クラスについて、定義されるべ
き特徴量の分散が設定精度に収まると終了させるように
した。
【0029】このように、連続値を属性に対応して分類
する決定木を作成しようとする場合、分類の精度(分類
の粒度)と、特徴値と分類すべき属性の値からなる学習
用の複数のサンプルデータを与えることによって当該サ
ンプルデータから該サンプルデータの属性別最大差を前
記分類の粒度に従った分類クラスにクラスタリングし、
その分類クラスの特徴値境界値範囲を前記分割の際の各
分類クラスの特徴値のうちの最も近い値の中間値を以て
定めることにより決定木を生成することから分類クラス
を自動的に定義できるので、連続値属性に対する分類木
の作成が完全に自動化される。
【0030】従って本発明によれば、連続値をとる特徴
量によって分類を行うような決定木を求めたい場合に、
その特徴量に対して適切な分類クラスを自動的に設定し
て、連続値をとる特徴量による分類のための決定木を自
動的に導くことが出来るようになる決定木学習装置を提
供することができる。
【0031】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は、本発明の構成を示すものであり、図2は
本発明全体の処理の流れを示すものである。図1におい
て、51は決定木学習用データ入力部、52は決定木生
成終了判定部、53は決定木生成部、54は特徴量選択
部、55は連続特徴量記号化装置、56は相互情報量計
算部、57は決定木出力部、58は決定木、59は生成
中の決定木、60はクラスタリング部、61はパラメー
タ入力部である。
【0032】これらのうち、決定木学習用データ入力部
51はいくつかの特徴量からなる事例のデータを入力す
るものであり、パラメータ入力部61は分類の対象にす
る属性名やその分類に必要とされる精度(分類の粒度
(prec))、決定木生成終了判定に用いる同一の分類ク
ラスに分類されたデータの分類誤り率を示す分類誤り率
設定値(prune rate)、そして、与えられたクラスタ誤
り率のレート(clusterrate)などのパラメータ・デー
タを入力するためのものである。
【0033】また、決定木生成終了判定部52は、与え
られた訓練例の属性Nに属する枝の取り得る値の最大値
と最小値との差(diff)が、分類の粒度(prec)以下で
あるかどうかを判断し、差(diff)が分類の粒度prec以
下であって、すべての再帰的繰り返しについて同じこと
が言えている場合に、全ての再帰の分枝が終了のときは
終了と判断し、全ての再帰の分枝が終了していなければ
その枝は終りと判定してつぎの枝の処理を実行させる指
示を行う機能を有する。
【0034】決定木生成部53は、特徴量選択部54に
よって選択された特徴量がどの値であるかによって、与
えられた訓練例を複数の部分に分割し、それぞれの部分
について(図2のSt21)以降の処理を再帰的に繰り
返すことを実施するものであり、連続特徴量記号化装置
55は相互情報量計算部56が求める特徴量中に連続値
をとるものがあった時、パラメータ・データである与え
られたクラスタ誤り率のレート(cluster rate)を用い
てこのレートを満たすことができるならば、前記連続値
を区間分割すると云った処理を行うものである。連続特
徴量記号化装置55の構成は図11に示した公知の構成
で良く、処理の流れは図12に示した公知のアルゴリズ
ムを利用する。
【0035】また、相互情報量計算部56は、与えられ
た訓練例集合Sの持つ情報量I(S)と、全ての特徴量
Ai について、その特徴量がどの値であるかによってデ
ータを分割した後の各部分の情報量の和E(Ai ,
S)、さらにその差gain(Ai ,S)=I(S)−E
(Ai ,S)を計算するものであり、特徴量選択部54
はこの結果から、上記差gain(Ai ,S)が最も大きい
特徴量を選ぶと云った処理を行うものである。
【0036】決定木出力部57は決定木生成終了判定部
52が全ての再帰の分枝終了と判断した際に、決定木生
成部53が生成して生成中の決定木データ59として保
存した当該決定木データ59を最終的な決定木データ5
8として出力するものである。クラスタリング部60は
訓練例の属性Nの値の集合に対し、「diff/prec」個の
クラスタに分割するクラスタリングを行うものである。
【0037】つぎに上記構成の本装置の作用を図2のフ
ローチャートを参照して説明する。いくつかの特徴量か
らなる事例(以下、訓練例と呼ぶ)が紙、または磁気テ
ープなどに表形式に記録されているとする。例えば図3
である。
【0038】図3は、N0 、N1 、N2 と云う3つの特
徴量を持った訓練例である。この訓練例のデータは、キ
ーボード入力、ネットワークによるオンライン入力、情
報伝達の媒体である磁気テープからの読取り入力等のか
たちで決定木学習用データ入力部51より入力される
(図2のSt20)。また、パラメータ入力部61から
は、分類の対象にする属性名(与えられた事例データ
の、どの特徴量に基づいて分類を行うかを示すもの)、
その分類に必要とされる精度(分類の粒度(prec))、
前述の、決定木生成終了判定のために用いる同一の分類
クラスに分類されたデータの分類誤り率の割合を示す分
類誤り率設定値(prune rate)、連続値特徴量記号化装
置55で用いられるクラスタ誤り率のレート(cluster
rate)などのパラメータ・データが入力される。
【0039】決定木学習データ入力部51から訓練例が
入力されると(図2のSt20)、決定木生成終了判定
部52によって、与えられた訓練例の属性Nの値の最大
値と最小値との差(diff)が分類の粒度であるprec以下
であるか否かが判断される(図2のSt30)。その結
果、差(diff)が分類の粒度prec以下であって、すべて
の再帰的繰り返しについてやはり同じことが言えている
ならば、全ての再帰の分枝が終了と判断し(図2のSt
22)、これによって決定木出力部57が決定木のデー
タ58を出力し(図2のSt23)、決定木を求める処
理を終了する。
【0040】そうでないときはクラスタリング部60で
のクラスタリング処理に入る。クラスタリング部60で
は、訓練例の属性Nの値の集合に対し、「diff/prec」
個のクラスタに分割すると云ったクラスタリングの処理
を行う(図2のSt29)。これには、例えば公知のk-
means アルゴリズムを用いる。
【0041】すなわち、クラスタリング部60はクラス
タリングの処理をつぎのようにして行う。今、各クラス
タを分類のためのクラス(以下分類クラス)と考える。
この時、各クラスタの境界値は、そのクラスタの最小値
と値の小さい側に隣合ったクラスタの最大値との中間
値、およびそのクラスタの最大値と値の大きい側に隣合
ったクラスタの最小値との中間値とする。最小(最大)
のクラスタの小さい(大きい)側の境界値は設定されな
いものとする。例えば、 {667},{674,681},{688} と云うクラスタが出来た時、{667}のクラスタは
「無限小から“670.5”以下」と云う名前の分類ク
ラスと考え、{674,681}のクラスタは「“67
0.5”より大きく、“684.5”以下」と云う名前
の分類クラスと考えるのである。
【0042】クラスタリング部60によって分類クラス
が定義された後は、前述した公知の決定木学習装置と同
様に、特徴量を選択することによって決定木を生成す
る。すなわち、これはつぎのようにして行う。
【0043】クラスタリング部60による分類クラスの
定義が終了すると、決定木生成終了判定部52での処理
に入り、まず、決定木生成終了判定部52において、分
類クラスに分類された事例データの分類誤り率が、同一
の分類クラスに分類されたデータの分類誤り率設定値
(prune rate)以上を占めるかどうかが判断される(図
2のSt21)。その結果、もし分類誤り率設定値(pr
une rate)以上を占めていて、すべての再帰的繰り返し
についてやはり同じことが言えているならば(図2のS
t22)、決定木出力部57が決定木(58)を出力し
(St23)、決定木を求める処理を終了する。
【0044】図2のステップSt21の判定の結果、も
し分類誤り率設定値(prune rate)以上を占めていない
ならば、決定木生成部53での処理に移る。そして、決
定木生成部53では、特徴量選択部54によって選択さ
れた特徴量がどの値であるかによって、与えられた訓練
例を分割してそれぞれの部分について(図2のSt2
1)以降の処理を再帰的に繰り返すことを実施し、これ
によって、当該訓練例の取り得る枝を複数に分岐し、そ
れぞれの部分についての特徴量を求める。
【0045】この時、生成中の決定木59の枝に対し
て、上述の選択された特徴量を付け加えることで決定木
生成部53は決定木を成長させる。以上の処理における
特徴量の選択は、相互情報量計算部56の計算結果をも
とに特徴量選択部54により行われる。すなわち、相互
情報量計算部56では与えられた訓練例集合Sの持つ情
報量I(S)と、全ての特徴量Ai について、その特徴
量がどの値であるかによってデータを分割した後の各部
分の情報量の和E(Ai ,S)、さらにその差gain(A
i ,S)=I(S)−E(Ai ,S)を計算するので
(図2のSt25)、特徴量選択部54はこの相互情報
量計算部56が求めたもののうち、上記差gain(Ai ,
S)が最も大きい特徴量を選ぶ(図2のSt27)。こ
れによって特徴量の選択が成される。
【0046】この時、もし特徴量中に連続値をとるもの
があったならば(図2のSt24)、連続値特徴量記号
化装置55によって、連続値を区間に分割することによ
って記号的特徴量と同様に扱う。この分割処理は図12
のフローチャートに従う。
【0047】以下では、クラスタリング部60において
用いられる公知のクラスタリングアルゴリズムの例につ
いて説明する。図4は、クラスタリング部60において
用いられる公知のクラスタリング・アルゴリズム例の構
成を示したものであり、図5は、分類対象特徴量のクラ
スタリング(図2のSt29)において用いられる公知
のクラスタリング・アルゴリズム例における処理の流れ
を示したものである。
【0048】クラスタリング部60によるクラスタリン
グ処理は図4に示すように、クラスタリングされるべき
データと、パラメータ(k)とを入力するためにあるデ
ータ/k入力部11から、まず、クラスタリングされる
べきデータと、いくつのクラスタリングに分けるかと云
うパラメータ(k)が入力されることにより開始される
(図5のSt41)。データ/k入力部11から入力さ
れたこれらのデータは、データ記憶部12に保持され
る。
【0049】このデータ記憶部12に保持されたデータ
は、クラスタリング実行部17と平均値初期化部13に
与えられる。すると、平均値初期化部13はクラスタの
平均を、データ記憶部12に保存されたデータの先頭か
ら、相異なるk個を取ってその平均値を求め、各クラス
タの平均値保持部15に更新記憶させることによって各
クラスタの平均値の初期化をする(図5のSt42)。
【0050】一方、クラスタリング実行部17は、デー
タ記憶部12に記憶されている各データを、それと最も
近い平均値を持つクラスタへと分類する(図5のSt4
3(クラスタリング処理))。
【0051】そして、その結果はクラスタリング結果と
してクラスタリング結果保存部18保存する。ついで各
クラスタの平均値保持部15に保持されている平均値D
AV-NEWを前回の平均値DAV-OLDとして前回の各クラスタ
平均値保持部14へとコピーした後、クラスタリング結
果保存部18に対して、平均値計算部20が各クラスタ
の平均値を計算し(図5のSt44)、この計算により
得られた平均値を新しい平均値DAV-NEWとして各クラス
タの平均値保持部15に保存する。
【0052】ここで、クラスタ平均比較部16が、各ク
ラスタの平均値保持部15に保存された新しい平均値D
AV-NEWと、前回の各クラスタ平均値保持部14に保持さ
れている前回の平均値DAV-OLDとを比較して両者が等し
いか否かを判断する(図5のSt45)。
【0053】クラスタ平均比較部16による当該判断の
結果、両者が等しければ、出力部19はクラスタリング
結果保存部18からクラスタリング結果を出力して(図
5のSt46)終了する。
【0054】ステップSt46の比較の結果、両者が等
しくなければステップSt43以下の処理を繰り返す。
以上がクラスタリング部60におけるクラスタリング処
理操作の詳細である。
【0055】図6は、図3の学習用データに対して、分
類対象特徴量をN0 、分類の粒度(prec)を“10”、
与えられたクラスタ誤り率のレート(cluster rate)を
“40%”、分類誤り率設定値(prune rate)を“99
%”として本発明を用いて生成した決定木である。
【0056】図6の決定木は、「特徴量N1 が“62
1.5”以下であり、特徴量N2 がAであるなら、特徴
量N0 の値は“670.5”から“684.5”の間で
ある。そうでなく(N2 がBで)、N1 が以下なら、N
0 の値は“656.5”から“670.5”の間であ
る。そうでなく…」と云う知識を表す。
【0057】従来の方法においては、決定木の“葉”に
現れる値(の範囲)は、学習システムの外側でユーザが
与える必要があったが、本発明によれば、決定木の
“葉”に現れる値は、与えられた精度に対して適切な値
(適切な値の範囲)となるように自動的に決定できる。
【0058】要するに、本発明は、数値または記号で表
現された幾つかの特徴量と、それに対してオペレータ等
が事前にデータを吟味して与える分類結果を事例とし、
多数の事例を分類装置の例題として与えることによっ
て、特徴量と分類結果の間の一般法則を見付け出し、新
たな事例が与えられた時に、その事例の持つ特徴量を評
価して分類結果を出力すると云った処理をする学習装置
において、事例の特徴を表す第1の特徴量と、分類用の
属性を示す第2の特徴量との少なくとも2種の特徴量を
有する事例データを対象とし、複数の事例データの集合
に対し、前記複数種の特徴量に応じてその事例データ集
合を、予め定めた分類クラスのうちの対応する分類クラ
スに分類するための規則を得る決定木学習装置として、
与えられた複数の事例データを順次取り込み、その第1
の特徴量の最大値と最小値との差を属性別に求め、この
差の分割後の値が前記第1の特徴量を分類するために予
め定めた分類の粒度の値以下となるまで、前記差と当該
粒度の値とにより定まるクラスタ数分に分割して分類ク
ラスとすると共に、各隣接する分類クラスの特徴値の境
界値範囲を前記分割の際の各分類クラスの特徴値のうち
の最も近い値の中間値を以て定めることにより決定木を
生成する手段、分類クラスそれぞれの分割クラスのクラ
ス分け誤り率が予め定めた設定値に達するか、またはデ
ータ集合の分類クラスについて、定義されるべき特徴量
の分散が設定精度に達すると決定木生成を終了する決定
木生成終了制御手段とを設けて構成したものである。
【0059】そして、このような構成において、複数の
事例データを与えると、決定木生成手段は当該与えられ
た複数の事例データを順次取り込み、その第1の特徴量
の最大値と最小値との差を属性別に求め、この差の分割
後の値が前記第1の特徴量を分類するために予め定めた
分類の粒度の値以下となるまで、前記差と当該粒度の値
とにより定まるクラスタ数分に分割して分類クラスとす
ると共に、各隣接する分類クラスの特徴値の境界値範囲
を前記分割の際の各分類クラスの特徴値のうちの最も近
い値の中間値を以て定めることにより決定木を生成し、
そして、決定木生成終了制御手段は、分類クラスそれぞ
れの分割クラスのクラス分け誤り率が予め定めた設定値
に達するか、またはデータ集合の分類クラスについて、
定義されるべき特徴量の分散が設定精度に達すると決定
木生成を終了させるものである。
【0060】本発明は、事例の特徴を表す第1の特徴量
と、分類用の属性を示す第2の特徴量との少なくとも2
種の特徴量を有する事例データを対象とし、複数の事例
データの集合に対し、前記複数種の特徴量に応じてその
事例データ集合を、予め定めた分類クラスのうちの対応
する分類クラスに分類するための規則である決定木を、
事例データ集合を与えることで生成する決定木学習装置
であり、連続値をとる特徴量と属性によってデータの分
類を行う場合の決定木導出における各特徴量選択の段階
でクラス分け(クラスタリング)を行い、適切な区間を
この特徴量に対して設定する。そして、クラスタリング
に必要なパラメータであるクラスタ数は、ユーザが必要
とする分類の精度(分類の粒度)を与えることによって
自動的に決定するようにしており、また、決定木導出
は、データ集合の分類クラスについて、定義されるべき
特徴量の分散が設定精度より小さくなるか、あるいは、
その集合の、クラスタリングによって与えられた分類ク
ラスの中でのクラス分け誤り率が設定レート(prune ra
te)に収まれば終了させるようにした。
【0061】そしてこのように、連続値を属性に対応し
て分類する決定木を作成しようとする場合、分類の精度
(分類の粒度)と、特徴値と分類すべき属性の値からな
る学習用の複数のサンプルデータを与えることによって
当該サンプルデータから該サンプルデータの属性別最大
差を前記分類の粒度に従った分類クラスにクラスタリン
グし、その分類クラスの特徴値境界値範囲を前記分割の
際の各分類クラスの特徴値のうちの最も近い値の中間値
を以て定めることにより決定木を生成する方式を採用し
たことにより、分類クラスを自動的に定義できるので、
連続値属性に対する分類木の作成を完全に自動化するこ
とができるようになる。
【0062】従って本発明によれば、連続値をとる特徴
量によって分類を行うような決定木を求めたい場合に、
その特徴量に対して適切な分類クラスを自動的に設定し
て、連続値をとる特徴量による分類のための決定木を自
動的に導くことが出来るようになる決定木学習生成装置
が得られる。なお、本発明は上述した実施例に限定する
ものではなく、その要旨を変更しない範囲内で適宜変形
して実施し得るものである。
【0063】
【発明の効果】以上詳述したように本発明によれば、連
続値属性に対する分類木を作ろうとする場合、クラスタ
リングによって分類クラスが自動的に定義されるので、
分類木の作成が完全に自動化されるなど、連続値をとる
特徴量によって分類を行うような決定木を求めたい場合
に、その特徴量に対して適切な分類クラスを自動的設定
して、連続値をとる特徴量による分類のための決定木を
自動的に導くことが出来るようになる決定木学習生成装
置を提供できる。
【図面の簡単な説明】
【図1】本発明の実施例を説明するための図であって、
本発明の一実施例の構成図。
【図2】本発明の実施例を説明するための図であって、
本発明の一実施例における装置の動きを示す流れ図。
【図3】本発明の実施例を説明するための図であって、
本発明の実施例で入力として用いる訓練例のデータを示
す図。
【図4】本発明の実施例を説明するための図であって、
本発明の実施例におけるクラスタリング部60の詳しい
構成図。
【図5】本発明の実施例を説明するための図であって、
本発明の一実施例におけるクラスタリング部60の装置
の詳しい動きを示す流れ図。
【図6】本発明の実施例を説明するための図であって、
図3に示すデータと、所定の学習用パラメータに対し、
本発明の一実施例である装置が生成した決定木を示す
図。
【図7】従来技術を説明するための図であって、公知の
決定木学習装置が扱える事例データの例を示す図。
【図8】従来技術を説明するための図であって、図7の
事例データに対して公知の決定木学習装置が導いた決定
木を示す図。
【図9】従来技術を説明するための図であって、公知の
決定木学習装置の構成を示すブロック。
【図10】従来技術を説明するための図であって、公知
の決定木学習装置の処理の動きを表す流れ図。
【図11】従来および本発明の実施例において使用され
る連続値特徴量記号化装置95,55の詳しい構成図。
【図12】従来および本発明の実施例において使用され
る連続値特徴量記号化装置95,55の装置の詳しい動
きを示す流れ図。
【符号の説明】
51…決定木学習用データ入力部 52…決定木生成終了判定部 53…決定木生成部 54…特徴量選択部 55…連続特徴量記号化装置 56…相互情報量計算部 57…決定木出力部 58…決定木 59…生成中の決定木 60…クラスタリング部 61…パラメータ入力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 事例の特徴を表す第1の特徴量と、分類
    用の属性を示す第2の特徴量との少なくとも2種の特徴
    量を有する事例データを対象とし、複数の事例データの
    集合に対し、前記複数種の特徴量に応じてその事例デー
    タ集合を、予め定めた分類クラスのうちの対応する分類
    クラスに分類するための規則を得る決定木学習生成装置
    として、 与えられた複数の事例データを順次取り込み、その第1
    の特徴量の最大値と最小値との差を属性別に求め、この
    差の分割後の値が前記第1の特徴量を分類するために予
    め定めた分類の粒度の値以下となるまで、前記差と当該
    粒度の値とにより定まるクラスタ数分に分割して分類ク
    ラスとすると共に、各隣接する分類クラスの特徴値の境
    界値範囲を前記分割の際の各分類クラスの特徴値のうち
    の最も近い値の中間値を以て定めることにより決定木を
    生成する手段、分類クラスそれぞれの分割クラスのクラ
    ス分け誤り率が予め定めた設定値に達すると決定木生成
    を終了する決定木生成終了制御手段とを設けて構成した
    ことを特徴とする決定木学習生成装置。
JP5238150A 1993-09-24 1993-09-24 決定木学習生成装置 Pending JPH0793158A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5238150A JPH0793158A (ja) 1993-09-24 1993-09-24 決定木学習生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5238150A JPH0793158A (ja) 1993-09-24 1993-09-24 決定木学習生成装置

Publications (1)

Publication Number Publication Date
JPH0793158A true JPH0793158A (ja) 1995-04-07

Family

ID=17025939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5238150A Pending JPH0793158A (ja) 1993-09-24 1993-09-24 決定木学習生成装置

Country Status (1)

Country Link
JP (1) JPH0793158A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004770A (ja) * 2003-06-14 2005-01-06 Samsung Electronics Co Ltd グループ化による映画映像検出方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004770A (ja) * 2003-06-14 2005-01-06 Samsung Electronics Co Ltd グループ化による映画映像検出方法及び装置

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US7858868B2 (en) Method for classifying music using Gish distance values
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
US8626685B2 (en) Information processsing apparatus, information processing method, and program
CN107832271B (zh) 函数图像绘制方法、装置、设备及计算机存储介质
CN114239237A (zh) 一种支持数字孪生的配电网仿真场景生成系统与方法
CN113988156A (zh) 一种时间序列聚类方法、系统、设备以及介质
CN111459820B (zh) 一种模型应用方法、装置及数据分析处理系统
JPH0793158A (ja) 決定木学習生成装置
CN111026904A (zh) 一种基于内容画像的播单评分方法
US20090106176A1 (en) Information processing apparatus, information processing method, and program
CN112182314A (zh) 一种数据处理方法和系统
CN116468102A (zh) 刀具图像分类模型剪枝方法、装置、计算机设备
CN115544811A (zh) 应用于数字孪生模型的数据管理方法
CN115660730A (zh) 基于分类算法的流失用户分析方法及系统
CN114494711A (zh) 一种图像特征的提取方法、装置、设备及存储介质
Triantafyllidis et al. A finite-element mesh generator based on growing neural networks
US7305373B1 (en) Incremental reduced error pruning
US7400747B2 (en) Method and apparatus for representing moving objects in a sequence of images
Hinojosa et al. Multi-objective evolutionary algorithm for tuning the Type-2 inference engine on classification task
CN109033110B (zh) 知识库中的扩展问质量测试方法和装置
JP7062250B1 (ja) 情報処理装置、方法、プログラム及びシステム
EP0513653A2 (en) Method for estimating similarity function coefficients from object classification data
CN116150222B (zh) 一种基于大数据的辅助决策方法
JPH05281994A (ja) 類似度演算装置