JPH064292A - 判断規則生成装置 - Google Patents
判断規則生成装置Info
- Publication number
- JPH064292A JPH064292A JP4160958A JP16095892A JPH064292A JP H064292 A JPH064292 A JP H064292A JP 4160958 A JP4160958 A JP 4160958A JP 16095892 A JP16095892 A JP 16095892A JP H064292 A JPH064292 A JP H064292A
- Authority
- JP
- Japan
- Prior art keywords
- node
- attribute
- training
- case
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】大量の訓練事例から、曖昧性を加味した表現を
持つ判断規則が帰納学習できるようにする。 【構成】処理ノード取り出し回路6によって未処理ノー
ドスタック13から取り出されたノードが分岐ノードで
ある場合、区間分割回路8は、そのノードに属する訓練
事例群の中で平均値以上の確信度を持つ事例だけを用い
て境界値を検出することで区間分割を行い、テスト属性
選択回路9は、そのノードでテストに使用する属性とし
て、個々の事例が持つ確信度を考慮した情報利得が最大
となるものを選ぶ。ファジィノード分割回路10は、こ
の選ばれた属性の値によってそのノードに属する訓練事
例集合をファジィ集合として分割して新たなノードを作
成し、その際、連続値型の属性が選ばれているならば、
メンバーシップ関数を用いて確信度を再計算して新たな
ノードに伝搬する。
持つ判断規則が帰納学習できるようにする。 【構成】処理ノード取り出し回路6によって未処理ノー
ドスタック13から取り出されたノードが分岐ノードで
ある場合、区間分割回路8は、そのノードに属する訓練
事例群の中で平均値以上の確信度を持つ事例だけを用い
て境界値を検出することで区間分割を行い、テスト属性
選択回路9は、そのノードでテストに使用する属性とし
て、個々の事例が持つ確信度を考慮した情報利得が最大
となるものを選ぶ。ファジィノード分割回路10は、こ
の選ばれた属性の値によってそのノードに属する訓練事
例集合をファジィ集合として分割して新たなノードを作
成し、その際、連続値型の属性が選ばれているならば、
メンバーシップ関数を用いて確信度を再計算して新たな
ノードに伝搬する。
Description
【0001】
【産業上の利用分野】本発明は、各種製造業における不
良診断や機器診断、プラントにおける異常診断、各種サ
ービス業における意思決定、医療分野における診断な
ど、いわゆる分類型問題に該当する諸分野において、過
去に蓄積された判断事例あるいは、マニュアルとして用
意されている判断事例集などの情報から、判断知識とし
ての判断規則を自動生成する判断規則生成装置に関す
る。
良診断や機器診断、プラントにおける異常診断、各種サ
ービス業における意思決定、医療分野における診断な
ど、いわゆる分類型問題に該当する諸分野において、過
去に蓄積された判断事例あるいは、マニュアルとして用
意されている判断事例集などの情報から、判断知識とし
ての判断規則を自動生成する判断規則生成装置に関す
る。
【0002】
【従来の技術】近年の人工知能の研究においては、分類
型問題における判断規則を、大量に与えた訓練事例から
自動的に獲得する機械学習の技術が広く研究されてい
る。
型問題における判断規則を、大量に与えた訓練事例から
自動的に獲得する機械学習の技術が広く研究されてい
る。
【0003】この種の技術の1つとして、事例が持つ種
々の特徴量を表現する属性と、それに対して与えられた
分類結果とを1つの訓練事例として、多数の訓練事例か
ら属性と分類結果との間の一般的な規則を見つけだし
て、判断規則(分類規則)を生成する帰納的な学習手法
が知られている。
々の特徴量を表現する属性と、それに対して与えられた
分類結果とを1つの訓練事例として、多数の訓練事例か
ら属性と分類結果との間の一般的な規則を見つけだし
て、判断規則(分類規則)を生成する帰納的な学習手法
が知られている。
【0004】このような帰納的な学習手法における判断
規則の表現形式の1つに決定木がある。決定木は、与え
られた事例を分類するための手続きを表現したものであ
り、分類結果がラベル付けされた末端ノードの群と、与
えられた事例が持つ1つの属性の値をテストする分岐ノ
ードの群で構成される。分岐ノードには、値を調べるべ
き属性がラベル付けされ、テストされた属性が取り得る
各々の値に応じて、それ以降の分類手続きを表現するサ
ブツリーが連結される。決定木を用いた分類は、決定木
のトップの分岐ノード(ルートノード)からトップダウ
ン的に木を解釈することで行われる。ここで、決定木の
形式で表現される判断規則の機械学習技術による生成例
について説明する。
規則の表現形式の1つに決定木がある。決定木は、与え
られた事例を分類するための手続きを表現したものであ
り、分類結果がラベル付けされた末端ノードの群と、与
えられた事例が持つ1つの属性の値をテストする分岐ノ
ードの群で構成される。分岐ノードには、値を調べるべ
き属性がラベル付けされ、テストされた属性が取り得る
各々の値に応じて、それ以降の分類手続きを表現するサ
ブツリーが連結される。決定木を用いた分類は、決定木
のトップの分岐ノード(ルートノード)からトップダウ
ン的に木を解釈することで行われる。ここで、決定木の
形式で表現される判断規則の機械学習技術による生成例
について説明する。
【0005】例えば、「動脈硬化疾患の判断知識」を学
習するための訓練事例を用意することを考える。訓練事
例は、過去に発症した患者の「年齢」、「眼底所見」、
「心電図所見」、「最大血圧」、「最小血圧」、「大動
脈脈波速度」、および「血清総コレステロール」という
7つの属性と、分類結果である「疾患」で表現すること
を考える。図11に学習に使用する訓練事例の一例を示
す。
習するための訓練事例を用意することを考える。訓練事
例は、過去に発症した患者の「年齢」、「眼底所見」、
「心電図所見」、「最大血圧」、「最小血圧」、「大動
脈脈波速度」、および「血清総コレステロール」という
7つの属性と、分類結果である「疾患」で表現すること
を考える。図11に学習に使用する訓練事例の一例を示
す。
【0006】このような訓練事例に対して、例えば「田
中幸吉/淵一博監訳、人工知能ハンドブック、第3巻
(1984年)、共立出版株式会社発行、第529 頁」に記載
のID3 アルゴリズムを用いれば、図11に示したよう
な大量の訓練事例から、属性の値を評価して特定の分類
結果を判定する手続きを表現する決定木を学習すること
ができる。
中幸吉/淵一博監訳、人工知能ハンドブック、第3巻
(1984年)、共立出版株式会社発行、第529 頁」に記載
のID3 アルゴリズムを用いれば、図11に示したよう
な大量の訓練事例から、属性の値を評価して特定の分類
結果を判定する手続きを表現する決定木を学習すること
ができる。
【0007】図12はID3 アルゴリズムによって生成
された決定木の一例を示す。この図12に示す決定木
は、動脈硬化疾患の判断規則(分類規則)を示してお
り、まず「最小血圧」の値で判断が別れる。「最小血
圧」が 95 mmHg以下であれば次は「最大血圧」で判断す
る。幾つかの属性を調べることで動脈硬化疾患のいずれ
であるかを決定できる。
された決定木の一例を示す。この図12に示す決定木
は、動脈硬化疾患の判断規則(分類規則)を示してお
り、まず「最小血圧」の値で判断が別れる。「最小血
圧」が 95 mmHg以下であれば次は「最大血圧」で判断す
る。幾つかの属性を調べることで動脈硬化疾患のいずれ
であるかを決定できる。
【0008】このように、従来から知られている機械学
習技術により、図11に示したような大量の訓練事例か
ら、属性と分類結果との間の一般的な対応関係を導き出
し、図12に示すような決定木の形で判断規則を自動生
成することができる。この図12に示されるような決定
木は、個々の分岐ノードにおいて択一的な判断しか行え
ないために、結論は常に唯一つしか得られないものであ
った。
習技術により、図11に示したような大量の訓練事例か
ら、属性と分類結果との間の一般的な対応関係を導き出
し、図12に示すような決定木の形で判断規則を自動生
成することができる。この図12に示されるような決定
木は、個々の分岐ノードにおいて択一的な判断しか行え
ないために、結論は常に唯一つしか得られないものであ
った。
【0009】ところで、一般に図11で挙げた例のよう
に数値で事例が表現されるような領域では、訓練事例自
身にもばらつきやノイズが含まれている可能性が高まる
ことが予想される。この場合には、学習結果によって発
見された、例えば図12において「最小血圧」が 95 mm
Hg以下の場合の「脳出血」判断のための「129.0 mmHg<
最大血圧≦131.0 mmHg」といった境界値(連続値型属性
の境界値)は、絶対的な境界ではなく、判断の一目安に
過ぎない。
に数値で事例が表現されるような領域では、訓練事例自
身にもばらつきやノイズが含まれている可能性が高まる
ことが予想される。この場合には、学習結果によって発
見された、例えば図12において「最小血圧」が 95 mm
Hg以下の場合の「脳出血」判断のための「129.0 mmHg<
最大血圧≦131.0 mmHg」といった境界値(連続値型属性
の境界値)は、絶対的な境界ではなく、判断の一目安に
過ぎない。
【0010】しかしながら、図12に示されるような決
定木では、発見された境界値を基準として択一的に且つ
トップダウンに判断を進め、結論は常に唯一つしか得ら
れないため、境界値近傍の値が事例に現れた場合には、
誤った判断を行う可能性が高くなる虞があった。
定木では、発見された境界値を基準として択一的に且つ
トップダウンに判断を進め、結論は常に唯一つしか得ら
れないため、境界値近傍の値が事例に現れた場合には、
誤った判断を行う可能性が高くなる虞があった。
【0011】
【発明が解決しようとする課題】上記したように、大量
の訓練事例から判断規則を帰納学習する知識獲得装置の
従来の技術で生成される決定木では、個々の分岐ノード
において曖昧性を持たない択一的な判断しか行えず、し
たがって結論は常に唯一つしか得られなかった。このた
め従来は、比較的上位の分岐ノードで連続値型属性に対
して判断を行う際に、学習段階で発見された判断の境界
値の近傍の値が事例に現れた場合に、誤った判断を行う
可能性が高くなるという問題があった。
の訓練事例から判断規則を帰納学習する知識獲得装置の
従来の技術で生成される決定木では、個々の分岐ノード
において曖昧性を持たない択一的な判断しか行えず、し
たがって結論は常に唯一つしか得られなかった。このた
め従来は、比較的上位の分岐ノードで連続値型属性に対
して判断を行う際に、学習段階で発見された判断の境界
値の近傍の値が事例に現れた場合に、誤った判断を行う
可能性が高くなるという問題があった。
【0012】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、大量の訓練事例
から、曖昧性を加味した表現を持つ判断規則を帰納学習
することができ、これにより判断(分類)性能の向上が
図れる判断規則生成装置を提供することにある。
れたもので、その目的とするところは、大量の訓練事例
から、曖昧性を加味した表現を持つ判断規則を帰納学習
することができ、これにより判断(分類)性能の向上が
図れる判断規則生成装置を提供することにある。
【0013】本発明の他の目的は、最終的な判断結果と
して、解の確からしさが数値で表現され、第2候補、第
3候補、…の如く、複数の解が列挙できるような推論が
行える判断規則を帰納学習できる判断規則生成装置を提
供することにある。
して、解の確からしさが数値で表現され、第2候補、第
3候補、…の如く、複数の解が列挙できるような推論が
行える判断規則を帰納学習できる判断規則生成装置を提
供することにある。
【0014】
【課題を解決するための手段】本発明は、上記課題を解
決するために、
決するために、
【0015】連続値型の複数の属性、およびそれに対し
て与えられた離散多値の分類結果を1つの組とした訓練
事例を多数集めた訓練事例群から、複数の分岐ノードと
末端ノードよりなる、未知データに対する判断規則を生
成する判断規則生成装置において、
て与えられた離散多値の分類結果を1つの組とした訓練
事例を多数集めた訓練事例群から、複数の分岐ノードと
末端ノードよりなる、未知データに対する判断規則を生
成する判断規則生成装置において、
【0016】上記各訓練事例に、その事例自体の確から
しさを連続値で示す確信度を予めあるいは前記判断規則
の生成開始に際して付与する手段と、分岐ノードに属す
る訓練事例群をもとに、各属性毎に、判断規則を構成す
る上で分類能力の高い境界値を検出することにより区間
分割を行う区間分割手段と、分岐ノードに属する訓練事
例群を対象として、各属性毎に、個々の事例が持つ確信
度の要素を含む情報利得を計算し、この情報利得が最大
となる属性を、同ノードでのテストに使用する属性とし
て選択するテスト属性選択手段と、このテスト属性選択
手段によって選択された属性についての上記分割された
各区間に対応して生成されるメンバーシップ関数を用い
て、分岐ノードに属する個々の訓練事例の確信度を再計
算することにより、分岐ノードに属する訓練事例群をフ
ァジィ集合に分割して、その再計算後の確信度が伝搬さ
れた、新たな分岐ノードまたは末端ノードとなり得る複
数のノードを生成するファジィノード分割手段とを設け
たことを特徴とするものである。
しさを連続値で示す確信度を予めあるいは前記判断規則
の生成開始に際して付与する手段と、分岐ノードに属す
る訓練事例群をもとに、各属性毎に、判断規則を構成す
る上で分類能力の高い境界値を検出することにより区間
分割を行う区間分割手段と、分岐ノードに属する訓練事
例群を対象として、各属性毎に、個々の事例が持つ確信
度の要素を含む情報利得を計算し、この情報利得が最大
となる属性を、同ノードでのテストに使用する属性とし
て選択するテスト属性選択手段と、このテスト属性選択
手段によって選択された属性についての上記分割された
各区間に対応して生成されるメンバーシップ関数を用い
て、分岐ノードに属する個々の訓練事例の確信度を再計
算することにより、分岐ノードに属する訓練事例群をフ
ァジィ集合に分割して、その再計算後の確信度が伝搬さ
れた、新たな分岐ノードまたは末端ノードとなり得る複
数のノードを生成するファジィノード分割手段とを設け
たことを特徴とするものである。
【0017】また本発明は、上記の区間分割を、訓練事
例群のうち確信度が予め定められた基準を満たす事例、
あるいは前記訓練事例群からその構成事例数に応じた数
だけランダムに選択される事例を用いて行うようにした
ことも特徴とする。
例群のうち確信度が予め定められた基準を満たす事例、
あるいは前記訓練事例群からその構成事例数に応じた数
だけランダムに選択される事例を用いて行うようにした
ことも特徴とする。
【0018】更に本発明は、末端ノードに伝搬した訓練
事例群が持つ確信度をもとに、個々の分類結果に対する
帰属度判断定数を計算する帰属度判断定数計算手段を更
に設けたことも特徴とする。
事例群が持つ確信度をもとに、個々の分類結果に対する
帰属度判断定数を計算する帰属度判断定数計算手段を更
に設けたことも特徴とする。
【0019】
【作用】上記の構成においては、処理対象ノードが分岐
ノードの場合、同ノードに属する訓練事例群をもとに、
連続値型の各属性毎に、判断規則を構成する上で分類能
力の高い境界値を検出することにより区間分割が行われ
る。この際、訓練事例群のうち確信度が例えば平均値以
上の事例、あるいはランダムに選択される例えば半数の
事例を用いて区間分割を行うことにより、計算量の低減
と、分類能力の向上を図ることが可能となる。離散値型
の属性については、離散値自体が区間とされる。
ノードの場合、同ノードに属する訓練事例群をもとに、
連続値型の各属性毎に、判断規則を構成する上で分類能
力の高い境界値を検出することにより区間分割が行われ
る。この際、訓練事例群のうち確信度が例えば平均値以
上の事例、あるいはランダムに選択される例えば半数の
事例を用いて区間分割を行うことにより、計算量の低減
と、分類能力の向上を図ることが可能となる。離散値型
の属性については、離散値自体が区間とされる。
【0020】また処理対象ノードが分岐ノードの場合
は、同ノードに属する訓練事例群を対象として、各属性
毎に、個々の事例が持つ確信度を考慮した情報利得が計
算され、この情報利得が最大となる属性が、同ノードで
のテスト(判断)に使用する属性として、テスト属性選
択手段により選択される。
は、同ノードに属する訓練事例群を対象として、各属性
毎に、個々の事例が持つ確信度を考慮した情報利得が計
算され、この情報利得が最大となる属性が、同ノードで
のテスト(判断)に使用する属性として、テスト属性選
択手段により選択される。
【0021】するとファジィ分割手段が起動され、テス
ト属性選択手段によって選択された属性についての各区
間に対応して生成されるメンバーシップ関数を用いて、
その分岐ノードに属する個々の訓練事例の確信度を再計
算することにより、同ノードに属する訓練事例群がファ
ジィ集合に分割される(選択された属性が連続値型の場
合)。この結果、その再計算後の確信度が伝搬された新
たな複数(区間数分)のノードが生成される。生成され
たノードが分岐ノードであれば、同ノードについて、上
記の区間分割、テスト属性の選択、ファジィ集合分割が
行われ、末端ノードであれば、上位ノードから同ノード
に伝搬した訓練事例群が持つ確信度をもとに、個々の分
類結果に対する帰属度判断定数、例えば末端ノードに属
する個々の訓練事例が持つ確信度の合計に対して、同一
の分類結果を有する訓練事例が持つ確信度の合計が占め
る割合が求められ、その末端ノードにラベル付けされ
る。
ト属性選択手段によって選択された属性についての各区
間に対応して生成されるメンバーシップ関数を用いて、
その分岐ノードに属する個々の訓練事例の確信度を再計
算することにより、同ノードに属する訓練事例群がファ
ジィ集合に分割される(選択された属性が連続値型の場
合)。この結果、その再計算後の確信度が伝搬された新
たな複数(区間数分)のノードが生成される。生成され
たノードが分岐ノードであれば、同ノードについて、上
記の区間分割、テスト属性の選択、ファジィ集合分割が
行われ、末端ノードであれば、上位ノードから同ノード
に伝搬した訓練事例群が持つ確信度をもとに、個々の分
類結果に対する帰属度判断定数、例えば末端ノードに属
する個々の訓練事例が持つ確信度の合計に対して、同一
の分類結果を有する訓練事例が持つ確信度の合計が占め
る割合が求められ、その末端ノードにラベル付けされ
る。
【0022】このように、上記の構成によれば、大量の
訓練事例から、曖昧性を加味した表現を持つ判断規則を
帰納学習することができる。この判断規則では、分岐ノ
ードにおいて連続値型の属性によって判断(テスト)を
行う際に、境界値近傍での判断が必要な場合には曖昧な
処理を行い、更に、最終的な判断結果は解の確からしさ
が確信度として明示的に表現され、第2候補、第3候補
…というように、複数の解が列挙できるような推論が可
能となる。
訓練事例から、曖昧性を加味した表現を持つ判断規則を
帰納学習することができる。この判断規則では、分岐ノ
ードにおいて連続値型の属性によって判断(テスト)を
行う際に、境界値近傍での判断が必要な場合には曖昧な
処理を行い、更に、最終的な判断結果は解の確からしさ
が確信度として明示的に表現され、第2候補、第3候補
…というように、複数の解が列挙できるような推論が可
能となる。
【0023】
【実施例】以下、本発明を適用した一実施例につき図面
を参照して説明する。図1は本発明の一実施例に係るフ
ァジィ決定木生成装置の構成を示すブロック図である。
を参照して説明する。図1は本発明の一実施例に係るフ
ァジィ決定木生成装置の構成を示すブロック図である。
【0024】本装置への入力情報は、訓練事例群1と、
学習制御パラメータ2である。訓練事例群1は、図11
に示したような形式の訓練事例のデータの集合である。
また学習制御パラメータ2は、ある処理ノードを分岐ノ
ードとして更に展開するか、末端ノードとしてそれ以上
の展開を止めるかを判断するための指標である最小占有
率MORと最小事例数MSNの2種のパラメータからな
る。次に本装置からの出力情報(出力結果)は、判断規
則としてのファジィ決定木3である。このファジィ決定
木3の表現形式については後述する。
学習制御パラメータ2である。訓練事例群1は、図11
に示したような形式の訓練事例のデータの集合である。
また学習制御パラメータ2は、ある処理ノードを分岐ノ
ードとして更に展開するか、末端ノードとしてそれ以上
の展開を止めるかを判断するための指標である最小占有
率MORと最小事例数MSNの2種のパラメータからな
る。次に本装置からの出力情報(出力結果)は、判断規
則としてのファジィ決定木3である。このファジィ決定
木3の表現形式については後述する。
【0025】図1において符号4で示されるファジィ決
定木生成装置は、初期ノード生成回路5、処理ノード取
り出し回路6、ノード評価回路7、区間分割回路8、テ
スト属性選択回路9、ファジィノード分割回路10、帰
属度判断定数計算回路11、およびファジィ決定木出力
回路12から構成される。このファジィ決定木生成装置
4は、内部データとして処理が終了していないノードを
格納するための未処理ノードスタック13と、処理が終
了したノードを格納するための処理済ノードスタック1
4とを持つ。図2は図1のファジィ決定木生成装置4の
処理手順を示すフローチャートである。
定木生成装置は、初期ノード生成回路5、処理ノード取
り出し回路6、ノード評価回路7、区間分割回路8、テ
スト属性選択回路9、ファジィノード分割回路10、帰
属度判断定数計算回路11、およびファジィ決定木出力
回路12から構成される。このファジィ決定木生成装置
4は、内部データとして処理が終了していないノードを
格納するための未処理ノードスタック13と、処理が終
了したノードを格納するための処理済ノードスタック1
4とを持つ。図2は図1のファジィ決定木生成装置4の
処理手順を示すフローチャートである。
【0026】以下、ファジィ決定木生成装置4の動作
を、図11に示す多数の訓練事例からなる訓練事例群1
と、MOR=0.6 ,MSN=10.0の学習制御パラメータ
2とが与えられた場合を例に、図2のフローチャートを
適宜参照して説明する。
を、図11に示す多数の訓練事例からなる訓練事例群1
と、MOR=0.6 ,MSN=10.0の学習制御パラメータ
2とが与えられた場合を例に、図2のフローチャートを
適宜参照して説明する。
【0027】まず、ステップS1で初期ノード生成回路
5は、訓練事例群1に含まれている全ての訓練事例にそ
の事例自体に対する確からしさ(事例が持つ分類結果の
確からしさ)を示す初期確信度「1.0 」を割り当てて、
訓練事例全体を含んだノードN0 を未処理ノードスタッ
ク13に積む。この段階での未処理ノードスタック13
の状況を図3に示す。この図3では、未処理ノードスタ
ック13に積まれたノードN0 に、訓練事例群1として
与えられた図11に示す訓練事例群が、通し番号(α)
と確信度(β)の2つの要素によって、(α,β)の表
現形式で示されている。この確信度は、基本的には解
(この例では、「疾患」という分類結果)の確からしさ
を「0.0 」から「1.0 」の範囲の数値で表現するための
もので、図3の状態では、全て初期確信度「1.0 」であ
り、対応する事例が持つ分類結果の確からしさが100 %
であることを示す。
5は、訓練事例群1に含まれている全ての訓練事例にそ
の事例自体に対する確からしさ(事例が持つ分類結果の
確からしさ)を示す初期確信度「1.0 」を割り当てて、
訓練事例全体を含んだノードN0 を未処理ノードスタッ
ク13に積む。この段階での未処理ノードスタック13
の状況を図3に示す。この図3では、未処理ノードスタ
ック13に積まれたノードN0 に、訓練事例群1として
与えられた図11に示す訓練事例群が、通し番号(α)
と確信度(β)の2つの要素によって、(α,β)の表
現形式で示されている。この確信度は、基本的には解
(この例では、「疾患」という分類結果)の確からしさ
を「0.0 」から「1.0 」の範囲の数値で表現するための
もので、図3の状態では、全て初期確信度「1.0 」であ
り、対応する事例が持つ分類結果の確からしさが100 %
であることを示す。
【0028】ステップS1が終了すると、初期ノード生
成回路5から処理ノード取り出し回路6に制御が渡され
る。処理ノード取り出し回路6は、未処理ノードスタッ
ク13からの先頭ノード取り出しを実行し(ステップS
2)、未処理ノードが存在しないならば、後述するよう
にファジィ決定木出力回路12に制御が渡されてステッ
プS11が実行される。これに対し、図3に示すように
未処理ノードが存在する本実施例では、処理ノード取り
出し回路6は未処理ノードスタック13からノードN0
を取り出して、ノード評価回路7に制御を渡す。
成回路5から処理ノード取り出し回路6に制御が渡され
る。処理ノード取り出し回路6は、未処理ノードスタッ
ク13からの先頭ノード取り出しを実行し(ステップS
2)、未処理ノードが存在しないならば、後述するよう
にファジィ決定木出力回路12に制御が渡されてステッ
プS11が実行される。これに対し、図3に示すように
未処理ノードが存在する本実施例では、処理ノード取り
出し回路6は未処理ノードスタック13からノードN0
を取り出して、ノード評価回路7に制御を渡す。
【0029】ノード評価回路7は、初期ノード生成回路
5により取り出されたノード(N0)に属する訓練事例
集合Sに対して、個々の事例が持つ確信度の合計|S|
と、分類結果ck(k=1,2,…,p)毎の占有率、即ち同一の
分類結果ckを有する事例が持つ確信度の合計の占有率P
S,ckをそれぞれ計算する(ステップS3)。図11に示
す訓練事例の例では、分類結果ckは脳出血、心筋梗塞と
いう2種(p=2)の「疾患」である。この分類結果ck
に対する占有率PS,ckは、次式により計算される。 PS,ck=|Sck|/|S| ……(1) 但し、|Sck|は、訓練集合Sで分類結果ckを有する訓
練事例が持つ確信度の合計である。
5により取り出されたノード(N0)に属する訓練事例
集合Sに対して、個々の事例が持つ確信度の合計|S|
と、分類結果ck(k=1,2,…,p)毎の占有率、即ち同一の
分類結果ckを有する事例が持つ確信度の合計の占有率P
S,ckをそれぞれ計算する(ステップS3)。図11に示
す訓練事例の例では、分類結果ckは脳出血、心筋梗塞と
いう2種(p=2)の「疾患」である。この分類結果ck
に対する占有率PS,ckは、次式により計算される。 PS,ck=|Sck|/|S| ……(1) 但し、|Sck|は、訓練集合Sで分類結果ckを有する訓
練事例が持つ確信度の合計である。
【0030】ノード評価回路7はステップS3を終了す
ると、取り出されたノード(N0 )が末端ノードである
か否か(分岐ノードであるか)を、学習制御パラメータ
2とステップS3で求めた各占有率PS,ckおよび確信度
の合計|S|とをもとに判定する(ステップS4)。即
ちノード評価回路7は、 PS,ckの最大値>最小占有率MOR ……(2) または、 |S|<最小事例数MSN ……(3)
ると、取り出されたノード(N0 )が末端ノードである
か否か(分岐ノードであるか)を、学習制御パラメータ
2とステップS3で求めた各占有率PS,ckおよび確信度
の合計|S|とをもとに判定する(ステップS4)。即
ちノード評価回路7は、 PS,ckの最大値>最小占有率MOR ……(2) または、 |S|<最小事例数MSN ……(3)
【0031】の少なくとも一方の条件が満たされている
ならば、取り出されたノードは末端ノードであると判定
し、帰属度判断定数計算回路11に制御を渡す。これに
対し、上記式(2)および式(3)のいずれの条件も満
たされていないならば、ノード評価回路7は取り出され
たノードは分岐ノードであると判定し、区間分割回路8
に制御を渡す。
ならば、取り出されたノードは末端ノードであると判定
し、帰属度判断定数計算回路11に制御を渡す。これに
対し、上記式(2)および式(3)のいずれの条件も満
たされていないならば、ノード評価回路7は取り出され
たノードは分岐ノードであると判定し、区間分割回路8
に制御を渡す。
【0032】ノードN0 に対する計算では、|S|の値
は「20.0」となり、PS,ckの値は、ckが脳出血のもので
「0.50」、ckが心筋梗塞のもので「0.50」となる。この
場合、上記式(2)および式(3)は共に満たされない
ため、区間分割回路8に制御が渡されて、ステップS5
が実行される。
は「20.0」となり、PS,ckの値は、ckが脳出血のもので
「0.50」、ckが心筋梗塞のもので「0.50」となる。この
場合、上記式(2)および式(3)は共に満たされない
ため、区間分割回路8に制御が渡されて、ステップS5
が実行される。
【0033】区間分割回路8はステップS5において、
上記取り出されたノード(N0 )に属する訓練事例集合
Sの中で、確信度が基準値より多い事例だけを用い、各
々の連続値型の属性(最大血圧、最小血圧など連続する
値を取り得る属性)Ai に対して、決定木を構成する上
で分類能力の高い境界値を検出することにより区間分割
を行う。この連続値型の属性Ai に対する区間分割の詳
細は次の通りである。なお、離散値型の属性について
は、各離散値それ自体がそれぞれ区間とされる。
上記取り出されたノード(N0 )に属する訓練事例集合
Sの中で、確信度が基準値より多い事例だけを用い、各
々の連続値型の属性(最大血圧、最小血圧など連続する
値を取り得る属性)Ai に対して、決定木を構成する上
で分類能力の高い境界値を検出することにより区間分割
を行う。この連続値型の属性Ai に対する区間分割の詳
細は次の通りである。なお、離散値型の属性について
は、各離散値それ自体がそれぞれ区間とされる。
【0034】まず本実施例では、上記基準値の尺度とし
て、例えば「訓練事例集合Sの確信度の平均値以上の確
信度を持つ事例」という規範を用いる。ノードN0 に対
する評価では、全ての事例が確信度「1.0 」であるので
全ての事例が用いられるが、通常は訓練事例集合Sの一
部であるS′を用いて区間分割が行われる。
て、例えば「訓練事例集合Sの確信度の平均値以上の確
信度を持つ事例」という規範を用いる。ノードN0 に対
する評価では、全ての事例が確信度「1.0 」であるので
全ての事例が用いられるが、通常は訓練事例集合Sの一
部であるS′を用いて区間分割が行われる。
【0035】さて、訓練事例集合S′をある連続値型の
属性Ai に対して区間分割を行う方法として、従来から
種々の方法が知られている。ここでは、種々の方法のう
ち、情報利得が最大になる境界値をとる方法を採用す
る。この方法では、S′を属性Ai のある値γを境界値
として2つの訓練事例集合S1 ′とS2 ′に分割したと
きに、次式(4)によって計算される情報利得G
(S′)が最大になるような境界値γmax を検出するこ
とによって、この境界値γmax で区分される2つの区間
vij(j=1,2 )が得られる。区間vijは、区間の下限値
をa、区間の上限値をbとすると、[a,b]で表現さ
れる。
属性Ai に対して区間分割を行う方法として、従来から
種々の方法が知られている。ここでは、種々の方法のう
ち、情報利得が最大になる境界値をとる方法を採用す
る。この方法では、S′を属性Ai のある値γを境界値
として2つの訓練事例集合S1 ′とS2 ′に分割したと
きに、次式(4)によって計算される情報利得G
(S′)が最大になるような境界値γmax を検出するこ
とによって、この境界値γmax で区分される2つの区間
vij(j=1,2 )が得られる。区間vijは、区間の下限値
をa、区間の上限値をbとすると、[a,b]で表現さ
れる。
【0036】
【数1】
【0037】上記式(4)において、I(S′)は訓練
事例集合S′の現在の状態を表すエントロピーを示し、
E(Ai ,S′)は訓練事例集合S′をS1 ′とS2 ′
に分割したときに得られるエントロピーの期待値を示
す。またI(S′)−E(Ai,S′)、即ち情報利得
G(S′)は、訓練事例集合S′をS1 ′とS2 ′に分
割することにより、エントロピーがどれだけ減るか(情
報利得がどれだけ増えるか)を示すもので、属性Ai の
値を知ることによって得られる相互情報量を意味する。
事例集合S′の現在の状態を表すエントロピーを示し、
E(Ai ,S′)は訓練事例集合S′をS1 ′とS2 ′
に分割したときに得られるエントロピーの期待値を示
す。またI(S′)−E(Ai,S′)、即ち情報利得
G(S′)は、訓練事例集合S′をS1 ′とS2 ′に分
割することにより、エントロピーがどれだけ減るか(情
報利得がどれだけ増えるか)を示すもので、属性Ai の
値を知ることによって得られる相互情報量を意味する。
【0038】さて本実施例では、上記式(4)で示され
る情報利得の計算に必要な|S|,|PS,ck|(=|S
ck|/|S|)(便宜上S′に代えてSで表現してい
る)として、従来から知られているように、訓練事例集
合Sに属する事例の総数,この総数|S|に対して分類
結果ckを有する事例の個数が占める割合を用ている。即
ち、式(4)で示される情報利得の計算に用いる|S
|,|PS,ck|は、前記したステップS3でノード評価
回路7がノード判定のための計算に使用した|S|,|
PS,ck|のような、訓練事例集合Sの個々の訓練事例が
持つ確信度の合計,この合計値|S|に対して同一の分
類結果CKを有する訓練事例が持つ確信度の合計|Sck|
の占める割合とは異なる点に注意されたい。
る情報利得の計算に必要な|S|,|PS,ck|(=|S
ck|/|S|)(便宜上S′に代えてSで表現してい
る)として、従来から知られているように、訓練事例集
合Sに属する事例の総数,この総数|S|に対して分類
結果ckを有する事例の個数が占める割合を用ている。即
ち、式(4)で示される情報利得の計算に用いる|S
|,|PS,ck|は、前記したステップS3でノード評価
回路7がノード判定のための計算に使用した|S|,|
PS,ck|のような、訓練事例集合Sの個々の訓練事例が
持つ確信度の合計,この合計値|S|に対して同一の分
類結果CKを有する訓練事例が持つ確信度の合計|Sck|
の占める割合とは異なる点に注意されたい。
【0039】このように、式(4)で示される情報利得
の計算に、従来から知られている、確信度の要素を含ま
ない|S|,|PS,ck|を適用した場合、もし訓練事例
集合全体を用いて区間分割を行うならば、その結果は各
ノードで常に同一となる不具合がある。そこで本実施例
では、上記したように、訓練事例集合のうち「訓練事例
集合Sの確信度の平均値以上の確信度を持つ事例」だけ
を用いて区間分割を行うことで、より分類能力の高い区
間が検出できるようにしている。
の計算に、従来から知られている、確信度の要素を含ま
ない|S|,|PS,ck|を適用した場合、もし訓練事例
集合全体を用いて区間分割を行うならば、その結果は各
ノードで常に同一となる不具合がある。そこで本実施例
では、上記したように、訓練事例集合のうち「訓練事例
集合Sの確信度の平均値以上の確信度を持つ事例」だけ
を用いて区間分割を行うことで、より分類能力の高い区
間が検出できるようにしている。
【0040】なお、式(4)で示される情報利得の計算
に、ノード評価回路7が使用したような確信度の要素を
含む|S|,|PS,ck|を適用することも可能である。
この場合には、訓練事例集合全体を用いて区間分割を行
うようにしてもよい。但し、訓練事例集合全体を用いて
区間分割を行うと、計算量が増大するため、本実施例の
ように、訓練事例集合のうち「訓練事例集合Sの確信度
の平均値以上の確信度を持つ事例」だけを用いることが
好ましい。
に、ノード評価回路7が使用したような確信度の要素を
含む|S|,|PS,ck|を適用することも可能である。
この場合には、訓練事例集合全体を用いて区間分割を行
うようにしてもよい。但し、訓練事例集合全体を用いて
区間分割を行うと、計算量が増大するため、本実施例の
ように、訓練事例集合のうち「訓練事例集合Sの確信度
の平均値以上の確信度を持つ事例」だけを用いることが
好ましい。
【0041】さて、上記式(4)によって計算される情
報利得G(S′)が最大になるような境界値γmax を検
出して属性Ai に対する2つの区間vij(=[a,
b])を得ると、その段階での2つの訓練事例集合S1
′とS2 ′における属性Ai の値の平均値がそれぞれ
求められる。本実施例では、この平均値を区間vijの中
心mとする。
報利得G(S′)が最大になるような境界値γmax を検
出して属性Ai に対する2つの区間vij(=[a,
b])を得ると、その段階での2つの訓練事例集合S1
′とS2 ′における属性Ai の値の平均値がそれぞれ
求められる。本実施例では、この平均値を区間vijの中
心mとする。
【0042】以上の区間分割により、ノードN0 の例で
は、「年齢」という属性Ai に対して、[−∞,54.
5],[54.5,∞]という2つの区間と、それぞれの区
間の中心「52.3」,「54.8」とが求められる。また、
「最大血圧」に対しては、[−∞,153.0 ],[153.0
,∞]という2つの区間と、それぞれの区間の中心「1
48.6」,「166.8 」とが求められる。また、「最小血
圧」に対しては、[−∞,93.0],[93.0,∞]という
2つの区間と、それぞれの区間の中心「91.4」,「97.
2」とが求められる。また、「大動脈脈波速度」に対し
ては、[−∞,8.2 ],[8.2 ,∞]という2つの区間
と、それぞれの区間の中心「7.82」,「8.24」とが求め
られる。更に、「血清総コレステロール」に対しては、
[−∞,191.0 ],[191.0 ,∞]という2つの区間
と、それぞれの区間の中心「182.3 」,「197.7 」とが
求められる。
は、「年齢」という属性Ai に対して、[−∞,54.
5],[54.5,∞]という2つの区間と、それぞれの区
間の中心「52.3」,「54.8」とが求められる。また、
「最大血圧」に対しては、[−∞,153.0 ],[153.0
,∞]という2つの区間と、それぞれの区間の中心「1
48.6」,「166.8 」とが求められる。また、「最小血
圧」に対しては、[−∞,93.0],[93.0,∞]という
2つの区間と、それぞれの区間の中心「91.4」,「97.
2」とが求められる。また、「大動脈脈波速度」に対し
ては、[−∞,8.2 ],[8.2 ,∞]という2つの区間
と、それぞれの区間の中心「7.82」,「8.24」とが求め
られる。更に、「血清総コレステロール」に対しては、
[−∞,191.0 ],[191.0 ,∞]という2つの区間
と、それぞれの区間の中心「182.3 」,「197.7 」とが
求められる。
【0043】区間分割回路8は上記した連続値型の属性
Ai に対する区間分割を行うと、同じステップS5にお
いて、その連続値型の属性Ai の区間vijに対するメン
バーシップ関数Mijを生成する。このMijは曖昧な判断
を決定木内部で行うことを可能とするために用いられる
もので、その生成法について、以下に詳述する。
Ai に対する区間分割を行うと、同じステップS5にお
いて、その連続値型の属性Ai の区間vijに対するメン
バーシップ関数Mijを生成する。このMijは曖昧な判断
を決定木内部で行うことを可能とするために用いられる
もので、その生成法について、以下に詳述する。
【0044】まず、属性Ai の区間vij=[a,b]に
対してある数値データxが属す程度、即ちxの帰属度を
算出するために、区間vijの境界値a,bと区間vijの
中心値(区間内の属性Ai の属性値の中心値)mとから
xの帰属度を判断する関数GOFij(x)を定義する。
この関数GOFij(x)は、区間内部では帰属度が大き
く、境界値近傍で曖昧性が強調される形となるように、
例えば次式(5)のように定義される。
対してある数値データxが属す程度、即ちxの帰属度を
算出するために、区間vijの境界値a,bと区間vijの
中心値(区間内の属性Ai の属性値の中心値)mとから
xの帰属度を判断する関数GOFij(x)を定義する。
この関数GOFij(x)は、区間内部では帰属度が大き
く、境界値近傍で曖昧性が強調される形となるように、
例えば次式(5)のように定義される。
【0045】
【数2】
【0046】この式(5)で定義される関数GOF
ij(x)は、図7に示す特性を持つ。式(5)中のκは
定数であり、境界値近傍での帰属の曖昧度を制御するパ
ラメータとなる。以下の例では、κ=10.0とする。
ij(x)は、図7に示す特性を持つ。式(5)中のκは
定数であり、境界値近傍での帰属の曖昧度を制御するパ
ラメータとなる。以下の例では、κ=10.0とする。
【0047】ここで、属性Ai がn個の「a<x≦b」
型の区間vik(k=1,2, …,n) を持っているとすると、A
i はn個の関数GOFik(x)を持つことになる。そこ
で本実施例では、連続値型の属性Ai の区間vijに対す
る数値データxの帰属度を、GOFij(x)をn個のG
OFik(x)(k=1,2, …,n) の総和で正規化した値とす
る。この帰属度を算出するための計算式が次式(6)に
示すメンバーシップ関数Mij(x)であり、ステップ5
において区間分割回路8により生成される。なお本実施
例においては、n=2である。
型の区間vik(k=1,2, …,n) を持っているとすると、A
i はn個の関数GOFik(x)を持つことになる。そこ
で本実施例では、連続値型の属性Ai の区間vijに対す
る数値データxの帰属度を、GOFij(x)をn個のG
OFik(x)(k=1,2, …,n) の総和で正規化した値とす
る。この帰属度を算出するための計算式が次式(6)に
示すメンバーシップ関数Mij(x)であり、ステップ5
において区間分割回路8により生成される。なお本実施
例においては、n=2である。
【0048】
【数3】
【0049】区間分割回路8はステップS5を終了する
とテスト属性選択回路9に制御を渡す。テスト属性選択
回路9は、上記取り出されたノード(ステップS4で分
岐ノードであると判定され、ステップS5で区間分割が
行われたノード)に属する訓練事例集合Sの属性Ai に
対する情報利得G(Ai ,S)を各属性毎に計算し、G
(Ai ,S)が最大となる属性Amax を、そのノードで
テストに使用する属性として選び出す(ステップS
6)。この情報利得G(Ai ,S)は、個々の事例が持
つ確信度を考慮して、例えば次式(7)に従って算出さ
れる。
とテスト属性選択回路9に制御を渡す。テスト属性選択
回路9は、上記取り出されたノード(ステップS4で分
岐ノードであると判定され、ステップS5で区間分割が
行われたノード)に属する訓練事例集合Sの属性Ai に
対する情報利得G(Ai ,S)を各属性毎に計算し、G
(Ai ,S)が最大となる属性Amax を、そのノードで
テストに使用する属性として選び出す(ステップS
6)。この情報利得G(Ai ,S)は、個々の事例が持
つ確信度を考慮して、例えば次式(7)に従って算出さ
れる。
【0050】
【数4】
【0051】上記式(7)において、|S|は訓練事例
集合Sの個々の訓練事例が持つ確信度の合計、|Sck|
は訓練事例集合Sで同一の分類結果CKを有する訓練事例
が持つ確信度の合計、PS,ckは|S|に対する|Sck|
の割合、即ち分類結果ckを有する事例の確信度の合計の
占有率である。
集合Sの個々の訓練事例が持つ確信度の合計、|Sck|
は訓練事例集合Sで同一の分類結果CKを有する訓練事例
が持つ確信度の合計、PS,ckは|S|に対する|Sck|
の割合、即ち分類結果ckを有する事例の確信度の合計の
占有率である。
【0052】次に、|Sij|は属性Ai が連続値型の属
性(図11の例では、「年齢」、最大血圧」等)である
か、離散値型の属性(図11の例では、「眼底所見」、
「心電図所見」)であるかにより異なる。
性(図11の例では、「年齢」、最大血圧」等)である
か、離散値型の属性(図11の例では、「眼底所見」、
「心電図所見」)であるかにより異なる。
【0053】属性Ai が連続値型の属性の場合、|Sij
|は、訓練事例集合Sの個々の訓練事例の確信度cf
を、属性Ai の区間vijに対するメンバーシップ関数M
ijを利用して再計算した確信度の合計である。この再計
算後の確信度をcf′とすると、cf′は次式(8)に
従って算出される。 cf′=cf×Mij(x) ……(8)
|は、訓練事例集合Sの個々の訓練事例の確信度cf
を、属性Ai の区間vijに対するメンバーシップ関数M
ijを利用して再計算した確信度の合計である。この再計
算後の確信度をcf′とすると、cf′は次式(8)に
従って算出される。 cf′=cf×Mij(x) ……(8)
【0054】一方、属性Ai が離散値型の属性の場合
は、|Sij|は、訓練事例集合S中でその属性Ai の値
が区間vijに属する訓練事例が持つ確信度の合計であ
る。PS,vij は|S|に対する|Sij|の割合、即ち属
性Ai の値が区間vijに属する事例の確信度の合計の占
有率である。さて、ノードN0 に対する上記式(7)に
従う計算では、各々の属性に対する情報利得G(Ai ,
S)は、次のように求められる。 情報利得G(年齢)= 0.109 情報利得G(眼底所見)= 0.031 情報利得G(心電図所見)= 0.077 情報利得G(最大血圧)= 0.111 情報利得G(最小血圧)= 0.099 情報利得G(大動脈脈波速度)= 0.036 情報利得G(血清総コレステロール)= 0.022
は、|Sij|は、訓練事例集合S中でその属性Ai の値
が区間vijに属する訓練事例が持つ確信度の合計であ
る。PS,vij は|S|に対する|Sij|の割合、即ち属
性Ai の値が区間vijに属する事例の確信度の合計の占
有率である。さて、ノードN0 に対する上記式(7)に
従う計算では、各々の属性に対する情報利得G(Ai ,
S)は、次のように求められる。 情報利得G(年齢)= 0.109 情報利得G(眼底所見)= 0.031 情報利得G(心電図所見)= 0.077 情報利得G(最大血圧)= 0.111 情報利得G(最小血圧)= 0.099 情報利得G(大動脈脈波速度)= 0.036 情報利得G(血清総コレステロール)= 0.022
【0055】したがってノードN0 の例では、テスト属
性選択回路9はステップS6において、最大の情報利得
を持つ属性「最大血圧」をノード(分岐ノード)N0 で
テストに使用する属性として選択する。
性選択回路9はステップS6において、最大の情報利得
を持つ属性「最大血圧」をノード(分岐ノード)N0 で
テストに使用する属性として選択する。
【0056】この属性「最大血圧」に対して、前記した
ように[−∞,153.0 ],[153.0,∞]という2つの
区間と、それぞれの区間の中心「148.6 」,「166.8 」
が求められている。この「最大血圧」の各区間[−∞,
153.0 ],[153.0 ,∞]に対して上記式(5)および
式(6)に従って生成されるメンバーシップ関数M
ij(x)を図8に示す。
ように[−∞,153.0 ],[153.0,∞]という2つの
区間と、それぞれの区間の中心「148.6 」,「166.8 」
が求められている。この「最大血圧」の各区間[−∞,
153.0 ],[153.0 ,∞]に対して上記式(5)および
式(6)に従って生成されるメンバーシップ関数M
ij(x)を図8に示す。
【0057】テスト属性選択回路9はステップS6を終
了すると、ファジィノード分割回路10に制御を渡す。
ファジィノード分割回路10は、テスト属性選択回路9
によって選択された属性(ノードでテストに使用する属
性)が連続値型の属性である場合には、その属性につい
てのn個(ここではn=2)のメンバーシップ関数(式
(6)参照)に従い、訓練事例集合Sをn個のファジィ
集合に分割して、新しいn個のノードを作成する(ステ
ップS7)。このとき、ファジィノード分割回路10
は、前記式(8)を用いて事例の確信度を再計算する。
連続値型の属性がテストに使用する属性として選択され
ている場合には、ファジィノード分割回路10は、前記
式(8)を用いて事例の確信度を再計算する。
了すると、ファジィノード分割回路10に制御を渡す。
ファジィノード分割回路10は、テスト属性選択回路9
によって選択された属性(ノードでテストに使用する属
性)が連続値型の属性である場合には、その属性につい
てのn個(ここではn=2)のメンバーシップ関数(式
(6)参照)に従い、訓練事例集合Sをn個のファジィ
集合に分割して、新しいn個のノードを作成する(ステ
ップS7)。このとき、ファジィノード分割回路10
は、前記式(8)を用いて事例の確信度を再計算する。
連続値型の属性がテストに使用する属性として選択され
ている場合には、ファジィノード分割回路10は、前記
式(8)を用いて事例の確信度を再計算する。
【0058】この例では、連続値型の属性「最大血圧」
に従い、図8に示したメンバーシップ関数により式
(8)を用いて事例の確信度の再計算を行いながら、ノ
ードN0の訓練事例集合Sをファジィ集合に分割する処
理が実行され、2つのノードN1とN2 が作成される。
に従い、図8に示したメンバーシップ関数により式
(8)を用いて事例の確信度の再計算を行いながら、ノ
ードN0の訓練事例集合Sをファジィ集合に分割する処
理が実行され、2つのノードN1とN2 が作成される。
【0059】なお、テスト属性選択回路9によって選択
された属性が離散値型の属性の場合には、ファジィノー
ド分割回路10は、その属性について区間分割回路8に
より求められた区間毎に訓練事例集合Sを分割する。
された属性が離散値型の属性の場合には、ファジィノー
ド分割回路10は、その属性について区間分割回路8に
より求められた区間毎に訓練事例集合Sを分割する。
【0060】ファジィノード分割回路10は、ステップ
S7の分割処理により、新たなノードを作成すると、そ
れらのノードを未処理ノードスタック13に積むと共
に、それまで処理対象となっていたノードを、新たなノ
ードの上位であることを明示して処理済ノードスタック
14に積む(ステップS8)。
S7の分割処理により、新たなノードを作成すると、そ
れらのノードを未処理ノードスタック13に積むと共
に、それまで処理対象となっていたノードを、新たなノ
ードの上位であることを明示して処理済ノードスタック
14に積む(ステップS8)。
【0061】したがって、この例では、2つの新しいノ
ードN1 とN2 が未処理ノードスタック13に積まれ、
ノードN0 が処理済ノードスタック14に積まれること
になる。この状況を図4に示す。図4の状態では、ノー
ドN1 とN2 に属する訓練事例は、各々確信度が式
(8)に従って再計算されている。またノードN0 には
下位にノードN1 とN2 がつながれていることが示され
ている。
ードN1 とN2 が未処理ノードスタック13に積まれ、
ノードN0 が処理済ノードスタック14に積まれること
になる。この状況を図4に示す。図4の状態では、ノー
ドN1 とN2 に属する訓練事例は、各々確信度が式
(8)に従って再計算されている。またノードN0 には
下位にノードN1 とN2 がつながれていることが示され
ている。
【0062】ファジィノード分割回路10は、ステップ
S8を終了すると、処理ノード取り出し回路6に制御を
戻す。これにより、ステップS8からステップS2に戻
る。このステップS2において処理ノード取り出し回路
6は、未処理ノードスタック13からの先頭ノード取り
出しを実行する。図4の状態では、ノードN1 が未処理
ノードスタック13から取り出され、このノードN1 を
対象として処理が行われる。
S8を終了すると、処理ノード取り出し回路6に制御を
戻す。これにより、ステップS8からステップS2に戻
る。このステップS2において処理ノード取り出し回路
6は、未処理ノードスタック13からの先頭ノード取り
出しを実行する。図4の状態では、ノードN1 が未処理
ノードスタック13から取り出され、このノードN1 を
対象として処理が行われる。
【0063】ノードN1 に対する処理では、まずステッ
プS3において各分類結果ck毎の占有率PS,ckが求めら
れ、分類結果ck=心筋梗塞についてのPS,ckの値が「0.
70」であり、MOR(=0.6 )より大きいことから、即
ち式(2)を満たすことから、ステップS4においてノ
ード評価回路7により、ノードN1 が末端ノードである
と判定される。この場合、ノードN0 の場合と異なり、
ステップS4からステップS9に進む。
プS3において各分類結果ck毎の占有率PS,ckが求めら
れ、分類結果ck=心筋梗塞についてのPS,ckの値が「0.
70」であり、MOR(=0.6 )より大きいことから、即
ち式(2)を満たすことから、ステップS4においてノ
ード評価回路7により、ノードN1 が末端ノードである
と判定される。この場合、ノードN0 の場合と異なり、
ステップS4からステップS9に進む。
【0064】ステップS9では、帰属度判断定数計算回
路11が動作し、末端ノード(と判定されたノード)に
伝搬した訓練事例群が持つ確信度をもとに、個々の分類
結果に対する帰属度判断定数を計算する。この帰属度判
断定数は、式(7)により計算されるPS,ckの値であ
る。ノードN1 の例では、分類結果「脳出血」,「心筋
梗塞」に対する帰属度判断定数は、それぞれ「0.30」,
「0.70」となる。これを、「脳出血:0.30」,「心筋梗
塞:0.70」のように表す。
路11が動作し、末端ノード(と判定されたノード)に
伝搬した訓練事例群が持つ確信度をもとに、個々の分類
結果に対する帰属度判断定数を計算する。この帰属度判
断定数は、式(7)により計算されるPS,ckの値であ
る。ノードN1 の例では、分類結果「脳出血」,「心筋
梗塞」に対する帰属度判断定数は、それぞれ「0.30」,
「0.70」となる。これを、「脳出血:0.30」,「心筋梗
塞:0.70」のように表す。
【0065】帰属度判断定数計算回路11は、ステップ
S9を終了すると、処理対象ノード(ここではN1 )を
処理済ノードスタック14に積む(ステップS10)。
このノードN1 が処理済ノードスタック14に積まれた
状況を図5に示す。
S9を終了すると、処理対象ノード(ここではN1 )を
処理済ノードスタック14に積む(ステップS10)。
このノードN1 が処理済ノードスタック14に積まれた
状況を図5に示す。
【0066】ステップS10が終了するとステップS2
に戻り、処理ノード取り出し回路6によって、未処理ノ
ードスタック13からその時点における先頭ノードの取
り出しが行われる。図5の状態では、ノードN2 が未処
理ノードスタック13から取り出される。
に戻り、処理ノード取り出し回路6によって、未処理ノ
ードスタック13からその時点における先頭ノードの取
り出しが行われる。図5の状態では、ノードN2 が未処
理ノードスタック13から取り出される。
【0067】以下、ステップS3,S4,S5,S6,
S7,S8,S2またはステップS3,S4,S9,S
10,S2の処理が繰り返され、ステップS2で未処理
ノードスタック13中に未処理ノードが存在しないこと
が検出されたならば、ステップS11に進む。この未処
理ノードが存在しなくなった場合の未処理ノードスタッ
ク13および処理済ノードスタック14の状況を図6に
示す。
S7,S8,S2またはステップS3,S4,S9,S
10,S2の処理が繰り返され、ステップS2で未処理
ノードスタック13中に未処理ノードが存在しないこと
が検出されたならば、ステップS11に進む。この未処
理ノードが存在しなくなった場合の未処理ノードスタッ
ク13および処理済ノードスタック14の状況を図6に
示す。
【0068】さて、ステップS11では、ファジィ決定
木出力回路12が動作する。ファジィ決定木出力回路1
2は、処理済ノードスタック14に積まれているノード
からノードの上下関係を整理して、ファジィ決定木3に
変換して出力する。
木出力回路12が動作する。ファジィ決定木出力回路1
2は、処理済ノードスタック14に積まれているノード
からノードの上下関係を整理して、ファジィ決定木3に
変換して出力する。
【0069】図6の状態では、処理済ノードスタック1
4にはノードN0 ,N1 ,N2 ,N3 ,N4 が積まれて
おり、これら5つのノードN0 〜N4 から図9に示すフ
ァジィ決定木(3)がファジィ決定木出力回路12によ
り出力される。次に、このようにして出力された図9に
示すファジィ決定木(3)を用いて実際に診断を行う例
について説明する。
4にはノードN0 ,N1 ,N2 ,N3 ,N4 が積まれて
おり、これら5つのノードN0 〜N4 から図9に示すフ
ァジィ決定木(3)がファジィ決定木出力回路12によ
り出力される。次に、このようにして出力された図9に
示すファジィ決定木(3)を用いて実際に診断を行う例
について説明する。
【0070】例えば、「年齢=56,眼底所見=正常,心
電図所見=正常,最大血圧=154 ,最小血圧=94,大動
脈脈波速度=7.9 ,血清総コレステロール=173 」とい
う事例を入力して診断を行うものとする。事例は、初期
確信度を付加して与える。この初期確信度は通常は「1.
0 」(最大値)でよい。
電図所見=正常,最大血圧=154 ,最小血圧=94,大動
脈脈波速度=7.9 ,血清総コレステロール=173 」とい
う事例を入力して診断を行うものとする。事例は、初期
確信度を付加して与える。この初期確信度は通常は「1.
0 」(最大値)でよい。
【0071】分岐ノードでは、各々の属性Ai の区間v
ijに対するメンバーシップ関数Mij(x)を用いて、前
記式(8)により事例が持つ確信度cfをcf′に更新
して(連続値型の属性についてのみ)各々の下位ノード
に伝搬する。
ijに対するメンバーシップ関数Mij(x)を用いて、前
記式(8)により事例が持つ確信度cfをcf′に更新
して(連続値型の属性についてのみ)各々の下位ノード
に伝搬する。
【0072】この結果、分岐ノードでは、一般に複数の
下位ノードに事例が伝搬することになる。これが、従来
の決定木と大きく異なる点である。最終的には、与えら
れた事例は確信度付きで複数の末端ノードに伝搬する。
下位ノードに事例が伝搬することになる。これが、従来
の決定木と大きく異なる点である。最終的には、与えら
れた事例は確信度付きで複数の末端ノードに伝搬する。
【0073】各末端ノードでは、到達した事例が持つ確
信度(更新されながら伝搬された確信度)と帰属度判断
定数とを掛け合わせた値が分類結果に対する確信度とな
る。最終的に、これらの確信度を同一の分類結果に属す
る値毎でまとめた合計値で判断(ここでは診断)を行
う。
信度(更新されながら伝搬された確信度)と帰属度判断
定数とを掛け合わせた値が分類結果に対する確信度とな
る。最終的に、これらの確信度を同一の分類結果に属す
る値毎でまとめた合計値で判断(ここでは診断)を行
う。
【0074】上記の例の場合には、図10に示すように
ファジィ決定木(3)の内部を事例が伝搬する。末端ノ
ードでの確信度の合計を計算すると、「脳出血:0.565
4],「心筋梗塞:0.4346」が結論として得られる。こ
のように、本実施例装置にて生成されるファジィ決定木
(3)では、従来の決定木のような択一的な判断(上記
の例であれば脳出血または心筋梗塞のいずれであるかの
判断)は行われず、確信度が付加された結論が複数出力
される。以上に本発明の実施例につき説明したが、本発
明は前記実施例に限定されるものではない。
ファジィ決定木(3)の内部を事例が伝搬する。末端ノ
ードでの確信度の合計を計算すると、「脳出血:0.565
4],「心筋梗塞:0.4346」が結論として得られる。こ
のように、本実施例装置にて生成されるファジィ決定木
(3)では、従来の決定木のような択一的な判断(上記
の例であれば脳出血または心筋梗塞のいずれであるかの
判断)は行われず、確信度が付加された結論が複数出力
される。以上に本発明の実施例につき説明したが、本発
明は前記実施例に限定されるものではない。
【0075】例えば前記実施例では、医療分野における
診断に適用する判断規則(決定木)を生成する場合につ
いて説明したが、各種製造業における不良診断や機器診
断、プラントにおける異常診断、各種サービス業におけ
る意思決定など、いわゆる分類型問題に該当する諸分野
において、過去に蓄積された判断事例あるいは、マニュ
アルとして用意されている判断事例集などの情報から、
判断知識としての判断規則を生成する場合にも同様に実
施可能である。
診断に適用する判断規則(決定木)を生成する場合につ
いて説明したが、各種製造業における不良診断や機器診
断、プラントにおける異常診断、各種サービス業におけ
る意思決定など、いわゆる分類型問題に該当する諸分野
において、過去に蓄積された判断事例あるいは、マニュ
アルとして用意されている判断事例集などの情報から、
判断知識としての判断規則を生成する場合にも同様に実
施可能である。
【0076】また、前記実施例では、訓練事例群1に含
まれている全ての訓練事例に、ステップS1において初
期ノード生成回路5が初期確信度「1.0 」を割り当てる
としたが、訓練事例群1中の個々の訓練事例に初期確信
度が予め与えられている(付加されている)としてもよ
い。この確信度は「1.0 」である必要はない。この方式
を適用した場合、図3では、未処理ノードスタック13
に積まれたノードN0に、各々固有の確信度を持つ訓練
事例が格納されることになる。このように訓練事例群1
の中で初期確信度が与えられた場合には、この確信度は
訓練事例自身が持つ曖昧度を示すものとなる。また例え
ば、ある訓練事例に対して、解がAである確信度が80%
で、解がBである確信度が20%であれば、分類結果と初
期確信度が異なる2つの訓練事例によって表現すること
も可能である。
まれている全ての訓練事例に、ステップS1において初
期ノード生成回路5が初期確信度「1.0 」を割り当てる
としたが、訓練事例群1中の個々の訓練事例に初期確信
度が予め与えられている(付加されている)としてもよ
い。この確信度は「1.0 」である必要はない。この方式
を適用した場合、図3では、未処理ノードスタック13
に積まれたノードN0に、各々固有の確信度を持つ訓練
事例が格納されることになる。このように訓練事例群1
の中で初期確信度が与えられた場合には、この確信度は
訓練事例自身が持つ曖昧度を示すものとなる。また例え
ば、ある訓練事例に対して、解がAである確信度が80%
で、解がBである確信度が20%であれば、分類結果と初
期確信度が異なる2つの訓練事例によって表現すること
も可能である。
【0077】また、前記実施例では、未処理ノードスタ
ック13から取り出されたノードが末端ノードであるか
分岐ノードであるかを、(ステップS4においてノード
評価回路7が)式(2)あるいは式(3)によって判定
するものとしたが、ノード判定基準はこれに限るもので
はない。例えば、現在のノードが最上位のノードから何
段目に相当するかを判定して、一定段数以上の枝を持つ
決定木を生成しないように制御することも可能である。
また例えば、刊行物「小長谷明彦:遺伝子情報処理と記
述長最小(MDL)基準,第5回人工知能学会全国大会
予稿集,頁93-96(1991) ,社団法人 人工知能学会」に
記載のMDL基準を式(2)あるいは式(3)の代わり
に用いるなど、種々の変形実施が可能である。
ック13から取り出されたノードが末端ノードであるか
分岐ノードであるかを、(ステップS4においてノード
評価回路7が)式(2)あるいは式(3)によって判定
するものとしたが、ノード判定基準はこれに限るもので
はない。例えば、現在のノードが最上位のノードから何
段目に相当するかを判定して、一定段数以上の枝を持つ
決定木を生成しないように制御することも可能である。
また例えば、刊行物「小長谷明彦:遺伝子情報処理と記
述長最小(MDL)基準,第5回人工知能学会全国大会
予稿集,頁93-96(1991) ,社団法人 人工知能学会」に
記載のMDL基準を式(2)あるいは式(3)の代わり
に用いるなど、種々の変形実施が可能である。
【0078】前記実施例では、区間分割回路8はステッ
プS5において、処理対象となるノードに属する訓練事
例集合Sの中で、確信度が基準値より多い事例だけを用
い、各々の連続値型の属性に対して、決定木を構成する
上で分類能力の高い境界値を検出することにより区間分
割を行っている。このように、前記実施例では、訓練事
例集合Sから区間分割に用いる事例を選ぶための基準値
の尺度として「訓練事例集合Sの確信度の平均値以上の
確信度を持つ事例」という規範を適用しているが、事例
の選択方法として、例えば「訓練事例集合Sからランダ
ムに半数を取り出す」などの変形実施が可能である。
プS5において、処理対象となるノードに属する訓練事
例集合Sの中で、確信度が基準値より多い事例だけを用
い、各々の連続値型の属性に対して、決定木を構成する
上で分類能力の高い境界値を検出することにより区間分
割を行っている。このように、前記実施例では、訓練事
例集合Sから区間分割に用いる事例を選ぶための基準値
の尺度として「訓練事例集合Sの確信度の平均値以上の
確信度を持つ事例」という規範を適用しているが、事例
の選択方法として、例えば「訓練事例集合Sからランダ
ムに半数を取り出す」などの変形実施が可能である。
【0079】また、区間分割回路8が訓練事例集合S′
をある連続値型の属性Ai に対して区間分割するのに、
例えば、刊行物「荒木 大,小島昌一:決定木学習にお
ける数値データの区間分割,第5回人工知能学会全国大
会予稿集,頁157-160(1991),社団法人 人工知能学
会」に記載の方法を適用するなどの変形実施が可能であ
る。この場合には、前記実施例の方法では2区間の区間
分割しか実行できなかったが一般に図12に現れるよう
な2区間以上の区間分割が可能となる。
をある連続値型の属性Ai に対して区間分割するのに、
例えば、刊行物「荒木 大,小島昌一:決定木学習にお
ける数値データの区間分割,第5回人工知能学会全国大
会予稿集,頁157-160(1991),社団法人 人工知能学
会」に記載の方法を適用するなどの変形実施が可能であ
る。この場合には、前記実施例の方法では2区間の区間
分割しか実行できなかったが一般に図12に現れるよう
な2区間以上の区間分割が可能となる。
【0080】また、前記実施例では、ステップS6にお
いてテスト属性選択回路9は、属性Ai に対する情報利
得G(Ai ,S)を式(7)によって算出したが、これ
を次式(9)に示すような補正項を加えた式に変更し、
情報利得G(Ai ,S)に代えて情報利得GR(Ai ,
S)を用いるなどの変形実施も可能である。
いてテスト属性選択回路9は、属性Ai に対する情報利
得G(Ai ,S)を式(7)によって算出したが、これ
を次式(9)に示すような補正項を加えた式に変更し、
情報利得G(Ai ,S)に代えて情報利得GR(Ai ,
S)を用いるなどの変形実施も可能である。
【0081】
【数5】
【0082】上記式(9)において、qは訓練事例集合
Sにおける属性Ai の数(種類数)、Range
(Ai )はq個の属性集合{A1 ,A2 ,…,Aq )に
対して各々の属性Ai が取り得る属性値の集合である。
またIV(Ai ,S)は補正項であり、この補正項を含
む上記式(9)に従って情報利得GR(Ai ,S)を算
出することにより、Range(Ai )が大きい属性ほ
どGR(Ai ,S)が大きくなる特性を補正することが
できる。
Sにおける属性Ai の数(種類数)、Range
(Ai )はq個の属性集合{A1 ,A2 ,…,Aq )に
対して各々の属性Ai が取り得る属性値の集合である。
またIV(Ai ,S)は補正項であり、この補正項を含
む上記式(9)に従って情報利得GR(Ai ,S)を算
出することにより、Range(Ai )が大きい属性ほ
どGR(Ai ,S)が大きくなる特性を補正することが
できる。
【0083】また、前記実施例では、連続数値型の属性
Ai の区間vijに対して生成するメンバーシップ関数M
ijは式(5),(6)に従って計算するとしたが、台形
型の分布を持つ他の関数に変更するなど種々の変形実施
が可能である。このメンバーシップ関数Mijの生成は、
区間分割回路8以外の回路、例えばテスト属性選択回路
9または専用の回路で行われるものであってもよい。
Ai の区間vijに対して生成するメンバーシップ関数M
ijは式(5),(6)に従って計算するとしたが、台形
型の分布を持つ他の関数に変更するなど種々の変形実施
が可能である。このメンバーシップ関数Mijの生成は、
区間分割回路8以外の回路、例えばテスト属性選択回路
9または専用の回路で行われるものであってもよい。
【0084】また、前記実施例では、離散値型の属性に
対しては事例の確信度の再計算は行わないとしたが、予
めメンバーシップ関数を外部から与えておき、この関数
を用いて式(8)に従い事例の確信度を再計算するよう
にすることも可能である。この場合、式(7)に従って
情報利得G(Ai ,S)を求める際に必要な|Sij|
は、テスト属性選択回路9により、離散値型の属性につ
いても連続数値型の属性と同様に計算される。即ち、テ
スト属性選択回路9はステップS6において、全ての属
性に対し、|Sij|の値を、訓練事例集合Sの個々の訓
練事例の確信度cfについて属性Ai の区間vijに対す
るメンバーシップ関数Mijを利用して式(8)に従って
再計算した確信度の合計により算出する。また、ファジ
ィノード分割回路はステップS7において、全ての属性
に対して、式(8)に従って事例の確信度を再計算す
る。
対しては事例の確信度の再計算は行わないとしたが、予
めメンバーシップ関数を外部から与えておき、この関数
を用いて式(8)に従い事例の確信度を再計算するよう
にすることも可能である。この場合、式(7)に従って
情報利得G(Ai ,S)を求める際に必要な|Sij|
は、テスト属性選択回路9により、離散値型の属性につ
いても連続数値型の属性と同様に計算される。即ち、テ
スト属性選択回路9はステップS6において、全ての属
性に対し、|Sij|の値を、訓練事例集合Sの個々の訓
練事例の確信度cfについて属性Ai の区間vijに対す
るメンバーシップ関数Mijを利用して式(8)に従って
再計算した確信度の合計により算出する。また、ファジ
ィノード分割回路はステップS7において、全ての属性
に対して、式(8)に従って事例の確信度を再計算す
る。
【0085】また、前記実施例では、ステップS11に
おいてファジィ決定木出力回路12は、処理済ノードス
タック14に積まれたノードから上下関係を整理して、
ファジィ決定木3に変換して出力するとしたが、最終的
な判断規則の出力形式は、決定木の形式に限定されるも
のではない。即ち、IF−THENルール、決定リス
ト、C言語あるいはFORTRANといった何等かのプ
ログラミング言語によるソースコードなど、曖昧性を加
味した判断を実行できる何等かの推論モジュールの知識
ベースを構成する記述言語のフォーマットに従った形式
で出力されるように種々変形実施が可能である。
おいてファジィ決定木出力回路12は、処理済ノードス
タック14に積まれたノードから上下関係を整理して、
ファジィ決定木3に変換して出力するとしたが、最終的
な判断規則の出力形式は、決定木の形式に限定されるも
のではない。即ち、IF−THENルール、決定リス
ト、C言語あるいはFORTRANといった何等かのプ
ログラミング言語によるソースコードなど、曖昧性を加
味した判断を実行できる何等かの推論モジュールの知識
ベースを構成する記述言語のフォーマットに従った形式
で出力されるように種々変形実施が可能である。
【0086】
【発明の効果】以上詳述したように本発明によれば、大
量の訓練事例から未知データに対する判断規則を生成す
る判断規則生成装置において、各訓練事例に、その事例
自体の確からしさを連続値で示す確信度を付与し、処理
対象ノードが分岐ノードである場合には、同ノードに属
する訓練事例群をもとに、連続値型の各属性毎に、判断
規則を構成する上で分類能力の高い境界値を検出するこ
とにより区間分割を行うと共に、同ノードに属する訓練
事例群を対象として、各属性毎に、個々の事例が持つ確
信度を考慮した情報利得を計算し、この情報利得が最大
となる属性を、同ノードでのテストに使用する属性とし
て選択し、この選択した属性が連続値型である場合には
その属性についての各区間に対応して生成されるメンバ
ーシップ関数を用いて、同ノードに属する個々の訓練事
例の確信度を再計算することにより、同ノードに属する
訓練事例群をファジィ集合に分割し、その再計算後の確
信度が伝搬された新たな複数のノードを生成する構成と
したので、大量の訓練事例から、曖昧性を加味した表現
を持つ判断規則を帰納学習することができ、これにより
判断(分類)性能が向上する。
量の訓練事例から未知データに対する判断規則を生成す
る判断規則生成装置において、各訓練事例に、その事例
自体の確からしさを連続値で示す確信度を付与し、処理
対象ノードが分岐ノードである場合には、同ノードに属
する訓練事例群をもとに、連続値型の各属性毎に、判断
規則を構成する上で分類能力の高い境界値を検出するこ
とにより区間分割を行うと共に、同ノードに属する訓練
事例群を対象として、各属性毎に、個々の事例が持つ確
信度を考慮した情報利得を計算し、この情報利得が最大
となる属性を、同ノードでのテストに使用する属性とし
て選択し、この選択した属性が連続値型である場合には
その属性についての各区間に対応して生成されるメンバ
ーシップ関数を用いて、同ノードに属する個々の訓練事
例の確信度を再計算することにより、同ノードに属する
訓練事例群をファジィ集合に分割し、その再計算後の確
信度が伝搬された新たな複数のノードを生成する構成と
したので、大量の訓練事例から、曖昧性を加味した表現
を持つ判断規則を帰納学習することができ、これにより
判断(分類)性能が向上する。
【0087】また、本発明によれば、生成される判断規
則を利用して、分岐ノードにおいて連続値型の属性によ
って判断を行う際に、境界値近傍での判断が必要な場合
には曖昧な処理を行い、更に、最終的な判断結果は解の
確からしさが確信度として明示的に表現され、第2候
補、第3候補…というように、複数の解が列挙できるよ
うな推論が行える。
則を利用して、分岐ノードにおいて連続値型の属性によ
って判断を行う際に、境界値近傍での判断が必要な場合
には曖昧な処理を行い、更に、最終的な判断結果は解の
確からしさが確信度として明示的に表現され、第2候
補、第3候補…というように、複数の解が列挙できるよ
うな推論が行える。
【図1】本発明の一実施例に係るファジィ決定木生成装
置の構成を示すブロック図。
置の構成を示すブロック図。
【図2】図1の装置の処理手順を示すフローチャート。
【図3】同実施例において、未処理ノードスタック13
にノードN0 が積まれた際の、未処理ノードスタック1
3と処理済ノードスタック14の状態を模式的に示す
図。
にノードN0 が積まれた際の、未処理ノードスタック1
3と処理済ノードスタック14の状態を模式的に示す
図。
【図4】同実施例において、ノードN0 に対する処理が
終了した際の、未処理ノードスタック13と処理済ノー
ドスタック14の状態を模式的に示す図。
終了した際の、未処理ノードスタック13と処理済ノー
ドスタック14の状態を模式的に示す図。
【図5】同実施例において、ノードN1 に対する処理が
終了した際の、未処理ノードスタック13と処理済ノー
ドスタック14の状態を模式的に示す図。
終了した際の、未処理ノードスタック13と処理済ノー
ドスタック14の状態を模式的に示す図。
【図6】同実施例において、ノードN2 に対する処理が
終了した際の、未処理ノードスタック13と処理済ノー
ドスタック14の状態を模式的に示す図。
終了した際の、未処理ノードスタック13と処理済ノー
ドスタック14の状態を模式的に示す図。
【図7】同実施例において属性の区間に対する帰属度を
判断するのに用いられる関数GOFij(x)の特性を示
す図。
判断するのに用いられる関数GOFij(x)の特性を示
す図。
【図8】図1の装置で生成されたメンバーシップ関数M
ij(x)の一例を示す図。
ij(x)の一例を示す図。
【図9】図1の装置から出力されたファジィ決定木の一
例を示す図。
例を示す図。
【図10】図9に示すファジィ決定木を用いて診断を実
行した際に、事例がファジィ決定木の内部を伝搬する様
子を模式的に示す図。
行した際に、事例がファジィ決定木の内部を伝搬する様
子を模式的に示す図。
【図11】学習に使用する訓練事例の一例を示す図。
【図12】周知のID3 アルゴリズムによって生成され
た決定木の一例を示す図。
た決定木の一例を示す図。
1…訓練事例群、2…学習制御パラメータ、3…ファジ
ィ決定木、4…ファジィ決定木生成装置、5…初期ノー
ド生成回路、6…処理ノード取り出し回路、7…ノード
評価回路、8…区間分割回路、9…テスト属性選択回
路、10…ファジィノード分割回路、11…帰属度判断
定数計算回路、12…ファジィ決定木出力回路、13…
未処理ノードスタック、14…処理済ノードスタック。
ィ決定木、4…ファジィ決定木生成装置、5…初期ノー
ド生成回路、6…処理ノード取り出し回路、7…ノード
評価回路、8…区間分割回路、9…テスト属性選択回
路、10…ファジィノード分割回路、11…帰属度判断
定数計算回路、12…ファジィ決定木出力回路、13…
未処理ノードスタック、14…処理済ノードスタック。
Claims (7)
- 【請求項1】 連続値型の複数の属性、およびそれに対
して与えられた離散多値の分類結果を1つの組とした訓
練事例を多数集めた訓練事例群から、複数の分岐ノード
と末端ノードよりなる、未知データに対する判断規則を
生成する判断規則生成装置において、 前記各訓練事例に、その事例自体の確からしさを連続値
で示す確信度を予めあるいは前記判断規則の生成開始に
際して付与する手段と、 前記分岐ノードに属する訓練事例群をもとに、各属性毎
に、前記判断規則を構成する上で分類能力の高い境界値
を検出することにより区間分割を行う区間分割手段と、 前記分岐ノードに属する訓練事例群を対象として、各属
性毎に、個々の事例が持つ確信度の要素を含む情報利得
を計算し、この情報利得が最大となる属性を、同ノード
でのテストに使用する属性として選択するテスト属性選
択手段と、 このテスト属性選択手段によって選択された属性につい
ての、前記区間分割手段により分割された各区間に対応
して生成される区間判定を曖昧に行うためのメンバーシ
ップ関数を用いて、前記分岐ノードに属する個々の訓練
事例の確信度を再計算することにより、前記分岐ノード
に属する訓練事例群をファジィ集合に分割して、その再
計算後の確信度が伝搬された、新たな分岐ノードまたは
末端ノードとなり得る複数のノードを生成するファジィ
ノード分割手段と、 を具備することを特徴とする判断規則生成装置。 - 【請求項2】 前記区間分割手段は、前記訓練事例群の
うち確信度が予め定められた基準を満たす事例、あるい
は前記訓練事例群からその構成事例数に応じた数だけラ
ンダムに選択される事例を用いて前記区間分割を行うこ
とを特徴とする請求項1記載の判断規則生成装置。 - 【請求項3】 連続値型の属性および離散値型の属性か
らなる複数の属性、およびそれに対して与えられた離散
多値の分類結果を1つの組とした訓練事例を多数集めた
訓練事例群から、複数の分岐ノードと末端ノードよりな
る、未知データに対する判断規則を生成する判断規則生
成装置において、 前記各訓練事例に、その事例自体の確からしさを連続値
で示す確信度を予めあるいは前記判断規則の生成開始に
際して付与する手段と、 前記分岐ノードに属する訓練事例群をもとに、各属性毎
に、連続値型の属性については、前記判断規則を構成す
る上で分類能力の高い境界値を検出することにより区間
分割を行い、離散値型の属性については、離散値を区間
とする区間分割を行う区間分割手段と、 前記分岐ノードに属する訓練事例群を対象として、各属
性毎に、個々の事例が持つ確信度の要素を含む情報利得
を計算し、この情報利得が最大となる属性を、同ノード
でのテストに使用する属性として選択するテスト属性選
択手段と、 このテスト属性選択手段によって選択された属性が連続
値型の場合には、その属性についての、前記区間分割手
段により分割された各区間に対応して生成される区間判
定を曖昧に行うためのメンバーシップ関数を用いて、前
記分岐ノードに属する個々の訓練事例の確信度を再計算
することにより、前記分岐ノードに属する訓練事例群を
ファジィ集合に分割して、その再計算後の確信度が伝搬
された、新たな分岐ノードまたは末端ノードとなり得る
複数のノードを生成し、離散値型の場合には、その属性
についての前記区間分割手段により分割された各区間を
単位に前記分岐ノードに属する訓練事例群を分割して、
新たな分岐ノードまたは末端ノードとなり得る複数のノ
ードを生成するファジィノード分割手段と、 を具備することを特徴とする判断規則生成装置。 - 【請求項4】 連続値型の属性および離散値型の属性か
らなる複数の属性、およびそれに対して与えられた離散
多値の分類結果を1つの組とした訓練事例を多数集めた
訓練事例群から、複数の分岐ノードと末端ノードよりな
る、未知データに対する判断規則を生成する判断規則生
成装置において、 前記各訓練事例に、その事例自体の確からしさを連続値
で示す確信度を予めあるいは前記判断規則の生成開始に
際して付与する手段と、 前記分岐ノードに属する訓練事例群をもとに、各属性毎
に、連続値型の属性については、前記判断規則を構成す
る上で分類能力の高い境界値を検出することにより区間
分割を行い、離散値型の属性については、離散値を区間
とする区間分割を行う区間分割手段と、 前記分岐ノードに属する訓練事例群を対象として、各属
性毎に、個々の事例が持つ確信度の要素を含む情報利得
を計算し、この情報利得が最大となる属性を、同ノード
でのテストに使用する属性として選択するテスト属性選
択手段と、 このテスト属性選択手段によって選択された属性が連続
値型の場合には、その属性についての、前記区間分割手
段により分割された各区間に対応して生成される区間判
定を曖昧に行うためのメンバーシップ関数を用い、離散
値型の場合には、その属性についての、前記区間分割手
段により分割された各区間に対応して予め用意されるメ
ンバーシップ関数を用い、前記分岐ノードに属する個々
の訓練事例の確信度を再計算することにより、前記分岐
ノードに属する訓練事例群をファジィ集合に分割して、
その再計算後の確信度が伝搬された、新たな分岐ノード
または末端ノードとなり得る複数のノードを生成するフ
ァジィノード分割手段と、 を具備することを特徴とする判断規則生成装置。 - 【請求項5】 前記区間分割手段は、前記連続値型の属
性については、前記訓練事例群のうち確信度が予め定め
られた基準を満たす事例、あるいは前記訓練事例群から
その構成事例数に応じた数だけランダムに選択される事
例を用いて前記区間分割を行うことを特徴とする請求項
3または請求項4記載の判断規則生成装置。 - 【請求項6】 前記末端ノードに伝搬した訓練事例群が
持つ確信度をもとに、個々の分類結果に対する帰属度判
断定数を計算する帰属度判断定数計算手段を更に具備す
ることを特徴とする請求項1乃至請求項5のいずれかに
記載の判断規則生成装置。 - 【請求項7】 前記帰属度判断定数計算手段は、前記末
端ノードに属する個々の訓練事例が持つ確信度の合計に
対して、同一の分類結果を有する訓練事例が持つ確信度
の合計が占める割合を、前記帰属度判断定数として求め
ることを特徴とする請求項6記載の判断規則生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4160958A JPH064292A (ja) | 1992-06-19 | 1992-06-19 | 判断規則生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4160958A JPH064292A (ja) | 1992-06-19 | 1992-06-19 | 判断規則生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH064292A true JPH064292A (ja) | 1994-01-14 |
Family
ID=15725869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4160958A Pending JPH064292A (ja) | 1992-06-19 | 1992-06-19 | 判断規則生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH064292A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003310557A (ja) * | 2002-04-19 | 2003-11-05 | Keio Gijuku | 診療支援装置、診療支援方法、及び診療支援プログラム |
JP2007334781A (ja) * | 2006-06-19 | 2007-12-27 | Hitachi Medical Corp | 健康指導支援システム |
WO2012029154A1 (ja) * | 2010-09-02 | 2012-03-08 | 株式会社かんでんエンジニアリング | 油中ガス濃度を用いた油入電気機器の内部異常診断方法、内部異常診断システム及び内部異常診断のための決定木作成方法 |
CN111123324A (zh) * | 2019-12-31 | 2020-05-08 | 杭州电子科技大学 | 一种基于改进蚁群算法的dgps整周模糊度搜索方法 |
WO2021161603A1 (ja) * | 2020-02-10 | 2021-08-19 | 株式会社エイシング | 情報処理装置、方法、プログラム及びシステム |
US12071796B2 (en) | 2020-05-29 | 2024-08-27 | Sugatsune Kogyo Co., Ltd. | Hinge mounting structure |
-
1992
- 1992-06-19 JP JP4160958A patent/JPH064292A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003310557A (ja) * | 2002-04-19 | 2003-11-05 | Keio Gijuku | 診療支援装置、診療支援方法、及び診療支援プログラム |
JP2007334781A (ja) * | 2006-06-19 | 2007-12-27 | Hitachi Medical Corp | 健康指導支援システム |
WO2012029154A1 (ja) * | 2010-09-02 | 2012-03-08 | 株式会社かんでんエンジニアリング | 油中ガス濃度を用いた油入電気機器の内部異常診断方法、内部異常診断システム及び内部異常診断のための決定木作成方法 |
JP5684813B2 (ja) * | 2010-09-02 | 2015-03-18 | 株式会社かんでんエンジニアリング | 油入電気機器の異常予測診断方法 |
US9135557B2 (en) | 2010-09-02 | 2015-09-15 | Kanden Engineering Corporation | Internal abnormality diagnosis method, internal abnormality diagnosis system, and decision tree generation method for internal abnormality diagnosis of oil-filled electric apparatus utilizing gas concentration in oil |
CN111123324A (zh) * | 2019-12-31 | 2020-05-08 | 杭州电子科技大学 | 一种基于改进蚁群算法的dgps整周模糊度搜索方法 |
WO2021161603A1 (ja) * | 2020-02-10 | 2021-08-19 | 株式会社エイシング | 情報処理装置、方法、プログラム及びシステム |
US12071796B2 (en) | 2020-05-29 | 2024-08-27 | Sugatsune Kogyo Co., Ltd. | Hinge mounting structure |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109350032B (zh) | 一种分类方法、系统、电子设备及存储介质 | |
Van Der Gaag | Bayesian belief networks: odds and ends | |
CN108511057A (zh) | 输血量模型建立及预测方法、装置、设备及其存储介质 | |
Tripoliti et al. | Automated diagnosis of diseases based on classification: dynamic determination of the number of trees in random forests algorithm | |
JP7191443B2 (ja) | 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム | |
JP3762840B2 (ja) | 類似事例に基づく予測を行う予測装置および方法 | |
CN111834010A (zh) | 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法 | |
CN108630312A (zh) | 一种高血压诊断规则库自动生成方法及装置 | |
CN118036756B (zh) | 大模型多轮对话的方法、装置、计算机设备及存储介质 | |
CN113128689A (zh) | 一种调控知识图谱的实体关系路径推理方法及系统 | |
US5890143A (en) | Apparatus for refining determination rule corresponding to probability of inference result of evaluation object, method thereof and medium thereof | |
JPH064292A (ja) | 判断規則生成装置 | |
Wisaeng | Predict the diagnosis of heart disease using feature selection and k-nearest neighbor algorithm | |
JPWO2019240047A1 (ja) | 行動学習装置 | |
CN113095501A (zh) | 一种基于深度强化学习的不平衡分类决策树生成方法 | |
Ming | A rough set based hybrid method to feature selection | |
CN113362920B (zh) | 基于临床数据的特征选择方法及装置 | |
Kusumadewi et al. | Performance of Fuzzy C-Means (FCM) and Fuzzy Subtractive Clustering (FSC) on Medical Data Imputation | |
KR20070058936A (ko) | 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체 | |
Barach et al. | Fuzzy decision trees in medical decision making support systems | |
US20230395221A1 (en) | Health improvement path search device and health improvement path search method | |
Cao et al. | Bayesian-Based Symptom Screening for Medical Dialogue Diagnosis | |
CN117668701B (zh) | Ai人工智能机器学习系统及方法 | |
Song et al. | Transductive knowledge based fuzzy inference system for personalized modeling | |
JPH10187649A (ja) | ニューラルネットワーク |