JPH11259447A - 属性選択装置、属性評価装置、属性選択方法、属性評価方法 - Google Patents

属性選択装置、属性評価装置、属性選択方法、属性評価方法

Info

Publication number
JPH11259447A
JPH11259447A JP10055565A JP5556598A JPH11259447A JP H11259447 A JPH11259447 A JP H11259447A JP 10055565 A JP10055565 A JP 10055565A JP 5556598 A JP5556598 A JP 5556598A JP H11259447 A JPH11259447 A JP H11259447A
Authority
JP
Japan
Prior art keywords
attribute
value
label
class
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10055565A
Other languages
English (en)
Inventor
Ryohei Orihara
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10055565A priority Critical patent/JPH11259447A/ja
Publication of JPH11259447A publication Critical patent/JPH11259447A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 C4.5の学習結果を用いての予測精度を向
上する。 【解決手段】 この属性選択装置は、C4.5に与える
べき複数の事例を2つの部分集合に分割する分割部10
2と、2つの部分集合に分けられた各部分集合内で、あ
る属性が特定の属性値を取った場合の、クラスが特定の
ラベルとなることの条件付き確率を計算する条件付き確
率計算部106と、計算された確率が2つの部分集合に
おいてどれほど異なるかを、ラベルおよび属性値につい
て、それぞれの出現頻度に基づき加重平均する加重平均
計算部108と、属性の取り得る属性値について、加重
平均された値を基に、属性がどれほど有用であるかを判
断する属性要・不要判断部112とを具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、与えられた事例集
合から、クラスが特定のラベルとなるための条件を帰納
的に学習する帰納的概念学習装置に適用される属性選択
装置、属性評価装置、属性選択方法、属性評価方法に関
する。
【0002】
【従来の技術】近年、人工知能の研究において、例題を
与えることによって、対象とする概念の一般知識を発見
する機械学習の技術が広く研究されつつある。その一つ
の方向として、数値または記号で表現された幾つかの属
性と、それに対してオペレータ等が事前にデータを吟味
して与えるクラスと呼ばれる特定の属性がどんなラベル
(属性値)を取るかを事例とし、多数の事例を帰納的概
念学習装置の例題として与えることによって、属性とク
ラスが特定のラベルになることの間の一般法則を見つけ
出し、クラスが与えられていない事例が与えられた時
に、その事例の持つ属性値を評価して、ラベルを予測推
定し、出力する装置も開発されている。
【0003】例えば図2に示す事例データは、16個の属
性handicapped-infants,water-project-cost-sharin
g,...,export-administration-act-south-africa を持
ち、各行が一つの事例を表している。各行の最後(項目
名class に対応)はクラスに対応し、2種類のラベルde
mocrat,republican がある。
【0004】このように、クラスが特定のラベルとなる
ための条件の内包的記述を導く方法としては、さまざま
な方法があるが、現実的には、クラスを決定する要因と
なっている属性がどれなのかを事前に知ることはできな
いため、とにかく利用可能な属性をすべて用いるか、あ
るいは背景知識を用いてアドホックに要因となっている
属性を推定して用いるなどのアプローチを取り、そうし
て作られた事例を概念学習装置に与え、クラスが特定の
ラベルになるための条件の内包的記述を求めることにな
る。この詳細については参考文献1、2に記載されてい
る。
【0005】(参考文献1…Quinlan,J.R.,"Induotion
of Decision Trees",Machine Learning Vol.1,pp.81-10
6,1986. ) (参考文献2…Quinlan,J.R.,"C4.5:Programs for Mach
ine Learning",MorganKaufmann Publishers,1993.) ところで、このように、不必要な属性をも事例に含める
ことは、学習に要する計算時間を伸ばすことになる。ま
た、クラス不明のデータに対して予測推定を行う際の精
度を低下させることも起こり得る。
【0006】そこで、帰納的概念学習装置に対してどの
ような属性を入力として与えるかを決定する方法が知ら
れている。この詳細について参考文献3、4に記載され
ている。
【0007】(参考文献3…Almuallim,H.and Dietteri
ch,T.G.,"Learning Boolean concepts in the presence
of many irrelevant features",Artificial Intellige
nceVol.69,pp.279-305,1994. ) (参考文献4…Vafaie,H.and De Jong,K.,"Improving a
Rule Induction System Using Genetic Algorithms",i
n Michalski and Tecuci(ed.),Machine Learning:A Mul
tistrategy Approach,Morgan Kaufmann Publishers,199
4.) これらの方法は、属性の部分集合の空間を探索するた
め、長い計算時間を要する上、既知の事例以外のデータ
に対して予測推定を行う際の精度が向上する保証はな
い。不必要な属性をも事例に含めたとき、予測推定を行
う際の精度が低下するのは、学習に用いられた事例(訓
練例)へのoverfitting が起こるからである。これに対
処する方法の一つとして、cross validation法があり、
この方法は統計などで良く知られている。このcross va
lidation法を用いた一例は参考文献に記載されている。
(参考文献5…John,G.H.et al.,"Irrelevant Features
and the Subset Selection Problem",Proc.of the 11t
h Machine Leaning pp.121-129,1994.) ここで、図11を参照してcross validation法を説明す
る。同図に示すように、cross validation法は、与えら
れた事例の一部を予め取り除き、残りの事例のみを使っ
て学習させ、上記取り除いておいた事例を用いて学習結
果をテストする、という手続きを、事例の取り除き方を
さまざまに変えて繰り返し、評価の総和を取ることによ
り、与えられた事例全体を用いて学習したときの学習結
果が未知の事例に対して行う予測の精度を見積もる方法
である。
【0008】上記参考文献5には、ある属性部分集合を
用いて学習する際の精度をcross validation法によって
評価し、有用な属性部分集合を探索する方法が紹介され
ている。この方法によって得られた属性部分集合を用い
ると、帰納的概念学習装置の学習結果を用いての予測精
度が高くなることが実験的に知られている。
【0009】
【発明が解決しようとする課題】しかしながら、参考文
献5に記載されている方法の場合、属性部分集合の有用
さの評価のために帰納的概念学習装置を数回(cross va
lidation法の分割数だけ)用いる必要があるため非常に
長い計算時間を要するという問題があった。
【0010】本発明はこのような課題を解決するために
なされたもので、高速にかつ帰納的概念学習装置の学習
結果を用いての予測の精度を向上することのできる属性
選択装置、属性評価装置、属性選択方法および属性評価
方法を提供することを目的としている。
【0011】
【課題を解決するための手段】上記した目的を達成する
ために、請求項1記載の発明の属性選択装置は、対象が
記号で表現された幾つかの属性に対する属性値の列で表
現されており、これら属性値の列に対してクラスと呼ば
れる特別な属性とその属性値であるラベルという離散な
値とが割り当てられているような複数の事例が与えられ
て、前記クラスが特定のラベルになることの必要十分条
件を定義する記述を求める帰納的概念学習装置に対し、
予め与えられている属性/属性値の組の列の一部分を選
び出して新たな事例を生成して与える属性選択装置にお
いて、前記帰納的概念学習装置に与えるべき前記複数の
事例を2つの部分集合に分割する分割手段と、前記分割
手段により2つの部分集合に分けられた各部分集合内
で、ある属性が特定の属性値を取った場合の、クラスが
特定のラベルとなることの条件付き確率を計算する手段
と、計算された確率が前記2つの部分集合においてどれ
ほど異なるかを、前記ラベルおよび属性値について、そ
れぞれの出現頻度に基づき加重平均する手段と、前記属
性の取り得る属性値について、前記加重平均された値を
基に、属性がどれほど有用であるかを判断する判断手段
とを具備したことを特徴としている。
【0012】請求項2記載の発明の属性選択装置は、請
求項1記載の属性選択装置において、前記判断手段は、
前記加重平均された値を、前記複数の事例の分割の仕方
をさまざまに変えた場合において計算する計算手段と、
前記計算手段により計算された値を積算する積算手段
と、前記積算手段により積算された値を基に、属性がど
れほど有用であるかを判断する手段とを具備したことを
特徴としている。
【0013】請求項3記載の発明の属性選択装置は、請
求項2記載の属性選択装置において、前記判断手段が、
前記積算手段により前記積算された値の比較的小さい属
性が有用であると判断した場合、それらの属性のみから
なる事例を前記帰納的概念学習装置に与える手段を具備
したことを特徴としている。
【0014】請求項4記載の発明の属性評価装置は、対
象が記号で表現された幾つかの属性に対する属性値の列
で表現されており、これら属性値の列に対してクラスと
呼ばれる特別な属性とその属性値であるラベルという離
散な値とが割り当てられているような複数の事例が与え
られて、前記クラスが特定のラベルになることの必要十
分条件を定義する記述を求める帰納的概念学習装置に対
し、前記属性が提供する情報の質に関する評価尺度を与
える属性評価装置において、前記帰納的概念学習装置に
与えるべき前記複数の事例を2つの部分集合に分割する
分割手段と、前記分割手段により2つの部分集合に分け
られた各部分集合内で、ある属性が特定の属性値を取っ
た場合の、クラスが特定のラベルとなることの条件付き
確率を計算する手段と、計算された確率が前記2つの部
分集合においてどれほど異なるかを、前記ラベルおよび
属性値について、それぞれの出現頻度に基づき加重平均
する手段と、前記属性の取り得る属性値について、前記
加重平均された値を基に、属性がどれほど有用であるか
を判断する判断手段とを具備したことを特徴としてい
る。
【0015】請求項5記載の発明の属性評価装置は、請
求項4記載の属性評価装置において、前記判断手段は、
前記加重平均された値を、前記複数の事例の分割の仕方
をさまざまに変えた場合において計算する計算手段と、
前記計算手段により計算された値を積算する積算手段
と、前記積算手段により積算された値を基に、属性がど
れほど有用であるかを判断する手段とを具備したことを
特徴としている。
【0016】請求項6記載の発明の属性評価装置は、請
求項5記載の属性評価装置において、前記積算手段によ
り前記積算された値を、前記属性の信頼度として前記帰
納的概念学習装置に与える手段を具備したことを特徴と
している。
【0017】請求項7記載の発明の属性選択方法は、対
象が記号で表現された幾つかの属性に対する属性値の列
で表現されており、これら属性値の列に対してクラスと
呼ばれる特別な属性とその属性値であるラベルという離
散な値とが割り当てられているような事例集合が与えら
れて、前記クラスが特定のラベルになることの必要十分
条件を定義する記述を求める帰納的概念学習装置に対
し、予め与えられている属性/属性値の組の列の一部分
を選び出して新たな事例を生成して与える属性選択方法
において、前記帰納的概念学習装置に与えるべき前記複
数の事例を2つの部分集合に分割する工程と、前記2つ
の部分集合に分けられた各部分集合内で、ある属性が特
定の属性値を取った場合の、クラスが特定のラベルとな
ることの条件付き確率を計算する工程と、計算された確
率が前記2つの部分集合においてどれほど異なるかを、
前記ラベルおよび属性値について、それぞれの出現頻度
に基づき加重平均する工程と、前記属性の取り得る属性
値について、前記加重平均された値を、前記複数の事例
の分割の仕方をさまざまに変えた場合において計算する
工程と、前記計算された値を積算する工程と、前記積算
された値を基に、属性がどれほど有用であるかを判断す
る工程と、前記積算された値の比較的小さい属性が有用
であると判断された場合、それらの属性のみからなる事
例を前記帰納的概念学習装置に与える工程とを具備した
ことを特徴としている。
【0018】請求項8記載の発明の属性評価方法は、対
象が記号で表現された幾つかの属性に対する属性値の列
で表現されており、これら属性値の列に対してクラスと
呼ばれる特別な属性とその属性値であるラベルという離
散な値とが割り当てられているような複数の事例が与え
られて、前記クラスが特定のラベルになることの必要十
分条件を定義する記述を求める帰納的概念学習装置に対
し、前記属性が提供する情報の質に関する評価尺度を与
える属性評価方法において、前記帰納的概念学習装置に
与えるべき前記複数の事例を2つの部分集合に分割する
工程と、前記2つの部分集合に分けられた各部分集合内
で、ある属性が特定の属性値を取った場合の、クラスが
特定のラベルとなることの条件付き確率を計算する工程
と、計算された確率が前記2つの部分集合においてどれ
ほど異なるかを、前記ラベルおよび属性値について、そ
れぞれの出現頻度に基づき加重平均する工程と、前記属
性の取り得る属性値について、前記加重平均された値
を、前記複数の事例の分割の仕方をさまざまに変えた場
合において計算する工程と、前記計算された値を積算す
る工程と、前記積算された値を、前記属性の信頼度とし
て前記帰納的概念学習装置に与える工程とを具備したこ
とを特徴としている。
【0019】上記した発明では、与えられた事例集合を
2つの部分集合に分け、各々の部分集合内で、ある属性
が特定の属性値をとった場合の、クラスが特定のラベル
となることの条件付き確率を計算し、この確率が2つの
部分集合においてどれほど異るかを、この属性の取り得
る属性値に関し、属性値の出現頻度に基づき加重平均し
た値を求める。この計算を、上記事例集合の分割の仕方
をさまざまに変えて繰り返し積算する。この値が大きい
属性(群)を不要として除去し、帰納的概念学習装置に
与える事例を生成する。あるいは、この値を、属性から
得られる情報への信頼度の指標として利用できるよう帰
納的概念学習装置に提供する。
【0020】したがって、属性選択装置においては、 o
verfittingを避けることのできる属性部分集合の選択を
極めて高速に行うことができる。また、属性評価装置に
おいては、属性の評価尺度の計算を極めて高速に行うこ
とができる。
【0021】この結果、帰納的概念学習装置の学習結果
を用いての予測の精度を向上することができる。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を図面
に参照して詳細に説明する。図1は本発明に係る第1実
施形態の属性選択装置の構成を示す図である。この第1
実施形態の属性選択装置は、入力部101、分割部10
2、分割方法制御部103、部分集合格納部104,1
05、条件付確率計算部106、確率比較部107、加
重平均計算部108、加重平均格納部109、積算部1
10、積算値格納部111、属性要・不要判定部11
2、出力部113などを有している。入力部101はキ
ーボード、ネットワークからのオンライン入力に対する
インターフェース、あるいは情報伝達のための記録媒体
である磁気ディスクなどを駆動して情報を読み取る磁気
ディスク装置などである。この他、光磁気ディスクを読
み取る光磁気ディスク装置やフラッシュメモリを読み取
るカードリーダなどでも良い。分割部102は与えられ
た事例を2つの部分集合A,Bに分割する。分割方法制
御部103は属性Cに対する積算値[C]を初期化する
と共に、さまざまな場合のデータ分割に関して繰り返し
処理を管理する。またこの分割方法制御部103は十分
に多様な分割方法を試したか否かなどを判断する。部分
集合格納部104には分割された一方の部分集合、例え
ば部分集合Aが格納される。部分集合格納部105には
分割された他方の部分集合、例えば部分集合Bが格納さ
れる。条件付確率計算部106は部分集合格納部10
4,105の部分集合A、Bそれぞれについて、すべて
の属性Cに関して、その属性Cが特定の属性値Vをとっ
た場合を想定しクラスが特定のラベルlになる条件付き
確率を計算する。確率比較部107は各属性C、属性値
V、ラベルlについて比較計算を行う。加重平均計算部
108はラベルについてラベルの出現頻度に基づき加重
平均を計算すると共に、属性値について属性値の出現頻
度に基づき加重平均を計算する。加重平均格納部109
には各属性Cに関して算出された値が格納される。積算
部110は加重平均格納部109に格納されている算出
値を積算し積算値格納部111に格納する。属性要・不
要判定部112は積算値格納部111の積算値を基に属
性の有用性を判断する。出力部113は属性要・不要判
定部112の判断結果を基に有用属性のみからなる事例
を生成して帰納的概念学習装置へ出力する。
【0023】すなわち、この属性選択装置は、既存の帰
納的概念学習装置、例えばC4.5などに対して、どの
ような入力を与えたら良いかを決定するものである。な
おC4.5については従来技術で説明した参考文献2を
参照するものとし、その詳細な説明は省略する。また、
この場合、例えば図2に示すように、いくつかの属性か
らなる事例(以下訓練例と呼ぶ)が紙または磁気テープ
などの記録媒体に表形式で記録されているものとする。
この図2に示す事例データは、16個の属性handicapped-
infants,water-project-cost-sharing,...,export-admi
nistration-act-south-africa を持ち、各列が一つの事
例を表している。各列の矢印の下はクラスに対応し、2
種類のラベルdemocrat,republican がある。
【0024】以下、図3〜図8を参照してこの属性選択
装置の動作を説明する。図3はこの第1実施形態の属性
選択装置の処理の流れを示すフローチャートである。
【0025】この属性選択装置の場合、図2の訓練例
が、キーボード入力、ネットワークによるオンライン入
力されたり、あるいは情報伝達のための記録媒体である
磁気テープなどから読み取るなど等の形で入力部101
から入力される(図3のS201)。
【0026】次に、各属性Cに対する積算値[C]を初
期化する(S202)。
【0027】さらに、以下の手続き(S203〜S20
9)を、様々なデータ分割に関して繰り返す。この手続
きは分割方法制御部103が管理する。
【0028】まず、分割部102が、事例を2つの部分
集合A,Bに分割し(S203)、分割したそれぞれの
部分集合A,Bを部分集合格納部104,105へ格納
する。 条件付き確率計算部106は、部分集合格納部
104,105の部分集合A、Bそれぞれについて、す
べての属性Cに関して、その属性Cが特定の属性値Vを
とった場合を想定して、クラスが特定のラベルlになる
条件付き確率を計算し、それぞれAl,c =v,B
l,c =vとする(S204、S205)。
【0029】次に、確率比較部107は、各属性C、属
性値V、ラベルlに関して、|Al, c =v−Bl,c =v
|を計算する。この値は、加重平均計算部108によっ
て、まずラベルに関して、ラベルの出現頻度に基づき加
重平均され(S207)、次に、属性値に関して、属性
値の出現頻度に基づき加重平均される(S206、S2
08)。各属性Cに関して算出されたこの値P0 [C]
は加重平均格納部109に格納される。この加重平均格
納部109に格納された値P0 [C]は積算部110に
より積算されて積算値[C]として累積される(S20
9)。
【0030】分割方法制御部103が十分に多様な分割
方法を試したと判断したなら、繰り返しは終了し、その
時点での積算値格納部111の積算値を基に、属性要・
不要判定部112が属性の有用性を判断する。
【0031】「十分に多様な分割方法を試したと判断」
するためには、 ・事例をN個のブロックに分割し、i番目のブロックを
A、全体からi番目のブロックを除いた事例集合をBと
し、これをiを1〜Nまで変化させて繰り返す ・事例をN個のブロックに分割し、N個からR個(R=
1,...,N−1)を取り出すことによって部分集合
Aを作り、残りを部分集合Bとする。Rを1〜N−1ま
で変化させ、そのすべてについて、 NR 通りの組合わ
せを試すよう繰り返す などがある。
【0032】図4に、上記終了条件として1番目のもの
(N=10)を用いた場合に、図2のデータに対して本
実施形態が生成した積算値の表を示す。
【0033】この属性選択装置では、積算値[C]の大
きな属性Cが不要と判定される(S210)。積算値の
大きな属性を不要と判断するには、 ・予め決められた閾値を用いる方法 ・要/不要の2つのクラスタに別れるようにクラスタリ
ングを行う方法 ・積算値に関して昇順にソートし、隣接属性との積算値
の差が最大なところで要不要に分離する方法 などがある。
【0034】ここで、上記した中の最後の方法を図4に
対して適用すると、有用な属性はphysician-fee-freeze
のみで、他はすべて不要ということになる。
【0035】最後に、出力部113は、有用属性のみか
らなる事例を生成して出力する(S211)。例えばph
ysician-fee-freezeのみが有用とされた場合は、physic
ian-fee-freezeとラベルのみを持つ事例とを出力する。
【0036】ここで、この属性選択装置の効果をみるた
め、図2に示すデータに対し、従来通りに、C4.5が
単独で図5に示すデータ定義の記述を基に導き出した概
念記述(pro-log のルール形式)の一例(図6)と、こ
の実施形態の属性選択装置が図4に示す積算値の表に基
づき、Physician-fee-freezeのみを有用と判断し、phys
ician-fee-freezeと、ラベルのみを持つ事例をC4.5
へ入力し、C4.5により生成された概念記述の例(図
7)とを比較する。
【0037】図6のルール形式では、図8に示すデータ
に対してimmigration がnであり、uty-free-exportsが
yであるために、図6の上から2行目のルールに適合
し、クラスはdemocratであると予測されるが、実際には
図8の通りクラスはrepublicanであり正しく弁別できな
いが、図7に示す概念記述では図8に示すデータに対し
て正しい弁別を行えることが判る。
【0038】このようにこの第1実施形態の属性選択装
置によれば、C4.5に与えるべき事例集合を分割して
部分集合A,Bとし、その中で overfittingを避けるよ
うな属性を持つ部分集合を選び出して事例としてC4.
5へ出力するので、従来の方法に比ベて属性選択を極め
て高速に行うことができる。この結果、C4.5の学習
結果を用いての予測の精度を向上することができる。
次に、図9、図10を参照して本発明に係る第2実施形
態の属性評価装置について説明する。図9は本発明に係
る第2実施形態の属性評価装置の構成を示す図である。
【0039】この第2実施形態の属性評価装置は、図9
に示すように、入力部501、分割部502、分割方法
制御部503、部分集合格納部504,505、条件付
確率計算部506、確率比較部507、加重平均計算部
508、加重平均格納部509、積算部510、積算値
格納部511、出力部513などを有している。入力部
501はキーボード、ネットワークからのオンライン入
力に対するインターフェース、あるいは情報伝達のため
の記録媒体である磁気ディスクなどを駆動して情報を読
み取る磁気ディスク装置などである。この他、光磁気デ
ィスクを読み取る光磁気ディスク装置やフラッシュメモ
リを読み取るカードリーダなどでも良い。分割部502
は与えられた事例を2つの部分集合A,Bに分割する。
分割方法制御部503は属性Cに対する積算値[C]を
初期化すると共に、さまざまな場合のデータ分割に関し
て繰り返し処理を管理する。またこの分割方法制御部5
03は十分に多様な分割方法を試したか否かなどを判断
する。部分集合格納部504には分割された一方の部分
集合、例えば部分集合Aが格納される。部分集合格納部
505には分割された他方の部分集合、例えば部分集合
Bが格納される。条件付確率計算部506は部分集合格
納部504,505の部分集合A、Bそれぞれについ
て、すべての属性Cに関して、その属性Cが特定の属性
値Vをとった場合を想定しクラスが特定のラベルlにな
る条件付き確率を計算する。確率比較部507は各属性
C、属性値V、ラベルlについて比較計算を行う。加重
平均計算部508はラベルについてラベルの出現頻度に
基づき加重平均を計算すると共に、属性値について属性
値の出現頻度に基づき加重平均を計算する。加重平均格
納部509には各属性Cに関して算出された値が格納さ
れる。積算部510は加重平均格納部509に格納され
ている算出値を積算し積算値格納部511に格納する。
出力部513は積算値格納部511によって積算された
値をC4.5へ出力する。 続いて、図10を参照して
この第2実施形態の属性評価装置の動作を説明する。
図10はこの第2実施形態の属性評価装置の処理の流れ
を示すフローチャートである。なお、この場合も上記同
様に、図2に示したいくつかの属性からなる事例(以下
訓練例と呼ぶ)が紙または磁気テープなどの記録媒体に
表形式で記録されているものとする。
【0040】この属性評価装置では、例えば図2に示し
た訓練例が、キーボード入力、ネットワークによるオン
ライン入力、情報伝達の媒体である磁気テープから読み
取る(501、S601)等の形で入力される。
【0041】次に、各属性Cに対する積算値[C]を初
期化(S602)する。
【0042】さらに、以下の手続き(S603〜S60
9)を、様々なデータ分割に関して繰り返す。このプロ
セスは分割方法制御部503が管理する。
【0043】まず、分割部502が、事例を2つの部分
集合A(504)、B(505)に分割し(S60
3)、部分集合Aを部分集合格納部504へ格納すると
共に、部分集合Bを部分集合格納部505へ格納する。
【0044】条件付き確率計算部506は、部分集合格
納部504,505それぞれに格納された部分集合A,
Bについて、すべての属性Cに関して、その属性Cが特
定の属性値Vをとった場合に、クラスが特定のラベルl
になる条件付き確率を計算し、それぞれAl,c =v、B
l,c =vとする(S604、S605)。
【0045】次に、確率比較部507が、各属性C、属
性値V、ラベルlに関して、|Al, c =v−Bl,c =v
|を計算する。この計算値は、加重平均計算部508に
よって、まず、ラべルに関して、ラベルの出現頻度に基
づき加重平均される(S607)。
【0046】続いて、属性値に関して、属性値の出現頻
度に基づき加重平均される(S606、S608)。
【0047】各属性Cに関して算出されたこの値P
0 [C]は、積算部150により積算値[C]に累積さ
れる(S609)。
【0048】分割方法制御部503が十分に多様な分割
方法を試したと判断した場合は、繰り返しの処理は終了
する。
【0049】「十分に多様な分割方法を試したと判断」
するには、 ・事例をN個のブロックに分割し、i番目のブロックを
A、全体からi番目のブロックを除いた事例集合をBと
し、これをiを1〜Nまで変化させて繰り返す ・事例をN個のブロックに分割し、N個からR個(R=
1,...,N−1)を取り出すことによってAを作
り、残りをBとする。Rを1〜N−1まで変化させ、そ
のすべてについて、 NR 通りの組合わせを試すよう繰
り返す、などがある。
【0050】図4に上記終了条件として1番目のもの
(N=10)を用いた場合に、図2のデータに対して本
実施形態で生成した積算値の表を示す。最後に、属性と
それに対する積算値とを出力部513が出力する(S6
10)。 学習アルゴリズムは、この積算値を属性から
得られる情報の有用度の指標として用いることにより学
習精度の向上を図ることができる。
【0051】その方法は、概念学習装置の種類により異
る。例えばC4.5などは学習結果である決定木を生成
する上で、属性の相互情報量を基に計算を行っている。
【0052】今、ある時点で属性cの相互情報量がI
(c)であるとする。cの積算値をP[c]とすると、
決定木生成の計算において、I(c)の代わりに、I
(c)(1−P[c]/Σc P[c])を用いることに
より、積算値を情報の有用度と考え、それを学習に反映
させることができる。
【0053】このようにこの第2実施形態の属性評価装
置によれば、C4.5に与えるべき事例集合を分割して
複数の部分集合A,Bとし、その中で overfittingを避
けるような属性の有用性を高く評価してC4.5へ出力
するので、従来の方法に比ベて属性の評価尺度の計算を
極めて高速に行うことができる。この結果、C4.5の
学習結果を用いての予測の精度を向上することができ
る。 なお、上記各実施形態では、帰納的概念学習装置
としてC4.5を例に挙げ、このC4.5との組合わせ
のみについて説明したが、本発明は、C4.5との組合
わせのみにおいて効果を奏するものではなく、広く一般
の帰納的概念学習装置、例えばニューラルネットワーク
などとの組合わせにおいても上記実施形態同様の効果を
奏することができる。
【0054】
【発明の効果】以上説明したように本発明によれば、属
性選択装置を用いた場合は、帰納的概念学習装置に与え
るべき複数の事例を分割して2つの部分集合とし、その
中で overfittingを避けるような属性を持つ部分集合を
選び出して事例として帰納的概念学習装置へ出力するの
で、 overfittingを避けることのできる属性部分集合の
選択を極めて高速に行えるようになる。
【0055】また、属性評価装置を用いた場合は、帰納
的概念学習装置に与えるべき複数の事例を分割して2つ
の部分集合とし、その中で overfittingを避けるような
属性の有用性を高く評価して帰納的概念学習装置へ出力
するので、属性の評価尺度の計算を極めて高速に行える
ようになる。
【0056】この結果、帰納的概念学習装置の学習結果
を用いての予測の精度を向上することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の属性選択装置の構成
を示す図である。
【図2】入力となる事例(訓練例)の一例を示す図であ
る。
【図3】この第1の実施形態の属性選択装置の動作を示
すフローチャートである。
【図4】この第1実施形態の属性選択装置において図2
の訓練例のデータに対して生成される属性毎の積算値を
示す図である。
【図5】図2の訓練例に対しC4.5が必要とするデー
タ定義の記述を示す図である。
【図6】図2の訓練例に対し、従来通りにC4.5のみ
が導いた概念記述(pro-log のルール形式)の一例を示
す図である。
【図7】この第1実施形態の属性選択装置がC4.5に
与えた事例を基に、図2の訓練例のデータに対してC
4.5が生成した概念記述の一例を示す図である。
【図8】図7に示す概念記述によって正しく弁別される
データの一例を示す図である。
【図9】本発明に係る第2実施形態の選択評価装置の構
成を示す図である。
【図10】この第2実施形態の選択評価装置の動作を示
すフローチャートである。
【図11】公知のcross validation法を説明する図であ
る。
【符号の説明】
101,501…入力部、102,502…分割部、1
03,503…分割方法制御部、104,105,50
4,505…部分集合格納部、106,506…条件付
確率計算部、107,507…確率比較部、108,5
08…加重平均計算部、109,509…加重平均格納
部、110,510…積算部、111,511…積算値
格納部、112…属性要・不要判定部、113,513
…出力部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 対象が記号で表現された幾つかの属性に
    対する属性値の列で表現されており、これら属性値の列
    に対してクラスと呼ばれる特別な属性とその属性値であ
    るラベルという離散な値とが割り当てられているような
    複数の事例が与えられて、前記クラスが特定のラベルに
    なることの必要十分条件を定義する記述を求める帰納的
    概念学習装置に対し、予め与えられている属性/属性値
    の組の列の一部分を選び出して新たな事例を生成して与
    える属性選択装置において、 前記帰納的概念学習装置に与えるべき前記複数の事例を
    2つの部分集合に分割する分割手段と、 前記分割手段により2つの部分集合に分けられた各部分
    集合内で、ある属性が特定の属性値を取った場合の、ク
    ラスが特定のラベルとなることの条件付き確率を計算す
    る手段と、 計算された確率が前記2つの部分集合においてどれほど
    異なるかを、前記ラベルおよび属性値について、それぞ
    れの出現頻度に基づき加重平均する手段と、 前記属性の取り得る属性値について、前記加重平均され
    た値を基に、属性がどれほど有用であるかを判断する判
    断手段とを具備したことを特徴とする属性選択装置。
  2. 【請求項2】 請求項1記載の属性選択装置において、 前記判断手段は、 前記加重平均された値を、前記複数の事例の分割の仕方
    をさまざまに変えた場合において計算する計算手段と、 前記計算手段により計算された値を積算する積算手段
    と、 前記積算手段により積算された値を基に、属性がどれほ
    ど有用であるかを判断する手段とを具備したことを特徴
    とする属性選択装置。
  3. 【請求項3】 請求項2記載の属性選択装置において、 前記判断手段が、前記積算手段により前記積算された値
    の比較的小さい属性が有用であると判断した場合、それ
    らの属性のみからなる事例を前記帰納的概念学習装置に
    与える手段を具備したことを特徴とする属性選択装置。
  4. 【請求項4】 対象が記号で表現された幾つかの属性に
    対する属性値の列で表現されており、これら属性値の列
    に対してクラスと呼ばれる特別な属性とその属性値であ
    るラベルという離散な値とが割り当てられているような
    複数の事例が与えられて、前記クラスが特定のラベルに
    なることの必要十分条件を定義する記述を求める帰納的
    概念学習装置に対し、前記属性が提供する情報の質に関
    する評価尺度を与える属性評価装置において、 前記帰納的概念学習装置に与えるべき前記複数の事例を
    2つの部分集合に分割する分割手段と、 前記分割手段により2つの部分集合に分けられた各部分
    集合内で、ある属性が特定の属性値を取った場合の、ク
    ラスが特定のラベルとなることの条件付き確率を計算す
    る手段と、 計算された確率が前記2つの部分集合においてどれほど
    異なるかを、前記ラベルおよび属性値について、それぞ
    れの出現頻度に基づき加重平均する手段と、 前記属性の取り得る属性値について、前記加重平均され
    た値を基に、属性がどれほど有用であるかを判断する判
    断手段とを具備したことを特徴とする属性評価装置。
  5. 【請求項5】 請求項4記載の属性評価装置において、 前記判断手段は、 前記加重平均された値を、前記複数の事例の分割の仕方
    をさまざまに変えた場合において計算する計算手段と、 前記計算手段により計算された値を積算する積算手段
    と、 前記積算手段により積算された値を基に、属性がどれほ
    ど有用であるかを判断する手段とを具備したことを特徴
    とする属性評価装置。
  6. 【請求項6】 請求項5記載の属性評価装置において、 前記積算手段により前記積算された値を、前記属性の信
    頼度として前記帰納的概念学習装置に与える手段を具備
    したことを特徴とする属性評価装置。
  7. 【請求項7】 対象が記号で表現された幾つかの属性に
    対する属性値の列で表現されており、これら属性値の列
    に対してクラスと呼ばれる特別な属性とその属性値であ
    るラベルという離散な値とが割り当てられているような
    事例集合が与えられて、前記クラスが特定のラベルにな
    ることの必要十分条件を定義する記述を求める帰納的概
    念学習装置に対し、予め与えられている属性/属性値の
    組の列の一部分を選び出して新たな事例を生成して与え
    る属性選択方法において、 前記帰納的概念学習装置に与えるべき前記複数の事例を
    2つの部分集合に分割する工程と、 前記2つの部分集合に分けられた各部分集合内で、ある
    属性が特定の属性値を取った場合の、クラスが特定のラ
    ベルとなることの条件付き確率を計算する工程と、 計算された確率が前記2つの部分集合においてどれほど
    異なるかを、前記ラベルおよび属性値について、それぞ
    れの出現頻度に基づき加重平均する工程と、 前記属性の取り得る属性値について、前記加重平均され
    た値を、前記複数の事例の分割の仕方をさまざまに変え
    た場合において計算する工程と、 前記計算された値を積算する工程と、 前記積算された値を基に、属性がどれほど有用であるか
    を判断する工程と、 前記積算された値の比較的小さい属性が有用であると判
    断された場合、それらの属性のみからなる事例を前記帰
    納的概念学習装置に与える工程とを具備したことを特徴
    とする属性選択方法。
  8. 【請求項8】 対象が記号で表現された幾つかの属性に
    対する属性値の列で表現されており、これら属性値の列
    に対してクラスと呼ばれる特別な属性とその属性値であ
    るラベルという離散な値とが割り当てられているような
    複数の事例が与えられて、前記クラスが特定のラベルに
    なることの必要十分条件を定義する記述を求める帰納的
    概念学習装置に対し、前記属性が提供する情報の質に関
    する評価尺度を与える属性評価方法において、 前記帰納的概念学習装置に与えるべき前記複数の事例を
    2つの部分集合に分割する工程と、 前記2つの部分集合に分けられた各部分集合内で、ある
    属性が特定の属性値を取った場合の、クラスが特定のラ
    ベルとなることの条件付き確率を計算する工程と、 計算された確率が前記2つの部分集合においてどれほど
    異なるかを、前記ラベルおよび属性値について、それぞ
    れの出現頻度に基づき加重平均する工程と、 前記属性の取り得る属性値について、前記加重平均され
    た値を、前記複数の事例の分割の仕方をさまざまに変え
    た場合において計算する工程と、 前記計算された値を積算する工程と、 前記積算された値を、前記属性の信頼度として前記帰納
    的概念学習装置に与える工程とを具備したことを特徴と
    する属性評価方法。
JP10055565A 1998-03-06 1998-03-06 属性選択装置、属性評価装置、属性選択方法、属性評価方法 Withdrawn JPH11259447A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10055565A JPH11259447A (ja) 1998-03-06 1998-03-06 属性選択装置、属性評価装置、属性選択方法、属性評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10055565A JPH11259447A (ja) 1998-03-06 1998-03-06 属性選択装置、属性評価装置、属性選択方法、属性評価方法

Publications (1)

Publication Number Publication Date
JPH11259447A true JPH11259447A (ja) 1999-09-24

Family

ID=13002242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10055565A Withdrawn JPH11259447A (ja) 1998-03-06 1998-03-06 属性選択装置、属性評価装置、属性選択方法、属性評価方法

Country Status (1)

Country Link
JP (1) JPH11259447A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698235B2 (en) 2003-09-29 2010-04-13 Nec Corporation Ensemble learning system and method
CN108460113A (zh) * 2018-02-09 2018-08-28 水利部交通运输部国家能源局南京水利科学研究院 可用于比较水文领域中理论计算曲线过拟合程度的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698235B2 (en) 2003-09-29 2010-04-13 Nec Corporation Ensemble learning system and method
CN108460113A (zh) * 2018-02-09 2018-08-28 水利部交通运输部国家能源局南京水利科学研究院 可用于比较水文领域中理论计算曲线过拟合程度的方法
CN108460113B (zh) * 2018-02-09 2021-09-24 水利部交通运输部国家能源局南京水利科学研究院 可用于比较水文领域中理论计算曲线过拟合程度的方法

Similar Documents

Publication Publication Date Title
US7769763B1 (en) Large scale machine learning systems and methods
US5799311A (en) Method and system for generating a decision-tree classifier independent of system memory size
US7444279B2 (en) Question answering system and question answering processing method
US20160307113A1 (en) Large-scale batch active learning using locality sensitive hashing
US5862259A (en) Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US7987144B1 (en) Methods and apparatus for generating a data classification model using an adaptive learning algorithm
US7483864B2 (en) Active learning method and system
US11562294B2 (en) Apparatus and method for analyzing time-series data based on machine learning
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和系统
Qi et al. Impacts of dirty data: and experimental evaluation
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
CN114090663B (zh) 应用人工智能的用户需求预测方法及大数据优化系统
US20010003817A1 (en) Knowledge finding method
Lee A Hellinger-based discretization method for numeric attributes in classification learning
Pugelj et al. Predicting structured outputs k-nearest neighbours method
CN112015898A (zh) 基于标签树的模型训练、文本标签确定方法及装置
EP3745317A1 (en) Apparatus and method for analyzing time series data based on machine learning
Speranskaya et al. Ranking vs. classifying: Measuring knowledge base completion quality
Lynch et al. Bayesian classification and feature reduction using uniform Dirichlet priors
US7177863B2 (en) System and method for determining internal parameters of a data clustering program
KR102025280B1 (ko) 다중 레이블 패턴 분류를 위한 특징 선택 방법 및 그 장치
JPH11259447A (ja) 属性選択装置、属性評価装置、属性選択方法、属性評価方法
JP2007213441A (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
Sam et al. Customer churn prediction using machine learning models
Psomopoulos et al. A finite state automata based technique for protein classification rules induction

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050510