JP3323180B2 - 決定木変更方法およびデータマイニング装置 - Google Patents
決定木変更方法およびデータマイニング装置Info
- Publication number
- JP3323180B2 JP3323180B2 JP2000098977A JP2000098977A JP3323180B2 JP 3323180 B2 JP3323180 B2 JP 3323180B2 JP 2000098977 A JP2000098977 A JP 2000098977A JP 2000098977 A JP2000098977 A JP 2000098977A JP 3323180 B2 JP3323180 B2 JP 3323180B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- decision tree
- node
- deleted
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003066 decision tree Methods 0.000 title claims description 87
- 238000000034 method Methods 0.000 title claims description 42
- 238000007418 data mining Methods 0.000 title claims description 30
- 238000011156 evaluation Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000013138 pruning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ースと関連して決定木を変更する決定木変更方法および
データマイニング装置に関する。
技術としてデータマイニングが注目されている。データ
マイニングの手法としては、決定木、ニューラルネッ
ト、相関規則発見、クラスタリングなど様々な手法が提
案されている。これらの手法によりデータべースの中に
隠されている特徴を抽出し、マーケティングなどのさま
ざまな分野への応用が期待されている。
スは基幹システムで運用中のものではなく定期的にスナ
ップショットをとり、別のデータべース(データウェア
ハウス)として構築したものを利用する。そのため、デ
ータべースの更新はリアルタイムに反映されず、一定期
間の後に追加されたデータを一括して追加することによ
り行われるのが通常である。このため、データべース全
体にわたる傾向を把握するには定期的なデータの追加が
行われる度にデータべース全体についてマイニングを行
う必要がある。マイニングの対象となるデータべースは
膨大な量の場合が多く、データの追加の都度にデータべ
ース全体についてマイニングを実行するのには多大な実
行時間を要している。
一つであり、データべース中のレコードを分類するため
の条件をノードとする木を作成し、新たなレコードを木
のルートから適用することによりレコードが分類され
る。例えば小売業において顧客の購買歴や属性を用いて
ダイレクトメールの送付先を適切な顧客に限定する応用
に利用されている。
レーニングセットと呼ばれる)をもとに木構造を作る。
表形式のデータに対して複数の属性と一つのクラスを指
定する。属性はそのレコードを分類するための情報であ
り、クラスは分類先の情報である。属性は、カテゴリー
値(離散値)をとる場合と、連続値をとる場合がある。
レーニングセットを最適に分割するようにノードを生成
しこの分割に従ってトレーニングセットを分割する。分
割により生成されたトレーニングセットに関して更に最
適に分割するようにノード生成を繰り返す。
て説明する。図11(a)に示すトレーニングセットで
は、1,2…6がレコードであり、Riskがクラスで
あり、Car Type(車種)とAge(年齢)が属
性を示す。木構造を作るには、まず、決定木のルートに
おいて、どのような分割が最適かが決定される。この場
合、Car TypeとAgeの2つの属性についてテ
ストが行われる。それぞれの属性について分割した場合
の評価値が計算される。カテゴリー値をとるCar属性
の場合は、すべてのカテゴリー値に分割する方法やグル
ープ単位で分割する方法がある。
となる数は異なるデータ数−1となる。この例では、す
べてのレコード1〜6でAgeの値が異なっているの
で、候補は5通りである。これらすべてについて評価値
を計算し、その中の最大値をとる分割方法が選択され
る。
案されているが、ここでは情報エントロピーに基づいた
方法について説明する。基本的には、分割前のノードの
情報エントロピーと分割後の情報エントロピーの差が評
価値である。あるノード内のレコードがクラスhigh
をn個、クラスlowをm個とった場合、p=n/(n
+m)、q=m/(n+m)とすれば、そのノードの情
報エントロピーは、plogp+qlogqで表され
る。分割後の情報エントロビーは、分割された各ノード
の情報エントロピーを加重平均したものと定める。分割
処理では、全ての分割方法について評価値を求め、その
中から最適なものを選ぶことになる。
た後、その分割に基づいてトレーニングセットは分割さ
れる。図11(b)においては、Age<29.5とい
う分割方法の評価値が最大となり、選択される。また、
図11(a)のトレーニングセットはAge<29.5
を満たす集合と満たさない集合の2つに分割される。ト
レーニングセットのレコード1、2、6は前者に、レコ
ード3、4、5は後者に属する。前者に関してはすべて
のレコードのクラスがhighであるので、これ以上分
割する必要がない。後者に関してはhighとlowの
2つのクラスが含まれるのでさらに分割する必要があ
る。次のステップでは後者、すなわち木の右側の枝に対
して最適な分割が調べられる。その結果、Car Ty
pe=sportsという分割が選択され、それに従っ
てレコードが分割される。すなわち、Car Type
=sportsを満たすレコード3と、Car Typ
e=sportsを満たさないレコード4、5とに分割
される。また、この分割結果ではすべてのレコードが同
一クラスとなるため、これ以上分割する必要はなく、決
定木の生成は終了する。
イズが大きくなる傾向があり、過学習されていることが
多いので通常枝刈りが行われる。枝刈りの一手法を以下
に示す。
個が誤りだとする。ここで、r個のレコードがあるpと
いう分布で正しい値をとり、(1−p)で誤った値をと
る事象がr回実行され、r−s回正しい値をとり、S回
誤った値をとるものとする。この事象をr回試行し、誤
りがS個以下である確率がt%以上であるときのpの上
限をU_(r、s)で表す。すると、誤りの発生する期
待値は、r*U_t(r、s)で表される。子どものノ
ードが全て葉であるノードについて、そのノードにおけ
る誤りの期待値と、葉のノードの誤りの期待値の合計を
比較し、葉のノードの期待値の合計が大きければ葉を縮
退してそのノードを葉とする。これを順次繰り返すこと
で、木全体の葉の枝刈りが行なわれる。
成では最適な分割を選択するためにトレーニングセット
全体に対してアクセスする必要があり、また分割を繰り
返す毎にデータべースヘのアクセスが発生する。従って
大規模なデータべースから決定木を生成するには多大な
処理時間を要する。
れる度に、決定木を作り直す必要があり、その都度多大
な処理時間を要していた。
定木をデータべースの削除された部分のみに適用するこ
とにより最新のデータベースの内容を反映した決定木を
効率よく変更する決定木変更方法およびデータマイニン
グ装置を提供することにある。
と、このデータベースに関する決定木とを備えたデータ
マイニングシステムの決定木変更方法において、前記デ
ータベースからデータが削除されたとき、前記決定木を
適用することにより前記削除データに該当する葉ノード
に接続されているノードを適用手段でみつけ、前記適用
手段でみつけられたノードと、そのノードから接続され
ている他の葉ノードとを変更処理手段で併合して前記決
定木を変更するようにした決定木変更方法を提供する。
ースに関する決定木とを備えたデータマイニングシステ
ムの決定木変更方法において、前記データベースからデ
ータが削除されたとき、適用手段で前記決定木に削除デ
ータを作用させ、通過するノードにおいて前記適用手段
で分割評価値を再計算し、前記適用手段で再計算された
分割評価値が特定の条件を満たす場合に、変更処理手段
で該当するノードより下の部分木を再構成するようにし
た決定木変更方法を提供する。
グにおいてデータが削除されたとき、データ削除以前の
データセットより作成された決定木に削除データを作用
させ、作用結果を生成する適用部と、前記作用結果に基
づいてデータ削除以前のデータセットより作成された決
定木の削除データに該当する葉ノードに接続されている
ノードと、そのノードから接続されている他の葉ノード
とを併合する変更処理部とを具備するデータマイニング
装置を提供する。
グにおいて、データが削除されたとき、データが削除さ
れる以前のデータセットより作成された決定木に削除デ
ータを作用させ、通過するノードにおいて分割評価値を
再計算し、再計算された分割評価値を生成する適用部
と、前記分割評価値が特定の条件を満たす場合に該当す
るノードより下の部分木を再構成する変更処理部とを具
備するデータマイニング装置を提供する。
を再度アクセスする必要がないため、データが削除され
る度に行われるデータマイニング操作を大幅に高速化す
ることが可能となる。
リメンタルデータマイニング方法を実施するために用い
られるインクリメンタル決定木生成システムの構成を図
1を参照して説明する。このシステムでは、与えられた
データべースに関する決定木はすでに作成されているも
のとする。また、決定木の葉ノードにはクラス値と、対
応するデータべースのレコードセットヘのリンクが格納
されているものとする。
加データおよび削除データが入力される適用部11、変
更データリスト12および変更処理部13により構成さ
れる。適用部11および変更処理部13は決定木部14
に接続される。この決定木部14はデータベース15に
接続されている。
追加データが与えられたとき、追加データを決定木部1
4の決定木のルートノードから適用して対応する葉ノー
ドを見つけ、ノードを識別する番号と追加データ、及び
追加であることを示すフラグを変更データリスト12に
格納する機能を有する。また、データべース15に対す
る削除データが与えられたとき、適用部11は削除デー
タを決定木のルートノードから適用して対応する葉ノー
ドを見つけ、ノードを識別する識別番号、削除データ及
び削除であることを示すフラグを変更データリスト12
に格納する機能も有する。
を参照しながら、決定木部14の対応する決定木を変更
し、同時にデータべース15の修正を行う機能を有す
る。
更データリスト12に格納することなく直接変更処理部
13を起動して決定木を変更する方法もあるが、一般に
決定木の修正はまとめて行う方が効率よい。
ても、従来と同じ方法で枝刈りを行うことができるもの
とする。
テムを用いて行う本発明の第1の実施形態に従ったイン
クリメンタルデータマイニング方法を説明する。
する場合について図2および図3のフローチャートを参
照して説明する。
すように追加データがレコードセットに格納される。こ
の場合、図2(b)に示されるように決定木の葉ノード
には対応するレコードセットを格納するファイルを指し
示す情報(f1、f2、f3)が付与されているものと
する。
追加されると、図1の適用部11にはこれらの追加デー
タが入力される。このとき、適用部11は決定木を適用
し、対応するノード番号をみつける。レコード7に関し
てはAge<29.5のノードをテストすることにより
右側の枝を選択する。この選択により、Car Typ
e=sportsのノードがテストされ、これにより左
側の枝を選択し、ノードn4に到達する。n4は葉ノー
ドであるので、ここで探索を終了し、変更データリスト
12に、ノード番号=n4、レコード番号=7、フラグ
=追加を登録する。
9.5のノードをテストすることにより右側の枝を選択
する。この選択により、Car Type=sport
sのノードがテストされ、右側の枝を選択し、ノードn
5に到達する。n5は葉ノードであるので、ここで探索
を終了し、変更データリスト12に、ノード番号=n
5、レコード番号=8、フラグ=追加を登録する(S1
1)。
2ヘの登録が終了すると、変更処理部13が起動され、
変更データリスト12を参照しながら、対応する決定木
を変更する。すなわち、変更データリスト12よりノー
ド番号=n4、レコード番号=7、フラグ=追加を読み
出し(S12)、ノード番号n4のクラスとしてhig
hを、対応するデータべースのレコードセットf2を参
照する(S13)。レコード番号7のデータのクラスは
lowであるのでn4のクラス値と異なる。この場合は
ノードn4の分割が必要となる。ノードの分割は決定木
の生成時の処理と同様であり、ノードに対応するレコー
ドセットに追加データを加えたものを最適に分割するよ
うにノードが生成される(S14)。この場合はAge
<36.5が生成され、レコードセットf2に属するデ
ータ3と追加データ7がこれに従って分割され、それぞ
れf4、f5に格納される(S15)。
ステップS12に戻る。このステップ12では、変更デ
ータリスト12よりノード番号=n5、レコード番号=
8、フラグ=追加が読み出され、ステップS13で、ノ
ード番号n5のクラスとしてlowが、そして対応する
データべースのレコードセットf3が参照される。レコ
ード番号8のデータのクラスはlowであるのでn5の
クラス値と一致する。この場合はノードn4の分割は不
要であり、追加データ8が対応するデータべースのレコ
ードセットf3に格納される(S17)。以上の追加処
理を行った結果で得られる決定木が図4に示される。
態として、既に作成した決定木からデータを削除する場
合について説明する。ここでは、図4のデータべースか
ら2件のデータを削除する場合について図5および図6
のフローチャートを用いて説明する。
れるとする。この場合、図1の適用部11にはこれらの
削除データが入力される。これにより適用部11は、決
定木を適用し、対応するノード番号をみつける。レコー
ド3に関してはAge<29.5のノードをテストする
ことにより右側の枝を選択し、Car Type=sp
ortsのノードをテストすることにより左側の枝を選
択し、Age<36.5のノードをテストすることによ
り左側の枝を選択し、ノードn6に到達する。n6は葉
ノードであるので、ここで探索を終了し、変更データリ
スト12に、ノード番号=n6、レコード番号=3、フ
ラグ=削除を登録する。次にレコード6に関しては、A
ge<29.5のノードをテストすることにより左側の
枝を選択し、ノードn2に到達する。n2は葉ノードで
あるので、ここで探索を終了し、変更データリスト12
に、ノード番号=n2、レコード番号=6、フラグ=削
除を登録する(S21)。
2ヘの登録が終了すると、変更処理部13が起動され、
変更データリスト12を参照しながら、対応する決定木
を変更する。すなわち、変更データリスト12よりノー
ド番号=n6、レコード番号=3、フラグ=削除を読み
出し(S22)、対応するデータベースのレコードセッ
トf4からレコード番号3を削除する(S23)。この
場合、f4は空となるのでノードの併合処理を行う必要
が生じる。すなわち、レコードセットが空かが判定され
る(S24)。f4に対応するノードn6は空であり、
n6を生成したノードn4のテストが不必要となる。す
なわち、ノードn6、n7を分割する必要がないので、
ノードn4、n6をn7に併合する(S25)。また、
f4は空ファイルなので削除する。即ち、レコードセッ
トが併合される(S26)。
S22に戻る。このステップS22では、変更データリ
スト12よりノード番号=n2、レコード番号=6、フ
ラグ=削除が読み出され、ステップS23では、ノード
番号n2の対応するデータべースのレコードセットf1
からレコード番号6が削除される。この場合、f1は空
とならないので、ノードの併合処理は行わない。以上の
削除処理を行った結果、図7に示す決定木が得られる。
追加データにより作成済の決定木の葉ノードを分割する
方法を示したが、追加データによっては葉ノードの分割
ではなく、部分木を再構成する方がよい木が得られる場
合がある。この例を説明する。
の13個のレコードについて、第1の実施形態と同様の
形式で、図8(b)に示される決定木が生成される。即
ち、図8(b)に示されるように、Age<29という
分割方法の評価値が最大となり、これが選択される。こ
れにより、Age<29を満たす集合と満たさない集合
との2つに分割される。Age<29を満たす集合はレ
コード1〜5に属し、Age<29を満たさない集合は
レコード6〜13に属する。後者は更にAge<43を
満たす集合と満たさない集合との2つに分割される。A
ge<43を満たす集合はレコード6〜9に属し、Ag
e<43を満たさない集合はレコード10〜13に属す
る。次のステップでは、木の左側の枝に対して最適な分
割が調べられる。この結果、Car Type=fam
ilyという分割が選択され、それに従ってレコード6
〜9が分割される。すなわち、Car Type=fa
milyを満たすレコード6.8と、Car Type
=familyを満たさないレコード7、9とに分割さ
れる。また、この分割結果ではすべてのレコードが同一
クラスとなるため、これ以上分割する必要はなく、決定
木の生成は終了する。
のレコード14,15,16が追加された場合に、第1
の実施形態の方法により図9(b)に示される決定木が
生成される。これによると、図8(b)のAge<43
のノードn3をテストすることにより右側の枝を選択す
る。そして、Car Type=truckのノードn
5をテストすることにより左側の枝を選択し、ノードn
8に到達する。n8は葉ノードであるので、ここで探索
を終了する。次に、Age<43のノードn3をテスト
することにより右側の枝を選択し、Car Type=
truckのノードn5をテストすることにより右側の
枝を選択する。これによりノードn9に到達する。n9
は葉ノードであるので、ここで探索を終了する。このよ
うにして追加データについては葉ノードの分割ではな
く、部分木を再構成することによって決定木が生成され
る。
ことを想定し、ノードn8においてレコード12はRi
skがlowで、レコード14、15、16はRisk
がhighであるが、枝刈りによりこれらは単一ノード
に縮退されているものとする。
下の部分木を再構成するのかを判断する必要がある。こ
こではデータが追加された後に各ノードで分割評価値を
再計算し、その評価値を用いて再構成するか否かを判断
する方法について説明する。各ノードにおいて評価値を
再計算するためには、各ノードにおけるクラス分布が必
要となる。ここでクラス分布とは、各ノードを通過する
データに関してクラスであるRisk値がhighのデ
ータ数とlowのデータ数の対とする。
おけるクラス分布は以下のようになる。
平均を分割評価値として計算すると、ノードn1におけ
る分割評価値は0.5となり、ノードn3における分割
評価値は0.31となる。
けるクラス分布は以下のようになる。
0.68、ノードn3における分割評価値は0.004
となる。ノードn3の分割評価値は小さく、うまく分割
されていないことが分かる。そこで、ノードn3におい
て部分木の再構成を行う。
図10に示される。図10におけるクラス分布は以下の
ようになる。
なり、再構成によりうまく分割されていることが分か
る。また、木全体としてノード数が1つ減少し、よりよ
い決定木が生成できることが分かる。
される以前のデータセットより作成された決定木に追加
あるいは削除データを作用させ、通過するノードにおい
て分割評価値を再計算する処理は、適用部11において
行われ、分割評価値が特定の条件を満たす場合に該当す
るノードより下の部分木を再構成する処理は、変更処理
部13によって行われる。
ためにどのように判定するかに関しては、いくつかの方
法が考えられる。例えば、分割評価値が一定値以下にな
ることの判定、追加以前の分割評価値と比較してその比
率が一定値以下になることの判定、各ノードに複数の分
割方法とその評価値を予め記憶し、評価値が逆転するか
否かの判定などが考えられる。また、本手法はレコード
の追加だけでなく、削除・変更に関しても同じ方法が適
用できる。
が追加・削除されるとき、データべース全体を用いて決
定木を再度作り直すことなく、一度作成した決定木に追
加・削除されるデータを作用させ、必要なノードの追加
や不要なノードの削除を行うことによりデータべースの
変更に対応した決定木の部分的な変更が可能となり、大
規模データべースを再度アクセスする必要がないため、
データマイニングの効率化にとって有効である。
セスされるデータは該当するノードの下の葉ノードに対
応するレコードのみであり、大規模データべース全体を
アクセスする必要がないため、データマイニングの効率
化にとって有効である。
決定木生成システムの構成図
ードでの決定木のインクリメンタルデータマイニングを
説明する図
ータマイニングのフローチャート図
ードでの決定木のデータマイニングを説明する図
フローチャート図
クリメンタルデータマイニングを説明する図
決定木インクリメンタルデータマイニングを説明する図
再構成される部分木を示す図
Claims (5)
- 【請求項1】 データベースと、このデータベースに関
する決定木とを備えたデータマイニングシステムの決定
木変更方法において、前記データベースからデータが削
除されたとき、前記決定木を適用することにより前記削
除データに該当する葉ノードに接続されているノードを
適用手段でみつけ、前記適用手段でみつけられたノード
と、そのノードから接続されている他の葉ノードとを変
更処理手段で併合して前記決定木を変更するようにした
ことを特徴とする決定木変更方法。 - 【請求項2】 データベースと、このデータベースに関
する決定木とを備えたデータマイニングシステムの決定
木変更方法において、前記データベースからデータが削
除されたとき、適用手段で前記決定木に削除データを作
用させ、通過するノードにおいて前記適用手段で分割評
価値を再計算し、前記適用手段で再計算された分割評価
値が特定の条件を満たす場合に、変更処理手段で該当す
るノードより下の部分木を再構成するようにしたことを
特徴とする決定木変更方法。 - 【請求項3】 決定木を用いたデータマイニングにおい
てデータが削除されたとき、データ削除以前のデータセ
ットより作成された決定木に削除データを作用させ、作
用結果を生成する適用部と、前記作用結果に基づいてデ
ータ削除以前のデータセットより作成された決定木の削
除データに該当する葉ノードに接続されているノード
と、そのノードから接続されている他の葉ノードとを併
合する変更処理部とを具備することを特徴とするデータ
マイニング装置。 - 【請求項4】 決定木を用いたデータマイニングにおい
て、データが削除されたとき、データが削除される以前
のデータセットより作成された決定木に削除データを作
用させ、通過するノードにおいて分割評価値を再計算
し、再計算された分割評価値を生成する適用部と、前記
分割評価値が特定の条件を満たす場合に該当するノード
より下の部分木を再構成する変更処理部とを具備するこ
とを特徴とするデータマイニング装置。 - 【請求項5】 前記適用部によって生成される作用結果
を格納する変更データリストを有し、前記変更処理部は
前記変更データリストから読み出した前記作用結果に基
づいて変更処理を実行する請求項3または4に記載のデ
ータマイニング装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000098977A JP3323180B2 (ja) | 2000-03-31 | 2000-03-31 | 決定木変更方法およびデータマイニング装置 |
US09/803,931 US6662189B2 (en) | 2000-03-31 | 2001-03-13 | Method of performing data mining tasks for generating decision tree and apparatus therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000098977A JP3323180B2 (ja) | 2000-03-31 | 2000-03-31 | 決定木変更方法およびデータマイニング装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001282817A JP2001282817A (ja) | 2001-10-12 |
JP3323180B2 true JP3323180B2 (ja) | 2002-09-09 |
Family
ID=18613386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000098977A Expired - Fee Related JP3323180B2 (ja) | 2000-03-31 | 2000-03-31 | 決定木変更方法およびデータマイニング装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6662189B2 (ja) |
JP (1) | JP3323180B2 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108662A (ja) * | 2000-10-02 | 2002-04-12 | Fujitsu Ltd | 情報管理方法 |
US7103915B2 (en) | 2000-11-13 | 2006-09-05 | Digital Doors, Inc. | Data security system and method |
US7313825B2 (en) | 2000-11-13 | 2007-12-25 | Digital Doors, Inc. | Data security system and method for portable device |
US8176563B2 (en) * | 2000-11-13 | 2012-05-08 | DigitalDoors, Inc. | Data security system and method with editor |
US7322047B2 (en) * | 2000-11-13 | 2008-01-22 | Digital Doors, Inc. | Data security system and method associated with data mining |
US7669051B2 (en) * | 2000-11-13 | 2010-02-23 | DigitalDoors, Inc. | Data security system and method with multiple independent levels of security |
US9311499B2 (en) | 2000-11-13 | 2016-04-12 | Ron M. Redlich | Data security system and with territorial, geographic and triggering event protocol |
US7191252B2 (en) | 2000-11-13 | 2007-03-13 | Digital Doors, Inc. | Data security system and method adjunct to e-mail, browser or telecom program |
US8677505B2 (en) * | 2000-11-13 | 2014-03-18 | Digital Doors, Inc. | Security system with extraction, reconstruction and secure recovery and storage of data |
US7546334B2 (en) | 2000-11-13 | 2009-06-09 | Digital Doors, Inc. | Data security system and method with adaptive filter |
US6907545B2 (en) * | 2001-03-02 | 2005-06-14 | Pitney Bowes Inc. | System and method for recognizing faults in machines |
KR100484375B1 (ko) * | 2002-02-05 | 2005-04-20 | 이영섭 | 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법 |
KR100497211B1 (ko) * | 2002-03-02 | 2005-06-23 | (주)비엘시스템스 | 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법 |
US20030187712A1 (en) * | 2002-03-27 | 2003-10-02 | First Data Corporation | Decision tree systems and methods |
KR100498651B1 (ko) * | 2002-05-03 | 2005-07-01 | 이영섭 | 데이터마이닝의 분류 의사 결정 나무에서 분산이 작은, 즉 순수한 관심 노드 분류를 통한 자료의 통계적 분류 방법 |
US8533840B2 (en) * | 2003-03-25 | 2013-09-10 | DigitalDoors, Inc. | Method and system of quantifying risk |
US20060112048A1 (en) * | 2004-10-29 | 2006-05-25 | Talbot Patrick J | System and method for the automated discovery of unknown unknowns |
US8078559B2 (en) * | 2004-06-30 | 2011-12-13 | Northrop Grumman Systems Corporation | System and method for the automated discovery of unknown unknowns |
JP2006048129A (ja) * | 2004-07-30 | 2006-02-16 | Toshiba Corp | データ処理装置、データ処理方法及びデータ処理プログラム |
US7478079B2 (en) * | 2005-01-14 | 2009-01-13 | Microsoft Corporation | Method for displaying a visual representation of mapping between a source schema and a destination schema emphasizing visually adjusts the objects such that they are visually distinguishable from the non-relevant and non-selected objects |
US20060218176A1 (en) * | 2005-03-24 | 2006-09-28 | International Business Machines Corporation | System, method, and service for organizing data for fast retrieval |
US7340704B2 (en) * | 2005-06-23 | 2008-03-04 | International Business Machines Corporation | Method and system for optimized automated case-splitting via constraints in a symbolic simulation framework |
WO2007048229A1 (en) * | 2005-10-25 | 2007-05-03 | Angoss Software Corporation | Strategy trees for data mining |
US20070130185A1 (en) * | 2005-12-04 | 2007-06-07 | Miller John F Iii | Efficient deletion of leaf node items within tree data structure |
US20070168277A1 (en) * | 2006-01-19 | 2007-07-19 | First Data Corporation | Merchant credit issuance and monitoring systems and methods |
US8655939B2 (en) * | 2007-01-05 | 2014-02-18 | Digital Doors, Inc. | Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor |
US9015301B2 (en) | 2007-01-05 | 2015-04-21 | Digital Doors, Inc. | Information infrastructure management tools with extractor, secure storage, content analysis and classification and method therefor |
US8468244B2 (en) | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
US20080306759A1 (en) * | 2007-02-09 | 2008-12-11 | Hakan Mehmel Ilkin | Patient workflow process messaging notification apparatus, system, and method |
US20080221830A1 (en) * | 2007-03-09 | 2008-09-11 | Entelechy Health Systems L.L.C. C/O Perioptimum | Probabilistic inference engine |
US20080262961A1 (en) * | 2007-04-17 | 2008-10-23 | First Data Corporation | Merchant Credit Risk Monitoring |
US7895599B2 (en) * | 2007-05-23 | 2011-02-22 | Sap Ag | User interface independent remote interface data loader |
US7783651B2 (en) * | 2007-05-23 | 2010-08-24 | Sap Ag | Base tree node infrastructure |
JP5254700B2 (ja) * | 2008-08-14 | 2013-08-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 決定木を比較する決定木比較装置、決定木比較方法及び決定木比較プログラム |
EP2416283A4 (en) | 2009-03-30 | 2017-12-06 | Fujitsu Limited | Decision tree generation program, decision tree generation method, and decision tree generation apparatus |
US8412708B2 (en) * | 2009-09-17 | 2013-04-02 | Los Alamos National Security, Llc | System and method for modeling and analyzing complex scenarios |
JP5857715B2 (ja) * | 2011-12-16 | 2016-02-10 | セイコーエプソン株式会社 | 識別装置、及び、識別方法 |
US9275334B2 (en) | 2012-04-06 | 2016-03-01 | Applied Materials, Inc. | Increasing signal to noise ratio for creation of generalized and robust prediction models |
US11068796B2 (en) * | 2013-11-01 | 2021-07-20 | International Business Machines Corporation | Pruning process execution logs |
JP6915356B2 (ja) * | 2017-04-11 | 2021-08-04 | 富士通株式会社 | 分析プログラム、分析装置及び分析方法 |
US11507554B2 (en) * | 2019-12-26 | 2022-11-22 | Yahoo Assets Llc | Tree-like metadata structure for composite datasets |
US11288288B2 (en) * | 2020-06-10 | 2022-03-29 | Business Objects Software Ltd. | Nested group hierarchies for analytics applications |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3588477B2 (ja) | 1994-03-16 | 2004-11-10 | 株式会社東芝 | 判断規則生成装置 |
US5758147A (en) * | 1995-06-28 | 1998-05-26 | International Business Machines Corporation | Efficient information collection method for parallel data mining |
US5787274A (en) * | 1995-11-29 | 1998-07-28 | International Business Machines Corporation | Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records |
US5799311A (en) * | 1996-05-08 | 1998-08-25 | International Business Machines Corporation | Method and system for generating a decision-tree classifier independent of system memory size |
US6182058B1 (en) * | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
US6278464B1 (en) * | 1997-03-07 | 2001-08-21 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing a decision-tree classifier |
US6055539A (en) * | 1997-06-27 | 2000-04-25 | International Business Machines Corporation | Method to reduce I/O for hierarchical data partitioning methods |
US6442561B1 (en) * | 1998-12-18 | 2002-08-27 | Wisconsin Alumni Research Foundation | Method of constructing binary decision trees with reduced memory access |
-
2000
- 2000-03-31 JP JP2000098977A patent/JP3323180B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-13 US US09/803,931 patent/US6662189B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
櫻井茂明,ファジイ帰納学習における知識の洗練,電気学会論文誌C 電子・情報・システム部門誌,日本,社団法人電気学会,1997年11月20日,VOL.117−C No12,第1833頁乃至第1839頁 |
Also Published As
Publication number | Publication date |
---|---|
US6662189B2 (en) | 2003-12-09 |
US20010051934A1 (en) | 2001-12-13 |
JP2001282817A (ja) | 2001-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3323180B2 (ja) | 決定木変更方法およびデータマイニング装置 | |
US6055539A (en) | Method to reduce I/O for hierarchical data partitioning methods | |
US8126911B2 (en) | System and method for content-based partitioning and mining | |
US5787274A (en) | Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records | |
US7058621B1 (en) | Method for extracting information from a database | |
JP3049636B2 (ja) | データ分析方法 | |
US7444325B2 (en) | Method and system for information extraction | |
CN105550225B (zh) | 索引构建方法、查询方法及装置 | |
US20100235814A1 (en) | Apparatus and a method for generating a test case | |
CN107102999B (zh) | 关联分析方法和装置 | |
JPH0877010A (ja) | データ分析方法および装置 | |
JPH1185769A (ja) | 対象の集団から選択可能な特性を有する対象群を発見する方法 | |
CN109040143A (zh) | 一种bgp异常事件的检测方法和装置 | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
JP2004519039A (ja) | 圧縮データの構造を問い合わせる方法 | |
CN112667735A (zh) | 一种基于大数据的可视化模型建立分析系统和方法 | |
CN114153839B (zh) | 多源异构数据的集成方法、装置、设备及存储介质 | |
JPH06119309A (ja) | 購入見込み度合予測方法及び顧客管理システム | |
US12013855B2 (en) | Trimming blackhole clusters | |
CN110609901B (zh) | 一种基于向量化特征的用户网络行为预测方法 | |
US9600468B2 (en) | Dictionary creation device, word gathering method and recording medium | |
JP7532300B2 (ja) | 情報処理方法、プログラム及び情報処理装置 | |
CN115244539B (zh) | 单词或词段词元化的推断方法 | |
CN114595262A (zh) | 一种市政道路epc项目招标清单的快速生成方法及系统 | |
CN113159976A (zh) | 一种微博网络重要用户的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090628 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090628 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100628 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100628 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110628 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120628 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120628 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130628 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |