JP3323180B2 - 決定木変更方法およびデータマイニング装置 - Google Patents

決定木変更方法およびデータマイニング装置

Info

Publication number
JP3323180B2
JP3323180B2 JP2000098977A JP2000098977A JP3323180B2 JP 3323180 B2 JP3323180 B2 JP 3323180B2 JP 2000098977 A JP2000098977 A JP 2000098977A JP 2000098977 A JP2000098977 A JP 2000098977A JP 3323180 B2 JP3323180 B2 JP 3323180B2
Authority
JP
Japan
Prior art keywords
data
decision tree
node
deleted
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000098977A
Other languages
English (en)
Other versions
JP2001282817A (ja
Inventor
滋 小柳
和人 久保田
浩 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000098977A priority Critical patent/JP3323180B2/ja
Priority to US09/803,931 priority patent/US6662189B2/en
Publication of JP2001282817A publication Critical patent/JP2001282817A/ja
Application granted granted Critical
Publication of JP3323180B2 publication Critical patent/JP3323180B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大規模なデータベ
ースと関連して決定木を変更する決定木変更方法および
データマイニング装置に関する。
【0002】
【従来の技術】大規模データべースから知識を抽出する
技術としてデータマイニングが注目されている。データ
マイニングの手法としては、決定木、ニューラルネッ
ト、相関規則発見、クラスタリングなど様々な手法が提
案されている。これらの手法によりデータべースの中に
隠されている特徴を抽出し、マーケティングなどのさま
ざまな分野への応用が期待されている。
【0003】一般にマイニングの対象とするデータべー
スは基幹システムで運用中のものではなく定期的にスナ
ップショットをとり、別のデータべース(データウェア
ハウス)として構築したものを利用する。そのため、デ
ータべースの更新はリアルタイムに反映されず、一定期
間の後に追加されたデータを一括して追加することによ
り行われるのが通常である。このため、データべース全
体にわたる傾向を把握するには定期的なデータの追加が
行われる度にデータべース全体についてマイニングを行
う必要がある。マイニングの対象となるデータべースは
膨大な量の場合が多く、データの追加の都度にデータべ
ース全体についてマイニングを実行するのには多大な実
行時間を要している。
【0004】決定木は代表的なデータマイニング手法の
一つであり、データべース中のレコードを分類するため
の条件をノードとする木を作成し、新たなレコードを木
のルートから適用することによりレコードが分類され
る。例えば小売業において顧客の購買歴や属性を用いて
ダイレクトメールの送付先を適切な顧客に限定する応用
に利用されている。
【0005】決定木では表形式で与えられるデータ(ト
レーニングセットと呼ばれる)をもとに木構造を作る。
表形式のデータに対して複数の属性と一つのクラスを指
定する。属性はそのレコードを分類するための情報であ
り、クラスは分類先の情報である。属性は、カテゴリー
値(離散値)をとる場合と、連続値をとる場合がある。
【0006】決定木の生成方法は木のルートから順にト
レーニングセットを最適に分割するようにノードを生成
しこの分割に従ってトレーニングセットを分割する。分
割により生成されたトレーニングセットに関して更に最
適に分割するようにノード生成を繰り返す。
【0007】従来の決定木の生成方法を図11を参照し
て説明する。図11(a)に示すトレーニングセットで
は、1,2…6がレコードであり、Riskがクラスで
あり、Car Type(車種)とAge(年齢)が属
性を示す。木構造を作るには、まず、決定木のルートに
おいて、どのような分割が最適かが決定される。この場
合、Car TypeとAgeの2つの属性についてテ
ストが行われる。それぞれの属性について分割した場合
の評価値が計算される。カテゴリー値をとるCar属性
の場合は、すべてのカテゴリー値に分割する方法やグル
ープ単位で分割する方法がある。
【0008】連続値をとるAgeの場合は、分割の候補
となる数は異なるデータ数−1となる。この例では、す
べてのレコード1〜6でAgeの値が異なっているの
で、候補は5通りである。これらすべてについて評価値
を計算し、その中の最大値をとる分割方法が選択され
る。
【0009】評価値の計算方法としては様々な方法が考
案されているが、ここでは情報エントロピーに基づいた
方法について説明する。基本的には、分割前のノードの
情報エントロピーと分割後の情報エントロピーの差が評
価値である。あるノード内のレコードがクラスhigh
をn個、クラスlowをm個とった場合、p=n/(n
+m)、q=m/(n+m)とすれば、そのノードの情
報エントロピーは、plogp+qlogqで表され
る。分割後の情報エントロビーは、分割された各ノード
の情報エントロピーを加重平均したものと定める。分割
処理では、全ての分割方法について評価値を求め、その
中から最適なものを選ぶことになる。
【0010】このようにして最適な分割方法が決定され
た後、その分割に基づいてトレーニングセットは分割さ
れる。図11(b)においては、Age<29.5とい
う分割方法の評価値が最大となり、選択される。また、
図11(a)のトレーニングセットはAge<29.5
を満たす集合と満たさない集合の2つに分割される。ト
レーニングセットのレコード1、2、6は前者に、レコ
ード3、4、5は後者に属する。前者に関してはすべて
のレコードのクラスがhighであるので、これ以上分
割する必要がない。後者に関してはhighとlowの
2つのクラスが含まれるのでさらに分割する必要があ
る。次のステップでは後者、すなわち木の右側の枝に対
して最適な分割が調べられる。その結果、Car Ty
pe=sportsという分割が選択され、それに従っ
てレコードが分割される。すなわち、Car Type
=sportsを満たすレコード3と、Car Typ
e=sportsを満たさないレコード4、5とに分割
される。また、この分割結果ではすべてのレコードが同
一クラスとなるため、これ以上分割する必要はなく、決
定木の生成は終了する。
【0011】以上の方法で生成された決定木は、木のサ
イズが大きくなる傾向があり、過学習されていることが
多いので通常枝刈りが行われる。枝刈りの一手法を以下
に示す。
【0012】ある葉に分類されたr個のレコード中、S
個が誤りだとする。ここで、r個のレコードがあるpと
いう分布で正しい値をとり、(1−p)で誤った値をと
る事象がr回実行され、r−s回正しい値をとり、S回
誤った値をとるものとする。この事象をr回試行し、誤
りがS個以下である確率がt%以上であるときのpの上
限をU_(r、s)で表す。すると、誤りの発生する期
待値は、r*U_t(r、s)で表される。子どものノ
ードが全て葉であるノードについて、そのノードにおけ
る誤りの期待値と、葉のノードの誤りの期待値の合計を
比較し、葉のノードの期待値の合計が大きければ葉を縮
退してそのノードを葉とする。これを順次繰り返すこと
で、木全体の葉の枝刈りが行なわれる。
【0013】
【発明が解決しようとする課題】このように決定木の生
成では最適な分割を選択するためにトレーニングセット
全体に対してアクセスする必要があり、また分割を繰り
返す毎にデータべースヘのアクセスが発生する。従って
大規模なデータべースから決定木を生成するには多大な
処理時間を要する。
【0014】従来はデータべースの内容が追加・削除さ
れる度に、決定木を作り直す必要があり、その都度多大
な処理時間を要していた。
【0015】そこで、本発明の目的は、一度作成した決
定木をデータべースの削除された部分のみに適用するこ
とにより最新のデータベースの内容を反映した決定木を
効率よく変更する決定木変更方法およびデータマイニン
グ装置を提供することにある。
【0016】
【課題を解決するための手段】本発明は、データベース
と、このデータベースに関する決定木とを備えたデータ
マイニングシステムの決定木変更方法において、前記デ
ータベースからデータが削除されたとき、前記決定木を
適用することにより前記削除データに該当する葉ノード
に接続されているノードを適用手段でみつけ、前記適用
手段でみつけられたノードと、そのノードから接続され
ている他の葉ノードとを変更処理手段で併合して前記決
定木を変更するようにした決定木変更方法を提供する。
【0017】本発明は、データベースと、このデータベ
ースに関する決定木とを備えたデータマイニングシステ
ムの決定木変更方法において、前記データベースからデ
ータが削除されたとき、適用手段で前記決定木に削除デ
ータを作用させ、通過するノードにおいて前記適用手段
で分割評価値を再計算し、前記適用手段で再計算された
分割評価値が特定の条件を満たす場合に、変更処理手段
で該当するノードより下の部分木を再構成するようにし
た決定木変更方法を提供する。
【0018】本発明は、決定木を用いたデータマイニン
グにおいてデータが削除されたとき、データ削除以前の
データセットより作成された決定木に削除データを作用
させ、作用結果を生成する適用部と、前記作用結果に基
づいてデータ削除以前のデータセットより作成された決
定木の削除データに該当する葉ノードに接続されている
ノードと、そのノードから接続されている他の葉ノード
とを併合する変更処理部とを具備するデータマイニング
装置を提供する。
【0019】本発明は、決定木を用いたデータマイニン
グにおいて、データが削除されたとき、データが削除さ
れる以前のデータセットより作成された決定木に削除デ
ータを作用させ、通過するノードにおいて分割評価値を
再計算し、再計算された分割評価値を生成する適用部
と、前記分割評価値が特定の条件を満たす場合に該当す
るノードより下の部分木を再構成する変更処理部とを具
備するデータマイニング装置を提供する。
【0020】
【0021】
【0022】本発明によると、大規模データべース全体
を再度アクセスする必要がないため、データが削除され
る度に行われるデータマイニング操作を大幅に高速化す
ることが可能となる。
【0023】
【発明の実施の形態】本発明の実施形態に従ったインク
リメンタルデータマイニング方法を実施するために用い
られるインクリメンタル決定木生成システムの構成を図
1を参照して説明する。このシステムでは、与えられた
データべースに関する決定木はすでに作成されているも
のとする。また、決定木の葉ノードにはクラス値と、対
応するデータべースのレコードセットヘのリンクが格納
されているものとする。
【0024】本発明に従った決定木生成システムは、追
加データおよび削除データが入力される適用部11、変
更データリスト12および変更処理部13により構成さ
れる。適用部11および変更処理部13は決定木部14
に接続される。この決定木部14はデータベース15に
接続されている。
【0025】適用部11は、データべース15に対する
追加データが与えられたとき、追加データを決定木部1
4の決定木のルートノードから適用して対応する葉ノー
ドを見つけ、ノードを識別する番号と追加データ、及び
追加であることを示すフラグを変更データリスト12に
格納する機能を有する。また、データべース15に対す
る削除データが与えられたとき、適用部11は削除デー
タを決定木のルートノードから適用して対応する葉ノー
ドを見つけ、ノードを識別する識別番号、削除データ及
び削除であることを示すフラグを変更データリスト12
に格納する機能も有する。
【0026】変更処理部13は、変更データリスト12
を参照しながら、決定木部14の対応する決定木を変更
し、同時にデータべース15の修正を行う機能を有す
る。
【0027】なお、追加や削除されるデータ1件毎に変
更データリスト12に格納することなく直接変更処理部
13を起動して決定木を変更する方法もあるが、一般に
決定木の修正はまとめて行う方が効率よい。
【0028】また、このように変更された決定木におい
ても、従来と同じ方法で枝刈りを行うことができるもの
とする。
【0029】(第1の実施形態)上記の決定木生成シス
テムを用いて行う本発明の第1の実施形態に従ったイン
クリメンタルデータマイニング方法を説明する。
【0030】先ず、既に作成した決定木にデータを追加
する場合について図2および図3のフローチャートを参
照して説明する。
【0031】追加データが発生すると、図2(a)に示
すように追加データがレコードセットに格納される。こ
の場合、図2(b)に示されるように決定木の葉ノード
には対応するレコードセットを格納するファイルを指し
示す情報(f1、f2、f3)が付与されているものと
する。
【0032】図2(a)に示すようにレコード7、8が
追加されると、図1の適用部11にはこれらの追加デー
タが入力される。このとき、適用部11は決定木を適用
し、対応するノード番号をみつける。レコード7に関し
てはAge<29.5のノードをテストすることにより
右側の枝を選択する。この選択により、Car Typ
e=sportsのノードがテストされ、これにより左
側の枝を選択し、ノードn4に到達する。n4は葉ノー
ドであるので、ここで探索を終了し、変更データリスト
12に、ノード番号=n4、レコード番号=7、フラグ
=追加を登録する。
【0033】次にレコード8に関しては、Age<2
9.5のノードをテストすることにより右側の枝を選択
する。この選択により、Car Type=sport
sのノードがテストされ、右側の枝を選択し、ノードn
5に到達する。n5は葉ノードであるので、ここで探索
を終了し、変更データリスト12に、ノード番号=n
5、レコード番号=8、フラグ=追加を登録する(S1
1)。
【0034】すべての追加データの変更データリスト1
2ヘの登録が終了すると、変更処理部13が起動され、
変更データリスト12を参照しながら、対応する決定木
を変更する。すなわち、変更データリスト12よりノー
ド番号=n4、レコード番号=7、フラグ=追加を読み
出し(S12)、ノード番号n4のクラスとしてhig
hを、対応するデータべースのレコードセットf2を参
照する(S13)。レコード番号7のデータのクラスは
lowであるのでn4のクラス値と異なる。この場合は
ノードn4の分割が必要となる。ノードの分割は決定木
の生成時の処理と同様であり、ノードに対応するレコー
ドセットに追加データを加えたものを最適に分割するよ
うにノードが生成される(S14)。この場合はAge
<36.5が生成され、レコードセットf2に属するデ
ータ3と追加データ7がこれに従って分割され、それぞ
れf4、f5に格納される(S15)。
【0035】次に、終了か否かが判断され(S16)、
ステップS12に戻る。このステップ12では、変更デ
ータリスト12よりノード番号=n5、レコード番号=
8、フラグ=追加が読み出され、ステップS13で、ノ
ード番号n5のクラスとしてlowが、そして対応する
データべースのレコードセットf3が参照される。レコ
ード番号8のデータのクラスはlowであるのでn5の
クラス値と一致する。この場合はノードn4の分割は不
要であり、追加データ8が対応するデータべースのレコ
ードセットf3に格納される(S17)。以上の追加処
理を行った結果で得られる決定木が図4に示される。
【0036】(第2の実施形態)本発明の第2の実施形
態として、既に作成した決定木からデータを削除する場
合について説明する。ここでは、図4のデータべースか
ら2件のデータを削除する場合について図5および図6
のフローチャートを用いて説明する。
【0037】図5に示すようにレコード3、6が削除さ
れるとする。この場合、図1の適用部11にはこれらの
削除データが入力される。これにより適用部11は、決
定木を適用し、対応するノード番号をみつける。レコー
ド3に関してはAge<29.5のノードをテストする
ことにより右側の枝を選択し、Car Type=sp
ortsのノードをテストすることにより左側の枝を選
択し、Age<36.5のノードをテストすることによ
り左側の枝を選択し、ノードn6に到達する。n6は葉
ノードであるので、ここで探索を終了し、変更データリ
スト12に、ノード番号=n6、レコード番号=3、フ
ラグ=削除を登録する。次にレコード6に関しては、A
ge<29.5のノードをテストすることにより左側の
枝を選択し、ノードn2に到達する。n2は葉ノードで
あるので、ここで探索を終了し、変更データリスト12
に、ノード番号=n2、レコード番号=6、フラグ=削
除を登録する(S21)。
【0038】すべての削除データの変更データリスト1
2ヘの登録が終了すると、変更処理部13が起動され、
変更データリスト12を参照しながら、対応する決定木
を変更する。すなわち、変更データリスト12よりノー
ド番号=n6、レコード番号=3、フラグ=削除を読み
出し(S22)、対応するデータベースのレコードセッ
トf4からレコード番号3を削除する(S23)。この
場合、f4は空となるのでノードの併合処理を行う必要
が生じる。すなわち、レコードセットが空かが判定され
る(S24)。f4に対応するノードn6は空であり、
n6を生成したノードn4のテストが不必要となる。す
なわち、ノードn6、n7を分割する必要がないので、
ノードn4、n6をn7に併合する(S25)。また、
f4は空ファイルなので削除する。即ち、レコードセッ
トが併合される(S26)。
【0039】次に、未終了を確認し(27)、ステップ
S22に戻る。このステップS22では、変更データリ
スト12よりノード番号=n2、レコード番号=6、フ
ラグ=削除が読み出され、ステップS23では、ノード
番号n2の対応するデータべースのレコードセットf1
からレコード番号6が削除される。この場合、f1は空
とならないので、ノードの併合処理は行わない。以上の
削除処理を行った結果、図7に示す決定木が得られる。
【0040】(第3の実施形態)第1の実施形態では、
追加データにより作成済の決定木の葉ノードを分割する
方法を示したが、追加データによっては葉ノードの分割
ではなく、部分木を再構成する方がよい木が得られる場
合がある。この例を説明する。
【0041】図8(a)に示されるトレーニングセット
の13個のレコードについて、第1の実施形態と同様の
形式で、図8(b)に示される決定木が生成される。即
ち、図8(b)に示されるように、Age<29という
分割方法の評価値が最大となり、これが選択される。こ
れにより、Age<29を満たす集合と満たさない集合
との2つに分割される。Age<29を満たす集合はレ
コード1〜5に属し、Age<29を満たさない集合は
レコード6〜13に属する。後者は更にAge<43を
満たす集合と満たさない集合との2つに分割される。A
ge<43を満たす集合はレコード6〜9に属し、Ag
e<43を満たさない集合はレコード10〜13に属す
る。次のステップでは、木の左側の枝に対して最適な分
割が調べられる。この結果、Car Type=fam
ilyという分割が選択され、それに従ってレコード6
〜9が分割される。すなわち、Car Type=fa
milyを満たすレコード6.8と、Car Type
=familyを満たさないレコード7、9とに分割さ
れる。また、この分割結果ではすべてのレコードが同一
クラスとなるため、これ以上分割する必要はなく、決定
木の生成は終了する。
【0042】この状態から図9(a)に示すような3個
のレコード14,15,16が追加された場合に、第1
の実施形態の方法により図9(b)に示される決定木が
生成される。これによると、図8(b)のAge<43
のノードn3をテストすることにより右側の枝を選択す
る。そして、Car Type=truckのノードn
5をテストすることにより左側の枝を選択し、ノードn
8に到達する。n8は葉ノードであるので、ここで探索
を終了する。次に、Age<43のノードn3をテスト
することにより右側の枝を選択し、Car Type=
truckのノードn5をテストすることにより右側の
枝を選択する。これによりノードn9に到達する。n9
は葉ノードであるので、ここで探索を終了する。このよ
うにして追加データについては葉ノードの分割ではな
く、部分木を再構成することによって決定木が生成され
る。
【0043】なお、本実施形態においては枝刈りを行う
ことを想定し、ノードn8においてレコード12はRi
skがlowで、レコード14、15、16はRisk
がhighであるが、枝刈りによりこれらは単一ノード
に縮退されているものとする。
【0044】部分木を再構成するには、どのノードから
下の部分木を再構成するのかを判断する必要がある。こ
こではデータが追加された後に各ノードで分割評価値を
再計算し、その評価値を用いて再構成するか否かを判断
する方法について説明する。各ノードにおいて評価値を
再計算するためには、各ノードにおけるクラス分布が必
要となる。ここでクラス分布とは、各ノードを通過する
データに関してクラスであるRisk値がhighのデ
ータ数とlowのデータ数の対とする。
【0045】まず、データの追加以前の状態(図8)に
おけるクラス分布は以下のようになる。
【0046】 n1:(7、6) n2:(5、0) n3=(2、6) n4:(2、2) n5:(0、4) n6=(0、3) n7:(2、0) これより分割評価値が計算できる。エントロピーの加重
平均を分割評価値として計算すると、ノードn1におけ
る分割評価値は0.5となり、ノードn3における分割
評価値は0.31となる。
【0047】次に、データの追加後の状態(図9)にお
けるクラス分布は以下のようになる。
【0048】 n1:(10、6) n2:(5、0) n3:(5、6) n4:( 5、0) n5:(3、4) n6:(0、2) n7:( 2、0) n8:(3、1) n9:(0、3) 同様に計算すると、ノードn1における分割評価値は
0.68、ノードn3における分割評価値は0.004
となる。ノードn3の分割評価値は小さく、うまく分割
されていないことが分かる。そこで、ノードn3におい
て部分木の再構成を行う。
【0049】n3以下の部分木の再構成を行った結果が
図10に示される。図10におけるクラス分布は以下の
ようになる。
【0050】 n1:(10、6) n2:(5、0) n3:(5、6) n4:( 3、0) n5:(1、2) n6:(4、1) n7:( 1、0) n8:(0、2) この場合、ノードn3における分割評価値は0.43と
なり、再構成によりうまく分割されていることが分か
る。また、木全体としてノード数が1つ減少し、よりよ
い決定木が生成できることが分かる。
【0051】第3の実施形態においては、追加及び削除
される以前のデータセットより作成された決定木に追加
あるいは削除データを作用させ、通過するノードにおい
て分割評価値を再計算する処理は、適用部11において
行われ、分割評価値が特定の条件を満たす場合に該当す
るノードより下の部分木を再構成する処理は、変更処理
部13によって行われる。
【0052】なお、上記のような部分木の再構成を行う
ためにどのように判定するかに関しては、いくつかの方
法が考えられる。例えば、分割評価値が一定値以下にな
ることの判定、追加以前の分割評価値と比較してその比
率が一定値以下になることの判定、各ノードに複数の分
割方法とその評価値を予め記憶し、評価値が逆転するか
否かの判定などが考えられる。また、本手法はレコード
の追加だけでなく、削除・変更に関しても同じ方法が適
用できる。
【0053】
【発明の効果】本発明によれば、データべースにデータ
が追加・削除されるとき、データべース全体を用いて決
定木を再度作り直すことなく、一度作成した決定木に追
加・削除されるデータを作用させ、必要なノードの追加
や不要なノードの削除を行うことによりデータべースの
変更に対応した決定木の部分的な変更が可能となり、大
規模データべースを再度アクセスする必要がないため、
データマイニングの効率化にとって有効である。
【0054】また、部分木を再構成する場合にも、アク
セスされるデータは該当するノードの下の葉ノードに対
応するレコードのみであり、大規模データべース全体を
アクセスする必要がないため、データマイニングの効率
化にとって有効である。
【図面の簡単な説明】
【図1】本発明の実施形態に従ったインクリメンタルな
決定木生成システムの構成図
【図2】この発明の第1の実施形態であるデータ追加モ
ードでの決定木のインクリメンタルデータマイニングを
説明する図
【図3】データ追加モードの決定木インクリメンタルデ
ータマイニングのフローチャート図
【図4】データ追加の結果の決定木を示す図
【図5】この発明の第2の実施形態であるデータ削除モ
ードでの決定木のデータマイニングを説明する図
【図6】データ削除モードの決定木データマイニングの
フローチャート図
【図7】データ削除の結果の決定木を示す図
【図8】この発明の第3の実施形態である決定木のイン
クリメンタルデータマイニングを説明する図
【図9】第3の実施形態3におけるデータ追加モードの
決定木インクリメンタルデータマイニングを説明する図
【図10】第3の実施形態におけるデータ追加モードで
再構成される部分木を示す図
【図11】従来のトレーニングセットと決定木を示す図
【符号の説明】
11…適用部 12…変更データリスト 13…変更処理部 14…決定木部 15…データベース
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−262020(JP,A) 櫻井茂明,ファジイ帰納学習における 知識の洗練,電気学会論文誌C 電子・ 情報・システム部門誌,日本,社団法人 電気学会,1997年11月20日,VOL. 117−C No12,第1833頁乃至第1839 頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 19/00 130 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 データベースと、このデータベースに関
    する決定木とを備えたデータマイニングシステムの決定
    木変更方法において、前記データベースからデータが削
    除されたとき、前記決定木を適用することにより前記削
    除データに該当する葉ノードに接続されているノードを
    適用手段でみつけ、前記適用手段でみつけられたノード
    と、そのノードから接続されている他の葉ノードとを変
    更処理手段で併合して前記決定木を変更するようにした
    ことを特徴とする決定木変更方法。
  2. 【請求項2】 データベースと、このデータベースに関
    する決定木とを備えたデータマイニングシステムの決定
    木変更方法において、前記データベースからデータが削
    除されたとき、適用手段で前記決定木に削除データを作
    用させ、通過するノードにおいて前記適用手段で分割評
    価値を再計算し、前記適用手段で再計算された分割評価
    値が特定の条件を満たす場合に、変更処理手段で該当す
    るノードより下の部分木を再構成するようにしたことを
    特徴とする決定木変更方法。
  3. 【請求項3】 決定木を用いたデータマイニングにおい
    てデータが削除されたとき、データ削除以前のデータセ
    ットより作成された決定木に削除データを作用させ、作
    用結果を生成する適用部と、前記作用結果に基づいてデ
    ータ削除以前のデータセットより作成された決定木の削
    除データに該当する葉ノードに接続されているノード
    と、そのノードから接続されている他の葉ノードとを併
    合する変更処理部とを具備することを特徴とするデータ
    マイニング装置。
  4. 【請求項4】 決定木を用いたデータマイニングにおい
    て、データが削除されたとき、データが削除される以前
    のデータセットより作成された決定木に削除データを作
    用させ、通過するノードにおいて分割評価値を再計算
    し、再計算された分割評価値を生成する適用部と、前記
    分割評価値が特定の条件を満たす場合に該当するノード
    より下の部分木を再構成する変更処理部とを具備するこ
    とを特徴とするデータマイニング装置。
  5. 【請求項5】 前記適用部によって生成される作用結果
    を格納する変更データリストを有し、前記変更処理部は
    前記変更データリストから読み出した前記作用結果に基
    づいて変更処理を実行する請求項3または4に記載のデ
    ータマイニング装置。
JP2000098977A 2000-03-31 2000-03-31 決定木変更方法およびデータマイニング装置 Expired - Fee Related JP3323180B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000098977A JP3323180B2 (ja) 2000-03-31 2000-03-31 決定木変更方法およびデータマイニング装置
US09/803,931 US6662189B2 (en) 2000-03-31 2001-03-13 Method of performing data mining tasks for generating decision tree and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000098977A JP3323180B2 (ja) 2000-03-31 2000-03-31 決定木変更方法およびデータマイニング装置

Publications (2)

Publication Number Publication Date
JP2001282817A JP2001282817A (ja) 2001-10-12
JP3323180B2 true JP3323180B2 (ja) 2002-09-09

Family

ID=18613386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000098977A Expired - Fee Related JP3323180B2 (ja) 2000-03-31 2000-03-31 決定木変更方法およびデータマイニング装置

Country Status (2)

Country Link
US (1) US6662189B2 (ja)
JP (1) JP3323180B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108662A (ja) * 2000-10-02 2002-04-12 Fujitsu Ltd 情報管理方法
US7103915B2 (en) 2000-11-13 2006-09-05 Digital Doors, Inc. Data security system and method
US7313825B2 (en) 2000-11-13 2007-12-25 Digital Doors, Inc. Data security system and method for portable device
US8176563B2 (en) * 2000-11-13 2012-05-08 DigitalDoors, Inc. Data security system and method with editor
US7322047B2 (en) * 2000-11-13 2008-01-22 Digital Doors, Inc. Data security system and method associated with data mining
US7669051B2 (en) * 2000-11-13 2010-02-23 DigitalDoors, Inc. Data security system and method with multiple independent levels of security
US9311499B2 (en) 2000-11-13 2016-04-12 Ron M. Redlich Data security system and with territorial, geographic and triggering event protocol
US7191252B2 (en) 2000-11-13 2007-03-13 Digital Doors, Inc. Data security system and method adjunct to e-mail, browser or telecom program
US8677505B2 (en) * 2000-11-13 2014-03-18 Digital Doors, Inc. Security system with extraction, reconstruction and secure recovery and storage of data
US7546334B2 (en) 2000-11-13 2009-06-09 Digital Doors, Inc. Data security system and method with adaptive filter
US6907545B2 (en) * 2001-03-02 2005-06-14 Pitney Bowes Inc. System and method for recognizing faults in machines
KR100484375B1 (ko) * 2002-02-05 2005-04-20 이영섭 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법
KR100497211B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법
US20030187712A1 (en) * 2002-03-27 2003-10-02 First Data Corporation Decision tree systems and methods
KR100498651B1 (ko) * 2002-05-03 2005-07-01 이영섭 데이터마이닝의 분류 의사 결정 나무에서 분산이 작은, 즉 순수한 관심 노드 분류를 통한 자료의 통계적 분류 방법
US8533840B2 (en) * 2003-03-25 2013-09-10 DigitalDoors, Inc. Method and system of quantifying risk
US20060112048A1 (en) * 2004-10-29 2006-05-25 Talbot Patrick J System and method for the automated discovery of unknown unknowns
US8078559B2 (en) * 2004-06-30 2011-12-13 Northrop Grumman Systems Corporation System and method for the automated discovery of unknown unknowns
JP2006048129A (ja) * 2004-07-30 2006-02-16 Toshiba Corp データ処理装置、データ処理方法及びデータ処理プログラム
US7478079B2 (en) * 2005-01-14 2009-01-13 Microsoft Corporation Method for displaying a visual representation of mapping between a source schema and a destination schema emphasizing visually adjusts the objects such that they are visually distinguishable from the non-relevant and non-selected objects
US20060218176A1 (en) * 2005-03-24 2006-09-28 International Business Machines Corporation System, method, and service for organizing data for fast retrieval
US7340704B2 (en) * 2005-06-23 2008-03-04 International Business Machines Corporation Method and system for optimized automated case-splitting via constraints in a symbolic simulation framework
WO2007048229A1 (en) * 2005-10-25 2007-05-03 Angoss Software Corporation Strategy trees for data mining
US20070130185A1 (en) * 2005-12-04 2007-06-07 Miller John F Iii Efficient deletion of leaf node items within tree data structure
US20070168277A1 (en) * 2006-01-19 2007-07-19 First Data Corporation Merchant credit issuance and monitoring systems and methods
US8655939B2 (en) * 2007-01-05 2014-02-18 Digital Doors, Inc. Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
US9015301B2 (en) 2007-01-05 2015-04-21 Digital Doors, Inc. Information infrastructure management tools with extractor, secure storage, content analysis and classification and method therefor
US8468244B2 (en) 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US20080306759A1 (en) * 2007-02-09 2008-12-11 Hakan Mehmel Ilkin Patient workflow process messaging notification apparatus, system, and method
US20080221830A1 (en) * 2007-03-09 2008-09-11 Entelechy Health Systems L.L.C. C/O Perioptimum Probabilistic inference engine
US20080262961A1 (en) * 2007-04-17 2008-10-23 First Data Corporation Merchant Credit Risk Monitoring
US7895599B2 (en) * 2007-05-23 2011-02-22 Sap Ag User interface independent remote interface data loader
US7783651B2 (en) * 2007-05-23 2010-08-24 Sap Ag Base tree node infrastructure
JP5254700B2 (ja) * 2008-08-14 2013-08-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 決定木を比較する決定木比較装置、決定木比較方法及び決定木比較プログラム
EP2416283A4 (en) 2009-03-30 2017-12-06 Fujitsu Limited Decision tree generation program, decision tree generation method, and decision tree generation apparatus
US8412708B2 (en) * 2009-09-17 2013-04-02 Los Alamos National Security, Llc System and method for modeling and analyzing complex scenarios
JP5857715B2 (ja) * 2011-12-16 2016-02-10 セイコーエプソン株式会社 識別装置、及び、識別方法
US9275334B2 (en) 2012-04-06 2016-03-01 Applied Materials, Inc. Increasing signal to noise ratio for creation of generalized and robust prediction models
US11068796B2 (en) * 2013-11-01 2021-07-20 International Business Machines Corporation Pruning process execution logs
JP6915356B2 (ja) * 2017-04-11 2021-08-04 富士通株式会社 分析プログラム、分析装置及び分析方法
US11507554B2 (en) * 2019-12-26 2022-11-22 Yahoo Assets Llc Tree-like metadata structure for composite datasets
US11288288B2 (en) * 2020-06-10 2022-03-29 Business Objects Software Ltd. Nested group hierarchies for analytics applications

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3588477B2 (ja) 1994-03-16 2004-11-10 株式会社東芝 判断規則生成装置
US5758147A (en) * 1995-06-28 1998-05-26 International Business Machines Corporation Efficient information collection method for parallel data mining
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
US5799311A (en) * 1996-05-08 1998-08-25 International Business Machines Corporation Method and system for generating a decision-tree classifier independent of system memory size
US6182058B1 (en) * 1997-02-28 2001-01-30 Silicon Graphics, Inc. Bayes rule based and decision tree hybrid classifier
US6278464B1 (en) * 1997-03-07 2001-08-21 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a decision-tree classifier
US6055539A (en) * 1997-06-27 2000-04-25 International Business Machines Corporation Method to reduce I/O for hierarchical data partitioning methods
US6442561B1 (en) * 1998-12-18 2002-08-27 Wisconsin Alumni Research Foundation Method of constructing binary decision trees with reduced memory access

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
櫻井茂明,ファジイ帰納学習における知識の洗練,電気学会論文誌C 電子・情報・システム部門誌,日本,社団法人電気学会,1997年11月20日,VOL.117−C No12,第1833頁乃至第1839頁

Also Published As

Publication number Publication date
US6662189B2 (en) 2003-12-09
US20010051934A1 (en) 2001-12-13
JP2001282817A (ja) 2001-10-12

Similar Documents

Publication Publication Date Title
JP3323180B2 (ja) 決定木変更方法およびデータマイニング装置
US6055539A (en) Method to reduce I/O for hierarchical data partitioning methods
US8126911B2 (en) System and method for content-based partitioning and mining
US5787274A (en) Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
US7058621B1 (en) Method for extracting information from a database
JP3049636B2 (ja) データ分析方法
US7444325B2 (en) Method and system for information extraction
CN105550225B (zh) 索引构建方法、查询方法及装置
US20100235814A1 (en) Apparatus and a method for generating a test case
CN107102999B (zh) 关联分析方法和装置
JPH0877010A (ja) データ分析方法および装置
JPH1185769A (ja) 対象の集団から選択可能な特性を有する対象群を発見する方法
CN109040143A (zh) 一种bgp异常事件的检测方法和装置
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
JP2004519039A (ja) 圧縮データの構造を問い合わせる方法
CN112667735A (zh) 一种基于大数据的可视化模型建立分析系统和方法
CN114153839B (zh) 多源异构数据的集成方法、装置、设备及存储介质
JPH06119309A (ja) 購入見込み度合予測方法及び顧客管理システム
US12013855B2 (en) Trimming blackhole clusters
CN110609901B (zh) 一种基于向量化特征的用户网络行为预测方法
US9600468B2 (en) Dictionary creation device, word gathering method and recording medium
JP7532300B2 (ja) 情報処理方法、プログラム及び情報処理装置
CN115244539B (zh) 单词或词段词元化的推断方法
CN114595262A (zh) 一种市政道路epc项目招标清单的快速生成方法及系统
CN113159976A (zh) 一种微博网络重要用户的识别方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090628

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090628

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100628

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100628

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110628

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120628

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120628

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130628

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees