JP3556574B2 - 情報分析方法および装置 - Google Patents
情報分析方法および装置 Download PDFInfo
- Publication number
- JP3556574B2 JP3556574B2 JP2000162080A JP2000162080A JP3556574B2 JP 3556574 B2 JP3556574 B2 JP 3556574B2 JP 2000162080 A JP2000162080 A JP 2000162080A JP 2000162080 A JP2000162080 A JP 2000162080A JP 3556574 B2 JP3556574 B2 JP 3556574B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- mining
- analysis result
- result information
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004458 analytical method Methods 0.000 title claims description 80
- 238000005065 mining Methods 0.000 claims description 173
- 238000000034 method Methods 0.000 claims description 40
- 238000012795 verification Methods 0.000 claims description 19
- 230000001186 cumulative effect Effects 0.000 claims description 18
- 230000002194 synthesizing effect Effects 0.000 claims description 13
- 238000007418 data mining Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、相関規則発見手法を用いた情報分析方法および装置に関する。
【0002】
【従来の技術】
大規模データべースから知識を抽出する技術としてデータマイニングが注目されている。データマイニングの手法としては、決定木、ニューラルネット、相関規則発見、クラスタリングなど様々な手法が提案されている。これらの手法によりデータべースの中に隠されている特徴を抽出し、マーケテイングなどのさまざまな分野への応用が期待されている。
【0003】
一般にマイニングの対象とするデータべースは基幹システムで運用中のものではなく、定期的にスナップショットをとり、別のデータべース(データウエアハウス)として構築したものを利用する。そのため、データべースの更新はリアルタイムに反映されず、一定期間の後に追加されたデータを一括して追加することにより行われるのが通常である。このため、データべース全体にわたる傾向を把握するには定期的なデータの追加が行われる度にデータべース全体についてマイニングを行う必要がある。マイニングの対象となるデータべースは膨大な場合が多く、データの追加の都度にデータべース全体についてマイニングを実行するのには多大な実行時間を要している。
【0004】
相関規則発見は代表的なマイニング手法の一つであり、小売業におけるバスケット分析を行う手法として利用されている。バスケット分析とは、顧客が1トランザクションで同時に購入するアイテムの組を分析する手法であり、例えば「ビールを買う顧客は同時に紙おむつも買う」というような相関規則が発見できる。この処理は以下のような手順で行われる。
【0005】
1:全トランザクションについてアイテム別に出現頻度を求める。
2:出現頻度が最小サポート値以下のアイテムを除去する。
3:この表をセルフジョイン(SELF JOIN)して2つのアイテムの同時出現頻度を求める。
4:出現頻度が最小サポート値以下のアイテムを除去する。
5:抽出されたアイテムの対について最小コンフィデンス値以上の相関規則を生成する。
【0006】
さらに、これを繰り返して、3個以上のアイテムの組についても同様に相関規則を生成する。なお、最小サポート値、最小コンフィデンス値はユーザが初期設定するものであり、{A1.A2…An}→Bという形式の相関規則に関して、サポート値、コンフィデンス値は以下のように定義される。
【0007】
サポート値=(A1.A2…An、Bの出現回数)/全トランザクション数
コンフィデンス値=(Al.A2…An、Bの出現回数)/(A1.A2…Anの出現回数)
この2つを用いて、出現頻度の高いアイテム間の相関測則が抽出される。
【0008】
【発明が解決しようとする課題】
従来では、アイテム別の出現頻度、およびアイテムの組の出現頻度を求めるにはデータべース全体をサーチする必要がある。あるいは、アイテム毎にインデックスが作成されている場合には、インデックス全体をサーチする必要がある。また、最小サポート値以上のアイテムが多数ある場合には、セルフジョイン操作に要する処理が膨大となる。このように相関規則発見では大規模なデータべース全体に対して分析するのに、多大な処理時間を要する。
【0009】
即ち、従来の方法では、データべースの内容が追加される度に、データべース全体にわたって再度マイニングを行う必要があり、その都度多大な処理時間を要していた。
【0010】
従って、本発明の目的は、データべースの追加された部分のみに関する情報分析(マイニング)、および情報の追加以前に行われた情報分析(マイニング)結果を利用することにより、最新のデータべースの内容に含まれる特徴を効率よく抽出する情報分析方法および装置を提供することにある。
【0011】
【課題を解決するための手段】
本発明は、相関規則発見手法を用いた情報分析方法であって、追加情報が入力された際、既存の分析結果情報を前記追加情報にて検証して第1分析結果情報を得るとともに前記追加情報を分析して第2分析結果情報を得るステップと、前記第1分析結果情報と第2分析結果情報とを合成し、第3分析結果情報を生成するステップと有することを特徴とする情報分析方法を提供する。
【0012】
本発明は、相関規則発見手法を用いた情報分析方法であって情報が追加および削除された際、既存の分析結果情報を追加情報にて検証して第1分析結果情報を求めるとともに前記追加情報を分析して第2分析結果情報を求めるステップと、前記第1分析結果情報から削除すべき分析結果情報を減じて得られる分析結果情報と前記第2分析結果情報を合成して、第3分析結果情報を生成することを特徴とする情報分析方法を提供する。
【0013】
特に本発明は、相関規則発見において情報が追加されたとき、追加情報のみをマイニングして追加情報マイニング情報を生成し、情報追加以前の情報のマイニングより得られた過去のマイニング情報に対して前記追加情報により相関規則の検証を行い、この検証結果に従って過去のマイニング情報に追加情報のマイニング情報を合成して、追加情報を含むデータべース全体のマイニング結果を生成することを特徴とするインクリメンタル情報マイニング方法を提供する。
【0014】
本発明は、相関規則発見手法を用いた情報分析装置であって、追加情報を入力する手段と、前記追加情報が入力された際、既存の分析結果情報を前記追加情報にて検証して第1分析結果情報を生成する手段と、前記追加情報を分析して第2分析結果情報を生成する手段と、前記第1分析結果情報と前記第2分析結果情報とを合成し、第3分析結果情報を生成する手段とを具備することを特徴とする情報分析装置を提供する。
【0015】
本発明は、相関規則発見手法を用いた情報分析装置であって、情報が追加および削除された際、既存の分析結果情報を追加情報にて検証して第1分析結果情報を得る手段と、前記追加情報を分析して第2分析結果情報を得る手段と、前記第1分析結果情報から削除すべき分析結果情報を減じて得られる分析結果情報と前記第2分析結果情報を合成して、第3分析結果情報を生成する手段とを具備することを特徴とする情報分析装置を提供する。
【0016】
本発明は、相関規則発見において情報を追加する手段と、追加情報のみをマイニングして抽出し、第1のマイニング結果情報を生成する新規マイニング手段と、追加される以前の情報のマイニングにより得られた過去マイニング結果情報を前記追加情報により検証して第2のマイニング結果情報を生成する検証手段と、この検証手段により得られる前記第2のマイニング結果情報と前記第1のマイニング結果情報とを合成して、前記追加情報を含むデータべース全体のマイニング結果を生成する合成手段とで構成されることを特徴とするインクリメンタル情報マイニング装置を提供する。
【0017】
本発明によると、追加情報のみについてマイニングを行い、情報の追加以前に行われたマイニング結果を利用することにより、最新のデータべースの内容に含まれる特徴が効率よく抽出される。従って、情報が追加されるときに大規模データべース全体を取扱う必要がなく、日常的に行われる情報マイニング操作を大幅に高速化することが可能となる。
【0018】
【発明の実施の形態】
図1は、この発明のインクリメンタルデータマイニング方法を実現するシステムの構成を示している。これによると、過去マイニング系と新規マイニング系が示されている。過去マイニング系は、原データベース11と過去マイニング部12とを含む。原データベース11は過去に収集された多数のアイテムデータを格納しており、過去マイニング部12は過去のデータに対してマイニングを行い、過去のマイニング結果13を生成する。
【0019】
新規マイニング系は、追加データ発生部21,新規マイニング部22,検証部23および合成部24により構成される。追加データ発生部21の出力は新規マイニング部22および検証部23に接続され、新規マイニング部22および検証部23の出力は合成部24に接続される。
【0020】
新規マイニング部22は、従来のマイニングと同様の処理を行うが、データべース全体ではなく、追加データのみについてマイニングを行う。従って、マイニング処理が、従来と比べて大幅に高速化できる。検証部23は過去のマイニング結果が現在のデータべースに対しても引き続き成立するか否かを検証するものである。具体的には、この検証部23は、過去のマイニング結果、即ち過去の相関規則が追加データに対して成り立つかを検証する。合成部24は新規マイニング部22と検証部23の結果を合成して出力するとともに、次回のマイニングにおける検証部の判断に必要な情報を生成する。
【0021】
一般に未知のデータをマイニングして知識を抽出するよりも、過去に抽出された知識が現在に当てはまるかどうかを検証する方が容易である。例えば相関規則発見においては、過去に抽出された知識としてアイテムの組を想定すると、これらが追加データ中に存在する頻度を数えれば追加データに対して過去のマイニング結果が当てはまるか否かを容易に検証することができる。このため、追加されたデータを含むデータべース全体に対するマイニングの高速化が可能となる。
【0022】
(第1の実施形態)
本発明の第1の実施形態のインクリメンタルデータマイニング方法を説明する。先ず、4つのトランザクションについてデータマイニングを行う過去マイニング系を図2のフローチャートを参照しながら説明する。この例では、各トランザクションは一回の消費者の購入に相当し、ユニークな識別番号(TID)が与えられる。この場合、トランザクションは、100、200、300、400の4つとする。A、B、C、D、Eは個々のアイテムを表す。各トランザクション毎に購入したアイテムのリストは表1に示すものと仮定する。
【0023】
表1
TID アイテムリスト
100 (A、C、D)
200 (B、C、E)
300 (A、B、C、E)
400 (B、E)
上記のアイテムリストが原データベース11から読み出され(S11)、過去マイニング部12に送られると、これからアイテム毎の出現頻度が求められる(S12)。このときに得られる出現頻度が表2に示される。
【0024】
表2
アイテム 出現頻度
A 2
B 3
C 3
D 1
E 3
ここで、最小サポート値を0.3とし、頻度の低いアイテムを除去する(S13)。すなわちトランザクション数が4であるので、出現頻度が1.2未満のものを除去する。ここではアイテムDが除去される。残った4つのアイテムに関してセルフジョイントを行い(S14)、アイテムの組を生成する。この後、元のトランザクションデータよりアイテム組の出現頻度を求める(S15)と、アイテム組の出現頻度は表3のようになる。
【0025】
表3
アイテム組 出現頻度
(A、B) 1
(A、C) 2
(A、E) 1
(B、C) 2
(B、E) 3
(C、E) 2
この中で、(A、B)、(A、E)は出現頻度が最小サポート値(1.2)未満であるので除去する(S16)。除去後も、複数個のアイテム組が得られるので処理は継続する(S17)。即ち、処理はステップS14に戻り、2つ組のセルフジョインが取られる(S14)。これにより、アイテムの3つの組が生成される。トランザクションデータより出現頻度を求めるとアイテム組(B、C、E)の出現頻度が2であることがわかり、それ以外には解がないことが分かる。ここでループは終了する(S17)。
【0026】
ここまでの処理により検出されたアイテム組を用いて相関規則を生成するには、アイテムの組の要素をコンフィデンス値により規則の左辺と右辺に分解すればよい。
【0027】
コンフィデンス値=(左辺と右辺の出現回数)/(左辺の出現回数)
により定義されているので、例えば(A、B)については
A→Bのコンフィデンス値=1/2
B→Aのコンフィデンス値=1/3
となる。これらより、最小コンフィデンス値以上のものが生成される相関規則となる。即ち、最小コンフィデンス値以上のものがマイニング結果として出力される(S18)。なお、本アルゴリズムにおいて処理上のボトルネックとなる部分は最小サポート値以上のアイテム組を求める部分であり、マイニング結果としては最小サポート値以下のアイテム組を出力するところまでを対象とする。従って、この例に関するマイニング結果は表4に示すように、アイテム組と、それぞれの出現頻度とする。
【0028】
表4
アイテム組 出現頻度
(A、C) 2
(B、C) 2
(B、E) 3
(C、E) 2
(B、C、E) 2
次に、追加データがある場合について新規マイニング部の動作を図3のフローチャートを参照しながら説明する。上記のデータべースに対する追加データは表5に示すものとする。
【0029】
表5
TID アイテムリスト
500 (A、B、C)
600 (A、C、E)
700 (B、E、F)
800 (A、B、F)
この追加データが入力されると(S21)、この追加データについて出現頻度が求められる(S22)。このときに得られる出現頻度が表6に示される。
【0030】
表6
アイテム 出現頻度
A 3
B 3
C 2
E 2
F 2
ここで、最小サポート値を0.3とし、頻度の低いアイテムを除去する(S23)。すなわちトランザクション数が4であるので、出現頻度が1.2未満のものを除去する。ここでは除去対象アイテムがないので、5つのアイテムに関してセルフジョイントを行い(S24)、アイテム組を生成する。この後、元のトランザクションデータよりアイテム組の出現頻度を求める(S25)と、アイテム組の出現頻度は表7のようになる。
【0031】
表7
アイテム 出現頻度
(A、B) 2
(A、C) 2
(B、F) 2
(E、F) 1
この中で、(E、F)は出現頻度が最小サポート値未満であるので除去する(S26)。これにより、3つのアイテム組が生成される。トランザクションデータより出現頻度を求めるとこれらアイテム組の出現頻度が2であることがわかり、それ以外には解がないことが分かる。ここでループは終了する(S17)。そして最小サポート値以上のアイテムの組が選ばれる(S28)。これにより、表8に示すアイテム組とその出現頻度が得られる。これは追加データのみに関する結果に相当する。
【0032】
表8
アイテム 出現頻度
(A、B) 2
(A、C) 2
(B、F) 2
次に、追加データを加えたデータべース全体のマイニングについて説明する。まず、単純に追加前のマイニング結果と追加データに関するマイニング結果を合計するだけでは正しいマイニング結果が得られないことを説明する。
【0033】
表4に示した追加前のマイニング結果と表8に示した追加データのマイニング結果を合計すると、トランザクション数は8となるので最小サポート値0.3とすると頻度が2.4以上のアイテム組として表9に示す2つのアイテム組が得られる。
【0034】
表9
アイテム 出現頻度
(A、C) 4
(B、E) 3
一方、追加データを予め元のデータべースに加えて、全体からマイニングを行うと、頻度が2.4以上のアイテムの組として表10に示す結果が得られる。
【0035】
表10
アイテム 出現頻度
(A、B) 3
(A、C) 4
(B、C) 3
(B、E) 4
(C、E) 3
表9と表10を比べればわかるように、追加前と追加後のマイニング結果を合計するだけでは、全体でマイニングして得られた5つの結果の中で、分割してマイニングした結果を合計して得られるのは2つのみとなり、3つの情報が失われることがわかる。
【0036】
本発明の方法は、追加前のマイニング結果を追加データに対して検証し、これに追加データのマイニング結果を合成するというものである。以下この手法について図4および図5のフローチャートを参照して説明する。
【0037】
追加前のデータ(TID=100〜400)に対するマイニング結果、即ち過去のマイニング結果が求められる(S31)。このマイニング結果は、表4と同じである。これらについて、追加データ(TID=500〜800)に対して検証を行う。すなわち、追加データ中の出現頻度が算出され(S32)、そしてアイテム組が追加データの中に現れる頻度に加算される(S33)。検証結果を加えたマイニング結果は、表11に示すようになる。
【0038】
表11
アイテム 出現頻度
(A、C) 2+2=4
(B、C) 2+1=3
(B、E) 3+1=4
(C、E) 2+1=3
(B、C、E) 2+0=2
(A、C)、(B、C)、(B、E)、(C、E)は最小サポート値と比較される(S34)。最小サポート値×トランザクション数以上の出現頻度を持つアイテム組が合成部24に渡される(S35)。
【0039】
また、追加データのみに対するマイニング結果は、表8に示した通りであり、下表12に示すように3個のアイテム組が得られる。これが合成部24に渡される。
【0040】
表12
アイテム 出現頻度
(A、B) 2
(A、C) 2
(B、F) 2
合成部24では、図5のフローチャートに示すように新規マイニング部22の結果(S41)と検証部23のデータ(S42)とを合成し、追加のマイニング結果を生成する。この合成において、生成される規則が過去のマイニング結果からの継続と新規マイニング結果の両方に存在するかが判定される(S43)。この判定がNOであれば、新規マイニング部の出力のみに存在するかが判定される(S44)。規則が両方に存在すれば、継続として出力される(S45)。規則が新規マイニング部にのみに存在すれば、新規出力として出力される(S46)。このとき、それぞれの規則に継続/新規の区別が併記される。合成の結果は表13のようになる。
【0041】
表13
アイテム組 出現頻度
(A、C) 4 継続
(B、C) 3 継続
(B、E) 4 継続
(C、E) 3 継続
(A、B) 2 新規
(B、F) 2 新規
この追加のマイニング結果と、追加データを加えた全体でマイニングを行った結果(表10)とを比べてみると、全体でマイニングを行った場合に見つかった5個の規則はすべて含まれており、さらに(B、F)が本発明の手法で新たに抽出されている。これは、本発明の手法において継続的に発生する特徴を抽出する能力はデータべース全体でマイニングを行った結果と等価であり、それに加えて新規データのみについて含まれている特徴(B、F)を摘出する能力があることを示している。
【0042】
以上ではデータが1度だけ追加される場合について説明したが、データが継続的に追加され、その度にマイニングを行う場合について説明する。この場合のシステムの構成が図6に示されている。これによると、初期マイニング系と新規マイニング系が示されている。初期マイニング系は、初期データベース31と初期マイニング部32とを含む。初期データベース31は初期に収集された多数のアイテムデータを格納しており、初期マイニング部32は初期のデータに対してマイニングを行い、初期のマイニング結果33を生成する。
【0043】
新規マイニング系は、図1と同様に追加データ発生部21,新規マイニング部22,検証部23および合成部24により構成される。このシステムによると、合成部24の出力がマイニング結果として次回に用いられる。
【0044】
例えば毎月1回データが追加されるような場合に月単位で追加データに対してマイニングを行った場合、月毎のマイニング結果にかなりのばらつきが存在すると考えられる。一方、データを追加してからデータべース全体に対してマイニングを行うと、全体を通して頻度の高い規則のみが抽出される。
【0045】
従来ではこの両方の規則を抽出するには、追加データに関するマイニングと全体のマイニングの2つのマイニングを行う必要があった。本発明の手法では追加データに対するマイニングを基本とし、全体に対するマイニングを行うことなく全体を通して頻度の高い規則を効率よく求めることが可能となる。
【0046】
そこで、以下にデータが連続的に追加される例を説明する。最初のマイニングを行う時刻を0とし、時刻1、2、3、4でそれぞれデータの追加があったとする。時刻0でのデータ件数、および各時刻において追加されるデータの件数はそれぞれ1000件とする。最小サポート値は0.1、すなわち各時刻において追加されるデータの中で100件以上の頻度の規則を抽出するものとする。
【0047】
時刻0〜4について追加データのマイニングが行われた結果、表14に示すように6種の規則について、各時刻において追加されるデータ内での頻度が得られたと仮定する。
【0048】
即ち、各時刻に追加されるデータのみについてマイニングを行うと、結果として頻度が100以上の規則が得られる。すなわち、表14で下線部分がマイニング結果として出力される。
【0049】
次に、各時刻においてデータを追加した後、全体に関してマイニングを行った場合について説明する。各規則の頻度は、その時刻までの頻度の累積値となり、表15のようになる。
【0050】
この場合は、時刻0で100以上、時刻1で200以上、時刻2で300以上、時刻3で400以上、時刻4で500以上の規則がマイニング結果として出力される。すなわち、表15で下線部分が結果として出力される。
【0051】
本発明の手法は、図7に示すように合成部において、各時刻のマイニング結果として、規則、開始時刻、累積頻度の3つの情報を以下の手順により生成し、保存および再利用するものとする。
【0052】
先ず、規則が累積マイニング結果33に含まれているかが判定される(S51)。この判定がYESであれば、即ち過去のマイニング結果に含まれている規則ならば、過去のマイニング結果の累積頻度に現在時刻の追加データの頻度を加えて規則を出力し(S54)、開始時刻はそのままとする(S55)。
【0053】
ステップ51での判定がNOであれば、即ち過去のマイニング結果に含まれていない規則であり、現在時刻の追加データの頻度が最小サポート値より高ければ、累積頻度を現在の時刻の追加データの頻度として規則を出力し(S52)、開始時刻を現在時刻とする(S53)。
【0054】
この手法を上記の例に適用すると、各時刻でのマイニングの出力は下表16のようになる。
【0055】
このようにすると、ある時刻において追加されるデータの中で一度でも最小サポート値以上の頻度のある規則は、その後ずっとマイニング結果として出力されることとなる。すなわち、任意の時刻においてデータべース全体についてマイニングして得られる結果はすべてこのリストの中に含まれる。
【0056】
なお、本手法ではマイニング結果がデータを追加する度に増加するため、マイニングの実行時間が増加する可能性がある。その改良として、累積頻度の比率が一定以下になったとき出力する規則を除去する方法も考えられる。例えば、累積頻度の比率が0.05以下になったら規則を結果より除去するとすると、時刻4で規則2が除去される。このような判断は、開始時刻と各時刻に追加されるトランザクション数を保持すれば容易に計算できる。
【0057】
(第2の実施形態)
第1の実施形態ではデータべースが追加される場合について述べたが、過去1年間というようにデータべース内に格納するデータの期間を一定とする使い方をされる場合がある。この場合は新しいデータを追加する度に、期間をはずれたデータを除去する必要があり、マイニング結果の保持に関しても除去を考慮する必要がある。
【0058】
以下に、本発明の第2の実施形態に従った周期的なインクリメントマイニングシステムを図8を参照して説明する。
【0059】
図8の構成によると、図6のシステムに時刻別マイニング結果41が付加されている。このシステムを第1の実施形態で用いた例と同じデータで説明する。すなわち、時刻0−5における規則1−6の出現頻度を表14と同じものを用いる。
【0060】
ここで、周期は3、すなわち過去3回のデータを保持するものとする。周期を3としたときのデータべース全体のマイニング結果を表17に示す。
【0061】
この場合は、時刻0で頻度が100以上、時刻1で200以上、時刻3以降では300以上の規則がマイニング結果として出力される。すなわち、上記の表17で下線部分が結果として出力される。
【0062】
以下では周期3において、追加部分のマイニング結果と過去のマイニング結果より全体のマイニング結果を求める手法について図9のフローチャートを参照して説明する。
【0063】
時刻2までは第1の実施形態と同一であり、時刻3のときに時刻0のデータを除去して時刻3のデータを追加し、時刻4では時刻1のデータを削除して時刻4のデータを追加する。マイニング結果としては、第1の実施形態と同様にデータべース全体について成り立つ規則に関して規則内容、開始時刻、累積頻度を特定する情報を保持するのに加え、各時刻における追加データに関するマイニング結果41、すなわちデータの追加時点で出力される規則の追加データにおける出現頻度を保持するものとする。各時刻における手順は図9のフローチャートに示されるように行う。
【0064】
先ず、規則が累積マイニング結果33に含まれているかが判定される(S61)。この判定がYESであれば、即ち、規則が過去のマイニング結果に含まれている規則であれば、開始時刻が1周期前以前かが判定される(S62)。この判定がYESであれば、累積頻度が直前の累積頻度−削除時の頻度+現在時刻の頻度で算出される(S63)。即ち、一定期間の累積マイニング結果は累積マイニング結果を追加データによって検証して得られるマイニング結果から削除すべき期間のマイニング結果を減じ、追加のマイニング結果を合成することによって求められる。開始時刻は1周期前+1とされる(S64)。
【0065】
ステップS61での判定がYESであり、ステップS62での判定がNOであれば、累積頻度が直前の累積頻度+現在時刻の頻度によって求められ(S65)、開始時刻はそのままの値とされる(S66)。
【0066】
ステップS61の判定がNOであれば、過去のマイニング結果に含まれていない規則において、現存時刻の追加データにおける頻度が最小サポート値より高ければ、累積頻度を現在時刻の追加データにおける頻度として規則を出力し(S67)、開始時刻を現在時刻とする(S68)。
【0067】
上記の手順に従った周期3とした場合の各時刻におけるマイニング結果を表18に示す。
【0068】
明らかに、本方式において出力されるマイニング結果は、データべース全体について行ったマイニング結果を含む。また、第1の実施形態と同様に、頻度が一定以下になった規則をマイニング結果から削除することも容易である。
【0069】
上述のように本発明によると、データの追加・削除があったときに過去のデータべースにアクセスすることなく、過去のマイニング結果を追加データについて検証して得たマイニング結果と追加データに関するマイニング結果とを合成することにより全体のマイニングを行う。
【0070】
【発明の効果】
本発明によれば、データべースにデータが追加されるとき、データべース全体をマイニングすることなく、追加されるデータのマイニングと追加される以前のデータべースのマイニング結果を合成することによりデータベース全体のマイニングが可能となり、大規模データのマイニングを効率よく実行するために有効である。
【0071】
また、データの追加時にもっとも古い時刻のデータを削除するような周期的なデータベースにおいても同様に過去のマイニング結果を利用してデータべース全体のマイニングが可能となり、大規模データのマイニングを効率よく実行するために有効である。
【図面の簡単な説明】
【図1】本発明の一実施形態に従ったインクリメンタルマイニングシステムのブロック図。
【図2】本発明の過去のマイニング結果を得るためのインクリメンタルマイニング方法を説明するフローチャート。
【図3】第1の実施形態に従った新規マイニング結果を得るためのインクリメンタルマイニング方法を説明するフローチャート。
【図4】第1の実施形態の新規マイニングで使用する検証部を説明するフローチャート。
【図5】第1の実施形態の新規マイニングで使用する合成部を説明するフローチャート。
【図6】初期マイニング結果を用いるインクリメンタルマイニングシステムのブロック図。
【図7】図6のマイニングシステムにおける合成部を説明するフローチャート。
【図8】本発明の第2の実施形態に従ったインクリメンタルマイニングシステムのブロック図。
【図9】図8のマイニングシステムにおける合成部を説明するフローチャート。
【符号の説明】
11…原データベース
12…過去マイニング部
13…過去のマイニング結果
21…追加データ部
22…新規マイニング部
23…検証部
24…合成部
31…初期データベース
32…初期マイニング部
Claims (6)
- 全トランザクションについてアイテム別に出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、これにより得られる表をセルフジョイン(SELF JOIN)して2つのアイテムの同時出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、抽出されたアイテムの組について最小コンフィデンス値以上の相関規則を生成する相関規則発見手法を用いた情報分析方法において、
トランザクション追加情報が入力された際、データベースに格納された追加前のマイニング結果のアイテム組の出現頻度に、追加情報中における、追加前のデータマイニング結果で共通するアイテム組の出現頻度を加算することによって第1分析結果情報を得るとともに、前記追加情報のアイテム組毎の出現頻度を求めることによって第2分析結果情報を得るステップと、
前記第1分析結果情報と第2分析結果情報のうち前記第1分析結果情報に存在しないアイテム組を選択したものとの和を求めることによって第3分析結果情報を生成するステップと
を有することを特徴とする情報分析方法。 - 前記第2分析結果情報とともに、分析を行った時刻を特定する情報および累積頻度を特定する情報を次の情報追加時に過去の情報を削除するために利用する分析結果情報として保存するステップを含むことを特徴とする請求項1記載の情報分析方法。
- 全トランザクションについてアイテム別に出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、これにより得られる表をセルフジョイン(SELF JOIN)して2つのアイテムの同時出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、抽出されたアイテムの組について最小コンフィデンス値以上の相関規則を生成する相関規則発見手法を用いた情報分析方法であって、
トランザクション情報が追加および削除された際、データベースに格納された追加前のマイニング結果のアイテム組の出現頻度に、追加情報中における、追加前のマイニング結果で共通するアイテム組の出現頻度を加算することによって第1分析結果情報を求めるとともに、前記追加情報のアイテム組毎の出現頻度を求めることによって第2分析結果情報を求めるステップと、
前記第1分析結果情報から削除すべき分析結果情報を減じて得られる分析結果情報と前記第2分析結果情報のうち前記第1分析結果情報に存在しないアイテム組を選択したものとの和を求めることによって第3分析結果情報を生成するステップと
を有することを特徴とする情報分析方法。 - 全トランザクションについてアイテム別に出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、これにより得られる表をセルフジョイン(SELF JOIN)して2つのアイテムの同時出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、抽出されたアイテムの組について最小コンフィデンス値以上の相関規則を生成する相関規則発見手法を用いた情報分析装置において、
トランザクション追加情報を生成する追加情報発生部と、前記追加情報が入力された際、データベースに格納された追加前のマイニング結果のアイテム組の出現頻度に、追加情報中における、追加前のマイニング結果で共通するアイテム組の出現頻度を加算することによって第1分析結果情報を生成する検証部と、
前記追加情報のアイテム組毎の出現頻度を求めることによって第2分析結果情報を生成する新規マイニング部と、
前記第1分析結果情報と前記第2分析結果情報のうち前記第1分析結果情報に存在しないアイテム組を選択したものとの和を求めることによって第3分析結果情報を生成する合成部と
を具備することを特徴とする情報分析装置。 - 前記第2分析結果情報とともに、分析を行った時刻を特定する情報および累積頻度を特定する情報を次の情報追加時に過去の情報を削除するために利用する分析結果情報として保存する保存部を含むことを特徴とする請求項4記載の情報分析装置。
- 全トランザクションについてアイテム別に出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、これにより得られる表をセルフジョイン(SELF JOIN)して2つのアイテムの同時出現頻度を求め、この出現頻度が最小サポート値以下のアイテムを除去し、抽出されたアイテムの組について最小コンフィデンス値以上の相関規則を生成する相関規則発見手法を用いた情報分析装置において
情報が追加および削除された際、データベースに格納された追加前のマイニング結果のアイテム組の出現頻度に、追加情報中における、追加前のマイニング結果で共通するアイテム組の出現頻度を加算することによって第1分析結果情報を得る検証部と、
前記追加情報のアイテム組毎の出現頻度を求めることによって第2分析結果情報を得る新規マイニング部と、
前記第1分析結果情報から削除すべき分析結果情報を減じて得られる分析結果情報と前記第2分析結果情報のうち前記第1分析結果情報に存在しないアイテム組を選択したものとの和を求めることによって第3分析結果情報を生成する合成部と
を具備することを特徴とする情報分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000162080A JP3556574B2 (ja) | 2000-05-31 | 2000-05-31 | 情報分析方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000162080A JP3556574B2 (ja) | 2000-05-31 | 2000-05-31 | 情報分析方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001344259A JP2001344259A (ja) | 2001-12-14 |
JP3556574B2 true JP3556574B2 (ja) | 2004-08-18 |
Family
ID=18666019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000162080A Expired - Lifetime JP3556574B2 (ja) | 2000-05-31 | 2000-05-31 | 情報分析方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3556574B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277873B2 (en) | 2003-10-31 | 2007-10-02 | International Business Machines Corporaton | Method for discovering undeclared and fuzzy rules in databases |
JP2006227896A (ja) | 2005-02-17 | 2006-08-31 | Fuji Xerox Co Ltd | 情報分析装置、情報分析方法およびプログラム |
JP5254700B2 (ja) * | 2008-08-14 | 2013-08-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 決定木を比較する決定木比較装置、決定木比較方法及び決定木比較プログラム |
CN103339613B (zh) * | 2011-01-24 | 2016-01-06 | 日本电气株式会社 | 操作管理装置、操作管理方法和程序 |
CN103853933B (zh) * | 2014-03-27 | 2017-02-15 | 北京工业大学 | 面向Android数字取证的用户行为分析方法及系统 |
CN113672589A (zh) * | 2021-04-23 | 2021-11-19 | 国网浙江省电力有限公司金华供电公司 | 一种智慧物流仓储园区安全感知系统 |
-
2000
- 2000-05-31 JP JP2000162080A patent/JP3556574B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001344259A (ja) | 2001-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5668988A (en) | Method for mining path traversal patterns in a web environment by converting an original log sequence into a set of traversal sub-sequences | |
JP3323180B2 (ja) | 決定木変更方法およびデータマイニング装置 | |
CN107102999B (zh) | 关联分析方法和装置 | |
Masseglia et al. | Efficient mining of sequential patterns with time constraints: Reducing the combinations | |
Chang et al. | A novel incremental data mining algorithm based on fp-growth for big data | |
Eppstein et al. | Separator based sparsification: I. Planarity testing and minimum spanning trees | |
Truong et al. | Efficient algorithms for mining frequent high utility sequences with constraints | |
JP3556574B2 (ja) | 情報分析方法および装置 | |
Ginting et al. | Comparison of Priori and FP-Growth algorithms in determining association rules | |
Ignatov et al. | Pattern mining and machine learning for demographic sequences | |
Mallick et al. | Incremental mining of sequential patterns: Progress and challenges | |
KR20200019741A (ko) | 데이터 분석 지원 시스템 및 데이터 분석 지원 방법 | |
CN108875015A (zh) | 一种基于FpGrowth算法的剪枝策略 | |
JP6800716B2 (ja) | データ分析装置、データ分析方法、及びデータ分析プログラム | |
CN107609110B (zh) | 基于分类树的最大多样频繁模式的挖掘方法及装置 | |
Buffett | Candidate list maintenance in high utility sequential pattern mining | |
Raıssi et al. | Need for speed: Mining sequential patterns in data streams | |
Martin et al. | FGC-Stream: a novel joint miner for frequent generators and closed itemsets in data streams | |
KR100430479B1 (ko) | 시간 간격을 고려한 시간 관계 규칙 탐사 시스템 및 그 방법 | |
KR100408322B1 (ko) | 지식 탐사 방법을 이용한 대 고객 마케팅 방법 | |
Tanna et al. | Foundation for frequent pattern mining algorithms implementation | |
Grover | Comparative study of various sequential pattern mining algorithms | |
Suhandi et al. | Marketing Strategy Using Frequent Pattern Growth | |
Submitter et al. | An approach for seasonally periodic frequent pattern mining in retail supermarket | |
Niha et al. | Extraction of high utility rare itemsets from transactional databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040512 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3556574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090521 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090521 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100521 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110521 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110521 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120521 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120521 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140521 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term |