JP2000242651A - データマイニング方法およびデータマイニング装置 - Google Patents

データマイニング方法およびデータマイニング装置

Info

Publication number
JP2000242651A
JP2000242651A JP11039925A JP3992599A JP2000242651A JP 2000242651 A JP2000242651 A JP 2000242651A JP 11039925 A JP11039925 A JP 11039925A JP 3992599 A JP3992599 A JP 3992599A JP 2000242651 A JP2000242651 A JP 2000242651A
Authority
JP
Japan
Prior art keywords
item set
length
association rule
generating
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP11039925A
Other languages
English (en)
Inventor
Yasushi Obata
康 小幡
Akisumi Mitsuishi
彰純 三石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11039925A priority Critical patent/JP2000242651A/ja
Publication of JP2000242651A publication Critical patent/JP2000242651A/ja
Abandoned legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 相関ルール抽出処理時間を事前に知ることが
でき、相関ルール数が膨大とならず、相関ルール生成の
実行時間の期待値を見積もることができるデータマイニ
ング方法を得る。 【解決手段】 1)データベース1から、少数レコード
に絞り込んだ試験データファイルを生成する試験データ
ファイル生成ステップ1002 2)試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行ステップ1003 3)相関ルール抽出実行ステップにかかる時間に基づい
て、全データベースからの相関ルール抽出にかかる時間
を推定する実行時間推定ステップ1004 4)推定された時間を表示する推定実行時間表示ステッ
プ1005を備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデータ処理システム
に関し、特にデータベース中の相関規則を発見するデー
タマイニング処理において、前処理の支援、相関ルール
抽出のパラメータ指定、実行状況の表示方法、および制
御方法に関するものである。
【0002】
【従来の技術】一つのレコードに品目の集合が並ぶデー
タベースからの相関ルール抽出の手法としては、R.Agra
walらによるAprioriと呼ばれるものがあり、文献「Fast
Algorithms for Mining Association Rules」(Proc. o
f 20th VLDB, 1994)特開平8−287106号公報に詳
述されている。ここでは相関ルール抽出は支持度と確信
度の2つの指標を基準としていた。例えば、 A,B,・・・,X→Y という相関ルールの場合、A,B,…,X,Yの全てを
含むレコードの数がこの相関ルールの支持度、A,B,
…,Xを含むレコードの中での、さらにYも含むレコー
ドの割合を確信度と呼ぶ。
【0003】そして、この手法においては二つの指標が
あらかじめ設定された各々の下限値(最小支持度、最小
確信度)を超える相関ルールを抽出していた。この手法
では、支持度の高い(最小支持度を超える)品目の組
(大品目セット)をハッシュ木と呼ばれるデータ構造に
よって管理している。
【0004】図25にハッシュ木の例を示す。図25に
おいて、各ノードが品目セットを表しており、それはr
ootからそのノードに至るまで経由したノードの番号
の品目からなる品目セットに相当する。例えば、roo
tからノード番号1、ノード番号3を経て辿り着く番号
5を持ったノードは、1、3、5の3つの品目からなる
品目セットを表す。ハッシュ木では品目セットは品目数
の少ない品目セットの枝から徐々にノードを追加して、
より多くの品目から成る大品目セットを生成していく。
【0005】従来の相関ルール生成の手順を、図26に
示すフローチャートによって説明する。最初のステップ
であるユーザ入力100では、利用者から最小支持度、
最小確信度を入力させて獲得する。次のステップのL1
生成110では、データベース中のレコードを一つずつ
取り出して、そのレコード中に出現する品目について、
カウント数(支持度)を増やす。初めて出現する品目に
ついては、そのカウントの領域を新たに設ける。そし
て、全てのレコードについて数え上げが終了すると、最
終的な集計値が最小支持度を超えた品目について、ハッ
シュ木に登録される。
【0006】以下の説明において、Lkは長さkの大品
目セット、Ckは長さkの候補品目セットを表す。大品
目セットLkは、データベースにおける出現頻度が最小
支持度を超える品目の組み合わせであり、候補品目セッ
トCkは、その候補となる品目の組み合わせである。ま
た、品目セットの長さkとは、組み合わせ中の品目の数
のことである。
【0007】次のステップのCk生成120では、長さ
k−1の大品目セットLk−1から候補品目セットCk
が生成される。初期状態ではk=2であり、L1からC
2が生成される。
【0008】Ck生成120の後は、Lk生成130の
ステップが行われる。ここではデータベースのレコード
が一件ずつ取り出され、その中に存在するCk中のk項
組みのカウントを増やす操作が行われ、最終的に最小支
持度を超えたk項組みのみを残す。
【0009】Lk生成130のステップでLkの要素と
なるk項組みが一つも生成されなかった場合は、相関ル
ール候補生成150のステップに進み、そうでない場合
はkの値を一つ増やし、Ck生成120に戻る。
【0010】相関ルール候補生成150では、それまで
のステップで作成された大品目セットLkより相関ルー
ルの候補が作られる。Lk中のあるk項組みからは、右
辺にその中の一つの品目、左辺に残りのk−1個の品目
がくる計k個の相関ルール候補が生成される。これが、
2以上の全てのLkのk項組みについて成される。
【0011】相関ルール検証160では、各相関ルール
候補の確信度が計算され、それが最小確信度を上回る場
合には相関ルール集合に追加される。またここで、相関
ルール候補のの確信度(confidence)は、品目セットの
支持度をとすると、
【0012】
【数1】
【0013】と計算される。
【0014】
【発明が解決しようとする課題】このような手法の従来
技術においては、相関ルール抽出処理にどの位の実行時
間がかかるのかを知るためには、実際に処理を実行して
みるしかなかった。また、同じ品目セットから得られる
相関ルールが複数抽出される可能性があるために、相関
ルール数が膨大となり、利用者が整理しづらいという問
題があった。また、従来の手法では、相関ルール抽出処
理のパラメータの指定方法について、相関ルールの長
さ、大品目セットの長さ毎の最小支持度等のパラメータ
を指定する手法がなかった。さらに、相関ルール生成の
実行中に表示する残りの実行時間の期待値を正確に見積
もる手法がなかった。
【0015】この発明は、上記のような課題を解決する
ためになされたもので、相関ルール抽出処理にどの位の
実行時間がかかるのか、実際に処理を実行してみる前に
知ることができ、相関ルール数が膨大とならず、相関ル
ール生成の実行時間の期待値を正確に見積もることがで
きるデータマイニング方法およびデータマイニング装置
を得ることを目的とする。
【0016】
【課題を解決するための手段】この発明に係るデータマ
イニング方法は、一つのレコードに品目の集合が並ぶ多
数のレコードから成るデータベースから品目集合間の有
効な相関ルールを抽出するデータマイニング方法におい
て、 1)データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成ステ
ップ 2)試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行ステップ 3)相関ルール抽出実行ステップにかかる時間に基づい
て、全データベースからの相関ルール抽出にかかる時間
を推定する実行時間推定ステップ 4)推定された時間を表示する推定実行時間表示ステッ
プを備えている。
【0017】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成ステップ
は、少数レコードに絞り込んだ試験データファイルか
ら、入力された離散化設定値により離散化して試験デー
タファイルを生成する。
【0018】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成ステップは、入力
された階層値に基づいて、試験データファイルを生成す
る。
【0019】また、相関ルール抽出実行ステップは、所
定の品目に限定して相関ルール抽出処理を実行する。
【0020】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、 1)相関ルール候補生成ステップは、所定の品目に限定
して相関ルールの候補を作り、 2)所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定ステップをさらに備
える。
【0021】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、相関ルール検定ステップは、同じ大品
目セットから生成される相関ルールが複数存在する場
合、相関ルールの確信度がより大きいものを抽出する。
【0022】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、 1)抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定ステップ 2)抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更ステップをさらに備える。
【0023】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、大品目セット生成ステップは、 1)レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もりステップ 2) 期待値を表示するマッチング処理時間表示ステッ
プをさらに備える。
【0024】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。
【0025】また、期待値は、平期待値の1レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。
【0026】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせステップをさらに備えている。
【0027】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データ
ベースを検索して長さkの候補品目セットの出現頻度を
集計し、最小支持度を超える候補品目セットのみを残し
長さkの大品目セットを作る大品目セット生成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、 1)一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断するステップ 2)最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈りステップ 3)相関ルール抽出処理を再開する相関ルール抽出処理
再起動ステップをさらに備える。
【0028】また、最小支持度の変更の判断のステップ
において、以前より小さな最小支持度が指定された場
合、相関ルール抽出処理を始めから行うステップさらに
備えている。
【0029】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。
【0030】また、他の発明に係るデータマイニング装
置は、一つのレコードに品目の集合が並ぶ多数のレコー
ドから成るデータベースから品目集合間の有効な相関ル
ールを抽出するデータマイニング装置において、 1)データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成手段 2)試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行手段 3)相関ルール抽出実行手段にかかる時間に基づいて、
全データベースからの相関ルール抽出にかかる時間を推
定する実行時間推定手段 4)推定された時間を表示する推定実行時間表示手段を
備える。
【0031】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成手段は、少
数レコードに絞り込んだ試験データファイルから、入力
された離散化設定値により離散化して試験データファイ
ルを生成する。
【0032】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成手段は、入力され
た階層値に基づいて、試験データファイルを生成する。
【0033】また、相関ルール抽出実行手段は、所定の
品目に限定して相関ルール抽出処理を実行する。
【0034】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、 1)相関ルール候補生成手段は、所定の品目に限定して
相関ルールの候補を作り、 2)所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定手段をさらに備え
る。
【0035】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、相関ルール検定手段は、同じ大品目セッ
トから生成される相関ルールが複数存在する場合、相関
ルールの確信度がより大きいものを抽出する。
【0036】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、 1)抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定手段 2)抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更手段をさらに備える。
【0037】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、大品目セット生成手段は、 1)レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もり手段 2) 期待値を表示するマッチング処理時間表示手段を
さらに備える。
【0038】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。
【0039】また、期待値は、平期待値の1レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。
【0040】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせ手段をさらに備えている。
【0041】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、 1)一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断する手段 2)最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈り手段 3)相関ル
ール抽出処理を再開する相関ルール抽出処理再起動手段
をさらに備える。
【0042】また、最小支持度の変更の判断の手段にお
いて、以前より小さな最小支持度が指定された場合、相
関ルール抽出処理を始めから行う手段さらに備えてい
る。
【0043】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。
【0044】
【発明の実施の形態】実施の形態1.図1はこの発明の
形態の処理に必要な手段および生成データを示したシス
テム図である。図2はこの実施の形態のデータベースの
データの形式を示す図である。図3はこの実施の形態の
レシートファイル形式を示す図である。
【0045】本実施の形態に先立つ技術として以下の手
法がある。すなわち、図26に示す従来の手法の相関ル
ール検定160のステップにおいて、確信度ではなく、
χ2値を用いて相関ルールの取捨選択の判定を行う手法
である。
【0046】この手法においては、相関ルール抽出の対
象として、各レコードに任意数の品目が存在するデータ
を前提としている。従って、図2の様な表形式のデータ
ベースから相関ルールを抽出する場合、まず、各属性の
属性値毎に品目を割り当てる必要がある。この品目の割
当てのやり方によって、抽出される相関ルールの数、実
行時間は異なってくる。
【0047】ここで身長、体重といった連続数値による
属性を考えてみると、ある範囲内の数値を同一の品目と
して変換するという処理が必要となる。これは、例えば
身長の場合、150cm以下であるならば「身長小」、
150cm〜180cmを「身長中」、180cm以上
を「身長大」という品目で置き換える処理である。この
分割については、最大値と最小値の範囲を等分割する方
法、利用者が分割範囲を自由に決定する方法等がある。
【0048】また、離散的な属性においても、属性値の
多い場合、いくつかの属性値をグループ化することも考
えられる。例えば、「一日の喫煙本数」という属性で、
図8の様な属性階層が設定されているとすると、12本
という値の場合、第一階層を選択すると「11〜13
本」、第二階層を選択すると「多」、第三階層を選択す
ると「要注意」という品目に置き換えられる。この階層
の選択については、利用者がグループ化を実施したい属
性について、階層を指定するという方法がある。
【0049】以上の離散化、属性値のグループ化におい
て、利用者による設定が行われる場合について考える。
しかし、相関ルール生成には膨大な時間がかかる場合も
多く、設定の選択肢が多数ある場合、その一つ一つにつ
いて相関ルール生成を実行することは現実的ではない。
ある設定において、相関ルール生成にかかる実行時間の
期待値や、抽出される相関ルールの概観等が短時間で得
られると、より設定が行いやすくなると考えられるが、
従来の手法には、その様な機能がなかった。
【0050】また、相関ルール抽出は非常に負荷の高い
処理であるので、その実行中に、「あとどの位の時間を
要するのか」という残りの実行時間の期待値を表示する
機能は有用である。これを従来の手法で実行しようとす
るならば、実行時間はデータベースのレコード数に比例
するものとして、現在までに処理したデータベースのレ
コード数と、残りのレコード数から求められる。しか
し、相関ルール生成にはデータベースのレコードとハッ
シュ木とのマッチング操作が実行時間の多くを占めてお
り、その時間は単純にレコード数の残りからでは正確に
求められないことが多い。この実行時間の残りをより正
確に見積もる機能は、従来のデータマイニング方法には
なかった。また、相関ルール抽出の最中に予想を大幅に
越える実行時間を費やしているので、設定を途中で変え
て処理時間を短縮させるという機能も、従来のデータマ
イニング方法にはなかった。
【0051】一方、一度の相関ルール生成処理の実行で
生成される相関ルール数は膨大なものになることが多
い。しかし、その中には同じ品目の集まりから生成され
る相関ルールがいくつも存在し、それが相関ルール数を
増やし、整理を煩雑なものにしている場合が多い。例え
ば、相関ルール「A,B→C」、「A,C→B」という
3つの相関ルールが抽出されたとする。これらは[A,
B,C]という三項の品目セットから得られる相関ルー
ルであるが、長さkの品目セットから生成される可能性
のある相関ルールはk個なので、長いほど、同種の相関
ルールが多く生成されてしまうことになる。従来のデー
タマイニング方法には、これらの相関ルール群より価値
の高いものを選択して残すという機能がなかった。
【0052】図1はこの実施の形態の処理に必要な手段
および生成データを示したシステム図である。表示手段
30は、利用者と相関ルール生成手段20の間、および
利用者とレシートファイル生成手段10の間にあり、入
力されたパラメータ、必要情報のやりとりを行う。
【0053】本実施の形態は、主に、相関ルール抽出の
前処理として、図2の様な表形式のデータベース1を、
相関ルール抽出アルゴリズムに入力するために図3の様
なレシートファイル2に変換する相関ルールの前処理の
支援に関するものである。
【0054】より具体的には、ユーザが指定した離散化
設定によって相関ルール抽出処理を実行した場合、どの
位の実行時間がかかるを予想する手法である。以下、図
4のフローチャートに従ってその予想の手順を説明す
る。
【0055】まず離散化設定ステップ1001について
説明する。相関ルール抽出のためのレシートファイル2
の生成において、身長等の連続値の数値をデータ型とす
る属性については適当な範囲で分割してから品目化する
ことになる。この離散化の設定を実行するために、表示
手段30は図5の様な画面を利用者に表示する。
【0056】図5の画面の左側にあるバーは、設定対象
属性の最小値から最大値までを示したもので、利用者
は、右側の分割数指定によって分割数を指定し、さらに
バー上で分割境界線を自由に動かして離散化のための分
割境界を設定する。設定した分割によってレシートファ
イル2を生成した場合、相関ルール抽出処理にどの位の
時間がかかるか知りたい場合は、ユーザは画面の右下の
「試し」ボタンを選択する。このボタンを選択した後の
動作が図4の離散化試験データファイル生成ステップ1
002以下のステップに相当する。
【0057】離散化試験データファイル生成ステップ1
002では、レシートファイル生成手段10が、データ
ベース1より一部のレコードのみを検索し、指定された
離散化設定によって検索されたレコードをレシート化す
る。検索されるレコード数は、例えば全レコード数の1
/100とすればよい。検索するレコードの選択につい
ては、IDの先頭から順に1/100としても良いし、
任意の位置のレコードを選択しても良い。
【0058】次に、試験データによる相関ルール抽出実
行ステップ1003において、相関ルール抽出手段20
によって前ステップで生成された少数レシートファイル
2からの相関ルール抽出が実行される。この相関ルール
生成では実行にかかった時間が記録され、表示手段30
に渡される。
【0059】次に、実データによる実行時間推定ステッ
プ1004で、表示手段30により、全レコードによる
相関ルール抽出にかかる時間の期待値が求められる。こ
の期待値は、少数レシートファイル2からの相関ルール
抽出時間に100を掛けた値とする。
【0060】最後に、推定実行時間表示ステップ100
5で、表示手段30により、前ステップで求められた実
行時間の離散化の設定を実行するために、表示手段30
は図5の様な画面様に表示される。
【0061】このような手順のデータマイニング方法で
は、ある属性の離散化の指定について、その指定によっ
て生成された少数のレコードから成るレシートファイル
2によって相関ルールを試すので、短時間に実行時間の
期待値を表示することができる。
【0062】実施の形態2.図7はこの発明のデータマ
イニング方法の他の例を示すフローチャートである。処
理に必要な手段および生成データは図1と同様である。
図7において、まず、階層指定ステップ2001につい
て説明する。レシートファイル2生成のためには、図8
の様に属性値に階層が設けられた属性については、その
階層を指定する必要がある。この階層決定を実行するた
めに、表示手段30は図9の様な画面を表示する。図9
の画面の下側は、第1階層から指定階層までを表示する
ものであり、左側の各階層に設けられたボタンを選択す
ると、その階層の直下の階層が展開して表示される。
【0063】指定した階層によってレシートファイル2
を生成すると相関ルール抽出にどの位の時間がかかるか
知りたい場合、ユーザは画面の右下の「試し」ボタンを
選択する。このボタンを選択した後の動作が、階層指定
試験データファイル生成ステップ2002に相当する。
【0064】階層指定試験データファイル生成ステップ
2002では、指定された階層によって少数レシートフ
ァイルを生成する。次に、試験データによる相関ルール
抽出実行ステップ2003で、相関ルール抽出手段20
によって少数レシートファイル2からの相関ルール抽出
が実行される。
【0065】次に、実データによる実行時間推定ステッ
プ2004で、表示手段30により、全レコードより相
関ルール抽出にかかる時間の期待値が求められ、最後に
推定実行時間表示ステップ2005で、求められた期待
値が図6の画面の様に表示される。
【0066】このような手順のデータマイニング方法で
は、ある属性の階層の指定について、その指定によって
生成された少数のレコードから成るレシートファイル2
によって相関ルールを試すので、短時間に実行時間の期
待値を表示することができる。
【0067】実施の形態3.図10はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態において、利用者に表示される画面とその
設定方法は、実施の形態1の場合と同様である。本実施
の形態の実行時間予測までの動作を図10に示す。試験
データによる品目限定相関ルール抽出ステップ300
1、および実データによる実行時間推定ステップ300
2以外は、実施の形態1と同様の動作である。
【0068】離散化設定画面において「試し」ボタンが
選択された場合、離散化試験データファイル生成ステッ
プ1002で、レシートファイル生成手段10が、デー
タベースより全レコードを検索し、取得されたデータを
指定された離散化設定によってレシート化する。
【0069】次に、試験データによる品目限定相関ルー
ル抽出ステップ3001において、相関ルールに含まれ
る品目を離散化設定属性を含めm個のように、いくつか
決定する。この品目については、離散化設定属性以外は
ランダムに決めれば良い。レシートファイル生成手段1
0は、生成したレシートファイル名と、相関ルールに含
まれる品目を相関ルール抽出手段20に渡す。相関ルー
ル抽出手段20はレシートファイル2からの相関ルール
抽出を実行するが、この相関ルール抽出では指定された
品目を全て含む品目セットのみが作成される。
【0070】次に、実データによる実行時間推定ステッ
プ3002で、表示手段30により、全レコードより相
関ルール抽出にかかる時間の期待値が求められる。この
期待値は、試しの相関ルール抽出にかかった時間と2m
の積によって求める。この見積もり方法を採用する理由
は、含まれる品目を指定しない場合の品目セットの可能
な数は、データベース中の全品目数をnとすると2n
1であり、m個の特定の品目を指定した場合の品目セッ
トの可能な数は2n-m−1でありnが大きいとき、この
両者の比は2m:1となることによる。
【0071】最後に、推定実行時間表示ステップ100
5において、前ステップで求められた期待値が図6の様
に表示される。
【0072】このような手順のデータマイニング方法で
は、ある属性の離散化の指定について、その指定によっ
て生成されたレシートファイルから、品目セット中に含
まれる品目を指定し生成される大品目セットを少数にし
てから、相関ルール抽出を試すので、短時間に実行時間
の期待値を表示することができる。
【0073】実施の形態4.図11はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行前のオプ
ション指定に関連するものである。ユーザが相関ルール
抽出に関するパラメータを設定してから、相関ルール抽
出処理が終了するまでの動作を図11に示す。
【0074】まず、パラメータ設定ステップ4001に
おいて、表示手段30が利用者に対して図12の画面を
表示する。この画面において「同種の相関ルールを簡略
化」というオプションが選択された場合(ステップ40
02)、表示手段30はパラメータの他に、同種相関ル
ールの簡略化を行うという条件を相関ルール生成手段2
0に渡す。
【0075】その後の相関ルール生成手段20の動作
が、L1生成ステップ110以下の処理に相当する。こ
こで、確信度による相関ルール検定ステップ4003以
外のステップは、従来技術と同等の動作なので、以下、
このステップにおける動作のみについて説明する。
【0076】確信度による相関ルール検定ステップ40
03では、大品目セットより作られた相関ルールの候補
の各々について確信度を計算し、閾値を越えた場合に候
補を採択するのであるが、同一の品目セットから得られ
る複数の相関ルールの候補について確信度が閾値を越え
た場合、その内の確信度が最も高い候補のみを採択す
る。例えば確信度の閾値が28%で、「A,B→C:確
信度30%」、「B,C→A:確信度35%」、「C,
A→B:確信度25%」なる、大品目セット[A,B,
C]から生成される3つの相関ルールの候補からは、
「B,C→A」のみが採択される。
【0077】このような手順のデータマイニング方法で
は、同じ大品目セットから作られた複数の相関ルール候
補のうち1つの相関ルールのみを採択するので、冗長な
相関ルールを排除し、利用者にとって抽出された相関ル
ール群を見通しやすいものにすることができる。
【0078】実施の形態5.図13はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出処理の実行前の
オプション指定に関連するものである。ユーザが相関ル
ール抽出に関するパラメータを設定してから、相関ルー
ル抽出処理が終了するまでの動作を図13に示す。
【0079】まず、パラメータ設定ステップ5001で
は、表示手段30が利用者に対して図12の画面を表示
する。この画面において「相関ルールの長さ毎に最小支
持度を指定」というオプションを選択して、「発掘」ボ
タンを選択すると(ステップ5002)、最小支持度指
定ステップ5003に移り、表示手段30は、図14の
画面を利用者に表示する。利用者は、この画面から相関
ルールの長さを選択し、その長さ毎に最小支持度を指定
する。OKボタンを選択すると、表示手段30は他のパ
ラメータと共に、相関ルールの長さ毎の最小支持度を相
関ルール生成手段20に渡す。
【0080】以降の相関ルール生成手段30の動作がL
1生成ステップ5003以下に相当する。以下の処理で
は、長さkの大品目セットの生成処理が終了すると、こ
の長さkの大品目セットに関する左辺の品目数がk−1
の相関ルールを生成する。また本手法では、相関ルール
抽出の指標として、品目セット用最小支持度と相関ルー
ル用最小支持度という2つの指標を持つ。前者は大品目
セット生成の際の指標、後者は相関ルール検定の際の指
標である。
【0081】L1生成ステップ5110、Lk生成ステ
ップ5130、相関ルール生成ステップ5150、最小
支持度変更ステップ5004以外のステップの動作は、
実施の形態5の場合と同等の動作なので、以下、このス
テップにおける動作について説明する。
【0082】まず、L1生成ステップ5110について
であるが、ここでは相関ルール用最小支持度を相関ルー
ルの長さ1に対して指定された最小支持度に設定し、品
目セット用最小支持度を相関ルールの長さ毎に指定され
た最小支持度の最小値に設定する。そして、品目セット
用最小支持度を指標として長さ1の大品目セットを生成
する。
【0083】次に、Lk生成ステップ5130では、品
目セット用最小支持度を指標として、長さ1の大品目セ
ットを生成する。相関ルール生成ステップ5150で
は、その支持度が相関ルール用最小支持度を超える大品
目セットのみから相関ルールを生成する。
【0084】相関ルール生成ステップ5150が終了す
ると、対象の大品目セットの長さkの値を一つ増やして
Ck生成ステップ120に戻るのであるが、本実施の形
態では、kの値を増やした後に、最小支持度変更ステッ
プ5004が実行される。
【0085】最小支持度変更ステップ5004では、相
関ルール用最小支持度を相関ルールの長さk+1に対し
て指定された最小支持度に設定し、品目セット用最小支
持度を相関ルールの長さk+1以降に指定された最小支
持度の中の最小値に設定する。そして、品目セット用最
小支持度を指標として長さ1の大品目セットを生成す
る。品目セット用最小支持度が上記の様に設定されるの
は、長さk+2以降の段階で作られる大品目セットは、
長さk+1の大品目セットに品目を追加して生成される
からである。
【0086】このような手順のデータマイニング方法で
は、大品目セットの長さ毎に最小支持度を設定し直すの
で、相関ルールの長さ毎に最小支持度が指定された場合
の相関ルール抽出を効率的に実行することができる。
【0087】実施の形態6.図15はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、相関ルール抽出の実行中に表示され
る、残りの処理時間の見積もりに関連する手法である。
【0088】本実施の形態では、まず、図15の左側の
フローチャートに従って、相関ルールが実行される。こ
の相関ルール抽出処理実行中に、表示手段30は利用者
に対して図16の画面を表示する。図16の画面のうち
「実行中の処理」の部分は、相関ルール抽出手段20の
実行しているステップに応じた処理名が、矩形で囲まれ
る。例えば、Ck生成ステップ6120が実行されてい
る場合、図16の画面では「候補品目セット生成」の文
字列が、また、Lk生成ステップ6130が実行されて
いる場合は「レシートファイル照査」の文字列が矩形で
囲まれる。
【0089】Lk生成ステップ6130が実行されてい
る段階では、図16の画面の左下のプログレスバーに実
行状況が表示され、画面の下部に残りの処理時間の期待
値が表示される。以下、このLk生成ステップの詳細を
図15に従って説明する。
【0090】まず、最初のレコードとハッシュ木のマッ
チングステップ6131においてハッシュ木と、レシー
トファイルの最初のレコードのマッチングが行われ、そ
の実行時間が記憶される。
【0091】次にマッチング処理時間見積もりステップ
6132で、全レコードとのマッチング処理の処理時間
の期待値が求められる。求め方は、大品目セットと最初
にマッチングをとったレシートファイルの長さlの1レ
コードの処理時間をtとし、レシートファイル全体の平
均レコード長をL、レコード数をNとすると、
【0092】
【数2】
【0093】となる。実行状況は、処理済のレコード数
と、未処理のレコード数の比によって求められる。
【0094】次にマッチング処理時間表示ステップ61
33において、前ステップで求められた処理時間の期待
値が図16の様に表示される。最後に残りのレコードと
ハッシュ木のマッチングステップ6134において未処
理のレコードとハッシュ木のマッチングが実行される。
【0095】このような手順のデータマイニング方法で
は、大品目セットとのマッチングを行うレシートファイ
ルのレコード長とレコード数を考慮した実行時間の見積
もりが行われるので、レコード数のみ考慮した場合に比
べて正確に実行時間を見積もることができる。
【0096】実施の形態7.図17はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行中に表示
される、残りの処理に要する時間の見積もりに関連する
ものである。
【0097】本実施の形態では、図17のフローチャー
トに従って、相関ルール抽出処理が実行され、その最中
に、表示手段30は利用者に対して図16の画面を表示
する。Lk生成ステップ7130が実行されている段階
では、図16の画面の左下のプログレスバーに実行状況
が表示され、画面の下部に残りの処理時間の期待値が表
示される。
【0098】以下、Lk生成ステップ7130の詳細に
ついて説明する。最初のレコードとハッシュ木のマッチ
ングステップ7131では、レシートファイルの最初の
10レコードについてハッシュ木とのマッチング処理が
行われ、その実行時間、大品目セットとのヒット率が記
録される。
【0099】次のマッチング処理時間見積もりステップ
7132では、処理時間の期待値は、一レコード当た
り、ディスク読み込みの定数時間(d)、レコード長
(l)、一ノード当たりのマッチング処理時間(t)、
木の高さ(k)、大品目セットのヒット率(レコードに
含まれる長さkの品目セット中の、大品目セットの割合
α)から、
【0100】
【数3】
【0101】として見積もられる。各パラメータの求め
方について説明する。tについては、L2生成時の最初
の10レコードとのマッチングについて、ノードのマッ
チング時に処理時間を測定し、測定値の平均によって求
める。αについては、Lkの各要素の最初の10レコー
ドのヒット率の平均によって求める。dについては、L
2生成時の最初の10レコードとのマッチングについ
て、処理時間を測定し、上記式に他のパラメータを代入
して、
【0102】
【数4】
【0103】として求める。マッチング処理時間表示ス
テップ7133以下は実施の形態6と同様である。この
ような手順のデータマイニング方法では、大品目セット
とのマッチングを行うレシートファイルのレコード長と
レコード数、さらにハッシュ木の1ノード当たりのマッ
チング時間とレコード毎のマッチング処理数を考慮した
実行時間の見積もりが行われるので、レコード数のみ考
慮した場合に比べて正確に実行時間を見積もることがで
きる。
【0104】実施の形態8.図18はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行中に表示
される、残りの処理に要する時間の見積もりに関連する
ものである。
【0105】本実施の形態では、まず、図18の左側の
フローチャートに従って、相関ルール抽出処理が実行さ
れる。この相関ルール実行の最中に、表示手段30は利
用者に対して図16の画面を表示する。相関ルール抽出
手段20による相関ルール抽出の手順、表示方法は実施
の形態6と同様である。Lk生成ステップ8130の詳
細について、図18の右側のフローチャートに従って説
明する。最初のレコードとハッシュ木のマッチングステ
ップ8131からマッチング処理時間見積もりステップ
8132までについては、実施の形態6と同様である。
【0106】次のレコードとハッシュ木のマッチングス
テップ8134では、未処理の1レコードとハッシュ木
のマッチングが行われる。そして全レコードが処理され
ていない場合(ステップ8135)は、この時点でのL
k生成ステップ8130で費やされた処理時間を調べ
(ステップ8136)、それがマッチング処理時間見積
もりステップ8132で見積もられた予想実行時間の1
0倍の時間が経過していないか調べる。経過していない
場合は、次のレコードとハッシュ木のマッチングステッ
プ8134に戻る。
【0107】経過してしまった場合は、処理中止問い合
わせステップ8137に移り、表示手段30は図19の
様な画面を表示し、利用者に対して処理を中断するか否
かを問い合わせる。ここでもし中断が選択されたら、相
関ルール抽出手段20は相関ルール抽出処理自体を中止
する。一方、処理中止指定がなされなかった場合は、次
のレコードとハッシュ木のマッチングステップ8134
に戻る。
【0108】このような手順のデータマイニング方法で
は、Lk生成処理中にユーザに処理中止の問い合わせを
行うので、処理時間が予測時間を大幅に上回った場合の
ユーザによる対処が可能となる。
【0109】実施の形態9.図20はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行中に利用
者からパラメータ変更の指示が出た場合の処理に関する
ものである。
【0110】本実施の形態では、図20に従って、相関
ルールが実行される。この相関ルール抽出処理実行の最
中に、表示手段は利用者に対して図16の画面を表示す
る。この画面上で、「最小支持度変更」ボタンが選択さ
れた場合、相関ルール抽出手段20は相関ルール抽出処
理を中断し、表示手段30は図21の画面を表示する。
この画面上で利用者は最小支持度を変更するが、変更後
の最小支持度は変更前の最小支持度より大きくなければ
ならない。
【0111】最小支持度の変更が行われた場合、相関ル
ール生成ステップ9150の後、既存ハッシュ木の枝刈
りステップ9002が実行される。本ステップではハッ
シュ木中の大品目セットのうち、変更後の最小支持度を
満たさないものが削除される。
【0112】次に、相関ルール抽出処理再起動ステップ
9003において、通常の相関ルール抽出処理のループ
に処理が戻される。
【0113】このような手順のデータマイニング方法で
は、最小支持度が再設定されると、それまでの相関ルー
ル抽出処理を中断して、それまでのデータを変更してか
ら相関ルール抽出処理を再開するので、相関ルール抽出
の実行状況を見ながらのパラメータ変更、変更後の効率
的な処理が可能となる。
【0114】実施の形態10.図22はこの発明のデー
タマイニング方法の他の例を示すフローチャートであ
る。本実施の形態は、主に、相関ルール抽出の実行中に
利用者からパラメータ変更の指示が出た場合の処理に関
するものである。
【0115】本実施の形態では、図22に従って、相関
ルールが実行される。この相関ルール実行の最中に、表
示手段30は利用者に対して図16の画面を表示する。
この画面上で、「最小支持度変更」ボタンが選択された
場合、実施の形態9の場合と同様に、相関ルール抽出手
段20は処理を中断し、表示手段30は図21の画面を
表示する。
【0116】最小支持度が再設定された場合、相関ルー
ル生成ステップ10150の後、変更前の最小支持度と
変更後の最小支持度を比較する(ステップ1000
2)。前者の方が小さい場合の動作は実施の形態9の場
合と同様である。もし前者の方が大きい場合は、それま
で生成されたハッシュ木、相関ルールを破棄し、相関ル
ール抽出処理を初めからやり直す。
【0117】このような手順のデータマイニング方法で
は、最小支持度の途中変更に関して、変更後の最小支持
度が変更前の最小支持度より小さい場合は相関ルール抽
出処理を始めからやり直すので、任意の値への最小支持
度の変更が可能となる。
【0118】実施の形態11.図23はこの発明のデー
タマイニング方法の他の例を示すフローチャートであ
る。本実施の形態は、主に、相関ルール抽出の実行前
に、必要なパラメータを設定する方法に関連するもので
ある。ユーザが相関ルール抽出に関するパラメータを設
定してから、相関ルール抽出処理が終了するまでの動作
を図23に示す。
【0119】まず、パラメータ設定ステップ11001
において、表示手段30が利用者に対して図12の画面
を表示する。ここで「相関ルールの長さ毎に最小支持度
を指定」というオプションが選択された場合(1100
2)、表示手段30はパラメータの他に、品目セット長
ごとに最小支持度を変更するという条件を相関ルール生
成手段20に渡す。
【0120】以降の相関ルール生成手段20の動作がL
1生成ステップ11003以下に相当する。ここでは、
Lk生成ステップ11005が終了すると、この長さk
の大品目セットに関する相関ルールを生成する相関ルー
ル生成ステップ11006が実行される。この相関ルー
ル生成ステップ11006が終了すると、kの値が1つ
増やされ、最小支持度変更指定ステップ11009に移
る。本ステップでは、表示手段30は図24の画面を利
用者に表示する。表示手段は長さkの相関ルール生成で
の処理時間を表示し、利用者に次の長さk+1の相関ル
ール生成処理での最小支持度の入力を促す。この画面上
で設定する最小支持度は、設定前の最小支持度より大き
くなければならない。
【0121】利用者が最小支持度を設定すると、ハッシ
ュ木枝刈りステップ11010において、相関ルール生
成手段20は長さkの時に生成された大品目セットのう
ち、新しく設定された最小支持度を満たさないものを削
除する。そして、長さk+1の大品目セットおよび相関
ルール生成の処理は最小支持度として新しく設定された
値を使う。
【0122】このような手順のデータマイニング方法で
は、一定長の相関ルールの生成処理が終了する毎に最小
支持度を設定し直すので、状況に応じた最小支持度の設
定が可能となる。
【0123】
【発明の効果】この発明に係るデータマイニング方法
は、一つのレコードに品目の集合が並ぶ多数のレコード
から成るデータベースから品目集合間の有効な相関ルー
ルを抽出するデータマイニング方法において、 1)データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成ステ
ップ 2)試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行ステップ 3)相関ルール抽出実行ステップにかかる時間に基づい
て、全データベースからの相関ルール抽出にかかる時間
を推定する実行時間推定ステップ 4)推定された時間を表示する推定実行時間表示ステッ
プを備えている。そのため、実際に全データによる相関
ルール抽出処理を実行してみなくとも、どの位の実行時
間がかかるのかを知ることができる。
【0124】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成ステップ
は、少数レコードに絞り込んだ試験データファイルか
ら、入力された離散化設定値により離散化して試験デー
タファイルを生成する。そのため、数値属性における離
散化処理によって、どの位の実行時間がかかるのかを、
実際に全データによる相関ルール抽出処理を実行してみ
なくとも知ることができる。
【0125】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成ステップは、入力
された階層値に基づいて、試験データファイルを生成す
る。そのため、属性階層を持った属性の階層選択等の前
処理設定によって、どの位の実行時間がかかるのかを、
実際に全データによる相関ルール抽出処理を実行してみ
なくとも知ることができる。
【0126】また、相関ルール抽出実行ステップは、所
定の品目に限定して相関ルール抽出処理を実行する。そ
のため、どの位の実行時間がかかるのかを、実際に全デ
ータによる相関ルール抽出処理を実行してみなくとも知
ることができる。
【0127】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、 1)相関ルール候補生成ステップは、所定の品目に限定
して相関ルールの候補を作り、 2)所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定ステップをさらに備
える。そのため、どの位の実行時間がかかるのかを、実
際に全データによる相関ルール抽出処理を実行してみな
くとも知ることができる。
【0128】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、相関ルール検定ステップは、同じ大品
目セットから生成される相関ルールが複数存在する場
合、相関ルールの確信度がより大きいものを抽出する。
そのため、相関ルール数が膨大とならず、利用者が整理
する際に容易である。
【0129】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、 1)抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定ステップ 2)抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更ステップをさらに備える。その
ため、相関ルールの長さ毎に、最小支持度を指定するこ
とができ、相関ルール抽出を効率的に実行することがで
き相関ルール抽出処理時間が短縮されると共に、相関ル
ール数が膨大とならず、利用者が整理する際に容易であ
る。
【0130】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、大品目セット生成ステップは、 1)レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もりステップ 2) 期待値を表示するマッチング処理時間表示ステッ
プをさらに備える。そのため、レコード数のみ考慮した
場合に比べて正確に実行時間を見積もることができる。
【0131】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。そのため、平均レコード
長×レコード数考慮した実行時間の見積もりが行われる
ので、さらに正確に実行時間を見積もることができる。
【0132】また、期待値は、平期待値の1レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。そのため、さらに正確に実行時間を見積もることが
できる。
【0133】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせステップをさらに備えている。その
ため、処理時間が予測時間を大幅に上回った場合のユー
ザによる対処が可能となる。
【0134】また、他の発明に係るデータマイニング方
法は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成ステップ b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成ステップ c)データ
ベースを検索して長さkの候補品目セットの出現頻度を
集計し、最小支持度を超える候補品目セットのみを残し
長さkの大品目セットを作る大品目セット生成ステップ e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップ f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、 1)一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断するステップ 2)最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈りステップ3)相関
ルール抽出処理を再開する相関ルール抽出処理再起動ス
テップ をさらに備える。そのため、最小支持度が再設定される
と、それまでの相関ルール抽出処理を中断して、それま
でのデータを変更してから相関ルール抽出処理を再開す
るので、相関ルール抽出の実行状況を見ながらのパラメ
ータ変更、変更後の効率的な処理が可能となる。
【0135】また、最小支持度の変更の判断のステップ
において、以前より小さな最小支持度が指定された場
合、相関ルール抽出処理を始めから行うステップさらに
備えている。そのため、最小支持度の途中変更に関し
て、変更後の最小支持度が変更前の最小支持度より小さ
い場合は相関ルール抽出処理を始めからやり直すので、
任意の値への最小支持度の変更が可能となる。
【0136】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。そのため、一定長の
相関ルールの生成処理が終了する毎に最小支持度を設定
し直すので、状況に応じた最小支持度の設定が可能とな
る。
【0137】また、他の発明に係るデータマイニング装
置は、一つのレコードに品目の集合が並ぶ多数のレコー
ドから成るデータベースから品目集合間の有効な相関ル
ールを抽出するデータマイニング装置において、 1)データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成手段 2)試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行手段 3)相関ルール抽出実行手段にかかる時間に基づいて、
全データベースからの相関ルール抽出にかかる時間を推
定する実行時間推定手段 4)推定された時間を表示する推定実行時間表示手段を
備える。そのため、実際に全データによる相関ルール抽
出処理を実行してみなくとも、どの位の実行時間がかか
るのかを知ることができる。
【0138】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成手段は、少
数レコードに絞り込んだ試験データファイルから、入力
された離散化設定値により離散化して試験データファイ
ルを生成する。そのため、数値属性における離散化処理
によって、どの位の実行時間がかかるのかを、実際に全
データによる相関ルール抽出処理を実行してみなくとも
知ることができる。
【0139】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成手段は、入力され
た階層値に基づいて、試験データファイルを生成する。
そのため、属性階層を持った属性の階層選択等の前処理
設定によって、どの位の実行時間がかかるのかを、実際
に全データによる相関ルール抽出処理を実行してみなく
とも知ることができる。
【0140】また、相関ルール抽出実行手段は、所定の
品目に限定して相関ルール抽出処理を実行する。そのた
め、どの位の実行時間がかかるのかを、実際に全データ
による相関ルール抽出処理を実行してみなくとも知るこ
とができる。
【0141】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、 1)相関ルール候補生成手段は、所定の品目に限定して
相関ルールの候補を作り、 2)所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定手段をさらに備え
る。そのため、どの位の実行時間がかかるのかを、実際
に全データによる相関ルール抽出処理を実行してみなく
とも知ることができる。
【0142】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、相関ルール検定手段は、同じ大品目セッ
トから生成される相関ルールが複数存在する場合、相関
ルールの確信度がより大きいものを抽出する。そのた
め、相関ルール数が膨大とならず、利用者が整理する際
に容易である。
【0143】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、 1)抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定手段 2)抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更手段をさらに備える。そのた
め、相関ルールの長さ毎に、最小支持度を指定すること
ができ、相関ルール抽出を効率的に実行することができ
相関ルール抽出処理時間が短縮されると共に、相関ルー
ル数が膨大とならず、利用者が整理する際に容易であ
る。
【0144】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、大品目セット生成手段は、 1)レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もり手段 2) 期待値を表示するマッチング処理時間表示手段を
さらに備える。そのため、レコード数のみ考慮した場合
に比べて正確に実行時間を見積もることができる。
【0145】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。そのため、平均レコード
長×レコード数考慮した実行時間の見積もりが行われる
ので、さらに正確に実行時間を見積もることができる。
【0146】また、期待値は、平期待値の1レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。そのため、さらに正確に実行時間を見積もることが
できる。
【0147】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせ手段をさらに備えている。そのた
め、処理時間が予測時間を大幅に上回った場合のユーザ
による対処が可能となる。
【0148】また、他の発明に係るデータマイニング装
置は、 a)データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ1のハッシュ木を生成す
るハッシュ木生成手段 b)長さk−1の大品目セットのハッシュ木に、長さk
の品目セットを追加すると共に、長さkの大品目セット
の候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さkの大品目セットを作る大品目セット生
成手段 e)長さkの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段 f)相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、 1)一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断する手段 2)最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈り手段 3)相関ル
ール抽出処理を再開する相関ルール抽出処理再起動手段
をさらに備える。そのため、最小支持度の途中変更に関
して、変更後の最小支持度が変更前の最小支持度より小
さい場合は相関ルール抽出処理を始めからやり直すの
で、任意の値への最小支持度の変更が可能となる。
【0149】また、最小支持度の変更の判断の手段にお
いて、以前より小さな最小支持度が指定された場合、相
関ルール抽出処理を始めから行う手段さらに備えてい
る。そのため、最小支持度の途中変更に関して、変更後
の最小支持度が変更前の最小支持度より小さい場合は相
関ルール抽出処理を始めからやり直すので、任意の値へ
の最小支持度の変更が可能となる。
【0150】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。そのため、一定長の
相関ルールの生成処理が終了する毎に最小支持度を設定
し直すので、状況に応じた最小支持度の設定が可能とな
る。
【図面の簡単な説明】
【図1】 この発明の形態の処理に必要な手段および生
成データを示したシステム図である。
【図2】 データベースのデータの形式を示す図であ
る。
【図3】 レシートファイル形式を示す図である。
【図4】 この発明のデータマイニング方法を示すフロ
ーチャートである。
【図5】 離散化の設定を実行するための画面を示す図
である。
【図6】 期待値を表示する画面を示す図である。
【図7】 この発明のデータマイニング方法の他の例を
示すフローチャートである。
【図8】 離散的な属性として属性階層が設定された様
子を示す図である。
【図9】 階層決定を実行するための画面を示す図であ
る。
【図10】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図11】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図12】 相関ルール抽出に関するパラメータ設定を
行う画面を示す図である。
【図13】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図14】 相関ルールの長さ毎に最小支持度を指定す
る画面を示す図である。
【図15】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図16】 データマイニングの状況を表示する画面を
示す図である。
【図17】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図18】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図19】 処理中止問い合わせを行う画面を示す図で
ある。
【図20】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図21】 最小支持度を変更する画面を示す図であ
る。
【図22】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図23】 この発明のデータマイニング方法の他の例
を示すフローチャートである。
【図24】 利用者に次の長さk+1の相関ルール生成
処理での最小支持度の入力を促す画面を示す図である。
【図25】 ハッシュ木の例を示す図である。
【図26】 従来の相関ルール生成の手順示すフローチ
ャートである。
【符号の説明】
1 データベース、2 レシートファイル、3 相関ル
ール集合、10 レシートファイル生成手段、20 相
関ルール生成手段、30 表示手段、1002,200
2 試験データファイル生成ステップ(手段)、100
3,2003,3003 相関ルール抽出実行ステップ
(手段)、1004,2004,3004 実行時間推
定ステップ(手段)、1005 推定実行時間表示ステ
ップ(手段)、4003 確信度によるルール検定ステ
ップ(手段)、5003 最小支持度を指定する最小支
持度指定ステップ(手段)、6132 マッチング処理
時間見積もりステップ(手段)、6113 マッチング
処理時間表示ステップ(手段)、9002 既存ハッシ
ュ木の枝刈りステップ(手段)、9003 相関ルール
抽出処理再起動ステップ(手段)。

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】 一つのレコードに品目の集合が並ぶ多数
    のレコードから成るデータベースから該品目集合間の有
    効な相関ルールを抽出するデータマイニング方法におい
    て、 1)上記データベースから、少数レコードに絞り込んだ
    試験データファイルを生成する試験データファイル生成
    ステップ 2)上記試験データファイルから相関ルール抽出処理を
    実行する相関ルール抽出実行ステップ 3)上記相関ルール抽出実行ステップにかかる時間に基
    づいて、上記全データベースからの相関ルール抽出にか
    かる時間を推定する実行時間推定ステップ 4)推定された時間を表示する推定実行時間表示ステッ
    プを備えることを特徴としたデータマイニング方法。
  2. 【請求項2】 上記データベースは、連続値の数値デー
    タ型の属性を含み、 上記試験データファイル生成ステップは、少数レコード
    に絞り込んだ試験データファイルから、入力された離散
    化設定値により離散化して上記試験データファイルを生
    成することを特徴とした請求項1記載のデータマイニン
    グ方法。
  3. 【請求項3】 上記データベースは、階層構造型をなす
    属性を含み、 上記試験データファイル生成ステップは、入力された階
    層値に基づいて、上記試験データファイルを生成するこ
    とを特徴とした請求項1記載のデータマイニング方法。
  4. 【請求項4】 上記相関ルール抽出実行ステップは、所
    定の品目に限定して相関ルール抽出処理を実行すること
    を特徴とした請求項1乃至3のいずれか記載のデータマ
    イニング方法。
  5. 【請求項5】 a)データベースを検索して頻度が最小
    支持度を超える品目を見つけ出し、該品目の深さ1のハ
    ッシュ木を生成するハッシュ木生成ステップ b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成ステップ e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成ステップ f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定ステッ
    プを備え、多数の品目集合が蓄積されたデータベースか
    ら該品目集合間の有効な相関ルールを抽出するデータマ
    イニング方法において、 1)上記相関ルール候補生成ステップは、所定の品目に
    限定して相関ルールの候補を作り、 2)上記所定の品目に限定してた相関ルールの候補作成
    の時間に基づいて、上記全データベースからの相関ルー
    ル抽出にかかる時間を推定する実行時間推定ステップを
    さらに備えることを特徴としたデータマイニング方法。
  6. 【請求項6】 a)データベースを検索して頻度が最小
    支持度を超える品目を見つけ出し、該品目の深さ1のハ
    ッシュ木を生成するハッシュ木生成ステップ b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成ステップ e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成ステップ f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定ステッ
    プを備え、多数の品目集合が蓄積されたデータベースか
    ら該品目集合間の有効な相関ルールを抽出するデータマ
    イニング方法において、 上記相関ルール検定ステップは、同じ大品目セットから
    生成される相関ルールが複数存在する場合、相関ルール
    の確信度がより大きいものを抽出することを特徴とした
    データマイニング方法。
  7. 【請求項7】 a)データベースを検索して頻度が最小
    支持度を超える品目を見つけ出し、該品目の深さ1のハ
    ッシュ木を生成するハッシュ木生成ステップ b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成ステップ e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成ステップ f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定ステッ
    プを備え、多数の品目集合が蓄積されたデータベースか
    ら該品目集合間の有効な相関ルールを抽出するデータマ
    イニング方法において、 1)抽出する相関ルールの長さ毎に、最小支持度を指定
    する最小支持度指定ステップ 2)抽出する相関ルールの長さ毎に、最小支持度を変更
    する最小支持度指定変更ステップをさらに備えることを
    特徴とするデータマイニング方法。
  8. 【請求項8】 a)データベースを検索して頻度が最小
    支持度を超える品目を見つけ出し、該品目の深さ1のハ
    ッシュ木を生成するハッシュ木生成ステップ b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成ステップ e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成ステップ f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定ステッ
    プを備え、多数の品目集合が蓄積されたデータベースか
    ら該品目集合間の有効な相関ルールを抽出するデータマ
    イニング方法において、上記大品目セット生成ステップ
    は、 1)レシートとのマッチング処理の終了時間の期待値を
    算出するマッチング処理時間見積もりステップ 2) 上記期待値を表示するマッチング処理時間表示ス
    テップをさらに備えることを特徴としたデータマイニン
    グ方法。
  9. 【請求項9】 上記期待値は、 平均レコード長×レコード数に比例して見積もられるこ
    とを特徴とした請求項8記載のデータマイニング方法。
  10. 【請求項10】 上記期待値は、 平期待値の1レコード当たりの、ディスク読み込みの定
    数時間、レコード長、一ノード当たりのマッチング処理
    時間、ハッシュ木の高さ、大品目セットとレコードのヒ
    ット率から見積もられることを特徴とした請求項8記載
    のデータマイニング方法。
  11. 【請求項11】 レシートとのマッチング処理の実処理
    時間が、上記期待値の所定値倍数を超過した場合、その
    旨を利用者に表示し、中止するか否かの問い合わせをす
    る処理中止問い合わせステップをさらに備えたことを特
    徴とした請求項8乃至10のいずれか記載のデータマイ
    ニング方法。
  12. 【請求項12】 a)データベースを検索して頻度が最
    小支持度を超える品目を見つけ出し、該品目の深さ1の
    ハッシュ木を生成するハッシュ木生成ステップ b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成ステップ c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成ステップ e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成ステップ f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定ステッ
    プを備え、多数の品目集合が蓄積されたデータベースか
    ら該品目集合間の有効な相関ルールを抽出するデータマ
    イニング方法において、 1)上記一連の相関ルール抽出処理実行の最中に最小支
    持度が変更されたか判断するステップ 2)上記最小支持度が変更された場合に、以前に生成さ
    れた大品目セットを、新たに設定された最小支持度によ
    って取捨選択する既存ハッシュ木の枝刈りステップ 3)相関ルール抽出処理を再開する相関ルール抽出処理
    再起動ステップをさらに備えることを特徴としたデータ
    マイニング方法。
  13. 【請求項13】 上記最小支持度の変更の判断のステッ
    プにおいて、以前より小さな最小支持度が指定された場
    合、相関ルール抽出処理を始めから行うステップさらに
    備えていることを特徴とする請求項12記載のデータマ
    イニング方法。
  14. 【請求項14】 上記最小支持度の変更は、処理対象の
    大品目セットの長さ毎に指定されることを特徴とする請
    求項12または請求項13記載のデータマイニング方
    法。
  15. 【請求項15】 一つのレコードに品目の集合が並ぶ多
    数のレコードから成るデータベースから該品目集合間の
    有効な相関ルールを抽出するデータマイニング装置にお
    いて、 1)上記データベースから、少数レコードに絞り込んだ
    試験データファイルを生成する試験データファイル生成
    手段 2)上記試験データファイルから相関ルール抽出処理を
    実行する相関ルール抽出実行手段 3)上記相関ルール抽出実行手段にかかる時間に基づい
    て、上記全データベースからの相関ルール抽出にかかる
    時間を推定する実行時間推定手段 4)推定された時間を表示する推定実行時間表示手段を
    備えることを特徴としたデータマイニング装置。
  16. 【請求項16】 上記データベースは、連続値の数値デ
    ータ型の属性を含み、 上記試験データファイル生成手段は、少数レコードに絞
    り込んだ試験データファイルから、入力された離散化設
    定値により離散化して上記試験データファイルを生成す
    ることを特徴とした請求項15記載のデータマイニング
    装置。
  17. 【請求項17】 上記データベースは、階層構造型をな
    す属性を含み、 上記試験データファイル生成手段は、入力された階層値
    に基づいて、上記試験データファイルを生成することを
    特徴とした請求項15記載のデータマイニング装置。
  18. 【請求項18】 上記相関ルール抽出実行手段は、所定
    の品目に限定して相関ルール抽出処理を実行することを
    特徴とした請求項15乃至17のいずれか記載のデータ
    マイニング装置。
  19. 【請求項19】 a)データベースを検索して頻度が最
    小支持度を超える品目を見つけ出し、該品目の深さ1の
    ハッシュ木を生成するハッシュ木生成手段 b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成手段 e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成手段 f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定手段を
    備え、多数の品目集合が蓄積されたデータベースから該
    品目集合間の有効な相関ルールを抽出するデータマイニ
    ング装置において、 1)上記相関ルール候補生成手段は、所定の品目に限定
    して相関ルールの候補を作り、 2)上記所定の品目に限定してた相関ルールの候補作成
    の時間に基づいて、上記全データベースからの相関ルー
    ル抽出にかかる時間を推定する実行時間推定手段をさら
    に備えることを特徴としたデータマイニング装置。
  20. 【請求項20】 a)データベースを検索して頻度が最
    小支持度を超える品目を見つけ出し、該品目の深さ1の
    ハッシュ木を生成するハッシュ木生成手段 b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成手段 e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成手段 f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定手段を
    備え、多数の品目集合が蓄積されたデータベースから該
    品目集合間の有効な相関ルールを抽出するデータマイニ
    ング装置において、 上記相関ルール検定手段は、同じ大品目セットから生成
    される相関ルールが複数存在する場合、相関ルールの確
    信度がより大きいものを抽出することを特徴としたデー
    タマイニング装置。
  21. 【請求項21】 a)データベースを検索して頻度が最
    小支持度を超える品目を見つけ出し、該品目の深さ1の
    ハッシュ木を生成するハッシュ木生成手段 b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成手段 e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成手段 f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定手段を
    備え、多数の品目集合が蓄積されたデータベースから該
    品目集合間の有効な相関ルールを抽出するデータマイニ
    ング装置において、 1)抽出する相関ルールの長さ毎に、最小支持度を指定
    する最小支持度指定手段 2)抽出する相関ルールの長さ毎に、最小支持度を変更
    する最小支持度指定変更手段をさらに備えることを特徴
    とするデータマイニング装置。
  22. 【請求項22】 a)データベースを検索して頻度が最
    小支持度を超える品目を見つけ出し、該品目の深さ1の
    ハッシュ木を生成するハッシュ木生成手段 b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成手段 e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成手段 f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定手段を
    備え、多数の品目集合が蓄積されたデータベースから該
    品目集合間の有効な相関ルールを抽出するデータマイニ
    ング装置において、上記大品目セット生成手段は、 1)レシートとのマッチング処理の終了時間の期待値を
    算出するマッチング処理時間見積もり手段 2) 上記期待値を表示するマッチング処理時間表示手
    段をさらに備えることを特徴としたデータマイニング装
    置。
  23. 【請求項23】 上記期待値は、 平均レコード長×レコード数に比例して見積もられるこ
    とを特徴とした請求項22記載のデータマイニング装
    置。
  24. 【請求項24】 上記期待値は、 平期待値の1レコード当たりの、ディスク読み込みの定
    数時間、レコード長、一ノード当たりのマッチング処理
    時間、ハッシュ木の高さ、大品目セットとレコードのヒ
    ット率から見積もられることを特徴とした請求項22記
    載のデータマイニング装置。
  25. 【請求項25】 レシートとのマッチング処理の実処理
    時間が、上記期待値の所定値倍数を超過した場合、その
    旨を利用者に表示し、中止するか否かの問い合わせをす
    る処理中止問い合わせ手段をさらに備えたことを特徴と
    した請求項22乃至24のいずれか記載のデータマイニ
    ング装置。
  26. 【請求項26】 a)データベースを検索して頻度が最
    小支持度を超える品目を見つけ出し、該品目の深さ1の
    ハッシュ木を生成するハッシュ木生成手段 b)長さk−1の大品目セットの上記ハッシュ木に、長
    さkの品目セットを追加すると共に、長さkの大品目セ
    ットの候補を作る候補品目セット生成手段 c)データベースを検索して長さkの候補品目セットの
    出現頻度を集計し、最小支持度を超える上記候補品目セ
    ットのみを残し長さkの大品目セットを作る大品目セッ
    ト生成手段 e)長さkの大品目セットからなる上記ハッシュ木の各
    大品目セット毎に、該大品目セットに含まれる相関ルー
    ルの候補を作る相関ルール候補生成手段 f)上記相関ルールの候補の各々について、確信度を計
    算し相関ルールの取捨選択を行う相関ルール検定手段を
    備え、多数の品目集合が蓄積されたデータベースから該
    品目集合間の有効な相関ルールを抽出するデータマイニ
    ング装置において、 1)上記一連の相関ルール抽出処理実行の最中に最小支
    持度が変更されたか判断する手段 2)上記最小支持度が変更された場合に、以前に生成さ
    れた大品目セットを、新たに設定された最小支持度によ
    って取捨選択する既存ハッシュ木の枝刈り手段 3)相関ルール抽出処理を再開する相関ルール抽出処理
    再起動手段をさらに備えることを特徴としたデータマイ
    ニング装置。
  27. 【請求項27】 上記最小支持度の変更の判断の手段に
    おいて、以前より小さな最小支持度が指定された場合、
    相関ルール抽出処理を始めから行う手段さらに備えてい
    ることを特徴とする請求項26記載のデータマイニング
    装置。
  28. 【請求項28】 上記最小支持度の変更は、処理対象の
    大品目セットの長さ毎に指定されることを特徴とする請
    求項26または請求項27記載のデータマイニング装
    置。
JP11039925A 1999-02-18 1999-02-18 データマイニング方法およびデータマイニング装置 Abandoned JP2000242651A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11039925A JP2000242651A (ja) 1999-02-18 1999-02-18 データマイニング方法およびデータマイニング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11039925A JP2000242651A (ja) 1999-02-18 1999-02-18 データマイニング方法およびデータマイニング装置

Publications (1)

Publication Number Publication Date
JP2000242651A true JP2000242651A (ja) 2000-09-08

Family

ID=12566522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11039925A Abandoned JP2000242651A (ja) 1999-02-18 1999-02-18 データマイニング方法およびデータマイニング装置

Country Status (1)

Country Link
JP (1) JP2000242651A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189737A (ja) * 2000-12-21 2002-07-05 Toshiba Corp データ分析方法および情報処理装置およびプログラム
JP2005108248A (ja) * 2003-09-11 2005-04-21 Rumiko Matsuoka 医療用知識データベース支援システム
WO2013105636A1 (ja) * 2012-01-12 2013-07-18 日本電気株式会社 ルール発見装置と方法並びにプログラム
WO2014208728A1 (ja) * 2013-06-27 2014-12-31 日本電気株式会社 ルール発見方法と情報処理装置並びにプログラム
JP2015022573A (ja) * 2013-07-19 2015-02-02 富士通株式会社 データ分析プログラム、データ分析装置及びデータ分析方法
JP2016071503A (ja) * 2014-09-29 2016-05-09 株式会社東芝 グラフ表示装置、方法、及びプログラム
WO2023182661A1 (ko) * 2022-03-24 2023-09-28 삼성전자 주식회사 빅데이터를 분석하는 전자 장치 및 그 동작 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189737A (ja) * 2000-12-21 2002-07-05 Toshiba Corp データ分析方法および情報処理装置およびプログラム
JP2005108248A (ja) * 2003-09-11 2005-04-21 Rumiko Matsuoka 医療用知識データベース支援システム
JP4656908B2 (ja) * 2003-09-11 2011-03-23 瑠美子 松岡 医療用知識データベース支援システム
WO2013105636A1 (ja) * 2012-01-12 2013-07-18 日本電気株式会社 ルール発見装置と方法並びにプログラム
WO2014208728A1 (ja) * 2013-06-27 2014-12-31 日本電気株式会社 ルール発見方法と情報処理装置並びにプログラム
JP2015022573A (ja) * 2013-07-19 2015-02-02 富士通株式会社 データ分析プログラム、データ分析装置及びデータ分析方法
JP2016071503A (ja) * 2014-09-29 2016-05-09 株式会社東芝 グラフ表示装置、方法、及びプログラム
WO2023182661A1 (ko) * 2022-03-24 2023-09-28 삼성전자 주식회사 빅데이터를 분석하는 전자 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
US20100121859A1 (en) Workflow management system, workflow management control method, and computer-readable recording medium storing workflow management control program
JPH11338855A (ja) データ分解装置、その方法、及び記録媒体
JP5014398B2 (ja) 検索データ管理装置
JP2006301974A (ja) 製造条件設定システム、製造条件設定方法、制御プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
US20070233532A1 (en) Business process analysis apparatus
JP2018060384A (ja) データ管理システムおよび方法
JP2000242651A (ja) データマイニング方法およびデータマイニング装置
JP6060969B2 (ja) イベント相関検出システム
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
JP5579140B2 (ja) 文書検索装置及び方法及びプログラム
JPH05101107A (ja) 適合率を用いた絞り込みデータ検索装置及び方法
JP2001005705A (ja) 文書情報管理システム
JP5761029B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
JP2728977B2 (ja) 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法
US11328024B2 (en) Data analysis device and data analysis method
JP2006155344A (ja) データ分析装置、データ分析プログラム及びデータ分析方法
JP2010244187A (ja) 文書検索システムおよび方法
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP5949764B2 (ja) 構成管理装置、構成管理方法、及び構成管理プログラムを記憶するプログラム記録媒体
JP3460171B2 (ja) データ検索方法
TWI820597B (zh) 計畫製定輔助系統及其方法
JP5764448B2 (ja) 文書ランキングスコアの動的更新のための方法および装置
JP4786358B2 (ja) ジョブ実行時間見積システム、ジョブ実行時間見積方法、およびジョブ実行時間見積プログラム
JP2004152175A (ja) 時系列データ検索装置、時系列データ検索方法、プログラム及び記録媒体
JP6167531B2 (ja) 領域検索方法、領域インデックス構築方法および領域検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20060406