JP2000242651A

JP2000242651A - データマイニング方法およびデータマイニング装置

Info

Publication number: JP2000242651A
Application number: JP11039925A
Authority: JP
Inventors: Yasushi Obata; 康小幡; Akisumi Mitsuishi; 彰純三石
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-02-18
Filing date: 1999-02-18
Publication date: 2000-09-08

Abstract

(57)【要約】【課題】相関ルール抽出処理時間を事前に知ることが
でき、相関ルール数が膨大とならず、相関ルール生成の
実行時間の期待値を見積もることができるデータマイニ
ング方法を得る。【解決手段】１）データベース１から、少数レコード
に絞り込んだ試験データファイルを生成する試験データ
ファイル生成ステップ１００２２）試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行ステップ１００３３）相関ルール抽出実行ステップにかかる時間に基づい
て、全データベースからの相関ルール抽出にかかる時間
を推定する実行時間推定ステップ１００４４）推定された時間を表示する推定実行時間表示ステッ
プ１００５を備えている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータ処理システム
に関し、特にデータベース中の相関規則を発見するデー
タマイニング処理において、前処理の支援、相関ルール
抽出のパラメータ指定、実行状況の表示方法、および制
御方法に関するものである。

【０００２】

【従来の技術】一つのレコードに品目の集合が並ぶデー
タベースからの相関ルール抽出の手法としては、R.Agra
walらによるAprioriと呼ばれるものがあり、文献「Fast
Algorithms for Mining Association Rules」(Proc. o
f 20th VLDB, 1994)特開平８−２８７１０６号公報に詳
述されている。ここでは相関ルール抽出は支持度と確信
度の２つの指標を基準としていた。例えば、Ａ，Ｂ，・・・，Ｘ→Ｙという相関ルールの場合、Ａ，Ｂ，…，Ｘ，Ｙの全てを
含むレコードの数がこの相関ルールの支持度、Ａ，Ｂ，
…，Ｘを含むレコードの中での、さらにＹも含むレコー
ドの割合を確信度と呼ぶ。

【０００３】そして、この手法においては二つの指標が
あらかじめ設定された各々の下限値（最小支持度、最小
確信度）を超える相関ルールを抽出していた。この手法
では、支持度の高い（最小支持度を超える）品目の組
（大品目セット）をハッシュ木と呼ばれるデータ構造に
よって管理している。

【０００４】図２５にハッシュ木の例を示す。図２５に
おいて、各ノードが品目セットを表しており、それはｒ
ｏｏｔからそのノードに至るまで経由したノードの番号
の品目からなる品目セットに相当する。例えば、ｒｏｏ
ｔからノード番号１、ノード番号３を経て辿り着く番号
５を持ったノードは、１、３、５の３つの品目からなる
品目セットを表す。ハッシュ木では品目セットは品目数
の少ない品目セットの枝から徐々にノードを追加して、
より多くの品目から成る大品目セットを生成していく。

【０００５】従来の相関ルール生成の手順を、図２６に
示すフローチャートによって説明する。最初のステップ
であるユーザ入力１００では、利用者から最小支持度、
最小確信度を入力させて獲得する。次のステップのＬ１
生成１１０では、データベース中のレコードを一つずつ
取り出して、そのレコード中に出現する品目について、
カウント数（支持度）を増やす。初めて出現する品目に
ついては、そのカウントの領域を新たに設ける。そし
て、全てのレコードについて数え上げが終了すると、最
終的な集計値が最小支持度を超えた品目について、ハッ
シュ木に登録される。

【０００６】以下の説明において、Ｌｋは長さｋの大品
目セット、Ｃｋは長さｋの候補品目セットを表す。大品
目セットＬｋは、データベースにおける出現頻度が最小
支持度を超える品目の組み合わせであり、候補品目セッ
トＣｋは、その候補となる品目の組み合わせである。ま
た、品目セットの長さｋとは、組み合わせ中の品目の数
のことである。

【０００７】次のステップのＣｋ生成１２０では、長さ
ｋ−１の大品目セットＬｋ−１から候補品目セットＣｋ
が生成される。初期状態ではｋ＝２であり、Ｌ１からＣ
２が生成される。

【０００８】Ｃｋ生成１２０の後は、Ｌｋ生成１３０の
ステップが行われる。ここではデータベースのレコード
が一件ずつ取り出され、その中に存在するＣｋ中のｋ項
組みのカウントを増やす操作が行われ、最終的に最小支
持度を超えたｋ項組みのみを残す。

【０００９】Ｌｋ生成１３０のステップでＬｋの要素と
なるｋ項組みが一つも生成されなかった場合は、相関ル
ール候補生成１５０のステップに進み、そうでない場合
はｋの値を一つ増やし、Ｃｋ生成１２０に戻る。

【００１０】相関ルール候補生成１５０では、それまで
のステップで作成された大品目セットＬｋより相関ルー
ルの候補が作られる。Ｌｋ中のあるｋ項組みからは、右
辺にその中の一つの品目、左辺に残りのｋ−１個の品目
がくる計ｋ個の相関ルール候補が生成される。これが、
２以上の全てのＬｋのｋ項組みについて成される。

【００１１】相関ルール検証１６０では、各相関ルール
候補の確信度が計算され、それが最小確信度を上回る場
合には相関ルール集合に追加される。またここで、相関
ルール候補のの確信度（confidence）は、品目セットの
支持度をとすると、

【００１２】

【数１】

【００１３】と計算される。

【００１４】

【発明が解決しようとする課題】このような手法の従来
技術においては、相関ルール抽出処理にどの位の実行時
間がかかるのかを知るためには、実際に処理を実行して
みるしかなかった。また、同じ品目セットから得られる
相関ルールが複数抽出される可能性があるために、相関
ルール数が膨大となり、利用者が整理しづらいという問
題があった。また、従来の手法では、相関ルール抽出処
理のパラメータの指定方法について、相関ルールの長
さ、大品目セットの長さ毎の最小支持度等のパラメータ
を指定する手法がなかった。さらに、相関ルール生成の
実行中に表示する残りの実行時間の期待値を正確に見積
もる手法がなかった。

【００１５】この発明は、上記のような課題を解決する
ためになされたもので、相関ルール抽出処理にどの位の
実行時間がかかるのか、実際に処理を実行してみる前に
知ることができ、相関ルール数が膨大とならず、相関ル
ール生成の実行時間の期待値を正確に見積もることがで
きるデータマイニング方法およびデータマイニング装置
を得ることを目的とする。

【００１６】

【課題を解決するための手段】この発明に係るデータマ
イニング方法は、一つのレコードに品目の集合が並ぶ多
数のレコードから成るデータベースから品目集合間の有
効な相関ルールを抽出するデータマイニング方法におい
て、１）データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成ステ
ップ２）試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行ステップ３）相関ルール抽出実行ステップにかかる時間に基づい
て、全データベースからの相関ルール抽出にかかる時間
を推定する実行時間推定ステップ４）推定された時間を表示する推定実行時間表示ステッ
プを備えている。

【００１７】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成ステップ
は、少数レコードに絞り込んだ試験データファイルか
ら、入力された離散化設定値により離散化して試験デー
タファイルを生成する。

【００１８】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成ステップは、入力
された階層値に基づいて、試験データファイルを生成す
る。

【００１９】また、相関ルール抽出実行ステップは、所
定の品目に限定して相関ルール抽出処理を実行する。

【００２０】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、１）相関ルール候補生成ステップは、所定の品目に限定
して相関ルールの候補を作り、２）所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定ステップをさらに備
える。

【００２１】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、相関ルール検定ステップは、同じ大品
目セットから生成される相関ルールが複数存在する場
合、相関ルールの確信度がより大きいものを抽出する。

【００２２】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、１）抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定ステップ２）抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更ステップをさらに備える。

【００２３】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、大品目セット生成ステップは、１）レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もりステップ２）期待値を表示するマッチング処理時間表示ステッ
プをさらに備える。

【００２４】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。

【００２５】また、期待値は、平期待値の１レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。

【００２６】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせステップをさらに備えている。

【００２７】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データ
ベースを検索して長さｋの候補品目セットの出現頻度を
集計し、最小支持度を超える候補品目セットのみを残し
長さｋの大品目セットを作る大品目セット生成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、１）一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断するステップ２）最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈りステップ３）相関ルール抽出処理を再開する相関ルール抽出処理
再起動ステップをさらに備える。

【００２８】また、最小支持度の変更の判断のステップ
において、以前より小さな最小支持度が指定された場
合、相関ルール抽出処理を始めから行うステップさらに
備えている。

【００２９】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。

【００３０】また、他の発明に係るデータマイニング装
置は、一つのレコードに品目の集合が並ぶ多数のレコー
ドから成るデータベースから品目集合間の有効な相関ル
ールを抽出するデータマイニング装置において、１）データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成手段２）試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行手段３）相関ルール抽出実行手段にかかる時間に基づいて、
全データベースからの相関ルール抽出にかかる時間を推
定する実行時間推定手段４）推定された時間を表示する推定実行時間表示手段を
備える。

【００３１】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成手段は、少
数レコードに絞り込んだ試験データファイルから、入力
された離散化設定値により離散化して試験データファイ
ルを生成する。

【００３２】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成手段は、入力され
た階層値に基づいて、試験データファイルを生成する。

【００３３】また、相関ルール抽出実行手段は、所定の
品目に限定して相関ルール抽出処理を実行する。

【００３４】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、１）相関ルール候補生成手段は、所定の品目に限定して
相関ルールの候補を作り、２）所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定手段をさらに備え
る。

【００３５】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、相関ルール検定手段は、同じ大品目セッ
トから生成される相関ルールが複数存在する場合、相関
ルールの確信度がより大きいものを抽出する。

【００３６】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、１）抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定手段２）抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更手段をさらに備える。

【００３７】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、大品目セット生成手段は、１）レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もり手段２）期待値を表示するマッチング処理時間表示手段を
さらに備える。

【００３８】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。

【００３９】また、期待値は、平期待値の１レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。

【００４０】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせ手段をさらに備えている。

【００４１】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、１）一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断する手段２）最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈り手段３）相関ル
ール抽出処理を再開する相関ルール抽出処理再起動手段
をさらに備える。

【００４２】また、最小支持度の変更の判断の手段にお
いて、以前より小さな最小支持度が指定された場合、相
関ルール抽出処理を始めから行う手段さらに備えてい
る。

【００４３】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。

【００４４】

【発明の実施の形態】実施の形態１．図１はこの発明の
形態の処理に必要な手段および生成データを示したシス
テム図である。図２はこの実施の形態のデータベースの
データの形式を示す図である。図３はこの実施の形態の
レシートファイル形式を示す図である。

【００４５】本実施の形態に先立つ技術として以下の手
法がある。すなわち、図２６に示す従来の手法の相関ル
ール検定１６０のステップにおいて、確信度ではなく、
χ２値を用いて相関ルールの取捨選択の判定を行う手法
である。

【００４６】この手法においては、相関ルール抽出の対
象として、各レコードに任意数の品目が存在するデータ
を前提としている。従って、図２の様な表形式のデータ
ベースから相関ルールを抽出する場合、まず、各属性の
属性値毎に品目を割り当てる必要がある。この品目の割
当てのやり方によって、抽出される相関ルールの数、実
行時間は異なってくる。

【００４７】ここで身長、体重といった連続数値による
属性を考えてみると、ある範囲内の数値を同一の品目と
して変換するという処理が必要となる。これは、例えば
身長の場合、１５０ｃｍ以下であるならば「身長小」、
１５０ｃｍ〜１８０ｃｍを「身長中」、１８０ｃｍ以上
を「身長大」という品目で置き換える処理である。この
分割については、最大値と最小値の範囲を等分割する方
法、利用者が分割範囲を自由に決定する方法等がある。

【００４８】また、離散的な属性においても、属性値の
多い場合、いくつかの属性値をグループ化することも考
えられる。例えば、「一日の喫煙本数」という属性で、
図８の様な属性階層が設定されているとすると、１２本
という値の場合、第一階層を選択すると「１１〜１３
本」、第二階層を選択すると「多」、第三階層を選択す
ると「要注意」という品目に置き換えられる。この階層
の選択については、利用者がグループ化を実施したい属
性について、階層を指定するという方法がある。

【００４９】以上の離散化、属性値のグループ化におい
て、利用者による設定が行われる場合について考える。
しかし、相関ルール生成には膨大な時間がかかる場合も
多く、設定の選択肢が多数ある場合、その一つ一つにつ
いて相関ルール生成を実行することは現実的ではない。
ある設定において、相関ルール生成にかかる実行時間の
期待値や、抽出される相関ルールの概観等が短時間で得
られると、より設定が行いやすくなると考えられるが、
従来の手法には、その様な機能がなかった。

【００５０】また、相関ルール抽出は非常に負荷の高い
処理であるので、その実行中に、「あとどの位の時間を
要するのか」という残りの実行時間の期待値を表示する
機能は有用である。これを従来の手法で実行しようとす
るならば、実行時間はデータベースのレコード数に比例
するものとして、現在までに処理したデータベースのレ
コード数と、残りのレコード数から求められる。しか
し、相関ルール生成にはデータベースのレコードとハッ
シュ木とのマッチング操作が実行時間の多くを占めてお
り、その時間は単純にレコード数の残りからでは正確に
求められないことが多い。この実行時間の残りをより正
確に見積もる機能は、従来のデータマイニング方法には
なかった。また、相関ルール抽出の最中に予想を大幅に
越える実行時間を費やしているので、設定を途中で変え
て処理時間を短縮させるという機能も、従来のデータマ
イニング方法にはなかった。

【００５１】一方、一度の相関ルール生成処理の実行で
生成される相関ルール数は膨大なものになることが多
い。しかし、その中には同じ品目の集まりから生成され
る相関ルールがいくつも存在し、それが相関ルール数を
増やし、整理を煩雑なものにしている場合が多い。例え
ば、相関ルール「Ａ，Ｂ→Ｃ」、「Ａ，Ｃ→Ｂ」という
３つの相関ルールが抽出されたとする。これらは［Ａ，
Ｂ，Ｃ］という三項の品目セットから得られる相関ルー
ルであるが、長さｋの品目セットから生成される可能性
のある相関ルールはｋ個なので、長いほど、同種の相関
ルールが多く生成されてしまうことになる。従来のデー
タマイニング方法には、これらの相関ルール群より価値
の高いものを選択して残すという機能がなかった。

【００５２】図１はこの実施の形態の処理に必要な手段
および生成データを示したシステム図である。表示手段
３０は、利用者と相関ルール生成手段２０の間、および
利用者とレシートファイル生成手段１０の間にあり、入
力されたパラメータ、必要情報のやりとりを行う。

【００５３】本実施の形態は、主に、相関ルール抽出の
前処理として、図２の様な表形式のデータベース１を、
相関ルール抽出アルゴリズムに入力するために図３の様
なレシートファイル２に変換する相関ルールの前処理の
支援に関するものである。

【００５４】より具体的には、ユーザが指定した離散化
設定によって相関ルール抽出処理を実行した場合、どの
位の実行時間がかかるを予想する手法である。以下、図
４のフローチャートに従ってその予想の手順を説明す
る。

【００５５】まず離散化設定ステップ１００１について
説明する。相関ルール抽出のためのレシートファイル２
の生成において、身長等の連続値の数値をデータ型とす
る属性については適当な範囲で分割してから品目化する
ことになる。この離散化の設定を実行するために、表示
手段３０は図５の様な画面を利用者に表示する。

【００５６】図５の画面の左側にあるバーは、設定対象
属性の最小値から最大値までを示したもので、利用者
は、右側の分割数指定によって分割数を指定し、さらに
バー上で分割境界線を自由に動かして離散化のための分
割境界を設定する。設定した分割によってレシートファ
イル２を生成した場合、相関ルール抽出処理にどの位の
時間がかかるか知りたい場合は、ユーザは画面の右下の
「試し」ボタンを選択する。このボタンを選択した後の
動作が図４の離散化試験データファイル生成ステップ１
００２以下のステップに相当する。

【００５７】離散化試験データファイル生成ステップ１
００２では、レシートファイル生成手段１０が、データ
ベース１より一部のレコードのみを検索し、指定された
離散化設定によって検索されたレコードをレシート化す
る。検索されるレコード数は、例えば全レコード数の１
／１００とすればよい。検索するレコードの選択につい
ては、ＩＤの先頭から順に１／１００としても良いし、
任意の位置のレコードを選択しても良い。

【００５８】次に、試験データによる相関ルール抽出実
行ステップ１００３において、相関ルール抽出手段２０
によって前ステップで生成された少数レシートファイル
２からの相関ルール抽出が実行される。この相関ルール
生成では実行にかかった時間が記録され、表示手段３０
に渡される。

【００５９】次に、実データによる実行時間推定ステッ
プ１００４で、表示手段３０により、全レコードによる
相関ルール抽出にかかる時間の期待値が求められる。こ
の期待値は、少数レシートファイル２からの相関ルール
抽出時間に１００を掛けた値とする。

【００６０】最後に、推定実行時間表示ステップ１００
５で、表示手段３０により、前ステップで求められた実
行時間の離散化の設定を実行するために、表示手段３０
は図５の様な画面様に表示される。

【００６１】このような手順のデータマイニング方法で
は、ある属性の離散化の指定について、その指定によっ
て生成された少数のレコードから成るレシートファイル
２によって相関ルールを試すので、短時間に実行時間の
期待値を表示することができる。

【００６２】実施の形態２．図７はこの発明のデータマ
イニング方法の他の例を示すフローチャートである。処
理に必要な手段および生成データは図１と同様である。
図７において、まず、階層指定ステップ２００１につい
て説明する。レシートファイル２生成のためには、図８
の様に属性値に階層が設けられた属性については、その
階層を指定する必要がある。この階層決定を実行するた
めに、表示手段３０は図９の様な画面を表示する。図９
の画面の下側は、第１階層から指定階層までを表示する
ものであり、左側の各階層に設けられたボタンを選択す
ると、その階層の直下の階層が展開して表示される。

【００６３】指定した階層によってレシートファイル２
を生成すると相関ルール抽出にどの位の時間がかかるか
知りたい場合、ユーザは画面の右下の「試し」ボタンを
選択する。このボタンを選択した後の動作が、階層指定
試験データファイル生成ステップ２００２に相当する。

【００６４】階層指定試験データファイル生成ステップ
２００２では、指定された階層によって少数レシートフ
ァイルを生成する。次に、試験データによる相関ルール
抽出実行ステップ２００３で、相関ルール抽出手段２０
によって少数レシートファイル２からの相関ルール抽出
が実行される。

【００６５】次に、実データによる実行時間推定ステッ
プ２００４で、表示手段３０により、全レコードより相
関ルール抽出にかかる時間の期待値が求められ、最後に
推定実行時間表示ステップ２００５で、求められた期待
値が図６の画面の様に表示される。

【００６６】このような手順のデータマイニング方法で
は、ある属性の階層の指定について、その指定によって
生成された少数のレコードから成るレシートファイル２
によって相関ルールを試すので、短時間に実行時間の期
待値を表示することができる。

【００６７】実施の形態３．図１０はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態において、利用者に表示される画面とその
設定方法は、実施の形態１の場合と同様である。本実施
の形態の実行時間予測までの動作を図１０に示す。試験
データによる品目限定相関ルール抽出ステップ３００
１、および実データによる実行時間推定ステップ３００
２以外は、実施の形態１と同様の動作である。

【００６８】離散化設定画面において「試し」ボタンが
選択された場合、離散化試験データファイル生成ステッ
プ１００２で、レシートファイル生成手段１０が、デー
タベースより全レコードを検索し、取得されたデータを
指定された離散化設定によってレシート化する。

【００６９】次に、試験データによる品目限定相関ルー
ル抽出ステップ３００１において、相関ルールに含まれ
る品目を離散化設定属性を含めｍ個のように、いくつか
決定する。この品目については、離散化設定属性以外は
ランダムに決めれば良い。レシートファイル生成手段１
０は、生成したレシートファイル名と、相関ルールに含
まれる品目を相関ルール抽出手段２０に渡す。相関ルー
ル抽出手段２０はレシートファイル２からの相関ルール
抽出を実行するが、この相関ルール抽出では指定された
品目を全て含む品目セットのみが作成される。

【００７０】次に、実データによる実行時間推定ステッ
プ３００２で、表示手段３０により、全レコードより相
関ルール抽出にかかる時間の期待値が求められる。この
期待値は、試しの相関ルール抽出にかかった時間と２^m
の積によって求める。この見積もり方法を採用する理由
は、含まれる品目を指定しない場合の品目セットの可能
な数は、データベース中の全品目数をｎとすると２ⁿ−
１であり、ｍ個の特定の品目を指定した場合の品目セッ
トの可能な数は２^n-m−１でありｎが大きいとき、この
両者の比は２^m：１となることによる。

【００７１】最後に、推定実行時間表示ステップ１００
５において、前ステップで求められた期待値が図６の様
に表示される。

【００７２】このような手順のデータマイニング方法で
は、ある属性の離散化の指定について、その指定によっ
て生成されたレシートファイルから、品目セット中に含
まれる品目を指定し生成される大品目セットを少数にし
てから、相関ルール抽出を試すので、短時間に実行時間
の期待値を表示することができる。

【００７３】実施の形態４．図１１はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行前のオプ
ション指定に関連するものである。ユーザが相関ルール
抽出に関するパラメータを設定してから、相関ルール抽
出処理が終了するまでの動作を図１１に示す。

【００７４】まず、パラメータ設定ステップ４００１に
おいて、表示手段３０が利用者に対して図１２の画面を
表示する。この画面において「同種の相関ルールを簡略
化」というオプションが選択された場合（ステップ４０
０２）、表示手段３０はパラメータの他に、同種相関ル
ールの簡略化を行うという条件を相関ルール生成手段２
０に渡す。

【００７５】その後の相関ルール生成手段２０の動作
が、Ｌ１生成ステップ１１０以下の処理に相当する。こ
こで、確信度による相関ルール検定ステップ４００３以
外のステップは、従来技術と同等の動作なので、以下、
このステップにおける動作のみについて説明する。

【００７６】確信度による相関ルール検定ステップ４０
０３では、大品目セットより作られた相関ルールの候補
の各々について確信度を計算し、閾値を越えた場合に候
補を採択するのであるが、同一の品目セットから得られ
る複数の相関ルールの候補について確信度が閾値を越え
た場合、その内の確信度が最も高い候補のみを採択す
る。例えば確信度の閾値が２８％で、「Ａ，Ｂ→Ｃ：確
信度３０％」、「Ｂ，Ｃ→Ａ：確信度３５％」、「Ｃ，
Ａ→Ｂ：確信度２５％」なる、大品目セット［Ａ，Ｂ，
Ｃ］から生成される３つの相関ルールの候補からは、
「Ｂ，Ｃ→Ａ」のみが採択される。

【００７７】このような手順のデータマイニング方法で
は、同じ大品目セットから作られた複数の相関ルール候
補のうち１つの相関ルールのみを採択するので、冗長な
相関ルールを排除し、利用者にとって抽出された相関ル
ール群を見通しやすいものにすることができる。

【００７８】実施の形態５．図１３はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出処理の実行前の
オプション指定に関連するものである。ユーザが相関ル
ール抽出に関するパラメータを設定してから、相関ルー
ル抽出処理が終了するまでの動作を図１３に示す。

【００７９】まず、パラメータ設定ステップ５００１で
は、表示手段３０が利用者に対して図１２の画面を表示
する。この画面において「相関ルールの長さ毎に最小支
持度を指定」というオプションを選択して、「発掘」ボ
タンを選択すると（ステップ５００２）、最小支持度指
定ステップ５００３に移り、表示手段３０は、図１４の
画面を利用者に表示する。利用者は、この画面から相関
ルールの長さを選択し、その長さ毎に最小支持度を指定
する。ＯＫボタンを選択すると、表示手段３０は他のパ
ラメータと共に、相関ルールの長さ毎の最小支持度を相
関ルール生成手段２０に渡す。

【００８０】以降の相関ルール生成手段３０の動作がＬ
１生成ステップ５００３以下に相当する。以下の処理で
は、長さｋの大品目セットの生成処理が終了すると、こ
の長さｋの大品目セットに関する左辺の品目数がｋ−１
の相関ルールを生成する。また本手法では、相関ルール
抽出の指標として、品目セット用最小支持度と相関ルー
ル用最小支持度という２つの指標を持つ。前者は大品目
セット生成の際の指標、後者は相関ルール検定の際の指
標である。

【００８１】Ｌ１生成ステップ５１１０、Ｌｋ生成ステ
ップ５１３０、相関ルール生成ステップ５１５０、最小
支持度変更ステップ５００４以外のステップの動作は、
実施の形態５の場合と同等の動作なので、以下、このス
テップにおける動作について説明する。

【００８２】まず、Ｌ１生成ステップ５１１０について
であるが、ここでは相関ルール用最小支持度を相関ルー
ルの長さ１に対して指定された最小支持度に設定し、品
目セット用最小支持度を相関ルールの長さ毎に指定され
た最小支持度の最小値に設定する。そして、品目セット
用最小支持度を指標として長さ１の大品目セットを生成
する。

【００８３】次に、Ｌｋ生成ステップ５１３０では、品
目セット用最小支持度を指標として、長さ１の大品目セ
ットを生成する。相関ルール生成ステップ５１５０で
は、その支持度が相関ルール用最小支持度を超える大品
目セットのみから相関ルールを生成する。

【００８４】相関ルール生成ステップ５１５０が終了す
ると、対象の大品目セットの長さｋの値を一つ増やして
Ｃｋ生成ステップ１２０に戻るのであるが、本実施の形
態では、ｋの値を増やした後に、最小支持度変更ステッ
プ５００４が実行される。

【００８５】最小支持度変更ステップ５００４では、相
関ルール用最小支持度を相関ルールの長さｋ＋１に対し
て指定された最小支持度に設定し、品目セット用最小支
持度を相関ルールの長さｋ＋１以降に指定された最小支
持度の中の最小値に設定する。そして、品目セット用最
小支持度を指標として長さ１の大品目セットを生成す
る。品目セット用最小支持度が上記の様に設定されるの
は、長さｋ＋２以降の段階で作られる大品目セットは、
長さｋ＋１の大品目セットに品目を追加して生成される
からである。

【００８６】このような手順のデータマイニング方法で
は、大品目セットの長さ毎に最小支持度を設定し直すの
で、相関ルールの長さ毎に最小支持度が指定された場合
の相関ルール抽出を効率的に実行することができる。

【００８７】実施の形態６．図１５はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、相関ルール抽出の実行中に表示され
る、残りの処理時間の見積もりに関連する手法である。

【００８８】本実施の形態では、まず、図１５の左側の
フローチャートに従って、相関ルールが実行される。こ
の相関ルール抽出処理実行中に、表示手段３０は利用者
に対して図１６の画面を表示する。図１６の画面のうち
「実行中の処理」の部分は、相関ルール抽出手段２０の
実行しているステップに応じた処理名が、矩形で囲まれ
る。例えば、Ｃｋ生成ステップ６１２０が実行されてい
る場合、図１６の画面では「候補品目セット生成」の文
字列が、また、Ｌｋ生成ステップ６１３０が実行されて
いる場合は「レシートファイル照査」の文字列が矩形で
囲まれる。

【００８９】Ｌｋ生成ステップ６１３０が実行されてい
る段階では、図１６の画面の左下のプログレスバーに実
行状況が表示され、画面の下部に残りの処理時間の期待
値が表示される。以下、このＬｋ生成ステップの詳細を
図１５に従って説明する。

【００９０】まず、最初のレコードとハッシュ木のマッ
チングステップ６１３１においてハッシュ木と、レシー
トファイルの最初のレコードのマッチングが行われ、そ
の実行時間が記憶される。

【００９１】次にマッチング処理時間見積もりステップ
６１３２で、全レコードとのマッチング処理の処理時間
の期待値が求められる。求め方は、大品目セットと最初
にマッチングをとったレシートファイルの長さｌの１レ
コードの処理時間をｔとし、レシートファイル全体の平
均レコード長をＬ、レコード数をＮとすると、

【００９２】

【数２】

【００９３】となる。実行状況は、処理済のレコード数
と、未処理のレコード数の比によって求められる。

【００９４】次にマッチング処理時間表示ステップ６１
３３において、前ステップで求められた処理時間の期待
値が図１６の様に表示される。最後に残りのレコードと
ハッシュ木のマッチングステップ６１３４において未処
理のレコードとハッシュ木のマッチングが実行される。

【００９５】このような手順のデータマイニング方法で
は、大品目セットとのマッチングを行うレシートファイ
ルのレコード長とレコード数を考慮した実行時間の見積
もりが行われるので、レコード数のみ考慮した場合に比
べて正確に実行時間を見積もることができる。

【００９６】実施の形態７．図１７はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行中に表示
される、残りの処理に要する時間の見積もりに関連する
ものである。

【００９７】本実施の形態では、図１７のフローチャー
トに従って、相関ルール抽出処理が実行され、その最中
に、表示手段３０は利用者に対して図１６の画面を表示
する。Ｌｋ生成ステップ７１３０が実行されている段階
では、図１６の画面の左下のプログレスバーに実行状況
が表示され、画面の下部に残りの処理時間の期待値が表
示される。

【００９８】以下、Ｌｋ生成ステップ７１３０の詳細に
ついて説明する。最初のレコードとハッシュ木のマッチ
ングステップ７１３１では、レシートファイルの最初の
１０レコードについてハッシュ木とのマッチング処理が
行われ、その実行時間、大品目セットとのヒット率が記
録される。

【００９９】次のマッチング処理時間見積もりステップ
７１３２では、処理時間の期待値は、一レコード当た
り、ディスク読み込みの定数時間（ｄ）、レコード長
（ｌ）、一ノード当たりのマッチング処理時間（ｔ）、
木の高さ（ｋ）、大品目セットのヒット率（レコードに
含まれる長さｋの品目セット中の、大品目セットの割合
α）から、

【０１００】

【数３】

【０１０１】として見積もられる。各パラメータの求め
方について説明する。ｔについては、Ｌ２生成時の最初
の１０レコードとのマッチングについて、ノードのマッ
チング時に処理時間を測定し、測定値の平均によって求
める。αについては、Ｌｋの各要素の最初の１０レコー
ドのヒット率の平均によって求める。ｄについては、Ｌ
２生成時の最初の１０レコードとのマッチングについ
て、処理時間を測定し、上記式に他のパラメータを代入
して、

【０１０２】

【数４】

【０１０３】として求める。マッチング処理時間表示ス
テップ７１３３以下は実施の形態６と同様である。この
ような手順のデータマイニング方法では、大品目セット
とのマッチングを行うレシートファイルのレコード長と
レコード数、さらにハッシュ木の１ノード当たりのマッ
チング時間とレコード毎のマッチング処理数を考慮した
実行時間の見積もりが行われるので、レコード数のみ考
慮した場合に比べて正確に実行時間を見積もることがで
きる。

【０１０４】実施の形態８．図１８はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行中に表示
される、残りの処理に要する時間の見積もりに関連する
ものである。

【０１０５】本実施の形態では、まず、図１８の左側の
フローチャートに従って、相関ルール抽出処理が実行さ
れる。この相関ルール実行の最中に、表示手段３０は利
用者に対して図１６の画面を表示する。相関ルール抽出
手段２０による相関ルール抽出の手順、表示方法は実施
の形態６と同様である。Ｌｋ生成ステップ８１３０の詳
細について、図１８の右側のフローチャートに従って説
明する。最初のレコードとハッシュ木のマッチングステ
ップ８１３１からマッチング処理時間見積もりステップ
８１３２までについては、実施の形態６と同様である。

【０１０６】次のレコードとハッシュ木のマッチングス
テップ８１３４では、未処理の１レコードとハッシュ木
のマッチングが行われる。そして全レコードが処理され
ていない場合（ステップ８１３５）は、この時点でのＬ
ｋ生成ステップ８１３０で費やされた処理時間を調べ
（ステップ８１３６）、それがマッチング処理時間見積
もりステップ８１３２で見積もられた予想実行時間の１
０倍の時間が経過していないか調べる。経過していない
場合は、次のレコードとハッシュ木のマッチングステッ
プ８１３４に戻る。

【０１０７】経過してしまった場合は、処理中止問い合
わせステップ８１３７に移り、表示手段３０は図１９の
様な画面を表示し、利用者に対して処理を中断するか否
かを問い合わせる。ここでもし中断が選択されたら、相
関ルール抽出手段２０は相関ルール抽出処理自体を中止
する。一方、処理中止指定がなされなかった場合は、次
のレコードとハッシュ木のマッチングステップ８１３４
に戻る。

【０１０８】このような手順のデータマイニング方法で
は、Ｌｋ生成処理中にユーザに処理中止の問い合わせを
行うので、処理時間が予測時間を大幅に上回った場合の
ユーザによる対処が可能となる。

【０１０９】実施の形態９．図２０はこの発明のデータ
マイニング方法の他の例を示すフローチャートである。
本実施の形態は、主に、相関ルール抽出の実行中に利用
者からパラメータ変更の指示が出た場合の処理に関する
ものである。

【０１１０】本実施の形態では、図２０に従って、相関
ルールが実行される。この相関ルール抽出処理実行の最
中に、表示手段は利用者に対して図１６の画面を表示す
る。この画面上で、「最小支持度変更」ボタンが選択さ
れた場合、相関ルール抽出手段２０は相関ルール抽出処
理を中断し、表示手段３０は図２１の画面を表示する。
この画面上で利用者は最小支持度を変更するが、変更後
の最小支持度は変更前の最小支持度より大きくなければ
ならない。

【０１１１】最小支持度の変更が行われた場合、相関ル
ール生成ステップ９１５０の後、既存ハッシュ木の枝刈
りステップ９００２が実行される。本ステップではハッ
シュ木中の大品目セットのうち、変更後の最小支持度を
満たさないものが削除される。

【０１１２】次に、相関ルール抽出処理再起動ステップ
９００３において、通常の相関ルール抽出処理のループ
に処理が戻される。

【０１１３】このような手順のデータマイニング方法で
は、最小支持度が再設定されると、それまでの相関ルー
ル抽出処理を中断して、それまでのデータを変更してか
ら相関ルール抽出処理を再開するので、相関ルール抽出
の実行状況を見ながらのパラメータ変更、変更後の効率
的な処理が可能となる。

【０１１４】実施の形態１０．図２２はこの発明のデー
タマイニング方法の他の例を示すフローチャートであ
る。本実施の形態は、主に、相関ルール抽出の実行中に
利用者からパラメータ変更の指示が出た場合の処理に関
するものである。

【０１１５】本実施の形態では、図２２に従って、相関
ルールが実行される。この相関ルール実行の最中に、表
示手段３０は利用者に対して図１６の画面を表示する。
この画面上で、「最小支持度変更」ボタンが選択された
場合、実施の形態９の場合と同様に、相関ルール抽出手
段２０は処理を中断し、表示手段３０は図２１の画面を
表示する。

【０１１６】最小支持度が再設定された場合、相関ルー
ル生成ステップ１０１５０の後、変更前の最小支持度と
変更後の最小支持度を比較する（ステップ１０００
２）。前者の方が小さい場合の動作は実施の形態９の場
合と同様である。もし前者の方が大きい場合は、それま
で生成されたハッシュ木、相関ルールを破棄し、相関ル
ール抽出処理を初めからやり直す。

【０１１７】このような手順のデータマイニング方法で
は、最小支持度の途中変更に関して、変更後の最小支持
度が変更前の最小支持度より小さい場合は相関ルール抽
出処理を始めからやり直すので、任意の値への最小支持
度の変更が可能となる。

【０１１８】実施の形態１１．図２３はこの発明のデー
タマイニング方法の他の例を示すフローチャートであ
る。本実施の形態は、主に、相関ルール抽出の実行前
に、必要なパラメータを設定する方法に関連するもので
ある。ユーザが相関ルール抽出に関するパラメータを設
定してから、相関ルール抽出処理が終了するまでの動作
を図２３に示す。

【０１１９】まず、パラメータ設定ステップ１１００１
において、表示手段３０が利用者に対して図１２の画面
を表示する。ここで「相関ルールの長さ毎に最小支持度
を指定」というオプションが選択された場合（１１００
２）、表示手段３０はパラメータの他に、品目セット長
ごとに最小支持度を変更するという条件を相関ルール生
成手段２０に渡す。

【０１２０】以降の相関ルール生成手段２０の動作がＬ
１生成ステップ１１００３以下に相当する。ここでは、
Ｌｋ生成ステップ１１００５が終了すると、この長さｋ
の大品目セットに関する相関ルールを生成する相関ルー
ル生成ステップ１１００６が実行される。この相関ルー
ル生成ステップ１１００６が終了すると、ｋの値が１つ
増やされ、最小支持度変更指定ステップ１１００９に移
る。本ステップでは、表示手段３０は図２４の画面を利
用者に表示する。表示手段は長さｋの相関ルール生成で
の処理時間を表示し、利用者に次の長さｋ＋１の相関ル
ール生成処理での最小支持度の入力を促す。この画面上
で設定する最小支持度は、設定前の最小支持度より大き
くなければならない。

【０１２１】利用者が最小支持度を設定すると、ハッシ
ュ木枝刈りステップ１１０１０において、相関ルール生
成手段２０は長さｋの時に生成された大品目セットのう
ち、新しく設定された最小支持度を満たさないものを削
除する。そして、長さｋ＋１の大品目セットおよび相関
ルール生成の処理は最小支持度として新しく設定された
値を使う。

【０１２２】このような手順のデータマイニング方法で
は、一定長の相関ルールの生成処理が終了する毎に最小
支持度を設定し直すので、状況に応じた最小支持度の設
定が可能となる。

【０１２３】

【発明の効果】この発明に係るデータマイニング方法
は、一つのレコードに品目の集合が並ぶ多数のレコード
から成るデータベースから品目集合間の有効な相関ルー
ルを抽出するデータマイニング方法において、１）データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成ステ
ップ２）試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行ステップ３）相関ルール抽出実行ステップにかかる時間に基づい
て、全データベースからの相関ルール抽出にかかる時間
を推定する実行時間推定ステップ４）推定された時間を表示する推定実行時間表示ステッ
プを備えている。そのため、実際に全データによる相関
ルール抽出処理を実行してみなくとも、どの位の実行時
間がかかるのかを知ることができる。

【０１２４】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成ステップ
は、少数レコードに絞り込んだ試験データファイルか
ら、入力された離散化設定値により離散化して試験デー
タファイルを生成する。そのため、数値属性における離
散化処理によって、どの位の実行時間がかかるのかを、
実際に全データによる相関ルール抽出処理を実行してみ
なくとも知ることができる。

【０１２５】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成ステップは、入力
された階層値に基づいて、試験データファイルを生成す
る。そのため、属性階層を持った属性の階層選択等の前
処理設定によって、どの位の実行時間がかかるのかを、
実際に全データによる相関ルール抽出処理を実行してみ
なくとも知ることができる。

【０１２６】また、相関ルール抽出実行ステップは、所
定の品目に限定して相関ルール抽出処理を実行する。そ
のため、どの位の実行時間がかかるのかを、実際に全デ
ータによる相関ルール抽出処理を実行してみなくとも知
ることができる。

【０１２７】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、１）相関ルール候補生成ステップは、所定の品目に限定
して相関ルールの候補を作り、２）所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定ステップをさらに備
える。そのため、どの位の実行時間がかかるのかを、実
際に全データによる相関ルール抽出処理を実行してみな
くとも知ることができる。

【０１２８】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、相関ルール検定ステップは、同じ大品
目セットから生成される相関ルールが複数存在する場
合、相関ルールの確信度がより大きいものを抽出する。
そのため、相関ルール数が膨大とならず、利用者が整理
する際に容易である。

【０１２９】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、１）抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定ステップ２）抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更ステップをさらに備える。その
ため、相関ルールの長さ毎に、最小支持度を指定するこ
とができ、相関ルール抽出を効率的に実行することがで
き相関ルール抽出処理時間が短縮されると共に、相関ル
ール数が膨大とならず、利用者が整理する際に容易であ
る。

【０１３０】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、大品目セット生成ステップは、１）レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もりステップ２）期待値を表示するマッチング処理時間表示ステッ
プをさらに備える。そのため、レコード数のみ考慮した
場合に比べて正確に実行時間を見積もることができる。

【０１３１】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。そのため、平均レコード
長×レコード数考慮した実行時間の見積もりが行われる
ので、さらに正確に実行時間を見積もることができる。

【０１３２】また、期待値は、平期待値の１レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。そのため、さらに正確に実行時間を見積もることが
できる。

【０１３３】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせステップをさらに備えている。その
ため、処理時間が予測時間を大幅に上回った場合のユー
ザによる対処が可能となる。

【０１３４】また、他の発明に係るデータマイニング方
法は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成ステップｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成ステップｃ）データ
ベースを検索して長さｋの候補品目セットの出現頻度を
集計し、最小支持度を超える候補品目セットのみを残し
長さｋの大品目セットを作る大品目セット生成ステップｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成ステップｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定ステップを
備え、多数の品目集合が蓄積されたデータベースから品
目集合間の有効な相関ルールを抽出するデータマイニン
グ方法において、１）一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断するステップ２）最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈りステップ３）相関
ルール抽出処理を再開する相関ルール抽出処理再起動ス
テップをさらに備える。そのため、最小支持度が再設定される
と、それまでの相関ルール抽出処理を中断して、それま
でのデータを変更してから相関ルール抽出処理を再開す
るので、相関ルール抽出の実行状況を見ながらのパラメ
ータ変更、変更後の効率的な処理が可能となる。

【０１３５】また、最小支持度の変更の判断のステップ
において、以前より小さな最小支持度が指定された場
合、相関ルール抽出処理を始めから行うステップさらに
備えている。そのため、最小支持度の途中変更に関し
て、変更後の最小支持度が変更前の最小支持度より小さ
い場合は相関ルール抽出処理を始めからやり直すので、
任意の値への最小支持度の変更が可能となる。

【０１３６】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。そのため、一定長の
相関ルールの生成処理が終了する毎に最小支持度を設定
し直すので、状況に応じた最小支持度の設定が可能とな
る。

【０１３７】また、他の発明に係るデータマイニング装
置は、一つのレコードに品目の集合が並ぶ多数のレコー
ドから成るデータベースから品目集合間の有効な相関ル
ールを抽出するデータマイニング装置において、１）データベースから、少数レコードに絞り込んだ試験
データファイルを生成する試験データファイル生成手段２）試験データファイルから相関ルール抽出処理を実行
する相関ルール抽出実行手段３）相関ルール抽出実行手段にかかる時間に基づいて、
全データベースからの相関ルール抽出にかかる時間を推
定する実行時間推定手段４）推定された時間を表示する推定実行時間表示手段を
備える。そのため、実際に全データによる相関ルール抽
出処理を実行してみなくとも、どの位の実行時間がかか
るのかを知ることができる。

【０１３８】また、データベースは、連続値の数値デー
タ型の属性を含み、試験データファイル生成手段は、少
数レコードに絞り込んだ試験データファイルから、入力
された離散化設定値により離散化して試験データファイ
ルを生成する。そのため、数値属性における離散化処理
によって、どの位の実行時間がかかるのかを、実際に全
データによる相関ルール抽出処理を実行してみなくとも
知ることができる。

【０１３９】また、データベースは、階層構造型をなす
属性を含み、試験データファイル生成手段は、入力され
た階層値に基づいて、試験データファイルを生成する。
そのため、属性階層を持った属性の階層選択等の前処理
設定によって、どの位の実行時間がかかるのかを、実際
に全データによる相関ルール抽出処理を実行してみなく
とも知ることができる。

【０１４０】また、相関ルール抽出実行手段は、所定の
品目に限定して相関ルール抽出処理を実行する。そのた
め、どの位の実行時間がかかるのかを、実際に全データ
による相関ルール抽出処理を実行してみなくとも知るこ
とができる。

【０１４１】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、１）相関ルール候補生成手段は、所定の品目に限定して
相関ルールの候補を作り、２）所定の品目に限定してた相関ルールの候補作成の時
間に基づいて、全データベースからの相関ルール抽出に
かかる時間を推定する実行時間推定手段をさらに備え
る。そのため、どの位の実行時間がかかるのかを、実際
に全データによる相関ルール抽出処理を実行してみなく
とも知ることができる。

【０１４２】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、相関ルール検定手段は、同じ大品目セッ
トから生成される相関ルールが複数存在する場合、相関
ルールの確信度がより大きいものを抽出する。そのた
め、相関ルール数が膨大とならず、利用者が整理する際
に容易である。

【０１４３】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、１）抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定手段２）抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更手段をさらに備える。そのた
め、相関ルールの長さ毎に、最小支持度を指定すること
ができ、相関ルール抽出を効率的に実行することができ
相関ルール抽出処理時間が短縮されると共に、相関ルー
ル数が膨大とならず、利用者が整理する際に容易であ
る。

【０１４４】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、大品目セット生成手段は、１）レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もり手段２）期待値を表示するマッチング処理時間表示手段を
さらに備える。そのため、レコード数のみ考慮した場合
に比べて正確に実行時間を見積もることができる。

【０１４５】また、期待値は、平均レコード長×レコー
ド数に比例して見積もられる。そのため、平均レコード
長×レコード数考慮した実行時間の見積もりが行われる
ので、さらに正確に実行時間を見積もることができる。

【０１４６】また、期待値は、平期待値の１レコード当
たりの、ディスク読み込みの定数時間、レコード長、一
ノード当たりのマッチング処理時間、ハッシュ木の高
さ、大品目セットとレコードのヒット率から見積もられ
る。そのため、さらに正確に実行時間を見積もることが
できる。

【０１４７】また、レシートとのマッチング処理の実処
理時間が、期待値の所定値倍数を超過した場合、その旨
を利用者に表示し、中止するか否かの問い合わせをする
処理中止問い合わせ手段をさらに備えている。そのた
め、処理時間が予測時間を大幅に上回った場合のユーザ
による対処が可能となる。

【０１４８】また、他の発明に係るデータマイニング装
置は、ａ）データベースを検索して頻度が最小支持度を超える
品目を見つけ出し、品目の深さ１のハッシュ木を生成す
るハッシュ木生成手段ｂ）長さｋ−１の大品目セットのハッシュ木に、長さｋ
の品目セットを追加すると共に、長さｋの大品目セット
の候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える候補品目セット
のみを残し長さｋの大品目セットを作る大品目セット生
成手段ｅ）長さｋの大品目セットからなるハッシュ木の各大品
目セット毎に、大品目セットに含まれる相関ルールの候
補を作る相関ルール候補生成手段ｆ）相関ルールの候補の各々について、確信度を計算し
相関ルールの取捨選択を行う相関ルール検定手段を備
え、多数の品目集合が蓄積されたデータベースから品目
集合間の有効な相関ルールを抽出するデータマイニング
装置において、１）一連の相関ルール抽出処理実行の最中に最小支持度
が変更されたか判断する手段２）最小支持度が変更された場合に、以前に生成された
大品目セットを、新たに設定された最小支持度によって
取捨選択する既存ハッシュ木の枝刈り手段３）相関ル
ール抽出処理を再開する相関ルール抽出処理再起動手段
をさらに備える。そのため、最小支持度の途中変更に関
して、変更後の最小支持度が変更前の最小支持度より小
さい場合は相関ルール抽出処理を始めからやり直すの
で、任意の値への最小支持度の変更が可能となる。

【０１４９】また、最小支持度の変更の判断の手段にお
いて、以前より小さな最小支持度が指定された場合、相
関ルール抽出処理を始めから行う手段さらに備えてい
る。そのため、最小支持度の途中変更に関して、変更後
の最小支持度が変更前の最小支持度より小さい場合は相
関ルール抽出処理を始めからやり直すので、任意の値へ
の最小支持度の変更が可能となる。

【０１５０】また、最小支持度の変更は、処理対象の大
品目セットの長さ毎に指定される。そのため、一定長の
相関ルールの生成処理が終了する毎に最小支持度を設定
し直すので、状況に応じた最小支持度の設定が可能とな
る。

【図面の簡単な説明】

【図１】この発明の形態の処理に必要な手段および生
成データを示したシステム図である。

【図２】データベースのデータの形式を示す図であ
る。

【図３】レシートファイル形式を示す図である。

【図４】この発明のデータマイニング方法を示すフロ
ーチャートである。

【図５】離散化の設定を実行するための画面を示す図
である。

【図６】期待値を表示する画面を示す図である。

【図７】この発明のデータマイニング方法の他の例を
示すフローチャートである。

【図８】離散的な属性として属性階層が設定された様
子を示す図である。

【図９】階層決定を実行するための画面を示す図であ
る。

【図１０】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図１１】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図１２】相関ルール抽出に関するパラメータ設定を
行う画面を示す図である。

【図１３】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図１４】相関ルールの長さ毎に最小支持度を指定す
る画面を示す図である。

【図１５】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図１６】データマイニングの状況を表示する画面を
示す図である。

【図１７】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図１８】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図１９】処理中止問い合わせを行う画面を示す図で
ある。

【図２０】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図２１】最小支持度を変更する画面を示す図であ
る。

【図２２】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図２３】この発明のデータマイニング方法の他の例
を示すフローチャートである。

【図２４】利用者に次の長さｋ＋１の相関ルール生成
処理での最小支持度の入力を促す画面を示す図である。

【図２５】ハッシュ木の例を示す図である。

【図２６】従来の相関ルール生成の手順示すフローチ
ャートである。

【符号の説明】

１データベース、２レシートファイル、３相関ル
ール集合、１０レシートファイル生成手段、２０相
関ルール生成手段、３０表示手段、１００２，２００
２試験データファイル生成ステップ（手段）、１００
３，２００３，３００３相関ルール抽出実行ステップ
（手段）、１００４，２００４，３００４実行時間推
定ステップ（手段）、１００５推定実行時間表示ステ
ップ（手段）、４００３確信度によるルール検定ステ
ップ（手段）、５００３最小支持度を指定する最小支
持度指定ステップ（手段）、６１３２マッチング処理
時間見積もりステップ（手段）、６１１３マッチング
処理時間表示ステップ（手段）、９００２既存ハッシ
ュ木の枝刈りステップ（手段）、９００３相関ルール
抽出処理再起動ステップ（手段）。

Claims

【特許請求の範囲】

【請求項１】一つのレコードに品目の集合が並ぶ多数
のレコードから成るデータベースから該品目集合間の有
効な相関ルールを抽出するデータマイニング方法におい
て、１）上記データベースから、少数レコードに絞り込んだ
試験データファイルを生成する試験データファイル生成
ステップ２）上記試験データファイルから相関ルール抽出処理を
実行する相関ルール抽出実行ステップ３）上記相関ルール抽出実行ステップにかかる時間に基
づいて、上記全データベースからの相関ルール抽出にか
かる時間を推定する実行時間推定ステップ４）推定された時間を表示する推定実行時間表示ステッ
プを備えることを特徴としたデータマイニング方法。
【請求項２】上記データベースは、連続値の数値デー
タ型の属性を含み、上記試験データファイル生成ステップは、少数レコード
に絞り込んだ試験データファイルから、入力された離散
化設定値により離散化して上記試験データファイルを生
成することを特徴とした請求項１記載のデータマイニン
グ方法。
【請求項３】上記データベースは、階層構造型をなす
属性を含み、上記試験データファイル生成ステップは、入力された階
層値に基づいて、上記試験データファイルを生成するこ
とを特徴とした請求項１記載のデータマイニング方法。
【請求項４】上記相関ルール抽出実行ステップは、所
定の品目に限定して相関ルール抽出処理を実行すること
を特徴とした請求項１乃至３のいずれか記載のデータマ
イニング方法。
【請求項５】ａ）データベースを検索して頻度が最小
支持度を超える品目を見つけ出し、該品目の深さ１のハ
ッシュ木を生成するハッシュ木生成ステップｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成ステップｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成ステップｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定ステッ
プを備え、多数の品目集合が蓄積されたデータベースか
ら該品目集合間の有効な相関ルールを抽出するデータマ
イニング方法において、１）上記相関ルール候補生成ステップは、所定の品目に
限定して相関ルールの候補を作り、２）上記所定の品目に限定してた相関ルールの候補作成
の時間に基づいて、上記全データベースからの相関ルー
ル抽出にかかる時間を推定する実行時間推定ステップを
さらに備えることを特徴としたデータマイニング方法。
【請求項６】ａ）データベースを検索して頻度が最小
支持度を超える品目を見つけ出し、該品目の深さ１のハ
ッシュ木を生成するハッシュ木生成ステップｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成ステップｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成ステップｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定ステッ
プを備え、多数の品目集合が蓄積されたデータベースか
ら該品目集合間の有効な相関ルールを抽出するデータマ
イニング方法において、上記相関ルール検定ステップは、同じ大品目セットから
生成される相関ルールが複数存在する場合、相関ルール
の確信度がより大きいものを抽出することを特徴とした
データマイニング方法。
【請求項７】ａ）データベースを検索して頻度が最小
支持度を超える品目を見つけ出し、該品目の深さ１のハ
ッシュ木を生成するハッシュ木生成ステップｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成ステップｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成ステップｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定ステッ
プを備え、多数の品目集合が蓄積されたデータベースか
ら該品目集合間の有効な相関ルールを抽出するデータマ
イニング方法において、１）抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定ステップ２）抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更ステップをさらに備えることを
特徴とするデータマイニング方法。
【請求項８】ａ）データベースを検索して頻度が最小
支持度を超える品目を見つけ出し、該品目の深さ１のハ
ッシュ木を生成するハッシュ木生成ステップｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成ステップｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成ステップｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定ステッ
プを備え、多数の品目集合が蓄積されたデータベースか
ら該品目集合間の有効な相関ルールを抽出するデータマ
イニング方法において、上記大品目セット生成ステップ
は、１）レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もりステップ２）上記期待値を表示するマッチング処理時間表示ス
テップをさらに備えることを特徴としたデータマイニン
グ方法。
【請求項９】上記期待値は、平均レコード長×レコード数に比例して見積もられるこ
とを特徴とした請求項８記載のデータマイニング方法。
【請求項１０】上記期待値は、平期待値の１レコード当たりの、ディスク読み込みの定
数時間、レコード長、一ノード当たりのマッチング処理
時間、ハッシュ木の高さ、大品目セットとレコードのヒ
ット率から見積もられることを特徴とした請求項８記載
のデータマイニング方法。
【請求項１１】レシートとのマッチング処理の実処理
時間が、上記期待値の所定値倍数を超過した場合、その
旨を利用者に表示し、中止するか否かの問い合わせをす
る処理中止問い合わせステップをさらに備えたことを特
徴とした請求項８乃至１０のいずれか記載のデータマイ
ニング方法。
【請求項１２】ａ）データベースを検索して頻度が最
小支持度を超える品目を見つけ出し、該品目の深さ１の
ハッシュ木を生成するハッシュ木生成ステップｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成ステップｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成ステップｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成ステップｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定ステッ
プを備え、多数の品目集合が蓄積されたデータベースか
ら該品目集合間の有効な相関ルールを抽出するデータマ
イニング方法において、１）上記一連の相関ルール抽出処理実行の最中に最小支
持度が変更されたか判断するステップ２）上記最小支持度が変更された場合に、以前に生成さ
れた大品目セットを、新たに設定された最小支持度によ
って取捨選択する既存ハッシュ木の枝刈りステップ３）相関ルール抽出処理を再開する相関ルール抽出処理
再起動ステップをさらに備えることを特徴としたデータ
マイニング方法。
【請求項１３】上記最小支持度の変更の判断のステッ
プにおいて、以前より小さな最小支持度が指定された場
合、相関ルール抽出処理を始めから行うステップさらに
備えていることを特徴とする請求項１２記載のデータマ
イニング方法。
【請求項１４】上記最小支持度の変更は、処理対象の
大品目セットの長さ毎に指定されることを特徴とする請
求項１２または請求項１３記載のデータマイニング方
法。
【請求項１５】一つのレコードに品目の集合が並ぶ多
数のレコードから成るデータベースから該品目集合間の
有効な相関ルールを抽出するデータマイニング装置にお
いて、１）上記データベースから、少数レコードに絞り込んだ
試験データファイルを生成する試験データファイル生成
手段２）上記試験データファイルから相関ルール抽出処理を
実行する相関ルール抽出実行手段３）上記相関ルール抽出実行手段にかかる時間に基づい
て、上記全データベースからの相関ルール抽出にかかる
時間を推定する実行時間推定手段４）推定された時間を表示する推定実行時間表示手段を
備えることを特徴としたデータマイニング装置。
【請求項１６】上記データベースは、連続値の数値デ
ータ型の属性を含み、上記試験データファイル生成手段は、少数レコードに絞
り込んだ試験データファイルから、入力された離散化設
定値により離散化して上記試験データファイルを生成す
ることを特徴とした請求項１５記載のデータマイニング
装置。
【請求項１７】上記データベースは、階層構造型をな
す属性を含み、上記試験データファイル生成手段は、入力された階層値
に基づいて、上記試験データファイルを生成することを
特徴とした請求項１５記載のデータマイニング装置。
【請求項１８】上記相関ルール抽出実行手段は、所定
の品目に限定して相関ルール抽出処理を実行することを
特徴とした請求項１５乃至１７のいずれか記載のデータ
マイニング装置。
【請求項１９】ａ）データベースを検索して頻度が最
小支持度を超える品目を見つけ出し、該品目の深さ１の
ハッシュ木を生成するハッシュ木生成手段ｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成手段ｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成手段ｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定手段を
備え、多数の品目集合が蓄積されたデータベースから該
品目集合間の有効な相関ルールを抽出するデータマイニ
ング装置において、１）上記相関ルール候補生成手段は、所定の品目に限定
して相関ルールの候補を作り、２）上記所定の品目に限定してた相関ルールの候補作成
の時間に基づいて、上記全データベースからの相関ルー
ル抽出にかかる時間を推定する実行時間推定手段をさら
に備えることを特徴としたデータマイニング装置。
【請求項２０】ａ）データベースを検索して頻度が最
小支持度を超える品目を見つけ出し、該品目の深さ１の
ハッシュ木を生成するハッシュ木生成手段ｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成手段ｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成手段ｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定手段を
備え、多数の品目集合が蓄積されたデータベースから該
品目集合間の有効な相関ルールを抽出するデータマイニ
ング装置において、上記相関ルール検定手段は、同じ大品目セットから生成
される相関ルールが複数存在する場合、相関ルールの確
信度がより大きいものを抽出することを特徴としたデー
タマイニング装置。
【請求項２１】ａ）データベースを検索して頻度が最
小支持度を超える品目を見つけ出し、該品目の深さ１の
ハッシュ木を生成するハッシュ木生成手段ｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成手段ｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成手段ｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定手段を
備え、多数の品目集合が蓄積されたデータベースから該
品目集合間の有効な相関ルールを抽出するデータマイニ
ング装置において、１）抽出する相関ルールの長さ毎に、最小支持度を指定
する最小支持度指定手段２）抽出する相関ルールの長さ毎に、最小支持度を変更
する最小支持度指定変更手段をさらに備えることを特徴
とするデータマイニング装置。
【請求項２２】ａ）データベースを検索して頻度が最
小支持度を超える品目を見つけ出し、該品目の深さ１の
ハッシュ木を生成するハッシュ木生成手段ｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成手段ｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成手段ｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定手段を
備え、多数の品目集合が蓄積されたデータベースから該
品目集合間の有効な相関ルールを抽出するデータマイニ
ング装置において、上記大品目セット生成手段は、１）レシートとのマッチング処理の終了時間の期待値を
算出するマッチング処理時間見積もり手段２）上記期待値を表示するマッチング処理時間表示手
段をさらに備えることを特徴としたデータマイニング装
置。
【請求項２３】上記期待値は、平均レコード長×レコード数に比例して見積もられるこ
とを特徴とした請求項２２記載のデータマイニング装
置。
【請求項２４】上記期待値は、平期待値の１レコード当たりの、ディスク読み込みの定
数時間、レコード長、一ノード当たりのマッチング処理
時間、ハッシュ木の高さ、大品目セットとレコードのヒ
ット率から見積もられることを特徴とした請求項２２記
載のデータマイニング装置。
【請求項２５】レシートとのマッチング処理の実処理
時間が、上記期待値の所定値倍数を超過した場合、その
旨を利用者に表示し、中止するか否かの問い合わせをす
る処理中止問い合わせ手段をさらに備えたことを特徴と
した請求項２２乃至２４のいずれか記載のデータマイニ
ング装置。
【請求項２６】ａ）データベースを検索して頻度が最
小支持度を超える品目を見つけ出し、該品目の深さ１の
ハッシュ木を生成するハッシュ木生成手段ｂ）長さｋ−１の大品目セットの上記ハッシュ木に、長
さｋの品目セットを追加すると共に、長さｋの大品目セ
ットの候補を作る候補品目セット生成手段ｃ）データベースを検索して長さｋの候補品目セットの
出現頻度を集計し、最小支持度を超える上記候補品目セ
ットのみを残し長さｋの大品目セットを作る大品目セッ
ト生成手段ｅ）長さｋの大品目セットからなる上記ハッシュ木の各
大品目セット毎に、該大品目セットに含まれる相関ルー
ルの候補を作る相関ルール候補生成手段ｆ）上記相関ルールの候補の各々について、確信度を計
算し相関ルールの取捨選択を行う相関ルール検定手段を
備え、多数の品目集合が蓄積されたデータベースから該
品目集合間の有効な相関ルールを抽出するデータマイニ
ング装置において、１）上記一連の相関ルール抽出処理実行の最中に最小支
持度が変更されたか判断する手段２）上記最小支持度が変更された場合に、以前に生成さ
れた大品目セットを、新たに設定された最小支持度によ
って取捨選択する既存ハッシュ木の枝刈り手段３）相関ルール抽出処理を再開する相関ルール抽出処理
再起動手段をさらに備えることを特徴としたデータマイ
ニング装置。
【請求項２７】上記最小支持度の変更の判断の手段に
おいて、以前より小さな最小支持度が指定された場合、
相関ルール抽出処理を始めから行う手段さらに備えてい
ることを特徴とする請求項２６記載のデータマイニング
装置。
【請求項２８】上記最小支持度の変更は、処理対象の
大品目セットの長さ毎に指定されることを特徴とする請
求項２６または請求項２７記載のデータマイニング装
置。