JP3195233B2 - データベースにおける一般化された関連規則を発見するためのシステム及び方法 - Google Patents

データベースにおける一般化された関連規則を発見するためのシステム及び方法

Info

Publication number
JP3195233B2
JP3195233B2 JP8857396A JP8857396A JP3195233B2 JP 3195233 B2 JP3195233 B2 JP 3195233B2 JP 8857396 A JP8857396 A JP 8857396A JP 8857396 A JP8857396 A JP 8857396A JP 3195233 B2 JP3195233 B2 JP 3195233B2
Authority
JP
Japan
Prior art keywords
item
database
itemsets
ancestor
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP8857396A
Other languages
English (en)
Other versions
JPH08314981A (ja
Inventor
ラケシュ・アグラワル
ラマクリシュナン・スリカント
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH08314981A publication Critical patent/JPH08314981A/ja
Application granted granted Critical
Publication of JP3195233B2 publication Critical patent/JP3195233B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的にはデータ
処理に関連し、更に詳細に述べれば、データベースに記
録されたかなりの数の取引の間の、一般化された関連規
則を発見する「コンピュータ・データベース・マイニン
グに関連する。特に、本発明は販売取引の大型データベ
ースに関連する。
【0002】
【従来の技術】顧客の購入習慣は、幅広く多様なアプリ
ケーションに非常に重要なマーケティング情報を提供で
きる。例えば、ある顧客が品目の第1の集合を購入した
場合に、同じ顧客がその第1の集合と一緒に品目の特定
の第2の集合を購入することを、ある程度の確率で予想
できることが分かっている場合、それが分かっていない
場合より効果的な店頭陳列及び在庫管理が小売業者に可
能になる。即ち、1つの取引での品目セット間の関連規
則を知ることは、マーケティングの観点から有効であ
る。例を挙げれば、自動車のバッテリとバッテリ・ケー
ブルを購入する顧客の90%が、バッテリ・ポスト・ブ
ラシとバッテリ・ポスト・クレンザも購入するという事
実(本発明では、「結果」という用語で呼ぶ)を示す関
連規則が分かっていることは、自動車部品と備品の小売
り業者にとって役に立つ。
【0003】広告業者もまた、このような顧客の購入傾
向に関する完全な情報から恩恵を得ることができる。更
に、カタログ業者は、特定の品目の集合を別の品目の集
合と一緒に購入する消費者の傾向を知れば、もっと効果
的な大量郵送を実施できる。ここでの説明は本発明、デ
ータベース・マイニングのマーケティング・アプリケー
ションに対する適用について特に説明しているが、本発
明の原理は、ビジネスやサイエンスなど他の多くの分野
でも有効であることは明かである。
【0004】最近まで、何千、あるいは統計的観点から
はできれば何百万の顧客取引を記録する大型で詳細なデ
ータベースを構築することは困難だった。ましてやデー
タベースから役に立つ情報を引出すこと(即ち、データ
ベースのマイニング)は、ほとんど不可能だった。その
結果、マーケティング及び広告戦略は、購入習慣があっ
た場合でも、それについての論拠のない話に基づいたも
のであり、消費者の的を絞ることがどうしても非能率的
になり、これを克服することは、不可能ではないにして
も非常に難しかった。
【0005】しかし、現代技術の到来により、消費者取
引の大型データベースの構築が可能になった。どこにで
もあるバーコード読取り機は、ほとんど瞬時にいわゆる
バスケット・データを読取る。即ち、特定のロットから
の特定の品目がいつ消費者に購入されたか、その消費者
がいくつ品目を購入したか等の情報が、バスケット・デ
ータの自動電子記憶のために読取られる。更に、例えば
クレジット・カードで購入された場合、購入者の識別も
瞬時に実行され、記録され、バスケット・データと共に
記憶される。また、改良の著しいデータ記憶媒体によ
り、膨大な量のこの種の情報を、将来使用するために電
子的に記憶することが可能になった。
【0006】しかし、上記でも触れたように、取引デー
タベースの構築はマーケティングの挑戦の一部にすぎな
い。もう1つの重要な部分は、有効な情報のデータベー
ス・マイニングである。データベースのサイズがギガバ
イト、さらにはテラバイトの範囲まで広がるにつれて、
このようなデータベース・マイニングの問題が大きくな
った。
【0007】当然のことながら、購入傾向、即ちデータ
ベース・マイニングの特定の形態はいろいろな方法で分
類できる。例えば、上記で参照した米国特許出願第08
/415,006号の「データベースの関連規則を迅速
にマイニングするシステムと方法」(以降「親出願」)
では、単一取引での購入習慣を示す関連規則の迅速なマ
イニングのための有効なシステムを開示している。即
ち、ユーザが定義する信頼の程度で、頻繁に繰返される
品目セットが、他の頻繁に繰返される品目セットと一緒
に1つの取引で購入されやすいことを示す規則がマイニ
ングされる。本発明に基づき、ここでは「最低サポー
ト」と呼ぶ、少なくともユーザが定義する規則性でデー
タベースに品目セットが現れる場合、品目セットがデー
タベースで「頻繁に発生」し、その品目セットは「大き
い」と呼ばれる。
【0008】親出願で開示された発明を含めて、以前の
データベース・マイニング・システムは、分類法の異な
るレベルの間の関連規則のマイニングは考慮せず、その
代わりに、マイニングされた規則の中の品目を、データ
ベースの枝葉ノードに制限した。したがって、例えば品
目「ジャケット」が階層的に品目「外出着」に従属し、
「外出着」が品目「衣類」に階層的に従属するような品
目セットの分類法の場合、親発明では、ジャケットを購
入する消費者は同時にハイキング・ブーツを購入する傾
向があることを示す関連規則を生成するが、もっと一般
化した規則、例えば、外出着叉は衣類を購入する消費者
はハイキング・ブーツを購入する傾向があるという規則
は生成できない。また、分類法の中での品目のサポート
は、必ずしもその子供のサポートの合計とは等しくない
ので、枝葉の品目に関する規則から、分類法のそれより
上のレベルの品目についての規則は推論できない。
【0009】残念ながら、関連規則が分類法の枝葉だけ
に制限される場合、多くの重要な関連が検出されないで
洩れてしまう。例えば、ジャケットと一緒にハイキング
・ブーツを購入する消費者はわずかでも、一般的な外出
着と一緒にハイキング・ブーツを購入する消費者は多数
いることも多分あるだろう。しかし、以前のマイニング
・システムではこれを検出できない。更に、ジャケット
を購入する消費者がハイキング・ブーツを購入する傾向
があることを示す規則は、親発明でも検出できるが、こ
のような規則が、マーケティングの観点から、一般的な
外出着を購入する消費者がハイキング・ブーツを購入す
る傾向があるという事実程にはほとんど関心を引かない
場合があり得る。したがって、分類法を考慮しない結
果、以前のシステムは関心のない規則及び冗長な規則を
切り落とすことができない。以上により、本発明は、分
類法を考慮し、その結果ユーザ定義の関心の基準も満足
するような、一般化された関連規則を発見することを目
指している。
【0010】
【発明が解決しようとする課題】本発明の目的は、一般
化された関連規則を発見するための、大型データベース
をマイニングするシステム及び方法を提供することにあ
る。本発明の他の目的は、取引データベースに品目分類
法に基づいて記憶された品目セットの、一般化された関
連規則を発見するシステム及び方法を提供することにあ
る。本発明の他の目的は、ユーザが定義した程度の規則
性で繰返され、ユーザが定義した信頼度を満足させ、及
びユーザが定義した関心の基準を満足させる、関心のあ
る関連規則を発見するシステム及び方法を提供すること
にある。本発明のまた別の目的は、使いやすく費用効果
の高い、大型データベースの高速マイニングのためのシ
ステム及び方法を提供することにある。
【0011】
【問題を解決するための手段】本発明は、品目セットの
中の品目の分類法に基づいて、大型データベースに記憶
された、品目セット叉は取引とも呼ばれるものの関連規
則を識別する手続きに関連する。
【0012】本発明は、品目セットの品目の階層分類法
を使って、ディジタル処理装置に品目セットの関連規則
を識別する方法ステップを実行させる、重要なマシン・
コンポーネントに実現される。分類法は、品目間のディ
センダントとアンセスタ関係を定義する。以降、マシン
・コンポーネントを「コンピュータ・プログラム製品」
と呼ぶ。
【0013】本発明に基づき、方法ステップは、品目セ
ットをアクセスするステップ、及び取引のデータベース
に品目セットが存在する回数が、所定の最低サポート値
を超えるサポート値を確立したときに、その品目セット
を大きな品目セットの集合へ入れるステップが含まれ
る。次に、大きな品目セットの集合の中の少なくともい
くつかの品目セットについて、品目セットの選択された
サブセットがデータベースの取引に現れた回数が判定さ
れる。選択されたサブセットがデータベースに現れた回
数が、関連品目セットがデータベースに現れた回数に対
して所定の関係を保ち、その結果最低信頼制約を満足す
るときに、関連規則が出力される。
【0014】できれば、前記方法には、候補の大きな品
目セットの次の集合を生成するために、所定の連結形態
に従って大きな品目セットの集合にある品目セットを連
結するステップ、及び、候補の大きな品目セットの中
で、そのサブセットが大きな品目セットではないような
候補の大きな品目セットをすべての破棄するステップを
含む。また、候補の大きな品目セットの次の集合の中の
各品目セットは、データベースの品目セットと比較さ
れ、候補の大きな品目セットがデータベースに存在する
回数を判定する。方法ステップには、候補の大きな品目
セットがデータベースに存在する回数が最低サポート値
より大きい場合だけ、大きな品目セットの次の前方の集
合に候補の大きな品目セットを入れるステップが含まれ
る。
【0015】推奨される実施例では、分類法は有向非輪
状グラフ(DAG)分類法であり、少なくとも品目セッ
トのいくつかは、DAG分類法の中のディセンダント品
目及びアンセスタ品目である品目を含む。候補の大きな
品目セットの次の集合の中の品目セットの1つにアンセ
スタが現れるときだけ、品目を含む取引にその品目のア
ンセスタが入れられる。最適化するために、方法ステッ
プには、アンセスタを大きな品目セットの集合に入れる
前に、各品目のアンセスタを事前に決定するために、D
AG分類法をアクセスするステップが含まれる。また、
候補の大きな品目セットの次の集合の中の品目セット
が、品目及びその品目のアンセスタを含む場合、候補の
大きな品目セットの次の集合から品目セットを削除する
ステップが含まれる。更に最適化すると、方法ステップ
は、関連品目セットがデータベースに存在する回数を決
定する前に、品目のアンセスタを、その品目を含む取引
に入れるステップ、及び重複する品目エントリを取引か
ら削除するステップを含む。
【0016】もう1つの推奨実施例では、分類法は品目
セットに適用され、レベルの階層順位で特徴付けられ
る。最高レベルから最低レベルのレベル範囲は、0から
nの整数で連続的に表される。レベル0で品目を含む品
目セットは、他のレベルで品目を含む品目セットの前
に、大きな品目の集合に入れるためにアクセスされる。
【0017】このいわゆる「層状」実施例では、アンセ
スタ品目セットがデータベースに存在する回数が所定の
最低サポート値を超えないときに、レベル1の品目セッ
トがレベル0の中のアンセスタ品目セットのディセンダ
ントである場合、そのレベル1の品目セットは削除され
る。ここで推察されるように、レベル1の品目セットを
大きな品目セットの集合に入れるためにアクセスする前
に、この削除ステップが実行される。
【0018】また別の推奨実施例では、分類法はレベル
の階層順位で特徴付けられ、最高レベルから最低レベル
のレベル範囲は0からnの整数で連続的に表される。こ
のいわゆる「推定」実施例では、前記方法には更にデー
タベースの選択されたサンプル部分をアクセスして候補
の大きな品目セットを推定する段階が含まれる。大きな
品目セットであると推定された品目セットは、候補の大
きな品目セットの次の集合に入れられる。また、自分は
大きいと推定されなかったが、アンセスタ品目セットが
すべて大きな品目セットであると推定された品目セット
は、候補の大きな品目セットの次の集合に入れられる。
いわゆる「estmerge」実施例では、候補の大き
な品目セットの次の集合が数えられるときに、大きいと
推定されなかった品目セットのディセンダント品目セッ
トがデータベースに存在する回数を判定するステップが
方法ステップに含まれる。
【0019】必要な場合は、コンピュータ・プログラム
記憶装置で生成される関連規則では、関連規則のアンセ
スタの信頼及びサポートに基づいてその関連規則の信頼
及びサポートの予想値を決めることにより、関心のない
規則を取り除くことができる。関連規則の信頼及びサポ
ート値が所定の因子により予想される信頼及びサポート
値を超える場合、関連規則は関心あるものであると識別
される。
【0020】本発明の別の観点では、ディジタル処理装
置により読取り可能であり、コンピュータ・プログラム
を具体的に実施するコンピュータ・プログラム製品が開
示される。前記コンピュータ・プログラム製品は、コン
ピュータ読取り可能媒体を、データベースの品目セット
の関連規則を識別するプログラム・コード要素と結合す
る。各品目セットは、分類法により配置された2つ以上
の品目を有し、その結果、一般化された顧客購入傾向が
発見される。
【0021】本発明では、コード要素はコンピュータ読
取り可能媒体に記憶されたプログラムに具現化される。
これらのコード要素は、品目セットをアクセスし、その
品目セットがデータベースに存在する回数が、所定の最
低サポート値を超えたときに、これを大きな品目セット
の集合に入れる。更に、コード要素は、大きな品目セッ
トの集合の中の少なくともいくつかの品目セットについ
て、その品目セットの選択されたサブセットがデータベ
ースの取引に現れる回数を判定する。更に、選択された
サブセットがデータベースに現れる回数が、関連する品
目セットがデータベースに現れる回数に対する所定の最
低信頼関係を保ち、したがって最低の信頼制約を満足す
る場合に、コード要素は関連規則を出力する。
【0022】また別の観点では、プログラム記憶装置は
ディジタル処理装置により読取り可能であり、またディ
ジタル処理装置により実行可能な命令のプログラムを具
体的に実施する。ディジタル処理装置は、データベース
に記憶され、2つ以上の品目を有する取引の品目セット
について導き出された関連規則を識別する方法ステップ
を実施するプログラムを実行する。品目は、分類法構造
により特徴付けられ、その結果顧客購入傾向が発見され
る。
【0023】方法ステップは、分類法構造の任意の位置
に配置された品目を有し、少なくともユーザ定義の最低
サポートを有して繰返す品目セットを大きな品目セット
と識別するステップを含む。更に、方法ステップは、大
きな品目セットとそのサブセットとの間で、サブセット
の繰返しが品目セットの繰返しに対して所定の関係を保
つときに、大きな品目セットとサブセット間の関連規則
を発見するステップを含む。また、方法ステップは、関
連規則を顧客購入傾向を表すものとして出力するステッ
プを含む。
【0024】本発明の更に別の観点では、分類法的に構
造化されたデータベースに記憶された品目を有する品目
セットの中の関連規則を発見するための、データベース
・マイニング・システムが開示される。前記マイニング
・システムには、品目セットが取引データベースの中
で、少なくともユーザ定義の最低サポート値と等しいサ
ポートを有するときに、大きな品目セットを生成するた
めの、大きな品目セット生成器が含まれる。また、大き
な品目セットを受取り、品目セットがそのサブセットの
少なくとも1つに対して、所定の信頼関係と等しいかそ
れより大きな信頼関係を保つときに関連規則を出力する
ための、関連規則生成器が含まれる。更にシステムに
は、サポート及び信頼関係が、事前に選択された因子に
より予想されるサポート及び予想される信頼関係をそれ
ぞれ超えたときに、関連規則を関心のあるものとして識
別するための規則選定器を含む。
【0025】更に別の観点から、取引の品目セットとそ
の品目セットのサブセットとの間の関連規則を識別する
ことによって、消費者の購入傾向を発見するためのコン
ピュータ・ベースのシステムが開示される。ここでは、
サブセットには1つ以上の品目が含まれる。システムに
は、品目を階層的関係で記憶するためにコンピュータに
よりアクセス可能な、マルチレベル分類法構造が含まれ
る。品目セットが取引に現れる第1の回数を判定し、第
1の回数が最低サポート値を超えるときにその品目セッ
トを大きな品目セットとして指定するために、分類法構
造及び取引をアクセスする大きな品目セット生成器が提
供される。
【0026】関連規則発見器は、品目セットの少なくと
も1つのサブセットが取引に現れる第2の回数を判定す
るために、大きな品目セット生成器をアクセスする。本
発明に基づき、関連規則発見器は、第1の回数が第2の
回数に対して所定の最低信頼関係を保つときに、消費者
の購入傾向を表す関連規則を出力する。
【0027】
【発明の実施の形態】図1は、一般化した関連規則を見
つけるためのデータベース・マイニング・システム10
を示す。図の特定の構成では、システム10には1つ以
上のディジタル処理装置、例えば、クライアント・コン
ピュータ12及びサーバ・コンピュータ14が含まれ
る。実施例の1つでは、サーバ・コンピュータ14はI
BMのメインフレーム・コンピュータで、MVS等の商
標で市販のオペレーティング・システムを使用する。若
しくは、サーバ・コンピュータ14にはUnixコンピ
ュータ、OS/2サーバ、叉はWindows NTサ
ーバ、叉はAIX3.2.5を実行する128MBのメ
イン・メモリを有するIBM RS/6000 250
ワークステーションを使用できる。サーバ・コンピュー
タ14は、独自でDB2叉はORACLE等のデータベ
ース・システムを有し、若しくはディスク、例えば2G
B SCSI3.5″ドライブ、叉はテープなどのデー
タ記憶媒体のファイルにデータを保持することができ
る。ここに示した構成以外の構成も使用できることは明
かである。例えば、クライアント・コンピュータ12の
機能は、サーバ・コンピュータ14に組込むことが可能
であるし、またその逆も可能である。
【0028】図に示すように、サーバ・コンピュータ1
4のオペレーティング・システムには、マイニング・カ
ーネル16が含まれ、これはサーバ・コンピュータ14
内で一連のコンピュータ実行可能命令としてプロセッサ
が実行する。これらの命令は、例えばコンピュータ14
のRAMに常駐できる。
【0029】代替案として、図2に示すコンピュータ・
ディスケット15などのコンピュータ読取り可能媒体を
有するデータ記憶装置に命令を格納することができる。
叉は、命令をDASDアレイ、磁気テープ、従来型ハー
ド・ディスク・ドライブ、電子的読取り専用メモリ、光
記憶装置、叉はその他の適切なデータ記憶装置に格納で
きる。図示した発明の実施例では、コンピュータ実行可
能命令は、コンパイルされたC++言語コードの列であ
る。
【0030】図3から図16は、コンピュータ・プログ
ラムに実施されるこのような命令の構造を示す。図3か
ら図16が、本発明に従って機能するコンピュータ・プ
ログラム・コード要素の構造を示すことは、当業者には
理解されるだろう。本発明はその本質的な実施例で、図
示したものに対応する一連の機能段階を実行するように
ディジタル処理装置(即ちコンピュータ)に対して命令
する形式の、コンピュータ・プログラム・コード要素を
有するマシン・コンポーネントにより実施されることは
明かである。マシン・コンポーネントは、コンピュータ
が読取り可能な形式のプログラム・コード要素のAから
Eの組合せとして図2に示す。これらは、コンピュータ
・ディスケット15にコンピュータ使用可能データ媒体
17で具現化される。しかし、上記の説明のように、こ
のような媒体は、半導体デバイス、磁気テープ、及び光
ディスクでも可能である。
【0031】各コード要素AからEは、本発明を実施す
る方法の特定の部分を実行するように、ディジタル処理
装置に指示するためのものである。AからEの単一のコ
ード要素のどれにも完全な方法が含まれない場合でも、
2つ以上のコード要素が一緒になって発明の実施に必要
なプログラム手段をすべて構成できる。
【0032】図1は、適切なデータ・アクセス・プログ
ラム及びユーティリティ18を介して、マイニング・カ
ーネル16が、取引を記録するデータが入った1つ以上
のデータベース20及び/叉はフラット・ファイル(テ
キスト・ファイルなど)22をアクセスすることを示
す。以下に記述されたステップを実行した後で、マイニ
ング・カーネルは発見した関連規則をマイニング結果レ
ポジトリ24に出力する。これは、クライアント・コン
ピュータ12からアクセスできる。
【0033】更に図1は、クライアント・コンピュータ
12がマイニング・カーネル・インターフェース26を
含み、これはマイニング・カーネル16のように、適切
なコンピュータ・コードで実現できる。とりわけインタ
ーフェース26は、後で定義する最低サポート値、最低
信頼値、及び関心因子Rを含む特定の変数を設定するた
めの入力機構として機能する。更にクライアント・コン
ピュータ12は、グラフィック・ディスプレイ30、プ
リント機構32、叉はデータ記憶媒体34にマイニング
結果を出力/表示するための出力モジュール28を含む
ことが望ましい。
【0034】図3は、本発明の全体的方法を示す。ブロ
ック36から始まり、システム10はデータベース20
中の大きな品目セットを識別する。したがって、ブロッ
ク36は本質的に大きな品目セット生成器である。下記
に詳細に開示するように、「大きな品目セット」とは、
データベース20の中のすべての取引のユーザ定義パー
センテージで購入される、1つ以上の品目の集合を意味
する。即ち、データベース20の中にユーザ定義の取引
の「最低サポート」パーセンテージで現れる品目セット
である。言い替えれば、ブロック36では、データベー
ス20がアクセスされ、品目セットがそのデータベース
に現れる第1の回数を判定し、その第1の回数が最低サ
ポート値を超えるときにその品目セットを大きな品目セ
ットと指定する。これに対して、「小さな」品目セット
とは、最低サポート基準を満たさない品目セットであ
る。
【0035】更に、下記に開示するように、前記データ
ベース20に格納された取引の品目セットに含まれる品
目は、階層分類法により特徴付けられる。したがって、
分類法で定義されるように、いくつかの品目は他の品目
のアンセスタ(ここでは「親」とも呼ぶ)である。即
ち、いくつかの品目は、分類法でより低いレベルに配置
され、アンセスタ品目からのパスの中に置かれる他の品
目より高いレベルに配置される。分類法の低いレベルに
配置されるこのような品目は、そこから前記低いレベル
の品目が分岐する前記分類法のより高いレベルの品目の
ディセンダント品目といわれる。ここで用いるように、
第1の品目セットが、第2の品目セットに含まれる品目
のアンセスタである品目を含む場合、第1の品目セット
は第2の品目セットのアンセスタである。したがって、
「大きな品目セット」とは、ディセンダント品目セット
がデータベース20全体に現れる回数により最低サポー
ト制約を満足するアンセスタ品目セットのようなもの
と、更に表される。
【0036】言い替えると、データベース20の取引品
目セットに現れる前記品目は、分類法構造、即ち記憶さ
れた要素が1つ以上の階層分類法に配置されたデータ構
造により特徴付けられる。例えば、データベース20中
の品目は、品目タイプ・カテゴリによる分類法構造で特
徴付けられる。また、データベース20中の品目は、品
目原価カテゴリによる分類法構造で特徴付けられる。複
数の分類法が存在する場合、それらは有向非輪状グラフ
(DAG)分類法構造、例えば図3に示す構造で結合で
きる。
【0037】本発明の分類法構造は、次の例を参照する
と分かりやすいだろう。エントリ「E」は例えば「衣
類」であり、品目タイプに基づく分類法の内部ノードを
表す。これに対して、エントリ「F」は例えば「原価が
10ドルより安い商品」であり、品目原価に基づく分類
法の内部ノードを表す。どちらのエントリ「E」及び
「F」も、表示されたDAG構造の最高レベル、ここで
はゼロ・レベルにあると言える。
【0038】次にエントリ「G」は、例えば「ソック
ス」であり、両方の分類法でもゼロ・レベルのすぐ下の
レベル(「レベル1」)のエントリを示す。DAGのエ
ッジEG及びエッジFGで示すように、エントリGはエ
ントリ「E」及び「F」の両方から下った位置づけとな
る。
【0039】エントリ「H」及び「M」は、例えばそれ
ぞれ「スポーツ・ソックス」及び「子供用ソックス」で
あり、DAGのレベル2のエントリであることを示す。
これは、それぞれDAGのエッジGH及びエッジGMで
示すように、エントリ「G」から、したがってエントリ
「E」及び「F」から下位にある。本発明に基づき、エ
ントリ「E」及び「F」はエントリ「G」の隣接アンセ
スタであり、エントリ「H」及び「M」のアンセスタで
あるが、DAGは有向性をもつので、DAG構造では逆
は真ではない(「E」及び「F」は「G」から下位に位
置しないし、また「G」は「H」及び「M」から下位に
ない)。エントリ「G」は、エントリ「E」及びエント
リ「F」のディセンダントである。またエントリ「H」
及びエントリ「M」は、エントリ「G」のディセンダン
トであり、したがって、エントリ「E」及びエントリ
「F」のディセンダントである。一般的に、分類法の最
下位、即ち枝葉レベルの品目だけが、取引に記録され
る。分類法のより高いレベルの品目のデータベース20
でのサポートは、枝葉レベルの対応するディセンダント
品目のサポートから判定される。
【0040】大きな品目セットがブロック36で識別さ
れた後で、処理はブロック38に移る。下記に詳しく開
示する発明に従うと、ブロック38は関連規則発見器で
あり、これはブロック36で設定された大きな品目セッ
ト生成器をアクセスし、品目セットの少なくとも1つの
サブセットがデータベース20に現れる第2の回数を判
定する。次に、ブロック38の関連規則発見器は、第1
の回数が第2の回数に対する所定の関係を保つとき、即
ち、所定の叉はユーザ指定の最低信頼値を満足すると
き、消費者の購入傾向を表す関連規則を出力する。
【0041】本発明が目指すように、前記関連規則生成
器は一般化された関連規則を出力する。これはDAGの
レベルに広がり、次の形式を取る。X→Y、ここで、
X、及びYは品目セットであり、X∩Y=Φ(即ちX∩
Yはヌルである)、Yの中のどの品目もXの中の任意の
品目のアンセスタではなく、またX、Yは分類法の任意
のレベルの品目を含み得る。
【0042】例として、本発明は自動車部品、備品、及
びサービス・センターの取引を記録したデータベースを
アクセスすると想定する。本発明で発見できる関連規則
は、タイヤをタイヤ圧力ゲージと一緒に購入する全顧客
の98%が、取引の間にホイール・バランス・サービス
も購入するという規則である。言い替えれば、例では、
ホイール・バランス・サービスがタイヤ及びタイヤ圧力
ゲージとは別に購入されないということが、98%の信
頼性レベルで言えるということである。本発明で認めら
れるように、品目セット間で発見された関連規則の意味
するところは、小売業者、広告業者、マーケティング責
任者、及び実に広範なアプリケーションに対して、実質
的な経済的価値を生み出すことができる。
【0043】ブロック39では、ブロック38で発見さ
れた特定の関連規則が、そのような規則が関心を引かな
いという点を基にして削除される。言い替えれば、ブロ
ック39は規則選定器であり、そこではブロック36及
びブロック38で判定されたサポート及び信頼関係が、
それぞれ所定の因子Rを乗算して計算された予想サポー
ト及び予想信頼関係を超えた場合、関連規則は関心を引
くものとして識別される。下記に更に詳しく説明するよ
うに、各規則の予想サポート及び信頼は、規則の隣接ア
ンセスタがある場合、そのサポート及び信頼に基づいて
決定される。
【0044】したがって、アンセスタをもたない規則は
すべて関心のあるものであり、隣接アンセスタをもつ
が、前記規則の実際のサポート及び信頼が、アンセスタ
に基づくユーザ定義の予想境界線の外側に出る規則は、
関心のあるものである。これと対象的に、隣接アンセス
タをもち、規則の実際のサポート及び信頼が、アンセス
タに基づくユーザ定義の予想境界線の内側にある規則
は、関心のないものである。
【0045】本発明では、試験される規則が関心のある
ものかどうかを判定する場合、規則の隣接アンセスタだ
けを考慮する必要があることが判明している。更に詳細
に述べれば、試験規則が本当に関心のあるものであるた
めには、その隣接アンセスタに関しても関心のあるもの
である必要がある。試験規則が相対的に遠くのアンセス
タに関して関心のあるものであり、試験規則に対して相
対的に近くのアンセスタに関しては関心がない場合、遠
くのアンセスタに関して関心のあるものは実際はより近
くのアンセスタであり、試験規則自身は実際は関心のあ
るものではない。
【0046】図4は、図3のブロック36で設定された
前記大きな品目セット生成器のプロセスの実施例の1つ
を示す。ここでは「基本」と呼ぶ。本発明と対照的に、
上記で説明した以前の手続きでは、データベースの枝葉
ノードの品目だけを考慮して候補となる大きなシーケン
スを生成して数える。即ち、有効な関連規則が分類法の
多様なレベルに広がっている可能性を考慮していない。
図4は、上記参照の親出願で開示された、演繹的方法に
よる分類に関する斬新な修正を示す。以前の他の方法
も、同様に修正可能であることは明かである。例えば、
上記参照の親出願で開示された、AprioriAll
及び混成方法などが該当する。
【0047】「大きな品目セット」とは、ここで「最低
サポート」と呼ぶユーザ定義の規則性でデータベースに
現れる品目セットを意味することを想起されたい。例え
ば、ユーザは、データベースの顧客取引の少なくとも2
5%に現れる品目セットが何かを知りたい場合がある。
この事例における最低サポート値は25%であり、その
品目セットが現れる取引数を数え、その全取引数で除算
することにより、その品目セットが最低サポート基準を
満たすかどうかを判定できる。
【0048】ブロック40では、システム10で実施さ
れるマイニング・カーネル16が、データベース20の
大きな単一品目品目セットの集合L1を識別する。単一
品目品目セットが大きいかどうかを判定するには、デー
タベース20全体に渡ってデータベース20中のすべて
の品目を最初に数え上げ、上記で説明した方法でそれら
のサポートを判定する。次に挙げる発行物は、すべてこ
こで参照文献として取り上げられているが、大きな品目
セット検出のための特定の方法を開示している。199
3年ワシントン特別区でのデータ・マネージメントに関
するACM SigMod会議の会議録、アグラワル他
著の「大容量データベースの項目の集合間の関連規則の
マイニング法」、1994年チリのサンチャゴでのVL
DBの会議録の、アグラワル他著の「大容量データベー
スにおける関連規則マイニングの高速アルゴリズム」、
1993年10月のIBM研究報告書RJ9567号
ヒュートマ他著の「関連規則のセット・オリエンテッド
(集合志向)マイニング法」、1994年7月のKDD
−94:データベースにおける知識発見のAAAIワー
クショップでの、マンニラ他著の「関連規則発見のため
の効率的アルゴリズム」。
【0049】次に、ブロック42では、システム10で
実施されるマイニング・カーネル16が、各k≧2につ
いての繰返し処理に入る。ブロック44では、図5を参
照した下記の詳細で開示されるように、長さ(即ち品目
セット数)が「k−1」である、大きな品目セットL
k-1のシード集合(最初は上記の大きな品目セットの集
合で構成され、k=2である)が、長さがkの候補の大
きな品目セットCkの集合の生成に使用される。
【0050】次に、ブロック46では、データベースの
中の各取引について、前記方法は本発明の分類法(例え
ば、図3に示すDAGなど)をアクセスし、取引の中の
各品目のすべてのアンセスタをその取引に加え、重複す
るエントリをすべて削除する。この結果、候補の大きな
品目セットの集合Ckは、そのアンセスタと同様に分類
法の枝葉ノードの品目を含めることができる。ブロック
47では、取引で検出された候補の大きな品目セットC
kの集合の中の各候補のカウントを増分する。
【0051】ブロック48では、各候補の大きな品目セ
ットがそこに現れる回数を数える、及びデータベース全
体を通して、その回数がユーザが定義した最低サポート
値と等しいかどうかを判定することにより候補の大きな
品目セットのサポートが判定される。データベースの中
の取引のアンセスタである候補の大きな品目セットのサ
ポートは、そのディセンダントのサポートを記す含意に
より判定される。
【0052】ブロック50では、実際の大きな品目セッ
トの前方の集合Lkが、ブロック48で検出された、最
低サポートを有する候補の大きな品目セットの集合と等
しく設定される。この実際の大きな品目セットの前方集
合Lkは、ブロック52で次の繰返し処理のためのシー
ドとなる。システム10で実施されるマイニング・カー
ネル16は、ブロック52からブロック42まで戻る。
kが空の場合、処理は終了する。この決定は、ブロッ
ク51に示す。
【0053】図5は、候補の大きな品目セットの集合を
作成する、本発明の詳細を示す。ブロック54では、L
k-1がそれ自身と連結され(即ち結合され)、c個の品
目セットを有する最初のCkを作成する。更に詳細に述
べれば、p.litemset1、p.litemse
2...p.litemsetk-1で示される、Lk-1
の中の品目セットは、q.litemset1、q.l
itemset2...q.litemsetk-1で示さ
れる、Lk-1の中の他の品目セットの各々と結合され、
候補の大きな品目セットcの集合Ckを生成する。ここ
で各cは、k個の品目セットを有し、Ckの中の品目セ
ットcはどれも重複しないという制約がある。
【0054】次に、システム10で実施されるマイニン
グ・カーネル16は、Lk-1で検出されなかった下位品
目セットを含む候補の品目セットcを、Ckから削除す
る。システム10で実施されるマイニング・カーネル1
6は、ブロック56で、下記に説明するように候補の大
きな品目セットの集合Ckの中の各顧客品目セットcを
考慮し、その後顧客品目セットcのk−1個の品目セッ
トを有する各下位品目セットsについて、ブロック58
へ進む。
【0055】候補の大きな品目セットの集合Ckの中の
最初の候補の品目セットc、及び決定ブロック60でk
−1個の品目セットを有するcの最初の下位品目セット
sから始めて、システム10で実施されるマイニング・
カーネル16は、sが実際の大きな品目セットの直前の
集合Lk-1の要素であるかどうかを判定する。本発明が
目指すように、大きな品目セットの集合は、第1の繰返
し処理のシードとして使用される。
【0056】sが実際の大きな品目セットの直前の集合
k-1の要素である場合、システム10で実施されるマ
イニング・カーネル16は、ブロック58に戻り、Ck
の中の次の下位品目セットsを検索する。その他の場合
は、システム10で実施されるマイニング・カーネル1
6は、ブロック62に進み、cをCkから削除、即ち取
除き、次にブロック56に戻ってCkの中の次の品目セ
ットcを試験する。本発明が目指すように、候補の大き
な品目セットの直前の集合Ck-1は、実際の大きな品目
セットの直前の集合Lk-1の代わりに使用され、候補の
大きな品目セットの集合Ckを生成する。
【0057】非常に大型のデータベース、例えばギガバ
イト及び実際にテラバイトの範囲のデータベースでは、
データベース管理及びデータ・バッファ管理は現在の挑
戦的課題である。図6及び図7は、本発明でどのように
データベース管理を扱うかを示し、また図8は、本発明
がどのようにデータ・バッファ管理を扱うかを示す。
【0058】図6を参照して分かるように、候補の大き
な品目セットの集合Ckが生成された後では、候補の大
きな品目セットの集合Ckに含まれるデータは、ダイナ
ミック・ハッシュ・ツリー等の高速検索ができるように
構成されたデータ構造に配列することが望ましい。この
ようなデータ構造には、深さ、即ちデータ構造レベルが
1であるルート64が含まれる。ハッシュ・ツリーは、
次に深さ2の複数のハッシュ・テーブル・ノード66、
68、70に分岐する。これらはDB1 2、DB2 2...
DBm 2と表示し、各ハッシュ・テーブル・ノード66、
68、70は1つ以上のいわゆる「バケツ」を有する。
ハッシュ・テーブル・ノード66、68、70の1つの
中の各バケツは、深さ3のノードを指す。これらは例え
ばノード72、74の1つで、DB11 3、DB12 3と表示
される。また、このハッシュ・テーブル・ノードへの分
岐は、さらに深さ「d」まで続く。最終的に、特定の分
岐の中の品目セットの数が単一バケツに格納できると
き、ノードはいわゆる「枝葉」ノード、例えば枝葉ノー
ド76、78の1つになり、これは取引データの一部を
直接記憶する。
【0059】図6に示すハッシュ・ツリーに品目セット
cを追加するには、ハッシュ関数が品目セットcのd番
目の品目に適用され、その結果ハッシュ・ツリーを下に
延ばすパスが生成される。最初は、すべてのノードが枝
葉ノードとして生成され、枝葉ノードに記憶される品目
セットの数が所定の数値を超えると、枝葉ノードはハッ
シュ・テーブル・ノードに変換され、これが下位の枝葉
ノード(叉はハッシュ・テーブル・ノード)を指し、こ
こにデータを更に格納することができる。
【0060】上記の説明を考慮して、図7は図4の計算
ステップが実行される方法を示す。円80のルート・ノ
ードから始まり、システム10で実施されるマイニング
・カーネル16は、試験対象の取引「t」の中のすべて
の品目「i」にハッシュ関数を適用する(「ハッシュ・
オンする」とも呼ぶ)。ブロック81では、システム1
0で実施されるマイニング・カーネル16は、品目
「i」に相当するバケツをアクセスし、次に決定ブロッ
ク82へ移り、ここで処理が枝葉ノードを試験している
のかどうかを判定する。枝葉ノードの場合、システム1
0で実施されるマイニング・カーネル16は、ブロック
84で枝葉ノードのどの品目セットが、取引「t」に含
まれるかを識別し、次に、これらの品目セットの参照
を、推奨される実施例ではビットマップとして形式化さ
れている答集合に追加する。枝葉ノードではない場合、
ブロック86で、システム10で実施されるマイニング
・カーネル16は、ブロック86での試験対象の品目セ
ット「i」に続くすべての品目セットにハッシュ関数を
適用し、この手続きをノードに繰返して適用する。
【0061】図8は、本発明がデータ・バッファ管理を
実施するための推奨される方法である。決定ブロック8
8で始まり、システム10で実施されるマイニング・カ
ーネル16は実際の大きな品目セットの集合Lk-1がバ
ッファ・メモリに適合するかどうかを判定する。適合す
る場合、システム10で実施されるマイニング・カーネ
ル16は、決定ブロック90で候補の大きな品目セット
の集合Ckがバッファ・メモリに適合するかどうかを試
験する。適合する場合、バッファ・サイズは制限され
ず、システム10で実施されるマイニング・カーネル1
6は図8に示すように処理を終了する。
【0062】一方、決定ブロック90で候補の大きな品
目セットの集合Ckがバッファ・メモリに適合しないと
システムが判定した場合、システム10で実施されるマ
イニング・カーネル16は、ブロック92でメモリに適
合するだけの数の候補「c」を候補の大きな品目セット
の集合Ckに生成する。次に、ブロック94でデータに
パスが作成され、候補の大きな品目セットの集合Ck
サポートを数え、その結果の実際の大きな品目セットの
集合Lkがブロック96でディスクに書込まれ、候補の
大きな品目セット「c」の小さいものが削除される。決
定ブロック98では、システム10で実施されるマイニ
ング・カーネル16が、候補の大きな品目セットの集合
kの候補の大きな品目セット「c」がすべて数えられ
たかどうかを判定し、数えられている場合は図8を終了
する。まだ数えられていない場合は、システム10で実
施されるマイニング・カーネル16は、ブロック92に
戻る。
【0063】決定ブロック88で、実際の大きな品目セ
ットの集合Lk-1がバッファ・メモリに適合しないと判
定された場合、システム10で実施されるマイニング・
カーネル16はブロック100に移り、実際の大きな品
目セットの集合Lk-1を外部的にソートし、集合Lk-1
下位品目セットをバッファ・メモリに移す。これは、最
初のk−2個の品目は同じものである。ブロック102
では、候補の大きな品目セット「c」(即ち、候補の大
きな品目セットの集合Ck)が、上記の原理に従って集
合Lk-1のこれらのブロックを使用して生成される。こ
れは、決定ブロック104でバッファ・メモリが一杯で
あると判定されるまで続行される。バッファ・メモリが
一杯になると、ブロック106でデータベース全体を通
して作成され、候補の大きな品目セットの集合Ckが数
えられる。システム10で実施されるマイニング・カー
ネル16は、次にブロック102に戻る。
【0064】次に図9に進む。これは、分類法の中の大
きな品目セットの判定における、本発明の累積実施例の
操作及び処理構造を示す。ブロック107から、処理は
k=1で開始する。ブロック108では、第1の最適化
を示す。ここでは、分類法Tを繰返し検索しながら各品
目のアンセスタを検出する処理の代わりに、分類法(T
で示す)の各品目のアンセスタが事前に算出され、事前
に算出されているアンセスタの集合T*に追加される。
大きな品目の集合L1がブロック110で判定され、次
にブロック112で各k≧2について繰返しが開始され
る。
【0065】ブロック114では、図5に示すステップ
を使用して、Lk-1からCkが生成される。ブロック11
6は第2の最適化を示し、ここでは、品目及びその品目
のアンセスタの両方を含む候補の大きな品目セットの集
合Ckにあるすべての候補の品目セットがCkから削除さ
れる。
【0066】ブロック118は、第3の最適化を示す。
ここでは、候補の大きな品目セットの集合Ckの中の候
補に存在しない事前に算出されたアンセスタの集合T*
のすべてのアンセスタが削除される。システム10で実
施されるマイニング・カーネル16は、ブロック118
からブロック120に進み、ここではデータベース20
の次の取引「t」が検索される。ブロック122では、
試験対象である取引「t」の次の品目「x」が検索さ
れ、ブロック124では、事前に算出されたアンセスタ
の集合T*に存在する試験対象の品目「x」のアンセス
タが試験対象の取引「t」に追加される。
【0067】決定ブロック126に進み、ここで試験対
象の取引「t」の最後の要素「x」が試験されたかどう
かが判定される。まだ試験されていない場合は、処理は
ブロック128に進んで試験対象取引「t」の次の品目
「x」が検索され、そこからブロック122へ進む。最
後の要素が試験された場合は、ブロック130へ進み、
ここで試験対象の取引「t」から重複するエントリが削
除され、次のブロック132では候補の大きな品目セッ
トの集合Ckにあり、及び試験対象の取引「t」にも存
在する候補のカウントが1だけ増分される。次に、決定
ブロック134で、データベースの最後の取引「t」が
試験されたかどうか判定され、まだ試験されていない場
合は、処理はブロック136へ進んで次の取引を検索
し、ここからブロック120へ戻る。
【0068】最後の取引が試験された場合、処理はブロ
ック138へ進み、実際の大きな品目の集合Lkを、少
なくとも最低サポートを有する候補の大きな品目セット
の集合Ckの候補と等しくなるように設定する。ブロッ
ク140では、kがk+1に設定され、決定ブロック1
42でLk-1がヌルであるかどうか判定される。ヌルで
はない場合、処理はブロック112に戻る。その他の場
合は、プロセスはすべての大きな品目セットの集合を出
力し、これは出力ブロック144で∪kKと等しくな
る。
【0069】図10から図12は、データベース20の
品目の分類法を利用している、大きな品目セットを判定
するための代替方法を示す。図10から図12に示す大
きな品目セットを判定するための代替方法に、図9に示
す第1、第2、及び第3の最適化が適用できることは明
かである。
【0070】図10に示す、一般化した「層状」方法の
ブロック146から始めて、分類法の最高(即ち0)レ
ベルから最低の「n」レベルまでの分類法の各レベル
「s」について、システム10で実施されるマイニング
・カーネル16はブロック148へ進み、このブロック
では試験対象の深さ「s」にある品目を含むすべての品
目セットが数えられ、深さ集合Csに入れられる。ブロ
ック150では、Csの中の小さな品目セットのディセ
ンダントである次に低い深さ「s+1」の品目を含むす
べての品目セットが削除され、残りの品目セットが次に
低い深さ集合Cs+1に入れられ、ブロック152で数え
られる。ブロック152から進み、システム10で実施
されるマイニング・カーネル16は、ブロック154で
次の「s」をマイニングしてブロック148に戻る。大
きいことが検出された品目セットは、すべての大きな品
目セットの集合として出力され、これは∪kkと等し
い。
【0071】図11は、ここでは「推定」方法と呼ぶ、
大きな品目セットを判定する方法を示す。これは、まず
データベース全体に対する割合を算出することにより、
大きな品目セットである可能性の高い品目セットを先ず
推定し、その後この推定された大きな品目セットが実際
に大きいことを確認する。ブロック156から開始し、
サンプル・データベースDsがデータベース20(図1
1では「D」と呼ぶ)から生成される。サンプル・デー
タベースDsは、ランダムにデータベース20の所定の
パーセンテージを選択することにより生成される。最低
サポートが増加し、及びデータベース20のサイズが大
きくなるにつれて、このパーセンテージは小さくなる。
1つの実施例では、サンプル・データベースDsはデー
タベース20の中のエントリの1%である。大きな品目
の集合L1も、前記で説明した方法を使用してブロック
156で判定され、及びディセンダントの候補の大きな
品目セットの集合C1”がヌルに設定される。
【0072】ブロック158は、各k≧2について、シ
ステム10で実施されるマイニング・カーネル16がブ
ロック160に進み、前記で開示された原理に従って、
実際の大きな品目セットの直前の集合Lk-1の連結か
ら、候補の大きな品目セットの集合Ckを生成する。
【0073】ブロック162へ進み、候補の大きな品目
セットの集合Ckの中の候補のサポートが、サンプル・
データベースDs全体を通して、且つ前記で開示された
原理に従って候補のサポートを数えることによって推定
される。次に、ブロック164で推定された大きな品目
セットの集合Ck’が生成される。これには、ブロック
162で大きいと推定された候補が含まれる。更に、推
定された大きな品目セットの集合Ck’には、ブロック
162で小さいと推定されたが、それらのアンセスタが
すべて大きいものである候補が含まれる。1つの実施例
では、候補が最低サポート値の少なくとも0.9倍と等
しいサポートを有すると推定される場合、その候補は
「大きい」と見なされる。
【0074】ブロック166へ移り、システム10で実
施されるマイニング・カーネル16はデータベース20
全体を通して、推定された大きな品目セットの集合
k’の候補のサポートを数える。次にブロック168
で、ディセンダントの候補の大きな品目セットの集合C
k”が、推定された大きな品目セットの集合Ck’の中の
候補のディセンダントであると定義される。これらは、
大きいとは推定されなかった、即ち「小さい」ものであ
るが、ブロック166で実際は大きいことが発見された
ものである。次に、ブロック170で、ディセンダント
の候補の大きな品目セットの集合Ck”の品目セットが
数えられ、実際に大きいものがどれか判定される。
【0075】ブロック172では、実際に大きな品目セ
ットの集合Lkが、推定された大きな品目セットの集合
k’、及びディセンダントの候補の大きな品目セット
の集合Ck”の中の大きいものであることが検出された
候補の和集合であると定義される。ブロック172から
ブロック174へ方法は進み、次のkを検索してブロッ
ク160に戻る。ブロック174で、実際の大きな品目
セットの直前の集合Lk-1がヌルの場合、すべての大き
な品目セットの集合として結果が出力される。これは、
kkと等しい。
【0076】図12は、ここで「estmerge」と
呼ぶ、課せられた分類法による品目を含むデータ構造の
大きな品目セットを判定するための、更に別の方法を示
す。ブロック176から開始し、前記の原理に従ってサ
ンプル・データベースDsがデータベース20(図12
では「D」で示す)から生成される。大きな品目の集合
1も、前述の方法を使用してブロック176で判定さ
れ、ディセンダントの候補の大きな品目セットの集合C
1”がヌルに設定される。
【0077】ブロック178は、各k≧2について、シ
ステム10のマイニング・カーネル16がブロック18
0に進み、前記で開示された原理に従って、実際の大き
な品目セットの直前の集合Lk-1、及びディセンダント
の候補の大きな品目セットの直前の集合Ck-1”の連結
から、候補の大きな品目セットの集合Ckを生成する。
【0078】ブロック182へ進み、候補の大きな品目
セットの集合Ckの候補のサポートが、サンプル・デー
タベースDs全体を通して、且つ前記で開示された原理
に従って候補のサポートを数えることによって推定され
る。次に、ブロック184で、推定された大きな品目セ
ットの集合Ck’が生成される。これには、ブロック1
82で大きいと推定された候補が含まれる。更に、推定
された大きな品目セットの集合Ck’には、ブロック1
82で小さいと推定されたが、それらのアンセスタがす
べて大きいものである候補が含まれる。
【0079】ブロック186へ移り、システム10のマ
イニング・カーネル16はデータベース20全体を通し
て、推定された大きな品目セットの集合Ck’とディセ
ンダントの候補の大きな品目セットの直前の集合
k-1”の、和集合の中の候補のサポートを数える。候
補の大きな品目セットの集合Ckの候補の中で、推定さ
れた大きな品目セットの集合Ck’のアンセスタが小さ
いことがブロック186で判明したすべての候補が、ブ
ロック188でCkから削除される。
【0080】ブロック188からブロック190へ移
り、ここでディセンダントの候補の大きな品目セットの
集合Ck”が、推定された大きな品目セットの集合Ck
の中には入っていない、候補の大きな品目セットの集合
kに残る候補であると定義される。次に方法はブロッ
ク196に移動する。ブロック196では、本発明の方
法は、実際の大きな品目セットの集合Lkを、大きいこ
とが判明した候補の大きな品目セットの集合Ckの中の
品目セットと等しいと定義し、ブロック194で実際に
大きいことが判明したディセンダントの候補の大きな品
目セットの集合Ck”の中の品目セット候補を、ブロッ
ク198で実際の大きな品目セットの集合Lkに追加す
る。
【0081】ブロック198からブロック200へ方法
は進み、次のkを検索してブロック180に戻る。ブロ
ック200で、実際の大きな品目セットの直前の集合L
k、及びディセンダントの候補の大きな品目セットの集
合Ck”がヌルの場合、すべての大きな品目セットの集
合として結果が出力される。これは、∪kkと等しい。
【0082】次に図13を参照する。これは、本発明の
関連規則発見器の1つの実施例である。上記に開示した
大きな品目セット生成器の1つを使用して、データベー
ス20の中の大きな品目セットをすべて識別した後で、
マイニング・カーネル16が図13に進むことは明かで
ある。言い替えれば、図13では、大きな品目セット生
成器が検出したすべての品目セットが、ユーザ定義の最
低サポート値を超えるデータベース20でのサポート値
を有する。
【0083】ブロック202で示すように、マイニング
・カーネル16は各大きな品目セットlk、k≧2につ
いて図13で示す操作を実行し、ブロック204に移動
する。ここで、マイニング・カーネル16は、試験対象
の大きな品目セットlkの次の空ではないサブセットam
を選択する。ブロック206で、試験対象のサブセット
mについて、マイニング・カーネル16は信頼値を計
算する。この値は、試験対象の大きな品目セットlk
サポートを、試験対象のサブセットamのサポートで除
算して求める。次に、決定ブロック208で、サブセッ
トamの信頼値がユーザ定義の最低信頼値と比較され、
サブセットamの信頼値がユーザ定義の最低信頼値より
小さい場合、マイニング・カーネル16はブロック20
4に戻り、試験対象の大きな品目セットlkの次のサブ
セットam+1を検索する。
【0084】一方、決定ブロック208でサブセットa
mの信頼値がユーザ定義の最低信頼値以上であると判定
された場合、マイニング・カーネル16は出力ブロック
210へ進み、次の形式で関連規則を出力する。 am→(lk−am) ここで、”信頼=[算出された信頼値]、”サポート=
[lkのサポート]であり、矢印の右辺は、規則の「結
果」と呼ばれる。出力ブロック210から、マイニング
・カーネル16はブロック204に戻り、試験対象の大
きな品目セットlkの次のサブセットam+1を検索する。
【0085】図14及び図15は、より速い関連規則発
見の実施例である。ブロック212に示すように、マイ
ニング・カーネル16は各大きな品目セットlkについ
て図14で示す操作を実行し、ブロック214に移動す
る。ここでマイニング・カーネル16は、最初の結果セ
ットH1=図11で示す実施例を本質的に使用して導か
れた関連規則のすべての1品目結果と設定する。図11
は、ブロック216で呼出され、1品目結果より多いも
のを有する関連規則を判定し、mの値がブロック218
で1だけ増分される。ブロック220では、kがmの新
しい値より大きいかどうか判定され、大きい場合はマイ
ニング・カーネル16はブロック216へ戻る。その他
の場合はブロック212に戻り、次の大きな品目セット
が検索される。
【0086】次に図15を参照する。これは、関連規則
をより速く発見する実施例の詳細を示す。ブロック22
4で開始され、図5に示す発明を用いて、結果集合Hm
を入力引数として使用し、結果集合Hmから次の結果集
合Hm+1が生成される。ブロック226に進み、試験対
象の次の結果集合Hm+1の中の各要素hm+1について、マ
イニング・カーネル16は信頼値を計算する。この値
は、試験対象の大きな品目セットlkのサポートを、サ
ブセット(lk−hm+1)のサポートで除算して求める。
次に、決定ブロック228で、ブロック226で算出さ
れた信頼値がユーザ定義の最低信頼値と比較され、信頼
値がユーザ定義の最低信頼値より小さい場合、マイニン
グ・カーネル16はブロック230で、要素hm+1を次
の結果集合Hm +1から削除する。
【0087】一方、決定ブロック228で、ブロック2
26で算出された信頼値がユーザ定義の最低信頼値以上
であると判定された場合、マイニング・カーネル16は
出力ブロック232へ進み、次の形式で関連規則を出力
する。 (lk−hm+1)→hm+1 ここで、”信頼=[算出された信頼値]、”サポート=
[lkのサポート]である。出力ブロック232叉はブ
ロック230のどちらかから、マイニング・カーネル1
6はブロック226に戻り、次の結果集合Hm+1から次
の要素hm+1を検索する。
【0088】図16は、関連規則を関心のあるものとし
て識別するための、本発明の規則選定器を示す。これ
は、規則のアンセスタがある場合に、そのアンセスタの
サポート及び信頼と、規則のサポート及び信頼との比較
に基づく。ブロック234から開始し、図3の規則生成
器38で判定されたように、述語集合Xと結果集合Yと
の間の関連規則が選択される。ブロック236に進み、
試験集合Z={z1...zn}が述語集合X及び結果集
合Yの和集合として定義される。
【0089】次にブロック238で、可能な場合はアン
セスタ試験集合Z*が識別される。ここで、Z*
{z* 1..z* j...z* n}、1≦j≦nであり、z* i
はziのアンセスタである。決定ブロック240で、ア
ンセスタ試験集合Z*がすでに識別されているかどうか
が判定され、まだ識別されていない場合、方法は出力ブ
ロック242に進み、規則を関心のあるものとして識別
する。一方、判定ブロック240で、アンセスタ試験集
合Z*が識別されていると判定された場合、方法はブロ
ック244に移る。
【0090】ブロック244では、試験対象の規則の予
想サポートEsuppが判定される。予想サポートEsupp
判定するには、ブロック244で試験集合Zの各要素の
サポートの積を求め、アンセスタ試験集合Z*の各要素
のサポートの積でこの積を除算する。この結果求められ
た商は、アンセスタ試験集合Z*のサポートで乗算さ
れ、試験対象の規則の予想サポートEsuppが求められ
る。
【0091】同様にブロック246では、試験対象の規
則の予想信頼Econfが判定される。予想信頼Econfを判
定するには、ブロック246で結果集合Yの各要素のサ
ポートの積を求め、アンセスタ結果集合Y*の各要素の
サポートの積でこの積を除算する。ここで、Y=
{y1....yn}及びY*={y* 1..y* j...y*
n}、1≦j≦nであり、y* iはyiのアンセスタであ
る。この結果求められた商は、アンセスタ試験集合Z*
の信頼で乗算され、試験対象の規則の予想信頼Econf
求められる。
【0092】ブロック246から、方法は並列して決定
ブロック248、250へ進み、試験対象の規則の実際
の信頼及びサポートが、予想信頼Econfにユーザ定義因
子「R」を乗算した値、及び予想サポートEsuppにユー
ザ定義因子「R」を乗算した値を超えるかどうかをそれ
ぞれ判定する。1つの実施例では、R=1.1である。
【0093】決定ブロック248の試験結果が正の場
合、出力ブロック254に移り、規則を関心のある信頼
を有するものとして出力する。同様に、決定ブロック2
50の試験結果が正の場合、出力ブロック256へ移動
し、規則を関心のあるサポートを有するものとして出力
する。別の観点から見ると、試験対象の規則が関心ある
信頼叉は関心あるサポートのどちらも有さない場合、そ
の規則をシステム10の出力から除外する。出力ブロッ
ク254、256、叉は決定ブロック248、250か
ら、試験結果が負の場合はブロック252へ移り、次の
一般化された関連規則を検索し、ブロック234へ戻
る。
【0094】ここで図示して詳細を説明したデータベー
スの関連規則を検索するための特定のシステム及び方法
は、本発明の前述の目的を達成するに十分なものである
が、これは本発明の現在推奨される実施例であり、した
がって本発明により広く考慮される対象を代表するもの
であること、本発明の範囲が当業者には明かな他の実施
例を完全に包含するものであること、及び本発明の範囲
が前述の請求の範囲以外の何物にも制限されないことは
明かである。
【0095】まとめとして本発明の構成に関しては以下
の事項を開示する。
【0096】(1) ディジタル処理装置により読取り
可能なコンピュータ・プログラム記憶装置と、及び品目
セットの品目に関して階層分類法が用いられる品目セッ
トにおける関連規則を識別する方法ステップを実行する
ための、前記ディジタル処理装置により実行可能な命令
を含む、前記プログラム記憶装置上のプログラム手段で
あって、前記分類法が品目間のディセンダント及びアン
セスタの関係を定義するプログラム手段とを有するコン
ピュータ・プログラム装置であって、前記方法ステップ
は(a) 品目セットをアクセスするステップと、
(b) 前記品目セットが取引のデータベースに存在す
る回数が所定の最低サポート値を超えるサポート値を設
定するときに、品目セットを大きな品目セットの集合に
入れるステップと、(c) 前記大きな品目セットの集
合の中の少なくともいくつかの品目セットについて、前
記品目セットの選択されたサブセットが前記データベー
スの取引に現れる回数を判定するステップと、(d)
選択されたサブセットが前記データベースに現れる回数
が、関連品目セットが前記データベースに現れる回数に
対して所定の関係を保ち、その結果最低信頼制約を満足
するときに関連規則を出力するステップとを含む、コン
ピュータ・プログラム装置。 (2) 候補の大きな品目セットの次の集合を生成する
ために所定の連結形態に従って大きな品目セットの集合
の中の品目セットを連結し、及びそのサブセットが大き
な品目セットではない候補の大きな品目セットをすべて
破棄するステップと、前記候補の大きな品目セットが前
記データベースに存在する回数を判定するために、前記
候補の大きな品目セットの次の集合の中の各品目セット
を前記データベースの品目セットと比較するステップ
と、候補の大きな品目セットが前記データベースに存在
する回数が前記最低サポート値より大きな場合だけ、前
記候補の大きな品目セットを大きな品目セットの次の前
方の集合に入れるステップと、を更に含む、(1)に記
載のコンピュータ・プログラム装置。 (3) 前記分類法が有向非輪状グラフ(DAG)分類
法であり、かつ少なくともいくつかの前記品目セットが
DAG分類法におけるディセンダント品目またはアンセ
スタ品目である品目を含む、(2)に記載のコンピュー
タ・プログラム装置。 (4) 品目のアンセスタが前記候補の大きな品目セッ
トの次の集合の中の品目セットの1つに現れる場合だ
け、その品目を含む取引に該品目のアンセスタを入れ、
かつ前記方法が前記大きな品目セットの集合に前記アン
セスタを入れる前に、各品目の前記アンセスタを事前に
判定するために前記DAG分類法をアクセスするステッ
プと、前記候補の大きな品目セットの次の集合の中の品
目セットが品目及びその品目のアンセスタを含むとき
に、該候補の大きな品目セットの次の集合からその品目
セットを削除するステップと、を更に含む、(3)に記
載のコンピュータ・プログラム装置。 (5) 品目を含む取引にその品目のアンセスタを入
れ、かつ前記関連品目セットが前記データベースに存在
する回数を判定する前に、前記取引から重複する品目エ
ントリを削除するステップとを更に含む、(4)に記載
のコンピュータ・プログラム装置。 (6) 前記分類法が前記品目セットに対して適用さ
れ、かつ階層的順番のレベルで特徴付けられ、前記レベ
ルの範囲は最高レベルから最低レベルまで連続的に整数
0からnで表示され、レベル0の品目を含む品目セット
は他のレベルの品目を含む品目セットの前に、大きな品
目セットの集合に入れるためにアクセスされる、(4)
に記載のコンピュータ・プログラム装置。 (7) レベル1の品目セットがレベル0のアンセスタ
品目セットのディセンダントの場合に、該アンセスタ品
目セットが前記データベースに存在する回数が前記所定
の最低サポート値を超えないとき、該レベル1の品目セ
ットが削除され、この削除段階はレベル1の品目セット
が前記大きな品目セットの集合に入れるためにアクセス
される前に実行される、(6)に記載のコンピュータ・
プログラム装置。 (8) 前記分類法が階層的順番のレベルで特徴付けら
れ、該レベルの範囲は最高レベルから最低レベルまで連
続的に整数0からnで表示され、前記方法が、候補の大
きな品目セットを推定するために前記データベースの選
択されたサンプル部分をアクセスするステップと、大き
いと推定された品目セットを前記候補の大きな品目セッ
トの次の集合に入れるステップと、大きいと推定されな
かった品目セットで、そのアンセスタ品目セットのすべ
てが大きいと推定された品目セットを、前記候補の大き
な品目セットの次の集合に入れるステップと、を更に含
む、(4)に記載のコンピュータ・プログラム装置。 (9) 前記候補の大きな品目セットの次の集合を数え
るときに、大きいと推定されなかった品目セットのディ
センダント品目セットが、前記データベースに存在する
回数を判定するステップを更に含む、(8)に記載のコ
ンピュータ・プログラム装置。 (10) 関連規則のアンセスタの信頼及びサポートに
基づき、前記関連規則の予想信頼及びサポート値を判定
するステップと、前記関連規則の信頼及びサポート値が
所定の因子により前記予想される信頼及びサポート値を
超えるときに、該関連規則を関心のあるものと識別する
ステップと、を更に含む、(1)に記載のコンピュータ
・プログラム記憶装置。 (11) コンピュータ・システム、中央処理装置、及
び前記中央処理装置と結合され、データベースに記憶さ
れた取引の品目セットにおける関連規則を識別するため
に前記データベースを格納する手段とともに使用するコ
ンピュータ・プログラム製品であり、品目セットは階層
分類法における品目で特徴付けられ、前記分類法の階層
の任意の場所に品目を有す品目セットにおける関連規則
を識別するためのコンピュータ読取り可能プログラム手
段を有する、コンピュータ使用可能媒体を含むコンピュ
ータ・プログラム記憶装置を含み、前記コンピュータ読
取り可能プログラム手段は、(a) 品目セットをアク
セスするためのコンピュータ読取り可能コード手段と、
(b) 前記品目セットが前記データベースに存在する
回数が所定の最低サポート値を超えたときに、その品目
セットを大きな品目セットの集合に入れるためのコンピ
ュータ読取り可能コード手段と、(c) 前記大きな品
目セットの集合の中の少なくともいくつかの前記品目セ
ットについて、該品目セットの選択されたサブセットが
前記データベースの取引に現れる回数を判定するための
コンピュータ読取り可能コード手段と、(d) 選択さ
れたサブセットが前記データベースに現れる回数が、関
連品目セットが前記データベースに現れる回数に対して
所定の最低信頼関係を保ち、その結果最低信頼制約を満
足する場合に、関連規則を出力するためのコンピュータ
読取り可能コード手段とを有する、コンピュータ・プロ
グラム製品。 (12) 前記分類法が有向非輪状グラフ(DAG)分
類法であり、かつ少なくともいくつかの前記品目セット
がDAG分類法におけるディセンダント品目叉はアンセ
スタ品目である品目を含む、(11)に記載のコンピュ
ータ・プログラム製品。 (13) 品目のアンセスタが前記候補の大きな品目セ
ットの次の集合の中の品目セットの1つに現れる場合だ
け、その品目を含む取引に該品目のアンセスタを入れ、
かつ(a) 前記大きな品目セットの集合に前記アンセ
スタを入れる前に、各品目の前記アンセスタを事前に判
定するために前記DAG分類法をアクセスするコンピュ
ータ読取り可能コード手段と、(b) 前記候補の大き
な品目セットの次の集合の中の品目セットが品目及びそ
の品目のアンセスタを含むときに、該候補の大きな品目
セットの次の集合からその品目セットを削除するコンピ
ュータ読取り可能コード手段と、を更に含む、(12)
に記載のコンピュータ・プログラム製品。 (14) 品目を含む取引にその品目のアンセスタを入
れ、かつ前記関連品目セットが前記データベースに存在
する回数を判定する前に、前記取引から重複する品目エ
ントリを削除するためのコンピュータ読取り可能コード
手段を更に含む、(13)に記載のコンピュータ・プロ
グラム製品。 (15) 前記候補品目セットに適用された前記分類法
が階層順位のレベルで特徴付けられ、前記レベルの範囲
は最高レベルから最低レベルまで連続的に整数0からn
で表示され、コンピュータ読取り可能コード手段が他の
レベルの品目セットをアクセスする前に、レベル0の品
目セットを大きな品目セットの集合に入れるためにアク
セスする、(13)に記載のコンピュータ・プログラム
製品。 (16) 前記コンピュータ読取り可能コード手段が、
レベル1の品目セットがレベル0のアンセスタ品目セッ
トのディセンダントである場合に、該アンセスタ品目セ
ットが前記データベースに存在する回数が前記所定の最
低サポート値を超えないとき、レベル1の品目セットが
前記大きな品目セットの集合に入れるためにアクセスさ
れる前に、レベル1のその品目セットを削除する、(1
5)に記載のコンピュータ・プログラム製品。 (17) 前記分類法が階層順位のレベルで特徴付けら
れ、該レベルの範囲は最高レベルから最低レベルまで連
続的に整数0からnで表示され、前記コンピュータ・プ
ログラム製品が、(a) 候補の大きな品目セットを推
定するために、前記データベースの選択されたサンプル
部分をアクセスするコンピュータ読取り可能コード手段
と、(b) 大きいと推定された品目セットを、前記候
補の大きな品目セットの次の集合に入れるコンピュータ
読取り可能コード手段と、(3) 大きいと推定されなか
った品目セットで、そのアンセスタ品目セットのすべて
が大きいと推定された品目セットを、前記候補の大きな
品目セットの次の集合に入れるコンピュータ読取り可能
コード手段と、を更に含む、(13)に記載のコンピュ
ータ・プログラム製品。 (18) 前記候補の大きな品目セットの次の集合を数
えるときに、大きいと推定されなかった品目セットのデ
ィセンダント品目セットが前記データベースに存在する
回数を判定するコンピュータ読取り可能コード手段を更
に含む、(17)に記載のコンピュータ・プログラム製
品。 (19)(a) 関連規則のアンセスタの信頼及びサ
ポートに基づき、前記関連規則の予想信頼及びサポート
値を判定するコンピュータ読取り可能コード手段と、
(b) 前記関連規則の信頼及びサポート値が所定の因
子により前記予想される信頼及びサポート値を超えると
きに、該関連規則を関心のあるものと識別するコンピュ
ータ読取り可能コード手段と、を更に含む、(11)に
記載のコンピュータ・プログラム記憶装置。 (20) ディジタル処理装置により読取り可能であ
り、かつ顧客の購入傾向を発見するべく、データベース
に格納され、2つ以上の品目を有する取引の品目セット
の一般化された関連規則を識別する方法ステップを実行
するために、ディジタル処理装置により実行可能な命令
のプログラムを具体的に実施するプログラム記憶装置で
あり、前記品目は分類法構造により特徴付けられ、前記
方法ステップは、前記分類法構造の任意の場所に配置さ
れた品目を有し、少なくともユーザ定義の最低サポート
を有して繰返される品目セットを大きな品目セットとし
て識別するステップと、サブセットの繰返しが品目セッ
トの繰返しに対する所定の関係を保つときに、前記大き
な品目セットとそのサブセットとの間の関係規則を発見
するステップと、前記関連規則を顧客の購入傾向を表す
ものとして出力するステップとを含む、プログラム記憶
装置。 (21) 候補の大きな品目セットの次の集合を生成す
るステップを含み、そこでは品目のアンセスタが前記候
補の大きな品目セットの次の集合の中の品目セットの1
つに現れる場合だけ、前記品目を含む少なくとも1つの
取引にその品目のアンセスタを入れ、前記方法ステップ
は、(a) アンセスタを前記大きな品目セットの集合
に入れる前に、各品目のアンセスタを事前に判定するた
めに前記分類法構造をアクセスするステップと、(b)
前記候補の大きな品目セットの次の集合の中の品目セ
ットが品目及びその品目のアンセスタを含む場合に、該
候補の大きな品目セットの次の集合から前記品目セット
を削除するステップと、を更に含む、(20)に記載さ
れたプログラム記憶装置。 (22)(a) 関連規則のアンセスタの信頼及びサポ
ートに基づき、前記関連規則の予想信頼及びサポート値
を判定するステップと、及び(b) 前記関連規則の信
頼及びサポート値が所定の因子により前記予想される信
頼及びサポート値を超えるときに、該関連規則を関心の
あるものと識別するステップと、を更に含む、(21)
に記載のプログラム記憶装置。 (23) 分類法的構造のデータベースに格納された品
目を有す品目セットにおける関連規則を発見するデータ
ベース・マイニング・システムであり、(a) 前記品
目セットがユーザ定義の最低サポート値以上の取引デー
タベースのサポートを有するときに、大きな品目セット
を生成する大きな品目セット生成器と、(b) 前記大
きな品目セットを受取り、品目セットがそのサブセット
の少なくとも1つに対して所定の信頼関係と等しいか叉
は大きな信頼関係を保つときに関連規則を出力する関連
規則生成器と、(c) 前記サポート及び前記信頼関係
が所定の因子による予想サポート及び予想信頼関係をそ
れぞれ超えるときに、関連規則を関心のあるものとして
識別する規則選定器と、を含む、データベース・マイニ
ング・システム。 (24) 取引の品目セットと1つまたは複数の品目を
含む。その品目セットのサブセットとの間の関連規則を
識別することにより、消費者の購入傾向を発見するコン
ピュータ・ベース・システムであり、(a) 前記品目
を階層的関係で記憶するためにコンピュータがアクセス
可能な複数レベル分類法構造と、(b) 前記分類法構
造及び前記取引をアクセスし、品目セットが前記取引に
現れる第1の回数を判定し、該第1の回数が最低サポー
ト値を超えたときにその品目セットを大きな品目セット
として指摘する、大きな品目セット生成器と、(c)
前記大きな品目セット生成器をアクセスし、品目セット
の少なくとも1つのサブセットが前記取引に現れる第2
の回数を判定し、前記第1の回数が該第2の回数に対す
る所定の最低信頼関係を保つときに消費者の購入傾向を
表す関連規則を出力する、関連規則発見器と、を含む、
コンピュータ・ベース・システム。
【図面の簡単な説明】
【図1】本発明の一般化された関連規則を検索するため
のシステムの機能ブロック図である。
【図2】本発明を実施するマシン・コンポーネントを、
図示のために一部を取除いて示す図である。
【図3】本発明の全体操作を示す流れ図である。
【図4】大きな品目セットを識別する、本発明の基本実
施例の操作を示す流れ図である。
【図5】本発明の候補生成を示す流れ図である。
【図6】基本実施例で使用されるデータ構造を示す構成
図である。
【図7】基本実施例のデータ管理を示す流れ図である。
【図8】基本実施例のバッファ管理を示す流れ図であ
る。
【図9】大きな品目セットを識別する、本発明の累積実
施例の操作を示す流れ図である。
【図10】大きな品目セットを識別する、本発明の層状
実施例の操作を示す流れ図である。
【図11】大きな品目セットを識別する、本発明の推定
実施例の操作を示す流れ図である。
【図12】大きな品目セットを識別する、本発明のes
tmerg実施例の操作を示す流れ図である。
【図13】分類法全体で大きな品目セットの関連規則を
判定するための単純な方法を示す流れ図である。
【図14】分類法全体で大きな品目セットの関連規則を
判定するための比較的速い方法を示す流れ図である。
【図15】図14に示す方法の詳細を示す流れ図であ
る。
【図16】関心のない関連規則を切捨てる方法を示す流
れ図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラマクリシュナン・スリカント アメリカ合衆国95136、カリフォルニア 州、サン・ノゼ、#333、ザ・ウッズ・ ドライブ4300 (56)参考文献 Rakesh Agrawal,Ra makrishnan Srikan t,”Fast Algorithms for Mining Associ ation Rules”,PROCE EDINGS OF THE 20 TH INTERNATIONAL CON FERENCE ON VERY LA RGE DATABASES,1994,P P.487−499 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 220 G06F 17/30 180 JICSTファイル(JOIS)

Claims (24)

    (57)【特許請求の範囲】
  1. 【請求項1】品目セットの品目に関して階層分類法が用
    いられる品目セットにおける関連規則を識別するデータ
    ベース・マイニング方法であって、前記階層分類法は、
    品目間のディセンダント及びアンセスタの関係を定義
    し、 (a) 品目セットをアクセスするステップと、 (b) 前記品目セットがトランザクションのデータベ
    ースに存在する回数が所定の最低サポート値を超えるサ
    ポート値を設定するときに、品目セットを大きな品目セ
    ットの集合に入れるステップと、 (c) 前記大きな品目セットの集合の中の少なくとも
    いくつかの品目セットについて、前記品目セットの選択
    されたサブセットが前記データベースのトランザクショ
    に現れる回数を判定するステップと、 (d) 選択されたサブセットが前記データベースに現
    れる回数が、関連品目セットが前記データベースに現れ
    る回数に対して所定の関係を保ち、その結果最低信頼制
    約を満足するときに関連規則を出力するステップとを含
    むデータベース・マイニング方法。
  2. 【請求項2】候補の大きな品目セットの次の集合を生成
    するために所定の連結形態に従って大きな品目セットの
    集合の中の品目セットを連結し、及びそのサブセットが
    大きな品目セットではない候補の大きな品目セットをす
    べて破棄するステップと、 前記候補の大きな品目セットが前記データベースに存在
    する回数を判定するために、前記候補の大きな品目セッ
    トの次の集合の中の各品目セットを前記データベースの
    品目セットと比較するステップと、 候補の大きな品目セットが前記データベースに存在する
    回数が前記最低サポート値より大きな場合だけ、前記候
    補の大きな品目セットを大きな品目セットの次の前方の
    集合に入れるステップとをさらに含む請求項1に記載の
    データベース・マイニング方法。
  3. 【請求項3】前記階層分類法は有向非輪状グラフ(DA
    G)分類法であり、前記品目セットの少なくとも一部は DAG分類法におけ
    るディセンダント品目またはアンセスタ品目を含む 請求
    項2に記載のデータベース・マイニング方法。
  4. 【請求項4】品目のアンセスタが前記候補の大きな品目
    セットの次の集合の中の品目セットのいずれかに現れる
    場合だけ、その品目を含むトランザクションに該品目の
    アンセスタを入れ、 前記大きな品目セットの集合に前記アンセスタ品目を入
    れる前に、各品目の前記アンセスタ品目を事前に判定す
    るために前記DAG分類法をアクセスするステップと、 前記候補の大きな品目セットの次の集合の中の品目セッ
    トが品目及びその品目のアンセスタを含むときに、該候
    補の大きな品目セットの次の集合からその品目セットを
    削除するステップとをさらに含む請求項3に記載のデー
    タベース・マイニング方法。
  5. 【請求項5】品目を含むトランザクションにその品目の
    アンセスタを入れ、かつ前記関連品目セットが前記デー
    タベースに存在する回数を判定する前に、前記トランザ
    クションから重複する品目エントリを削除するステップ
    をさらに含む請求項4に記載のデータベース・マイニン
    グ方法。
  6. 【請求項6】前記分類法が前記品目セットに対して適用
    され、かつ階層的順番のレベルで特徴付けられ、前記レ
    ベルの範囲は最高レベルから最低レベルまで連続的に整
    数0からnで表示され、レベル0の品目を含む品目セッ
    トは他のレベルの品目を含む品目セットの前に、大きな
    品目セットの集合に入れるためにアクセスされる請求項
    4に記載のデータベース・マイニング方法。
  7. 【請求項7】レベル1の品目セットがレベル0のアンセ
    スタ品目セットのディセンダントの場合に、該アンセス
    タ品目セットが前記データベースに存在する回数が前記
    所定の最低サポート値を超えないとき、該レベル1の品
    目セットが削除され、この削除段階はレベル1の品目セ
    ットが前記大きな品目セットの集合に入れるためにアク
    セスされる前に実行される請求項6に記載のデータベー
    ス・マイニング方法。
  8. 【請求項8】前記分類法が階層的順番のレベルで特徴付
    けられ、該レベルの範囲は最高レベルから最低レベルま
    で連続的に整数0からnで表示され、 候補の大きな品目セットを推定するために前記データベ
    ースの選択されたサンプル部分をアクセスするステップ
    と、 大きいと推定された品目セットを前記候補の大きな品目
    セットの次の集合に入れるステップと、 大きいと推定されなかった品目セットで、そのアンセス
    タ品目セットのすべてが大きいと推定された品目セット
    を、前記候補の大きな品目セットの次の集合に入れるス
    テップとをさらに含む請求項4に記載のデータベース・
    マイニング方法。
  9. 【請求項9】前記候補の大きな品目セットの次の集合を
    数えるときに、大きいと推定されなかった品目セットの
    ディセンダント品目セットが、前記データベースに存在
    する回数を判定するステップをさらに含む請求項8に記
    載のデータベース・マイニング方法。
  10. 【請求項10】関連規則のアンセスタの信頼及びサポー
    トに基づき、前記関連規則の予想信頼及びサポート値を
    判定するステップと、 前記関連規則の信頼及びサポート値が所定の因子により
    前記予想される信頼及びサポート値を超えるときに、該
    関連規則を関心のあるものと識別するステップとをさら
    に含む請求項1に記載のデータベース・マイニング方
    法。
  11. 【請求項11】データベースに記憶されたトランザクシ
    ョンの品目セットにおける関連規則を識別するデータベ
    ース・マイニング方法であって、前記品目セットは階層
    分類法 における品目で特徴付けられ、前記分類法の階層
    の任意の場所に品目を有し、 (a) 品目セットをアクセスするステップと、 (b) 前記品目セットが前記データベースに存在する
    回数が所定の最低サポート値を超えたときに、その品目
    セットを大きな品目セットの集合に入れるステップと、 (c) 前記大きな品目セットの集合の中の少なくとも
    いくつかの前記品目セットについて、該品目セットの選
    択されたサブセットが前記データベースのトランザクシ
    ョンに現れる回数を判定するステップと、 (d) 選択されたサブセットが前記データベースに現
    れる回数が、関連品目セットが前記データベースに現れ
    る回数に対して所定の最低信頼関係を保ち、その結果最
    低信頼制約を満足する場合に、関連規則を出力するステ
    ップと を含むデータベース・マイニング方法。
  12. 【請求項12】前記分類法が有向非輪状グラフ(DA
    G)分類法であり、かつ少なくともいくつかの前記品目
    セットがDAG分類法におけるディセンダント品目叉は
    アンセスタ品目である品目を含む請求項11に記載のデ
    ータベース・マイニング方法。
  13. 【請求項13】品目のアンセスタが前記候補の大きな品
    目セットの次の集合の中の品目セットの1つに現れる場
    合だけ、その品目を含むトランザクションに該品目のア
    ンセスタを入れ、 (e) 前記大きな品目セットの集合に前記アンセスタ
    を入れる前に、各品目の前記アンセスタを事前に判定す
    るために前記DAG分類法をアクセスするステップと、 (f) 前記候補の大きな品目セットの次の集合の中の
    品目セットが品目及びその品目のアンセスタを含むとき
    に、該候補の大きな品目セットの次の集合からその品目
    セットを削除するステップと、 をさらに含む請求項12に記載のデータベース・マイニ
    ング方法。
  14. 【請求項14】品目を含むトランザクションにその品目
    のアンセスタを入れ、かつ前記関連品目セットが前記デ
    ータベースに存在する回数を判定する前に、前記トラン
    ザクションから重複する品目エントリを削除するステッ
    をさらに含む請求項13に記載のデータベース・マイ
    ニング方法。
  15. 【請求項15】前記候補品目セットに適用された前記分
    類法が階層順位のレベルで特徴付けられ、前記レベルの
    範囲は最高レベルから最低レベルまで連続的に整数0か
    らnで表示され、コンピュータ読取り可能コード手段が
    他のレベルの品目セットをアクセスする前に、レベル0
    の品目セットを大きな品目セットの集合に入れるために
    アクセスする請求項13に記載のデータベース・マイニ
    ング方法。
  16. 【請求項16】前記コンピュータ読取り可能コード手段
    が、レベル1の品目セットがレベル0のアンセスタ品目
    セットのディセンダントである場合に、該アンセスタ品
    目セットが前記データベースに存在する回数が前記所定
    の最低サポート値を超えないとき、レベル1の品目セッ
    トが前記大きな品目セットの集合に入れるためにアクセ
    スされる前に、レベル1のその品目セットを削除する
    求項15に記載のデータベース・マイニング方法。
  17. 【請求項17】前記分類法が階層順位のレベルで特徴付
    けられ、該レベルの範囲は最高レベルから最低レベルま
    で連続的に整数0からnで表示され、 (g) 候補の大きな品目セットを推定するために、前
    記データベースの選択されたサンプル部分をアクセスす
    ステップと、 (h) 大きいと推定された品目セットを、前記候補の
    大きな品目セットの次の集合に入れるステップと、 (i) 大きいと推定されなかった品目セットで、そのア
    ンセスタ品目セットのすべてが大きいと推定された品目
    セットを、前記候補の大きな品目セットの次の集合に入
    れるステップと をさらに含む請求項13に記載のデータ
    ベース・マイニング方法。
  18. 【請求項18】前記候補の大きな品目セットの次の集合
    を数えるときに、大きいと推定されなかった品目セット
    のディセンダント品目セットが前記データベースに存在
    する回数を判定するステップ をさらに含む請求項17に
    記載のデータベース・マイニング方法。
  19. 【請求項19】(j) 関連規則のアンセスタの信頼
    及びサポートに基づき、前記関連規則の予想信頼及びサ
    ポート値を判定するコンピュータ読取り可能コード手段
    と、(k) 前記関連規則の信頼及びサポート値が所定の因
    子により前記予想される信頼及びサポート値を超えると
    きに、該関連規則を関心のあるものと識別するコンピュ
    ータ読取り可能コード手段とをさらに含む請求項11に
    記載のデータベース・マイニング方法。
  20. 【請求項20】顧客の購入傾向を発見するべく、データ
    ベースに格納され、2つ以上の品目を有する取引の品目
    セットの一般化された関連規則を識別する関連規則識別
    方法であって、前記品目は階層分類法構造により特徴付
    けられ、 前記分類法構造の任意の場所に配置された品目を有し、
    少なくともユーザ定義の最低サポートを有して繰返され
    る品目セットを大きな品目セットとして識別するステッ
    プと、 サブセットの繰返しが品目セットの繰返しに対する所定
    の関係を保つときに、前記大きな品目セットとそのサブ
    セットとの間の関係規則を発見するステップと、 前記関連規則を顧客の購入傾向を表すものとして出力す
    るステップとを含むデータベース・マイニング方法。
  21. 【請求項21】候補の大きな品目セットの次の集合を生
    成するステップを含み、そこでは品目のアンセスタが前
    記候補の大きな品目セットの次の集合の中の品目セット
    の1つに現れる場合だけ、前記品目を含む少なくとも1
    つのトランザクションにその品目のアンセスタを入れ、 (a) アンセスタを前記大きな品目セットの集合に入
    れる前に、各品目のアンセスタを事前に判定するために
    前記分類法構造をアクセスするステップと、 (b) 前記候補の大きな品目セットの次の集合の中の
    品目セットが品目及びその品目のアンセスタを含む場合
    に、該候補の大きな品目セットの次の集合から前記品目
    セットを削除するステップとをさらに含む請求項20に
    記載されたデータベース・マイニング方法。
  22. 【請求項22】(c) 関連規則のアンセスタの信頼及
    びサポートに基づき、前記関連規則の予想信頼及びサポ
    ート値を判定するステップと、(d) 前記関連規則の信頼及びサポート値が所定の因
    子により前記予想される信頼及びサポート値を超えると
    きに、該関連規則を関心のあるものと識別するステップ
    請求項21に記載のデータベース・マイニング方法。
  23. 【請求項23】階層分類法的構造のデータベースに格納
    された品目を有す品目セットにおける関連規則を発見す
    るデータベース・マイニング・システムであり、 (a) 前記品目セットがユーザ定義の最低サポート値
    以上のトランザクションデータベースのサポートを有す
    るときに、大きな品目セットを生成する大きな品目セッ
    ト生成手段と、 (b) 前記大きな品目セットを受取り、品目セットが
    そのサブセットの少なくとも1つに対して所定の信頼関
    係と等しいか叉は大きな信頼関係を保つときに関連規則
    を出力する関連規則生成手段と、 (c) 前記サポート及び前記信頼関係が所定の因子に
    よる予想サポート及び予想信頼関係をそれぞれ超えると
    きに、関連規則を関心のあるものとして識別する規則選
    定手段を含むデータベース・マイニング・システム。
  24. 【請求項24】トランザクションの品目セットと1つま
    たは複数の品目を含む。その品目セットのサブセットと
    の間の関連規則を識別することにより、消費者の購入傾
    向を発見するデータベース・マイニング・システムであ
    り、 (a) 前記品目を階層的関係で記憶するためにコンピ
    ュータがアクセス可能な複数レベル分類法構造と、 (b) 前記分類法構造及び前記トランザクションをア
    クセスし、品目セットが前記トランザクションに現れる
    第1の回数を判定し、該第1の回数が最低サポート値を
    超えたときにその品目セットを大きな品目セットとして
    指摘する、大きな品目セット生成手段と、 (c) 前記大きな品目セット生成手段をアクセスし、
    品目セットの少なくとも1つのサブセットが前記トラン
    ザクションに現れる第2の回数を判定し、前記第1の回
    数が該第2の回数に対する所定の最低信頼関係を保つと
    きに消費者の購入傾向を表す関連規則を出力する関連規
    則発見手段と を含むデータベース・マイニング・システ
    ム。
JP8857396A 1995-05-08 1996-04-10 データベースにおける一般化された関連規則を発見するためのシステム及び方法 Expired - Lifetime JP3195233B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/436,794 US5615341A (en) 1995-05-08 1995-05-08 System and method for mining generalized association rules in databases
US436794 1999-11-08

Publications (2)

Publication Number Publication Date
JPH08314981A JPH08314981A (ja) 1996-11-29
JP3195233B2 true JP3195233B2 (ja) 2001-08-06

Family

ID=23733853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8857396A Expired - Lifetime JP3195233B2 (ja) 1995-05-08 1996-04-10 データベースにおける一般化された関連規則を発見するためのシステム及び方法

Country Status (4)

Country Link
US (1) US5615341A (ja)
EP (1) EP0742524B1 (ja)
JP (1) JP3195233B2 (ja)
DE (1) DE69614309T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US5583763A (en) * 1993-09-09 1996-12-10 Mni Interactive Method and apparatus for recommending selections based on preferences in a multi-user system
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
JP3049636B2 (ja) * 1995-03-31 2000-06-05 株式会社日立製作所 データ分析方法
US5742811A (en) * 1995-10-10 1998-04-21 International Business Machines Corporation Method and system for mining generalized sequential patterns in a large database
JP3118181B2 (ja) * 1995-10-26 2000-12-18 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データ間結合ルール導出方法及び装置
JPH09134365A (ja) * 1995-11-01 1997-05-20 Internatl Business Mach Corp <Ibm> 最適化結合ルール導出方法及び装置
JP3072708B2 (ja) * 1995-11-01 2000-08-07 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データベース検索方法及び装置
US5727199A (en) * 1995-11-13 1998-03-10 International Business Machines Corporation Database mining using multi-predicate classifiers
US5970482A (en) * 1996-02-12 1999-10-19 Datamind Corporation System for data mining using neuroagents
US5745890A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5813003A (en) * 1997-01-02 1998-09-22 International Business Machines Corporation Progressive method and system for CPU and I/O cost reduction for mining association rules
JPH10222493A (ja) * 1997-02-06 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> 相互因果関係解析システム
US5832482A (en) * 1997-02-20 1998-11-03 International Business Machines Corporation Method for mining causality rules with applications to electronic commerce
US5897637A (en) * 1997-03-07 1999-04-27 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file
US6862602B2 (en) 1997-03-07 2005-03-01 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file
US6134555A (en) * 1997-03-10 2000-10-17 International Business Machines Corporation Dimension reduction using association rules for data mining application
JP3601719B2 (ja) * 1997-04-18 2004-12-15 富士通株式会社 相関のあるデータ組み合わせの数え上げ方式
US5920855A (en) * 1997-06-03 1999-07-06 International Business Machines Corporation On-line mining of association rules
US5943667A (en) * 1997-06-03 1999-08-24 International Business Machines Corporation Eliminating redundancy in generation of association rules for on-line mining
US5884305A (en) * 1997-06-13 1999-03-16 International Business Machines Corporation System and method for data mining from relational data by sieving through iterated relational reinforcement
JPH1115842A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp データマイニング装置
US6203427B1 (en) 1997-07-03 2001-03-20 Walker Digital, Llc Method and apparatus for securing a computer-based game of chance
US6112194A (en) * 1997-07-21 2000-08-29 International Business Machines Corporation Method, apparatus and computer program product for data mining having user feedback mechanism for monitoring performance of mining tasks
US6006223A (en) * 1997-08-12 1999-12-21 International Business Machines Corporation Mapping words, phrases using sequential-pattern to find user specific trends in a text database
US7054827B1 (en) * 1997-09-24 2006-05-30 Unisys Corporation Method and apparatus for validating a survey database
US6119098A (en) * 1997-10-14 2000-09-12 Patrice D. Guyot System and method for targeting and distributing advertisements over a distributed network
US6032146A (en) * 1997-10-21 2000-02-29 International Business Machines Corporation Dimension reduction for data mining application
US6092064A (en) * 1997-11-04 2000-07-18 International Business Machines Corporation On-line mining of quantitative association rules
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
US6301575B1 (en) * 1997-11-13 2001-10-09 International Business Machines Corporation Using object relational extensions for mining association rules
US6934687B1 (en) * 1997-11-20 2005-08-23 Ncr Corporation Computer architecture and method for supporting and analyzing electronic commerce over the world wide web for commerce service providers and/or internet service providers
US6094645A (en) * 1997-11-21 2000-07-25 International Business Machines Corporation Finding collective baskets and inference rules for internet or intranet mining for large data bases
US6029176A (en) * 1997-11-25 2000-02-22 Cannon Holdings, L.L.C. Manipulating and analyzing data using a computer system having a database mining engine resides in memory
WO1999039295A1 (en) * 1998-02-03 1999-08-05 Cogit Corporation Method and apparatus for associations discovery
US6393387B1 (en) * 1998-03-06 2002-05-21 Perot Systems Corporation System and method for model mining complex information technology systems
US6311175B1 (en) 1998-03-06 2001-10-30 Perot Systems Corp. System and method for generating performance models of complex information technology systems
US20010011227A1 (en) * 1998-04-03 2001-08-02 Lawrence E. Ashery Method and apparatus for collecting information associated with movement between locations
US6230151B1 (en) * 1998-04-16 2001-05-08 International Business Machines Corporation Parallel classification for data mining in a shared-memory multiprocessor system
US6138117A (en) * 1998-04-29 2000-10-24 International Business Machines Corporation Method and system for mining long patterns from databases
JP3762835B2 (ja) * 1998-05-21 2006-04-05 富士通株式会社 データ分解装置、その方法、及び記録媒体
US6324533B1 (en) 1998-05-29 2001-11-27 International Business Machines Corporation Integrated database and data-mining system
US6278966B1 (en) 1998-06-18 2001-08-21 International Business Machines Corporation Method and system for emulating web site traffic to identify web site usage patterns
US6230153B1 (en) 1998-06-18 2001-05-08 International Business Machines Corporation Association rule ranker for web site emulation
US6189005B1 (en) 1998-08-21 2001-02-13 International Business Machines Corporation System and method for mining surprising temporal patterns
US6334131B2 (en) 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6356899B1 (en) 1998-08-29 2002-03-12 International Business Machines Corporation Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages
US6236982B1 (en) * 1998-09-14 2001-05-22 Lucent Technologies, Inc. System and method for discovering calendric association rules
US6317722B1 (en) * 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US6601058B2 (en) 1998-10-05 2003-07-29 Michael Forster Data exploration system and method
US6327587B1 (en) 1998-10-05 2001-12-04 Digital Archaeology, Inc. Caching optimization with disk and/or memory cache management
US6311179B1 (en) * 1998-10-30 2001-10-30 International Business Machines Corporation System and method of generating associations
US6442554B1 (en) 1999-01-29 2002-08-27 I2 Technologies Us, Inc. System and method for generating dependent data
US6278997B1 (en) 1999-02-05 2001-08-21 International Business Machines Corporation System and method for constraint-based rule mining in large, dense data-sets
US6389416B1 (en) * 1999-02-19 2002-05-14 International Business Machines Corporation Depth first method for generating itemsets
US6205441B1 (en) * 1999-03-31 2001-03-20 Compaq Computer Corporation System and method for reducing compile time in a top down rule based system using rule heuristics based upon the predicted resulting data flow
SG91861A1 (en) * 1999-04-27 2002-10-15 Ibm Data mining for association rules and sequential patterns within data of inhomogeneous type
US6430539B1 (en) 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US7536002B1 (en) 1999-07-09 2009-05-19 Jpmorgan Chase Bank, National Association System and method of intelligent call routing for cross sell offer selection based on optimization parameters or account-level data
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US7124111B1 (en) * 1999-09-14 2006-10-17 Jpmorgan Chase Bank, N.A. Service charge adjustment platform
US7542921B1 (en) 1999-09-30 2009-06-02 Jpmorgan Chase Bank, N.A. Network-based financial planning system and method
US6651049B1 (en) * 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules
US6677963B1 (en) * 1999-11-16 2004-01-13 Verizon Laboratories Inc. Computer-executable method for improving understanding of business data by interactive rule manipulation
US6965865B2 (en) 1999-12-30 2005-11-15 Bank One Delaware N.A. System and method for integrated customer management
US6868525B1 (en) 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
US7299194B1 (en) * 2000-02-22 2007-11-20 International Business Machines Corporation Method and system for researching sales effects of advertising using association analysis
US7007020B1 (en) * 2000-03-10 2006-02-28 Hewlett-Packard Development Company, L.P. Distributed OLAP-based association rule generation method and system
US7212996B1 (en) 2000-04-20 2007-05-01 Jpmorgan Chase Bank, N.A. System and method for dynamic, multivariable comparison of financial products
US7031935B1 (en) * 2000-07-31 2006-04-18 J.P. Morgan Advisory Services Inc. Method and system for computing path dependent probabilities of attaining financial goals
US20020035504A1 (en) * 2000-08-16 2002-03-21 Alyssa Dver Lead suspect management
US6711577B1 (en) 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
US7539677B1 (en) 2000-10-09 2009-05-26 Battelle Memorial Institute Sequential pattern data mining and visualization
US7580890B2 (en) * 2000-10-12 2009-08-25 Jpmorgan Chase Bank, N.A. System and method for supervising account management operations
US8458059B2 (en) * 2000-12-13 2013-06-04 Capguard.Com, Inc. Apparatus and method for assessing market conditions
US7295999B1 (en) 2000-12-20 2007-11-13 Jpmorgan Chase Bank, N.A. System and method for determining eligibility and enrolling members in various programs
US7162439B2 (en) * 2000-12-22 2007-01-09 General Electric Company Workstation configuration and selection method and apparatus
US8712886B2 (en) * 2001-01-03 2014-04-29 International Business Machines Corporation Apparatus and method for categorizing services using canonical service descriptions
US7725423B1 (en) * 2001-02-08 2010-05-25 Teradata Us, Inc. Analyzing associations in the order of transactions
US6952693B2 (en) * 2001-02-23 2005-10-04 Ran Wolff Distributed mining of association rules
US7895098B2 (en) 2001-03-01 2011-02-22 Jpmorgan Chase Bank, N.A. System and method for measuring and utilizing pooling analytics
US20020128998A1 (en) * 2001-03-07 2002-09-12 David Kil Automatic data explorer that determines relationships among original and derived fields
US20020129342A1 (en) * 2001-03-07 2002-09-12 David Kil Data mining apparatus and method with user interface based ground-truth tool and user algorithms
US20030130991A1 (en) * 2001-03-28 2003-07-10 Fidel Reijerse Knowledge discovery from data sets
US6988104B2 (en) 2001-04-02 2006-01-17 I2 Technologies U.S., Inc. System and method for allocating data in a hierarchical organization of data
US6754651B2 (en) 2001-04-17 2004-06-22 International Business Machines Corporation Mining of generalized disjunctive association rules
US8260656B1 (en) 2001-04-19 2012-09-04 Amazon.Com, Inc. Mining of user-generated playlists for data regarding relationships between digital works
KR20020087612A (ko) * 2001-05-15 2002-11-23 (주)코어로직스 고객 관계 관리를 위한 데이터 베이스 생성 장치 및 그 방법
US20020188497A1 (en) * 2001-06-12 2002-12-12 Cerwin Francis Anthony System and method for customer knowledge respository
US20030014306A1 (en) * 2001-07-13 2003-01-16 Marko Kurt R. Method and system for providing coupons
US6873994B2 (en) 2001-08-31 2005-03-29 I2 Technologies Us, Inc. Conflict detection and resolution in association with data allocation
KR20030032096A (ko) * 2001-10-10 2003-04-26 이창환 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체
US20100125521A1 (en) * 2001-12-03 2010-05-20 Hanan Christopher C Biller focused business to business electronic invoice presentment and accounts receivables reconciliation system
US7162480B2 (en) 2001-12-26 2007-01-09 Sbc Technology Resources, Inc. Usage-based adaptable taxonomy
US7428531B2 (en) 2002-02-06 2008-09-23 Jpmorgan Chase Bank, N.A. Customer information management system and method
US7756896B1 (en) 2002-03-11 2010-07-13 Jp Morgan Chase Bank System and method for multi-dimensional risk analysis
KR20020039281A (ko) * 2002-03-20 2002-05-25 조근식 인터넷상에서의 대화를 이용한 상품 추천 방법 및 그 시스템
WO2003083619A2 (en) 2002-03-29 2003-10-09 Bank One, Delaware, N.A. System and process for performing purchase transaction using tokens
WO2003085483A2 (en) * 2002-04-03 2003-10-16 Venture Catalyst Incorporated Information processing system for targeted marketing and customer relationship management
US20040143496A1 (en) * 2002-04-03 2004-07-22 Javier Saenz System and method for offering awards to patrons of an establishment
US20030216966A1 (en) * 2002-04-03 2003-11-20 Javier Saenz Information processing system for targeted marketing and customer relationship management
US6763354B2 (en) 2002-05-10 2004-07-13 Agentarts, Inc. Mining emergent weighted association rules utilizing backlinking reinforcement analysis
US7606756B2 (en) * 2002-08-02 2009-10-20 Jpmorgan Chase Bank, N.A. Synthetic funds having structured notes
US8370203B2 (en) * 2002-10-07 2013-02-05 Amazon Technologies, Inc. User interface and methods for recommending items to users
US7769650B2 (en) 2002-12-03 2010-08-03 Jp Morgan Chase Bank Network-based sub-allocation systems and methods for swaps
US7962483B1 (en) * 2002-12-20 2011-06-14 Oracle International Corporation Association rule module for data mining
US20040148566A1 (en) * 2003-01-24 2004-07-29 Jp Morgan Chase Bank Method to evaluate project viability
US20040148241A1 (en) * 2003-01-24 2004-07-29 Qi Thomas J. Method of evaluating a portfolio of leased items
US7394809B2 (en) * 2003-03-31 2008-07-01 Intel Corporation Method and apparatus for packet classification using a forest of hash tables data structure
WO2005017694A2 (en) * 2003-08-11 2005-02-24 Jp Morgan Chase Bank Coupon payment system
US7624068B1 (en) * 2003-08-18 2009-11-24 Jpmorgan Chase Bank, N.A. Method and system for dynamically adjusting discount rates for a card transaction
US7426520B2 (en) 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
US20050060252A1 (en) * 2003-09-11 2005-03-17 Andrew Doddington Graphical software tool for modeling financial products
US7739080B1 (en) 2004-04-19 2010-06-15 Versata Development Group, Inc. Consolidation of product data models
US7155446B2 (en) * 2004-05-14 2006-12-26 Oracle International Corporation Performing recursive database operations
US7680685B2 (en) * 2004-06-05 2010-03-16 Sap Ag System and method for modeling affinity and cannibalization in customer buying decisions
JP4746850B2 (ja) 2004-06-21 2011-08-10 富士通株式会社 パターン生成プログラム
US7974895B1 (en) 2004-07-16 2011-07-05 Jp Morgan Chase Bank System and method for developing finance rate information
US7480631B1 (en) 2004-12-15 2009-01-20 Jpmorgan Chase Bank, N.A. System and method for detecting and processing fraud and credit abuse
US20060149664A1 (en) * 2004-12-30 2006-07-06 Jp Morgan Chase Bank Marketing system and method
US20110161958A1 (en) * 2005-01-03 2011-06-30 Jp Morgan Chase Bank Method and system for managing business calculations using multi-dimensional data
US7890343B1 (en) 2005-01-11 2011-02-15 Jp Morgan Chase Bank System and method for generating risk management curves
US7490075B2 (en) * 2005-01-24 2009-02-10 Microsoft Corporation Scaleable data itemsets and association rules
US7395254B2 (en) * 2005-04-21 2008-07-01 Xerox Corporation Method for dynamic knowledge capturing in production printing workflow domain
JP2007094592A (ja) * 2005-09-27 2007-04-12 Fusion Kk マーケティングデータ収集分析システム、サーバシステム及びマーケティングデータ収集分析プログラム
US7788131B2 (en) * 2005-12-15 2010-08-31 Microsoft Corporation Advertising keyword cross-selling
US7962396B1 (en) 2006-02-03 2011-06-14 Jpmorgan Chase Bank, N.A. System and method for managing risk
US7707192B1 (en) 2006-05-23 2010-04-27 Jp Morgan Chase Bank, N.A. Confidence index for assets
US7836004B2 (en) * 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
US8121896B1 (en) 2007-01-05 2012-02-21 Coolsoft, LLC System and method for presenting advertisements
US8161399B2 (en) * 2007-01-20 2012-04-17 International Business Machines Corporation Automated learning system for improving graphical user interfaces
US8171001B2 (en) * 2007-06-27 2012-05-01 International Business Machines Corporation Using a data mining algorithm to generate rules used to validate a selected region of a predicted column
US8166000B2 (en) * 2007-06-27 2012-04-24 International Business Machines Corporation Using a data mining algorithm to generate format rules used to validate data sets
US8401987B2 (en) * 2007-07-17 2013-03-19 International Business Machines Corporation Managing validation models and rules to apply to data sets
US9578123B2 (en) * 2008-01-08 2017-02-21 International Business Machines Corporation Light weight portal proxy
GB2456369A (en) * 2008-01-11 2009-07-15 Ibm String pattern analysis for word or genome analysis
US7707089B1 (en) 2008-03-12 2010-04-27 Jpmorgan Chase, N.A. Method and system for automating fraud authorization strategies
US8478637B1 (en) 2008-04-08 2013-07-02 Jpmorgan Chase Bank, N.A. Index for assessing discount potential
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table
US20100205034A1 (en) * 2009-02-09 2010-08-12 William Kelly Zimmerman Methods and apparatus to model consumer awareness for changing products in a consumer purchase model
US20100306028A1 (en) * 2009-06-02 2010-12-02 Wagner John G Methods and apparatus to model with ghost groups
US20110071874A1 (en) * 2009-09-21 2011-03-24 Noemie Schneersohn Methods and apparatus to perform choice modeling with substitutability data
US8280899B2 (en) * 2009-10-14 2012-10-02 Microsoft Corporation Abstracting events for data mining
US8386381B1 (en) 2009-12-16 2013-02-26 Jpmorgan Chase Bank, N.A. Method and system for detecting, monitoring and addressing data compromises
US20110307327A1 (en) * 2010-06-14 2011-12-15 Fair Isaac Corporation Optimization of consumer offerings using predictive analytics
US8554631B1 (en) 2010-07-02 2013-10-08 Jpmorgan Chase Bank, N.A. Method and system for determining point of sale authorization
US9805111B2 (en) * 2010-10-04 2017-10-31 Telefonaktiebolaget L M Ericsson Data model pattern updating in a data collecting system
JP5528292B2 (ja) * 2010-10-14 2014-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 意味のある頻出アイテムセットを抽出するシステム、方法及びプログラム
US9311615B2 (en) 2010-11-24 2016-04-12 International Business Machines Corporation Infrastructure asset management
US20120259676A1 (en) 2011-04-07 2012-10-11 Wagner John G Methods and apparatus to model consumer choice sourcing
US9542532B1 (en) 2011-10-07 2017-01-10 Cerner Corporation Decision support recommendation optimization
US9311383B1 (en) 2012-01-13 2016-04-12 The Nielsen Company (Us), Llc Optimal solution identification system and method
US20130204657A1 (en) * 2012-02-03 2013-08-08 Microsoft Corporation Filtering redundant consumer transaction rules
US8930303B2 (en) 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
US9110969B2 (en) 2012-07-25 2015-08-18 Sap Se Association acceleration for transaction databases
WO2014143729A1 (en) 2013-03-15 2014-09-18 Affinnova, Inc. Method and apparatus for interactive evolutionary optimization of concepts
US9785995B2 (en) 2013-03-15 2017-10-10 The Nielsen Company (Us), Llc Method and apparatus for interactive evolutionary algorithms with respondent directed breeding
US10467236B2 (en) * 2014-09-29 2019-11-05 International Business Machines Corporation Mining association rules in the map-reduce framework
US10147108B2 (en) 2015-04-02 2018-12-04 The Nielsen Company (Us), Llc Methods and apparatus to identify affinity between segment attributes and product characteristics
CN106021546A (zh) * 2016-05-27 2016-10-12 西华大学 基于项目子集事例树的极小非约简关联规则挖掘方法
US11106642B2 (en) 2018-12-26 2021-08-31 Io-Tahoe LLC. Cataloging database metadata using a probabilistic signature matching process
US11455312B1 (en) 2019-11-20 2022-09-27 Sabre Glbl Inc. Data query system with improved response time
US11748384B2 (en) 2021-05-28 2023-09-05 International Business Machines Corporation Determining an association rule

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173851A (en) * 1984-07-18 1992-12-22 Catalina Marketing International, Inc. Method and apparatus for dispensing discount coupons in response to the purchase of one or more products
US4949256A (en) * 1988-05-06 1990-08-14 Humble David Raymond Coupon validation network with storage of customer coupon data for credit on future purchases
US5305196A (en) * 1989-05-01 1994-04-19 Credit Verification Corporation Check transaction processing, database building and marketing method and system utilizing automatic check reading
US5056019A (en) * 1989-08-29 1991-10-08 Citicorp Pos Information Servies, Inc. Automated purchase reward accounting system and method
US5401946A (en) * 1991-07-22 1995-03-28 Weinblatt; Lee S. Technique for correlating purchasing behavior of a consumer to advertisements
US5369571A (en) * 1993-06-21 1994-11-29 Metts; Rodney H. Method and apparatus for acquiring demographic information
US5459306A (en) * 1994-06-15 1995-10-17 Blockbuster Entertainment Corporation Method and system for delivering on demand, individually targeted promotions

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Rakesh Agrawal,Ramakrishnan Srikant,"Fast Algorithms for Mining Association Rules",PROCEEDINGS OF THE 20 TH INTERNATIONAL CONFERENCE ON VERY LARGE DATABASES,1994,PP.487−499

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法

Also Published As

Publication number Publication date
DE69614309D1 (de) 2001-09-13
EP0742524B1 (en) 2001-08-08
EP0742524A2 (en) 1996-11-13
US5615341A (en) 1997-03-25
JPH08314981A (ja) 1996-11-29
EP0742524A3 (en) 1998-02-18
DE69614309T2 (de) 2002-04-25

Similar Documents

Publication Publication Date Title
JP3195233B2 (ja) データベースにおける一般化された関連規則を発見するためのシステム及び方法
US5794209A (en) System and method for quickly mining association rules in databases
US5724573A (en) Method and system for mining quantitative association rules in large relational tables
Aggarwal et al. Online generation of association rules
US5742811A (en) Method and system for mining generalized sequential patterns in a large database
Srikant et al. Mining generalized association rules
US5842200A (en) System and method for parallel mining of association rules in databases
KR100896528B1 (ko) 데이터 스트림으로부터 연관규칙을 생성하는 방법 및데이터 마이닝 시스템
US6311179B1 (en) System and method of generating associations
Dunkel et al. Data organization and access for efficient data mining
Aggarwal et al. Finding localized associations in market basket data
US5930789A (en) System and method for discovering similar time sequences in databases
Zhu On-line analytical mining of association rules
AL-Zawaidah et al. An improved algorithm for mining association rules in large databases
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
US20070214115A1 (en) Event detection based on evolution of click-through data
US6226634B1 (en) Association rule generation and group-by processing system
US6931403B1 (en) System and architecture for privacy-preserving data mining
JPH11306185A (ja) 重み付け関連ルールを生成する方法および装置
CN106991141A (zh) 一种基于深度剪枝策略的关联规则挖掘方法
US6694303B1 (en) Method and system for building a Naive Bayes classifier from privacy-preserving data
US6415287B1 (en) Method and system for mining weighted association rule
US6389416B1 (en) Depth first method for generating itemsets
Nanopoulos et al. Efficient similarity search for market basket data
Chand et al. Target oriented sequential pattern mining using recency and monetary constraints

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080601

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080601

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090601

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100601

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110601

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120601

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120601

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 12

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term