JP3195233B2

JP3195233B2 - データベースにおける一般化された関連規則を発見するためのシステム及び方法

Info

Publication number: JP3195233B2
Application number: JP8857396A
Authority: JP
Inventors: ラケシュ・アグラワル; ラマクリシュナン・スリカント
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-05-08
Filing date: 1996-04-10
Publication date: 2001-08-06
Anticipated expiration: 2016-04-10
Also published as: EP0742524A3; JPH08314981A; DE69614309D1; EP0742524A2; EP0742524B1; DE69614309T2; US5615341A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはデータ
処理に関連し、更に詳細に述べれば、データベースに記
録されたかなりの数の取引の間の、一般化された関連規
則を発見する「コンピュータ・データベース・マイニン
グに関連する。特に、本発明は販売取引の大型データベ
ースに関連する。

【０００２】

【従来の技術】顧客の購入習慣は、幅広く多様なアプリ
ケーションに非常に重要なマーケティング情報を提供で
きる。例えば、ある顧客が品目の第１の集合を購入した
場合に、同じ顧客がその第１の集合と一緒に品目の特定
の第２の集合を購入することを、ある程度の確率で予想
できることが分かっている場合、それが分かっていない
場合より効果的な店頭陳列及び在庫管理が小売業者に可
能になる。即ち、１つの取引での品目セット間の関連規
則を知ることは、マーケティングの観点から有効であ
る。例を挙げれば、自動車のバッテリとバッテリ・ケー
ブルを購入する顧客の９０％が、バッテリ・ポスト・ブ
ラシとバッテリ・ポスト・クレンザも購入するという事
実（本発明では、「結果」という用語で呼ぶ）を示す関
連規則が分かっていることは、自動車部品と備品の小売
り業者にとって役に立つ。

【０００３】広告業者もまた、このような顧客の購入傾
向に関する完全な情報から恩恵を得ることができる。更
に、カタログ業者は、特定の品目の集合を別の品目の集
合と一緒に購入する消費者の傾向を知れば、もっと効果
的な大量郵送を実施できる。ここでの説明は本発明、デ
ータベース・マイニングのマーケティング・アプリケー
ションに対する適用について特に説明しているが、本発
明の原理は、ビジネスやサイエンスなど他の多くの分野
でも有効であることは明かである。

【０００４】最近まで、何千、あるいは統計的観点から
はできれば何百万の顧客取引を記録する大型で詳細なデ
ータベースを構築することは困難だった。ましてやデー
タベースから役に立つ情報を引出すこと（即ち、データ
ベースのマイニング）は、ほとんど不可能だった。その
結果、マーケティング及び広告戦略は、購入習慣があっ
た場合でも、それについての論拠のない話に基づいたも
のであり、消費者の的を絞ることがどうしても非能率的
になり、これを克服することは、不可能ではないにして
も非常に難しかった。

【０００５】しかし、現代技術の到来により、消費者取
引の大型データベースの構築が可能になった。どこにで
もあるバーコード読取り機は、ほとんど瞬時にいわゆる
バスケット・データを読取る。即ち、特定のロットから
の特定の品目がいつ消費者に購入されたか、その消費者
がいくつ品目を購入したか等の情報が、バスケット・デ
ータの自動電子記憶のために読取られる。更に、例えば
クレジット・カードで購入された場合、購入者の識別も
瞬時に実行され、記録され、バスケット・データと共に
記憶される。また、改良の著しいデータ記憶媒体によ
り、膨大な量のこの種の情報を、将来使用するために電
子的に記憶することが可能になった。

【０００６】しかし、上記でも触れたように、取引デー
タベースの構築はマーケティングの挑戦の一部にすぎな
い。もう１つの重要な部分は、有効な情報のデータベー
ス・マイニングである。データベースのサイズがギガバ
イト、さらにはテラバイトの範囲まで広がるにつれて、
このようなデータベース・マイニングの問題が大きくな
った。

【０００７】当然のことながら、購入傾向、即ちデータ
ベース・マイニングの特定の形態はいろいろな方法で分
類できる。例えば、上記で参照した米国特許出願第０８
／４１５，００６号の「データベースの関連規則を迅速
にマイニングするシステムと方法」（以降「親出願」）
では、単一取引での購入習慣を示す関連規則の迅速なマ
イニングのための有効なシステムを開示している。即
ち、ユーザが定義する信頼の程度で、頻繁に繰返される
品目セットが、他の頻繁に繰返される品目セットと一緒
に１つの取引で購入されやすいことを示す規則がマイニ
ングされる。本発明に基づき、ここでは「最低サポー
ト」と呼ぶ、少なくともユーザが定義する規則性でデー
タベースに品目セットが現れる場合、品目セットがデー
タベースで「頻繁に発生」し、その品目セットは「大き
い」と呼ばれる。

【０００８】親出願で開示された発明を含めて、以前の
データベース・マイニング・システムは、分類法の異な
るレベルの間の関連規則のマイニングは考慮せず、その
代わりに、マイニングされた規則の中の品目を、データ
ベースの枝葉ノードに制限した。したがって、例えば品
目「ジャケット」が階層的に品目「外出着」に従属し、
「外出着」が品目「衣類」に階層的に従属するような品
目セットの分類法の場合、親発明では、ジャケットを購
入する消費者は同時にハイキング・ブーツを購入する傾
向があることを示す関連規則を生成するが、もっと一般
化した規則、例えば、外出着叉は衣類を購入する消費者
はハイキング・ブーツを購入する傾向があるという規則
は生成できない。また、分類法の中での品目のサポート
は、必ずしもその子供のサポートの合計とは等しくない
ので、枝葉の品目に関する規則から、分類法のそれより
上のレベルの品目についての規則は推論できない。

【０００９】残念ながら、関連規則が分類法の枝葉だけ
に制限される場合、多くの重要な関連が検出されないで
洩れてしまう。例えば、ジャケットと一緒にハイキング
・ブーツを購入する消費者はわずかでも、一般的な外出
着と一緒にハイキング・ブーツを購入する消費者は多数
いることも多分あるだろう。しかし、以前のマイニング
・システムではこれを検出できない。更に、ジャケット
を購入する消費者がハイキング・ブーツを購入する傾向
があることを示す規則は、親発明でも検出できるが、こ
のような規則が、マーケティングの観点から、一般的な
外出着を購入する消費者がハイキング・ブーツを購入す
る傾向があるという事実程にはほとんど関心を引かない
場合があり得る。したがって、分類法を考慮しない結
果、以前のシステムは関心のない規則及び冗長な規則を
切り落とすことができない。以上により、本発明は、分
類法を考慮し、その結果ユーザ定義の関心の基準も満足
するような、一般化された関連規則を発見することを目
指している。

【００１０】

【発明が解決しようとする課題】本発明の目的は、一般
化された関連規則を発見するための、大型データベース
をマイニングするシステム及び方法を提供することにあ
る。本発明の他の目的は、取引データベースに品目分類
法に基づいて記憶された品目セットの、一般化された関
連規則を発見するシステム及び方法を提供することにあ
る。本発明の他の目的は、ユーザが定義した程度の規則
性で繰返され、ユーザが定義した信頼度を満足させ、及
びユーザが定義した関心の基準を満足させる、関心のあ
る関連規則を発見するシステム及び方法を提供すること
にある。本発明のまた別の目的は、使いやすく費用効果
の高い、大型データベースの高速マイニングのためのシ
ステム及び方法を提供することにある。

【００１１】

【問題を解決するための手段】本発明は、品目セットの
中の品目の分類法に基づいて、大型データベースに記憶
された、品目セット叉は取引とも呼ばれるものの関連規
則を識別する手続きに関連する。

【００１２】本発明は、品目セットの品目の階層分類法
を使って、ディジタル処理装置に品目セットの関連規則
を識別する方法ステップを実行させる、重要なマシン・
コンポーネントに実現される。分類法は、品目間のディ
センダントとアンセスタ関係を定義する。以降、マシン
・コンポーネントを「コンピュータ・プログラム製品」
と呼ぶ。

【００１３】本発明に基づき、方法ステップは、品目セ
ットをアクセスするステップ、及び取引のデータベース
に品目セットが存在する回数が、所定の最低サポート値
を超えるサポート値を確立したときに、その品目セット
を大きな品目セットの集合へ入れるステップが含まれ
る。次に、大きな品目セットの集合の中の少なくともい
くつかの品目セットについて、品目セットの選択された
サブセットがデータベースの取引に現れた回数が判定さ
れる。選択されたサブセットがデータベースに現れた回
数が、関連品目セットがデータベースに現れた回数に対
して所定の関係を保ち、その結果最低信頼制約を満足す
るときに、関連規則が出力される。

【００１４】できれば、前記方法には、候補の大きな品
目セットの次の集合を生成するために、所定の連結形態
に従って大きな品目セットの集合にある品目セットを連
結するステップ、及び、候補の大きな品目セットの中
で、そのサブセットが大きな品目セットではないような
候補の大きな品目セットをすべての破棄するステップを
含む。また、候補の大きな品目セットの次の集合の中の
各品目セットは、データベースの品目セットと比較さ
れ、候補の大きな品目セットがデータベースに存在する
回数を判定する。方法ステップには、候補の大きな品目
セットがデータベースに存在する回数が最低サポート値
より大きい場合だけ、大きな品目セットの次の前方の集
合に候補の大きな品目セットを入れるステップが含まれ
る。

【００１５】推奨される実施例では、分類法は有向非輪
状グラフ（ＤＡＧ）分類法であり、少なくとも品目セッ
トのいくつかは、ＤＡＧ分類法の中のディセンダント品
目及びアンセスタ品目である品目を含む。候補の大きな
品目セットの次の集合の中の品目セットの１つにアンセ
スタが現れるときだけ、品目を含む取引にその品目のア
ンセスタが入れられる。最適化するために、方法ステッ
プには、アンセスタを大きな品目セットの集合に入れる
前に、各品目のアンセスタを事前に決定するために、Ｄ
ＡＧ分類法をアクセスするステップが含まれる。また、
候補の大きな品目セットの次の集合の中の品目セット
が、品目及びその品目のアンセスタを含む場合、候補の
大きな品目セットの次の集合から品目セットを削除する
ステップが含まれる。更に最適化すると、方法ステップ
は、関連品目セットがデータベースに存在する回数を決
定する前に、品目のアンセスタを、その品目を含む取引
に入れるステップ、及び重複する品目エントリを取引か
ら削除するステップを含む。

【００１６】もう１つの推奨実施例では、分類法は品目
セットに適用され、レベルの階層順位で特徴付けられ
る。最高レベルから最低レベルのレベル範囲は、０から
ｎの整数で連続的に表される。レベル０で品目を含む品
目セットは、他のレベルで品目を含む品目セットの前
に、大きな品目の集合に入れるためにアクセスされる。

【００１７】このいわゆる「層状」実施例では、アンセ
スタ品目セットがデータベースに存在する回数が所定の
最低サポート値を超えないときに、レベル１の品目セッ
トがレベル０の中のアンセスタ品目セットのディセンダ
ントである場合、そのレベル１の品目セットは削除され
る。ここで推察されるように、レベル１の品目セットを
大きな品目セットの集合に入れるためにアクセスする前
に、この削除ステップが実行される。

【００１８】また別の推奨実施例では、分類法はレベル
の階層順位で特徴付けられ、最高レベルから最低レベル
のレベル範囲は０からｎの整数で連続的に表される。こ
のいわゆる「推定」実施例では、前記方法には更にデー
タベースの選択されたサンプル部分をアクセスして候補
の大きな品目セットを推定する段階が含まれる。大きな
品目セットであると推定された品目セットは、候補の大
きな品目セットの次の集合に入れられる。また、自分は
大きいと推定されなかったが、アンセスタ品目セットが
すべて大きな品目セットであると推定された品目セット
は、候補の大きな品目セットの次の集合に入れられる。
いわゆる「ｅｓｔｍｅｒｇｅ」実施例では、候補の大き
な品目セットの次の集合が数えられるときに、大きいと
推定されなかった品目セットのディセンダント品目セッ
トがデータベースに存在する回数を判定するステップが
方法ステップに含まれる。

【００１９】必要な場合は、コンピュータ・プログラム
記憶装置で生成される関連規則では、関連規則のアンセ
スタの信頼及びサポートに基づいてその関連規則の信頼
及びサポートの予想値を決めることにより、関心のない
規則を取り除くことができる。関連規則の信頼及びサポ
ート値が所定の因子により予想される信頼及びサポート
値を超える場合、関連規則は関心あるものであると識別
される。

【００２０】本発明の別の観点では、ディジタル処理装
置により読取り可能であり、コンピュータ・プログラム
を具体的に実施するコンピュータ・プログラム製品が開
示される。前記コンピュータ・プログラム製品は、コン
ピュータ読取り可能媒体を、データベースの品目セット
の関連規則を識別するプログラム・コード要素と結合す
る。各品目セットは、分類法により配置された２つ以上
の品目を有し、その結果、一般化された顧客購入傾向が
発見される。

【００２１】本発明では、コード要素はコンピュータ読
取り可能媒体に記憶されたプログラムに具現化される。
これらのコード要素は、品目セットをアクセスし、その
品目セットがデータベースに存在する回数が、所定の最
低サポート値を超えたときに、これを大きな品目セット
の集合に入れる。更に、コード要素は、大きな品目セッ
トの集合の中の少なくともいくつかの品目セットについ
て、その品目セットの選択されたサブセットがデータベ
ースの取引に現れる回数を判定する。更に、選択された
サブセットがデータベースに現れる回数が、関連する品
目セットがデータベースに現れる回数に対する所定の最
低信頼関係を保ち、したがって最低の信頼制約を満足す
る場合に、コード要素は関連規則を出力する。

【００２２】また別の観点では、プログラム記憶装置は
ディジタル処理装置により読取り可能であり、またディ
ジタル処理装置により実行可能な命令のプログラムを具
体的に実施する。ディジタル処理装置は、データベース
に記憶され、２つ以上の品目を有する取引の品目セット
について導き出された関連規則を識別する方法ステップ
を実施するプログラムを実行する。品目は、分類法構造
により特徴付けられ、その結果顧客購入傾向が発見され
る。

【００２３】方法ステップは、分類法構造の任意の位置
に配置された品目を有し、少なくともユーザ定義の最低
サポートを有して繰返す品目セットを大きな品目セット
と識別するステップを含む。更に、方法ステップは、大
きな品目セットとそのサブセットとの間で、サブセット
の繰返しが品目セットの繰返しに対して所定の関係を保
つときに、大きな品目セットとサブセット間の関連規則
を発見するステップを含む。また、方法ステップは、関
連規則を顧客購入傾向を表すものとして出力するステッ
プを含む。

【００２４】本発明の更に別の観点では、分類法的に構
造化されたデータベースに記憶された品目を有する品目
セットの中の関連規則を発見するための、データベース
・マイニング・システムが開示される。前記マイニング
・システムには、品目セットが取引データベースの中
で、少なくともユーザ定義の最低サポート値と等しいサ
ポートを有するときに、大きな品目セットを生成するた
めの、大きな品目セット生成器が含まれる。また、大き
な品目セットを受取り、品目セットがそのサブセットの
少なくとも１つに対して、所定の信頼関係と等しいかそ
れより大きな信頼関係を保つときに関連規則を出力する
ための、関連規則生成器が含まれる。更にシステムに
は、サポート及び信頼関係が、事前に選択された因子に
より予想されるサポート及び予想される信頼関係をそれ
ぞれ超えたときに、関連規則を関心のあるものとして識
別するための規則選定器を含む。

【００２５】更に別の観点から、取引の品目セットとそ
の品目セットのサブセットとの間の関連規則を識別する
ことによって、消費者の購入傾向を発見するためのコン
ピュータ・ベースのシステムが開示される。ここでは、
サブセットには１つ以上の品目が含まれる。システムに
は、品目を階層的関係で記憶するためにコンピュータに
よりアクセス可能な、マルチレベル分類法構造が含まれ
る。品目セットが取引に現れる第１の回数を判定し、第
１の回数が最低サポート値を超えるときにその品目セッ
トを大きな品目セットとして指定するために、分類法構
造及び取引をアクセスする大きな品目セット生成器が提
供される。

【００２６】関連規則発見器は、品目セットの少なくと
も１つのサブセットが取引に現れる第２の回数を判定す
るために、大きな品目セット生成器をアクセスする。本
発明に基づき、関連規則発見器は、第１の回数が第２の
回数に対して所定の最低信頼関係を保つときに、消費者
の購入傾向を表す関連規則を出力する。

【００２７】

【発明の実施の形態】図１は、一般化した関連規則を見
つけるためのデータベース・マイニング・システム１０
を示す。図の特定の構成では、システム１０には１つ以
上のディジタル処理装置、例えば、クライアント・コン
ピュータ１２及びサーバ・コンピュータ１４が含まれ
る。実施例の１つでは、サーバ・コンピュータ１４はＩ
ＢＭのメインフレーム・コンピュータで、ＭＶＳ等の商
標で市販のオペレーティング・システムを使用する。若
しくは、サーバ・コンピュータ１４にはＵｎｉｘコンピ
ュータ、ＯＳ／２サーバ、叉はＷｉｎｄｏｗｓＮＴサ
ーバ、叉はＡＩＸ３．２．５を実行する１２８ＭＢのメ
イン・メモリを有するＩＢＭＲＳ／６０００２５０
ワークステーションを使用できる。サーバ・コンピュー
タ１４は、独自でＤＢ２叉はＯＲＡＣＬＥ等のデータベ
ース・システムを有し、若しくはディスク、例えば２Ｇ
ＢＳＣＳＩ３．５″ドライブ、叉はテープなどのデー
タ記憶媒体のファイルにデータを保持することができ
る。ここに示した構成以外の構成も使用できることは明
かである。例えば、クライアント・コンピュータ１２の
機能は、サーバ・コンピュータ１４に組込むことが可能
であるし、またその逆も可能である。

【００２８】図に示すように、サーバ・コンピュータ１
４のオペレーティング・システムには、マイニング・カ
ーネル１６が含まれ、これはサーバ・コンピュータ１４
内で一連のコンピュータ実行可能命令としてプロセッサ
が実行する。これらの命令は、例えばコンピュータ１４
のＲＡＭに常駐できる。

【００２９】代替案として、図２に示すコンピュータ・
ディスケット１５などのコンピュータ読取り可能媒体を
有するデータ記憶装置に命令を格納することができる。
叉は、命令をＤＡＳＤアレイ、磁気テープ、従来型ハー
ド・ディスク・ドライブ、電子的読取り専用メモリ、光
記憶装置、叉はその他の適切なデータ記憶装置に格納で
きる。図示した発明の実施例では、コンピュータ実行可
能命令は、コンパイルされたＣ⁺⁺言語コードの列であ
る。

【００３０】図３から図１６は、コンピュータ・プログ
ラムに実施されるこのような命令の構造を示す。図３か
ら図１６が、本発明に従って機能するコンピュータ・プ
ログラム・コード要素の構造を示すことは、当業者には
理解されるだろう。本発明はその本質的な実施例で、図
示したものに対応する一連の機能段階を実行するように
ディジタル処理装置（即ちコンピュータ）に対して命令
する形式の、コンピュータ・プログラム・コード要素を
有するマシン・コンポーネントにより実施されることは
明かである。マシン・コンポーネントは、コンピュータ
が読取り可能な形式のプログラム・コード要素のＡから
Ｅの組合せとして図２に示す。これらは、コンピュータ
・ディスケット１５にコンピュータ使用可能データ媒体
１７で具現化される。しかし、上記の説明のように、こ
のような媒体は、半導体デバイス、磁気テープ、及び光
ディスクでも可能である。

【００３１】各コード要素ＡからＥは、本発明を実施す
る方法の特定の部分を実行するように、ディジタル処理
装置に指示するためのものである。ＡからＥの単一のコ
ード要素のどれにも完全な方法が含まれない場合でも、
２つ以上のコード要素が一緒になって発明の実施に必要
なプログラム手段をすべて構成できる。

【００３２】図１は、適切なデータ・アクセス・プログ
ラム及びユーティリティ１８を介して、マイニング・カ
ーネル１６が、取引を記録するデータが入った１つ以上
のデータベース２０及び／叉はフラット・ファイル（テ
キスト・ファイルなど）２２をアクセスすることを示
す。以下に記述されたステップを実行した後で、マイニ
ング・カーネルは発見した関連規則をマイニング結果レ
ポジトリ２４に出力する。これは、クライアント・コン
ピュータ１２からアクセスできる。

【００３３】更に図１は、クライアント・コンピュータ
１２がマイニング・カーネル・インターフェース２６を
含み、これはマイニング・カーネル１６のように、適切
なコンピュータ・コードで実現できる。とりわけインタ
ーフェース２６は、後で定義する最低サポート値、最低
信頼値、及び関心因子Ｒを含む特定の変数を設定するた
めの入力機構として機能する。更にクライアント・コン
ピュータ１２は、グラフィック・ディスプレイ３０、プ
リント機構３２、叉はデータ記憶媒体３４にマイニング
結果を出力／表示するための出力モジュール２８を含む
ことが望ましい。

【００３４】図３は、本発明の全体的方法を示す。ブロ
ック３６から始まり、システム１０はデータベース２０
中の大きな品目セットを識別する。したがって、ブロッ
ク３６は本質的に大きな品目セット生成器である。下記
に詳細に開示するように、「大きな品目セット」とは、
データベース２０の中のすべての取引のユーザ定義パー
センテージで購入される、１つ以上の品目の集合を意味
する。即ち、データベース２０の中にユーザ定義の取引
の「最低サポート」パーセンテージで現れる品目セット
である。言い替えれば、ブロック３６では、データベー
ス２０がアクセスされ、品目セットがそのデータベース
に現れる第１の回数を判定し、その第１の回数が最低サ
ポート値を超えるときにその品目セットを大きな品目セ
ットと指定する。これに対して、「小さな」品目セット
とは、最低サポート基準を満たさない品目セットであ
る。

【００３５】更に、下記に開示するように、前記データ
ベース２０に格納された取引の品目セットに含まれる品
目は、階層分類法により特徴付けられる。したがって、
分類法で定義されるように、いくつかの品目は他の品目
のアンセスタ（ここでは「親」とも呼ぶ）である。即
ち、いくつかの品目は、分類法でより低いレベルに配置
され、アンセスタ品目からのパスの中に置かれる他の品
目より高いレベルに配置される。分類法の低いレベルに
配置されるこのような品目は、そこから前記低いレベル
の品目が分岐する前記分類法のより高いレベルの品目の
ディセンダント品目といわれる。ここで用いるように、
第１の品目セットが、第２の品目セットに含まれる品目
のアンセスタである品目を含む場合、第１の品目セット
は第２の品目セットのアンセスタである。したがって、
「大きな品目セット」とは、ディセンダント品目セット
がデータベース２０全体に現れる回数により最低サポー
ト制約を満足するアンセスタ品目セットのようなもの
と、更に表される。

【００３６】言い替えると、データベース２０の取引品
目セットに現れる前記品目は、分類法構造、即ち記憶さ
れた要素が１つ以上の階層分類法に配置されたデータ構
造により特徴付けられる。例えば、データベース２０中
の品目は、品目タイプ・カテゴリによる分類法構造で特
徴付けられる。また、データベース２０中の品目は、品
目原価カテゴリによる分類法構造で特徴付けられる。複
数の分類法が存在する場合、それらは有向非輪状グラフ
（ＤＡＧ）分類法構造、例えば図３に示す構造で結合で
きる。

【００３７】本発明の分類法構造は、次の例を参照する
と分かりやすいだろう。エントリ「Ｅ」は例えば「衣
類」であり、品目タイプに基づく分類法の内部ノードを
表す。これに対して、エントリ「Ｆ」は例えば「原価が
１０ドルより安い商品」であり、品目原価に基づく分類
法の内部ノードを表す。どちらのエントリ「Ｅ」及び
「Ｆ」も、表示されたＤＡＧ構造の最高レベル、ここで
はゼロ・レベルにあると言える。

【００３８】次にエントリ「Ｇ」は、例えば「ソック
ス」であり、両方の分類法でもゼロ・レベルのすぐ下の
レベル（「レベル１」）のエントリを示す。ＤＡＧのエ
ッジＥＧ及びエッジＦＧで示すように、エントリＧはエ
ントリ「Ｅ」及び「Ｆ」の両方から下った位置づけとな
る。

【００３９】エントリ「Ｈ」及び「Ｍ」は、例えばそれ
ぞれ「スポーツ・ソックス」及び「子供用ソックス」で
あり、ＤＡＧのレベル２のエントリであることを示す。
これは、それぞれＤＡＧのエッジＧＨ及びエッジＧＭで
示すように、エントリ「Ｇ」から、したがってエントリ
「Ｅ」及び「Ｆ」から下位にある。本発明に基づき、エ
ントリ「Ｅ」及び「Ｆ」はエントリ「Ｇ」の隣接アンセ
スタであり、エントリ「Ｈ」及び「Ｍ」のアンセスタで
あるが、ＤＡＧは有向性をもつので、ＤＡＧ構造では逆
は真ではない（「Ｅ」及び「Ｆ」は「Ｇ」から下位に位
置しないし、また「Ｇ」は「Ｈ」及び「Ｍ」から下位に
ない）。エントリ「Ｇ」は、エントリ「Ｅ」及びエント
リ「Ｆ」のディセンダントである。またエントリ「Ｈ」
及びエントリ「Ｍ」は、エントリ「Ｇ」のディセンダン
トであり、したがって、エントリ「Ｅ」及びエントリ
「Ｆ」のディセンダントである。一般的に、分類法の最
下位、即ち枝葉レベルの品目だけが、取引に記録され
る。分類法のより高いレベルの品目のデータベース２０
でのサポートは、枝葉レベルの対応するディセンダント
品目のサポートから判定される。

【００４０】大きな品目セットがブロック３６で識別さ
れた後で、処理はブロック３８に移る。下記に詳しく開
示する発明に従うと、ブロック３８は関連規則発見器で
あり、これはブロック３６で設定された大きな品目セッ
ト生成器をアクセスし、品目セットの少なくとも１つの
サブセットがデータベース２０に現れる第２の回数を判
定する。次に、ブロック３８の関連規則発見器は、第１
の回数が第２の回数に対する所定の関係を保つとき、即
ち、所定の叉はユーザ指定の最低信頼値を満足すると
き、消費者の購入傾向を表す関連規則を出力する。

【００４１】本発明が目指すように、前記関連規則生成
器は一般化された関連規則を出力する。これはＤＡＧの
レベルに広がり、次の形式を取る。Ｘ→Ｙ、ここで、
Ｘ、及びＹは品目セットであり、Ｘ∩Ｙ＝Φ（即ちＸ∩
Ｙはヌルである）、Ｙの中のどの品目もＸの中の任意の
品目のアンセスタではなく、またＸ、Ｙは分類法の任意
のレベルの品目を含み得る。

【００４２】例として、本発明は自動車部品、備品、及
びサービス・センターの取引を記録したデータベースを
アクセスすると想定する。本発明で発見できる関連規則
は、タイヤをタイヤ圧力ゲージと一緒に購入する全顧客
の９８％が、取引の間にホイール・バランス・サービス
も購入するという規則である。言い替えれば、例では、
ホイール・バランス・サービスがタイヤ及びタイヤ圧力
ゲージとは別に購入されないということが、９８％の信
頼性レベルで言えるということである。本発明で認めら
れるように、品目セット間で発見された関連規則の意味
するところは、小売業者、広告業者、マーケティング責
任者、及び実に広範なアプリケーションに対して、実質
的な経済的価値を生み出すことができる。

【００４３】ブロック３９では、ブロック３８で発見さ
れた特定の関連規則が、そのような規則が関心を引かな
いという点を基にして削除される。言い替えれば、ブロ
ック３９は規則選定器であり、そこではブロック３６及
びブロック３８で判定されたサポート及び信頼関係が、
それぞれ所定の因子Ｒを乗算して計算された予想サポー
ト及び予想信頼関係を超えた場合、関連規則は関心を引
くものとして識別される。下記に更に詳しく説明するよ
うに、各規則の予想サポート及び信頼は、規則の隣接ア
ンセスタがある場合、そのサポート及び信頼に基づいて
決定される。

【００４４】したがって、アンセスタをもたない規則は
すべて関心のあるものであり、隣接アンセスタをもつ
が、前記規則の実際のサポート及び信頼が、アンセスタ
に基づくユーザ定義の予想境界線の外側に出る規則は、
関心のあるものである。これと対象的に、隣接アンセス
タをもち、規則の実際のサポート及び信頼が、アンセス
タに基づくユーザ定義の予想境界線の内側にある規則
は、関心のないものである。

【００４５】本発明では、試験される規則が関心のある
ものかどうかを判定する場合、規則の隣接アンセスタだ
けを考慮する必要があることが判明している。更に詳細
に述べれば、試験規則が本当に関心のあるものであるた
めには、その隣接アンセスタに関しても関心のあるもの
である必要がある。試験規則が相対的に遠くのアンセス
タに関して関心のあるものであり、試験規則に対して相
対的に近くのアンセスタに関しては関心がない場合、遠
くのアンセスタに関して関心のあるものは実際はより近
くのアンセスタであり、試験規則自身は実際は関心のあ
るものではない。

【００４６】図４は、図３のブロック３６で設定された
前記大きな品目セット生成器のプロセスの実施例の１つ
を示す。ここでは「基本」と呼ぶ。本発明と対照的に、
上記で説明した以前の手続きでは、データベースの枝葉
ノードの品目だけを考慮して候補となる大きなシーケン
スを生成して数える。即ち、有効な関連規則が分類法の
多様なレベルに広がっている可能性を考慮していない。
図４は、上記参照の親出願で開示された、演繹的方法に
よる分類に関する斬新な修正を示す。以前の他の方法
も、同様に修正可能であることは明かである。例えば、
上記参照の親出願で開示された、ＡｐｒｉｏｒｉＡｌｌ
及び混成方法などが該当する。

【００４７】「大きな品目セット」とは、ここで「最低
サポート」と呼ぶユーザ定義の規則性でデータベースに
現れる品目セットを意味することを想起されたい。例え
ば、ユーザは、データベースの顧客取引の少なくとも２
５％に現れる品目セットが何かを知りたい場合がある。
この事例における最低サポート値は２５％であり、その
品目セットが現れる取引数を数え、その全取引数で除算
することにより、その品目セットが最低サポート基準を
満たすかどうかを判定できる。

【００４８】ブロック４０では、システム１０で実施さ
れるマイニング・カーネル１６が、データベース２０の
大きな単一品目品目セットの集合Ｌ₁を識別する。単一
品目品目セットが大きいかどうかを判定するには、デー
タベース２０全体に渡ってデータベース２０中のすべて
の品目を最初に数え上げ、上記で説明した方法でそれら
のサポートを判定する。次に挙げる発行物は、すべてこ
こで参照文献として取り上げられているが、大きな品目
セット検出のための特定の方法を開示している。１９９
３年ワシントン特別区でのデータ・マネージメントに関
するＡＣＭＳｉｇＭｏｄ会議の会議録、アグラワル他
著の「大容量データベースの項目の集合間の関連規則の
マイニング法」、１９９４年チリのサンチャゴでのＶＬ
ＤＢの会議録の、アグラワル他著の「大容量データベー
スにおける関連規則マイニングの高速アルゴリズム」、
１９９３年１０月のＩＢＭ研究報告書ＲＪ９５６７号の
ヒュートマ他著の「関連規則のセット・オリエンテッド
（集合志向）マイニング法」、１９９４年７月のＫＤＤ
−９４：データベースにおける知識発見のＡＡＡＩワー
クショップでの、マンニラ他著の「関連規則発見のため
の効率的アルゴリズム」。

【００４９】次に、ブロック４２では、システム１０で
実施されるマイニング・カーネル１６が、各ｋ≧２につ
いての繰返し処理に入る。ブロック４４では、図５を参
照した下記の詳細で開示されるように、長さ（即ち品目
セット数）が「ｋ−１」である、大きな品目セットＬ
_k-1のシード集合（最初は上記の大きな品目セットの集
合で構成され、ｋ＝２である）が、長さがｋの候補の大
きな品目セットＣ_kの集合の生成に使用される。

【００５０】次に、ブロック４６では、データベースの
中の各取引について、前記方法は本発明の分類法（例え
ば、図３に示すＤＡＧなど）をアクセスし、取引の中の
各品目のすべてのアンセスタをその取引に加え、重複す
るエントリをすべて削除する。この結果、候補の大きな
品目セットの集合Ｃ_kは、そのアンセスタと同様に分類
法の枝葉ノードの品目を含めることができる。ブロック
４７では、取引で検出された候補の大きな品目セットＣ
_kの集合の中の各候補のカウントを増分する。

【００５１】ブロック４８では、各候補の大きな品目セ
ットがそこに現れる回数を数える、及びデータベース全
体を通して、その回数がユーザが定義した最低サポート
値と等しいかどうかを判定することにより候補の大きな
品目セットのサポートが判定される。データベースの中
の取引のアンセスタである候補の大きな品目セットのサ
ポートは、そのディセンダントのサポートを記す含意に
より判定される。

【００５２】ブロック５０では、実際の大きな品目セッ
トの前方の集合Ｌ_kが、ブロック４８で検出された、最
低サポートを有する候補の大きな品目セットの集合と等
しく設定される。この実際の大きな品目セットの前方集
合Ｌ_kは、ブロック５２で次の繰返し処理のためのシー
ドとなる。システム１０で実施されるマイニング・カー
ネル１６は、ブロック５２からブロック４２まで戻る。
Ｌ_kが空の場合、処理は終了する。この決定は、ブロッ
ク５１に示す。

【００５３】図５は、候補の大きな品目セットの集合を
作成する、本発明の詳細を示す。ブロック５４では、Ｌ
_k-1がそれ自身と連結され（即ち結合され）、ｃ個の品
目セットを有する最初のＣ_kを作成する。更に詳細に述
べれば、ｐ．ｌｉｔｅｍｓｅｔ₁、ｐ．ｌｉｔｅｍｓｅ
ｔ₂．．．ｐ．ｌｉｔｅｍｓｅｔ_k-1で示される、Ｌ_k-1
の中の品目セットは、ｑ．ｌｉｔｅｍｓｅｔ₁、ｑ．ｌ
ｉｔｅｍｓｅｔ₂．．．ｑ．ｌｉｔｅｍｓｅｔ_k-1で示さ
れる、Ｌ_k-1の中の他の品目セットの各々と結合され、
候補の大きな品目セットｃの集合Ｃ_kを生成する。ここ
で各ｃは、ｋ個の品目セットを有し、Ｃ_kの中の品目セ
ットｃはどれも重複しないという制約がある。

【００５４】次に、システム１０で実施されるマイニン
グ・カーネル１６は、Ｌ_k-1で検出されなかった下位品
目セットを含む候補の品目セットｃを、Ｃ_kから削除す
る。システム１０で実施されるマイニング・カーネル１
６は、ブロック５６で、下記に説明するように候補の大
きな品目セットの集合Ｃ_kの中の各顧客品目セットｃを
考慮し、その後顧客品目セットｃのｋ−１個の品目セッ
トを有する各下位品目セットｓについて、ブロック５８
へ進む。

【００５５】候補の大きな品目セットの集合Ｃ_kの中の
最初の候補の品目セットｃ、及び決定ブロック６０でｋ
−１個の品目セットを有するｃの最初の下位品目セット
ｓから始めて、システム１０で実施されるマイニング・
カーネル１６は、ｓが実際の大きな品目セットの直前の
集合Ｌ_k-1の要素であるかどうかを判定する。本発明が
目指すように、大きな品目セットの集合は、第１の繰返
し処理のシードとして使用される。

【００５６】ｓが実際の大きな品目セットの直前の集合
Ｌ_k-1の要素である場合、システム１０で実施されるマ
イニング・カーネル１６は、ブロック５８に戻り、Ｃ_k
の中の次の下位品目セットｓを検索する。その他の場合
は、システム１０で実施されるマイニング・カーネル１
６は、ブロック６２に進み、ｃをＣ_kから削除、即ち取
除き、次にブロック５６に戻ってＣ_kの中の次の品目セ
ットｃを試験する。本発明が目指すように、候補の大き
な品目セットの直前の集合Ｃ_k-1は、実際の大きな品目
セットの直前の集合Ｌ_k-1の代わりに使用され、候補の
大きな品目セットの集合Ｃ_kを生成する。

【００５７】非常に大型のデータベース、例えばギガバ
イト及び実際にテラバイトの範囲のデータベースでは、
データベース管理及びデータ・バッファ管理は現在の挑
戦的課題である。図６及び図７は、本発明でどのように
データベース管理を扱うかを示し、また図８は、本発明
がどのようにデータ・バッファ管理を扱うかを示す。

【００５８】図６を参照して分かるように、候補の大き
な品目セットの集合Ｃ_kが生成された後では、候補の大
きな品目セットの集合Ｃ_kに含まれるデータは、ダイナ
ミック・ハッシュ・ツリー等の高速検索ができるように
構成されたデータ構造に配列することが望ましい。この
ようなデータ構造には、深さ、即ちデータ構造レベルが
１であるルート６４が含まれる。ハッシュ・ツリーは、
次に深さ２の複数のハッシュ・テーブル・ノード６６、
６８、７０に分岐する。これらはＤＢ¹ ₂、ＤＢ² ₂．．．
ＤＢ^m ₂と表示し、各ハッシュ・テーブル・ノード６６、
６８、７０は１つ以上のいわゆる「バケツ」を有する。
ハッシュ・テーブル・ノード６６、６８、７０の１つの
中の各バケツは、深さ３のノードを指す。これらは例え
ばノード７２、７４の１つで、ＤＢ¹¹ ₃、ＤＢ¹² ₃と表示
される。また、このハッシュ・テーブル・ノードへの分
岐は、さらに深さ「ｄ」まで続く。最終的に、特定の分
岐の中の品目セットの数が単一バケツに格納できると
き、ノードはいわゆる「枝葉」ノード、例えば枝葉ノー
ド７６、７８の１つになり、これは取引データの一部を
直接記憶する。

【００５９】図６に示すハッシュ・ツリーに品目セット
ｃを追加するには、ハッシュ関数が品目セットｃのｄ番
目の品目に適用され、その結果ハッシュ・ツリーを下に
延ばすパスが生成される。最初は、すべてのノードが枝
葉ノードとして生成され、枝葉ノードに記憶される品目
セットの数が所定の数値を超えると、枝葉ノードはハッ
シュ・テーブル・ノードに変換され、これが下位の枝葉
ノード（叉はハッシュ・テーブル・ノード）を指し、こ
こにデータを更に格納することができる。

【００６０】上記の説明を考慮して、図７は図４の計算
ステップが実行される方法を示す。円８０のルート・ノ
ードから始まり、システム１０で実施されるマイニング
・カーネル１６は、試験対象の取引「ｔ」の中のすべて
の品目「ｉ」にハッシュ関数を適用する（「ハッシュ・
オンする」とも呼ぶ）。ブロック８１では、システム１
０で実施されるマイニング・カーネル１６は、品目
「ｉ」に相当するバケツをアクセスし、次に決定ブロッ
ク８２へ移り、ここで処理が枝葉ノードを試験している
のかどうかを判定する。枝葉ノードの場合、システム１
０で実施されるマイニング・カーネル１６は、ブロック
８４で枝葉ノードのどの品目セットが、取引「ｔ」に含
まれるかを識別し、次に、これらの品目セットの参照
を、推奨される実施例ではビットマップとして形式化さ
れている答集合に追加する。枝葉ノードではない場合、
ブロック８６で、システム１０で実施されるマイニング
・カーネル１６は、ブロック８６での試験対象の品目セ
ット「ｉ」に続くすべての品目セットにハッシュ関数を
適用し、この手続きをノードに繰返して適用する。

【００６１】図８は、本発明がデータ・バッファ管理を
実施するための推奨される方法である。決定ブロック８
８で始まり、システム１０で実施されるマイニング・カ
ーネル１６は実際の大きな品目セットの集合Ｌ_k-1がバ
ッファ・メモリに適合するかどうかを判定する。適合す
る場合、システム１０で実施されるマイニング・カーネ
ル１６は、決定ブロック９０で候補の大きな品目セット
の集合Ｃ_kがバッファ・メモリに適合するかどうかを試
験する。適合する場合、バッファ・サイズは制限され
ず、システム１０で実施されるマイニング・カーネル１
６は図８に示すように処理を終了する。

【００６２】一方、決定ブロック９０で候補の大きな品
目セットの集合Ｃ_kがバッファ・メモリに適合しないと
システムが判定した場合、システム１０で実施されるマ
イニング・カーネル１６は、ブロック９２でメモリに適
合するだけの数の候補「ｃ」を候補の大きな品目セット
の集合Ｃ_kに生成する。次に、ブロック９４でデータに
パスが作成され、候補の大きな品目セットの集合Ｃ_kの
サポートを数え、その結果の実際の大きな品目セットの
集合Ｌ_kがブロック９６でディスクに書込まれ、候補の
大きな品目セット「ｃ」の小さいものが削除される。決
定ブロック９８では、システム１０で実施されるマイニ
ング・カーネル１６が、候補の大きな品目セットの集合
Ｃ_kの候補の大きな品目セット「ｃ」がすべて数えられ
たかどうかを判定し、数えられている場合は図８を終了
する。まだ数えられていない場合は、システム１０で実
施されるマイニング・カーネル１６は、ブロック９２に
戻る。

【００６３】決定ブロック８８で、実際の大きな品目セ
ットの集合Ｌ_k-1がバッファ・メモリに適合しないと判
定された場合、システム１０で実施されるマイニング・
カーネル１６はブロック１００に移り、実際の大きな品
目セットの集合Ｌ_k-1を外部的にソートし、集合Ｌ_k-1の
下位品目セットをバッファ・メモリに移す。これは、最
初のｋ−２個の品目は同じものである。ブロック１０２
では、候補の大きな品目セット「ｃ」（即ち、候補の大
きな品目セットの集合Ｃ_k）が、上記の原理に従って集
合Ｌ_k-1のこれらのブロックを使用して生成される。こ
れは、決定ブロック１０４でバッファ・メモリが一杯で
あると判定されるまで続行される。バッファ・メモリが
一杯になると、ブロック１０６でデータベース全体を通
して作成され、候補の大きな品目セットの集合Ｃ_kが数
えられる。システム１０で実施されるマイニング・カー
ネル１６は、次にブロック１０２に戻る。

【００６４】次に図９に進む。これは、分類法の中の大
きな品目セットの判定における、本発明の累積実施例の
操作及び処理構造を示す。ブロック１０７から、処理は
ｋ＝１で開始する。ブロック１０８では、第１の最適化
を示す。ここでは、分類法Ｔを繰返し検索しながら各品
目のアンセスタを検出する処理の代わりに、分類法（Ｔ
で示す）の各品目のアンセスタが事前に算出され、事前
に算出されているアンセスタの集合Ｔ^*に追加される。
大きな品目の集合Ｌ₁がブロック１１０で判定され、次
にブロック１１２で各ｋ≧２について繰返しが開始され
る。

【００６５】ブロック１１４では、図５に示すステップ
を使用して、Ｌ_k-1からＣ_kが生成される。ブロック１１
６は第２の最適化を示し、ここでは、品目及びその品目
のアンセスタの両方を含む候補の大きな品目セットの集
合Ｃ_kにあるすべての候補の品目セットがＣ_kから削除さ
れる。

【００６６】ブロック１１８は、第３の最適化を示す。
ここでは、候補の大きな品目セットの集合Ｃ_kの中の候
補に存在しない事前に算出されたアンセスタの集合Ｔ^*
のすべてのアンセスタが削除される。システム１０で実
施されるマイニング・カーネル１６は、ブロック１１８
からブロック１２０に進み、ここではデータベース２０
の次の取引「ｔ」が検索される。ブロック１２２では、
試験対象である取引「ｔ」の次の品目「ｘ」が検索さ
れ、ブロック１２４では、事前に算出されたアンセスタ
の集合Ｔ^*に存在する試験対象の品目「ｘ」のアンセス
タが試験対象の取引「ｔ」に追加される。

【００６７】決定ブロック１２６に進み、ここで試験対
象の取引「ｔ」の最後の要素「ｘ」が試験されたかどう
かが判定される。まだ試験されていない場合は、処理は
ブロック１２８に進んで試験対象取引「ｔ」の次の品目
「ｘ」が検索され、そこからブロック１２２へ進む。最
後の要素が試験された場合は、ブロック１３０へ進み、
ここで試験対象の取引「ｔ」から重複するエントリが削
除され、次のブロック１３２では候補の大きな品目セッ
トの集合Ｃ_kにあり、及び試験対象の取引「ｔ」にも存
在する候補のカウントが１だけ増分される。次に、決定
ブロック１３４で、データベースの最後の取引「ｔ」が
試験されたかどうか判定され、まだ試験されていない場
合は、処理はブロック１３６へ進んで次の取引を検索
し、ここからブロック１２０へ戻る。

【００６８】最後の取引が試験された場合、処理はブロ
ック１３８へ進み、実際の大きな品目の集合Ｌ_kを、少
なくとも最低サポートを有する候補の大きな品目セット
の集合Ｃ_kの候補と等しくなるように設定する。ブロッ
ク１４０では、ｋがｋ＋１に設定され、決定ブロック１
４２でＬ_k-1がヌルであるかどうか判定される。ヌルで
はない場合、処理はブロック１１２に戻る。その他の場
合は、プロセスはすべての大きな品目セットの集合を出
力し、これは出力ブロック１４４で∪_kＬ_Kと等しくな
る。

【００６９】図１０から図１２は、データベース２０の
品目の分類法を利用している、大きな品目セットを判定
するための代替方法を示す。図１０から図１２に示す大
きな品目セットを判定するための代替方法に、図９に示
す第１、第２、及び第３の最適化が適用できることは明
かである。

【００７０】図１０に示す、一般化した「層状」方法の
ブロック１４６から始めて、分類法の最高（即ち０）レ
ベルから最低の「ｎ」レベルまでの分類法の各レベル
「ｓ」について、システム１０で実施されるマイニング
・カーネル１６はブロック１４８へ進み、このブロック
では試験対象の深さ「ｓ」にある品目を含むすべての品
目セットが数えられ、深さ集合Ｃ^sに入れられる。ブロ
ック１５０では、Ｃ^sの中の小さな品目セットのディセ
ンダントである次に低い深さ「ｓ＋１」の品目を含むす
べての品目セットが削除され、残りの品目セットが次に
低い深さ集合Ｃ^s+1に入れられ、ブロック１５２で数え
られる。ブロック１５２から進み、システム１０で実施
されるマイニング・カーネル１６は、ブロック１５４で
次の「ｓ」をマイニングしてブロック１４８に戻る。大
きいことが検出された品目セットは、すべての大きな品
目セットの集合として出力され、これは∪_kＬ_kと等し
い。

【００７１】図１１は、ここでは「推定」方法と呼ぶ、
大きな品目セットを判定する方法を示す。これは、まず
データベース全体に対する割合を算出することにより、
大きな品目セットである可能性の高い品目セットを先ず
推定し、その後この推定された大きな品目セットが実際
に大きいことを確認する。ブロック１５６から開始し、
サンプル・データベースＤ_sがデータベース２０（図１
１では「Ｄ」と呼ぶ）から生成される。サンプル・デー
タベースＤ_sは、ランダムにデータベース２０の所定の
パーセンテージを選択することにより生成される。最低
サポートが増加し、及びデータベース２０のサイズが大
きくなるにつれて、このパーセンテージは小さくなる。
１つの実施例では、サンプル・データベースＤ_sはデー
タベース２０の中のエントリの１％である。大きな品目
の集合Ｌ₁も、前記で説明した方法を使用してブロック
１５６で判定され、及びディセンダントの候補の大きな
品目セットの集合Ｃ₁”がヌルに設定される。

【００７２】ブロック１５８は、各ｋ≧２について、シ
ステム１０で実施されるマイニング・カーネル１６がブ
ロック１６０に進み、前記で開示された原理に従って、
実際の大きな品目セットの直前の集合Ｌ_k-1の連結か
ら、候補の大きな品目セットの集合Ｃ_kを生成する。

【００７３】ブロック１６２へ進み、候補の大きな品目
セットの集合Ｃ_kの中の候補のサポートが、サンプル・
データベースＤ_s全体を通して、且つ前記で開示された
原理に従って候補のサポートを数えることによって推定
される。次に、ブロック１６４で推定された大きな品目
セットの集合Ｃ_k’が生成される。これには、ブロック
１６２で大きいと推定された候補が含まれる。更に、推
定された大きな品目セットの集合Ｃ_k’には、ブロック
１６２で小さいと推定されたが、それらのアンセスタが
すべて大きいものである候補が含まれる。１つの実施例
では、候補が最低サポート値の少なくとも０．９倍と等
しいサポートを有すると推定される場合、その候補は
「大きい」と見なされる。

【００７４】ブロック１６６へ移り、システム１０で実
施されるマイニング・カーネル１６はデータベース２０
全体を通して、推定された大きな品目セットの集合
Ｃ_k’の候補のサポートを数える。次にブロック１６８
で、ディセンダントの候補の大きな品目セットの集合Ｃ
_k”が、推定された大きな品目セットの集合Ｃ_k’の中の
候補のディセンダントであると定義される。これらは、
大きいとは推定されなかった、即ち「小さい」ものであ
るが、ブロック１６６で実際は大きいことが発見された
ものである。次に、ブロック１７０で、ディセンダント
の候補の大きな品目セットの集合Ｃ_k”の品目セットが
数えられ、実際に大きいものがどれか判定される。

【００７５】ブロック１７２では、実際に大きな品目セ
ットの集合Ｌ_kが、推定された大きな品目セットの集合
Ｃ_k’、及びディセンダントの候補の大きな品目セット
の集合Ｃ_k”の中の大きいものであることが検出された
候補の和集合であると定義される。ブロック１７２から
ブロック１７４へ方法は進み、次のｋを検索してブロッ
ク１６０に戻る。ブロック１７４で、実際の大きな品目
セットの直前の集合Ｌ_k-1がヌルの場合、すべての大き
な品目セットの集合として結果が出力される。これは、
∪_kＬ_kと等しい。

【００７６】図１２は、ここで「ｅｓｔｍｅｒｇｅ」と
呼ぶ、課せられた分類法による品目を含むデータ構造の
大きな品目セットを判定するための、更に別の方法を示
す。ブロック１７６から開始し、前記の原理に従ってサ
ンプル・データベースＤ_sがデータベース２０（図１２
では「Ｄ」で示す）から生成される。大きな品目の集合
Ｌ₁も、前述の方法を使用してブロック１７６で判定さ
れ、ディセンダントの候補の大きな品目セットの集合Ｃ
₁”がヌルに設定される。

【００７７】ブロック１７８は、各ｋ≧２について、シ
ステム１０のマイニング・カーネル１６がブロック１８
０に進み、前記で開示された原理に従って、実際の大き
な品目セットの直前の集合Ｌ_k-1、及びディセンダント
の候補の大きな品目セットの直前の集合Ｃ_k-1”の連結
から、候補の大きな品目セットの集合Ｃ_kを生成する。

【００７８】ブロック１８２へ進み、候補の大きな品目
セットの集合Ｃ_kの候補のサポートが、サンプル・デー
タベースＤ_s全体を通して、且つ前記で開示された原理
に従って候補のサポートを数えることによって推定され
る。次に、ブロック１８４で、推定された大きな品目セ
ットの集合Ｃ_k’が生成される。これには、ブロック１
８２で大きいと推定された候補が含まれる。更に、推定
された大きな品目セットの集合Ｃ_k’には、ブロック１
８２で小さいと推定されたが、それらのアンセスタがす
べて大きいものである候補が含まれる。

【００７９】ブロック１８６へ移り、システム１０のマ
イニング・カーネル１６はデータベース２０全体を通し
て、推定された大きな品目セットの集合Ｃ_k’とディセ
ンダントの候補の大きな品目セットの直前の集合
Ｃ_k-1”の、和集合の中の候補のサポートを数える。候
補の大きな品目セットの集合Ｃ_kの候補の中で、推定さ
れた大きな品目セットの集合Ｃ_k’のアンセスタが小さ
いことがブロック１８６で判明したすべての候補が、ブ
ロック１８８でＣ_kから削除される。

【００８０】ブロック１８８からブロック１９０へ移
り、ここでディセンダントの候補の大きな品目セットの
集合Ｃ_k”が、推定された大きな品目セットの集合Ｃ_k’
の中には入っていない、候補の大きな品目セットの集合
Ｃ_kに残る候補であると定義される。次に方法はブロッ
ク１９６に移動する。ブロック１９６では、本発明の方
法は、実際の大きな品目セットの集合Ｌ_kを、大きいこ
とが判明した候補の大きな品目セットの集合Ｃ_kの中の
品目セットと等しいと定義し、ブロック１９４で実際に
大きいことが判明したディセンダントの候補の大きな品
目セットの集合Ｃ_k”の中の品目セット候補を、ブロッ
ク１９８で実際の大きな品目セットの集合Ｌ_kに追加す
る。

【００８１】ブロック１９８からブロック２００へ方法
は進み、次のｋを検索してブロック１８０に戻る。ブロ
ック２００で、実際の大きな品目セットの直前の集合Ｌ
_k、及びディセンダントの候補の大きな品目セットの集
合Ｃ_k”がヌルの場合、すべての大きな品目セットの集
合として結果が出力される。これは、∪_kＬ_kと等しい。

【００８２】次に図１３を参照する。これは、本発明の
関連規則発見器の１つの実施例である。上記に開示した
大きな品目セット生成器の１つを使用して、データベー
ス２０の中の大きな品目セットをすべて識別した後で、
マイニング・カーネル１６が図１３に進むことは明かで
ある。言い替えれば、図１３では、大きな品目セット生
成器が検出したすべての品目セットが、ユーザ定義の最
低サポート値を超えるデータベース２０でのサポート値
を有する。

【００８３】ブロック２０２で示すように、マイニング
・カーネル１６は各大きな品目セットｌ_k、ｋ≧２につ
いて図１３で示す操作を実行し、ブロック２０４に移動
する。ここで、マイニング・カーネル１６は、試験対象
の大きな品目セットｌ_kの次の空ではないサブセットａ_m
を選択する。ブロック２０６で、試験対象のサブセット
ａ_mについて、マイニング・カーネル１６は信頼値を計
算する。この値は、試験対象の大きな品目セットｌ_kの
サポートを、試験対象のサブセットａ_mのサポートで除
算して求める。次に、決定ブロック２０８で、サブセッ
トａ_mの信頼値がユーザ定義の最低信頼値と比較され、
サブセットａ_mの信頼値がユーザ定義の最低信頼値より
小さい場合、マイニング・カーネル１６はブロック２０
４に戻り、試験対象の大きな品目セットｌ_kの次のサブ
セットａ_m+1を検索する。

【００８４】一方、決定ブロック２０８でサブセットａ
_mの信頼値がユーザ定義の最低信頼値以上であると判定
された場合、マイニング・カーネル１６は出力ブロック
２１０へ進み、次の形式で関連規則を出力する。ａ_m→（ｌ_k−ａ_m）ここで、”信頼＝［算出された信頼値］、”サポート＝
［ｌ_kのサポート］であり、矢印の右辺は、規則の「結
果」と呼ばれる。出力ブロック２１０から、マイニング
・カーネル１６はブロック２０４に戻り、試験対象の大
きな品目セットｌ_kの次のサブセットａ_m+1を検索する。

【００８５】図１４及び図１５は、より速い関連規則発
見の実施例である。ブロック２１２に示すように、マイ
ニング・カーネル１６は各大きな品目セットｌ_kについ
て図１４で示す操作を実行し、ブロック２１４に移動す
る。ここでマイニング・カーネル１６は、最初の結果セ
ットＨ₁＝図１１で示す実施例を本質的に使用して導か
れた関連規則のすべての１品目結果と設定する。図１１
は、ブロック２１６で呼出され、１品目結果より多いも
のを有する関連規則を判定し、ｍの値がブロック２１８
で１だけ増分される。ブロック２２０では、ｋがｍの新
しい値より大きいかどうか判定され、大きい場合はマイ
ニング・カーネル１６はブロック２１６へ戻る。その他
の場合はブロック２１２に戻り、次の大きな品目セット
が検索される。

【００８６】次に図１５を参照する。これは、関連規則
をより速く発見する実施例の詳細を示す。ブロック２２
４で開始され、図５に示す発明を用いて、結果集合Ｈ_m
を入力引数として使用し、結果集合Ｈ_mから次の結果集
合Ｈ_m+1が生成される。ブロック２２６に進み、試験対
象の次の結果集合Ｈ_m+1の中の各要素ｈ_m+1について、マ
イニング・カーネル１６は信頼値を計算する。この値
は、試験対象の大きな品目セットｌ_kのサポートを、サ
ブセット（ｌ_k−ｈ_m+1）のサポートで除算して求める。
次に、決定ブロック２２８で、ブロック２２６で算出さ
れた信頼値がユーザ定義の最低信頼値と比較され、信頼
値がユーザ定義の最低信頼値より小さい場合、マイニン
グ・カーネル１６はブロック２３０で、要素ｈ_m+1を次
の結果集合Ｈ_m ₊₁から削除する。

【００８７】一方、決定ブロック２２８で、ブロック２
２６で算出された信頼値がユーザ定義の最低信頼値以上
であると判定された場合、マイニング・カーネル１６は
出力ブロック２３２へ進み、次の形式で関連規則を出力
する。（ｌ_k−ｈ_m+1）→ｈ_m+1 ここで、”信頼＝［算出された信頼値］、”サポート＝
［ｌ_kのサポート］である。出力ブロック２３２叉はブ
ロック２３０のどちらかから、マイニング・カーネル１
６はブロック２２６に戻り、次の結果集合Ｈ_m+1から次
の要素ｈ_m+1を検索する。

【００８８】図１６は、関連規則を関心のあるものとし
て識別するための、本発明の規則選定器を示す。これ
は、規則のアンセスタがある場合に、そのアンセスタの
サポート及び信頼と、規則のサポート及び信頼との比較
に基づく。ブロック２３４から開始し、図３の規則生成
器３８で判定されたように、述語集合Ｘと結果集合Ｙと
の間の関連規則が選択される。ブロック２３６に進み、
試験集合Ｚ＝｛ｚ₁．．．ｚ_n｝が述語集合Ｘ及び結果集
合Ｙの和集合として定義される。

【００８９】次にブロック２３８で、可能な場合はアン
セスタ試験集合Ｚ^*が識別される。ここで、Ｚ^*＝
｛ｚ^* ₁．．ｚ^* _j．．．ｚ^* _n｝、１≦ｊ≦ｎであり、ｚ^* _i
はｚ_iのアンセスタである。決定ブロック２４０で、ア
ンセスタ試験集合Ｚ^*がすでに識別されているかどうか
が判定され、まだ識別されていない場合、方法は出力ブ
ロック２４２に進み、規則を関心のあるものとして識別
する。一方、判定ブロック２４０で、アンセスタ試験集
合Ｚ^*が識別されていると判定された場合、方法はブロ
ック２４４に移る。

【００９０】ブロック２４４では、試験対象の規則の予
想サポートＥ_suppが判定される。予想サポートＥ_suppを
判定するには、ブロック２４４で試験集合Ｚの各要素の
サポートの積を求め、アンセスタ試験集合Ｚ^*の各要素
のサポートの積でこの積を除算する。この結果求められ
た商は、アンセスタ試験集合Ｚ^*のサポートで乗算さ
れ、試験対象の規則の予想サポートＥ_suppが求められ
る。

【００９１】同様にブロック２４６では、試験対象の規
則の予想信頼Ｅ_confが判定される。予想信頼Ｅ_confを判
定するには、ブロック２４６で結果集合Ｙの各要素のサ
ポートの積を求め、アンセスタ結果集合Ｙ^*の各要素の
サポートの積でこの積を除算する。ここで、Ｙ＝
｛ｙ₁．．．．ｙ_n｝及びＹ^*＝｛ｙ^* ₁．．ｙ^* _j．．．ｙ^*
_n｝、１≦ｊ≦ｎであり、ｙ^* _iはｙ_iのアンセスタであ
る。この結果求められた商は、アンセスタ試験集合Ｚ^*
の信頼で乗算され、試験対象の規則の予想信頼Ｅ_confが
求められる。

【００９２】ブロック２４６から、方法は並列して決定
ブロック２４８、２５０へ進み、試験対象の規則の実際
の信頼及びサポートが、予想信頼Ｅ_confにユーザ定義因
子「Ｒ」を乗算した値、及び予想サポートＥ_suppにユー
ザ定義因子「Ｒ」を乗算した値を超えるかどうかをそれ
ぞれ判定する。１つの実施例では、Ｒ＝１．１である。

【００９３】決定ブロック２４８の試験結果が正の場
合、出力ブロック２５４に移り、規則を関心のある信頼
を有するものとして出力する。同様に、決定ブロック２
５０の試験結果が正の場合、出力ブロック２５６へ移動
し、規則を関心のあるサポートを有するものとして出力
する。別の観点から見ると、試験対象の規則が関心ある
信頼叉は関心あるサポートのどちらも有さない場合、そ
の規則をシステム１０の出力から除外する。出力ブロッ
ク２５４、２５６、叉は決定ブロック２４８、２５０か
ら、試験結果が負の場合はブロック２５２へ移り、次の
一般化された関連規則を検索し、ブロック２３４へ戻
る。

【００９４】ここで図示して詳細を説明したデータベー
スの関連規則を検索するための特定のシステム及び方法
は、本発明の前述の目的を達成するに十分なものである
が、これは本発明の現在推奨される実施例であり、した
がって本発明により広く考慮される対象を代表するもの
であること、本発明の範囲が当業者には明かな他の実施
例を完全に包含するものであること、及び本発明の範囲
が前述の請求の範囲以外の何物にも制限されないことは
明かである。

【００９５】まとめとして本発明の構成に関しては以下
の事項を開示する。

【００９６】（１）ディジタル処理装置により読取り
可能なコンピュータ・プログラム記憶装置と、及び品目
セットの品目に関して階層分類法が用いられる品目セッ
トにおける関連規則を識別する方法ステップを実行する
ための、前記ディジタル処理装置により実行可能な命令
を含む、前記プログラム記憶装置上のプログラム手段で
あって、前記分類法が品目間のディセンダント及びアン
セスタの関係を定義するプログラム手段とを有するコン
ピュータ・プログラム装置であって、前記方法ステップ
は（ａ）品目セットをアクセスするステップと、
（ｂ）前記品目セットが取引のデータベースに存在す
る回数が所定の最低サポート値を超えるサポート値を設
定するときに、品目セットを大きな品目セットの集合に
入れるステップと、（ｃ）前記大きな品目セットの集
合の中の少なくともいくつかの品目セットについて、前
記品目セットの選択されたサブセットが前記データベー
スの取引に現れる回数を判定するステップと、（ｄ）
選択されたサブセットが前記データベースに現れる回数
が、関連品目セットが前記データベースに現れる回数に
対して所定の関係を保ち、その結果最低信頼制約を満足
するときに関連規則を出力するステップとを含む、コン
ピュータ・プログラム装置。（２）候補の大きな品目セットの次の集合を生成する
ために所定の連結形態に従って大きな品目セットの集合
の中の品目セットを連結し、及びそのサブセットが大き
な品目セットではない候補の大きな品目セットをすべて
破棄するステップと、前記候補の大きな品目セットが前
記データベースに存在する回数を判定するために、前記
候補の大きな品目セットの次の集合の中の各品目セット
を前記データベースの品目セットと比較するステップ
と、候補の大きな品目セットが前記データベースに存在
する回数が前記最低サポート値より大きな場合だけ、前
記候補の大きな品目セットを大きな品目セットの次の前
方の集合に入れるステップと、を更に含む、（１）に記
載のコンピュータ・プログラム装置。（３）前記分類法が有向非輪状グラフ（ＤＡＧ）分類
法であり、かつ少なくともいくつかの前記品目セットが
ＤＡＧ分類法におけるディセンダント品目またはアンセ
スタ品目である品目を含む、（２）に記載のコンピュー
タ・プログラム装置。（４）品目のアンセスタが前記候補の大きな品目セッ
トの次の集合の中の品目セットの１つに現れる場合だ
け、その品目を含む取引に該品目のアンセスタを入れ、
かつ前記方法が前記大きな品目セットの集合に前記アン
セスタを入れる前に、各品目の前記アンセスタを事前に
判定するために前記ＤＡＧ分類法をアクセスするステッ
プと、前記候補の大きな品目セットの次の集合の中の品
目セットが品目及びその品目のアンセスタを含むとき
に、該候補の大きな品目セットの次の集合からその品目
セットを削除するステップと、を更に含む、（３）に記
載のコンピュータ・プログラム装置。（５）品目を含む取引にその品目のアンセスタを入
れ、かつ前記関連品目セットが前記データベースに存在
する回数を判定する前に、前記取引から重複する品目エ
ントリを削除するステップとを更に含む、（４）に記載
のコンピュータ・プログラム装置。（６）前記分類法が前記品目セットに対して適用さ
れ、かつ階層的順番のレベルで特徴付けられ、前記レベ
ルの範囲は最高レベルから最低レベルまで連続的に整数
０からｎで表示され、レベル０の品目を含む品目セット
は他のレベルの品目を含む品目セットの前に、大きな品
目セットの集合に入れるためにアクセスされる、（４）
に記載のコンピュータ・プログラム装置。（７）レベル１の品目セットがレベル０のアンセスタ
品目セットのディセンダントの場合に、該アンセスタ品
目セットが前記データベースに存在する回数が前記所定
の最低サポート値を超えないとき、該レベル１の品目セ
ットが削除され、この削除段階はレベル１の品目セット
が前記大きな品目セットの集合に入れるためにアクセス
される前に実行される、（６）に記載のコンピュータ・
プログラム装置。（８）前記分類法が階層的順番のレベルで特徴付けら
れ、該レベルの範囲は最高レベルから最低レベルまで連
続的に整数０からｎで表示され、前記方法が、候補の大
きな品目セットを推定するために前記データベースの選
択されたサンプル部分をアクセスするステップと、大き
いと推定された品目セットを前記候補の大きな品目セッ
トの次の集合に入れるステップと、大きいと推定されな
かった品目セットで、そのアンセスタ品目セットのすべ
てが大きいと推定された品目セットを、前記候補の大き
な品目セットの次の集合に入れるステップと、を更に含
む、（４）に記載のコンピュータ・プログラム装置。（９）前記候補の大きな品目セットの次の集合を数え
るときに、大きいと推定されなかった品目セットのディ
センダント品目セットが、前記データベースに存在する
回数を判定するステップを更に含む、（８）に記載のコ
ンピュータ・プログラム装置。（１０）関連規則のアンセスタの信頼及びサポートに
基づき、前記関連規則の予想信頼及びサポート値を判定
するステップと、前記関連規則の信頼及びサポート値が
所定の因子により前記予想される信頼及びサポート値を
超えるときに、該関連規則を関心のあるものと識別する
ステップと、を更に含む、（１）に記載のコンピュータ
・プログラム記憶装置。（１１）コンピュータ・システム、中央処理装置、及
び前記中央処理装置と結合され、データベースに記憶さ
れた取引の品目セットにおける関連規則を識別するため
に前記データベースを格納する手段とともに使用するコ
ンピュータ・プログラム製品であり、品目セットは階層
分類法における品目で特徴付けられ、前記分類法の階層
の任意の場所に品目を有す品目セットにおける関連規則
を識別するためのコンピュータ読取り可能プログラム手
段を有する、コンピュータ使用可能媒体を含むコンピュ
ータ・プログラム記憶装置を含み、前記コンピュータ読
取り可能プログラム手段は、（ａ）品目セットをアク
セスするためのコンピュータ読取り可能コード手段と、
（ｂ）前記品目セットが前記データベースに存在する
回数が所定の最低サポート値を超えたときに、その品目
セットを大きな品目セットの集合に入れるためのコンピ
ュータ読取り可能コード手段と、（ｃ）前記大きな品
目セットの集合の中の少なくともいくつかの前記品目セ
ットについて、該品目セットの選択されたサブセットが
前記データベースの取引に現れる回数を判定するための
コンピュータ読取り可能コード手段と、（ｄ）選択さ
れたサブセットが前記データベースに現れる回数が、関
連品目セットが前記データベースに現れる回数に対して
所定の最低信頼関係を保ち、その結果最低信頼制約を満
足する場合に、関連規則を出力するためのコンピュータ
読取り可能コード手段とを有する、コンピュータ・プロ
グラム製品。（１２）前記分類法が有向非輪状グラフ（ＤＡＧ）分
類法であり、かつ少なくともいくつかの前記品目セット
がＤＡＧ分類法におけるディセンダント品目叉はアンセ
スタ品目である品目を含む、（１１）に記載のコンピュ
ータ・プログラム製品。（１３）品目のアンセスタが前記候補の大きな品目セ
ットの次の集合の中の品目セットの１つに現れる場合だ
け、その品目を含む取引に該品目のアンセスタを入れ、
かつ（ａ）前記大きな品目セットの集合に前記アンセ
スタを入れる前に、各品目の前記アンセスタを事前に判
定するために前記ＤＡＧ分類法をアクセスするコンピュ
ータ読取り可能コード手段と、（ｂ）前記候補の大き
な品目セットの次の集合の中の品目セットが品目及びそ
の品目のアンセスタを含むときに、該候補の大きな品目
セットの次の集合からその品目セットを削除するコンピ
ュータ読取り可能コード手段と、を更に含む、（１２）
に記載のコンピュータ・プログラム製品。（１４）品目を含む取引にその品目のアンセスタを入
れ、かつ前記関連品目セットが前記データベースに存在
する回数を判定する前に、前記取引から重複する品目エ
ントリを削除するためのコンピュータ読取り可能コード
手段を更に含む、（１３）に記載のコンピュータ・プロ
グラム製品。（１５）前記候補品目セットに適用された前記分類法
が階層順位のレベルで特徴付けられ、前記レベルの範囲
は最高レベルから最低レベルまで連続的に整数０からｎ
で表示され、コンピュータ読取り可能コード手段が他の
レベルの品目セットをアクセスする前に、レベル０の品
目セットを大きな品目セットの集合に入れるためにアク
セスする、（１３）に記載のコンピュータ・プログラム
製品。（１６）前記コンピュータ読取り可能コード手段が、
レベル１の品目セットがレベル０のアンセスタ品目セッ
トのディセンダントである場合に、該アンセスタ品目セ
ットが前記データベースに存在する回数が前記所定の最
低サポート値を超えないとき、レベル１の品目セットが
前記大きな品目セットの集合に入れるためにアクセスさ
れる前に、レベル１のその品目セットを削除する、（１
５）に記載のコンピュータ・プログラム製品。（１７）前記分類法が階層順位のレベルで特徴付けら
れ、該レベルの範囲は最高レベルから最低レベルまで連
続的に整数０からｎで表示され、前記コンピュータ・プ
ログラム製品が、（ａ）候補の大きな品目セットを推
定するために、前記データベースの選択されたサンプル
部分をアクセスするコンピュータ読取り可能コード手段
と、（ｂ）大きいと推定された品目セットを、前記候
補の大きな品目セットの次の集合に入れるコンピュータ
読取り可能コード手段と、(3) 大きいと推定されなか
った品目セットで、そのアンセスタ品目セットのすべて
が大きいと推定された品目セットを、前記候補の大きな
品目セットの次の集合に入れるコンピュータ読取り可能
コード手段と、を更に含む、（１３）に記載のコンピュ
ータ・プログラム製品。（１８）前記候補の大きな品目セットの次の集合を数
えるときに、大きいと推定されなかった品目セットのデ
ィセンダント品目セットが前記データベースに存在する
回数を判定するコンピュータ読取り可能コード手段を更
に含む、（１７）に記載のコンピュータ・プログラム製
品。（１９）（ａ）関連規則のアンセスタの信頼及びサ
ポートに基づき、前記関連規則の予想信頼及びサポート
値を判定するコンピュータ読取り可能コード手段と、
（ｂ）前記関連規則の信頼及びサポート値が所定の因
子により前記予想される信頼及びサポート値を超えると
きに、該関連規則を関心のあるものと識別するコンピュ
ータ読取り可能コード手段と、を更に含む、（１１）に
記載のコンピュータ・プログラム記憶装置。（２０）ディジタル処理装置により読取り可能であ
り、かつ顧客の購入傾向を発見するべく、データベース
に格納され、２つ以上の品目を有する取引の品目セット
の一般化された関連規則を識別する方法ステップを実行
するために、ディジタル処理装置により実行可能な命令
のプログラムを具体的に実施するプログラム記憶装置で
あり、前記品目は分類法構造により特徴付けられ、前記
方法ステップは、前記分類法構造の任意の場所に配置さ
れた品目を有し、少なくともユーザ定義の最低サポート
を有して繰返される品目セットを大きな品目セットとし
て識別するステップと、サブセットの繰返しが品目セッ
トの繰返しに対する所定の関係を保つときに、前記大き
な品目セットとそのサブセットとの間の関係規則を発見
するステップと、前記関連規則を顧客の購入傾向を表す
ものとして出力するステップとを含む、プログラム記憶
装置。（２１）候補の大きな品目セットの次の集合を生成す
るステップを含み、そこでは品目のアンセスタが前記候
補の大きな品目セットの次の集合の中の品目セットの１
つに現れる場合だけ、前記品目を含む少なくとも１つの
取引にその品目のアンセスタを入れ、前記方法ステップ
は、（ａ）アンセスタを前記大きな品目セットの集合
に入れる前に、各品目のアンセスタを事前に判定するた
めに前記分類法構造をアクセスするステップと、（ｂ）
前記候補の大きな品目セットの次の集合の中の品目セ
ットが品目及びその品目のアンセスタを含む場合に、該
候補の大きな品目セットの次の集合から前記品目セット
を削除するステップと、を更に含む、（２０）に記載さ
れたプログラム記憶装置。（２２）（ａ）関連規則のアンセスタの信頼及びサポ
ートに基づき、前記関連規則の予想信頼及びサポート値
を判定するステップと、及び（ｂ）前記関連規則の信
頼及びサポート値が所定の因子により前記予想される信
頼及びサポート値を超えるときに、該関連規則を関心の
あるものと識別するステップと、を更に含む、（２１）
に記載のプログラム記憶装置。（２３）分類法的構造のデータベースに格納された品
目を有す品目セットにおける関連規則を発見するデータ
ベース・マイニング・システムであり、（ａ）前記品
目セットがユーザ定義の最低サポート値以上の取引デー
タベースのサポートを有するときに、大きな品目セット
を生成する大きな品目セット生成器と、（ｂ）前記大
きな品目セットを受取り、品目セットがそのサブセット
の少なくとも１つに対して所定の信頼関係と等しいか叉
は大きな信頼関係を保つときに関連規則を出力する関連
規則生成器と、（ｃ）前記サポート及び前記信頼関係
が所定の因子による予想サポート及び予想信頼関係をそ
れぞれ超えるときに、関連規則を関心のあるものとして
識別する規則選定器と、を含む、データベース・マイニ
ング・システム。（２４）取引の品目セットと１つまたは複数の品目を
含む。その品目セットのサブセットとの間の関連規則を
識別することにより、消費者の購入傾向を発見するコン
ピュータ・ベース・システムであり、（ａ）前記品目
を階層的関係で記憶するためにコンピュータがアクセス
可能な複数レベル分類法構造と、（ｂ）前記分類法構
造及び前記取引をアクセスし、品目セットが前記取引に
現れる第１の回数を判定し、該第１の回数が最低サポー
ト値を超えたときにその品目セットを大きな品目セット
として指摘する、大きな品目セット生成器と、（ｃ）
前記大きな品目セット生成器をアクセスし、品目セット
の少なくとも１つのサブセットが前記取引に現れる第２
の回数を判定し、前記第１の回数が該第２の回数に対す
る所定の最低信頼関係を保つときに消費者の購入傾向を
表す関連規則を出力する、関連規則発見器と、を含む、
コンピュータ・ベース・システム。

【図面の簡単な説明】

【図１】本発明の一般化された関連規則を検索するため
のシステムの機能ブロック図である。

【図２】本発明を実施するマシン・コンポーネントを、
図示のために一部を取除いて示す図である。

【図３】本発明の全体操作を示す流れ図である。

【図４】大きな品目セットを識別する、本発明の基本実
施例の操作を示す流れ図である。

【図５】本発明の候補生成を示す流れ図である。

【図６】基本実施例で使用されるデータ構造を示す構成
図である。

【図７】基本実施例のデータ管理を示す流れ図である。

【図８】基本実施例のバッファ管理を示す流れ図であ
る。

【図９】大きな品目セットを識別する、本発明の累積実
施例の操作を示す流れ図である。

【図１０】大きな品目セットを識別する、本発明の層状
実施例の操作を示す流れ図である。

【図１１】大きな品目セットを識別する、本発明の推定
実施例の操作を示す流れ図である。

【図１２】大きな品目セットを識別する、本発明のｅｓ
ｔｍｅｒｇ実施例の操作を示す流れ図である。

【図１３】分類法全体で大きな品目セットの関連規則を
判定するための単純な方法を示す流れ図である。

【図１４】分類法全体で大きな品目セットの関連規則を
判定するための比較的速い方法を示す流れ図である。

【図１５】図１４に示す方法の詳細を示す流れ図であ
る。

【図１６】関心のない関連規則を切捨てる方法を示す流
れ図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ラマクリシュナン・スリカントアメリカ合衆国95136、カリフォルニア州、サン・ノゼ、＃333、ザ・ウッズ・ドライブ4300 (56)参考文献ＲａｋｅｓｈＡｇｒａｗａｌ，ＲａｍａｋｒｉｓｈｎａｎＳｒｉｋａｎｔ，”ＦａｓｔＡｌｇｏｒｉｔｈｍｓｆｏｒＭｉｎｉｎｇＡｓｓｏｃｉａｔｉｏｎＲｕｌｅｓ”，ＰＲＯＣＥＥＤＩＮＧＳＯＦＴＨＥ 20 ＴＨＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮＶＥＲＹＬＡＲＧＥＤＡＴＡＢＡＳＥＳ，1994，ＰＰ．487−499 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 220 G06F 17/30 180 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】品目セットの品目に関して階層分類法が用
いられる品目セットにおける関連規則を識別するデータ
ベース・マイニング方法であって、前記階層分類法は、
品目間のディセンダント及びアンセスタの関係を定義
し、（ａ）品目セットをアクセスするステップと、（ｂ）前記品目セットがトランザクションのデータベ
ースに存在する回数が所定の最低サポート値を超えるサ
ポート値を設定するときに、品目セットを大きな品目セ
ットの集合に入れるステップと、（ｃ）前記大きな品目セットの集合の中の少なくとも
いくつかの品目セットについて、前記品目セットの選択
されたサブセットが前記データベースのトランザクショ
ンに現れる回数を判定するステップと、（ｄ）選択されたサブセットが前記データベースに現
れる回数が、関連品目セットが前記データベースに現れ
る回数に対して所定の関係を保ち、その結果最低信頼制
約を満足するときに関連規則を出力するステップとを含
むデータベース・マイニング方法。
【請求項２】候補の大きな品目セットの次の集合を生成
するために所定の連結形態に従って大きな品目セットの
集合の中の品目セットを連結し、及びそのサブセットが
大きな品目セットではない候補の大きな品目セットをす
べて破棄するステップと、前記候補の大きな品目セットが前記データベースに存在
する回数を判定するために、前記候補の大きな品目セッ
トの次の集合の中の各品目セットを前記データベースの
品目セットと比較するステップと、候補の大きな品目セットが前記データベースに存在する
回数が前記最低サポート値より大きな場合だけ、前記候
補の大きな品目セットを大きな品目セットの次の前方の
集合に入れるステップとをさらに含む請求項１に記載の
データベース・マイニング方法。
【請求項３】前記階層分類法は有向非輪状グラフ（ＤＡ
Ｇ）分類法であり、前記品目セットの少なくとも一部はＤＡＧ分類法におけ
るディセンダント品目またはアンセスタ品目を含む請求
項２に記載のデータベース・マイニング方法。
【請求項４】品目のアンセスタが前記候補の大きな品目
セットの次の集合の中の品目セットのいずれかに現れる
場合だけ、その品目を含むトランザクションに該品目の
アンセスタを入れ、前記大きな品目セットの集合に前記アンセスタ品目を入
れる前に、各品目の前記アンセスタ品目を事前に判定す
るために前記ＤＡＧ分類法をアクセスするステップと、前記候補の大きな品目セットの次の集合の中の品目セッ
トが品目及びその品目のアンセスタを含むときに、該候
補の大きな品目セットの次の集合からその品目セットを
削除するステップとをさらに含む請求項３に記載のデー
タベース・マイニング方法。
【請求項５】品目を含むトランザクションにその品目の
アンセスタを入れ、かつ前記関連品目セットが前記デー
タベースに存在する回数を判定する前に、前記トランザ
クションから重複する品目エントリを削除するステップ
をさらに含む請求項４に記載のデータベース・マイニン
グ方法。
【請求項６】前記分類法が前記品目セットに対して適用
され、かつ階層的順番のレベルで特徴付けられ、前記レ
ベルの範囲は最高レベルから最低レベルまで連続的に整
数０からｎで表示され、レベル０の品目を含む品目セッ
トは他のレベルの品目を含む品目セットの前に、大きな
品目セットの集合に入れるためにアクセスされる請求項
４に記載のデータベース・マイニング方法。
【請求項７】レベル１の品目セットがレベル０のアンセ
スタ品目セットのディセンダントの場合に、該アンセス
タ品目セットが前記データベースに存在する回数が前記
所定の最低サポート値を超えないとき、該レベル１の品
目セットが削除され、この削除段階はレベル１の品目セ
ットが前記大きな品目セットの集合に入れるためにアク
セスされる前に実行される請求項６に記載のデータベー
ス・マイニング方法。
【請求項８】前記分類法が階層的順番のレベルで特徴付
けられ、該レベルの範囲は最高レベルから最低レベルま
で連続的に整数０からｎで表示され、候補の大きな品目セットを推定するために前記データベ
ースの選択されたサンプル部分をアクセスするステップ
と、大きいと推定された品目セットを前記候補の大きな品目
セットの次の集合に入れるステップと、大きいと推定されなかった品目セットで、そのアンセス
タ品目セットのすべてが大きいと推定された品目セット
を、前記候補の大きな品目セットの次の集合に入れるス
テップとをさらに含む請求項４に記載のデータベース・
マイニング方法。
【請求項９】前記候補の大きな品目セットの次の集合を
数えるときに、大きいと推定されなかった品目セットの
ディセンダント品目セットが、前記データベースに存在
する回数を判定するステップをさらに含む請求項８に記
載のデータベース・マイニング方法。
【請求項１０】関連規則のアンセスタの信頼及びサポー
トに基づき、前記関連規則の予想信頼及びサポート値を
判定するステップと、前記関連規則の信頼及びサポート値が所定の因子により
前記予想される信頼及びサポート値を超えるときに、該
関連規則を関心のあるものと識別するステップとをさら
に含む請求項１に記載のデータベース・マイニング方
法。
【請求項１１】データベースに記憶されたトランザクシ
ョンの品目セットにおける関連規則を識別するデータベ
ース・マイニング方法であって、前記品目セットは階層
分類法における品目で特徴付けられ、前記分類法の階層
の任意の場所に品目を有し、（ａ）品目セットをアクセスするステップと、（ｂ）前記品目セットが前記データベースに存在する
回数が所定の最低サポート値を超えたときに、その品目
セットを大きな品目セットの集合に入れるステップと、（ｃ）前記大きな品目セットの集合の中の少なくとも
いくつかの前記品目セットについて、該品目セットの選
択されたサブセットが前記データベースのトランザクシ
ョンに現れる回数を判定するステップと、（ｄ）選択されたサブセットが前記データベースに現
れる回数が、関連品目セットが前記データベースに現れ
る回数に対して所定の最低信頼関係を保ち、その結果最
低信頼制約を満足する場合に、関連規則を出力するステ
ップとを含むデータベース・マイニング方法。
【請求項１２】前記分類法が有向非輪状グラフ（ＤＡ
Ｇ）分類法であり、かつ少なくともいくつかの前記品目
セットがＤＡＧ分類法におけるディセンダント品目叉は
アンセスタ品目である品目を含む請求項１１に記載のデ
ータベース・マイニング方法。
【請求項１３】品目のアンセスタが前記候補の大きな品
目セットの次の集合の中の品目セットの１つに現れる場
合だけ、その品目を含むトランザクションに該品目のア
ンセスタを入れ、（ｅ）前記大きな品目セットの集合に前記アンセスタ
を入れる前に、各品目の前記アンセスタを事前に判定す
るために前記ＤＡＧ分類法をアクセスするステップと、（ｆ）前記候補の大きな品目セットの次の集合の中の
品目セットが品目及びその品目のアンセスタを含むとき
に、該候補の大きな品目セットの次の集合からその品目
セットを削除するステップと、をさらに含む請求項１２に記載のデータベース・マイニ
ング方法。
【請求項１４】品目を含むトランザクションにその品目
のアンセスタを入れ、かつ前記関連品目セットが前記デ
ータベースに存在する回数を判定する前に、前記トラン
ザクションから重複する品目エントリを削除するステッ
プをさらに含む請求項１３に記載のデータベース・マイ
ニング方法。
【請求項１５】前記候補品目セットに適用された前記分
類法が階層順位のレベルで特徴付けられ、前記レベルの
範囲は最高レベルから最低レベルまで連続的に整数０か
らｎで表示され、コンピュータ読取り可能コード手段が
他のレベルの品目セットをアクセスする前に、レベル０
の品目セットを大きな品目セットの集合に入れるために
アクセスする請求項１３に記載のデータベース・マイニ
ング方法。
【請求項１６】前記コンピュータ読取り可能コード手段
が、レベル１の品目セットがレベル０のアンセスタ品目
セットのディセンダントである場合に、該アンセスタ品
目セットが前記データベースに存在する回数が前記所定
の最低サポート値を超えないとき、レベル１の品目セッ
トが前記大きな品目セットの集合に入れるためにアクセ
スされる前に、レベル１のその品目セットを削除する請
求項１５に記載のデータベース・マイニング方法。
【請求項１７】前記分類法が階層順位のレベルで特徴付
けられ、該レベルの範囲は最高レベルから最低レベルま
で連続的に整数０からｎで表示され、（ｇ）候補の大きな品目セットを推定するために、前
記データベースの選択されたサンプル部分をアクセスす
るステップと、（ｈ）大きいと推定された品目セットを、前記候補の
大きな品目セットの次の集合に入れるステップと、（ｉ）大きいと推定されなかった品目セットで、そのア
ンセスタ品目セットのすべてが大きいと推定された品目
セットを、前記候補の大きな品目セットの次の集合に入
れるステップとをさらに含む請求項１３に記載のデータ
ベース・マイニング方法。
【請求項１８】前記候補の大きな品目セットの次の集合
を数えるときに、大きいと推定されなかった品目セット
のディセンダント品目セットが前記データベースに存在
する回数を判定するステップをさらに含む請求項１７に
記載のデータベース・マイニング方法。
【請求項１９】（ｊ）関連規則のアンセスタの信頼
及びサポートに基づき、前記関連規則の予想信頼及びサ
ポート値を判定するコンピュータ読取り可能コード手段
と、（ｋ）前記関連規則の信頼及びサポート値が所定の因
子により前記予想される信頼及びサポート値を超えると
きに、該関連規則を関心のあるものと識別するコンピュ
ータ読取り可能コード手段とをさらに含む請求項１１に
記載のデータベース・マイニング方法。
【請求項２０】顧客の購入傾向を発見するべく、データ
ベースに格納され、２つ以上の品目を有する取引の品目
セットの一般化された関連規則を識別する関連規則識別
方法であって、前記品目は階層分類法構造により特徴付
けられ、前記分類法構造の任意の場所に配置された品目を有し、
少なくともユーザ定義の最低サポートを有して繰返され
る品目セットを大きな品目セットとして識別するステッ
プと、サブセットの繰返しが品目セットの繰返しに対する所定
の関係を保つときに、前記大きな品目セットとそのサブ
セットとの間の関係規則を発見するステップと、前記関連規則を顧客の購入傾向を表すものとして出力す
るステップとを含むデータベース・マイニング方法。
【請求項２１】候補の大きな品目セットの次の集合を生
成するステップを含み、そこでは品目のアンセスタが前
記候補の大きな品目セットの次の集合の中の品目セット
の１つに現れる場合だけ、前記品目を含む少なくとも１
つのトランザクションにその品目のアンセスタを入れ、（ａ）アンセスタを前記大きな品目セットの集合に入
れる前に、各品目のアンセスタを事前に判定するために
前記分類法構造をアクセスするステップと、（ｂ）前記候補の大きな品目セットの次の集合の中の
品目セットが品目及びその品目のアンセスタを含む場合
に、該候補の大きな品目セットの次の集合から前記品目
セットを削除するステップとをさらに含む請求項２０に
記載されたデータベース・マイニング方法。
【請求項２２】（ｃ）関連規則のアンセスタの信頼及
びサポートに基づき、前記関連規則の予想信頼及びサポ
ート値を判定するステップと、（ｄ）前記関連規則の信頼及びサポート値が所定の因
子により前記予想される信頼及びサポート値を超えると
きに、該関連規則を関心のあるものと識別するステップ
と請求項２１に記載のデータベース・マイニング方法。
【請求項２３】階層分類法的構造のデータベースに格納
された品目を有す品目セットにおける関連規則を発見す
るデータベース・マイニング・システムであり、（ａ）前記品目セットがユーザ定義の最低サポート値
以上のトランザクションデータベースのサポートを有す
るときに、大きな品目セットを生成する大きな品目セッ
ト生成手段と、（ｂ）前記大きな品目セットを受取り、品目セットが
そのサブセットの少なくとも１つに対して所定の信頼関
係と等しいか叉は大きな信頼関係を保つときに関連規則
を出力する関連規則生成手段と、（ｃ）前記サポート及び前記信頼関係が所定の因子に
よる予想サポート及び予想信頼関係をそれぞれ超えると
きに、関連規則を関心のあるものとして識別する規則選
定手段とを含むデータベース・マイニング・システム。
【請求項２４】トランザクションの品目セットと１つま
たは複数の品目を含む。その品目セットのサブセットと
の間の関連規則を識別することにより、消費者の購入傾
向を発見するデータベース・マイニング・システムであ
り、（ａ）前記品目を階層的関係で記憶するためにコンピ
ュータがアクセス可能な複数レベル分類法構造と、（ｂ）前記分類法構造及び前記トランザクションをア
クセスし、品目セットが前記トランザクションに現れる
第１の回数を判定し、該第１の回数が最低サポート値を
超えたときにその品目セットを大きな品目セットとして
指摘する、大きな品目セット生成手段と、（ｃ）前記大きな品目セット生成手段をアクセスし、
品目セットの少なくとも１つのサブセットが前記トラン
ザクションに現れる第２の回数を判定し、前記第１の回
数が該第２の回数に対する所定の最低信頼関係を保つと
きに消費者の購入傾向を表す関連規則を出力する関連規
則発見手段とを含むデータベース・マイニング・システ
ム。