JP2001522095A

JP2001522095A - オンライン・データベース・マイニング

Info

Publication number: JP2001522095A
Application number: JP2000519369A
Authority: JP
Inventors: アガルワル・チャンドラ; ユー・フィリップ・シールン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-11-04
Filing date: 1998-09-29
Publication date: 2001-11-13
Anticipated expiration: 2018-09-29
Also published as: TW505868B; JP3575602B2; DE69809964T2; KR100382296B1; US6092064A; CN1138222C; EP1034489B1; HK1033987A1; AU9272698A; HUP0100161A2; PL340380A1; CA2304646C; AU750629B2; DE69809964D1; CZ294171B6; KR20010031687A; EP1034489A1; CA2304646A1; CN1278345A; HUP0100161A3

Abstract

(57)【要約】【課題】【解決手段】前処理段階の後にオンライン規則生成段階が続く２段階を有する、定量連想規則のオンライン・マイニングのコンピュータによる方法を提供する。データを前処理して前件属性間の関係を編成して、階層的に配列された多次元索引構造を形成することによって定義される前処理段階によって、要求される計算量が削減される。その結果得られる構造は、定量連想規則の生成を含む、第２段階のオンライン処理の実行を促進する。第２段階のオンライン規則生成は、最初に規則に対応するデータの領域を発見し、次いで規則集合の階層的表現を提供するため関心のある領域を慎重に組み合わせるために併合ステップを使用して併合木を形成することによって、前処理段階で形成された多次元索引構造を利用する。次に、実際に規則を生成するために、併合された木を使用する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は一般に、大規模データベースにおけるデータ従属性のオンライン探索
に関する。

【０００２】

【従来の技術】

データベースにおける知識発見とも呼ばれるデータ・マイニングは、データベ
ース研究の新しい領域と認識されてきた。電子形式で格納されるデータの量は、
過去２０年の間に劇的に増加した。ＰＯＳ装置またはリモート・センシング装置
などの電子データ収集装置の使用の増加が、利用可能なデータのこの急増の一因
になった。大量の計算能力資源およびデータ記憶資源の利用可能性がどんどん低
下するコストで利用できるようになっているので、データの格納はますます簡単
に、かつ産業界にとってますます魅力的になってきている。

【０００３】データの蓄積に高い関心が集まるにつれて、この貴重な資源をどのように利用
できるかに重点を置く補完的な必要性が生じてきた。業界は、格納されたデータ
を利用できる意思決定者が貴重な洞察を得ることができることを認識してきた。
バーコード会社のデータまたはカタログ販売会社の販売データを使用することに
よって、顧客購買動向に関する貴重な情報を得ることができる。導き出された情
報は、例えば小売業者が、なかんずく、どの品目をスーパーマーケットの棚に載
せるべきかを決定する際に、あるいは目標をしっかり定めたマーケティング・プ
ログラムを設計するために使用することができよう。適切な分析技術を利用して
、データから多数の有意義な洞察を発掘することができる。最も一般的な意味で
、データ・マイニングは、データの集合におけるパターンおよび規則性を発見す
るためのデータ分析およびソフトウェア技術の使用に関係する。データ・マイニ
ングの目的は、データ内の識別可能なパターンおよび傾向を選別すること、およ
びこれらのパターンから連想規則を推論することである。

【０００４】データ・マイニング技術は、大量のデータに対する集中的な計算によって特徴
付けられる。大規模データベースとは、１００万以上のレコードから成るものと
定義できる。一般的な適用例では、最終利用者は、「コーラを買う客の７５％は
コーン・チップも買う」などの連想規則を試験する。ここで７５％は規則の信頼
度係数を指す。規則のサポートが、コーラおよびコーン・チップの両方を含むト
ランザクションのこの百分率である。

【０００５】

【発明が解決しようとする課題】

今まで、従来技術はオンライン・マイニングの問題を取り扱ってきておらず、
その代わりにアイテムセット手法（itemset approach）に重点を置いてきた。ア
イテムセット手法の重大な欠点は、利用者が様々な値のサポートおよび信頼度で
連想規則についてデータベースを試験するときに、およそ数ギガバイトになるこ
ともあるデータベースに対し、マルチパスを行わなければならないことである。
超大規模データベースの場合、これはかなりの量のＩ／Ｏを伴うことがあり、場
合によっては、オンライン問合せに対する容認できない応答時間をもたらすこと
がある。所定のレベルのサポートおよび信頼度を満たす規則が幾つあるかを先験
的に推測することは難しいので、利用者はデータベースに多数の問合せを行わな
ければならない。一般に人は、少数の規則に関心を持つだけである。これは問題
をますます困難にする。というのは、利用者が、規則を引き出すために適切なレ
ベルの最小サポートおよび最小信頼度を見つけるために、何回も問合せを実行す
る必要があるからである。言い換えると、連想規則を引き出す問題は、有用な事
業情報をトランザクション・データベースから集めることができるようになる前
に、問合せを繰り返すことによって、かなりの手動パラメータ調整を行うことが
必要になる。したがって、今まで記載されたマイニングの処理方法は、大量のデ
ィスクＩ／Ｏまたは計算が容認できない応答時間につながるので結果的に、繰返
しオンライン問合せには適さない。データ・マイニングの能力をインターネット
に拡張するには、バッチ指向の方法であるアイテムセット手法ではなく、動的オ
ンライン方法が必要である。

【０００６】

【課題を解決するための手段】

したがって、本発明は、定量連想規則を提供するために各々が複数の定量項目
およびカテゴリ項目を有する複数のレコードを有する大規模データベースのオン
ライン・マイニングの方法であって、ａ）最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、および前件属性と後件属性とを含む利用者問合せを受け取るステ
ップと、ｂ）前記前件属性と後件属性との間の関係を編成するステップと、ｃ）前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するステップと、ｄ）前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ステップとを含む方法を提供する。

【０００７】好適な実施形態では、前記応答は１つまたはそれ以上の定量連想規則、各規則
に関連付けられる実信頼度値、各規則に関連付けられる実サポート値、および各
規則に関連付けられる関心レベルを含み、前記１つまたはそれ以上の定量連想規
則は、関心を引く規則のみで構成される（例えば、それらの関心レベルの計算値
は、前記関心レベルの利用者定義値に少なくとも等しい）。

【０００８】関心レベルの便利かつ効果的な定義は（例えば）第１および第２比率計算値の
うち最小のものであり、ここで前記第１比率は実信頼度を予想信頼度で割ったも
のと定義され、第２比率は実サポートを予想サポートで割ったものと定義され、
ここで前記予想信頼度およびサポートは統計的独立性の推定に基づく計算値であ
る。

【０００９】好適な実施形態では、前記前件属性はカテゴリ的属性および定量属性を含み、
定量属性は下限および上限で構成される範囲によって定義される。

【００１０】好ましくは、前記編成ステップは、前記前件データを階層的に索引木に分割す
ることを含み、ここで前記索引木は多数の索引ノードを含み、前記分割は、ａ）前記索引木の各索引ノードに実サポートを表す第１の値を格納するステッ
プと、ｂ）前記索引木の各索引ノードに、各利用者問合せの後件属性の発生の頻度を
表す第２の値を格納するステップとによって行われる。

【００１１】そのような実施形態では、前記導出ステップは、ｉ）前記索引木の全ての索引ノードを探索して、前件属性の範囲が前記利用者問
合せの前件属性範囲に対応するノードを分離し、ｉｉ）ステップｉで突き止められたノードから、後件属性が前記最小信頼度の利
用者定義値に少なくとも等しいノードを選択し、ｉｉｉ）ステップｉｉで突き止められたノードから、併合木を作成することによって、効果的に実現することができる。

【００１２】好ましくは、前記作成ステップはさらに、無意味なノードを削除し、かつ他の
ノードを組み合わせて前記併合木を形成することを含み、ここで無意味なノード
とは、最小信頼度の前記利用者定義値に少なくとも等しい、対応する信頼度の計
算値を有しないノードである。併合木は、単一または複数の後件属性のどちらに
も作成することができる。

【００１３】１つの好適な実施形態では、前記受取りステップは、最小サポートの利用者定
義値、最小信頼度の利用者定義値、関心の利用者定義値、ならびに前件条件およ
び後件条件を含む利用者問合せを含むデータをコンピュータに入力することを含
み、前記前件条件および後件条件はさらに複数の定量属性およびカテゴリ属性を
含み、前記編成ステップおよび事前格納ステップは、メモリ内に１つまたはそれ以上
の次元で構成される索引木を構築すること、ならびにメモリ内に前記索引木から
非併合規則木を、かつ前記非併合規則木から併合規則木を構築することを含み、
ここで各次元は前記前件条件に含まれる利用者供給定量属性の１つによって定義
され、前記索引木は複数の索引ノードから成り、前記索引ノードは複数のデータ
・レコードから成り、前記導出ステップは、前記利用者問合せを満足する索引ノードであって、そのサポートが少なくと
も前記最小サポートに等しく、かつその信頼度が少なくとも前記最小信頼度に等
しい索引ノードから、１つまたはそれ以上の定量連想規則を生成すること、なら
びに、前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規
則に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付け
られたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レ
ベルの値とから成る出力データを利用者に表示することを含む。

【００１４】前記利用者問合せを対話的に修正して前記連想規則をさらに定義するように、
１つ以上の定量連想規則を生成するステップを繰り返すことができる。

【００１５】好ましくは、索引木を構築するステップは、１つまたはそれ以上の次元の２分
索引木を構築するステップと、前記サポート・レベルおよび信頼度レベルを各索
引ノードに格納するステップとを含み、ここで各次元は前記利用者供給定量前件
属性の１つによって定義される。

【００１６】また、非併合規則木を構築するステップは、前記索引木の各ノードを探索する
ステップと、利用者指定後件条件を満足する規則を含み、かつ最低信頼度の前記
利用者定義値に少なくとも等しい信頼度および最低サポートの前記利用者定義値
に少なくとも等しいサポートの値を有するノードを選択するステップとを含むこ
とが好ましい。この後者の選択ステップは、ポインタを構築するステップと、前記ポインタを前記索引木のルート・ノードに等化するステップと、前記ポインタに関連付けられる前記ノードをリストに追加するステップと、前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最小サポ
ート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタによっ
て指定されたノードの全ての子をリストに追加するステップと、前記ポインタによって指定されたノードに格納されたデータ・レコードが利用
者指定後件条件に少なくとも等しく、かつ前記利用者定義最小信頼度に少なくと
も等しい信頼度を有しているかどうかを決定するステップと、前記後件条件に関連付けられる定量連想規則を生成するステップと、前ステップの条件が満たされない場合、前記リストから前記ノードを削除する
ステップと、前記リストが空かどうかを決定するステップと、前記リストが空の場合には終了し、そうでない場合には前記ポインタを前記索
引木の次のノードに等化し、前記ポインタに関連付けられるノードをリストに追
加するステップからそれ以降の上記ステップを繰り返すステップとによって実行することができる。

【００１７】さらに好ましくは、併合規則木を構築するステップは、ａ）非併合規則木の各ノードをポスト順に走査することと、ｂ）ｉ）各前記利用者定義後件属性値が前記ノードに格納された後件属性値よ
り大きいかどうかを決定し、ｉｉ）（ｉ）の条件が満たされた場合、前記併合規則木に前記ノードを保存
し、ｉｉｉ）（ｉ）の条件が満たされず、かつ前記ノードに関連付けられる子ノ
ードが無い場合、前記併合規則木から前記ノードを削除し、ｉｖ）（ｉ）の条件が満たされず、前記ノードに１つの子ノードがある場合
、前記併合規則木から前記ノードを削除し、先祖ノードと前記削除されたノード
の子ノードとを直接関連付け、ｖ）（ｉ）の条件が満たされない場合、前記後件属性の範囲を調整することによって、走査された各ノードを非併合規則木に含めるか除外するかを評価することを含み、全てのノードがポスト順に走査し終わるまで、前記評価ステップを繰り返す。

【００１８】本発明はさらに、定量連想規則を提供するために各々が複数の定量項目および
カテゴリ項目を有する多数のレコードを有する大規模データベースのオンライン
・マイニングのための装置であって、ａ）最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、および前件属性と後件属性とを含む利用者問合せを受け取るため
の手段と、ｂ）前記前件属性と後件属性との間の関係を編成するための手段と、ｃ）前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するためのメモリと、ｄ）前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ための手段とを含む装置を提供する。

【００１９】別の側面から見ると、本発明はまた、定量連想規則を提供するために各々が複
数の定量項目およびカテゴリ項目を有する複数のレコードを有する大規模データ
ベースのオンライン・マイニングのコンピュータ実行プロセスであって、最小サポートの利用者定義値、最小信頼度の利用者定義値、関心の利用者定義
値、ならびに前件条件および後件条件を含む利用者問合せを含むデータをコンピ
ュータに入力するステップであって、前記前件条件および後件条件がさらに複数
の定量属性およびカテゴリ属性を含む前記入力ステップと、メモリ内に１つまたはそれ以上の次元で構成される索引木を構築するステップ
であって、前記各次元が前記前件条件に含まれる利用者供給定量属性の１つによ
って定義され、前記索引木が複数の索引ノードから成り、前記索引ノードがさら
に複数のデータ・レコードから成る前記構築ステップと、複数の索引ノードから成る前記索引木から非併合規則木をメモリ内に構築する
ステップであって、前記索引ノードがさらに複数のデータ・レコードから成る前
記構築ステップと、複数の索引ノードから成る前記非併合規則木から併合規則木をメモリ内に構築
するステップであって、前記索引ノードがさらに複数のデータ・レコードから成
る前記構築ステップと、前記利用者問合せを満足し、かつそのサポートが少なくとも前記最小サポート
に等しく、その信頼度が少なくとも前記最小信頼度に等しい索引ノードから、１
つまたはそれ以上の定量連想規則を生成するステップと、前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規則
に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付けら
れたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レベ
ルの値とから成る利用者出力データを表示するステップとを含む前記コンピュータ実行プロセスをも提供する。

【００２０】好ましくは、非併合規則木を構築するステップは、索引木の各ノードを探索す
ることと、ｉ）ポインタを構築するステップと、ｉｉ）前記ポインタを前記索引木のルート・ノードに等化するステップと、ｉｉｉ）前記ポインタに関連付けられる前記ノードをリストに追加するステッ
プと、ｉｖ）前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最
小サポート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタ
によって指定されたノードの全ての子をリストに追加するステップと、ｖ）前記ポインタによって指定されたノードに格納されたデータ・レコードが
利用者指定後件条件に少なくとも等しく、かつ前記ポインタによって指定された
ノードの前記利用者定義最小信頼度に少なくとも等しい信頼度を有しているかど
うかを決定するステップと、ｖｉ）前記後件条件に関連付けられる定量連想規則を生成するステップと、ｖｉｉ）前ステップの条件が満たされない場合、前記リストから前記ノードを
削除するステップと、ｖｉｉｉ）前記リストが空かどうかを決定するステップと、ｉｘ）前記リストが空の場合には終了するステップと、ｘ）ステップｉｘの条件が満たされない場合には、前記ポインタを前記索引木
の次のノードに等化するステップと、ｘｉ）ステップｉｘが満たされない場合には、ステップｉｉｉ〜ｘを繰り返す
ステップとによって適切なノードを選択することを含む。

【００２１】好ましくは、併合規則木を構築するステップは、ａ）非併合規則木の各ノードをポスト順に走査するステップと、ｂ）ｉ）各々の前記利用者定義後件属性値が前記ノードに格納された後件属性
値より大きいかどうかを決定するステップと、ｉｉ）ステップｉの条件が満たされた場合、前記併合規則木に前記ノードを
保存するステップと、ｉｉｉ）ステップｉの条件が満たされず、かつ前記ノードに関連付けられる
子ノードが無い場合、前記併合規則木から前記ノードを削除するステップと、ｉｖ）ステップｉの条件が満たされず、かつ前記ノードに１つの子ノードが
ある場合、前記併合規則木から前記ノードを削除するステップと、ｖ）ステップｉの条件が満たされない場合、前記後件属性の範囲を調整する
ステップと、ｖｉ）ステップｉｖの条件が満たされる場合、先祖ノードと前記削除された
ノードの子ノードとを直接関連付けるステップと、ｖｉｉ）全てのノードがポスト順に走査されるまでステップｉ〜ｖｉを繰り
返すステップとをさらに含む、走査された各ノードを非併合規則木に含めるか除
外するかを評価するステップとを含む。

【００２２】ここに記載する計算上効率的な手法は、データベースのオンライン問合せによ
り、利用者が供給するレベルのサポートおよび信頼度を予測子として利用して、
連想規則の強度を評価し、かつ定量連想規則のオンライン・マイニングの効率的
な実行のため、新しい定量連想規則を発見することを可能にする。連想規則は一
般に、その２つの構成部分つまり前件と後件との間に何らかの相関関係が存在す
ることを示唆する条件文と定義することができる。定量連想規則における前件お
よび後件は両方とも、利用者が指定する定量属性とカテゴリ属性の何らかの組合
せから構成される。規則の提案と共に、利用者は、利用者にとって関心のある信
頼度およびサポート・レベルならびに関心レベルと呼ばれる値を表す３つの追加
入力を提供する。これらの入力は、利用者（利用者問合せ）によって提案される
規則の強度の指標を、言い換えると、利用者問合せによって定義される前件と後
件との間の示唆される相関関係の強度を提供する。

【００２３】この手法を実行するために、オンライン規則生成ステップの前に、多次元索引
構造を形成するように前件属性を利用してデータを分割することによって、生デ
ータを前処理するための方法を記載する。データを効果的に前処理して索引構造
にすることによって、データは繰返しオンライン問合せにほぼ瞬時の応答時間で
応答するのに適した形になる。索引構造がひとたび形成されると、データベース
で多重パスを行う必要が無くなる。索引構造は、従前の技術に比べて格段の性能
上の利点をもたらす。索引構造（前処理されたデータ）は、複雑さが出力のサイ
ズに比例するグラフ理論探索アルゴリズムを適用することによってオンライン処
理を行うことができるように、格納される。この結果、応答時間に関してはほと
んど瞬時であるオンライン・アルゴリズムが得られ、Ｉ／Ｏまたは計算の過剰な
量が最小化される。

【００２４】

【発明の実施の形態】

従来のデータベース問合せは、「ロングアイランド地域の１９９５年１月のオ
レンジ・ジュースの売上げはどれだけあったか」などの簡単な質問を含む。対照
的に、データ・マイニングはデータにおける認識可能なパターンおよび傾向を見
つけ出そうとし、これらのパターンから規則を推測するものである。これらの規
則を基にユーザは関連事業または科学分野における決定を支持、再検討、考察す
ることが可能である。例えば、大量の商品があるスーパーマーケットについて考
察する。運営に関連する一般的な事業決定は、利益を最大にする等のために何を
特売するか、クーポン券をどのように計画するか、および商品をどのように棚に
配置するかに関する。過去のトランザクション・データの分析は、そのような決
定の質を改善するために一般に使用される手法である。最新の技術は、トランザ
クションごとに購入される品目を格納するいわゆるバスケット・データを格納す
ることを可能にした。組織は、大量のそうしたデータを収集する。問題は、大量
のバスケット・データ型トランザクションからある最小指定信頼度を有する品目
の集合間の連想規則を「発掘」することである。各トランザクションが１組の品
目である場合、１組のトランザクションが与えられると仮定すると、連想規則は
Ｘ＝＞Ｙの形の式であり、ここでＸおよびＹは品目の組である。連想規則の一例
は、「ビールを含むトランザクションの３０％はおむつをも含み、全トランザク
ションの２％はこれらの品目を両方とも含む」というものである。ここで、３０
％は規則の信頼度と呼ばれ、２％は規則のサポートと呼ばれる。

【００２５】そのような連想規則の別の例として、パンとバターを購入する顧客トランザク
ションの９０％は牛乳も購入するという文がある。この規則の前件Ｘはパンとバ
ターで構成され、後件Ｙは牛乳だけで構成される。９０％はこの規則の信頼係数
である。例えば、前件に「ベーグル（ドーナツ型の堅ロールパン）」を有する全
ての規則を見つけることが望ましいかもしれず、これは、もし店がベーグルの販
売を中止すれば、どんな製品（後件）に影響が出るかを判断するのに役立つであ
ろう。

【００２６】１組の生トランザクションＤが与えられたと仮定して、連想規則を発掘する問
題は、利用者が指定する最小サポート（minsupport s）および最小信頼度（minc
onfidence c）より大きいサポートおよび信頼度を有する全ての規則を見つけることである。一般に、規則Ｘ＝＞Ｙのサポートは、ＸおよびＹの両方の品目集合
（itemset）を含む顧客トランザクションまたは汎用データベースにおける組の百分率である。より形式的数学用語では、Ｄにおけるトランザクションのｓ％が
ＸとＹの和集合すなわちＸＶＹを含むならば、規則ｘ＝＞Ｙはトランザクション
集合Ｄにおけるサポートｓを有する。規則Ｘ＝＞Ｙの信頼度は、Ｘを含み、Ｙを
も含むトランザクションの百分率として定義される。より形式的には、Ｘを含む
Ｄにおけるトランザクションのｃ％がＹをも含むならば、規則Ｘ＝＞Ｙはトラン
ザクション集合Ｄにおける信頼度Ｃを有する。したがって、規則が９０％の信頼
度を有する場合、それはＸを含むトランザクションの９０％がＹをも含むことを
意味する。

【００２７】前述の通り、連想規則は形式Ｘ＝＞Ｙの式である。例えば、品目集合Ｘおよび
Ｙをそれぞれ、Ｘ＝［牛乳＆チーズ＆バター］Ｙ＝［卵＆ハム］と定義する。

【００２８】規則は、次のように解釈することができる。規則：Ｘ＝＞Ｙとは、トランザクションに牛乳、チーズ、およびバターが発生し
た場合、定義されたサポートおよび信頼度レベル内で卵とハムがその同じトラン
ザクションに現れる頻度がどれだけかを暗示する。

【００２９】規則のサポートおよび信頼度は集合的に、規則の強度を定義する。利用者が、
その強度を試験するために、そのようなシステムに規則を提起することができる
いくつかの方法がある。そのようなシステムがサポートできる種類のオンライン
問合せの包括的ではないが代表的なリストとして、次のようなものがある。（１）特定レベルのminsupportおよびminconfidenceより上の全ての連想規則を見つける。（２）特定レベルのminsupportおよびminconfidenceで、前件に品目の集合Ｘを有する全ての連想規則を見つける。（３）特定レベルのminsupportおよびminconfidenceで、後件に品目の集合Ｙを有する全ての連想規則を見つける。（４）特定レベルのminsupportおよびminconfidenceで、前件または後件のいずれかに、もしくは前件と後件の間に分配して、品目の集合Ｙを有する全ての連想
規則を見つける。（５）上記事例（１）、（２）、（３）、（４）のいずれかの連想規則／品目集
合の数を見つける。（６）どのレベルのminsupportで、品目の集合Ｚを含む品目集合の数がちょうど
ｋ個になるか。

【００３０】この方法は、一般的連想規則の方法を、様々な定量属性およびカテゴリ属性に
よって定義される１組の未処理（raw）トランザクションＤで構成される大規模データベースから定量規則を見つけることに特定化する。

【００３１】例えば、一般的マーケティング調査用の典型的な定量／カテゴリ・データベー
スは、一連のレコードで構成され、各レコードは次のように消費者の特徴および
好みの何らかの組合せを反映する。レコード（１）＝年齢＝２１、性別＝男、住宅所有者＝いいえレコード（２）＝年齢＝４３、性別＝男、住宅所有者＝はいレコード（３）＝年齢＝５５、性別＝女、住宅所有者＝いいえ

【００３２】一般に、定量連想規則は、次のような形式の条件である。一般規則：Ｘ１［ｌ１．．ｕ１］，Ｘ２［ｌ２．．ｕ２］．．．Ｘｋ［ｌｋ．．ｕｋ］Ｙ１
＝ｃ１，Ｙ２＝ｃ２．．Ｙｒ＝ｃｒ＝＞Ｚ１＝ｚ１，Ｚ２＝ｚ２ここでＸ１、Ｘ２、．．Ｘｋは定量前件属性に対応し、Ｙ１、Ｙ２、．．Ｙｋお
よびＣはカテゴリ前件属性に対応する。ここで［ｌ１．．ｕ１］、［ｌ２．．ｕ
２］、．．．［ｌｋ．．ｕｋ］は様々な定量属性の範囲に対応する。Ｚ１および
Ｚ２は複数の後件条件に対応する。

【００３３】この方法は、利用者が、前件／後件の対の形で、提案規則さもなくば利用者問
合せと呼ばれるものと共に、３つの入力を供給する必要がある。提案規則に加え
て、利用者は提案規則（利用者問合せ）の強度を試験するために、最小要求信頼
度（minconfidence=c）および最小要求サポート（minsupport＝ｓ）の値を供給する。

【００３４】最小信頼度および最小サポートは両方とも、一般連想規則の発見の場合と同様
に、定量連想規則の発見に関連する。典型的な利用者入力の一例を示す。

【００３５】

【実施例】

実施例Ａ：典型的利用者入力１．利用者は試験すべき提案規則（問合せ）を供給する。

【数１】２．利用者は、Minconfidence cと呼ばれる提案規則の信頼度値を供給する。 Minconfidence = 50% ３．利用者は、Minsupport sと呼ばれる提案規則のサポート値を供給する。 Minsupport = 10%

【００３６】図１は、この方法のアーキテクチャの全体的略図である。前処理されたデータ
にネットワーク３５を介してアクセスできる複数のクライアント４０があること
を想定している。前処理されたデータはサーバ５に常駐する。サーバ端に、前処
理されたデータ２０と共にキャッシュ２５がある。前処理およびオンライン処理
はＣＰＵ１０で行われる。さらに、データをディスクに格納する場合に備えて、
ディスク１５が存在する。

【００３７】この方法は、前処理段階の後にオンライン処理段階が続く２段階を含む。図２
は、前処理段階の全体的概要およびアルゴリズムのオンライン処理（規則生成ス
テップ）を示す。前処理段階は、２分索引木構造の構築を含む。図２ａのステッ
プ７５、および図４の関連詳細図を参照されたい。索引木構造は、当技術分野で
よく知られた空間データ構造であり、多次元データの索引付けの手段として使用
される。先行技術の関連研究は、ガットマン（Guttman, A.）の「A dynamic Ind
ex Structure for Spatial Searching. Proceedings of the ACM SIGMOD Confer
ence」に見ることができる。本発明の方法では、オンライン問合せを実行するた
めに、この索引木構造の変形を採用する。前件属性は、多次元索引構造を形成す
るようにデータを分割するために利用する。索引構造は２レベル構造であり、上
位レベルのノードは多くとも２つの後続ノードに関連付けられ、下位レベルのノ
ードは３つ以上の後続ノードに関連付けられる。索引構造の構築は、効果的なオ
ンライン・データ・マイニングの実行のために非常に重要である。鍵となる利点
は、利用者問合せに応答するために必要なディスクＩ／Ｏの量を最小にすること
に存在する。

【００３８】コンピュータ・メモリに格納される索引構造の図形的類似物を、索引木の形で
図５に示す。索引木は、多次元データに索引を付けるために使用される、よく知
られた空間データ構造である。別個の索引構造が、オンライン問合せで利用者に
よって指定された特定の定量属性によって定義される各次元について、コンピュ
ータ・メモリ内に形成される。図５は、前件条件「年齢」およびそれに関連付け
られる後件条件「初回買物客（FirstTimeBuyer）」を表す特定例の索引木構造で
ある。索引木の概念をさらに明瞭にするために、図５は、下の例の「年齢」次元
を表すことができた。

【００３９】実施例Ｂ：サンプル利用者問合せ

【数２】

【００４０】一般に、前件条件および後件条件を含む数量または定量属性とカテゴリ属性の
組合せに関する制約は無い。

【００４１】図５で、索引木構造のルート・ノードは、利用者が指定する定量属性である年
齢［０〜１００］を定義する。木の各後続ノードも定量属性である年齢を表し、
木構造の最上部から最下部に向かって範囲がだんだん狭くなる。例えば、年齢［
０〜１００］のルート・ノードの２分後続ノードは年齢［０〜４５］および年齢
［４５〜１００］である。この方法は、索引木の各ノードに、対象となる信頼度
およびサポート・レベルを表す２片のデータを格納する。例えば、図５を参照す
ると、１．信頼度レベル＝５０％２．サポート・レベル＝生データベースに入力されるデータの関数から成る２片のデータがルート・ノードに格納されている。

【００４２】これらは、ルート・ノードでの利用者問合せ、すなわち（前件／後件の対）、年齢［０〜１００］ => 初回買物客の信頼度およびサポートを定義する。

【００４３】図４は、図２に要素７５として示すアルゴリズムの前処理段階の詳細流れ図で
ある。この段階のプロセス・ステップは、２分索引木構造を生成し、かつ構造の
各ノードに後件属性のサポートおよび信頼度レベルを格納することを含み、その
後に構造の下位レベルで圧縮アルゴリズムを使用して索引木が使用可能メモリに
収まるのを確実にする。ステップ３００は前処理段階の入口点である。ステップ
３１０は、２分化アルゴリズムを使用して２分索引木を生成するプロセス・ステ
ップを実現するためのソフトウェアを表す。２分化ステップは、先行技術である
、アクラウル（Aqqarwal C.C.）、ウルフ（Wolf J.）、ユー（Yu P.S.）、エプルマン（Epelman M.A.）の「The S-Tree: An efficient index tree for multid
imensional index trees, Symposium of Spatial Databases, 1997」で考察され
ている。しかし、本発明の方法は、少なくとも１つの側面でこの先行技術とは異
なる。ステップ３１５で、索引ノードの項目を編成する方法は、後件属性の各値
のサポート・レベルおよび信頼度レベルの両方を構造の各ノードに格納するとい
う点で、独自である。ステップ３２０は、ソフトウェア圧縮アルゴリズムを利用
して、下位レベルの索引ノードを単一ノードに圧縮するプロセス・ステップを表
す。

【００４４】図６は、図３に要素１００として示す、索引木から非併合規則木を生成するた
めに使用する主探索アルゴリズムの詳細流れ図である。このアルゴリズムは入力
として、minconfidence cおよびminsupport sの利用者指定値ならびにQuerybox
Qおよび１つまたはそれ以上の右辺項値Ｚ１＝ｚ１、Ｚ２＝ｚ２で構成される利用者問合せを必要とする。Queryboxは、利用者問合せの左辺または前件部を表す
単なる記述項である。Queryboxの意味をさらに明瞭にするために、下の実施例Ｃ
で、この方法における入力としてオンライン利用者に何が要求されるかを説明す
る。

【００４５】実施例Ｃ：典型的利用者入力利用者は、次のものを指定する。（１．）最小信頼度値［minconfidence, c］（２．）最小サポート値［minsupport, s］さらに、オンライン利用者は、項目３および４の（前件／後件）対の形で利用
者問合せ（提案規則）を入力する必要がある。（３．）Querybox, ”Q”［前件］（４．）Ｚ１＝ｚ１、Ｚ２＝ｚ２等．．［後件］

【００４６】項目３のQueryboxについては以下の実施例でさらに説明するが、一般に定量属
性とカテゴリ属性の任意の組合せで構成することができる。項目４の後件属性は
、１つまたはそれ以上のカテゴリ属性で構成することができる。

【００４７】［実施例１］：この利用者指定問合せは、年齢と左利きの２つの次元を含む前件
条件すなわちqueryboxと、単一のカテゴリ後件条件の喫煙者（asmoker）とで構成される。

【数３】

【００４８】［実施例２］：この利用者指定問合せは、身長と収入の２つの次元を含む前件条
件すなわちqueryboxと、多重後件条件とで構成される。

【数４】

【００４９】［実施例３］：この利用者指定問合せは、１次元すなわち年齢を含む前件条件で
あるqueryboxと、単一の後件条件とで構成される。

【数５】

【００５０】上記の実施例Ｃは、利用者がこの方法の入力として供給する物を一般に説明し
ている。下の実施例Ｄは、上記の実施例２の利用者問合せを使用して、典型的な
入力／出力結果がどのように見えるかの代表的な例を提供する。

【００５１】実施例Ｄ：典型的利用者入力利用者は入力として次の物を指定する。１．minconfidence = 0.50 ２．minsupport = 0.4 ３．querybox（前件条件）＝身長［５〜７］，収入［１０ｋ〜４０ｋ］４．対象とする後件条件＝住宅所有者＝１，車所有者＝１項目（３および４）から形成される利用者問合せ：身長［５〜７］、収入［１０ｋ〜４０ｋ］==>住宅所有者，車所有者結果的に得られる出力：生成される規則身長［５．５〜６．２］、収入［１３ｋ〜２７．４ｋ］==>住宅所有者＝１、車所有者＝１

【００５２】一般に、出力は規則を１つも生成しないか、１つの規則または複数の規則を生
成することができると考えられる。上の例では単一の規則が生成された。生成さ
れた規則は、利用者が指定したそれぞれ０．５および０．４の信頼度およびサポ
ート・レベルで利用者問合せ（前件／後件の対）を満足すると言われる。

【００５３】図６によって定義される、索引木から非併合規則木を生成するためのアルゴリ
ズムは、索引木の全てのノードを１つずつ探索することによって進められる。ス
テップ４００は、主探索アルゴリズムへの入口点である。ステップ４１０は、索
引木のルート・ノードを指すようにCurrentnodeポインタを設定するプロセス・ステップを表す。CurrentNodeポインタは常に、アルゴリズムが現在探索している索引木の特定のノードを指す。ステップ４２０は、探索アルゴリズムによって
走査される資格のあるノードと考えられるノードの集合としてＬＩＳＴを定義す
る。ＬＩＳＴは、ステップ４２０でルート・ノードだけを含むように初期化され
る。ステップ４３０は、Currentnodeによって指定されたノードの子ノードのうち、Querybox Qと相交わり、かつ利用者指定入力値minsupport sに少なくとも等
しいサポートを有する全ての子ノードをＬＩＳＴに追加するプロセス・ステップ
を表す。子ノードは、子ノードに関連付けられる前件条件の全てがQueryboxによ
って定義された前件条件内に完全に含まれるときに、Querybox Qと相交わると言
われる。ステップ４４０は、CurrentNodeに含まれる個々のデータ・レコードが後件条件であるＺ１＝ｚ１およびＺ２＝ｚ２を少なくともｃパーセントの時間満
たすかどうかを決定する決定ステップである。ステップ４４０の条件が満たされ
た場合には、アルゴリズムはステップ４４５に進む。ステップ４４５は、右辺に
属性の集合に対応する規則、つまり後件条件を生成する。ステップ４４０および
４４５の後にステップ４５０が続き、これは、Currentnodeによって現在指定されているノードをＬＩＳＴから削除し、かつCurrentnodeポインタをＬＩＳＴに含まれる次のノードに設定するプロセス・ステップを表す。ステップ４６０は、
ＬＩＳＴが空であるかどうかを決定し、条件が満たされるときは、アルゴリズム
を終了する。ステップ４７０を参照されたい。そうでなければ、アルゴリズムは
ステップ４３０に戻り、CurrentNodeポインタによって現在指定されているノードに対してステップを繰り返す。アルゴリズムの終了後、利用者指定の最小サポ
ートminsupport sを満たす入力索引木の全てのノードで構成される非併合規則木
が出力される。

【００５４】図８は、非併合規則木から併合規則木を構築するプロセスを記載する詳細流れ
図である。この流れ図によって記載されるアルゴリズムは、非併合規則木を圧縮
して規則の階層表現を得る。非併合規則木を縦型探索順（in depth first searc
h order）に走査して、各ノードでそのノードに意味があるかどうかの決定を下す。意味のあるノードは、それに関連付けられる規則を有するノードであると定
義される。規則は、非併合木が形成されたときにノードに関連付けられているこ
ともあり、関連付けられていないこともある。意味のあるノードと意味の無いノ
ードの区別をさらに明瞭にするために、図７の非併合規則木を再び参照すると、
ここで意味のあるノードはノード１、２、および４に対応する。意味のあるノー
ドは全て、併合規則木に保存される。ノードが意味を有さないと決定されると、
アルゴリズムはそのノードを除去するか、または特定の条件が満たされるときに
は複数の子ノードを併合して単一ノードにする。

【００５５】ステップ５００は、アルゴリズムの入口点を表す。ステップ５１０は、非併合
規則木を縦型探索順に走査することを確実にするプロセス・ステップを実現する
ソフトウェアを表す。ステップ５１５は、縦型走査で非併合規則木の次のノード
に進むステップを表す。ステップ５２０は、現在の規則ノードが意味のあるノー
ドであるかどうかを決定する決定ステップを表す。現在のノードに意味があると
決定された場合、ステップ５３０に分岐が行われる。そうでない場合には、アル
ゴリズムはステップ５４０に分岐し、それによってそのノードは無意味と分類さ
れる。ステップ５４０は、無意味ノードが子ノードを有するかどうかを決定する
決定ステップである。無意味ノードに子ノードが無ければ、ステップ５５０に分
岐する。ステップ５５０は、現在の無意味ノードを削除するプロセス・ステップ
を表す。そうではなく、ステップ５４０で現在のノードに子ノードがあると決定
された場合、ステップ５６０に分岐される。ステップ５６０は、現在の無意味ノ
ードが１つの子ノードを有するか、それともそれ以上の子ノードを有するかを決
定するための決定ステップである。現在のノードが単一の子ノードしか有さない
場合には、ステップ５７０に分岐される。ステップ５７０は、現在のノードを削
除し、削除された無意味なノードの親ノードと子ノードを索引木の中で直接一つ
に接続するプロセス・ステップを実現するソフトウェアを表す。そうでなく、現
在のノードが複数の子ノードを有することが明らかになった場合には、ステップ
５８０に分岐される。ステップ５８０は、２つの子ノードの最小外接長方形が無
意味な親ノードのそれより大きいかどうかを決定する決定ステップである。最小
外接長方形は、各子ノードの定量属性の上限および下限（範囲）によって定義さ
れる。子ノードの範囲を組み合わせて、親ノードの範囲より広くなることが分か
った場合、併合が発生する。例えば、子ノードが子ノード１−年齢［１０〜２０］子ノード２−年齢［３０〜４０］と定義され、対応する親ノードが親ノード−年齢［１０〜３０］と定義された場合、この例では、子属性範囲の組合せにより［１０〜４０］の複
合範囲が生じ、これは親ノード［１０〜３０］によって指定される範囲より広い
ので、併合が発生する。

【００５６】２つの子ノードの最小外接長方形が親ノードのそれを超える場合、ステップ５
９０への分岐が行われる。ステップ５９０は、親の最小外接長方形を２つの子ノ
ードの最小外接長方形となるように調整するプロセス・ステップを実行するソフ
トウェアを表す。決定ステップ６００への分岐は、木にさらに走査すべきノード
があるかどうかを決定する。走査すべきノードがもう残っていなければ、終了ス
テップ６１０に分岐し、そうでない場合には、残りの索引ノードに対してプロセ
ス・ステップ４９０〜５１５が繰り返される。

【００５７】図１０は、併合規則木を入力として使用して、利用者指定関心レベルｒの規則
を定義するするプロセスを記載する詳細流れ図である。併合規則木は縦型探索順
に走査される。ステップ６１６は、流れ図の入口点である。利用者は、関心レベ
ルを表すｒの入力値を指定する。ステップ６１８は、縦型探索順で併合規則木に
おける次のノードを選択することを表す。ステップ６２０は、関心対象の現在の
ノードの全ての先祖ノードを見て、それらの中に信頼度値が現在のノードの１／
ｒに少なくとも等しいものがあるかどうかを決定する決定ステップである。条件
が真である場合には、ステップ６３０に分岐する。ステップ６３０は、現在のノ
ードに関連付けられる規則の刈込み（prunning）を表す。条件が満たされなけれ
ば、ステップ６４０に分岐する。ステップ６４０は、併合規則木に評価すべきノ
ードが残っているかどうかを決定する決定ステップである。評価すべき追加ノー
ドがある場合には、プロセス・ステップが繰り返され、そうでない場合には、プ
ロセスはこの時点で終了する。

【００５８】したがって要約すると、定量連想規則を見つけるためのデータ項目のデータ・
マイニングのオンライン方法を提供することができ、データ項目は様々な種類の
定量属性およびカテゴリ属性を含む。

【図面の簡単な説明】

【図１】コンピュータ・ネットワークの全体的な概要を示す略図である。

【図２】２段階で構成されるデータ・マイニング法の全体的概要を示す流れ図のうち、
前処理段階の流れ図である。

【図３】アルゴリズムのオンライン段階の流れ図である。

【図４】索引木が前件集合を用いてどのように構築されるかを詳細に示す流れ図である
。これは図２のステップ７５の拡張と考えることができる。

【図５】索引木が前件集合を用いてどのように構築されるかを詳細に示す流れ図である
。これは図２のステップ７５の拡張と考えることができる。

【図６】索引木から非併合規則木がどのように構築されるかを詳細に示す流れ図である
。これは図３のステップ１００の拡張と考えることができる。

【図７】索引木から非併合規則木がどのように構築されるかを詳細に示す流れ図である
。これは図３のステップ１００の拡張と考えることができる。

【図８】非併合規則木から併合規則木がどのように構築されるかを示す流れ図である。

【図９】非併合規則木から併合規則木がどのように構築されるかを示す流れ図である。

【図１０】ある利用者指定関心レベルｒで併合規則木から定量連想規則がどのように生成
されるかを示す流れ図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (72)発明者ユー・フィリップ・シールンアメリカ合衆国10514 ニューヨーク州チャパクァストーノウェイ 18 Ｆターム(参考） 5B049 EE05 FF01 5B075 NK46 PQ02 【要約の続き】

Claims

【特許請求の範囲】

【請求項１】定量連想規則を提供するために各々が複数の定量項目およびカテゴリ項目を有
する複数のレコードを有する大規模データベースのオンライン・マイニングの方
法であって、ａ）最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、ならびに前件属性および後件属性を含む利用者問合せを受け取る
ステップと、ｂ）前記前件属性と後件属性との間の関係を編成するステップと、ｃ）前記前件属性と前記後件属性に関係するデータとの間の関係を定義するデ
ータを事前格納するステップと、ｄ）前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ステップとを含む方法。
【請求項２】前記応答が１つまたはそれ以上の定量連想規則、各規則に関連付けられた実信
頼度値、各規則に関連付けられた実サポート値、および各規則に関連付けられた
関心レベルを含む、請求項１に記載の方法。
【請求項３】前記１つまたはそれ以上の定量連想規則が、計算された関心レベルが前記利用
者定義関心レベルに少なくとも等しい規則のみで構成される、請求項２に記載の
方法。
【請求項４】前記関心レベルが第１および第２比率の計算値のうち最小のものと定義され、
前記第１比率は実信頼度を予想信頼度で割ったものと定義され、第２比率は実サ
ポートを予想サポートで割ったものと定義され、前記予想信頼度およびサポート
は統計的独立性の推定に基づく計算値である、請求項１ないし３のいずれか一項
に記載の方法。
【請求項５】前記前件属性がカテゴリ属性および定量属性で構成される、請求項１ないし４
のいずれか一項に記載の方法。
【請求項６】前記定量属性がさらに下限および上限から成る範囲によって定義される、請求
項５に記載の方法。
【請求項７】前記編成ステップが前記前件データを階層的に索引木に分割することを含み、
前記索引木は複数の索引ノードを含む、請求項１ないし６のいずれか一項に記載
の方法。
【請求項８】前記前件データを階層的に索引木に分割する前記ステップがａ）前記索引木の各索引ノードに実サポートを表す第１の値を格納すること、
ならびに、ｂ）前記索引木の各索引ノードに、各利用者問合せの後件属性の発生の頻度を
表す第２の値を格納することを含む、請求項７に記載の方法。
【請求項９】前記導出ステップが、ｉ）前記索引木の全ての索引ノードを探索して、前件属性の範囲が前記利用者問
合せの前件属性範囲に対応するノードを分離するステップと、ｉｉ）ステップｉで突き止められたノードから、後件属性が前記最小信頼度の利
用者定義値に少なくとも等しいノードを選択するステップと、ｉｉｉ）ステップｉｉで突き止められたノードから、併合木を作成するステップ
とを含む、請求項７または８に記載の方法。
【請求項１０】前記作成ステップが、無意味なノードを削除し、他のノードを組み合わせて前
記併合木を形成することをさらに含む、請求項９に記載の方法。
【請求項１１】無意味なノードとは、最小信頼度の前記利用者定義値に少なくとも等しい信頼
度の対応する計算値を有しないノードである、請求項１０に記載の方法。
【請求項１２】前記併合木を単一の後件属性または複数の後件属性のいずれかのために作成す
ることができる、請求項９、１０、または１１に記載の方法。
【請求項１３】前記受取りステップが、最小サポートの利用者定義値、最小信頼度の利用者定
義値、関心の利用者定義値、および前件条件と後件条件とを含む利用者問合せを
含むデータをコンピュータに入力することを含み、前記前件条件および後件条件
がさらに複数の定量属性およびカテゴリ属性を含み、前記編成および事前格納ステップは、メモリ内に１つまたはそれ以上の次元で
構成される索引木を構築すること、ならびに、メモリ内に前記索引木から非併合
規則木を、かつ前記非併合規則木から併合規則木を構築することを含み、ここで
各次元は前記前件条件に含まれる利用者供給定量属性の１つによって定義され、
前記索引木は複数の索引ノードから成り、前記索引ノードは複数のデータ・レコ
ードから成り、かつ前記導出ステップは、前記利用者問合せを満足する索引ノードであって、そのサポートが少なくと
も前記最小サポートに等しく、かつその信頼度が少なくとも前記最小信頼度に等
しい索引ノードから、１つまたはそれ以上の定量連想規則を生成すること、なら
びに前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規
則に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付け
られたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レ
ベルの値とから成る出力データを利用者に表示することを含む請求項１に記載の方法。
【請求項１４】前記利用者問合せを対話的に修正して前記連想規則をさらに定義するように、
１つ以上の定量連想規則を生成するステップを繰り返す、請求項１３に記載の方
法。
【請求項１５】索引木を構築する前記ステップが、各次元が前記利用者供給定量前件属性の１つによって定義される場合、１つま
たはそれ以上の次元の２分索引木を構築するステップと、前記サポート・レベルおよび信頼度レベルを各索引ノードに格納するステップ
とを含む、請求項１３または１４に記載の方法。
【請求項１６】非併合規則木を構築する前記ステップが、前記索引木の各ノードを探索するステップと、利用者指定後件条件を満足する規則を含み、かつ最小信頼度の前記利用者定義
値に少なくとも等しい信頼度および最小サポートの前記利用者定義値に少なくと
も等しいサポートの値を有するノードを選択するステップとを含む、請求項１３、１４、または１５に記載の方法。
【請求項１７】利用者指定後件条件を満たす規則を含むノードを選択する前記ステップが、ポインタを構築するステップと、前記ポインタを前記索引木のルート・ノードに等化するステップと、前記ポインタに関連付けられる前記ノードをリストに追加するステップと、前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最小サポ
ート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタによっ
て指定されたノードの全ての子をリストに追加するステップと、前記ポインタによって指定されたノードに格納されたデータ・レコードが利用
者指定後件条件に少なくとも等しく、かつ前記利用者定義最小信頼度に少なくと
も等しい信頼度を有しているかどうかを決定するステップと、前記後件条件に関連付けられる定量連想規則を生成するステップと、前記ステップの条件が満たされない場合、前記リストから前記ノードを削除す
るステップと、前記リストが空かどうかを決定するステップと、前記リストが空の場合には終了し、そうでない場合には前記ポインタを前記索
引木の次のノードに等化し、前記ポインタに関連付けられるノードをリストに追
加するステップからそれ以降の上記ステップを繰り返すステップとを含む、請求項１６に記載の方法。
【請求項１８】併合規則木を構築する前記ステップが、ａ）非併合規則木の各ノードをポスト順に走査することと、ｂ）ｉ）各前記利用者定義後件属性値が前記ノードに格納された後件属性値よ
り大きいかどうかを決定し、ｉｉ）（ｉ）の条件が満たされた場合、前記併合規則木に前記ノードを保存
し、ｉｉｉ）（ｉ）の条件が満たされず、かつ前記ノードに関連付けられる子ノ
ードが無い場合、前記併合規則木から前記ノードを削除し、ｉｖ）（ｉ）の条件が満たされず、前記ノードに１つの子ノードがある場合
、前記併合規則木から前記ノードを削除し、先祖ノードと前記削除されたノード
の子ノードとを直接関連付け、ｖ）（ｉ）の条件が満たされない場合、前記後件属性の範囲を調整すること
によって、走査された各ノードを非併合規則木に含めるか除外するかを評価することを含
み、全てのノードがポスト順に走査し終わるまで前記評価ステップを繰り返す、請
求項１３ないし１７のいずれか一項に記載の方法。
【請求項１９】定量連想規則を提供するために各々が複数の定量項目およびカテゴリ項目を有
する多数のレコードを有する大規模データベースのオンライン・マイニングのた
めの装置であって、ａ）最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、ならびに前件属性および後件属性を含む利用者問合せを受け取る
ための手段と、ｂ）前記前件属性と後件属性との間の関係を編成するための手段と、ｃ）前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するためのメモリと、ｄ）前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ための手段とを含む装置。