JP2001522095A - オンライン・データベース・マイニング - Google Patents

オンライン・データベース・マイニング

Info

Publication number
JP2001522095A
JP2001522095A JP2000519369A JP2000519369A JP2001522095A JP 2001522095 A JP2001522095 A JP 2001522095A JP 2000519369 A JP2000519369 A JP 2000519369A JP 2000519369 A JP2000519369 A JP 2000519369A JP 2001522095 A JP2001522095 A JP 2001522095A
Authority
JP
Japan
Prior art keywords
node
user
tree
quantitative
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000519369A
Other languages
English (en)
Other versions
JP3575602B2 (ja
Inventor
アガルワル・チャンドラ
ユー・フィリップ・シールン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001522095A publication Critical patent/JP2001522095A/ja
Application granted granted Critical
Publication of JP3575602B2 publication Critical patent/JP3575602B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/964Database arrangement
    • Y10S707/966Distributed
    • Y10S707/967Peer-to-peer
    • Y10S707/968Partitioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 【解決手段】 前処理段階の後にオンライン規則生成段階が続く2段階を有する、定量連想規則のオンライン・マイニングのコンピュータによる方法を提供する。データを前処理して前件属性間の関係を編成して、階層的に配列された多次元索引構造を形成することによって定義される前処理段階によって、要求される計算量が削減される。その結果得られる構造は、定量連想規則の生成を含む、第2段階のオンライン処理の実行を促進する。第2段階のオンライン規則生成は、最初に規則に対応するデータの領域を発見し、次いで規則集合の階層的表現を提供するため関心のある領域を慎重に組み合わせるために併合ステップを使用して併合木を形成することによって、前処理段階で形成された多次元索引構造を利用する。次に、実際に規則を生成するために、併合された木を使用する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は一般に、大規模データベースにおけるデータ従属性のオンライン探索
に関する。
【0002】
【従来の技術】
データベースにおける知識発見とも呼ばれるデータ・マイニングは、データベ
ース研究の新しい領域と認識されてきた。電子形式で格納されるデータの量は、
過去20年の間に劇的に増加した。POS装置またはリモート・センシング装置
などの電子データ収集装置の使用の増加が、利用可能なデータのこの急増の一因
になった。大量の計算能力資源およびデータ記憶資源の利用可能性がどんどん低
下するコストで利用できるようになっているので、データの格納はますます簡単
に、かつ産業界にとってますます魅力的になってきている。
【0003】 データの蓄積に高い関心が集まるにつれて、この貴重な資源をどのように利用
できるかに重点を置く補完的な必要性が生じてきた。業界は、格納されたデータ
を利用できる意思決定者が貴重な洞察を得ることができることを認識してきた。
バーコード会社のデータまたはカタログ販売会社の販売データを使用することに
よって、顧客購買動向に関する貴重な情報を得ることができる。導き出された情
報は、例えば小売業者が、なかんずく、どの品目をスーパーマーケットの棚に載
せるべきかを決定する際に、あるいは目標をしっかり定めたマーケティング・プ
ログラムを設計するために使用することができよう。適切な分析技術を利用して
、データから多数の有意義な洞察を発掘することができる。最も一般的な意味で
、データ・マイニングは、データの集合におけるパターンおよび規則性を発見す
るためのデータ分析およびソフトウェア技術の使用に関係する。データ・マイニ
ングの目的は、データ内の識別可能なパターンおよび傾向を選別すること、およ
びこれらのパターンから連想規則を推論することである。
【0004】 データ・マイニング技術は、大量のデータに対する集中的な計算によって特徴
付けられる。大規模データベースとは、100万以上のレコードから成るものと
定義できる。一般的な適用例では、最終利用者は、「コーラを買う客の75%は
コーン・チップも買う」などの連想規則を試験する。ここで75%は規則の信頼
度係数を指す。規則のサポートが、コーラおよびコーン・チップの両方を含むト
ランザクションのこの百分率である。
【0005】
【発明が解決しようとする課題】
今まで、従来技術はオンライン・マイニングの問題を取り扱ってきておらず、
その代わりにアイテムセット手法(itemset approach)に重点を置いてきた。ア
イテムセット手法の重大な欠点は、利用者が様々な値のサポートおよび信頼度で
連想規則についてデータベースを試験するときに、およそ数ギガバイトになるこ
ともあるデータベースに対し、マルチパスを行わなければならないことである。
超大規模データベースの場合、これはかなりの量のI/Oを伴うことがあり、場
合によっては、オンライン問合せに対する容認できない応答時間をもたらすこと
がある。所定のレベルのサポートおよび信頼度を満たす規則が幾つあるかを先験
的に推測することは難しいので、利用者はデータベースに多数の問合せを行わな
ければならない。一般に人は、少数の規則に関心を持つだけである。これは問題
をますます困難にする。というのは、利用者が、規則を引き出すために適切なレ
ベルの最小サポートおよび最小信頼度を見つけるために、何回も問合せを実行す
る必要があるからである。言い換えると、連想規則を引き出す問題は、有用な事
業情報をトランザクション・データベースから集めることができるようになる前
に、問合せを繰り返すことによって、かなりの手動パラメータ調整を行うことが
必要になる。したがって、今まで記載されたマイニングの処理方法は、大量のデ
ィスクI/Oまたは計算が容認できない応答時間につながるので結果的に、繰返
しオンライン問合せには適さない。データ・マイニングの能力をインターネット
に拡張するには、バッチ指向の方法であるアイテムセット手法ではなく、動的オ
ンライン方法が必要である。
【0006】
【課題を解決するための手段】
したがって、本発明は、定量連想規則を提供するために各々が複数の定量項目
およびカテゴリ項目を有する複数のレコードを有する大規模データベースのオン
ライン・マイニングの方法であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、および前件属性と後件属性とを含む利用者問合せを受け取るステ
ップと、 b)前記前件属性と後件属性との間の関係を編成するステップと、 c)前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するステップと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ステップとを含む方法を提供する。
【0007】 好適な実施形態では、前記応答は1つまたはそれ以上の定量連想規則、各規則
に関連付けられる実信頼度値、各規則に関連付けられる実サポート値、および各
規則に関連付けられる関心レベルを含み、前記1つまたはそれ以上の定量連想規
則は、関心を引く規則のみで構成される(例えば、それらの関心レベルの計算値
は、前記関心レベルの利用者定義値に少なくとも等しい)。
【0008】 関心レベルの便利かつ効果的な定義は(例えば)第1および第2比率計算値の
うち最小のものであり、ここで前記第1比率は実信頼度を予想信頼度で割ったも
のと定義され、第2比率は実サポートを予想サポートで割ったものと定義され、
ここで前記予想信頼度およびサポートは統計的独立性の推定に基づく計算値であ
る。
【0009】 好適な実施形態では、前記前件属性はカテゴリ的属性および定量属性を含み、
定量属性は下限および上限で構成される範囲によって定義される。
【0010】 好ましくは、前記編成ステップは、前記前件データを階層的に索引木に分割す
ることを含み、ここで前記索引木は多数の索引ノードを含み、前記分割は、 a)前記索引木の各索引ノードに実サポートを表す第1の値を格納するステッ
プと、 b)前記索引木の各索引ノードに、各利用者問合せの後件属性の発生の頻度を
表す第2の値を格納するステップと によって行われる。
【0011】 そのような実施形態では、前記導出ステップは、 i)前記索引木の全ての索引ノードを探索して、前件属性の範囲が前記利用者問
合せの前件属性範囲に対応するノードを分離し、 ii)ステップiで突き止められたノードから、後件属性が前記最小信頼度の利
用者定義値に少なくとも等しいノードを選択し、 iii)ステップiiで突き止められたノードから、併合木を作成する ことによって、効果的に実現することができる。
【0012】 好ましくは、前記作成ステップはさらに、無意味なノードを削除し、かつ他の
ノードを組み合わせて前記併合木を形成することを含み、ここで無意味なノード
とは、最小信頼度の前記利用者定義値に少なくとも等しい、対応する信頼度の計
算値を有しないノードである。併合木は、単一または複数の後件属性のどちらに
も作成することができる。
【0013】 1つの好適な実施形態では、前記受取りステップは、最小サポートの利用者定
義値、最小信頼度の利用者定義値、関心の利用者定義値、ならびに前件条件およ
び後件条件を含む利用者問合せを含むデータをコンピュータに入力することを含
み、前記前件条件および後件条件はさらに複数の定量属性およびカテゴリ属性を
含み、 前記編成ステップおよび事前格納ステップは、メモリ内に1つまたはそれ以上
の次元で構成される索引木を構築すること、ならびにメモリ内に前記索引木から
非併合規則木を、かつ前記非併合規則木から併合規則木を構築することを含み、
ここで各次元は前記前件条件に含まれる利用者供給定量属性の1つによって定義
され、前記索引木は複数の索引ノードから成り、前記索引ノードは複数のデータ
・レコードから成り、 前記導出ステップは、 前記利用者問合せを満足する索引ノードであって、そのサポートが少なくと
も前記最小サポートに等しく、かつその信頼度が少なくとも前記最小信頼度に等
しい索引ノードから、1つまたはそれ以上の定量連想規則を生成すること、なら
びに、 前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規
則に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付け
られたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レ
ベルの値とから成る出力データを利用者に表示すること を含む。
【0014】 前記利用者問合せを対話的に修正して前記連想規則をさらに定義するように、
1つ以上の定量連想規則を生成するステップを繰り返すことができる。
【0015】 好ましくは、索引木を構築するステップは、1つまたはそれ以上の次元の2分
索引木を構築するステップと、前記サポート・レベルおよび信頼度レベルを各索
引ノードに格納するステップとを含み、ここで各次元は前記利用者供給定量前件
属性の1つによって定義される。
【0016】 また、非併合規則木を構築するステップは、前記索引木の各ノードを探索する
ステップと、利用者指定後件条件を満足する規則を含み、かつ最低信頼度の前記
利用者定義値に少なくとも等しい信頼度および最低サポートの前記利用者定義値
に少なくとも等しいサポートの値を有するノードを選択するステップとを含むこ
とが好ましい。この後者の選択ステップは、 ポインタを構築するステップと、 前記ポインタを前記索引木のルート・ノードに等化するステップと、 前記ポインタに関連付けられる前記ノードをリストに追加するステップと、 前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最小サポ
ート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタによっ
て指定されたノードの全ての子をリストに追加するステップと、 前記ポインタによって指定されたノードに格納されたデータ・レコードが利用
者指定後件条件に少なくとも等しく、かつ前記利用者定義最小信頼度に少なくと
も等しい信頼度を有しているかどうかを決定するステップと、 前記後件条件に関連付けられる定量連想規則を生成するステップと、 前ステップの条件が満たされない場合、前記リストから前記ノードを削除する
ステップと、 前記リストが空かどうかを決定するステップと、 前記リストが空の場合には終了し、そうでない場合には前記ポインタを前記索
引木の次のノードに等化し、前記ポインタに関連付けられるノードをリストに追
加するステップからそれ以降の上記ステップを繰り返すステップと によって実行することができる。
【0017】 さらに好ましくは、併合規則木を構築するステップは、 a)非併合規則木の各ノードをポスト順に走査することと、 b)i)各前記利用者定義後件属性値が前記ノードに格納された後件属性値よ
り大きいかどうかを決定し、 ii)(i)の条件が満たされた場合、前記併合規則木に前記ノードを保存
し、 iii)(i)の条件が満たされず、かつ前記ノードに関連付けられる子ノ
ードが無い場合、前記併合規則木から前記ノードを削除し、 iv)(i)の条件が満たされず、前記ノードに1つの子ノードがある場合
、前記併合規則木から前記ノードを削除し、先祖ノードと前記削除されたノード
の子ノードとを直接関連付け、 v)(i)の条件が満たされない場合、前記後件属性の範囲を調整する ことによって、 走査された各ノードを非併合規則木に含めるか除外するかを評価すること を含み、 全てのノードがポスト順に走査し終わるまで、前記評価ステップを繰り返す。
【0018】 本発明はさらに、定量連想規則を提供するために各々が複数の定量項目および
カテゴリ項目を有する多数のレコードを有する大規模データベースのオンライン
・マイニングのための装置であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、および前件属性と後件属性とを含む利用者問合せを受け取るため
の手段と、 b)前記前件属性と後件属性との間の関係を編成するための手段と、 c)前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するためのメモリと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ための手段と を含む装置を提供する。
【0019】 別の側面から見ると、本発明はまた、定量連想規則を提供するために各々が複
数の定量項目およびカテゴリ項目を有する複数のレコードを有する大規模データ
ベースのオンライン・マイニングのコンピュータ実行プロセスであって、 最小サポートの利用者定義値、最小信頼度の利用者定義値、関心の利用者定義
値、ならびに前件条件および後件条件を含む利用者問合せを含むデータをコンピ
ュータに入力するステップであって、前記前件条件および後件条件がさらに複数
の定量属性およびカテゴリ属性を含む前記入力ステップと、 メモリ内に1つまたはそれ以上の次元で構成される索引木を構築するステップ
であって、前記各次元が前記前件条件に含まれる利用者供給定量属性の1つによ
って定義され、前記索引木が複数の索引ノードから成り、前記索引ノードがさら
に複数のデータ・レコードから成る前記構築ステップと、 複数の索引ノードから成る前記索引木から非併合規則木をメモリ内に構築する
ステップであって、前記索引ノードがさらに複数のデータ・レコードから成る前
記構築ステップと、 複数の索引ノードから成る前記非併合規則木から併合規則木をメモリ内に構築
するステップであって、前記索引ノードがさらに複数のデータ・レコードから成
る前記構築ステップと、 前記利用者問合せを満足し、かつそのサポートが少なくとも前記最小サポート
に等しく、その信頼度が少なくとも前記最小信頼度に等しい索引ノードから、1
つまたはそれ以上の定量連想規則を生成するステップと、 前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規則
に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付けら
れたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レベ
ルの値とから成る利用者出力データを表示するステップと を含む前記コンピュータ実行プロセスをも提供する。
【0020】 好ましくは、非併合規則木を構築するステップは、索引木の各ノードを探索す
ることと、 i)ポインタを構築するステップと、 ii)前記ポインタを前記索引木のルート・ノードに等化するステップと、 iii)前記ポインタに関連付けられる前記ノードをリストに追加するステッ
プと、 iv)前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最
小サポート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタ
によって指定されたノードの全ての子をリストに追加するステップと、 v)前記ポインタによって指定されたノードに格納されたデータ・レコードが
利用者指定後件条件に少なくとも等しく、かつ前記ポインタによって指定された
ノードの前記利用者定義最小信頼度に少なくとも等しい信頼度を有しているかど
うかを決定するステップと、 vi)前記後件条件に関連付けられる定量連想規則を生成するステップと、 vii)前ステップの条件が満たされない場合、前記リストから前記ノードを
削除するステップと、 viii)前記リストが空かどうかを決定するステップと、 ix)前記リストが空の場合には終了するステップと、 x)ステップixの条件が満たされない場合には、前記ポインタを前記索引木
の次のノードに等化するステップと、 xi)ステップixが満たされない場合には、ステップiii〜xを繰り返す
ステップとによって適切なノードを選択することを含む。
【0021】 好ましくは、併合規則木を構築するステップは、 a)非併合規則木の各ノードをポスト順に走査するステップと、 b)i)各々の前記利用者定義後件属性値が前記ノードに格納された後件属性
値より大きいかどうかを決定するステップと、 ii)ステップiの条件が満たされた場合、前記併合規則木に前記ノードを
保存するステップと、 iii)ステップiの条件が満たされず、かつ前記ノードに関連付けられる
子ノードが無い場合、前記併合規則木から前記ノードを削除するステップと、 iv)ステップiの条件が満たされず、かつ前記ノードに1つの子ノードが
ある場合、前記併合規則木から前記ノードを削除するステップと、 v)ステップiの条件が満たされない場合、前記後件属性の範囲を調整する
ステップと、 vi)ステップivの条件が満たされる場合、先祖ノードと前記削除された
ノードの子ノードとを直接関連付けるステップと、 vii)全てのノードがポスト順に走査されるまでステップi〜viを繰り
返すステップとをさらに含む、走査された各ノードを非併合規則木に含めるか除
外するかを評価するステップと を含む。
【0022】 ここに記載する計算上効率的な手法は、データベースのオンライン問合せによ
り、利用者が供給するレベルのサポートおよび信頼度を予測子として利用して、
連想規則の強度を評価し、かつ定量連想規則のオンライン・マイニングの効率的
な実行のため、新しい定量連想規則を発見することを可能にする。連想規則は一
般に、その2つの構成部分つまり前件と後件との間に何らかの相関関係が存在す
ることを示唆する条件文と定義することができる。定量連想規則における前件お
よび後件は両方とも、利用者が指定する定量属性とカテゴリ属性の何らかの組合
せから構成される。規則の提案と共に、利用者は、利用者にとって関心のある信
頼度およびサポート・レベルならびに関心レベルと呼ばれる値を表す3つの追加
入力を提供する。これらの入力は、利用者(利用者問合せ)によって提案される
規則の強度の指標を、言い換えると、利用者問合せによって定義される前件と後
件との間の示唆される相関関係の強度を提供する。
【0023】 この手法を実行するために、オンライン規則生成ステップの前に、多次元索引
構造を形成するように前件属性を利用してデータを分割することによって、生デ
ータを前処理するための方法を記載する。データを効果的に前処理して索引構造
にすることによって、データは繰返しオンライン問合せにほぼ瞬時の応答時間で
応答するのに適した形になる。索引構造がひとたび形成されると、データベース
で多重パスを行う必要が無くなる。索引構造は、従前の技術に比べて格段の性能
上の利点をもたらす。索引構造(前処理されたデータ)は、複雑さが出力のサイ
ズに比例するグラフ理論探索アルゴリズムを適用することによってオンライン処
理を行うことができるように、格納される。この結果、応答時間に関してはほと
んど瞬時であるオンライン・アルゴリズムが得られ、I/Oまたは計算の過剰な
量が最小化される。
【0024】
【発明の実施の形態】
従来のデータベース問合せは、「ロングアイランド地域の1995年1月のオ
レンジ・ジュースの売上げはどれだけあったか」などの簡単な質問を含む。対照
的に、データ・マイニングはデータにおける認識可能なパターンおよび傾向を見
つけ出そうとし、これらのパターンから規則を推測するものである。これらの規
則を基にユーザは関連事業または科学分野における決定を支持、再検討、考察す
ることが可能である。例えば、大量の商品があるスーパーマーケットについて考
察する。運営に関連する一般的な事業決定は、利益を最大にする等のために何を
特売するか、クーポン券をどのように計画するか、および商品をどのように棚に
配置するかに関する。過去のトランザクション・データの分析は、そのような決
定の質を改善するために一般に使用される手法である。最新の技術は、トランザ
クションごとに購入される品目を格納するいわゆるバスケット・データを格納す
ることを可能にした。組織は、大量のそうしたデータを収集する。問題は、大量
のバスケット・データ型トランザクションからある最小指定信頼度を有する品目
の集合間の連想規則を「発掘」することである。各トランザクションが1組の品
目である場合、1組のトランザクションが与えられると仮定すると、連想規則は
X=>Yの形の式であり、ここでXおよびYは品目の組である。連想規則の一例
は、「ビールを含むトランザクションの30%はおむつをも含み、全トランザク
ションの2%はこれらの品目を両方とも含む」というものである。ここで、30
%は規則の信頼度と呼ばれ、2%は規則のサポートと呼ばれる。
【0025】 そのような連想規則の別の例として、パンとバターを購入する顧客トランザク
ションの90%は牛乳も購入するという文がある。この規則の前件Xはパンとバ
ターで構成され、後件Yは牛乳だけで構成される。90%はこの規則の信頼係数
である。例えば、前件に「ベーグル(ドーナツ型の堅ロールパン)」を有する全
ての規則を見つけることが望ましいかもしれず、これは、もし店がベーグルの販
売を中止すれば、どんな製品(後件)に影響が出るかを判断するのに役立つであ
ろう。
【0026】 1組の生トランザクションDが与えられたと仮定して、連想規則を発掘する問
題は、利用者が指定する最小サポート(minsupport s)および最小信頼度(minc
onfidence c)より大きいサポートおよび信頼度を有する全ての規則を見つける ことである。一般に、規則X=>Yのサポートは、XおよびYの両方の品目集合
(itemset)を含む顧客トランザクションまたは汎用データベースにおける組の 百分率である。より形式的数学用語では、Dにおけるトランザクションのs%が
XとYの和集合すなわちXVYを含むならば、規則x=>Yはトランザクション
集合Dにおけるサポートsを有する。規則X=>Yの信頼度は、Xを含み、Yを
も含むトランザクションの百分率として定義される。より形式的には、Xを含む
Dにおけるトランザクションのc%がYをも含むならば、規則X=>Yはトラン
ザクション集合Dにおける信頼度Cを有する。したがって、規則が90%の信頼
度を有する場合、それはXを含むトランザクションの90%がYをも含むことを
意味する。
【0027】 前述の通り、連想規則は形式X=>Yの式である。例えば、品目集合Xおよび
Yをそれぞれ、 X=[牛乳&チーズ&バター] Y=[卵&ハム] と定義する。
【0028】 規則は、次のように解釈することができる。 規則:X=>Yとは、トランザクションに牛乳、チーズ、およびバターが発生し
た場合、定義されたサポートおよび信頼度レベル内で卵とハムがその同じトラン
ザクションに現れる頻度がどれだけかを暗示する。
【0029】 規則のサポートおよび信頼度は集合的に、規則の強度を定義する。利用者が、
その強度を試験するために、そのようなシステムに規則を提起することができる
いくつかの方法がある。そのようなシステムがサポートできる種類のオンライン
問合せの包括的ではないが代表的なリストとして、次のようなものがある。 (1)特定レベルのminsupportおよびminconfidenceより上の全ての連想規則を 見つける。 (2)特定レベルのminsupportおよびminconfidenceで、前件に品目の集合Xを 有する全ての連想規則を見つける。 (3)特定レベルのminsupportおよびminconfidenceで、後件に品目の集合Yを 有する全ての連想規則を見つける。 (4)特定レベルのminsupportおよびminconfidenceで、前件または後件のいず れかに、もしくは前件と後件の間に分配して、品目の集合Yを有する全ての連想
規則を見つける。 (5)上記事例(1)、(2)、(3)、(4)のいずれかの連想規則/品目集
合の数を見つける。 (6)どのレベルのminsupportで、品目の集合Zを含む品目集合の数がちょうど
k個になるか。
【0030】 この方法は、一般的連想規則の方法を、様々な定量属性およびカテゴリ属性に
よって定義される1組の未処理(raw)トランザクションDで構成される大規模 データベースから定量規則を見つけることに特定化する。
【0031】 例えば、一般的マーケティング調査用の典型的な定量/カテゴリ・データベー
スは、一連のレコードで構成され、各レコードは次のように消費者の特徴および
好みの何らかの組合せを反映する。 レコード(1)=年齢=21、性別=男、住宅所有者=いいえ レコード(2)=年齢=43、性別=男、住宅所有者=はい レコード(3)=年齢=55、性別=女、住宅所有者=いいえ
【0032】 一般に、定量連想規則は、次のような形式の条件である。 一般規則: X1[l1..u1],X2[l2..u2]...Xk[lk..uk]Y1
=c1,Y2=c2..Yr=cr=>Z1=z1,Z2=z2 ここでX1、X2、..Xkは定量前件属性に対応し、Y1、Y2、..Ykお
よびCはカテゴリ前件属性に対応する。ここで[l1..u1]、[l2..u
2]、...[lk..uk]は様々な定量属性の範囲に対応する。Z1および
Z2は複数の後件条件に対応する。
【0033】 この方法は、利用者が、前件/後件の対の形で、提案規則さもなくば利用者問
合せと呼ばれるものと共に、3つの入力を供給する必要がある。提案規則に加え
て、利用者は提案規則(利用者問合せ)の強度を試験するために、最小要求信頼
度(minconfidence=c)および最小要求サポート(minsupport=s)の値を供給 する。
【0034】 最小信頼度および最小サポートは両方とも、一般連想規則の発見の場合と同様
に、定量連想規則の発見に関連する。典型的な利用者入力の一例を示す。
【0035】
【実施例】
実施例A:典型的利用者入力 1.利用者は試験すべき提案規則(問合せ)を供給する。
【数1】 2.利用者は、Minconfidence cと呼ばれる提案規則の信頼度値を供給する。 Minconfidence = 50% 3.利用者は、Minsupport sと呼ばれる提案規則のサポート値を供給する。 Minsupport = 10%
【0036】 図1は、この方法のアーキテクチャの全体的略図である。前処理されたデータ
にネットワーク35を介してアクセスできる複数のクライアント40があること
を想定している。前処理されたデータはサーバ5に常駐する。サーバ端に、前処
理されたデータ20と共にキャッシュ25がある。前処理およびオンライン処理
はCPU10で行われる。さらに、データをディスクに格納する場合に備えて、
ディスク15が存在する。
【0037】 この方法は、前処理段階の後にオンライン処理段階が続く2段階を含む。図2
は、前処理段階の全体的概要およびアルゴリズムのオンライン処理(規則生成ス
テップ)を示す。前処理段階は、2分索引木構造の構築を含む。図2aのステッ
プ75、および図4の関連詳細図を参照されたい。索引木構造は、当技術分野で
よく知られた空間データ構造であり、多次元データの索引付けの手段として使用
される。先行技術の関連研究は、ガットマン(Guttman, A.)の「A dynamic Ind
ex Structure for Spatial Searching. Proceedings of the ACM SIGMOD Confer
ence」に見ることができる。本発明の方法では、オンライン問合せを実行するた
めに、この索引木構造の変形を採用する。前件属性は、多次元索引構造を形成す
るようにデータを分割するために利用する。索引構造は2レベル構造であり、上
位レベルのノードは多くとも2つの後続ノードに関連付けられ、下位レベルのノ
ードは3つ以上の後続ノードに関連付けられる。索引構造の構築は、効果的なオ
ンライン・データ・マイニングの実行のために非常に重要である。鍵となる利点
は、利用者問合せに応答するために必要なディスクI/Oの量を最小にすること
に存在する。
【0038】 コンピュータ・メモリに格納される索引構造の図形的類似物を、索引木の形で
図5に示す。索引木は、多次元データに索引を付けるために使用される、よく知
られた空間データ構造である。別個の索引構造が、オンライン問合せで利用者に
よって指定された特定の定量属性によって定義される各次元について、コンピュ
ータ・メモリ内に形成される。図5は、前件条件「年齢」およびそれに関連付け
られる後件条件「初回買物客(FirstTimeBuyer)」を表す特定例の索引木構造で
ある。索引木の概念をさらに明瞭にするために、図5は、下の例の「年齢」次元
を表すことができた。
【0039】 実施例B:サンプル利用者問合せ
【数2】
【0040】 一般に、前件条件および後件条件を含む数量または定量属性とカテゴリ属性の
組合せに関する制約は無い。
【0041】 図5で、索引木構造のルート・ノードは、利用者が指定する定量属性である年
齢[0〜100]を定義する。木の各後続ノードも定量属性である年齢を表し、
木構造の最上部から最下部に向かって範囲がだんだん狭くなる。例えば、年齢[
0〜100]のルート・ノードの2分後続ノードは年齢[0〜45]および年齢
[45〜100]である。この方法は、索引木の各ノードに、対象となる信頼度
およびサポート・レベルを表す2片のデータを格納する。例えば、図5を参照す
ると、 1.信頼度レベル=50% 2.サポート・レベル=生データベースに入力されるデータの関数 から成る2片のデータがルート・ノードに格納されている。
【0042】 これらは、ルート・ノードでの利用者問合せ、すなわち(前件/後件の対)、 年齢[0〜100] => 初回買物客 の信頼度およびサポートを定義する。
【0043】 図4は、図2に要素75として示すアルゴリズムの前処理段階の詳細流れ図で
ある。この段階のプロセス・ステップは、2分索引木構造を生成し、かつ構造の
各ノードに後件属性のサポートおよび信頼度レベルを格納することを含み、その
後に構造の下位レベルで圧縮アルゴリズムを使用して索引木が使用可能メモリに
収まるのを確実にする。ステップ300は前処理段階の入口点である。ステップ
310は、2分化アルゴリズムを使用して2分索引木を生成するプロセス・ステ
ップを実現するためのソフトウェアを表す。2分化ステップは、先行技術である
、アクラウル(Aqqarwal C.C.)、ウルフ(Wolf J.)、ユー(Yu P.S.)、エプ ルマン(Epelman M.A.)の「The S-Tree: An efficient index tree for multid
imensional index trees, Symposium of Spatial Databases, 1997」で考察され
ている。しかし、本発明の方法は、少なくとも1つの側面でこの先行技術とは異
なる。ステップ315で、索引ノードの項目を編成する方法は、後件属性の各値
のサポート・レベルおよび信頼度レベルの両方を構造の各ノードに格納するとい
う点で、独自である。ステップ320は、ソフトウェア圧縮アルゴリズムを利用
して、下位レベルの索引ノードを単一ノードに圧縮するプロセス・ステップを表
す。
【0044】 図6は、図3に要素100として示す、索引木から非併合規則木を生成するた
めに使用する主探索アルゴリズムの詳細流れ図である。このアルゴリズムは入力
として、minconfidence cおよびminsupport sの利用者指定値ならびにQuerybox
Qおよび1つまたはそれ以上の右辺項値Z1=z1、Z2=z2で構成される利 用者問合せを必要とする。Queryboxは、利用者問合せの左辺または前件部を表す
単なる記述項である。Queryboxの意味をさらに明瞭にするために、下の実施例C
で、この方法における入力としてオンライン利用者に何が要求されるかを説明す
る。
【0045】 実施例C:典型的利用者入力 利用者は、次のものを指定する。 (1.)最小信頼度値[minconfidence, c] (2.)最小サポート値[minsupport, s] さらに、オンライン利用者は、項目3および4の(前件/後件)対の形で利用
者問合せ(提案規則)を入力する必要がある。 (3.)Querybox, ”Q”[前件] (4.)Z1=z1、Z2=z2等..[後件]
【0046】 項目3のQueryboxについては以下の実施例でさらに説明するが、一般に定量属
性とカテゴリ属性の任意の組合せで構成することができる。項目4の後件属性は
、1つまたはそれ以上のカテゴリ属性で構成することができる。
【0047】 [実施例1]:この利用者指定問合せは、年齢と左利きの2つの次元を含む前件
条件すなわちqueryboxと、単一のカテゴリ後件条件の喫煙者(asmoker)とで構 成される。
【数3】
【0048】 [実施例2]:この利用者指定問合せは、身長と収入の2つの次元を含む前件条
件すなわちqueryboxと、多重後件条件とで構成される。
【数4】
【0049】 [実施例3]:この利用者指定問合せは、1次元すなわち年齢を含む前件条件で
あるqueryboxと、単一の後件条件とで構成される。
【数5】
【0050】 上記の実施例Cは、利用者がこの方法の入力として供給する物を一般に説明し
ている。下の実施例Dは、上記の実施例2の利用者問合せを使用して、典型的な
入力/出力結果がどのように見えるかの代表的な例を提供する。
【0051】 実施例D:典型的利用者入力 利用者は入力として次の物を指定する。 1.minconfidence = 0.50 2.minsupport = 0.4 3.querybox(前件条件)=身長[5〜7],収入[10k〜40k] 4.対象とする後件条件=住宅所有者=1,車所有者=1 項目(3および4)から形成される利用者問合せ: 身長[5〜7]、収入[10k〜40k]==>住宅所有者,車所有者 結果的に得られる出力:生成される規則 身長[5.5〜6.2]、収入[13k〜27.4k]==>住宅所有者=1、車 所有者=1
【0052】 一般に、出力は規則を1つも生成しないか、1つの規則または複数の規則を生
成することができると考えられる。上の例では単一の規則が生成された。生成さ
れた規則は、利用者が指定したそれぞれ0.5および0.4の信頼度およびサポ
ート・レベルで利用者問合せ(前件/後件の対)を満足すると言われる。
【0053】 図6によって定義される、索引木から非併合規則木を生成するためのアルゴリ
ズムは、索引木の全てのノードを1つずつ探索することによって進められる。ス
テップ400は、主探索アルゴリズムへの入口点である。ステップ410は、索
引木のルート・ノードを指すようにCurrentnodeポインタを設定するプロセス・ ステップを表す。CurrentNodeポインタは常に、アルゴリズムが現在探索してい る索引木の特定のノードを指す。ステップ420は、探索アルゴリズムによって
走査される資格のあるノードと考えられるノードの集合としてLISTを定義す
る。LISTは、ステップ420でルート・ノードだけを含むように初期化され
る。ステップ430は、Currentnodeによって指定されたノードの子ノードのう ち、Querybox Qと相交わり、かつ利用者指定入力値minsupport sに少なくとも等
しいサポートを有する全ての子ノードをLISTに追加するプロセス・ステップ
を表す。子ノードは、子ノードに関連付けられる前件条件の全てがQueryboxによ
って定義された前件条件内に完全に含まれるときに、Querybox Qと相交わると言
われる。ステップ440は、CurrentNodeに含まれる個々のデータ・レコードが 後件条件であるZ1=z1およびZ2=z2を少なくともcパーセントの時間満
たすかどうかを決定する決定ステップである。ステップ440の条件が満たされ
た場合には、アルゴリズムはステップ445に進む。ステップ445は、右辺に
属性の集合に対応する規則、つまり後件条件を生成する。ステップ440および
445の後にステップ450が続き、これは、Currentnodeによって現在指定さ れているノードをLISTから削除し、かつCurrentnodeポインタをLISTに 含まれる次のノードに設定するプロセス・ステップを表す。ステップ460は、
LISTが空であるかどうかを決定し、条件が満たされるときは、アルゴリズム
を終了する。ステップ470を参照されたい。そうでなければ、アルゴリズムは
ステップ430に戻り、CurrentNodeポインタによって現在指定されているノー ドに対してステップを繰り返す。アルゴリズムの終了後、利用者指定の最小サポ
ートminsupport sを満たす入力索引木の全てのノードで構成される非併合規則木
が出力される。
【0054】 図8は、非併合規則木から併合規則木を構築するプロセスを記載する詳細流れ
図である。この流れ図によって記載されるアルゴリズムは、非併合規則木を圧縮
して規則の階層表現を得る。非併合規則木を縦型探索順(in depth first searc
h order)に走査して、各ノードでそのノードに意味があるかどうかの決定を下 す。意味のあるノードは、それに関連付けられる規則を有するノードであると定
義される。規則は、非併合木が形成されたときにノードに関連付けられているこ
ともあり、関連付けられていないこともある。意味のあるノードと意味の無いノ
ードの区別をさらに明瞭にするために、図7の非併合規則木を再び参照すると、
ここで意味のあるノードはノード1、2、および4に対応する。意味のあるノー
ドは全て、併合規則木に保存される。ノードが意味を有さないと決定されると、
アルゴリズムはそのノードを除去するか、または特定の条件が満たされるときに
は複数の子ノードを併合して単一ノードにする。
【0055】 ステップ500は、アルゴリズムの入口点を表す。ステップ510は、非併合
規則木を縦型探索順に走査することを確実にするプロセス・ステップを実現する
ソフトウェアを表す。ステップ515は、縦型走査で非併合規則木の次のノード
に進むステップを表す。ステップ520は、現在の規則ノードが意味のあるノー
ドであるかどうかを決定する決定ステップを表す。現在のノードに意味があると
決定された場合、ステップ530に分岐が行われる。そうでない場合には、アル
ゴリズムはステップ540に分岐し、それによってそのノードは無意味と分類さ
れる。ステップ540は、無意味ノードが子ノードを有するかどうかを決定する
決定ステップである。無意味ノードに子ノードが無ければ、ステップ550に分
岐する。ステップ550は、現在の無意味ノードを削除するプロセス・ステップ
を表す。そうではなく、ステップ540で現在のノードに子ノードがあると決定
された場合、ステップ560に分岐される。ステップ560は、現在の無意味ノ
ードが1つの子ノードを有するか、それともそれ以上の子ノードを有するかを決
定するための決定ステップである。現在のノードが単一の子ノードしか有さない
場合には、ステップ570に分岐される。ステップ570は、現在のノードを削
除し、削除された無意味なノードの親ノードと子ノードを索引木の中で直接一つ
に接続するプロセス・ステップを実現するソフトウェアを表す。そうでなく、現
在のノードが複数の子ノードを有することが明らかになった場合には、ステップ
580に分岐される。ステップ580は、2つの子ノードの最小外接長方形が無
意味な親ノードのそれより大きいかどうかを決定する決定ステップである。最小
外接長方形は、各子ノードの定量属性の上限および下限(範囲)によって定義さ
れる。子ノードの範囲を組み合わせて、親ノードの範囲より広くなることが分か
った場合、併合が発生する。例えば、子ノードが 子ノード1−年齢[10〜20] 子ノード2−年齢[30〜40] と定義され、対応する親ノードが 親ノード−年齢[10〜30] と定義された場合、この例では、子属性範囲の組合せにより[10〜40]の複
合範囲が生じ、これは親ノード[10〜30]によって指定される範囲より広い
ので、併合が発生する。
【0056】 2つの子ノードの最小外接長方形が親ノードのそれを超える場合、ステップ5
90への分岐が行われる。ステップ590は、親の最小外接長方形を2つの子ノ
ードの最小外接長方形となるように調整するプロセス・ステップを実行するソフ
トウェアを表す。決定ステップ600への分岐は、木にさらに走査すべきノード
があるかどうかを決定する。走査すべきノードがもう残っていなければ、終了ス
テップ610に分岐し、そうでない場合には、残りの索引ノードに対してプロセ
ス・ステップ490〜515が繰り返される。
【0057】 図10は、併合規則木を入力として使用して、利用者指定関心レベルrの規則
を定義するするプロセスを記載する詳細流れ図である。併合規則木は縦型探索順
に走査される。ステップ616は、流れ図の入口点である。利用者は、関心レベ
ルを表すrの入力値を指定する。ステップ618は、縦型探索順で併合規則木に
おける次のノードを選択することを表す。ステップ620は、関心対象の現在の
ノードの全ての先祖ノードを見て、それらの中に信頼度値が現在のノードの1/
rに少なくとも等しいものがあるかどうかを決定する決定ステップである。条件
が真である場合には、ステップ630に分岐する。ステップ630は、現在のノ
ードに関連付けられる規則の刈込み(prunning)を表す。条件が満たされなけれ
ば、ステップ640に分岐する。ステップ640は、併合規則木に評価すべきノ
ードが残っているかどうかを決定する決定ステップである。評価すべき追加ノー
ドがある場合には、プロセス・ステップが繰り返され、そうでない場合には、プ
ロセスはこの時点で終了する。
【0058】 したがって要約すると、定量連想規則を見つけるためのデータ項目のデータ・
マイニングのオンライン方法を提供することができ、データ項目は様々な種類の
定量属性およびカテゴリ属性を含む。
【図面の簡単な説明】
【図1】 コンピュータ・ネットワークの全体的な概要を示す略図である。
【図2】 2段階で構成されるデータ・マイニング法の全体的概要を示す流れ図のうち、
前処理段階の流れ図である。
【図3】 アルゴリズムのオンライン段階の流れ図である。
【図4】 索引木が前件集合を用いてどのように構築されるかを詳細に示す流れ図である
。これは図2のステップ75の拡張と考えることができる。
【図5】 索引木が前件集合を用いてどのように構築されるかを詳細に示す流れ図である
。これは図2のステップ75の拡張と考えることができる。
【図6】 索引木から非併合規則木がどのように構築されるかを詳細に示す流れ図である
。これは図3のステップ100の拡張と考えることができる。
【図7】 索引木から非併合規則木がどのように構築されるかを詳細に示す流れ図である
。これは図3のステップ100の拡張と考えることができる。
【図8】 非併合規則木から併合規則木がどのように構築されるかを示す流れ図である。
【図9】 非併合規則木から併合規則木がどのように構築されるかを示す流れ図である。
【図10】 ある利用者指定関心レベルrで併合規則木から定量連想規則がどのように生成
されるかを示す流れ図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),AL,AM,A T,AU,AZ,BA,BB,BG,BR,BY,CA ,CH,CN,CU,CZ,DE,DK,EE,ES, FI,GB,GE,GH,GM,HR,HU,ID,I L,IS,JP,KE,KG,KP,KR,KZ,LC ,LK,LR,LS,LT,LU,LV,MD,MG, MK,MN,MW,MX,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,UA,UG,UZ,VN,YU, ZW (72)発明者 ユー・フィリップ・シールン アメリカ合衆国10514 ニューヨーク州チ ャパクァ ストーノウェイ 18 Fターム(参考) 5B049 EE05 FF01 5B075 NK46 PQ02 【要約の続き】

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 定量連想規則を提供するために各々が複数の定量項目およびカテゴリ項目を有
    する複数のレコードを有する大規模データベースのオンライン・マイニングの方
    法であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
    利用者定義値、ならびに前件属性および後件属性を含む利用者問合せを受け取る
    ステップと、 b)前記前件属性と後件属性との間の関係を編成するステップと、 c)前記前件属性と前記後件属性に関係するデータとの間の関係を定義するデ
    ータを事前格納するステップと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
    ステップとを含む方法。
  2. 【請求項2】 前記応答が1つまたはそれ以上の定量連想規則、各規則に関連付けられた実信
    頼度値、各規則に関連付けられた実サポート値、および各規則に関連付けられた
    関心レベルを含む、請求項1に記載の方法。
  3. 【請求項3】 前記1つまたはそれ以上の定量連想規則が、計算された関心レベルが前記利用
    者定義関心レベルに少なくとも等しい規則のみで構成される、請求項2に記載の
    方法。
  4. 【請求項4】 前記関心レベルが第1および第2比率の計算値のうち最小のものと定義され、
    前記第1比率は実信頼度を予想信頼度で割ったものと定義され、第2比率は実サ
    ポートを予想サポートで割ったものと定義され、前記予想信頼度およびサポート
    は統計的独立性の推定に基づく計算値である、請求項1ないし3のいずれか一項
    に記載の方法。
  5. 【請求項5】 前記前件属性がカテゴリ属性および定量属性で構成される、請求項1ないし4
    のいずれか一項に記載の方法。
  6. 【請求項6】 前記定量属性がさらに下限および上限から成る範囲によって定義される、請求
    項5に記載の方法。
  7. 【請求項7】 前記編成ステップが前記前件データを階層的に索引木に分割することを含み、
    前記索引木は複数の索引ノードを含む、請求項1ないし6のいずれか一項に記載
    の方法。
  8. 【請求項8】 前記前件データを階層的に索引木に分割する前記ステップが a)前記索引木の各索引ノードに実サポートを表す第1の値を格納すること、
    ならびに、 b)前記索引木の各索引ノードに、各利用者問合せの後件属性の発生の頻度を
    表す第2の値を格納することを含む、請求項7に記載の方法。
  9. 【請求項9】 前記導出ステップが、 i)前記索引木の全ての索引ノードを探索して、前件属性の範囲が前記利用者問
    合せの前件属性範囲に対応するノードを分離するステップと、 ii)ステップiで突き止められたノードから、後件属性が前記最小信頼度の利
    用者定義値に少なくとも等しいノードを選択するステップと、 iii)ステップiiで突き止められたノードから、併合木を作成するステップ
    と を含む、請求項7または8に記載の方法。
  10. 【請求項10】 前記作成ステップが、無意味なノードを削除し、他のノードを組み合わせて前
    記併合木を形成することをさらに含む、請求項9に記載の方法。
  11. 【請求項11】 無意味なノードとは、最小信頼度の前記利用者定義値に少なくとも等しい信頼
    度の対応する計算値を有しないノードである、請求項10に記載の方法。
  12. 【請求項12】 前記併合木を単一の後件属性または複数の後件属性のいずれかのために作成す
    ることができる、請求項9、10、または11に記載の方法。
  13. 【請求項13】 前記受取りステップが、最小サポートの利用者定義値、最小信頼度の利用者定
    義値、関心の利用者定義値、および前件条件と後件条件とを含む利用者問合せを
    含むデータをコンピュータに入力することを含み、前記前件条件および後件条件
    がさらに複数の定量属性およびカテゴリ属性を含み、 前記編成および事前格納ステップは、メモリ内に1つまたはそれ以上の次元で
    構成される索引木を構築すること、ならびに、メモリ内に前記索引木から非併合
    規則木を、かつ前記非併合規則木から併合規則木を構築することを含み、ここで
    各次元は前記前件条件に含まれる利用者供給定量属性の1つによって定義され、
    前記索引木は複数の索引ノードから成り、前記索引ノードは複数のデータ・レコ
    ードから成り、 かつ前記導出ステップは、 前記利用者問合せを満足する索引ノードであって、そのサポートが少なくと
    も前記最小サポートに等しく、かつその信頼度が少なくとも前記最小信頼度に等
    しい索引ノードから、1つまたはそれ以上の定量連想規則を生成すること、なら
    びに 前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規
    則に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付け
    られたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レ
    ベルの値とから成る出力データを利用者に表示すること を含む請求項1に記載の方法。
  14. 【請求項14】 前記利用者問合せを対話的に修正して前記連想規則をさらに定義するように、
    1つ以上の定量連想規則を生成するステップを繰り返す、請求項13に記載の方
    法。
  15. 【請求項15】 索引木を構築する前記ステップが、 各次元が前記利用者供給定量前件属性の1つによって定義される場合、1つま
    たはそれ以上の次元の2分索引木を構築するステップと、 前記サポート・レベルおよび信頼度レベルを各索引ノードに格納するステップ
    と を含む、請求項13または14に記載の方法。
  16. 【請求項16】 非併合規則木を構築する前記ステップが、 前記索引木の各ノードを探索するステップと、 利用者指定後件条件を満足する規則を含み、かつ最小信頼度の前記利用者定義
    値に少なくとも等しい信頼度および最小サポートの前記利用者定義値に少なくと
    も等しいサポートの値を有するノードを選択するステップと を含む、請求項13、14、または15に記載の方法。
  17. 【請求項17】 利用者指定後件条件を満たす規則を含むノードを選択する前記ステップが、 ポインタを構築するステップと、 前記ポインタを前記索引木のルート・ノードに等化するステップと、 前記ポインタに関連付けられる前記ノードをリストに追加するステップと、 前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最小サポ
    ート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタによっ
    て指定されたノードの全ての子をリストに追加するステップと、 前記ポインタによって指定されたノードに格納されたデータ・レコードが利用
    者指定後件条件に少なくとも等しく、かつ前記利用者定義最小信頼度に少なくと
    も等しい信頼度を有しているかどうかを決定するステップと、 前記後件条件に関連付けられる定量連想規則を生成するステップと、 前記ステップの条件が満たされない場合、前記リストから前記ノードを削除す
    るステップと、 前記リストが空かどうかを決定するステップと、 前記リストが空の場合には終了し、そうでない場合には前記ポインタを前記索
    引木の次のノードに等化し、前記ポインタに関連付けられるノードをリストに追
    加するステップからそれ以降の上記ステップを繰り返すステップと を含む、請求項16に記載の方法。
  18. 【請求項18】 併合規則木を構築する前記ステップが、 a)非併合規則木の各ノードをポスト順に走査することと、 b)i)各前記利用者定義後件属性値が前記ノードに格納された後件属性値よ
    り大きいかどうかを決定し、 ii)(i)の条件が満たされた場合、前記併合規則木に前記ノードを保存
    し、 iii)(i)の条件が満たされず、かつ前記ノードに関連付けられる子ノ
    ードが無い場合、前記併合規則木から前記ノードを削除し、 iv)(i)の条件が満たされず、前記ノードに1つの子ノードがある場合
    、前記併合規則木から前記ノードを削除し、先祖ノードと前記削除されたノード
    の子ノードとを直接関連付け、 v)(i)の条件が満たされない場合、前記後件属性の範囲を調整すること
    によって、 走査された各ノードを非併合規則木に含めるか除外するかを評価することを含
    み、 全てのノードがポスト順に走査し終わるまで前記評価ステップを繰り返す、請
    求項13ないし17のいずれか一項に記載の方法。
  19. 【請求項19】 定量連想規則を提供するために各々が複数の定量項目およびカテゴリ項目を有
    する多数のレコードを有する大規模データベースのオンライン・マイニングのた
    めの装置であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
    利用者定義値、ならびに前件属性および後件属性を含む利用者問合せを受け取る
    ための手段と、 b)前記前件属性と後件属性との間の関係を編成するための手段と、 c)前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
    ータを事前格納するためのメモリと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
    ための手段と を含む装置。
JP2000519369A 1997-11-04 1998-09-29 オンライン・データベース・マイニング Expired - Fee Related JP3575602B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/964,064 1997-11-04
US08/964,064 US6092064A (en) 1997-11-04 1997-11-04 On-line mining of quantitative association rules
PCT/GB1998/002928 WO1999023577A1 (en) 1997-11-04 1998-09-29 Online database mining

Publications (2)

Publication Number Publication Date
JP2001522095A true JP2001522095A (ja) 2001-11-13
JP3575602B2 JP3575602B2 (ja) 2004-10-13

Family

ID=25508083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000519369A Expired - Fee Related JP3575602B2 (ja) 1997-11-04 1998-09-29 オンライン・データベース・マイニング

Country Status (15)

Country Link
US (1) US6092064A (ja)
EP (1) EP1034489B1 (ja)
JP (1) JP3575602B2 (ja)
KR (1) KR100382296B1 (ja)
CN (1) CN1138222C (ja)
AU (1) AU750629B2 (ja)
CA (1) CA2304646C (ja)
CZ (1) CZ294171B6 (ja)
DE (1) DE69809964T2 (ja)
ES (1) ES2184322T3 (ja)
HK (1) HK1033987A1 (ja)
HU (1) HUP0100161A3 (ja)
PL (1) PL340380A1 (ja)
TW (1) TW505868B (ja)
WO (1) WO1999023577A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9245005B2 (en) 2012-11-30 2016-01-26 Fujitsu Limited Computer-readable recording medium, extraction device, and extraction method
US9262720B2 (en) 2012-10-19 2016-02-16 Fujitsu Limited Computer-readable recording medium, extracting device, and extracting method
US9412093B2 (en) 2012-11-15 2016-08-09 Fujitsu Limited Computer-readable recording medium, extraction device, and extraction method

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684985A (en) 1994-12-15 1997-11-04 Ufil Unified Data Technologies Ltd. Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN)
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
IL122850A0 (en) * 1998-01-05 1999-03-12 Wizsoft Pattern recognition using generalized association rules
US6185549B1 (en) * 1998-04-29 2001-02-06 Lucent Technologies Inc. Method for mining association rules in data
US6311179B1 (en) * 1998-10-30 2001-10-30 International Business Machines Corporation System and method of generating associations
US6278998B1 (en) * 1999-02-16 2001-08-21 Lucent Technologies, Inc. Data mining using cyclic association rules
CA2368123A1 (en) * 1999-04-09 2000-10-19 Berkeley*I E O R Process for determining object level profitability
US6542878B1 (en) 1999-04-23 2003-04-01 Microsoft Corporation Determining whether a variable is numeric or non-numeric
US6529895B2 (en) 1999-04-23 2003-03-04 Microsoft Corporation Determining a distribution of a numeric variable
US6405200B1 (en) 1999-04-23 2002-06-11 Microsoft Corporation Generating a model for raw variables from a model for cooked variables
US6321225B1 (en) * 1999-04-23 2001-11-20 Microsoft Corporation Abstracting cooked variables from raw variables
KR100344530B1 (ko) * 1999-12-20 2002-07-24 한국과학기술원 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법
US6865582B2 (en) * 2000-01-03 2005-03-08 Bechtel Bwxt Idaho, Llc Systems and methods for knowledge discovery in spatial data
US7007020B1 (en) * 2000-03-10 2006-02-28 Hewlett-Packard Development Company, L.P. Distributed OLAP-based association rule generation method and system
KR20020018777A (ko) * 2000-09-04 2002-03-09 박대희 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법
US6711577B1 (en) 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
US7539677B1 (en) 2000-10-09 2009-05-26 Battelle Memorial Institute Sequential pattern data mining and visualization
US20020072941A1 (en) * 2000-12-07 2002-06-13 Ibm Corporation Method and apparatus for processing electronic records for physical transactions
US6757678B2 (en) 2001-04-12 2004-06-29 International Business Machines Corporation Generalized method and system of merging and pruning of data trees
CN1310172C (zh) * 2001-07-26 2007-04-11 国际商业机器公司 生成候补同义词的数据处理方法和系统
KR20030032096A (ko) * 2001-10-10 2003-04-26 이창환 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체
KR100500329B1 (ko) * 2001-10-18 2005-07-11 주식회사 핸디소프트 워크플로우 마이닝 시스템 및 방법
US6714940B2 (en) 2001-11-15 2004-03-30 International Business Machines Corporation Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data
KR100497212B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법
KR20050011745A (ko) * 2002-04-19 2005-01-29 컴퓨터 어소시에이츠 싱크, 인코포레이티드 추론 서비스 제공 시스템 및 방법
US7152056B2 (en) * 2002-04-19 2006-12-19 Dow Jones Reuters Business Interactive, Llc Apparatus and method for generating data useful in indexing and searching
US6920459B2 (en) * 2002-05-07 2005-07-19 Zycus Infotech Pvt Ltd. System and method for context based searching of electronic catalog database, aided with graphical feedback to the user
US8214391B2 (en) * 2002-05-08 2012-07-03 International Business Machines Corporation Knowledge-based data mining system
US6993534B2 (en) * 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US7010526B2 (en) 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US6947929B2 (en) * 2002-05-10 2005-09-20 International Business Machines Corporation Systems, methods and computer program products to determine useful relationships and dimensions of a database
US7447687B2 (en) 2002-05-10 2008-11-04 International Business Machines Corporation Methods to browse database query information
US7716167B2 (en) * 2002-12-18 2010-05-11 International Business Machines Corporation System and method for automatically building an OLAP model in a relational database
US7953694B2 (en) * 2003-01-13 2011-05-31 International Business Machines Corporation Method, system, and program for specifying multidimensional calculations for a relational OLAP engine
US7895191B2 (en) 2003-04-09 2011-02-22 International Business Machines Corporation Improving performance of database queries
US7289983B2 (en) * 2003-06-19 2007-10-30 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US20040260680A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US7426520B2 (en) 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
US7958132B2 (en) * 2004-02-10 2011-06-07 Microsoft Corporation Voting based scheme for electronic document node reuse
US7707143B2 (en) * 2004-06-14 2010-04-27 International Business Machines Corporation Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models
US20050283494A1 (en) * 2004-06-22 2005-12-22 International Business Machines Corporation Visualizing and manipulating multidimensional OLAP models graphically
US7480663B2 (en) * 2004-06-22 2009-01-20 International Business Machines Corporation Model based optimization with focus regions
US8924343B2 (en) 2005-03-23 2014-12-30 International Business Machines Coporation Method and system for using confidence factors in forming a system
KR100812378B1 (ko) * 2005-11-28 2008-03-11 이원석 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법
US20070250476A1 (en) * 2006-04-21 2007-10-25 Lockheed Martin Corporation Approximate nearest neighbor search in metric space
KR100799665B1 (ko) * 2007-04-10 2008-01-30 삼육대학교산학협력단 노인 복지 서비스를 위한 욕구 사정 예측 방법 및 상기방법을 수행하기 위한 시스템
US8401987B2 (en) * 2007-07-17 2013-03-19 International Business Machines Corporation Managing validation models and rules to apply to data sets
JP5228461B2 (ja) * 2007-12-05 2013-07-03 富士通株式会社 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table
US20100030719A1 (en) * 2008-07-10 2010-02-04 Covey Todd M Methods and apparatus related to bioinformatics data analysis
US8185531B2 (en) * 2008-07-24 2012-05-22 Nahava Inc. Method and apparatus for partitioning high-dimension vectors for use in a massive index tree
US8290955B2 (en) * 2008-09-18 2012-10-16 International Business Machines Corporation Classification of data in a hierarchical data structure
US20110035444A1 (en) * 2009-08-06 2011-02-10 Timedright Inc. Relationship security in online social and professional networks and communities
CN101996102B (zh) * 2009-08-31 2013-07-17 中国移动通信集团公司 数据关联规则挖掘实现方法与系统
CN102117302B (zh) * 2009-12-31 2013-01-23 南京理工大学 传感器数据流复杂查询结果的数据起源跟踪方法
US8930303B2 (en) 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
JP6102594B2 (ja) * 2013-07-16 2017-03-29 富士通株式会社 データ出力方法及びデータ出力プログラム
JP6136685B2 (ja) * 2013-07-16 2017-05-31 富士通株式会社 データ抽出方法及びデータ抽出プログラム
US9672495B2 (en) * 2014-12-23 2017-06-06 Sap Se Enhancing frequent itemset mining
US10671607B2 (en) * 2016-09-23 2020-06-02 Futurewei Technologies, Inc. Pipeline dependent tree query optimizer and scheduler
US20190191004A1 (en) * 2017-05-23 2019-06-20 Hitachi ,Ltd. System and method to reduce network traffic and load of host servers
CN107703383A (zh) * 2017-09-21 2018-02-16 国网上海市电力公司 一种信息采集系统故障诊断知识库的建立方法
CN112183823B (zh) * 2020-09-08 2023-12-05 国网江苏省电力有限公司营销服务中心 一种基于规则树的电能计量装置选型方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263346A (ja) * 1995-03-03 1996-10-11 Internatl Business Mach Corp <Ibm> 大規模データベース内の順次パターンをマイニングするためのシステムおよび方法
JPH08314981A (ja) * 1995-05-08 1996-11-29 Internatl Business Mach Corp <Ibm> データベースにおける一般化された関連規則を発見するためのシステム及び方法
JPH0997264A (ja) * 1995-09-29 1997-04-08 Nri & Ncc Co Ltd サンプル分類支援装置
JPH09114669A (ja) * 1995-10-16 1997-05-02 Hitachi Ltd ルール生成方法
JPH09251467A (ja) * 1996-03-15 1997-09-22 Mitsubishi Electric Corp データマイニングシステムおよびデータマイニング方法
JPH09265479A (ja) * 1996-03-29 1997-10-07 Hitachi Ltd 多次元データ処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664171A (en) * 1994-04-14 1997-09-02 International Business Machines Corporation System and method for query optimization using quantile values of a large unordered data set
US5737550A (en) * 1995-03-28 1998-04-07 Advanced Micro Devices, Inc. Cache memory to processor bus interface and method thereof
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US5724573A (en) * 1995-12-22 1998-03-03 International Business Machines Corporation Method and system for mining quantitative association rules in large relational tables
GB9611403D0 (en) * 1996-05-31 1996-08-07 Northern Telecom Ltd Network data analysis method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263346A (ja) * 1995-03-03 1996-10-11 Internatl Business Mach Corp <Ibm> 大規模データベース内の順次パターンをマイニングするためのシステムおよび方法
JPH08314981A (ja) * 1995-05-08 1996-11-29 Internatl Business Mach Corp <Ibm> データベースにおける一般化された関連規則を発見するためのシステム及び方法
JPH0997264A (ja) * 1995-09-29 1997-04-08 Nri & Ncc Co Ltd サンプル分類支援装置
JPH09114669A (ja) * 1995-10-16 1997-05-02 Hitachi Ltd ルール生成方法
JPH09251467A (ja) * 1996-03-15 1997-09-22 Mitsubishi Electric Corp データマイニングシステムおよびデータマイニング方法
JPH09265479A (ja) * 1996-03-29 1997-10-07 Hitachi Ltd 多次元データ処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262720B2 (en) 2012-10-19 2016-02-16 Fujitsu Limited Computer-readable recording medium, extracting device, and extracting method
US9412093B2 (en) 2012-11-15 2016-08-09 Fujitsu Limited Computer-readable recording medium, extraction device, and extraction method
US9245005B2 (en) 2012-11-30 2016-01-26 Fujitsu Limited Computer-readable recording medium, extraction device, and extraction method

Also Published As

Publication number Publication date
TW505868B (en) 2002-10-11
JP3575602B2 (ja) 2004-10-13
DE69809964T2 (de) 2003-08-28
KR100382296B1 (ko) 2003-05-09
US6092064A (en) 2000-07-18
CN1138222C (zh) 2004-02-11
EP1034489B1 (en) 2002-12-04
HK1033987A1 (en) 2001-10-05
AU9272698A (en) 1999-05-24
HUP0100161A2 (hu) 2001-05-28
PL340380A1 (en) 2001-01-29
CA2304646C (en) 2003-10-28
AU750629B2 (en) 2002-07-25
DE69809964D1 (de) 2003-01-16
CZ294171B6 (cs) 2004-10-13
KR20010031687A (ko) 2001-04-16
EP1034489A1 (en) 2000-09-13
CA2304646A1 (en) 1999-05-14
CN1278345A (zh) 2000-12-27
HUP0100161A3 (en) 2004-03-01
WO1999023577A1 (en) 1999-05-14
ES2184322T3 (es) 2003-04-01
CZ20001630A3 (en) 2001-05-16

Similar Documents

Publication Publication Date Title
JP3575602B2 (ja) オンライン・データベース・マイニング
US5920855A (en) On-line mining of association rules
Brijs et al. Building an association rules framework to improve product assortment decisions
US6094645A (en) Finding collective baskets and inference rules for internet or intranet mining for large data bases
US6643646B2 (en) Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
KR101020206B1 (ko) 사용자 추천 방법 및 이를 위한 프로그램이 기록된 기록매체
Hossain et al. Market basket analysis using apriori and FP growth algorithm
Sagin et al. Determination of association rules with market basket analysis: application in the retail sector
US6763354B2 (en) Mining emergent weighted association rules utilizing backlinking reinforcement analysis
JP3049636B2 (ja) データ分析方法
US20070233586A1 (en) Method and apparatus for identifying cross-selling opportunities based on profitability analysis
US7908159B1 (en) Method, data structure, and systems for customer segmentation models
CA2309940A1 (en) System and method for dynamic profiling of users in one-to-one applications and for validating user rules
US20020091908A1 (en) Method and system for database management for data mining
US20020099581A1 (en) Computer-implemented dimension engine
Lisnawati et al. Data Mining with Associated Methods to Predict Consumer Purchasing Patterns.
Ariestya et al. Marketing strategy for the determination of staple consumer products using FP-growth and apriori algorithm
Collier et al. A perspective on data mining
CN110232589B (zh) 一种基于大数据的意向客户分析系统
Arboleda et al. Temporal visual profiling of market basket analysis
US7636709B1 (en) Methods and systems for locating related reports
Ying et al. Research on E-commerce Data Mining and Managing Model in The Process of Farmers' Welfare Growth
Sumathi et al. Data warehousing, data mining, and OLAP
Dissanayake et al. Association Mining Approach for Customer Behavior Analytics
US8489645B2 (en) Techniques for estimating item frequencies in large data sets

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040421

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040421

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20040421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040609

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20040609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040630

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070716

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees