JP2001522095A - オンライン・データベース・マイニング - Google Patents
オンライン・データベース・マイニングInfo
- Publication number
- JP2001522095A JP2001522095A JP2000519369A JP2000519369A JP2001522095A JP 2001522095 A JP2001522095 A JP 2001522095A JP 2000519369 A JP2000519369 A JP 2000519369A JP 2000519369 A JP2000519369 A JP 2000519369A JP 2001522095 A JP2001522095 A JP 2001522095A
- Authority
- JP
- Japan
- Prior art keywords
- node
- user
- tree
- quantitative
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
- Y10S707/954—Relational
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
- Y10S707/956—Hierarchical
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/964—Database arrangement
- Y10S707/966—Distributed
- Y10S707/967—Peer-to-peer
- Y10S707/968—Partitioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
に関する。
ース研究の新しい領域と認識されてきた。電子形式で格納されるデータの量は、
過去20年の間に劇的に増加した。POS装置またはリモート・センシング装置
などの電子データ収集装置の使用の増加が、利用可能なデータのこの急増の一因
になった。大量の計算能力資源およびデータ記憶資源の利用可能性がどんどん低
下するコストで利用できるようになっているので、データの格納はますます簡単
に、かつ産業界にとってますます魅力的になってきている。
できるかに重点を置く補完的な必要性が生じてきた。業界は、格納されたデータ
を利用できる意思決定者が貴重な洞察を得ることができることを認識してきた。
バーコード会社のデータまたはカタログ販売会社の販売データを使用することに
よって、顧客購買動向に関する貴重な情報を得ることができる。導き出された情
報は、例えば小売業者が、なかんずく、どの品目をスーパーマーケットの棚に載
せるべきかを決定する際に、あるいは目標をしっかり定めたマーケティング・プ
ログラムを設計するために使用することができよう。適切な分析技術を利用して
、データから多数の有意義な洞察を発掘することができる。最も一般的な意味で
、データ・マイニングは、データの集合におけるパターンおよび規則性を発見す
るためのデータ分析およびソフトウェア技術の使用に関係する。データ・マイニ
ングの目的は、データ内の識別可能なパターンおよび傾向を選別すること、およ
びこれらのパターンから連想規則を推論することである。
付けられる。大規模データベースとは、100万以上のレコードから成るものと
定義できる。一般的な適用例では、最終利用者は、「コーラを買う客の75%は
コーン・チップも買う」などの連想規則を試験する。ここで75%は規則の信頼
度係数を指す。規則のサポートが、コーラおよびコーン・チップの両方を含むト
ランザクションのこの百分率である。
その代わりにアイテムセット手法(itemset approach)に重点を置いてきた。ア
イテムセット手法の重大な欠点は、利用者が様々な値のサポートおよび信頼度で
連想規則についてデータベースを試験するときに、およそ数ギガバイトになるこ
ともあるデータベースに対し、マルチパスを行わなければならないことである。
超大規模データベースの場合、これはかなりの量のI/Oを伴うことがあり、場
合によっては、オンライン問合せに対する容認できない応答時間をもたらすこと
がある。所定のレベルのサポートおよび信頼度を満たす規則が幾つあるかを先験
的に推測することは難しいので、利用者はデータベースに多数の問合せを行わな
ければならない。一般に人は、少数の規則に関心を持つだけである。これは問題
をますます困難にする。というのは、利用者が、規則を引き出すために適切なレ
ベルの最小サポートおよび最小信頼度を見つけるために、何回も問合せを実行す
る必要があるからである。言い換えると、連想規則を引き出す問題は、有用な事
業情報をトランザクション・データベースから集めることができるようになる前
に、問合せを繰り返すことによって、かなりの手動パラメータ調整を行うことが
必要になる。したがって、今まで記載されたマイニングの処理方法は、大量のデ
ィスクI/Oまたは計算が容認できない応答時間につながるので結果的に、繰返
しオンライン問合せには適さない。データ・マイニングの能力をインターネット
に拡張するには、バッチ指向の方法であるアイテムセット手法ではなく、動的オ
ンライン方法が必要である。
およびカテゴリ項目を有する複数のレコードを有する大規模データベースのオン
ライン・マイニングの方法であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、および前件属性と後件属性とを含む利用者問合せを受け取るステ
ップと、 b)前記前件属性と後件属性との間の関係を編成するステップと、 c)前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するステップと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ステップとを含む方法を提供する。
に関連付けられる実信頼度値、各規則に関連付けられる実サポート値、および各
規則に関連付けられる関心レベルを含み、前記1つまたはそれ以上の定量連想規
則は、関心を引く規則のみで構成される(例えば、それらの関心レベルの計算値
は、前記関心レベルの利用者定義値に少なくとも等しい)。
うち最小のものであり、ここで前記第1比率は実信頼度を予想信頼度で割ったも
のと定義され、第2比率は実サポートを予想サポートで割ったものと定義され、
ここで前記予想信頼度およびサポートは統計的独立性の推定に基づく計算値であ
る。
定量属性は下限および上限で構成される範囲によって定義される。
ることを含み、ここで前記索引木は多数の索引ノードを含み、前記分割は、 a)前記索引木の各索引ノードに実サポートを表す第1の値を格納するステッ
プと、 b)前記索引木の各索引ノードに、各利用者問合せの後件属性の発生の頻度を
表す第2の値を格納するステップと によって行われる。
合せの前件属性範囲に対応するノードを分離し、 ii)ステップiで突き止められたノードから、後件属性が前記最小信頼度の利
用者定義値に少なくとも等しいノードを選択し、 iii)ステップiiで突き止められたノードから、併合木を作成する ことによって、効果的に実現することができる。
ノードを組み合わせて前記併合木を形成することを含み、ここで無意味なノード
とは、最小信頼度の前記利用者定義値に少なくとも等しい、対応する信頼度の計
算値を有しないノードである。併合木は、単一または複数の後件属性のどちらに
も作成することができる。
義値、最小信頼度の利用者定義値、関心の利用者定義値、ならびに前件条件およ
び後件条件を含む利用者問合せを含むデータをコンピュータに入力することを含
み、前記前件条件および後件条件はさらに複数の定量属性およびカテゴリ属性を
含み、 前記編成ステップおよび事前格納ステップは、メモリ内に1つまたはそれ以上
の次元で構成される索引木を構築すること、ならびにメモリ内に前記索引木から
非併合規則木を、かつ前記非併合規則木から併合規則木を構築することを含み、
ここで各次元は前記前件条件に含まれる利用者供給定量属性の1つによって定義
され、前記索引木は複数の索引ノードから成り、前記索引ノードは複数のデータ
・レコードから成り、 前記導出ステップは、 前記利用者問合せを満足する索引ノードであって、そのサポートが少なくと
も前記最小サポートに等しく、かつその信頼度が少なくとも前記最小信頼度に等
しい索引ノードから、1つまたはそれ以上の定量連想規則を生成すること、なら
びに、 前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規
則に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付け
られたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レ
ベルの値とから成る出力データを利用者に表示すること を含む。
1つ以上の定量連想規則を生成するステップを繰り返すことができる。
索引木を構築するステップと、前記サポート・レベルおよび信頼度レベルを各索
引ノードに格納するステップとを含み、ここで各次元は前記利用者供給定量前件
属性の1つによって定義される。
ステップと、利用者指定後件条件を満足する規則を含み、かつ最低信頼度の前記
利用者定義値に少なくとも等しい信頼度および最低サポートの前記利用者定義値
に少なくとも等しいサポートの値を有するノードを選択するステップとを含むこ
とが好ましい。この後者の選択ステップは、 ポインタを構築するステップと、 前記ポインタを前記索引木のルート・ノードに等化するステップと、 前記ポインタに関連付けられる前記ノードをリストに追加するステップと、 前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最小サポ
ート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタによっ
て指定されたノードの全ての子をリストに追加するステップと、 前記ポインタによって指定されたノードに格納されたデータ・レコードが利用
者指定後件条件に少なくとも等しく、かつ前記利用者定義最小信頼度に少なくと
も等しい信頼度を有しているかどうかを決定するステップと、 前記後件条件に関連付けられる定量連想規則を生成するステップと、 前ステップの条件が満たされない場合、前記リストから前記ノードを削除する
ステップと、 前記リストが空かどうかを決定するステップと、 前記リストが空の場合には終了し、そうでない場合には前記ポインタを前記索
引木の次のノードに等化し、前記ポインタに関連付けられるノードをリストに追
加するステップからそれ以降の上記ステップを繰り返すステップと によって実行することができる。
り大きいかどうかを決定し、 ii)(i)の条件が満たされた場合、前記併合規則木に前記ノードを保存
し、 iii)(i)の条件が満たされず、かつ前記ノードに関連付けられる子ノ
ードが無い場合、前記併合規則木から前記ノードを削除し、 iv)(i)の条件が満たされず、前記ノードに1つの子ノードがある場合
、前記併合規則木から前記ノードを削除し、先祖ノードと前記削除されたノード
の子ノードとを直接関連付け、 v)(i)の条件が満たされない場合、前記後件属性の範囲を調整する ことによって、 走査された各ノードを非併合規則木に含めるか除外するかを評価すること を含み、 全てのノードがポスト順に走査し終わるまで、前記評価ステップを繰り返す。
カテゴリ項目を有する多数のレコードを有する大規模データベースのオンライン
・マイニングのための装置であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、および前件属性と後件属性とを含む利用者問合せを受け取るため
の手段と、 b)前記前件属性と後件属性との間の関係を編成するための手段と、 c)前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するためのメモリと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ための手段と を含む装置を提供する。
数の定量項目およびカテゴリ項目を有する複数のレコードを有する大規模データ
ベースのオンライン・マイニングのコンピュータ実行プロセスであって、 最小サポートの利用者定義値、最小信頼度の利用者定義値、関心の利用者定義
値、ならびに前件条件および後件条件を含む利用者問合せを含むデータをコンピ
ュータに入力するステップであって、前記前件条件および後件条件がさらに複数
の定量属性およびカテゴリ属性を含む前記入力ステップと、 メモリ内に1つまたはそれ以上の次元で構成される索引木を構築するステップ
であって、前記各次元が前記前件条件に含まれる利用者供給定量属性の1つによ
って定義され、前記索引木が複数の索引ノードから成り、前記索引ノードがさら
に複数のデータ・レコードから成る前記構築ステップと、 複数の索引ノードから成る前記索引木から非併合規則木をメモリ内に構築する
ステップであって、前記索引ノードがさらに複数のデータ・レコードから成る前
記構築ステップと、 複数の索引ノードから成る前記非併合規則木から併合規則木をメモリ内に構築
するステップであって、前記索引ノードがさらに複数のデータ・レコードから成
る前記構築ステップと、 前記利用者問合せを満足し、かつそのサポートが少なくとも前記最小サポート
に等しく、その信頼度が少なくとも前記最小信頼度に等しい索引ノードから、1
つまたはそれ以上の定量連想規則を生成するステップと、 前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規則
に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付けら
れたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レベ
ルの値とから成る利用者出力データを表示するステップと を含む前記コンピュータ実行プロセスをも提供する。
ることと、 i)ポインタを構築するステップと、 ii)前記ポインタを前記索引木のルート・ノードに等化するステップと、 iii)前記ポインタに関連付けられる前記ノードをリストに追加するステッ
プと、 iv)前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最
小サポート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタ
によって指定されたノードの全ての子をリストに追加するステップと、 v)前記ポインタによって指定されたノードに格納されたデータ・レコードが
利用者指定後件条件に少なくとも等しく、かつ前記ポインタによって指定された
ノードの前記利用者定義最小信頼度に少なくとも等しい信頼度を有しているかど
うかを決定するステップと、 vi)前記後件条件に関連付けられる定量連想規則を生成するステップと、 vii)前ステップの条件が満たされない場合、前記リストから前記ノードを
削除するステップと、 viii)前記リストが空かどうかを決定するステップと、 ix)前記リストが空の場合には終了するステップと、 x)ステップixの条件が満たされない場合には、前記ポインタを前記索引木
の次のノードに等化するステップと、 xi)ステップixが満たされない場合には、ステップiii〜xを繰り返す
ステップとによって適切なノードを選択することを含む。
値より大きいかどうかを決定するステップと、 ii)ステップiの条件が満たされた場合、前記併合規則木に前記ノードを
保存するステップと、 iii)ステップiの条件が満たされず、かつ前記ノードに関連付けられる
子ノードが無い場合、前記併合規則木から前記ノードを削除するステップと、 iv)ステップiの条件が満たされず、かつ前記ノードに1つの子ノードが
ある場合、前記併合規則木から前記ノードを削除するステップと、 v)ステップiの条件が満たされない場合、前記後件属性の範囲を調整する
ステップと、 vi)ステップivの条件が満たされる場合、先祖ノードと前記削除された
ノードの子ノードとを直接関連付けるステップと、 vii)全てのノードがポスト順に走査されるまでステップi〜viを繰り
返すステップとをさらに含む、走査された各ノードを非併合規則木に含めるか除
外するかを評価するステップと を含む。
り、利用者が供給するレベルのサポートおよび信頼度を予測子として利用して、
連想規則の強度を評価し、かつ定量連想規則のオンライン・マイニングの効率的
な実行のため、新しい定量連想規則を発見することを可能にする。連想規則は一
般に、その2つの構成部分つまり前件と後件との間に何らかの相関関係が存在す
ることを示唆する条件文と定義することができる。定量連想規則における前件お
よび後件は両方とも、利用者が指定する定量属性とカテゴリ属性の何らかの組合
せから構成される。規則の提案と共に、利用者は、利用者にとって関心のある信
頼度およびサポート・レベルならびに関心レベルと呼ばれる値を表す3つの追加
入力を提供する。これらの入力は、利用者(利用者問合せ)によって提案される
規則の強度の指標を、言い換えると、利用者問合せによって定義される前件と後
件との間の示唆される相関関係の強度を提供する。
構造を形成するように前件属性を利用してデータを分割することによって、生デ
ータを前処理するための方法を記載する。データを効果的に前処理して索引構造
にすることによって、データは繰返しオンライン問合せにほぼ瞬時の応答時間で
応答するのに適した形になる。索引構造がひとたび形成されると、データベース
で多重パスを行う必要が無くなる。索引構造は、従前の技術に比べて格段の性能
上の利点をもたらす。索引構造(前処理されたデータ)は、複雑さが出力のサイ
ズに比例するグラフ理論探索アルゴリズムを適用することによってオンライン処
理を行うことができるように、格納される。この結果、応答時間に関してはほと
んど瞬時であるオンライン・アルゴリズムが得られ、I/Oまたは計算の過剰な
量が最小化される。
レンジ・ジュースの売上げはどれだけあったか」などの簡単な質問を含む。対照
的に、データ・マイニングはデータにおける認識可能なパターンおよび傾向を見
つけ出そうとし、これらのパターンから規則を推測するものである。これらの規
則を基にユーザは関連事業または科学分野における決定を支持、再検討、考察す
ることが可能である。例えば、大量の商品があるスーパーマーケットについて考
察する。運営に関連する一般的な事業決定は、利益を最大にする等のために何を
特売するか、クーポン券をどのように計画するか、および商品をどのように棚に
配置するかに関する。過去のトランザクション・データの分析は、そのような決
定の質を改善するために一般に使用される手法である。最新の技術は、トランザ
クションごとに購入される品目を格納するいわゆるバスケット・データを格納す
ることを可能にした。組織は、大量のそうしたデータを収集する。問題は、大量
のバスケット・データ型トランザクションからある最小指定信頼度を有する品目
の集合間の連想規則を「発掘」することである。各トランザクションが1組の品
目である場合、1組のトランザクションが与えられると仮定すると、連想規則は
X=>Yの形の式であり、ここでXおよびYは品目の組である。連想規則の一例
は、「ビールを含むトランザクションの30%はおむつをも含み、全トランザク
ションの2%はこれらの品目を両方とも含む」というものである。ここで、30
%は規則の信頼度と呼ばれ、2%は規則のサポートと呼ばれる。
ションの90%は牛乳も購入するという文がある。この規則の前件Xはパンとバ
ターで構成され、後件Yは牛乳だけで構成される。90%はこの規則の信頼係数
である。例えば、前件に「ベーグル(ドーナツ型の堅ロールパン)」を有する全
ての規則を見つけることが望ましいかもしれず、これは、もし店がベーグルの販
売を中止すれば、どんな製品(後件)に影響が出るかを判断するのに役立つであ
ろう。
題は、利用者が指定する最小サポート(minsupport s)および最小信頼度(minc
onfidence c)より大きいサポートおよび信頼度を有する全ての規則を見つける ことである。一般に、規則X=>Yのサポートは、XおよびYの両方の品目集合
(itemset)を含む顧客トランザクションまたは汎用データベースにおける組の 百分率である。より形式的数学用語では、Dにおけるトランザクションのs%が
XとYの和集合すなわちXVYを含むならば、規則x=>Yはトランザクション
集合Dにおけるサポートsを有する。規則X=>Yの信頼度は、Xを含み、Yを
も含むトランザクションの百分率として定義される。より形式的には、Xを含む
Dにおけるトランザクションのc%がYをも含むならば、規則X=>Yはトラン
ザクション集合Dにおける信頼度Cを有する。したがって、規則が90%の信頼
度を有する場合、それはXを含むトランザクションの90%がYをも含むことを
意味する。
Yをそれぞれ、 X=[牛乳&チーズ&バター] Y=[卵&ハム] と定義する。
た場合、定義されたサポートおよび信頼度レベル内で卵とハムがその同じトラン
ザクションに現れる頻度がどれだけかを暗示する。
その強度を試験するために、そのようなシステムに規則を提起することができる
いくつかの方法がある。そのようなシステムがサポートできる種類のオンライン
問合せの包括的ではないが代表的なリストとして、次のようなものがある。 (1)特定レベルのminsupportおよびminconfidenceより上の全ての連想規則を 見つける。 (2)特定レベルのminsupportおよびminconfidenceで、前件に品目の集合Xを 有する全ての連想規則を見つける。 (3)特定レベルのminsupportおよびminconfidenceで、後件に品目の集合Yを 有する全ての連想規則を見つける。 (4)特定レベルのminsupportおよびminconfidenceで、前件または後件のいず れかに、もしくは前件と後件の間に分配して、品目の集合Yを有する全ての連想
規則を見つける。 (5)上記事例(1)、(2)、(3)、(4)のいずれかの連想規則/品目集
合の数を見つける。 (6)どのレベルのminsupportで、品目の集合Zを含む品目集合の数がちょうど
k個になるか。
よって定義される1組の未処理(raw)トランザクションDで構成される大規模 データベースから定量規則を見つけることに特定化する。
スは、一連のレコードで構成され、各レコードは次のように消費者の特徴および
好みの何らかの組合せを反映する。 レコード(1)=年齢=21、性別=男、住宅所有者=いいえ レコード(2)=年齢=43、性別=男、住宅所有者=はい レコード(3)=年齢=55、性別=女、住宅所有者=いいえ
=c1,Y2=c2..Yr=cr=>Z1=z1,Z2=z2 ここでX1、X2、..Xkは定量前件属性に対応し、Y1、Y2、..Ykお
よびCはカテゴリ前件属性に対応する。ここで[l1..u1]、[l2..u
2]、...[lk..uk]は様々な定量属性の範囲に対応する。Z1および
Z2は複数の後件条件に対応する。
合せと呼ばれるものと共に、3つの入力を供給する必要がある。提案規則に加え
て、利用者は提案規則(利用者問合せ)の強度を試験するために、最小要求信頼
度(minconfidence=c)および最小要求サポート(minsupport=s)の値を供給 する。
に、定量連想規則の発見に関連する。典型的な利用者入力の一例を示す。
にネットワーク35を介してアクセスできる複数のクライアント40があること
を想定している。前処理されたデータはサーバ5に常駐する。サーバ端に、前処
理されたデータ20と共にキャッシュ25がある。前処理およびオンライン処理
はCPU10で行われる。さらに、データをディスクに格納する場合に備えて、
ディスク15が存在する。
は、前処理段階の全体的概要およびアルゴリズムのオンライン処理(規則生成ス
テップ)を示す。前処理段階は、2分索引木構造の構築を含む。図2aのステッ
プ75、および図4の関連詳細図を参照されたい。索引木構造は、当技術分野で
よく知られた空間データ構造であり、多次元データの索引付けの手段として使用
される。先行技術の関連研究は、ガットマン(Guttman, A.)の「A dynamic Ind
ex Structure for Spatial Searching. Proceedings of the ACM SIGMOD Confer
ence」に見ることができる。本発明の方法では、オンライン問合せを実行するた
めに、この索引木構造の変形を採用する。前件属性は、多次元索引構造を形成す
るようにデータを分割するために利用する。索引構造は2レベル構造であり、上
位レベルのノードは多くとも2つの後続ノードに関連付けられ、下位レベルのノ
ードは3つ以上の後続ノードに関連付けられる。索引構造の構築は、効果的なオ
ンライン・データ・マイニングの実行のために非常に重要である。鍵となる利点
は、利用者問合せに応答するために必要なディスクI/Oの量を最小にすること
に存在する。
図5に示す。索引木は、多次元データに索引を付けるために使用される、よく知
られた空間データ構造である。別個の索引構造が、オンライン問合せで利用者に
よって指定された特定の定量属性によって定義される各次元について、コンピュ
ータ・メモリ内に形成される。図5は、前件条件「年齢」およびそれに関連付け
られる後件条件「初回買物客(FirstTimeBuyer)」を表す特定例の索引木構造で
ある。索引木の概念をさらに明瞭にするために、図5は、下の例の「年齢」次元
を表すことができた。
組合せに関する制約は無い。
齢[0〜100]を定義する。木の各後続ノードも定量属性である年齢を表し、
木構造の最上部から最下部に向かって範囲がだんだん狭くなる。例えば、年齢[
0〜100]のルート・ノードの2分後続ノードは年齢[0〜45]および年齢
[45〜100]である。この方法は、索引木の各ノードに、対象となる信頼度
およびサポート・レベルを表す2片のデータを格納する。例えば、図5を参照す
ると、 1.信頼度レベル=50% 2.サポート・レベル=生データベースに入力されるデータの関数 から成る2片のデータがルート・ノードに格納されている。
ある。この段階のプロセス・ステップは、2分索引木構造を生成し、かつ構造の
各ノードに後件属性のサポートおよび信頼度レベルを格納することを含み、その
後に構造の下位レベルで圧縮アルゴリズムを使用して索引木が使用可能メモリに
収まるのを確実にする。ステップ300は前処理段階の入口点である。ステップ
310は、2分化アルゴリズムを使用して2分索引木を生成するプロセス・ステ
ップを実現するためのソフトウェアを表す。2分化ステップは、先行技術である
、アクラウル(Aqqarwal C.C.)、ウルフ(Wolf J.)、ユー(Yu P.S.)、エプ ルマン(Epelman M.A.)の「The S-Tree: An efficient index tree for multid
imensional index trees, Symposium of Spatial Databases, 1997」で考察され
ている。しかし、本発明の方法は、少なくとも1つの側面でこの先行技術とは異
なる。ステップ315で、索引ノードの項目を編成する方法は、後件属性の各値
のサポート・レベルおよび信頼度レベルの両方を構造の各ノードに格納するとい
う点で、独自である。ステップ320は、ソフトウェア圧縮アルゴリズムを利用
して、下位レベルの索引ノードを単一ノードに圧縮するプロセス・ステップを表
す。
めに使用する主探索アルゴリズムの詳細流れ図である。このアルゴリズムは入力
として、minconfidence cおよびminsupport sの利用者指定値ならびにQuerybox
Qおよび1つまたはそれ以上の右辺項値Z1=z1、Z2=z2で構成される利 用者問合せを必要とする。Queryboxは、利用者問合せの左辺または前件部を表す
単なる記述項である。Queryboxの意味をさらに明瞭にするために、下の実施例C
で、この方法における入力としてオンライン利用者に何が要求されるかを説明す
る。
者問合せ(提案規則)を入力する必要がある。 (3.)Querybox, ”Q”[前件] (4.)Z1=z1、Z2=z2等..[後件]
性とカテゴリ属性の任意の組合せで構成することができる。項目4の後件属性は
、1つまたはそれ以上のカテゴリ属性で構成することができる。
条件すなわちqueryboxと、単一のカテゴリ後件条件の喫煙者(asmoker)とで構 成される。
件すなわちqueryboxと、多重後件条件とで構成される。
あるqueryboxと、単一の後件条件とで構成される。
ている。下の実施例Dは、上記の実施例2の利用者問合せを使用して、典型的な
入力/出力結果がどのように見えるかの代表的な例を提供する。
成することができると考えられる。上の例では単一の規則が生成された。生成さ
れた規則は、利用者が指定したそれぞれ0.5および0.4の信頼度およびサポ
ート・レベルで利用者問合せ(前件/後件の対)を満足すると言われる。
ズムは、索引木の全てのノードを1つずつ探索することによって進められる。ス
テップ400は、主探索アルゴリズムへの入口点である。ステップ410は、索
引木のルート・ノードを指すようにCurrentnodeポインタを設定するプロセス・ ステップを表す。CurrentNodeポインタは常に、アルゴリズムが現在探索してい る索引木の特定のノードを指す。ステップ420は、探索アルゴリズムによって
走査される資格のあるノードと考えられるノードの集合としてLISTを定義す
る。LISTは、ステップ420でルート・ノードだけを含むように初期化され
る。ステップ430は、Currentnodeによって指定されたノードの子ノードのう ち、Querybox Qと相交わり、かつ利用者指定入力値minsupport sに少なくとも等
しいサポートを有する全ての子ノードをLISTに追加するプロセス・ステップ
を表す。子ノードは、子ノードに関連付けられる前件条件の全てがQueryboxによ
って定義された前件条件内に完全に含まれるときに、Querybox Qと相交わると言
われる。ステップ440は、CurrentNodeに含まれる個々のデータ・レコードが 後件条件であるZ1=z1およびZ2=z2を少なくともcパーセントの時間満
たすかどうかを決定する決定ステップである。ステップ440の条件が満たされ
た場合には、アルゴリズムはステップ445に進む。ステップ445は、右辺に
属性の集合に対応する規則、つまり後件条件を生成する。ステップ440および
445の後にステップ450が続き、これは、Currentnodeによって現在指定さ れているノードをLISTから削除し、かつCurrentnodeポインタをLISTに 含まれる次のノードに設定するプロセス・ステップを表す。ステップ460は、
LISTが空であるかどうかを決定し、条件が満たされるときは、アルゴリズム
を終了する。ステップ470を参照されたい。そうでなければ、アルゴリズムは
ステップ430に戻り、CurrentNodeポインタによって現在指定されているノー ドに対してステップを繰り返す。アルゴリズムの終了後、利用者指定の最小サポ
ートminsupport sを満たす入力索引木の全てのノードで構成される非併合規則木
が出力される。
図である。この流れ図によって記載されるアルゴリズムは、非併合規則木を圧縮
して規則の階層表現を得る。非併合規則木を縦型探索順(in depth first searc
h order)に走査して、各ノードでそのノードに意味があるかどうかの決定を下 す。意味のあるノードは、それに関連付けられる規則を有するノードであると定
義される。規則は、非併合木が形成されたときにノードに関連付けられているこ
ともあり、関連付けられていないこともある。意味のあるノードと意味の無いノ
ードの区別をさらに明瞭にするために、図7の非併合規則木を再び参照すると、
ここで意味のあるノードはノード1、2、および4に対応する。意味のあるノー
ドは全て、併合規則木に保存される。ノードが意味を有さないと決定されると、
アルゴリズムはそのノードを除去するか、または特定の条件が満たされるときに
は複数の子ノードを併合して単一ノードにする。
規則木を縦型探索順に走査することを確実にするプロセス・ステップを実現する
ソフトウェアを表す。ステップ515は、縦型走査で非併合規則木の次のノード
に進むステップを表す。ステップ520は、現在の規則ノードが意味のあるノー
ドであるかどうかを決定する決定ステップを表す。現在のノードに意味があると
決定された場合、ステップ530に分岐が行われる。そうでない場合には、アル
ゴリズムはステップ540に分岐し、それによってそのノードは無意味と分類さ
れる。ステップ540は、無意味ノードが子ノードを有するかどうかを決定する
決定ステップである。無意味ノードに子ノードが無ければ、ステップ550に分
岐する。ステップ550は、現在の無意味ノードを削除するプロセス・ステップ
を表す。そうではなく、ステップ540で現在のノードに子ノードがあると決定
された場合、ステップ560に分岐される。ステップ560は、現在の無意味ノ
ードが1つの子ノードを有するか、それともそれ以上の子ノードを有するかを決
定するための決定ステップである。現在のノードが単一の子ノードしか有さない
場合には、ステップ570に分岐される。ステップ570は、現在のノードを削
除し、削除された無意味なノードの親ノードと子ノードを索引木の中で直接一つ
に接続するプロセス・ステップを実現するソフトウェアを表す。そうでなく、現
在のノードが複数の子ノードを有することが明らかになった場合には、ステップ
580に分岐される。ステップ580は、2つの子ノードの最小外接長方形が無
意味な親ノードのそれより大きいかどうかを決定する決定ステップである。最小
外接長方形は、各子ノードの定量属性の上限および下限(範囲)によって定義さ
れる。子ノードの範囲を組み合わせて、親ノードの範囲より広くなることが分か
った場合、併合が発生する。例えば、子ノードが 子ノード1−年齢[10〜20] 子ノード2−年齢[30〜40] と定義され、対応する親ノードが 親ノード−年齢[10〜30] と定義された場合、この例では、子属性範囲の組合せにより[10〜40]の複
合範囲が生じ、これは親ノード[10〜30]によって指定される範囲より広い
ので、併合が発生する。
90への分岐が行われる。ステップ590は、親の最小外接長方形を2つの子ノ
ードの最小外接長方形となるように調整するプロセス・ステップを実行するソフ
トウェアを表す。決定ステップ600への分岐は、木にさらに走査すべきノード
があるかどうかを決定する。走査すべきノードがもう残っていなければ、終了ス
テップ610に分岐し、そうでない場合には、残りの索引ノードに対してプロセ
ス・ステップ490〜515が繰り返される。
を定義するするプロセスを記載する詳細流れ図である。併合規則木は縦型探索順
に走査される。ステップ616は、流れ図の入口点である。利用者は、関心レベ
ルを表すrの入力値を指定する。ステップ618は、縦型探索順で併合規則木に
おける次のノードを選択することを表す。ステップ620は、関心対象の現在の
ノードの全ての先祖ノードを見て、それらの中に信頼度値が現在のノードの1/
rに少なくとも等しいものがあるかどうかを決定する決定ステップである。条件
が真である場合には、ステップ630に分岐する。ステップ630は、現在のノ
ードに関連付けられる規則の刈込み(prunning)を表す。条件が満たされなけれ
ば、ステップ640に分岐する。ステップ640は、併合規則木に評価すべきノ
ードが残っているかどうかを決定する決定ステップである。評価すべき追加ノー
ドがある場合には、プロセス・ステップが繰り返され、そうでない場合には、プ
ロセスはこの時点で終了する。
マイニングのオンライン方法を提供することができ、データ項目は様々な種類の
定量属性およびカテゴリ属性を含む。
前処理段階の流れ図である。
。これは図2のステップ75の拡張と考えることができる。
。これは図2のステップ75の拡張と考えることができる。
。これは図3のステップ100の拡張と考えることができる。
。これは図3のステップ100の拡張と考えることができる。
されるかを示す流れ図である。
Claims (19)
- 【請求項1】 定量連想規則を提供するために各々が複数の定量項目およびカテゴリ項目を有
する複数のレコードを有する大規模データベースのオンライン・マイニングの方
法であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、ならびに前件属性および後件属性を含む利用者問合せを受け取る
ステップと、 b)前記前件属性と後件属性との間の関係を編成するステップと、 c)前記前件属性と前記後件属性に関係するデータとの間の関係を定義するデ
ータを事前格納するステップと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ステップとを含む方法。 - 【請求項2】 前記応答が1つまたはそれ以上の定量連想規則、各規則に関連付けられた実信
頼度値、各規則に関連付けられた実サポート値、および各規則に関連付けられた
関心レベルを含む、請求項1に記載の方法。 - 【請求項3】 前記1つまたはそれ以上の定量連想規則が、計算された関心レベルが前記利用
者定義関心レベルに少なくとも等しい規則のみで構成される、請求項2に記載の
方法。 - 【請求項4】 前記関心レベルが第1および第2比率の計算値のうち最小のものと定義され、
前記第1比率は実信頼度を予想信頼度で割ったものと定義され、第2比率は実サ
ポートを予想サポートで割ったものと定義され、前記予想信頼度およびサポート
は統計的独立性の推定に基づく計算値である、請求項1ないし3のいずれか一項
に記載の方法。 - 【請求項5】 前記前件属性がカテゴリ属性および定量属性で構成される、請求項1ないし4
のいずれか一項に記載の方法。 - 【請求項6】 前記定量属性がさらに下限および上限から成る範囲によって定義される、請求
項5に記載の方法。 - 【請求項7】 前記編成ステップが前記前件データを階層的に索引木に分割することを含み、
前記索引木は複数の索引ノードを含む、請求項1ないし6のいずれか一項に記載
の方法。 - 【請求項8】 前記前件データを階層的に索引木に分割する前記ステップが a)前記索引木の各索引ノードに実サポートを表す第1の値を格納すること、
ならびに、 b)前記索引木の各索引ノードに、各利用者問合せの後件属性の発生の頻度を
表す第2の値を格納することを含む、請求項7に記載の方法。 - 【請求項9】 前記導出ステップが、 i)前記索引木の全ての索引ノードを探索して、前件属性の範囲が前記利用者問
合せの前件属性範囲に対応するノードを分離するステップと、 ii)ステップiで突き止められたノードから、後件属性が前記最小信頼度の利
用者定義値に少なくとも等しいノードを選択するステップと、 iii)ステップiiで突き止められたノードから、併合木を作成するステップ
と を含む、請求項7または8に記載の方法。 - 【請求項10】 前記作成ステップが、無意味なノードを削除し、他のノードを組み合わせて前
記併合木を形成することをさらに含む、請求項9に記載の方法。 - 【請求項11】 無意味なノードとは、最小信頼度の前記利用者定義値に少なくとも等しい信頼
度の対応する計算値を有しないノードである、請求項10に記載の方法。 - 【請求項12】 前記併合木を単一の後件属性または複数の後件属性のいずれかのために作成す
ることができる、請求項9、10、または11に記載の方法。 - 【請求項13】 前記受取りステップが、最小サポートの利用者定義値、最小信頼度の利用者定
義値、関心の利用者定義値、および前件条件と後件条件とを含む利用者問合せを
含むデータをコンピュータに入力することを含み、前記前件条件および後件条件
がさらに複数の定量属性およびカテゴリ属性を含み、 前記編成および事前格納ステップは、メモリ内に1つまたはそれ以上の次元で
構成される索引木を構築すること、ならびに、メモリ内に前記索引木から非併合
規則木を、かつ前記非併合規則木から併合規則木を構築することを含み、ここで
各次元は前記前件条件に含まれる利用者供給定量属性の1つによって定義され、
前記索引木は複数の索引ノードから成り、前記索引ノードは複数のデータ・レコ
ードから成り、 かつ前記導出ステップは、 前記利用者問合せを満足する索引ノードであって、そのサポートが少なくと
も前記最小サポートに等しく、かつその信頼度が少なくとも前記最小信頼度に等
しい索引ノードから、1つまたはそれ以上の定量連想規則を生成すること、なら
びに 前記生成ステップからの前記定量連想規則と、生成された各々の定量連想規
則に関連付けられた実信頼度の値と、生成された各々の定量連想規則に関連付け
られたサポートの値と、生成された各々の定量連想規則に関連付けられた関心レ
ベルの値とから成る出力データを利用者に表示すること を含む請求項1に記載の方法。 - 【請求項14】 前記利用者問合せを対話的に修正して前記連想規則をさらに定義するように、
1つ以上の定量連想規則を生成するステップを繰り返す、請求項13に記載の方
法。 - 【請求項15】 索引木を構築する前記ステップが、 各次元が前記利用者供給定量前件属性の1つによって定義される場合、1つま
たはそれ以上の次元の2分索引木を構築するステップと、 前記サポート・レベルおよび信頼度レベルを各索引ノードに格納するステップ
と を含む、請求項13または14に記載の方法。 - 【請求項16】 非併合規則木を構築する前記ステップが、 前記索引木の各ノードを探索するステップと、 利用者指定後件条件を満足する規則を含み、かつ最小信頼度の前記利用者定義
値に少なくとも等しい信頼度および最小サポートの前記利用者定義値に少なくと
も等しいサポートの値を有するノードを選択するステップと を含む、請求項13、14、または15に記載の方法。 - 【請求項17】 利用者指定後件条件を満たす規則を含むノードを選択する前記ステップが、 ポインタを構築するステップと、 前記ポインタを前記索引木のルート・ノードに等化するステップと、 前記ポインタに関連付けられる前記ノードをリストに追加するステップと、 前件属性が前記利用者指定前件属性のパラメータ内に完全に含まれ、最小サポ
ート値が前記利用者定義最小サポートに少なくとも等しい、前記ポインタによっ
て指定されたノードの全ての子をリストに追加するステップと、 前記ポインタによって指定されたノードに格納されたデータ・レコードが利用
者指定後件条件に少なくとも等しく、かつ前記利用者定義最小信頼度に少なくと
も等しい信頼度を有しているかどうかを決定するステップと、 前記後件条件に関連付けられる定量連想規則を生成するステップと、 前記ステップの条件が満たされない場合、前記リストから前記ノードを削除す
るステップと、 前記リストが空かどうかを決定するステップと、 前記リストが空の場合には終了し、そうでない場合には前記ポインタを前記索
引木の次のノードに等化し、前記ポインタに関連付けられるノードをリストに追
加するステップからそれ以降の上記ステップを繰り返すステップと を含む、請求項16に記載の方法。 - 【請求項18】 併合規則木を構築する前記ステップが、 a)非併合規則木の各ノードをポスト順に走査することと、 b)i)各前記利用者定義後件属性値が前記ノードに格納された後件属性値よ
り大きいかどうかを決定し、 ii)(i)の条件が満たされた場合、前記併合規則木に前記ノードを保存
し、 iii)(i)の条件が満たされず、かつ前記ノードに関連付けられる子ノ
ードが無い場合、前記併合規則木から前記ノードを削除し、 iv)(i)の条件が満たされず、前記ノードに1つの子ノードがある場合
、前記併合規則木から前記ノードを削除し、先祖ノードと前記削除されたノード
の子ノードとを直接関連付け、 v)(i)の条件が満たされない場合、前記後件属性の範囲を調整すること
によって、 走査された各ノードを非併合規則木に含めるか除外するかを評価することを含
み、 全てのノードがポスト順に走査し終わるまで前記評価ステップを繰り返す、請
求項13ないし17のいずれか一項に記載の方法。 - 【請求項19】 定量連想規則を提供するために各々が複数の定量項目およびカテゴリ項目を有
する多数のレコードを有する大規模データベースのオンライン・マイニングのた
めの装置であって、 a)最小信頼度の利用者定義値、最小サポートの利用者定義値、関心レベルの
利用者定義値、ならびに前件属性および後件属性を含む利用者問合せを受け取る
ための手段と、 b)前記前件属性と後件属性との間の関係を編成するための手段と、 c)前記前件属性と前記後件属性に関連するデータとの間の関係を定義するデ
ータを事前格納するためのメモリと、 d)前記利用者問合せに応じて前記事前格納されたデータから応答を導出する
ための手段と を含む装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/964,064 | 1997-11-04 | ||
US08/964,064 US6092064A (en) | 1997-11-04 | 1997-11-04 | On-line mining of quantitative association rules |
PCT/GB1998/002928 WO1999023577A1 (en) | 1997-11-04 | 1998-09-29 | Online database mining |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001522095A true JP2001522095A (ja) | 2001-11-13 |
JP3575602B2 JP3575602B2 (ja) | 2004-10-13 |
Family
ID=25508083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000519369A Expired - Fee Related JP3575602B2 (ja) | 1997-11-04 | 1998-09-29 | オンライン・データベース・マイニング |
Country Status (15)
Country | Link |
---|---|
US (1) | US6092064A (ja) |
EP (1) | EP1034489B1 (ja) |
JP (1) | JP3575602B2 (ja) |
KR (1) | KR100382296B1 (ja) |
CN (1) | CN1138222C (ja) |
AU (1) | AU750629B2 (ja) |
CA (1) | CA2304646C (ja) |
CZ (1) | CZ294171B6 (ja) |
DE (1) | DE69809964T2 (ja) |
ES (1) | ES2184322T3 (ja) |
HK (1) | HK1033987A1 (ja) |
HU (1) | HUP0100161A3 (ja) |
PL (1) | PL340380A1 (ja) |
TW (1) | TW505868B (ja) |
WO (1) | WO1999023577A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9245005B2 (en) | 2012-11-30 | 2016-01-26 | Fujitsu Limited | Computer-readable recording medium, extraction device, and extraction method |
US9262720B2 (en) | 2012-10-19 | 2016-02-16 | Fujitsu Limited | Computer-readable recording medium, extracting device, and extracting method |
US9412093B2 (en) | 2012-11-15 | 2016-08-09 | Fujitsu Limited | Computer-readable recording medium, extraction device, and extraction method |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684985A (en) | 1994-12-15 | 1997-11-04 | Ufil Unified Data Technologies Ltd. | Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN) |
JPH11328186A (ja) * | 1997-11-11 | 1999-11-30 | Mitsubishi Electric Corp | 相関ルール生成方法および相関ルール生成装置 |
IL122850A0 (en) * | 1998-01-05 | 1999-03-12 | Wizsoft | Pattern recognition using generalized association rules |
US6185549B1 (en) * | 1998-04-29 | 2001-02-06 | Lucent Technologies Inc. | Method for mining association rules in data |
US6311179B1 (en) * | 1998-10-30 | 2001-10-30 | International Business Machines Corporation | System and method of generating associations |
US6278998B1 (en) * | 1999-02-16 | 2001-08-21 | Lucent Technologies, Inc. | Data mining using cyclic association rules |
CA2368123A1 (en) * | 1999-04-09 | 2000-10-19 | Berkeley*I E O R | Process for determining object level profitability |
US6542878B1 (en) | 1999-04-23 | 2003-04-01 | Microsoft Corporation | Determining whether a variable is numeric or non-numeric |
US6529895B2 (en) | 1999-04-23 | 2003-03-04 | Microsoft Corporation | Determining a distribution of a numeric variable |
US6405200B1 (en) | 1999-04-23 | 2002-06-11 | Microsoft Corporation | Generating a model for raw variables from a model for cooked variables |
US6321225B1 (en) * | 1999-04-23 | 2001-11-20 | Microsoft Corporation | Abstracting cooked variables from raw variables |
KR100344530B1 (ko) * | 1999-12-20 | 2002-07-24 | 한국과학기술원 | 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법 |
US6865582B2 (en) * | 2000-01-03 | 2005-03-08 | Bechtel Bwxt Idaho, Llc | Systems and methods for knowledge discovery in spatial data |
US7007020B1 (en) * | 2000-03-10 | 2006-02-28 | Hewlett-Packard Development Company, L.P. | Distributed OLAP-based association rule generation method and system |
KR20020018777A (ko) * | 2000-09-04 | 2002-03-09 | 박대희 | 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법 |
US6711577B1 (en) | 2000-10-09 | 2004-03-23 | Battelle Memorial Institute | Data mining and visualization techniques |
US7539677B1 (en) | 2000-10-09 | 2009-05-26 | Battelle Memorial Institute | Sequential pattern data mining and visualization |
US20020072941A1 (en) * | 2000-12-07 | 2002-06-13 | Ibm Corporation | Method and apparatus for processing electronic records for physical transactions |
US6757678B2 (en) | 2001-04-12 | 2004-06-29 | International Business Machines Corporation | Generalized method and system of merging and pruning of data trees |
CN1310172C (zh) * | 2001-07-26 | 2007-04-11 | 国际商业机器公司 | 生成候补同义词的数据处理方法和系统 |
KR20030032096A (ko) * | 2001-10-10 | 2003-04-26 | 이창환 | 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체 |
KR100500329B1 (ko) * | 2001-10-18 | 2005-07-11 | 주식회사 핸디소프트 | 워크플로우 마이닝 시스템 및 방법 |
US6714940B2 (en) | 2001-11-15 | 2004-03-30 | International Business Machines Corporation | Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data |
KR100497212B1 (ko) * | 2002-03-02 | 2005-06-23 | (주)비엘시스템스 | 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법 |
KR20050011745A (ko) * | 2002-04-19 | 2005-01-29 | 컴퓨터 어소시에이츠 싱크, 인코포레이티드 | 추론 서비스 제공 시스템 및 방법 |
US7152056B2 (en) * | 2002-04-19 | 2006-12-19 | Dow Jones Reuters Business Interactive, Llc | Apparatus and method for generating data useful in indexing and searching |
US6920459B2 (en) * | 2002-05-07 | 2005-07-19 | Zycus Infotech Pvt Ltd. | System and method for context based searching of electronic catalog database, aided with graphical feedback to the user |
US8214391B2 (en) * | 2002-05-08 | 2012-07-03 | International Business Machines Corporation | Knowledge-based data mining system |
US6993534B2 (en) * | 2002-05-08 | 2006-01-31 | International Business Machines Corporation | Data store for knowledge-based data mining system |
US7010526B2 (en) | 2002-05-08 | 2006-03-07 | International Business Machines Corporation | Knowledge-based data mining system |
US6947929B2 (en) * | 2002-05-10 | 2005-09-20 | International Business Machines Corporation | Systems, methods and computer program products to determine useful relationships and dimensions of a database |
US7447687B2 (en) | 2002-05-10 | 2008-11-04 | International Business Machines Corporation | Methods to browse database query information |
US7716167B2 (en) * | 2002-12-18 | 2010-05-11 | International Business Machines Corporation | System and method for automatically building an OLAP model in a relational database |
US7953694B2 (en) * | 2003-01-13 | 2011-05-31 | International Business Machines Corporation | Method, system, and program for specifying multidimensional calculations for a relational OLAP engine |
US7895191B2 (en) | 2003-04-09 | 2011-02-22 | International Business Machines Corporation | Improving performance of database queries |
US7289983B2 (en) * | 2003-06-19 | 2007-10-30 | International Business Machines Corporation | Personalized indexing and searching for information in a distributed data processing system |
US20040260680A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | Personalized indexing and searching for information in a distributed data processing system |
US7426520B2 (en) | 2003-09-10 | 2008-09-16 | Exeros, Inc. | Method and apparatus for semantic discovery and mapping between data sources |
US7958132B2 (en) * | 2004-02-10 | 2011-06-07 | Microsoft Corporation | Voting based scheme for electronic document node reuse |
US7707143B2 (en) * | 2004-06-14 | 2010-04-27 | International Business Machines Corporation | Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models |
US20050283494A1 (en) * | 2004-06-22 | 2005-12-22 | International Business Machines Corporation | Visualizing and manipulating multidimensional OLAP models graphically |
US7480663B2 (en) * | 2004-06-22 | 2009-01-20 | International Business Machines Corporation | Model based optimization with focus regions |
US8924343B2 (en) | 2005-03-23 | 2014-12-30 | International Business Machines Coporation | Method and system for using confidence factors in forming a system |
KR100812378B1 (ko) * | 2005-11-28 | 2008-03-11 | 이원석 | 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법 |
US20070250476A1 (en) * | 2006-04-21 | 2007-10-25 | Lockheed Martin Corporation | Approximate nearest neighbor search in metric space |
KR100799665B1 (ko) * | 2007-04-10 | 2008-01-30 | 삼육대학교산학협력단 | 노인 복지 서비스를 위한 욕구 사정 예측 방법 및 상기방법을 수행하기 위한 시스템 |
US8401987B2 (en) * | 2007-07-17 | 2013-03-19 | International Business Machines Corporation | Managing validation models and rules to apply to data sets |
JP5228461B2 (ja) * | 2007-12-05 | 2013-07-03 | 富士通株式会社 | パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法 |
US9720971B2 (en) * | 2008-06-30 | 2017-08-01 | International Business Machines Corporation | Discovering transformations applied to a source table to generate a target table |
US20100030719A1 (en) * | 2008-07-10 | 2010-02-04 | Covey Todd M | Methods and apparatus related to bioinformatics data analysis |
US8185531B2 (en) * | 2008-07-24 | 2012-05-22 | Nahava Inc. | Method and apparatus for partitioning high-dimension vectors for use in a massive index tree |
US8290955B2 (en) * | 2008-09-18 | 2012-10-16 | International Business Machines Corporation | Classification of data in a hierarchical data structure |
US20110035444A1 (en) * | 2009-08-06 | 2011-02-10 | Timedright Inc. | Relationship security in online social and professional networks and communities |
CN101996102B (zh) * | 2009-08-31 | 2013-07-17 | 中国移动通信集团公司 | 数据关联规则挖掘实现方法与系统 |
CN102117302B (zh) * | 2009-12-31 | 2013-01-23 | 南京理工大学 | 传感器数据流复杂查询结果的数据起源跟踪方法 |
US8930303B2 (en) | 2012-03-30 | 2015-01-06 | International Business Machines Corporation | Discovering pivot type relationships between database objects |
JP6102594B2 (ja) * | 2013-07-16 | 2017-03-29 | 富士通株式会社 | データ出力方法及びデータ出力プログラム |
JP6136685B2 (ja) * | 2013-07-16 | 2017-05-31 | 富士通株式会社 | データ抽出方法及びデータ抽出プログラム |
US9672495B2 (en) * | 2014-12-23 | 2017-06-06 | Sap Se | Enhancing frequent itemset mining |
US10671607B2 (en) * | 2016-09-23 | 2020-06-02 | Futurewei Technologies, Inc. | Pipeline dependent tree query optimizer and scheduler |
US20190191004A1 (en) * | 2017-05-23 | 2019-06-20 | Hitachi ,Ltd. | System and method to reduce network traffic and load of host servers |
CN107703383A (zh) * | 2017-09-21 | 2018-02-16 | 国网上海市电力公司 | 一种信息采集系统故障诊断知识库的建立方法 |
CN112183823B (zh) * | 2020-09-08 | 2023-12-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于规则树的电能计量装置选型方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263346A (ja) * | 1995-03-03 | 1996-10-11 | Internatl Business Mach Corp <Ibm> | 大規模データベース内の順次パターンをマイニングするためのシステムおよび方法 |
JPH08314981A (ja) * | 1995-05-08 | 1996-11-29 | Internatl Business Mach Corp <Ibm> | データベースにおける一般化された関連規則を発見するためのシステム及び方法 |
JPH0997264A (ja) * | 1995-09-29 | 1997-04-08 | Nri & Ncc Co Ltd | サンプル分類支援装置 |
JPH09114669A (ja) * | 1995-10-16 | 1997-05-02 | Hitachi Ltd | ルール生成方法 |
JPH09251467A (ja) * | 1996-03-15 | 1997-09-22 | Mitsubishi Electric Corp | データマイニングシステムおよびデータマイニング方法 |
JPH09265479A (ja) * | 1996-03-29 | 1997-10-07 | Hitachi Ltd | 多次元データ処理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664171A (en) * | 1994-04-14 | 1997-09-02 | International Business Machines Corporation | System and method for query optimization using quantile values of a large unordered data set |
US5737550A (en) * | 1995-03-28 | 1998-04-07 | Advanced Micro Devices, Inc. | Cache memory to processor bus interface and method thereof |
US5794209A (en) * | 1995-03-31 | 1998-08-11 | International Business Machines Corporation | System and method for quickly mining association rules in databases |
US5724573A (en) * | 1995-12-22 | 1998-03-03 | International Business Machines Corporation | Method and system for mining quantitative association rules in large relational tables |
GB9611403D0 (en) * | 1996-05-31 | 1996-08-07 | Northern Telecom Ltd | Network data analysis method |
-
1997
- 1997-11-04 US US08/964,064 patent/US6092064A/en not_active Expired - Lifetime
-
1998
- 1998-07-29 TW TW087112467A patent/TW505868B/zh not_active IP Right Cessation
- 1998-09-29 HU HU0100161A patent/HUP0100161A3/hu unknown
- 1998-09-29 PL PL98340380A patent/PL340380A1/xx not_active IP Right Cessation
- 1998-09-29 WO PCT/GB1998/002928 patent/WO1999023577A1/en active IP Right Grant
- 1998-09-29 KR KR10-2000-7004749A patent/KR100382296B1/ko not_active IP Right Cessation
- 1998-09-29 EP EP98945396A patent/EP1034489B1/en not_active Expired - Lifetime
- 1998-09-29 JP JP2000519369A patent/JP3575602B2/ja not_active Expired - Fee Related
- 1998-09-29 AU AU92726/98A patent/AU750629B2/en not_active Ceased
- 1998-09-29 ES ES98945396T patent/ES2184322T3/es not_active Expired - Lifetime
- 1998-09-29 CA CA002304646A patent/CA2304646C/en not_active Expired - Lifetime
- 1998-09-29 DE DE69809964T patent/DE69809964T2/de not_active Expired - Lifetime
- 1998-09-29 CN CNB988108658A patent/CN1138222C/zh not_active Expired - Lifetime
- 1998-09-29 CZ CZ20001630A patent/CZ294171B6/cs not_active IP Right Cessation
-
2001
- 2001-06-27 HK HK01104434A patent/HK1033987A1/xx not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263346A (ja) * | 1995-03-03 | 1996-10-11 | Internatl Business Mach Corp <Ibm> | 大規模データベース内の順次パターンをマイニングするためのシステムおよび方法 |
JPH08314981A (ja) * | 1995-05-08 | 1996-11-29 | Internatl Business Mach Corp <Ibm> | データベースにおける一般化された関連規則を発見するためのシステム及び方法 |
JPH0997264A (ja) * | 1995-09-29 | 1997-04-08 | Nri & Ncc Co Ltd | サンプル分類支援装置 |
JPH09114669A (ja) * | 1995-10-16 | 1997-05-02 | Hitachi Ltd | ルール生成方法 |
JPH09251467A (ja) * | 1996-03-15 | 1997-09-22 | Mitsubishi Electric Corp | データマイニングシステムおよびデータマイニング方法 |
JPH09265479A (ja) * | 1996-03-29 | 1997-10-07 | Hitachi Ltd | 多次元データ処理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262720B2 (en) | 2012-10-19 | 2016-02-16 | Fujitsu Limited | Computer-readable recording medium, extracting device, and extracting method |
US9412093B2 (en) | 2012-11-15 | 2016-08-09 | Fujitsu Limited | Computer-readable recording medium, extraction device, and extraction method |
US9245005B2 (en) | 2012-11-30 | 2016-01-26 | Fujitsu Limited | Computer-readable recording medium, extraction device, and extraction method |
Also Published As
Publication number | Publication date |
---|---|
TW505868B (en) | 2002-10-11 |
JP3575602B2 (ja) | 2004-10-13 |
DE69809964T2 (de) | 2003-08-28 |
KR100382296B1 (ko) | 2003-05-09 |
US6092064A (en) | 2000-07-18 |
CN1138222C (zh) | 2004-02-11 |
EP1034489B1 (en) | 2002-12-04 |
HK1033987A1 (en) | 2001-10-05 |
AU9272698A (en) | 1999-05-24 |
HUP0100161A2 (hu) | 2001-05-28 |
PL340380A1 (en) | 2001-01-29 |
CA2304646C (en) | 2003-10-28 |
AU750629B2 (en) | 2002-07-25 |
DE69809964D1 (de) | 2003-01-16 |
CZ294171B6 (cs) | 2004-10-13 |
KR20010031687A (ko) | 2001-04-16 |
EP1034489A1 (en) | 2000-09-13 |
CA2304646A1 (en) | 1999-05-14 |
CN1278345A (zh) | 2000-12-27 |
HUP0100161A3 (en) | 2004-03-01 |
WO1999023577A1 (en) | 1999-05-14 |
ES2184322T3 (es) | 2003-04-01 |
CZ20001630A3 (en) | 2001-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3575602B2 (ja) | オンライン・データベース・マイニング | |
US5920855A (en) | On-line mining of association rules | |
Brijs et al. | Building an association rules framework to improve product assortment decisions | |
US6094645A (en) | Finding collective baskets and inference rules for internet or intranet mining for large data bases | |
US6643646B2 (en) | Analysis of massive data accumulations using patient rule induction method and on-line analytical processing | |
KR101020206B1 (ko) | 사용자 추천 방법 및 이를 위한 프로그램이 기록된 기록매체 | |
Hossain et al. | Market basket analysis using apriori and FP growth algorithm | |
Sagin et al. | Determination of association rules with market basket analysis: application in the retail sector | |
US6763354B2 (en) | Mining emergent weighted association rules utilizing backlinking reinforcement analysis | |
JP3049636B2 (ja) | データ分析方法 | |
US20070233586A1 (en) | Method and apparatus for identifying cross-selling opportunities based on profitability analysis | |
US7908159B1 (en) | Method, data structure, and systems for customer segmentation models | |
CA2309940A1 (en) | System and method for dynamic profiling of users in one-to-one applications and for validating user rules | |
US20020091908A1 (en) | Method and system for database management for data mining | |
US20020099581A1 (en) | Computer-implemented dimension engine | |
Lisnawati et al. | Data Mining with Associated Methods to Predict Consumer Purchasing Patterns. | |
Ariestya et al. | Marketing strategy for the determination of staple consumer products using FP-growth and apriori algorithm | |
Collier et al. | A perspective on data mining | |
CN110232589B (zh) | 一种基于大数据的意向客户分析系统 | |
Arboleda et al. | Temporal visual profiling of market basket analysis | |
US7636709B1 (en) | Methods and systems for locating related reports | |
Ying et al. | Research on E-commerce Data Mining and Managing Model in The Process of Farmers' Welfare Growth | |
Sumathi et al. | Data warehousing, data mining, and OLAP | |
Dissanayake et al. | Association Mining Approach for Customer Behavior Analytics | |
US8489645B2 (en) | Techniques for estimating item frequencies in large data sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040421 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040421 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20040421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040609 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20040609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040630 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070716 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080716 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080716 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |