JP3452531B2 - データ・マイニングする方法およびシステム - Google Patents
データ・マイニングする方法およびシステムInfo
- Publication number
- JP3452531B2 JP3452531B2 JP2000121019A JP2000121019A JP3452531B2 JP 3452531 B2 JP3452531 B2 JP 3452531B2 JP 2000121019 A JP2000121019 A JP 2000121019A JP 2000121019 A JP2000121019 A JP 2000121019A JP 3452531 B2 JP3452531 B2 JP 3452531B2
- Authority
- JP
- Japan
- Prior art keywords
- transaction
- item
- data
- record
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000007418 data mining Methods 0.000 title claims description 31
- 238000005065 mining Methods 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009415 formwork Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Fuzzy Systems (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
グ技法に関する。より詳細には、本発明は、データ資産
の関連付け規則または順次パターンあるいはその両方の
マイニングの分野に関する。
ベースに記憶されるデータ量とデータベース・アプリケ
ーションの数は、最近20年間で激増している。この電
子記憶データ量の急増は、データ記憶のための関係モデ
ルの成功と、データ検索技術と操作技術の発展および成
熟によって促進された。データ記憶技術は需要に対応す
るように急速に発達したが、データ分析用のソフトウェ
アの開発には最近までほとんど力が注がれていなかっ
た。最近になって、各企業は、これらの大量のデータに
これまで無視されていた資源が隠されていることを認識
した。この大量の記憶データには、企業の業務の多くの
局面に関する知識が含まれており、より効果的なビジネ
ス意志決定支援のために利用されるのを待っている。現
在、これらのデータ・セットを管理するために使用され
る「データベース管理システム」では、ユーザはデータ
ベース内に明示的に存在する情報、すなわちデータにア
クセスすることができるに過ぎなかった。データベース
に記憶されたデータは、利用可能な情報の「氷山の一
角」に過ぎない。このデータには、企業のビジネスの多
くの局面に関する知識が暗黙に含まれており、より効果
的なビジネス意志決定支援のための利用を待っている。
この大規模なデータ・セットからの知識の抽出は、デー
タベースにおける「データ・マイニング」または「デー
タ・ディスカバリ」と呼ばれ、データから、暗示的で以
前には知られていない潜在的に有用な情報を非自明的に
抽出することであると定義することができる。データ・
マイニングのこの明白な利点により、多くの資源がその
開発に向けられている。
ースを分析してそこから有用な情報を取り出すツールの
開発を必要とする。データ・マイニングの応用分野とし
て、トランザクション・レコードの分析によって大規模
な顧客トランザクション・データベースから顧客購買パ
ターンを引き出すことができる。このような購買習慣
は、きわめて重要なマーケティング情報を提供すること
がある。たとえば、小売業者は、顧客の購買パターンが
わかれば、通常可能なよりも有効な店舗陳列やより有効
な自己管理を行うことができる。他の例として、カタロ
グ販売会社は、顧客が第1の品目を購入した場合、同じ
顧客がその第1の購入後の特定の期間内にある程度の確
率で特定の第2の品目を購入すると予測可能であるとわ
かれば、より有効なダイレクト・メールの発送を行うこ
とができる。
使用して、大量のデータの中からいくつかの知識を見つ
ける。このような2つの技法が、いわゆる関連付け規則
のマイニングと、順次パターンのマイニングである。
らの関連付け規則の特定は、データ・マイニングの重要
な部分である。「関連付け規則」は、X→Yの形の式で
あり、XおよびYは項目のセットである。小売業の分野
では、マイニング(探索)するデータは一般にはトラン
ザクションから成り、各トランザクションは品目のセッ
トによって特徴づけられる。たとえば、データベースに
靴と上着に関する顧客の販売トランザクションが含まれ
るとする。可能な関連付け規則は、「上着を含むトラン
ザクションの30パーセントが靴も含み、全トランザク
ションの10パーセントが靴と上着の両方を含む」とい
うものである。30パーセントの値を規則の信頼度と呼
び、10パーセントの値は規則のサポートである。関連
付け規則をマイニングする作業では、トランザクション
から、特定のユーザ指定最小サポートおよび信頼度の制
約を満たすすべての関連付け規則を見つける。概念的に
は、問題はレコードの関係テーブルから関連付け規則を
見つけることであると見なすことができる。各レコード
は、小売業トランザクションデータベースの場合のよう
にトランザクションを表すか、またはデータベース内の
その他のデータ項目とすることができる。各レコード
は、1つまたは複数の属性を持ち、各属性はトランザク
ションの項目に対応する。
部分は、順次パターンの特定に関する。これは、時間デ
ータに基づく規則を必要とする。自然災害のデータベー
スがあるとする。そのようなデータベースから、ロサン
ゼルスに地震があれば必ず翌日にキリマンジャロ山が噴
火するという結論を出した場合、そのような規則は順次
規則になる。このような規則は、市場獲得や自然災害の
予防措置を行うのに有用となり得る予知を行うのに有用
である。順次規則を他の規則から区別する因子は時間因
子である。
しては、カタログ設計、アドオン販売、店舗レイアウ
ト、および購入パターンやその他多くに基づく顧客区分
がある。一般には、これらの応用分野に関与するデータ
ベースはきわめて大規模である。したがって、この作業
には高速アルゴリズムを使うことが避けられない。
ターンを求めるマイニングのいくつかの方法が提案され
ているがいわゆる「アプリオリ(APRIORI)」手法から
導き出された方法(R. Agrawal, S.Rikantの「Fast Algo
rithms for Mining Association Rules」(第20回V
LDB会議議事録、1994年)を参照)のみが、大量
のデータを処理するのに十分な効率の高さを持つことが
実証されている。
式」と呼ぶ特別なデータ形式に基づく。関連付けの場
合、トランザクション形式は概念的に2つの列、すなわ
ち「トランザクション識別子」と「項目識別子」から成
る。順次パターンの場合、概念的には3つの列、すなわ
ち「トランザクション・グループ識別子」、「トランザ
クション識別子」、および「項目識別子」から成る。現
況技術のアプリオリ手法のはるかに重大な欠点は、すべ
ての「項目識別子」が同じタイプに関係する必要がある
ことである。その結果、アプリオリ手法は、同じタイプ
の項目間の関連付け規則または順序を導き出すことがで
きるに過ぎない。たとえば、項目識別子が特定の顧客が
購入した特定の製品に関係する場合、アプリオリ技法
は、「顧客が「製品1」を購入した場合、その顧客はX
%の確率で「製品2」を購入するであろう」という形の
規則しか導き出すことができない。アプリオリ手法は、
生成された規則に、たとえば顧客の性別、年齢、職業、
住所、またはその他の特徴のような他のタイプの項目を
含めることができない。規則を導き出すプロセスに多く
の異なる項目タイプを含めてしまえば、導き出された規
則が本質的にはるかに選択的になるため、規則の重要度
を大幅に高めることができる。
タイプのトランザクション項目を含む多数のレコードの
関連付け規則または順次パターンあるいはその両方のデ
ータ・マイニングのためのコンピュータ化された方法を
提供する目的に基づく。
求項によって解決される。本発明のその他の有利な構成
および実施形態は、それぞれの従属請求項に記載されて
いる。
のみを扱うデータ・マイニング技法を使って、多数のレ
コードの関連付け規則または順次パターンあるいはその
両方のデータ・マイニングのためのコンピュータ化され
た方法に関する。本発明は、トランザクション識別情報
と、対応する項目タイプを備えた少なくとも1つのトラ
ンザクション項目とを含み、多数のレコードが異なるタ
イプのトランザクション項目を含むレコードに適用可能
である。この提案の方法は、各レコードをトランザクシ
ョン形式の1つまたは複数のトランザクション・レコー
ドに変換する前処理ステップを含む。前記レコード内の
各トランザクション項目の前記トランザクション形式に
従ってトランザクション・レコードが生成され、前記ト
ランザクション・レコードは、前記トランザクション・
レコードのトランザクション識別情報と、前記項目およ
びそれに対応する項目タイプを1つの値にコード化した
コード化トランザクション項目とを少なくとも含む。該
コード化トランザクション項目は、異なる項目タイプの
トランザクション項目の値を共通の範囲のうちの重なり
合わない部分範囲にマッピングすることによってコード
化される。最後に、前記方法は、関連付け規則および順
次パターンあるいはその両方のデータ・マイニングのた
めに前記トランザクション・レコードに上記データ・マ
イニング技法を適用するマイニング・ステップを含む。
ング技法を拡張し、多数の項目タイプの項目を含むデー
タ資産に基づく関連付け規則または順次パターンあるい
はその両方を求めるマイニングもサポートするようにな
る。この技術分野における現在の活動は、新しい先進的
なマイニング・アルゴリズムを求めることに集中してい
るが、本発明はまったく異なる意外な方向を向いた特徴
によってこの目的を達成することができる。新しいマイ
ニング・アルゴリズムを提案するのではなく、本発明
は、マイニングするデータを新しいコード化方式に変換
する新規な前処理ステップを提案する。データがトラン
ザクション形式ではないため、新しいアルゴリズムを導
入する必要なしに、関連付け/順次パターンを求める効
率的なマイニングのための項目フィールドとして定義す
る複数のフィールドの使用をサポートする。したがっ
て、きわめて効率的で最適化されていることが最近数年
間で実証されているマイニング・アルゴリズムが従来通
り適用可能である。
関係データベース)、テーブル、レコードと言う場合、
これらの用語は概念的な観点からのみ理解すべきであ
る。データベースという用語は、あらゆる量のデータを
指す最も一般的な意味で理解すべきである。データは、
フラット・ファイルまたは実際のデータベースに記憶す
ることができる。さらに、本教示は、データを永続的に
記憶する必要はない。本教示は、インコア・メモリ内の
いずれかの場所に記憶された揮発性データにも適用可能
である。また、データが実際にレコードから成るテーブ
ル構造として物理的に編成されている必要もない。本発
明では、データは、論理的な観点から見て、複数の個別
レコード・フィールドを持つレコードから成るテーブル
に編成することができるだけでは不十分である。
れるソース・データは、複数のレコードから成るテーブ
ルとして提供され、これらのレコードは(テーブルの列
を表す)複数のフィールドから成る。図1にそのような
テーブルの一例を示す。テーブルの個々のレコードは、
「顧客」、「TA」、「年齢」、「性別」、「州」、
「品目」という個別フィールドを含む。ほとんどのフィ
ールドの意味は、その名前から直接わかる。フィールド
「TA」には、特定の顧客が「品目」フィールドで識別
されている特定の製品を注文したときの固有トランザク
ション識別子が入る。
ーンのマイニングのためのアプリオリ方式のようなデー
タ・マイニング技法は、図1のテーブル構造のようなデ
ータの元のソース形式には適用することができない。た
とえば、アプリオリ手法は、図1の通常の複数列形式と
は異なる「トランザクション形式」と呼ばれる特別な形
式のデータに依存する。関連付けの場合、トランザクシ
ョン形式は2つの列、すなわち「トランザクション識別
子」と「項目識別子」のみから成る。順次パターンの場
合、トランザクション形式は3つの列、すなわち「トラ
ンザクション・グループ識別子」、「トランザクション
識別子」、および「項目識別子」から成る。図2および
図3に、図1のテーブルをトランザクション形式に変換
した結果を示す。図2は、関連付け規則のマイニングに
適合されたトランザクション形式を示し、図3は順次パ
ターンのマイニングに適合化されたトランザクション形
式を示す。従来技術によれば、トランザクション形式表
現のすべての項目値は単一の項目タイプのみに関係する
ことを理解することが重要である。この例では、項目タ
イプは顧客別に配列された製品である。
テゴリ変数として扱わなければならない。これは、項目
識別子の値がストリングとして扱われることを意味す
る。この種の入力データが与えられたと考えると、関連
付け規則のためのアプリオリ方式のアルゴリズムによっ
て以下のような規則が見つかる。トランザクションに項
目oと項目pと項目qと、...とが含まれている場合、
そのトランザクションには項目m、項目n、...も含ま
れることになる。
方式のアルゴリズムによって、以下のようなパターンが
見つかる。項目oと項目pと...とを含むトランザクシ
ョンの後には、項目p...を含むトランザクションが
続き、その後には...を含むトランザクションが続
き...というようになる。
使用して関連付け規則または順次パターンをマイニング
するために、効率的なアプリオリ方式アルゴリズムまた
はその他の同様の手法を使用することは不可能である。
したがって、アプリオリ方式の方法のような従来の技術
によると、この例に適用した場合、特定の製品1(「品
目」)、顧客の年齢(「年齢」)、性別(「性別」)、
居住する州(「州」)のいずれかまたは全部の配列を、
別の製品2(「品目」)の配列の確率に関連づけること
ができる規則を導き出すことはできない。
を扱うことができる従来の技術で知られている唯一の解
決策は、すべての項目が同じ項目タイプに関係する事例
である。このような事例の一例を図3に示す。この解決
策によると、項目フィールドのタイプと意味がすべて同
じであるため、複数の項目フィールド302〜305が
あっても、データベース・テーブル301をトランザク
ション形式に変換することができる。この特殊な事例で
は、「ピボット」と呼ぶ方法を使用して複数フィールド
入力を、図4に310として示す従来のトランザクショ
ン形式に変換することができる。図4からわかるよう
に、複数列データベースのすべてのレコードが、トラン
ザクション形式を有する複数のトランザクション・レコ
ードに変換される。複数列テーブルの特定のレコード内
のすべての項目について、個別のトランザクション・レ
コードが生成され、複数列データベース・テーブルの同
じレコードから生成されたすべてのトランザクション・
レコードは同じトランザクション識別情報を反映する。
連付け規則および順次パターンのための周知のマイニン
グ技法を使用して、「「州」がMAの場合、「品目」は
20である」のような規則を見つけることができ、それ
ぞれ、「「州」がMAで「品目」が20の後には、
「州」がCAで「品目」が30が続く」のような順次パ
ターンを見つけることができることが望ましい。この種
の結果は、規則またはパターン(MA、CA、20、3
0)に現れるのが属性値だけではないという意味で、従
来の結果とは異なる。複数列データおよび異なるタイプ
の項目では、この結果の一部として列名(たとえば州と
品目)も有することが重要である。
1、c2,...,cn}(n>2)である。各列ckは識
別子ikとタイプtkを有する。関連付け規則のための効
率的なアルゴリズムは、2列のテーブル{c1,c2}の
みを処理することができ、一方の列をいわゆるトランザ
クション識別子(またはトランザクション識別情報)と
して使用し、他方の列を項目識別子(またはトランザク
ション項目)として使用する。同様に、順次パターン・
アルゴリズムは、3列のテーブル{c1,c2,c3}を
使用し、1列をいわゆるトランザクション・グループ識
別子として使用し、残りの2列の意味は(トランザクシ
ョン識別子と項目識別子を含む)関連付け規則アルゴリ
ズムに対応する。
て使用することができるようにすることであり、したが
って、異なるタイプの項目間の規則を導き出す機能によ
って周知のマイニング方法を拡張することであるため、
項目値、すなわち項目識別子の値の抽象的観念も定義す
る必要がある。列ckとレコード番号mが与えられた場
合、この特定のレコード内の列ckの値をval(ck,
m)で示す。たとえば、図1のテーブルの最初のレコー
ド内の列「州」の値はCAであり、val(Stat
e,1)=CAとなる。val関数はこのデータ中の元
の値を返す必要はない。場合によっては、値マッピング
を使用して連続値を区間にマッピングする(打ち切り)
こともできる。
クション項目」という新規なトランザクション項目の概
念を教示することである。このコード化トランザクショ
ン項目は、トランザクション項目だけでなく項目タイプ
も同時にコード化する単一の値を表す。このような手法
を使用すると、コード化トランザクション項目の異なる
項目タイプのトランザクション項目が常に異なる値で表
されるように保証される。このコード化方式は、トラン
ザクション項目の値とは独立して、異なる項目タイプを
異なるコード化トランザクション項目にマッピングする
ため、この新規なトランザクション形式に従ってセット
・アップされたレコードを操作することによって、従来
のマイニング方法が異なる項目タイプの項目を処理する
ように透過的に使用可能になる。以下で示すように、項
目タイプとトランザクション項目の値とを単一のコード
化トランザクション項目としてコード化するために、異
なるマッピングを使用することができる。
ドmの項目列の列識別情報と値とを単一の値にコード化
するマッピング関数map(i,val(i,m))を
導入する。2つの追加の関数を導入して、このマッピン
グ関数の動作を以下のように定義する。 1.Column(encodedValue)は、マップ関数によって生
成されたコード化値の列を返す。 2.Value(encodedValue)は、マップ関数によってコ
ード化された項目の値を返す。
ついて以下の2つの条件が成立するように作成しなけれ
ばならない。 1.Column(map(i,val(i,m)))=i 2.Value(map(i,val(i,m)))=val(i,m) または、言い換えると、コード化トランザクション項目
は、トランザクション項目の対応する値と、対応する項
目タイプとに固有にデコード可能である。
手法の使用上記で概説したように、本発明の概念は、複
数列データを、元のテーブルに含まれているいかなる情
報も失うことなく、既存のアルゴリズムによって扱うこ
とができるデータ形式に変換することである。
本教示による各データベース・レコードをトランザクシ
ョン形式の1つまたは複数のトランザクション・レコー
ドに変換する前処理ステップがどのように機能するかを
図示する。概括的に説明すると、m個の列があり、その
うちのn個の列(c1、c2、...cnで示す)が項目
値の入力として選択されており、項目が同じ項目タイプ
または異なる項目タイプの任意の混合を表すことができ
る複数列テーブルがあるとすると、この方法は以下のよ
うに機能する(図5も参照)。列c1、c2、...cn
を含む入力データ内の各レコードについて、対応する列
識別情報および値を抽出する(401、402)。次に
コード化map(ik,val(ik,p))を計算する
(403)。出力(404)として、この機構は関連付
けの場合は2列テーブル、順次パターンの場合は3列テ
ーブルを生成する。これらのテーブルには、それぞれ
(トランザクション識別情報,コード化トランザクショ
ン項目)ペアと(トランザクション・グループ、トラン
ザクション識別子、コード化トランザクション項目)タ
プルが含まれる。
ピング機構の出力が何らかの種類のデータベースの物理
テーブルとして直接記憶されるか否かは問題ではない。
すなわち、データ・マイニング方法によって最終的に処
理された出力は、揮発性コンピュータ・メモリにのみ入
れることもできる。また、物理記憶なしでこの変換を行
う、入力データのための特別なカーソルとして実施する
こともできる。
が可能である。
と、ストリング表現の項目タイプと、項目の「ストリン
グ化」値、すなわちトランザクション項目の値とを単に
連結する関数を導入することができる。さらに、任意選
択の区切り文字「@」を使用して、列および値関数が適
切に機能するように保証することもできる。図1のデー
タの最初のレコードを例にとり、「州」列にこのマッピ
ング関数を適用すると、「State@CA」が返され
る。図6に、項目列として「年齢」、「州」、および
「品目」を選択し、トランザクション識別子列としてT
A列を選択した場合の、この機構を適用した全結果を示
す。これは関連付け規則の探索のために入力として使用
される種類のデータであることは明らかである。
うなマッピングも可能である。様々な項目タイプの項目
の値を共通の範囲のうちの重なり合わない部分範囲にマ
ッピングし、異なる項目タイプに関係するコード化トラ
ンザクション項目が、コード化トランザクション値に関
して常に異なるという結果を得ることができる。
ング技法を拡張し、多数の項目タイプの項目を含むデー
タ資産に基づく関連付け規則または順次パターンあるい
はその両方を求めるマイニングもサポートするようにな
る。この技術分野における現在の活動は、新しい先進的
なマイニング・アルゴリズムを求めることに集中してい
るが、本発明はまったく異なる意外な方向を向いた特徴
によってこの目的を達成することができる。新しいマイ
ニング・アルゴリズムを提案するのではなく、本発明
は、マイニングするデータを新しいコード化方式に変換
する新規な前処理ステップを提案する。データがトラン
ザクション形式ではないため、新しいアルゴリズムを導
入する必要なしに、関連付け/順次パターンを求める効
率的なマイニングのための項目フィールドとして定義す
る複数のフィールドの使用をサポートする。したがっ
て、きわめて効率的で最適化されていることが最近数年
間で実証されているマイニング・アルゴリズムが従来通
り適用可能である。
あり、したがって項目フィールドのタイプまたは意味に
対する制約がまったく加えられない。したがって、マイ
ニングのために、この前処理ステップの変換出力に基づ
く任意のデータに従来技術の関連付けおよび順次パター
ン・アルゴリズムを適用することができる。
ータ・メモリの効率的な使用である。データの追加のコ
ピーが不要であり、さらに、本発明の手法が追加のディ
スク空間を必要としないことは、マイニング対象のデー
タが通常は大量であることを考えると重要な点である。
コード化プロセス中に、項目値の明示的なマッピングが
可能である。元のデータ資産内に存在する項目の連続値
または数値あるいはその両方を、区間にその場で(オン
・ザ・フライで)マップすることができる。したがっ
て、いわゆる定量的関連付け規則の探索が直接サポート
される。
れたマイニング出力は、(項目タイプがトランザクショ
ン項目にコード化されるため)入力データとして使用さ
れた元のデータ・スキーマの列名を反映する。これによ
り、規則/順次パターンの解釈が格段に容易になる。
の事項を開示する。
は順次パターンあるいはその両方をデータ・マイニング
するコンピュータ化方法であって、レコードがトランザ
クション識別情報と、対応する項目タイプを備える少な
くとも1つのトランザクション項目とを含み、前記複数
のレコードが異なる項目タイプのトランザクション項目
を含み、前記方法が各レコードをトランザクション形式
の1つまたは複数のトランザクション・レコードに変換
する前処理ステップを含み、前記レコード内の各トラン
ザクション項目ごとにトランザクション・レコードが生
成され、前記トランザクション・レコードが、前記レコ
ードのトランザクション識別情報と、前記トランザクシ
ョン項目とそれに対応する項目タイプとを1つの値にコ
ード化するコード化トランザクション項目とを含み、前
記方法が、関連付け規則または順次パターンあるいはそ
の両方をデータ・マイニングするために前記トランザク
ション・レコードに従来のデータ・マイニング技法を適
用するマイニング・ステップを含む方法。 (2)前記データ・マイニング技法がアプリオリ技法で
ある、上記(1)に記載の方法。 (3)前記コード化トランザクション項目が前記トラン
ザクション項目と前記項目タイプとにデコード可能であ
る、上記(1)に記載の方法。 (4)前記コード化トランザクション項目が前記項目タ
イプと前記トランザクション項目との並置によって生成
される、上記(2)に記載の方法。 (5)上記(1)ないし(4)のいずれか一項に記載の
前記方法の前記ステップを実行するように適合された手
段を含むシステム。 (6)上記(1)ないし(4)のいずれか一項に記載の
方法を実行するソフトウェア・コード部分を含む、デー
タ処理システムにおける実行のためのデータ処理プログ
ラムを記録したコンピュータ可読記録媒体。 (7)上記(1)ないし(4)のいずれか一項に記載の
方法をコンピュータに実行させるコンピュータ可読プロ
グラム手段を含む、コンピュータ使用可能媒体。
(テーブルの列を表す)複数のフィールドを有する、デ
ータ・マイニング技法が適用される典型的なデータベー
ス・テーブルの一例を示す図である。
変換結果を示し、関連付け規則をマイニングするように
適合されたトランザクション形式を示す図である。
変換結果を示し、順次パターンをマイニングするように
適合されたトランザクション形式を示す図である。
に限定されている、複数の項目を持つデータベース・レ
コードを扱うことができる従来技術で周知の唯一の解決
策を示す図である。
の教示に従って各データベース・レコードをトランザク
ション形式の1つまたは複数のトランザクション・レコ
ードに変換する前処理ステップがどのように機能するか
を示す図である。
目を使用した本発明の教示の完全な前処理結果を示す図
である。
Claims (7)
- 【請求項1】トランザクション形式のデータのみを扱う
データ・マイニング技法を使って、複数のレコードの関
連付け規則または順次パターンあるいはその両方をデー
タ・マイニングするコンピュータ化方法であって、 レコードがトランザクション識別情報と、対応する項目
タイプを備える少なくとも1つのトランザクション項目
とを含み、 前記複数のレコードが異なる項目タイプのトランザクシ
ョン項目を含み、 前記方法が各レコードをトランザクション形式の1つま
たは複数のトランザクション・レコードに変換する前処
理ステップを含み、 前記レコード内の各トランザクション項目ごとにトラン
ザクション・レコードが生成され、 前記トランザクション・レコードが、前記レコードのト
ランザクション識別情報と、前記トランザクション項目
とそれに対応する項目タイプとを1つの値にコード化し
たコード化トランザクション項目とを含み、該コード化
トランザクション項目は、異なる項目タイプのトランザ
クション項目の値を共通の範囲のうちの重なり合わない
部分範囲にマッピングすることによってコード化されて
おり、 前記方法が、関連付け規則または順次パターンあるいは
その両方をデータ・マイニングするために前記トランザ
クション・レコードに前記データ・マイニング技法を適
用するマイニング・ステップを含む方法。 - 【請求項2】前記コード化トランザクション項目が前記
トランザクション項目と前記項目タイプとにデコード可
能である、請求項1に記載の方法。 - 【請求項3】前記コード化トランザクション項目が前記
項目タイプと前記トランザクション項目との並置によっ
て生成される、請求項1に記載の方法。 - 【請求項4】前記コード化トランザクション項目のコー
ド化プロセス中に、前記トランザクション項目の連続値
及び又は数値を区間にマップする、請求項1に記載の方
法。 - 【請求項5】請求項1ないし4のいずれか一項に記載の
前記方法の前記ステップを実行するように適合された手
段を含むシステム。 - 【請求項6】請求項1ないし4のいずれか一項に記載の
方法を実行するソフトウェア・コード部分を含む、デー
タ処理システムにおける実行のためのデータ処理プログ
ラムを記録したコンピュータ可読記録媒体。 - 【請求項7】請求項1ないし4のいずれか一項に記載の
方法をコンピュータに実行させるコンピュータ可読プロ
グラム手段を含む、コンピュータ使用可能媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99108219.9 | 1999-04-27 | ||
EP99108219 | 1999-04-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000353177A JP2000353177A (ja) | 2000-12-19 |
JP3452531B2 true JP3452531B2 (ja) | 2003-09-29 |
Family
ID=8238053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000121019A Expired - Fee Related JP3452531B2 (ja) | 1999-04-27 | 2000-04-21 | データ・マイニングする方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6553359B1 (ja) |
JP (1) | JP3452531B2 (ja) |
SG (1) | SG91861A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7200804B1 (en) * | 1998-12-08 | 2007-04-03 | Yodlee.Com, Inc. | Method and apparatus for providing automation to an internet navigation application |
US7085997B1 (en) | 1998-12-08 | 2006-08-01 | Yodlee.Com | Network-based bookmark management and web-summary system |
US7672879B1 (en) | 1998-12-08 | 2010-03-02 | Yodlee.Com, Inc. | Interactive activity interface for managing personal data and performing transactions over a data packet network |
US8069407B1 (en) | 1998-12-08 | 2011-11-29 | Yodlee.Com, Inc. | Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes |
US7752535B2 (en) * | 1999-06-01 | 2010-07-06 | Yodlec.com, Inc. | Categorization of summarized information |
US6952693B2 (en) * | 2001-02-23 | 2005-10-04 | Ran Wolff | Distributed mining of association rules |
US6907426B2 (en) * | 2001-05-17 | 2005-06-14 | International Business Machines Corporation | Systems and methods for identifying and counting instances of temporal patterns |
US6990486B2 (en) * | 2001-08-15 | 2006-01-24 | International Business Machines Corporation | Systems and methods for discovering fully dependent patterns |
US7403985B2 (en) * | 2001-11-01 | 2008-07-22 | Hewlett-Packard Development Company, L.P. | Method and system for analyzing electronic service execution |
US6714893B2 (en) | 2002-02-15 | 2004-03-30 | International Business Machines Corporation | Enhanced concern indicator failure prediction system |
US7065532B2 (en) * | 2002-10-31 | 2006-06-20 | International Business Machines Corporation | System and method for evaluating information aggregates by visualizing associated categories |
US8326658B1 (en) * | 2004-04-12 | 2012-12-04 | Amazon Technologies, Inc. | Generation and contextual presentation of statistical data reflective of user selections from an electronic catalog |
US7483880B2 (en) * | 2004-09-30 | 2009-01-27 | Microsoft Corporation | User interface for database display |
US7606752B2 (en) | 2006-09-07 | 2009-10-20 | Yodlee Inc. | Host exchange in bill paying services |
US8359329B2 (en) * | 2007-02-13 | 2013-01-22 | Future Route Limited | Method, computer apparatus and computer program for identifying unusual combinations of values in data |
US8046322B2 (en) * | 2007-08-07 | 2011-10-25 | The Boeing Company | Methods and framework for constraint-based activity mining (CMAP) |
US8261334B2 (en) | 2008-04-25 | 2012-09-04 | Yodlee Inc. | System for performing web authentication of a user by proxy |
US8555359B2 (en) | 2009-02-26 | 2013-10-08 | Yodlee, Inc. | System and methods for automatically accessing a web site on behalf of a client |
US10296844B2 (en) | 2014-09-24 | 2019-05-21 | Nec Corporation | Automatic discovery of message ordering invariants in heterogeneous logs |
CN105302879B (zh) * | 2015-10-12 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 用于确定用户需求的方法与装置 |
CN114780612B (zh) * | 2022-04-19 | 2024-08-09 | 江苏警官学院 | 一种基于主题事件的时间关联挖掘目标人员的系统及方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5615341A (en) * | 1995-05-08 | 1997-03-25 | International Business Machines Corporation | System and method for mining generalized association rules in databases |
US5842200A (en) * | 1995-03-31 | 1998-11-24 | International Business Machines Corporation | System and method for parallel mining of association rules in databases |
US5734885A (en) * | 1995-08-24 | 1998-03-31 | International Business Machines Corporation | System and method for tightly coupling application programs with relational databases |
US5742811A (en) * | 1995-10-10 | 1998-04-21 | International Business Machines Corporation | Method and system for mining generalized sequential patterns in a large database |
US5832482A (en) * | 1997-02-20 | 1998-11-03 | International Business Machines Corporation | Method for mining causality rules with applications to electronic commerce |
US5933818A (en) * | 1997-06-02 | 1999-08-03 | Electronic Data Systems Corporation | Autonomous knowledge discovery system and method |
-
2000
- 2000-04-10 SG SG200002011A patent/SG91861A1/en unknown
- 2000-04-21 JP JP2000121019A patent/JP3452531B2/ja not_active Expired - Fee Related
- 2000-04-27 US US09/559,617 patent/US6553359B1/en not_active Expired - Lifetime
Non-Patent Citations (6)
Title |
---|
喜連川優,データマイニングにおける相関ルール抽出技法,人工知能学会誌,日本,社団法人人工知能学会,1997年 7月 1日,第12巻第4号,第513頁乃至第520頁 |
岡田孝 他,カスケードモデルによる共通データベースの解析,第42回人工知能学会研究会資料,日本,社団法人人工知能学会,1999年 1月27日,SIG−KBS−9802,第75頁乃至第82頁 |
猪口明博 他,バスケット分析のグラフ構造データへの拡張と通信ネットワークデータへの適用,第33回人工知能基礎論研究資料,日本,社団法人人工知能学会,1998年 5月28日,SIG−FAI−9801,第55頁乃至第60頁 |
相坂一樹 他,知識獲得を用いたデータベース圧縮のためのルール選択方法について,情報処理学会研究報告,日本,社団法人情報処理学会,1999年 1月23日,Vol.99 No.6,第65頁乃至第70頁 |
落田美紀 他,製造業におけるデータマイニングの応用と課題,人工知能学会誌,日本,社団法人人工知能学会,1997年 7月 1日,第12巻 第4号,第544頁乃至第549頁 |
飯塚哲也 他,相関ルールを用いた視覚化属性選択方式,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1998年10月14日,第98巻第316号,第9頁乃至第17頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2000353177A (ja) | 2000-12-19 |
US6553359B1 (en) | 2003-04-22 |
SG91861A1 (en) | 2002-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3452531B2 (ja) | データ・マイニングする方法およびシステム | |
CN1856783B (zh) | 使用参考与一般数据项关联的数据管理结构 | |
EP2450809B1 (en) | Method for extracting information from a database | |
AU750629B2 (en) | Online database mining | |
US7849114B2 (en) | Method, system, and program product for generating a virtual database | |
US6564212B2 (en) | Method of processing queries in a database system, and database system and software product for implementing such method | |
US6633883B2 (en) | Methods of organizing data and processing queries in a database system, and database system and software product for implementing such methods | |
US6711563B1 (en) | Methods of organizing data and processing queries in a database system, and database system and software product for implementing such methods | |
US6035303A (en) | Object management system for digital libraries | |
CN100557605C (zh) | 类型路径索引 | |
US20040133581A1 (en) | Database management system, data structure generating method for database management system, and storage medium therefor | |
JPH10505440A (ja) | プログラミング言語−具体的データファイルのsqlベースの操作を可能にするコンピュータベースの情報アクセス方法および装置 | |
KR20010083096A (ko) | 가치-사례-연결을 통한 컴퓨터에 의해 구현되는데이터베이스 | |
US6343286B1 (en) | Efficient technique to defer large object access with intermediate results | |
EP0912948A1 (en) | Database apparatus | |
US7113951B2 (en) | Method and system for detecting tables to be modified | |
US20040078355A1 (en) | Information management system | |
JP2003141158A (ja) | 順序を考慮したパターンを用いた検索装置および方法 | |
Lee et al. | A data mining approach to database compression | |
US6907415B2 (en) | Finding rules and exceptions from databases | |
JP4850581B2 (ja) | データ処理システム | |
JP4850580B2 (ja) | データ処理システム | |
JPH1011338A (ja) | リレーショナル・データベース・システム,該システムへのデータ格納・読み出し方法,およびそのためのプログラムを記録した記録媒体 | |
JPH01286020A (ja) | プログラム検索方式 | |
JPH11306183A (ja) | データベース検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070718 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080718 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080718 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090718 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100718 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110718 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110718 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120718 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130718 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |