JP3452531B2 - データ・マイニングする方法およびシステム - Google Patents

データ・マイニングする方法およびシステム

Info

Publication number
JP3452531B2
JP3452531B2 JP2000121019A JP2000121019A JP3452531B2 JP 3452531 B2 JP3452531 B2 JP 3452531B2 JP 2000121019 A JP2000121019 A JP 2000121019A JP 2000121019 A JP2000121019 A JP 2000121019A JP 3452531 B2 JP3452531 B2 JP 3452531B2
Authority
JP
Japan
Prior art keywords
transaction
item
data
record
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000121019A
Other languages
English (en)
Other versions
JP2000353177A (ja
Inventor
フリーデマン・シュヴェンクライス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2000353177A publication Critical patent/JP2000353177A/ja
Application granted granted Critical
Publication of JP3452531B2 publication Critical patent/JP3452531B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Fuzzy Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ・マイニン
グ技法に関する。より詳細には、本発明は、データ資産
の関連付け規則または順次パターンあるいはその両方の
マイニングの分野に関する。
【0002】
【従来の技術】ビジネス分野と科学分野においてデータ
ベースに記憶されるデータ量とデータベース・アプリケ
ーションの数は、最近20年間で激増している。この電
子記憶データ量の急増は、データ記憶のための関係モデ
ルの成功と、データ検索技術と操作技術の発展および成
熟によって促進された。データ記憶技術は需要に対応す
るように急速に発達したが、データ分析用のソフトウェ
アの開発には最近までほとんど力が注がれていなかっ
た。最近になって、各企業は、これらの大量のデータに
これまで無視されていた資源が隠されていることを認識
した。この大量の記憶データには、企業の業務の多くの
局面に関する知識が含まれており、より効果的なビジネ
ス意志決定支援のために利用されるのを待っている。現
在、これらのデータ・セットを管理するために使用され
る「データベース管理システム」では、ユーザはデータ
ベース内に明示的に存在する情報、すなわちデータにア
クセスすることができるに過ぎなかった。データベース
に記憶されたデータは、利用可能な情報の「氷山の一
角」に過ぎない。このデータには、企業のビジネスの多
くの局面に関する知識が暗黙に含まれており、より効果
的なビジネス意志決定支援のための利用を待っている。
この大規模なデータ・セットからの知識の抽出は、デー
タベースにおける「データ・マイニング」または「デー
タ・ディスカバリ」と呼ばれ、データから、暗示的で以
前には知られていない潜在的に有用な情報を非自明的に
抽出することであると定義することができる。データ・
マイニングのこの明白な利点により、多くの資源がその
開発に向けられている。
【0003】データ・マイニングは、大規模なデータベ
ースを分析してそこから有用な情報を取り出すツールの
開発を必要とする。データ・マイニングの応用分野とし
て、トランザクション・レコードの分析によって大規模
な顧客トランザクション・データベースから顧客購買パ
ターンを引き出すことができる。このような購買習慣
は、きわめて重要なマーケティング情報を提供すること
がある。たとえば、小売業者は、顧客の購買パターンが
わかれば、通常可能なよりも有効な店舗陳列やより有効
な自己管理を行うことができる。他の例として、カタロ
グ販売会社は、顧客が第1の品目を購入した場合、同じ
顧客がその第1の購入後の特定の期間内にある程度の確
率で特定の第2の品目を購入すると予測可能であるとわ
かれば、より有効なダイレクト・メールの発送を行うこ
とができる。
【0004】データ・マイニングは、いくつかの技法を
使用して、大量のデータの中からいくつかの知識を見つ
ける。このような2つの技法が、いわゆる関連付け規則
のマイニングと、順次パターンのマイニングである。
【0005】トランザクションの大規模データベースか
らの関連付け規則の特定は、データ・マイニングの重要
な部分である。「関連付け規則」は、X→Yの形の式で
あり、XおよびYは項目のセットである。小売業の分野
では、マイニング(探索)するデータは一般にはトラン
ザクションから成り、各トランザクションは品目のセッ
トによって特徴づけられる。たとえば、データベースに
靴と上着に関する顧客の販売トランザクションが含まれ
るとする。可能な関連付け規則は、「上着を含むトラン
ザクションの30パーセントが靴も含み、全トランザク
ションの10パーセントが靴と上着の両方を含む」とい
うものである。30パーセントの値を規則の信頼度と呼
び、10パーセントの値は規則のサポートである。関連
付け規則をマイニングする作業では、トランザクション
から、特定のユーザ指定最小サポートおよび信頼度の制
約を満たすすべての関連付け規則を見つける。概念的に
は、問題はレコードの関係テーブルから関連付け規則を
見つけることであると見なすことができる。各レコード
は、小売業トランザクションデータベースの場合のよう
にトランザクションを表すか、またはデータベース内の
その他のデータ項目とすることができる。各レコード
は、1つまたは複数の属性を持ち、各属性はトランザク
ションの項目に対応する。
【0006】データ・マイニングのもう一つの基本的な
部分は、順次パターンの特定に関する。これは、時間デ
ータに基づく規則を必要とする。自然災害のデータベー
スがあるとする。そのようなデータベースから、ロサン
ゼルスに地震があれば必ず翌日にキリマンジャロ山が噴
火するという結論を出した場合、そのような規則は順次
規則になる。このような規則は、市場獲得や自然災害の
予防措置を行うのに有用となり得る予知を行うのに有用
である。順次規則を他の規則から区別する因子は時間因
子である。
【0007】データ・マイニングのその他の応用分野と
しては、カタログ設計、アドオン販売、店舗レイアウ
ト、および購入パターンやその他多くに基づく顧客区分
がある。一般には、これらの応用分野に関与するデータ
ベースはきわめて大規模である。したがって、この作業
には高速アルゴリズムを使うことが避けられない。
【0008】関連付け規則を求めるマイニングと順次パ
ターンを求めるマイニングのいくつかの方法が提案され
ているがいわゆる「アプリオリ(APRIORI)」手法から
導き出された方法(R. Agrawal, S.Rikantの「Fast Algo
rithms for Mining Association Rules」(第20回V
LDB会議議事録、1994年)を参照)のみが、大量
のデータを処理するのに十分な効率の高さを持つことが
実証されている。
【0009】アプリオリ手法は、「トランザクション形
式」と呼ぶ特別なデータ形式に基づく。関連付けの場
合、トランザクション形式は概念的に2つの列、すなわ
ち「トランザクション識別子」と「項目識別子」から成
る。順次パターンの場合、概念的には3つの列、すなわ
ち「トランザクション・グループ識別子」、「トランザ
クション識別子」、および「項目識別子」から成る。現
況技術のアプリオリ手法のはるかに重大な欠点は、すべ
ての「項目識別子」が同じタイプに関係する必要がある
ことである。その結果、アプリオリ手法は、同じタイプ
の項目間の関連付け規則または順序を導き出すことがで
きるに過ぎない。たとえば、項目識別子が特定の顧客が
購入した特定の製品に関係する場合、アプリオリ技法
は、「顧客が「製品1」を購入した場合、その顧客はX
%の確率で「製品2」を購入するであろう」という形の
規則しか導き出すことができない。アプリオリ手法は、
生成された規則に、たとえば顧客の性別、年齢、職業、
住所、またはその他の特徴のような他のタイプの項目を
含めることができない。規則を導き出すプロセスに多く
の異なる項目タイプを含めてしまえば、導き出された規
則が本質的にはるかに選択的になるため、規則の重要度
を大幅に高めることができる。
【0010】
【発明が解決しようとする課題】本発明は、異なる項目
タイプのトランザクション項目を含む多数のレコードの
関連付け規則または順次パターンあるいはその両方のデ
ータ・マイニングのためのコンピュータ化された方法を
提供する目的に基づく。
【0011】
【課題を解決するための手段】本発明の目的は、独立請
求項によって解決される。本発明のその他の有利な構成
および実施形態は、それぞれの従属請求項に記載されて
いる。
【0012】本発明は、トランザクション形式のデータ
のみを扱うデータ・マイニング技法を使って、多数のレ
コードの関連付け規則または順次パターンあるいはその
両方のデータ・マイニングのためのコンピュータ化され
た方法に関する。本発明は、トランザクション識別情報
と、対応する項目タイプを備えた少なくとも1つのトラ
ンザクション項目とを含み、多数のレコードが異なるタ
イプのトランザクション項目を含むレコードに適用可能
である。この提案の方法は、各レコードをトランザクシ
ョン形式の1つまたは複数のトランザクション・レコー
ドに変換する前処理ステップを含む。前記レコード内の
各トランザクション項目の前記トランザクション形式に
従ってトランザクション・レコードが生成され、前記ト
ランザクション・レコードは、前記トランザクション・
レコードのトランザクション識別情報と、前記項目およ
びそれに対応する項目タイプを1つの値にコード化した
コード化トランザクション項目とを少なくとも含む。
コード化トランザクション項目は、異なる項目タイプの
トランザクション項目の値を共通の範囲のうちの重なり
合わない部分範囲にマッピングすることによってコード
化される。最後に、前記方法は、関連付け規則および順
次パターンあるいはその両方のデータ・マイニングのた
めに前記トランザクション・レコードに上記データ・マ
イニング技法を適用するマイニング・ステップを含む。
【0013】本発明は、従来技術によるデータ・マイニ
ング技法を拡張し、多数の項目タイプの項目を含むデー
タ資産に基づく関連付け規則または順次パターンあるい
はその両方を求めるマイニングもサポートするようにな
る。この技術分野における現在の活動は、新しい先進的
なマイニング・アルゴリズムを求めることに集中してい
るが、本発明はまったく異なる意外な方向を向いた特徴
によってこの目的を達成することができる。新しいマイ
ニング・アルゴリズムを提案するのではなく、本発明
は、マイニングするデータを新しいコード化方式に変換
する新規な前処理ステップを提案する。データがトラン
ザクション形式ではないため、新しいアルゴリズムを導
入する必要なしに、関連付け/順次パターンを求める効
率的なマイニングのための項目フィールドとして定義す
る複数のフィールドの使用をサポートする。したがっ
て、きわめて効率的で最適化されていることが最近数年
間で実証されているマイニング・アルゴリズムが従来通
り適用可能である。
【0014】
【発明の実施の形態】本発明でデータベース(たとえば
関係データベース)、テーブル、レコードと言う場合、
これらの用語は概念的な観点からのみ理解すべきであ
る。データベースという用語は、あらゆる量のデータを
指す最も一般的な意味で理解すべきである。データは、
フラット・ファイルまたは実際のデータベースに記憶す
ることができる。さらに、本教示は、データを永続的に
記憶する必要はない。本教示は、インコア・メモリ内の
いずれかの場所に記憶された揮発性データにも適用可能
である。また、データが実際にレコードから成るテーブ
ル構造として物理的に編成されている必要もない。本発
明では、データは、論理的な観点から見て、複数の個別
レコード・フィールドを持つレコードから成るテーブル
に編成することができるだけでは不十分である。
【0015】一般に、データ・マイニング技法が適用さ
れるソース・データは、複数のレコードから成るテーブ
ルとして提供され、これらのレコードは(テーブルの列
を表す)複数のフィールドから成る。図1にそのような
テーブルの一例を示す。テーブルの個々のレコードは、
「顧客」、「TA」、「年齢」、「性別」、「州」、
「品目」という個別フィールドを含む。ほとんどのフィ
ールドの意味は、その名前から直接わかる。フィールド
「TA」には、特定の顧客が「品目」フィールドで識別
されている特定の製品を注文したときの固有トランザク
ション識別子が入る。
【0016】関連付け規則のマイニングまたは順次パタ
ーンのマイニングのためのアプリオリ方式のようなデー
タ・マイニング技法は、図1のテーブル構造のようなデ
ータの元のソース形式には適用することができない。た
とえば、アプリオリ手法は、図1の通常の複数列形式と
は異なる「トランザクション形式」と呼ばれる特別な形
式のデータに依存する。関連付けの場合、トランザクシ
ョン形式は2つの列、すなわち「トランザクション識別
子」と「項目識別子」のみから成る。順次パターンの場
合、トランザクション形式は3つの列、すなわち「トラ
ンザクション・グループ識別子」、「トランザクション
識別子」、および「項目識別子」から成る。図2および
図3に、図1のテーブルをトランザクション形式に変換
した結果を示す。図2は、関連付け規則のマイニングに
適合されたトランザクション形式を示し、図3は順次パ
ターンのマイニングに適合化されたトランザクション形
式を示す。従来技術によれば、トランザクション形式表
現のすべての項目値は単一の項目タイプのみに関係する
ことを理解することが重要である。この例では、項目タ
イプは顧客別に配列された製品である。
【0017】いずれの場合も、項目識別子をいわゆるカ
テゴリ変数として扱わなければならない。これは、項目
識別子の値がストリングとして扱われることを意味す
る。この種の入力データが与えられたと考えると、関連
付け規則のためのアプリオリ方式のアルゴリズムによっ
て以下のような規則が見つかる。トランザクションに項
oと項目pと項目qと、...とが含まれている場合、
そのトランザクションには項目m、項目n、...も含ま
れることになる。
【0018】同様に、順次パターンのためのアプリオリ
方式のアルゴリズムによって、以下のようなパターンが
見つかる。項目oと項目pと...とを含むトランザクシ
ョンの後には、項目p...を含むトランザクションが
続き、その後には...を含むトランザクションが続
き...というようになる。
【0019】従来の手法では、複数の項目フィールドを
使用して関連付け規則または順次パターンをマイニング
するために、効率的なアプリオリ方式アルゴリズムまた
はその他の同様の手法を使用することは不可能である。
したがって、アプリオリ方式の方法のような従来の技術
によると、この例に適用した場合、特定の製品1(「品
目」)、顧客の年齢(「年齢」)、性別(「性別」)、
居住する州(「州」)のいずれかまたは全部の配列を、
別の製品2(「品目」)の配列の確率に関連づけること
ができる規則を導き出すことはできない。
【0020】複数の項目を持つデータベース・レコード
を扱うことができる従来の技術で知られている唯一の解
決策は、すべての項目が同じ項目タイプに関係する事例
である。このような事例の一例を図3に示す。この解決
策によると、項目フィールドのタイプと意味がすべて同
じであるため、複数の項目フィールド302〜305が
あっても、データベース・テーブル301をトランザク
ション形式に変換することができる。この特殊な事例で
は、「ピボット」と呼ぶ方法を使用して複数フィールド
入力を、図4に310として示す従来のトランザクショ
ン形式に変換することができる。図4からわかるよう
に、複数列データベースのすべてのレコードが、トラン
ザクション形式を有する複数のトランザクション・レコ
ードに変換される。複数列テーブルの特定のレコード内
のすべての項目について、個別のトランザクション・レ
コードが生成され、複数列データベース・テーブルの同
じレコードから生成されたすべてのトランザクション・
レコードは同じトランザクション識別情報を反映する。
【0021】複数の項目タイプを扱う基本コード化方式 図1のテーブルの入力データが与えられたとすると、関
連付け規則および順次パターンのための周知のマイニン
グ技法を使用して、「「州」がMAの場合、「品目」は
20である」のような規則を見つけることができ、それ
ぞれ、「「州」がMAで「品目」が20の後には、
「州」がCAで「品目」が30が続く」のような順次パ
ターンを見つけることができることが望ましい。この種
の結果は、規則またはパターン(MA、CA、20、3
0)に現れるのが属性値だけではないという意味で、従
来の結果とは異なる。複数列データおよび異なるタイプ
の項目では、この結果の一部として列名(たとえば州と
品目)も有することが重要である。
【0022】複数列テーブルは、n個の列のセット{c
1、c2,...,cn}(n>2)である。各列ckは識
別子ikとタイプtkを有する。関連付け規則のための効
率的なアルゴリズムは、2列のテーブル{c1,c2}の
みを処理することができ、一方の列をいわゆるトランザ
クション識別子(またはトランザクション識別情報)と
して使用し、他方の列を項目識別子(またはトランザク
ション項目)として使用する。同様に、順次パターン・
アルゴリズムは、3列のテーブル{c1,c2,c3}を
使用し、1列をいわゆるトランザクション・グループ識
別子として使用し、残りの2列の意味は(トランザクシ
ョン識別子と項目識別子を含む)関連付け規則アルゴリ
ズムに対応する。
【0023】本発明の主要な目的は、複数列を項目とし
て使用することができるようにすることであり、したが
って、異なるタイプの項目間の規則を導き出す機能によ
って周知のマイニング方法を拡張することであるため、
項目値、すなわち項目識別子の値の抽象的観念も定義す
る必要がある。列ckとレコード番号mが与えられた場
合、この特定のレコード内の列ckの値をval(ck
m)で示す。たとえば、図1のテーブルの最初のレコー
ド内の列「州」の値はCAであり、val(Stat
e,1)=CAとなる。val関数はこのデータ中の元
の値を返す必要はない。場合によっては、値マッピング
を使用して連続値を区間にマッピングする(打ち切り)
こともできる。
【0024】本発明の基本概念は、「コード化トランザ
クション項目」という新規なトランザクション項目の概
念を教示することである。このコード化トランザクショ
ン項目は、トランザクション項目だけでなく項目タイプ
も同時にコード化する単一の値を表す。このような手法
を使用すると、コード化トランザクション項目の異なる
項目タイプのトランザクション項目が常に異なる値で表
されるように保証される。このコード化方式は、トラン
ザクション項目の値とは独立して、異なる項目タイプを
異なるコード化トランザクション項目にマッピングする
ため、この新規なトランザクション形式に従ってセット
・アップされたレコードを操作することによって、従来
のマイニング方法が異なる項目タイプの項目を処理する
ように透過的に使用可能になる。以下で示すように、項
目タイプとトランザクション項目の値とを単一のコード
化トランザクション項目としてコード化するために、異
なるマッピングを使用することができる。
【0025】より形式的には、本発明の機構は、レコー
ドmの項目列の列識別情報と値とを単一の値にコード化
するマッピング関数map(i,val(i,m))を
導入する。2つの追加の関数を導入して、このマッピン
グ関数の動作を以下のように定義する。 1.Column(encodedValue)は、マップ関数によって生
成されたコード化値の列を返す。 2.Value(encodedValue)は、マップ関数によってコ
ード化された項目の値を返す。
【0026】マッピング関数は、iとmのすべての対に
ついて以下の2つの条件が成立するように作成しなけれ
ばならない。 1.Column(map(i,val(i,m)))=i 2.Value(map(i,val(i,m)))=val(i,m) または、言い換えると、コード化トランザクション項目
は、トランザクション項目の対応する値と、対応する項
目タイプとに固有にデコード可能である。
【0027】データ・マイニング内での新規なコード化
手法の使用上記で概説したように、本発明の概念は、複
数列データを、元のテーブルに含まれているいかなる情
報も失うことなく、既存のアルゴリズムによって扱うこ
とができるデータ形式に変換することである。
【0028】図5に、コード化トランザクション項目の
本教示による各データベース・レコードをトランザクシ
ョン形式の1つまたは複数のトランザクション・レコー
ドに変換する前処理ステップがどのように機能するかを
図示する。概括的に説明すると、m個の列があり、その
うちのn個の列(c1、c2、...cnで示す)が項目
値の入力として選択されており、項目が同じ項目タイプ
または異なる項目タイプの任意の混合を表すことができ
る複数列テーブルがあるとすると、この方法は以下のよ
うに機能する(図5も参照)。列c1、c2、...cn
を含む入力データ内の各レコードについて、対応する列
識別情報および値を抽出する(401、402)。次に
コード化map(ik,val(ik,p))を計算する
(403)。出力(404)として、この機構は関連付
けの場合は2列テーブル、順次パターンの場合は3列テ
ーブルを生成する。これらのテーブルには、それぞれ
(トランザクション識別情報,コード化トランザクショ
ン項目)ペアと(トランザクション・グループ、トラン
ザクション識別子、コード化トランザクション項目)タ
プルが含まれる。
【0029】当然ながら、本発明の適用にとって、マッ
ピング機構の出力が何らかの種類のデータベースの物理
テーブルとして直接記憶されるか否かは問題ではない。
すなわち、データ・マイニング方法によって最終的に処
理された出力は、揮発性コンピュータ・メモリにのみ入
れることもできる。また、物理記憶なしでこの変換を行
う、入力データのための特別なカーソルとして実施する
こともできる。
【0030】可能なマッピング関数 当然ながら、上述の条件を満たす様々なマッピング関数
が可能である。
【0031】マッピング関数の一例として、列の名前
と、ストリング表現の項目タイプと、項目の「ストリン
グ化」値、すなわちトランザクション項目の値とを単に
連結する関数を導入することができる。さらに、任意選
択の区切り文字「@」を使用して、列および値関数が適
切に機能するように保証することもできる。図1のデー
タの最初のレコードを例にとり、「州」列にこのマッピ
ング関数を適用すると、「State@CA」が返され
る。図6に、項目列として「年齢」、「州」、および
「品目」を選択し、トランザクション識別子列としてT
A列を選択した場合の、この機構を適用した全結果を示
す。これは関連付け規則の探索のために入力として使用
される種類のデータであることは明らかである。
【0032】マッピング関数の他の例として、以下のよ
うなマッピングも可能である。様々な項目タイプの項目
の値を共通の範囲のうちの重なり合わない部分範囲にマ
ッピングし、異なる項目タイプに関係するコード化トラ
ンザクション項目が、コード化トランザクション値に関
して常に異なるという結果を得ることができる。
【0033】本発明は、従来技術によるデータ・マイニ
ング技法を拡張し、多数の項目タイプの項目を含むデー
タ資産に基づく関連付け規則または順次パターンあるい
はその両方を求めるマイニングもサポートするようにな
る。この技術分野における現在の活動は、新しい先進的
なマイニング・アルゴリズムを求めることに集中してい
るが、本発明はまったく異なる意外な方向を向いた特徴
によってこの目的を達成することができる。新しいマイ
ニング・アルゴリズムを提案するのではなく、本発明
は、マイニングするデータを新しいコード化方式に変換
する新規な前処理ステップを提案する。データがトラン
ザクション形式ではないため、新しいアルゴリズムを導
入する必要なしに、関連付け/順次パターンを求める効
率的なマイニングのための項目フィールドとして定義す
る複数のフィールドの使用をサポートする。したがっ
て、きわめて効率的で最適化されていることが最近数年
間で実証されているマイニング・アルゴリズムが従来通
り適用可能である。
【0034】本発明の手法は、本質的に完全に汎用的で
あり、したがって項目フィールドのタイプまたは意味に
対する制約がまったく加えられない。したがって、マイ
ニングのために、この前処理ステップの変換出力に基づ
く任意のデータに従来技術の関連付けおよび順次パター
ン・アルゴリズムを適用することができる。
【0035】本発明の教示事例の他の特徴は、コンピュ
ータ・メモリの効率的な使用である。データの追加のコ
ピーが不要であり、さらに、本発明の手法が追加のディ
スク空間を必要としないことは、マイニング対象のデー
タが通常は大量であることを考えると重要な点である。
【0036】さらに、コード化トランザクション項目の
コード化プロセス中に、項目値の明示的なマッピングが
可能である。元のデータ資産内に存在する項目の連続値
または数値あるいはその両方を、区間にその場で(オン
・ザ・フライで)マップすることができる。したがっ
て、いわゆる定量的関連付け規則の探索が直接サポート
される。
【0037】マイニング・アルゴリズムによって生成さ
れたマイニング出力は、(項目タイプがトランザクショ
ン項目にコード化されるため)入力データとして使用さ
れた元のデータ・スキーマの列名を反映する。これによ
り、規則/順次パターンの解釈が格段に容易になる。
【0038】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0039】(1)複数のレコードの関連付け規則また
は順次パターンあるいはその両方をデータ・マイニング
するコンピュータ化方法であって、レコードがトランザ
クション識別情報と、対応する項目タイプを備える少な
くとも1つのトランザクション項目とを含み、前記複数
のレコードが異なる項目タイプのトランザクション項目
を含み、前記方法が各レコードをトランザクション形式
の1つまたは複数のトランザクション・レコードに変換
する前処理ステップを含み、前記レコード内の各トラン
ザクション項目ごとにトランザクション・レコードが生
成され、前記トランザクション・レコードが、前記レコ
ードのトランザクション識別情報と、前記トランザクシ
ョン項目とそれに対応する項目タイプとを1つの値にコ
ード化するコード化トランザクション項目とを含み、前
記方法が、関連付け規則または順次パターンあるいはそ
の両方をデータ・マイニングするために前記トランザク
ション・レコードに従来のデータ・マイニング技法を適
用するマイニング・ステップを含む方法。 (2)前記データ・マイニング技法がアプリオリ技法で
ある、上記(1)に記載の方法。 (3)前記コード化トランザクション項目が前記トラン
ザクション項目と前記項目タイプとにデコード可能であ
る、上記(1)に記載の方法。 (4)前記コード化トランザクション項目が前記項目タ
イプと前記トランザクション項目との並置によって生成
される、上記(2)に記載の方法。 (5)上記(1)ないし(4)のいずれか一項に記載の
前記方法の前記ステップを実行するように適合された手
段を含むシステム。 (6)上記(1)ないし(4)のいずれか一項に記載の
方法を実行するソフトウェア・コード部分を含む、デー
タ処理システムにおける実行のためのデータ処理プログ
ラムを記録したコンピュータ可読記録媒体。 (7)上記(1)ないし(4)のいずれか一項に記載の
方法をコンピュータに実行させるコンピュータ可読プロ
グラム手段を含む、コンピュータ使用可能媒体。
【図面の簡単な説明】
【図1】複数のレコードを含み、これらのレコードが
(テーブルの列を表す)複数のフィールドを有する、デ
ータ・マイニング技法が適用される典型的なデータベー
ス・テーブルの一例を示す図である。
【図2】図1のテーブルからトランザクション形式への
変換結果を示し、関連付け規則をマイニングするように
適合されたトランザクション形式を示す図である。
【図3】図1のテーブルからトランザクション形式への
変換結果を示し、順次パターンをマイニングするように
適合されたトランザクション形式を示す図である。
【図4】すべての項目が同じ項目タイプに関係する場合
に限定されている、複数の項目を持つデータベース・レ
コードを扱うことができる従来技術で周知の唯一の解決
策を示す図である。
【図5】コード化トランザクション項目に関する本発明
の教示に従って各データベース・レコードをトランザク
ション形式の1つまたは複数のトランザクション・レコ
ードに変換する前処理ステップがどのように機能するか
を示す図である。
【図6】図1の例に基づくコード化トランザクション項
目を使用した本発明の教示の完全な前処理結果を示す図
である。
【符号の説明】
301 データベース・テーブル 302 項目フィールド 310 従来のトランザクション形式
フロントページの続き (56)参考文献 飯塚哲也 他,相関ルールを用いた視 覚化属性選択方式,電子情報通信学会技 術研究報告,日本,社団法人電子情報通 信学会,1998年10月14日,第98巻第316 号,第9頁乃至第17頁 相坂一樹 他,知識獲得を用いたデー タベース圧縮のためのルール選択方法に ついて,情報処理学会研究報告,日本, 社団法人情報処理学会,1999年 1月23 日,Vol.99 No.6,第65頁乃至 第70頁 落田美紀 他,製造業におけるデータ マイニングの応用と課題,人工知能学会 誌,日本,社団法人人工知能学会,1997 年 7月 1日,第12巻 第4号,第 544頁乃至第549頁 猪口明博 他,バスケット分析のグラ フ構造データへの拡張と通信ネットワー クデータへの適用,第33回人工知能基礎 論研究資料,日本,社団法人人工知能学 会,1998年 5月28日,SIG−FAI −9801,第55頁乃至第60頁 岡田孝 他,カスケードモデルによる 共通データベースの解析,第42回人工知 能学会研究会資料,日本,社団法人人工 知能学会,1999年 1月27日,SIG− KBS−9802,第75頁乃至第82頁 喜連川優,データマイニングにおける 相関ルール抽出技法,人工知能学会誌, 日本,社団法人人工知能学会,1997年 7月 1日,第12巻第4号,第513頁乃 至第520頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/60 G06F 12/00 G06F 19/00 JICSTファイル(JOIS)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】トランザクション形式のデータのみを扱う
    データ・マイニング技法を使って、複数のレコードの関
    連付け規則または順次パターンあるいはその両方をデー
    タ・マイニングするコンピュータ化方法であって、 レコードがトランザクション識別情報と、対応する項目
    タイプを備える少なくとも1つのトランザクション項目
    とを含み、 前記複数のレコードが異なる項目タイプのトランザクシ
    ョン項目を含み、 前記方法が各レコードをトランザクション形式の1つま
    たは複数のトランザクション・レコードに変換する前処
    理ステップを含み、 前記レコード内の各トランザクション項目ごとにトラン
    ザクション・レコードが生成され、 前記トランザクション・レコードが、前記レコードのト
    ランザクション識別情報と、前記トランザクション項目
    とそれに対応する項目タイプとを1つの値にコード化
    コード化トランザクション項目とを含み、該コード化
    トランザクション項目は、異なる項目タイプのトランザ
    クション項目の値を共通の範囲のうちの重なり合わない
    部分範囲にマッピングすることによってコード化されて
    おり、 前記方法が、関連付け規則または順次パターンあるいは
    その両方をデータ・マイニングするために前記トランザ
    クション・レコードに前記データ・マイニング技法を適
    用するマイニング・ステップを含む方法。
  2. 【請求項2】前記コード化トランザクション項目が前記
    トランザクション項目と前記項目タイプとにデコード可
    能である、請求項1に記載の方法。
  3. 【請求項3】前記コード化トランザクション項目が前記
    項目タイプと前記トランザクション項目との並置によっ
    て生成される、請求項に記載の方法。
  4. 【請求項4】前記コード化トランザクション項目のコー
    ド化プロセス中に、前記トランザクション項目の連続値
    及び又は数値を区間にマップする、請求項1に記載の方
    法。
  5. 【請求項5】請求項1ないし4のいずれか一項に記載の
    前記方法の前記ステップを実行するように適合された手
    段を含むシステム。
  6. 【請求項6】請求項1ないし4のいずれか一項に記載の
    方法を実行するソフトウェア・コード部分を含む、デー
    タ処理システムにおける実行のためのデータ処理プログ
    ラムを記録したコンピュータ可読記録媒体。
  7. 【請求項7】請求項1ないし4のいずれか一項に記載の
    方法をコンピュータに実行させるコンピュータ可読プロ
    グラム手段を含む、コンピュータ使用可能媒体。
JP2000121019A 1999-04-27 2000-04-21 データ・マイニングする方法およびシステム Expired - Fee Related JP3452531B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99108219.9 1999-04-27
EP99108219 1999-04-27

Publications (2)

Publication Number Publication Date
JP2000353177A JP2000353177A (ja) 2000-12-19
JP3452531B2 true JP3452531B2 (ja) 2003-09-29

Family

ID=8238053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000121019A Expired - Fee Related JP3452531B2 (ja) 1999-04-27 2000-04-21 データ・マイニングする方法およびシステム

Country Status (3)

Country Link
US (1) US6553359B1 (ja)
JP (1) JP3452531B2 (ja)
SG (1) SG91861A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200804B1 (en) * 1998-12-08 2007-04-03 Yodlee.Com, Inc. Method and apparatus for providing automation to an internet navigation application
US7085997B1 (en) 1998-12-08 2006-08-01 Yodlee.Com Network-based bookmark management and web-summary system
US7672879B1 (en) 1998-12-08 2010-03-02 Yodlee.Com, Inc. Interactive activity interface for managing personal data and performing transactions over a data packet network
US8069407B1 (en) 1998-12-08 2011-11-29 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
US7752535B2 (en) * 1999-06-01 2010-07-06 Yodlec.com, Inc. Categorization of summarized information
US6952693B2 (en) * 2001-02-23 2005-10-04 Ran Wolff Distributed mining of association rules
US6907426B2 (en) * 2001-05-17 2005-06-14 International Business Machines Corporation Systems and methods for identifying and counting instances of temporal patterns
US6990486B2 (en) * 2001-08-15 2006-01-24 International Business Machines Corporation Systems and methods for discovering fully dependent patterns
US7403985B2 (en) * 2001-11-01 2008-07-22 Hewlett-Packard Development Company, L.P. Method and system for analyzing electronic service execution
US6714893B2 (en) 2002-02-15 2004-03-30 International Business Machines Corporation Enhanced concern indicator failure prediction system
US7065532B2 (en) * 2002-10-31 2006-06-20 International Business Machines Corporation System and method for evaluating information aggregates by visualizing associated categories
US8326658B1 (en) * 2004-04-12 2012-12-04 Amazon Technologies, Inc. Generation and contextual presentation of statistical data reflective of user selections from an electronic catalog
US7483880B2 (en) * 2004-09-30 2009-01-27 Microsoft Corporation User interface for database display
US7606752B2 (en) 2006-09-07 2009-10-20 Yodlee Inc. Host exchange in bill paying services
US8359329B2 (en) * 2007-02-13 2013-01-22 Future Route Limited Method, computer apparatus and computer program for identifying unusual combinations of values in data
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US8261334B2 (en) 2008-04-25 2012-09-04 Yodlee Inc. System for performing web authentication of a user by proxy
US8555359B2 (en) 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US10296844B2 (en) 2014-09-24 2019-05-21 Nec Corporation Automatic discovery of message ordering invariants in heterogeneous logs
CN105302879B (zh) * 2015-10-12 2019-03-08 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN114780612B (zh) * 2022-04-19 2024-08-09 江苏警官学院 一种基于主题事件的时间关联挖掘目标人员的系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615341A (en) * 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
US5842200A (en) * 1995-03-31 1998-11-24 International Business Machines Corporation System and method for parallel mining of association rules in databases
US5734885A (en) * 1995-08-24 1998-03-31 International Business Machines Corporation System and method for tightly coupling application programs with relational databases
US5742811A (en) * 1995-10-10 1998-04-21 International Business Machines Corporation Method and system for mining generalized sequential patterns in a large database
US5832482A (en) * 1997-02-20 1998-11-03 International Business Machines Corporation Method for mining causality rules with applications to electronic commerce
US5933818A (en) * 1997-06-02 1999-08-03 Electronic Data Systems Corporation Autonomous knowledge discovery system and method

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
喜連川優,データマイニングにおける相関ルール抽出技法,人工知能学会誌,日本,社団法人人工知能学会,1997年 7月 1日,第12巻第4号,第513頁乃至第520頁
岡田孝 他,カスケードモデルによる共通データベースの解析,第42回人工知能学会研究会資料,日本,社団法人人工知能学会,1999年 1月27日,SIG−KBS−9802,第75頁乃至第82頁
猪口明博 他,バスケット分析のグラフ構造データへの拡張と通信ネットワークデータへの適用,第33回人工知能基礎論研究資料,日本,社団法人人工知能学会,1998年 5月28日,SIG−FAI−9801,第55頁乃至第60頁
相坂一樹 他,知識獲得を用いたデータベース圧縮のためのルール選択方法について,情報処理学会研究報告,日本,社団法人情報処理学会,1999年 1月23日,Vol.99 No.6,第65頁乃至第70頁
落田美紀 他,製造業におけるデータマイニングの応用と課題,人工知能学会誌,日本,社団法人人工知能学会,1997年 7月 1日,第12巻 第4号,第544頁乃至第549頁
飯塚哲也 他,相関ルールを用いた視覚化属性選択方式,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1998年10月14日,第98巻第316号,第9頁乃至第17頁

Also Published As

Publication number Publication date
JP2000353177A (ja) 2000-12-19
US6553359B1 (en) 2003-04-22
SG91861A1 (en) 2002-10-15

Similar Documents

Publication Publication Date Title
JP3452531B2 (ja) データ・マイニングする方法およびシステム
CN1856783B (zh) 使用参考与一般数据项关联的数据管理结构
EP2450809B1 (en) Method for extracting information from a database
AU750629B2 (en) Online database mining
US7849114B2 (en) Method, system, and program product for generating a virtual database
US6564212B2 (en) Method of processing queries in a database system, and database system and software product for implementing such method
US6633883B2 (en) Methods of organizing data and processing queries in a database system, and database system and software product for implementing such methods
US6711563B1 (en) Methods of organizing data and processing queries in a database system, and database system and software product for implementing such methods
US6035303A (en) Object management system for digital libraries
CN100557605C (zh) 类型路径索引
US20040133581A1 (en) Database management system, data structure generating method for database management system, and storage medium therefor
JPH10505440A (ja) プログラミング言語−具体的データファイルのsqlベースの操作を可能にするコンピュータベースの情報アクセス方法および装置
KR20010083096A (ko) 가치-사례-연결을 통한 컴퓨터에 의해 구현되는데이터베이스
US6343286B1 (en) Efficient technique to defer large object access with intermediate results
EP0912948A1 (en) Database apparatus
US7113951B2 (en) Method and system for detecting tables to be modified
US20040078355A1 (en) Information management system
JP2003141158A (ja) 順序を考慮したパターンを用いた検索装置および方法
Lee et al. A data mining approach to database compression
US6907415B2 (en) Finding rules and exceptions from databases
JP4850581B2 (ja) データ処理システム
JP4850580B2 (ja) データ処理システム
JPH1011338A (ja) リレーショナル・データベース・システム,該システムへのデータ格納・読み出し方法,およびそのためのプログラムを記録した記録媒体
JPH01286020A (ja) プログラム検索方式
JPH11306183A (ja) データベース検索システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090718

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100718

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees