JPH1185769A - 対象の集団から選択可能な特性を有する対象群を発見する方法 - Google Patents

対象の集団から選択可能な特性を有する対象群を発見する方法

Info

Publication number
JPH1185769A
JPH1185769A JP10181266A JP18126698A JPH1185769A JP H1185769 A JPH1185769 A JP H1185769A JP 10181266 A JP10181266 A JP 10181266A JP 18126698 A JP18126698 A JP 18126698A JP H1185769 A JPH1185769 A JP H1185769A
Authority
JP
Japan
Prior art keywords
group
groups
quality
objects
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10181266A
Other languages
English (en)
Inventor
Stefan Dr Wrobel
ブローベル ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gmd Forschungszentrum Inf Tech
GMD FORSCHUNGSZENTRUM INF TECHNIK GmbH
Original Assignee
Gmd Forschungszentrum Inf Tech
GMD FORSCHUNGSZENTRUM INF TECHNIK GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gmd Forschungszentrum Inf Tech, GMD FORSCHUNGSZENTRUM INF TECHNIK GmbH filed Critical Gmd Forschungszentrum Inf Tech
Publication of JPH1185769A publication Critical patent/JPH1185769A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】選択可能な特性を有するデータパターンをデー
タベースで検索する。 【解決手段】属性によって記述できる集団の対象を対応
する所定の属性によってその対応する属性を有する対照
群に階層的に細分化を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の属性によっ
て特定することが可能な対象の集団から少なくとも1つ
の選択可能な特性を有する選択可能な数の対象群を検出
する方法に関する。
【0002】
【従来の技術】前記対象群の各々は、選択可能な関数に
よって、その対象群の対象の数から、及びその対象群内
の特性の分布の特異性から生じる質を有しており、その
質は、夫々の対象群の特性の分布と基準集団の特性の分
布との間の関係によって検出される。
【0003】調査の世界でデータマイニング(Data Min
ing )又はデータベースにおける知識発見(KDD:Kn
owledge Discovery in Databases)と呼ばれるものが、
最近広く注目を集めるようになってきた。一般的な定義
において、KDDは「大規模なデータの集合からの新規
な、有用な、及び有効な知識の自動的抽出」 [FPSS96]
と考えられる。この定義が示す如く、KDDは様々な種
類のデータの中に様々な種類の「知識」を見つけること
が可能な技術の全体的集まりを提供する。データマイニ
ング作業は、どのような種類の知識をどのような形で見
つけるか、また保存ファイル又はデータベースシステム
で解析のためのデータをどのような方法で利用できるか
が厳密に特定される場合にのみ厳密に定義することが可
能である。
【0004】
【発明が解決しようとする課題】
1. 序論 選択可能な特性を有するデータパターンをデータベース
で探索すること、即ち対象の集団の中から選択可能な特
性を有する対象を検出することは、特に集団が非常に多
数の対象で構成される場合には、もはや取るに足りない
作業ではない。データが比較的少量であり、従って集団
が比較的小規模である場合には、特定の対象を検出する
作業は、集団の各対象を個々に検査することによって達
成されよう。比較的大量のデータの場合には、そうした
方法はもはや経済的ではない。この点に関して妥当な方
法は、属性によって記述できる集団の対象を、対応する
所定の属性によって、その対応する属性を有する対象を
含む対象群に分割するところに存在する。この方法によ
り、集団は階層的に対象群に細分され、次にそれらが更
に対象群に細分される。
【0005】データベースで探索を実行し、対象群内に
多く特異的に発生する所定の特徴を有する対象を含む対
象群を検出することは、繰り返し課せられる作業であ
る。この「特異的」な統計的特性は、基準集団における
この特性の統計的発生とその頻度との関連において考え
られる。そうした基準集団は、対象の(全)集団か、そ
れとも全集団の対象の部分集合、特に対象群かの何れか
とすることができる。通常は、しかしながら検出すべき
対象群の「特異性」とは別に、対象群の大きさも重要で
ある。現実に、特に多数の適用分野では、最大可能な大
きさ及び最高可能な特異性をもつ対象群を検出すること
が望ましい。そのため、特異性は関数的関連性を通して
対象群の対象の数に連結され、群の「質」を定義付け
る。従って、特定の最小の質を有するデータ群を求める
ために、大量のデータを検査することが望ましい。適切
な事例として、新製品を導入しようと考えている会社が
郵送広告キャンペーンを計画し、必要とされる労力を軽
減するために、その製品の潜在的購買者として考えられ
る人のグループだけを郵便の宛先にしようとする状況が
挙げられる。例えば意見調査を実行する場合、集団の
「平均」に対応し、従って調査の評価に関連する集団の
平均部分に対応する人だけを調査する必要がある。
【0006】本発明の目的は、対象の集団から選択可能
な特性を有する対象群を発見する方法を提供することで
あり、該当する対象群の発見は、使用するデータベース
が非常に大規模である場合にも比較的素早く実行でき
る。
【0007】本発明に従って、この目的は請求項1に記
載する方法によって解決される。本発明の好適な実施例
は各々の従属請求項に示されている。
【0008】
【課題を解決するための手段】本発明の方法は、対象の
集団から選択可能な数の対象群を検出するのに有用であ
り、前記選択可能な数の対象群は、集団の全ての対象群
に比較して選択可能な特性に関して最良の質を有する。
従って、最良の質を有する対象群が得られるだけでな
く、更に最高ランクの質を有する選択可能な数の対象群
が得られる。本発明の方法では、検出すべき対象群にお
いて最も顕著な質を備えていることが望ましい特性が最
初に選択される。そうした特性は一又は複数の属性を含
み、集団の対象はそれらの属性によって特定することが
できる。集団は、以後残りの属性に基づいて段階的に、
第1群,第2群,及びそれ以降の群に階層的に細分化さ
れる。従って、この第1段階の階層的細分化の結果、少
なくとも1つの属性によって相互に異なる複数の対象群
が得られる。ここで、第1次のこれらの対象群全部がそ
れらの質に関して検査される。この過程で、対象群はリ
ストに又は他の方法でそれらの質の順番にファイルされ
る。リストのエントリは、検出されるべき全ての対象群
の数に対応する。質のランク付け、例えば対象群の質の
程度以外に、1群当たりの特定の最小数の対象も要求さ
れる場合には、対象群がどの程度の大きさであるかがリ
ストへの包含の主要基準になる。従って、最小限の大き
さを超えない対象群は、たとえその質が既に包含されて
いる対象群の質、又は既に包含されている全ての対象群
の質より高くてもリストには包含されない。
【0009】本発明では、1次(一般的にn次)の対象
群を2次(一般的にn+1次)の対象群へ細分化する前
に、更なる細分化によって夫々の対象群から得られる対
象群の最適可能な質の程度が検出される。もし、例え
ば、細分化される対象群がh個の対からなり、そのうち
のi個が選択された特性をもち、j個は選択された特性
をもたず、従って、 h=i+j である場合、最も好ましい事例における状況、即ち、こ
の対象群を次に低位の対象群に細分化することにより、
細分化される対象群においてこの特性をもつ全ての対
象、又はこの特性をもたない全ての対象からなる対象群
が得られる状況で、この対象群の質が検出される。従っ
て、更なる細分化によって、前記h個の対象からなる対
象群から、前記h個の対象を有する対象群の中のまさし
く前記j個の対象又はまさしく前記i個の対象からなる
対象群が得られる。次に、これらの対象群の各々の数、
及び選択可能な特性の分布の特異性から、第1及び/又
は第2仮説的質が検出される。第1及び/又は第2仮説
的質が、既に検出されリストに入れられた対象群の最低
の質より低くなるように既に選択されている場合には、
第1及びその第2仮説的質が選択された対象群は、対象
群のそれ以降の細分化では無視される。残りの対象群に
対してはその後、更なる階層的細分化が行われ、第1細
分化段階について上述した選択肢が繰り返される。この
過程は、選択可能な終了基準(時間の経過、対象群にお
ける最低位への到達)まで繰り返される。
【0010】このように、本発明の方法は、対象群から
関心のある対象を検出するために要する時間を、集団の
対象の全部及び従って集団の全対象群を検査しないこと
によって短縮できるということを特に利用している。こ
の点に関して、検査する必要のない特定の対象群を決定
する方法が決定的に重要となる。本発明では、既に検査
された対象群の更なる細分化によって生成される対象群
にとって最も有利な状況下で、予想される質を検出する
ための推定過程が実行される。本発明によって提供され
るこの「枝刈り(pruning )」の過程、即ち集団の階層
的細分化の木の枝を「刈り込む」作業は、「楽観的予想
枝刈り(optimistic estimate pruning)」とも呼ばれ
る。既に説明した通り、検出すべき対象群を選択する場
合、それらの大きさも決定的に重要である。集団又は対
象群の更なる細分化において、事前に選択された大きさ
は同様に、対象群が更なる検出過程においても未だ考慮
されるか否かの判断基準として使用される。この尺度に
よっても、本発明の方法が短縮することができることは
注目に値する。この方法は、「最小支援枝刈り(minima
l support pruning )」とも呼ばれる。
【0011】集団の対象群の検査に要する時間は、細分
化の段階における階層的細分化の結果、同一の属性の組
合せによって定義される対象群が得られる場合、これら
の対象群のうち1つだけが検査され、該当する場合には
更に細分化されるということで有利に最小化することが
できる。これは、段階的な階層的細分化が複数の異なる
属性によって行われる場合、即ち各段階による階層的木
が3つ以上の枝に分割され、現在の細分化段階で対象群
を細分化するために使用される属性が、それ以前の細分
化段階における細分化で以前に既に使用された属性と同
じである場合に特に重要となる。
【0012】対象群を個々の細分化段階で処理する順番
を決定するための基準は、細分化段階毎に異なっていて
もよく、また同じであっても良い。従って、例えばこれ
らの対象群を無作為に又は決定論的に選択し、この選択
に従ってこれらを処理することが可能である。関心のあ
る群の検出のための最大可能な時間が設定されている場
合、各細分化段階で処理される対象群をそれらの質の順
序に対応して処理することが適切である。
【0013】選択された時間の経過以外に可能な終了基
準として、選択可能な最小数の対象群のみが生成された
ときに、細分化過程を終了することができる。特に、こ
の最小数は対象群を関心のある対象群のリストに包含し
始めることができる最小数(予め設定されている場合)
に等しい。
【0014】細分化段階で更に検査すべき群が処理され
る順序の基準として、第1及び/又は第2仮設的質の大
きさを利用することもできる。
【0015】
【発明の実施の形態及び発明の効果】本発明について、
好適な実施例及び図面に示す例に関連して更に説明す
る。発見すべき知識に関して、規則,判断木,クラスタ
階層,連想規則,又は統計的に特異的な部分群は少数の
例に過ぎない(これらの多くについては、本明細書の他
の章で更に説明する)。ここでは、我々の注意を解析に
利用できるデータの形に、更に厳密には解析に単一のテ
ーブルを使用するか、又は複数のテーブルを使用するか
の問題に集中させる。本章の残りの部分で示す如く、解
析に単一のテーブルだけを使用することは、大部分の現
在のデータマイニングシステムでは標準であるが、制限
が強すぎ、複数のテーブルを使用する関係技術が長年標
準とされているデータベースシステムの最新技術には対
応しない。
【0016】次に、解析に複数のテーブルをどのように
使用するかの問題を、これまで長年関係解析技術に関わ
ってきて、現在実用的応用が十分可能な成熟の状態に達
した帰納論理プログラミング(ILP:Inductive Logi
c Programming )の分野の結果を導入して取り扱う。最
終的には、MIDOSと呼ばれる部分群発見のための新
しい関係的手法について述べる。
【0017】1.1 単一テーブルの前提 商業的世界において、KDD及びデータマイニングは、
これまでは常に利用可能なデータの形について、我々が
「単一テーブルの前提」と呼ぶ非常に重要な簡素化の前
提を使用してきた。即ち、全てのデータが単一のテーブ
ル(又はデータベース用語では「関係(リレーショ
ン)」)に保存され、このテーブルに関心のある各対象
につき1行(又は「タプル」)が含まれることが前提と
される。これはまた、「命題」又は「矩形テーブル」表
現とも呼ばれる。一般的な商業的応用分野(例えばデー
タベースマーケティング)では、各行に顧客の1人を表
わし、テーブルの列に顧客の様々な「属性」を表わす顧
客テーブルを使用する(図1)。
【0018】第1フィールドは顧客のID番号を示し、
それに続くフィールドは彼の又は彼女の氏名及び住所を
表わす。各々の新規顧客に小さいアンケートに記入する
ように要求することを前提とし(顧客が実際にこれを行
なうとすれば)た場合、4つのフィールドに保存される
この種の情報も得られる。最後に、この顧客が購買クラ
ブの会員であるか否か、また顧客が最近のダイレクトメ
ールキャンペーンに応じたか否かを特定する属性があ
る。
【0019】我々が探しているのは顧客に関する一般的
な情報であって、1人の人間だけに適用される特定的な
情報ではないので、解析の目的によっては、氏名及び正
確な住所の如きフィールドは興味が薄い。従って解析の
場合、図2に示す如きより小さいテーブルを使用する
(フィールド名及びフィールド値には、空間的節約から
多くの省略を導入してある)。
【0020】このようなデータから、従来のデータマイ
ニングソフトウェアは様々な種類の知識を生成すること
ができる。即ち、判断木アルゴリズムは特定の顧客が将
来の郵送広告に応答するか否かを予測するモデルを導出
し、クラスタアルゴリズムは顧客ベースをマーケティン
グキャンペーン等で一まとめに取り扱うことができる均
質な群に区分化する。
【0021】1.2 単一テーブルを前提とする場合の問
題 さらに、顧客に関して好きな数だけ属性を追加できるの
で、一見したところ顧客に関して知っていることを全て
表わすために必要なものは、単一のテーブルだけで良い
ように思われ、従って従来のソフトウェアで行われる単
一テーブルの前提は如何なる問題も無いようである。図
1のテーブルに記録される一般的顧客情報の種類の場
合、これは確かに正しい。人の子供の数についての情報
を追加したければ、別の属性を追加するだけである。
【0022】しかし、顧客に関する他の種類の貴重な情
報については、単一テーブルの前提には著しい制限があ
ることが明らかになっている。顧客が発注した注文に関
する情報を追加したい場合で、納品及び支払い方式、又
はどのような種類の店舗(規模,所有者,立地)に注文
が発注されたかを含めたい場合を想定する。単純化のた
めに、注文された商品についての情報は含めないことに
する。
【0023】図3の如くテーブルを追加列によって増大
し、1つの列を使用して納品方式を示し、第2列で支払
い方式を示し、第3列で店舗の規模を、第4列で店舗の
種類を、第5列で店舗の立地を示すことが考えられる。
これは1回きりの顧客に対しては有効であるが、良好な
事業の場合のように、我々の事業に数回注文した反復顧
客がいる場合はどうであろうか。我々の全てのデータマ
イニング方法が扱えるのは単一テーブルであった場合、
我々には同等に不満足な2つの選択肢が残される。
【0024】第1に、注文の度に1つのエントリを顧客
テーブルに入力する。従って、もしスミス氏(顧客347
8)が3回注文した場合、彼はテーブル中の3行で表わ
され、各行で彼の顧客情報フィールドが繰り返される
(図4)。
【0025】さらに、店舗情報も各顧客及び注文毎に繰
り返される。従って、全ての情報がテーブルに含まれる
が、それらが不必要に保存されるわけである。これは空
間の無駄であるばかりでなく多数の問題を生じさせる。
もし、スミス氏を表わすデータに誤りがある場合、1か
所だけでなく、全ての行でそれを訂正しなければならな
い。解析でもっと重要なことは、単一テーブル解析法が
通常各行が関心のある1つの対象、即ち我々の例では1
人の顧客を表わしていると想定されていることである。
ここで、1顧客毎にでなく、1注文毎に1行を使用する
ので、解析結果は実際顧客についてではなく、注文につ
いてであり、これは我々が得たいと思っているものでは
ない。
【0026】第2の選択肢は、情報の詳細を犠牲にして
冗長性を回避するものである。独創性を殆どもたない解
析者は、恐らく注文の数及び注文が行なわれた店舗の数
だけが重要であると結論づけるかもしれない。その場
合、我々は図5に示す如く2つの新しい属性を形成する
ことができる。
【0027】この場合、冗長性及び複数の行の問題は回
避され、従って結果的に得られるテーブルで解析法を適
正に操作することができる。しかし、この新しいテーブ
ルで得られる情報はずっと少なくなる。解析者の意見が
間違っていたら、また支払い方式、納入方式、及び店舗
の種類の正確な組合せの知識が重要な場合はどうするの
か。この解析法はこの情報を使用できないので、再び全
ての情報を使用した場合に得られるような良い結果は得
られない。
【0028】1.3 解決法:関係表現 データベースシステムの世界では、単一テーブルの表現
に固有の問題が長年認識され、情報を相互連結された様
々なテーブルの集合として表わすことができる、所謂
「関係(リレーショナル)」データベースによって処理
されてきた。今日、一般に普及しているデスクトップデ
ータベースさえも関係能力を備えており、単一テーブル
に限定されるのは非常に簡単なアドレスマネージャだけ
である。データベース用語では、上述した最初の解決法
の単一テーブルは、「非標準形」データベースと呼ば
れ、悪いデータベース実践法と見做されている。これに
代えて、データベース設計者は、我々の標本問題の情報
を図6に示す如き1組のテーブルとして表わす。
【0029】ここで、我々は各顧客に関する一般情報を
表わす1つの主テーブル「顧客」をもち、各顧客につき
正確に1行がある。注文は第2テーブル「注文」に記述
され、各注文につき1行が含まれる。関係技術の中心的
な要素は、別のテーブルを指示する識別子の使用であ
る。「注文」の関係では、1つのフィールドに顧客ID
が含まれるので、どの顧客が注文を出したかを知りたい
場合には、「顧客」関係に進み、この顧客ID値を有す
る行を見つけて必要な情報を得るだけである。別の関係
におけるキーフィールドを指示する1つの関係における
フィールドは、多く「外来キー」と呼ばれ、このフィー
ルドの値が他のフィールドにおけるキー値として必要で
あることを示す。図6の矢印は、我々の例における外来
キー関係を表わす。同じ原理は店舗情報を表わすために
も使用される。「注文」テーブルは「店舗」を指示する
店舗IDを使用し、次にこれが各店舗を記述する。
【0030】1.4 関係表現の例 1.4.1 自動車メーカのデータベース このように関係表現により、我々の簡単な例で必要な情
報を極めて自然に表わすことができる。実際、これは殆
どどんな種類のデータ表現問題に対しても十分であるこ
とが分かってきたために非常に広く普及しており、大抵
の商業的データベースは、我々の小さい顧客データベー
スの一般的構造を有する。より技術的な分野からのより
複雑な例として、製造される各自動車、その自動車が組
み立てられる製造工場、自動車を組み立てる部品、自動
車を販売するディーラ、それを購入する顧客等々に関す
る情報を表現することを希望する自動車メーカについて
考察する。これは全て、恐らく図7に示す如くリレーシ
ョナルデータベースに簡単に表現することができる。
【0031】1.4.2 非矩形アンケートデータ データマイニングの別の一般的適用分野は、アンケート
データの解析である。原則として、アンケートは単一テ
ーブルとして表わすことができるが、実際のアンケート
における1つの質問に対する回答が含まれる各列は、幾
分より複雑である。第1に、回答者は質問に回答しない
ことを選択し、空値を形成するかもしれない。そのよう
な空値(又は「Null」)は、大抵の解析アルゴリズムで
は適切に処理できない。つまり、これらは「Null」を通
常の値(単なる別の可能な回答)として処理するが、こ
れは多くの状況では適切ではない。これは、異なる質問
ブロックがある場合にいっそう明白になる(「質問10で
独身と答えた場合には、直接質問23に進んでください。
そうでない場合には、質問11乃至22に回答してくださ
い」)。単にこれらの属性を空白に残しておくことがで
きるが、再び、これらを解析結果に使用することは、独
身者にとって意味を成さないことになる。また、最後に
各質問に複数の回答ができる場合(「あなたの趣味は何
ですか」)、単一テーブルでは、可能な趣味の各々につ
いて2進属性値を形成する必要がある(つまり、可能な
趣味のリストを形成しなければならない)。関係表現で
は、これらは何れも問題を生じない。各回答者につき1
つのエントリをもつ主関係を使用する場合、各質問につ
き別の関係をもち、回答者毎に0(質問が無回答のと
き)、一又は多くのタプルを含むことができる(図8参
照)。
【0032】1.4.3 化学への適用 最後に、化学への適用について、化学分子及びその構成
原子を表わしたい場合を想定する。図9に示す如く、こ
の情報は、原子が分子の一部であることを示す「部分
(part-of )」関係、及び2つの原子の間に結合がある
ことを示す「結合(bond)」関係を使用し、関係形式で
同様に表現することができる。
【0033】結合情報を必要としない場合でも、「原子
1」乃至「原子23」の如き膨大な数の列を単一のテーブ
ルに単純に設けることはできない(ここで23は、最大分
子における原子数である)。第1に、これは多数の列が
使用されないことを意味し、問題のある「Null」値が必
要になることを意味する(分子に含まれる原子が23未満
の場合)。さらに都合の悪いことに、「原子1」の列に
原子の1つを入れると、現実から取られる番号ではな
く、任意に割り当てられる番号が原子に割り当てられ
る。残念ながら、単一テーブル手法は、モデルを生成し
ようとするときに、同列からの値だけが相互に比較され
るという場合に作用する。任意に割り当てられた2つの
異なる分子の「原子1」の元素は、これらの2つの分子
の対応する場所における機能的に一致する原子ではない
可能性が最も高いので、この解析法で正しいモデルが発
見される可能性は無い。さらに、我々のモデルは、特定
の原子に関する情報だけでなく、それらに結合された隣
接原子及び隣接原子に隣接する原子等に関する情報も必
要である。これらの化学的問題の構造は、例えば故障部
品が予め決定されていない数の隣接部品を有する電力網
や電気回路について記述しようとする場合や、予測が様
々な時間的距離における前駆体の状態に依存するプロセ
スを解析する場合など、技術的適用分野でも同様に発生
する。これらの問題は何れも単一テーブルの表現では全
く表現することができない。
【0034】2. ILP:関係解析技術 このように、殆ど全ての分野で関係手法によって提供さ
れる力を使用し、得られる情報を複数の関係に保存する
ことが非常に有利であり、多くの場合に必要であること
を以上に示した。もし、この情報を解析したい場合、単
一テーブルの前提に基づく現在のデータマイニングツー
ルは、作業を実行するのに適正に整備されていない。我
々は、多くの思考と努力とを費やして要求される情報を
必要なだけ単一テーブルに押し込み、恐らく冗長性及び
その他の問題を生じるか、又はこれらの方法で利用可能
な情報の大部分が単に無視されることを受け入れるかの
何れかである。リレーショナルデータベースシステムで
利用可能であるように、複数の関係を直接処理できる解
析法及びデータマイニングシステムがあったらすばらし
いことではないだろうか。
【0035】幸運なことに、「帰納論理プログラミン
グ」(ILP)と呼ばれる研究分野は、これまで長年に
亘り、まさしくこの問題を問い続けてきており、多数の
研究試作の成功の後、我々は現在利用可能になったIL
P技術を使用した最初の商業的データマイニングシステ
ムを実現しようとしている。これらのシステムは、上述
した如き種類の適用例の解決に既に成功している。
【0036】特に化学/生物学の分野において、ILP
は目覚ましい成功を遂げ、他の手法に対するその優位性
が証明された。所謂「予測毒物学評価(PTE )」の研究
課題において、ILPシステムPROGOL[Mug95 ]
は、最良の実行識別子を誘導し、ハンドクラフトエキス
パートシステム及び回帰の如き古典的命題手法を打ち負
かした[SKMS97]。別の適用例では、ILPシステムR
IBL[EW96]が、核磁気共鳴(NMR )スペクトル[DS
KH+ 96]からのジテルペン分類の予測において、命題的
最近隣及び判断木アルゴリズムより優れていることを証
明した。例えば[MKS92 ],[SMKS94]など、この種の
幾つかの適用例は、他にも報告されている。化学以外の
適用例として、例えば医薬品の調査データの解析、交通
事故データの解析[WRM97 ]、及び環境生分解性の予測
[VLDRD97 ]がある。
【0037】本明細書には、ILPの理論的基礎及び主
要な技術的要素を包括的に記述することができない。本
書の前節の目標は、ILPが有名になった生化学や自然
言語の問題を取り扱わない場合でさえも、関係手法及び
ILPに関心を向ける必要がある理由を解説することで
あった。事実、顧客及びその注文のように非常に現実的
な領域で、データマイニング及びKDDの問題を取り扱
う場合でも、関係解析手法が有用であることを実証でき
たものと思う。ILPの方法を使用するためにILPに
ついて知る必要がある主要な事柄は、データ及び解析結
果をどのように表現するかであり、且つ、言うまでもな
く、どのような種類の知識を発見しようとしているか、
即ちどのような解析作業を扱おうとしているかである。
知識表現については、ILP法が多くPrologのような論
理プログラミング言語(つまりILPの「LP」)から
一般に普及している表記法を使用することを除いて、前
節の例から既にそれに熟知されているものと思う。論理
プログラミングでは、テーブル又は関係の各行が、次の
形式、 <tablename>(<v1 > ,...,<vn >) の事実(正の直定数)によって表わされる。ここで、<t
ablename> は述語と呼ばれ、列値<v1 > ...<vn > は引
数である。従って、スミス氏(顧客3478)及びドー夫人
(顧客3479)に関する顧客情報は、2つの事実として次
のように表わされる。 顧客(3478, 34677, 男, 独身, i60-70k, 32, 会員,
応答無し) 顧客(3479, 43666, 女, 既婚, i80-90k, 45, 非会
員,応答)
【0038】実際には、ILPは、引数を単なる値だけ
でなく、項と呼ばれる入れ子構造にもできるので、リレ
ーショナルデータベースより更に強力である。項の能力
はリレーショナルデータベースができることを超える
が、大抵の適用例では必要ないので、これらについてこ
こで説明しない。論理プログラミング、即ち Prologに
慣れていない者にとって、ILPで解析結果をどのよう
に表わすかはもう少し複雑である。我々は、未知の対象
についての一般的特性を表わしたいので、未知の値を表
わす変数を使用する。変数を使用する式は、全ての変数
(及び非変数)の対象値を見つけることができるテーブ
ルの全てのエントリを「表わす」。どの値が使用された
か構わない場合には、特別変数 " " が使用される。例
えば、 顧客( ,女, ) は、顧客関係における全ての女性顧客を表わす。複数の
関係が関与するより複雑な記述を必要とする対象群を参
照したい場合には、幾つかの所謂直定数を、 ","又は
"&" と記述される論理 "and"(論理積)により結合す
る。同じ変数を数回使用することにより、異なる関係間
の関係結合を容易に表わすことができる。他の全ての変
数とは異なり、 " " が複数回使用される場合、出現の
度に異なる値を指すことができる。また、2つの異なる
変数が、同じ値を指すこともそうでない場合もある。例
えば、 顧客(C, ,女, ), 注文(C, ,クレジットカード) は、これまでクレジットカードで支払いを行った注文を
出したことのある全ての女性客Cを表わす。関係に多数
の引数が含まれる場合(実生活のKDD適用例では、数
ダース又は数百もの引数は一般的ではない)、一般的に
は実際に " " と異なるのは数個のフィールド値だけな
ので、この表現は非常に読みにくくなる。従って、とき
には代替的表現が使用される。例えば、MIDOS解析
法(以下参照)では、 顧客.性別=女, 顧客.ID=注文.顧客ID, 注文.支払い方式=クレジットカード とする。また、関心のある(「顧客」)の基準関係が常
に同じである場合には、単に、 性別=女, ID=注文.顧客ID, 注文.支払い方式=クレジットカード とする。多く、そうした群の各会員について予測を行い
たい場合がある。良い顧客と分類した全ての顧客のID
を単一の引数として含む、別の1引数の「良い顧客」関
係があると仮定する。実際、女性のクレジットカードの
顧客が良い顧客である場合、PROGOL[Mug95 ]の
如きILPシステムは、我々のデータベースから次のよ
うなif-then 規則(「句」)を導出するかもしれない。 良い顧客(C):−顧客(C, ,女性,
), 注文(C, ,クレジットカード)
【0039】Prologの場合と同様に、規則の2つの部分
は、記号 ":-" で分離され、左側の部分は「ヘッド」と
呼ばれ、右側の部分は句の「ボディ」と呼ばれ、「女性
顧客がクレジットカードで支払った注文を出したことが
ある場合には、彼女を良い顧客と分類する」と読める。
規則は、多く、より古典的な論理的表記法でボディを先
頭にし、暗黙の矢印を使用して書かれる。 顧客(C, ,女, ), 注文(C, ,クレジットカード)→良い顧客
(C)
【0040】多くのILP解析アルゴリズムは追加的特
徴を提供する。即ち、上述の如き規則を入力させ、これ
らを解析過程で自動的に使用する。これは全ての関係を
明示的に(所謂「外延的」関係として)入力したり、生
成する必要がないことを意味し、解析アルゴリズムはこ
れらの所謂「内包」関係を、これらが明示的に生成され
たかのように使用する。内包定義はより実用的であるば
かりでなく、実際、外延的に与えられる関係、例えばネ
ットワークの「接続相手」の如き再帰的に定義される概
念より、一層強力である。規則を直接受け入れられない
(又は単に関係を外延的に生成することを選ぶ)アルゴ
リズムを取り扱う場合、使用するデータマイニングプラ
ットフォームはそこから規則を取り出したり、関係を生
成する機能を備えていなければならない。そうした規則
及び「目標」関係以外の一般的に全ての関係は多く解析
法で使用される「背景知識」と呼ばれる。
【0041】3.ILP部分群発見:MIDOS ILPアルゴリズム裏付ける詳細な理論及び構造に深入
りすることはできないが、本明細書は少なくとも1つの
ILP法の構造を簡単に説明しなければ不完全になる。
予測規則又は記述規則を導出するためのILPシステム
については別の章で述べるので、ここでは、我々の目的
のためにデータマイニングで最も一般的な作業の1つで
ある部分群発見の作業の方法を説明する。基本的方法は
単純であるが、それを使用して大規模なデータセットで
適正な性能を達成するためにILPで使用される幾つか
の技法を説明することができる。
【0042】しかし、最初に部分群発見の作業をより厳
密に定義しよう。部分群発見では、我々が関心をもって
いる個人(対象,顧客,…)の所謂「集団」及びこれら
の個人の特性が与えられていることを前提とする。次
に、部分群発見の作業では、統計的に「最も興味深
い」、即ちできるだけ大規模であり、問題の特性に関し
て最も特異的な統計(分布)特性を有する集団の部分群
を発見する。
【0043】我々の顧客の適用例では、関心がもてるよ
うな幾つかの部分群発見作業がある。店舗に対し特異的
な分布をもつ注文群を発見したい場合があり、或いはク
ラブ会員又は郵送広告への反応に対し特異的な分布をも
つ顧客群を見たい場合が考えられる。関心のある特性と
してクラブ会員を選択した場合、MIDOSによって返
される1つの可能な興味深い部分群は、次のようになる
ことが考えられる(MIDOSのログファイルに現われ
る状態を示す)。 目標型は:公称([会員,非会員]) 基準分布は:[66.1%,33.9%−1371対象] 性別=女, ID=注文.顧客ID, 注文.支払い方式=クレジットカード [69.9%,30.1%−478 対象][1.53882 %%]
【0044】集団全体が1371個の対象(即ち顧客)で構
成され、そのうちの66.1%がクラブ会員であることが分
かる。対照的に、女性のクレジットカード購買者(478
人の顧客)の部分群のうち、69.9%がクラブ会員であ
る。この発見は、MIDOSによって1.53882%% の質値
を割り当てられている。通常、我々は特定の数の興味あ
る部分群を見つけるようにシステムに要求し、MIDO
Sは質の値によってランク付けされたリストを返す。 目標型は:公称([会員,非会員]) 基準分布は:[66.1%,33.9%−1371対象] ID=注文.顧客ID, 注文.納品方式=至急便, 注文.支払い方式=クレジットカード [72.0%,28.0%−311 対象][2.07221%%] 年齢=a40 50, ID=注文.顧客ID, 注文.支払い方式=小切手 [57.9%,42.1%−152 対象][1.67213%%] 収入=i50 60k, 応答=無応答[60.4%,39.6%−270 対象][1.60067%%] 性別=女, ID=注文.顧客ID, 注文.支払い方式=クレジットカード [69.9%,30.1%−478 対象][1.53882%%] ID=注文.顧客ID, 注文.店舗ID=店舗.店舗ID, 店舗.規模=大[61.5%,38.5%−353 対象][1.47391%%] ID=注文.顧客ID, 注文.納品方式=至急便[69.3%,30.7%−515 対象][1.26099%%] 収入=i60 70k [70.6%,29.4%−289 対象][1.08419%%] 性別=男, 収入=i60 70k [72.4%,27.6%−163 対象][1.07433%%] 年齢=a60 70, 応答=無応答[71.5%、28.5%−200 対象][1.0023%%] 性別=女, ID=注文.顧客ID, 注文.納品方式=至急便[70.6%,29.4%−252 対象][0.933171%%]
【0045】多値特性又は数値特性を考慮する場合に
は、更に複雑な部分群発見作業になる。従って、データ
ベースに各注文の総額を保存した場合、特異的に高い平
均注文額をもつ部分群があるか否か、或いは全ての購入
に特異的に高い占有率を有する1つの部分群があるか否
かの解析さえも考慮することができる。これらの解析
は、現行版のMIDOSでは未だサポートされていない
ので、ここでは、これについてこれ以上述べない(但
し、[Kl▲o▼96]を参照されたい)。
【0046】3.1 部分群発見結果の使用では、部分群
発見結果をどのように使用するか、またこれらが予測デ
ータマイニングアルゴリズムの結果とどのように異なる
か。部分群発見結果の代表的な使用は、我々の適用領域
における現象に関するアイデアの発生装置としての使用
である。例えば、上述の解析に基づいて、特異的に低い
クラブ会員率を示した年齢が40乃至50の小切手支払い者
群を目標とすることができる。
【0047】言うまでもなく、そうした部分群発見結果
の非反映使用に関して(及び実際に、どのような種類で
あれ、データマイニング/知識発見結果の反映されない
使用に関して)注意の言葉が重要である。部分群発見法
は、報告された部分群が実際に報告された分布特性を有
することを保証する(これは単に正確な計数の問題であ
る)。しかし、データを生成する集団及び統計的現象に
関して何の前提も使用されないので、この方法は、発見
された部分群が実際に統計的に意味があり、それ以上深
く考えることなく真実として受け止め、報告できる一般
的効果を表わすことを保証するものではない。
【0048】従って、年齢が40乃至50の小切手支払い者
がクラブ会員であることはあまり頻繁ではないことが発
見される場合、これが標本の選択の仕方によって生じ得
たか否かを慎重に解析しなければならず、結局のとこ
ろ、我々は我々自身の顧客に関する情報をもっているだ
けであるので、その効果は我々の顧客の「募集」の仕方
によるものであるかもしれない。「年齢が40乃至50の小
切手支払い者がクラブ会員である可能性は低い」という
ような適切に確認された統計的陳述は、誤差の尤度(即
ち、クラブ会員のことについて、年齢が40乃至50の小切
手支払い者が集団全体と変わらない可能性)を決定する
ために、分布上の前提を置く必要がある。このように、
部分群発見は盲目的に信頼できる統計的神託としてでは
なく、更なる解析のための便利な仮説生成装置として機
能する。その有用性は多数の仮説(何十万もの部分群)
を素早く取捨選択し、最も関心の高いものだけを報告す
るコンピュータの能力、及び人間が1つか2つの要素を
もつ少数の仮説しか考慮しないときに(従って、予想も
しなかった真に驚くべき事柄を見逃すかもしれないとき
に)、多数の要素をもつ仮説を考慮するその能力によ
る。
【0049】部分群解析作業(単純な2値属性の問題に
対する)と予測解析作業との相違は、二重に存在する。
下側では、発見された部分群は予測目的に使用できな
い。女性のクレジットカード支払者群が、集団全体の6
6.1%に対して69.9%と比較的高い頻度でクラブ会員を
含んでいることが分かった場合、これは任意の女性クレ
ジットカード購入者が実際に会員であるか、或いは会員
になるかを予測するのに十分ではない。反対に、予測学
習法は殆ど「純粋」な分布を有する部分群、即ち殆ど全
ての会員(雑音の多い/誤った事例を除く)が要求され
る特性を有する群を探す。上側では、これは部分群発見
がそのような全か無かのそのような群を見つけられない
状況、或いは分布が非常にアンバランスな状況でも有用
な作業を行うことを意味する。
【0050】同様に、より複雑な平均又は市場占有率解
析例の部分群発見は、予測法から直接回答を得ることが
できない。予測法によって正確な数値予測子を学習する
ことができれば、この予測子を使用して、平均及び市場
占有率特性を予測することができる。しかし、多くの場
合、そうした予測子を学習することはできず、部分群発
見は今も興味深い結果を生み出している。このように部
分群発見は、問題の解析における最初の有用な手法であ
り、データの統計的特性の「取捨選択(スクリーニン
グ)」を達成する。更なる解析段階として、その後、予
測モデルをも導出できるか否かを調べることができる。
【0051】3.2 MIDOS技法の要素 では、MIDOSの方法はどのように作用するのか。説
明した通り、アルゴリズムは全ての可能な部分群を考慮
し、統計的に「最も興味深い」ものを報告するというも
のである。従って、キー要素は興味深さ (interestingn
ess ) 又は質の定義、及び最も興味深い結果をできるだ
け素早く見つけられるような賢い探索方法である。
【0052】3.3 質 「統計的に興味深い」という用語が意味するものの正確
な技術的定義を見つけるために、2つの要素が考えられ
る。即ち、群の大きさ及び群の所謂分布特異性(distri
butional unusualness)である。群の統計的特性が集団
全体に比べて異なれば異なるほど、この群は興味深さが
増すので、分布特異性は言うまでもなく中心である。集
団の平均が66.1%の場合、68%のクラブ会員を含む群よ
り、73%のクラブ会員を含む群の方がより興味深い。し
かし、小さい群は統計的な特異性が高くなる傾向がある
ので、群の大きさも同様に重要である。即ち、極端な場
合、群が1人の顧客のみで構成されており、この顧客が
クラブ会員になれば、100%クラブ会員の群が得られる
ことになる。従って、群の大きさ(通常、要素gと呼ば
れる)とその分布特異性(通常、要素pと呼ばれる)と
のバランスを取る必要がある。これらの2つの要素を結
合する関数の特性は、広範囲に研究されてきた(p-g 空
間[Kl▲o▼96] )。一般的に使用される代表的な関数
の例として、MIDOSで使用される2値及び多値の場
合の興味深さ関数(interestingnessfunction)がここ
にある。
【0053】
【数1】
【0054】ここで、gは集団に対して考慮される部分
群の相対大きさ(0から100 %)であり、pOi は集団全
体における値vi の相対頻度であり、pi は考慮される
部分群における相対頻度である。一例として、上で使用
した1371人の顧客のうち478人が女性のクレジットカー
ド購買者である集団では、gは478/1371=0.348 =34.8
%となる。v1 を「会員」、v2 を「非会員」であり、
女性のクレジットカード購買者のうち334 人が会員であ
るのに比較して、全体で906 人が会員であると仮定する
と、pO1 は906/1371=0.661 =66.1%、pO2 は465/1317
=0.339 =33.9%、p1 は334/478 =0.699 =69.9%、
2 は144/478 =0.301 =30.1%となる。従って、クラ
ブ会員に関する女性クレジットカード購買者の興味深さ
値は、次のようになる(これは極めて低い値である)。
【0055】
【数2】
【0056】MIDOSはこの質値を使用して、可能な
部分群をランク付けする。
【0057】3.2.2 探索 探索自体は、「トップダウン探索」等の如く一般的に使
用されているものである。これは、MIDOSが最も一
般的な(最大)可能な群、即ち集団全体から始動し、次
いであらゆる可能な方法で1つずつ、群が小さくなり過
ぎるまで、それに制限を加えていくことを意味する。群
が小さ過ぎるか否かは、「最小支持」(minimal suppor
t) と呼ばれるユーザが指定するパラメータによって決
定される(以下参照)。探索中、MIDOSは常に、そ
れまでに発見された$n$の最高品質の解のリストを維
持する。ここで$n$はユーザ指定パラメータ(「解の
大きさ」)である。空間全体を探索し終わる(又はユー
ザが中断する)と、最上部の解のこのリストがユーザに
返される。
【0058】制限は、利用可能な全ての関係の全ての属
性から構成され、必要な場合にはいつでも関係は結合さ
れる。従って、「性別=男,収入=i60 70k 」の候補
に到達するために、MIDOSは全顧客の群に「性別=
男」という制限を追加し、第2段階で「収入=i60 70
k 」という制限を追加する。図10は、MIDOSが、単
一テーブルについてその探索空間をどのように形成し探
索するかを図式的に示す。
【0059】同様の方法で、MIDOSは個々の属性を
制限する代わりに、利用可能な関係の1つに対応する新
しい直定数を追加することによって、図10に示す単一テ
ーブルの探索空間を複数の関係に拡張する。これがどの
ように機能するかを見るために、MIDOSの仮説をそ
のオリジナルなILPスタイル形式で見ることにしよ
う。ここで「性別=男,収入=i60 70k 」は、次のよ
うに書かれる。 顧客( ,男, , i60 70k,
【0060】追加関係(又は同じ関係の複数のコピー)
を取り入れるために、MIDOSは、既存の直定数と変
数を共有する新しい直定数を導入する。例えば、「注
文」関係を取り入れるために、MIDOSは、次のよう
な直定数を追加し、 顧客(C, ,男, , i60 70k, ), 注文(C, ) 共有される変数 "C" は、注文する顧客が、最初の直定
数によって呼ばれる顧客と同じであることを示すために
使用する(顧客ID属性に基づく顧客と注文関係の「結
合」)。MIDOSの表記法では、上述の部分群の記述
は、次のようになる。 性別=男, 収入=i60 70k, ID=注文.顧客ID
【0061】我々の簡単な顧客例では、顧客以外に取り
込むことができる関係は2つしかない。しかし、完全に
発展した実生活の適用例では、追加できる関係は多数存
在し、これらの関係を共有変数によってリンク(結合)
することが意味をもつ幾つかの属性が存在する。特定の
解析について、実際にそうした組合せの全てに関心をも
つことはないので、MIDOSが全ての可能な組合せを
試みようとすれば、多くの探索の労力が無駄に浪費され
ることになる。これを回避するために、MIDOSは、
共有変数により新しい関係を導入するときの「経路」を
明示的に指定する、所謂外来結合のリストを提供するよ
うにユーザに要求する。上述の例で、MIDOSが「注
文」を取り入れることができるようにするために、次の
外来結合を指定し、 顧客 [1] → 注文 [1] 「注文」の最初の引数が共有変数により「顧客」の最初
の引数と結合される場合には、「注文」を取り込むこと
ができることを、MIDOSに指示しなければならな
い。部分群に店舗に関する情報も使用したい場合には、
次のような外来結合を指定し、 注文 [3] → 店舗 [1] MIDOSが次のような仮説を形成できるようにする必
要がある。 顧客(C, ,男, , i60 70k, ), 注文(C, ,S, ), 店舗(S,
【0062】これは、MIDOS表記法では次のように
なる。 性別=男, 収入=i60 70k, ID=注文.顧客ID, 注文.店舗ID=店舗.店舗ID
【0063】一旦取り込まれた新しい関係の属性自体
は、「顧客」について図10で示したのと同じような方法
で再び制限することができる。従って、その探索のある
時点で、MIDOSは、例えば次のような部分群候補を
形成することができる。 性別=男, 収入=i60 70k, ID=注文.顧客ID, 注文.店舗ID=店舗.店舗ID, 注文.支払い方式=現金, 店舗.規模=小
【0064】外来結合を使用することにより、どこを探
索するかをユーザからMIDOSに指示させることは、
ユーザの宣言により、即ちプログラミングを使用せず
に、解析アルゴリズムの探索バイアスを制御させること
から、ILPで「宣言バイアス(declarative bias)」
として知られる一般的手法の例である。外来結合は、デ
ータベースの外来キーの概念に密接な関係があることか
らその名前がある。再び図6に戻ると、最初の矢印が別
の方向を向いていることを除いて(解析を顧客から始め
たいため)、解析のための外来結合は、3つの関係の間
の外来キー関係と殆ど同じであることが分かる。それに
も拘わらず、ユーザは言うまでもなく基礎をなすデータ
ベースの外来キー関係に対応しない外来結合も自由に使
用できる。
【0065】3.2.3 探索の編成及び制御 上述の通り、MIDOSは最短記述から始めて、徐々に
制限を追加しながら、トップダウン方式でその探索空間
を探索する。ユーザは、以下で説明するように多数のパ
ラメータにより、探索に影響を及ぼすことができる。
【0066】最小支持(Minimal support)。最小支持
は、集団全体の分数としての部分群の最小規模を指定す
る。最小支持を10%=0.1 と設定すると、MIDOS
は、集団の10%より小さい部分群を考慮しない。これに
より探索時間が節約され、単に群が小さ過ぎるために関
心の無い発見も回避される。
【0067】探索深さ(Search depth)。MIDOSに
よって初期群記述(集団全体)に制限が1つ加えられる
度に、探索が1段階「深くなる」と考えられる。例え
ば、 性別=男, 収入=i60 70k の探索の深さは2であり、 性別=男, 収入=i60 70k, ID=注文.顧客ID の探索の深さは3である(右側に行くにつれてより深く
なっている図10と比較されたい)。所望の探索深さを設
定することにより、部分群の記述をどれくらい長く、複
雑にするかを、ユーザが制御できる。図10から明らかな
ように、探索の深さが大きく増加すると、考慮しなけれ
ばならない部分群の数が増加し、従って著しく長い時間
がかかる。
【0068】探索方式(Search Mode)。MIDOSの無
指定時(デフォルト)の探索方式は、所謂「幅優先」探
索(breadth-first search) により探索空間を探索する
ことである。これは、MIDOSが最初に、次のレベル
の探索を始める前に、木の1つのレベルを完全に探索す
ることを意味する。ユーザはこれを、最良優先探索 (be
st first search)に変更することができる。これは、M
IDOSが常に、その深さに関係なく、その時点で最も
有望にみえる部分群で作業することを意味する。大抵の
場合、これは最も関心の高い仮説が探索で先に見つかる
ことを意味する。
【0069】これらのユーザ制御される探索の側面以外
に、MIDOSは探索の速度を高めるために幾つかの最
適化を使用する。
【0070】最適細分(Optimal refinement)。これ
は、探索最適化の標準的技法である。即ち、探索木は、
2つ以上の経路に沿って同じ点に到達することがないよ
うに構成される。図10の木について考えてみよう。バツ
印で消されたノードは、木の最上部の経路に沿って到達
可能である。バツ印で消されたノードが決して生成され
ることさえないように探索を編成することにより、新し
い候補(群又は部分群)が前の分岐で既に考察されたか
否かを何度も繰返し検査しなければならないことを防止
する。
【0071】楽観的予測枝刈り(Optimistic estimate
pruning)。最上部から最下部に探索空間を探索するとき
に、部分群の下位群(descendants)の質がどのように展
開するかを予測することはできない。即ち、もう1つ限
定を追加することにより、新しい制限によりどの個人が
除外されるかによって、群は特異性を増減させることに
なる。しかし、群は小さくすることができ、最大限に特
異的な群は特定の値がそれ以上全く発生しない極端な分
布をもつ群であることは分かる。実際、上述の質関数
(及び他の探索作業で使用される他の質関数)の数学的
変換により、より多くの制限を部分群の記述に追加する
ことによって潜在的に到達できる質に上限を課す、所謂
楽観的予測関数(optimistic estimate function)を誘
導することができる。次に、この上限がそれまでに発見
した解の質より低ければ、この部分群及びその制限が、
最上位候補のリストに載ることはできないことが分かる
ので、それらをそれ以上考慮する必要はない。これによ
り、探索空間の部分木全体を刈り込むことができる。楽
観的予測関数は、最良優先探索(上述)で次にどこを探
索するかを決定するときにも使用される。
【0072】標本抽出(Sampling)。非常に大規模なデ
ータベースの場合、考慮される部分群の数を制限するだ
けでなく、各部分群の記述を試験し、その質を計算する
時間を制限することも重要である。幸運なことに、統計
により、集団及び部分群の一部だけを考慮し、なおかつ
関心のある部分群が見落とされないことを適度に確実に
する方法が得られる。基本的統計理論を使用し、部分群
から我々の確率及び規模の推定が(例えば)5%より高
くずれない(例えば)95%の確率をもつために、部分群
から幾つの標本を抽出しなければならないかを計算する
ことができる。どの結果が失われたかが分からない先験
的標本抽出(priori sampling)とは対照的に、この方法
では実行中に誤差確率を正確に制御することができる。
【0073】3.2.4 部分群抑制 MIDOSが興味深い部分群を見つけ、それに制限を追
加した場合、限定された部分群は元の群の興味深さの大
部分を維持する可能性がきわめて高い。新しい制限によ
り元の群の少数百分率の会員しか除外できない場合につ
いて考えてみる。このとき、2つの群の質値は殆ど変わ
らない。ユーザにとって、これは元の群に比べて新しい
興味深いことが制限によって起こらないので、小さい方
の部分群はあまり興味深くないことを意味する。例え
ば、独身の男性がクラブ会員である可能性が集団全体の
2倍であることが分かっている場合、年齢が30乃至40の
独身男性もほぼ2倍の可能性が高いことを学習すること
は、あまり興味深いことではない。しかし、言うまでも
なく年齢が30乃至40の独身男性が、集団全体と同様の挙
動を示したとしたら、それは独身男性に対して予想外の
ことであるので、興味深いことである。
【0074】これに対処するために、MIDOSは、次
のように作用する部分群抑制機構を組み込むことが望ま
しい。最上位の解リストに載せるのに十分に優良な新し
い仮説について、MIDOSは解リストを検査し、既に
解リストに載っている新しい候補の上位群(predecesso
r )又は下位群(descendant)があるか否かを調べる。
これらの夫々について、アルゴリズムは、所謂アフィン
値 (affinity value)を計算する [Geb91]。この値は、
2つの部分群記述によって記述される群の重複が増加す
るほど高くなる。2つの仮説のアフィン値が高い場合、
それらの一方の質が他方より少し高ければ(集団全体に
対し)、2つの仮説が相互に対して高い質をもたない限
り、劣悪な仮説の方が抑制される。アフィン値が低けれ
ば低いほど抑制のために要求される質の差が大きくな
る。
【0075】ユーザは2つのパラメータに関する抑制に
影響する。
【0076】抑制係数(Suppression factor)。抑制係
数が高ければ高いほど抑制を引き起こすのに十分な質の
差は小さくなる(アフィン値が等しい状態で)。抑制係
数が0の場合、抑制は停止される。
【0077】アフィン効果(Affinity Influence)。こ
の値が高ければ高いほど2つの仮説がどの程度接近して
いるかが重要になる。この値が0の場合には、それらの
群の共通部分が幾ら大きくても関係なく、より高い質の
仮説がより低い質の仮説を抑制する(従って、これは感
受性の高い設定値ではない)。
【0078】抑制はまた、同じ又は類似したデータセッ
トに繰返し解析を実行する場合、或いは一般的に特定の
部分群に関して事前の知識がある場合にも有用である。
そのような部分群が事前の解としてMIDOSに与えら
れると、これらの既に知られている解に近過ぎる新しい
部分群は抑制され、従って既に知られている現象の報告
の繰返しが回避される。
【0079】図11及び図12乃至18に関連して、本発明に
よる方法の好適な実施例について説明する。図12乃至18
は、対象(この場合は人々)の集団の探索木を示してお
り、ここで対象は以下の属性によって指定される。
【0080】
【表1】
【0081】対象の集団10は10,000個の対象で構成さ
れ、これは上述の属性に従って、3段階で幾つかの対象
群に分割することができる。人の集団10の中に、3,000
人の喫煙者が存在する。即ち、集団の質は0.03である。
個々の群の人数は、図12乃至18において、括弧の付いて
いない数字によって示されている。個々の群の人々の中
で喫煙者の人数は、丸括弧に囲まれた数字で示されてい
る。解決しようとする目的は、その群の人数及びその群
の喫煙者の百分率に基づいて、最良の質をもつn個の群
(例えば3つの群)、即ちn個(又は3つ)の最良の群
を見つけることである。
【0082】集団及び個々の群の質Qi は、次式に従っ
て計算される。 Qi =gi (pi - po ) ここで、gi は個々の群の人数(又は夫々の人口)を集
団の人数で除した値である。po は集団10の喫煙者の尤
度である。pi は個々の群の喫煙者の尤度である。
【0083】集団及び個々の群の質は、図12乃至18で角
括弧の中に示されている。
【0084】図12に示す如く、第1段階で、集団10は1
次の6つの群11〜16に分割される。これらの群11〜16の
中で、群11は集団10の全男性で構成され、群12は全女性
で構成される。さらに、群13は高収入の全ての人間で構
成され、群14は低収入の全ての人間で構成される。最後
に群15は、集団10の中で都市に住む全ての人間を含み、
群16は、集団10の中で田舎に住む全ての人間を含む。群
11〜16の人々の数と同様、個々の群11〜16の人々のうち
喫煙者の人数も、図12に示されている。
【0085】本発明に従って、個々の群11〜16の質をこ
こで計算する。3つの最良な質をもつ群、即ち+0.03,
+0.11,0,及び0の質をもつ群12,14,15,及び16
が、1次の群11〜16から抽出される。その後、本発明の
方法に従って1次の群11〜16のうち、どの群が次の階層
の群に更に分割する価値があるかが調査される。この調
査については、3.2.3 節で示した楽観的推定枝刈りに関
連して上述した。1次の群を次の階層の群に分割した
後、群11の全喫煙者で構成される1つの群を見つけるこ
とができると仮定する。これは、そうした群が、問題の
特性、即ち全員喫煙者であるという特性を満たす1,200
人で構成されることを意味する。この情報(人数、及び
問題の特性をもつ人数)に基づいて、仮説的質が計算さ
れる。この質が、群11の質又はこの時点までに既に抽出
された群の中で最も低い質より低ければ、群11をそれ以
上分割しないことが決定される。従って、探索木は群11
の後ろで刈り取られる。
【0086】1次の全ての群の仮説的質は、次のように
計算することができる。
【0087】
【表2】
【0088】本例の場合、例えば群12に関する仮説的質
が計算される。従って、群12は次の段階の1つで群12の
1,800 人の全喫煙者で構成される群に分割できると想定
される。そうした(仮説的)群は、上述の方程式に従っ
て+0.126 の質をもつ。この質は、既に抽出されている
群の最低の質(即ち群14の質)より高いので、探索木は
群12の後ろで刈り取ることができない。
【0089】この例では、群11〜16に対応する全ての仮
説的質が2つの最良の質より高いので、従って、各群は
更に分割する価値があり、第1分割段階の後で楽観的推
定枝刈りは行われない。
【0090】3.2.3 節で最適支持に関連して上述した通
り、個々の群11〜16に含まれる人数に関して更に調査が
行われる。少なくとも500 人で構成される群だけに関心
があると仮定すると、この方法の第1段階の後、群11〜
16は全て少なくとも夫々500人で構成されるので、どの
群も無視することができない。
【0091】次の段階で、1次の群11〜16は2次の群21
〜44に分割される。この第2段階で1次の各群は2次の
4つの群に更に分割される。これらの4つの群は、1次
の夫々の群の属性(例えば、群11の場合は男性)の他
に、別の1つの属性を使用して、群11から、集団10の高
収入の男性全員で構成される群21、集団10の低収入の男
性全員で構成される群22、集団10の都市に住む男性全員
を含む群23、及び集団10の田舎に住む男性全員で構成さ
れる群24が得られるように、選択された。群12も同様の
方法で、1次の群11から生じる2次の群21〜24と、1次
の群12から生じる2次の群25〜28との間に冗長性を生じ
ることなく分割される。しかし、1次の群13を2次の群
29〜32に更に分割するときに、例えば群29は、群11から
導出される群22と同じ属性によって指定される人間で構
成されることが分かる。従って、この作業を解決するた
めに、2次の全ての群がそれらの質について調査する必
要がないことは明白である。この特徴については、3.2.
3 節で最適細分に関連して説明した。最適細分要件に従
ってそれ以上調査する必要のない群は全て、図13〜18に
おいてバツ印で消されている。
【0092】群21乃至44のうち有効な群の実際の質と仮
説的な質は次の通りである。
【0093】
【表3】
【0094】この時点で、既に抽出されている1次の群
12,14,15,及び16,並びに2次の有効な群のうち、最
良の3つの質をもつ群は、+0.11,+0.106 ,及び+0.
07の質を有する群14,35,及び26である。群21〜25,28
〜32,及び36に対応する仮説的質は、最良の3つの質を
もつ群14,35,及び26のうち最低の質(+0.07)より低
いので、本発明の楽観的推定機能により、探索木は群21
〜25,28〜32,及び36の各々の後ろで刈り込むことがで
きる。従って、次の段階でこれらの群から導出される群
は、図12乃至18ではバツ印で消されている。
【0095】2次の群21〜44のうちで有効な群について
考慮するときに、最小支持要件がここでより重要な役割
を果たすことが分かる。上述の通り、少なくとも500 人
で構成される群だけに関心がある。従って、2次の群21
は無関係になる。特に、群21を更に分割することによっ
て群21から生じる群は全て無関係になる。従って、探索
木は群21のところで刈り込むことができる。
【0096】お分かりのように、楽観的推定,最小支
持,及び最適細分の要件を探索木に適用することを、群
24,28,及び32の場合のように群の「多重削除(multip
le deletion)」の根拠とすることができる。
【0097】最適細分,最小支持,又は楽観的推定要件
を満たさないために群21〜44の中の一部の群を削除した
後、この方法は残っている2次の群の質を推定又は計算
することによって続行される。これらの残りの部分群が
調査されるランクは、固定又は可変とすることができ、
特にこれらの群が導出された1次の部分の質のランクに
従属する。特に、どの群をこれらの質の計算に使用する
ことが望ましいかを統計的規則によって決定する数学的
モデルも存在する。
【0098】最後の段階で、前に記述した全ての手順が
群51〜98の残りに適用され、3次の残りの群60〜62,7
9,80のうち、どの群が詳細に検討する価値があるかが
決定される。無効になった2次の群から生じる群51〜98
は導出及び検討されず、図12〜18ではバツ印で消されて
いる。この時点で、最良の3つの質をもつ群の実際のリ
ストは、+0.11,+0.106 ,及び+0.07の質をもつ群1
4,35,及び26で構成される。3次の群61は、実際に検
出された群の中で最低の質より良い質、即ち群26より良
い質をもつ唯一の群である。さらに、群62は500 人(該
当する群当たりの所要最少人数)未満の対象で構成さ
れ、この理由により、この群もまた最良の3つの質をも
つ群のリストに含めることはできない。
【0099】参考文献リスト [DSKH + 96] S. Dzeroski, S.Schulze-Kremer, K. He
idtke, K. Siems, andD.Wettschereck.「13−C−NM
Rスペクトルからのジテルペン構造解明へのILPの適
用」。In Proc. 6th Int. Workshop on Inductive Logi
c Programming,14〜27頁. Stockholm University, 199
6. DSV Report No. 96-019. [EW96] Werner Emde and Dietrich Wettschereck.「関
係事例に基づく学習」。In Lorenza Saitta, editor, M
achine Learning - Proceedings 13th International C
onference on Machine Learning, 122〜130 頁. Morgan
Kaufmann Publishers, 1996. [FPSS96] Usama M. Fayyad, Gregory Piatetsky-Shapi
ro, and Padhraic Smyth. 「データマイニングから知識
発見まで:概要」。In Usama M. Fayyad, Gregory Piat
etsky-Shapiro, Padhraic Smyth, and Ramasamy Uthuru
samy, editors,Advances in Knowledge Discovery and
Data Mining, 1章 ,1〜34頁. AAAI/MIT Press, Cambr
idge, USA, 1996. [Geb91] Friedrich Gebhardt. 「競争一般化の間にお
ける選択」。Knowledge Acquisition, 3:361-380,1991. [Kl▲o▼96] Willi Kl▲o▼sgen. 「エクスプロー
ラ:複合パターン及び複合戦略発見支援」。In Usama
M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smy
th, and Ramasamy Uthurusamy, editors, Advances in
Knowledge Discovery and Data Mining, 10章, 249 〜2
71 頁. AAAI/MIT Press, Cambridge, USA,1996. [MKS92] S.Muggleton, R. King, and M. Sternberg.
「論理に基づく機械学習を使用するたんぱく質2次構造
の予測」。Protein Engineering, 5(7);647-657, 1992. [Mug95] Stephen Muggleton. Inverse entailment an
d Progol. In KoichiFurukawa, Donald Michie, and St
ephen Muggleton, editors, Machine Intelligence 14,
133 〜188 頁. Oxford Univ. Press, Oxford, 1995. [SKMS97] A. Srinivasan, R.D. King, S. Muggleton,
and M.J.E. Sternberg. 「予測毒物学評価の課題」。In
Proc. 15th International Joint Conferenceon Artif
icial Intelligence, 1997. [SMKS94] A. Srinivasan, S. Muggleton, R. King, an
d M. Sternberg. 「変異誘発:非確定的生物学領域にお
けるILPの実験」。In Stefan Wrobel, editor, Pro
c. Fourth Int. Workshop on Inductive Logic Program
ming (ILP-94),217〜232 頁, Schlo▲β▼ Birlinghov
en, 53754 Sankt Augustin, Germany,1994. GMD (Germa
n Natl. Research Center for Computer Science). Ord
er from teuber@gmd.de. [VLDRD97] W. Van Laer, L. De Raedt, and S. Dvzer
oski. 「帰納論理プログラミングにおけるマルチクラス
問題及び離散化について」。In Proc. Tenth Internati
onal Symposium on Foundations of Intelligent Syste
ms, 277 〜286頁, Berlin, New York, 1997. Springer
Verlag. [WRM97] B. Williams, S. Roberts, and S. Muggleto
n.「ILPを使用した事故データの調査:最終報告」。
Smith System Engineering, 1997.
【図面の簡単な説明】
【図1】基本的顧客テーブルの例である。
【図2】解析用の顧客テーブルの例である。
【図3】注文及び店舗情報を含む顧客テーブルの例であ
る。
【図4】複数の注文を含む顧客テーブルの例である。
【図5】要約属性を使用する顧客テーブルの例である。
【図6】顧客,注文,及び店舗の関係表現の例である。
【図7】自動車メーカのリレーショナルデータベースの
例である。
【図8】矩形アンケートデータの関係表現の例である。
【図9】分子,原子,及び結合の関係表現の例である。
【図10】本発明による単一テーブル(「顧客」)の探
索空間の例である。
【図11】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図12】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図13】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図14】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図15】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図16】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図17】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。
【図18】本発明に従って関心のある群が探索されるデ
ータベースの例であり、冗長性のために調査されない対
象群は削除された状態で示されている。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 複数の属性によって特定することが可能
    な対象の集団から少なくとも1つの選択可能な特性をも
    つ選択可能な数の対象群を検出し、前記対象群の各々
    は、選択可能な関数によって、対象群における対象の数
    と対象群内における前記少なくとも1つの特性の分布の
    特異性とから得られる質を有し、該質は夫々の対象群の
    特性の分布と基準母集団における特性の分布との関係に
    よって検出される方法であって、 a)集団の対象を特定する少なくとも1つの属性を選択
    することによって、前記少なくとも1つの特性を選択す
    るステップと、 b)集団の対象を夫々少なくとも1つの属性に基づい
    て、第1階層の対象群に細分するステップと、 c)この階層の各対象群の質を、その対象の総数及び前
    記少なくとも1つの特性をもつその対象の数及び/又は
    前記特性をもたないその対象の数に基づいて検出するス
    テップと、 d)各対象群について、対象群がこの時点までに検出さ
    れた対象群の間で最低の質の対象群より高い質を有する
    場合には、検出すべき対象群の数の中にこの階層の対象
    群を含めるステップと、 e)この階層の各対象群について、この対象群において
    前記特性の少なくとも1つをもつ対象だけに基づく少な
    くとも1つの仮想的第1質及び/又はこの対象群におい
    て前記特性の少なくとも1つをもつ対象でない対象だけ
    に基づく少なくとも1つの仮想的第2質を検出し、前記
    第1又は第2質の少なくとも1つは実際に処理された群
    から導出され、前記少なくとも1つの特性をもつ対象又
    はもつ対象でない対象だけで構成される仮想群の質であ
    るステップと、 f)少なくとも1つの属性を選択することによって、夫
    々に割り当てられた第1又は第2仮説的質の少なくとも
    1つが選択可能な質値で構成され、特に夫々の対象群の
    質であるこの階層の全ての対象群を次に低い階層の対象
    群に細分化するステップと、 g)選択可能な終了基準に達するまでステップc)乃至
    f)を繰り返すステップと、を有することを特徴とする
    方法。
  2. 【請求項2】 前記ステップd)で、対象群は、この対
    象群が選択可能な第1最小数の対象で構成されることが
    追加的に確認された場合にのみ、検出すべき対象群の数
    の中に含まれることを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記ステップe)で、第1又は第2仮想
    的質は、前記質をもつ対象の数が前記選択可能な第2最
    小数を有する場合にのみ、検出されることを特徴とする
    請求項1又は2記載の方法。
  4. 【請求項4】 第1最小数は、第2最小数と等しいこと
    を特徴とする請求項2又は3記載の方法。
  5. 【請求項5】 前記終了基準は、細分化の段階で対象群
    を更に細分化するための属性が存在しなくなるまで対象
    群を細分化するように定義されることを特徴とする請求
    項1乃至4の何れかに記載の方法。
  6. 【請求項6】 前記終了基準は、対象群を次の階層に細
    分化する結果、選択可能な第3最小数より小さい数の対
    象群しか得られなくなるように定義されることを特徴と
    する請求項1乃至4の何れかに記載の方法。
  7. 【請求項7】 第3最小数は、第1又は第2最小数と等
    しいことを特徴とする請求項2又は3記載の方法。
  8. 【請求項8】 前記終了基準は、選択可能な時間の経過
    と定義されることを特徴とする請求項1乃至4の何れか
    に記載の方法。
  9. 【請求項9】 ステップc)乃至f)による各細分化の
    段階で、対象群はそれらの質の順序及び/又はそれらの
    第1及び/又は第2仮説的質の順序で処理され、最高の
    質及び最高の仮説的質をもつ対象群は最初に処理される
    ことを特徴とする請求項1乃至8の何れかに記載の方
    法。
  10. 【請求項10】 各細分化の段階で、対象群は、選択可
    能な方式、特に1つの細分化の段階と次の細分化の段階
    の間で異なる方式に基づいて処理されることを特徴とす
    る請求項1乃至9の何れかに記載の方法。
  11. 【請求項11】 各細分化の段階で、対象群を定義する
    属性の組合せに基づいて同じ属性の組合せをもつ複数の
    対象群が存在するか否かが検査され、存在する場合に
    は、これらの対象群の1つだけが検査され、そうした検
    査の結果に基づいて更に細分化されることを特徴とする
    請求項1乃至10の何れかに記載の方法。
  12. 【請求項12】 ステップd)で、対象群は、この対象
    群の属性がこの時点までに検出された対象群の属性とは
    少なくとも事前に決定可能な最小距離だけ異なることが
    追加的に確認された場合にのみ、検出すべき対象群の数
    に含まれることを特徴とする請求項1乃至11の何れかに
    記載の方法。
  13. 【請求項13】 集団の対象の属性がリレーショナルデ
    ータベース、特に相互連結されたリスト又は類似物に含
    まれることを特徴とする請求項1乃至12の何れかに記載
    の方法。
JP10181266A 1997-06-26 1998-06-26 対象の集団から選択可能な特性を有する対象群を発見する方法 Pending JPH1185769A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97110452 1997-06-26
EP97110452-6 1997-06-26

Publications (1)

Publication Number Publication Date
JPH1185769A true JPH1185769A (ja) 1999-03-30

Family

ID=8226959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10181266A Pending JPH1185769A (ja) 1997-06-26 1998-06-26 対象の集団から選択可能な特性を有する対象群を発見する方法

Country Status (3)

Country Link
US (1) US6154739A (ja)
JP (1) JPH1185769A (ja)
DE (1) DE69839467D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163274A (ja) * 2000-11-28 2002-06-07 Nippon Telegr & Teleph Corp <Ntt> アイテム属性フィルタリング方法、アイテム属性フィルタリング装置及び記録媒体

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684985A (en) 1994-12-15 1997-11-04 Ufil Unified Data Technologies Ltd. Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN)
US6542894B1 (en) * 1998-12-09 2003-04-01 Unica Technologies, Inc. Execution of multiple models using data segmentation
US7424439B1 (en) * 1999-09-22 2008-09-09 Microsoft Corporation Data mining for managing marketing resources
US7103605B1 (en) * 1999-12-10 2006-09-05 A21, Inc. Timeshared electronic catalog system and method
US6366907B1 (en) 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine
US6742023B1 (en) 2000-04-28 2004-05-25 Roxio, Inc. Use-sensitive distribution of data files between users
US6496877B1 (en) * 2000-01-28 2002-12-17 International Business Machines Corporation Method and apparatus for scheduling data accesses for random access storage devices with shortest access chain scheduling algorithm
US20040015869A1 (en) * 2000-06-08 2004-01-22 Herriot James W. Method and system for performing an investigation
WO2002065326A2 (en) * 2001-02-15 2002-08-22 Hedson B.V. Method and system for job mediation
US6643646B2 (en) * 2001-03-01 2003-11-04 Hitachi, Ltd. Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
US7197506B2 (en) * 2001-04-06 2007-03-27 Renar Company, Llc Collection management system
US6711522B2 (en) * 2001-04-25 2004-03-23 Fujitsu Limited Data analysis apparatus, data analysis method, and computer products
US6865578B2 (en) * 2001-09-04 2005-03-08 Wesley Joseph Hays Method and apparatus for the design and analysis of market research studies
JPWO2003062994A1 (ja) * 2002-01-23 2005-05-26 富士通株式会社 情報共有装置、情報共有方法および情報共有プログラム
ITUD20020070A1 (it) * 2002-03-21 2003-09-22 Univ Degli Studi Trieste Procedimento per il riconoscimento di oggetti classificabili, quali organismi vegetali o animali, minerali od altro
GB2387681A (en) * 2002-04-18 2003-10-22 Isis Innovation Intrusion detection system with inductive logic means for suggesting new general rules
US8560582B2 (en) * 2002-08-12 2013-10-15 Jeffrey Saul Harris Method for analyzing records in a data base
US7065532B2 (en) * 2002-10-31 2006-06-20 International Business Machines Corporation System and method for evaluating information aggregates by visualizing associated categories
US7487148B2 (en) * 2003-02-28 2009-02-03 Eaton Corporation System and method for analyzing data
FR2865056A1 (fr) * 2004-01-09 2005-07-15 France Telecom Procede et dispositif de division d'une population d'individus pour predire des modalites d'un attribut cible donne
US20050216525A1 (en) * 2004-03-26 2005-09-29 Andre Wachholz-Prill Defining target group for marketing campaign
US20060136345A1 (en) * 2004-12-17 2006-06-22 Netsuite, Inc. Efficient schema supporting upsell features of a web-based business application
US20060136344A1 (en) * 2004-12-17 2006-06-22 Netsuite, Inc. Web-based business application with streamlined integration of upsell features
GB0608323D0 (en) * 2006-04-27 2006-06-07 Soft Image Systems Ltd Codifying & reusing expertise in personal and organisation transformation
US8494436B2 (en) * 2006-11-16 2013-07-23 Watertown Software, Inc. System and method for algorithmic selection of a consensus from a plurality of ideas
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US20090228445A1 (en) * 2008-03-04 2009-09-10 Systems Biology (1) Pvt. Ltd. Automated molecular mining and activity prediction using xml schema, xml queries, rule inference and rule engines
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US8805838B1 (en) * 2009-12-22 2014-08-12 Amazon Technologies, Inc. Systems and methods for automatic item classification
US10521439B2 (en) * 2014-04-04 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, apparatus, and computer program for data mining
US11334720B2 (en) * 2019-04-17 2022-05-17 International Business Machines Corporation Machine learned sentence span inclusion judgments
US10360301B2 (en) 2016-10-10 2019-07-23 International Business Machines Corporation Personalized approach to handling hypotheticals in text

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US5933818A (en) * 1997-06-02 1999-08-03 Electronic Data Systems Corporation Autonomous knowledge discovery system and method
US6012058A (en) * 1998-03-17 2000-01-04 Microsoft Corporation Scalable system for K-means clustering of large databases

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163274A (ja) * 2000-11-28 2002-06-07 Nippon Telegr & Teleph Corp <Ntt> アイテム属性フィルタリング方法、アイテム属性フィルタリング装置及び記録媒体

Also Published As

Publication number Publication date
DE69839467D1 (de) 2008-06-26
US6154739A (en) 2000-11-28

Similar Documents

Publication Publication Date Title
JPH1185769A (ja) 対象の集団から選択可能な特性を有する対象群を発見する方法
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
Zhao et al. Sequential pattern mining: A survey
Jafarkarimi et al. A naive recommendation model for large databases
JP3195310B2 (ja) 情報の分析方法およびプログラムを記録した機械読み取り可能記憶装置
US6493723B1 (en) Method and system for integrating spatial analysis and data mining analysis to ascertain warranty issues associated with transportation products
JP2002543535A (ja) デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置
Ayetiran et al. A data mining-based response model for target selection in direct marketing
Kanti Kumar et al. Application of graph mining algorithms for the analysis of web data
Hadzic et al. Methodology for fuzzy duplicate record identification based on the semantic-syntactic information of similarity
Adewole et al. Frequent pattern and association rule mining from inventory database using apriori algorithm
Singh et al. Knowledge based retrieval scheme from big data for aviation industry
JP4073734B2 (ja) 入力単語候補を推薦する情報検索システム
EP0887749B1 (en) Method for discovering groups of objects having a selectable property from a population of objects
Nair et al. Performance comparison of association rule algorithms with SPMF on automotive industry data
Zhao An empirical study of data mining in performance evaluation of HRM
Sung et al. Forecasting association rules using existing data sets
Al-Rubaiee Data mining and an application in the open education system of Anadolu University
Kachroo CUSTOMER SEGMENTATION AND PROFILING FOR E-COMMERCE USING DBSCAN AND FUZZY C-MEANS
Daihani et al. Implementation of Crisp-Dm Model in Order To Define the Sales Pipe Lines of Pt X
Chen Applications of fuzzy logic in data mining process
Giha et al. Customer profiling and segmentation based on association rule mining technique
Moses et al. A REVIEW OF DECISION TREE ALGORITHMS FOR PREDICTIVE ANALYSIS IN DATA MINING.
Hu Decision rule induction for service sector using data mining-A rough set theory approach
Linyan et al. Design and implementation of online bookstore based on ASP. net and data mining technology