JP2002543535A - デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置 - Google Patents

デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置

Info

Publication number
JP2002543535A
JP2002543535A JP2000615960A JP2000615960A JP2002543535A JP 2002543535 A JP2002543535 A JP 2002543535A JP 2000615960 A JP2000615960 A JP 2000615960A JP 2000615960 A JP2000615960 A JP 2000615960A JP 2002543535 A JP2002543535 A JP 2002543535A
Authority
JP
Japan
Prior art keywords
attribute
data
cluster
attributes
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000615960A
Other languages
English (en)
Inventor
サハミ、メラン
ジョン、ジョージ・エイチ
Original Assignee
イー.ピファニー・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イー.ピファニー・インコーポレイテッド filed Critical イー.ピファニー・インコーポレイテッド
Publication of JP2002543535A publication Critical patent/JP2002543535A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 本発明の実施例のあるものは、データベース、データウエアハウス或いはデータマートなどのデータセットに於いてクラスターを同定する方法を含む。同定されたクラスターは、各クラスターのついてリストされた属性及び対応する値のリストにより意味を有するものとして理解できる。本発明の実施例のあるものは、デシジョンツリーを用いたスケーラブルな確率論的クラスタリング方法を含む。本発明の実施例のあるものは、クラスターされるべきデータセットに於けるデータ点の数に関して線形であって、データセットに対してただ一回アクセスするのみで良い。本発明のある実施例は、属性のセット及び属性のセットについての属性値によって記述可能な翻訳可能クラスターを生成する。ある実施例に於いては、クラスターは、ルートノードから、クラスターに対応するデシジョンツリーのノードに至るパス上に於いて属性値及び属性を読み取ることにより翻訳される。ある実施例に於いては、ドメイン固有の近似性或いは距離関数が属性について存在することを必要としない。ある実施例に於いては、クラスターは、他の属性の分布に対して最も強い影響を有する属性を特定することにより決定される。同定された属性により仮定される値のそれぞれは、クラスター及びデシジョンツリーに於けるノードに対応する。ある実施例に於いては、データセットを一回のみアクセスするためにCUBE演算が用いられ、その結果が、影響、その他の演算のために利用される。

Description

【発明の詳細な説明】 【0001】 技術分野 本発明は、データ分析の技術分野に関し、特にデシジョンツリーを生成するた
めに確率論的なクラスタリングを利用することに関する。 【0002】 背景技術 クラスタリング クラスターを同定することは、データのセット内に於けるパターンを同定する
上で有用である。データベース、データウエアハウス(data warehouse)、デー
タマート(data mart)などからなるデータのセットのサイズが増大するにした
がって、この種の知識発見(data discovery)、或いはデータの採掘(data min
ing)がますます重要となる。データの採掘により、このような大きなデータセ
ットに於けるパターンの認識や予測が可能となる。 【0003】 さらに、多くの意志決定プロセスに於いて、結果が翻訳可能(interpretable
)すなわち理解可能であることも重要である。複雑な数式や図式的関係は、デー
タのセットに於けるパターン或いは傾向を人間が見出そうとする場合に必ずしも
好適でない。 【0004】 例えば、金融機関が、ローンの実体に於ける傾向を評価しようとする場合を考
えよう。ローンについての情報及びローンの決定に関する実際のデータのセット
は何百万ものデータ点を有する。クラスターを同定することにより、様々なパタ
ーンを有し、或いは互いに強い相互関係を有するレコードのグループを同定する
ことが可能となる。例えば、ローンが承認された人のクラスターは、所得が高く
、借入額の低い人たちであるかもしれない。これは驚くべき結果ではないが、ク
ラスタリングによって、データ中の自明でないパターンを同定することが可能と
なる。また、結果は、将来のローンに関する予測的な価値を有することもある。
例えば、一つのクラスターでは、ある領域に於いて承認されたローンの件数が大
きいことが表されるのに対し、同様の他の地域ではそうではない場合がある。こ
のような情報は、将来ローンの決定を行う際に有用となり得る。 【0005】 クラスターが翻訳可能である場合、これらのクラスターは意志決定プロセスを
推進するために利用することができる。しかしながら、得られたクラスターが複
雑な数式、グラフ或いはクラスター中心(centroid)ベクトルなどにより記述さ
れているような場合には、クラスターの有用性が削減される。翻訳可能なクラス
ターの一例はジップコードすなわち郵便番号、例えば94304(Palo Alto,C
alifornia)などがある。このクラスターは格別説明を加えなくとも理解可能で
ある。クラスターは、意志決定を行ったり、企業の戦略を変更したりするために
利用することができる。翻訳不可能なクラスターの例としては、数式により規定
されるものがある。例えば、中心ベクトルから与えられたユークリッド距離内の
全てのデータ点などが考えられる。 【0006】 クラスタリングのためにいくつかの手法が用いられてきた。クラスタリングの
基礎となる概念は、データセットのデータ点のそれぞれが、高次元空間に於ける
ベクトルにより表すことができることにある。データポイントのベクトルは、特
徴とも呼ばれる複数の属性(feature)からなっている。例えば、時間及び温度
など各データ要素について二つの属性があるデータのセットを例にとる。したが
って、データポイントXは2次元ベクトルX=(x1,x2)として表すことができ
る。ここでx1は時間で、x2は温度である。属性の数が増大するにつれて、ベクト
ルの長さが大きくなる。n個の属性がある場合、データ点Xはn次元ベクトルX
=(x1,x2,....,xn)により表すことができる。 【0007】 データベースの用語によれば、データのセットはテーブル或いは複数のテーブ
ルの組み合わせからなる。データポイントはレコードであり、これはエントリ或
いは行とも呼ばれる。属性はフィールドすなわち列からなる。 【0008】 k−means法 クラスターを同定する一般的な手法としてはk-means法がある (Krishnaiah, P
. R. and Kanal, L.N., Classification Pattern Revognition, and Reduction
in Dimensionality, Amsterdam: North Holland, 1982を参照) 。k-means法は
反復的な手法である。このプロセスは、ドメイン空間内にk個の中心を配置する
ことにより開始される。反復的なプロセスによりこれらの中心を調整し、やがて
その位置が安定化する。その結果、クラスターが中心の配置により規定されるこ
ととなる。図1は、k-means法に基づき中心により規定されたクラスターのセッ
トを示している。データ点は二次元データドメイン空間内に於ける点「・」によ
り示されている。中心は「x」により示されている。得られたクラスターは、楕
円により示される中心から所定の距離の範囲内のデータ点により構成される。 【0009】 中心を配置し、クラスターを定義するために、k-means法は、ドメインの均一
性に依存している。例えば、時間及び温度からなるデータ点を有するドメイン内
のデータのセットに於いては、ユークリッド距離を用いることができる。他の場
合にはハミング(Hamming)距離が用いられる。しかしながら、目の色、人種な
どの離散的な属性をデータセットが含む場合には、明瞭な均一機能が利用できな
い。k-means法の場合には、非ドメイン依存性が欠如しているため、明瞭に規定
された均一機能が備わっているようなデータドメインにその適用が限定される。 【0010】 k-means法により結果として得られたクラスターは、翻訳が困難である。クラ
スターが中心及び中心からの距離により規定されているため、結果を翻訳するの
が困難である。銀行に於けるローン承認に関するデータに再び戻ると、結果とし
て得られる報告は、銀行ローンデータ点についての中心及び中心からの距離のリ
ストとなる。この種の情報は、さらなるコンピュータ分析を行うことが必要であ
って、直ちに意志決定プロセスに利用することができない。 【0011】 また、k-means法は多大な計算量が必要であって、クラスターを何らかの方法
で分析しようとする場合にはさらに追加の計算が必要となる。Big-O命名法によ
れば、k-meansアルゴリズムは、O(knd)となり、ここでkは中心数であり
、nはデータ点数であり、dは反復演算の回数である。 【0012】 HAC(Hierarchical Agglomerative Clustering) もう一つの従来技術に基づく手法としてはHACがある(Rasmussen, E. Clus
tering Algorithms, In Information Retrieval Data Structures and Algorith
ms, 1992を参照)。HACの基本的な概念は、一つのデータ点のクラスターから
開始して、全てのデータ点をカバーする単一のクラスターが構成されるまでクラ
スターを組み合わせることにより、クラスターをツリー状に構成し得るというこ
とに基づく。図2は、HACにより生成されたクラスターを示す。このプロセス
は次のように実行される。各データ点は、図2に於いて単一のデータ点を外囲す
る円により示されるクラスター内に自動的に配置される。次に、より小さなクラ
スターの最も互いに隣接した対を見いだすために近似または距離関数を用い、こ
れらの小さなクラスターは、より大きなクラスターに併合される。結果として得
られたクラスターは、図2に示されるようなデンドグラム(dendogram)に於け
るジャンクションとなる。図2に時間の経過とともに矢印により示されるように
、クラスターを組み合わせるプロセスは、ツリーが下から上に向けて構成される
に伴って実行される。 【0013】 k-means法と同様に、近似または距離関数が必要となる。したがって、HAC
は、適切な距離関数を備えていないような離散的な属性を有するデータドメイン
に対して適用することができない。また、k-means法と同様に、結果として得ら
れたクラスターは、それらの中心について分析可能であるのみであって、翻訳不
可能である。例えば、図2に展開されたクラスターに着目すると、ユーザが4つ
のクラスターを考慮したいという場合、4つのクラスターが存在するプロセスの
段階を選択することになろう。これらのクラスターは、しかしながら、さらなる
コンピュータ分析を行わない限り、何ら有意義な翻訳ができない。また、HAC
は計算量が多大である。即ち、O(n2)であり、nはデータ点の数である。 【0014】 再び金融機関のローン承認のケースに着目すると、二つのクラスターがあって
、一つのクラスターには500万個のデータ点があり、他方のクラスターには7
00万個のデータ点があることを知ることによって何ら人間にとって有意義な情
報を得ることができない。これは、HACにより生成されたクラスターはk-mea
ns法と同様に中心に関して定義されるからである。 【0015】 オートクラス(AutoClass) もう一つの従来技術に基づく手法としてはNASAにより開発されたオートク
ラスがある(Cheeseman, P. and Stutz, J. Bayesian Classification (AutoCla
ss): Theory and Results. In Advances in knowledge Discovery and Data Min
ing. AAAI Press 1996を参照)。k-means法やHACとは異なり、オートクラス
は離散的な属性を有するドメインに対しても適用可能であって、何らドメインに
固有な近似関数を必要としないことから非ドメイン依存性である。オートクラス
の根底にある概念は、k分布すなわちn次元ガウス分布を同定し、これらのk分
布をデータ点にフィットすることにある。このプロセスに於いては逐次的なルー
プに於いて、kの複数の値を用いてモデルが構築され、これは追加の分布によっ
てデータセットに対する分布のフィットが改善されなくなるまで継続される。各
パスに於いて、データセット中の各レコードをアクセスしなければならない。さ
らに、各パスに際して、データは各データ点について、そのデータ点が位置する
分布内に保持されなければならない。 【0016】 図3は、オートクラス法を適用した後に得られる混合モデルを示している。デ
ータセットはドメインを横切るように分布する実線により表されている。破線は
、データに対して現在フィットされている三つの分布を示す。分布の数はクラス
ターの数に他ならない。図3に於いては、三つのクラスターが存在する。 【0017】 オートクラスの結果を翻訳することは極めて困難である。図2は三つの分布間
の明瞭な区分が示されているが、低いレベルに於いては分布が実際には両方向に
延出している。したがって、クラスターの内容に関する質問に答えるためには、
条件付きの確率(P(青い目|クラスター1)=0.9)が与えられることにな
る。しかしながら、このような単純な目の色に関する一次元のデータセットにつ
いても、P(青い目|クラスター2)はやはりノンゼロとなる。より高次のデー
タセットについては、結果はより一層翻訳困難となる。この翻訳可能性の欠如は
、オートクラスの、データセットを理解する上での有用性を限られたものとして
いる。 【0018】 このように、k-means法やHACと同様に、クラスターが簡単な論理規則によ
り定義されておらず、条件付き確率により表現されるため、オートクラスの結果
は難解である。そのため、一般的な結果に基づき、意志決定、予測或いはパター
ン同定などを行うことは、さらなる分析を行わない限り極めて困難である。 【0019】 オートクラスは、k-means法やHACよりもさらに多大な計算を必要とする。
オートクラスは、O(nkdν)で、ここで、nはデータポイントの数、kは分
布の数、dは各モデルについての反復回数、νはモデルの数すなわち考慮された
異なるk値の数である。さらに、Big-O命名法はオートクラスや追加の記憶容量
の必要性による高いデータアクセスコストを考慮したものとなっていない。 【0020】 COBWEB 上記した手法は全てデータセット全体をクラスタリングしようとするものであ
った。COBWEBはクラスタリングを、オンラインにより、すなわちインクリ
メンタルに行わんとするものである。図4は、クラスターを備えたCOBWEB
ツリー構造を示す。クラスターはツリーのノードである。図4はデータセットに
追加されるべき新たなデータ点Xを示す。COBWEBは、ツリーのノード間の
確率分布に基づく。この手法がインクリメンタルであることから、事後に受け取
るデータに基づいてツリーノードを併合したり分割したりするようないくつかの
特別なケースが存在する。 【0021】 オートクラスの結果と同様に、クラスターは、容易に翻訳可能でない条件付き
確率によって規定される。また、COBWEBアルゴリズムはツリーの深さに敏
感であって、ツリーに挿入された初期データがツリー全体を代表するものでない
場合には、アルゴリズムの性能が損なわれる。単一のオブジェクトを挿入するべ
き、予想されるBig-O時点は、O(Blogn×AV)である。ここで、n
はデータ点の数であり、Bはツリーの平均ブランチ係数、Aは属性の数、Vは属
性あたりの値の数の平均である。 【0022】 COBWEBの結果は、意志決定を進めたり、データセット中のパターンを同
定したり、データセットに於ける傾向を予測したりするために容易に適用するこ
とはできない。条件付き確率は、特に結果の翻訳を困難にする。また、COBW
EBが初期データ点に対してある感度を有するため、得られたクラスターは、最
も重要な属性について構成されたものではないクラスターを反映する場合がある
。例えば、一千万個のデータ点が存在するデータセットに於ける最初の一千個の
データ点が多くの場合拒絶されたローンに関するものであった場合、残りのデー
タポイントを追加する際にツリー構造がアンバランスとなる。このように、翻訳
が困難であることに加えて、同定されたクラスターの性質が、初期データに基づ
き偏った(skewed)ものとなり得る。 【0023】 従来技術に基づくシステムは、翻訳可能なクラスターを生成し、大きなデータ
セットについてスケーラブルであるような、すなわち高速であって非ドメイン依
存であるようなクラスタリングの手法を提供しない。したがって、ここで必要と
されるのは、翻訳可能な結果を生成し、大きなデータセットを好適に取り扱い得
るようにスケーラブルであって、非ドメイン依存であるようなクラスタリングの
手法である。さらに、ここで必要とされているのは、クラスタリング手法をデー
タマートやデータウエアハウスに適用し、意味あるクラスターの同定により意志
決定に利用し得るような結果を生成し得るようにすることである。 【0024】 発明の開示 本発明の実施例のあるものは、デシジョンツリーを用いたスケーラブルな確率
論的クラスタリング方法を含む。この方法は時間の経過にしたがって実行され、
クラスターされるべきデータセットに於けるデータ点の数に関して線形である。
本発明のある実施例は、性能を比較的損なうことなく、データベース、データウ
エアハウス或いはデータマートなどのデータセットに対して適用可能である。本
発明のある実施例は、データセットに対してただ一回アクセスする。 【0025】 本発明のある実施例は、属性のセット及び属性のセットについての属性値によ
って記述可能な翻訳可能クラスターを生成する。ある実施例に於いては、クラス
ターは、ルートノードから、クラスターに対応するデシジョンツリーのノードに
至るパス上に於いて属性値及び属性を読み取ることにより翻訳される。 【0026】 ある実施例に於いては、ドメイン固有の近似性或いは距離関数が属性について
存在することを必要としない。 【0027】 ある実施例に於いては、クラスターは、他の属性の分布に対して最も強い影響
を有する属性を特定することにより決定される。同定された属性により仮定され
る値のそれぞれは、クラスター及びデシジョンツリーに於けるノードに対応する
。例えば、性別の属性は、「男性」、「女性」及び「無回答」からなる値を有す
ることになろう。したがって、性別の属性が、残りの属性例えば購入したドレス
の数についての属性の分布に対して最も強い影響を及ぼす場合、三つのクラスタ
ーが決定されることになる。即ち、「性別=男性」クラスター、「性別=女性」
クラスター及び「性別=無回答」クラスターである。 【0028】 ある実施例に於いては、これらのクラスターは、この方法を反復的にクラスタ
ーに対して適用することにより一層厳密に生成されることになる。これは、追加
のデータ検索を必要とすることなく、しかも最小限の計算量を以って実行するこ
とができる。 【0029】 ある実施例に於いては、クラスターを組み合わせるためにサブセットの設定が
利用される。例えば、所得属性は、「1万ドルから2万ドル」及び「2万ドルか
ら3万ドル」という二つの値をとり得る。しかしながら、所得に関するこれらの
二つの異なる値についてのデータ点間の近似性は、かなり高いことから、これら
の二つの値を別個のクラスターとして取り扱う代わりに、これらは単一のクラス
ターにサブセット化される。 【0030】 ある実施例に於いては、高度に均一な分布を有する属性を考慮から除外するた
めに特徴除去(feature elimination)を利用することができる。ある実施例に
於いては、各属性のエントロピーを計算して、属性の分布の均一性を決定する。
例えば、数百個の属性を有するデータセットに於いては、クラスタリングに於い
て重要なファクターとならないような特徴を除去するために特徴除去が利用され
る。 【0031】 ある実施例に於いては、データセットを一回のみアクセスするためにCUBE
演算が用いられる。 【0032】 発明を実施するための最良の形態 A.概念 本発明のある実施例に於いては、確率論的な手法及びデシジョンツリーを用い
た翻訳可能なクラスターを生成するための方法が提供される。この方法は、デー
タベースその他のデータ源などのデータセットに対して適用可能である。 【0033】 この方法の一つの応用は、データマートまたはデータウエアハウスから翻訳可
能なクラスターを生成することである。これは一種のデータ採掘すなわち知識発
見である。データ採掘は、データウエアハウス及びデータマートを開発するため
の努力の基礎となる企業の戦略の重要な一部である。データ採掘を用いることに
より、パターンを発見し、データウエアハウスまたはデータマートから未来の結
果を予測し得るようになることにより、企業の戦略的地位を向上させることがで
きる。 【0034】 すなわち、意志決定を行う者がデータ採掘及び知識発見の結果を理解し得るこ
とは、データ採掘のツールの有用性に於ける一つの要素である。抽象的であった
り、複雑な数学的パターンなどは、意志決定を行う者にとって有用ではない。こ
のように、生成された翻訳可能なクラスターは意志決定を行う者に理解可能であ
って、追加のコンピュータ分析を行うことなく利用することができる。 【0035】 以下に、本発明のいくつの実施例に基づく方法により用いられる主な概念及び
演算を説明する。 【0036】 1.データ検索−CUBE演算 本発明のある実施例は、CUBE演算を用いてデータセットに関する情報を検
索する。特にデータのセットの数が大きい場合には、データ点に対してただ一回
のアクセスのみが必要となる。 【0037】 近代的なデータベースシステムの多くはCUBE演算をサポートし、より多く
のシステムがGROUP−BY演算をサポートする。データセットをアクセスす
るために両演算が利用可能である場合には、複数のGROUP−BY演算よりも
単一のCUBE演算が用いられる。他の実施例では、GROUP−BY演算を必
要に応じて実行し、必要なデータを受け取る。 【0038】 別の実施例に於いては、データ検索は段階的に行われる。CUBE演算により
、特徴或いはフィールドとも呼ばれる多数の属性について実行することにより大
きなテーブルが生成されるため、CUBE演算をGROUP−BY演算と組み合
わせる必要が生じる場合がある。 【0039】 これらの演算のいずれも利用可能でない場合、必要な確率はデータセットに対
して複数回アクセスすることにより算出される。 【0040】 CUBE演算の結果はn次元テーブルであって、このテーブルの軸線は属性x 〜xである。x属性がとり得る各値についてx軸上に一つのエントリー
及び「どうでもよい」エントリーすなわち「*」のエントリーが追加される。例
えば、x、x及びxからなる三つの属性を有するデータのセットに於いて
、それぞれの属性が二つの値のみをとり得るとした場合、CUBE演算の結果は
、各軸線に沿って三つのエントリーを有する三次元テーブルとなる。 【0041】 x軸線上には、三つのエントリーがする、即ち{a,b,*}。x軸線上
には、{c,d,*}が、x軸線上には、{e,f,*}が存在する。つぎに
、(x=a,x=c,x=*)となるようなデータ点の数をルックアップ
ために単一の演算を用いることができ、マトリックス内の対応するセル数、例え
ば10を含む。これは、x属性は無視し、x=aであって、x=cである
ようなデータ点が、データセット内に10個存在することを意味する。 【0042】 「どうでもよい」エントリーは、異なる属性値の頻度を容易に計算できること
から、確率論的アルゴリズムに於いて有用である。例えば、x=aである確率
は、P(x=a)=(x=a,x=*,x=*)/(x=*,x
*,x=*)であり、これはCUBE演算の結果から2つのエントリーほ検索
することにより算出することができる。 【0043】 2.相互情報(mutual information) クラスターを同定するための好適なデシジョンツリーは、残りの要素の分布に
対して強い影響を有する属性を特定する。このような確率的な問題を最適に解決
することは困難である。したがって、良好な結果を生み出し得るような取り扱い
容易な方法を同定する必要がある。このような方法の一つとしては、ツリー構造
を選択し、デシジョンツリーを生成するために属性の対のみの間の相互情報を利
用することである。 【0044】 属性の対の間の相互情報は次の式1により与えられる。 【0045】 【数2】 【0046】 必要な値の全ては、CUBE演算の結果から得られる。CUBE演算が利用可能
でない場合、複数のGROUP−BYからの結果及びまたはデータセットの複数
回のパスからの結果を利用することができる。 【0047】 相互情報は、二つの属性が互いに強い影響すなわち相関を有する場合に高く、
両者が互いにあまり影響を及ぼさない場合には低いという性質を有する。二つの
属性の対の相互情報の最大値は1であり、最小値は0である。 【0048】 反復或いは再帰的過程の数に関わらず、CUBE演算は一回実行するのみでよ
い。たとえば、クラスタリングのためにジップコード属性が用いられた場合、ジ
ップコード属性により規定された異なるクラスターから、より狭いクラスターを
定義づけることができる。しかしながら、これらの追加のクラスターを定義する
に際して、単一CUBE演算が用いられた場合には、追加の情報を抽出する必要
がない。 【0049】 次のクラスターが定義されるに伴い、相互情報は、すでに同定されたクラスタ
ーに基づく条件付き確率として算出される。即ち、MI(x,x|Z)。こ
こで、Zは先に分岐が行われた特徴のセットである。即ち、Z={x=a,x =d} 3.影響 デシジョンツリーを構成する際に、各属性の影響を決定するために相互情報を
用いる。分岐するべき属性を選択するために、次の式により表されるように、他
の属性の全体にわたって最も高い相互情報を有するすなわち属性の影響(Influe
nce)を選択するのが望ましい。 【0050】 【数3】 【0051】 次に、最も強い影響を有する属性を選択する。選択された属性は、残りの属性が
最も強く依存するものからなる。 【0052】 一つの最適化方法としては、影響を計算する際に、他の属性の全てについて行
う代わりに、k個の最大項に渡って和をとることがある。本実施例に於いては、
各属性について最も高い値を有するk個の相互影響値のみを加算する。 【0053】 式2を繰り返し適用して影響を計算する際には、クラスターを定義するために
データセットを分岐する際にすでに用いた属性に渡って和をとらないように注意
するべきである。例えば、分岐に用いるためにジップコード属性を選択した後に
、影響スコアの逐次的な計算に際しては、加算の際にジップコード属性を含まな
いようにしなければならない。このように、残りの属性が性別、年齢及び所得で
ある場合、これら残りの三つの属性についての相互影響値のみを、ジップコード
属性のクラスター化に対する影響を計算するために用いることになる。 【0054】 4.停止条件 与えられたデータセットについて、数十或いはそれ以上の数の属性が存在し得
る。計算に要するコスト及び実用的な観点から、全ての属性について分岐するよ
うなデシジョンツリーを構成することは好ましくない。実用的な考慮の或るもの
としては、各クラスターに少なくとも数百個のデータ点が存在するような十分な
大きさのクラスターを求めることがある。いくつかの停止条件が、それぞれの簡
単な説明と共に表1に記述されている。 【0055】 【表1】 【0056】 ある実施例に於いては、ユーザーは上記した停止条件のいずれをも選択すること
が出来る。他の実施例では、所定の停止条件が用いられる。 【0057】 5.サブセット化 デシジョンツリーの質を向上する1つの方法は、サブセットを形成することで
ある。xに対する影響に基づき属性xが選択されると、xが最も高い相互
情報値を有するような属性xも既知となる。xの属性値のそれぞれについて
のxの様々な属性値の頻度についてのベクトルを書き出すことにより、サブセ
ット化が適切であるか否かを判断することが出来る。 【0058】 例えば、年齢が最も強い影響を有する属性である場合、これがデシジョンツリ
ーのノードを形成することとなる。次に、最も緊密に相関する属性は、MI(年
齢、その他の属性)が最も高くなる属性、即ち所得等の属性である。 【0059】 30未満等のような年齢の属性の各値について、所得属性値のそれぞれの確率
についてベクトルを記述することが出来る。例えば、所得属性は、$50k未満
、$50k以上から$150k未満、及び$150k以上とからなる3つの値を
有するとする。従って、この場合、30未満の年齢属性についての確率ベクトル
は<0.5、0.4、0.1>となる。このベクトルは、年齢属性が30未満で
あるデータ点の半分は、50K未満の値の所得属性を有することを意味する。 【0060】 年齢属性の他の値についてもベクトルを決定することは出来る。例えば、年齢
属性が30以上50未満であるものについては、ベクトルは<0.3、0.7、
0.0>となり、年齢属性が50以上であるものについては、ベクトルが<0.
45、0.45、0.1>となる。 【0061】 次のステップは、これらのベクトルに基づき年齢属性の値のいずれかを併合或
いはサブセット化すべきかを決定することである。これは、2つのベクトルの間
のBhattacharyya距離を算出することにより達成される。相対的エントロピー、
KL距離、或いは、その他の尺度を用いることもできる。Bhattacharyya距離の
場合、確率ベクトル間の距離が所定値を超えた場合には、ノードを組み合わせる
ことが出来る。 【0062】 この場合、年齢属性が30未満かつ50以上は、所得に関して極めて密接に関
連するため、前記した値を超える場合がある。従って、デシジョンツリーの30
未満及び50以上ノードは、組み合わせ可能であって、事後の演算は、年齢属性
値が30未満または50以上であるような組み合わせられたクラスター即ちノー
ドに対して実行される。 6.特徴削除−エントロピー データセットは幾つもの属性を有し得るため、そのうちの幾つかを削除するの
が望ましい場合がある。ある実施例に於いては、ユーザーまたはプログラムは、
削除されるべき特徴の所定のセットを選択することが出来る。しかしながら、こ
れらの決定は通常、データのセットの実際の分布によって引き起こされるもので
はない。 【0063】 自動化された特徴削除を用いることにより、クラスターを同定する上で有用で
ない特徴を短時間に削除することが出来る。これは、以下の示す式3により定義
されるエントロピーを用いて短時間で行うことが出来る。 【0064】 【数4】 【0065】 エントロピーを計算するために必要な値の全てはCUBE演算の結果から得られ
る。 【0066】 或る属性のエントロピーが低い場合、それはかなり偏った分布を有することに
なる。逆に、属性のエントロピーが高い場合、属性がかなり均一であることにな
る。興味深いクラスターを生成しそうもないと考えられるような高いエントロピ
ーを有する属性を削除することにより、考慮されるべき属性の数を減少させるこ
とが出来る。 【0067】 ある実施例に於いては、最も高いエントロピーを有する属性を自動的に削除す
るために所定値が用いられる。或いは、最も高いm個の属性を削除することも出
来る。或いは、最も低いエントロピーを有するj個の属性のみをクラスター化に
利用することも出来る。 【0068】 B.デシジョンツリーを用いた確率論的クラスター化方法 図5は、本発明のある実施例に基づくデシジョンツリーの構成方法を示すフロ
ー図である。ここで記述される方法は、図6に示されたデシジョンツリーの部分
を参照して以下に説明する。 【0069】 例えばデータセットは、団体への寄付を行う者に関する情報を含むものである
とする。属性としては、年齢(x)、寄付者の地位(x)、所得(x)、
性別(x)及びジップコード(x)がある。 【0070】 このプロセスは、特徴削除からなるステップ500から開始される。これはオ
プションとしてのステップであって省略することも出来る。特徴削除が実行され
た場合、上記したような特徴削除の方法を用いることが出来る。通常、多数の属
性を有するデータセットについて特徴削除が実行される。クラスター化の目的に
とって重要でない特徴を削除することにより、プロセス全体が高速化され、最も
意味のある特徴に関してクラスターを形成することが出来る。 【0071】 特徴削除は、ある程度のデータの検索を伴うもので、従ってステップ502の
後に実行することも出来る。本実施例の場合のように、データの検索前に特徴削
除を実行する場合には、属性のエントロピーを算出するために或るデータの検索
が実行される場合がある。ある実施例に於いては、GROUP−BY演算が、ス
テップ500に於いて属性のエントロピーを算出するために必要な値を検索する
ために用いられる。 【0072】 本実施例では、団体は、地域の慈善団体であって、その寄付者の殆どは1つの
ジップコードに属する。ステップ500に於いては、ジップコード属性のエント
ロピー値は低く、その非均一性を反映している。この実施例に於いては、所定の
閾値が設定され、この閾値よりも高いエントロピーを有する属性が削除される。
本実施例に於いては、このデータセットの例の中のジップコード属性についての
エントロピーは閾値を超えることが無く、従ってジップコードは属性として削除
されない。 【0073】 次に、ステップ502に於いて、データベースから値が検索される。特徴削除
のために用いられるエントロピー値は、ステップ502の後に算出することは出
来るが、特徴削除の目的の1つは、大きなCUBE演算を不要とすることにある
。従って、ステップ502は、必ずしも必要ではないが、通常は特徴削除の後に
行われる。特徴削除がステップ502に先立って実行された場合、CUBE演算
は残りの属性に対してのみ実行すればよい。 【0074】 ある実施例に於いては、関連するデータが、単一のCUBE演算を行うことに
より検索される。CUBE演算については上記した。場合によっては、データセ
ットが、CUBE演算をサポートしない環境に於いて保存されるが、そのような
場合には、複数GROUP−BY演算或いはデータセットに対する複数のアクセ
スを実行することが出来る。属性の数が十分に大きい場合には、CUBE演算を
GROUP−BY演算と組み合わせることにより必要なデータの全てを検索する
ことが必要になる場合がある。本実施例の場合、CUBE演算を用いて、データ
ポイントに必要なデータを検索するようにしている。 【0075】 次にステップ504に於いて、停止条件即ちそれ以上のクラスターを定義し得
るか否かの条件が満たされたかどうかをチェックする。表1は、幾つかの停止条
件をリストアップしている。本実施例に於いては、m=2として、m個の属性が
、分岐停止条件に用いられている。この停止条件は、データセットに於いてクラ
スターを形成するための2つの最も重要な属性に限って結果が得られるようにし
ている。停止条件が満たされると、プロセスが停止する。これが再帰的なコール
である場合には、このプロセスをデシジョンツリーに於ける他の兄弟ノードにつ
いて継続することが出来る。停止条件が満たされていなければ、プロセスはステ
ップ506に於いて継続する。 【0076】 本実施例の場合、分岐が行われず、従ってプロセスはステップ506に向けて
継続する。 【0077】 ステップ506に於いては、式1に基づいて相互情報値が算出される。本実施
例の場合、年齢、寄付者の地位、所得及び性別からなる4つの残りの属性のそれ
ぞれについて相互情報が、他の残りの属性と共に算出される。ステップ502に
於いて必要な頻度情報の全てを検索するために単一のCUBE演算が用いられた
場合には、相互情報値は1回計算される。 【0078】 次のコールでは、条件付き相互情報が算出される。条件付き相互情報は、CU
BE演算により既に検索された結果を用いて効率的に算出することが出来る。全
ての必要なデータについてCUBE演算の結果を保存することが出来ない場合に
は、条件付き相互情報を算出するためにGROUP−BYまたはCUBE演算を
用いて追加のデータを検索することが必要となる。 【0079】 次に、ステップ508に於いて、デシジョンツリーを分岐するべき特徴が選択
されるが、これはステップ506に於いて生成された相互情報値に基づき式2か
ら算出されることにより得られた最も高い影響を有する属性を選択することによ
り達成される。本実施例に於いては、年齢(x)属性が最も強い影響を有し、
部分デシジョンツリー600のルートノード602となる。 【0080】 次に、ステップ510に於いて、サブセット化が考慮される。これはオプショ
ンとしての特徴であって、デシジョンツリーを改善するものである。本実施例の
場合サブセット化が実行されない。 【0081】 次に、ステップ512に於いて、プロセスが子ノードに対して再帰的に適用さ
れる。本実施例の場合、年齢属性は30未満、30以上50未満及び50以上か
らなる3つの可能な値を有する。これらの属性値のそれぞれについてルートノー
ド602から離れた場所にノード604〜608により示されるようなノードが
デシジョンツリーに追加される。次に、クラスター化プロセスが各ノードに対し
て再帰的に適用される。再帰的な適用は、シリーズであってもパラレルであって
もよい。本実施例の場合、別個のプロセス即ちスレッドを、各ノードについて並
列に実行することが出来る。複数のプロセッサーを備えたシステムでは、これに
よって、方法の処理性能が改善される。 【0082】 クラスター化が再帰的に実行された場合には、デシジョンツリーのリーフノー
ドのみがクラスター610〜612として出力される。しかしながら、ルートノ
ードを除くデシジョンツリーの全てのノードは、同様な情報を共有するデータの
セットのサブセットを同定するものであることからクラスターをなす。従って、
図5のプロセスを1回反復するのみで、複数のクラスターを決定することが出来
、これらのクラスターは選択された属性の各属性値について1つのクラスターと
いう具合に更に詳しく設定することが出来る。サブセット化が実行された場合に
は、クラスターの数は、どのようなサブセットが構成されたかによるが、一般に
減少する。 【0083】 例えば、ノード608のためのクラスター化プロセスが、ノード604のため
のクラスター化の前に実行することができる。又、クラスター化プロセスの再帰
的適用は、幅方向を先に行うことも深さ方向を先に行うこともできる。幅方向を
先に行う実施例では、同じレベルの全てのノード即ちノード604〜608は、
それに続くレベル即ちクラスター610〜612に於けるノードの前に決定され
る。幅方向を先に或いは深さ方向を先に行う再帰的処理の適用に関する選択は、
ユーザが最初に見たい情報の形式に依存する。例えば、ある実施例においては、
2つの方法の内の1つをユーザが選択する。 【0084】 本実施例では、クラスター化プロセスの再帰的適用は深さ方向を先に行う。こ
のように、プロセスは先ずノード604について実行され、続いてノード604
の子供即ちクラスター610〜612に対して行われ更にノード606及びその
子供に対して行われる。 【0085】 再帰的エントリー点514は、関数がコールされた場合には、再帰ステップ5
00〜502をスキップし得ることを示している。多くの場合、ステップ506
は、データベースから全ての必要な値を検索するために単一のキューブ演算が用
いられた場合にスキップされる。 【0086】 プロセスが再帰コールを完了すると、完全なデシジョンツリーが生成される。
図6は、プロセスにより生成したデシジョンツリー600の一部を示す。年齢属
性についての分岐に続く分岐は、異なる属性について実行されることに留意され
たい。ノード604は、寄付者の地位に基づく分岐であり、ノード606は所得
に基づく分岐であり、ノード608は性別に基づく分岐である。 【0087】 デシジョンツリーに於けるリーフノードはクラスター610〜612である。
各クラスターは、ルートノード602からクラスターに至るパスを単に読むこと
により翻訳することができる。例えば、クラスター610は、年齢が30未満で
あって現在寄付者であるデータ値を含む。クラスター610〜612は確率論的
に定義されるものではない。これらはクラスター化されたデータ点の正確な記述
である。 【0088】 この方法の演算性能は極めて良好であって、データベースに見られるような極
めて大きなデータのセットに対してスケーラブルである。CUBE演算が用いら
れた場合、データセットは1回アクセスされるのみで、比較の数はかなり小さい
。Big-O命名方によれば、O(and)であって、この場合、aはクラスター
化が実行された属性の数であり、nはデータ点の数であり、dはツリーに於ける
ノードの数である。aおよびdが一定であるとすると、これらは一般的なデータ
マートに於けるnの大きさに対して小さいことから、性能はデータ点の数につい
て線形であると考えられる。 【0089】 結果を翻訳するためにいくつかの出力フォーマットを用いることができる。あ
る実施例に於いては、出力はデシジョンツリーを含む。デシジョンツリーは、異
なる重要な属性を、極めて視覚的且つインターアクティブに見ることを可能にす
る。 【0090】 他の出力フォーマットとしては、SQLクエリーがある。1つのSQLクエリ
ーが各クラスターに対応する。これは、データのセットから1つ又は複数のクラ
スターを検索するための有用な出力である。他のクエリー言語出力をサポートす
ることもできる。 【0091】 更に他の出力フォーマットとしては、パイチャートの2次元マトリックスがあ
る。1つの軸に各属性がリストされ、所望に応じて削除された属性をリストする
こともできる。他の軸線に於いては、データのセット全体のためのセット及び各
クラスターの別のエントリーが備えられている。このフォーマットの1例がデー
タのサンプルセットを用いて表2に示されている。 【0092】 【表2】 【0093】 パイチャート以外でも、バーチャート、文字表現など他の表現方法を用いること
もできる。この表示フォーマットの利点は、クラスターの構成に基づくデータセ
ットの構造に関して追加の見通しを提供することにある。 【0094】 例えば、所得属性の列を上から下に眺めると、クラスター610におけるデー
タ点の所得間の差を、データ全体及び他のクラスターと比較することができる。 【0095】 他にも多数の出力のオプションを用いることができる。例えば、ある実施例に
おいては、クラスター化に対して影響を及ぼす上位k個の属性を、クラスター化
に関するこれらの属性の影響の相対パーセンテージと共にリストすることができ
る。これは、どのレベルに於いて算出することも可能ではあるが、デシジョンツ
リーのルートレベルにおいてのみ算出されるのが一般的である。式4は、総合影
響についての数式を表す。 【0096】 【数5】 【0097】 相互影響が、デシジョンツリーのルートレベル以外のレベルに於いて算出された
場合には、残りのj個の属性についてのみ加算が行われるべきである。 【0098】 C.ウェブブラウザーを用いた例 図7〜13はデータマートに対してウェブブラウザーインターフェースを適用
した本発明の実施例を示す。ウェブブラウザーインターフェースは、この実施例
により、データマートの根底を成すアクセス機構の知識を有することなくデータ
マートに対するアクセスを可能にする。更に、このインターフェースは、組織全
体に渡ってデータマート及びデータ採掘ツールを容易にワークステーションに分
散させることを可能にする。データマート及びデータ採掘のためのクラスター化
ツールとしては、カリフォルニア州Palo AltoのE. Piphanyにより市販されてい
るE. Piphany e.4がある。 【0099】 データマートは一種のデータウエアハウスであって、それ自体データーベース
の1形式である。データマート及びデータウェアハウスはいずれも、通常他の組
織のデータベースからの寄せ集め又は要約データを含む。時計のデータベースが
データマート或いはデータウェハウスのいずれであるかは、データベースが利用
されるべき目的に依存する。一般に、組織や企業の必要を満たすために設計され
たデータベースはデータウェハウスと呼ばれる。部門の特定の機能或いは必要を
満たすために設計されたデータベースはデータマートと呼ばれる。 【0100】 本実施例においては、ウェブを介してアクセスされるデータのセットは、同窓
会の事務局を有する私立大学のデータマートである。同窓会事務局は、資金を調
達することに関する部門の必要を満たすためにデータマートを構築した。データ
マート内の情報は、同窓会データベース、他の大学のデータベース、大学のデー
タウェハウス、アンケートの回答及び外部データソースを含む様々なソースに由
来する。データマートを創生しデータを記入するためにはカリフォルニア州Palo
AltoのE. Piphanyにより市販されているEpimanagerを利用することができる。
他のツールも利用可能であり、同様に用いることができる。データマートは、1
00個のオーダの属性を有するものであって良い。本実施例においては、同窓会
事務局データマートは12個の属性を有するのみである。 【0101】 図7は、本発明のある実施例において用いられたウェブブラウザーインターフ
ェースを示す。図7は、属性選択エリア700を有する。属性選択エリア700
は、対応する属性に対してクラスター化を行うべきか否かを示すチェックボック
スと共にデータマートの属性をリストしている。ある実施例に於いては、属性選
択エリア700は、属性のいくつかのみをリストする。他の実施例では、ステッ
プ500に於ける特徴削除が実行され、属性選択エリア700上には選択対象と
して上位k個の属性のみが表示される。 【0102】 同窓会事務局データマートに於いては、12個の属性は、クラスへの帰属意識
、期待を満たしたか否か、距離、所得ブラケット、同窓会刊行物を読むか否か、
性別、卒業年、担当教官、大学への帰属意識、学長の名前を知っているか否か、
満足度及び寄付者の地位からなる。チェックされた属性のみがクラスター化に用
いられ、この場合距離属性706、所得ブラケット属性708、担当教官属性7
10、帰属属性712、寄付者地位属性714からなる。この時点に於いては、
報告作成ボタン704を選択することにより、選択された属性を用いてクラスタ
ー化プロセスを実行することができる。 【0103】 ウェブブラウザーインターフェースは追加のフィルターオプションを提供する
。これにより、ユーザはフィルターを定義することによりデータマート全体のサ
ブセットに対して作業を行うことができる。フィルターボタン702はフィルタ
ーオプションに対するアクセスを可能にする。本実施例においては、ユーザがフ
ィルターボタン702に対して作用することにより、フィルターを定義するため
のウィンドウがウェブブラウザー上に表示される。 【0104】 図8はフィルター定義ウィンドウの関連する部分を示す。フィルター定義ウィ
ンドウは選択領域800、選択値ボタン802及びOKボタン804を含む。選
択領域800は、フィルターを定義する上で使用される1つ又は複数の属性の選
択を可能にする。値選択ボタン802は、選択領域800において1つ又は複数
の属性が選択された後に選択される。本実施例の場合、ユーザは選択領域800
における帰属意識属性を選択し、選択値ボタン802に作用する。 【0105】 図9は、選択値ウィンドウの関連部分を示す。選択値ウィンドウは、選択領域
800において選択された属性のそれぞれの値を選択可能とする。選択領域80
0において選択された各属性についてフィルタータイプ選択領域900及びフィ
ルター値選択領域902が表示される。本実施例の場合、帰属意識属性のみが選
択され、1つのフィルタータイプ選択領域−フィルター値選択領域からなるペア
のみが表示される。 【0106】 属性が取り得る各値について、フィルター値選択領域902は、その値及び対
応するチェックボックスを表示する。チェックボックスの1つをチェックするこ
との意味は、対応するフィルタータイプ選択領域900に於ける選択によって決
定される。この場合、マッチするフィルタータイプ901が選択される。このフ
ィルタータイプについて、フィルター値選択領域902に於いてチェックされた
値にマッチするデータポイントのみがクラスター化に用いられる。本実施例に於
ける他のフィルタータイプとしては、全ての値を含む即ちフィルター値選択領域
902に於けるチェックボックスを無視する、或いはフィルター値選択領域90
0に於いてチェックされた値にマッチするデータ点を除外する等がある。 【0107】 本実施例の場合、ユーザは、帰属意識属性について、学校値904及びクラス
値906に対応するチェックボックスをチェックする。マッチするフィルタータ
イプ901が選択されているため、帰属意識属性が学校もしくはクラスに設定さ
れたレコードのみがクラスター化プロセスに含まれることになる。ユーザは作業
が完了するとOKボタン908に対して作用する。ある実施例においては、デー
タベースレコードを選択するために用いられたSQLクエリーを定義するフィル
ターが、CUBE演算及びクラスター化プロセスのために用いられる。ある実施
例においては、定義されたフィルターが、図7に於けるフィルターボタン702
の隣に表示される。 【0108】 ブラウザーインターフェースは更にオプションボタン716(図7)をも含む
。オプションボタン716は、クラスター化プロセスを制御するためのウィンド
ウを表示するために用いることができる。図10は、オプションボタン716に
対して作用した後に表示されるオプションウィンドウ1000を含む。 【0109】 本実施例においては、オプションウィンドウ1000は5つのオプションのセ
ットを含む。「どの結果」オプションセット1002は、出力にいくつのクラス
ターが含まれるかを制御する。「どの結果」オプションセット1002の設定は
、クラスター化プロセスに対して影響を及ぼさないが、出力をプロセスから得ら
れたn個の最も大きいクラスターに限定する。 【0110】 ある実施例においては、「チャートを示せ」オプションセット1004は、ユ
ーザに対して、表2に示されたレイアウトに従って、パイチャート又はバーチャ
ートを出力に含めるべきか否かをユーザに対して制御可能とする。 【0111】 ソースの最大数オプションセット1006を、図5のステップ500に於ける
特徴削除オプションを起動するために用いることができる。例えば、ソースの最
大数が3に設定された場合、属性選択領域700に於いて選択された属性の内の
上位3つの属性のみがクラスター化のために用いられる。これらの3つの属性は
、式3により算出された最も低いエントロピー値を有する3つの属性を用いるこ
とにより同定することができる。 【0112】 「よりも大きなグループを指せ」オプションセット1008は、クラスターに
於けるデータ点の数に基づき出力表示を制限するために用いられる。選択された
サイズよりも大きなグループのみが出力に表示される。この設定は、ステップ5
04に於いて用いられた停止条件を制御するためにも用いられる。本実施例に於
いては、更なるクラスター化が、「よりも大きなグループを指せ」オプションセ
ット1008に於いて示された設定以下にクラスターのサイズを減少させる場合
には停止条件が満たされる。 【0113】 ある実施例に於いては、いくつかの数のクラスターオプションセット1010
を用いて、生成されたクラスターの総数を制限することができる。これは、結果
として得られたクラスターの数を選択された数に限定する。ある実施例に於いて
は、クラスター化は、横方向を先に行われる。 【0114】 「サブセット化を実行せよ」オプションセット1012は、ステップ510に
於いてサブセット化を行うべきか否かをユーザに制御させる。 【0115】 これらのオプションが調整されると、ユーザは報告作成ボタン704に作用し
、図5のプロセスに基づきデータのセットをクラスター化し、その結果を表示す
る。この結果は、クラスター化オプションと共に表示することも、別個のウイン
ドウに表示することもできる。この場合、結果は図1に示されるように報告オプ
ションの下側に直接表示される。 【0116】 図11は、図5のクラスター化プロセスが終了した後に、ウェブブラウザーの
ウインドウの中に表示される出力を示す。ブラウザーウインドウ内に表示された
文章の上側部分1100は、クラスターを生成するために用いたオプションを表
示し、それによって容易に更なる調整を介して更なる洗練化を図ることができる
。ウェブブラウザーの表示をスクロールすることによりその全体を見ることので
きる文章の残りの部分1102は、クラスター化プロセスからの出力である。 【0117】 図12は本発明の1実施例に基づく出力を示す。本実施例では、クラスターか
らデータをフィルタすることなく実行される。出力の第1行1200は、クラス
ター化を行った属性を示す出力である。フィルタを実行した場合、そのことも表
示される。行1202は、結果がどのように表示されるかに関する情報を表示す
る。この場合、結果はクラスターのサイズの順番に表示される。他の表示オプシ
ョンも利用可能である。本実施例に於いては、デシジョンツリーの全体が示され
ていないが、それを示すことも可能である。 【0118】 出力のセクション1204は、クラスター化属性の全ての相互影響を含む出力
である。これらの値は、デシジョンツリーのルートノードに於いて式4を用いて
算出することができる。本実施例の場合、帰属意識属性が最も高い相互影響を有
する。従って、ルートノードは、帰属意識属性に基づいてデータをクラスター化
することが予測されるが、それが最も高い相互影響を有するためには最も高い影
響値を有するものでなければならないからである。 【0119】 図13は、出力の別の部分を示すテーブル1300を示す。テーブル1300
はテーブル2のスキームと同様のものである。データセットに於ける各属性につ
いて、テーブル1300に列が設けられている。担当教官属性及び距離属性につ
いての列のみが示されている。各クラスターについて1つの行が設けられ、デー
タのセットの全体に対して1つの行が設けられている。行1302は、データの
セット全体についての情報を有する行である。行1304は、クラスターの1つ
に対応する行である。各クラスターはチェックボックスを用いて選択することが
できる。選択されたクラスターは更に分析したり、或いは利用のためにデータマ
ートから単純に検索することもできる。 【0120】 各クラスターは、デシジョンツリーのルートノードからリーフノードに至るパ
スに従うに伴って決定されるようにクラスターの翻訳可能な意味に基づいて記述
される。 【0121】 本実施例の場合、デシジョンツリーのルートノードは帰属意識属性である。行
1304に示されたクラスターは、次のようなデシジョンツリーの経路によって
到達される。(開始)帰属意識=大学全体−所得ブラケット=$50,000か
ら$100,000−距離=500マイル以上−寄付者地位=休眠。 【0122】 ある実施例では、クラスターは行1304に於いて文字により記述され、パス
の開始点は上側であって、パスの終点は下側である。しかしながら、属性は順番
にリストされる必要はない。又、クラスター内のデータの数もまた選べる。 【0123】 パイチャート1308をパイチャート1306と比較することにより、行13
04に対応するクラスターとデータセット全体との間に於ける担当教官属性に於
ける差を理解することができる。 【0124】 このタイプの比較は、システムにおけるクリチカルな点を同定する上で有用で
ある。例えば、販売の電話を受け付けるコールセンターについてのデータ点を含
むデータのセットを考えるものとする。属性としては、待ち時間、通話時間、購
入額、繰り返し通話、通話の中断、再び購入等がある。パイチャートを見ること
により容易に理解できるように、待ち時間は再び購入するか否かに対して強い影
響を及ぼす。この情報は、コールセンターのオペレータの数を調整するなどプロ
セスを洗練させるために利用することができる。 【0125】 また、レポートは、図6のデシジョンツリーのようなデシジョンツリーを含む
ものであって良い。 【0126】 D.別の実施例 上記した実施例では、全ての属性が高度に離散的であった。更に、年齢、所得
等の属性はすでに更に離散化され、ブラケットに分類されていた。この方法を、
整数のような離散的なデータとは異なり、実数のように非離散的な属性を取り扱
うために拡張することができる。1つの方法はこれらの属性を離散化することで
ある。これは手動或いは自動的に行うことができる。 【0127】 手動的方法は、ブラケットを定義し、データセットの追加の属性を即ち一時的
な属性を生成することからなる。例えば、統計データのセットは年齢の属性を含
む場合がある。年齢ブラケットと呼ばれる追加の属性を追加し、一時テーブルに
保存することができる。年齢ブラケットは10年単位で設定される。即ち、<1
0,10―19のように表せる。或いは、年齢ブラケットを更に細分化すること
もできる。例えば、高年者の研究においては、一般住民の研究のための年齢ブラ
ケットとは異なるものが用いられることになろう。 【0128】 他の方法としては、離散化するための即ち属性を更に離散化するための自動化
されたシステムを用いることにある。1つの方法は、値をb個の同じ大きさのブ
ラケットに分配し、或いはどこにブラケットの境界を配置するべきかを決定する
混合モデルを用いることである。 【0129】 ある実施例に於いては、データのセットをクラスター化しアクセスするための
プログラムが、コンピュータにより利用可能なCD−ROM、フロッピー(登録 商標)ディスクその他の媒体などの1つ又は複数が含まれる。 【0130】 本発明のある実施例は電磁波の形式を含む。電磁波は、クラスター化プログラ
ムや、ウェブブラウザーによってネットワークを介してクラスター化プログラム
に作用可能にするようなプログラムを含む。電磁波は、ネットワークを介してア
クセスされるクラスター化プログラムを含むものとする。 【0131】 E.結論 このように、データセットからクラスターを生成するための方法及び装置を定
義した。この方法は、クラスターの内容を意味あるように翻訳するために用い得
るデシジョンツリーを生成する。更に、デシジョンツリーのルートからクラスタ
ーに至るパスは、マッチするデータを検索するために容易に用い得るようなSQ
Lクエリを定義する。この方法はなんら近似或いは距離関数を必要としないため
非ドメイン依存である。この方法は、大きなデータセットに対して高度にスケー
ラブルであり、データセットに対して繰り返しアクセスすることを必要としない
。この方法は、データセットをアクセスするためにCUBE演算が利用可能であ
る場合にはO(n)時間を介して実行される。 【0132】 本発明が、その詳細な実施例に関して例示され且つ説明されてきたが、当業者
には、形状及び詳細な部分の変更が添付の請求項の範囲を逸脱せずに可能なこと
は容易に理解されよう。 【図面の簡単な説明】 【図1】 2つの属性を有し、k=3であるようなデータセットについ
てk−meansアルゴリズムにより決定される中心(centroid)及び
クラスターを示す。 【図2】 HAC(hierarchical aglommerative clustering)アルゴ
リズムにより決定されるクラスターを示す。 【図3】 Autoclass手法を適用して得られ得る混合モデルを示す。 【図4】 新たな要素を挿入する直前にCOBWEBアルゴリズムによ
り決定されるクラスターを示す。 【図5】 本発明の一実施例に基づく、デシジョンツリーを構成するた
めの方法のフローチャートを示す。 【図6】 本発明の一実施例に基づき構成されたデシジョンツリーの一
部を示す。 【図7】 データマートに対するウェブブラウザインターフェースを介
する本発明の一実施例の適用例を示す。 【図8】 データマートに対するウェブブラウザインターフェースを介
する本発明の一実施例の適用例を示す。 【図9】 データマートに対するウェブブラウザインターフェースを介
する本発明の一実施例の適用例を示す。 【図10】 データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。 【図11】 データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。 【図12】 データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。 【図13】 データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AG,AL,AM,AT,AU, AZ,BA,BB,BG,BR,BY,CA,CH,C N,CR,CU,CZ,DE,DK,DM,DZ,EE ,ES,FI,GB,GD,GE,GH,GM,HR, HU,ID,IL,IN,IS,JP,KE,KG,K P,KR,KZ,LC,LK,LR,LS,LT,LU ,LV,MA,MD,MG,MK,MN,MW,MX, NO,NZ,PL,PT,RO,RU,SD,SE,S G,SI,SK,SL,TJ,TM,TR,TT,TZ ,UA,UG,US,UZ,VN,YU,ZA,ZW 【要約の続き】 強い影響を有する属性を特定することにより決定され る。同定された属性により仮定される値のそれぞれは、 クラスター及びデシジョンツリーに於けるノードに対応 する。ある実施例に於いては、データセットを一回のみ アクセスするためにCUBE演算が用いられ、その結果 が、影響、その他の演算のために利用される。

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 データのセットから、前記データセットのサブセットから
    なるクラスターを決定するための方法であって、 前記データセットから、それぞれ対応する属性値のセットを有する属性のセッ
    トを決定する過程と、 前記属性セットについて頻度情報を算出する過程と、 前記頻度情報を用いて関係値のセットを算出し、前記関係値セットの各関係値
    が、前記属性セットの1つの属性に対する、前記属性セットの他の属性の依存特
    性に対応するものとする過程と、 前記関係値のセットを算出した後に、前記属性セットから、前記関係値セット
    の内の最も高い関係値を有するものに対応するような1つの属性を選択する過程
    と、 選択された前記属性の前記対応属性値セット内に前記属性値の1つを有するよ
    うな、前記データセットのサブセットに対応するクラスターを同定する過程とを
    有することを特徴とする方法。
  2. 【請求項2】 更に追加のクラスターを決定するために、選択された前記
    属性の前記対応属性値セットについて反復して複数のクラスターを決定し、前記
    算出及び反復過程を再帰的に適用して追加のクラスターを決定する過程を更に有
    することを特徴とする請求項1に記載の方法。
  3. 【請求項3】 属性セットを決定する前記過程が、第2の属性セットから
    前記属性セットを同定するための選択信号を受ける過程を更に有することを特徴
    とする請求項1に記載の方法。
  4. 【請求項4】 属性セットを決定する前記過程が、前記属性セットをk個
    の属性に縮小する過程を更に有し、該縮小過程が、 前記属性セットの各属性について対応するエントロピを算出する過程と、 最も低いエントロピを有するk個の属性を前記属性セット内に保持する過程と
    を有することを特徴とする請求項1に記載の方法。
  5. 【請求項5】 前記頻度情報算出過程が、前記属性セットのための前記
    データセットに対して、前記頻度情報を算出するべきCUBE演算を実行する過
    程を有することを特徴とする請求項1に記載の方法。
  6. 【請求項6】 クラスターを定義可能であるか否かを決定する過程と、
    該決定過程の結果に応じて前記算出過程が実行されることを特徴とする請求項1
    に記載の方法。
  7. 【請求項7】 クラスターを定義可能であるか否かを決定する前記過程
    が、前記関係値セットの内の少なくとも1つの関係値が所定値を超えた場合にの
    み前記クラスターを生成する過程を有することを特徴とする請求項1に記載の方
    法。
  8. 【請求項8】 前記データセットが、或る数のデータ点を有し、クラス
    ターを定義可能であるか否かを決定する前記過程が、前記データセット内にクラ
    スターするべき残りのデータ点の数が所定値を超えた場合のみ前記クラスターを
    生成する過程を有し、前記所定値が、データ点の絶対数又はデータ点の総数の或
    る割合のいずれかであることを特徴とする請求項1に記載の方法。
  9. 【請求項9】 前記関係値セット算出過程が、前記属性セットの各属性
    の影響を算出する過程を更に有することを特徴とする請求項1に記載の方法。
  10. 【請求項10】 前記属性セットの各属性の影響を算出する前記過程が
    、前記属性セット内の属性の対の相互情報(MI)を算出する過程を更に有する
    ことを特徴とする請求項9に記載の方法。
  11. 【請求項11】 ノードからサブセットを創生する過程を更に有し、該
    過程が、 前記属性セット内から、前記関係値中2番目に高い対応関係値を有する第2の
    属性を選択する過程と、 ベクトルのセット間のBhattachryya距離を算出する過程と、 前記ベクトルセット内の少なくとも2つのベクトル間のBhattachryya距離が、
    所定値を超えた場合にサブセットを創生する過程とを有し、 前記ベクトルセット内の各ベクトルが、前記属性に対応する前記属性値セット
    中の属性値に対応し、前記各ベクトルが、前記属性値のそれぞれの確率からなる
    ことを特徴とする請求項1に記載の方法。
  12. 【請求項12】 前記サブセット及び前記属性に対応する前記属性セッ
    ト中の残りの属性値について実行される反復過程をして更に有することを特徴と
    する請求項11に記載の方法。
  13. 【請求項13】 デシジョンツリーを用いてデータのセットの複数のクラ
    スターを創生するための装置であって、前記複数のクラスターのそれぞれが、前
    記データセットのサブセットからなり、前記データセットが、或る数のデータ点
    からなり、前記データ点のそれぞれが、属性セット内のそれぞれの属性に対応す
    る複数の属性値からなり、前記デシジョンツリーが、複数のリーフノードを有し
    、前記複数のリーフノードのそれぞれが、前記複数のクラスター中の1つのクラ
    スターに対応するような装置に於いて、 前記データセットについて頻度情報を検索する手段と、 前記属性セット内から1つの属性を選択するために前記頻度情報を用いる手段
    と、 前記デシジョンツリーに、前記属性に対応するノードを追加する手段と、 前記ノードから複数の子ノードを構成するために前記頻度情報を用い、前記ノ
    ードから前記子ノードのそれぞれに至るパスが、前記属性の属性値に対応するよ
    うにするための手段とを有することを特徴とする装置。
  14. 【請求項14】 前記子ノードの1つがサブセットをなし、前記ノード
    から複数の子ノードを構成するために前記頻度情報を用いる前記手段が更に、 前記属性セットから第2の属性を選択する手段と、 前記第2の属性に対応する属性値に関する頻度情報を利用し、前記属性のため
    の少なくとも2つの属性値からなるサブセットを創生する手段とを有することを
    特徴とする請求項13に記載の装置。
  15. 【請求項15】 前記属性の属性値の分布の均一性に基づき、前記属性
    セットから少なくとも1つの属性を削除するための手段を更に有することを特徴
    とする請求項13に記載の装置。
  16. 【請求項16】 クラスターを定義可能であるか否かを決定するための
    手段を更に有することを特徴とする請求項13に記載の装置。
  17. 【請求項17】 デシジョンツリーを用いて確率論的にデータのセットを
    クラスターするための方法であって、 複数のクラスターを生成する過程を有し、前記複数のクラスターのそれぞれが
    、前記データセットのサブセットに対応し、前記複数のクラスターのそれぞれが
    、前記デシジョンツリーのリーフノードに対応し、前記複数のクラスターのそれ
    ぞれが翻訳可能(interpretable)であって、当該方法が、O(n)時間につい
    て実行され、nが前記属性セットのデータ点の数であることを特徴とする方法。
  18. 【請求項18】 前記データが、CUBE演算を用いてアクセスされる
    ことにより、前記属性セットの属性値の頻度を検索することを特徴とする請求項
    17に記載の方法。
  19. 【請求項19】 前記デシジョンツリーのルートノードからリーフノー
    ドへのパスが、前記データセットから対応するクラスターを検索するためのSQ
    Rクエリーを同定することを特徴とする請求項17に記載の方法。
  20. 【請求項20】 n個のデータ点からなるデータのセットに於いてクラス
    ターC(x,x=ν)を決定するための方法であって、 前記データセットがa個の属性(x,x,...,x)を同定し、前記
    n個のデータ点が、対応する属性の属性値を有するa−ベクトルであって、前記
    クラスターC(x,x=ν)が前記データセットのサブセットであって、i
    ∈{1,...,a}、属性xは、属性xの属性値νに等しいことを特徴と
    する方法。
  21. 【請求項21】 【数1】 となるように、iが選択されることを特徴とする請求項20に記載の方法。
  22. 【請求項22】 キャリア波により搬送されるコンピュータデータ信号で
    あって、 デシジョンツリーを用いて確率論的にデータのセットをクラスターするための
    コンピュータプログラムを有し、該コンピュータプログラムが複数のクラスター
    を生成し、かつ それぞれ対応する属性値のセットを有する属性のセットを決定するための第1
    の命令のセットと、 前記属性セットのための頻度情報を算出するための第2の命令のセットと、 クラスターが定義可能か否かを決定するための第3の命令のセットと、 前記決定過程の結果に応じて、前記頻度情報を用いて関係値のセットを算出し
    、前記関係値セットの各関係値が、前記属性セットの1つの属性の、前記属性セ
    ットの他の属性に対する関連特性に対応するようにするための第4の命令のセッ
    トと、 前記算出過程の後に、前記属性セットから、前記関係値セットの内の最も高い
    関係値を有するものに対応するような1つの属性を選択することにより、デシジ
    ョンツリーにノードを配置するための第5の命令のセットと、 前記ノードから複数の子ノードを構成し、前記ノードから前記子ノードのそれ
    ぞれに至るパスが、前記属性の属性値に対応するようにするための第6の命令の
    セットとを有することを特徴とするコンピュータデータ信号。
  23. 【請求項23】 HTTPサーバとインターフェースするための第7の
    命令のセットを更に有することを特徴とする請求項22に記載のコンピュータデ
    ータ信号。
  24. 【請求項24】 前記複数のクラスターのそれぞれを記述するHTML
    文書を生成するための第8の命令のセットを更に有することを特徴とする請求項
    22に記載のコンピュータデータ信号。
  25. 【請求項25】 それ自身の中からクラスターを同定するためのプログ
    ラムを有するデータマートであって、前記クラスターが前記データマート内のデ
    ータのサブセットを有し、前記クラスターが、属性及びこれら属性の属性値から
    なるリストにより記述されることを特徴とするデータマート。
  26. 【請求項26】 前記データマート及びクラスターを同定するための前
    記プログラムが、ウェブブラウザインターフェースによりアクセスされることを
    特徴とする請求項24に記載のデータマート。
  27. 【請求項27】 前記クラスターが、前記データマート内の属性が値を
    有するようなデータ点を含む前記データマート内のデータのサブセットに対応し
    、前記属性が、前記データマート内の他の属性に比較して最も強い影響を有する
    ことを特徴とする請求項24に記載のデータマート。
JP2000615960A 1999-05-03 2000-04-28 デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置 Pending JP2002543535A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/304,509 1999-05-03
US09/304,509 US6564197B2 (en) 1999-05-03 1999-05-03 Method and apparatus for scalable probabilistic clustering using decision trees
PCT/US2000/011626 WO2000067194A2 (en) 1999-05-03 2000-04-28 Method and apparatus for scalable probabilistic clustering using decision trees

Publications (1)

Publication Number Publication Date
JP2002543535A true JP2002543535A (ja) 2002-12-17

Family

ID=23176833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000615960A Pending JP2002543535A (ja) 1999-05-03 2000-04-28 デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置

Country Status (6)

Country Link
US (1) US6564197B2 (ja)
EP (1) EP1145184A3 (ja)
JP (1) JP2002543535A (ja)
AU (1) AU780253B2 (ja)
CA (1) CA2378145A1 (ja)
WO (1) WO2000067194A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100363A (ja) * 2003-08-14 2005-04-14 Internatl Business Mach Corp <Ibm> オンラインならびにオフラインのコンポーネントを介した進展しているデータ・ストリームのクラスタリングのための方法および装置

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694482B1 (en) * 1998-09-11 2004-02-17 Sbc Technology Resources, Inc. System and methods for an architectural framework for design of an adaptive, personalized, interactive content delivery system
US7086007B1 (en) * 1999-05-27 2006-08-01 Sbc Technology Resources, Inc. Method for integrating user models to interface design
US7224790B1 (en) * 1999-05-27 2007-05-29 Sbc Technology Resources, Inc. Method to identify and categorize customer's goals and behaviors within a customer service center environment
US6862559B1 (en) * 1999-07-23 2005-03-01 Xerox Corporation Methods and apparatuses for measuring diversity in combinatorial structures
US20040006473A1 (en) * 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
US6778643B1 (en) * 2000-03-21 2004-08-17 Sbc Technology Resources, Inc. Interface and method of designing an interface
AU2001261227A1 (en) * 2000-05-05 2001-11-20 Raytheon Company Method and system for accessing data in a database warehouse
NZ522509A (en) * 2000-06-12 2004-09-24 Epredix Inc Computer-implemented system for human resources management
GB2363954A (en) * 2000-06-24 2002-01-09 Ncr Int Inc Displaying a visual decision tree and information buttons
GB2372598A (en) * 2001-02-26 2002-08-28 Coppereye Ltd Organising data in a database
US7007035B2 (en) * 2001-06-08 2006-02-28 The Regents Of The University Of California Parallel object-oriented decision tree system
WO2002101581A2 (de) * 2001-06-08 2002-12-19 Siemens Aktiengesellschaft Statistische modelle zur performanzsteigerung von datenbankoperationen
US6882998B1 (en) * 2001-06-29 2005-04-19 Business Objects Americas Apparatus and method for selecting cluster points for a clustering analysis
US20070156665A1 (en) * 2001-12-05 2007-07-05 Janusz Wnek Taxonomy discovery
US7061490B2 (en) * 2001-12-31 2006-06-13 Polynarythink, Llc Multi-variate data and related presentation and analysis
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) * 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
EP1504373A4 (en) * 2002-04-29 2007-02-28 Kilian Stoffel SEQUENCE MINER
US7747624B2 (en) * 2002-05-10 2010-06-29 Oracle International Corporation Data summarization
EP1367534A3 (en) * 2002-05-30 2008-07-02 L'oreal Method involving artificial intelligence
US7133811B2 (en) * 2002-10-15 2006-11-07 Microsoft Corporation Staged mixture modeling
US7007069B2 (en) * 2002-12-16 2006-02-28 Palo Alto Research Center Inc. Method and apparatus for clustering hierarchically related information
US7542960B2 (en) * 2002-12-17 2009-06-02 International Business Machines Corporation Interpretable unsupervised decision trees
GB0304639D0 (en) 2003-02-28 2003-04-02 Kiq Ltd Classification using re-sampling of probability estimates
US20040199484A1 (en) * 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis
US7418430B2 (en) * 2003-07-28 2008-08-26 Microsoft Corporation Dynamic standardization for scoring linear regressions in decision trees
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
US7555441B2 (en) * 2003-10-10 2009-06-30 Kronos Talent Management Inc. Conceptualization of job candidate information
US7027586B2 (en) * 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
US7257571B2 (en) * 2004-01-26 2007-08-14 Microsoft Corporation Automatic query clustering
US8090698B2 (en) 2004-05-07 2012-01-03 Ebay Inc. Method and system to facilitate a search of an information resource
US7580986B2 (en) * 2004-05-17 2009-08-25 Pixar Dependency graph-based aggregate asset status reporting methods and apparatus
WO2005117531A2 (en) * 2004-06-04 2005-12-15 Mats Danielson A support system for decision analysis
EP1831804A1 (de) * 2004-12-24 2007-09-12 Panoratio Database Images GmbH Relationale komprimierte datenbank-abbilder (zur beschleunigten abfrage von datenbanken)
US7844566B2 (en) * 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
EP1941432A4 (en) * 2005-10-25 2011-04-20 Angoss Software Corp STRATEGY TREES FOR DATA MINING
US8924335B1 (en) 2006-03-30 2014-12-30 Pegasystems Inc. Rule-based user interface conformance methods
US20070260626A1 (en) * 2006-05-04 2007-11-08 Claudia Reisz Method for customer-choice-based bundling of product options
US7904456B2 (en) * 2006-09-01 2011-03-08 Robert John Hennan Security monitoring tool for computer network
US7752574B2 (en) * 2006-10-02 2010-07-06 Sas Institute Inc. System, method and article for displaying data distributions in data trees
US20080086493A1 (en) * 2006-10-09 2008-04-10 Board Of Regents Of University Of Nebraska Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources
US20090171986A1 (en) * 2007-12-27 2009-07-02 Yahoo! Inc. Techniques for constructing sitemap or hierarchical organization of webpages of a website using decision trees
US20100169317A1 (en) * 2008-12-31 2010-07-01 Microsoft Corporation Product or Service Review Summarization Using Attributes
US7685584B1 (en) 2009-01-05 2010-03-23 International Business Machines Corporation Heuristic method for the analysis of switch tables in position-independent binary code
US8843435B1 (en) 2009-03-12 2014-09-23 Pegasystems Inc. Techniques for dynamic data processing
US8468492B1 (en) 2009-03-30 2013-06-18 Pegasystems, Inc. System and method for creation and modification of software applications
US8204838B2 (en) * 2009-04-10 2012-06-19 Microsoft Corporation Scalable clustering
US8626693B2 (en) * 2011-01-14 2014-01-07 Hewlett-Packard Development Company, L.P. Node similarity for component substitution
US9817918B2 (en) 2011-01-14 2017-11-14 Hewlett Packard Enterprise Development Lp Sub-tree similarity for component substitution
US8730843B2 (en) 2011-01-14 2014-05-20 Hewlett-Packard Development Company, L.P. System and method for tree assessment
US8832012B2 (en) * 2011-01-14 2014-09-09 Hewlett-Packard Development Company, L. P. System and method for tree discovery
US8880487B1 (en) 2011-02-18 2014-11-04 Pegasystems Inc. Systems and methods for distributed rules processing
US9026591B2 (en) 2011-02-28 2015-05-05 Avaya Inc. System and method for advanced communication thread analysis
US9053438B2 (en) 2011-07-24 2015-06-09 Hewlett-Packard Development Company, L. P. Energy consumption analysis using node similarity
US9589021B2 (en) 2011-10-26 2017-03-07 Hewlett Packard Enterprise Development Lp System deconstruction for component substitution
US9195936B1 (en) 2011-12-30 2015-11-24 Pegasystems Inc. System and method for updating or modifying an application without manual coding
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9537706B2 (en) 2012-08-20 2017-01-03 Plentyoffish Media Ulc Apparatus, method and article to facilitate matching of clients in a networked environment
US11568008B2 (en) 2013-03-13 2023-01-31 Plentyoffish Media Ulc Apparatus, method and article to identify discrepancies between clients and in response prompt clients in a networked environment
US9633311B2 (en) 2013-07-03 2017-04-25 Sas Institute Inc. Decision tree learning
US9672289B1 (en) 2013-07-23 2017-06-06 Plentyoffish Media Ulc Apparatus, method and article to facilitate matching of clients in a networked environment
US9870465B1 (en) 2013-12-04 2018-01-16 Plentyoffish Media Ulc Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment
US10540607B1 (en) 2013-12-10 2020-01-21 Plentyoffish Media Ulc Apparatus, method and article to effect electronic message reply rate matching in a network environment
US10138717B1 (en) * 2014-01-07 2018-11-27 Novi Labs, LLC Predicting well performance with feature similarity
US20160299961A1 (en) * 2014-02-04 2016-10-13 David Allen Olsen System and method for grouping segments of data sequences into clusters
US10108968B1 (en) 2014-03-05 2018-10-23 Plentyoffish Media Ulc Apparatus, method and article to facilitate automatic detection and removal of fraudulent advertising accounts in a network environment
US10387795B1 (en) 2014-04-02 2019-08-20 Plentyoffish Media Inc. Systems and methods for training and employing a machine learning system in providing service level upgrade offers
US9836533B1 (en) 2014-04-07 2017-12-05 Plentyoffish Media Ulc Apparatus, method and article to effect user interest-based matching in a network environment
US20150324702A1 (en) * 2014-05-09 2015-11-12 Wal-Mart Stores, Inc. Predictive pattern profile process
US10469396B2 (en) 2014-10-10 2019-11-05 Pegasystems, Inc. Event processing with enhanced throughput
WO2016068955A1 (en) * 2014-10-30 2016-05-06 Hewlett Packard Enterprise Development Lp Data entries having values for features
AU2017274558B2 (en) * 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US10698599B2 (en) 2016-06-03 2020-06-30 Pegasystems, Inc. Connecting graphical shapes using gestures
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置
US10698647B2 (en) 2016-07-11 2020-06-30 Pegasystems Inc. Selective sharing for collaborative application usage
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11048488B2 (en) 2018-08-14 2021-06-29 Pegasystems, Inc. Software code optimizer and method
CN111565374B (zh) * 2020-04-13 2021-10-15 浙江大学 一种基于动态反馈机制的信息分发策略优化方法
CN111898322B (zh) * 2020-08-11 2024-03-01 腾讯科技(深圳)有限公司 一种数据处理方法及相关设备
US11567945B1 (en) 2020-08-27 2023-01-31 Pegasystems Inc. Customized digital content generation systems and methods
CN112329843B (zh) * 2020-11-03 2024-06-11 中国平安人寿保险股份有限公司 基于决策树的呼叫数据处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0261769A (ja) * 1988-08-29 1990-03-01 Fujitsu Ltd 分類決定木生成装置
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
JPH1173431A (ja) * 1997-02-10 1999-03-16 Nippon Telegr & Teleph Corp <Ntt> データの特徴に基づく定義生成支援装置、方法およびそのプログラムを格納した記憶媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840683A (ja) 1981-06-04 1983-03-09 ダ−レル・エドワ−ズ 種々の要素および構成概念間の相互関係をマツピングするための解析的方法および装置
US5809499A (en) * 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US5787274A (en) 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
US5930392A (en) * 1996-07-12 1999-07-27 Lucent Technologies Inc. Classification technique using random decision forests
US5799300A (en) 1996-12-12 1998-08-25 International Business Machines Corporations Method and system for performing range-sum queries on a data cube
US6128587A (en) * 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis
US6278464B1 (en) * 1997-03-07 2001-08-21 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a decision-tree classifier
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0261769A (ja) * 1988-08-29 1990-03-01 Fujitsu Ltd 分類決定木生成装置
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
JPH1173431A (ja) * 1997-02-10 1999-03-16 Nippon Telegr & Teleph Corp <Ntt> データの特徴に基づく定義生成支援装置、方法およびそのプログラムを格納した記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
森本 康彦: "領域及び区間分割を用いた決定木の作成", 情報処理学会研究報告 VOL.97 NO.68, vol. 第97巻 第68号, JPN6010007655, 24 July 1997 (1997-07-24), JP, pages 9 - 16, ISSN: 0001541251 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100363A (ja) * 2003-08-14 2005-04-14 Internatl Business Mach Corp <Ibm> オンラインならびにオフラインのコンポーネントを介した進展しているデータ・ストリームのクラスタリングのための方法および装置

Also Published As

Publication number Publication date
AU780253B2 (en) 2005-03-10
US20030065635A1 (en) 2003-04-03
WO2000067194A2 (en) 2000-11-09
CA2378145A1 (en) 2000-11-09
EP1145184A3 (en) 2002-04-03
EP1145184A2 (en) 2001-10-17
AU4500700A (en) 2000-11-17
WO2000067194A3 (en) 2001-08-02
US6564197B2 (en) 2003-05-13

Similar Documents

Publication Publication Date Title
JP2002543535A (ja) デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置
US11036814B2 (en) Search engine that applies feedback from users to improve search results
Lan et al. A survey on advancing the dbms query optimizer: Cardinality estimation, cost model, and plan enumeration
Zhang et al. Knowledge discovery in multiple databases
Zhu On-line analytical mining of association rules
Tjioe et al. Mining association rules in data warehouses
US20040034633A1 (en) Data search system and method using mutual subsethood measures
US20080114750A1 (en) Retrieval and ranking of items utilizing similarity
US20040024756A1 (en) Search engine for non-textual data
US20010016846A1 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
US20030229635A1 (en) Efficient evaluation of queries with mining predicates
US20040024755A1 (en) System and method for indexing non-textual data
Seleznova et al. Guided exploration of user groups
JP2002041573A (ja) 情報検索システム
Khan et al. Web document clustering using a hybrid neural network
Tejasree et al. An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining
JPH09114847A (ja) 情報処理装置
Scheuermann et al. Multidatabase query processing with uncertainty in global keys and attribute values
Sumathi et al. Data mining and data warehousing
Farmer Data mining technology across academic disciplines
Vassiliadisa et al. Beyond roll-up’s and drill-down’s: An intentional analytics model to reinvent OLAP (long-version)
Demidova et al. An approach to identify the hidden patterns in the datasets for patients with the multiple chronic diseases
Himanshu et al. NOVEL TECHNIQUE FOR GENERATING AND IMPROVING CONCEPT HIERARCHIES FOR DATASETS IN KNOWLEDGE DISCOVERY
Zheng et al. Adding ReputationRank to member promotion using skyline operator in social networks
Ntoutsi Similarity Issues in Data Mining–Methodologies and Techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100706