JP2002543535A

JP2002543535A - デシジョンツリーを用いてスケーラブルな確率論的クラスター化を行うための方法及び装置

Info

Publication number: JP2002543535A
Application number: JP2000615960A
Authority: JP
Inventors: サハミ、メラン; ジョン、ジョージ・エイチ
Original assignee: イー．ピファニー・インコーポレイテッド
Priority date: 1999-05-03
Filing date: 2000-04-28
Publication date: 2002-12-17
Also published as: AU780253B2; US20030065635A1; WO2000067194A2; CA2378145A1; EP1145184A3; EP1145184A2; AU4500700A; WO2000067194A3; US6564197B2

Abstract

(57)【要約】本発明の実施例のあるものは、データベース、データウエアハウス或いはデータマートなどのデータセットに於いてクラスターを同定する方法を含む。同定されたクラスターは、各クラスターのついてリストされた属性及び対応する値のリストにより意味を有するものとして理解できる。本発明の実施例のあるものは、デシジョンツリーを用いたスケーラブルな確率論的クラスタリング方法を含む。本発明の実施例のあるものは、クラスターされるべきデータセットに於けるデータ点の数に関して線形であって、データセットに対してただ一回アクセスするのみで良い。本発明のある実施例は、属性のセット及び属性のセットについての属性値によって記述可能な翻訳可能クラスターを生成する。ある実施例に於いては、クラスターは、ルートノードから、クラスターに対応するデシジョンツリーのノードに至るパス上に於いて属性値及び属性を読み取ることにより翻訳される。ある実施例に於いては、ドメイン固有の近似性或いは距離関数が属性について存在することを必要としない。ある実施例に於いては、クラスターは、他の属性の分布に対して最も強い影響を有する属性を特定することにより決定される。同定された属性により仮定される値のそれぞれは、クラスター及びデシジョンツリーに於けるノードに対応する。ある実施例に於いては、データセットを一回のみアクセスするためにＣＵＢＥ演算が用いられ、その結果が、影響、その他の演算のために利用される。

Description

【発明の詳細な説明】【０００１】技術分野本発明は、データ分析の技術分野に関し、特にデシジョンツリーを生成するた
めに確率論的なクラスタリングを利用することに関する。【０００２】背景技術クラスタリングクラスターを同定することは、データのセット内に於けるパターンを同定する
上で有用である。データベース、データウエアハウス（data warehouse）、デー
タマート（data mart）などからなるデータのセットのサイズが増大するにした
がって、この種の知識発見（data discovery）、或いはデータの採掘（data min
ing）がますます重要となる。データの採掘により、このような大きなデータセ
ットに於けるパターンの認識や予測が可能となる。【０００３】さらに、多くの意志決定プロセスに於いて、結果が翻訳可能（interpretable
）すなわち理解可能であることも重要である。複雑な数式や図式的関係は、デー
タのセットに於けるパターン或いは傾向を人間が見出そうとする場合に必ずしも
好適でない。【０００４】例えば、金融機関が、ローンの実体に於ける傾向を評価しようとする場合を考
えよう。ローンについての情報及びローンの決定に関する実際のデータのセット
は何百万ものデータ点を有する。クラスターを同定することにより、様々なパタ
ーンを有し、或いは互いに強い相互関係を有するレコードのグループを同定する
ことが可能となる。例えば、ローンが承認された人のクラスターは、所得が高く
、借入額の低い人たちであるかもしれない。これは驚くべき結果ではないが、ク
ラスタリングによって、データ中の自明でないパターンを同定することが可能と
なる。また、結果は、将来のローンに関する予測的な価値を有することもある。
例えば、一つのクラスターでは、ある領域に於いて承認されたローンの件数が大
きいことが表されるのに対し、同様の他の地域ではそうではない場合がある。こ
のような情報は、将来ローンの決定を行う際に有用となり得る。【０００５】クラスターが翻訳可能である場合、これらのクラスターは意志決定プロセスを
推進するために利用することができる。しかしながら、得られたクラスターが複
雑な数式、グラフ或いはクラスター中心（centroid）ベクトルなどにより記述さ
れているような場合には、クラスターの有用性が削減される。翻訳可能なクラス
ターの一例はジップコードすなわち郵便番号、例えば９４３０４（Palo Alto，C
alifornia）などがある。このクラスターは格別説明を加えなくとも理解可能で
ある。クラスターは、意志決定を行ったり、企業の戦略を変更したりするために
利用することができる。翻訳不可能なクラスターの例としては、数式により規定
されるものがある。例えば、中心ベクトルから与えられたユークリッド距離内の
全てのデータ点などが考えられる。【０００６】クラスタリングのためにいくつかの手法が用いられてきた。クラスタリングの
基礎となる概念は、データセットのデータ点のそれぞれが、高次元空間に於ける
ベクトルにより表すことができることにある。データポイントのベクトルは、特
徴とも呼ばれる複数の属性（feature）からなっている。例えば、時間及び温度
など各データ要素について二つの属性があるデータのセットを例にとる。したが
って、データポイントＸは２次元ベクトルＸ＝（x₁，x₂）として表すことができ
る。ここでx₁は時間で、x₂は温度である。属性の数が増大するにつれて、ベクト
ルの長さが大きくなる。ｎ個の属性がある場合、データ点Ｘはｎ次元ベクトルＸ
＝（x₁，x₂，....，x_n）により表すことができる。【０００７】データベースの用語によれば、データのセットはテーブル或いは複数のテーブ
ルの組み合わせからなる。データポイントはレコードであり、これはエントリ或
いは行とも呼ばれる。属性はフィールドすなわち列からなる。【０００８】ｋ−ｍｅａｎｓ法クラスターを同定する一般的な手法としてはk-means法がある (Krishnaiah, P
. R. and Kanal, L.N., Classification Pattern Revognition, and Reduction
in Dimensionality, Amsterdam: North Holland, 1982を参照) 。ｋ-means法は
反復的な手法である。このプロセスは、ドメイン空間内にｋ個の中心を配置する
ことにより開始される。反復的なプロセスによりこれらの中心を調整し、やがて
その位置が安定化する。その結果、クラスターが中心の配置により規定されるこ
ととなる。図１は、ｋ-means法に基づき中心により規定されたクラスターのセッ
トを示している。データ点は二次元データドメイン空間内に於ける点「・」によ
り示されている。中心は「ｘ」により示されている。得られたクラスターは、楕
円により示される中心から所定の距離の範囲内のデータ点により構成される。【０００９】中心を配置し、クラスターを定義するために、ｋ-means法は、ドメインの均一
性に依存している。例えば、時間及び温度からなるデータ点を有するドメイン内
のデータのセットに於いては、ユークリッド距離を用いることができる。他の場
合にはハミング（Hamming）距離が用いられる。しかしながら、目の色、人種な
どの離散的な属性をデータセットが含む場合には、明瞭な均一機能が利用できな
い。ｋ-means法の場合には、非ドメイン依存性が欠如しているため、明瞭に規定
された均一機能が備わっているようなデータドメインにその適用が限定される。【００１０】ｋ-means法により結果として得られたクラスターは、翻訳が困難である。クラ
スターが中心及び中心からの距離により規定されているため、結果を翻訳するの
が困難である。銀行に於けるローン承認に関するデータに再び戻ると、結果とし
て得られる報告は、銀行ローンデータ点についての中心及び中心からの距離のリ
ストとなる。この種の情報は、さらなるコンピュータ分析を行うことが必要であ
って、直ちに意志決定プロセスに利用することができない。【００１１】また、ｋ-means法は多大な計算量が必要であって、クラスターを何らかの方法
で分析しようとする場合にはさらに追加の計算が必要となる。Big-O命名法によ
れば、ｋ-meansアルゴリズムは、Ｏ（ｋｎｄ）となり、ここでｋは中心数であり
、ｎはデータ点数であり、ｄは反復演算の回数である。【００１２】ＨＡＣ（Hierarchical Agglomerative Clustering）もう一つの従来技術に基づく手法としてはＨＡＣがある（Rasmussen, E. Clus
tering Algorithms, In Information Retrieval Data Structures and Algorith
ms, 1992を参照）。ＨＡＣの基本的な概念は、一つのデータ点のクラスターから
開始して、全てのデータ点をカバーする単一のクラスターが構成されるまでクラ
スターを組み合わせることにより、クラスターをツリー状に構成し得るというこ
とに基づく。図２は、ＨＡＣにより生成されたクラスターを示す。このプロセス
は次のように実行される。各データ点は、図２に於いて単一のデータ点を外囲す
る円により示されるクラスター内に自動的に配置される。次に、より小さなクラ
スターの最も互いに隣接した対を見いだすために近似または距離関数を用い、こ
れらの小さなクラスターは、より大きなクラスターに併合される。結果として得
られたクラスターは、図２に示されるようなデンドグラム（dendogram）に於け
るジャンクションとなる。図２に時間の経過とともに矢印により示されるように
、クラスターを組み合わせるプロセスは、ツリーが下から上に向けて構成される
に伴って実行される。【００１３】ｋ-means法と同様に、近似または距離関数が必要となる。したがって、ＨＡＣ
は、適切な距離関数を備えていないような離散的な属性を有するデータドメイン
に対して適用することができない。また、ｋ-means法と同様に、結果として得ら
れたクラスターは、それらの中心について分析可能であるのみであって、翻訳不
可能である。例えば、図２に展開されたクラスターに着目すると、ユーザが４つ
のクラスターを考慮したいという場合、４つのクラスターが存在するプロセスの
段階を選択することになろう。これらのクラスターは、しかしながら、さらなる
コンピュータ分析を行わない限り、何ら有意義な翻訳ができない。また、ＨＡＣ
は計算量が多大である。即ち、Ｏ（ｎ２）であり、ｎはデータ点の数である。【００１４】再び金融機関のローン承認のケースに着目すると、二つのクラスターがあって
、一つのクラスターには５００万個のデータ点があり、他方のクラスターには７
００万個のデータ点があることを知ることによって何ら人間にとって有意義な情
報を得ることができない。これは、ＨＡＣにより生成されたクラスターはｋ-mea
ns法と同様に中心に関して定義されるからである。【００１５】オートクラス（ＡｕｔｏＣｌａｓｓ）もう一つの従来技術に基づく手法としてはＮＡＳＡにより開発されたオートク
ラスがある（Cheeseman, P. and Stutz, J. Bayesian Classification (AutoCla
ss): Theory and Results. In Advances in knowledge Discovery and Data Min
ing. AAAI Press 1996を参照）。ｋ-means法やＨＡＣとは異なり、オートクラス
は離散的な属性を有するドメインに対しても適用可能であって、何らドメインに
固有な近似関数を必要としないことから非ドメイン依存性である。オートクラス
の根底にある概念は、ｋ分布すなわちｎ次元ガウス分布を同定し、これらのｋ分
布をデータ点にフィットすることにある。このプロセスに於いては逐次的なルー
プに於いて、ｋの複数の値を用いてモデルが構築され、これは追加の分布によっ
てデータセットに対する分布のフィットが改善されなくなるまで継続される。各
パスに於いて、データセット中の各レコードをアクセスしなければならない。さ
らに、各パスに際して、データは各データ点について、そのデータ点が位置する
分布内に保持されなければならない。【００１６】図３は、オートクラス法を適用した後に得られる混合モデルを示している。デ
ータセットはドメインを横切るように分布する実線により表されている。破線は
、データに対して現在フィットされている三つの分布を示す。分布の数はクラス
ターの数に他ならない。図３に於いては、三つのクラスターが存在する。【００１７】オートクラスの結果を翻訳することは極めて困難である。図２は三つの分布間
の明瞭な区分が示されているが、低いレベルに於いては分布が実際には両方向に
延出している。したがって、クラスターの内容に関する質問に答えるためには、
条件付きの確率（Ｐ（青い目｜クラスター１）＝０．９）が与えられることにな
る。しかしながら、このような単純な目の色に関する一次元のデータセットにつ
いても、Ｐ（青い目｜クラスター２）はやはりノンゼロとなる。より高次のデー
タセットについては、結果はより一層翻訳困難となる。この翻訳可能性の欠如は
、オートクラスの、データセットを理解する上での有用性を限られたものとして
いる。【００１８】このように、ｋ-means法やＨＡＣと同様に、クラスターが簡単な論理規則によ
り定義されておらず、条件付き確率により表現されるため、オートクラスの結果
は難解である。そのため、一般的な結果に基づき、意志決定、予測或いはパター
ン同定などを行うことは、さらなる分析を行わない限り極めて困難である。【００１９】オートクラスは、ｋ-means法やＨＡＣよりもさらに多大な計算を必要とする。
オートクラスは、Ｏ（ｎｋｄν）で、ここで、ｎはデータポイントの数、ｋは分
布の数、ｄは各モデルについての反復回数、νはモデルの数すなわち考慮された
異なるｋ値の数である。さらに、Big-O命名法はオートクラスや追加の記憶容量
の必要性による高いデータアクセスコストを考慮したものとなっていない。【００２０】ＣＯＢＷＥＢ上記した手法は全てデータセット全体をクラスタリングしようとするものであ
った。ＣＯＢＷＥＢはクラスタリングを、オンラインにより、すなわちインクリ
メンタルに行わんとするものである。図４は、クラスターを備えたＣＯＢＷＥＢ
ツリー構造を示す。クラスターはツリーのノードである。図４はデータセットに
追加されるべき新たなデータ点Ｘを示す。ＣＯＢＷＥＢは、ツリーのノード間の
確率分布に基づく。この手法がインクリメンタルであることから、事後に受け取
るデータに基づいてツリーノードを併合したり分割したりするようないくつかの
特別なケースが存在する。【００２１】オートクラスの結果と同様に、クラスターは、容易に翻訳可能でない条件付き
確率によって規定される。また、ＣＯＢＷＥＢアルゴリズムはツリーの深さに敏
感であって、ツリーに挿入された初期データがツリー全体を代表するものでない
場合には、アルゴリズムの性能が損なわれる。単一のオブジェクトを挿入するべ
き、予想されるBig-O時点は、Ｏ（Ｂ^２ｌｏｇ_Ｂｎ×ＡＶ）である。ここで、ｎ
はデータ点の数であり、Ｂはツリーの平均ブランチ係数、Ａは属性の数、Ｖは属
性あたりの値の数の平均である。【００２２】ＣＯＢＷＥＢの結果は、意志決定を進めたり、データセット中のパターンを同
定したり、データセットに於ける傾向を予測したりするために容易に適用するこ
とはできない。条件付き確率は、特に結果の翻訳を困難にする。また、ＣＯＢＷ
ＥＢが初期データ点に対してある感度を有するため、得られたクラスターは、最
も重要な属性について構成されたものではないクラスターを反映する場合がある
。例えば、一千万個のデータ点が存在するデータセットに於ける最初の一千個の
データ点が多くの場合拒絶されたローンに関するものであった場合、残りのデー
タポイントを追加する際にツリー構造がアンバランスとなる。このように、翻訳
が困難であることに加えて、同定されたクラスターの性質が、初期データに基づ
き偏った（skewed）ものとなり得る。【００２３】従来技術に基づくシステムは、翻訳可能なクラスターを生成し、大きなデータ
セットについてスケーラブルであるような、すなわち高速であって非ドメイン依
存であるようなクラスタリングの手法を提供しない。したがって、ここで必要と
されるのは、翻訳可能な結果を生成し、大きなデータセットを好適に取り扱い得
るようにスケーラブルであって、非ドメイン依存であるようなクラスタリングの
手法である。さらに、ここで必要とされているのは、クラスタリング手法をデー
タマートやデータウエアハウスに適用し、意味あるクラスターの同定により意志
決定に利用し得るような結果を生成し得るようにすることである。【００２４】発明の開示本発明の実施例のあるものは、デシジョンツリーを用いたスケーラブルな確率
論的クラスタリング方法を含む。この方法は時間の経過にしたがって実行され、
クラスターされるべきデータセットに於けるデータ点の数に関して線形である。
本発明のある実施例は、性能を比較的損なうことなく、データベース、データウ
エアハウス或いはデータマートなどのデータセットに対して適用可能である。本
発明のある実施例は、データセットに対してただ一回アクセスする。【００２５】本発明のある実施例は、属性のセット及び属性のセットについての属性値によ
って記述可能な翻訳可能クラスターを生成する。ある実施例に於いては、クラス
ターは、ルートノードから、クラスターに対応するデシジョンツリーのノードに
至るパス上に於いて属性値及び属性を読み取ることにより翻訳される。【００２６】ある実施例に於いては、ドメイン固有の近似性或いは距離関数が属性について
存在することを必要としない。【００２７】ある実施例に於いては、クラスターは、他の属性の分布に対して最も強い影響
を有する属性を特定することにより決定される。同定された属性により仮定され
る値のそれぞれは、クラスター及びデシジョンツリーに於けるノードに対応する
。例えば、性別の属性は、「男性」、「女性」及び「無回答」からなる値を有す
ることになろう。したがって、性別の属性が、残りの属性例えば購入したドレス
の数についての属性の分布に対して最も強い影響を及ぼす場合、三つのクラスタ
ーが決定されることになる。即ち、「性別＝男性」クラスター、「性別＝女性」
クラスター及び「性別＝無回答」クラスターである。【００２８】ある実施例に於いては、これらのクラスターは、この方法を反復的にクラスタ
ーに対して適用することにより一層厳密に生成されることになる。これは、追加
のデータ検索を必要とすることなく、しかも最小限の計算量を以って実行するこ
とができる。【００２９】ある実施例に於いては、クラスターを組み合わせるためにサブセットの設定が
利用される。例えば、所得属性は、「１万ドルから２万ドル」及び「２万ドルか
ら３万ドル」という二つの値をとり得る。しかしながら、所得に関するこれらの
二つの異なる値についてのデータ点間の近似性は、かなり高いことから、これら
の二つの値を別個のクラスターとして取り扱う代わりに、これらは単一のクラス
ターにサブセット化される。【００３０】ある実施例に於いては、高度に均一な分布を有する属性を考慮から除外するた
めに特徴除去（feature elimination）を利用することができる。ある実施例に
於いては、各属性のエントロピーを計算して、属性の分布の均一性を決定する。
例えば、数百個の属性を有するデータセットに於いては、クラスタリングに於い
て重要なファクターとならないような特徴を除去するために特徴除去が利用され
る。【００３１】ある実施例に於いては、データセットを一回のみアクセスするためにＣＵＢＥ
演算が用いられる。【００３２】発明を実施するための最良の形態Ａ．概念本発明のある実施例に於いては、確率論的な手法及びデシジョンツリーを用い
た翻訳可能なクラスターを生成するための方法が提供される。この方法は、デー
タベースその他のデータ源などのデータセットに対して適用可能である。【００３３】この方法の一つの応用は、データマートまたはデータウエアハウスから翻訳可
能なクラスターを生成することである。これは一種のデータ採掘すなわち知識発
見である。データ採掘は、データウエアハウス及びデータマートを開発するため
の努力の基礎となる企業の戦略の重要な一部である。データ採掘を用いることに
より、パターンを発見し、データウエアハウスまたはデータマートから未来の結
果を予測し得るようになることにより、企業の戦略的地位を向上させることがで
きる。【００３４】すなわち、意志決定を行う者がデータ採掘及び知識発見の結果を理解し得るこ
とは、データ採掘のツールの有用性に於ける一つの要素である。抽象的であった
り、複雑な数学的パターンなどは、意志決定を行う者にとって有用ではない。こ
のように、生成された翻訳可能なクラスターは意志決定を行う者に理解可能であ
って、追加のコンピュータ分析を行うことなく利用することができる。【００３５】以下に、本発明のいくつの実施例に基づく方法により用いられる主な概念及び
演算を説明する。【００３６】１．データ検索−ＣＵＢＥ演算本発明のある実施例は、ＣＵＢＥ演算を用いてデータセットに関する情報を検
索する。特にデータのセットの数が大きい場合には、データ点に対してただ一回
のアクセスのみが必要となる。【００３７】近代的なデータベースシステムの多くはＣＵＢＥ演算をサポートし、より多く
のシステムがＧＲＯＵＰ−ＢＹ演算をサポートする。データセットをアクセスす
るために両演算が利用可能である場合には、複数のＧＲＯＵＰ−ＢＹ演算よりも
単一のＣＵＢＥ演算が用いられる。他の実施例では、ＧＲＯＵＰ−ＢＹ演算を必
要に応じて実行し、必要なデータを受け取る。【００３８】別の実施例に於いては、データ検索は段階的に行われる。ＣＵＢＥ演算により
、特徴或いはフィールドとも呼ばれる多数の属性について実行することにより大
きなテーブルが生成されるため、ＣＵＢＥ演算をＧＲＯＵＰ−ＢＹ演算と組み合
わせる必要が生じる場合がある。【００３９】これらの演算のいずれも利用可能でない場合、必要な確率はデータセットに対
して複数回アクセスすることにより算出される。【００４０】ＣＵＢＥ演算の結果はｎ次元テーブルであって、このテーブルの軸線は属性ｘ _１〜ｘ_ｎである。ｘ_ｉ属性がとり得る各値についてｘ_ｉ軸上に一つのエントリー
及び「どうでもよい」エントリーすなわち「＊」のエントリーが追加される。例
えば、ｘ_１、ｘ_２及びｘ_３からなる三つの属性を有するデータのセットに於いて
、それぞれの属性が二つの値のみをとり得るとした場合、ＣＵＢＥ演算の結果は
、各軸線に沿って三つのエントリーを有する三次元テーブルとなる。【００４１】ｘ_１軸線上には、三つのエントリーがする、即ち｛ａ，ｂ，＊｝。ｘ_２軸線上
には、｛ｃ，ｄ，＊｝が、ｘ_３軸線上には、｛ｅ，ｆ，＊｝が存在する。つぎに
、（ｘ_１＝ａ，ｘ_２＝ｃ，ｘ_３＝＊）となるようなデータ点の数をルックアップ
ために単一の演算を用いることができ、マトリックス内の対応するセル数、例え
ば１０を含む。これは、ｘ_３属性は無視し、ｘ_１＝ａであって、ｘ_２＝ｃである
ようなデータ点が、データセット内に１０個存在することを意味する。【００４２】「どうでもよい」エントリーは、異なる属性値の頻度を容易に計算できること
から、確率論的アルゴリズムに於いて有用である。例えば、ｘ_１＝ａである確率
は、Ｐ（ｘ_１＝ａ）＝（ｘ_１＝ａ，ｘ_２＝＊，ｘ_３＝＊）／（ｘ_１＝＊，ｘ_２＝
＊，ｘ_３＝＊）であり、これはＣＵＢＥ演算の結果から２つのエントリーほ検索
することにより算出することができる。【００４３】２．相互情報（mutual information）クラスターを同定するための好適なデシジョンツリーは、残りの要素の分布に
対して強い影響を有する属性を特定する。このような確率的な問題を最適に解決
することは困難である。したがって、良好な結果を生み出し得るような取り扱い
容易な方法を同定する必要がある。このような方法の一つとしては、ツリー構造
を選択し、デシジョンツリーを生成するために属性の対のみの間の相互情報を利
用することである。【００４４】属性の対の間の相互情報は次の式１により与えられる。【００４５】【数２】【００４６】必要な値の全ては、ＣＵＢＥ演算の結果から得られる。ＣＵＢＥ演算が利用可能
でない場合、複数のＧＲＯＵＰ−ＢＹからの結果及びまたはデータセットの複数
回のパスからの結果を利用することができる。【００４７】相互情報は、二つの属性が互いに強い影響すなわち相関を有する場合に高く、
両者が互いにあまり影響を及ぼさない場合には低いという性質を有する。二つの
属性の対の相互情報の最大値は１であり、最小値は０である。【００４８】反復或いは再帰的過程の数に関わらず、ＣＵＢＥ演算は一回実行するのみでよ
い。たとえば、クラスタリングのためにジップコード属性が用いられた場合、ジ
ップコード属性により規定された異なるクラスターから、より狭いクラスターを
定義づけることができる。しかしながら、これらの追加のクラスターを定義する
に際して、単一ＣＵＢＥ演算が用いられた場合には、追加の情報を抽出する必要
がない。【００４９】次のクラスターが定義されるに伴い、相互情報は、すでに同定されたクラスタ
ーに基づく条件付き確率として算出される。即ち、ＭＩ（ｘ_ｉ，ｘ_ｊ｜Ｚ）。こ
こで、Ｚは先に分岐が行われた特徴のセットである。即ち、Ｚ＝｛ｘ_ｍ＝ａ，ｘ _ｎ＝ｄ｝３．影響デシジョンツリーを構成する際に、各属性の影響を決定するために相互情報を
用いる。分岐するべき属性を選択するために、次の式により表されるように、他
の属性の全体にわたって最も高い相互情報を有するすなわち属性の影響（Influe
nce）を選択するのが望ましい。【００５０】【数３】【００５１】次に、最も強い影響を有する属性を選択する。選択された属性は、残りの属性が
最も強く依存するものからなる。【００５２】一つの最適化方法としては、影響を計算する際に、他の属性の全てについて行
う代わりに、ｋ個の最大項に渡って和をとることがある。本実施例に於いては、
各属性について最も高い値を有するｋ個の相互影響値のみを加算する。【００５３】式２を繰り返し適用して影響を計算する際には、クラスターを定義するために
データセットを分岐する際にすでに用いた属性に渡って和をとらないように注意
するべきである。例えば、分岐に用いるためにジップコード属性を選択した後に
、影響スコアの逐次的な計算に際しては、加算の際にジップコード属性を含まな
いようにしなければならない。このように、残りの属性が性別、年齢及び所得で
ある場合、これら残りの三つの属性についての相互影響値のみを、ジップコード
属性のクラスター化に対する影響を計算するために用いることになる。【００５４】４．停止条件与えられたデータセットについて、数十或いはそれ以上の数の属性が存在し得
る。計算に要するコスト及び実用的な観点から、全ての属性について分岐するよ
うなデシジョンツリーを構成することは好ましくない。実用的な考慮の或るもの
としては、各クラスターに少なくとも数百個のデータ点が存在するような十分な
大きさのクラスターを求めることがある。いくつかの停止条件が、それぞれの簡
単な説明と共に表１に記述されている。【００５５】【表１】【００５６】ある実施例に於いては、ユーザーは上記した停止条件のいずれをも選択すること
が出来る。他の実施例では、所定の停止条件が用いられる。【００５７】５．サブセット化デシジョンツリーの質を向上する１つの方法は、サブセットを形成することで
ある。ｘ_ｉに対する影響に基づき属性ｘ_ｉが選択されると、ｘ_ｉが最も高い相互
情報値を有するような属性ｘ_ｊも既知となる。ｘ_ｉの属性値のそれぞれについて
のｘ_ｊの様々な属性値の頻度についてのベクトルを書き出すことにより、サブセ
ット化が適切であるか否かを判断することが出来る。【００５８】例えば、年齢が最も強い影響を有する属性である場合、これがデシジョンツリ
ーのノードを形成することとなる。次に、最も緊密に相関する属性は、ＭＩ（年
齢、その他の属性）が最も高くなる属性、即ち所得等の属性である。【００５９】３０未満等のような年齢の属性の各値について、所得属性値のそれぞれの確率
についてベクトルを記述することが出来る。例えば、所得属性は、＄５０ｋ未満
、＄５０ｋ以上から＄１５０ｋ未満、及び＄１５０ｋ以上とからなる３つの値を
有するとする。従って、この場合、３０未満の年齢属性についての確率ベクトル
は＜０．５、０．４、０．１＞となる。このベクトルは、年齢属性が３０未満で
あるデータ点の半分は、５０Ｋ未満の値の所得属性を有することを意味する。【００６０】年齢属性の他の値についてもベクトルを決定することは出来る。例えば、年齢
属性が３０以上５０未満であるものについては、ベクトルは＜０．３、０．７、
０．０＞となり、年齢属性が５０以上であるものについては、ベクトルが＜０．
４５、０．４５、０．１＞となる。【００６１】次のステップは、これらのベクトルに基づき年齢属性の値のいずれかを併合或
いはサブセット化すべきかを決定することである。これは、２つのベクトルの間
のBhattacharyya距離を算出することにより達成される。相対的エントロピー、
ＫＬ距離、或いは、その他の尺度を用いることもできる。Bhattacharyya距離の
場合、確率ベクトル間の距離が所定値を超えた場合には、ノードを組み合わせる
ことが出来る。【００６２】この場合、年齢属性が３０未満かつ５０以上は、所得に関して極めて密接に関
連するため、前記した値を超える場合がある。従って、デシジョンツリーの３０
未満及び５０以上ノードは、組み合わせ可能であって、事後の演算は、年齢属性
値が３０未満または５０以上であるような組み合わせられたクラスター即ちノー
ドに対して実行される。６．特徴削除−エントロピーデータセットは幾つもの属性を有し得るため、そのうちの幾つかを削除するの
が望ましい場合がある。ある実施例に於いては、ユーザーまたはプログラムは、
削除されるべき特徴の所定のセットを選択することが出来る。しかしながら、こ
れらの決定は通常、データのセットの実際の分布によって引き起こされるもので
はない。【００６３】自動化された特徴削除を用いることにより、クラスターを同定する上で有用で
ない特徴を短時間に削除することが出来る。これは、以下の示す式３により定義
されるエントロピーを用いて短時間で行うことが出来る。【００６４】【数４】【００６５】エントロピーを計算するために必要な値の全てはＣＵＢＥ演算の結果から得られ
る。【００６６】或る属性のエントロピーが低い場合、それはかなり偏った分布を有することに
なる。逆に、属性のエントロピーが高い場合、属性がかなり均一であることにな
る。興味深いクラスターを生成しそうもないと考えられるような高いエントロピ
ーを有する属性を削除することにより、考慮されるべき属性の数を減少させるこ
とが出来る。【００６７】ある実施例に於いては、最も高いエントロピーを有する属性を自動的に削除す
るために所定値が用いられる。或いは、最も高いｍ個の属性を削除することも出
来る。或いは、最も低いエントロピーを有するｊ個の属性のみをクラスター化に
利用することも出来る。【００６８】Ｂ．デシジョンツリーを用いた確率論的クラスター化方法図５は、本発明のある実施例に基づくデシジョンツリーの構成方法を示すフロ
ー図である。ここで記述される方法は、図６に示されたデシジョンツリーの部分
を参照して以下に説明する。【００６９】例えばデータセットは、団体への寄付を行う者に関する情報を含むものである
とする。属性としては、年齢（ｘ_１）、寄付者の地位（ｘ_２）、所得（ｘ_３）、
性別（ｘ_４）及びジップコード（ｘ_５）がある。【００７０】このプロセスは、特徴削除からなるステップ５００から開始される。これはオ
プションとしてのステップであって省略することも出来る。特徴削除が実行され
た場合、上記したような特徴削除の方法を用いることが出来る。通常、多数の属
性を有するデータセットについて特徴削除が実行される。クラスター化の目的に
とって重要でない特徴を削除することにより、プロセス全体が高速化され、最も
意味のある特徴に関してクラスターを形成することが出来る。【００７１】特徴削除は、ある程度のデータの検索を伴うもので、従ってステップ５０２の
後に実行することも出来る。本実施例の場合のように、データの検索前に特徴削
除を実行する場合には、属性のエントロピーを算出するために或るデータの検索
が実行される場合がある。ある実施例に於いては、ＧＲＯＵＰ−ＢＹ演算が、ス
テップ５００に於いて属性のエントロピーを算出するために必要な値を検索する
ために用いられる。【００７２】本実施例では、団体は、地域の慈善団体であって、その寄付者の殆どは１つの
ジップコードに属する。ステップ５００に於いては、ジップコード属性のエント
ロピー値は低く、その非均一性を反映している。この実施例に於いては、所定の
閾値が設定され、この閾値よりも高いエントロピーを有する属性が削除される。
本実施例に於いては、このデータセットの例の中のジップコード属性についての
エントロピーは閾値を超えることが無く、従ってジップコードは属性として削除
されない。【００７３】次に、ステップ５０２に於いて、データベースから値が検索される。特徴削除
のために用いられるエントロピー値は、ステップ５０２の後に算出することは出
来るが、特徴削除の目的の１つは、大きなＣＵＢＥ演算を不要とすることにある
。従って、ステップ５０２は、必ずしも必要ではないが、通常は特徴削除の後に
行われる。特徴削除がステップ５０２に先立って実行された場合、ＣＵＢＥ演算
は残りの属性に対してのみ実行すればよい。【００７４】ある実施例に於いては、関連するデータが、単一のＣＵＢＥ演算を行うことに
より検索される。ＣＵＢＥ演算については上記した。場合によっては、データセ
ットが、ＣＵＢＥ演算をサポートしない環境に於いて保存されるが、そのような
場合には、複数ＧＲＯＵＰ−ＢＹ演算或いはデータセットに対する複数のアクセ
スを実行することが出来る。属性の数が十分に大きい場合には、ＣＵＢＥ演算を
ＧＲＯＵＰ−ＢＹ演算と組み合わせることにより必要なデータの全てを検索する
ことが必要になる場合がある。本実施例の場合、ＣＵＢＥ演算を用いて、データ
ポイントに必要なデータを検索するようにしている。【００７５】次にステップ５０４に於いて、停止条件即ちそれ以上のクラスターを定義し得
るか否かの条件が満たされたかどうかをチェックする。表１は、幾つかの停止条
件をリストアップしている。本実施例に於いては、ｍ＝２として、ｍ個の属性が
、分岐停止条件に用いられている。この停止条件は、データセットに於いてクラ
スターを形成するための２つの最も重要な属性に限って結果が得られるようにし
ている。停止条件が満たされると、プロセスが停止する。これが再帰的なコール
である場合には、このプロセスをデシジョンツリーに於ける他の兄弟ノードにつ
いて継続することが出来る。停止条件が満たされていなければ、プロセスはステ
ップ５０６に於いて継続する。【００７６】本実施例の場合、分岐が行われず、従ってプロセスはステップ５０６に向けて
継続する。【００７７】ステップ５０６に於いては、式１に基づいて相互情報値が算出される。本実施
例の場合、年齢、寄付者の地位、所得及び性別からなる４つの残りの属性のそれ
ぞれについて相互情報が、他の残りの属性と共に算出される。ステップ５０２に
於いて必要な頻度情報の全てを検索するために単一のＣＵＢＥ演算が用いられた
場合には、相互情報値は１回計算される。【００７８】次のコールでは、条件付き相互情報が算出される。条件付き相互情報は、ＣＵ
ＢＥ演算により既に検索された結果を用いて効率的に算出することが出来る。全
ての必要なデータについてＣＵＢＥ演算の結果を保存することが出来ない場合に
は、条件付き相互情報を算出するためにＧＲＯＵＰ−ＢＹまたはＣＵＢＥ演算を
用いて追加のデータを検索することが必要となる。【００７９】次に、ステップ５０８に於いて、デシジョンツリーを分岐するべき特徴が選択
されるが、これはステップ５０６に於いて生成された相互情報値に基づき式２か
ら算出されることにより得られた最も高い影響を有する属性を選択することによ
り達成される。本実施例に於いては、年齢（ｘ_１）属性が最も強い影響を有し、
部分デシジョンツリー６００のルートノード６０２となる。【００８０】次に、ステップ５１０に於いて、サブセット化が考慮される。これはオプショ
ンとしての特徴であって、デシジョンツリーを改善するものである。本実施例の
場合サブセット化が実行されない。【００８１】次に、ステップ５１２に於いて、プロセスが子ノードに対して再帰的に適用さ
れる。本実施例の場合、年齢属性は３０未満、３０以上５０未満及び５０以上か
らなる３つの可能な値を有する。これらの属性値のそれぞれについてルートノー
ド６０２から離れた場所にノード６０４〜６０８により示されるようなノードが
デシジョンツリーに追加される。次に、クラスター化プロセスが各ノードに対し
て再帰的に適用される。再帰的な適用は、シリーズであってもパラレルであって
もよい。本実施例の場合、別個のプロセス即ちスレッドを、各ノードについて並
列に実行することが出来る。複数のプロセッサーを備えたシステムでは、これに
よって、方法の処理性能が改善される。【００８２】クラスター化が再帰的に実行された場合には、デシジョンツリーのリーフノー
ドのみがクラスター６１０〜６１２として出力される。しかしながら、ルートノ
ードを除くデシジョンツリーの全てのノードは、同様な情報を共有するデータの
セットのサブセットを同定するものであることからクラスターをなす。従って、
図５のプロセスを１回反復するのみで、複数のクラスターを決定することが出来
、これらのクラスターは選択された属性の各属性値について１つのクラスターと
いう具合に更に詳しく設定することが出来る。サブセット化が実行された場合に
は、クラスターの数は、どのようなサブセットが構成されたかによるが、一般に
減少する。【００８３】例えば、ノード６０８のためのクラスター化プロセスが、ノード６０４のため
のクラスター化の前に実行することができる。又、クラスター化プロセスの再帰
的適用は、幅方向を先に行うことも深さ方向を先に行うこともできる。幅方向を
先に行う実施例では、同じレベルの全てのノード即ちノード６０４〜６０８は、
それに続くレベル即ちクラスター６１０〜６１２に於けるノードの前に決定され
る。幅方向を先に或いは深さ方向を先に行う再帰的処理の適用に関する選択は、
ユーザが最初に見たい情報の形式に依存する。例えば、ある実施例においては、
２つの方法の内の１つをユーザが選択する。【００８４】本実施例では、クラスター化プロセスの再帰的適用は深さ方向を先に行う。こ
のように、プロセスは先ずノード６０４について実行され、続いてノード６０４
の子供即ちクラスター６１０〜６１２に対して行われ更にノード６０６及びその
子供に対して行われる。【００８５】再帰的エントリー点５１４は、関数がコールされた場合には、再帰ステップ５
００〜５０２をスキップし得ることを示している。多くの場合、ステップ５０６
は、データベースから全ての必要な値を検索するために単一のキューブ演算が用
いられた場合にスキップされる。【００８６】プロセスが再帰コールを完了すると、完全なデシジョンツリーが生成される。
図６は、プロセスにより生成したデシジョンツリー６００の一部を示す。年齢属
性についての分岐に続く分岐は、異なる属性について実行されることに留意され
たい。ノード６０４は、寄付者の地位に基づく分岐であり、ノード６０６は所得
に基づく分岐であり、ノード６０８は性別に基づく分岐である。【００８７】デシジョンツリーに於けるリーフノードはクラスター６１０〜６１２である。
各クラスターは、ルートノード６０２からクラスターに至るパスを単に読むこと
により翻訳することができる。例えば、クラスター６１０は、年齢が３０未満で
あって現在寄付者であるデータ値を含む。クラスター６１０〜６１２は確率論的
に定義されるものではない。これらはクラスター化されたデータ点の正確な記述
である。【００８８】この方法の演算性能は極めて良好であって、データベースに見られるような極
めて大きなデータのセットに対してスケーラブルである。ＣＵＢＥ演算が用いら
れた場合、データセットは１回アクセスされるのみで、比較の数はかなり小さい
。Big-O命名方によれば、Ｏ（ａ^２ｎｄ）であって、この場合、ａはクラスター
化が実行された属性の数であり、ｎはデータ点の数であり、ｄはツリーに於ける
ノードの数である。ａおよびｄが一定であるとすると、これらは一般的なデータ
マートに於けるｎの大きさに対して小さいことから、性能はデータ点の数につい
て線形であると考えられる。【００８９】結果を翻訳するためにいくつかの出力フォーマットを用いることができる。あ
る実施例に於いては、出力はデシジョンツリーを含む。デシジョンツリーは、異
なる重要な属性を、極めて視覚的且つインターアクティブに見ることを可能にす
る。【００９０】他の出力フォーマットとしては、ＳＱＬクエリーがある。１つのＳＱＬクエリ
ーが各クラスターに対応する。これは、データのセットから１つ又は複数のクラ
スターを検索するための有用な出力である。他のクエリー言語出力をサポートす
ることもできる。【００９１】更に他の出力フォーマットとしては、パイチャートの２次元マトリックスがあ
る。１つの軸に各属性がリストされ、所望に応じて削除された属性をリストする
こともできる。他の軸線に於いては、データのセット全体のためのセット及び各
クラスターの別のエントリーが備えられている。このフォーマットの１例がデー
タのサンプルセットを用いて表２に示されている。【００９２】【表２】【００９３】パイチャート以外でも、バーチャート、文字表現など他の表現方法を用いること
もできる。この表示フォーマットの利点は、クラスターの構成に基づくデータセ
ットの構造に関して追加の見通しを提供することにある。【００９４】例えば、所得属性の列を上から下に眺めると、クラスター６１０におけるデー
タ点の所得間の差を、データ全体及び他のクラスターと比較することができる。【００９５】他にも多数の出力のオプションを用いることができる。例えば、ある実施例に
おいては、クラスター化に対して影響を及ぼす上位ｋ個の属性を、クラスター化
に関するこれらの属性の影響の相対パーセンテージと共にリストすることができ
る。これは、どのレベルに於いて算出することも可能ではあるが、デシジョンツ
リーのルートレベルにおいてのみ算出されるのが一般的である。式４は、総合影
響についての数式を表す。【００９６】【数５】【００９７】相互影響が、デシジョンツリーのルートレベル以外のレベルに於いて算出された
場合には、残りのｊ個の属性についてのみ加算が行われるべきである。【００９８】Ｃ．ウェブブラウザーを用いた例図７〜１３はデータマートに対してウェブブラウザーインターフェースを適用
した本発明の実施例を示す。ウェブブラウザーインターフェースは、この実施例
により、データマートの根底を成すアクセス機構の知識を有することなくデータ
マートに対するアクセスを可能にする。更に、このインターフェースは、組織全
体に渡ってデータマート及びデータ採掘ツールを容易にワークステーションに分
散させることを可能にする。データマート及びデータ採掘のためのクラスター化
ツールとしては、カリフォルニア州Palo AltoのE. Piphanyにより市販されてい
るE. Piphany e.4がある。【００９９】データマートは一種のデータウエアハウスであって、それ自体データーベース
の１形式である。データマート及びデータウェアハウスはいずれも、通常他の組
織のデータベースからの寄せ集め又は要約データを含む。時計のデータベースが
データマート或いはデータウェハウスのいずれであるかは、データベースが利用
されるべき目的に依存する。一般に、組織や企業の必要を満たすために設計され
たデータベースはデータウェハウスと呼ばれる。部門の特定の機能或いは必要を
満たすために設計されたデータベースはデータマートと呼ばれる。【０１００】本実施例においては、ウェブを介してアクセスされるデータのセットは、同窓
会の事務局を有する私立大学のデータマートである。同窓会事務局は、資金を調
達することに関する部門の必要を満たすためにデータマートを構築した。データ
マート内の情報は、同窓会データベース、他の大学のデータベース、大学のデー
タウェハウス、アンケートの回答及び外部データソースを含む様々なソースに由
来する。データマートを創生しデータを記入するためにはカリフォルニア州Palo
AltoのE. Piphanyにより市販されているEpimanagerを利用することができる。
他のツールも利用可能であり、同様に用いることができる。データマートは、１
００個のオーダの属性を有するものであって良い。本実施例においては、同窓会
事務局データマートは１２個の属性を有するのみである。【０１０１】図７は、本発明のある実施例において用いられたウェブブラウザーインターフ
ェースを示す。図７は、属性選択エリア７００を有する。属性選択エリア７００
は、対応する属性に対してクラスター化を行うべきか否かを示すチェックボック
スと共にデータマートの属性をリストしている。ある実施例に於いては、属性選
択エリア７００は、属性のいくつかのみをリストする。他の実施例では、ステッ
プ５００に於ける特徴削除が実行され、属性選択エリア７００上には選択対象と
して上位ｋ個の属性のみが表示される。【０１０２】同窓会事務局データマートに於いては、１２個の属性は、クラスへの帰属意識
、期待を満たしたか否か、距離、所得ブラケット、同窓会刊行物を読むか否か、
性別、卒業年、担当教官、大学への帰属意識、学長の名前を知っているか否か、
満足度及び寄付者の地位からなる。チェックされた属性のみがクラスター化に用
いられ、この場合距離属性７０６、所得ブラケット属性７０８、担当教官属性７
１０、帰属属性７１２、寄付者地位属性７１４からなる。この時点に於いては、
報告作成ボタン７０４を選択することにより、選択された属性を用いてクラスタ
ー化プロセスを実行することができる。【０１０３】ウェブブラウザーインターフェースは追加のフィルターオプションを提供する
。これにより、ユーザはフィルターを定義することによりデータマート全体のサ
ブセットに対して作業を行うことができる。フィルターボタン７０２はフィルタ
ーオプションに対するアクセスを可能にする。本実施例においては、ユーザがフ
ィルターボタン７０２に対して作用することにより、フィルターを定義するため
のウィンドウがウェブブラウザー上に表示される。【０１０４】図８はフィルター定義ウィンドウの関連する部分を示す。フィルター定義ウィ
ンドウは選択領域８００、選択値ボタン８０２及びＯＫボタン８０４を含む。選
択領域８００は、フィルターを定義する上で使用される１つ又は複数の属性の選
択を可能にする。値選択ボタン８０２は、選択領域８００において１つ又は複数
の属性が選択された後に選択される。本実施例の場合、ユーザは選択領域８００
における帰属意識属性を選択し、選択値ボタン８０２に作用する。【０１０５】図９は、選択値ウィンドウの関連部分を示す。選択値ウィンドウは、選択領域
８００において選択された属性のそれぞれの値を選択可能とする。選択領域８０
０において選択された各属性についてフィルタータイプ選択領域９００及びフィ
ルター値選択領域９０２が表示される。本実施例の場合、帰属意識属性のみが選
択され、１つのフィルタータイプ選択領域−フィルター値選択領域からなるペア
のみが表示される。【０１０６】属性が取り得る各値について、フィルター値選択領域９０２は、その値及び対
応するチェックボックスを表示する。チェックボックスの１つをチェックするこ
との意味は、対応するフィルタータイプ選択領域９００に於ける選択によって決
定される。この場合、マッチするフィルタータイプ９０１が選択される。このフ
ィルタータイプについて、フィルター値選択領域９０２に於いてチェックされた
値にマッチするデータポイントのみがクラスター化に用いられる。本実施例に於
ける他のフィルタータイプとしては、全ての値を含む即ちフィルター値選択領域
９０２に於けるチェックボックスを無視する、或いはフィルター値選択領域９０
０に於いてチェックされた値にマッチするデータ点を除外する等がある。【０１０７】本実施例の場合、ユーザは、帰属意識属性について、学校値９０４及びクラス
値９０６に対応するチェックボックスをチェックする。マッチするフィルタータ
イプ９０１が選択されているため、帰属意識属性が学校もしくはクラスに設定さ
れたレコードのみがクラスター化プロセスに含まれることになる。ユーザは作業
が完了するとＯＫボタン９０８に対して作用する。ある実施例においては、デー
タベースレコードを選択するために用いられたＳＱＬクエリーを定義するフィル
ターが、ＣＵＢＥ演算及びクラスター化プロセスのために用いられる。ある実施
例においては、定義されたフィルターが、図７に於けるフィルターボタン７０２
の隣に表示される。【０１０８】ブラウザーインターフェースは更にオプションボタン７１６（図７）をも含む
。オプションボタン７１６は、クラスター化プロセスを制御するためのウィンド
ウを表示するために用いることができる。図１０は、オプションボタン７１６に
対して作用した後に表示されるオプションウィンドウ１０００を含む。【０１０９】本実施例においては、オプションウィンドウ１０００は５つのオプションのセ
ットを含む。「どの結果」オプションセット１００２は、出力にいくつのクラス
ターが含まれるかを制御する。「どの結果」オプションセット１００２の設定は
、クラスター化プロセスに対して影響を及ぼさないが、出力をプロセスから得ら
れたｎ個の最も大きいクラスターに限定する。【０１１０】ある実施例においては、「チャートを示せ」オプションセット１００４は、ユ
ーザに対して、表２に示されたレイアウトに従って、パイチャート又はバーチャ
ートを出力に含めるべきか否かをユーザに対して制御可能とする。【０１１１】ソースの最大数オプションセット１００６を、図５のステップ５００に於ける
特徴削除オプションを起動するために用いることができる。例えば、ソースの最
大数が３に設定された場合、属性選択領域７００に於いて選択された属性の内の
上位３つの属性のみがクラスター化のために用いられる。これらの３つの属性は
、式３により算出された最も低いエントロピー値を有する３つの属性を用いるこ
とにより同定することができる。【０１１２】「よりも大きなグループを指せ」オプションセット１００８は、クラスターに
於けるデータ点の数に基づき出力表示を制限するために用いられる。選択された
サイズよりも大きなグループのみが出力に表示される。この設定は、ステップ５
０４に於いて用いられた停止条件を制御するためにも用いられる。本実施例に於
いては、更なるクラスター化が、「よりも大きなグループを指せ」オプションセ
ット１００８に於いて示された設定以下にクラスターのサイズを減少させる場合
には停止条件が満たされる。【０１１３】ある実施例に於いては、いくつかの数のクラスターオプションセット１０１０
を用いて、生成されたクラスターの総数を制限することができる。これは、結果
として得られたクラスターの数を選択された数に限定する。ある実施例に於いて
は、クラスター化は、横方向を先に行われる。【０１１４】「サブセット化を実行せよ」オプションセット１０１２は、ステップ５１０に
於いてサブセット化を行うべきか否かをユーザに制御させる。【０１１５】これらのオプションが調整されると、ユーザは報告作成ボタン７０４に作用し
、図５のプロセスに基づきデータのセットをクラスター化し、その結果を表示す
る。この結果は、クラスター化オプションと共に表示することも、別個のウイン
ドウに表示することもできる。この場合、結果は図１に示されるように報告オプ
ションの下側に直接表示される。【０１１６】図１１は、図５のクラスター化プロセスが終了した後に、ウェブブラウザーの
ウインドウの中に表示される出力を示す。ブラウザーウインドウ内に表示された
文章の上側部分１１００は、クラスターを生成するために用いたオプションを表
示し、それによって容易に更なる調整を介して更なる洗練化を図ることができる
。ウェブブラウザーの表示をスクロールすることによりその全体を見ることので
きる文章の残りの部分１１０２は、クラスター化プロセスからの出力である。【０１１７】図１２は本発明の１実施例に基づく出力を示す。本実施例では、クラスターか
らデータをフィルタすることなく実行される。出力の第１行１２００は、クラス
ター化を行った属性を示す出力である。フィルタを実行した場合、そのことも表
示される。行１２０２は、結果がどのように表示されるかに関する情報を表示す
る。この場合、結果はクラスターのサイズの順番に表示される。他の表示オプシ
ョンも利用可能である。本実施例に於いては、デシジョンツリーの全体が示され
ていないが、それを示すことも可能である。【０１１８】出力のセクション１２０４は、クラスター化属性の全ての相互影響を含む出力
である。これらの値は、デシジョンツリーのルートノードに於いて式４を用いて
算出することができる。本実施例の場合、帰属意識属性が最も高い相互影響を有
する。従って、ルートノードは、帰属意識属性に基づいてデータをクラスター化
することが予測されるが、それが最も高い相互影響を有するためには最も高い影
響値を有するものでなければならないからである。【０１１９】図１３は、出力の別の部分を示すテーブル１３００を示す。テーブル１３００
はテーブル２のスキームと同様のものである。データセットに於ける各属性につ
いて、テーブル１３００に列が設けられている。担当教官属性及び距離属性につ
いての列のみが示されている。各クラスターについて１つの行が設けられ、デー
タのセットの全体に対して１つの行が設けられている。行１３０２は、データの
セット全体についての情報を有する行である。行１３０４は、クラスターの１つ
に対応する行である。各クラスターはチェックボックスを用いて選択することが
できる。選択されたクラスターは更に分析したり、或いは利用のためにデータマ
ートから単純に検索することもできる。【０１２０】各クラスターは、デシジョンツリーのルートノードからリーフノードに至るパ
スに従うに伴って決定されるようにクラスターの翻訳可能な意味に基づいて記述
される。【０１２１】本実施例の場合、デシジョンツリーのルートノードは帰属意識属性である。行
１３０４に示されたクラスターは、次のようなデシジョンツリーの経路によって
到達される。（開始）帰属意識＝大学全体−所得ブラケット＝＄５０，０００か
ら＄１００，０００−距離＝５００マイル以上−寄付者地位＝休眠。【０１２２】ある実施例では、クラスターは行１３０４に於いて文字により記述され、パス
の開始点は上側であって、パスの終点は下側である。しかしながら、属性は順番
にリストされる必要はない。又、クラスター内のデータの数もまた選べる。【０１２３】パイチャート１３０８をパイチャート１３０６と比較することにより、行１３
０４に対応するクラスターとデータセット全体との間に於ける担当教官属性に於
ける差を理解することができる。【０１２４】このタイプの比較は、システムにおけるクリチカルな点を同定する上で有用で
ある。例えば、販売の電話を受け付けるコールセンターについてのデータ点を含
むデータのセットを考えるものとする。属性としては、待ち時間、通話時間、購
入額、繰り返し通話、通話の中断、再び購入等がある。パイチャートを見ること
により容易に理解できるように、待ち時間は再び購入するか否かに対して強い影
響を及ぼす。この情報は、コールセンターのオペレータの数を調整するなどプロ
セスを洗練させるために利用することができる。【０１２５】また、レポートは、図６のデシジョンツリーのようなデシジョンツリーを含む
ものであって良い。【０１２６】Ｄ．別の実施例上記した実施例では、全ての属性が高度に離散的であった。更に、年齢、所得
等の属性はすでに更に離散化され、ブラケットに分類されていた。この方法を、
整数のような離散的なデータとは異なり、実数のように非離散的な属性を取り扱
うために拡張することができる。１つの方法はこれらの属性を離散化することで
ある。これは手動或いは自動的に行うことができる。【０１２７】手動的方法は、ブラケットを定義し、データセットの追加の属性を即ち一時的
な属性を生成することからなる。例えば、統計データのセットは年齢の属性を含
む場合がある。年齢ブラケットと呼ばれる追加の属性を追加し、一時テーブルに
保存することができる。年齢ブラケットは１０年単位で設定される。即ち、＜１
０，１０―１９のように表せる。或いは、年齢ブラケットを更に細分化すること
もできる。例えば、高年者の研究においては、一般住民の研究のための年齢ブラ
ケットとは異なるものが用いられることになろう。【０１２８】他の方法としては、離散化するための即ち属性を更に離散化するための自動化
されたシステムを用いることにある。１つの方法は、値をｂ個の同じ大きさのブ
ラケットに分配し、或いはどこにブラケットの境界を配置するべきかを決定する
混合モデルを用いることである。【０１２９】ある実施例に於いては、データのセットをクラスター化しアクセスするための
プログラムが、コンピュータにより利用可能なＣＤ−ＲＯＭ、フロッピー（登録商標）ディスクその他の媒体などの１つ又は複数が含まれる。【０１３０】本発明のある実施例は電磁波の形式を含む。電磁波は、クラスター化プログラ
ムや、ウェブブラウザーによってネットワークを介してクラスター化プログラム
に作用可能にするようなプログラムを含む。電磁波は、ネットワークを介してア
クセスされるクラスター化プログラムを含むものとする。【０１３１】Ｅ．結論このように、データセットからクラスターを生成するための方法及び装置を定
義した。この方法は、クラスターの内容を意味あるように翻訳するために用い得
るデシジョンツリーを生成する。更に、デシジョンツリーのルートからクラスタ
ーに至るパスは、マッチするデータを検索するために容易に用い得るようなＳＱ
Ｌクエリを定義する。この方法はなんら近似或いは距離関数を必要としないため
非ドメイン依存である。この方法は、大きなデータセットに対して高度にスケー
ラブルであり、データセットに対して繰り返しアクセスすることを必要としない
。この方法は、データセットをアクセスするためにＣＵＢＥ演算が利用可能であ
る場合にはＯ（ｎ）時間を介して実行される。【０１３２】本発明が、その詳細な実施例に関して例示され且つ説明されてきたが、当業者
には、形状及び詳細な部分の変更が添付の請求項の範囲を逸脱せずに可能なこと
は容易に理解されよう。【図面の簡単な説明】【図１】２つの属性を有し、ｋ＝３であるようなデータセットについ
てｋ−ｍｅａｎｓアルゴリズムにより決定される中心（ｃｅｎｔｒｏｉｄ）及び
クラスターを示す。【図２】ＨＡＣ（hierarchical aglommerative clustering）アルゴ
リズムにより決定されるクラスターを示す。【図３】 Autoclass手法を適用して得られ得る混合モデルを示す。【図４】新たな要素を挿入する直前にＣＯＢＷＥＢアルゴリズムによ
り決定されるクラスターを示す。【図５】本発明の一実施例に基づく、デシジョンツリーを構成するた
めの方法のフローチャートを示す。【図６】本発明の一実施例に基づき構成されたデシジョンツリーの一
部を示す。【図７】データマートに対するウェブブラウザインターフェースを介
する本発明の一実施例の適用例を示す。【図８】データマートに対するウェブブラウザインターフェースを介
する本発明の一実施例の適用例を示す。【図９】データマートに対するウェブブラウザインターフェースを介
する本発明の一実施例の適用例を示す。【図１０】データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。【図１１】データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。【図１２】データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。【図１３】データマートに対するウェブブラウザインターフェースを
介する本発明の一実施例の適用例を示す。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ【要約の続き】強い影響を有する属性を特定することにより決定される。同定された属性により仮定される値のそれぞれは、クラスター及びデシジョンツリーに於けるノードに対応する。ある実施例に於いては、データセットを一回のみアクセスするためにＣＵＢＥ演算が用いられ、その結果が、影響、その他の演算のために利用される。

Claims

【特許請求の範囲】

【請求項１】データのセットから、前記データセットのサブセットから
なるクラスターを決定するための方法であって、前記データセットから、それぞれ対応する属性値のセットを有する属性のセッ
トを決定する過程と、前記属性セットについて頻度情報を算出する過程と、前記頻度情報を用いて関係値のセットを算出し、前記関係値セットの各関係値
が、前記属性セットの1つの属性に対する、前記属性セットの他の属性の依存特
性に対応するものとする過程と、前記関係値のセットを算出した後に、前記属性セットから、前記関係値セット
の内の最も高い関係値を有するものに対応するような1つの属性を選択する過程
と、選択された前記属性の前記対応属性値セット内に前記属性値の1つを有するよ
うな、前記データセットのサブセットに対応するクラスターを同定する過程とを
有することを特徴とする方法。
【請求項２】更に追加のクラスターを決定するために、選択された前記
属性の前記対応属性値セットについて反復して複数のクラスターを決定し、前記
算出及び反復過程を再帰的に適用して追加のクラスターを決定する過程を更に有
することを特徴とする請求項１に記載の方法。
【請求項３】属性セットを決定する前記過程が、第２の属性セットから
前記属性セットを同定するための選択信号を受ける過程を更に有することを特徴
とする請求項１に記載の方法。
【請求項４】属性セットを決定する前記過程が、前記属性セットをｋ個
の属性に縮小する過程を更に有し、該縮小過程が、前記属性セットの各属性について対応するエントロピを算出する過程と、最も低いエントロピを有するｋ個の属性を前記属性セット内に保持する過程と
を有することを特徴とする請求項１に記載の方法。
【請求項５】前記頻度情報算出過程が、前記属性セットのための前記
データセットに対して、前記頻度情報を算出するべきＣＵＢＥ演算を実行する過
程を有することを特徴とする請求項１に記載の方法。
【請求項６】クラスターを定義可能であるか否かを決定する過程と、
該決定過程の結果に応じて前記算出過程が実行されることを特徴とする請求項１
に記載の方法。
【請求項７】クラスターを定義可能であるか否かを決定する前記過程
が、前記関係値セットの内の少なくとも1つの関係値が所定値を超えた場合にの
み前記クラスターを生成する過程を有することを特徴とする請求項１に記載の方
法。
【請求項８】前記データセットが、或る数のデータ点を有し、クラス
ターを定義可能であるか否かを決定する前記過程が、前記データセット内にクラ
スターするべき残りのデータ点の数が所定値を超えた場合のみ前記クラスターを
生成する過程を有し、前記所定値が、データ点の絶対数又はデータ点の総数の或
る割合のいずれかであることを特徴とする請求項１に記載の方法。
【請求項９】前記関係値セット算出過程が、前記属性セットの各属性
の影響を算出する過程を更に有することを特徴とする請求項１に記載の方法。
【請求項１０】前記属性セットの各属性の影響を算出する前記過程が
、前記属性セット内の属性の対の相互情報（ＭＩ）を算出する過程を更に有する
ことを特徴とする請求項９に記載の方法。
【請求項１１】ノードからサブセットを創生する過程を更に有し、該
過程が、前記属性セット内から、前記関係値中２番目に高い対応関係値を有する第２の
属性を選択する過程と、ベクトルのセット間のBhattachryya距離を算出する過程と、前記ベクトルセット内の少なくとも２つのベクトル間のBhattachryya距離が、
所定値を超えた場合にサブセットを創生する過程とを有し、前記ベクトルセット内の各ベクトルが、前記属性に対応する前記属性値セット
中の属性値に対応し、前記各ベクトルが、前記属性値のそれぞれの確率からなる
ことを特徴とする請求項１に記載の方法。
【請求項１２】前記サブセット及び前記属性に対応する前記属性セッ
ト中の残りの属性値について実行される反復過程をして更に有することを特徴と
する請求項１１に記載の方法。
【請求項１３】デシジョンツリーを用いてデータのセットの複数のクラ
スターを創生するための装置であって、前記複数のクラスターのそれぞれが、前
記データセットのサブセットからなり、前記データセットが、或る数のデータ点
からなり、前記データ点のそれぞれが、属性セット内のそれぞれの属性に対応す
る複数の属性値からなり、前記デシジョンツリーが、複数のリーフノードを有し
、前記複数のリーフノードのそれぞれが、前記複数のクラスター中の１つのクラ
スターに対応するような装置に於いて、前記データセットについて頻度情報を検索する手段と、前記属性セット内から1つの属性を選択するために前記頻度情報を用いる手段
と、前記デシジョンツリーに、前記属性に対応するノードを追加する手段と、前記ノードから複数の子ノードを構成するために前記頻度情報を用い、前記ノ
ードから前記子ノードのそれぞれに至るパスが、前記属性の属性値に対応するよ
うにするための手段とを有することを特徴とする装置。
【請求項１４】前記子ノードの１つがサブセットをなし、前記ノード
から複数の子ノードを構成するために前記頻度情報を用いる前記手段が更に、前記属性セットから第２の属性を選択する手段と、前記第２の属性に対応する属性値に関する頻度情報を利用し、前記属性のため
の少なくとも２つの属性値からなるサブセットを創生する手段とを有することを
特徴とする請求項１３に記載の装置。
【請求項１５】前記属性の属性値の分布の均一性に基づき、前記属性
セットから少なくとも１つの属性を削除するための手段を更に有することを特徴
とする請求項１３に記載の装置。
【請求項１６】クラスターを定義可能であるか否かを決定するための
手段を更に有することを特徴とする請求項１３に記載の装置。
【請求項１７】デシジョンツリーを用いて確率論的にデータのセットを
クラスターするための方法であって、複数のクラスターを生成する過程を有し、前記複数のクラスターのそれぞれが
、前記データセットのサブセットに対応し、前記複数のクラスターのそれぞれが
、前記デシジョンツリーのリーフノードに対応し、前記複数のクラスターのそれ
ぞれが翻訳可能（interpretable）であって、当該方法が、Ｏ（ｎ）時間につい
て実行され、ｎが前記属性セットのデータ点の数であることを特徴とする方法。
【請求項１８】前記データが、ＣＵＢＥ演算を用いてアクセスされる
ことにより、前記属性セットの属性値の頻度を検索することを特徴とする請求項
１７に記載の方法。
【請求項１９】前記デシジョンツリーのルートノードからリーフノー
ドへのパスが、前記データセットから対応するクラスターを検索するためのＳＱ
Ｒクエリーを同定することを特徴とする請求項１７に記載の方法。
【請求項２０】ｎ個のデータ点からなるデータのセットに於いてクラス
ターＣ（ｘ_ｉ，ｘ_ｉ＝ν）を決定するための方法であって、前記データセットがａ個の属性（ｘ_１，ｘ_２，．．．，ｘ_ａ）を同定し、前記
ｎ個のデータ点が、対応する属性の属性値を有するａ−ベクトルであって、前記
クラスターＣ（ｘ_ｉ，ｘ_ｉ＝ν）が前記データセットのサブセットであって、ｉ
∈｛１，．．．，ａ｝、属性ｘ_ｉは、属性ｘ_ｊの属性値νに等しいことを特徴と
する方法。
【請求項２１】【数１】となるように、ｉが選択されることを特徴とする請求項２０に記載の方法。
【請求項２２】キャリア波により搬送されるコンピュータデータ信号で
あって、デシジョンツリーを用いて確率論的にデータのセットをクラスターするための
コンピュータプログラムを有し、該コンピュータプログラムが複数のクラスター
を生成し、かつそれぞれ対応する属性値のセットを有する属性のセットを決定するための第１
の命令のセットと、前記属性セットのための頻度情報を算出するための第２の命令のセットと、クラスターが定義可能か否かを決定するための第３の命令のセットと、前記決定過程の結果に応じて、前記頻度情報を用いて関係値のセットを算出し
、前記関係値セットの各関係値が、前記属性セットの1つの属性の、前記属性セ
ットの他の属性に対する関連特性に対応するようにするための第４の命令のセッ
トと、前記算出過程の後に、前記属性セットから、前記関係値セットの内の最も高い
関係値を有するものに対応するような1つの属性を選択することにより、デシジ
ョンツリーにノードを配置するための第５の命令のセットと、前記ノードから複数の子ノードを構成し、前記ノードから前記子ノードのそれ
ぞれに至るパスが、前記属性の属性値に対応するようにするための第６の命令の
セットとを有することを特徴とするコンピュータデータ信号。
【請求項２３】ＨＴＴＰサーバとインターフェースするための第７の
命令のセットを更に有することを特徴とする請求項２２に記載のコンピュータデ
ータ信号。
【請求項２４】前記複数のクラスターのそれぞれを記述するＨＴＭＬ
文書を生成するための第８の命令のセットを更に有することを特徴とする請求項
２２に記載のコンピュータデータ信号。
【請求項２５】それ自身の中からクラスターを同定するためのプログ
ラムを有するデータマートであって、前記クラスターが前記データマート内のデ
ータのサブセットを有し、前記クラスターが、属性及びこれら属性の属性値から
なるリストにより記述されることを特徴とするデータマート。
【請求項２６】前記データマート及びクラスターを同定するための前
記プログラムが、ウェブブラウザインターフェースによりアクセスされることを
特徴とする請求項２４に記載のデータマート。
【請求項２７】前記クラスターが、前記データマート内の属性が値を
有するようなデータ点を含む前記データマート内のデータのサブセットに対応し
、前記属性が、前記データマート内の他の属性に比較して最も強い影響を有する
ことを特徴とする請求項２４に記載のデータマート。