JP2003316796A

JP2003316796A - 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム

Info

Publication number: JP2003316796A
Application number: JP2002126497A
Authority: JP
Inventors: Hiroyuki Kato; 弘之樹加藤; Takehiro Koyama; 剛弘小山
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2002-04-26
Filing date: 2002-04-26
Publication date: 2003-11-07

Abstract

(57)【要約】【課題】クラスタの再抽出が行われた場合でも、簡単
に再抽出されたクラスタの情報を生成可能な階層クラス
タリング装置を提供する。【解決手段】クラスタ解析部１は、データ群内のデー
タについてまとまりの度合いに応じて階層構造を生成す
る。ノード情報生成部２は、階層構造中のノード及びリ
ーフについて、当該ノード以下に含まれるすべてのデー
タ（あるいはリーフのデータ）に関する情報をノード情
報として生成する。クラスタ抽出部３では、クラスタ解
析部１で生成した階層構造を、任意の階層で切り出して
クラスタを抽出する。このとき、切り出した部分構造の
最上位のノードのノード情報をクラスタの情報とする。
切り出す階層を変更してクラスタを再抽出した場合で
も、新たに切り出したそれぞれの部分構造の最上位のノ
ードに対応するノード情報をクラスタの情報とすればよ
く、クラスタの情報を再生成する必要がない。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ群からクラ
スタを抽出する技術に関するものであり、特に、抽出し
たクラスタに関する情報を取得する技術に関するもので
ある。

【０００２】

【従来の技術】近年、電子化の発達とともに大量のデー
タが公開されたり、あるいは共有されるようになってき
た。このように大量のデータの中から、必要とするデー
タを探し出すことは至難の業である。そのため、データ
の内容によってある程度絞り込むためにデータを分類し
ておくことが必要とされている。

【０００３】分類の手法の一つとしてクラスタリングが
ある。その中でも、特にデータ群から階層構造を生成し
てクラスタ抽出を行う階層クラスタリングの手法は、ク
ラスタの再抽出を容易に行うことができるという特徴を
有している。階層クラスタリングには、階層構造の生成
方法によって、トップダウン階層クラスタリングとボト
ムアップ階層クラスタリングがある。

【０００４】まず階層クラスタリングについて簡単に説
明しておく。図１３は、一般的な階層クラスタリングに
おける階層構造の生成の説明図、図１４は、データ群か
ら生成される階層構造の一例の説明図である。トップダ
ウン階層クラスタリングは、図１３（Ａ）に示す多数の
データからなるデータ群を１つのグループとみなし、こ
のグループをまとまりの度合いが高いいくつかのグルー
プに分割する。図１３（Ｂ）に示す例では、２つのグル
ープに分割している。そして、分割されたそれぞれのグ
ループについて、さらにまとまりの度合いが高いいくつ
かのグループに分割してゆく。このような分割を繰り返
し行う。図１３（Ｃ）には、分割の途中を示しており、
ｎ_m個のデータからなるグループを、ｎ_m1個のデータか
らなるグループと、ｎ_m2個のデータからなるグループに
分割した例を示している。このようにして次第に小さな
グループに分割してゆくことによって、それぞれのグル
ープにおけるデータのまとまりの度合いが高くなってゆ
く。このようにして各グループにデータが１つとなるま
で、グループの分割を行う。

【０００５】このようにして分割してゆく過程において
生成されたグループをノードとし、各グループを分割し
てできたグループのノードとの間をアークとして階層構
造を生成する。これによって、例えば図１４に示すよう
な階層構造を得ることができる。なお、図１４におい
て、それぞれのデータを示すリーフを□で、ノードを○
で、アークを線でそれぞれ示している。

【０００６】またボトムアップ階層クラスタリングの場
合には、図１３（Ａ）に示す多数のデータをそれぞれ別
のグループとみなし、最も類似するいくつかのグループ
から順次併合してゆく。図１３（Ｄ）では、２つのデー
タを併合して１つのグループとした例を示している。こ
のように併合したグループは、他のグループと同様に扱
い、再び類似するグループを見つけて併合を繰り返して
ゆく。図１３（Ｅ）には、併合の途中を示しており、ｎ
_m1個のデータからなるグループと、ｎ_m2個のデータから
なるグループを併合してｎ_m個のデータからなるグルー
プを生成した例を示している。このようにして次第に大
きなグループを形成してゆき、１つのグループとなるま
で併合を繰り返す。

【０００７】このようにしてグループを併合してゆく過
程において生成されたグループをノードとし、併合元の
各グループのノードと併合後のグループのノードとの間
をアークとして階層構造を生成する。これによって、例
えば図１４に示すような階層構造を得ることができる。

【０００８】上述のようにして、トップダウン階層クラ
スタリング及びボトムアップ階層クラスタリングのいず
れの方法においても、例えば図１４に示すような階層構
造が得られる。その後、得られた階層構造を任意の階層
において切り出すことによってクラスタを抽出する。図
１５は、クラスタの切り出し処理の一例の説明図であ
る。上述の図１４に示した階層構造において、各ノード
に対応するグループ中のデータのまとまりの度合いによ
って、ノードの高さを変化させている。これによって、
高さが各ノードにおけるまとまり度合いを示すことにな
り、図１５に示すように図中の下方にゆくに従ってまと
まり度合いが高く、上方にゆくに従ってまとまり度合い
は低くなる。これを利用して、例えばまとまりの度合い
でクラスタを切り出す際には、階層構造を切る高さを調
節するだけで、任意のまとまり度合いでのクラスタの切
り出しを行うことができる。図１５に示した破線は、そ
れぞれが異なるクラスタリング結果が得られる切り出し
位置を示しており、それぞれ、異なるまとまり度合いで
のクラスタの切り出しを行うことができる。

【０００９】このようにしてデータ群の階層構造を生成
した後、任意のレベルで切り出すという２ステップによ
って、任意の条件で高速にクラスタを抽出することがで
きる。上述の説明ではまとまり度合いにより階層構造を
切り出す高さを調節すると説明したが、これに限らず、
例えばクラスタに含まれるデータ数の上限や、総クラス
タ数など、様々な条件に従って切り出す高さを調節する
場合がある。

【００１０】通常はクラスタを抽出した後、クラスタに
おける情報をそれぞれ生成する。クラスタの情報として
は、例えば類似度や、クラスタの内容を端的に示すラベ
ルなど、様々な情報が含まれる。図１６は、クラスタの
情報生成の説明図である。例えば図１６（Ａ）において
破線で示した高さで階層構造を切り出すと、リーフの部
分に楕円で示した４つのクラスタが抽出できる。これら
のクラスタの情報は、それぞれのクラスタに含まれるデ
ータ、すなわち楕円内に含まれるすべてのリーフのデー
タから導き出されるものである。従来は、階層構造から
クラスタを抽出した後に、各クラスタに含まれるデータ
から、各クラスタの情報を得ていた。

【００１１】一旦、階層構造を生成しておくと、切り出
しを行う階層（図１４〜図１６では高さに相当）を変更
することによって、容易にクラスタを変更することが可
能である。例えば図１６（Ｂ）に示すように切り出す階
層を下げると、６つのクラスタが抽出されることにな
る。このようにクラスタの再抽出を行った場合、従来は
再抽出したクラスタについて、再びクラスタの情報を生
成し直していた。クラスタの情報を生成するための処理
が、単に数値データを合計する程度の処理であれば、再
生成はたいした処理量とはならず、低いコストで済む。
しかし、データ群全体との相対的な計算や複雑な処理な
どを要する場合、再生成のための処理量は膨大なものと
なり、コストの増大が顕著となる。そのため、切り出し
レベルを頻繁に変更して結果を取得する場合には、その
反応速度が大きく悪化し、またそのコストも高くなって
しまうという問題があった。

【００１２】階層構造を扱う場合、アークによって直接
接続されるノード間の関係を当該アーク上に保持し、探
索時にその情報を活用する手法がある。この技術は、階
層構造上の直近の上下間の関係情報を保持するものであ
る。しかし、上述のようにクラスタの情報を得るために
は特定のノード以下の全体の情報を得る必要がある。従
って、クラスタの情報を得るためには、結局、リーフま
で探索しなければならず、クラスタの情報を生成する処
理は何ら軽減されない。

【００１３】

【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、クラスタの再抽出が行われ
た場合でも、簡単に再抽出されたクラスタの情報を生成
可能な階層クラスタリング装置及び階層クラスタリング
方法、階層クラスタリングプログラム、階層クラスタリ
ングシステムを提供することを目的とするものである。

【００１４】

【課題を解決するための手段】本発明は、データ群の階
層構造を生成し、階層構造のノードについて、当該ノー
ドの下位に含まれるすべてのリーフに対応するデータに
関する情報をノード情報として生成する。階層構造を任
意の階層で切り出してクラスタを生成したときには、切
り出したクラスタの最上位のノードに対応して生成され
ているノード情報を、クラスタの情報とすればよい。例
えば階層構造のすべてのノードについてノード情報を生
成しておけば、切り出す階層が変更されてクラスタの再
抽出を行う場合でも、新たに切り出したそれぞれのクラ
スタの最上位のノードに対応するノード情報を当該クラ
スタの情報とすればよく、クラスタの情報を再生成する
必要がない。従って、クラスタの再抽出の際に、非常に
簡単に、しかも高速に、再抽出された各クラスタの情報
を生成することができる。

【００１５】なお、ノード情報の生成は、階層構造の生
成過程においてノードを生成する毎に行ってもよいし、
あるいは、階層構造の生成後に生成してもよい。階層構
造の生成後にノード情報を生成する際には、階層構造の
リーフの直近の上位ノードから順に、当該ノードの直近
の下位ノードの情報のみを用いて生成してゆくことがで
きる。

【００１６】また、ノード情報を生成するノードを、予
め設定されている範囲内に制限しておくこともできる。
例えばクラスタの再抽出を行う階層の範囲が分かってい
る場合には、その範囲内のノードについてのみノード情
報を生成することによって、処理量を低減することが可
能である。この場合、範囲を逸脱した階層によるクラス
タの再抽出が行われた場合には、少なくともノード情報
が生成されていないクラスタの最上位のノードについ
て、ノード情報の生成を行うだけでよい。これによっ
て、設定範囲外でクラスタの再抽出が行われた場合にも
対応することができる。

【００１７】さらに、このような階層クラスタリング
を、クライアント／サーバによって構成される階層クラ
スタリングシステムによって実現した場合には、クライ
アントからサーバへ要求を出すと、サーバは、データ群
の階層構造を生成するとともに、階層構造のすべてのノ
ードについて当該ノードの下位に含まれるすべてのリー
フに対応するデータに関する情報をノード情報として生
成し、階層構造及びノード情報をクライアントに返す。
クライアントは、サーバから返される階層構造及びノー
ド情報をもとに、階層構造を任意の階層で切り出してク
ラスタを生成するとともに切り出したクラスタの最上位
のノードに対応するノード情報を当該クラスタの情報と
すればよい。このような構成によって、例えば切り出す
階層を変更した場合でも、クライアントの処理のみで対
応することが可能となる。また、クライアント内の処理
も、改めてクラスタの情報を生成する処理は不要であ
り、簡単に、しかも高速に再抽出されたクラスタの情報
を取得することができる。

【００１８】あるいは、同様のシステム構成において、
サーバでは予め設定されている範囲のノードについてノ
ード情報を生成して、階層構造及び前記ノード情報をク
ライアントに返すように構成してもよい。この場合、ク
ライアントにおいて任意の階層で切り出すと、範囲外と
なってノード情報が存在しないことがある。このような
場合には、クライアントからサーバに対してノード情報
を要求し、サーバにおいてノード情報を生成してクライ
アントに返すように構成すればよい。この場合も、所定
の範囲内ではクライアントのみによって、簡単に、しか
も高速に、クラスタの再抽出及びクラスタの情報の取得
が可能である。

【００１９】

【発明の実施の形態】図１は、本発明の実施の一形態を
示すブロック図である。図中、１はクラスタ解析部、２
はノード情報生成部、３はクラスタ抽出部である。クラ
スタ解析部１は、データ群の階層構造を生成する。階層
構造の生成方法としては、従来より行われているトップ
ダウン階層クラスタリングあるいはボトムアップ階層ク
ラスタリングのいずれの方法により行ってもよい。この
クラスタ解析部１における階層構造の生成方法は従来と
同様であり、既に説明したとおりである。

【００２０】ノード情報生成部２は、クラスタ解析部１
で生成した階層構造のノードについて、当該ノードの下
位に含まれるすべてのリーフに対応するデータに関する
情報をノード情報として生成する。ノード情報の生成
は、クラスタ解析部１においてノードが生成される毎に
行ったり、あるいは、クラスタ解析部１において階層構
造を作成した後に行うことができる。階層構造が既に生
成されている場合には、その階層構造を参照し、階層構
造のリーフの直近の上位ノードから順に、当該ノードの
直近の下位ノード（またはリーフ）の情報のみを用いて
ノード情報を生成してゆくことができる。

【００２１】またノード情報生成部２でノード情報を生
成するノードとしては、すべてのノードを対象とするほ
か、予め設定されている範囲（階層範囲）内のノードと
することもできる。予め設定されている範囲内のノード
についてノード情報を生成した場合、その後に範囲外の
ノードについてのノード情報が必要になったときには、
その時点でノード情報を生成することもできる。生成す
るノード情報としては、当該ノードの下位に含まれるす
べてのリーフのデータを包括する内容を示すラベルや、
含まれるデータのばらつきの度合いなど、任意の情報を
生成することができる。

【００２２】クラスタ抽出部３は、クラスタ解析部１で
生成した階層構造を任意の階層で切り出してクラスタを
抽出する。このとき、抽出したクラスタの最上位のノー
ドに対応してノード情報生成部２で生成されているノー
ド情報を、当該クラスタの情報とする。

【００２３】またクラスタ抽出部３は、切り出す階層の
変更に伴って、クラスタの再抽出を行う。このクラスタ
の再抽出は、クラスタ解析部１で生成した階層構造を利
用することによって行うことができる。そのため、改め
てクラスタ解析部１による処理を行う必要はない。クラ
スタの再抽出を行った場合、新たに抽出したクラスタに
ついて、それぞれ、再抽出したクラスタの最上位のノー
ドに対応するノード情報を当該クラスタの情報とする。
なお、ノード情報生成部２で所定の範囲内のノードにつ
いてしかノード情報を生成していない場合、切り出す階
層の変更が範囲を逸脱して行われる場合も考えられる。
このような場合には、少なくともノード情報が生成され
ていないクラスタの最上位のノードについて、ノード情
報の生成をノード情報生成部２に依頼し、取得したノー
ド情報を当該クラスタの情報とすればよい。

【００２４】次に、本発明の実施の一形態における動作
について説明する。基本的にデータ群から階層構造を生
成し、その階層構造の任意のレベルで切り出してクラス
タを抽出するという流れは従来と同様であるが、本発明
ではこの過程でノード情報を生成して利用する。主にノ
ード情報に関連する部分について説明してゆくことにす
る。

【００２５】図２は、トップダウン階層クラスタリング
により階層構造の生成時に並行してノード情報を生成す
る場合の説明図である。上述の図１３で説明したよう
に、トップダウン階層クラスタリングでは、データ群を
１つのグループとし、このグループをまとまりの度合い
の高いデータ毎に複数のグループに分割する処理を繰り
返してゆく。例えば図２（Ａ）に示したｎ個のデータか
らなるデータ群は、まず図２（Ｂ）に示すようにｎ₁個
のデータからなるグループと、ｎ₂個のデータからなる
グループに分割される。この時、元のデータ群はルート
ノードとなり、分割されたグループはそれぞれがノード
となる。このとき、各グループについて、ノード情報生
成部２でノード情報を生成してノードに対応づけてお
く。なお、ルートノードについてはノード情報を生成し
なくてもよい。

【００２６】各グループについて再び分割を行う処理を
繰り返し、図２（Ｃ）では、ｎ_m個のデータからなるグ
ループをｎ_m1個のデータからなるグループとｎ_m2個のデ
ータからなるグループに分割している。このとき、ｎ_m1
個のデータからなるグループとｎ_m2個のデータからなる
グループに対応するノードが作成されるので、これらの
ノードに対応するノード情報をノード情報生成部２で生
成する。この場合、分割前のｎ_m個のデータからなるグ
ループ（ノード）に対応するノード情報を利用すること
も可能である。

【００２７】このようにして、すべてのグループが１つ
のデータからなるグループとなるまで、グループ分割
と、分割された新たなグループに対応するノードのノー
ド情報の生成の処理を行う。これによって、階層構造の
各ノード（及びリーフ）についてノード情報を生成する
ことができる。

【００２８】図３は、ボトムアップ階層クラスタリング
により階層構造の生成時に並行してノード情報を生成す
る場合の説明図である。上述の図１３で説明したよう
に、ボトムアップ階層クラスタリングでは、データ群内
のそれぞれのデータをそれぞれ別のグループとみなし、
最も類似するいくつかのグループから順次併合する処理
を繰り返してゆく。例えば図３（Ａ）に示したｎ個のデ
ータからなるデータ群の場合、まず図３（Ｂ）に示すよ
うに最も類似する２つのデータ（グループ）を１つのグ
ループに併合している。このグループが階層構造のノー
ドとなる。この時、ノード情報生成部２は、併合した２
つのデータからノード情報を生成し、新たに生成された
ノード（グループ）に対応づけておく。なお、リーフと
なる各データについても、必要に応じて予めノード情報
を生成しておく。

【００２９】このように併合したグループは、他のグル
ープと同様に扱い、再び類似するグループを見つけて併
合を繰り返してゆく。図３（Ｃ）では、ｎ_m1個のデータ
からなるグループと、ｎ_m2個のデータからなるグループ
を併合してｎ_m1＋ｎ_m2個のデータからなるグループを生
成した例を示している。このとき、ｎ_m1個のデータから
なるグループとｎ_m2個のデータからなるグループに対応
するノードについては、既にノード情報が生成されてい
る。既に生成されているノード情報は、それ以下に含ま
れているデータ（リーフ）の情報を含んでいるので、既
に生成されているノード情報が存在する場合、そのノー
ド情報を利用すると効率的に処理を行うことができる。
すなわち、新たに生成したｎ_m1＋ｎ_m2個のデータからな
るグループ（ノード）に対応するノードのノード情報
は、ｎ_m1個のデータからなるグループに対応するノード
のノード情報と、ｎ_m2個のデータからなるグループに対
応するノードのノード情報から生成することができる。
もちろん、下位に含まれるデータを参照して新たにノー
ド情報を生成してもよい。

【００３０】このようにして次第に大きなグループを形
成しながらノード情報を生成してゆき、１つのグループ
となるまで併合及びノード情報の生成を繰り返す。これ
によって、階層構造の各ノード（及びリーフ）について
ノード情報を生成することができる。

【００３１】このようにして、トップダウン階層クラス
タリングあるいはボトムアップ階層クラスタリングのい
ずれの場合も、階層構造を生成しながら、ノード情報を
生成してゆくことができる。

【００３２】なお、クラスタ解析部１で階層構造を生成
した後に、ノード情報生成部２でノード情報を生成する
ことも可能である。この場合には、図３に示したボトム
アップ階層クラスタリングの場合と同様に、階層構造の
リーフの直近の上位ノードから順に、ノード情報を生成
してゆくとよい。この場合、例えばボトムアップ階層ク
ラスタリングでノードが生成される順、すなわち類似し
ている度合いが大きい順（ばらつきの度合いが小さい
順）にノード情報を生成してゆくと、あるノードについ
てノード情報を生成する時点で、当該ノードの下位のノ
ードについては、既にノード情報が生成されている。あ
るいは、下位のノードについてノード情報が生成されて
いない場合、当該下位のノード（あるいはさらに下位の
ノード）からノード情報を生成してゆくと、ノード情報
を生成しようとしているノードについては、必ず、下位
のノード（リーフを含む）についてはノード情報が既に
生成されている状態となる。このように、下位のノード
について既にノード情報が生成されている場合には、上
述のように、既に生成されているノード情報を利用して
当該ノードのノード情報を生成することが可能である。
このように既に生成されているノード情報を利用するこ
とによって、当該ノードから階層のリーフまで探索して
含まれる全てのリーフの情報を収集する必要がなくな
り、処理コストを削減することができる。

【００３３】図４、図５は、生成された階層構造及びノ
ード情報の具体例の説明図である。図４では１３個のデ
ータを解析して生成した階層構造を木構造で表現して示
し、同じ階層構造を図５では表形式で表現して示してい
る。図４，図５において、それぞれのノード及びリーフ
には一連番号を付して識別している。この時、各ノード
についてはばらつきの度合いが大きいほど小さい番号
を、ばらつきの度合いが小さいほど大きい番号を付与し
ている。図４に示す木構造の表現では、ばらつきの度合
いが小さいほど低く、ばらつきの度合いが大きいほど高
い位置にノードを配置している。このような二分木の場
合、ノード数（リーフを含む）は、（文書数×２‐１）
個となる。

【００３４】また、ここでは一例として、ノード情報
は、当該ノード以下に含まれるデータの内容を表す語句
からなるラベルであるものとし、各ノード及びリーフに
対して生成したノード情報をラベルＬ₁〜Ｌ₂₅として示
している。ラベルは、例えばリーフとなるデータがテキ
ストデータを含む文書の場合、テキストデータを形態素
解析することによって得られる単語ベクトルをもとに抽
出することができ、ノード以下に含まれる文書全体の最
重要語とすることができる。

【００３５】リーフのラベルＬ₁₃〜Ｌ₂₅は、単一文書の
情報であるのですぐに取得できる。それ以外のラベル
は、直近の下位ノードの持つ単語ベクトルを利用する。
例えばノード１２のラベルＬ₁₂を生成する場合は、リー
フ１３の単語ベクトル及びリーフ１４の単語ベクトルを
併合して抽出する。同様に、ノード６のラベルＬ₆を生
成する場合は、ノード１１の単語ベクトル及びノード１
２の単語ベクトルを併合して抽出すればよい。

【００３６】上述のようなノード情報の生成処理によっ
て、図４に示すように階層構造とともにノード及びリー
フには対応するノード情報が生成される。このような階
層構造及びノード情報は、例えば図５に示すような表形
式でも表現することが可能である。図５に示した表形式
の階層構造では、親ノードと、その親ノードの下位に直
接展開される２つの子ノードを対にして登録したもので
あり、ノード情報としてラベルを対応づけている。な
お、リーフについては子ノードが存在しない。もちろん
階層構造及びノード情報の表現形式（データ形式）は、
この例に限られるものではなく、任意の表現形式（デー
タ形式）を採用することができる。

【００３７】図６は、クラスタ抽出部によるクラスタの
抽出処理の一例の説明図である。例えば図４，図５に示
したように階層構造及びノード情報（ラベル）が生成さ
れた後、ユーザは任意の階層において階層構造を切り、
クラスタを抽出することができる。図６では、ユーザが
クラスタ数５を指定した場合を示している。５個のクラ
スタを抽出するためには、図６中の破線の階層で切り出
せばよい。これによって、ノード５，６，７，８，９を
頂点とする部分構造が得られる。例えばノード６を頂点
とする部分構造には、リーフ１３，１４，１５，１６が
含まれており、これらのリーフに対応するデータを含む
クラスタを抽出することができる。同様に、ノード５を
頂点とする部分構造からリーフ１７，１８，１９に対応
するデータを含むクラスタを抽出することができる。さ
らに、ノード７を頂点とする部分構造からリーフ２０，
２１に対応するデータを含むクラスタ、ノード８を頂点
とする部分構造からリーフ２２，２３に対応するデータ
を含むクラスタ、ノード９を頂点とする部分構造からリ
ーフ２４，２５に対応するデータを含むクラスタをそれ
ぞれ抽出することができる。

【００３８】このようにして抽出された５個のクラスタ
について、それぞれ、クラスタの情報を生成する。この
クラスタの情報の生成は非常に簡単である。先にクラス
タを抽出したときの部分構造の頂点（最上位）のノード
に対応づけられているノード情報（ラベル）をそのまま
クラスタの情報とすればよい。すなわち、抽出した５つ
のクラスタについて、ノード５，６，７，８，９のラベ
ルＬ₅，Ｌ₆，Ｌ₇，Ｌ₈，Ｌ₉をそれぞれクラスタの
情報とすればよい。

【００３９】図７は、表形式の階層構造を用いた場合の
クラスタの抽出処理の一例の説明図である。図６に示し
た例では、階層構造を木構造で表現した場合について説
明した。もちろん、図５に示したように階層構造を表形
式で表現した場合にも、任意の階層で切り出すことがで
き、その場合の例を図７に示している。この例において
も、ユーザが切り出しの階層として「クラスタ数＝５」
を指定した場合を示している。この場合、図７（Ａ）に
示すように上から４行目と５行目の間で切り出すことに
なる。これは、２分木の場合、表の行を１つ下がる毎に
１つずつクラスタが増加することによるものである。

【００４０】この位置で階層構造を切り出す場合、いず
れのノード（リーフ）が切り出された部分構造の頂点
（最上位）のノードとなるかを知る必要がある。この処
理は、図７（Ｂ）に示すようにして行う。すなわち、切
り出した階層よりの上（１〜４行目）の子ノード番号の
リストと親ノードのリストを取得し、子ノード番号のリ
ストから、親ノード番号のリスト中に存在するものを除
けばよい。この例では、子ノード番号のリストとしてノ
ード番号２，３，４，５，６，７，８，９が得られ、ま
た、親ノード番号のリストとしてノード番号２，３，４
が得られる。従って、子ノード番号のリストから親ノー
ド番号のリスト中に存在するものを除けば、ノード番号
５，６，７，８，９が得られる。従って、ノード番号
５，６，７，８，９のノードが頂点（最上位）となる各
部分構造が得られ、各部分構造に含まれるデータによっ
てそれぞれのクラスタを抽出することができる。また、
各クラスタの情報は、これらのノード番号を親ノード番
号として有する行のラベル欄を参照すればよい。これに
よって、クラスタの情報としてそれぞれラベルＬ₅，Ｌ
₆，Ｌ₇，Ｌ₈，Ｌ₉を得ることができる。

【００４１】次に、階層構造を切り出す階層を変更した
場合について説明してゆく。上述のように、階層構造を
生成しておくと、切り出す階層を変更することによっ
て、抽出するクラスタを容易に変更することが可能であ
る。特に、切り出す階層を変更してクラスタが変更され
ても、変更後のクラスタの情報を非常に簡単に生成する
ことができる。

【００４２】図８は、切り出す階層を変更した場合のク
ラスタの抽出処理の一例の説明図である。図６に示すよ
うに５個のクラスタを抽出した後、ユーザがクラスタ数
を６に変更した場合を図８に示している。この場合、図
８中の太い破線の位置で階層構造を切り出せばよい。こ
れによって、ノード６，７，８，９，１０を頂点とする
５つの部分構造と、リーフ１９のみによって構成される
部分構造が得られる。これら６つの部分構造から、リー
フ１３，１４，１５，１６に対応するデータを含むクラ
スタ、リーフ１７，１８に対応するデータを含むクラス
タ、リーフ１９に対応するデータのみを含むクラスタ、
リーフ２０，２１に対応するデータを含むクラスタ、リ
ーフ２２，２３に対応するデータを含むクラスタ、リー
フ２４，２５に対応するデータを含むクラスタをそれぞ
れ抽出することができる。

【００４３】これらのクラスタの情報は、それぞれの部
分構造の頂点（最上位）のノードに対応づけられている
ノード情報（ラベル）をそのままクラスタの情報とすれ
ばよい。すなわち、抽出した６つのクラスタについて、
ノード６，１０，リーフ１９，ノード７，８，９のラベ
ルＬ₆，Ｌ₁₀，Ｌ₁₉，Ｌ₇，Ｌ₈，Ｌ₉をそれぞれクラ
スタの情報とすればよい。

【００４４】この他にも、ユーザはクラスタ数を１から
１３（クラスタ数はデータ数が最大）の範囲で任意に指
定することができる。指定を受けてクラスタの再抽出を
行った場合、新たに抽出されたクラスタの情報を改めて
データから生成する必要はなく、すでに生成して保持し
ているノード情報（ラベル）を取得するだけで、クラス
タの情報を瞬時に得ることができる。

【００４５】図９は、表形式で階層構造を表現した場合
において切り出す階層を変更した場合のクラスタの抽出
処理の一例の説明図である。階層構造を表形式で表現し
た場合にも、切り出す階層の変更に容易に対応すること
ができる。例えば図７に示すように「クラスタ数＝５」
であった状態から、切り出す階層を「クラスタ数＝６」
に下げた場合について説明する。この場合、図９（Ａ）
に示すように、表において切り出す位置を１行下げれば
よい。

【００４６】クラスタの抽出には、それまでのクラスタ
抽出において部分構造の頂点（最上位）となっていたノ
ード番号のリストを利用することができる。切り出し階
層の変更前は、ノード番号５，６，７，８，９のノード
が部分構造の頂点であった。切り出す階層の位置を下げ
たとき、その元の位置から下げた位置までに含まれる子
ノード番号のリストと親ノード番号のリストを取得し、
子ノード番号のリストの追加と親ノード番号のリストの
除去を行えばよい。具体的には、元の４行目と５行目の
間の切り出し位置を１行下げ、５行目に含まれている子
ノード番号のリスト１０，１９と、親ノード番号のリス
ト５を取得する。そして、図９（Ｂ）に示すように、そ
れまでの部分構造の頂点のノード番号のリスト５，６，
７，８，９に、子ノード番号のリスト１０，１９を追加
し、親ノード番号のリスト５を除去する。これによっ
て、新たなノード番号のリスト６，７，８，９，１０，
１９が得られる。これらのノード番号のノードを頂点
（最上位）とする部分構造に含まれるデータによってク
ラスタを再抽出することができる。

【００４７】再抽出されたクラスタの情報は、これらの
新たなノード番号のリスト６，７，８，９，１０，１９
に対応づけられているラベル欄を参照すればよい。な
お、この例では、ノード番号５がなくなり、ノード番号
１０，１９が新たに追加されているので、クラスタの情
報も差分のみを取得すればよい。すなわち、ノード情報
（ラベル）として、ノード番号１０，１９に対応するラ
ベルを読み出し、ノード番号５に対応するラベルを除け
ばよい。

【００４８】上述の木構造及び表形式の例のいずれも、
１階層のみの変更の例を示しているが、２階層以上の変
更の場合も同様にして処理することができる。また、ク
ラスタ数を増加させる変更を行う例を示したが、クラス
タ数を減少させる場合についても同様に処理することが
できる。この場合、表形式で階層構造を表現している場
合には、追加と削除を逆に行うだけで対応することが可
能である。すなわち、含まれなくなる子ノードに対応す
るラベルを除き、含まれなくなる親ノードに対応するラ
ベルを追加すればよい。

【００４９】上述の動作の説明では、階層構造中のノー
ド（及びリーフ）のすべてについて、ノード情報を生成
しておく例を示した。しかし本発明はこれに限らず、予
め設定されている範囲のノードについてのみ、ノード情
報を生成するように構成することができる。例えば元の
データ群のデータを取得する際に、ユーザが指定する範
囲が予め分かっている場合（もしくは想定できる場合）
がある。このような場合には、その範囲外の情報は不要
である。不要なノード情報の生成を行わないことによっ
て、処理コストを削減することができる。また、クラス
タ解析部１による処理開始から最初のクラスタ抽出部３
によるクラスタの抽出及び結果の提示までの時間を短縮
することが可能である。

【００５０】図１０は、設定範囲に応じたノード情報生
成の一例の説明図である。例えば破線で挟まれた階層の
部分を設定した場合、ノード情報を生成する範囲は破線
で挟まれた階層部分内のノードとともに、この範囲で階
層構造を切断したときに部分構造の頂点（最上位）とな
り得るノードである。図１０に示した例では、黒く塗り
つぶしたノード及びリーフがノード情報の生成対象の範
囲となる。これらのノードについてノード情報を生成し
ておけば、破線で挟まれた範囲で、階層構造を切断する
階層を変更した場合でも、上述のようにしてクラスタの
情報を即座に得ることが可能である。

【００５１】このように階層を限定してノード情報を生
成する範囲を制限した場合、ユーザが指定する切り出し
の階層を制限しておくことができる。あるいは、想定さ
れている範囲を逸脱した指定が行われた場合には、改め
てノード情報生成部２によってノード情報の生成を行う
ように構成することもできる。図１１は、設定範囲外の
切り出しの階層が指定された場合のノード情報生成の一
例の説明図である。図１０と同様に破線で挟まれた階層
部分について切り出しの階層が変更可能なようにノード
情報が生成されているとき、これより低い太い破線で示
した階層で切り出すことが指示されたとする。この場
合、図１１において二重円で示した２個のノードのノー
ド情報が新たに必要となる。そのため、これらのノード
について、ノード情報生成部２においてノード情報を生
成すればよい。このノード情報の生成には時間を要する
場合もあるが、従来のように新たに抽出したクラスタす
べてについてクラスタの情報を取得し直す場合に比べれ
ば、必要となったノード情報のみを取得するだけである
ので高速に処理を行うことができる。

【００５２】なお、このようにして新たに取得したノー
ド情報についても保持しておけば、再び同様の階層での
切り出しが指示された場合や、さらに下層での切り出し
が指示された場合に利用することができる。また、ここ
では設定されている階層範囲よりも下層において切り出
しが指示された場合を示したが、設定されている階層範
囲よりも上層において切り出しが指示された場合につい
ても、同様に必要となったノード情報をノード情報生成
部２で生成すればよい。このようにして、設定されてい
る階層範囲以外の階層での切り出し指示に対しても対応
することができるようになる。

【００５３】上述の例では階層範囲の上限及び下限を設
定しているが、例えば上限又は下限のみを設定すること
も可能である。例えば上限のみを設定している場合、ボ
トムアップ階層クラスタリングを行ったり、階層構造の
生成後にリーフからノード情報を生成してゆく処理を行
う際に、設定されている上限でノード情報の生成処理を
打ち切ればよく、処理効率もよい。同様に、トップダウ
ン階層クラスタリングの場合には、下限を設定しておけ
ば、設定されている下限まででノード情報の生成を打ち
切ればよい。

【００５４】図１２は、本発明をクライアント／サーバ
システムで実現した場合の構成図である。図中、１１は
クライアント、１２はサーバである。上述のようなクラ
スタリングの処理を、クライアント１１とサーバ１２で
構成されたシステムにおいて実現することができる。こ
の場合、サーバ１２においてクラスタ解析部１及びノー
ド情報生成部２の処理を行い、クライアント１１におい
てクラスタ抽出部３の処理を行うとよい。

【００５５】すなわち、クライアント１１からサーバ１
２に対して要求を送ると、サーバ１２は、クライアント
１１からの要求に対して、データ群の階層構造を生成
し、階層構造のすべてのノードについてノード情報を生
成する。そして、階層構造及びノード情報をクライアン
ト１１に返す。またクライアント１１は、サーバ１２か
ら返される階層構造及びノード情報をもとに、階層構造
を任意の階層で切り出してクラスタを生成する。このと
き、生成したクラスタの情報をノード情報から取得す
る。

【００５６】このような構成では、クライアント１１が
階層構造及びノード情報を保持するので、階層構造を切
り出す階層が変更された場合でも、クライアント１１に
おける処理のみで対応することができる。従って、クラ
イアント１１はサーバ１２に１回アクセスして階層構造
及びノード情報を取得すれば、あとはサーバ１２にアク
セスすることなく、クライアント１１単体で自由に切り
出しの階層を設定してクラスタの抽出及びクラスタの情
報を取得することができる。しかも、その処理は非常に
簡単であり、低い処理コストにより実現可能である。

【００５７】上述の説明では、サーバ１２において階層
構造中のすべてのノードについてノード情報を生成し、
クライアント１１に渡すものとした。しかしこれに限ら
ず、例えば図１０などに示したように、クライアント１
１から最初にサーバ１２にアクセスした場合には、予め
設定されている範囲のノード情報のみを生成し、クライ
アント１１に渡すように構成することもできる。このよ
うな構成の場合にも、予め設定されている階層範囲で、
切り出す階層を変化させている間は、クライアント１１
のみによってクラスタの抽出及びクラスタの情報の取得
を行うことができる。

【００５８】しかし、予め設定されている階層範囲を逸
脱して切り出しの階層を指示された場合には、クラスタ
の情報を取得する際にノード情報が存在しないことがあ
り得る。このように予め設定されている階層範囲を逸脱
して切り出しの階層を指示された場合、ノード情報が存
在していないノードについて、あるいは当該ノードを含
めたすべてのノード情報をサーバ１２に要求するように
構成すればよい。サーバ１２では、このようなクライア
ント１１の要求に応じ、ノード情報を生成してクライア
ント１１に返せばよい。これにより、予め設定されてい
る階層範囲を逸脱して切り出しの階層が指示された場合
でも、サーバ１２からノード情報を取得してクラスタの
情報とすることができるようになる。

【００５９】上述の動作の説明や具体例では、クラスタ
解析部１において生成する階層構造を、すべて二分木
（親ノードが１個（最上端を除く）、子ノードが２個
（最下端（リーフ）を除く）の木構造）を用いて説明し
た。しかし本発明はこれに限られるものではなく、上下
関係を階層で示すことのできるデータ群であれば、二分
木である必要はない。例えば子ノードが２個でなくても
よく、また親ノードも１個でなくてよい。

【００６０】

【発明の効果】以上の説明から明らかなように、本発明
によれば、階層クラスタリングによって生成した階層構
造のノードについて、ノード情報を生成しておくので、
階層構造を切り出す階層が変更され、クラスタの再抽出
が行われた場合でも、非常に簡単に、再抽出されたクラ
スタの情報を得ることができるという効果がある。特に
膨大な量のデータを対象とする場合、従来のようにクラ
スタの再抽出の度にクラスタ内のデータからクラスタの
情報を生成すると、クラスタの再抽出の度に膨大な処理
量及び処理時間が必要となる。しかし本発明によれば、
最初に処理を行ってしまえば、その後のクラスタの再抽
出の際にはきわめて簡単に、しかも高速に処理を行うこ
とができる。従って、切り出す階層を頻繁に変更してク
ラスタの再抽出を行う場合には、本発明はきわめて有効
である。

【図面の簡単な説明】

【図１】本発明の実施の一形態を示すブロック図であ
る。

【図２】トップダウン階層クラスタリングにより階層
構造の生成時に並行してノード情報を生成する場合の説
明図である。

【図３】ボトムアップ階層クラスタリングにより階層
構造の生成時に並行してノード情報を生成する場合の説
明図である。

【図４】生成された階層構造及びノード情報の具体例
（木構造表現）の説明図である。

【図５】生成された階層構造及びノード情報の具体例
（表形式表現）の説明図である。

【図６】クラスタ抽出部によるクラスタの抽出処理の
一例の説明図である。

【図７】表形式の階層構造を用いた場合のクラスタの
抽出処理の一例の説明図である。

【図８】切り出す階層を変更した場合のクラスタの抽
出処理の一例の説明図である。

【図９】表形式で階層構造を表現した場合において切
り出す階層を変更した場合のクラスタの抽出処理の一例
の説明図である。

【図１０】設定範囲に応じたノード情報生成の一例の
説明図である。

【図１１】設定範囲外の切り出しの階層が指定された
場合のノード情報生成の一例の説明図である。

【図１２】本発明をクライアント／サーバシステムで
実現した場合の構成図である。

【図１３】一般的な階層クラスタリングにおける階層
構造の生成の説明図である。

【図１４】データ群から生成される階層構造の一例の
説明図である。

【図１５】クラスタの切り出し処理の一例の説明図で
ある。

【図１６】クラスタの情報生成の説明図である。

【符号の説明】

１…クラスタ解析部、２…ノード情報生成部、３…クラ
スタ抽出部、１１…クライアント、１２…サーバ。

Claims

【特許請求の範囲】

【請求項１】データ群の階層構造を生成するクラスタ
解析手段と、前記クラスタ解析手段で生成した階層構造
のノードについて当該ノードの下位に含まれるすべての
リーフに対応するデータに関する情報をノード情報とし
て生成するノード情報生成手段と、前記クラスタ解析手
段で生成した階層構造を任意の階層で切り出してクラス
タを抽出するとともに抽出したクラスタの最上位のノー
ドに対応して前記ノード情報生成手段で生成されている
前記ノード情報を当該クラスタの情報とするクラスタ抽
出手段を有することを特徴とする階層クラスタリング装
置。
【請求項２】前記ノード情報生成手段は、前記クラス
タ解析手段で生成した階層構造のすべてのノードについ
て前記ノード情報を生成し、前記クラスタ抽出手段は、
切り出す階層の変更に伴ってクラスタを再抽出した場合
に新たに抽出したそれぞれのクラスタの最上位のノード
に対応する前記ノード情報を当該クラスタの情報とする
ことを特徴とする請求項１に記載の階層クラスタリング
装置。
【請求項３】前記ノード情報生成手段は、前記クラス
タ解析手段においてノードを生成する毎に当該ノードに
対応するノード情報を生成することを特徴とする請求項
１または請求項２に記載の階層クラスタリング装置。
【請求項４】前記ノード情報生成手段は、前記クラス
タ解析手段で階層構造が生成された後に前記階層構造の
リーフの直近の上位ノードから順に当該ノードの直近の
下位ノードの情報のみを用いて前記ノード情報を生成し
てゆくことを特徴とする請求項１または請求項２に記載
の階層クラスタリング装置。
【請求項５】前記ノード情報生成手段は、予め設定さ
れている範囲内のノードについてのみノード情報を生成
することを特徴とする請求項１に記載の階層クラスタリ
ング装置。
【請求項６】前記クラスタ抽出手段は、前記範囲を逸
脱した階層による切り出しを行った場合に、少なくとも
前記ノード情報が生成されていないクラスタの最上位の
ノードについて前記ノード情報の生成を前記ノード情報
生成手段に依頼することを特徴とする請求項５に記載の
階層クラスタリング装置。
【請求項７】データ群の階層構造を生成し、前記階層
構造のノードについて当該ノードの下位に含まれるすべ
てのリーフに対応するデータに関する情報をノード情報
として生成し、前記階層構造を任意の階層で切り出して
クラスタを生成するとともに、切り出したクラスタの最
上位のノードに対応して生成されている前記ノード情報
を当該クラスタの情報とすることを特徴とする階層クラ
スタリング方法。
【請求項８】前記階層構造のすべてのノードについて
前記ノード情報を生成しておき、切り出す階層が変更さ
れた場合、当該変更に伴ってクラスタを再抽出するとと
もに、新たに切り出したそれぞれのクラスタの最上位の
ノードに対応する前記ノード情報を当該クラスタの情報
とすることを特徴とする請求項７に記載の階層クラスタ
リング方法。
【請求項９】前記階層構造の生成過程においてノード
を生成する毎に、当該ノードに対応するノード情報を生
成することを特徴とする請求項７または請求項８に記載
の階層クラスタリング方法。
【請求項１０】前記階層構造の生成後、前記階層構造
のリーフの直近の上位ノードから順に当該ノードの直近
の下位ノードの情報のみを用いて前記ノード情報を生成
してゆくことを特徴とする請求項７または請求項８に記
載の階層クラスタリング方法。
【請求項１１】前記ノード情報は、予め設定されてい
る範囲内のノードについてのみ生成することを特徴とす
る請求項７に記載の階層クラスタリング方法。
【請求項１２】前記範囲を逸脱した階層による切り出
しを行った場合に、少なくとも前記ノード情報が生成さ
れていないクラスタの最上位のノードについて前記ノー
ド情報の生成を行うことを特徴とする請求項１１に記載
の階層クラスタリング方法。
【請求項１３】コンピュータにデータ群のクラスタ分
割の処理を実行させる階層クラスタリングプログラムに
おいて、データ群の階層構造を生成するクラスタ解析機
能と、前記クラスタ解析機能で生成した階層構造のノー
ドについて当該ノードの下位に含まれるすべてのリーフ
に対応するデータに関する情報をノード情報として生成
するノード情報生成機能と、前記クラスタ解析機能で生
成した階層構造を任意の階層で切り出してクラスタを生
成するとともに切り出したクラスタの最上位のノードに
対応して前記ノード情報生成機能で生成されている前記
ノード情報を当該クラスタの情報とするクラスタ抽出機
能をコンピュータに実行させることを特徴とする階層ク
ラスタリングプログラム。
【請求項１４】前記ノード情報生成機能は、前記クラ
スタ解析機能で生成した階層構造のすべてのノードにつ
いて前記ノード情報を生成し、前記クラスタ抽出機能
は、切り出す階層の変更に伴ってクラスタを再抽出した
場合に新たに切り出したそれぞれのクラスタの最上位の
ノードに対応する前記ノード情報を当該クラスタの情報
とすることを特徴とする請求項１３に記載の階層クラス
タリングプログラム。
【請求項１５】前記ノード情報生成機能は、前記クラ
スタ解析機能においてノードを生成する毎に当該ノード
に対応するノード情報を生成することを特徴とする請求
項１３または請求項１４に記載の階層クラスタリングプ
ログラム。
【請求項１６】前記ノード情報生成機能は、前記クラ
スタ解析機能で階層構造が生成された後に前記階層構造
のリーフの直近の上位ノードから順に当該ノードの直近
の下位ノードの情報のみを用いて前記ノード情報を生成
してゆくことを特徴とする請求項１３または請求項１４
に記載の階層クラスタリングプログラム。
【請求項１７】前記ノード情報生成機能は、予め設定
されている範囲内のノードについてのみノード情報を生
成することを特徴とする請求項１３に記載の階層クラス
タリングプログラム。
【請求項１８】前記クラスタ抽出機能は、前記範囲を
逸脱した階層による切り出しを行った場合に、少なくと
も前記ノード情報が生成されていないクラスタの最上位
のノードについて前記ノード情報の生成を前記ノード情
報生成機能に依頼することを特徴とする請求項１７に記
載の階層クラスタリングプログラム。
【請求項１９】クライアントと、該クライアントから
の要求に応じて処理を行うサーバを含む階層クラスタリ
ングシステムにおいて、前記サーバは、クライアントか
らの要求に対してデータ群の階層構造を生成し前記階層
構造のすべてのノードについて当該ノードの下位に含ま
れるすべてのリーフに対応するデータに関する情報をノ
ード情報として生成して前記階層構造及び前記ノード情
報をクライアントに返すものであり、前記クライアント
は、前記サーバへの要求を行うとともに前記サーバから
返される前記階層構造及び前記ノード情報をもとに前記
階層構造を任意の階層で切り出してクラスタを抽出する
とともに抽出したクラスタの最上位のノードに対応する
前記ノード情報を当該クラスタの情報とするものであ
り、切り出す階層の変更に対して前記クライアントの処
理のみで対応することを特徴とする階層クラスタリング
システム。
【請求項２０】クライアントと、該クライアントから
の要求に応じて処理を行うサーバを含む階層クラスタリ
ングシステムにおいて、前記サーバは、クライアントか
らの要求に対してデータ群の階層構造を生成し前記階層
構造のうちの予め設定されている範囲のノードについて
当該ノードの下位に含まれるすべてのリーフに対応する
データに関する情報をノード情報として生成して前記階
層構造及び前記ノード情報をクライアントに返すととも
に、クライアントからのノード情報の要求に応じて要求
されたノードのノード情報を生成して返すものであり、
前記クライアントは、前記サーバへの要求を行うととも
に前記サーバから返される前記階層構造及び前記ノード
情報をもとに前記階層構造を任意の階層で切り出してク
ラスタを抽出するとともに抽出したクラスタの最上位の
ノードに対応する前記ノード情報を当該クラスタの情報
とするとともに対応する前記ノード情報が存在しない場
合には前記サーバに対してノード情報を要求して取得す
るものであることを特徴とする階層クラスタリングシス
テム。