JP2003316796A - 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム - Google Patents

階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム

Info

Publication number
JP2003316796A
JP2003316796A JP2002126497A JP2002126497A JP2003316796A JP 2003316796 A JP2003316796 A JP 2003316796A JP 2002126497 A JP2002126497 A JP 2002126497A JP 2002126497 A JP2002126497 A JP 2002126497A JP 2003316796 A JP2003316796 A JP 2003316796A
Authority
JP
Japan
Prior art keywords
node
cluster
information
node information
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002126497A
Other languages
English (en)
Inventor
Hiroyuki Kato
弘之樹 加藤
Takehiro Koyama
剛弘 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002126497A priority Critical patent/JP2003316796A/ja
Publication of JP2003316796A publication Critical patent/JP2003316796A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 クラスタの再抽出が行われた場合でも、簡単
に再抽出されたクラスタの情報を生成可能な階層クラス
タリング装置を提供する。 【解決手段】 クラスタ解析部1は、データ群内のデー
タについてまとまりの度合いに応じて階層構造を生成す
る。ノード情報生成部2は、階層構造中のノード及びリ
ーフについて、当該ノード以下に含まれるすべてのデー
タ(あるいはリーフのデータ)に関する情報をノード情
報として生成する。クラスタ抽出部3では、クラスタ解
析部1で生成した階層構造を、任意の階層で切り出して
クラスタを抽出する。このとき、切り出した部分構造の
最上位のノードのノード情報をクラスタの情報とする。
切り出す階層を変更してクラスタを再抽出した場合で
も、新たに切り出したそれぞれの部分構造の最上位のノ
ードに対応するノード情報をクラスタの情報とすればよ
く、クラスタの情報を再生成する必要がない。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ群からクラ
スタを抽出する技術に関するものであり、特に、抽出し
たクラスタに関する情報を取得する技術に関するもので
ある。
【0002】
【従来の技術】近年、電子化の発達とともに大量のデー
タが公開されたり、あるいは共有されるようになってき
た。このように大量のデータの中から、必要とするデー
タを探し出すことは至難の業である。そのため、データ
の内容によってある程度絞り込むためにデータを分類し
ておくことが必要とされている。
【0003】分類の手法の一つとしてクラスタリングが
ある。その中でも、特にデータ群から階層構造を生成し
てクラスタ抽出を行う階層クラスタリングの手法は、ク
ラスタの再抽出を容易に行うことができるという特徴を
有している。階層クラスタリングには、階層構造の生成
方法によって、トップダウン階層クラスタリングとボト
ムアップ階層クラスタリングがある。
【0004】まず階層クラスタリングについて簡単に説
明しておく。図13は、一般的な階層クラスタリングに
おける階層構造の生成の説明図、図14は、データ群か
ら生成される階層構造の一例の説明図である。トップダ
ウン階層クラスタリングは、図13(A)に示す多数の
データからなるデータ群を1つのグループとみなし、こ
のグループをまとまりの度合いが高いいくつかのグルー
プに分割する。図13(B)に示す例では、2つのグル
ープに分割している。そして、分割されたそれぞれのグ
ループについて、さらにまとまりの度合いが高いいくつ
かのグループに分割してゆく。このような分割を繰り返
し行う。図13(C)には、分割の途中を示しており、
m 個のデータからなるグループを、nm1個のデータか
らなるグループと、nm2個のデータからなるグループに
分割した例を示している。このようにして次第に小さな
グループに分割してゆくことによって、それぞれのグル
ープにおけるデータのまとまりの度合いが高くなってゆ
く。このようにして各グループにデータが1つとなるま
で、グループの分割を行う。
【0005】このようにして分割してゆく過程において
生成されたグループをノードとし、各グループを分割し
てできたグループのノードとの間をアークとして階層構
造を生成する。これによって、例えば図14に示すよう
な階層構造を得ることができる。なお、図14におい
て、それぞれのデータを示すリーフを□で、ノードを○
で、アークを線でそれぞれ示している。
【0006】またボトムアップ階層クラスタリングの場
合には、図13(A)に示す多数のデータをそれぞれ別
のグループとみなし、最も類似するいくつかのグループ
から順次併合してゆく。図13(D)では、2つのデー
タを併合して1つのグループとした例を示している。こ
のように併合したグループは、他のグループと同様に扱
い、再び類似するグループを見つけて併合を繰り返して
ゆく。図13(E)には、併合の途中を示しており、n
m1個のデータからなるグループと、nm2個のデータから
なるグループを併合してnm 個のデータからなるグルー
プを生成した例を示している。このようにして次第に大
きなグループを形成してゆき、1つのグループとなるま
で併合を繰り返す。
【0007】このようにしてグループを併合してゆく過
程において生成されたグループをノードとし、併合元の
各グループのノードと併合後のグループのノードとの間
をアークとして階層構造を生成する。これによって、例
えば図14に示すような階層構造を得ることができる。
【0008】上述のようにして、トップダウン階層クラ
スタリング及びボトムアップ階層クラスタリングのいず
れの方法においても、例えば図14に示すような階層構
造が得られる。その後、得られた階層構造を任意の階層
において切り出すことによってクラスタを抽出する。図
15は、クラスタの切り出し処理の一例の説明図であ
る。上述の図14に示した階層構造において、各ノード
に対応するグループ中のデータのまとまりの度合いによ
って、ノードの高さを変化させている。これによって、
高さが各ノードにおけるまとまり度合いを示すことにな
り、図15に示すように図中の下方にゆくに従ってまと
まり度合いが高く、上方にゆくに従ってまとまり度合い
は低くなる。これを利用して、例えばまとまりの度合い
でクラスタを切り出す際には、階層構造を切る高さを調
節するだけで、任意のまとまり度合いでのクラスタの切
り出しを行うことができる。図15に示した破線は、そ
れぞれが異なるクラスタリング結果が得られる切り出し
位置を示しており、それぞれ、異なるまとまり度合いで
のクラスタの切り出しを行うことができる。
【0009】このようにしてデータ群の階層構造を生成
した後、任意のレベルで切り出すという2ステップによ
って、任意の条件で高速にクラスタを抽出することがで
きる。上述の説明ではまとまり度合いにより階層構造を
切り出す高さを調節すると説明したが、これに限らず、
例えばクラスタに含まれるデータ数の上限や、総クラス
タ数など、様々な条件に従って切り出す高さを調節する
場合がある。
【0010】通常はクラスタを抽出した後、クラスタに
おける情報をそれぞれ生成する。クラスタの情報として
は、例えば類似度や、クラスタの内容を端的に示すラベ
ルなど、様々な情報が含まれる。図16は、クラスタの
情報生成の説明図である。例えば図16(A)において
破線で示した高さで階層構造を切り出すと、リーフの部
分に楕円で示した4つのクラスタが抽出できる。これら
のクラスタの情報は、それぞれのクラスタに含まれるデ
ータ、すなわち楕円内に含まれるすべてのリーフのデー
タから導き出されるものである。従来は、階層構造から
クラスタを抽出した後に、各クラスタに含まれるデータ
から、各クラスタの情報を得ていた。
【0011】一旦、階層構造を生成しておくと、切り出
しを行う階層(図14〜図16では高さに相当)を変更
することによって、容易にクラスタを変更することが可
能である。例えば図16(B)に示すように切り出す階
層を下げると、6つのクラスタが抽出されることにな
る。このようにクラスタの再抽出を行った場合、従来は
再抽出したクラスタについて、再びクラスタの情報を生
成し直していた。クラスタの情報を生成するための処理
が、単に数値データを合計する程度の処理であれば、再
生成はたいした処理量とはならず、低いコストで済む。
しかし、データ群全体との相対的な計算や複雑な処理な
どを要する場合、再生成のための処理量は膨大なものと
なり、コストの増大が顕著となる。そのため、切り出し
レベルを頻繁に変更して結果を取得する場合には、その
反応速度が大きく悪化し、またそのコストも高くなって
しまうという問題があった。
【0012】階層構造を扱う場合、アークによって直接
接続されるノード間の関係を当該アーク上に保持し、探
索時にその情報を活用する手法がある。この技術は、階
層構造上の直近の上下間の関係情報を保持するものであ
る。しかし、上述のようにクラスタの情報を得るために
は特定のノード以下の全体の情報を得る必要がある。従
って、クラスタの情報を得るためには、結局、リーフま
で探索しなければならず、クラスタの情報を生成する処
理は何ら軽減されない。
【0013】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、クラスタの再抽出が行われ
た場合でも、簡単に再抽出されたクラスタの情報を生成
可能な階層クラスタリング装置及び階層クラスタリング
方法、階層クラスタリングプログラム、階層クラスタリ
ングシステムを提供することを目的とするものである。
【0014】
【課題を解決するための手段】本発明は、データ群の階
層構造を生成し、階層構造のノードについて、当該ノー
ドの下位に含まれるすべてのリーフに対応するデータに
関する情報をノード情報として生成する。階層構造を任
意の階層で切り出してクラスタを生成したときには、切
り出したクラスタの最上位のノードに対応して生成され
ているノード情報を、クラスタの情報とすればよい。例
えば階層構造のすべてのノードについてノード情報を生
成しておけば、切り出す階層が変更されてクラスタの再
抽出を行う場合でも、新たに切り出したそれぞれのクラ
スタの最上位のノードに対応するノード情報を当該クラ
スタの情報とすればよく、クラスタの情報を再生成する
必要がない。従って、クラスタの再抽出の際に、非常に
簡単に、しかも高速に、再抽出された各クラスタの情報
を生成することができる。
【0015】なお、ノード情報の生成は、階層構造の生
成過程においてノードを生成する毎に行ってもよいし、
あるいは、階層構造の生成後に生成してもよい。階層構
造の生成後にノード情報を生成する際には、階層構造の
リーフの直近の上位ノードから順に、当該ノードの直近
の下位ノードの情報のみを用いて生成してゆくことがで
きる。
【0016】また、ノード情報を生成するノードを、予
め設定されている範囲内に制限しておくこともできる。
例えばクラスタの再抽出を行う階層の範囲が分かってい
る場合には、その範囲内のノードについてのみノード情
報を生成することによって、処理量を低減することが可
能である。この場合、範囲を逸脱した階層によるクラス
タの再抽出が行われた場合には、少なくともノード情報
が生成されていないクラスタの最上位のノードについ
て、ノード情報の生成を行うだけでよい。これによっ
て、設定範囲外でクラスタの再抽出が行われた場合にも
対応することができる。
【0017】さらに、このような階層クラスタリング
を、クライアント/サーバによって構成される階層クラ
スタリングシステムによって実現した場合には、クライ
アントからサーバへ要求を出すと、サーバは、データ群
の階層構造を生成するとともに、階層構造のすべてのノ
ードについて当該ノードの下位に含まれるすべてのリー
フに対応するデータに関する情報をノード情報として生
成し、階層構造及びノード情報をクライアントに返す。
クライアントは、サーバから返される階層構造及びノー
ド情報をもとに、階層構造を任意の階層で切り出してク
ラスタを生成するとともに切り出したクラスタの最上位
のノードに対応するノード情報を当該クラスタの情報と
すればよい。このような構成によって、例えば切り出す
階層を変更した場合でも、クライアントの処理のみで対
応することが可能となる。また、クライアント内の処理
も、改めてクラスタの情報を生成する処理は不要であ
り、簡単に、しかも高速に再抽出されたクラスタの情報
を取得することができる。
【0018】あるいは、同様のシステム構成において、
サーバでは予め設定されている範囲のノードについてノ
ード情報を生成して、階層構造及び前記ノード情報をク
ライアントに返すように構成してもよい。この場合、ク
ライアントにおいて任意の階層で切り出すと、範囲外と
なってノード情報が存在しないことがある。このような
場合には、クライアントからサーバに対してノード情報
を要求し、サーバにおいてノード情報を生成してクライ
アントに返すように構成すればよい。この場合も、所定
の範囲内ではクライアントのみによって、簡単に、しか
も高速に、クラスタの再抽出及びクラスタの情報の取得
が可能である。
【0019】
【発明の実施の形態】図1は、本発明の実施の一形態を
示すブロック図である。図中、1はクラスタ解析部、2
はノード情報生成部、3はクラスタ抽出部である。クラ
スタ解析部1は、データ群の階層構造を生成する。階層
構造の生成方法としては、従来より行われているトップ
ダウン階層クラスタリングあるいはボトムアップ階層ク
ラスタリングのいずれの方法により行ってもよい。この
クラスタ解析部1における階層構造の生成方法は従来と
同様であり、既に説明したとおりである。
【0020】ノード情報生成部2は、クラスタ解析部1
で生成した階層構造のノードについて、当該ノードの下
位に含まれるすべてのリーフに対応するデータに関する
情報をノード情報として生成する。ノード情報の生成
は、クラスタ解析部1においてノードが生成される毎に
行ったり、あるいは、クラスタ解析部1において階層構
造を作成した後に行うことができる。階層構造が既に生
成されている場合には、その階層構造を参照し、階層構
造のリーフの直近の上位ノードから順に、当該ノードの
直近の下位ノード(またはリーフ)の情報のみを用いて
ノード情報を生成してゆくことができる。
【0021】またノード情報生成部2でノード情報を生
成するノードとしては、すべてのノードを対象とするほ
か、予め設定されている範囲(階層範囲)内のノードと
することもできる。予め設定されている範囲内のノード
についてノード情報を生成した場合、その後に範囲外の
ノードについてのノード情報が必要になったときには、
その時点でノード情報を生成することもできる。生成す
るノード情報としては、当該ノードの下位に含まれるす
べてのリーフのデータを包括する内容を示すラベルや、
含まれるデータのばらつきの度合いなど、任意の情報を
生成することができる。
【0022】クラスタ抽出部3は、クラスタ解析部1で
生成した階層構造を任意の階層で切り出してクラスタを
抽出する。このとき、抽出したクラスタの最上位のノー
ドに対応してノード情報生成部2で生成されているノー
ド情報を、当該クラスタの情報とする。
【0023】またクラスタ抽出部3は、切り出す階層の
変更に伴って、クラスタの再抽出を行う。このクラスタ
の再抽出は、クラスタ解析部1で生成した階層構造を利
用することによって行うことができる。そのため、改め
てクラスタ解析部1による処理を行う必要はない。クラ
スタの再抽出を行った場合、新たに抽出したクラスタに
ついて、それぞれ、再抽出したクラスタの最上位のノー
ドに対応するノード情報を当該クラスタの情報とする。
なお、ノード情報生成部2で所定の範囲内のノードにつ
いてしかノード情報を生成していない場合、切り出す階
層の変更が範囲を逸脱して行われる場合も考えられる。
このような場合には、少なくともノード情報が生成され
ていないクラスタの最上位のノードについて、ノード情
報の生成をノード情報生成部2に依頼し、取得したノー
ド情報を当該クラスタの情報とすればよい。
【0024】次に、本発明の実施の一形態における動作
について説明する。基本的にデータ群から階層構造を生
成し、その階層構造の任意のレベルで切り出してクラス
タを抽出するという流れは従来と同様であるが、本発明
ではこの過程でノード情報を生成して利用する。主にノ
ード情報に関連する部分について説明してゆくことにす
る。
【0025】図2は、トップダウン階層クラスタリング
により階層構造の生成時に並行してノード情報を生成す
る場合の説明図である。上述の図13で説明したよう
に、トップダウン階層クラスタリングでは、データ群を
1つのグループとし、このグループをまとまりの度合い
の高いデータ毎に複数のグループに分割する処理を繰り
返してゆく。例えば図2(A)に示したn個のデータか
らなるデータ群は、まず図2(B)に示すようにn1
のデータからなるグループと、n2 個のデータからなる
グループに分割される。この時、元のデータ群はルート
ノードとなり、分割されたグループはそれぞれがノード
となる。このとき、各グループについて、ノード情報生
成部2でノード情報を生成してノードに対応づけてお
く。なお、ルートノードについてはノード情報を生成し
なくてもよい。
【0026】各グループについて再び分割を行う処理を
繰り返し、図2(C)では、nm 個のデータからなるグ
ループをnm1個のデータからなるグループとnm2個のデ
ータからなるグループに分割している。このとき、nm1
個のデータからなるグループとnm2個のデータからなる
グループに対応するノードが作成されるので、これらの
ノードに対応するノード情報をノード情報生成部2で生
成する。この場合、分割前のnm 個のデータからなるグ
ループ(ノード)に対応するノード情報を利用すること
も可能である。
【0027】このようにして、すべてのグループが1つ
のデータからなるグループとなるまで、グループ分割
と、分割された新たなグループに対応するノードのノー
ド情報の生成の処理を行う。これによって、階層構造の
各ノード(及びリーフ)についてノード情報を生成する
ことができる。
【0028】図3は、ボトムアップ階層クラスタリング
により階層構造の生成時に並行してノード情報を生成す
る場合の説明図である。上述の図13で説明したよう
に、ボトムアップ階層クラスタリングでは、データ群内
のそれぞれのデータをそれぞれ別のグループとみなし、
最も類似するいくつかのグループから順次併合する処理
を繰り返してゆく。例えば図3(A)に示したn個のデ
ータからなるデータ群の場合、まず図3(B)に示すよ
うに最も類似する2つのデータ(グループ)を1つのグ
ループに併合している。このグループが階層構造のノー
ドとなる。この時、ノード情報生成部2は、併合した2
つのデータからノード情報を生成し、新たに生成された
ノード(グループ)に対応づけておく。なお、リーフと
なる各データについても、必要に応じて予めノード情報
を生成しておく。
【0029】このように併合したグループは、他のグル
ープと同様に扱い、再び類似するグループを見つけて併
合を繰り返してゆく。図3(C)では、nm1個のデータ
からなるグループと、nm2個のデータからなるグループ
を併合してnm1+nm2個のデータからなるグループを生
成した例を示している。このとき、nm1個のデータから
なるグループとnm2個のデータからなるグループに対応
するノードについては、既にノード情報が生成されてい
る。既に生成されているノード情報は、それ以下に含ま
れているデータ(リーフ)の情報を含んでいるので、既
に生成されているノード情報が存在する場合、そのノー
ド情報を利用すると効率的に処理を行うことができる。
すなわち、新たに生成したnm1+nm2個のデータからな
るグループ(ノード)に対応するノードのノード情報
は、nm1個のデータからなるグループに対応するノード
のノード情報と、nm2個のデータからなるグループに対
応するノードのノード情報から生成することができる。
もちろん、下位に含まれるデータを参照して新たにノー
ド情報を生成してもよい。
【0030】このようにして次第に大きなグループを形
成しながらノード情報を生成してゆき、1つのグループ
となるまで併合及びノード情報の生成を繰り返す。これ
によって、階層構造の各ノード(及びリーフ)について
ノード情報を生成することができる。
【0031】このようにして、トップダウン階層クラス
タリングあるいはボトムアップ階層クラスタリングのい
ずれの場合も、階層構造を生成しながら、ノード情報を
生成してゆくことができる。
【0032】なお、クラスタ解析部1で階層構造を生成
した後に、ノード情報生成部2でノード情報を生成する
ことも可能である。この場合には、図3に示したボトム
アップ階層クラスタリングの場合と同様に、階層構造の
リーフの直近の上位ノードから順に、ノード情報を生成
してゆくとよい。この場合、例えばボトムアップ階層ク
ラスタリングでノードが生成される順、すなわち類似し
ている度合いが大きい順(ばらつきの度合いが小さい
順)にノード情報を生成してゆくと、あるノードについ
てノード情報を生成する時点で、当該ノードの下位のノ
ードについては、既にノード情報が生成されている。あ
るいは、下位のノードについてノード情報が生成されて
いない場合、当該下位のノード(あるいはさらに下位の
ノード)からノード情報を生成してゆくと、ノード情報
を生成しようとしているノードについては、必ず、下位
のノード(リーフを含む)についてはノード情報が既に
生成されている状態となる。このように、下位のノード
について既にノード情報が生成されている場合には、上
述のように、既に生成されているノード情報を利用して
当該ノードのノード情報を生成することが可能である。
このように既に生成されているノード情報を利用するこ
とによって、当該ノードから階層のリーフまで探索して
含まれる全てのリーフの情報を収集する必要がなくな
り、処理コストを削減することができる。
【0033】図4、図5は、生成された階層構造及びノ
ード情報の具体例の説明図である。図4では13個のデ
ータを解析して生成した階層構造を木構造で表現して示
し、同じ階層構造を図5では表形式で表現して示してい
る。図4,図5において、それぞれのノード及びリーフ
には一連番号を付して識別している。この時、各ノード
についてはばらつきの度合いが大きいほど小さい番号
を、ばらつきの度合いが小さいほど大きい番号を付与し
ている。図4に示す木構造の表現では、ばらつきの度合
いが小さいほど低く、ばらつきの度合いが大きいほど高
い位置にノードを配置している。このような二分木の場
合、ノード数(リーフを含む)は、(文書数×2‐1)
個となる。
【0034】また、ここでは一例として、ノード情報
は、当該ノード以下に含まれるデータの内容を表す語句
からなるラベルであるものとし、各ノード及びリーフに
対して生成したノード情報をラベルL1 〜L25として示
している。ラベルは、例えばリーフとなるデータがテキ
ストデータを含む文書の場合、テキストデータを形態素
解析することによって得られる単語ベクトルをもとに抽
出することができ、ノード以下に含まれる文書全体の最
重要語とすることができる。
【0035】リーフのラベルL13〜L25は、単一文書の
情報であるのですぐに取得できる。それ以外のラベル
は、直近の下位ノードの持つ単語ベクトルを利用する。
例えばノード12のラベルL12を生成する場合は、リー
フ13の単語ベクトル及びリーフ14の単語ベクトルを
併合して抽出する。同様に、ノード6のラベルL6 を生
成する場合は、ノード11の単語ベクトル及びノード1
2の単語ベクトルを併合して抽出すればよい。
【0036】上述のようなノード情報の生成処理によっ
て、図4に示すように階層構造とともにノード及びリー
フには対応するノード情報が生成される。このような階
層構造及びノード情報は、例えば図5に示すような表形
式でも表現することが可能である。図5に示した表形式
の階層構造では、親ノードと、その親ノードの下位に直
接展開される2つの子ノードを対にして登録したもので
あり、ノード情報としてラベルを対応づけている。な
お、リーフについては子ノードが存在しない。もちろん
階層構造及びノード情報の表現形式(データ形式)は、
この例に限られるものではなく、任意の表現形式(デー
タ形式)を採用することができる。
【0037】図6は、クラスタ抽出部によるクラスタの
抽出処理の一例の説明図である。例えば図4,図5に示
したように階層構造及びノード情報(ラベル)が生成さ
れた後、ユーザは任意の階層において階層構造を切り、
クラスタを抽出することができる。図6では、ユーザが
クラスタ数5を指定した場合を示している。5個のクラ
スタを抽出するためには、図6中の破線の階層で切り出
せばよい。これによって、ノード5,6,7,8,9を
頂点とする部分構造が得られる。例えばノード6を頂点
とする部分構造には、リーフ13,14,15,16が
含まれており、これらのリーフに対応するデータを含む
クラスタを抽出することができる。同様に、ノード5を
頂点とする部分構造からリーフ17,18,19に対応
するデータを含むクラスタを抽出することができる。さ
らに、ノード7を頂点とする部分構造からリーフ20,
21に対応するデータを含むクラスタ、ノード8を頂点
とする部分構造からリーフ22,23に対応するデータ
を含むクラスタ、ノード9を頂点とする部分構造からリ
ーフ24,25に対応するデータを含むクラスタをそれ
ぞれ抽出することができる。
【0038】このようにして抽出された5個のクラスタ
について、それぞれ、クラスタの情報を生成する。この
クラスタの情報の生成は非常に簡単である。先にクラス
タを抽出したときの部分構造の頂点(最上位)のノード
に対応づけられているノード情報(ラベル)をそのまま
クラスタの情報とすればよい。すなわち、抽出した5つ
のクラスタについて、ノード5,6,7,8,9のラベ
ルL5 ,L6 ,L7 ,L8 ,L9 をそれぞれクラスタの
情報とすればよい。
【0039】図7は、表形式の階層構造を用いた場合の
クラスタの抽出処理の一例の説明図である。図6に示し
た例では、階層構造を木構造で表現した場合について説
明した。もちろん、図5に示したように階層構造を表形
式で表現した場合にも、任意の階層で切り出すことがで
き、その場合の例を図7に示している。この例において
も、ユーザが切り出しの階層として「クラスタ数=5」
を指定した場合を示している。この場合、図7(A)に
示すように上から4行目と5行目の間で切り出すことに
なる。これは、2分木の場合、表の行を1つ下がる毎に
1つずつクラスタが増加することによるものである。
【0040】この位置で階層構造を切り出す場合、いず
れのノード(リーフ)が切り出された部分構造の頂点
(最上位)のノードとなるかを知る必要がある。この処
理は、図7(B)に示すようにして行う。すなわち、切
り出した階層よりの上(1〜4行目)の子ノード番号の
リストと親ノードのリストを取得し、子ノード番号のリ
ストから、親ノード番号のリスト中に存在するものを除
けばよい。この例では、子ノード番号のリストとしてノ
ード番号2,3,4,5,6,7,8,9が得られ、ま
た、親ノード番号のリストとしてノード番号2,3,4
が得られる。従って、子ノード番号のリストから親ノー
ド番号のリスト中に存在するものを除けば、ノード番号
5,6,7,8,9が得られる。従って、ノード番号
5,6,7,8,9のノードが頂点(最上位)となる各
部分構造が得られ、各部分構造に含まれるデータによっ
てそれぞれのクラスタを抽出することができる。また、
各クラスタの情報は、これらのノード番号を親ノード番
号として有する行のラベル欄を参照すればよい。これに
よって、クラスタの情報としてそれぞれラベルL5 ,L
6 ,L7 ,L8 ,L9 を得ることができる。
【0041】次に、階層構造を切り出す階層を変更した
場合について説明してゆく。上述のように、階層構造を
生成しておくと、切り出す階層を変更することによっ
て、抽出するクラスタを容易に変更することが可能であ
る。特に、切り出す階層を変更してクラスタが変更され
ても、変更後のクラスタの情報を非常に簡単に生成する
ことができる。
【0042】図8は、切り出す階層を変更した場合のク
ラスタの抽出処理の一例の説明図である。図6に示すよ
うに5個のクラスタを抽出した後、ユーザがクラスタ数
を6に変更した場合を図8に示している。この場合、図
8中の太い破線の位置で階層構造を切り出せばよい。こ
れによって、ノード6,7,8,9,10を頂点とする
5つの部分構造と、リーフ19のみによって構成される
部分構造が得られる。これら6つの部分構造から、リー
フ13,14,15,16に対応するデータを含むクラ
スタ、リーフ17,18に対応するデータを含むクラス
タ、リーフ19に対応するデータのみを含むクラスタ、
リーフ20,21に対応するデータを含むクラスタ、リ
ーフ22,23に対応するデータを含むクラスタ、リー
フ24,25に対応するデータを含むクラスタをそれぞ
れ抽出することができる。
【0043】これらのクラスタの情報は、それぞれの部
分構造の頂点(最上位)のノードに対応づけられている
ノード情報(ラベル)をそのままクラスタの情報とすれ
ばよい。すなわち、抽出した6つのクラスタについて、
ノード6,10,リーフ19,ノード7,8,9のラベ
ルL6 ,L10,L19,L7 ,L8 ,L9 をそれぞれクラ
スタの情報とすればよい。
【0044】この他にも、ユーザはクラスタ数を1から
13(クラスタ数はデータ数が最大)の範囲で任意に指
定することができる。指定を受けてクラスタの再抽出を
行った場合、新たに抽出されたクラスタの情報を改めて
データから生成する必要はなく、すでに生成して保持し
ているノード情報(ラベル)を取得するだけで、クラス
タの情報を瞬時に得ることができる。
【0045】図9は、表形式で階層構造を表現した場合
において切り出す階層を変更した場合のクラスタの抽出
処理の一例の説明図である。階層構造を表形式で表現し
た場合にも、切り出す階層の変更に容易に対応すること
ができる。例えば図7に示すように「クラスタ数=5」
であった状態から、切り出す階層を「クラスタ数=6」
に下げた場合について説明する。この場合、図9(A)
に示すように、表において切り出す位置を1行下げれば
よい。
【0046】クラスタの抽出には、それまでのクラスタ
抽出において部分構造の頂点(最上位)となっていたノ
ード番号のリストを利用することができる。切り出し階
層の変更前は、ノード番号5,6,7,8,9のノード
が部分構造の頂点であった。切り出す階層の位置を下げ
たとき、その元の位置から下げた位置までに含まれる子
ノード番号のリストと親ノード番号のリストを取得し、
子ノード番号のリストの追加と親ノード番号のリストの
除去を行えばよい。具体的には、元の4行目と5行目の
間の切り出し位置を1行下げ、5行目に含まれている子
ノード番号のリスト10,19と、親ノード番号のリス
ト5を取得する。そして、図9(B)に示すように、そ
れまでの部分構造の頂点のノード番号のリスト5,6,
7,8,9に、子ノード番号のリスト10,19を追加
し、親ノード番号のリスト5を除去する。これによっ
て、新たなノード番号のリスト6,7,8,9,10,
19が得られる。これらのノード番号のノードを頂点
(最上位)とする部分構造に含まれるデータによってク
ラスタを再抽出することができる。
【0047】再抽出されたクラスタの情報は、これらの
新たなノード番号のリスト6,7,8,9,10,19
に対応づけられているラベル欄を参照すればよい。な
お、この例では、ノード番号5がなくなり、ノード番号
10,19が新たに追加されているので、クラスタの情
報も差分のみを取得すればよい。すなわち、ノード情報
(ラベル)として、ノード番号10,19に対応するラ
ベルを読み出し、ノード番号5に対応するラベルを除け
ばよい。
【0048】上述の木構造及び表形式の例のいずれも、
1階層のみの変更の例を示しているが、2階層以上の変
更の場合も同様にして処理することができる。また、ク
ラスタ数を増加させる変更を行う例を示したが、クラス
タ数を減少させる場合についても同様に処理することが
できる。この場合、表形式で階層構造を表現している場
合には、追加と削除を逆に行うだけで対応することが可
能である。すなわち、含まれなくなる子ノードに対応す
るラベルを除き、含まれなくなる親ノードに対応するラ
ベルを追加すればよい。
【0049】上述の動作の説明では、階層構造中のノー
ド(及びリーフ)のすべてについて、ノード情報を生成
しておく例を示した。しかし本発明はこれに限らず、予
め設定されている範囲のノードについてのみ、ノード情
報を生成するように構成することができる。例えば元の
データ群のデータを取得する際に、ユーザが指定する範
囲が予め分かっている場合(もしくは想定できる場合)
がある。このような場合には、その範囲外の情報は不要
である。不要なノード情報の生成を行わないことによっ
て、処理コストを削減することができる。また、クラス
タ解析部1による処理開始から最初のクラスタ抽出部3
によるクラスタの抽出及び結果の提示までの時間を短縮
することが可能である。
【0050】図10は、設定範囲に応じたノード情報生
成の一例の説明図である。例えば破線で挟まれた階層の
部分を設定した場合、ノード情報を生成する範囲は破線
で挟まれた階層部分内のノードとともに、この範囲で階
層構造を切断したときに部分構造の頂点(最上位)とな
り得るノードである。図10に示した例では、黒く塗り
つぶしたノード及びリーフがノード情報の生成対象の範
囲となる。これらのノードについてノード情報を生成し
ておけば、破線で挟まれた範囲で、階層構造を切断する
階層を変更した場合でも、上述のようにしてクラスタの
情報を即座に得ることが可能である。
【0051】このように階層を限定してノード情報を生
成する範囲を制限した場合、ユーザが指定する切り出し
の階層を制限しておくことができる。あるいは、想定さ
れている範囲を逸脱した指定が行われた場合には、改め
てノード情報生成部2によってノード情報の生成を行う
ように構成することもできる。図11は、設定範囲外の
切り出しの階層が指定された場合のノード情報生成の一
例の説明図である。図10と同様に破線で挟まれた階層
部分について切り出しの階層が変更可能なようにノード
情報が生成されているとき、これより低い太い破線で示
した階層で切り出すことが指示されたとする。この場
合、図11において二重円で示した2個のノードのノー
ド情報が新たに必要となる。そのため、これらのノード
について、ノード情報生成部2においてノード情報を生
成すればよい。このノード情報の生成には時間を要する
場合もあるが、従来のように新たに抽出したクラスタす
べてについてクラスタの情報を取得し直す場合に比べれ
ば、必要となったノード情報のみを取得するだけである
ので高速に処理を行うことができる。
【0052】なお、このようにして新たに取得したノー
ド情報についても保持しておけば、再び同様の階層での
切り出しが指示された場合や、さらに下層での切り出し
が指示された場合に利用することができる。また、ここ
では設定されている階層範囲よりも下層において切り出
しが指示された場合を示したが、設定されている階層範
囲よりも上層において切り出しが指示された場合につい
ても、同様に必要となったノード情報をノード情報生成
部2で生成すればよい。このようにして、設定されてい
る階層範囲以外の階層での切り出し指示に対しても対応
することができるようになる。
【0053】上述の例では階層範囲の上限及び下限を設
定しているが、例えば上限又は下限のみを設定すること
も可能である。例えば上限のみを設定している場合、ボ
トムアップ階層クラスタリングを行ったり、階層構造の
生成後にリーフからノード情報を生成してゆく処理を行
う際に、設定されている上限でノード情報の生成処理を
打ち切ればよく、処理効率もよい。同様に、トップダウ
ン階層クラスタリングの場合には、下限を設定しておけ
ば、設定されている下限まででノード情報の生成を打ち
切ればよい。
【0054】図12は、本発明をクライアント/サーバ
システムで実現した場合の構成図である。図中、11は
クライアント、12はサーバである。上述のようなクラ
スタリングの処理を、クライアント11とサーバ12で
構成されたシステムにおいて実現することができる。こ
の場合、サーバ12においてクラスタ解析部1及びノー
ド情報生成部2の処理を行い、クライアント11におい
てクラスタ抽出部3の処理を行うとよい。
【0055】すなわち、クライアント11からサーバ1
2に対して要求を送ると、サーバ12は、クライアント
11からの要求に対して、データ群の階層構造を生成
し、階層構造のすべてのノードについてノード情報を生
成する。そして、階層構造及びノード情報をクライアン
ト11に返す。またクライアント11は、サーバ12か
ら返される階層構造及びノード情報をもとに、階層構造
を任意の階層で切り出してクラスタを生成する。このと
き、生成したクラスタの情報をノード情報から取得す
る。
【0056】このような構成では、クライアント11が
階層構造及びノード情報を保持するので、階層構造を切
り出す階層が変更された場合でも、クライアント11に
おける処理のみで対応することができる。従って、クラ
イアント11はサーバ12に1回アクセスして階層構造
及びノード情報を取得すれば、あとはサーバ12にアク
セスすることなく、クライアント11単体で自由に切り
出しの階層を設定してクラスタの抽出及びクラスタの情
報を取得することができる。しかも、その処理は非常に
簡単であり、低い処理コストにより実現可能である。
【0057】上述の説明では、サーバ12において階層
構造中のすべてのノードについてノード情報を生成し、
クライアント11に渡すものとした。しかしこれに限ら
ず、例えば図10などに示したように、クライアント1
1から最初にサーバ12にアクセスした場合には、予め
設定されている範囲のノード情報のみを生成し、クライ
アント11に渡すように構成することもできる。このよ
うな構成の場合にも、予め設定されている階層範囲で、
切り出す階層を変化させている間は、クライアント11
のみによってクラスタの抽出及びクラスタの情報の取得
を行うことができる。
【0058】しかし、予め設定されている階層範囲を逸
脱して切り出しの階層を指示された場合には、クラスタ
の情報を取得する際にノード情報が存在しないことがあ
り得る。このように予め設定されている階層範囲を逸脱
して切り出しの階層を指示された場合、ノード情報が存
在していないノードについて、あるいは当該ノードを含
めたすべてのノード情報をサーバ12に要求するように
構成すればよい。サーバ12では、このようなクライア
ント11の要求に応じ、ノード情報を生成してクライア
ント11に返せばよい。これにより、予め設定されてい
る階層範囲を逸脱して切り出しの階層が指示された場合
でも、サーバ12からノード情報を取得してクラスタの
情報とすることができるようになる。
【0059】上述の動作の説明や具体例では、クラスタ
解析部1において生成する階層構造を、すべて二分木
(親ノードが1個(最上端を除く)、子ノードが2個
(最下端(リーフ)を除く)の木構造)を用いて説明し
た。しかし本発明はこれに限られるものではなく、上下
関係を階層で示すことのできるデータ群であれば、二分
木である必要はない。例えば子ノードが2個でなくても
よく、また親ノードも1個でなくてよい。
【0060】
【発明の効果】以上の説明から明らかなように、本発明
によれば、階層クラスタリングによって生成した階層構
造のノードについて、ノード情報を生成しておくので、
階層構造を切り出す階層が変更され、クラスタの再抽出
が行われた場合でも、非常に簡単に、再抽出されたクラ
スタの情報を得ることができるという効果がある。特に
膨大な量のデータを対象とする場合、従来のようにクラ
スタの再抽出の度にクラスタ内のデータからクラスタの
情報を生成すると、クラスタの再抽出の度に膨大な処理
量及び処理時間が必要となる。しかし本発明によれば、
最初に処理を行ってしまえば、その後のクラスタの再抽
出の際にはきわめて簡単に、しかも高速に処理を行うこ
とができる。従って、切り出す階層を頻繁に変更してク
ラスタの再抽出を行う場合には、本発明はきわめて有効
である。
【図面の簡単な説明】
【図1】 本発明の実施の一形態を示すブロック図であ
る。
【図2】 トップダウン階層クラスタリングにより階層
構造の生成時に並行してノード情報を生成する場合の説
明図である。
【図3】 ボトムアップ階層クラスタリングにより階層
構造の生成時に並行してノード情報を生成する場合の説
明図である。
【図4】 生成された階層構造及びノード情報の具体例
(木構造表現)の説明図である。
【図5】 生成された階層構造及びノード情報の具体例
(表形式表現)の説明図である。
【図6】 クラスタ抽出部によるクラスタの抽出処理の
一例の説明図である。
【図7】 表形式の階層構造を用いた場合のクラスタの
抽出処理の一例の説明図である。
【図8】 切り出す階層を変更した場合のクラスタの抽
出処理の一例の説明図である。
【図9】 表形式で階層構造を表現した場合において切
り出す階層を変更した場合のクラスタの抽出処理の一例
の説明図である。
【図10】 設定範囲に応じたノード情報生成の一例の
説明図である。
【図11】 設定範囲外の切り出しの階層が指定された
場合のノード情報生成の一例の説明図である。
【図12】 本発明をクライアント/サーバシステムで
実現した場合の構成図である。
【図13】 一般的な階層クラスタリングにおける階層
構造の生成の説明図である。
【図14】 データ群から生成される階層構造の一例の
説明図である。
【図15】 クラスタの切り出し処理の一例の説明図で
ある。
【図16】 クラスタの情報生成の説明図である。
【符号の説明】
1…クラスタ解析部、2…ノード情報生成部、3…クラ
スタ抽出部、11…クライアント、12…サーバ。

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 データ群の階層構造を生成するクラスタ
    解析手段と、前記クラスタ解析手段で生成した階層構造
    のノードについて当該ノードの下位に含まれるすべての
    リーフに対応するデータに関する情報をノード情報とし
    て生成するノード情報生成手段と、前記クラスタ解析手
    段で生成した階層構造を任意の階層で切り出してクラス
    タを抽出するとともに抽出したクラスタの最上位のノー
    ドに対応して前記ノード情報生成手段で生成されている
    前記ノード情報を当該クラスタの情報とするクラスタ抽
    出手段を有することを特徴とする階層クラスタリング装
    置。
  2. 【請求項2】 前記ノード情報生成手段は、前記クラス
    タ解析手段で生成した階層構造のすべてのノードについ
    て前記ノード情報を生成し、前記クラスタ抽出手段は、
    切り出す階層の変更に伴ってクラスタを再抽出した場合
    に新たに抽出したそれぞれのクラスタの最上位のノード
    に対応する前記ノード情報を当該クラスタの情報とする
    ことを特徴とする請求項1に記載の階層クラスタリング
    装置。
  3. 【請求項3】 前記ノード情報生成手段は、前記クラス
    タ解析手段においてノードを生成する毎に当該ノードに
    対応するノード情報を生成することを特徴とする請求項
    1または請求項2に記載の階層クラスタリング装置。
  4. 【請求項4】 前記ノード情報生成手段は、前記クラス
    タ解析手段で階層構造が生成された後に前記階層構造の
    リーフの直近の上位ノードから順に当該ノードの直近の
    下位ノードの情報のみを用いて前記ノード情報を生成し
    てゆくことを特徴とする請求項1または請求項2に記載
    の階層クラスタリング装置。
  5. 【請求項5】 前記ノード情報生成手段は、予め設定さ
    れている範囲内のノードについてのみノード情報を生成
    することを特徴とする請求項1に記載の階層クラスタリ
    ング装置。
  6. 【請求項6】 前記クラスタ抽出手段は、前記範囲を逸
    脱した階層による切り出しを行った場合に、少なくとも
    前記ノード情報が生成されていないクラスタの最上位の
    ノードについて前記ノード情報の生成を前記ノード情報
    生成手段に依頼することを特徴とする請求項5に記載の
    階層クラスタリング装置。
  7. 【請求項7】 データ群の階層構造を生成し、前記階層
    構造のノードについて当該ノードの下位に含まれるすべ
    てのリーフに対応するデータに関する情報をノード情報
    として生成し、前記階層構造を任意の階層で切り出して
    クラスタを生成するとともに、切り出したクラスタの最
    上位のノードに対応して生成されている前記ノード情報
    を当該クラスタの情報とすることを特徴とする階層クラ
    スタリング方法。
  8. 【請求項8】 前記階層構造のすべてのノードについて
    前記ノード情報を生成しておき、切り出す階層が変更さ
    れた場合、当該変更に伴ってクラスタを再抽出するとと
    もに、新たに切り出したそれぞれのクラスタの最上位の
    ノードに対応する前記ノード情報を当該クラスタの情報
    とすることを特徴とする請求項7に記載の階層クラスタ
    リング方法。
  9. 【請求項9】 前記階層構造の生成過程においてノード
    を生成する毎に、当該ノードに対応するノード情報を生
    成することを特徴とする請求項7または請求項8に記載
    の階層クラスタリング方法。
  10. 【請求項10】 前記階層構造の生成後、前記階層構造
    のリーフの直近の上位ノードから順に当該ノードの直近
    の下位ノードの情報のみを用いて前記ノード情報を生成
    してゆくことを特徴とする請求項7または請求項8に記
    載の階層クラスタリング方法。
  11. 【請求項11】 前記ノード情報は、予め設定されてい
    る範囲内のノードについてのみ生成することを特徴とす
    る請求項7に記載の階層クラスタリング方法。
  12. 【請求項12】 前記範囲を逸脱した階層による切り出
    しを行った場合に、少なくとも前記ノード情報が生成さ
    れていないクラスタの最上位のノードについて前記ノー
    ド情報の生成を行うことを特徴とする請求項11に記載
    の階層クラスタリング方法。
  13. 【請求項13】 コンピュータにデータ群のクラスタ分
    割の処理を実行させる階層クラスタリングプログラムに
    おいて、データ群の階層構造を生成するクラスタ解析機
    能と、前記クラスタ解析機能で生成した階層構造のノー
    ドについて当該ノードの下位に含まれるすべてのリーフ
    に対応するデータに関する情報をノード情報として生成
    するノード情報生成機能と、前記クラスタ解析機能で生
    成した階層構造を任意の階層で切り出してクラスタを生
    成するとともに切り出したクラスタの最上位のノードに
    対応して前記ノード情報生成機能で生成されている前記
    ノード情報を当該クラスタの情報とするクラスタ抽出機
    能をコンピュータに実行させることを特徴とする階層ク
    ラスタリングプログラム。
  14. 【請求項14】 前記ノード情報生成機能は、前記クラ
    スタ解析機能で生成した階層構造のすべてのノードにつ
    いて前記ノード情報を生成し、前記クラスタ抽出機能
    は、切り出す階層の変更に伴ってクラスタを再抽出した
    場合に新たに切り出したそれぞれのクラスタの最上位の
    ノードに対応する前記ノード情報を当該クラスタの情報
    とすることを特徴とする請求項13に記載の階層クラス
    タリングプログラム。
  15. 【請求項15】 前記ノード情報生成機能は、前記クラ
    スタ解析機能においてノードを生成する毎に当該ノード
    に対応するノード情報を生成することを特徴とする請求
    項13または請求項14に記載の階層クラスタリングプ
    ログラム。
  16. 【請求項16】 前記ノード情報生成機能は、前記クラ
    スタ解析機能で階層構造が生成された後に前記階層構造
    のリーフの直近の上位ノードから順に当該ノードの直近
    の下位ノードの情報のみを用いて前記ノード情報を生成
    してゆくことを特徴とする請求項13または請求項14
    に記載の階層クラスタリングプログラム。
  17. 【請求項17】 前記ノード情報生成機能は、予め設定
    されている範囲内のノードについてのみノード情報を生
    成することを特徴とする請求項13に記載の階層クラス
    タリングプログラム。
  18. 【請求項18】 前記クラスタ抽出機能は、前記範囲を
    逸脱した階層による切り出しを行った場合に、少なくと
    も前記ノード情報が生成されていないクラスタの最上位
    のノードについて前記ノード情報の生成を前記ノード情
    報生成機能に依頼することを特徴とする請求項17に記
    載の階層クラスタリングプログラム。
  19. 【請求項19】 クライアントと、該クライアントから
    の要求に応じて処理を行うサーバを含む階層クラスタリ
    ングシステムにおいて、前記サーバは、クライアントか
    らの要求に対してデータ群の階層構造を生成し前記階層
    構造のすべてのノードについて当該ノードの下位に含ま
    れるすべてのリーフに対応するデータに関する情報をノ
    ード情報として生成して前記階層構造及び前記ノード情
    報をクライアントに返すものであり、前記クライアント
    は、前記サーバへの要求を行うとともに前記サーバから
    返される前記階層構造及び前記ノード情報をもとに前記
    階層構造を任意の階層で切り出してクラスタを抽出する
    とともに抽出したクラスタの最上位のノードに対応する
    前記ノード情報を当該クラスタの情報とするものであ
    り、切り出す階層の変更に対して前記クライアントの処
    理のみで対応することを特徴とする階層クラスタリング
    システム。
  20. 【請求項20】 クライアントと、該クライアントから
    の要求に応じて処理を行うサーバを含む階層クラスタリ
    ングシステムにおいて、前記サーバは、クライアントか
    らの要求に対してデータ群の階層構造を生成し前記階層
    構造のうちの予め設定されている範囲のノードについて
    当該ノードの下位に含まれるすべてのリーフに対応する
    データに関する情報をノード情報として生成して前記階
    層構造及び前記ノード情報をクライアントに返すととも
    に、クライアントからのノード情報の要求に応じて要求
    されたノードのノード情報を生成して返すものであり、
    前記クライアントは、前記サーバへの要求を行うととも
    に前記サーバから返される前記階層構造及び前記ノード
    情報をもとに前記階層構造を任意の階層で切り出してク
    ラスタを抽出するとともに抽出したクラスタの最上位の
    ノードに対応する前記ノード情報を当該クラスタの情報
    とするとともに対応する前記ノード情報が存在しない場
    合には前記サーバに対してノード情報を要求して取得す
    るものであることを特徴とする階層クラスタリングシス
    テム。
JP2002126497A 2002-04-26 2002-04-26 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム Pending JP2003316796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002126497A JP2003316796A (ja) 2002-04-26 2002-04-26 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002126497A JP2003316796A (ja) 2002-04-26 2002-04-26 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム

Publications (1)

Publication Number Publication Date
JP2003316796A true JP2003316796A (ja) 2003-11-07

Family

ID=29540895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002126497A Pending JP2003316796A (ja) 2002-04-26 2002-04-26 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム

Country Status (1)

Country Link
JP (1) JP2003316796A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2006344005A (ja) * 2005-06-09 2006-12-21 Sony Corp 情報処理装置、情報処理方法、およびプログラム
WO2007026870A1 (ja) * 2005-09-02 2007-03-08 Nec Corporation データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム
JP2007272892A (ja) * 2006-03-29 2007-10-18 Xerox Corp リアルタイムアップデートを行う階層的クラスタリング
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
US7761490B2 (en) 2005-06-17 2010-07-20 Nissan Motor Co., Ltd. Method, apparatus and program recorded medium for information processing
JP2011216021A (ja) * 2010-04-01 2011-10-27 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
WO2014002212A1 (ja) * 2012-06-27 2014-01-03 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
US10012558B2 (en) 2015-11-06 2018-07-03 Denso Corporation Combustion pressure sensor
JP2020119164A (ja) * 2019-01-23 2020-08-06 オムロン株式会社 動作分析装置、動作分析方法、動作分析プログラム及び動作分析システム
US10769633B2 (en) 2005-01-21 2020-09-08 Samsung Electronics Co., Ltd. Method, apparatus, and system for performing wireless transactions with near-field communication (NFC) set up

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
US10769633B2 (en) 2005-01-21 2020-09-08 Samsung Electronics Co., Ltd. Method, apparatus, and system for performing wireless transactions with near-field communication (NFC) set up
US11468438B2 (en) 2005-01-21 2022-10-11 Samsung Electronics Co., Ltd. Method, apparatus, and system for performing online transactions with biometric authentication
US11403630B2 (en) 2005-01-21 2022-08-02 Samsung Electronics Co., Ltd. Method, apparatus, and system for performing wireless transactions with biometric authentication
US11222330B2 (en) 2005-01-21 2022-01-11 Samsung Electronics Co., Ltd. Apparatus and method to perform point of sale transactions using near-field communication (NFC) and biometric authentication
US10872333B2 (en) 2005-01-21 2020-12-22 Samsung Electronics Co., Ltd. System, devices, and method to automatically launch an application on a mobile computing device based on a near-field communication data exchange
JP2006344005A (ja) * 2005-06-09 2006-12-21 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP4507991B2 (ja) * 2005-06-09 2010-07-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7761490B2 (en) 2005-06-17 2010-07-20 Nissan Motor Co., Ltd. Method, apparatus and program recorded medium for information processing
JP4893624B2 (ja) * 2005-09-02 2012-03-07 日本電気株式会社 データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム
US7827179B2 (en) 2005-09-02 2010-11-02 Nec Corporation Data clustering system, data clustering method, and data clustering program
WO2007026870A1 (ja) * 2005-09-02 2007-03-08 Nec Corporation データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム
JP2007272892A (ja) * 2006-03-29 2007-10-18 Xerox Corp リアルタイムアップデートを行う階層的クラスタリング
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2011216021A (ja) * 2010-04-01 2011-10-27 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
WO2014002212A1 (ja) * 2012-06-27 2014-01-03 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP5894273B2 (ja) * 2012-06-27 2016-03-23 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
US10012558B2 (en) 2015-11-06 2018-07-03 Denso Corporation Combustion pressure sensor
JP2020119164A (ja) * 2019-01-23 2020-08-06 オムロン株式会社 動作分析装置、動作分析方法、動作分析プログラム及び動作分析システム
JP7502849B2 (ja) 2019-01-23 2024-06-19 オムロン株式会社 動作分析装置、動作分析方法、動作分析プログラム及び動作分析システム

Similar Documents

Publication Publication Date Title
US10409895B2 (en) Optimizing a document based on dynamically updating content
Fujimoto et al. Manga109 dataset and creation of metadata
US11829437B2 (en) System for comparison and merging of versions in edited websites and interactive applications
US10783318B2 (en) Facilitating modification of an extracted field
JP4893243B2 (ja) 画像要約方法、画像表示装置、kツリー表示システム、kツリー表示プログラム、および、kツリー表示方法
AU2014319964B2 (en) System and method for automated conversion of interactive sites and applications to support mobile and other display environments
US8555157B1 (en) Document update generation
JP2005085166A (ja) グラフィックス・イメージ生成装置及びその方法、データ解析装置及びその方法並びにプログラム
JP2007058782A (ja) 情報検索装置および情報検索方法
JP2003316796A (ja) 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
JP2005250820A (ja) ストレージシステムにおけるxml文書分類方法
JP5132667B2 (ja) 情報処理装置およびプログラム
JP5298616B2 (ja) 情報提示装置、情報提示方法および情報提示用プログラム
Devaraj Video data image retrieval using–BRICH
Freeman et al. Self-organising maps for tree view based hierarchical document clustering
US20120150899A1 (en) System and method for selectively generating tabular data from semi-structured content
Deniziak et al. The scalable distributed two-layer content based image retrieval data store
JP2005316897A (ja) 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
CN113011152A (zh) 文本处理方法、装置、设备及计算机可读存储介质
Rao et al. Natural technologies for knowledge work: information visualization and knowledge extraction
AU2015216600A1 (en) A system for comparison and merging of versions in edited websites and interactive applications
Gibbon Legacy language atlas data mining: Mapping Kru languages
Shyamala et al. An effective web page reorganization through heap tree and farthest first clustering approach
JP2011070529A (ja) 文書処理装置