JP2011003156A

JP2011003156A - データ分類装置、データ分類方法及びデータ分類プログラム

Info

Publication number: JP2011003156A
Application number: JP2009148001A
Authority: JP
Inventors: Daichi Kimura; 大地木村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-06-22
Filing date: 2009-06-22
Publication date: 2011-01-06

Abstract

【課題】階層的にクラスタリングされたデータ集合に対して、各クラスタを代表するデータを適切に定めることができない。
【解決手段】本発明によるデータ分類装置は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段３と、最下層代表データ決定手段３が決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段４とを備えたことを特徴とする。
【選択図】図８

Description

本発明は、データ集合を分類するデータ分類装置、データ分類方法及びデータ分類プログラムに関する。

近年の情報技術の発達により、大量のデータを手に入れることが容易になってきている。しかし、そのデータの量の膨大さゆえに、ユーザが手動でデータ集合を分類又は整理することが、難しさを増している。また、データ集合に含まれる各データ間にどのような関係があるのかや、データ集合が持つ構造が見えにくくなっている。

この問題を解決するため、クラスタリングを行うことにより、データ集合をいくつかのクラスタに分け、データを分類することが行われている。ここで、クラスタリングとは、何らかの指標をもってデータと他のデータとの類似している度合いが定義される場合に、類似している度合いが高いデータを同一のクラスタへ配分する手法である。

例えば、特許文献１に記載された方法では、文書画像に対して特徴ベクトルを算出し、特徴ベクトルに基づいてクラスタリングを行う。そして、各クラスタについて計算された中心に最も近い文書画像を、そのクラスタを代表する文書画像として、ラベル付けを行う。

また、特許文献２及び特許文献３に記載された方法では、文書集合において、各文書間の類似度を算出し、文書をノードとして、文書間の関係を、文書間の類似度に従って重み付けしたリンクによって表現されたグラフから、中心性を求める。そして、リンクによって接続された周りのノードより高い中心性を持つノードを頂点とし、頂点を中心とする山状のノード群をクラスタと定義する。

また、特許文献４に記載された方法では、遺伝子をノードとし、遺伝子間の相関係数をもとに定義されたリンクによって表現されたグラフ構造に対してクラスタリングを行う。そして、複数のノードをグループノードに集約し、階層化グラフとして表示する。

また、特許文献５に記載された方法では、音声や図などのデータに代表語生成用のテキストを付与し、生成された代表語から階層的にクラスタリングを行う。

また、特許文献６に記載された方法では、階層構造のカテゴリに分類済みの文書を用いて、最下層のカテゴリについて、カテゴリを特徴的に代表する１又は複数のコアワードを作成する。その後、最下層よりも上位のカテゴリについては、子カテゴリのコアワードを用いて、親カテゴリのコアワードを決定する。

なお、関連する技術として、グラフ構造を階層的にクラスタリングする方法が非特許文献１に記載されている。

特開平１１−１４９４８５号公報特開２００８−０５９４４２号公報特開２００８−２１００２４号公報特開２００７−０８７１２５号公報特開２００６−０３１３８５号公報特開２００５−３５２６７６号公報

Ａ．Ｃｌａｕｓｅｔ，Ｃ．Ｍｏｏｒｅ，ａｎｄＭ．Ｅ．Ｊ．Ｎｅｗｍａｎ，"Ｈｉｅｒａｒｃｈｉｃａｌｓｔｒｕｃｔｕｒｅａｎｄｔｈｅｐｒｅｄｉｃｔｉｏｎｏｆｍｉｓｓｉｎｇｌｉｎｋｓｉｎｎｅｔｗｏｒｋｓ"，Ｎａｔｕｒｅ，Ｖｏｌ．４５３，Ｍａｙ，２００８，ｐｐ９８−１０１

しかしながら、特許文献１乃至特許文献３に記載された方法では、データを各クラスタに分類し、クラスタに含まれるデータの内容を、ある代表するデータを用いて表現するにすぎない。そのため、分類された各クラスタがどのような関係にあるかという、より上位の概念に基づいた分類を明示できない、という課題を指摘できる。

また、特許文献４に記載されている、複数のノードをグループノードに集約し、階層化グラフとして表示する方法では、グループノードをクラスタとみなすと、上記の各クラスタの関係という上位の概念に基づいた分類を成し遂げているが、グループノードに含まれるデータの内容は表現されない、という課題を指摘できる。

仮に、各階層のグループノード（クラスタに相当）について、特許文献１乃至３のいずれか一つの方法により各グループノードを代表するデータを決定する。すると、あるグループノードの代表データが、その下層にあるグループノードの代表データのいずれとも一致しないという問題が生じうることは明らかである。

それ故に、特許文献４に記載された階層化グラフのあるグループノードを選択すると、そのグループノードの下層のグラフを表示する方法において、グループノードの内容を表現するという重要な役割を担う代表データが、グループノードの下層のグラフに表示されるとは限らない。したがって、下層のグラフにおける上記の代表データの位置づけが分からない、という課題を指摘できる。

また、特許文献６に記載されている、子カテゴリのコアワードを用いて親カテゴリのコアワードを決定する方法では、コアワードに、そのコアワードがカテゴリに属する度合いである分野関連度を付与し、同一の親カテゴリを持つ各子カテゴリにおけるコアワードの分野関連度の平均と標準偏差とを用いて、親カテゴリのコアワードを決定している。しかし、親カテゴリのコアワードを決定できるに過ぎず、親カテゴリを代表する画像データや数値データ等の各種データを決定することはできない。

また、この方法は、コアワードが、同一の親カテゴリを持つ各子カテゴリのうち、複数の子カテゴリに分類されているときにのみ用いられ得る。なぜなら、コアワードが、同一の親カテゴリを持つ各子カテゴリのうち、ただ１つの子カテゴリにクラスタリングされるような場合においては、平均および標準偏差の計算が意味を持たないからである。そのため、特許文献６に記載された方法では、子カテゴリを代表するデータから親カテゴリを代表するデータを決定することはできない、という課題を指摘できる。

そこで、本発明は、上述した課題を解決するため、階層的にクラスタリングされたデータ集合に対して、各クラスタを代表するデータを適切に定めることができるデータ分類装置、データ分類方法およびデータ分類プログラムを提供することを目的とする。

本発明によるデータ分類装置は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、最下層代表データ決定手段が決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段とを備えたことを特徴とする。

本発明によるデータ分類方法は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定ステップと、決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定ステップとを含むことを特徴とする。

本発明によるデータ分類プログラムは、コンピュータに、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定処理と、決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定処理とを実行させることを特徴とする。

本発明によれば、階層的にクラスタリングされたデータ集合に対して、各クラスタを代表するデータを適切に定めることができる。

本発明によるデータ分類装置の機能構成例を示すブロック図である。本発明の実施形態に係る処理経過の例を示すフローチャートである。取得した各データ間の関連性の一例を示す説明図である。データ集合に階層的にクラスタリングを行った結果の一例を示す説明図である。データ集合を各クラスタの代表データと各クラスタ間の関連性とを用いて、グラフ構造として表示した例を示す説明図である。データ集合を各クラスタの代表データと各クラスタ間の関連性とを用いて、グラフ構造として表示した例を示す説明図である。データ集合を各クラスタの代表データと各クラスタ間の関連性とを用いて、グラフ構造として表示した例を示す説明図である。データ分類装置の最小の機能構成例を示す機能ブロック図である。

以下、本発明の実施形態について図面を参照して説明する。

図１は、本発明によるデータ分類装置の機能構成例を示すブロック図である。図１に示すように、本発明によるデータ分類装置は、データ取得手段１と、階層的クラスタ構造解析手段２と、最下層代表データ決定手段３と、階層的代表データ決定手段４と、データ表示手段５とを含む。データ分類装置は、具体的には、パーソナルコンピュータ等のプログラムに従って動作する情報処理装置によって実現される。

データ取得手段１は、例えば、コンピュータ等が備えている記録媒体から、又は、インターネット等の通信網を介してアクセスしたＷｅｂサーバ等から、そこに存在するデータ集合の各データを入力又は受信するとともに、各データ間の関連性を取得する（例えば、各データを抽出し、抽出した各データ間の関連性を検出する）機能を備えている。なお、データ取得手段１は、データ集合の各データ及び各データ間の関連性を、例えば、ユーザの操作に従って、キーボード等の入力装置を介して入力されたものから取得しても良い。

階層的クラスタ構造解析手段２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。階層的クラスタ構造解析手段２は、データ取得手段１が取得した各データ及び各データの関連性に基づいて、階層的にクラスタリングを行い、データ集合の階層的クラスタ構造を解析する機能を備えている。また、階層的クラスタ構造解析手段２は、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する機能を備えている。

最下層代表データ決定手段３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。最下層代表データ決定手段３は、階層的クラスタ構造解析手段２が解析した階層的クラスタ構造における、最下層の各クラスタについて、各クラスタに含まれるデータのうち、各クラスタの内容を表現するために適切と思われるデータを、それぞれ選択する機能を備えている。また、最下層代表データ決定手段３は、それぞれ選択したデータを、最下層の各クラスタを代表するデータと決定する機能を備えている。

階層的代表データ決定手段４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。階層的代表データ決定手段４は、最下層よりも１つ上位の各クラスタから、最上層のクラスタにいたるまで、それぞれのクラスタを代表するデータを決定する機能を備えている。具体的には、階層的代表データ決定手段４は、最下層代表データ決定手段３が決定した最下層の各クラスタを代表するデータを用いて、最下層よりも１つ上位の各クラスタを代表するデータをそれぞれ決定する。同様に、階層的代表データ決定手段４は、最上層のクラスタにいたるまで、所定（処理対象）のクラスタの１つ下の層の各クラスタを代表するデータを用いて、所定（処理対象）のクラスタを代表するデータを決定する処理を繰り返し実行する。

データ表示手段５は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。データ表示手段５は、各クラスタを代表するデータ、各データ間の関連性、階層的クラスタ構造解析手段２が解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合を分類して表示する機能を備えている。

具体的には、データ表示手段５は、各クラスタを代表するデータ、各データ間の関連性、各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合の分類を表示する表示データを生成する。そして、データ表示手段５は、生成した表示データを表示部に表示させるように制御する。

以下、本実施形態では、データ表示手段５がデータ集合を分類した構造等を表示するという表現を用いるが、実際には、上記のように、データ表示手段５が、表示データを生成し、生成した表示データを表示部に表示させるように制御しているものとする。

なお、データ集合として、例えば、コンピュータなどの記憶媒体内に記憶されている文書データや画像データ・数値データ・各種ファイルなどの集合、又は、インターネットなどの通信網を介して構成されるＷＥＢページや画像データなどの集合などが挙げられるが、これらに限定されるものではない。

また、各データ間の関連性として、例えば、ＷＥＢページ間のハイパーリンクのような明示的な関連性が挙げられる。また、文書データ集合や遺伝子データ集合のように関連性が明示されていないデータ集合においては、各データ間の類似度や相関係数、共起度などやそれらをもとに算出されたものなどが挙げられる。なお、各データ間の関連性は、これらに限定されるものではない。データ取得手段１は、例えば、Ｗｅｂページの情報にリンク情報が含まれるか否かを検出することによって、Ｗｅｂページの情報間の関連性を求める。

また、階層的クラスタ構造とは、あるクラスタ内にさらにいくつかのクラスタが含まれるような、クラスタ間に含有関係による階層が見出される構造を示すものである。例えば、あるクラスタが別のクラスタを含むとき、前者のクラスタは、後者のクラスタに対して上位、又は上層にある。また、後者のクラスタは、前者のクラスタに対して下位、又は下層にある。また、他のクラスタのいずれにも含まれないクラスタは、最上層の階層に属する。また、他のクラスタを含まないクラスタは、最下層の階層に属する。

次にデータ分類装置の動作について説明する。図２は、データ分類装置の処理例を示すフローチャートである。

例えば、ユーザが、データ分類装置にデータ集合を入力する操作を行なうと、データ取得手段１は、ユーザの入力操作に従って、データ集合の各データ及び各データ間の関連性を取得する（ステップＳ１１）。例えば、データ取得手段１は、ユーザの入力操作によってデータ分類装置に入力されたデータ集合から、各データを抽出し、抽出した各データ間の関連性を検出する。また、データ取得手段１は、例えば、所定時間ごとに、Ｗｅｂページ等からデータ集合を自動的に収集するようにしてもよい。

図３は、取得した各データ間の関連性の一例を示す説明図である。図３に示す例では、データａ、ｂ、ｃについて、各データ間の関連性を数値行列で表現している。すなわち、数値行列の第ｉ行目第ｊ列目の数値をＡｉｊとするとき、これは、第ｉ行目のデータと第ｊ列目データとの関連性を意味する。

これらの数値は、例えば、各データ間の類似度や相関係数、共起度などの値そのものであっても良いし、何らかの計算を行うことで、加工された値であっても良い。また、例えば、インターネット上のＷＥＢページ間における、ハイパーリンクのような関連性のように、データをノードとし、各データ間の関連性をリンクとしたグラフ構造で表される場合には、リンクがあるデータ間には、数値として１を、リンクが無いデータ間には、数値として０を与えることで、数値行列での表現が可能である。

また、この数値行列は、対称でなくてもよい。すなわち、一般にＡｉｊ≠Ａｊｉであるような数値行列で表現される各データ間の関連性であっても良い。なお、自分自身との関連性（数値行列のＡｉｉ）については、通常自明な値をとることが多いので、０と置くことが望ましいが、値を定義しない（例えば、数値行列の該当部分を空欄にする）処理を行っても良い。

次に、階層的クラスタ構造解析手段２は、データ取得手段１が取得した各データ及び各データの関連性に基づいて、データ集合について、階層的にクラスタリングを行なう（ステップＳ２１）。この場合、階層的クラスタ構造解析手段２は、階層的にクラスタリングを行なう方法として、例えば、特許文献４や非特許文献１に記載されている公知の方法を用いてもよい。

例えば、階層的クラスタ構造解析手段２は、階層的にクラスタリングを行う方法として、特許文献４の段落００３０に記載の階層的クラスタ分析法のうち、分岐型及び凝縮型のいずれの方法を用いてもよい。

階層的にクラスタリングを行った結果の一例を図４に示す。図４に示す例では、黒丸は、データ集合の各データを模式的に表している。ｃ１１〜ｃ２４６は、階層的にクラスタリングを行った結果得られたクラスタを示している。例えば、ｃ２１１の中にはデータが６つあるが、これは、この６つのデータがクラスタｃ２１１に配分されたことを示している。また、クラスタｃ１１にはクラスタｃ２１１〜ｃ２１５が含まれており、これは、クラスタｃ１１が、クラスタｃ２１１〜ｃ２１５の上位のクラスタであることを示している。

図４に示す例では、クラスタは、２層の階層構造からなっている。そして、ｃ２１１〜ｃ２４６が、最下層のクラスタであり、ｃ１１〜ｃ１４が、最上位のクラスタである。なお、クラスタリングを行った結果、３層以上の階層構造が得られた場合であっても、図４に示す様に、クラスタの中にクラスタが含まれる入れ子構造で表現できることは明らかである。

次に、階層的クラスタ構造解析手段２は、クラスタリングによって得た（すなわち分類された）各クラスタについて、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する（ステップＳ２２）。

階層的クラスタ構造解析手段２は、各クラスタ間の関連性を、一方のクラスタに含まれるデータと他方のクラスタに含まれるデータとの間の関連性に基づいて算出する。例えば、一方のクラスタをαとし、他方のクラスタをβとするとき、階層的クラスタ構造解析手段２は、関連性の数値行列Ａｉｊ（ただし、添え字ｉは、クラスタαに属するデータのみを、添え字ｊは、クラスタβに属するデータのみを取るとする）の最大値を、クラスタαとβとの関連性として算出してもよい。なお、関連性の定義によっては、最小値をクラスタαとβとの関連性として算出したほうが望ましい場合もある。また、階層的クラスタ構造解析手段２は、式（１）に示すように、数値行列Ａｉｊの平均値を、クラスタαとβとの関連性として算出してもよい。

ここで、ｉ∈αは、添え字ｉがクラスタαに属するデータのみを取るということを表し、同様に、ｊ∈βは、添え字ｊがクラスタβに属するデータのみを取るということを表す。また、＃（α）は、クラスタαに含まれるデータの数を表し、同様に、＃（β）は、クラスタβに含まれるデータの数を表す。

関連性をリンクとしたグラフ構造で表される場合には、上記のとおり、Ａｉｊは、１又は０の値をとる。そのため、この場合には、クラスタ間の関連性として、Ａｉｊの最大値又は最小値を用いるよりも、平均値を用いたほうが望ましい。なお、これらのクラスタ間の関連性の算出方法が、同一の階層にあるクラスタ間（例えば、図４に示すｃ２１１とｃ２１２と、ｃ２１１とｃ２２１となど）に限らず、異なる階層にあるクラスタ間（例えば、図４に示すｃ２１１とｃ１２となど）にも適用できることは、明らかである。

ただし、含有関係にあるクラスタ（例えば、図４に示すｃ２１１とｃ１１となど）は、共通するデータを含むため、そのままではクラスタ間の関連性の算出に適さない可能性がある。このような場合には、上位の階層にあるクラスタ（上の例ではｃ１１）から、下位の階層にあるクラスタ（上の例ではｃ２１１）に含まれるデータを除いてできる新たな集合と、クラスタｃ２１１との関連性を、クラスタｃ１１とｃ２１１との関連性であるとする代替処理を行うことで対応することが考えられる。

同様にして、階層的クラスタ構造解析手段２は、各クラスタと各データ間との関連性を、対象となるデータと対象となるクラスタに含まれるデータとの関連性に基づいて算出する。階層的クラスタ構造解析手段２は、例えば、データｉとクラスタβとについて、関連性の数値行列Ａｉｊ（ただし、添え字ｊは、クラスタβに属するデータのみをとるとする）の最大値を、データｉとクラスタβとの関連性として算出してもよい。なお、関連性の定義によっては最小値をデータｉとクラスタβと関連性として算出したしたほうが望ましい場合もある。また、階層的クラスタ構造解析手段２は、式（２）に示すように、数値行列Ａｉｊの平均値を、データｉとクラスタβとの関連性として算出してもよい。

ただし、クラスタβがデータｉを含む場合には、そのままではクラスタ間の関連性の算出に適さない可能性がある。このような場合には、例えば、クラスタβからデータｉを除いてできる新たな集合と、データｉとの関連性を、データｉとクラスタβとの関連性であるとする代替処理を行うことで対応することが考えられる。

次に、最下層代表データ決定手段３は、階層的クラスタ構造解析手段２が解析した階層的クラスタ構造における、最下層の各クラスタについて、各クラスタに含まれるデータのうち、各クラスタの内容を表現するに適切と思われるデータを、それぞれ選択する。そして、最下層代表データ決定手段３は、それぞれ選択したデータを、最下層の各クラスタを代表するデータと決定する（ステップＳ３１）。

このとき、最下層代表データ決定手段３は、各クラスタを代表するデータの決定方法として、例えば、クラスタに含まれるデータをノードとし、各データ間の関連性Ａｉｊを重みつきリンクとみなして、重みつきグラフの中心性を算出してもよい。そして、最下層代表データ決定手段３は、中心性が一番高いデータを、そのクラスタの代表とする方法を用いてもよい。ここで、最下層代表データ決定手段３は、中心性として、例えば、媒介中心性や距離中心性などを算出して利用するようにしても良い。

また、最下層代表データ決定手段３は、例えば、各データ間の関連性Ａｉｊの値が、事前に定められたある閾値以上であれば、ノード間にリンクがあるとみなし、ある閾値未満であれば、リンクが無いとする、というように作成した重みなしグラフの中心性を算出して、中心性が一番高いデータを、そのクラスタの代表としても良い。なお、上記のように、各データ間の関連性Ａｉｊが、１または０の値しかとらない場合には、重みなしグラフそのものであるので、中心性が計算できることは言うまでもない。

ここで、あるノードの中心性とは、そのノードがグラフの中でどの程度中心的であるかという度合いを示す指標である。中心性には、「媒介中心性」「距離中心性」「次数中心性」「ボナチッチ中心性」などの種類があり、その算出方法については、非特許文献（安田雪、実践ネットワーク分析関係を解く理論と技法、新曜社、２００１年１０月２５日出版）などで公知である。

あるノードの「媒介中心性」とは、当該ノードを除いたノードの中から２つのノードを選び出したとき、その２つのノードの最短経路に当該ノードが含まれる割合によって算出される指標である。

あるノードの「距離中心性」とは、当該ノードから、当該ノードを除いた全ての他のノードへの最短距離をそれぞれ計算し、その合計値によって算出される指標である。この合計値は、全てのノードから他のノードへの最短距離の合計値で規格化しても良いし、ノードの数で規格化しても良い。ただし、孤立ノードが存在したり、有向グラフの場合において、最短距離が定義できない場合には使用に適さない。

あるノードの「次数中心性」とは、重みなしグラフの場合には、当該ノードが持つリンクの合計数によって算出される指標である。この値は、ノードの数で規格化しても良い。重みありグラフの場合には、当該ノードが持つ各リンクの値の合計によって算出される。この値は、ノードの数で規格化してもよい。また、有向グラフの場合には、当該ノードから他のノードへ向かうリンクについての合計である「出次数中心性」と、他のノードから当該ノードへ向かうリンクについての合計である「入次数中心性」がそれぞれ算出される。

あるノードの「ボナチッチ中心性」とは、隣接行列の第１固有値に対応する固有ベクトルの当該ノードに対応する成分として算出される指標である。この固有のベクトルは大きさ１に規格化してもよい。

本実施形態では、データ分類装置は、上記のいずれの種類の中心性を用いても良い。

次に、階層的代表データ決定手段４は、最下層のクラスタから（ステップＳ４１）、現在の処理対象の層より上位の層のクラスタがあるかどうかをチェック（判定）する（ステップＳ４２）。

ステップＳ４２において、上位層のクラスタがあると判定すると、階層的代表データ決定手段４は、ステップＳ４３に処理を移行する。一方、ステップＳ４２において、上位層のクラスタがないと判定すると、階層的代表データ決定手段４は、ステップＳ５１に処理を移行する。

ステップＳ４３では、階層的代表データ決定手段４は、現在の処理対象の層の各クラスタの代表データを用いて、１つ上の層の各クラスタの代表データを決定する。

このとき、階層的代表データ決定手段４は、１つ上の各クラスタと含有関係にあるクラスタの代表データを用いる。例えば、図４に示す例では、クラスタｃ１１とクラスタｃ２１１〜ｃ２１５とが、含有関係にあるので、階層的代表データ決定手段４は、クラスタｃ２１１〜ｃ２１５の代表データを用いて、上位のクラスタｃ１１の代表データを決定する。

この場合、階層的代表データ決定手段４は、現在の処理対象の層の各クラスタの代表データの中から、上位のクラスタの代表データを決定する方法として、例えば、各クラスタ間の関連性を利用する方法を用いてもよい。この方法を用いれば、階層的代表データ決定手段４は、各クラスタをノードとし、ステップＳ２２で得られた各クラスタ間の関連性を重みつきリンクとみなした重みつきグラフから、各クラスタの中心性を算出することができる。

また、階層的代表データ決定手段４は、各クラスタをノードとし、各クラスタ間の関連性の値が、事前に定められたある閾値以上であればノード間にリンクがあるとみなし、ある閾値未満であればリンクが無いとみなすことで、重みなしグラフを作成し、その中心性を算出することもできる。

階層的代表データ決定手段４は、このように算出した中心性が最も高いクラスタの代表データを、１つ上の層の代表データとして決定する。例えば、図４に示すクラスタｃ１１の代表データを決める際に、含有関係にあるクラスタｃ２１１〜ｃ２１５をノードとみなし、これらのクラスタ間の関連性を用いて中心性を算出した結果、仮にクラスタｃ２１１が最も中心性が高いと算出したとする。すると、階層的代表データ決定手段４は、クラスタｃ２１１の代表データを、クラスタｃ１１の代表データと決定する。

そして、１つ上の層の各クラスタの代表データを全て決定すると、階層的代表データ決定手段４は、現在の処理対象の層より１つ上の層にチェック対象を移動する（ステップＳ４４）その後、階層的代表データ決定手段４は、ステップＳ４２に処理を移行し、ステップＳ４２において、上位層のクラスタがないと判定するまで、ステップＳ４２からＳ４４の処理を繰り返す。

次に、データ表示手段５は、各クラスタを代表するデータ、各データ間の関連性、各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合を分類し、分類した情報を表示する（ステップＳ５１）。

この場合、データ表示手段５は、データ集合の表示方法として、例えば、初期表示を最上位層の各クラスタの代表データと各クラスタとの関連性を用いて、グラフ構造として表示する方法（図５参照）を用いてもよい。なお、表示方法はこの方法に限定されるものではない。

図５は、図４に示す最上位層のクラスタｃ１１〜ｃ１４を代表するデータを用いて、データ集合を表示した説明図である。図５に示す例では、ノードは、各クラスタｃ１１〜ｃ１４の代表データｄ１１〜ｄ１４である。また、リンクの太さ（図５に示す各ノードを結ぶ線の太さ）は、各クラスタ間の関連性の値の大きさに比例している。データ表示手段５は、グラフ構造を適切に表示するための方法として、例えば、スペクトラル法や多次元尺度法、バネモデル法、クロスエントロピー法などを利用すればよい。

他にも、データ表示手段５は、例えば、各クラスタ間の関連性の値が、事前に定められたある閾値以上であれば、ノード間にリンクがあるとみなし、ある閾値未満であれば、リンクが無いとみなして作成した、重みなしグラフを用いて表示しても良い。

図６は、重みなしグラフを用いた表示例を示す説明図である。以下、図６に示すような重みなしグラフによる表示例について説明する。

ユーザが、図６に示す例のような表示画面を見て、データ集合の更に詳細な構造、例えば、ｄ１１で代表されるクラスタ（すなわちｃ１１）の詳細について知りたくなったとする。

この場合、ユーザは、例えば、マウスなどに代表される入力手段を用いて、ｄ１１を指定する操作を行う。すると、データ表示手段５は、ユーザの操作に従って、図７に示すように、ｄ１１で代表されるクラスタ（ｃ１１）に含まれる下位の各クラスタ（ｃ２１１〜ｃ２１５）の代表データを、ノードとしてグラフに追加して表示する。

図７に示す例では、図４に示すクラスタｃ２１２〜ｃ２１５の代表データをｄ２１２〜２１５としている。なお、ｄ１１は、図７においては、クラスタｃ２１１の代表データであり、図６においては、クラスタｃ１１の代表データである。これは、本実施形態では、階層的代表データ決定手段４が、ステップＳ４３において、クラスタｃ２１１の代表データが、クラスタｃ１１の代表データであると決定したことを示している。

また、図７に示す点線は、階層の境界線であり、点線の内側が点線の外側よりも下層であることを示す。言うまでもないが、点線ではなく、例えば、色つきの線や、破線などで代替してもよい。

また、データ表示手段５は、クラスタｃ２１１〜ｃ２１５、ｃ１２、ｃ１３及びｃ１４の間の関連性に基づいて、リンクを表示する。図示はしないが、例えば、図７に示す例おいて、ユーザが、更にデータｄ１２を指定する操作を行ったとする。すると、データ表示手段５は、対応するクラスタｃ１２の下層の各クラスタの代表データをノードとして追加し、それらのノードに対応した各クラスタ間の関連性に基づいて、リンクを表示する。

また、図７に示す例において、ユーザが、データｄ２１３を指定する操作を行ったとする。すると、データ表示手段５は、対応するクラスタｃ２１３が最下層なので、クラスタｃ２１３に属する全てのデータをノードとして追加し、それらのノードに対応した各クラスタ間の関連性と各クラスタと各データ間の関連性とに基づいて、リンクを表示する。

これらの表示にあたっては、階層の境界線を、階層によって色や線種などを変えるのが、ユーザの理解を助けるためには望ましい。なお、言うまでもなく、以上説明したことは、図５に示す重みつきグラフであっても、まったく同様に実施可能である。

次に、本実施形態の効果について説明する。

以上に説明したように、本実施形態では、階層的代表データ決定手段４は、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと順次決定する。

従って、本実施形態によれば、階層的にクラスタリングされたデータ集合に対して、特定のデータが単一のクラスタに分類されたとしても、各クラスタを代表するデータを適切に定めることができる。

例えば、特許文献６に記載された方法を用いたとしても、データ（コアワード）が、同一の親カテゴリを持つ各子カテゴリのうち、ただ１つの子カテゴリにクラスタリングされるような場合には、親カテゴリを代表するデータを決定することができない。

これに対して、本実施形態によれば、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと順次決定するので、各クラスタを代表するデータを適切に定めることができる。

また、本実施形態では、データ集合のクラスタの代表データを、グラフ構造で表示する。そのため、ユーザは、データ集合のクラスタ及びその代表データから、各クラスタの内容を把握することができる。さらに、各クラスタ間の関係の強さをリンクによって判断することができるため、データ集合に含まれるデータの内容の構造を俯瞰しやすくなる。

一般的な技術では、クラスタの内容を表現するという重要な役割を担う代表データが、クラスタの下層のグラフ構造に表示されるとは限らないため、下層のグラフにおける代表データの位置づけが分からなかった。

これに対して、本実施形態では、下層のクラスタの代表データを用いて、上層のクラスタの代表データを決定するという方法を、最下層から最上位層まで順次適用している。そのため、本実施形態によれば、例えば、図７に示すように、ある代表データに対応するクラスタの下層のグラフ構造を表示した際に、その代表データを確実に下層のグラフ構造に表示することができる。

また、特許文献５に記載されている音声、図などのデータに代表語生成用のテキストを付与する方法では、データの量が膨大である場合には非常にコストがかかるという課題を指摘できるが、本実施形態によれば、そのような課題が生ずることがない。

次に、本発明によるデータ分類装置の最小構成について説明する。図８は、データ分類装置の最小の構成例を示すブロック図である。図８に示すように、データ分類装置は、最小の構成要素として、最下層代表データ決定手段３と、階層的代表データ決定手段４とを含む。

図８に示す最小構成のデータ分類装置では、最下層代表データ決定手段３は、階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する。そして、階層的代表データ決定手段４は、最下層代表データ決定手段３が決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より１つ上位の階層に属するクラスタを代表するデータと決定する。さらに、階層的代表データ決定手段４は、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと順次決定する。

従って、図８に示す最小構成のデータ分類装置によれば、階層的にクラスタリングされたデータ集合に対して、特定のデータが単一のクラスタに分類されたとしても、各クラスタを代表するデータを適切に定めることができる。

なお、本実施形態では、以下の（１）〜（６）に示すようなデータ分類装置の特徴的構成が示されている。

（１）データ分類装置は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタ（例えば、ｃ２１１〜ｃ２１５）について、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段（例えば、最下層代表データ決定手段３によって実現される）と、最下層代表データ決定手段が決定した各データ（例えば、図７に示すｄ１１及びｄ２１２〜ｄ２１５）のうち、各クラスタ間において中心性の高いクラスタを代表するデータ（例えば、ｄ１１）を、最下層より１つ上位の階層（例えば、ｃ１１）に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段とを備えたことを特徴とする。

（２）データ分類装置において、データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析手段（例えば、階層的クラスタ構造解析手段２によって実現される）を備え、階層的代表データ決定手段は、階層的クラスタ構造解析手段が算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定するように構成されていてもよい。

（３）データ分類装置は、データ集合を分類するデータ分類装置であって、データ集合に含まれる各データ及び各データ間の関連性を抽出するデータ取得手段（例えば、データ取得手段１によって実現される）と、データ取得手段が取得した各データ及び各データ間の関連性に基づいて、データ集合に含まれる各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析手段と、階層的クラスタ構造解析手段が解析した階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、最下層代表データ決定手段が決定した最下層の各クラスタを代表するデータを用いて、階層的クラスタ構造において、最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定手段と、最下層代表データ決定手段及び階層的データ決定手段が決定した各クラスタを代表するデータ、各データ間の関連性、階層的クラスタ構造解析手段が解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合を分類した表示用データを生成し、生成した表示用データを表示部に表示させるように制御するデータ表示制御手段（例えば、データ表示手段５によって実現される）とを備えたことを特徴とする。

（４）データ分類装置において、データ表示制御手段は、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した表示データを表示部に表示させる制御するように構成されていてもよい。

（５）データ分類装置において、最下層代表データ決定手段は、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した中心性に基づいて、最下層の各クラスタを代表するデータを決定するように構成されていてもよい。

（６）データ分類装置において、階層的代表データ決定手段は、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した一つ下の層の各クラスタ間の関連性に基づいて、各クラスタの中心性を算出し、算出した中心性に基づいて、決定対象のクラスタを代表するデータを決定するように構成されていてもよい。

本発明は、データ集合を分類する用途に適用可能である。

１データ取得手段
２階層的クラスタ構造解析手段
３最下層代表データ決定手段
４階層的代表データ決定手段
５データ表示手段
ｃ１１、ｃ１２、ｃ１３、ｃ１４クラスタ
ｃ２１１、ｃ２１２、ｃ２１３、ｃ２１４、ｃ２１５ｃ１１の下位クラスタ
ｃ２２１、ｃ２２２、ｃ２２３、ｃ２２４ｃ１２の下位クラスタ
ｃ２３１、ｃ２３２、ｃ２３３、ｃ２３４、ｃ２３５ｃ１３の下位クラスタ
ｃ２１４、ｃ２４２、ｃ２４３、ｃ２４４、ｃ２４５、ｃ２４６ｃ１４の下位クラスタ
ｄ１１、ｄ１２、ｄ１３、ｄ１４、ｄ２１２、ｄ２１３、ｄ２１４、ｄ２１５データ

Claims

データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、
前記最下層代表データ決定手段が決定した各データのうち、前記各クラスタ間において中心性の高いクラスタを代表するデータを、前記最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、前記処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段とを
備えたことを特徴とするデータ分類装置。
データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析手段を備え、
階層的代表データ決定手段は、前記階層的クラスタ構造解析手段が算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定する
請求項１記載のデータ分類装置。
データ集合を分類するデータ分類装置であって、
前記データ集合に含まれる各データ及び前記各データ間の関連性を取得するデータ取得手段と、
前記データ取得手段が取得した前記各データ及び前記各データ間の関連性に基づいて、前記データ集合に含まれる前記各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析手段と、
前記階層的クラスタ構造解析手段が解析した前記階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、
前記最下層代表データ決定手段が決定した前記最下層の各クラスタを代表するデータを用いて、前記階層的クラスタ構造において、前記最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、前記処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定手段と、
前記最下層代表データ決定手段及び前記階層的データ決定手段が決定した前記各クラスタを代表するデータ、前記各データ間の関連性、前記階層的クラスタ構造解析手段が解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、前記データ集合を分類した表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御するデータ表示制御手段とを
備えたことを特徴とするデータ分類装置。
データ表示制御手段は、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御する
請求項３記載のデータ分類装置。
最下層代表データ決定手段は、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した前記中心性に基づいて、前記最下層の各クラスタを代表するデータを決定する
請求項３又は請求項４記載のデータ分類装置。
階層的代表データ決定手段は、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した前記一つ下の層の各クラスタ間の関連性に基づいて、前記各クラスタの中心性を算出し、算出した中心性に基づいて、前記決定対象のクラスタを代表するデータを決定する
請求項３から請求項５のうちのいずれか１項に記載のデータ分類装置。
データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定ステップと、
決定した各データのうち、前記各クラスタ間において中心性の高いクラスタを代表するデータを、前記最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、前記処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定ステップとを
含むことを特徴とするデータ分類方法。
データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析ステップを含み、
階層的代表データ決定ステップで、算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定する
請求項７記載のデータ分類方法。
データ集合に含まれる各データ及び前記各データ間の関連性を取得するデータ取得ステップと、
取得した前記各データ及び前記各データ間の関連性に基づいて、前記データ集合に含まれる前記各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析ステップと、
解析した前記階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定ステップと、
決定した前記最下層の各クラスタを代表するデータを用いて、前記階層的クラスタ構造において、前記最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、前記処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定ステップと、
決定した前記各クラスタを代表するデータ、前記各データ間の関連性、解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、前記データ集合を分類した表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御するデータ表示制御ステップとを
含むことを特徴とするデータ分類方法。
データ制御表示ステップで、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した前記表示データを表示部に表示させるように制御する
請求項９記載のデータ分類方法。
最下層代表データ決定ステップで、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した前記中心性に基づいて、前記最下層の各クラスタを代表するデータを決定する
請求項９又は請求項１０記載のデータ分類方法。
階層的代表データ決定ステップで、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した前記一つ下の層の各クラスタ間の関連性に基づいて、前記各クラスタの中心性を算出し、算出した中心性に基づいて、前記決定対象のクラスタを代表するデータを決定する
請求項９から請求項１１のうちのいずれか１項に記載のデータ分類方法。
コンピュータに、
データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定処理と、
決定した各データのうち、前記各クラスタ間において中心性の高いクラスタを代表するデータを、前記最下層より１つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、前記処理対象の階層より１つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定処理とを
実行させるためのデータ分類プログラム。
コンピュータに、
データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析処理を実行させ、
階層的代表データ決定処理で、算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定する処理を実行させる
請求項１３記載のデータ分類プログラム。
コンピュータに、
データ集合に含まれる各データ及び前記各データ間の関連性を取得するデータ取得処理と、
取得した前記各データ及び前記各データ間の関連性に基づいて、前記データ集合に含まれる前記各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析処理と、
解析した前記階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定処理と、
決定した前記最下層の各クラスタを代表するデータを用いて、前記階層的クラスタ構造において、前記最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、前記処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定処理と、
決定した前記各クラスタを代表するデータ、前記各データ間の関連性、解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、前記データ集合を分類した表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御するデータ表示制御処理とを
実行させるためのデータ分類プログラム。
コンピュータに、
データ表示制御処理で、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した前記表示データを表示部に表示させるように制御する処理を実行させる
請求項１５記載のデータ分類プログラム。
コンピュータに、
最下層代表データ決定処理で、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した前記中心性に基づいて、前記最下層の各クラスタを代表するデータを決定する処理を実行させる
請求項１５又は請求項１６記載のデータ分類プログラム。
コンピュータに、
階層的代表データ決定処理で、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した前記一つ下の層の各クラスタ間の関連性に基づいて、前記各クラスタの中心性を算出し、算出した中心性に基づいて、前記決定対象のクラスタを代表するデータを決定する処理を実行させる
請求項１５から請求項１７のうちのいずれか１項に記載のデータ分類プログラム。