JP2011003156A - データ分類装置、データ分類方法及びデータ分類プログラム - Google Patents

データ分類装置、データ分類方法及びデータ分類プログラム Download PDF

Info

Publication number
JP2011003156A
JP2011003156A JP2009148001A JP2009148001A JP2011003156A JP 2011003156 A JP2011003156 A JP 2011003156A JP 2009148001 A JP2009148001 A JP 2009148001A JP 2009148001 A JP2009148001 A JP 2009148001A JP 2011003156 A JP2011003156 A JP 2011003156A
Authority
JP
Japan
Prior art keywords
data
cluster
hierarchical
relationship
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009148001A
Other languages
English (en)
Inventor
Daichi Kimura
大地 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009148001A priority Critical patent/JP2011003156A/ja
Publication of JP2011003156A publication Critical patent/JP2011003156A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】階層的にクラスタリングされたデータ集合に対して、各クラスタを代表するデータを適切に定めることができない。
【解決手段】本発明によるデータ分類装置は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段3と、最下層代表データ決定手段3が決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段4とを備えたことを特徴とする。
【選択図】図8

Description

本発明は、データ集合を分類するデータ分類装置、データ分類方法及びデータ分類プログラムに関する。
近年の情報技術の発達により、大量のデータを手に入れることが容易になってきている。しかし、そのデータの量の膨大さゆえに、ユーザが手動でデータ集合を分類又は整理することが、難しさを増している。また、データ集合に含まれる各データ間にどのような関係があるのかや、データ集合が持つ構造が見えにくくなっている。
この問題を解決するため、クラスタリングを行うことにより、データ集合をいくつかのクラスタに分け、データを分類することが行われている。ここで、クラスタリングとは、何らかの指標をもってデータと他のデータとの類似している度合いが定義される場合に、類似している度合いが高いデータを同一のクラスタへ配分する手法である。
例えば、特許文献1に記載された方法では、文書画像に対して特徴ベクトルを算出し、特徴ベクトルに基づいてクラスタリングを行う。そして、各クラスタについて計算された中心に最も近い文書画像を、そのクラスタを代表する文書画像として、ラベル付けを行う。
また、特許文献2及び特許文献3に記載された方法では、文書集合において、各文書間の類似度を算出し、文書をノードとして、文書間の関係を、文書間の類似度に従って重み付けしたリンクによって表現されたグラフから、中心性を求める。そして、リンクによって接続された周りのノードより高い中心性を持つノードを頂点とし、頂点を中心とする山状のノード群をクラスタと定義する。
また、特許文献4に記載された方法では、遺伝子をノードとし、遺伝子間の相関係数をもとに定義されたリンクによって表現されたグラフ構造に対してクラスタリングを行う。そして、複数のノードをグループノードに集約し、階層化グラフとして表示する。
また、特許文献5に記載された方法では、音声や図などのデータに代表語生成用のテキストを付与し、生成された代表語から階層的にクラスタリングを行う。
また、特許文献6に記載された方法では、階層構造のカテゴリに分類済みの文書を用いて、最下層のカテゴリについて、カテゴリを特徴的に代表する1又は複数のコアワードを作成する。その後、最下層よりも上位のカテゴリについては、子カテゴリのコアワードを用いて、親カテゴリのコアワードを決定する。
なお、関連する技術として、グラフ構造を階層的にクラスタリングする方法が非特許文献1に記載されている。
特開平11−149485号公報 特開2008−059442号公報 特開2008−210024号公報 特開2007−087125号公報 特開2006−031385号公報 特開2005−352676号公報
A.Clauset,C.Moore,and M.E.J.Newman,"Hierarchical structure and the prediction of missing links in networks",Nature,Vol.453,May,2008,pp98−101
しかしながら、特許文献1乃至特許文献3に記載された方法では、データを各クラスタに分類し、クラスタに含まれるデータの内容を、ある代表するデータを用いて表現するにすぎない。そのため、分類された各クラスタがどのような関係にあるかという、より上位の概念に基づいた分類を明示できない、という課題を指摘できる。
また、特許文献4に記載されている、複数のノードをグループノードに集約し、階層化グラフとして表示する方法では、グループノードをクラスタとみなすと、上記の各クラスタの関係という上位の概念に基づいた分類を成し遂げているが、グループノードに含まれるデータの内容は表現されない、という課題を指摘できる。
仮に、各階層のグループノード(クラスタに相当)について、特許文献1乃至3のいずれか一つの方法により各グループノードを代表するデータを決定する。すると、あるグループノードの代表データが、その下層にあるグループノードの代表データのいずれとも一致しないという問題が生じうることは明らかである。
それ故に、特許文献4に記載された階層化グラフのあるグループノードを選択すると、そのグループノードの下層のグラフを表示する方法において、グループノードの内容を表現するという重要な役割を担う代表データが、グループノードの下層のグラフに表示されるとは限らない。したがって、下層のグラフにおける上記の代表データの位置づけが分からない、という課題を指摘できる。
また、特許文献6に記載されている、子カテゴリのコアワードを用いて親カテゴリのコアワードを決定する方法では、コアワードに、そのコアワードがカテゴリに属する度合いである分野関連度を付与し、同一の親カテゴリを持つ各子カテゴリにおけるコアワードの分野関連度の平均と標準偏差とを用いて、親カテゴリのコアワードを決定している。しかし、親カテゴリのコアワードを決定できるに過ぎず、親カテゴリを代表する画像データや数値データ等の各種データを決定することはできない。
また、この方法は、コアワードが、同一の親カテゴリを持つ各子カテゴリのうち、複数の子カテゴリに分類されているときにのみ用いられ得る。なぜなら、コアワードが、同一の親カテゴリを持つ各子カテゴリのうち、ただ1つの子カテゴリにクラスタリングされるような場合においては、平均および標準偏差の計算が意味を持たないからである。そのため、特許文献6に記載された方法では、子カテゴリを代表するデータから親カテゴリを代表するデータを決定することはできない、という課題を指摘できる。
そこで、本発明は、上述した課題を解決するため、階層的にクラスタリングされたデータ集合に対して、各クラスタを代表するデータを適切に定めることができるデータ分類装置、データ分類方法およびデータ分類プログラムを提供することを目的とする。
本発明によるデータ分類装置は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、最下層代表データ決定手段が決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段とを備えたことを特徴とする。
本発明によるデータ分類方法は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定ステップと、決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定ステップとを含むことを特徴とする。
本発明によるデータ分類プログラムは、コンピュータに、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定処理と、決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定処理とを実行させることを特徴とする。
本発明によれば、階層的にクラスタリングされたデータ集合に対して、各クラスタを代表するデータを適切に定めることができる。
本発明によるデータ分類装置の機能構成例を示すブロック図である。 本発明の実施形態に係る処理経過の例を示すフローチャートである。 取得した各データ間の関連性の一例を示す説明図である。 データ集合に階層的にクラスタリングを行った結果の一例を示す説明図である。 データ集合を各クラスタの代表データと各クラスタ間の関連性とを用いて、グラフ構造として表示した例を示す説明図である。 データ集合を各クラスタの代表データと各クラスタ間の関連性とを用いて、グラフ構造として表示した例を示す説明図である。 データ集合を各クラスタの代表データと各クラスタ間の関連性とを用いて、グラフ構造として表示した例を示す説明図である。 データ分類装置の最小の機能構成例を示す機能ブロック図である。
以下、本発明の実施形態について図面を参照して説明する。
図1は、本発明によるデータ分類装置の機能構成例を示すブロック図である。図1に示すように、本発明によるデータ分類装置は、データ取得手段1と、階層的クラスタ構造解析手段2と、最下層代表データ決定手段3と、階層的代表データ決定手段4と、データ表示手段5とを含む。データ分類装置は、具体的には、パーソナルコンピュータ等のプログラムに従って動作する情報処理装置によって実現される。
データ取得手段1は、例えば、コンピュータ等が備えている記録媒体から、又は、インターネット等の通信網を介してアクセスしたWebサーバ等から、そこに存在するデータ集合の各データを入力又は受信するとともに、各データ間の関連性を取得する(例えば、各データを抽出し、抽出した各データ間の関連性を検出する)機能を備えている。なお、データ取得手段1は、データ集合の各データ及び各データ間の関連性を、例えば、ユーザの操作に従って、キーボード等の入力装置を介して入力されたものから取得しても良い。
階層的クラスタ構造解析手段2は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。階層的クラスタ構造解析手段2は、データ取得手段1が取得した各データ及び各データの関連性に基づいて、階層的にクラスタリングを行い、データ集合の階層的クラスタ構造を解析する機能を備えている。また、階層的クラスタ構造解析手段2は、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する機能を備えている。
最下層代表データ決定手段3は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。最下層代表データ決定手段3は、階層的クラスタ構造解析手段2が解析した階層的クラスタ構造における、最下層の各クラスタについて、各クラスタに含まれるデータのうち、各クラスタの内容を表現するために適切と思われるデータを、それぞれ選択する機能を備えている。また、最下層代表データ決定手段3は、それぞれ選択したデータを、最下層の各クラスタを代表するデータと決定する機能を備えている。
階層的代表データ決定手段4は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。階層的代表データ決定手段4は、最下層よりも1つ上位の各クラスタから、最上層のクラスタにいたるまで、それぞれのクラスタを代表するデータを決定する機能を備えている。具体的には、階層的代表データ決定手段4は、最下層代表データ決定手段3が決定した最下層の各クラスタを代表するデータを用いて、最下層よりも1つ上位の各クラスタを代表するデータをそれぞれ決定する。同様に、階層的代表データ決定手段4は、最上層のクラスタにいたるまで、所定(処理対象)のクラスタの1つ下の層の各クラスタを代表するデータを用いて、所定(処理対象)のクラスタを代表するデータを決定する処理を繰り返し実行する。
データ表示手段5は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。データ表示手段5は、各クラスタを代表するデータ、各データ間の関連性、階層的クラスタ構造解析手段2が解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合を分類して表示する機能を備えている。
具体的には、データ表示手段5は、各クラスタを代表するデータ、各データ間の関連性、各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合の分類を表示する表示データを生成する。そして、データ表示手段5は、生成した表示データを表示部に表示させるように制御する。
以下、本実施形態では、データ表示手段5がデータ集合を分類した構造等を表示するという表現を用いるが、実際には、上記のように、データ表示手段5が、表示データを生成し、生成した表示データを表示部に表示させるように制御しているものとする。
なお、データ集合として、例えば、コンピュータなどの記憶媒体内に記憶されている文書データや画像データ・数値データ・各種ファイルなどの集合、又は、インターネットなどの通信網を介して構成されるWEBページや画像データなどの集合などが挙げられるが、これらに限定されるものではない。
また、各データ間の関連性として、例えば、WEBページ間のハイパーリンクのような明示的な関連性が挙げられる。また、文書データ集合や遺伝子データ集合のように関連性が明示されていないデータ集合においては、各データ間の類似度や相関係数、共起度などやそれらをもとに算出されたものなどが挙げられる。なお、各データ間の関連性は、これらに限定されるものではない。データ取得手段1は、例えば、Webページの情報にリンク情報が含まれるか否かを検出することによって、Webページの情報間の関連性を求める。
また、階層的クラスタ構造とは、あるクラスタ内にさらにいくつかのクラスタが含まれるような、クラスタ間に含有関係による階層が見出される構造を示すものである。例えば、あるクラスタが別のクラスタを含むとき、前者のクラスタは、後者のクラスタに対して上位、又は上層にある。また、後者のクラスタは、前者のクラスタに対して下位、又は下層にある。また、他のクラスタのいずれにも含まれないクラスタは、最上層の階層に属する。また、他のクラスタを含まないクラスタは、最下層の階層に属する。
次にデータ分類装置の動作について説明する。図2は、データ分類装置の処理例を示すフローチャートである。
例えば、ユーザが、データ分類装置にデータ集合を入力する操作を行なうと、データ取得手段1は、ユーザの入力操作に従って、データ集合の各データ及び各データ間の関連性を取得する(ステップS11)。例えば、データ取得手段1は、ユーザの入力操作によってデータ分類装置に入力されたデータ集合から、各データを抽出し、抽出した各データ間の関連性を検出する。また、データ取得手段1は、例えば、所定時間ごとに、Webページ等からデータ集合を自動的に収集するようにしてもよい。
図3は、取得した各データ間の関連性の一例を示す説明図である。図3に示す例では、データa、b、cについて、各データ間の関連性を数値行列で表現している。すなわち、数値行列の第i行目第j列目の数値をAijとするとき、これは、第i行目のデータと第j列目データとの関連性を意味する。
これらの数値は、例えば、各データ間の類似度や相関係数、共起度などの値そのものであっても良いし、何らかの計算を行うことで、加工された値であっても良い。また、例えば、インターネット上のWEBページ間における、ハイパーリンクのような関連性のように、データをノードとし、各データ間の関連性をリンクとしたグラフ構造で表される場合には、リンクがあるデータ間には、数値として1を、リンクが無いデータ間には、数値として0を与えることで、数値行列での表現が可能である。
また、この数値行列は、対称でなくてもよい。すなわち、一般にAij≠Ajiであるような数値行列で表現される各データ間の関連性であっても良い。なお、自分自身との関連性(数値行列のAii)については、通常自明な値をとることが多いので、0と置くことが望ましいが、値を定義しない(例えば、数値行列の該当部分を空欄にする)処理を行っても良い。
次に、階層的クラスタ構造解析手段2は、データ取得手段1が取得した各データ及び各データの関連性に基づいて、データ集合について、階層的にクラスタリングを行なう(ステップS21)。この場合、階層的クラスタ構造解析手段2は、階層的にクラスタリングを行なう方法として、例えば、特許文献4や非特許文献1に記載されている公知の方法を用いてもよい。
例えば、階層的クラスタ構造解析手段2は、階層的にクラスタリングを行う方法として、特許文献4の段落0030に記載の階層的クラスタ分析法のうち、分岐型及び凝縮型のいずれの方法を用いてもよい。
階層的にクラスタリングを行った結果の一例を図4に示す。図4に示す例では、黒丸は、データ集合の各データを模式的に表している。c11〜c246は、階層的にクラスタリングを行った結果得られたクラスタを示している。例えば、c211の中にはデータが6つあるが、これは、この6つのデータがクラスタc211に配分されたことを示している。また、クラスタc11にはクラスタc211〜c215が含まれており、これは、クラスタc11が、クラスタc211〜c215の上位のクラスタであることを示している。
図4に示す例では、クラスタは、2層の階層構造からなっている。そして、c211〜c246が、最下層のクラスタであり、c11〜c14が、最上位のクラスタである。なお、クラスタリングを行った結果、3層以上の階層構造が得られた場合であっても、図4に示す様に、クラスタの中にクラスタが含まれる入れ子構造で表現できることは明らかである。
次に、階層的クラスタ構造解析手段2は、クラスタリングによって得た(すなわち分類された)各クラスタについて、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する(ステップS22)。
階層的クラスタ構造解析手段2は、各クラスタ間の関連性を、一方のクラスタに含まれるデータと他方のクラスタに含まれるデータとの間の関連性に基づいて算出する。例えば、一方のクラスタをαとし、他方のクラスタをβとするとき、階層的クラスタ構造解析手段2は、関連性の数値行列Aij(ただし、添え字iは、クラスタαに属するデータのみを、添え字jは、クラスタβに属するデータのみを取るとする)の最大値を、クラスタαとβとの関連性として算出してもよい。なお、関連性の定義によっては、最小値をクラスタαとβとの関連性として算出したほうが望ましい場合もある。また、階層的クラスタ構造解析手段2は、式(1)に示すように、数値行列Aijの平均値を、クラスタαとβとの関連性として算出してもよい。
Figure 2011003156
ここで、i∈αは、添え字iがクラスタαに属するデータのみを取るということを表し、同様に、j∈βは、添え字jがクラスタβに属するデータのみを取るということを表す。また、#(α)は、クラスタαに含まれるデータの数を表し、同様に、#(β)は、クラスタβに含まれるデータの数を表す。
関連性をリンクとしたグラフ構造で表される場合には、上記のとおり、Aijは、1又は0の値をとる。そのため、この場合には、クラスタ間の関連性として、Aijの最大値又は最小値を用いるよりも、平均値を用いたほうが望ましい。なお、これらのクラスタ間の関連性の算出方法が、同一の階層にあるクラスタ間(例えば、図4に示すc211とc212と、c211とc221となど)に限らず、異なる階層にあるクラスタ間(例えば、図4に示すc211とc12となど)にも適用できることは、明らかである。
ただし、含有関係にあるクラスタ(例えば、図4に示すc211とc11となど)は、共通するデータを含むため、そのままではクラスタ間の関連性の算出に適さない可能性がある。このような場合には、上位の階層にあるクラスタ(上の例ではc11)から、下位の階層にあるクラスタ(上の例ではc211)に含まれるデータを除いてできる新たな集合と、クラスタc211との関連性を、クラスタc11とc211との関連性であるとする代替処理を行うことで対応することが考えられる。
同様にして、階層的クラスタ構造解析手段2は、各クラスタと各データ間との関連性を、対象となるデータと対象となるクラスタに含まれるデータとの関連性に基づいて算出する。階層的クラスタ構造解析手段2は、例えば、データiとクラスタβとについて、関連性の数値行列Aij(ただし、添え字jは、クラスタβに属するデータのみをとるとする)の最大値を、データiとクラスタβとの関連性として算出してもよい。なお、関連性の定義によっては最小値をデータiとクラスタβと関連性として算出したしたほうが望ましい場合もある。また、階層的クラスタ構造解析手段2は、式(2)に示すように、数値行列Aijの平均値を、データiとクラスタβとの関連性として算出してもよい。
Figure 2011003156
ただし、クラスタβがデータiを含む場合には、そのままではクラスタ間の関連性の算出に適さない可能性がある。このような場合には、例えば、クラスタβからデータiを除いてできる新たな集合と、データiとの関連性を、データiとクラスタβとの関連性であるとする代替処理を行うことで対応することが考えられる。
次に、最下層代表データ決定手段3は、階層的クラスタ構造解析手段2が解析した階層的クラスタ構造における、最下層の各クラスタについて、各クラスタに含まれるデータのうち、各クラスタの内容を表現するに適切と思われるデータを、それぞれ選択する。そして、最下層代表データ決定手段3は、それぞれ選択したデータを、最下層の各クラスタを代表するデータと決定する(ステップS31)。
このとき、最下層代表データ決定手段3は、各クラスタを代表するデータの決定方法として、例えば、クラスタに含まれるデータをノードとし、各データ間の関連性Aijを重みつきリンクとみなして、重みつきグラフの中心性を算出してもよい。そして、最下層代表データ決定手段3は、中心性が一番高いデータを、そのクラスタの代表とする方法を用いてもよい。ここで、最下層代表データ決定手段3は、中心性として、例えば、媒介中心性や距離中心性などを算出して利用するようにしても良い。
また、最下層代表データ決定手段3は、例えば、各データ間の関連性Aijの値が、事前に定められたある閾値以上であれば、ノード間にリンクがあるとみなし、ある閾値未満であれば、リンクが無いとする、というように作成した重みなしグラフの中心性を算出して、中心性が一番高いデータを、そのクラスタの代表としても良い。なお、上記のように、各データ間の関連性Aijが、1または0の値しかとらない場合には、重みなしグラフそのものであるので、中心性が計算できることは言うまでもない。
ここで、あるノードの中心性とは、そのノードがグラフの中でどの程度中心的であるかという度合いを示す指標である。中心性には、「媒介中心性」「距離中心性」「次数中心性」「ボナチッチ中心性」などの種類があり、その算出方法については、非特許文献(安田雪、実践ネットワーク分析 関係を解く理論と技法、新曜社、2001年10月25日出版)などで公知である。
あるノードの「媒介中心性」とは、当該ノードを除いたノードの中から2つのノードを選び出したとき、その2つのノードの最短経路に当該ノードが含まれる割合によって算出される指標である。
あるノードの「距離中心性」とは、当該ノードから、当該ノードを除いた全ての他のノードへの最短距離をそれぞれ計算し、その合計値によって算出される指標である。この合計値は、全てのノードから他のノードへの最短距離の合計値で規格化しても良いし、ノードの数で規格化しても良い。ただし、孤立ノードが存在したり、有向グラフの場合において、最短距離が定義できない場合には使用に適さない。
あるノードの「次数中心性」とは、重みなしグラフの場合には、当該ノードが持つリンクの合計数によって算出される指標である。この値は、ノードの数で規格化しても良い。重みありグラフの場合には、当該ノードが持つ各リンクの値の合計によって算出される。この値は、ノードの数で規格化してもよい。また、有向グラフの場合には、当該ノードから他のノードへ向かうリンクについての合計である「出次数中心性」と、他のノードから当該ノードへ向かうリンクについての合計である「入次数中心性」がそれぞれ算出される。
あるノードの「ボナチッチ中心性」とは、隣接行列の第1固有値に対応する固有ベクトルの当該ノードに対応する成分として算出される指標である。この固有のベクトルは大きさ1に規格化してもよい。
本実施形態では、データ分類装置は、上記のいずれの種類の中心性を用いても良い。
次に、階層的代表データ決定手段4は、最下層のクラスタから(ステップS41)、現在の処理対象の層より上位の層のクラスタがあるかどうかをチェック(判定)する(ステップS42)。
ステップS42において、上位層のクラスタがあると判定すると、階層的代表データ決定手段4は、ステップS43に処理を移行する。一方、ステップS42において、上位層のクラスタがないと判定すると、階層的代表データ決定手段4は、ステップS51に処理を移行する。
ステップS43では、階層的代表データ決定手段4は、現在の処理対象の層の各クラスタの代表データを用いて、1つ上の層の各クラスタの代表データを決定する。
このとき、階層的代表データ決定手段4は、1つ上の各クラスタと含有関係にあるクラスタの代表データを用いる。例えば、図4に示す例では、クラスタc11とクラスタc211〜c215とが、含有関係にあるので、階層的代表データ決定手段4は、クラスタc211〜c215の代表データを用いて、上位のクラスタc11の代表データを決定する。
この場合、階層的代表データ決定手段4は、現在の処理対象の層の各クラスタの代表データの中から、上位のクラスタの代表データを決定する方法として、例えば、各クラスタ間の関連性を利用する方法を用いてもよい。この方法を用いれば、階層的代表データ決定手段4は、各クラスタをノードとし、ステップS22で得られた各クラスタ間の関連性を重みつきリンクとみなした重みつきグラフから、各クラスタの中心性を算出することができる。
また、階層的代表データ決定手段4は、各クラスタをノードとし、各クラスタ間の関連性の値が、事前に定められたある閾値以上であればノード間にリンクがあるとみなし、ある閾値未満であればリンクが無いとみなすことで、重みなしグラフを作成し、その中心性を算出することもできる。
階層的代表データ決定手段4は、このように算出した中心性が最も高いクラスタの代表データを、1つ上の層の代表データとして決定する。例えば、図4に示すクラスタc11の代表データを決める際に、含有関係にあるクラスタc211〜c215をノードとみなし、これらのクラスタ間の関連性を用いて中心性を算出した結果、仮にクラスタc211が最も中心性が高いと算出したとする。すると、階層的代表データ決定手段4は、クラスタc211の代表データを、クラスタc11の代表データと決定する。
そして、1つ上の層の各クラスタの代表データを全て決定すると、階層的代表データ決定手段4は、現在の処理対象の層より1つ上の層にチェック対象を移動する(ステップS44)その後、階層的代表データ決定手段4は、ステップS42に処理を移行し、ステップS42において、上位層のクラスタがないと判定するまで、ステップS42からS44の処理を繰り返す。
次に、データ表示手段5は、各クラスタを代表するデータ、各データ間の関連性、各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合を分類し、分類した情報を表示する(ステップS51)。
この場合、データ表示手段5は、データ集合の表示方法として、例えば、初期表示を最上位層の各クラスタの代表データと各クラスタとの関連性を用いて、グラフ構造として表示する方法(図5参照)を用いてもよい。なお、表示方法はこの方法に限定されるものではない。
図5は、図4に示す最上位層のクラスタc11〜c14を代表するデータを用いて、データ集合を表示した説明図である。図5に示す例では、ノードは、各クラスタc11〜c14の代表データd11〜d14である。また、リンクの太さ(図5に示す各ノードを結ぶ線の太さ)は、各クラスタ間の関連性の値の大きさに比例している。データ表示手段5は、グラフ構造を適切に表示するための方法として、例えば、スペクトラル法や多次元尺度法、バネモデル法、クロスエントロピー法などを利用すればよい。
他にも、データ表示手段5は、例えば、各クラスタ間の関連性の値が、事前に定められたある閾値以上であれば、ノード間にリンクがあるとみなし、ある閾値未満であれば、リンクが無いとみなして作成した、重みなしグラフを用いて表示しても良い。
図6は、重みなしグラフを用いた表示例を示す説明図である。以下、図6に示すような重みなしグラフによる表示例について説明する。
ユーザが、図6に示す例のような表示画面を見て、データ集合の更に詳細な構造、例えば、d11で代表されるクラスタ(すなわちc11)の詳細について知りたくなったとする。
この場合、ユーザは、例えば、マウスなどに代表される入力手段を用いて、d11を指定する操作を行う。すると、データ表示手段5は、ユーザの操作に従って、図7に示すように、d11で代表されるクラスタ(c11)に含まれる下位の各クラスタ(c211〜c215)の代表データを、ノードとしてグラフに追加して表示する。
図7に示す例では、図4に示すクラスタc212〜c215の代表データをd212〜215としている。なお、d11は、図7においては、クラスタc211の代表データであり、図6においては、クラスタc11の代表データである。これは、本実施形態では、階層的代表データ決定手段4が、ステップS43において、クラスタc211の代表データが、クラスタc11の代表データであると決定したことを示している。
また、図7に示す点線は、階層の境界線であり、点線の内側が点線の外側よりも下層であることを示す。言うまでもないが、点線ではなく、例えば、色つきの線や、破線などで代替してもよい。
また、データ表示手段5は、クラスタc211〜c215、c12、c13及びc14の間の関連性に基づいて、リンクを表示する。図示はしないが、例えば、図7に示す例おいて、ユーザが、更にデータd12を指定する操作を行ったとする。すると、データ表示手段5は、対応するクラスタc12の下層の各クラスタの代表データをノードとして追加し、それらのノードに対応した各クラスタ間の関連性に基づいて、リンクを表示する。
また、図7に示す例において、ユーザが、データd213を指定する操作を行ったとする。すると、データ表示手段5は、対応するクラスタc213が最下層なので、クラスタc213に属する全てのデータをノードとして追加し、それらのノードに対応した各クラスタ間の関連性と各クラスタと各データ間の関連性とに基づいて、リンクを表示する。
これらの表示にあたっては、階層の境界線を、階層によって色や線種などを変えるのが、ユーザの理解を助けるためには望ましい。なお、言うまでもなく、以上説明したことは、図5に示す重みつきグラフであっても、まったく同様に実施可能である。
次に、本実施形態の効果について説明する。
以上に説明したように、本実施形態では、階層的代表データ決定手段4は、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと順次決定する。
従って、本実施形態によれば、階層的にクラスタリングされたデータ集合に対して、特定のデータが単一のクラスタに分類されたとしても、各クラスタを代表するデータを適切に定めることができる。
例えば、特許文献6に記載された方法を用いたとしても、データ(コアワード)が、同一の親カテゴリを持つ各子カテゴリのうち、ただ1つの子カテゴリにクラスタリングされるような場合には、親カテゴリを代表するデータを決定することができない。
これに対して、本実施形態によれば、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと順次決定するので、各クラスタを代表するデータを適切に定めることができる。
また、本実施形態では、データ集合のクラスタの代表データを、グラフ構造で表示する。そのため、ユーザは、データ集合のクラスタ及びその代表データから、各クラスタの内容を把握することができる。さらに、各クラスタ間の関係の強さをリンクによって判断することができるため、データ集合に含まれるデータの内容の構造を俯瞰しやすくなる。
一般的な技術では、クラスタの内容を表現するという重要な役割を担う代表データが、クラスタの下層のグラフ構造に表示されるとは限らないため、下層のグラフにおける代表データの位置づけが分からなかった。
これに対して、本実施形態では、下層のクラスタの代表データを用いて、上層のクラスタの代表データを決定するという方法を、最下層から最上位層まで順次適用している。そのため、本実施形態によれば、例えば、図7に示すように、ある代表データに対応するクラスタの下層のグラフ構造を表示した際に、その代表データを確実に下層のグラフ構造に表示することができる。
また、特許文献5に記載されている音声、図などのデータに代表語生成用のテキストを付与する方法では、データの量が膨大である場合には非常にコストがかかるという課題を指摘できるが、本実施形態によれば、そのような課題が生ずることがない。
次に、本発明によるデータ分類装置の最小構成について説明する。図8は、データ分類装置の最小の構成例を示すブロック図である。図8に示すように、データ分類装置は、最小の構成要素として、最下層代表データ決定手段3と、階層的代表データ決定手段4とを含む。
図8に示す最小構成のデータ分類装置では、最下層代表データ決定手段3は、階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する。そして、階層的代表データ決定手段4は、最下層代表データ決定手段3が決定した各データのうち、各クラスタ間において中心性の高いクラスタを代表するデータを、最下層より1つ上位の階層に属するクラスタを代表するデータと決定する。さらに、階層的代表データ決定手段4は、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと順次決定する。
従って、図8に示す最小構成のデータ分類装置によれば、階層的にクラスタリングされたデータ集合に対して、特定のデータが単一のクラスタに分類されたとしても、各クラスタを代表するデータを適切に定めることができる。
なお、本実施形態では、以下の(1)〜(6)に示すようなデータ分類装置の特徴的構成が示されている。
(1)データ分類装置は、データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタ(例えば、c211〜c215)について、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段(例えば、最下層代表データ決定手段3によって実現される)と、最下層代表データ決定手段が決定した各データ(例えば、図7に示すd11及びd212〜d215)のうち、各クラスタ間において中心性の高いクラスタを代表するデータ(例えば、d11)を、最下層より1つ上位の階層(例えば、c11)に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段とを備えたことを特徴とする。
(2)データ分類装置において、データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析手段(例えば、階層的クラスタ構造解析手段2によって実現される)を備え、階層的代表データ決定手段は、階層的クラスタ構造解析手段が算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定するように構成されていてもよい。
(3)データ分類装置は、データ集合を分類するデータ分類装置であって、データ集合に含まれる各データ及び各データ間の関連性を抽出するデータ取得手段(例えば、データ取得手段1によって実現される)と、データ取得手段が取得した各データ及び各データ間の関連性に基づいて、データ集合に含まれる各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析手段と、階層的クラスタ構造解析手段が解析した階層的クラスタ構造において最下層に属する各クラスタについて、各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、最下層代表データ決定手段が決定した最下層の各クラスタを代表するデータを用いて、階層的クラスタ構造において、最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定手段と、最下層代表データ決定手段及び階層的データ決定手段が決定した各クラスタを代表するデータ、各データ間の関連性、階層的クラスタ構造解析手段が解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、データ集合を分類した表示用データを生成し、生成した表示用データを表示部に表示させるように制御するデータ表示制御手段(例えば、データ表示手段5によって実現される)とを備えたことを特徴とする。
(4)データ分類装置において、データ表示制御手段は、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した表示データを表示部に表示させる制御するように構成されていてもよい。
(5)データ分類装置において、最下層代表データ決定手段は、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した中心性に基づいて、最下層の各クラスタを代表するデータを決定するように構成されていてもよい。
(6)データ分類装置において、階層的代表データ決定手段は、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した一つ下の層の各クラスタ間の関連性に基づいて、各クラスタの中心性を算出し、算出した中心性に基づいて、決定対象のクラスタを代表するデータを決定するように構成されていてもよい。
本発明は、データ集合を分類する用途に適用可能である。
1 データ取得手段
2 階層的クラスタ構造解析手段
3 最下層代表データ決定手段
4 階層的代表データ決定手段
5 データ表示手段
c11、c12、c13、c14 クラスタ
c211、c212、c213、c214、c215 c11の下位クラスタ
c221、c222、c223、c224 c12の下位クラスタ
c231、c232、c233、c234、c235 c13の下位クラスタ
c214、c242、c243、c244、c245、c246 c14の下位クラスタ
d11、d12、d13、d14、d212、d213、d214、d215 データ

Claims (18)

  1. データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、
    前記最下層代表データ決定手段が決定した各データのうち、前記各クラスタ間において中心性の高いクラスタを代表するデータを、前記最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、前記処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定手段とを
    備えたことを特徴とするデータ分類装置。
  2. データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析手段を備え、
    階層的代表データ決定手段は、前記階層的クラスタ構造解析手段が算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定する
    請求項1記載のデータ分類装置。
  3. データ集合を分類するデータ分類装置であって、
    前記データ集合に含まれる各データ及び前記各データ間の関連性を取得するデータ取得手段と、
    前記データ取得手段が取得した前記各データ及び前記各データ間の関連性に基づいて、前記データ集合に含まれる前記各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析手段と、
    前記階層的クラスタ構造解析手段が解析した前記階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定手段と、
    前記最下層代表データ決定手段が決定した前記最下層の各クラスタを代表するデータを用いて、前記階層的クラスタ構造において、前記最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、前記処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定手段と、
    前記最下層代表データ決定手段及び前記階層的データ決定手段が決定した前記各クラスタを代表するデータ、前記各データ間の関連性、前記階層的クラスタ構造解析手段が解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、前記データ集合を分類した表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御するデータ表示制御手段とを
    備えたことを特徴とするデータ分類装置。
  4. データ表示制御手段は、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御する
    請求項3記載のデータ分類装置。
  5. 最下層代表データ決定手段は、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した前記中心性に基づいて、前記最下層の各クラスタを代表するデータを決定する
    請求項3又は請求項4記載のデータ分類装置。
  6. 階層的代表データ決定手段は、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した前記一つ下の層の各クラスタ間の関連性に基づいて、前記各クラスタの中心性を算出し、算出した中心性に基づいて、前記決定対象のクラスタを代表するデータを決定する
    請求項3から請求項5のうちのいずれか1項に記載のデータ分類装置。
  7. データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定ステップと、
    決定した各データのうち、前記各クラスタ間において中心性の高いクラスタを代表するデータを、前記最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、前記処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定ステップとを
    含むことを特徴とするデータ分類方法。
  8. データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析ステップを含み、
    階層的代表データ決定ステップで、算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定する
    請求項7記載のデータ分類方法。
  9. データ集合に含まれる各データ及び前記各データ間の関連性を取得するデータ取得ステップと、
    取得した前記各データ及び前記各データ間の関連性に基づいて、前記データ集合に含まれる前記各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析ステップと、
    解析した前記階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定ステップと、
    決定した前記最下層の各クラスタを代表するデータを用いて、前記階層的クラスタ構造において、前記最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、前記処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定ステップと、
    決定した前記各クラスタを代表するデータ、前記各データ間の関連性、解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、前記データ集合を分類した表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御するデータ表示制御ステップとを
    含むことを特徴とするデータ分類方法。
  10. データ制御表示ステップで、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した前記表示データを表示部に表示させるように制御する
    請求項9記載のデータ分類方法。
  11. 最下層代表データ決定ステップで、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した前記中心性に基づいて、前記最下層の各クラスタを代表するデータを決定する
    請求項9又は請求項10記載のデータ分類方法。
  12. 階層的代表データ決定ステップで、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した前記一つ下の層の各クラスタ間の関連性に基づいて、前記各クラスタの中心性を算出し、算出した中心性に基づいて、前記決定対象のクラスタを代表するデータを決定する
    請求項9から請求項11のうちのいずれか1項に記載のデータ分類方法。
  13. コンピュータに、
    データ集合に含まれる各データを階層的にクラスタリングした階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定処理と、
    決定した各データのうち、前記各クラスタ間において中心性の高いクラスタを代表するデータを、前記最下層より1つ上位の階層に属するクラスタを代表するデータと決定し、さらに、最上層に至るまで、処理対象の階層に属する中心性の高いクラスタを代表するデータを、前記処理対象の階層より1つ上位の階層に属するクラスタを代表するデータと決定する処理を繰り返し実行する階層的代表データ決定処理とを
    実行させるためのデータ分類プログラム。
  14. コンピュータに、
    データ集合の階層的クラスタ構造を解析するとともに、各クラスタ間の関連性を算出する階層的クラスタ構造解析処理を実行させ、
    階層的代表データ決定処理で、算出した各クラスタ間の関連性に基づいて、中心性の高いクラスタを特定する処理を実行させる
    請求項13記載のデータ分類プログラム。
  15. コンピュータに、
    データ集合に含まれる各データ及び前記各データ間の関連性を取得するデータ取得処理と、
    取得した前記各データ及び前記各データ間の関連性に基づいて、前記データ集合に含まれる前記各データを階層的にクラスタリングする階層的クラスタ構造を解析し、各クラスタ間の関連性及び各クラスタと各データとの関連性を算出する階層的クラスタ構造解析処理と、
    解析した前記階層的クラスタ構造において最下層に属する各クラスタについて、前記各クラスタを代表するデータをそれぞれ決定する最下層代表データ決定処理と、
    決定した前記最下層の各クラスタを代表するデータを用いて、前記階層的クラスタ構造において、前記最下層の各クラスタよりも上位の各クラスタについて、前記上位の各クラスタを代表するデータをそれぞれ決定し、さらに、最上層のクラスタにいたるまで、処理対象のクラスタの一つ下の層の各クラスタを代表するデータを用いて、前記処理対象のクラスタを代表するデータを決定する処理を繰り返し実行する階層的代表データ決定処理と、
    決定した前記各クラスタを代表するデータ、前記各データ間の関連性、解析した各クラスタの階層構造、各クラスタ間の関連性及び各クラスタと各データとの関連性に基づいて、前記データ集合を分類した表示用データを生成し、生成した前記表示用データを表示部に表示させるように制御するデータ表示制御処理とを
    実行させるためのデータ分類プログラム。
  16. コンピュータに、
    データ表示制御処理で、各クラスタを代表するデータをノードとし、各データ間の関連性、階層的クラスタ構造に基づく各クラスタ間の関連性及び各クラスタと各データとの関連性をリンクとしたグラフ構造を表示するための表示用データを生成し、生成した前記表示データを表示部に表示させるように制御する処理を実行させる
    請求項15記載のデータ分類プログラム。
  17. コンピュータに、
    最下層代表データ決定処理で、最下層の各クラスタに属する各データ間の関連性に基づいて中心性を算出し、算出した前記中心性に基づいて、前記最下層の各クラスタを代表するデータを決定する処理を実行させる
    請求項15又は請求項16記載のデータ分類プログラム。
  18. コンピュータに、
    階層的代表データ決定処理で、代表するデータの決定対象のクラスタの一つ下の層の各クラスタについて、階層的クラスタ構造解析手段が解析した前記一つ下の層の各クラスタ間の関連性に基づいて、前記各クラスタの中心性を算出し、算出した中心性に基づいて、前記決定対象のクラスタを代表するデータを決定する処理を実行させる
    請求項15から請求項17のうちのいずれか1項に記載のデータ分類プログラム。
JP2009148001A 2009-06-22 2009-06-22 データ分類装置、データ分類方法及びデータ分類プログラム Pending JP2011003156A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009148001A JP2011003156A (ja) 2009-06-22 2009-06-22 データ分類装置、データ分類方法及びデータ分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009148001A JP2011003156A (ja) 2009-06-22 2009-06-22 データ分類装置、データ分類方法及びデータ分類プログラム

Publications (1)

Publication Number Publication Date
JP2011003156A true JP2011003156A (ja) 2011-01-06

Family

ID=43561039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009148001A Pending JP2011003156A (ja) 2009-06-22 2009-06-22 データ分類装置、データ分類方法及びデータ分類プログラム

Country Status (1)

Country Link
JP (1) JP2011003156A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013058176A (ja) * 2011-09-09 2013-03-28 Kddi Corp 通信サービスにおける地理的領域の価値を判定するサーバ装置及びプログラム
JP2013130929A (ja) * 2011-12-20 2013-07-04 Nec Corp 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
WO2016103451A1 (ja) * 2014-12-26 2016-06-30 株式会社日立製作所 関連情報取得方法及び装置並びに記憶媒体
KR101865027B1 (ko) * 2010-11-15 2018-06-07 코닌클리케 필립스 엔.브이. 펨토셀 액세스 포인트를 설치하기 위한 방법
US11244109B2 (en) 2019-06-07 2022-02-08 Hitachi, Ltd. Information processing device and information processing method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016465A (ja) * 2001-06-19 2003-01-17 Internatl Business Mach Corp <Ibm> グラフィックス・イメージ作成装置、及びその方法並びにプログラム
JP2003248689A (ja) * 2002-02-26 2003-09-05 Just Syst Corp 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム
JP2007087125A (ja) * 2005-09-22 2007-04-05 Wakayama Univ 生命情報の可視化方法、可視化プログラム及び記憶媒体
JP2007304735A (ja) * 2006-05-09 2007-11-22 Canon Inc ファイル管理装置及びファイル管理方法
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
WO2008103412A1 (en) * 2007-02-22 2008-08-28 Eastman Kodak Company Representative image selection based on hierarchical clustering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016465A (ja) * 2001-06-19 2003-01-17 Internatl Business Mach Corp <Ibm> グラフィックス・イメージ作成装置、及びその方法並びにプログラム
JP2003248689A (ja) * 2002-02-26 2003-09-05 Just Syst Corp 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム
JP2007087125A (ja) * 2005-09-22 2007-04-05 Wakayama Univ 生命情報の可視化方法、可視化プログラム及び記憶媒体
JP2007304735A (ja) * 2006-05-09 2007-11-22 Canon Inc ファイル管理装置及びファイル管理方法
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
WO2008103412A1 (en) * 2007-02-22 2008-08-28 Eastman Kodak Company Representative image selection based on hierarchical clustering

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700493011; 戸田 浩之: 'グラフ分析を利用した文書集合からの話題構造マイニング' 電子情報通信学会論文誌 (J90-D) 第2号 THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS (J 第J90-D巻,第2号, 20070201, page 292〜310, 社団法人電子情報通信学会 *
JPN6014008421; 戸田 浩之: 'グラフ分析を利用した文書集合からの話題構造マイニング' 電子情報通信学会論文誌 (J90-D) 第2号 THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS (J 第J90-D巻,第2号, 20070201, page 292〜310, 社団法人電子情報通信学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101865027B1 (ko) * 2010-11-15 2018-06-07 코닌클리케 필립스 엔.브이. 펨토셀 액세스 포인트를 설치하기 위한 방법
JP2013058176A (ja) * 2011-09-09 2013-03-28 Kddi Corp 通信サービスにおける地理的領域の価値を判定するサーバ装置及びプログラム
JP2013130929A (ja) * 2011-12-20 2013-07-04 Nec Corp 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
WO2016103451A1 (ja) * 2014-12-26 2016-06-30 株式会社日立製作所 関連情報取得方法及び装置並びに記憶媒体
JPWO2016103451A1 (ja) * 2014-12-26 2017-04-27 株式会社日立製作所 関連情報取得方法及び装置並びに記憶媒体
US11244109B2 (en) 2019-06-07 2022-02-08 Hitachi, Ltd. Information processing device and information processing method

Similar Documents

Publication Publication Date Title
Middlehurst et al. The temporal dictionary ensemble (TDE) classifier for time series classification
Chen et al. Personalized QoS-aware web service recommendation and visualization
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN111373392B (zh) 文献分类装置
Kang et al. Neural and attentional factorization machine-based web api recommendation for mashup development
JP5320307B2 (ja) 興味情報推薦装置、興味情報推薦方法および興味情報推薦プログラム
CN112836509A (zh) 一种专家系统知识库构建方法及系统
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
JP2011003156A (ja) データ分類装置、データ分類方法及びデータ分類プログラム
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
JP6680956B1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN114297025A (zh) 数据中心资源分析系统及方法、存储介质及电子设备
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
JP5973309B2 (ja) 配信装置及びコンピュータプログラム
Kar et al. Task-specific representation learning for web-scale entity disambiguation
CN108197183B (zh) 一种基于安卓应用的控件布局推荐方法及其系统
JP6924450B2 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
Lou et al. The diversity of canonical and ubiquitous progress in computer vision: A dynamic topic modeling approach
CN109657710A (zh) 数据筛选方法、装置、服务器及存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
Suresh et al. A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP2021152751A (ja) 分析支援装置及び分析支援方法
CN111291182A (zh) 热点事件发现方法、装置、设备及存储介质
JP5240777B2 (ja) 文書分類装置及び文書分類方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140701