JP2014063343A

JP2014063343A - クラスタリング品質改善方法

Info

Publication number: JP2014063343A
Application number: JP2012207943A
Authority: JP
Inventors: Shinya Sato; 進也佐藤; Masami Takahashi; 公海高橋; Masato Matsuo; 真人松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2014-04-10
Anticipated expiration: 2032-09-21
Also published as: JP5746118B2

Abstract

【課題】本発明は、クラスタ内の一貫性を損なう要素を除去することによって、クラスタリング品質を向上させることを目的とする。
【解決手段】本発明は、データの集合を第１のクラスタリング手法によって構成された第１のクラスタＣ_iの集合｛Ｃ_i｝と、第１のクラスタリング手法とは異なる第２のクラスタリング手法によって構成された第２のクラスタＱ_iの集合｛Ｑ_i｝とを求め、第１のクラスタＣ_iの各々に対して、第２のクラスタの集合｛Ｑ_i｝から、Ｃ_iと共通の要素が最も多いクラスタＱ_kを選択し、第１のクラスタＣ_iとこれに対応する第２のクラスタＱ_kとの積集合Ｉ_iを第３のクラスタとして求め、得られた第３のクラスタの集合｛Ｉ_i｝を出力する。
【選択図】図３

Description

本発明は、情報の検索、抽出、マイニング、整理などの処理を行うクラスタリング装置に関し、特に当該装置においてクラスタリング品質を改善する方法に関する。

（クラスタリング）
クラスタリングは、データの集合をデータ間に定義される距離尺度（以降、データ間尺度と呼ぶ）に基づき分類する（クラスタに分割する）データ解析の重要な一手法であり、データマイニング、情報検索など様々な分野で使われている（非特許文献１）。具体的なクラスタリング手法も、凝集型の階層的手法や分割最適化手法、確率モデルに基づいた手法など、様々なものが開発されてきている。

一般に、同一のデータ集合に対して異なるデータ間尺度を導入したり、異なるクラスタリング手法を適用したりすると、その結果も異なってくる。つまり、クラスタリングの結果は当然データの特徴を反映したものであるが、データ間尺度やクラスタリング手法にも依存する。それゆえ、データ間尺度やクラスタリング手法がデータの特徴をうまく捉えきれず、不適切な結果が得られてしまうこともある。そこで、データ間尺度、クラスタリング手法に関する改善方法や、複数のクラスタリング結果を統合してより妥当な結果を導出する手法などが検討されてきた（非特許文献２）。

（クラスタリングの適用例）
本発明が解こうとする問題を分かり易くするため、ここで、クラスタリングの適用例として多義語の曖昧性解消を取り上げる。多義語とは「マウス」のように文字通り複数の意味（動物の「マウス」とコンピュータのポインティングデバイスである「マウス」）を有する語である。文書集合の中にそのような語が複数箇所で出現した時、それらは同一の意味で用いられているのか否か、さらには、複数の意味のうちどれを意図してその語が用いられたのかを明らかにするのが曖昧性解消である。

この問題を解く手法として、クラスタリングが以下のように使われることがある。
まず、それぞれの多義語（の出現）に対して、その周辺（例えば、同一文内、あるいは同一文書内）に出現する語を抜き出す。これを周辺語群と呼ぶことにする。周辺語群の集合にクラスタリングを施すと、一般に、複数のクラスタが得られる。このそれぞれのクラスタが個別の意味に対応すると見なす。「マウス」の例で言えば、この手法により動物とポインティングデバイスに対応する２つのクラスタが得られることが期待される。この手法は、語が文脈を与えられることで特定の意味を帯びるようになる、つまり、語の意味と文脈との間に対応関係があるという仮定に基づいたものと考えることができる。周辺語群が文脈を表すものであり、そのクラスタリングにより文脈が分類される。

（語義抽出とクラスタリング）
上記の曖昧性解消と類似した問題として、『「マウス」という言葉の意味にどのような種類のものがあるか』という知識を文書集合から抽出するものが考えられる。これを語義抽出と呼ぶことにする。曖昧性解消が個々の語の出現と意味（文脈）との対応関係を把握することを目的としているのに対し、語義抽出の目的は文字通り語義そのものの種類の把握である。クラスタリング適用の例で言えば、曖昧性解消では各周辺語群がどのクラスタに属するかという対応関係を把握することが目的であるのに対し、語義抽出ではクラスタの種類やそれぞれの特徴が興味の対象である。よって、語義抽出においては、各クラスタの特徴を知るためには、それぞれがどのようなデータ（周辺語群）から構成されているかを把握する必要があるが、周辺語群とクラスタの対応を全て把握することは必ずしも必要ではない。例えば、「マウス」の例で、クラスタリングにより以下のようなＣ_１，Ｃ_２という２つのクラスタが得られたとする。ここで、＜＞で括られた語は周辺語群を表す。
（数１）
Ｃ_１＝｛＜ヒト，動物，移植＞，＜飼育，餌，動物＞，＜がん，遺伝子，移植＞｝
Ｃ_２＝｛＜ＵＳＢ，設定，識別＞，＜デバイス，ＵＳＢ，ＰＣ＞，＜投薬，実験，識別＞｝

この結果から、Ｃ_１は動物の「マウス」に関する記述の集まりであり、Ｃ_２はデバイスの「マウス」に関わるものであることが推察される。より詳しく見ると、Ｃ_２の最後の周辺語群＜投薬，実験，識別＞は間違って分類されたもの（ノイズ）と考えられる。しかし、クラスタ内において周辺語群に意味的な一貫性がおおむね認められるため、＜投薬，実験，識別＞はノイズとして捉えられ、クラスタに適切な意味付けがなされていると考えられる。

語義抽出の次のステップとして、このクラスタリングの結果を応用可能な知識に変換したい。そのための基本的手段としてクラスタの特徴抽出がある。たとえば、それぞれに高頻度で出現する語を抽出すると次のようになる。
（数２）
Ｃ_１：｛動物，移植｝
Ｃ_２：｛ＵＳＢ，識別｝

この結果から、次の知識（仮説）を作り出すことができる。
（ｉ）「マウス」の周辺に「動物」や「移植」という語が出現した場合には、それは動物の「マウス」に関する記述である可能性が高い。
（ｉｉ）「マウス」の周辺に「ＵＳＢ」や「識別」という語が出現した場合にはデバイスに関する記述である確率が高い。

ただし、正確には、この手法では『「マウス」の周辺に「動物」や「移植」という語が出現した場合には、それは動物の「マウス」に関する記述である』ということまでは分からず、『「ＵＳＢ」という語が出現した場合とは異なった意味で使われている』らしいということが分かるだけである。

このうち、（ｉ）は妥当な知識と考えられる。（ｉｉ）については、Ｃ_２における「識別」の出現回数は２回であり、そのうちの半分はノイズによるものであることから、「識別」をデバイスとしてのマウスの判断基準とするのは適切ではない。この例が示すように、知識の質（信頼性、適用可能性など）はクラスタリングの品質（クラスタを構成する要素の一貫性など）の影響を受ける。クラスタリング品質を向上させるためには、前述のとおり、クラスタリング手法単体の改善や複数のクラスタリング結果の統合などにより、分類をより正確する方法、例えば上記例で言えば、＜投薬，実験，識別＞をＣ_２ではなくＣ_１に帰属させるアルゴリズムが検討・開発されてきた。

（クラスタリング品質の定量的評価方法）
ここで、クラスタリング品質を定量的に評価するためによく用いられている尺度について触れておく。クラスタリング品質を評価するうえで、クラスタ内の一貫性は重要であるが、同種のデータが１つのクラスタに集中しているという、いわば凝集性もまた重要な因子である。上の例と同じデータが次のように分類されたとしよう。
（数３）
Ｃ_１＝｛＜ヒト，動物，移植＞，＜飼育，餌，動物＞｝
Ｃ_２＝｛＜がん，遺伝子，移植＞，＜投薬，実験，識別＞｝
Ｃ_３＝｛＜ＵＳＢ，設定，識別＞，＜デバイス，ＵＳＢ，ＰＣ＞｝

このとき、いずれのクラスタの一貫性も高いが、動物としての「マウス」に関するデータが、Ｃ_１とＣ_２に分かれてしまっている。よって、このクラスタリング結果は、一貫性については優れているが凝集性に関しては改善の余地があると言える。いま、分類の正解を｛Ａ_ｉ｝とする。この正解に対するクラスタ｛Ｃ_ｉ｝の一貫性Ｐ（Ｐｕｒｉｔｙ）と凝集性ＩＰ（ＩｎｖｅｒｓｅＰｕｒｉｔｙ）、そしてそれらを併せて総合的に評価する尺度であるＦ値（ｐｕｒｉｔｙとｉｎｖｅｒｓｅｐｕｒｉｔｙの調和平均）は以下のように定義されている（例えば、非特許文献４参照。）。

ここで、

Ｊａｉｎ，Ａ．Ｋ．，Ｍｕｒｔｙ，Ｍ．Ｎ．，Ｆｌｙｎｎ，Ｐ．Ｊ．："Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：ａｒｅｖｉｅｗ"，ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，Ｖｏｌ．３１，Ｎｏ．３，ｐｐ．２６４−３２３（１９９９）．Ｇｈａｅｍｉ，Ｒ．，Ｓｕｌａｉｍａｎ，Ｍ．Ｎ．，Ｉｂｒａｈｉｍ，Ｈ．，Ｍｕｓｔａｐｈａ，Ｎ．："ＡＳｕｒｖｅｙ：ＣｌｕｓｔｅｒｉｎｇＥｎｓｅｍｂｌｅｓＴｅｃｈｎｉｑｕｅｓ"，ＷｏｒｌｄＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅ，ＥｎｇｉｎｅｅｒｉｎｇａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｉｓｓｕｅ２６，ｐｐ．６３６−６４５（２００９）．Ｂｌｅｉ，Ｄ．Ｍ．，Ｎｇ，Ａ．Ｙ．，Ｊｏｒｄａｎ，Ｍ．Ｉ．："Ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ"，ＴｈｅＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，Ｖｏｌ．３．ｐｐ．９９３−１０２２（２００３）．Ａｒｔｉｌｅｓ，Ｊ．，Ｇｏｎｚａｌｏ，Ｊ．，Ｓｅｋｉｎｅ，Ｓ．，： "ＴｈｅＳｅｍＥｖａｌ−２００７ＷｅＰＳｅｖａｌｕａｔｉｏｎ：ＥｓｔａｂｌｉｓｈｉｎｇａｂｅｎｃｈｍａｒｋｆｏｒｔｈｅＷｅｂＰｅｏｐｌｅＳｅａｒｃｈｔａｓｋ．"，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＳｅｍｅｖａｌ２００７，ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（２００７）．

本発明は、クラスタ内の一貫性を損なう要素を除去することによって、クラスタリング品質を向上させることを目的とする。

本願発明のクラスタリング品質改善方法は、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、を有する。

本願発明のクラスタリング品質改善方法では、前記抽出手順において、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出してもよい。

本願発明のクラスタリング品質改善方法では、前記データの集合は文書群であり、前記クラスタリング手順において、特徴語の共通する文書群を抽出し、前記抽出手順において、クラスタリング方式が異なりかつ特徴語の共通する複数の文書群を抽出し、当該文書群で共通する特徴語を抽出し、抽出した特徴語に基づいて新たな集合を生成してもよい。

本願発明のクラスタリング装置は、異なるクラスタリング方式を用いてデータの集合の分類を行う複数の文書分類部と、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する一貫性阻害要因除去部と、を備える。

本願発明のクラスタリング装置では、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記文書分類部で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出するデータ抽出部を、さらに備えてもよい。

本願発明のクラスタリング品質改善プログラムは、複数の文書分類部が、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、一貫性阻害要因除去部が、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、をコンピュータに実行させる。

本発明によれば、クラスタ内の一貫性を損なう要素を除去することによって、クラスタリング品質を向上させることができる。

文書集合Ｄ、あるクラスタリング手法によりＤを分類して得られたクラスタＣ_ｉ、Ｃ_ｉの一貫性を阻害する要素を除いて得られたＩ_ｉの関係を模式的に表したものである。実施形態の装置構成を表したものである。実施形態のフローチャートで表したものである。実施形態における一貫性向上に関する効果を示すグラフである。

添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施の例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

本発明は、データの集合を第１のクラスタリング手法によって構成された第１のクラスタＣ_iの集合｛Ｃ_i｝と、第１のクラスタリング手法とは異なる第２のクラスタリング手法によって構成された第２のクラスタＱ_iの集合｛Ｑ_i｝とを求め、第１のクラスタＣ_iの各々に対して、第２のクラスタの集合｛Ｑ_i｝から、Ｃ_iと共通の要素が最も多いクラスタＱ_kを選択し、第１のクラスタＣ_iとこれに対応する第２のクラスタＱ_kとの積集合Ｉ_iを第３のクラスタとして求め、得られた第３のクラスタの集合｛Ｉ_i｝を出力する。

（一貫性阻害要素の除去）
本発明の原理について、具体例を用いて説明する。
いま、ある観点から次に示すような４つのグループＡ_１〜Ａ_４に分類されるべき１８個の文書ｄ_１，．．．，ｄ_１８からなる文書集合があるとする。２つの文書が同一のグループに属する場合、これらは同種であると言うことにする。
（数６）
Ａ_１＝｛ｄ_１，ｄ_２，ｄ_３，ｄ_４，ｄ_５｝
Ａ_２＝｛ｄ_６，ｄ_７，ｄ_８，ｄ_９，ｄ_１０，ｄ_１１｝
Ａ_３＝｛ｄ_１２，ｄ_１３，ｄ_１４，ｄ_１５，ｄ_１６，ｄ_１７｝
Ａ_４＝｛ｄ_１８｝

この文書集合に対して、前節で述べたような知識を得る目的であるクラスタリング手法を適用した結果、以下のようなクラスタ｛Ｃ_ｉ｝を得たとする。
（数７）
Ｃ_１＝｛ｄ_１，ｄ_２，ｄ_３，ｄ_９，ｄ_１０，ｄ_１５｝
Ｃ_２＝｛ｄ_４，ｄ_６，ｄ_７，ｄ_８，ｄ_１６，ｄ_１７｝
Ｃ_３＝｛ｄ_５，ｄ_１１，ｄ_１２，ｄ_１３，ｄ_１４，ｄ_１８｝

それぞれのクラスタにおいて、そのほぼ半分は同種の文書で占められており（例えば、Ｃ_１では、その半分がＡ_１の文書である）、残りの半分によりクラスタ内の一貫性が阻害されている。この阻害要素を除去することで一貫性を向上させるというのが本発明のポイントである。一貫性阻害要素を除去する方法としては、例えば、

を

と定義すれば、

という一貫性の高いクラスタを得ることができる。

（補助的クラスタリングを利用した一貫性阻害要素の除去）
式（１）にはＡ_１が使われているが、実際にはこれを予め知ることはできない。既知であればクラスタリングの必要がない。そこで、本発明では、｛Ｃ_ｉ｝を導き出したクラスタリング手法とは異なる、もう一つのクラスタリング手法（補助的クラスタリング手法）により別なクラスタ｛Ｑ_ｉ｝を作り出し、これを｛Ａ_ｉ｝の代わりに用いる。すなわち、次の式により一貫性の高いクラスタ｛Ｉ_ｉ｝の導出を狙う。

ここで、この方法の効果を具体的に示すため、以下に示す例を用いて一貫性阻害要因の除去を実際に行ってみる。いま、ある補助的クラスタリング手法により次のような｛Ｑ_ｉ｝が得られたとする。
（数１２）
Ｑ_１＝｛ｄ_１，ｄ_２，ｄ_３，ｄ_９｝
Ｑ_２＝｛ｄ_４，ｄ_５｝
Ｑ_３＝｛ｄ_１０，ｄ_１２，ｄ_１３，ｄ_１４｝
Ｑ_４＝｛ｄ_６，ｄ_７，ｄ_８，ｄ_１６，ｄ_１８｝
Ｑ_５＝｛ｄ_１１，ｄ_１５｝
Ｑ_６＝｛ｄ_１７｝

このとき、式（２）に基づいてＩ_ｉを計算すると次のようになり、
（数１３）
Ｉ_１＝Ｃ_１∩Ｑ_１＝｛ｄ_１，ｄ_２，ｄ_３，ｄ_９｝
Ｉ_２＝Ｃ_２∩Ｑ_４＝｛ｄ_６，ｄ_７，ｄ_８，ｄ_１６｝
Ｉ_３＝Ｃ_３∩Ｑ_３＝｛ｄ_１２，ｄ_１３，ｄ_１４｝
各クラスタの一貫性が向上しているのが分かる。

定量的に比較すると、｛Ｉ_ｉ｝の一貫性Ｐ、凝集性ＩＰ及びＦ値は等しく０．８２となった。これは、｛Ｃ_ｉ｝の一貫性Ｐ、凝集性ＩＰ及びＦ値がそれぞれ０．５、０．５６及び０．５３であったのに対して、いずれも１に近い数値となっており、より適切な分類がなされていることが分かる。

なお、どのような補助的クラスタリング手法でも必ず一貫性を向上させられるわけではない。つまり、一般に、それぞれのクラスタリングの結果に対して、一貫性を向上のために適切な補助的クラスタリング手法を選ぶことが好ましい。そのような補助的クラスタリング手法としては、例えば、ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ（ＬＤＡ）、階層的凝集型クラスタリング手法（ＨｉｅｒａｒｃｈｉｃａｌＡｇｇｌｏｍｅｒａｔｉｖｅＣｌｕｓｔｅｒｉｎｇ）、ｋ−ｍｅａｎｓ法、ネットワークコミュニティ分割法を応用したものがある。

（一貫性向上の効果と応用）
文書集合をＤとしたとき、Ｄ、Ｃ_ｉとＩ_ｉの関係は図１のように模式的に表すことができる。図において、Ｄは３種類のデータからなり、それぞれが異なる形で表されている。もともとＣ_ｉでは三角形で表されるデータの占める割合が高いが、一貫性阻害要素除去を経て得られたＩ_ｉでは、その割合がさらに高くなっている。この状況を利用し、Ｉ_ｉに属するデータどうしの共通性ともに、Ｉ_ｉに属するデータとＤ−Ｃ_ｉ（Ｄから_Ｃｉの要素を除いたもの）に属するデータとの差異を明らかにすることにより、三角形で表されるデータの特徴をより高い精度で抽出できる。

（実施形態１）
実施形態として、本発明を使ったＱ＆Ａサイトからの知識抽出方法について説明する。
Ｑ＆Ａサイトとは、ユーザ同士がお互いの質問に答え、疑問を解決するウェブサイトのことであり、それぞれの質問に対する（多くの場合複数の）回答が１つのページにまとめられている（これをＱＡページと呼ぶことにする）。ＱＡページ自体、有用な知識を提供するものであるが、その知識を必要とする状況ごとに整理しておけば、その知識をより有効に活用できるようになると考えられる。具体的に言えば、それぞれのページを状況ごとにまとめ、それぞれの状況の特徴（たとえば、時間、場所、モノ、人など）を抽出しておけば、状況の特徴から発生し得る問題とその対処方法を（事前に）見つけ出すことが可能になる。

この具体例としては次のようなシステムが考えられる。本システムに、たとえば「かぼちゃ」を入力すると、システムはかぼちゃが何らかのかたちで関わっている問題・解決方法を、その問題が起こりえる場所ごとに整理して示す。さらに具体的に言えば、本システムは、「台所」「畑」「舞台」という場所ごとに、家庭における調理に関わる問題、栽培関係の問題、そして人前で極度に緊張するという問題と解決策を提示する。（緊張を和らげる目的で「目の前の人をかぼちゃと思え」とよく言われることから、人前で緊張するという問題とかぼちゃが結びつけられる。）このような、特徴語候補ｙ_１，ｙ_２，．．．（例では場所を表す語「台所」などの語の集まり）と興味の対象ｘ（例では「かぼちゃ」）を入力とし、特徴語ごとに問題と解決方法を整理して提示するシステムを以下に実施形態として示す。

（処理の流れ）
図２に、本実施形態に係るクラスタリング品質改善装置の一例を示す。本実施形態に係るクラスタリング品質改善装置１００は、演算処理部１０及び記憶部２０を備える。演算処理部１０は、変数設定部１１と、文書収集部１２と、第１文書分類部１３と、第２文書分類部１４と、一貫性阻害要因除去部１５と、特徴語抽出部１６と、通信部１７と、を備える。記憶部２０は、特徴語候補格納領域２１と、入力語格納領域２２と、文書格納領域２３と、分類結果格納領域２４−１，２４−２，２４−３と、特徴語格納領域２５を備える。

図３に、本実施形態に係るクラスタリング品質改善方法の一例を示す。本実施形態に係るクラスタリング品質改善方法は、クラスタリング手順と、抽出手順と、を有する。
クラスタリング手順では、ステップＳ１０１〜Ｓ１０４を実行し、複数種類のクラスタリング方式を用いてデータの集合の分類を行う。
ステップＳ１０１では、特徴語候補ｙ_１，ｙ_２，．．．とｘを入力として受け付ける。
ステップＳ１０２では、ｘに関連するＱＡページを収集する（これをＤとする）。
ステップＳ１０３では、主たるクラスタリング手法によりＤを分類し、クラスタ｛Ｃ_ｉ｝を得る。
ステップＳ１０４では、補助的クラスタリング手法によりＤを分類し、クラスタ｛Ｑ_ｉ｝を得る。
なお、本実施形態では、２種類のクラスタリング方式を用いて分類を行ったが、３種類以上のクラスタリング方式を用いてもよい。

抽出手順では、ステップＳ１０５を実行し、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する。
ステップＳ１０５では、｛Ｑ_ｉ｝を用いて｛Ｃ_ｉ｝の一貫性阻害要素を除去し｛Ｉ_ｉ｝を得る。

本実施形態では、抽出手順において、ステップＳ１０６〜Ｓ１０８を実行し、新たな集合に含まれるデータについて、新たな集合におけるデータのなかから出現頻度の高いデータを抽出する。
ステップＳ１０６では、各Ｉ_ｉに属するページの集合から、その特徴語を抽出する。
ステップＳ１０７では、各Ｉ_ｉごとに、その特徴語やページを提示する。
ステップＳ１０８では、グルーピングされた文書群を出力する。

ステップＳ１０２では、まず、ｘに関連するＱＡページの（ＵＲＬの）リストを取得する。そのために検索エンジンを利用する。具体的には、ｘとともに検索対象とするサイトを指定するオプション（たとえば、“ｓｉｔｅ：”）をクエリに用いて指定Ｑ＆Ａサイト内でｘに関連するページを検索する。その後、検索結果に含まれるそれぞれのページを取得する。

ステップＳ１０３では、クラスタリング手法を１つ選び、それをＤに適用する。様々な既存のクラスタリング手法のうち、ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ（ＬＤＡ）（非特許文献３）を用いると比較的良好な結果を得られることが実データを使った実験の結果から分かっている。本実施形態でもＬＤＡの使用を仮定して以降の説明を進める。

ここで、一貫性向上の必要性について事実をもとに明らかにしておきたい。実データを用いて計算した結果、ＬＤＡを使用した場合でも、その一貫性は、Ｐの値が０．５を若干越えた程度であった。つまり、クラスタの半分近くはノイズで占められているということであり、一貫性向上の余地はおおいにある。そこで、本発明では、複数のクラスタリング手法を用いて分類を行う。

ステップＳ１０４では、もう一つのクラスタリング手法を選び、Ｄに適用する。ここでも選択肢は複数あるが、本実施形態では階層的凝集型クラスタリング手法（ＨｉｅｒａｒｃｈｉｃａｌＡｇｇｌｏｍｅｒａｔｉｖｅＣｌｕｓｔｅｒｉｎｇ；以下、ＨＡＣと略記する）を用いた場合を示す。ＨＡＣにおけるクラスタリングは段階的に行われる。ステップ１では、Ｄの各要素のみからなる｜Ｄ｜個のクラスタを生成する。ステップｋでは、ステップｋ−１で得られたクラスタの中から最も関連性の高い２つを選び出し、それらをマージして新しいクラスタを生成する。各ステップｋにおいて得られるクラスタの集合をＨＡＣ（ｋ）と書く事にする。本実施形態では、このＨＡＣ（ｋ）を補助的クラスタリング手法として用いる。

ステップＳ１０５では、ステップＳ１０３及びＳ１０４それぞれで得られたクラスタをもとに、前述の式（２）に従って計算する。

本発明の装置はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

図４は、ステップＳ１０３〜Ｓ１０５を実際に行い、この一貫性改善手法を定量的に評価した結果である。本評価では、ｘ＝「かぼちゃ」として７２８文書を収集した。この文書集合に対し、ステップＳ１０３〜Ｓ１０５として示した通り、ＬＤＡを適用してクラスタリングを行い、ＨＡＣ（ｋ）を補助的クラスタリング手法として用いて一貫性改善を試みた。図は、その結果の一貫性の度合いＰ、Ｆ（縦軸左目盛り）、それに一貫性改善後の文書数（縦軸右目盛り）をｋごとにプロットしたものである。評価に必要な正解（Ａ_ｉ）は人手により作成した。

本実施形態に係る発明は、クラスタ内の一貫性を損なう要素を除去するという点が特徴的であった。いわば、データの量を犠牲にして質の向上を狙う手法であると言える。図４では実際に、ｋの値が小さくなるのに従い、文書数は減少し一貫性Ｐは増加していることが見て取れる。先にも述べたように、ＬＤＡによるクラスタリングでは一貫性Ｐはおよそ０．５であったが、一貫性向上によりＰの値が増加している。たとえば、補助的クラスタリングとしてｋ＝５００の場合を採用すると、Ｐの値がおよそ０．８である約２００文書からなるデータが得られる。

また、本実施形態に係る発明は、Ｐの増加に伴いＦの値も増加しているのがわかる。これは、本手法により一貫性Ｐと凝集性ＩＰが総合的に改善されていることを示している。なお、ここで得られた「かぼちゃ」に関する状況としては、ハロウィンや冬至などのイベントに加え、離乳食やダイエットなど食品としての利用に関するもの、かぼちゃの切り方などの調理方法に関するもの、農作物として栽培に関するもの、小動物の飼育に関するもの（種が餌になる）などを挙げることができる。

ステップＳ１０６〜Ｓ１０８では、新たな集合における出現頻度と、クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、新たな集合におけるデータのなかから出現頻度の高いデータを抽出してもよい。この場合、ステップＳ１０１与えられた特徴語の集合ｙ_１，ｙ_２，．．．の中から文書集合Ｉ_ｉの特徴を示す語を選出する既存手法を用いる。たとえば、ある語ｙ_ｊのＩ_ｉとＤ−Ｃ_ｉそれぞれにおける出現頻度の違いを調べ、統計的に有意差がある場合にｙ_ｊを特徴語として採用する。

なお、特徴語候補の集合を選ぶ方法は様々あり、目的に応じて適切なものを選択すればよい。たとえば、場所を表す語を特徴語候補としたい場合には、辞書やシソーラスなどから「場所を表す」という条件を満たすものを抜き出すという方法がある。具体的には、シソーラスにおける「区域」や「地域」の下位語を抜き出し、特徴語候補とする。また、本実施形態のバリエーションとして、ｙ_ｊを予め用意する代わりに、Ｉ_ｉに含まれるすべて（あるいは、その一部）の語を特徴語候補とする方法も考えられる。

以上、実施形態において、「かぼちゃ」が何らかのかたちで関わる問題を状況ごとに分類する場合を紹介した。単一のクラスタリング手法による分類では、５０％近くがノイズで占められているという結果であった。これは、たとえば、あるクラスタＣ_ｉを構成する文書のうちほぼ半分は「バーベキュー」に関するものであるが、残りの半分は「離乳食」や「栽培」あるいは「小動物の飼育」など複数種類の文書が混在しているという結果である。このクラスタに本発明を適用するとノイズが除去され、ほとんどが「バーベキュー」に関する文書からなるクラスタＩ_ｉを得ることができる。「バーベキュー」に関する文書の集まりから「バーベキュー」に関する知識（どのような場所で、どのような時期に、どのようなものを用いて行われることが多いか）を抽出するのにあたり、文書集合としてノイズが多く含まれるＣ_ｉを使う代わりにＩ_ｉを使うことにより、より正確な知識の抽出が可能となる。

特徴語候補として場所を表す語を用い、実際に実施形態を適用してみると、「バーベキュー」に関するクラスタＣ_ｉの特徴語としては「神社」「１００円ショップ」「公園」「酒屋」「肉屋」「魚屋」が得られた。ここに「神社」が含まれているのは、「バーベキュー」とは関連しない文書（具体的にはお食い初めなどに関するもの）の影響である。一方、一貫性を向上させたＩ_ｉから抽出された特徴語は「１００円ショップ」「公園」「酒屋」「肉屋」「魚屋」であり、ノイズに由来する「神社」が取り除かれている。

本発明は情報通信産業に適用することができる。

１０：演算処理部
１１：変数設定部
１２：文書収集部
１３：第１文書分類部
１４：第２文書分類部
１５：一貫性阻害要因除去部
１６：特徴語抽出部
１７：通信部
２０：記憶部
２１：特徴語候補格納領域
２２：入力語格納領域
２３：文書格納領域
２４−１，２４−２，２４−３：分類結果格納領域
２５：特徴語格納領域
１００：クラスタリング品質改善装置

Claims

複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、
各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、
を有するクラスタリング品質改善方法。
前記抽出手順において、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出することを特徴とする請求項１に記載のクラスタリング品質改善方法。
前記データの集合は文書群であり、
前記クラスタリング手順において、特徴語の共通する文書群を抽出し、
前記抽出手順において、クラスタリング方式が異なりかつ特徴語の共通する複数の文書群を抽出し、当該文書群で共通する特徴語を抽出し、抽出した特徴語に基づいて新たな集合を生成することを特徴とする請求項１又は２に記載のクラスタリング品質改善方法。
異なるクラスタリング方式を用いてデータの集合の分類を行う複数の文書分類部と、
各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する一貫性阻害要因除去部と、
を備えるクラスタリング装置。
前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記文書分類部で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出するデータ抽出部を、
さらに備えることを特徴とする請求項４に記載のクラスタリング装置。
複数の文書分類部が、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、
一貫性阻害要因除去部が、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、
をコンピュータに実行させることを特徴とするクラスタリング品質改善プログラム。