JP5817531B2

JP5817531B2 - 文書クラスタリングシステム、文書クラスタリング方法およびプログラム

Info

Publication number: JP5817531B2
Application number: JP2011547580A
Authority: JP
Inventors: 弘紀水口; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-12-22
Filing date: 2010-12-21
Publication date: 2015-11-18
Anticipated expiration: 2030-12-21
Also published as: JPWO2011078186A1; US8965896B2; WO2011078186A1; US20120259855A1

Description

本発明は文書クラスタリングシステム、文書クラスタリング方法およびプログラムに関する。特に語句間の概念木構造の類似度を用いてクラスタリングできる文書クラスタリングシステム、文書クラスタリング方法およびプログラムに関する。

文書クラスタリングシステムとは、文書群を入力にして、類似文書を同じグループに分類するシステムである。

非特許文献1は、文書クラスタリングシステムの一例を開示している。非特許文献1が開示する文書クラスタリングシステムは、一つの文書を語句のまとまりとして位置付け、各語句を要素とするベクトルでその文書を表現する。非特許文献1が開示する文書クラスタリングシステムは、2文書間の類似度を求める際、コサイン類似度など、ベクトル空間で表現される距離を基に2文書間の類似度を求める。

ここで、ベクトル要素の値は、各文書に出現する語句の出現頻度や、その出現頻度に基づくTFIDF（Term Frequency Inverse Document Frequency）、といった統計量等である。非特許文献1が開示する文書クラスタリングシステムは、類似度を求めた後、K-MEANSや階層クラスタリングなどの手法により文書をまとめあげる。これにより、類似する語句の出現する文書は一つのグループを形成する。以下では、この類似文書のグループをクラスタと呼ぶ。

一方、複数の2語句間の上位下位関係を示した概念木構造を2つ入力し、それぞれの対応関係を求めるオントロジマッピングシステムがある。非特許文献2は、オントロジマッピングシステムの一例を開示している。オントロジマッピングシステムは、二つの異なる概念木構造があるとき、それらの間にどのような対応関係があるかを求めるシステムである。概念木構造間の類似度は、文字列の類似性の指標や、概念木構造のグラフを利用した知識資源に基づく指標等である。非特許文献2は、概念木構造のグラフを利用した知識資源に基づく4つの手法を開示している。非特許文献2が開示する手法は、（1）同義語を用いた方法、（2）Wu＆Palmerらの方法、（3）説明を用いた方法、（4）Linらの方法、である。（1）の同義語を用いた方法は、概念木構造の2つの概念のパスの長さを利用して類似度を求める手法である。（2）のWu＆Palmerらの方法は、深さと最低位共通上位概念(LCS：least common superconcept) を基に、下記の式に従って類似度を求める手法である。
類似度（W1，W2）＝2×depth（LCS）／（depth（W1）＋depth（W2））

W1とW2は語句を意味し、depthは概念木構造におけるその語の深さを意味し、LCSはW1とW2の最低位共通上位概念を意味する。

（3）の説明を用いた方法は、概念木構造に各語句の説明文が付与されていることを想定し、その説明文を用いて類似度を求める手法である。類似度は、各々の語の説明文に共通する語の長さの2乗を基に求められる。（4）のLinらの方法は、Wu＆Palmerらの方法の式と同様であるが、概念木構造における語の深さの代わりに情報量を用いる手法である。

さらに、非特許文献3は、クラスタリング対象の文書ペアに対し制約を与えた上でクラスタリングを行う技術を開示している。非特許文献3が開示する制約付きクラスタリングでは、類似度に当たる目的関数に加え、与えた制約を満たすようにクラスタリングが行われる。

その他、特許文献1は、検索された文書を分類する多次元空間モデル表現装置を開示している。特許文献1の多次元空間モデル表現装置は、大量の技術文献をいくつかの多次元空間上のクラスタに分類し、これらのクラスタを二次元平面上に配置してクラスタマップを作成する。特許文献1が開示する多次元空間モデル表現装置によれば、クラスタ間の距離が近いほど、クラスタ間距離の誤差精度が高いクラスタマップが得られ、類似したクラスタ同士の関係を視覚的に把握できる。

特開２００５−０９２４４２号公報

神嶌敏弘、"データマイニング分野のクラスタリング手法（1）−クラスタリングを使ってみよう！−"、人工知能学会誌、vol.18、no.1、pp.59-65（2003）市瀬龍太郎、"オントロジーマッピングに有効な特徴の抽出"、第22回人工知能学会全国大会、2E1−1、2008 新納、佐々木、村上、"制約を修正に用いた半教師有りクラスタリング"、情報論的学習理論ワークショップ、2006

非特許文献1が開示する文書クラスタリングシステムや、特許文献１が開示する多次元空間モデル表現装置は、文書を、出現語句を要素とするベクトルとして位置付けているため、語句間の意味的な関係を表現することはできない。実際には、商品名や会社名などの固有名詞は、全く異なる語句で表されることが多い。しかしながら非特許文献1が開示するような従来の文書クラスタリングシステムでは、あるカテゴリーで分類したときに、そのような固有名詞が同じカテゴリーとして分類される場合や、また、共起する語句の多くが共通することにより類似と判断される場合があり、文書が正しく分類されないという問題が生じる場合がある。

また、非特許文献2が開示するオントロジマッピングシステムでは、文書のクラスタリングを目的とした手法ではなく、概念木構造内の語句の近さのみを求めている。このため、入力文書群における語句の出現回数や出現する割合を求めることができないという問題がある。

さらに、非特許文献3が開示する技術では、制約条件を人が入力しなければならず、的確な制約を与えるためには手間がかかるなどの問題が生じる。

本発明は、上記事情に鑑みてなされたものであり、入力文書における語句間の意味的な類似に基づいて、入力文書群のクラスタリングを行うことができる文書クラスタリングシステム、文書クラスタリング方法およびプログラムを提供することを目的とする。

本発明の第１の観点に係る文書クラスタリングシステムは、
文書の集合である文書群を取得する文書群取得手段と、
前記文書群取得手段が取得した前記文書群に含まれる２つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という２つの語句同士の任意の組合せについて、前記２つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得手段と、
前記任意の組合せについて、前記概念木構造取得手段が取得した前記概念木構造における前記２つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記２つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記２つの語句の共通の上位語句が存在しない場合に最小であるような、前記２つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算手段と、
前記概念類似度計算手段が求めた前記概念類似度を基に、前記文書群取得手段が取得した前記文書群に含まれる２つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算手段と、
前記文書間類似度計算手段が求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリング手段と、
を備えることを特徴とする。

本発明によれば、入力文書における語句間の意味的な類似に基づいた入力文書群のクラスタリングを行うことができる。

本発明の実施の形態1に係る文書クラスタリングシステムの構成例を示すブロック図である。概念木構造の例を示す図である。文書群の例を示す図である。実施の形態1に係る文書クラスタリング処理の動作の一例を示すフローチャートである。本発明の実施の形態2に係る文書クラスタリングシステムの構成例を示すブロック図である。概念木構造と併せて蓄積する共起パターンの例を示す図である。実施の形態2に係る文書クラスタリング処理の動作の一例を示すフローチャートである。本発明の実施の形態3に係る文書クラスタリングシステムの構成例を示すブロック図である。概念木構造の例を示す図である。実施の形態3に係る文書クラスタリング処理の動作の一例を示すフローチャートである。本発明の実施の形態4に係る文書クラスタリングシステムの構成例を示すブロック図である。制約条件の例を示す図である。実施の形態4に係る文書クラスタリング処理の動作の一例を示すフローチャートである。本発明に係る文書クラスタリングシステムのハードウエア構成の一例を示すブロック図である。

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。

（実施の形態1）
図1に示すように、実施の形態1に係る文書クラスタリングシステム100は、サーバ1と端末5とから構成される。サーバ1は、概念木構造蓄積部11と、概念類似度計算部12と、文書間類似度計算部13と、クラスタリング部14と、を備え、概念木構造と入力文書における語句の出現頻度を利用し、語句間の意味的な類似に基づいて入力文書群をクラスタリングする。端末5は、入力部51と出力部52を備え、サーバ1への情報の入出力を行う。サーバ1と端末5はネットワーク等を介して接続していても良く、サーバ1が端末5を備える構成にしても良い。なお、出現頻度は、文書内でその語句が出現する割合ではなく回数であり、以下の説明においても同様とする。

概念木構造蓄積部11は、図2に示すような複数の語句間の概念木構造（正確には概念木構造を表すデータであり、以下の説明においても同様）を記憶する。語句間の概念の上位下位関係はネットワーク構造、または、非循環有向グラフ（DAG：Directed Acyclic Graph）構造で記憶される。概念木構造蓄積部11は、予め概念木構造を記憶しているが、これに限られず、システム動作中に概念木構造を学習しても良い。

図1に戻り、概念類似度計算部12は、まず、端末5の入力部51がサーバ1へ入力した図3に示すような文書群を受け取り、各文書に含まれる語句を抽出する。概念類似度計算部12は、文書群と概念木構造蓄積部11が記憶している概念木構造を参照し、文書群の各文書から抽出した2つの語句が概念木構造内でどれくらい近くに位置するかの指標、すなわち、語句間の概念類似度を求める。

なお、図3に示すように、端末5から受け取る文書群は複数の文書を含み、各文書はそれぞれを識別するためのIDが付与される。

図1に戻り、文書間類似度計算部13は、概念類似度計算部12で求めた語句間の概念類似度を基に、比較したい2文書内に出現する語句間の概念的な距離を求め、求めた概念的な距離を基に文書間の意味的な類似度を求める。また、文書間類似度計算部13は文書内の語句の出現頻度等を基に重みづけしてもよい。

クラスタリング部14は、文書間類似度計算部13で求めた2文書間の意味的な類似度を基に、文書のクラスタリングを行う。文書のクラスタリングは、2文書間の類似度を基に、凝集法やK-MEANSなどの方法で行う。

図3に示す文書群が入力された場合、概念木構造蓄積部11が記憶する概念木構造は、図2に示すように、例えばrootを根とするDAG構造となる。rootは、概念木構造の最も上位の開始点である。ある語句に対して、矢印を向けている（始点）方は上位概念の語句であり、矢印が向けられている（終点）方は下位概念の語句である。例えば、「Nグループ」、「電機メーカー」、「上場企業」および「携帯電話メーカー」はそれぞれ「N社」の上位概念の語句（以下、上位語句という）である。また、「電機メーカー」および「上場企業」は、「K社」および「C社」の上位語句でもある。

本実施形態では、ある語句の下位概念の語句（の任意の集合）を下位系列の語句（下位系列語句）という。また、本実施形態では、ある上位語句が2以上の下位系列語句のいずれにも共通する上位語句であるとき、その上位語句を共通上位語句という。さらに、本実施形態では、ある共通上位語句の概念系列の最低位の共通上位語句を最低位共通上位語句という。図2の例では、「電機メーカー」および「上場企業」は、「N社」、「K社」および「C社」の最低位共通上位語句である。「日本企業」は、「N社」、「K社」および「C社」の共通上位語句であるが、最低位共通上位語句ではない。本実施形態では、共通上位語句のうち主に最低位共通上位語句を用いるので、以下の説明では最低位共通上位語句を単に共通上位語句という。

次に、図1ないし3を参照して、文書クラスタリングシステム100の動作を説明する。予め、概念木構造蓄積部11は、図2に示す概念木構造について記憶しているものとする。また、クラスタリングを行う対象の文書群は、図3に示す文書とする。

概念類似度計算部12は、まず、端末5の入力部51がサーバ1へ入力した文書群を受け取り、各文書に含まれる語句を抽出する。概念類似度計算部12は、文書群と概念木構造蓄積部11が記憶している概念木構造を参照し、各文書から抽出した語句間の概念類似度を求める。

具体的には、概念類似度計算部12は、概念木構造蓄積部11が記憶している概念木構造において、2語句の最低位の共通する上位語句およびその上位語句の下位系列語句のいずれかが出現する入力文書中の文書の数と、2語句それぞれが出現する入力文書中の文書の数と、の割合で概念類似度を求める。すなわち、概念類似度は、上位語句の入力文書内での出現頻度と2語句それぞれの入力文書内での出現頻度が同じ場合に高くなる値である。

例えば、語句「N社」と語句「C社」とその共通上位語句「携帯電話メーカー」について説明する。語句「携帯電話メーカー」の下位系列語句が出現する文書と語句「N社」または語句「C社」を含む文書が同じ場合、概念類似度は高くなる。よって、語句「N社」と語句「C社」は類似していることになる。また、語句「N社」と語句「G社」とその共通上位語句「企業」について説明する。語句「企業」の下位系列語句が出現する文書には、語句「N社」または語句「G社」を含む文書以外にも多くの文書が存在することが予想される。したがって、語句「N社」と語句「G社」の概念類似度は低くなる。ただし、概念木構造蓄積部11が記憶していない語句の場合、概念類似度は、他の語句と概念の上位下位関係のない語句が概念木構造蓄積部11に記憶されているものとして求められる。

次に、概念類似度の求め方について具体的に説明する。語句間の概念類似度は以下の式で表される。
概念類似度（w1，w2）
＝2×log（P（上位語句（w1，w2）））／（log（P（w1））＋log（P（w2）））
P（w）＝DF（w）／DF_ALL

w1とw2は入力された2語句を意味する。上位語句（w1，w2）は2語句のもっとも近い共通上位語句集合を意味する。DF（w）は語句wとその下位系列語句の出現する文書頻度、または、語句集合wのいずれかの語句とその下位系列語句が出現する文書頻度を意味し、DF_ALLは入力文書総数を意味する。P（w）は入力文書総数に対する語句wとその下位系列語句の出現する文書の数の割合を意味する。すなわち、P（w）はwが生起する確率とも考えられるので、概念類似度（w1，w2）は、w1とw2の情報量の合計（w1もw2も生起する事象の情報量）に対する上位語句（w1，w2）の情報量である。なお、文書頻度は、その語句が出現する文書の割合ではなく文書数であり、以下の説明においても同様とする。

概念類似度計算部12は、入力文書群において2語句の共通概念（上位語句）が持つ情報量と2語句それぞれがもつ情報量の差を求める。このとき、上述の情報量の差が小さい場合、2語句は概念的に近いと考えられ、概念類似度（w1，w2）は大きくなる。上述の情報量の差が大きい場合、2語句は概念的に遠いと考えられ、概念類似度（w1，w2）は小さくなる。

また、概念木構造に存在しない語句、すなわち、概念木構造蓄積部11が記憶していない語句の場合、概念類似度計算部12は、概念の上位下位関係を持たない語句が概念木構造に追加されたものとして概念類似度を求める。これにより、概念類似度計算部12は、入力文書には存在するが、概念木構造内に存在しない語句に対しても概念類似度を求めることができる。

さらに、2語句のもっとも近い共通上位語句集合がない場合、すなわち、上位語句（w1，w2）が空集合の場合、文書頻度DF（w）は0となり、出現文書割合P（上位語句（w1，w2））は0となる。ここで、log（0）は実際には求められないが、概念類似度（w1，w2）＝0とする。これにより、共通の上位語句がない、すなわち、概念木構造内で2語句が繋がっていない場合でも、概念類似度計算部12は概念類似度を求めることができる。

さらに、2語句が同じ語句の場合、すなわち、上位語句（w1，w1）の場合、もっとも近い共通上位語句集合は自分自身、すなわち、w1となる。これにより、概念類似度計算部12は同じ語句間の概念類似度を最も高い1として求めることができる。

上述の概念類似度の式は一例であり、概念類似度計算部12は、文書頻度DF（w）、入力文書総数DF_ALLの文書頻度の代わりに、語句頻度を用いてもよい。なお、語句頻度は、文書内にその語句が出現する割合ではなく回数であり、以下の説明においても同様とする。また、概念類似度計算部12は、対数を求めず単に割合を用いてもよい。また、概念類似度計算部12は、入力文書に一度も出現しないが、概念木構造に出現する語句がある場合、加算スムージング法などを用いて文書頻度や語句頻度を補正してもよい。

すなわち、概念類似度は、共通の上位語句またはその上位語句の下位系列の語句の文書群の中での出現頻度と、2つの語句のそれぞれの文書群の中での出現頻度と、が一致する場合に最大であり、概念木構造に2つの語句の共通の上位語句が存在しない場合に最小であるように定義すればよく、上述の式に限定せずとも構わない。

以下では、理解を容易にするため、概念木構造蓄積部11が記憶している概念木構造内の全ての語句は入力文書群内で少なくとも1回以上出現しているものとして、概念類似度を求める具体的な手法の一例について説明する。

例えば、語句「N社」と語句「C社」の概念類似度について説明する。まず、図２に示す概念木構造を参照すると、もっとも近い共通上位語句は以下である。
上位語句（N社，C社）＝｛電機メーカー，上場企業，携帯電話メーカー｝

ここで、文書頻度をそれぞれ以下として説明する。
DF（N社）＝4
DF（C社）＝5
DF（K社）＝4
DF_ALL＝20

また、理解を容易にするため、ここでは語句「電機メーカー」の下位系列語句を「N社」、「K社」、「C社」のみとする。また、語句「上場企業」の下位系列語句を「N社」、「K社」、「C社」のみとする。さらに、語句「携帯電話メーカー」の下位系列語句を「N社」、「K社」、「M社」のみとする。このとき、文書頻度DF（上位語句（N社，C社））は、これらの語句のいずれかが記載されている入力文書群における文書頻度とする。また、二つ以上の語句を含んでいる文書は1とカウントし、重複カウントの文書はないものとする。その結果、文書頻度が以下となった場合について説明する。
DF（上位語句（N社，C社））＝7

これらを用いて、概念類似度を求めると、概念類似度は以下のように求められる。
P（上位語句（N社，C社））＝DF（上位語句（N社，C社））／DF_ALL＝7／20
P（N社）＝DF（N社）／DF_ALL＝4／20
P（C社）＝DF（C社）／DF_ALL＝5／20
概念類似度（N社，C社）
＝2×log（P（上位語句（N社，C社）））／（log（P（N社））＋log（P（C社）））
＝2×log（7／20）／（log（4／20）＋log（5／20））
＝2×（−0.456）／（−0.699−0.602）
＝0.701

同様に、語句「N社」と語句「G社」との概念類似度を求める。ここで、上位語句および文書頻度をそれぞれ以下として説明する。
上位語句（N社，G社）＝｛企業｝
DF（G社）＝3
DF（上位語句（N社，G社））＝DF（企業）＝19

すると、概念類似度は以下のように求められる。
概念類似度（N社，G社）
＝2×log（P（上位語句（N社，G社）））／（log（P（N社））＋log（P（G社）））
＝2×log（19／20）／（log（4／20）＋log（3／20））
＝2×（−0.022）／（−0.699−0.824）
＝0.029

また、概念木構造にない語句、すなわち、概念木構造蓄積部11が記憶していない語句「決算」と語句「N社」の概念類似度を求める場合について説明する。語句「決算」は、概念木構造蓄積部11が記憶している概念木構造上では概念の上位下位関係を持たない語句であり、概念木構造内にあるとした場合、上位語句は以下のようになる。
上位語句（決算，N社）＝｛φ｝（空集合）

ここで、文書頻度を以下として説明する。
DF（決算）＝5

log（0）＝0としたので、概念類似度は以下のように求められる。
DF（上位語句（決算，N社））＝0
P（上位語句（決算，N社））＝0
概念類似度（決算，N社）
＝2×log（P（上位語句（決算，N社）））／（log（P（決算））＋log（P（N社）））
＝2×log（0／20）／（log（5／20）＋log（4／20））
＝0

また、同じ語句の場合、例えば、語句「決算」と語句「決算」の場合、概念類似度は以下のように求められる。
概念類似度（決算，決算）
＝2×log（P（上位語句（決算，決算）））／（log（P（決算））＋log（P（決算）））
＝2×log（5／20）／（log（5／20）＋log（5／20））
＝1

以上のように、概念類似度計算部12は概念類似度を求める。上述に示す概念類似度は、共通の上位語句またはその下位系列の語句の文書群の中での出現頻度と、2つの語句のそれぞれの文書群の中での出現頻度と、が一致する（上述の例では語句「決算」と語句「決算」）場合に最大（＝1）である。また、概念類似度は、概念木構造に2つの語句の共通の上位語句が存在しない（上の例では語句「決算」と語句「N社」）場合に最小（＝0）である。

文書間類似度計算部13は、入力文書群から抽出した全ての語句ペアの概念類似度の総和平均を基に文書間類似度を求める。具体的には、文書間類似度計算部13は、まず、2文書に出現する文章の語句を語句列に分割する。次に、文書間類似度計算部13は、片方の文書に出現する語句群の概念類似度と、もう一方の文書に出現する語句群同士の任意の組合せについての概念類似度の総和、またはこの総和を語句数で正規化した値を文書間類似度とする。このとき、文書間類似度計算部13は求めた総和を文書内に出現する語句数で重みを付けしてもよい。

例えば、文書間類似度は以下の式を用いて求められる。
文書間類似度（d1，d2）＝ΣΣ（PT（wd1i，d1）×PT（wd2j，d2）×概念類似度（wd1i，wd2j））
PT（w，d）＝TF（w，d）／｜d｜

ここで、d1とd2は対象の2文書を意味し、wd1iとwd2jはそれぞれ文書d1のi番目の語句と文書d2のj番目の語句を意味する。ΣΣはwd1iとwd2jのすべての組合せについての概念類似度の和を求めることを意味する。また、TF（w，d）は文書d内での語句wの出現頻度と意味し、｜d｜は文書dの総語句数、すなわち文書の長さを意味する。したがって、PT（w，d）は、文書内の語句の相対頻度を意味する。

文書間類似度は、2文書それぞれに出現する語句ペアの概念類似度の総和に、各語句の相対頻度の重みを掛け合わせたものである。例えば、文書D1と文書D2の文書間類似度を求める場合について説明する。文書D1と文書D2の出現語句は、それぞれ以下であるとする。
文書D1＝｛N社，決算，発表，10，％，上方，修正，過去，最高，収益｝
文書D2＝｛C社，決算，発表，携帯，電話，提携，D社，好調｝

これらの語句は、文書D1で語句「決算」は2回出現し、それ以外の語句は1回出現したとする。すると、文書の長さは以下の値になり、文書間類似度は以下のように表される。
｜文書D1｜＝11
｜文書D2｜＝8
文書間類似度（文書D1，文書D2）
＝ΣΣ（PT（文書D1i，文書D1）×PT（文書D2j，文書D2）
×概念類似度（文書D1i，文書D2j））
＝PT（N社，文書D1）×PT（C社，文書D2）×概念類似度（N社，C社）
＋PT（N社，文書D1）×PT（決算，文書D2）×概念類似度（N社，決算）
＋PT（N社，文書D1）×PT（発表，文書D2）×概念類似度（N社，発表）
＋・・・
＋PT（収益，文書D1）×PT（好調，文書D2）×概念類似度（収益，好調）

ここで、概念木構造にある語句、すなわち、概念木構造蓄積部11が記憶している語句は、「N社」「C社」「D社」、「最高」、「好調」のみとする。同じ語句同士の概念類似度は1であり、これらの語句と概念木構造にない語句、すなわち、概念木構造蓄積部11が記憶していない語句との概念類似度は0であるので、文書間類似度は以下のように求められる。
文書間類似度（文書D1，文書D2）
＝PT（N社，文書D1）×PT（C社，文書D2）×概念類似度（N社，C社）
＋PT（N社，文書D1）×PT（D社，文書D2）×概念類似度（N社，D社）
＋PT（N社，文書D1）×PT（好調，文書D2）×概念類似度（N社，好調）
＋PT（決算，文書D1）×PT（決算，文書D2）×1
＋PT（発表，文書D1）×PT（発表，文書D2）×1
＋PT（最高，文書D1）×PT（C社，文書D2）×概念類似度（最高，C社）
＋PT（最高，文書D1）×PT（D社，文書D2）×概念類似度（最高，D社）
＋PT（最高，文書D1）×PT（好調，文書D2）×概念類似度（最高，好調）

概念類似度（最高，C社）などの、一般語と固有名詞の組合せの概念類似度は、前述の方法により、0.002nなどの非常に低い値となる。概念類似度（最高，好調）のように一般語同士であっても概念木構造蓄積部11が記憶している概念木構造上近い場合は、概念類似度は0.660などの高い値となる。概念類似度がこのような値であったとすると、文書間類似度は以下のように求められる。
文書間類似度（文書D1，文書D2）
＝1／12×1／8×0.701
＋1／12×1／8×0.660
＋1／12×1／12×0.002
＋2／12×1／8×1
＋1／12×1／8×1
＋1／12×1／8×0.002
＋1／12×1／8×0.002
＋1／12×1／8×0.660
＝0.052

同様に文書D1と文書D3の文書間類似度を求める場合について説明する。文書D3の出現語句が以下であるとすると、文書間類似度は、以下のように求められる。
文書D3＝｛N社，プログラミング言語，発表，S社，共同｝
文書間類似度（文書D1，文書D3）
＝ΣΣ PT（文書D1i，文書D1）×PT（文書D3j，文書D3）
×概念類似度（文書D1i，文書D3j）
＝PT（N社，文書D1）×PT（N社，文書D3）×概念類似度（N社，N社）
＋PT（N社，文書D1）×PT（プログラミング言語，文書D3）×概念類似度（N社，プログラミング言語）
＋PT（N社，文書D1）×PT（発表，文書D3）×概念類似度（N社，発表）
＋・・・
＋PT（収益，文書D1）×PT（共同，文書D3）×概念類似度（収益，好調）
＝PT（N社，文書D1）×PT（N社，文書D3）×1
＋PT（N社，文書D1）×PT（プログラミング言語，文書D3）×概念類似度（N社，プログラミング言語）
＋PT（N社，文書D1）×PT（S社，文書D3）×概念類似度（N社，S社）
＝1／12×1／5×1
＋1／12×1／5×0.04
＋1／12×1／5×0.66
＝0.028

文書D1と文書D2は同業種の決算発表記事であり、文書D1と文書D3は同じ会社の異なる内容の記事である。したがって、文書間類似度は前者の方が高くなる。以上のように文書間類似度計算部13は文書間類似度を求める。

クラスタリング部14は、2文書間の類似度をもとに、凝集法やK-MEANSなどの方法で文書のクラスタリングを行う。類似度は、文書間類似度計算部13によって求められた文書間類似度の2文書間の類似尺度（距離の逆数）とする。クラスタリング部14で文書をクラスタリングすることで、文書間の意味的な距離が近い（文書間類似度が大きい）文書同士は同じクラスタとなる。

例えば、凝集法では、各文書をそれぞれ単一要素のクラスタとし、クラスタリング部14は、クラスタ集合C＝｛C1，・・・，Cn｝を形成する。次に、クラスタリング部14はもっとも類似するクラスタのペアCiとCjを選択する。このとき、CiとCjの類似度を測る手法は、CiとCj内の文書のうち最も類似する文書同士の文書間類似度を用いる最短距離法や、CiとCj内の文書のうち最も類似しない文書同士の文書間類似度を用いる最長距離法などがある。次に、クラスタリング部14は、CiとCjを併合し、新しいクラスタCnewをクラスタ集合に追加し、CiとCjを削除する。クラスタリング部14は、クラスタ集合のクラスタ数が、あらかじめシステムに設定された値と同じになるまで、類似する文書の併合を繰り返す。

また、K-MEANSまたはK-MEDOIDとも呼ばれる方法では、クラスタリング部14は、まずランダムにあらかじめシステムに設定された値K個のデータを無作為に選択し、これを初期クラスタの中心とする。次に、クラスタリング部14は、全ての文書を、もっとも近いクラスタ中心のクラスタに所属させる。次に、クラスタリング部14は、各クラスタからクラスタの中心データを選択し直す。この際、クラスタリング部14は、クラスタ内の全ての文書との文書間類似度の総和が最大となる文書を選択する。さらに、クラスタリング部14は、全ての文書を、もっとも近い、先に選んだクラスタ中心のクラスタに所属させる。クラスタリング部14は、クラスタ中心の更新がなくなるまで、クラスタ中心の更新とクラスタへの所属を繰り返す。

以上説明したような文書クラスタリングシステム100は、図4に示すように動作する。予め、概念木構造蓄積部11は、概念木構造を記憶している。

端末5の入力部51は、文書クラスタリングシステム100のサーバ1へ文書群を入力し、文書クラスタリングシステム100は文書群を受信する（ステップS11）。概念類似度計算部12は、文書群から2つの文書を抽出して文書ペアを選択する（ステップS12）。そして概念類似度計算部12は、それぞれの文書から語句を抽出して語句ペアを選択し（ステップS13）、その2つの語句について概念類似度を求める（ステップS14）。全ての語句のペアについて概念類似度を求めていない場合は（ステップS15；NO）、ステップS13に戻る。

全ての語句のペアについて概念類似度を求め終えると（ステップS15；YES）、文書間類似度計算部13は、求めた概念類似度をもとに、2つの文書について文書間類似度を求める（ステップS16）。全ての文書のペアについて文書間類似度を求めていない場合は（ステップS17；NO）、ステップS12に戻る。

全ての文書のペアについて文書間類似度を求め終えると（ステップS17；YES）、クラスタリング部14は、求めた文書間類似度をもとに、文書をクラスタリングし（ステップS18）、文書クラスタリング処理の動作を終える。

以上説明したように、実施の形態1によれば、文書クラスタリングシステム100は、概念木構造と入力文書における語句の出現頻度を利用し、語句間の意味的な類似を考慮することで、入力文書群を分類することができる。

また、文書クラスタリングシステム100は、概念木構造における語句間の類似度を用いることで、類似性を判定できる。従って、文書クラスタリングシステム100は、語句の文字列が異なっている場合でも文書をクラスタリングすることができる。

（実施の形態2）
以下の説明において、上述の実施の形態と同一の構成要素については、同一の符号を付し、説明を省略する。図5に示すように、実施の形態2に係る文書クラスタリングシステム200のサーバ2は、実施の形態1の構成に加えて、上位概念決定部15を備え、概念木構造蓄積部11は共起パターン蓄積部11aを備える。文書クラスタリングシステム200は、概念木構造にある各語句に対して共起パターンを含めて蓄積し、より共通する上位概念をもとに、文書をクラスタリングする。

共起パターン蓄積部11aは、概念木構造蓄積部11が記憶している概念木構造の、概念中の各語句に対する共起パターンを記憶する。共起パターン蓄積部11aは、概念木構造蓄積部11と同様に、予め共起パターンを記憶しているが、これに限られず、システム動作中に共起パターンを学習しても良い。

上位概念決定部15は、2語句と各語句の文書内での文脈を入力として、共起パターン蓄積部11aが記憶している共起パターンを参照し、2語句の上位語句のうち、文脈中の共起パターンと概念中の共起パターンが同じ上位語句を求め、求めた語句を上位語句とする。

共起パターン蓄積部11aが記憶する共起パターンは、図6に示すように、概念木構造と併せて記憶される。概念木構造蓄積部11が記憶している概念木構造は図2に示す例を想定する。同じ語句であっても、共起する語である共起語の共起度合はそれぞれ異なり、共起度合の数値が大きい方の語句は、上位概念として選択される。

次に、共起パターンを用いて、上位概念決定部15が上位概念を選択する際の動作について説明する。共起パターン蓄積部11aは、概念木構造蓄積部11が記憶している概念木構造の、概念中の各語句に対する共起パターンを記憶する。例えば、共起パターン蓄積部11aは、図6に示す共起パターンを記憶する。ここでは、概念木構造蓄積部11は概念木構造を記憶し、共起パターン蓄積部11aは共起パターンを記憶するが、これに限らず、どちらか一方がまとめて記憶してもよく、概念木構造の語句に共起パターンを関連づけて記憶できれば、データベースの形式などであってもよい。

例えば、図6を参照し、語句「N社」について説明する。図2に示すように、語句「N社」の上位の語句は、「電機メーカー」、「携帯電話メーカー」である。共起パターンは、このそれぞれの上位語句に付与されている。すなわち、語句「電機メーカー」に関連する語句「N社」は、この共起パターンとともに出現することが多い。共起度合の数値が大きさは、その語句との共起することの多さを示している。

上位概念決定部15は、2語句と各語句の文書内での文脈を入力として、共起パターン蓄積部11aが記憶している共起パターンを参照し、2語句の上位語句のうち、文脈中の共起パターンと概念中の共起パターンが同じ上位語句を求め、求めた語句を上位語句とする。例えば、入力するパターンは、語句「N社」と語句「C社」とその文書におけるそれぞれの共起パターンとする。このとき上位概念決定部15は、2語句が、それらの上位語句「電機メーカー」、「上場企業」、「携帯電話メーカー」のうちどの語句に近いかを決定する。なお、上位語句を複数持つ語句は、文書に記述される文脈によって、どの意味で用いられているかが異なる。

例えば、語句「N社」は、携帯電話の発売に関するニュース記事に出現していれば、「携帯電話メーカー」としての意味であるし、株価の記事に出現していれば、「上場企業」としての意味が強く出ていることになる。この上位概念決定部15で求めた上位語句は、概念類似度計算部12で概念類似度を求める際の、共通する上位語句を絞り込むために用いられる。

次に、上位概念決定部15の動作方法ついて具体的に説明する。上位概念決定部15は、語句ペアの上位概念を絞り込む。まず、上位概念決定部15は、端末5の入力部51から受信した入力文書群を参照し、入力された語句ペアの選択文書中での周辺語句を選択する。次に、上位概念決定部15は、共起パターン蓄積部11aが記憶している共起パターンを参照し、先に選択した周辺語句と共通の上位語句の共起パターンを比較する。同じ語句がある場合、上位概念決定部15は、その共起度合をもとに、どの上位語句について書かれた部分かを絞り込む。

例えば、文書D1の語句「N社」と文書D2の語句「C社」が選択されている場合について説明する。まず、上位概念決定部15は、各文書のこれらの出現する位置から、以下のように、特定の距離内にある語句を抽出する。
共起パターン（N社）＝｛決算，発表，10，％，上方，修正，過去，最高，収益｝
共起パターン（C社）＝｛決算，発表，携帯，電話，提携，D社，好調｝

本具体例では文書内の全ての語句を用いるが、これに限られず、出現位置からの距離による限定や、文書の特徴語を用いてもよいし、構文解析を行い係り受け関係にある自立語を用いてもよい。

このとき共通の上位語句は以下の語句である。
上位語句（N社，C社）＝｛電機メーカー，上場企業，携帯電話メーカー｝

上位概念決定部15は、共起パターン蓄積部11aが記憶している共起パターンを参照し、共通の上位語句の共起パターンと先に取得した共起パターンを比較する。さらに、上位概念決定部15は、一致した共起語の度合の平均を求める。なお、1を0で割る場合が選択された場合は、その値は0とする。
上位概念（w1，親）＝1／一致した共起語数×Σ一致した共起語の共起度合
上位概念（N社，電機メーカー）＝1／0×0＝0
上位概念（N社，上場企業）＝1／1×0.2＝0.2
上位概念（N社，携帯電話メーカー）＝1／0×0＝0
上位概念（C社，電機メーカー）＝1／0×0＝0
上位概念（C社，上場企業）＝1／1×0.2＝0.2
上位概念（C社，携帯電話メーカー）＝1／2×（0.5＋0.2）＝0.35

これによって、「N社」と「C社」は、「上場企業」、または、「携帯電話メーカー」の文脈であることが分かる。ただし上述は一例であり、各文脈でどの上位語句について書かれたものであるかを測るには、上位概念決定部15は共起語の頻度に基づく相互情報量と呼ばれる計算量などを用いてもよい。

以上説明したような文書クラスタリングシステム200は、図7に示すように動作する。予め、概念木構造蓄積部11は、概念木構造を記憶し、共起パターン蓄積部11aは、概念中の各語句に対しその共起パターンを記憶している。なお、基本的な文書クラスタリング処理の動作の流れは、実施の形態1と同じである。

端末5の入力部51は、文書クラスタリングシステム200のサーバ2へ文書群を入力し、文書クラスタリングシステム200は文書群を受信する（ステップS11）。概念類似度計算部12は、文書群から2つの文書を抽出して文書ペアを選択する（ステップS12）。そして概念類似度計算部12は、それぞれの文書から語句を抽出して語句ペアを選択する（ステップS13）。

次に、上位概念決定部15は、共起パターン蓄積部11aが記憶している共起パターンを参照し、概念類似度計算部12により選択された語句ペアに対して、上位概念を選択し、共起度合の高い上位概念を絞り込む（ステップS21）。

そして、概念類似度計算部12は、ステップS21で求めた上位概念を用いて、2つの語句について概念類似度を求める（ステップS14）。全ての語句のペアについて概念類似度を求めていない場合は（ステップS15；NO）、ステップS13に戻る。

以上説明したように、実施の形態2によれば、文書クラスタリングシステム200は、概念木構造と入力文書における語句の出現頻度を利用し、語句間の意味的な類似を考慮することで、入力文書群を分類することができる。

また、文書クラスタリングシステム200は、概念木構造にある各語句に対して共起パターンを含めて蓄積するので、より共通する上位概念をもとに、文書をクラスタリングすることができる。

（実施の形態3）
以下の説明において、上述の実施の形態と同一の構成要素については、同一の符号を付し、説明を省略する。図8に示すように、実施の形態3に係る文書クラスタリングシステム300のサーバ3は、実施の形態1の構成に加えて概念構造整理部16を備え、概念木構造蓄積部11は共起パターン蓄積部11aを備える。文書クラスタリングシステム300は、概念木構造にある各語句に対して共起パターンを含めて蓄積し、共起度合が低いと判定した語句、すなわち概念の関連性が高くないと判定した語句を整理し、文書をクラスタリングする。なお、共起パターン蓄積部11aは実施の形態2で説明したものと同じである。

概念構造整理部16は、共起パターン蓄積部11aが記憶している共起パターンを参照し、概念木構造蓄積部11が記憶している概念木構造の、共起度合が低いと判定した語句を削除もしくはマスキングする。文書クラスタリングシステム300は、これらの共起度合が低い、または類似性が低いと判断される語句を省くことで、概念類似度を求めるときの精度が高くなり、より類似した概念を持つように文書をクラスタリングすることができる。

実施の形態3に係る概念木構造蓄積部11が記憶する概念木構造は、図9に示すような概念木構造となる。図9に示す概念木構造は、図2に示すデータと同じであるが、一部の語句について一点鎖線で囲み、かつ、その一点鎖線で囲んだ語句と上位語句および下位語句を結ぶ矢印を一点鎖線で示している。この一点鎖線で囲んだ語句は、共起度合が低いため、概念の類似性を求める際に特に考慮する必要はない語句である。これら語句を省くことで、文書クラスタリングシステム300は概念の類似度を求める際の精度を高めることができる。

次に、概念の関連性が高くないと判定した語句を整理する動作について、説明する。概念構造整理部16は、入力文書群と概念木構造蓄積11が記憶している概念木構造および共起パターン蓄積部11aが記憶している共起パターンを参照し、共起度合が所定の値より低い語句を概念木構造から削除する。

具体的には、概念構造整理部16は、まず概念木構造の各語句について、文書頻度DF（W）を求める。文書頻度DF（W）は実施の形態1と同様、語句Wの下位系列語句が出現する文書数である。次に、概念構造整理部16は、その上位語句が有する他の下位系列語句について、文書頻度DF（W）を求める。このとき、概念構造整理部16は、あらかじめ設定された値よりも文書頻度DF（W）が小さい場合は、その語句を削除する。概念構造整理部16は、概念木構造蓄積部11が記憶している概念木構造の下位系列語句から上位語句へ向けて文書頻度DF（W）を求めることで、概念が類似しない語句を削除する。

以上説明したような文書クラスタリングシステム300は、図10に示すように動作する。予め、概念木構造蓄積部11は、概念木構造を記憶し、共起パターン蓄積部11aは、概念中の各語句に対しその共起パターンを記憶している。なお、基本的な文書クラスタリングの処理の動作の流れは、実施の形態1と同じである。

端末5の入力部51は、文書クラスタリングシステム300のサーバ3へ文書群を入力し、文書クラスタリングシステム300は文書群を受信する（ステップS11）。概念類似度計算部12は、文書群から2つの文書を抽出して文書ペアを選択する（ステップS12）。そして概念類似度計算部12は、それぞれの文書から語句を抽出して語句ペアを選択する（ステップS13）。

次に、概念構造整理部16は、共起パターン蓄積部11aが記憶している共起パターンを参照し、共起度合をもとに、概念木構造を整理する（ステップS31）。このとき、概念構造整理部16は、実施の形態2の、上位概念決定部15による上位概念の決定の処理（図7、ステップS21）を併せて行ってもよい。

そして、概念類似度計算部12は、ステップS31で整理した概念木構造をもとに、2つの語句について概念類似度を求める（ステップS14）。全ての語句のペアについて概念類似度を求めていない場合は（ステップS15；NO）、ステップS13に戻る。

以上説明したように、実施の形態3によれば、文書クラスタリングシステム300は、概念木構造と入力文書における語句の出現頻度を利用し、語句間の意味的な類似を考慮することで、入力文書群を分類することができる。

また、文書クラスタリングシステム300は、概念木構造にある各語句に対して共起パターンを含めて蓄積し、共起度合が低いと判定された語句、すなわち概念の関連性が高くないとされた語句を整理することができるので、より概念が類似した文書をクラスタリングすることができる。

（実施の形態4）
以下の説明において、上述の実施の形態と同一の構成要素については、同一の符号を付し、説明を省略する。図11に示すように、実施の形態4に係る文書クラスタリングシステム400のサーバ4は、実施の形態1の構成のクラスタリング部14の代わりに制約付きクラスタリング部19を備えており、さらに、文書相似度計算部17および制約条件生成部18を備える。文書クラスタリングシステム400は、文書をクラスタリングする際に、条件を付加してクラスタリングを行う。

文書相似度計算部17は、文書群の2つの文書に含まれる語句の出現頻度に基づいて、2つの文書の相似する度合である文書相似度を求める。文書相似度とは、一般の文書クラスタリングで用いられる文書間類似度のことを指す。しかし、本発明では、文書間類似度計算部13で求める全ての語句ペアの概念類似度の総和平均を用いた文書間類似度と区別するために、文書相似度という。なお、文書相似度計算部17は、例えば、形態素解析などの一般的な手法によって文書相似度を求める。

制約条件生成部18は、文書間類似度計算部13で求めた文書間類似度をもとに、制約条件を生成して記憶する。この制約条件は、クラスタリング対象の文書ペアに対し制約を与えた上でクラスタリングを行う際に用いる。このときのクラスタリングの方法を、制約付きクラスタリングともいう。制約条件とは、具体的には、2つの文書が同じクラスタに入るべきか、異なるクラスタに入るべきか、を指示する条件を指す。

上述の制約条件は、例えば、図12に示すような条件で表される。θ1、θ2（θ1＞θ2）の値は、設定した所定の閾値である。mustは、その文書間類似度の文書ペアが同じクラスタに属さなければならないという条件である。cannotは、その文書間類似度の文書ペアが同じクラスタに属してはならないという条件である。mustとcannotはいずれか一方のみが設定される場合がある。

制約付きクラスタリング部19は、文書相似度計算部17が求めた文書相似度を基に、文書のクラスタリングを行う。ただし、制約付きクラスタリング部19は、制約条件生成部18が生成した制約条件を満たすように、文書をクラスタへ編入または除外させる。すなわち、mustの文書間類似度の文書ペアは同じクラスタに編入する。また、cannotの文書間類似度の文書ペアは、それぞれ異なるクラスタに組み入れる。あるいは、少なくとも一方の文書は他方の文書が属するクラスタから除外される。

次に、制約付きクラスタリングの動作について説明する。制約条件生成部18は、文書間類似度計算部13で求めた文書間類似度をもとに、その2文書を同じクラスタに入れるべきか、異なるクラスタに入れるべきか、を示した制約条件を生成する。

例えば、文書間類似度の値αがα＞θ1の場合、図12を参照すると、制約条件はmustとなり、文書ペアは同じクラスタに属する必要がある。また、文書間類似度の値αがα＜θ2の場合、制約条件はcannotとなり、文書ペアは異なるクラスタに属する（または一方がクラスタから除外される）必要がある。mustまたはcannotのいずれか一方の条件のみが設定されている場合、文書ペアは、その条件に従って、クラスタへ編入、または、異なるクラスタへ分離もしくはクラスタから除外される。

上述した例は一例であり、mustおよび／またはcannotの制約条件は任意に設定可能であり、閾値についても任意に設定できる。

以上説明したような文書クラスタリングシステム400は、図13に示すように動作する。予め、概念木構造蓄積部11は、概念木構造を記憶し、制約条件生成部18は、制約条件を生成するために必要なプログラム、mustやcannotの判断基準となる閾値などが設定されている。なお、基本的な文書クラスタリング処理の動作の流れは、実施の形態1と同じである。

端末5の入力部51は、文書クラスタリングシステム400のサーバ4へ文書群を入力し、文書クラスタリングシステム400は文書群を受信する（ステップS11）。概念類似度計算部12は、文書群から2つの文書を抽出して文書ペアを選択する（ステップS12）。そして概念類似度計算部12は、それぞれの文書から語句を抽出して語句ペアを選択し（ステップS13）、その2つの語句について概念類似度を求める（ステップS14）。

全ての語句のペアについて概念類似度を求めていない場合は（ステップS15；NO）、ステップS13に戻る。

全ての語句のペアについて概念類似度を求め終えると（ステップS15；YES）、文書間類似度計算部13は、求めた概念類似度をもとに、2つの文書について文書間類似度を求める（ステップS16）。

次に、文書相似度計算部17は、2つの文書に含まれる語句の出現頻度に基づいて、2つの文書の相似する度合である文書相似度を求める（ステップS41）。

そして、全ての文書のペアについて文書間類似度および文書相似度を求めていない場合は（ステップS17；NO）、ステップS12に戻る。

全ての文書のペアについて文書間類似度および文書相似度を求め終えると（ステップS17；YES）、制約条件生成部18は、文書間類似度をもとに、制約条件の生成を行う（ステップS42）。

そして、制約付きクラスタリング部19は、ステップS41で求めた文書相似度およびステップS42で生成した制約条件をもとに、文書を制約付きでクラスタリングし（ステップS43）、文書クラスタリング処理の動作を終える。

以上説明したように、実施の形態4によれば、文書クラスタリングシステム400は、概念木構造と入力文書における語句の出現頻度を基に、語句間の意味的な類似を考慮することで、入力文書群を分類することができる。すなわち、文書クラスタリングシステム400は、文書をクラスタリングする際に、条件を付加することで、文書の概念に沿って文書をクラスタリングすることができる。

概念的にいうと、文書相似度の空間では、1つのクラスタを構成する（文書相似度が大きい関係の）文書群の中には、文書間類似度の空間では遠い（文書間類似度が小さい）文書ペアが存在する可能性がある。そのような場合、実施の形態4によれば、文書相似度に基づいて生成したクラスタは、2つ以上のクラスタに分離される（または文書がクラスタから除外される）。また、文書相似度に基づいて生成したクラスタの境界付近に孤立する文書は、分離されたクラスタのいずれかに編入される可能性がある。実施の形態4の文書クラスタリングシステム400によれば、文書の概念に即して、より適切に文書をクラスタリングすることができる。

また、さらに、文書クラスタリングシステム400は、制約条件を生成する際に、文書間類似度をもとに自動的に制約条件を生成することができるので、制約条件の生成にかかる手間が不要であり、容易に文書をクラスタリングすることが可能となる。

実施の形態1ないし4の文書クラスタリングシステム100、200、300、400は一例であり、これに限られず、上位概念決定部15と概念構造整理部16を組み合わせて構成しても良く、上位概念決定部15と文書相似度計算部17と制約条件生成部18および制約付きクラスタリング部19とを組み合わせて構成するなどして、システムを構成しても良い。また、実施の形態1ないし4の文書クラスタリングシステム100、200、300、400は、概念木構造蓄積部11に共起パターン蓄積部11aを構成した例を挙げているが、後述する記憶部にデータベースの形式で概念木構造および共起パターンを蓄積するなど、任意に設定可能である。

さらに、文書クラスタリングシステム100、200、300、400は、概念を表す概念構造は概念木構造に限らず、任意に設定することができる。その他、概念類似度の求め方、文書間類似度の求め方、文書相似度の求め方や、制約条件の設定および生成方法についても、上述した例に限らず、任意に設定可能である。

次に、文書クラスタリングシステム100、200、300、400のハードウエア構成の一例について説明する。文書クラスタリングシステム100、200、300、400を構成するサーバ1、2、3、4および端末5は、それぞれ図14に示すように、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37を備える。主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37はいずれも内部バス30を介して制御部31に接続されている。

制御部31はCPU（Central Processing Unit）等から構成され、外部記憶部33に記憶されている制御プログラム40に従って、上述の概念木構造蓄積部11、共起パターン蓄積部11a、概念類似度計算部12、文書間類似度計算部13、クラスタリング部14、上位概念決定部15、概念構造整理部16、文書相似度計算部17、制約条件生成部18および制約付きクラスタリング部19などの各処理を実行する。

主記憶部32はRAM（Random-Access Memory）等から構成され、外部記憶部33に記憶されている制御プログラム40をロードし、さらに制御部31の作業領域としても用いられる。

外部記憶部33は、フラッシュメモリ、ハードディスク、DVD-RAM（Digital Versatile Disc Random-Access Memory）、DVD-RW（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、上述の各処理を制御部31に行わせるためのプログラムを予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。

上述の概念木構造蓄積部11および共起パターン蓄積部11aは、外部記憶部33に構成される。また、概念木構造蓄積部11および共起パターン蓄積部11aが外部記憶部33に構成される場合もある。

操作部34はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス30に接続するインタフェース装置から構成されている。操作部34は、ユーザの指示等を処理する機能を備え、ユーザの操作等によって入力されたデータを制御部31に供給する。

表示部35は、LCD（Liquid Crystal Display）または有機EL（Electro Luminescence）などから構成され、操作履歴情報などを表示する。

入出力部36は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部36は、端末5が附属する装置の場合は、それと接続する。

送受信部37は、ネットワークNに接続する網終端装置または無線通信装置と、それに接続するシリアルインタフェースまたはLAN（Local Area Network）インタフェースから構成されている。送受信部37は、ネットワークNを介して、クラスタリングを行う対象の文書群などを受信し、クラスタリングした結果などを送信する。端末5が、サーバとは別の端末装置の場合は、サーバ1、2、3、4は、例えば、送受信部37を介して、ネットワークNを経由して、端末5に接続する。

上述の概念木構造蓄積部11、共起パターン蓄積部11a、概念類似度計算部12、文書間類似度計算部13、クラスタリング部14、上位概念決定部15、概念構造整理部16、文書相似度計算部17、制約条件生成部18および制約付きクラスタリング部19などの処理は、制御プログラム40が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37などを資源として用いて処理することによって実行される。

すなわち、制御プログラム40は、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37などを資源として用いて、複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、文書の集合である文書群を取得する文書群取得ステップと、前記文書群取得ステップが取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、を実行させる。

その他、上記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。

概念木構造蓄積部11、共起パターン蓄積部11a、概念類似度計算部12、文書間類似度計算部13、クラスタリング部14、上位概念決定部15、概念構造整理部16、文書相似度計算部17、制約条件生成部18および制約付きクラスタリング部19などから構成される文書クラスタリング処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、CD-ROM、DVD-ROM等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、上記の処理を実行するサーバ1、2、3、4および端末5を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでサーバ1、2、3、4および端末5を構成してもよい。

また、サーバ1、2、3、4および端末5を、OS（オペレーティングシステム）とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板(BBS：Bulletin Board System)に上記コンピュータプログラムを掲示し、ネットワークを介して上記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

また、本発明は、本発明の広義の趣旨と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。つまり、本発明の範囲は、実施形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。

上記実施形態の一部又は全ては、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得手段と、
文書の集合である文書群を取得する文書群取得手段と、
前記文書群取得手段が取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算手段と、
前記概念類似度計算手段が求めた前記概念類似度を基に、前記文書群取得手段が取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算手段と、
前記文書間類似度計算手段が求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリング手段と、
を備えることを特徴とする文書クラスタリングシステム。

（付記２）
前記概念類似度計算手段は、前記文書群取得手段が取得した前記文書群が有する任意の2つの語句について、前記概念木構造取得手段が取得した前記概念木構造における前記2つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記2つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記2つの語句の共通の上位語句が存在しない場合に最小であるような前記概念類似度を求める、ことを特徴とする付記1に記載の文書クラスタリングシステム。

（付記３）
前記概念類似度計算手段は、前記概念木構造において2つの語句に共通する上位語句またはその下位系列の語句の前記文書群の中の出現頻度に対する、前記2つの語句それぞれの前記文書群の中の出現頻度の割合、または情報量を基に、前記概念類似度を求める、ことを特徴とする付記1又は2に記載の文書クラスタリングシステム。

（付記４）
前記概念類似度計算手段は、語句の前記文書群の中での出現頻度を、前記文書群において前記語句が出現する文書の数または前記文書群に含まれる文書の数に対する、前記語句の出現する文書の数の割合、前記文書群で前記語句の出現する回数である語句頻度または前記文書群に含まれる文の数に対する、語句の出現する文の数の割合で求める、ことを特徴とする付記3に記載の文書クラスタリングシステム。

（付記５）
前記文書間類似度計算手段は、前記2つの文書それぞれを1または2以上の語句に分割し、一方の文書に出現する語句と他方の文書に出現する語句同士の任意の組合せの概念類似度の総和、各概念類似度に文書内に出現する語句数で重みをつけて合計した値、または、概念類似度の総和を前記文書に出現する語句の数で正規化した値、を文書間類似度とする、ことを特徴とする付記1ないし4のいずれか1項に記載の文書クラスタリングシステム。

（付記６）
前記概念木構造取得手段が取得した前記概念木構造の語句に共起する語句と共起度を含む共起パターンを取得する共起パターン取得手段と、
前記2つの語句の共通の上位語句のうち、前記2つの語句それぞれを含む各文書内の所定の範囲の語句と前記共通の上位語句の前記共起パターン取得手段が取得した前記共起パターンの語句の一致する数が最大である文脈適合上位語句を選択する上位概念決定手段と、をさらに備え、
前記概念類似度計算手段は、前記2つの語句の共通の上位語句のうち前記上位概念決定手段で選択した文脈適合上位語句を基に、前記概念類似度を求める、ことを特徴とする付記1ないし5のいずれか1項に記載の文書クラスタリングシステム。

（付記７）
前記上位概念決定手段は、前記文書群を参照して2語句の周辺語句を選択し、前記共起パターンを参照して前記周辺語句の上位語句の共起パターンを比較し、一致した共起語の度合いの平均を求めて前記文脈適合上位語句を選択する、ことを特徴とする付記6に記載の文書クラスタリングシステム。

（付記８）
前記概念木構造取得手段が取得した前記概念木構造の語句が、前記文書群取得手段が取得した前記文書群に出現する頻度に基づいて、前記概念類似度計算手段の前記概念類似度の計数への寄与が所定の値以下の上位下位関係である部分概念木構造を前記概念木構造取得手段が取得した前記概念木構造から除外する概念木構造整理手段をさらに備え、
前記概念類似度計算手段は、前記概念木構造整理手段で除外した部分概念木構造を除外して、前記概念類似度を求める、ことを特徴とする付記1ないし7のいずれか1項に記載の文書クラスタリングシステム。

（付記９）
前記概念木構造整理手段は、前記概念木構造の語句が前記文書群に出現する頻度に基づいて、ある上位語句の直下の下位語句のうち、前記文書群に出現する語句に比べ出現しない語句が多い下位語句を有する上位語句の上位下位関係を削除する、ことを特徴とする付記8に記載の文書クラスタリングシステム。

（付記１０）
前記文書群取得手段が取得した前記文書群の2つの文書に含まれる語句の出現頻度に基づいて、該2つの文書の相似する度合である文書相似度を求める文書相似度計算手段をさらに備え、
前記クラスタリング手段は、前記文書間類似度計算手段が求めた文書間類似度に基づいて、所定の閾値以上の前記文書間類似度を有する前記2つの文書に対して同じクラスタに入れるべき制約、または、所定の閾値以下の前記文書間類似度を有する前記2つの文書に対して同じクラスタに入れてはならない制約、の少なくとも一方を指示する制約条件を生成し、前記文書相似度計算手段が求めた前記文書相似度を基に前記文書群の文書をクラスタリングしながら前記制約条件を満たすクラスタを生成する、ことを特徴とする付記1ないし9のいずれか1項に記載の文書クラスタリングシステム。

（付記１１）
前記クラスタリング手段は、2文書間の類似度を基に、凝集法またはK-MEANSの方法によってクラスタリングを行う、ことを特徴とする付記1ないし10いずれか1項に記載の文書クラスタリングシステム。

（付記１２）
前記クラスタリング手段において、前記類似度は、前記文書間類似度をその2文書間の類似尺度（距離の逆数）である、ことを特徴とする付記11に記載の文書クラスタリングシステム。

（付記１３）
前記概念木構造は、DAG構造である、ことを特徴とする付記1ないし12のいずれか1項に記載の文書クラスタリングシステム。

（付記１４）
前記概念類似度計算手段は、加算スムージング法を基に、文書頻度及び語句頻度を補正する、ことを特徴とする付記1ないし13のいずれか1項に記載の文書クラスタリングシステム。

（付記１５）
前記上位概念決定手段は、語句の出現位置からの距離による限定、文書の特徴語、または構文解析による係り受け関係にある自立語、を基に前記周辺語句を求める、ことを特徴とする付記7に記載の文書クラスタリングシステム。

（付記１６）
前記上位概念決定手段は、共起語の出現頻度に基づく相互情報量を基に、前記周辺語句の上位語句を求める、ことを特徴とする付記7に記載の文書クラスタリングシステム。

（付記１７）
前記文書群取得手段は、ネットワークを介して接続する外部端末装置から、ネットワークを介して前記文書群を取得する、ことを特徴とする付記1ないし16のいずれか1項に記載の文書クラスタリングシステム。

（付記１８）
複数の文書の集合を文書のクラスタに分類するクラスタリングシステムが行う文書クラスタリング方法であって、
複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を備えることを特徴とする文書クラスタリング方法。

（付記１９）
コンピュータに、
複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な記録媒体。

なお、本出願は、２００９年１２月２２日に出願された、日本国特許出願２００９−２９０９５６号に基づく。本明細書中に日本国特許出願２００９−２９０９５６号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。

本発明によれば、論文の分類整理システムや、文書検索システムにおける検索結果の分類表示といった用途にも適用可能である。

1、2、3、4 サーバ
5 端末
11 概念木構造蓄積部
11a 共起パターン蓄積部
12 概念類似度計算部
13 文書間類似度計算部
14 クラスタリング部
15 上位概念決定部
16 概念構造整理部
17 文書相似度計算部
18 制約条件生成部
19 制約付きクラスタリング部
51 入力部
52 出力部
31 制御部
32 主記憶部
33 外部記憶部
34 操作部
35 表示部
36 入出力部
37 送受信部
40 制御プログラム
100、200、300、400 文書クラスタリングシステム

Claims

文書の集合である文書群を取得する文書群取得手段と、
前記文書群取得手段が取得した前記文書群に含まれる２つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という２つの語句同士の任意の組合せについて、前記２つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得手段と、
前記任意の組合せについて、前記概念木構造取得手段が取得した前記概念木構造における前記２つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記２つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記２つの語句の共通の上位語句が存在しない場合に最小であるような、前記２つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算手段と、
前記概念類似度計算手段が求めた前記概念類似度を基に、前記文書群取得手段が取得した前記文書群に含まれる２つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算手段と、
前記文書間類似度計算手段が求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリング手段と、
を備えることを特徴とする文書クラスタリングシステム。
前記概念類似度計算手段は、前記概念木構造において２つの語句に共通する上位語句またはその下位系列の語句の前記文書群の中の出現頻度に対する、前記２つの語句それぞれの前記文書群の中の出現頻度の割合、または情報量を基に、前記概念類似度を求める、ことを特徴とする請求項１に記載の文書クラスタリングシステム。
前記概念類似度計算手段は、語句の前記文書群の中での出現頻度を、前記文書群において前記語句が出現する文書の数または前記文書群に含まれる文書の数に対する、前記語句の出現する文書の数の割合、前記文書群で前記語句の出現する回数である語句頻度または前記文書群に含まれる文の数に対する、語句の出現する文の数の割合で求める、ことを特徴とする請求項２に記載の文書クラスタリングシステム。
前記文書間類似度計算手段は、前記２つの文書それぞれを１または２以上の語句に分割し、一方の文書に出現する語句と他方の文書に出現する語句同士の任意の組合せの概念類似度の総和、各概念類似度に文書内に出現する語句数で重みをつけて合計した値、または、概念類似度の総和を前記文書に出現する語句の数で正規化した値、を文書間類似度とする、ことを特徴とする請求項１ないし３のいずれか１項に記載の文書クラスタリングシステム。
前記概念木構造取得手段が取得した前記概念木構造の語句に共起する語句と共起度を含む共起パターンを取得する共起パターン取得手段と、
前記２つの語句の共通の上位語句のうち、前記２つの語句それぞれを含む各文書内の所定の範囲の語句と前記共通の上位語句の前記共起パターン取得手段が取得した前記共起パターンの語句の一致する数が最大である文脈適合上位語句を選択する上位概念決定手段と、をさらに備え、
前記概念類似度計算手段は、前記２つの語句の共通の上位語句のうち前記上位概念決定手段で選択した文脈適合上位語句を基に、前記概念類似度を求める、ことを特徴とする請求項１ないし４のいずれか１項に記載の文書クラスタリングシステム。
前記上位概念決定手段は、前記文書群を参照して２語句の周辺語句を選択し、前記共起パターンを参照して前記周辺語句の上位語句の共起パターンを比較し、一致した共起語の度合いの平均を求めて前記文脈適合上位語句を選択する、ことを特徴とする請求項５に記載の文書クラスタリングシステム。
前記概念木構造取得手段が取得した前記概念木構造の語句が、前記文書群取得手段が取得した前記文書群に出現する頻度に基づいて、前記概念類似度計算手段の前記概念類似度の計数への寄与が所定の値以下の上位下位関係である部分概念木構造を前記概念木構造取得手段が取得した前記概念木構造から除外する概念木構造整理手段をさらに備え、
前記概念類似度計算手段は、前記概念木構造整理手段で除外した部分概念木構造を除外して、前記概念類似度を求める、ことを特徴とする請求項１ないし６のいずれか１項に記載の文書クラスタリングシステム。
前記概念木構造整理手段は、前記概念木構造の語句が前記文書群に出現する頻度に基づいて、ある上位語句の直下の下位語句のうち、前記文書群に出現する語句に比べ出現しない語句が多い下位語句を有する上位語句の上位下位関係を削除する、ことを特徴とする請求項７に記載の文書クラスタリングシステム。
前記文書群取得手段が取得した前記文書群の２つの文書に含まれる語句の出現頻度に基づいて、該２つの文書の相似する度合である文書相似度を求める文書相似度計算手段をさらに備え、
前記クラスタリング手段は、前記文書間類似度計算手段が求めた文書間類似度に基づいて、所定の閾値以上の前記文書間類似度を有する前記２つの文書に対して同じクラスタに入れるべき制約、または、所定の閾値以下の前記文書間類似度を有する前記２つの文書に対して同じクラスタに入れてはならない制約、の少なくとも一方を指示する制約条件を生成し、前記文書相似度計算手段が求めた前記文書相似度を基に前記文書群の文書をクラスタリングしながら前記制約条件を満たすクラスタを生成する、ことを特徴とする請求項１ないし８のいずれか１項に記載の文書クラスタリングシステム。
前記クラスタリング手段は、前記文書間類似度を基に、凝集法またはK-MEANSの方法によってクラスタリングを行う、ことを特徴とする請求項１ないし９のいずれか１項に記載の文書クラスタリングシステム。
前記クラスタリング手段において、前記文書間類似度は、その２文書間の類似尺度（文書間の意味的な距離の逆数）である、ことを特徴とする請求項１０に記載の文書クラスタリングシステム。
前記概念木構造は、DAG構造である、ことを特徴とする請求項１ないし１１のいずれか１項に記載の文書クラスタリングシステム。
前記概念類似度計算手段は、加算スムージング法を基に、文書頻度及び語句頻度を補正する、ことを特徴とする請求項１ないし１２のいずれか１項に記載の文書クラスタリングシステム。
前記上位概念決定手段は、語句の出現位置からの距離による限定、文書の特徴語、または構文解析による係り受け関係にある自立語、を基に前記周辺語句を求める、ことを特徴とする請求項６に記載の文書クラスタリングシステム。
前記上位概念決定手段は、共起語の出現頻度に基づく相互情報量を基に、前記周辺語句の上位語句を求める、ことを特徴とする請求項６に記載の文書クラスタリングシステム。
前記文書群取得手段は、ネットワークを介して接続する外部端末装置から、ネットワークを介して前記文書群を取得する、ことを特徴とする請求項１ないし１５のいずれか１項に記載の文書クラスタリングシステム。
複数の文書の集合を文書のクラスタに分類するクラスタリングシステムが行う文書クラスタリング方法であって、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群に含まれる２つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という２つの語句同士の任意の組合せについて、前記２つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
前記任意の組合せについて、前記概念木構造取得ステップで取得した前記概念木構造における前記２つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記２つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記２つの語句の共通の上位語句が存在しない場合に最小であるような、前記２つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる２つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を備えることを特徴とする文書クラスタリング方法。
コンピュータに、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群に含まれる２つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という２つの語句同士の任意の組合せについて、前記２つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
前記任意の組合せについて、前記概念木構造取得ステップで取得した前記概念木構造における前記２つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記２つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記２つの語句の共通の上位語句が存在しない場合に最小であるような、前記２つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる２つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を実行させることを特徴とするプログラム。