JP4906123B2

JP4906123B2 - 文書分類装置、文書分類方法、プログラム及び記録媒体

Info

Publication number: JP4906123B2
Application number: JP2008187335A
Authority: JP
Inventors: 克人別所; 俊郎内山; 匡内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-07-18
Filing date: 2008-07-18
Publication date: 2012-03-28
Anticipated expiration: 2028-07-18
Also published as: JP2010026782A

Description

本発明は、文書を、所定のカテゴリ集合のうちのいずれかのカテゴリに分類するための文書分類装置及び方法及びプログラム及びプログラムを記録した記録媒体に関する。

文書を、所定のカテゴリ集合のうちのいずれかのカテゴリに分類する文書分類の技術として、たとえば非特許文献１の手法がある。

この手法では、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを利用する。また、各カテゴリには、該カテゴリに該当する文書の集合が対応付けられているものとする。

各カテゴリに対し、該カテゴリの各文書の文書ベクトルを、該文書内の単語の、単語概念ベースから取得した単語ベクトルの重心として算出する。

次に、該カテゴリに対し、該カテゴリ内の各文書の文書ベクトルの重心を、該カテゴリのカテゴリベクトルとして取得する。

文書が入力されると、該入力文書の入力文書ベクトルを、該入力文書内の単語の、単語概念ベースから取得した単語ベクトルの重心として算出する。

各カテゴリに対し、該カテゴリのカテゴリベクトルと入力文書ベクトルとの距離または類似度を求め、距離の昇順、または、類似度の降順に、カテゴリ集合をソートし、上位にランクされたカテゴリを、分類結果とする。
別所克人、内山俊郎、片岡良治著「単語間の階層関係に基づくテキスト分類方式」信学技報、Vol.PRMU2007-15、pp79-84、２００７年５月

上記従来技術において、１つのカテゴリにおいて、その文書集合に、複数の話題が混在している場合がある。このような場合、該カテゴリ内の文書ベクトルの集合は、いくつかのクラスタから形成され、各クラスタが１つの話題に対応している。このような状況において、文書ベクトルの重心が、各クラスタから不当に遠くなり、その結果、分類時に、該カテゴリのあるクラスタに相当する入力文書が、該重心ベクトルから遠く、反対に別のカテゴリのカテゴリベクトルと近くなり、誤った分類をするという問題があった。

本発明は、この課題を解決するために考え出されたものであり、本発明の目的は、文書を、所定のカテゴリ集合のうちのいずれかのカテゴリに分類するタスクの精度を向上させるための文書分類装置、文書分類方法、プログラム及び記録媒体を提供することにある。

本発明は、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する文書ベクトル取得手段と、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得する文書クラスタリング手段と、該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得するサブカテゴリベクトル取得手段とを有し、文書が入力されると、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する入力文書ベクトル取得手段と、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として出力する関連度算出手段とをさらに併せ持つことを特徴とする文書分類装置である。

図１は、上記で述べた各カテゴリ毎に、その文書ベクトルの集合をクラスタリングして、得られた各クラスタをサブカテゴリとし、サブカテゴリ内の重心ベクトルをサブカテゴリベクトルとするという請求項１の処理内容と、入力文書が与えられたとき、その入力文書ベクトルと、各サブカテゴリベクトルとの関連度を算出するという請求項２の処理内容を表したものである。

本発明では、各カテゴリの文書集合をクラスタリングするため、該カテゴリの文書ベクトル集合は、話題毎にクラスタを形成する。このクラスタがサブカテゴリに相当する。分類時に、入力文書の内容が、あるカテゴリＡのあるクラスタの話題に該当する場合、入力文書ベクトルは該クラスタの範囲に位置するため、該クラスタの重心ベクトルとの距離が、該クラスタとは別の、任意のカテゴリの任意のクラスタの重心ベクトルとの距離よりも近くなる。この結果、カテゴリ集合の中で、カテゴリＡとの距離が最も近くなり、分類精度が向上する。

発明を実施するための最良の形態は、以下の実施例である。

図２は、本発明の請求項１及び２の実施例における文書分類装置の構成例を示す。請求項１は、文書ベクトル取得手段（２．１）、文書クラスタリング手段（２．２）、サブカテゴリベクトル取得手段（２．３）、単語概念ベース（２．６）から構成され、請求項２は、それに入力文書ベクトル取得手段（２．４）、関連度算出手段（２．５）を加えて構成される。

単語概念ベース（２．６）は、単語とその意味表現である単語ベクトルの対の集合からなる。

図３は、単語概念ベース（２．６）の例を示す図であり、各単語には、ｄ次元の単語ベクトルが対応付けられている。単語概念ベース（２．６）では、意味の近い単語の単語ベクトルは距離が近くなるように、各単語に単語ベクトルが対応付けられている。単語をキーとして単語概念ベース（２．６）を検索することにより、該単語の単語ベクトルを取得することができる。

単語概念ベースの例としては、特開平６−１０３３１５号公報の「類似性判別装置」や、特開平７−３０２２６５号公報の「類似性判別用データ精錬方法およびこの方法を実施する装置」で開示されているデータベースがある。

また、Deerwesterの論文（S.Deerwester, S.T.Dumais, G.W.Furnas, T.K.Landauer and R.Harshman, Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp.391-407, 1990.）では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutzeの論文（H.Schutze, Dimensions of Meaning, Proc. of Supercomputing '92, pp.786-796, 1992.）では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。

図４は、請求項１の処理のフローチャートの一例を示したものである。文書ベクトル取得手段（２．１）はステップ（４．１）、（４．２）、（４．３）から構成され、文書クラスタリング手段（２．２）はステップ（４．１）、（４．４）から構成され、サブカテゴリベクトル取得手段（２．３）はステップ（４．１）、（４．５）、（４．６）から構成される。

つまり、文書ベクトル取得手段（２．１）は、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得手段の例である。

文書クラスタリング手段（２．２）は、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング手段の例である。

サブカテゴリベクトル取得手段（２．３）は、該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得手段の例である。

｛Ｃ_ｐ｜１≦ｐ≦ｈ｝を、入力となるカテゴリの集合とする。各Ｃ_ｐに対応付けられた文書集合を、｛Ｋ_ｐｕ｜１≦ｕ≦ｎ_ｐ｝とする。

ステップ（４．１）：処理対象のＣ_ｐを決定する。処理対象のＣ_ｐがあれば、ステップ（４．２）に移行し、なければ、本フローチャートを終了する。

ステップ（４．２）：Ｃ_ｐの文書で、処理対象となる文書Ｋ_ｐｕを決定する。処理対象のＫ_ｐｕがあれば、ステップ（４．３）に移行し、なければ、ステップ（４．４）に移行する。

ステップ（４．３）：文書Ｋ_ｐｕを形態素解析し、Ｋ_ｐｕを以下のような必要語（名詞、動詞、形容詞等の、本発明の処理に必要な単語）の終止形の異なりＸ_ｐｕｇと、Ｘ_ｐｕｇのＫ_ｐｕ内での出現頻度ＴＦ_ｐｕｇの組の集合で表す。

Ｋ_ｐｕ；｛Ｘ_ｐｕｇ：ＴＦ_ｐｕｇ｜１≦ｇ≦ｔ_ｐｕ｝
上記で、ＴＦ_ｐｕｇの代わりに、以下の式で表されるＸ_ｐｕｇのＴＦＩＤＦ_ｐｕｇを用いて、以降の処理を行ってもよい。

ここで、ＤＮは、あるコーパスにおける文書数であり、ＯＮ_ｐｕｇは、Ｘ_ｐｕｇの該コーパスにおける出現文書数である。ＴＦＩＤＦ_ｐｕｇが存在しない場合は、ＴＦＩＤＦ_ｐｕｇ＝０とする。

各Ｘ_ｐｕｇで単語概念ベース（２．６）を検索することにより、Ｘ_ｐｕｇの単語ベクトルｖ（Ｘ_ｐｕｇ）を取得し、以下の式のようにｖ（Ｘ_ｐｕｇ）の重心として、Ｋ_ｐｕの文書ベクトルｖ（Ｋ_ｐｕ）を算出する。

また、上記式の右辺を長さ１に正規化したベクトルを、Ｋ_ｐｕの文書ベクトルｖ（Ｋ_ｐｕ）としてもよい。

ステップ（４．３）の処理が終了すれば、ステップ（４．２）に移行する。

ステップ（４．４）：文書ベクトルｖ（Ｋ_ｐｕ）（１≦ｕ≦ｎ_ｐ）の集合（ベクトルが同一でもｕが異なれば別物とする）をクラスタリングする。クラスタリングアルゴリズムとしては、例として、ウォード法やＫ−ｍｅａｎｓ法等がある。以下では、ウォード法でクラスタリングする場合の処理内容を述べる。

［ウォード法］
クラスタリングの終了条件として、（Ａ）：クラスタ数Ｎ_０、（Ｂ）：距離の閾値ｄ_０のいずれかを定めておく。

＜ｓｔｅｐ１＞：各ｖ（Ｋ_ｐｕ）をクラスタとする。各ｖ（Ｋ_ｐｕ）について

とする。上記で、Ｇ_ｉはクラスタ、ｄ（Ｇ_ｉ，Ｇ_ｊ）は、Ｇ_ｉ、Ｇ_ｊ間のクラスタ間距離、Ｎはクラスタ数である。

クラスタ集合を

とする。

＜ｓｔｅｐ２＞：終了条件が（Ａ）で、かつ、Ｎ≦Ｎ_０ならば、処理を終了する。

Ｎ＝１ならば、処理を終了する。

クラスタ間距離が最小となるクラスタ対を探す。

終了条件が（Ｂ）で、かつ、ｄ（Ｇ_ｑ，Ｇ_ｒ）＞ｄ_０ならば、処理を終了する。

Ｇ_ｑとＧ_ｒをＥから取り除き、Ｇ’＝Ｇ_ｑ∪Ｇ_ｒをＥに追加する。

Ｎ：＝Ｎ−１とクラスタの数を１つ減らす。

＜ｓｔｅｐ３＞：全てのＧ_ｉ∈Ｅ、Ｇ_ｉ≠Ｇ’についてクラスタ間距離ｄ（Ｇ’，Ｇ_ｉ）を以下の式により算出する。

ｓｔｅｐ２に移行する。

以上の処理により、文書ベクトルｖ（Ｋ_ｐｕ）（またはｖ（Ｋ_ｐｕ）に対応する文書Ｋ_ｐｕ）のクラスタの集合｛Ｓ_ｐｑ｜１≦ｑ≦ｍ_ｐ｝が得られる。各Ｓ_ｐｑをＣ_ｐのサブカテゴリと呼ぶ。

ステップ（４．４）の処理が終了すれば、ステップ（４．５）に移行する。

ステップ（４．５）：処理対象となるサブカテゴリＳ_ｐｑを決定する。処理対象のＳ_ｐｑがあれば、ステップ（４．６）に移行し、なければステップ（４．１）に移行する。

ステップ（４．６）：Ｓ_ｐｑに属する文書集合を｛Ｄ_ｐｑｒ｜１≦ｒ≦ｌ_ｐｑ｝とする。以下の式のように文書Ｄ_ｐｑｒの文書ベクトルｖ（Ｄ_ｐｑｒ）の重心として、Ｓ_ｐｑのカテゴリベクトルｖ（Ｓ_ｐｑ）を算出する。

また、上記式の右辺を長さ１に正規化したベクトルを、Ｓ_ｐｑのカテゴリベクトルｖ（Ｓ_ｐｑ）としてもよい。

ステップ（４．６）の処理が終了すれば、ステップ（４．５）に移行する。

図５は、請求項２の処理のフローチャートの一例を示したものである。入力文書ベクトル取得手段（２．４）はステップ（５．１）から構成され、関連度算出手段（２．５）は、ステップ（５．２）、（５．３）、（５．４）、（５．５）から構成される。本フローチャートでは、さらにステップ（５．６）を追加している。

つまり、入力文書ベクトル取得手段（２．４）は、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得手段の例である。

関連度算出手段（２．５）は、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出手段の例である。

ステップ（５．１）：入力文書Ｌを形態素解析し、Ｌを以下のような必要語の終止形の異なりＷ_Ｌｆと、Ｗ_ＬｆのＬ内での出現頻度ＴＦ_Ｌｆの組の集合で表す。

Ｌ；｛Ｗ_Ｌｆ：ＴＦ_Ｌｆ｜１≦ｆ≦ａ_Ｌ｝
上記で、ＴＦ_Ｌｆの代わりに、以下の式で表されるＷ_ＬｆのＴＦＩＤＦ_Ｌｆを用いて、以降の処理を行ってもよい。

ここで、ＤＮは、あるコーパスにおける文書数であり、ＯＮ_Ｌｆは、Ｗ_Ｌｆの該コーパスにおける出現文書数である。ＴＦＩＤＦ_Ｌｆが存在しない場合は、ＴＦＩＤＦ_Ｌｆ＝０とする。

各Ｗ_Ｌｆで単語概念ベース（２．６）を検索することにより、Ｗ_Ｌｆの単語ベクトルｖ（Ｗ_Ｌｆ）を取得し、以下の式のようにｖ（Ｗ_Ｌｆ）の重心として、Ｌの文書ベクトルｖ（Ｌ）を算出する。

また、上記式の右辺を長さ１に正規化したベクトルを、Ｌの文書ベクトルｖ（Ｌ)としてもよい。

ステップ（５．１）の処理が終了すれば、ステップ（５．２）に移行する。

ステップ（５．２）：処理対象のＣ_ｐを決定する。処理対象のＣ_ｐがあれば、ステップ（５．３）に移行し、なければ、ステップ（５．６）に移行する。

ステップ（５．３）：Ｃ_ｐのサブカテゴリで、処理対象となるサブカテゴリＳ_ｐｑを決定する。処理対象のＳ_ｐｑがあれば、ステップ（５．４）に移行し、なければ、ステップ（５．２）に移行する。

ステップ（５．４）：ＬとＳ_ｐｑとの関連度を算出する。

関連度が距離ならば、関連度を
ｄ（Ｌ，Ｓ_ｐｑ）：‖ｖ（Ｌ）−ｖ（Ｓ_ｐｑ）‖
として算出する。

関連度が類似度ならば、関連度を
ｓ（Ｌ，Ｓ_ｐｑ）：＝（ｖ（Ｌ）・ｖ（Ｓ_ｐｑ））／（‖ｖ（Ｌ）‖・‖ｖ（Ｓ_ｐｑ）‖）
として算出する。上式の右辺の分子は、ｖ（Ｌ）、ｖ（Ｓ_ｐｑ）の内積である。

ステップ（５．４）の処理が終了すれば、ステップ（５．５）に移行する。

ステップ（５．５）：ＬとＣ_ｐとの関連度を算出、更新する。

関連度が距離ならば、ＬとＣ_ｐとの関連度ｄ（Ｌ，Ｃ_ｐ）を、以下のように算出、更新する。ステップ（５．５）に初めて入った場合は、ｄ（Ｌ，Ｓ_ｐｑ）をｄ（Ｌ，Ｃ_ｐ）とする。ステップ（５．５）に２回目以降に入った場合は、既に算出済みのｄ（Ｌ，Ｃ_ｐ）について、ｄ（Ｌ，Ｓ_ｐｑ）＜ｄ（Ｌ，Ｃ_ｐ）であるならば、ｄ（Ｌ，Ｃ_ｐ）をｄ（Ｌ，Ｓ_ｐｑ）で更新する。

関連度が類似度ならば、ＬとＣ_ｐとの関連度ｓ（Ｌ，Ｃ_ｐ）を、以下のように算出、更新する。ステップ（５．５）に初めて入った場合は、ｓ（Ｌ，Ｓ_ｐｑ）をｓ（Ｌ，Ｃ_ｐ）とする。ステップ（５．５）に２回目以降に入った場合は、既に算出済みのｓ（Ｌ，Ｃ_ｐ）について、ｓ（Ｌ，Ｓ_ｐｑ）＞ｓ（Ｌ，Ｃ_ｐ）であるならば、ｓ（Ｌ，Ｃ_ｐ）をｓ（Ｌ，Ｓ_ｐｑ）で更新する。

ステップ（５．５）の処理が終了すれば、ステップ（５．３）に移行する。

ステップ（５．６）：カテゴリ集合｛Ｃ_ｐ｜１≦ｐ≦ｈ｝を、Ｌと各カテゴリＣ_ｐとの関連度の高い順にソートする。

関連度が距離ならば、ｄ（Ｌ，Ｃ_ｐ）の小さい順にＣ_ｐをソートする。

関連度が類似度ならば、ｓ（Ｌ，Ｃ_ｐ）の大きい順にＣ_ｐをソートする。

ステップ（５．６）の処理が終了すれば、本フローチャートを終了する。

図５のフローチャートの処理により、カテゴリＣ_ｐは入力文書Ｌとの関連度の高い順にランキングされる。関連度の高いカテゴリを、入力文書Ｌの分類結果とする。

上記の実施の形態における処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

上記実施例において、手段を工程に置き換えれば、方法の発明として把握することができる。つまり、上記実施例は、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得工程と、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得工程で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング工程と、該カテゴリの、前記文書クラスタリング工程で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得工程で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得工程とからなることを特徴とする文書分類方法の例である。

この場合、文書が入力されると、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得工程と、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得工程で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得工程で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出工程とをさらに併せ持つ。

また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、請求項１又は請求項２記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムの例である。

さらに、上記プログラムを記録媒体に記録するようにしてもよい。つまり、上記実施例は、請求項１又は請求項２記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体の例である。なお、上記記録媒体として、ＤＶＤ、ＨＤ、光ディスク、光磁気ディスク、半導体メモリ等を想定することができる。

本発明は、言語処理技術に適用可能である。

各カテゴリ毎に、その文書ベクトルの集合をクラスタリングして、得られた各クラスタをサブカテゴリとし、サブカテゴリ内の重心ベクトルをサブカテゴリベクトルとするという請求項１の処理内容と、入力文書が与えられたとき、その入力文書ベクトルと、各サブカテゴリベクトルとの関連度を算出するという請求項２の処理内容を表した図である。本発明の請求項１及び２の実施例における文書分類装置の構成例を示す図である。単語概念ベース（２．６）の例を示す図であり、各単語には、ｄ次元の単語ベクトルが対応付けられている。請求項１の処理の一例を示すフローチャートである。請求項２の処理の一例を示すフローチャートである。

符号の説明

（２．１）…文書ベクトル取得手段、
（２．２）…文書クラスタリング手段、
（２．３）…サブカテゴリベクトル取得手段、
（２．４）…入力文書ベクトル取得手段、
（２．５）…関連度算出手段、
（２．６）…単語概念ベース。

Claims

単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、
カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、
各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する文書ベクトル取得手段と、
該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得する文書クラスタリング手段と、
該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得するサブカテゴリベクトル取得手段と、
を有し、
文書が入力されると、
該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する入力文書ベクトル取得手段と、
各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として出力する関連度算出手段とをさらに併せ持つことを特徴とする文書分類装置。
カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、
文書ベクトル取得手段が、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得工程と、
文書クラスタリング手段が、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得工程で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング工程と、
サブカテゴリベクトル取得手段が、該カテゴリの、前記文書クラスタリング工程で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得工程で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得工程と、
を有し、
文書が入力されると、
入力文書ベクトル取得手段が、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得工程と、
関連度算出手段が、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得工程で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得工程で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出工程とをさらに併せ持つことを特徴とする文書分類方法。
請求項１に記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラム。
請求項１に記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体。