JP2006004105A

JP2006004105A - 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体

Info

Publication number: JP2006004105A
Application number: JP2004178752A
Authority: JP
Inventors: Tomoharu Iwata; 具治岩田; Kazumi Saito; 和巳斉藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-06-16
Filing date: 2004-06-16
Publication date: 2006-01-05
Anticipated expiration: 2024-06-16
Also published as: JP4963341B2

Abstract

【課題】カテゴリー分類された文書間の関係を分かり易く表現することを目的とする。
【解決手段】可視化装置１０は、カテゴリー分類された文書群についての文書生成モデルをもとに、文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する。また、可視化装置１０は、推定した事後確率ベクトルで表された各確率に従って、可視化空間上に、各文書と前記各カテゴリーとの関係を配置する。さらに、可視化装置１０は、配置した可視化空間を利用者用端末３０に送信する。
【選択図】図１

Description

本発明は、カテゴリー分類された文書間の関係を可視化する文書間関係可視化方法及び可視化装置に関するものである。

近年、大量の文書が電子的に蓄積されているが、それらの文書群は、通常、ユーザが目的の文書を容易に見つけ出すことができるように、関連する文書ごとに分類されている。例えば、「open directory project」、「goo（Ｒ）」と呼ばれる検索サイトでは、ディレクトリ型検索エンジンによって、大量のウェブページがトピック毎に分類されている。また、ウェブページ以外の文書、例えば、電子図書、特許文書、論文、コンピュータ用の電子ファイルついても、ウェブページの場合と同様、カテゴリーの別に分類されている。
しかし、分類された文書群の中には、例えば、人的なミスにより分類された文書が含まれていたり、既に設定されているカテゴリーのいずれにも属さない文書（これを「特異文書」と呼ぶ。）が含まれていたりする。また、分類体系が特定の分野に偏っているケースがある。このように、文書の分類が適切に行われていないことが往往にある。
文書の分類ミスは、一つひとつの文書を人的にチェックして探し出すことは可能である。しかし、膨大な文書を人的にチェックすることは困難であるため、文書分類の適正が評価されていないことが多い。

そこで、文書分類の適正を評価するための方法として、文書間の関係を分かり易く表現する可視化の方法が用いられている。この可視化の方法によって、内在する文書の構造的特徴が浮き彫りになり、文書群についての新たな知識発見（文書分類の評価など）のための重要な手がかりが得られる可能性がある。

従来、このような可視化の方法として、次の２つの手法があった。一つは、文書の単語頻度ベクトルから文書間の類似度を求め、この類似度をもとに文書間の関係を可視化する方法である。すなわち、ＭＤＳ（Multi-Dimension Scaling）と呼ばれる手法である（例えば、非特許文献１参照）。もう一つは、文書間のリンクをノード間のリンクとする文書のネットワークで表現し、ノード間の距離から文書のネットワークを可視化する方法である（例えば、非特許文献２参照）。
M.chalmers and P.chitson，"BEAD:Explorations in information visualizaition"，SIGIR'92，Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Resarch and Development in Information Retrieval,ACM Press,１９９２年，ｐ．３３０−３３７ J.B.Tenenbaum,V.de Silva and J.C.Langford,A global geometric framework for nonlinear dimensionality reduction,Science,290,２０００年，ｐ.２３１９−２３２３

しかしながら、非特許文献１および非特許文献２に開示された手法では、いずれも多くのノードが集中して配置され、文書間の関係が分かりにくいという問題があった。

そこで、本発明は、前記した課題を解決するためになされたものであり、その目的は、カテゴリー分類された文書間の関係を分かり易く表現することができる文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体を提供することである。

前記課題を解決するために本発明は、予め登録されたカテゴリーに分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置における文書間関係可視化方法であって、可視化装置は、次のようなステップを実行する。カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定するステップと、前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置するステップと、前記配置した可視化空間を外部出力するステップとである。

また、本発明は、予め登録されたカテゴリー分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置であって、可視化装置は、次のような機能を備えている。カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する推定機能と、前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置する可視化機能と、前記配置した可視化空間を外部出力する出力機能とである。

また、本発明は、前記した文書間関係可視化方法をコンピュータに実行させるための可視化プログラムである。さらに、前記した文書間関係可視化方法をコンピュータに実行させるための可視化プログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によると、カテゴリー分類された文書間の関係を分かり易く表現することができる。

以下、本発明の実施の形態を図１ないし図６に基づいて説明する。
図１は、本発明の実施の形態に係る可視化装置を含むシステムを示すブロック図である。
図１において、可視化装置１０は、インターネットなどの通信ネットワーク２０を介して利用者用端末３０に接続されている。
可視化装置１０は、通信装置１１、記憶装置１２および処理装置１３を備えている。例えば、サーバ装置などのコンピュータがこれに用いられる。通信装置１１は入出力インターフェースであり、記憶装置１２はメモリ、ハードディスクなどであり、処理装置１３はＣＰＵなどである。
なお、図１では、単一の可視化装置１０を示しているが、複数のコンピュータを用いて分散処理を行うように可視化装置１０を構成してもよい。

記憶装置１２には、予め登録されたカテゴリーに分類された文書群についての文書生成モデルがカテゴリーごとに格納されている。カテゴリーは、Ｗｅｂページ、電子図書、特許公報などの電子文書を管理上、分類するために用いられるものである。例えば、トピックなどがこれに該当する。
文書生成モデルは、後記で詳述するが、文書中に出現する単語の単語頻度分布を表したものである。なお、文書生成モデルは、例えば、ファイル形式で記憶装置１２に保存される。

処理装置１３は、文書生成モデル構築部１３１、事後確率ベクトル推定部１３２および可視化部１３３を有している。これら各部１３１〜１３３の機能は、後記する。

利用者用端末３０は、パーソナルコンピュータなどのコンピュータであり、次のような一般的な構成となっている。すなわち、利用者用端末３０は、キーボードなどの入力装置と、コンピュータディスプレイなどの表示装置と、ハードディスク、メモリなどの記憶装置と、ＣＰＵなどの処理装置とを備えている。

次に、可視化装置１０の特徴的な処理について説明する。
［文書生成モデルの構築処理]
可視化装置１０では、文書生成モデル構築部１３１が、次式（１）から（３）までの関数を用いて、文書生成モデルの構築処理を行う。ここでは、あらかじめ分類された文書群からカテゴリーごとの文書生成モデルを構築する場合について説明する。

まず、予め分類された文書群などを次のように定義しておく。分類された文書群をＤ＝[ｄ₁，ｄ₂，・・・，ｄ_N]とする。ｄｎは第ｎ文書，Ｎは与えられた文書の総数を表す。また、カテゴリーの集合をＣ＝[１，２，…，ｋ，…，Ｋ]とする。ただし、Ｋはカテゴリーの総数である。各文書は１つのカテゴリーに分類されていることとし、第ｎ文書のカテゴリーをｃ_n∈Ｃとする。さらに、与えられた文書に含まれる全単語の集合をＷ[ｗ₁，ｗ₂，・・・，ｗ_v]とする。ｗ_jは第ｊ単語，Ｖは単語の総数を表す。

文書の内容は、単語頻度ベクトルで表現する。つまり、ここでは、例えば、文書中における単語の順序や係り受けなどを無視したＢＯＷ（Bag-of-Words）と呼ばれる文書表現を用いる。テキスト分類では、ＢＯＷによる文書表現が用いられることが多い。ここで、第ｎ文書の単語頻度ベクトルをｘ_n＝（ｘ_n1，ｘ_n1，…，ｘ_nv）とする。ｘ_niは第ｎ文書に含まれる第ｊ単語の数を表す。

そして、カテゴリーごとの文書生成の確率モデル、すなわち文書生成モデルとして、例えば、ナイーブベイズモデル（以下「ＮＢモデル」と略す。ＮＢ：Naive Bayes）を用いる。ＮＢモデルは、文書の内容を単語頻度ベクトルで表現したものである。なお、文書生成モデルとして、ＮＢモデルを用いることとするが、例えば、ｎ-ｇｒａｍモデルなどを用いてもよい。
ＮＢモデルでは、カテゴリーｃ_nに属する文書ｄ_nの生成確率を次式（１）の多項分布と仮定する。

第ｋカテゴリーの文書生成モデルのパラメータθ_k＝[θ_k1，θ_k2，…，θ_kv]ハ、次式（２）の尤度Ｌ_kを最大化することにより、推定することとする。式（２）には、事前確率ハイパーパラメータλ_kが導入されている。

式（２）中のλ_kによって、与えられた文書中に一つも現れなかった単語の生成確率が０になることを防ぎ、かつ汎化性能を向上させることができる。なお、汎化性能というのは、上位ノードに集約するための性能を意味する。

θ_kjの最尤推定値を次式（３）で示す。

式（３）中のハイパーパラメータλ_kは、過学習を防ぐため、ここではクロスバリデーション法により推定する。

［事後確率ベクトルの推定処理］
また、可視化装置１０では、事後ベクトル推定部１３２が、次式（４）から式（１２）までの関数を用いて事後確率ベクトルの推定処理を行う。
事後確率ベクトルというのは、文書について、各カテゴリーに属する確率（登録済みのカテゴリーに属する確率）と、どのカテゴリーにも属さない確率（分類済みのカテゴリーに属さない確率）とをベクトルで表したものである。ここでは、例えば、最大エントロピー法（「K.Nigam,J.lafferty and A.McCallum,Using maximum entropy for text classification,In IJCAI-99 Workshop on Machine Learning for Information Filtering,61-67,1999」参照）による推定方法について説明する。
最大エントロピー法は、第ｎ文書と第ｋカテゴリーとの関係を表す関数（これを素性（feature：特徴）関数と呼ぶ。）を素性ｆ（ｄ_n,ｋ）としたとき、次式（４）の制約を満たしつつ、確率Ｐ（ｋ│ｄ_n）のエントロピーが最大となるようにパラメータを推定するためのものである。確率Ｐ（ｋ│ｄ_n）は、第ｎ文書が与えられたときの第ｋカテゴリーに属す確率である。なお、最大エントロピーの条件である式（４）の関数は記憶装置１２に格納されている。

そうすると、確率Ｐ（ｋ│ｄ_n）のエントロピーが最大となる唯一の分布が存在する。この分布を次式（５）で表す。

式（５）中のβは推定すべきパラメータである。式（５）では、ｋは１からＫ＋１までの整数値をとる。１からＫまでは、既存のカテゴリーを表し、Ｋ＋１は既存のカテゴリー以外のカテゴリーを表す。Ｐ（Ｋ＋１│ｄ_n）は、第ｎ文書が既存のカテゴリーのいずれにも属さない確率を表す。

次に、第ｎ文書と第ｋカテゴリー（分類済みのもの）との素性（ｄ_n,ｋ）を次式（６）で表す。ここでは、ＮＢモデルでの第ｋカテゴリーが与えられたときの第ｎ文書の対数尤度を用いる。

式（６）によると、第ｎ文書の単語頻度が第ｋカテゴリーの文書生成モデルに類似すれば、素性（ｄ_n,ｋ）が高くなり、第ｋカテゴリーに属す事後確率（ｋ│ｄ_n）も高くなる。したがって、事後確率を推定するために、素性に対数尤度を用いることは適切であると考えられる。
既存のＫ個のカテゴリーに限定して考えた場合、ＮＢモデルにおける事後確率は、ベイズの定理により、次式（７）で表される。

式（７）によると、事前確率Ｐ（ｋ）を一様としたときのＰ_NB（ｋ│ｄ_n）と、β＝１としたときの最大エントロピー法によるＰ（ｋ│ｄ_n）とは等しくなる。したがって、ＮＢモデルの自然な拡張になっていると言える。最大エントロピー法により、エントロピーを最大にするという好適な条件の下、既存のどのカテゴリーにも属さない確率を含めた事後確率Ｐ_NB（ｋ│ｄ_n）を適切に推定することが可能となる。

また、第ｎ文書が既存のどのカテゴリーにも属さない事後確率を推定するための素性として、次のモデルにおける３シグマでの対数尤度、すなわち３シグマ値を用いる。ＮＢモデルでの第ｎ文書の事後確率が最も高いカテゴリー（尤度ｃ_n＝argmax_kP_NB（ｋ│ｄ_n）のモデル（文書生成モデル）である。ここで、平均μ，標準偏差σの正規分布でみてみると、この正規分布に従った確率変数が区間（μ＋３σおよびμ−３σ）に入る確率は、０．０９７である。このことから、３シグマ値が、既存のカテゴリーに対する素性よりも相対的に高くなる文書は、既存のカテゴリーに属する確率も低くなると考えられる。
そこで、３シグマ値を求めるため、次式（８）を満たすような確率変数Ｘを考える。

式（８）では、ＸをＭ回試行したときのＸの平均値は、中心限定定理により、Ｍが大きくなっていくと、正規分布に漸近する。すなわち、次式（９）〜（１１）のようになる。式（９）中、Ｘ_iは第ｉ試行のＸの値，Ｎ（μ，σ）は平均μで標準偏差σの正規分布を表す。

次に、素性ｆ（ｄ_n,Ｋ＋１）を次式（１２）で表す。素性ｆ（ｄ_n,Ｋ＋１）は、既存のカテゴリーに属さない第ｎ文書の確率を求めるためのものである。素性ｆ（ｄ_n,Ｋ＋１）は、式（１２）で表される３シグマ値になっている。なお、式（１２）中、Ｍ_nは第ｎ文書の単語数を表す。

このように、可視化装置１０では、式（１）ないし式（１２）により、素性を決定した後、未知のパラメータβを推定する。そして、事後確率Ｐ_NB（ｋ│ｄ_n）を求める。求めた第ｎ文書の事後確率Ｐ_NB（ｋ│ｄ_n）をベクトルにしたものを事後確率ベクトルという。事後確率ベクトルｑ_nは、ｑ_n＝（Ｐ（１│ｄ_n）,・・・，Ｐ（Ｋ＋１│ｄ_n））で表す。

その他、事後確率ベクトルの推定処理は、非特許文献「K.Nigam,J.Lafferty and A.McCallum,Using maximum entropy for text classification,In IJCAI-99 Workshop on Machine Learning for Information Filtering,61-67,1999」に開示された既知の方法により行われるものとする。

［事後確率保存埋め込み法による可視化処理］
さらに、可視化装置１０では、可視化部１３３が、事後確率ベクトルｑ_nをもとに、次式（１３）から式（１６）までの関数を用いて、文書群の可視化処理を行う。
まず、可視化空間について説明しておく。可視化空間は、文書群の可視化を実現されるものであり、ここでは、ユークリッド空間を用いることとする。
第ｋカテゴリーに属する文書群の中心となる可視化空間内の座標をφ_k＝（φ_k1，・・・，φ_kD）とする。Ｄは可視化空間の次元を表す。また、第ｎ文書の座標をｒ_n＝（ｒ_n1，・・・，ｒ_nD）とする。

文書間の関係について、ユーザが視覚を通じて直観的に捉えることができるように、低次元、すなわち２次元または３次元の可視化空間に事後確率の関係を埋め込んでいく場合について考えてみる。可視化空間に埋め込まれる事後確率の関係は、前記した式（１）ないし式（１２）により求められた事後確率Ｐ_NB（ｋ│ｄ_n）の関係が保たれたままの状態である。
そこで、次式（１３）のユークリッド距離ｕ_nkが、次の条件を満たすように、φとｒ_nとを配置するようにする。可視化空間において、第ｎ文書の第ｋカテゴリーに属する確率が高くなれば、第ｋカテゴリーと第ｎ文書との間のユークリッド距離ｕ_nkが小さく（近く）なるようにする。逆に、第ｎ文書の第ｋカテゴリーに属する確率が低くなれば、第ｋカテゴリーと第ｎ文書との間のユークリッド距離ｕ_nkが大きく（遠く）なるようにする。

ここで、前記した可視化空間について、第ｎ文書が第ｋカテゴリーに属する確率ｓ_nk＝ρ（ｕ_nk）を考えてみる。ρ（ｕ_nk）は、ｕ＞０（ここでは０を含む）に関する単調現象関数である。ここでは、０＜ρ（ｕ_nk）＜１（ここでは、０，１を含む），ρ（０）＝１，ρ（無限大）＝１，Σρ（ｕ_nk）＝１（ｋ＝１，・・・，Ｋ＋１）とする。そうすると
、ユークリッド距離ｕ_nkが小さくなれば、確率ｓ_nkが１に近づき、逆に、ｕ_nkが大きくなれば、確率ｓ_nkが０に漸近するようになる。このようにして、登録済みのカテゴリーに属する確率ｓ_nkに応じて、各文書と各カテゴリーとの間のユークリッド距離ｕ_nkが可視化空間上で調整されることとなる。
このようなρ（ｕ_nk）の典型例を次式（１４）に示す。本実施の形態では、式（１４）の関数を用いることとする。

ここで、第ｎ文書がどのカテゴリーに属するかを表すベクトルをｓ_n＝（ｓ_n1，・・・，ｓ_n(k+1)）とすると、可視化空間では、ｓ_nが、事後確率ベクトルｑ_nの近似になればよいということになる。そこで、ｑ_nとｓ_nとを離散確率分布と考え、これら２つの確率分布間の距離がすべての文書に対して最小になるようにする。これにより、ｓ_nがｑ_nに近似する。前記した２つの確率分布間の距離を表すカルバック距離ＫＬ（ｑ_n，ｓ_n）を次式（１５）に示す。

この場合、すべての文書の座標Ｒを得るための目的関数（ここでは最大化すべきもの）Ｌｖを次式（１６）に示す。

式（１６）では、実際には、Ｒ＝[ｒ₁，…，ｒ_N]に関するＬ_vとΦ＝[φ₁，…，φ_K]に関するＬ_vとが収束するまで繰り返すことにより、Ｒを求めることになる。Φが与えられたとき、Ｌ_vは、Ｒに関し厳密に上に凸となり、収束値が大域的最適解を保証するという好適な特性をもつことになる。Φの初期値として、Θ（推定）＝[θ₁（推定），…，θ_k（推定）]をもとに、ＭＤＳで低次元（つまり２次元または３次元）に圧縮して求めた座標を用いることとする。これは、文書中の単語の出現確率が近似しているカテゴリー同士が可視化空間に近接して配置されたときの値を初期値として用いるためである。これにより、カテゴリー間の関係を反映して可視化することが可能となる。この可視化の手法を示す説明図を図２に示す。

図２（ａ）（ｂ）では、「相撲」、「野球」、「ラグビー」、「サッカー」、「プロレス」の５種類のカテゴリーに分類されている文書群（クラスター）の場合について示されている。なお、図２（ａ）（ｂ）では、実際には、文書は、カテゴリー単位に色相で可視化されている。例えば、「相撲」、「野球」、「ラグビー」、「サッカー」、「プロレス」に分類されている文書は、それぞれ、青色、赤色、緑色、水色、黄色で色分けされている。
そして、図２（ａ）に示した文書群について、可視化処理が行われると、カテゴリー間の類似関係も反映されて、図２（ｂ）に示すように配置される。図２（ｂ）では、「相撲」と「プロレス」の２つのカテゴリーに属する文書群は、隣接して配置されている。これは、「相撲」と「プロレス」はともに、格闘技という同じスポーツのジャンルに属することとなるので、２つのカテゴリーの類似度が高いと判断されたからである。

ここで、図２（ｂ）に示した「分類ミス」、「多重カテゴリー」および「特異文書」について順に説明しておく。
「分類ミス」というのは、誤って分類された文書のことである。このような文書は、登録済みのカテゴリーとは異なるカテゴリーの文書群の周辺に配置される。図２（ｂ）では、「プロレス」の文書が分類ミスとして示され、それが「相撲」の文書群の周辺に配置されている。したがって、その文書が、「プロレス」ではなく、「相撲」のカテゴリーに属する可能性が高いと考えられる。

「多重カテゴリー」というのは、複数のカテゴリーに属する文書と考えられる文書のことである。このような文書は、可視化により、複数のカテゴリーの間に配置される。図２（ｂ）では、「サッカー」と「野球」との間に配置されている文書が多重カテゴリーとして示されている。したがって、この文書は、「野球」だけではなく、「サッカー」のカテゴリーにも属する可能性が高いと考えられる。

「特異文書」というのは、登録済みのカテゴリーに属さない確率が高い文書のことである。このような文書は、可視化空間では、分類済みの文書群が集まる場所（領域）とは異なる場所に配置される。図２（ｂ）では、「野球」の文書が、５種類のカテゴリーの文書群とは異なる場所に配置されている。このような特異文書は、その内容から、次の２つのケースに分類することができる。一つは、登録済みのカテゴリーに属する文書にはない有益な内容が記載されている場合である。もう一つは、分類体系とは無関係の内容や文書管理の価値のない内容（無意味の内容）が記載されている場合である。前者の場合、有益な内容が記載されているので、ユーザにとって、特異文書を見つけ出す意義は大きい。

次に、前記した文書生成モデルの構築処理から可視化処理までの動作全体の処理について説明する。
図３は、可視化装置１０の動作手順を示す図である。なお、可視化装置１０の動作は、処理装置１３が記憶装置１２に格納された可視化プログラムを逐次実行することによって実現される。可視化プログラムは、コンピュータ読み込み可能な記録媒体から読み込まれてもよい。記録媒体としては、例えば、ＣＤ−ＲＯＭ、半導体メモリ、磁気ディスクなどがある。

まず、ユーザが利用者用端末３０を操作して、通信ネットワーク２０を介して可視化装置１０にアクセスする。そしてその後、可視化装置１０の処理装置１３では、文書生成モデル構築部１３１が、利用者用端末３０から、処理対象となる文書群（カテゴリー分類済みのもの）の要求を受ける。そして、文書生成モデル構築部１３１は、前記した式（１）から式（３）までの関数を用いて、要求された文書群についてカテゴリーごとの文書生成モデルの構築処理を行う（Ｓ１：これを「構築機能」という。）。これにより、文書ごとに、文書中に出現する単語の単語頻度が求められることとなる。

続いて、事後ベクトル推定部１３２は、Ｓ１で構築されたカテゴリーごとの文書生成モデルを記憶装置１２から読み出す。そして、事後ベクトル推定部１３２は、前記した式（４）から式（１２）までの関数を用い、読み出した文書生成モデルに基づいて、事後確率ベクトルｑ_nの推定処理を行う（Ｓ２：これを「推定機能」という。）。これを詳述する。事後ベクトル推定部１３２は、記憶装置１２から読み出した最大エントロピーの条件（式（４））に従って、事後確率ベクトルｑ_nに基づく文書の事後確率Ｐ_NB（ｋ│ｄ_n）が最高となったカテゴリーの文書生成モデルを用いて、事後確率ベクトルｑ_nを推定する。これにより、各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトル表示することが可能となる。

次に、可視化部１３３は、前記した式（１３）から式（１６）までの関数を用い、Ｓ２で推定された事後確率ベクトルｑ_nをもとに、Ｓ１で要求された文書群の各文書の可視化処理を行う（Ｓ３：これを「可視化機能」という。）。これを詳述する。可視化部１３３は、Ｓ２で推定した事後確率ベクトルｑ_nにより表された登録済みのカテゴリーに属する確率に応じて、各文書および各カテゴリーの間の距離を可視化空間上で調整して配置する。これにより、文書とカテゴリーとの類似度を可視化空間に反映させることが可能となる。

そして、可視化部１３３は、可視化結果の出力処理として、利用者用端末３０に通信ネットワークを介して、Ｓ３の可視化結果を送信する（Ｓ４：これを「出力機能」という。）。これにより、例えば、利用者用端末３０では、登録済みのカテゴリー間の関係が反映された可視化空間が表示装置に表示される（図２参照）。したがって、ユーザは、例えば、分類ミスや、多重カテゴリー、特異文書など、文書群についての新たな知識を発見することが可能となる。以上から、カテゴリー分類された文書間の関係をより正確に把握することができる。なお、分類ミスや、多重カテゴリー、特異文書により得られる具体的な知識の内容については、後記する。

［本発明の可視化の評価］
次に、本発明の有効性を評価するため、Open Directory Project（ＯＤＰ）の日本語ウェブページ（ここでは、Open directory project,http://dmoz.org/）のトップカテゴリーに分類されているウェブページを用いて可視化を行った。
ここでは、ウェブページのサンプリングは、次のように行った。まず、ＯＤＰに登録されている日本語ウェブページから、単語数が５０以下のウェブページを除いた。また、複数のカテゴリーに分類されているウェブページを除いた。そして、カテゴリー単位に、１００ページ分のウェブページをランダムにサンプリングした。サンプリングの結果、得られたウェブページは、次のカテゴリーに属する１３００ページであった。

利用されたカテゴリーは、アート（arts）、オンラインショップ（online-shop）、コンピュータ（computer）、スポーツ（sports）、ニュース（news）、ビジネス（business）、レクリエーション（recreation）、健康（health）、各種資料（reference）、家庭（home）、社会（society）、科学（science）、地域（regional）の１３種類である。なお、ＯＤＰのトップカテゴリーに含まれているゲームのカテゴリーは、ウェブページが１００ページに達しなかったため対象外とした。

［可視化結果］
図４は、前記のサンプリングされたウェブページ群の可視化結果を示す図である。図４では、カテゴリーの別にウェブページが色分けされている。例えば、「arts」のウェブページ群は赤、「online-shop」のウェブページ群は青、「computer」のウェブページ群はピンク、「sports」ウェブページ群は緑などに色分けされている。
そして図４では、同じカテゴリーに属するウェブページがクラスター（同じカテゴリーに属する文書のまとまり）を形成している。クラスター数は計１４になっている。これは、１３種類のカテゴリー分のクラスター数１３に、特異文書の分のクラスター数１を合算したものになっているからである。
ここで、クラスターの位置関係をみてみると、関連するカテゴリーのクラスターは、近接して配置されている。例えば、「online-shop」と「business」との各クラスター、「sports」と「health」との各クラスターなどは、近接して配置されている。

そして、これらのクラスターの中には、図４に示すように、分類済みのカテゴリーとは異なるウェブページａがある。これは、分類ミスであると考えられる。具体的には、図４に示すウェブページａは、「regional」に分類されているが、「health」のカテゴリーに属する可能性が高いと考えられる。そこで、ウェブページａの内容を確かめてみると、ウェブページａは、病院のページであることがわかった。その病院の地元の住民がウェブページａを利用するという観点からウェブページａを分類した場合、確かに、ウェブページａは「regional」のページであるということもできる。しかし、「health」のカテゴリーに属するウェブページの中には、病院のページが多く含まれている。したがって、このような分類の実体も踏まえて、ウェブページａの分類を考えてみると、「health」のカテゴリーにウェブページａを含めた方が適当であると思われた。
このように、図４の可視化結果を通じて、分類ミスの可能性があるウェブページを探し出すことができた。

また、図４では、ウェブページｂが、「recreation」に分類されているのにもかかわらず、「sports」と「recreation」の各クラスターのほぼ中間に示された。このウェブページｂは、サッカーくじ（toto）のページであった。確かに、サッカーくじは、レクリケーションの一種であるといえるが、スポーツとも関わりが深い。このことが、ウェブページｂが「sports」と「recreation」の各クラスターのほぼ中間に示された理由と考えられた。サッカーに関心がある人であれば、サーカーくじのウェブページｂにも興味を持つものが多いと考えられる。
このように、図４の可視化結果から、多重分類の可能性があるウェブページを探し出すことが可能となる。また、ウェブページの内容そのものから判断して、特定の一のカテゴリーに分類することが困難なものを探し出すことも可能となる。さらに、カテゴリー分類の見直しを行う際に、どのような内容に重点をおいてカテゴリー分類すべきかを確認することが可能となる。

さらに、図４の可視化結果から、特異文書となったウェブページを探し出すことができる。図４では、例えば、メールマガジンの紹介に関するウェブページがこれに該当した。このウェブページは、コンピュータのカテゴリーに分類していた。しかし、そのウェブページに使用されている文章をみてみると、コンピュータに関する内容だけでなく、それ以外の内容が多く含まれていた。したがって、そのウェブページがコンピュータに関するものでないことがわかった。

［従来法との比較］
次に、前記したサンプリングにより得た１３００ページのウェブページについて、前記した従来法であるＭＤＳ法（非特許文献１参照）で可視化処理を行った。ここでは、単語頻度ベクトルを次元圧縮して可視化する方法と、前記した事後確率ベクトルを次元圧縮して可視化する方法の２つの方法で行った。

図５は、ＭＤＳ法により単語頻度ベクトルを次元圧縮して可視化した結果を示す図である。図５では、各カテゴリーのクラスターが集中し、ウェブサイト同士が重なるため、ウェブページ群の類似関係が分かりにくかった。このため、文書が持つ特徴がわからない。これは、カテゴリーの関係が反映されずに、可視化が行われたからである。

図６は、ＭＤＳ法により事後確率ベクトルを次元圧縮して可視化した結果を示す図である。図６では、カテゴリーごとにクラスターが形成され、分類ミスを探し出すことはできた。しかし、クラスターが集中し、カテゴリー間の類似関係や、多重カテゴリー、特異文書を探し出しにくかった。

このように、従来法との比較を行った結果、図５および図６に示したように、いずれの場合も、クラスターが集中するため、本発明による図４の場合に比べて、ウェブページ群の類似関係などが分かりにくかった。
また、従来法では、カテゴリー数Ｋを考慮せずに文書同士を比較して可視化処理を行うため、文書数をＮとした場合、計算量ＯはＯ（Ｎ²）になるのに対して、本発明では、各文書と各カテゴリーとを比較して可視化処理を行うため、計算量ＯはＯ（ＮＫ）になる。このため、従来法では、文書数が多くなると、計算量が２のべき乗で増加することになるのに対し、本発明ではそれほど増加することとならない。したがって、可視化装置１０では、大量の文書群にも適用しやすくなる。

なお、本発明は、前記した実施の形態に限られるものではない。記憶装置１２のデータ構造及びプログラム処理の順序は、既知の技術により種々の変更が可能である。

また、可視化装置１０は、サーバ装置で構成する場合について説明したが、例えば、単一のパーソナルコンピュータなどのコンピュータで構成するようにしてもよい。

本発明の実施の形態に係る可視化装置を含むシステムを示すブロック図である。図１の可視化装置による可視化の手法を示す説明図である。図１の可視化装置おける可視化方法の動作手順を示す図である。図１の可視化装置によって可視化された結果の例を示す図である。ＭＤＳ法により単語頻度ベクトルを次元圧縮して可視化した結果を示す図である。ＭＤＳ法により事後確率ベクトルを次元圧縮して可視化した結果を示す図である。

符号の説明

１０可視化装置
１２記憶装置
１３処理装置
２０通信ネットワーク
３０利用者用端末

Claims

予め登録されたカテゴリーに分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置における文書間関係可視化方法であって、
前記可視化装置は、
カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定するステップと、
前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置するステップと、
前記配置した可視化空間を外部出力するステップと、
を実行することを特徴とする文書間関係可視化方法。
前記記憶装置には、最大エントロピーの条件がさらに格納され、
前記可視化装置は、
前記事後確率ベクトルを推定するステップを実行する際に、前記記憶装置から読み出した最大エントロピー法の条件に従って、前記事後確率ベクトルに基づく前記文書の事後確率が最高となったカテゴリーの文書生成モデルを用いて、前記事後確率ベクトルを推定する
ことを特徴とする請求項１に記載の文書間関係可視化方法。
前記可視化装置は、
前記各文書と前記各カテゴリーとの関係を配置するステップを実行する際に、前記登録済みのカテゴリーに属する確率に応じて、前記各文書および前記各カテゴリーの間の距離を前記可視化空間上で調整して配置する
ことを特徴とする請求項１に記載の文書間関係可視化方法。
予め登録されたカテゴリー分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置であって、
前記可視化装置は、
カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する推定機能と、
前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置する可視化機能と、
前記配置した可視化空間を外部出力する出力機能と、
を備えたことを特徴とする可視化装置。
前記記憶装置には、最大エントロピーの条件がさらに格納され、
前記可視化装置は、
前記事後確率ベクトルを推定する際に、前記記憶装置から読み出した最大エントロピー法の条件に従って、前記事後確率ベクトルに基づき前記文書の事後確率が最高となったカテゴリーの文書生成モデルを用いて、前記事後確率ベクトルを推定する
ことを特徴とする請求項４に記載の可視化装置。
前記可視化装置は、
前記各文書と前記各カテゴリーとの関係を配置する際に、前記登録済みのカテゴリーに属する確率に応じて、前記各文書および前記各カテゴリーの間の距離を前記可視化空間上で調整して配置する
ことを特徴とする請求項４に記載の可視化装置。
請求項１ないし請求項３のいずれか１項に記載の文書間関係可視化方法をコンピュータに実行させるための可視化プログラム。
請求項１ないし請求項３のいずれか１項に記載の文書間関係可視化方法をコンピュータに実行させるための可視化プログラムを記録したコンピュータ読み取り可能な記録媒体。