JP2006004105A - 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 - Google Patents

文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2006004105A
JP2006004105A JP2004178752A JP2004178752A JP2006004105A JP 2006004105 A JP2006004105 A JP 2006004105A JP 2004178752 A JP2004178752 A JP 2004178752A JP 2004178752 A JP2004178752 A JP 2004178752A JP 2006004105 A JP2006004105 A JP 2006004105A
Authority
JP
Japan
Prior art keywords
document
visualization
category
probability
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004178752A
Other languages
English (en)
Other versions
JP4963341B2 (ja
Inventor
Tomoharu Iwata
具治 岩田
Kazumi Saito
和巳 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004178752A priority Critical patent/JP4963341B2/ja
Publication of JP2006004105A publication Critical patent/JP2006004105A/ja
Application granted granted Critical
Publication of JP4963341B2 publication Critical patent/JP4963341B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 カテゴリー分類された文書間の関係を分かり易く表現することを目的とする。
【解決手段】 可視化装置10は、カテゴリー分類された文書群についての文書生成モデルをもとに、文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する。また、可視化装置10は、推定した事後確率ベクトルで表された各確率に従って、可視化空間上に、各文書と前記各カテゴリーとの関係を配置する。さらに、可視化装置10は、配置した可視化空間を利用者用端末30に送信する。
【選択図】 図1

Description

本発明は、カテゴリー分類された文書間の関係を可視化する文書間関係可視化方法及び可視化装置に関するものである。
近年、大量の文書が電子的に蓄積されているが、それらの文書群は、通常、ユーザが目的の文書を容易に見つけ出すことができるように、関連する文書ごとに分類されている。例えば、「open directory project」、「goo(R)」と呼ばれる検索サイトでは、ディレクトリ型検索エンジンによって、大量のウェブページがトピック毎に分類されている。また、ウェブページ以外の文書、例えば、電子図書、特許文書、論文、コンピュータ用の電子ファイルついても、ウェブページの場合と同様、カテゴリーの別に分類されている。
しかし、分類された文書群の中には、例えば、人的なミスにより分類された文書が含まれていたり、既に設定されているカテゴリーのいずれにも属さない文書(これを「特異文書」と呼ぶ。)が含まれていたりする。また、分類体系が特定の分野に偏っているケースがある。このように、文書の分類が適切に行われていないことが往往にある。
文書の分類ミスは、一つひとつの文書を人的にチェックして探し出すことは可能である。しかし、膨大な文書を人的にチェックすることは困難であるため、文書分類の適正が評価されていないことが多い。
そこで、文書分類の適正を評価するための方法として、文書間の関係を分かり易く表現する可視化の方法が用いられている。この可視化の方法によって、内在する文書の構造的特徴が浮き彫りになり、文書群についての新たな知識発見(文書分類の評価など)のための重要な手がかりが得られる可能性がある。
従来、このような可視化の方法として、次の2つの手法があった。一つは、文書の単語頻度ベクトルから文書間の類似度を求め、この類似度をもとに文書間の関係を可視化する方法である。すなわち、MDS(Multi-Dimension Scaling)と呼ばれる手法である(例えば、非特許文献1参照)。もう一つは、文書間のリンクをノード間のリンクとする文書のネットワークで表現し、ノード間の距離から文書のネットワークを可視化する方法である(例えば、非特許文献2参照)。
M.chalmers and P.chitson,"BEAD:Explorations in information visualizaition",SIGIR'92,Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Resarch and Development in Information Retrieval,ACM Press,1992年,p.330−337 J.B.Tenenbaum,V.de Silva and J.C.Langford,A global geometric framework for nonlinear dimensionality reduction,Science,290,2000年,p.2319−2323
しかしながら、非特許文献1および非特許文献2に開示された手法では、いずれも多くのノードが集中して配置され、文書間の関係が分かりにくいという問題があった。
そこで、本発明は、前記した課題を解決するためになされたものであり、その目的は、カテゴリー分類された文書間の関係を分かり易く表現することができる文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体を提供することである。
前記課題を解決するために本発明は、予め登録されたカテゴリーに分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置における文書間関係可視化方法であって、可視化装置は、次のようなステップを実行する。カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定するステップと、前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置するステップと、前記配置した可視化空間を外部出力するステップとである。
また、本発明は、予め登録されたカテゴリー分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置であって、可視化装置は、次のような機能を備えている。カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する推定機能と、前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置する可視化機能と、前記配置した可視化空間を外部出力する出力機能とである。
また、本発明は、前記した文書間関係可視化方法をコンピュータに実行させるための可視化プログラムである。さらに、前記した文書間関係可視化方法をコンピュータに実行させるための可視化プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によると、カテゴリー分類された文書間の関係を分かり易く表現することができる。
以下、本発明の実施の形態を図1ないし図6に基づいて説明する。
図1は、本発明の実施の形態に係る可視化装置を含むシステムを示すブロック図である。
図1において、可視化装置10は、インターネットなどの通信ネットワーク20を介して利用者用端末30に接続されている。
可視化装置10は、通信装置11、記憶装置12および処理装置13を備えている。例えば、サーバ装置などのコンピュータがこれに用いられる。通信装置11は入出力インターフェースであり、記憶装置12はメモリ、ハードディスクなどであり、処理装置13はCPUなどである。
なお、図1では、単一の可視化装置10を示しているが、複数のコンピュータを用いて分散処理を行うように可視化装置10を構成してもよい。
記憶装置12には、予め登録されたカテゴリーに分類された文書群についての文書生成モデルがカテゴリーごとに格納されている。カテゴリーは、Webページ、電子図書、特許公報などの電子文書を管理上、分類するために用いられるものである。例えば、トピックなどがこれに該当する。
文書生成モデルは、後記で詳述するが、文書中に出現する単語の単語頻度分布を表したものである。なお、文書生成モデルは、例えば、ファイル形式で記憶装置12に保存される。
処理装置13は、文書生成モデル構築部131、事後確率ベクトル推定部132および可視化部133を有している。これら各部131〜133の機能は、後記する。
利用者用端末30は、パーソナルコンピュータなどのコンピュータであり、次のような一般的な構成となっている。すなわち、利用者用端末30は、キーボードなどの入力装置と、コンピュータディスプレイなどの表示装置と、ハードディスク、メモリなどの記憶装置と、CPUなどの処理装置とを備えている。
次に、可視化装置10の特徴的な処理について説明する。
[文書生成モデルの構築処理]
可視化装置10では、文書生成モデル構築部131が、次式(1)から(3)までの関数を用いて、文書生成モデルの構築処理を行う。ここでは、あらかじめ分類された文書群からカテゴリーごとの文書生成モデルを構築する場合について説明する。
まず、予め分類された文書群などを次のように定義しておく。分類された文書群をD=[d1,d2,・・・,dN]とする。dnは第n文書,Nは与えられた文書の総数を表す。また、カテゴリーの集合をC=[1,2,…,k,…,K]とする。ただし、Kはカテゴリーの総数である。各文書は1つのカテゴリーに分類されていることとし、第n文書のカテゴリーをcn∈Cとする。さらに、与えられた文書に含まれる全単語の集合をW[w1,w2,・・・,wv]とする。wjは第j単語,Vは単語の総数を表す。
文書の内容は、単語頻度ベクトルで表現する。つまり、ここでは、例えば、文書中における単語の順序や係り受けなどを無視したBOW(Bag-of-Words)と呼ばれる文書表現を用いる。テキスト分類では、BOWによる文書表現が用いられることが多い。ここで、第n文書の単語頻度ベクトルをxn=(xn1,xn1,…,xnv)とする。xniは第n文書に含まれる第j単語の数を表す。
そして、カテゴリーごとの文書生成の確率モデル、すなわち文書生成モデルとして、例えば、ナイーブベイズモデル(以下「NBモデル」と略す。NB:Naive Bayes)を用いる。NBモデルは、文書の内容を単語頻度ベクトルで表現したものである。なお、文書生成モデルとして、NBモデルを用いることとするが、例えば、n-gramモデルなどを用いてもよい。
NBモデルでは、カテゴリーcnに属する文書dnの生成確率を次式(1)の多項分布と仮定する。
Figure 2006004105
第kカテゴリーの文書生成モデルのパラメータθk=[θk1,θk2,…,θkv]ハ、次式(2)の尤度Lkを最大化することにより、推定することとする。式(2)には、事前確率ハイパーパラメータλkが導入されている。
Figure 2006004105
式(2)中のλkによって、与えられた文書中に一つも現れなかった単語の生成確率が0になることを防ぎ、かつ汎化性能を向上させることができる。なお、汎化性能というのは、上位ノードに集約するための性能を意味する。
θkjの最尤推定値を次式(3)で示す。
Figure 2006004105
式(3)中のハイパーパラメータλkは、過学習を防ぐため、ここではクロスバリデーション法により推定する。
[事後確率ベクトルの推定処理]
また、可視化装置10では、事後ベクトル推定部132が、次式(4)から式(12)までの関数を用いて事後確率ベクトルの推定処理を行う。
事後確率ベクトルというのは、文書について、各カテゴリーに属する確率(登録済みのカテゴリーに属する確率)と、どのカテゴリーにも属さない確率(分類済みのカテゴリーに属さない確率)とをベクトルで表したものである。ここでは、例えば、最大エントロピー法(「K.Nigam,J.lafferty and A.McCallum,Using maximum entropy for text classification,In IJCAI-99 Workshop on Machine Learning for Information Filtering,61-67,1999」参照)による推定方法について説明する。
最大エントロピー法は、第n文書と第kカテゴリーとの関係を表す関数(これを素性(feature:特徴)関数と呼ぶ。)を素性f(dn,k)としたとき、次式(4)の制約を満たしつつ、確率P(k│dn)のエントロピーが最大となるようにパラメータを推定するためのものである。確率P(k│dn)は、第n文書が与えられたときの第kカテゴリーに属す確率である。なお、最大エントロピーの条件である式(4)の関数は記憶装置12に格納されている。
Figure 2006004105
そうすると、確率P(k│dn)のエントロピーが最大となる唯一の分布が存在する。この分布を次式(5)で表す。
Figure 2006004105
式(5)中のβは推定すべきパラメータである。式(5)では、kは1からK+1までの整数値をとる。1からKまでは、既存のカテゴリーを表し、K+1は既存のカテゴリー以外のカテゴリーを表す。P(K+1│dn)は、第n文書が既存のカテゴリーのいずれにも属さない確率を表す。
次に、第n文書と第kカテゴリー(分類済みのもの)との素性(dn,k)を次式(6)で表す。ここでは、NBモデルでの第kカテゴリーが与えられたときの第n文書の対数尤度を用いる。
Figure 2006004105
式(6)によると、第n文書の単語頻度が第kカテゴリーの文書生成モデルに類似すれば、素性(dn,k)が高くなり、第kカテゴリーに属す事後確率(k│dn)も高くなる。したがって、事後確率を推定するために、素性に対数尤度を用いることは適切であると考えられる。
既存のK個のカテゴリーに限定して考えた場合、NBモデルにおける事後確率は、ベイズの定理により、次式(7)で表される。
Figure 2006004105
式(7)によると、事前確率P(k)を一様としたときのPNB(k│dn)と、β=1としたときの最大エントロピー法によるP(k│dn)とは等しくなる。したがって、NBモデルの自然な拡張になっていると言える。最大エントロピー法により、エントロピーを最大にするという好適な条件の下、既存のどのカテゴリーにも属さない確率を含めた事後確率PNB(k│dn)を適切に推定することが可能となる。
また、第n文書が既存のどのカテゴリーにも属さない事後確率を推定するための素性として、次のモデルにおける3シグマでの対数尤度、すなわち3シグマ値を用いる。NBモデルでの第n文書の事後確率が最も高いカテゴリー(尤度cn=argmaxkPNB(k│dn)のモデル(文書生成モデル)である。ここで、平均μ,標準偏差σの正規分布でみてみると、この正規分布に従った確率変数が区間(μ+3σおよびμ−3σ)に入る確率は、0.097である。このことから、3シグマ値が、既存のカテゴリーに対する素性よりも相対的に高くなる文書は、既存のカテゴリーに属する確率も低くなると考えられる。
そこで、3シグマ値を求めるため、次式(8)を満たすような確率変数Xを考える。
Figure 2006004105
式(8)では、XをM回試行したときのXの平均値は、中心限定定理により、Mが大きくなっていくと、正規分布に漸近する。すなわち、次式(9)〜(11)のようになる。式(9)中、Xiは第i試行のXの値,N(μ,σ)は平均μで標準偏差σの正規分布を表す。
Figure 2006004105
Figure 2006004105
Figure 2006004105
次に、素性f(dn,K+1)を次式(12)で表す。素性f(dn,K+1)は、既存のカテゴリーに属さない第n文書の確率を求めるためのものである。素性f(dn,K+1)は、式(12)で表される3シグマ値になっている。なお、式(12)中、Mnは第n文書の単語数を表す。
Figure 2006004105
このように、可視化装置10では、式(1)ないし式(12)により、素性を決定した後、未知のパラメータβを推定する。そして、事後確率PNB(k│dn)を求める。求めた第n文書の事後確率PNB(k│dn)をベクトルにしたものを事後確率ベクトルという。事後確率ベクトルqnは、qn=(P(1│dn),・・・,P(K+1│dn))で表す。
その他、事後確率ベクトルの推定処理は、非特許文献「K.Nigam,J.Lafferty and A.McCallum,Using maximum entropy for text classification,In IJCAI-99 Workshop on Machine Learning for Information Filtering,61-67,1999」に開示された既知の方法により行われるものとする。
[事後確率保存埋め込み法による可視化処理]
さらに、可視化装置10では、可視化部133が、事後確率ベクトルqnをもとに、次式(13)から式(16)までの関数を用いて、文書群の可視化処理を行う。
まず、可視化空間について説明しておく。可視化空間は、文書群の可視化を実現されるものであり、ここでは、ユークリッド空間を用いることとする。
第kカテゴリーに属する文書群の中心となる可視化空間内の座標をφk=(φk1,・・・,φkD)とする。Dは可視化空間の次元を表す。また、第n文書の座標をrn=(rn1,・・・,rnD)とする。
文書間の関係について、ユーザが視覚を通じて直観的に捉えることができるように、低次元、すなわち2次元または3次元の可視化空間に事後確率の関係を埋め込んでいく場合について考えてみる。可視化空間に埋め込まれる事後確率の関係は、前記した式(1)ないし式(12)により求められた事後確率PNB(k│dn)の関係が保たれたままの状態である。
そこで、次式(13)のユークリッド距離unkが、次の条件を満たすように、φとrnとを配置するようにする。可視化空間において、第n文書の第kカテゴリーに属する確率が高くなれば、第kカテゴリーと第n文書との間のユークリッド距離unkが小さく(近く)なるようにする。逆に、第n文書の第kカテゴリーに属する確率が低くなれば、第kカテゴリーと第n文書との間のユークリッド距離unkが大きく(遠く)なるようにする。
Figure 2006004105
ここで、前記した可視化空間について、第n文書が第kカテゴリーに属する確率snk=ρ(unk)を考えてみる。ρ(unk)は、u>0(ここでは0を含む)に関する単調現象関数である。ここでは、0<ρ(unk)<1(ここでは、0,1を含む),ρ(0)=1,ρ(無限大)=1,Σρ(unk)=1(k=1,・・・,K+1)とする。そうすると
、ユークリッド距離unkが小さくなれば、確率snkが1に近づき、逆に、unkが大きくなれば、確率snkが0に漸近するようになる。このようにして、登録済みのカテゴリーに属する確率snkに応じて、各文書と各カテゴリーとの間のユークリッド距離unkが可視化空間上で調整されることとなる。
このようなρ(unk)の典型例を次式(14)に示す。本実施の形態では、式(14)の関数を用いることとする。
Figure 2006004105
ここで、第n文書がどのカテゴリーに属するかを表すベクトルをsn=(sn1,・・・,sn(k+1))とすると、可視化空間では、snが、事後確率ベクトルqnの近似になればよいということになる。そこで、qnとsnとを離散確率分布と考え、これら2つの確率分布間の距離がすべての文書に対して最小になるようにする。これにより、snがqnに近似する。前記した2つの確率分布間の距離を表すカルバック距離KL(qn,sn)を次式(15)に示す。
Figure 2006004105
この場合、すべての文書の座標Rを得るための目的関数(ここでは最大化すべきもの)Lvを次式(16)に示す。
Figure 2006004105
式(16)では、実際には、R=[r1,…,rN]に関するLvとΦ=[φ1,…,φK]に関するLvとが収束するまで繰り返すことにより、Rを求めることになる。Φが与えられたとき、Lvは、Rに関し厳密に上に凸となり、収束値が大域的最適解を保証するという好適な特性をもつことになる。Φの初期値として、Θ(推定)=[θ1(推定),…,θk(推定)]をもとに、MDSで低次元(つまり2次元または3次元)に圧縮して求めた座標を用いることとする。これは、文書中の単語の出現確率が近似しているカテゴリー同士が可視化空間に近接して配置されたときの値を初期値として用いるためである。これにより、カテゴリー間の関係を反映して可視化することが可能となる。この可視化の手法を示す説明図を図2に示す。
図2(a)(b)では、「相撲」、「野球」、「ラグビー」、「サッカー」、「プロレス」の5種類のカテゴリーに分類されている文書群(クラスター)の場合について示されている。なお、図2(a)(b)では、実際には、文書は、カテゴリー単位に色相で可視化されている。例えば、「相撲」、「野球」、「ラグビー」、「サッカー」、「プロレス」に分類されている文書は、それぞれ、青色、赤色、緑色、水色、黄色で色分けされている。
そして、図2(a)に示した文書群について、可視化処理が行われると、カテゴリー間の類似関係も反映されて、図2(b)に示すように配置される。図2(b)では、「相撲」と「プロレス」の2つのカテゴリーに属する文書群は、隣接して配置されている。これは、「相撲」と「プロレス」はともに、格闘技という同じスポーツのジャンルに属することとなるので、2つのカテゴリーの類似度が高いと判断されたからである。
ここで、図2(b)に示した「分類ミス」、「多重カテゴリー」および「特異文書」について順に説明しておく。
「分類ミス」というのは、誤って分類された文書のことである。このような文書は、登録済みのカテゴリーとは異なるカテゴリーの文書群の周辺に配置される。図2(b)では、「プロレス」の文書が分類ミスとして示され、それが「相撲」の文書群の周辺に配置されている。したがって、その文書が、「プロレス」ではなく、「相撲」のカテゴリーに属する可能性が高いと考えられる。
「多重カテゴリー」というのは、複数のカテゴリーに属する文書と考えられる文書のことである。このような文書は、可視化により、複数のカテゴリーの間に配置される。図2(b)では、「サッカー」と「野球」との間に配置されている文書が多重カテゴリーとして示されている。したがって、この文書は、「野球」だけではなく、「サッカー」のカテゴリーにも属する可能性が高いと考えられる。
「特異文書」というのは、登録済みのカテゴリーに属さない確率が高い文書のことである。このような文書は、可視化空間では、分類済みの文書群が集まる場所(領域)とは異なる場所に配置される。図2(b)では、「野球」の文書が、5種類のカテゴリーの文書群とは異なる場所に配置されている。このような特異文書は、その内容から、次の2つのケースに分類することができる。一つは、登録済みのカテゴリーに属する文書にはない有益な内容が記載されている場合である。もう一つは、分類体系とは無関係の内容や文書管理の価値のない内容(無意味の内容)が記載されている場合である。前者の場合、有益な内容が記載されているので、ユーザにとって、特異文書を見つけ出す意義は大きい。
次に、前記した文書生成モデルの構築処理から可視化処理までの動作全体の処理について説明する。
図3は、可視化装置10の動作手順を示す図である。なお、可視化装置10の動作は、処理装置13が記憶装置12に格納された可視化プログラムを逐次実行することによって実現される。可視化プログラムは、コンピュータ読み込み可能な記録媒体から読み込まれてもよい。記録媒体としては、例えば、CD−ROM、半導体メモリ、磁気ディスクなどがある。
まず、ユーザが利用者用端末30を操作して、通信ネットワーク20を介して可視化装置10にアクセスする。そしてその後、可視化装置10の処理装置13では、文書生成モデル構築部131が、利用者用端末30から、処理対象となる文書群(カテゴリー分類済みのもの)の要求を受ける。そして、文書生成モデル構築部131は、前記した式(1)から式(3)までの関数を用いて、要求された文書群についてカテゴリーごとの文書生成モデルの構築処理を行う(S1:これを「構築機能」という。)。これにより、文書ごとに、文書中に出現する単語の単語頻度が求められることとなる。
続いて、事後ベクトル推定部132は、S1で構築されたカテゴリーごとの文書生成モデルを記憶装置12から読み出す。そして、事後ベクトル推定部132は、前記した式(4)から式(12)までの関数を用い、読み出した文書生成モデルに基づいて、事後確率ベクトルqnの推定処理を行う(S2:これを「推定機能」という。)。これを詳述する。事後ベクトル推定部132は、記憶装置12から読み出した最大エントロピーの条件(式(4))に従って、事後確率ベクトルqnに基づく文書の事後確率PNB(k│dn)が最高となったカテゴリーの文書生成モデルを用いて、事後確率ベクトルqnを推定する。これにより、各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトル表示することが可能となる。
次に、可視化部133は、前記した式(13)から式(16)までの関数を用い、S2で推定された事後確率ベクトルqnをもとに、S1で要求された文書群の各文書の可視化処理を行う(S3:これを「可視化機能」という。)。これを詳述する。可視化部133は、S2で推定した事後確率ベクトルqnにより表された登録済みのカテゴリーに属する確率に応じて、各文書および各カテゴリーの間の距離を可視化空間上で調整して配置する。これにより、文書とカテゴリーとの類似度を可視化空間に反映させることが可能となる。
そして、可視化部133は、可視化結果の出力処理として、利用者用端末30に通信ネットワークを介して、S3の可視化結果を送信する(S4:これを「出力機能」という。)。これにより、例えば、利用者用端末30では、登録済みのカテゴリー間の関係が反映された可視化空間が表示装置に表示される(図2参照)。したがって、ユーザは、例えば、分類ミスや、多重カテゴリー、特異文書など、文書群についての新たな知識を発見することが可能となる。以上から、カテゴリー分類された文書間の関係をより正確に把握することができる。なお、分類ミスや、多重カテゴリー、特異文書により得られる具体的な知識の内容については、後記する。
[本発明の可視化の評価]
次に、本発明の有効性を評価するため、Open Directory Project(ODP)の日本語ウェブページ(ここでは、Open directory project,http://dmoz.org/)のトップカテゴリーに分類されているウェブページを用いて可視化を行った。
ここでは、ウェブページのサンプリングは、次のように行った。まず、ODPに登録されている日本語ウェブページから、単語数が50以下のウェブページを除いた。また、複数のカテゴリーに分類されているウェブページを除いた。そして、カテゴリー単位に、100ページ分のウェブページをランダムにサンプリングした。サンプリングの結果、得られたウェブページは、次のカテゴリーに属する1300ページであった。
利用されたカテゴリーは、アート(arts)、オンラインショップ(online-shop)、コンピュータ(computer)、スポーツ(sports)、ニュース(news)、ビジネス(business)、レクリエーション(recreation)、健康(health)、各種資料(reference)、家庭(home)、社会(society)、科学(science)、地域(regional)の13種類である。なお、ODPのトップカテゴリーに含まれているゲームのカテゴリーは、ウェブページが100ページに達しなかったため対象外とした。
[可視化結果]
図4は、前記のサンプリングされたウェブページ群の可視化結果を示す図である。図4では、カテゴリーの別にウェブページが色分けされている。例えば、「arts」のウェブページ群は赤、「online-shop」のウェブページ群は青、「computer」のウェブページ群はピンク、「sports」ウェブページ群は緑などに色分けされている。
そして図4では、同じカテゴリーに属するウェブページがクラスター(同じカテゴリーに属する文書のまとまり)を形成している。クラスター数は計14になっている。これは、13種類のカテゴリー分のクラスター数13に、特異文書の分のクラスター数1を合算したものになっているからである。
ここで、クラスターの位置関係をみてみると、関連するカテゴリーのクラスターは、近接して配置されている。例えば、「online-shop」と「business」との各クラスター、「sports」と「health」との各クラスターなどは、近接して配置されている。
そして、これらのクラスターの中には、図4に示すように、分類済みのカテゴリーとは異なるウェブページaがある。これは、分類ミスであると考えられる。具体的には、図4に示すウェブページaは、「regional」に分類されているが、「health」のカテゴリーに属する可能性が高いと考えられる。そこで、ウェブページaの内容を確かめてみると、ウェブページaは、病院のページであることがわかった。その病院の地元の住民がウェブページaを利用するという観点からウェブページaを分類した場合、確かに、ウェブページaは「regional」のページであるということもできる。しかし、「health」のカテゴリーに属するウェブページの中には、病院のページが多く含まれている。したがって、このような分類の実体も踏まえて、ウェブページaの分類を考えてみると、「health」のカテゴリーにウェブページaを含めた方が適当であると思われた。
このように、図4の可視化結果を通じて、分類ミスの可能性があるウェブページを探し出すことができた。
また、図4では、ウェブページbが、「recreation」に分類されているのにもかかわらず、「sports」と「recreation」の各クラスターのほぼ中間に示された。このウェブページbは、サッカーくじ(toto)のページであった。確かに、サッカーくじは、レクリケーションの一種であるといえるが、スポーツとも関わりが深い。このことが、ウェブページbが「sports」と「recreation」の各クラスターのほぼ中間に示された理由と考えられた。サッカーに関心がある人であれば、サーカーくじのウェブページbにも興味を持つものが多いと考えられる。
このように、図4の可視化結果から、多重分類の可能性があるウェブページを探し出すことが可能となる。また、ウェブページの内容そのものから判断して、特定の一のカテゴリーに分類することが困難なものを探し出すことも可能となる。さらに、カテゴリー分類の見直しを行う際に、どのような内容に重点をおいてカテゴリー分類すべきかを確認することが可能となる。
さらに、図4の可視化結果から、特異文書となったウェブページを探し出すことができる。図4では、例えば、メールマガジンの紹介に関するウェブページがこれに該当した。このウェブページは、コンピュータのカテゴリーに分類していた。しかし、そのウェブページに使用されている文章をみてみると、コンピュータに関する内容だけでなく、それ以外の内容が多く含まれていた。したがって、そのウェブページがコンピュータに関するものでないことがわかった。
[従来法との比較]
次に、前記したサンプリングにより得た1300ページのウェブページについて、前記した従来法であるMDS法(非特許文献1参照)で可視化処理を行った。ここでは、単語頻度ベクトルを次元圧縮して可視化する方法と、前記した事後確率ベクトルを次元圧縮して可視化する方法の2つの方法で行った。
図5は、MDS法により単語頻度ベクトルを次元圧縮して可視化した結果を示す図である。図5では、各カテゴリーのクラスターが集中し、ウェブサイト同士が重なるため、ウェブページ群の類似関係が分かりにくかった。このため、文書が持つ特徴がわからない。これは、カテゴリーの関係が反映されずに、可視化が行われたからである。
図6は、MDS法により事後確率ベクトルを次元圧縮して可視化した結果を示す図である。図6では、カテゴリーごとにクラスターが形成され、分類ミスを探し出すことはできた。しかし、クラスターが集中し、カテゴリー間の類似関係や、多重カテゴリー、特異文書を探し出しにくかった。
このように、従来法との比較を行った結果、図5および図6に示したように、いずれの場合も、クラスターが集中するため、本発明による図4の場合に比べて、ウェブページ群の類似関係などが分かりにくかった。
また、従来法では、カテゴリー数Kを考慮せずに文書同士を比較して可視化処理を行うため、文書数をNとした場合、計算量OはO(N2)になるのに対して、本発明では、各文書と各カテゴリーとを比較して可視化処理を行うため、計算量OはO(NK)になる。このため、従来法では、文書数が多くなると、計算量が2のべき乗で増加することになるのに対し、本発明ではそれほど増加することとならない。したがって、可視化装置10では、大量の文書群にも適用しやすくなる。
なお、本発明は、前記した実施の形態に限られるものではない。記憶装置12のデータ構造及びプログラム処理の順序は、既知の技術により種々の変更が可能である。
また、可視化装置10は、サーバ装置で構成する場合について説明したが、例えば、単一のパーソナルコンピュータなどのコンピュータで構成するようにしてもよい。
本発明の実施の形態に係る可視化装置を含むシステムを示すブロック図である。 図1の可視化装置による可視化の手法を示す説明図である。 図1の可視化装置おける可視化方法の動作手順を示す図である。 図1の可視化装置によって可視化された結果の例を示す図である。 MDS法により単語頻度ベクトルを次元圧縮して可視化した結果を示す図である。 MDS法により事後確率ベクトルを次元圧縮して可視化した結果を示す図である。
符号の説明
10 可視化装置
12 記憶装置
13 処理装置
20 通信ネットワーク
30 利用者用端末

Claims (8)

  1. 予め登録されたカテゴリーに分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置における文書間関係可視化方法であって、
    前記可視化装置は、
    カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定するステップと、
    前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置するステップと、
    前記配置した可視化空間を外部出力するステップと、
    を実行することを特徴とする文書間関係可視化方法。
  2. 前記記憶装置には、最大エントロピーの条件がさらに格納され、
    前記可視化装置は、
    前記事後確率ベクトルを推定するステップを実行する際に、前記記憶装置から読み出した最大エントロピー法の条件に従って、前記事後確率ベクトルに基づく前記文書の事後確率が最高となったカテゴリーの文書生成モデルを用いて、前記事後確率ベクトルを推定する
    ことを特徴とする請求項1に記載の文書間関係可視化方法。
  3. 前記可視化装置は、
    前記各文書と前記各カテゴリーとの関係を配置するステップを実行する際に、前記登録済みのカテゴリーに属する確率に応じて、前記各文書および前記各カテゴリーの間の距離を前記可視化空間上で調整して配置する
    ことを特徴とする請求項1に記載の文書間関係可視化方法。
  4. 予め登録されたカテゴリー分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置であって、
    前記可視化装置は、
    カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する推定機能と、
    前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置する可視化機能と、
    前記配置した可視化空間を外部出力する出力機能と、
    を備えたことを特徴とする可視化装置。
  5. 前記記憶装置には、最大エントロピーの条件がさらに格納され、
    前記可視化装置は、
    前記事後確率ベクトルを推定する際に、前記記憶装置から読み出した最大エントロピー法の条件に従って、前記事後確率ベクトルに基づき前記文書の事後確率が最高となったカテゴリーの文書生成モデルを用いて、前記事後確率ベクトルを推定する
    ことを特徴とする請求項4に記載の可視化装置。
  6. 前記可視化装置は、
    前記各文書と前記各カテゴリーとの関係を配置する際に、前記登録済みのカテゴリーに属する確率に応じて、前記各文書および前記各カテゴリーの間の距離を前記可視化空間上で調整して配置する
    ことを特徴とする請求項4に記載の可視化装置。
  7. 請求項1ないし請求項3のいずれか1項に記載の文書間関係可視化方法をコンピュータに実行させるための可視化プログラム。
  8. 請求項1ないし請求項3のいずれか1項に記載の文書間関係可視化方法をコンピュータに実行させるための可視化プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004178752A 2004-06-16 2004-06-16 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 Expired - Fee Related JP4963341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004178752A JP4963341B2 (ja) 2004-06-16 2004-06-16 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004178752A JP4963341B2 (ja) 2004-06-16 2004-06-16 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2006004105A true JP2006004105A (ja) 2006-01-05
JP4963341B2 JP4963341B2 (ja) 2012-06-27

Family

ID=35772461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004178752A Expired - Fee Related JP4963341B2 (ja) 2004-06-16 2004-06-16 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4963341B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009063534A (ja) * 2007-09-10 2009-03-26 Denso It Laboratory Inc ナビゲーション装置および経路提示方法
JP4585597B1 (ja) * 2009-06-29 2010-11-24 株式会社東芝 表示処理装置、プログラムおよび表示処理方法
JP2013080395A (ja) * 2011-10-04 2013-05-02 Nippon Telegr & Teleph Corp <Ntt> 誤分類検出装置、方法、及びプログラム
JP2016081200A (ja) * 2014-10-15 2016-05-16 株式会社toor 情報表示方法及び情報表示装置
JPWO2017006577A1 (ja) * 2015-07-03 2017-11-24 三菱電機株式会社 3次元点群選択装置および3次元点群選択方法
JP2018198002A (ja) * 2017-05-24 2018-12-13 株式会社エヌ・ティ・ティ・データ 文書処理装置、文書処理方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009063534A (ja) * 2007-09-10 2009-03-26 Denso It Laboratory Inc ナビゲーション装置および経路提示方法
JP4585597B1 (ja) * 2009-06-29 2010-11-24 株式会社東芝 表示処理装置、プログラムおよび表示処理方法
JP2011008694A (ja) * 2009-06-29 2011-01-13 Toshiba Corp 表示処理装置、プログラムおよび表示処理方法
JP2013080395A (ja) * 2011-10-04 2013-05-02 Nippon Telegr & Teleph Corp <Ntt> 誤分類検出装置、方法、及びプログラム
JP2016081200A (ja) * 2014-10-15 2016-05-16 株式会社toor 情報表示方法及び情報表示装置
JPWO2017006577A1 (ja) * 2015-07-03 2017-11-24 三菱電機株式会社 3次元点群選択装置および3次元点群選択方法
JP2018198002A (ja) * 2017-05-24 2018-12-13 株式会社エヌ・ティ・ティ・データ 文書処理装置、文書処理方法及びプログラム

Also Published As

Publication number Publication date
JP4963341B2 (ja) 2012-06-27

Similar Documents

Publication Publication Date Title
JP7322044B2 (ja) レコメンダシステムのための高効率畳み込みネットワーク
JP4569955B2 (ja) 情報格納及び検索方法
Interdonato et al. Multilayer network simplification: approaches, models and methods
US9798732B2 (en) Semantic associations in data
JP6047017B2 (ja) パターン抽出装置および制御方法
JP5235666B2 (ja) 選択されたセグメントのビット平面表現を用いた連想マトリックス法、システムおよびコンピュータプログラム製品
US20080313213A1 (en) Efficient data infrastructure for high dimensional data analysis
JP2013225319A (ja) 視覚的な多次元の検索
JP2007287139A (ja) 消費者に製品を推奨するためのコンピュータ実施方法及びシステム
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
JP2004178604A (ja) 情報検索装置及びその方法
JP2006127484A (ja) 情報処理方法
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
JP6079270B2 (ja) 情報提供装置
KR101467707B1 (ko) 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
JP4963341B2 (ja) 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体
Patel et al. Content based video retrieval
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
US20230267277A1 (en) Systems and methods for using document activity logs to train machine-learned models for determining document relevance
Cuzzocrea et al. Efficiently compressing OLAP data cubes via R-tree based recursive partitions
Rafiei et al. TraVaG: Differentially Private Trace Variant Generation Using GANs
Tang et al. A multidimensional collaborative filtering fusion approach with dimensionality reduction
Wang et al. Efficient sampling of training set in large and noisy multimedia data
JP2007066228A (ja) コンテンツ検索システムおよびその方法
CN108171371A (zh) 一种数据预测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100310

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100323

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

R150 Certificate of patent or registration of utility model

Ref document number: 4963341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees