JP5081059B2

JP5081059B2 - トピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体

Info

Publication number: JP5081059B2
Application number: JP2008124169A
Authority: JP
Inventors: 具治岩田; 武士山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-05-12
Filing date: 2008-05-12
Publication date: 2012-11-21
Anticipated expiration: 2028-05-12
Also published as: JP2009271874A

Description

本発明は、文書データの集合である文書データ集合など、各データが離散値のベクトルとして表現することが可能なデータが与えられたときに、そのデータに内在するトピックと共に、データ集合を可視化するトピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体に関する。

近年、大量の文書を示す文書データ集合（単に文書集合という）が電子的に蓄積されている。それぞれの文書は、その内容として数多くの単語を含んでいる。１つの文書を文書名（タイトル）で代表して指し示すように、１つの文書を２次元平面または３次元空間の位置座標を示す点により表示することによって可視化する技術が知られている（例えば、非特許文献１、非特許文献２参照）。

電子的に蓄積された多くの文書（文書集合）を、多数の点として一度に可視化することができれば、その対象とする文書集合のそれぞれの文書の内容をたとえ詳細に知らなくても、膨大な数の文書集合の全体的な特徴を瞬時に理解することが可能になる。また、Ｗｅｂ空間等に蓄積された文書集合をブラウジングする際に、検索対象の文書群を一度に可視化することができれば、膨大な文書集合の中から、目的の文書を直感的に検索することが可能になる。

非特許文献１に記載された可視化法は、可視化対象とする２つのデータ間の類似度などの関連性をもとに、例えば文書データ集合等のデータ集合を可視化する方法である。また、非特許文献２に記載された可視化法は、可視化対象とするデータのトピックを考慮して推定された確率モデル（トピックモデル）を予め前処理によって用意しておき、このトピックモデルを利用して推定される出力結果（データ集合の座標）をもとに、可視化するものである。非特許文献２に記載された可視化法において、数万もの文書から作成された数万語の単語群をデータとして、トピックモデルを用いて推定した文書集合の位置座標を２次元平面上に可視化した結果の一例を図８に示す。

図８において、各点は１つの単語の座標、大きな語句はトピックの平均の座標を表し、いくつかの単語の例を表示している。全体的には大きな五角形の頂点と、その頂点を結ぶ直線（実際には曲線）上に、多くの点（多くの単語）が配置されている。各頂点に集まっている点（単語）は、クラスタを形成している。これら五角形の頂点に集まっている点（単語）は、そのトピックにおける典型的な単語を示している。例えば、化学で使われる単語「ACTIVATED」は、トピック「chemistry」が示す領域の頂点（図８において最上部）に位置している。一方、五角形の中心付近に近づくにつれて集まっている点（単語）は、より一般的な単語となる傾向がある。

また、図８において、すべての２つのクラスタ間に点（ドット）による曲線が張られている。このような曲線上にある単語は２つのトピックを持った単語である。例えば、図８において最下部の２つのクラスタ間に張られた曲線の中央付近の単語「DEPOSITS」には、「堆積」、「預金」という２つの異なる意味がある。つまり、単語「DEPOSITS」は、トピック「geology（地学）」に関する文書においては、通常、「堆積」の意味で用いられており、トピック「banking（金融）」に関する文書においては、通常、「預金」の意味で用いられている。そのため、この２次元平面上では、対象とする文書集合に含まれる単語「DEPOSITS」の座標位置は、トピック「geology（地学）」を典型的に示すクラスタと、トピック「banking（金融）」を典型的に示すクラスタとの間に張られた曲線の中央付近となっている。
山田武士、斉藤和巳、上田修功、「クロスエントロピー最小化に基づくネットワークデータの埋め込み」、情報処理学会論文誌、vol.44、pp.2401-2408（2003）岩田具治、斉藤和巳、上田修功、「パラメトリック埋め込み法によるクラス構造の可視化」、情報処理学会論文誌、vol.46、pp.2337-2346（2005）

しかしながら、非特許文献１に記載された可視化方法では、可視化対象とするデータが文書の場合におけるトピックなど、そのデータ（例えば、文書データ）に内在する隠れた構造（例えば、トピック）を考慮していないという問題点がある。なお、データに内在する「隠れた構造」と反対の意味の「明白な構造」とは、例えば、文書データの場合には、それぞれの文書データに予め付与された明白なラベル（その文書の内容を示す「分野」などのラベル）のことをいう。一方、このようなラベルは、例えば、Ｗｅｂ上の文書データ等、取り扱うデータによっては、常に与えられているものではない。例えば、Ｗｅｂ上の文書データであっても、その文書を構成する特徴的な単語によって、当該文書データに、どのようなラベルが付与されるべきか推定することは可能である。この場合、分類を行う利用者が予め定めた複数のラベルのうち、対象とする文書にとって最適であろうと推定されたラベルが、「隠れた構造」に相当することとなる。

また、非特許文献２に記載された方法では、トピックを考慮しているものの、理想的なトピックモデルを予め推定して用意しておく段階（前処理）と、この予め推定されたトピックモデルを用いて推定された（忠実に変換された）データ集合の座標を可視化する段階（本処理）とが存在している。つまり、この方法では、トピックモデルの推定ステップと、トピックモデルを用いて可視化用のデータの座標を推定するステップとが分離されている。このため、この方法では、厳密には、前処理段階では、トピックモデルを利用して推定されたデータ集合の座標（結果）を所望の可視化結果として生じさせるような最適なトピックモデル（原因）を得られないという問題点がある。

そこで、本発明は、以上のような問題点に鑑みてなされたものであり、対象とするデータ集合を可視化したときに最適なトピックモデルをもとにして、そのデータ集合を可視化することのできるトピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体を提供することを目的とする。

本発明は、前記課題を解決するために創案されたものであり、請求項１に記載のトピック可視化装置は、意味が付与された記号単位から成る系列を内容として含むデータであって前記記号単位を離散値のベクトルとして表現することが可能なデータを、予め定められた空間において類似するデータが近くに配置されるように可視化するための各データの配置を求めるトピック可視化装置において、前記予め定められた空間における第ｎ番目（１≦ｎ≦Ｎ、Ｎはデータの総数）のデータｗ _n の位置であるデータ座標ｘ _n の初期値と、前記予め定められた空間における第z番目（１≦ｚ≦Ｚ、Ｚはトピックの総数）のトピックｚの位置であるトピック座標φ _z の初期値と、各トピックｚにおいて前記データｗ _n に含まれるｍ番目（１≦ｍ≦Ｍ _ｎ、Ｍ _ｎはデータｗ _ｎで扱う記号単位の総数）の記号単位ｗ _nm が出現する単語出現確率θ _zwnm の初期値を設定する初期化手段と、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θとがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第１の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新する配置処理手段と、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z とを用いて前記単語出現確率θ _zwnm を更新し、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z と前記更新後の単語出現確率θ _zwnm とを用いて計算される前記第１の尤度が所定の収束条件を満たさない場合には、前記配置処理手段による処理を繰り返し実行させ、前記第１の尤度が前記収束条件を満たす場合に、前記更新後のデータ座標ｘ _n の集合を出力するトピックモデル推定処理手段とを備えることを特徴とする。

また、前記課題を解決するために、請求項５に記載のトピック可視化方法は、意味が付与された記号単位から成る系列を内容として含むデータであって前記記号単位を離散値のベクトルとして表現することが可能なデータを、予め定められた空間において類似するデータが近くに配置されるように可視化するための各データの配置を求めるトピック可視化方法であって、初期化手段が、前記予め定められた空間における第ｎ番目（１≦ｎ≦Ｎ、Ｎはデータの総数）のデータｗ _n の位置であるデータ座標ｘ _n の初期値と、前記予め定められた空間における第z番目（１≦ｚ≦Ｚ、Ｚはトピックの総数）のトピックｚの位置であるトピック座標φ _z の初期値と、各トピックｚにおいて前記データｗ _n に含まれるｍ番目（１≦ｍ≦Ｍ _ｎ、Ｍ _ｎはデータｗ _ｎで扱う記号単位の総数）の記号単位ｗ _nm が出現する単語出現確率θ _zwnm の初期値を設定する初期化ステップと、配置処理手段が、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θとがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第１の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新する配置処理ステップと、トピックモデル推定処理手段が、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z とを用いて前記単語出現確率θ _zwnm を更新し、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z と前記更新後の単語出現確率θ _zwnm とを用いて計算される前記第１の尤度が所定の収束条件を満たさない場合には、前記配置処理ステップを繰り返し実行させ、前記第１の尤度が前記収束条件を満たす場合に、前記更新後のデータ座標ｘ _n の集合を出力するトピックモデル推定処理ステップとを含むことを特徴とする。

請求項１に記載のトピック可視化装置、または、請求項５に記載のトピック可視化方法によれば、トピック可視化装置は、記憶手段に、可視化対象とするデータの集合、データ座標の集合、トピック座標の集合、トピックモデルの集合を記憶し、初期化する。ここで、トピック可視化装置が可視化対象とするデータは、例えば、文書データ、購買データ、遺伝子配列データなど離散値のベクトルとして表現することが可能なデータである。つまり、可視化対象とするデータは、連続値のベクトルとして表現されるものではない。なお、連続値のベクトルは、確率分布の概念を連続値の場合に拡張したものであって、確率変数の分布が確率密度関数を用いて記述されるベクトルである。トピック可視化装置において可視化対象とするデータは、例えば、文書データの場合、「意味が付与された記号単位」とは単語を指し、「トピック」とは、例えば、クラス、ジャンル、ラベル等を指す。そして、トピック可視化装置は、配置処理手段によって、データ座標の集合およびトピック座標の集合を推定する。ここで、データ座標の集合およびトピック座標の集合を推定するとは、データ集合を可視化するときの配置を推定することを指す。そして、トピック可視化装置は、トピックモデル推定処理手段によって、トピックモデルの集合を推定する。ここで、トピックモデルとは、可視化対象とするデータが例えば文書データであれば、トピックが内在する文書データにおいて各単語が出現する確率（単語出現確率）のことを指す。そして、トピック可視化装置は、配置の推定およびトピックモデルの推定の一連の処理を、データの集合に対して、その配置とトピックモデルの推定が最適化されるまで繰り返し、最適になったときのデータ座標の集合を出力する。ここで、繰り返しにより「最適になったとき」とは、データを可視化するときの配置およびその時点のトピックモデルの計算値が、入力であるデータの集合をどのくらい尤もらしく説明できているかを表す第１の尤度が収束したときのことを意味する。なお、最適になったか否かの判別はトピックモデル推定処理手段により行うことができる。

また、請求項２に記載のトピック可視化装置は、請求項１に記載のトピック可視化装置において、前記データ座標ｘ _n と前記トピック座標φ _z との前記予め定められた空間における距離が近いほど確率が高くなるように、前記データ座標ｘ _n が各トピックｚに帰属する確率であるトピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）を計算し、前記トピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）と前記単語出現確率θ _zw との積が大きいほど値が大きくなるように、前記各記号単位ｗ _nm が各トピックｚに帰属する確率である帰属度ｑ _nmz を計算する帰属度推定処理手段をさらに有し、前記配置処理手段は、前記第１の尤度の代わりに、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θと前記帰属度ｑ _nmz の集合とがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第２の尤度を用いて、当該第２の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新し、前記トピックモデル推定処理手段は、前記第２の尤度が前記収束条件を満たさない場合には、前記帰属度推定処理手段および前記配置処理手段による処理を繰り返し実行させることを特徴とする。

また、請求項６に記載のトピック可視化方法は、請求項５に記載のトピック可視化方法において、帰属度推定処理手段が、前記データ座標ｘ _n と前記トピック座標φ _z との前記予め定められた空間における距離が近いほど確率が高くなるように、前記データ座標ｘ _n が各トピックｚに帰属する確率であるトピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）を計算し、前記トピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）と前記単語出現確率θ _zwnm との積が大きいほど値が大きくなるように、前記各記号単位ｗ _nm が各トピックｚに帰属する確率である帰属度ｑ _nmz を計算する帰属度推定処理ステップをさらに含み、前記配置処理ステップは、前記第１の尤度の代わりに、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θと前記帰属度ｑ _nmz の集合とがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第２の尤度を用いて、当該第２の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新し、前記トピックモデル推定処理ステップは、前記第２の尤度が前記収束条件を満たさない場合には、前記帰属度推定処理ステップおよび前記配置処理ステップを繰り返し実行させることを特徴とする。

請求項２に記載のトピック可視化装置、または、請求項６に記載のトピック可視化方法によれば、トピック可視化装置は、帰属度推定処理手段によって、推定する帰属度として、データ座標がトピックに帰属する確率と、トピックモデルから推定されるトピック帰属度との双方を考慮した帰属度を推定する。そして、トピック可視化装置は、トピックモデル推定処理手段によって、データの集合と共に受け付けた帰属度でデータの集合に重みをつけることにより、トピックモデルの集合を推定する。つまり、トピック可視化装置は、第一に、推定すべき帰属度において、従来のように座標がトピックに帰属する確率だけを帰属度として単純に用いるのではなく、トピックモデルをも反映させる。第二に、トピック可視化装置は、推定すべきトピックモデルにおいて、従来とは異なるこの特徴的な帰属度で重み付けをする。したがって、帰属度の推定、配置の推定およびトピックモデルの推定の一連の処理を繰り返すことで、データ集合を可視化するときの配置と共に最適化されたトピックモデルは、次の二点で、従来と比べてより最適となる。第一に、座標がトピックに帰属する確率だけを帰属度として単純に用いる場合と比較して最適なトピックモデルを求めることができる。第二に、トピックモデルを帰属度で重み付けを行わない場合と比較して、最適なトピックモデルを求めることが可能となる。

また、請求項３に記載のトピック可視化装置は、請求項１に記載のトピック可視化装置において、前記配置処理手段における前記第１の尤度は、後記する式（１２）で表され、前記トピックモデル推定処理手段において前記第１の尤度が前記収束条件を満たす場合とは、式（１２）に示すＬ（Ｘ，Φ，Θ｜Ｃ）が最大となる場合であることを特徴とする。
また、請求項４に記載のトピック可視化装置は、請求項２に記載のトピック可視化装置において、前記データｗ _ｎの集合Ｃにおける第ｗ番目（１≦ｗ≦Ｗ、Ｗは集合Ｃで扱う記号単位の総数）の記号単位がトピックｚにおいて出現する単語出現確率をθ _zw としたとき、前記単語出現確率θ _zw は前記単語出現確率θ _zwnm のいずれかであり、前記配置処理手段における前記第２の尤度は、後記する式（１３）で表され、前記トピックモデル推定処理手段において前記第２の尤度が前記収束条件を満たす場合とは、式（１３）に示すＱ（Ｘ，Φ）が最大となる場合であることを特徴とする。
また、請求項７に記載のトピック可視化方法は、請求項５に記載のトピック可視化方法において、前記配置処理ステップにおける前記第１の尤度は、後記する式（１２）で表され、前記トピックモデル推定処理ステップにおいて前記第１の尤度が前記収束条件を満たす場合とは、式（１２）に示すＬ（Ｘ，Φ，Θ｜Ｃ）が最大となる場合であることを特徴とする。
また、請求項８に記載のトピック可視化方法は、請求項６に記載のトピック可視化方法において、前記データｗ _ｎの集合Ｃにおける第ｗ番目（１≦ｗ≦Ｗ、Ｗは集合Ｃで扱う記号単位の総数）の記号単位がトピックｚにおいて出現する単語出現確率をθ _zw としたとき、前記単語出現確率θ _zw は前記単語出現確率θ _zwnm のいずれかであり、前記配置処理ステップにおける前記第２の尤度は、後記する式（１３）で表され、前記トピックモデル推定処理ステップにおいて前記第２の尤度が前記収束条件を満たす場合とは、式（１３）に示すＱ（Ｘ，Φ）が最大となる場合であることを特徴とする。
また、請求項９に記載のトピック可視化プログラムは、請求項１から請求項４のいずれか一項に記載のトピック可視化装置を構成する各手段として、コンピュータを機能させるためのプログラムである。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。

また、請求項１０に記載のコンピュータ読み取り可能な記録媒体は、請求項９に記載のトピック可視化プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。

本発明によれば、対象とするデータ集合を可視化したときに最適なトピックモデルをもとにして、そのデータ集合を可視化することができる。その結果、このようにデータ集合を可視化することによって、膨大なデータ集合の全体的特徴を理解することや、ブラウジングしながら直感的に目的のデータを検索することが可能になる。

以下、本発明を実施するための最良の形態（以下、「実施形態」という）について図面を参照して説明する。

［トピック可視化装置の構成の概要］
図１は、本発明の実施形態に係るトピック可視化装置の構成を示すブロック図である。
トピック可視化装置１は、内容を離散値のベクトルとして表現することが可能なデータを、そのデータに内在するトピックと共に、予め定められた空間において可視化するものである。ここで、データとは、意味が付与された記号単位から成る系列を内容として含むものであり、例えば、文書データ、購買データ、遺伝子配列データなどである。例えば、文書データの場合、意味が付与された記号単位とは単語を指し、トピックとは、データの集合において予め定められており、例えば、クラス、ジャンル、ラベル等を指す。以下では、簡単のためデータを文書データとして説明する。このトピック可視化装置１は、図１に示すように、演算手段２と、入力手段３と、記憶手段４と、出力手段５とを備えている。各手段２〜５はバスライン１１に接続されている。

演算手段２は、例えば、ＣＰＵ（Central Processing Unit）およびＲＡＭ（Random Access Memory）から構成される主制御装置である。この演算手段２は、図１に示すように、帰属度推定部２１と、配置部２２と、トピックモデル推定部２３と、可視化部２４と、メモリ２５とを含んで構成される。演算手段２は、記憶手段４から、帰属度推定プログラム４１、配置プログラム４２、トピックモデル推定プログラム４３、および可視化プログラム４４をそれぞれ読み込み、メモリ２５に格納し、実行することで、前記した帰属度推定部２１と、配置部２２と、トピックモデル推定部２３と、可視化部２４とをそれぞれ実現する。なお、これら帰属度推定部２１、配置部２２、トピックモデル推定部２３および可視化部２４の詳細は後記する。

入力手段３は、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。記憶手段４は、例えば、一般的なハードディスク装置などから構成され、プログラム格納部４０ａと、データ格納部４０ｂと、を含む。

プログラム格納部４０ａには、演算手段２で用いられるプログラムとして、帰属度推定プログラム４１と、配置プログラム４２と、トピックモデル推定プログラム４３と、可視化プログラム４４と、を記憶させておくことが可能である。また、データ格納部４０ｂには、演算手段２で用いられる各種データとして、入力データ４５、帰属度集合４６、文書座標集合４７、トピック座標集合４８、単語出現確率集合４９を記憶する。ここで、入力データ４５は入力手段３を介して入力され、記憶手段４のデータ格納部４０ｂに記憶される構成とすることが可能である。また、帰属度集合４６、文書座標集合４７、トピック座標集合４８、単語出現確率集合４９は、演算手段２の演算処理結果を示すデータであり、その詳細については後記する。

出力手段５は、例えば、グラフィックボード（出力インタフェース）およびそれに接続されたモニタである。モニタは、例えば、液晶ディスプレイ等から構成され、可視化を行った結果等を表示する。

［トピック可視化装置で扱うデータの概要］
（入力データ４５）
文書集合で扱うすべての単語の語彙数をＷとする。文書集合は、Ｎ個の文書（文書データ）からなる。文書に含まれる総単語数はＭ個である。文書に含まれるＭ個の総単語には、例えば、日本語であれば「は」、英語であれば「ａ」のように、文書中に何度も出現する単語が含まれている。文書に含まれるこれらの単語は、Ｗ個の語彙数のすべての単語のうちのいずれかの単語である。これらの内容を式（１）および式（２）のように定式化する。文書集合のうち、ｎ番目（１≦ｎ≦Ｎ）の文書ｗ_n（以下、第ｎ文書ｗ_nあるいは単に文書ｗ_nという）を、式（１）のように、長さＭ_nの単語系列として表現する。式（１）において、ｗ_{n m}は、第ｎ文書ｗ_nにおいてｍ番目（１≦ｍ≦Ｍ_n）に出現した単語を示す。また、式（１）で示した文書ｗ_nの集合を式（２）で示す。この式（２）で示された文書集合Ｃが入力データ４５として与えられる。

（文書座標集合４７）
文書集合Ｃに含まれるそれぞれの文書（文書データ）を、その文書（文書データ）のトピックにより文書間の関係（文書データ間の関係）が理解されるように可視化する空間としてＤ次元空間を定義する。Ｄは、一般に２または３である。ここで、トピックは、例えば、クラス、ジャンル、ラベル等を示し、文書データの構造を直感的に理解させることのできるものであり、データと共に埋め込まれるクラスやベクトルで表すことが可能である。このＤ次元空間において、文書ｗ_nの位置を示す座標ｘ_n（以下、文書座標ｘ_nという）を式（３）で示す。また、式（３）で示した文書座標ｘ_nの集合Ｘを式（４）で示す。この式（４）で示された文書座標集合Ｘは、推定する必要がある未知パラメータであり、文書座標集合４７として計算される。

（トピック座標集合４８）
Ｄ次元空間において、文書間の関係（文書データ間の関係）がその文書（文書データ）のトピックにより理解されるように可視化される際に、ｚ番目のトピックｚ（以下、単にトピックｚという、１≦ｚ≦Ｚ）の位置を示す座標φ_z（以下、トピック座標φ_zという）を式（５）で示す。また、式（５）で示したトピック座標φ_zの集合Φを式（６）で示す。式（６）においてＺは、トピックの総数である。この式（６）で示されたトピック座標集合Φは、推定する必要がある未知パラメータであり、トピック座標集合４８として計算される。

（単語出現確率集合４９）
Ｄ次元空間において、文書間の関係（文書データ間の関係）がその文書（文書データ）のトピックにより理解されるように可視化される際に、その文書（文書データ）のトピックｚにおいて、文書集合で扱う各単語（語彙数Ｗ）がどれくらいの確率で現れているかを示す指標θ_z（文書集合で前提とするトピックｚが内在する全文書において、文書集合で扱う各単語が出現する確率（トピックモデル）、以下、単語出現確率θ_zという）を式（７）で示す。式（７）においてθ_{z w}はトピックｚにおいて第ｗ番目（１≦ｗ≦Ｗ）の単語が出現する確率を表す。単語出現確率θ_zは、語彙数Ｗと同数の要素を有し、式（８）に示すように、各要素の確率の総和は１に正規化されている。なお、第ｗ番目の単語（１≦ｗ≦Ｗ）は、前記した単語ｗ_{n m}のいずれかに対応する。すなわち、第ｗ番目の単語とは、第ｎ文書ｗ_nにおいてｍ番目（１≦ｍ≦Ｍ_n）に出現した単語のいずれかに対応している。

また、式（７）で示した単語出現確率θ_zの集合Θを式（９）で示す。式（９）においてＺは、トピックの総数である。この式（９）で示された単語出現確率集合Θは、推定する必要がある未知パラメータであり、単語出現確率集合４９として計算される。

（帰属度集合４６）
帰属度は、文書集合Ｃにおいて前記した式（１）で示された第ｎ文書ｗ_n（１≦ｎ≦Ｎ）の長さＭ_nの単語系列として出現したｍ番目（１≦ｍ≦Ｍ_n）の単語が、どのトピックｚに帰属するかを表し、推定する必要がある未知パラメータである。本実施形態で用いる帰属度は、文書座標がトピックに帰属する確率として推定されるトピック帰属度（以下、トピック帰属確率という）と、式（９）で示された単語出現確率集合Θから推定されるトピック帰属度との双方を考慮したものである。ここで、トピック帰属確率は、式（３）で示された文書座標ｘ_nと式（６）で示されたトピック座標集合Φとの両方の座標を用いることで、その文書座標ｘ_nがトピックｚに帰属する確率として推定される。採用すべきトピック帰属確率（関数）としては、文書座標ｘ_nとトピック座標φ_zとのユークリッド距離が近ければ、そのトピックｚに属する確率は高くなり、逆に、遠ければそのトピックｚに属する確率は低くなるものを用いる。

ここでは、入力として、文書座標、トピック座標集合をとるトピック帰属確率（関数）の一例として、式（１０）に示すトピック帰属確率Ｐ（ｚ｜ｘ_n，Φ）を採用した。式（１０）において、‖・‖はユークリッド距離を表す。

式（１０）に示すトピック帰属確率Ｐ（ｚ｜ｘ_n，Φ）と単語出現確率集合Θから推定されるトピック帰属度との双方を考慮した帰属度の一例として、式（１１）に示す帰属度ｑ_{n m z}を採用した。なお、

は式（８）およびその説明で定義したものである。この式（１１）で示された帰属度ｑ_{n m z}は、長さＭ_nの単語系列を有した第ｎ文書ｗ_nを文書集合Ｃに亘って走査した総単語について求められるが、単語出現確率θ_zが語彙数Ｗと同数の要素を有しているので、実質的には語彙数Ｗとトピックの総数Ｚとの積の個数の集合が求められる。この帰属度ｑ_{n m z}の集合は、推定する必要がある未知パラメータであり、帰属度集合４６として計算される。

［トピック可視化装置の処理の概要］
（処理の全体の流れ）
図２は、図１に示したトピック可視化装置による処理の流れを示すフローチャートである。まず、トピック可視化装置１は、入力データ４５（文書集合Ｃ）を読み込む（ステップＳ１）。次に、トピック可視化装置１は、文書座標集合４７（文書座標集合Ｘ）、トピック座標集合４８（トピック座標集合Φ）、単語出現確率集合４９（単語出現確率集合Θ）、をランダムに初期化する（ステップＳ２）。つまり、文書座標集合４７、トピック座標集合４８、単語出現確率集合４９のそれぞれの初期状態は、集合の各要素がランダムな値（例えば、０）を有した集合として設定される。続いて、トピック可視化装置１は、帰属度推定部２１において帰属度集合４６（帰属度ｑ_{n m z}の集合）を計算する処理（ステップＳ３：帰属度推定処理ステップ）、配置部２２において文書座標集合４７およびトピック座標集合４８を計算する処理（ステップＳ４：配置処理ステップ）、トピックモデル推定部２３において単語出現確率集合４９を計算する処理（ステップＳ５：トピックモデル推定処理ステップ）を一連の演算処理として、この一連の演算処理を、目的関数が収束するまで繰り返し（ステップＳ６：Ｎｏ）、目的関数が収束したときに、可視化部２４により、そのときの文書座標集合４７（文書座標集合Ｘ）を出力する（ステップ７：可視化処理ステップ）。このとき出力される文書座標集合４７は、Ｄ次元空間において、文書間の関係（文書データ間の関係）がその文書（文書データ）のトピックにより理解されるように可視化される配置座標のデータである。

（目的関数）
ステップＳ６において値の収束が判別される目的関数は、「文書座標集合４７、トピック座標集合４８、単語出現確率集合４９が、どのくらい入力データ４５を尤もらしく説明できているかを表す尤度」を示す関数である。つまり、「目的関数が収束するまで繰り返す」とは、「それぞれ計算された文書座標集合４７、トピック座標集合４８、単語出現確率集合４９の計算された時点における推定値が、どのくらい入力データ４５を尤もらしく説明できているかを表す尤度が収束するまで繰り返す」ことを意味する。ここで、尤度が収束した状態、すなわち、尤度が高くなる状態とは、Ｄ次元空間に可視化した際に、例えば、次の（１）〜（３）のような状態になることである。（１）帰属度が高いトピックの位置の近くに文書が配置されている状態、（２）トピックが似ている文書同士が近くに配置されている状態、（３）トピックの典型的な単語の出現確率が高くなっている状態。

この尤度計算において、例えば、入力データ４５、文書座標集合４７、トピック座標集合４８および単語出現確率集合４９を目的関数の入力とする場合には、一例として、式（１２）に示すＬ（Ｘ，Φ，Θ｜Ｃ）を尤度として採用することができる。式（１２）において、Ｐ（ｚ｜ｘ_n，Φ）は、前記した式（１０）のトピック帰属確率である。

［トピック可視化装置の構成の詳細］
次に、演算手段２の各部の構成の詳細を説明する。以下ではＥＭアルゴリズム（Expectation−Maximization algorithm）に基づいて帰属度推定（ステップＳ３）、配置（ステップＳ４）、トピックモデル推定（ステップＳ５）を行う場合について記述する。なお、ＥＭアルゴリズムは、ステップＳ３〜Ｓ５までの一連の処理で推定された各未知パラメータを入力として式（１２）で示される尤度Ｌ（Ｘ，Φ，Θ｜Ｃ）の収束条件が満たされるまで（尤度Ｌが最大化するまで）、Ｅステップ(Expectation step)とＭステップ(Maximization step)との２つの手順を繰り返すアルゴリズムである。

＜帰属度推定部＞
図３は、図１に示した帰属度推定部の構成を示す機能ブロック図である。帰属度推定部（帰属度推定処理手段）２１は、記憶手段４に記憶されている文書座標集合４７、トピック座標集合４８、単語出現確率集合４９について入力をそれぞれ受け付け、帰属度を推定し、記憶手段４に更新して格納するものである。このために、帰属度推定部２１は、図３に示すように、パラメータ読込部２１１と、帰属度計算部２１２と、帰属度書込部２１３とを備えている。

パラメータ読込部２１１は、文書座標集合４７と、トピック座標集合４８と、単語出現確率集合４９とを読み込み、帰属度計算部２１２に出力する。

帰属度計算部２１２は、各文書ｗ_n（ｎ＝１，…，Ｎ）に含まれるＭ_n個の単語系列の各単語（ｍ＝１，…，Ｍ_n）がどのトピック（ｚ＝１，…，Ｚ）に帰属するかを表す帰属度を計算する。本実施形態では、帰属度計算部２１２は、文書座標集合４７と、トピック座標集合４８と、単語出現確率集合４９の入力を受け付け、前記した式（１１）により帰属度ｑ_{n m z}を計算する。

帰属度書込部２１３は、帰属度計算部２１２で算出された帰属度ｑ_{n m z}の集合を帰属度集合４６として記憶手段４に格納する。

＜配置部＞
図４は、図１に示した配置部の構成を示す機能ブロック図である。配置部（配置処理手段）２２は、記憶手段４に記憶されている、帰属度集合４６、文書座標集合４７、トピック座標集合４８、単語出現確率集合４９について入力を受け付け、入力として受け付けた各集合に対して文書座標集合４７およびトピック座標集合４８を最適化させるために予め定められた目的関数により、文書座標集合４７およびトピック座標集合４８を推定し、記憶手段４に更新して格納するものである。このために、配置部２２は、図４に示すように、パラメータ読込部２２１と、配置計算部２２２と、配置書込部２２３とを備えている。

パラメータ読込部２２１は、帰属度集合４６と、文書座標集合４７と、トピック座標集合４８と、単語出現確率集合４９とを読み込み、配置計算部２２２に出力する。

配置計算部２２２は、入力として受け付けた各データを用いて、文書座標集合４７とトピック座標集合４８とを推定する。配置計算部２２２は、「推定した文書座標集合４７およびトピック座標集合４８が、入力として受け付けた各データをどのくらい尤もらしく説明できているか」を表す尤度を最大にするような文書座標集合４７とトピック座標集合４８とを求める。本実施形態では、配置計算部２２２は、例えば、前記した式（１２）に示す尤度Ｌ（Ｘ，Φ，Θ｜Ｃ）の下界である式（１３）の目的関数Ｑ（Ｘ，Φ）を最大にするような文書座標集合４７（文書座標集合Ｘ）とトピック座標集合４８（トピック座標集合Φ）とを、準ニュートン法などの最適化法を用いて求めることとした。

式（１３）において、α、β、γはハイパーパラメータである。式（１３）に示す目的関数Ｑ（Ｘ，Φ）は、入力として、帰属度集合４６、文書座標集合４７、トピック座標集合４８、単語出現確率集合４９をとり、「推定した文書座標集合４７およびトピック座標集合４８」の現在値（推定値）が、入力として受け付けたデータ（帰属度集合４６（帰属度ｑ_{n m z}の集合）、文書座標集合４７（文書座標集合Ｘ）、トピック座標集合４８（トピック座標集合Φ）、単語出現確率集合４９（単語出現確率集合Θ））を、どのくらい尤もらしく説明できているかを表す関数である。

配置書込部２２３は、配置計算部２２２で算出された文書座標ｘ_nおよびトピック座標φ_zの各集合を、文書座標集合４７およびトピック座標集合４８として記憶手段４に格納する。

＜トピックモデル推定部＞
図５は、図１に示したトピックモデル推定部の構成を示す機能ブロック図である。トピックモデル推定部（トピックモデル推定処理手段）２３は、記憶手段４に記憶されている、可視化対象とする入力データ４５（文書集合）ついて入力を受け付け、受け付けた入力データ４５により、トピックモデルの集合として単語出現確率集合４９を推定し、記憶手段４に更新して格納するものである。このために、トピックモデル推定部２３は、図５に示すように、パラメータ読込部２３１と、トピックモデル計算部２３２と、トピックモデル書込部２３３とを備えている。

パラメータ読込部２３１は、入力データ４５と、帰属度集合４６とを読み込み、トピックモデル計算部２３２に出力する。

トピックモデル計算部２３２は、入力データ４５と、帰属度集合４６とを用いて、各トピック（ｚ＝１，…，Ｚ）について、文書集合Ｃで扱うすべての単語（語彙数Ｗ：ｗ＝１，…，Ｗ）の出現確率（単語出現確率θ_{z w}）を計算する。本実施形態では、トピックモデル計算部２３２は、一例として、式（１４）に示すように、指示関数Ｉ（Ａ）を、前記した式（１１）に示す帰属度ｑ_{n m z}で重みをつけて数えることにより、単語出現確率

を計算する。式（１４）において、指示関数Ｉ（Ａ）は、Ａが真ならばＩ（Ａ）＝１、偽ならばＩ（Ａ）＝０となる。なお、「ｗ」を一文字で単独で表記したときには、１〜Ｗまでの整数を意味するが、「ｗ」を下付き文字と共に表記した場合には、前記した式（１）の文書または単語を意味する。

トピックモデル書込部２３３は、トピックモデル計算部２３２で算出された単語出現確率

の集合を、単語出現確率集合４９として記憶手段４に格納する。

本実施形態では、トピックモデル計算部２３２は、前記した式（１２）の目的関数が収束したか否かを判別することとする。判別の結果、収束していなければ、トピックモデル計算部２３２が、帰属度推定部２１、配置部２２、トピックモデル推定部２３による一連の処理を繰り返す制御を行う。一方、判別の結果、収束していれば、トピックモデル計算部２３２が、可視化を行うように可視化部２４に指示を送る。

＜可視化部＞
可視化部（可視化処理手段）２４は、帰属度推定部２１、配置部２２、トピックモデル推定部２３による一連の処理を繰り返すことで、入力データ４５に対して、文書座標集合４７、トピック座標集合４８および単語出現確率集合４９が最適化した場合に、記憶手段４に記憶されている文書座標集合４７を出力手段５に出力するものである。これにより、出力手段５は、入力データ４５の可視化結果を表示する。

なお、トピック可視化装置１は、一般的なコンピュータを、トピック可視化装置１を構成する前記した各手段として機能させるプログラム（トピック可視化プログラム）により動作させることで実現することができる。このプログラムは、通信回線を介して提供することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。このプログラムをインストールされたコンピュータは、ＣＰＵが、ＲＯＭ等に格納されたこのプログラムをＲＡＭに展開することにより、トピック可視化装置１と同等の効果を奏することができる。

本実施形態によれば、文書集合を可視化したときに最適な単語出現確率集合４９（トピックモデル）をもとにして、その文書集合を可視化することができる。その結果、このように文書集合を可視化することによって、電子的に蓄積された膨大な文書集合の全体的特徴を理解することや、Ｗｅｂデータをブラウジングしながら直感的に目的の文書データを検索することが可能になる。

以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、トピック可視化装置１が、前記したステップＳ６において値の収束を判別するための目的関数としては、式（１２）の尤度（関数）に限定されるものではない。代わりに、返される値が事後確率など同等の性質を持つ関数を用いることも可能である。

また、本実施形態では、トピックモデル計算部２３２が、前記した式（１２）の目的関数が収束したか否かを判別することとしたが、これに限定されず、帰属度推定部２１、配置部２２、トピックモデル推定部２３のいずれか、あるいは、これらと同等な別の図示しない判別部がこの制御を行うようにしてもよい。

また、本実施形態では、トピック可視化装置１の帰属度推定部２１、配置部２２、トピックモデル推定部２３の行う各処理について、ＥＭアルゴリズムに基づいて記述したが、代わりに、マルコフ連鎖モンテカルロ法等を用いることも可能である。また、本実施形態では、簡単のためデータを文書データとして説明したが、離散データであれば、購買データや遺伝子配列データ（ＤＮＡ塩基配列）など任意のデータに適用可能である。

本発明によるデータ集合の可視化の効果を確認するために、本実施形態に係るトピック可視化装置１によって、データ集合の一例として文書集合を２次元空間へ可視化する実験を行った。本実施形態に係るトピック可視化装置１によるトピック可視化方法（以下、ＰＬＳＶと呼ぶ）との比較例として、従来法である「ＭＤＳ」、「Ｉｓｏｍａｐ」、「ＰＬＳＡ」、「ＰＬＳＡ＋ＰＥ」をそれぞれ用いた。

＜比較手法＞
「ＭＤＳ（Multi-dimensional scaling：多次元尺度法）」は、２データ間の距離をできるだけ保存するように可視化空間へ埋め込む線形可視化法である。

「Ｉｓｏｍａｐ」は、近傍グラフのグラフ間距離を保存するように可視化空間へ埋め込む非線形埋め込み可視化法である。なお、Ｉｓｏｍａｐの詳細については、「Tenenbaum, J., de Silva, V. and Langfword, J.：A global geometric framework for nonlinear dimensionality reduction, Science, Vol. 290, pp.2319-2323（2000）」に記載されている。

「ＰＬＳＡ（Probabilistic Latent Semantic Analysis）」は、２次元単体トピック空間へデータを埋め込む方法である。

「ＰＬＳＡ＋ＰＥ」は、ＰＬＳＡによりトピック空間へデータを埋め込んだ後、ＰＥ（Parametric Embedding：パラメトリック埋め込み法）によってトピック帰属度を保存するように２次元空間へ埋め込む手法である。ＰＥの詳細については、非特許文献２に記載されている。

＜入力データ＞
可視化対象とする入力データとして、３種類の文書データ「ＮＩＰＳ」、「２０Ｎｅｗｓ」、「ＥａｃｈＭｏｖｉｅ」を用いた。

「ＮＩＰＳ」データは、２００１年から２００３年までの国際会議ＮＩＰＳ（The Neural Information Processing Systems）で発表された５９３文書（文書データ）から成る。それぞれの文書は、１３の研究分野（ラベル）、すなわち１３個のトピックに分類されている。

「２０Ｎｅｗｓ」データは、２０Ｎｅｗｓｇｒｏｕｐｓコーパス（The 20 Newsgroups data set）に含まれる１０００文書から成る。それぞれの文書（文書データ）は、２０の議論グループ（ラベル）、すなわち２０のトピックに分類されている。

「ＥａｃｈＭｏｖｉｅ」データは、７１８０ユーザによる７６４の映画の評点データである。それぞれの映画は１０のジャンル（ラベル）、すなわちトピックに分類されている。

＜ｋ近傍法による比較結果＞
評価手法として、可視化空間でのｋ近傍法（k-nearest neighbor algorithm、k-NN）の正答率を用いた。本実施例のトピック可視化方法（ＰＬＳＶ）と、従来法との比較結果を図６のグラフに示す。図６のグラフにおいて、横軸は最近傍のデータ数（neighbors）を示し、縦軸は正答率（accuracy）を示す。

図６（ａ）のグラフは、「ＮＩＰＳ」データを可視化した場合の結果を示し、図６（ｂ）のグラフは、「２０Ｎｅｗｓ」データを可視化した場合の結果を示し、図６（ｃ）のグラフは、「ＥａｃｈＭｏｖｉｅ」データを可視化した場合の結果を示している。各グラフにおいて、同じラベル（トピック）のデータが可視化空間において近くに配置されていれば、正答率（accuracy）は高くなる。図６（ａ）〜図６（ｃ）の各グラフに示すように、すべての種類の可視化対象データにおいて、本実施例のトピック可視化方法（ＰＬＳＶ）は、正答率が最も高い。したがって、ＰＬＳＶによると、入力されたデータの本質的な特徴を保存して２次元空間に可視化できていることがわかる。

＜可視化結果の例＞
図７は、入力データとして、「ＮＩＰＳ」データを用いた場合の各方法による可視化結果を示す。図７（ａ）は、本実施例のトピック可視化方法（ＰＬＳＶ）による可視化結果である。また、図７（ｂ）〜図７（ｅ）は、「ＭＤＳ」、「Ｉｓｏｍａｐ」、「ＰＬＳＡ」、「ＰＬＳＡ＋ＰＥ」のそれぞれの従来法による可視化結果である。図７（ａ）〜図７（ｅ）のそれぞれの可視化結果において、丸印等の個々の点が１つの文書（文書データ）を表している。これら個々の点には、文書の１３の研究分野に対応した１３個の形状や濃淡（実験結果はカラーである）で区別されており、これらが文書データのラベル（トピック）を表している。例えば、比較的濃い丸印「ＡＡ」は、その文書が“アルゴリズム＆アーキテクチャ”の分野に属していることを示し、比較的薄い丸印「ＶＭ」は、“ビジョン（マシーン）”の分野を示す。

図７（ａ）に示すように、本実施例（ＰＬＳＶ）による可視化結果では、同じラベルのデータが近くに集まっている。つまり、同じ形状かつ同じ濃度（カラー）の点（文書データ）は密集し、１３種類の形状や濃淡を有した点（文書データ）は、種類ごとに（トピックごとに）、２次元平面内のほぼ定まった領域に割り振られていることがわかる。一方、図７（ｂ）に示す「ＭＤＳ」や図７（ｃ）に示す「Ｉｓｏｍａｐ」による可視化結果では、異なるラベルのデータが混在している。また、図７（ｄ）に示す「ＰＬＳＡ」では、三角形の領域全体のうち、縁部（辺や頂点）に多くの点（文書データ）が集まってしまっており、２次元空間で文書データのトピック構造をうまく表現することができていない。また、図７（ｅ）に示す「ＰＬＳＡ＋ＰＥ」による可視化結果では、異なるラベルのデータが混在している度合いが、本実施例（ＰＬＳＶ）に比べて、若干大きい。

本発明の実施形態に係るトピック可視化装置の構成を示すブロック図である。図１に示したトピック可視化装置による処理の流れを示すフローチャートである。図１に示した帰属度推定部の構成を示す機能ブロック図である。図１に示した配置部の構成を示す機能ブロック図である。図１に示したトピックモデル推定部の構成を示す機能ブロック図である。本実施形態に係るトピック可視化方法（ＰＬＳＶ）による可視化結果の正答率を従来法と比較して示すグラフである。本実施形態に係るトピック可視化方法（ＰＬＳＶ）による可視化結果を従来法と比較して示す図である。従来法による可視化結果を示す図である。

符号の説明

１トピック可視化装置
２演算手段
３入力手段
４記憶手段
５出力手段
１１バスライン
２１帰属度推定部（帰属度推定処理手段）
２１１パラメータ読込部
２１２帰属度計算部
２１３帰属度書込部
２２配置部（配置処理手段）
２２１パラメータ読込部
２２２配置計算部
２２３配置書込部
２３トピックモデル推定部（トピックモデル推定処理手段）
２３１パラメータ読込部
２３２トピックモデル計算部
２３３トピックモデル書込部
２４可視化部（可視化処理手段）
２５メモリ
４０ａプログラム格納部
４０ｂデータ格納部
４１帰属度推定プログラム
４２配置プログラム
４３トピックモデル推定プログラム
４４可視化プログラム
４５入力データ
４６帰属度集合
４７文書座標集合
４８トピック座標集合
４９単語出現確率集合

Claims

意味が付与された記号単位から成る系列を内容として含むデータであって前記記号単位を離散値のベクトルとして表現することが可能なデータを、予め定められた空間において類似するデータが近くに配置されるように可視化するための各データの配置を求めるトピック可視化装置において、
前記予め定められた空間における第ｎ番目（１≦ｎ≦Ｎ、Ｎはデータの総数）のデータｗ _n の位置であるデータ座標ｘ _n の初期値と、前記予め定められた空間における第z番目（１≦ｚ≦Ｚ、Ｚはトピックの総数）のトピックｚの位置であるトピック座標φ _z の初期値と、各トピックｚにおいて前記データｗ _n に含まれるｍ番目（１≦ｍ≦Ｍ _ｎ、Ｍ _ｎはデータｗ _ｎで扱う記号単位の総数）の記号単位ｗ _nm が出現する単語出現確率θ _zwnm の初期値を設定する初期化手段と、
前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θとがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第１の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新する配置処理手段と、
前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z とを用いて前記単語出現確率θ _zwnm を更新し、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z と前記更新後の単語出現確率θ _zwnm とを用いて計算される前記第１の尤度が所定の収束条件を満たさない場合には、前記配置処理手段による処理を繰り返し実行させ、前記第１の尤度が前記収束条件を満たす場合に、前記更新後のデータ座標ｘ _n の集合を出力するトピックモデル推定処理手段と、
を備えることを特徴とするトピック可視化装置。
前記データ座標ｘ _n と前記トピック座標φ _z との前記予め定められた空間における距離が近いほど確率が高くなるように、前記データ座標ｘ _n が各トピックｚに帰属する確率であるトピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）を計算し、前記トピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）と前記単語出現確率θ _zwnm との積が大きいほど値が大きくなるように、前記各記号単位ｗ _nm が各トピックｚに帰属する確率である帰属度ｑ _nmz を計算する帰属度推定処理手段をさらに有し、
前記配置処理手段は、前記第１の尤度の代わりに、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θと前記帰属度ｑ _nmz の集合とがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第２の尤度を用いて、当該第２の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新し、
前記トピックモデル推定処理手段は、前記第２の尤度が前記収束条件を満たさない場合には、前記帰属度推定処理手段および前記配置処理手段による処理を繰り返し実行させる、
ことを特徴とする請求項１に記載のトピック可視化装置。
前記配置処理手段における前記第１の尤度は、

（ここで、Ｃはデータｗ _n の集合）で表され、
前記トピックモデル推定処理手段において前記第１の尤度が前記収束条件を満たす場合とは、前記Ｌ（Ｘ，Φ，Θ｜Ｃ）が最大となる場合である
ことを特徴とする請求項１に記載のトピック可視化装置。
前記データｗ _ｎの集合Ｃにおける第ｗ番目（１≦ｗ≦Ｗ、Ｗは集合Ｃで扱う記号単位の総数）の記号単位がトピックｚにおいて出現する単語出現確率をθ _zw としたとき、
前記単語出現確率θ _zw は前記単語出現確率θ _zwnm のいずれかであり、
前記配置処理手段における前記第２の尤度は、

（ここで、α，β，γは予め設定されたハイパーパラメータ）で表され、
前記トピックモデル推定処理手段において前記第２の尤度が前記収束条件を満たす場合とは、前記Ｑ（Ｘ，Φ）が最大となる場合である
ことを特徴とする請求項２に記載のトピック可視化装置。
意味が付与された記号単位から成る系列を内容として含むデータであって前記記号単位を離散値のベクトルとして表現することが可能なデータを、予め定められた空間において類似するデータが近くに配置されるように可視化するための各データの配置を求めるトピック可視化方法であって、
初期化手段が、前記予め定められた空間における第ｎ番目（１≦ｎ≦Ｎ、Ｎはデータの総数）のデータｗ _n の位置であるデータ座標ｘ _n の初期値と、前記予め定められた空間における第z番目（１≦ｚ≦Ｚ、Ｚはトピックの総数）のトピックｚの位置であるトピック座標φ _z の初期値と、各トピックｚにおいて前記データｗ _n に含まれるｍ番目（１≦ｍ≦Ｍ _ｎ、Ｍ _ｎはデータｗ _ｎで扱う記号単位の総数）の記号単位ｗ _nm が出現する単語出現確率θ _zwnm の初期値を設定する初期化ステップと、
配置処理手段が、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θとがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第１の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新する配置処理ステップと、
トピックモデル推定処理手段が、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z とを用いて前記単語出現確率θ _zwnm を更新し、前記更新後のデータ座標ｘ _n と前記更新後のトピック座標φ _z と前記更新後の単語出現確率θ _zwnm とを用いて計算される前記第１の尤度が所定の収束条件を満たさない場合には、前記配置処理ステップを繰り返し実行させ、前記第１の尤度が前記収束条件を満たす場合に、前記更新後のデータ座標ｘ _n の集合を出力するトピックモデル推定処理ステップと、
を含むことを特徴とするトピック可視化方法。
帰属度推定処理手段が、前記データ座標ｘ _n と前記トピック座標φ _z との前記予め定められた空間における距離が近いほど確率が高くなるように、前記データ座標ｘ _n が各トピックｚに帰属する確率であるトピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）を計算し、前記トピック帰属確率Ｐ（ｚ｜ｘ _n ，Φ）と前記単語出現確率θ _zwnm との積が大きいほど値が大きくなるように、前記各記号単位ｗ _nm が各トピックｚに帰属する確率である帰属度ｑ _nmz を計算する帰属度推定処理ステップをさらに含み、
前記配置処理ステップは、前記第１の尤度の代わりに、前記データ座標ｘ _n の集合Ｘと前記トピック座標φ _z の集合Φと前記単語出現確率θ _zwnm の集合Θと前記帰属度ｑ _nmz の集合とがどのくらい前記各データｗ _n をもっともらしく説明できているかを表す、予め定められた第２の尤度を用いて、当該第２の尤度が最大となるように、前記データ座標ｘ _n と前記トピック座標φ _z とを更新し、
前記トピックモデル推定処理ステップは、前記第２の尤度が前記収束条件を満たさない場合には、前記帰属度推定処理ステップおよび前記配置処理ステップを繰り返し実行させる、
ことを特徴とする請求項５に記載のトピック可視化方法。
前記配置処理ステップにおける前記第１の尤度は、

（ここで、Ｃはデータｗ _n の集合）で表され、
前記トピックモデル推定処理ステップにおいて前記第１の尤度が前記収束条件を満たす場合とは、前記Ｌ（Ｘ，Φ，Θ｜Ｃ）が最大となる場合である
ことを特徴とする請求項５に記載のトピック可視化方法。
前記データｗ _ｎの集合Ｃにおける第ｗ番目（１≦ｗ≦Ｗ、Ｗは集合Ｃで扱う記号単位の総数）の記号単位がトピックｚにおいて出現する単語出現確率をθ _zw としたとき、
前記単語出現確率θ _zw は前記単語出現確率θ _zwnm のいずれかであり、
前記配置処理ステップにおける前記第２の尤度は、

（ここで、α，β，γは予め設定されたハイパーパラメータ）で表され、
前記トピックモデル推定処理ステップにおいて前記第２の尤度が前記収束条件を満たす場合とは、前記Ｑ（Ｘ，Φ）が最大となる場合である
ことを特徴とする請求項６に記載のトピック可視化方法。
請求項１から請求項４のいずれか一項に記載のトピック可視化装置を構成する各手段として、コンピュータを機能させるためのトピック可視化プログラム。
請求項９に記載のトピック可視化プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。