JP6204261B2

JP6204261B2 - トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム

Info

Publication number: JP6204261B2
Application number: JP2014093253A
Authority: JP
Inventors: 結城遠藤; 浩之戸田; 義昌小池
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2017-09-27
Anticipated expiration: 2034-04-30
Also published as: JP2015210741A

Description

本発明は時系列テキストデータにおけるトピックのモデリング技術に関する。

マイクロブログなどの普及に伴い、リアルタイム性の高い時系列テキストデータからトピックを抽出し、世の中の話題を捉えることができるトピックモデルの作成が、特にマーケティングなどの分野で重要となってきている。ここでトピックとは、特定の話題に関する情報を意味する。トピックモデルはトピックとテキストデータが含む単語などの文字列との関係を記述するモデル（関数、数式）を表す。

時系列テキストデータにおいてトピックを捉えるトピックモデリングの先行技術としては、ＬＤＡ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）を拡張したもの（非特許文献１）や、ＮＭＦ（Ｎｏｎ−ＮｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）を拡張したもの（非特許文献２）が提案されている。ＮＭＦでは、文書と単語の特徴行列を非負制約のもと行列分解し次元圧縮を行うことによってモデルを得てトピックを推定する。非特許文献２では、時間的なトピックの変化量を考慮した制約をＮＭＦに与え、盛り上がっているトピックを推定する。以下にＮＭＦと非特許文献２における手法の概要について述べる。

＜ＮＭＦ＞
ＮＭＦは文書と単語の特徴行列Ｘを非負制約のもと分解した二つの行列によって文書を表現する。一方の行列は、行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列Ｗである。もう一方の行列は、行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列Ｈである。ＮＭＦでは次式のとおり特徴行列Ｘを文書トピック行列Ｗとトピック単語行列Ｈとに分解する。

上記の式において、ｉ及びｊは行列のインデックスを表す。上記のように行列Ｘを分解するため例えば以下の式ように二乗誤差に基づいて行列Ｗと行列Ｈを計算する。

上記の式において、‖Ｘ−ＷＨ‖_Fは「Ｘ−ＷＨ」のフロベニウスノルムである。

＜非特許文献２の手法＞
非特許文献２の手法では、上記ＮＭＦを拡張することによって時系列テキストデータにおいて盛り上がっているトピックを得る。具体的には次式にもとづいてＷとＨを計算する。

上記の式において、ｗ_iはＷのｉ番目の列ベクトルである。Ｓはトピックｉについて同じ時間帯のｗ_iの和を計算する行列である。Ｗ^emはＷのうち盛り上がりを抽出するトピックと対応する部分行列である。μはハイパーパラメータである。Ｌ（ＳＷ_i）は各時刻におけるトピックの変動が小さい場合大きなペナルティを与える関数である。このペナルティにより時間的に盛り上がっているトピックを抽出することができる。

Diao, Q., Jiang, J., Zhu, F., Lim, E.-P.: Finding bursty topics from microblogs, In Proc. of ACL'12, 2012, pp.536-544. Saha, A. and Sindhwani, V.: Learning evolving and emerging topics in social media: a dynamic nmf approach with temporal regularization, In Proc. of WSDM'12, 2012, pp.693-702. Mei, Q., Cai, D., Zhang, D., Zhai, C.: Topic modeling with network regularization, In Proc. of WWW’08, 2008, pp.101-110. 鈴木潤，磯崎秀樹，「学習誤り最小化に基づく条件付き確率場の学習：言語解析への適用」，言語処理学会第１２回年次大会発表論文集，2006，pp.548-551．

しかしながら、非特許文献２に記載のトピックモデルでは、地理的な情報が考慮されていない。例えば、横須賀で音楽のゲリラライブなどのイベントが急遽開催される際、多くのユーザがＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）を用いて取得した位置情報を付与したメッセージをソーシャルメディアに投稿したり、その地名を含むメッセージを投稿したりする。ソーシャルメディアの情報は、このようなイベントなどの地域特有で盛り上がっている話題を多く含む。非特許文献２に記載された手法のように時間的な盛り上がりを考慮するだけでは、上記の盛り上がりの話題を検知することが難しかった。

また、非特許文献３には、テキストに付与された位置情報を考慮したＬＤＡによって、地域特有のトピックを抽出する手法が開示されている。しかしながら、この手法は、位置情報と時間情報の両方が加味されていないため、ある地域で普段から多く投稿されている内容のトピックが抽出される。つまり、ある時刻、地域において局所的に盛り上がっているトピックを抽出できず、前述の例のような突然特定の地域で発生するイベント等に関するトピックを抽出できないという問題がある。

本発明は、上記従来技術の問題点に鑑みて、地理的かつ時間的に盛り上がっているトピック情報を得られるトピックモデルを生成できる技術を提供することを目的とする。

そこで、本発明のトピックモデリング装置は、位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置であって、時系列テキストから位置情報を抽出する位置情報抽出手段と、前記抽出された位置情報に基づき各時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する位置情報依存行列計算手段と、前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するモデル計算手段とを備える。

本発明のトピックモデリング方法は、位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置が実行するトピックモデリング方法であって、時系列テキストから位置情報を抽出するステップと、前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算するステップと、前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するステップとを有する。

尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。

本発明によれば地理的かつ時間的に盛り上がっているトピック情報を得られるトピックモデルを提供できる。

本発明の実施形態におけるトピックモデリング装置のブロック構成図。同実施形態におけるトピックモデリング過程のフロー図。文書特徴行列の一例。位置情報の抽出過程のフローチャート。位置情報依存行列の一例。位置情報依存行列の計算過程のフローチャート。モデル計算過程のフローチャート。

以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。

［概要］
図１に示された本実施形態のトピックモデリング装置１は、従来の時間的な盛り上がりを抽出するＮＭＦにおいて、地理的な盛り上がりを抽出する制約を付与することにより、トピックの地理的かつ時間的な盛り上がりを考慮したトピックモデルを生成する。

［装置の構成］
トピックモデリング装置１は、図１に示されたように、入力部１０、単語特徴量計算部２０、文書特徴行列計算部３０、位置情報抽出部４０、位置情報依存行列計算部５０、モデル計算部６０、出力部７０を備える。

上記各機能部１０〜７０はコンピュータのハードウェアリソースによって実現される。すなわち、トピックモデリング装置１は、少なくとも演算装置（ＣＰＵ）、記憶装置（メモリ、ハードディスク装置等）、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース（ＯＳ、アプリケーション等）と協働することにより各機能部１０〜７０が実装される。また、各々のコンピュータに機能部１０〜７０を各々実装させるようにしてもよい。

入力部１０は、時系列テキストデータの入力を受け付けるための手段であり、例えば、キーボード、マウス、ディスクドライブ装置等から構成される。時系列テキストデータは、文字列と時刻情報が対応づけられている。さらに、ＧＰＳによって計測した位置情報を表すジオタグが存在する場合、ジオタグも対応づけられている。

単語特徴量計算部２０は、入力部１０から受け付けた時系列テキストデータにおける各テキストの文字列の単語特徴量を計算する。

文書特徴行列計算部３０は、前記算出されたテキストの文書における単語特徴量に基づき当該テキストの文書特徴行列を計算する。

位置情報抽出部４０は、前記時系列テキストデータにおける各テキストの位置情報を抽出して当該各テキストの位置情報ベクトルを計算する。

位置情報依存行列計算部５０は、前記算出された位置情報ベクトルに基づき各テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する。

モデル計算部６０は、前記位置情報依存行列と前記時系列テキストの文書特徴行列とに基づき、位置情報と時間情報とに依存したトピックモデルとして、テキストとトピックとの関係度合を示す文書トピック行列と、トピックと単語との関係度合を示すトピック単語行列とを算出する。

より具体的には、モデル計算部６０は、前記文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、前記文書トピック行列並びにトピック単語行列を経時的に算出する。そして、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定する。

出力部７０は、前記決定された文書トピック行列及びトピック単語行列を、位置及び時間に依存したトピックモデルとして、出力する。

［トピックモデリング過程の説明］
以下、図１〜７を参照しながらトピックモデリングの過程について説明する。

Ｓ１：入力部１０は、入力データとして時系列テキストデータを受け付ける。受け付けた時系列テキストデータは単語特徴量計算部２０および位置情報抽出部４０へ送られる。

Ｓ２：単語特徴量計算部２０は入力部１０から受け付けた時系列テキストデータにおける各テキストの文字列の単語特徴量を計算する。

本ステップでは、各テキストの文字列を形態素解析器によって名詞・動詞・形容詞などの単語単位に分割した後、出現する単語情報に基づき、テキストの文書ｄ_iにおける単語ｗの特徴度を表すｆ_di,wを計算する。具体的な算出方法としては、以下の式によって算出するＴＦ−ＩＤＦ等が挙げられる。

上記の式において、ＴＦ（ｄ_i，ｗ）は文書ｄ_iにおける単語ｗの出現回数、ＤＦ（ｗ）はデータセットにおいて単語ｗが出現する文書の数、Ｎはデータセットにおける文書の総数を表す。

上記算出された単語特徴度は文書特徴行列計算部３０に送られる。

Ｓ３：文書特徴行列計算部３０は、上記算出された文書ｄ_iにおける単語ｗの特徴度を表すｆ_di,wに基づき、文書特徴行列を計算する。文書ｄ_iにおける各々の単語の特徴を表す特徴ベクトルをｆ_diとすると文書特徴行列Ｘは次のように定義される。

図３に文書特徴行列Ｘの一例を示した。この例では、文書１の「横須賀」、「カレー」、「新潟」の特徴量が２、２、０であるので、文書１に対応する行とそれぞれの単語に対応する列に該当する要素が２、２、０とされる。

上記算出された文書特徴行列Ｘはモデル計算部６０によるステップＳ６に供される。

Ｓ４：位置情報抽出部４０は、入力部１０から受け付けた時系列テキストデータにおける各テキストの位置情報を抽出し、位置情報ベクトルｐを計算する。位置情報は、時系列テキストに付与されたジオタグだけでなく、時系列テキストの文字列中の地名（地域名称）を用いて抽出してもよい。

本ステップでの具体的な位置情報抽出処理過程例のフローチャートを図４に示す。時系列テキストデータにおける各テキストの文書ｄ∈Ｄについて下記の通り処理する。

Ｓ４０１：テキストの文書ｄ_iにジオタグが付与されているかを判定する。

Ｓ４０２：テキストの文書ｄ_iにジオタグが付与されている場合、ジオタグの緯度経度情報を位置情報ベクトルｐ_iに代入する。尚、ｐ_iはベクトルｐのｉ番目の要素を表す。

Ｓ４０３：テキストの文書ｄ_iにジオタグが付与されていない場合、文書ｄ_iの文字列中に地名を表す単語が存在するか否かを判定する。地名を表す語の判定方法は、条件付き確率場に基づく係り受け解析手法（非特許文献４）など公知の技術を用いることができる。

Ｓ４０４：テキストの文書ｄ_iの文字列中に地名を表す単語が存在する場合、ジオコーダを用いて地名を緯度経度情報に変換する。地名が複数ある場合は、例えば乱数を用いてランダムで一つ選択する。そして、この変換によって得られた緯度経度情報を、前述のステップＳ４０２に供して、位置情報ベクトルｐ_iに代入する。

Ｓ４０５：テキストの文書ｄ_iの文字列中に地名を表す単語が存在しない場合、位置情報ベクトルｐ_iにnullを代入する。

全ての時系列テキストについて以上のＳ４０１〜Ｓ４０５が実行され、得られた位置情報ベクトルｐは位置情報依存行列計算部５０に送られる。

Ｓ５：位置情報依存行列計算部５０は、上記算出された位置情報ベクトルｐに基づき、位置情報依存行列Ｇを計算する。位置情報依存行列Ｇは、総文書数をｍとしたとき、各文書同士の位置情報に基づく類似度を表すｍ×ｍの行列である。

図５に位置情報依存行列Ｇの一例を示した。位置情報に基づく文書１と文書２の類似度は０．０２であるため、対応する要素は０．０２とされる。

位置情報依存行列Ｇの計算処理のフローチャートを図６に示す。全てのテキストのペアについて下記の通り処理する。

Ｓ５０１：位置情報依存行列Ｇ_i,jに０を代入する。尚、Ｇ_i,jは行列Ｇのｉ行ｊ例目の要素を表す。

Ｓ５０２：ｉ＝ｊまたは位置情報ベクトルｐ_i＝nullまたは位置情報ベクトルｐ_j＝nullであるかを判定する。判定がＹＥＳであった場合は次のループ処理に移る。

Ｓ５０３：ステップＳ５０２の判定がＮｏであれば、位置情報ベクトルｐ_i，ｐ_j間の距離を計算する。位置情報ベクトルｐ_i，ｐ_j間の距離ｄｉｓｔ_i,jは例えばヒュベニ距離として以下の式により計算できる。

上記の式において、Ｍは子午線曲率半径、ｄＰは二点間の緯度差、Ｎは卯西線曲率半径、Ｐは二点間の平均緯度、ｄＲは二点間の経度差を表す。

Ｓ５０４：上記算出した位置情報ベクトルｐ_i，ｐ_j間の距離ｄｉｓｔ_i,jを以下の式の演算に供して位置情報依存行列Ｇを算出する。

上記の式において、σ²は定数であり、位置情報依存行列Ｇ_i,jは文書ｄ_iと文書ｄ_jの位置情報に基づく類似度を表す。σ²は予め各文書の距離ｄｉｓｔ_i,jを用いて計算しておいた分散値を用いることもできる。

全てのテキスト間について以上のＳ５０１〜Ｓ５０４が実行され、得られた位置情報依存行列Ｇはモデル計算部６０によるステップＳ６に供される。

Ｓ６：モデル計算部６０は、ステップＳ３で算出された文書特徴行列ＸとステップＳ５で算出された位置情報依存行列Ｇとを用いて、トピックモデルを学習する。

本ステップで学習するトピックモデルは、地理的に盛り上がっているトピックを検出するため、以下の式の値が小さくなるように文書トピック行列Ｗに制約が与えられる。

上記の式において、Ｌは各テキストの距離に基づくグラフ構造を表す行列で、例えば以下のラプラシアン行列として計算できる。

上記の式において、Ｄは総テキスト数をｍとしたとき、ｍ×ｍの行列であり、対角成分に位置情報依存行列Ｇにおいて対応する行ベクトルの各要素の総和を持ち、その他の成分に０を持つ。この制約は各テキストの位置情報の距離が近いほど、各々が似たトピックを持たせるという性質をもつ。これにより地理的に盛り上がっているトピックを抽出することができる。時間依存の制約と位置依存の制約とを考慮すると、モデル計算部６０は次式により文書トピック行列Ｗとトピック単語行列Ｈを計算する。

上記の式（１）において、λ_t及びλ_gはそれぞれ時間依存の制約とクエリ依存の制約の強さを決めるハイパーパラメータである。

具体的な計算処理の流れとして、文書トピック行列Ｗとトピック単語行列Ｈを交互に最適化する方法によって文書トピック行列Ｗとトピック単語行列Ｈとを算出する過程のフローチャートを図７に示した。

Ｓ６０１：ｔ＝０とし、文書トピック行列Ｗの初期値Ｗ⁽⁰⁾とトピック単語行列Ｈの初期値Ｈ⁽⁰⁾とを定める。初期値の値は任意の値でよく、例えば０から１までのランダムな値で初期化する。

Ｓ６０２：トピック単語行列Ｈ^(t)を式（１）に供して文書トピック行列Ｗ^(t+1)を計算する。計算の方法は最急降下法やニュートン法など公知の技術を用いることができる。

Ｓ６０３：文書トピック行列Ｗ^(t+1)を式（１）に供してトピック単語行列Ｈ^(t+1)を計算する。計算の方法は最急降下法やニュートン法など公知の技術を用いることができる。

Ｓ６０４：終了条件を満たしたかを判定する。以下に終了条件を例示する。

［終了条件の例１］
ｔ回目のイテレーションで得られた文書トピック行列Ｗ^(t)及びトピック単語行列Ｈ^(t)とｔ＋１回目のイテレーションで得られた文書トピック行列Ｗ^(t+1)及びトピック単語行列Ｈ^(t+1)における変化量が規定値以下であることを終了条件とする。例えば、ｔ回目のイテレーションで得られた文書トピック行列Ｗ^(t)及びトピック単語行列Ｈ^(t)とｔ＋１回目のイテレーションで得られた文書トピック行列Ｗ^(t+1)及びトピック単語行列Ｈ^(t+1)における各要素の二乗誤差の和が規定値以下であることを終了条件とする。

［終了条件の例２］
ｔが所定のイテレーション回数に達したことを終了条件とする。

［終了条件の例３］
終了条件の例１，２の両方を満たすことを終了条件とする。

以上例示した終了条件を満たしていないと判定された場合には、ｔ＋１を新たなｔとしてステップＳ６０２に進む。

一方、終了条件を満たしたと判定された場合には、ステップＳ６の処理を終了し、算出された文書トピック行列Ｗ^(t+1)，トピック単語行列Ｈ^(t+1)を、それぞれ文書トピック行列Ｗ，トピック単語行列Ｈとして、出力部７０に供する。

Ｓ７：出力部７０は、ステップＳ６で算出された文書トピック行列Ｗ及びトピック単語行列Ｈを、位置依存かつ時間依存のトピックモデルとして、出力する。このトピックモデルはモニタ等に出力表示される。

［本実施形態の効果］
以上説明したように、本実施形態のトピックモデリング装置１によれば、位置情報抽出部４０によって、時系列テキストから位置情報が抽出される。また、位置情報依存行列計算部５０によって、前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列Ｇが算出される。そして、モデル計算部６０によって、位置情報依存行列Ｇと前記時系列テキストの文書特徴行列Ｘとに基づき、位置情報と時間情報とに依存したトピックモデルとして、テキストとトピックとの関係度合を示す文書トピック行列Ｗと、トピックと単語との関係度合を示すトピック単語行列Ｈとが算出される。以上のように、位置情報及び時間情報に依存したトピックモデルが生成されるので、地理的かつ時間的に盛り上がっているトピックを抽出できる。

また、前記時系列テキストに位置情報が含まれていない場合、当該テキストに含まれる地域名称に基づき位置情報が抽出される。したがって、時系列テキストに位置情報が含まれていない場合でも、当該テキストから位置情報を抽出できる。

さらに、位置情報依存行列Ｇの計算にあたり、各時系列テキストの位置情報間の距離に基づき類似度が算出されることにより、地理的関係がより明確な位置情報依存行列Ｇが得られる。

そして、ステップＳ６において、ステップＳ６０４の判定が実行されることにより、位置情報及び時間情報に依存したトピックモデルを任意に精度よく取得できる。

［本発明の他の態様］
本発明は、トピックモデリング装置１を構成する上記の機能部１０〜７０の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置１が実行する上記の過程Ｓ１〜Ｓ７，Ｓ４０１〜Ｓ４０５，Ｓ５０１〜Ｓ５０４，Ｓ６０１〜Ｓ６０４の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体（例えば、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ等）に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。

１…トピックモデリング装置
２０…単語特徴量計算部
３０…文書特徴行列計算部
４０…位置情報抽出部
５０…位置情報依存行列計算部
６０…モデル計算部

Claims

位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置であって、
時系列テキストから位置情報を抽出する位置情報抽出手段と、
前記抽出された位置情報に基づき各時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する位置情報依存行列計算手段と、
前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するモデル計算手段と
を備えたことを特徴とするトピックモデリング装置。
前記モデル計算手段は、前記文書トピック行列並びにトピック単語行列の計算が所定回数に達した時の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定すること
を特徴とする請求項１に記載のトピックモデリング装置。
前記位置情報抽出手段は、前記時系列テキストに位置情報が含まれていない場合、当該テキストに含まれる地域名称に基づき位置情報を抽出すること
を特徴とする請求項１または２に記載のトピックモデリング装置。
前記位置情報依存行列計算手段は、各時系列テキストの位置情報間の距離に基づき前記類似度を算出すること
を特徴とする請求項１から３のいずれか１項に記載のトピックモデリング装置。
位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置が実行するトピックモデリング方法であって、
時系列テキストから位置情報を抽出するステップと、
前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算するステップと、
前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するステップと
を有することを特徴とするトピックモデリング方法。
コンピュータを請求項１から４のいずれか１項に記載のトピックモデリング装置を構成する各手段として機能させることを特徴とするトピックモデリングプログラム。