JP2015152983A

JP2015152983A - トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム

Info

Publication number: JP2015152983A
Application number: JP2014023944A
Authority: JP
Inventors: 結城遠藤; Yuki Endo; 浩之戸田; Hiroyuki Toda; 鷲崎　誠司; Seiji Washisaki; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-02-12
Filing date: 2014-02-12
Publication date: 2015-08-24
Anticipated expiration: 2034-02-12
Also published as: JP6091448B2

Abstract

【課題】特定の情報と関連して時間的に盛り上がっているトピックが得られるトピックモデルを生成する。【解決手段】トピックモデリング装置１の単語特徴量計算部２０は、入力部１０により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する。文書特徴行列計算部３０は、単語特徴量計算部２０の計算した各単語の単語特徴量に基づき文書特徴行列を算出する。クエリ依存行列計算部４０は、入力部１０により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出する。モデル計算部５０は、文書特徴行列計算部３０の算出結果とクエリ依存行列計算部４０の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出する。算出結果は出力部６０により出力される。【選択図】図１

Description

本発明は、時系列テキストデータにおけるトピックのモデリング技術に関する。

現在、マイクロブログなどの普及に伴いリアルタイム性の高い時系列テキストデータからトピックを抽出し、世の中の話題を捉えることのできるトピックモデルの作成が特にマーケティングなどの分野で重要となってきている。ここでトピックとは、特定の話題に関する情報を意味する。トピックモデルは、トピックとテキストデータを含む単語などの文字列との関係を記述するモデル（関数，数式）を表す。

時系列テキストデータにおいてトピックを捉えるトピックモデリングの先行技術としては、「ＬＤＡ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）」を拡張した非特許文献１や、「ＮＭＦ（Ｎｏｎ−ＮｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）」を拡張した非特許文献２が公知となっている。

「ＮＭＦ」では、文書と単語の特徴行列を非負制約のもと行列分解し次元圧縮を行うことで、モデルを得てトピックを推定する。非特許文献２では、時間的なトピックの変化量を考慮した制約を「ＮＭＦ」に与え、盛り上がっているトピックを推定する。以下に「ＮＭＦ」と非特許文献２における手法の概要について述べる。

≪ＮＭＦについて≫
「ＮＭＦ」は、文書と単語の特徴行列「Ｘ」を非負制約のもと分解した二つの行列によって文書を表現する。一つ目は行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列「Ｗ」で、二つ目は行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列「Ｈ」である。「ＮＭＦ」は、式（１）（２）のとおり行列「Ｘ」を「Ｗ」と「Ｈ」とに分解する。

ここで「ｉ」および「ｊ」は、行列のインデックスを表す。上記のように「Ｘ」を分解するため、例えば式（３）のように二乗誤差に基づき「Ｗ」と「Ｈ」とを計算する。なお、式（３）中の「||・||_F」はフロベニウスノルムを示している。

≪非特許文献２の手法について≫
非特許文献２に記載された手法においては、上記「ＮＭＦ」を拡張することで時系列テキストデータにおいて盛り上がっているトピックを得る。具体的には式（４）に基づいて「Ｗ」と「Ｈ」とを計算する。

ここで「ｗ_i」は「Ｗ」の「ｉ」番目の列ベクトルを示し、「Ｓ」はトピック「ｉ」について同じ時間帯の「ｗ_i」の和を計算する行列を示し、「Ｗ^em」は「Ｗ」のうち盛り上がりを抽出するトピックと対応する部分行列を示し、「μ」はハイパーパラメータを示し、「Ｌ（・）」は各時刻におけるトピックの変動が小さい場合に大きなペナルティを与える関数を示している。このペナルティにより時間的に盛り上がっているトピックを抽出することができる。

Diao, Q., Jiang, J., Zhu, F., Lim, E.-P.: Finding bursty topics from microblogs, In Proc. of ACL'12, pp.536-444, 2012. Saha, A. and Sindhwani, V.: Learning evolving and emerging topics in social media: a dynamic nmf approach with temporal regularization, In Proc. of WSDM'12, pp.692-702, 2012.

しかしながら、非特許文献２のトピックモデルでは、データセットにおいて大域的に最も盛り上がっているトピックが得られるため、特定の情報と関連し局所的に盛り上がっているトピックを得られない問題が生じるおそれがあった。

例えばソーシャルメディアのデータセットにおいて、政治に関するトピックの盛り上がりが支配的である場合に消費者やマーケターがテレビの放送内容や特定の商品と関係して盛り上がっているトピックを知りたくとも、これらの手法では政治に関するものを抽出してしまう。

本発明は、上記従来技術の問題点を解決するためになされ、特定の情報と関連して時間的に盛り上がっているトピックが取得可能なトピックモデルを生成する技術の提供を解決課題としている。

そこで、本発明は前記課題を解決するためにキーワード群を入力としてユーザ指定のクエリとなるキーワードに依存したクエリ依存行列を計算する。これを用いることにより前記クエリとなるキーワードと関連性の高いトピックモデルの盛り上がりを抽出する制約を加えてトピックモデルを生成する。

本発明のトピックモデリング装置は、入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算部と、単語特徴量計算部の計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算部と、入力部により入力されたキーワード群の総単語数とトピック数とで表される行列をユーザ指定のクエリに応じたキーワードに依存させたクエリ依存行列を算出するクエリ依存行列計算部と、文書特徴行列計算部の算出結果とクエリ依存行列計算部の算出結果とを用いて前記クエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算部と、を備える。

本発明のトピックモデリング方法は、入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算ステップと、単語特徴量計算ステップで計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算ステップと、入力部により入力されたキーワード群の総単語数とトピック数とで表される行列をユーザ指定のクエリに応じたキーワードに依存させたクエリ依存行列を算出するクエリ依存行列計算ステップと、文書特徴行列計算ステップの算出結果とクエリ依存行列計算ステップの算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算ステップと、を有する。

なお、本発明は、前記トピックモデリング装置としてコンピュータを機能させるトピックモデリングプログラムとして構成することもできる。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。

本発明によれば、特定の情報と関連して時間的に盛り上がっているトピックが取得可能なトピックモデルを生成することができる。

本発明の実施形態に係るトピックモデリング装置の構成図。同トピックモデリングの処理ステップを示すチャート図。文書特徴行列の一例を示す図。クエリ依存行列の一例を示す図。トッピングモデリングの概観図。モデル計算の処理ステップを示すチャート図。

以下、本発明の実施形態に係るトピックモデリング装置を説明する。このトピックモデリング装置は従来技術のＮＭＦに対してキーワード群を与え、与えられたキーワード群に特化したトピックモデルを生成する。

≪装置構成例≫
図１に基づき前記トピックモデリング装置１の構成例を説明する。このトピックモデリング装置１は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース（例えばＣＰＵ，ＲＡＭなどの主記憶装置，ＨＤＤやＳＳＤなどの補助記憶装置など）とソフトウェアリソース（ＯＳ，アプリケーションなど）とを備える。このハードウェアリソースとソフトウェアリソースとの協働の結果、前記トピックモデリング装置１は、入力部１０と単語特徴量計算部２０と文書特徴行列計算部３０とクエリ依存行列計算部４０とモデル計算部５０と出力部６０とを備える。

この入力部１０は前記トピックモデリング装置１に情報を入力するための手段であり、例えばキーボード，マウス，ディスクドライブ装置（光学ドライブ装置、磁気ディスクドライブ装置など）により構成されている。ここでは前記トピックモデリング装置１は、入力部１０を通じてクエリとなるキーワード群および時系列テキストデータを受け取る。

単語特徴量計算部２０は、入力手段から受け取った時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する。文書特徴行列計算部３０は、単語特徴量計算部２０の計算した各単語の単語特徴量に基づき文書特徴行列を算出する。クエリ依存行列計算部４０は、入力部１０により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワード（単語）に依存したクエリ依存行列を算出する。

モデル計算部５０は、文書特徴行列計算部３０の算出結果とクエリ依存行列計算部４０の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部６０に出力させる。こではモデル計算部５０は、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する。このトピックモデルは出力部６０により出力される。例えば図示省略のモニタなどに出力される。なお、生成されたトピックモデルは補助記憶装置に保存することもできる。

≪処理内容≫
図２に基づき前記トピックモデリング装置１の処理ステップを説明する。ここでは前記トピックモデリング装置１に入力される時系列テキストデータは、文字列と時刻情報とが対応付けられているものとする。

Ｓ２１０：前記トピックモデリング装置１が、入力部１０により時系列テキストデータおよびキーワード群を受け取る。ここで受け取った時系列テキストデータは単語特徴量計算部２０に送られる一方、キーワード群はクエリ依存行列計算部４０に送られる。

Ｓ２２０：単語特徴量計算部２０は、受け取った時系列テキストデータにおける各テキストの文字列の単語特徴量を計算する。ここでは単語特徴量計算部２０は、各テキストの文字列を形態素解析器によって名詞・動詞・形容詞などの単語単位に分解した後、出現する単語情報に基づきテキストの文書ｄ_iにおける単語ｗの特徴度（特徴量と同義）、即ち式（５）で表される特徴度を算出する。具体的な算出方法としては、式（６）によって求められるＴＦ−ＩＤＦなどのが挙げられる。

式（６）中、「ＴＦ（ｄ_i，ｗ）」は文書ｄ_iにおける単語ｗの出現回数を示し、「ＤＦ（ｗ）」は時系列テキストデータのデータセットにおいて単語ｗが出現する文書数を示し、「Ｎ」はデータセットにおける文書の総数を示している。なお、計算結果の単語特徴度は文書特徴行列計算部３０に送られる。

Ｓ２３０：文書特徴行列計算部３０が、Ｓ２２０で単語特徴量計算部２０の計算した文書ｄ_iにおける単語ｗの特徴度、即ち式（５）の特徴度を用いて文書特徴行列を計算する。このとき文書ｄ_iにおける各々の単語の特徴を表す特徴ベクトルを式（７）で示すと文書特徴行列Ｘは式（８）のように定義される。

図３に基づき文書特徴行列の一例を説明する。ここでは文書１の「サッカー，政治，携帯」の特徴量は「２，０，０」とすれば、文書１に対応する行とそれぞれの単語に対応する列に該当する要素が「２，０，０」とされる。計算された文書特徴行列はモデル計算部５０に送られる。

Ｓ２４０：クエリ依存計算部４０が、入力部１０から受け取ったキーワード群を用いてクエリ依存行列を計算する。ここではユーザは盛り上がり検索のために入力部１０によりクエリを指定するものとする。また、前記トピックモデリング装置１には事前にユーザの入力部１０による入力などにより複数のトピックが入力され、前記記憶装置に記憶されているものとする。このトピックをクエリ依存の盛り上がりトピックと呼ぶ。

具体的にはクエリ依存行列Ｑは、クエリ依存の盛り上がりトピック数を「ｋ_qem」，キーワード群の総単語数を「ｎ」とすると「ｋ_qem×総単語数ｎ」の行列として表される。ここではキーワード群中にユーザ指定の前記クエリに対応するキーワード（以下、クエリとなるキーワードとする。）があれば、クエリ依存行列Ｑは該キーワード（単語）の列におけるすべての要素に定数「ｑ」を代入し、それ以外の要素に「０」を代入する。

図４に基づきクエリ依存行列の一例を説明する。ここではクエリとなるキーワードが単語「サッカー」の例を示し、単語「サッカー」の列に定数「ｑ」が代入され、その他の列に「０」が代入されている。計算されたクエリ依存行列はモデル計算部５０に送られる。

Ｓ２５０：モデル計算部５０が受け取った文書特徴行列およびクエリ依存行列を用いてトピックモデルを計算する（Ｓ２５０）。このときモデル計算部５０は、トピックモデルの計算にあたって、前記クエリと関係の近いクエリ依存の盛り上がりトピックを得るために式（９）が小さくなるように「Ｈ（トピック単語行列）」に制約を与える。

式（９）中、「Ｈ^qem」は「Ｈ（トピック単語行列）」のうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列を示している。この式（９）による制約は「Ｈ^qem」の各要素が「Ｑ（クエリ依存行列）」よりも大きくなるように制約を与える。これにより前記クエリの単語や共起性の近い単語を特定のトピック中に表れやすくできる。

具体的にはモデル計算部５０は、前記「ＮＭＦ」の制約，盛り上がりの制約，前記クエリに依存する制約（クエリ依存の制約）のすべてを考慮して式（１０）に基づき「Ｗ（文書トピック行列）」と「Ｈ（トピック単語行列）」とを計算する。

式（１０）中、「Ｗ^qem」は「Ｗ」のうち前記クエリ依存の盛り上がりを抽出するトピックと対応する部分行列を示し、「λ_t」および「λ_q」はそれぞれ時間依存の制約とクエリ依存の制約の強さを決めるハイパーパラメータを示している。図５に基づきモデル計算部５０で計算するトピックモデルの概要を説明すれば、文書特徴行列Ｘは文書トピック行列Ｗとトピック単語行列Ｈとに分解され、文書トピック行列Ｗはトピック依存に関する「Ｗ^qem」を含む一方、トピック単語行列Ｈはクエリ依存に関する「Ｈ^qem」を含んでいる。

図６に基づきモデル計算部５０の具体的な処理を説明する。ここでは文書トピック行Ｗとトピック単語行列Ｈとを交互に最適化する方法により両者Ｗ，Ｈを取得する処理例を説明する。

Ｓ３１０，Ｓ３２０：まず、処理が開始されると「ｔ＝０」として文書トピック行列Ｗとトピック単語行列Ｈとを初期化し、それぞれの初期値「Ｗ⁽⁰⁾」および「Ｈ⁽⁰⁾」を定める（Ｓ３１０）。この初期値の値は任意の値でよく、例えば「０」から「１」までのランダムな値で初期化する。つぎに「Ｈ^(t)」を用いて式（１０）に基づき「Ｗ^t+1」を計算する（Ｓ３２０）。計算の方法は最急降下法やニュートン法などの公知の技術を用いることができる。

Ｓ３３０，Ｓ３４０：Ｓ３２０で計算した「Ｗ^t+1」を用いて「Ｈ^(t+1)」を式（１０）に基づき計算する（Ｓ３３０）。この計算の方法にも最急降下法やニュートン法などの公知の技術を用いることができる。

この算出後に終了条件を満たしたか否か判定する（Ｓ３４０）。判定の結果、終了条件を満たしていないと判定されれば、「ｔ＋１」を新たな「ｔ」としてＳ３２０〜Ｓ３４０の処理を終了条件が満たされるまで繰り返す。一方、終了条件を満たしていると判定されれば、Ｓ２５０の処理を終了する。以下に終了条件を例示する。

（１）終了条件例１
まず、終了条件として「ｔ回目」のイテレーションで得られた「Ｗ^t」および「Ｈ^(t)」と、「ｔ＋１」回目のイテレーションで得られた「Ｗ^t+1」および「Ｈ^(t+1)」とにおける変化量が規定値以下であることを設定できる。例えば「ｔ回目」のイテレーションで得られた「Ｗ^t」および「Ｈ^(t)」と、「ｔ＋１」回目のイテレーションで得られた「Ｗ^t+1」および「Ｈ^(t+1)」とにおける各要素の二乗誤差の和が規定値以下であることを終了条件に設定できる。

（２）終了条件例２
つぎに終了条件として「ｔ」が所定のイテレーションの回数に達したことを設定することができる。このイテレーションの回数は仕様などに応じて設定することができる。

（３）終了条件例３
さらに前述の終了条件１，２の双方を満たすことを終了条件に設定することもできる。なお、Ｓ２５０の処理を終了した後には「Ｗ^t+1」および「Ｈ^(t+1)」を出力部６０に文書トピック行列Ｗとトピック単語行列Ｈとして送る。出力部６０は、受け取った文書トピック行列Ｗとトピック単語行列Ｈとをトピックモデルのパラメータとして出力する（Ｓ２６０）。出力されたデータはマーケティングなど様々な分野で利用することができる。

≪実験≫
前記トピックモデリング装置１の手法（Ｓ２１０〜Ｓ２６０）と、非特許文献２の従来手法との評価実験を説明する。ここではソーシャルメディアにおける時系列テキストデータに両手法を適用した際に、特定の情報と関連して局所的に盛り上がっているトピックを精度よく得られているか否かを評価実験した。

特定の情報としてはオリンピックを想定し、オリンピックに関連して盛り上がっているトピック（例えば体操や柔道）の抽出精度を評価する。データセットはロンドンオリンピック開催期間である「２０１２/７/３０７：５８〜２２：５８」における「Ｔｗｉｔｔｅｒ」社のツイートデータを用いた。

今回のデータセットについては、予めオリンピックの特定の種目として「体操」に関する各ツイートにラベルを付与し、「体操」と関係しない各ツイートに「その他」のラベルを付与した。トピックモデルを適用した際に、「体操」に関して盛り上がっているトピックを抽出できているか否かを評価した。

この際、前記トピックモデリング装置１の手法においては、クエリを「オリンピック」とした。また、データセットの内約は「体操」に関連するデータが「６５８１ツイート」、非関連データが「８７４８６ツイート」の「計９４０６７ツイート」である。さらに評価指標としては非特許文献２に記載された評価指標、即ち真のトピックと推定されたトピックとの誤差を測る「Jensen-Shannon Divergence(JSD)」を用いた。

表１は、「体操」のラベルが付与された文書が急増し盛り上がった８か所の時刻において、両手法によって推定した体操トピックと真の体操トピックとの「JSD」を計算し、各時刻におけるJSDの平均を示している。

表１の評価結果によれば、従来手法を用いた場合のベースラインの「JSD」が「０．３５１」であったのに対して、前記トピックモデリング装置１の手法はベースラインに比べて「０．０５８」ポイントの精度向上が達成された。すなわち、前記トピックモデリング装置１の手法によれば、クエリとなる特定のキーワードとトピックとの関連性や時間的な盛り上がりを考慮したトピックモデルが生成できるため、特定の情報と関連して盛り上がっているトピックの抽出精度を向上させることができる。

≪その他≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で変形・応用して実施することができる。例えば本発明は、前記トピックモデリング装置１の各部１０，２０，３０，４０，５０，６０の一部もしくは全部としてコンピュータを機能させるトピックモデリングプログラムに構成することもできる。この場合にはＳ２１０，Ｓ２２０、Ｓ２３０，Ｓ２４０，Ｓ２５０，Ｓ２６０やＳ３１０，Ｓ３２０，Ｓ３３０，Ｓ３４０の一部あるいは全部をコンピュータに実行させることが可能である。

前記プログラムは、Ｗｅｂサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＭＯ，ＨＤＤ，ＢＤ−ＲＯＭ，ＢＤ−Ｒ，ＢＤ−ＲＥなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。

１…トピックモデリング装置
１０…入力部
２０…単語特徴量計算部
３０…文書特徴行列計算部
４０…クエリ依存行列計算部
５０…モデル計算部
６０…出力部

Claims

時系列テキストデータにおける特定の話題に関するトピックをモデリングしてトピックモデルを生成するトピックモデリング装置であって、
入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算部と、
単語特徴量計算部の計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算部と、
入力部により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出するクエリ依存行列計算部と、
文書特徴行列計算部の算出結果とクエリ依存行列計算部の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算部と、
を備えることを特徴とするトピックモデリング装置。
モデル計算部は、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する
ことを特徴とする請求項１記載のトピックモデリング装置。
モデル計算部は文書特徴行列を、
行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列と、
行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列と、に分解し、
文書特徴トピック行列Ｗと文書特徴トピック行列Ｗとを次の制約式（Ｘ＝文書特徴行列，Ｗ＝文書トピック行列，Ｈ＝トピック単語行列，Ｈ^qem＝トピック単語行列Ｈのうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列，Ｑ＝クエリ依存行列，Ｗ^qem＝文書特徴トピック行列Wのうちクエリ依存の盛り上がりを抽出するトピックと対応する部分行列，λ_tおよびλ_q＝それぞれ時間依存の制約と前記クエリに依存する制約の強さを決めるハイパーパラメータ）の下、

事前設定の終了条件を満たすまで繰り返して収束させてトピックモデルとして出力部に送る
ことを特徴とする請求項１または２のいずれか１項に記載のトピックモデリング装置。
時系列テキストデータにおける特定の話題に関するトピックをモデリングしてトピックモデルを生成する装置の実行するトピックモデリング方法であって、
入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算ステップと、
単語特徴量計算ステップで計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算ステップと、
入力部により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出するクエリ依存行列計算ステップと、
文書特徴行列計算ステップの算出結果とクエリ依存行列計算ステップの算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算ステップと、
を有することを特徴とするトピックモデリング方法。
モデル計算部ステップは、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する
ことを特徴とする請求項４記載のトピックモデリング方法。
モデル計算ステップは文書特徴行列を、
行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列と、
行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列と、に分解し、
文書特徴トピック行列Ｗと文書特徴トピック行列Ｗとを次の制約式（Ｘ＝文書特徴行列，Ｗ＝文書トピック行列，Ｈ＝トピック単語行列，Ｈ^qem＝トピック単語行列Ｈのうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列，Ｑ＝クエリ依存行列，Ｗ^qem＝文書特徴トピック行列Wのうちクエリ依存の盛り上がりを抽出するトピックと対応する部分行列，λ_tおよびλ_q＝それぞれ時間依存の制約と前記クエリに依存する制約の強さを決めるハイパーパラメータ）の下、

事前設定の終了条件を満たすまで繰り返して収束させてトピックモデルとして出力部に送る
ことを特徴とする請求項１または２のいずれか１項に記載のトピックモデリング方法。
請求項１〜３のいずれか１項に記載のトピックモデリング装置としてコンピュータを機能させることを特徴とするトピックモデリングプログラム。