JP2013134751A

JP2013134751A - トピックモデル学習方法、装置、及びプログラム

Info

Publication number: JP2013134751A
Application number: JP2011286870A
Authority: JP
Inventors: Kugatsu Sadamitsu; 九月貞光; Kuniko Saito; 邦子齋藤; Kenji Imamura; 賢治今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-08
Anticipated expiration: 2031-12-27
Also published as: JP5538354B2

Abstract

【課題】少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習する。
【解決手段】教師あり事後確率付与部１８で、手掛かり語を含む文書データ３４毎に手掛かり語に対応するトピックの割合に応じた教師あり事後確率４２を付与し、事後確率推定部２０ａで、トピックモデルパラメータ３８を用いて文書データ３４毎に教師なし事後確率４４ａを推定し、重み付き事後確率付与部２２で、教師あり事後確率４２と教師なし事後確率４４ａとを重み調整テーブル４６から取得した重みｗ(ｉ)を用いて線形補間して重み付き事後確率４８を付与し、事後確率推定部２０ｂで、手掛かり語を含まない文書データ３６毎に教師なし事後確率４４ｂを推定し、パラメータ更新部２４で、予め定めたトピック数、教師なし事後確率４４ｂ、及び重み付き事後確率４８に基づいて、トピックモデルパラメータ３８を更新する。
【選択図】図１

Description

本発明は、トピックモデル学習方法、装置、及びプログラムに係り、特に、文書集合に含まれる単語を特徴量とし、１文書をデータ点として確率的なクラスタリングを行うトピックモデルを学習するトピックモデル学習方法、装置、及びプログラムに関する。

従来、文書集合に含まれる単語を特徴量とし、１文書をデータ点として確率的なクラスタリングを行うトピックモデルの学習方法が提案されている。トピックモデルは、教師なし学習により構築することができるというメリットがある一方で、人間の直感と合わないモデリングがなされる場合がある、という問題がある。この問題に対して、予め人手でラベルが付与された教師ありデータを用いてトピックモデルを学習することにより、人間の直感に沿わせる手法がある。しかし、大量のデータに人手でラベルを付与するのは、労力及びコストが大きくなるため、少ない教師ありデータでトピックモデルを学習できることが望ましい。

そこで、ラベルが付与された文書とラベルが付与されていない文書とを用いた半教師あり学習により、ＵｎｉｇｒａｍＭｉｘｔｕｒｅｓのトピックモデルを学習する手法が提案されている（例えば、非特許文献１参照）。

また、単語に対してラベルを付与した教師ありデータを用いた半教師あり学習として、ディリクレ分布を階層化したディリクレ木によりトピックモデルを学習する手法が提案されている（例えば、非特許文献２参照）

Kamal Nigam, Andrew McCallum, Sebastian Thrun and Tom Mitchell, " Text Classification from Labeled and Unlabeled Documents using EM." , Machine Learning, 39(2/3). pp. 103-134. 2000. David Andrzejewski, Xiaojin Zhu, and Mark Craven, " Incorporating domain knowledge into topic mod- eling via Dirichlet forest priors.", In Proceedings of International Conference of Machine Learning, 2009.

しかしながら、非特許文献１に記載の手法では、文書毎にラベルを付与して教師ありデータとする手法であり、トピックを直接制御することができないため、任意の学習方向を定めることができず、人間の直感に合致しないモデリングがなされる場合がある、という問題がある。

また、非特許文献２に記載の手法では、高速なＥＭアルゴリズムでは解けない複雑なモデルであるため、ギブスサンプリングというサンプリング手法に基づいていており、処理負荷が増大する、という問題がある。

本発明は、上記の事情を鑑みてなされたもので、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができるトピックモデル学習方法、装置、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明のトピックモデル学習方法は、トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第１教師なし事後確率を、前記教師あり文書データ毎に推定する第１教師なし事後確率推定ステップと、前記教師あり事後確率と前記第１教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第２教師なし事後確率を、前記教師なし文書データ毎に推定する第２教師なし事後確率推定ステップと、予め定めたトピック数、前記重み付き事後確率、及び前記第２教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新ステップと、を含む方法である。

本発明のトピックモデル学習方法によれば、教師あり事後確率付与ステップで、トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ教師あり文書データ各々に含まれる手掛かり語の割合に応じた教師あり事後確率を、教師あり文書データ毎に付与する。また、第１教師なし事後確率推定ステップで、トピックモデルを表すパラメータに基づいて、複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第１教師なし事後確率を、教師あり文書データ毎に推定する。そして、重み付き事後確率付与ステップで、教師あり事後確率と第１教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、教師あり文書データ毎に付与する。また、第２教師なし事後確率推定ステップで、トピックモデルを表すパラメータに基づいて、手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第２教師なし事後確率を、教師なし文書データ毎に推定する。そして、更新ステップで、予め定めたトピック数、重み付き事後確率、及び第２教師なし事後確率に基づいて、トピックモデルを表すパラメータを更新する。

このように、手掛かり語を含む文書データに対する教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めて、トピックモデルのパラメータ更新に用いることで、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができる。

また、前記更新ステップにおいて前記パラメータが収束したと判定されるまで、前記第１教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第２教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第１教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めることができる。これにより、教師あり事後確率付与ステップで得られた教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。また、繰り返し回数に応じた重みは、第１教師なし事後確率の重みを固定して、教師あり事後確率の重みを小さくしてもよいし、教師あり事後確率の重みを固定して、第１教師なし事後確率の重みを大きくしてもよい。また、上記の補間が線型補間の場合には、第１教師なし事後確率の重みを大きくする、または教師あり事後確率の重みを小さくすることで、第１教師なし事後確率に対して教師あり事後確率の重みを小さくすることができる。

また、前記第１教師なし事後確率推定ステップ及び前記第２教師なし事後確率推定ステップを、ＥＭアルゴリズムにおける期待値推定ステップとし、前記更新ステップを、前記ＥＭアルゴリズムにおける期待値最大化ステップとすることができる。このように、高速なＥＭアルゴリズムを適用することができるため、処理負荷の増大がない。

また、本発明のトピックモデル学習装置は、トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与手段と、トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第１教師なし事後確率を、前記教師あり文書データ毎に推定する第１教師なし事後確率推定手段と、前記教師あり事後確率と前記第１教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与手段と、前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第２教師なし事後確率を、前記教師なし文書データ毎に推定する第２教師なし事後確率推定手段と、予め定めたトピック数、前記重み付き事後確率、及び前記第２教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新手段と、を含んで構成することができる。

また、本発明のトピックモデル学習プログラムは、コンピュータに、上記のトピックモデル学習方法の各ステップを実行させるためのプログラムである。

以上説明したように、本発明のトピックモデル学習方法、装置、及びプログラムによれば、手掛かり語を含む文書データに対する教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めて、トピックモデルのパラメータ更新に用いることで、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができる、という効果が得られる。

本実施の形態に係るトピックモデル学習装置の構成を示す機能ブロック図である。本実施の形態に係るトピックモデル学習装置におけるトピックモデル学習処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、ＥＭ（Expectation-Maximization）アルゴリズムを用いてトピックモデルを学習する場合について説明する。

本実施の形態に係るトピックモデル学習装置１０は、複数の文書データを含む文書集合を入力とし、トピックモデルのパラメータを出力する。このトピックモデル学習装置１０は、ＣＰＵと、ＲＡＭと、後述するトピックモデル学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図１に示すように、文書データ分割部１２と、教師あり事後確率付与部１８と、事後確率推定部２０ａと、事後確率推定部２０ｂと、重み付き事後確率付与部２２と、パラメータ更新部２４と、収束判定部２６と、出力部２８とを含んだ構成で表すことができる。

文書データ分割部１２は、複数の文書データを含む文書集合３０を入力として受け付ける。文書集合３０は、例えば、各文書データに形態素解析等の処理を施し、各文書データに含まれる単語毎の出現回数をまとめたテーブル（Ｄ×Ｖ行列）とすることができる。ここで、Ｄは文書集合３０に含まれる文書データの総数、Ｖは文書集合３０に出現する単語の種類数である。テーブル中の各要素は、文書データｄ中に単語ｖが出現した回数ｎ_ｄｖで表される。

また、文書データ分割部１２は、手掛かり語データベース（ＤＢ）３２に定められた手掛かり語を参照して、文書集合３０に含まれる文書データ各々を、手掛かり語を含む文書データと手掛かり語を含まない文書データとに分割する。手掛かり語ＤＢ３２には、トピックとの対応が既知の単語として、手掛かり語（Ｓ）＝｛Ｓ１，Ｓ２，・・・，Ｓｃ，・・・ＳＣ｝が定められている。Ｃは手掛かり語のクラス数であり、各クラスは１つのトピックを表す。また、Ｓｃは各クラスに含まれる手掛かり語集合Ｓｃ＝｛ｗ１，ｗ２，・・・，ｗｓｃ｝であり、ｓｃはクラスｃに含まれる手掛かり語の数である。すなわち、クラスｃが表すトピックの手掛かり語集合として、Ｓｃが定められていることになる。

文書データ分割部１２は、具体的には、文書集合３０を表すテーブルから対象となる文書データｄの行を抽出し、この１×Ｖのベクトルを文書データｄの表現形式とする。このベクトル内の要素のうち、手掛かり語と一致する単語ｖの出現回数ｎ_ｄｖを表す要素が１以上の場合には、その文書データを手掛かり語を含む文書データ３４として出力する。一方、手掛かり語と一致する単語ｖの出現回数ｎ_ｄｖを表す要素が０の場合には、その文書データを手掛かり語を含まない文書データ３６として出力する。

教師あり事後確率付与部１８は、手掛かり語を含む文書データ３４を入力とし、手掛かり語ＤＢ３２を参照して、手掛かり語を含む文書データ３４の各々に対して、教師あり事後確率４２を付与する。手掛かり語を１つ以上含む文書データ中の手掛かり語に対応するトピックの割合に応じて、アドホックにトピック事後確率を設定し、これを文書データが表すトピックの尤もらしさを示す教師あり事後確率４２とする。具体的には、教師あり事後確率４２は、文書データ３４に含まれる各クラスの手掛かり語の割合に応じて決定される。

例えば、手掛かり語が
手掛かり語＝｛ＮＴＴ，フレッツ｝∈通信、｛野球｝∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率ｐ_ｐ(ｚ｜ｄ)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
ｐ_ｐ(通信｜文書データ１)＝1.0
ｉｆ（文書データ１∋｛ＮＴＴ，フレッツ｝）
ｐ_ｐ(通信｜文書データ２)＝0.5、ｐ(スポーツ｜文書データ２)＝0.5
ｉｆ（文書データ２∋｛ＮＴＴ，野球｝）

なお、ここではトピックを「通信」及び「スポーツ」等と表記しているが、実際にはトピックは確率変数ｚで表されるにすぎない。また、ｚは、後述する教師なし事後確率の推定で用いる確率変数ｚと共通であるので、教師あり事後確率と教師なし事後確率との対応をとることが可能である。

教師あり事後確率付与部１８は、手掛かり語を含む文書データ３４の文書データｄ毎にＺ個のトピックに対して上記のような教師あり事後確率｛ｐ_ｐ(ｚ＝１｜ｄ），・・・，ｐ_ｐ(ｚ＝Ｚ｜ｄ)｝を付与する。

事後確率推定部２０ａは、手掛かり語を含む文書データ３４の各文書データｄ、トピックモデルパラメータ３８または初期トピックモデルパラメータ４０を入力とし、文書データｄが表すトピックの尤もらしさを示す教師なし事後確率４４ａを計算する。ＥＭアルゴリズムのＥステップに相当する処理である。ここで、トピックモデルとは、文書集合に含まれる単語（ｖ）を特徴量とし、１文書をデータ点（ｄ）として確率的なクラスタリングを行うためのモデルであり、トピックモデルパラメータ３８を用いて、下記（１）式で表されるモデルである。

（１）式において、トピックモデルパラメータ３８は、ｐ(ｚ)（１×Ｚmatrix）及びｐ(ｖ｜ｚ)（Ｚ×Ｖmatrix）である。ｚは、教師あり事後確率付与部１８と同様に、トピックを表す確率変数である。ｐ(ｚ)は確率変数ｚに対する事前確率であり、ｐ(ｖ｜ｚ)は確率変数ｚの下での多項分布による確率である。ｎ_ｄｖは文書データｄ中に単語ｖが出現した回数である。

また、初期トピックモデルパラメータ４０は、ｐ(ｚ)及びｐ(ｖ｜ｚ)の初期値であり、例えば、ｐ(ｚ)及びｐ(ｖ｜ｚ)の各値をランダムに生成し、Σ_ｚｐ(ｚ)＝１、Σ_ｖｐ(ｖ｜ｚ)＝１と正規化を行った値を用いることができる。また、パラメータの分散が極端に大きくなるのを防ぐため、各々のパラメータについてＮ回ランダム生成したものの平均をとるなどしてもよい。

事後確率推定部２０ａは、具体的には、上記の入力を元に、下記（２）式により、手掛かり語を含む文書データ３４の文書データｄ毎にＺ個のトピックに対して教師なし事後確率｛ｐ_ｕ(ｚ＝１｜ｄ），・・・，ｐ_ｕ(ｚ＝Ｚ｜ｄ)｝を推定する。

事後確率推定部２０ｂは、事後確率推定部２０ａとは、入力として手掛かり語を含まない文書データ３６の各文書データｄを用い、文書データｄが表すトピックの尤もらしさを示す教師なし事後確率４４ｂを推定する点が異なるだけであるので、詳細な説明を省略する。

重み付き事後確率付与部２２は、教師あり事後確率４２、教師なし事後確率４４ａ、及び重み調整テーブル４６に定められた重みを入力として、後述するパラメータ更新部２４で利用するトピック事後確率を、教師あり事後確率４４ｂと教師なし事後確率４４ａとを重みを用いて線形補間して求め、重み付き事後確率４８として各文書データｄに付与する。重み付き事後確率４８を求める際に用いる重みは、重み調整テーブル４６から取得する。重み調整テーブル４６には、例えば、（ｗ(１)＝1.0，ｗ(２)＝0.5，ｗ(３)＝0.0）のように、ＥＭアルゴリズムの繰り返し処理において、徐々に教師あり事後確率４２の重みを下げるように、重みが定められている。

重み付き事後確率付与部２２は、具体的には、教師あり事後確率ｐ_ｐ(ｚ｜ｄ)、教師なし事後確率ｐ_ｕ(ｚ｜ｄ)、現在のイテレーション数ｉ（ｉ回目の繰り返し処理を示す）、及び重み調整テーブル４６から参照される重みｗ(ｉ)を用いて、下記（３）式により線形補間を行って、手掛かり語を含む文書データ３４の文書データｄ毎にＺ個のトピックに対して重み付き事後確率｛ｐ(ｚ＝１｜ｄ），・・・，ｐ(ｚ＝Ｚ｜ｄ)｝を付与する。

ｐ(ｚ｜ｄ)＝ｗ(ｉ)×ｐ_ｐ(ｚ｜ｄ)＋(１−ｗ(ｉ))×ｐ_ｕ(ｚ｜ｄ) （３）

重み調整テーブル４６に、例えば上記のように（ｗ(１)＝１，ｗ(２)＝0.5，ｗ(３)＝0.0）と重みが定められている場合には、
１^stite. ｐ(ｚ｜ｄ)＝1.0×ｐ_ｐ(ｚ｜ｄ)＋0.0×ｐ_ｕ(ｚ｜ｄ)
２^ndite. ｐ(ｚ｜ｄ)＝0.5×ｐ_ｐ(ｚ｜ｄ)＋0.5×ｐ_ｕ(ｚ｜ｄ)
３^rdite. ｐ(ｚ｜ｄ)＝0.0×ｐ_ｐ(ｚ｜ｄ)＋1.0×ｐ_ｕ(ｚ｜ｄ)
となる。なお、１^stiteはイテレーション数が１、２^nditeはイテレーション数が２、３^rditeはイテレーション数が３であることを示す。

パラメータ更新部２４は、手掛かり語を含まない文書データ３６集合についての教師なし事後確率４４ｂ、手掛かり語を含む文書データ３４集合についての重み付き事後確率４８を入力として、ＥＭアルゴリズムのＭステップに相当する処理を実行し、下記（４）式及び（５）式により、トピックモデルパラメータ３８を更新する。なお、（４）式及び（５）式では、簡単のため教師なし事後確率４４ｂについてもｐ(ｚ|ｄ)として表記している。文書データｄが手掛かり語を含まない文書データ３６の場合には、（４）式及び（５）式内のｐ(ｚ|ｄ)は、ｐ_ｕ(ｚ|ｄ)と読み替える。

収束判定部２６は、ＥＭアルゴリズムの繰り返し処理について、必要なイテレーション数を繰り返したか否かにより、パラメータが収束したか否かを判定する。必要なイテレーション数を繰り返していれば、パラメータが収束したと判定する。また、Ｅステップで付加的に計算可能な文書データの尤度に基づいて、パラメータが収束したか否かを判定するようにしてもよい。

出力部２８は、収束判定部２６によりパラメータが収束したと判定されたときのトピックモデルパラメータ３８を出力する。

次に、図２を参照して、本実施の形態のトピックモデル学習装置１０により実行されるトピックモデル学習処理ルーチンについて説明する。

ステップ１００で、文書集合３０を取得し、手掛かり語ＤＢ３２に定められた手掛かり語を参照して、文書集合３０に含まれる文書データ各々を、手掛かり語を含む文書データ３４と手掛かり語を含まない文書データ３６とに分割する。

次に、ステップ１０２で、手掛かり語ＤＢ３２を参照して、手掛かり語を含む文書データ３４の文書データｄ毎に、文書データ３４に含まれる各クラスの手掛かり語の割合に応じて、Ｚ個のトピックに対して教師あり事後確率｛ｐ_ｐ(ｚ＝１｜ｄ），・・・，ｐ_ｐ(ｚ＝Ｚ｜ｄ)｝を付与する。

次に、ステップ１０４で、インテレーション数ｉに０を設定し、次に、ステップ１０６で、手掛かり語を含む文書データ３４の各文書データｄ、及び初期トピックモデルパラメータ４０を用いて、（２）式により、手掛かり語を含む文書データ３４の文書データｄ毎にＺ個のトピックに対して教師なし事後確率｛ｐ_ｕ(ｚ＝１｜ｄ），・・・，ｐ_ｕ(ｚ＝Ｚ｜ｄ)｝を推定する。

次に、ステップ１０８で、重み調整テーブル４６から重みｗ(ｉ)を取得して、上記ステップ１０２で付与された教師あり事後確率ｐ_ｐ(ｚ｜ｄ)と、上記ステップ１０６で推定された教師なし事後確率ｐ_ｕ(ｚ｜ｄ)とを、（２）式により線形補間して、手掛かり語を含む文書データ３４の文書データｄ毎にＺ個のトピックに対して重み付き事後確率｛ｐ(ｚ＝１｜ｄ），・・・，ｐ(ｚ＝Ｚ｜ｄ)｝を付与する。

次に、ステップ１１０で、手掛かり語を含まない文書データ３６の各文書データｄを用いて、上記ステップ１０６と同様に、教師なし事後確率｛ｐ_ｕ(ｚ＝１｜ｄ），・・・，ｐ_ｕ(ｚ＝Ｚ｜ｄ)｝を推定する。

次に、ステップ１１２で、上記ステップ１１０で推定した教師なし事後確率４４ｂ、及び上記ステップ１０８で付与した重み付き事後確率４８に基づいて、（４）式及び（５）式により、トピックモデルパラメータ３８を更新する。

次に、ステップ１１４で、イテレーション数ｉが予め定めた必要な繰り返し数となったか否かを判定する。イテレーション数ｉがまだ必要な繰り返し数に到達していない場合には、パラメータが収束していないと判定して、ステップ１１６へ移行して、ｉを１インクリメントして、ステップ１０６へ戻り、ステップ１０６〜１１２の処理を繰り返す。繰り返し処理におけるステップ１０６及び１１０で教師なし事後確率を推定する際には、初期トピックモデルパラメータ４０ではなく、前処理のステップ１１２で更新されたトピックモデルパラメータ３８を用いる。

上記ステップ１１４で、イテレーション数ｉが必要な繰り返し数に到達したと判定された場合には、パラメータが収束したと判定して、ステップ１１８へ移行し、上記ステップ１１６で更新されたトピックモデルパラメータ３８、すなわち現在のトピックモデルパラメータ３８を出力して、トピックモデル学習処理を終了する。

以上説明したように、本実施の形態のトピックモデル学習装置によれば、文書集合の一部である手掛かり語を含む文書データに付与された教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めることで、トピックモデルのパラメータ更新に用いるトピック事後確率に対してバイアスをかけることができ、任意の学習方向を定めることができる。すなわち、少ない教師ありデータを用いた場合であっても、人間の直感に合致したトピックモデルを学習することができる。また、上記実施の形態のように、例えばＥＭアルゴリズムのような高速なアルゴリズムを学習方法として用いることができ、モデルが複雑化することもないため、処理負荷が増大することもない。

また、多項分布パラメータ自体を人為的に操作するものではないため、その多項分布を保持するトピックから文書を生成する確率が著しく低くなり、結果トピック事後確率も同様に低くなり、そのトピックがどの文書からも参照されない、というような無意味なトピックになることを防止できる。

また、繰り返し処理において、重み付き事後確率を求める際に、繰り返し回数に応じて教師あり事後確率に対する重みを小さくすることで、実際の教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。

また、トピックモデルのトピック数は事前に設定する必要があるが、基本的には手掛かり語のクラス数よりも多めに与えることが効果的である。これは手掛かり語のクラスをどれだけ網羅的に設計したとしても、文書集合の中には、いずれのクラスにも属さない文書や単語が現れる可能性は高く、それらの文書を無理に既存のトピックに当てはめようとしたところで歪みが生じてしまうためである。具体的には、その他のトピックに押されて既存のトピックが縮小してしまう現象等が見られる。

なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明のトピックモデル学習装置を、上記処理を実現するための半導体集積回路等のハードウエアにより構成してもよい。

１０トピックモデル学習装置
１２文書データ分割部
１８教師あり事後確率付与部
２０ａ、２０ｂ教師なし事後確率推定部
２２重み付き事後確率付与部
２４パラメータ更新部
２６収束判定部
２８出力部

Claims

トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、
トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第１教師なし事後確率を、前記教師あり文書データ毎に推定する第１教師なし事後確率推定ステップと、
前記教師あり事後確率と前記第１教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、
前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第２教師なし事後確率を、前記教師なし文書データ毎に推定する第２教師なし事後確率推定ステップと、
予め定めたトピック数、前記重み付き事後確率、及び前記第２教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新ステップと、
を含むトピックモデル学習方法。
前記更新ステップにおいて前記パラメータが収束したと判定されるまで、前記第１教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第２教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第１教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めた請求項１記載のトピックモデル学習方法。
前記第１教師なし事後確率推定ステップ及び前記第２教師なし事後確率推定ステップが、ＥＭアルゴリズムにおける期待値推定ステップであり、前記更新ステップが、前記ＥＭアルゴリズムにおける期待値最大化ステップである請求項２記載のトピックモデル学習方法。
トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与手段と、
トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第１教師なし事後確率を、前記教師あり文書データ毎に推定する第１教師なし事後確率推定手段と、
前記教師あり事後確率と前記第１教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与手段と、
前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第２教師なし事後確率を、前記教師なし文書データ毎に推定する第２教師なし事後確率推定手段と、
予め定めたトピック数、前記重み付き事後確率、及び前記第２教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新手段と、
を含むトピックモデル学習装置。
コンピュータに、請求項１〜請求項３のいずれか１項記載のトピックモデル学習方法の各ステップを実行させるためのトピックモデル学習プログラム。