JP5538354B2 - トピックモデル学習方法、装置、及びプログラム - Google Patents

トピックモデル学習方法、装置、及びプログラム Download PDF

Info

Publication number
JP5538354B2
JP5538354B2 JP2011286870A JP2011286870A JP5538354B2 JP 5538354 B2 JP5538354 B2 JP 5538354B2 JP 2011286870 A JP2011286870 A JP 2011286870A JP 2011286870 A JP2011286870 A JP 2011286870A JP 5538354 B2 JP5538354 B2 JP 5538354B2
Authority
JP
Japan
Prior art keywords
posterior probability
unsupervised
supervised
document data
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286870A
Other languages
English (en)
Other versions
JP2013134751A (ja
Inventor
九月 貞光
邦子 齋藤
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011286870A priority Critical patent/JP5538354B2/ja
Publication of JP2013134751A publication Critical patent/JP2013134751A/ja
Application granted granted Critical
Publication of JP5538354B2 publication Critical patent/JP5538354B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、トピックモデル学習方法、装置、及びプログラムに係り、特に、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルを学習するトピックモデル学習方法、装置、及びプログラムに関する。
従来、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルの学習方法が提案されている。トピックモデルは、教師なし学習により構築することができるというメリットがある一方で、人間の直感と合わないモデリングがなされる場合がある、という問題がある。この問題に対して、予め人手でラベルが付与された教師ありデータを用いてトピックモデルを学習することにより、人間の直感に沿わせる手法がある。しかし、大量のデータに人手でラベルを付与するのは、労力及びコストが大きくなるため、少ない教師ありデータでトピックモデルを学習できることが望ましい。
そこで、ラベルが付与された文書とラベルが付与されていない文書とを用いた半教師あり学習により、Unigram Mixturesのトピックモデルを学習する手法が提案されている(例えば、非特許文献1参照)。
また、単語に対してラベルを付与した教師ありデータを用いた半教師あり学習として、ディリクレ分布を階層化したディリクレ木によりトピックモデルを学習する手法が提案されている(例えば、非特許文献2参照)
Kamal Nigam, Andrew McCallum, Sebastian Thrun and Tom Mitchell, " Text Classification from Labeled and Unlabeled Documents using EM." , Machine Learning, 39(2/3). pp. 103-134. 2000. David Andrzejewski, Xiaojin Zhu, and Mark Craven, " Incorporating domain knowledge into topic mod- eling via Dirichlet forest priors.", In Proceedings of International Conference of Machine Learning, 2009.
しかしながら、非特許文献1に記載の手法では、文書毎にラベルを付与して教師ありデータとする手法であり、トピックを直接制御することができないため、任意の学習方向を定めることができず、人間の直感に合致しないモデリングがなされる場合がある、という問題がある。
また、非特許文献2に記載の手法では、高速なEMアルゴリズムでは解けない複雑なモデルであるため、ギブスサンプリングというサンプリング手法に基づいていており、処理負荷が増大する、という問題がある。
本発明は、上記の事情を鑑みてなされたもので、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができるトピックモデル学習方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のトピックモデル学習方法は、コンピュータに、トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新ステップと、を含む各ステップを実行させる方法である。
本発明のトピックモデル学習方法によれば、教師あり事後確率付与ステップで、トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ教師あり文書データ各々に含まれる手掛かり語の割合に応じた教師あり事後確率を、教師あり文書データ毎に付与する。また、第1教師なし事後確率推定ステップで、トピックモデルを表すパラメータに基づいて、複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、教師あり文書データ毎に推定する。そして、重み付き事後確率付与ステップで、教師あり事後確率と第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、教師あり文書データ毎に付与する。また、第2教師なし事後確率推定ステップで、トピックモデルを表すパラメータに基づいて、手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、教師なし文書データ毎に推定する。そして、更新ステップで、予め定めたトピック数、重み付き事後確率、及び第2教師なし事後確率に基づいて、トピックモデルを表すパラメータを更新する。
このように、手掛かり語を含む文書データに対する教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めて、トピックモデルのパラメータ更新に用いることで、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができる。
また、前記更新ステップにおいて前記パラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めることができる。これにより、教師あり事後確率付与ステップで得られた教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。また、繰り返し回数に応じた重みは、第1教師なし事後確率の重みを固定して、教師あり事後確率の重みを小さくしてもよいし、教師あり事後確率の重みを固定して、第1教師なし事後確率の重みを大きくしてもよい。また、上記の補間が線型補間の場合には、第1教師なし事後確率の重みを大きくする、または教師あり事後確率の重みを小さくすることで、第1教師なし事後確率に対して教師あり事後確率の重みを小さくすることができる。
また、前記第1教師なし事後確率推定ステップ及び前記第2教師なし事後確率推定ステップを、EMアルゴリズムにおける期待値推定ステップとし、前記更新ステップを、前記EMアルゴリズムにおける期待値最大化ステップとすることができる。このように、高速なEMアルゴリズムを適用することができるため、処理負荷の増大がない。
また、本発明のトピックモデル学習装置は、トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与手段と、トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定手段と、前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与手段と、前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定手段と、予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新手段と、を含んで構成することができる。
また、本発明のトピックモデル学習プログラムは、コンピュータに、上記のトピックモデル学習方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明のトピックモデル学習方法、装置、及びプログラムによれば、手掛かり語を含む文書データに対する教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めて、トピックモデルのパラメータ更新に用いることで、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができる、という効果が得られる。
本実施の形態に係るトピックモデル学習装置の構成を示す機能ブロック図である。 本実施の形態に係るトピックモデル学習装置におけるトピックモデル学習処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、EM(Expectation-Maximization)アルゴリズムを用いてトピックモデルを学習する場合について説明する。
本実施の形態に係るトピックモデル学習装置10は、複数の文書データを含む文書集合を入力とし、トピックモデルのパラメータを出力する。このトピックモデル学習装置10は、CPUと、RAMと、後述するトピックモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図1に示すように、文書データ分割部12と、教師あり事後確率付与部18と、事後確率推定部20aと、事後確率推定部20bと、重み付き事後確率付与部22と、パラメータ更新部24と、収束判定部26と、出力部28とを含んだ構成で表すことができる。
文書データ分割部12は、複数の文書データを含む文書集合30を入力として受け付ける。文書集合30は、例えば、各文書データに形態素解析等の処理を施し、各文書データに含まれる単語毎の出現回数をまとめたテーブル(D×V行列)とすることができる。ここで、Dは文書集合30に含まれる文書データの総数、Vは文書集合30に出現する単語の種類数である。テーブル中の各要素は、文書データd中に単語vが出現した回数ndvで表される。
また、文書データ分割部12は、手掛かり語データベース(DB)32に定められた手掛かり語を参照して、文書集合30に含まれる文書データ各々を、手掛かり語を含む文書データと手掛かり語を含まない文書データとに分割する。手掛かり語DB32には、トピックとの対応が既知の単語として、手掛かり語(S)={S1,S2,・・・,Sc,・・・SC}が定められている。Cは手掛かり語のクラス数であり、各クラスは1つのトピックを表す。また、Scは各クラスに含まれる手掛かり語集合Sc={w1,w2,・・・,wsc}であり、scはクラスcに含まれる手掛かり語の数である。すなわち、クラスcが表すトピックの手掛かり語集合として、Scが定められていることになる。
文書データ分割部12は、具体的には、文書集合30を表すテーブルから対象となる文書データdの行を抽出し、この1×Vのベクトルを文書データdの表現形式とする。このベクトル内の要素のうち、手掛かり語と一致する単語vの出現回数ndvを表す要素が1以上の場合には、その文書データを手掛かり語を含む文書データ34として出力する。一方、手掛かり語と一致する単語vの出現回数ndvを表す要素が0の場合には、その文書データを手掛かり語を含まない文書データ36として出力する。
教師あり事後確率付与部18は、手掛かり語を含む文書データ34を入力とし、手掛かり語DB32を参照して、手掛かり語を含む文書データ34の各々に対して、教師あり事後確率42を付与する。手掛かり語を1つ以上含む文書データ中の手掛かり語に対応するトピックの割合に応じて、アドホックにトピック事後確率を設定し、これを文書データが表すトピックの尤もらしさを示す教師あり事後確率42とする。具体的には、教師あり事後確率42は、文書データ34に含まれる各クラスの手掛かり語の割合に応じて決定される。
例えば、手掛かり語が
手掛かり語={NTT,フレッツ}∈通信、{野球}∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率p_p(z|d)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
p_p(通信|文書データ1)=1.0
if(文書データ1∋{NTT,フレッツ})
p_p(通信|文書データ2)=0.5、p(スポーツ|文書データ2)=0.5
if(文書データ2∋{NTT,野球})
なお、ここではトピックを「通信」及び「スポーツ」等と表記しているが、実際にはトピックは確率変数zで表されるにすぎない。また、zは、後述する教師なし事後確率の推定で用いる確率変数zと共通であるので、教師あり事後確率と教師なし事後確率との対応をとることが可能である。
教師あり事後確率付与部18は、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して上記のような教師あり事後確率{p_p(z=1|d),・・・,p_p(z=Z|d)}を付与する。
事後確率推定部20aは、手掛かり語を含む文書データ34の各文書データd、トピックモデルパラメータ38または初期トピックモデルパラメータ40を入力とし、文書データdが表すトピックの尤もらしさを示す教師なし事後確率44aを計算する。EMアルゴリズムのEステップに相当する処理である。ここで、トピックモデルとは、文書集合に含まれる単語(v)を特徴量とし、1文書をデータ点(d)として確率的なクラスタリングを行うためのモデルであり、トピックモデルパラメータ38を用いて、下記(1)式で表されるモデルである。
Figure 0005538354

(1)式において、トピックモデルパラメータ38は、p(z)(1×Zmatrix)及びp(v|z)(Z×Vmatrix)である。zは、教師あり事後確率付与部18と同様に、トピックを表す確率変数である。p(z)は確率変数zに対する事前確率であり、p(v|z)は確率変数zの下での多項分布による確率である。ndvは文書データd中に単語vが出現した回数である。
また、初期トピックモデルパラメータ40は、p(z)及びp(v|z)の初期値であり、例えば、p(z)及びp(v|z)の各値をランダムに生成し、Σp(z)=1、Σp(v|z)=1と正規化を行った値を用いることができる。また、パラメータの分散が極端に大きくなるのを防ぐため、各々のパラメータについてN回ランダム生成したものの平均をとるなどしてもよい。
事後確率推定部20aは、具体的には、上記の入力を元に、下記(2)式により、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=Z|d)}を推定する。
Figure 0005538354
事後確率推定部20bは、事後確率推定部20aとは、入力として手掛かり語を含まない文書データ36の各文書データdを用い、文書データdが表すトピックの尤もらしさを示す教師なし事後確率44bを推定する点が異なるだけであるので、詳細な説明を省略する。
重み付き事後確率付与部22は、教師あり事後確率42、教師なし事後確率44a、及び重み調整テーブル46に定められた重みを入力として、後述するパラメータ更新部24で利用するトピック事後確率を、教師あり事後確率44bと教師なし事後確率44aとを重みを用いて線形補間して求め、重み付き事後確率48として各文書データdに付与する。重み付き事後確率48を求める際に用いる重みは、重み調整テーブル46から取得する。重み調整テーブル46には、例えば、(w(1)=1.0,w(2)=0.5,w(3)=0.0)のように、EMアルゴリズムの繰り返し処理において、徐々に教師あり事後確率42の重みを下げるように、重みが定められている。
重み付き事後確率付与部22は、具体的には、教師あり事後確率p_p(z|d)、教師なし事後確率p_u(z|d)、現在のイテレーション数i(i回目の繰り返し処理を示す)、及び重み調整テーブル46から参照される重みw(i)を用いて、下記(3)式により線形補間を行って、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して重み付き事後確率{p(z=1|d),・・・,p(z=Z|d)}を付与する。
p(z|d)=w(i)×p_p(z|d)+(1−w(i))×p_u(z|d) (3)
重み調整テーブル46に、例えば上記のように(w(1)=1,w(2)=0.5,w(3)=0.0)と重みが定められている場合には、
stite. p(z|d)=1.0×p_p(z|d)+0.0×p_u(z|d)
ndite. p(z|d)=0.5×p_p(z|d)+0.5×p_u(z|d)
rdite. p(z|d)=0.0×p_p(z|d)+1.0×p_u(z|d)
となる。なお、1stiteはイテレーション数が1、2nditeはイテレーション数が2、3rditeはイテレーション数が3であることを示す。
パラメータ更新部24は、手掛かり語を含まない文書データ36集合についての教師なし事後確率44b、手掛かり語を含む文書データ34集合についての重み付き事後確率48を入力として、EMアルゴリズムのMステップに相当する処理を実行し、下記(4)式及び(5)式により、トピックモデルパラメータ38を更新する。なお、(4)式及び(5)式では、簡単のため教師なし事後確率44bについてもp(z|d)として表記している。文書データdが手掛かり語を含まない文書データ36の場合には、(4)式及び(5)式内のp(z|d)は、p_u(z|d)と読み替える。
Figure 0005538354
収束判定部26は、EMアルゴリズムの繰り返し処理について、必要なイテレーション数を繰り返したか否かにより、パラメータが収束したか否かを判定する。必要なイテレーション数を繰り返していれば、パラメータが収束したと判定する。また、Eステップで付加的に計算可能な文書データの尤度に基づいて、パラメータが収束したか否かを判定するようにしてもよい。
出力部28は、収束判定部26によりパラメータが収束したと判定されたときのトピックモデルパラメータ38を出力する。
次に、図2を参照して、本実施の形態のトピックモデル学習装置10により実行されるトピックモデル学習処理ルーチンについて説明する。
ステップ100で、文書集合30を取得し、手掛かり語DB32に定められた手掛かり語を参照して、文書集合30に含まれる文書データ各々を、手掛かり語を含む文書データ34と手掛かり語を含まない文書データ36とに分割する。
次に、ステップ102で、手掛かり語DB32を参照して、手掛かり語を含む文書データ34の文書データd毎に、文書データ34に含まれる各クラスの手掛かり語の割合に応じて、Z個のトピックに対して教師あり事後確率{p_p(z=1|d),・・・,p_p(z=Z|d)}を付与する。
次に、ステップ104で、インテレーション数iに0を設定し、次に、ステップ106で、手掛かり語を含む文書データ34の各文書データd、及び初期トピックモデルパラメータ40を用いて、(2)式により、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=Z|d)}を推定する。
次に、ステップ108で、重み調整テーブル46から重みw(i)を取得して、上記ステップ102で付与された教師あり事後確率p_p(z|d)と、上記ステップ106で推定された教師なし事後確率p_u(z|d)とを、(2)式により線形補間して、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して重み付き事後確率{p(z=1|d),・・・,p(z=Z|d)}を付与する。
次に、ステップ110で、手掛かり語を含まない文書データ36の各文書データdを用いて、上記ステップ106と同様に、教師なし事後確率{p_u(z=1|d),・・・,p_u(z=Z|d)}を推定する。
次に、ステップ112で、上記ステップ110で推定した教師なし事後確率44b、及び上記ステップ108で付与した重み付き事後確率48に基づいて、(4)式及び(5)式により、トピックモデルパラメータ38を更新する。
次に、ステップ114で、イテレーション数iが予め定めた必要な繰り返し数となったか否かを判定する。イテレーション数iがまだ必要な繰り返し数に到達していない場合には、パラメータが収束していないと判定して、ステップ116へ移行して、iを1インクリメントして、ステップ106へ戻り、ステップ106〜112の処理を繰り返す。繰り返し処理におけるステップ106及び110で教師なし事後確率を推定する際には、初期トピックモデルパラメータ40ではなく、前処理のステップ112で更新されたトピックモデルパラメータ38を用いる。
上記ステップ114で、イテレーション数iが必要な繰り返し数に到達したと判定された場合には、パラメータが収束したと判定して、ステップ118へ移行し、上記ステップ116で更新されたトピックモデルパラメータ38、すなわち現在のトピックモデルパラメータ38を出力して、トピックモデル学習処理を終了する。
以上説明したように、本実施の形態のトピックモデル学習装置によれば、文書集合の一部である手掛かり語を含む文書データに付与された教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めることで、トピックモデルのパラメータ更新に用いるトピック事後確率に対してバイアスをかけることができ、任意の学習方向を定めることができる。すなわち、少ない教師ありデータを用いた場合であっても、人間の直感に合致したトピックモデルを学習することができる。また、上記実施の形態のように、例えばEMアルゴリズムのような高速なアルゴリズムを学習方法として用いることができ、モデルが複雑化することもないため、処理負荷が増大することもない。
また、多項分布パラメータ自体を人為的に操作するものではないため、その多項分布を保持するトピックから文書を生成する確率が著しく低くなり、結果トピック事後確率も同様に低くなり、そのトピックがどの文書からも参照されない、というような無意味なトピックになることを防止できる。
また、繰り返し処理において、重み付き事後確率を求める際に、繰り返し回数に応じて教師あり事後確率に対する重みを小さくすることで、実際の教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。
また、トピックモデルのトピック数は事前に設定する必要があるが、基本的には手掛かり語のクラス数よりも多めに与えることが効果的である。これは手掛かり語のクラスをどれだけ網羅的に設計したとしても、文書集合の中には、いずれのクラスにも属さない文書や単語が現れる可能性は高く、それらの文書を無理に既存のトピックに当てはめようとしたところで歪みが生じてしまうためである。具体的には、その他のトピックに押されて既存のトピックが縮小してしまう現象等が見られる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明のトピックモデル学習装置を、上記処理を実現するための半導体集積回路等のハードウエアにより構成してもよい。
10 トピックモデル学習装置
12 文書データ分割部
18 教師あり事後確率付与部
20a、20b 教師なし事後確率推定部
22 重み付き事後確率付与部
24 パラメータ更新部
26 収束判定部
28 出力部

Claims (5)

  1. コンピュータに、
    トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、
    トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、
    前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、
    前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、
    予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新ステップと、
    を含む各ステップを実行させるトピックモデル学習方法。
  2. 前記更新ステップにおいて前記パラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めた請求項1記載のトピックモデル学習方法。
  3. 前記第1教師なし事後確率推定ステップ及び前記第2教師なし事後確率推定ステップが、EMアルゴリズムにおける期待値推定ステップであり、前記更新ステップが、前記EMアルゴリズムにおける期待値最大化ステップである請求項2記載のトピックモデル学習方法。
  4. トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与手段と、
    トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定手段と、
    前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与手段と、
    前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定手段と、
    予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新手段と、
    を含むトピックモデル学習装置。
  5. コンピュータに、請求項1〜請求項3のいずれか1項記載のトピックモデル学習方法の各ステップを実行させるためのトピックモデル学習プログラム。
JP2011286870A 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム Active JP5538354B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286870A JP5538354B2 (ja) 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286870A JP5538354B2 (ja) 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013134751A JP2013134751A (ja) 2013-07-08
JP5538354B2 true JP5538354B2 (ja) 2014-07-02

Family

ID=48911365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286870A Active JP5538354B2 (ja) 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5538354B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6070501B2 (ja) 2013-10-10 2017-02-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3868344B2 (ja) * 2002-07-12 2007-01-17 日本電信電話株式会社 テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
JP2010238043A (ja) * 2009-03-31 2010-10-21 Mitsubishi Electric Corp テキスト解析学習装置

Also Published As

Publication number Publication date
JP2013134751A (ja) 2013-07-08

Similar Documents

Publication Publication Date Title
US11341424B2 (en) Method, apparatus and system for estimating causality among observed variables
Hajjem et al. Generalized mixed effects regression trees
JP5503633B2 (ja) トピックモデル学習方法、装置、及びプログラム
Griffin et al. In search of lost mixing time: adaptive Markov chain Monte Carlo schemes for Bayesian variable selection with very large p
US20110029469A1 (en) Information processing apparatus, information processing method and program
CN109977394B (zh) 文本模型训练方法、文本分析方法、装置、设备及介质
Rohart et al. Selection of fixed effects in high dimensional linear mixed models using a multicycle ECM algorithm
JP7186591B2 (ja) テキスト分類装置、学習装置、およびプログラム
CN106354783A (zh) 一种基于信任关系隐含相似度的社会化推荐方法
CN101901251A (zh) 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
JP6468364B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Roy et al. Efficient estimation and prediction for the Bayesian binary spatial model with flexible link functions
CN110633417B (zh) 一种基于服务质量的web服务推荐的方法及系统
CN116304518A (zh) 用于信息推荐的异质图卷积神经网络模型构建方法及系统
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN112835798B (zh) 聚类学习方法、测试步骤聚类方法及相关装置
Fischer et al. A bound for the convergence rate of parallel tempering for sampling restricted Boltzmann machines
JP5538354B2 (ja) トピックモデル学習方法、装置、及びプログラム
WO2019159845A1 (ja) 動的分布推定装置、方法、及びプログラム
WO2020013236A1 (ja) データ解析装置、方法、及びプログラム
CN111401569A (zh) 超参数优化方法、装置和电子设备
Dong et al. A Stochastic Approximation-Langevinized Ensemble Kalman Filter Algorithm for State Space Models with Unknown Parameters
Calderhead et al. Sparse approximate manifolds for differential geometric mcmc
Payne et al. Bayesian big data classification: A review with complements
CN114092269A (zh) 基于改进广义网络向量模型的时序数据预测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5538354

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428