JP5503633B2 - トピックモデル学習方法、装置、及びプログラム - Google Patents

トピックモデル学習方法、装置、及びプログラム Download PDF

Info

Publication number
JP5503633B2
JP5503633B2 JP2011286871A JP2011286871A JP5503633B2 JP 5503633 B2 JP5503633 B2 JP 5503633B2 JP 2011286871 A JP2011286871 A JP 2011286871A JP 2011286871 A JP2011286871 A JP 2011286871A JP 5503633 B2 JP5503633 B2 JP 5503633B2
Authority
JP
Japan
Prior art keywords
topic
document data
posterior probability
supervised
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286871A
Other languages
English (en)
Other versions
JP2013134752A (ja
Inventor
九月 貞光
邦子 齋藤
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011286871A priority Critical patent/JP5503633B2/ja
Publication of JP2013134752A publication Critical patent/JP2013134752A/ja
Application granted granted Critical
Publication of JP5503633B2 publication Critical patent/JP5503633B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、トピックモデル学習方法、装置、及びプログラムに係り、特に、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルであって、トピックが階層構造を有する階層的トピックモデルを学習するトピックモデル学習方法、装置、及びプログラムに関する。
従来、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルの学習方法が提案されている。また、トピックが階層構造を有する階層的トピックモデルも存在する。階層的トピックモデルは、トピックの粒度(各トピックを表す各クラスに属する文書数)を調整し易いという特徴がある。また、教師あり学習で用いる手掛かり語について、同じ手掛かり語が複数のトピックに属する場合、単純な1階層のトピックモデルではこれを表現することができないが、2階層以上の階層的トピックモデルであれば、1階層目では複数の意味を持つ手掛かり語を除外し、2階層目以降で用いることができるという特徴もある。
トピックモデルは、1階層か階層的かに関わらず、教師なし学習により構築することができるというメリットがある一方で、人間の直感と合わないモデリングがなされる場合があり、これを修正したいという課題がある。
そこで、トピックモデルの各トピックにおける特徴語をユーザに提示し、各特徴語が各トピックの特徴語としてふさわしいか否かを判定し、ギブスサンプリングの隠れ変数割り当てをやり直すことで、トピックモデルに反映するインタラクティブトピックモデルが提案されている(例えば、非特許文献1参照)。
Yuening Hu, Jordan Boyd-Graber, Brianna Satinoff, "Interactive Topic Modeling", ACL-HLT2011, 2011.
しかしながら、非特許文献1に記載の手法では、高速なEMアルゴリズムでは解けない複雑なモデルであるため、ギブスサンプリングというサンプリング手法に基づいていており、処理負荷が増大する、という問題がある。
また、特に、トピックが階層構造を持つ場合には、全てを同じ階層に展開して半教師あり学習を行うことも不可能ではないが、トピックの粒度に偏りがあるため、適切な学習ができない、という問題がある。
本発明は、上記の事情を鑑みてなされたもので、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができるトピックモデル学習方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のトピックモデル学習方法は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出ステップと、前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を複数抽出する特徴単語抽出ステップと、前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成する手掛かり語作成ステップと、前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出ステップと、抽出された前記処理対象のトピックを表すパラメータ、作成された前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習ステップと、を含む方法である。
本発明のトピックモデル学習方法によれば、対象パラメータ抽出ステップで、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する。そして、特徴単語抽出ステップで、処理対象のトピックを表すパラメータに基づいて、処理対象のトピックを示す特徴単語を複数抽出し、手掛かり語作成ステップで、特徴単語各々を、処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成する。また、対象文書データ抽出ステップで、学習済みのトピックモデルを用いて、複数の文書データから対象のトピックを表す文書データ集合を抽出する。そして、半教師あり学習ステップで、抽出された処理対象のトピックを表すパラメータ、作成された手掛かり語、及び抽出された対象のトピックを表す文書データ集合に基づいて、処理対象のトピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する。
このように、学習済みのトピックモデルを用い、上層トピックとなる処理対象のトピックのパラメータ、各下層トピックとの対応が既知の手掛かり語、対象のトピックを表す文書データ集合に基づいて、処理対象のトピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを半教師あり学習により学習するため、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができる。
また、前記半教師あり学習ステップは、前記手掛かり語を含む複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、前記複数の下層トピック各々を表すパラメータに基づいて、前記複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、前記複数の下層トピック各々を表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表す下層トピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、予め定めたトピック数、前記重み付き事後確率、前記第2教師なし事後確率、及び前記処理対象のトピックを表すパラメータに基づいて、前記複数の下層トピック各々を表すパラメータを更新する更新ステップと、を含むことができる。これにより、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができる。
また、前記更新ステップにおいて前記複数の下層トピック各々を表すパラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めることができる。これにより、教師あり事後確率付与ステップで得られた教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。
また、前記更新ステップにおいて、前記複数の下層トピック各々を表すパラメータの初期値として前記処理対象のトピックを表すパラメータを用いると共に、前記処理対象のトピックを表すパラメータを事前確率としたMAP推定を行うことができる。これにより、下層トピックのモデリングが、上層トピックから大きく外れることがなくなる。
また、本発明のトピックモデル学習装置は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出手段と、前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を抽出する特徴単語抽出手段と、前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成された手掛かり語を受け付ける手掛かり語受付手段と、前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出手段と、抽出された前記処理対象のトピックを表すパラメータ、作成された前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習手段と、を含んで構成することができる。
また、本発明のトピックモデル学習プログラムは、コンピュータに、上記のトピックモデル学習方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明のトピックモデル学習方法、装置、及びプログラムによれば、学習済みのトピックモデルを用い、上層トピックとなる処理対象のトピックのパラメータ、各下層トピックとの対応が既知の手掛かり語、対象のトピックを表す文書データ集合に基づいて、処理対象のトピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを半教師あり学習により学習するため、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができる、という効果が得られる。
本実施の形態に係るトピックモデル学習装置の構成を示す機能ブロック図である。 半教師あり学習部の構成を示す機能ブロック図である。 本実施の形態に係るトピックモデル学習装置におけるトピックモデル学習処理ルーチンの内容を示すフローチャートである。 半教師あり学習処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、EM(Expectation-Maximization)アルゴリズムを用いてトピックモデルを学習する場合について説明する。
本実施の形態に係るトピックモデル学習装置10は、既に学習されたトピック数Kのトピックモデルを入力とし、このトピックモデルに含まれる任意のトピックを上層とする下層のトピックを表すトピックモデルパラメータを出力する。このトピックモデル学習装置10は、CPUと、RAMと、後述するトピックモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図1に示すように、対象コンポーネント抽出部50と、特徴単語抽出部52と、手掛かり語受付部54と、事後確率計算部56と、対象文書データ抽出部58と、半教師あり学習部60と、出力部28とを含んだ構成で表すことができる。
対象コンポーネント抽出部50は、既に学習されたトピック数Kのトピックモデル62を入力とし、トピックモデル62から対象となるトピック番号kのトピックモデルコンポーネント(パラメータ)(以下、「対象コンポーネント」ともいう)を抽出する。
ここで、トピックモデル62は、文書集合に含まれる単語(v)を特徴量とし、1文書をデータ点(d)として確率的なクラスタリングを行うためのモデルであり、トピックモデルパラメータを用いて、下記(1)式で表されるモデルである。
Figure 0005503633
(1)式において、トピックモデルパラメータは、p(z)(1×Kmatrix)及びp(v|z)(K×Vmatrix)である。zはトピックを表す確率変数、p(z)は確率変数zに対する事前確率、p(v|z)は確率変数zの下での多項分布による確率、ndvは文書データd中に単語vが出現した回数である。ここでは、対象コンポーネントとして、p(v|k)(1×Vmatrix)を抽出する。抽出した対象コンポーネントを、後述する半教師あり学習部60で用いる初期トピックモデルパラメータ40の1つとして記憶する。
特徴単語抽出部52は、初期トピックモデルパラメータ40の1つとして記憶した対象コンポーネントp(v|k)に基づいて、トピックkの特徴単語を抽出し、特徴単語リスト64を作成する。例えば、適当なスコア関数(例えば、p(v|k)/p(v))を用いて、対象コンポーネントに含まれる単語をソートし、スコアの上位N単語を特徴単語として抽出し、抽出された単語を特徴単語リスト64とすることができる。
手掛かり語受付部54は、作成された特徴単語リストに基づいて人手により作成された手掛かり語データベース(DB)32を受け付ける。手掛かり語DB32は、手掛かり語のクラス数をCとして、人手により特徴単語リストの各特徴単語を各クラスに分類したものである。各クラスは1つのトピックを表す。すなわち、手掛かり語DB32には、トピックk(上層トピック)の分割後のトピック(下層トピック)との対応が既知の単語として、手掛かり語(S)={S1,S2,・・・,Sc,・・・SC}が定められている。Scは各クラスに含まれる手掛かり語集合Sc={w1,w2,・・・,wsc}であり、scはクラスcに含まれる手掛かり語の数である。また、各wは特徴単語リストから選択された単語である。すなわち、クラスcが表すトピックの手掛かり語集合として、Scが定められていることになる。
事後確率計算部56は、複数の文書データを含む文書集合30を入力として受け付ける。文書集合30は、例えば、各文書データに形態素解析等の処理を施し、各文書データに含まれる単語毎の出現回数をまとめたテーブル(D×V行列)とすることができる。ここで、Dは文書集合30に含まれる文書データの総数、Vは文書集合30に出現する単語の種類数である。テーブル中の各要素は、文書データd中に単語vが出現した回数ndvで表される。
また、事後確率計算部56は、文書集合30に含まれる各文書データd、及びトピックモデル62を入力とし、文書データdが表すトピックの尤もらしさを示す教師なし事後確率66を計算する。具体的には、上記の入力を元に、下記(2)式により、文書データd毎にK個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=K|d)}を計算する。
Figure 0005503633
対象文書データ抽出部58は、事後確率計算部56で計算された教師なし事後確率66に基づいて、文書集合30から対象トピックkを表す文書データdを抽出する。具体的には、教師なし事後確率p_u(k|d)が予め定めた閾値を超える文書データdを、対象トピックkを表す文書データdとして抽出する。閾値は、例えば、0.5以上とすることができる。また、対象文書データ抽出部58は、抽出された各文書データdに含まれる単語毎の出現回数をまとめたテーブル(D×V行列)で表したトピックkを表す文書データd集合68を出力する。ここで、Dは文書データd集合68に含まれる文書データの総数、Vは文書集合30に出現する単語の種類数である。
半教師あり学習部60は、図2に示すように、文書データ分割部12と、教師あり事後確率付与部18と、事後確率推定部20aと、事後確率推定部20bと、重み付き事後確率付与部22と、パラメータ更新部24と、収束判定部26とを含んだ構成で表すことができる。
文書データ分割部12は、手掛かり語DB32に定められた手掛かり語を参照して、トピックkを表す文書データd集合68に含まれる文書データd各々を、手掛かり語を含む文書データと手掛かり語を含まない文書データとに分割する。
文書データ分割部12は、具体的には、文書データd集合68を表すテーブルから対象となる文書データdの行を抽出し、この1×Vのベクトルを文書データdの表現形式とする。このベクトル内の要素のうち、手掛かり語と一致する単語vの出現回数ndkvを表す要素が1以上の場合には、その文書データを手掛かり語を含む文書データ34として出力する。一方、手掛かり語と一致する単語vの出現回数ndkvを表す要素が0の場合には、その文書データを手掛かり語を含まない文書データ36として出力する。
教師あり事後確率付与部18は、手掛かり語を含む文書データ34を入力とし、手掛かり語DB32を参照して、手掛かり語を含む文書データ34の各々に対して、教師あり事後確率42を付与する。手掛かり語を1つ以上含む文書データ中の手掛かり語に対応するトピックの割合に応じて、アドホックにトピック事後確率を設定し、これを文書データが表すトピックの尤もらしさを示す教師あり事後確率42とする。具体的には、教師あり事後確率42は、文書データ34に含まれる各クラスの手掛かり語の割合に応じて決定される。
例えば、手掛かり語が
手掛かり語={NTT,フレッツ}∈通信、{野球}∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率p_p(z|d)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
p_p(通信|文書データ1)=1.0
if(文書データ1∋{NTT,フレッツ})
p_p(通信|文書データ2)=0.5、p(スポーツ|文書データ2)=0.5
if(文書データ2∋{NTT,野球})
なお、ここではトピックを「通信」及び「スポーツ」等と表記しているが、実際にはトピックは確率変数zで表されるにすぎない。また、zは、後述する教師なし事後確率の推定で用いる確率変数zと共通であるので、教師あり事後確率と教師なし事後確率との対応をとることが可能である。
教師あり事後確率付与部18は、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して上記のような教師あり事後確率{p_p(z=1|d),・・・,p_p(z=Z|d)}を付与する。
事後確率推定部20aは、手掛かり語を含む文書データ34の各文書データd、トピックモデルパラメータ38または初期トピックモデルパラメータ40を入力とし、教師なし事後確率44aを計算する。EMアルゴリズムのEステップに相当する処理である。トピックモデルパラメータは、事後確率計算部56で説明したのと同様に、下記(3)式で表されるモデルのパラメータp(z)(1×Zmatrix)及びp(v|z)(Z×Vmatrix)である。なお、ndkvは文書データd中に単語vが出現した回数である。
Figure 0005503633
また、初期トピックモデルパラメータ40は、p(z)及びp(v|z)の初期値である。p(z)の初期値については、例えば、p(z)の各値をランダムに生成し、Σp(z)=1と正規化を行った値を用いることができる。また、パラメータの分散が極端に大きくなるのを防ぐため、各々のパラメータについてN回ランダム生成したものの平均をとるなどしてもよい。p(v|z)の初期値については、対象コンポーネント抽出部50で抽出されたp(v|k)とする。すなわち、トピックモデルの各コンポーネントにおけるパラメータの初期値(混合多項分布の場合は1多項分布)を、1つ上層のトピックにおけるトピックモデルパラメータとし、混合比p(z)のみをランダム初期値とする。
事後確率推定部20aは、具体的には、上記の入力を元に、下記(4)式により、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=Z|d)}を推定する。
Figure 0005503633
事後確率推定部20bは、事後確率推定部20aとは、入力として手掛かり語を含まない文書データ36の各文書データdを用い、教師なし事後確率44bを推定する点が異なるだけであるので、詳細な説明を省略する。
重み付き事後確率付与部22は、教師あり事後確率42、教師なし事後確率44a、及び重み調整テーブル46に定められた重みを入力として、後述するパラメータ更新部24で利用するトピック事後確率を、教師あり事後確率44bと教師なし事後確率44aとを重みを用いて線形補間して求め、重み付き事後確率48として各文書データdに付与する。重み付き事後確率48を求める際に用いる重みは、重み調整テーブル46から取得する。重み調整テーブル46には、例えば、(w(1)=1.0,w(2)=0.5,w(3)=0.0)のように、EMアルゴリズムの繰り返し処理において、徐々に教師あり事後確率42の重みを下げるように、重みが定められている。
重み付き事後確率付与部22は、具体的には、教師あり事後確率p_p(z|d)、教師なし事後確率p_u(z|d)、現在のイテレーション数i(i回目の繰り返し処理を示す)、及び重み調整テーブル46から参照される重みw(i)を用いて、下記(5)式により線形補間を行って、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して重み付き事後確率{p(z=1|d),・・・,p(z=Z|d)}を付与する。
p(z|d)=w(i)×p_p(z|d)+(1−w(i))×p_u(z|d) (5)
重み調整テーブル46に、例えば上記のように(w(1)=1,w(2)=0.5,w(3)=0.0)と重みが定められている場合には、
stite. p(z|d)=1.0×p_p(z|d)+0.0×p_u(z|d)
ndite. p(z|d)=0.5×p_p(z|d)+0.5×p_u(z|d)
rdite. p(z|d)=0.0×p_p(z|d)+1.0×p_u(z|d)
となる。なお、1stiteはイテレーション数が1、2nditeはイテレーション数が2、3rditeはイテレーション数が3であることを示す。
パラメータ更新部24は、手掛かり語を含まない文書データ36集合についての教師なし事後確率44b、手掛かり語を含む文書データ34集合についての重み付き事後確率48、及び初期トピックモデルパラメータ40を入力として、EMアルゴリズムのMステップに相当する処理を実行する。具体的には、上記入力を元に、MAP(Maximum a posteriori)推定を用いて、下記(6)式及び(7)式により、トピックモデルパラメータ38を更新する。なお、(6)式及び(7)式では、簡単のため教師なし事後確率44bについてもp(z|d)として表記している。文書データdが手掛かり語を含まない文書データ36の場合には、(6)式及び(7)式内のp(z|d)は、p_u(z|d)と読み替える。なお、(6)式内のp(v|k)は初期トピックモデルパラメータ40の1つ(対象コンポーネント)である。すなわち、1つ上層のトピックの確率分布を事前確率としたMAP推定を行う。
Figure 0005503633
収束判定部26は、EMアルゴリズムの繰り返し処理について、必要なイテレーション数を繰り返したか否かにより、パラメータが収束したか否かを判定する。必要なイテレーション数を繰り返していれば、パラメータが収束したと判定する。また、Eステップで付加的に計算可能な文書データの尤度に基づいて、パラメータが収束したか否かを判定するようにしてもよい。
出力部28は、収束判定部26によりパラメータが収束したと判定されたときのトピックモデルパラメータ38を出力する。
次に、図3を参照して、本実施の形態のトピックモデル学習装置10により実行されるトピックモデル学習処理ルーチンについて説明する。
ステップ100で、既に学習されたトピック数Kのトピックモデル62を取得し、次に、ステップ102で、トピックモデル62からトピックkの対象コンポーネントとしてp(v|k)を抽出し、初期トピックモデルパラメータ40の1つとして記憶する。
次に、ステップ104で、適当なスコア関数(例えば、p(v|k)/p(v))を用いて、対象コンポーネントに含まれる単語をソートし、スコアの上位N単語を特徴単語として抽出し、抽出された単語を特徴単語リスト64として作成する。
次に、ステップ106で、作成された特徴単語リストに基づいて人手により作成された手掛かり語DB32を受け付ける。
次に、ステップ108で、文書集合30を取得して、上記ステップ100で取得したトピックモデル62を用いて、(2)式により、文書データd毎にK個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=K|d)}を計算する。
次に、ステップ110で、上記ステップ108で計算された教師なし事後確率p_u(k|d)が予め定めた閾値(例えば、0.5)を超える文書データdを、対象トピックkを表す文書データdとして抽出し、各文書データdに含まれる単語毎の出現回数をまとめたテーブル(D×V行列)で表したトピックkを表す文書データd集合68として出力する。
次に、ステップ112で、図4に示す半教師あり学習処理ルーチンを実行する。
ステップ1120で、文書データd集合68を取得し、手掛かり語DB32に定められた手掛かり語を参照して、文書データd集合68に含まれる文書データd各々を、手掛かり語を含む文書データ34と手掛かり語を含まない文書データ36とに分割する。
次に、ステップ1122で、手掛かり語DB32を参照して、手掛かり語を含む文書データ34の文書データd毎に、文書データ34に含まれる各クラスの手掛かり語の割合に応じて、Z個のトピックに対して教師あり事後確率{p_p(z=1|d),・・・,p_p(z=Z|d)}を付与する。
次に、ステップ1124で、インテレーション数iに0を設定し、次に、ステップ1126で、手掛かり語を含む文書データ34の各文書データd、及び初期トピックモデルパラメータ40を用いて、(4)式により、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=Z|d)}を推定する。
次に、ステップ1128で、重み調整テーブル46から重みw(i)を取得して、上記ステップ1122で付与された教師あり事後確率p_p(z|d)と、上記ステップ1126で推定された教師なし事後確率p_u(z|d)とを、(5)式により線形補間して、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して重み付き事後確率{p(z=1|d),・・・,p(z=Z|d)}を付与する。
次に、ステップ1130で、手掛かり語を含まない文書データ36の各文書データdを用いて、上記ステップ1126と同様に、教師なし事後確率{p_u(z=1|d),・・・,p_u(z=Z|d)}を推定する。
次に、ステップ1132で、上記ステップ1130で推定した教師なし事後確率44b、上記ステップ1128で付与した重み付き事後確率48、及び初期トピックモデルパラメータ40(対象コンポーネントp(v|k))に基づいて、(6)式及び(7)式により、トピックモデルパラメータ38を更新する。
次に、ステップ1134で、イテレーション数iが予め定めた必要な繰り返し数となったか否かを判定する。イテレーション数iがまだ必要な繰り返し数に到達していない場合には、パラメータが収束していないと判定して、ステップ1136へ移行して、iを1インクリメントして、ステップ1126へ戻り、ステップ1126〜1132の処理を繰り返す。繰り返し処理におけるステップ1126及び1130で教師なし事後確率を推定する際には、初期トピックモデルパラメータ40ではなく、前処理のステップ1132で更新されたトピックモデルパラメータ38を用いる。
上記ステップ1134で、イテレーション数iが必要な繰り返し数に到達したと判定された場合には、パラメータが収束したと判定して、リターンする。
次に、ステップ114へ移行し、上記ステップ1132で更新されたトピックモデルパラメータ38、すなわち現在のトピックモデルパラメータ38を出力して、トピックモデル学習処理を終了する。
以上説明したように、本実施の形態のトピックモデル学習装置によれば、学習済みのトピックモデルにおける対象のトピックについて、対象トピックのパラメータ(対象コンポーネント)、各下層トピックの手掛かり語、対象トピックを表す文書データ集合に基づいて、対象トピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを半教師あり学習により学習するため、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができる。
また、対象トピックのパラメータ(混合多項分布の場合は1多項分布)を1つ上層のトピックにおけるトピックモデルパラメータとし、混合比のみをランダム初期値とし、1つ上層のトピックの確率分布を事前確率としたMAP推定を行うことで、下層トピックのモデリングが、上層トピックから大きく外れることがなくなる。
また、文書集合の一部である手掛かり語を含む文書データに付与された教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めることで、トピックモデルのパラメータ更新に用いるトピック事後確率に対してバイアスをかけることができ、任意の学習方向を定めることができる。すなわち、少ない教師ありデータを用いた場合であっても、人間の直感に合致したトピックモデルを学習することができる。また、上記実施の形態のように、例えばEMアルゴリズムのような高速なアルゴリズムを学習方法として用いることができ、モデルが複雑化することもないため、処理負荷が増大することもない。
また、繰り返し処理において、重み付き事後確率を求める際に、繰り返し回数に応じて教師あり事後確率に対する重みを小さくすることで、実際の教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。
また、半教師あり学習部において、下層トピックモデルのトピック数Zは事前に設定する必要があるが、基本的には手掛かり語のクラス数Cよりも多めに与えることが効果的である。これは手掛かり語のクラスをどれだけ網羅的に設計したとしても、文書集合の中には、いずれのクラスにも属さない文書や単語が現れる可能性は高く、それらの文書を無理に既存のトピックに当てはめようとしたところで歪みが生じてしまうためである。具体的には、その他のトピックに押されて既存のトピックが縮小してしまう現象等が見られる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明のトピックモデル学習装置を、上記処理を実現するための半導体集積回路等のハードウエアにより構成してもよい。
10 トピックモデル学習装置
12 文書データ分割部
18 事後確率付与部
20a、20b 事後確率推定部
24 パラメータ更新部
26 収束判定部
28 出力部
50 対象コンポーネント抽出部
52 特徴単語抽出部
54 手掛かり語受付部
56 事後確率計算部
58 対象文書データ抽出部
60 半教師あり学習部

Claims (6)

  1. 文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出ステップと、
    前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を複数抽出する特徴単語抽出ステップと、
    前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成する手掛かり語作成ステップと、
    前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出ステップと、
    抽出された前記処理対象のトピックを表すパラメータ、作成された前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習ステップと、
    を含むトピックモデル学習方法。
  2. 前記半教師あり学習ステップは、
    前記手掛かり語を含む複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、
    前記複数の下層トピック各々を表すパラメータに基づいて、前記複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、
    前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、
    前記複数の下層トピック各々を表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表す下層トピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、
    予め定めたトピック数、前記重み付き事後確率、前記第2教師なし事後確率、及び前記処理対象のトピックを表すパラメータに基づいて、前記複数の下層トピック各々を表すパラメータを更新する更新ステップと、を含む
    請求項1記載のトピックモデル学習方法。
  3. 前記更新ステップにおいて前記複数の下層トピック各々を表すパラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めた請求項2記載のトピックモデル学習方法。
  4. 前記更新ステップにおいて、前記複数の下層トピック各々を表すパラメータの初期値として前記処理対象のトピックを表すパラメータを用いると共に、前記処理対象のトピックを表すパラメータを事前確率としたMAP推定を行う請求項2または請求項3記載のトピックモデル学習方法。
  5. 文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出手段と、
    前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を抽出する特徴単語抽出手段と、
    前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成された手掛かり語を受け付ける手掛かり語受付手段と、
    前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出手段と、
    抽出された前記処理対象のトピックを表すパラメータ、受け付けた前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習手段と、
    を含むトピックモデル学習装置。
  6. コンピュータに、請求項1〜請求項4のいずれか1項記載のトピックモデル学習方法の各ステップを実行させるためのトピックモデル学習プログラム。
JP2011286871A 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム Active JP5503633B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286871A JP5503633B2 (ja) 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286871A JP5503633B2 (ja) 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013134752A JP2013134752A (ja) 2013-07-08
JP5503633B2 true JP5503633B2 (ja) 2014-05-28

Family

ID=48911366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286871A Active JP5503633B2 (ja) 2011-12-27 2011-12-27 トピックモデル学習方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5503633B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6815184B2 (ja) * 2016-12-13 2021-01-20 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP6897266B2 (ja) 2017-04-17 2021-06-30 富士通株式会社 学習プログラム、学習方法および学習装置
JP7087851B2 (ja) * 2018-09-06 2022-06-21 株式会社リコー 情報処理装置、データ分類方法およびプログラム
CN109446516B (zh) * 2018-09-28 2022-11-11 北京赛博贝斯数据科技有限责任公司 一种基于主题推荐模型的数据处理方法及系统
CN110020422B (zh) 2018-11-26 2020-08-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN109614614B (zh) * 2018-12-03 2021-04-02 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN111339783B (zh) * 2020-02-24 2022-11-25 东南大学 一种基于rntm的话题挖掘方法与装置

Also Published As

Publication number Publication date
JP2013134752A (ja) 2013-07-08

Similar Documents

Publication Publication Date Title
JP5503633B2 (ja) トピックモデル学習方法、装置、及びプログラム
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
US20110029469A1 (en) Information processing apparatus, information processing method and program
WO2014118980A1 (ja) 情報変換方法、情報変換装置および情報変換プログラム
CN111159404B (zh) 文本的分类方法及装置
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
CN107203558B (zh) 对象推荐方法和装置、推荐信息处理方法和装置
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN111753044A (zh) 一种基于正则化的去社会偏见的语言模型及应用
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN114492279B (zh) 一种模拟集成电路的参数优化方法及系统
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
JP6172317B2 (ja) 混合モデル選択の方法及び装置
CN107391594B (zh) 一种基于迭代视觉排序的图像检索方法
JP6468364B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN104572633A (zh) 一种确定多义词词义的方法
CN106295688B (zh) 一种基于稀疏均值的模糊聚类方法
CN113066528A (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN116304518A (zh) 用于信息推荐的异质图卷积神经网络模型构建方法及系统
CN112835798B (zh) 聚类学习方法、测试步骤聚类方法及相关装置
CN109460474A (zh) 用户偏好趋势挖掘方法
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN112800752B (zh) 纠错方法、装置、设备以及存储介质
JP5538354B2 (ja) トピックモデル学習方法、装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140314

R150 Certificate of patent or registration of utility model

Ref document number: 5503633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150