JP2013134752A - トピックモデル学習方法、装置、及びプログラム - Google Patents
トピックモデル学習方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP2013134752A JP2013134752A JP2011286871A JP2011286871A JP2013134752A JP 2013134752 A JP2013134752 A JP 2013134752A JP 2011286871 A JP2011286871 A JP 2011286871A JP 2011286871 A JP2011286871 A JP 2011286871A JP 2013134752 A JP2013134752 A JP 2013134752A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- document data
- posterior probability
- supervised
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習する。
【解決手段】対象コンポーネント抽出部50で、学習済みのトピックモデル62からトピックkの対象コンポーネントp(v|k)を抽出し、特徴単語抽出部52で、対象コンポーネントから特徴単語リスト64を抽出し、手掛かり語受付部54で、特徴単語リストに基づいて人手により作成された手掛かり語DB32を受け付ける。事後確率計算部56で、トピックモデル62を用いて文書集合30の教師なし事後確率56を計算し、対象文書データ抽出部58で、教師なし事後確率56に基づいて文書集合30から対象トピックkを表す文書データdk集合68を抽出する。半教師あり学習部60で、トピックkを表す文書データdk集合68、対象コンポーネント、及び手掛かり語DB32に基づいて、半教師あり学習によりトピックモデルを学習する。
【選択図】図1
【解決手段】対象コンポーネント抽出部50で、学習済みのトピックモデル62からトピックkの対象コンポーネントp(v|k)を抽出し、特徴単語抽出部52で、対象コンポーネントから特徴単語リスト64を抽出し、手掛かり語受付部54で、特徴単語リストに基づいて人手により作成された手掛かり語DB32を受け付ける。事後確率計算部56で、トピックモデル62を用いて文書集合30の教師なし事後確率56を計算し、対象文書データ抽出部58で、教師なし事後確率56に基づいて文書集合30から対象トピックkを表す文書データdk集合68を抽出する。半教師あり学習部60で、トピックkを表す文書データdk集合68、対象コンポーネント、及び手掛かり語DB32に基づいて、半教師あり学習によりトピックモデルを学習する。
【選択図】図1
Description
本発明は、トピックモデル学習方法、装置、及びプログラムに係り、特に、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルであって、トピックが階層構造を有する階層的トピックモデルを学習するトピックモデル学習方法、装置、及びプログラムに関する。
従来、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルの学習方法が提案されている。また、トピックが階層構造を有する階層的トピックモデルも存在する。階層的トピックモデルは、トピックの粒度(各トピックを表す各クラスに属する文書数)を調整し易いという特徴がある。また、教師あり学習で用いる手掛かり語について、同じ手掛かり語が複数のトピックに属する場合、単純な1階層のトピックモデルではこれを表現することができないが、2階層以上の階層的トピックモデルであれば、1階層目では複数の意味を持つ手掛かり語を除外し、2階層目以降で用いることができるという特徴もある。
トピックモデルは、1階層か階層的かに関わらず、教師なし学習により構築することができるというメリットがある一方で、人間の直感と合わないモデリングがなされる場合があり、これを修正したいという課題がある。
そこで、トピックモデルの各トピックにおける特徴語をユーザに提示し、各特徴語が各トピックの特徴語としてふさわしいか否かを判定し、ギブスサンプリングの隠れ変数割り当てをやり直すことで、トピックモデルに反映するインタラクティブトピックモデルが提案されている(例えば、非特許文献1参照)。
Yuening Hu, Jordan Boyd-Graber, Brianna Satinoff, "Interactive Topic Modeling", ACL-HLT2011, 2011.
しかしながら、非特許文献1に記載の手法では、高速なEMアルゴリズムでは解けない複雑なモデルであるため、ギブスサンプリングというサンプリング手法に基づいていており、処理負荷が増大する、という問題がある。
また、特に、トピックが階層構造を持つ場合には、全てを同じ階層に展開して半教師あり学習を行うことも不可能ではないが、トピックの粒度に偏りがあるため、適切な学習ができない、という問題がある。
本発明は、上記の事情を鑑みてなされたもので、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができるトピックモデル学習方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のトピックモデル学習方法は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出ステップと、前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を複数抽出する特徴単語抽出ステップと、前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成する手掛かり語作成ステップと、前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出ステップと、抽出された前記処理対象のトピックを表すパラメータ、作成された前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習ステップと、を含む方法である。
本発明のトピックモデル学習方法によれば、対象パラメータ抽出ステップで、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する。そして、特徴単語抽出ステップで、処理対象のトピックを表すパラメータに基づいて、処理対象のトピックを示す特徴単語を複数抽出し、手掛かり語作成ステップで、特徴単語各々を、処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成する。また、対象文書データ抽出ステップで、学習済みのトピックモデルを用いて、複数の文書データから対象のトピックを表す文書データ集合を抽出する。そして、半教師あり学習ステップで、抽出された処理対象のトピックを表すパラメータ、作成された手掛かり語、及び抽出された対象のトピックを表す文書データ集合に基づいて、処理対象のトピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する。
このように、学習済みのトピックモデルを用い、上層トピックとなる処理対象のトピックのパラメータ、各下層トピックとの対応が既知の手掛かり語、対象のトピックを表す文書データ集合に基づいて、処理対象のトピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを半教師あり学習により学習するため、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができる。
また、前記半教師あり学習ステップは、前記手掛かり語を含む複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、前記複数の下層トピック各々を表すパラメータに基づいて、前記複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、前記複数の下層トピック各々を表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表す下層トピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、予め定めたトピック数、前記重み付き事後確率、前記第2教師なし事後確率、及び前記処理対象のトピックを表すパラメータに基づいて、前記複数の下層トピック各々を表すパラメータを更新する更新ステップと、を含むことができる。これにより、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することができる。
また、前記更新ステップにおいて前記複数の下層トピック各々を表すパラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めることができる。これにより、教師あり事後確率付与ステップで得られた教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。
また、前記更新ステップにおいて、前記複数の下層トピック各々を表すパラメータの初期値として前記処理対象のトピックを表すパラメータを用いると共に、前記処理対象のトピックを表すパラメータを事前確率としたMAP推定を行うことができる。これにより、下層トピックのモデリングが、上層トピックから大きく外れることがなくなる。
また、本発明のトピックモデル学習装置は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出手段と、前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を抽出する特徴単語抽出手段と、前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成された手掛かり語を受け付ける手掛かり語受付手段と、前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出手段と、抽出された前記処理対象のトピックを表すパラメータ、作成された前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習手段と、を含んで構成することができる。
また、本発明のトピックモデル学習プログラムは、コンピュータに、上記のトピックモデル学習方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明のトピックモデル学習方法、装置、及びプログラムによれば、学習済みのトピックモデルを用い、上層トピックとなる処理対象のトピックのパラメータ、各下層トピックとの対応が既知の手掛かり語、対象のトピックを表す文書データ集合に基づいて、処理対象のトピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを半教師あり学習により学習するため、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、EM(Expectation-Maximization)アルゴリズムを用いてトピックモデルを学習する場合について説明する。
本実施の形態に係るトピックモデル学習装置10は、既に学習されたトピック数Kのトピックモデルを入力とし、このトピックモデルに含まれる任意のトピックを上層とする下層のトピックを表すトピックモデルパラメータを出力する。このトピックモデル学習装置10は、CPUと、RAMと、後述するトピックモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図1に示すように、対象コンポーネント抽出部50と、特徴単語抽出部52と、手掛かり語受付部54と、事後確率計算部56と、対象文書データ抽出部58と、半教師あり学習部60と、出力部28とを含んだ構成で表すことができる。
対象コンポーネント抽出部50は、既に学習されたトピック数Kのトピックモデル62を入力とし、トピックモデル62から対象となるトピック番号kのトピックモデルコンポーネント(パラメータ)(以下、「対象コンポーネント」ともいう)を抽出する。
ここで、トピックモデル62は、文書集合に含まれる単語(v)を特徴量とし、1文書をデータ点(d)として確率的なクラスタリングを行うためのモデルであり、トピックモデルパラメータを用いて、下記(1)式で表されるモデルである。
(1)式において、トピックモデルパラメータは、p(z)(1×Kmatrix)及びp(v|z)(K×Vmatrix)である。zはトピックを表す確率変数、p(z)は確率変数zに対する事前確率、p(v|z)は確率変数zの下での多項分布による確率、ndvは文書データd中に単語vが出現した回数である。ここでは、対象コンポーネントとして、p(v|k)(1×Vmatrix)を抽出する。抽出した対象コンポーネントを、後述する半教師あり学習部60で用いる初期トピックモデルパラメータ40の1つとして記憶する。
特徴単語抽出部52は、初期トピックモデルパラメータ40の1つとして記憶した対象コンポーネントp(v|k)に基づいて、トピックkの特徴単語を抽出し、特徴単語リスト64を作成する。例えば、適当なスコア関数(例えば、p(v|k)/p(v))を用いて、対象コンポーネントに含まれる単語をソートし、スコアの上位N単語を特徴単語として抽出し、抽出された単語を特徴単語リスト64とすることができる。
手掛かり語受付部54は、作成された特徴単語リストに基づいて人手により作成された手掛かり語データベース(DB)32を受け付ける。手掛かり語DB32は、手掛かり語のクラス数をCとして、人手により特徴単語リストの各特徴単語を各クラスに分類したものである。各クラスは1つのトピックを表す。すなわち、手掛かり語DB32には、トピックk(上層トピック)の分割後のトピック(下層トピック)との対応が既知の単語として、手掛かり語(S)={S1,S2,・・・,Sc,・・・SC}が定められている。Scは各クラスに含まれる手掛かり語集合Sc={w1,w2,・・・,wsc}であり、scはクラスcに含まれる手掛かり語の数である。また、各wは特徴単語リストから選択された単語である。すなわち、クラスcが表すトピックの手掛かり語集合として、Scが定められていることになる。
事後確率計算部56は、複数の文書データを含む文書集合30を入力として受け付ける。文書集合30は、例えば、各文書データに形態素解析等の処理を施し、各文書データに含まれる単語毎の出現回数をまとめたテーブル(D×V行列)とすることができる。ここで、Dは文書集合30に含まれる文書データの総数、Vは文書集合30に出現する単語の種類数である。テーブル中の各要素は、文書データd中に単語vが出現した回数ndvで表される。
また、事後確率計算部56は、文書集合30に含まれる各文書データd、及びトピックモデル62を入力とし、文書データdが表すトピックの尤もらしさを示す教師なし事後確率66を計算する。具体的には、上記の入力を元に、下記(2)式により、文書データd毎にK個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=K|d)}を計算する。
対象文書データ抽出部58は、事後確率計算部56で計算された教師なし事後確率66に基づいて、文書集合30から対象トピックkを表す文書データdkを抽出する。具体的には、教師なし事後確率p_u(k|d)が予め定めた閾値を超える文書データdを、対象トピックkを表す文書データdkとして抽出する。閾値は、例えば、0.5以上とすることができる。また、対象文書データ抽出部58は、抽出された各文書データdkに含まれる単語毎の出現回数をまとめたテーブル(Dk×V行列)で表したトピックkを表す文書データdk集合68を出力する。ここで、Dkは文書データdk集合68に含まれる文書データの総数、Vは文書集合30に出現する単語の種類数である。
半教師あり学習部60は、図2に示すように、文書データ分割部12と、教師あり事後確率付与部18と、事後確率推定部20aと、事後確率推定部20bと、重み付き事後確率付与部22と、パラメータ更新部24と、収束判定部26とを含んだ構成で表すことができる。
文書データ分割部12は、手掛かり語DB32に定められた手掛かり語を参照して、トピックkを表す文書データdk集合68に含まれる文書データdk各々を、手掛かり語を含む文書データと手掛かり語を含まない文書データとに分割する。
文書データ分割部12は、具体的には、文書データdk集合68を表すテーブルから対象となる文書データdkの行を抽出し、この1×Vのベクトルを文書データdkの表現形式とする。このベクトル内の要素のうち、手掛かり語と一致する単語vの出現回数ndkvを表す要素が1以上の場合には、その文書データを手掛かり語を含む文書データ34として出力する。一方、手掛かり語と一致する単語vの出現回数ndkvを表す要素が0の場合には、その文書データを手掛かり語を含まない文書データ36として出力する。
教師あり事後確率付与部18は、手掛かり語を含む文書データ34を入力とし、手掛かり語DB32を参照して、手掛かり語を含む文書データ34の各々に対して、教師あり事後確率42を付与する。手掛かり語を1つ以上含む文書データ中の手掛かり語に対応するトピックの割合に応じて、アドホックにトピック事後確率を設定し、これを文書データが表すトピックの尤もらしさを示す教師あり事後確率42とする。具体的には、教師あり事後確率42は、文書データ34に含まれる各クラスの手掛かり語の割合に応じて決定される。
例えば、手掛かり語が
手掛かり語={NTT,フレッツ}∈通信、{野球}∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率p_p(z|dk)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
p_p(通信|文書データ1)=1.0
if(文書データ1∋{NTT,フレッツ})
p_p(通信|文書データ2)=0.5、p(スポーツ|文書データ2)=0.5
if(文書データ2∋{NTT,野球})
手掛かり語={NTT,フレッツ}∈通信、{野球}∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率p_p(z|dk)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
p_p(通信|文書データ1)=1.0
if(文書データ1∋{NTT,フレッツ})
p_p(通信|文書データ2)=0.5、p(スポーツ|文書データ2)=0.5
if(文書データ2∋{NTT,野球})
なお、ここではトピックを「通信」及び「スポーツ」等と表記しているが、実際にはトピックは確率変数zで表されるにすぎない。また、zは、後述する教師なし事後確率の推定で用いる確率変数zと共通であるので、教師あり事後確率と教師なし事後確率との対応をとることが可能である。
教師あり事後確率付与部18は、手掛かり語を含む文書データ34の文書データdk毎にZ個のトピックに対して上記のような教師あり事後確率{p_p(z=1|dk),・・・,p_p(z=Z|dk)}を付与する。
事後確率推定部20aは、手掛かり語を含む文書データ34の各文書データdk、トピックモデルパラメータ38または初期トピックモデルパラメータ40を入力とし、教師なし事後確率44aを計算する。EMアルゴリズムのEステップに相当する処理である。トピックモデルパラメータは、事後確率計算部56で説明したのと同様に、下記(3)式で表されるモデルのパラメータp(z)(1×Zmatrix)及びp(v|z)(Z×Vmatrix)である。なお、ndkvは文書データdk中に単語vが出現した回数である。
また、初期トピックモデルパラメータ40は、p(z)及びp(v|z)の初期値である。p(z)の初期値については、例えば、p(z)の各値をランダムに生成し、Σzp(z)=1と正規化を行った値を用いることができる。また、パラメータの分散が極端に大きくなるのを防ぐため、各々のパラメータについてN回ランダム生成したものの平均をとるなどしてもよい。p(v|z)の初期値については、対象コンポーネント抽出部50で抽出されたp(v|k)とする。すなわち、トピックモデルの各コンポーネントにおけるパラメータの初期値(混合多項分布の場合は1多項分布)を、1つ上層のトピックにおけるトピックモデルパラメータとし、混合比p(z)のみをランダム初期値とする。
事後確率推定部20aは、具体的には、上記の入力を元に、下記(4)式により、手掛かり語を含む文書データ34の文書データdk毎にZ個のトピックに対して教師なし事後確率{p_u(z=1|dk),・・・,p_u(z=Z|dk)}を推定する。
事後確率推定部20bは、事後確率推定部20aとは、入力として手掛かり語を含まない文書データ36の各文書データdkを用い、教師なし事後確率44bを推定する点が異なるだけであるので、詳細な説明を省略する。
重み付き事後確率付与部22は、教師あり事後確率42、教師なし事後確率44a、及び重み調整テーブル46に定められた重みを入力として、後述するパラメータ更新部24で利用するトピック事後確率を、教師あり事後確率44bと教師なし事後確率44aとを重みを用いて線形補間して求め、重み付き事後確率48として各文書データdkに付与する。重み付き事後確率48を求める際に用いる重みは、重み調整テーブル46から取得する。重み調整テーブル46には、例えば、(w(1)=1.0,w(2)=0.5,w(3)=0.0)のように、EMアルゴリズムの繰り返し処理において、徐々に教師あり事後確率42の重みを下げるように、重みが定められている。
重み付き事後確率付与部22は、具体的には、教師あり事後確率p_p(z|dk)、教師なし事後確率p_u(z|dk)、現在のイテレーション数i(i回目の繰り返し処理を示す)、及び重み調整テーブル46から参照される重みw(i)を用いて、下記(5)式により線形補間を行って、手掛かり語を含む文書データ34の文書データdk毎にZ個のトピックに対して重み付き事後確率{p(z=1|dk),・・・,p(z=Z|dk)}を付与する。
p(z|dk)=w(i)×p_p(z|dk)+(1−w(i))×p_u(z|dk) (5)
重み調整テーブル46に、例えば上記のように(w(1)=1,w(2)=0.5,w(3)=0.0)と重みが定められている場合には、
1stite. p(z|dk)=1.0×p_p(z|dk)+0.0×p_u(z|dk)
2ndite. p(z|dk)=0.5×p_p(z|dk)+0.5×p_u(z|dk)
3rdite. p(z|dk)=0.0×p_p(z|dk)+1.0×p_u(z|dk)
となる。なお、1stiteはイテレーション数が1、2nditeはイテレーション数が2、3rditeはイテレーション数が3であることを示す。
1stite. p(z|dk)=1.0×p_p(z|dk)+0.0×p_u(z|dk)
2ndite. p(z|dk)=0.5×p_p(z|dk)+0.5×p_u(z|dk)
3rdite. p(z|dk)=0.0×p_p(z|dk)+1.0×p_u(z|dk)
となる。なお、1stiteはイテレーション数が1、2nditeはイテレーション数が2、3rditeはイテレーション数が3であることを示す。
パラメータ更新部24は、手掛かり語を含まない文書データ36集合についての教師なし事後確率44b、手掛かり語を含む文書データ34集合についての重み付き事後確率48、及び初期トピックモデルパラメータ40を入力として、EMアルゴリズムのMステップに相当する処理を実行する。具体的には、上記入力を元に、MAP(Maximum a posteriori)推定を用いて、下記(6)式及び(7)式により、トピックモデルパラメータ38を更新する。なお、(6)式及び(7)式では、簡単のため教師なし事後確率44bについてもp(z|dk)として表記している。文書データdkが手掛かり語を含まない文書データ36の場合には、(6)式及び(7)式内のp(z|dk)は、p_u(z|dk)と読み替える。なお、(6)式内のp(v|k)は初期トピックモデルパラメータ40の1つ(対象コンポーネント)である。すなわち、1つ上層のトピックの確率分布を事前確率としたMAP推定を行う。
収束判定部26は、EMアルゴリズムの繰り返し処理について、必要なイテレーション数を繰り返したか否かにより、パラメータが収束したか否かを判定する。必要なイテレーション数を繰り返していれば、パラメータが収束したと判定する。また、Eステップで付加的に計算可能な文書データの尤度に基づいて、パラメータが収束したか否かを判定するようにしてもよい。
出力部28は、収束判定部26によりパラメータが収束したと判定されたときのトピックモデルパラメータ38を出力する。
次に、図3を参照して、本実施の形態のトピックモデル学習装置10により実行されるトピックモデル学習処理ルーチンについて説明する。
ステップ100で、既に学習されたトピック数Kのトピックモデル62を取得し、次に、ステップ102で、トピックモデル62からトピックkの対象コンポーネントとしてp(v|k)を抽出し、初期トピックモデルパラメータ40の1つとして記憶する。
次に、ステップ104で、適当なスコア関数(例えば、p(v|k)/p(v))を用いて、対象コンポーネントに含まれる単語をソートし、スコアの上位N単語を特徴単語として抽出し、抽出された単語を特徴単語リスト64として作成する。
次に、ステップ106で、作成された特徴単語リストに基づいて人手により作成された手掛かり語DB32を受け付ける。
次に、ステップ108で、文書集合30を取得して、上記ステップ100で取得したトピックモデル62を用いて、(2)式により、文書データd毎にK個のトピックに対して教師なし事後確率{p_u(z=1|d),・・・,p_u(z=K|d)}を計算する。
次に、ステップ110で、上記ステップ108で計算された教師なし事後確率p_u(k|d)が予め定めた閾値(例えば、0.5)を超える文書データdを、対象トピックkを表す文書データdkとして抽出し、各文書データdkに含まれる単語毎の出現回数をまとめたテーブル(Dk×V行列)で表したトピックkを表す文書データdk集合68として出力する。
次に、ステップ112で、図4に示す半教師あり学習処理ルーチンを実行する。
ステップ1120で、文書データdk集合68を取得し、手掛かり語DB32に定められた手掛かり語を参照して、文書データdk集合68に含まれる文書データdk各々を、手掛かり語を含む文書データ34と手掛かり語を含まない文書データ36とに分割する。
次に、ステップ1122で、手掛かり語DB32を参照して、手掛かり語を含む文書データ34の文書データdk毎に、文書データ34に含まれる各クラスの手掛かり語の割合に応じて、Z個のトピックに対して教師あり事後確率{p_p(z=1|dk),・・・,p_p(z=Z|dk)}を付与する。
次に、ステップ1124で、インテレーション数iに0を設定し、次に、ステップ1126で、手掛かり語を含む文書データ34の各文書データdk、及び初期トピックモデルパラメータ40を用いて、(4)式により、手掛かり語を含む文書データ34の文書データd毎にZ個のトピックに対して教師なし事後確率{p_u(z=1|dk),・・・,p_u(z=Z|dk)}を推定する。
次に、ステップ1128で、重み調整テーブル46から重みw(i)を取得して、上記ステップ1122で付与された教師あり事後確率p_p(z|dk)と、上記ステップ1126で推定された教師なし事後確率p_u(z|dk)とを、(5)式により線形補間して、手掛かり語を含む文書データ34の文書データdk毎にZ個のトピックに対して重み付き事後確率{p(z=1|dk),・・・,p(z=Z|dk)}を付与する。
次に、ステップ1130で、手掛かり語を含まない文書データ36の各文書データdkを用いて、上記ステップ1126と同様に、教師なし事後確率{p_u(z=1|dk),・・・,p_u(z=Z|dk)}を推定する。
次に、ステップ1132で、上記ステップ1130で推定した教師なし事後確率44b、上記ステップ1128で付与した重み付き事後確率48、及び初期トピックモデルパラメータ40(対象コンポーネントp(v|k))に基づいて、(6)式及び(7)式により、トピックモデルパラメータ38を更新する。
次に、ステップ1134で、イテレーション数iが予め定めた必要な繰り返し数となったか否かを判定する。イテレーション数iがまだ必要な繰り返し数に到達していない場合には、パラメータが収束していないと判定して、ステップ1136へ移行して、iを1インクリメントして、ステップ1126へ戻り、ステップ1126〜1132の処理を繰り返す。繰り返し処理におけるステップ1126及び1130で教師なし事後確率を推定する際には、初期トピックモデルパラメータ40ではなく、前処理のステップ1132で更新されたトピックモデルパラメータ38を用いる。
上記ステップ1134で、イテレーション数iが必要な繰り返し数に到達したと判定された場合には、パラメータが収束したと判定して、リターンする。
次に、ステップ114へ移行し、上記ステップ1132で更新されたトピックモデルパラメータ38、すなわち現在のトピックモデルパラメータ38を出力して、トピックモデル学習処理を終了する。
以上説明したように、本実施の形態のトピックモデル学習装置によれば、学習済みのトピックモデルにおける対象のトピックについて、対象トピックのパラメータ(対象コンポーネント)、各下層トピックの手掛かり語、対象トピックを表す文書データ集合に基づいて、対象トピックを上層トピックとし、かつ複数の下層トピック各々を表すパラメータを含むトピックモデルを半教師あり学習により学習するため、処理負荷を増大させることなく、人間の直感に合致した階層的トピックモデルを学習することができる。
また、対象トピックのパラメータ(混合多項分布の場合は1多項分布)を1つ上層のトピックにおけるトピックモデルパラメータとし、混合比のみをランダム初期値とし、1つ上層のトピックの確率分布を事前確率としたMAP推定を行うことで、下層トピックのモデリングが、上層トピックから大きく外れることがなくなる。
また、文書集合の一部である手掛かり語を含む文書データに付与された教師あり事後確率と教師なし事後確率とに基づいて、重みを用いた線形補間により重み付け事後確率を求めることで、トピックモデルのパラメータ更新に用いるトピック事後確率に対してバイアスをかけることができ、任意の学習方向を定めることができる。すなわち、少ない教師ありデータを用いた場合であっても、人間の直感に合致したトピックモデルを学習することができる。また、上記実施の形態のように、例えばEMアルゴリズムのような高速なアルゴリズムを学習方法として用いることができ、モデルが複雑化することもないため、処理負荷が増大することもない。
また、繰り返し処理において、重み付き事後確率を求める際に、繰り返し回数に応じて教師あり事後確率に対する重みを小さくすることで、実際の教師あり事後確率が誤っている場合でも修正が効き、より精度良くトピックモデルを学習することができる。
また、半教師あり学習部において、下層トピックモデルのトピック数Zは事前に設定する必要があるが、基本的には手掛かり語のクラス数Cよりも多めに与えることが効果的である。これは手掛かり語のクラスをどれだけ網羅的に設計したとしても、文書集合の中には、いずれのクラスにも属さない文書や単語が現れる可能性は高く、それらの文書を無理に既存のトピックに当てはめようとしたところで歪みが生じてしまうためである。具体的には、その他のトピックに押されて既存のトピックが縮小してしまう現象等が見られる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明のトピックモデル学習装置を、上記処理を実現するための半導体集積回路等のハードウエアにより構成してもよい。
10 トピックモデル学習装置
12 文書データ分割部
18 事後確率付与部
20a、20b 事後確率推定部
24 パラメータ更新部
26 収束判定部
28 出力部
50 対象コンポーネント抽出部
52 特徴単語抽出部
54 手掛かり語受付部
56 事後確率計算部
58 対象文書データ抽出部
60 半教師あり学習部
12 文書データ分割部
18 事後確率付与部
20a、20b 事後確率推定部
24 パラメータ更新部
26 収束判定部
28 出力部
50 対象コンポーネント抽出部
52 特徴単語抽出部
54 手掛かり語受付部
56 事後確率計算部
58 対象文書データ抽出部
60 半教師あり学習部
Claims (6)
- 文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出ステップと、
前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を複数抽出する特徴単語抽出ステップと、
前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成する手掛かり語作成ステップと、
前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出ステップと、
抽出された前記処理対象のトピックを表すパラメータ、作成された前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習ステップと、
を含むトピックモデル学習方法。 - 前記半教師あり学習ステップは、
前記手掛かり語を含む複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、
前記複数の下層トピック各々を表すパラメータに基づいて、前記複数の教師あり文書データ各々が表す下層トピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、
前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、
前記複数の下層トピック各々を表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表す下層トピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、
予め定めたトピック数、前記重み付き事後確率、前記第2教師なし事後確率、及び前記処理対象のトピックを表すパラメータに基づいて、前記複数の下層トピック各々を表すパラメータを更新する更新ステップと、を含む
請求項1記載のトピックモデル学習方法。 - 前記更新ステップにおいて前記複数の下層トピック各々を表すパラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めた請求項2記載のトピックモデル学習方法。
- 前記更新ステップにおいて、前記複数の下層トピック各々を表すパラメータの初期値として前記処理対象のトピックを表すパラメータを用いると共に、前記処理対象のトピックを表すパラメータを事前確率としたMAP推定を行う請求項2または請求項3記載のトピックモデル学習方法。
- 文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含む学習済みのトピックモデルから、処理対象のトピックを表すパラメータを抽出する対象パラメータ抽出手段と、
前記処理対象のトピックを表すパラメータに基づいて、前記処理対象のトピックを示す特徴単語を抽出する特徴単語抽出手段と、
前記特徴単語各々を、前記処理対象のトピックに対する複数の下層トピック各々に対応させて分類し、各下層トピックとの対応が既知の手掛かり語として作成された手掛かり語を受け付ける手掛かり語受付手段と、
前記学習済みのトピックモデルを用いて、複数の文書データから前記対象のトピックを表す文書データ集合を抽出する対象文書データ抽出手段と、
抽出された前記処理対象のトピックを表すパラメータ、受け付けた前記手掛かり語、及び抽出された前記対象のトピックを表す文書データ集合に基づいて、前記処理対象のトピックを上層トピックとし、かつ前記複数の下層トピック各々を表すパラメータを含むトピックモデルを、半教師あり学習により学習する半教師あり学習手段と、
を含むトピックモデル学習装置。 - コンピュータに、請求項1〜請求項4のいずれか1項記載のトピックモデル学習方法の各ステップを実行させるためのトピックモデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286871A JP5503633B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286871A JP5503633B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134752A true JP2013134752A (ja) | 2013-07-08 |
JP5503633B2 JP5503633B2 (ja) | 2014-05-28 |
Family
ID=48911366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286871A Active JP5503633B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5503633B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097562A (ja) * | 2016-12-13 | 2018-06-21 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2018181071A (ja) * | 2017-04-17 | 2018-11-15 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
CN109446516A (zh) * | 2018-09-28 | 2019-03-08 | 北京赛博贝斯数据科技有限责任公司 | 一种基于主题推荐模型的数据处理方法及系统 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
WO2020108063A1 (zh) * | 2018-11-26 | 2020-06-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN111339783A (zh) * | 2020-02-24 | 2020-06-26 | 东南大学 | 一种基于rntm的话题挖掘方法与装置 |
CN111813934A (zh) * | 2020-06-22 | 2020-10-23 | 贵州大学 | 一种基于dma模型和特征划分多源文本主题模型聚类方法 |
-
2011
- 2011-12-27 JP JP2011286871A patent/JP5503633B2/ja active Active
Non-Patent Citations (2)
Title |
---|
CSNG200900204013; 藤野昭典: '生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用' 情報処理学会論文誌 数理モデル化と応用 Vol.2 No.2, 20090415, pp.132-144, 社団法人情報処理学会 * |
CSNG201100137007; 林幸記: 'カテゴリ階層構造を考慮した確率的トピックモデルとその応用' 情報処理学会研究報告 自然言語処理 Vol.2011 No.7, 20110215, pp.1-8, 社団法人情報処理学会 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018110029A1 (ja) * | 2016-12-13 | 2018-06-21 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2018097562A (ja) * | 2016-12-13 | 2018-06-21 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2018181071A (ja) * | 2017-04-17 | 2018-11-15 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
US11367003B2 (en) | 2017-04-17 | 2022-06-21 | Fujitsu Limited | Non-transitory computer-readable storage medium, learning method, and learning device |
JP7087851B2 (ja) | 2018-09-06 | 2022-06-21 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
CN109446516A (zh) * | 2018-09-28 | 2019-03-08 | 北京赛博贝斯数据科技有限责任公司 | 一种基于主题推荐模型的数据处理方法及系统 |
CN109446516B (zh) * | 2018-09-28 | 2022-11-11 | 北京赛博贝斯数据科技有限责任公司 | 一种基于主题推荐模型的数据处理方法及系统 |
WO2020108063A1 (zh) * | 2018-11-26 | 2020-06-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
US11544459B2 (en) | 2018-11-26 | 2023-01-03 | Advanced New Technologies Co., Ltd. | Method and apparatus for determining feature words and server |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN111339783A (zh) * | 2020-02-24 | 2020-06-26 | 东南大学 | 一种基于rntm的话题挖掘方法与装置 |
CN111339783B (zh) * | 2020-02-24 | 2022-11-25 | 东南大学 | 一种基于rntm的话题挖掘方法与装置 |
CN111813934A (zh) * | 2020-06-22 | 2020-10-23 | 贵州大学 | 一种基于dma模型和特征划分多源文本主题模型聚类方法 |
CN111813934B (zh) * | 2020-06-22 | 2024-04-30 | 贵州大学 | 一种基于dma模型和特征划分多源文本主题模型聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5503633B2 (ja) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5503633B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
CN110674865B (zh) | 面向软件缺陷类分布不平衡的规则学习分类器集成方法 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN109783805B (zh) | 一种网络社区用户识别方法、装置和可读存储介质 | |
CN107203558B (zh) | 对象推荐方法和装置、推荐信息处理方法和装置 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
Rohart et al. | Selection of fixed effects in high dimensional linear mixed models using a multicycle ECM algorithm | |
CN112560545B (zh) | 一种识别表格方向的方法、装置及电子设备 | |
CN108710609A (zh) | 一种基于多特征融合的社交平台用户信息的分析方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN104809229B (zh) | 一种文本特征词提取方法及系统 | |
CN101901251A (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN112835798B (zh) | 聚类学习方法、测试步骤聚类方法及相关装置 | |
JP2018517963A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
CN104572633A (zh) | 一种确定多义词词义的方法 | |
JP6927409B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN106295688B (zh) | 一种基于稀疏均值的模糊聚类方法 | |
CN113066528A (zh) | 基于主动半监督图神经网络的蛋白质分类方法 | |
CN111651660A (zh) | 一种跨媒体检索困难样本的方法 | |
JP5325131B2 (ja) | パターン抽出装置、パターン抽出方法及びプログラム | |
CN113704464B (zh) | 基于网络新闻的时评类作文素材语料库的构建方法及系统 | |
CN112800752B (zh) | 纠错方法、装置、设备以及存储介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5503633 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |