JP5968283B2 - トピックモデル学習装置とその方法、そのプログラムと記録媒体 - Google Patents

トピックモデル学習装置とその方法、そのプログラムと記録媒体 Download PDF

Info

Publication number
JP5968283B2
JP5968283B2 JP2013175402A JP2013175402A JP5968283B2 JP 5968283 B2 JP5968283 B2 JP 5968283B2 JP 2013175402 A JP2013175402 A JP 2013175402A JP 2013175402 A JP2013175402 A JP 2013175402A JP 5968283 B2 JP5968283 B2 JP 5968283B2
Authority
JP
Japan
Prior art keywords
variable
class
series
latent
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013175402A
Other languages
English (en)
Other versions
JP2015045915A (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
隆伸 大庭
隆伸 大庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013175402A priority Critical patent/JP5968283B2/ja
Publication of JP2015045915A publication Critical patent/JP2015045915A/ja
Application granted granted Critical
Publication of JP5968283B2 publication Critical patent/JP5968283B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対話における話者間の共有トピック構造を明らかにするトピックモデル学習装置とその方法と、そのプログラムと記録媒体に関する。
近年はWeb等から大量のテキスト情報が得られる。その大量のテキスト情報から隠れた話題(トピック)の構造を見つける技術としてトピックモデルが知られている。トピックモデルは、テキストが隠れた話題に基づいて生成される過程を確率的に表現したものであり、データマイニング等で利用されている。具体的には、情報検索などで例えば「サッカーの話題について話しているテキストを探したい。」といったことを実現するために利用される。
代表的なトピックモデルとしてLDA(Latent Dirichlet Allocation)という方法がある。LDAは周知の技術であり、例えば非特許文献1に記載されている。このLDAを利用することでテキスト群から隠れた話題構造を明らかにすることができる。具体的には、「AというテキストはB番目のトピックが支配的である。」や、「B番目のトピックの代表的な単語はCやDである。」といった話題構造である。
D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993-1022, 2003.
しかし、従来のトピックモデルは、文書を独立のものとして捉えたモデルであり、例えば対話のテキストの様に2つで1組のテキスト情報には適用することができない課題があった。例えば、EさんとFさんの対話データがあるとする。具体的には、例えばコンタクトセンタにおけるEさんとFさんとの対話を想定する。この場合、Eさんは例えばオペレータ、Fさんは例えば顧客である。
このような場合に、従来技術を用いてテキスト情報のトピック構造を明らかにしたとしても、対話としての情報検索に活かすことが難しい。つまり、「サッカーについて話している対話はどれ?」といった情報検索に通常では応用できない。2つで1組の2つのテキストを1つのテキストと見做してしまうと、個々の情報が利用できなくなってしまう。
対話において個々の役割が明確なケースでは、オペレータが頻繁に話す言葉と顧客が頻繁に話す言葉は大きく異なる。2つで1組の対話のテキスト情報から話者情報を消してデータマイニングを行ってしまうと、例えば「この対話でオペレータが話したB番目のトピックの単語はどれ」といった情報検索が行えない。対話の場合は、Eさんの話した言葉のテキストとFさんの話した言葉のテキストは同様の話題であると考えられる。対話のように2つで1組のテキスト情報についても、柔軟なデータマイニングを実現できる技術が求められている。
本発明は、この課題に鑑みてなされたものであり、対話間で話題を共有できない点、共有しようとすると個々の情報が消えてしまう点を解決し、「EさんとFさんの対話は、B番目のトピックが支配的である。」といった話題構造を明らかにし、且つ「Eさんが話したB番目のトピックの単語はCやDである」といった情報を捉えることが可能なトピックモデルを実現するトピックモデル学習装置とその方法、そのプログラムと記録媒体を提供することを目的とする。
本発明のトピックモデル学習装置は、トピック共有モデル初期化部と、トピック共有モデル学習部と、トピック共有モデル情報出力部と、を具備する。トピック共有モデル初期化部は、a系列とb系列の2つのテキストの一組以上から成る対話データ群と、話題を見分ける変数である潜在変数の総数とを入力として、対話データ群のa系列とb系列の各テキストの単語に、上記潜在変数と、話者依存か話題依存かを見分ける変数であるクラス変数とを割り当てたa系列とb系列のそれぞれのクラス変数系列と、a系列とb系列のそれぞれの潜在変数の種類と単語の組の回数である潜在変数−単語対回数とクラス変数の種類と単語の組の回数であるクラス変数−単語対回数と、複数の対話テキストに含まれる語彙種類数と単語数と、を初期パラメータとして出力する。トピック共有モデル学習部は、トピック共有モデル初期化部が出力する初期パラメータと、外部から入力されるハイパーパラメータとを入力として、当該初期パラメータをマルコフ連鎖モンテカルロ法で逐次更新して出力する。トピック共有モデル情報出力部は、トピック共有モデル学習部で更新した全てのパラメータと語彙種類数と全ての語彙とハイパーパラメータとを入力として、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、上記b系列のテキストに出現する単語wの確率を表すP(w|c=0)と、から成るトピック共有モデル情報を出力する。
本発明のトピックモデル学習装置によれば、a系列とb系列の2つのテキストの組から成る複数の対話テキストから、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、b系列のテキストに出現する単語wの確率を表すP(w|c=0)と、から成るトピック共有モデル情報を得ることができる。このトピック共有モデル情報を用いることで、対話のように2つで1組のテキスト情報についても、柔軟なデータマイニングを実現することが可能になる。
本発明のトピックモデル学習装置100の機能構成例を示す図。 トピックモデル学習装置100の動作フローを示す図。 トピック共有モデル初期化部110の機能構成例を示す図。 トピック共有モデル学習部120の機能構成例を示す図。 トピック共有モデル学習部120の動作フローを示す図。 a系テキスト潜在変数更新部1210の機能構成例を示す図。 a系テキスト潜在変数更新部1210の動作フローを示す図。 クラス変数a系列更新部1220の機能構成例を示す図。 クラス変数a系列更新部1220の動作フローを示す図。 トピック共有モデル情報の例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明のトピックモデル学習装置100の機能構成例を示す。その動作フローを図2に示す。トピックモデル学習装置100は、トピック共有モデル初期化部110と、トピック共有モデル学習部120と、トピック共有モデル情報出力部130と、を具備する。トピックモデルとは、例えば文書から何らかの話題(トピック)を発見するための統計的なモデルである。トピックモデル学習装置100は、対話データ群からトピックモデルを学習する装置である。トピックモデル学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
トピック共有モデル初期化部110は、a系列とb系列の2つのテキストの一組以上から成る対話データ群と、話題を見分ける変数である潜在変数の総数とを入力として、対話データ群の単語に潜在変数を割り当てた潜在変数系列と、対話データ群のa系列とb系列の各テキストの単語に話者依存か話題依存かを見分ける変数であるクラス変数を割り当てたクラス変数a系列とクラス変数b系列とを生成し、潜在変数系列から、当該潜在変数系列の潜在変数の種類ごとの回数を数えた潜在変数回数と潜在変数の種類と単語の組の回数である潜在変数−単語対回数とを生成し、クラス変数a系列とクラス変数b系列から、クラス変数の数を数えたクラス変数a回数とクラス変数b回数とクラス変数の種類と単語の組の回数であるクラス変数a系列−単語対回数とクラス変数b系列−単語対回数とを生成し、当該生成した各々のパラメータと対話データ群に含まれる語彙種類数と全ての語彙とを、初期パラメータとして出力する(ステップS110)。対話データ群とは、図1に示すように、例えばオペレータの発話したテキスト1−aと顧客の発話したテキスト1−bとの組が、一組以上で構成されるテキスト情報の集合である。潜在変数の総数とは、各テキストの各単語に割り当てられる変数名の総数であり、以降の説明では潜在変数の総数Kと称する。
トピック共有モデル学習部120は、トピック共有モデル初期化部110が出力する初期パラメータと、外部から入力されるハイパーパラメータとを入力として、当該初期パラメータをマルコフ連鎖モンテカルロ法で逐次更新して出力する(ステップS120)。ハイパーパラメータとは、確率モデル全体に影響を与えるパラメータのことである。マルコフ連鎖モンテカルロ法は、確率変数を更新するための周知のアルゴリズムである。その具体例については後述する。
トピック共有モデル情報出力部130は、トピック共有モデル学習部120で更新した全てのパラメータと語彙種類数と全ての語彙とハイパーパラメータとを入力として、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、上記b系列のテキストに出現する単語wの確率を表すP(w|c=0)と、から成るトピック共有モデル情報を出力する(ステップS130)。
以上説明した機能構成を備えるトピックモデル学習装置100が出力するトピック共有モデル情報は、対話のように2つで1組のテキスト情報についても、柔軟なデータマイニングを可能にする。トピックモデル学習装置100の動作を、より具体的な機能構成例を参照して具体的に説明する。
図3に、トピック共有モデル初期化部110の機能構成例を示す。トピック共有モデル初期化部110は、潜在変数割り当て手段111と、潜在変数回数算出手段112と、潜在変数−単語対回数算出手段113と、クラス変数a割り当て手段121と、クラス変数a回数算出手段122と、クラス変数a−単語対回数算出手段123と、クラス変数b割り当て手段131と、クラス変数b回数算出手段132と、クラス変数b−単語対回数算出手段133と、語彙抽出手段141と、を具備する。
潜在変数割り当て手段111は、入力される対話データ群を構成する単語に、潜在変数の総数Kを上限とする個数のインデックスを、ランダムに割り当てた潜在変数系列を生成する。対話データ群のa系列のテキスト1−aを例えば「今日は晴れです」、テキスト1−bを例えば「いい天気です」とし、潜在変数の総数KをK=10として与えた場合、潜在変数割り当て手段111は、テキスト1−aとテキスト1−bの各単語に、0からK−1の間の任意の整数を、ランダムに割り当てる。例えば、「今日」の潜在変数は7、「は」の潜在変数は3、「晴れ」の潜在変数は4、「です」の潜在変数は1、「いい」の潜在変数は6、「天気」の潜在変数は5、「です」の潜在変数は3、「ね」の潜在変数は2、といった具合に決定し、潜在変数系列「7,3,4,1,6,5,3,2」を生成する。このように潜在変数は、対話データ群を構成するテキスト情報の各々の単語に付与されるインデックスである。潜在変数をランダムに決定するには、sample_oneと称される関数を用いると良い。sample_one関数については後述する。
潜在変数回数算出手段112は、上記潜在変数系列を構成する各々の潜在変数の回数を数えて潜在変数回数を生成する。上記した潜在変数系列「7,3,4,1,6,5,3,2」の場合、潜在変数回数は、7の数は1、3の数は2、4の数は1、1の数は1、6の数は1、5の数は1、2の数は1となる。
潜在変数−単語対回数算出手段113は、単語と上記潜在変数との組を数えて潜在変数−単語対回数を生成する。上記した例の潜在変数−単語対回数は、(今日,7)が1回、(は,3)が1回、(晴れ,4)が1回、(です,1)が1回、(いい,6)が1回、(天気,5)が1回、(です,3)が1回、となる。
クラス変数a割り当て手段121は、対話データ群を構成するa系列の各テキストの単語に、話者依存を表すクラス0と話題依存を表すクラス1とを、それぞれランダムに割り当てたクラス変数a系列を生成する。クラス変数とは、話者依存か話題依存かを見分けるための変数である。クラス変数a割り当て手段121は、例えば話者依存のクラス変数CをC=0、話題依存のクラス変数CをC=1、としてa系列のテキスト1−aのそれぞれの単語に、ランダムにクラス変数Cを割り当ててクラス変数a系列を生成する。例えば、「今日」のクラス変数aは0、「は」のクラス変数は1、「晴れ」のクラス変数aは1、「です」のクラス変数aは0、といった具合に決定する。クラス変数a割り当て手段121が出力するa系列のテキスト1−aに対するクラス変数a系列は、この例では「0,1,1,0」となる。
クラス変数a回数算出手段122は、クラス変数a系列のクラス0とクラス1の数を数えてクラス変数a回数を生成する。この例では、クラス変数a回数は、クラス変数a回数0の数は2、1の数は2となる。
クラス変数a−単語対回数算出手段123は、テキスト1−aを構成する単語とクラス変数a系列との組を数えてクラス変数a−単語対回数を算出して出力する。この例では、テキスト1−a「今日は晴れです」に対して「0,1,1,0」のクラス変数a系列が決定されているので、(今日,0)が1回、(は,1)が1回、(晴れ,1)が1回、(です,1回)のクラス変数a−単語対回数が出力される。
対話データ群を構成するもう一方のb系列のテキストに対しても、もう一系統のクラス変数b割り当て手段131とクラス変数b回数算出手段132とクラス変数b−単語対回数算出手段133とが、同様の処理を行う。上記した例では、テキスト1−b「いい天気ですね」に対してクラス変数b割り当て手段131は、例えば「1,0,0,1」のクラス変数b系列を決定して出力する。クラス変数b回数算出手段132は、クラス変数b回数0の数は2、1の数は2を出力する。クラス変数b−単語対回数算出手段133は、(いい,1)が1回、(天気,0)が1回、(です,0)が1回、(ね,1)が1回、のクラス変数b−単語対回数を出力する。
語彙抽出手段141は、対話データ群に含まれる単語の種類数を語彙種類数として数え、全ての語彙と上記語彙種類数を出力する。語彙種類数と全ての語彙は、語彙記憶手段142に記憶するようにしても良い。
以上説明したようにトピック供給モデル初期化部110は、対話データ群と潜在語の総数Kを入力として、潜在変数系列(「7,3,4,1,6,5,3,2」)、潜在変数回数(7の数は1、3の数は2、4の数は1、1の数は1、6の数は1、5の数は1、2の数は1)、潜在変数−単語対回数((今日,7)が1回、(は,3)が1回、(晴れ,4)が1回、(です,1)が1回、(いい,6)が1回、(天気,5)が1回、(です,3)が1回、(ね,1)が1回)、クラス変数a系列(「0,1,1,0」)、クラス変数a回数(クラス変数a回数0の数は2、1の数は2)、クラス変数a−単語対回数((今日,0)が1回、(は,1)が1回、(晴れ,1)が1回、(です,0)が1回)、クラス変数b系列(「1,0,0,1」)、クラス変数b回数(クラス変数b回数0の数は2、1の数は2)、クラス変数b−単語対回数((いい,1)が1回、(天気,0)が1回、(です,0)が1回、(ね,1)が1回)、語彙種類数(7)、全ての語彙(「今日」,「は」,「晴れ」,「です」,「いい」,「天気」,「です」,「ね」)、を初期パラメータとして出力する。(・)は、各初期パラメータの一例である。
図4に、トピック共有モデル学習部120の機能構成例を示す。その動作フローを図5に示す。トピック共有モデル学習部120は、a系テキスト潜在変数更新部1210と、クラス変数a系列更新部1220と、b系テキスト潜在変数更新部1230と、クラス変数b系列更新部1240と、繰り返し制御部122と、を具備する。トピック共有モデル学習部120の機能構成は、確率変数を更新するための周知のアルゴリズムであるマルコフ連鎖モンテカルロ法を処理するものである。
a系テキスト潜在変数更新部1210は、潜在変数系列のa系列の単語位置i(0,…,i,…,I)ごとに、i番目の潜在変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基いて潜在変数更新用分布を計算し、当該潜在変数更新用分布からi番目の新たな潜在変数をサンプリングし、消去したi番目の潜在変数を新たな潜在変数に入れ替えて潜在変数の回数と潜在変数−単語対回数を更新する(ステップS1210)。
図6に、a系テキスト潜在変数更新部1210のより具体的な機能構成例を示して説明する。a系テキスト潜在変数更新部1210は、潜在変数パラメータ減算手段1211と、潜在変数更新用分布算出手段1212と、潜在変数サンプリング手段1213と、潜在変数パラメータ加算手段1214と、単語位置制御手段1215と、を備える。
潜在変数パラメータ減算手段1211は、i番目の潜在変数を既存のパラメータから消去する(ステップS1211)。つまり、(今日,7)が1回、であれば1減算し、0回に更新する。その結果、潜在変数7(インデックス)のパラメータが1個消去されたことになる。
潜在変数更新用分布算出手段1212は、i番目の潜在変数を更新する目的で、更新するための分布を計算する。その計算は、i番目のクラス変数の値によって変化させる(ステップS1212b)。
潜在変数更新用分布算出手段1212は、消去された潜在変数をzと置き換えて(ステップS1212a)、全ての潜在変数(0〜K−1)z(*=0,…,K−1)について潜在変数更新用分布P(z)を計算する
クラス変数C=0の場合、潜在変数をzと置き換えて潜在変数zに関する確率を次式で計算する(ステップS1212c)。
Figure 0005968283
ここでalphaはハイパーパラメータであり例えば0.5の値が与えられる。コーパスの単語総数とは対話データ群の単語総数のことである。
クラス変数C=1の場合、同様に潜在変数更新用分布P(z)を次式で計算する(ステップS1212d)。
Figure 0005968283
ここでbetaはハイパーパラメータであり例えば0.5の値が与えられる。ここで「(w,z)の回数」は、トピック共有モデル初期化部110で計数済みの潜在変数−単語対回数である。
潜在変数更新用分布P(z)は、全ての潜在変数の数、つまり、iごとにインデックス
の数分計算される(ステップS1212eのNo)。
潜在変数サンプリング手段1213は、i番目の潜在変数更新用分布P(z)〜P(zK−1)から、i番目の新たな潜在変数をサンプリングする。このサンプリングは、sample_one関数に基づいて行う。
sample_one関数とは、一様乱数(rand)を発生させ、その一様乱数の値と、ある確率値とを比較した結果からある値を決定するものである。この実施例では、i番目の潜在変数更新用分布P(z)〜P(zK−1)の全ての確率値の合計に対応する範囲の一様乱数を発生させ、その一様乱数の値と潜在変数更新用分布Pの確率値とを比較して、新たな潜在変数をサンプリングする。例えば一様乱数の値が2(rand=2)で、潜在変数更新用分布P(z)=0.5,P(z)=0.7,P(z)=0.9,…、であると仮定する。Sample_one関数は、一様乱数の値と潜在変数更新用分布P(z)との関係に基づいて具体的な実現値(この例では潜在変数の値)を決定する。Sample_one関数は、rand−P(z),rand−P(z)−P(z),rand−P(z)−P(z)−P(z),…,と順番に算出し、その値が0より小さくなった場合の潜在変数の値zを出力する。この例の場合は、rand−P(z)−P(z)−P(z)<0なので、潜在変数zを出力する。Sample_one関数は、任意の多項分布からのデータサンプル関数と言える。
潜在変数パラメータ加算手段1214は、潜在変数サンプリング手段1213で新たな潜在変数としてサンプリングされた潜在変数zを、i番目の消去した潜在変数と入れ替える。そして、潜在変数の回数と潜在変数単語対回数を更新する(ステップS1214)。例えば、i番目の単語が「今日」、i番目の新しい潜在変数が「3」でその回数が4回である場合、回数を5回に更新する。また(今日,3)の回数が1であれば、1加算して2回に更新する。
以上説明した潜在変数パラメータ減算手段1211、潜在変数更新用分布算出手段1212、潜在変数サンプリング手段1213、潜在変数パラメータ加算手段1214、の処理は、対話データ群を構成する全てのテキストの全ての単語について繰り返し行われる(ステップS1215bのNo)。
クラス変数a系列更新部1220は、クラス変数Cについて、a系テキスト潜在変数更新部1210と同じ処理を行う。図8に、クラス変数a系列更新部1220の機能構成例を示す。
クラス変数a系列更新部1220は、クラス変数パラメータ減算手段1221と、クラス変数更新用分布算出手段1222と、クラス変数サンプリング手段1223と、クラス変数パラメータ加算手段1224と、単語位置制御手段1225と、を備える。クラス変数a系列更新部1220は、の各機能部は「潜在変数」の文言が「クラス変数」に代わったのみで、a系テキスト潜在変数更新部1210(図6)と全く同じ構成である。
クラス変数更新用分布算出手段1222は、i番目のクラス変数を更新する目的で、更新するための分布を計算する計算式を変化させる点でも、潜在変数更新用分布算出手段1212と同じである。但し、式が異なるので用いる計算式を以下に示す。そして、図9に、クラス変数a系列更新部1220の動作フローを示し、その詳しい動作説明は省略する。
式(3)はクラス変数C=0、式(4)はクラス変数C=1の場合に用いる。
Figure 0005968283
Figure 0005968283
ここでgamma,deltaはハイパーパラメータであり例えば0.5の値が与えられる。
b系テキスト潜在変数更新部1230は、b系列のテキスト1−bに対してa系テキスト潜在変数更新部1210と全く同じ処理を行う。クラス変数b系列更新部1240も同様に、b系列のテキスト1−bに対してクラス変数a系列更新部1220と全く同じ処理を行う。
繰り返し制御部122は、図5に示すように、ステップS1210〜ステップS1240の過程を、例えば100回以上の回数繰り返して各々のパラメータを更新する。繰り返しの回数は多い方が望ましいが、計算時間との兼ね合いで決定する。
トピック共有モデル情報出力部130は、トピック共有モデル学習部120で更新した全てのパラメータと語彙種類数と全ての語彙と、ハイパーパラメータとを入力として、各トピックは、どのような単語が支配的であるかを判断する目的で利用できるトピック−単語確率P(w|z)を次式で計算する。
Figure 0005968283
ここで「(w,z)の回数」は上記した潜在変数−単語対回数である。このトピック−単語確率P(w|z)を、0から潜在変数の総数K−1までの全ての潜在変数、全ての単語に対して求める。
また、各対話はどのようなトピックが支配的であるかを判断する目的で利用できる対話−トピック確率P(z|n)を次式で計算する。
Figure 0005968283
ここで「対話n内のzの回数」は上記した潜在変数回数である。この対話トピック確率P(z|n)を、0から潜在変数の総数K−1までの全ての潜在変数に対して求める。
また、例えばコンタクトセンタのオペレータがトピックに関わらずどのような単語をよく話すかを表す確率P(w|c=0)を次式で計算する。
Figure 0005968283
ここで「(w,c=0)の回数」は上記したクラス変数−単語対回数、「c=0の回数」はクラス変数回数である。これらの値をクラス変数a系列−単語対回数、クラス変数a回数とすることで、a系列のテキストにおける単語の出現確率を計算することができる。同様にそれぞれをb系列の値にすることで、b系列のテキストにおける単語の出現確率を計算することができる。alpha,beta,deltaはハイパーパラメータである。
図10に、トピック共有情報の例を示す。上から、トピック−単語確率P(w|z)、対話−トピック確率P(z|n)、テキストに出現する単語の確率P(w|c=0)である。
トピック−単語確率P(w|z)は、マルコフ連鎖モンテカルロ法による繰り返し更新の過程において割り付けられた、話題(トピック)を見分ける変数である潜在変数zに対応する単語の出現確率であり、例えば、サッカー:0.7、ボール:0.1といった様に出力される。潜在変数zに対応する単語で、例えば「サッカー」の単語確率が最も高い場合は、トピックの一つ(z)は「サッカー」ということになる。潜在変数の総数K=10とした場合、対話データ群から10個のトピックz〜zを抽出することができる。
対話−トピック確率P(z|n)は、対話n(0,…,n,…,N)ごとにどのような潜在変数が支配的であるかを表す。図10の対話−トピック確率P(z|n)は、対話1は潜在変数zに対応する単語が支配的であり、対話Nは潜在変数zに対応する単語が支配的であることを表している。潜在変数は、トピック−単語確率P(w|z)によって話題を表す単語と対応付けられるので、例えば最も大きな確率(0.9)の潜在変数zに「カレー」が対応付けられているとすれば、対話1は「カレー」を話題にしたテキスト情報ということになる。
テキストに出現する単語の確率P(w|c=0)は、a系列とb系列のそれぞれのテキストごとの、単語の出現確率を表す。図10に示す例では、例えばa系列の話者の口調は「です調」であり、b系列の話者の口調は「ます調」であることが分かる。
このようなトピック共有情報を用いることで、対話のように2つで1組のテキスト情報についても、柔軟なデータマイニングを実現することが可能になる。
なお、上記した実施例では、一様乱数と確率値とを比較して潜在変数を決定する方法を説明したが、上記した方法は一例であって、一様乱数を用いた他の方法を用いても良い。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. a系列とb系列の2つのテキストの一組以上から成る対話データ群と、話題を見分ける変数である潜在変数の総数とを入力として、上記対話データ群の単語に上記潜在変数を割り当てた潜在変数系列と、上記対話データ群のa系列とb系列の各テキストの単語に話者依存か話題依存かを見分ける変数であるクラス変数を割り当てたクラス変数a系列とクラス変数b系列とを生成し、上記潜在変数系列から、当該潜在変数系列の潜在変数の種類ごとの回数を数えた潜在変数回数と上記潜在変数の種類と単語の組の回数である潜在変数−単語対回数とを生成し、上記クラス変数a系列と上記クラス変数b系列から、クラス変数の数を数えたクラス変数a回数とクラス変数b回数とクラス変数の種類と単語の組の回数であるクラス変数a系列−単語対回数とクラス変数b系列−単語対回数とを生成し、当該生成した各々の上記パラメータと上記対話データ群に含まれる語彙種類数と全ての語彙とを、初期パラメータとして出力するトピック共有モデル初期化部と、
    上記トピック共有モデル初期化部が出力する初期パラメータと、外部から入力されるハイパーパラメータとを入力として、当該初期パラメータをマルコフ連鎖モンテカルロ法で逐次更新して出力するトピック共有モデル学習部と、
    上記トピック共有モデル学習部で更新した全てのパラメータと上記語彙種類数と上記全ての語彙と上記ハイパーパラメータとを入力として、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、上記b系列のテキストに出現する単語w
    の確率を表すP(w|c=0)と、から成るトピック共有モデル情報を出力するトピック共有モデル情報出力部と、
    を具備するトピックモデル学習装置。
  2. 請求項1に記載したトピックモデル学習装置において、
    上記トピック共有モデル初期化部は、
    上記対話データ群を構成する単語に、上記潜在変数の総数を上限とする個数のインデックスを、ランダムに割り当てた潜在変数系列を生成する潜在変数割り当て手段と、
    上記潜在変数系列を構成する各々の潜在変数の回数を数えて潜在変数回数を生成する潜在変数回数算出手段と、
    上記単語と上記潜在変数との組を数えて潜在変数−単語対回数を生成する潜在変数−単語対回数算出手段と、
    上記対話データ群を構成するa系列とb系列の各テキストの単語に、話者依存を表すクラス0と話題依存を表すクラス1とを、それぞれランダムに割り当てたクラス変数a系列とクラス変数b系列を生成する2系統のクラス変数割り当て手段と、
    上記2系統のクラス変数系列のそれぞれの、クラス0とクラス1の数を数えてクラス変数a回数とクラス変数b回数を生成する2系統のクラス変数回数算出手段と、
    上記単語と上記クラス変数との組を数えてクラス変数a−単語対回数とクラス変数b−単語対回数を生成する2系統のクラス変数−単語対回数算出手段と、
    上記対話データ群に含まれる単語の種類数を語彙種類数として数え、全ての語彙と上記語彙種類数を出力する語彙抽出手段と、
    を備えることを特徴とするトピックモデル学習装置。
  3. 請求項1又は2に記載したトピック学習装置において、
    上記トピック共有モデル学習部の上記マルコフ連鎖モンテカルロ法は、
    上記潜在変数系列のa系列の単語位置iごとに、i番目の潜在変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいて潜在変数更新用分布を計算し、当該潜在変数更新用分布からi番目の新たな潜在変数をサンプリングし、上記消去したi番目の潜在変数を上記新たな潜在変数に入れ変えて上記潜在変数の回数と上記潜在変数−単語対回数を更新するa系テキスト潜在変数更新部と、
    上記クラス変数a系列の上記単語位置iごとに、i番目のクラス変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいてクラス変数a更新用分布を計算し、当該クラス変数a更新用分布からi番目の新たなクラス変数をサンプリングし、上記消去したi番目の潜在変数を上記新たなクラス変数に入れ替えて上記クラス変数a系列を更新するクラス変数a系列更新部と、
    上記潜在変数系列のb系列の単語位置iごとに、i番目の潜在変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいて潜在変数更新用分布を計算し、当該潜在変数更新用分布からi番目の新たな潜在変数をサンプリングし、上記消去したi番目の潜在変数を上記新たな潜在変数に入れ変えて上記潜在変数の回数と上記潜在変数−単語対回数を更新するb系テキスト潜在変数更新部と、
    上記クラス変数b系列の上記単語位置iごとに、i番目のクラス変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいてクラス変数b更新用分布を計算し、当該クラス変数b更新用分布からi番目の新たなクラス変数をサンプリングし、上記消去したi番目の潜在変数を上記新たなクラス変数に入れ替えて上記クラス変数b系列を更新するクラス変数b系列更新部と、
    上記a系テキスト潜在変数更新部と上記クラス変数a系列更新部と上記b系テキスト潜在変数更新部と上記クラス変数b系列更新部とを上記した順に所定の回数、繰り返し動作させる繰り返し制御部と、
    で実現されることを特徴とするトピックモデル学習装置。
  4. 請求項1乃至3の何れかに記載したトピックモデル学習装置において、
    上記トピック共有モデル情報出力部が出力するトピック−単語確率P(w|z)は次式で計算され、
    Figure 0005968283
    ここで「(w,z)の回数」は上記した潜在変数−単語対回数、
    上記トピック共有モデル情報出力部が出力する対話−トピック確率P(z|n)は次式で計算され、
    Figure 0005968283
    ここで「対話n内のzの回数」は上記した潜在変数回数、
    上記トピック共有モデル情報出力部が出力する上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と上記b系列のテキストに出現する単語wの確率を表すP(w|c=0)とは次式で計算され、
    Figure 0005968283
    ここで「(w,c=0)の回数」は上記したクラス変数−単語対回数、
    上記Alpha,上記beta,上記deltaはハイパーパラメータである、
    ことを特徴とするトピックモデル学習装置。
  5. a系列とb系列の2つのテキストの一組以上から成る対話データ群と、話題を見分ける変数である潜在変数の総数とを入力として、上記対話データ群の単語に上記潜在変数を割り当てた潜在変数系列と、上記対話データ群のa系列とb系列の各テキストの単語に話者依存か話題依存かを見分ける変数であるクラス変数を割り当てたクラス変数a系列とクラス変数b系列とを生成し、上記潜在変数系列から、当該潜在変数系列の潜在変数の種類ごとの回数を数えた潜在変数回数と上記潜在変数の種類と単語の組の回数である潜在変数−単語対回数とを生成し、上記クラス変数a系列と上記クラス変数b系列から、クラス変数の数を数えたクラス変数a回数とクラス変数b回数とクラス変数の種類と単語の組の回数であるクラス変数a系列−単語対回数とクラス変数b系列−単語対回数とを生成し、当該生成した各々の上記パラメータと上記対話データ群に含まれる語彙種類数と全ての語彙とを、初期パラメータとして出力するトピック共有モデル初期化過程と、
    上記トピック共有モデル初期化過程で得られた初期パラメータと、外部から入力されるハイパーパラメータとを入力として、当該初期パラメータをマルコフ連鎖モンテカルロ法で逐次更新して出力するトピック共有モデル学習過程と、
    上記トピック共有モデル学習過程で更新した全てのパラメータと上記語彙種類数と上記全ての語彙と上記ハイパーパラメータとを入力として、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、上記b系列のテキストに出現する単
    語wの確率を表すP(w|c=0)と、から成るトピック共有モデル情報を出力するトピック共有モデル情報出力過程と、
    を備えるトピックモデル学習方法。
  6. 請求項5に記載したトピックモデル学習方法において、
    上記トピックモデル学習過程は、
    上記対話データ群を構成する単語に、上記潜在変数の総数を上限とする個数のインデックスを、ランダムに割り当てた潜在変数系列を生成する潜在変数割り当てステップと、
    上記潜在変数系列を構成する各々の潜在変数の回数を数えて潜在変数回数を生成する潜在変数回数算出ステップと、
    上記単語と上記潜在変数との組を数えて潜在語変数−単語対回数を生成する潜在変数−単語対回数算出ステップと、
    上記対話データ群を構成するa系列とb系列の各テキストの単語に、話者依存を表すクラス0と話題依存を表すクラス1とを、それぞれランダムに割り当てたクラス変数a系列とクラス変数b系列を生成する2系統のクラス変数割り当てステップと、
    上記2系統のクラス変数系列のそれぞれの、クラス0とクラス1の数を数えてクラス変数a回数とクラス変数b回数を生成する2系統のクラス変数回数算出ステップと、
    上記単語と上記クラス変数との組を数えてクラス変数a−単語対回数とクラス変数b−単語対回数を生成する2系統のクラス変数−単語対回数算出ステップと、
    上記複数の対話テキストに含まれる単語の種類数を語彙種類数として数え、全ての語彙と上記語彙種類数を出力する語彙抽出ステップと、
    を含むことを特徴とするトピックモデル学習方法。
  7. 請求項1乃至4の何れかに記載したトピックモデル学習装置としてコンピュータを機能させるためのプログラム。
  8. 請求項7に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2013175402A 2013-08-27 2013-08-27 トピックモデル学習装置とその方法、そのプログラムと記録媒体 Expired - Fee Related JP5968283B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013175402A JP5968283B2 (ja) 2013-08-27 2013-08-27 トピックモデル学習装置とその方法、そのプログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013175402A JP5968283B2 (ja) 2013-08-27 2013-08-27 トピックモデル学習装置とその方法、そのプログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2015045915A JP2015045915A (ja) 2015-03-12
JP5968283B2 true JP5968283B2 (ja) 2016-08-10

Family

ID=52671396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013175402A Expired - Fee Related JP5968283B2 (ja) 2013-08-27 2013-08-27 トピックモデル学習装置とその方法、そのプログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP5968283B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776641B (zh) * 2015-11-24 2020-09-08 华为技术有限公司 一种数据处理方法及装置
WO2019093392A1 (ja) 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5210224B2 (ja) * 2009-03-30 2013-06-12 日本電信電話株式会社 アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体
JP5276503B2 (ja) * 2009-04-03 2013-08-28 日本電信電話株式会社 データ解析装置、データ解析プログラムおよびその記録媒体
JP5591772B2 (ja) * 2011-08-25 2014-09-17 日本電信電話株式会社 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2015045915A (ja) 2015-03-12

Similar Documents

Publication Publication Date Title
US10176803B2 (en) Updating population language models based on changes made by user clusters
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
KR20210099096A (ko) 완전 지도식 화자 분리
Chelba et al. N-gram language modeling using recurrent neural network estimation
US20200082808A1 (en) Speech recognition error correction method and apparatus
US9558741B2 (en) Systems and methods for speech recognition
Tong et al. A comparative study of robustness of deep learning approaches for VAD
JP2017228160A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
US20200327281A1 (en) Word classification based on phonetic features
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
JP2017058483A (ja) 音声処理装置、音声処理方法及び音声処理プログラム
Partila et al. Pattern recognition methods and features selection for speech emotion recognition system
CN109859747B (zh) 语音交互方法、设备以及存储介质
JP2020020872A (ja) 識別器、学習済モデル、学習方法
Jeon et al. Language model adaptation based on topic probability of latent dirichlet allocation
JP5968283B2 (ja) トピックモデル学習装置とその方法、そのプログラムと記録媒体
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US10418024B1 (en) Systems and methods of speech generation for target user given limited data
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Dognin et al. Combining stochastic average gradient and hessian-free optimization for sequence training of deep neural networks
US20210225367A1 (en) Model learning apparatus, method and program
KR101565143B1 (ko) 대화시스템에서 사용자 발화의 정보 분류를 위한 자질 가중치 산출 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160705

R150 Certificate of patent or registration of utility model

Ref document number: 5968283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees