JP5968283B2 - トピックモデル学習装置とその方法、そのプログラムと記録媒体 - Google Patents
トピックモデル学習装置とその方法、そのプログラムと記録媒体 Download PDFInfo
- Publication number
- JP5968283B2 JP5968283B2 JP2013175402A JP2013175402A JP5968283B2 JP 5968283 B2 JP5968283 B2 JP 5968283B2 JP 2013175402 A JP2013175402 A JP 2013175402A JP 2013175402 A JP2013175402 A JP 2013175402A JP 5968283 B2 JP5968283 B2 JP 5968283B2
- Authority
- JP
- Japan
- Prior art keywords
- variable
- class
- series
- latent
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000009826 distribution Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 10
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 6
- 238000007418 data mining Methods 0.000 description 5
- 235000021438 curry Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
の数分計算される(ステップS1212eのNo)。
潜在変数サンプリング手段1213は、i番目の潜在変数更新用分布P(z0)〜P(zK−1)から、i番目の新たな潜在変数をサンプリングする。このサンプリングは、sample_one関数に基づいて行う。
Claims (8)
- a系列とb系列の2つのテキストの一組以上から成る対話データ群と、話題を見分ける変数である潜在変数の総数とを入力として、上記対話データ群の単語に上記潜在変数を割り当てた潜在変数系列と、上記対話データ群のa系列とb系列の各テキストの単語に話者依存か話題依存かを見分ける変数であるクラス変数を割り当てたクラス変数a系列とクラス変数b系列とを生成し、上記潜在変数系列から、当該潜在変数系列の潜在変数の種類ごとの回数を数えた潜在変数回数と上記潜在変数の種類と単語の組の回数である潜在変数−単語対回数とを生成し、上記クラス変数a系列と上記クラス変数b系列から、クラス変数の数を数えたクラス変数a回数とクラス変数b回数とクラス変数の種類と単語の組の回数であるクラス変数a系列−単語対回数とクラス変数b系列−単語対回数とを生成し、当該生成した各々の上記パラメータと上記対話データ群に含まれる語彙種類数と全ての語彙とを、初期パラメータとして出力するトピック共有モデル初期化部と、
上記トピック共有モデル初期化部が出力する初期パラメータと、外部から入力されるハイパーパラメータとを入力として、当該初期パラメータをマルコフ連鎖モンテカルロ法で逐次更新して出力するトピック共有モデル学習部と、
上記トピック共有モデル学習部で更新した全てのパラメータと上記語彙種類数と上記全ての語彙と上記ハイパーパラメータとを入力として、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、上記b系列のテキストに出現する単語w
の確率を表すP(w|c=0)と、から成るトピック共有モデル情報を出力するトピック共有モデル情報出力部と、
を具備するトピックモデル学習装置。 - 請求項1に記載したトピックモデル学習装置において、
上記トピック共有モデル初期化部は、
上記対話データ群を構成する単語に、上記潜在変数の総数を上限とする個数のインデックスを、ランダムに割り当てた潜在変数系列を生成する潜在変数割り当て手段と、
上記潜在変数系列を構成する各々の潜在変数の回数を数えて潜在変数回数を生成する潜在変数回数算出手段と、
上記単語と上記潜在変数との組を数えて潜在変数−単語対回数を生成する潜在変数−単語対回数算出手段と、
上記対話データ群を構成するa系列とb系列の各テキストの単語に、話者依存を表すクラス0と話題依存を表すクラス1とを、それぞれランダムに割り当てたクラス変数a系列とクラス変数b系列を生成する2系統のクラス変数割り当て手段と、
上記2系統のクラス変数系列のそれぞれの、クラス0とクラス1の数を数えてクラス変数a回数とクラス変数b回数を生成する2系統のクラス変数回数算出手段と、
上記単語と上記クラス変数との組を数えてクラス変数a−単語対回数とクラス変数b−単語対回数を生成する2系統のクラス変数−単語対回数算出手段と、
上記対話データ群に含まれる単語の種類数を語彙種類数として数え、全ての語彙と上記語彙種類数を出力する語彙抽出手段と、
を備えることを特徴とするトピックモデル学習装置。 - 請求項1又は2に記載したトピック学習装置において、
上記トピック共有モデル学習部の上記マルコフ連鎖モンテカルロ法は、
上記潜在変数系列のa系列の単語位置iごとに、i番目の潜在変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいて潜在変数更新用分布を計算し、当該潜在変数更新用分布からi番目の新たな潜在変数をサンプリングし、上記消去したi番目の潜在変数を上記新たな潜在変数に入れ変えて上記潜在変数の回数と上記潜在変数−単語対回数を更新するa系テキスト潜在変数更新部と、
上記クラス変数a系列の上記単語位置iごとに、i番目のクラス変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいてクラス変数a更新用分布を計算し、当該クラス変数a更新用分布からi番目の新たなクラス変数をサンプリングし、上記消去したi番目の潜在変数を上記新たなクラス変数に入れ替えて上記クラス変数a系列を更新するクラス変数a系列更新部と、
上記潜在変数系列のb系列の単語位置iごとに、i番目の潜在変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいて潜在変数更新用分布を計算し、当該潜在変数更新用分布からi番目の新たな潜在変数をサンプリングし、上記消去したi番目の潜在変数を上記新たな潜在変数に入れ変えて上記潜在変数の回数と上記潜在変数−単語対回数を更新するb系テキスト潜在変数更新部と、
上記クラス変数b系列の上記単語位置iごとに、i番目のクラス変数を既存のパラメータから消去した後に、当該i番目のクラス変数の値に応じて異なる算出式に基づいてクラス変数b更新用分布を計算し、当該クラス変数b更新用分布からi番目の新たなクラス変数をサンプリングし、上記消去したi番目の潜在変数を上記新たなクラス変数に入れ替えて上記クラス変数b系列を更新するクラス変数b系列更新部と、
上記a系テキスト潜在変数更新部と上記クラス変数a系列更新部と上記b系テキスト潜在変数更新部と上記クラス変数b系列更新部とを上記した順に所定の回数、繰り返し動作させる繰り返し制御部と、
で実現されることを特徴とするトピックモデル学習装置。 - 請求項1乃至3の何れかに記載したトピックモデル学習装置において、
上記トピック共有モデル情報出力部が出力するトピック−単語確率P(w|z)は次式で計算され、
上記トピック共有モデル情報出力部が出力する対話−トピック確率P(z|n)は次式で計算され、
上記トピック共有モデル情報出力部が出力する上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と上記b系列のテキストに出現する単語wの確率を表すP(w|c=0)とは次式で計算され、
上記Alpha,上記beta,上記deltaはハイパーパラメータである、
ことを特徴とするトピックモデル学習装置。 - a系列とb系列の2つのテキストの一組以上から成る対話データ群と、話題を見分ける変数である潜在変数の総数とを入力として、上記対話データ群の単語に上記潜在変数を割り当てた潜在変数系列と、上記対話データ群のa系列とb系列の各テキストの単語に話者依存か話題依存かを見分ける変数であるクラス変数を割り当てたクラス変数a系列とクラス変数b系列とを生成し、上記潜在変数系列から、当該潜在変数系列の潜在変数の種類ごとの回数を数えた潜在変数回数と上記潜在変数の種類と単語の組の回数である潜在変数−単語対回数とを生成し、上記クラス変数a系列と上記クラス変数b系列から、クラス変数の数を数えたクラス変数a回数とクラス変数b回数とクラス変数の種類と単語の組の回数であるクラス変数a系列−単語対回数とクラス変数b系列−単語対回数とを生成し、当該生成した各々の上記パラメータと上記対話データ群に含まれる語彙種類数と全ての語彙とを、初期パラメータとして出力するトピック共有モデル初期化過程と、
上記トピック共有モデル初期化過程で得られた初期パラメータと、外部から入力されるハイパーパラメータとを入力として、当該初期パラメータをマルコフ連鎖モンテカルロ法で逐次更新して出力するトピック共有モデル学習過程と、
上記トピック共有モデル学習過程で更新した全てのパラメータと上記語彙種類数と上記全ての語彙と上記ハイパーパラメータとを入力として、各トピックはどのような単語wが支配的であるかを表すトピック−単語確率P(w|z)と、各対話nはどのようなトピックが支配的であるかを表す対話−トピック確率P(z|n)と、上記a系列のテキストに出現する単語wの確率を表すP(w|c=0)と、上記b系列のテキストに出現する単
語wの確率を表すP(w|c=0)と、から成るトピック共有モデル情報を出力するトピック共有モデル情報出力過程と、
を備えるトピックモデル学習方法。 - 請求項5に記載したトピックモデル学習方法において、
上記トピックモデル学習過程は、
上記対話データ群を構成する単語に、上記潜在変数の総数を上限とする個数のインデックスを、ランダムに割り当てた潜在変数系列を生成する潜在変数割り当てステップと、
上記潜在変数系列を構成する各々の潜在変数の回数を数えて潜在変数回数を生成する潜在変数回数算出ステップと、
上記単語と上記潜在変数との組を数えて潜在語変数−単語対回数を生成する潜在変数−単語対回数算出ステップと、
上記対話データ群を構成するa系列とb系列の各テキストの単語に、話者依存を表すクラス0と話題依存を表すクラス1とを、それぞれランダムに割り当てたクラス変数a系列とクラス変数b系列を生成する2系統のクラス変数割り当てステップと、
上記2系統のクラス変数系列のそれぞれの、クラス0とクラス1の数を数えてクラス変数a回数とクラス変数b回数を生成する2系統のクラス変数回数算出ステップと、
上記単語と上記クラス変数との組を数えてクラス変数a−単語対回数とクラス変数b−単語対回数を生成する2系統のクラス変数−単語対回数算出ステップと、
上記複数の対話テキストに含まれる単語の種類数を語彙種類数として数え、全ての語彙と上記語彙種類数を出力する語彙抽出ステップと、
を含むことを特徴とするトピックモデル学習方法。 - 請求項1乃至4の何れかに記載したトピックモデル学習装置としてコンピュータを機能させるためのプログラム。
- 請求項7に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013175402A JP5968283B2 (ja) | 2013-08-27 | 2013-08-27 | トピックモデル学習装置とその方法、そのプログラムと記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013175402A JP5968283B2 (ja) | 2013-08-27 | 2013-08-27 | トピックモデル学習装置とその方法、そのプログラムと記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015045915A JP2015045915A (ja) | 2015-03-12 |
JP5968283B2 true JP5968283B2 (ja) | 2016-08-10 |
Family
ID=52671396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013175402A Expired - Fee Related JP5968283B2 (ja) | 2013-08-27 | 2013-08-27 | トピックモデル学習装置とその方法、そのプログラムと記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5968283B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776641B (zh) * | 2015-11-24 | 2020-09-08 | 华为技术有限公司 | 一种数据处理方法及装置 |
WO2019093392A1 (ja) | 2017-11-10 | 2019-05-16 | 日本電信電話株式会社 | コミュニケーションスキル評価システム、装置、方法、及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5210224B2 (ja) * | 2009-03-30 | 2013-06-12 | 日本電信電話株式会社 | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 |
JP5276503B2 (ja) * | 2009-04-03 | 2013-08-28 | 日本電信電話株式会社 | データ解析装置、データ解析プログラムおよびその記録媒体 |
JP5591772B2 (ja) * | 2011-08-25 | 2014-09-17 | 日本電信電話株式会社 | 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム |
-
2013
- 2013-08-27 JP JP2013175402A patent/JP5968283B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015045915A (ja) | 2015-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176803B2 (en) | Updating population language models based on changes made by user clusters | |
KR102494139B1 (ko) | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 | |
KR20210099096A (ko) | 완전 지도식 화자 분리 | |
Chelba et al. | N-gram language modeling using recurrent neural network estimation | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
US9558741B2 (en) | Systems and methods for speech recognition | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
JP2017228160A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
US20200327281A1 (en) | Word classification based on phonetic features | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
JP2015075706A (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP2017058483A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
Partila et al. | Pattern recognition methods and features selection for speech emotion recognition system | |
CN109859747B (zh) | 语音交互方法、设备以及存储介质 | |
JP2020020872A (ja) | 識別器、学習済モデル、学習方法 | |
Jeon et al. | Language model adaptation based on topic probability of latent dirichlet allocation | |
JP5968283B2 (ja) | トピックモデル学習装置とその方法、そのプログラムと記録媒体 | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
US10418024B1 (en) | Systems and methods of speech generation for target user given limited data | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
Dognin et al. | Combining stochastic average gradient and hessian-free optimization for sequence training of deep neural networks | |
US20210225367A1 (en) | Model learning apparatus, method and program | |
KR101565143B1 (ko) | 대화시스템에서 사용자 발화의 정보 분류를 위한 자질 가중치 산출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5968283 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |