JP2013134751A - トピックモデル学習方法、装置、及びプログラム - Google Patents
トピックモデル学習方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP2013134751A JP2013134751A JP2011286870A JP2011286870A JP2013134751A JP 2013134751 A JP2013134751 A JP 2013134751A JP 2011286870 A JP2011286870 A JP 2011286870A JP 2011286870 A JP2011286870 A JP 2011286870A JP 2013134751 A JP2013134751 A JP 2013134751A
- Authority
- JP
- Japan
- Prior art keywords
- posterior probability
- unsupervised
- supervised
- document data
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】教師あり事後確率付与部18で、手掛かり語を含む文書データ34毎に手掛かり語に対応するトピックの割合に応じた教師あり事後確率42を付与し、事後確率推定部20aで、トピックモデルパラメータ38を用いて文書データ34毎に教師なし事後確率44aを推定し、重み付き事後確率付与部22で、教師あり事後確率42と教師なし事後確率44aとを重み調整テーブル46から取得した重みw(i)を用いて線形補間して重み付き事後確率48を付与し、事後確率推定部20bで、手掛かり語を含まない文書データ36毎に教師なし事後確率44bを推定し、パラメータ更新部24で、予め定めたトピック数、教師なし事後確率44b、及び重み付き事後確率48に基づいて、トピックモデルパラメータ38を更新する。
【選択図】図1
Description
手掛かり語={NTT,フレッツ}∈通信、{野球}∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率p_p(z|d)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
p_p(通信|文書データ1)=1.0
if(文書データ1∋{NTT,フレッツ})
p_p(通信|文書データ2)=0.5、p(スポーツ|文書データ2)=0.5
if(文書データ2∋{NTT,野球})
(1)式において、トピックモデルパラメータ38は、p(z)(1×Zmatrix)及びp(v|z)(Z×Vmatrix)である。zは、教師あり事後確率付与部18と同様に、トピックを表す確率変数である。p(z)は確率変数zに対する事前確率であり、p(v|z)は確率変数zの下での多項分布による確率である。ndvは文書データd中に単語vが出現した回数である。
1stite. p(z|d)=1.0×p_p(z|d)+0.0×p_u(z|d)
2ndite. p(z|d)=0.5×p_p(z|d)+0.5×p_u(z|d)
3rdite. p(z|d)=0.0×p_p(z|d)+1.0×p_u(z|d)
となる。なお、1stiteはイテレーション数が1、2nditeはイテレーション数が2、3rditeはイテレーション数が3であることを示す。
12 文書データ分割部
18 教師あり事後確率付与部
20a、20b 教師なし事後確率推定部
22 重み付き事後確率付与部
24 パラメータ更新部
26 収束判定部
28 出力部
Claims (5)
- トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、
トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、
前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、
前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、
予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新ステップと、
を含むトピックモデル学習方法。 - 前記更新ステップにおいて前記パラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めた請求項1記載のトピックモデル学習方法。
- 前記第1教師なし事後確率推定ステップ及び前記第2教師なし事後確率推定ステップが、EMアルゴリズムにおける期待値推定ステップであり、前記更新ステップが、前記EMアルゴリズムにおける期待値最大化ステップである請求項2記載のトピックモデル学習方法。
- トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与手段と、
トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定手段と、
前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与手段と、
前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定手段と、
予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新手段と、
を含むトピックモデル学習装置。 - コンピュータに、請求項1〜請求項3のいずれか1項記載のトピックモデル学習方法の各ステップを実行させるためのトピックモデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286870A JP5538354B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286870A JP5538354B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134751A true JP2013134751A (ja) | 2013-07-08 |
JP5538354B2 JP5538354B2 (ja) | 2014-07-02 |
Family
ID=48911365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286870A Active JP5538354B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5538354B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9244910B2 (en) | 2013-10-10 | 2016-01-26 | Fuji Xerox Co., Ltd | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046621A (ja) * | 2002-07-12 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
JP2010238043A (ja) * | 2009-03-31 | 2010-10-21 | Mitsubishi Electric Corp | テキスト解析学習装置 |
-
2011
- 2011-12-27 JP JP2011286870A patent/JP5538354B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046621A (ja) * | 2002-07-12 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
JP2010238043A (ja) * | 2009-03-31 | 2010-10-21 | Mitsubishi Electric Corp | テキスト解析学習装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9244910B2 (en) | 2013-10-10 | 2016-01-26 | Fuji Xerox Co., Ltd | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP5538354B2 (ja) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341424B2 (en) | Method, apparatus and system for estimating causality among observed variables | |
JP5503633B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
Griffin et al. | In search of lost mixing time: adaptive Markov chain Monte Carlo schemes for Bayesian variable selection with very large p | |
CN109977394B (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
Berthelot et al. | Tract: Denoising diffusion models with transitive closure time-distillation | |
JP2021504836A5 (ja) | ||
Papastamoulis | Handling the label switching problem in latent class models via the ECR algorithm | |
James | MM algorithm for general mixed multinomial logit models | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
Roy et al. | Efficient estimation and prediction for the Bayesian binary spatial model with flexible link functions | |
Jabot | Why preferring parametric forecasting to nonparametric methods? | |
Fischer et al. | A bound for the convergence rate of parallel tempering for sampling restricted Boltzmann machines | |
JP5538354B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
CN110633417B (zh) | 一种基于服务质量的web服务推荐的方法及系统 | |
WO2020013236A1 (ja) | データ解析装置、方法、及びプログラム | |
JP4612435B2 (ja) | 音響モデル学習装置および音声認識装置 | |
Iacobucci et al. | On variance stabilisation in population Monte Carlo by double Rao-Blackwellisation | |
WO2019167240A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN114092269A (zh) | 基于改进广义网络向量模型的时序数据预测方法及装置 | |
WO2019159845A1 (ja) | 動的分布推定装置、方法、及びプログラム | |
Cheng | Sampler scheduler for diffusion models | |
Payne et al. | Bayesian big data classification: A review with complements | |
Toulisα et al. | Implicit stochastic approximation | |
Lamine et al. | The threshold EM algorithm for parameter learning in bayesian network with incomplete data | |
Elvira et al. | Gauss-Hermite quadrature for non-Gaussian inference via an importance sampling interpretation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5538354 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140428 |