JP5538354B2 - トピックモデル学習方法、装置、及びプログラム - Google Patents
トピックモデル学習方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP5538354B2 JP5538354B2 JP2011286870A JP2011286870A JP5538354B2 JP 5538354 B2 JP5538354 B2 JP 5538354B2 JP 2011286870 A JP2011286870 A JP 2011286870A JP 2011286870 A JP2011286870 A JP 2011286870A JP 5538354 B2 JP5538354 B2 JP 5538354B2
- Authority
- JP
- Japan
- Prior art keywords
- posterior probability
- unsupervised
- supervised
- document data
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
手掛かり語={NTT,フレッツ}∈通信、{野球}∈スポーツ
のように定められていた場合には、文書データに含まれる単語に応じて、以下のように教師あり事後確率p_p(z|d)が決定される。なお、「通信」及び「スポーツ」はトピックを表す。
p_p(通信|文書データ1)=1.0
if(文書データ1∋{NTT,フレッツ})
p_p(通信|文書データ2)=0.5、p(スポーツ|文書データ2)=0.5
if(文書データ2∋{NTT,野球})
(1)式において、トピックモデルパラメータ38は、p(z)(1×Zmatrix)及びp(v|z)(Z×Vmatrix)である。zは、教師あり事後確率付与部18と同様に、トピックを表す確率変数である。p(z)は確率変数zに対する事前確率であり、p(v|z)は確率変数zの下での多項分布による確率である。ndvは文書データd中に単語vが出現した回数である。
1stite. p(z|d)=1.0×p_p(z|d)+0.0×p_u(z|d)
2ndite. p(z|d)=0.5×p_p(z|d)+0.5×p_u(z|d)
3rdite. p(z|d)=0.0×p_p(z|d)+1.0×p_u(z|d)
となる。なお、1stiteはイテレーション数が1、2nditeはイテレーション数が2、3rditeはイテレーション数が3であることを示す。
12 文書データ分割部
18 教師あり事後確率付与部
20a、20b 教師なし事後確率推定部
22 重み付き事後確率付与部
24 パラメータ更新部
26 収束判定部
28 出力部
Claims (5)
- コンピュータに、
トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与ステップと、
トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定ステップと、
前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与ステップと、
前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定ステップと、
予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新ステップと、
を含む各ステップを実行させるトピックモデル学習方法。 - 前記更新ステップにおいて前記パラメータが収束したと判定されるまで、前記第1教師なし事後確率推定ステップ、前記重み付き事後確率付与ステップ、前記第2教師なし事後確率推定ステップ、及び前記更新ステップを繰り返すと共に、前記重み付き事後確率付与ステップにおける前記重みを、繰り返し回数に応じて、前記第1教師なし事後確率に対して前記教師あり事後確率の重みが小さくなるように定めた請求項1記載のトピックモデル学習方法。
- 前記第1教師なし事後確率推定ステップ及び前記第2教師なし事後確率推定ステップが、EMアルゴリズムにおける期待値推定ステップであり、前記更新ステップが、前記EMアルゴリズムにおける期待値最大化ステップである請求項2記載のトピックモデル学習方法。
- トピックとの対応が既知の手掛かり語を含む複数の教師あり文書データ各々が表すトピックの尤もらしさを示し、かつ前記教師あり文書データ各々に含まれる前記手掛かり語の割合に応じた教師あり事後確率を、前記教師あり文書データ毎に付与する教師あり事後確率付与手段と、
トピックモデルを表すパラメータに基づいて、前記複数の教師あり文書データ各々が表すトピックの尤もらしさを示す第1教師なし事後確率を、前記教師あり文書データ毎に推定する第1教師なし事後確率推定手段と、
前記教師あり事後確率と前記第1教師なし事後確率とを重みを用いて補間して求めた重み付き事後確率を、前記教師あり文書データ毎に付与する重み付き事後確率付与手段と、
前記トピックモデルを表すパラメータに基づいて、前記手掛かり語を含まない複数の教師なし文書データ各々が表すトピックの尤もらしさを示す第2教師なし事後確率を、前記教師なし文書データ毎に推定する第2教師なし事後確率推定手段と、
予め定めたトピック数、前記重み付き事後確率、及び前記第2教師なし事後確率に基づいて、前記トピックモデルを表すパラメータを更新する更新手段と、
を含むトピックモデル学習装置。 - コンピュータに、請求項1〜請求項3のいずれか1項記載のトピックモデル学習方法の各ステップを実行させるためのトピックモデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286870A JP5538354B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286870A JP5538354B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134751A JP2013134751A (ja) | 2013-07-08 |
JP5538354B2 true JP5538354B2 (ja) | 2014-07-02 |
Family
ID=48911365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286870A Active JP5538354B2 (ja) | 2011-12-27 | 2011-12-27 | トピックモデル学習方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5538354B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6070501B2 (ja) | 2013-10-10 | 2017-02-01 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN114564992B (zh) * | 2022-02-28 | 2025-04-22 | 上海图灵医疗科技有限公司 | 一种基于病理数据的病理特征概率分布预测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3868344B2 (ja) * | 2002-07-12 | 2007-01-17 | 日本電信電話株式会社 | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
JP2010238043A (ja) * | 2009-03-31 | 2010-10-21 | Mitsubishi Electric Corp | テキスト解析学習装置 |
-
2011
- 2011-12-27 JP JP2011286870A patent/JP5538354B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013134751A (ja) | 2013-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341424B2 (en) | Method, apparatus and system for estimating causality among observed variables | |
JP5503633B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
Griffin et al. | In search of lost mixing time: adaptive Markov chain Monte Carlo schemes for Bayesian variable selection with very large p | |
CN109740057B (zh) | 一种基于知识萃取的增强神经网络及信息推荐方法 | |
US20110029469A1 (en) | Information processing apparatus, information processing method and program | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
Rohart et al. | Selection of fixed effects in high dimensional linear mixed models using a multicycle ECM algorithm | |
JP7186591B2 (ja) | テキスト分類装置、学習装置、およびプログラム | |
CN112835798B (zh) | 聚类学习方法、测试步骤聚类方法及相关装置 | |
Lang et al. | A systematic method of parameterisation estimation using data assimilation | |
JP6468364B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
Tian et al. | Variable selection in the high-dimensional continuous generalized linear model with current status data | |
Roy et al. | Efficient estimation and prediction for the Bayesian binary spatial model with flexible link functions | |
Dong et al. | A stochastic approximation-Langevinized ensemble Kalman filter algorithm for state space models with unknown parameters | |
JP5538354B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
Jabot | Why preferring parametric forecasting to nonparametric methods? | |
JP6935765B2 (ja) | 動的分布推定装置、方法、及びプログラム | |
WO2024180951A1 (ja) | 演算プログラム、演算方法、および情報処理装置 | |
CN118709746A (zh) | 生成模型优化方法和装置、电子设备及存储介质 | |
WO2020013236A1 (ja) | データ解析装置、方法、及びプログラム | |
Calderhead et al. | Sparse approximate manifolds for differential geometric mcmc | |
CN113947030A (zh) | 基于梯度下降灰色Markov模型的装备器材需求预测方法 | |
JP2016520220A (ja) | 隠れ属性モデル推定装置、方法およびプログラム | |
Tyagi et al. | Speeding up rare event simulations using Kriging models | |
CN114092269A (zh) | 基于改进广义网络向量模型的时序数据预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5538354 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140428 |