JP6204261B2 - トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム - Google Patents
トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム Download PDFInfo
- Publication number
- JP6204261B2 JP6204261B2 JP2014093253A JP2014093253A JP6204261B2 JP 6204261 B2 JP6204261 B2 JP 6204261B2 JP 2014093253 A JP2014093253 A JP 2014093253A JP 2014093253 A JP2014093253 A JP 2014093253A JP 6204261 B2 JP6204261 B2 JP 6204261B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- matrix
- position information
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
NMFは文書と単語の特徴行列Xを非負制約のもと分解した二つの行列によって文書を表現する。一方の行列は、行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列Wである。もう一方の行列は、行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列Hである。NMFでは次式のとおり特徴行列Xを文書トピック行列Wとトピック単語行列Hとに分解する。
非特許文献2の手法では、上記NMFを拡張することによって時系列テキストデータにおいて盛り上がっているトピックを得る。具体的には次式にもとづいてWとHを計算する。
図1に示された本実施形態のトピックモデリング装置1は、従来の時間的な盛り上がりを抽出するNMFにおいて、地理的な盛り上がりを抽出する制約を付与することにより、トピックの地理的かつ時間的な盛り上がりを考慮したトピックモデルを生成する。
トピックモデリング装置1は、図1に示されたように、入力部10、単語特徴量計算部20、文書特徴行列計算部30、位置情報抽出部40、位置情報依存行列計算部50、モデル計算部60、出力部70を備える。
以下、図1〜7を参照しながらトピックモデリングの過程について説明する。
t回目のイテレーションで得られた文書トピック行列W(t)及びトピック単語行列H(t)とt+1回目のイテレーションで得られた文書トピック行列W(t+1)及びトピック単語行列H(t+1)における変化量が規定値以下であることを終了条件とする。例えば、t回目のイテレーションで得られた文書トピック行列W(t)及びトピック単語行列H(t)とt+1回目のイテレーションで得られた文書トピック行列W(t+1)及びトピック単語行列H(t+1)における各要素の二乗誤差の和が規定値以下であることを終了条件とする。
tが所定のイテレーション回数に達したことを終了条件とする。
終了条件の例1,2の両方を満たすことを終了条件とする。
以上説明したように、本実施形態のトピックモデリング装置1によれば、位置情報抽出部40によって、時系列テキストから位置情報が抽出される。また、位置情報依存行列計算部50によって、前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列Gが算出される。そして、モデル計算部60によって、位置情報依存行列Gと前記時系列テキストの文書特徴行列Xとに基づき、位置情報と時間情報とに依存したトピックモデルとして、テキストとトピックとの関係度合を示す文書トピック行列Wと、トピックと単語との関係度合を示すトピック単語行列Hとが算出される。以上のように、位置情報及び時間情報に依存したトピックモデルが生成されるので、地理的かつ時間的に盛り上がっているトピックを抽出できる。
本発明は、トピックモデリング装置1を構成する上記の機能部10〜70の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置1が実行する上記の過程S1〜S7,S401〜S405,S501〜S504,S601〜S604の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
20…単語特徴量計算部
30…文書特徴行列計算部
40…位置情報抽出部
50…位置情報依存行列計算部
60…モデル計算部
Claims (6)
- 位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置であって、
時系列テキストから位置情報を抽出する位置情報抽出手段と、
前記抽出された位置情報に基づき各時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する位置情報依存行列計算手段と、
前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するモデル計算手段と
を備えたことを特徴とするトピックモデリング装置。 - 前記モデル計算手段は、前記文書トピック行列並びにトピック単語行列の計算が所定回数に達した時の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定すること
を特徴とする請求項1に記載のトピックモデリング装置。 - 前記位置情報抽出手段は、前記時系列テキストに位置情報が含まれていない場合、当該テキストに含まれる地域名称に基づき位置情報を抽出すること
を特徴とする請求項1または2に記載のトピックモデリング装置。 - 前記位置情報依存行列計算手段は、各時系列テキストの位置情報間の距離に基づき前記類似度を算出すること
を特徴とする請求項1から3のいずれか1項に記載のトピックモデリング装置。 - 位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置が実行するトピックモデリング方法であって、
時系列テキストから位置情報を抽出するステップと、
前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算するステップと、
前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するステップと
を有することを特徴とするトピックモデリング方法。 - コンピュータを請求項1から4のいずれか1項に記載のトピックモデリング装置を構成する各手段として機能させることを特徴とするトピックモデリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014093253A JP6204261B2 (ja) | 2014-04-30 | 2014-04-30 | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014093253A JP6204261B2 (ja) | 2014-04-30 | 2014-04-30 | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015210741A JP2015210741A (ja) | 2015-11-24 |
JP6204261B2 true JP6204261B2 (ja) | 2017-09-27 |
Family
ID=54612852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014093253A Active JP6204261B2 (ja) | 2014-04-30 | 2014-04-30 | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6204261B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284286B (zh) * | 2018-09-12 | 2021-04-06 | 贵州省赤水市气象局 | 一种从原始数据集中提取有效特征的方法 |
CN112527964B (zh) * | 2020-12-18 | 2022-07-01 | 重庆邮电大学 | 基于多模态流形学习和社交网络特征的微博摘要生成方法 |
CN112836489B (zh) * | 2021-01-25 | 2024-03-22 | 浙江工业大学 | 一种基于互联网服务单词语义权重的文本主题挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5342574B2 (ja) * | 2011-02-08 | 2013-11-13 | 日本電信電話株式会社 | トピックモデリング装置、トピックモデリング方法、及びプログラム |
-
2014
- 2014-04-30 JP JP2014093253A patent/JP6204261B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015210741A (ja) | 2015-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | You are where you tweet: a content-based approach to geo-locating twitter users | |
CN106973244B (zh) | 使用弱监督数据自动生成图像字幕的方法和系统 | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
Kalyanam et al. | Leveraging social context for modeling topic evolution | |
US20130204835A1 (en) | Method of extracting named entity | |
JP2015230570A (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
Marinoni et al. | Unsupervised data driven feature extraction by means of mutual information maximization | |
Igoshev et al. | Distance and luminosity probability distributions derived from parallax and flux with their measurement errors-With application to the millisecond pulsar PSR J0218+ 4232 | |
JP2018156473A (ja) | 解析装置、解析方法、およびプログラム | |
JP6204261B2 (ja) | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム | |
Lu et al. | Discovering transition phenomena from data of stochastic dynamical systems with Lévy noise | |
JP5730741B2 (ja) | 話題推薦装置及び方法及びプログラム | |
Koduvely | Learning Bayesian Models with R | |
Doğru et al. | Parameter estimation for mixtures of skew Laplace normal distributions and application in mixture regression modeling | |
Hamiye Beyaztas et al. | Robust estimation for linear panel data models | |
Hariri-Ardebili et al. | Taguchi design-based seismic reliability analysis of geostructures | |
Rogerson | Maximum G etis–O rd Statistic Adjusted for Spatially Autocorrelated Data | |
Chantrasmi et al. | Forward and backward uncertainty propagation for discontinuous system response using the Pade-Legendre method | |
Garg et al. | Hierarchical Latin hypercube sampling | |
Marden et al. | Implementation of instrumental variable bounds for data missing not at random | |
WO2020179378A1 (ja) | 情報処理システム、情報処理方法および記録媒体 | |
Sethi et al. | Statistical arrival models to estimate missed passage counts at fish weirs | |
Mannseth et al. | On the application of improved symplectic integrators in Hamiltonian Monte Carlo | |
JP2022185799A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
US10652104B1 (en) | System for inferring network dynamics and sources within the network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6204261 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |