JP2015152983A - トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム - Google Patents
トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム Download PDFInfo
- Publication number
- JP2015152983A JP2015152983A JP2014023944A JP2014023944A JP2015152983A JP 2015152983 A JP2015152983 A JP 2015152983A JP 2014023944 A JP2014023944 A JP 2014023944A JP 2014023944 A JP2014023944 A JP 2014023944A JP 2015152983 A JP2015152983 A JP 2015152983A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- matrix
- query
- word
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
「NMF」は、文書と単語の特徴行列「X」を非負制約のもと分解した二つの行列によって文書を表現する。一つ目は行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列「W」で、二つ目は行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列「H」である。「NMF」は、式(1)(2)のとおり行列「X」を「W」と「H」とに分解する。
非特許文献2に記載された手法においては、上記「NMF」を拡張することで時系列テキストデータにおいて盛り上がっているトピックを得る。具体的には式(4)に基づいて「W」と「H」とを計算する。
図1に基づき前記トピックモデリング装置1の構成例を説明する。このトピックモデリング装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース(例えばCPU,RAMなどの主記憶装置,HDDやSSDなどの補助記憶装置など)とソフトウェアリソース(OS,アプリケーションなど)とを備える。このハードウェアリソースとソフトウェアリソースとの協働の結果、前記トピックモデリング装置1は、入力部10と単語特徴量計算部20と文書特徴行列計算部30とクエリ依存行列計算部40とモデル計算部50と出力部60とを備える。
図2に基づき前記トピックモデリング装置1の処理ステップを説明する。ここでは前記トピックモデリング装置1に入力される時系列テキストデータは、文字列と時刻情報とが対応付けられているものとする。
まず、終了条件として「t回目」のイテレーションで得られた「Wt」および「H(t)」と、「t+1」回目のイテレーションで得られた「Wt+1」および「H(t+1)」とにおける変化量が規定値以下であることを設定できる。例えば「t回目」のイテレーションで得られた「Wt」および「H(t)」と、「t+1」回目のイテレーションで得られた「Wt+1」および「H(t+1)」とにおける各要素の二乗誤差の和が規定値以下であることを終了条件に設定できる。
つぎに終了条件として「t」が所定のイテレーションの回数に達したことを設定することができる。このイテレーションの回数は仕様などに応じて設定することができる。
さらに前述の終了条件1,2の双方を満たすことを終了条件に設定することもできる。なお、S250の処理を終了した後には「Wt+1」および「H(t+1)」を出力部60に文書トピック行列Wとトピック単語行列Hとして送る。出力部60は、受け取った文書トピック行列Wとトピック単語行列Hとをトピックモデルのパラメータとして出力する(S260)。出力されたデータはマーケティングなど様々な分野で利用することができる。
前記トピックモデリング装置1の手法(S210〜S260)と、非特許文献2の従来手法との評価実験を説明する。ここではソーシャルメディアにおける時系列テキストデータに両手法を適用した際に、特定の情報と関連して局所的に盛り上がっているトピックを精度よく得られているか否かを評価実験した。
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で変形・応用して実施することができる。例えば本発明は、前記トピックモデリング装置1の各部10,20,30,40,50,60の一部もしくは全部としてコンピュータを機能させるトピックモデリングプログラムに構成することもできる。この場合にはS210,S220、S230,S240,S250,S260やS310,S320,S330,S340の一部あるいは全部をコンピュータに実行させることが可能である。
10…入力部
20…単語特徴量計算部
30…文書特徴行列計算部
40…クエリ依存行列計算部
50…モデル計算部
60…出力部
Claims (7)
- 時系列テキストデータにおける特定の話題に関するトピックをモデリングしてトピックモデルを生成するトピックモデリング装置であって、
入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算部と、
単語特徴量計算部の計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算部と、
入力部により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出するクエリ依存行列計算部と、
文書特徴行列計算部の算出結果とクエリ依存行列計算部の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算部と、
を備えることを特徴とするトピックモデリング装置。 - モデル計算部は、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する
ことを特徴とする請求項1記載のトピックモデリング装置。 - モデル計算部は文書特徴行列を、
行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列と、
行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列と、に分解し、
文書特徴トピック行列Wと文書特徴トピック行列Wとを次の制約式(X=文書特徴行列,W=文書トピック行列,H=トピック単語行列,Hqem=トピック単語行列Hのうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列,Q=クエリ依存行列,Wqem=文書特徴トピック行列Wのうちクエリ依存の盛り上がりを抽出するトピックと対応する部分行列,λtおよびλq=それぞれ時間依存の制約と前記クエリに依存する制約の強さを決めるハイパーパラメータ)の下、
ことを特徴とする請求項1または2のいずれか1項に記載のトピックモデリング装置。 - 時系列テキストデータにおける特定の話題に関するトピックをモデリングしてトピックモデルを生成する装置の実行するトピックモデリング方法であって、
入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算ステップと、
単語特徴量計算ステップで計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算ステップと、
入力部により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出するクエリ依存行列計算ステップと、
文書特徴行列計算ステップの算出結果とクエリ依存行列計算ステップの算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算ステップと、
を有することを特徴とするトピックモデリング方法。 - モデル計算部ステップは、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する
ことを特徴とする請求項4記載のトピックモデリング方法。 - モデル計算ステップは文書特徴行列を、
行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列と、
行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列と、に分解し、
文書特徴トピック行列Wと文書特徴トピック行列Wとを次の制約式(X=文書特徴行列,W=文書トピック行列,H=トピック単語行列,Hqem=トピック単語行列Hのうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列,Q=クエリ依存行列,Wqem=文書特徴トピック行列Wのうちクエリ依存の盛り上がりを抽出するトピックと対応する部分行列,λtおよびλq=それぞれ時間依存の制約と前記クエリに依存する制約の強さを決めるハイパーパラメータ)の下、
ことを特徴とする請求項1または2のいずれか1項に記載のトピックモデリング方法。 - 請求項1〜3のいずれか1項に記載のトピックモデリング装置としてコンピュータを機能させることを特徴とするトピックモデリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014023944A JP6091448B2 (ja) | 2014-02-12 | 2014-02-12 | トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014023944A JP6091448B2 (ja) | 2014-02-12 | 2014-02-12 | トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015152983A true JP2015152983A (ja) | 2015-08-24 |
JP6091448B2 JP6091448B2 (ja) | 2017-03-08 |
Family
ID=53895202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014023944A Active JP6091448B2 (ja) | 2014-02-12 | 2014-02-12 | トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6091448B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019008572A (ja) * | 2017-06-26 | 2019-01-17 | 日本電信電話株式会社 | 類似文書検索装置、類似性計算装置、これらの方法及びプログラム |
JP2020067831A (ja) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
JP7012811B1 (ja) | 2020-12-11 | 2022-01-28 | エヌ・ティ・ティ・コムウェア株式会社 | 検索装置、検索方法、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070050356A1 (en) * | 2005-08-23 | 2007-03-01 | Amadio William J | Query construction for semantic topic indexes derived by non-negative matrix factorization |
US20130151520A1 (en) * | 2011-12-09 | 2013-06-13 | International Business Machines Corporation | Inferring emerging and evolving topics in streaming text |
-
2014
- 2014-02-12 JP JP2014023944A patent/JP6091448B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070050356A1 (en) * | 2005-08-23 | 2007-03-01 | Amadio William J | Query construction for semantic topic indexes derived by non-negative matrix factorization |
US20130151520A1 (en) * | 2011-12-09 | 2013-06-13 | International Business Machines Corporation | Inferring emerging and evolving topics in streaming text |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019008572A (ja) * | 2017-06-26 | 2019-01-17 | 日本電信電話株式会社 | 類似文書検索装置、類似性計算装置、これらの方法及びプログラム |
JP2020067831A (ja) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
JP7324577B2 (ja) | 2018-10-24 | 2023-08-10 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
JP7012811B1 (ja) | 2020-12-11 | 2022-01-28 | エヌ・ティ・ティ・コムウェア株式会社 | 検索装置、検索方法、およびプログラム |
JP2022092849A (ja) * | 2020-12-11 | 2022-06-23 | エヌ・ティ・ティ・コムウェア株式会社 | 検索装置、検索方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6091448B2 (ja) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570008B (zh) | 推荐方法及装置 | |
CN109960810B (zh) | 一种实体对齐方法及装置 | |
Gómez et al. | Modeling the structure and evolution of discussion cascades | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
KR20160075739A (ko) | 소셜 데이터 네트워크에 있어서의 인플루언서들을 결정하기 위한 시스템 및 방법 | |
KR20160057475A (ko) | 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
Liang | Collaborative, dynamic and diversified user profiling | |
JP2017142796A (ja) | 情報の特定及び抽出 | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
JP7375861B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
Layton | Learning data mining with python | |
CN105389329A (zh) | 一种基于群体评论的开源软件推荐方法 | |
Campos et al. | Towards a more realistic evaluation: testing the ability to predict future tastes of matrix factorization-based recommenders | |
Xu et al. | Bayesian analysis of masked data in step-stress accelerated life testing | |
JP6091448B2 (ja) | トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
Derczynski et al. | Time and information retrieval: Introduction to the special issue | |
Peng et al. | Trending sentiment-topic detection on twitter | |
Drechsler et al. | 30 years of synthetic data | |
US10838880B2 (en) | Information processing apparatus, information processing method, and recording medium that provide information for promoting discussion | |
JP5292336B2 (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
JP2015210741A (ja) | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム | |
Hu et al. | Advancing microdata privacy protection: A review of synthetic data methods | |
Ceolin et al. | Semi-automated assessment of annotation trustworthiness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6091448 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |