JP2015152983A - トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム - Google Patents

トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム Download PDF

Info

Publication number
JP2015152983A
JP2015152983A JP2014023944A JP2014023944A JP2015152983A JP 2015152983 A JP2015152983 A JP 2015152983A JP 2014023944 A JP2014023944 A JP 2014023944A JP 2014023944 A JP2014023944 A JP 2014023944A JP 2015152983 A JP2015152983 A JP 2015152983A
Authority
JP
Japan
Prior art keywords
topic
matrix
query
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014023944A
Other languages
English (en)
Other versions
JP6091448B2 (ja
Inventor
結城 遠藤
Yuki Endo
結城 遠藤
浩之 戸田
Hiroyuki Toda
浩之 戸田
鷲崎 誠司
Seiji Washisaki
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014023944A priority Critical patent/JP6091448B2/ja
Publication of JP2015152983A publication Critical patent/JP2015152983A/ja
Application granted granted Critical
Publication of JP6091448B2 publication Critical patent/JP6091448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定の情報と関連して時間的に盛り上がっているトピックが得られるトピックモデルを生成する。【解決手段】トピックモデリング装置1の単語特徴量計算部20は、入力部10により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する。文書特徴行列計算部30は、単語特徴量計算部20の計算した各単語の単語特徴量に基づき文書特徴行列を算出する。クエリ依存行列計算部40は、入力部10により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出する。モデル計算部50は、文書特徴行列計算部30の算出結果とクエリ依存行列計算部40の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出する。算出結果は出力部60により出力される。【選択図】図1

Description

本発明は、時系列テキストデータにおけるトピックのモデリング技術に関する。
現在、マイクロブログなどの普及に伴いリアルタイム性の高い時系列テキストデータからトピックを抽出し、世の中の話題を捉えることのできるトピックモデルの作成が特にマーケティングなどの分野で重要となってきている。ここでトピックとは、特定の話題に関する情報を意味する。トピックモデルは、トピックとテキストデータを含む単語などの文字列との関係を記述するモデル(関数,数式)を表す。
時系列テキストデータにおいてトピックを捉えるトピックモデリングの先行技術としては、「LDA(Latent Semantic Analysis)」を拡張した非特許文献1や、「NMF(Non−Negative Matrix Factorization)」を拡張した非特許文献2が公知となっている。
「NMF」では、文書と単語の特徴行列を非負制約のもと行列分解し次元圧縮を行うことで、モデルを得てトピックを推定する。非特許文献2では、時間的なトピックの変化量を考慮した制約を「NMF」に与え、盛り上がっているトピックを推定する。以下に「NMF」と非特許文献2における手法の概要について述べる。
≪NMFについて≫
「NMF」は、文書と単語の特徴行列「X」を非負制約のもと分解した二つの行列によって文書を表現する。一つ目は行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列「W」で、二つ目は行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列「H」である。「NMF」は、式(1)(2)のとおり行列「X」を「W」と「H」とに分解する。
Figure 2015152983
Figure 2015152983
ここで「i」および「j」は、行列のインデックスを表す。上記のように「X」を分解するため、例えば式(3)のように二乗誤差に基づき「W」と「H」とを計算する。なお、式(3)中の「||・||F」はフロベニウスノルムを示している。
Figure 2015152983
≪非特許文献2の手法について≫
非特許文献2に記載された手法においては、上記「NMF」を拡張することで時系列テキストデータにおいて盛り上がっているトピックを得る。具体的には式(4)に基づいて「W」と「H」とを計算する。
Figure 2015152983
ここで「wi」は「W」の「i」番目の列ベクトルを示し、「S」はトピック「i」について同じ時間帯の「wi」の和を計算する行列を示し、「Wem」は「W」のうち盛り上がりを抽出するトピックと対応する部分行列を示し、「μ」はハイパーパラメータを示し、「L(・)」は各時刻におけるトピックの変動が小さい場合に大きなペナルティを与える関数を示している。このペナルティにより時間的に盛り上がっているトピックを抽出することができる。
Diao, Q., Jiang, J., Zhu, F., Lim, E.-P.: Finding bursty topics from microblogs, In Proc. of ACL'12, pp.536-444, 2012. Saha, A. and Sindhwani, V.: Learning evolving and emerging topics in social media: a dynamic nmf approach with temporal regularization, In Proc. of WSDM'12, pp.692-702, 2012.
しかしながら、非特許文献2のトピックモデルでは、データセットにおいて大域的に最も盛り上がっているトピックが得られるため、特定の情報と関連し局所的に盛り上がっているトピックを得られない問題が生じるおそれがあった。
例えばソーシャルメディアのデータセットにおいて、政治に関するトピックの盛り上がりが支配的である場合に消費者やマーケターがテレビの放送内容や特定の商品と関係して盛り上がっているトピックを知りたくとも、これらの手法では政治に関するものを抽出してしまう。
本発明は、上記従来技術の問題点を解決するためになされ、特定の情報と関連して時間的に盛り上がっているトピックが取得可能なトピックモデルを生成する技術の提供を解決課題としている。
そこで、本発明は前記課題を解決するためにキーワード群を入力としてユーザ指定のクエリとなるキーワードに依存したクエリ依存行列を計算する。これを用いることにより前記クエリとなるキーワードと関連性の高いトピックモデルの盛り上がりを抽出する制約を加えてトピックモデルを生成する。
本発明のトピックモデリング装置は、入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算部と、単語特徴量計算部の計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算部と、入力部により入力されたキーワード群の総単語数とトピック数とで表される行列をユーザ指定のクエリに応じたキーワードに依存させたクエリ依存行列を算出するクエリ依存行列計算部と、文書特徴行列計算部の算出結果とクエリ依存行列計算部の算出結果とを用いて前記クエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算部と、を備える。
本発明のトピックモデリング方法は、入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算ステップと、単語特徴量計算ステップで計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算ステップと、入力部により入力されたキーワード群の総単語数とトピック数とで表される行列をユーザ指定のクエリに応じたキーワードに依存させたクエリ依存行列を算出するクエリ依存行列計算ステップと、文書特徴行列計算ステップの算出結果とクエリ依存行列計算ステップの算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算ステップと、を有する。
なお、本発明は、前記トピックモデリング装置としてコンピュータを機能させるトピックモデリングプログラムとして構成することもできる。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
本発明によれば、特定の情報と関連して時間的に盛り上がっているトピックが取得可能なトピックモデルを生成することができる。
本発明の実施形態に係るトピックモデリング装置の構成図。 同 トピックモデリングの処理ステップを示すチャート図。 文書特徴行列の一例を示す図。 クエリ依存行列の一例を示す図。 トッピングモデリングの概観図。 モデル計算の処理ステップを示すチャート図。
以下、本発明の実施形態に係るトピックモデリング装置を説明する。このトピックモデリング装置は従来技術のNMFに対してキーワード群を与え、与えられたキーワード群に特化したトピックモデルを生成する。
≪装置構成例≫
図1に基づき前記トピックモデリング装置1の構成例を説明する。このトピックモデリング装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース(例えばCPU,RAMなどの主記憶装置,HDDやSSDなどの補助記憶装置など)とソフトウェアリソース(OS,アプリケーションなど)とを備える。このハードウェアリソースとソフトウェアリソースとの協働の結果、前記トピックモデリング装置1は、入力部10と単語特徴量計算部20と文書特徴行列計算部30とクエリ依存行列計算部40とモデル計算部50と出力部60とを備える。
この入力部10は前記トピックモデリング装置1に情報を入力するための手段であり、例えばキーボード,マウス,ディスクドライブ装置(光学ドライブ装置、磁気ディスクドライブ装置など)により構成されている。ここでは前記トピックモデリング装置1は、入力部10を通じてクエリとなるキーワード群および時系列テキストデータを受け取る。
単語特徴量計算部20は、入力手段から受け取った時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する。文書特徴行列計算部30は、単語特徴量計算部20の計算した各単語の単語特徴量に基づき文書特徴行列を算出する。クエリ依存行列計算部40は、入力部10により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワード(単語)に依存したクエリ依存行列を算出する。
モデル計算部50は、文書特徴行列計算部30の算出結果とクエリ依存行列計算部40の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部60に出力させる。こではモデル計算部50は、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する。このトピックモデルは出力部60により出力される。例えば図示省略のモニタなどに出力される。なお、生成されたトピックモデルは補助記憶装置に保存することもできる。
≪処理内容≫
図2に基づき前記トピックモデリング装置1の処理ステップを説明する。ここでは前記トピックモデリング装置1に入力される時系列テキストデータは、文字列と時刻情報とが対応付けられているものとする。
S210:前記トピックモデリング装置1が、入力部10により時系列テキストデータおよびキーワード群を受け取る。ここで受け取った時系列テキストデータは単語特徴量計算部20に送られる一方、キーワード群はクエリ依存行列計算部40に送られる。
S220:単語特徴量計算部20は、受け取った時系列テキストデータにおける各テキストの文字列の単語特徴量を計算する。ここでは単語特徴量計算部20は、各テキストの文字列を形態素解析器によって名詞・動詞・形容詞などの単語単位に分解した後、出現する単語情報に基づきテキストの文書diにおける単語wの特徴度(特徴量と同義)、即ち式(5)で表される特徴度を算出する。具体的な算出方法としては、式(6)によって求められるTF−IDFなどのが挙げられる。
Figure 2015152983
Figure 2015152983
式(6)中、「TF(di,w)」は文書diにおける単語wの出現回数を示し、「DF(w)」は時系列テキストデータのデータセットにおいて単語wが出現する文書数を示し、「N」はデータセットにおける文書の総数を示している。なお、計算結果の単語特徴度は文書特徴行列計算部30に送られる。
S230:文書特徴行列計算部30が、S220で単語特徴量計算部20の計算した文書diにおける単語wの特徴度、即ち式(5)の特徴度を用いて文書特徴行列を計算する。このとき文書diにおける各々の単語の特徴を表す特徴ベクトルを式(7)で示すと文書特徴行列Xは式(8)のように定義される。
Figure 2015152983
Figure 2015152983
図3に基づき文書特徴行列の一例を説明する。ここでは文書1の「サッカー,政治,携帯」の特徴量は「2,0,0」とすれば、文書1に対応する行とそれぞれの単語に対応する列に該当する要素が「2,0,0」とされる。計算された文書特徴行列はモデル計算部50に送られる。
S240:クエリ依存計算部40が、入力部10から受け取ったキーワード群を用いてクエリ依存行列を計算する。ここではユーザは盛り上がり検索のために入力部10によりクエリを指定するものとする。また、前記トピックモデリング装置1には事前にユーザの入力部10による入力などにより複数のトピックが入力され、前記記憶装置に記憶されているものとする。このトピックをクエリ依存の盛り上がりトピックと呼ぶ。
具体的にはクエリ依存行列Qは、クエリ依存の盛り上がりトピック数を「kqem」,キーワード群の総単語数を「n」とすると「kqem×総単語数n」の行列として表される。ここではキーワード群中にユーザ指定の前記クエリに対応するキーワード(以下、クエリとなるキーワードとする。)があれば、クエリ依存行列Qは該キーワード(単語)の列におけるすべての要素に定数「q」を代入し、それ以外の要素に「0」を代入する。
図4に基づきクエリ依存行列の一例を説明する。ここではクエリとなるキーワードが単語「サッカー」の例を示し、単語「サッカー」の列に定数「q」が代入され、その他の列に「0」が代入されている。計算されたクエリ依存行列はモデル計算部50に送られる。
S250:モデル計算部50が受け取った文書特徴行列およびクエリ依存行列を用いてトピックモデルを計算する(S250)。このときモデル計算部50は、トピックモデルの計算にあたって、前記クエリと関係の近いクエリ依存の盛り上がりトピックを得るために式(9)が小さくなるように「H(トピック単語行列)」に制約を与える。
Figure 2015152983
式(9)中、「Hqem」は「H(トピック単語行列)」のうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列を示している。この式(9)による制約は「Hqem」の各要素が「Q(クエリ依存行列)」よりも大きくなるように制約を与える。これにより前記クエリの単語や共起性の近い単語を特定のトピック中に表れやすくできる。
具体的にはモデル計算部50は、前記「NMF」の制約,盛り上がりの制約,前記クエリに依存する制約(クエリ依存の制約)のすべてを考慮して式(10)に基づき「W(文書トピック行列)」と「H(トピック単語行列)」とを計算する。
Figure 2015152983
式(10)中、「Wqem」は「W」のうち前記クエリ依存の盛り上がりを抽出するトピックと対応する部分行列を示し、「λt」および「λq」はそれぞれ時間依存の制約とクエリ依存の制約の強さを決めるハイパーパラメータを示している。図5に基づきモデル計算部50で計算するトピックモデルの概要を説明すれば、文書特徴行列Xは文書トピック行列Wとトピック単語行列Hとに分解され、文書トピック行列Wはトピック依存に関する「Wqem」を含む一方、トピック単語行列Hはクエリ依存に関する「Hqem」を含んでいる。
図6に基づきモデル計算部50の具体的な処理を説明する。ここでは文書トピック行Wとトピック単語行列Hとを交互に最適化する方法により両者W,Hを取得する処理例を説明する。
S310,S320:まず、処理が開始されると「t=0」として文書トピック行列Wとトピック単語行列Hとを初期化し、それぞれの初期値「W(0)」および「H(0)」を定める(S310)。この初期値の値は任意の値でよく、例えば「0」から「1」までのランダムな値で初期化する。つぎに「H(t)」を用いて式(10)に基づき「Wt+1」を計算する(S320)。計算の方法は最急降下法やニュートン法などの公知の技術を用いることができる。
S330,S340:S320で計算した「Wt+1」を用いて「H(t+1)」を式(10)に基づき計算する(S330)。この計算の方法にも最急降下法やニュートン法などの公知の技術を用いることができる。
この算出後に終了条件を満たしたか否か判定する(S340)。判定の結果、終了条件を満たしていないと判定されれば、「t+1」を新たな「t」としてS320〜S340の処理を終了条件が満たされるまで繰り返す。一方、終了条件を満たしていると判定されれば、S250の処理を終了する。以下に終了条件を例示する。
(1)終了条件例1
まず、終了条件として「t回目」のイテレーションで得られた「Wt」および「H(t)」と、「t+1」回目のイテレーションで得られた「Wt+1」および「H(t+1)」とにおける変化量が規定値以下であることを設定できる。例えば「t回目」のイテレーションで得られた「Wt」および「H(t)」と、「t+1」回目のイテレーションで得られた「Wt+1」および「H(t+1)」とにおける各要素の二乗誤差の和が規定値以下であることを終了条件に設定できる。
(2)終了条件例2
つぎに終了条件として「t」が所定のイテレーションの回数に達したことを設定することができる。このイテレーションの回数は仕様などに応じて設定することができる。
(3)終了条件例3
さらに前述の終了条件1,2の双方を満たすことを終了条件に設定することもできる。なお、S250の処理を終了した後には「Wt+1」および「H(t+1)」を出力部60に文書トピック行列Wとトピック単語行列Hとして送る。出力部60は、受け取った文書トピック行列Wとトピック単語行列Hとをトピックモデルのパラメータとして出力する(S260)。出力されたデータはマーケティングなど様々な分野で利用することができる。
≪実験≫
前記トピックモデリング装置1の手法(S210〜S260)と、非特許文献2の従来手法との評価実験を説明する。ここではソーシャルメディアにおける時系列テキストデータに両手法を適用した際に、特定の情報と関連して局所的に盛り上がっているトピックを精度よく得られているか否かを評価実験した。
特定の情報としてはオリンピックを想定し、オリンピックに関連して盛り上がっているトピック(例えば体操や柔道)の抽出精度を評価する。データセットはロンドンオリンピック開催期間である「2012/7/30 7:58〜22:58」における「Twitter」社のツイートデータを用いた。
今回のデータセットについては、予めオリンピックの特定の種目として「体操」に関する各ツイートにラベルを付与し、「体操」と関係しない各ツイートに「その他」のラベルを付与した。トピックモデルを適用した際に、「体操」に関して盛り上がっているトピックを抽出できているか否かを評価した。
この際、前記トピックモデリング装置1の手法においては、クエリを「オリンピック」とした。また、データセットの内約は「体操」に関連するデータが「6581ツイート」、非関連データが「87486ツイート」の「計94067ツイート」である。さらに評価指標としては非特許文献2に記載された評価指標、即ち真のトピックと推定されたトピックとの誤差を測る「Jensen-Shannon Divergence(JSD)」を用いた。
表1は、「体操」のラベルが付与された文書が急増し盛り上がった8か所の時刻において、両手法によって推定した体操トピックと真の体操トピックとの「JSD」を計算し、各時刻におけるJSDの平均を示している。
Figure 2015152983
表1の評価結果によれば、従来手法を用いた場合のベースラインの「JSD」が「0.351」であったのに対して、前記トピックモデリング装置1の手法はベースラインに比べて「0.058」ポイントの精度向上が達成された。すなわち、前記トピックモデリング装置1の手法によれば、クエリとなる特定のキーワードとトピックとの関連性や時間的な盛り上がりを考慮したトピックモデルが生成できるため、特定の情報と関連して盛り上がっているトピックの抽出精度を向上させることができる。
≪その他≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で変形・応用して実施することができる。例えば本発明は、前記トピックモデリング装置1の各部10,20,30,40,50,60の一部もしくは全部としてコンピュータを機能させるトピックモデリングプログラムに構成することもできる。この場合にはS210,S220、S230,S240,S250,S260やS310,S320,S330,S340の一部あるいは全部をコンピュータに実行させることが可能である。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…トピックモデリング装置
10…入力部
20…単語特徴量計算部
30…文書特徴行列計算部
40…クエリ依存行列計算部
50…モデル計算部
60…出力部

Claims (7)

  1. 時系列テキストデータにおける特定の話題に関するトピックをモデリングしてトピックモデルを生成するトピックモデリング装置であって、
    入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算部と、
    単語特徴量計算部の計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算部と、
    入力部により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出するクエリ依存行列計算部と、
    文書特徴行列計算部の算出結果とクエリ依存行列計算部の算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算部と、
    を備えることを特徴とするトピックモデリング装置。
  2. モデル計算部は、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する
    ことを特徴とする請求項1記載のトピックモデリング装置。
  3. モデル計算部は文書特徴行列を、
    行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列と、
    行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列と、に分解し、
    文書特徴トピック行列Wと文書特徴トピック行列Wとを次の制約式(X=文書特徴行列,W=文書トピック行列,H=トピック単語行列,Hqem=トピック単語行列Hのうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列,Q=クエリ依存行列,Wqem=文書特徴トピック行列Wのうちクエリ依存の盛り上がりを抽出するトピックと対応する部分行列,λtおよびλq=それぞれ時間依存の制約と前記クエリに依存する制約の強さを決めるハイパーパラメータ)の下、
    Figure 2015152983
    事前設定の終了条件を満たすまで繰り返して収束させてトピックモデルとして出力部に送る
    ことを特徴とする請求項1または2のいずれか1項に記載のトピックモデリング装置。
  4. 時系列テキストデータにおける特定の話題に関するトピックをモデリングしてトピックモデルを生成する装置の実行するトピックモデリング方法であって、
    入力部により入力された時系列テキストデータにおける文書の文字列の単語について単語特徴量を算出する単語特徴量計算ステップと、
    単語特徴量計算ステップで計算した各単語の単語特徴量に基づき文書特徴行列を算出する文書特徴行列計算ステップと、
    入力部により入力されたキーワード群とトピック数とに基づきユーザ指定のクエリとなり得るキーワードに依存したクエリ依存行列を算出するクエリ依存行列計算ステップと、
    文書特徴行列計算ステップの算出結果とクエリ依存行列計算ステップの算出結果とを用いてクエリとトピックの時間的盛り上がりを加味したトピックモデルを算出して出力部に出力させるモデル計算ステップと、
    を有することを特徴とするトピックモデリング方法。
  5. モデル計算部ステップは、前記クエリとなる特定のキーワードと前記トピックとの関連性および時間的盛り上がりを加味したトピックモデルを算出する
    ことを特徴とする請求項4記載のトピックモデリング方法。
  6. モデル計算ステップは文書特徴行列を、
    行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列と、
    行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列と、に分解し、
    文書特徴トピック行列Wと文書特徴トピック行列Wとを次の制約式(X=文書特徴行列,W=文書トピック行列,H=トピック単語行列,Hqem=トピック単語行列Hのうち行成分がクエリ依存の盛り上がりトピックと対応する部分行列,Q=クエリ依存行列,Wqem=文書特徴トピック行列Wのうちクエリ依存の盛り上がりを抽出するトピックと対応する部分行列,λtおよびλq=それぞれ時間依存の制約と前記クエリに依存する制約の強さを決めるハイパーパラメータ)の下、
    Figure 2015152983
    事前設定の終了条件を満たすまで繰り返して収束させてトピックモデルとして出力部に送る
    ことを特徴とする請求項1または2のいずれか1項に記載のトピックモデリング方法。
  7. 請求項1〜3のいずれか1項に記載のトピックモデリング装置としてコンピュータを機能させることを特徴とするトピックモデリングプログラム。
JP2014023944A 2014-02-12 2014-02-12 トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム Active JP6091448B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014023944A JP6091448B2 (ja) 2014-02-12 2014-02-12 トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014023944A JP6091448B2 (ja) 2014-02-12 2014-02-12 トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム

Publications (2)

Publication Number Publication Date
JP2015152983A true JP2015152983A (ja) 2015-08-24
JP6091448B2 JP6091448B2 (ja) 2017-03-08

Family

ID=53895202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014023944A Active JP6091448B2 (ja) 2014-02-12 2014-02-12 トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム

Country Status (1)

Country Link
JP (1) JP6091448B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008572A (ja) * 2017-06-26 2019-01-17 日本電信電話株式会社 類似文書検索装置、類似性計算装置、これらの方法及びプログラム
JP2020067831A (ja) * 2018-10-24 2020-04-30 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP7012811B1 (ja) 2020-12-11 2022-01-28 エヌ・ティ・ティ・コムウェア株式会社 検索装置、検索方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050356A1 (en) * 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
US20130151520A1 (en) * 2011-12-09 2013-06-13 International Business Machines Corporation Inferring emerging and evolving topics in streaming text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050356A1 (en) * 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
US20130151520A1 (en) * 2011-12-09 2013-06-13 International Business Machines Corporation Inferring emerging and evolving topics in streaming text

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008572A (ja) * 2017-06-26 2019-01-17 日本電信電話株式会社 類似文書検索装置、類似性計算装置、これらの方法及びプログラム
JP2020067831A (ja) * 2018-10-24 2020-04-30 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP7324577B2 (ja) 2018-10-24 2023-08-10 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP7012811B1 (ja) 2020-12-11 2022-01-28 エヌ・ティ・ティ・コムウェア株式会社 検索装置、検索方法、およびプログラム
JP2022092849A (ja) * 2020-12-11 2022-06-23 エヌ・ティ・ティ・コムウェア株式会社 検索装置、検索方法、およびプログラム

Also Published As

Publication number Publication date
JP6091448B2 (ja) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106570008B (zh) 推荐方法及装置
CN109960810B (zh) 一种实体对齐方法及装置
Gómez et al. Modeling the structure and evolution of discussion cascades
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
KR20160075739A (ko) 소셜 데이터 네트워크에 있어서의 인플루언서들을 결정하기 위한 시스템 및 방법
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
Liang Collaborative, dynamic and diversified user profiling
JP2017142796A (ja) 情報の特定及び抽出
CN108241613A (zh) 一种提取关键词的方法及设备
JP7375861B2 (ja) 関連スコア算出システム、方法およびプログラム
Layton Learning data mining with python
CN105389329A (zh) 一种基于群体评论的开源软件推荐方法
Campos et al. Towards a more realistic evaluation: testing the ability to predict future tastes of matrix factorization-based recommenders
Xu et al. Bayesian analysis of masked data in step-stress accelerated life testing
JP6091448B2 (ja) トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
Derczynski et al. Time and information retrieval: Introduction to the special issue
Peng et al. Trending sentiment-topic detection on twitter
Drechsler et al. 30 years of synthetic data
US10838880B2 (en) Information processing apparatus, information processing method, and recording medium that provide information for promoting discussion
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP2015210741A (ja) トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム
Hu et al. Advancing microdata privacy protection: A review of synthetic data methods
Ceolin et al. Semi-automated assessment of annotation trustworthiness

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170207

R150 Certificate of patent or registration of utility model

Ref document number: 6091448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150