JP6204261B2 - Topic modeling apparatus, topic modeling method, and topic modeling program - Google Patents
Topic modeling apparatus, topic modeling method, and topic modeling program Download PDFInfo
- Publication number
- JP6204261B2 JP6204261B2 JP2014093253A JP2014093253A JP6204261B2 JP 6204261 B2 JP6204261 B2 JP 6204261B2 JP 2014093253 A JP2014093253 A JP 2014093253A JP 2014093253 A JP2014093253 A JP 2014093253A JP 6204261 B2 JP6204261 B2 JP 6204261B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- matrix
- position information
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は時系列テキストデータにおけるトピックのモデリング技術に関する。 The present invention relates to a topic modeling technique in time-series text data.
マイクロブログなどの普及に伴い、リアルタイム性の高い時系列テキストデータからトピックを抽出し、世の中の話題を捉えることができるトピックモデルの作成が、特にマーケティングなどの分野で重要となってきている。ここでトピックとは、特定の話題に関する情報を意味する。トピックモデルはトピックとテキストデータが含む単語などの文字列との関係を記述するモデル(関数、数式)を表す。 With the spread of microblogging and the like, it has become important to create a topic model that can extract topics from time-series text data with high real-time properties and capture the topic of the world, especially in the field of marketing. Here, the topic means information on a specific topic. The topic model represents a model (function, formula) describing the relationship between a topic and a character string such as a word included in text data.
時系列テキストデータにおいてトピックを捉えるトピックモデリングの先行技術としては、LDA(Latent Semantic Analysis)を拡張したもの(非特許文献1)や、NMF(Non−Negative Matrix Factorization)を拡張したもの(非特許文献2)が提案されている。NMFでは、文書と単語の特徴行列を非負制約のもと行列分解し次元圧縮を行うことによってモデルを得てトピックを推定する。非特許文献2では、時間的なトピックの変化量を考慮した制約をNMFに与え、盛り上がっているトピックを推定する。以下にNMFと非特許文献2における手法の概要について述べる。
Prior art of topic modeling that captures topics in time-series text data includes an extension of LDA (Lentative Analysis) (Non-Patent Document 1) and an extension of NMF (Non-Negative Matrix Factorization) (Non-Patent Documents). 2) has been proposed. In NMF, a feature matrix of a document and a word is subjected to matrix decomposition under non-negative constraints and dimension compression is performed to obtain a model and estimate a topic. In
<NMF>
NMFは文書と単語の特徴行列Xを非負制約のもと分解した二つの行列によって文書を表現する。一方の行列は、行に対応する文書における列に対応するトピックの関係度合を表す文書トピック行列Wである。もう一方の行列は、行に対応するトピックにおける列に対応する単語の関係度合を表すトピック単語行列Hである。NMFでは次式のとおり特徴行列Xを文書トピック行列Wとトピック単語行列Hとに分解する。
<NMF>
NMF expresses a document by two matrices obtained by decomposing a document and word feature matrix X under non-negative constraints. One matrix is a document topic matrix W representing the degree of relationship between topics corresponding to columns in a document corresponding to a row. The other matrix is a topic word matrix H representing the degree of relationship of words corresponding to columns in the topic corresponding to the row. In NMF, the feature matrix X is decomposed into a document topic matrix W and a topic word matrix H as shown in the following equation.
上記の式において、i及びjは行列のインデックスを表す。上記のように行列Xを分解するため例えば以下の式ように二乗誤差に基づいて行列Wと行列Hを計算する。 In the above equation, i and j represent matrix indices. In order to decompose the matrix X as described above, for example, the matrix W and the matrix H are calculated based on the square error as in the following equation.
上記の式において、‖X−WH‖Fは「X−WH」のフロベニウスノルムである。 In the above formula, ‖X-WH‖ F is the Frobenius norm of "X-WH".
<非特許文献2の手法>
非特許文献2の手法では、上記NMFを拡張することによって時系列テキストデータにおいて盛り上がっているトピックを得る。具体的には次式にもとづいてWとHを計算する。
<Method of
In the method of Non-Patent
上記の式において、wiはWのi番目の列ベクトルである。Sはトピックiについて同じ時間帯のwiの和を計算する行列である。WemはWのうち盛り上がりを抽出するトピックと対応する部分行列である。μはハイパーパラメータである。L(SWi)は各時刻におけるトピックの変動が小さい場合大きなペナルティを与える関数である。このペナルティにより時間的に盛り上がっているトピックを抽出することができる。 In the above equation, w i is the i-th column vector of W. S is a matrix for calculating the sum of w i in the same time zone for topic i. Wem is a submatrix corresponding to the topic from which the excitement is extracted. μ is a hyperparameter. L (SW i ) is a function that gives a large penalty when the topic variation at each time is small. With this penalty, it is possible to extract topics that are exciting in time.
しかしながら、非特許文献2に記載のトピックモデルでは、地理的な情報が考慮されていない。例えば、横須賀で音楽のゲリラライブなどのイベントが急遽開催される際、多くのユーザがGPS(Global Positioning System)を用いて取得した位置情報を付与したメッセージをソーシャルメディアに投稿したり、その地名を含むメッセージを投稿したりする。ソーシャルメディアの情報は、このようなイベントなどの地域特有で盛り上がっている話題を多く含む。非特許文献2に記載された手法のように時間的な盛り上がりを考慮するだけでは、上記の盛り上がりの話題を検知することが難しかった。
However, the topic model described in Non-Patent
また、非特許文献3には、テキストに付与された位置情報を考慮したLDAによって、地域特有のトピックを抽出する手法が開示されている。しかしながら、この手法は、位置情報と時間情報の両方が加味されていないため、ある地域で普段から多く投稿されている内容のトピックが抽出される。つまり、ある時刻、地域において局所的に盛り上がっているトピックを抽出できず、前述の例のような突然特定の地域で発生するイベント等に関するトピックを抽出できないという問題がある。
Non-Patent
本発明は、上記従来技術の問題点に鑑みて、地理的かつ時間的に盛り上がっているトピック情報を得られるトピックモデルを生成できる技術を提供することを目的とする。 The present invention has been made in view of the above-described problems of the prior art, and an object of the present invention is to provide a technique capable of generating a topic model that can obtain topic information that is exciting geographically and temporally.
そこで、本発明のトピックモデリング装置は、位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置であって、時系列テキストから位置情報を抽出する位置情報抽出手段と、前記抽出された位置情報に基づき各時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する位置情報依存行列計算手段と、前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するモデル計算手段とを備える。 Therefore, the topic modeling device of the present invention is a topic modeling device that creates a topic model that depends on position information and time information, the position information extracting means for extracting position information from time series text, and the extracted A position information dependency matrix calculating means for calculating a position information dependency matrix indicating a degree of similarity according to position information between the time series texts based on the position information, and a document feature matrix of the time series text as a temporal topic change amount. A document topic matrix and a topic indicating the degree of relationship between the text and the topic by performing matrix decomposition and dimension compression under the topic extraction constraint based on the location information and the topic extraction constraint based on the position information dependence matrix A topic word matrix indicating the degree of relationship with words is calculated over time, and this document topic matrix and topic word lines are calculated. The latest document topic matrix and topic word matrix temporal change amount is less than the specified value of, as the topic models, and a model calculation means for determining.
本発明のトピックモデリング方法は、位置情報と時間情報とに依存したトピックモデルを作成するトピックモデリング装置が実行するトピックモデリング方法であって、時系列テキストから位置情報を抽出するステップと、前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算するステップと、前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するステップとを有する。 The topic modeling method of the present invention is a topic modeling method executed by a topic modeling device that creates a topic model depending on position information and time information, the step of extracting position information from time series text, and the extracted and calculating a position information dependent matrix indicating a degree of similarity due to positional information between the time series text based on the location information, a document feature matrix of the time series text, topic extraction based on the amount of change in temporal topic Document topic matrix indicating degree of relation between text and topic and degree of relation between topic and word by matrix decomposition and dimension compression under restriction and topic extraction restriction based on position information dependency matrix The topic word matrix indicating the time is calculated over time, and this document topic matrix and topic word matrix The latest document topic matrix and topic word matrix temporal change amount is less than the specified value, as the topic models, and a step of determining.
尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。 Note that the present invention may be in the form of a program that causes a computer to function as each unit of the apparatus or a program that causes a computer to execute the steps of the method.
本発明によれば地理的かつ時間的に盛り上がっているトピック情報を得られるトピックモデルを提供できる。 ADVANTAGE OF THE INVENTION According to this invention, the topic model which can obtain the topic information which excites geographically and time can be provided.
以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the present invention is not limited to these embodiments.
[概要]
図1に示された本実施形態のトピックモデリング装置1は、従来の時間的な盛り上がりを抽出するNMFにおいて、地理的な盛り上がりを抽出する制約を付与することにより、トピックの地理的かつ時間的な盛り上がりを考慮したトピックモデルを生成する。
[Overview]
The
[装置の構成]
トピックモデリング装置1は、図1に示されたように、入力部10、単語特徴量計算部20、文書特徴行列計算部30、位置情報抽出部40、位置情報依存行列計算部50、モデル計算部60、出力部70を備える。
[Device configuration]
As shown in FIG. 1, the
上記各機能部10〜70はコンピュータのハードウェアリソースによって実現される。すなわち、トピックモデリング装置1は、少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部10〜70が実装される。また、各々のコンピュータに機能部10〜70を各々実装させるようにしてもよい。
The
入力部10は、時系列テキストデータの入力を受け付けるための手段であり、例えば、キーボード、マウス、ディスクドライブ装置等から構成される。時系列テキストデータは、文字列と時刻情報が対応づけられている。さらに、GPSによって計測した位置情報を表すジオタグが存在する場合、ジオタグも対応づけられている。
The
単語特徴量計算部20は、入力部10から受け付けた時系列テキストデータにおける各テキストの文字列の単語特徴量を計算する。
The word feature
文書特徴行列計算部30は、前記算出されたテキストの文書における単語特徴量に基づき当該テキストの文書特徴行列を計算する。
The document feature
位置情報抽出部40は、前記時系列テキストデータにおける各テキストの位置情報を抽出して当該各テキストの位置情報ベクトルを計算する。
The position
位置情報依存行列計算部50は、前記算出された位置情報ベクトルに基づき各テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する。
The position information dependency
モデル計算部60は、前記位置情報依存行列と前記時系列テキストの文書特徴行列とに基づき、位置情報と時間情報とに依存したトピックモデルとして、テキストとトピックとの関係度合を示す文書トピック行列と、トピックと単語との関係度合を示すトピック単語行列とを算出する。
The
より具体的には、モデル計算部60は、前記文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、前記文書トピック行列並びにトピック単語行列を経時的に算出する。そして、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定する。
More specifically, the
出力部70は、前記決定された文書トピック行列及びトピック単語行列を、位置及び時間に依存したトピックモデルとして、出力する。
The
[トピックモデリング過程の説明]
以下、図1〜7を参照しながらトピックモデリングの過程について説明する。
[Explanation of topic modeling process]
The topic modeling process will be described below with reference to FIGS.
S1:入力部10は、入力データとして時系列テキストデータを受け付ける。受け付けた時系列テキストデータは単語特徴量計算部20および位置情報抽出部40へ送られる。
S1: The
S2:単語特徴量計算部20は入力部10から受け付けた時系列テキストデータにおける各テキストの文字列の単語特徴量を計算する。
S2: The word feature
本ステップでは、各テキストの文字列を形態素解析器によって名詞・動詞・形容詞などの単語単位に分割した後、出現する単語情報に基づき、テキストの文書diにおける単語wの特徴度を表すfdi,wを計算する。具体的な算出方法としては、以下の式によって算出するTF−IDF等が挙げられる。 In this step, after the character string of each text is divided into word units such as nouns, verbs, and adjectives by a morphological analyzer, f di representing the characteristic degree of the word w in the text document d i based on the appearing word information. , w is calculated. Specific examples of the calculation method include TF-IDF calculated by the following equation.
上記の式において、TF(di,w)は文書diにおける単語wの出現回数、DF(w)はデータセットにおいて単語wが出現する文書の数、Nはデータセットにおける文書の総数を表す。 In the above equation, TF (d i , w) is the number of occurrences of word w in document d i , DF (w) is the number of documents in which word w appears in the data set, and N is the total number of documents in the data set. .
上記算出された単語特徴度は文書特徴行列計算部30に送られる。
The calculated word feature is sent to the document
S3:文書特徴行列計算部30は、上記算出された文書diにおける単語wの特徴度を表すfdi,wに基づき、文書特徴行列を計算する。文書diにおける各々の単語の特徴を表す特徴ベクトルをfdiとすると文書特徴行列Xは次のように定義される。
S3: document characteristic
図3に文書特徴行列Xの一例を示した。この例では、文書1の「横須賀」、「カレー」、「新潟」の特徴量が2、2、0であるので、文書1に対応する行とそれぞれの単語に対応する列に該当する要素が2、2、0とされる。
FIG. 3 shows an example of the document feature matrix X. In this example, since the feature amounts of “Yokosuka”, “Curry”, and “Niigata” of
上記算出された文書特徴行列Xはモデル計算部60によるステップS6に供される。
The calculated document feature matrix X is provided to step S6 by the
S4:位置情報抽出部40は、入力部10から受け付けた時系列テキストデータにおける各テキストの位置情報を抽出し、位置情報ベクトルpを計算する。位置情報は、時系列テキストに付与されたジオタグだけでなく、時系列テキストの文字列中の地名(地域名称)を用いて抽出してもよい。
S4: The position
本ステップでの具体的な位置情報抽出処理過程例のフローチャートを図4に示す。時系列テキストデータにおける各テキストの文書d∈Dについて下記の通り処理する。 FIG. 4 shows a flowchart of a specific position information extraction process example in this step. The following processing is performed for each text document dεD in the time-series text data.
S401:テキストの文書diにジオタグが付与されているかを判定する。 S401: It is determined whether a geotag is attached to the text document d i .
S402:テキストの文書diにジオタグが付与されている場合、ジオタグの緯度経度情報を位置情報ベクトルpiに代入する。尚、piはベクトルpのi番目の要素を表す。 S402: If a geotag is assigned to the text document d i , the latitude / longitude information of the geotag is substituted into the position information vector p i . P i represents the i-th element of the vector p.
S403:テキストの文書diにジオタグが付与されていない場合、文書diの文字列中に地名を表す単語が存在するか否かを判定する。地名を表す語の判定方法は、条件付き確率場に基づく係り受け解析手法(非特許文献4)など公知の技術を用いることができる。 S403: If no geotag is assigned to the text document d i , it is determined whether or not a word representing the place name exists in the character string of the document d i . A known technique such as a dependency analysis method based on a conditional random field (Non-Patent Document 4) can be used as a method for determining a word representing a place name.
S404:テキストの文書diの文字列中に地名を表す単語が存在する場合、ジオコーダを用いて地名を緯度経度情報に変換する。地名が複数ある場合は、例えば乱数を用いてランダムで一つ選択する。そして、この変換によって得られた緯度経度情報を、前述のステップS402に供して、位置情報ベクトルpiに代入する。 S404: If a word representing a place name exists in the character string of the text document d i , the place name is converted into latitude and longitude information using a geocoder. When there are a plurality of place names, for example, one is selected at random using random numbers. Then, the latitude / longitude information obtained by this conversion is provided to the above-described step S402 and substituted into the position information vector p i .
S405:テキストの文書diの文字列中に地名を表す単語が存在しない場合、位置情報ベクトルpiにnullを代入する。 S405: A string can document d i text no word representing a place name, substitutes null in the position information vector p i.
全ての時系列テキストについて以上のS401〜S405が実行され、得られた位置情報ベクトルpは位置情報依存行列計算部50に送られる。
The above S401 to S405 are executed for all time series texts, and the obtained position information vector p is sent to the position information dependency
S5:位置情報依存行列計算部50は、上記算出された位置情報ベクトルpに基づき、位置情報依存行列Gを計算する。位置情報依存行列Gは、総文書数をmとしたとき、各文書同士の位置情報に基づく類似度を表すm×mの行列である。
S5: The position information dependency
図5に位置情報依存行列Gの一例を示した。位置情報に基づく文書1と文書2の類似度は0.02であるため、対応する要素は0.02とされる。
FIG. 5 shows an example of the position information dependence matrix G. Since the similarity between the
位置情報依存行列Gの計算処理のフローチャートを図6に示す。全てのテキストのペアについて下記の通り処理する。 A flowchart of the calculation process of the position information dependency matrix G is shown in FIG. All text pairs are processed as follows:
S501:位置情報依存行列Gi,jに0を代入する。尚、Gi,jは行列Gのi行j例目の要素を表す。 S501: 0 is substituted into the position information dependence matrix G i, j . Note that G i, j represents the element in the i-th row and j-th row of the matrix G.
S502:i=jまたは位置情報ベクトルpi=nullまたは位置情報ベクトルpj=nullであるかを判定する。判定がYESであった場合は次のループ処理に移る。 S502: It is determined whether i = j or position information vector p i = null or position information vector p j = null. If the determination is YES, the process proceeds to the next loop process.
S503:ステップS502の判定がNoであれば、位置情報ベクトルpi,pj間の距離を計算する。位置情報ベクトルpi,pj間の距離disti,jは例えばヒュベニ距離として以下の式により計算できる。 S503: If the determination in step S502 is No, the distance between the position information vectors p i and p j is calculated. The distance dist i, j between the position information vectors p i and p j can be calculated by, for example, the following equation as the Hubeni distance.
上記の式において、Mは子午線曲率半径、dPは二点間の緯度差、Nは卯西線曲率半径、Pは二点間の平均緯度、dRは二点間の経度差を表す。 In the above equation, M is a meridian radius of curvature, dP is a latitude difference between two points, N is a Shaanxi radius of curvature, P is an average latitude between two points, and dR is a longitude difference between two points.
S504:上記算出した位置情報ベクトルpi,pj間の距離disti,jを以下の式の演算に供して位置情報依存行列Gを算出する。 S504: calculating the distance dist i, and subjected to calculation of the following equation j location dependent matrix G between the position information calculated above vectors p i, p j.
上記の式において、σ2は定数であり、位置情報依存行列Gi,jは文書diと文書djの位置情報に基づく類似度を表す。σ2は予め各文書の距離disti,jを用いて計算しておいた分散値を用いることもできる。 In the above equation, σ 2 is a constant, and the position information dependency matrix G i, j represents the similarity based on the position information of the document d i and the document d j . As σ 2, a variance value calculated in advance using the distance dist i, j of each document can be used.
全てのテキスト間について以上のS501〜S504が実行され、得られた位置情報依存行列Gはモデル計算部60によるステップS6に供される。
The above S501 to S504 are executed between all the texts, and the obtained position information dependence matrix G is provided to step S6 by the
S6:モデル計算部60は、ステップS3で算出された文書特徴行列XとステップS5で算出された位置情報依存行列Gとを用いて、トピックモデルを学習する。
S6: The
本ステップで学習するトピックモデルは、地理的に盛り上がっているトピックを検出するため、以下の式の値が小さくなるように文書トピック行列Wに制約が与えられる。 Since the topic model learned in this step detects a topic that is geographically active, the document topic matrix W is constrained so that the value of the following equation becomes small.
上記の式において、Lは各テキストの距離に基づくグラフ構造を表す行列で、例えば以下のラプラシアン行列として計算できる。 In the above formula, L is a matrix representing a graph structure based on the distance of each text, and can be calculated as the following Laplacian matrix, for example.
上記の式において、Dは総テキスト数をmとしたとき、m×mの行列であり、対角成分に位置情報依存行列Gにおいて対応する行ベクトルの各要素の総和を持ち、その他の成分に0を持つ。この制約は各テキストの位置情報の距離が近いほど、各々が似たトピックを持たせるという性質をもつ。これにより地理的に盛り上がっているトピックを抽出することができる。時間依存の制約と位置依存の制約とを考慮すると、モデル計算部60は次式により文書トピック行列Wとトピック単語行列Hを計算する。
In the above equation, D is an m × m matrix where the total number of texts is m, the diagonal component has the sum of the elements of the corresponding row vector in the position information dependence matrix G, and the other components Has 0. This restriction has the property that the closer the position information of each text is, the more similar topic each has. This makes it possible to extract geographically popular topics. In consideration of time-dependent constraints and position-dependent constraints, the
上記の式(1)において、λt及びλgはそれぞれ時間依存の制約とクエリ依存の制約の強さを決めるハイパーパラメータである。 In the above equation (1), λ t and λ g are hyperparameters that determine the strength of time-dependent constraints and query-dependent constraints, respectively.
具体的な計算処理の流れとして、文書トピック行列Wとトピック単語行列Hを交互に最適化する方法によって文書トピック行列Wとトピック単語行列Hとを算出する過程のフローチャートを図7に示した。 As a specific flow of calculation processing, a flowchart of a process of calculating the document topic matrix W and the topic word matrix H by a method of alternately optimizing the document topic matrix W and the topic word matrix H is shown in FIG.
S601:t=0とし、文書トピック行列Wの初期値W(0)とトピック単語行列Hの初期値H(0)とを定める。初期値の値は任意の値でよく、例えば0から1までのランダムな値で初期化する。 S601: a t = 0, the initial value H (0) of the initial value W (0) and the topic word matrix H of the document topic matrix W and determining the. The initial value may be any value, for example, it is initialized with a random value from 0 to 1.
S602:トピック単語行列H(t)を式(1)に供して文書トピック行列W(t+1)を計算する。計算の方法は最急降下法やニュートン法など公知の技術を用いることができる。 S602: The topic word matrix H (t) is used in equation ( 1) to calculate the document topic matrix W (t + 1) . As a calculation method, a known technique such as a steepest descent method or a Newton method can be used.
S603:文書トピック行列W(t+1)を式(1)に供してトピック単語行列H(t+1)を計算する。計算の方法は最急降下法やニュートン法など公知の技術を用いることができる。 S603: The topic word matrix H (t + 1) is calculated by using the document topic matrix W (t + 1) for the equation (1). As a calculation method, a known technique such as a steepest descent method or a Newton method can be used.
S604:終了条件を満たしたかを判定する。以下に終了条件を例示する。 S604: It is determined whether the end condition is satisfied. The termination conditions are illustrated below.
[終了条件の例1]
t回目のイテレーションで得られた文書トピック行列W(t)及びトピック単語行列H(t)とt+1回目のイテレーションで得られた文書トピック行列W(t+1)及びトピック単語行列H(t+1)における変化量が規定値以下であることを終了条件とする。例えば、t回目のイテレーションで得られた文書トピック行列W(t)及びトピック単語行列H(t)とt+1回目のイテレーションで得られた文書トピック行列W(t+1)及びトピック単語行列H(t+1)における各要素の二乗誤差の和が規定値以下であることを終了条件とする。
[Exit condition example 1]
Document topic matrix W (t) and topic word matrix H (t) obtained in the t-th iteration, document topic matrix W (t + 1) and topic word matrix H (t + 1 ) obtained in the t + 1 iteration The end condition is that the amount of change in ) is less than or equal to the specified value. For example, the document topic matrix W (t) and the topic word matrix H (t) obtained in the t-th iteration, the document topic matrix W (t + 1) and the topic word matrix H (t in the t + 1 iteration The end condition is that the sum of the square error of each element in +1) is not more than a specified value.
[終了条件の例2]
tが所定のイテレーション回数に達したことを終了条件とする。
[Exit condition example 2]
An end condition is that t has reached a predetermined number of iterations.
[終了条件の例3]
終了条件の例1,2の両方を満たすことを終了条件とする。
[Exit condition example 3]
Satisfying both the end condition examples 1 and 2 is the end condition.
以上例示した終了条件を満たしていないと判定された場合には、t+1を新たなtとしてステップS602に進む。 If it is determined that the above illustrated termination condition is not satisfied, t + 1 is set as a new t, and the process proceeds to step S602.
一方、終了条件を満たしたと判定された場合には、ステップS6の処理を終了し、算出された文書トピック行列W(t+1),トピック単語行列H(t+1)を、それぞれ文書トピック行列W,トピック単語行列Hとして、出力部70に供する。
On the other hand, if it is determined that the termination condition is satisfied, the process of step S6 is terminated, and the calculated document topic matrix W (t + 1) and topic word matrix H (t + 1) are respectively converted into the document topic matrix. W is provided to the
S7:出力部70は、ステップS6で算出された文書トピック行列W及びトピック単語行列Hを、位置依存かつ時間依存のトピックモデルとして、出力する。このトピックモデルはモニタ等に出力表示される。
S7: The
[本実施形態の効果]
以上説明したように、本実施形態のトピックモデリング装置1によれば、位置情報抽出部40によって、時系列テキストから位置情報が抽出される。また、位置情報依存行列計算部50によって、前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列Gが算出される。そして、モデル計算部60によって、位置情報依存行列Gと前記時系列テキストの文書特徴行列Xとに基づき、位置情報と時間情報とに依存したトピックモデルとして、テキストとトピックとの関係度合を示す文書トピック行列Wと、トピックと単語との関係度合を示すトピック単語行列Hとが算出される。以上のように、位置情報及び時間情報に依存したトピックモデルが生成されるので、地理的かつ時間的に盛り上がっているトピックを抽出できる。
[Effect of this embodiment]
As described above, according to the
また、前記時系列テキストに位置情報が含まれていない場合、当該テキストに含まれる地域名称に基づき位置情報が抽出される。したがって、時系列テキストに位置情報が含まれていない場合でも、当該テキストから位置情報を抽出できる。 In addition, when position information is not included in the time series text, the position information is extracted based on the area name included in the text. Therefore, even when position information is not included in the time series text, the position information can be extracted from the text.
さらに、位置情報依存行列Gの計算にあたり、各時系列テキストの位置情報間の距離に基づき類似度が算出されることにより、地理的関係がより明確な位置情報依存行列Gが得られる。 Further, in calculating the position information dependency matrix G, the similarity is calculated based on the distance between the position information of each time series text, so that the position information dependency matrix G with a clearer geographical relationship is obtained.
そして、ステップS6において、ステップS604の判定が実行されることにより、位置情報及び時間情報に依存したトピックモデルを任意に精度よく取得できる。 In step S6, the determination in step S604 is executed, so that the topic model depending on the position information and time information can be acquired arbitrarily and accurately.
[本発明の他の態様]
本発明は、トピックモデリング装置1を構成する上記の機能部10〜70の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置1が実行する上記の過程S1〜S7,S401〜S405,S501〜S504,S601〜S604の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
[Other Embodiments of the Present Invention]
The present invention can be realized by configuring a program that causes a computer to function as a part or all of the
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
1…トピックモデリング装置
20…単語特徴量計算部
30…文書特徴行列計算部
40…位置情報抽出部
50…位置情報依存行列計算部
60…モデル計算部
DESCRIPTION OF
Claims (6)
時系列テキストから位置情報を抽出する位置情報抽出手段と、
前記抽出された位置情報に基づき各時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算する位置情報依存行列計算手段と、
前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するモデル計算手段と
を備えたことを特徴とするトピックモデリング装置。 A topic modeling device for creating a topic model depending on position information and time information,
Position information extraction means for extracting position information from time series text;
A position information dependency matrix calculating means for calculating a position information dependency matrix indicating a degree of similarity depending on position information between each time series text based on the extracted position information;
The document feature matrix of the time series text is subjected to matrix decomposition and dimension compression under the restriction of topic extraction based on a temporal topic change amount and the restriction of topic extraction based on the position information dependency matrix. To calculate the document topic matrix indicating the degree of relationship between the text and the topic and the topic word matrix indicating the degree of the relationship between the topic and the word over time, and the amount of change over time of the document topic matrix and the topic word matrix is a predetermined value. A topic modeling apparatus , comprising: model calculation means for determining, as the topic model, the latest document topic matrix and topic word matrix as described below .
を特徴とする請求項1に記載のトピックモデリング装置。 The model calculation unit, according to claim 1 in which the calculation of the document topic matrix and topic word matrix document topic matrix and topic word matrix upon reaching a predetermined number of times, as the topic models, and determines Topic modeling equipment.
を特徴とする請求項1または2に記載のトピックモデリング装置。 3. The topic modeling according to claim 1, wherein, when the time series text does not include position information, the position information extraction unit extracts the position information based on an area name included in the text. 4. apparatus.
を特徴とする請求項1から3のいずれか1項に記載のトピックモデリング装置。 The position information dependent matrix calculation means, topic modeling device according to any one of claims 1 to 3, and calculates the similarity based on the distance between the position information of each time series text.
時系列テキストから位置情報を抽出するステップと、
前記抽出された位置情報に基づき時系列テキスト間の位置情報に依る類似度を示す位置情報依存行列を計算するステップと、
前記時系列テキストの文書特徴行列を、時間的なトピックの変化量に基づくトピック抽出の制約と、前記位置情報依存行列に基づくトピック抽出の制約とのもとで、行列分解して次元圧縮することにより、テキストとトピックとの関係度合いを示す文書トピック行列並びにトピックと単語との関係度合いを示すトピック単語行列を経時的に算出し、この文書トピック行列並びにトピック単語行列の経時的変化量が規定値以下となる最新の文書トピック行列並びにトピック単語行列を、前記トピックモデルとして、決定するステップと
を有することを特徴とするトピックモデリング方法。 A topic modeling method executed by a topic modeling device that creates a topic model depending on position information and time information,
Extracting location information from time series text ;
Calculating a position information dependence matrix indicating similarity based on position information between time series texts based on the extracted position information ;
The document feature matrix of the time series text is subjected to matrix decomposition and dimension compression under the restriction of topic extraction based on a temporal topic change amount and the restriction of topic extraction based on the position information dependency matrix. To calculate the document topic matrix indicating the degree of relationship between the text and the topic and the topic word matrix indicating the degree of the relationship between the topic and the word over time, and the amount of change over time of the document topic matrix and the topic word matrix is a predetermined value. And determining the latest document topic matrix and topic word matrix as the topic model .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014093253A JP6204261B2 (en) | 2014-04-30 | 2014-04-30 | Topic modeling apparatus, topic modeling method, and topic modeling program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014093253A JP6204261B2 (en) | 2014-04-30 | 2014-04-30 | Topic modeling apparatus, topic modeling method, and topic modeling program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015210741A JP2015210741A (en) | 2015-11-24 |
JP6204261B2 true JP6204261B2 (en) | 2017-09-27 |
Family
ID=54612852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014093253A Active JP6204261B2 (en) | 2014-04-30 | 2014-04-30 | Topic modeling apparatus, topic modeling method, and topic modeling program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6204261B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284286B (en) * | 2018-09-12 | 2021-04-06 | 贵州省赤水市气象局 | Method for extracting effective characteristics from original data set |
CN112527964B (en) * | 2020-12-18 | 2022-07-01 | 重庆邮电大学 | Microblog abstract generation method based on multi-mode manifold learning and social network characteristics |
CN112836489B (en) * | 2021-01-25 | 2024-03-22 | 浙江工业大学 | Text topic mining method based on semantic weights of Internet service words |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5342574B2 (en) * | 2011-02-08 | 2013-11-13 | 日本電信電話株式会社 | Topic modeling apparatus, topic modeling method, and program |
-
2014
- 2014-04-30 JP JP2014093253A patent/JP6204261B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015210741A (en) | 2015-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kadeethum et al. | A framework for data-driven solution and parameter estimation of PDEs using conditional generative adversarial networks | |
Cheng et al. | You are where you tweet: a content-based approach to geo-locating twitter users | |
CN109960810B (en) | Entity alignment method and device | |
KR102496415B1 (en) | Quantum noise process analysis method and apparatus, device, and storage medium | |
Gaume | Flood frequency analysis: The Bayesian choice | |
US20130204835A1 (en) | Method of extracting named entity | |
JP2015230570A (en) | Learning model creation device, determination system and learning model creation method | |
Igoshev et al. | Distance and luminosity probability distributions derived from parallax and flux with their measurement errors-With application to the millisecond pulsar PSR J0218+ 4232 | |
Lu et al. | Discovering transition phenomena from data of stochastic dynamical systems with Lévy noise | |
JP2018156473A (en) | Analysis device, analysis method, and program | |
Thompson et al. | Inferring extinction risks from sighting records | |
JP6204261B2 (en) | Topic modeling apparatus, topic modeling method, and topic modeling program | |
Hamiye Beyaztas et al. | Robust estimation for linear panel data models | |
Koduvely | Learning Bayesian Models with R | |
Doğru et al. | Parameter estimation for mixtures of skew Laplace normal distributions and application in mixture regression modeling | |
Nagel et al. | Bayesian multilevel model calibration for inverse problems under uncertainty with perfect data | |
Rogerson | Maximum G etis–O rd Statistic Adjusted for Spatially Autocorrelated Data | |
Hariri-Ardebili et al. | Taguchi design-based seismic reliability analysis of geostructures | |
Garg et al. | Hierarchical Latin hypercube sampling | |
Cucala et al. | Bayesian inference on a mixture model with spatial dependence | |
Miao et al. | Informative core identification in complex networks | |
Papalia | A composite generalized cross-entropy formulation in small samples estimation | |
US10652104B1 (en) | System for inferring network dynamics and sources within the network | |
Paindaveine et al. | Inference on the shape of elliptical distributions based on the MCD | |
Luber et al. | Identifying topical shifts in twitter streams: an integration of non-negative matrix factorisation, sentiment analysis and structural break models for large scale data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6204261 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |