JP2013069141A - Document analysis device and document analysis method - Google Patents
Document analysis device and document analysis method Download PDFInfo
- Publication number
- JP2013069141A JP2013069141A JP2011207562A JP2011207562A JP2013069141A JP 2013069141 A JP2013069141 A JP 2013069141A JP 2011207562 A JP2011207562 A JP 2011207562A JP 2011207562 A JP2011207562 A JP 2011207562A JP 2013069141 A JP2013069141 A JP 2013069141A
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- word
- document set
- prior
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書からトピックを抽出する技術に関する。 The present invention relates to a technique for extracting a topic from a document.
Twitter(登録商標)などのマイクロブログに投稿される文章、ニュース専門サイトで提供される記事、SNS(ソーシャルネットワーキングサービス)上で取り交わされるコメントなど、インターネット上では日々、大量の文書が生成される。
インターネット上で話題となっている事柄を抽出する技術の一つとして、Buzztterが知られている。Buzztterは、Twitterに投稿された文章から出現頻度の高い単語をリアルタイムに抽出してユーザの端末に配信する。
Massive documents are generated every day on the Internet, such as text posted on microblogs such as Twitter (registered trademark), articles provided on news special sites, comments exchanged on SNS (social networking service), etc. .
Buzztter is known as one of the techniques for extracting matters that have become a hot topic on the Internet. Buzztter extracts words that appear frequently from text posted on Twitter in real time and distributes them to the user's terminal.
文書上の単語の出現頻度を支配する潜在的な要因であるトピックを文書から抽出するトピックモデルの一つに、Latent Dirichlet Allocation(以下、「LDA」という。例えば、非特許文献1。)がある。図1は、LDAのグラフィカルモデルを示す図である。表1は、図1における各記号の意味を示す表である。
LDAは、各文書に複数のトピックが存在し、各文書において各トピックが或る確率で出現し、各トピックに対応する単語が複数存在し、各トピックにおいて各単語が或る確率で出現するという仮定のもとで、各単語の出現回数の多項分布(以下、「単語分布」という。)で各トピックを特徴付けるとともに、各トピックの出現回数の多項分布(以下、「トピック分布」という。)で各文書を特徴付ける手法である。例えば、Twitterに投稿された一つの文章(以下、「tweet」という。)を文書として捉えた場合に、地震発生直後では、地震や津波に関するトピックを多く含む文書が多数生成されることとなり、地震に関するトピックは、「地震」、「震度」、「地震速報」などの各単語(単語の組み合わせも含む)の出現回数の多項分布で特徴付けられ、津波に関するトピックは、「津波」、「高さ」、「到達時刻」などの各単語の出現回数の多項分布で特徴付けられることとなる。 In LDA, there are a plurality of topics in each document, each topic appears in each document with a certain probability, a plurality of words corresponding to each topic exist, and each word appears in each topic with a certain probability. Under the assumption, each topic is characterized by a multinomial distribution of the number of occurrences of each word (hereinafter referred to as “word distribution”), and a multinomial distribution of the number of occurrences of each topic (hereinafter referred to as “topic distribution”). This is a technique for characterizing each document. For example, if one sentence posted on Twitter (hereinafter referred to as “tweet”) is captured as a document, immediately after the earthquake occurs, many documents containing many topics related to earthquakes and tsunamis will be generated. The topic about is characterized by a multinomial distribution of the number of occurrences of each word (including word combinations) such as “earthquake”, “seismic intensity”, “earthquake breaking news”, and the topics about tsunami are “tsunami”, “height ”,“ Arrival time ”and the like, which are characterized by a multinomial distribution of the number of appearances of each word.
従来のLDAは、あらかじめ与えられた特定の文書集合からトピックを抽出するように構成されている。従って、経時的に内容が変化するような文書集合において、トピックの変化を抽出することはできない。これに対して、経時的に内容が変化する文書集合の分析に適用可能となるようにLDAを拡張した技術として、Dynamic Topic Model(以下、「DTM」という。例えば、非特許文献2。)がある。図2は、DTMのグラフィカルモデルを示す図である。tは、文書集合を取得する時期である。取得時期t毎に文書集合D(t)が入力され、取得時期t毎の単語分布β(t)、トピック分布θ(t)を生成する。DTMの特徴は、取得時期t−1における単語分布β(t-1)が取得時期tにおける単語分布β(t)の事前分布となっている点、言い換えれば、過去のトピックから現在のトピックを抽出する点である。そのため、β(t)をβ(t-1)と比較することで、トピックの経時的な変化を観測することができる。また、現在のトピックに過去のトピックの影響が反映されるので、特定の取得時期だけの文書集合からトピックを抽出する場合と比較して、現在の文書集合に過学習しない結果が得られる。これにより、次の取得時期t+1の文書集合に含まれるトピックを高精度に予測することができる。 The conventional LDA is configured to extract topics from a specific document set given in advance. Therefore, topic changes cannot be extracted from a document set whose contents change over time. On the other hand, Dynamic Topic Model (hereinafter referred to as “DTM”, for example, Non-Patent Document 2) is a technique that extends LDA so that it can be applied to analysis of a document set whose contents change over time. is there. FIG. 2 is a diagram showing a graphical model of DTM. t is the time when the document set is acquired. A document set D (t) is input for each acquisition time t, and a word distribution β (t) and topic distribution θ (t) for each acquisition time t are generated. The feature of DTM is that the word distribution β (t−1) at the acquisition time t−1 is a prior distribution of the word distribution β (t) at the acquisition time t, in other words, the current topic from the past topic. It is a point to extract. Therefore, by comparing β (t) with β (t-1) , it is possible to observe changes in the topic over time. In addition, since the influence of past topics is reflected on the current topic, a result that does not overlearn the current document set can be obtained as compared with the case of extracting a topic from a document set only at a specific acquisition time. As a result, topics included in the document set at the next acquisition time t + 1 can be predicted with high accuracy.
ところで、DTMでは、次の取得時期のトピックの事前分布を現在のトピック分布から生成するので、次の取得時期のトピック分布が現在のトピック分布を過学習するおそれがある。
この問題に対して、現在のトピック分布と過去のトピック分布を混合して平滑化することにより、過学習を防ぐ方法が考えられる。例えば、特許文献1では、過去のいくつかのトピックを混合することで、事前分布を生成する技術を提案している。しかし、過去のトピックと現在のトピックをどのような配分で混合すれば最適であるかという点については、提案されていない。
本発明は、上述の背景に鑑みてなされたものであり、現在のトピックと過去のトピックとの混合により事前分布を生成する場合の混合比を最適化することを目的とする。
By the way, in DTM, since the prior distribution of the topic at the next acquisition time is generated from the current topic distribution, the topic distribution at the next acquisition time may overlearn the current topic distribution.
To solve this problem, a method of preventing overlearning by mixing and smoothing the current topic distribution and the past topic distribution can be considered. For example,
The present invention has been made in view of the above-described background, and an object of the present invention is to optimize a mixing ratio when a prior distribution is generated by mixing a current topic and a past topic.
請求項1に係る文書分析装置は、外部装置から文書集合を取得する取得手段と、過去に前記取得手段によって取得された第1の文書集合に含まれる各単語の出現回数の多項分布である第1の事前分布に基づいて、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合に含まれる各単語の出現回数の多項分布である単語分布を生成し、当該単語分布で特徴付けられる各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する混合比算出手段と、前記第1の事前分布と前記単語分布とを前記混合比にて混合することにより、第2の事前分布を生成する事前分布生成手段と、前記第2の事前分布を蓄積する事前分布蓄積手段とを有し、前記トピック分布生成手段は、前記第2の文書集合の後に前記取得手段によって第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成することを特徴とする。
The document analysis apparatus according to
請求項2に係る文書分析装置は、請求項1に記載の文書分析装置において、前記混合比算出手段は、前記混合比の候補である互いに異なる複数の混合比に対応する第1の粒子群と、前記第1の粒子群に含まれる各粒子に対応付けた尤度からなる第1の尤度群とを仮定して、前記第1の粒子群を粒子フィルタにおける粒子として散布し、前記第1の尤度群に基づいて前記第1の粒子群を再散布することによって第2の尤度群を算出し、前記第2の尤度群を重みとした前記第1の粒子群の重み付き平均により前記混合比を算出することを特徴とする。
The document analysis apparatus according to
請求項3に係る文書分析方法は、過去に取得された第1の文書集合に含まれる各単語の出現回数の多項分布である第1の事前分布に基づいて、前記第1の文書集合の後に取得された第2の文書集合に含まれる各単語の出現回数の多項分布である単語分布を生成し、当該単語分布で特徴付けられる各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成ステップと、前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する混合比算出ステップと、前記第1の事前分布と前記単語分布とを前記混合比にて混合することにより、第2の事前分布を生成する事前分布生成ステップと、前記第2の事前分布を蓄積する事前分布蓄積ステップとを有し、前記トピック分布生成ステップにおいて、前記第2の文書集合の後に第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成することを特徴とする。 A document analysis method according to a third aspect of the present invention is based on a first prior distribution that is a multinomial distribution of the number of appearances of each word included in a first document set acquired in the past, after the first document set. A topic that generates a word distribution that is a multinomial distribution of the number of appearances of each word included in the acquired second document set, and generates a topic distribution that is a multinomial distribution of the number of appearances of each topic characterized by the word distribution A distribution generation step; a mixing ratio calculating step for calculating a mixing ratio between the first prior distribution and the word distribution based on the first prior distribution; and the first prior distribution and the word distribution. In the topic distribution generation step, a prior distribution generation step of generating a second prior distribution by mixing at the mixing ratio, and a prior distribution storage step of storing the second prior distribution, When a third document is acquired after the second document set, a word distribution that is a multinomial distribution of the number of appearances of each word included in the third document set is based on the second prior distribution. It is characterized by generating.
請求項4に係るプログラムは、コンピュータを、外部装置から文書集合を取得する取得手段と、過去に前記取得手段によって取得された第1の文書集合に含まれる各単語の出現回数の多項分布である第1の事前分布に基づいて、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合に含まれる各単語の出現回数の多項分布である単語分布を生成し、当該単語分布で特徴付けられる各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する混合比算出手段と、前記第1の事前分布と前記単語分布とを前記混合比にて混合することにより、第2の事前分布を生成する事前分布生成手段と、前記第2の事前分布を蓄積する事前分布蓄積手段として機能させるためのプログラムであって、前記トピック分布生成手段は、前記第2の文書集合の後に前記取得手段によって第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成することを特徴とする。 The program according to claim 4 is a multinomial distribution of the number of appearances of each word included in the first document set acquired by the acquisition means for acquiring a document set from an external device and the acquisition means in the past. Based on the first prior distribution, a word distribution which is a multinomial distribution of the number of appearances of each word included in the second document set acquired by the acquisition unit after the first document set is generated, and the word A topic distribution generating means for generating a topic distribution which is a multinomial distribution of the number of appearances of each topic characterized by the distribution, and a mixing ratio between the first prior distribution and the word distribution based on the first prior distribution. A mixture ratio calculating means for calculating the second prior distribution by mixing the first prior distribution and the word distribution at the mixture ratio; and the second distribution A program for functioning as a prior distribution accumulating unit for accumulating a pre-distribution, wherein the topic distribution generating unit is configured such that when a third document is acquired by the acquiring unit after the second document set, A word distribution which is a multinomial distribution of the number of appearances of each word included in the third document set is generated based on the second prior distribution.
本発明によれば、現在のトピックと過去のトピックとの混合により事前分布を生成する場合の混合比を最適化することができる。 According to the present invention, it is possible to optimize the mixing ratio when the prior distribution is generated by mixing the current topic and the past topic.
本発明の実施形態について説明する。
(1)実施形態の構成
図3は、本発明の実施形態に係る通信システム1の構成を示す図である。通信システム1は、移動通信ネットワーク10と、移動通信装置20と、移動通信ネットワーク10にゲートウェイ装置60を介して接続されたインターネット50と、ゲートウェイ装置60に接続された文書分析装置30と、インターネット50に接続された複数のウェブサーバ装置40とを備えている。
An embodiment of the present invention will be described.
(1) Configuration of Embodiment FIG. 3 is a diagram showing a configuration of the
移動通信装置20は、例えば携帯電話機などの通信可能なコンピュータであり、CPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶装置からなる制御部と、EEPROM(Electronically Erasable and Programmable ROM)やバックアップ電源を備えたSRAM(Static Random Access Memory)などの記憶部と、アンテナや無線通信回路からなる無線通信部と、スピーカ、マイクロホン及び音声処理回路からなる音声入出力部と、複数のキーやタッチスクリーンなどの操作子を備えた操作部と、液晶パネルや液晶駆動回路からなる表示部とを備えている。この移動通信装置20において、制御部は、操作部が受け付けたユーザの操作に応じて、通信部を制御することにより移動通信ネットワーク10及びインターネット50経由でウェブサーバ装置40にアクセスし、そのウェブサーバ装置40に蓄積されている情報を取得して、表示部に表示させる。これにより、ユーザはインターネット50上にある様々な情報にアクセスし、それを閲覧することができる。
The
移動通信ネットワーク10は、移動通信装置20に通信サービスを提供するネットワークである。この移動通信ネットワーク10は、自局の無線セル内に存在する移動通信装置20との間で無線通信を行う基地局、ネットワーク内で伝送されるデータのルーティングを行う交換局、及び移動通信装置20の位置登録などを行う制御局といった各種ノードと、これらのノード間を相互に接続する通信線とを備えている。
The
ウェブサーバ装置40は、コンピュータであり、CPUなどの演算装置とROM及びRAMなどの記憶装置からなる制御部と、ハードディスク装置などの記憶部と、インターネット50に接続された通信部とを備えている。このウェブサーバ装置40は、インターネット50及び移動通信ネットワーク10経由で移動通信装置20との間でデータ通信を行う機能を備えている。ウェブサーバ装置40は、マイクロブログのサービスを提供するサーバであり、ユーザがこのサービスの利用者としてウェブサーバ装置40に登録すると、このユーザに対してマイクロブログへの投稿が許可される。ユーザが移動通信装置20を用いてこのマイクロブログへ文章を投稿すると、ウェブサーバ装置40が当該文章を当該移動通信装置20に返信することにより、当該移動通信装置20の表示部に当該文章が表示される。また、当該ユーザが他のユーザを登録した場合に、当該他のユーザの投稿した文章も表示部に表示される。このようにして、複数のユーザ間でコミュニケーションを取ることが可能となる。
The
(2)文書分析装置の構成
図4は、文書分析装置30のハードウェア構成を示すブロック図である。文書分析装置30は、コンピュータであり、制御部31と、通信部32と、記憶部33とを備えている。制御部31は、CPUなどの演算装置と、ROM及びRAMなどの記憶装置とを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶部33に記憶されたプログラム群を実行することによって、文書分析装置30の各部の動作を制御する。
(2) Configuration of Document Analysis Device FIG. 4 is a block diagram showing a hardware configuration of the
通信部32は、通信インタフェースを備えており、ゲートウェイ装置60に接続されている。通信部32は、ゲートウェイ装置60が中継する、ウェブサーバ装置40から移動通信装置20に配信された文書集合をゲートウェイ装置60から取得して、文書分析装置30に入力する。つまり、通信部32は、外部装置から文書集合を取得する取得手段の一例である。
記憶部33は、書き込み可能な不揮発性の記憶手段であり、例えばハードディスク装置である。この記憶部33には、制御部31が実行する処理の手順が記述されたプログラム群を記憶している。また、記憶部33は、ゲートウェイ装置60から取得した、ウェブサーバ装置40が移動通信装置20に配信する情報を記憶する記憶領域を有している。
The
The
図5は、本実施形態に係る文書分析装置30の機能構成を示すブロック図である。表2は、実施形態の説明で用いる記号とその意味を示す表である。
文書分析装置30は、トピック分布生成手段301、混合比算出手段302、事前分布生成手段303及び事前分布蓄積手段304を有する。文書分析装置30が実行する処理は、主に、トピック分布の生成、混合比の算出、事前分布の生成、事前分布の蓄積、の4つである。
ここで、以下の説明で使用する用語について説明する。
本実施形態では、マイクロブログに投稿された文章(テキストデータ)を分析の対象とし、1回の投稿で移動通信装置20からウェブサーバ装置40に送信された文章を文書と呼ぶ。文書集合とは、1つ又は複数の文書からなる集合である。
単語とは、文書を構成する単語であり、日本語では形態素に相当する。単語は、どの品詞でもよい。
The
Here, terms used in the following description will be described.
In this embodiment, a sentence (text data) posted on a microblog is an object of analysis, and a sentence transmitted from the
A word is a word constituting a document and corresponds to a morpheme in Japanese. The word can be any part of speech.
取得時期tは、ウェブサーバ装置40から移動通信装置20に配信される文書集合を文書分析装置30がゲートウェイ装置60を介して取得する時期である。文書分析装置30は、文書集合の取得を契機として、以下に説明する一連の処理を実行する。取得時期tは、例えば、24時間毎、6時間毎といった一定の間隔で定められていてもよいし、間隔を定めずに、文書分析装置30の管理者や移動通信装置20のユーザが、随時、文書分析装置30に文書集合の取得を指示するようにしてもよい。
取得時期tは、整数で表される。つまり、文書分析装置30で処理中の文書集合が取得された時期をtとすると、前回の処理の対象であった文書集合の取得時期はt−1である。
The acquisition time t is a time when the
The acquisition time t is represented by an integer. That is, if the time when the document set being processed by the
文書集合を構成する文書は、どのように選択してもよい。例えば、投稿日時が最新のものから過去に遡って10万回分の投稿を取得してもよいし、過去24時間の投稿から無作為に10万回分の投稿を抽出して取得してもよい。
新語とは、過去に生成された語彙集合に含まれない単語である。既知語とは、過去に生成された語彙集合に含まれる単語である。
事前分布は、ベイズ推定における事前確率分布であり、事前分布に尤度関数を乗じることにより事後分布が生成される。
The documents that make up the document set may be selected in any way. For example, 100,000 postings may be acquired retroactively from the latest posting date, or 100,000 postings may be randomly extracted from postings for the past 24 hours.
A new word is a word that is not included in a vocabulary set generated in the past. A known word is a word included in a vocabulary set generated in the past.
The prior distribution is a prior probability distribution in Bayesian estimation, and a posterior distribution is generated by multiplying the prior distribution by a likelihood function.
次に、各処理の内容について説明する。
(2.1)トピック分布の生成
Next, the contents of each process will be described.
(2.1) Generation of topic distribution
(2.2)混合比の算出
(2.2) Calculation of mixing ratio
粒子フィルタの利点は、経時的に変化する値を推定するにあたり、前時刻における状態と現在時刻における入力値との間に状態方程式を必要としない点である。そのため、前時刻における状態からの現在時刻における入力値の予測が困難である今回の問題には最適な方式と言える。 The advantage of the particle filter is that no state equation is required between the state at the previous time and the input value at the current time in estimating the value that changes over time. Therefore, it can be said that this method is optimal for the current problem in which it is difficult to predict the input value at the current time from the state at the previous time.
図7は、粒子フィルタを利用した混合比の推定方法を示す図である。ここでは、取得時期t−1において、混合比として互いに異なる混合比に対応するN個の候補ρi (t-1)(ただし、i=1、2、・・・、N)を仮定し、それぞれを粒子フィルタにおける粒子として散布する。各粒子には、取得時期tにおける各粒子の最適な推定値ρi (t)に対する尤度wi (t-1)が対応付けられている。
時刻tにおいて、混合比算出手段302は、まず、各粒子を、これに対応する尤度に基づいて再散布する。具体的には、尤度を確率として、重複を許しつつ各粒子をN回散布する。これはすなわち、尤度の大きい粒子は複数回散布され、尤度の小さい粒子は散布されずに消滅する可能性があることを意味する。
FIG. 7 is a diagram illustrating a method for estimating a mixing ratio using a particle filter. Here, it is assumed that N candidates ρ i (t−1) (where i = 1, 2,..., N) corresponding to different mixing ratios as the mixing ratio at the acquisition time t−1. Each is dispersed as particles in a particle filter. Each particle is associated with the likelihood w i (t−1) for the optimum estimated value ρ i (t) of each particle at the acquisition time t.
At time t, the mixture
次に、混合比算出手段302は、各粒子を特定の距離に従ってランダムウォークさせる。距離は、あらかじめ与えられた固定値である分散値σを標準偏差とした正規分布により発生させる。ここで、ρi (t)は、0以上1以下であるから、その範囲を超えるような距離が発生した場合には、同じ方法で再度、距離を発生させる。ここで得られた各粒子は、取得時期tにおける粒子の状態を表すものとなる。
次に、各粒子に対して、新たな尤度wi (t)を算出する。尤度の算出方法については後述する。時刻tにおけるρi (t)は、尤度を重みとした各粒子の重み付き平均により、次式のとおり算出される。
Next, the mixing
Next, a new likelihood w i (t) is calculated for each particle. The likelihood calculation method will be described later. Ρ i (t) at time t is calculated from the weighted average of each particle with the likelihood as a weight, as follows:
要するに、混合比算出手段302は、前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する手段の一例である。
また、混合比算出手段302は、前記混合比の候補である互いに異なる複数の混合比に対応する第1の粒子群と、前記第1の粒子群に含まれる各粒子に対応付けた尤度からなる第1の尤度群とを仮定して、前記第1の粒子群を粒子フィルタにおける粒子として散布し、前記第1の尤度群に基づいて前記第1の粒子群を再散布することによって第2の尤度群を算出し、前記第2の尤度群を重みとした前記第1の粒子群の重み付き平均により前記混合比を算出する手段としても特定され得る。
In short, the mixture
In addition, the mixture
(2.3)事前分布の生成
事前分布の生成は、事前分布生成手段303によって実行される。
(2.3) Generation of Prior Distribution Generation of the prior distribution is executed by the prior
(2.4)事前分布の蓄積
また、トピック分布生成手段301は、前記第2の文書集合の後に前記取得手段によって第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成する。
(2.4) Accumulation of prior distribution
The topic
上述のとおり、本実施形態は、事前分布の平滑化を行うことにより、従来のDTMと比較して精度のよいトピック分布を生成可能となる。ここで言う精度がよいとは、文書をよくモデル化できているという意味である。これは、定量的には、perplexity(非特許文献2)により評価可能である。perplexityは、テスト文書に対するモデルの精度を示す指標であり、値が小さければ小さいほど良いモデルであることを表す。ここでは、取得時期t−1におけるトピック分布が、取得時期tに取得された文書をいかにモデル化できているか評価することを考える。この場合、perplexityは、下記の式で表される。
As described above, according to the present embodiment, it is possible to generate a topic distribution with higher accuracy than the conventional DTM by smoothing the prior distribution. Good accuracy here means that the document is well modeled. This can be quantitatively evaluated by perplexity (Non-Patent Document 2). The perplexity is an index indicating the accuracy of the model for the test document. The smaller the value, the better the model. Here, it is considered to evaluate how the topic distribution at the acquisition time t−1 models the document acquired at the acquisition time t. In this case, perplexity is expressed by the following equation.
表3は、実際に本実施形態のシステムを実装し、perplexityを評価した結果を示す表である。この評価結果は、2011年2月から3月のTwitterの投稿を1日20万ずつ収集し、そのデータに対して、トピックの経時的な変化を考慮しない通常のLDA、DTM、本実施形態の3つの方式を適用した場合のperplexityを示したものである。なお、DTMと本実施形態に関しては、2011年2月1日から3月31日まで動作させ、3月30日のトピック分布と3月31日の文書を利用してperplexityを導出した。通常のLDAに関しては、3月30日の文書のみからトピック分布を導出し、同じく3月31日の文書を利用してperplexityを導出した。さらに、本実施形態は、粒子フィルタのランダムウォークの距離σによって性能が異なるため、σ=0、0.05、0.1、0.15の4つの値でperplexityを算出した。 Table 3 is a table showing the results of actually implementing the system of the present embodiment and evaluating the perplexity. This evaluation result was collected from Twitter posts from February to March 2011 at a rate of 200,000 a day, and for that data, regular LDA, DTM, which does not take into account changes in topics over time, The perplexity when the three methods are applied is shown. The DTM and the present embodiment are operated from February 1, 2011 to March 31, 2011, and the perplexity is derived using the topic distribution on March 30 and the document on March 31. For ordinary LDA, the topic distribution was derived only from the March 30 document, and the perplexity was derived using the March 31 document. Further, since the performance of the present embodiment varies depending on the distance σ of the random walk of the particle filter, the perplexity is calculated with four values of σ = 0, 0.05, 0.1, and 0.15.
この評価結果より、DTMは通常のLDAと比較して、はるかに性能が向上するが、本実施形態のシステムは、DTMよりもさらに性能が向上していることが分かる。また、今回の評価に用いたデータセットでは、σ=0.1の場合に最も良い性能となることがわかる。
(3)変形例
上記の実施形態を次のように変形してもよい。また、以下の変形例を組み合わせて実施してもよい。
(3.1)変形例1
実施形態では、マイクロブログに投稿された文書集合を分析する例を示したが、他の種類の文書集合を分析するようにしてもよい。
例えば、ウェブサーバ装置40がニュースの記事を配信するサーバである場合、文書集合として、特定の期間に配信される記事を取得し、この文書集合に対して実施形態と同様の処理を行ってもよい。また、ウェブサーバ装置40がSNSを管理するサーバである場合、文書集合として、特定の期間にSNS上で取り交わされるコメントを取得し、この文書集合に対して実施形態と同様の処理を行ってもよい。
(3) Modifications The above embodiment may be modified as follows. Moreover, you may implement combining the following modifications.
(3.1)
In the embodiment, an example of analyzing a document set posted on a microblog has been shown. However, other types of document sets may be analyzed.
For example, when the
(3.2)変形例2
実施形態では、文書の配信先が移動通信装置である例を示したが、文書の配信先はどのような装置でもよい。例えば、インターネットに接続された据え置き型のコンピュータでもよい。
実施形態では、文書分析装置30の制御部31がプログラムを実行することによって処理を実行する例を示したが、同様の機能をハードウェアで実装するようにしてもよい。また、このプログラムを、光記録媒体、半導体メモリ等、コンピュータで読み取り可能な記録媒体に記録して提供し、この記録媒体からプログラムを読み取って文書分析装置30の記憶部33に記憶させるようにしてもよい。また、このプログラムを電気通信回線経由で提供してもよい。
(3.2)
In the embodiment, the example in which the document delivery destination is the mobile communication device has been described, but the document delivery destination may be any device. For example, a stationary computer connected to the Internet may be used.
In the embodiment, an example in which the
1…通信システム、10…移動通信ネットワーク、20…移動通信装置、30…文書分析装置、40…ウェブサーバ装置、50…インターネット、60…ゲートウェイ装置、31…制御部、32…通信部、33…記憶部、301…トピック分布生成手段、302…混合比算出手段、303…事前分布生成手段、304…事前分布蓄積手段
DESCRIPTION OF
Claims (4)
過去に前記取得手段によって取得された第1の文書集合に含まれる各単語の出現回数の多項分布である第1の事前分布に基づいて、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合に含まれる各単語の出現回数の多項分布である単語分布を生成し、当該単語分布で特徴付けられる各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、
前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する混合比算出手段と、
前記第1の事前分布と前記単語分布とを前記混合比にて混合することにより、第2の事前分布を生成する事前分布生成手段と、
前記第2の事前分布を蓄積する事前分布蓄積手段と
を有し、
前記トピック分布生成手段は、前記第2の文書集合の後に前記取得手段によって第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成する
ことを特徴とする文書分析装置。 An acquisition means for acquiring a document set from an external device;
Based on a first prior distribution that is a multinomial distribution of the number of occurrences of each word included in the first document set acquired by the acquisition unit in the past, the acquisition unit acquires the first document set after the first document set. Generating a word distribution that is a multinomial distribution of the number of occurrences of each word included in the second document set, and generating a topic distribution that is a multinomial distribution of the number of occurrences of each topic characterized by the word distribution Means,
A mixing ratio calculating means for calculating a mixing ratio between the first prior distribution and the word distribution based on the first prior distribution;
A prior distribution generating means for generating a second prior distribution by mixing the first prior distribution and the word distribution at the mixing ratio;
A prior distribution accumulation means for accumulating the second prior distribution;
The topic distribution generation unit is a word that is a multinomial distribution of the number of occurrences of each word included in the third document set when the acquisition unit acquires a third document after the second document set. A document analysis apparatus characterized in that a distribution is generated based on the second prior distribution.
ことを特徴とする請求項1に記載の文書分析装置。 The mixture ratio calculation means includes a first particle group corresponding to a plurality of different mixture ratios that are candidates for the mixture ratio, and a likelihood associated with each particle included in the first particle group. Assuming one likelihood group, the first particle group is dispersed as particles in a particle filter, and the first particle group is re-dispersed based on the first likelihood group. 2. The document analysis apparatus according to claim 1, wherein the likelihood ratio is calculated, and the mixture ratio is calculated by a weighted average of the first particle group using the second likelihood group as a weight. .
前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する混合比算出ステップと、
前記第1の事前分布と前記単語分布とを前記混合比にて混合することにより、第2の事前分布を生成する事前分布生成ステップと、
前記第2の事前分布を蓄積する事前分布蓄積ステップと
を有し、
前記トピック分布生成ステップにおいて、前記第2の文書集合の後に第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成する
ことを特徴とする文書分析方法。 Included in the second document set acquired after the first document set based on the first prior distribution which is a multinomial distribution of the number of occurrences of each word included in the first document set acquired in the past Generating a word distribution that is a multinomial distribution of the number of occurrences of each word, and generating a topic distribution that is a multinomial distribution of the number of occurrences of each topic characterized by the word distribution;
A mixing ratio calculating step for calculating a mixing ratio between the first prior distribution and the word distribution based on the first prior distribution;
A prior distribution generation step of generating a second prior distribution by mixing the first prior distribution and the word distribution at the mixing ratio;
A prior distribution accumulation step for accumulating the second prior distribution;
In the topic distribution generation step, when a third document is acquired after the second document set, a word distribution that is a multinomial distribution of the number of occurrences of each word included in the third document set is A document analysis method, wherein the document analysis method is generated based on the second prior distribution.
外部装置から文書集合を取得する取得手段と、
過去に前記取得手段によって取得された第1の文書集合に含まれる各単語の出現回数の多項分布である第1の事前分布に基づいて、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合に含まれる各単語の出現回数の多項分布である単語分布を生成し、当該単語分布で特徴付けられる各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、
前記第1の事前分布に基づいて、前記第1の事前分布と前記単語分布との混合比を算出する混合比算出手段と、
前記第1の事前分布と前記単語分布とを前記混合比にて混合することにより、第2の事前分布を生成する事前分布生成手段と、
前記第2の事前分布を蓄積する事前分布蓄積手段
として機能させるためのプログラムであって、
前記トピック分布生成手段は、前記第2の文書集合の後に前記取得手段によって第3の文書が取得された場合に、前記第3の文書集合に含まれる各単語の出現回数の多項分布である単語分布を、前記第2の事前分布に基づいて生成する
ことを特徴とするプログラム。 Computer
An acquisition means for acquiring a document set from an external device;
Based on a first prior distribution that is a multinomial distribution of the number of occurrences of each word included in the first document set acquired by the acquisition unit in the past, the acquisition unit acquires the first document set after the first document set. Generating a word distribution that is a multinomial distribution of the number of occurrences of each word included in the second document set, and generating a topic distribution that is a multinomial distribution of the number of occurrences of each topic characterized by the word distribution Means,
A mixing ratio calculating means for calculating a mixing ratio between the first prior distribution and the word distribution based on the first prior distribution;
A prior distribution generating means for generating a second prior distribution by mixing the first prior distribution and the word distribution at the mixing ratio;
A program for functioning as a prior distribution accumulation means for accumulating the second prior distribution,
The topic distribution generation unit is a word that is a multinomial distribution of the number of occurrences of each word included in the third document set when the acquisition unit acquires a third document after the second document set. A program for generating a distribution based on the second prior distribution.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011207562A JP2013069141A (en) | 2011-09-22 | 2011-09-22 | Document analysis device and document analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011207562A JP2013069141A (en) | 2011-09-22 | 2011-09-22 | Document analysis device and document analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013069141A true JP2013069141A (en) | 2013-04-18 |
Family
ID=48474777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011207562A Withdrawn JP2013069141A (en) | 2011-09-22 | 2011-09-22 | Document analysis device and document analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013069141A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016017171A1 (en) * | 2014-08-01 | 2016-02-04 | 日本電気株式会社 | Flow rate prediction device, mixing ratio estimation device, method, and computer-readable recording medium |
-
2011
- 2011-09-22 JP JP2011207562A patent/JP2013069141A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016017171A1 (en) * | 2014-08-01 | 2016-02-04 | 日本電気株式会社 | Flow rate prediction device, mixing ratio estimation device, method, and computer-readable recording medium |
US10445444B2 (en) | 2014-08-01 | 2019-10-15 | Nec Corporation | Flow rate prediction device, mixing ratio estimation device, method, and computer-readable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Domenico et al. | The anatomy of a scientific rumor | |
US10673804B2 (en) | Suggesting a message to user to post on a social network based on prior posts directed to same topic in a different tense | |
Zhang et al. | Human interactive patterns in temporal networks | |
US9584565B1 (en) | Methods for generating notifications in a shared workspace | |
CN103984775A (en) | Friend recommending method and equipment | |
Seufert et al. | Analysis of group-based communication in WhatsApp | |
US20150302019A1 (en) | Event occurence place estimation method, computer-readable recording medium storing event occurrence place estimation program, and event occurrence place estimation apparatus | |
CN103902621A (en) | Method and device for identifying network rumor | |
CN112115698B (en) | Techniques for generating topic models | |
Chandramouli | Emerging social media threats: Technology and policy perspectives | |
Rodríguez-Rodríguez et al. | How are universities using Information and Communication Technologies to face sexual harassment and how can they improve? | |
Wani et al. | A survey on impact of social media on election system | |
Chadha et al. | The writing is on the wall, or is it? Exploring Indian activists’ beliefs about online social media’s potential for social change | |
Schroeder et al. | The connectivity network underlying the German’s Twittersphere: a testbed for investigating information spreading phenomena | |
CN111557014A (en) | Method and system for providing multiple personal data | |
Nusratullah et al. | Detecting changes in context using time series analysis of social network | |
KR101679348B1 (en) | Device, method for providing social network service and computer readable recording medium | |
US20150371162A1 (en) | System and method for identifying enterprise risks emanating from social networks | |
US9634978B2 (en) | Systems and methods for improving efficiency of electronic transmission of messages | |
KR101689316B1 (en) | Effect analysis method for viral marketing of social network service | |
Dyagilev et al. | Generative models for rapid information propagation | |
JP2013069141A (en) | Document analysis device and document analysis method | |
Ahmed et al. | Development of a rumor and spam reporting and removal tool for social media | |
Youssef | Online social network internetworking analysis | |
EP3040915A1 (en) | Method and apparatus for identifying trends |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141202 |