JP2013069140A - Document analysis device and document analysis method - Google Patents

Document analysis device and document analysis method Download PDF

Info

Publication number
JP2013069140A
JP2013069140A JP2011207561A JP2011207561A JP2013069140A JP 2013069140 A JP2013069140 A JP 2013069140A JP 2011207561 A JP2011207561 A JP 2011207561A JP 2011207561 A JP2011207561 A JP 2011207561A JP 2013069140 A JP2013069140 A JP 2013069140A
Authority
JP
Japan
Prior art keywords
distribution
word
vocabulary
document
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011207561A
Other languages
Japanese (ja)
Inventor
Hiroshi Fujimoto
拓 藤本
Minoru Eto
稔 栄藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2011207561A priority Critical patent/JP2013069140A/en
Publication of JP2013069140A publication Critical patent/JP2013069140A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To generate topic distribution with high accuracy even in an environment where new words may emerge.SOLUTION: Vocabulary set generation means 301 generates a first vocabulary set representing vocabulary of a first document set that is obtained in the past and a second vocabulary set representing vocabulary of a second document set that is obtained after the first document set. Prior distribution generation means 302 generates prior distribution of a frequency of appearance of each word included in the second vocabulary set on the basis of first word distribution which is polynomial distribution of a frequency of appearance of each word included in the first vocabulary set. Topic distribution generation means 303 generates second word distribution which is polynomial distribution of a frequency of appearance of each word included in the second vocabulary set on the basis of the prior distribution, and topic distribution which is polynomial distribution of a frequency of appearance of each topic characterized by the second word distribution. Prior state accumulation means 304 accumulates the second word distribution and the second vocabulary set.

Description

本発明は、文書からトピックを抽出する技術に関する。   The present invention relates to a technique for extracting a topic from a document.

Twitter(登録商標)などのマイクロブログに投稿される文章、ニュース専門サイトで提供される記事、SNS(ソーシャルネットワーキングサービス)上で取り交わされるコメントなど、インターネット上では日々、大量の文書が生成される。
インターネット上で話題となっている事柄を抽出する技術の一つとして、Buzztterが知られている。Buzztterは、Twitterに投稿された文章から出現頻度の高い単語をリアルタイムに抽出してユーザの端末に配信する。
Massive documents are generated every day on the Internet, such as text posted on microblogs such as Twitter (registered trademark), articles provided on news special sites, comments exchanged on SNS (social networking service), etc. .
Buzztter is known as one of the techniques for extracting matters that have become a hot topic on the Internet. Buzztter extracts words that appear frequently from text posted on Twitter in real time and distributes them to the user's terminal.

文書上の単語の出現頻度を支配する潜在的な要因であるトピックを文書から抽出するトピックモデルの一つに、Latent Dirichlet Allocation(以下、「LDA」という。例えば、非特許文献1。)がある。図1は、LDAのグラフィカルモデルを示す図である。表1は、図1における各記号の意味を示す表である。

Figure 2013069140
As one of topic models for extracting a topic, which is a potential factor that governs the appearance frequency of words on a document, from documents, there is Latent Dirichlet Allocation (hereinafter referred to as “LDA”, for example, Non-Patent Document 1). . FIG. 1 is a diagram showing a graphical model of LDA. Table 1 is a table showing the meaning of each symbol in FIG.
Figure 2013069140

LDAは、各文書に複数のトピックが存在し、各文書において各トピックが或る確率で出現し、各トピックに対応する単語が複数存在し、各トピックにおいて各単語が或る確率で出現するという仮定のもとで、各単語の出現回数の多項分布(以下、「単語分布」という。)で各トピックを特徴付けるとともに、各トピックの出現回数の多項分布(以下、「トピック分布」という。)で各文書を特徴付ける手法である。例えば、Twitterに投稿された一つの文章(以下、「tweet」という。)を文書として捉えた場合に、地震発生直後では、地震や津波に関するトピックを多く含む文書が多数生成されることとなり、地震に関するトピックは、「地震」、「震度」、「地震速報」などの各単語(単語の組み合わせも含む)の出現回数の多項分布で特徴付けられ、津波に関するトピックは、「津波」、「高さ」、「到達時刻」などの各単語の出現回数の多項分布で特徴付けられることとなる。   In LDA, there are a plurality of topics in each document, each topic appears in each document with a certain probability, a plurality of words corresponding to each topic exist, and each word appears in each topic with a certain probability. Under the assumption, each topic is characterized by a multinomial distribution of the number of occurrences of each word (hereinafter referred to as “word distribution”), and a multinomial distribution of the number of occurrences of each topic (hereinafter referred to as “topic distribution”). This is a technique for characterizing each document. For example, if one sentence posted on Twitter (hereinafter referred to as “tweet”) is captured as a document, immediately after the earthquake occurs, many documents containing many topics related to earthquakes and tsunamis will be generated. The topic about is characterized by a multinomial distribution of the number of occurrences of each word (including word combinations) such as “earthquake”, “seismic intensity”, “earthquake breaking news”, and the topics about tsunami are “tsunami”, “height ”,“ Arrival time ”and the like, which are characterized by a multinomial distribution of the number of appearances of each word.

従来のLDAは、あらかじめ与えられた特定の文書集合からトピックを抽出するように構成されている。従って、経時的に内容が変化するような文書集合において、トピックの変化を抽出することはできない。これに対して、経時的に内容が変化する文書集合の分析に適用可能となるようにLDAを拡張した技術として、Dynamic Topic Model(以下、「DTM」という。例えば、非特許文献2。)がある。図2は、DTMのグラフィカルモデルを示す図である。tは、文書集合を取得する時期である。取得時期t毎に文書集合D(t)が入力され、取得時期t毎の単語分布β(t)、トピック分布θ(t)を生成する。DTMの特徴は、取得時期t−1における単語分布β(t-1)が取得時期tにおける単語分布β(t)の事前分布となっている点、言い換えれば、過去のトピックから現在のトピックを抽出する点である。そのため、β(t)をβ(t-1)と比較することで、トピックの経時的な変化を観測することができる。また、現在のトピックに過去のトピックの影響が反映されるので、特定の取得時期だけの文書集合からトピックを抽出する場合と比較して、現在の文書集合に過学習しない結果が得られる。これにより、次の取得時期t+1の文書集合に含まれるトピックを高精度に予測することができる。 The conventional LDA is configured to extract topics from a specific document set given in advance. Therefore, topic changes cannot be extracted from a document set whose contents change over time. On the other hand, Dynamic Topic Model (hereinafter referred to as “DTM”, for example, Non-Patent Document 2) is a technique that extends LDA so that it can be applied to analysis of a document set whose contents change over time. is there. FIG. 2 is a diagram showing a graphical model of DTM. t is the time when the document set is acquired. A document set D (t) is input for each acquisition time t, and a word distribution β (t) and topic distribution θ (t) for each acquisition time t are generated. The feature of DTM is that the word distribution β (t−1) at the acquisition time t−1 is a prior distribution of the word distribution β (t) at the acquisition time t, in other words, the current topic from the past topic. It is a point to extract. Therefore, by comparing β (t) with β (t-1) , it is possible to observe changes in the topic over time. In addition, since the influence of past topics is reflected on the current topic, a result that does not overlearn the current document set can be obtained as compared with the case of extracting a topic from a document set only at a specific acquisition time. As a result, topics included in the document set at the next acquisition time t + 1 can be predicted with high accuracy.

D. M. Blei, A. N. Ng, and M. I. Jordan. Latent dirichlet allocation. In Journal of Machine Learning Research archive., 2003.D. M. Blei, A. N. Ng, and M. I. Jordan. Latent dirichlet allocation. In Journal of Machine Learning Research archive., 2003. D. M. Blei and J. D. Lafferty. Dynamic Topic Models. In Proc. of the 23rd international conference on Machine learning.,2006.D. M. Blei and J. D. Lafferty. Dynamic Topic Models. In Proc. Of the 23rd international conference on Machine learning., 2006.

図3は、2011年2月1日から3月31日までの期間中にTwitterに投稿された1日当たり20万回のtweetを分析した結果を示すグラフである。累積単語数は、tweetに出現した単語の数の累積値である。新語数は、tweetに出現した単語のうち、当該期間開始後に初めて観測された単語(すなわち、新語)の数である。同図に示す通り、観測開始から2か月が経過した後でも、1日5000語程度の新語が発生し続けていることが分かる。ところが、DTMは、あらかじめ固定された語彙集合の範囲内でトピック抽出を行うため、ある時刻において新語が発生した場合であっても、それを考慮したトピック抽出は行われず、トピックを表す単語に新語が加わることはない。従って、図3に示したように日々、新語が発生し続けるような環境では、時間が経つにつれてトピック抽出の精度が低下していくことになる。
本発明は、上述の背景に鑑みてなされたものであり、新語が発生し得る環境においても精度の高いトピック分布を生成することを目的とする。
FIG. 3 is a graph showing the results of analyzing 200,000 tweets per day posted on Twitter during the period from February 1 to March 31, 2011. The cumulative word count is a cumulative value of the number of words that appear in the tweet. The number of new words is the number of words (that is, new words) observed for the first time after the start of the period among the words appearing in the tweet. As shown in the figure, even after two months have passed since the start of observation, it can be seen that about 5000 new words continue to be generated per day. However, since DTM performs topic extraction within a fixed vocabulary set, even if a new word occurs at a certain time, topic extraction is not performed in consideration of it, and a new word is added to the word representing the topic. Will not be added. Therefore, as shown in FIG. 3, in an environment in which new words continue to be generated every day, the accuracy of topic extraction decreases with time.
The present invention has been made in view of the above-described background, and an object thereof is to generate a topic distribution with high accuracy even in an environment where a new word can be generated.

請求項1に係る文書分析装置は、外部装置から文書集合を取得する取得手段と、過去に前記取得手段によって取得された第1の文書集合の語彙を表す第1の語彙集合と、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合を生成する語彙集合生成手段と、前記第1の語彙集合に含まれる各単語の出現回数の多項分布である第1の単語分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の事前分布を生成する事前分布生成手段と、前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、前記第2の単語分布と前記第2の語彙集合とを蓄積する事前状態蓄積手段とを有することを特徴とする。   The document analysis apparatus according to claim 1 is an acquisition unit that acquires a document set from an external device, a first vocabulary set that represents a vocabulary of the first document set acquired by the acquisition unit in the past, and the first A vocabulary set generating means for generating a second vocabulary set representing the vocabulary of the second document set based on the second document set acquired by the acquiring means after the document set of A prior distribution generation means for generating a prior distribution of the number of appearances of each word included in the second vocabulary set based on a first word distribution that is a multinomial distribution of the number of appearances of each word included in the vocabulary set; Based on the prior distribution, a second word distribution that is a multinomial distribution of the number of occurrences of each word included in the second vocabulary set is generated, and each topic characterized by the second word distribution is generated. For topics that are multinomial distributions of occurrences And having a Topic distribution generating means for generating, a pre-condition storing means for storing said second vocabulary set and the second word distribution.

請求項2に係る文書分析装置は、請求項1に記載の文書分析装置において、前記語彙集合生成手段は、前記第2の文書集合に含まれる単語のうち、前記第1の語彙集合に含まれない単語の集合である新語集合と、前記第1の語彙集合の一部又は全部を含む既知語集合とを生成し、前記事前分布生成手段は、前記新語集合に対応する事前分布を生成する一方、前記第1の単語分布のうち前記既知語集合に対応する単語分布を前記既知語集合に対応する事前分布として用いることを特徴とする。   The document analysis apparatus according to claim 2 is the document analysis apparatus according to claim 1, wherein the vocabulary set generation unit is included in the first vocabulary set among words included in the second document set. A new word set that is a set of non-words and a known word set including part or all of the first vocabulary set, and the prior distribution generation means generates a prior distribution corresponding to the new word set On the other hand, a word distribution corresponding to the known word set in the first word distribution is used as a prior distribution corresponding to the known word set.

請求項3に係る文書分析装置は、請求項2に記載の文書分析装置において、前記事前分布生成手段は、前記新語集合に対応する事前分布を、前記第1の単語分布の平均値により生成することを特徴とする。
請求項4に係る文書分析装置は、請求項2に記載の文書分析装置において、前記語彙集合生成手段は、前記第1の語彙集合に含まれる単語のうち、いずれかのトピックにおいて出現回数が閾値以上である単語により前記既知語集合を生成することを特徴とする。
The document analysis apparatus according to claim 3 is the document analysis apparatus according to claim 2, wherein the prior distribution generation unit generates a prior distribution corresponding to the new word set based on an average value of the first word distribution. It is characterized by doing.
The document analysis device according to claim 4 is the document analysis device according to claim 2, wherein the vocabulary set generation means has a threshold of occurrence in any topic among words included in the first vocabulary set. The known word set is generated from the above words.

請求項5に係る文書分析方法は、過去に取得された第1の文書集合の語彙を表す第1の語彙集合と、前記第1の文書集合の後に取得された第2の文書集合とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合を生成する語彙集合生成ステップと、前記第1の語彙集合に含まれる各単語の出現回数の多項分布である第1の単語分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の事前分布を生成する事前分布生成ステップと、前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成ステップと、前記第2の単語分布と前記第2の語彙集合とを蓄積する事前状態蓄積ステップとを有することを特徴とする。   The document analysis method according to claim 5 is based on a first vocabulary set representing a vocabulary of the first document set acquired in the past and a second document set acquired after the first document set. A vocabulary set generation step for generating a second vocabulary set representing the vocabulary of the second document set, and a first word distribution that is a multinomial distribution of the number of occurrences of each word included in the first vocabulary set A prior distribution generating step for generating a prior distribution of the number of occurrences of each word included in the second vocabulary set based on the first distribution, and a prior distribution of each word included in the second vocabulary set based on the prior distribution A topic distribution generation step of generating a second word distribution that is a multinomial distribution of the number of occurrences, and generating a topic distribution that is a multinomial distribution of the number of appearances of each topic characterized by the second word distribution; 2 word distribution and the second vocabulary And having a pre-condition storage step for storing and covering.

請求項6に係るプログラムは、コンピュータを、外部装置から文書集合を取得する取得手段と、過去に前記取得手段によって取得された第1の文書集合の語彙を表す第1の語彙集合と、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合を生成する語彙集合生成手段と、前記第1の語彙集合に含まれる各単語の出現回数の多項分布である第1の単語分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の事前分布を生成する事前分布生成手段と、前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、前記第2の単語分布と前記第2の語彙集合とを蓄積する事前状態蓄積手段として機能させることを特徴とする。   According to a sixth aspect of the present invention, there is provided a program for acquiring a document set from an external device, a first vocabulary set representing a vocabulary of a first document set acquired by the acquisition unit in the past, and the first A vocabulary set generating means for generating a second vocabulary set representing a vocabulary of the second document set based on a second document set acquired by the acquiring means after the first document set; Pre-distribution generation means for generating a prior distribution of the number of appearances of each word included in the second vocabulary set based on a first word distribution that is a multinomial distribution of the number of appearances of each word included in the vocabulary set of Based on the prior distribution, each topic characterized by the second word distribution is generated by generating a second word distribution which is a multinomial distribution of the number of occurrences of each word included in the second vocabulary set. Multinomial distribution of the number of occurrences of And topic distribution generating means for generating a topic distribution that is characterized in that to function as a pre-condition storing means for storing said second vocabulary set and the second word distribution.

本発明によれば、新語が発生し得る環境においても精度の高いトピック分布を生成することができる。   According to the present invention, it is possible to generate a topic distribution with high accuracy even in an environment where a new word can be generated.

LDAのグラフィカルモデルを示す図である。It is a figure which shows the graphical model of LDA. DTMのグラフィカルモデルを示す図である。It is a figure which shows the graphical model of DTM. Twitterに投稿されたtweetを分析した結果を示すグラフである。It is a graph which shows the result of having analyzed the tweet posted by Twitter. 通信システム1の構成を示す図である。1 is a diagram illustrating a configuration of a communication system 1. FIG. 文書分析装置30のハードウェア構成を示すブロック図である。2 is a block diagram showing a hardware configuration of a document analysis device 30. FIG. 文書分析装置30の機能を示すブロック図である。4 is a block diagram illustrating functions of the document analysis device 30. FIG. 文書分析装置30が実行する処理の流れを示す図である。It is a figure which shows the flow of the process which the document analysis apparatus 30 performs. 語彙集合のサイズ、新語数、及び削除される語数を示す図である。It is a figure which shows the size of a vocabulary set, the number of new words, and the number of words deleted.

本発明の実施形態について説明する。
(1)実施形態の構成
図4は、本発明の実施形態に係る通信システム1の構成を示す図である。通信システム1は、移動通信ネットワーク10と、移動通信装置20と、移動通信ネットワーク10にゲートウェイ装置60を介して接続されたインターネット50と、ゲートウェイ装置60に接続された文書分析装置30と、インターネット50に接続された複数のウェブサーバ装置40とを備えている。
An embodiment of the present invention will be described.
(1) Configuration of Embodiment FIG. 4 is a diagram illustrating a configuration of the communication system 1 according to the embodiment of the present invention. The communication system 1 includes a mobile communication network 10, a mobile communication device 20, an Internet 50 connected to the mobile communication network 10 via a gateway device 60, a document analysis device 30 connected to the gateway device 60, and an Internet 50. And a plurality of web server devices 40 connected to each other.

移動通信装置20は、例えば携帯電話機などの通信可能なコンピュータであり、CPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶装置からなる制御部と、EEPROM(Electronically Erasable and Programmable ROM)やバックアップ電源を備えたSRAM(Static Random Access Memory)などの記憶部と、アンテナや無線通信回路からなる無線通信部と、スピーカ、マイクロホン及び音声処理回路からなる音声入出力部と、複数のキーやタッチスクリーンなどの操作子を備えた操作部と、液晶パネルや液晶駆動回路からなる表示部とを備えている。この移動通信装置20において、制御部は、操作部が受け付けたユーザの操作に応じて、通信部を制御することにより移動通信ネットワーク10及びインターネット50経由でウェブサーバ装置40にアクセスし、そのウェブサーバ装置40に蓄積されている情報を取得して、表示部に表示させる。これにより、ユーザはインターネット50上にある様々な情報にアクセスし、それを閲覧することができる。   The mobile communication device 20 is a communicable computer such as a cellular phone, for example, and includes a control unit including an arithmetic device such as a CPU (Central Processing Unit) and a storage device such as a ROM (Read Only Memory) and a RAM (Random Access Memory). And a storage unit such as an EEPROM (Electronically Erasable and Programmable ROM) or SRAM (Static Random Access Memory) with a backup power source, a wireless communication unit including an antenna and a wireless communication circuit, a speaker, a microphone, and a sound processing circuit A voice input / output unit, an operation unit having a plurality of operators such as keys and a touch screen, and a display unit including a liquid crystal panel and a liquid crystal driving circuit are provided. In this mobile communication device 20, the control unit accesses the web server device 40 via the mobile communication network 10 and the Internet 50 by controlling the communication unit in accordance with a user operation received by the operation unit, and the web server. Information stored in the device 40 is acquired and displayed on the display unit. Thereby, the user can access and browse various information on the Internet 50.

移動通信ネットワーク10は、移動通信装置20に通信サービスを提供するネットワークである。この移動通信ネットワーク10は、自局の無線セル内に存在する移動通信装置20との間で無線通信を行う基地局、ネットワーク内で伝送されるデータのルーティングを行う交換局、及び移動通信装置20の位置登録などを行う制御局といった各種ノードと、これらのノード間を相互に接続する通信線とを備えている。   The mobile communication network 10 is a network that provides a communication service to the mobile communication device 20. The mobile communication network 10 includes a base station that performs wireless communication with a mobile communication device 20 that exists in a wireless cell of the mobile station, an exchange that performs routing of data transmitted in the network, and the mobile communication device 20. Are provided with various nodes such as a control station for performing location registration, and a communication line for interconnecting these nodes.

ウェブサーバ装置40は、コンピュータであり、CPUなどの演算装置とROM及びRAMなどの記憶装置からなる制御部と、ハードディスク装置などの記憶部と、インターネット50に接続された通信部とを備えている。このウェブサーバ装置40は、インターネット50及び移動通信ネットワーク10経由で移動通信装置20との間でデータ通信を行う機能を備えている。ウェブサーバ装置40は、マイクロブログのサービスを提供するサーバであり、ユーザがこのサービスの利用者としてウェブサーバ装置40に登録すると、このユーザに対してマイクロブログへの投稿が許可される。ユーザが移動通信装置20を用いてこのマイクロブログへ文章を投稿すると、ウェブサーバ装置40が当該文章を当該移動通信装置20に返信することにより、当該移動通信装置20の表示部に当該文章が表示される。また、当該ユーザが他のユーザを登録した場合に、当該他のユーザの投稿した文章も表示部に表示される。このようにして、複数のユーザ間でコミュニケーションを取ることが可能となる。   The web server device 40 is a computer, and includes a control unit including a calculation device such as a CPU and a storage device such as a ROM and a RAM, a storage unit such as a hard disk device, and a communication unit connected to the Internet 50. . The web server device 40 has a function of performing data communication with the mobile communication device 20 via the Internet 50 and the mobile communication network 10. The web server device 40 is a server that provides a microblog service. When a user registers in the web server device 40 as a user of this service, the user is allowed to post to the microblog. When a user posts a text to the microblog using the mobile communication device 20, the web server device 40 sends the text back to the mobile communication device 20, whereby the text is displayed on the display unit of the mobile communication device 20. Is done. In addition, when the user registers another user, the text posted by the other user is also displayed on the display unit. In this way, it is possible to communicate among a plurality of users.

(2)文書分析装置の構成
図5は、文書分析装置30のハードウェア構成を示すブロック図である。文書分析装置30は、コンピュータであり、制御部31と、通信部32と、記憶部33とを備えている。制御部31は、CPUなどの演算装置と、ROM及びRAMなどの記憶装置とを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶部33に記憶されたプログラム群を実行することによって、文書分析装置30の各部の動作を制御する。
(2) Configuration of Document Analysis Device FIG. 5 is a block diagram showing a hardware configuration of the document analysis device 30. The document analysis apparatus 30 is a computer and includes a control unit 31, a communication unit 32, and a storage unit 33. The control unit 31 includes an arithmetic device such as a CPU and a storage device such as a ROM and a RAM. The CPU controls the operation of each unit of the document analysis apparatus 30 by executing a program group stored in the ROM or the storage unit 33 using the RAM as a work area.

通信部32は、通信インタフェースを備えており、ゲートウェイ装置60に接続されている。通信部32は、ゲートウェイ装置60が中継する、ウェブサーバ装置40から移動通信装置20に配信された文書集合をゲートウェイ装置60から取得して、文書分析装置30に入力する。つまり、通信部32は、外部装置から文書集合を取得する取得手段の一例である。
記憶部33は、書き込み可能な不揮発性の記憶手段であり、例えばハードディスク装置である。この記憶部33には、制御部31が実行する処理の手順が記述されたプログラム群を記憶している。また、記憶部33は、ゲートウェイ装置60から取得した、ウェブサーバ装置40が移動通信装置20に配信する情報を記憶する記憶領域を有している。
The communication unit 32 includes a communication interface and is connected to the gateway device 60. The communication unit 32 acquires a document set distributed from the web server device 40 to the mobile communication device 20 relayed by the gateway device 60 from the gateway device 60 and inputs the document set to the document analysis device 30. That is, the communication unit 32 is an example of an acquisition unit that acquires a document set from an external device.
The storage unit 33 is a writable nonvolatile storage unit, for example, a hard disk device. The storage unit 33 stores a program group in which a procedure of processing executed by the control unit 31 is described. In addition, the storage unit 33 has a storage area for storing information acquired from the gateway device 60 and distributed to the mobile communication device 20 by the web server device 40.

図6は、本実施形態に係る文書分析装置30の機能構成を示すブロック図である。表2は、実施形態の説明で用いる記号とその意味を示す表である。

Figure 2013069140
FIG. 6 is a block diagram illustrating a functional configuration of the document analysis apparatus 30 according to the present embodiment. Table 2 shows symbols used in the description of the embodiments and their meanings.
Figure 2013069140

文書分析装置30は、語彙集合生成手段301、事前分布生成手段302、トピック分布生成手段303及び事前状態蓄積手段304を有する。文書分析装置30が実行する処理は、主に、語彙集合の生成、事前分布の生成、トピック分布の生成、事前状態の蓄積、の4つである。
ここで、以下の説明で使用する用語について説明する。
本実施形態では、マイクロブログに投稿された文章(テキストデータ)を分析の対象とし、1回の投稿で移動通信装置20からウェブサーバ装置40に送信された文章を文書と呼ぶ。文書集合とは、1つ又は複数の文書からなる集合である。
単語とは、文書を構成する単語であり、日本語では形態素に相当する。単語は、どの品詞でもよい。
The document analysis apparatus 30 includes a vocabulary set generation unit 301, a prior distribution generation unit 302, a topic distribution generation unit 303, and a prior state accumulation unit 304. There are mainly four processes executed by the document analysis device 30: vocabulary set generation, prior distribution generation, topic distribution generation, and prior state accumulation.
Here, terms used in the following description will be described.
In this embodiment, a sentence (text data) posted on a microblog is an object of analysis, and a sentence transmitted from the mobile communication device 20 to the web server device 40 in one posting is called a document. A document set is a set of one or more documents.
A word is a word constituting a document and corresponds to a morpheme in Japanese. The word can be any part of speech.

取得時期tは、ウェブサーバ装置40から移動通信装置20に配信される文書集合を文書分析装置30がゲートウェイ装置60を介して取得する時期である。文書分析装置30は、文書集合の取得を契機として、以下に説明する一連の処理を実行する。取得時期tは、例えば、24時間毎、6時間毎といった一定の間隔で定められていてもよいし、間隔を定めずに、文書分析装置30の管理者や移動通信装置20のユーザが、随時、文書分析装置30に文書集合の取得を指示するようにしてもよい。
取得時期tは、整数で表される。つまり、文書分析装置30で処理中の文書集合が取得された時期をtとすると、前回の処理の対象であった文書集合の取得時期はt−1である。
The acquisition time t is a time when the document analysis device 30 acquires the document set distributed from the web server device 40 to the mobile communication device 20 via the gateway device 60. The document analysis apparatus 30 executes a series of processes described below, triggered by acquisition of a document set. For example, the acquisition time t may be set at regular intervals such as every 24 hours or every 6 hours, or the administrator of the document analysis device 30 or the user of the mobile communication device 20 may set the intervals at any time without setting the intervals. The document analysis apparatus 30 may be instructed to acquire a document set.
The acquisition time t is represented by an integer. That is, if the time when the document set being processed by the document analysis apparatus 30 is acquired is t, the acquisition time of the document set that was the object of the previous processing is t-1.

文書集合を構成する文書は、どのように選択してもよい。例えば、投稿日時が最新のものから過去に遡って10万回分の投稿を取得してもよいし、過去24時間の投稿から無作為に10万回分の投稿を抽出して取得してもよい。
新語とは、過去に生成された語彙集合に含まれない単語である。既知語とは、過去に生成された語彙集合に含まれる単語である。
事前分布は、ベイズ推定における事前確率分布であり、事前分布に尤度関数を乗じることにより事後分布が生成される。
The documents that make up the document set may be selected in any way. For example, 100,000 postings may be acquired retroactively from the latest posting date, or 100,000 postings may be randomly extracted from postings for the past 24 hours.
A new word is a word that is not included in a vocabulary set generated in the past. A known word is a word included in a vocabulary set generated in the past.
The prior distribution is a prior probability distribution in Bayesian estimation, and a posterior distribution is generated by multiplying the prior distribution by a likelihood function.

次に、各処理の内容について説明する。
(2.1)語彙集合の生成
語彙集合の生成は、語彙集合生成手段301によって実行される。語彙集合は、新語集合と既知語集合を結合したものに相当する。つまり、新語集合と既知語集合は、いずれも語彙集合の部分集合であり、語彙集合の生成は、新語集合の生成と既知語集合の生成とを含む。
語彙集合生成手段301は、取得時期tに取得された文書集合D(t)を形態素に分解し、各形態素を単語として以下の処理を実行する。
語彙集合生成手段301は、取得時期tに取得された文書集合D(t)から、取得時期tにおける新語集合Wn (t)を生成する(新語集合の生成)。新語集合Wn (t)は、取得時期tにおける文書集合D(t)に含まれる単語のうち、取得時期t−1における語彙集合W(t-1)に含まれない単語の集合である。語彙集合W(t-1)は、取得時期t−1までに取得された文書集合D(t-1)の語彙を表す語彙集合であり、事前状態蓄積手段304に蓄積されている。語彙集合生成手段301は、事前状態蓄積手段304から語彙集合W(t-1)を読み出し、文書集合D(t)に含まれる単語のうち、語彙集合W(t-1)に含まれない単語を抽出することにより、新語集合Wn (t)を生成する。
Next, the contents of each process will be described.
(2.1) Generation of Vocabulary Set Generation of a vocabulary set is executed by the vocabulary set generation unit 301. The vocabulary set corresponds to a combination of a new word set and a known word set. That is, the new word set and the known word set are both subsets of the vocabulary set, and generation of the vocabulary set includes generation of a new word set and generation of a known word set.
The vocabulary set generation unit 301 decomposes the document set D (t) acquired at the acquisition time t into morphemes, and executes the following processing using each morpheme as a word.
The vocabulary set generation unit 301 generates a new word set W n (t) at the acquisition time t from the document set D (t) acquired at the acquisition time t ( generation of a new word set). The new word set W n (t) is a set of words that are not included in the vocabulary set W (t−1) at the acquisition time t−1 among the words included in the document set D (t) at the acquisition time t. The vocabulary set W (t-1) is a vocabulary set representing the vocabulary of the document set D (t-1) acquired up to the acquisition time t-1, and is stored in the prior state storage unit 304. The vocabulary set generation unit 301 reads the vocabulary set W (t-1) from the prior state storage unit 304, and among the words included in the document set D (t) , the words not included in the vocabulary set W (t-1). To generate a new word set W n (t) .

また、語彙集合生成手段301は、語彙集合W(t-1)から、取得時期tにおける既知語集合Wo (t)を生成する(既知語集合の生成)。既知語集合Wo (t)は、語彙集合W(t-1)に含まれるすべての単語を含んでも良いが、その場合、時間が経過するにつれて、語彙集合のサイズが肥大化する可能性があるため、本実施形態では、語彙集合W(t-1)に含まれる語彙から既知語を選択することによって既知語集合Wo (t)を生成する。
既知語の選択方法の一例として、本実施形態では、陳腐化した単語を語彙集合W(t-1)から削除する。具体的には、各トピックは各単語の出現回数の多項分布で特徴付けられるので、出現回数が少ない単語ほど、トピックの生成に寄与する度合いが少ないことになる。トピックの生成に寄与する度合いの少ない単語は、トピックの生成において陳腐化した重要度の低い単語であり、その単語を削除したとしても、トピックモデルの精度を低下させることにはならないと考えられる。
Further, the vocabulary set generation means 301 generates a known word set W o (t) at the acquisition time t from the vocabulary set W (t−1) (generation of a known word set). The known word set W o (t) may include all the words included in the vocabulary set W (t−1) , but in that case, the size of the vocabulary set may increase as time passes. Therefore, in this embodiment, the known word set W o (t) is generated by selecting a known word from the vocabulary included in the vocabulary set W (t−1) .
As an example of a known word selection method, in this embodiment, an obsolete word is deleted from the vocabulary set W (t−1) . Specifically, since each topic is characterized by a multinomial distribution of the number of occurrences of each word, a word with a smaller number of appearances contributes less to the topic generation. Words that are less likely to contribute to topic generation are words of low importance that have become obsolete in topic generation, and even if the words are deleted, it is considered that the accuracy of the topic model will not be reduced.

単語の選択は、具体的には、次式に従って行う。

Figure 2013069140
Specifically, the word selection is performed according to the following equation.
Figure 2013069140

以上が、語彙集合生成手段301によって実行される処理の内容である。このようにして生成された新語集合Wn (t)と既知語集合Wo (t)を結合したものが、語彙集合W(t)である。
要するに、語彙集合生成手段301は、過去に前記取得手段によって取得された第1の文書集合(D(t-1))の語彙を表す第1の語彙集合(W(t-1))と、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合(D(t))とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合(W(t))を生成する手段の一例である。
また、語彙集合生成手段301は、前記第2の文書集合に含まれる単語のうち、前記第1の語彙集合に含まれない単語の集合である新語集合(Wn (t))と、前記第1の語彙集合の一部又は全部を含む既知語集合(Wo (t))とを生成する手段としても特定され得る。
また、語彙集合生成手段301は、前記第1の語彙集合に含まれる単語のうち、いずれかのトピックにおいて出現回数が閾値以上である単語により前記既知語集合を生成する手段としても特定され得る。
The above is the contents of the processing executed by the vocabulary set generation unit 301. A vocabulary set W (t) is a combination of the new word set W n (t) generated in this way and the known word set W o (t) .
In short, the vocabulary set generation unit 301 includes a first vocabulary set (W (t-1) ) representing the vocabulary of the first document set (D (t-1) ) acquired by the acquisition unit in the past, Based on the second document set (D (t) ) acquired by the acquisition means after the first document set, a second vocabulary set (W (t (t) ) representing the vocabulary of the second document set. ) ) Is an example of a means for generating.
The vocabulary set generation means 301 includes a new word set (W n (t) ) that is a set of words that are not included in the first vocabulary set among the words included in the second document set, and the first It can also be specified as a means for generating a known word set (W o (t) ) including a part or all of one vocabulary set.
The vocabulary set generation unit 301 can also be specified as a unit that generates the known word set from words included in the first vocabulary set, the number of appearances of which is greater than or equal to a threshold in any topic.

(2.2)事前分布の生成

Figure 2013069140
(2.2) Generation of prior distribution
Figure 2013069140

Figure 2013069140
Figure 2013069140

Figure 2013069140
Figure 2013069140

Figure 2013069140
Figure 2013069140

(2.3)トピック分布の生成

Figure 2013069140
要するに、トピック分布生成手段303は、前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布(β(t))を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布(θ(t))を生成する手段の一例である。 (2.3) Topic distribution generation
Figure 2013069140
In short, the topic distribution generation unit 303 generates a second word distribution (β (t) ) that is a multinomial distribution of the number of appearances of each word included in the second vocabulary set based on the prior distribution. This is an example of means for generating a topic distribution (θ (t) ) that is a multinomial distribution of the number of appearances of each topic characterized by the second word distribution.

(2.4)事前状態の蓄積
事前状態の蓄積は、事前状態蓄積手段304によって実行される。事前状態蓄積手段304は、トピック分布生成手段303によって生成された取得時期tにおける単語分布β(t)と、語彙集合生成手段301によって生成された取得時期tにおける語彙集合W(t)とを蓄積する。蓄積された単語分布β(t)と語彙集合W(t)は、次の取得時期において単語分布を生成する場合に、語彙集合生成手段301と事前分布生成手段302とトピック分布生成手段303によって参照される。
要するに、事前状態蓄積手段304は、前記第2の単語分布と前記第2の語彙集合とを蓄積する手段の一例である。
(2.4) Accumulation of Prior State Accumulation of the prior state is executed by the prior state accumulation unit 304. The prior state storage unit 304 stores the word distribution β (t) at the acquisition time t generated by the topic distribution generation unit 303 and the vocabulary set W (t) at the acquisition time t generated by the vocabulary set generation unit 301. To do. The accumulated word distribution β (t) and the vocabulary set W (t) are referred to by the vocabulary set generation unit 301, the prior distribution generation unit 302, and the topic distribution generation unit 303 when the word distribution is generated at the next acquisition time. Is done.
In short, the prior state accumulation unit 304 is an example of a unit that accumulates the second word distribution and the second vocabulary set.

(3)実施形態の動作
実施形態の動作について説明する(図5、図7参照)。図7は、文書分析装置30が実行する処理の流れを示す図である。
取得時期tに文書集合D(t)が入力されると、語彙集合生成手段301が、文書集合D(t)から新語集合Wn (t)を生成する。新語集合Wn (t)は、文書集合D(t)に含まれる単語のうち、語彙集合W(t-1)に含まれない単語の集合である。
また、語彙集合生成手段301は、語彙集合W(t-1)から、既知語集合Wo (t)を生成する。この際、語彙集合生成手段301は、語彙集合W(t-1)に含まれる語彙から既知語を選択することによって既知語集合Wo (t)を生成する。
(3) Operation of Embodiment The operation of the embodiment will be described (see FIGS. 5 and 7). FIG. 7 is a diagram showing a flow of processing executed by the document analysis apparatus 30.
When the document set D (t) is input at the acquisition time t, the vocabulary set generation unit 301 generates a new word set W n (t) from the document set D (t) . The new word set W n (t) is a set of words that are not included in the vocabulary set W (t−1) among the words included in the document set D (t) .
Further, the vocabulary set generation unit 301 generates a known word set W o (t) from the vocabulary set W (t−1) . At this time, the vocabulary set generation unit 301 generates a known word set W o (t) by selecting a known word from the vocabulary included in the vocabulary set W (t−1) .

図8は、閾値κを各トピックにおける単語の出現回数の1%に設定した場合の、語彙集合W(t-1)のサイズ、新語数、及び語彙集合W(t-1)から削除される語数を示す図である。語彙集合W(t-1)の母集団は、図3と同じものを使用した。図8によれば、語彙集合W(t-1)のサイズが図3の累積単語数の半分以下である25万語程度に収束していることがわかる。このように、陳腐化した単語を語彙集合W(t-1)から削除することにより、語彙集合W(t-1)のサイズが抑制され、計算量の増大による処理速度の低下を防ぐことが可能となる。
ただし、語彙集合W(t-1)から単語を削除しすぎると、陳腐化した単語だけでなくトピックの生成に寄与する重要な単語も削除されるおそれがあり、その場合、モデルの精度が低下する可能性がある。そのため、実際に運用する際に閾値κをどの程度に設定するかは、計算システムの処理能力と求められるトピックモデルの精度に応じて調整する必要がある。
FIG. 8 is deleted from the size of the vocabulary set W (t-1) , the number of new words, and the vocabulary set W (t-1) when the threshold κ is set to 1% of the number of occurrences of words in each topic. It is a figure which shows the number of words. The same vocabulary set W (t-1) as that of FIG. 3 was used. As can be seen from FIG. 8, the size of the vocabulary set W (t-1) converges to about 250,000 words, which is half or less of the cumulative number of words in FIG. Thus, by removing the obsolete word from the vocabulary set W (t-1), the size of inhibition vocabulary set W (t-1), preventing a decrease in processing speed by calculating the amount of increase in It becomes possible.
However, if too many words are deleted from the vocabulary set W (t-1) , not only obsolete words but also important words that contribute to topic generation may be deleted. In this case, the accuracy of the model decreases. there's a possibility that. Therefore, it is necessary to adjust how much the threshold value κ is set in actual operation according to the processing capability of the calculation system and the accuracy of the required topic model.

Figure 2013069140
生成されたトピック分布は、様々な用途に利用され得る。例えば、トピック分布に基づいてトピックのランキングを作成し、ランキングの上位何番目かまでに位置するトピックを示す情報を移動通信装置20のユーザに配信してもよい。また、同様の情報を予め契約した企業や団体に提供してもよい。
Figure 2013069140
The generated topic distribution can be used for various applications. For example, a ranking of topics may be created based on the topic distribution, and information indicating topics located up to the top number in the ranking may be distributed to the user of the mobile communication device 20. Moreover, you may provide the same information to the company and organization which contracted beforehand.

上記の実施形態によれば、文書集合が取得される度に語彙集合が更新されるので、新語が発生した場合に、新語が加わった語彙集合に基づいて文書の分析が行われる。よって、新語が発生し得る環境においても精度の高いトピック分布を生成することができる。
また、既知語については過去に生成されたトピック分布を事前分布として用いるので、処理に要する時間を削減することができる。
また、新語については過去に生成されたトピック分布の平均値により事前分布を生成するので、精度の高い事前分布を生成することができる。
また、過去に生成されたトピック分布における出現回数が閾値以上である単語により既知語集合を生成するので、陳腐化した単語が既知語集合に加わらないようにすることができる。
According to the above embodiment, the vocabulary set is updated each time a document set is acquired. Therefore, when a new word is generated, the document is analyzed based on the vocabulary set to which the new word is added. Therefore, it is possible to generate a topic distribution with high accuracy even in an environment where new words can occur.
In addition, for known words, a topic distribution generated in the past is used as a prior distribution, so that the time required for processing can be reduced.
In addition, since a prior distribution is generated based on an average value of topic distributions generated in the past for a new word, a highly accurate prior distribution can be generated.
In addition, since the known word set is generated from words whose appearance count in the topic distribution generated in the past is greater than or equal to the threshold value, it is possible to prevent an obsolete word from being added to the known word set.

(4)変形例
上記の実施形態を次のように変形してもよい。また、以下の変形例を組み合わせて実施してもよい。
(4.1)変形例1
実施形態では、マイクロブログに投稿された文書集合を分析する例を示したが、他の種類の文書集合を分析するようにしてもよい。
例えば、ウェブサーバ装置40がニュースの記事を配信するサーバである場合、文書集合として、特定の期間に配信される記事を取得し、この文書集合に対して実施形態と同様の処理を行ってもよい。また、ウェブサーバ装置40がSNSを管理するサーバである場合、文書集合として、特定の期間にSNS上で取り交わされるコメントを取得し、この文書集合に対して実施形態と同様の処理を行ってもよい。
(4) Modifications The above embodiment may be modified as follows. Moreover, you may implement combining the following modifications.
(4.1) Modification 1
In the embodiment, an example of analyzing a document set posted on a microblog has been shown. However, other types of document sets may be analyzed.
For example, when the web server device 40 is a server that distributes news articles, articles distributed during a specific period may be acquired as a document set, and the same processing as in the embodiment may be performed on the document set. Good. Further, when the web server device 40 is a server that manages SNS, a comment exchanged on the SNS for a specific period is acquired as a document set, and the same processing as that of the embodiment is performed on this document set. Also good.

(4.2)変形例2
実施形態では、文書集合の配信先を限定しないが、特定の宛先に配信される文書集合を取得して実施形態と同様の処理を行ってもよい。具体的には、文書のヘッダに書き込まれている宛先のアドレスが特定のアドレスである文書のみを取得すればよい。このようにして取得した文書集合から生成したトピック分布を、当該特定のアドレス宛に送信するようにしてもよい。
(4.2) Modification 2
In the embodiment, the distribution destination of the document set is not limited, but the document set distributed to a specific destination may be acquired and the same processing as in the embodiment may be performed. Specifically, it is only necessary to acquire a document whose destination address written in the header of the document is a specific address. The topic distribution generated from the document set acquired in this way may be transmitted to the specific address.

(4.3)変形例3
実施形態では、文書の配信先が移動通信装置である例を示したが、文書の配信先はどのような装置でもよい。例えば、インターネットに接続された据え置き型のコンピュータでもよい。
実施形態では、文書分析装置30の制御部31がプログラムを実行することによって処理を実行する例を示したが、同様の機能をハードウェアで実装するようにしてもよい。また、このプログラムを、光記録媒体、半導体メモリ等、コンピュータで読み取り可能な記録媒体に記録して提供し、この記録媒体からプログラムを読み取って文書分析装置30の記憶部33に記憶させるようにしてもよい。また、このプログラムを電気通信回線経由で提供してもよい。
(4.3) Modification 3
In the embodiment, the example in which the document delivery destination is the mobile communication device has been described, but the document delivery destination may be any device. For example, a stationary computer connected to the Internet may be used.
In the embodiment, an example in which the control unit 31 of the document analysis apparatus 30 executes processing by executing a program has been described, but the same function may be implemented by hardware. The program is provided by being recorded on a computer-readable recording medium such as an optical recording medium or a semiconductor memory, and the program is read from the recording medium and stored in the storage unit 33 of the document analysis apparatus 30. Also good. Further, this program may be provided via a telecommunication line.

1…通信システム、10…移動通信ネットワーク、20…移動通信装置、30…文書分析装置、40…ウェブサーバ装置、50…インターネット、60…ゲートウェイ装置、31…制御部、32…通信部、33…記憶部、301…語彙集合生成手段、302…事前分布生成手段、303…トピック分布生成手段、304…事前状態蓄積手段 DESCRIPTION OF SYMBOLS 1 ... Communication system, 10 ... Mobile communication network, 20 ... Mobile communication apparatus, 30 ... Document analysis apparatus, 40 ... Web server apparatus, 50 ... Internet, 60 ... Gateway apparatus, 31 ... Control part, 32 ... Communication part, 33 ... Storage unit 301 ... vocabulary set generation means 302 ... prior distribution generation means 303 ... topic distribution generation means 304 304 prior state storage means

Claims (6)

外部装置から文書集合を取得する取得手段と、
過去に前記取得手段によって取得された第1の文書集合の語彙を表す第1の語彙集合と、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合を生成する語彙集合生成手段と、
前記第1の語彙集合に含まれる各単語の出現回数の多項分布である第1の単語分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の事前分布を生成する事前分布生成手段と、
前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、
前記第2の単語分布と前記第2の語彙集合とを蓄積する事前状態蓄積手段と
を有することを特徴とする文書分析装置。
An acquisition means for acquiring a document set from an external device;
Based on a first vocabulary set representing the vocabulary of the first document set acquired by the acquisition means in the past and a second document set acquired by the acquisition means after the first document set, Vocabulary set generation means for generating a second vocabulary set representing the vocabulary of the second document set;
A prior distribution for generating a prior distribution of the number of appearances of each word included in the second vocabulary set based on a first word distribution that is a multinomial distribution of the number of appearances of each word included in the first vocabulary set Generating means;
Based on the prior distribution, a second word distribution that is a multinomial distribution of the number of occurrences of each word included in the second vocabulary set is generated, and each topic characterized by the second word distribution is generated. Topic distribution generation means for generating a topic distribution which is a multinomial distribution of the number of occurrences;
A document analysis apparatus comprising: a prior state storage unit that stores the second word distribution and the second vocabulary set.
前記語彙集合生成手段は、前記第2の文書集合に含まれる単語のうち、前記第1の語彙集合に含まれない単語の集合である新語集合と、前記第1の語彙集合の一部又は全部を含む既知語集合とを生成し、
前記事前分布生成手段は、前記新語集合に対応する事前分布を生成する一方、前記第1の単語分布のうち前記既知語集合に対応する単語分布を前記既知語集合に対応する事前分布として用いる
ことを特徴とする請求項1に記載の文書分析装置。
The vocabulary set generation means includes a new word set that is a set of words that are not included in the first vocabulary set among words included in the second document set, and part or all of the first vocabulary set. And a known word set containing
The prior distribution generation unit generates a prior distribution corresponding to the new word set, and uses a word distribution corresponding to the known word set in the first word distribution as a prior distribution corresponding to the known word set. The document analysis apparatus according to claim 1, wherein:
前記事前分布生成手段は、前記新語集合に対応する事前分布を、前記第1の単語分布の平均値により生成する
ことを特徴とする請求項2に記載の文書分析装置。
The document analysis apparatus according to claim 2, wherein the prior distribution generation unit generates a prior distribution corresponding to the new word set based on an average value of the first word distribution.
前記語彙集合生成手段は、前記第1の語彙集合に含まれる単語のうち、いずれかのトピックにおいて出現回数が閾値以上である単語により前記既知語集合を生成する
ことを特徴とする請求項2に記載の文書分析装置。
The vocabulary set generation unit generates the known word set from words included in the first vocabulary set and having a frequency of appearance equal to or greater than a threshold in any topic. The document analysis device described.
過去に取得された第1の文書集合の語彙を表す第1の語彙集合と、前記第1の文書集合の後に取得された第2の文書集合とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合を生成する語彙集合生成ステップと、
前記第1の語彙集合に含まれる各単語の出現回数の多項分布である第1の単語分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の事前分布を生成する事前分布生成ステップと、
前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成ステップと、
前記第2の単語分布と前記第2の語彙集合とを蓄積する事前状態蓄積ステップと
を有することを特徴とする文書分析方法。
Based on the first vocabulary set representing the vocabulary of the first document set acquired in the past and the second document set acquired after the first document set, the vocabulary of the second document set A vocabulary set generation step for generating a second vocabulary set representing
A prior distribution for generating a prior distribution of the number of appearances of each word included in the second vocabulary set based on a first word distribution that is a multinomial distribution of the number of appearances of each word included in the first vocabulary set Generation step;
Based on the prior distribution, a second word distribution that is a multinomial distribution of the number of occurrences of each word included in the second vocabulary set is generated, and each topic characterized by the second word distribution is generated. A topic distribution generation step for generating a topic distribution which is a multinomial distribution of occurrences;
A document analysis method comprising: a prior state accumulation step of accumulating the second word distribution and the second vocabulary set.
コンピュータを、
外部装置から文書集合を取得する取得手段と、
過去に前記取得手段によって取得された第1の文書集合の語彙を表す第1の語彙集合と、前記第1の文書集合の後に前記取得手段によって取得された第2の文書集合とに基づいて、前記第2の文書集合の語彙を表す第2の語彙集合を生成する語彙集合生成手段と、
前記第1の語彙集合に含まれる各単語の出現回数の多項分布である第1の単語分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の事前分布を生成する事前分布生成手段と、
前記事前分布に基づいて、前記第2の語彙集合に含まれる各単語の出現回数の多項分布である第2の単語分布を生成し、当該第2の単語分布で特徴付けられた各トピックの出現回数の多項分布であるトピック分布を生成するトピック分布生成手段と、
前記第2の単語分布と前記第2の語彙集合とを蓄積する事前状態蓄積手段
として機能させるためのプログラム。
Computer
An acquisition means for acquiring a document set from an external device;
Based on a first vocabulary set representing the vocabulary of the first document set acquired by the acquisition means in the past and a second document set acquired by the acquisition means after the first document set, Vocabulary set generation means for generating a second vocabulary set representing the vocabulary of the second document set;
A prior distribution for generating a prior distribution of the number of appearances of each word included in the second vocabulary set based on a first word distribution that is a multinomial distribution of the number of appearances of each word included in the first vocabulary set Generating means;
Based on the prior distribution, a second word distribution that is a multinomial distribution of the number of occurrences of each word included in the second vocabulary set is generated, and each topic characterized by the second word distribution is generated. Topic distribution generation means for generating a topic distribution which is a multinomial distribution of the number of occurrences;
The program for functioning as prior state storage means for storing the second word distribution and the second vocabulary set.
JP2011207561A 2011-09-22 2011-09-22 Document analysis device and document analysis method Withdrawn JP2013069140A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011207561A JP2013069140A (en) 2011-09-22 2011-09-22 Document analysis device and document analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011207561A JP2013069140A (en) 2011-09-22 2011-09-22 Document analysis device and document analysis method

Publications (1)

Publication Number Publication Date
JP2013069140A true JP2013069140A (en) 2013-04-18

Family

ID=48474776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011207561A Withdrawn JP2013069140A (en) 2011-09-22 2011-09-22 Document analysis device and document analysis method

Country Status (1)

Country Link
JP (1) JP2013069140A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496930B2 (en) 2016-09-20 2019-12-03 Fujitsu Limited Apparatus and method to determine a distribution destination of a message based on a probability of co-occurrence of words included in distributed messages

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496930B2 (en) 2016-09-20 2019-12-03 Fujitsu Limited Apparatus and method to determine a distribution destination of a message based on a probability of co-occurrence of words included in distributed messages

Similar Documents

Publication Publication Date Title
Kooti et al. Evolution of conversations in the age of email overload
Calvin et al. # bully: Uses of hashtags in posts about bullying on Twitter
US10129193B2 (en) Identifying relevant content contained in message streams that appear to be irrelevant
US8601055B2 (en) Dynamically managing a social network group
De Choudhury et al. How does the data sampling strategy impact the discovery of information diffusion in social media?
US20170034226A1 (en) Group chat with dynamic background images and content from social media
US20140136997A1 (en) Targeted advertising based on trending of aggregated personalized information streams
US20130124192A1 (en) Alert notifications in an online monitoring system
US20130297688A1 (en) Mobile-based realtime location-sensitive social event engine
Shekhar et al. Disaster analysis through tweets
US11256774B2 (en) Systems and methods for content presentation
KR20140015460A (en) Adaptive notifications
US20140324414A1 (en) Method and apparatus for displaying emoticon
US20150302019A1 (en) Event occurence place estimation method, computer-readable recording medium storing event occurrence place estimation program, and event occurrence place estimation apparatus
US20160048547A1 (en) Natural language management of online social network connections
CN111368180B (en) Page display method and device and electronic equipment
US20170155607A1 (en) Electronic message conglomeration
Schroeder et al. The connectivity network underlying the German’s Twittersphere: a testbed for investigating information spreading phenomena
US10120838B2 (en) Systems and methods for weighted sampling
US9634978B2 (en) Systems and methods for improving efficiency of electronic transmission of messages
JP2013069140A (en) Document analysis device and document analysis method
US20170185912A1 (en) Systems and methods for content presentation
Yang et al. Rumor propagation detection system in social network services
JP2013069141A (en) Document analysis device and document analysis method
JP6971053B2 (en) Data management equipment, data management methods, and programs

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141202