JP2017199113A - Burst detection device - Google Patents
Burst detection device Download PDFInfo
- Publication number
- JP2017199113A JP2017199113A JP2016087965A JP2016087965A JP2017199113A JP 2017199113 A JP2017199113 A JP 2017199113A JP 2016087965 A JP2016087965 A JP 2016087965A JP 2016087965 A JP2016087965 A JP 2016087965A JP 2017199113 A JP2017199113 A JP 2017199113A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- information
- user
- burst
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000004364 calculation method Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000009172 bursting Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、ユーザが投稿した投稿情報のトピック(話題)のうち、時系列上においてバーストしたトピックを検出するバースト検出装置に関する。 The present invention relates to a burst detection device that detects topics bursted in time series among topics (topics) of posted information posted by a user.
従来、ユーザが主に自身の状況や雑記などを短い文章(つぶやき)で投稿するマイクロブログにおいて、あるトピックの投稿が急激に増加する現象であるバーストを検知する手法や、予め指定した辞書集合を含む投稿のバーストを検知する手法が知られている。例えば、下記特許文献1では、ブログや掲示板などのインターネット上の複数のドキュメントにおける単語の出現頻度を示すバースト度を算出し、バースト度が高い単語を検出することにより、注目されているトピックを自動的に抽出することが開示されている。
Conventionally, in microblogs where users mainly post their own situations and miscellaneous notes in short sentences (tweets), a technique for detecting bursts, which is a phenomenon in which posts on a topic increase rapidly, There is a known method for detecting a burst of postings including. For example, in
しかしながら、上記のバーストを検知する手法では、トピックに対して元々興味を持っていた(同じ興味分野を持っていた)比較的狭い範囲のユーザの投稿が増加したのか、あるいは、トピックに対して興味を持っていなかったユーザも含めた比較的広い範囲のユーザの投稿が増加したのかを判定することはできない。すなわち、広範囲のユーザでバーストしたトピックを検出することができない。 However, in the above burst detection method, there has been an increase in the number of posts from a relatively narrow range of users who were originally interested in the topic (having the same field of interest), or interested in the topic. It is not possible to determine whether the number of posts from a relatively wide range of users including users who did not have increased. That is, a topic bursted by a wide range of users cannot be detected.
そこで、本発明は、かかる課題に鑑みて為されたものであり、広範囲のユーザでバーストしたトピックを検出することができるバースト検出装置を提供することを目的とする。 Therefore, the present invention has been made in view of such a problem, and an object thereof is to provide a burst detection device capable of detecting topics bursted by a wide range of users.
上記課題を解決するため、本発明のバースト検出装置は、ユーザが投稿した投稿情報の投稿時刻と当該ユーザを識別するユーザ識別情報との履歴である投稿情報履歴を格納する投稿情報履歴格納手段と、トピックに対するユーザの関連度であるユーザ関連度と、トピックに対する投稿情報の関連度である投稿情報関連度とを格納する関連度格納手段と、投稿情報履歴格納手段によって格納された投稿情報履歴と関連度格納手段によって格納されたユーザ関連度及び投稿情報関連度とに基づき、投稿情報履歴での時系列上の単位時間内におけるトピックの重み付き出現度を、当該トピックに対する当該単位時間内に投稿情報を投稿したユーザのユーザ関連度と当該トピックに対する当該単位時間内に投稿された投稿情報の投稿情報関連度とに基づいて算出する重み付き出現度算出手段と、重み付き出現度算出手段によって算出されたトピックの重み付き出現度に基づいて、時系列上においてバーストしたトピックを検出するバースト検出手段と、を備える。 In order to solve the above-described problem, the burst detection device of the present invention includes posted information history storage means for storing posted information history that is a history of posting time of posted information posted by a user and user identification information for identifying the user. Relevance storage means for storing user relevance that is the relevance of the user to the topic and post information relevance that is the relevance of the post information to the topic; and the post information history stored by the post information history storage means; Based on the user relevance level and post information relevance level stored by the relevance level storage means, post the weighted appearance degree of the topic within the unit time on the time series in the post information history within the unit time for the topic Based on the user relevance of the user who posted the information and the post information relevance of the posted information posted within the unit time for the topic. Comprising a weighted occurrence degree calculating means for calculating you are, burst detection means for detecting a topic that is burst in on the basis of the weighted occurrence of the topic which is calculated by the weighted occurrence degree calculating means, when the series, the.
かかる構成を採れば、重み付き出現度算出手段により、投稿情報履歴での時系列上の単位時間内におけるトピックの重み付き出現度が、当該トピックに対する当該単位時間内に投稿情報を投稿したユーザのユーザ関連度と当該トピックに対する当該単位時間内に投稿された投稿情報の投稿情報関連度とに基づいて算出され、バースト検出手段により、重み付き出現度算出手段によって算出されたトピックの重み付き出現度に基づいて、時系列上においてバーストしたトピックが検出される。このように、トピックの重み付き出現度が、当該トピックに対するユーザのユーザ関連度及び当該トピックに対する投稿情報の投稿情報関連度に基づいて算出される。そのため、例えば、ユーザ関連度が小さいほどトピックの重み付き出現度を大きく算出し、投稿情報関連度が大きいほどトピックの重み付き出現度を大きく算出することで、トピックに対して(普段から)興味が少ないユーザが当該トピックに関する投稿をした場合は当該トピックの重み付き出現度を大きくすると共に、投稿された投稿情報がトピックに関連するほど当該トピックの重み付き出現度を大きくし、バーストしたトピックとして検出させることができる。それにより、興味が少ないユーザを含めた広範囲のユーザでバーストしたトピックを検出することができる。 If such a configuration is adopted, the weighted appearance degree calculating means determines the weighted appearance degree of the topic within the unit time on the time series in the posted information history of the user who posted the posted information within the unit time for the topic. The weighted appearance degree of the topic calculated by the weighted appearance degree calculating means by the burst detecting means, calculated based on the user relevance degree and the posting information relevance degree of the posted information posted within the unit time for the topic. Based on, a topic bursting in time series is detected. Thus, the weighted appearance level of the topic is calculated based on the user's user relevance level for the topic and the post information relevance level of the post information for the topic. Therefore, for example, the topic weighted appearance degree is calculated to be larger as the user relevance degree is smaller, and the topic weighted appearance degree is larger as the contribution information relevance degree is larger. When there are few users posting about the topic, the weighted appearance of the topic is increased, and as the posted information related to the topic increases, the weighted appearance of the topic is increased, Can be detected. Thereby, it is possible to detect topics bursted by a wide range of users including users with little interest.
また、本発明のバースト検出装置において、重み付き出現度算出手段は、ユーザ関連度が小さいほどトピックの重み付き出現度を大きく算出することとしてもよい。かかる構成を採れば、ユーザ関連度が小さいほどトピックの重み付き出現度を大きく算出することで、例えば、トピックに対して(普段から)興味が少ないユーザが当該トピックに関する投稿をした場合は当該トピックの重み付き出現度を大きくし、バーストしたトピックとして検出させることができる。それにより、興味が少ないユーザを含めた広範囲のユーザでバーストしたトピックを検出することができる。 In the burst detection apparatus of the present invention, the weighted appearance degree calculating means may calculate the topic weighted appearance degree as the user relevance degree is smaller. By adopting such a configuration, the topic weighted appearance degree is calculated to be larger as the user relevance degree is smaller. For example, when a user who is less interested in the topic (usually) makes a post related to the topic, the topic Can be detected as a bursted topic. Thereby, it is possible to detect topics bursted by a wide range of users including users with little interest.
また、本発明のバースト検出装置において、バースト検出手段は、時系列上の所定の時間内に含まれる単位時間ごとに重み付き出現度算出手段によって算出されたトピックの重み付き出現度のうち、当該算出された所定の時間内の重み付き出現度の平均に基づく値以上である重み付き出現度のトピックを、バーストしたトピックとして検出することとしてもよい。かかる構成を採れば、算出された所定の時間内の重み付き出現度の平均に基づく値と比較することでバーストしたトピックを検出することができるため、予め閾値等を設定することなく、バーストしたトピックをより容易かつ確実に検出することができる。 Further, in the burst detection device of the present invention, the burst detection means includes the weighted appearance degree of the topic calculated by the weighted appearance degree calculation means for each unit time included in a predetermined time on the time series. A topic having a weighted appearance level that is equal to or greater than a value based on the calculated average of weighted appearance degrees within a predetermined time may be detected as a burst topic. By adopting such a configuration, it is possible to detect a bursted topic by comparing it with a value based on the calculated average of the weighted appearances within a predetermined time, so that the burst was performed without setting a threshold or the like in advance. Topics can be detected more easily and reliably.
本発明によれば、広範囲のユーザでバーストしたトピックを検出することができる。 According to the present invention, topics bursted by a wide range of users can be detected.
以下、図面とともに本発明によるバースト検出装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, embodiments of a burst detection apparatus according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1は、本発明の実施形態に係るバースト検出装置1の機能ブロック図である。図1に示す通り、バースト検出装置1は、投稿情報履歴格納部10(投稿情報履歴格納手段)、指示情報取得部11、トピック情報算出部12、トピック情報格納部13(関連度格納手段)、重み付き出現確率算出部14(重み付き出現度算出手段)、バースト検出部15(バースト検出手段)、バースト情報格納部16及びバースト情報出力部17を含んで構成される。
FIG. 1 is a functional block diagram of a
図2は、バースト検出装置1のハードウェア構成図である。図1に示されるバースト検出装置1は、物理的には、図2に示すように、一又は複数のCPU100、主記憶装置であるRAM101及びROM102、キーボード、マウス及びディスプレイ等の入出力装置103、ネットワークカード等のデータ送受信デバイスである通信モジュール104並びにハードディスクや半導体メモリ等の補助記憶装置105等を含むコンピュータシステムとして構成されている。
FIG. 2 is a hardware configuration diagram of the
図1における各機能は、図2に示すCPU100及びRAM101等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU100の制御のもとで入出力装置103及び通信モジュール104を動作させるとともに、RAM101及び補助記憶装置105におけるデータの読み出し及び書き込みを行うことで実現される。
Each function in FIG. 1 causes the input /
なお、CPU100などのプロセッサが図1における各機能を実行することに代えて、その機能全部または一部を専用の集積回路を構築することにより各機能を実行するように構成してもよい。例えば、画像処理や通信制御を行なうための専用の集積回路を構築することにより上記機能を実行するようにしてもよい。
Instead of executing the functions shown in FIG. 1 by a processor such as the
以下、図1に示すバースト検出装置1の各機能ブロックについて説明する。
Hereinafter, each functional block of the
投稿情報履歴格納部10は、ユーザが投稿した投稿情報の時系列上の履歴である投稿情報履歴を格納する。投稿情報は、テキストや画像等のコンテンツであり、具体例として、ユーザが自身の状況や雑記などを表現したテキスト(つぶやき)、ユーザが作成した電子メール、ユーザが撮像した画像、ユーザがインターネット上のショッピングサイトで購入した商品に関する商品購入データ等が挙げられる。投稿情報履歴は、投稿情報と、当該投稿情報が投稿された(又は作成された)時刻や日時等の時間情報とが対応付けられた情報である。本実施形態では、バースト検出装置1はマイクロブログの機能を備え、投稿情報履歴格納部10には複数のユーザから投稿されたつぶやきが蓄積されていることを想定する。
The posted information
図3は、投稿情報履歴格納部10によって格納された投稿情報履歴のテーブル例を示す図である。図3に示すテーブル例の通り、投稿情報履歴は、各投稿情報の識別情報を示す「投稿ID」、当該投稿情報の内容(コンテンツ)を示す「投稿内容」、当該投稿情報を投稿したユーザの識別情報を示す「投稿ユーザID」(ユーザ識別情報)、及び当該投稿情報が当該ユーザによって投稿された投稿日時を示す「投稿日時」(投稿時刻)が対応付けられている。
FIG. 3 is a diagram illustrating a table example of the posted information history stored by the posted information
本実施形態では、バースト検出装置1が投稿情報履歴格納部10を備えているが、バースト検出装置1とネットワーク接続されている外部のサーバ装置が投稿情報履歴格納部10(と同様の機能)を備えていてもよい。その場合、バースト検出装置1は、投稿情報履歴格納部10に対してネットワークを介して必要な情報等の送受信を行うことで、本実施形態で説明する処理と同様の処理を実現することができる。
In this embodiment, the
指示情報取得部11は、バースト検出装置1の管理者等からの指示に関する指示情報を取得する。指示情報は、後述のトピック情報を算出する対象期間(例えば、開始日時及び終了日時)に関する情報、及び後述のバーストを検出する対象期間(例えば、開始日時及び終了日時)に関する情報の少なくとも一方を含んでもよい。指示情報取得部11は、指示情報を、他の装置からネットワーク及び通信モジュール104を介して取得してもよいし、入出力装置103(例えばキーボード)を介して取得してもよい。指示情報取得部11は、取得した指示情報をトピック情報算出部12及び重み付き出現確率算出部14に出力する。
The instruction
トピック情報算出部12は、まず、投稿情報履歴格納部10から投稿情報履歴を取得する。具体的には、トピック情報算出部12は、指示情報取得部11から指示情報が入力されると、入力された指示情報に含まれる、トピック情報(後述)を算出する対象期間を抽出し、抽出された対象期間に投稿された投稿情報履歴を投稿情報履歴格納部10から取得する。例えば、対象期間が開始日時及び終了日時で示されている場合、図3に示す投稿情報履歴のテーブル例において、「投稿日時」が開始日時及び終了日時の間にあるレコードからなる投稿情報履歴が抽出され、取得される。なお、トピック情報算出部12が投稿情報履歴を取得するタイミングは、指示情報取得部11から指示情報が入力された場合に限らず、例えば、定期的(例えば1週間に1回)であってもよい。その場合、トピック情報算出部12は、対象期間として、予め設定されている対象期間(例えば、過去1週間)を利用する。予め設定されている対象期間は、例えばバースト検出装置1に予め格納されているものとする。
First, the topic
続いて、トピック情報算出部12は、取得した投稿情報履歴に基づいて、取得した投稿情報履歴に含まれる各投稿情報から抽出された当該投稿情報のトピックと、各トピックに対する各ユーザの所属確率(関連度)であるユーザ所属確率(ユーザ関連度)と、各トピックに対する各投稿情報の所属確率(関連度)である投稿情報所属確率(投稿情報関連度)とを算出する。トピックとは、投稿情報のカテゴリや分野といった潜在的な意味を示す情報であり、投稿情報に含まれる単語と対象とする投稿全体における当該単語の出現確率とから表現されてもよい。本実施形態では、算出したトピック、ユーザ所属確率及び投稿情報所属確率を総称してトピック情報と呼ぶ。トピック情報算出部12は、算出したトピック情報をトピック情報格納部13に出力する(格納させる)と共に、トピック情報の算出が完了した旨の完了情報を重み付き出現確率算出部14に出力する。
Subsequently, the topic
より具体的には、トピック情報算出部12は、取得した(トピック情報を算出する対象期間分の)投稿情報履歴に対して、従来技術であるトピックモデリングを行うことで、トピックを算出すると共に、各ユーザuがトピックtに所属する所属確率であるユーザ所属確率p(t|u)、及び、各投稿情報dがトピックtに所属する所属確率である投稿情報所属確率p(t|d)を算出する。各ユーザuがトピックtに所属する所属確率とは、各ユーザuが投稿した各投稿情報dがトピックtに割り当てられる確率を示す。また、各投稿情報dがトピックtに所属する所属確率とは、各投稿情報d内の単語にトピックtが割り当てられる確率を示す。トピックモデリングの一例として下記非特許文献にて開示されているLDA(Latent Dirichlet Allocation。潜在的ディリクレ配分法)が挙げられる。LDAを用いてトピックを推定する場合、まず、各トピック毎に単語出現確率が生成され、その情報を用いて投稿情報ごとにトピック分布を生成する。ユーザ所属確率p(t|u)及び投稿情報所属確率p(t|d)の具体的な計算方法については、下記非特許文献を参照されたい。
非特許文献:Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." the Journal of machine Learning research 3 (2003): 993-1022.
More specifically, the topic
Non-patent literature: Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." The Journal of machine Learning research 3 (2003): 993-1022.
図4は、トピック情報算出部12によって算出されたトピック情報のテーブル例を示す図である。図4(a)のテーブル例は、トピック情報を算出する対象期間分の投稿情報履歴に対して算出されたトピックのリストを示しており、トピックの識別情報を示す「トピックID」と、当該トピックを構成する単語の出現確率分布である「単語の出現確率分布」とが対応付いている。図4(b)のテーブル例は、ユーザのユーザ所属確率に関する情報のテーブル例を示しており、ユーザの投稿ユーザIDである「ユーザID」と、トピックの識別情報を示す「トピックID」と、当該トピックに対する当該ユーザのユーザ所属確率である「ユーザ所属確率」とが対応付いている。図4(c)のテーブル例は、投稿情報の投稿情報所属確率に関する情報のテーブル例を示しており、投稿情報の識別情報である「投稿情報ID」と、トピックの識別情報を示す「トピックID」と、当該トピックに対する投稿情報dの投稿情報所属確率である「投稿情報所属確率」とが対応付いている。
FIG. 4 is a diagram illustrating a table example of topic information calculated by the topic
図1に戻り、トピック情報格納部13は、トピック情報算出部12から入力されたトピック情報を格納する。なお、トピック情報格納部13は、ユーザ所属確率(に関する情報)及び投稿情報所属確率(に関する情報)の一方のみを格納してもよい。トピック情報格納部13は、例えば、図4のテーブル例にて示したトピック情報を格納する。
Returning to FIG. 1, the topic
トピック情報格納部13は、トピック情報算出部12から入力されたトピック情報ではなく、ネットワークを介して他の装置から受信したトピック情報を格納してもよいし、バースト検出装置1の管理者が入力したトピック情報を格納してもよい。すなわち、トピック情報格納部13は、予め与えられた(準備された、算出された)トピック情報を格納してもよい。その場合、上述のトピック情報算出部12の機能は利用しなくてもよい。すなわち、例えば、バースト検出装置1はトピックモデリングの処理を行わなくてもよい。
The topic
重み付き出現確率算出部14は、トピック情報算出部12から完了情報が入力されると、投稿情報履歴格納部10によって格納された投稿情報履歴とトピック情報格納部13によって格納されたトピック情報に含まれるユーザ所属確率及び投稿情報所属確率とに基づき、投稿情報履歴での時系列上の単位時間内におけるトピックの重み付き出現確率(重み付き出現度)を、当該トピックに対する当該単位時間内に投稿情報を投稿したユーザのユーザ所属確率と当該トピックに対する当該単位時間内に投稿された投稿情報の投稿情報所属確率とに基づいて算出する。その場合、重み付き出現確率算出部14は、ユーザ所属確率が小さいほどトピックの重み付き出現確率を大きく算出してもよい。以下、具体的に説明する。
When the completion information is input from the topic
まず、重み付き出現確率算出部14は、トピック情報格納部13によって格納されたトピック情報に含まれるトピック(のリスト)を取得する。ここで、重み付き出現確率算出部14は、取得した各トピックそれぞれに対して当該トピックの重み付き出現確率を算出するものである。次に、重み付き出現確率算出部14は、指示情報取得部11から入力された指示情報に含まれる、バーストを検出する対象期間を抽出する。なお、バーストを検出する対象期間は、バースト検出装置1に予め格納されているものを利用してもよい。次に、重み付き出現確率算出部14は、抽出した対象期間に投稿された投稿情報履歴を投稿情報履歴格納部10から取得する。次に、重み付き出現確率算出部14は、予め設定されている単位時間l(例えば5分)を取得する。予め設定されている単位時間lは、例えばバースト検出装置1に予め格納されているものとする。なお、上述の指示情報に単位時間lが含まれてもよく、当該単位時間lを利用してもよい。
First, the weighted appearance
次に、重み付き出現確率算出部14は、抽出した対象期間内の時系列上の各単位時間l内における、取得した各トピックtの重み付き出現確率wpを、以下の式(1)により算出する。
ここで、Dlは、取得した投稿情報履歴に含まれる投稿情報のうち、抽出した対象期間の単位時間l内の日時に投稿された全投稿情報の集合であり、|Dl|は当該集合に含まれる投稿情報の投稿数である。p(t|u)は、全投稿情報の集合Dlに含まれる投稿情報dを投稿したユーザu(取得した投稿情報履歴のうち投稿情報dに対応付けられたユーザu)がトピックtに所属するユーザ所属確率p(t|u)であり、トピック情報格納部13によって格納されたユーザ所属確率に関する情報のうちユーザu及びトピックtに関するユーザ所属確率を重み付き出現確率算出部14が抽出することにより得られたものである。p(t|d)は、全投稿情報の集合Dlに含まれる投稿情報dがトピックtに所属する投稿情報所属確率p(t|d)であり、トピック情報格納部13によって格納された投稿情報所属確率に関する情報のうち投稿情報d及びトピックtに関する投稿情報所属確率を重み付き出現確率算出部14が抽出することにより得られたものである。
Next, the weighted appearance
Here, D l is a set of all post information posted on the date and time within the unit time l of the extracted target period among the post information included in the acquired post information history, and | D l | is the set This is the number of postings of posting information included in. p (t | u) indicates that the user u who posted the posted information d included in the set D 1 of all posted information (the user u associated with the posted information d in the acquired posted information history) belongs to the topic t. The weighted appearance
ここで、上記式(1)のうち分子に含まれる「p(t|d)/p(t|u)」は、投稿情報dがトピックtに所属する確率が高い、かつ、投稿情報dを投稿したユーザuがトピックtに所属する確率が低いほど、重み付き出現確率wpを大きく算出することを意味している。また、上記式(1)のうち分母に含まれる「|Dl|」は、単位時間lにおける投稿数が多いほど、重み付き出現確率wpを小さく算出することを意味している。 Here, “p (t | d) / p (t | u)” included in the numerator in the above formula (1) has a high probability that the posted information d belongs to the topic t, and the posted information d is The lower the probability that the posted user u belongs to the topic t, the larger the weighted appearance probability wp is calculated. Further, “| D l |” included in the denominator of the above formula (1) means that the weighted appearance probability wp is calculated to be smaller as the number of posts in the unit time l is larger.
図5は、重み付き出現確率算出部14によって算出された、時系列上の対象期間l1〜l15における、あるトピックの重み付き出現確率wpのグラフ例を示す図である。図5に示すグラフ例において、横軸は時系列(時間)を示し、縦軸は重み付き出現確率wpの値(スコア)を示している。図5に示すグラフ例におけるwp0及びαwp0については以下で説明する。
FIG. 5 is a diagram illustrating a graph example of the weighted appearance probability wp of a certain topic in the
重み付き出現確率算出部14は、時系列上の(バーストを検出する)対象期間(所定の時間)内に含まれる単位時間lごとに算出したトピックの重み付き出現確率wpの平均として、重み付き平均出現確率wp0を算出してもよい。具体的に、重み付き出現確率算出部14は、トピックtの重み付き平均出現確率wp0を、以下の式(2)により算出する。
ここで、Σlは、取得した抽出した対象期間に含まれる単位時間lの合計を示す。
The weighted appearance
Here, Σ l indicates the total of unit times l included in the acquired extracted target period.
さらに、重み付き出現確率算出部14は、予め設定されている閾値α(例えば1.5)を取得する。予め設定されている閾値αは、例えばバースト検出装置1に予め格納されているものとする。そして、重み付き出現確率算出部14は、算出した重み付き平均出現確率wp0に取得した閾値αを乗じて、αwp0を算出する。
Furthermore, the weighted appearance
図5に示すグラフ例において、wp0は、重み付き出現確率算出部14により上記式(2)にて算出された、対象期間l1〜l15に含まれる単位時間lごとに算出したトピックの重み付き出現確率wpの平均である重み付き平均出現確率wp0である。また、αwp0は、重み付き平均出現確率wp0にαを乗じた値である。wp0及びαwp0の利用方法については後述のバースト検出部15の説明にて説明する。
In the example of the graph shown in FIG. 5, wp 0 is the weight of the topic calculated for each unit time l included in the target periods l1 to l15 calculated by the weighted appearance
重み付き出現確率算出部14は、算出した各トピックの重み付き出現確率wp及びαwp0を、バースト検出部15に出力する。なお、重み付き出現確率算出部14が重み付き平均出現確率を算出するタイミングは、トピック情報算出部12から完了情報が入力された場合に限らず、例えば、(トピック情報が予め算出されている状況において)指示情報取得部11から指示情報が入力された場合であってもよい。
The weighted appearance
バースト検出部15は、重み付き出現確率算出部14によって算出されたトピックの重み付き出現確率に基づいて、時系列上においてバーストしたトピックを検出する。バースト検出部15は、時系列上の対象期間内に含まれる単位時間ごとに重み付き出現確率算出部14によって算出されたトピックの重み付き出現確率のうち、所定の閾値以上である重み付き出現確率のトピックを、バーストしたトピックとして検出してもよい。ここで、所定の閾値は、時系列上の対象期間内に含まれる単位時間ごとに重み付き出現確率算出部14によって算出されたトピックの重み付き出現確率の平均に基づく値であってもよい。
The
具体的には、バースト検出部15は、重み付き出現確率算出部14から入力された各トピックtの重み付き出現確率wpのうち、重み付き出現確率算出部14から入力されたαwp0以上の重み付き出現確率wpのトピックtを、バーストしたトピックとして検出する。例えば、図5に示すグラフ例において、バースト検出部15は、αwp0以上であるl8、l9、l10及びl11の重み付き出現確率wpの4つのトピックを、バーストしたトピックとして検出する。ここで、検出されたトピックのバーストは、普段当該トピックについて興味を持っていないユーザが、当該トピックに関して投稿している状態を示している。
Specifically, the
バースト検出部15は、検出したバーストしたトピックに関するバースト情報を、バースト情報格納部16及びバースト情報出力部17に出力する。図6は、バースト情報のテーブル例を示す図である。図6に示すテーブル例の通り、バースト情報は、バーストしたトピックの識別情報である「トピックID」、当該トピックの重み付き出現確率wpである「重み付き出現確率」、及び当該トピックの単語の出現確率分布である「単語の出現確率分布」が対応付けられている。なお、単語の出現確率分布は、トピック情報算出部12によるトピックモデリングの実行により算出されたものであるが、トピックモデリングを用いずに予め用意されたトピック情報を用いる場合は、このテーブル例に示すものに限らない。
The
なお、時系列数値データのバースト検出自体は従来技術の一つである。例えば、下記非特許文献では、状態遷移(バースト、非バースト)におけるコスト関数等を定義することにより、バースト期間の検出が可能となる点が開示されている。
非特許文献:Kleinberg, Jon. "Bursty and hierarchical structure in streams." Data Mining and Knowledge Discovery 7.4 (2003): 373-397.
Note that burst detection of time-series numerical data itself is one of the prior arts. For example, the following non-patent document discloses that a burst period can be detected by defining a cost function or the like in state transition (burst, non-burst).
Non-patent literature: Kleinberg, Jon. "Bursty and hierarchical structure in streams." Data Mining and Knowledge Discovery 7.4 (2003): 373-397.
バースト情報格納部16は、バースト検出部15から入力されたバースト情報を格納する。バースト情報格納部16は、例えば、図6に示すバースト情報のテーブル例を格納する。
The burst
バースト情報出力部17は、バースト検出部15から入力されたバースト情報を出力する。より具体的には、バースト情報出力部17は、バースト検出部15から入力されたバースト情報を、ネットワークを介して他の装置に送信したり、バースト検出装置1のディスプレイに表示したりする。なお、バースト情報出力部17は、バースト検出装置1の管理者等から指示があった場合、又は定期的に、バースト情報格納部16によって格納されたバースト情報を出力してもよい。また、バースト情報出力部17は、バースト情報を表示する際に、バースト情報に含まれる重み付き出現確率の値に基づいた表示を行ってもよい。例えば、バースト情報出力部17は、重み付け出現確率の大きい順に対応するトピックに関する情報を表示してもよい。
The burst
続いて、図7に示すフローチャート図を用いて、本実施形態に係るバースト検出装置1におけるバースト検出方法の処理について説明する。
Next, processing of the burst detection method in the
まず、指示情報取得部11により、指示情報が取得される(ステップS1、指示情報取得ステップ)。次に、トピック情報算出部12により、S1にて取得された指示情報及び投稿情報履歴格納部10によって格納された投稿情報履歴に基づいて、トピック情報が算出され(ステップS2、トピック情報算出ステップ)、算出されたトピック情報がトピック情報格納部13によって格納される。次に、重み付き出現確率算出部14により、S2にて算出されたトピック情報又はトピック情報格納部13によって格納されたトピック情報に基づいて、各トピックの重み付き出現確率が算出される(ステップS3、重み付き出現度算出ステップ)。次に、バースト検出部15により、S3にて算出された重み付き出現確率に基づいて、バーストしたトピックが検出され(ステップS4、バースト検出ステップ)、検出されたバーストしたトピックに関するトピック情報がバースト情報格納部16によって格納される。次に、バースト情報出力部17により、S4にて検出されたバーストしたトピックに関するバースト情報又はバースト情報格納部16によって格納されたバースト情報が出力される(ステップS5、バースト情報出力ステップ)。
First, instruction information is acquired by the instruction information acquisition unit 11 (step S1, instruction information acquisition step). Next, topic information is calculated by the topic
以上、バースト検出装置1におけるバースト検出方法の処理について説明した。なお、トピック情報が予めトピック情報格納部13によって格納されている場合は、S1及びS2の処理は必須ではなく、バースト検出装置1はS3から処理を始めてもよい。
The processing of the burst detection method in the
次に、本実施形態のように構成されたバースト検出装置1の作用効果について説明する。
Next, the effect of the
本実施形態のバースト検出装置1によれば、重み付き出現確率算出部14により、投稿情報履歴での時系列上の単位時間内におけるトピックの重み付き出現確率が、当該トピックに対する当該単位時間内に投稿情報を投稿したユーザのユーザ所属確率と当該トピックに対する当該単位時間内に投稿された投稿情報の投稿情報所属確率とに基づいて算出され、バースト検出部15により、重み付き出現確率算出部14によって算出されたトピックの重み付き出現確率に基づいて、時系列上においてバーストしたトピックが検出される。このように、トピックの重み付き出現確率が、当該トピックに対するユーザのユーザ所属確率及び当該トピックに対する投稿情報の投稿情報所属確率に基づいて算出される。そのため、例えば、ユーザ所属確率が小さいほどトピックの重み付き出現確率を大きく算出し、投稿情報所属確率が大きいほどトピックの重み付き出現確率を大きく算出することで、トピックに対して(普段から)興味が少ないユーザが当該トピックに関する投稿をした場合は当該トピックの重み付き出現確率を大きくすると共に、投稿された投稿情報がトピックに関連するほど当該トピックの重み付き出現確率を大きくし、バーストしたトピックとして検出させることができる。それにより、興味が少ないユーザを含めた広範囲のユーザでバーストしたトピックを検出することができる。
According to the
また、本実施形態のバースト検出装置1によれば、ユーザ所属確率が小さいほどトピックの重み付き出現確率を大きく算出することで、例えば、トピックに対して(普段から)興味が少ないユーザが当該トピックに関する投稿をした場合は当該トピックの重み付き出現確率を大きくし、バーストしたトピックとして検出させることができる。それにより、興味が少ないユーザを含めた広範囲のユーザでバーストしたトピックを検出することができる。
Also, according to the
また、本実施形態のバースト検出装置1によれば、算出された所定の時間内の重み付き出現確率の平均に基づく値と比較することでバーストしたトピックを検出することができるため、予め閾値等を設定することなく、バーストしたトピックをより容易かつ確実に検出することができる。
Also, according to the
本実施形態では、トピックを用いて説明したが、これに限るものではない。例えば、トピックの替わりに、投稿情報の内容の特徴を示す情報として、キーワードや画像等を利用してもよい。 Although the present embodiment has been described using topics, the present invention is not limited to this. For example, instead of a topic, a keyword, an image, or the like may be used as information indicating the characteristics of the content of posted information.
以上の通り、本実施形態のバースト検出装置1では、投稿情報データベース2に蓄積されたユーザごとの過去の投稿情報を用い、ユーザをトピックに分類する。そして、分類されたトピックにおけるユーザの所属確率を利用することで、もともと興味を持っていなかったユーザの投稿が増加しているのか(社会的な広がりを見せているのか)を判定する。すなわち、トピックにおけるユーザの所属確率を考慮したバースト検出を行う。それにより、あるトピックが一部のユーザで話題になっただけでなく、広範囲のユーザで話題になっているのか(トピックのユーザ拡散)を検出することができる。
As described above, in the
図8は、ラグビーに関する投稿情報のバーストを検出する際に、従来手法を用いた場合と、本実施形態のバースト検出装置1による手法を用いた場合との比較を示す図である。図8(a)に示す従来手法では、投稿のバースト度(score。グラフC0)は、投稿情報におけるキーワードの出現率、もしくは全投稿情報におけるトピックの出現率をもとに算出される。すなわち、従来手法では、キーワードあるいはトピックの出現率のみを指標としていたため、投稿情報を投稿したユーザの属性(興味分野)は考慮されない。グラフC0において、閾値p0を超えたB0の区間がバーストしている(ラグビーに関するトピックの出現率が高いことを示す)。
FIG. 8 is a diagram showing a comparison between the case where the conventional technique is used and the case where the technique using the
一方、図8(b)に示す本実施形態のバースト検出装置1による手法では、投稿情報を投稿したユーザが普段あるトピックについて投稿していないにも関わらず、投稿している場合は、普段からあるトピック投稿しているユーザよりも重要であるため、ユーザのトピック所属確率(興味分野)を用いてバースト度に重み付けを行う(ユーザの興味度を考慮する)。これにより、もともと興味を持っていなかったユーザの投稿情報が増加しているのか(社会的な広がりを見せているのか)を判定することができる。グラフC1は、上述の重み付けを行ったグラフを示す(グラフC0との差異を明確にするため、グラフC0に重ね合わせている)。グラフC1において、閾値p0を超えた(B0とは異なる)B1の区間がバーストしている(普段ラグビーに興味のないユーザの、ラグビーに関するトピックの出現率が高いことを示す)。
On the other hand, in the method using the
本実施形態のバースト検出装置1は、検索、自然言語処理及びバーストといった分野で適応可能である。
The
1…バースト検出装置、10…投稿情報履歴格納部、11…指示情報取得部、12…トピック情報算出部、13…トピック情報格納部、14…重み付き出現確率算出部、15…バースト検出部、16…バースト情報格納部、17…バースト情報出力部。
DESCRIPTION OF
Claims (3)
トピックに対するユーザの関連度であるユーザ関連度と、トピックに対する投稿情報の関連度である投稿情報関連度とを格納する関連度格納手段と、
前記投稿情報履歴格納手段によって格納された投稿情報履歴と前記関連度格納手段によって格納されたユーザ関連度及び投稿情報関連度とに基づき、投稿情報履歴での時系列上の単位時間内におけるトピックの重み付き出現度を、当該トピックに対する当該単位時間内に投稿情報を投稿したユーザのユーザ関連度と当該トピックに対する当該単位時間内に投稿された投稿情報の投稿情報関連度とに基づいて算出する重み付き出現度算出手段と、
前記重み付き出現度算出手段によって算出されたトピックの重み付き出現度に基づいて、時系列上においてバーストしたトピックを検出するバースト検出手段と、
を備えるバースト検出装置。 A posting information history storage means for storing a posting information history that is a history of posting time of posting information posted by the user and user identification information for identifying the user;
Relevance storage means for storing a user relevance that is a relevance of a user to a topic and a post information relevance that is a relevance of post information to the topic
Based on the post information history stored by the post information history storage means and the user relevance level and the post information relevance level stored by the relevance degree storage means, the topic information in the time series unit time in the post information history A weight for calculating the weighted appearance based on the user relevance level of the user who posted the post information for the topic within the unit time and the post information relevance level of the post information posted for the topic within the unit time Appearance degree calculation means,
Burst detection means for detecting topics bursted in time series based on the weighted appearance degree of topics calculated by the weighted appearance degree calculation means;
A burst detection device comprising:
The burst detection means includes, among the weighted appearance degrees of topics calculated by the weighted appearance degree calculation means for each unit time included in a predetermined time on the time series, within the calculated predetermined time The burst detection device according to claim 1, wherein a topic having a weighted appearance degree that is equal to or greater than a value based on an average of the weighted appearance degrees is detected as a burst topic.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016087965A JP2017199113A (en) | 2016-04-26 | 2016-04-26 | Burst detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016087965A JP2017199113A (en) | 2016-04-26 | 2016-04-26 | Burst detection device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017199113A true JP2017199113A (en) | 2017-11-02 |
Family
ID=60239446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016087965A Pending JP2017199113A (en) | 2016-04-26 | 2016-04-26 | Burst detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017199113A (en) |
-
2016
- 2016-04-26 JP JP2016087965A patent/JP2017199113A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
CN109325165B (en) | Network public opinion analysis method, device and storage medium | |
CN109271512B (en) | Emotion analysis method, device and storage medium for public opinion comment information | |
US11797620B2 (en) | Expert detection in social networks | |
US9881059B2 (en) | Systems and methods for suggesting headlines | |
CN109145216A (en) | Network public-opinion monitoring method, device and storage medium | |
US9720912B2 (en) | Document management system, document management method, and document management program | |
EP3168795A1 (en) | Method and apparatus for evaluating relevance of keyword to asset price | |
US10565311B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
US9245035B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
JP2017111782A (en) | Method, program and server device for generating caption for social media post | |
CN104077417A (en) | Figure tag recommendation method and system in social network | |
US20130204835A1 (en) | Method of extracting named entity | |
US9514496B2 (en) | System for management of sentiments and methods thereof | |
EP3782048A1 (en) | Action indicators for search operation output elements | |
CN104850617A (en) | Short text processing method and apparatus | |
US20150220615A1 (en) | Categorizing hash tags | |
CN110457595A (en) | Emergency event alarm method, device, system, electronic equipment and storage medium | |
AU2013201006B2 (en) | Information classification program, information classification method, and information processing apparatus | |
Sheeba et al. | Identification and classification of cyberbully incidents using bystander intervention model | |
CN110019763B (en) | Text filtering method, system, equipment and computer readable storage medium | |
CN112182390B (en) | Mail pushing method, device, computer equipment and storage medium | |
US20190318223A1 (en) | Methods and Systems for Data Analysis by Text Embeddings | |
CN112818221B (en) | Entity heat determining method and device, electronic equipment and storage medium | |
JP2017199113A (en) | Burst detection device |