JP2015022429A - Analyzing device, analysis method, and program - Google Patents

Analyzing device, analysis method, and program Download PDF

Info

Publication number
JP2015022429A
JP2015022429A JP2013148718A JP2013148718A JP2015022429A JP 2015022429 A JP2015022429 A JP 2015022429A JP 2013148718 A JP2013148718 A JP 2013148718A JP 2013148718 A JP2013148718 A JP 2013148718A JP 2015022429 A JP2015022429 A JP 2015022429A
Authority
JP
Japan
Prior art keywords
burst
data
burst detection
stream data
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013148718A
Other languages
Japanese (ja)
Inventor
浩之 牧野
Hiroyuki Makino
浩之 牧野
正圭 韓
Jeongkyoo Han
正圭 韓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013148718A priority Critical patent/JP2015022429A/en
Publication of JP2015022429A publication Critical patent/JP2015022429A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To perform high-accuracy burst detection.SOLUTION: An analyzing apparatus includes: receiving means which receives stream data; storage means which stores the received stream data; input means which receives burst detection of predetermined data from a burst detector which detects a burst where the predetermined data appears highly frequently in the stream data; factor analysis means which analyzes a factor for appearance of the data by referring to stream data obtained a predetermined period before the burst detection, from among the stored stream data; and output means which outputs control information on a criterion for the burst detector to detect a burst, to the burst detector, on the basis of the analyzed factor.

Description

本発明は、分析装置、分析方法及びプログラムに関する。   The present invention relates to an analysis apparatus, an analysis method, and a program.

近年、ネットサービスの発展によって多数のユーザが意見やコメントを投稿するCGM(Consumer Generated Media)が普及し、大量の投稿データをリアルタイムに入手できるようになった。このため、この投稿データとしてエントリされたデータの集合であるストリームデータ(以下、ストリームデータと呼ぶ)を分析し、世の中の動きや傾向を捉える取り組みが活発に行われている。具体的には、イベントの発生によって、イベントに対して大衆が反応すると、一定時間内に投稿数が急激に増加するという現象(バースト)が発生することから、世の中の動きや傾向を捉えるものとして、ストリームデータにおけるバースト検知がある。   In recent years, with the development of network services, CGM (Consumer Generated Media) in which many users post opinions and comments has become widespread, and a large amount of post data can be obtained in real time. For this reason, efforts are being actively made to analyze the stream data (hereinafter referred to as stream data), which is a set of data entered as post data, and to capture trends and trends in the world. Specifically, when the public reacts to an event due to the occurrence of an event, a phenomenon (burst) occurs in which the number of posts increases rapidly within a certain period of time. There is burst detection in stream data.

特開2007−267151号公報JP 2007-267151 A 特開2008−311719号公報JP 2008-311719 A 特開2012−164242号公報JP 2012-164242 A

しかしながら、上述した従来のバースト検知では、ストリームデータにおいて推移する値から特徴量やパターンに応じて行うものであり、ストリームデータ自体のセマンティクスを考慮する、又はバースト点と判断された要因を分析するといったサイクルがバースト検知のサイクルの中に含まれておらず、高精度なバースト検知を行うことが困難であった。例えば、高精度なバースト検知を行うことが困難な例としては、本来のイベント発生とは関係のないノイズの集合を誤ってバーストと判定してしまうことがある。また、バーストとみなす閾値が適切でないために少しの反応で毎回バーストと誤って判定してしまうことがある。また、周期的な現象をバーストとみなしてしまうことがある。   However, the above-described conventional burst detection is performed according to the feature amount or pattern from the value that changes in the stream data, and considers the semantics of the stream data itself or analyzes the factor determined to be a burst point. The cycle is not included in the burst detection cycle, and it is difficult to perform highly accurate burst detection. For example, as an example where it is difficult to perform high-precision burst detection, a set of noises unrelated to the original event occurrence may be erroneously determined as a burst. Moreover, since the threshold value regarded as a burst is not appropriate, a burst may be erroneously determined every time with a small reaction. In addition, a periodic phenomenon may be regarded as a burst.

ソーシャルメディアにおけるバースト検知においては、検知対象とするキーワード(ターム)ごとにバーストの判断のもととなる推移情報を計算し、バーストの判定を行うが、設定したキーワードごとに特性が異なるため、正確にバーストを検知するにはバーストと判断する閾値・頻度・周期性の判断などの要因を分析して考慮する必要がある。上述の従来技術では、この分析と、条件設定とを手動で行う必要があり、人的コストがかかっていた。   In burst detection on social media, the transition information that is the basis of burst determination is calculated for each keyword (term) to be detected, and burst determination is performed. However, since the characteristics differ for each set keyword, it is accurate. In order to detect a burst, it is necessary to analyze and consider factors such as the threshold value, frequency, and periodicity for determining a burst. In the above-described conventional technology, it is necessary to manually perform this analysis and condition setting, which requires human costs.

本発明は、上記に鑑みてなされたものであって、高精度なバースト検知を行うことを可能とする分析装置、分析方法及びプログラムに関する。   The present invention has been made in view of the above, and relates to an analysis apparatus, an analysis method, and a program capable of performing burst detection with high accuracy.

上述した課題を解決し、目的を達成するために、実施形態にかかる分析装置は、ストリームデータを受信する受信手段と、前記受信されたストリームデータを記憶する記憶手段と、前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力手段と、前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現にかかる要因を分析する要因分析手段と、前記分析された要因に基づいて、前記バースト検知装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検知装置へ出力する出力手段と、を備えることを特徴とする。   In order to solve the above-described problems and achieve the object, an analyzer according to an embodiment includes a receiving unit that receives stream data, a storage unit that stores the received stream data, and predetermined data in the stream data. From the burst detection device that detects a burst in which the frequency of occurrence of the burst is increased, and an input unit that receives burst detection of the predetermined data, and the burst detection from the stored stream data based on the received burst detection Factor analysis means for analyzing a factor related to the appearance of the predetermined data with reference to stream data before a predetermined period from the time point, and a criterion for the burst detection device to perform burst detection based on the analyzed factor Output means for outputting control information relating to the burst detection device. The features.

実施形態にかかる分析装置によれば、高精度なバースト検知を行うことを可能とする、という効果を奏する。   The analyzer according to the embodiment has an effect of enabling highly accurate burst detection.

図1は、バースト発生の要因分析を例示する概念図である。FIG. 1 is a conceptual diagram illustrating factor analysis of burst occurrence. 図2は、実施形態にかかる分析装置の機能構成を例示するブロック図である。FIG. 2 is a block diagram illustrating a functional configuration of the analyzer according to the embodiment. 図3は、実施形態にかかる分析装置の機能構成の内容を説明する図である。FIG. 3 is a diagram for explaining the contents of the functional configuration of the analyzer according to the embodiment. 図4は、分析装置の動作の一例を示すラダーチャートである。FIG. 4 is a ladder chart showing an example of the operation of the analyzer. 図5−1は、分析装置の処理にかかるデータ構造を説明する図である。FIG. 5A is a schematic diagram illustrating a data structure related to processing performed by the analysis apparatus. 図5−2は、分析装置の処理にかかるデータ構造を説明する図である。FIG. 5B is a schematic diagram illustrating a data structure related to processing performed by the analysis apparatus. 図5−3は、分析装置の処理にかかるデータ構造を説明する図である。FIG. 5C is a diagram for explaining a data structure related to processing of the analysis apparatus. 図5−4は、分析装置の処理にかかるデータ構造を説明する図である。FIG. 5-4 is a diagram for explaining a data structure related to the processing of the analysis apparatus. 図5−5は、分析装置の処理にかかるデータ構造を説明する図である。FIG. 5-5 is a diagram for explaining a data structure related to processing of the analysis apparatus. 図6は、分析装置の動作の一例を示すフローチャートである。FIG. 6 is a flowchart illustrating an example of the operation of the analyzer. 図7は、分析装置の動作の一例を示すフローチャートである。FIG. 7 is a flowchart illustrating an example of the operation of the analyzer. 図8は、分析装置の動作の一例を示すフローチャートである。FIG. 8 is a flowchart showing an example of the operation of the analyzer. 図9−1は、configデータの一例を示す図である。FIG. 9A is a diagram of an example of config data. 図9−2は、configデータの一例を示す図である。FIG. 9-2 is a diagram of an example of config data. 図9−3は、configデータの一例を示す図である。FIG. 9C is a diagram of an example of config data. 図10は、実施形態にかかる分析装置を用いた情報処理システムの一例を示す概念図である。FIG. 10 is a conceptual diagram illustrating an example of an information processing system using the analysis apparatus according to the embodiment. 図11は、実施形態にかかる分析装置における処理がコンピュータを用いて具体的に実現されることを示す図である。FIG. 11 is a diagram illustrating that the processing in the analysis apparatus according to the embodiment is specifically realized using a computer.

以下、添付図面を参照して実施形態にかかる分析装置、分析方法及びプログラムを詳細に説明する。なお、以下の説明において、同様の構成要素には共通の符号を付与するとともに、重複する説明を省略する。   Hereinafter, an analysis apparatus, an analysis method, and a program according to embodiments will be described in detail with reference to the accompanying drawings. In the following description, common constituent elements are given common reference numerals, and redundant description is omitted.

図1は、バースト発生の要因分析を例示する概念図である。具体的には、図1は、大量の投稿データが時系列的にエントリされたデータの集合であるストリームデータにおける特定のキーワードの時刻−出現数の関係を示すグラフである。図1において、特定のキーワードの出現数が急激に増加したポイント(時刻)がバースト現象が生じているバーストポイントである。   FIG. 1 is a conceptual diagram illustrating factor analysis of burst occurrence. Specifically, FIG. 1 is a graph showing the relationship between the time and the number of appearances of a specific keyword in stream data, which is a set of data in which a large amount of post data is entered in time series. In FIG. 1, the point (time) at which the number of occurrences of a specific keyword suddenly increases is the burst point at which the burst phenomenon occurs.

以下で説明する実施形態にかかる分析装置は、このストリームデータにおけるバースト発生の要因を分析する。具体的には、ストリームデータに含まれるキーワードのバースト検知を契機に、図1に示すようにストリームデータの過去に遡ってバースト事象が発生した要因およびその特徴を分析とする。そして、分析装置で得たバースト発生要因の分析結果をバースト検知にフィードバックすることで高精度なバースト検知を可能としている。   An analysis apparatus according to an embodiment described below analyzes a factor of burst occurrence in the stream data. Specifically, as a trigger for detecting a burst of keywords included in the stream data, the cause and characteristics of the occurrence of the burst event going back to the past of the stream data are analyzed as shown in FIG. The analysis result of the burst generation factor obtained by the analyzer is fed back to the burst detection, thereby enabling high-precision burst detection.

図2は、実施形態にかかる分析装置100の機能構成を例示するブロック図である。図3は、実施形態にかかる分析装置の機能構成の内容を説明する図である。   FIG. 2 is a block diagram illustrating a functional configuration of the analysis apparatus 100 according to the embodiment. FIG. 3 is a diagram for explaining the contents of the functional configuration of the analyzer according to the embodiment.

図2に示すように、分析装置100は、コンピュータを用いて実現される機能構成として(詳細は後述する)、投稿データ入力IF1と、バースト情報入力IF2と、データストレージ連携IF3と、要因分析外部連携IF4と、事象要因出力IF5と、制御情報提供IF6と、処理制御部7と、データ蓄積部8と、要因分析部9と、特徴量計算部10と、統計量計算部11とを備える。図3に示すように、投稿データ入力IF1、バースト情報入力IF2、データストレージ連携IF3、要因分析外部連携IF4、事象要因出力IF5及び制御情報提供IF6は、外部機器と通信するインタフェース(IF)である。また、処理制御部7、データ蓄積部8、要因分析部9、特徴量計算部10及び統計量計算部11は、コアモジュールである。   As shown in FIG. 2, the analysis device 100 has a functional configuration realized by using a computer (details will be described later), and includes a posting data input IF1, a burst information input IF2, a data storage linkage IF3, a factor analysis external The system includes a linkage IF 4, an event factor output IF 5, a control information providing IF 6, a processing control unit 7, a data storage unit 8, a factor analysis unit 9, a feature amount calculation unit 10, and a statistic calculation unit 11. As shown in FIG. 3, the posting data input IF1, burst information input IF2, data storage linkage IF3, factor analysis external linkage IF4, event factor output IF5, and control information providing IF6 are interfaces (IF) for communicating with external devices. . Moreover, the process control part 7, the data storage part 8, the factor analysis part 9, the feature-value calculation part 10, and the statistic calculation part 11 are core modules.

投稿データ入力IF1は、逐次エントリされる投稿データを受信するためのインタフェースである。バースト情報入力IF2は、バースト検知装置25(図10参照)からバースト情報(キーワード、バースト時刻)を受信するためのインタフェースである。バースト検知装置25は、逐次エントリされた投稿データにおいて、所定のキーワードの出現頻度が所定の閾値以上となるバーストを検知する装置である。バースト検知装置25は、バースト検知に応じて、バーストが発生したキーワードと、その発生時刻(バースト時刻)を分析装置100へ通知する。   The post data input IF1 is an interface for receiving post data that is sequentially entered. The burst information input IF2 is an interface for receiving burst information (keyword, burst time) from the burst detection device 25 (see FIG. 10). The burst detection device 25 is a device that detects a burst in which the appearance frequency of a predetermined keyword is equal to or higher than a predetermined threshold in post data that is sequentially entered. In response to the burst detection, the burst detection device 25 notifies the analysis device 100 of the keyword in which the burst has occurred and the occurrence time (burst time).

データストレージ連携IF3は、外部のストレージシステムに投稿データ入力IF1が受信した投稿データを出力することで、ストレージシステムに投稿データを保存させるためのインタフェースである。要因分析外部連携IF4は、バースト情報入力IF2によりバースト情報を受信し、そのバーストの事象要因を分析する際に、リアルタイム機械学習ツールを利用するためのインタフェースである。   The data storage cooperation IF3 is an interface for storing the posted data in the storage system by outputting the posted data received by the posted data input IF1 to an external storage system. The factor analysis external linkage IF4 is an interface for receiving the burst information by the burst information input IF2 and using a real-time machine learning tool when analyzing the event factor of the burst.

事象要因出力IF5は、バースト発生の要因となった事象要因の分析結果を、GUI(Graphical User Interface)等へ出力してユーザへ通知するためのインタフェースである。制御情報提供IF6は、バースト検知装置25にバースト検知の精度を向上させるための設定情報や制御情報を出力するためのインタフェースである。バースト検知装置25は、制御情報提供IF6から出力される情報を、バースト検知を行う際の判断基準とする。   The event factor output IF5 is an interface for outputting an analysis result of an event factor that causes a burst occurrence to a GUI (Graphical User Interface) or the like and notifying the user. The control information providing IF 6 is an interface for outputting setting information and control information for improving the accuracy of burst detection to the burst detection device 25. The burst detection device 25 uses the information output from the control information providing IF 6 as a criterion for performing burst detection.

処理制御部7は、分析装置100の各モジュール(機能構成)を制御するためのプログラム(コアモジュール)である。データ蓄積部8は、投稿データ入力IF1が受信した投稿データを、メモリに蓄積するプログラムである。また、データ蓄積部8は、処理制御部7の制御のもと、メモリに蓄積された投稿データの読み出しや、所定期間経過した過去のデータの消去を行う。   The processing control unit 7 is a program (core module) for controlling each module (functional configuration) of the analysis apparatus 100. The data storage unit 8 is a program for storing post data received by the post data input IF1 in a memory. Further, under the control of the processing control unit 7, the data storage unit 8 reads the posted data stored in the memory and erases past data after a predetermined period.

要因分析部9は、バースト情報入力IF2より受信したバースト情報をもとに、そのバーストの事象要因を分析する。具体的には、要因分析部9は、投稿データ入力IF1より取得してデータ蓄積部8に蓄積された投稿データをもとに、バースト情報に基づくデータのセマンティクスを取得し、そのバーストの事象要因を分析する。   The factor analysis unit 9 analyzes the event factor of the burst based on the burst information received from the burst information input IF2. Specifically, the factor analysis unit 9 acquires the data semantics based on the burst information based on the post data acquired from the post data input IF1 and stored in the data storage unit 8, and the event factor of the burst Analyze.

特徴量計算部10は、バーストの事象要因となった投稿データから特徴量(特徴単語(キーワード)、その単語の出現頻度等)を計算するプログラムである。統計量計算部11は、入力される投稿データの統計量(集計窓ごとの投稿数の変化量、投稿量等)を計算するプログラムである。   The feature amount calculation unit 10 is a program that calculates a feature amount (a feature word (keyword), an appearance frequency of the word, and the like) from post data that has become an event factor of a burst. The statistic calculation unit 11 is a program for calculating the statistic of input post data (amount of change in the number of posts for each aggregation window, the amount of posts, etc.).

ここで、上述した機能構成における動作の詳細を説明する。図4は、分析装置100の動作の一例を示すラダーチャートである。図5−1〜図5−5は、分析装置100の処理にかかるデータ構造を説明する図である。   Here, the details of the operation in the above-described functional configuration will be described. FIG. 4 is a ladder chart showing an example of the operation of the analyzer 100. FIGS. 5-1 to 5-5 are diagrams for explaining a data structure related to the processing of the analysis apparatus 100. FIG.

図4に示すように、投稿データ入力IF1は、投稿データの入力を受け付けて、その投稿データを形態素解析し、タグ(キーワード)を付与する(S1)。次いで、データ蓄積部8は、タグが付与された投稿データをメモリ(データベース)に保存して逐次蓄積する(S2)。S1、S2では、図5−1に示すように、投稿データに含まれるキーワードにタグ付けされて投稿データがデータベースに保存される。したがって、要因分析部9では、タグ、時刻などを取得範囲として投稿データの読み出しを行うことが可能である。   As shown in FIG. 4, the posting data input IF1 receives input of posting data, morphologically analyzes the posting data, and assigns a tag (keyword) (S1). Next, the data accumulating unit 8 saves the post data to which the tag is attached in the memory (database) and sequentially accumulates it (S2). In S1 and S2, as shown in FIG. 5A, the keyword included in the posted data is tagged and the posted data is stored in the database. Accordingly, the factor analysis unit 9 can read the posted data using the tag, time, and the like as the acquisition range.

図6は、分析装置100の動作の一例を示すフローチャートであり、より具体的には、投稿データの保存にかかる動作の一例を示している。図6に示すように、投稿データの入力により処理が開始されると、データ蓄積部8は、投稿データからタグ(キーワード)を抽出し(S21)、タグが1個以上ついているか否かを判定する(S22)。タグが1個以上ついている場合(S22:YES)、データ蓄積部8は、投稿データをメモリに保存し、統計量計算部11にタグ、カウンタ値を登録する(S23)。タグが1個以上ついていない場合(S22:NO)、及びS23に次いで、データ蓄積部8は、次の投稿データの読み込みを行い(S24)、S21へ処理を戻す。   FIG. 6 is a flowchart showing an example of the operation of the analysis apparatus 100. More specifically, FIG. 6 shows an example of the operation related to storing post data. As shown in FIG. 6, when the process is started by the input of post data, the data storage unit 8 extracts a tag (keyword) from the post data (S21) and determines whether one or more tags are attached. (S22). When one or more tags are attached (S22: YES), the data storage unit 8 stores the posted data in the memory and registers the tag and counter value in the statistic calculation unit 11 (S23). When one or more tags are not attached (S22: NO) and after S23, the data storage unit 8 reads the next post data (S24), and returns the process to S21.

ここで、データ蓄積部8では、データベースに保存された投稿データの中から古くなった投稿を削除する処理を行う(S3)。この保存処理により、リアルタイムに事象要因を分析するために、分析対象とする投稿データを一時的にメモリ上に蓄積しており、要因分析部9では、任意のタイミングでタイムシフトしながら蓄積した投稿データを取得できる。また、一定時間が過ぎた古い投稿データは消去される。これは、コンピュータシステムにおけるキャッシュのような位置づけに近いものである。   Here, the data storage unit 8 performs a process of deleting an old post from post data stored in the database (S3). By this storage process, post data to be analyzed is temporarily stored in the memory in order to analyze the event factors in real time, and the factor analysis unit 9 stores posts that are accumulated while shifting time at an arbitrary timing. Data can be acquired. Also, old post data after a certain time is deleted. This is close to a cache-like position in a computer system.

一般的に、セマンティクスを考慮に入れた深い分析と、大量の投稿データのリアルタイム性を確保という要件は、トレードオフとなる。本実施形態における分析装置100では、秒間数千データという大量データをリアルタイムに処理することを目的としている。そのため、投稿データを入力するためのインタフェース部分に大量データを受け付けるためのキュー受信機能とキュー受信バッファを備え、高速なメモリにデータを蓄えている。   In general, the deep analysis that takes the semantics into account and the requirement to ensure the real-time property of a large amount of posted data are trade-offs. The analysis apparatus 100 according to this embodiment is intended to process a large amount of data of several thousand data per second in real time. For this reason, the interface portion for inputting post data is provided with a queue reception function and a queue reception buffer for receiving a large amount of data, and the data is stored in a high-speed memory.

また、投稿データを長時間にわたってデータ蓄積部8のメモリに蓄積せずに、要因分析外部連携IF4を介してリアルタイムに機械学習ベースの分類処理(例えば分類アルゴリズムの適用)を行って、分類された投稿データをデータ蓄積部8に保存してもよい。そして、バースト検知のバースト情報を契機に、要因分析部9は、データ蓄積部8に保存した分類結果を取得してもよい。   Further, the post-data is not stored in the memory of the data storage unit 8 for a long time, but is classified by performing machine learning-based classification processing (for example, application of a classification algorithm) in real time via the factor analysis external cooperation IF4. Post data may be stored in the data storage unit 8. And the factor analysis part 9 may acquire the classification result preserve | saved in the data storage part 8 by the burst information of a burst detection.

この場合、キーワード、時刻、分類結果をデータ蓄積部8のメモリに蓄積する。例えば、バーストした際にバーストの要因がポジティブなことに起因するのかネガティブなことに起因するのか、感情分析を行いたい場合に、要因分析外部連携IF4を介した機械学習で分類する本手法が用いられる。同じキーワードでもコンテクストによって、とらえ方が変わるキーワードや事象(例えば新製品の発表、プレスリリース、要人発言等)について、感情分析が効果的である。リアルタイムに分類結果を蓄積する理由として、バースト発生後、短時間のうちに分類結果を取り出したいためである。バーストが発生しなかった場合は、データ蓄積部8は、一定時間で分類結果を古い物から消去する。分類結果が時系列で最新のものに更新されるため、トレンドが反映されたより正確な事象要因が取得できる。   In this case, the keyword, time, and classification result are stored in the memory of the data storage unit 8. For example, this method is used to classify by machine learning via the factor analysis external linkage IF4 when you want to analyze emotions whether the cause of the burst is positive or negative when bursting. It is done. Sentiment analysis is effective for keywords and events (for example, new product announcements, press releases, key comments, etc.) that change the way they are captured by the context even with the same keyword. The reason for accumulating the classification results in real time is that it is desired to extract the classification results within a short time after the occurrence of the burst. If no burst occurs, the data storage unit 8 erases the classification results from the old ones in a fixed time. Since the classification result is updated to the latest in time series, a more accurate event factor reflecting the trend can be acquired.

また、リアルタイムな機械学習手法の適用が難しい場合(例えば、ある投稿が発生すると別の投稿が発生するといったような、同時性、関係性が強い事象の組み合わせを発見するようなアソシエーションルール抽出では、分析対象とするデータを一纏めに取得する必要がある場合)、過去に遡って分析対象とするデータを取得するが、分析対象とするデータを高速に取り出せるため、バッチ処理を行う場合に比べて高速に処理が行える。   In addition, when it is difficult to apply real-time machine learning techniques (for example, in association rule extraction that finds a combination of events that are highly synchronized and related, such as when one post occurs, another post occurs, (When it is necessary to acquire the data to be analyzed collectively), the data to be analyzed is acquired retroactively, but since the data to be analyzed can be retrieved at high speed, it is faster than when batch processing is performed. Can be processed.

分析装置100では、バースト情報入力IF2によりバースト情報を受信すると(S4)、要因分析部9は、バーストのキーワードと時刻から、データ蓄積部8に蓄積された投稿データのタグを検索し(S5)、バースト要因を取得する(S6)。具体的には、図5−2に示すように、要因分析部9は、バーストのキーワードと時刻とをもとに、バーストの要因と推定される投稿データを取得する。なお、このバースト要因の取得は、上述したように、要因分析外部連携IF4経由で外部ツール(リアルタイム機械学習ツール)からのものであってもよい。   In the analysis apparatus 100, when burst information is received by the burst information input IF2 (S4), the factor analysis unit 9 searches for a tag of post data stored in the data storage unit 8 from the keyword and time of the burst (S5). The burst factor is acquired (S6). Specifically, as illustrated in FIG. 5B, the factor analysis unit 9 acquires post data estimated to be a factor of the burst based on the keyword and time of the burst. The acquisition of the burst factor may be from an external tool (real-time machine learning tool) via the factor analysis external cooperation IF4 as described above.

次いで、要因分析部9は、バーストの要因と推定された各投稿について、各投稿のタグから隣接行列を作成し、各投稿同士のつながりを示すグラフを構築する。そして、要因分析部9は、構築したグラフ構造を解析することで、事象要因(例えば最もつながりの多い投稿を一位の事象要因とする)を取得する。   Next, the factor analysis unit 9 creates an adjacency matrix for each post estimated to be a cause of the burst from the tag of each post, and constructs a graph indicating the connection between the posts. Then, the factor analysis unit 9 analyzes the constructed graph structure to acquire an event factor (for example, a post having the most connections is set as the first event factor).

図7は、分析装置100の動作の一例を示すフローチャートであり、より具体的には、常用要因の分析にかかる動作の一例を示している。図7に示すように、要因分析部9は、バースト情報(キーワード)がメモリに保存したタグにマッチするか否かを判定する(S31)。ここで、マッチしない場合(S31:NO)は処理を終了する。   FIG. 7 is a flowchart showing an example of the operation of the analysis apparatus 100. More specifically, FIG. 7 shows an example of the operation related to the analysis of the common factor. As shown in FIG. 7, the factor analysis unit 9 determines whether or not the burst information (keyword) matches the tag stored in the memory (S31). If there is no match (S31: NO), the process is terminated.

マッチする場合(S31:YES)、要因分析部9は、マッチした投稿を集めて上述した投稿同士のつながりによる事象要因を分析する(S32)。次いで、要因分析部9は、S32による分析で事象要因が取得できたか否かを判定する(S33)。ここで、事象要因が取得できない場合(S33:NO)は処理を終了する。事象要因が取得できた場合(S33:YES)、要因分析部9は、特徴量計算部10に取得した事象要因を登録し、事象要因出力IF5に取得した事象要因を渡して(S34)、処理を終了する。   When there is a match (S31: YES), the factor analysis unit 9 collects the matched posts and analyzes the event factor due to the connection between the posts described above (S32). Next, the factor analysis unit 9 determines whether or not the event factor has been acquired by the analysis in S32 (S33). If the event factor cannot be acquired (S33: NO), the process ends. When the event factor can be acquired (S33: YES), the factor analysis unit 9 registers the acquired event factor in the feature amount calculation unit 10, passes the acquired event factor to the event factor output IF5 (S34), and performs processing. Exit.

図4に戻り、特徴量計算部10では、バースト要因と推定された各投稿の特徴量を計算する(S7)。要因分析部9は、事象要因出力IF5を通じて、事象要因をGUIに出力する(S8)。この事象要因の出力は、分析装置100から自発的にGUI等の外部のシステムに配信するプッシュ型や、GUI等の外部のシステムからリクエストを受け付けて、そのリクエストへの返答として出力するプル型のいずれであってもよい。   Returning to FIG. 4, the feature amount calculation unit 10 calculates the feature amount of each post estimated to be a burst factor (S <b> 7). The factor analysis unit 9 outputs the event factor to the GUI through the event factor output IF5 (S8). The output of the event factor is a push type that is spontaneously distributed from the analysis apparatus 100 to an external system such as a GUI, or a pull type that receives a request from an external system such as a GUI and outputs it as a response to the request. Either may be sufficient.

次いで、制御情報提供IF6は、特徴量計算部10で計算した特徴量と、統計量計算部11で計算した統計量とを取得する(S9)。次いで、制御情報提供IF6は、要因分析部9により分析された事象要因と、取得した特徴量、統計量とをもとに、バースト検知装置25がバースト検知を行う際の判断基準となる制御情報(config)を生成し(S10)、生成した制御情報をプッシュ型/プル型でバースト検知装置25へ出力する(S11)。   Next, the control information provision IF 6 acquires the feature amount calculated by the feature amount calculation unit 10 and the statistic amount calculated by the statistic calculation unit 11 (S9). Next, the control information providing IF 6 uses the event factor analyzed by the factor analysis unit 9 and the control information to be a determination criterion when the burst detection device 25 performs the burst detection based on the acquired feature amount and statistic amount. (Config) is generated (S10), and the generated control information is output to the burst detection device 25 in a push type / pull type (S11).

図8は、分析装置100の動作の一例を示すフローチャートであり、より具体的には、制御情報(config)の出力にかかる動作の一例を示している。図9−1〜図9−3は、configデータの一例を示す図である。   FIG. 8 is a flowchart illustrating an example of the operation of the analysis apparatus 100. More specifically, FIG. 8 illustrates an example of an operation related to output of control information (config). FIG. 9A to FIG. 9C are diagrams illustrating an example of config data.

図8に示すように、制御情報提供IF6は、基準時刻(例えばバースト情報に含まれるバーストが発生した時刻)からX分以内の事象要因を要因分析部9より取得する(S41)。ここでのX分は、予め任意の値が設定されていてよい。次いで、制御情報提供IF6は、事象要因が複数取得できたか否かを判定する(S42)。ここで、複数取得できていない場合(S42:NO)は処理を終了する。   As shown in FIG. 8, the control information providing IF 6 acquires from the factor analysis unit 9 an event factor within X minutes from the reference time (for example, the time when the burst included in the burst information occurs) (S41). An arbitrary value may be set in advance for the X minutes. Next, the control information providing IF 6 determines whether or not a plurality of event factors have been acquired (S42). Here, when a plurality cannot be acquired (S42: NO), the process is terminated.

事象要因が複数取得できた場合(S42:YES)、特徴量計算部10では、事象要因の類似性、発生頻度を計算する(S43)。具体的には、図5−3に示すように、特徴量計算部10は、要因分析部9より事象要因と分析された投稿データを解析して、類似性のあるキーワード(特徴単語)と、そのキーワードごとの出現頻度(出現度数)を計算する。   When a plurality of event factors can be acquired (S42: YES), the feature amount calculation unit 10 calculates the similarity and occurrence frequency of the event factors (S43). Specifically, as illustrated in FIG. 5C, the feature amount calculation unit 10 analyzes post data analyzed as an event factor by the factor analysis unit 9, and has similar keywords (feature words), The appearance frequency (frequency of appearance) for each keyword is calculated.

次いで、統計量計算部11では、入力される投稿データの統計量(集計窓ごとの投稿数の変化量、投稿量等)を計算して、キーワードごとにバースト検知を行うための閾値を計算する(S44)。具体的には、図5−4に示すように、統計量計算部11は、集計窓ごとの投稿数の変化量、投稿量等の統計量を求める。そして、統計量計算部11は、計算した統計量に応じた閾値を計算する。例えば、投稿数の変化量、投稿量が大きい場合は、キーワードについてのバースト検知を行うための閾値をより高くするなどのように、キーワードごとの閾値を計算する。   Next, the statistic calculation unit 11 calculates the statistic of the input post data (the amount of change in the number of posts for each aggregation window, the post amount, etc.), and calculates a threshold for performing burst detection for each keyword. (S44). Specifically, as illustrated in FIG. 5-4, the statistic calculation unit 11 obtains a statistic such as the amount of change in the number of posts and the amount of posts for each counting window. And the statistic calculation part 11 calculates the threshold value according to the calculated statistic. For example, when the amount of change in the number of posts and the amount of posts are large, the threshold for each keyword is calculated such that the threshold for performing burst detection for the keyword is increased.

次いで、制御情報提供IF6は、要因分析部9により分析された事象要因、特徴量計算部10が計算した特徴量、及び統計量計算部11が計算した統計量・閾値をもとにした制御情報をバースト検知装置25へ渡す(S45)。具体的には、図5−5に示すように、制御情報提供IF6は、特徴量計算部10、統計量計算部11より取得した情報をもとに、制御情報(config)を生成してバースト検知装置25へ出力する。   Next, the control information provision IF 6 controls the control information based on the event factor analyzed by the factor analysis unit 9, the feature amount calculated by the feature amount calculation unit 10, and the statistic / threshold value calculated by the statistic calculation unit 11. To the burst detection device 25 (S45). Specifically, as shown in FIG. 5-5, the control information providing IF 6 generates control information (config) based on the information acquired from the feature amount calculation unit 10 and the statistic amount calculation unit 11, and bursts it. Output to the detection device 25.

例えば、制御情報提供IF6は、受信したバースト通知の履歴を保存しておき、同じキーワードに対するバースト通知の間隔が予め決められた値より短い場合に、バースト検知装置25に通知を抑制する命令か、バーストの判断基準をより強めるための閾値を含む制御情報を送信する。   For example, the control information providing IF 6 stores a history of received burst notifications, and when the burst notification interval for the same keyword is shorter than a predetermined value, a command to suppress notification to the burst detection device 25, Control information including a threshold value for further strengthening the criterion for determining the burst is transmitted.

また、同じようなパターンでバーストしたキーワードについて、要因が同じかどうかを、要因となった投稿データの特徴量により判定し、同様のキーワードをまとめてバースト検知が行えるように制御情報を提供することもできる。具体的には、バースト要因の分析後、特徴量を計算するが、直近のバースト要因から得た特徴量を履歴として一定量保存しておき、バースト要因同士の類似性を判定する。そして、類似度が高いキーワードをまとめた制御情報(config)をバースト検知装置25へ出力する。具体的には、類似度が高いキーワード同士をまとめてバースト検知の条件と設定する場合には、図9−1に示すようなconfigデータを、API(Application Programming Interface)である制御情報提供IF6経由で提供する。   In addition, for keywords that burst in a similar pattern, determine whether the factors are the same based on the feature amount of the post data that caused the factors, and provide control information so that burst detection can be performed for similar keywords together. You can also. Specifically, the feature amount is calculated after analyzing the burst factor, but a certain amount of feature amount obtained from the latest burst factor is stored as a history, and the similarity between the burst factors is determined. Then, control information (config) in which keywords having high similarity are collected is output to the burst detection device 25. Specifically, when keywords having high similarity are collectively set as a burst detection condition, config data as shown in FIG. 9-1 is sent via a control information providing IF 6 that is an API (Application Programming Interface). Provide in.

これにより、バースト検知装置25では、より正確なバースト検知が行えるようになる。例えば、周期的にバーストが現れているキーワードに対し、バーストの要因がいつも同じであれば、バースト検知装置25に対して、同じ要因に対するバーストの通知を抑制するための情報を提供することもできる。   Thereby, the burst detection device 25 can perform more accurate burst detection. For example, if a burst factor is always the same for a keyword in which a burst appears periodically, information for suppressing burst notification for the same factor can be provided to the burst detection device 25. .

さらに、制御情報提供IF6は、投稿データの統計量を取得し、バースト検知装置25にその情報を提供することで、バーストの判断基準や閾値などの調整を、キーワードごとに細かく設定してよい。具体的には、バースト検知装置25には、キーワードごとにバースト判断ルールと投稿量や加速度の閾値を設定値として入力する。例えば、判定対象とする時間窓で3回とも加速度が増加し、なおかつ投稿数が1000件以上というルールを設定する場合には、図9−2に示すようなconfigデータをAPIである制御情報提供IF6経由で提供する。   Further, the control information providing IF 6 may acquire the statistics of the posted data and provide the information to the burst detection device 25, thereby finely setting adjustments such as a burst judgment criterion and a threshold for each keyword. Specifically, a burst determination rule, a posting amount, and an acceleration threshold are input as set values to the burst detection device 25 for each keyword. For example, when setting a rule that acceleration increases three times in the time window to be determined and the number of posts is 1000 or more, config data as shown in FIG. 9-2 is provided as control information that is an API. Provide via IF6.

さらに、制御情報提供IF6は、図9−3に示すように、configを有効にしておく期限(TTL: Time To Live)を設定してバースト検知装置25へ出力してもよい。これは、一度バーストした際に、短期間の間に再び同じ要因でバーストする場合があり、2回目以降のバーストを抑制するために制御情報(config)を発行するが、一定期間が経過した後に前回と同じ条件でバーストを検知したい場合に用いられる。TTLは例えば秒単位で指定し、TTLで設定した時間が経過すると、TTL付きで発行したconfigは無効になり、もとのバースト条件に戻るものとする。   Further, as shown in FIG. 9C, the control information providing IF 6 may set a time limit (TTL: Time To Live) during which the config is valid and output it to the burst detection device 25. This is because when bursting once, it may burst again due to the same factor for a short period of time, and control information (config) is issued to suppress the second and subsequent bursts, but after a certain period of time has elapsed Used when you want to detect a burst under the same conditions as the previous time. For example, the TTL is specified in seconds, and when the time set in the TTL elapses, the config issued with the TTL becomes invalid and returns to the original burst condition.

また、投稿データについては、前述した統計量を統計量計算部11より取得することができる。したがって、キーワードごとに単位時間に対するキーワードの増減割合(加速度)を統計量計算部11で計算し、データ蓄積部8では、閾値を超えた箇所のみ投稿データを保存してもよい。逆に加速度が閾値未満の場合には、バーストが発生しそうか否かをバースト情報が入力される以前に分析装置100が把握できる(そもそも投稿量が少ない、変化がない場合にはバースト情報を受信する可能性は低いと考えられる)ため、予め蓄積する必要がないデータに対しては蓄積をスキップできる。これにより、少ないメモリ量でシステムを実現することができる。また、オプションとして、データを保存したい場合に、事象要因の分析に必要となりそうな投稿データはメモリ上に蓄積し、それ以外の投稿データは、データストレージ連携IF3を介して安価なストレージ(ディスクストレージやNAS等)にアーカイブしておくことが可能である。   Further, regarding the posted data, the above-described statistics can be acquired from the statistics calculation unit 11. Therefore, the increase / decrease rate (acceleration) of the keyword with respect to the unit time for each keyword may be calculated by the statistic calculation unit 11, and the data storage unit 8 may store the post data only at a location exceeding the threshold. Conversely, when the acceleration is less than the threshold value, the analysis apparatus 100 can grasp whether or not a burst is likely to occur before the burst information is input (in the first place, the burst information is received when there is little posting amount or no change). Therefore, it is possible to skip accumulation of data that does not need to be accumulated in advance. As a result, the system can be realized with a small amount of memory. Also, as an option, if you want to save the data, post data that is likely to be required for event factor analysis is stored in memory, and other post data is stored in inexpensive storage (disk storage via the data storage linkage IF3). Or NAS).

図10は、実施形態にかかる分析装置100を用いた情報処理システム200の一例を示す概念図である。図10に示すように、情報処理システム200では、ストリームデータ(投稿データ)がレシーバ21、Queue22、24、キーワードカウンタ23を介して分析装置100、バースト検知装置25に入力される。そして、バースト検知装置25で検知されたバースト情報は分析装置100に通知されるとともに、バースト検知情報データベース26に記録される。株価予測システム27では、バースト検知情報データベース26に記録されたバースト情報を参照することで、イベントに対して大衆が反応したことにより生じるバーストを考慮した株価予測を行う。GUI28では、分析装置100により分析されたバーストの要因とともに、株価予測システム27による株価予測の結果を表示してユーザに通知する。   FIG. 10 is a conceptual diagram illustrating an example of an information processing system 200 using the analysis apparatus 100 according to the embodiment. As shown in FIG. 10, in the information processing system 200, stream data (post data) is input to the analysis device 100 and the burst detection device 25 via the receiver 21, Queues 22 and 24, and the keyword counter 23. The burst information detected by the burst detection device 25 is notified to the analysis device 100 and recorded in the burst detection information database 26. In the stock price prediction system 27, by referring to the burst information recorded in the burst detection information database 26, the stock price prediction is performed in consideration of the burst generated by the reaction of the public to the event. In the GUI 28, the result of the stock price prediction by the stock price prediction system 27 is displayed together with the cause of the burst analyzed by the analysis apparatus 100 and notified to the user.

株価予測や株取引を行う情報処理システム200では、即時性が求められることから、たとえば、バースト情報を契機に事象要因を分析し、事象要因から自動的に株式銘柄との関連を推定することで、イベントの発生と同時に影響しそうな株式の株価予測や売買を行うことが可能となる。   In the information processing system 200 that performs stock price prediction and stock trading, immediacy is required. For example, an event factor is analyzed with burst information as a trigger, and a relationship with a stock name is automatically estimated from the event factor. This makes it possible to forecast and buy and sell stocks that are likely to be affected at the same time as the event occurs.

図11は、実施形態にかかる分析装置100における処理がコンピュータを用いて具体的に実現されることを示す図である。図11に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。   FIG. 11 is a diagram illustrating that the processing in the analysis apparatus 100 according to the embodiment is specifically realized using a computer. As illustrated in FIG. 11, the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031. The disk drive interface 1040 is connected to the disk drive 1041. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive. The serial port interface 1050 is connected to a mouse 1051 and a keyboard 1052, for example. The video adapter 1060 is connected to the display 1061, for example.

ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、図2、3に例示した機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。   The hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above program is stored in, for example, the hard disk drive 1031 as a program module 1093 in which a command to be executed by the computer 1000 is described. For example, a program module 1093 for executing information processing similar to the functional configuration illustrated in FIGS. 2 and 3 is stored in the hard disk drive 1031.

また、上述した実施形態での処理に必要な設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   In addition, setting data necessary for processing in the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   The program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1031, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive or the like. Alternatively, the program module 1093 and the program data 1094 are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.) and read by the CPU 1020 via the network interface 1070. May be issued.

100…分析装置、1…投稿データ入力IF、2…バースト情報入力IF、3…データストレージ連携IF、4…要因分析外部連携IF、5…事象要因出力IF、6…制御情報提供IF、7…処理制御部、8…データ蓄積部、9…要因分析部、10…特徴量計算部、11…統計量計算部、21…レシーバ、22、24…Queue、23…キーワードカウンタ、25…バースト検知装置、26…バースト検知情報データベース、27…株価予測システム、28…GUI、200…情報処理システム、1000…コンピュータ、1010…メモリ、1011…ROM、1012…RAM、1020…CPU、1030…ハードディスクドライブインタフェース、1031…ハードディスクドライブ、1040…ディスクドライブインタフェース、1041…ディスクドライブ、1050…シリアルポートインタフェース、1051…マウス、1052…キーボード、1060…ビデオアダブタ、1061…ディスプレイ、1070…ネットワークインタフェース、1080…バス、1091…OS、1092…アプリケーションプログラム、1093…プログラムモジュール、1094…プログラムデータ。 DESCRIPTION OF SYMBOLS 100 ... Analysis apparatus, 1 ... Posting data input IF, 2 ... Burst information input IF, 3 ... Data storage cooperation IF, 4 ... Factor analysis external cooperation IF, 5 ... Event factor output IF, 6 ... Control information provision IF, 7 ... Processing control unit, 8 ... Data storage unit, 9 ... Factor analysis unit, 10 ... Feature quantity calculation unit, 11 ... Statistics quantity calculation unit, 21 ... Receiver, 22, 24 ... Queue, 23 ... Keyword counter, 25 ... Burst detection device 26 ... Burst detection information database, 27 ... Stock price prediction system, 28 ... GUI, 200 ... Information processing system, 1000 ... Computer, 1010 ... Memory, 1011 ... ROM, 1012 ... RAM, 1020 ... CPU, 1030 ... Hard disk drive interface, 1031: Hard disk drive, 1040: Disk drive interface 1041 ... Disk drive, 1050 ... Serial port interface, 1051 ... Mouse, 1052 ... Keyboard, 1060 ... Video adapter, 1061 ... Display, 1070 ... Network interface, 1080 ... Bus, 1091 ... OS, 1092 ... Application program, 1093 ... Program module 1094: Program data.

Claims (7)

ストリームデータを受信する受信手段と、
前記受信されたストリームデータを記憶する記憶手段と、
前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力手段と、
前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現にかかる要因を分析する要因分析手段と、
前記分析された要因に基づいて、前記バースト検知装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検知装置へ出力する出力手段と、
を備えることを特徴とする分析装置。
Receiving means for receiving stream data;
Storage means for storing the received stream data;
Input means for receiving burst detection of the predetermined data from a burst detection device that detects a burst in which the appearance frequency of the predetermined data is high in the stream data;
Factor analysis means for referring to stream data of a predetermined period before the burst detection time from the stored stream data based on the received burst detection and analyzing a factor related to the appearance of the predetermined data; ,
Based on the analyzed factor, output means for outputting control information to the burst detection device according to a determination criterion when the burst detection device performs burst detection;
An analysis apparatus comprising:
前記要因分析手段は、前記ストリームデータの中に含まれる投稿データの中から、前記所定データが出現する要因となった投稿データを抽出し、
前記出力手段は、前記抽出された投稿データの中に含まれる類似度の高いタームを、前記バースト検知を行う際のキーワードとして前記バースト検知装置へ出力することを特徴とする、
請求項1に記載の分析装置。
The factor analysis means extracts post data that causes the predetermined data to appear from post data included in the stream data,
The output means outputs a term having a high similarity included in the extracted post data to the burst detection device as a keyword for performing the burst detection.
The analyzer according to claim 1.
前記出力手段は、前記抽出された投稿データを集計した統計量に基づいた前記バースト検知にかかる閾値を前記バースト検知装置へ出力することを特徴とする、
請求項2に記載の分析装置。
The output means outputs a threshold value for the burst detection based on a statistic obtained by counting the extracted post data to the burst detection device,
The analyzer according to claim 2.
前記出力手段は、前記制御情報に、当該制御情報を有効とし、前記所定データのバースト検知を抑制する期間を設定して前記バースト検知装置へ出力することを特徴とする、
請求項1乃至3のいずれか一項に記載の分析装置。
The output means makes the control information valid in the control information, sets a period for suppressing burst detection of the predetermined data, and outputs to the burst detection device,
The analyzer according to any one of claims 1 to 3.
前記記憶手段は、前記受信されたストリームデータを機械学習により分類したデータを記憶することを特徴とする、
請求項1乃至4のいずれか一項に記載の分析装置。
The storage means stores data obtained by classifying the received stream data by machine learning.
The analyzer according to any one of claims 1 to 4.
分析装置によって実行される分析方法であって、
ストリームデータを受信する受信ステップと、
前記受信されたストリームデータを記憶する記憶ステップと、
前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力ステップと、
前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現かかる要因を分析する要因分析ステップと、
前記分析された要因に基づいて、前記バースト検出装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検出装置へ出力する出力ステップと、
を含むことを特徴とする分析方法。
An analysis method executed by an analyzer,
A receiving step for receiving stream data;
A storage step of storing the received stream data;
An input step of receiving burst detection of the predetermined data from a burst detection device that detects a burst in which the appearance frequency of the predetermined data is high in the stream data;
Based on the received burst detection, a factor analysis step of referring to the stream data before a predetermined period from the time of the burst detection from the stored stream data and analyzing the factor related to the appearance of the predetermined data;
Based on the analyzed factor, an output step of outputting control information to the burst detection device according to a determination criterion when the burst detection device performs burst detection;
The analysis method characterized by including.
コンピュータに、
ストリームデータを受信する受信ステップと、
前記受信されたストリームデータを記憶する記憶ステップと、
前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力ステップと、
前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現にかかる要因を分析する要因分析ステップと、
前記分析された要因に基づいて、前記バースト検出装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検出装置へ出力する出力ステップと、
を実行させるためのプログラム。
On the computer,
A receiving step for receiving stream data;
A storage step of storing the received stream data;
An input step of receiving burst detection of the predetermined data from a burst detection device that detects a burst in which the appearance frequency of the predetermined data is high in the stream data;
A factor analysis step of referring to the stream data before a predetermined period from the time of the burst detection from the stored stream data and analyzing the factor relating to the appearance of the predetermined data based on the received burst detection; ,
Based on the analyzed factor, an output step of outputting control information to the burst detection device according to a determination criterion when the burst detection device performs burst detection;
A program for running
JP2013148718A 2013-07-17 2013-07-17 Analyzing device, analysis method, and program Pending JP2015022429A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013148718A JP2015022429A (en) 2013-07-17 2013-07-17 Analyzing device, analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013148718A JP2015022429A (en) 2013-07-17 2013-07-17 Analyzing device, analysis method, and program

Publications (1)

Publication Number Publication Date
JP2015022429A true JP2015022429A (en) 2015-02-02

Family

ID=52486843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013148718A Pending JP2015022429A (en) 2013-07-17 2013-07-17 Analyzing device, analysis method, and program

Country Status (1)

Country Link
JP (1) JP2015022429A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019083076A (en) * 2016-12-02 2019-05-30 本田技研工業株式会社 Evaluation device, evaluation method and evaluation program
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program
JP2023103869A (en) * 2022-01-14 2023-07-27 ヤフー株式会社 Information processing device, information processing method, and information processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012145974A (en) * 2011-01-06 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> Burst information retrieval apparatus, burst information retrieval method and burst information retrieval program
JP2013037404A (en) * 2011-08-03 2013-02-21 Yahoo Japan Corp Information processing apparatus, information processing method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012145974A (en) * 2011-01-06 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> Burst information retrieval apparatus, burst information retrieval method and burst information retrieval program
JP2013037404A (en) * 2011-08-03 2013-02-21 Yahoo Japan Corp Information processing apparatus, information processing method and program

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
山中努、田中祐也、土方嘉徳、西田正吾: "時空間情報を伴うテキストデータを用いた状況把握支援システム", 知能と情報(日本知能情報ファジィ学会誌), vol. 22, no. 6, JPN6016022172, 15 December 2010 (2010-12-15), JP, pages 37 - 52, ISSN: 0003336627 *
山岡千夏、中島伸介、張建偉、稲垣陽一、中本レン: "ブログ記事の時系列解析に基づく流行語候補「兆し」の早期発見手法", 第3回データ工学と情報マネジメントに関するフォーラム 論文集[ONLINE], vol. DEIM Forum 2011 A4−1, JPN6016022166, 2011, JP, ISSN: 0003336624 *
菊井玄一郎、門内健太、高橋寛幸: "検索ホットワードとブログ系テキストの関係を探る", 電子情報通信学会技術研究報告 NLC2012−10−NLC2012−24 言語理解とコミュニケーショ, vol. 112, no. 196, JPN6016022164, 23 August 2012 (2012-08-23), JP, pages 31 - 36, ISSN: 0003336628 *
藤木稔明,奥村学: "周期的に発生するburstの予測と抑制", 第73回知識ベースシステム研究会資料 (SIG−KBS−A504), JPN6016022171, 9 March 2006 (2006-03-09), JP, pages 1 - 6, ISSN: 0003336626 *
高橋佑介,宇津呂武仁,吉岡真治: "ニュースにおけるバーストキーワードの話題への集約", 第3回データ工学と情報マネジメントに関するフォーラム 論文集[ONLINE], vol. DEIM Forum 2011 B5−6, JPN6016022168, 2011, JP, ISSN: 0003336625 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019083076A (en) * 2016-12-02 2019-05-30 本田技研工業株式会社 Evaluation device, evaluation method and evaluation program
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program
JP2023103869A (en) * 2022-01-14 2023-07-27 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP7350904B2 (en) 2022-01-14 2023-09-26 ヤフー株式会社 Information processing device, information processing method, and information processing program

Similar Documents

Publication Publication Date Title
US8078913B2 (en) Automated identification of performance crisis
CN111709028B (en) Network security state evaluation and attack prediction method
WO2015090215A1 (en) Voice data recognition method and device for distinguishing regional accent, and server
US20170251072A1 (en) System and method for annotating client-server transactions
US11657316B2 (en) Self-feeding deep learning method and system
US20230359625A1 (en) Alert rule evaluation for monitoring of late arriving data
US8938405B2 (en) Classifying activity using probabilistic models
JP2015022429A (en) Analyzing device, analysis method, and program
CN113282920B (en) Log abnormality detection method, device, computer equipment and storage medium
CN110457595A (en) Emergency event alarm method, device, system, electronic equipment and storage medium
CN110674404A (en) Link information generation method, device, system, storage medium and electronic equipment
US8543552B2 (en) Detecting statistical variation from unclassified process log
WO2024055603A1 (en) Method and apparatus for identifying text from minor
CN115907801A (en) E-commerce evaluation information processing method, system, equipment and medium
CN111209391A (en) Information identification model establishing method and system and interception method and system
CN109145115B (en) Product public opinion discovery method, device, computer equipment and storage medium
CN113283396A (en) Target object class detection method and device, computer equipment and storage medium
CN113742501A (en) Information extraction method, device, equipment and medium
JP5839437B2 (en) Time-series data analysis apparatus, time-series data analysis method, and program
CN112183714A (en) Automated data slicing based on artificial neural network
CN114756401B (en) Abnormal node detection method, device, equipment and medium based on log
JP7207537B2 (en) Classification device, classification method and classification program
CN115242799B (en) Data reporting method, device, equipment, storage medium and program product
CN115904899A (en) Operation record generation method, operation record acquisition method, operation record generation device, operation record acquisition device and operation record acquisition medium
CN117609723A (en) Object identification method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150715

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20151001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161213