JP2015022429A - Analyzing device, analysis method, and program - Google Patents
Analyzing device, analysis method, and program Download PDFInfo
- Publication number
- JP2015022429A JP2015022429A JP2013148718A JP2013148718A JP2015022429A JP 2015022429 A JP2015022429 A JP 2015022429A JP 2013148718 A JP2013148718 A JP 2013148718A JP 2013148718 A JP2013148718 A JP 2013148718A JP 2015022429 A JP2015022429 A JP 2015022429A
- Authority
- JP
- Japan
- Prior art keywords
- burst
- data
- burst detection
- stream data
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、分析装置、分析方法及びプログラムに関する。 The present invention relates to an analysis apparatus, an analysis method, and a program.
近年、ネットサービスの発展によって多数のユーザが意見やコメントを投稿するCGM(Consumer Generated Media)が普及し、大量の投稿データをリアルタイムに入手できるようになった。このため、この投稿データとしてエントリされたデータの集合であるストリームデータ(以下、ストリームデータと呼ぶ)を分析し、世の中の動きや傾向を捉える取り組みが活発に行われている。具体的には、イベントの発生によって、イベントに対して大衆が反応すると、一定時間内に投稿数が急激に増加するという現象(バースト)が発生することから、世の中の動きや傾向を捉えるものとして、ストリームデータにおけるバースト検知がある。 In recent years, with the development of network services, CGM (Consumer Generated Media) in which many users post opinions and comments has become widespread, and a large amount of post data can be obtained in real time. For this reason, efforts are being actively made to analyze the stream data (hereinafter referred to as stream data), which is a set of data entered as post data, and to capture trends and trends in the world. Specifically, when the public reacts to an event due to the occurrence of an event, a phenomenon (burst) occurs in which the number of posts increases rapidly within a certain period of time. There is burst detection in stream data.
しかしながら、上述した従来のバースト検知では、ストリームデータにおいて推移する値から特徴量やパターンに応じて行うものであり、ストリームデータ自体のセマンティクスを考慮する、又はバースト点と判断された要因を分析するといったサイクルがバースト検知のサイクルの中に含まれておらず、高精度なバースト検知を行うことが困難であった。例えば、高精度なバースト検知を行うことが困難な例としては、本来のイベント発生とは関係のないノイズの集合を誤ってバーストと判定してしまうことがある。また、バーストとみなす閾値が適切でないために少しの反応で毎回バーストと誤って判定してしまうことがある。また、周期的な現象をバーストとみなしてしまうことがある。 However, the above-described conventional burst detection is performed according to the feature amount or pattern from the value that changes in the stream data, and considers the semantics of the stream data itself or analyzes the factor determined to be a burst point. The cycle is not included in the burst detection cycle, and it is difficult to perform highly accurate burst detection. For example, as an example where it is difficult to perform high-precision burst detection, a set of noises unrelated to the original event occurrence may be erroneously determined as a burst. Moreover, since the threshold value regarded as a burst is not appropriate, a burst may be erroneously determined every time with a small reaction. In addition, a periodic phenomenon may be regarded as a burst.
ソーシャルメディアにおけるバースト検知においては、検知対象とするキーワード(ターム)ごとにバーストの判断のもととなる推移情報を計算し、バーストの判定を行うが、設定したキーワードごとに特性が異なるため、正確にバーストを検知するにはバーストと判断する閾値・頻度・周期性の判断などの要因を分析して考慮する必要がある。上述の従来技術では、この分析と、条件設定とを手動で行う必要があり、人的コストがかかっていた。 In burst detection on social media, the transition information that is the basis of burst determination is calculated for each keyword (term) to be detected, and burst determination is performed. However, since the characteristics differ for each set keyword, it is accurate. In order to detect a burst, it is necessary to analyze and consider factors such as the threshold value, frequency, and periodicity for determining a burst. In the above-described conventional technology, it is necessary to manually perform this analysis and condition setting, which requires human costs.
本発明は、上記に鑑みてなされたものであって、高精度なバースト検知を行うことを可能とする分析装置、分析方法及びプログラムに関する。 The present invention has been made in view of the above, and relates to an analysis apparatus, an analysis method, and a program capable of performing burst detection with high accuracy.
上述した課題を解決し、目的を達成するために、実施形態にかかる分析装置は、ストリームデータを受信する受信手段と、前記受信されたストリームデータを記憶する記憶手段と、前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力手段と、前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現にかかる要因を分析する要因分析手段と、前記分析された要因に基づいて、前記バースト検知装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検知装置へ出力する出力手段と、を備えることを特徴とする。 In order to solve the above-described problems and achieve the object, an analyzer according to an embodiment includes a receiving unit that receives stream data, a storage unit that stores the received stream data, and predetermined data in the stream data. From the burst detection device that detects a burst in which the frequency of occurrence of the burst is increased, and an input unit that receives burst detection of the predetermined data, and the burst detection from the stored stream data based on the received burst detection Factor analysis means for analyzing a factor related to the appearance of the predetermined data with reference to stream data before a predetermined period from the time point, and a criterion for the burst detection device to perform burst detection based on the analyzed factor Output means for outputting control information relating to the burst detection device. The features.
実施形態にかかる分析装置によれば、高精度なバースト検知を行うことを可能とする、という効果を奏する。 The analyzer according to the embodiment has an effect of enabling highly accurate burst detection.
以下、添付図面を参照して実施形態にかかる分析装置、分析方法及びプログラムを詳細に説明する。なお、以下の説明において、同様の構成要素には共通の符号を付与するとともに、重複する説明を省略する。 Hereinafter, an analysis apparatus, an analysis method, and a program according to embodiments will be described in detail with reference to the accompanying drawings. In the following description, common constituent elements are given common reference numerals, and redundant description is omitted.
図1は、バースト発生の要因分析を例示する概念図である。具体的には、図1は、大量の投稿データが時系列的にエントリされたデータの集合であるストリームデータにおける特定のキーワードの時刻−出現数の関係を示すグラフである。図1において、特定のキーワードの出現数が急激に増加したポイント(時刻)がバースト現象が生じているバーストポイントである。 FIG. 1 is a conceptual diagram illustrating factor analysis of burst occurrence. Specifically, FIG. 1 is a graph showing the relationship between the time and the number of appearances of a specific keyword in stream data, which is a set of data in which a large amount of post data is entered in time series. In FIG. 1, the point (time) at which the number of occurrences of a specific keyword suddenly increases is the burst point at which the burst phenomenon occurs.
以下で説明する実施形態にかかる分析装置は、このストリームデータにおけるバースト発生の要因を分析する。具体的には、ストリームデータに含まれるキーワードのバースト検知を契機に、図1に示すようにストリームデータの過去に遡ってバースト事象が発生した要因およびその特徴を分析とする。そして、分析装置で得たバースト発生要因の分析結果をバースト検知にフィードバックすることで高精度なバースト検知を可能としている。 An analysis apparatus according to an embodiment described below analyzes a factor of burst occurrence in the stream data. Specifically, as a trigger for detecting a burst of keywords included in the stream data, the cause and characteristics of the occurrence of the burst event going back to the past of the stream data are analyzed as shown in FIG. The analysis result of the burst generation factor obtained by the analyzer is fed back to the burst detection, thereby enabling high-precision burst detection.
図2は、実施形態にかかる分析装置100の機能構成を例示するブロック図である。図3は、実施形態にかかる分析装置の機能構成の内容を説明する図である。
FIG. 2 is a block diagram illustrating a functional configuration of the
図2に示すように、分析装置100は、コンピュータを用いて実現される機能構成として(詳細は後述する)、投稿データ入力IF1と、バースト情報入力IF2と、データストレージ連携IF3と、要因分析外部連携IF4と、事象要因出力IF5と、制御情報提供IF6と、処理制御部7と、データ蓄積部8と、要因分析部9と、特徴量計算部10と、統計量計算部11とを備える。図3に示すように、投稿データ入力IF1、バースト情報入力IF2、データストレージ連携IF3、要因分析外部連携IF4、事象要因出力IF5及び制御情報提供IF6は、外部機器と通信するインタフェース(IF)である。また、処理制御部7、データ蓄積部8、要因分析部9、特徴量計算部10及び統計量計算部11は、コアモジュールである。
As shown in FIG. 2, the
投稿データ入力IF1は、逐次エントリされる投稿データを受信するためのインタフェースである。バースト情報入力IF2は、バースト検知装置25(図10参照)からバースト情報(キーワード、バースト時刻)を受信するためのインタフェースである。バースト検知装置25は、逐次エントリされた投稿データにおいて、所定のキーワードの出現頻度が所定の閾値以上となるバーストを検知する装置である。バースト検知装置25は、バースト検知に応じて、バーストが発生したキーワードと、その発生時刻(バースト時刻)を分析装置100へ通知する。
The post data input IF1 is an interface for receiving post data that is sequentially entered. The burst information input IF2 is an interface for receiving burst information (keyword, burst time) from the burst detection device 25 (see FIG. 10). The
データストレージ連携IF3は、外部のストレージシステムに投稿データ入力IF1が受信した投稿データを出力することで、ストレージシステムに投稿データを保存させるためのインタフェースである。要因分析外部連携IF4は、バースト情報入力IF2によりバースト情報を受信し、そのバーストの事象要因を分析する際に、リアルタイム機械学習ツールを利用するためのインタフェースである。 The data storage cooperation IF3 is an interface for storing the posted data in the storage system by outputting the posted data received by the posted data input IF1 to an external storage system. The factor analysis external linkage IF4 is an interface for receiving the burst information by the burst information input IF2 and using a real-time machine learning tool when analyzing the event factor of the burst.
事象要因出力IF5は、バースト発生の要因となった事象要因の分析結果を、GUI(Graphical User Interface)等へ出力してユーザへ通知するためのインタフェースである。制御情報提供IF6は、バースト検知装置25にバースト検知の精度を向上させるための設定情報や制御情報を出力するためのインタフェースである。バースト検知装置25は、制御情報提供IF6から出力される情報を、バースト検知を行う際の判断基準とする。
The event factor output IF5 is an interface for outputting an analysis result of an event factor that causes a burst occurrence to a GUI (Graphical User Interface) or the like and notifying the user. The control information providing IF 6 is an interface for outputting setting information and control information for improving the accuracy of burst detection to the
処理制御部7は、分析装置100の各モジュール(機能構成)を制御するためのプログラム(コアモジュール)である。データ蓄積部8は、投稿データ入力IF1が受信した投稿データを、メモリに蓄積するプログラムである。また、データ蓄積部8は、処理制御部7の制御のもと、メモリに蓄積された投稿データの読み出しや、所定期間経過した過去のデータの消去を行う。
The
要因分析部9は、バースト情報入力IF2より受信したバースト情報をもとに、そのバーストの事象要因を分析する。具体的には、要因分析部9は、投稿データ入力IF1より取得してデータ蓄積部8に蓄積された投稿データをもとに、バースト情報に基づくデータのセマンティクスを取得し、そのバーストの事象要因を分析する。
The
特徴量計算部10は、バーストの事象要因となった投稿データから特徴量(特徴単語(キーワード)、その単語の出現頻度等)を計算するプログラムである。統計量計算部11は、入力される投稿データの統計量(集計窓ごとの投稿数の変化量、投稿量等)を計算するプログラムである。
The feature
ここで、上述した機能構成における動作の詳細を説明する。図4は、分析装置100の動作の一例を示すラダーチャートである。図5−1〜図5−5は、分析装置100の処理にかかるデータ構造を説明する図である。
Here, the details of the operation in the above-described functional configuration will be described. FIG. 4 is a ladder chart showing an example of the operation of the
図4に示すように、投稿データ入力IF1は、投稿データの入力を受け付けて、その投稿データを形態素解析し、タグ(キーワード)を付与する(S1)。次いで、データ蓄積部8は、タグが付与された投稿データをメモリ(データベース)に保存して逐次蓄積する(S2)。S1、S2では、図5−1に示すように、投稿データに含まれるキーワードにタグ付けされて投稿データがデータベースに保存される。したがって、要因分析部9では、タグ、時刻などを取得範囲として投稿データの読み出しを行うことが可能である。
As shown in FIG. 4, the posting data input IF1 receives input of posting data, morphologically analyzes the posting data, and assigns a tag (keyword) (S1). Next, the
図6は、分析装置100の動作の一例を示すフローチャートであり、より具体的には、投稿データの保存にかかる動作の一例を示している。図6に示すように、投稿データの入力により処理が開始されると、データ蓄積部8は、投稿データからタグ(キーワード)を抽出し(S21)、タグが1個以上ついているか否かを判定する(S22)。タグが1個以上ついている場合(S22:YES)、データ蓄積部8は、投稿データをメモリに保存し、統計量計算部11にタグ、カウンタ値を登録する(S23)。タグが1個以上ついていない場合(S22:NO)、及びS23に次いで、データ蓄積部8は、次の投稿データの読み込みを行い(S24)、S21へ処理を戻す。
FIG. 6 is a flowchart showing an example of the operation of the
ここで、データ蓄積部8では、データベースに保存された投稿データの中から古くなった投稿を削除する処理を行う(S3)。この保存処理により、リアルタイムに事象要因を分析するために、分析対象とする投稿データを一時的にメモリ上に蓄積しており、要因分析部9では、任意のタイミングでタイムシフトしながら蓄積した投稿データを取得できる。また、一定時間が過ぎた古い投稿データは消去される。これは、コンピュータシステムにおけるキャッシュのような位置づけに近いものである。
Here, the
一般的に、セマンティクスを考慮に入れた深い分析と、大量の投稿データのリアルタイム性を確保という要件は、トレードオフとなる。本実施形態における分析装置100では、秒間数千データという大量データをリアルタイムに処理することを目的としている。そのため、投稿データを入力するためのインタフェース部分に大量データを受け付けるためのキュー受信機能とキュー受信バッファを備え、高速なメモリにデータを蓄えている。
In general, the deep analysis that takes the semantics into account and the requirement to ensure the real-time property of a large amount of posted data are trade-offs. The
また、投稿データを長時間にわたってデータ蓄積部8のメモリに蓄積せずに、要因分析外部連携IF4を介してリアルタイムに機械学習ベースの分類処理(例えば分類アルゴリズムの適用)を行って、分類された投稿データをデータ蓄積部8に保存してもよい。そして、バースト検知のバースト情報を契機に、要因分析部9は、データ蓄積部8に保存した分類結果を取得してもよい。
Further, the post-data is not stored in the memory of the
この場合、キーワード、時刻、分類結果をデータ蓄積部8のメモリに蓄積する。例えば、バーストした際にバーストの要因がポジティブなことに起因するのかネガティブなことに起因するのか、感情分析を行いたい場合に、要因分析外部連携IF4を介した機械学習で分類する本手法が用いられる。同じキーワードでもコンテクストによって、とらえ方が変わるキーワードや事象(例えば新製品の発表、プレスリリース、要人発言等)について、感情分析が効果的である。リアルタイムに分類結果を蓄積する理由として、バースト発生後、短時間のうちに分類結果を取り出したいためである。バーストが発生しなかった場合は、データ蓄積部8は、一定時間で分類結果を古い物から消去する。分類結果が時系列で最新のものに更新されるため、トレンドが反映されたより正確な事象要因が取得できる。
In this case, the keyword, time, and classification result are stored in the memory of the
また、リアルタイムな機械学習手法の適用が難しい場合(例えば、ある投稿が発生すると別の投稿が発生するといったような、同時性、関係性が強い事象の組み合わせを発見するようなアソシエーションルール抽出では、分析対象とするデータを一纏めに取得する必要がある場合)、過去に遡って分析対象とするデータを取得するが、分析対象とするデータを高速に取り出せるため、バッチ処理を行う場合に比べて高速に処理が行える。 In addition, when it is difficult to apply real-time machine learning techniques (for example, in association rule extraction that finds a combination of events that are highly synchronized and related, such as when one post occurs, another post occurs, (When it is necessary to acquire the data to be analyzed collectively), the data to be analyzed is acquired retroactively, but since the data to be analyzed can be retrieved at high speed, it is faster than when batch processing is performed. Can be processed.
分析装置100では、バースト情報入力IF2によりバースト情報を受信すると(S4)、要因分析部9は、バーストのキーワードと時刻から、データ蓄積部8に蓄積された投稿データのタグを検索し(S5)、バースト要因を取得する(S6)。具体的には、図5−2に示すように、要因分析部9は、バーストのキーワードと時刻とをもとに、バーストの要因と推定される投稿データを取得する。なお、このバースト要因の取得は、上述したように、要因分析外部連携IF4経由で外部ツール(リアルタイム機械学習ツール)からのものであってもよい。
In the
次いで、要因分析部9は、バーストの要因と推定された各投稿について、各投稿のタグから隣接行列を作成し、各投稿同士のつながりを示すグラフを構築する。そして、要因分析部9は、構築したグラフ構造を解析することで、事象要因(例えば最もつながりの多い投稿を一位の事象要因とする)を取得する。
Next, the
図7は、分析装置100の動作の一例を示すフローチャートであり、より具体的には、常用要因の分析にかかる動作の一例を示している。図7に示すように、要因分析部9は、バースト情報(キーワード)がメモリに保存したタグにマッチするか否かを判定する(S31)。ここで、マッチしない場合(S31:NO)は処理を終了する。
FIG. 7 is a flowchart showing an example of the operation of the
マッチする場合(S31:YES)、要因分析部9は、マッチした投稿を集めて上述した投稿同士のつながりによる事象要因を分析する(S32)。次いで、要因分析部9は、S32による分析で事象要因が取得できたか否かを判定する(S33)。ここで、事象要因が取得できない場合(S33:NO)は処理を終了する。事象要因が取得できた場合(S33:YES)、要因分析部9は、特徴量計算部10に取得した事象要因を登録し、事象要因出力IF5に取得した事象要因を渡して(S34)、処理を終了する。
When there is a match (S31: YES), the
図4に戻り、特徴量計算部10では、バースト要因と推定された各投稿の特徴量を計算する(S7)。要因分析部9は、事象要因出力IF5を通じて、事象要因をGUIに出力する(S8)。この事象要因の出力は、分析装置100から自発的にGUI等の外部のシステムに配信するプッシュ型や、GUI等の外部のシステムからリクエストを受け付けて、そのリクエストへの返答として出力するプル型のいずれであってもよい。
Returning to FIG. 4, the feature
次いで、制御情報提供IF6は、特徴量計算部10で計算した特徴量と、統計量計算部11で計算した統計量とを取得する(S9)。次いで、制御情報提供IF6は、要因分析部9により分析された事象要因と、取得した特徴量、統計量とをもとに、バースト検知装置25がバースト検知を行う際の判断基準となる制御情報(config)を生成し(S10)、生成した制御情報をプッシュ型/プル型でバースト検知装置25へ出力する(S11)。
Next, the control information provision IF 6 acquires the feature amount calculated by the feature
図8は、分析装置100の動作の一例を示すフローチャートであり、より具体的には、制御情報(config)の出力にかかる動作の一例を示している。図9−1〜図9−3は、configデータの一例を示す図である。
FIG. 8 is a flowchart illustrating an example of the operation of the
図8に示すように、制御情報提供IF6は、基準時刻(例えばバースト情報に含まれるバーストが発生した時刻)からX分以内の事象要因を要因分析部9より取得する(S41)。ここでのX分は、予め任意の値が設定されていてよい。次いで、制御情報提供IF6は、事象要因が複数取得できたか否かを判定する(S42)。ここで、複数取得できていない場合(S42:NO)は処理を終了する。
As shown in FIG. 8, the control information providing IF 6 acquires from the
事象要因が複数取得できた場合(S42:YES)、特徴量計算部10では、事象要因の類似性、発生頻度を計算する(S43)。具体的には、図5−3に示すように、特徴量計算部10は、要因分析部9より事象要因と分析された投稿データを解析して、類似性のあるキーワード(特徴単語)と、そのキーワードごとの出現頻度(出現度数)を計算する。
When a plurality of event factors can be acquired (S42: YES), the feature
次いで、統計量計算部11では、入力される投稿データの統計量(集計窓ごとの投稿数の変化量、投稿量等)を計算して、キーワードごとにバースト検知を行うための閾値を計算する(S44)。具体的には、図5−4に示すように、統計量計算部11は、集計窓ごとの投稿数の変化量、投稿量等の統計量を求める。そして、統計量計算部11は、計算した統計量に応じた閾値を計算する。例えば、投稿数の変化量、投稿量が大きい場合は、キーワードについてのバースト検知を行うための閾値をより高くするなどのように、キーワードごとの閾値を計算する。
Next, the
次いで、制御情報提供IF6は、要因分析部9により分析された事象要因、特徴量計算部10が計算した特徴量、及び統計量計算部11が計算した統計量・閾値をもとにした制御情報をバースト検知装置25へ渡す(S45)。具体的には、図5−5に示すように、制御情報提供IF6は、特徴量計算部10、統計量計算部11より取得した情報をもとに、制御情報(config)を生成してバースト検知装置25へ出力する。
Next, the control information provision IF 6 controls the control information based on the event factor analyzed by the
例えば、制御情報提供IF6は、受信したバースト通知の履歴を保存しておき、同じキーワードに対するバースト通知の間隔が予め決められた値より短い場合に、バースト検知装置25に通知を抑制する命令か、バーストの判断基準をより強めるための閾値を含む制御情報を送信する。
For example, the control information providing IF 6 stores a history of received burst notifications, and when the burst notification interval for the same keyword is shorter than a predetermined value, a command to suppress notification to the
また、同じようなパターンでバーストしたキーワードについて、要因が同じかどうかを、要因となった投稿データの特徴量により判定し、同様のキーワードをまとめてバースト検知が行えるように制御情報を提供することもできる。具体的には、バースト要因の分析後、特徴量を計算するが、直近のバースト要因から得た特徴量を履歴として一定量保存しておき、バースト要因同士の類似性を判定する。そして、類似度が高いキーワードをまとめた制御情報(config)をバースト検知装置25へ出力する。具体的には、類似度が高いキーワード同士をまとめてバースト検知の条件と設定する場合には、図9−1に示すようなconfigデータを、API(Application Programming Interface)である制御情報提供IF6経由で提供する。
In addition, for keywords that burst in a similar pattern, determine whether the factors are the same based on the feature amount of the post data that caused the factors, and provide control information so that burst detection can be performed for similar keywords together. You can also. Specifically, the feature amount is calculated after analyzing the burst factor, but a certain amount of feature amount obtained from the latest burst factor is stored as a history, and the similarity between the burst factors is determined. Then, control information (config) in which keywords having high similarity are collected is output to the
これにより、バースト検知装置25では、より正確なバースト検知が行えるようになる。例えば、周期的にバーストが現れているキーワードに対し、バーストの要因がいつも同じであれば、バースト検知装置25に対して、同じ要因に対するバーストの通知を抑制するための情報を提供することもできる。
Thereby, the
さらに、制御情報提供IF6は、投稿データの統計量を取得し、バースト検知装置25にその情報を提供することで、バーストの判断基準や閾値などの調整を、キーワードごとに細かく設定してよい。具体的には、バースト検知装置25には、キーワードごとにバースト判断ルールと投稿量や加速度の閾値を設定値として入力する。例えば、判定対象とする時間窓で3回とも加速度が増加し、なおかつ投稿数が1000件以上というルールを設定する場合には、図9−2に示すようなconfigデータをAPIである制御情報提供IF6経由で提供する。
Further, the control information providing IF 6 may acquire the statistics of the posted data and provide the information to the
さらに、制御情報提供IF6は、図9−3に示すように、configを有効にしておく期限(TTL: Time To Live)を設定してバースト検知装置25へ出力してもよい。これは、一度バーストした際に、短期間の間に再び同じ要因でバーストする場合があり、2回目以降のバーストを抑制するために制御情報(config)を発行するが、一定期間が経過した後に前回と同じ条件でバーストを検知したい場合に用いられる。TTLは例えば秒単位で指定し、TTLで設定した時間が経過すると、TTL付きで発行したconfigは無効になり、もとのバースト条件に戻るものとする。
Further, as shown in FIG. 9C, the control information providing IF 6 may set a time limit (TTL: Time To Live) during which the config is valid and output it to the
また、投稿データについては、前述した統計量を統計量計算部11より取得することができる。したがって、キーワードごとに単位時間に対するキーワードの増減割合(加速度)を統計量計算部11で計算し、データ蓄積部8では、閾値を超えた箇所のみ投稿データを保存してもよい。逆に加速度が閾値未満の場合には、バーストが発生しそうか否かをバースト情報が入力される以前に分析装置100が把握できる(そもそも投稿量が少ない、変化がない場合にはバースト情報を受信する可能性は低いと考えられる)ため、予め蓄積する必要がないデータに対しては蓄積をスキップできる。これにより、少ないメモリ量でシステムを実現することができる。また、オプションとして、データを保存したい場合に、事象要因の分析に必要となりそうな投稿データはメモリ上に蓄積し、それ以外の投稿データは、データストレージ連携IF3を介して安価なストレージ(ディスクストレージやNAS等)にアーカイブしておくことが可能である。
Further, regarding the posted data, the above-described statistics can be acquired from the
図10は、実施形態にかかる分析装置100を用いた情報処理システム200の一例を示す概念図である。図10に示すように、情報処理システム200では、ストリームデータ(投稿データ)がレシーバ21、Queue22、24、キーワードカウンタ23を介して分析装置100、バースト検知装置25に入力される。そして、バースト検知装置25で検知されたバースト情報は分析装置100に通知されるとともに、バースト検知情報データベース26に記録される。株価予測システム27では、バースト検知情報データベース26に記録されたバースト情報を参照することで、イベントに対して大衆が反応したことにより生じるバーストを考慮した株価予測を行う。GUI28では、分析装置100により分析されたバーストの要因とともに、株価予測システム27による株価予測の結果を表示してユーザに通知する。
FIG. 10 is a conceptual diagram illustrating an example of an
株価予測や株取引を行う情報処理システム200では、即時性が求められることから、たとえば、バースト情報を契機に事象要因を分析し、事象要因から自動的に株式銘柄との関連を推定することで、イベントの発生と同時に影響しそうな株式の株価予測や売買を行うことが可能となる。
In the
図11は、実施形態にかかる分析装置100における処理がコンピュータを用いて具体的に実現されることを示す図である。図11に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
FIG. 11 is a diagram illustrating that the processing in the
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、図2、3に例示した機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The hard disk drive 1031 stores, for example, an
また、上述した実施形態での処理に必要な設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
In addition, setting data necessary for processing in the above-described embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
100…分析装置、1…投稿データ入力IF、2…バースト情報入力IF、3…データストレージ連携IF、4…要因分析外部連携IF、5…事象要因出力IF、6…制御情報提供IF、7…処理制御部、8…データ蓄積部、9…要因分析部、10…特徴量計算部、11…統計量計算部、21…レシーバ、22、24…Queue、23…キーワードカウンタ、25…バースト検知装置、26…バースト検知情報データベース、27…株価予測システム、28…GUI、200…情報処理システム、1000…コンピュータ、1010…メモリ、1011…ROM、1012…RAM、1020…CPU、1030…ハードディスクドライブインタフェース、1031…ハードディスクドライブ、1040…ディスクドライブインタフェース、1041…ディスクドライブ、1050…シリアルポートインタフェース、1051…マウス、1052…キーボード、1060…ビデオアダブタ、1061…ディスプレイ、1070…ネットワークインタフェース、1080…バス、1091…OS、1092…アプリケーションプログラム、1093…プログラムモジュール、1094…プログラムデータ。
DESCRIPTION OF
Claims (7)
前記受信されたストリームデータを記憶する記憶手段と、
前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力手段と、
前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現にかかる要因を分析する要因分析手段と、
前記分析された要因に基づいて、前記バースト検知装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検知装置へ出力する出力手段と、
を備えることを特徴とする分析装置。 Receiving means for receiving stream data;
Storage means for storing the received stream data;
Input means for receiving burst detection of the predetermined data from a burst detection device that detects a burst in which the appearance frequency of the predetermined data is high in the stream data;
Factor analysis means for referring to stream data of a predetermined period before the burst detection time from the stored stream data based on the received burst detection and analyzing a factor related to the appearance of the predetermined data; ,
Based on the analyzed factor, output means for outputting control information to the burst detection device according to a determination criterion when the burst detection device performs burst detection;
An analysis apparatus comprising:
前記出力手段は、前記抽出された投稿データの中に含まれる類似度の高いタームを、前記バースト検知を行う際のキーワードとして前記バースト検知装置へ出力することを特徴とする、
請求項1に記載の分析装置。 The factor analysis means extracts post data that causes the predetermined data to appear from post data included in the stream data,
The output means outputs a term having a high similarity included in the extracted post data to the burst detection device as a keyword for performing the burst detection.
The analyzer according to claim 1.
請求項2に記載の分析装置。 The output means outputs a threshold value for the burst detection based on a statistic obtained by counting the extracted post data to the burst detection device,
The analyzer according to claim 2.
請求項1乃至3のいずれか一項に記載の分析装置。 The output means makes the control information valid in the control information, sets a period for suppressing burst detection of the predetermined data, and outputs to the burst detection device,
The analyzer according to any one of claims 1 to 3.
請求項1乃至4のいずれか一項に記載の分析装置。 The storage means stores data obtained by classifying the received stream data by machine learning.
The analyzer according to any one of claims 1 to 4.
ストリームデータを受信する受信ステップと、
前記受信されたストリームデータを記憶する記憶ステップと、
前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力ステップと、
前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現かかる要因を分析する要因分析ステップと、
前記分析された要因に基づいて、前記バースト検出装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検出装置へ出力する出力ステップと、
を含むことを特徴とする分析方法。 An analysis method executed by an analyzer,
A receiving step for receiving stream data;
A storage step of storing the received stream data;
An input step of receiving burst detection of the predetermined data from a burst detection device that detects a burst in which the appearance frequency of the predetermined data is high in the stream data;
Based on the received burst detection, a factor analysis step of referring to the stream data before a predetermined period from the time of the burst detection from the stored stream data and analyzing the factor related to the appearance of the predetermined data;
Based on the analyzed factor, an output step of outputting control information to the burst detection device according to a determination criterion when the burst detection device performs burst detection;
The analysis method characterized by including.
ストリームデータを受信する受信ステップと、
前記受信されたストリームデータを記憶する記憶ステップと、
前記ストリームデータにおいて所定データの出現頻度が高くなるバーストを検知するバースト検知装置から、前記所定データのバースト検知を受け付ける入力ステップと、
前記受け付けられたバースト検知に基づいて、前記記憶されたストリームデータの中から前記バースト検知の時点から所定期間前のストリームデータを参照し、前記所定データの出現にかかる要因を分析する要因分析ステップと、
前記分析された要因に基づいて、前記バースト検出装置がバースト検知を行う際の判断基準にかかる制御情報を前記バースト検出装置へ出力する出力ステップと、
を実行させるためのプログラム。 On the computer,
A receiving step for receiving stream data;
A storage step of storing the received stream data;
An input step of receiving burst detection of the predetermined data from a burst detection device that detects a burst in which the appearance frequency of the predetermined data is high in the stream data;
A factor analysis step of referring to the stream data before a predetermined period from the time of the burst detection from the stored stream data and analyzing the factor relating to the appearance of the predetermined data based on the received burst detection; ,
Based on the analyzed factor, an output step of outputting control information to the burst detection device according to a determination criterion when the burst detection device performs burst detection;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013148718A JP2015022429A (en) | 2013-07-17 | 2013-07-17 | Analyzing device, analysis method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013148718A JP2015022429A (en) | 2013-07-17 | 2013-07-17 | Analyzing device, analysis method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015022429A true JP2015022429A (en) | 2015-02-02 |
Family
ID=52486843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013148718A Pending JP2015022429A (en) | 2013-07-17 | 2013-07-17 | Analyzing device, analysis method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015022429A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019083076A (en) * | 2016-12-02 | 2019-05-30 | 本田技研工業株式会社 | Evaluation device, evaluation method and evaluation program |
US11373198B2 (en) | 2016-12-02 | 2022-06-28 | Honda Motor Co., Ltd. | Evaluation device, evaluation method, and evaluation program |
JP2023103869A (en) * | 2022-01-14 | 2023-07-27 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012145974A (en) * | 2011-01-06 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | Burst information retrieval apparatus, burst information retrieval method and burst information retrieval program |
JP2013037404A (en) * | 2011-08-03 | 2013-02-21 | Yahoo Japan Corp | Information processing apparatus, information processing method and program |
-
2013
- 2013-07-17 JP JP2013148718A patent/JP2015022429A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012145974A (en) * | 2011-01-06 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | Burst information retrieval apparatus, burst information retrieval method and burst information retrieval program |
JP2013037404A (en) * | 2011-08-03 | 2013-02-21 | Yahoo Japan Corp | Information processing apparatus, information processing method and program |
Non-Patent Citations (5)
Title |
---|
山中努、田中祐也、土方嘉徳、西田正吾: "時空間情報を伴うテキストデータを用いた状況把握支援システム", 知能と情報(日本知能情報ファジィ学会誌), vol. 22, no. 6, JPN6016022172, 15 December 2010 (2010-12-15), JP, pages 37 - 52, ISSN: 0003336627 * |
山岡千夏、中島伸介、張建偉、稲垣陽一、中本レン: "ブログ記事の時系列解析に基づく流行語候補「兆し」の早期発見手法", 第3回データ工学と情報マネジメントに関するフォーラム 論文集[ONLINE], vol. DEIM Forum 2011 A4−1, JPN6016022166, 2011, JP, ISSN: 0003336624 * |
菊井玄一郎、門内健太、高橋寛幸: "検索ホットワードとブログ系テキストの関係を探る", 電子情報通信学会技術研究報告 NLC2012−10−NLC2012−24 言語理解とコミュニケーショ, vol. 112, no. 196, JPN6016022164, 23 August 2012 (2012-08-23), JP, pages 31 - 36, ISSN: 0003336628 * |
藤木稔明,奥村学: "周期的に発生するburstの予測と抑制", 第73回知識ベースシステム研究会資料 (SIG−KBS−A504), JPN6016022171, 9 March 2006 (2006-03-09), JP, pages 1 - 6, ISSN: 0003336626 * |
高橋佑介,宇津呂武仁,吉岡真治: "ニュースにおけるバーストキーワードの話題への集約", 第3回データ工学と情報マネジメントに関するフォーラム 論文集[ONLINE], vol. DEIM Forum 2011 B5−6, JPN6016022168, 2011, JP, ISSN: 0003336625 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019083076A (en) * | 2016-12-02 | 2019-05-30 | 本田技研工業株式会社 | Evaluation device, evaluation method and evaluation program |
US11373198B2 (en) | 2016-12-02 | 2022-06-28 | Honda Motor Co., Ltd. | Evaluation device, evaluation method, and evaluation program |
JP2023103869A (en) * | 2022-01-14 | 2023-07-27 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP7350904B2 (en) | 2022-01-14 | 2023-09-26 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8078913B2 (en) | Automated identification of performance crisis | |
CN111709028B (en) | Network security state evaluation and attack prediction method | |
WO2015090215A1 (en) | Voice data recognition method and device for distinguishing regional accent, and server | |
US20170251072A1 (en) | System and method for annotating client-server transactions | |
US11657316B2 (en) | Self-feeding deep learning method and system | |
US20230359625A1 (en) | Alert rule evaluation for monitoring of late arriving data | |
US8938405B2 (en) | Classifying activity using probabilistic models | |
JP2015022429A (en) | Analyzing device, analysis method, and program | |
CN113282920B (en) | Log abnormality detection method, device, computer equipment and storage medium | |
CN110457595A (en) | Emergency event alarm method, device, system, electronic equipment and storage medium | |
CN110674404A (en) | Link information generation method, device, system, storage medium and electronic equipment | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
WO2024055603A1 (en) | Method and apparatus for identifying text from minor | |
CN115907801A (en) | E-commerce evaluation information processing method, system, equipment and medium | |
CN111209391A (en) | Information identification model establishing method and system and interception method and system | |
CN109145115B (en) | Product public opinion discovery method, device, computer equipment and storage medium | |
CN113283396A (en) | Target object class detection method and device, computer equipment and storage medium | |
CN113742501A (en) | Information extraction method, device, equipment and medium | |
JP5839437B2 (en) | Time-series data analysis apparatus, time-series data analysis method, and program | |
CN112183714A (en) | Automated data slicing based on artificial neural network | |
CN114756401B (en) | Abnormal node detection method, device, equipment and medium based on log | |
JP7207537B2 (en) | Classification device, classification method and classification program | |
CN115242799B (en) | Data reporting method, device, equipment, storage medium and program product | |
CN115904899A (en) | Operation record generation method, operation record acquisition method, operation record generation device, operation record acquisition device and operation record acquisition medium | |
CN117609723A (en) | Object identification method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150715 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20151001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160614 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161213 |