JP6395287B2 - Event detection apparatus and program - Google Patents
Event detection apparatus and program Download PDFInfo
- Publication number
- JP6395287B2 JP6395287B2 JP2014114408A JP2014114408A JP6395287B2 JP 6395287 B2 JP6395287 B2 JP 6395287B2 JP 2014114408 A JP2014114408 A JP 2014114408A JP 2014114408 A JP2014114408 A JP 2014114408A JP 6395287 B2 JP6395287 B2 JP 6395287B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- time
- series data
- event
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 70
- 238000012545 processing Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 35
- 241001123248 Arma Species 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Images
Description
本発明は、系列データからイベントを検出するための、イベント検出装置およびプログラムに関する。 The present invention relates to an event detection apparatus and a program for detecting an event from sequence data.
インターネットを利用した投稿サイト(掲示板サイトや、短文投稿サイトなど)では、様々な話題に関する投稿が日々行われている。これらの投稿は、自然言語で記述されたものであるが、このような投稿をもとに、社会情勢の変化や事件・事故などを検出する試みは数多くなされている。 Posts on the Internet (such as bulletin board sites and short text posting sites) post on various topics every day. These posts are written in natural language, but many attempts have been made to detect changes in social conditions, incidents and accidents based on such posts.
そのような状況で、求められる技術の一つは、インターネットを経由した投稿等の書き込み数の異常値を検出することである。従来の技術による方法の一つは、書き込み数が予め定められた閾値を超える場合を検出する方法である。また、別の方法の一つは、自己相関行列の固有値によるモデルを利用する方法である。 In such a situation, one of the required technologies is to detect an abnormal value of the number of writes such as postings via the Internet. One of the conventional methods is a method for detecting a case where the number of writing exceeds a predetermined threshold. Another method is to use a model based on the eigenvalues of the autocorrelation matrix.
特許文献1の図13Cおよび段落[0116]には、相互部分空間法について記載されている。この手法では、過去に遡る観測データ(時系列データ)を基に自己相関行列の固有値問題を解き、部分空間同士が成す角度(θ)の余弦(cos θ)を類似度として、観測データの異常値を検知している。 FIG. 13C of Patent Document 1 and paragraph [0116] describe the mutual subspace method. In this method, the eigenvalue problem of the autocorrelation matrix is solved based on the observation data (time series data) that goes back in the past, and the cosine (cos θ) of the angle (θ) between the subspaces is used as the similarity, and the abnormalities of the observation data The value is detected.
しかしながら、従来技術による異常値検出の方法では、十分な検出精度が得られないという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、異常値検出の精度の高い、イベント検出装置およびプログラムを提供するものである。
However, the method for detecting an abnormal value according to the prior art has a problem that sufficient detection accuracy cannot be obtained.
The present invention has been made based on the above problem recognition, and provides an event detection apparatus and program with high accuracy of abnormal value detection.
[1]上記の課題を解決するため、本発明の一態様によるイベント検出装置は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、を具備する。 [1] In order to solve the above problem, an event detection apparatus according to an aspect of the present invention acquires time series data of the number of utterances, and adds an autoregressive model or an autoregressive moving average model to the acquired time series data. Autoregressive model applying unit that applies and outputs residual time series data obtained as a result of application, and each residual constituting the time series data of residuals output by the autoregressive model applying unit or An event detection unit that detects a location where the absolute value of the residual is larger than a predetermined threshold as an event candidate in the time-series data.
[2]また、本発明の一態様は、上記のイベント検出装置において、発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、をさらに具備し、前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、ことを特徴とする。 [2] Further, according to one aspect of the present invention, in the event detection device, the utterance data including the utterance content and time information is acquired, and the utterance content corresponding to a specific topic is acquired from the acquired utterance data. An extraction unit that outputs only the utterance data or only the utterance data that corresponds to a specific topic and corresponds to a specific utterance type, and outputs the pure state utterance data; and the pure state utterance output by the extraction unit A series data generation unit that acquires data and generates time series data of the number of utterances representing the number of the pure state utterance data for each time interval, and the autoregressive model application unit includes the series data Obtain time series data of the number of statements generated by the generation unit, and apply an autoregressive model or an autoregressive moving average model, And wherein the door.
[3]また、本発明の一態様は、上記のイベント検出装置において、前記イベント検出部は、検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、を具備することを特徴とする。
なお、除去処理部により、ノイズが除去される。また、除去処理部が発言件数の時系列データを調整した後に、自己回帰モデル適用部が、再度、自己回帰モデルまたは自己回帰移動平均モデルの適用をするところからの処理を行う。
[3] Further, according to an aspect of the present invention, in the event detection device, the event detection unit includes a predetermined number or more consecutive event candidates in the residual time-series data among the detected event candidates. Detecting a location as an event, and detecting as a noise a duration determination unit that detects, as noise, a location where the event candidate continues less than the predetermined number in the time series data of the residual, and detects it as the noise by the duration determination unit A removal processing unit that adjusts the time-series data of the number of utterances so that the absolute value of the residual of the noise portion is reduced.
Note that noise is removed by the removal processing unit. In addition, after the removal processing unit adjusts the time-series data of the number of messages, the autoregressive model application unit performs processing from the point where the autoregressive model or the autoregressive moving average model is applied again.
[4]また、本発明の一態様は、上記のイベント検出装置において、前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、ことを特徴とする。 [4] Further, according to one aspect of the present invention, in the event detection device, the removal processing unit obtains a degree of contribution to the total amount of noise in the residual time-series data for each location, and the contribution The time-series data of the number of utterances is adjusted in preference to the part where the degree of the message is large.
[5]また、本発明の一態様は、コンピューターを、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、として機能させるためのプログラムである。 [5] Further, according to one aspect of the present invention, as a result of applying a computer to obtain time series data of the number of messages, applying an autoregressive model or an autoregressive moving average model to the obtained time series data, Autoregressive model applying means for outputting the time series data of the residual obtained, each residual constituting the time series data of the residual outputted by the autoregressive model applying means, or an absolute value of the residual is predetermined. Is a program for functioning as event detection means for detecting a location larger than the threshold value as an event candidate in the time-series data.
本発明によれば、自己相関モデルまたは自己相関移動平均モデルの残差に基づき、精度よくイベントを検出することが可能となる。また、特定のトピックや特定の発言種別のみを抽出して時系列データを生成した場合には、モデルのパラメーターの推定精度が上がるので、更に精度よくイベントを検出できる。 According to the present invention, it is possible to detect an event with high accuracy based on a residual of an autocorrelation model or an autocorrelation moving average model. In addition, when only a specific topic or a specific utterance type is extracted and time-series data is generated, the accuracy of model parameter estimation increases, so that an event can be detected with higher accuracy.
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同図において、符号1は、イベント検出装置である。図示するように、イベント検出装置1は、発言データ取得部10と、抽出部11と、系列データ生成部12と、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含んで構成される。
Next, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic functional configuration of the event detection apparatus according to the present embodiment. In the figure, reference numeral 1 denotes an event detection device. As shown in the figure, the event detection apparatus 1 includes a utterance
発言データ取得部10は、外部から、発言データを取り込み、所定の形式で一時的に記憶する。発言データを記憶するためには、例えば、リレーショナルデータベースや、XMLデータベース(「XML」はExtensible Markup Language,拡張マークアップ言語の略)などを利用する。ここで、発言データは、インターネットを利用した投稿サービスに投稿された発言のデータである。投稿サービスの一例は、短文投稿サービスである。短文投稿サービスにおいては、ユーザーがクライアント端末装置(PC、タブレット、スマートフォン等)から短文を投稿する。短文の長さには所定の上限(例えば、数百文字程度)がある。投稿された短文は、ユーザーアカウント名や投稿日時(YYYY/MM/DD hh:mm:ss(年月日、時分秒)の形式)といった属性情報と関連付けて、サーバー装置側の記憶手段に蓄積される。サーバーは、蓄積された短文のデータを、ユーザーの所望の形態で表示できるように提供する。このとき、ユーザーは、所定のユーザーアカウント(単数または複数)の投稿のみを時系列に表示させたり、特定のキーワードを含む投稿のみを時系列に表示させたりすることができるようになっている。このような短文投稿サービスの一例は、ツイッター(Twitter)である。1件の短文等の投稿のことを、以下では「発言」と呼ぶ。
The utterance
抽出部11は、発言内容と時刻情報とを含む発言データを取得し、取得した発言データから、特定のトピックに該当する発言内容を有する発言データのみ、または特定のトピックに該当するとともに特定の発言種別に該当する発言データのみを抽出した、純粋状態発言データを出力する。
系列データ生成部12は、抽出部11によって出力された純粋状態発言データを取得し、時間区間ごとの純粋状態発言データの件数を表す発言件数の時系列データを生成するものである。
The
The series
自己回帰モデル適用部13は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。
イベント検出部14は、自己回帰モデル適用部13によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、時系列データにおけるイベント候補として検出する。
The autoregressive
The
イベントリスト出力部15は、イベント検出部14によって検出されたイベントのリストを出力する。ここで、イベントのリストとは、少なくともイベントに相当する時間帯を代表する時刻を含むデータのリストである。
The event
図2は、上記のイベント検出部のさらに詳細な機能構成を示すブロック図である。図示するように、イベント検出部14は、残差時系列データ取得部141と、イベント候補時刻検出部142と、継続時間判定部143と、除去処理部144と、検出結果出力部145とを含んで構成される。
FIG. 2 is a block diagram showing a more detailed functional configuration of the event detection unit. As illustrated, the
残差時系列データ取得部141は、外部(具体的には、自己回帰モデル適用部13)から、残差の時系列のデータを取得する。これは、自己回帰モデル適用部13が適用したモデルにおける残差である。
イベント候補時刻検出部142は、残差時系列データ取得部141が取得した残差時系列データを基に、イベント候補の時刻を検出する。具体的には、イベント候補時刻検出部142は、各時間帯(時刻)について、残差の絶対値が所定の閾値以上の場合に、その時間帯をイベント候補として検出する。
The residual time series
The event candidate
継続時間判定部143は、検出したイベント候補のうち、残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する。
除去処理部144は、前記継続時間判定部143によってノイズとして検出された箇所について、ノイズの箇所の残差の絶対値が小さくなるように発言件数の時系列データを調整する。発言件数の時系列データを調整するということは、正の残差の場合には発言件数を1件減らすことであり、負の残差の場合は、発言件数を1件増やすことである。除去処理部144によるこのデータの調整により、真のイベントではないイベント候補(つまり、ノイズ)を除去するような作用が生じる。
The
The
検出結果出力部145は、継続時間判定部143によって、イベントとして検出された箇所を、検出結果として外部に供給するものである。具体的には、検出結果出力部145は、イベントの検出結果をイベントリスト出力部15に渡す。
The detection
図3は、発言データの構成およびデータ例を示す概略図である。図示するように、発言データは、表形式のデータであり、日時、発言アカウント、発言、トピック、発言種別の各項目(桁)を有する。発言データの各行が、1件の発言に対応する。日時は、発言が投稿された日時であり、年月日および時分秒で表されるデータである。発言アカウントは、当該発言を投稿したユーザーのアカウント名である。発言は、投稿された文のテキストデータである。言い換えれば、発言の欄は、発言内容のデータを格納する。トピックは、当該発言が属するトピックを表すラベルのデータである。発言種別は、当該発言の種別を表すラベルのデータである。 FIG. 3 is a schematic diagram illustrating a configuration of the utterance data and a data example. As shown in the figure, the utterance data is tabular data and includes items (digits) of date and time, utterance account, utterance, topic, and utterance type. Each line of the utterance data corresponds to one utterance. The date and time is the date and time when the utterance is posted, and is data expressed in year, month, day, hour, minute and second. The comment account is the account name of the user who posted the comment. The utterance is text data of a posted sentence. In other words, the message column stores the data of the message content. The topic is data of a label representing the topic to which the utterance belongs. The message type is label data representing the type of the message.
ここで、発言種別について説明する。発言種別は、ある特定のトピック内での分類であり、発言内容に基づくものである。例えば、ある事象についての感想は、「肯定」と「否定」と「要望」の3種類の発言種別に分類される(これを、便宜上、感想種別と呼ぶ)。また、ある政策についての意見は、「支持」と「不支持」の2種類の発言種別に分類される(これを、便宜上、支持種別と呼ぶ)。インターネットを介してリアルタイムに投稿と閲覧がなされる投稿サービスにおいては、同種別の意見は、ユーザーのコミュニティの中で広まっていく傾向がある。 Here, the message type will be described. The utterance type is a classification within a specific topic and is based on the content of the utterance. For example, an impression regarding a certain event is classified into three types of utterances of “affirmation”, “denial”, and “request” (this is referred to as an impression type for convenience). Opinions on a certain policy are classified into two types of remarks, “support” and “non-support” (this is called a support type for convenience). In a posting service that posts and browses in real time via the Internet, the same type of opinion tends to spread within the user's community.
図においては、データ例として、計6行分のレコードを示している。第1行目のデータ(日時が、「2014年2月8日 8:12:44」)と、第2行目のデータ(日時が、「2014年2月8日 8:12:47」)のトピックは、「○○税率アップ」である。そして、第1行目の発言種別は「否定」であり、第2行目の発言種別は「肯定」である。第3行目以後に示しているレコードは、その他のトピックに関する発言に対応するものである。 In the figure, as a data example, records for a total of six lines are shown. Data on the first line (date and time is “February 8, 2014 8:12:44”) and data on the second line (date and time is “February 8, 2014 8:12:47”) The topic is “XX tax rate increase”. The message type on the first line is “No”, and the message type on the second line is “Yes”. Records shown in the third and subsequent lines correspond to statements about other topics.
発言データを外部(例えば、短文投稿サイトのデータ配信サーバー装置)から取得した段階では、日時と、発言アカウントと、発言の欄にのみデータが入っており、トピックと発言種別の欄は空欄である。トピックの分類が行われた後に、トピックの欄にデータが書き込まれる。また、発言種別の分類が行われた後に、発言種別の欄にデータが書き込まれる。図示する状態では、トピックが混在している。
トピックの欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックのデータのみを選択して抽出することができる。また、発言種別の欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定の発言種別のデータのみを選択して抽出することができる。また、トピックの欄と発言種別の欄の両方にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックで、且つ特定の発言種別のデータのみを選択して抽出することができる。特定のトピックや発言種別のみ抽出したデータは純粋状態の発言データとして利用できる。
At the stage where the utterance data is acquired from the outside (for example, the data distribution server device of the short posting site), the data is included only in the date / time, utterance account, and utterance columns, and the topic and utterance type columns are blank. . After the topic classification, data is written in the topic column. Further, after the classification of the message type is performed, the data is written in the column of the message type. In the state shown in the figure, topics are mixed.
After data is written in the topic column, only data on a specific topic can be selected and extracted by data search using conditions. In addition, after data is written in the message type column, only data of a specific message type can be selected and extracted by data search using conditions. In addition, after data is written in both the topic field and the message type field, only data of a specific topic and a specific message type can be selected and extracted by data search using conditions. it can. Data extracted only for a specific topic or type of speech can be used as pure state speech data.
図4は、時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。図示するように、この時系列データは、時間帯(時間区間)ごとの、特定トピック且つ特定発言種別の発言件数を表すものである。この時系列データは、表形式の構造を有しており、時間帯(日時)、トピック、発言種別、件数、という項目を含んでいる。同図に示す時系列データの各行は、時間帯とトピックと発言種別の組み合わせに対応している。 FIG. 4 is a schematic diagram showing a configuration of time-series data (message count data) and a data example. As shown in the figure, this time-series data represents the number of utterances of a specific topic and a specific utterance type for each time zone (time interval). This time-series data has a tabular structure and includes items such as time zone (date and time), topic, statement type, and number of cases. Each row of the time-series data shown in the figure corresponds to a combination of time zone, topic, and message type.
時間帯(日時)は、所定の長さ(幅)を有する時間帯を代表する日時のデータである。時間帯の幅は、分析対象のデータの性質や、発言の話題の性質などに応じて、適宜定められる。通常の場合、時間帯の幅は1分程度から1日程度までの間の長さである。同図に示す例では、時間帯の幅を5分とし、各々の時間帯の開始時刻をその時間帯の代表日時として表している。
トピックは、抽出部11によって分類され抽出されたトピックを表すラベルである。
発言種別は、前述の、発言内容を分類して得られた種別である。例えば、ある特定のトピックにおける発言種別は、「肯定」と「否定」の2種類である。
件数は、時間帯(日時)とトピックと発言種別に対応する発言データの件数を表す数値データである。
The time zone (date and time) is date and time data representing a time zone having a predetermined length (width). The width of the time zone is appropriately determined according to the nature of the data to be analyzed, the nature of the topic of speech, and the like. In normal cases, the width of the time zone is about 1 minute to about 1 day. In the example shown in the figure, the width of the time zone is 5 minutes, and the start time of each time zone is represented as the representative date and time of the time zone.
The topic is a label representing the topic classified and extracted by the
The utterance type is a type obtained by classifying the utterance contents as described above. For example, there are two types of speech in a specific topic: “affirmation” and “denial”.
The number of cases is numerical data representing the number of pieces of speech data corresponding to the time zone (date and time), the topic, and the speech type.
図示するデータ例では、時間帯の幅が5分である。そして、データ例の第1行目と第2行目は、「2014年2月8日8時10分」から同日の「8時15分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時10分」というデータが格納されている。また、第3行目と第4行目は、「2014年2月8日8時15分」から同日の「8時20分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時15分」というデータが格納されている。本データのすべてのデータにおいて、トピックは「○○税率アップ」である。つまり、この時系列データは、発言データの中から抽出された、「○○税」という税の税率アップに関する発言の件数の時系列を表すものである。そして、第1行および第3行の発言種別は「否定」であり、第2行および第3行の発言種別は「肯定」である。また、件数の欄には、各時間帯における、発言種別ごとの発言件数がそれぞれ格納されている。
なお、この時系列データは、系列データ生成部12によって生成される。
In the illustrated data example, the width of the time zone is 5 minutes. The first and second lines of the data example are data related to the time zone from “8:10 on February 8, 2014” to “8:15” on the same day. As representative, data “February 8, 2014 8:10” is stored in the time zone (date and time) column. The third and fourth lines are data relating to the time zone from “8:15 on February 8, 2014” to “8:20” on the same day. In the time zone (date and time) column, data “February 8, 2014, 8:15” is stored. In all the data of this data, the topic is “XX tax rate increase”. That is, this time series data represents the time series of the number of utterances related to the tax rate increase of “XX tax” extracted from the utterance data. The message types in the first and third lines are “No”, and the message types in the second and third lines are “Yes”. Further, the number of utterances for each utterance type in each time zone is stored in the number of cases column.
The time series data is generated by the series
次に、処理の手順について説明する。
図5は、イベント検出装置の動作手順を示すフローチャートである。以下、このフローチャートに沿って、イベント検出装置1の動作を説明する。
まずステップS101において、発言データ取得部10は、外部から発言データを取得する。この発言データは、図3に示したものである。
Next, the processing procedure will be described.
FIG. 5 is a flowchart showing an operation procedure of the event detection apparatus. Hereinafter, the operation of the event detection apparatus 1 will be described with reference to this flowchart.
First, in step S101, the speech
次にステップS102において、抽出部11は、発言データの中から、特定トピックの発言だけを抽出する。また、抽出部11は、抽出したトピックの発言データを、発言種別ごとに分類する。抽出部11は、分類、抽出した結果に基づいて、発言データの中のトピックの項目、および発言種別の項目に、データを書き込む。なお、このように分類された結果として、特定のトピック且つ特定の発言種別のみを抽出した状態のデータを純粋状態発言データと呼ぶ。
Next, in step S102, the
なお、特定のトピックの発言のみを抽出するためには、自然言語処理技術を利用した自動分類の技術を利用することができる。この技術自体は、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存の技術であって、キーワードの設定による抽出と、ルール(複数の条件の組み合わせ等)による抽出とを併用するものである。また、テレビ等の特定の放送番組に関する発言のみを抽出するためには、その放送番組に関するキーワードを用いて、上記の自動分類技術を利用する。
また、特定の発言種別のみを抽出するためには、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存技術である評判分析技術を用いることができる。評判分析技術は、例えば、発言内に出現する語の頻度を表す多次元ベクトルを、そのベクトル空間内で分類する。また、評判分析技術は、必要に応じて、教師データを用いた機械学習の手法により、そのベクトル空間内での分類の仕方を学習する。
In order to extract only the utterances of a specific topic, an automatic classification technique using a natural language processing technique can be used. This technology itself is an existing technology as described in the literature [Michael W. Berry, Survey of Text Mining, 2004 edition, Springer]. It is extracted by keyword setting and rules (combination of multiple conditions, etc.) ) In combination with extraction. In addition, in order to extract only utterances related to a specific broadcast program such as a television, the above automatic classification technique is used using keywords related to the broadcast program.
In addition, in order to extract only a specific utterance type, as in the literature [Michael W. Berry, Survey of Text Mining, 2004 edition, Springer], it is possible to use the reputation analysis technology that is an existing technology. The reputation analysis technique classifies, for example, a multidimensional vector representing the frequency of words appearing in a statement in the vector space. In addition, the reputation analysis technique learns how to classify in the vector space by a machine learning technique using teacher data as necessary.
次にステップS103において、系列データ生成部12は、分類済みの発言データを元に、時系列データを生成する。系列データ生成部12が生成する時系列データの例は、図4に示した通りである。具体的には、系列データ生成部12は、抽出部11によって抽出された発言データの件数を時間帯ごと、トピックごと、発言種別ごとにカウントすることにより、この時系列データを生成する。
In step S103, the series
次にステップS104において、自己回帰モデル適用部13は、系列データ生成部12によって生成された時系列データに、自己回帰モデルを適用する。これにより、自己回帰モデル適用部13は、残差の値の時系列(ε1,ε2,・・・)のデータを算出する。ここでは、自己回帰モデル適用部13が、ARモデル(autoregressive model,自己回帰モデル)を適用する場合と、ARMAモデル(autoregressive moving average model,自己回帰移動平均モデル)を適用する場合の、2通りの例を説明する。
Next, in step S <b> 104, the autoregressive
(1)ARモデルを適用する場合
次数p(pは自然数)の自己回帰モデルは、下の式(1)で表される。
(1) When AR model is applied An autoregressive model of order p (p is a natural number) is expressed by the following equation (1).
式(1)において、φ1,・・・,φpは、モデルのパラメーターである。また、cは定数項である。εtは、残差(誤差)項である。つまり、式(1)に示すモデルでは、離散時刻tにおける時系列データの値Xtは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和に定数項と残差項を加えたものである。 In the equation (1), φ 1 ,..., Φ p are model parameters. C is a constant term. ε t is a residual (error) term. That is, in the model shown in equation (1), the value X t of the time series data at discrete time t, p number of values X t-1 immediately before the same series, ..., weighted for X t-p The sum is a constant term and a residual term.
自己回帰モデル適用部13は、式(1)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε1,ε2,・・・と、定数項cと、パラメーターφ1,・・・,φpの値を得る。
The autoregressive
(2)ARMAモデルを適用する場合
次数pの自己回帰と、次数qの移動平均を組み合わせたモデルは、下の式(2)で表される(p,qは、自然数)。
(2) When applying the ARMA model A model combining the autoregression of the order p and the moving average of the order q is expressed by the following formula (2) (p and q are natural numbers).
式(2)において、φ1,・・・,φp、および、θ1,・・・,θqは、モデルのパラメーターである。εtは、残差(誤差)項である。つまり、式(2)に示すモデルでは、離散時刻tにおける時系列データの値Xtは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和と、同系列における直前のq個の残差項εt−1,・・・,εt−qの重み付の和と、当該時刻tにおける残差項の値を加えたものである。 In equation (2), φ 1 ,..., Φ p and θ 1 ,..., Θ q are model parameters. ε t is a residual (error) term. That is, in the model shown in equation (2), the value X t of the time series data at discrete time t, p number of values X t-1 immediately before the same series, ..., weighted for X t-p The sum, the weighted sum of q immediately preceding residual terms ε t−1 ,..., Ε t-q in the same series, and the value of the residual term at the time t are added.
自己回帰モデル適用部13は、式(2)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰移動平均モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε1,ε2,・・・と、パラメーターφ1,・・・,φp,およびθ1,・・・,θqの値を得る。
The autoregressive
自己回帰モデル適用部13は、残差の値の時系列(ε1,ε2,・・・)のデータを算出すると、既に述べた。ARモデルにおいても、ARMAモデルにおいても、残差εt(t=1,2,・・・)は、平均値0の正規分布に従う。つまり、閾値ethを適切に設定することにより、εtの絶対値である|εt|がその閾値ethを超える可能性は小さくなる。つまり、|εt|がその閾値ethを超えるような時間帯は、イベント発生時間帯の候補とみなすことができる。
As described above, the autoregressive
次にステップS105において、イベント検出部14は、自己回帰モデル適用部13から供給される残差の値の時系列データに基づき、残差の絶対値|εt|が閾値ethを超えるような時間帯を、すべて検出する。言い換えれば、イベント検出部14は、|εt|>eth となるようなtをすべて求める。そのような時間帯を、便宜上、イベント候補と呼ぶ。
より具体的には、残差時系列データ取得部141が残差の値の時系列データを自己回帰モデル適用部13から取り込む。そして、イベント候補時刻検出部142がイベント候補の時間帯をすべて検出する。
In step S105, the
More specifically, the residual time series
次にステップS106において、イベント検出部14(具体的には、継続時間判定部143)は、ステップS105において検出されたイベント候補のうち、閾値超えが所定時間継続しなかったものが存在するか否かを判断する。本実施形態では、イベント検出部14は、連続した閾値超えの系列数が所定値未満のものが存在するか否かにより、この判断を行う。
例えば、時間帯の幅が5分の場合であって、20分間以上のイベント候補(閾値超え)が継続する場合に、そのイベント候補をイベントと認定する場合を考える。このとき、時系列のイベント候補が4個以上継続する場合にはイベントであると認定し、時系列のイベント候補が3個以下しか継続しない場合には、そのイベント候補は、イベントではなく、「所定時間継続しない箇所」であると認定する。
そして、閾値超えが所定時間継続しない箇所がある場合(ステップS106:YES)には、ステップS107に進む。一方、閾値超えが所定時間継続しない箇所がない場合(ステップS106:NO)には、ステップS108に進む。
Next, in step S106, the event detection unit 14 (specifically, the duration determination unit 143) determines whether there is an event candidate detected in step S105 that has not exceeded the threshold for a predetermined time. Determine whether. In the present embodiment, the
For example, let us consider a case where the event candidate is recognized as an event when the time zone width is 5 minutes and the event candidate (exceeding the threshold) for 20 minutes or more continues. At this time, if four or more time-series event candidates continue, it is recognized as an event. If only three or less time-series event candidates continue, the event candidate is not an event, but “ It is recognized that it is “a part that does not continue for a predetermined time”.
If there is a portion where exceeding the threshold does not continue for a predetermined time (step S106: YES), the process proceeds to step S107. On the other hand, when there is no portion where the threshold value is not exceeded for a predetermined time (step S106: NO), the process proceeds to step S108.
次にステップS107に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、除去処理部144)は、継続時間の短いイベント候補に対応して、残差を除去するためのデータ処理を行う。この処理は、継続時間の短いイベント候補が減る方向に作用する。言い換えれば、この処理によって、イベント検出部14は、閾値超えが所定時間継続しない箇所について、閾値超えの度合いが小さくなる方向でデータの除去(更新)を行う。なお、本ステップの処理の詳細については、後で、別のフローチャート(図6)を参照しながら説明する。本ステップの処理を終えた後、再びステップS104の処理に進む。これにより、本ステップで除去(更新)した後の時系列データに関して、再度、自己回帰モデルの適用を行うこととなる。
Next, when the process proceeds to step S107, in the same step, the event detection unit 14 (specifically, the removal processing unit 144) performs data processing for removing a residual corresponding to an event candidate having a short duration. I do. This process acts in a direction that the number of event candidates with a short duration decreases. In other words, by this process, the
ステップS106からステップS108に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、検出結果出力部145)は、検出されたイベントの時刻情報を、イベントリスト出力部15に対して出力する。本ステップに制御が移ってくる前提条件は、ステップS106において、閾値超えが所定時間継続しない箇所がないと判断されることである。言い換えれば、本ステップに制御が移ってくる時点では、閾値超えをしている箇所(時間帯)は、すべて、イベントであると認定される個所である。つまり、イベント検出部14は、閾値超えをしている箇所の時刻(時間帯を代表する時刻)とその時刻に対応付けられた時系列データとのペアのリストを、イベントリスト出力部15に対して渡す。そして、イベントリスト出力部15は、それらの時刻のデータと、それらの時刻に関連付けられた時系列データ(発言数のカウント)とを、外部に出力する。そして、本ステップの処理が終了すると、イベント検出装置1は、このフローチャート全体の処理を終了する。
When the process proceeds from step S106 to step S108, in the same step, the event detection unit 14 (specifically, the detection result output unit 145) outputs the time information of the detected event to the event
図6は、除去処理部144による詳細な処理の手順を示すフローチャートである。同図に示す処理は、図5に示した処理手順の中のステップS107の部分の処理である。以下、このフローチャートに沿って、継続時間の短いイベントを除去する処理を説明する。
FIG. 6 is a flowchart showing a detailed processing procedure by the
まずステップS201において、イベント検出部14内の除去処理部144は、継続時間の短いイベント候補のリストのデータを取得する。このデータは、継続時間判定部143によって供給されるものであり、既に述べたとおり、残差の絶対値が閾値ethを超えている時間帯であって、且つそのような閾値超えの継続している時間が所定時間未満であるような時間帯のリストである。具体的には、除去処理部144は、本ステップにおいて、該当する時間帯を代表する時刻と、当該時間帯における発言数の値とのペアのリストを取得する。
First, in step S201, the
次にステップS202において、除去処理部144は、取得したデータ内に含まれる各々のイベント候補について、発言データ1件ごとの寄与度を求める。ここで、式(1)や式(2)で表されるモデルと実測値(ツイート数)の2乗誤差の総和に寄与する度合いを寄与度という。つまり寄与度とは、除去すべき残差(イベントとは認定されない短時間の残差)を有する各時間帯について、その時間帯における発言を1件減少させたときに、時系列データ全体として、2乗誤差の総量が小さくなる度合である。除去処理部144が対象としている各時間帯の残差への寄与度を求めるためには、実際に発言件数を上記のように減少させてから、再度、自己回帰モデル適用部13に自己回帰モデルの適用の処理を行ってみて、除去すべき残差の絶対値の総量がどれだけ減るかを算出する。そして、寄与度の最も大きい発言データを選出する。
なお、上述した処理において、2乗誤差の総和とは、対象としているすべての時間帯(閾値超えしているがイベントではない時間帯)についての総和である。
Next, in step S202, the
In the above-described processing, the sum of squared errors is the sum of all target time zones (time zones that exceed the threshold but are not events).
次にステップS203において、除去処理部144は、は、寄与度が最も大きい発言データ(ステップS202で選出した通り)について、1件減少させる。イベントとは認定されない時間帯の発言において、イベントとみなされる量(2乗誤差の総和)に寄与する度合いが大きい発言を除去するために、この処理がなされる。
Next, in step S203, the
以上、図5および図6を参照しながら説明したように、本実施形態によるイベント検出装置1は、予めトピックと発言種別を分類し、純粋状態の発言データとしてから、ARモデルまたはARMAモデルを適用する。また、イベント検出装置1は、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超える時間帯をイベント候補として認定する。また、イベント検出装置1は、認定されたイベント候補の継続時間が長いか短いかに応じて、それが検出すべき真のイベントであるか、除去すべきノイズであるかを判別する。また、イベント検出装置1は、除去すべきノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。 As described above with reference to FIGS. 5 and 6, the event detection apparatus 1 according to the present embodiment classifies topics and utterance types in advance, and applies the AR model or the ARMA model as pure utterance data. To do. Further, the event detection apparatus 1 recognizes, as an event candidate, a time zone in which the residual (absolute value) when the AR model or the ARMA model is applied exceeds a predetermined threshold. Further, the event detection apparatus 1 determines whether it is a true event to be detected or noise to be removed depending on whether the duration time of the authorized event candidate is long or short. Moreover, the event detection apparatus 1 removes the noise for the time zone of the event candidate recognized as the noise to be removed.
本実施形態では、予めトピックと発言種別を分類し、特定のトピック且つ発言種別のデータ(純粋状態発言データ)のみを抽出してから時系列の発言数のデータを生成することにより、複数のモデルが複合した状態の時系列データではなく、単一のモデルの状態の時系列データを得ることができる。そのような、単一のモデルによる時系列データ、つまり良好な性質の時系列データに、ARモデルやARMAモデルを適用するため、モデル化の誤差を減らすことが可能となる。つまり、モデルが想定する理想的な状態に近い時系列データを処理対象としてイベント検出することができる。仮に、2つのトピックが同時に進行している状況で、それらのトピックを分離せずに単一のモデルを適用した場合には、そのことによる誤差が生じてしまう。 In this embodiment, topics and utterance types are classified in advance, and only a specific topic and utterance type data (pure state utterance data) is extracted, and then a plurality of models are generated by generating time-series utterance number data. It is possible to obtain time-series data of the state of a single model, not time-series data of a state of complex. Since the AR model or the ARMA model is applied to such time-series data based on a single model, that is, time-series data having a good property, modeling errors can be reduced. That is, it is possible to detect an event using time series data close to an ideal state assumed by the model as a processing target. If two topics are progressing simultaneously and a single model is applied without separating the topics, an error will occur.
また、本実施形態では、トピックの分類と同様に、発言種別(ある事象等に対して、肯定的か、否定的か。また、支持するか、不支持か、など。)を分類し、発言データを発言種別で分離してから発言件数の時系列のデータを生成するため、上記のトピックの分類と同様に、より精度の高い分析およびより精度の高いイベント検出をすることが可能となる。 Further, in the present embodiment, similar to the topic classification, the utterance type (positive or negative for a certain event or the like, whether it is supported or not supported, etc.) is classified and the utterance is classified. Since the time-series data of the number of utterances is generated after the data is separated by the utterance type, it is possible to perform more accurate analysis and more accurate event detection in the same manner as the above-described topic classification.
従来技術では、上記のモデル化の誤差が大きいことなどの理由により、ARモデルやARMAモデルが適用されていなかった。本実施形態では、上記のように、特定のトピック且つ発言種別のデータのみを抽出してから時系列の発言数のデータを生成するため、ARモデルやARMAモデルを良好に適用することが可能となる。 In the prior art, the AR model or the ARMA model has not been applied because of the large modeling error. In the present embodiment, as described above, since only the data of the specific topic and the message type is extracted and then the data of the number of messages in the time series is generated, it is possible to satisfactorily apply the AR model or the ARMA model. Become.
また、本実施形態では、ARモデルやARMAモデルを適用するため、単純にあらかじめ定められた閾値を超えるタイミングをイベントとして認定するのではなく、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超えるタイミング(時間帯)をイベント候補として認定している。これにより、より精度の良いイベント検出を行うことが可能となる。 Further, in this embodiment, since the AR model or the ARMA model is applied, the residual (when the AR model or the ARMA model is applied) is not simply recognized as an event when the timing exceeds a predetermined threshold. Timing (time period) when the absolute value) exceeds a predetermined threshold is recognized as an event candidate. This makes it possible to perform more accurate event detection.
また、本実施形態では、残差(の絶対値)が所定の閾値を超えている時間帯(イベント候補)の継続時間が長いか短いかに応じて、真のイベントであるか、ノイズとみなすべき異常値であるかを判別する。言い換えれば、残差がバーストとなっている時間帯、即ち持続時間の長いイベント候補の時間帯がイベントと認定される。また逆に、バーストではない残差、即ち持続時間の短いイベント候補の時間帯はノイズとして認定される。これにより、一時的な異常なノイズをイベントとして検出してしまうことを防ぐことができる。 Further, in the present embodiment, it should be regarded as a true event or noise depending on whether the duration of the time zone (event candidate) whose residual (absolute value) exceeds a predetermined threshold is long or short. Determine whether it is an abnormal value. In other words, a time zone in which the residual is a burst, that is, a time zone of an event candidate with a long duration is recognized as an event. Conversely, a residual that is not a burst, that is, a time zone of a short event candidate is recognized as noise. Thereby, it is possible to prevent temporary abnormal noise from being detected as an event.
また、本実施形態では、ノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。具体的には、ノイズへの寄与度が大きい順に、発言を除去した場合と同等のデータ処理を行い、ノイズ(継続時間の短いイベント候補)がなくなるまで、そのような除去を繰り返す。これにより、モデルによく合致する結果を得ることができる。 In the present embodiment, the noise is removed from the time zone of the event candidate recognized as noise. Specifically, data processing equivalent to the case where the utterance is removed is performed in descending order of contribution to noise, and such removal is repeated until there is no noise (event candidate with a short duration). As a result, a result that closely matches the model can be obtained.
以上、述べたように、本実施形態では、時系列モデルのパラメーターの推定精度が向上するために、モデルで説明可能な部分の残差(モデルと、実際の時系列データとのずれ)が減少する効果を得ることが期待される。この推定精度の向上によって残差が減少する量が時間帯に依らずに一定であるとすると、残差のピークがより明確に表れることとなる。また、この推定精度の向上によって残差が減少する量が厳密に一定とは言えない場合にも、乗算性ノイズ以外の残差が減少すれば、残差のピーク(乗算性ノイズのピーク)がより明確に表れることとなる。その結果、自己相関では説明できない部分の検出精度が向上するという効果が得られる。これにより、精度よく発言についてのイベントが検出される。つまり、そのようなイベントに対応した、社会情勢の変化や、事件・事故等を検出するためにイベント検出装置1を用いることができ、しかもその検出精度を向上させることができる。 As described above, in this embodiment, since the estimation accuracy of the parameters of the time series model is improved, the residual of the part that can be explained by the model (the difference between the model and the actual time series data) is reduced. It is expected to obtain the effect. If the amount by which the residual decreases due to this improvement in estimation accuracy is constant regardless of the time zone, the residual peak will appear more clearly. Also, even if the amount by which the residual decreases due to this improvement in estimation accuracy is not strictly constant, if the residual other than multiplicative noise decreases, the residual peak (multiplicity noise peak) It will appear more clearly. As a result, there is an effect that the detection accuracy of a portion that cannot be explained by autocorrelation is improved. Thereby, the event about a speech is detected accurately. In other words, the event detection device 1 can be used to detect changes in social situations, incidents / accidents, etc. corresponding to such events, and the detection accuracy can be improved.
なお、上述した実施形態におけるイベント検出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 Note that the function of the event detection apparatus in the above-described embodiment may be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。 Although the embodiment has been described above, the present invention can also be implemented in the following modified example.
(変形例1) 例えば、上記の実施形態では、残差が正・負両方の場合について、残差の絶対値が閾値を超えたとき(|εt| > eth)に、イベント候補として検出するようにしたが、これを変えて、残差が正で、且つその残差が閾値を超えたとき(εt > eth)のみに、イベント候補として検出するようにしても良い。この変形例を実施した場合には、イベント検出装置1は、残差が正であるような時間帯のイベントのみを検出し、残差が負であるような時間帯のイベントを検出しないようになる。目的に応じて、そのような検出のしかたが望まれる場合には、この変形例が好ましい。 (Modification 1) For example, in the above embodiment, when the residual is both positive and negative, it is detected as an event candidate when the absolute value of the residual exceeds a threshold (| ε t |> e th ). However, this may be changed so that the event candidate is detected only when the residual is positive and the residual exceeds a threshold (ε t > e th ). When this modification is implemented, the event detection apparatus 1 detects only events in a time zone in which the residual is positive, and does not detect events in a time zone in which the residual is negative. Become. This modification is preferable when such a detection method is desired depending on the purpose.
(変形例2) 上記の実施形態では、イベント検出装置1は、図1に示した構成を有していた。この変形例2では、イベント検出装置は、図1に示した構成のうち、発言データ取得部10と、抽出部11と、系列データ生成部12とを含まない。そして、イベント検出装置は、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含む。この場合、系列データの生成までは、外部の別の装置で行い、生成された系列データを自己回帰モデル適用部13が読み込んで、処理を行う。
(Modification 2) In the above embodiment, the event detection device 1 has the configuration shown in FIG. In the second modification, the event detection device does not include the utterance
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲において、異なる設計としても良い。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and different designs may be used without departing from the gist of the present invention.
本発明は、社会の分析等に利用することができる。本発明は、例えば、社会情勢の変化や、突発的な事故・事件や、インターネットを媒介とした特定の情報の急激な広まりなどを、検出するために利用することができる。放送事業では、番組制作の企画に利用したり、報道取材のきっかけとして利用したりすることができる。政府等の公共機関にとっては、社会政策の企画・立案に利用することができる。 The present invention can be used for social analysis and the like. The present invention can be used to detect, for example, changes in social situations, sudden accidents / incidents, and rapid spread of specific information via the Internet. In the broadcasting business, it can be used for program production planning or as an opportunity for news reporting. For public institutions such as the government, it can be used for social policy planning.
1 イベント検出装置
10 発言データ取得部
11 抽出部
12 系列データ生成部
13 自己回帰モデル適用部
14 イベント検出部
15 イベントリスト出力部
141 残差時系列データ取得部
142 イベント候補時刻検出部
143 継続時間判定部
144 除去処理部
145 検出結果出力部
DESCRIPTION OF SYMBOLS 1
Claims (4)
前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、
を具備するイベント検出装置であって、
前記イベント検出部は、
検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、
前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、
を具備することを特徴とするイベント検出装置。 Autoregressive model application that obtains time series data of the number of remarks, applies autoregressive model or autoregressive moving average model to the acquired time series data, and outputs residual time series data obtained as a result of application And
Detect each residual constituting the time series data of the residual output by the autoregressive model application unit or a place where the absolute value of the residual is larger than a predetermined threshold as an event candidate in the time series data An event detector to perform,
A event detection device you equipped with,
The event detection unit
Among the detected event candidates, a portion where the predetermined number of event candidates continue in the time series data of the residual is detected as an event, and the event candidates are less than the predetermined number in the time series data of the residual A duration determination unit for detecting non-continuous portions as noise,
For the portion detected as the noise by the duration determination unit, a removal processing unit that adjusts the time-series data of the number of utterances so that the absolute value of the residual of the noise portion is small,
Event detection device characterized by comprising a.
ことを特徴とする請求項1に記載のイベント検出装置。 The removal processing unit obtains the degree of contribution to the total amount of noise in the residual time-series data for each location, and gives priority to the location where the degree of contribution is large, the time-series data of the number of messages. adjust,
The event detection apparatus according to claim 1 , wherein:
前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、
をさらに具備し、
前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、
ことを特徴とする請求項1または請求項2に記載のイベント検出装置。 Remarks data including remark contents and time information is acquired, and from the acquired remark data, only the remark data having the remark contents corresponding to a specific topic or corresponding to a specific topic and corresponding to a specific remark type An extractor that extracts only said utterance data and outputs pure state utterance data;
Obtaining the pure state utterance data output by the extraction unit, and a sequence data generation unit for generating time series data of the number of utterances representing the number of the pure state utterance data for each time interval;
Further comprising
The autoregressive model application unit acquires the time series data of the number of messages generated by the series data generation unit, and applies an autoregressive model or an autoregressive moving average model.
The event detection apparatus according to claim 1 or 2 , wherein
請求項1から3までのいずれか一項に記載のイベント検出装置、
として機能させるためのプログラム。 Computer
The event detection device according to any one of claims 1 to 3 ,
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014114408A JP6395287B2 (en) | 2014-06-02 | 2014-06-02 | Event detection apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014114408A JP6395287B2 (en) | 2014-06-02 | 2014-06-02 | Event detection apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015228189A JP2015228189A (en) | 2015-12-17 |
JP6395287B2 true JP6395287B2 (en) | 2018-09-26 |
Family
ID=54885606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014114408A Active JP6395287B2 (en) | 2014-06-02 | 2014-06-02 | Event detection apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6395287B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7393244B2 (en) * | 2020-02-25 | 2023-12-06 | 株式会社日立製作所 | Time series data prediction device and time series data prediction method |
CN112924619B (en) * | 2021-01-15 | 2022-06-03 | 深圳市环思科技有限公司 | Method, system, terminal and storage medium for extracting environmental air pollution features |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805266B1 (en) * | 2001-07-17 | 2010-09-28 | At&T Corp. | Method for automated detection of data glitches in large data sets |
JP5679194B2 (en) * | 2011-05-18 | 2015-03-04 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP2013140135A (en) * | 2011-12-09 | 2013-07-18 | Tokyo Electron Ltd | Abnormality detection apparatus for periodic driving system, processing apparatus including periodic driving system, abnormality detection method for periodic driving system, and computer program |
-
2014
- 2014-06-02 JP JP2014114408A patent/JP6395287B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015228189A (en) | 2015-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rauh | Validating a sentiment dictionary for German political language—a workbench note | |
US9923931B1 (en) | Systems and methods for identifying violation conditions from electronic communications | |
US10691770B2 (en) | Real-time classification of evolving dictionaries | |
US8577155B2 (en) | System and method for duplicate text recognition | |
CN108733816B (en) | Microblog emergency detection method | |
US20210026910A1 (en) | Expert Detection in Social Networks | |
US10666792B1 (en) | Apparatus and method for detecting new calls from a known robocaller and identifying relationships among telephone calls | |
US20130159277A1 (en) | Target based indexing of micro-blog content | |
CN106504744A (en) | A kind of method of speech processing and device | |
JP5472640B2 (en) | Text mining device, text mining method, and program | |
US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
JP6719399B2 (en) | Analysis device, analysis method, and program | |
CN106991090B (en) | Public opinion event entity analysis method and device | |
US20150254327A1 (en) | System and method for rectifying a typographical error in a text file | |
WO2017075912A1 (en) | News events extracting method and system | |
CN107545505B (en) | Method and system for identifying insurance financing product information | |
JP2007241902A (en) | Text data splitting system and method for splitting and hierarchizing text data | |
Hernandez et al. | Constructing consumer profiles from social media data | |
JP6395287B2 (en) | Event detection apparatus and program | |
Mayfield et al. | Analyzing wikipedia deletion debates with a group decision-making forecast model | |
JP5472641B2 (en) | Text mining device, text mining method, and program | |
Hu et al. | Quotatives indicate decline in objectivity in us political news | |
CN109213974B (en) | Electronic document conversion method and device | |
CN110941703A (en) | Integrated resume information extraction method based on machine learning and fuzzy rules | |
Rytsarev et al. | Application of the principal component analysis to detect semantic differences during the content analysis of social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170501 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180731 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6395287 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |