JP6395287B2 - Event detection apparatus and program - Google Patents

Event detection apparatus and program Download PDF

Info

Publication number
JP6395287B2
JP6395287B2 JP2014114408A JP2014114408A JP6395287B2 JP 6395287 B2 JP6395287 B2 JP 6395287B2 JP 2014114408 A JP2014114408 A JP 2014114408A JP 2014114408 A JP2014114408 A JP 2014114408A JP 6395287 B2 JP6395287 B2 JP 6395287B2
Authority
JP
Japan
Prior art keywords
data
time
series data
event
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014114408A
Other languages
Japanese (ja)
Other versions
JP2015228189A (en
Inventor
小早川 健
健 小早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014114408A priority Critical patent/JP6395287B2/en
Publication of JP2015228189A publication Critical patent/JP2015228189A/en
Application granted granted Critical
Publication of JP6395287B2 publication Critical patent/JP6395287B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、系列データからイベントを検出するための、イベント検出装置およびプログラムに関する。   The present invention relates to an event detection apparatus and a program for detecting an event from sequence data.

インターネットを利用した投稿サイト(掲示板サイトや、短文投稿サイトなど)では、様々な話題に関する投稿が日々行われている。これらの投稿は、自然言語で記述されたものであるが、このような投稿をもとに、社会情勢の変化や事件・事故などを検出する試みは数多くなされている。   Posts on the Internet (such as bulletin board sites and short text posting sites) post on various topics every day. These posts are written in natural language, but many attempts have been made to detect changes in social conditions, incidents and accidents based on such posts.

そのような状況で、求められる技術の一つは、インターネットを経由した投稿等の書き込み数の異常値を検出することである。従来の技術による方法の一つは、書き込み数が予め定められた閾値を超える場合を検出する方法である。また、別の方法の一つは、自己相関行列の固有値によるモデルを利用する方法である。   In such a situation, one of the required technologies is to detect an abnormal value of the number of writes such as postings via the Internet. One of the conventional methods is a method for detecting a case where the number of writing exceeds a predetermined threshold. Another method is to use a model based on the eigenvalues of the autocorrelation matrix.

特許文献1の図13Cおよび段落[0116]には、相互部分空間法について記載されている。この手法では、過去に遡る観測データ(時系列データ)を基に自己相関行列の固有値問題を解き、部分空間同士が成す角度(θ)の余弦(cos θ)を類似度として、観測データの異常値を検知している。   FIG. 13C of Patent Document 1 and paragraph [0116] describe the mutual subspace method. In this method, the eigenvalue problem of the autocorrelation matrix is solved based on the observation data (time series data) that goes back in the past, and the cosine (cos θ) of the angle (θ) between the subspaces is used as the similarity, and the abnormalities of the observation data The value is detected.

特開2013−041448号公報JP 2013-041448 A

しかしながら、従来技術による異常値検出の方法では、十分な検出精度が得られないという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、異常値検出の精度の高い、イベント検出装置およびプログラムを提供するものである。
However, the method for detecting an abnormal value according to the prior art has a problem that sufficient detection accuracy cannot be obtained.
The present invention has been made based on the above problem recognition, and provides an event detection apparatus and program with high accuracy of abnormal value detection.

[1]上記の課題を解決するため、本発明の一態様によるイベント検出装置は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、を具備する。   [1] In order to solve the above problem, an event detection apparatus according to an aspect of the present invention acquires time series data of the number of utterances, and adds an autoregressive model or an autoregressive moving average model to the acquired time series data. Autoregressive model applying unit that applies and outputs residual time series data obtained as a result of application, and each residual constituting the time series data of residuals output by the autoregressive model applying unit or An event detection unit that detects a location where the absolute value of the residual is larger than a predetermined threshold as an event candidate in the time-series data.

[2]また、本発明の一態様は、上記のイベント検出装置において、発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、をさらに具備し、前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、ことを特徴とする。   [2] Further, according to one aspect of the present invention, in the event detection device, the utterance data including the utterance content and time information is acquired, and the utterance content corresponding to a specific topic is acquired from the acquired utterance data. An extraction unit that outputs only the utterance data or only the utterance data that corresponds to a specific topic and corresponds to a specific utterance type, and outputs the pure state utterance data; and the pure state utterance output by the extraction unit A series data generation unit that acquires data and generates time series data of the number of utterances representing the number of the pure state utterance data for each time interval, and the autoregressive model application unit includes the series data Obtain time series data of the number of statements generated by the generation unit, and apply an autoregressive model or an autoregressive moving average model, And wherein the door.

[3]また、本発明の一態様は、上記のイベント検出装置において、前記イベント検出部は、検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、を具備することを特徴とする。
なお、除去処理部により、ノイズが除去される。また、除去処理部が発言件数の時系列データを調整した後に、自己回帰モデル適用部が、再度、自己回帰モデルまたは自己回帰移動平均モデルの適用をするところからの処理を行う。
[3] Further, according to an aspect of the present invention, in the event detection device, the event detection unit includes a predetermined number or more consecutive event candidates in the residual time-series data among the detected event candidates. Detecting a location as an event, and detecting as a noise a duration determination unit that detects, as noise, a location where the event candidate continues less than the predetermined number in the time series data of the residual, and detects it as the noise by the duration determination unit A removal processing unit that adjusts the time-series data of the number of utterances so that the absolute value of the residual of the noise portion is reduced.
Note that noise is removed by the removal processing unit. In addition, after the removal processing unit adjusts the time-series data of the number of messages, the autoregressive model application unit performs processing from the point where the autoregressive model or the autoregressive moving average model is applied again.

[4]また、本発明の一態様は、上記のイベント検出装置において、前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、ことを特徴とする。   [4] Further, according to one aspect of the present invention, in the event detection device, the removal processing unit obtains a degree of contribution to the total amount of noise in the residual time-series data for each location, and the contribution The time-series data of the number of utterances is adjusted in preference to the part where the degree of the message is large.

[5]また、本発明の一態様は、コンピューターを、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、として機能させるためのプログラムである。   [5] Further, according to one aspect of the present invention, as a result of applying a computer to obtain time series data of the number of messages, applying an autoregressive model or an autoregressive moving average model to the obtained time series data, Autoregressive model applying means for outputting the time series data of the residual obtained, each residual constituting the time series data of the residual outputted by the autoregressive model applying means, or an absolute value of the residual is predetermined. Is a program for functioning as event detection means for detecting a location larger than the threshold value as an event candidate in the time-series data.

本発明によれば、自己相関モデルまたは自己相関移動平均モデルの残差に基づき、精度よくイベントを検出することが可能となる。また、特定のトピックや特定の発言種別のみを抽出して時系列データを生成した場合には、モデルのパラメーターの推定精度が上がるので、更に精度よくイベントを検出できる。   According to the present invention, it is possible to detect an event with high accuracy based on a residual of an autocorrelation model or an autocorrelation moving average model. In addition, when only a specific topic or a specific utterance type is extracted and time-series data is generated, the accuracy of model parameter estimation increases, so that an event can be detected with higher accuracy.

本発明の実施形態によるイベント検出装置の概略機能構成を示すブロック図である。It is a block diagram which shows schematic function structure of the event detection apparatus by embodiment of this invention. 同実施形態によるイベント検出部のさらに詳細な機能構成を示すブロック図である。It is a block diagram which shows the further detailed functional structure of the event detection part by the embodiment. 同実施形態による発言データの構成およびデータ例を示す概略図である。It is the schematic which shows the structure of the comment data by the same embodiment, and a data example. 同実施形態による時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。It is the schematic which shows the structure and example of data of the time series data (message number data) by the embodiment. 同実施形態によるイベント検出装置の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure of the event detection apparatus by the embodiment. 同実施形態による除去処理部による詳細な処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the detailed process by the removal process part by the embodiment.

次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同図において、符号1は、イベント検出装置である。図示するように、イベント検出装置1は、発言データ取得部10と、抽出部11と、系列データ生成部12と、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含んで構成される。
Next, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic functional configuration of the event detection apparatus according to the present embodiment. In the figure, reference numeral 1 denotes an event detection device. As shown in the figure, the event detection apparatus 1 includes a utterance data acquisition unit 10, an extraction unit 11, a series data generation unit 12, an autoregressive model application unit 13, an event detection unit 14, and an event list output unit 15. It is comprised including.

発言データ取得部10は、外部から、発言データを取り込み、所定の形式で一時的に記憶する。発言データを記憶するためには、例えば、リレーショナルデータベースや、XMLデータベース(「XML」はExtensible Markup Language,拡張マークアップ言語の略)などを利用する。ここで、発言データは、インターネットを利用した投稿サービスに投稿された発言のデータである。投稿サービスの一例は、短文投稿サービスである。短文投稿サービスにおいては、ユーザーがクライアント端末装置(PC、タブレット、スマートフォン等)から短文を投稿する。短文の長さには所定の上限(例えば、数百文字程度)がある。投稿された短文は、ユーザーアカウント名や投稿日時(YYYY/MM/DD hh:mm:ss(年月日、時分秒)の形式)といった属性情報と関連付けて、サーバー装置側の記憶手段に蓄積される。サーバーは、蓄積された短文のデータを、ユーザーの所望の形態で表示できるように提供する。このとき、ユーザーは、所定のユーザーアカウント(単数または複数)の投稿のみを時系列に表示させたり、特定のキーワードを含む投稿のみを時系列に表示させたりすることができるようになっている。このような短文投稿サービスの一例は、ツイッター(Twitter)である。1件の短文等の投稿のことを、以下では「発言」と呼ぶ。   The utterance data acquisition unit 10 takes in utterance data from the outside and temporarily stores it in a predetermined format. In order to store the utterance data, for example, a relational database or an XML database (“XML” is an abbreviation of Extensible Markup Language) is used. Here, the utterance data is utterance data posted to a posting service using the Internet. An example of the posting service is a short sentence posting service. In the short text posting service, a user posts a short text from a client terminal device (PC, tablet, smartphone, etc.). There is a predetermined upper limit (for example, about several hundred characters) for the length of a short sentence. The submitted short text is stored in the storage means on the server device side in association with attribute information such as the user account name and the posting date (YYYY / MM / DD hh: mm: ss (year / month / day, hour / minute / second) format). Is done. The server provides the accumulated short text data so that it can be displayed in the user's desired form. At this time, the user can display only posts of a predetermined user account (single or plural) in time series, or can display only posts including a specific keyword in time series. An example of such a short text posting service is Twitter. One post of a short sentence or the like is hereinafter referred to as “speech”.

抽出部11は、発言内容と時刻情報とを含む発言データを取得し、取得した発言データから、特定のトピックに該当する発言内容を有する発言データのみ、または特定のトピックに該当するとともに特定の発言種別に該当する発言データのみを抽出した、純粋状態発言データを出力する。
系列データ生成部12は、抽出部11によって出力された純粋状態発言データを取得し、時間区間ごとの純粋状態発言データの件数を表す発言件数の時系列データを生成するものである。
The extraction unit 11 obtains utterance data including the utterance content and time information, and from the obtained utterance data, only the utterance data having the utterance content corresponding to the specific topic, or the specific utterance corresponding to the specific topic. Outputs pure state utterance data in which only utterance data corresponding to the type is extracted.
The series data generation unit 12 acquires the pure state utterance data output by the extraction unit 11 and generates time series data of the number of utterances representing the number of pure state utterance data for each time interval.

自己回帰モデル適用部13は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。
イベント検出部14は、自己回帰モデル適用部13によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、時系列データにおけるイベント候補として検出する。
The autoregressive model application unit 13 acquires time series data of the number of messages, applies an autoregressive model or an autoregressive moving average model to the acquired time series data, and obtains a time series of residuals obtained as a result of application Output data.
The event detecting unit 14 determines each residual constituting the time series data of the residual output by the autoregressive model applying unit 13 or a place where the absolute value of the residual is larger than a predetermined threshold as time series data. Detect as event candidate in.

イベントリスト出力部15は、イベント検出部14によって検出されたイベントのリストを出力する。ここで、イベントのリストとは、少なくともイベントに相当する時間帯を代表する時刻を含むデータのリストである。   The event list output unit 15 outputs a list of events detected by the event detection unit 14. Here, the event list is a list of data including at least a time representing a time zone corresponding to the event.

図2は、上記のイベント検出部のさらに詳細な機能構成を示すブロック図である。図示するように、イベント検出部14は、残差時系列データ取得部141と、イベント候補時刻検出部142と、継続時間判定部143と、除去処理部144と、検出結果出力部145とを含んで構成される。   FIG. 2 is a block diagram showing a more detailed functional configuration of the event detection unit. As illustrated, the event detection unit 14 includes a residual time series data acquisition unit 141, an event candidate time detection unit 142, a duration determination unit 143, a removal processing unit 144, and a detection result output unit 145. Consists of.

残差時系列データ取得部141は、外部(具体的には、自己回帰モデル適用部13)から、残差の時系列のデータを取得する。これは、自己回帰モデル適用部13が適用したモデルにおける残差である。
イベント候補時刻検出部142は、残差時系列データ取得部141が取得した残差時系列データを基に、イベント候補の時刻を検出する。具体的には、イベント候補時刻検出部142は、各時間帯(時刻)について、残差の絶対値が所定の閾値以上の場合に、その時間帯をイベント候補として検出する。
The residual time series data acquisition unit 141 acquires residual time series data from the outside (specifically, the autoregressive model application unit 13). This is a residual in the model applied by the autoregressive model application unit 13.
The event candidate time detection unit 142 detects the event candidate time based on the residual time series data acquired by the residual time series data acquisition unit 141. Specifically, event candidate time detection unit 142 detects each time zone (time) as an event candidate when the absolute value of the residual is equal to or greater than a predetermined threshold.

継続時間判定部143は、検出したイベント候補のうち、残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する。
除去処理部144は、前記継続時間判定部143によってノイズとして検出された箇所について、ノイズの箇所の残差の絶対値が小さくなるように発言件数の時系列データを調整する。発言件数の時系列データを調整するということは、正の残差の場合には発言件数を1件減らすことであり、負の残差の場合は、発言件数を1件増やすことである。除去処理部144によるこのデータの調整により、真のイベントではないイベント候補(つまり、ノイズ)を除去するような作用が生じる。
The duration determination unit 143 detects, as an event, a portion of the detected event candidates where the event candidates continue for a predetermined number or more in the time series data of residuals, and the event candidates in the time series data of the residuals are detected. A portion where only less than the predetermined number continues is detected as noise.
The removal processing unit 144 adjusts the time-series data of the number of utterances so that the absolute value of the residual of the noise part becomes small for the part detected as noise by the duration determination unit 143. Adjusting the time-series data of the number of utterances means that the number of utterances is reduced by one in the case of a positive residual, and the number of utterances is increased by one in the case of a negative residual. Adjustment of this data by the removal processing unit 144 has an effect of removing event candidates (that is, noise) that are not true events.

検出結果出力部145は、継続時間判定部143によって、イベントとして検出された箇所を、検出結果として外部に供給するものである。具体的には、検出結果出力部145は、イベントの検出結果をイベントリスト出力部15に渡す。   The detection result output unit 145 supplies a portion detected as an event by the duration determination unit 143 to the outside as a detection result. Specifically, the detection result output unit 145 passes the event detection result to the event list output unit 15.

図3は、発言データの構成およびデータ例を示す概略図である。図示するように、発言データは、表形式のデータであり、日時、発言アカウント、発言、トピック、発言種別の各項目(桁)を有する。発言データの各行が、1件の発言に対応する。日時は、発言が投稿された日時であり、年月日および時分秒で表されるデータである。発言アカウントは、当該発言を投稿したユーザーのアカウント名である。発言は、投稿された文のテキストデータである。言い換えれば、発言の欄は、発言内容のデータを格納する。トピックは、当該発言が属するトピックを表すラベルのデータである。発言種別は、当該発言の種別を表すラベルのデータである。   FIG. 3 is a schematic diagram illustrating a configuration of the utterance data and a data example. As shown in the figure, the utterance data is tabular data and includes items (digits) of date and time, utterance account, utterance, topic, and utterance type. Each line of the utterance data corresponds to one utterance. The date and time is the date and time when the utterance is posted, and is data expressed in year, month, day, hour, minute and second. The comment account is the account name of the user who posted the comment. The utterance is text data of a posted sentence. In other words, the message column stores the data of the message content. The topic is data of a label representing the topic to which the utterance belongs. The message type is label data representing the type of the message.

ここで、発言種別について説明する。発言種別は、ある特定のトピック内での分類であり、発言内容に基づくものである。例えば、ある事象についての感想は、「肯定」と「否定」と「要望」の3種類の発言種別に分類される(これを、便宜上、感想種別と呼ぶ)。また、ある政策についての意見は、「支持」と「不支持」の2種類の発言種別に分類される(これを、便宜上、支持種別と呼ぶ)。インターネットを介してリアルタイムに投稿と閲覧がなされる投稿サービスにおいては、同種別の意見は、ユーザーのコミュニティの中で広まっていく傾向がある。   Here, the message type will be described. The utterance type is a classification within a specific topic and is based on the content of the utterance. For example, an impression regarding a certain event is classified into three types of utterances of “affirmation”, “denial”, and “request” (this is referred to as an impression type for convenience). Opinions on a certain policy are classified into two types of remarks, “support” and “non-support” (this is called a support type for convenience). In a posting service that posts and browses in real time via the Internet, the same type of opinion tends to spread within the user's community.

図においては、データ例として、計6行分のレコードを示している。第1行目のデータ(日時が、「2014年2月8日 8:12:44」)と、第2行目のデータ(日時が、「2014年2月8日 8:12:47」)のトピックは、「○○税率アップ」である。そして、第1行目の発言種別は「否定」であり、第2行目の発言種別は「肯定」である。第3行目以後に示しているレコードは、その他のトピックに関する発言に対応するものである。   In the figure, as a data example, records for a total of six lines are shown. Data on the first line (date and time is “February 8, 2014 8:12:44”) and data on the second line (date and time is “February 8, 2014 8:12:47”) The topic is “XX tax rate increase”. The message type on the first line is “No”, and the message type on the second line is “Yes”. Records shown in the third and subsequent lines correspond to statements about other topics.

発言データを外部(例えば、短文投稿サイトのデータ配信サーバー装置)から取得した段階では、日時と、発言アカウントと、発言の欄にのみデータが入っており、トピックと発言種別の欄は空欄である。トピックの分類が行われた後に、トピックの欄にデータが書き込まれる。また、発言種別の分類が行われた後に、発言種別の欄にデータが書き込まれる。図示する状態では、トピックが混在している。
トピックの欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックのデータのみを選択して抽出することができる。また、発言種別の欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定の発言種別のデータのみを選択して抽出することができる。また、トピックの欄と発言種別の欄の両方にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックで、且つ特定の発言種別のデータのみを選択して抽出することができる。特定のトピックや発言種別のみ抽出したデータは純粋状態の発言データとして利用できる。
At the stage where the utterance data is acquired from the outside (for example, the data distribution server device of the short posting site), the data is included only in the date / time, utterance account, and utterance columns, and the topic and utterance type columns are blank. . After the topic classification, data is written in the topic column. Further, after the classification of the message type is performed, the data is written in the column of the message type. In the state shown in the figure, topics are mixed.
After data is written in the topic column, only data on a specific topic can be selected and extracted by data search using conditions. In addition, after data is written in the message type column, only data of a specific message type can be selected and extracted by data search using conditions. In addition, after data is written in both the topic field and the message type field, only data of a specific topic and a specific message type can be selected and extracted by data search using conditions. it can. Data extracted only for a specific topic or type of speech can be used as pure state speech data.

図4は、時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。図示するように、この時系列データは、時間帯(時間区間)ごとの、特定トピック且つ特定発言種別の発言件数を表すものである。この時系列データは、表形式の構造を有しており、時間帯(日時)、トピック、発言種別、件数、という項目を含んでいる。同図に示す時系列データの各行は、時間帯とトピックと発言種別の組み合わせに対応している。   FIG. 4 is a schematic diagram showing a configuration of time-series data (message count data) and a data example. As shown in the figure, this time-series data represents the number of utterances of a specific topic and a specific utterance type for each time zone (time interval). This time-series data has a tabular structure and includes items such as time zone (date and time), topic, statement type, and number of cases. Each row of the time-series data shown in the figure corresponds to a combination of time zone, topic, and message type.

時間帯(日時)は、所定の長さ(幅)を有する時間帯を代表する日時のデータである。時間帯の幅は、分析対象のデータの性質や、発言の話題の性質などに応じて、適宜定められる。通常の場合、時間帯の幅は1分程度から1日程度までの間の長さである。同図に示す例では、時間帯の幅を5分とし、各々の時間帯の開始時刻をその時間帯の代表日時として表している。
トピックは、抽出部11によって分類され抽出されたトピックを表すラベルである。
発言種別は、前述の、発言内容を分類して得られた種別である。例えば、ある特定のトピックにおける発言種別は、「肯定」と「否定」の2種類である。
件数は、時間帯(日時)とトピックと発言種別に対応する発言データの件数を表す数値データである。
The time zone (date and time) is date and time data representing a time zone having a predetermined length (width). The width of the time zone is appropriately determined according to the nature of the data to be analyzed, the nature of the topic of speech, and the like. In normal cases, the width of the time zone is about 1 minute to about 1 day. In the example shown in the figure, the width of the time zone is 5 minutes, and the start time of each time zone is represented as the representative date and time of the time zone.
The topic is a label representing the topic classified and extracted by the extraction unit 11.
The utterance type is a type obtained by classifying the utterance contents as described above. For example, there are two types of speech in a specific topic: “affirmation” and “denial”.
The number of cases is numerical data representing the number of pieces of speech data corresponding to the time zone (date and time), the topic, and the speech type.

図示するデータ例では、時間帯の幅が5分である。そして、データ例の第1行目と第2行目は、「2014年2月8日8時10分」から同日の「8時15分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時10分」というデータが格納されている。また、第3行目と第4行目は、「2014年2月8日8時15分」から同日の「8時20分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時15分」というデータが格納されている。本データのすべてのデータにおいて、トピックは「○○税率アップ」である。つまり、この時系列データは、発言データの中から抽出された、「○○税」という税の税率アップに関する発言の件数の時系列を表すものである。そして、第1行および第3行の発言種別は「否定」であり、第2行および第3行の発言種別は「肯定」である。また、件数の欄には、各時間帯における、発言種別ごとの発言件数がそれぞれ格納されている。
なお、この時系列データは、系列データ生成部12によって生成される。
In the illustrated data example, the width of the time zone is 5 minutes. The first and second lines of the data example are data related to the time zone from “8:10 on February 8, 2014” to “8:15” on the same day. As representative, data “February 8, 2014 8:10” is stored in the time zone (date and time) column. The third and fourth lines are data relating to the time zone from “8:15 on February 8, 2014” to “8:20” on the same day. In the time zone (date and time) column, data “February 8, 2014, 8:15” is stored. In all the data of this data, the topic is “XX tax rate increase”. That is, this time series data represents the time series of the number of utterances related to the tax rate increase of “XX tax” extracted from the utterance data. The message types in the first and third lines are “No”, and the message types in the second and third lines are “Yes”. Further, the number of utterances for each utterance type in each time zone is stored in the number of cases column.
The time series data is generated by the series data generation unit 12.

次に、処理の手順について説明する。
図5は、イベント検出装置の動作手順を示すフローチャートである。以下、このフローチャートに沿って、イベント検出装置1の動作を説明する。
まずステップS101において、発言データ取得部10は、外部から発言データを取得する。この発言データは、図3に示したものである。
Next, the processing procedure will be described.
FIG. 5 is a flowchart showing an operation procedure of the event detection apparatus. Hereinafter, the operation of the event detection apparatus 1 will be described with reference to this flowchart.
First, in step S101, the speech data acquisition unit 10 acquires speech data from the outside. This message data is shown in FIG.

次にステップS102において、抽出部11は、発言データの中から、特定トピックの発言だけを抽出する。また、抽出部11は、抽出したトピックの発言データを、発言種別ごとに分類する。抽出部11は、分類、抽出した結果に基づいて、発言データの中のトピックの項目、および発言種別の項目に、データを書き込む。なお、このように分類された結果として、特定のトピック且つ特定の発言種別のみを抽出した状態のデータを純粋状態発言データと呼ぶ。   Next, in step S102, the extraction unit 11 extracts only the utterances of the specific topic from the utterance data. Further, the extraction unit 11 classifies the extracted topic message data for each message type. The extraction unit 11 writes data to the topic item and the comment type item in the comment data based on the classification and extraction results. As a result of such classification, data in a state where only a specific topic and a specific message type are extracted is referred to as pure state message data.

なお、特定のトピックの発言のみを抽出するためには、自然言語処理技術を利用した自動分類の技術を利用することができる。この技術自体は、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存の技術であって、キーワードの設定による抽出と、ルール(複数の条件の組み合わせ等)による抽出とを併用するものである。また、テレビ等の特定の放送番組に関する発言のみを抽出するためには、その放送番組に関するキーワードを用いて、上記の自動分類技術を利用する。
また、特定の発言種別のみを抽出するためには、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存技術である評判分析技術を用いることができる。評判分析技術は、例えば、発言内に出現する語の頻度を表す多次元ベクトルを、そのベクトル空間内で分類する。また、評判分析技術は、必要に応じて、教師データを用いた機械学習の手法により、そのベクトル空間内での分類の仕方を学習する。
In order to extract only the utterances of a specific topic, an automatic classification technique using a natural language processing technique can be used. This technology itself is an existing technology as described in the literature [Michael W. Berry, Survey of Text Mining, 2004 edition, Springer]. It is extracted by keyword setting and rules (combination of multiple conditions, etc.) ) In combination with extraction. In addition, in order to extract only utterances related to a specific broadcast program such as a television, the above automatic classification technique is used using keywords related to the broadcast program.
In addition, in order to extract only a specific utterance type, as in the literature [Michael W. Berry, Survey of Text Mining, 2004 edition, Springer], it is possible to use the reputation analysis technology that is an existing technology. The reputation analysis technique classifies, for example, a multidimensional vector representing the frequency of words appearing in a statement in the vector space. In addition, the reputation analysis technique learns how to classify in the vector space by a machine learning technique using teacher data as necessary.

次にステップS103において、系列データ生成部12は、分類済みの発言データを元に、時系列データを生成する。系列データ生成部12が生成する時系列データの例は、図4に示した通りである。具体的には、系列データ生成部12は、抽出部11によって抽出された発言データの件数を時間帯ごと、トピックごと、発言種別ごとにカウントすることにより、この時系列データを生成する。   In step S103, the series data generation unit 12 generates time series data based on the classified message data. An example of the time series data generated by the series data generation unit 12 is as shown in FIG. Specifically, the series data generation unit 12 generates the time series data by counting the number of message data extracted by the extraction unit 11 for each time zone, each topic, and each message type.

次にステップS104において、自己回帰モデル適用部13は、系列データ生成部12によって生成された時系列データに、自己回帰モデルを適用する。これにより、自己回帰モデル適用部13は、残差の値の時系列(ε,ε,・・・)のデータを算出する。ここでは、自己回帰モデル適用部13が、ARモデル(autoregressive model,自己回帰モデル)を適用する場合と、ARMAモデル(autoregressive moving average model,自己回帰移動平均モデル)を適用する場合の、2通りの例を説明する。 Next, in step S <b> 104, the autoregressive model application unit 13 applies the autoregressive model to the time series data generated by the series data generation unit 12. As a result, the autoregressive model application unit 13 calculates data of time series (ε 1 , ε 2 ,...) Of residual values. Here, when the autoregressive model application unit 13 applies an AR model (autoregressive model, autoregressive model) and when an ARMA model (autoregressive moving average model) is applied, there are two ways An example will be described.

(1)ARモデルを適用する場合
次数p(pは自然数)の自己回帰モデルは、下の式(1)で表される。
(1) When AR model is applied An autoregressive model of order p (p is a natural number) is expressed by the following equation (1).

Figure 0006395287
Figure 0006395287

式(1)において、φ,・・・,φは、モデルのパラメーターである。また、cは定数項である。εは、残差(誤差)項である。つまり、式(1)に示すモデルでは、離散時刻tにおける時系列データの値Xは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和に定数項と残差項を加えたものである。 In the equation (1), φ 1 ,..., Φ p are model parameters. C is a constant term. ε t is a residual (error) term. That is, in the model shown in equation (1), the value X t of the time series data at discrete time t, p number of values X t-1 immediately before the same series, ..., weighted for X t-p The sum is a constant term and a residual term.

自己回帰モデル適用部13は、式(1)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε,ε,・・・と、定数項cと、パラメーターφ,・・・,φの値を得る。 The autoregressive model application unit 13 analyzes the time series data supplied from the series data generation unit 12 according to the model shown in Expression (1). The process itself of analyzing the series by applying the autoregressive model is based on the existing technology. Specifically, the autoregressive model application unit 13 obtains a solution of simultaneous multiple equations based on the supplied time series data or performs maximum likelihood estimation of the solution, and as a result, a sequence of residual terms ε 1 , epsilon 2, obtained and ..., and the constant term c, parameter phi 1, ..., the value of phi p.

(2)ARMAモデルを適用する場合
次数pの自己回帰と、次数qの移動平均を組み合わせたモデルは、下の式(2)で表される(p,qは、自然数)。
(2) When applying the ARMA model A model combining the autoregression of the order p and the moving average of the order q is expressed by the following formula (2) (p and q are natural numbers).

Figure 0006395287
Figure 0006395287

式(2)において、φ,・・・,φ、および、θ,・・・,θは、モデルのパラメーターである。εは、残差(誤差)項である。つまり、式(2)に示すモデルでは、離散時刻tにおける時系列データの値Xは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和と、同系列における直前のq個の残差項εt−1,・・・,εt−qの重み付の和と、当該時刻tにおける残差項の値を加えたものである。 In equation (2), φ 1 ,..., Φ p and θ 1 ,..., Θ q are model parameters. ε t is a residual (error) term. That is, in the model shown in equation (2), the value X t of the time series data at discrete time t, p number of values X t-1 immediately before the same series, ..., weighted for X t-p The sum, the weighted sum of q immediately preceding residual terms ε t−1 ,..., Ε t-q in the same series, and the value of the residual term at the time t are added.

自己回帰モデル適用部13は、式(2)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰移動平均モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε,ε,・・・と、パラメーターφ,・・・,φ,およびθ,・・・,θの値を得る。 The autoregressive model application unit 13 analyzes the time series data supplied from the series data generation unit 12 according to the model shown in Expression (2). The process itself of analyzing the series by applying the autoregressive moving average model is based on the existing technology. Specifically, the autoregressive model application unit 13 obtains a solution of simultaneous multiple equations based on the supplied time series data or performs maximum likelihood estimation of the solution, and as a result, a sequence of residual terms ε 1 , ε 2 ,..., parameters φ 1 ,..., φ p , and θ 1 ,.

自己回帰モデル適用部13は、残差の値の時系列(ε,ε,・・・)のデータを算出すると、既に述べた。ARモデルにおいても、ARMAモデルにおいても、残差ε(t=1,2,・・・)は、平均値0の正規分布に従う。つまり、閾値ethを適切に設定することにより、εの絶対値である|ε|がその閾値ethを超える可能性は小さくなる。つまり、|ε|がその閾値ethを超えるような時間帯は、イベント発生時間帯の候補とみなすことができる。 As described above, the autoregressive model application unit 13 calculates time series data (ε 1 , ε 2 ,...) Of residual values. In both the AR model and the ARMA model, the residual ε t (t = 1, 2,...) Follows a normal distribution with an average value of 0. In other words, by appropriately setting the threshold value e th, the absolute value of ε t | ε t | it is the smaller can exceed the threshold e th. That is, a time zone in which | ε t | exceeds the threshold value e th can be regarded as a candidate event occurrence time zone.

次にステップS105において、イベント検出部14は、自己回帰モデル適用部13から供給される残差の値の時系列データに基づき、残差の絶対値|ε|が閾値ethを超えるような時間帯を、すべて検出する。言い換えれば、イベント検出部14は、|ε|>eth となるようなtをすべて求める。そのような時間帯を、便宜上、イベント候補と呼ぶ。
より具体的には、残差時系列データ取得部141が残差の値の時系列データを自己回帰モデル適用部13から取り込む。そして、イベント候補時刻検出部142がイベント候補の時間帯をすべて検出する。
In step S105, the event detection unit 14 determines that the absolute value | ε t | of the residual exceeds the threshold e th based on the time series data of the residual value supplied from the autoregressive model application unit 13. All time zones are detected. In other words, the event detection unit 14 obtains all t that satisfy | ε t |> e th . Such a time zone is referred to as an event candidate for convenience.
More specifically, the residual time series data acquisition unit 141 takes in time series data of residual values from the autoregressive model application unit 13. Then, the event candidate time detection unit 142 detects all event candidate time zones.

次にステップS106において、イベント検出部14(具体的には、継続時間判定部143)は、ステップS105において検出されたイベント候補のうち、閾値超えが所定時間継続しなかったものが存在するか否かを判断する。本実施形態では、イベント検出部14は、連続した閾値超えの系列数が所定値未満のものが存在するか否かにより、この判断を行う。
例えば、時間帯の幅が5分の場合であって、20分間以上のイベント候補(閾値超え)が継続する場合に、そのイベント候補をイベントと認定する場合を考える。このとき、時系列のイベント候補が4個以上継続する場合にはイベントであると認定し、時系列のイベント候補が3個以下しか継続しない場合には、そのイベント候補は、イベントではなく、「所定時間継続しない箇所」であると認定する。
そして、閾値超えが所定時間継続しない箇所がある場合(ステップS106:YES)には、ステップS107に進む。一方、閾値超えが所定時間継続しない箇所がない場合(ステップS106:NO)には、ステップS108に進む。
Next, in step S106, the event detection unit 14 (specifically, the duration determination unit 143) determines whether there is an event candidate detected in step S105 that has not exceeded the threshold for a predetermined time. Determine whether. In the present embodiment, the event detection unit 14 makes this determination based on whether there is a sequence whose number of consecutive sequences exceeding the threshold value is less than a predetermined value.
For example, let us consider a case where the event candidate is recognized as an event when the time zone width is 5 minutes and the event candidate (exceeding the threshold) for 20 minutes or more continues. At this time, if four or more time-series event candidates continue, it is recognized as an event. If only three or less time-series event candidates continue, the event candidate is not an event, but “ It is recognized that it is “a part that does not continue for a predetermined time”.
If there is a portion where exceeding the threshold does not continue for a predetermined time (step S106: YES), the process proceeds to step S107. On the other hand, when there is no portion where the threshold value is not exceeded for a predetermined time (step S106: NO), the process proceeds to step S108.

次にステップS107に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、除去処理部144)は、継続時間の短いイベント候補に対応して、残差を除去するためのデータ処理を行う。この処理は、継続時間の短いイベント候補が減る方向に作用する。言い換えれば、この処理によって、イベント検出部14は、閾値超えが所定時間継続しない箇所について、閾値超えの度合いが小さくなる方向でデータの除去(更新)を行う。なお、本ステップの処理の詳細については、後で、別のフローチャート(図6)を参照しながら説明する。本ステップの処理を終えた後、再びステップS104の処理に進む。これにより、本ステップで除去(更新)した後の時系列データに関して、再度、自己回帰モデルの適用を行うこととなる。   Next, when the process proceeds to step S107, in the same step, the event detection unit 14 (specifically, the removal processing unit 144) performs data processing for removing a residual corresponding to an event candidate having a short duration. I do. This process acts in a direction that the number of event candidates with a short duration decreases. In other words, by this process, the event detection unit 14 performs data removal (updating) in a direction in which the degree of exceeding the threshold value becomes smaller at a portion where the exceeding of the threshold value does not continue for a predetermined time. Details of the processing in this step will be described later with reference to another flowchart (FIG. 6). After finishing the process of this step, it progresses to the process of step S104 again. As a result, the autoregressive model is again applied to the time-series data after being removed (updated) in this step.

ステップS106からステップS108に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、検出結果出力部145)は、検出されたイベントの時刻情報を、イベントリスト出力部15に対して出力する。本ステップに制御が移ってくる前提条件は、ステップS106において、閾値超えが所定時間継続しない箇所がないと判断されることである。言い換えれば、本ステップに制御が移ってくる時点では、閾値超えをしている箇所(時間帯)は、すべて、イベントであると認定される個所である。つまり、イベント検出部14は、閾値超えをしている箇所の時刻(時間帯を代表する時刻)とその時刻に対応付けられた時系列データとのペアのリストを、イベントリスト出力部15に対して渡す。そして、イベントリスト出力部15は、それらの時刻のデータと、それらの時刻に関連付けられた時系列データ(発言数のカウント)とを、外部に出力する。そして、本ステップの処理が終了すると、イベント検出装置1は、このフローチャート全体の処理を終了する。   When the process proceeds from step S106 to step S108, in the same step, the event detection unit 14 (specifically, the detection result output unit 145) outputs the time information of the detected event to the event list output unit 15. To do. The precondition that the control shifts to this step is that, in step S106, it is determined that there is no portion where exceeding the threshold does not continue for a predetermined time. In other words, at the point of time when control is transferred to this step, all points where the threshold value is exceeded (time zones) are all parts that are recognized as events. In other words, the event detection unit 14 provides a list of pairs of the time of the place where the threshold is exceeded (time representative of the time zone) and the time-series data associated with the time to the event list output unit 15. Pass. Then, the event list output unit 15 outputs the data of those times and the time-series data (count of utterances) associated with those times to the outside. Then, when the process of this step is completed, the event detection apparatus 1 ends the process of the entire flowchart.

図6は、除去処理部144による詳細な処理の手順を示すフローチャートである。同図に示す処理は、図5に示した処理手順の中のステップS107の部分の処理である。以下、このフローチャートに沿って、継続時間の短いイベントを除去する処理を説明する。   FIG. 6 is a flowchart showing a detailed processing procedure by the removal processing unit 144. The process shown in the figure is the process of step S107 in the process procedure shown in FIG. Hereinafter, the process for removing an event having a short duration will be described with reference to this flowchart.

まずステップS201において、イベント検出部14内の除去処理部144は、継続時間の短いイベント候補のリストのデータを取得する。このデータは、継続時間判定部143によって供給されるものであり、既に述べたとおり、残差の絶対値が閾値ethを超えている時間帯であって、且つそのような閾値超えの継続している時間が所定時間未満であるような時間帯のリストである。具体的には、除去処理部144は、本ステップにおいて、該当する時間帯を代表する時刻と、当該時間帯における発言数の値とのペアのリストを取得する。 First, in step S201, the removal processing unit 144 in the event detection unit 14 acquires data of a list of event candidates with a short duration. This data is intended to be supplied by the continuation time determination unit 143, as already mentioned, a time period during which the absolute value of the residual exceeds the threshold value e th, and continued for more than such a threshold It is a list of time zones in which the running time is less than a predetermined time. Specifically, in this step, the removal processing unit 144 acquires a list of pairs of the time representing the corresponding time zone and the value of the number of utterances in the time zone.

次にステップS202において、除去処理部144は、取得したデータ内に含まれる各々のイベント候補について、発言データ1件ごとの寄与度を求める。ここで、式(1)や式(2)で表されるモデルと実測値(ツイート数)の2乗誤差の総和に寄与する度合いを寄与度という。つまり寄与度とは、除去すべき残差(イベントとは認定されない短時間の残差)を有する各時間帯について、その時間帯における発言を1件減少させたときに、時系列データ全体として、2乗誤差の総量が小さくなる度合である。除去処理部144が対象としている各時間帯の残差への寄与度を求めるためには、実際に発言件数を上記のように減少させてから、再度、自己回帰モデル適用部13に自己回帰モデルの適用の処理を行ってみて、除去すべき残差の絶対値の総量がどれだけ減るかを算出する。そして、寄与度の最も大きい発言データを選出する。
なお、上述した処理において、2乗誤差の総和とは、対象としているすべての時間帯(閾値超えしているがイベントではない時間帯)についての総和である。
Next, in step S202, the removal processing unit 144 obtains a contribution degree for each piece of utterance data for each event candidate included in the acquired data. Here, the degree of contribution to the sum of the square errors of the model represented by Expression (1) or Expression (2) and the actual measurement value (the number of tweets) is referred to as contribution. In other words, for each time zone that has a residual to be removed (a short time residual that is not recognized as an event), the contribution is the time series data as a whole when the number of statements in that time zone is reduced by one. This is the degree to which the total amount of square error is reduced. In order to obtain the degree of contribution to the residual of each time zone targeted by the removal processing unit 144, after actually reducing the number of utterances as described above, the autoregressive model applying unit 13 again receives the autoregressive model. Is calculated, how much the total absolute value of residuals to be removed is reduced. Then, the utterance data having the largest contribution is selected.
In the above-described processing, the sum of squared errors is the sum of all target time zones (time zones that exceed the threshold but are not events).

次にステップS203において、除去処理部144は、は、寄与度が最も大きい発言データ(ステップS202で選出した通り)について、1件減少させる。イベントとは認定されない時間帯の発言において、イベントとみなされる量(2乗誤差の総和)に寄与する度合いが大きい発言を除去するために、この処理がなされる。   Next, in step S203, the removal processing unit 144 reduces the utterance data having the largest contribution (as selected in step S202) by one. This processing is performed in order to remove an utterance having a large degree of contribution to an amount regarded as an event (total sum of square errors) in an utterance that is not recognized as an event.

以上、図5および図6を参照しながら説明したように、本実施形態によるイベント検出装置1は、予めトピックと発言種別を分類し、純粋状態の発言データとしてから、ARモデルまたはARMAモデルを適用する。また、イベント検出装置1は、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超える時間帯をイベント候補として認定する。また、イベント検出装置1は、認定されたイベント候補の継続時間が長いか短いかに応じて、それが検出すべき真のイベントであるか、除去すべきノイズであるかを判別する。また、イベント検出装置1は、除去すべきノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。   As described above with reference to FIGS. 5 and 6, the event detection apparatus 1 according to the present embodiment classifies topics and utterance types in advance, and applies the AR model or the ARMA model as pure utterance data. To do. Further, the event detection apparatus 1 recognizes, as an event candidate, a time zone in which the residual (absolute value) when the AR model or the ARMA model is applied exceeds a predetermined threshold. Further, the event detection apparatus 1 determines whether it is a true event to be detected or noise to be removed depending on whether the duration time of the authorized event candidate is long or short. Moreover, the event detection apparatus 1 removes the noise for the time zone of the event candidate recognized as the noise to be removed.

本実施形態では、予めトピックと発言種別を分類し、特定のトピック且つ発言種別のデータ(純粋状態発言データ)のみを抽出してから時系列の発言数のデータを生成することにより、複数のモデルが複合した状態の時系列データではなく、単一のモデルの状態の時系列データを得ることができる。そのような、単一のモデルによる時系列データ、つまり良好な性質の時系列データに、ARモデルやARMAモデルを適用するため、モデル化の誤差を減らすことが可能となる。つまり、モデルが想定する理想的な状態に近い時系列データを処理対象としてイベント検出することができる。仮に、2つのトピックが同時に進行している状況で、それらのトピックを分離せずに単一のモデルを適用した場合には、そのことによる誤差が生じてしまう。   In this embodiment, topics and utterance types are classified in advance, and only a specific topic and utterance type data (pure state utterance data) is extracted, and then a plurality of models are generated by generating time-series utterance number data. It is possible to obtain time-series data of the state of a single model, not time-series data of a state of complex. Since the AR model or the ARMA model is applied to such time-series data based on a single model, that is, time-series data having a good property, modeling errors can be reduced. That is, it is possible to detect an event using time series data close to an ideal state assumed by the model as a processing target. If two topics are progressing simultaneously and a single model is applied without separating the topics, an error will occur.

また、本実施形態では、トピックの分類と同様に、発言種別(ある事象等に対して、肯定的か、否定的か。また、支持するか、不支持か、など。)を分類し、発言データを発言種別で分離してから発言件数の時系列のデータを生成するため、上記のトピックの分類と同様に、より精度の高い分析およびより精度の高いイベント検出をすることが可能となる。   Further, in the present embodiment, similar to the topic classification, the utterance type (positive or negative for a certain event or the like, whether it is supported or not supported, etc.) is classified and the utterance is classified. Since the time-series data of the number of utterances is generated after the data is separated by the utterance type, it is possible to perform more accurate analysis and more accurate event detection in the same manner as the above-described topic classification.

従来技術では、上記のモデル化の誤差が大きいことなどの理由により、ARモデルやARMAモデルが適用されていなかった。本実施形態では、上記のように、特定のトピック且つ発言種別のデータのみを抽出してから時系列の発言数のデータを生成するため、ARモデルやARMAモデルを良好に適用することが可能となる。   In the prior art, the AR model or the ARMA model has not been applied because of the large modeling error. In the present embodiment, as described above, since only the data of the specific topic and the message type is extracted and then the data of the number of messages in the time series is generated, it is possible to satisfactorily apply the AR model or the ARMA model. Become.

また、本実施形態では、ARモデルやARMAモデルを適用するため、単純にあらかじめ定められた閾値を超えるタイミングをイベントとして認定するのではなく、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超えるタイミング(時間帯)をイベント候補として認定している。これにより、より精度の良いイベント検出を行うことが可能となる。   Further, in this embodiment, since the AR model or the ARMA model is applied, the residual (when the AR model or the ARMA model is applied) is not simply recognized as an event when the timing exceeds a predetermined threshold. Timing (time period) when the absolute value) exceeds a predetermined threshold is recognized as an event candidate. This makes it possible to perform more accurate event detection.

また、本実施形態では、残差(の絶対値)が所定の閾値を超えている時間帯(イベント候補)の継続時間が長いか短いかに応じて、真のイベントであるか、ノイズとみなすべき異常値であるかを判別する。言い換えれば、残差がバーストとなっている時間帯、即ち持続時間の長いイベント候補の時間帯がイベントと認定される。また逆に、バーストではない残差、即ち持続時間の短いイベント候補の時間帯はノイズとして認定される。これにより、一時的な異常なノイズをイベントとして検出してしまうことを防ぐことができる。   Further, in the present embodiment, it should be regarded as a true event or noise depending on whether the duration of the time zone (event candidate) whose residual (absolute value) exceeds a predetermined threshold is long or short. Determine whether it is an abnormal value. In other words, a time zone in which the residual is a burst, that is, a time zone of an event candidate with a long duration is recognized as an event. Conversely, a residual that is not a burst, that is, a time zone of a short event candidate is recognized as noise. Thereby, it is possible to prevent temporary abnormal noise from being detected as an event.

また、本実施形態では、ノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。具体的には、ノイズへの寄与度が大きい順に、発言を除去した場合と同等のデータ処理を行い、ノイズ(継続時間の短いイベント候補)がなくなるまで、そのような除去を繰り返す。これにより、モデルによく合致する結果を得ることができる。   In the present embodiment, the noise is removed from the time zone of the event candidate recognized as noise. Specifically, data processing equivalent to the case where the utterance is removed is performed in descending order of contribution to noise, and such removal is repeated until there is no noise (event candidate with a short duration). As a result, a result that closely matches the model can be obtained.

以上、述べたように、本実施形態では、時系列モデルのパラメーターの推定精度が向上するために、モデルで説明可能な部分の残差(モデルと、実際の時系列データとのずれ)が減少する効果を得ることが期待される。この推定精度の向上によって残差が減少する量が時間帯に依らずに一定であるとすると、残差のピークがより明確に表れることとなる。また、この推定精度の向上によって残差が減少する量が厳密に一定とは言えない場合にも、乗算性ノイズ以外の残差が減少すれば、残差のピーク(乗算性ノイズのピーク)がより明確に表れることとなる。その結果、自己相関では説明できない部分の検出精度が向上するという効果が得られる。これにより、精度よく発言についてのイベントが検出される。つまり、そのようなイベントに対応した、社会情勢の変化や、事件・事故等を検出するためにイベント検出装置1を用いることができ、しかもその検出精度を向上させることができる。   As described above, in this embodiment, since the estimation accuracy of the parameters of the time series model is improved, the residual of the part that can be explained by the model (the difference between the model and the actual time series data) is reduced. It is expected to obtain the effect. If the amount by which the residual decreases due to this improvement in estimation accuracy is constant regardless of the time zone, the residual peak will appear more clearly. Also, even if the amount by which the residual decreases due to this improvement in estimation accuracy is not strictly constant, if the residual other than multiplicative noise decreases, the residual peak (multiplicity noise peak) It will appear more clearly. As a result, there is an effect that the detection accuracy of a portion that cannot be explained by autocorrelation is improved. Thereby, the event about a speech is detected accurately. In other words, the event detection device 1 can be used to detect changes in social situations, incidents / accidents, etc. corresponding to such events, and the detection accuracy can be improved.

なお、上述した実施形態におけるイベント検出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   Note that the function of the event detection apparatus in the above-described embodiment may be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。   Although the embodiment has been described above, the present invention can also be implemented in the following modified example.

(変形例1) 例えば、上記の実施形態では、残差が正・負両方の場合について、残差の絶対値が閾値を超えたとき(|ε| > eth)に、イベント候補として検出するようにしたが、これを変えて、残差が正で、且つその残差が閾値を超えたとき(ε > eth)のみに、イベント候補として検出するようにしても良い。この変形例を実施した場合には、イベント検出装置1は、残差が正であるような時間帯のイベントのみを検出し、残差が負であるような時間帯のイベントを検出しないようになる。目的に応じて、そのような検出のしかたが望まれる場合には、この変形例が好ましい。 (Modification 1) For example, in the above embodiment, when the residual is both positive and negative, it is detected as an event candidate when the absolute value of the residual exceeds a threshold (| ε t |> e th ). However, this may be changed so that the event candidate is detected only when the residual is positive and the residual exceeds a threshold (ε t > e th ). When this modification is implemented, the event detection apparatus 1 detects only events in a time zone in which the residual is positive, and does not detect events in a time zone in which the residual is negative. Become. This modification is preferable when such a detection method is desired depending on the purpose.

(変形例2) 上記の実施形態では、イベント検出装置1は、図1に示した構成を有していた。この変形例2では、イベント検出装置は、図1に示した構成のうち、発言データ取得部10と、抽出部11と、系列データ生成部12とを含まない。そして、イベント検出装置は、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含む。この場合、系列データの生成までは、外部の別の装置で行い、生成された系列データを自己回帰モデル適用部13が読み込んで、処理を行う。 (Modification 2) In the above embodiment, the event detection device 1 has the configuration shown in FIG. In the second modification, the event detection device does not include the utterance data acquisition unit 10, the extraction unit 11, and the sequence data generation unit 12 in the configuration illustrated in FIG. The event detection apparatus includes an autoregressive model application unit 13, an event detection unit 14, and an event list output unit 15. In this case, series data is generated by another external device, and the generated series data is read by the autoregressive model application unit 13 and processed.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲において、異なる設計としても良い。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and different designs may be used without departing from the gist of the present invention.

本発明は、社会の分析等に利用することができる。本発明は、例えば、社会情勢の変化や、突発的な事故・事件や、インターネットを媒介とした特定の情報の急激な広まりなどを、検出するために利用することができる。放送事業では、番組制作の企画に利用したり、報道取材のきっかけとして利用したりすることができる。政府等の公共機関にとっては、社会政策の企画・立案に利用することができる。   The present invention can be used for social analysis and the like. The present invention can be used to detect, for example, changes in social situations, sudden accidents / incidents, and rapid spread of specific information via the Internet. In the broadcasting business, it can be used for program production planning or as an opportunity for news reporting. For public institutions such as the government, it can be used for social policy planning.

1 イベント検出装置
10 発言データ取得部
11 抽出部
12 系列データ生成部
13 自己回帰モデル適用部
14 イベント検出部
15 イベントリスト出力部
141 残差時系列データ取得部
142 イベント候補時刻検出部
143 継続時間判定部
144 除去処理部
145 検出結果出力部
DESCRIPTION OF SYMBOLS 1 Event detection apparatus 10 Statement data acquisition part 11 Extraction part 12 Sequence data generation part 13 Autoregressive model application part 14 Event detection part 15 Event list output part 141 Residual time series data acquisition part 142 Event candidate time detection part 143 Duration determination Unit 144 removal processing unit 145 detection result output unit

Claims (4)

発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、
前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、
を具備すイベント検出装置であって、
前記イベント検出部は、
検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、
前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、
を具備することを特徴とすイベント検出装置。
Autoregressive model application that obtains time series data of the number of remarks, applies autoregressive model or autoregressive moving average model to the acquired time series data, and outputs residual time series data obtained as a result of application And
Detect each residual constituting the time series data of the residual output by the autoregressive model application unit or a place where the absolute value of the residual is larger than a predetermined threshold as an event candidate in the time series data An event detector to perform,
A event detection device you equipped with,
The event detection unit
Among the detected event candidates, a portion where the predetermined number of event candidates continue in the time series data of the residual is detected as an event, and the event candidates are less than the predetermined number in the time series data of the residual A duration determination unit for detecting non-continuous portions as noise,
For the portion detected as the noise by the duration determination unit, a removal processing unit that adjusts the time-series data of the number of utterances so that the absolute value of the residual of the noise portion is small,
Event detection device characterized by comprising a.
前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、
ことを特徴とする請求項に記載のイベント検出装置。
The removal processing unit obtains the degree of contribution to the total amount of noise in the residual time-series data for each location, and gives priority to the location where the degree of contribution is large, the time-series data of the number of messages. adjust,
The event detection apparatus according to claim 1 , wherein:
発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、
前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、
をさらに具備し、
前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、
ことを特徴とする請求項1または請求項2に記載のイベント検出装置。
Remarks data including remark contents and time information is acquired, and from the acquired remark data, only the remark data having the remark contents corresponding to a specific topic or corresponding to a specific topic and corresponding to a specific remark type An extractor that extracts only said utterance data and outputs pure state utterance data;
Obtaining the pure state utterance data output by the extraction unit, and a sequence data generation unit for generating time series data of the number of utterances representing the number of the pure state utterance data for each time interval;
Further comprising
The autoregressive model application unit acquires the time series data of the number of messages generated by the series data generation unit, and applies an autoregressive model or an autoregressive moving average model.
The event detection apparatus according to claim 1 or 2 , wherein
コンピューターを、
請求項1から3までのいずれか一項に記載のイベント検出装置
として機能させるためのプログラム。
Computer
The event detection device according to any one of claims 1 to 3 ,
Program to function as.
JP2014114408A 2014-06-02 2014-06-02 Event detection apparatus and program Active JP6395287B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014114408A JP6395287B2 (en) 2014-06-02 2014-06-02 Event detection apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014114408A JP6395287B2 (en) 2014-06-02 2014-06-02 Event detection apparatus and program

Publications (2)

Publication Number Publication Date
JP2015228189A JP2015228189A (en) 2015-12-17
JP6395287B2 true JP6395287B2 (en) 2018-09-26

Family

ID=54885606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014114408A Active JP6395287B2 (en) 2014-06-02 2014-06-02 Event detection apparatus and program

Country Status (1)

Country Link
JP (1) JP6395287B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7393244B2 (en) * 2020-02-25 2023-12-06 株式会社日立製作所 Time series data prediction device and time series data prediction method
CN112924619B (en) * 2021-01-15 2022-06-03 深圳市环思科技有限公司 Method, system, terminal and storage medium for extracting environmental air pollution features

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805266B1 (en) * 2001-07-17 2010-09-28 At&T Corp. Method for automated detection of data glitches in large data sets
JP5679194B2 (en) * 2011-05-18 2015-03-04 ソニー株式会社 Information processing apparatus, information processing method, and program
JP2013140135A (en) * 2011-12-09 2013-07-18 Tokyo Electron Ltd Abnormality detection apparatus for periodic driving system, processing apparatus including periodic driving system, abnormality detection method for periodic driving system, and computer program

Also Published As

Publication number Publication date
JP2015228189A (en) 2015-12-17

Similar Documents

Publication Publication Date Title
Rauh Validating a sentiment dictionary for German political language—a workbench note
US9923931B1 (en) Systems and methods for identifying violation conditions from electronic communications
US10691770B2 (en) Real-time classification of evolving dictionaries
US8577155B2 (en) System and method for duplicate text recognition
CN108733816B (en) Microblog emergency detection method
US20210026910A1 (en) Expert Detection in Social Networks
US10666792B1 (en) Apparatus and method for detecting new calls from a known robocaller and identifying relationships among telephone calls
US20130159277A1 (en) Target based indexing of micro-blog content
CN106504744A (en) A kind of method of speech processing and device
JP5472640B2 (en) Text mining device, text mining method, and program
US11755841B2 (en) Method for updating a knowledge base of a sentiment analysis system
JP6719399B2 (en) Analysis device, analysis method, and program
CN106991090B (en) Public opinion event entity analysis method and device
US20150254327A1 (en) System and method for rectifying a typographical error in a text file
WO2017075912A1 (en) News events extracting method and system
CN107545505B (en) Method and system for identifying insurance financing product information
JP2007241902A (en) Text data splitting system and method for splitting and hierarchizing text data
Hernandez et al. Constructing consumer profiles from social media data
JP6395287B2 (en) Event detection apparatus and program
Mayfield et al. Analyzing wikipedia deletion debates with a group decision-making forecast model
JP5472641B2 (en) Text mining device, text mining method, and program
Hu et al. Quotatives indicate decline in objectivity in us political news
CN109213974B (en) Electronic document conversion method and device
CN110941703A (en) Integrated resume information extraction method based on machine learning and fuzzy rules
Rytsarev et al. Application of the principal component analysis to detect semantic differences during the content analysis of social networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180827

R150 Certificate of patent or registration of utility model

Ref document number: 6395287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250