JP2015228189A - イベント検出装置およびプログラム - Google Patents

イベント検出装置およびプログラム Download PDF

Info

Publication number
JP2015228189A
JP2015228189A JP2014114408A JP2014114408A JP2015228189A JP 2015228189 A JP2015228189 A JP 2015228189A JP 2014114408 A JP2014114408 A JP 2014114408A JP 2014114408 A JP2014114408 A JP 2014114408A JP 2015228189 A JP2015228189 A JP 2015228189A
Authority
JP
Japan
Prior art keywords
series data
data
time
residual
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014114408A
Other languages
English (en)
Other versions
JP6395287B2 (ja
Inventor
小早川 健
Takeshi Kobayakawa
健 小早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014114408A priority Critical patent/JP6395287B2/ja
Publication of JP2015228189A publication Critical patent/JP2015228189A/ja
Application granted granted Critical
Publication of JP6395287B2 publication Critical patent/JP6395287B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】通信ネットワークを用いた投稿等のサービスにおいて、検出の精度の高い、イベント検出装置およびプログラムを提供する。
【解決手段】自己回帰モデル適用部は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。イベント検出部は、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出する。
【選択図】図1

Description

本発明は、系列データからイベントを検出するための、イベント検出装置およびプログラムに関する。
インターネットを利用した投稿サイト(掲示板サイトや、短文投稿サイトなど)では、様々な話題に関する投稿が日々行われている。これらの投稿は、自然言語で記述されたものであるが、このような投稿をもとに、社会情勢の変化や事件・事故などを検出する試みは数多くなされている。
そのような状況で、求められる技術の一つは、インターネットを経由した投稿等の書き込み数の異常値を検出することである。従来の技術による方法の一つは、書き込み数が予め定められた閾値を超える場合を検出する方法である。また、別の方法の一つは、自己相関行列の固有値によるモデルを利用する方法である。
特許文献1の図13Cおよび段落[0116]には、相互部分空間法について記載されている。この手法では、過去に遡る観測データ(時系列データ)を基に自己相関行列の固有値問題を解き、部分空間同士が成す角度(θ)の余弦(cos θ)を類似度として、観測データの異常値を検知している。
特開2013−041448号公報
しかしながら、従来技術による異常値検出の方法では、十分な検出精度が得られないという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、異常値検出の精度の高い、イベント検出装置およびプログラムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様によるイベント検出装置は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、を具備する。
[2]また、本発明の一態様は、上記のイベント検出装置において、発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、をさらに具備し、前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、ことを特徴とする。
[3]また、本発明の一態様は、上記のイベント検出装置において、前記イベント検出部は、検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、を具備することを特徴とする。
なお、除去処理部により、ノイズが除去される。また、除去処理部が発言件数の時系列データを調整した後に、自己回帰モデル適用部が、再度、自己回帰モデルまたは自己回帰移動平均モデルの適用をするところからの処理を行う。
[4]また、本発明の一態様は、上記のイベント検出装置において、前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、ことを特徴とする。
[5]また、本発明の一態様は、コンピューターを、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、として機能させるためのプログラムである。
本発明によれば、自己相関モデルまたは自己相関移動平均モデルの残差に基づき、精度よくイベントを検出することが可能となる。また、特定のトピックや特定の発言種別のみを抽出して時系列データを生成した場合には、モデルのパラメーターの推定精度が上がるので、更に精度よくイベントを検出できる。
本発明の実施形態によるイベント検出装置の概略機能構成を示すブロック図である。 同実施形態によるイベント検出部のさらに詳細な機能構成を示すブロック図である。 同実施形態による発言データの構成およびデータ例を示す概略図である。 同実施形態による時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。 同実施形態によるイベント検出装置の動作手順を示すフローチャートである。 同実施形態による除去処理部による詳細な処理の手順を示すフローチャートである。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同図において、符号1は、イベント検出装置である。図示するように、イベント検出装置1は、発言データ取得部10と、抽出部11と、系列データ生成部12と、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含んで構成される。
発言データ取得部10は、外部から、発言データを取り込み、所定の形式で一時的に記憶する。発言データを記憶するためには、例えば、リレーショナルデータベースや、XMLデータベース(「XML」はExtensible Markup Language,拡張マークアップ言語の略)などを利用する。ここで、発言データは、インターネットを利用した投稿サービスに投稿された発言のデータである。投稿サービスの一例は、短文投稿サービスである。短文投稿サービスにおいては、ユーザーがクライアント端末装置(PC、タブレット、スマートフォン等)から短文を投稿する。短文の長さには所定の上限(例えば、数百文字程度)がある。投稿された短文は、ユーザーアカウント名や投稿日時(YYYY/MM/DD hh:mm:ss(年月日、時分秒)の形式)といった属性情報と関連付けて、サーバー装置側の記憶手段に蓄積される。サーバーは、蓄積された短文のデータを、ユーザーの所望の形態で表示できるように提供する。このとき、ユーザーは、所定のユーザーアカウント(単数または複数)の投稿のみを時系列に表示させたり、特定のキーワードを含む投稿のみを時系列に表示させたりすることができるようになっている。このような短文投稿サービスの一例は、ツイッター(Twitter)である。1件の短文等の投稿のことを、以下では「発言」と呼ぶ。
抽出部11は、発言内容と時刻情報とを含む発言データを取得し、取得した発言データから、特定のトピックに該当する発言内容を有する発言データのみ、または特定のトピックに該当するとともに特定の発言種別に該当する発言データのみを抽出した、純粋状態発言データを出力する。
系列データ生成部12は、抽出部11によって出力された純粋状態発言データを取得し、時間区間ごとの純粋状態発言データの件数を表す発言件数の時系列データを生成するものである。
自己回帰モデル適用部13は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。
イベント検出部14は、自己回帰モデル適用部13によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、時系列データにおけるイベント候補として検出する。
イベントリスト出力部15は、イベント検出部14によって検出されたイベントのリストを出力する。ここで、イベントのリストとは、少なくともイベントに相当する時間帯を代表する時刻を含むデータのリストである。
図2は、上記のイベント検出部のさらに詳細な機能構成を示すブロック図である。図示するように、イベント検出部14は、残差時系列データ取得部141と、イベント候補時刻検出部142と、継続時間判定部143と、除去処理部144と、検出結果出力部145とを含んで構成される。
残差時系列データ取得部141は、外部(具体的には、自己回帰モデル適用部13)から、残差の時系列のデータを取得する。これは、自己回帰モデル適用部13が適用したモデルにおける残差である。
イベント候補時刻検出部142は、残差時系列データ取得部141が取得した残差時系列データを基に、イベント候補の時刻を検出する。具体的には、イベント候補時刻検出部142は、各時間帯(時刻)について、残差の絶対値が所定の閾値以上の場合に、その時間帯をイベント候補として検出する。
継続時間判定部143は、検出したイベント候補のうち、残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する。
除去処理部144は、前記継続時間判定部143によってノイズとして検出された箇所について、ノイズの箇所の残差の絶対値が小さくなるように発言件数の時系列データを調整する。発言件数の時系列データを調整するということは、正の残差の場合には発言件数を1件減らすことであり、負の残差の場合は、発言件数を1件増やすことである。除去処理部144によるこのデータの調整により、真のイベントではないイベント候補(つまり、ノイズ)を除去するような作用が生じる。
検出結果出力部145は、継続時間判定部143によって、イベントとして検出された箇所を、検出結果として外部に供給するものである。具体的には、検出結果出力部145は、イベントの検出結果をイベントリスト出力部15に渡す。
図3は、発言データの構成およびデータ例を示す概略図である。図示するように、発言データは、表形式のデータであり、日時、発言アカウント、発言、トピック、発言種別の各項目(桁)を有する。発言データの各行が、1件の発言に対応する。日時は、発言が投稿された日時であり、年月日および時分秒で表されるデータである。発言アカウントは、当該発言を投稿したユーザーのアカウント名である。発言は、投稿された文のテキストデータである。言い換えれば、発言の欄は、発言内容のデータを格納する。トピックは、当該発言が属するトピックを表すラベルのデータである。発言種別は、当該発言の種別を表すラベルのデータである。
ここで、発言種別について説明する。発言種別は、ある特定のトピック内での分類であり、発言内容に基づくものである。例えば、ある事象についての感想は、「肯定」と「否定」と「要望」の3種類の発言種別に分類される(これを、便宜上、感想種別と呼ぶ)。また、ある政策についての意見は、「支持」と「不支持」の2種類の発言種別に分類される(これを、便宜上、支持種別と呼ぶ)。インターネットを介してリアルタイムに投稿と閲覧がなされる投稿サービスにおいては、同種別の意見は、ユーザーのコミュニティの中で広まっていく傾向がある。
図においては、データ例として、計6行分のレコードを示している。第1行目のデータ(日時が、「2014年2月8日 8:12:44」)と、第2行目のデータ(日時が、「2014年2月8日 8:12:47」)のトピックは、「○○税率アップ」である。そして、第1行目の発言種別は「否定」であり、第2行目の発言種別は「肯定」である。第3行目以後に示しているレコードは、その他のトピックに関する発言に対応するものである。
発言データを外部(例えば、短文投稿サイトのデータ配信サーバー装置)から取得した段階では、日時と、発言アカウントと、発言の欄にのみデータが入っており、トピックと発言種別の欄は空欄である。トピックの分類が行われた後に、トピックの欄にデータが書き込まれる。また、発言種別の分類が行われた後に、発言種別の欄にデータが書き込まれる。図示する状態では、トピックが混在している。
トピックの欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックのデータのみを選択して抽出することができる。また、発言種別の欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定の発言種別のデータのみを選択して抽出することができる。また、トピックの欄と発言種別の欄の両方にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックで、且つ特定の発言種別のデータのみを選択して抽出することができる。特定のトピックや発言種別のみ抽出したデータは純粋状態の発言データとして利用できる。
図4は、時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。図示するように、この時系列データは、時間帯(時間区間)ごとの、特定トピック且つ特定発言種別の発言件数を表すものである。この時系列データは、表形式の構造を有しており、時間帯(日時)、トピック、発言種別、件数、という項目を含んでいる。同図に示す時系列データの各行は、時間帯とトピックと発言種別の組み合わせに対応している。
時間帯(日時)は、所定の長さ(幅)を有する時間帯を代表する日時のデータである。時間帯の幅は、分析対象のデータの性質や、発言の話題の性質などに応じて、適宜定められる。通常の場合、時間帯の幅は1分程度から1日程度までの間の長さである。同図に示す例では、時間帯の幅を5分とし、各々の時間帯の開始時刻をその時間帯の代表日時として表している。
トピックは、抽出部11によって分類され抽出されたトピックを表すラベルである。
発言種別は、前述の、発言内容を分類して得られた種別である。例えば、ある特定のトピックにおける発言種別は、「肯定」と「否定」の2種類である。
件数は、時間帯(日時)とトピックと発言種別に対応する発言データの件数を表す数値データである。
図示するデータ例では、時間帯の幅が5分である。そして、データ例の第1行目と第2行目は、「2014年2月8日8時10分」から同日の「8時15分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時10分」というデータが格納されている。また、第3行目と第4行目は、「2014年2月8日8時15分」から同日の「8時20分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時15分」というデータが格納されている。本データのすべてのデータにおいて、トピックは「○○税率アップ」である。つまり、この時系列データは、発言データの中から抽出された、「○○税」という税の税率アップに関する発言の件数の時系列を表すものである。そして、第1行および第3行の発言種別は「否定」であり、第2行および第3行の発言種別は「肯定」である。また、件数の欄には、各時間帯における、発言種別ごとの発言件数がそれぞれ格納されている。
なお、この時系列データは、系列データ生成部12によって生成される。
次に、処理の手順について説明する。
図5は、イベント検出装置の動作手順を示すフローチャートである。以下、このフローチャートに沿って、イベント検出装置1の動作を説明する。
まずステップS101において、発言データ取得部10は、外部から発言データを取得する。この発言データは、図3に示したものである。
次にステップS102において、抽出部11は、発言データの中から、特定トピックの発言だけを抽出する。また、抽出部11は、抽出したトピックの発言データを、発言種別ごとに分類する。抽出部11は、分類、抽出した結果に基づいて、発言データの中のトピックの項目、および発言種別の項目に、データを書き込む。なお、このように分類された結果として、特定のトピック且つ特定の発言種別のみを抽出した状態のデータを純粋状態発言データと呼ぶ。
なお、特定のトピックの発言のみを抽出するためには、自然言語処理技術を利用した自動分類の技術を利用することができる。この技術自体は、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存の技術であって、キーワードの設定による抽出と、ルール(複数の条件の組み合わせ等)による抽出とを併用するものである。また、テレビ等の特定の放送番組に関する発言のみを抽出するためには、その放送番組に関するキーワードを用いて、上記の自動分類技術を利用する。
また、特定の発言種別のみを抽出するためには、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存技術である評判分析技術を用いることができる。評判分析技術は、例えば、発言内に出現する語の頻度を表す多次元ベクトルを、そのベクトル空間内で分類する。また、評判分析技術は、必要に応じて、教師データを用いた機械学習の手法により、そのベクトル空間内での分類の仕方を学習する。
次にステップS103において、系列データ生成部12は、分類済みの発言データを元に、時系列データを生成する。系列データ生成部12が生成する時系列データの例は、図4に示した通りである。具体的には、系列データ生成部12は、抽出部11によって抽出された発言データの件数を時間帯ごと、トピックごと、発言種別ごとにカウントすることにより、この時系列データを生成する。
次にステップS104において、自己回帰モデル適用部13は、系列データ生成部12によって生成された時系列データに、自己回帰モデルを適用する。これにより、自己回帰モデル適用部13は、残差の値の時系列(ε,ε,・・・)のデータを算出する。ここでは、自己回帰モデル適用部13が、ARモデル(autoregressive model,自己回帰モデル)を適用する場合と、ARMAモデル(autoregressive moving average model,自己回帰移動平均モデル)を適用する場合の、2通りの例を説明する。
(1)ARモデルを適用する場合
次数p(pは自然数)の自己回帰モデルは、下の式(1)で表される。
Figure 2015228189
式(1)において、φ,・・・,φは、モデルのパラメーターである。また、cは定数項である。εは、残差(誤差)項である。つまり、式(1)に示すモデルでは、離散時刻tにおける時系列データの値Xは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和に定数項と残差項を加えたものである。
自己回帰モデル適用部13は、式(1)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε,ε,・・・と、定数項cと、パラメーターφ,・・・,φの値を得る。
(2)ARMAモデルを適用する場合
次数pの自己回帰と、次数qの移動平均を組み合わせたモデルは、下の式(2)で表される(p,qは、自然数)。
Figure 2015228189
式(2)において、φ,・・・,φ、および、θ,・・・,θは、モデルのパラメーターである。εは、残差(誤差)項である。つまり、式(2)に示すモデルでは、離散時刻tにおける時系列データの値Xは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和と、同系列における直前のq個の残差項εt−1,・・・,εt−qの重み付の和と、当該時刻tにおける残差項の値を加えたものである。
自己回帰モデル適用部13は、式(2)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰移動平均モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε,ε,・・・と、パラメーターφ,・・・,φ,およびθ,・・・,θの値を得る。
自己回帰モデル適用部13は、残差の値の時系列(ε,ε,・・・)のデータを算出すると、既に述べた。ARモデルにおいても、ARMAモデルにおいても、残差ε(t=1,2,・・・)は、平均値0の正規分布に従う。つまり、閾値ethを適切に設定することにより、εの絶対値である|ε|がその閾値ethを超える可能性は小さくなる。つまり、|ε|がその閾値ethを超えるような時間帯は、イベント発生時間帯の候補とみなすことができる。
次にステップS105において、イベント検出部14は、自己回帰モデル適用部13から供給される残差の値の時系列データに基づき、残差の絶対値|ε|が閾値ethを超えるような時間帯を、すべて検出する。言い換えれば、イベント検出部14は、|ε|>eth となるようなtをすべて求める。そのような時間帯を、便宜上、イベント候補と呼ぶ。
より具体的には、残差時系列データ取得部141が残差の値の時系列データを自己回帰モデル適用部13から取り込む。そして、イベント候補時刻検出部142がイベント候補の時間帯をすべて検出する。
次にステップS106において、イベント検出部14(具体的には、継続時間判定部143)は、ステップS105において検出されたイベント候補のうち、閾値超えが所定時間継続しなかったものが存在するか否かを判断する。本実施形態では、イベント検出部14は、連続した閾値超えの系列数が所定値未満のものが存在するか否かにより、この判断を行う。
例えば、時間帯の幅が5分の場合であって、20分間以上のイベント候補(閾値超え)が継続する場合に、そのイベント候補をイベントと認定する場合を考える。このとき、時系列のイベント候補が4個以上継続する場合にはイベントであると認定し、時系列のイベント候補が3個以下しか継続しない場合には、そのイベント候補は、イベントではなく、「所定時間継続しない箇所」であると認定する。
そして、閾値超えが所定時間継続しない箇所がある場合(ステップS106:YES)には、ステップS107に進む。一方、閾値超えが所定時間継続しない箇所がない場合(ステップS106:NO)には、ステップS108に進む。
次にステップS107に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、除去処理部144)は、継続時間の短いイベント候補に対応して、残差を除去するためのデータ処理を行う。この処理は、継続時間の短いイベント候補が減る方向に作用する。言い換えれば、この処理によって、イベント検出部14は、閾値超えが所定時間継続しない箇所について、閾値超えの度合いが小さくなる方向でデータの除去(更新)を行う。なお、本ステップの処理の詳細については、後で、別のフローチャート(図6)を参照しながら説明する。本ステップの処理を終えた後、再びステップS104の処理に進む。これにより、本ステップで除去(更新)した後の時系列データに関して、再度、自己回帰モデルの適用を行うこととなる。
ステップS106からステップS108に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、検出結果出力部145)は、検出されたイベントの時刻情報を、イベントリスト出力部15に対して出力する。本ステップに制御が移ってくる前提条件は、ステップS106において、閾値超えが所定時間継続しない箇所がないと判断されることである。言い換えれば、本ステップに制御が移ってくる時点では、閾値超えをしている箇所(時間帯)は、すべて、イベントであると認定される個所である。つまり、イベント検出部14は、閾値超えをしている箇所の時刻(時間帯を代表する時刻)とその時刻に対応付けられた時系列データとのペアのリストを、イベントリスト出力部15に対して渡す。そして、イベントリスト出力部15は、それらの時刻のデータと、それらの時刻に関連付けられた時系列データ(発言数のカウント)とを、外部に出力する。そして、本ステップの処理が終了すると、イベント検出装置1は、このフローチャート全体の処理を終了する。
図6は、除去処理部144による詳細な処理の手順を示すフローチャートである。同図に示す処理は、図5に示した処理手順の中のステップS107の部分の処理である。以下、このフローチャートに沿って、継続時間の短いイベントを除去する処理を説明する。
まずステップS201において、イベント検出部14内の除去処理部144は、継続時間の短いイベント候補のリストのデータを取得する。このデータは、継続時間判定部143によって供給されるものであり、既に述べたとおり、残差の絶対値が閾値ethを超えている時間帯であって、且つそのような閾値超えの継続している時間が所定時間未満であるような時間帯のリストである。具体的には、除去処理部144は、本ステップにおいて、該当する時間帯を代表する時刻と、当該時間帯における発言数の値とのペアのリストを取得する。
次にステップS202において、除去処理部144は、取得したデータ内に含まれる各々のイベント候補について、発言データ1件ごとの寄与度を求める。ここで、式(1)や式(2)で表されるモデルと実測値(ツイート数)の2乗誤差の総和に寄与する度合いを寄与度という。つまり寄与度とは、除去すべき残差(イベントとは認定されない短時間の残差)を有する各時間帯について、その時間帯における発言を1件減少させたときに、時系列データ全体として、2乗誤差の総量が小さくなる度合である。除去処理部144が対象としている各時間帯の残差への寄与度を求めるためには、実際に発言件数を上記のように減少させてから、再度、自己回帰モデル適用部13に自己回帰モデルの適用の処理を行ってみて、除去すべき残差の絶対値の総量がどれだけ減るかを算出する。そして、寄与度の最も大きい発言データを選出する。
なお、上述した処理において、2乗誤差の総和とは、対象としているすべての時間帯(閾値超えしているがイベントではない時間帯)についての総和である。
次にステップS203において、除去処理部144は、は、寄与度が最も大きい発言データ(ステップS202で選出した通り)について、1件減少させる。イベントとは認定されない時間帯の発言において、イベントとみなされる量(2乗誤差の総和)に寄与する度合いが大きい発言を除去するために、この処理がなされる。
以上、図5および図6を参照しながら説明したように、本実施形態によるイベント検出装置1は、予めトピックと発言種別を分類し、純粋状態の発言データとしてから、ARモデルまたはARMAモデルを適用する。また、イベント検出装置1は、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超える時間帯をイベント候補として認定する。また、イベント検出装置1は、認定されたイベント候補の継続時間が長いか短いかに応じて、それが検出すべき真のイベントであるか、除去すべきノイズであるかを判別する。また、イベント検出装置1は、除去すべきノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。
本実施形態では、予めトピックと発言種別を分類し、特定のトピック且つ発言種別のデータ(純粋状態発言データ)のみを抽出してから時系列の発言数のデータを生成することにより、複数のモデルが複合した状態の時系列データではなく、単一のモデルの状態の時系列データを得ることができる。そのような、単一のモデルによる時系列データ、つまり良好な性質の時系列データに、ARモデルやARMAモデルを適用するため、モデル化の誤差を減らすことが可能となる。つまり、モデルが想定する理想的な状態に近い時系列データを処理対象としてイベント検出することができる。仮に、2つのトピックが同時に進行している状況で、それらのトピックを分離せずに単一のモデルを適用した場合には、そのことによる誤差が生じてしまう。
また、本実施形態では、トピックの分類と同様に、発言種別(ある事象等に対して、肯定的か、否定的か。また、支持するか、不支持か、など。)を分類し、発言データを発言種別で分離してから発言件数の時系列のデータを生成するため、上記のトピックの分類と同様に、より精度の高い分析およびより精度の高いイベント検出をすることが可能となる。
従来技術では、上記のモデル化の誤差が大きいことなどの理由により、ARモデルやARMAモデルが適用されていなかった。本実施形態では、上記のように、特定のトピック且つ発言種別のデータのみを抽出してから時系列の発言数のデータを生成するため、ARモデルやARMAモデルを良好に適用することが可能となる。
また、本実施形態では、ARモデルやARMAモデルを適用するため、単純にあらかじめ定められた閾値を超えるタイミングをイベントとして認定するのではなく、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超えるタイミング(時間帯)をイベント候補として認定している。これにより、より精度の良いイベント検出を行うことが可能となる。
また、本実施形態では、残差(の絶対値)が所定の閾値を超えている時間帯(イベント候補)の継続時間が長いか短いかに応じて、真のイベントであるか、ノイズとみなすべき異常値であるかを判別する。言い換えれば、残差がバーストとなっている時間帯、即ち持続時間の長いイベント候補の時間帯がイベントと認定される。また逆に、バーストではない残差、即ち持続時間の短いイベント候補の時間帯はノイズとして認定される。これにより、一時的な異常なノイズをイベントとして検出してしまうことを防ぐことができる。
また、本実施形態では、ノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。具体的には、ノイズへの寄与度が大きい順に、発言を除去した場合と同等のデータ処理を行い、ノイズ(継続時間の短いイベント候補)がなくなるまで、そのような除去を繰り返す。これにより、モデルによく合致する結果を得ることができる。
以上、述べたように、本実施形態では、時系列モデルのパラメーターの推定精度が向上するために、モデルで説明可能な部分の残差(モデルと、実際の時系列データとのずれ)が減少する効果を得ることが期待される。この推定精度の向上によって残差が減少する量が時間帯に依らずに一定であるとすると、残差のピークがより明確に表れることとなる。また、この推定精度の向上によって残差が減少する量が厳密に一定とは言えない場合にも、乗算性ノイズ以外の残差が減少すれば、残差のピーク(乗算性ノイズのピーク)がより明確に表れることとなる。その結果、自己相関では説明できない部分の検出精度が向上するという効果が得られる。これにより、精度よく発言についてのイベントが検出される。つまり、そのようなイベントに対応した、社会情勢の変化や、事件・事故等を検出するためにイベント検出装置1を用いることができ、しかもその検出精度を向上させることができる。
なお、上述した実施形態におけるイベント検出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
(変形例1) 例えば、上記の実施形態では、残差が正・負両方の場合について、残差の絶対値が閾値を超えたとき(|ε| > eth)に、イベント候補として検出するようにしたが、これを変えて、残差が正で、且つその残差が閾値を超えたとき(ε > eth)のみに、イベント候補として検出するようにしても良い。この変形例を実施した場合には、イベント検出装置1は、残差が正であるような時間帯のイベントのみを検出し、残差が負であるような時間帯のイベントを検出しないようになる。目的に応じて、そのような検出のしかたが望まれる場合には、この変形例が好ましい。
(変形例2) 上記の実施形態では、イベント検出装置1は、図1に示した構成を有していた。この変形例2では、イベント検出装置は、図1に示した構成のうち、発言データ取得部10と、抽出部11と、系列データ生成部12とを含まない。そして、イベント検出装置は、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含む。この場合、系列データの生成までは、外部の別の装置で行い、生成された系列データを自己回帰モデル適用部13が読み込んで、処理を行う。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲において、異なる設計としても良い。
本発明は、社会の分析等に利用することができる。本発明は、例えば、社会情勢の変化や、突発的な事故・事件や、インターネットを媒介とした特定の情報の急激な広まりなどを、検出するために利用することができる。放送事業では、番組制作の企画に利用したり、報道取材のきっかけとして利用したりすることができる。政府等の公共機関にとっては、社会政策の企画・立案に利用することができる。
1 イベント検出装置
10 発言データ取得部
11 抽出部
12 系列データ生成部
13 自己回帰モデル適用部
14 イベント検出部
15 イベントリスト出力部
141 残差時系列データ取得部
142 イベント候補時刻検出部
143 継続時間判定部
144 除去処理部
145 検出結果出力部

Claims (5)

  1. 発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、
    前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、
    を具備することを特徴とするイベント検出装置。
  2. 発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、
    前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、
    をさらに具備し、
    前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、
    ことを特徴とする請求項1に記載のイベント検出装置。
  3. 前記イベント検出部は、
    検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、
    前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、
    を具備することを特徴とする請求項1または請求項2のいずれか一項に記載のイベント検出装置。
  4. 前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、
    ことを特徴とする請求項3に記載のイベント検出装置。
  5. コンピューターを、
    発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、
    前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、
    として機能させるためのプログラム。
JP2014114408A 2014-06-02 2014-06-02 イベント検出装置およびプログラム Active JP6395287B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014114408A JP6395287B2 (ja) 2014-06-02 2014-06-02 イベント検出装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014114408A JP6395287B2 (ja) 2014-06-02 2014-06-02 イベント検出装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2015228189A true JP2015228189A (ja) 2015-12-17
JP6395287B2 JP6395287B2 (ja) 2018-09-26

Family

ID=54885606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014114408A Active JP6395287B2 (ja) 2014-06-02 2014-06-02 イベント検出装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6395287B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112924619A (zh) * 2021-01-15 2021-06-08 深圳市环思科技有限公司 一种提取环境空气污染特征方法、系统、终端及存储介质
JP2021135586A (ja) * 2020-02-25 2021-09-13 株式会社日立製作所 時系列データ予測装置及び時系列データ予測方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805266B1 (en) * 2001-07-17 2010-09-28 At&T Corp. Method for automated detection of data glitches in large data sets
JP2012243032A (ja) * 2011-05-18 2012-12-10 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2013140135A (ja) * 2011-12-09 2013-07-18 Tokyo Electron Ltd 周期的駆動系の異常検知装置、周期的駆動系を有する処理装置、周期的駆動系の異常検知方法、およびコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805266B1 (en) * 2001-07-17 2010-09-28 At&T Corp. Method for automated detection of data glitches in large data sets
JP2012243032A (ja) * 2011-05-18 2012-12-10 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2013140135A (ja) * 2011-12-09 2013-07-18 Tokyo Electron Ltd 周期的駆動系の異常検知装置、周期的駆動系を有する処理装置、周期的駆動系の異常検知方法、およびコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松村 冬子,他: ""選好商品のクラスタリングに基づく嗜好の変化の検出"", 情報処理学会研究報告 平成21年度▲3▼ [CD−ROM]、情報処理学会研究報告 数理モデル化と問題, vol. (27), JPN6018012581, 15 October 2009 (2009-10-15), pages 1 - 6, ISSN: 0003775518 *
里 洋平, "異常行動検出入門(改)−行動データ時系列のデータマイニング−", JPN7018001072, 11 May 2012 (2012-05-11), pages 1 - 13, ISSN: 0003775517 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135586A (ja) * 2020-02-25 2021-09-13 株式会社日立製作所 時系列データ予測装置及び時系列データ予測方法
JP7393244B2 (ja) 2020-02-25 2023-12-06 株式会社日立製作所 時系列データ予測装置及び時系列データ予測方法
CN112924619A (zh) * 2021-01-15 2021-06-08 深圳市环思科技有限公司 一种提取环境空气污染特征方法、系统、终端及存储介质

Also Published As

Publication number Publication date
JP6395287B2 (ja) 2018-09-26

Similar Documents

Publication Publication Date Title
Rauh Validating a sentiment dictionary for German political language—a workbench note
US10691770B2 (en) Real-time classification of evolving dictionaries
US9753916B2 (en) Automatic generation of a speech by processing raw claims to a set of arguments
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
Kestemont et al. Cross-genre authorship verification using unmasking
US8577155B2 (en) System and method for duplicate text recognition
US10990616B2 (en) Fast pattern discovery for log analytics
US11755841B2 (en) Method for updating a knowledge base of a sentiment analysis system
JP5472640B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
US20170249388A1 (en) Expert Detection in Social Networks
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
JP6719399B2 (ja) 解析装置、解析方法、およびプログラム
US9734234B2 (en) System and method for rectifying a typographical error in a text file
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN107545505B (zh) 保险理财产品信息的识别方法及系统
JP2007241902A (ja) テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP2019071089A (ja) 情報提示装置、および情報提示方法
CN110889451B (zh) 事件审计方法、装置、终端设备以及存储介质
Hernandez et al. Constructing consumer profiles from social media data
Mayfield et al. Analyzing wikipedia deletion debates with a group decision-making forecast model
JP6395287B2 (ja) イベント検出装置およびプログラム
CN109213974B (zh) 一种电子文档转换方法及装置
JP5472641B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
Hu et al. Quotatives indicate decline in objectivity in us political news
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180827

R150 Certificate of patent or registration of utility model

Ref document number: 6395287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250