JP2015228189A

JP2015228189A - イベント検出装置およびプログラム

Info

Publication number: JP2015228189A
Application number: JP2014114408A
Authority: JP
Inventors: 小早川　健; Takeshi Kobayakawa; 健小早川
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-06-02
Filing date: 2014-06-02
Publication date: 2015-12-17
Anticipated expiration: 2034-06-02
Also published as: JP6395287B2

Abstract

【課題】通信ネットワークを用いた投稿等のサービスにおいて、検出の精度の高い、イベント検出装置およびプログラムを提供する。
【解決手段】自己回帰モデル適用部は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。イベント検出部は、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出する。
【選択図】図１

Description

本発明は、系列データからイベントを検出するための、イベント検出装置およびプログラムに関する。

インターネットを利用した投稿サイト（掲示板サイトや、短文投稿サイトなど）では、様々な話題に関する投稿が日々行われている。これらの投稿は、自然言語で記述されたものであるが、このような投稿をもとに、社会情勢の変化や事件・事故などを検出する試みは数多くなされている。

そのような状況で、求められる技術の一つは、インターネットを経由した投稿等の書き込み数の異常値を検出することである。従来の技術による方法の一つは、書き込み数が予め定められた閾値を超える場合を検出する方法である。また、別の方法の一つは、自己相関行列の固有値によるモデルを利用する方法である。

特許文献１の図１３Ｃおよび段落［０１１６］には、相互部分空間法について記載されている。この手法では、過去に遡る観測データ（時系列データ）を基に自己相関行列の固有値問題を解き、部分空間同士が成す角度（θ）の余弦（ｃｏｓ θ）を類似度として、観測データの異常値を検知している。

特開２０１３−０４１４４８号公報

しかしながら、従来技術による異常値検出の方法では、十分な検出精度が得られないという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、異常値検出の精度の高い、イベント検出装置およびプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様によるイベント検出装置は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、を具備する。

［２］また、本発明の一態様は、上記のイベント検出装置において、発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、をさらに具備し、前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、ことを特徴とする。

［３］また、本発明の一態様は、上記のイベント検出装置において、前記イベント検出部は、検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、を具備することを特徴とする。
なお、除去処理部により、ノイズが除去される。また、除去処理部が発言件数の時系列データを調整した後に、自己回帰モデル適用部が、再度、自己回帰モデルまたは自己回帰移動平均モデルの適用をするところからの処理を行う。

［４］また、本発明の一態様は、上記のイベント検出装置において、前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、ことを特徴とする。

［５］また、本発明の一態様は、コンピューターを、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、として機能させるためのプログラムである。

本発明によれば、自己相関モデルまたは自己相関移動平均モデルの残差に基づき、精度よくイベントを検出することが可能となる。また、特定のトピックや特定の発言種別のみを抽出して時系列データを生成した場合には、モデルのパラメーターの推定精度が上がるので、更に精度よくイベントを検出できる。

本発明の実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同実施形態によるイベント検出部のさらに詳細な機能構成を示すブロック図である。同実施形態による発言データの構成およびデータ例を示す概略図である。同実施形態による時系列データ（発言件数データ）の構成およびデータ例を示す概略図である。同実施形態によるイベント検出装置の動作手順を示すフローチャートである。同実施形態による除去処理部による詳細な処理の手順を示すフローチャートである。

次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、本実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同図において、符号１は、イベント検出装置である。図示するように、イベント検出装置１は、発言データ取得部１０と、抽出部１１と、系列データ生成部１２と、自己回帰モデル適用部１３と、イベント検出部１４と、イベントリスト出力部１５とを含んで構成される。

発言データ取得部１０は、外部から、発言データを取り込み、所定の形式で一時的に記憶する。発言データを記憶するためには、例えば、リレーショナルデータベースや、ＸＭＬデータベース（「ＸＭＬ」はExtensible Markup Language，拡張マークアップ言語の略）などを利用する。ここで、発言データは、インターネットを利用した投稿サービスに投稿された発言のデータである。投稿サービスの一例は、短文投稿サービスである。短文投稿サービスにおいては、ユーザーがクライアント端末装置（ＰＣ、タブレット、スマートフォン等）から短文を投稿する。短文の長さには所定の上限（例えば、数百文字程度）がある。投稿された短文は、ユーザーアカウント名や投稿日時（ＹＹＹＹ／ＭＭ／ＤＤｈｈ：ｍｍ：ｓｓ（年月日、時分秒）の形式）といった属性情報と関連付けて、サーバー装置側の記憶手段に蓄積される。サーバーは、蓄積された短文のデータを、ユーザーの所望の形態で表示できるように提供する。このとき、ユーザーは、所定のユーザーアカウント（単数または複数）の投稿のみを時系列に表示させたり、特定のキーワードを含む投稿のみを時系列に表示させたりすることができるようになっている。このような短文投稿サービスの一例は、ツイッター（Ｔｗｉｔｔｅｒ）である。１件の短文等の投稿のことを、以下では「発言」と呼ぶ。

抽出部１１は、発言内容と時刻情報とを含む発言データを取得し、取得した発言データから、特定のトピックに該当する発言内容を有する発言データのみ、または特定のトピックに該当するとともに特定の発言種別に該当する発言データのみを抽出した、純粋状態発言データを出力する。
系列データ生成部１２は、抽出部１１によって出力された純粋状態発言データを取得し、時間区間ごとの純粋状態発言データの件数を表す発言件数の時系列データを生成するものである。

自己回帰モデル適用部１３は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。
イベント検出部１４は、自己回帰モデル適用部１３によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、時系列データにおけるイベント候補として検出する。

イベントリスト出力部１５は、イベント検出部１４によって検出されたイベントのリストを出力する。ここで、イベントのリストとは、少なくともイベントに相当する時間帯を代表する時刻を含むデータのリストである。

図２は、上記のイベント検出部のさらに詳細な機能構成を示すブロック図である。図示するように、イベント検出部１４は、残差時系列データ取得部１４１と、イベント候補時刻検出部１４２と、継続時間判定部１４３と、除去処理部１４４と、検出結果出力部１４５とを含んで構成される。

残差時系列データ取得部１４１は、外部（具体的には、自己回帰モデル適用部１３）から、残差の時系列のデータを取得する。これは、自己回帰モデル適用部１３が適用したモデルにおける残差である。
イベント候補時刻検出部１４２は、残差時系列データ取得部１４１が取得した残差時系列データを基に、イベント候補の時刻を検出する。具体的には、イベント候補時刻検出部１４２は、各時間帯（時刻）について、残差の絶対値が所定の閾値以上の場合に、その時間帯をイベント候補として検出する。

継続時間判定部１４３は、検出したイベント候補のうち、残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する。
除去処理部１４４は、前記継続時間判定部１４３によってノイズとして検出された箇所について、ノイズの箇所の残差の絶対値が小さくなるように発言件数の時系列データを調整する。発言件数の時系列データを調整するということは、正の残差の場合には発言件数を１件減らすことであり、負の残差の場合は、発言件数を１件増やすことである。除去処理部１４４によるこのデータの調整により、真のイベントではないイベント候補（つまり、ノイズ）を除去するような作用が生じる。

検出結果出力部１４５は、継続時間判定部１４３によって、イベントとして検出された箇所を、検出結果として外部に供給するものである。具体的には、検出結果出力部１４５は、イベントの検出結果をイベントリスト出力部１５に渡す。

図３は、発言データの構成およびデータ例を示す概略図である。図示するように、発言データは、表形式のデータであり、日時、発言アカウント、発言、トピック、発言種別の各項目（桁）を有する。発言データの各行が、１件の発言に対応する。日時は、発言が投稿された日時であり、年月日および時分秒で表されるデータである。発言アカウントは、当該発言を投稿したユーザーのアカウント名である。発言は、投稿された文のテキストデータである。言い換えれば、発言の欄は、発言内容のデータを格納する。トピックは、当該発言が属するトピックを表すラベルのデータである。発言種別は、当該発言の種別を表すラベルのデータである。

ここで、発言種別について説明する。発言種別は、ある特定のトピック内での分類であり、発言内容に基づくものである。例えば、ある事象についての感想は、「肯定」と「否定」と「要望」の３種類の発言種別に分類される（これを、便宜上、感想種別と呼ぶ）。また、ある政策についての意見は、「支持」と「不支持」の２種類の発言種別に分類される（これを、便宜上、支持種別と呼ぶ）。インターネットを介してリアルタイムに投稿と閲覧がなされる投稿サービスにおいては、同種別の意見は、ユーザーのコミュニティの中で広まっていく傾向がある。

図においては、データ例として、計６行分のレコードを示している。第１行目のデータ（日時が、「２０１４年２月８日８：１２：４４」）と、第２行目のデータ（日時が、「２０１４年２月８日８：１２：４７」）のトピックは、「○○税率アップ」である。そして、第１行目の発言種別は「否定」であり、第２行目の発言種別は「肯定」である。第３行目以後に示しているレコードは、その他のトピックに関する発言に対応するものである。

発言データを外部（例えば、短文投稿サイトのデータ配信サーバー装置）から取得した段階では、日時と、発言アカウントと、発言の欄にのみデータが入っており、トピックと発言種別の欄は空欄である。トピックの分類が行われた後に、トピックの欄にデータが書き込まれる。また、発言種別の分類が行われた後に、発言種別の欄にデータが書き込まれる。図示する状態では、トピックが混在している。
トピックの欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックのデータのみを選択して抽出することができる。また、発言種別の欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定の発言種別のデータのみを選択して抽出することができる。また、トピックの欄と発言種別の欄の両方にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックで、且つ特定の発言種別のデータのみを選択して抽出することができる。特定のトピックや発言種別のみ抽出したデータは純粋状態の発言データとして利用できる。

図４は、時系列データ（発言件数データ）の構成およびデータ例を示す概略図である。図示するように、この時系列データは、時間帯（時間区間）ごとの、特定トピック且つ特定発言種別の発言件数を表すものである。この時系列データは、表形式の構造を有しており、時間帯（日時）、トピック、発言種別、件数、という項目を含んでいる。同図に示す時系列データの各行は、時間帯とトピックと発言種別の組み合わせに対応している。

時間帯（日時）は、所定の長さ（幅）を有する時間帯を代表する日時のデータである。時間帯の幅は、分析対象のデータの性質や、発言の話題の性質などに応じて、適宜定められる。通常の場合、時間帯の幅は１分程度から１日程度までの間の長さである。同図に示す例では、時間帯の幅を５分とし、各々の時間帯の開始時刻をその時間帯の代表日時として表している。
トピックは、抽出部１１によって分類され抽出されたトピックを表すラベルである。
発言種別は、前述の、発言内容を分類して得られた種別である。例えば、ある特定のトピックにおける発言種別は、「肯定」と「否定」の２種類である。
件数は、時間帯（日時）とトピックと発言種別に対応する発言データの件数を表す数値データである。

図示するデータ例では、時間帯の幅が５分である。そして、データ例の第１行目と第２行目は、「２０１４年２月８日８時１０分」から同日の「８時１５分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯（日時）の欄には「２０１４年２月８日８時１０分」というデータが格納されている。また、第３行目と第４行目は、「２０１４年２月８日８時１５分」から同日の「８時２０分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯（日時）の欄には「２０１４年２月８日８時１５分」というデータが格納されている。本データのすべてのデータにおいて、トピックは「○○税率アップ」である。つまり、この時系列データは、発言データの中から抽出された、「○○税」という税の税率アップに関する発言の件数の時系列を表すものである。そして、第１行および第３行の発言種別は「否定」であり、第２行および第３行の発言種別は「肯定」である。また、件数の欄には、各時間帯における、発言種別ごとの発言件数がそれぞれ格納されている。
なお、この時系列データは、系列データ生成部１２によって生成される。

次に、処理の手順について説明する。
図５は、イベント検出装置の動作手順を示すフローチャートである。以下、このフローチャートに沿って、イベント検出装置１の動作を説明する。
まずステップＳ１０１において、発言データ取得部１０は、外部から発言データを取得する。この発言データは、図３に示したものである。

次にステップＳ１０２において、抽出部１１は、発言データの中から、特定トピックの発言だけを抽出する。また、抽出部１１は、抽出したトピックの発言データを、発言種別ごとに分類する。抽出部１１は、分類、抽出した結果に基づいて、発言データの中のトピックの項目、および発言種別の項目に、データを書き込む。なお、このように分類された結果として、特定のトピック且つ特定の発言種別のみを抽出した状態のデータを純粋状態発言データと呼ぶ。

なお、特定のトピックの発言のみを抽出するためには、自然言語処理技術を利用した自動分類の技術を利用することができる。この技術自体は、文献［Michael W. Berry編，Survey of Text Mining，2004年版，Springer］にあるように、既存の技術であって、キーワードの設定による抽出と、ルール（複数の条件の組み合わせ等）による抽出とを併用するものである。また、テレビ等の特定の放送番組に関する発言のみを抽出するためには、その放送番組に関するキーワードを用いて、上記の自動分類技術を利用する。
また、特定の発言種別のみを抽出するためには、文献［Michael W. Berry編，Survey of Text Mining，2004年版，Springer］にあるように、既存技術である評判分析技術を用いることができる。評判分析技術は、例えば、発言内に出現する語の頻度を表す多次元ベクトルを、そのベクトル空間内で分類する。また、評判分析技術は、必要に応じて、教師データを用いた機械学習の手法により、そのベクトル空間内での分類の仕方を学習する。

次にステップＳ１０３において、系列データ生成部１２は、分類済みの発言データを元に、時系列データを生成する。系列データ生成部１２が生成する時系列データの例は、図４に示した通りである。具体的には、系列データ生成部１２は、抽出部１１によって抽出された発言データの件数を時間帯ごと、トピックごと、発言種別ごとにカウントすることにより、この時系列データを生成する。

次にステップＳ１０４において、自己回帰モデル適用部１３は、系列データ生成部１２によって生成された時系列データに、自己回帰モデルを適用する。これにより、自己回帰モデル適用部１３は、残差の値の時系列（ε_１，ε_２，・・・）のデータを算出する。ここでは、自己回帰モデル適用部１３が、ＡＲモデル（autoregressive model，自己回帰モデル）を適用する場合と、ＡＲＭＡモデル（autoregressive moving average model，自己回帰移動平均モデル）を適用する場合の、２通りの例を説明する。

（１）ＡＲモデルを適用する場合
次数ｐ（ｐは自然数）の自己回帰モデルは、下の式（１）で表される。

式（１）において、φ_１，・・・，φ_ｐは、モデルのパラメーターである。また、ｃは定数項である。ε_ｔは、残差（誤差）項である。つまり、式（１）に示すモデルでは、離散時刻ｔにおける時系列データの値Ｘ_ｔは、同系列における直前のｐ個の値Ｘ_ｔ−１，・・・，Ｘ_ｔ−ｐの重み付きの和に定数項と残差項を加えたものである。

自己回帰モデル適用部１３は、式（１）に示したモデルに従い、系列データ生成部１２から供給された時系列データを分析する。自己回帰モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部１３は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε_１，ε_２，・・・と、定数項ｃと、パラメーターφ_１，・・・，φ_ｐの値を得る。

（２）ＡＲＭＡモデルを適用する場合
次数ｐの自己回帰と、次数ｑの移動平均を組み合わせたモデルは、下の式（２）で表される（ｐ，ｑは、自然数）。

式（２）において、φ_１，・・・，φ_ｐ、および、θ_１，・・・，θ_ｑは、モデルのパラメーターである。ε_ｔは、残差（誤差）項である。つまり、式（２）に示すモデルでは、離散時刻ｔにおける時系列データの値Ｘ_ｔは、同系列における直前のｐ個の値Ｘ_ｔ−１，・・・，Ｘ_ｔ−ｐの重み付きの和と、同系列における直前のｑ個の残差項ε_ｔ−１，・・・，ε_ｔ−ｑの重み付の和と、当該時刻ｔにおける残差項の値を加えたものである。

自己回帰モデル適用部１３は、式（２）に示したモデルに従い、系列データ生成部１２から供給された時系列データを分析する。自己回帰移動平均モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部１３は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε_１，ε_２，・・・と、パラメーターφ_１，・・・，φ_ｐ，およびθ_１，・・・，θ_ｑの値を得る。

自己回帰モデル適用部１３は、残差の値の時系列（ε_１，ε_２，・・・）のデータを算出すると、既に述べた。ＡＲモデルにおいても、ＡＲＭＡモデルにおいても、残差ε_ｔ（ｔ＝１，２，・・・）は、平均値０の正規分布に従う。つまり、閾値ｅ_ｔｈを適切に設定することにより、ε_ｔの絶対値である｜ε_ｔ｜がその閾値ｅ_ｔｈを超える可能性は小さくなる。つまり、｜ε_ｔ｜がその閾値ｅ_ｔｈを超えるような時間帯は、イベント発生時間帯の候補とみなすことができる。

次にステップＳ１０５において、イベント検出部１４は、自己回帰モデル適用部１３から供給される残差の値の時系列データに基づき、残差の絶対値｜ε_ｔ｜が閾値ｅ_ｔｈを超えるような時間帯を、すべて検出する。言い換えれば、イベント検出部１４は、｜ε_ｔ｜＞ｅ_ｔｈとなるようなｔをすべて求める。そのような時間帯を、便宜上、イベント候補と呼ぶ。
より具体的には、残差時系列データ取得部１４１が残差の値の時系列データを自己回帰モデル適用部１３から取り込む。そして、イベント候補時刻検出部１４２がイベント候補の時間帯をすべて検出する。

次にステップＳ１０６において、イベント検出部１４（具体的には、継続時間判定部１４３）は、ステップＳ１０５において検出されたイベント候補のうち、閾値超えが所定時間継続しなかったものが存在するか否かを判断する。本実施形態では、イベント検出部１４は、連続した閾値超えの系列数が所定値未満のものが存在するか否かにより、この判断を行う。
例えば、時間帯の幅が５分の場合であって、２０分間以上のイベント候補（閾値超え）が継続する場合に、そのイベント候補をイベントと認定する場合を考える。このとき、時系列のイベント候補が４個以上継続する場合にはイベントであると認定し、時系列のイベント候補が３個以下しか継続しない場合には、そのイベント候補は、イベントではなく、「所定時間継続しない箇所」であると認定する。
そして、閾値超えが所定時間継続しない箇所がある場合（ステップＳ１０６：ＹＥＳ）には、ステップＳ１０７に進む。一方、閾値超えが所定時間継続しない箇所がない場合（ステップＳ１０６：ＮＯ）には、ステップＳ１０８に進む。

次にステップＳ１０７に進んだ場合、同ステップにおいて、イベント検出部１４（具体的には、除去処理部１４４）は、継続時間の短いイベント候補に対応して、残差を除去するためのデータ処理を行う。この処理は、継続時間の短いイベント候補が減る方向に作用する。言い換えれば、この処理によって、イベント検出部１４は、閾値超えが所定時間継続しない箇所について、閾値超えの度合いが小さくなる方向でデータの除去（更新）を行う。なお、本ステップの処理の詳細については、後で、別のフローチャート（図６）を参照しながら説明する。本ステップの処理を終えた後、再びステップＳ１０４の処理に進む。これにより、本ステップで除去（更新）した後の時系列データに関して、再度、自己回帰モデルの適用を行うこととなる。

ステップＳ１０６からステップＳ１０８に進んだ場合、同ステップにおいて、イベント検出部１４（具体的には、検出結果出力部１４５）は、検出されたイベントの時刻情報を、イベントリスト出力部１５に対して出力する。本ステップに制御が移ってくる前提条件は、ステップＳ１０６において、閾値超えが所定時間継続しない箇所がないと判断されることである。言い換えれば、本ステップに制御が移ってくる時点では、閾値超えをしている箇所（時間帯）は、すべて、イベントであると認定される個所である。つまり、イベント検出部１４は、閾値超えをしている箇所の時刻（時間帯を代表する時刻）とその時刻に対応付けられた時系列データとのペアのリストを、イベントリスト出力部１５に対して渡す。そして、イベントリスト出力部１５は、それらの時刻のデータと、それらの時刻に関連付けられた時系列データ（発言数のカウント）とを、外部に出力する。そして、本ステップの処理が終了すると、イベント検出装置１は、このフローチャート全体の処理を終了する。

図６は、除去処理部１４４による詳細な処理の手順を示すフローチャートである。同図に示す処理は、図５に示した処理手順の中のステップＳ１０７の部分の処理である。以下、このフローチャートに沿って、継続時間の短いイベントを除去する処理を説明する。

まずステップＳ２０１において、イベント検出部１４内の除去処理部１４４は、継続時間の短いイベント候補のリストのデータを取得する。このデータは、継続時間判定部１４３によって供給されるものであり、既に述べたとおり、残差の絶対値が閾値ｅ_ｔｈを超えている時間帯であって、且つそのような閾値超えの継続している時間が所定時間未満であるような時間帯のリストである。具体的には、除去処理部１４４は、本ステップにおいて、該当する時間帯を代表する時刻と、当該時間帯における発言数の値とのペアのリストを取得する。

次にステップＳ２０２において、除去処理部１４４は、取得したデータ内に含まれる各々のイベント候補について、発言データ１件ごとの寄与度を求める。ここで、式（１）や式（２）で表されるモデルと実測値（ツイート数）の２乗誤差の総和に寄与する度合いを寄与度という。つまり寄与度とは、除去すべき残差（イベントとは認定されない短時間の残差）を有する各時間帯について、その時間帯における発言を１件減少させたときに、時系列データ全体として、２乗誤差の総量が小さくなる度合である。除去処理部１４４が対象としている各時間帯の残差への寄与度を求めるためには、実際に発言件数を上記のように減少させてから、再度、自己回帰モデル適用部１３に自己回帰モデルの適用の処理を行ってみて、除去すべき残差の絶対値の総量がどれだけ減るかを算出する。そして、寄与度の最も大きい発言データを選出する。
なお、上述した処理において、２乗誤差の総和とは、対象としているすべての時間帯（閾値超えしているがイベントではない時間帯）についての総和である。

次にステップＳ２０３において、除去処理部１４４は、は、寄与度が最も大きい発言データ（ステップＳ２０２で選出した通り）について、１件減少させる。イベントとは認定されない時間帯の発言において、イベントとみなされる量（２乗誤差の総和）に寄与する度合いが大きい発言を除去するために、この処理がなされる。

以上、図５および図６を参照しながら説明したように、本実施形態によるイベント検出装置１は、予めトピックと発言種別を分類し、純粋状態の発言データとしてから、ＡＲモデルまたはＡＲＭＡモデルを適用する。また、イベント検出装置１は、ＡＲモデルやＡＲＭＡモデルを適用したときの残差（の絶対値）が所定の閾値を超える時間帯をイベント候補として認定する。また、イベント検出装置１は、認定されたイベント候補の継続時間が長いか短いかに応じて、それが検出すべき真のイベントであるか、除去すべきノイズであるかを判別する。また、イベント検出装置１は、除去すべきノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。

本実施形態では、予めトピックと発言種別を分類し、特定のトピック且つ発言種別のデータ（純粋状態発言データ）のみを抽出してから時系列の発言数のデータを生成することにより、複数のモデルが複合した状態の時系列データではなく、単一のモデルの状態の時系列データを得ることができる。そのような、単一のモデルによる時系列データ、つまり良好な性質の時系列データに、ＡＲモデルやＡＲＭＡモデルを適用するため、モデル化の誤差を減らすことが可能となる。つまり、モデルが想定する理想的な状態に近い時系列データを処理対象としてイベント検出することができる。仮に、２つのトピックが同時に進行している状況で、それらのトピックを分離せずに単一のモデルを適用した場合には、そのことによる誤差が生じてしまう。

また、本実施形態では、トピックの分類と同様に、発言種別（ある事象等に対して、肯定的か、否定的か。また、支持するか、不支持か、など。）を分類し、発言データを発言種別で分離してから発言件数の時系列のデータを生成するため、上記のトピックの分類と同様に、より精度の高い分析およびより精度の高いイベント検出をすることが可能となる。

従来技術では、上記のモデル化の誤差が大きいことなどの理由により、ＡＲモデルやＡＲＭＡモデルが適用されていなかった。本実施形態では、上記のように、特定のトピック且つ発言種別のデータのみを抽出してから時系列の発言数のデータを生成するため、ＡＲモデルやＡＲＭＡモデルを良好に適用することが可能となる。

また、本実施形態では、ＡＲモデルやＡＲＭＡモデルを適用するため、単純にあらかじめ定められた閾値を超えるタイミングをイベントとして認定するのではなく、ＡＲモデルやＡＲＭＡモデルを適用したときの残差（の絶対値）が所定の閾値を超えるタイミング（時間帯）をイベント候補として認定している。これにより、より精度の良いイベント検出を行うことが可能となる。

また、本実施形態では、残差（の絶対値）が所定の閾値を超えている時間帯（イベント候補）の継続時間が長いか短いかに応じて、真のイベントであるか、ノイズとみなすべき異常値であるかを判別する。言い換えれば、残差がバーストとなっている時間帯、即ち持続時間の長いイベント候補の時間帯がイベントと認定される。また逆に、バーストではない残差、即ち持続時間の短いイベント候補の時間帯はノイズとして認定される。これにより、一時的な異常なノイズをイベントとして検出してしまうことを防ぐことができる。

また、本実施形態では、ノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。具体的には、ノイズへの寄与度が大きい順に、発言を除去した場合と同等のデータ処理を行い、ノイズ（継続時間の短いイベント候補）がなくなるまで、そのような除去を繰り返す。これにより、モデルによく合致する結果を得ることができる。

以上、述べたように、本実施形態では、時系列モデルのパラメーターの推定精度が向上するために、モデルで説明可能な部分の残差（モデルと、実際の時系列データとのずれ）が減少する効果を得ることが期待される。この推定精度の向上によって残差が減少する量が時間帯に依らずに一定であるとすると、残差のピークがより明確に表れることとなる。また、この推定精度の向上によって残差が減少する量が厳密に一定とは言えない場合にも、乗算性ノイズ以外の残差が減少すれば、残差のピーク（乗算性ノイズのピーク）がより明確に表れることとなる。その結果、自己相関では説明できない部分の検出精度が向上するという効果が得られる。これにより、精度よく発言についてのイベントが検出される。つまり、そのようなイベントに対応した、社会情勢の変化や、事件・事故等を検出するためにイベント検出装置１を用いることができ、しかもその検出精度を向上させることができる。

なお、上述した実施形態におけるイベント検出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。

（変形例１）例えば、上記の実施形態では、残差が正・負両方の場合について、残差の絶対値が閾値を超えたとき（｜ε_ｔ｜＞ｅ_ｔｈ）に、イベント候補として検出するようにしたが、これを変えて、残差が正で、且つその残差が閾値を超えたとき（ε_ｔ＞ｅ_ｔｈ）のみに、イベント候補として検出するようにしても良い。この変形例を実施した場合には、イベント検出装置１は、残差が正であるような時間帯のイベントのみを検出し、残差が負であるような時間帯のイベントを検出しないようになる。目的に応じて、そのような検出のしかたが望まれる場合には、この変形例が好ましい。

（変形例２）上記の実施形態では、イベント検出装置１は、図１に示した構成を有していた。この変形例２では、イベント検出装置は、図１に示した構成のうち、発言データ取得部１０と、抽出部１１と、系列データ生成部１２とを含まない。そして、イベント検出装置は、自己回帰モデル適用部１３と、イベント検出部１４と、イベントリスト出力部１５とを含む。この場合、系列データの生成までは、外部の別の装置で行い、生成された系列データを自己回帰モデル適用部１３が読み込んで、処理を行う。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲において、異なる設計としても良い。

本発明は、社会の分析等に利用することができる。本発明は、例えば、社会情勢の変化や、突発的な事故・事件や、インターネットを媒介とした特定の情報の急激な広まりなどを、検出するために利用することができる。放送事業では、番組制作の企画に利用したり、報道取材のきっかけとして利用したりすることができる。政府等の公共機関にとっては、社会政策の企画・立案に利用することができる。

１イベント検出装置
１０発言データ取得部
１１抽出部
１２系列データ生成部
１３自己回帰モデル適用部
１４イベント検出部
１５イベントリスト出力部
１４１残差時系列データ取得部
１４２イベント候補時刻検出部
１４３継続時間判定部
１４４除去処理部
１４５検出結果出力部

Claims

発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、
前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、
を具備することを特徴とするイベント検出装置。
発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、
前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、
をさらに具備し、
前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、
ことを特徴とする請求項１に記載のイベント検出装置。
前記イベント検出部は、
検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、
前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、
を具備することを特徴とする請求項１または請求項２のいずれか一項に記載のイベント検出装置。
前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、
ことを特徴とする請求項３に記載のイベント検出装置。
コンピューターを、
発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、
前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、
として機能させるためのプログラム。