JP2013257677A

JP2013257677A - イベント検出装置、イベント検出方法およびイベント検出プログラム

Info

Publication number: JP2013257677A
Application number: JP2012132506A
Authority: JP
Inventors: Shinji Kami; 伸治加美
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-06-12
Filing date: 2012-06-12
Publication date: 2013-12-26
Anticipated expiration: 2032-06-12
Also published as: JP5929532B2

Abstract

【課題】イベント検出精度を向上させることができるイベント検出装置を提供する。
【解決手段】イベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部１０７と、情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部１１１と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを当該定量的評価値にマッピングする感情強度バランス評価部１０８と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部１０９とを備える。
【選択図】図７

Description

本発明は、大規模データからのイベント検出装置、イベント検出方法およびイベント検出プログラムに関し、特に様々な属性情報が付随する大規模なテキストデータからのイベント検出装置、イベント検出方法およびイベント検出プログラムに関する。

Ｔｗｉｔｔｅｒに代表されるマイクロブログの普及により、使用者がリアルタイムにテキスト情報を、アップロードをすることが可能となり、何らかのイベントが起きた時、その情報についての情報がリアルタイムにアップロードされている。そのため、そのテキスト情報を分析することで、その情報がアップロードされた時間に、何かインパクトの大きいイベントが起きていたことを検出することができる。

イベントを検出する際、何らかのイベントに関係する特定情報の出現頻度を分析することがよく行われる。例えば、非特許文献１には、テキスト情報を分析し、急激に特定の単語が増えた時間セグメントを見つけることで、イベントの検出を行う技術が開示されている。しかし、出現頻度が急増した単語が必ずしもイベントにつながっているとは限らない。

そこで、例えば非特許文献２には、特にテキスト情報に含まれる感情情報の強さに着目し、感情情報の強さが急増した部分を見つけることで、イベントを検出する試みについて記載されている。つまり、感情的傾向の強さが急増したテキストが集中する時刻付近において、なんらかの社会的にインパクトのあるイベントが起きている可能性が高い、と仮定しイベント検出が行われている。

Jianshu Weng, Bu-Sung Lee, "Event Detection in Twitter", Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media （ICWSM2011）,2011,pages 401-408 Mike Thewall, Kevan Buckley, Georgios Paltoglou, "Sentiment in Twitter Events", Journal of the American Society for Information Science and Technology,February 2011,Volume 62, Issue 2, pages 406-418

しかし、非特許文献２に記載された技術では、収集した全てのマイクロブログ情報を用いて感情情報の強度の時間推移を参照しているため、時間的に平均化すると微妙な感情強度の変化が平滑化されがちであり、検出精度が低下してしまう。一般にイベントは、時間的、場所的に局在していることが多く、さらには、どのような人がそのイベントに敏感に反応するかなど、イベントに関する情報は様々な要素に依存する。つまり、情報の感情量変化は、様々なパラメータの局所量であり、平滑化によって検出が難しくなる。

つまり、第一の問題点は情報に含まれる感情的傾向の変化が、様々な属性情報に強く依存し、それらの属性情報に関する局所性を考慮しないと精度よくイベントを検出することができないということである。その理由は、何らかのイベントに関する情報は、その情報の属性情報に関して敏感であり、その結果、その感情的傾向の変化は属性情報の局所量となるからである。また、何らかのイベントに関する情報やその感情的傾向は、その情報を発信する発信者や時間、場所などに強く依存するため、検出したいイベントによっては複数の属性情報を考慮する必要があり、時間情報だけでは不十分で様々な属性情報を考慮する必要がある。

また、第二の問題点に単に感情的傾向の急増を検出するだけでは、局所的な変化のトレンドが考慮されないため、単なる急増では情報のアップロードの多い場所の影響などを受けやすく、絶対数が少ない局所的変化の検出が難しくなるからである。

そこで、本発明は、イベント検出精度を向上させることができるイベント検出装置、イベント検出方法およびイベント検出プログラムを提供することを目的とする。

本発明によるイベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化部と、前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部と、前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価部と、前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部とを備えたことを特徴とする。

本発明によるイベント検出方法は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出方法であって、前記情報の属性情報を用いて前記情報を複数のセグメントに分割し、前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類し、前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングし、前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力することを特徴とする。

本発明によるイベント検出プログラムは、コンピュータに、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出する処理を実行させるイベント検出プログラムであって、コンピュータに、前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化処理と、前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理処理と、前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価処理と、前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形処理とを実行させることを特徴とする。

本発明によれば、イベント検出精度を向上させることができる。

本発明によるイベント検出装置の実施形態の構成を示すブロック図である。本発明によるイベント検出装置の実施形態の動作を示すフローチャートである。実施例における属性情報のセグメント化の方法を示した模式図である。実施例におけるセグメント毎に分類されたテキスト情報およびその感情強度を含むテーブルの一例を示す説明図である。実施例におけるセグメントに分布するテキスト情報の一例を示す模式図である。実施例における各セグメントの評価値の分布を示す説明図である。本発明によるイベント検出装置の主要部の構成を示すブロック図である。

以下、本発明の実施形態を、図面を参照して詳細に説明する。図１は、本発明によるイベント検出装置の実施形態の構成を示すブロック図である。図１に示すように、本実施形態のイベント検出装置は、情報受信部１０２と、情報管理部１０３と、データベース１０４と、感情分析部１０５と、感情分類部１０６と、セグメント化部１０７と、感情強度バランス評価部１０８と、情報整形部１０９とを備える。本実施形態のイベント検出装置は、情報発信者１０１が発信した情報を管理し、その情報を用いてイベント情報である出力データ１１０を出力する。

情報発信者１０１から発信される情報は、典型的には発信時間、発信場所を属性として含むテキスト情報であるが、発信者に関するプロファイル情報などのより複雑な属性情報を含んでもよいし、テキスト情報に限るものではない。

出力データ１１０は、情報発信者が送信したデータから、イベント情報に代表される、なんらかの特定事象への人々が興味度合いの高まりに基づいて検出された情報である。出力データ１１０は、典型的には、あるイベントが特定時間、特定場所で起こった場合に入力されるそのイベントに関するコメントなどのテキスト情報から得られる、そのイベントの詳細に関する情報などが挙げられる。

情報受信部１０２は、ネットワークを経由して情報発信者から発信された情報を収集し、情報管理部１０３に送信する。

情報管理部１０３は、情報受信部１０２が収集した情報をデータベース１０４に保存し、管理する。情報管理部１０３は、典型的にはリレーショナルデータベースなどで表現されるデータベースシステムであり、データの要求に対して該当するデータを出力し、必要に応じて情報更新などを行うこともできる。

感情分析部１０５は、情報管理部１０３を通して得られたデータベース１０４のデータや、必要に応じて学習用の別データを用いて、収集情報の感情成分を分析する。また、感情分析部１０５は、分析した結果に基づいて、新しい情報を分類する分類器を作成したり、またその分類アルゴリズムを新しく入ってくる情報に基づいて更新したりする。

感情分類部１０６は、データベース１０４に保存された情報を、感情分析部１０５から受け取った分類器を用いて、分類する。分類器は、典型的には、「ポジティブ」「ネガティブ」「ニュートラル」などのように、情報をいくつかのクラスに分類する。

セグメント化部１０７は、情報受信部１０２が収集した情報の属性情報の全空間をセグメント化し、入力した個々の情報をそのセグメント化されたどこかの領域にマッピングする。セグメント化部１０７は、典型的には、例えば入力したテキスト情報の属性情報に発信時間と発信場所とが含まれる場合、時間的、場所的にセグメント化し、どの時間スロットにどこの小領域から発信されたテキスト情報であるかをマッピングする。

セグメント化部１０７による属性情報空間のセグメント化は、イベント情報を検出する上で、後述する感情強度バランス変化の特徴をとらえるのに必要なセグメント化を施すことが目的である。そのため、属性情報空間は、本実施形態では説明を簡単にするため時間と場所のみに限るが、例えば、発信者の性別、年齢、趣向情報など様々な詳細情報を含んだ複雑な空間であってもよい。イベントに関する情報やその感情的傾向の推移は、その場所や時間だけでなく上記の詳細情報に強く依存するため、属性情報空間に上記の詳細情報を含むことでイベント検出精度をより向上させることができる。

感情強度バランス評価部１０８は、各セグメントに属するテキスト情報の感情分類を用いて、テキスト情報の強度バランスを評価し、テキスト情報を序列化可能な評価値に定量化する。

情報整形部１０９は、その定量化された感情強度バランス評価値を用いて、あらかじめ決められたルール（例えば適当な正の整数Ｑを用いて上位Ｑ個を選別する）に基づいて出力する情報を選択し、選別された情報の中からイベント情報を抽出、加工し、出力データ１１０を作成する。

次に、本実施形態の動作を説明する。図２は、本発明によるイベント検出装置の実施形態の動作を示すフローチャートである。情報発信者１０１は、スマートフォン、携帯電話に代表される計算端末より、適当なアプリケーションを用いて、テキスト情報をアップロードする（ステップＳ１）。テキスト情報には、例えば、アップロードした時間やＧＰＳなどによって取得された位置情報、または必要に応じてその他の属性情報も含まれる。なお、情報発信者１０１による情報発信は常に行われ、情報受信部１０２は、常にポートを開いて、情報を受信可能な状態になっている。また、情報管理部１０３は、受信した情報をデータベース１０４に保存する。

感情分析部１０５は、テキスト情報に対して、あらかじめ管理者によって設定された出力クラスおよび強度情報を出力するための分類器を作成する（ステップＳ２）。強度情報とは、分類されたクラスに属することの確からしさを定量的に表す情報である。本実施形態では、出力クラスを感情がポジティブ、ネガティブ、それ以外の三種類であるとし、分類器は、例えば入力したテキストのクラスをポジティブと判定すると、そのテキストをポジティブとマークし、テキストの強度情報も合わせて記録する。

この分類器の作成方法は、様々な手法が考えられるが、感情的傾向およびその強度を算出可能であればよく、以下に説明する例に限定されるものではない。非常に単純な方法としては、辞書をあらかじめ用意し、ポジティブ用語の辞書、ネガティブ用語の辞書を参照して、テキスト内のそれらの辞書に登録された単語の含蓄量からテキスト全体の感情量を推定する手法が用いられる。テキスト内にポジティブ用語、およびネガティブ用語の両方が含まれている場合は、例えば、ポジティブ単語の方が多ければ、そのテキストのクラスをポジティブにする、というようなルールを決めておく。

もう少し複雑で適応的な手法として、代表的には機械学習を用いる方法がある。機械学習の学習方法として、教師なし、教師ありがあるが、ここでは教師あり学習を行うことにし、まず答えのデータセット（テストデータ）を用意する。つまり、感情分析部１０５は、適当なテキストとそのテキストの判定結果（分類クラス）が明記されたデータの集合を用意し、そのデータ集合を元にデフォルト分類器を作成する。感情分析部１０５は、例えばナイーブベイズを使って分類器を作成してもよいし、サポートベクターマシーンに代表される非線形分類手法などを用いて分類器を作成してもよい。

ナイーブベイズを用いる場合の分類器の作成方法例を説明する。まず、特定キーワードｆが含まれていた場合の各クラスｃに分類される確率ｐ（ｆ｜ｃ）を計算する。もし、分類対象テキストｔがｆ１、・・・、ｆｋのＫ個のキーワードを含んでおり独立性があると仮定した場合、それらのキーワードが含まれていた場合にそのテキストｔがクラスｃに分類される確率ｐ（ｃ｜ｔ）をｐ（ｃ）×ｐ（ｆ１｜ｃ）×・・・×ｐ（ｆｋ｜ｃ）とする。ｐ（ｃ）は、テキストｔがクラスｃに分類される事前確率である。ｐ（ｃ）は、例えば、全てのクラスに同じ確率を用いてもよく、テストデータの中のクラスの分布に基づいて決められてもよい。このようにｐ（ｃ｜ｔ）を算出する機能と、ｐ（ｃ｜ｔ）のなかで一番大きな値（最大事後確率）を持つクラスｃを出力する機能が作成されることで分類器が作成される。

ここで、特定キーワードの選択手法には様々な手法が用いられる。非常に簡単な手法としては、例えば、辞書を予め用意しておく方法や、テキストの中で単語の頻出数順にソートし、上位の適当な数の単語を用いる方法などがある。また、特定キーワードの選択手法の他の方法として、例えば以下に説明するような情報量利得をつかう方法がある。

情報量利得を用いる場合、まずテストデータセットの全てのテキストに含まれる単語を、形態素分析などによって抽出する。そして、各単語ｗを含むか含まないかによりテストデータすべてを分割した場合の、分割前後のクラス分類に関する情報量の変化量に応じて単語を選ぶ。例えば、あるデータ集合Ｄ＝｛（ｔ、ｃ）｝が与えられたとき、その情報量Ｉ_Ｄを以下の式（１）のように定義する。

ただし、Ｃはクラスの総数（この例ではポジティブ、ネガティブ、それ以外の３）であり、ｇｃはＤの中でクラスｃであるテキストの数、ＧはＤに含まれるテキスト総数である。すると、ある単語ｗの分割によって、Ｄ_０→（Ｄ_１、Ｄ_２）となったとすると、分割前の情報量Ｉ_０から分割後の情報量Ｉ_１を引いた量ΔＩは、以下の式（２）で表される。

ただし、Ｇ_１およびＧ_２は、Ｄ_１およびＤ_２に含まれるテキストの総数であり、Ｇ＝Ｇ_１＋Ｇ_２である。例えば、ある単語ｗを使って分類したＤ_１にはあるクラスｃのみのテキストが含まれ、Ｄ_２には他の全てのテキストが含まれる場合、Ｉ_Ｄ１は０となるため、ΔＩは大きくなる。全ての単語に対してこのΔＩを計算し、適当な正の整数Ｑを定め、ΔＩの大きなものからＱ個選出することで、特徴的なキーワードを選出することができる。

感情分析部１０５は、サポートベクターマシーンを使う場合、分類する対象テキストを、同様に選出された特徴キーワードの含有情報によって多次元ベクトル空間上の一点にマップし、その空間をもっともよく分けるサポートベクターを選出する。多次元ベクトル空間へのマッピングの例として、選出された特徴キーワードの数をＮとするとＮ次元ベクトル空間を定義し、そのうち、各キーワードのテキスト内の含有数を成分とするベクトルとしてテキストを表現する方法が用いられる。また、例えば、各キーワードを含む場合を１と表現し、含まない場合を０と表現する方法を用いてもよい。なお、多次元ベクトル空間へのマッピングの表現方法は他にもあり上記の例に限るものではない。

このように準備されたデフォルト分類器は、感情分類部１０６にセットされる。情報受信部１０２は、新しい情報を受信する度に、情報管理部１０３に情報の保管処理を依頼し、情報管理部１０３はデータベース１０４を更新する。

セグメント化部１０７は、情報管理部１０３からデータを取得し、各情報の属性情報を使って、テキストデータ集合をセグメント化する（ステップＳ３）。セグメント化の方法は、様々な方法があるが、イベントに対するテキスト情報の感情的傾向の強度分布の局所性がとらえられ、特定のセグメントに感情的傾向が強いテキスト情報が属するようにセグメント化されることが望ましい。セグメント化の方法の非常に単純な手法の一つとして、例えば、固定的に領域分割を行い、セグメント化に用いる属性情報も固定的に何を使うかを決めておく方法があり、以下その方法を用いた例を説明する。

セグメント化部１０７は、属性情報として発信時間と発信場所を用い、あらかじめ定められた適当な時間間隔や適当な空間間隔で区切られたセグメントを定義する。また、セグメント化部１０７は、入力情報が所属するセグメント（Ｓ＿ｉとする）を特定し、セグメント毎にテキスト情報を分類し直したテーブルＴを作成する。

さらに、セグメント化部１０７は、各セグメントＳ＿ｉに属する各テキストデータに対して、感情分類部１０６を用いて各テキストデータのクラス分類情報を計算することで、各セグメントＳ＿ｉのクラス数の分布Φ＿ｉ（ｃ）を得る。セグメント化部１０７は、この分布Φ＿ｉ（ｃ）から、感情強度バランス評価部１０８を用いて、セグメントＳ＿ｉに対する評価値Ｘ_ｉを得る。セグメント化部１０７は、全てのセグメントに対して同様の処理を行い、テーブルＴにおいて、各セグメントの評価値情報を付与し、このテーブルを情報整形部１０９に送信する。

感情強度バランス評価部１０８は、クラス数の分布を実数にマッピングする関数を用いて、クラス数の分布から感情強度バランス評価値を算出する（ステップＳ４）。あるセグメントのポジティブテキストの数をＰ、ネガティブテキストの数をＮ、それ以外のテキストの数をＬとすると、以下の式（３）が得られる。

式（３）は、評価値Ｘを計算する評価値計算関数の一例である。式（３）において、αは適当な実数として管理者が事前に設定するパラメータ値である。これは、イベントがおきているときは、感情的テキスト数のバランスが、ポジティブ側であってもネガティブ側であっても崩れる、ということを仮定している。また、式（３）において、Ｐ＋Ｎが分母にある理由は、場所や時間によって情報のアップロード数が大きく変わるため、例えば都心や日中は、郊外や深夜より絶対数が多いことが予測され、その効果を打ち消すためである。

また、式（３）において、同じ場所かつ同じ時間であるが、日付（もしくは曜日や月、年など様々な周期的単位をもちいてもよい）の異なるセグメント全てに対して、その平均値Ａｖｅ（Ｐ＋Ｎ）を計算し、その計算された値をＰ＋Ｎの代わりに使ってもよい。さらに、イベントが起きているときは感情的なテキスト量（Ｐ＋Ｎ）とそれ以外のテキスト数Ｌの割合が変わることを仮定すると、以下の式（４）が得られる。

式（４）に示すように、変数ｙに対する適当な増加関数ｈ（ｙ）を使って、式（３）を補正することも可能である。この増加関数は、単純にはｈ（ｙ）＝ｙであるが、これに限るものではない。また、例えば、ｙ＝（Ｐ＋Ｎ）／（Ｐ＋Ｎ＋Ｌ）の代わりに、上記と同様に、同じ場所かつ同じ時間で日付の異なるセグメントに対する平均値Ａｖｅ（Ｐ＋Ｎ＋Ｌ）を使って、ｙ＝（Ｐ＋Ｎ）／Ａｖｅ（Ｐ＋Ｎ＋Ｌ）としてもよい。ここで、平均値を算出する方法として、セグメント化する属性情報のうち時間情報を基準に行う例を示したが、場合によっては、例えば、場所を基準にしてある特定の施設を含むセグメント間で行ってもよく、さらに情報発信者のその他の属性（たとえば年齢や性別など）を用いてもよい。この方法は、管理者の考える長期トレンドをとらえることができる方法であれば何でもよい。このように、感情強度バランス評価部１０８により、記強度情報で重みを付けた前記分類情報におけるクラス間でのバランスの偏り、つまり統計的傾向からのずれが定量化される。

情報整形部１０９は、テーブルＴを受け取ったら、この評価値を用いて各セグメントを降順に序列化し上位Ｑ個（Ｑは適当な正の整数）を選択し、出力データ１１０として出力する（ステップＳ５）。このＱはあらかじめ定義されてもよいし、評価値が大きく変化する（減少する）ところまでをとってもよい。情報整形部１０９はこの選択したＱ個のテキスト情報をそのまま出力データ１１０として出力してもよいが、例えば、各セグメントが共通に含むキーワード、キーフレーズを抽出するなどして、イベントに関係の深いキーワード、キーフレーズを推測し、その情報を付加して出力してもよい。

感情分析部１０５は、上記の分類器を、教師なしの強化学習によって動的に作成してもよい。また、感情分析部１０５は、上記の分類器の作成において、例えば適当な初期状態から開始し、その判定結果に対する評価結果をフィードバックすることでより精度の高い判定結果が得られるよう漸近的に内部状態を更新してもよい。感情分析部１０５は、特に内部状態の更新には例えば遺伝的アルゴリズムを用いてもよい。

また、感情分析部１０５は、上記の分類器を作成するうえで用いられる特定キーワードを、新たなデータが入力される度に、更新していくことで、より分類精度の高いキーワードを動的に選択していくことも可能である。

さらに、セグメント化部１０７によるセグメント化の方法は、上記ではあらかじめ定められた固定的な分割を行ったが、これを適応的に行うことも可能である。セグメント化部１０７は、例えば、テキスト情報の分布をまず分析してから、それを適当な観点に従って分類するような方法で分割してもよい。例えば、全てのセグメントに同数程度のテキスト情報が所属するようにするには、Ｂ−ｔｒｅｅやその派生形などを用いてもよいし、ｋｄ−ｔｒｅｅやその派生形を使ってもよい。また主成分分析を行い、分割効率の良い方向順に分割していく方法も可能であるし、さらに、ランダム分割をおこなうことも可能である。

また、分割自体は一度で終了する必要はなく、例えば、情報整形部１０９によって序列化した際に、序列化度合いや情報整形部１０９の出力結果等に応じて、再度セグメント化方法を変更してもよい。例えば、情報整形部１０９が各セグメントの評価値で序列化し降順に並べた際に、大きく評価値が減少する特徴的なポイントがなく、行ったセグメント化が必ずしも特徴的なイベント情報を捉えられていないと判断した時には、セグメント化の条件（例えば考慮する属性情報、分割パラメータ、手法等）を変更しながら、所望の評価値の序列化が得られるまでセグメント化を繰り返してもよい。

例えば、セグメント化部１０７は、適当な属性情報を用いてランダム分割を行い、各セグメントの評価値の分布を観測し、その分布が所望の検出品質に達しているか判断する。例えば、セグメントの順位が下がる毎に線形に近い傾きでその評価値も下がっていき、高評価値のセグメントと低評価値のセグメントを明確に分離できないような場合には、所望の検出品質に達していないと判断される。そのような場合には、セグメント化部１０７は、新たなランダム分割によるセグメント化を行ったり、考慮する属性情報を変更したりして、それに対して同じように評価値分布を観測する、というプロセスを所望の条件が満たされるまで繰り返してもよい。特に、ランダム分割に代表されるランダム性を利用したトライ・アンド・エラー的プロセスは、使用者がセグメント化における属性選択や分割パラメータの事前知識に乏しい場合に有効である。

上記の説明において、クラスは、ポジティブ、ネガティブ、それ以外の三種類に分けられていたが、ポジティブ、ネガティブの二種類に分けられてもよいし、ポジティブ、ネガティブ、ニュートラル、それ以外の４種類に分けられてもよい。クラスを２種類に分ける方法は、使用者が、必ずしも感情的とは言えないテキスト情報に関しても必ずどちらかに分類したい場合に用いる。また、クラスを４種類に分ける方法は、使用者が、感情的に中立なテキスト情報と、そもそも感情とは無関係と思われる情報を明確に区別する場合に用いられる。どちら方法も、その後段で行う感情強度バランス評価部１０８における関数において活用され、例えば４種類に分けられた場合、感情とは無関係のテキスト情報を考慮から除くよう定義することが可能となる。

以下、本実施形態のイベント検出装置の動作を、実施例を用いて詳細に説明する。上述したように、情報発信者１０１は、発信場所の座標と発信時間が付随したテキスト情報をアップロードする。感情分類部１０６は、そのテキスト情報をポジティブ（Ｐ）、ネガティブ（Ｎ）またはそれ以外（Ｌ）の３種類のクラスのどれかに分類する。さらに［０：１］の範囲の実数でその強度情報も同時に計算されているとする。例えば、あるテキストがポジティブクラスに０．８の確率で属すると判定された場合、Ｐ０．８と表記される。本実施例では、簡単に表記するために、属性情報のうち場所情報を［０：２］×［０：２］の範囲の２次元空間上の一点とし、時間情報を、０から４８まで間隔［０：４８］の中の実数で表現するとする（２４時間を一日として全２日間）。

図３は、実施例における属性情報のセグメント化の方法を示した模式図である。セグメント化部１０７は、空間情報を図３に示すように領域Ｒ１、Ｒ２、Ｒ３、Ｒ４の４領域（それぞれＲ１：［０：１］×［０：１］、Ｒ２：［１：２］×［０：１］、Ｒ３：［０：１］×［１：２］、Ｒ４：［１：２］×［１：２］）に分割する。また、セグメント化部１０７は、時間情報を、Ｔ１：［０：１２］、Ｔ２：［１２：２４］、Ｔ３：［２４：３６］、Ｔ４：［３６：４８］の４領域に分割する。つまり、テキスト情報は、全部で４×４＝１６個の領域に分割され、例えば、場所（０．５、１．４）、時刻３５．３のテキスト情報は、領域Ｒ３Ｔ３に属する。

図４は、実施例におけるセグメント毎に分類されたテキスト情報およびその感情強度の一例をまとめたテーブルである。図５は、実施例におけるセグメントに分布するテキスト情報の一例の模式図である。セグメント化部１０７は、時間情報に関して、テキスト情報の発信時刻ｔに対して２４で割った余りに応じて、どの領域に属するかを判定し、セグメント化を行う。図５における記号の○はポジティブ、□はネガティブ、△はそれ以外である。ここで、セグメントＲＹＴＺ（ＹとＺとは領域番号でそれぞれ１〜４の整数値）の評価値Ｘ_ＲＹＴＺは、以下の式（５）のように表わされる。

式（５）において、ｘ_ｉは、各セグメントに属するテキスト情報ｉの強度を示し、Ｐの場合は正の値となり、Ｎの場合は負の値となり、Ｌの場合は強度にかかわらず０となる。例えば、Ｐ０．８は＋０．８、Ｎ０．３は−０．３、Ｌ０．９は０と表される。また、式（５）のΣｓｅｇｍｅｎｔはセグメントＲＹＴＺに属する全てのテキスト情報の和を示す。また、Ａｖｅ_{ｍｏｄ２４}は、セグメントＲＹＴＺの時刻領域番号Ｚが１または３の時はＲＹＴ１およびＲＹＴ３の全てのテキスト情報に対する平均を算出することを表し、時刻領域番号Ｚが２か４の時はＲＹＴ２とＲＹＴ４の全てのテキスト情報に対する平均を算出することを表す。つまり、時刻情報を原点からの経過時間とした場合、同じ場所領域に属する異なる日付のＡＭ（［０：１２］）またはＰＭ（［１２：２４］）の平均をとることを意味する。この例では２日間だけであるが、実際はもっと長い期間で計算してもよいし、また一日単位ではなく、週単位で計算し曜日毎に平均をとってもよい。

図６は、実施例における各セグメントの評価値の分布を示す説明図である。本実施例では、図６のうち、上位２個（Ｒ１Ｔ２およびＲ４Ｔ１）を、感情的傾向が強まった特徴的なセグメントとして選択する。そして、このセグメントに含まれるテキスト情報の共通キーワードもしくはキーフレーズを抽出し、場所情報と時刻情報を付与して出力する。

本発明によるイベント検出装置によれば、より高い精度でイベントを検出できる。その理由は、本発明によるイベント検出装置は、様々な属性情報を用いてセグメント化し、そのセグメント毎に感情的傾向の特徴的変化を抽出するからである。

また、本発明によるイベント検出装置によれば、テキスト情報の絶対数の少ない場所に局在したイベントも高い精度で検出できる。その理由は、本発明によるイベント検出装置は、セグメント毎に、そのテキスト情報の感情強度分布を長期トレンドと比較し、ポジティブ感情とネガティブ感情のバランスが大きく変化したところを検出するからである。

図７は、本発明によるイベント検出装置の主要部の構成を示すブロック図である。図７に示すように、本発明によるイベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、主要な構成として、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部１０７と、情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部１１１と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを当該定量的評価値にマッピングする感情強度バランス評価部１０８と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部１０９とを備える。

また、上記の実施形態では、以下の（１）〜（８）に示すようなイベント検出装置も開示されている。

（１）イベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部（例えば、セグメント化部１０７）と、情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部（例えば、感情分析部１０５および感情分類部１０６）と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを当該定量的評価値にマッピングする感情強度バランス評価部（例えば、感情強度バランス評価部１０８）と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部（例えば、情報整形部１０９）とを備える。

（２）イベント検出装置は、属性情報が、少なくとも発信時間情報、発信場所情報、および発信者の詳細情報を含むように構成されていてもよい。このようなイベント検出装置によれば、様々な属性情報を用いて情報をセグメント化するので、イベント検出精度を向上させることができる。

（３）イベント検出装置は、セグメント化部が、属性情報を用いて、全ての情報の集合を複数の部分集合へと分割するように構成されていてもよい。

（４）イベント検出装置は、感情管理部が、機械学習によって作成された分類器を用いて、情報を感情的傾向に基づいて分けられた複数のクラスに分類するとともに、当該情報に、分類されたクラスに属することの確からしさを定量的に表す強度情報を付加するように構成されていてもよい。

（５）イベント検出装置は、感情管理部が、情報が含む感情が肯定的傾向か否定的傾向かを判定することにより当該情報を複数のクラスに分類し、複数のクラスは、肯定的、および否定的の二つのクラス、肯定的、否定的およびそれ以外の三つのクラス、または肯定的、否定的、中立的およびそれ以外の４つのクラスのいずれかであり、分類されたクラスに属することの確からしさを定量的に表す強度情報を算出するように構成されていてもよい。このようなイベント検出装置によれば、使用者の意図によりクラス分類方法を変更することができる。

（６）イベント検出装置は、感情強度バランス評価部が、セグメントに属する情報の集合に対して、分類されたクラスに属することの確からしさを定量的に表す強度情報および情報の分類に関する情報である分類情報の集合に基づいて、強度情報で重みを付けた分類情報におけるクラス間でのバランスの偏りを定量化するように構成されていてもよい。

（７）イベント検出装置は、情報整形部による動作の結果が予め定めた所望の結果ではない場合、セグメント化部によるセグメント化の方法を変更し、セグメント化部によるセグメント化と、感情強度バランス評価部による定量的評価値の算出およびセグメントのマッピングを繰り返し行うように構成されていてもよい。このようなイベント検出装置によれば、使用者が結果を参照しながらセグメント化の方法を変更できるので、より精度良くイベントを検出することができる。

（８）イベント検出装置は、セグメント化部によるセグメント化の方法の変更が、セグメント化部が考慮する属性情報の変更、またはセグメント化に用いるパラメータの変更であるように構成されていてもよい。

（付記）イベント検出装置は、情報整形部が、そのセグメントに属する、セグメントの特徴として、感情強度の強い情報が共通して有する情報を抽出し、当該情報がテキスト情報である場合は、共通的に含まれるキーワードおよびキーフレーズの特徴的情報と代表的属性情報とを出力するように構成されていてもよい。

本発明は、Ｔｗｉｔｔｅｒ等のテキスト情報からのイベント検出に適用される。

１０１情報発信者
１０２情報受信部
１０３情報管理部
１０４データベース
１０５感情分析部
１０６感情分類部
１０７セグメント化部
１０８感情強度バランス評価部
１０９情報整形部
１１０出力データ
１１１感情管理部

Claims

属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、
前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化部と、
前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部と、
前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価部と、
前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部とを備えた
ことを特徴とするイベント検出装置。
属性情報は、少なくとも発信時間情報、発信場所情報、および発信者の詳細情報を含む
請求項１記載のイベント検出装置。
セグメント化部は、属性情報を用いて、全ての情報の集合を複数の部分集合へと分割する
請求項１または請求項２記載のイベント検出装置。
感情管理部は、
機械学習によって作成された分類器を用いて、情報を感情的傾向に基づいて分けられた複数のクラスに分類するとともに、当該情報に、分類された前記クラスに属することの確からしさを定量的に表す強度情報を付加する
請求項１から請求項３のうちのいずれか１項に記載のイベント検出装置。
感情管理部は、
情報が含む感情が肯定的傾向か否定的傾向かを判定することにより当該情報を複数のクラスに分類し、
前記複数のクラスは、肯定的、および否定的の二つのクラス、肯定的、否定的およびそれ以外の三つのクラス、または肯定的、否定的、中立的およびそれ以外の４つのクラスのいずれかであり、
分類された前記クラスに属することの確からしさを定量的に表す強度情報を算出する
請求項１から請求項４のうちのいずれか１項に記載のイベント検出装置。
感情強度バランス評価部は、
セグメントに属する情報の集合に対して、分類されたクラスに属することの確からしさを定量的に表す強度情報および情報の分類に関する分類情報の集合に基づいて、前記強度情報で重みを付けた前記分類情報におけるクラス間でのバランスの偏りを定量化する
請求項１から請求項５のうちのいずれか１項に記載のイベント検出装置。
情報整形部による動作の結果が予め定めた所望の結果ではない場合、セグメント化部によるセグメント化の方法を変更し、前記セグメント化部によるセグメント化と、感情強度バランス評価部による定量的評価値の算出および前記セグメントのマッピングを繰り返し行う
請求項１から請求項６のうちのいずれか１項に記載のイベント検出装置。
セグメント化部によるセグメント化の方法の変更は、前記セグメント化部が考慮する属性情報の変更、またはセグメント化に用いるパラメータの変更である
請求項７記載のイベント検出装置。
属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出方法であって、
前記情報の属性情報を用いて前記情報を複数のセグメントに分割し、
前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類し、
前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングし、
前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する
ことを特徴とするイベント検出方法。
コンピュータに、
属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出する処理を実行させるイベント検出プログラムであって、
コンピュータに、
前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化処理と、
前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理処理と、
前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価処理と、
前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形処理と
を実行させるイベント検出プログラム。