JP2013257677A - イベント検出装置、イベント検出方法およびイベント検出プログラム - Google Patents

イベント検出装置、イベント検出方法およびイベント検出プログラム Download PDF

Info

Publication number
JP2013257677A
JP2013257677A JP2012132506A JP2012132506A JP2013257677A JP 2013257677 A JP2013257677 A JP 2013257677A JP 2012132506 A JP2012132506 A JP 2012132506A JP 2012132506 A JP2012132506 A JP 2012132506A JP 2013257677 A JP2013257677 A JP 2013257677A
Authority
JP
Japan
Prior art keywords
information
event detection
segment
evaluation value
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012132506A
Other languages
English (en)
Other versions
JP5929532B2 (ja
Inventor
Shinji Kami
伸治 加美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012132506A priority Critical patent/JP5929532B2/ja
Publication of JP2013257677A publication Critical patent/JP2013257677A/ja
Application granted granted Critical
Publication of JP5929532B2 publication Critical patent/JP5929532B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】イベント検出精度を向上させることができるイベント検出装置を提供する。
【解決手段】イベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部107と、情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部111と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを当該定量的評価値にマッピングする感情強度バランス評価部108と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部109とを備える。
【選択図】図7

Description

本発明は、大規模データからのイベント検出装置、イベント検出方法およびイベント検出プログラムに関し、特に様々な属性情報が付随する大規模なテキストデータからのイベント検出装置、イベント検出方法およびイベント検出プログラムに関する。
Twitterに代表されるマイクロブログの普及により、使用者がリアルタイムにテキスト情報を、アップロードをすることが可能となり、何らかのイベントが起きた時、その情報についての情報がリアルタイムにアップロードされている。そのため、そのテキスト情報を分析することで、その情報がアップロードされた時間に、何かインパクトの大きいイベントが起きていたことを検出することができる。
イベントを検出する際、何らかのイベントに関係する特定情報の出現頻度を分析することがよく行われる。例えば、非特許文献1には、テキスト情報を分析し、急激に特定の単語が増えた時間セグメントを見つけることで、イベントの検出を行う技術が開示されている。しかし、出現頻度が急増した単語が必ずしもイベントにつながっているとは限らない。
そこで、例えば非特許文献2には、特にテキスト情報に含まれる感情情報の強さに着目し、感情情報の強さが急増した部分を見つけることで、イベントを検出する試みについて記載されている。つまり、感情的傾向の強さが急増したテキストが集中する時刻付近において、なんらかの社会的にインパクトのあるイベントが起きている可能性が高い、と仮定しイベント検出が行われている。
Jianshu Weng, Bu-Sung Lee, "Event Detection in Twitter", Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM2011),2011,pages 401-408 Mike Thewall, Kevan Buckley, Georgios Paltoglou, "Sentiment in Twitter Events", Journal of the American Society for Information Science and Technology,February 2011,Volume 62, Issue 2, pages 406-418
しかし、非特許文献2に記載された技術では、収集した全てのマイクロブログ情報を用いて感情情報の強度の時間推移を参照しているため、時間的に平均化すると微妙な感情強度の変化が平滑化されがちであり、検出精度が低下してしまう。一般にイベントは、時間的、場所的に局在していることが多く、さらには、どのような人がそのイベントに敏感に反応するかなど、イベントに関する情報は様々な要素に依存する。つまり、情報の感情量変化は、様々なパラメータの局所量であり、平滑化によって検出が難しくなる。
つまり、第一の問題点は情報に含まれる感情的傾向の変化が、様々な属性情報に強く依存し、それらの属性情報に関する局所性を考慮しないと精度よくイベントを検出することができないということである。その理由は、何らかのイベントに関する情報は、その情報の属性情報に関して敏感であり、その結果、その感情的傾向の変化は属性情報の局所量となるからである。また、何らかのイベントに関する情報やその感情的傾向は、その情報を発信する発信者や時間、場所などに強く依存するため、検出したいイベントによっては複数の属性情報を考慮する必要があり、時間情報だけでは不十分で様々な属性情報を考慮する必要がある。
また、第二の問題点に単に感情的傾向の急増を検出するだけでは、局所的な変化のトレンドが考慮されないため、単なる急増では情報のアップロードの多い場所の影響などを受けやすく、絶対数が少ない局所的変化の検出が難しくなるからである。
そこで、本発明は、イベント検出精度を向上させることができるイベント検出装置、イベント検出方法およびイベント検出プログラムを提供することを目的とする。
本発明によるイベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化部と、前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部と、前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価部と、前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部とを備えたことを特徴とする。
本発明によるイベント検出方法は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出方法であって、前記情報の属性情報を用いて前記情報を複数のセグメントに分割し、前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類し、前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングし、前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力することを特徴とする。
本発明によるイベント検出プログラムは、コンピュータに、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出する処理を実行させるイベント検出プログラムであって、コンピュータに、前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化処理と、前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理処理と、前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価処理と、前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形処理とを実行させることを特徴とする。
本発明によれば、イベント検出精度を向上させることができる。
本発明によるイベント検出装置の実施形態の構成を示すブロック図である。 本発明によるイベント検出装置の実施形態の動作を示すフローチャートである。 実施例における属性情報のセグメント化の方法を示した模式図である。 実施例におけるセグメント毎に分類されたテキスト情報およびその感情強度を含むテーブルの一例を示す説明図である。 実施例におけるセグメントに分布するテキスト情報の一例を示す模式図である。 実施例における各セグメントの評価値の分布を示す説明図である。 本発明によるイベント検出装置の主要部の構成を示すブロック図である。
以下、本発明の実施形態を、図面を参照して詳細に説明する。図1は、本発明によるイベント検出装置の実施形態の構成を示すブロック図である。図1に示すように、本実施形態のイベント検出装置は、情報受信部102と、情報管理部103と、データベース104と、感情分析部105と、感情分類部106と、セグメント化部107と、感情強度バランス評価部108と、情報整形部109とを備える。本実施形態のイベント検出装置は、情報発信者101が発信した情報を管理し、その情報を用いてイベント情報である出力データ110を出力する。
情報発信者101から発信される情報は、典型的には発信時間、発信場所を属性として含むテキスト情報であるが、発信者に関するプロファイル情報などのより複雑な属性情報を含んでもよいし、テキスト情報に限るものではない。
出力データ110は、情報発信者が送信したデータから、イベント情報に代表される、なんらかの特定事象への人々が興味度合いの高まりに基づいて検出された情報である。出力データ110は、典型的には、あるイベントが特定時間、特定場所で起こった場合に入力されるそのイベントに関するコメントなどのテキスト情報から得られる、そのイベントの詳細に関する情報などが挙げられる。
情報受信部102は、ネットワークを経由して情報発信者から発信された情報を収集し、情報管理部103に送信する。
情報管理部103は、情報受信部102が収集した情報をデータベース104に保存し、管理する。情報管理部103は、典型的にはリレーショナルデータベースなどで表現されるデータベースシステムであり、データの要求に対して該当するデータを出力し、必要に応じて情報更新などを行うこともできる。
感情分析部105は、情報管理部103を通して得られたデータベース104のデータや、必要に応じて学習用の別データを用いて、収集情報の感情成分を分析する。また、感情分析部105は、分析した結果に基づいて、新しい情報を分類する分類器を作成したり、またその分類アルゴリズムを新しく入ってくる情報に基づいて更新したりする。
感情分類部106は、データベース104に保存された情報を、感情分析部105から受け取った分類器を用いて、分類する。分類器は、典型的には、「ポジティブ」「ネガティブ」「ニュートラル」などのように、情報をいくつかのクラスに分類する。
セグメント化部107は、情報受信部102が収集した情報の属性情報の全空間をセグメント化し、入力した個々の情報をそのセグメント化されたどこかの領域にマッピングする。セグメント化部107は、典型的には、例えば入力したテキスト情報の属性情報に発信時間と発信場所とが含まれる場合、時間的、場所的にセグメント化し、どの時間スロットにどこの小領域から発信されたテキスト情報であるかをマッピングする。
セグメント化部107による属性情報空間のセグメント化は、イベント情報を検出する上で、後述する感情強度バランス変化の特徴をとらえるのに必要なセグメント化を施すことが目的である。そのため、属性情報空間は、本実施形態では説明を簡単にするため時間と場所のみに限るが、例えば、発信者の性別、年齢、趣向情報など様々な詳細情報を含んだ複雑な空間であってもよい。イベントに関する情報やその感情的傾向の推移は、その場所や時間だけでなく上記の詳細情報に強く依存するため、属性情報空間に上記の詳細情報を含むことでイベント検出精度をより向上させることができる。
感情強度バランス評価部108は、各セグメントに属するテキスト情報の感情分類を用いて、テキスト情報の強度バランスを評価し、テキスト情報を序列化可能な評価値に定量化する。
情報整形部109は、その定量化された感情強度バランス評価値を用いて、あらかじめ決められたルール(例えば適当な正の整数Qを用いて上位Q個を選別する)に基づいて出力する情報を選択し、選別された情報の中からイベント情報を抽出、加工し、出力データ110を作成する。
次に、本実施形態の動作を説明する。図2は、本発明によるイベント検出装置の実施形態の動作を示すフローチャートである。情報発信者101は、スマートフォン、携帯電話に代表される計算端末より、適当なアプリケーションを用いて、テキスト情報をアップロードする(ステップS1)。テキスト情報には、例えば、アップロードした時間やGPSなどによって取得された位置情報、または必要に応じてその他の属性情報も含まれる。なお、情報発信者101による情報発信は常に行われ、情報受信部102は、常にポートを開いて、情報を受信可能な状態になっている。また、情報管理部103は、受信した情報をデータベース104に保存する。
感情分析部105は、テキスト情報に対して、あらかじめ管理者によって設定された出力クラスおよび強度情報を出力するための分類器を作成する(ステップS2)。強度情報とは、分類されたクラスに属することの確からしさを定量的に表す情報である。本実施形態では、出力クラスを感情がポジティブ、ネガティブ、それ以外の三種類であるとし、分類器は、例えば入力したテキストのクラスをポジティブと判定すると、そのテキストをポジティブとマークし、テキストの強度情報も合わせて記録する。
この分類器の作成方法は、様々な手法が考えられるが、感情的傾向およびその強度を算出可能であればよく、以下に説明する例に限定されるものではない。非常に単純な方法としては、辞書をあらかじめ用意し、ポジティブ用語の辞書、ネガティブ用語の辞書を参照して、テキスト内のそれらの辞書に登録された単語の含蓄量からテキスト全体の感情量を推定する手法が用いられる。テキスト内にポジティブ用語、およびネガティブ用語の両方が含まれている場合は、例えば、ポジティブ単語の方が多ければ、そのテキストのクラスをポジティブにする、というようなルールを決めておく。
もう少し複雑で適応的な手法として、代表的には機械学習を用いる方法がある。機械学習の学習方法として、教師なし、教師ありがあるが、ここでは教師あり学習を行うことにし、まず答えのデータセット(テストデータ)を用意する。つまり、感情分析部105は、適当なテキストとそのテキストの判定結果(分類クラス)が明記されたデータの集合を用意し、そのデータ集合を元にデフォルト分類器を作成する。感情分析部105は、例えばナイーブベイズを使って分類器を作成してもよいし、サポートベクターマシーンに代表される非線形分類手法などを用いて分類器を作成してもよい。
ナイーブベイズを用いる場合の分類器の作成方法例を説明する。まず、特定キーワードfが含まれていた場合の各クラスcに分類される確率p(f|c)を計算する。もし、分類対象テキストtがf1、・・・、fkのK個のキーワードを含んでおり独立性があると仮定した場合、それらのキーワードが含まれていた場合にそのテキストtがクラスcに分類される確率p(c|t)をp(c)×p(f1|c)×・・・×p(fk|c)とする。p(c)は、テキストtがクラスcに分類される事前確率である。p(c)は、例えば、全てのクラスに同じ確率を用いてもよく、テストデータの中のクラスの分布に基づいて決められてもよい。このようにp(c|t)を算出する機能と、p(c|t)のなかで一番大きな値(最大事後確率)を持つクラスcを出力する機能が作成されることで分類器が作成される。
ここで、特定キーワードの選択手法には様々な手法が用いられる。非常に簡単な手法としては、例えば、辞書を予め用意しておく方法や、テキストの中で単語の頻出数順にソートし、上位の適当な数の単語を用いる方法などがある。また、特定キーワードの選択手法の他の方法として、例えば以下に説明するような情報量利得をつかう方法がある。
情報量利得を用いる場合、まずテストデータセットの全てのテキストに含まれる単語を、形態素分析などによって抽出する。そして、各単語wを含むか含まないかによりテストデータすべてを分割した場合の、分割前後のクラス分類に関する情報量の変化量に応じて単語を選ぶ。例えば、あるデータ集合D={(t、c)}が与えられたとき、その情報量Iを以下の式(1)のように定義する。
Figure 2013257677
ただし、Cはクラスの総数(この例ではポジティブ、ネガティブ、それ以外の3)であり、gcはDの中でクラスcであるテキストの数、GはDに含まれるテキスト総数である。すると、ある単語wの分割によって、D→(D、D)となったとすると、分割前の情報量Iから分割後の情報量Iを引いた量ΔIは、以下の式(2)で表される。
Figure 2013257677
ただし、GおよびGは、DおよびDに含まれるテキストの総数であり、G=G+Gである。例えば、ある単語wを使って分類したDにはあるクラスcのみのテキストが含まれ、Dには他の全てのテキストが含まれる場合、ID1は0となるため、ΔIは大きくなる。全ての単語に対してこのΔIを計算し、適当な正の整数Qを定め、ΔIの大きなものからQ個選出することで、特徴的なキーワードを選出することができる。
感情分析部105は、サポートベクターマシーンを使う場合、分類する対象テキストを、同様に選出された特徴キーワードの含有情報によって多次元ベクトル空間上の一点にマップし、その空間をもっともよく分けるサポートベクターを選出する。多次元ベクトル空間へのマッピングの例として、選出された特徴キーワードの数をNとするとN次元ベクトル空間を定義し、そのうち、各キーワードのテキスト内の含有数を成分とするベクトルとしてテキストを表現する方法が用いられる。また、例えば、各キーワードを含む場合を1と表現し、含まない場合を0と表現する方法を用いてもよい。なお、多次元ベクトル空間へのマッピングの表現方法は他にもあり上記の例に限るものではない。
このように準備されたデフォルト分類器は、感情分類部106にセットされる。情報受信部102は、新しい情報を受信する度に、情報管理部103に情報の保管処理を依頼し、情報管理部103はデータベース104を更新する。
セグメント化部107は、情報管理部103からデータを取得し、各情報の属性情報を使って、テキストデータ集合をセグメント化する(ステップS3)。セグメント化の方法は、様々な方法があるが、イベントに対するテキスト情報の感情的傾向の強度分布の局所性がとらえられ、特定のセグメントに感情的傾向が強いテキスト情報が属するようにセグメント化されることが望ましい。セグメント化の方法の非常に単純な手法の一つとして、例えば、固定的に領域分割を行い、セグメント化に用いる属性情報も固定的に何を使うかを決めておく方法があり、以下その方法を用いた例を説明する。
セグメント化部107は、属性情報として発信時間と発信場所を用い、あらかじめ定められた適当な時間間隔や適当な空間間隔で区切られたセグメントを定義する。また、セグメント化部107は、入力情報が所属するセグメント(S_iとする)を特定し、セグメント毎にテキスト情報を分類し直したテーブルTを作成する。
さらに、セグメント化部107は、各セグメントS_iに属する各テキストデータに対して、感情分類部106を用いて各テキストデータのクラス分類情報を計算することで、各セグメントS_iのクラス数の分布Φ_i(c)を得る。セグメント化部107は、この分布Φ_i(c)から、感情強度バランス評価部108を用いて、セグメントS_iに対する評価値Xを得る。セグメント化部107は、全てのセグメントに対して同様の処理を行い、テーブルTにおいて、各セグメントの評価値情報を付与し、このテーブルを情報整形部109に送信する。
感情強度バランス評価部108は、クラス数の分布を実数にマッピングする関数を用いて、クラス数の分布から感情強度バランス評価値を算出する(ステップS4)。あるセグメントのポジティブテキストの数をP、ネガティブテキストの数をN、それ以外のテキストの数をLとすると、以下の式(3)が得られる。
Figure 2013257677
式(3)は、評価値Xを計算する評価値計算関数の一例である。式(3)において、αは適当な実数として管理者が事前に設定するパラメータ値である。これは、イベントがおきているときは、感情的テキスト数のバランスが、ポジティブ側であってもネガティブ側であっても崩れる、ということを仮定している。また、式(3)において、P+Nが分母にある理由は、場所や時間によって情報のアップロード数が大きく変わるため、例えば都心や日中は、郊外や深夜より絶対数が多いことが予測され、その効果を打ち消すためである。
また、式(3)において、同じ場所かつ同じ時間であるが、日付(もしくは曜日や月、年など様々な周期的単位をもちいてもよい)の異なるセグメント全てに対して、その平均値Ave(P+N)を計算し、その計算された値をP+Nの代わりに使ってもよい。さらに、イベントが起きているときは感情的なテキスト量(P+N)とそれ以外のテキスト数Lの割合が変わることを仮定すると、以下の式(4)が得られる。
Figure 2013257677
式(4)に示すように、変数yに対する適当な増加関数h(y)を使って、式(3)を補正することも可能である。この増加関数は、単純にはh(y)=yであるが、これに限るものではない。また、例えば、y=(P+N)/(P+N+L)の代わりに、上記と同様に、同じ場所かつ同じ時間で日付の異なるセグメントに対する平均値Ave(P+N+L)を使って、y=(P+N)/Ave(P+N+L)としてもよい。ここで、平均値を算出する方法として、セグメント化する属性情報のうち時間情報を基準に行う例を示したが、場合によっては、例えば、場所を基準にしてある特定の施設を含むセグメント間で行ってもよく、さらに情報発信者のその他の属性(たとえば年齢や性別など)を用いてもよい。この方法は、管理者の考える長期トレンドをとらえることができる方法であれば何でもよい。このように、感情強度バランス評価部108により、記強度情報で重みを付けた前記分類情報におけるクラス間でのバランスの偏り、つまり統計的傾向からのずれが定量化される。
情報整形部109は、テーブルTを受け取ったら、この評価値を用いて各セグメントを降順に序列化し上位Q個(Qは適当な正の整数)を選択し、出力データ110として出力する(ステップS5)。このQはあらかじめ定義されてもよいし、評価値が大きく変化する(減少する)ところまでをとってもよい。情報整形部109はこの選択したQ個のテキスト情報をそのまま出力データ110として出力してもよいが、例えば、各セグメントが共通に含むキーワード、キーフレーズを抽出するなどして、イベントに関係の深いキーワード、キーフレーズを推測し、その情報を付加して出力してもよい。
感情分析部105は、上記の分類器を、教師なしの強化学習によって動的に作成してもよい。また、感情分析部105は、上記の分類器の作成において、例えば適当な初期状態から開始し、その判定結果に対する評価結果をフィードバックすることでより精度の高い判定結果が得られるよう漸近的に内部状態を更新してもよい。感情分析部105は、特に内部状態の更新には例えば遺伝的アルゴリズムを用いてもよい。
また、感情分析部105は、上記の分類器を作成するうえで用いられる特定キーワードを、新たなデータが入力される度に、更新していくことで、より分類精度の高いキーワードを動的に選択していくことも可能である。
さらに、セグメント化部107によるセグメント化の方法は、上記ではあらかじめ定められた固定的な分割を行ったが、これを適応的に行うことも可能である。セグメント化部107は、例えば、テキスト情報の分布をまず分析してから、それを適当な観点に従って分類するような方法で分割してもよい。例えば、全てのセグメントに同数程度のテキスト情報が所属するようにするには、B−treeやその派生形などを用いてもよいし、kd−treeやその派生形を使ってもよい。また主成分分析を行い、分割効率の良い方向順に分割していく方法も可能であるし、さらに、ランダム分割をおこなうことも可能である。
また、分割自体は一度で終了する必要はなく、例えば、情報整形部109によって序列化した際に、序列化度合いや情報整形部109の出力結果等に応じて、再度セグメント化方法を変更してもよい。例えば、情報整形部109が各セグメントの評価値で序列化し降順に並べた際に、大きく評価値が減少する特徴的なポイントがなく、行ったセグメント化が必ずしも特徴的なイベント情報を捉えられていないと判断した時には、セグメント化の条件(例えば考慮する属性情報、分割パラメータ、手法等)を変更しながら、所望の評価値の序列化が得られるまでセグメント化を繰り返してもよい。
例えば、セグメント化部107は、適当な属性情報を用いてランダム分割を行い、各セグメントの評価値の分布を観測し、その分布が所望の検出品質に達しているか判断する。例えば、セグメントの順位が下がる毎に線形に近い傾きでその評価値も下がっていき、高評価値のセグメントと低評価値のセグメントを明確に分離できないような場合には、所望の検出品質に達していないと判断される。そのような場合には、セグメント化部107は、新たなランダム分割によるセグメント化を行ったり、考慮する属性情報を変更したりして、それに対して同じように評価値分布を観測する、というプロセスを所望の条件が満たされるまで繰り返してもよい。特に、ランダム分割に代表されるランダム性を利用したトライ・アンド・エラー的プロセスは、使用者がセグメント化における属性選択や分割パラメータの事前知識に乏しい場合に有効である。
上記の説明において、クラスは、ポジティブ、ネガティブ、それ以外の三種類に分けられていたが、ポジティブ、ネガティブの二種類に分けられてもよいし、ポジティブ、ネガティブ、ニュートラル、それ以外の4種類に分けられてもよい。クラスを2種類に分ける方法は、使用者が、必ずしも感情的とは言えないテキスト情報に関しても必ずどちらかに分類したい場合に用いる。また、クラスを4種類に分ける方法は、使用者が、感情的に中立なテキスト情報と、そもそも感情とは無関係と思われる情報を明確に区別する場合に用いられる。どちら方法も、その後段で行う感情強度バランス評価部108における関数において活用され、例えば4種類に分けられた場合、感情とは無関係のテキスト情報を考慮から除くよう定義することが可能となる。
以下、本実施形態のイベント検出装置の動作を、実施例を用いて詳細に説明する。上述したように、情報発信者101は、発信場所の座標と発信時間が付随したテキスト情報をアップロードする。感情分類部106は、そのテキスト情報をポジティブ(P)、ネガティブ(N)またはそれ以外(L)の3種類のクラスのどれかに分類する。さらに[0:1]の範囲の実数でその強度情報も同時に計算されているとする。例えば、あるテキストがポジティブクラスに0.8の確率で属すると判定された場合、P0.8と表記される。本実施例では、簡単に表記するために、属性情報のうち場所情報を[0:2]×[0:2]の範囲の2次元空間上の一点とし、時間情報を、0から48まで間隔[0:48]の中の実数で表現するとする(24時間を一日として全2日間)。
図3は、実施例における属性情報のセグメント化の方法を示した模式図である。セグメント化部107は、空間情報を図3に示すように領域R1、R2、R3、R4の4領域(それぞれR1:[0:1]×[0:1]、R2:[1:2]×[0:1]、R3:[0:1]×[1:2]、R4:[1:2]×[1:2])に分割する。また、セグメント化部107は、時間情報を、T1:[0:12]、T2:[12:24]、T3:[24:36]、T4:[36:48]の4領域に分割する。つまり、テキスト情報は、全部で4×4=16個の領域に分割され、例えば、場所(0.5、1.4)、時刻35.3のテキスト情報は、領域R3T3に属する。
図4は、実施例におけるセグメント毎に分類されたテキスト情報およびその感情強度の一例をまとめたテーブルである。図5は、実施例におけるセグメントに分布するテキスト情報の一例の模式図である。セグメント化部107は、時間情報に関して、テキスト情報の発信時刻tに対して24で割った余りに応じて、どの領域に属するかを判定し、セグメント化を行う。図5における記号の○はポジティブ、□はネガティブ、△はそれ以外である。ここで、セグメントRYTZ(YとZとは領域番号でそれぞれ1〜4の整数値)の評価値XRYTZは、以下の式(5)のように表わされる。
Figure 2013257677
式(5)において、xは、各セグメントに属するテキスト情報iの強度を示し、Pの場合は正の値となり、Nの場合は負の値となり、Lの場合は強度にかかわらず0となる。例えば、P0.8は+0.8、N0.3は−0.3、L0.9は0と表される。また、式(5)のΣsegmentはセグメントRYTZに属する全てのテキスト情報の和を示す。また、Avemod24は、セグメントRYTZの時刻領域番号Zが1または3の時はRYT1およびRYT3の全てのテキスト情報に対する平均を算出することを表し、時刻領域番号Zが2か4の時はRYT2とRYT4の全てのテキスト情報に対する平均を算出することを表す。つまり、時刻情報を原点からの経過時間とした場合、同じ場所領域に属する異なる日付のAM([0:12])またはPM([12:24])の平均をとることを意味する。この例では2日間だけであるが、実際はもっと長い期間で計算してもよいし、また一日単位ではなく、週単位で計算し曜日毎に平均をとってもよい。
図6は、実施例における各セグメントの評価値の分布を示す説明図である。本実施例では、図6のうち、上位2個(R1T2およびR4T1)を、感情的傾向が強まった特徴的なセグメントとして選択する。そして、このセグメントに含まれるテキスト情報の共通キーワードもしくはキーフレーズを抽出し、場所情報と時刻情報を付与して出力する。
本発明によるイベント検出装置によれば、より高い精度でイベントを検出できる。その理由は、本発明によるイベント検出装置は、様々な属性情報を用いてセグメント化し、そのセグメント毎に感情的傾向の特徴的変化を抽出するからである。
また、本発明によるイベント検出装置によれば、テキスト情報の絶対数の少ない場所に局在したイベントも高い精度で検出できる。その理由は、本発明によるイベント検出装置は、セグメント毎に、そのテキスト情報の感情強度分布を長期トレンドと比較し、ポジティブ感情とネガティブ感情のバランスが大きく変化したところを検出するからである。
図7は、本発明によるイベント検出装置の主要部の構成を示すブロック図である。図7に示すように、本発明によるイベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、主要な構成として、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部107と、情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部111と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを当該定量的評価値にマッピングする感情強度バランス評価部108と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部109とを備える。
また、上記の実施形態では、以下の(1)〜(8)に示すようなイベント検出装置も開示されている。
(1)イベント検出装置は、属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部(例えば、セグメント化部107)と、情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部(例えば、感情分析部105および感情分類部106)と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを当該定量的評価値にマッピングする感情強度バランス評価部(例えば、感情強度バランス評価部108)と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部(例えば、情報整形部109)とを備える。
(2)イベント検出装置は、属性情報が、少なくとも発信時間情報、発信場所情報、および発信者の詳細情報を含むように構成されていてもよい。このようなイベント検出装置によれば、様々な属性情報を用いて情報をセグメント化するので、イベント検出精度を向上させることができる。
(3)イベント検出装置は、セグメント化部が、属性情報を用いて、全ての情報の集合を複数の部分集合へと分割するように構成されていてもよい。
(4)イベント検出装置は、感情管理部が、機械学習によって作成された分類器を用いて、情報を感情的傾向に基づいて分けられた複数のクラスに分類するとともに、当該情報に、分類されたクラスに属することの確からしさを定量的に表す強度情報を付加するように構成されていてもよい。
(5)イベント検出装置は、感情管理部が、情報が含む感情が肯定的傾向か否定的傾向かを判定することにより当該情報を複数のクラスに分類し、複数のクラスは、肯定的、および否定的の二つのクラス、肯定的、否定的およびそれ以外の三つのクラス、または肯定的、否定的、中立的およびそれ以外の4つのクラスのいずれかであり、分類されたクラスに属することの確からしさを定量的に表す強度情報を算出するように構成されていてもよい。このようなイベント検出装置によれば、使用者の意図によりクラス分類方法を変更することができる。
(6)イベント検出装置は、感情強度バランス評価部が、セグメントに属する情報の集合に対して、分類されたクラスに属することの確からしさを定量的に表す強度情報および情報の分類に関する情報である分類情報の集合に基づいて、強度情報で重みを付けた分類情報におけるクラス間でのバランスの偏りを定量化するように構成されていてもよい。
(7)イベント検出装置は、情報整形部による動作の結果が予め定めた所望の結果ではない場合、セグメント化部によるセグメント化の方法を変更し、セグメント化部によるセグメント化と、感情強度バランス評価部による定量的評価値の算出およびセグメントのマッピングを繰り返し行うように構成されていてもよい。このようなイベント検出装置によれば、使用者が結果を参照しながらセグメント化の方法を変更できるので、より精度良くイベントを検出することができる。
(8)イベント検出装置は、セグメント化部によるセグメント化の方法の変更が、セグメント化部が考慮する属性情報の変更、またはセグメント化に用いるパラメータの変更であるように構成されていてもよい。
(付記)イベント検出装置は、情報整形部が、そのセグメントに属する、セグメントの特徴として、感情強度の強い情報が共通して有する情報を抽出し、当該情報がテキスト情報である場合は、共通的に含まれるキーワードおよびキーフレーズの特徴的情報と代表的属性情報とを出力するように構成されていてもよい。
本発明は、Twitter等のテキスト情報からのイベント検出に適用される。
101 情報発信者
102 情報受信部
103 情報管理部
104 データベース
105 感情分析部
106 感情分類部
107 セグメント化部
108 感情強度バランス評価部
109 情報整形部
110 出力データ
111 感情管理部

Claims (10)

  1. 属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置であって、
    前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化部と、
    前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理部と、
    前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価部と、
    前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形部とを備えた
    ことを特徴とするイベント検出装置。
  2. 属性情報は、少なくとも発信時間情報、発信場所情報、および発信者の詳細情報を含む
    請求項1記載のイベント検出装置。
  3. セグメント化部は、属性情報を用いて、全ての情報の集合を複数の部分集合へと分割する
    請求項1または請求項2記載のイベント検出装置。
  4. 感情管理部は、
    機械学習によって作成された分類器を用いて、情報を感情的傾向に基づいて分けられた複数のクラスに分類するとともに、当該情報に、分類された前記クラスに属することの確からしさを定量的に表す強度情報を付加する
    請求項1から請求項3のうちのいずれか1項に記載のイベント検出装置。
  5. 感情管理部は、
    情報が含む感情が肯定的傾向か否定的傾向かを判定することにより当該情報を複数のクラスに分類し、
    前記複数のクラスは、肯定的、および否定的の二つのクラス、肯定的、否定的およびそれ以外の三つのクラス、または肯定的、否定的、中立的およびそれ以外の4つのクラスのいずれかであり、
    分類された前記クラスに属することの確からしさを定量的に表す強度情報を算出する
    請求項1から請求項4のうちのいずれか1項に記載のイベント検出装置。
  6. 感情強度バランス評価部は、
    セグメントに属する情報の集合に対して、分類されたクラスに属することの確からしさを定量的に表す強度情報および情報の分類に関する分類情報の集合に基づいて、前記強度情報で重みを付けた前記分類情報におけるクラス間でのバランスの偏りを定量化する
    請求項1から請求項5のうちのいずれか1項に記載のイベント検出装置。
  7. 情報整形部による動作の結果が予め定めた所望の結果ではない場合、セグメント化部によるセグメント化の方法を変更し、前記セグメント化部によるセグメント化と、感情強度バランス評価部による定量的評価値の算出および前記セグメントのマッピングを繰り返し行う
    請求項1から請求項6のうちのいずれか1項に記載のイベント検出装置。
  8. セグメント化部によるセグメント化の方法の変更は、前記セグメント化部が考慮する属性情報の変更、またはセグメント化に用いるパラメータの変更である
    請求項7記載のイベント検出装置。
  9. 属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出するイベント検出方法であって、
    前記情報の属性情報を用いて前記情報を複数のセグメントに分割し、
    前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類し、
    前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングし、
    前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する
    ことを特徴とするイベント検出方法。
  10. コンピュータに、
    属性情報が付随した情報を入力し、当該情報に基づいて実世界で起きている特徴的事象を検出する処理を実行させるイベント検出プログラムであって、
    コンピュータに、
    前記情報の属性情報を用いて前記情報を複数のセグメントに分割するセグメント化処理と、
    前記情報に含まれる感情的傾向を分析し、分析結果に基づいて当該情報を分類する感情管理処理と、
    前記セグメントに含まれる前記情報の前記分析結果および前記分類の結果に基づく定量的評価値を算出し、前記セグメントを当該定量的評価値にマッピングする感情強度バランス評価処理と、
    前記定量的評価値に基づいて前記セグメントのうちの一部のセグメントを選出し、当該セグメントの特徴を抽出し、選出された当該セグメント及び当該特徴を出力する情報整形処理と
    を実行させるイベント検出プログラム。
JP2012132506A 2012-06-12 2012-06-12 イベント検出装置、イベント検出方法およびイベント検出プログラム Active JP5929532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012132506A JP5929532B2 (ja) 2012-06-12 2012-06-12 イベント検出装置、イベント検出方法およびイベント検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012132506A JP5929532B2 (ja) 2012-06-12 2012-06-12 イベント検出装置、イベント検出方法およびイベント検出プログラム

Publications (2)

Publication Number Publication Date
JP2013257677A true JP2013257677A (ja) 2013-12-26
JP5929532B2 JP5929532B2 (ja) 2016-06-08

Family

ID=49954082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012132506A Active JP5929532B2 (ja) 2012-06-12 2012-06-12 イベント検出装置、イベント検出方法およびイベント検出プログラム

Country Status (1)

Country Link
JP (1) JP5929532B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与系统
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
JP2020098454A (ja) * 2018-12-18 2020-06-25 日本放送協会 テキスト情報判定装置及びそのプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010038034A1 (en) * 2008-10-04 2010-04-08 Peter Timothy Sleeman Cap acitive matrix touch sensor
JP2010146031A (ja) * 2007-10-19 2010-07-01 Nec Corp 情報分析装置、情報分析方法、及び情報分析用プログラム
WO2011065211A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146031A (ja) * 2007-10-19 2010-07-01 Nec Corp 情報分析装置、情報分析方法、及び情報分析用プログラム
WO2010038034A1 (en) * 2008-10-04 2010-04-08 Peter Timothy Sleeman Cap acitive matrix touch sensor
WO2011065211A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与系统
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106202032B (zh) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN108268439B (zh) * 2016-12-30 2021-09-07 北京国双科技有限公司 文本情感的处理方法及装置
JP2020098454A (ja) * 2018-12-18 2020-06-25 日本放送協会 テキスト情報判定装置及びそのプログラム
JP7186080B2 (ja) 2018-12-18 2022-12-08 日本放送協会 テキスト情報判定装置及びそのプログラム

Also Published As

Publication number Publication date
JP5929532B2 (ja) 2016-06-08

Similar Documents

Publication Publication Date Title
US11074434B2 (en) Detection of near-duplicate images in profiles for detection of fake-profile accounts
JP6764488B2 (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
CN110162717B (zh) 一种推荐好友的方法和设备
CN110956224B (zh) 评估模型生成、评估数据处理方法、装置、设备及介质
WO2017097231A1 (zh) 话题处理方法及装置
US10482146B2 (en) Systems and methods for automatic customization of content filtering
Ismi et al. K-means clustering based filter feature selection on high dimensional data
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN106610977B (zh) 一种数据聚类方法和装置
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
WO2017095439A1 (en) Incremental clustering of a data stream via an orthogonal transform based indexing
Ali et al. Fake accounts detection on social media using stack ensemble system
CA3179311A1 (en) Identifying claim complexity by integrating supervised and unsupervised learning
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
US10181102B2 (en) Computer implemented classification system and method
Homsi et al. Detecting Twitter Fake Accounts using Machine Learning and Data Reduction Techniques.
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
US11106737B2 (en) Method and apparatus for providing search recommendation information
CN114187232A (zh) 基于随机森林的乳腺癌预测
CN111709463A (zh) 基于指数协同度量的特征选择方法
JP2015097036A (ja) 推薦画像提示装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160418

R150 Certificate of patent or registration of utility model

Ref document number: 5929532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150