JP5801252B2 - イベント抽出装置及び方法及びプログラム - Google Patents

イベント抽出装置及び方法及びプログラム Download PDF

Info

Publication number
JP5801252B2
JP5801252B2 JP2012113848A JP2012113848A JP5801252B2 JP 5801252 B2 JP5801252 B2 JP 5801252B2 JP 2012113848 A JP2012113848 A JP 2012113848A JP 2012113848 A JP2012113848 A JP 2012113848A JP 5801252 B2 JP5801252 B2 JP 5801252B2
Authority
JP
Japan
Prior art keywords
event
time
reputation information
expression
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012113848A
Other languages
English (en)
Other versions
JP2013242618A (ja
Inventor
正彬 西野
正彬 西野
宜仁 安田
宜仁 安田
佐藤 大祐
大祐 佐藤
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012113848A priority Critical patent/JP5801252B2/ja
Publication of JP2013242618A publication Critical patent/JP2013242618A/ja
Application granted granted Critical
Publication of JP5801252B2 publication Critical patent/JP5801252B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、イベント抽出装置及び方法及びプログラムに係り、特に、Web上の文書を入力として、行動に役立つ情報の配信に利用するための、未来に起きる行事や催し物等のイベントを推定するためのイベント抽出装置及び方法及びプログラムに関する。
Web上の文書からイベント情報を抽出するために、タグを定義し、タグについてのイベント情報を収集する方法がある(例えば、非特許文献1参照)。当該方法では、イベントを抽出することができるが、抽出されたイベントは必ずしも情報配信の対象としてふさわしいわけではない。例えば、結婚式のようにある個人にとっては大事であっても他の人にとっては意味をもたないイベントもある。文書からある対象に対する評価情報を抽出する方法も存在する(例えば、非特許文献2参照)。これらの手法を組み合わせることで、イベントに対する人々の期待度合いを推定することができる。イベント情報を抽出した後に、そのイベントに対する評価情報を抽出することで、イベントに対する期待度合いを知ることができる。
R斉藤隆太,石野亜耶,難波英嗣,竹澤寿幸,"新聞記事とWebからのイベント情報の自動抽出",電子情報通信学会第20回Webインテリジェンスとインタラクション研究会,2011 乾 孝司,奥村 学,"テキストを対象とした評価情報の分析に関する研究動向",自然言語処理, Vol.13, No.3, pp.201-241
しかし、上記の非特許文献1と非特許文献2の技術を組み合わせても時間や場所が考慮されない、という問題があった。
本発明は上記の点に鑑みなされたもので、時間と場所が同じ評判情報をイベント情報として抽出することが可能なイベント抽出装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出装置であって、
入力された文書データから、イベント名、時間、地域、該イベント名に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出手段と、
前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出手段と、
を有し、
前記評判情報抽出手段は、
前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出手段を含む。
また、本発明(請求項2)は、前記イベント抽出手段において、
前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する手段を含む。
また、本発明(請求項3)は、前記時刻・地理表現抽出手段において、
前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完する手段を含む。
また、本発明(請求項4)は、前記時刻・地理表現抽出手段において、
前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない。
本発明により、Web上の文書からイベントを抽出する場面において、未来の期待されているイベントを抽出することができる。また、イベントの抽出においてイベントの名称の表記にゆれがある場合であっても、イベントを抽出することが可能となるため、検出可能なイベントを増やすことができる。
本発明の第1の実施の形態におけるイベント抽出装置の構成図である。 本発明の第1の実施の形態における概要動作のフローチャートである。 本発明の第1の実施の形態における抽出された評判情報の例である。 本発明の第1の実施の形態におけるイベントの出力例である。 本発明の第1の実施の形態における評判情報抽出処理部の詳細なフローチャートである。 本発明の第1の実施の形態における評判情報抽出処理部の出力例である。 本発明の第1の実施の形態におけるイベント抽出処理部の詳細なフローチャートである。 本発明の第2の実施の形態における評判情報抽出処理部の詳細なフローチャート(時間表現がない場合)である。 本発明の第3の実施の形態における評判情報抽出処理部の詳細なフローチャート(地域表現がない場合)である。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
従来の技術では、イベント抽出によって抽出されたイベントのみを対象として、さらにその中から評判がよいものを選択することになる。この際に、イベント抽出部で抽出されたイベントの名称と、評判情報抽出において利用される名称が一定でなければ処理が行えない。一般に、イベントの名称の表記にはゆれがある場合があるので、文書中に出現している潜在的なイベントのうち、抽出できるものの割合が小さくなる可能性がある。そこで、本実施の形態では、Web上の文書に対し、時間、場所に関する表現を含めた評判情報の抽出を適用する。その後、抽出された評判情報の位置、場所を用いて、位置、場所が一致している評判情報をイベントとして抽出する。評判情報抽出結果に時間、場所情報を付与し、時間、場所の一致によってイベントを抽出することによって、既存手法よりより多くのイベントを抽出することができる。
図1は、本発明の第1の実施の形態におけるイベント抽出装置の構成を示す。
本実施の形態におけるイベント抽出装置の構成は、データ入力部21、評判情報抽出処理部22、評判情報記憶部23、イベント抽出処理部24、イベント情報出力部25から構成される。データ入力部21は、第1の実施の形態と同様に、外部からWeb上の文書データを取得する。評判情報抽出処理部22は、文書データを取得し、評判情報の集合を抽出し、評判情報記憶部23に出力する。イベント抽出処理部24は、評判情報記憶部23に格納されている評判情報データを読み出して、人々の期待が高いイベントを推定する。イベント情報出力部25は、推定されたイベントを出力する。
次に上記の構成におけるイベント抽出装置の動作を説明する。
図2は、本発明の第1の実施の形態における概要動作のフローチャートである。
ステップ210) データ入力部21が外部からデータを取得する。外部から渡されるデータは、Web上の文書である。
ステップ220) 評判情報抽出処理部22において、評判情報抽出処理を行う。処理の詳細については後述する。この処理の結果は図3に示すように、対象・時間・地域・極性(極性とは、対象に対するポジティブまたはネガティブな評価のことをさす)の4つの組を得る。出力された4つの組は評判情報記憶部23に記録する。
ステップ230) イベント抽出処理部24は、評判情報記憶部23に記憶された4つ組を読み込み、イベントを抽出する。処理の詳細については後述する。
ステップ240) イベント情報出力部24は、ステップ230で抽出されたイベントを出力する。図4にイベントの出力例を示す。イベントは、名称(複数の呼称が使われる場合もある)、イベントの開催時期、イベントの開催場所の3つ組みで表現される。
上記のステップ220の処理を詳細に示す。
図5は、本発明の第1の実施の形態における評判情報抽出処理部の詳細なフローチャートである。
ステップ221) 評判情報抽出処理部22は、Web文書から評判情報を抽出する。この処理は、非特許文献2にある既存手法を用いるものとする。既存手法で得られた評判情報は、図3に示すような、対象とその評価極性(P: ポジティブ, N: ネガティブ)の組となる。ここで、評価極性は対象に対して肯定的、積極的であるならP、否定的、消極的であるならNとする。
ステップ222) 評判情報が複数抽出されたなら、次に、抽出された各評判情報について、それが結びつく時刻、地理表現を探す。評判情報が抽出された文をSとする。Sの前後M文もしくはSの抽出された段落から、時刻表現、地理表現を探す。時刻表現とは、時刻を直接記述したもの(3月4日、18時、2012年4月12日、等)、相対的な時間の指定(3時間前、明日、明後日、来月、等)のことを指す。相対的な時刻表現は、特開2011-086152号公報にあるような手法で絶対時刻に変換できる。地理表現とは、地名(神奈川県、神奈川県鎌倉市)、ランドマーク名(東京駅、東京スカイツリー)等のことである。地理表現の抽出には、例えば、文献"平野徹,松尾義博,菊井玄一郎, 「地理的距離と有名度を用いた地名の曖昧性解消」, 情報処理学会全国大会講演論文集, 2008."にある手法を用いる。
ステップ223)地理表現と時刻表現の両方ともが見つかったならば、ステップ224に移行し、見つからない場合は、全ての評判情報についての処理が終了するまでステップ222以降の処理を繰り返す。
ステップ224) その時間、場所とともに評判情報を評判情報記憶部23に格納する。評判情報記憶部23に格納される時間、場所表現を含む評判情報の例を図6に示す。
ステップ221で抽出されたすべての評判情報について処理が終了したら、処理を終了する。
次に、図2のステップ230のイベント抽出処理について詳細に説明する。
ステップ231) イベント抽出処理部24は、評判情報記憶部23に記憶されている評判情報のうち、未来の時間を属性として持つものを取り出す。そして、時間、場所が類似、もしくは一致する情報を、それぞれクラスタとしてまとめる。評判情報間の類似度を設定したうえで各種既存のクラスタリング手法を用いることでクラスタとしてまとめることができる。評判情報間の類似度の設定には、位置、時間の情報を使う。類似度は、例えば2つのイベントの時間の差、位置の差をユークリッド距離として得ることができる。
ステップ232)以下の処理をまとめたクラスタ毎に取り出し、以下の処理を行う。
ステップ233)取り出したクラスタに含まれる評判表現のポジティブなものの割合を調べる。ポジティブなものの割合が所定の閾値以上であれば、ステップ234に移行する。
ステップ234) それを期待されているイベントとして取り出す。全てのクラスタについて処理が終了すれば、期待されているイベントをすべて出力し、処理を終了する。
上記のステップ231の処理を行うことにより、名称の表記に揺れがあっても、イベントが行われる場所、時間は一致することに着目し、同一場所・時間で評価極性がPであるものをイベントの候補としてまとめることで、精度を失うことなく、多数の期待されているイベントを抽出することが可能となる。
[第2の実施の形態]
上記の第1の実施の形態において、図5のフローチャートのステップ221からステップ224の処理では、評判情報抽出で取得される評判情報の近くに場所および時間に関する記述が存在する場合にそれを抽出した。この手法では場所と時間に関する記述が存在しない場合は抽出できる項目数が少なくなる可能性がある。
そこで、本実施の形態では、時間に関する記述が存在しない場合に、入力文書の日付情報を利用して時間・場所を含んだ評判情報を取り出す、図5の代替となる処理を図8に示す。
ステップ410)評判情報処理部22は、評判情報を抽出する。これはステップ221と同じ処理とする。
ステップ420) 次に、評判情報近辺の地理表現を検索する。
ステップ430) 地理表現が取得できたら、ステップ440に移行する。
ステップ440) 文書集合中で同じ対象、地理表現が出現しているものを調べ、出現している文書が作成された時刻を得る。Web上の文書には作成された時刻が付与されているものとする。Web上の文書に付与されている作成時刻は、過去から処理が行われた現在までのいずれかの時刻が付与されているものとする。xを過去〜現在までのいずれかの時刻、f(x)を生成時刻がx以前である文書の個数としたときに、
f(現在) - f(現在 - δ)
を計算する。δはある定数であり、1日、3日、10日などである。計算した値がある閾値より大きければ、その対象はすぐ近くの時間に関連するものであるとして、得られた場所と評判の組に、すぐ近くの未来の時間(翌日等)を付与して、評判情報記憶部23に記憶する。
上記のステップ440により、時間・場所・イベントの三つ組を検出するときに、時刻に関する表現が存在しない場合でも、場所・イベントの組の出現頻度の時間変化を利用することで時間属性を補完し、多くの三つ組みを得ることが可能となる。
[第3の実施の形態]
第2の実施の形態と同様のケースとして、図5のフローチャートのステップ221〜224の処理において、本実施の形態では、地域に関する表現が取得できなかったときに時間・場所を含んだ評判情報を取り出す場合について説明する。
図9は、本発明の第3の実施の形態における評判情報抽出処理部の詳細なフローチャートである。
ステップ510) 評判情報抽出処理部22で評判情報を抽出する。これはステップ221と同じ処理とする。
ステップ520) 次に、評判情報近辺の時間表現、地理表現を検索する。
ステップ530) 時間表現が取得できたら、地理表現が取得できなかった場合でもステップ540に移行する。
ステップ540) イベント、時間情報、存在すれば場所情報も評判情報記憶部23に記憶する。記憶されるデータは(時間、イベント、場所(欠損の場合あり))の三つ組となる。
ステップ550) すべての評判情報について処理が終了後、同じイベント名をもつ評判情報をすべてグループにまとめる。
ステップ560) まとめた評判情報のグループにおいて出現する地名が一種類のみであったとき、その地名はそのイベントに固有の地名であるとして、そのグループに属するすべての評判情報の地域に固有の地名を付与して、評判情報記憶部23に記憶する。もし固有の地名が存在しなかった場合は、地名をもたない三つ組を評判情報記憶部23から削除する。
上記のステップ550の処理により、時間・場所・イベントの三つ組を検出するときに、場所に関する表現が存在しなかった場合でも、イベント名が単一の場所に結びつく場合に場所の属性を補完し、多くの三つ組を得ることが可能となる。
なお、本発明は、上記の図1に示すイベント抽出装置の各構成要素の動作をプログラムとして構築し、イベント抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
11 データ入力部
12 イベント抽出処理部
13 イベント記憶部
14 評判情報抽出処理部
15 イベント情報出力部
21 データ入力部
22 評判情報抽出処理部
23 評判情報記憶部
24 イベント抽出処理部
25 イベント情報出力部

Claims (8)

  1. Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出装置であって、
    入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出手段と、
    前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出手段と、
    を有し、
    前記評判情報抽出手段は、
    前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出手段を含む
    ことを特徴とするイベント抽出装置。
  2. 前記イベント抽出手段は、
    前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する手段を含む
    請求項1記載のイベント抽出装置。
  3. 前記時刻・地理表現抽出手段は、
    前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完する手段を含む
    請求項1記載のイベント抽出装置。
  4. 前記時刻・地理表現抽出手段は、
    前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない
    請求項3記載のイベント抽出装置。
  5. Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出装置が実施するイベント抽出方法であって、
    前記イベント抽出装置が、入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出ステップと、
    前記イベント抽出装置が、前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出ステップと、
    を行い、
    前記評判情報抽出ステップにおいて、
    前記イベント抽出装置が、前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出ステップを含む
    ことを特徴とするイベント抽出方法。
  6. 前記イベント抽出ステップにおいて、
    前記イベント抽出装置が、前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する
    請求項5記載のイベント抽出方法。
  7. 前記時刻・地理表現抽出ステップにおいて、
    前記文に前記時刻表現に関する記述が存在しない場合には、前記イベント抽出装置が、イベント名と場所の組の出現頻度の時間変化により時間属性を補完し、
    前記文に前記地理表現に関する記述が存在しない場合に、前記イベント抽出装置が、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない
    請求項5記載のイベント抽出方法。
  8. コンピュータを、
    請求項1乃至4のいずれか1項に記載のイベント抽出装置の各手段として機能させるためのイベント抽出プログラム。
JP2012113848A 2012-05-17 2012-05-17 イベント抽出装置及び方法及びプログラム Expired - Fee Related JP5801252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012113848A JP5801252B2 (ja) 2012-05-17 2012-05-17 イベント抽出装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012113848A JP5801252B2 (ja) 2012-05-17 2012-05-17 イベント抽出装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013242618A JP2013242618A (ja) 2013-12-05
JP5801252B2 true JP5801252B2 (ja) 2015-10-28

Family

ID=49843465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012113848A Expired - Fee Related JP5801252B2 (ja) 2012-05-17 2012-05-17 イベント抽出装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5801252B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913807B (zh) * 2020-08-13 2024-02-06 支付宝(杭州)信息技术有限公司 一种基于多个存储区域的事件处理方法、系统及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4496900B2 (ja) * 2004-09-10 2010-07-07 日本電信電話株式会社 イベント情報抽出装置及びプログラム
JP4238813B2 (ja) * 2004-10-25 2009-03-18 日本電信電話株式会社 話題情報提示方法及び装置及びプログラム
JP4247266B2 (ja) * 2006-10-18 2009-04-02 株式会社東芝 スレッド順位付け装置及びスレッド順位付け方法
JP2009075757A (ja) * 2007-09-19 2009-04-09 Kureo:Kk 情報処理装置、およびプログラム
JP5724878B2 (ja) * 2009-11-25 2015-05-27 日本電気株式会社 文書分析装置、文書分析方法、及びプログラム

Also Published As

Publication number Publication date
JP2013242618A (ja) 2013-12-05

Similar Documents

Publication Publication Date Title
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
US10650274B2 (en) Image clustering method, image clustering system, and image clustering server
CN111324784A (zh) 一种字符串处理方法及装置
JP2015512095A (ja) 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体
JP5738358B2 (ja) 移動パターンマイニング装置及び方法
CN108009137B (zh) 一种基于配置文件的规范文书处理方法、装置及系统
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
JP2016024545A (ja) 情報管理装置、情報管理システム、及び情報管理方法
EP2973063A1 (en) Method, apparatus, and computer-readable medium for contextual data mining
Belcastro et al. Parallel extraction of Regions‐of‐Interest from social media data
JP5801252B2 (ja) イベント抽出装置及び方法及びプログラム
Angaramo et al. Online clustering and classification for real-time event detection in Twitter.
JP5806974B2 (ja) 近隣情報検索装置及び方法及びプログラム
Palamakumbure et al. ArcGIS V. 10 landslide susceptibility data mining add-in tool integrating data mining and GIS techniques to model landslide susceptibility
Alowibdi et al. VacationFinder: A tool for collecting, analyzing, and visualizing geotagged Twitter data to find top vacation spots
CN106557564A (zh) 一种对象数据分析方法及装置
Gui et al. Social relation extraction of large-scale logistics network based on mapreduce
JP2016110165A (ja) イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム
Saedudin et al. A relative tolerance relation of rough set (RTRS) for potential fish yields in Indonesia
KR102337290B1 (ko) 맥락 카테고리 데이터셋 생성 장치 및 방법
Narwal et al. Entropy based content filtering for mobile web page adaptation
JP5792871B1 (ja) 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
JP5670944B2 (ja) 文書要約装置及び方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150826

R150 Certificate of patent or registration of utility model

Ref document number: 5801252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees