JP5801252B2 - イベント抽出装置及び方法及びプログラム - Google Patents
イベント抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5801252B2 JP5801252B2 JP2012113848A JP2012113848A JP5801252B2 JP 5801252 B2 JP5801252 B2 JP 5801252B2 JP 2012113848 A JP2012113848 A JP 2012113848A JP 2012113848 A JP2012113848 A JP 2012113848A JP 5801252 B2 JP5801252 B2 JP 5801252B2
- Authority
- JP
- Japan
- Prior art keywords
- event
- time
- reputation information
- expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力された文書データから、イベント名、時間、地域、該イベント名に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出手段と、
前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出手段と、
を有し、
前記評判情報抽出手段は、
前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出手段を含む。
前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する手段を含む。
前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完する手段を含む。
前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない。
従来の技術では、イベント抽出によって抽出されたイベントのみを対象として、さらにその中から評判がよいものを選択することになる。この際に、イベント抽出部で抽出されたイベントの名称と、評判情報抽出において利用される名称が一定でなければ処理が行えない。一般に、イベントの名称の表記にはゆれがある場合があるので、文書中に出現している潜在的なイベントのうち、抽出できるものの割合が小さくなる可能性がある。そこで、本実施の形態では、Web上の文書に対し、時間、場所に関する表現を含めた評判情報の抽出を適用する。その後、抽出された評判情報の位置、場所を用いて、位置、場所が一致している評判情報をイベントとして抽出する。評判情報抽出結果に時間、場所情報を付与し、時間、場所の一致によってイベントを抽出することによって、既存手法よりより多くのイベントを抽出することができる。
上記の第1の実施の形態において、図5のフローチャートのステップ221からステップ224の処理では、評判情報抽出で取得される評判情報の近くに場所および時間に関する記述が存在する場合にそれを抽出した。この手法では場所と時間に関する記述が存在しない場合は抽出できる項目数が少なくなる可能性がある。
f(現在) - f(現在 - δ)
を計算する。δはある定数であり、1日、3日、10日などである。計算した値がある閾値より大きければ、その対象はすぐ近くの時間に関連するものであるとして、得られた場所と評判の組に、すぐ近くの未来の時間(翌日等)を付与して、評判情報記憶部23に記憶する。
上記のステップ440により、時間・場所・イベントの三つ組を検出するときに、時刻に関する表現が存在しない場合でも、場所・イベントの組の出現頻度の時間変化を利用することで時間属性を補完し、多くの三つ組みを得ることが可能となる。
第2の実施の形態と同様のケースとして、図5のフローチャートのステップ221〜224の処理において、本実施の形態では、地域に関する表現が取得できなかったときに時間・場所を含んだ評判情報を取り出す場合について説明する。
ステップ560) まとめた評判情報のグループにおいて出現する地名が一種類のみであったとき、その地名はそのイベントに固有の地名であるとして、そのグループに属するすべての評判情報の地域に固有の地名を付与して、評判情報記憶部23に記憶する。もし固有の地名が存在しなかった場合は、地名をもたない三つ組を評判情報記憶部23から削除する。
12 イベント抽出処理部
13 イベント記憶部
14 評判情報抽出処理部
15 イベント情報出力部
21 データ入力部
22 評判情報抽出処理部
23 評判情報記憶部
24 イベント抽出処理部
25 イベント情報出力部
Claims (8)
- Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出装置であって、
入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出手段と、
前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出手段と、
を有し、
前記評判情報抽出手段は、
前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出手段を含む
ことを特徴とするイベント抽出装置。 - 前記イベント抽出手段は、
前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する手段を含む
請求項1記載のイベント抽出装置。 - 前記時刻・地理表現抽出手段は、
前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完する手段を含む
請求項1記載のイベント抽出装置。 - 前記時刻・地理表現抽出手段は、
前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない
請求項3記載のイベント抽出装置。 - Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出装置が実施するイベント抽出方法であって、
前記イベント抽出装置が、入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出ステップと、
前記イベント抽出装置が、前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出ステップと、
を行い、
前記評判情報抽出ステップにおいて、
前記イベント抽出装置が、前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出ステップを含む
ことを特徴とするイベント抽出方法。 - 前記イベント抽出ステップにおいて、
前記イベント抽出装置が、前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する
請求項5記載のイベント抽出方法。 - 前記時刻・地理表現抽出ステップにおいて、
前記文に前記時刻表現に関する記述が存在しない場合には、前記イベント抽出装置が、イベント名と場所の組の出現頻度の時間変化により時間属性を補完し、
前記文に前記地理表現に関する記述が存在しない場合に、前記イベント抽出装置が、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない
請求項5記載のイベント抽出方法。 - コンピュータを、
請求項1乃至4のいずれか1項に記載のイベント抽出装置の各手段として機能させるためのイベント抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113848A JP5801252B2 (ja) | 2012-05-17 | 2012-05-17 | イベント抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113848A JP5801252B2 (ja) | 2012-05-17 | 2012-05-17 | イベント抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242618A JP2013242618A (ja) | 2013-12-05 |
JP5801252B2 true JP5801252B2 (ja) | 2015-10-28 |
Family
ID=49843465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012113848A Expired - Fee Related JP5801252B2 (ja) | 2012-05-17 | 2012-05-17 | イベント抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5801252B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913807B (zh) * | 2020-08-13 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 一种基于多个存储区域的事件处理方法、系统及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4496900B2 (ja) * | 2004-09-10 | 2010-07-07 | 日本電信電話株式会社 | イベント情報抽出装置及びプログラム |
JP4238813B2 (ja) * | 2004-10-25 | 2009-03-18 | 日本電信電話株式会社 | 話題情報提示方法及び装置及びプログラム |
JP4247266B2 (ja) * | 2006-10-18 | 2009-04-02 | 株式会社東芝 | スレッド順位付け装置及びスレッド順位付け方法 |
JP2009075757A (ja) * | 2007-09-19 | 2009-04-09 | Kureo:Kk | 情報処理装置、およびプログラム |
JP5724878B2 (ja) * | 2009-11-25 | 2015-05-27 | 日本電気株式会社 | 文書分析装置、文書分析方法、及びプログラム |
-
2012
- 2012-05-17 JP JP2012113848A patent/JP5801252B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013242618A (ja) | 2013-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9645979B2 (en) | Device, method and program for generating accurate corpus data for presentation target for searching | |
US10650274B2 (en) | Image clustering method, image clustering system, and image clustering server | |
CN111324784A (zh) | 一种字符串处理方法及装置 | |
JP2015512095A (ja) | 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体 | |
JP5738358B2 (ja) | 移動パターンマイニング装置及び方法 | |
CN108009137B (zh) | 一种基于配置文件的规范文书处理方法、装置及系统 | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
JP2010123000A (ja) | Webページグループ抽出方法及び装置及びプログラム | |
JP2016024545A (ja) | 情報管理装置、情報管理システム、及び情報管理方法 | |
EP2973063A1 (en) | Method, apparatus, and computer-readable medium for contextual data mining | |
Belcastro et al. | Parallel extraction of Regions‐of‐Interest from social media data | |
JP5801252B2 (ja) | イベント抽出装置及び方法及びプログラム | |
Angaramo et al. | Online clustering and classification for real-time event detection in Twitter. | |
JP5806974B2 (ja) | 近隣情報検索装置及び方法及びプログラム | |
Palamakumbure et al. | ArcGIS V. 10 landslide susceptibility data mining add-in tool integrating data mining and GIS techniques to model landslide susceptibility | |
Alowibdi et al. | VacationFinder: A tool for collecting, analyzing, and visualizing geotagged Twitter data to find top vacation spots | |
CN106557564A (zh) | 一种对象数据分析方法及装置 | |
Gui et al. | Social relation extraction of large-scale logistics network based on mapreduce | |
JP2016110165A (ja) | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム | |
Saedudin et al. | A relative tolerance relation of rough set (RTRS) for potential fish yields in Indonesia | |
KR102337290B1 (ko) | 맥락 카테고리 데이터셋 생성 장치 및 방법 | |
Narwal et al. | Entropy based content filtering for mobile web page adaptation | |
JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム | |
JP5670944B2 (ja) | 文書要約装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5801252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |