JP2013242618A - イベント抽出装置及び方法及びプログラム - Google Patents
イベント抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2013242618A JP2013242618A JP2012113848A JP2012113848A JP2013242618A JP 2013242618 A JP2013242618 A JP 2013242618A JP 2012113848 A JP2012113848 A JP 2012113848A JP 2012113848 A JP2012113848 A JP 2012113848A JP 2013242618 A JP2013242618 A JP 2013242618A
- Authority
- JP
- Japan
- Prior art keywords
- time
- event
- reputation information
- expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する。このとき、評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する。評判情報記憶手段から、時刻表現と地理表現に基づいて、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力する。
【選択図】 図1
Description
入力された文書データから、イベント名、時間、地域、該イベント名に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出手段と、
前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出手段と、
を有し、
前記評判情報抽出手段は、
前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出手段を含む。
前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する手段を含む。
前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完する手段を含む。
前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない。
従来の技術では、イベント抽出によって抽出されたイベントのみを対象として、さらにその中から評判がよいものを選択することになる。この際に、イベント抽出部で抽出されたイベントの名称と、評判情報抽出において利用される名称が一定でなければ処理が行えない。一般に、イベントの名称の表記にはゆれがある場合があるので、文書中に出現している潜在的なイベントのうち、抽出できるものの割合が小さくなる可能性がある。そこで、本実施の形態では、Web上の文書に対し、時間、場所に関する表現を含めた評判情報の抽出を適用する。その後、抽出された評判情報の位置、場所を用いて、位置、場所が一致している評判情報をイベントとして抽出する。評判情報抽出結果に時間、場所情報を付与し、時間、場所の一致によってイベントを抽出することによって、既存手法よりより多くのイベントを抽出することができる。
上記の第1の実施の形態において、図5のフローチャートのステップ221からステップ224の処理では、評判情報抽出で取得される評判情報の近くに場所および時間に関する記述が存在する場合にそれを抽出した。この手法では場所と時間に関する記述が存在しない場合は抽出できる項目数が少なくなる可能性がある。
f(現在) - f(現在 - δ)
を計算する。δはある定数であり、1日、3日、10日などである。計算した値がある閾値より大きければ、その対象はすぐ近くの時間に関連するものであるとして、得られた場所と評判の組に、すぐ近くの未来の時間(翌日等)を付与して、評判情報記憶部23に記憶する。
上記のステップ440により、時間・場所・イベントの三つ組を検出するときに、時刻に関する表現が存在しない場合でも、場所・イベントの組の出現頻度の時間変化を利用することで時間属性を補完し、多くの三つ組みを得ることが可能となる。
第2の実施の形態と同様のケースとして、図5のフローチャートのステップ221〜224の処理において、本実施の形態では、地域に関する表現が取得できなかったときに時間・場所を含んだ評判情報を取り出す場合について説明する。
ステップ560) まとめた評判情報のグループにおいて出現する地名が一種類のみであったとき、その地名はそのイベントに固有の地名であるとして、そのグループに属するすべての評判情報の地域に固有の地名を付与して、評判情報記憶部23に記憶する。もし固有の地名が存在しなかった場合は、地名をもたない三つ組を評判情報記憶部23から削除する。
12 イベント抽出処理部
13 イベント記憶部
14 評判情報抽出処理部
15 イベント情報出力部
21 データ入力部
22 評判情報抽出処理部
23 評判情報記憶部
24 イベント抽出処理部
25 イベント情報出力部
Claims (8)
- Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出装置であって、
入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出手段と、
前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出手段と、
を有し、
前記評判情報抽出手段は、
前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出手段を含む
ことを特徴とするイベント抽出装置。 - 前記イベント抽出手段は、
前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する手段を含む
請求項1記載のイベント抽出装置。 - 前記時刻・地理表現抽出手段は、
前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完する手段を含む
請求項1記載のイベント抽出装置。 - 前記時刻・地理表現抽出手段は、
前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない
請求項3記載のイベント抽出装置。 - Web上の文書を入力として未来の期待されているイベントを抽出するイベント抽出方法であって、
入力された文書データから、対象、時間、地域、該対象に対する肯定的な評価または否定的な評価を示す評価極性の4つ組の評判情報を抽出し、評判情報記憶手段に格納する評判情報抽出ステップと、
前記評判情報記憶手段から、時間と場所が一致する評判情報をまとめ、該評判情報の評価極性が肯定的な評価のものをイベントとして出力するイベント抽出ステップと、
を行い、
前記評判情報抽出ステップにおいて、
前記評判情報が抽出された文、または、該文の前後文の段落から時刻表現と地理表現を抽出する時刻・地理表現抽出ステップを含む
ことを特徴とするイベント抽出方法。 - 前記イベント抽出ステップにおいて、
前記評判情報の時間表現について未来の時間の属性を有するものを抽出し、時間、場所が類似、または一致する情報をクラスタリングし、該評判情報の評価極性が肯定的な評価のものの割合が、所定の閾値以上のものを期待されているイベントとして抽出する
請求項5記載のイベント抽出方法。 - 前記時刻・地理表現抽出ステップにおいて、
前記文に前記時刻表現に関する記述が存在しない場合には、イベント名と場所の組の出現頻度の時間変化により時間属性を補完し、
前記文に前記地理表現に関する記述が存在しない場合に、前記時刻表現が取得されていれば、地理表現を前記評判情報に含めない
請求項5記載のイベント抽出方法。 - コンピュータを、
請求項1乃至4のいずれか1項に記載のイベント抽出装置の各手段として機能させるためのイベント抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113848A JP5801252B2 (ja) | 2012-05-17 | 2012-05-17 | イベント抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113848A JP5801252B2 (ja) | 2012-05-17 | 2012-05-17 | イベント抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242618A true JP2013242618A (ja) | 2013-12-05 |
JP5801252B2 JP5801252B2 (ja) | 2015-10-28 |
Family
ID=49843465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012113848A Expired - Fee Related JP5801252B2 (ja) | 2012-05-17 | 2012-05-17 | イベント抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5801252B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913807A (zh) * | 2020-08-13 | 2020-11-10 | 支付宝(杭州)信息技术有限公司 | 一种基于多个存储区域的事件处理方法、系统及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006079412A (ja) * | 2004-09-10 | 2006-03-23 | Nippon Telegr & Teleph Corp <Ntt> | イベント情報抽出方法及び装置及びプログラム |
JP2006120068A (ja) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 話題情報提示方法及び装置及びプログラム |
JP2008102645A (ja) * | 2006-10-18 | 2008-05-01 | Toshiba Corp | スレッド順位付け装置及びスレッド順位付け方法 |
JP2009075757A (ja) * | 2007-09-19 | 2009-04-09 | Kureo:Kk | 情報処理装置、およびプログラム |
WO2011065211A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体 |
-
2012
- 2012-05-17 JP JP2012113848A patent/JP5801252B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006079412A (ja) * | 2004-09-10 | 2006-03-23 | Nippon Telegr & Teleph Corp <Ntt> | イベント情報抽出方法及び装置及びプログラム |
JP2006120068A (ja) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 話題情報提示方法及び装置及びプログラム |
JP2008102645A (ja) * | 2006-10-18 | 2008-05-01 | Toshiba Corp | スレッド順位付け装置及びスレッド順位付け方法 |
JP2009075757A (ja) * | 2007-09-19 | 2009-04-09 | Kureo:Kk | 情報処理装置、およびプログラム |
WO2011065211A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体 |
US20120278327A1 (en) * | 2009-11-25 | 2012-11-01 | Nec Corporation | Document analysis device, document analysis method, and computer readable recording medium |
Non-Patent Citations (2)
Title |
---|
小池 義昌 他: "地域情報の発見を支援する時空間マップ型Web検索技術", NTT技術ジャーナル, vol. 24, no. 5, JPN6015024200, 1 May 2012 (2012-05-01), JP, pages 24 - 28, ISSN: 0003139392 * |
榊 剛史 他: "ソーシャルセンサとしてのTwitter −ソーシャルセンサは物理センサを凌駕するか?−", 人工知能学会誌, vol. 27, no. 1, JPN6015024201, 1 January 2012 (2012-01-01), JP, pages 67 - 74, ISSN: 0003139393 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913807A (zh) * | 2020-08-13 | 2020-11-10 | 支付宝(杭州)信息技术有限公司 | 一种基于多个存储区域的事件处理方法、系统及装置 |
CN111913807B (zh) * | 2020-08-13 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 一种基于多个存储区域的事件处理方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5801252B2 (ja) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kalmegh | Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news | |
US9645979B2 (en) | Device, method and program for generating accurate corpus data for presentation target for searching | |
CN105900117B (zh) | 用于采集、规范、匹配和丰富数据的方法和系统 | |
CN109840533B (zh) | 一种应用拓扑图识别方法及装置 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
JP5738358B2 (ja) | 移動パターンマイニング装置及び方法 | |
US9977995B2 (en) | Image clustering method, image clustering system, and image clustering server | |
JP6411800B2 (ja) | 情報管理装置、情報管理システム、及び情報管理プログラム | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
JP2010123000A (ja) | Webページグループ抽出方法及び装置及びプログラム | |
TW201810093A (zh) | 使用者背景資訊的收集方法及裝置 | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
US10216787B2 (en) | Method, apparatus, and computer-readable medium for contextual data mining using a relational data set | |
US10885453B2 (en) | Calculation device, calculation method, and non-transitory computer-readable recording medium | |
Benny et al. | Hadoop framework for entity resolution within high velocity streams | |
JP5801252B2 (ja) | イベント抽出装置及び方法及びプログラム | |
JP5806974B2 (ja) | 近隣情報検索装置及び方法及びプログラム | |
Fischer et al. | Timely semantics: a study of a stream-based ranking system for entity relationships | |
WO2018076348A1 (en) | Building and updating a connected segment graph | |
CN110297818B (zh) | 构建数据仓库的方法及装置 | |
CN106557564A (zh) | 一种对象数据分析方法及装置 | |
CN104765830B (zh) | 一种信息搜索方法及装置 | |
JP2016110165A (ja) | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム | |
JP5583107B2 (ja) | キーワード地名ペア抽出装置及び方法及びプログラム | |
JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5801252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |