JP2014229047A - イベント情報抽出装置、その動作方法およびコンピュータプログラム - Google Patents
イベント情報抽出装置、その動作方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2014229047A JP2014229047A JP2013107703A JP2013107703A JP2014229047A JP 2014229047 A JP2014229047 A JP 2014229047A JP 2013107703 A JP2013107703 A JP 2013107703A JP 2013107703 A JP2013107703 A JP 2013107703A JP 2014229047 A JP2014229047 A JP 2014229047A
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- category
- document
- vector
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】改善データ選択部は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である重みつき予測確信度を計算する。そして、改善データ選択部は、予測対象文書データベースおよび予測対象抽出候補データベースから、重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する。
【選択図】図6
Description
イベント抽出モデル学習部4は、文書DB1、抽出候補DB2、正解DB3、試行回数Tを入力とし、イベント抽出モデルDB5を出力する。
図2に示すように、文書DB1は、文書の本文(以下、テキスト情報)に対して、文書IDを付与したレコードを予め格納したDBである。テキスト情報は、イベントの抽出対象である。
図3に示すように、抽出候補DB2は、文書の文書ID、イベント名候補、場所候補、日時候補から構成される。つまり、それぞれ抽出対象のイベント情報の各カテゴリ(この場合、イベント名、場所、日時の3カテゴリのそれぞれ)における抽出候補がカンマ区切りで格納されている。例えば文書ID「1」のイベント名候補としては、「イベント」と「小樽ロングクリスマス2012 Final」の2つが格納されている。記述の簡略化のため、抽出候補DB2には記載していないものの、イベント名候補、場所候補、日時候補については文書中のどの位置に出現されたか、という位置情報も同時に付与されている。すなわち、文書DB1における同一文書IDの位置情報を保持している。
図4に示すように、正解DB3には、各文書に対する正解データ、つまり、正解イベント名、正解場所、正解日時が格納されている。正解DB3は、抽出候補DB2と同様に、それぞれの表現が文書のどの位置に出現したかという位置情報を内部的に保持しているものとする。
図5に示すように、イベント抽出モデルDB5は、イベント抽出モデルを記憶し、イベント抽出モデルはM次元の特徴に対する重みパラメータからなる重みベクトルw=(w1,w2,…,wM)Tが格納されるものである。
図6に示すように、
(S1-1)イベント抽出モデル学習部4は、重みベクトルをw=(0,0,…,0)Tと初期化する。ここでwの次元数は後述する特徴ベクトルの要素数と同じであり、M次元とする。また、試行回数を表す変数tを1に初期化する。
<イベント名> <場所> <日時>
第20回横須賀祭り - 神奈川県横須賀市 - 2012年10月20日
第20回横須賀祭り - 神奈川県横須賀市 - 2012年12月20日
. . .
お祭り - 東京都 - 2013年1月1日
のように、イベント名、場所、日時について全ての可能な候補の組み合わせ集合であり、以下、カテゴリ組み合わせ集合という。カテゴリ組み合わせ集合はYで表す。
イベント抽出部6は、イベント抽出モデルDB5、予測対象文書DB7、予測対象抽出候補DB8を入力として、イベントDB9を出力する。
図7に示すように、予測対象文書DB7は、文書DB1と同様に、文書のテキスト情報に対して、文書IDを付与したレコードを予め格納したDBである。テキスト情報は、イベントの抽出対象である。
図8に示すように、予測対象抽出候補DB8には、抽出候補DB2と同様に、イベント名候補、場所候補、日時候補が格納されている。
図9に示すように、イベントDB9には、抽出されたイベントのイベントID、イベント名、場所、日時からなるイベント情報が格納される。
図10に示すように、
(S2-1)イベント抽出部6は、予測対象文書DB7から未処理の文書IDを選択する。以下、これをd0という。
改善データ選択部10は、予測対象文書DB7、予測対象抽出候補DB8、イベント抽出モデルDB5、カテゴリ重要度DB11を入力として受け取る。
図11に示すように、カテゴリ重要度DB11には、各カテゴリつまり、イベント名、場所、日時に対するカテゴリ重要度が格納されている。カテゴリ重要度は、例えば現在のモデルによる各カテゴリに対する個別の正解率に基づいて設定でき、予め作成されているものとする。ここでカテゴリ重要度は、その値が大きいほど高いとする。各カテゴリ重要度は[0,1]の値域で、かつ総和が1になるよう正規化されているものとする。
図12に示すように、
(S3-1)改善データ選択部10は、予測対象文書DB7から未処理の文書IDを選択する。以下、これをd00という。
改善データ選択部10は、ここでs1が他の値に比べて顕著に大きい場合、本予測モデルは確信を持って判別していると解釈し、cevent(予測確信度)を高い値に設定する。
改善データ選択部10は、場所候補、日時候補についても同様の方法で予測確信度を計算する。これにより、改善データ選択部10は、イベント名、場所、日時に対する予測確信度からなる予測確信度ベクトルcを得る。
2…抽出候補DB
3…正解DB
4…イベント抽出モデル学習部
5…イベント抽出モデルDB
6…イベント抽出部
7…予測対象文書DB
8…予測対象抽出候補DB
9…イベントDB
10…改善データ選択部
11…カテゴリ重要度DB
Claims (7)
- 文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、
前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、
前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
前記テキスト情報および候補を提示する改善データ選択部とを備え、
前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
当該各予測確信度からなる予測確信度ベクトルを生成し、
前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
前記改善データ選択部は、
前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
ことを特徴とするイベント情報抽出装置。 - 前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
ことを特徴とする請求項1記載のイベント情報抽出装置。 - 前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
ことを特徴とする請求項1記載のイベント情報抽出装置。 - 文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、
前記イベント情報抽出装置は、
前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
前記テキスト情報および候補を提示する改善データ選択部とを備え、
前記動作方法は、
前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
当該各予測確信度からなる予測確信度ベクトルを生成し、
前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
前記改善データ選択部が、
前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
ことを特徴とするイベント情報抽出装置の動作方法。 - 前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
ことを特徴とする請求項4記載のイベント情報抽出装置の動作方法。 - 前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
ことを特徴とする請求項4記載のイベント情報抽出装置の動作方法。 - 請求項1ないし3のいずれかに記載のイベント情報抽出装置としてコンピュータを機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013107703A JP6018545B2 (ja) | 2013-05-22 | 2013-05-22 | イベント情報抽出装置、その動作方法およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013107703A JP6018545B2 (ja) | 2013-05-22 | 2013-05-22 | イベント情報抽出装置、その動作方法およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014229047A true JP2014229047A (ja) | 2014-12-08 |
JP6018545B2 JP6018545B2 (ja) | 2016-11-02 |
Family
ID=52128850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013107703A Active JP6018545B2 (ja) | 2013-05-22 | 2013-05-22 | イベント情報抽出装置、その動作方法およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6018545B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104624A (zh) * | 2018-10-25 | 2020-05-05 | 富士通株式会社 | 内容提取方法和设备以及存储介质 |
US11625617B2 (en) | 2019-05-10 | 2023-04-11 | Fujitsu Limited | Reduction of edges in a knowledge graph for entity linking |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092253A (ja) * | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP2013097723A (ja) * | 2011-11-04 | 2013-05-20 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、方法及びプログラム |
-
2013
- 2013-05-22 JP JP2013107703A patent/JP6018545B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092253A (ja) * | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP2013097723A (ja) * | 2011-11-04 | 2013-05-20 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、方法及びプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104624A (zh) * | 2018-10-25 | 2020-05-05 | 富士通株式会社 | 内容提取方法和设备以及存储介质 |
CN111104624B (zh) * | 2018-10-25 | 2023-08-22 | 富士通株式会社 | 内容提取方法和设备以及存储介质 |
US11625617B2 (en) | 2019-05-10 | 2023-04-11 | Fujitsu Limited | Reduction of edges in a knowledge graph for entity linking |
Also Published As
Publication number | Publication date |
---|---|
JP6018545B2 (ja) | 2016-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10043514B2 (en) | Intelligent contextually aware digital assistants | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN105426354B (zh) | 一种句向量的融合方法和装置 | |
US20170235726A1 (en) | Information identification and extraction | |
JP6488753B2 (ja) | 情報処理方法 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Zhao et al. | Text sentiment analysis algorithm optimization and platform development in social network | |
US20170235835A1 (en) | Information identification and extraction | |
JP6018545B2 (ja) | イベント情報抽出装置、その動作方法およびコンピュータプログラム | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
KR102148451B1 (ko) | 멀티 쇼핑몰의 통합 관리 및 연동을 위한 쇼핑몰 질의응답 동기화 서비스 제공 방법, 서버, 및 시스템 | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
JP7351502B2 (ja) | 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体 | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
Zahra et al. | Bidirectional long-short term memory and conditional random field for tourism named entity recognition | |
CN114325384A (zh) | 一种基于电机故障知识的众包采集系统及方法 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN109241993B (zh) | 融合用户和整体评价信息的评价对象情感分类方法及装置 | |
CN113779110A (zh) | 家庭关系网络提取方法、装置、计算机设备及存储介质 | |
Nguyen et al. | Thread reconstruction in conversational data using neural coherence models | |
JP5863193B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム | |
Masui et al. | Recurrent visual relationship recognition with triplet unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6018545 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |