JP2014229047A - イベント情報抽出装置、その動作方法およびコンピュータプログラム - Google Patents

イベント情報抽出装置、その動作方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2014229047A
JP2014229047A JP2013107703A JP2013107703A JP2014229047A JP 2014229047 A JP2014229047 A JP 2014229047A JP 2013107703 A JP2013107703 A JP 2013107703A JP 2013107703 A JP2013107703 A JP 2013107703A JP 2014229047 A JP2014229047 A JP 2014229047A
Authority
JP
Japan
Prior art keywords
prediction
category
document
vector
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013107703A
Other languages
English (en)
Other versions
JP6018545B2 (ja
Inventor
良彦 数原
Yoshihiko Kazuhara
良彦 数原
浩之 戸田
Hiroyuki Toda
浩之 戸田
西岡 秀一
Shuichi Nishioka
秀一 西岡
鷲崎 誠司
Seiji Washisaki
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013107703A priority Critical patent/JP6018545B2/ja
Publication of JP2014229047A publication Critical patent/JP2014229047A/ja
Application granted granted Critical
Publication of JP6018545B2 publication Critical patent/JP6018545B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】正解データの作成を支援する。
【解決手段】改善データ選択部は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である重みつき予測確信度を計算する。そして、改善データ選択部は、予測対象文書データベースおよび予測対象抽出候補データベースから、重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する。
【選択図】図6

Description

本発明は、イベント情報抽出装置、その動作方法およびコンピュータプログラムに関するものである。
ウェブ上において、ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手をかけずにイベント情報DBを構築でき、イベント推薦サービスなどに活用することができる。イベント名、場所、日時を抽出できれば、場所や日時に基づいたイベント推薦が可能となる。ウェブ文書などテキストからイベント情報を抽出する技術としては、例えば非特許文献1、非特許文献2、非特許文献3に記載のものがあり、これら技術を用いて各カテゴリに対する候補、すなわちイベント名候補、場所候補、日時候補を抽出できる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いて、イベント名、場所、日時に対して自動的に判別を行う判別器を構築でき、判別器を用いて、ウェブ文書などから自動的にイベント名、場所、日時を抽出できる。また、個別に判別器を適用するのではなく、予測に構造を持たせ、抽出された候補の中から正しい組み合わせを選択するモデルを構築する構造出力学習を用いる方法が考えられる。その場合には、例えば非特許文献5の技術を用いて予測モデルの構築が可能である。
山田寛康, 工藤拓, 松本裕治, "Support Vector Machine を用いた日本語固有表現抽出", 情報処理学会論文誌43(1), 44-53, 2002-01-15 平野徹, 松尾義博, 菊井玄一郎, "地理的距離を用いた地名の曖昧性解消",第70 回情報処理学会全国大会, 2008. 廣嶋伸章, 別所克人, 小池義昌, 片岡良治, "記述された日時の有効範囲を考慮した日時指定検索", 第3 回Web とデータベースに関するフォーラム(WebDBForum2010), 2010. 平博順, 永田昌明, "構造学習を用いた述語項構造解析", 第14 回言語処理学会年次大会, 2008. Crammer, K., Dekel, O., Keshet, J., Shalev-Shwartz, S. and Singer,Y., "Online Passive-Aggressive Algorithm", Journal of Machine Learning, Vol.7,pp.551585, 2006.
従来技術を利用して高精度なモデルを構築するためには、大量の正解データが必要となる。正解データ作成はコストが高いため、十分な正解データを用意できない、という状況が起こりうる。従来手法では、正解データを選択する基準がないため、ランダムに正解付与対象のデータを選択せざるを得ず、効率よくモデル精度を向上することが困難という課題があった。
本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、正解データの作成支援を可能とするイベント情報抽出装置、その動作方法およびコンピュータプログラムを提供することにある。
上記の課題を解決するために、第1の本発明は、文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、前記テキスト情報および候補を提示する改善データ選択部とを備え、前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、当該各予測確信度からなる予測確信度ベクトルを生成し、前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、前記改善データ選択部は、前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示することを特徴とする。
例えば、前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする。
例えば、前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする。
第2の本発明は、文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、前記イベント情報抽出装置は、前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、前記テキスト情報および候補を提示する改善データ選択部とを備え、前記動作方法は、前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、当該各予測確信度からなる予測確信度ベクトルを生成し、前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、前記改善データ選択部が、前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示することを特徴とする。
例えば、前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする。
例えば、前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする。
本発明によれば、正解データの作成を支援することで、効率よくモデル精度を向上することができる。
本実施の形態に係るイベント情報抽出装置の構成を示す図である。 文書DB1のデータ構造の例を示す図である。 抽出候補DB2のデータ構造の例を示す図である。 正解DB3のデータ構造の例を示す図である。 イベント抽出モデルDB5のデータ構造の例を示す図である。 イベント抽出モデル学習部4による処理の流れを示す図である。 予測対象文書DB7のデータ構造の例を示す図である。 予測対象抽出候補DB8のデータ構造の例を示す図である。 イベントDB9のデータ構造の例を示す図である。 イベント抽出部6による処理の流れを示す図である。 カテゴリ重要度DB11 のデータ構造の例を示す図である。 改善データ選択部10による処理の流れを示す図である。
以下、本発明の実施の形態について図面を参照して説明する。
図1に示すように、本実施の形態に係るイベント情報抽出装置は、文書データベース(以下、データベースをDBと略す)1と、抽出候補DB2と、正解DB3と、イベント抽出モデル学習部4と、イベント抽出モデルDB5と、イベント抽出部6と、予測対象文書DB7と、予測対象抽出候補DB8と、イベントDB9と、改善データ選択部10と、カテゴリ重要度DB11とを備える。改善データ選択部10は、アノテータに対し、表示装置など(図示せず)を用いて選択候補等を提示し、入力装置(図示せず)を介して、選択結果(アノテーション)を受信する機能を有している。
本実施の形態では説明のため,文書を分類するための項目であるカテゴリとして、イベント名,場所,日時を用いるが、それ以外のカテゴリ(例えば料金,主催団体など)を用いてもよい。
(イベント抽出モデル学習部4)
イベント抽出モデル学習部4は、文書DB1、抽出候補DB2、正解DB3、試行回数Tを入力とし、イベント抽出モデルDB5を出力する。
(文書DB1)
図2に示すように、文書DB1は、文書の本文(以下、テキスト情報)に対して、文書IDを付与したレコードを予め格納したDBである。テキスト情報は、イベントの抽出対象である。
(抽出候補DB2)
図3に示すように、抽出候補DB2は、文書の文書ID、イベント名候補、場所候補、日時候補から構成される。つまり、それぞれ抽出対象のイベント情報の各カテゴリ(この場合、イベント名、場所、日時の3カテゴリのそれぞれ)における抽出候補がカンマ区切りで格納されている。例えば文書ID「1」のイベント名候補としては、「イベント」と「小樽ロングクリスマス2012 Final」の2つが格納されている。記述の簡略化のため、抽出候補DB2には記載していないものの、イベント名候補、場所候補、日時候補については文書中のどの位置に出現されたか、という位置情報も同時に付与されている。すなわち、文書DB1における同一文書IDの位置情報を保持している。
イベント名候補の抽出には、非特許文献1を、場所候補の抽出には非特許文献2を、日時候補の抽出には非特許文献3を用いることで、文書DB1から抽出候補DB2を生成可能である。
(正解DB3)
図4に示すように、正解DB3には、各文書に対する正解データ、つまり、正解イベント名、正解場所、正解日時が格納されている。正解DB3は、抽出候補DB2と同様に、それぞれの表現が文書のどの位置に出現したかという位置情報を内部的に保持しているものとする。
(イベント抽出モデルDB5)
図5に示すように、イベント抽出モデルDB5は、イベント抽出モデルを記憶し、イベント抽出モデルはM次元の特徴に対する重みパラメータからなる重みベクトルw=(w1,w2,…,wが格納されるものである。
(イベント抽出モデル学習部4)
図6に示すように、
(S1-1)イベント抽出モデル学習部4は、重みベクトルをw=(0,0,…,0)と初期化する。ここでwの次元数は後述する特徴ベクトルの要素数と同じであり、M次元とする。また、試行回数を表す変数tを1に初期化する。
(S1-2)イベント抽出モデル学習部4は、正解DB3から未処理の文書IDをランダムに選択する。以下、これをdという。
(S1-3)イベント抽出モデル学習部4は、文書DB1、抽出候補DB2から、文書IDがdのレコードを選択し、全てのカテゴリにおける可能な候補の組み合わせについて、特徴ベクトルを作成する。
ここで全ての可能な候補の組み合わせとは、図3における文書ID「2」の例では、
<イベント名> <場所> <日時>
第20回横須賀祭り - 神奈川県横須賀市 - 2012年10月20日
第20回横須賀祭り - 神奈川県横須賀市 - 2012年12月20日
. . .
お祭り - 東京都 - 2013年1月1日
のように、イベント名、場所、日時について全ての可能な候補の組み合わせ集合であり、以下、カテゴリ組み合わせ集合という。カテゴリ組み合わせ集合はYで表す。
また、カテゴリ組み合わせ集合の要素をカテゴリ組み合わせ、またはカテゴリ組み合わせベクトルと呼び、yで表す。
この例では、カテゴリ組み合わせ集合は、2・2・3=12通りのカテゴリ組み合わせからなる。
イベント抽出モデル学習部4は、このようなカテゴリ組み合わせ集合と文書DB1から取得したテキスト情報xをもとに、各カテゴリ組み合わせについて、特徴を表す特徴ベクトルΦ(y,x)を作成する。ここでxは該当文書IDのテキスト情報のベクトル表現である。Φ(y,x)はM次元ベクトルであり、yとxを入力とするM個の特徴関数φ(y,x)の出力から構成される。特徴ベクトルΦ(y,x)を構成する特徴関数φ(y,x)の例としては、例えば「yの3つの候補が文書内の近い位置に出現する」という特徴を捉えるため、3つの表現が50文字以内に出現する場合に1、そうでない場合に0を出力する特徴関数が挙げられる。また「イベント名に含まれる文字列が本文内の他の場所で出現する」場合に1、そうでない場合に0を出力する特徴関数を利用することもできる。このように、ここでは、イベント情報らしさを捉えるための特徴関数を利用することができる。その他の文字列に基づく基本的な特徴関数としては、例えば、非特許文献4に記載のものを用いることができる。
(S1-4)イベント抽出モデル学習部4は、重みベクトルと特徴ベクトルの内積、つまり、t番目の試行回において選択された文書におけるカテゴリ組み合わせ集合をYtとし、そのうち正解のカテゴリ組み合わせをytとし、当該文書のテキスト情報をxtで表現した場合の
Figure 2014229047
を計算する。すなわち、イベント抽出モデル学習部4は、
Figure 2014229047
であるような
Figure 2014229047
を選択する。
(S1-5)イベント抽出モデル学習部4は、重みベクトルにおいてコストを考慮した損失の計算を行う。t番目の試行回における損失ltは、
Figure 2014229047
によって計算される。
イベント抽出モデル学習部4は、損失lt>0の場合、損失ltに応じて重みベクトルwを更新する。この重みベクトルwの更新には、例えば非特許文献5の方法を用いることができる。
(S1-6)tをt+1とする。
(S1-7)t≦Tである場合には(S1-2)に戻り、そうでない場合には(S1-8)に進む。
(S1-8)イベント抽出モデル学習部4は、全ての試行が終わったら、重みベクトルwをイベント抽出モデルDB5に出力する。
(イベント抽出部6)
イベント抽出部6は、イベント抽出モデルDB5、予測対象文書DB7、予測対象抽出候補DB8を入力として、イベントDB9を出力する。
(予測対象文書DB7)
図7に示すように、予測対象文書DB7は、文書DB1と同様に、文書のテキスト情報に対して、文書IDを付与したレコードを予め格納したDBである。テキスト情報は、イベントの抽出対象である。
(予測対象抽出候補DB8)
図8に示すように、予測対象抽出候補DB8には、抽出候補DB2と同様に、イベント名候補、場所候補、日時候補が格納されている。
(イベントDB9)
図9に示すように、イベントDB9には、抽出されたイベントのイベントID、イベント名、場所、日時からなるイベント情報が格納される。
(イベント抽出部6)
図10に示すように、
(S2-1)イベント抽出部6は、予測対象文書DB7から未処理の文書IDを選択する。以下、これをd0という。
(S2-2)イベント抽出部6は、予測対象抽出候補DB8から、文書IDがd0のレコードを選択し、イベント抽出モデル学習部4における(S1-3)と同様に、カテゴリ組み合わせ集合における各カテゴリ組み合わせについて、特徴ベクトルΦ(y,x)を作成する。
カテゴリ組み合わせは、
Figure 2014229047
と表現される。
(S2-3)イベント抽出部6は、イベント抽出モデルDB5に格納された重みベクトルと(S2-2)で作成された特徴ベクトルの内積を計算し、内積を最大とするカテゴリ組み合わせ
Figure 2014229047
を選択する。すなわち、
Figure 2014229047
を計算する。
(S2-4)イベント抽出部6は、取得したカテゴリ組み合わせ
Figure 2014229047
のうち、イベント名候補、場所候補、日時候補をそれぞれイベント名、場所、日時としてイベントDB9に出力し、イベントIDを付与する。
(S2-5)イベント抽出部6は、予測対象文書DB7に未処理の文書IDがある場合には(S2-1)に戻り、そうでない場合には処理を終了する。
(改善データ選択部10)
改善データ選択部10は、予測対象文書DB7、予測対象抽出候補DB8、イベント抽出モデルDB5、カテゴリ重要度DB11を入力として受け取る。
(カテゴリ重要度DB11)
図11に示すように、カテゴリ重要度DB11には、各カテゴリつまり、イベント名、場所、日時に対するカテゴリ重要度が格納されている。カテゴリ重要度は、例えば現在のモデルによる各カテゴリに対する個別の正解率に基づいて設定でき、予め作成されているものとする。ここでカテゴリ重要度は、その値が大きいほど高いとする。各カテゴリ重要度は[0,1]の値域で、かつ総和が1になるよう正規化されているものとする。
(改善データ選択部10)
図12に示すように、
(S3-1)改善データ選択部10は、予測対象文書DB7から未処理の文書IDを選択する。以下、これをd00という。
(S3-2)改善データ選択部10は、予測対象抽出候補DB8から、文書IDがd00のレコードを選択し、イベント抽出モデル学習部4における(S1-3)と同様に、カテゴリ組み合わせ集合における各カテゴリ組み合わせについて、特徴ベクトルΦ(y,x)を作成する。
カテゴリ組み合わせは、
Figure 2014229047
と表現される。
(S3-3)改善データ選択部10は、イベント抽出モデルDB5に格納された重みベクトルと(S3-2)で作成された特徴ベクトルとの内積を計算し、各内積(スコア)からなるスコアベクトル、すなわち
Figure 2014229047
を取得する。
ここでwは、イベント抽出モデルDB5に格納された重みベクトルである。
(S3-4)改善データ選択部10は、予測スコアを計算し、これを基に、予測確信度ベクトルを計算する。予測確信度ベクトルは、文書に対して各カテゴリつまり、イベント名、場所、日時のそれぞれに対する予測確信度によって構成される。すなわち、1文書に対して与えられる予測確信度ベクトルはc=(cevent, cgeo, ctime)Tの3次元ベクトルであり、この予測確信度ベクトルが文書の総数だけ計算される。基本的にcevent、cgeo、ctimeの計算方法は同じであるため、以下、ceventの計算方法の例を説明する。
改善データ選択部10は、例えば、当該文書に対して「第20回横須賀祭り」「お祭り」「横須賀引っ越し」という3つのイベント名候補が存在する場合には、2つのイベント名候補からなる組が3組得られる。
改善データ選択部10は、イベント名候補「第20回横須賀祭り」についてはこれ1つだけを使用し、場所候補、日時候補については全ての候補を使用し、こうして上記のようにスコアベクトルを計算し、各スコアベクトル内のイベント名候補に対応する値(内積)から最大の値を選択し、これを「第20回横須賀祭り」に対する予測スコアとする。
改善データ選択部10は、イベント名候補「お祭り」、「横須賀引っ越し」についても同様に予測スコアを計算する。
これにより、改善データ選択部10は、3つのイベント名候補に対応する予測スコアからなる予測スコアベクトルs=(s1, s2, s3)Tを得る。説明の都合上、s1 ≧ s2 ≧ s3 と降順に並び替えているものとする.
改善データ選択部10は、ここでs1が他の値に比べて顕著に大きい場合、本予測モデルは確信を持って判別していると解釈し、cevent(予測確信度)を高い値に設定する。
改善データ選択部10は、例えば、s1 - s2を計算し、これをcevent(予測確信度)とするる。
または、予測スコアベクトルsの全ての予測スコアを用いて予測確信度を計算する方法も考えられる。具体的にはエントロピーを用いて計算する方法がある。全ての確率変数に対する確率が同じような値を持つ確率分布に対してはエントロピーが高くなり、一部の確率変数に対する確率のみ高い分布の場合にエントロピーの値が低くなるという性質を利用し、予測スコアを確率に変換した上で、予測スコアベクトルsに対する負のエントロピーを
Figure 2014229047
によって計算し、これを予測確信度とする。なお、
Figure 2014229047
は、siを確率に変換するための項である.
改善データ選択部10は、場所候補、日時候補についても同様の方法で予測確信度を計算する。これにより、改善データ選択部10は、イベント名、場所、日時に対する予測確信度からなる予測確信度ベクトルcを得る。
改善データ選択部10は、この予測確信度ベクトルcを予測確信度行列Cに追加する。予測確信度行列Cは、各文書に対応する予測確信度ベクトルを有し、
Figure 2014229047
によって表現される。すなわちN行3列の行列である。なおここでNは予測対象文書DB7に格納される文書数である。
(S3-5)改善データ選択部10は、予測対象文書DB7に未処理の文書IDがある場合にはS3-1)に戻り、そうでない場合、(S3-6)に進む。
(S3-6)改善データ選択部10は、予測確信度行列Cとカテゴリ重要度DB11のカテゴリ重要度を基に、重みつき予測確信度からなる重みつき予測確信度ベクトルを計算する。
図11の例によれば、カテゴリ重要度は
Figure 2014229047
であり、改善データ選択部10は、重みつき予測確信度を、
Figure 2014229047
によって計算する。つまり、重みつき予測確信度は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である。
これにより、カテゴリ重要度が高いカテゴリについては、予測確信度が低い場合には、重みつき予測確信度をより低くできる。
重みつき予測確信度ベクトルuはN 行1 列のベクトルであり、各要素がそれぞれの文書に対応する重みつき予測確信度である。
改善データ選択部10は、この中から最小の重みつき予測確信度を選択し、対応する文書IDを取得する。
(S3-7)改善データ選択部10は、予測対象文書DB7から、当該文書IDに対応するテキスト情報を読み出し、予測対象抽出候補DB8から、当該文書IDに対応するイベント名候補、場所候補、日時候補を読み出し、アノテータに提示する。
アノテータは、テキスト情報を読み、その内容に対応する、つまり正解と思われるイベント名候補、場所候補、日時候補を1つづつ選択する。
改善データ選択部10は、選択されたイベント名候補、場所候補、日時候補を受信する。
(S3-8)改善データ選択部10は、イベント名候補、場所候補、日時候補を正解イベント名、正解場所、正解日時として、正解DB3に出力する。
また、改善データ選択部10は、提示したテキスト情報を予測対象文書DB7から文書DB1へ移動し、提示したイベント名候補、場所候補、日時候補を予測対象抽出候補DB8から抽出候補DB2に移動し、処理を終える。
以上のように、本実施の形態によれば、重みつき予測確信度の計算し、最小の重みつき予測確信度に対応するイベント名候補等をアノテータに提示し、選択された正しいイベント名候補等、つまり正解イベント名等を獲得するので、予測対象抽出候補DB8に記憶させるデータ数が少なくても、効率的に正解DB3を構築できる。換言すれば、カテゴリ重要度が高く、予測確信度が低いような文書について、正解データを学習させることができる。すなわち、正解データ(正解DB3)の作成支援を可能とすることができる。
具体的には、イベント情報抽出装置は、文書毎に該文書のテキスト情報を備える予測対象文書データベース7およびその文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベース8を備え、予測対象文書データベース7から1つの文書のテキスト情報を読み出し(S3-6)、予測対象抽出候補データベース8から当該文書の各カテゴリの全ての候補を読み出し(S3-6)、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示する(S3-7)イベント情報抽出装置であって、予測対象文書データベース7および予測対象抽出候補データベース8と、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベース(5)と、カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベース11と、テキスト情報および候補を提示する改善データ選択部10とを備える。
そして、改善データ選択部10は、まず、予測対象文書データベース7のテキスト情報毎に以下の処理を行う。
最初に、改善データ選択部10は、予測対象抽出候補データベース8における当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成する(S3-2)。
次に、改善データ選択部10は、当該各特徴ベクトルについて、重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成する(S3-3)。
次に、改善データ選択部10は、各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し(S3-3)、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算する(S3-4)。
次に、改善データ選択部10は、当該各予測確信度からなる予測確信度ベクトルを生成する(S3-4)。
改善データ選択部10は、続いて、予測対象文書データベース7のテキスト情報毎に以下の処理を行う。
つまり、改善データ選択部10は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である重みつき予測確信度を計算する(S3-6)。
そして、改善データ選択部10は、予測対象文書データベース7および予測対象抽出候補データベース8から、重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する(S3-7)。
なお、本実施の形態に係るイベント情報抽出装置またはその一部(例えば、改善データ選択部10)としてコンピュータを機能させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
1…文書DB
2…抽出候補DB
3…正解DB
4…イベント抽出モデル学習部
5…イベント抽出モデルDB
6…イベント抽出部
7…予測対象文書DB
8…予測対象抽出候補DB
9…イベントDB
10…改善データ選択部
11…カテゴリ重要度DB

Claims (7)

  1. 文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、
    前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、
    前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
    複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
    前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
    前記テキスト情報および候補を提示する改善データ選択部とを備え、
    前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
    前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
    当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
    前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
    当該各予測確信度からなる予測確信度ベクトルを生成し、
    前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
    前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
    前記改善データ選択部は、
    前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
    ことを特徴とするイベント情報抽出装置。
  2. 前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
    ことを特徴とする請求項1記載のイベント情報抽出装置。
  3. 前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
    ことを特徴とする請求項1記載のイベント情報抽出装置。
  4. 文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、
    前記イベント情報抽出装置は、
    前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
    複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
    前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
    前記テキスト情報および候補を提示する改善データ選択部とを備え、
    前記動作方法は、
    前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
    前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
    当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
    前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
    当該各予測確信度からなる予測確信度ベクトルを生成し、
    前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
    前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
    前記改善データ選択部が、
    前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
    ことを特徴とするイベント情報抽出装置の動作方法。
  5. 前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
    ことを特徴とする請求項4記載のイベント情報抽出装置の動作方法。
  6. 前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
    ことを特徴とする請求項4記載のイベント情報抽出装置の動作方法。
  7. 請求項1ないし3のいずれかに記載のイベント情報抽出装置としてコンピュータを機能させるためのコンピュータプログラム。
JP2013107703A 2013-05-22 2013-05-22 イベント情報抽出装置、その動作方法およびコンピュータプログラム Active JP6018545B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013107703A JP6018545B2 (ja) 2013-05-22 2013-05-22 イベント情報抽出装置、その動作方法およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013107703A JP6018545B2 (ja) 2013-05-22 2013-05-22 イベント情報抽出装置、その動作方法およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2014229047A true JP2014229047A (ja) 2014-12-08
JP6018545B2 JP6018545B2 (ja) 2016-11-02

Family

ID=52128850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013107703A Active JP6018545B2 (ja) 2013-05-22 2013-05-22 イベント情報抽出装置、その動作方法およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6018545B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104624A (zh) * 2018-10-25 2020-05-05 富士通株式会社 内容提取方法和设备以及存储介质
US11625617B2 (en) 2019-05-10 2023-04-11 Fujitsu Limited Reduction of edges in a knowledge graph for entity linking

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104624A (zh) * 2018-10-25 2020-05-05 富士通株式会社 内容提取方法和设备以及存储介质
CN111104624B (zh) * 2018-10-25 2023-08-22 富士通株式会社 内容提取方法和设备以及存储介质
US11625617B2 (en) 2019-05-10 2023-04-11 Fujitsu Limited Reduction of edges in a knowledge graph for entity linking

Also Published As

Publication number Publication date
JP6018545B2 (ja) 2016-11-02

Similar Documents

Publication Publication Date Title
US10043514B2 (en) Intelligent contextually aware digital assistants
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN105426354B (zh) 一种句向量的融合方法和装置
US20170235726A1 (en) Information identification and extraction
JP6488753B2 (ja) 情報処理方法
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
US20170235835A1 (en) Information identification and extraction
JP6018545B2 (ja) イベント情報抽出装置、その動作方法およびコンピュータプログラム
Jagadeesan et al. Twitter Sentiment Analysis with Machine Learning
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
KR102148451B1 (ko) 멀티 쇼핑몰의 통합 관리 및 연동을 위한 쇼핑몰 질의응답 동기화 서비스 제공 방법, 서버, 및 시스템
Fernandes et al. Automated disaster news collection classification and geoparsing
JP7351502B2 (ja) 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
Zahra et al. Bidirectional long-short term memory and conditional random field for tourism named entity recognition
CN114325384A (zh) 一种基于电机故障知识的众包采集系统及方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
CN113779110A (zh) 家庭关系网络提取方法、装置、计算机设备及存储介质
Nguyen et al. Thread reconstruction in conversational data using neural coherence models
JP5863193B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
Masui et al. Recurrent visual relationship recognition with triplet unit

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160930

R150 Certificate of patent or registration of utility model

Ref document number: 6018545

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150