JP2014229047A

JP2014229047A - イベント情報抽出装置、その動作方法およびコンピュータプログラム

Info

Publication number: JP2014229047A
Application number: JP2013107703A
Authority: JP
Inventors: 良彦数原; Yoshihiko Kazuhara; 浩之戸田; Hiroyuki Toda; 西岡　秀一; Shuichi Nishioka; 秀一西岡; 鷲崎　誠司; Seiji Washisaki; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2014-12-08
Anticipated expiration: 2033-05-22
Also published as: JP6018545B2

Abstract

【課題】正解データの作成を支援する。
【解決手段】改善データ選択部は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である重みつき予測確信度を計算する。そして、改善データ選択部は、予測対象文書データベースおよび予測対象抽出候補データベースから、重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する。
【選択図】図６

Description

本発明は、イベント情報抽出装置、その動作方法およびコンピュータプログラムに関するものである。

ウェブ上において、ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手をかけずにイベント情報ＤＢを構築でき、イベント推薦サービスなどに活用することができる。イベント名、場所、日時を抽出できれば、場所や日時に基づいたイベント推薦が可能となる。ウェブ文書などテキストからイベント情報を抽出する技術としては、例えば非特許文献１、非特許文献２、非特許文献３に記載のものがあり、これら技術を用いて各カテゴリに対する候補、すなわちイベント名候補、場所候補、日時候補を抽出できる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いて、イベント名、場所、日時に対して自動的に判別を行う判別器を構築でき、判別器を用いて、ウェブ文書などから自動的にイベント名、場所、日時を抽出できる。また、個別に判別器を適用するのではなく、予測に構造を持たせ、抽出された候補の中から正しい組み合わせを選択するモデルを構築する構造出力学習を用いる方法が考えられる。その場合には、例えば非特許文献５の技術を用いて予測モデルの構築が可能である。

山田寛康, 工藤拓, 松本裕治, "Support Vector Machine を用いた日本語固有表現抽出", 情報処理学会論文誌43(1), 44-53, 2002-01-15 平野徹, 松尾義博, 菊井玄一郎, "地理的距離を用いた地名の曖昧性解消",第70 回情報処理学会全国大会, 2008. 廣嶋伸章, 別所克人, 小池義昌, 片岡良治, "記述された日時の有効範囲を考慮した日時指定検索", 第3 回Web とデータベースに関するフォーラム(WebDBForum2010), 2010. 平博順, 永田昌明, "構造学習を用いた述語項構造解析", 第14 回言語処理学会年次大会, 2008. Crammer, K., Dekel, O., Keshet, J., Shalev-Shwartz, S. and Singer,Y., "Online Passive-Aggressive Algorithm", Journal of Machine Learning, Vol.7,pp.551585, 2006.

従来技術を利用して高精度なモデルを構築するためには、大量の正解データが必要となる。正解データ作成はコストが高いため、十分な正解データを用意できない、という状況が起こりうる。従来手法では、正解データを選択する基準がないため、ランダムに正解付与対象のデータを選択せざるを得ず、効率よくモデル精度を向上することが困難という課題があった。

本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、正解データの作成支援を可能とするイベント情報抽出装置、その動作方法およびコンピュータプログラムを提供することにある。

上記の課題を解決するために、第１の本発明は、文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に２以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから１つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、前記テキスト情報および候補を提示する改善データ選択部とを備え、前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで１づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、前記各カテゴリについて、当該カテゴリについては１つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該１つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、当該各予測確信度からなる予測確信度ベクトルを生成し、前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、前記改善データ選択部は、前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示することを特徴とする。

例えば、前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする。

例えば、前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする。

第２の本発明は、文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に２以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから１つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、前記イベント情報抽出装置は、前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、前記テキスト情報および候補を提示する改善データ選択部とを備え、前記動作方法は、前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで１づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、前記各カテゴリについて、当該カテゴリについては１つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該１つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、当該各予測確信度からなる予測確信度ベクトルを生成し、前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、前記改善データ選択部が、前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示することを特徴とする。

本発明によれば、正解データの作成を支援することで、効率よくモデル精度を向上することができる。

本実施の形態に係るイベント情報抽出装置の構成を示す図である。文書ＤＢ１のデータ構造の例を示す図である。抽出候補ＤＢ２のデータ構造の例を示す図である。正解ＤＢ３のデータ構造の例を示す図である。イベント抽出モデルＤＢ５のデータ構造の例を示す図である。イベント抽出モデル学習部４による処理の流れを示す図である。予測対象文書ＤＢ７のデータ構造の例を示す図である。予測対象抽出候補ＤＢ８のデータ構造の例を示す図である。イベントＤＢ９のデータ構造の例を示す図である。イベント抽出部６による処理の流れを示す図である。カテゴリ重要度ＤＢ１１のデータ構造の例を示す図である。改善データ選択部１０による処理の流れを示す図である。

以下、本発明の実施の形態について図面を参照して説明する。

図１に示すように、本実施の形態に係るイベント情報抽出装置は、文書データベース（以下、データベースをＤＢと略す）１と、抽出候補ＤＢ２と、正解ＤＢ３と、イベント抽出モデル学習部４と、イベント抽出モデルＤＢ５と、イベント抽出部６と、予測対象文書ＤＢ７と、予測対象抽出候補ＤＢ８と、イベントＤＢ９と、改善データ選択部１０と、カテゴリ重要度ＤＢ１１とを備える。改善データ選択部１０は、アノテータに対し、表示装置など（図示せず）を用いて選択候補等を提示し、入力装置（図示せず）を介して、選択結果（アノテーション）を受信する機能を有している。

本実施の形態では説明のため，文書を分類するための項目であるカテゴリとして、イベント名，場所，日時を用いるが、それ以外のカテゴリ(例えば料金，主催団体など)を用いてもよい。

（イベント抽出モデル学習部４）
イベント抽出モデル学習部４は、文書ＤＢ１、抽出候補ＤＢ２、正解ＤＢ３、試行回数Ｔを入力とし、イベント抽出モデルＤＢ５を出力する。

（文書ＤＢ１）
図２に示すように、文書ＤＢ１は、文書の本文（以下、テキスト情報）に対して、文書ＩＤを付与したレコードを予め格納したＤＢである。テキスト情報は、イベントの抽出対象である。

（抽出候補ＤＢ２）
図３に示すように、抽出候補ＤＢ２は、文書の文書ＩＤ、イベント名候補、場所候補、日時候補から構成される。つまり、それぞれ抽出対象のイベント情報の各カテゴリ（この場合、イベント名、場所、日時の３カテゴリのそれぞれ）における抽出候補がカンマ区切りで格納されている。例えば文書ＩＤ「１」のイベント名候補としては、「イベント」と「小樽ロングクリスマス2012 Final」の２つが格納されている。記述の簡略化のため、抽出候補ＤＢ２には記載していないものの、イベント名候補、場所候補、日時候補については文書中のどの位置に出現されたか、という位置情報も同時に付与されている。すなわち、文書ＤＢ１における同一文書ＩＤの位置情報を保持している。

イベント名候補の抽出には、非特許文献１を、場所候補の抽出には非特許文献２を、日時候補の抽出には非特許文献３を用いることで、文書ＤＢ１から抽出候補ＤＢ２を生成可能である。

（正解ＤＢ３）
図４に示すように、正解ＤＢ３には、各文書に対する正解データ、つまり、正解イベント名、正解場所、正解日時が格納されている。正解ＤＢ３は、抽出候補ＤＢ２と同様に、それぞれの表現が文書のどの位置に出現したかという位置情報を内部的に保持しているものとする。

（イベント抽出モデルＤＢ５）
図５に示すように、イベント抽出モデルＤＢ５は、イベント抽出モデルを記憶し、イベント抽出モデルはＭ次元の特徴に対する重みパラメータからなる重みベクトルｗ＝（ｗ１，ｗ２，…，ｗ_Ｍ）^Ｔが格納されるものである。

（イベント抽出モデル学習部４）
図６に示すように、
（S1-1）イベント抽出モデル学習部４は、重みベクトルをｗ＝（０，０，…，０）^Ｔと初期化する。ここでwの次元数は後述する特徴ベクトルの要素数と同じであり、Ｍ次元とする。また、試行回数を表す変数ｔを１に初期化する。

（S1-2）イベント抽出モデル学習部４は、正解ＤＢ３から未処理の文書ＩＤをランダムに選択する。以下、これをｄという。

（S1-3）イベント抽出モデル学習部４は、文書ＤＢ１、抽出候補ＤＢ２から、文書ＩＤがｄのレコードを選択し、全てのカテゴリにおける可能な候補の組み合わせについて、特徴ベクトルを作成する。

ここで全ての可能な候補の組み合わせとは、図３における文書ＩＤ「２」の例では、
＜イベント名＞＜場所＞＜日時＞
第20回横須賀祭り - 神奈川県横須賀市 - 2012年10月20日
第20回横須賀祭り - 神奈川県横須賀市 - 2012年12月20日
. . .
お祭り - 東京都 - 2013年1月1日
のように、イベント名、場所、日時について全ての可能な候補の組み合わせ集合であり、以下、カテゴリ組み合わせ集合という。カテゴリ組み合わせ集合はYで表す。

また、カテゴリ組み合わせ集合の要素をカテゴリ組み合わせ、またはカテゴリ組み合わせベクトルと呼び、yで表す。

この例では、カテゴリ組み合わせ集合は、2・2・3=12通りのカテゴリ組み合わせからなる。

イベント抽出モデル学習部４は、このようなカテゴリ組み合わせ集合と文書ＤＢ１から取得したテキスト情報xをもとに、各カテゴリ組み合わせについて、特徴を表す特徴ベクトルΦ(y,x)を作成する。ここでxは該当文書ＩＤのテキスト情報のベクトル表現である。Φ(y,x)はM次元ベクトルであり、yとxを入力とするM個の特徴関数φ(y,x)の出力から構成される。特徴ベクトルΦ(y,x)を構成する特徴関数φ(y,x)の例としては、例えば「yの3つの候補が文書内の近い位置に出現する」という特徴を捉えるため、3つの表現が50文字以内に出現する場合に1、そうでない場合に0を出力する特徴関数が挙げられる。また「イベント名に含まれる文字列が本文内の他の場所で出現する」場合に1、そうでない場合に0を出力する特徴関数を利用することもできる。このように、ここでは、イベント情報らしさを捉えるための特徴関数を利用することができる。その他の文字列に基づく基本的な特徴関数としては、例えば、非特許文献４に記載のものを用いることができる。

（S1-4）イベント抽出モデル学習部４は、重みベクトルと特徴ベクトルの内積、つまり、t番目の試行回において選択された文書におけるカテゴリ組み合わせ集合をY_tとし、そのうち正解のカテゴリ組み合わせをy_tとし、当該文書のテキスト情報をx_tで表現した場合の

を計算する。すなわち、イベント抽出モデル学習部４は、

であるような

を選択する。

（S1-5）イベント抽出モデル学習部４は、重みベクトルにおいてコストを考慮した損失の計算を行う。t番目の試行回における損失ｌ_tは、

によって計算される。

イベント抽出モデル学習部４は、損失ｌ_t>0の場合、損失ｌ_tに応じて重みベクトルwを更新する。この重みベクトルwの更新には、例えば非特許文献５の方法を用いることができる。

（S1-6）ｔをｔ＋１とする。

（S1-7）ｔ≦Ｔである場合には（S1-2）に戻り、そうでない場合には（S1-8）に進む。

（S1-8）イベント抽出モデル学習部４は、全ての試行が終わったら、重みベクトルwをイベント抽出モデルＤＢ５に出力する。

（イベント抽出部６）
イベント抽出部６は、イベント抽出モデルＤＢ５、予測対象文書ＤＢ７、予測対象抽出候補ＤＢ８を入力として、イベントＤＢ９を出力する。

（予測対象文書ＤＢ７）
図７に示すように、予測対象文書ＤＢ７は、文書ＤＢ１と同様に、文書のテキスト情報に対して、文書ＩＤを付与したレコードを予め格納したＤＢである。テキスト情報は、イベントの抽出対象である。

（予測対象抽出候補ＤＢ８）
図８に示すように、予測対象抽出候補ＤＢ８には、抽出候補ＤＢ２と同様に、イベント名候補、場所候補、日時候補が格納されている。

（イベントＤＢ９）
図９に示すように、イベントＤＢ９には、抽出されたイベントのイベントＩＤ、イベント名、場所、日時からなるイベント情報が格納される。

（イベント抽出部６）
図１０に示すように、
（S2-1）イベント抽出部６は、予測対象文書ＤＢ７から未処理の文書ＩＤを選択する。以下、これをｄ０という。

（S2-2）イベント抽出部６は、予測対象抽出候補ＤＢ８から、文書ＩＤがｄ０のレコードを選択し、イベント抽出モデル学習部４における（S1-3）と同様に、カテゴリ組み合わせ集合における各カテゴリ組み合わせについて、特徴ベクトルΦ(y,x)を作成する。

カテゴリ組み合わせは、

と表現される。

（S2-3）イベント抽出部６は、イベント抽出モデルＤＢ５に格納された重みベクトルと(S2-2)で作成された特徴ベクトルの内積を計算し、内積を最大とするカテゴリ組み合わせ

を選択する。すなわち、

を計算する。

（S2-4）イベント抽出部６は、取得したカテゴリ組み合わせ

のうち、イベント名候補、場所候補、日時候補をそれぞれイベント名、場所、日時としてイベントＤＢ９に出力し、イベントＩＤを付与する。

（S2-5）イベント抽出部６は、予測対象文書ＤＢ７に未処理の文書ＩＤがある場合には（S2-1）に戻り、そうでない場合には処理を終了する。

（改善データ選択部１０）
改善データ選択部１０は、予測対象文書ＤＢ７、予測対象抽出候補ＤＢ８、イベント抽出モデルＤＢ５、カテゴリ重要度ＤＢ１１を入力として受け取る。

（カテゴリ重要度ＤＢ１１）
図１１に示すように、カテゴリ重要度ＤＢ１１には、各カテゴリつまり、イベント名、場所、日時に対するカテゴリ重要度が格納されている。カテゴリ重要度は、例えば現在のモデルによる各カテゴリに対する個別の正解率に基づいて設定でき、予め作成されているものとする。ここでカテゴリ重要度は、その値が大きいほど高いとする。各カテゴリ重要度は[0,1]の値域で、かつ総和が1になるよう正規化されているものとする。

（改善データ選択部１０）
図１２に示すように、
（S3-1）改善データ選択部１０は、予測対象文書ＤＢ７から未処理の文書ＩＤを選択する。以下、これをｄ００という。

（S3-2）改善データ選択部１０は、予測対象抽出候補ＤＢ８から、文書ＩＤがｄ００のレコードを選択し、イベント抽出モデル学習部４における（S1-3）と同様に、カテゴリ組み合わせ集合における各カテゴリ組み合わせについて、特徴ベクトルΦ(y,x)を作成する。

カテゴリ組み合わせは、

と表現される。

（S3-3）改善データ選択部１０は、イベント抽出モデルＤＢ５に格納された重みベクトルと(S3-2)で作成された特徴ベクトルとの内積を計算し、各内積（スコア）からなるスコアベクトル、すなわち

を取得する。

ここでwは、イベント抽出モデルＤＢ５に格納された重みベクトルである。

（S3-4）改善データ選択部１０は、予測スコアを計算し、これを基に、予測確信度ベクトルを計算する。予測確信度ベクトルは、文書に対して各カテゴリつまり、イベント名、場所、日時のそれぞれに対する予測確信度によって構成される。すなわち、1文書に対して与えられる予測確信度ベクトルはc=(c_event, c_geo, c_time)^Tの3次元ベクトルであり、この予測確信度ベクトルが文書の総数だけ計算される。基本的にc_event、c_geo、c_timeの計算方法は同じであるため、以下、c_eventの計算方法の例を説明する。

改善データ選択部１０は、例えば、当該文書に対して「第20回横須賀祭り」「お祭り」「横須賀引っ越し」という3つのイベント名候補が存在する場合には、2つのイベント名候補からなる組が３組得られる。

改善データ選択部１０は、イベント名候補「第20回横須賀祭り」についてはこれ１つだけを使用し、場所候補、日時候補については全ての候補を使用し、こうして上記のようにスコアベクトルを計算し、各スコアベクトル内のイベント名候補に対応する値（内積）から最大の値を選択し、これを「第20回横須賀祭り」に対する予測スコアとする。

改善データ選択部１０は、イベント名候補「お祭り」、「横須賀引っ越し」についても同様に予測スコアを計算する。

これにより、改善データ選択部１０は、3つのイベント名候補に対応する予測スコアからなる予測スコアベクトルs=(s₁, s₂, s₃)^Tを得る。説明の都合上、s₁ ≧ s₂ ≧ s₃ と降順に並び替えているものとする．
改善データ選択部１０は、ここでs₁が他の値に比べて顕著に大きい場合、本予測モデルは確信を持って判別していると解釈し、c_event（予測確信度）を高い値に設定する。

改善データ選択部１０は、例えば、s₁ - s₂を計算し、これをc_event（予測確信度）とするる。

または、予測スコアベクトルsの全ての予測スコアを用いて予測確信度を計算する方法も考えられる。具体的にはエントロピーを用いて計算する方法がある。全ての確率変数に対する確率が同じような値を持つ確率分布に対してはエントロピーが高くなり、一部の確率変数に対する確率のみ高い分布の場合にエントロピーの値が低くなるという性質を利用し、予測スコアを確率に変換した上で、予測スコアベクトルsに対する負のエントロピーを

によって計算し、これを予測確信度とする。なお、

は、s_iを確率に変換するための項である．
改善データ選択部１０は、場所候補、日時候補についても同様の方法で予測確信度を計算する。これにより、改善データ選択部１０は、イベント名、場所、日時に対する予測確信度からなる予測確信度ベクトルｃを得る。

改善データ選択部１０は、この予測確信度ベクトルｃを予測確信度行列Cに追加する。予測確信度行列Cは、各文書に対応する予測確信度ベクトルを有し、

によって表現される。すなわちN行3列の行列である。なおここでNは予測対象文書ＤＢ７に格納される文書数である。

（S3-5）改善データ選択部１０は、予測対象文書ＤＢ７に未処理の文書ＩＤがある場合にはS3-1）に戻り、そうでない場合、（S3-6）に進む。

（S3-6）改善データ選択部１０は、予測確信度行列Cとカテゴリ重要度ＤＢ１１のカテゴリ重要度を基に、重みつき予測確信度からなる重みつき予測確信度ベクトルを計算する。

図１１の例によれば、カテゴリ重要度は

であり、改善データ選択部１０は、重みつき予測確信度を、

によって計算する。つまり、重みつき予測確信度は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である。

これにより、カテゴリ重要度が高いカテゴリについては、予測確信度が低い場合には、重みつき予測確信度をより低くできる。

重みつき予測確信度ベクトルuはN 行1 列のベクトルであり、各要素がそれぞれの文書に対応する重みつき予測確信度である。

改善データ選択部１０は、この中から最小の重みつき予測確信度を選択し、対応する文書ＩＤを取得する。

（S3-7）改善データ選択部１０は、予測対象文書ＤＢ７から、当該文書ＩＤに対応するテキスト情報を読み出し、予測対象抽出候補ＤＢ８から、当該文書ＩＤに対応するイベント名候補、場所候補、日時候補を読み出し、アノテータに提示する。

アノテータは、テキスト情報を読み、その内容に対応する、つまり正解と思われるイベント名候補、場所候補、日時候補を１つづつ選択する。

改善データ選択部１０は、選択されたイベント名候補、場所候補、日時候補を受信する。

（S3-8）改善データ選択部１０は、イベント名候補、場所候補、日時候補を正解イベント名、正解場所、正解日時として、正解ＤＢ３に出力する。

また、改善データ選択部１０は、提示したテキスト情報を予測対象文書ＤＢ７から文書ＤＢ１へ移動し、提示したイベント名候補、場所候補、日時候補を予測対象抽出候補ＤＢ８から抽出候補ＤＢ２に移動し、処理を終える。

以上のように、本実施の形態によれば、重みつき予測確信度の計算し、最小の重みつき予測確信度に対応するイベント名候補等をアノテータに提示し、選択された正しいイベント名候補等、つまり正解イベント名等を獲得するので、予測対象抽出候補ＤＢ８に記憶させるデータ数が少なくても、効率的に正解ＤＢ３を構築できる。換言すれば、カテゴリ重要度が高く、予測確信度が低いような文書について、正解データを学習させることができる。すなわち、正解データ（正解ＤＢ３）の作成支援を可能とすることができる。

具体的には、イベント情報抽出装置は、文書毎に該文書のテキスト情報を備える予測対象文書データベース７およびその文書毎に２以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベース８を備え、予測対象文書データベース７から１つの文書のテキスト情報を読み出し(S3-6)、予測対象抽出候補データベース８から当該文書の各カテゴリの全ての候補を読み出し(S3-6)、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示する(S3-7)イベント情報抽出装置であって、予測対象文書データベース７および予測対象抽出候補データベース８と、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベース（５）と、カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベース１１と、テキスト情報および候補を提示する改善データ選択部１０とを備える。

そして、改善データ選択部１０は、まず、予測対象文書データベース７のテキスト情報毎に以下の処理を行う。

最初に、改善データ選択部１０は、予測対象抽出候補データベース８における当該テキスト情報に対応する各カテゴリで１づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成する(S3-2)。

次に、改善データ選択部１０は、当該各特徴ベクトルについて、重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成する(S3-3)。

次に、改善データ選択部１０は、各カテゴリについて、当該カテゴリについては１つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該１つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し(S3-3)、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算する(S3-4)。

次に、改善データ選択部１０は、当該各予測確信度からなる予測確信度ベクトルを生成する(S3-4)。

改善データ選択部１０は、続いて、予測対象文書データベース７のテキスト情報毎に以下の処理を行う。

つまり、改善データ選択部１０は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である重みつき予測確信度を計算する(S3-6)。

そして、改善データ選択部１０は、予測対象文書データベース７および予測対象抽出候補データベース８から、重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する(S3-7)。

なお、本実施の形態に係るイベント情報抽出装置またはその一部（例えば、改善データ選択部１０）としてコンピュータを機能させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。

１…文書ＤＢ
２…抽出候補ＤＢ
３…正解ＤＢ
４…イベント抽出モデル学習部
５…イベント抽出モデルＤＢ
６…イベント抽出部
７…予測対象文書ＤＢ
８…予測対象抽出候補ＤＢ
９…イベントＤＢ
１０…改善データ選択部
１１…カテゴリ重要度ＤＢ

Claims

文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に２以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、
前記予測対象文書データベースから１つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、
前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
前記テキスト情報および候補を提示する改善データ選択部とを備え、
前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで１づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
前記各カテゴリについて、当該カテゴリについては１つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該１つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
当該各予測確信度からなる予測確信度ベクトルを生成し、
前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
前記改善データ選択部は、
前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
ことを特徴とするイベント情報抽出装置。
前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
ことを特徴とする請求項１記載のイベント情報抽出装置。
前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
ことを特徴とする請求項１記載のイベント情報抽出装置。
文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に２以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから１つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、
前記イベント情報抽出装置は、
前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
前記テキスト情報および候補を提示する改善データ選択部とを備え、
前記動作方法は、
前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで１づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
前記各カテゴリについて、当該カテゴリについては１つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該１つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
当該各予測確信度からなる予測確信度ベクトルを生成し、
前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
前記改善データ選択部が、
前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
ことを特徴とするイベント情報抽出装置の動作方法。
前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
ことを特徴とする請求項４記載のイベント情報抽出装置の動作方法。
前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
ことを特徴とする請求項４記載のイベント情報抽出装置の動作方法。
請求項１ないし３のいずれかに記載のイベント情報抽出装置としてコンピュータを機能させるためのコンピュータプログラム。