JP5863193B2

JP5863193B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム

Info

Publication number: JP5863193B2
Application number: JP2013022245A
Authority: JP
Inventors: 良彦数原; 鈴木　潤; 潤鈴木; 鷲崎　誠司; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-07
Filing date: 2013-02-07
Publication date: 2016-02-16
Anticipated expiration: 2033-02-07
Also published as: JP2014153862A

Description

本発明は、文書から情報を検索する技術に関する。

ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手コストをかけずにイベント情報データベースを構築することが可能となり、イベント推薦サービスなどに活用することができる。

テキストからイベント情報の抽出をするためには、例えば、非特許文献1〜３を用いて、イベント名、場所、日時などの各カテゴリに対する候補を抽出することができる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いてイベント名、場所、日時に対して自動的に判別を行う判別器を構築することができ、ウェブ文書などから自動的にイベント名、場所、日時を抽出することができる。

山田、他２名、「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅを用いた日本語固有表現抽出」、情報処理学会論文誌、情報処理学会、2002年１月、Vol. 43, No. 1、pp.44-53 平野、他２名、「地理的距離と有名度を用いた地名の曖昧性解消」、第７０回情報処理学会全国大会、情報処理学会、2008年、pp.2-85 - 2-86 廣嶋、他３名、「記述された日時の有効範囲を考慮した日時指定検索」、第３回Ｗｅｂとデータベースに関するフォーラム、2010年平、他１名、「構造学習を用いた述語項構造解析」、第１４回言語処理学会年次大会発表論文集、言語処理学会、2008年、pp.556-559 Crammer K., et al., "Online Passive-Aggressive Algorithms", Journal of Machine Learning, 2006, Vol. 7, pp. 551-585

しかしながら、個別のカテゴリに対する判定器を構築する方法では、各カテゴリの判定器の出力結果を同時に考慮しないため、たとえば各カテゴリの表現が文書内において近くに出現しやすいといった特徴を扱うことができず、イベント抽出精度が低下するおそれがあった。

また、アプリケーションによっては、他の情報が間違っていてもイベント情報の日時を必ず正確に取得したいという要求があり、そのような状況において、日時誤りが、場所誤りに比べて重要になる場合がある。従来手法では誤りの重要度を考慮することができず、イベント抽出精度が低下するおそれがあった。

本発明は、上記に鑑みてなされたものであり、文書中から関連性のあるカテゴリの情報を精度良く抽出することを目的とする。

第１の本発明に係る情報抽出方法は、コンピュータによって実行される情報抽出方法であって、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記取得するステップで取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有することを特徴とする。

上記情報抽出方法において、前記抽出モデルを更新するステップは、カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記取得するステップで取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。

第２の本発明に係る情報抽出装置は、関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、カテゴリそれぞれの正解を格納した正解記憶手段と、前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有することを特徴とする。

上記情報抽出装置において、カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段を更に備え、前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記組み合わせ取得手段が取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。

第３の本発明に係る情報抽出プログラムは、上記情報抽出方法の各ステップをコンピュータに実行させることを特徴とする。

本発明によれば、文書中から関連性のあるカテゴリの情報を精度良く抽出することができる。

本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。文書データベースに格納されたデータの例を示す図である。抽出候補データベースに格納されたデータの例を示す図である。正解データベースに格納されたデータの例を示す図である。コストデータベースに格納されたデータの例を示す図である。イベント抽出モデル学習機能の処理の流れを示すフローチャートである。イベント抽出モデルデータベースに格納されたイベント抽出モデルの例を示す図である。予測対象文書データベースに格納されたデータの例を示す図である。予測対象抽出候補データベースに格納されたデータの例を示す図である。イベント抽出機能の処理の流れを示すフローチャートである。イベントデータベースに格納されたイベント情報の例を示す図である。従来手法と本実施の形態におけるイベント情報抽出装置の各カテゴリに対する予測の適合率を求めた実験結果を示す。

以下、本発明の実施の形態について図面を用いて説明する。

図１は、本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。図１に示すイベント情報抽出装置は、文書ＤＢ１０、抽出候補ＤＢ２０（抽出候補記憶手段に対応）、正解ＤＢ３０（正解記憶手段に対応）、コストＤＢ４０（コスト記憶手段に対応）、イベント抽出モデル学習機能５０（特徴ベクトル計算手段、組み合わせ取得手段及び抽出モデル更新手段に対応）、イベント抽出モデルＤＢ６０（抽出モデル記憶手段に対応）、予測対象文書ＤＢ７０、予測対象抽出候補ＤＢ８０（予測対象抽出候補記憶手段に対応）、イベント抽出機能９０（情報抽出手段に対応）、およびイベントＤＢ１００を備える。イベント情報抽出装置が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはイベント情報抽出装置が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。

まず、イベント抽出モデル学習機能５０について説明する。イベント抽出モデル学習機能５０は、文書ＤＢ１０、抽出候補ＤＢ２０、正解ＤＢ３０、コストＤＢ４０に格納された情報と繰り返し回数Ｔを入力として、イベント抽出モデルを出力する。

文書ＤＢ１０は、イベント情報の抽出対象となる本文情報（テキストデータ）に文書ＩＤを付与して格納する。図２に、文書ＤＢ１０に格納されたデータの例を示す。

抽出候補ＤＢ２０は、文書ＤＢ１０が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を文書ＩＤ毎に格納する。図３に、抽出候補ＤＢ２０に格納されたデータの例を示す。図３に示す例では、文書ＩＤが１の本文情報から抽出されたイベント名候補として、「イベント」「小樽ロングクリスマス２０１２Ｆｉｎａｌ」の２つが格納されている。図３には示していないが、イベント名候補、場所候補、日時候補については、本文情報中の出現位置情報を付与している。イベント名候補の抽出には非特許文献１を、場所候補の抽出には非特許文献２を、日時候補の抽出には非特許文献３を用いることで、文書ＤＢ１０に格納された本文情報から抽出候補ＤＢ２０に格納するデータを生成可能である。イベント名、場所、日時を抽出することができれば、場所や日時に基づいたイベント推薦が可能となるため、本実施の形態では、これらの３つの情報を１つのイベント情報の単位とする。イベント名、場所、日時をイベント情報のカテゴリと呼ぶ。本実施の形態では、イベント情報のカテゴリとしてイベント名、場所、日時を用いるが、それ以外の情報（例えば料金，主催団体など）についても本実施形態と同じ枠組みで実現可能である。

正解ＤＢ３０は、文書ＤＢ１０が格納する本文情報それぞれについて、各カテゴリの正解、つまり正解イベント名、正解場所、正解日時を格納する。図４に、正解ＤＢ３０に格納されたデータの例を示す。これらの正解は、人手によってあらかじめ作成されているものとする。なお、抽出候補ＤＢ２０と同様に、本文情報中の出現位置情報を付与している。

コストＤＢ４０は、各カテゴリに対する誤りコストを格納する。図５に、コストＤＢ４０に格納されたデータの例を示す。図５中の event はイベント名の誤りコスト、geo は場所の誤りコスト、time は日時の誤りコストを表す。値が大きいほどコストが高い、つまり間違えて欲しくないことを示す。これらのコストは、人手によってあらかじめ作成されているものとする。

続いて、イベント抽出モデル学習機能５０の処理の流れを説明する。

図６は、イベント抽出モデル学習機能５０の処理の流れを示すフローチャートである。

最初に、重みベクトルｗをｗ＝（０，０，０，・・・，０）^Ｔと初期化し、繰り返しカウンタｔをｔ←１と初期化する（ステップＳ１１）。重みベクトルｗは、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルである。重みベクトルｗの次元数は後述する特徴ベクトル数と同じＭ次元とする。

続いて、正解ＤＢ３０からランダムに１レコードを選択する（ステップＳ１２）。ここで選択したレコードの文書ＩＤをｄとする。

続いて、抽出候補ＤＢ２０から文書ＩＤがｄのレコードを選択して、全てのカテゴリにおける可能な候補の組み合わせの集合（以下、「カテゴリ組み合わせ集合」と称する）を作成し、カテゴリ組み合わせ集合に含まれる全ての組み合わせについて特徴ベクトルを作成する（ステップＳ１３）。図３に示す抽出候補ＤＢ２０の文書ＩＤが２のレコードから作成するカテゴリ組み合わせ集合は以下のようになる。

第２０回横須賀祭り − 神奈川県横須賀市 − ２０１２年１０月２０日
第２０回横須賀祭り − 神奈川県横須賀市 − ２０１２年１２月２０日
・・・
お祭り − 東京都 − ２０１３年１月１日

このように、本実施の形態におけるカテゴリ組み合わせ集合は、イベント名候補、場所候補、日時候補について全ての可能な候補の組み合わせの集合となる。上記の図３の文書ＩＤが２の例では、イベント名候補が２つ、場所候補が２つ、日時候補が３つであるので、２・２・３＝１２通りの組み合わせが存在する。ここで正解ＤＢ３０の選択されたレコードに格納されたイベント名、場所、日時を持つ組み合わせを正解として扱い、それ以外の組み合わせについては誤り組み合わせとし、どのカテゴリが誤っているかという情報を同時に保持しているものとする。例えば、場所と日時が正解と異なる場合、場所、日時誤りと判定する。このように、誤り組み合わせは１つ以上の誤ったカテゴリを持つ。

ステップＳ１３では、さらに、作成したカテゴリ組み合わせ集合と文書ＤＢ１０から取得した本文情報をもとに、各カテゴリ組み合わせの特徴を表す特徴ベクトルΦ（ｙ，ｘ）を作成する。ここで、ｘは当該文書ＩＤに対応する本文情報のベクトル表現であり、ｙはカテゴリ組み合わせ集合の要素（カテゴリ組み合わせ）である。Φ（ｙ，ｘ）はＭ次元ベクトルであり、ｙとｘを入力とするＭ個のイベント情報らしさを捉えるための特徴関数φ（ｙ，ｘ）の出力で構成される。特徴関数φ（ｙ，ｘ）の例としては、例えば「ｙの３つの候補が文書内の近い位置に出現する」という特徴を捉えるため、３つの表現が５０文字以内に出現する場合に１、そうでない場合に０を出力する特徴関数が挙げられる。また、別の例としては、イベント名に含まれる文字列が本文内の他の場所で出現もする場合に１、そうでない場合に０を出力する特徴関数が考えられる。その他の文字列に基づく基本的な特徴関数としては、例えば非特許文献４の方法を用いることができる。

続いて、コストＤＢ４０に格納された誤りコストを用い、各カテゴリ組み合わせに対してコストを計算する（ステップＳ１４）。各カテゴリ組み合わせに対するコストは、あらかじめ設定されたコスト関数ρを用いて計算する。カテゴリ組み合わせ集合のうち、カテゴリ組み合わせの正解ベクトルをｙ、場所のみ誤っているカテゴリ組み合わせベクトルをｙ_{ｅｒｒｏｒｇｅｏ}とすると、場所のみ誤っているカテゴリ組み合わせのコストは、ρ（ｙ，ｙ_{ｅｒｒｏｒｇｅｏ}）で計算する。また、日時のみ誤っているカテゴリ組み合わせベクトルをｙ_{ｅｒｒｏｒｔｉｍｅ}とすると、日時のみ誤っているカテゴリ組み合わせのコストは、ρ（ｙ，ｙ_{ｅｒｒｏｒｔｉｍｅ}）で計算する。

誤り組み合わせに対し、誤っているカテゴリのコストをコストＤＢ４０から読み出す。誤っているカテゴリがひとつの場合は、該当するカテゴリのコストを用いる。誤っているカテゴリが複数ある場合には、複数の該当するカテゴリーのコストを足し合わせて用いる。

例えば、場所誤りに対する誤りコストが日時誤りに対する誤りコストより大きい場合は、次式（１）となる。

複数のカテゴリが誤る場合、例えばイベント名と場所が誤っているカテゴリ組み合わせのベクトルｙ_{ｅｒｒｏｒｅｖｅｎｔ＿ａｎｄ＿ｇｅｏ}は、次式（２）のようにコストを加算して求めることができる。

なお、カテゴリに対するコスト関数だけではなく、同一カテゴリ内の候補に対しても不均等なコストを同様に設定することができる。例えば、あるイベント情報における神奈川県横須賀市という場所カテゴリの正解に対して、神奈川県横浜市を選択する誤りは、北海道帯広市を選択する誤りに比べて、より正解に近い推測を行なっているため、損失は小さいと考えることができる。そこで、北海道帯広市を選択する誤りに対するコストを神奈川県横浜市を選択する誤りに対するコストより大きく設定することにより、より正解に近い推測を行うモデルの生成が可能となる。他にも、イベント名においては正解表現に対する文字列の編集距離、場所においては地名の地理的距離、日時においては正解日付からのずれ日数などを用いることができる。また、小さなずれも強調するようなコストを設定したい場合、例えば、０＜ｒ＜１の値を用いたｆ（ｘ）＝｜ｘ｜^ｒなどの関数を利用するとよい。

続いて、現在の重みベクトルｗで最大スコアとなるカテゴリ組み合わせを求める（ステップＳ１５）。最大スコアとなるカテゴリ組み合わせは、次式（３）で計算する。

ここで、Ｙ_ｔはｔ番目のイテレーションにおいて選択された文書におけるカテゴリ組み合わせ集合、ｙ_ｔは正解のカテゴリ組み合わせ、ｘ_ｔは該当文書の本文情報である。

続いて、ステップＳ１５で求めた最大スコアのカテゴリ組み合わせの損失を計算し、損失が０より大きい場合は重みベクトルｗを更新する（ステップＳ１６）。ｔ番目のイテレーションにおける損失ｌ_ｔは次式（４）で計算する。

ここで、右辺第３項は、ステップＳ１４で計算したコストを用いる。損失ｌ_ｔ＞０の場合、損失ｌ_ｔに応じて重みベクトルｗを更新する。重みベクトルの更新には、例えば非特許文献５の方法を用いることができる。

そして、繰り返しカウンタｔを増分し（ステップＳ１７）、あらかじめ定めた繰り返し回数Ｔ以下の場合（ステップＳ１８のＹｅｓ）、ステップＳ１２に戻り、繰り返しカウンタｔが繰り返し回数Ｔを超えた場合（ステップＳ１８のＮｏ）、重みベクトルｗをイベント抽出モデルＤＢ６０に出力する（ステップＳ１９）。

次に、イベント抽出機能９０について説明する。イベント抽出機能９０は、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルを用いて、予測対象文書ＤＢ７０、予測対象抽出候補ＤＢ８０に格納された情報からイベント情報を抽出する。

イベント抽出モデルＤＢ６０は、イベント抽出モデル学習機能５０が求めたイベント抽出モデルを格納する。イベント抽出モデルは、Ｍ次元の特徴に対する重みベクトルｗ＝（ｗ_１，ｗ_２，・・・，ｗ_Ｍ）^Ｔで構成される。図７に、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルの例を示す。

予測対象文書ＤＢ７０は、文書ＤＢ１０と同様に、イベント情報の抽出対象となる本文情報に文書ＩＤを付与して格納する。図８に、予測対象文書ＤＢ７０に格納されたデータの例を示す。

予測対象抽出候補ＤＢ８０は、抽出候補ＤＢ２０と同様に、予測対象文書ＤＢ７０が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を格納する。図９に、予測対象抽出候補ＤＢ８０に格納されたデータの例を示す。

続いて、イベント抽出機能９０の処理の流れを説明する。

図１０は、イベント抽出機能９０の処理の流れを示すフローチャートである。

まず、予測対象文書ＤＢ７０から未処理のレコードを選択する（ステップＳ２１）。ここで選択したレコードの文書ＩＤをｄ’とする。

予測対象抽出候補ＤＢ８０から文書ＩＤがｄ’のレコードを選択してカテゴリ組み合わせ集合を作成し、カテゴリ組み合わせ集合に含まれる全てのカテゴリ組み合わせについて特徴ベクトルを作成する（ステップＳ２２）。イベント抽出モデル学習機能５０によるステップＳ１３と同じ処理によって特徴ベクトルΦ（ｙ，ｘ）を作成する。

続いて、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルを用いて最大スコアを与えるカテゴリ組み合わせを取得する（ステップＳ２３）。具体的には、次式（５）に示すように、イベント抽出モデルＤＢ６０に格納された重さベクトルｗとステップＳ２２で作成した特徴ベクトルΦ（ｙ，ｘ）との内積を計算して、最大スコアを与えるカテゴリ組み合わせを取得する。

ここで、Ｙ_ｔｅｓｔは入力文書におけるカテゴリ組み合わせ集合、ｘは入力文書の本文情報である。

ステップＳ２３で取得したカテゴリ組み合わせの各カテゴリをイベントＤＢ１００に出力する（ステップＳ２４）。

予測対象文書ＤＢ７０に未処理のレコードがある場合には（ステップＳ２５のＹｅｓ）、ステップＳ２１に戻り、次のレコードを取得し、未処理のレコードがない場合は（ステップＳ２５のＮｏ）、処理を終了する。

図１２に、イベントＤＢ１００に格納されたイベント情報の例を示す。イベントＤＢ１００には、文書ＩＤ毎に抽出されたイベント情報が格納される。

次に、本実施の形態におけるイベント情報抽出装置の実験結果について説明する。

地域イベント情報を含む日本語ブログ記事３０９件を文書ＤＢ１０に格納し、非特許文献１〜３の手法を用いて固有表現を抽出して抽出候補ＤＢ２０を作成、イベント名、場所、日時を抽出して正解ＤＢ３０を構築した。

比較対象の方法として、抽出した固有表現タイプを用いてルールベースで判定するベースライン手法を用いた。

本実施の形態のイベント情報抽出装置を用いた方法では、データを５ブロックに分割し、４ブロックを訓練データ、１ブロックをテストデータにして、組み合わせを変えて５回試行した。

図１２に、各カテゴリに対する予測の適合率（正解件数／予測件数）を求めた実験結果を示す。同図に示すように、いずれの項目においても、本実施の形態のイベント情報抽出装置を用いた方法がベースライン手法よりも優れていた。

以上説明したように、本実施の形態によれば、イベント抽出モデル学習機能５０が、抽出候補ＤＢ２０に格納された各カテゴリの候補の組み合わせについて、各カテゴリ組み合わせの特徴を表す特徴ベクトルを計算し、特徴ベクトルとイベント抽出モデルで計算されるスコアが最大となるカテゴリ組み合わせについて、正解に対する損失を計算し、損失が所定の値以内の場合にイベント抽出モデルを更新することでより的確なイベント抽出モデルを作成するとともに、イベント抽出機能９０が予測対象抽出候補ＤＢ８０に格納された各カテゴリの候補の組み合わせについて、カテゴリ組み合わせの特徴ベクトルとイベント抽出モデル学習機能５０の作成したイベント抽出モデルで計算されるスコアが最大となるカテゴリ組み合わせを取得することにより、イベント名、場所、日時といったカテゴリ同士の関係を考慮した高精度なイベント情報の抽出が可能となる。

本実施の形態によれば、カテゴリ間あるいはカテゴリ内における誤りコストを損失の評価に加味することによって、カテゴリ間あるいはカテゴリ内における誤りの重要度を反映したイベント抽出モデルの学習が可能となる。例えば、日時を犠牲にしても場所誤りを減少させるイベント抽出モデルの生成が可能となる。これにより、ユーザ満足度を著しく下げる結果を出力するイベント抽出モデルの生成を防ぐことができる。

１０…文書ＤＢ
２０…抽出候補ＤＢ
３０…正解ＤＢ
４０…コストＤＢ
５０…イベント抽出モデル学習機能
６０…イベント抽出モデルＤＢ
７０…予測対象文書ＤＢ
８０…予測対象抽出候補ＤＢ
９０…イベント抽出機能
１００…イベントＤＢ

Claims

コンピュータによって実行される情報抽出方法であって、
関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、
抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、
前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記取得するステップで取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、
カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有すること
を特徴とする情報抽出方法。
前記抽出モデルを更新するステップは、カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記取得するステップで取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項１記載の情報抽出方法。
関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、
関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、
カテゴリそれぞれの正解を格納した正解記憶手段と、
前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、
前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、
前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、
カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、
前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせに対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有すること
を特徴とする情報抽出装置。
カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段を更に備え、
前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記組み合わせ取得手段が取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項３記載の情報抽出装置。
請求項１又は２に記載の情報抽出方法の各ステップをコンピュータに実行させることを特徴とする情報抽出プログラム。