JP2014228993A

JP2014228993A - 情報抽出方法、情報抽出装置及び情報抽出プログラム

Info

Publication number: JP2014228993A
Application number: JP2013106917A
Authority: JP
Inventors: 良彦数原; Yoshihiko Kazuhara; 浩之戸田; Hiroyuki Toda; 西岡　秀一; Shuichi Nishioka; 秀一西岡; 鷲崎　誠司; Seiji Washisaki; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-05-21
Filing date: 2013-05-21
Publication date: 2014-12-08
Anticipated expiration: 2033-05-21
Also published as: JP6059598B2

Abstract

【課題】文書中から関連性のあるカテゴリの情報を抽出する際に適切な候補を抽出し学習コストの増加を防ぐ。【解決手段】イベント名候補抽出機能１５が、イベント名候補が別のイベント名候補の部分文字列となっている場合に、別のイベント名候補の文字数に対する部分文字列の文字数の割合が除去比率λに満たないときは、部分文字列を除去する。これにより、適切なイベント名候補を抽出し、イベント名候補の数を減らして学習コストの増加を防ぐことができる。【選択図】図１

Description

本発明は、文書から情報を検索する技術に関する。

ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手コストをかけずにイベント情報データベースを構築することが可能となり、イベント推薦サービスなどに活用することができる。

テキストからイベント情報を抽出するためには、例えば、非特許文献1〜３を用いて、イベント名、場所、日時などの各カテゴリに対する候補を抽出することができる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いてイベント名、場所、日時に対して自動的に判別を行う判別器を構築することができ、ウェブ文書などから自動的にイベント名、場所、日時を抽出することができる。

山田、他２名、「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅを用いた日本語固有表現抽出」、情報処理学会論文誌、情報処理学会、2002年１月、Vol. 43, No. 1、pp.44-53 平野、他２名、「地理的距離と有名度を用いた地名の曖昧性解消」、第７０回情報処理学会全国大会、情報処理学会、2008年、pp.2-85 - 2-86 廣嶋、他３名、「記述された日時の有効範囲を考慮した日時指定検索」、第３回Ｗｅｂとデータベースに関するフォーラム、2010年平、他１名、「構造学習を用いた述語項構造解析」、第１４回言語処理学会年次大会発表論文集、言語処理学会、2008年、pp.556-559 Crammer K., et al., "Online Passive-Aggressive Algorithms", Journal of Machine Learning, 2006, Vol. 7, pp. 551-585

個別に判別器を適用するのではなく、予測に構造を持たせ、抽出された候補の中から正しい組み合わせを選択するモデルを構築する構造出力学習を用いる方法が考えられる。この場合、例えば非特許文献５を用いて予測モデルを構築することができる。

しかしながら、非特許文献１など固有表現抽出を用いる方法はイベント名抽出の方法ではないため、適切なイベント名候補の取得に失敗するという問題があった。本発明の予測モデルは、与えられた予測候補から組み合わせを選択するため、適切な候補が存在しない場合には、適切なイベント名を取得することができずに精度が低下するおそれがあった。

本発明は、上記に鑑みてなされたものであり、文書中から関連性のあるカテゴリの情報を抽出する際に、適切な候補を抽出しつつ、学習コストの増加を防ぐことを目的とする。

第１の本発明に係る情報抽出装置は、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、文書情報から抽出した前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去する候補除去手段と、カテゴリそれぞれの正解を格納した正解記憶手段と、関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有することを特徴とする。

上記情報抽出装置において、前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段を更に備え、前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。

第２の本発明に係る情報抽出方法は、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納された前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去するステップと、前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有することを特徴とする。

上記情報抽出方法において、前記抽出モデルを更新するステップは、前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。

第３の本発明に係る情報抽出プログラムは、上記情報抽出装置の各手段としてコンピュータを動作させることを特徴とする。

本発明によれば、文書中から関連性のあるカテゴリの情報を抽出する際に、適切な候補を抽出し、学習コストの増加を防ぐことができる。

本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。文書データベースに格納されたデータの例を示す図である。抽出候補データベースに格納されたデータの例を示す図である。正解データベースに格納されたデータの例を示す図である。コストデータベースに格納されたデータの例を示す図である。イベント名候補抽出機能の処理の流れを示すフローチャートである。イベント抽出モデル学習機能の処理の流れを示すフローチャートである。イベント抽出モデルデータベースに格納されたイベント抽出モデルの例を示す図である。予測対象文書データベースに格納されたデータの例を示す図である。予測対象抽出候補データベースに格納されたデータの例を示す図である。イベント抽出機能の処理の流れを示すフローチャートである。イベントデータベースに格納されたイベント情報の例を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

図１は、本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。図１に示すイベント情報抽出装置は、文書ＤＢ１０、イベント名候補抽出機能１５（候補除去手段に対応）、抽出候補ＤＢ２０（抽出候補記憶手段に対応）、正解ＤＢ３０（正解記憶手段に対応）、コストＤＢ４０（コスト記憶手段に対応）、イベント抽出モデル学習機能５０（特徴ベクトル計算手段、組み合わせ取得手段及び抽出モデル更新手段に対応）、イベント抽出モデルＤＢ６０（抽出モデル記憶手段に対応）、予測対象文書ＤＢ７０、予測対象抽出候補ＤＢ８０（予測対象抽出候補記憶手段に対応）、イベント抽出機能９０（情報抽出手段に対応）、およびイベントＤＢ１００を備える。イベント情報抽出装置が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはイベント情報抽出装置が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。

まず、イベント抽出モデルを生成する処理で利用する文書ＤＢ１０、抽出候補ＤＢ２０、正解ＤＢ３０、コストＤＢ４０に格納された情報について説明する。

文書ＤＢ１０は、イベント情報の抽出対象となる本文情報（テキストデータ）に文書ＩＤを付与して格納する。図２に、文書ＤＢ１０に格納されたデータの例を示す。

抽出候補ＤＢ２０は、文書ＤＢ１０が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を文書ＩＤ毎に格納する。図３に、抽出候補ＤＢ２０に格納されたデータの例を示す。図３に示す例では、文書ＩＤが１の本文情報から抽出されたイベント名候補として、「イベント」「小樽ロングクリスマス２０１２Ｆｉｎａｌ」の２つが格納されている。図３には示していないが、イベント名候補、場所候補、日時候補については、本文情報中の出現位置情報を付与している。イベント名候補は、イベント名候補抽出機能１５が文書ＤＢ１０が格納する本文情報から抽出する。場所候補の抽出には非特許文献２を、日時候補の抽出には非特許文献３を用いることで、文書ＤＢ１０に格納された本文情報から抽出候補ＤＢ２０に格納するデータを生成可能である。イベント名、場所、日時を抽出することができれば、場所や日時に基づいたイベント推薦が可能となるため、本実施の形態では、これらの３つの情報を１つのイベント情報の単位とする。イベント名、場所、日時をイベント情報のカテゴリと呼ぶ。本実施の形態では、イベント情報のカテゴリとしてイベント名、場所、日時を用いるが、それ以外の情報（例えば料金，主催団体など）についても本実施形態と同じ枠組みで実現可能である。

正解ＤＢ３０は、文書ＤＢ１０が格納する本文情報それぞれについて、各カテゴリの正解、つまり正解イベント名、正解場所、正解日時を格納する。図４に、正解ＤＢ３０に格納されたデータの例を示す。これらの正解は、人手によってあらかじめ作成されているものとする。なお、抽出候補ＤＢ２０と同様に、本文情報中の出現位置情報を付与している。

コストＤＢ４０は、誤りタイプに対するコストを格納する。図５に、コストＤＢ４０に格納されたデータの例を示す。図５中の substring は正解イベント名の部分文字列であった場合の誤りコスト、others はその他の誤りに対する誤りコストを表す。substring の値は others の値より小さく設定されているものとする。これらのコストは人手によってあらかじめ作成されているものとする。

次に、イベント名候補抽出機能１５の処理の流れを説明する。

図６は、イベント名候補抽出機能１５の処理の流れを示すフローチャートである。

まず、文書ＤＢ１０から未処理のレコードを選択する（ステップＳ１１）。

選択したレコードが持つテキストデータからイベント名候補を抽出する（ステップＳ１２）。イベント名候補の抽出には、テキストデータを単語分割して各単語に対する品詞情報を付与し（例えば、Takeshi Fuchi, “Japanese Morphological Analyzer using Word Co-occurence - JTAG”, COLING-ACL, pp.409-413, 1998を用いる）、得られた品詞情報に基いて、連続した名詞および「の」で連接された単語列を全てイベント名候補集合Ｓとする。例えば、「第２０回」「横須賀」「祭り」という連続した名詞に単語分割が行われた場合、以下の６通りがイベント名候補として抽出される。

・第２０回
・第２０回横須賀
・第２０回横須賀祭り
・横須賀
・横須賀祭り
・祭り

そして、得られたイベント名候補集合Ｓの中から、部分文字列である候補の一部を除去する（ステップＳ１３）。イベント名候補が増加することにより、全てのカテゴリにおける可能な候補の組み合わせの数が増加するため、イベント抽出モデル学習機能５０におけるモデル生成のコストが高くなる。そこで、本実施の形態ではイベント名候補の一部を除去する。除去の方法としては、予め人手によって設定された除去比率０＜λ≦１を用いて、イベント名候補が別のイベント名候補の部分文字列となっている場合に、別のイベント名候補の文字数に対する部分文字列の文字数の割合が除去比率λに満たないときは、部分文字列を除去する。例えばλ＝１の場合、上述の例においては「第２０回横須賀祭り」以外のイベント名候補が全て除去される。

ステップＳ１３で得られたイベント名候補を抽出候補ＤＢ２０の対応するレコードに出力する（ステップＳ１４）。

文書ＤＢ１０に未処理のレコードがある場合には（ステップＳ１５のＹｅｓ）、ステップＳ１１に戻って次のレコードを取得し、未処理のレコードがない場合は（ステップＳ１５のＮｏ）、処理を終了する。

続いて、イベント抽出モデル学習機能５０の処理の流れを説明する。

図７は、イベント抽出モデル学習機能５０の処理の流れを示すフローチャートである。

最初に、重みベクトルｗをｗ＝（０，０，０，・・・，０）^Tと初期化し、繰り返しカウンタｔをｔ←１と初期化する（ステップＳ２１）。重みベクトルｗは、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルである。重みベクトルｗの次元数は後述する特徴ベクトル数と同じＭ次元とする。

続いて、正解ＤＢ３０からランダムに１レコードを選択する（ステップＳ２２）。ここで選択したレコードの文書ＩＤをｄとする。

続いて、抽出候補ＤＢ２０から文書ＩＤがｄのレコードを選択して、全てのカテゴリにおける可能な候補の組み合わせの集合（以下、「カテゴリ組み合わせ集合」と称する）を作成し、カテゴリ組み合わせ集合に含まれる全ての組み合わせについて特徴ベクトルを作成する（ステップＳ２３）。図３に示す抽出候補ＤＢ２０の文書ＩＤが２のレコードから作成するカテゴリ組み合わせ集合は以下のようになる。

第２０回横須賀祭り − 神奈川県横須賀市 − ２０１２年１０月２０日
第２０回横須賀祭り − 神奈川県横須賀市 − ２０１２年１２月２０日
・・・
お祭り − 東京都 − ２０１３年１月１日

このように、本実施の形態におけるカテゴリ組み合わせ集合は、イベント名候補、場所候補、日時候補について全ての可能な候補の組み合わせの集合となる。上記の図３の文書ＩＤが２の例では、イベント名候補が２つ、場所候補が２つ、日時候補が３つであるので、２・２・３＝１２通りの組み合わせが存在する。ここで正解ＤＢ３０の選択されたレコードに格納されたイベント名、場所、日時を持つ組み合わせを正解として扱い、それ以外の組み合わせについては誤り組み合わせとし、どのカテゴリが誤っているかという情報を同時に保持しているものとする。例えば、場所と日時が正解と異なる場合、場所、日時誤りと判定する。このように、誤り組み合わせは１つ以上の誤ったカテゴリを持つ。

ステップＳ２３では、さらに、作成したカテゴリ組み合わせ集合と文書ＤＢ１０から取得した本文情報をもとに、各カテゴリ組み合わせの特徴を表す特徴ベクトルΦ（ｙ，ｘ）を作成する。ここで、ｘは当該文書ＩＤに対応する本文情報のベクトル表現であり、ｙはカテゴリ組み合わせ集合の要素（カテゴリ組み合わせ）である。Φ（ｙ，ｘ）はＭ次元ベクトルであり、ｙとｘを入力とするＭ個のイベント情報らしさを捉えるための特徴関数φ（ｙ，ｘ）の出力で構成される。特徴関数φ（ｙ，ｘ）の例としては、例えば「ｙの３つの候補が文書内の近い位置に出現する」という特徴を捉えるため、３つの表現が５０文字以内に出現する場合に１、そうでない場合に０を出力する特徴関数が挙げられる。また、別の例としては、イベント名に含まれる文字列が本文内の他の場所で出現もする場合に１、そうでない場合に０を出力する特徴関数が考えられる。その他の文字列に基づく基本的な特徴関数としては、例えば非特許文献４の方法を用いることができる。

続いて、コストＤＢ４０に格納されたコストを用いてイベント名の誤りに対するコストを計算する（ステップＳ２４）。具体的には、カテゴリ組み合わせ集合のイベント名が正解イベント名の部分文字列である場合には、コストＤＢ４０における substring の値をｃｏｓｔ_substringとし、次式（１）を用いてコストを算出する。

ここで、ｌｅｎｇｔｈ_substringは当該部分文字列の文字列長、ｌｅｎｇｔｈ_{correct_string}は正解イベント名の文字列長を表す。部分文字列長が短くなればなるほどコストの値が大きくなるため、このようなイベント名候補を選択するモデルを生成しないようなペナルティ項の効果を果たす。

カテゴリ組み合わせ集合のイベント名が正解イベント名の部分文字列でない場合には、コストＤＢ４０における others の値をコストとして用いる。others の値を substring の値よりも大きくしているので、カテゴリ組み合わせ集合のイベント名が正解イベント名の部分文字列ではない誤りに比べて部分文字列である誤りを選択する、また、部分文字列である誤りにおいても正解イベント名により近い文字列を選択するようなモデルを生成する効果を生み出す。

続いて、現在の重みベクトルｗで最大スコアとなるカテゴリ組み合わせを求める（ステップＳ２５）。最大スコアとなるカテゴリ組み合わせは、次式（２）で計算する。

ここで、Ｙ_tはｔ番目のイテレーションにおいて選択された文書におけるカテゴリ組み合わせ集合、ｙ_tは正解のカテゴリ組み合わせ、ｘ_tは該当文書の本文情報である。ただし、ｃｏｓｔを加算しなくてもよい。

続いて、ステップＳ２５で求めた最大スコアのカテゴリ組み合わせの損失を計算し、損失が０より大きい場合は重みベクトルｗを更新する（ステップＳ２６）。ｔ番目のイテレーションにおける損失ｌ_tは次式（３）で計算する。

損失ｌ_t＞０の場合、損失ｌ_tに応じて重みベクトルｗを更新する。重みベクトルの更新には、例えば非特許文献５の方法を用いることができる。

そして、繰り返しカウンタｔを増分し（ステップＳ２７）、あらかじめ定めた繰り返し回数Ｔ以下の場合（ステップＳ２８のＹｅｓ）、ステップＳ２２に戻り、繰り返しカウンタｔが繰り返し回数Ｔを超えた場合（ステップＳ２８のＮｏ）、重みベクトルｗをイベント抽出モデルＤＢ６０に出力する（ステップＳ２９）。

次に、イベント抽出機能９０について説明する。イベント抽出機能９０は、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルを用いて、予測対象文書ＤＢ７０、予測対象抽出候補ＤＢ８０に格納された情報からイベント情報を抽出する。

イベント抽出モデルＤＢ６０は、イベント抽出モデル学習機能５０が求めたイベント抽出モデルを格納する。イベント抽出モデルは、Ｍ次元の特徴に対する重みベクトルｗ＝（ｗ₁，ｗ₂，・・・，ｗ_M）^Tで構成される。図８に、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルの例を示す。

予測対象文書ＤＢ７０は、文書ＤＢ１０と同様に、イベント情報の抽出対象となる本文情報に文書ＩＤを付与して格納する。図９に、予測対象文書ＤＢ７０に格納されたデータの例を示す。

予測対象抽出候補ＤＢ８０は、抽出候補ＤＢ２０と同様に、予測対象文書ＤＢ７０が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を格納する。図１０に、予測対象抽出候補ＤＢ８０に格納されたデータの例を示す。

続いて、イベント抽出機能９０の処理の流れを説明する。

図１１は、イベント抽出機能９０の処理の流れを示すフローチャートである。

まず、予測対象文書ＤＢ７０から未処理のレコードを選択する（ステップＳ３１）。ここで選択したレコードの文書ＩＤをｄ’とする。

予測対象抽出候補ＤＢ８０から文書ＩＤがｄ’のレコードを選択してカテゴリ組み合わせ集合を作成し、カテゴリ組み合わせ集合に含まれる全てのカテゴリ組み合わせについて特徴ベクトルを作成する（ステップＳ３２）。イベント抽出モデル学習機能５０によるステップＳ１３と同じ処理によって特徴ベクトルΦ（ｙ，ｘ）を作成する。

続いて、イベント抽出モデルＤＢ６０に格納されたイベント抽出モデルを用いて最大スコアを与えるカテゴリ組み合わせを取得する（ステップＳ３３）。具体的には、次式（４）に示すように、イベント抽出モデルＤＢ６０に格納された重さベクトルｗとステップＳ３２で作成した特徴ベクトルΦ（ｙ，ｘ）との内積を計算して、最大スコアを与えるカテゴリ組み合わせを取得する。

ここで、Ｙ_testは入力文書におけるカテゴリ組み合わせ集合、ｘは入力文書の本文情報である。

ステップＳ３３で取得したカテゴリ組み合わせの各カテゴリをイベントＤＢ１００に出力する（ステップＳ３４）。

予測対象文書ＤＢ７０に未処理のレコードがある場合には（ステップＳ３５のＹｅｓ）、ステップＳ３１に戻り、次のレコードを取得し、未処理のレコードがない場合は（ステップＳ３５のＮｏ）、処理を終了する。

図１２に、イベントＤＢ１００に格納されたイベント情報の例を示す。イベントＤＢ１００には、文書ＩＤ毎に抽出されたイベント情報が格納される。

以上説明したように、本実施の形態によれば、イベント名候補抽出機能１５が、イベント名候補が別のイベント名候補の部分文字列となっている場合に、別のイベント名候補の文字数に対する部分文字列の文字数の割合が除去比率λに満たないときは、部分文字列を除去することにより、適切なイベント名候補を抽出し、イベント名候補の数を減らして学習コストの増加を防ぐことができる。

本実施の形態によれば、正解イベント名に対するイベント名候補の一致の割合に応じて誤りコストを求めることにより、正解イベント名の部分文字列である候補に対して、より短い部分文字列に対して誤りコストを高く、かつ、部分文字列でない誤りに比べて誤りコストを低く設定することができる。

１０…文書ＤＢ
１５…イベント名候補抽出機能
２０…抽出候補ＤＢ
３０…正解ＤＢ
４０…コストＤＢ
５０…イベント抽出モデル学習機能
６０…イベント抽出モデルＤＢ
７０…予測対象文書ＤＢ
８０…予測対象抽出候補ＤＢ
９０…イベント抽出機能
１００…イベントＤＢ

Claims

関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、
文書情報から抽出した前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去する候補除去手段と、
カテゴリそれぞれの正解を格納した正解記憶手段と、
関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、
前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、
前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、
前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、
カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、
前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有すること
を特徴とする情報抽出装置。
前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段を更に備え、
前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項１記載の情報抽出装置。
関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納された前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去するステップと、
前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、
抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、
前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、
カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有すること
を特徴とする情報抽出方法。
前記抽出モデルを更新するステップは、前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項３記載の情報抽出方法。
請求項１又は２に記載の情報抽出装置の各手段としてコンピュータを動作させることを特徴とする情報抽出プログラム。