JP2014228993A - 情報抽出方法、情報抽出装置及び情報抽出プログラム - Google Patents

情報抽出方法、情報抽出装置及び情報抽出プログラム Download PDF

Info

Publication number
JP2014228993A
JP2014228993A JP2013106917A JP2013106917A JP2014228993A JP 2014228993 A JP2014228993 A JP 2014228993A JP 2013106917 A JP2013106917 A JP 2013106917A JP 2013106917 A JP2013106917 A JP 2013106917A JP 2014228993 A JP2014228993 A JP 2014228993A
Authority
JP
Japan
Prior art keywords
candidate
extraction
combination
category
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013106917A
Other languages
English (en)
Other versions
JP6059598B2 (ja
Inventor
良彦 数原
Yoshihiko Kazuhara
良彦 数原
浩之 戸田
Hiroyuki Toda
浩之 戸田
西岡 秀一
Shuichi Nishioka
秀一 西岡
鷲崎 誠司
Seiji Washisaki
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013106917A priority Critical patent/JP6059598B2/ja
Publication of JP2014228993A publication Critical patent/JP2014228993A/ja
Application granted granted Critical
Publication of JP6059598B2 publication Critical patent/JP6059598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】文書中から関連性のあるカテゴリの情報を抽出する際に適切な候補を抽出し学習コストの増加を防ぐ。【解決手段】イベント名候補抽出機能15が、イベント名候補が別のイベント名候補の部分文字列となっている場合に、別のイベント名候補の文字数に対する部分文字列の文字数の割合が除去比率λに満たないときは、部分文字列を除去する。これにより、適切なイベント名候補を抽出し、イベント名候補の数を減らして学習コストの増加を防ぐことができる。【選択図】図1

Description

本発明は、文書から情報を検索する技術に関する。
ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手コストをかけずにイベント情報データベースを構築することが可能となり、イベント推薦サービスなどに活用することができる。
テキストからイベント情報を抽出するためには、例えば、非特許文献1〜3を用いて、イベント名、場所、日時などの各カテゴリに対する候補を抽出することができる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いてイベント名、場所、日時に対して自動的に判別を行う判別器を構築することができ、ウェブ文書などから自動的にイベント名、場所、日時を抽出することができる。
山田、他2名、「Support Vector Machineを用いた日本語固有表現抽出」、情報処理学会論文誌、情報処理学会、2002年1月、Vol. 43, No. 1、pp.44-53 平野、他2名、「地理的距離と有名度を用いた地名の曖昧性解消」、第70回情報処理学会全国大会、情報処理学会、2008年、pp.2-85 - 2-86 廣嶋、他3名、「記述された日時の有効範囲を考慮した日時指定検索」、第3回Webとデータベースに関するフォーラム、2010年 平、他1名、「構造学習を用いた述語項構造解析」、第14回言語処理学会年次大会発表論文集、言語処理学会、2008年、pp.556-559 Crammer K., et al., "Online Passive-Aggressive Algorithms", Journal of Machine Learning, 2006, Vol. 7, pp. 551-585
個別に判別器を適用するのではなく、予測に構造を持たせ、抽出された候補の中から正しい組み合わせを選択するモデルを構築する構造出力学習を用いる方法が考えられる。この場合、例えば非特許文献5を用いて予測モデルを構築することができる。
しかしながら、非特許文献1など固有表現抽出を用いる方法はイベント名抽出の方法ではないため、適切なイベント名候補の取得に失敗するという問題があった。本発明の予測モデルは、与えられた予測候補から組み合わせを選択するため、適切な候補が存在しない場合には、適切なイベント名を取得することができずに精度が低下するおそれがあった。
本発明は、上記に鑑みてなされたものであり、文書中から関連性のあるカテゴリの情報を抽出する際に、適切な候補を抽出しつつ、学習コストの増加を防ぐことを目的とする。
第1の本発明に係る情報抽出装置は、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、文書情報から抽出した前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去する候補除去手段と、カテゴリそれぞれの正解を格納した正解記憶手段と、関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有することを特徴とする。
上記情報抽出装置において、前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段を更に備え、前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。
第2の本発明に係る情報抽出方法は、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納された前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去するステップと、前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有することを特徴とする。
上記情報抽出方法において、前記抽出モデルを更新するステップは、前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。
第3の本発明に係る情報抽出プログラムは、上記情報抽出装置の各手段としてコンピュータを動作させることを特徴とする。
本発明によれば、文書中から関連性のあるカテゴリの情報を抽出する際に、適切な候補を抽出し、学習コストの増加を防ぐことができる。
本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。 文書データベースに格納されたデータの例を示す図である。 抽出候補データベースに格納されたデータの例を示す図である。 正解データベースに格納されたデータの例を示す図である。 コストデータベースに格納されたデータの例を示す図である。 イベント名候補抽出機能の処理の流れを示すフローチャートである。 イベント抽出モデル学習機能の処理の流れを示すフローチャートである。 イベント抽出モデルデータベースに格納されたイベント抽出モデルの例を示す図である。 予測対象文書データベースに格納されたデータの例を示す図である。 予測対象抽出候補データベースに格納されたデータの例を示す図である。 イベント抽出機能の処理の流れを示すフローチャートである。 イベントデータベースに格納されたイベント情報の例を示す図である。
以下、本発明の実施の形態について図面を用いて説明する。
図1は、本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。図1に示すイベント情報抽出装置は、文書DB10、イベント名候補抽出機能15(候補除去手段に対応)、抽出候補DB20(抽出候補記憶手段に対応)、正解DB30(正解記憶手段に対応)、コストDB40(コスト記憶手段に対応)、イベント抽出モデル学習機能50(特徴ベクトル計算手段、組み合わせ取得手段及び抽出モデル更新手段に対応)、イベント抽出モデルDB60(抽出モデル記憶手段に対応)、予測対象文書DB70、予測対象抽出候補DB80(予測対象抽出候補記憶手段に対応)、イベント抽出機能90(情報抽出手段に対応)、およびイベントDB100を備える。イベント情報抽出装置が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはイベント情報抽出装置が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
まず、イベント抽出モデルを生成する処理で利用する文書DB10、抽出候補DB20、正解DB30、コストDB40に格納された情報について説明する。
文書DB10は、イベント情報の抽出対象となる本文情報(テキストデータ)に文書IDを付与して格納する。図2に、文書DB10に格納されたデータの例を示す。
抽出候補DB20は、文書DB10が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を文書ID毎に格納する。図3に、抽出候補DB20に格納されたデータの例を示す。図3に示す例では、文書IDが1の本文情報から抽出されたイベント名候補として、「イベント」「小樽ロングクリスマス2012Final」の2つが格納されている。図3には示していないが、イベント名候補、場所候補、日時候補については、本文情報中の出現位置情報を付与している。イベント名候補は、イベント名候補抽出機能15が文書DB10が格納する本文情報から抽出する。場所候補の抽出には非特許文献2を、日時候補の抽出には非特許文献3を用いることで、文書DB10に格納された本文情報から抽出候補DB20に格納するデータを生成可能である。イベント名、場所、日時を抽出することができれば、場所や日時に基づいたイベント推薦が可能となるため、本実施の形態では、これらの3つの情報を1つのイベント情報の単位とする。イベント名、場所、日時をイベント情報のカテゴリと呼ぶ。本実施の形態では、イベント情報のカテゴリとしてイベント名、場所、日時を用いるが、それ以外の情報(例えば料金,主催団体など)についても本実施形態と同じ枠組みで実現可能である。
正解DB30は、文書DB10が格納する本文情報それぞれについて、各カテゴリの正解、つまり正解イベント名、正解場所、正解日時を格納する。図4に、正解DB30に格納されたデータの例を示す。これらの正解は、人手によってあらかじめ作成されているものとする。なお、抽出候補DB20と同様に、本文情報中の出現位置情報を付与している。
コストDB40は、誤りタイプに対するコストを格納する。図5に、コストDB40に格納されたデータの例を示す。図5中の substring は正解イベント名の部分文字列であった場合の誤りコスト、others はその他の誤りに対する誤りコストを表す。substring の値は others の値より小さく設定されているものとする。これらのコストは人手によってあらかじめ作成されているものとする。
次に、イベント名候補抽出機能15の処理の流れを説明する。
図6は、イベント名候補抽出機能15の処理の流れを示すフローチャートである。
まず、文書DB10から未処理のレコードを選択する(ステップS11)。
選択したレコードが持つテキストデータからイベント名候補を抽出する(ステップS12)。イベント名候補の抽出には、テキストデータを単語分割して各単語に対する品詞情報を付与し(例えば、Takeshi Fuchi, “Japanese Morphological Analyzer using Word Co-occurence - JTAG”, COLING-ACL, pp.409-413, 1998を用いる)、得られた品詞情報に基いて、連続した名詞および「の」で連接された単語列を全てイベント名候補集合Sとする。例えば、「第20回」「横須賀」「祭り」という連続した名詞に単語分割が行われた場合、以下の6通りがイベント名候補として抽出される。
・第20回
・第20回横須賀
・第20回横須賀祭り
・横須賀
・横須賀祭り
・祭り
そして、得られたイベント名候補集合Sの中から、部分文字列である候補の一部を除去する(ステップS13)。イベント名候補が増加することにより、全てのカテゴリにおける可能な候補の組み合わせの数が増加するため、イベント抽出モデル学習機能50におけるモデル生成のコストが高くなる。そこで、本実施の形態ではイベント名候補の一部を除去する。除去の方法としては、予め人手によって設定された除去比率0<λ≦1を用いて、イベント名候補が別のイベント名候補の部分文字列となっている場合に、別のイベント名候補の文字数に対する部分文字列の文字数の割合が除去比率λに満たないときは、部分文字列を除去する。例えばλ=1の場合、上述の例においては「第20回横須賀祭り」以外のイベント名候補が全て除去される。
ステップS13で得られたイベント名候補を抽出候補DB20の対応するレコードに出力する(ステップS14)。
文書DB10に未処理のレコードがある場合には(ステップS15のYes)、ステップS11に戻って次のレコードを取得し、未処理のレコードがない場合は(ステップS15のNo)、処理を終了する。
続いて、イベント抽出モデル学習機能50の処理の流れを説明する。
図7は、イベント抽出モデル学習機能50の処理の流れを示すフローチャートである。
最初に、重みベクトルwをw=(0,0,0,・・・,0)Tと初期化し、繰り返しカウンタtをt←1と初期化する(ステップS21)。重みベクトルwは、イベント抽出モデルDB60に格納されたイベント抽出モデルである。重みベクトルwの次元数は後述する特徴ベクトル数と同じM次元とする。
続いて、正解DB30からランダムに1レコードを選択する(ステップS22)。ここで選択したレコードの文書IDをdとする。
続いて、抽出候補DB20から文書IDがdのレコードを選択して、全てのカテゴリにおける可能な候補の組み合わせの集合(以下、「カテゴリ組み合わせ集合」と称する)を作成し、カテゴリ組み合わせ集合に含まれる全ての組み合わせについて特徴ベクトルを作成する(ステップS23)。図3に示す抽出候補DB20の文書IDが2のレコードから作成するカテゴリ組み合わせ集合は以下のようになる。
第20回横須賀祭り − 神奈川県横須賀市 − 2012年10月20日
第20回横須賀祭り − 神奈川県横須賀市 − 2012年12月20日
・・・
お祭り − 東京都 − 2013年1月1日
このように、本実施の形態におけるカテゴリ組み合わせ集合は、イベント名候補、場所候補、日時候補について全ての可能な候補の組み合わせの集合となる。上記の図3の文書IDが2の例では、イベント名候補が2つ、場所候補が2つ、日時候補が3つであるので、2・2・3=12通りの組み合わせが存在する。ここで正解DB30の選択されたレコードに格納されたイベント名、場所、日時を持つ組み合わせを正解として扱い、それ以外の組み合わせについては誤り組み合わせとし、どのカテゴリが誤っているかという情報を同時に保持しているものとする。例えば、場所と日時が正解と異なる場合、場所、日時誤りと判定する。このように、誤り組み合わせは1つ以上の誤ったカテゴリを持つ。
ステップS23では、さらに、作成したカテゴリ組み合わせ集合と文書DB10から取得した本文情報をもとに、各カテゴリ組み合わせの特徴を表す特徴ベクトルΦ(y,x)を作成する。ここで、xは当該文書IDに対応する本文情報のベクトル表現であり、yはカテゴリ組み合わせ集合の要素(カテゴリ組み合わせ)である。Φ(y,x)はM次元ベクトルであり、yとxを入力とするM個のイベント情報らしさを捉えるための特徴関数φ(y,x)の出力で構成される。特徴関数φ(y,x)の例としては、例えば「yの3つの候補が文書内の近い位置に出現する」という特徴を捉えるため、3つの表現が50文字以内に出現する場合に1、そうでない場合に0を出力する特徴関数が挙げられる。また、別の例としては、イベント名に含まれる文字列が本文内の他の場所で出現もする場合に1、そうでない場合に0を出力する特徴関数が考えられる。その他の文字列に基づく基本的な特徴関数としては、例えば非特許文献4の方法を用いることができる。
続いて、コストDB40に格納されたコストを用いてイベント名の誤りに対するコストを計算する(ステップS24)。具体的には、カテゴリ組み合わせ集合のイベント名が正解イベント名の部分文字列である場合には、コストDB40における substring の値をcostsubstringとし、次式(1)を用いてコストを算出する。
Figure 2014228993
ここで、lengthsubstringは当該部分文字列の文字列長、lengthcorrect_stringは正解イベント名の文字列長を表す。部分文字列長が短くなればなるほどコストの値が大きくなるため、このようなイベント名候補を選択するモデルを生成しないようなペナルティ項の効果を果たす。
カテゴリ組み合わせ集合のイベント名が正解イベント名の部分文字列でない場合には、コストDB40における others の値をコストとして用いる。others の値を substring の値よりも大きくしているので、カテゴリ組み合わせ集合のイベント名が正解イベント名の部分文字列ではない誤りに比べて部分文字列である誤りを選択する、また、部分文字列である誤りにおいても正解イベント名により近い文字列を選択するようなモデルを生成する効果を生み出す。
続いて、現在の重みベクトルwで最大スコアとなるカテゴリ組み合わせを求める(ステップS25)。最大スコアとなるカテゴリ組み合わせは、次式(2)で計算する。
Figure 2014228993
ここで、Ytはt番目のイテレーションにおいて選択された文書におけるカテゴリ組み合わせ集合、ytは正解のカテゴリ組み合わせ、xtは該当文書の本文情報である。ただし、costを加算しなくてもよい。
続いて、ステップS25で求めた最大スコアのカテゴリ組み合わせの損失を計算し、損失が0より大きい場合は重みベクトルwを更新する(ステップS26)。t番目のイテレーションにおける損失ltは次式(3)で計算する。
Figure 2014228993
損失lt>0の場合、損失ltに応じて重みベクトルwを更新する。重みベクトルの更新には、例えば非特許文献5の方法を用いることができる。
そして、繰り返しカウンタtを増分し(ステップS27)、あらかじめ定めた繰り返し回数T以下の場合(ステップS28のYes)、ステップS22に戻り、繰り返しカウンタtが繰り返し回数Tを超えた場合(ステップS28のNo)、重みベクトルwをイベント抽出モデルDB60に出力する(ステップS29)。
次に、イベント抽出機能90について説明する。イベント抽出機能90は、イベント抽出モデルDB60に格納されたイベント抽出モデルを用いて、予測対象文書DB70、予測対象抽出候補DB80に格納された情報からイベント情報を抽出する。
イベント抽出モデルDB60は、イベント抽出モデル学習機能50が求めたイベント抽出モデルを格納する。イベント抽出モデルは、M次元の特徴に対する重みベクトルw=(w1,w2,・・・,wMTで構成される。図8に、イベント抽出モデルDB60に格納されたイベント抽出モデルの例を示す。
予測対象文書DB70は、文書DB10と同様に、イベント情報の抽出対象となる本文情報に文書IDを付与して格納する。図9に、予測対象文書DB70に格納されたデータの例を示す。
予測対象抽出候補DB80は、抽出候補DB20と同様に、予測対象文書DB70が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を格納する。図10に、予測対象抽出候補DB80に格納されたデータの例を示す。
続いて、イベント抽出機能90の処理の流れを説明する。
図11は、イベント抽出機能90の処理の流れを示すフローチャートである。
まず、予測対象文書DB70から未処理のレコードを選択する(ステップS31)。ここで選択したレコードの文書IDをd’とする。
予測対象抽出候補DB80から文書IDがd’のレコードを選択してカテゴリ組み合わせ集合を作成し、カテゴリ組み合わせ集合に含まれる全てのカテゴリ組み合わせについて特徴ベクトルを作成する(ステップS32)。イベント抽出モデル学習機能50によるステップS13と同じ処理によって特徴ベクトルΦ(y,x)を作成する。
続いて、イベント抽出モデルDB60に格納されたイベント抽出モデルを用いて最大スコアを与えるカテゴリ組み合わせを取得する(ステップS33)。具体的には、次式(4)に示すように、イベント抽出モデルDB60に格納された重さベクトルwとステップS32で作成した特徴ベクトルΦ(y,x)との内積を計算して、最大スコアを与えるカテゴリ組み合わせを取得する。
Figure 2014228993
ここで、Ytestは入力文書におけるカテゴリ組み合わせ集合、xは入力文書の本文情報である。
ステップS33で取得したカテゴリ組み合わせの各カテゴリをイベントDB100に出力する(ステップS34)。
予測対象文書DB70に未処理のレコードがある場合には(ステップS35のYes)、ステップS31に戻り、次のレコードを取得し、未処理のレコードがない場合は(ステップS35のNo)、処理を終了する。
図12に、イベントDB100に格納されたイベント情報の例を示す。イベントDB100には、文書ID毎に抽出されたイベント情報が格納される。
以上説明したように、本実施の形態によれば、イベント名候補抽出機能15が、イベント名候補が別のイベント名候補の部分文字列となっている場合に、別のイベント名候補の文字数に対する部分文字列の文字数の割合が除去比率λに満たないときは、部分文字列を除去することにより、適切なイベント名候補を抽出し、イベント名候補の数を減らして学習コストの増加を防ぐことができる。
本実施の形態によれば、正解イベント名に対するイベント名候補の一致の割合に応じて誤りコストを求めることにより、正解イベント名の部分文字列である候補に対して、より短い部分文字列に対して誤りコストを高く、かつ、部分文字列でない誤りに比べて誤りコストを低く設定することができる。
10…文書DB
15…イベント名候補抽出機能
20…抽出候補DB
30…正解DB
40…コストDB
50…イベント抽出モデル学習機能
60…イベント抽出モデルDB
70…予測対象文書DB
80…予測対象抽出候補DB
90…イベント抽出機能
100…イベントDB

Claims (5)

  1. 関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、
    文書情報から抽出した前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去する候補除去手段と、
    カテゴリそれぞれの正解を格納した正解記憶手段と、
    関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、
    前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、
    前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、
    前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、
    カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、
    前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有すること
    を特徴とする情報抽出装置。
  2. 前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段を更に備え、
    前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項1記載の情報抽出装置。
  3. 関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納された前記候補のうち、当該候補が同じカテゴリの別の候補の部分文字列となっている場合に、前記別の候補の文字数に対する当該候補の文字数の割合が予め設定した除去比率に満たないときは当該候補を除去するステップと、
    前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、
    抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、
    前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、
    カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有すること
    を特徴とする情報抽出方法。
  4. 前記抽出モデルを更新するステップは、前記候補が前記正解の部分文字列である場合と部分文字列でない場合の誤りコストを格納したコスト記憶手段から前記誤りコストを読み出して前記正解に対する前記候補の一致の割合に応じたコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項3記載の情報抽出方法。
  5. 請求項1又は2に記載の情報抽出装置の各手段としてコンピュータを動作させることを特徴とする情報抽出プログラム。
JP2013106917A 2013-05-21 2013-05-21 情報抽出方法、情報抽出装置及び情報抽出プログラム Active JP6059598B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013106917A JP6059598B2 (ja) 2013-05-21 2013-05-21 情報抽出方法、情報抽出装置及び情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013106917A JP6059598B2 (ja) 2013-05-21 2013-05-21 情報抽出方法、情報抽出装置及び情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2014228993A true JP2014228993A (ja) 2014-12-08
JP6059598B2 JP6059598B2 (ja) 2017-01-11

Family

ID=52128805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013106917A Active JP6059598B2 (ja) 2013-05-21 2013-05-21 情報抽出方法、情報抽出装置及び情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP6059598B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210036318A (ko) * 2020-03-20 2021-04-02 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 아규먼트 추출 방법, 장치 및 전자 기기
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
JP2021099884A (ja) * 2020-03-20 2021-07-01 北京百度網訊科技有限公司 イベント引数抽出方法、イベント引数抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172315A (ja) * 2005-12-22 2007-07-05 Nec Corp 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP2011059947A (ja) * 2009-09-09 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172315A (ja) * 2005-12-22 2007-07-05 Nec Corp 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP2011059947A (ja) * 2009-09-09 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210036318A (ko) * 2020-03-20 2021-04-02 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 아규먼트 추출 방법, 장치 및 전자 기기
JP2021099886A (ja) * 2020-03-20 2021-07-01 北京百度網訊科技有限公司 イベント引数抽出方法、装置及び電子デバイス
JP2021099884A (ja) * 2020-03-20 2021-07-01 北京百度網訊科技有限公司 イベント引数抽出方法、イベント引数抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品
JP7292321B2 (ja) 2020-03-20 2023-06-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド イベント引数抽出方法、イベント引数抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品
US11880397B2 (en) 2020-03-20 2024-01-23 Beijing Baidu Netcom Science Technology Co., Ltd. Event argument extraction method, event argument extraction apparatus and electronic device
KR102653312B1 (ko) * 2020-03-20 2024-03-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 아규먼트 추출 방법, 장치 및 전자 기기
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN112967144B (zh) * 2021-03-09 2024-01-23 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备

Also Published As

Publication number Publication date
JP6059598B2 (ja) 2017-01-11

Similar Documents

Publication Publication Date Title
De Cao et al. Question answering by reasoning across documents with graph convolutional networks
Mani et al. Deeptriage: Exploring the effectiveness of deep learning for bug triaging
Clark et al. Simple and effective multi-paragraph reading comprehension
CN110019471B (zh) 从结构化数据生成文本
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN107391614A (zh) 一种基于wmd的中文问答匹配方法
JP7211045B2 (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
US11755657B2 (en) Training a question-answer dialog system to avoid adversarial attacks
KR20180077847A (ko) 문장 검증 장치 및 방법
Yang et al. xMoCo: Cross momentum contrastive learning for open-domain question answering
JP6059598B2 (ja) 情報抽出方法、情報抽出装置及び情報抽出プログラム
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
Onal et al. Named entity recognition from scratch on social media
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP5863193B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
CN111241843B (zh) 基于复合神经网络的语义关系推断系统和方法
Wan et al. Multi-grained knowledge retrieval for end-to-end task-oriented dialog
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム
JP6018545B2 (ja) イベント情報抽出装置、その動作方法およびコンピュータプログラム
US20220383159A1 (en) Systems and methods for open domain multi-hop question answering
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
Brito et al. Towards German word embeddings: A use case with predictive sentiment analysis
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161209

R150 Certificate of patent or registration of utility model

Ref document number: 6059598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150