JP2017058866A

JP2017058866A - 情報抽出装置、情報抽出方法および情報抽出プログラム

Info

Publication number: JP2017058866A
Application number: JP2015182102A
Authority: JP
Inventors: 昌之岡本; Masayuki Okamoto; 祐一宮村; Yuichi Miyamura; 彩奈山本; Ayana Yamamoto
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2017-03-23
Anticipated expiration: 2035-09-15
Also published as: JP6502807B2

Abstract

【課題】文書から抽出された属性の値同士の関係情報の持つ曖昧性を低減する。【解決手段】情報抽出装置１００は、関係情報抽出部１０２と、補完情報抽出部１０６とを含む。関係情報抽出部１０２は、第１の属性の値と第２の属性の値との間の関係を表す少なくとも１つの関係情報を文書から抽出することによって関係情報群を得る。補完情報抽出部１０６は、関係情報群に属する第１の関係情報が曖昧性を持つと判定基準に従って判定される場合に、第１の関係情報を形成する第１の属性の値および第２の属性の値の少なくとも一方に関係する補完情報を抽出する。【選択図】図１

Description

実施形態は、情報の抽出に関する。

例えばＷｅｂページなどの文書に記載された複数の属性の値同士の関係情報（例えば、材料名とその特性値との関係情報、商品名とその価格との関係情報、など）を抽出する技術が求められている。係る技術を利用すれば、文章に記載された膨大な情報から所望の情報を容易に整理することが可能となる。例えば、文章から商品名とそのスペックとの関係情報を抽出し、その一覧を短時間で表にまとめることができる。

ところが、抽出された関係情報は曖昧性を持つことがある。例えば、材料の移動度を異なる実験条件の下で測定した結果を報告する論文から材料名とその移動度との関係情報を抽出すると、材料名が同一であるものの移動度が異なる複数の関係情報が抽出される可能性がある。或いは、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、自動車などの商品では、同一の商品名（ブランド名）に対してオプション（例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などのストレージ容量、カラー、排気量など）の異なる複数のモデルが用意されることがある。故に、例えばＰＣの価格が記述された文書から商品名とその価格との関係情報を抽出すると、商品名（ブランド名）が同一であるものの価格が異なる複数の関係情報が抽出される可能性がある。他方、モデル名に相当する値を商品名として抽出したとしても、抽出された関係情報がどのブランドにおけるモデルと価格との関係を表しているのか特定することは困難である。

特開２０１０−１１７７９７号公報特開２００１−０６０１９９号公報

実施形態は、文書から抽出された属性の値同士の関係情報の持つ曖昧性を低減することを目的とする。

実施形態によれば、情報抽出装置は、関係情報抽出部と、補完情報抽出部とを含む。関係情報抽出部は、第１の属性の値と第２の属性の値との間の関係を表す少なくとも１つの関係情報を文書から抽出することによって関係情報群を得る。補完情報抽出部は、関係情報群に属する第１の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第１の関係情報を形成する第１の属性の値および第２の属性の値の少なくとも一方に関係する補完情報を抽出する。

第１の実施形態に係る情報抽出装置を例示するブロック図。図１の入力部によって受け取られる文書を例示する図。図１の関係情報抽出部、学習部および算出部によって行われる一連の関係情報抽出処理を例示するフローチャート。図１の関係情報抽出部、学習部および算出部によって抽出される属性の値の候補を例示する図。図１の関係情報抽出部、学習部および算出部によって抽出される属性の値の候補を例示する図。図１の関係情報抽出部、学習部および算出部によって抽出される関係情報群を例示する図。図１の補完情報抽出部によって抽出される補完情報を例示する図。第２の実施形態に係る情報抽出装置を例示するブロック図。図８の出力部および評価情報入力部によって実現される関係情報評価ＵＩを例示する図。図１の補完情報抽出部の動作を例示するフローチャート。

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。

（第１の実施形態）
図１には、第１の実施形態に係る情報抽出装置１００が例示される。情報抽出装置１００は、例えば、文書を入力可能な端末であってもよいし、係る端末のためにアプリケーションまたはサービスを提供してもよい。

情報抽出装置１００は、文章から複数の項目（以降、属性と称される）の値同士の関係情報を抽出する。なお、情報抽出装置１００は、抽出対象の複数の属性を指定されてもよいし、分析目的を指定され当該分析目的に基づいて抽出対象の複数の属性を決定してもよい。

文書は、例えばＷｅｂページ、ニュース記事などの自然言語ベースのテキストデータである。しかしながら、属性の値の候補となる要素（例えば単語）をその特徴に基づいて抽出することのできる任意の種別のデータが文書として利用可能である。

図１に例示されるように、情報抽出装置１００は、入力部１０１と、関係情報抽出部１０２と、学習部１０３と、算出部１０４と、判定部１０５と、補完情報抽出部１０６と、出力部１０７とを含む。

入力部１０１は、関係情報の抽出が行われる文書を受け取る。入力部１０１は、記録媒体またはネットワーク経由で文書を取得してもよいし、ユーザの操作に応じて文書を直接入力してもよい。文書の一例として、ＰＣの新機種の価格に関する記事が図２に示されている。入力部１０１は、文書を関係情報抽出部１０２へと出力する。

関係情報抽出部１０２、学習部１０３および算出部１０４は、概括すれば図３に例示される一連の関係情報抽出処理を行う。関係情報抽出部１０２はステップＳ２０１、ステップＳ２０２、ステップＳ２０３およびステップＳ２０４の処理を行い、学習部１０３はステップＳ２０５の処理を行い、算出部１０４はステップＳ２０６の処理を行う。これらの処理は、例えば機械学習を用いて実現することができる。

関係情報抽出部１０２は、入力部１０１から文書を受け取る。概括すれば、関係情報抽出部１０２は、文書に記載された複数の属性の値同士の関係情報の候補を抽出する。関係情報抽出部１０２は、抽出した関係情報の候補を学習部１０３へと出力する。さらに、後述されるように、関係情報抽出部１０２は、関係情報の候補の素性（特徴量とも呼ばれる）と、複数の属性値の候補の素性とを学習部１０３へと出力する。

図３に沿って説明すると、関係情報抽出部１０２は、最初に文書に対して前処理としてのテキスト解析を行う（ステップＳ２０１）。テキスト解析は、例えば、形態素解析、固有表現抽出、構文解析などであってよい。

次に、関係情報抽出部１０２は、抽出対象の複数の属性（例えば、「商品名」および「価格」）それぞれの値の候補（典型的には、名詞、数値などの単語）を文書から抽出する（ステップＳ２０２およびステップＳ２０３）。

具体的には、関係情報抽出部１０２は、事前に辞書に登録されている名称または固有名詞を文書から探索したり、「○○版」などの表現を対象とするパターンマッチングルールを文書に適用したりすることによって、属性「商品名」の値の候補を抽出してもよい。他方、関係情報抽出部１０２は、「（数字）＋（通貨単位）」などの表現を対象とするパターンマッチングルールを文書に適用することによって、属性「価格」の値の候補を抽出してもよい。

例えば、関係情報抽出部１０２は、図２の文書から、属性「商品名」の値の候補として「Ｄｂｏｏｋ」、「５００ＧＢ版」、「１ＴＢ版」、「ＬＮｏｔｅ」などを抽出することができる。他方、関係情報抽出部１０２は、図２の文書から、属性「価格」の値の候補として「５万円」、「１０万円」、「３万円」などを抽出することができる。さらに、関係情報抽出部１０２は、抽出した属性値の候補の素性を導出して学習部１０３へと出力する。

次に、関係情報抽出部１０２は、抽出した複数の属性の値の候補を組み合わせることで関係情報の候補を得る（ステップＳ２０４）。例えば、関係情報抽出部１０２は、（「Ｄｂｏｏｋ」，「５万円」）、（「Ｄｂｏｏｋ」，「１０万円」）、（「５００ＧＢ版」，「５万円」）などの関係情報の候補を得ることができる。さらに、関係情報抽出部１０２は、抽出した関係情報の候補の素性（例えば、文書において「商品名」の値の候補と「価格」の値の候補との間に出現する単語など）を導出して学習部１０３へと出力する。

ここで、素性とは、属性の値の候補または関係情報の候補を特徴付ける手がかりを意味する。具体的には、関係情報の候補を形成する複数の属性の値の候補（単語）の品詞若しくは意味、文書における各属性の値の候補の出現位置、または、文書においてある属性の値の候補と他の属性の値の候補との間に出現する単語数などが、素性として利用可能である。

なお、図３の例では、関係情報抽出部１０２は、複数の属性の値の候補を抽出して、それらの組み合わせることで関係情報の候補を得る。しかしながら、関係情報抽出部１０２は、複数の属性の値の候補を抽出するステップを経ることなく、複数の属性の値同士の関係を表す関係情報の候補を直接的に抽出してもよい。

学習部１０３は、関係情報抽出部１０２から、関係情報の候補およびその素性と、複数の属性値の候補の素性とを受け取る。学習部１０３は、関係情報の候補の素性と複数の属性値の候補の素性とに基づいて、素性の重みの学習を行う（ステップＳ２０５）。具体的には、学習部１０３は、予め与えられている正解事例（正例）および不正解事例（負例）に基づいて、素性毎の重要度（重み）を学習する。学習部１０３は、関係情報の候補と、（学習した）素性の重みとを算出部１０４へと出力する。

学習部１０３は、関係情報の候補、複数の属性の値の候補、正解事例および不正解事例を利用する任意の機械学習法または他の類似の技術を利用することができる。具体的には、ＭａｒｋｏｖＬｏｇｉｃＮｅｔｗｏｒｋ、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄなどの技術が利用可能である。

なお、図３の例では、学習部１０３によって逐次学習が行われているが、例えば予め学習済みの重み、または、手動若しくは他の技法によって予め設定した重みを利用することにより、係る逐次学習を省略することもできる。

算出部１０４は、学習部１０３から関係情報の候補と素性の重みとを受け取る。算出部１０４は、素性の重みに基づいて、図６に例示されるように、関係情報の候補毎にその確からしさを表すスコアを算出（推定）し、当該関係情報の候補に関連付ける（ステップＳ２０６）ことにより、少なくとも１つの関係情報を含む関係情報群を得る。各関係情報には、識別のためにＩＤが付与されてもよい。スコアは、典型的には確率値であるが、結果の確からしさを表す任意の指標であってよい。なお、算出部１０４（または、後述される判定部１０５）は、スコアが閾値未満であった候補を関係情報群から除外するフィルタリング処理を行ってもよい。係るフィルタリング処理によれば、誤った関係を表している可能性の高い候補を排除することができる。算出部１０４は、関係情報群を判定部１０５へと出力する。

算出部１０４は、関係情報の候補の確からしさを表すスコアの算出に利用するために、図４および図５に例示されるように、当該関係情報の候補を形成する複数の属性の値の候補の確からしさ（例えば、商品名らしさ、価格らしさなど）を表すスコアを算出してもよい。

判定部１０５は、算出部１０４から関係情報群を受け取る。判定部１０５は、関係情報群に属する関係情報が曖昧性を持つか否か（換言すれば、関係情報の表す関係が明確であるか否か）を例えば後述される第１の判定基準および第２の判定基準を含む種々の判定基準に従って判定する。判定部１０５は、曖昧性を持つと判定した関係情報を補完情報抽出部１０６へと渡し、それ以外の関係情報を出力部１０７へと渡す。

例えば、図６の関係情報群には、商品名が同一（「Ｄｂｏｏｋ」）であって価格が異なる（「５万円」，「１０万円」）複数の関係情報（関係情報ＩＤ＝１，２）が含まれている。これらの関係情報は、いずれもスコアが高いので誤りではないと推定できるものの、両者の内容は一見すると矛盾している。故に、係る関係情報を提示したとしても、ユーザ（分析者と呼ぶこともできる）は「Ｄｂｏｏｋ」の価格が「５万円」であるのか「１０万円」であるのかを判断することができない。

そこで、任意の第１の関係情報を形成する第１の属性（例えば、「商品名」）の値の候補が別の第２の関係情報を形成する第１の属性の値の候補と同一であって、かつ、当該第１の関係情報を形成する第２の属性（例えば、「価格」）の値の候補が第２の関係情報を形成する第２の属性の値の候補と異なる場合に、判定部１０５は、第１の関係情報および第２の関係情報は曖昧であると判定してもよい（第１の判定基準）。

他方、図６の関係情報群には、商品名が一般名詞である（「１ＴＢ版」）である関係情報（関係情報ＩＤ＝４）が含まれている。この関係情報もスコアが高いので誤りではないと推定できるものの、当該関係情報を形成する商品名が特定の商品（「ＤＢｏｏｋ」または「Ｌｎｏｔｅ」）を指していない。故に、係る関係情報を提示したとしても、ユーザは何の商品の「１ＴＢ版」が「１０万円」であるのかを判断することができない。

そこで、任意の関係情報に含まれる第１の属性の値の候補が特定の種類の単語（例えば、一般名詞）に該当する場合に、判定部１０５は、当該関係情報は曖昧であると判定してもよい（第２の判定基準）。

補完情報抽出部１０６は、判定部１０５から通知された関係情報に対して曖昧性を低減するための補完情報を抽出し、当該補完情報を用いて関係情報を補完してから出力部１０７へと渡す。補完情報は、関係情報を形成する複数の属性の値の候補のうち少なくとも１つと関係する。

具体的には、補完情報抽出部１０６は、関係情報を形成する複数の属性の値の候補のうち少なくとも１つについて、係り受け解析、照応解析またはパラフレーズのような文章の解析または修正を行い、補完情報を抽出してもよい。或いは、補完情報抽出部１０６は、関係情報を形成する複数の属性の値の候補のうち少なくとも１つについて、その候補の上位概念若しくは下位概念に相当する単語またはその候補の詳細を表す単語を補完情報として抽出してもよい。

補完情報抽出部１０６は、例えば図１０に示されるように補完情報を抽出してもよい。なお、図１０の補完情報抽出処理は、第１の属性の値が同一であって、かつ、第２の属性の値が異なる複数の関係情報が存在する場合に行われる（ステップＳ４０１）。例えば、図６の関係情報ＩＤ＝１，２の関係情報、ならびに、関係情報ＩＤ＝３，５の関係情報を対象に、図１０の補完情報抽出処理が行われる。

補完情報抽出部１０６は、相異なる第２の属性の値の各々について、当該第２の属性の値と関係する第１の属性の値を補完情報の候補として探索する（ステップＳ４０２）。例えば、図６の関係情報ＩＤ＝１，２の関係情報に関して、補完情報抽出部１０６は、「５万円」と関係する「商品名」の値の候補として「５００ＧＢ版」を抽出し、「１０万円」と関係する「商品名」の値の候補として「１ＴＢ版」を抽出する。抽出された「５００ＧＢ版」および「１ＴＢ版」の情報は、関係情報ＩＤ＝１，２の関係情報を補完して両者のより明確な区別を可能とするかもしれない。

なお、補完情報抽出部１０６は、注目する第２の属性の値を含む関係情報の総数、補完情報の候補の単語の種類、補完情報の候補を含む関係情報に付与されたスコア、（関係情報に含まれる属性が３つ以上の場合には）複数の関係情報の間で共通の値を持つ属性の総数、第１の属性の属性値間の意味的な上位下位関係、などの一部または全部に基づいて、探索する補完情報の候補を絞り込んでもよい。また、補完情報抽出部１０６は、各関係情報に含まれる第１の属性の値について係り受け解析、照応解析またはパラフレーズを行い、補完情報の候補を抽出してもよい。

次に、補完情報抽出部１０６は、ステップＳ４０２において発見した補完情報の候補をその言語的特徴に応じて分類する（ステップＳ４０３）。具体的には、補完情報抽出部１０６は、補完情報の候補を品詞に応じて分類してもよいし、関係情報抽出部１０２が当該補完情報の候補の抽出に用いたパターンマッチングルールに応じて当該補完情報の候補を分類してもよい。例えば、「５００ＧＢ版」および「１ＴＢ版」は、どちらも「［数字］＋［単位］＋［名詞］」という品詞を持っているし、どちらも「○○版」という表現を対象とするパターンマッチングルールを用いて抽出されているかもしれない。故に、補完情報抽出部１０６は、これらを同一の候補群に分類することができる。

次に、補完情報抽出部１０６は、ステップＳ４０３において得られた候補群のうち要素数の最も多いものを選択し、当該候補群に属する各候補を補完情報として取り扱う（ステップＳ４０４）。すなわち、図１０の例では、補完情報とは、第１の属性から分離した第３の属性の値とみなすことができる。例えば、補完情報抽出部１０６は、図７に示されるように、「ＤＢｏｏｋ」および「５万円」を含む関係情報に対して、「５万円」に関係する「５００ＧＢ版」という補完情報を追加したり、「ＤＢｏｏｋ」および「１０万円」を含む関係情報に対して、「１０万円」に関係する「１ＴＢ版」という補完情報を追加したりする。

なお、図１０の補完情報抽出処理の完了後に前述の判定部１０５が再度判定を行い、必要に応じて補完情報抽出処理が繰り返されてもよい。また、曖昧性を持つ関係情報が依然として残存する場合には、学習部１０３は曖昧性を持たない関係情報を正解事例として利用して学習を行ってもよい。

補完情報は、関係情報の持つ曖昧性を完全には除去できなくてもよく、例えば複数の関係情報間の区別に貢献するものであればよい。例えば、補完情報抽出部１０６は、ある補完情報の候補を追加することで、同一の属性の値を含む複数の関係情報のうちどのくらいの割合（パーセンテージ）が区別できるようになるかを計算し、その割合が閾値を超えるならば当該補完情報の候補を採用してもよい。

出力部１０７は、判定部１０５または補完情報抽出部１０６から関係情報（補完情報を含み得る）を受け取る。出力部１０７は、この関係情報をユーザに向けて提示する。出力部１０７は、例えば、関係情報を表形式でディスプレイに表示してもよいし、音声合成技術を用いて関係情報の内容をスピーカから読み上げてもよい。なお、出力部１０７は、関係情報に加えて、当該関係情報を形成する各属性の値の文書内での出現箇所に関する情報（例えば、出現箇所周辺の記載の引用）をさらに提示してもよい。

以上説明したように、第１の実施形態に係る情報抽出装置は、複数の属性の値同士の関係を表す関係情報を文書から抽出し、関係情報が曖昧性を持つ場合には当該関係情報を形成するいずれかの属性の値に関係する補完情報をさらに抽出して当該補完情報を用いて当該関係情報を補完する。従って、この情報抽出装置によれば、関係情報の持つ曖昧性を低減または除去し、文書の分析に寄与する情報（例えば、曖昧でない関係情報およびその妥当性の判断材料）を提示することができる。

（第２の実施形態）
図８に例示されるように、第２の実施形態に係る情報抽出装置３００は、入力部１０１と、関係情報抽出部１０２と、学習部１０３と、算出部１０４と、判定部１０５と、補完情報抽出部１０６と、出力部１０７と、評価情報入力部３０８と、評価結果格納部３０９とを含む。すなわち、情報抽出装置３００は、図１の情報抽出装置１００に評価情報入力部３０８および評価結果格納部３０９を追加したものに相当する。

評価情報入力部３０８は、出力部１０７によって提示された関係情報に対してユーザ（評価者と呼ぶこともできる）から妥当性の評価結果を受け付ける。評価情報入力部３０８は、受け取った評価結果を関係情報と関連付けて評価結果格納部３０９に格納する。

評価情報入力部３０８は、出力部１０７と協同して関係情報評価ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）として機能する。この関係情報評価ＵＩは、例えば図９に示されるように、評価の対象となる（例えば表形式の）関係情報と、関係情報の妥当性評価の判断材料となる情報（例えば、関係情報を形成する各属性値の出現箇所周辺の記載の引用）と、評価入力用のＧＵＩ部品（例えば、○ボタンおよび×ボタン）とを表示してもよい。

評価結果格納部３０９には、評価済みの関係情報とその評価結果とが格納される。評価結果が良好な（例えば、閾値以上であった）関係情報は、例えば、学習部１０３によって行われる学習の正解事例として利用されてよい。或いは、評価結果格納部３０９に格納されている情報は、補完情報抽出部１０６が補完情報の候補の適切さを判定するために利用してもよい。例えば、所与の補完情報の候補を含む、評価結果が良好な関係情報の数または割合が閾値以上であることを条件に、補完情報抽出部１０６は当該補完情報の候補を適切であると判定して採用してもよい。

以上説明したように、第２の実施形態に係る情報抽出装置は、抽出された関係情報（補完情報を含み得る）の妥当性について評価者からフィードバックを受ける。従って、この情報抽出装置は、評価結果に基づいて関係情報または補完情報の抽出精度を向上させることができる。

本実施形態に係る情報抽出装置は、単独のハードウェア装置によって実装されてもよいし、この情報抽出装置の機能の一部がネットワークに接続された外部サーバ上で実行されてもよい。また、この情報抽出装置は、ＣＰＵなどの制御装置と、メモリ、ＲＯＭ、ＲＡＭなどの記憶装置と、ＨＤＤなどの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボード、マウスなどの入力装置とを備えた一般的なコンピュータによって実装することもできる。

上記各実施形態において説明された種々の機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

上記各実施形態の処理の少なくとも一部は、汎用のコンピュータを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，３００・・・情報抽出装置
１０１・・・入力部
１０２・・・関係情報抽出部
１０３・・・学習部
１０４・・・算出部
１０５・・・判定部
１０６・・・補完情報抽出部
１０７・・・出力部
３０８・・・評価情報入力部
３０９・・・評価結果格納部

Claims

第１の属性の値と第２の属性の値との間の関係を表す少なくとも１つの関係情報を文書から抽出することによって関係情報群を得る関係情報抽出部と、
前記関係情報群に属する第１の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第１の関係情報を形成する第１の属性の値および第２の属性の値の少なくとも一方に関係する補完情報を抽出する補完情報抽出部と
を具備する、情報抽出装置。
前記第１の関係情報を形成する第１の属性の値が前記関係情報群に属する第２の関係情報を形成する第１の属性の値と同一であって、かつ、当該第１の関係情報を形成する第２の属性の値が前記第２の関係情報を形成する第２の属性の値と異なる場合に、前記第１の関係情報および前記第２の関係情報が曖昧性を持つと判定する判定部をさらに具備する、請求項１記載の情報抽出装置。
前記第１の関係情報に含まれる第１の属性の値が特定の種類の単語に該当する場合に、当該第１の関係情報が曖昧性を持つと判定する判定部をさらに具備する、請求項１記載の情報抽出装置。
前記補完情報抽出部は、前記第１の関係情報が曖昧性を持つと判定された場合に、当該第１の関係情報を形成する第１の属性の値および第２の属性の値の少なくとも一方について、係り受け解析、照応解析またはパラフレーズを行い、前記補完情報を抽出する、請求項２記載の情報抽出装置。
前記補完情報抽出部は、前記第１の関係情報が曖昧性を持つと判定された場合に、当該第１の関係情報を形成する第１の属性の値の上位概念若しくは下位概念に相当する単語または前記第１の属性の値の詳細を表す単語を前記補完情報として抽出する、請求項２記載の情報抽出装置。
前記補完情報抽出部は、前記第１の関係情報が曖昧性を持つと判定された場合に、当該第１の関係情報と同一の第２の属性の値を含む少なくとも１つの第３の関係情報を形成する第１の属性の値のいずれかを前記補完情報として抽出する、請求項２記載の情報抽出装置。
前記補完情報抽出部は、前記第１の関係情報が曖昧性を持つと判定される場合に、前記補完情報を抽出し、当該補完情報を用いて当該第１の関係情報を補完する、請求項１記載の情報抽出装置。
前記第１の関係情報を出力する出力部をさらに具備する、請求項１記載の情報抽出装置。
前記第１の関係情報に対して評価者から妥当性の評価結果を受け取る評価入力部と
前記評価結果を前記第１の関係情報と関連づけて格納する格納部とをさらに具備する
請求項８記載の情報抽出装置。
前記出力部は、前記第１の関係情報を表形式で出力する、請求項８記載の情報抽出装置。
前記第１の関係情報の素性の重みを学習する学習部と、
前記素性の重みに基づいて前記第１の関係情報の確からしさを表すスコアを算出する算出部と
をさらに具備する、請求項１記載の情報抽出装置。
第１の属性の値と第２の属性の値との間の関係を表す少なくとも１つの関係情報を文書から抽出することによって関係情報群を得ることと、
前記関係情報群に属する第１の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第１の関係情報を形成する第１の属性の値および第２の属性の値の少なくとも一方に関係する補完情報を抽出することと
を具備する、情報抽出方法。
コンピュータを、
第１の属性の値と第２の属性の値との間の関係を表す少なくとも１つの関係情報を文書から抽出することによって関係情報群を得る手段、
前記関係情報群に属する第１の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第１の関係情報を形成する第１の属性の値および第２の属性の値の少なくとも一方に関係する補完情報を抽出する手段
として機能させるための、情報抽出プログラム。