JP2009157791A

JP2009157791A - 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体

Info

Publication number: JP2009157791A
Application number: JP2007337336A
Authority: JP
Inventors: Ryuichiro Higashinaka; 竜一郎東中; Hideki Isozaki; 秀樹磯崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-12-27
Filing date: 2007-12-27
Publication date: 2009-07-16
Anticipated expiration: 2027-12-27
Also published as: JP5086799B2

Abstract

【課題】原因を問うタイプの質問に対する応答の内容の精度を向上させることのできる質問応答の技術を提供する。
【解決手段】質問応答装置１において、文書抽出部６は、入力された質問文に関連する１以上の文書を、予め定められた文書群１１から抽出して解答候補とする。原因表現特徴量抽出部２１は、原因表現パタン辞書１４を参照して原因表現特徴量を算出する。因果関係表現特徴量抽出部２２は、因果単語辞書１３を参照して因果関係表現特徴量を算出する。質問応答関連度特徴量抽出部２３は、類義語辞書１５を参照して質問応答関連度特徴量を算出する。そして、解答候補ランキング部８は、前記した３つの特徴量を所定の重み付けで統合した統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力する。
【選択図】図１

Description

本発明は、質問応答の技術に係り、特に、原因を問う質問に答える質問応答の技術に関する。

近年、情報の高度化や多様化が進み、膨大な情報の中から必要な情報を効率よく抽出する技術が求められている。例えば、情報検索システムの一環として、固有表現を解答とする質問に答えることのできる質問応答システムが多く開発されている。ここで、固有表現とは、人名、地名、数量など一連の単語から構成される表現のことである。このような固有表現を解答とする質問としては、例えば、「エッフェル塔の高さは何メートルですか？」、「眼鏡を日本に伝えたのは誰ですか？」のような質問が挙げられる。このようなタイプの質問応答システムのことをファクトイド（Factoid）型質問応答システムと呼ぶ。

また、例えば、「黒澤明とはどのような人物ですか？」、「Ｏ−１５７とは何ですか？」のように、人物や事物の定義を尋ねる質問に答えることのできる質問応答システムの開発も進められている。このようなタイプの質問応答システムは、定義型質問応答システムと呼ばれており、ファクトイド型質問応答システムよりも高度な意味処理が必要とされる。また、「聖火が消えたらどうしますか？」のように、手続きを問う質問に答えることのできる質問応答システムも出現してきている。さらに、「なぜ女性は痩せたがるのですか？」のように、原因を問う質問（質問とその解答との間に因果関係があるタイプの質問）に答えるシステムも出現してきている。

本発明は、このような様々な種類の質問応答システムのうち、特に、原因を問う質問に答えるシステムに関するものである。原因を問う質問に答えるシステムとして、英語の「causal verb」と呼ばれる、因果関係に明確に関係するとされる単語（動詞、動詞句）を含む質問に答えるシステムが知られている（非特許文献１参照）。しかし、非特許文献１に記載されたシステムは、「causal verb」を含む質問にしか答えることができない。この非特許文献１に記載されたシステムは、人が選び取ったある特定の単語を持つ質問文にしか答えられないので、人が抽出して手動で作ったルールに基づくシステムに近いものと言える。

この非特許文献１に記載されたシステムとは異なり、質問を特定の原因に限定しないシステムも知られている（非特許文献２参照）。非特許文献２に記載されたシステムは、手動で作ったルールに基づき、文書から原因を表す表現が含まれている文を複数抽出し、抽出した文を質問文との類似度により並び替え、解答として出力する。

なお、原因を問う質問に答えるタイプではないシステムとして、文書から抽出した文（解答候補）が質問文の解答としてふさわしいか否かについて統計的手法を用いて決定するシステムも知られている（非特許文献３参照）。ただし、このシステムは、原因を問う質問に答えるタイプではないので、原因を問う質問を入力としたときの応答の内容の精度は低い。
Roxana Girju, "Automatic detection of causal relations for Question Answering", Proc. ACL 2003 workshop on Multilingual summarization and question answering, p.76-83, 2003 諸岡心、福本淳一、"Why型質問応答のための回答選択手法"、電子情報通信学会技術研究報告Vol.105、No.594、言語理解とコミュニケーション、電子情報通信学会、p.7-12、2006 Radu Soricut and Eric Brill, "Automatic question answering using the web: Beyond the Factoid", Journal Information Retrieval, vol.9, no.2, p.191-206, 2006

従来の質問応答システムは、手書きの（人手で作成した）ルールまたはそれに近い手動の方法に基づいているため、原因を表す表現が含まれている文を抽出する精度が低い。よって、手書きのルールに基づくシステムでは、答えられない質問が多く、質問応答の精度が低い。また、人手を多くかけることによって、手書きのルールによる解答抽出の精度を向上させることは可能であるが、原因は非常に多くの表現によって表されうるため、現実的に、すべてを網羅するのが難しいことが知られている（乾孝司、奥村学、「文書内に現れる因果関係の出現特性調査」、計量国語学、Vol. 25、No.３、2005.参照）。

また、従来の質問応答システムは、前提条件として、解答候補に、原因を表す表現が存在し、かつ、質問文との類似度が高い場合に、その解答候補が応答になりやすいという前提を置いている。したがって、以下のような不都合が生じることがある。

例えば、「なぜ彼は逮捕されたのか？」という質問文に対する解答候補として、「彼は詐欺で逮捕された」という第１候補文と、「彼は逮捕されたので悲しんだ」という第２候補文とが抽出された場合を想定する。この場合、質問文に対する解答は、明らかに第１候補文である。従来の質問応答システムは、第１候補文と第２候補文の両方に関して、質問文に含まれる単語（「彼」、「逮捕」）をそれぞれ含んでいるため、質問文との類似度が高いと判定する。

また、従来の質問応答システムは、第１候補文と第２候補文の両方が、原因を表す表現を示す機能語（「〜で」、「〜ので」）を含むため、原因を含む可能性が高いと判定する。このため、従来の質問応答システムは、どちらの解答候補が解答としてより適切であるのかを判断することが困難である。その結果、従来の質問応答システムでは、質問者の知りたい情報を正確に提供できないことが多くなる、つまり、応答の内容の精度が低くなってしまう。これは、従来の質問応答システムの前提条件において、「解答候補に含まれる原因」が、「質問文で求められる原因」と異なる可能性について考慮されていないことが一因である。例えば、前記した例では、第１候補文の「詐欺で」と、第２候補文の「逮捕されたので」とが、原因を表す表現として同等に扱われてしまうためである。

そこで、本発明は、前記した問題を解決し、原因を問うタイプの質問に対する応答の内容の精度を向上させることのできる質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体を提供することを課題とする。

前記課題を解決するために、本発明は、質問とその解答との間に因果関係があるタイプの質問に応答する質問応答装置またはその方法であり、文書抽出部が、入力された質問文に関連する１以上の文書を、予め定められた文書群から抽出して解答候補とし、原因表現特徴量抽出部が、原因表現のパタンを集めた原因表現パタン辞書を参照して、前記解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出し、因果関係表現特徴量抽出部が、原因と結果のペアを集めた因果単語辞書を参照して、前記解答候補ごとに、前記質問文との因果関係の度合いを表す因果関係表現特徴量を算出し、質問応答関連度特徴量抽出部が、意味が同一または類似である単語のペアまたはグループを集めた類義語辞書を参照して、前記解答候補ごとに、前記質問文との間の内容の関連度を表す質問応答関連度特徴量を算出し、解答候補ランキング部が、前記原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力する。

かかる発明によれば、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出するときに原因表現パタン辞書を用いることで、原因表現特徴量の精度を高めることができる。また、解答候補ごとに、質問文との因果関係の度合いを表す因果関係表現特徴量を算出するときに因果単語辞書を用いることで、因果関係表現特徴量の精度を高めることができる。さらに、解答候補ごとに、質問文との間の内容の関連度を表す質問応答関連度特徴量を算出するときに類義語辞書を用いることで、質問応答関連度特徴量の精度を高めることができる。また、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出することで、質問とその解答との間に因果関係があるタイプの質問に対する解答候補ランキングの精度を高めることができる。

また、本発明に係る質問応答装置において、前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスから、文内に含まれる構成要素間の関係を表す意味情報に基づいて抽出された原因を表す表現のパタンを複数格納した情報であり、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する。

かかる発明によれば、コーパスを利用して意味情報に基づき原因表現パタン辞書を自動で作成し、原因表現特徴量を算出することができる。

また、本発明に係る質問応答装置において、前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスに含まれている文のうち、原因表現の存在しない文よりも原因表現の存在する文に統計的に多く現れる表現のパタンを複数格納した情報であり、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する。

かかる発明によれば、コーパスを利用して統計情報に基づき原因表現パタン辞書を自動で作成し、原因表現特徴量を算出することができる。

また、本発明に係る質問応答装置において、前記因果単語辞書は、単語間の関係が予め付与されている辞書から、因果関係を有する単語のペアを抽出して格納した情報であり、前記因果関係表現特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記因果単語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記因果関係表現特徴量を算出する。

かかる発明によれば、コーパスを利用して因果単語辞書を自動で作成し、因果関係表現特徴量を算出することができる。

また、本発明に係る質問応答装置において、前記類義語辞書は、語義のラベルが予め付与されている辞書から、意味が同一または類似である単語のペアを抽出して格納した情報であり、前記質問応答関連度特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記類義語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記質問応答関連度特徴量を算出する。

かかる発明によれば、コーパスを利用して類義語辞書を自動で作成し、質問応答関連度特徴量を算出することができる。

また、本発明に係る質問応答プログラムは、前記した質問応答装置を構成するコンピュータに実行させることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。

また、本発明に係るコンピュータに読み取り可能な記録媒体は、前記した質問応答プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。

本発明によれば、原因を問うタイプの質問に対する応答の内容の精度を向上させることができる。

以下、図面を参照（言及図以外の図も適宜参照）して、本発明を実施するための最良の形態（以下、「実施形態」という。）について詳細に説明する。なお、本実施形態において、「応答」とは質問に対するシステムの出力をさし、「解答」とは質問に対して予め用意されている正答のことをさす。

図１は、本実施形態に係る質問応答装置の構成を模式的に示す機能ブロック図である。質問応答装置１は、例えば、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、ＲＯＭ（Read Only Memory）と、ＨＤＤ（Hard Disk Drive）と、入出力インタフェース等から構成される。この質問応答装置１は、図１に示すように、入力部２と、出力部３と、記憶部４と、質問タイプ判定部５と、文書抽出部６と、解答抽出部７と、解答候補ランキング部８と、タイプ別モジュール群９とを備えている。以下、各構成について一通り説明した後、特徴的な構成についてさらに詳述する。

入力部２は、所定の入力インタフェースや通信インタフェースから構成される。この入力部２は、例えば、インターネット等の通信ネットワークを介して受信したユーザ（質問者）の質問文を質問タイプ判定部５や解答抽出部７に入力する。なお、入力部２は、質問応答装置１にケーブルで接続されたマウスやキーボード等の入力装置Ｍから入力される質問文を質問タイプ判定部５や解答抽出部７に入力することも可能である。

出力部３は、所定の出力インタフェースや通信インタフェースから構成される。この出力部３は、解答候補ランキング部８から取得した上位Ｎ個（例えば２０個）の解答候補を、例えば、インターネット等の通信ネットワークを介してユーザ（質問者）の使用するＰＣに送信する。なお、出力部３は、上位Ｎ個（例えば２０個）の解答候補を、質問応答装置１にケーブルで接続された液晶ディスプレイ等の表示装置Ｄに出力することも可能である。

記憶部４は、例えば、ＲＡＭやＲＯＭを備えると共に、各種データを格納するために一般的なハードディスクを備えている。この記憶部４は、図１に示すように、文書群１１と、コーパス１２と、因果単語辞書１３と、原因表現パタン辞書１４と、類義語辞書１５と、質問解答セット群１６と、重みテーブル１７とを備えている。なお、記憶部４は、各種のデータを１以上の外部記憶装置に蓄積することもできる。

（文書群１１）
文書群１１は、多くの文書を集めたものであり、例えば、数年分の複数の新聞記事から構成された新聞記事集合である。

（コーパス１２）
コーパス１２は、分類用のラベルが予め付与されている単語で構成された複数の文を含むもので、予め作成されたものである。コーパス１２は、例えば、ＥＤＲ（japaneseElectronic Dictionary Research institute：日本電子化辞書研究所）電子化辞書（登録商標）の日本語コーパス（ＥＤＲコーパス）から構成される。したがって、コーパス１２中の文は、その文に原因が含まれる場合、該当箇所に原因ラベル“cause”が付与されている（詳細は後記）。

（因果単語辞書１３）
因果単語辞書１３は、因果（原因と結果）の表現対（ペア）を集めたもので、予め作成されたものである（詳細は後記）。

（原因表現パタン辞書１４）
原因表現パタン辞書１４は、所定数の原因表現を集めたもので、予め作成されたものである（詳細は後記）。

（類義語辞書１５）
類義語辞書１５は、類義語のペアまたはグループを集めたもので、予め作成されたものである（詳細は後記）。

（質問解答セット群１６）
質問解答セット群１６は、質問文とその解答文とからなる予め定められた複数の学習用データであり、重みテーブル１７を作成するために利用されるものである。

（重みテーブル１７）
重みテーブル１７は、解答候補ランキング部８が解答抽出部７から出力する３９９個（７５７個）の特徴量に付与する所定の重み（重み付け）を記憶したものである。この重みテーブル１７の詳細は後記するが、質問解答セット群１６とランキングＳＶＭ（Ranking Support Vector Machine）とを用いて予め構築される。

なお、図２に示すように、原因表現パタン辞書１４は前記したＥＤＲコーパスを用いて予め作成され、因果単語辞書１３と類義語辞書１５はＥＤＲ単語辞書（図１に不図示）とＥＤＲ概念辞書（図１に不図示）を用いて、予め作成される。図２は、各辞書の作成に関する説明図である。ＥＤＲ単語辞書は、ＥＤＲコーパスに基づいて作成され、概念ごとにどのような単語が対応するかを列挙したものである。ＥＤＲ概念辞書は、ＥＤＲコーパスに基づいて作成され、概念間の関係を辞書としたものである。この概念間の関係には“cause”も含まれているので、これらの辞書を用いることで、“cause”の関係があるとされる概念対が分かり、概念対のそれぞれを単語に展開することで、“cause”の関係にある単語対を因果関係表現として獲得し、因果の表現対を集めた因果単語辞書１３を作成することができる。

図１に戻って説明を続けると、質問タイプ判定部５は、手書きのルールに基づいて、入力部２から入力した質問文のタイプが、予め定められた複数のタイプのうちのいずれであるのかを判別するものである。質問タイプ判定部５は、「理由」、「原因」というキーワードや、「なぜ」、「どうして」などの単語が質問文に含まれる場合、原因を問う質問であると判定する。例えば、「なぜ月食は起こるのか？」という質問は、原因を問う質問（ＲＥＡＳＯＮタイプ）であると判定される。また、質問タイプ判定部５は、例えば、「〜は何メートルですか？」、「〜は誰ですか？」といった、人名、地名、数量などの固有表現を問う単語が質問文に含まれる場合、ファクトイド型質問であると判定する。

文書抽出部６は、入力された質問文に関連する１以上の文書を、予め定められた文書群１１から抽出するものである。この文書抽出部６は、入力された質問文から検索に有効な１以上の単語（検索単語）を抽出し、抽出した検索単語と文書群１１に含まれる文書との関連度を算出し、算出した関連度の高い文書を複数（例えば２０個）抽出する。例えば、「なぜ月食は起こるのか？」という質問の場合には、検索単語として「月食」、「起こる」を抽出し、ＤＩＤＦ（Decayed ＩＤＦ）という指標を用いて関連度を算出する。

ＤＩＤＦについては、例えば、「Hideki Isozaki、 “An analysis of a high-Performance Japanese question answering system”、 ACM Transactions on Asian Language Information Processing（TALIP）,vol.4, no.3、p.263-279、2005」に詳述されている。

解答抽出部７は、原因表現特徴量抽出部２１と、因果関係表現特徴量抽出部２２と、質問応答関連度特徴量抽出部２３とを備えている。

（原因表現特徴量抽出部２１）
原因表現特徴量抽出部２１は、原因表現パタン辞書１４を参照して、解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出するものである（詳細は図９で後記）。

（因果関係表現特徴量抽出部２２）
因果関係表現特徴量抽出部２２は、原因と結果のペアを集めた因果単語辞書１３を参照して、解答候補ごとに、質問文との因果関係の度合い表す因果関係表現特徴量を算出する（詳細は図１０で後記）。

（質問応答関連度特徴量抽出部２３）
質問応答関連度特徴量抽出部２３は、解答候補ごとに、質問文との間の内容の関連度を表す質問応答関連度特徴量を算出するものである。本実施形態では、質問応答関連度特徴量抽出部２３は、解答候補ごとに、質問文とのコサイン距離、文書抽出部６が付与する質問文との関連度に関する順位の逆数、および、類義語辞書１５に基づく質問文との間の類義語同士の存在の有無、の３つの特徴量を算出する（詳細は図１１で後記）。

解答候補ランキング部８は、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、解答候補のうち統合スコアの上位の所定数の文を、質問文に対する応答として出力するものである（詳細は図８で後記）。

タイプ別モジュール群９は、質問タイプ判定部５において原因を問う質問ではないと判定されたタイプの質問にそれぞれ応答する複数の質問応答モジュールである。本実施形態では、タイプ別モジュール群９のうち、ファクトイド型質問に応答する質問応答モジュールとして、ＳＡＩＱＡシステムを備えている。

ＳＡＩＱＡシステムとはファクトイド型（事実型）の質問応答システムであり、特に、固有表現（人名や地名等の固有名詞）が解答となる質問に高精度で答えることができる。ＳＡＩＱＡシステムは、まず、ユーザの質問文を解析し、例えば人名が聞かれている場合、関連する文書群から人名を機械学習の手法と人手で作成したルールにより抽出し、質問文に含まれている単語のそれぞれとなるべく距離の近い人名を応答として出力する。なお、ＳＡＩＱＡシステムについては、例えば、「Hideki Isozaki、“NTT’s Question Answering System for NTCIR QAC2”、Working Notes of NTCIR-4、National Institute of Informatics、2004」に詳述されているので説明を省略する。

なお、質問タイプ判定部５と、文書抽出部６と、解答抽出部７と、解答候補ランキング部８と、タイプ別モジュール群９とは、ＣＰＵが記憶手段のＨＤＤ等に格納された所定のプログラムをＲＡＭに展開して実行することによりその機能が実現される。

次に、原因表現特徴量抽出部２１が使用する原因表現パタン辞書１４の２つの作成方法について説明する。

原因表現パタン辞書１４の作成方法の１つ目は、コーパス１２中の表現をそのまま用いる方法である。その場合、日本語のコーパス１２としてＥＤＲコーパスを用いる。ＥＤＲコーパスは新聞記事、雑誌、辞典などから選び出した複数の文に、形態素情報や意味情報などを付与したものである。１レコードは、文情報、テキスト番号、出展情報、文、構成要素情報、形態素情報、構文情報、意味情報、管理情報などからなる。詳細は例えば、「http://www2.nict.go.jp/r/r312/EDR/JPN/TG/Doc/EDR＿J09a.pdf」に記載されている。

ここで、原因表現パタン辞書１４を作成するために着目するのは意味情報である。意味情報は、文内に含まれる構成要素がどのような関係にあるのかを表す情報である。例えば、図３Ａおよび図３Ｂは、ＥＤＲコーパスの抜粋を示す図である。図３Ａおよび図３Ｂに示すように、「会場は熱気に包まれ、集会後、周辺路上でのデモ行進に移った。」という文においては、例えば、［main 5:包:3ce654］、［object 1:会場:3c0841］、［implement 3:熱気:102ab4］と書かれている。これは、「包（む）」という動作・イベントは「会場」に対しobject（目的）という関係を持ち、「熱気」に対しimplement（道具）という関係を持つことを示す。これは、「会場」を対象として「熱気」という道具がそれを包んでいることを表す。

図３Ａおよび図３Ｂには示されていないが、関係には“cause”がある。たとえば、「お盆の帰省客を運ぶ航空便で混雑する真夏の空で、ヒヤリとする出来事が起きた。」という文には、次の表１（便宜的に「表」と呼ぶ。以下同様）に示すように意味情報が付与されている。

これを見れば、「お盆の帰省客を運ぶ航空便」と「混雑」の間に“cause”という関係があることが分かる。また、ＥＤＲコーパスでは、同じ文に対し、次のようにそれぞれの単語に番号が割り振られている。
「/1:お盆/2:の/3:帰省/4:客/5:を/6:運/7:ぶ/8:航空便/9:で/10:混雑/11:する/12:真夏/13:の/14:空/15:で/16:、/17:ヒヤリと/18:する/19:出来事/20:が/21:起き/22:た/23:。/I#1://3:帰省/4:客//」

ここで、“cause”を構成する要素の単語番号（ここでは、１（お盆）、３（帰省）、４（客）、６（運）、８（航空便）を指す。なお、「帰省客」にはI#1という単語番号とは異なる複合語番号が振られており、それらは単語番号３と４によって構成されている。）を元に、それらを包含する単語（すなわち、１−８番の単語番号）を抜き出すと、「お盆の帰省客を運ぶ航空便」という文字列が得られる。ただし、以下に示すように、機能語を主要素とする表現パタンとして用いるためには文節を区切りとした表現の獲得が望ましいため、さらに同じ文を構文・依存構造解析器CaboChaなどのツールによって係り受け解析を行い、文節区切りを得る。文節区切りは次のようになる。「お盆の/帰省客を/運ぶ/航空便で/混雑する/真夏の/空で、/ヒヤリと/する/出来事が/起きた。」

このように得られた文節区切りを元に、「お盆の帰省客を運ぶ航空便」を含む文節を抜き出すと、「お盆の/帰省客を/運ぶ/航空便で」が対応し、最終的に「お盆の帰省客を運ぶ航空便で」を、原因を表す表現として獲得する。
さらに、ここで得られた表現に対して、形態素解析を行うことで、より抽象度の高い表現に変換する。現在の実装では、機能語（助詞、助動詞、非自立の名詞・動詞・形容詞、動詞−接尾）以外を、一つ以上の機能語の何にでもマッチすることが可能なアスタリスク記号（＊）で置き換える。

例えば、「お盆の帰省客を運ぶ航空便で」は「＊の＊を＊で」のようになる。このような処理を行うことで、例えば、ＥＤＲコーパスのすべての文から、３９４個の原因表現パタンを得て、原因表現パタン辞書１４とすることができる。表２は、実際に得られた原因表現パタンの例である。頻出順に上位２０パタンを示す。なお、空白（＿）は形態素境界を表す。また、左端の数字はランク、右端の数字は出現頻度を示す。

原因表現パタン辞書１４の作成方法の２つ目は、統計的分析を用いる方法である。ＥＤＲコーパスのすべての文を、“cause”を意味情報に持つ文と持たない文に分ける。そして、“cause”を持つ文に特徴的に現れる表現を統計的分析によって獲得する。例えば、“cause”を持つ文にある表現Ｅ（例えば「〜で」「〜から」など）がＮ％、“cause”を持たない文に表現ＥがＭ％出現すると仮定する。その場合、例えば、ＮとＭを比較し、Ｎの方が大きい場合、表現Ｅは原因を含む文に高頻度で現れると考えられるため、表現Ｅを原因表現とすればよい。あるいは、χ二乗検定などを用いて、ある表現Ｅがコーパス全体から計算される期待頻度よりも、統計的に有意に“cause”を持つ文に出現する場合、その表現Ｅを原因表現としてもよい。

このような処理を行う統計的分析ツールとして、今回ＢＡＣＴを用いる。ＢＡＣＴは、boosting（ブースティング）という機械学習手法をベースにして、木構造を分類できるように拡張した機械学習アルゴリズムである。ＢＡＣＴでは、“cause”を含む文の木構造にはラベルとして「＋１」を付与し、“cause”を含まない文の木構造にはラベルとして「−１」を付与し、そのような複数の木構造を入力とし、どのような部分木の存在が、木構造全体を「＋１」または「−１」とラベル付けされるために寄与しているかをboostingに基づき数値化する。なお、ＢＡＣＴの詳細については、例えば「Taku Kudo， Yuji Matsumoto， “A Boosting Algorithm for Classification of Semi-Structured Text”， Proc. EMNLP， pp.301-308， 2004.」に記載されている。

このＢＡＣＴを用いた処理の流れは次の通りである。まず、それぞれの文について下記の処理１〜処理３を行い、木構造に変換する。また、図４に「Ｘは詐欺で逮捕された」を例文とした木構造への変換の流れを示す。

[処理１]
対象となる文を構文・依存構造解析器CaboChaにより解析する。依存構造は木として表現される。木のノードは単語である。
[処理２]
機能語（助詞、助動詞）以外の単語については、それぞれの品詞情報で置き換える。品詞情報のノードを品詞ノードと呼ぶ。

[処理３]
対象となる文をmorphとJTAGにより解析する。morphは、日英翻訳システムALT J/E に付属する言語解析器であり、文に含まれるそれぞれの単語に意味属性を付与することができる。また、JTAGも同様に、文に含まれるそれぞれの単語について用言意味カテゴリ、固有名詞カテゴリを付与することができる。この解析で得られた情報を使い、品詞ノードに対応する意味属性・用言意味カテゴリ・固有名詞カテゴリを子ノードとして追加する。もし、品詞ノードに対応する意味属性・用言意味カテゴリ・固有名詞カテゴリが存在しない場合、品詞ノードにおける品詞情報を単語情報に戻す（処理１の直後の状態にする）。

前記したように、“cause”を含む文の木構造にはラベルとして「＋１」を付与し、“cause”を含まない文の木構造にはラベルとして「−１」を付与し、ＢＡＣＴの入力とする。木構造の変換では、機能語以外の単語品詞による置き換え（処理２）や意味属性・用言意味カテゴリ・固有名詞カテゴリの付与（処理３）を行っているが、これらは木の汎用性を高めるために行っている。

例えば、ＥＤＲコーパス中のすべての文をＢＡＣＴにより分析し、７５２個の部分木を得て、原因表現パタン辞書１４とすることができる。表３は、得られる部分木の上位２０個を示したものである。

表３において、左側の数値は各部分木についてＢＡＣＴが割り振ったスコアであり、右側が文字列として表現された部分木である。ここで、スコアは、ＢＡＣＴが用いる学習手法（boosting）によって、各部分木に割り振られた重みのことを指す。

boostingは、弱学習器という精度の低い単純な分類器の出力を複数組み合わせることにより、より精度の高い分類ができるように学習する機械学習手法である。判定誤りの多い弱学習器には小さい重みを、判定誤りの少ない分類器には大きい重みを与える。また、ＢＡＣＴは、弱学習器として、最初は木構造中のある単純な性質の有無を用いるが、次第に大きな構造（部分木）の有無を利用していく。

表３において、例えば、「で名詞-一般Ｎ-1398）の」は、「で」←「名詞-一般」←「N-1398」、「名詞-一般」←「の」という親子関係を持つ部分木を表す。つまり、「〜の（N-1398という意味属性を持つ名詞）で〜」という表現に対応する。

なお、Ｎ、Ｖから始まるものは意味属性、用言意味カテゴリを表し、例えば、「N-1398:疑い」、「N-2455:理由」、「N-1265:驚き」、「N-2115:動揺」、「N-2558:忙」、「N-1259:苦しみ」、「N-1185:価格」、「V-31:感情動作」、という意味を表す。ＰＮから始まるものは固有名詞カテゴリを表す。表３には現れていないが、例えば、「PN-87:公共機関名」や、「PN-123:乗り物名」などがある。

なお、図５はＮから始まる木構造、図６はＶから始まる木構造、図７はＰＮから始まる木構造、のそれぞれ抜粋を示す図である。

図１に戻って説明を続けると、原因表現特徴量抽出部２１が原因表現特徴量を算出する際、前記した１つ目の方法では、コーパス１２中の表現をそのまま用いて得られた３９４個の原因表現を集めた原因表現パタン辞書１４を用い、解答候補が原因表現のそれぞれにマッチするかを表す３９４個のバイナリ特徴量を得る。例えば、「彼は詐欺で逮捕された」という解答候補は形態素解析をしてパタンにした結果、「＿*＿は＿*＿で＿*＿された」となり、「＿で＿」という原因表現があるため、「＿で＿」については「１」となる。「＿の＿*＿によって＿」については解答候補にないため「０」となる。

原因表現特徴量抽出部２１が原因表現特徴量を算出する際、前記した２つ目の方法では、同様に、統計的分析を用いて得られた原因表現を集めた原因表現パタン辞書１４を用い、解答候補を木構造に変換した後、原因表現パタン辞書１４中の原因表現とされた部分木が解答候補にあれば「１」を、無ければ「０」とすることで、７５２個のバイナリ特徴量を得ることができる。

もし、予め人手で作成した原因表現がある場合、それらを原因表現パタン辞書１４に組み込んで用いてもよい。その場合、解答候補が手動で作成された原因表現にマッチするかを「１」、「０」のバイナリ特徴量として表すことができる。
このようにして、原因表現特徴量抽出部２１は、原因表現パタン辞書１４に集められた原因表現による３９４個または７５２個のバイナリ特徴量と、手動で作成した原因表現に対応する１つのバイナリ特徴量を出力する。

続いて、因果関係表現特徴量抽出部２２について詳述する。ここで、因果の表現対を集めた因果単語辞書１３の例を表４に示す。

表４において、左端は表現対の通し番号、その右は結果に対応する単語、右端は原因に対応する単語、をそれぞれ示す。形態素境界は‘＋’で表現されている。例えば、「殺人」という原因に対し、「逮捕する」という結果があることが分かる。実際に、ＥＤＲ単語辞書とＥＤＲ概念辞書から３５５６４１個の表現対を得、因果単語辞書１３とすることができた。因果関係表現特徴量抽出部２２は、質問文と解答候補をそれぞれ形態素解析し、質問文中の単語と解答候補中の単語の任意のペアのいずれかが因果単語辞書１３に存在すれば「１」を、存在しなければ「０」を出力する。

次に、質問応答関連度特徴量抽出部２３について詳述する。質問応答関連度特徴量抽出部２３は、文類似度算出部２３１、文書類似度算出部２３２および類義語存在判定部２３３から構成され、特徴量として、次の３つの値を抽出（算出）する。

（コサイン距離）
文類似度算出部２３１は、質問文と解答候補の類似度として、文の類似度でよく用いられるコサイン距離を求める。質問文と解答候補のコサイン距離を求める場合、まず、質問文と解答候補に含まれている内容語をすべて抜き出し、質問文と解答候補において各内容語がいくつ含まれているかという頻度ベクトルを作成する。

例えば、質問文が「彼はなぜ逮捕されたか？」で、解答候補が「彼は詐欺で逮捕された」であるとする。この場合、質問文と解答候補に含まれる内容語は「彼」、「逮捕」、「詐欺」の３つである。したがって、質問文の頻度ベクトルｘ^→（本明細書において、記号「^→」はその直前の文字の上に付される記号であるものとする）＝[1,1,0]、解答候補の頻度ベクトルｙ^→＝[1,1,1]となる。コサイン距離は、この２つのベクトルの近さとして、次の式（１）によって算出することができる。なお、ｘ_ｉおよびｙ_ｉはそれぞれのベクトルのｉ番目の成分を示す。

（順位の逆数）
文書類似度算出部２３２は、文書抽出部６により付与される解答候補の順位の逆数を特徴量とする。
前記したコサイン距離は、単語の重複を元に類似度として算出されるため、単語が重複していないと高い数値とはならない。しかし、単語が重複していなくても、関連度は高い場合がある。例えば、質問文と解答候補の話題が近い場合、質問文と解答候補は関連が高いと考えられる。そこで、本実施形態では、解答候補が文書抽出部６によって何番目に出力されたかという順位の逆数を関連度として使うこととした。

ここで、この順位は、前記したＤＩＤＦの値に依存する。以下、ＤＩＤＦの算出法について概説する。全文検索では、各検索単語に対してＩＤＦという重みがしばしば利用される。ＩＤＦは、その検索単語が含まれる文書数の割合の逆数の対数である。つまり、検索語ｔが一度以上現れる文書の数をＮｔ、全文書数をＮとしたとき、ｌｏｇ（Ｎ／Ｎｔ）で与えられる。本実施形態では、与えられた質問文から助詞や助動詞などの機能語と、誰、どこなどの疑問詞を削除し、残った単語を検索語とする。そして、各文書の特徴量として、その文書に一度以上現れる検索語のＩＤＦの和を利用する。

同じ文書内に検索語が接近して現れているとすると、その現れたあたりに、質問に関する話題が語られていて、解答が書かれている可能性も高い。しかし、同じ文書内であっても、検索語がばらばらに現れていると、偶然検索語が入っていただけの可能性も高く、解答が見つかることはあまり期待できない。そこで、文書をひとかたまりとして評価するのではなく、文書内の検索語の分布を調べて、特徴量に反映させる方法の一つがＤＩＤＦである。

ＤＩＤＦでは、文書のＬ語目からＲ語目までの区間[Ｌ，Ｒ]をパッセージと呼び、そのパッセージ中に含まれる検索語のＩＤＦの和を求める。そして、その値に、パッセージの長さによる指数減衰項ｅｘｐ（-ｂ（Ｒ-Ｌ））を乗算する。ここで、ｂはパラメータ（ここでは、小さな正の定数）であり、予め実験により最適な値（例えば「0.001」）を求めておく。

順位が上であるほど、ＤＩＤＦの値は小さく、関連度が高い可能性がある。関連度が高いほど特徴量が大きな値となっているほうが処理上の都合がよいため、本実施形態ではＤＩＤＦの値による順位の逆数を特徴量とする。

（類義語関係の有無）
また、単語が重複していなくても関連度が高い場合として、異なる表現で類似した内容が表されている場合が考えられる。そこで、類義語存在判定部２３３は、類義語辞書１５を参照し、質問文と解答候補に類義語がそれぞれ含まれているか否かに応じて特徴量を得るものとする。具体的には、質問文中の単語と解答候補の単語の任意の組み合わせについて、類義語の関係にあるものが１つでもあれば「１」、そうでなければ「０」という特徴量を得る。ここでは、類義語辞書１５は、ＥＤＲ単語辞書と同じ概念を持つ単語を対とすることで作成した。

表５は、類義語辞書１５の例である。

左端が通し番号で、その右が概念ＩＤ、右端が単語である。同じ概念ＩＤを持つものを類義語として扱う。なお、類義語辞書１５として公知のものを使ってもよい。

このように、質問応答関連度特徴量抽出部２３は、コサイン距離、順位の逆数、および、類義語関係の有無、の３つの特徴量を出力する。

続いて、解答候補ランキング部８について詳述する。原因表現特徴量抽出部２１、因果関係表現特徴量抽出部２２、質問応答関連度特徴量抽出部２３からそれぞれ得られる全部でＮ（（（３９４または７５２）＋１）＋１＋３）個の特徴量から、最終的な解答らしさの指標となる統合スコアを算出する。どのように統合すればよいかは必ずしも自明でないため、あらかじめ準備した質問・解答のセットである質問解答セット群１６について、最も高い成績を導き出すようにそれぞれの重み（例えば各特徴量に乗算する係数）を機械学習の手法を用いて調整する。

まず、ランダムに選んだ新聞記事から原因を尋ねる質問文を文書処理の専門家に作成してもらい、文書抽出部６を用いてその質問文に関連する上位２０個の文を抽出する。そして、抽出された文について解答かどうかを判断してもらい、最終的に質問文と解答文のセットを１０００作成した。この１０００セットをＷＨＹＱＡコレクションと呼ぶ。

表６は、ＷＨＹＱＡコレクションからの抜粋である。

表６では、000217262という記事番号の記事を元に作成された「なぜパンダは絶滅しそうなのか？」という質問について、４つの文が解答として選択された様子を示している。選択された文にはそれぞれ解答が含まれる記事の記事番号、行番号が付与されている。また、‘〔’と‘〕’の記号により、解答を特に述べていると思われる領域がマークされている。

ＷＨＹＱＡコレクションの中のそれぞれの質問文について、文書抽出部６を用いてその質問文に関連する上位２０個の文を抽出し、それぞれの文を解答候補とし、特徴量を得る。そして、実際に解答であるものには「１」を、そうでないものには「０」を、ラベルとして付与する。さらに、特徴量の重み付け線形和について、「１」とラベル付けされた解答候補と「０」とラベル付けされた解答候補との順位が、「１」のものが「０」のものよりなるべく上位になるように重みを調整し、その重みの情報を重みテーブル１７に格納する。

重みテーブル１７について改めて詳述すると、まず、質問解答セット群１６のうちの１つの質問解答セットを質問応答装置１に入力する。質問応答装置１は、文書抽出部６によって、文書群１１から、入力された質問文に関連する上位２０記事に含まれるすべての文を解答候補として抽出する。次に、複数の解答候補それぞれに対して、質問応答装置１のＮ個（３９９個など）の特徴量をそれぞれ算出する。そして、式（２）において、各特徴量の重み付けα_１〜α_Ｎを用いて、複数の解答候補に対して重み付け線形和をそれぞれ求める。ここで、Ａ_１〜Ａ_ＮはＮ個の特徴量を示し、Scoreは統合スコアを示す。

そして、特徴量の重み付け線形和について、「１」とラベル付けされた解答候補が「０」とラベル付けされた解答候補よりもなるべく上位になるように重み付けを調整し、その重み付けの情報を重みテーブル１７に格納する。
なお、この重み付けの決定にはランキング最適化の手法であるランキングＳＶＭを用いることが可能であり、本システムではJoachimによる実装であるSVM-1ightを用いる（Thorsten Joachims， “Optimizing Search Engines using Clickthrough Data” ，Proc. KDD pp.133-142，2002.参照）。

次に、質問応答装置１の動作について図８を参照しながら説明する。図８は、質問応答装置１の動作を示すフローチャートである。

まず、質問応答装置１は、外部から質問文が入力されると、質問タイプ判定部５によって、入力した質問文のタイプが、原因を問う質問（因果関係があるタイプ）と、固有表現を解答とした質問（ファクトイド型質問）とのいずれであるのかを判別する（ステップＳ１）。なお、ここでは説明を簡潔にするために、質問のタイプを前記の２つとした。

原因を問う質問（因果関係があるタイプ）である場合（ステップＳ１で「因果関係」）、質問応答装置１は、文書抽出部６によって、入力された質問文に関連する１以上の文書を文書群１１から抽出する（ステップＳ２）。
ステップＳ２の後、質問応答装置１は、原因表現特徴量抽出部２１による原因表現特徴量算出処理（ステップＳ３：詳細は図９で後記）、因果関係表現特徴量抽出部２２による因果関係表現特徴量算出処理（ステップＳ４：詳細は図１０で後記）、質問応答関連度特徴量抽出部２３による質問応答関連度特徴量算出処理（ステップＳ５：詳細は図１１で後記）を並行して行う。
なお、ステップＳ３〜ステップＳ５の処理は、このように並行して行うほか、任意の順序で行ってよい。

ステップＳ５の後、質問応答装置１は、解答候補ランキング部８によって、３種類の特徴量、すなわち、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、その統合スコアの上位Ｎ個の解答候補を、入力された質問文に対する応答として出力する（ステップＳ６）。出力された解答候補は、例えば、出力部３を経由して表示装置Ｄに表示される。

一方、固有表現を解答とした質問（ファクトイド型質問）であると判定された場合（ステップＳ１で「固有表現」）、質問応答装置１は、タイプ別モジュール群９に格納されたＳＡＩＱＡシステムのモジュールを起動し、文書群１１から抽出した解答を出力する（ステップＳ７）。出力された解答候補は、例えば、出力部３を経由して表示装置Ｄに表示される。

次に、図９〜図１１を参照しながら、各特徴量の算出処理について説明する。

（原因表現特徴量算出処理）
図９は、原因表現特徴量算出処理を示すフローチャートである。質問応答装置１は、原因表現特徴量抽出部２１によって、各解答候補について、次の処理を行う。まず、形態素解析によりパタン化を行う（ステップＳ９１）。そして、原因表現パタン辞書１４の各原因表現ごとに、解答候補パタン中にその原因表現があれば「１」を、その原因表現がなければ「０」を取得する（ステップＳ９２）。ここで、図１２は、特徴量の取得の様子を模式的に示す図である。図１２に示すように、原因表現特徴量抽出部２１は、原因表現パタン辞書１４を用いて（Ｎ＋１（手動パタン））個の原因表現特徴量を取得する。

（因果関係表現特徴量算出処理）
図１０は、因果関係表現特徴量算出処理を示すフローチャートである。質問応答装置１は、因果関係表現特徴量抽出部２２によって、まず、質問文を形態素解析して単語を抽出し（ステップＳ１０１）、その後、各解答候補について、次の処理を行う。まず、形態素解析により単語を抽出する（ステップＳ１０２）。そして、質問文の単語と解答候補の単語の任意の組み合わせが、因果単語辞書１３のいずれかの表現対と合致すれば「１」を、合致しなければ「０」を取得する（ステップＳ１０３）。図１２に示すように、因果関係表現特徴量抽出部２２は、因果単語辞書１３を用いて１個の因果関係表現特徴量を取得する。

（質問応答関連度特徴量算出処理）
図１１は、質問応答関連度特徴量算出処理を示すフローチャートである。質問応答装置１は、質問応答関連度特徴量抽出部２３によって、各解答候補について、次の処理を行う。まず、文類似度算出部２３１は、質問文とのコサイン距離を算出する（ステップＳ１１１）。続いて、文書類似度算出部２３２は、文書抽出部６によるＤＩＤＦに基づく質問文との関連度の順位の逆数を算出する（ステップＳ１１２）。その後、類義語存在判定部２３３は、質問文の単語と解答候補の単語の任意の組み合わせが、類義語辞書１５のいずれかの表現対と合致すれば「１」を、合致しなければ「０」を取得する（ステップＳ１１３）。図１２に示すように、質問応答関連度特徴量抽出部２３は、類義語辞書１５等を用いて３個の質問応答関連度特徴量を取得する。

このように、本実施形態の質問応答装置１によれば、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を重みテーブル１７に基づく重み付けで統合した統合スコアを算出することで、原因を問うタイプの質問に対する解答候補ランキングの精度を高めることができる。
また、機械学習の手法を導入することで、手書きのルールが不必要となり、システム構築コストの削減が期待できる。

なお、質問応答装置１を構成するコンピュータに実行させる質問応答プログラムを作成し、コンピュータにインストールすることにより、コンピュータは、その質問応答プログラムに基づいた各機能を実現することができる。また、その質問応答プログラムをＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等の種々の記録媒体に記録することができる。

（実験結果）
次に、図１３および図１４を参照しながら、本実施形態の質問応答装置１の手法による実験結果について説明する。図１３は、本実施形態の質問応答装置１の手法による実験結果（「ＮＡＺＥＱＡ」と表記）と従来の手法による実験結果（「ベースライン」と表記）を示す比較表である。「ＮＡＺＥＱＡ」のうち、「ＡＴＳ（abstracted text span：抽象化された原因表現の意）」は前記した１つ目の作成方法による原因表現パタン辞書１４を使用した場合の実験結果であり、「ＢＡＣＴ」は前記した２つ目の作成方法による原因表現パタン辞書１４を使用した場合の実験結果である。また、「ベースライン」のうち、「ＣＯＳ」は質問文と解答候補のコサイン距離のみを用いた場合の実験結果であり、「ＦＫ」は非特許文献２による手動の原因表現を用いた場合の実験結果である。

図１３において、解答候補として文を使用した場合の実験結果を上段に示し、解答候補として段落を使用した場合の実験結果を下段に示した。‘**’，‘*’はＡＴＳ／ＢＡＣＴのＦＫに対する統計的有意差（‘**’はp＜0.01，‘*’はp＜0.05）、‘++’はＦＫのＣＯＳに対する統計的有意差（p＜0.01）、‘†’はＢＡＣＴのＡＴＳに対する統計的有意差（p＜0.05）を示す。

「ＡＴＳ」の場合、解答候補を（３９４（手動原因表現なし）＋１＋３）個の特徴量で表現する。この評価は前記したＷＨＹＱＡコレクションを用いて行った。また、特徴量統合重み調整の必要性から公知の「10-fold cross validation」の手法で値を算出した。

それぞれの方法で、上位１，５，１０，２０個の解答（文または段落）を出力させ、それぞれの場合のMean Reciprocal Rank（ＭＲＲ：最も上位に存在する解答の順位の逆数の平均値）とカバレッジ（coverage：出力した上位Ｎ個の中に解答が存在した質問の割合）を算出した。
図１３から分かるように、「ＡＴＳ」の場合、ＭＲＲとcoverageの両方において、総じて、従来の手法よりも優れていることが確認できた。

また、「ＢＡＣＴ」の場合、原因表現として７５２個の部分木を用いて評価を行った。評価には、「10-fold cross validation」を使用し、解答候補として文と段落の両方を使用した。その結果、図１３から分かるように、例えば、解答候補として段落を使用した場合に上位５個のＭＲＲが「ＢＡＣＴ」は「0.325」となり「ＡＴＳ」の「0.305」よりも評価結果が良く、また、「ＢＡＣＴ」は「ＡＴＳ」よりも総じて評価結果が良好であった。これは、依存構造や意味属性などを用いることにより、多様な情報を原因表現として扱うことができていることに起因していると考えられる。

図１４は、前記した「ＡＴＳ」と「ＢＡＣＴ」に関して、使用する特徴量を変えた場合の実験結果を示す比較表である。各評価は、解答候補の上位５個から算出したＭＲＲである。評価には公知の「2-fold cross validation」の手法を使用し、解答候補には文（Sent.）と段落（Para.）の両方を使用した。なお、「**」は、実験結果がすべての特徴量を使用した場合よりも有意（p＜0.01）に劣っていることを示す。

図１４に示すように、手動以外の原因表現特徴量がない場合と、コサイン距離による特徴量を用いない場合に、性能が大幅に低下することが分かった。これは、原因表現特徴量の有効性が示されたことの根拠の１つとなりえる。

以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
例えば、原因表現特徴量、因果関係表現特徴量、質問応答関連度特徴量の各個数は、本実施形態で示された個数に限定されるものではない。

また、本実施形態では、タイプ別モジュール群９にＳＡＩＱＡシステムを備えるものとしたが、これに限定されるものではなく、その他のファクトイド型質問応答システムのモジュールを備えるようにしてもよい。
さらに、定義型質問応答システムのモジュールや、手続きを問う質問に答えることのできる質問応答システムのモジュールを備えるようにしてもよい。

また、文書群１１は、新聞記事に限定されるものではなく、例えば、電子化された各種雑誌、辞書、百科事典や専門書等の図書、ウェブ上の事典等で構成してもよい。
さらに、本実施形態では、コーパス１２を日本語コーパスとしたが、言語はこれに限定されるものではなく、例えば、英語コーパス等で構成してもよい。

また、類義語辞書１５の代わりに、同義語を集めた同義語辞書を用いてもよい。
さらに、質問応答関連度特徴量を算出する際、質問文とのコサイン距離、および、文書抽出部６が付与する質問文と解答候補の関連度に関する順位の逆数を使わずに、類義語辞書１５に基づく質問文との間の類義語同士の存在の有無に基づく特徴量だけを使用してもよい。
その他、ハードウェア、ソフトウェアの具体的な構成について、本発明の主旨を逸脱しない範囲で適宜変更が可能である。

本実施形態に係る質問応答装置の構成を模式的に示す機能ブロック図である。各辞書の作成に関する説明図である。ＥＤＲコーパスの抜粋を示す図である。ＥＤＲコーパスの抜粋を示す図である。例文に関する木構造への変換の流れを示す図である。Ｎから始まる木構造の抜粋を示す図である。Ｖから始まる木構造の抜粋を示す図である。ＰＮから始まる木構造の抜粋を示す図である。質問応答装置の動作を示すフローチャートである。原因表現特徴量算出処理を示すフローチャートである。因果関係表現特徴量算出処理を示すフローチャートである。質問応答関連度特徴量算出処理を示すフローチャートである。特徴量の取得の様子を模式的に示す図である。本実施形態の質問応答装置と従来の手法との実験結果を示す比較表である。使用する特徴量を変えた場合の実験結果を示す比較表である。

符号の説明

１質問応答装置
４記憶部
５質問タイプ判定部
６文書抽出部
７解答抽出部
８解答候補ランキング部
９タイプ別モジュール群
１１文書群
１２コーパス
１３因果単語辞書
１４原因表現パタン辞書
１５類義語辞書
２１原因表現特徴量抽出部
２２因果関係表現特徴量抽出部
２３質問応答関連度特徴量抽出部

Claims

質問とその解答との間に因果関係があるタイプの質問に応答する質問応答装置による質問応答方法であって、
文書抽出部が、入力された質問文に関連する１以上の文書を、予め定められた文書群から抽出して解答候補とするステップを実行し、
原因表現特徴量抽出部が、原因表現のパタンを集めた原因表現パタン辞書を参照して、前記解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出するステップ、
因果関係表現特徴量抽出部が、原因と結果のペアを集めた因果単語辞書を参照して、前記解答候補ごとに、前記質問文との因果関係の度合いを表す因果関係表現特徴量を算出するステップ、
質問応答関連度特徴量抽出部が、意味が同一または類似である単語のペアまたはグループを集めた類義語辞書を参照して、前記解答候補ごとに、前記質問文との間の内容の関連度を表す質問応答関連度特徴量を算出するステップ、
のうちの少なくとも前記原因表現特徴量を算出するステップを実行し、
解答候補ランキング部が、前記原因表現特徴量、前記因果関係表現特徴量、前記質問応答関連度特徴量のうち算出された特徴量を用いて統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力するステップを実行する
ことを特徴とする質問応答方法。
前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスから、文内に含まれる構成要素間の関係を表す意味情報に基づいて抽出された原因を表す表現のパタンを複数格納した情報であり、
前記原因表現特徴量を算出するステップにおいて、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
ことを特徴とする請求項１に記載の質問応答方法。
前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスに含まれている文のうち、原因表現の存在しない文よりも原因表現の存在する文に統計的に多く現れる表現のパタンを複数格納した情報であり、
前記原因表現特徴量を算出するステップにおいて、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
ことを特徴とする請求項１に記載の質問応答方法。
前記因果単語辞書は、単語間の関係が予め付与されている辞書から、因果関係を有する単語のペアを抽出して格納した情報であり、
前記因果関係表現特徴量を算出するステップにおいて、前記因果関係表現特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記因果単語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記因果関係表現特徴量を算出する
ことを特徴とする請求項１に記載の質問応答方法。
前記類義語辞書は、語義のラベルが予め付与されている辞書から、意味が同一または類似である単語のペアを抽出して格納した情報であり、
前記質問応答関連度特徴量を算出するステップにおいて、前記質問応答関連度特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記類義語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記質問応答関連度特徴量を算出する
ことを特徴とする請求項１に記載の質問応答方法。
質問とその解答との間に因果関係があるタイプの質問に応答する質問応答装置であって、
入力された質問文に関連する１以上の文書を、予め定められた文書群から抽出して解答候補とする文書抽出部と、
原因表現のパタンを集めた原因表現パタン辞書を参照して、前記解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出する原因表現特徴量抽出部と、
原因と結果のペアを集めた因果単語辞書を参照して、前記解答候補ごとに、前記質問文との因果関係の度合いを表す因果関係表現特徴量を算出する因果関係表現特徴量抽出部と、
意味が同一または類似である単語のペアまたはグループを集めた類義語辞書を参照して、前記解答候補ごとに、前記質問文との間の内容の関連度を表す質問応答関連度特徴量を算出する質問応答関連度特徴量抽出部と、
前記原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力する解答候補ランキング部と、
を備えることを特徴とする質問応答装置。
前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスから、文内に含まれる構成要素間の関係を表す意味情報に基づいて抽出された原因を表す表現のパタンを複数格納した情報であり、
前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
ことを特徴とする請求項６に記載の質問応答装置。
前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスに含まれている文のうち、原因表現の存在しない文よりも原因表現の存在する文に統計的に多く現れる表現のパタンを複数格納した情報であり、
前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
ことを特徴とする請求項６に記載の質問応答装置。
前記因果単語辞書は、単語間の関係が予め付与されている辞書から、因果関係を有する単語のペアを抽出して格納した情報であり、
前記因果関係表現特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記因果単語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記因果関係表現特徴量を算出する
ことを特徴とする請求項６に記載の質問応答装置。
前記類義語辞書は、語義のラベルが予め付与されている辞書から、意味が同一または類似である単語のペアを抽出して格納した情報であり、
前記質問応答関連度特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記類義語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記質問応答関連度特徴量を算出する
ことを特徴とする請求項６に記載の質問応答装置。
請求項６ないし請求項１０のいずれか一項に記載の質問応答装置を構成するコンピュータに実行させることを特徴とする質問応答プログラム。
請求項１１に記載の質問応答プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。