JP2009157791A - 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体 - Google Patents

質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2009157791A
JP2009157791A JP2007337336A JP2007337336A JP2009157791A JP 2009157791 A JP2009157791 A JP 2009157791A JP 2007337336 A JP2007337336 A JP 2007337336A JP 2007337336 A JP2007337336 A JP 2007337336A JP 2009157791 A JP2009157791 A JP 2009157791A
Authority
JP
Japan
Prior art keywords
question
cause
answer
feature amount
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007337336A
Other languages
English (en)
Other versions
JP5086799B2 (ja
Inventor
Ryuichiro Higashinaka
竜一郎 東中
Hideki Isozaki
秀樹 磯崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007337336A priority Critical patent/JP5086799B2/ja
Publication of JP2009157791A publication Critical patent/JP2009157791A/ja
Application granted granted Critical
Publication of JP5086799B2 publication Critical patent/JP5086799B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】原因を問うタイプの質問に対する応答の内容の精度を向上させることのできる質問応答の技術を提供する。
【解決手段】質問応答装置1において、文書抽出部6は、入力された質問文に関連する1以上の文書を、予め定められた文書群11から抽出して解答候補とする。原因表現特徴量抽出部21は、原因表現パタン辞書14を参照して原因表現特徴量を算出する。因果関係表現特徴量抽出部22は、因果単語辞書13を参照して因果関係表現特徴量を算出する。質問応答関連度特徴量抽出部23は、類義語辞書15を参照して質問応答関連度特徴量を算出する。そして、解答候補ランキング部8は、前記した3つの特徴量を所定の重み付けで統合した統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力する。
【選択図】図1

Description

本発明は、質問応答の技術に係り、特に、原因を問う質問に答える質問応答の技術に関する。
近年、情報の高度化や多様化が進み、膨大な情報の中から必要な情報を効率よく抽出する技術が求められている。例えば、情報検索システムの一環として、固有表現を解答とする質問に答えることのできる質問応答システムが多く開発されている。ここで、固有表現とは、人名、地名、数量など一連の単語から構成される表現のことである。このような固有表現を解答とする質問としては、例えば、「エッフェル塔の高さは何メートルですか?」、「眼鏡を日本に伝えたのは誰ですか?」のような質問が挙げられる。このようなタイプの質問応答システムのことをファクトイド(Factoid)型質問応答システムと呼ぶ。
また、例えば、「黒澤明とはどのような人物ですか?」、「O−157とは何ですか?」のように、人物や事物の定義を尋ねる質問に答えることのできる質問応答システムの開発も進められている。このようなタイプの質問応答システムは、定義型質問応答システムと呼ばれており、ファクトイド型質問応答システムよりも高度な意味処理が必要とされる。また、「聖火が消えたらどうしますか?」のように、手続きを問う質問に答えることのできる質問応答システムも出現してきている。さらに、「なぜ女性は痩せたがるのですか?」のように、原因を問う質問(質問とその解答との間に因果関係があるタイプの質問)に答えるシステムも出現してきている。
本発明は、このような様々な種類の質問応答システムのうち、特に、原因を問う質問に答えるシステムに関するものである。原因を問う質問に答えるシステムとして、英語の「causal verb」と呼ばれる、因果関係に明確に関係するとされる単語(動詞、動詞句)を含む質問に答えるシステムが知られている(非特許文献1参照)。しかし、非特許文献1に記載されたシステムは、「causal verb」を含む質問にしか答えることができない。この非特許文献1に記載されたシステムは、人が選び取ったある特定の単語を持つ質問文にしか答えられないので、人が抽出して手動で作ったルールに基づくシステムに近いものと言える。
この非特許文献1に記載されたシステムとは異なり、質問を特定の原因に限定しないシステムも知られている(非特許文献2参照)。非特許文献2に記載されたシステムは、手動で作ったルールに基づき、文書から原因を表す表現が含まれている文を複数抽出し、抽出した文を質問文との類似度により並び替え、解答として出力する。
なお、原因を問う質問に答えるタイプではないシステムとして、文書から抽出した文(解答候補)が質問文の解答としてふさわしいか否かについて統計的手法を用いて決定するシステムも知られている(非特許文献3参照)。ただし、このシステムは、原因を問う質問に答えるタイプではないので、原因を問う質問を入力としたときの応答の内容の精度は低い。
Roxana Girju, "Automatic detection of causal relations for Question Answering", Proc. ACL 2003 workshop on Multilingual summarization and question answering, p.76-83, 2003 諸岡心、福本淳一、"Why型質問応答のための回答選択手法"、電子情報通信学会技術研究報告Vol.105、No.594、言語理解とコミュニケーション、電子情報通信学会、p.7-12、2006 Radu Soricut and Eric Brill, "Automatic question answering using the web: Beyond the Factoid", Journal Information Retrieval, vol.9, no.2, p.191-206, 2006
従来の質問応答システムは、手書きの(人手で作成した)ルールまたはそれに近い手動の方法に基づいているため、原因を表す表現が含まれている文を抽出する精度が低い。よって、手書きのルールに基づくシステムでは、答えられない質問が多く、質問応答の精度が低い。また、人手を多くかけることによって、手書きのルールによる解答抽出の精度を向上させることは可能であるが、原因は非常に多くの表現によって表されうるため、現実的に、すべてを網羅するのが難しいことが知られている(乾孝司、奥村学、「文書内に現れる因果関係の出現特性調査」、計量国語学、Vol. 25、No.3、2005.参照)。
また、従来の質問応答システムは、前提条件として、解答候補に、原因を表す表現が存在し、かつ、質問文との類似度が高い場合に、その解答候補が応答になりやすいという前提を置いている。したがって、以下のような不都合が生じることがある。
例えば、「なぜ彼は逮捕されたのか?」という質問文に対する解答候補として、「彼は詐欺で逮捕された」という第1候補文と、「彼は逮捕されたので悲しんだ」という第2候補文とが抽出された場合を想定する。この場合、質問文に対する解答は、明らかに第1候補文である。従来の質問応答システムは、第1候補文と第2候補文の両方に関して、質問文に含まれる単語(「彼」、「逮捕」)をそれぞれ含んでいるため、質問文との類似度が高いと判定する。
また、従来の質問応答システムは、第1候補文と第2候補文の両方が、原因を表す表現を示す機能語(「〜で」、「〜ので」)を含むため、原因を含む可能性が高いと判定する。このため、従来の質問応答システムは、どちらの解答候補が解答としてより適切であるのかを判断することが困難である。その結果、従来の質問応答システムでは、質問者の知りたい情報を正確に提供できないことが多くなる、つまり、応答の内容の精度が低くなってしまう。これは、従来の質問応答システムの前提条件において、「解答候補に含まれる原因」が、「質問文で求められる原因」と異なる可能性について考慮されていないことが一因である。例えば、前記した例では、第1候補文の「詐欺で」と、第2候補文の「逮捕されたので」とが、原因を表す表現として同等に扱われてしまうためである。
そこで、本発明は、前記した問題を解決し、原因を問うタイプの質問に対する応答の内容の精度を向上させることのできる質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体を提供することを課題とする。
前記課題を解決するために、本発明は、質問とその解答との間に因果関係があるタイプの質問に応答する質問応答装置またはその方法であり、文書抽出部が、入力された質問文に関連する1以上の文書を、予め定められた文書群から抽出して解答候補とし、原因表現特徴量抽出部が、原因表現のパタンを集めた原因表現パタン辞書を参照して、前記解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出し、因果関係表現特徴量抽出部が、原因と結果のペアを集めた因果単語辞書を参照して、前記解答候補ごとに、前記質問文との因果関係の度合いを表す因果関係表現特徴量を算出し、質問応答関連度特徴量抽出部が、意味が同一または類似である単語のペアまたはグループを集めた類義語辞書を参照して、前記解答候補ごとに、前記質問文との間の内容の関連度を表す質問応答関連度特徴量を算出し、解答候補ランキング部が、前記原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力する。
かかる発明によれば、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出するときに原因表現パタン辞書を用いることで、原因表現特徴量の精度を高めることができる。また、解答候補ごとに、質問文との因果関係の度合いを表す因果関係表現特徴量を算出するときに因果単語辞書を用いることで、因果関係表現特徴量の精度を高めることができる。さらに、解答候補ごとに、質問文との間の内容の関連度を表す質問応答関連度特徴量を算出するときに類義語辞書を用いることで、質問応答関連度特徴量の精度を高めることができる。また、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出することで、質問とその解答との間に因果関係があるタイプの質問に対する解答候補ランキングの精度を高めることができる。
また、本発明に係る質問応答装置において、前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスから、文内に含まれる構成要素間の関係を表す意味情報に基づいて抽出された原因を表す表現のパタンを複数格納した情報であり、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する。
かかる発明によれば、コーパスを利用して意味情報に基づき原因表現パタン辞書を自動で作成し、原因表現特徴量を算出することができる。
また、本発明に係る質問応答装置において、前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスに含まれている文のうち、原因表現の存在しない文よりも原因表現の存在する文に統計的に多く現れる表現のパタンを複数格納した情報であり、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する。
かかる発明によれば、コーパスを利用して統計情報に基づき原因表現パタン辞書を自動で作成し、原因表現特徴量を算出することができる。
また、本発明に係る質問応答装置において、前記因果単語辞書は、単語間の関係が予め付与されている辞書から、因果関係を有する単語のペアを抽出して格納した情報であり、前記因果関係表現特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記因果単語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記因果関係表現特徴量を算出する。
かかる発明によれば、コーパスを利用して因果単語辞書を自動で作成し、因果関係表現特徴量を算出することができる。
また、本発明に係る質問応答装置において、前記類義語辞書は、語義のラベルが予め付与されている辞書から、意味が同一または類似である単語のペアを抽出して格納した情報であり、前記質問応答関連度特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記類義語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記質問応答関連度特徴量を算出する。
かかる発明によれば、コーパスを利用して類義語辞書を自動で作成し、質問応答関連度特徴量を算出することができる。
また、本発明に係る質問応答プログラムは、前記した質問応答装置を構成するコンピュータに実行させることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。
また、本発明に係るコンピュータに読み取り可能な記録媒体は、前記した質問応答プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。
本発明によれば、原因を問うタイプの質問に対する応答の内容の精度を向上させることができる。
以下、図面を参照(言及図以外の図も適宜参照)して、本発明を実施するための最良の形態(以下、「実施形態」という。)について詳細に説明する。なお、本実施形態において、「応答」とは質問に対するシステムの出力をさし、「解答」とは質問に対して予め用意されている正答のことをさす。
図1は、本実施形態に係る質問応答装置の構成を模式的に示す機能ブロック図である。質問応答装置1は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成される。この質問応答装置1は、図1に示すように、入力部2と、出力部3と、記憶部4と、質問タイプ判定部5と、文書抽出部6と、解答抽出部7と、解答候補ランキング部8と、タイプ別モジュール群9とを備えている。以下、各構成について一通り説明した後、特徴的な構成についてさらに詳述する。
入力部2は、所定の入力インタフェースや通信インタフェースから構成される。この入力部2は、例えば、インターネット等の通信ネットワークを介して受信したユーザ(質問者)の質問文を質問タイプ判定部5や解答抽出部7に入力する。なお、入力部2は、質問応答装置1にケーブルで接続されたマウスやキーボード等の入力装置Mから入力される質問文を質問タイプ判定部5や解答抽出部7に入力することも可能である。
出力部3は、所定の出力インタフェースや通信インタフェースから構成される。この出力部3は、解答候補ランキング部8から取得した上位N個(例えば20個)の解答候補を、例えば、インターネット等の通信ネットワークを介してユーザ(質問者)の使用するPCに送信する。なお、出力部3は、上位N個(例えば20個)の解答候補を、質問応答装置1にケーブルで接続された液晶ディスプレイ等の表示装置Dに出力することも可能である。
記憶部4は、例えば、RAMやROMを備えると共に、各種データを格納するために一般的なハードディスクを備えている。この記憶部4は、図1に示すように、文書群11と、コーパス12と、因果単語辞書13と、原因表現パタン辞書14と、類義語辞書15と、質問解答セット群16と、重みテーブル17とを備えている。なお、記憶部4は、各種のデータを1以上の外部記憶装置に蓄積することもできる。
(文書群11)
文書群11は、多くの文書を集めたものであり、例えば、数年分の複数の新聞記事から構成された新聞記事集合である。
(コーパス12)
コーパス12は、分類用のラベルが予め付与されている単語で構成された複数の文を含むもので、予め作成されたものである。コーパス12は、例えば、EDR(japaneseElectronic Dictionary Research institute:日本電子化辞書研究所)電子化辞書(登録商標)の日本語コーパス(EDRコーパス)から構成される。したがって、コーパス12中の文は、その文に原因が含まれる場合、該当箇所に原因ラベル“cause”が付与されている(詳細は後記)。
(因果単語辞書13)
因果単語辞書13は、因果(原因と結果)の表現対(ペア)を集めたもので、予め作成されたものである(詳細は後記)。
(原因表現パタン辞書14)
原因表現パタン辞書14は、所定数の原因表現を集めたもので、予め作成されたものである(詳細は後記)。
(類義語辞書15)
類義語辞書15は、類義語のペアまたはグループを集めたもので、予め作成されたものである(詳細は後記)。
(質問解答セット群16)
質問解答セット群16は、質問文とその解答文とからなる予め定められた複数の学習用データであり、重みテーブル17を作成するために利用されるものである。
(重みテーブル17)
重みテーブル17は、解答候補ランキング部8が解答抽出部7から出力する399個(757個)の特徴量に付与する所定の重み(重み付け)を記憶したものである。この重みテーブル17の詳細は後記するが、質問解答セット群16とランキングSVM(Ranking Support Vector Machine)とを用いて予め構築される。
なお、図2に示すように、原因表現パタン辞書14は前記したEDRコーパスを用いて予め作成され、因果単語辞書13と類義語辞書15はEDR単語辞書(図1に不図示)とEDR概念辞書(図1に不図示)を用いて、予め作成される。図2は、各辞書の作成に関する説明図である。EDR単語辞書は、EDRコーパスに基づいて作成され、概念ごとにどのような単語が対応するかを列挙したものである。EDR概念辞書は、EDRコーパスに基づいて作成され、概念間の関係を辞書としたものである。この概念間の関係には“cause”も含まれているので、これらの辞書を用いることで、“cause”の関係があるとされる概念対が分かり、概念対のそれぞれを単語に展開することで、“cause”の関係にある単語対を因果関係表現として獲得し、因果の表現対を集めた因果単語辞書13を作成することができる。
図1に戻って説明を続けると、質問タイプ判定部5は、手書きのルールに基づいて、入力部2から入力した質問文のタイプが、予め定められた複数のタイプのうちのいずれであるのかを判別するものである。質問タイプ判定部5は、「理由」、「原因」というキーワードや、「なぜ」、「どうして」などの単語が質問文に含まれる場合、原因を問う質問であると判定する。例えば、「なぜ月食は起こるのか?」という質問は、原因を問う質問(REASONタイプ)であると判定される。また、質問タイプ判定部5は、例えば、「〜は何メートルですか?」、「〜は誰ですか?」といった、人名、地名、数量などの固有表現を問う単語が質問文に含まれる場合、ファクトイド型質問であると判定する。
文書抽出部6は、入力された質問文に関連する1以上の文書を、予め定められた文書群11から抽出するものである。この文書抽出部6は、入力された質問文から検索に有効な1以上の単語(検索単語)を抽出し、抽出した検索単語と文書群11に含まれる文書との関連度を算出し、算出した関連度の高い文書を複数(例えば20個)抽出する。例えば、「なぜ月食は起こるのか?」という質問の場合には、検索単語として「月食」、「起こる」を抽出し、DIDF(Decayed IDF)という指標を用いて関連度を算出する。
DIDFについては、例えば、「Hideki Isozaki、 “An analysis of a high-Performance Japanese question answering system”、 ACM Transactions on Asian Language Information Processing(TALIP),vol.4, no.3、p.263-279、2005」に詳述されている。
解答抽出部7は、原因表現特徴量抽出部21と、因果関係表現特徴量抽出部22と、質問応答関連度特徴量抽出部23とを備えている。
(原因表現特徴量抽出部21)
原因表現特徴量抽出部21は、原因表現パタン辞書14を参照して、解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出するものである(詳細は図9で後記)。
(因果関係表現特徴量抽出部22)
因果関係表現特徴量抽出部22は、原因と結果のペアを集めた因果単語辞書13を参照して、解答候補ごとに、質問文との因果関係の度合い表す因果関係表現特徴量を算出する(詳細は図10で後記)。
(質問応答関連度特徴量抽出部23)
質問応答関連度特徴量抽出部23は、解答候補ごとに、質問文との間の内容の関連度を表す質問応答関連度特徴量を算出するものである。本実施形態では、質問応答関連度特徴量抽出部23は、解答候補ごとに、質問文とのコサイン距離、文書抽出部6が付与する質問文との関連度に関する順位の逆数、および、類義語辞書15に基づく質問文との間の類義語同士の存在の有無、の3つの特徴量を算出する(詳細は図11で後記)。
解答候補ランキング部8は、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、解答候補のうち統合スコアの上位の所定数の文を、質問文に対する応答として出力するものである(詳細は図8で後記)。
タイプ別モジュール群9は、質問タイプ判定部5において原因を問う質問ではないと判定されたタイプの質問にそれぞれ応答する複数の質問応答モジュールである。本実施形態では、タイプ別モジュール群9のうち、ファクトイド型質問に応答する質問応答モジュールとして、SAIQAシステムを備えている。
SAIQAシステムとはファクトイド型(事実型)の質問応答システムであり、特に、固有表現(人名や地名等の固有名詞)が解答となる質問に高精度で答えることができる。SAIQAシステムは、まず、ユーザの質問文を解析し、例えば人名が聞かれている場合、関連する文書群から人名を機械学習の手法と人手で作成したルールにより抽出し、質問文に含まれている単語のそれぞれとなるべく距離の近い人名を応答として出力する。なお、SAIQAシステムについては、例えば、「Hideki Isozaki、“NTT’s Question Answering System for NTCIR QAC2”、Working Notes of NTCIR-4、National Institute of Informatics、2004」に詳述されているので説明を省略する。
なお、質問タイプ判定部5と、文書抽出部6と、解答抽出部7と、解答候補ランキング部8と、タイプ別モジュール群9とは、CPUが記憶手段のHDD等に格納された所定のプログラムをRAMに展開して実行することによりその機能が実現される。
次に、原因表現特徴量抽出部21が使用する原因表現パタン辞書14の2つの作成方法について説明する。
原因表現パタン辞書14の作成方法の1つ目は、コーパス12中の表現をそのまま用いる方法である。その場合、日本語のコーパス12としてEDRコーパスを用いる。EDRコーパスは新聞記事、雑誌、辞典などから選び出した複数の文に、形態素情報や意味情報などを付与したものである。1レコードは、文情報、テキスト番号、出展情報、文、構成要素情報、形態素情報、構文情報、意味情報、管理情報などからなる。詳細は例えば、「http://www2.nict.go.jp/r/r312/EDR/JPN/TG/Doc/EDR_J09a.pdf」に記載されている。
ここで、原因表現パタン辞書14を作成するために着目するのは意味情報である。意味情報は、文内に含まれる構成要素がどのような関係にあるのかを表す情報である。例えば、図3Aおよび図3Bは、EDRコーパスの抜粋を示す図である。図3Aおよび図3Bに示すように、「会場は熱気に包まれ、集会後、周辺路上でのデモ行進に移った。」という文においては、例えば、[main 5:包:3ce654]、[object 1:会場:3c0841]、[implement 3:熱気:102ab4]と書かれている。これは、「包(む)」という動作・イベントは「会場」に対しobject(目的)という関係を持ち、「熱気」に対しimplement(道具)という関係を持つことを示す。これは、「会場」を対象として「熱気」という道具がそれを包んでいることを表す。
図3Aおよび図3Bには示されていないが、関係には“cause”がある。たとえば、「お盆の帰省客を運ぶ航空便で混雑する真夏の空で、ヒヤリとする出来事が起きた。」という文には、次の表1(便宜的に「表」と呼ぶ。以下同様)に示すように意味情報が付与されている。
Figure 2009157791
これを見れば、「お盆の帰省客を運ぶ航空便」と「混雑」の間に“cause”という関係があることが分かる。また、EDRコーパスでは、同じ文に対し、次のようにそれぞれの単語に番号が割り振られている。
「/1:お盆/2:の/3:帰省/4:客/5:を/6:運/7:ぶ/8:航空便/9:で/10:混雑/11:する/12:真夏/13:の/14:空/15:で/16:、/17:ヒヤリと/18:する/19:出来事/20:が/21:起き/22:た/23:。/I#1://3:帰省/4:客//」
ここで、“cause”を構成する要素の単語番号(ここでは、1(お盆)、3(帰省)、4(客)、6(運)、8(航空便)を指す。なお、「帰省客」にはI#1という単語番号とは異なる複合語番号が振られており、それらは単語番号3と4によって構成されている。)を元に、それらを包含する単語(すなわち、1−8番の単語番号)を抜き出すと、「お盆の帰省客を運ぶ航空便」という文字列が得られる。ただし、以下に示すように、機能語を主要素とする表現パタンとして用いるためには文節を区切りとした表現の獲得が望ましいため、さらに同じ文を構文・依存構造解析器CaboChaなどのツールによって係り受け解析を行い、文節区切りを得る。文節区切りは次のようになる。「お盆の/帰省客を/運ぶ/航空便で/混雑する/真夏の/空で、/ヒヤリと/する/出来事が/起きた。」
このように得られた文節区切りを元に、「お盆の帰省客を運ぶ航空便」を含む文節を抜き出すと、「お盆の/帰省客を/運ぶ/航空便で」が対応し、最終的に「お盆の帰省客を運ぶ航空便で」を、原因を表す表現として獲得する。
さらに、ここで得られた表現に対して、形態素解析を行うことで、より抽象度の高い表現に変換する。現在の実装では、機能語(助詞、助動詞、非自立の名詞・動詞・形容詞、動詞−接尾)以外を、一つ以上の機能語の何にでもマッチすることが可能なアスタリスク記号(*)で置き換える。
例えば、「お盆の帰省客を運ぶ航空便で」は「*の*を*で」のようになる。このような処理を行うことで、例えば、EDRコーパスのすべての文から、394個の原因表現パタンを得て、原因表現パタン辞書14とすることができる。表2は、実際に得られた原因表現パタンの例である。頻出順に上位20パタンを示す。なお、空白(_)は形態素境界を表す。また、左端の数字はランク、右端の数字は出現頻度を示す。
Figure 2009157791
原因表現パタン辞書14の作成方法の2つ目は、統計的分析を用いる方法である。EDRコーパスのすべての文を、“cause”を意味情報に持つ文と持たない文に分ける。そして、“cause”を持つ文に特徴的に現れる表現を統計的分析によって獲得する。例えば、“cause”を持つ文にある表現E(例えば「〜で」「〜から」など)がN%、“cause”を持たない文に表現EがM%出現すると仮定する。その場合、例えば、NとMを比較し、Nの方が大きい場合、表現Eは原因を含む文に高頻度で現れると考えられるため、表現Eを原因表現とすればよい。あるいは、χ二乗検定などを用いて、ある表現Eがコーパス全体から計算される期待頻度よりも、統計的に有意に“cause”を持つ文に出現する場合、その表現Eを原因表現としてもよい。
このような処理を行う統計的分析ツールとして、今回BACTを用いる。BACTは、boosting(ブースティング)という機械学習手法をベースにして、木構造を分類できるように拡張した機械学習アルゴリズムである。BACTでは、“cause”を含む文の木構造にはラベルとして「+1」を付与し、“cause”を含まない文の木構造にはラベルとして「−1」を付与し、そのような複数の木構造を入力とし、どのような部分木の存在が、木構造全体を「+1」または「−1」とラベル付けされるために寄与しているかをboostingに基づき数値化する。なお、BACTの詳細については、例えば「Taku Kudo, Yuji Matsumoto, “A Boosting Algorithm for Classification of Semi-Structured Text”, Proc. EMNLP, pp.301-308, 2004.」に記載されている。
このBACTを用いた処理の流れは次の通りである。まず、それぞれの文について下記の処理1〜処理3を行い、木構造に変換する。また、図4に「Xは詐欺で逮捕された」を例文とした木構造への変換の流れを示す。
[処理1]
対象となる文を構文・依存構造解析器CaboChaにより解析する。依存構造は木として表現される。木のノードは単語である。
[処理2]
機能語(助詞、助動詞)以外の単語については、それぞれの品詞情報で置き換える。品詞情報のノードを品詞ノードと呼ぶ。
[処理3]
対象となる文をmorphとJTAGにより解析する。morphは、日英翻訳システムALT J/E に付属する言語解析器であり、文に含まれるそれぞれの単語に意味属性を付与することができる。また、JTAGも同様に、文に含まれるそれぞれの単語について用言意味カテゴリ、固有名詞カテゴリを付与することができる。この解析で得られた情報を使い、品詞ノードに対応する意味属性・用言意味カテゴリ・固有名詞カテゴリを子ノードとして追加する。もし、品詞ノードに対応する意味属性・用言意味カテゴリ・固有名詞カテゴリが存在しない場合、品詞ノードにおける品詞情報を単語情報に戻す(処理1の直後の状態にする)。
前記したように、“cause”を含む文の木構造にはラベルとして「+1」を付与し、“cause”を含まない文の木構造にはラベルとして「−1」を付与し、BACTの入力とする。木構造の変換では、機能語以外の単語品詞による置き換え(処理2)や意味属性・用言意味カテゴリ・固有名詞カテゴリの付与(処理3)を行っているが、これらは木の汎用性を高めるために行っている。
例えば、EDRコーパス中のすべての文をBACTにより分析し、752個の部分木を得て、原因表現パタン辞書14とすることができる。表3は、得られる部分木の上位20個を示したものである。
Figure 2009157791
表3において、左側の数値は各部分木についてBACTが割り振ったスコアであり、右側が文字列として表現された部分木である。ここで、スコアは、BACTが用いる学習手法(boosting)によって、各部分木に割り振られた重みのことを指す。
boostingは、弱学習器という精度の低い単純な分類器の出力を複数組み合わせることにより、より精度の高い分類ができるように学習する機械学習手法である。判定誤りの多い弱学習器には小さい重みを、判定誤りの少ない分類器には大きい重みを与える。また、BACTは、弱学習器として、最初は木構造中のある単純な性質の有無を用いるが、次第に大きな構造(部分木)の有無を利用していく。
表3において、例えば、「で 名詞-一般 N-1398)の」は、「で」←「名詞-一般」←「N-1398」、「名詞-一般」←「の」という親子関係を持つ部分木を表す。つまり、「〜の(N-1398という意味属性を持つ名詞)で〜」という表現に対応する。
なお、N、Vから始まるものは意味属性、用言意味カテゴリを表し、例えば、「N-1398:疑い」、「N-2455:理由」、「N-1265:驚き」、「N-2115:動揺」、「N-2558:忙」、「N-1259:苦しみ」、「N-1185:価格」、「V-31:感情動作」、という意味を表す。PNから始まるものは固有名詞カテゴリを表す。表3には現れていないが、例えば、「PN-87:公共機関名」や、「PN-123:乗り物名」などがある。
なお、図5はNから始まる木構造、図6はVから始まる木構造、図7はPNから始まる木構造、のそれぞれ抜粋を示す図である。
図1に戻って説明を続けると、原因表現特徴量抽出部21が原因表現特徴量を算出する際、前記した1つ目の方法では、コーパス12中の表現をそのまま用いて得られた394個の原因表現を集めた原因表現パタン辞書14を用い、解答候補が原因表現のそれぞれにマッチするかを表す394個のバイナリ特徴量を得る。例えば、「彼は詐欺で逮捕された」という解答候補は形態素解析をしてパタンにした結果、「_*_は_*_で_*_された」となり、「_で_」という原因表現があるため、「_で_」については「1」となる。「_の_*_によって_」については解答候補にないため「0」となる。
原因表現特徴量抽出部21が原因表現特徴量を算出する際、前記した2つ目の方法では、同様に、統計的分析を用いて得られた原因表現を集めた原因表現パタン辞書14を用い、解答候補を木構造に変換した後、原因表現パタン辞書14中の原因表現とされた部分木が解答候補にあれば「1」を、無ければ「0」とすることで、752個のバイナリ特徴量を得ることができる。
もし、予め人手で作成した原因表現がある場合、それらを原因表現パタン辞書14に組み込んで用いてもよい。その場合、解答候補が手動で作成された原因表現にマッチするかを「1」、「0」のバイナリ特徴量として表すことができる。
このようにして、原因表現特徴量抽出部21は、原因表現パタン辞書14に集められた原因表現による394個または752個のバイナリ特徴量と、手動で作成した原因表現に対応する1つのバイナリ特徴量を出力する。
続いて、因果関係表現特徴量抽出部22について詳述する。ここで、因果の表現対を集めた因果単語辞書13の例を表4に示す。
Figure 2009157791
表4において、左端は表現対の通し番号、その右は結果に対応する単語、右端は原因に対応する単語、をそれぞれ示す。形態素境界は‘+’で表現されている。例えば、「殺人」という原因に対し、「逮捕する」という結果があることが分かる。実際に、EDR単語辞書とEDR概念辞書から355641個の表現対を得、因果単語辞書13とすることができた。因果関係表現特徴量抽出部22は、質問文と解答候補をそれぞれ形態素解析し、質問文中の単語と解答候補中の単語の任意のペアのいずれかが因果単語辞書13に存在すれば「1」を、存在しなければ「0」を出力する。
次に、質問応答関連度特徴量抽出部23について詳述する。質問応答関連度特徴量抽出部23は、文類似度算出部231、文書類似度算出部232および類義語存在判定部233から構成され、特徴量として、次の3つの値を抽出(算出)する。
(コサイン距離)
文類似度算出部231は、質問文と解答候補の類似度として、文の類似度でよく用いられるコサイン距離を求める。質問文と解答候補のコサイン距離を求める場合、まず、質問文と解答候補に含まれている内容語をすべて抜き出し、質問文と解答候補において各内容語がいくつ含まれているかという頻度ベクトルを作成する。
例えば、質問文が「彼はなぜ逮捕されたか?」で、解答候補が「彼は詐欺で逮捕された」であるとする。この場合、質問文と解答候補に含まれる内容語は「彼」、「逮捕」、「詐欺」の3つである。したがって、質問文の頻度ベクトルx(本明細書において、記号「」はその直前の文字の上に付される記号であるものとする)=[1,1,0]、解答候補の頻度ベクトルy=[1,1,1]となる。コサイン距離は、この2つのベクトルの近さとして、次の式(1)によって算出することができる。なお、xおよびyはそれぞれのベクトルのi番目の成分を示す。
Figure 2009157791
(順位の逆数)
文書類似度算出部232は、文書抽出部6により付与される解答候補の順位の逆数を特徴量とする。
前記したコサイン距離は、単語の重複を元に類似度として算出されるため、単語が重複していないと高い数値とはならない。しかし、単語が重複していなくても、関連度は高い場合がある。例えば、質問文と解答候補の話題が近い場合、質問文と解答候補は関連が高いと考えられる。そこで、本実施形態では、解答候補が文書抽出部6によって何番目に出力されたかという順位の逆数を関連度として使うこととした。
ここで、この順位は、前記したDIDFの値に依存する。以下、DIDFの算出法について概説する。全文検索では、各検索単語に対してIDFという重みがしばしば利用される。IDFは、その検索単語が含まれる文書数の割合の逆数の対数である。つまり、検索語tが一度以上現れる文書の数をNt、全文書数をNとしたとき、log(N/Nt)で与えられる。本実施形態では、与えられた質問文から助詞や助動詞などの機能語と、誰、どこなどの疑問詞を削除し、残った単語を検索語とする。そして、各文書の特徴量として、その文書に一度以上現れる検索語のIDFの和を利用する。
同じ文書内に検索語が接近して現れているとすると、その現れたあたりに、質問に関する話題が語られていて、解答が書かれている可能性も高い。しかし、同じ文書内であっても、検索語がばらばらに現れていると、偶然検索語が入っていただけの可能性も高く、解答が見つかることはあまり期待できない。そこで、文書をひとかたまりとして評価するのではなく、文書内の検索語の分布を調べて、特徴量に反映させる方法の一つがDIDFである。
DIDFでは、文書のL語目からR語目までの区間[L,R]をパッセージと呼び、そのパッセージ中に含まれる検索語のIDFの和を求める。そして、その値に、パッセージの長さによる指数減衰項exp(-b(R-L))を乗算する。ここで、bはパラメータ(ここでは、小さな正の定数)であり、予め実験により最適な値(例えば「0.001」)を求めておく。
順位が上であるほど、DIDFの値は小さく、関連度が高い可能性がある。関連度が高いほど特徴量が大きな値となっているほうが処理上の都合がよいため、本実施形態ではDIDFの値による順位の逆数を特徴量とする。
(類義語関係の有無)
また、単語が重複していなくても関連度が高い場合として、異なる表現で類似した内容が表されている場合が考えられる。そこで、類義語存在判定部233は、類義語辞書15を参照し、質問文と解答候補に類義語がそれぞれ含まれているか否かに応じて特徴量を得るものとする。具体的には、質問文中の単語と解答候補の単語の任意の組み合わせについて、類義語の関係にあるものが1つでもあれば「1」、そうでなければ「0」という特徴量を得る。ここでは、類義語辞書15は、EDR単語辞書と同じ概念を持つ単語を対とすることで作成した。
表5は、類義語辞書15の例である。
Figure 2009157791
左端が通し番号で、その右が概念ID、右端が単語である。同じ概念IDを持つものを類義語として扱う。なお、類義語辞書15として公知のものを使ってもよい。
このように、質問応答関連度特徴量抽出部23は、コサイン距離、順位の逆数、および、類義語関係の有無、の3つの特徴量を出力する。
続いて、解答候補ランキング部8について詳述する。原因表現特徴量抽出部21、因果関係表現特徴量抽出部22、質問応答関連度特徴量抽出部23からそれぞれ得られる全部でN(((394または752)+1)+1+3)個の特徴量から、最終的な解答らしさの指標となる統合スコアを算出する。どのように統合すればよいかは必ずしも自明でないため、あらかじめ準備した質問・解答のセットである質問解答セット群16について、最も高い成績を導き出すようにそれぞれの重み(例えば各特徴量に乗算する係数)を機械学習の手法を用いて調整する。
まず、ランダムに選んだ新聞記事から原因を尋ねる質問文を文書処理の専門家に作成してもらい、文書抽出部6を用いてその質問文に関連する上位20個の文を抽出する。そして、抽出された文について解答かどうかを判断してもらい、最終的に質問文と解答文のセットを1000作成した。この1000セットをWHYQAコレクションと呼ぶ。
表6は、WHYQAコレクションからの抜粋である。
Figure 2009157791
表6では、000217262という記事番号の記事を元に作成された「なぜパンダは絶滅しそうなのか?」という質問について、4つの文が解答として選択された様子を示している。選択された文にはそれぞれ解答が含まれる記事の記事番号、行番号が付与されている。また、‘〔’と‘〕’の記号により、解答を特に述べていると思われる領域がマークされている。
WHYQAコレクションの中のそれぞれの質問文について、文書抽出部6を用いてその質問文に関連する上位20個の文を抽出し、それぞれの文を解答候補とし、特徴量を得る。そして、実際に解答であるものには「1」を、そうでないものには「0」を、ラベルとして付与する。さらに、特徴量の重み付け線形和について、「1」とラベル付けされた解答候補と「0」とラベル付けされた解答候補との順位が、「1」のものが「0」のものよりなるべく上位になるように重みを調整し、その重みの情報を重みテーブル17に格納する。
重みテーブル17について改めて詳述すると、まず、質問解答セット群16のうちの1つの質問解答セットを質問応答装置1に入力する。質問応答装置1は、文書抽出部6によって、文書群11から、入力された質問文に関連する上位20記事に含まれるすべての文を解答候補として抽出する。次に、複数の解答候補それぞれに対して、質問応答装置1のN個(399個など)の特徴量をそれぞれ算出する。そして、式(2)において、各特徴量の重み付けα〜αを用いて、複数の解答候補に対して重み付け線形和をそれぞれ求める。ここで、A〜AはN個の特徴量を示し、Scoreは統合スコアを示す。
Figure 2009157791
そして、特徴量の重み付け線形和について、「1」とラベル付けされた解答候補が「0」とラベル付けされた解答候補よりもなるべく上位になるように重み付けを調整し、その重み付けの情報を重みテーブル17に格納する。
なお、この重み付けの決定にはランキング最適化の手法であるランキングSVMを用いることが可能であり、本システムではJoachimによる実装であるSVM-1ightを用いる(Thorsten Joachims, “Optimizing Search Engines using Clickthrough Data” ,Proc. KDD pp.133-142,2002.参照)。
次に、質問応答装置1の動作について図8を参照しながら説明する。図8は、質問応答装置1の動作を示すフローチャートである。
まず、質問応答装置1は、外部から質問文が入力されると、質問タイプ判定部5によって、入力した質問文のタイプが、原因を問う質問(因果関係があるタイプ)と、固有表現を解答とした質問(ファクトイド型質問)とのいずれであるのかを判別する(ステップS1)。なお、ここでは説明を簡潔にするために、質問のタイプを前記の2つとした。
原因を問う質問(因果関係があるタイプ)である場合(ステップS1で「因果関係」)、質問応答装置1は、文書抽出部6によって、入力された質問文に関連する1以上の文書を文書群11から抽出する(ステップS2)。
ステップS2の後、質問応答装置1は、原因表現特徴量抽出部21による原因表現特徴量算出処理(ステップS3:詳細は図9で後記)、因果関係表現特徴量抽出部22による因果関係表現特徴量算出処理(ステップS4:詳細は図10で後記)、質問応答関連度特徴量抽出部23による質問応答関連度特徴量算出処理(ステップS5:詳細は図11で後記)を並行して行う。
なお、ステップS3〜ステップS5の処理は、このように並行して行うほか、任意の順序で行ってよい。
ステップS5の後、質問応答装置1は、解答候補ランキング部8によって、3種類の特徴量、すなわち、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、その統合スコアの上位N個の解答候補を、入力された質問文に対する応答として出力する(ステップS6)。出力された解答候補は、例えば、出力部3を経由して表示装置Dに表示される。
一方、固有表現を解答とした質問(ファクトイド型質問)であると判定された場合(ステップS1で「固有表現」)、質問応答装置1は、タイプ別モジュール群9に格納されたSAIQAシステムのモジュールを起動し、文書群11から抽出した解答を出力する(ステップS7)。出力された解答候補は、例えば、出力部3を経由して表示装置Dに表示される。
次に、図9〜図11を参照しながら、各特徴量の算出処理について説明する。
(原因表現特徴量算出処理)
図9は、原因表現特徴量算出処理を示すフローチャートである。質問応答装置1は、原因表現特徴量抽出部21によって、各解答候補について、次の処理を行う。まず、形態素解析によりパタン化を行う(ステップS91)。そして、原因表現パタン辞書14の各原因表現ごとに、解答候補パタン中にその原因表現があれば「1」を、その原因表現がなければ「0」を取得する(ステップS92)。ここで、図12は、特徴量の取得の様子を模式的に示す図である。図12に示すように、原因表現特徴量抽出部21は、原因表現パタン辞書14を用いて(N+1(手動パタン))個の原因表現特徴量を取得する。
(因果関係表現特徴量算出処理)
図10は、因果関係表現特徴量算出処理を示すフローチャートである。質問応答装置1は、因果関係表現特徴量抽出部22によって、まず、質問文を形態素解析して単語を抽出し(ステップS101)、その後、各解答候補について、次の処理を行う。まず、形態素解析により単語を抽出する(ステップS102)。そして、質問文の単語と解答候補の単語の任意の組み合わせが、因果単語辞書13のいずれかの表現対と合致すれば「1」を、合致しなければ「0」を取得する(ステップS103)。図12に示すように、因果関係表現特徴量抽出部22は、因果単語辞書13を用いて1個の因果関係表現特徴量を取得する。
(質問応答関連度特徴量算出処理)
図11は、質問応答関連度特徴量算出処理を示すフローチャートである。質問応答装置1は、質問応答関連度特徴量抽出部23によって、各解答候補について、次の処理を行う。まず、文類似度算出部231は、質問文とのコサイン距離を算出する(ステップS111)。続いて、文書類似度算出部232は、文書抽出部6によるDIDFに基づく質問文との関連度の順位の逆数を算出する(ステップS112)。その後、類義語存在判定部233は、質問文の単語と解答候補の単語の任意の組み合わせが、類義語辞書15のいずれかの表現対と合致すれば「1」を、合致しなければ「0」を取得する(ステップS113)。図12に示すように、質問応答関連度特徴量抽出部23は、類義語辞書15等を用いて3個の質問応答関連度特徴量を取得する。
このように、本実施形態の質問応答装置1によれば、原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を重みテーブル17に基づく重み付けで統合した統合スコアを算出することで、原因を問うタイプの質問に対する解答候補ランキングの精度を高めることができる。
また、機械学習の手法を導入することで、手書きのルールが不必要となり、システム構築コストの削減が期待できる。
なお、質問応答装置1を構成するコンピュータに実行させる質問応答プログラムを作成し、コンピュータにインストールすることにより、コンピュータは、その質問応答プログラムに基づいた各機能を実現することができる。また、その質問応答プログラムをCD(Compact Disc)、DVD(Digital Versatile Disc)等の種々の記録媒体に記録することができる。
(実験結果)
次に、図13および図14を参照しながら、本実施形態の質問応答装置1の手法による実験結果について説明する。図13は、本実施形態の質問応答装置1の手法による実験結果(「NAZEQA」と表記)と従来の手法による実験結果(「ベースライン」と表記)を示す比較表である。「NAZEQA」のうち、「ATS(abstracted text span:抽象化された原因表現の意)」は前記した1つ目の作成方法による原因表現パタン辞書14を使用した場合の実験結果であり、「BACT」は前記した2つ目の作成方法による原因表現パタン辞書14を使用した場合の実験結果である。また、「ベースライン」のうち、「COS」は質問文と解答候補のコサイン距離のみを用いた場合の実験結果であり、「FK」は非特許文献2による手動の原因表現を用いた場合の実験結果である。
図13において、解答候補として文を使用した場合の実験結果を上段に示し、解答候補として段落を使用した場合の実験結果を下段に示した。‘**’,‘*’はATS/BACTのFKに対する統計的有意差(‘**’はp<0.01,‘*’はp<0.05)、‘++’はFKのCOSに対する統計的有意差(p<0.01)、‘†’はBACTのATSに対する統計的有意差(p<0.05)を示す。
「ATS」の場合、解答候補を(394(手動原因表現なし)+1+3)個の特徴量で表現する。この評価は前記したWHYQAコレクションを用いて行った。また、特徴量統合重み調整の必要性から公知の「10-fold cross validation」の手法で値を算出した。
それぞれの方法で、上位1,5,10,20個の解答(文または段落)を出力させ、それぞれの場合のMean Reciprocal Rank(MRR:最も上位に存在する解答の順位の逆数の平均値)とカバレッジ(coverage:出力した上位N個の中に解答が存在した質問の割合)を算出した。
図13から分かるように、「ATS」の場合、MRRとcoverageの両方において、総じて、従来の手法よりも優れていることが確認できた。
また、「BACT」の場合、原因表現として752個の部分木を用いて評価を行った。評価には、「10-fold cross validation」を使用し、解答候補として文と段落の両方を使用した。その結果、図13から分かるように、例えば、解答候補として段落を使用した場合に上位5個のMRRが「BACT」は「0.325」となり「ATS」の「0.305」よりも評価結果が良く、また、「BACT」は「ATS」よりも総じて評価結果が良好であった。これは、依存構造や意味属性などを用いることにより、多様な情報を原因表現として扱うことができていることに起因していると考えられる。
図14は、前記した「ATS」と「BACT」に関して、使用する特徴量を変えた場合の実験結果を示す比較表である。各評価は、解答候補の上位5個から算出したMRRである。評価には公知の「2-fold cross validation」の手法を使用し、解答候補には文(Sent.)と段落(Para.)の両方を使用した。なお、「**」は、実験結果がすべての特徴量を使用した場合よりも有意(p<0.01)に劣っていることを示す。
図14に示すように、手動以外の原因表現特徴量がない場合と、コサイン距離による特徴量を用いない場合に、性能が大幅に低下することが分かった。これは、原因表現特徴量の有効性が示されたことの根拠の1つとなりえる。
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
例えば、原因表現特徴量、因果関係表現特徴量、質問応答関連度特徴量の各個数は、本実施形態で示された個数に限定されるものではない。
また、本実施形態では、タイプ別モジュール群9にSAIQAシステムを備えるものとしたが、これに限定されるものではなく、その他のファクトイド型質問応答システムのモジュールを備えるようにしてもよい。
さらに、定義型質問応答システムのモジュールや、手続きを問う質問に答えることのできる質問応答システムのモジュールを備えるようにしてもよい。
また、文書群11は、新聞記事に限定されるものではなく、例えば、電子化された各種雑誌、辞書、百科事典や専門書等の図書、ウェブ上の事典等で構成してもよい。
さらに、本実施形態では、コーパス12を日本語コーパスとしたが、言語はこれに限定されるものではなく、例えば、英語コーパス等で構成してもよい。
また、類義語辞書15の代わりに、同義語を集めた同義語辞書を用いてもよい。
さらに、質問応答関連度特徴量を算出する際、質問文とのコサイン距離、および、文書抽出部6が付与する質問文と解答候補の関連度に関する順位の逆数を使わずに、類義語辞書15に基づく質問文との間の類義語同士の存在の有無に基づく特徴量だけを使用してもよい。
その他、ハードウェア、ソフトウェアの具体的な構成について、本発明の主旨を逸脱しない範囲で適宜変更が可能である。
本実施形態に係る質問応答装置の構成を模式的に示す機能ブロック図である。 各辞書の作成に関する説明図である。 EDRコーパスの抜粋を示す図である。 EDRコーパスの抜粋を示す図である。 例文に関する木構造への変換の流れを示す図である。 Nから始まる木構造の抜粋を示す図である。 Vから始まる木構造の抜粋を示す図である。 PNから始まる木構造の抜粋を示す図である。 質問応答装置の動作を示すフローチャートである。 原因表現特徴量算出処理を示すフローチャートである。 因果関係表現特徴量算出処理を示すフローチャートである。 質問応答関連度特徴量算出処理を示すフローチャートである。 特徴量の取得の様子を模式的に示す図である。 本実施形態の質問応答装置と従来の手法との実験結果を示す比較表である。 使用する特徴量を変えた場合の実験結果を示す比較表である。
符号の説明
1 質問応答装置
4 記憶部
5 質問タイプ判定部
6 文書抽出部
7 解答抽出部
8 解答候補ランキング部
9 タイプ別モジュール群
11 文書群
12 コーパス
13 因果単語辞書
14 原因表現パタン辞書
15 類義語辞書
21 原因表現特徴量抽出部
22 因果関係表現特徴量抽出部
23 質問応答関連度特徴量抽出部

Claims (12)

  1. 質問とその解答との間に因果関係があるタイプの質問に応答する質問応答装置による質問応答方法であって、
    文書抽出部が、入力された質問文に関連する1以上の文書を、予め定められた文書群から抽出して解答候補とするステップを実行し、
    原因表現特徴量抽出部が、原因表現のパタンを集めた原因表現パタン辞書を参照して、前記解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出するステップ、
    因果関係表現特徴量抽出部が、原因と結果のペアを集めた因果単語辞書を参照して、前記解答候補ごとに、前記質問文との因果関係の度合いを表す因果関係表現特徴量を算出するステップ、
    質問応答関連度特徴量抽出部が、意味が同一または類似である単語のペアまたはグループを集めた類義語辞書を参照して、前記解答候補ごとに、前記質問文との間の内容の関連度を表す質問応答関連度特徴量を算出するステップ、
    のうちの少なくとも前記原因表現特徴量を算出するステップを実行し、
    解答候補ランキング部が、前記原因表現特徴量、前記因果関係表現特徴量、前記質問応答関連度特徴量のうち算出された特徴量を用いて統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力するステップを実行する
    ことを特徴とする質問応答方法。
  2. 前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスから、文内に含まれる構成要素間の関係を表す意味情報に基づいて抽出された原因を表す表現のパタンを複数格納した情報であり、
    前記原因表現特徴量を算出するステップにおいて、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
    ことを特徴とする請求項1に記載の質問応答方法。
  3. 前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスに含まれている文のうち、原因表現の存在しない文よりも原因表現の存在する文に統計的に多く現れる表現のパタンを複数格納した情報であり、
    前記原因表現特徴量を算出するステップにおいて、前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
    ことを特徴とする請求項1に記載の質問応答方法。
  4. 前記因果単語辞書は、単語間の関係が予め付与されている辞書から、因果関係を有する単語のペアを抽出して格納した情報であり、
    前記因果関係表現特徴量を算出するステップにおいて、前記因果関係表現特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記因果単語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記因果関係表現特徴量を算出する
    ことを特徴とする請求項1に記載の質問応答方法。
  5. 前記類義語辞書は、語義のラベルが予め付与されている辞書から、意味が同一または類似である単語のペアを抽出して格納した情報であり、
    前記質問応答関連度特徴量を算出するステップにおいて、前記質問応答関連度特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記類義語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記質問応答関連度特徴量を算出する
    ことを特徴とする請求項1に記載の質問応答方法。
  6. 質問とその解答との間に因果関係があるタイプの質問に応答する質問応答装置であって、
    入力された質問文に関連する1以上の文書を、予め定められた文書群から抽出して解答候補とする文書抽出部と、
    原因表現のパタンを集めた原因表現パタン辞書を参照して、前記解答候補ごとに、原因を表す表現が含まれている度合いを表す原因表現特徴量を算出する原因表現特徴量抽出部と、
    原因と結果のペアを集めた因果単語辞書を参照して、前記解答候補ごとに、前記質問文との因果関係の度合いを表す因果関係表現特徴量を算出する因果関係表現特徴量抽出部と、
    意味が同一または類似である単語のペアまたはグループを集めた類義語辞書を参照して、前記解答候補ごとに、前記質問文との間の内容の関連度を表す質問応答関連度特徴量を算出する質問応答関連度特徴量抽出部と、
    前記原因表現特徴量、因果関係表現特徴量および質問応答関連度特徴量を所定の重み付けで統合した統合スコアを算出し、前記解答候補のうち前記統合スコアの上位の所定数の文を、前記質問文に対する解答として出力する解答候補ランキング部と、
    を備えることを特徴とする質問応答装置。
  7. 前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスから、文内に含まれる構成要素間の関係を表す意味情報に基づいて抽出された原因を表す表現のパタンを複数格納した情報であり、
    前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
    ことを特徴とする請求項6に記載の質問応答装置。
  8. 前記原因表現パタン辞書は、分類用のラベルが予め付与されている単語で構成された複数の文を含むコーパスに含まれている文のうち、原因表現の存在しない文よりも原因表現の存在する文に統計的に多く現れる表現のパタンを複数格納した情報であり、
    前記原因表現特徴量抽出部は、前記解答候補ごとに、前記原因表現パタン辞書に格納された原因を表す表現のパタンのそれぞれが存在するか否かによって、前記原因表現特徴量を算出する
    ことを特徴とする請求項6に記載の質問応答装置。
  9. 前記因果単語辞書は、単語間の関係が予め付与されている辞書から、因果関係を有する単語のペアを抽出して格納した情報であり、
    前記因果関係表現特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記因果単語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記因果関係表現特徴量を算出する
    ことを特徴とする請求項6に記載の質問応答装置。
  10. 前記類義語辞書は、語義のラベルが予め付与されている辞書から、意味が同一または類似である単語のペアを抽出して格納した情報であり、
    前記質問応答関連度特徴量抽出部は、前記解答候補ごとに、前記質問文中の単語と前記解答候補中の単語の任意のペアのいずれかが前記類義語辞書に格納された単語のペアのいずれかと合致するか否かによって、前記質問応答関連度特徴量を算出する
    ことを特徴とする請求項6に記載の質問応答装置。
  11. 請求項6ないし請求項10のいずれか一項に記載の質問応答装置を構成するコンピュータに実行させることを特徴とする質問応答プログラム。
  12. 請求項11に記載の質問応答プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。
JP2007337336A 2007-12-27 2007-12-27 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体 Active JP5086799B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007337336A JP5086799B2 (ja) 2007-12-27 2007-12-27 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007337336A JP5086799B2 (ja) 2007-12-27 2007-12-27 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2009157791A true JP2009157791A (ja) 2009-07-16
JP5086799B2 JP5086799B2 (ja) 2012-11-28

Family

ID=40961720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007337336A Active JP5086799B2 (ja) 2007-12-27 2007-12-27 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP5086799B2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125286A1 (ja) * 2012-02-23 2013-08-29 独立行政法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
WO2013129195A1 (ja) * 2012-02-28 2013-09-06 日本電気株式会社 ファセット提示装置、ファセット提示方法およびコンピュータ読み取り可能な記録媒体
JP2013250653A (ja) * 2012-05-30 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> コンテンツ要約支援装置、方法、及びプログラム
KR101357804B1 (ko) 2012-10-24 2014-02-03 이동균 질의 답변 시스템 및 방법
JP2015132876A (ja) * 2014-01-09 2015-07-23 日本電信電話株式会社 モデル学習装置、フィルタ装置、方法、及びプログラム
KR20160026892A (ko) * 2013-06-27 2016-03-09 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 방법
WO2018066489A1 (ja) * 2016-10-07 2018-04-12 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US9946763B2 (en) 2014-11-05 2018-04-17 International Business Machines Corporation Evaluating passages in a question answering computer system
JP2018063696A (ja) * 2016-10-07 2018-04-19 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
CN109791569A (zh) * 2016-10-05 2019-05-21 国立研究开发法人情报通信研究机构 因果关系识别装置及用于其的计算机程序
CN109948143A (zh) * 2019-01-25 2019-06-28 网经科技(苏州)有限公司 社区问答系统的答案抽取方法
WO2019160152A1 (ja) * 2018-02-19 2019-08-22 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
CN110188190A (zh) * 2019-04-03 2019-08-30 阿里巴巴集团控股有限公司 对话解析方法、装置、服务器及可读存储介质
WO2020004136A1 (ja) * 2018-06-27 2020-01-02 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
WO2024004320A1 (ja) * 2022-06-30 2024-01-04 有限会社Bond 教育装置、教育方法及び記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219947A (ja) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> 因果関係知識抽出装置及びプログラム
JP2008282366A (ja) * 2007-05-14 2008-11-20 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219947A (ja) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> 因果関係知識抽出装置及びプログラム
JP2008282366A (ja) * 2007-05-14 2008-11-20 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697477B2 (en) 2012-02-23 2017-07-04 National Institute Of Information And Communications Technology Non-factoid question-answering system and computer program
KR20140128346A (ko) * 2012-02-23 2014-11-05 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
KR101968102B1 (ko) 2012-02-23 2019-04-11 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
WO2013125286A1 (ja) * 2012-02-23 2013-08-29 独立行政法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
WO2013129195A1 (ja) * 2012-02-28 2013-09-06 日本電気株式会社 ファセット提示装置、ファセット提示方法およびコンピュータ読み取り可能な記録媒体
JP2013250653A (ja) * 2012-05-30 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> コンテンツ要約支援装置、方法、及びプログラム
KR101357804B1 (ko) 2012-10-24 2014-02-03 이동균 질의 답변 시스템 및 방법
KR20160026892A (ko) * 2013-06-27 2016-03-09 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 방법
KR102256240B1 (ko) * 2013-06-27 2021-05-26 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 방법
JP2015132876A (ja) * 2014-01-09 2015-07-23 日本電信電話株式会社 モデル学習装置、フィルタ装置、方法、及びプログラム
US9946763B2 (en) 2014-11-05 2018-04-17 International Business Machines Corporation Evaluating passages in a question answering computer system
CN109791569B (zh) * 2016-10-05 2023-07-04 国立研究开发法人情报通信研究机构 因果关系识别装置及存储介质
CN109791569A (zh) * 2016-10-05 2019-05-21 国立研究开发法人情报通信研究机构 因果关系识别装置及用于其的计算机程序
JP2018063696A (ja) * 2016-10-07 2018-04-19 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
WO2018066489A1 (ja) * 2016-10-07 2018-04-12 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
WO2019160152A1 (ja) * 2018-02-19 2019-08-22 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
JP2019145102A (ja) * 2018-02-19 2019-08-29 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
WO2020004136A1 (ja) * 2018-06-27 2020-01-02 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
JP2020004045A (ja) * 2018-06-27 2020-01-09 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
JP7084617B2 (ja) 2018-06-27 2022-06-15 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
CN109948143A (zh) * 2019-01-25 2019-06-28 网经科技(苏州)有限公司 社区问答系统的答案抽取方法
CN110188190A (zh) * 2019-04-03 2019-08-30 阿里巴巴集团控股有限公司 对话解析方法、装置、服务器及可读存储介质
WO2024004320A1 (ja) * 2022-06-30 2024-01-04 有限会社Bond 教育装置、教育方法及び記録媒体

Also Published As

Publication number Publication date
JP5086799B2 (ja) 2012-11-28

Similar Documents

Publication Publication Date Title
JP5086799B2 (ja) 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
US20180341871A1 (en) Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
US8346795B2 (en) System and method for guiding entity-based searching
Ray et al. A review and future perspectives of arabic question answering systems
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
US20140067370A1 (en) Learning opinion-related patterns for contextual and domain-dependent opinion detection
Sharjeel et al. COUNTER: corpus of Urdu news text reuse
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
Santos et al. Measuring the impact of readability features in fake news detection
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Hussein Arabic document similarity analysis using n-grams and singular value decomposition
Sharoff Genre annotation for the web: text-external and text-internal perspectives
Massung et al. Non-native text analysis: A survey
Curtotti et al. Machine learning for readability of legislative sentences
Sakai et al. ASKMi: A Japanese Question Answering System based on Semantic Role Analysis.
Cook et al. Automatic identification of words with novel but infrequent senses
Bakari et al. Literature review of Arabic question-answering: modeling, generation, experimentation and performance analysis
Kahloula et al. Plagiarism Detection in Arabic Documents: Approaches, Architecture and Systems.
Saggion Automatic summarization: an overview
Han et al. Japanese sentence pattern learning with the use of illustrative examples extracted from the web
Thelwall Text characteristics of English language university web sites
Rodrigues et al. Rapport—a portuguese question-answering system
Olejniczak Using corpora to aid qualitative text analysis
Tedmori et al. Locating knowledge sources through keyphrase extraction
US20180349358A1 (en) Non-transitory computer-readable storage medium, information processing device, and information generation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120907

R150 Certificate of patent or registration of utility model

Ref document number: 5086799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350