JP4057962B2 - Question answering apparatus, question answering method and program - Google Patents

Question answering apparatus, question answering method and program Download PDF

Info

Publication number
JP4057962B2
JP4057962B2 JP2003188988A JP2003188988A JP4057962B2 JP 4057962 B2 JP4057962 B2 JP 4057962B2 JP 2003188988 A JP2003188988 A JP 2003188988A JP 2003188988 A JP2003188988 A JP 2003188988A JP 4057962 B2 JP4057962 B2 JP 4057962B2
Authority
JP
Japan
Prior art keywords
answer
document
character string
information
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003188988A
Other languages
Japanese (ja)
Other versions
JP2005025418A (en
Inventor
佳美 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003188988A priority Critical patent/JP4057962B2/en
Publication of JP2005025418A publication Critical patent/JP2005025418A/en
Application granted granted Critical
Publication of JP4057962B2 publication Critical patent/JP4057962B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザの入力した質問に対する回答を出力する質問応答装置、質問応答方法及びプログラムに関する。
【0002】
【従来の技術】
インターネットの検索エンジンに代表されるように、ユーザの検索要求に適合する文書を検索してランキングする技術が広く普及している。しかし、文書検索は、「…に関する新聞記事が読みたい」「…に関するWebページが見たい」といった検索要求を満足することはできるが、「○×社の社長は誰か?」「富士山の高さは?」「鯨は絶滅しかかっているか?」といった質問に対してダイレクトに答えを返すことができない。文書検索は、文書又は文書中のパッセージを出力するだけなので、ユーザは出力結果から自分で回答を探し出さなくてはならない。
【0003】
後者のような質問に対する回答を直接出力するものに、質問応答システムがある。質問応答システムは、「○×社の社長は誰か?」のような質問に対しては、○×社に関する文書(例えば○×社のホームページ)を出力するのではなく、○×社の社長の人名を出力し、「富士山の高さは?」のような質問に対しては「富士山は3776mです。」のような回答を出力する。
【0004】
このような質問応答システムが情報検索や情報抽出などの研究の発展形として近年注目を集めており、ユーザの質問に対してある程度ダイレクトな答えを返すことが可能になって来ている。例えば特許文献1のように、利用者の質問文に対して、ある程度ダイレクトな回答と、その回答が当該質問文に対する回答となっていることを利用者が確認できる根拠文書とを出力するようなシステムが知られている。この根拠文書とは、例えば、質問への回答をシステムが抽出した抽出源の文書のことである。ユーザは、根拠文書によりどの文書を根拠とした回答であるかを知ることができる。
【0005】
【特許文献1】
特開2002−132812公報
【0006】
【発明が解決しようとする課題】
上記のような根拠文書は、一つのこともあるが、一般的には複数存在し得る。従来の質問応答システムでは、根拠文書が複数存在する場合、全根拠文書を列挙して提示したり代表的な根拠文書を選択して提示したりするだけであった。しかし、ユーザが唯一つの質問に対する回答のみ欲することもあるが、一連の知識・情報を欲していることも少なくない。後者の場合、ある質問の回答に係る根拠文書中に、該回答の他にも有益な情報(例えばユーザが次以降にすべき他の質問に対する回答のような関連情報)が含まれているならば、ユーザは(例えば他の質問をせずとも)根拠文書を閲覧することで効率的な情報取得が可能になる。
【0007】
しかしながら、従来の質問応答システムでは、根拠文書中に存在する当該回答以外の情報に関する提示機能を提供することができなかった。例えば、根拠文書の評価方法として一般的に行われている、質問文中に含まれている検索キーワードとのマッチングの度合いに基づくような文書評価方法によっては、質問文に対する回答以外の情報としてどのような有益な情報が含まれているかを評価するのは困難である。また、例えば、根拠文書の要約を表示する方法では、質問内容に関わらず同じ要約が生成されるものや、元々の質問文に偏った要約が生成されるようなものしかなかった。
【0008】
本発明は、上記事情を考慮してなされたもので、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示を可能とする質問応答装置、質問応答方法及びプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明に係る質問応答装置は、複数の文書を記憶する第1のデータベースと、この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、自然言語による質問文を入力するための入力手段と、前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列に対応するカテゴリ情報を取得する取得手段と、前記回答文字列及び前記回答文字列以外の文字列に対応するカテゴリ情報を含む回答情報を出力する出力手段とを備えたことを特徴とする。
【0010】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0011】
本発明によれば、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示が可能になる。よって、本発明によれば、質問に対する回答が得られるとともに、例えば、根拠文書中に回答文字列の他にどのような情報が含まれているかを容易に把握することができるようになる。
【0012】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0013】
図1に、本発明の一実施形態に係る質問応答システムの構成例を示す。
【0014】
図1に示されるように、本質問応答システムは、入力部1、文書検索部2、回答種別判定部3、回答候補抽出部4、回答生成部5、根拠文書情報付加部6、出力部7を備えている。
【0015】
また、本質問応答システムは、文書データベース11、表現カテゴリデータベース12、回答候補データベース13、質問パターンデータベース14、根拠文書情報テーブル15を備えるようにしてもよい。
【0016】
なお、文書データベース11及び又は回答候補データベース13を備えない構成も可能である。例えば、これらデータベース11,13は、LANあるいはインターネット等のネットワークを介して接続されていて検索可能となっていてもよい。
【0017】
また、回答候補データベース13を備えない場合あるいは回答候補データベース13を備えるが、回答候補の内容をインターネット等のネットワークを介して外部から取得できる場合には、回答候補抽出部4及び表現カテゴリデータベース12を備えなくて構わない。
【0018】
図1の各部の概要は以下の通りである。
【0019】
入力部1は、質問文の入力を行う。
【0020】
文書検索部2は、入力された質問文に基づいて文書データベース11を検索し、得られた文書のスコアリングを行う。
【0021】
回答種別判定部3は、質問パターンデータベース14を用いて、入力された質問文の回答種別の判定を行う。
【0022】
回答候補抽出部4は、例えば表現カテゴリデータベース12を用いるなどして、文書データベース11に格納された検索対象文書から回答候補文字列の抽出を行い、回答候補文字列に対する回答カテゴリの付与を行って、回答候補情報を生成し、これを回答候補データベース13へ格納する。
【0023】
回答生成部5は、入力された質問文と、文書検索部2により得られた検索結果と、回答種別判定部3により得られた回答種別と、回答候補データベース13に格納されている回答候補情報とに基づいて、回答情報の生成を行う。
【0024】
根拠文書情報付加部6は、根拠文書情報テーブル15を用いて、回答生成部5により生成された回答情報に対して、根拠文書に関係する根拠文書情報の付加を行う。
【0025】
出力部7は、根拠文書情報を付加された回答情報の出力を行う。
【0026】
ここで、本質問応答システムを計算機を用いて実現する場合、入力部1及び出力部7は、ユーザインタフェースに相当し、例えば、キーボード、マウス、マイクロフォンなどの入力装置や、計算機ディスプレイやスピーカーなどの出力装置を用いて実現することができる。また、文書検索部2、回答種別判定部3、回答候補抽出部4、回答生成部5、根拠文書情報付加部6は、プログラムにより実現することができる。
【0027】
また、本質問応答システムをクライアント・サーバシステムとして実現する場合、例えば、当該構成要素のうち入力部1及び出力部7がクライアント計算機側に搭載され、それ以外の部分がサーバ計算機側に搭載される。
【0028】
以下では、具体例を用いながら本質問応答システムの処理の流れについて説明する。
【0029】
図2に、文書データベース11の一例を示す。この例は、各文書は、文書IDとタイトルとテキストを含んでいる。なお、○○○はある映画監督の氏名であり、XXX、YYY、ZZZ、WWWはいずれも○○○監督の映画作品のタイトルであるとする。
【0030】
ここで、回答候補抽出部4及び回答候補データベース13について説明する。
【0031】
まず、回答候補抽出部4を用いる場合には、予め回答候補抽出部4により、文書データベース11に登録されている検索対象文書をもとに回答候補情報を生成し、これを回答候補データベース13に保持しておく。回答候補抽出部4の処理については、いわゆる固有名詞抽出やオントロジータガーなどの公知の技術を用いて構わない。回答候補抽出においては、検索対象文書の表層表現に対して処理を行ってもよいし、形態素解析した結果に対して処理を行ってもよいし、構文・係り受け解析結果に対して処理を行ってもよい。
【0032】
回答候補抽出処理の一具体例を次に示す。まず、表現カテゴリデータベース12に、(回答候補文字列を検出するための情報、回答カテゴリ)の対が登録されている。例えば、“○○○監督”という語句を含む対象文書から、“○○○監督”を検出して“製作者”という回答カテゴリを付与すべき場合には、表現カテゴリデータベース12に、具体的な回答候補文字列を用いた(○○○監督、製作者)が登録されている。そして、回答候補抽出部4は、文書データベース11に登録されている検索対象文書(例えば、図2の文書ID=00050の文書)と、表現カテゴリデータベース12に登録されている表現(例えば、上記の(○○○監督、製作者)における○○○監督)とを比較して回答候補文字列(例えば、○○○監督)を抽出し、これに回答候補文字列を抽出した文書の文書ID(この例の場合、文書ID=00050)と抽出された回答候補文字列(この例の場合、○○○監督)に対応する回答カテゴリ情報(この場合、上記の(○○○監督、製作者)における製作者)を付与して、文書IDと回答候補文字列と回答カテゴリ情報とを含む回答候補情報を生成し、これを回答候補データベース13に保持しておく。なお、この例の場合においても、表現カテゴリデータベース12の形態は、種々のものが可能である。例えば、表現カテゴリデータベース12に、回答候補文字列が含むべき文字列を用いた(監督、製作者)を登録し、対象文書から“監督”を含む文字列“○○○監督”を抽出し、これに回答カテゴリ“製作者”を付与するようにしてもよい。また、例えば、表現カテゴリデータベース12に、(「*」、タイトル)を登録し(ここで、*は任意文字列を示すものとする)、対象文書から括弧に挟まれた“「XXX」”の文字列を検出し、この文字列から“「」”を省いた部分“XXX”を候補文字列とし、これに回答カテゴリ“タイトル”を付与するようにしてもよい。その他にも、種々の方法が可能である。
【0033】
図3に、図2の文書データベース11に格納された文書をもとに生成した回答候補情報を登録した回答候補データベース13の一例を示す。
【0034】
他方、回答候補抽出部4を用いず、かつ、外部から回答候補情報を取得して回答候補データベース13に登録しておく必要がある場合には、その作業を行っておく。
【0035】
また、回答候補抽出部4を用いず、かつ、外部から回答候補情報を取得して回答候補データベース13に登録しておく必要がない場合には、必要時に回答候補データベース13にアクセスすればよい。
【0036】
図4に、本質問応答システムの質問文入力から結果出力までの処理の流れの一例を示す。
【0037】
ユーザは、入力部1を介してテキストや音声などにより質問文を入力する。
【0038】
なお、音声入力を行った場合にも公知の音声認識技術により質問文をテキストデータに変換することが可能であるため(この場合には、例えば入力部1が該変換の機能を持てばよい)、以後、質問文がテキストデータとして得られている場合を例にとって説明を行う。
【0039】
入力部1は、ユーザからの質問文の入力を受けると、入力された質問文を、文書検索部2と回答種別判定部3と回答生成部5へ送る(ステップS1)。
【0040】
ここでは、“「YYY」の監督は誰ですか?”という質問文が入力されたものとする。
【0041】
文書検索部2は、入力部1から受け取った質問文をもとに文書データベース11の検索対象文書に対して検索を行い、得られた各文書の文書スコアを求め、文書スコアの順で上位のものから規定数(例えば、予め固定された数、あるいは適宜ユーザ指定された数など)だけ文書を選択し、選択された文書(根拠文書)の持つ文書ID及びその文書スコアを含む検索結果を、回答生成部5に送る(ステップS2)。なお、文書検索部2の処理には、公知の技術を用いて構わない。
【0042】
図5に、“「YYY」の監督は誰ですか?”という質問文をもとに図2の文書データベース11に格納された文書を検索した場合の出力結果の例を示す(この例では、文書スコアの値が大きいほど、質問文に適合していると評価されたものとする)。
【0043】
他方、この検索処理と前後して又は並行して、回答種別判定部3は、入力部1から受け取った質問文と、質問パターンデータベース14に登録されている表現とを比較して回答種別の判定を行い、その判定結果を含む回答種別情報を、回答生成部5へ送る(ステップS3)。なお、文書種別判定部3の処理については、公知の技術を用いて構わない(例えば、特開2002−132812参照)。
【0044】
図6に、質問パターンデータベース14の一例を示す。この例は、質問文に“いつ”が含まれている場合には、回答種別は“日時”であると判定し、質問文に“誰”が含まれている場合には、回答種別は“人名”であると判定し、質問文に“どこ”が含まれている場合には、回答種別は“場所”であると判定するものである。
【0045】
図7に、“「YYY」の監督は誰ですか?”という質問文をもとに、図6の質問パターンデータベース14により回答種別を判定した結果の例を示す。この場合、質問文中の“誰”によって、回答種別は“人名”であると判定される。
【0046】
さて、回答生成部5は、回答種別判定部3から送られてきた回答種別情報を、予め定められた展開規則に基づき1又は複数の回答カテゴリ情報に展開し、この展開によって得られた複数の回答カテゴリ情報と、文書検索部2から送られてきた検索結果に含まれる文書IDとをキーとして、回答候補データベース13を検索し、回答候補情報を得る(ステップS4)。更に回答生成部5は、このステップS4ではさらに、得られた回答候補情報のうち表層文字列が同じものをマージし、回答文字列と回答カテゴリ情報と根拠文書の文書IDとを含む回答情報(質問文及び文書スコアを含んでもよい)を作成し、回答情報を根拠文書情報付加部6へ送る。
【0047】
上記展開規則とは、例えば、回答種別情報と、この回答種別情報を展開すべき1又は複数の回答カテゴリ情報とを対応付けて定義したものである。例えば、回答種別情報“場所”は回答カテゴリ情報“国名”“地名”“出身地”に展開し、回答種別情報“日時”は回答カテゴリ情報“年”“日付”“時刻”に展開し、回答種別情報“人名”は回答カテゴリ情報“人名”に展開するというような規則である。
【0048】
上記具体例では、回答種別は“人名”と判定されるので、これに上記の例のような展開規則を適用すると、回答カテゴリ情報“人名”に展開されることになる。
【0049】
また、上記具体例において、回答生成部5が、上記の展開によって得られた回答カテゴリ情報“人名”と、文書検索部2から送られてきた検索結果に含まれる文書ID=00050、00201、または00560とをキーとして、回答候補データベース13を検索する。この際、回答生成部5は、例えば、回答カテゴリ情報“人名”と回答カテゴリ情報“制作者”とがマッチすることを示す知識情報を有しており、この結果、回答カテゴリ情報“人名”を持つ回答候補情報だけでなく、回答カテゴリ情報“制作者”を持つ回答候補情報も抽出されることになる。
【0050】
図8に、上記の具体例の場合に回答生成部5により得られる回答候補情報の一例を示す。また、図9に、この場合に回答生成部5から根拠文書情報付加部6に送られる回答情報の一例を示す(図9では質問文は省略している)。
【0051】
なお、上記では、回答種別情報“人名”を回答カテゴリ情報“人名”に展開し、検索の段階では、展開された回答カテゴリ情報“人名”をもとに検索するだけでなく、回答カテゴリ情報“人名”と回答カテゴリ情報“制作者”とがマッチするという知識を用いた。本発明はこれに代え、回答種別情報“人名”を回答カテゴリ情報“制作者”等に展開し、検索では、上記規則は用いずに、展開された回答カテゴリ情報“制作者”等をもとに検索するようにしてもよい。
【0052】
次に、根拠文書情報付加部6は、回答生成部5から受け取った回答情報、回答候補データベース13に保持されている回答候補情報、文書データベース11に保持されている文書情報をもとに、根拠文書が持っている関連情報に関するデータを生成して根拠文書情報テーブル15に記録する。根拠文書情報付加部6は、この記録したデータと、回答生成部5から受け取った回答情報とをもとに、回答情報と根拠文書情報とを含む提示情報を生成し、これを出力部7へ送る(ステップS5)。
【0053】
ここで、根拠文書情報付加部6の処理について、より詳しく説明する。
【0054】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、この情報をカテゴリ情報毎に計数した個数とともに根拠文書情報テーブル15に記録する。
【0055】
図10に、本具体例の場合における根拠文書情報テーブル15の一例を示す。
【0056】
最後に、出力部7は、根拠文書情報付加部6より受け取った情報に基づき、質問文とそれに対する回答と根拠文書情報との出力を行う(ステップS6)。
【0057】
図11に、本具体例の場合において、出力部7より表示された表示画面の一例を示す。この例では、質問文の内容“「YYY」の監督は誰ですか?”と、これに対する回答“○○○監督”の他に、根拠文書情報が表示されている。なお、図11の根拠文書情報では、3つの根拠文書を、その文書スコアの順に並べた例を示している(図5参照)。また、各根拠文書情報における“他情報”は、図10の回答カテゴリ情報及び当該カテゴリが付された文書の個数を提示したものである。例えば、文書(1)では“他情報”がないことが示され、文書(2)では“他情報”は回答カテゴリ情報“タイトル”,“出身地”,“年”を持つものがそれぞれ3個,1個,1個存在することが示され、文書(3)では“他情報”は回答カテゴリ情報“タイトル”を持つものが1個存在することが示されている。
【0058】
なお、図11では、3つの根拠文書を、その文書スコアの順に並べた例を示したが、その他の基準によって順に並べるようにしてもよい。例えば、後で説明する評価点の順に並べて提示するようにしてもよい(この場合、例えば、文書IDが、00210、00050、00560の順で文書が並べられる(図13参照))。
【0059】
また、図11において、例えば、根拠文書のタイトル情報をマウスで選択し、あるいは根拠文書の順位番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしてもよい。
【0060】
また、図11では、全ての根拠文書について、そのタイトル情報と他情報のみを表示したが、例えば、(文書スコアあるいは評価点などで)第1順位の根拠文書については(あるいは、第1順位から予め定められた順位までの根拠文書については)、タイトル情報と他情報に代えて又はタイトル情報と他情報とともに、当該根拠文書の内容を表示するようにしてもよい。
【0061】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に、当該回答の他にどのような情報が含まれているかを提示するので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。
【0062】
さて、以下では、根拠文書情報付加部6の処理及び出力部7による出力方法の他の例について説明する。
【0063】
(第1の変形例)
まず、第1の変形例について説明する。
【0064】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、これを根拠文書情報テーブル15に記録する。以上は、既に説明した例と同様である(図10参照)。
【0065】
次に、根拠文書情報付加部6は、根拠文書評価パターンデータベース(図示せず)に登録されているルールに基づいて、各根拠文書に対する評価点を求め、これを、根拠文書情報テーブル15に記録する。
【0066】
図12に、根拠文書評価パターンデータベースに登録されている情報の一例を示す。回答カテゴリ(1)は、回答情報に係る回答カテゴリ情報であり(図9参照)、回答カテゴリ(2)は、根拠文書情報テーブル15における各回答カテゴリ情報であり(図11参照)、点数は、当該回答カテゴリ(1)と回答カテゴリ(2)の組合せの場合に評価点に加算する点数である。評価点の計算処理では、例えば、各根拠文書について、図12のルールのうち、該当するルールに係る点数を全て加算した値が、求める評価点となる。例えば、本具体例のように質問文に対する回答情報に係る回答カテゴリ情報が“制作者”であり、根拠文書情報テーブル15の内容が図10のようである場合、各根拠文書の評価点を付加された根拠文書情報テーブル15の内容は、例えば、図13のようになる。
【0067】
この場合、出力部7は、根拠文書に付与された評価点に基づいて、根拠文書情報に関する提示を行う。
【0068】
図14に、この場合の一例を示す。この例では、最も高い評価点を持つ第1順位の根拠文書(本例では、図2における文書ID=00210の文書)のみについて、その内容を提示し、他の文書については、それが2つ存在することのみを提示している。なお、他の文書については、例えば、他の文書の番号をマウスで選択し、あるいは番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしている。例えば、番号1を選択すると、第2順位の評価点を持つ根拠文書(本例では、図2における文書ID=00050の文書)の内容が表示される。
【0069】
なお、上記では、最も高い評価点を持つ第1順位の根拠文書(本例では、図2における文書ID=00210の文書)のみについて、その内容を提示したが、第1順位から予め定められた順位までの根拠文書について、その内容を提示するようにしてもよい。
【0070】
なお、図14では、内容を提示する根拠文書以外の根拠文書については、具体的な情報は何も提示しなかったが、例えば、図11のように、そのタイトル情報と他情報を表示するようにしてもよい。もちろん、この場合にも、例えば、根拠文書のタイトル情報をマウスで選択し、あるいは根拠文書の順位番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしてもよい。
【0071】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に、当該回答の他に関連する情報が多く含まれると判断される文書を優先して表示することができるので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。そして、当該根拠文書中に知りたい情報が含まれていれば、新たな質問文を入力して検索等を行うことなく、当該根拠文書を閲覧するだけで、当該知りたい情報を得ることができる。
【0072】
(第2の変形例)
次に、第2の変形例について説明する。
【0073】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、これを根拠文書情報テーブル15に記録する。以上は、既に説明した例と同様である(図10参照)。
【0074】
次に、根拠文書情報付加部6は、根拠文書情報テーブル15に登録されている回答カテゴリの類似性に基づいて根拠文書を分類し、その分類結果を根拠文書情報テーブル15に反映させる(例えば、根拠文書情報テーブル15の各根拠文書に対して、それが属する分類に関する情報を付加する)。なお、分類方法については、公知の技術を用いて構わない。
【0075】
例えば、図10の根拠文書情報テーブル15の場合に、文書分類1は、回答カテゴリ“タイトル”に係る回答候補を含む根拠文書(文書ID=00210、00050)の属する分類、文書分類2は、回答カテゴリ“出身地”に係る回答候補を含む根拠文書(文書ID=00210)の属する分類、文書分類3は、回答カテゴリ“年”に係る回答候補を含む根拠文書(文書ID=00210)の属する分類となり、根拠文書情報テーブル15においては、文書ID=00210の根拠文書には、文書分類1、文書分類2、文書分類3を示す情報が付加され、文書ID=00050の根拠文書には、文書分類1を示す情報が付加される(文書ID=00560の根拠文書には、分類に関する情報は付加されないか、またはそれが属する分類がないことを示す情報が付加される)。
【0076】
この場合、出力部7は、根拠文書に付与された分類に関する情報に基づいて、根拠文書情報に関する提示を行う。
【0077】
図15に、この場合の一例を示す。この例では、各分類を、それに属する根拠文書数の多い順に、その分類に係る回答カテゴリとその分類に属する根拠文書のタイトルとを提示している。
【0078】
なお、図15において、各文書分類において、各根拠文書ごとに、それに含まれる当該回答カテゴリに係る回答候補情報の個数を提示するようにしてもよい。例えば、文書分類1のタイトル“YYY”の根拠文書(文書ID=00210)には、回答カテゴリ“タイトル”を持つ回答候補情報が3個存在するので(図10参照)、“YYY(3)”のように、当該文書分類の当該根拠文書のタイトルの表示の横に個数を表示するなどしてもよい。
【0079】
また、例えば、図15において、(文書スコアあるいは評価点などで)第1順位の根拠文書については(あるいは、第1順位から予め定められた順位までの根拠文書については)、当該根拠文書の内容を表示するようにしてもよい。
【0080】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に存在する当該回答の他に関連する情報によって根拠文書を分類して表示することができるので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。そして、当該根拠文書中に知りたい情報が含まれていれば、新たな質問文を入力して検索等を行うことなく、当該根拠文書を閲覧するだけで、当該知りたい情報を得ることができる。
【0081】
なお、以上説明した根拠文書情報付加部6の処理及び出力部7による出力方法の各バリエーションは適宜組み合わせて実施可能である。また、根拠文書情報付加部6の処理及び出力部7による出力方法として、複数のものを用意しておき、ユーザがいずれを使用するかを設定可能にしてもよい。
【0082】
また、以上の説明において、検索対象文書は、プレーンテキストとして示したが、XML文書のように予めタグ付けされた文書でも、同様に実施可能である。この場合、回答カテゴリの情報として予めタグ付けされた情報を用いることも可能である。
【0083】
また、以上の説明において、回答種別と回答カテゴリとは1対多対応のものと定義したが、回答種別と回答カテゴリとが同じ名前である場合や、回答種別と回答カテゴリとが多対多対応又は多対1対応の場合でも、同様に実施可能である。
【0084】
また、以上の説明において、回答カテゴリとして“人名”,“地名”のような上位概念タグを用いたが、“定義表現”,“手段表現”のようなメタ概念をタグとして用いた場合にも、同様に実施可能である。
【0085】
また、以上の説明において、形態素解析や構文解析の手段を特に明示的に用いることはなかったが、各処理においてこれらの手段を用いた場合にも、同様に実施可能である。この場合、形態素解析辞書へのカテゴリ属性の付与や、構文パターンマッチによるカテゴリ同定を行うことも可能である。
【0086】
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
【0087】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0088】
【発明の効果】
本発明によれば、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示が可能になる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る質問応答システムの構成例を示す図
【図2】 文書データベースの情報の一例を示す図
【図3】 回答候補データベースの情報の一例を示す図
【図4】 同実施形態に係る質問応答システムの処理手順の一例を示すフローチャート
【図5】 検索結果の一例を示す図
【図6】 質問パターンデータベースの情報の一例を示す図
【図7】 回答種別判別結果の一例を示す図
【図8】 抽出された回答候補情報の一例を示す図
【図9】 回答文字列と回答カテゴリと根拠文書の文書IDを含む回答情報の一例を示す図
【図10】 根拠文書情報テーブルの一例を示す図
【図11】 提示情報の表示例を示す図
【図12】 根拠文書評価パターンデータベースの情報の一例を示す図
【図13】 根拠文書情報テーブルの他の例を示す図
【図14】 提示情報の表示例を示す図
【図15】 提示情報の表示例を示す図
【符号の説明】
1…入力部、2…文書検索部、3…回答種別判定部、4…回答候補抽出部、5…回答生成部、6…根拠文書情報付加部、7…出力部、11…文書データベース、12…表現カテゴリデータベース、13…回答候補データベース、14…質問パターンデータベース、15…根拠文書情報テーブル
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a question answering apparatus, a question answering method, and a program for outputting an answer to a question inputted by a user.
[0002]
[Prior art]
As represented by Internet search engines, techniques for searching and ranking documents that match user search requests are widely used. However, the document search can satisfy search requests such as “I want to read newspaper articles about…” or “I want to see a web page about…”, but “Who is the president of XX?” Can't answer directly to questions such as "Whales are going to be extinct?" Since the document search only outputs a document or a passage in the document, the user must search for an answer from the output result.
[0003]
There is a question answering system that directly outputs an answer to a question like the latter. The question answering system does not output a document about XX company (for example, XX company's website) to a question such as "Who is XX company president?" A person's name is output, and an answer such as “Mt. Fuji is 3776 m” is output to a question such as “How tall is Mt. Fuji?”.
[0004]
Such a question answering system has recently attracted attention as a development form of research such as information retrieval and information extraction, and it has become possible to return a direct answer to a user's question to some extent. For example, as in Patent Document 1, a direct response to a certain degree to a user's question text and a rationale document that allows the user to confirm that the answer is an answer to the question text are output. The system is known. The basis document is, for example, a source document from which the system has extracted answers to questions. The user can know which document is the answer based on the basis document.
[0005]
[Patent Document 1]
JP 2002-132812 A
[0006]
[Problems to be solved by the invention]
There may be only one evidence document as described above, but generally there may be a plurality of documents. In the conventional question answering system, when there are a plurality of ground documents, all the ground documents are listed and presented, or representative ground documents are selected and presented. However, the user may want only an answer to a single question, but often desires a series of knowledge and information. In the latter case, if the rationale document relating to the answer of a certain question contains useful information (eg, related information such as answers to other questions that the user should do afterwards) in addition to the answer For example, the user can efficiently acquire information by browsing the rationale document (for example, without asking other questions).
[0007]
However, the conventional question answering system cannot provide a presentation function related to information other than the answer existing in the ground document. For example, depending on the document evaluation method that is based on the degree of matching with a search keyword included in a question sentence, which is generally used as an evaluation method for a ground document, how information other than the answer to the question sentence is displayed. It is difficult to evaluate whether useful information is included. In addition, for example, in the method of displaying the summary of the ground document, there are only ones in which the same summary is generated regardless of the content of the question, or a summary that is biased toward the original question sentence is generated.
[0008]
The present invention has been made in consideration of the above circumstances, and in presenting a response to a question sentence, a question answering apparatus, a question answering method, and a program capable of presenting in consideration of information included in the basis document. The purpose is to provide.
[0009]
[Means for Solving the Problems]
A question answering apparatus according to the present invention includes a first database that stores a plurality of documents, a character string that can be an answer candidate included in the document for each document stored in the first database, Based on the second database for storing category information indicating categories as character string answer candidates in association with each other, input means for inputting a question sentence in natural language, and the first sentence based on the question sentence. A search means for searching a database; an extraction means for extracting an answer character string as an answer to the question sentence from the document searched by the search means; and the search means by referring to the second database. Acquisition means for acquiring category information corresponding to a character string other than the answer character string included in the basis document that is the document including the answer character string among the retrieved documents , Characterized in that an output means for outputting the response information including the category information corresponding to the character string other than the answer string and the reply string.
[0010]
The present invention relating to the apparatus is also established as an invention relating to a method, and the present invention relating to a method is also established as an invention relating to an apparatus.
Further, the present invention relating to an apparatus or a method has a function for causing a computer to execute a procedure corresponding to the invention (or for causing a computer to function as a means corresponding to the invention, or for a computer to have a function corresponding to the invention. It is also established as a program (for realizing) and also as a computer-readable recording medium on which the program is recorded.
[0011]
According to the present invention, when an answer to a question sentence is presented, it is possible to present the information in consideration of information included in the basis document. Therefore, according to the present invention, an answer to the question can be obtained, and for example, what information is included in the basis document in addition to the answer character string can be easily grasped.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the invention will be described with reference to the drawings.
[0013]
FIG. 1 shows a configuration example of a question answering system according to an embodiment of the present invention.
[0014]
As shown in FIG. 1, the question answering system includes an input unit 1, a document search unit 2, an answer type determination unit 3, an answer candidate extraction unit 4, an answer generation unit 5, an evidence document information addition unit 6, and an output unit 7. It has.
[0015]
The question answering system may include a document database 11, an expression category database 12, an answer candidate database 13, a question pattern database 14, and a rational document information table 15.
[0016]
A configuration without the document database 11 and / or the answer candidate database 13 is also possible. For example, these databases 11 and 13 may be connected to each other via a network such as a LAN or the Internet and be searchable.
[0017]
If the answer candidate database 13 is not provided or the answer candidate database 13 is provided, but the contents of the answer candidates can be acquired from the outside via a network such as the Internet, the answer candidate extraction unit 4 and the expression category database 12 are provided. You do n’t have to.
[0018]
The outline of each part in FIG. 1 is as follows.
[0019]
The input unit 1 inputs a question sentence.
[0020]
The document search unit 2 searches the document database 11 based on the inputted question sentence, and scores the obtained document.
[0021]
The answer type determination unit 3 uses the question pattern database 14 to determine the answer type of the input question sentence.
[0022]
The answer candidate extraction unit 4 extracts an answer candidate character string from a search target document stored in the document database 11 using, for example, the expression category database 12 and assigns an answer category to the answer candidate character string. , Answer candidate information is generated and stored in the answer candidate database 13.
[0023]
The answer generation unit 5 receives the input question text, the search result obtained by the document search unit 2, the answer type obtained by the answer type determination unit 3, and the answer candidate information stored in the answer candidate database 13. Based on the above, response information is generated.
[0024]
The basis document information adding unit 6 uses the basis document information table 15 to add the basis document information related to the basis document to the response information generated by the response generation unit 5.
[0025]
The output unit 7 outputs the answer information to which the ground document information is added.
[0026]
Here, when this question answering system is realized using a computer, the input unit 1 and the output unit 7 correspond to a user interface. For example, an input device such as a keyboard, a mouse, and a microphone, a computer display, a speaker, and the like. It can be realized using an output device. Further, the document search unit 2, the response type determination unit 3, the response candidate extraction unit 4, the response generation unit 5, and the rational document information addition unit 6 can be realized by a program.
[0027]
Further, when the question answering system is realized as a client / server system, for example, the input unit 1 and the output unit 7 among the components are mounted on the client computer side, and other parts are mounted on the server computer side. .
[0028]
Hereinafter, the flow of processing of the question answering system will be described using a specific example.
[0029]
FIG. 2 shows an example of the document database 11. In this example, each document includes a document ID, a title, and text. XX is the name of a movie director, and XXX, YYY, ZZZ, and WWW are all titles of a movie work directed by XXX.
[0030]
Here, the answer candidate extraction unit 4 and the answer candidate database 13 will be described.
[0031]
First, when the answer candidate extraction unit 4 is used, the answer candidate extraction unit 4 generates answer candidate information based on a search target document registered in the document database 11 in advance, and stores the answer candidate information in the answer candidate database 13. Keep it. About the process of the answer candidate extraction part 4, you may use well-known techniques, such as what is called a proper noun extraction and ontology tagger. In answer candidate extraction, processing may be performed on the surface representation of the search target document, processing may be performed on the result of morphological analysis, or processing may be performed on the result of syntax and dependency analysis. May be.
[0032]
A specific example of the answer candidate extraction process is shown below. First, a pair of (information for detecting an answer candidate character string, answer category) is registered in the expression category database 12. For example, when “XX Director” is detected from the target document including the phrase “XXX Director” and an answer category “producer” is to be assigned, the expression category database 12 stores the specific category. The answer candidate character string (director, producer, producer) is registered. Then, the answer candidate extraction unit 4 searches for the search target document registered in the document database 11 (for example, the document with document ID = 0000000 in FIG. 2) and the expression registered in the expression category database 12 (for example, the above-described document). (XX director, producer) compared to XX director), extract the answer candidate character string (for example, XXX director), and extract the answer candidate character string to the document ID ( In this example, document ID = 000050) and answer category information corresponding to the extracted answer candidate character string (in this example, XXX director) (in this case, (XX director, producer) above) Is created, and answer candidate information including a document ID, answer candidate character string, and answer category information is generated and stored in the answer candidate database 13. Even in the case of this example, the form of the expression category database 12 can be various. For example, in the expression category database 12, a character string that should be included in the answer candidate character string (director, producer) is registered, and a character string “XXX director” including “director” is extracted from the target document. An answer category “producer” may be assigned thereto. Also, for example, (“*”, title) is registered in the expression category database 12 (where * indicates an arbitrary character string), and “XXX” ”enclosed in parentheses from the target document. A character string may be detected, and a portion “XXX” obtained by omitting ““ ”from the character string may be used as a candidate character string, and an answer category“ title ”may be assigned thereto. Is possible.
[0033]
FIG. 3 shows an example of the answer candidate database 13 in which the answer candidate information generated based on the documents stored in the document database 11 of FIG. 2 is registered.
[0034]
On the other hand, if it is necessary not to use the answer candidate extraction unit 4 and to acquire answer candidate information from the outside and register it in the answer candidate database 13, this work is performed.
[0035]
Further, when it is not necessary to obtain the answer candidate information from the outside and register it in the answer candidate database 13 without using the answer candidate extraction unit 4, the answer candidate database 13 may be accessed when necessary.
[0036]
FIG. 4 shows an example of the flow of processing from question text input to result output of the question answering system.
[0037]
The user inputs a question sentence by text or voice via the input unit 1.
[0038]
In addition, since it is possible to convert a question sentence into text data by a well-known voice recognition technique even when voice input is performed (in this case, for example, the input unit 1 may have a function of the conversion). Hereinafter, the case where the question sentence is obtained as text data will be described as an example.
[0039]
When receiving an input of a question sentence from the user, the input unit 1 sends the input question sentence to the document search unit 2, the answer type determination unit 3, and the answer generation unit 5 (step S1).
[0040]
Here, who is the director of “YYY”? ”Is entered.
[0041]
The document search unit 2 searches the search target document in the document database 11 based on the question sentence received from the input unit 1, obtains the document score of each obtained document, and ranks higher in the document score order. Select a document from a specified number (for example, a fixed number or a user-specified number as appropriate), and search results including the document ID and document score of the selected document (foundation document), The data is sent to the answer generation unit 5 (step S2). A known technique may be used for the processing of the document search unit 2.
[0042]
In Figure 5, “Who is the director of“ YYY ”? 2 shows an example of an output result when a document stored in the document database 11 of FIG. 2 is searched based on the question sentence “(In this example, the larger the document score value, the more suitable the question sentence is. ).
[0043]
On the other hand, before or after or in parallel with this search processing, the answer type determination unit 3 compares the question text received from the input unit 1 with the expressions registered in the question pattern database 14 to determine the answer type. The response type information including the determination result is sent to the response generation unit 5 (step S3). Note that a known technique may be used for the processing of the document type determination unit 3 (for example, see JP-A-2002-132812).
[0044]
FIG. 6 shows an example of the question pattern database 14. In this example, when “when” is included in the question sentence, it is determined that the answer type is “date and time”, and when “who” is included in the question sentence, the answer type is “ It is determined that it is “person name”, and when “where” is included in the question sentence, it is determined that the answer type is “location”.
[0045]
In Figure 7, “Who is the director of“ YYY ”? 6 shows an example of the result of determination of the answer type by the question pattern database 14 of FIG. 6. In this case, the answer type is determined to be “person name” by “who” in the question text. The
[0046]
Now, the response generation unit 5 expands the response type information sent from the response type determination unit 3 into one or a plurality of response category information based on a predetermined expansion rule, and a plurality of response category information obtained by this expansion. Using the answer category information and the document ID included in the search result sent from the document search unit 2 as a key, the answer candidate database 13 is searched to obtain answer candidate information (step S4). Further, in step S4, the answer generating unit 5 further merges the obtained answer candidate information having the same surface character string, and includes answer information including the answer character string, the answer category information, and the document ID of the basis document ( A question sentence and a document score may be included), and the response information is sent to the ground document information adding unit 6.
[0047]
The expansion rule is defined, for example, by associating response type information with one or a plurality of response category information to be expanded. For example, the response type information “location” is expanded to the response category information “country name”, “place name”, “hometown”, and the response type information “date” is expanded to the response category information “year” “date” “time”. The type information “person name” is a rule that expands to answer category information “person name”.
[0048]
In the above specific example, the answer type is determined to be “person name”. Therefore, if the development rule as in the above example is applied to this, the answer category information “person name” is developed.
[0049]
In the above specific example, the answer generation unit 5 receives the answer category information “person name” obtained by the above expansion and the document ID = 0000000, 00201 included in the search result sent from the document search unit 2 or The answer candidate database 13 is searched using 00560 as a key. At this time, the answer generation unit 5 has, for example, knowledge information indicating that the answer category information “person name” matches the answer category information “producer”. As a result, the answer category information “person name” is obtained. In addition to the answer candidate information possessed, answer candidate information having the answer category information “producer” is extracted.
[0050]
FIG. 8 shows an example of answer candidate information obtained by the answer generation unit 5 in the case of the above specific example. FIG. 9 shows an example of answer information sent from the answer generating unit 5 to the rational document information adding unit 6 in this case (the question text is omitted in FIG. 9).
[0051]
In the above, the response type information “person name” is expanded to the response category information “person name”, and in the search stage, not only the search based on the expanded answer category information “person name” but also the response category information “ The knowledge that “person name” and answer category information “producer” match was used. Instead of this, the present invention expands the response type information “person name” into the response category information “producer”, etc., and the search does not use the above rules, but based on the expanded response category information “producer”, etc. You may make it search for.
[0052]
Next, the basis document information adding unit 6 uses the basis of the answer information received from the answer generation unit 5, the answer candidate information held in the answer candidate database 13, and the document information held in the document database 11. Data relating to related information held in the document is generated and recorded in the basis document information table 15. Based on the recorded data and the response information received from the response generation unit 5, the basis document information adding unit 6 generates presentation information including the response information and the basis document information, and outputs this to the output unit 7. Send (step S5).
[0053]
Here, the processing of the ground document information adding unit 6 will be described in more detail.
[0054]
Upon receiving the response information from the response generation unit 5, the rational document information adding unit 6 searches the document database 11 using the document ID of each rational document included in the response information as a key, and acquires the title information of each rational document, Record in the rationale document information table 15. In addition, the answer candidate database 13 is searched using the document ID of each evidence document as a key, and the expression extracted from the question sentence (“YYY” in this specific example) or the answer character string (this book) in each answer candidate information In the case of a specific example, the answer category information related to the answer candidate information excluding the answer candidate information including the answer candidate character string that matches any one of “xxx director” is extracted, and this information is counted for each category information. The number is recorded in the basis document information table 15 together with the number.
[0055]
FIG. 10 shows an example of the ground document information table 15 in the case of this specific example.
[0056]
Finally, the output unit 7 outputs a question sentence, an answer thereto, and the basis document information based on the information received from the basis document information adding unit 6 (step S6).
[0057]
FIG. 11 shows an example of a display screen displayed from the output unit 7 in the case of this specific example. In this example, who is the director of the question ““ YYY ”? "And the answer" XXX Director "in response to this, the evidence document information is displayed. In the evidence document information of Fig. 11, three evidence documents are arranged in the order of their document scores. In addition, “other information” in each ground document information indicates the response category information in FIG. 10 and the number of documents to which the category is attached. ) Indicates that there is no “other information”. In document (2), “other information” includes answer category information “title”, “place of origin”, and “year”, three, one, and one respectively. In the document (3), “other information” indicates that there is one having answer category information “title”.
[0058]
Although FIG. 11 shows an example in which three ground documents are arranged in the order of their document scores, they may be arranged in order according to other criteria. For example, it may be arranged and presented in the order of evaluation points described later (in this case, for example, the documents are arranged in the order of document IDs 00100, 050,000, and 00560 (see FIG. 13)).
[0059]
In FIG. 11, for example, the content of the selected rationale document may be displayed by selecting the title information of the rationale document with the mouse or selecting the rank number of the rationale document with the keyboard. .
[0060]
In FIG. 11, only the title information and other information are displayed for all the ground documents. For example, the ground documents in the first rank (from the document score or the evaluation score) (or from the first rank) For the basis documents up to a predetermined order), the content of the basis document may be displayed instead of the title information and other information or together with the title information and other information.
[0061]
As described above, according to the present embodiment, the answer to the question is presented, and what information is included in the document that is the basis for obtaining the answer to the question. Since the information is presented, the user can easily grasp whether or not there is information that the user wants to know other than the question in the rationale document.
[0062]
In the following, another example of the processing of the rational document information adding unit 6 and the output method by the output unit 7 will be described.
[0063]
(First modification)
First, a first modification will be described.
[0064]
Upon receiving the response information from the response generation unit 5, the rational document information adding unit 6 searches the document database 11 using the document ID of each rational document included in the response information as a key, and acquires the title information of each rational document, Record in the rationale document information table 15. In addition, the answer candidate database 13 is searched using the document ID of each evidence document as a key, and the expression extracted from the question sentence (“YYY” in this specific example) or the answer character string (this book) in each answer candidate information In the case of a specific example, the response category information related to the answer candidate information excluding the answer candidate information including the answer candidate character string that matches any of “XX director” is extracted and recorded in the basis document information table 15. To do. The above is similar to the example already described (see FIG. 10).
[0065]
Next, the evidence document information adding unit 6 obtains an evaluation score for each evidence document based on the rules registered in the evidence document evaluation pattern database (not shown), and records this in the evidence document information table 15. To do.
[0066]
FIG. 12 shows an example of information registered in the ground document evaluation pattern database. The answer category (1) is answer category information related to the answer information (see FIG. 9), the answer category (2) is each answer category information in the evidence document information table 15 (see FIG. 11), and the score is This is a score added to the evaluation score in the case of the combination of the answer category (1) and the answer category (2). In the evaluation point calculation process, for example, a value obtained by adding all the points related to the corresponding rule among the rules in FIG. For example, when the answer category information related to the answer information to the question sentence is “producer” and the contents of the evidence document information table 15 are as shown in FIG. The content of the basis document information table 15 is as shown in FIG. 13, for example.
[0067]
In this case, the output unit 7 presents the evidence document information based on the evaluation score given to the evidence document.
[0068]
FIG. 14 shows an example of this case. In this example, only the first-order basis document having the highest evaluation score (in this example, the document with document ID = 00210 in FIG. 2) is presented, and the other documents have two. It only presents that it exists. For other documents, for example, the number of the other document is selected with the mouse, or the number is selected with the keyboard, and the content of the selected ground document is displayed. For example, when number 1 is selected, the contents of the ground document having the second-ranked evaluation score (in this example, the document with document ID = 0000000 in FIG. 2) is displayed.
[0069]
In the above description, the content of only the first-ranked ground document having the highest evaluation score (in this example, the document with document ID = 00210 in FIG. 2) is presented. You may make it show the content about the ground document to rank.
[0070]
In FIG. 14, no specific information is presented for the ground document other than the ground document for presenting the contents. For example, the title information and other information are displayed as shown in FIG. It may be. Of course, in this case as well, for example, the content of the selected evidence document may be displayed by selecting the title information of the evidence document with the mouse or selecting the rank number of the evidence document with the keyboard. Good.
[0071]
As described above, according to the present embodiment, it is determined that a lot of related information is included in the document that provides the answer to the question and is the basis for obtaining the answer to the question. Documents can be displayed with priority, so that the user can easily grasp whether or not there is information that he / she wants to know other than the question in the rationale document. Become. And, if the information you want to know is included in the evidence document, you can get the information you want to know just by browsing the evidence document without entering a new question and searching. .
[0072]
(Second modification)
Next, a second modification will be described.
[0073]
Upon receiving the response information from the response generation unit 5, the rational document information adding unit 6 searches the document database 11 using the document ID of each rational document included in the response information as a key, and acquires the title information of each rational document, Record in the rationale document information table 15. In addition, the answer candidate database 13 is searched using the document ID of each evidence document as a key, and the expression extracted from the question sentence (“YYY” in this specific example) or the answer character string (this book) in each answer candidate information In the case of a specific example, the response category information related to the answer candidate information excluding the answer candidate information including the answer candidate character string that matches any of “XX director” is extracted and recorded in the basis document information table 15. To do. The above is similar to the example already described (see FIG. 10).
[0074]
Next, the basis document information adding unit 6 classifies the basis documents based on the similarity of the response categories registered in the basis document information table 15 and reflects the classification result in the basis document information table 15 (for example, Information regarding the classification to which the document belongs is added to each document in the document document information table 15). As a classification method, a known technique may be used.
[0075]
For example, in the case document information table 15 shown in FIG. 10, document category 1 is a category to which a basis document (document ID = 00210, 0950) including an answer candidate related to the response category “title” belongs, and document category 2 is an answer. The classification to which the rational document (document ID = 00210) including the answer candidate related to the category “Birthplace” belongs, and the document classification 3 is the classification to which the rational document (document ID = 00210) including the response candidate related to the response category “year” belongs. In the rational document information table 15, information indicating document classification 1, document classification 2, and document classification 3 is added to the rational document with the document ID = 00210, and the document classification is included in the rational document with the document ID = 000050. 1 is added (the basis document with document ID = 00560 does not have information related to the classification or the classification to which it belongs. Information indicating it is added).
[0076]
In this case, the output unit 7 presents the evidence document information based on the information related to the classification given to the evidence document.
[0077]
FIG. 15 shows an example of this case. In this example, for each classification, the answer category related to the classification and the title of the rational document belonging to the classification are presented in descending order of the number of evidence documents belonging to the classification.
[0078]
In FIG. 15, in each document classification, the number of answer candidate information related to the answer category included in each evidence document may be presented. For example, in the ground document (document ID = 00210) for the title “YYY” of document classification 1, there are three pieces of answer candidate information having the answer category “title” (see FIG. 10), so “YYY (3)”. As described above, the number may be displayed beside the display of the title of the basis document of the document classification.
[0079]
Further, for example, in FIG. 15, for the first-ranking ground document (or the ground document from the first rank to a predetermined rank) (for example, document score or evaluation score), the contents of the ground document May be displayed.
[0080]
As described above, according to the present embodiment, an answer to a question is presented, and the basis document is classified based on related information in addition to the answer existing in the document that is the basis for obtaining the answer to the question. Therefore, the user can easily grasp whether or not there is information that he / she wants to know in addition to the question in the basis document. And, if the information you want to know is included in the evidence document, you can get the information you want to know just by browsing the evidence document without entering a new question and searching. .
[0081]
Note that the variations of the processing of the ground document information adding unit 6 and the output method of the output unit 7 described above can be combined as appropriate. Also, a plurality of methods may be prepared as the processing of the rational document information adding unit 6 and the output method by the output unit 7 so that the user can set which one to use.
[0082]
In the above description, the search target document is shown as plain text. However, a document tagged in advance such as an XML document can be similarly implemented. In this case, pre-tagged information can be used as the answer category information.
[0083]
In the above explanation, the response type and the response category are defined as one-to-many correspondence. However, when the response type and the response category have the same name, the response type and the response category are many-to-many correspondence. Or, even in the case of many-to-one correspondence, it can be similarly implemented.
[0084]
Also, in the above explanation, higher-level concept tags such as “person name” and “place name” are used as the answer category, but also when meta concepts such as “definition expression” and “means expression” are used as tags. Can be implemented as well.
[0085]
Further, in the above description, morphological analysis and syntax analysis means are not particularly explicitly used, but the same can be implemented when these means are used in each processing. In this case, it is also possible to assign a category attribute to the morphological analysis dictionary and perform category identification by syntax pattern matching.
[0086]
Each of the above functions can be realized even if it is described as software and processed by a computer having an appropriate mechanism.
The present embodiment can also be implemented as a program for causing a computer to execute predetermined means, causing a computer to function as predetermined means, or causing a computer to realize predetermined functions. In addition, the present invention can be implemented as a computer-readable recording medium on which the program is recorded.
[0087]
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
[0088]
【The invention's effect】
According to the present invention, when an answer to a question sentence is presented, it is possible to present the information in consideration of information included in the basis document.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration example of a question answering system according to an embodiment of the present invention.
FIG. 2 is a diagram showing an example of information in a document database
FIG. 3 is a diagram showing an example of information in an answer candidate database
FIG. 4 is a flowchart showing an example of a processing procedure of the question answering system according to the embodiment.
FIG. 5 is a diagram showing an example of search results
FIG. 6 is a diagram showing an example of information in a question pattern database
FIG. 7 is a diagram showing an example of an answer type determination result
FIG. 8 is a diagram showing an example of extracted answer candidate information
FIG. 9 is a diagram illustrating an example of response information including a response character string, a response category, and a document ID of a rational document.
FIG. 10 is a diagram showing an example of a rationale document information table
FIG. 11 is a diagram showing a display example of presentation information
FIG. 12 is a diagram showing an example of information in the basis document evaluation pattern database
FIG. 13 is a diagram showing another example of the basis document information table
FIG. 14 is a diagram showing a display example of presentation information
FIG. 15 is a diagram showing a display example of presentation information
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Input part, 2 ... Document search part, 3 ... Answer classification determination part, 4 ... Answer candidate extraction part, 5 ... Answer generation part, 6 ... Ground document information addition part, 7 ... Output part, 11 ... Document database, 12 ... expression category database, 13 ... answer candidate database, 14 ... question pattern database, 15 ... basis document information table

Claims (18)

自然言語による質問文を入力し、該質問文に対する回答となる文字列である回答文字列を出力する質問応答装置であって、
複数の文書を記憶する第1のデータベースと、
この第1のデータベースに記憶された各文書毎に、当該文書に含まれる文字列のうちから前記回答文字列の候補になり得るものとして取り出された候補文字列と、この候補文字列の意味内容に関するカテゴリを示すカテゴリ情報とを含む回答候補情報を、任意数ずつ記憶する第2のデータベースと、
前記質問文を入力するための入力手段と、
前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、
前記検索手段により検索された文書中から、前記回答文字列を抽出する抽出手段と、
記検索手段により検索された文書のうち前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記回答文字列に一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得する取得手段と、
前記抽出手段が抽出した前記回答文字列及び前記取得手段が取得した前記カテゴリ情報を出力する出力手段とを備えたことを特徴とする質問応答装置。
A question answering apparatus that inputs a question sentence in a natural language and outputs an answer character string that is a character string serving as an answer to the question sentence,
A first database storing a plurality of documents;
For each document stored in the first database, and candidate character strings taken as to obtain candidates for the answer string from among the character strings included in the document, semantic content of the candidate character strings the answer candidate information including the category information indicating a category relating to a second database for each arbitrary number memorize,
And input means for inputting the question,
Search means for searching the first database based on the question sentence;
From the document retrieved by said retrieval means, extracting means for extracting the answers string,
Among previous SL retrieval means documents retrieved by, the answer string as target basis document respectively a free plain coarse document from all the answer candidate information about the evidence documents stored in the second database The acquisition means for excluding the answer candidate information including the candidate character string matching the answer character string, and for obtaining the category information included in the answer candidate information for the answer candidate information obtained as a result ;
The extraction means extracting said answer character string, and question-answering apparatus being characterized in that an output means for outputting the category information obtained by the obtaining unit.
前記取得手段は、前記検索手段により検索された文書のうち、前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記質問文に含まれる文字列又は前記回答文字列のいずれかに一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得することを特徴とする請求項1に記載の質問応答装置。The acquisition unit is configured to select all of the answer candidates stored in the second database for the basis document for each of the basis documents that are documents including the answer character string from among the documents searched by the search unit. From the information, answer candidate information including a candidate character string that matches either the character string included in the question sentence or the answer character string is excluded, and the answer candidate information obtained as a result is included in the answer candidate information. 2. The question answering apparatus according to claim 1, wherein the category information included is acquired. 前記出力手段は、前記出力を行うにあたって、前記根拠文書ごとに、当該根拠文書を示す情報と、当該根拠文書について取得されたカテゴリ情報とを対応させて出力することを特徴とする請求項1または2に記載の質問応答装置。And the output means, when performing the output, for each of the grounds document, and information indicating the rationale document, claim 1 in association with the category information obtained for the rationale document and outputs it or 2. The question answering apparatus according to 2. 前記出力手段は、前記出力を行うにあたって更に、前記根拠文書について取得されたカテゴリ情報ごとに、当該カテゴリ情報に対応する前記候補文字列が当該根拠文書に含まれる個数を示す情報を出力することを特徴とする請求項に記載の質問応答装置。The output means further outputs, for each category information acquired for the basis document, information indicating the number of candidate character strings corresponding to the category information included in the basis document for performing the output. The question answering apparatus according to claim 3 , wherein 前記出力手段は、前記出力を行うにあたって、前記根拠文書が複数ある場合には、予め定められた評価方法により高く評価される根拠文書から順に、該根拠文書に係るカテゴリ情報を出力することを特徴とする請求項またはに記載の質問応答装置。The output means, when performing the output, when there are a plurality of the evidence documents, outputs the category information related to the evidence documents in order from the evidence documents highly evaluated by a predetermined evaluation method. The question answering device according to claim 3 or 4 . 前記出力手段は、前記出力を行うにあたって、前記根拠文書を、当該根拠文書について取得されたカテゴリ情報に基づいて分類し、各分類ごとに当該分類に属する根拠文書を示す情報及びその分類に係るカテゴリ情報を出力することを特徴とする請求項に記載の質問応答装置。The output means classifies the basis document based on the category information acquired for the basis document when performing the output, information indicating the basis document belonging to the category for each category, and a category related to the category 4. The question answering apparatus according to claim 3 , wherein information is output. 前記出力手段は、前記出力を行うにあたって、予め定められた評価方法により最も高く評価される根拠文書については、当該根拠文書の内容を出力することを特徴とする請求項1または2に記載の質問応答装置。 3. The question according to claim 1, wherein the output unit outputs the contents of the basis document for the basis document that is most highly evaluated by a predetermined evaluation method when performing the output. 4. Response device. 複数の文書を記憶する第1のデータベースと、
この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、
自然言語による質問文を入力するための入力手段と、
前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、
前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、
前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得手段と、
前記根拠文書について、取得された前記第1のカテゴリ情報と取得された前記第2のカテゴリ情報との組み合わせのパターンデータベースに登録されているルールに基づいて評価点を求め、該評価点により、前記根拠文書を評価する評価手段と、
前記回答文字列と、前記評価手段による評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力手段とを備えたことを特徴とする質問応答装置。
A first database storing a plurality of documents;
For each document stored in the first database, a character string that can be an answer candidate included in the document and category information indicating a category as an answer candidate of the character string are stored in association with each other. Database of
An input means for inputting a question sentence in natural language;
Search means for searching the first database based on the question sentence;
Extraction means for extracting an answer character string that is an answer to the question sentence from the document searched by the search means;
Referring to the second database, the first character string corresponding to each of the character strings other than the answer character string included in the ground document that is the document including the answer character string among the documents searched by the search means. Acquisition means for acquiring first category information and second category information corresponding to the answer character string;
About the basis document, an evaluation score is obtained based on a rule registered in a pattern database of a combination of the acquired first category information and the acquired second category information. An evaluation means for evaluating the evidence document;
A question answering apparatus comprising: output means for outputting the answer character string and the contents of a basis document having a predetermined number of documents selected based on an evaluation result by the evaluation means.
前記評価手段は、前記根拠文書を評価するにあたって、第1のカテゴリ情報と第2のカテゴリ情報との組み合わせごとに決定された評価点を示す情報を記憶する第3のデータベースを参照し、当該根拠文書から取得された各々の前記第1のカテゴリ情報から定まる評価点と前記第2のカテゴリ情報から定まる評価点を総計して得た値を、当該根拠文書の評価値とすることを特徴とする請求項に記載の質問応答装置。The evaluation means refers to a third database that stores information indicating evaluation points determined for each combination of the first category information and the second category information when evaluating the basis document. A value obtained by summing up the evaluation points determined from each of the first category information acquired from the document and the evaluation points determined from the second category information is used as the evaluation value of the basis document. The question answering apparatus according to claim 8 . 前記出力手段は、前記評価手段により最も高く評価された根拠文書の内容を出力することを特徴とする請求項に記載の質問応答装置。9. The question answering apparatus according to claim 8 , wherein the output means outputs the content of the basis document that is most highly evaluated by the evaluation means. 前記抽出手段は、前記質問文に基づいて該質問文に対する回答文字列に対応するカテゴリ情報が満たすべき条件を求め、
前記取得手段は、前記第2のデータベースにおいて前記検索手段により検索された文書について記憶されているカテゴリ情報のうち、前記条件を満たすカテゴリ情報を求め、
前記抽出手段は、前記第2のデータベースにおいて前記条件を満たすカテゴリ情報と対応付けて前記回答候補情報に記憶されている前記候補文字列を、前記回答文字列とすることを特徴とする請求項1、2またはに記載の質問応答装置。
The extraction means obtains a condition to be satisfied by category information corresponding to an answer character string for the question sentence based on the question sentence,
The acquisition unit obtains category information satisfying the condition among the category information stored for the document searched by the search unit in the second database,
The extraction means uses the candidate character string stored in the answer candidate information in association with category information satisfying the condition in the second database as the answer character string. The question answering apparatus according to 2 or 8 .
前記第1のデータベースに記憶された文書から回答候補となる文字列を抽出して、これを前記候補文字列とし該候補文字列に、前記カテゴリ情報を付与し、該文書につき、該候補文字列と該カテゴリ情報とを含む前記回答候補情報を前記第2のデータベースに記憶する手段を更に備えたことを特徴とする請求項1、2またはに記載の質問応答装置。 Extracting a character string to be answered candidate from the first database stored document, which was said candidate character string, in the candidate character string, and applying the category information, per the document, the candidate the question answering system according to the answer candidate information including the character string and the category information to claim 1, 2 or 8, further comprising a means for storing in said second database. 自然言語による質問文を入力し、該質問文に対する回答となる文字列である回答文字列を出力するために、複数の文書を記憶する第1のデータベースと、この第1のデータベースに記憶された各文書毎に、当該文書に含まれる文字列のうちから前記回答文字列の候補になり得るものとして取り出された候補文字列と、この候補文字列の意味内容に関するカテゴリを示すカテゴリ情報とを含む回答候補情報を、任意数ずつ記憶する第2のデータベースと、入力手段と、検索手段と、抽出手段と、取得手段と、出力手段とを備えた質問応答装置の質問応答方法であって、
前記入力手段が、前記質問文を入力するための入力ステップと、
前記検索手段が、前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索ステップと、
前記抽出手段が、前記検索ステップにより検索された文書中から、前記回答文字列を抽出する抽出ステップと、
前記取得手段が、前記検索ステップにより検索された文書のうち前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記回答文字列に一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得する取得ステップと、
前記出力手段が、前記抽出ステップにより抽出された前記回答文字列及び前記取得ステップにより取得された前記カテゴリ情報を出力する出力ステップとを有することを特徴とする質問応答方法。
In order to input a question sentence in a natural language and output an answer character string that is a character string that is an answer to the question sentence, a first database that stores a plurality of documents and a first database that is stored in the first database for each document, including a candidate character string retrieved as can be a candidate for the answer string from among the character strings included in the document, and a category information indicating a category related semantic content of the candidate character strings the answer candidate information, a second and a database, an input means, search means and the extraction means and the acquisition means and, question answering method of question and answer device and output means for memorize by any number,
It said input means, an input step for inputting said question,
A search step in which the search means searches a first database storing a plurality of documents based on the question sentence;
The extraction means, from the document retrieved by the retrieving step, an extraction step of extracting the answers string,
All the acquisition means, among pre-Symbol search documents retrieved by step, the answer string as target people grounds document each is free plain coarse document, stored for the grounds document to the second database The step of obtaining the category information included in the answer candidate information for the candidate answer information obtained as a result of excluding the answer candidate information including the candidate character string matching the answer character string from the answer candidate information When,
Question answering wherein said output means, and having an output step of outputting the reply character string extracted by the extraction step, and the category information obtained by the obtaining step.
前記取得手段は、前記検索手段により検索された文書のうち、前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記質問文に含まれる文字列又は前記回答文字列のいずれかに一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得することを特徴とする請求項13に記載の質問応答方法。The acquisition unit is configured to select all of the answer candidates stored in the second database for the basis document for each of the basis documents that are documents including the answer character string from among the documents searched by the search unit. From the information, answer candidate information including a candidate character string that matches either the character string included in the question sentence or the answer character string is excluded, and the answer candidate information obtained as a result is included in the answer candidate information. 14. The question answering method according to claim 13, wherein category information included is acquired. 複数の文書を記憶する第1のデータベースと、この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、入力手段と、検索手段と、抽出手段と、取得手段と、評価手段と、出力手段とを備えた質問応答装置の質問応答方法であって、
前記入力手段が、自然言語による質問文を入力するための入力ステップと、
前記検索手段が、前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索ステップと、
前記抽出手段が、前記検索ステップにより検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出ステップと、
前記取得手段が、前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索ステップにより検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得ステップと、
前記評価手段が、前記根拠文書について、取得された前記第1のカテゴリ情報と取得された前記第2のカテゴリ情報との組み合わせのパターンデータベースに登録されているルールに基づいて評価点を求め、該評価点により、前記根拠文書を評価する評価ステップと、
前記出力手段が、前記回答文字列と、前記評価ステップによる評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力ステップとを有することを特徴とする質問応答方法。
A first database that stores a plurality of documents, a character string that can be an answer candidate included in the document for each document stored in the first database, and a category as an answer candidate for the character string A question answering method for a question answering apparatus comprising: a second database for storing category information to be associated with each other, an input means, a search means, an extraction means, an acquisition means, an evaluation means, and an output means. There,
The input means for inputting a question sentence in a natural language;
A search step in which the search means searches a first database storing a plurality of documents based on the question sentence;
An extracting step in which the extracting means extracts an answer character string that becomes an answer to the question sentence from the document searched in the searching step;
The acquisition means associates, for each document stored in the first database, a character string that can be an answer candidate included in the document and category information indicating a category as an answer candidate of the character string. Corresponding to each of the character strings other than the answer character string included in the ground document that is the document including the answer character string among the documents retrieved by the retrieval step. Obtaining first category information and second category information corresponding to the answer character string;
The evaluation means obtains an evaluation score for the basis document based on a rule registered in a pattern database of a combination of the acquired first category information and the acquired second category information, An evaluation step for evaluating the rationale document according to an evaluation point; and
The question answering method, characterized in that the output means includes an output step of outputting the answer character string and the contents of a basis document of a predetermined number of documents selected based on the evaluation result of the evaluation step. .
自然言語による質問文を入力し、該質問文に対する回答となる文字列である回答文字列を出力するために、複数の文書を記憶する第1のデータベースと、この第1のデータベースに記憶された各文書毎に、当該文書に含まれる文字列のうちから前記回答文字列の候補になり得るものとして取り出された候補文字列とこの候補文字列の意味内容に関するカテゴリを示すカテゴリ情報とを含む回答候補情報を、任意数ずつ記憶する第2のデータベースとを備えた質問応答装置としてコンピュータを機能させるためのプログラムであって、
前記質問文を入力するための入力機能と、
前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索機能と、
前記検索機能により検索された文書中から、前記回答文字列を抽出する抽出機能と、
記検索機能により検索された文書のうち前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記回答文字列に一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得する取得機能と、
前記抽出機能が抽出した前記回答文字列及び前記取得機能が取得した前記カテゴリ情報を出力する出力機能とをコンピュータに実現させるためのプログラム。
In order to input a question sentence in a natural language and output an answer character string that is a character string that is an answer to the question sentence, a first database that stores a plurality of documents and a first database that is stored in the first database For each document, a candidate character string extracted as a candidate for the answer character string from among character strings included in the document, and category information indicating a category related to the semantic content of the candidate character string is included. A program for causing a computer to function as a question answering apparatus including a second database that stores answer candidate information in an arbitrary number ,
And the input function for entering the question,
A search function for searching a first database storing a plurality of documents based on the question sentence;
From the document retrieved by the search function, the extracting function of extracting the answers string,
Among pre Symbol search function documents retrieved by, the answer string as target basis document respectively a free plain coarse document from all the answer candidate information about the evidence documents stored in the second database , excluding the answer candidate information including a candidate character string that matches the answer string as an object the answer candidate information obtained as a result, an acquisition function of acquiring the category information included in the answer candidate information,
The extraction feature extracted the answer string, and a program for realizing an output function on a computer that outputs the category information that the acquirer has acquired.
前記取得機能は、前記検索機能により検索された文書のうち、前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記質問文に含まれる文字列又は前記回答文字列のいずれかに一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得することを特徴とする請求項16に記載のプログラム。The acquisition function is for all the answer candidates stored in the second database for the basis document for each of the basis documents that are documents including the answer character string among the documents searched by the search function. From the information, answer candidate information including a candidate character string that matches either the character string included in the question sentence or the answer character string is excluded, and the answer candidate information obtained as a result is included in the answer candidate information. The program according to claim 16, wherein category information included is acquired. 質問応答装置としてコンピュータを機能させるためのプログラムであって、
自然言語による質問文を入力するための入力機能と、
前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索機能と、
前記検索機能により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出機能と、
前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索機能により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得機能と、
前記根拠文書について、取得された前記第1のカテゴリ情報と取得された前記第2のカテゴリ情報との組み合わせのパターンデータベースに登録されているルールに基づいて評価点を求め、該評価点により、前記根拠文書を評価する評価機能と、
前記回答文字列と、前記評価機能による評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力機能とをコンピュータに実現させるためのプログラム。
A program for causing a computer to function as a question answering device,
An input function for inputting questions in natural language;
A search function for searching a first database storing a plurality of documents based on the question sentence;
An extraction function for extracting an answer character string as an answer to the question sentence from the document searched by the search function;
For each document stored in the first database, a character string that can be an answer candidate included in the document and category information indicating a category as an answer candidate of the character string are stored in association with each other. The first category corresponding to each of the character strings other than the answer character string included in the ground document that is the document containing the answer character string among the documents searched by the search function An acquisition function for acquiring information and second category information corresponding to the answer character string;
About the basis document, an evaluation score is obtained based on a rule registered in a pattern database of a combination of the acquired first category information and the acquired second category information. An evaluation function to evaluate the rationale document;
A program for causing a computer to realize the output character string and an output function for outputting the contents of a document with a predetermined number of documents selected based on the evaluation result by the evaluation function.
JP2003188988A 2003-06-30 2003-06-30 Question answering apparatus, question answering method and program Expired - Fee Related JP4057962B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003188988A JP4057962B2 (en) 2003-06-30 2003-06-30 Question answering apparatus, question answering method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003188988A JP4057962B2 (en) 2003-06-30 2003-06-30 Question answering apparatus, question answering method and program

Publications (2)

Publication Number Publication Date
JP2005025418A JP2005025418A (en) 2005-01-27
JP4057962B2 true JP4057962B2 (en) 2008-03-05

Family

ID=34187348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003188988A Expired - Fee Related JP4057962B2 (en) 2003-06-30 2003-06-30 Question answering apparatus, question answering method and program

Country Status (1)

Country Link
JP (1) JP4057962B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113400A (en) * 2009-11-27 2011-06-09 Fujitsu Ltd Apparatus, program and method for supporting persuasion
EP2534591A4 (en) 2010-02-10 2013-07-17 Mmodal Ip Llc Providing computable guidance to relevant evidence in question-answering systems
JP5678774B2 (en) * 2011-03-31 2015-03-04 国立大学法人鳥取大学 An information analysis device that analyzes the redundancy of text data
US10950329B2 (en) 2015-03-13 2021-03-16 Mmodal Ip Llc Hybrid human and computer-assisted coding workflow
JP6465708B2 (en) * 2015-03-19 2019-02-06 ヤフー株式会社 Information providing apparatus, information providing method, and information providing program
US10810215B2 (en) * 2017-12-15 2020-10-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
CN110597952A (en) * 2019-08-20 2019-12-20 深圳壹账通智能科技有限公司 Information processing method, server, and computer storage medium

Also Published As

Publication number Publication date
JP2005025418A (en) 2005-01-27

Similar Documents

Publication Publication Date Title
US6904429B2 (en) Information retrieval apparatus and information retrieval method
CN103229162B (en) Candidate answers logic synthesis is used to provide problem answers
KR101450358B1 (en) Searching structured geographical data
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
JP2017504105A (en) System and method for in-memory database search
JP4200834B2 (en) Information search system, information search method, and information search program
JPH11224256A (en) Information retrieving method and record medium recording information retrieving program
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
JP4057962B2 (en) Question answering apparatus, question answering method and program
JP2003150624A (en) Information extraction device and information extraction method
JP2017182646A (en) Information processing device, program and information processing method
Geleijnse et al. Automatic Ontology Population by Googling.
KR102256007B1 (en) System and method for searching documents and providing an answer to a natural language question
JP2004078446A (en) Keyword extraction device, extraction method, document retrieval system, retrieval method, device and method for classifying document, and program
JP4428703B2 (en) Information retrieval method and system, and computer program
JP4037250B2 (en) Question answering apparatus, question answering program, and recording medium recording the program
JPH1145268A (en) Document retrieval device and computer-readable recording medium where eprogram making computer funtion as same device is recorded
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
Schwarzer et al. An Interactive e-Government Question Answering System.
Pizzato et al. Extracting exact answers using a meta question answering system
JP2010282403A (en) Document retrieval method
JP2005234772A (en) Documentation management system and method
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101221

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131221

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees