JP4057962B2 - Question answering apparatus, question answering method and program - Google Patents
Question answering apparatus, question answering method and program Download PDFInfo
- Publication number
- JP4057962B2 JP4057962B2 JP2003188988A JP2003188988A JP4057962B2 JP 4057962 B2 JP4057962 B2 JP 4057962B2 JP 2003188988 A JP2003188988 A JP 2003188988A JP 2003188988 A JP2003188988 A JP 2003188988A JP 4057962 B2 JP4057962 B2 JP 4057962B2
- Authority
- JP
- Japan
- Prior art keywords
- answer
- document
- character string
- information
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、ユーザの入力した質問に対する回答を出力する質問応答装置、質問応答方法及びプログラムに関する。
【0002】
【従来の技術】
インターネットの検索エンジンに代表されるように、ユーザの検索要求に適合する文書を検索してランキングする技術が広く普及している。しかし、文書検索は、「…に関する新聞記事が読みたい」「…に関するWebページが見たい」といった検索要求を満足することはできるが、「○×社の社長は誰か?」「富士山の高さは?」「鯨は絶滅しかかっているか?」といった質問に対してダイレクトに答えを返すことができない。文書検索は、文書又は文書中のパッセージを出力するだけなので、ユーザは出力結果から自分で回答を探し出さなくてはならない。
【0003】
後者のような質問に対する回答を直接出力するものに、質問応答システムがある。質問応答システムは、「○×社の社長は誰か?」のような質問に対しては、○×社に関する文書(例えば○×社のホームページ)を出力するのではなく、○×社の社長の人名を出力し、「富士山の高さは?」のような質問に対しては「富士山は3776mです。」のような回答を出力する。
【0004】
このような質問応答システムが情報検索や情報抽出などの研究の発展形として近年注目を集めており、ユーザの質問に対してある程度ダイレクトな答えを返すことが可能になって来ている。例えば特許文献1のように、利用者の質問文に対して、ある程度ダイレクトな回答と、その回答が当該質問文に対する回答となっていることを利用者が確認できる根拠文書とを出力するようなシステムが知られている。この根拠文書とは、例えば、質問への回答をシステムが抽出した抽出源の文書のことである。ユーザは、根拠文書によりどの文書を根拠とした回答であるかを知ることができる。
【0005】
【特許文献1】
特開2002−132812公報
【0006】
【発明が解決しようとする課題】
上記のような根拠文書は、一つのこともあるが、一般的には複数存在し得る。従来の質問応答システムでは、根拠文書が複数存在する場合、全根拠文書を列挙して提示したり代表的な根拠文書を選択して提示したりするだけであった。しかし、ユーザが唯一つの質問に対する回答のみ欲することもあるが、一連の知識・情報を欲していることも少なくない。後者の場合、ある質問の回答に係る根拠文書中に、該回答の他にも有益な情報(例えばユーザが次以降にすべき他の質問に対する回答のような関連情報)が含まれているならば、ユーザは(例えば他の質問をせずとも)根拠文書を閲覧することで効率的な情報取得が可能になる。
【0007】
しかしながら、従来の質問応答システムでは、根拠文書中に存在する当該回答以外の情報に関する提示機能を提供することができなかった。例えば、根拠文書の評価方法として一般的に行われている、質問文中に含まれている検索キーワードとのマッチングの度合いに基づくような文書評価方法によっては、質問文に対する回答以外の情報としてどのような有益な情報が含まれているかを評価するのは困難である。また、例えば、根拠文書の要約を表示する方法では、質問内容に関わらず同じ要約が生成されるものや、元々の質問文に偏った要約が生成されるようなものしかなかった。
【0008】
本発明は、上記事情を考慮してなされたもので、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示を可能とする質問応答装置、質問応答方法及びプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明に係る質問応答装置は、複数の文書を記憶する第1のデータベースと、この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、自然言語による質問文を入力するための入力手段と、前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列に対応するカテゴリ情報を取得する取得手段と、前記回答文字列及び前記回答文字列以外の文字列に対応するカテゴリ情報を含む回答情報を出力する出力手段とを備えたことを特徴とする。
【0010】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0011】
本発明によれば、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示が可能になる。よって、本発明によれば、質問に対する回答が得られるとともに、例えば、根拠文書中に回答文字列の他にどのような情報が含まれているかを容易に把握することができるようになる。
【0012】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0013】
図1に、本発明の一実施形態に係る質問応答システムの構成例を示す。
【0014】
図1に示されるように、本質問応答システムは、入力部1、文書検索部2、回答種別判定部3、回答候補抽出部4、回答生成部5、根拠文書情報付加部6、出力部7を備えている。
【0015】
また、本質問応答システムは、文書データベース11、表現カテゴリデータベース12、回答候補データベース13、質問パターンデータベース14、根拠文書情報テーブル15を備えるようにしてもよい。
【0016】
なお、文書データベース11及び又は回答候補データベース13を備えない構成も可能である。例えば、これらデータベース11,13は、LANあるいはインターネット等のネットワークを介して接続されていて検索可能となっていてもよい。
【0017】
また、回答候補データベース13を備えない場合あるいは回答候補データベース13を備えるが、回答候補の内容をインターネット等のネットワークを介して外部から取得できる場合には、回答候補抽出部4及び表現カテゴリデータベース12を備えなくて構わない。
【0018】
図1の各部の概要は以下の通りである。
【0019】
入力部1は、質問文の入力を行う。
【0020】
文書検索部2は、入力された質問文に基づいて文書データベース11を検索し、得られた文書のスコアリングを行う。
【0021】
回答種別判定部3は、質問パターンデータベース14を用いて、入力された質問文の回答種別の判定を行う。
【0022】
回答候補抽出部4は、例えば表現カテゴリデータベース12を用いるなどして、文書データベース11に格納された検索対象文書から回答候補文字列の抽出を行い、回答候補文字列に対する回答カテゴリの付与を行って、回答候補情報を生成し、これを回答候補データベース13へ格納する。
【0023】
回答生成部5は、入力された質問文と、文書検索部2により得られた検索結果と、回答種別判定部3により得られた回答種別と、回答候補データベース13に格納されている回答候補情報とに基づいて、回答情報の生成を行う。
【0024】
根拠文書情報付加部6は、根拠文書情報テーブル15を用いて、回答生成部5により生成された回答情報に対して、根拠文書に関係する根拠文書情報の付加を行う。
【0025】
出力部7は、根拠文書情報を付加された回答情報の出力を行う。
【0026】
ここで、本質問応答システムを計算機を用いて実現する場合、入力部1及び出力部7は、ユーザインタフェースに相当し、例えば、キーボード、マウス、マイクロフォンなどの入力装置や、計算機ディスプレイやスピーカーなどの出力装置を用いて実現することができる。また、文書検索部2、回答種別判定部3、回答候補抽出部4、回答生成部5、根拠文書情報付加部6は、プログラムにより実現することができる。
【0027】
また、本質問応答システムをクライアント・サーバシステムとして実現する場合、例えば、当該構成要素のうち入力部1及び出力部7がクライアント計算機側に搭載され、それ以外の部分がサーバ計算機側に搭載される。
【0028】
以下では、具体例を用いながら本質問応答システムの処理の流れについて説明する。
【0029】
図2に、文書データベース11の一例を示す。この例は、各文書は、文書IDとタイトルとテキストを含んでいる。なお、○○○はある映画監督の氏名であり、XXX、YYY、ZZZ、WWWはいずれも○○○監督の映画作品のタイトルであるとする。
【0030】
ここで、回答候補抽出部4及び回答候補データベース13について説明する。
【0031】
まず、回答候補抽出部4を用いる場合には、予め回答候補抽出部4により、文書データベース11に登録されている検索対象文書をもとに回答候補情報を生成し、これを回答候補データベース13に保持しておく。回答候補抽出部4の処理については、いわゆる固有名詞抽出やオントロジータガーなどの公知の技術を用いて構わない。回答候補抽出においては、検索対象文書の表層表現に対して処理を行ってもよいし、形態素解析した結果に対して処理を行ってもよいし、構文・係り受け解析結果に対して処理を行ってもよい。
【0032】
回答候補抽出処理の一具体例を次に示す。まず、表現カテゴリデータベース12に、(回答候補文字列を検出するための情報、回答カテゴリ)の対が登録されている。例えば、“○○○監督”という語句を含む対象文書から、“○○○監督”を検出して“製作者”という回答カテゴリを付与すべき場合には、表現カテゴリデータベース12に、具体的な回答候補文字列を用いた(○○○監督、製作者)が登録されている。そして、回答候補抽出部4は、文書データベース11に登録されている検索対象文書(例えば、図2の文書ID=00050の文書)と、表現カテゴリデータベース12に登録されている表現(例えば、上記の(○○○監督、製作者)における○○○監督)とを比較して回答候補文字列(例えば、○○○監督)を抽出し、これに回答候補文字列を抽出した文書の文書ID(この例の場合、文書ID=00050)と抽出された回答候補文字列(この例の場合、○○○監督)に対応する回答カテゴリ情報(この場合、上記の(○○○監督、製作者)における製作者)を付与して、文書IDと回答候補文字列と回答カテゴリ情報とを含む回答候補情報を生成し、これを回答候補データベース13に保持しておく。なお、この例の場合においても、表現カテゴリデータベース12の形態は、種々のものが可能である。例えば、表現カテゴリデータベース12に、回答候補文字列が含むべき文字列を用いた(監督、製作者)を登録し、対象文書から“監督”を含む文字列“○○○監督”を抽出し、これに回答カテゴリ“製作者”を付与するようにしてもよい。また、例えば、表現カテゴリデータベース12に、(「*」、タイトル)を登録し(ここで、*は任意文字列を示すものとする)、対象文書から括弧に挟まれた“「XXX」”の文字列を検出し、この文字列から“「」”を省いた部分“XXX”を候補文字列とし、これに回答カテゴリ“タイトル”を付与するようにしてもよい。その他にも、種々の方法が可能である。
【0033】
図3に、図2の文書データベース11に格納された文書をもとに生成した回答候補情報を登録した回答候補データベース13の一例を示す。
【0034】
他方、回答候補抽出部4を用いず、かつ、外部から回答候補情報を取得して回答候補データベース13に登録しておく必要がある場合には、その作業を行っておく。
【0035】
また、回答候補抽出部4を用いず、かつ、外部から回答候補情報を取得して回答候補データベース13に登録しておく必要がない場合には、必要時に回答候補データベース13にアクセスすればよい。
【0036】
図4に、本質問応答システムの質問文入力から結果出力までの処理の流れの一例を示す。
【0037】
ユーザは、入力部1を介してテキストや音声などにより質問文を入力する。
【0038】
なお、音声入力を行った場合にも公知の音声認識技術により質問文をテキストデータに変換することが可能であるため(この場合には、例えば入力部1が該変換の機能を持てばよい)、以後、質問文がテキストデータとして得られている場合を例にとって説明を行う。
【0039】
入力部1は、ユーザからの質問文の入力を受けると、入力された質問文を、文書検索部2と回答種別判定部3と回答生成部5へ送る(ステップS1)。
【0040】
ここでは、“「YYY」の監督は誰ですか?”という質問文が入力されたものとする。
【0041】
文書検索部2は、入力部1から受け取った質問文をもとに文書データベース11の検索対象文書に対して検索を行い、得られた各文書の文書スコアを求め、文書スコアの順で上位のものから規定数(例えば、予め固定された数、あるいは適宜ユーザ指定された数など)だけ文書を選択し、選択された文書(根拠文書)の持つ文書ID及びその文書スコアを含む検索結果を、回答生成部5に送る(ステップS2)。なお、文書検索部2の処理には、公知の技術を用いて構わない。
【0042】
図5に、“「YYY」の監督は誰ですか?”という質問文をもとに図2の文書データベース11に格納された文書を検索した場合の出力結果の例を示す(この例では、文書スコアの値が大きいほど、質問文に適合していると評価されたものとする)。
【0043】
他方、この検索処理と前後して又は並行して、回答種別判定部3は、入力部1から受け取った質問文と、質問パターンデータベース14に登録されている表現とを比較して回答種別の判定を行い、その判定結果を含む回答種別情報を、回答生成部5へ送る(ステップS3)。なお、文書種別判定部3の処理については、公知の技術を用いて構わない(例えば、特開2002−132812参照)。
【0044】
図6に、質問パターンデータベース14の一例を示す。この例は、質問文に“いつ”が含まれている場合には、回答種別は“日時”であると判定し、質問文に“誰”が含まれている場合には、回答種別は“人名”であると判定し、質問文に“どこ”が含まれている場合には、回答種別は“場所”であると判定するものである。
【0045】
図7に、“「YYY」の監督は誰ですか?”という質問文をもとに、図6の質問パターンデータベース14により回答種別を判定した結果の例を示す。この場合、質問文中の“誰”によって、回答種別は“人名”であると判定される。
【0046】
さて、回答生成部5は、回答種別判定部3から送られてきた回答種別情報を、予め定められた展開規則に基づき1又は複数の回答カテゴリ情報に展開し、この展開によって得られた複数の回答カテゴリ情報と、文書検索部2から送られてきた検索結果に含まれる文書IDとをキーとして、回答候補データベース13を検索し、回答候補情報を得る(ステップS4)。更に回答生成部5は、このステップS4ではさらに、得られた回答候補情報のうち表層文字列が同じものをマージし、回答文字列と回答カテゴリ情報と根拠文書の文書IDとを含む回答情報(質問文及び文書スコアを含んでもよい)を作成し、回答情報を根拠文書情報付加部6へ送る。
【0047】
上記展開規則とは、例えば、回答種別情報と、この回答種別情報を展開すべき1又は複数の回答カテゴリ情報とを対応付けて定義したものである。例えば、回答種別情報“場所”は回答カテゴリ情報“国名”“地名”“出身地”に展開し、回答種別情報“日時”は回答カテゴリ情報“年”“日付”“時刻”に展開し、回答種別情報“人名”は回答カテゴリ情報“人名”に展開するというような規則である。
【0048】
上記具体例では、回答種別は“人名”と判定されるので、これに上記の例のような展開規則を適用すると、回答カテゴリ情報“人名”に展開されることになる。
【0049】
また、上記具体例において、回答生成部5が、上記の展開によって得られた回答カテゴリ情報“人名”と、文書検索部2から送られてきた検索結果に含まれる文書ID=00050、00201、または00560とをキーとして、回答候補データベース13を検索する。この際、回答生成部5は、例えば、回答カテゴリ情報“人名”と回答カテゴリ情報“制作者”とがマッチすることを示す知識情報を有しており、この結果、回答カテゴリ情報“人名”を持つ回答候補情報だけでなく、回答カテゴリ情報“制作者”を持つ回答候補情報も抽出されることになる。
【0050】
図8に、上記の具体例の場合に回答生成部5により得られる回答候補情報の一例を示す。また、図9に、この場合に回答生成部5から根拠文書情報付加部6に送られる回答情報の一例を示す(図9では質問文は省略している)。
【0051】
なお、上記では、回答種別情報“人名”を回答カテゴリ情報“人名”に展開し、検索の段階では、展開された回答カテゴリ情報“人名”をもとに検索するだけでなく、回答カテゴリ情報“人名”と回答カテゴリ情報“制作者”とがマッチするという知識を用いた。本発明はこれに代え、回答種別情報“人名”を回答カテゴリ情報“制作者”等に展開し、検索では、上記規則は用いずに、展開された回答カテゴリ情報“制作者”等をもとに検索するようにしてもよい。
【0052】
次に、根拠文書情報付加部6は、回答生成部5から受け取った回答情報、回答候補データベース13に保持されている回答候補情報、文書データベース11に保持されている文書情報をもとに、根拠文書が持っている関連情報に関するデータを生成して根拠文書情報テーブル15に記録する。根拠文書情報付加部6は、この記録したデータと、回答生成部5から受け取った回答情報とをもとに、回答情報と根拠文書情報とを含む提示情報を生成し、これを出力部7へ送る(ステップS5)。
【0053】
ここで、根拠文書情報付加部6の処理について、より詳しく説明する。
【0054】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、この情報をカテゴリ情報毎に計数した個数とともに根拠文書情報テーブル15に記録する。
【0055】
図10に、本具体例の場合における根拠文書情報テーブル15の一例を示す。
【0056】
最後に、出力部7は、根拠文書情報付加部6より受け取った情報に基づき、質問文とそれに対する回答と根拠文書情報との出力を行う(ステップS6)。
【0057】
図11に、本具体例の場合において、出力部7より表示された表示画面の一例を示す。この例では、質問文の内容“「YYY」の監督は誰ですか?”と、これに対する回答“○○○監督”の他に、根拠文書情報が表示されている。なお、図11の根拠文書情報では、3つの根拠文書を、その文書スコアの順に並べた例を示している(図5参照)。また、各根拠文書情報における“他情報”は、図10の回答カテゴリ情報及び当該カテゴリが付された文書の個数を提示したものである。例えば、文書(1)では“他情報”がないことが示され、文書(2)では“他情報”は回答カテゴリ情報“タイトル”,“出身地”,“年”を持つものがそれぞれ3個,1個,1個存在することが示され、文書(3)では“他情報”は回答カテゴリ情報“タイトル”を持つものが1個存在することが示されている。
【0058】
なお、図11では、3つの根拠文書を、その文書スコアの順に並べた例を示したが、その他の基準によって順に並べるようにしてもよい。例えば、後で説明する評価点の順に並べて提示するようにしてもよい(この場合、例えば、文書IDが、00210、00050、00560の順で文書が並べられる(図13参照))。
【0059】
また、図11において、例えば、根拠文書のタイトル情報をマウスで選択し、あるいは根拠文書の順位番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしてもよい。
【0060】
また、図11では、全ての根拠文書について、そのタイトル情報と他情報のみを表示したが、例えば、(文書スコアあるいは評価点などで)第1順位の根拠文書については(あるいは、第1順位から予め定められた順位までの根拠文書については)、タイトル情報と他情報に代えて又はタイトル情報と他情報とともに、当該根拠文書の内容を表示するようにしてもよい。
【0061】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に、当該回答の他にどのような情報が含まれているかを提示するので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。
【0062】
さて、以下では、根拠文書情報付加部6の処理及び出力部7による出力方法の他の例について説明する。
【0063】
(第1の変形例)
まず、第1の変形例について説明する。
【0064】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、これを根拠文書情報テーブル15に記録する。以上は、既に説明した例と同様である(図10参照)。
【0065】
次に、根拠文書情報付加部6は、根拠文書評価パターンデータベース(図示せず)に登録されているルールに基づいて、各根拠文書に対する評価点を求め、これを、根拠文書情報テーブル15に記録する。
【0066】
図12に、根拠文書評価パターンデータベースに登録されている情報の一例を示す。回答カテゴリ(1)は、回答情報に係る回答カテゴリ情報であり(図9参照)、回答カテゴリ(2)は、根拠文書情報テーブル15における各回答カテゴリ情報であり(図11参照)、点数は、当該回答カテゴリ(1)と回答カテゴリ(2)の組合せの場合に評価点に加算する点数である。評価点の計算処理では、例えば、各根拠文書について、図12のルールのうち、該当するルールに係る点数を全て加算した値が、求める評価点となる。例えば、本具体例のように質問文に対する回答情報に係る回答カテゴリ情報が“制作者”であり、根拠文書情報テーブル15の内容が図10のようである場合、各根拠文書の評価点を付加された根拠文書情報テーブル15の内容は、例えば、図13のようになる。
【0067】
この場合、出力部7は、根拠文書に付与された評価点に基づいて、根拠文書情報に関する提示を行う。
【0068】
図14に、この場合の一例を示す。この例では、最も高い評価点を持つ第1順位の根拠文書(本例では、図2における文書ID=00210の文書)のみについて、その内容を提示し、他の文書については、それが2つ存在することのみを提示している。なお、他の文書については、例えば、他の文書の番号をマウスで選択し、あるいは番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしている。例えば、番号1を選択すると、第2順位の評価点を持つ根拠文書(本例では、図2における文書ID=00050の文書)の内容が表示される。
【0069】
なお、上記では、最も高い評価点を持つ第1順位の根拠文書(本例では、図2における文書ID=00210の文書)のみについて、その内容を提示したが、第1順位から予め定められた順位までの根拠文書について、その内容を提示するようにしてもよい。
【0070】
なお、図14では、内容を提示する根拠文書以外の根拠文書については、具体的な情報は何も提示しなかったが、例えば、図11のように、そのタイトル情報と他情報を表示するようにしてもよい。もちろん、この場合にも、例えば、根拠文書のタイトル情報をマウスで選択し、あるいは根拠文書の順位番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしてもよい。
【0071】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に、当該回答の他に関連する情報が多く含まれると判断される文書を優先して表示することができるので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。そして、当該根拠文書中に知りたい情報が含まれていれば、新たな質問文を入力して検索等を行うことなく、当該根拠文書を閲覧するだけで、当該知りたい情報を得ることができる。
【0072】
(第2の変形例)
次に、第2の変形例について説明する。
【0073】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、これを根拠文書情報テーブル15に記録する。以上は、既に説明した例と同様である(図10参照)。
【0074】
次に、根拠文書情報付加部6は、根拠文書情報テーブル15に登録されている回答カテゴリの類似性に基づいて根拠文書を分類し、その分類結果を根拠文書情報テーブル15に反映させる(例えば、根拠文書情報テーブル15の各根拠文書に対して、それが属する分類に関する情報を付加する)。なお、分類方法については、公知の技術を用いて構わない。
【0075】
例えば、図10の根拠文書情報テーブル15の場合に、文書分類1は、回答カテゴリ“タイトル”に係る回答候補を含む根拠文書(文書ID=00210、00050)の属する分類、文書分類2は、回答カテゴリ“出身地”に係る回答候補を含む根拠文書(文書ID=00210)の属する分類、文書分類3は、回答カテゴリ“年”に係る回答候補を含む根拠文書(文書ID=00210)の属する分類となり、根拠文書情報テーブル15においては、文書ID=00210の根拠文書には、文書分類1、文書分類2、文書分類3を示す情報が付加され、文書ID=00050の根拠文書には、文書分類1を示す情報が付加される(文書ID=00560の根拠文書には、分類に関する情報は付加されないか、またはそれが属する分類がないことを示す情報が付加される)。
【0076】
この場合、出力部7は、根拠文書に付与された分類に関する情報に基づいて、根拠文書情報に関する提示を行う。
【0077】
図15に、この場合の一例を示す。この例では、各分類を、それに属する根拠文書数の多い順に、その分類に係る回答カテゴリとその分類に属する根拠文書のタイトルとを提示している。
【0078】
なお、図15において、各文書分類において、各根拠文書ごとに、それに含まれる当該回答カテゴリに係る回答候補情報の個数を提示するようにしてもよい。例えば、文書分類1のタイトル“YYY”の根拠文書(文書ID=00210)には、回答カテゴリ“タイトル”を持つ回答候補情報が3個存在するので(図10参照)、“YYY(3)”のように、当該文書分類の当該根拠文書のタイトルの表示の横に個数を表示するなどしてもよい。
【0079】
また、例えば、図15において、(文書スコアあるいは評価点などで)第1順位の根拠文書については(あるいは、第1順位から予め定められた順位までの根拠文書については)、当該根拠文書の内容を表示するようにしてもよい。
【0080】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に存在する当該回答の他に関連する情報によって根拠文書を分類して表示することができるので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。そして、当該根拠文書中に知りたい情報が含まれていれば、新たな質問文を入力して検索等を行うことなく、当該根拠文書を閲覧するだけで、当該知りたい情報を得ることができる。
【0081】
なお、以上説明した根拠文書情報付加部6の処理及び出力部7による出力方法の各バリエーションは適宜組み合わせて実施可能である。また、根拠文書情報付加部6の処理及び出力部7による出力方法として、複数のものを用意しておき、ユーザがいずれを使用するかを設定可能にしてもよい。
【0082】
また、以上の説明において、検索対象文書は、プレーンテキストとして示したが、XML文書のように予めタグ付けされた文書でも、同様に実施可能である。この場合、回答カテゴリの情報として予めタグ付けされた情報を用いることも可能である。
【0083】
また、以上の説明において、回答種別と回答カテゴリとは1対多対応のものと定義したが、回答種別と回答カテゴリとが同じ名前である場合や、回答種別と回答カテゴリとが多対多対応又は多対1対応の場合でも、同様に実施可能である。
【0084】
また、以上の説明において、回答カテゴリとして“人名”,“地名”のような上位概念タグを用いたが、“定義表現”,“手段表現”のようなメタ概念をタグとして用いた場合にも、同様に実施可能である。
【0085】
また、以上の説明において、形態素解析や構文解析の手段を特に明示的に用いることはなかったが、各処理においてこれらの手段を用いた場合にも、同様に実施可能である。この場合、形態素解析辞書へのカテゴリ属性の付与や、構文パターンマッチによるカテゴリ同定を行うことも可能である。
【0086】
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
【0087】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0088】
【発明の効果】
本発明によれば、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示が可能になる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る質問応答システムの構成例を示す図
【図2】 文書データベースの情報の一例を示す図
【図3】 回答候補データベースの情報の一例を示す図
【図4】 同実施形態に係る質問応答システムの処理手順の一例を示すフローチャート
【図5】 検索結果の一例を示す図
【図6】 質問パターンデータベースの情報の一例を示す図
【図7】 回答種別判別結果の一例を示す図
【図8】 抽出された回答候補情報の一例を示す図
【図9】 回答文字列と回答カテゴリと根拠文書の文書IDを含む回答情報の一例を示す図
【図10】 根拠文書情報テーブルの一例を示す図
【図11】 提示情報の表示例を示す図
【図12】 根拠文書評価パターンデータベースの情報の一例を示す図
【図13】 根拠文書情報テーブルの他の例を示す図
【図14】 提示情報の表示例を示す図
【図15】 提示情報の表示例を示す図
【符号の説明】
1…入力部、2…文書検索部、3…回答種別判定部、4…回答候補抽出部、5…回答生成部、6…根拠文書情報付加部、7…出力部、11…文書データベース、12…表現カテゴリデータベース、13…回答候補データベース、14…質問パターンデータベース、15…根拠文書情報テーブル[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a question answering apparatus, a question answering method, and a program for outputting an answer to a question inputted by a user.
[0002]
[Prior art]
As represented by Internet search engines, techniques for searching and ranking documents that match user search requests are widely used. However, the document search can satisfy search requests such as “I want to read newspaper articles about…” or “I want to see a web page about…”, but “Who is the president of XX?” Can't answer directly to questions such as "Whales are going to be extinct?" Since the document search only outputs a document or a passage in the document, the user must search for an answer from the output result.
[0003]
There is a question answering system that directly outputs an answer to a question like the latter. The question answering system does not output a document about XX company (for example, XX company's website) to a question such as "Who is XX company president?" A person's name is output, and an answer such as “Mt. Fuji is 3776 m” is output to a question such as “How tall is Mt. Fuji?”.
[0004]
Such a question answering system has recently attracted attention as a development form of research such as information retrieval and information extraction, and it has become possible to return a direct answer to a user's question to some extent. For example, as in
[0005]
[Patent Document 1]
JP 2002-132812 A
[0006]
[Problems to be solved by the invention]
There may be only one evidence document as described above, but generally there may be a plurality of documents. In the conventional question answering system, when there are a plurality of ground documents, all the ground documents are listed and presented, or representative ground documents are selected and presented. However, the user may want only an answer to a single question, but often desires a series of knowledge and information. In the latter case, if the rationale document relating to the answer of a certain question contains useful information (eg, related information such as answers to other questions that the user should do afterwards) in addition to the answer For example, the user can efficiently acquire information by browsing the rationale document (for example, without asking other questions).
[0007]
However, the conventional question answering system cannot provide a presentation function related to information other than the answer existing in the ground document. For example, depending on the document evaluation method that is based on the degree of matching with a search keyword included in a question sentence, which is generally used as an evaluation method for a ground document, how information other than the answer to the question sentence is displayed. It is difficult to evaluate whether useful information is included. In addition, for example, in the method of displaying the summary of the ground document, there are only ones in which the same summary is generated regardless of the content of the question, or a summary that is biased toward the original question sentence is generated.
[0008]
The present invention has been made in consideration of the above circumstances, and in presenting a response to a question sentence, a question answering apparatus, a question answering method, and a program capable of presenting in consideration of information included in the basis document. The purpose is to provide.
[0009]
[Means for Solving the Problems]
A question answering apparatus according to the present invention includes a first database that stores a plurality of documents, a character string that can be an answer candidate included in the document for each document stored in the first database, Based on the second database for storing category information indicating categories as character string answer candidates in association with each other, input means for inputting a question sentence in natural language, and the first sentence based on the question sentence. A search means for searching a database; an extraction means for extracting an answer character string as an answer to the question sentence from the document searched by the search means; and the search means by referring to the second database. Acquisition means for acquiring category information corresponding to a character string other than the answer character string included in the basis document that is the document including the answer character string among the retrieved documents , Characterized in that an output means for outputting the response information including the category information corresponding to the character string other than the answer string and the reply string.
[0010]
The present invention relating to the apparatus is also established as an invention relating to a method, and the present invention relating to a method is also established as an invention relating to an apparatus.
Further, the present invention relating to an apparatus or a method has a function for causing a computer to execute a procedure corresponding to the invention (or for causing a computer to function as a means corresponding to the invention, or for a computer to have a function corresponding to the invention. It is also established as a program (for realizing) and also as a computer-readable recording medium on which the program is recorded.
[0011]
According to the present invention, when an answer to a question sentence is presented, it is possible to present the information in consideration of information included in the basis document. Therefore, according to the present invention, an answer to the question can be obtained, and for example, what information is included in the basis document in addition to the answer character string can be easily grasped.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the invention will be described with reference to the drawings.
[0013]
FIG. 1 shows a configuration example of a question answering system according to an embodiment of the present invention.
[0014]
As shown in FIG. 1, the question answering system includes an
[0015]
The question answering system may include a
[0016]
A configuration without the
[0017]
If the
[0018]
The outline of each part in FIG. 1 is as follows.
[0019]
The
[0020]
The
[0021]
The answer
[0022]
The answer candidate extraction unit 4 extracts an answer candidate character string from a search target document stored in the
[0023]
The
[0024]
The basis document
[0025]
The
[0026]
Here, when this question answering system is realized using a computer, the
[0027]
Further, when the question answering system is realized as a client / server system, for example, the
[0028]
Hereinafter, the flow of processing of the question answering system will be described using a specific example.
[0029]
FIG. 2 shows an example of the
[0030]
Here, the answer candidate extraction unit 4 and the
[0031]
First, when the answer candidate extraction unit 4 is used, the answer candidate extraction unit 4 generates answer candidate information based on a search target document registered in the
[0032]
A specific example of the answer candidate extraction process is shown below. First, a pair of (information for detecting an answer candidate character string, answer category) is registered in the
[0033]
FIG. 3 shows an example of the
[0034]
On the other hand, if it is necessary not to use the answer candidate extraction unit 4 and to acquire answer candidate information from the outside and register it in the
[0035]
Further, when it is not necessary to obtain the answer candidate information from the outside and register it in the
[0036]
FIG. 4 shows an example of the flow of processing from question text input to result output of the question answering system.
[0037]
The user inputs a question sentence by text or voice via the
[0038]
In addition, since it is possible to convert a question sentence into text data by a well-known voice recognition technique even when voice input is performed (in this case, for example, the
[0039]
When receiving an input of a question sentence from the user, the
[0040]
Here, who is the director of “YYY”? ”Is entered.
[0041]
The
[0042]
In Figure 5, “Who is the director of“ YYY ”? 2 shows an example of an output result when a document stored in the
[0043]
On the other hand, before or after or in parallel with this search processing, the answer
[0044]
FIG. 6 shows an example of the
[0045]
In Figure 7, “Who is the director of“ YYY ”? 6 shows an example of the result of determination of the answer type by the
[0046]
Now, the
[0047]
The expansion rule is defined, for example, by associating response type information with one or a plurality of response category information to be expanded. For example, the response type information “location” is expanded to the response category information “country name”, “place name”, “hometown”, and the response type information “date” is expanded to the response category information “year” “date” “time”. The type information “person name” is a rule that expands to answer category information “person name”.
[0048]
In the above specific example, the answer type is determined to be “person name”. Therefore, if the development rule as in the above example is applied to this, the answer category information “person name” is developed.
[0049]
In the above specific example, the
[0050]
FIG. 8 shows an example of answer candidate information obtained by the
[0051]
In the above, the response type information “person name” is expanded to the response category information “person name”, and in the search stage, not only the search based on the expanded answer category information “person name” but also the response category information “ The knowledge that “person name” and answer category information “producer” match was used. Instead of this, the present invention expands the response type information “person name” into the response category information “producer”, etc., and the search does not use the above rules, but based on the expanded response category information “producer”, etc. You may make it search for.
[0052]
Next, the basis document
[0053]
Here, the processing of the ground document
[0054]
Upon receiving the response information from the
[0055]
FIG. 10 shows an example of the ground document information table 15 in the case of this specific example.
[0056]
Finally, the
[0057]
FIG. 11 shows an example of a display screen displayed from the
[0058]
Although FIG. 11 shows an example in which three ground documents are arranged in the order of their document scores, they may be arranged in order according to other criteria. For example, it may be arranged and presented in the order of evaluation points described later (in this case, for example, the documents are arranged in the order of document IDs 00100, 050,000, and 00560 (see FIG. 13)).
[0059]
In FIG. 11, for example, the content of the selected rationale document may be displayed by selecting the title information of the rationale document with the mouse or selecting the rank number of the rationale document with the keyboard. .
[0060]
In FIG. 11, only the title information and other information are displayed for all the ground documents. For example, the ground documents in the first rank (from the document score or the evaluation score) (or from the first rank) For the basis documents up to a predetermined order), the content of the basis document may be displayed instead of the title information and other information or together with the title information and other information.
[0061]
As described above, according to the present embodiment, the answer to the question is presented, and what information is included in the document that is the basis for obtaining the answer to the question. Since the information is presented, the user can easily grasp whether or not there is information that the user wants to know other than the question in the rationale document.
[0062]
In the following, another example of the processing of the rational document
[0063]
(First modification)
First, a first modification will be described.
[0064]
Upon receiving the response information from the
[0065]
Next, the evidence document
[0066]
FIG. 12 shows an example of information registered in the ground document evaluation pattern database. The answer category (1) is answer category information related to the answer information (see FIG. 9), the answer category (2) is each answer category information in the evidence document information table 15 (see FIG. 11), and the score is This is a score added to the evaluation score in the case of the combination of the answer category (1) and the answer category (2). In the evaluation point calculation process, for example, a value obtained by adding all the points related to the corresponding rule among the rules in FIG. For example, when the answer category information related to the answer information to the question sentence is “producer” and the contents of the evidence document information table 15 are as shown in FIG. The content of the basis document information table 15 is as shown in FIG. 13, for example.
[0067]
In this case, the
[0068]
FIG. 14 shows an example of this case. In this example, only the first-order basis document having the highest evaluation score (in this example, the document with document ID = 00210 in FIG. 2) is presented, and the other documents have two. It only presents that it exists. For other documents, for example, the number of the other document is selected with the mouse, or the number is selected with the keyboard, and the content of the selected ground document is displayed. For example, when
[0069]
In the above description, the content of only the first-ranked ground document having the highest evaluation score (in this example, the document with document ID = 00210 in FIG. 2) is presented. You may make it show the content about the ground document to rank.
[0070]
In FIG. 14, no specific information is presented for the ground document other than the ground document for presenting the contents. For example, the title information and other information are displayed as shown in FIG. It may be. Of course, in this case as well, for example, the content of the selected evidence document may be displayed by selecting the title information of the evidence document with the mouse or selecting the rank number of the evidence document with the keyboard. Good.
[0071]
As described above, according to the present embodiment, it is determined that a lot of related information is included in the document that provides the answer to the question and is the basis for obtaining the answer to the question. Documents can be displayed with priority, so that the user can easily grasp whether or not there is information that he / she wants to know other than the question in the rationale document. Become. And, if the information you want to know is included in the evidence document, you can get the information you want to know just by browsing the evidence document without entering a new question and searching. .
[0072]
(Second modification)
Next, a second modification will be described.
[0073]
Upon receiving the response information from the
[0074]
Next, the basis document
[0075]
For example, in the case document information table 15 shown in FIG. 10,
[0076]
In this case, the
[0077]
FIG. 15 shows an example of this case. In this example, for each classification, the answer category related to the classification and the title of the rational document belonging to the classification are presented in descending order of the number of evidence documents belonging to the classification.
[0078]
In FIG. 15, in each document classification, the number of answer candidate information related to the answer category included in each evidence document may be presented. For example, in the ground document (document ID = 00210) for the title “YYY” of
[0079]
Further, for example, in FIG. 15, for the first-ranking ground document (or the ground document from the first rank to a predetermined rank) (for example, document score or evaluation score), the contents of the ground document May be displayed.
[0080]
As described above, according to the present embodiment, an answer to a question is presented, and the basis document is classified based on related information in addition to the answer existing in the document that is the basis for obtaining the answer to the question. Therefore, the user can easily grasp whether or not there is information that he / she wants to know in addition to the question in the basis document. And, if the information you want to know is included in the evidence document, you can get the information you want to know just by browsing the evidence document without entering a new question and searching. .
[0081]
Note that the variations of the processing of the ground document
[0082]
In the above description, the search target document is shown as plain text. However, a document tagged in advance such as an XML document can be similarly implemented. In this case, pre-tagged information can be used as the answer category information.
[0083]
In the above explanation, the response type and the response category are defined as one-to-many correspondence. However, when the response type and the response category have the same name, the response type and the response category are many-to-many correspondence. Or, even in the case of many-to-one correspondence, it can be similarly implemented.
[0084]
Also, in the above explanation, higher-level concept tags such as “person name” and “place name” are used as the answer category, but also when meta concepts such as “definition expression” and “means expression” are used as tags. Can be implemented as well.
[0085]
Further, in the above description, morphological analysis and syntax analysis means are not particularly explicitly used, but the same can be implemented when these means are used in each processing. In this case, it is also possible to assign a category attribute to the morphological analysis dictionary and perform category identification by syntax pattern matching.
[0086]
Each of the above functions can be realized even if it is described as software and processed by a computer having an appropriate mechanism.
The present embodiment can also be implemented as a program for causing a computer to execute predetermined means, causing a computer to function as predetermined means, or causing a computer to realize predetermined functions. In addition, the present invention can be implemented as a computer-readable recording medium on which the program is recorded.
[0087]
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
[0088]
【The invention's effect】
According to the present invention, when an answer to a question sentence is presented, it is possible to present the information in consideration of information included in the basis document.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration example of a question answering system according to an embodiment of the present invention.
FIG. 2 is a diagram showing an example of information in a document database
FIG. 3 is a diagram showing an example of information in an answer candidate database
FIG. 4 is a flowchart showing an example of a processing procedure of the question answering system according to the embodiment.
FIG. 5 is a diagram showing an example of search results
FIG. 6 is a diagram showing an example of information in a question pattern database
FIG. 7 is a diagram showing an example of an answer type determination result
FIG. 8 is a diagram showing an example of extracted answer candidate information
FIG. 9 is a diagram illustrating an example of response information including a response character string, a response category, and a document ID of a rational document.
FIG. 10 is a diagram showing an example of a rationale document information table
FIG. 11 is a diagram showing a display example of presentation information
FIG. 12 is a diagram showing an example of information in the basis document evaluation pattern database
FIG. 13 is a diagram showing another example of the basis document information table
FIG. 14 is a diagram showing a display example of presentation information
FIG. 15 is a diagram showing a display example of presentation information
[Explanation of symbols]
DESCRIPTION OF
Claims (18)
複数の文書を記憶する第1のデータベースと、
この第1のデータベースに記憶された各文書毎に、当該文書に含まれる文字列のうちから前記回答文字列の候補になり得るものとして取り出された候補文字列と、この候補文字列の意味内容に関するカテゴリを示すカテゴリ情報とを含む回答候補情報を、任意数ずつ記憶する第2のデータベースと、
前記質問文を入力するための入力手段と、
前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、
前記検索手段により検索された文書中から、前記回答文字列を抽出する抽出手段と、
前記検索手段により検索された文書のうち、前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記回答文字列に一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得する取得手段と、
前記抽出手段が抽出した前記回答文字列、及び前記取得手段が取得した前記カテゴリ情報を出力する出力手段とを備えたことを特徴とする質問応答装置。 A question answering apparatus that inputs a question sentence in a natural language and outputs an answer character string that is a character string serving as an answer to the question sentence,
A first database storing a plurality of documents;
For each document stored in the first database, and candidate character strings taken as to obtain candidates for the answer string from among the character strings included in the document, semantic content of the candidate character strings the answer candidate information including the category information indicating a category relating to a second database for each arbitrary number memorize,
And input means for inputting the question,
Search means for searching the first database based on the question sentence;
From the document retrieved by said retrieval means, extracting means for extracting the answers string,
Among previous SL retrieval means documents retrieved by, the answer string as target basis document respectively a free plain coarse document from all the answer candidate information about the evidence documents stored in the second database The acquisition means for excluding the answer candidate information including the candidate character string matching the answer character string, and for obtaining the category information included in the answer candidate information for the answer candidate information obtained as a result ;
The extraction means extracting said answer character string, and question-answering apparatus being characterized in that an output means for outputting the category information obtained by the obtaining unit.
この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、
自然言語による質問文を入力するための入力手段と、
前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、
前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、
前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得手段と、
前記根拠文書について、取得された前記第1のカテゴリ情報と取得された前記第2のカテゴリ情報との組み合わせのパターンデータベースに登録されているルールに基づいて評価点を求め、該評価点により、前記根拠文書を評価する評価手段と、
前記回答文字列と、前記評価手段による評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力手段とを備えたことを特徴とする質問応答装置。A first database storing a plurality of documents;
For each document stored in the first database, a character string that can be an answer candidate included in the document and category information indicating a category as an answer candidate of the character string are stored in association with each other. Database of
An input means for inputting a question sentence in natural language;
Search means for searching the first database based on the question sentence;
Extraction means for extracting an answer character string that is an answer to the question sentence from the document searched by the search means;
Referring to the second database, the first character string corresponding to each of the character strings other than the answer character string included in the ground document that is the document including the answer character string among the documents searched by the search means. Acquisition means for acquiring first category information and second category information corresponding to the answer character string;
About the basis document, an evaluation score is obtained based on a rule registered in a pattern database of a combination of the acquired first category information and the acquired second category information. An evaluation means for evaluating the evidence document;
A question answering apparatus comprising: output means for outputting the answer character string and the contents of a basis document having a predetermined number of documents selected based on an evaluation result by the evaluation means.
前記取得手段は、前記第2のデータベースにおいて前記検索手段により検索された文書について記憶されているカテゴリ情報のうち、前記条件を満たすカテゴリ情報を求め、
前記抽出手段は、前記第2のデータベースにおいて前記条件を満たすカテゴリ情報と対応付けて前記回答候補情報に記憶されている前記候補文字列を、前記回答文字列とすることを特徴とする請求項1、2または8に記載の質問応答装置。The extraction means obtains a condition to be satisfied by category information corresponding to an answer character string for the question sentence based on the question sentence,
The acquisition unit obtains category information satisfying the condition among the category information stored for the document searched by the search unit in the second database,
The extraction means uses the candidate character string stored in the answer candidate information in association with category information satisfying the condition in the second database as the answer character string. The question answering apparatus according to 2 or 8 .
前記入力手段が、前記質問文を入力するための入力ステップと、
前記検索手段が、前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索ステップと、
前記抽出手段が、前記検索ステップにより検索された文書中から、前記回答文字列を抽出する抽出ステップと、
前記取得手段が、前記検索ステップにより検索された文書のうち、前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記回答文字列に一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得する取得ステップと、
前記出力手段が、前記抽出ステップにより抽出された前記回答文字列、及び前記取得ステップにより取得された前記カテゴリ情報を出力する出力ステップとを有することを特徴とする質問応答方法。 In order to input a question sentence in a natural language and output an answer character string that is a character string that is an answer to the question sentence, a first database that stores a plurality of documents and a first database that is stored in the first database for each document, including a candidate character string retrieved as can be a candidate for the answer string from among the character strings included in the document, and a category information indicating a category related semantic content of the candidate character strings the answer candidate information, a second and a database, an input means, search means and the extraction means and the acquisition means and, question answering method of question and answer device and output means for memorize by any number,
It said input means, an input step for inputting said question,
A search step in which the search means searches a first database storing a plurality of documents based on the question sentence;
The extraction means, from the document retrieved by the retrieving step, an extraction step of extracting the answers string,
All the acquisition means, among pre-Symbol search documents retrieved by step, the answer string as target people grounds document each is free plain coarse document, stored for the grounds document to the second database The step of obtaining the category information included in the answer candidate information for the candidate answer information obtained as a result of excluding the answer candidate information including the candidate character string matching the answer character string from the answer candidate information When,
Question answering wherein said output means, and having an output step of outputting the reply character string extracted by the extraction step, and the category information obtained by the obtaining step.
前記入力手段が、自然言語による質問文を入力するための入力ステップと、
前記検索手段が、前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索ステップと、
前記抽出手段が、前記検索ステップにより検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出ステップと、
前記取得手段が、前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索ステップにより検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得ステップと、
前記評価手段が、前記根拠文書について、取得された前記第1のカテゴリ情報と取得された前記第2のカテゴリ情報との組み合わせのパターンデータベースに登録されているルールに基づいて評価点を求め、該評価点により、前記根拠文書を評価する評価ステップと、
前記出力手段が、前記回答文字列と、前記評価ステップによる評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力ステップとを有することを特徴とする質問応答方法。A first database that stores a plurality of documents, a character string that can be an answer candidate included in the document for each document stored in the first database, and a category as an answer candidate for the character string A question answering method for a question answering apparatus comprising: a second database for storing category information to be associated with each other, an input means, a search means, an extraction means, an acquisition means, an evaluation means, and an output means. There,
The input means for inputting a question sentence in a natural language;
A search step in which the search means searches a first database storing a plurality of documents based on the question sentence;
An extracting step in which the extracting means extracts an answer character string that becomes an answer to the question sentence from the document searched in the searching step;
The acquisition means associates, for each document stored in the first database, a character string that can be an answer candidate included in the document and category information indicating a category as an answer candidate of the character string. Corresponding to each of the character strings other than the answer character string included in the ground document that is the document including the answer character string among the documents retrieved by the retrieval step. Obtaining first category information and second category information corresponding to the answer character string;
The evaluation means obtains an evaluation score for the basis document based on a rule registered in a pattern database of a combination of the acquired first category information and the acquired second category information, An evaluation step for evaluating the rationale document according to an evaluation point; and
The question answering method, characterized in that the output means includes an output step of outputting the answer character string and the contents of a basis document of a predetermined number of documents selected based on the evaluation result of the evaluation step. .
前記質問文を入力するための入力機能と、
前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索機能と、
前記検索機能により検索された文書中から、前記回答文字列を抽出する抽出機能と、
前記検索機能により検索された文書のうち、前記回答文字列を含む文書である根拠文書夫々を対象として、当該根拠文書について前記第2のデータベースに記憶されているすべての回答候補情報から、前記回答文字列に一致する候補文字列を含む回答候補情報を除外し、この結果得られる回答候補情報を対象として、当該回答候補情報に含まれるカテゴリ情報を取得する取得機能と、
前記抽出機能が抽出した前記回答文字列、及び前記取得機能が取得した前記カテゴリ情報を出力する出力機能とをコンピュータに実現させるためのプログラム。 In order to input a question sentence in a natural language and output an answer character string that is a character string that is an answer to the question sentence, a first database that stores a plurality of documents and a first database that is stored in the first database For each document, a candidate character string extracted as a candidate for the answer character string from among character strings included in the document, and category information indicating a category related to the semantic content of the candidate character string is included. A program for causing a computer to function as a question answering apparatus including a second database that stores answer candidate information in an arbitrary number ,
And the input function for entering the question,
A search function for searching a first database storing a plurality of documents based on the question sentence;
From the document retrieved by the search function, the extracting function of extracting the answers string,
Among pre Symbol search function documents retrieved by, the answer string as target basis document respectively a free plain coarse document from all the answer candidate information about the evidence documents stored in the second database , excluding the answer candidate information including a candidate character string that matches the answer string as an object the answer candidate information obtained as a result, an acquisition function of acquiring the category information included in the answer candidate information,
The extraction feature extracted the answer string, and a program for realizing an output function on a computer that outputs the category information that the acquirer has acquired.
自然言語による質問文を入力するための入力機能と、
前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索機能と、
前記検索機能により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出機能と、
前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索機能により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得機能と、
前記根拠文書について、取得された前記第1のカテゴリ情報と取得された前記第2のカテゴリ情報との組み合わせのパターンデータベースに登録されているルールに基づいて評価点を求め、該評価点により、前記根拠文書を評価する評価機能と、
前記回答文字列と、前記評価機能による評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力機能とをコンピュータに実現させるためのプログラム。A program for causing a computer to function as a question answering device,
An input function for inputting questions in natural language;
A search function for searching a first database storing a plurality of documents based on the question sentence;
An extraction function for extracting an answer character string as an answer to the question sentence from the document searched by the search function;
For each document stored in the first database, a character string that can be an answer candidate included in the document and category information indicating a category as an answer candidate of the character string are stored in association with each other. The first category corresponding to each of the character strings other than the answer character string included in the ground document that is the document containing the answer character string among the documents searched by the search function An acquisition function for acquiring information and second category information corresponding to the answer character string;
About the basis document, an evaluation score is obtained based on a rule registered in a pattern database of a combination of the acquired first category information and the acquired second category information. An evaluation function to evaluate the rationale document;
A program for causing a computer to realize the output character string and an output function for outputting the contents of a document with a predetermined number of documents selected based on the evaluation result by the evaluation function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188988A JP4057962B2 (en) | 2003-06-30 | 2003-06-30 | Question answering apparatus, question answering method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188988A JP4057962B2 (en) | 2003-06-30 | 2003-06-30 | Question answering apparatus, question answering method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005025418A JP2005025418A (en) | 2005-01-27 |
JP4057962B2 true JP4057962B2 (en) | 2008-03-05 |
Family
ID=34187348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003188988A Expired - Fee Related JP4057962B2 (en) | 2003-06-30 | 2003-06-30 | Question answering apparatus, question answering method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4057962B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113400A (en) * | 2009-11-27 | 2011-06-09 | Fujitsu Ltd | Apparatus, program and method for supporting persuasion |
EP2534591A4 (en) | 2010-02-10 | 2013-07-17 | Mmodal Ip Llc | Providing computable guidance to relevant evidence in question-answering systems |
JP5678774B2 (en) * | 2011-03-31 | 2015-03-04 | 国立大学法人鳥取大学 | An information analysis device that analyzes the redundancy of text data |
US10950329B2 (en) | 2015-03-13 | 2021-03-16 | Mmodal Ip Llc | Hybrid human and computer-assisted coding workflow |
JP6465708B2 (en) * | 2015-03-19 | 2019-02-06 | ヤフー株式会社 | Information providing apparatus, information providing method, and information providing program |
US10810215B2 (en) * | 2017-12-15 | 2020-10-20 | International Business Machines Corporation | Supporting evidence retrieval for complex answers |
CN110597952A (en) * | 2019-08-20 | 2019-12-20 | 深圳壹账通智能科技有限公司 | Information processing method, server, and computer storage medium |
-
2003
- 2003-06-30 JP JP2003188988A patent/JP4057962B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005025418A (en) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6904429B2 (en) | Information retrieval apparatus and information retrieval method | |
CN103229162B (en) | Candidate answers logic synthesis is used to provide problem answers | |
KR101450358B1 (en) | Searching structured geographical data | |
JP4347226B2 (en) | Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
JP2017504105A (en) | System and method for in-memory database search | |
JP4200834B2 (en) | Information search system, information search method, and information search program | |
JPH11224256A (en) | Information retrieving method and record medium recording information retrieving program | |
US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
US9875298B2 (en) | Automatic generation of a search query | |
JP4057962B2 (en) | Question answering apparatus, question answering method and program | |
JP2003150624A (en) | Information extraction device and information extraction method | |
JP2017182646A (en) | Information processing device, program and information processing method | |
Geleijnse et al. | Automatic Ontology Population by Googling. | |
KR102256007B1 (en) | System and method for searching documents and providing an answer to a natural language question | |
JP2004078446A (en) | Keyword extraction device, extraction method, document retrieval system, retrieval method, device and method for classifying document, and program | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP4037250B2 (en) | Question answering apparatus, question answering program, and recording medium recording the program | |
JPH1145268A (en) | Document retrieval device and computer-readable recording medium where eprogram making computer funtion as same device is recorded | |
US20120317103A1 (en) | Ranking data utilizing multiple semantic keys in a search query | |
Schwarzer et al. | An Interactive e-Government Question Answering System. | |
Pizzato et al. | Extracting exact answers using a meta question answering system | |
JP2010282403A (en) | Document retrieval method | |
JP2005234772A (en) | Documentation management system and method | |
JP4384736B2 (en) | Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071214 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |