JP2005025418A - 質問応答装置、質疑応答方法及びプログラム - Google Patents
質問応答装置、質疑応答方法及びプログラム Download PDFInfo
- Publication number
- JP2005025418A JP2005025418A JP2003188988A JP2003188988A JP2005025418A JP 2005025418 A JP2005025418 A JP 2005025418A JP 2003188988 A JP2003188988 A JP 2003188988A JP 2003188988 A JP2003188988 A JP 2003188988A JP 2005025418 A JP2005025418 A JP 2005025418A
- Authority
- JP
- Japan
- Prior art keywords
- document
- answer
- character string
- information
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】入力部1から自然言語による質問文を入力する。回答種別判定部3は、求められる回答の種別を判定する。文書検索部2は、文書データベース11を検索する。回答生成部5は、回答種別に応じて、検索文書中から回答文字列を取得する。根拠文書情報付加部6は、検索文書のうち回答文字列を含む根拠文書中に含まれる回答文字列以外の文字列と、その文字列に付与される回答候補としてのカテゴリを示すカテゴリ情報とを取得する。出力部7は、質問文、回答文字列、各根拠文書に含まれる回答文字列以外の文字列に付与されるカテゴリ情報とその個数を示す情報を出力する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、ユーザの入力した質問に対する回答を出力する質問応答装置、質問応答方法及びプログラムに関する。
【0002】
【従来の技術】
インターネットの検索エンジンに代表されるように、ユーザの検索要求に適合する文書を検索してランキングする技術が広く普及している。しかし、文書検索は、「…に関する新聞記事が読みたい」「…に関するWebページが見たい」といった検索要求を満足することはできるが、「○×社の社長は誰か?」「富士山の高さは?」「鯨は絶滅しかかっているか?」といった質問に対してダイレクトに答えを返すことができない。文書検索は、文書又は文書中のパッセージを出力するだけなので、ユーザは出力結果から自分で回答を探し出さなくてはならない。
【0003】
後者のような質問に対する回答を直接出力するものに、質問応答システムがある。質問応答システムは、「○×社の社長は誰か?」のような質問に対しては、○×社に関する文書(例えば○×社のホームページ)を出力するのではなく、○×社の社長の人名を出力し、「富士山の高さは?」のような質問に対しては「富士山は3776mです。」のような回答を出力する。
【0004】
このような質問応答システムが情報検索や情報抽出などの研究の発展形として近年注目を集めており、ユーザの質問に対してある程度ダイレクトな答えを返すことが可能になって来ている。例えば特許文献1のように、利用者の質問文に対して、ある程度ダイレクトな回答と、その回答が当該質問文に対する回答となっていることを利用者が確認できる根拠文書とを出力するようなシステムが知られている。この根拠文書とは、例えば、質問への回答をシステムが抽出した抽出源の文書のことである。ユーザは、根拠文書によりどの文書を根拠とした回答であるかを知ることができる。
【0005】
【特許文献1】
特開2002−132812公報
【0006】
【発明が解決しようとする課題】
上記のような根拠文書は、一つのこともあるが、一般的には複数存在し得る。従来の質問応答システムでは、根拠文書が複数存在する場合、全根拠文書を列挙して提示したり代表的な根拠文書を選択して提示したりするだけであった。しかし、ユーザが唯一つの質問に対する回答のみ欲することもあるが、一連の知識・情報を欲していることも少なくない。後者の場合、ある質問の回答に係る根拠文書中に、該回答の他にも有益な情報(例えばユーザが次以降にすべき他の質問に対する回答のような関連情報)が含まれているならば、ユーザは(例えば他の質問をせずとも)根拠文書を閲覧することで効率的な情報取得が可能になる。
【0007】
しかしながら、従来の質問応答システムでは、根拠文書中に存在する当該回答以外の情報に関する提示機能を提供することができなかった。例えば、根拠文書の評価方法として一般的に行われている、質問文中に含まれている検索キーワードとのマッチングの度合いに基づくような文書評価方法によっては、質問文に対する回答以外の情報としてどのような有益な情報が含まれているかを評価するのは困難である。また、例えば、根拠文書の要約を表示する方法では、質問内容に関わらず同じ要約が生成されるものや、元々の質問文に偏った要約が生成されるようなものしかなかった。
【0008】
本発明は、上記事情を考慮してなされたもので、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示を可能とする質問応答装置、質問応答方法及びプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明に係る質問応答装置は、複数の文書を記憶する第1のデータベースと、この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、自然言語による質問文を入力するための入力手段と、前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列に対応するカテゴリ情報を取得する取得手段と、前記回答文字列及び前記回答文字列以外の文字列に対応するカテゴリ情報を含む回答情報を出力する出力手段とを備えたことを特徴とする。
【0010】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0011】
本発明によれば、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示が可能になる。よって、本発明によれば、質問に対する回答が得られるとともに、例えば、根拠文書中に回答文字列の他にどのような情報が含まれているかを容易に把握することができるようになる。
【0012】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0013】
図1に、本発明の一実施形態に係る質問応答システムの構成例を示す。
【0014】
図1に示されるように、本質問応答システムは、入力部1、文書検索部2、回答種別判定部3、回答候補抽出部4、回答生成部5、根拠文書情報付加部6、出力部7を備えている。
【0015】
また、本質問応答システムは、文書データベース11、表現カテゴリデータベース12、回答候補データベース13、質問パターンデータベース14、根拠文書情報テーブル15を備えるようにしてもよい。
【0016】
なお、文書データベース11及び又は回答候補データベース13を備えない構成も可能である。例えば、これらデータベース11,13は、LANあるいはインターネット等のネットワークを介して接続されていて検索可能となっていてもよい。
【0017】
また、回答候補データベース13を備えない場合あるいは回答候補データベース13を備えるが、回答候補の内容をインターネット等のネットワークを介して外部から取得できる場合には、回答候補抽出部4及び表現カテゴリデータベース12を備えなくて構わない。
【0018】
図1の各部の概要は以下の通りである。
【0019】
入力部1は、質問文の入力を行う。
【0020】
文書検索部2は、入力された質問文に基づいて文書データベース11を検索し、得られた文書のスコアリングを行う。
【0021】
回答種別判定部3は、質問パターンデータベース14を用いて、入力された質問文の回答種別の判定を行う。
【0022】
回答候補抽出部4は、例えば表現カテゴリデータベース12を用いるなどして、文書データベース11に格納された検索対象文書から回答候補文字列の抽出を行い、回答候補文字列に対する回答カテゴリの付与を行って、回答候補情報を生成し、これを回答候補データベース13へ格納する。
【0023】
回答生成部5は、入力された質問文と、文書検索部2により得られた検索結果と、回答種別判定部3により得られた回答種別と、回答候補データベース13に格納されている回答候補情報とに基づいて、回答情報の生成を行う。
【0024】
根拠文書情報付加部6は、根拠文書情報テーブル15を用いて、回答生成部5により生成された回答情報に対して、根拠文書に関係する根拠文書情報の付加を行う。
【0025】
出力部7は、根拠文書情報を付加された回答情報の出力を行う。
【0026】
ここで、本質問応答システムを計算機を用いて実現する場合、入力部1及び出力部7は、ユーザインタフェースに相当し、例えば、キーボード、マウス、マイクロフォンなどの入力装置や、計算機ディスプレイやスピーカーなどの出力装置を用いて実現することができる。また、文書検索部2、回答種別判定部3、回答候補抽出部4、回答生成部5、根拠文書情報付加部6は、プログラムにより実現することができる。
【0027】
また、本質問応答システムをクライアント・サーバシステムとして実現する場合、例えば、当該構成要素のうち入力部1及び出力部7がクライアント計算機側に搭載され、それ以外の部分がサーバ計算機側に搭載される。
【0028】
以下では、具体例を用いながら本質問応答システムの処理の流れについて説明する。
【0029】
図2に、文書データベース11の一例を示す。この例は、各文書は、文書IDとタイトルとテキストを含んでいる。なお、○○○はある映画監督の氏名であり、XXX、YYY、ZZZ、WWWはいずれも○○○監督の映画作品のタイトルであるとする。
【0030】
ここで、回答候補抽出部4及び回答候補データベース13について説明する。
【0031】
まず、回答候補抽出部4を用いる場合には、予め回答候補抽出部4により、文書データベース11に登録されている検索対象文書をもとに回答候補情報を生成し、これを回答候補データベース13に保持しておく。回答候補抽出部4の処理については、いわゆる固有名詞抽出やオントロジータガーなどの公知の技術を用いて構わない。回答候補抽出においては、検索対象文書の表層表現に対して処理を行ってもよいし、形態素解析した結果に対して処理を行ってもよいし、構文・係り受け解析結果に対して処理を行ってもよい。
【0032】
回答候補抽出処理の一具体例を次に示す。まず、表現カテゴリデータベース12に、(回答候補文字列を検出するための情報、回答カテゴリ)の対が登録されている。例えば、“○○○監督”という語句を含む対象文書から、“○○○監督”を検出して“製作者”という回答カテゴリを付与すべき場合には、表現カテゴリデータベース12に、具体的な回答候補文字列を用いた(○○○監督、製作者)が登録されている。そして、回答候補抽出部4は、文書データベース11に登録されている検索対象文書(例えば、図2の文書ID=00050の文書)と、表現カテゴリデータベース12に登録されている表現(例えば、上記の(○○○監督、製作者)における○○○監督)とを比較して回答候補文字列(例えば、○○○監督)を抽出し、これに回答候補文字列を抽出した文書の文書ID(この例の場合、文書ID=00050)と抽出された回答候補文字列(この例の場合、○○○監督)に対応する回答カテゴリ情報(この場合、上記の(○○○監督、製作者)における製作者)を付与して、文書IDと回答候補文字列と回答カテゴリ情報とを含む回答候補情報を生成し、これを回答候補データベース13に保持しておく。なお、この例の場合においても、表現カテゴリデータベース12の形態は、種々のものが可能である。例えば、表現カテゴリデータベース12に、回答候補文字列が含むべき文字列を用いた(監督、製作者)を登録し、対象文書から“監督”を含む文字列“○○○監督”を抽出し、これに回答カテゴリ“製作者”を付与するようにしてもよい。また、例えば、表現カテゴリデータベース12に、(「*」、タイトル)を登録し(ここで、*は任意文字列を示すものとする)、対象文書から括弧に挟まれた“「XXX」”の文字列を検出し、この文字列から“「」”を省いた部分“XXX”を候補文字列とし、これに回答カテゴリ“タイトル”を付与するようにしてもよい。その他にも、種々の方法が可能である。
【0033】
図3に、図2の文書データベース11に格納された文書をもとに生成した回答候補情報を登録した回答候補データベース13の一例を示す。
【0034】
他方、回答候補抽出部4を用いず、かつ、外部から回答候補情報を取得して回答候補データベース13に登録しておく必要がある場合には、その作業を行っておく。
【0035】
また、回答候補抽出部4を用いず、かつ、外部から回答候補情報を取得して回答候補データベース13に登録しておく必要がない場合には、必要時に回答候補データベース13にアクセスすればよい。
【0036】
図4に、本質問応答システムの質問文入力から結果出力までの処理の流れの一例を示す。
【0037】
ユーザは、入力部1を介してテキストや音声などにより質問文を入力する。
【0038】
なお、音声入力を行った場合にも公知の音声認識技術により質問文をテキストデータに変換することが可能であるため(この場合には、例えば入力部1が該変換の機能を持てばよい)、以後、質問文がテキストデータとして得られている場合を例にとって説明を行う。
【0039】
入力部1は、ユーザからの質問文の入力を受けると、入力された質問文を、文書検索部2と回答種別判定部3と回答生成部5へ送る(ステップS1)。
【0040】
ここでは、“「YYY」の監督は誰ですか?”という質問文が入力されたものとする。
【0041】
文書検索部2は、入力部1から受け取った質問文をもとに文書データベース11の検索対象文書に対して検索を行い、得られた各文書の文書スコアを求め、文書スコアの順で上位のものから規定数(例えば、予め固定された数、あるいは適宜ユーザ指定された数など)だけ文書を選択し、選択された文書(根拠文書)の持つ文書ID及びその文書スコアを含む検索結果を、回答生成部5に送る(ステップS2)。なお、文書検索部2の処理には、公知の技術を用いて構わない。
【0042】
図5に、“「YYY」の監督は誰ですか?”という質問文をもとに図2の文書データベース11に格納された文書を検索した場合の出力結果の例を示す(この例では、文書スコアの値が大きいほど、質問文に適合していると評価されたものとする)。
【0043】
他方、この検索処理と前後して又は並行して、回答種別判定部3は、入力部1から受け取った質問文と、質問パターンデータベース14に登録されている表現とを比較して回答種別の判定を行い、その判定結果を含む回答種別情報を、回答生成部5へ送る(ステップS3)。なお、文書種別判定部3の処理については、公知の技術を用いて構わない(例えば、特開2002−132812参照)。
【0044】
図6に、質問パターンデータベース14の一例を示す。この例は、質問文に“いつ”が含まれている場合には、回答種別は“日時”であると判定し、質問文に“誰”が含まれている場合には、回答種別は“人名”であると判定し、質問文に“どこ”が含まれている場合には、回答種別は“場所”であると判定するものである。
【0045】
図7に、“「YYY」の監督は誰ですか?”という質問文をもとに、図6の質問パターンデータベース14により回答種別を判定した結果の例を示す。この場合、質問文中の“誰”によって、回答種別は“人名”であると判定される。
【0046】
さて、回答生成部5は、回答種別判定部3から送られてきた回答種別情報を、予め定められた展開規則に基づき1又は複数の回答カテゴリ情報に展開し、この展開によって得られた複数の回答カテゴリ情報と、文書検索部2から送られてきた検索結果に含まれる文書IDとをキーとして、回答候補データベース13を検索し、回答候補情報を得る(ステップS4)。更に回答生成部5は、このステップS4ではさらに、得られた回答候補情報のうち表層文字列が同じものをマージし、回答文字列と回答カテゴリ情報と根拠文書の文書IDとを含む回答情報(質問文及び文書スコアを含んでもよい)を作成し、回答情報を根拠文書情報付加部6へ送る。
【0047】
上記展開規則とは、例えば、回答種別情報と、この回答種別情報を展開すべき1又は複数の回答カテゴリ情報とを対応付けて定義したものである。例えば、回答種別情報“場所”は回答カテゴリ情報“国名”“地名”“出身地”に展開し、回答種別情報“日時”は回答カテゴリ情報“年”“日付”“時刻”に展開し、回答種別情報“人名”は回答カテゴリ情報“人名”に展開するというような規則である。
【0048】
上記具体例では、回答種別は“人名”と判定されるので、これに上記の例のような展開規則を適用すると、回答カテゴリ情報“人名”に展開されることになる。
【0049】
また、上記具体例において、回答生成部5が、上記の展開によって得られた回答カテゴリ情報“人名”と、文書検索部2から送られてきた検索結果に含まれる文書ID=00050、00201、または00560とをキーとして、回答候補データベース13を検索する。この際、回答生成部5は、例えば、回答カテゴリ情報“人名”と回答カテゴリ情報“制作者”とがマッチすることを示す知識情報を有しており、この結果、回答カテゴリ情報“人名”を持つ回答候補情報だけでなく、回答カテゴリ情報“制作者”を持つ回答候補情報も抽出されることになる。
【0050】
図8に、上記の具体例の場合に回答生成部5により得られる回答候補情報の一例を示す。また、図9に、この場合に回答生成部5から根拠文書情報付加部6に送られる回答情報の一例を示す(図9では質問文は省略している)。
【0051】
なお、上記では、回答種別情報“人名”を回答カテゴリ情報“人名”に展開し、検索の段階では、展開された回答カテゴリ情報“人名”をもとに検索するだけでなく、回答カテゴリ情報“人名”と回答カテゴリ情報“制作者”とがマッチするという知識を用いた。本発明はこれに代え、回答種別情報“人名”を回答カテゴリ情報“制作者”等に展開し、検索では、上記規則は用いずに、展開された回答カテゴリ情報“制作者”等をもとに検索するようにしてもよい。
【0052】
次に、根拠文書情報付加部6は、回答生成部5から受け取った回答情報、回答候補データベース13に保持されている回答候補情報、文書データベース11に保持されている文書情報をもとに、根拠文書が持っている関連情報に関するデータを生成して根拠文書情報テーブル15に記録する。根拠文書情報付加部6は、この記録したデータと、回答生成部5から受け取った回答情報とをもとに、回答情報と根拠文書情報とを含む提示情報を生成し、これを出力部7へ送る(ステップS5)。
【0053】
ここで、根拠文書情報付加部6の処理について、より詳しく説明する。
【0054】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、この情報をカテゴリ情報毎に計数した個数とともに根拠文書情報テーブル15に記録する。
【0055】
図10に、本具体例の場合における根拠文書情報テーブル15の一例を示す。
【0056】
最後に、出力部7は、根拠文書情報付加部6より受け取った情報に基づき、質問文とそれに対する回答と根拠文書情報との出力を行う(ステップS6)。
【0057】
図11に、本具体例の場合において、出力部7より表示された表示画面の一例を示す。この例では、質問文の内容“「YYY」の監督は誰ですか?”と、これに対する回答“○○○監督”の他に、根拠文書情報が表示されている。なお、図11の根拠文書情報では、3つの根拠文書を、その文書スコアの順に並べた例を示している(図5参照)。また、各根拠文書情報における“他情報”は、図10の回答カテゴリ情報及び当該カテゴリが付された文書の個数を提示したものである。例えば、文書(1)では“他情報”がないことが示され、文書(2)では“他情報”は回答カテゴリ情報“タイトル”,“出身地”,“年”を持つものがそれぞれ3個,1個,1個存在することが示され、文書(3)では“他情報”は回答カテゴリ情報“タイトル”を持つものが1個存在することが示されている。
【0058】
なお、図11では、3つの根拠文書を、その文書スコアの順に並べた例を示したが、その他の基準によって順に並べるようにしてもよい。例えば、後で説明する評価点の順に並べて提示するようにしてもよい(この場合、例えば、文書IDが、00210、00050、00560の順で文書が並べられる(図13参照))。
【0059】
また、図11において、例えば、根拠文書のタイトル情報をマウスで選択し、あるいは根拠文書の順位番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしてもよい。
【0060】
また、図11では、全ての根拠文書について、そのタイトル情報と他情報のみを表示したが、例えば、(文書スコアあるいは評価点などで)第1順位の根拠文書については(あるいは、第1順位から予め定められた順位までの根拠文書については)、タイトル情報と他情報に代えて又はタイトル情報と他情報とともに、当該根拠文書の内容を表示するようにしてもよい。
【0061】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に、当該回答の他にどのような情報が含まれているかを提示するので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。
【0062】
さて、以下では、根拠文書情報付加部6の処理及び出力部7による出力方法の他の例について説明する。
【0063】
(第1の変形例)
まず、第1の変形例について説明する。
【0064】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、これを根拠文書情報テーブル15に記録する。以上は、既に説明した例と同様である(図10参照)。
【0065】
次に、根拠文書情報付加部6は、根拠文書評価パターンデータベース(図示せず)に登録されているルールに基づいて、各根拠文書に対する評価点を求め、これを、根拠文書情報テーブル15に記録する。
【0066】
図12に、根拠文書評価パターンデータベースに登録されている情報の一例を示す。回答カテゴリ(1)は、回答情報に係る回答カテゴリ情報であり(図9参照)、回答カテゴリ(2)は、根拠文書情報テーブル15における各回答カテゴリ情報であり(図11参照)、点数は、当該回答カテゴリ(1)と回答カテゴリ(2)の組合せの場合に評価点に加算する点数である。評価点の計算処理では、例えば、各根拠文書について、図12のルールのうち、該当するルールに係る点数を全て加算した値が、求める評価点となる。例えば、本具体例のように質問文に対する回答情報に係る回答カテゴリ情報が“制作者”であり、根拠文書情報テーブル15の内容が図10のようである場合、各根拠文書の評価点を付加された根拠文書情報テーブル15の内容は、例えば、図13のようになる。
【0067】
この場合、出力部7は、根拠文書に付与された評価点に基づいて、根拠文書情報に関する提示を行う。
【0068】
図14に、この場合の一例を示す。この例では、最も高い評価点を持つ第1順位の根拠文書(本例では、図2における文書ID=00210の文書)のみについて、その内容を提示し、他の文書については、それが2つ存在することのみを提示している。なお、他の文書については、例えば、他の文書の番号をマウスで選択し、あるいは番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしている。例えば、番号1を選択すると、第2順位の評価点を持つ根拠文書(本例では、図2における文書ID=00050の文書)の内容が表示される。
【0069】
なお、上記では、最も高い評価点を持つ第1順位の根拠文書(本例では、図2における文書ID=00210の文書)のみについて、その内容を提示したが、第1順位から予め定められた順位までの根拠文書について、その内容を提示するようにしてもよい。
【0070】
なお、図14では、内容を提示する根拠文書以外の根拠文書については、具体的な情報は何も提示しなかったが、例えば、図11のように、そのタイトル情報と他情報を表示するようにしてもよい。もちろん、この場合にも、例えば、根拠文書のタイトル情報をマウスで選択し、あるいは根拠文書の順位番号をキーボードで選択することなどによって、選択された根拠文書の内容が表示されるようにしてもよい。
【0071】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に、当該回答の他に関連する情報が多く含まれると判断される文書を優先して表示することができるので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。そして、当該根拠文書中に知りたい情報が含まれていれば、新たな質問文を入力して検索等を行うことなく、当該根拠文書を閲覧するだけで、当該知りたい情報を得ることができる。
【0072】
(第2の変形例)
次に、第2の変形例について説明する。
【0073】
根拠文書情報付加部6は、回答生成部5から回答情報を受け取ると、回答情報に含まれる各根拠文書の文書IDをキーとして文書データベース11を検索して各根拠文書のタイトル情報を取得し、根拠文書情報テーブル15に記録する。また、各根拠文書の文書IDをキーとして回答候補データベース13を検索し、各回答候補情報のうち、質問文から抽出される表現(本具体例の場合、“YYY”)又は回答文字列(本具体例の場合、“○○○監督”)のいずれかと一致する回答候補文字列を含む回答候補情報を除外した回答候補情報に係る回答カテゴリ情報を抽出し、これを根拠文書情報テーブル15に記録する。以上は、既に説明した例と同様である(図10参照)。
【0074】
次に、根拠文書情報付加部6は、根拠文書情報テーブル15に登録されている回答カテゴリの類似性に基づいて根拠文書を分類し、その分類結果を根拠文書情報テーブル15に反映させる(例えば、根拠文書情報テーブル15の各根拠文書に対して、それが属する分類に関する情報を付加する)。なお、分類方法については、公知の技術を用いて構わない。
【0075】
例えば、図10の根拠文書情報テーブル15の場合に、文書分類1は、回答カテゴリ“タイトル”に係る回答候補を含む根拠文書(文書ID=00210、00050)の属する分類、文書分類2は、回答カテゴリ“出身地”に係る回答候補を含む根拠文書(文書ID=00210)の属する分類、文書分類3は、回答カテゴリ“年”に係る回答候補を含む根拠文書(文書ID=00210)の属する分類となり、根拠文書情報テーブル15においては、文書ID=00210の根拠文書には、文書分類1、文書分類2、文書分類3を示す情報が付加され、文書ID=00050の根拠文書には、文書分類1を示す情報が付加される(文書ID=00560の根拠文書には、分類に関する情報は付加されないか、またはそれが属する分類がないことを示す情報が付加される)。
【0076】
この場合、出力部7は、根拠文書に付与された分類に関する情報に基づいて、根拠文書情報に関する提示を行う。
【0077】
図15に、この場合の一例を示す。この例では、各分類を、それに属する根拠文書数の多い順に、その分類に係る回答カテゴリとその分類に属する根拠文書のタイトルとを提示している。
【0078】
なお、図15において、各文書分類において、各根拠文書ごとに、それに含まれる当該回答カテゴリに係る回答候補情報の個数を提示するようにしてもよい。例えば、文書分類1のタイトル“YYY”の根拠文書(文書ID=00210)には、回答カテゴリ“タイトル”を持つ回答候補情報が3個存在するので(図10参照)、“YYY(3)”のように、当該文書分類の当該根拠文書のタイトルの表示の横に個数を表示するなどしてもよい。
【0079】
また、例えば、図15において、(文書スコアあるいは評価点などで)第1順位の根拠文書については(あるいは、第1順位から予め定められた順位までの根拠文書については)、当該根拠文書の内容を表示するようにしてもよい。
【0080】
以上説明したように、本実施形態によれば、質問に対する回答を提示するとともに、当該質問に対する回答を得る根拠となった文書中に存在する当該回答の他に関連する情報によって根拠文書を分類して表示することができるので、ユーザは当該質問以外に知りたい情報が根拠文書中に存在するか否かあるいは存在する可能性の有無などを容易に把握することができるようになる。そして、当該根拠文書中に知りたい情報が含まれていれば、新たな質問文を入力して検索等を行うことなく、当該根拠文書を閲覧するだけで、当該知りたい情報を得ることができる。
【0081】
なお、以上説明した根拠文書情報付加部6の処理及び出力部7による出力方法の各バリエーションは適宜組み合わせて実施可能である。また、根拠文書情報付加部6の処理及び出力部7による出力方法として、複数のものを用意しておき、ユーザがいずれを使用するかを設定可能にしてもよい。
【0082】
また、以上の説明において、検索対象文書は、プレーンテキストとして示したが、XML文書のように予めタグ付けされた文書でも、同様に実施可能である。この場合、回答カテゴリの情報として予めタグ付けされた情報を用いることも可能である。
【0083】
また、以上の説明において、回答種別と回答カテゴリとは1対多対応のものと定義したが、回答種別と回答カテゴリとが同じ名前である場合や、回答種別と回答カテゴリとが多対多対応又は多対1対応の場合でも、同様に実施可能である。
【0084】
また、以上の説明において、回答カテゴリとして“人名”,“地名”のような上位概念タグを用いたが、“定義表現”,“手段表現”のようなメタ概念をタグとして用いた場合にも、同様に実施可能である。
【0085】
また、以上の説明において、形態素解析や構文解析の手段を特に明示的に用いることはなかったが、各処理においてこれらの手段を用いた場合にも、同様に実施可能である。この場合、形態素解析辞書へのカテゴリ属性の付与や、構文パターンマッチによるカテゴリ同定を行うことも可能である。
【0086】
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
【0087】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0088】
【発明の効果】
本発明によれば、質問文に対する回答を提示するにあたって、その根拠文書に含まれる情報をも考慮した提示が可能になる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る質問応答システムの構成例を示す図
【図2】文書データベースの情報の一例を示す図
【図3】回答候補データベースの情報の一例を示す図
【図4】同実施形態に係る質問応答システムの処理手順の一例を示すフローチャート
【図5】検索結果の一例を示す図
【図6】質問パターンデータベースの情報の一例を示す図
【図7】回答種別判別結果の一例を示す図
【図8】抽出された回答候補情報の一例を示す図
【図9】回答文字列と回答カテゴリと根拠文書の文書IDを含む回答情報の一例を示す図
【図10】根拠文書情報テーブルの一例を示す図
【図11】提示情報の表示例を示す図
【図12】根拠文書評価パターンデータベースの情報の一例を示す図
【図13】根拠文書情報テーブルの他の例を示す図
【図14】提示情報の表示例を示す図
【図15】提示情報の表示例を示す図
【符号の説明】
1…入力部、2…文書検索部、3…回答種別判定部、4…回答候補抽出部、5…回答生成部、6…根拠文書情報付加部、7…出力部、11…文書データベース、12…表現カテゴリデータベース、13…回答候補データベース、14…質問パターンデータベース、15…根拠文書情報テーブル
Claims (15)
- 複数の文書を記憶する第1のデータベースと、
この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、
自然言語による質問文を入力するための入力手段と、
前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、
前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、
前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列に対応するカテゴリ情報を取得する取得手段と、
前記回答文字列及び前記回答文字列以外の文字列に対応するカテゴリ情報を含む回答情報を出力する出力手段とを備えたことを特徴とする質問応答装置。 - 前記出力手段は、前記回答情報を出力するにあたって、根拠文書ごとに、当該根拠文書を示す情報と、当該根拠文書について取得されたカテゴリ情報を出力することを特徴とする請求項1に記載の質問応答装置。
- 前記出力手段は、前記回答情報を出力するにあたって更に、前記根拠文書について取得されたカテゴリ情報ごとに、当該カテゴリ情報に対応する前記回答文字列以外の文字列が当該根拠文書に含まれる個数を示す情報を出力することを特徴とする請求項2に記載の質問応答装置。
- 前記出力手段は、前記回答情報を出力するにあたって、前記根拠文書が複数ある場合には、予め定められた評価方法により高く評価される根拠文書から順に、該根拠文書に係るカテゴリ情報を出力することを特徴とする請求項2または3に記載の質問応答装置。
- 前記出力手段は、前記回答情報を出力するにあたって、前記根拠文書を、当該根拠文書について取得されたカテゴリ情報に基づいて分類し、各分類ごとに当該分類に属する根拠文書を示す情報及びその分類に係るカテゴリ情報を出力することを特徴とする請求項2に記載の質問応答装置。
- 前記出力手段は、前記回答情報を出力するにあたって、予め定められた評価方法により最も高く評価される根拠文書については、当該根拠文書の内容を出力することを特徴とする請求項1に記載の質問応答装置。
- 複数の文書を記憶する第1のデータベースと、
この第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースと、
自然言語による質問文を入力するための入力手段と、
前記質問文に基づいて、前記第1のデータベースを検索する検索手段と、
前記検索手段により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出手段と、
前記第2のデータベースを参照して、前記検索手段により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得手段と、
前記根拠文書について、前記第1のカテゴリ情報及び前記第2のカテゴリ情報に基づく予め定められた評価方法により、前記根拠文書を評価する評価手段と、前記回答文字列と、前記評価手段による評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力手段とを備えたことを特徴とする質問応答装置。 - 前記評価手段は、前記根拠文書を評価するにあたって、第1のカテゴリ情報と第2のカテゴリ情報との組み合わせごとに決定された評価点を示す情報を記憶する第3のデータベースを参照し、当該根拠文書から取得された各々の前記第1のカテゴリ情報から定まる評価点と前記第2のカテゴリ情報から定まる評価点を総計して得た値を、当該根拠文書の評価値とすることを特徴とする請求項7に記載の質問応答装置。
- 前記出力手段は、前記評価手段により最も高く評価された根拠文書の内容を出力することを特徴とする請求項7に記載の質問応答装置。
- 前記抽出手段は、前記質問文に基づいて該質問文に対する回答文字列に対応するカテゴリ情報が満たすべき条件を求め、
前記取得手段は、前記第2のデータベースにおいて前記検索手段により検索された文書について記憶されているカテゴリ情報のうち、前記条件を満たすカテゴリ情報を求め、
前記抽出手段は、前記第2のデータベースにおいて前記条件を満たすカテゴリ情報と対応付けて記憶されている文字列を、前記回答文字列とすることを特徴とする請求項1または7に記載の質問応答装置。 - 前記第1のデータベースに記憶された文書から回答候補となる文字列を抽出し、該回答候補となり得る文字列に、回答候補としてのカテゴリを示すカテゴリ情報を付与し、該文書につき、該文字列と該カテゴリ情報とを対応付けて前記第2のデータベースに記憶する手段を更に備えたことを特徴とする請求項1または7に記載の質問応答装置。
- 自然言語による質問文を入力するための入力ステップと、前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索ステップと、
前記検索ステップにより検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出ステップと、
前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索ステップにより検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列に対応するカテゴリ情報を取得する取得ステップと、
前記回答文字列及び前記回答文字列以外の文字列に対応するカテゴリ情報を含む回答情報を出力する出力ステップとを有することを特徴とする質問応答方法。 - 自然言語による質問文を入力するための入力ステップと、前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索ステップと、
前記検索ステップにより検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出ステップと、
前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索ステップにより検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得ステップと、
前記根拠文書について、前記第1のカテゴリ情報及び前記第2のカテゴリ情報に基づく予め定められた評価方法により、前記根拠文書を評価する評価ステップと、
前記回答文字列と、前記評価ステップによる評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力ステップとを有することを特徴とする質問応答方法。 - 質問応答装置としてコンピュータを機能させるためのプログラムであって、
自然言語による質問文を入力するための入力機能と、
前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索機能と、
前記検索機能により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出機能と、
前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索機能により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列に対応するカテゴリ情報を取得する取得機能と、
前記回答文字列及び前記回答文字列以外の文字列に対応するカテゴリ情報を含む回答情報を出力する出力機能とをコンピュータに実現させるためのプログラム。 - 質問応答装置としてコンピュータを機能させるためのプログラムであって、
自然言語による質問文を入力するための入力機能と、
前記質問文に基づいて、複数の文書を記憶する第1のデータベースを検索する検索機能と、
前記検索機能により検索された文書中から、前記質問文に対する回答となる回答文字列を抽出する抽出機能と、
前記第1のデータベースに記憶された各文書毎に、前記文書に含まれる回答候補になり得る文字列と、この文字列の回答候補としてのカテゴリを示すカテゴリ情報とを対応付けて記憶する第2のデータベースを参照して、前記検索機能により検索された文書のうち前記回答文字列を含む前記文書である根拠文書中に含まれる前記回答文字列以外の文字列の各々に対応する第1のカテゴリ情報及び前記回答文字列に対応する第2のカテゴリ情報を取得する取得機能と、
前記根拠文書について、前記第1のカテゴリ情報及び前記第2のカテゴリ情報に基づく予め定められた評価方法により、前記根拠文書を評価する評価機能と、前記回答文字列と、前記評価機能による評価結果に基づいて選択した予め定められた文書数の根拠文書の内容とを出力する出力機能とをコンピュータに実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188988A JP4057962B2 (ja) | 2003-06-30 | 2003-06-30 | 質問応答装置、質問応答方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188988A JP4057962B2 (ja) | 2003-06-30 | 2003-06-30 | 質問応答装置、質問応答方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005025418A true JP2005025418A (ja) | 2005-01-27 |
JP4057962B2 JP4057962B2 (ja) | 2008-03-05 |
Family
ID=34187348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003188988A Expired - Fee Related JP4057962B2 (ja) | 2003-06-30 | 2003-06-30 | 質問応答装置、質問応答方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4057962B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113400A (ja) * | 2009-11-27 | 2011-06-09 | Fujitsu Ltd | 説得支援装置、説得支援プログラム及び説得支援方法 |
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
JP2013519947A (ja) * | 2010-02-10 | 2013-05-30 | エムモーダル アイピー エルエルシー | 質問応答システムにおける関連する証拠への計算可能なガイダンスの提供 |
JP2016177477A (ja) * | 2015-03-19 | 2016-10-06 | ヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
CN110597952A (zh) * | 2019-08-20 | 2019-12-20 | 深圳壹账通智能科技有限公司 | 信息处理方法、服务器及计算机存储介质 |
JP2021507350A (ja) * | 2017-12-15 | 2021-02-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複雑な回答の補強証拠取り出し |
US10950329B2 (en) | 2015-03-13 | 2021-03-16 | Mmodal Ip Llc | Hybrid human and computer-assisted coding workflow |
-
2003
- 2003-06-30 JP JP2003188988A patent/JP4057962B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113400A (ja) * | 2009-11-27 | 2011-06-09 | Fujitsu Ltd | 説得支援装置、説得支援プログラム及び説得支援方法 |
JP2013519947A (ja) * | 2010-02-10 | 2013-05-30 | エムモーダル アイピー エルエルシー | 質問応答システムにおける関連する証拠への計算可能なガイダンスの提供 |
US9082310B2 (en) | 2010-02-10 | 2015-07-14 | Mmodal Ip Llc | Providing computable guidance to relevant evidence in question-answering systems |
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
US10950329B2 (en) | 2015-03-13 | 2021-03-16 | Mmodal Ip Llc | Hybrid human and computer-assisted coding workflow |
JP2016177477A (ja) * | 2015-03-19 | 2016-10-06 | ヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
JP2021507350A (ja) * | 2017-12-15 | 2021-02-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複雑な回答の補強証拠取り出し |
JP7232831B2 (ja) | 2017-12-15 | 2023-03-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複雑な回答の補強証拠取り出し |
CN110597952A (zh) * | 2019-08-20 | 2019-12-20 | 深圳壹账通智能科技有限公司 | 信息处理方法、服务器及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4057962B2 (ja) | 2008-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103229162B (zh) | 使用候选答案逻辑综合提供问题答案 | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
KR101450358B1 (ko) | 구조형 지리적 데이터 검색 | |
US9846744B2 (en) | Media discovery and playlist generation | |
KR101661198B1 (ko) | 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템 | |
JP2017504105A (ja) | インメモリデータベースサーチのためのシステム及び方法 | |
JP4200834B2 (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
JPH11224256A (ja) | 情報検索方法および情報検索プログラムを記録した記録媒体 | |
KR102256007B1 (ko) | 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 | |
US9875298B2 (en) | Automatic generation of a search query | |
JP4057962B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
JP2003150624A (ja) | 情報抽出装置および情報抽出方法 | |
Geleijnse et al. | Automatic Ontology Population by Googling. | |
JP2004078446A (ja) | キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
US20120317103A1 (en) | Ranking data utilizing multiple semantic keys in a search query | |
JP2005234772A (ja) | 文書管理装置および方法 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3910823B2 (ja) | アンケート分析装置、アンケート分析方法及びプログラム | |
JP2006072844A (ja) | キーワード特定装置、キーワード特定方法及びキーワード特定プログラム | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2004287696A (ja) | 検索システム及び検索プログラム | |
JP2002015001A (ja) | 概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム | |
JP2004178167A (ja) | 情報検索方法及び装置 | |
JP2005234635A (ja) | 文書要約装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071214 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |