JP4116599B2 - 質問応答システム、方法及びプログラム - Google Patents

質問応答システム、方法及びプログラム Download PDF

Info

Publication number
JP4116599B2
JP4116599B2 JP2004217904A JP2004217904A JP4116599B2 JP 4116599 B2 JP4116599 B2 JP 4116599B2 JP 2004217904 A JP2004217904 A JP 2004217904A JP 2004217904 A JP2004217904 A JP 2004217904A JP 4116599 B2 JP4116599 B2 JP 4116599B2
Authority
JP
Japan
Prior art keywords
answer
question
candidate
user
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004217904A
Other languages
English (en)
Other versions
JP2006039881A (ja
Inventor
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004217904A priority Critical patent/JP4116599B2/ja
Publication of JP2006039881A publication Critical patent/JP2006039881A/ja
Application granted granted Critical
Publication of JP4116599B2 publication Critical patent/JP4116599B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、自然言語により表現された質問文に対して回答を提示する質問応答システム、方法及びプログラムに関する。さらに特定すれば、この発明はシステムが提示した複数の回答候補の中からユーザが正解を選択したり、正解が回答候補に存在しない場合にユーザが正解を入力するなどの方法により、ユーザからのフィードバックにより得られた質問文に対する正解を利用して回答の精度を高める技術に関するものである。
一般に、文書検索システムでは例えば富士山の高さが知りたい場合、まずユーザは「富士山」「高さ」などのキーワード集合を選択し、次にキーワード検索により「富士山の高さ」に関する文書を検索し、最後に検索された文書をユーザが読んで「富士山の高さ」に関する記述を探すという手順を踏む必要がある。
これに対して、質問応答システムでは質問に対する回答を直接提示する。例えば、ユーザが「富士山の高さは何メートルですか?」という質問を入力すると、質問応答システムは「富士山の高さ」に関する文書の検索結果を提示するのではなく、「3776メートル」という回答を提示する。
このような質問応答システムの例は、例えば特許文献1に記載されている。特許文献1に記載された質問応答システムでは、ユーザが自然言語表現の質問文を入力すると、まず質問文から検索キーワード集合を抽出すると同時に、質問文の持つ質問タイプ(質問が要求する回答の種類)を判定する。次に、検索キーワード集合を用いて文書データベースの文書集合から関連する文書を検索し、この関連文書の中から質問タイプに合致する単語または単語列を回答として抽出する。
例えば、「富士山の高さは何メートルですか?」という質問文に対して、まず「富士山」「高さ」及び「メートル」というキーワード集合を抽出し、同時に、質問タイプを「数値(単位:メートル)」と判定する。次に、検索された文書集合における検索キーワードの周囲のテキストから、単位がメートルである数量表現を構成する単語列を回答候補として抽出する。最後に、検索キーワードと回答候補の距離や回答候補の出現回数などに基づいて各回答候補の尤度を求め、尤度の高い順に回答候補を表示してユーザに提示する。
特開2002−132811号公報
特許文献1に記載された質問応答システムは、ユーザが入力した質問文に対してシステムが回答候補を提示するだけであり、システムに対してユーザが何らかのフィードバックを行うようなことは全く想定していない。
現状の質問応答システムは決して完壁なものではなく、例えばシステムが提示する全ての回答候補が誤っていたり、あるいは誤った回答候補に高い尤度が与えられ、正解の回答候補に低い尤度が与えられて提示されてしまうことが往々にしてある。
このように回答候補の提示が不適切になされている場合、ユーザがそれを認識しても従来の質問応答システムではユーザからのフィードバックの仕組みがないため、回答候補の提示に対するユーザの評価が以後の質問応答処理に反映されない。
従って、本発明は入力される質問文に対して、種々のユーザからのフィードバックを反映させた回答候補を提示可能として回答の精度を高めること目的とする。
上記の課題を解決するため、本発明は入力された質問文に対して回答を提示する質問応答システムにおいて、前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成する質問解析手段と、文書集合を蓄積した文書データベースから前記質問解析手段により生成されたキーワードを検索キーワードとして文書を検索する文書検索手段と、検索された文書から前記回答パターンを用いて第1の回答候補を抽出する回答候補抽出手段と、複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するユーザ回答データ記憶手段と、前記ユーザ回答データ記憶手段から前記入力された質問文に対応する回答データを第2の回答候補として検索する回答検索手段と、前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う際に、前記ユーザ回答データ記憶手段に記憶された回答データを選択または入力したユーザの数に応じた重みを前記第2の回答候補に付与して前記順位付けを行う回答候補順位付け手段と、順位付けられた回答候補をユーザに提示するために表示する回答候補表示手段とを具備し、前記ユーザ回答データ記憶手段は、前記回答候補表示手段により表示された回答候補のうちからユーザが回答候補を選択することによる回答データの入力、またはユーザによる新たな回答データの入力があった場合には、該入力の回答データを質問文に対応させて記憶することを特徴とする。
また、本発明は入力された質問文に対して回答を提示する質問応答方法において、質問解析手段が前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成するステップと、文書検索手段が文書集合を蓄積した文書データベースから前記生成されたキーワードを検索キーワードとして文書を検索するステップと、回答候補抽出手段が検索された文書から前記回答パターンを用いて第1の回答候補を抽出するステップと、ユーザ回答データ記憶手段が複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するステップと、回答検索手段が記憶された回答データのうちから前記入力された質問文に対応する回答データを第2の回答候補として検索するステップと、回答候補順位付け手段が、前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う際に、前記ユーザ回答データ記憶手段に記憶された回答データを選択または入力したユーザの数に応じた重みを前記第2の回答候補に付与して前記順位付けを行うステップと、回答候補表示手段が順位付けられた回答候補をユーザに提示するために表示するステップと、前記ユーザ回答データ記憶手段が、前記回答候補表示手段が表示した回答候補のうちからユーザが回答候補を選択することによる回答データの入力、またはユーザによる新たな回答データの入力があった場合に、該入力の回答データを質問文に対応させて記憶するステップとを具備することを特徴とする。
さらに、本発明によると上述した質問応答の処理をコンピュータに実行させるためのプログラムが提供される。
本発明によれば、種々の質問文に対する正解としてユーザが選択または入力した回答データをユーザ回答データ記憶手段に記憶しておき、入力された質問文に対応して文書データベースから抽出された第1の回答候補とユーザ回答データ記憶手段から検索された第2の回答候補の和集合に対して回答候補の尤度を求めることにより、文書データベースからの回答候補抽出の誤りを救済して回答の精度を向上させることができる。
以下、図面を参照して本発明の実施形態を説明する。
(第1の実施形態)
図1に示されるように、本発明の第1の実施形態に係る質問応答システムは、質問解析部101、文書集合を蓄積した文書データベース103から検索キーワードに従って文書を検索する文書検索部102、回答候補抽出部104、回答候補順位付け部105、回答候補表示部106、ユーザ入力部107、ユーザ回答データ記憶部108及び回答検索部109を有する。
以下、図1の各部について説明すると、まず質問解析部101はユーザにより入力される質問文から文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定した回答パターンを求める。質問解析部102により求められたキーワードは文書検索部102に送られ、回答パターンは回答候補検索部104に送られる。文書データベース103には、入力される質問文に対する回答候補を検索する対象の文書集合が記憶されている。
文書検索部102は、質問解析部101からキーワードを受け取ると、少なくともこれを検索キーワードとして用いて文書データベース102から検索キーワードを含む文書を検索し、検索した文書を回答候補抽出部104に渡す。回答候補抽出部104は、質問解析部101から渡された回答パターンを用いて、文書検索部103により検索された文書から回答候補(第1の回答候補)を抽出し、これを回答候補順位付け部105に渡す。
一方、回答検索部109はユーザにより入力された質問文を質問解析部101を介して受け取ると、入力された質問文に対応する回答データをユーザ回答データ記憶部108から検索し、これを第2の回答候補として回答候補順位付け部105に渡す。
回答候補順位付け部105は、第1の回答候補及び第2の回答候補の和集合の尤度、すなわち各回答候補が入力された質問文に対する正解の回答データである確率を計算し、尤度による順位付けを行う。言い替えれば、回答候補和集合を尤度の高い順に回答候補を並べる。こうして順位付けられた回答候補和集合は回答候補表示部106に送られ、ユーザに提示するために表示される。この際、回答候補和集合の全てを無条件に表示してもよいが、尤度が十分に大きい回答候補、例えば尤度が大きい順に予め定められた数(例えば5個)の回答候補のみ、あるいは尤度がある閾値以上の回答候補のみを回答候補検索部105から回答候補表示部106に渡して表示することが望ましい。
ユーザ入力部107は、ユーザが回答データを選択または入力するための入力装置である。すなわち、ユーザは回答候補表示部106上に表示された回答候補のうちから、質問文に対する正解と考える回答候補を選択して回答データを入力するか、あるいは回答データそのものを例えばキーボードにより入力する。こうして入力された回答データは、質問文と対応付けられてユーザ回答データ記憶部108に記憶される。このような処理を繰り返すことにより、ユーザ回答データ記憶部108には種々の質問文とそれに対応する回答データの組が記憶される。
次に、図2に示すフローチャートを用いて図1の質問応答システムの処理手順について説明する。
ユーザによって質問文が入力されると(ステップS201)、まず質問解析部101が入力された質問文から文書検索のためのキーワード及び回答パターンを生成する(ステップS202)。
次に、ステップS202で求められたキーワードを検索キーワードとして、文書データベース103に蓄積されている文書集合から検索キーワードを含む文書を検索する(ステップS203)。
次に、ステップS203で検索された文書から、回答候補抽出部104により回答パターンを用いて回答候補を抽出する(ステップS204)。
次に、ステップS201で入力された質問文に対する回答候補をユーザ回答データ記憶部108から検索する(ステップS205)。
次に、ステップS202で文書データベース103から検索された第1の回答候補とステップS205でユーザ回答データ記憶部108から検索された第2の回答候補の和集合に対して各回答候補の尤度を計算し、順位付けを行う(ステップS206)。
次に、ステップS206で順位付けがなされた回答候補集合を尤度順、すなわち尤度の高い順に並べて表示することにより、ユーザに対して回答データの選択または入力を促す(ステップS207)。
ユーザは、ステップS207で表示された回答候補の中から、ユーザ入力部107を用いて正解の回答データに相当する回答候補を選択するか、または入力した質問に対する正解の回答データを入力する。このようなユーザの回答データの選択または入力、すなわちユーザからのフィードバックは、質問応答システムの以降の処理に反映される。
次のステップS208では、このようなユーザからのフィードバック(正解の回答データの選択または入力)の有無を調べ、もしフィードバックがあれば、それを入力された質問文に対する回答候補としてユーザ回答データ記憶部に記憶し(ステップS209)、質問応答の処理を終了する。フィードバックがない場合は、ステップS207の表示をもって質問応答の処理を終了する。
上述した本実施形態に係る質問応答システムによると、以下の効果が得られる。
一般的に、質問応答システムが提示する回答候補は正しい場合と間違っている場合がある。適切なユーザインタフェースを用意すれば、質問文に対してシステムが提示した回答候補が正しいか否かをユーザが判定したり、質問文に対する回答をユーザが入力するなどの方法によりユーザからシステムにフィードバックを返すことで、質問応答の精度向上が期待できると考えられる。質問応答サービスを不特定多数のユーザがアクセス可能なポータルサイトの上で提供する場合、毎日数万件以上のアクセスが予想される。もし、上記のようなフィードバックを返してくれるユーザが全体の1%いれば、毎日数百件の正解の回答データが蓄積されることになる。
しかし、このようなフィードバックを利用して質問応答システムの回答の精度を高める方法に関する研究は、これまで全く行われていない。言い換えれば、従来の質問応答システムにおいては、システムが提示した回答候補の正誤をユーザが入力したり、質問文に対する回答をユーザが直接入力することによって、ユーザがシステムにフィードバックを返しても、このフィードバックを利用して質問応答の精度を高めることができない。
ユーザからのフィードバックにより得られた質問文に対する回答データを回答候補として利用する最も単純な方法は、それらの回答データを回答候補として予め記憶しておき、もし入力された質問文に対する回答候補が記憶されていれば、それを無条件に提示するという方法である。しかし、この方法は故意か否かにかかわらず、ユーザが誤った回答をシステムにフィードバックした場合、この誤った回答が無条件に提示されてしまうという問題点がある。
これに対し、本実施形態の質問応答システムでは、入力される質問文の解析により得られた検索キーワードに従って検索された文書から回答候補抽出部104により抽出された第1の回答候補に加えて、ユーザ回答データ記憶部108に記憶されている回答データを第2の回答候補として併用する。すなわち、本実施形態の質問応答システムでは回答候補順位付け部105により第1の回答候補と第2の回答候補の和集合について尤度による順位付けを行い、それらを回答候補表示部106で表示することによって、ユーザは尤度のより高い回答候補から適切な回答を見出すことになる。
ここで、第2の回答候補はユーザからのフィードバック、すなわちユーザ入力部107によるユーザの選択または入力に基づいてユーザ回答データ記憶部108に記憶されている回答データである。従って、回答候補表示部106で表示される回答候補集合は複数のユーザによるフィードバックを反映しているため、回答の精度(再現率)が向上する。
一方、もしユーザ回答データ記憶部108に誤った回答データが記憶されている場合、そのような回答データは回答候補順位付け部105において低尤度の回答候補として扱われる。従って、前述のように尤度が大きい順に予め定められた数の回答候補のみ、あるいは尤度がある閾値以上の回答候補のみを回答候補表示部106に渡して表示することによって、ユーザに提示される回答候補から誤った回答候補を排除することが可能となる。
(第2の実施形態)
次に、本発明のより具体的な第2の実施形態について説明する。質問応答サービスを不特定多数のユーザがアクセス可能なボータルサイトで提供する場合、質問文の分布はいわいる「Zipfの法則」に従うと想定される。すなわち、「頻出質問」と呼ぶべき、少数だが出現頻度の大きい質問が存在する。このような頻出質問に対しては、システム管理者が予め正解を作成し、システム回答データベースに記憶しておくことが有効である。
しかし、システム回答データとユーザ回答データをどのように組み合わせて利用するかという問題に関する研究は従来なされていない。そこで、本実施形態ではシステム回答データとユーザ回答データを有効に組み合わせて利用することで、より効果的な質問応答を可能とする。
図3に示されるように、本実施形態の質問応答システムは質問解析部301、インターネット(Web)303を検索するWeb検索部302、回答候補抽出部304、回答候補順位付け部305、回答候補表示部306、ユーザ入力部307、ユーザ回答データ記憶部308、回答検索部309、質問ログデータ記憶部310、質問頻度計算部311、質問頻度データ記憶部312、回答作成部313及びシステム回答データ記憶部314を有する。
すなわち、文書データベースとしてインタネット303を利用し、Web検索部302を文書検索部としている。さらに、第2の実施形態では第1の実施形態の要素に加えて質問ログデータ記憶部310、質問頻度計算部311、質問頻度データ記憶部312、回答作成部313及びシステム回答データ記憶部314が追加されている。以下、図3の各部について詳細に説明する。
[質問解析部301]
質問解析部301は、第1の実施形態と同様に入力された質問文から文書検索のためのキーワードを作成し、文書から抽出すべき回答の種類及び単語配列を規定した回答パターンを決定する。より具体的には、質問解析部301は質問文の単語分割及び品詞付与を行い、名詞・形容詞・副詞などの内容語、及びカタカナ列・英文字列・数字列などのキーワードになりやすい未知語を文書検索のためのキーワードとして抽出する。例えば、「鉄腕アトムの誕生日は?」という質問文に対しては、「鉄腕アトム」「誕生日」がキーワード集合として抽出される。
次に、質問解析部301は質問解析規則を用いて回答パターンを決定する。回答パターンとは、質問文が要求している回答が満たすべき条件のことであり、質問タイプと呼ぶこともある。図4に具体例を示すように、質問解析規則は質問パターンと回答パターンの組から構成される。
質問解析部301は、ある質問解析規則の質問パターンが入力された質問文と照合した場合、対応する回答パターンをその質問文の回答パターンとして選ぶ。質問パターン及び回答パターンは、表記・品詞・意味カテゴリ・固有表現クラスなどを構成要素とする正規表現を用いて記述される。図4では、意味カテゴリは記号‘[’と記号‘]’で囲んで表現し、また固有表現クラスは記号‘<’と記号‘>’で囲んで表現している。
例えば、“[組織]はどこ?”のように、もし質問文の最後の名詞の意味カテゴリが[組織]であれば、文書集合から固有表現クラスが<組織名>の固有表現を第1の回答候補として抽出する。もし質問文が“サイトはどこ?”または“URLはどこ?”という文字列と照合すれば、http://.+で始まる英数字列を第1の回答候補として抽出する。もし質問文が“どこ?”という文字列を含む以外に何も手掛かりがなければ、固有表現クラスが<地名>の固有表現を第1の回答候補として抽出する。
本実施形態では、固有表現クラスとして少なくとも「人名」「地名」「組織名」及び「固有物名」の4種類を使用する。また、単語の意味カテゴリとして、例えば参考文献1:NTTコミュニケーション科学研究所監修、「日本語語彙体系」岩波書店、1997発行、に記述されたものを使用する。
質問解析部301においてキーワードを作成する際に、質問文から抽出したキーワードに加えて、質問文に対してユーザ回答データ記憶部308から検索された回答候補(第2の回答候補)を利用し、これらを検索キーワード集合として用いてもよい。例えば、もしWeb検索部302において必須キーワード(文書中に必ず出現するという検索条件)と任意キーワード(文書中に出現しなくてもよいという検索条件)を検索キーワードとして指定できる場合には、質問文から抽出されたキーワードを必須キーワードとし、ユーザ回答データ記憶部308から検索された回答候補を任意キーワードとして文書検索を行ってもよい。
一般に、質問文から抽出されたキーワードと正解は近接して共起する可能性が高い。もしユーザ回答データ記憶部308から検索された第2の回答候補が正解ならば、それを任意キーワードに加えることによって、質問文から抽出されたキーワードとユーザ回答データ記憶部308から検索された回答候補が近接して共起する文書がWeb検索部302で検索される可能性が高くなる。その場合、ユーザ回答データ記憶部308から検索された回答候補は、回答候補順位付け部305により尤度は高いと判断される。逆に、ユーザ回答データ記憶部308から検索された第2の回答候補が正解でない場合には、近接する文書は検索されない可能性が高いので、検索された回答候補の尤度は低いと判断される。
[Web検索部302]
Web検索部302は、質問解析部301が作成したキーワード集合を用いてインターネット(Web)303からWeb文書を検索する。すなわち、本実施形態では文書データベースとしてインターネット303を使用する。文書検索部に相当するWeb検索部302としては、キーワードの周囲のテキストを取得可能なインターネット検索エンジンを使用する。Web検索部302は、キーワード検索が可能でかつキーワードの周囲のテキストを取得できるものならば何でもよい。キーワード検索が可能でかつ当該キーワードの周囲のテキスト(KWIC)を表示できるインターネット検索エンジンとしては、例えばgoo (http://goo.ne.jp)がある。
一般に、あるキーワードの周囲のテキストはKWIC(keyword in context)と呼ばれる。キーワードの周囲のKWICは、ユーザからのキーワードで表現された情報検索要求が、検索された文書と適合しているか否かをユーザが判定するのに役立つので、近年では多くのインターネット検索エンジンが文書のタイトル及びURLの他にKWICを検索結果の一部として表示している。以降では、検索エンジンが作成したキーワードの周囲のテキストのことを単にKWICまたは「概要文」と呼ぶことにする。
ちなみに、キーワードの周囲のテキストを抽出する技術、より一般的には長い文書の中からキーワードに関連する一部分を取り出す技術は、「パッセージ検索」と呼ばれる。質問応答のためのパッセージ検索の実現法については、例えば参考文献2:Stefanie Tellex, Boris Katz, Jimmy Lin, Aaron Fernandes, and Gregory Marton, “Quantitative Evaluation of Passage Retrieval Algorithms for Question Answering” , SIGIR-2003, pp. 41-47に詳しい。
[回答候補抽出部304]
回答候補抽出部304は、質問解析部301により決定された回答パターンを用いて、Web検索部302により検索された文書から回答候補(第1の回答候補)を抽出する。本実施形態では、インターネット検索エンジンにより検索された文書を当該文書を蓄積したURL(Uniform Resource Locater)からダウンロードし、文書全体から回答候補を抽出するのではなく、インターネット検索エンジンが検索結果の一部として表示した、当該文書中のキーワードの周囲のテキスト(KWIC)から回答候補を抽出する。
このように検索された文書をダウンロードせず、さらに文書全体ではなくKWIC、すなわち概要文だけを回答候補の抽出対象とすることにより、システムの応答時間を大幅に短縮できる。この場合、回答候補抽出部304はまず概要文の単語分割・品詞付与・固有表現抽出を実行し、次いで質問解析部301により決定された回答パターンと照合する単語列を回答候補として抽出する。
[回答検索部309]
回答検索部309は、少なくともユーザ回答データ記憶部308から、入力された質問文に対する回答データを回答候補(第2の回答候補)として検索する。回答検索の対象としては、ユーザ回答データ記憶部308に記憶されている、ユーザにより選択または入力された回答データのみでなく、例えば質問応答システムのシステム管理者が予め作成してシステム回答データ記憶部314に記憶させた正解の回答データ(これをシステム回答データと呼ぶ)を用いてもよい。
[質問ログデータ記憶部310〜システム回答データ記憶部314]
システム回答データ記憶部314には、例えば以下のような手順によって作成されるシステム回答データが記憶される。
まず、ユーザが過去に入力した全ての質問文を表す質問ログデータを質問ログデータ記憶部310に記憶しておく。次に、質問頻度計算部311によって質問ログデータ記憶部310に記憶されている質問ログデータから各質問文の頻度、すなわち同一の質問文が入力された回数を質問文毎に求め、この入力回数を示す質問頻度データを質問頻度データ記憶部312に記憶する。次に、質問頻度データから入力回数すなわち頻度が一定値以上の質問文から順に選択した予め指定された数の質問文に対する正解の回答データを回答作成部313により作成し、システム回答データ記憶部314に記憶する。
回答作成部313による回答データの作成方法は、質問文に対する正解が得られる方法であれば何でも良い。例えば、高頻度の質問文の集合に対して質問応答システムをバッチ的に使用し、得られる回答候補を人手でチェックして、正解を選択または入力する方法を用いることができる。
ポータルサイト上で質問応答サービスを提供する場合には、実時間(約1秒以内)で応答するために、回答候補抽出部304が回答候補を抽出する対象を限定する必要がある。このため、本実施形態では検索された文書をダウンロードせず、上位10件の検査結果の概要文だけを回答候補の抽出対象としている。一方、システム回答データ記憶部314に記憶するシステム回答データの作成は実時間で行う必要はないので、システム回答データの作成時には回答候補の探索範囲を大幅に広げることが可能であり、より高精度な回答抽出を期待できる。従って、精度が高い分だけ人手によるチェックの手間を削減することができる。
[回答候補順位付け部305]
回答候補順位付け部305は、基本的には第1の実施形態と同様であり、回答候補抽出部304により文書集合から抽出した第1の回答候補と回答検索部309によりユーザ回答データ記憶部308から検索した第2の回答候補の和集合を求める。次に、回答候補順位付け部305は以下の3つの観点から各回答候補の尤度を求める。
(1)検索結果のより上位の文書の概要文に出現する回答候補の方が尤もらしい;
(2)検索キーワードの近くに出現する回答候補の方が尤もらしい;
(3)何度も出現する回答候補の方が尤もらしい。
本実施形態では、上記の3つの観点を考慮した回答候補の尤度Saを以下のように定義する。
Figure 0004116599
回答候補の尤度Saは、Web検索部302であるインターネット検索エンジンによる検索結果の上位Nd個の文書を対象として計算する。ここでは、Nd=10としている。数式(1)において、iはインターネット検索エンジンによる文書の順位である。Nsiはi番目の文書の概要文に含まれる文の数を表し、Nqwは検索キーワードの数を表す。Djkは文jにおける回答候補と検索キーワードk間の最短距離である。Wiはi番目の文書の概要文を重みであり(ΣWi=1)、Cは回答候補と検索キーワード間の距離に対する重みである。
回答候補と検索キーワード間の距離は、単語数を単位として一つの文の中でのみ計測する。インターネット検索エンジンでは、一つの文書の異なる箇所から抽出した複数の文を連結して一つの概要文を作成する場合があるためである。exp(-d2 jk/C)の値域は[0, 1](0以上、1以下)なので、尤度Saは0と1の間に正規化されている。尤度Saは厳密な意味では確率ではないが、実用的には確率と同様に使うことができる。
尤度を計算する回答候補集合に、ユーザ回答データ記憶部308から検索した第2の回答候補を加えることは、当該回答候補が正解であり、かつ検索された文書の概要文に当該回答候補が出現しているにもかかわらず、何らかの理由で回答候補抽出部304により回答候補として抽出されなかった場合の救済措置として非常に有効である。
文書の概要文から正解が抽出されない原因としては、
(a)そもそも適切な回答パターンが存在しない;
(b)質問解析規則の不備により、適切な回答パターンの選択に失敗した;
(c)適切な回答パターンを選択したが、形態素解析または固有表現抽出の誤りや意味カテゴリ辞書の不備(単語に意味カテゴリが付与されていない)により、文書の概要文と回答パターンとの照合に失敗した;など、様々なケースが存在する。
ユーザ回答データ記憶部308から検索された第2の回答候補の文字列がWeb検索部302により検索された文書の概要文に出現していれば、その回答候補の尤度Saが計算される。もし尤度Saが大きければ、その回答候補は正解である可能性が高い。逆に、もしユーザ回答データ記憶部308から検索された第2の回答候補が誤りである場合、概要文の中で検索キーワードの周囲に出現する可能性は非常に低いので、尤度Saは小さな値となる。従って、ユーザが誤った回答候補をフィードバヅクした場合には、尤度Saがある閾値に満たない誤った回答候補を回答候補順位付け部305により排除できる。
ここで、ユーザ回答データ記憶部308から検索された第2の回答候補の尤度を計算する際に、その回答候補を正解として選択または入力してフィードバックしたユーザの数を考慮してもよい。一般に、より多くの異なったユーザがフィードバックした回答候補はより尤もらしい。従って、回答候補をフィードバックしたユーザの数が多いほど当該回答候補の尤度を高くする、すなわちフィードバックしたユーザの数に応じて尤度に重みを付けることが望ましい。
また、ユーザ回答データ記憶部308だけでなく、システム回答データ記憶部314も回答検索の対象とする場合、システム回答データ記憶部314から検索された回答候補に対して、無条件に高い尤度を与えてもよい。あるいは、システム回答データ記憶部314とユーザ回答データ記憶部308を区別せず、上述のように検索された文書の概要文における回答候補の出現状況に応じて尤度を決定してもよい。
[回答候補表示部306]
回答候補表示部306は、尤度が大きい順に回答候補を表示してユーザに提示し、表示された回答候補の中から正解をユーザに選択してもらうか、または質問に対する正しい回答をユーザに直接入力してもらうように促す。
図5は、ユーザインタフェースの例を示す。「鉄腕アトムの誕生日は?」という質問文に対して、尤度の大きい順に5つの回答候補が表示されている。各回答候補の尤度Saの値は、「自信度」として棒グラフの形で表示されている。尤度Saの値は、各回答候補の直下に「かもしれない」「じゃないよね?」などの言語表現でも表示されている。
本実施形態における言語表現と尤度の対応の一例は、以下の通りである。
・ちがいない(≧0.8);
・だよね?(≧0.6);
・かな?(≧0.4);
・かもしれない(≧0.2);
・じゃないよね?(≧0.05);
・わけないか...(≧0)
図5においては、各回答候補の右端に「回答候補の評価」として「役に立った」というラベルを持つチェックボックスが表示されている。このチェックボックスをユーザがチェックすると、その回答候補が、入力された質問文に対する正解としてユーザ回答データ記憶部308に記憶される。
また、図5においては回答候補の下にテキストボックスを用意し、「正しい回答をご存じでしたら入力して下さい」というプロンプト、及び「回答の評価・正しい回答を送信」というボタンを表示している。例えば、質問応答システムの能力を試す目的で、正しい回答を知っている質問文をユーザが入力している場合には、ユーザが当該テキストボックスに文字列を入力すると、それが入力された質問文に対する正解としてユーザ回答データ記憶部308に記憶される。
ちなみに、図5において「正しい」でなく「役に立った」というラベルを使用している理由は、「世界で一番美しい女性は誰?」のように、明確な正解が存在しない質問が多数存在するためである。従って、ここではユーザに対して有用な情報を回答として提示できるものを広義の正解と考えている。
なお、本発明は上記した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変形することができる。例えば、実施形態に示される構成要素あるいは処理ステップのうち幾つかを省略してもよいし、異なる実施形態にわたる構成要素あるいは処理ステップを適宜組み合わせてもよい。
本発明の第1の実施形態に係る質問応答システムのブロック図 図1の質問応答システムの処理手順を示すフローチャート 本発明のより具体的な第2の実施形態に係る質問応答システムのブロック図 第2の実施形態における質問解析規則の例を示す図 第2の実施形態における回答候補の表示例を示す図
符号の説明
101…質問解析部
102…文書検索部
103…文書データベース
104…回答候補抽出部
105…回答候補順位付け部
106…回答候補表示部
107…ユーザ入力部
108…ユーザ回答データ記憶部
109…回答検索部
301…質問解析部
302…Web検索部
303…インターネット
304…回答候補抽出部
305…回答候補順位付け部
306…回答候補表示部
307…ユーザ入力部
308…ユーザ回答データ記憶部
309…回答検索部
310…質問ログテータ記憶部
311…質問頻度計算部
312…質問頻度データ記憶部
313…システム回答データ記憶部

Claims (15)

  1. 入力された質問文に対して回答を提示する質問応答システムにおいて、
    前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成する質問解析手段と、
    文書集合を蓄積した文書データベースから前記質問解析手段により生成されたキーワードを検索キーワードとして文書を検索する文書検索手段と、
    検索された文書から前記回答パターンを用いて第1の回答候補を抽出する回答候補抽出手段と、
    複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するユーザ回答データ記憶手段と、
    前記ユーザ回答データ記憶手段から前記入力された質問文に対応する回答データを第2の回答候補として検索する回答検索手段と、
    前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う際に、前記ユーザ回答データ記憶手段に記憶された回答データを選択または入力したユーザの数に応じた重みを前記第2の回答候補に付与して前記順位付けを行う回答候補順位付け手段と、
    順位付けられた回答候補をユーザに提示するために表示する回答候補表示手段とを具備し、
    前記ユーザ回答データ記憶手段は、前記回答候補表示手段により表示された回答候補のうちからユーザが回答候補を選択することによる回答データの入力、またはユーザによる新たな回答データの入力があった場合には、該入力の回答データを質問文に対応させて記憶することを特徴とする質問応答システム。
  2. 前記回答候補順位付け手段は、前記第1の回答候補及び前記第2の回答候補の和集合のうち、尤度が大きい順に予め定められた数の回答候補のみを前記回答候補表示手段に渡すことを特徴とする請求項1に記載の質問応答システム。
  3. 前記回答候補順位付け手段は、前記第1の回答候補及び前記第2の回答候補の和集合のうち、尤度がある閾値以上の回答候補のみを前記回答候補表示手段に渡すことを特徴とする請求項1に記載の質問応答システム。
  4. 前記文書検索手段における文書検索に先立って、前記回答検索手段が前記第2の回答候補の選択を行い、前記文書検索手段が前記質問解析手段により生成されたキーワードに加えて前記第2の回答候補を前記検索キーワードとして用いることを特徴とする請求項1に記載の質問応答システム。
  5. 前記回答候補抽出手段は、前記文書検索手段により検索された文書のうち前記質問解析手段により生成されたキーワードの周囲のテキストから前記第1の回答候補を抽出することを特徴とする請求項1に記載の質問応答システム。
  6. 前記入力された質問文を表す質問ログデータを記憶する質問ログデータ記憶部と、
    前記質問ログデータから前記質問文毎の入力回数を示す質問頻度データを求める質問頻度計算手段と、
    前記質問頻度データに基づいて前記入力回数が一定値以上の質問文に対して予め作成された正解の回答データを記憶するシステム回答データ記憶部とをさらに具備し、
    前記回答検索手段は、前記ユーザ回答データ記憶部及びシステム回答データ記憶部から前記第2の回答候補を検索することを特徴とする請求項1乃至のいずれか1項に記載の質問応答システム。
  7. 前記文書データベースはインターネットであり、前記検索手段はインターネット検索エンジンであることを特徴とする請求項1記載の質問応答システム。
  8. 入力された質問文に対して回答を提示する質問応答方法において、
    質問解析手段が前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成するステップと、
    文書検索手段が文書集合を蓄積した文書データベースから前記生成されたキーワードを検索キーワードとして文書を検索するステップと、
    回答候補抽出手段が検索された文書から前記回答パターンを用いて第1の回答候補を抽出するステップと、
    ユーザ回答データ記憶手段が複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するステップと、
    回答検索手段が記憶された回答データのうちから前記入力された質問文に対応する回答データを第2の回答候補として検索するステップと、
    回答候補順位付け手段が、前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う際に、前記ユーザ回答データ記憶手段に記憶された回答データを選択または入力したユーザの数に応じた重みを前記第2の回答候補に付与して前記順位付けを行うステップと、
    回答候補表示手段が順位付けられた回答候補をユーザに提示するために表示するステップと、
    前記ユーザ回答データ記憶手段が、前記回答候補表示手段が表示した回答候補のうちからユーザが回答候補を選択することによる回答データの入力、またはユーザによる新たな回答データの入力があった場合に、該入力の回答データを質問文に対応させて記憶するステップとを具備することを特徴とする質問応答方法。
  9. 前記回答候補順位付け手段が前記第1の回答候補及び前記第2の回答候補の和集合のうち、尤度が大きい順に予め定められた数の回答候補のみを前記回答候補表示手段に渡すことを特徴とする請求項8に記載の質問応答方法。
  10. 前記回答候補順位付け手段が前記第1の回答候補及び前記第2の回答候補の和集合のうち、尤度がある閾値以上の回答候補のみを前記回答候補表示手段に渡すことを特徴とする請求項8に記載の質問応答方法。
  11. 前記文書検索手段における文書検索に先立って、前記回答検索手段が前記第2の回答候補の選択を行い、前記文書検索手段が前記質問解析手段により生成されたキーワードに加えて前記第2の回答候補を前記検索キーワードとして用いることを特徴とする請求項8に記載の質問応答方法。
  12. 前記回答候補抽出手段が前記文書検索手段により検索された文書のうち前記質問解析手段により生成されたキーワードの周囲のテキストから前記第1の回答候補を抽出することを特徴とする請求項8に記載の質問応答方法。
  13. 質問ログデータ記憶部が前記入力された質問文を表す質問ログデータを記憶するステップと、
    質問頻度計算手段が前記質問ログデータから前記質問文毎の入力回数を示す質問頻度データを求めるステップと、
    システム回答データ記憶部が前記質問頻度データに基づいて前記入力回数が一定値以上の質問文に対して予め作成された正解の回答データを記憶するステップとをさらに具備し、
    前記回答検索手段が前記ユーザ回答データ記憶部及びシステム回答データ記憶部から前記第2の回答候補を検索することを特徴とする請求項8乃至12のいずれか1項に記載の質問応答方法。
  14. 前記文書データベースはインターネットであり、前記検索手段はインターネット検索エンジンであることを特徴とする請求項8記載の質問応答方法。
  15. 入力された質問文に対して回答を提示する処理をコンピュータに実行させるプログラムにおいて、
    質問解析手段が前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成する処理と、
    文書検索手段が文書集合を蓄積した文書データベースから前記生成されたキーワードを検索キーワードとして文書を検索する処理と、
    回答候補抽出手段が検索された文書から前記回答パターンを用いて第1の回答候補を抽出する処理と、
    ユーザ回答データ記憶手段が複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶する処理と、
    回答検索手段が記憶された回答データのうちから前記入力された質問文に対応する回答データを第2の回答候補として検索する処理と、
    回答候補順位付け手段が前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う際に、前記ユーザ回答データ記憶手段に記憶された回答データを選択または入力したユーザの数に応じた重みを前記第2の回答候補に付与して前記順位付けを行う処理と、
    回答候補表示手段が順位付けられた回答候補をユーザに提示するために表示する処理と、
    前記ユーザ回答データ記憶手段が、前記回答候補表示手段が表示した回答候補のうちからユーザが回答候補を選択することによる回答データの入力、またはユーザによる新たな回答データの入力があった場合に、該入力の回答データを質問文に対応させて記憶する処理とを前記コンピュータに実行させるための質問応答プログラム。
JP2004217904A 2004-07-26 2004-07-26 質問応答システム、方法及びプログラム Active JP4116599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004217904A JP4116599B2 (ja) 2004-07-26 2004-07-26 質問応答システム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004217904A JP4116599B2 (ja) 2004-07-26 2004-07-26 質問応答システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006039881A JP2006039881A (ja) 2006-02-09
JP4116599B2 true JP4116599B2 (ja) 2008-07-09

Family

ID=35904826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004217904A Active JP4116599B2 (ja) 2004-07-26 2004-07-26 質問応答システム、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4116599B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113494A1 (ja) * 2008-03-10 2009-09-17 国立大学法人横浜国立大学 Wwwを情報源として記述的な回答が可能な質問応答システム
JP2010211563A (ja) * 2009-03-11 2010-09-24 Kansai Electric Power Co Inc:The 回答支援方法及びシステム
JP2013190985A (ja) * 2012-03-13 2013-09-26 Sakae Takeuchi 知識応答システム、方法およびコンピュータプログラム
JP6192714B2 (ja) * 2012-05-24 2017-09-06 サウンドハウンド,インコーポレイテッド 自然言語処理を可能にするシステム及び方法
US10289729B2 (en) * 2016-03-17 2019-05-14 Google Llc Question and answer interface based on contextual information
JP6860010B2 (ja) * 2016-05-06 2021-04-14 ソニー株式会社 情報処理システム、情報処理方法、および情報処理プログラム
JP7014646B2 (ja) * 2018-03-14 2022-02-01 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP6458183B1 (ja) * 2018-04-05 2019-01-23 アビームコンサルティング株式会社 モータスポーツにおける自動音声回答システム及びプログラム
WO2019239543A1 (ja) * 2018-06-14 2019-12-19 日本電気株式会社 質問応答装置、質問応答方法および記録媒体
CN112905768A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 一种数据交互方法、装置及存储介质
CN116975395B (zh) * 2023-09-22 2024-01-23 安徽淘云科技股份有限公司 错误反馈数据的处理方法、装置、设备以及介质

Also Published As

Publication number Publication date
JP2006039881A (ja) 2006-02-09

Similar Documents

Publication Publication Date Title
CN106663125B (zh) 提问句生成装置以及记录介质
US9965547B2 (en) System and methods for automating trademark and service mark searches
JP4650072B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4881878B2 (ja) マルチリンガル情報検索のためのシステム、方法、ソフトウエア、およびインタフェース
US10552467B2 (en) System and method for language sensitive contextual searching
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
JP2013016172A (ja) データを処理するシステム及び方法
US20080154853A1 (en) English-language translation of exact interpretations of keyword queries
Benajiba et al. Implementation of the ArabiQA question answering system's components
JP4116599B2 (ja) 質問応答システム、方法及びプログラム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2008152522A (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPWO2003034279A1 (ja) 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2009113494A1 (ja) Wwwを情報源として記述的な回答が可能な質問応答システム
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
JP7167997B2 (ja) 文献検索方法および文献検索システム
JP4499179B1 (ja) 端末装置
JPH0844771A (ja) 情報検索装置
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP4860439B2 (ja) 質問文の自動生成システム
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
KR100494113B1 (ko) 웹 브라우저를 이용한 정보 검색 시스템
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080417

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4116599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350