JP4635585B2 - 質問応答システム、質問応答方法及び質問応答プログラム - Google Patents

質問応答システム、質問応答方法及び質問応答プログラム Download PDF

Info

Publication number
JP4635585B2
JP4635585B2 JP2004349796A JP2004349796A JP4635585B2 JP 4635585 B2 JP4635585 B2 JP 4635585B2 JP 2004349796 A JP2004349796 A JP 2004349796A JP 2004349796 A JP2004349796 A JP 2004349796A JP 4635585 B2 JP4635585 B2 JP 4635585B2
Authority
JP
Japan
Prior art keywords
search
question
sentence
answer
pattern information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004349796A
Other languages
English (en)
Other versions
JP2006163491A (ja
Inventor
健 吉岡
真 古木
佳弘 増田
敏哉 山田
隆比古 桑原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004349796A priority Critical patent/JP4635585B2/ja
Publication of JP2006163491A publication Critical patent/JP2006163491A/ja
Application granted granted Critical
Publication of JP4635585B2 publication Critical patent/JP4635585B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子化文書を含む情報源から検索要求に対応する文を検索する質問応答システム、質問応答方法及び質問応答プログラムに関する。
近年、文書作成や情報収集を目的として、ウェブブラウザ上で入力された検索質問文に対して、テキスト形式の回答候補を提示する質問応答システムが研究されている。このようなシステムは、例えば特許文献1乃至3に開示されている。
特許文献1は、形態素解析技術と構文解析技術と意味解析技術を用いて、自然言語データベースから解答を導出する質問応答方式を開示している。特許文献2は、質問文を解析し、検索キーを検出して検索し、一次文書を作成し、これを解析して入力列にない付加的句を一次文書内に検出するものである。特許文献3は、検索語の近傍性を利用した文書検索部を持つ質問応答システムを開示している。いわゆるサーチエンジン等において実現されている検索システムは、入力されたキーワードを含む文を情報源から抽出して利用者に提示する。これに対し、質問応答システムは、検索質問文を解析して、キーワードと、人名に対する質問である等の質問のタイプとを特定し、この解析結果に基づいて情報源を検索して回答候補を抽出し、利用者に対して提示する。
特開昭61−221873号公報 特開平7−56954号公報 特開2004−127131号公報
上述した従来の質問応答システムは、検索結果から回答候補を抽出する場合、情報源から回答候補を含む文を複数抽出し、キーワードの出現頻度等の統計ベースでの処理を行うとともに、その統計ベースでの処理の結果に基づいて回答候補の順位付けを行い、上位の回答候補を提示する。しかし、統計ベースでの処理の結果のみに基づいて回答候補が特定されると、利用者が意図した使われ方をしていないキーワードを含んだ回答候補が上位に提示されてしまうこともあり、検索質問文に対応する適切な回答候補が提示されない場合がある。このため、質問応答システムが出力する回答候補の精度が低いという課題がある。
このような問題を解決すべく、検索質問文と回答候補を含む文の双方について構文解析を行って構文構造を表す構文木を作成し、この構文木を用いて情報源の検索を行うことにより回答候補の抽出を精度良く行う質問応答システムが提案されている。しかしながら、この質問応答システムでは、情報源に含まれる全ての文について、予め構文解析を行っておく必要があり、更には、構文構造が検索質問文とは異なるものの意味として類似する文が、回答候補を含む文であると判断されない場合がある。このため、統計ベースの質問応答システムと同様に、質問応答システムが出力する回答候補の制度が低いという課題がある。
本発明の目的は、上述した問題を解決するものであり、検索質問文に対する適切な回答候補の抽出が可能な質問応答システム、質問応答方法及び質問応答プログラムを提供するものである。
本発明に係る、電子化文書を含む情報源から検索質問文に応答して情報を検索する質問応答システムは、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報を保持する質問・回答パターン情報保持手段と、入力検索質問文に対して構文解析を行い、該入力検索質問文の構文構造を生成する構文解析手段と、質問・回答パターン情報保持手段に保持された質問・回答パターン情報の中から前記構文解析手段により生成された入力検索質問文の構文構造と適合するものを特定する質問・回答パターン情報特定手段と、前記質問・回答パターン情報特定手段により特定された質問・回答パターン情報における検索式に基づいて、前記情報源を検索し、回答候補を抽出する第1の検索実行手段とを有する。
この構成により、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報から入力検索質問文の構文構造と適合するものが特定され、その特定された質問・回答パターン情報における検索式に基づいて情報源が検索されて回答候補が抽出されるため、過去の検索結果を利用した検索質問文に対する適切な回答候補の抽出が可能となる。
好ましくは、本発明に係る質問応答システムは、前記入力検索質問文に含まれる単語に対応する検索式、及び、前記入力検索質問文の構文構造に対応する検索式の少なくともいずれかを用いて前記情報源を検索し、回答候補を抽出する第2の検索実行手段を有し、前記第1の検索実行手段が、前記第2の検索実行手段により回答候補が抽出されなかった場合に、前記情報源を検索する。
この構成により、入力検索質問文に含まれる単語に対応する検索式や入力検索質問文の構文構造に対応する検索式を用いた通常の検索において、回答候補が抽出されなかった場合に、質問・回答パターン情報における検索式に基づいて情報源が検索されるため、情報検索の柔軟性を高め、適切な回答候補の抽出が可能となる。
好ましくは、本発明に係る質問応答システムは、前記入力検索質問文に基づく統計ベースでの前記情報源の検索を行い、回答候補を抽出する第3の検索実行手段と、前記第3の検索実行手段により抽出された回答候補を検索するための検索式を生成する検索式生成手段と、前記入力検索質問文の構文構造と、前記検索式生成手段により生成された検索式とを対応付けた質問・回答パターン情報を生成し、前記質問・回答パターン情報保持手段へ登録する質問・回答パターン情報生成・登録手段とを有する。
好ましくは、本発明に係る質問応答システムは、前記第3の検索実行手段が、前記第1の検索実行手段により回答候補が抽出されなかった場合、及び、前記質問・回答パターン情報特定手段により、前記質問・回答パターン情報保持手段に保持された質問・回答パターン情報の中から前記入力検索質問文の構文構造と適合するものが特定されなかった場合の少なくともいずれかにおいて、前記情報源を検索する。
好ましくは、本発明に係る質問応答システムは、前記検索式生成手段が、前記第3の検索実行手段により抽出された回答候補のうち、所定の選択操作によって選択された回答候補を検索するための検索式を生成する。
入力検索質問文の構文構造が考慮されない統計ベースでの検索によって抽出された回答候補であっても、利用者等により選択された回答候補であれば、入力検索質問文の構文構造との間に何らかの関係があると考えられるため、選択された回答候補を検索するための検索式が生成され、入力検索質問文の構文構造と対応付けられて質問・回答パターン情報として登録されることにより、その後の情報検索において、質問・回答パターン情報に基づく適切な回答候補の抽出が可能となる。
好ましくは、本発明に係る質問応答システムは、前記質問・回答パターン情報における検索質問文の構文構造及び検索式が、所定の単語が変数に置換されたものである。この構成により、変数化された検索質問文の構文構造及び検索式に基づくより柔軟な情報検索が可能となる。
本発明に係る、電子化文書を含む情報源から検索質問文に応答して情報を検索する質問応答方法は、入力検索質問文に対して構文解析を行い、該入力検索質問文の構文構造を生成する構文解析ステップと、予め質問・回答パターン情報保持手段に保持された、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報の中から前記構文解析ステップにおいて生成された入力検索質問文の構文構造と適合するものを特定する質問・回答パターン情報特定ステップと、前記質問・回答パターン情報特定ステップにおいて特定された質問・回答パターン情報における検索式に基づいて、前記情報源を検索し、回答候補を抽出する第1の検索実行ステップとを有する。
好ましくは、本発明に係る質問応答方法は、前記入力検索質問文に含まれる単語に対応する検索式、及び、前記入力検索質問文の構文構造に対応する検索式の少なくともいずれかを用いて前記情報源を検索し、回答候補を抽出する第2の検索実行ステップを有し、前記第1の検索実行ステップが、前記第2の検索実行ステップにより回答候補が抽出されなかった場合に、前記情報源を検索する。
好ましくは、本発明に係る質問応答方法は、前記入力検索質問文に基づく統計ベースでの前記情報源の検索を行い、回答候補を抽出する第3の検索実行ステップと、前記第3の検索実行ステップにおいて抽出された回答候補を検索するための検索式を生成する検索式生成ステップと、前記入力検索質問文の構文構造と、前記検索式生成ステップにおいて生成された検索式とを対応付けた質問・回答パターン情報を生成し、前記質問・回答パターン情報保持手段へ登録する質問・回答パターン情報生成・登録ステップとを有する。
好ましくは、本発明に係る質問応答方法は、前記第3の検索実行ステップが、前記第1の検索実行ステップにおいて回答候補が抽出されなかった場合、及び、前記質問・回答パターン情報特定ステップにおいて前記質問・回答パターン情報保持手段に保持された質問・回答パターン情報の中から前記入力検索質問文の構文構造と適合するものが特定されなかった場合の少なくともいずれかにおいて、前記情報源を検索する。
好ましくは、本発明に係る質問応答方法は、前記検索式生成ステップが、前記第3の検索実行ステップにおいて抽出された回答候補のうち、所定の選択操作によって選択された回答候補を検索するための検索式を生成する。
好ましくは、本発明に係る質問応答方法は、前記質問・回答パターン情報における検索質問文の構文構造及び検索式が、所定の単語が変数に置換されたものである。
本発明に係る、コンピュータに電子化文書を含む情報源から検索質問文に応答して情報を検索させる質問応答プログラムは、入力検索質問文に対して構文解析を行い、該入力検索質問文の構文構造を生成する構文解析ステップと、予め質問・回答パターン情報保持手段に保持された、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報の中から前記構文解析ステップにおいて生成された入力検索質問文の構文構造と適合するものを特定する質問・回答パターン情報特定ステップと、前記質問・回答パターン情報特定ステップにおいて特定された質問・回答パターン情報における検索式に基づいて、前記情報源を検索し、回答候補を抽出する第1の検索実行ステップとを有する。
好ましくは、本発明に係る質問応答プログラムは、前記入力検索質問文に含まれる単語に対応する検索式、及び、前記入力検索質問文の構文構造に対応する検索式の少なくともいずれかを用いて前記情報源を検索し、回答候補を抽出する第2の検索実行ステップを有し、前記第1の検索実行ステップが、前記第2の検索実行ステップにより回答候補が抽出されなかった場合に、前記情報源を検索する。
好ましくは、本発明に係る質問応答プログラムは、前記入力検索質問文に基づく統計ベースでの前記情報源の検索を行い、回答候補を抽出する第3の検索実行ステップと、前記第3の検索実行ステップにおいて抽出された回答候補を検索するための検索式を生成する検索式生成ステップと、前記入力検索質問文の構文構造と、前記検索式生成ステップにおいて生成された検索式とを対応付けた質問・回答パターン情報を生成し、前記質問・回答パターン情報保持手段へ登録する質問・回答パターン情報生成・登録ステップとを有する。
好ましくは、本発明に係る質問応答プログラムは、前記第3の検索実行ステップが、前記第1の検索実行ステップにおいて回答候補が抽出されなかった場合、及び、前記質問・回答パターン情報特定ステップにおいて前記質問・回答パターン情報保持手段に保持された質問・回答パターン情報の中から前記入力検索質問文の構文構造と適合するものが特定されなかった場合の少なくともいずれかにおいて、前記情報源を検索する。
好ましくは、本発明に係る質問応答プログラムは、前記検索式生成ステップが、前記第3の検索実行ステップにおいて抽出された回答候補のうち、所定の選択操作によって選択された回答候補を検索するための検索式を生成する。
好ましくは、本発明に係る質問応答プログラムは、前記質問・回答パターン情報における検索質問文の構文構造及び検索式が、所定の単語が変数に置換されたものである。
本発明によれば、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報から入力検索質問文の構文構造と適合するものが特定され、その特定された質問・回答パターン情報における検索式に基づいて情報源が検索されて回答候補が抽出されるため、過去の検索結果を利用した検索質問文に対する適切な回答候補の抽出が可能となる。
本発明の実施の形態について、図面を参照して具体的に説明する。図1は、質問応答システムの構成例を示す図である。同図に示す質問応答システム100は、検索対象文書である電子化文書を含む情報源である検索対象文書データベース(DB)200から検索質問文に応答して情報を検索するものであり、検索質問文解析部110、情報検索部120、情報抽出部130、回答特定部140、質問・回答パターン情報DB150及び回答提示部160を有する。これらのうち、情報検索部120は、検索式生成部122及び文書検索部124を有し、情報抽出部130は、固有表現抽出部132を有する。また、回答特定部140は、回答候補抽出部142及びパターン情報生成部144を有し、回答提示部160は、文書要約部162を有する。
次に、質問応答システム100による動作を、フローチャートを参照しつつ説明する。図2及び図3は、質問応答システムの動作のフローチャートである。利用者の操作等に応じた検索質問文が入力されると(S101)、検索質問文解析部110は、その入力された検索質問文(入力検索質問文)について、形態素解析を行い、その形態素解析の結果に基づいて、入力検索質問文がどのようなタイプの質問であるのかを解析する(S102)。質問タイプは、例えば、人名についての質問、場所についての質問、数量についての質問、日時についての質問等を挙げることができる。質問タイプの解析方法としては、人手で記述された解析ルールを用いる方法と機械学習アルゴリズムで解析する方法とに分類できる。
また、検索質問文解析部110は、質問タイプの解析(S102)とともに、入力検索質問文に対する形態素解析の結果に基づいて、単語ベースでの入力検索質問文の解析を行い、質問に関係する単語を抽出する(S103)。情報検索部120内の検索式生成部122は、S103において抽出された単語を含んだ単語ベースの検索式を生成する(S104)。そして、情報検索部120内の文書検索部124は、S104において生成された単語ベースの検索式を用いて、検索対象文書DB200を検索し、単語ベースの検索式に含まれる単語を含んだ電子化文書を抽出する。更に、文書検索部124は、抽出した電子化文書から検索式に含まれる単語が存在する文と、その前後の複数の文との集合(パッセージ)を生成する(S105)

図4は、入力検索質問文、検索式に含まれる単語、及び、パッセージの対応関係の一例を示す図である。入力検索質問文が「特別自治区で生まれた大統領は誰ですか?」というものである場合、質問に関係する単語として「特別自治区」及び「大統領」が抽出され、これらを含む単語ベースの検索式が生成される。そして、この単語ベースの検索式を用いた文書検索が行われることにより、「特別自治区」及び「大統領」を含む文と、その前後の文との集合(パッセージ)が生成される。
再び、図2に戻って説明する。情報抽出部130内の固有表現抽出部132は、S105において生成されたパッセージから固有表現を抽出し、この固有表現を、回答候補を含む文(解答候補文)とする(S106)。
更に、回答特定部140内の回答候補抽出部142は、S106においてパッセージから抽出された各回答候補文について、LFG(Lexical Functional Grammar )理論に基づく構文解析を行い、解析結果としての文の格構造、時制、様相、話法等を表現したfunctional structure(f-structure(fs))を生成する(S107)。
LFG理論では、自然言語文を解析することにより、解析結果として文の意味内容が属性−属性値ペアの入れ子構造(マトリックス構造)であるf-structureによって表現される。属性には、SUBJ(主語)、OBJ(目的語)、PRED(述語)、COMP(文が入れ子となっていることを表す)、XCOMP(文が入れ子になっており、且つ、入れ子の文が主語に係っている)、OBL(主語、目的語以外の格要素)、ADJUNCT(助詞を介さない修飾節)等の文の構造を表すものや、ADDRESS(モダリティなど)、TENSE(時制など)等の文の意味を分類するもの等があり、これら属性が階層構造を形成している。また、属性の属性値には、例えばADDRESS属性の場合における、possible(可能表現)、approach(現在完了に相当する表現)、expectation(予期表現)等の値が表される。このf-structureに格納されている言語に関する情報は、一般の係り受け解析レベルの構文木に比べて情報量が豊富である。LFG理論を応用した実用的な自然言語アプリケーションの研究としては、Anette Frank著、「From Parallel Grammar Development towards Machine Translation」、In Proceedings of MT Summit VII、pp. 134-142、1999年があり、この文献では、f-structureを中間言語とみなした機械翻訳手法が提案されている。
また、検索質問文解析部110は、質問タイプの解析(S102)及び単語ベースでの入力検索質問文の解析(S103)とともに、疑問文である入力検索質問文を肯定文に変換して、穴埋め肯定文を生成する(S108)。例えば、入力検索質問文が「特別自治区で生まれた大統領は誰ですか?」である場合、穴埋め肯定文は「特別自治区で生まれた大統領はAです。」となる。
次に、検索質問文解析部110は、S108において生成した穴埋め肯定文について、LFG理論に基づく構文解析を行い、解析結果としてのf-structureを生成する(S109)。図5は、穴埋め肯定文「特別自治区で生まれた大統領はAです。」に対応するf-structureである。
再び、図2に戻って説明する。情報検索部120内の検索式生成部122は、S109において生成された、穴埋め肯定文に対応するf-structureをXML文書に変換し(S110)、当該XML文書に変換後のf-structureに基づいて、文法ベースでの検索式であるXPathを生成する(S111)。図6は、穴埋め肯定文「特別自治区で生まれた大統領はAです。」に対応するf-structureが図5に示すように生成された場合におけるXPathを示す図である。図6に示すXPathは、fsノード下に子孫ノードとしてSUBJが存在しているかを調べるために、軸要素"descendant"とノードチェックの"::SUBJ"を指定している。更に、指定された範囲において、要素名がそれぞれ"PRED"、"ADJUNCT"が並列に存在しているようなXML文書が適合する。SUBJ属性の下にPRED属性とADJUNCT属性(修飾節)が並列に存在するということは、「主語が修飾されている」ということを意味し、図6に示すXPathは「主語が修飾されているような文」の検索に用いられる検索式となる。
S102、S107及びS111の動作終了後、図3に示す動作に移行し、回答特定部140内の回答候補抽出部142は、文法ベースでの回答候補の抽出を行う(S201)。 具体的には、回答候補抽出部142は、S107において生成された各回答候補文に対応するf-structureの中からS111において生成されたXPathに適合するものを抽出する。例えば、XPathが図6に示すものである場合、「特別自治区で生まれた大統領は○○です。」との回答候補文に対応するf-structureは、図7の抽出部分に示すように、SUBJ属性の下にPRED属性及びADJUNCT属性が存在するため、図6に示すXPathに適合するが、「大統領は説明した。」との回答候補文に対応するf-structureは、図8の抽出部分に示すように、SUBJ属性の下にADJUNCT属性が存在しないため、図6に示すXPathに適合しない。更に、回答候補抽出部142は、f-structureがXPathに適合する各回答候補文からS102で得られた質問タイプに適合する単語を抽出して回答候補とする。
次に、回答候補抽出部142は、S201において抽出された回答候補が存在するか否かを判定する(S202)。回答候補が存在する場合には、回答提示部150は、その抽出された回答候補を提示する(S203)。この際、回答提示部150内の文書要約部152を用いて、回答候補が含まれていた回答候補文の要約を生成し、回答候補とともに提示してもよい。要約の生成方法に関しては、回答候補中に含まれる単語を含む文を提示するなど、従来技術を用いることができる。
次に、回答特定部140内のパターン情報生成部144は、S203において提示された回答候補のいずれかが利用者によって選択されたか否かを判定する(S204)。
利用者によって回答候補が選択された場合、パターン情報生成部144は、S108において生成された穴埋め肯定文について所定の単語を変数化したf-structureを生成し、この所定の単語を変数化したf-structureと、S111において生成されたXPathとを対応付けた質問・回答パターン情報を生成し、質問・回答パターン情報DB150へ登録する(S205)。
例えば、S108において、穴埋め肯定文「特別自治区で生まれた大統領はAです。」が生成された場合、S205では、「特別自治区」及び「大統領」を変数化した穴埋め肯定文「Xで生まれたYはAです。」に対応するf-structureが生成され、更に、S111において生成されたXPathと対応付けられて質問・回答パターン情報DB150へ登録される。なお、この場合、「特別自治区」を変数化した「X」については、場所を表す名詞である等の属性に関する情報が付加されるようにしてもよい。これにより、その後の情報検索において、例えば、入力検索質問文が「東京で生まれた政治家は誰ですか?」であった場合には、穴埋め肯定文「Xで生まれたYはAです。」に対応するf-structureに対応付けられたXPathが検索に用いられることが可能となる。
一方、S202において抽出した回答候補が存在しないと判定された場合、回答特定部140内の回答候補抽出部142は、質問・回答パターン情報DB150を検索する(S206)。次に、回答候補抽出部142は、検索の結果、S101において入力された入力検索質問文に対応する質問・回答パターン情報、換言すれば、S109において生成された穴埋め肯定文に対応するf-structureと同一構造のf-structureを有する質問・回答パターン情報が存在するか否かを判定する(S207)。
S109において生成された穴埋め肯定文に対応するf-structureと同一構造のf-structureを有する質問・回答パターン情報が存在する場合、回答候補抽出部142は、文法ベースでの回答候補の抽出を行う(S208)。具体的には、S201とほぼ同様の動作であり、回答候補抽出部142は、S107において生成された各回答候補文に対応するf-structureの中から、S109において生成された穴埋め肯定文に対応するf-structureと同一構造のf-structureを有する質問・回答パターン情報に含まれるXPathに適合するものを抽出する。更に、回答候補抽出部142は、f-structureがXPathに適合する各回答候補文からS102で得られた質問タイプに適合する単語を抽出して回答候補とする。
次に、回答候補抽出部142は、S208において抽出された回答候補が存在するか否かを判定する(S209)。回答候補が存在する場合には、回答提示部150は、その抽出された回答候補を提示する(S203)。
次に、回答特定部140内のパターン情報生成部144は、S203において提示された回答候補のいずれかが利用者によって選択されたか否かを判定する(S204)。
利用者によって回答候補が選択された場合、パターン情報生成部144は、S109において生成された穴埋め肯定文に対応するf-structureについても所定の単語を変数化し、この所定の単語を変数化したf-structureと、S208において用いられたXPathとを対応付けて質問・回答パターン情報を生成し、質問・回答パターン情報DB150へ登録する(S205)。
一方、S209において、回答候補が存在しないと判定した場合、回答候補抽出部142は、統計ベースでの回答候補の抽出を行う(S210)。具体的には、回答候補抽出部142は、S105において生成された各パッセージの中から、S103において抽出された単語の出現頻度の多い所定数を選択し、その選択したパッセージから、S102で得られた質問タイプに適合する単語を抽出して回答候補とする。
次に、回答候補抽出部142は、S210において抽出された回答候補が存在するか否かを判定する(S211)。回答候補が存在しない場合には、一連の動作が終了する。一方、回答候補が存在する場合には、回答提示部150は、その抽出された回答候補を提示する(S203)。
次に、回答特定部140内のパターン情報生成部144は、S203において提示された回答候補のいずれかが利用者によって選択されたか否かを判定する(S204)。
利用者によって回答候補が選択された場合、パターン情報生成部144は、選択された回答候補を含んでいたパッセージ内の文について、構文解析を行ってf-structureを生成する。次に、パターン情報生成部144は、このf-structureから利用者によって選択された回答候補を検索するためのXPathを生成し、その生成したXPathについて所定の単語を変数化する。更に、パターン情報生成部144は、S109において生成された穴埋め肯定文に対応するf-structureについても所定の単語を変数化し、これら所定の単語が変数化されたXPath及びf-structureを対応付けた質問・回答パターン情報を、質問・回答パターン情報DB150へ登録する(S205)。
例えば、図4に示す入力検索質問文が入力されてパッセージが生成された場合を考える。この場合、回答候補抽出部142は、S210における統計ベースでの回答候補の抽出において、質問タイプが人名についての質問であることを考慮し、パッセージ1から「ジェームズ」、パッセージ2から「トーマス」、パッセージ3から「ジェファーソン」をそれぞれ回答候補として抽出する。そして、これら回答候補が提示され、利用者が「ジェームズ」を選択すると、パターン情報生成部144は、S205において、パッセージ1に含まれる文「特別自治区であるセカンドサウスで生まれたジェームズ氏は、後に大統領となった。」に対応するf-structure(図9参照)を生成し、このf-structureから選択された回答候補である「ジェームズ」を、「特別自治区」、「大統領」の単語や、述語である「生まれる」等の構文関係から検索するためのXPath(図10参照)を生成する。更に、パターン情報生成部144は、生成したXPathにおける単語「特別自治区」を変数「X」に置き換えたXPath(図12参照)を生成する。なお、この場合、「特別自治区」を変数化した「X」については、場所を表す名詞である等の属性に関する情報が付加されるようにしてもよい。
そして、パターン情報生成部144は、穴埋め肯定文「特別自治区で生まれた大統領はAです。」について「特別自治区」及び「大統領」を変数化した穴埋め肯定文「Xで生まれたYはAです。」に対応するf-structureを生成し、XPathと対応付けて質問・回答パターン情報として、質問・回答パターン情報DB150へ登録する。
ここで、図10と図12のXPathを比較すると、図10のXPathが検索に用いられた場合には、図11に示すように、「特別自治区で生まれた大統領はAです。」や「特別自治区であるセカンドサウスで生まれたジェームズ氏は、後に大統領になった。」がXPathに適合する文となる。これに対し、図12のXPathが検索に用いられた場合には、「Xで生まれたYはA(回答候補)です。」や「XであるZで生まれたA(回答候補)は、後にYになった。」がXPathに適合する文となる。従って、その後の検索では、例えば、入力検索質問文が「東京で生まれた政治家は誰ですか?」であった場合には、穴埋め肯定文「Xで生まれたYはAです。」と「XであるZで生まれたAは、後にYになった。」に対応するf-structureに対応付けられたXPathが検索に用いられることが可能となる。
このように、本実施形態の質問応答システム100は、単語ベースの検索が行われ、更に文法ベースでの回答候補の抽出が行われた場合において回答候補が抽出されなかった際に、過去の検索結果に基づく質問・回答パターン情報から入力検索質問文を変換した穴埋め肯定文に対応するf-structureと同一構造のf-structureを有する質問・回答パターン情報を特定し、その特定した質問・回答パターン情報におけるXPathに基づいて文法ベースでの回答候補の抽出を行い、単語ベースの検索によって得られた回答候補から適切な回答候補を抽出する。従って、過去の検索結果を利用した柔軟性のある適切な回答候補の抽出が可能となる。
また、質問応答システム100は、質問・回答パターン情報に入力検索質問文を変換した穴埋め肯定文に対応するf-structureと同一構造のf-structureを有するものが存在しない場合や、質問・回答パターン情報におけるXPathに基づく回答候補の抽出ができなかった場合には、統計ベースでの回答候補の抽出を行い、更に、利用者によって回答候補が選択された場合には、その選択された回答候補を検索するためのXPathを生成し、入力検索質問文を変換した穴埋め肯定文に対応するf-structureと対応付けた質問・回答パターン情報を質問・回答パターン情報DB150へ登録する。従って、入力検索質問文を変換した穴埋め肯定文に対応するf-structureが考慮されない統計ベースでの回答候補の抽出であっても、利用者等により選択された回答候補であれば、入力検索質問文との間に何らかの関係があるとみなされて、質問・回答パターン情報が生成、登録されることになり、その後の情報検索において、質問・回答パターン情報に基づく適切な回答候補の抽出が可能となる。更には、質問応答システム100では、質問・回答パターン情報におけるf-structure及びXPathにおいて、所定の単語が変数に置換されており、より柔軟な情報検索が可能となる。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、かかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲内において、種々の変形、変更が可能である。
以上、説明したように、本発明に係る質問応答システム、質問応答方法及び質問応答プログラムによれば、検索質問文に対する適切な回答候補の抽出が可能という効果を奏し、質問応答システム等として有用である。
質問応答システムの構成を示す図である。 質問応答システムの動作の第1のフローチャートである。 質問応答システムの動作の第2のフローチャートである。 入力検索質問文、検索式に含まれる単語、及び、パッセージの対応関係の一例を示す図である。 穴埋め肯定文とf-structureの対応関係の一例を示す図である。 第1のXPathを示す図である。 第1のXPathに適合するf-structureを示す図である。 第1のXPathに適合しないf-structureを示す図である。 回答候補文とf-structureの対応関係の一例を示す図である。 第2のXPathを示す図である。 第2のXPathに適合するf-structureを示す図である。 第3のXPathを示す図である。 第3のXPathに適合するf-structureを示す図である。
符号の説明
100 質問応答システム
110 検索質問文解析部
120 情報検索部
122 検索式生成部
124 文書検索部
130 情報抽出部
132 固有表現抽出部
140 回答特定部
142 回答候補抽出部
144 パターン情報生成部
150 質問・回答パターン情報DB
160 回答提示部
162 文書要約部

Claims (7)

  1. 電子化文書を含む情報源から検索質問文に応答して情報を検索する質問応答システムであって、
    検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報を保持する質問・回答パターン情報保持手段と、
    入力検索質問文に対して構文解析を行い、該入力検索質問文の構文構造を生成する構文解析手段と、
    質問・回答パターン情報保持手段に保持された質問・回答パターン情報の中から前記構文解析手段により生成された入力検索質問文の構文構造と適合するものを特定する質問・回答パターン情報特定手段と、
    前記質問・回答パターン情報特定手段により特定された質問・回答パターン情報における検索式に基づいて、前記情報源を検索し、回答候補を抽出する第1の検索実行手段と、
    前記入力検索質問文に含まれる単語に対応する検索式、及び、前記入力検索質問文の構文構造に対応する検索式の少なくともいずれかを用いて前記情報源を検索し、回答候補を抽出する第2の検索実行手段と、
    前記入力検索質問文に基づく統計ベースでの前記情報源の検索を行い、回答候補を抽出する第3の検索実行手段とを有し、
    前記構文解析手段は、疑問文である入力検索質問文を肯定文に変換し、当該肯定文の所定の単語を変数化した穴埋め肯定文を生成し、かつ当該穴埋め肯定文の構文構造を生成するものであり、
    前記質問・回答パターン情報保持手段は、前記構文解析手段によって生成された穴埋め肯定文の所定の単語を変数化した構文構造と当該穴埋め肯定文の構文構造に基づく文法ベースの検索式とを保持するものであり、
    前記第1の検索実行手段は、前記第2の検索実行手段により回答候補が抽出されなかった場合に前記情報源を検索し、
    前記第3の検索実行手段は、前記第1および第2の検索実行手段により回答候補が抽出されなかった場合に前記情報源を検索することを特徴とする質問応答システム。
  2. 前記第3の検索実行手段により抽出された回答候補を検索するための検索式を生成する検索式生成手段と、
    前記入力検索質問文の構文構造と、前記検索式生成手段により生成された検索式とを対応付けた質問・回答パターン情報を生成し、前記質問・回答パターン情報保持手段へ登録する質問・回答パターン情報生成・登録手段とを有することを特徴とする請求項に記載の質問応答システム。
  3. 前記検索式生成手段は、前記第3の検索実行手段により抽出された回答候補のうち、所定の選択操作によって選択された回答候補を検索するための検索式を生成することを特徴とする請求項に記載の質問応答システム。
  4. コンピュータを用いて行われる電子化文書を含む情報源から検索質問文に応答して情報を検索する質問応答方法であって、
    入力検索質問文に対して構文解析を行い、該入力検索質問文の構文構造を生成する構文解析ステップと、
    予め質問・回答パターン情報保持手段に保持された、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報の中から前記構文解析ステップにおいて生成された入力検索質問文の構文構造と適合するものを特定する質問・回答パターン情報特定ステップと、
    前記質問・回答パターン情報特定ステップにおいて特定された質問・回答パターン情報における検索式に基づいて、前記情報源を検索し、回答候補を抽出する第1の検索実行ステップと、
    前記入力検索質問文に含まれる単語に対応する検索式、及び、前記入力検索質問文の構文構造に対応する検索式の少なくともいずれかを用いて前記情報源を検索し、回答候補を抽出する第2の検索実行ステップと、
    前記入力検索質問文に基づく統計ベースでの前記情報源の検索を行い、回答候補を抽出する第3の検索実行ステップとを有し、
    前記構文解析ステップは、疑問文である入力検索質問文を肯定文に変換し、当該肯定文の所定の単語を変数化した穴埋め肯定文を生成し、かつ当該穴埋め肯定文の構文構造を生成するものであり、
    前記質問・回答パターン情報保持手段は、前記構文解析ステップによって生成された穴埋め肯定文の所定の単語を変数化した構文構造と当該穴埋め肯定文の構文構造に基づく文法ベースの検索式とを保持するものであり、
    前記第1の検索実行ステップは、前記第2の検索実行ステップにより回答候補が抽出されなかった場合に前記情報源を検索し、
    前記第3の検索実行ステップは、前記第1および第2の検索実行ステップにより回答候補が抽出されなかった場合に前記情報源を検索することを特徴とする質問応答方法。
  5. コンピュータに電子化文書を含む情報源から検索質問文に応答して情報を検索させる質問応答プログラムであって、
    入力検索質問文に対して構文解析を行い、該入力検索質問文の構文構造を生成する構文解析ステップと、
    予め質問・回答パターン情報保持手段に保持された、検索質問文の構文構造と該検索質問文に対応する検索式とを対応付けた質問・回答パターン情報の中から前記構文解析ステップにおいて生成された入力検索質問文の構文構造と適合するものを特定する質問・回答パターン情報特定ステップと、
    前記質問・回答パターン情報特定ステップにおいて特定された質問・回答パターン情報における検索式に基づいて、前記情報源を検索し、回答候補を抽出する第1の検索実行ステップと、
    前記入力検索質問文に含まれる単語に対応する検索式、及び、前記入力検索質問文の構文構造に対応する検索式の少なくともいずれかを用いて前記情報源を検索し、回答候補を抽出する第2の検索実行ステップと、
    前記入力検索質問文に基づく統計ベースでの前記情報源の検索を行い、回答候補を抽出する第3の検索実行ステップとを有し、
    前記構文解析ステップは、疑問文である入力検索質問文を肯定文に変換し、当該肯定文の所定の単語を変数化した穴埋め肯定文を生成し、かつ当該穴埋め肯定文の構文構造を生成するものであり、
    前記質問・回答パターン情報保持手段は、前記構文解析ステップによって生成された穴埋め肯定文の所定の単語を変数化した構文構造と当該穴埋め肯定文の構文構造に基づく文法ベースの検索式とを保持するものであり、
    前記第1の検索実行ステップは、前記第2の検索実行ステップにより回答候補が抽出されなかった場合に前記情報源を検索し、
    前記第3の検索実行ステップは、前記第1および第2の検索実行ステップにより回答候補が抽出されなかった場合に前記情報源を検索することを特徴とする質問応答プログラム。
  6. 前記第3の検索実行ステップにおいて抽出された回答候補を検索するための検索式を生成する検索式生成ステップと、
    前記入力検索質問文の構文構造と、前記検索式生成ステップにおいて生成された検索式とを対応付けた質問・回答パターン情報を生成し、前記質問・回答パターン情報保持手段へ登録する質問・回答パターン情報生成・登録ステップとを有することを特徴とする請求項に記載の質問応答プログラム。
  7. 前記検索式生成ステップは、前記第3の検索実行ステップにおいて抽出された回答候補のうち、所定の選択操作によって選択された回答候補を検索するための検索式を生成することを特徴とする請求項に記載の質問応答プログラム。
JP2004349796A 2004-12-02 2004-12-02 質問応答システム、質問応答方法及び質問応答プログラム Expired - Fee Related JP4635585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004349796A JP4635585B2 (ja) 2004-12-02 2004-12-02 質問応答システム、質問応答方法及び質問応答プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004349796A JP4635585B2 (ja) 2004-12-02 2004-12-02 質問応答システム、質問応答方法及び質問応答プログラム

Publications (2)

Publication Number Publication Date
JP2006163491A JP2006163491A (ja) 2006-06-22
JP4635585B2 true JP4635585B2 (ja) 2011-02-23

Family

ID=36665478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004349796A Expired - Fee Related JP4635585B2 (ja) 2004-12-02 2004-12-02 質問応答システム、質問応答方法及び質問応答プログラム

Country Status (1)

Country Link
JP (1) JP4635585B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5540335B2 (ja) * 2010-10-04 2014-07-02 独立行政法人情報通信研究機構 自然言語文生成装置及びコンピュータプログラム
JP6270747B2 (ja) * 2015-01-16 2018-01-31 日本電信電話株式会社 質問応答方法、装置、及びプログラム
CN109753658B (zh) * 2018-12-29 2023-09-19 百度在线网络技术(北京)有限公司 交互方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63216175A (ja) * 1987-03-04 1988-09-08 Nippon Telegr & Teleph Corp <Ntt> 自然言語処理装置と自然言語質問応答装置
JPH07244669A (ja) * 1994-03-04 1995-09-19 Mitsubishi Electric Corp 文書検索方式
JP2970443B2 (ja) * 1994-12-09 1999-11-02 松下電器産業株式会社 文書検索装置
JP3682915B2 (ja) * 2001-03-29 2005-08-17 株式会社ジャストシステム 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム

Also Published As

Publication number Publication date
JP2006163491A (ja) 2006-06-22

Similar Documents

Publication Publication Date Title
US10585924B2 (en) Processing natural-language documents and queries
Reeve et al. Survey of semantic annotation platforms
JP5366810B2 (ja) 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法
US6983240B2 (en) Method and apparatus for generating normalized representations of strings
US6658377B1 (en) Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP2000315216A (ja) 自然言語検索方法および装置
JPH0242572A (ja) 共起関係辞書生成保守方法
Van Cranenburgh et al. Data-oriented parsing with discontinuous constituents and function tags
CA2250694A1 (en) A system, software and method for locating information in a collection of text-based information sources
JP2011118689A (ja) 検索方法及びシステム
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
KR101654717B1 (ko) 지식 데이터베이스 기반 구조화된 질의 생성 방법 및 장치
KR101016110B1 (ko) 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법
JPH0844771A (ja) 情報検索装置
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
Di Buono Information extraction for ontology population tasks. An application to the Italian archaeological domain
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4543819B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP4059501B2 (ja) 自然語辞書更新装置
KR102795067B1 (ko) 대용량 비정형 텍스트 데이터의 키워드 분석 방법 및 프로그램
JP3892227B2 (ja) 機械翻訳システム
JP4114580B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees