JP4654780B2 - 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム - Google Patents

質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP4654780B2
JP4654780B2 JP2005170424A JP2005170424A JP4654780B2 JP 4654780 B2 JP4654780 B2 JP 4654780B2 JP 2005170424 A JP2005170424 A JP 2005170424A JP 2005170424 A JP2005170424 A JP 2005170424A JP 4654780 B2 JP4654780 B2 JP 4654780B2
Authority
JP
Japan
Prior art keywords
sentence
answer
answer candidate
sentences
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005170424A
Other languages
English (en)
Other versions
JP2006344102A (ja
Inventor
大悟 杉原
博 増市
智子 大熊
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005170424A priority Critical patent/JP4654780B2/ja
Priority to US11/298,855 priority patent/US7587389B2/en
Publication of JP2006344102A publication Critical patent/JP2006344102A/ja
Application granted granted Critical
Publication of JP4654780B2 publication Critical patent/JP4654780B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。さらに詳細には、質問文を入力して、質問に対応する回答を提供するシステムにおいて、質問に対して、より的確な回答を提供可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。
昨今、インターネットなどを介したネットワーク通信が盛んになり、様々なサービスがネットワークを介して行なわれている。ネットワークを介したサービスの1つとして検索サービスがある。検索サービスは、例えばネットワーク接続されたパーソナルコンピュータ、携帯端末などのユーザ端末からの検索要求を検索サーバが受信し、検索サーバにおいて、検索要求に応じた処理を実行して処理結果をユーザ端末に送信するサービスである。
例えば、インターネットを介した検索処理を実行する場合、検索サービスを提供しているWebサイトにアクセスし、Webサイトの提示メニューに従って、キーワード、カテゴリなどの検索条件を入力しサーバに送信する。サーバは、これらの検索条件に従って、処理を実行し、処理結果をユーザ端末に表示する。
データ検索処理には様々な態様がある。例えば、ユーザがキーワードを入力し、入力したキーワードを含む文書の一覧情報をユーザに提示するキーワードベースの検索方式や、ユーザが質問文を入力して質問に対する回答を提供するいわゆる質問応答システムなどがある。質問応答システムは、ユーザがキーワードを選択する必要がなく、また、質問に対する回答のみを受領することができるシステムであり利用が広まっている。
例えば特許文献1は、典型的な質問応答システムについて開示している。特許文献1には、ユーザの提示する質問文から検索に適用する検索語(キーワード)と質問種別の判定を行う質問解析部と、検索語(キーワード)に基づく検索処理を実行し、検索語(キーワード)を含む文としての検索結果に対して回答抽出ルールを用いて、回答候補を抽出し、得られた回答をランキング付けして出力するという手順による質問応答システムを開示している。
検索語(キーワード)に基づく検索結果は、例えば文献の記事などであり、複数の文章から構成されるのが一般的である。このような検索結果から、質問に対する回答候補として適切な語を選択する処理について、いかに精度を高めるかが1つの課題である。
例えば、非特許文献1などでは、検索結果に含まれる文章の1つの単位(パッセージ)を可変長の長さの形態素列(窓)として設定し、検索語を含む窓の範囲を検索対象パッセージとして検索し、その検索対象パッセージ部分に対して、予め設定した回答抽出ルールを適用して、効率的な回答候補の抽出を実現する構成を開示している。このように、多くの既存の質問応答システムにおける、回答候補を含むような部分に対する検索は、質問文に含まれているキーワードから近い部分を取得するという思想の元に設計されている。また、非特許文献2では、質問応答システムにおける照応解析、すなわち、検索結果としてのテキスト中に含まれる名詞句や代名詞などの表現の同一性判断を行なうことの重要性を指摘しており、照応解析を適用して回答候補を抽出することが効果的であることを説明している。
特開2002−132811号公報 「Isozaki, H.,"NTT's Question Answering System for NTCIR QAC2",Working Notes of NTCIR−4 Workshop, pp. 326−332 (2004)」 「Jose Luis Vicedo, Antonio Ferrandez ,"Importance of Pronominal Anaphora Resolution in Question Answering Systems", ACL 2000」
上述したように、ユーザの質問に対応する回答を提供する質問応答システムにおいて、検索語(キーワード)に基づく検索結果としての文章から質問に対する回答候補を、いかに効率的にかつ高精度に抽出するかについて、いくつか提案がなされている。しかし、非特許文献1の手法は、回答候補が含まれている部分が、検索キーワードが含まれる文のキーワード近傍にあると推定して回答候補を抽出しようとする手法であり、この手法では、検索文書の文脈を考慮していないために、キーワードが最もマッチした文章部分の前後に、適切な回答候補がない場合にはシステムは正しい答えを得ることができないという問題がある。
また、上述の非特許文献2では、照応解析処理を適用することを推奨しているが、検索結果としての文書に対して照応解析処理を適用する場合、検索結果として得られた文書の文脈が入り組んでいる場合には、正しい答えを得ることができない場合があるという問題がある。具体的な例について説明する。
一例として、クライアント(質問ユーザ)からの入力質問文が以下の文であったとする。
質問文「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
この質問が質問応答システムに入力されたとする。この質問において、質問には「どこにありますか?」とあるので、質問応答システムは、「場所」を問う質問であると判別する。この質問タイプの判断処理は、既存の多くの手法において実行されている。
さらに、質問応答システムは、質問文から、検索に適用する検索語(キーワード)を抽出する。ここでは、「マニア、人気、松の木、クリスマスツリー」というキーワードを抽出したと想定し、このキーワードを用いて、文書を検索し、以下のような複数の文からなる1つの記事が検索されたとする。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この記事は、文1〜5から構成された1つの記事であり、「マニア、人気、松の木、クリスマスツリー」というキーワード検索によってデータベース、Webページなどを検索対象(知識源)として検索した結果、抽出された記事である。
この検索結果としての記事中、文2で秦城址公園のクリスマスツリーの話題に触れた後に、文3と文4で一般的なクリスマスツリーの話題に触れ、文5で再び秦城址公園のクリスマスツリーの話題に触れている。
これらの各文1〜5についてのキーワードとのマッチ度について解析する。文2には、2つのキーワード、文5には3つのキーワードが含まれ、キーワードとのマッチ度が高いと判定される。既存の回答候補抽出方法では、質問の答えとして、最もキーワードがマッチした文の近傍の「場所」である文5に含まれる「ニューヨーク」あるいは文4に含まれる「ロックフェラーセンター」が回答候補として優先的に選ばれてしまう。
真の回答である「秦市立城址公園」は、文1に含まれているが、文1には、検索に適用したキーワードが含まれていないため、キーワードとのマッチ度が低い文であると判定され、この文1からの回答候補の抽出は、キーワードとのマッチ度が高い文の近傍における回答候補抽出処理の後に実行されることになり、キーワードとのマッチ度が高い文またはその近傍において有力な回答候補が抽出された場合には、文1からの回答候補の抽出処理自体が実行されない場合もあり、ユーザに対して、真の回答である「秦市立城址公園」が提示されないという結果となる場合がある。これは、従来の回答候補抽出手法が、キーワードとのマッチ度が高い文の近傍に存在する名詞句を優先的に選択して回答候補を選んでいるからである。
しかし、正しい答えは文1の「秦市立城址公園」である。検索の結果、抽出された記事の構成について考察すると、文脈の途中で一般的な話題である文3と文4が挿入され、秦市立城址公園の松ノ木のクリスマスツリーに関する記述が分散されてしまっているために、文1の「秦市立城址公園」を質問文の答えに選ぶことができなくなってしまっている。
ここで、非特許文献2において推奨している照応解析、すなわち、検索結果としてのテキスト中名詞句、代名詞およびゼロ代名詞の表現の同一性判断を行なった場合について考えてみる。図1を参照して、非特許文献2に基づき、既存の照応解析技術を用いて、検索結果として得られた記事に照応解析を施し、文1、文2と文5における照応の関連を捉えた処理を施した場合について説明する。
照応解析では、異なる表現でなされた語の同一性判断を行なう。例えば、照応解析では、図1に示すように、
文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致し異なる表現でなされた同一の実体を指し示している。
文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致しており、さらに、
文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致していることが分かる。
このように、照応解析では、テキスト中の名詞句、代名詞およびゼロ代名詞などの表現の同一性判断がなされる。しかし、従来の照応解析は、表現の同一性判断を行なうのみで、例えば、文1の「秦市立城址公園」を文5に移動するといった処理を行なうものではない。文5は「松の木のクリスマスツリー」の評判が語られているだけであり、「秦市立城址公園」が文5に含むような判断材料がないからである。このように既存の照応解析処理だけでは、複雑な文脈の検索対象をうまくまとめることができず、正しい解答候補の抽出処理が実行されないという問題がある。
本発明は、このような従来手法の問題点に鑑みてなされたものであり、複雑に入り組んでいる文脈構造の文書からも、適切に質問応答の検索結果を効率的に抽出することを可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
質問を入力する質問入力手段と、
入力質問に基づく検索処理を実行する検索手段と、
前記検索手段の検索結果に対して照応解析処理を実行する照応解析手段と、
前記照応解析手段における照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出手段と、
前記情報抽出手段の選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出手段と、
前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段と、
を有する構成であることを特徴とする質問応答システムにある。
さらに、本発明の質問応答システムの一実施態様において、前記質問応答システムは、さらに、前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段を有することを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記情報抽出手段は、検索結果の構成文から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記情報抽出手段は、検索結果の構成文から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文とその近傍の文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記回答選択手段は、前記回答候補抽出手段の抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記情報抽出手段は、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、前記参照関係文を統合して1つの文を生成する処理を実行する構成であり、前記回答候補抽出手段は、前記情報抽出手段において、統合された1つの文を回答候補抽出パッセージに含めて回答候補抽出処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記情報抽出手段は、前記参照関係文を統合して1つの文を生成する処理において、統合対象の文の構文意味解析処理を実行し、構文意味解析結果に基づく文統合処理を実行する構成であることを特徴とする。
さらに、本発明の第2の側面は、
データ検索方法であり、
質問を入力する質問入力ステップと、
入力質問に基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果に対して照応解析処理を実行する照応解析ステップと、
前記照応解析ステップにおける照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出ステップと、
前記情報抽出ステップにおいて選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップと、
を有することを特徴とするデータ検索方法にある。
さらに、本発明のデータ検索方法の一実施態様において、前記データ検索方法は、さらに、前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップを有することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記情報抽出ステップは、検索結果の構成文から、前記検索ステップにおいて適用した検索キーワードに対応する語を、より多く含む文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行するステップを含むことを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記情報抽出ステップは、検索結果の構成文から、前記検索ステップにおいて適用した検索キーワードに対応する語を、より多く含む文とその近傍の文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行するステップを含むことを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記回答選択ステップは、前記回答候補抽出ステップの抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記情報抽出ステップは、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、前記参照関係文を統合して1つの文を生成する処理を実行するステップであり、前記回答候補抽出ステップは、前記情報抽出ステップにおいて、統合された1つの文を回答候補抽出パッセージに含めて回答候補抽出処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記情報抽出ステップは、前記参照関係文を統合して1つの文を生成する処理において、統合対象の文の構文意味解析処理を実行し、構文意味解析結果に基づく文統合処理を実行することを特徴とする。
さらに、本発明の第3の側面は、
データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
質問を入力する質問入力ステップと、
入力質問に基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果に対して照応解析処理を実行する照応解析ステップと、
前記照応解析ステップにおける照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出ステップと、
前記情報抽出ステップにおいて選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
また、名詞句、代名詞あるいはゼロ代名詞のいずれかの表現の参照関係を抽出するのに加えて、さらにこれらの名詞的表現の組合せ、あるいはすべての参照関係を抽出するようにしてもよく、また文レベルにおける照応関係を得ることにより、埋め込み文、または文全体についても参照関係を抽出してもよい。(なお、文全体をも対象に含めた照応解析の一例については、村田真樹、黒橋禎夫、長尾真、"名詞の指示性を利用した日本語文章における名詞の指示対象の推定"、自然言語処理、Vol.3,No.1,1996」を参照。)
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、質問に対する回答を提供するシステムにおいて、入力質問の検索結果に対して、テキスト解析により、少なくともテキスト中に現れる名詞句、代名詞およびゼロ代名詞のいずれかの表現の同一性判断を行なう照応解析を実行し、照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出し、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択して、選択されたパッセージから回答候補を抽出する構成としたので、例えば、回答候補抽出パッセージの選択処理において検索キーワードとのマッチ度に基づくパッセージ選択を行なった場合に、キーワードから離間した位置にある有力な回答候補を見落とすことなく、確実に回答候補として取得し、クライアントに提示することが可能となる。
以下、図面を参照しながら本発明の実施形態に係る質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムの詳細について説明する。
[実施例1]
まず、図2を参照して、本発明の質問応答システムの利用形態の一例について説明する。図2は本発明の質問応答システム200をネットワークに接続したネットワーク構成を示す図である。図2に示すネットワーク100は、インターネットやイントラネットなどのネットワークであり、ネットワーク100には、質問応答システム200に対する質問を送信するユーザ端末としてのクライアント101−1〜n、クライアント101−1〜nに対する回答を取得するための素材としてのWebページを提供する様々なWebページ提供サーバ102A〜Nやデータベース103a〜nが接続されている。
質問応答システム200は、クライアント101−1〜nから、ユーザの生成した様々な質問文を入力し、入力質問に対する回答をクライアント101−1〜nに提供する。質問に対する回答は、Webページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納された文書データなどから取得する。Webページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納されたデータが検索対象データでありコーパス、あるいは情報源、知識源などと呼ばれる。
Webページ提供サーバ102A〜Nは、WWW(World Wide Web)システムによる公開ページとしてWebページを提供する。Webページは、Webブラウザに表示されるデータ集合であり、テキストデータやHTMLによるレイアウト情報、文書中に埋め込まれた画像や音声、動画などによって構成される。Webページの集合はWebサイトであり、Webサイトは、トップページ(ホームページ)とトップページからリンクされた他のWebページで構成される。
質問応答システム200の構成および処理について図3を参照して説明する。質問応答システム200は、ネットワーク100に接続され、ネットワーク100に接続されたクライアントからの質問を受領し、ネットワーク100に接続されたWebページ提供サーバの提供するWebページやその他のデータベースを情報源として回答を検索して、例えば回答候補からなるリストを生成してクライアントに提供する処理を実行する。
本発明の質問応答システムは、クライアントからの質問に対する検索によって得られた検索結果である検索文書に対して、文脈を考慮するために照応解析処理を施す。この処理は、非特許文献2に記載されたと同様の処理であるが、その後、照応解析処理に基づいて、回答候補の検索範囲を拡張する点が異なる。
本発明の質問応答システムでは、検索文書に対する照応解析処理結果に基づいて、検索文書における回答候補の検索領域を検索しやすいように整理する。図3以下を参照して本発明による質問応答システムの構成および処理の詳細について説明する。
まず、本発明の質問応答システム200の構成について、図3を参照して説明する。質問応答システム200は、図3に示すように、質問入力手段201、質問解析手段202、照応解析手段203、情報抽出段204、回答候補抽出手段205、回答候補選択手段206、回答出力手段207を有する。以下、質問応答システム200の有する各処理手段の実行する処理について説明する。
[質問入力手段]
質問入力手段201は、ネットワーク100を介して、クライアントからの質問文(入力質問)を入力する。以下では、具体的な質問例として、クライアント(質問ユーザ)からの入力質問文が以下の文であったとする。
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
この質問が質問応答システム200に入力されたとする。
[質問解析手段]
質問解析手段202は、入力質問の解析処理を実行する。例えば質問が求めている回答が、人であるか場所であるかなどの質問タイプの判別や、質問の構成文から検索語(検索キーワード)となる特徴語の検出などが行なわれる。
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
この質問において、質問には「どこにありますか?」とあるので、質問は、「場所」を問う質問であると判別する。この質問タイプの判断処理は、既存の多くの手法において実行されている処理と同様である。
さらに、質問解析手段202は、質問文から、検索に適用する検索語(キーワード)を抽出する。ここでは、「マニア、人気、松の木、クリスマスツリー」というキーワードを抽出したと想定する。
[情報検索手段]
情報検索手段203は、質問解析手段202の解析によって抽出された検索語(検索キーワード)に基づく検索を実行する。すなわち、例えば、ネットワークに接続されたWebページ提供サーバの提供するWebページやデータベースを検索対象文書(知識源)とした検索処理を実行して質問に対応する回答の含まれると判定される文章を取得する。
前述したキーワード「マニア、人気、松の木、クリスマスツリー」を用いて、文書を検索し、以下のような複数の文からなる1つの記事が検索されたとする。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この検索結果は、文1〜5から構成された1つの記事であり、「マニア、人気、松の木、クリスマスツリー」というキーワード検索によってデータベース、Webページなどを検索対象(知識源)として検索した結果、抽出された記事である。
[照応解析手段]
照応解析手段204は、情報検索手段203の検索結果としての検索文書に対して、照応解析処理を施す。照応解析処理は、検索結果としてのテキストの解析により、テキスト中の名詞句、代名詞およびゼロ代名詞のいずれかの表現の同一性判断を行なう処理として実行される。なお、照応解析技術については、例えば「河原大輔,黒橋禎夫,"自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析",自然言語処理,Vol.11,No.3,2004」、あるいは「飯田龍,乾健太郎,松本裕治,関根聡."機械学習による日本語名詞句照応解析の一手法",言語処理学会第10回年次大会,2004」などに詳細が記載されている。
本実施例では、検索結果、すなわち、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この文1〜5からなる検索結果が得られているとする。
この検索結果に対して、照応解析を実行し、照応解析結果として、
文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致し異なる表現でなされた同一の実体を指し示している。
文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致しており、さらに、
文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致している。
これらの解析結果を得たものとする。
この解析結果は、先に図1を参照して説明した結果と同様の結果である。
[情報抽出手段]
前述したように、既存の手法においては、このような複数の文(パッセージ)から回答候補を抽出するパッセージを選択する場合、キーワードとのマッチ度の高い文(パッセージ)を優先的に選択する処理を行っていた。
上述の文1〜5の場合、文2には、2つのキーワード、文5には3つのキーワードが含まれ、キーワードとのマッチ度が高いと判定され、既存の方法では、文5が回答候補の選択において最も有効な文、文2が次点であるとされ、文5の近傍の名詞句が優先的に回答候補として選択されることになる。
実際の回答候補選択処理では、例えば、文5の近傍として、文5の前後1文を含む文を回答候補選択パッセージとした回答候補抽出をまず実行し、次に、文2の近傍として、文2の前後1文を含む文を回答候補選択パッセージとした回答候補抽出を実行するなどの処理として実行される。
本発明に係る質問応答システムでは、情報抽出手段205において、検索結果に含まれるパッセージ(本例では文1から文5の5つのパッセージ)から回答候補を抽出する対象として選択するパッセージの選択処理と、選択パッセージからの回答抽出処理を、従来の照応解析処理を適用した処理とは異なる処理として実行する。具体的には、照応解析結果に基づいて選択する回答候補抽出対象のパッセージを拡張し、拡張したパッセージ中から回答候補を抽出するパッセージを選択する。
具体的な処理について、説明する。
情報抽出手段205は、検索結果として得られた文(本では、前述の文1〜文5)ごとに、照応解析結果に基づき名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を抽出する。この処理について、図4を参照して説明する。
照応解析の結果として、図4に示すように、
(1)文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致、
(2)文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致、
(3)文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致、
これらの照応解析結果(1)〜(3)が得られている。
情報抽出手段205は、照応解析結果に基づき名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文(参照関係文)を抽出する。参照関係にある表現を共有する参照関係文とは、上記した照応解析結果(1)〜(3)において、同一の実体を参照する表現を持つ文であり、
照応解析結果(1)から、文1と文2は参照関係にある表現を共有する文であると判断する。また、
照応解析結果(2)から、文2と文5は参照関係にある表現を共有する文であると判断する。また、
照応解析結果(3)からも、文2と文5は参照関係にある表現を共有する文であると判断する。
情報抽出手段205は、このように、照応解析結果に基づきテキスト中の表現を整理し、参照関係文を選択する。
本例において、参照関係文は、[文1と文2]、および[文2と文5]、これらの2組である。
前述したように、回答候補の検索対象パッセージとして選択する処理においては、例えば、各文(パッセージ)のキーワードとのマッチ度を算出する。上述の文1〜5の場合、文2には、2つのキーワード、文5には3つのキーワードが含まれ、キーワードとのマッチ度が高いと判定される。既存の方法では、文5が回答候補の選択において最も有効な文、文2が次点であるとされ、文5の近傍の名詞句が優先的に回答候補として選択され、次に、文2の近傍の名詞句が優先的に回答候補として選択されることになる。
本発明のシステムでは、キーワードのマッチ度に基づくパッセージ選択を行なう場合に、選択パッセージに上述した参照関係文が設定されているか否かを判定し、設定されている場合、参照関係文も選択パッセージとして選択する。
例えば、上述の例では、キーワードマッチ度が最も高い文5に基づいて、回答候補抽出対象のパッセージを選択する場合、文5に対応する参照関係文が設定されているか否かを判定する。本例では、図4を参照して説明した通り、文5に対応する参照関係文として文2が設定されている。従って、回答候補抽出パッセージとして、文5+文2、またはこれらの文の近傍を含むパッセージ領域を、最初の優先的な回答候補抽出パッセージ領域として選択する。
次に、キーワードマッチ度が文5に次いで高い文2に基づいて、回答候補抽出対象のパッセージを選択する場合、文2に対応する参照関係文が設定されているか否かを判定する。本例では、図4を参照して説明した通り、文2に対応する参照関係文として文1が設定されている。従って、回答候補抽出パッセージとして、文2+文1、またはこれらの文の近傍を含むパッセージ領域を、最初の優先的な回答候補抽出パッセージ領域として選択する。
例えば、キーワードマッチ度によって選択された文の前後1文を含むパッセージ領域を、回答候補抽出パッセージ領域として選択する場合、まず、キーワードマッチ度が最も高い文5に基づいて選択される回答候補抽出対象パッセージは、
(a)文5と、文5の前後にある文4、および、
(b)文5に対応する参照関係文である文2と、文2の前後にある文1、文3となる。
次に、キーワードマッチ度が文5に次いで高い文2に基づいて選択される回答候補抽出対象パッセージは、
(c)文2と、文2の前後にある文1,文3、および、
(d)文2に対応する参照関係文である文1と、文1の前後にある文2となる。
実際には、上述の(c),(d)で選択されている文は、既に(a),(b)で選択済みであるので、省略される。上述の例は、文1〜5の少ない文構成であるので、重複した選択文が出現するが、長文の記事が検索結果として得られた場合などには、重複することなく、順次、回答候補抽出対象パッセージの選定が実行されることになる。
[回答候補抽出手段]
回答候補抽出手段206は、情報抽出手段205が上述した参照関係文を考慮した回答候補抽出対象パッセージ選択処理によって選択したパッセージを回答候補抽出対象パッセージとして、回答候補抽出処理を実行する。
回答候補抽出手段206は、前述の質問解析手段202において解析した質問タイプに対応した「場所」に対応する名詞句を情報抽出手段205の決定した回答候補抽出対象パッセージから選択する。「場所」に対応する名詞句の選択に際しては、語彙を示すNE(named entity)タグで「場所」タグが付与されている名詞をパッセージ中から取得するなどの既存のNE技術を適用する。
本処理例では、回答候補抽出対象パッセージとして、参照関係文を考慮した回答候補抽出対象パッセージ選択処理を実行しており、この例の場合、文1〜文5のすべての文が、回答候補抽出対象パッセージとして選択されているものとする。これらの文1〜文5から、「場所」に対応する名詞句として、
「秦市立城址公園」
「ニューヨーク」
「ロックフェラーセンター」
が回答候補として選択される。
[回答選択手段]
回答選択手段207は、回答候補抽出手段206の抽出した回答候補に、回答としての適正度を示すスコアを設定して、ランキングを行いスコアの高い順から回答候補を並べた回答候補リストを生成する。回答候補に対するスコア設定は、以下のスコア加算基準(a)(b)に従って実行する。
(a)各回答候補は、回答候補の含まれる文についてのキーワードマッチ度に基づくスコアを加点する。
(b)各回答候補は、回答候補の含まれる文に対応する参照関係文がある場合、その参照関係文についてのキーワードマッチ度に基づくスコアを加点する。
すなわち、各回答候補は、その回答候補の含まれる文のキーワードマッチ度に基づくスコアと、その回答候補の含まれる文に対応する参照関係文についてのキーワードマッチ度に基づくスコアのトータルを、その回答候補のスコアとして設定される。
本処理例についての具体的なスコア算出処理について、図5を参照して説明する。図5(a)は、質問解析手段202において、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
に基づいて、抽出した検索に適用するキーワードである。
キーワードは、「マニア、人気、松の木、クリスマスツリー」
である。
図5(b)は、これらのキーワードに基づいて情報検索手段203が知識源の検索を実行して取得した検索結果である。検索結果は、以下の文1〜文5からなる。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この文1〜5からなる検索結果が得られているとする。
この検索結果に対して、先に図4を参照して説明したように、照応解析手段204が照応解析を実行し、
文1と文2は参照関係にある表現を共有する参照関係文であり、また、文2と文5も参照関係にある表現を共有する参照関係文であると判断されている。
図5(b)には、文1〜文5に含まれるキーワードを矩形領域で示してある。
文2には、2つのキーワード[松の木]、[クリスマスツリー]が含まれ、
文5には、3つのキーワード[松の木]、[マニア][人気]が含まれている。
回答候補としては、前述したように、回答候補抽出手段206によって、
「秦市立城址公園」
「ニューヨーク」
「ロックフェラーセンター」
が回答候補として選択されている。
回答選択手段207は、これらの各回答候補に対するスコアを設定する。なお、「秦市立城址公園」は、先の照応解析手段204における照応解析の結果、文2の「公園」と同一の実体を指す表現であることが確認されており、スコア算出においては、「公園」を「秦市立城址公園」と同様の回答候補として考慮したスコア算出を実行する。
簡単なスコアリングの例を示す。文4には、質問文内のキーワード「マニア、人気、松の木、クリスマスツリー」は存在しないが、続く文5には、3つのキーワード「マニア、松の木、人気」が存在し、文2には文5に含まれるキーワード[松の木]と文5に含まれない新たなキーワード「クリスマスツリー」が存在している。
そこで、文4に含まれる回答候補「ニューヨーク」と「ロックフェラーセンター」のスコアとして、
文4の近傍の文5に含まれる3つのキーワード「マニア、松の木、人気」に基づく第1のスコア値[3]と、
近傍文5の参照関係文:文2に含まれる新たなキーワード「クリスマスツリー」に基づく第2のスコア値[1]、
これらの2つのスコア値の合計として、最終スコア値[4]が、回答候補「ニューヨーク」と「ロックフェラーセンター」に対するスコアとして付与される。
また、文2に含まれる回答候補「公園」(「秦市立城址公園」)のスコアとして、
文2に含まれる2つのキーワード「松の木、クリスマスツリー」に基づく第1のスコア値[2]と、
文2の参照関係文:文5に含まれ、文2に含まれない新たなキーワード「マニア、人気」に基づく第2のスコア値[2]、
これらの合計スコア[4]が、回答候補「公園」(「秦市立城址公園」)のスコアとして付与される。
このようにして、各回答候補のスコアとして、
「公園」(「秦市立城址公園」)=スコア4
「ニューヨーク」=スコア4
「ロックフェラーセンター」=スコア4
が設定される。
結果として、各回答候補のスコアはすべて4として同一となっている。このような場合は、キーワードに最も近い場所に存在する回答候補を優先することとする。「公園」の含まれる文2には、複数のキーワードが含まれ、「ニューヨーク」、「ロックフェラーセンター」の含まれる文4には、キーワードは含まれないので、最も正解に近い回答候補として「公園」(「秦市立城址公園」)が出力される。照応解析の結果から「公園」と「秦市立城址公園」は同一の実体を参照していることが分かっているので、結果として、本実施例における質問応答システムは正しく「秦市立城址公園」の答えをクライアント(質問ユーザ)に提供することができる。
なお、回答選択手段207は、このようにして得られた唯一の回答候補をクライアントに提示する回答として選択してもよいが、例えばスコア値に基づくランキングリストとした回答候補リストを生成して提示する構成としてもよい。
[回答出力手段]
回答出力手段208は、回答選択手段207において最終的に決定した回答候補をクライアントに対して出力する。
これらの処理によって、
例えば、入力質問、すなわち、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
に対する回答として、
「秦市立城址公園」
のみを選択、あるいは回答候補リストの最上位に設定した回答候補リストをクライアントに提示することができる。
次に、図6のフローチャートを参照して、本発明の質問応答システムの実行する処理シーケンスについて説明する。
ステップS101において、クライアントからの質問を入力すると、ステップS102において、入力された質問文の解析処理を実行する。これは図3に示す質問解析手段202の実行する処理であり、入力質問に基いてキーワードを抽出し、質問タイプを判定する処理である。例えば、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
から、キーワード「マニア、人気、松の木、クリスマスツリー」抽出し、質問タイプは[場所]であると解析する。
次に、ステップS103において、検索キーワードに基づいて、質問に対応する検索処理が実行される。この検索処理は、Webページ、データベースなどの知識源を対象とした検索処理であり、図3に示す情報検索手段203が実行する。質問文から選択されたキーワードに基づいて生成されるクエリによる検索処理が実行される。
具体的には、例えば、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
から抽出された、キーワード「マニア、人気、松の木、クリスマスツリー」を用いたクエリによって、検索が実行され、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この文1〜5からなる検索結果が得られる。
次に、ステップS104において、検索処理によって取得した検索結果の照応解析処理を実行する。この処理は、図3における照応解析手段204の実行する処理である。
照応解析処理は、検索結果としてのテキストの解析により、テキスト中の名詞句、代名詞およびゼロ代名詞のいずれかの表現の同一性判断を行なう処理として実行される。
上記した文1〜5からなる検索結果に対して、照応解析を実行した場合、照応解析結果として、
文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致し異なる表現でなされた同一の実体を指し示している。
文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致しており、さらに、
文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致している。
これらの解析結果が得られる。
次に、ステップS105において照応解析結果を適用して参照関係文を抽出し、回答候補抽出パッセージを決定する。この処理は、図3に示す情報抽出手段205が実行する。
情報抽出手段205は、検索結果として得られた文(本では、前述の文1〜文5)ごとに、照応解析結果に基づきテキスト中の名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文(参照関係文)を抽出する。この処理については、先に図4を参照して説明した通りである。
図4を参照して説明した処理例では、文1と文2、および文2と文5が参照関係文であると判定される。さらに、情報抽出手段205は、各文のキーワードマッチ度を算定し、キーワードマッチ度の高い文を回答候補抽出パッセージとして決定するとともに、キーワードマッチ度の高い文に対応する参照関係文の存否を確認し、参照関係文がある場合は、その参照関係文も回答候補抽出パッセージとして決定する。なお、回答候補抽出パッセージには、キーワードマッチ度の高い文およびその参照関係文の近傍の文(パッセージ)も含める設定としてもよい。
次に、ステップS106において、検策結果からの回答候補抽出処理を実行する。この処理は、図3に示す回答候補抽出手段206が実行する。回答候補抽出手段206は、前述の質問解析手段202において解析した質問タイプに対応した「場所」に対応する名詞句を、情報抽出手段205の決定した回答候補抽出対象パッセージから選択する。「場所」に対応する名詞句の選択に際しては、語彙を示すNE(named entity)タグで「場所」タグが付与されている名詞をパッセージ中から取得するなどの既存のNE技術を適用する。
上述した処理例では、
「秦市立城址公園」
「ニューヨーク」
「ロックフェラーセンター」
が回答候補として選択される。
次に、ステップS107において、照応解析結果、参照関係文を考慮した回答候補に対するスコア算出処理が実行される。この処理は、図3に示す回答候補選択手段207が実行する。回答選択手段207は、回答候補抽出手段206の抽出した回答候補にスコアを設定して、ランキングを行いスコアの高い順から回答候補を並べた回答候補リストを生成する。回答候補に対するスコア設定は、先に図5を参照して説明した処理に従って実行される。
すなわち、回答選択手段207は、回答候補の属するパッセージ(文x)またはその近傍パッセージ(文x±1など)のキーワードマッチ度に基づくスコアと、これらの各パッセージに対応する参照関係文のキーワードマッチ度に基づくスコアとの加算データを、その回答候補に対応するスコアとして算出する。
次に、回答選択手段207は、ステップS108において、スコアの設定された回答候補から、最も高いスコアの設定された唯一の回答候補をクライアントに提示する回答として選択するか、あるいはスコア値に基づくランキングリストとした回答候補リストを生成する。
次に、ステップS109において、回答出力手段が、ステップS108において決定した出力回答候補、あるいはスコア値に基づくランキングリストとした回答候補リストをクライアントに対して出力する。
これらの処理によって、
例えば、入力質問、すなわち、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
に対する回答として、
「秦市立城址公園」
のみを選択、あるいは回答候補リストの最上位に設定した回答候補リストをクライアントに提示することができる。
[その他の変更実施例]
次に、本発明に係る質問応答システムにおけるその他の実施例について説明する。
上述した実施例では、回答候補抽出パッセージの決定処理において、情報抽出手段205が、各文のキーワードマッチ度を算定し、キーワードマッチ度の高い文またはその近傍を含む文を回答候補抽出パッセージとして決定するとともに、キーワードマッチ度の高い文に対応する参照関係文の存否を確認し、参照関係文がある場合には、その参照関係文またはその近傍を含む文も回答候補抽出パッセージとして決定する処理を行なっていた。
情報抽出手段205は、この回答候補抽出パッセージ決定処理において、照応解析結果を元に、照応している表現を含む文を一文として生成し、その一文を元にパッセージ範囲を設定してもよい。以下の例文を元にこの処理について説明する。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
上記例は、検索結果として得られた文1〜文5からなる記事である。この記事中、前述したように文2と文5と、文1と文2にはそれぞれの文に含まれる表現の間に照応関係がある。
また、文2と文5には検索キーワードが含まれ、キーワードマッチ度が高い文であるとの解析結果をシステムがすでに得ているとする。
このような設定において、参照関係にある文2と文5と、文1と文2のすべて、すなわち、文1、文2、文5の文を一文にまとめる処理を実行する。複数文からの一文への統合処理は、例えば、前述の照応解析手段204の処理の説明の欄で紹介した文献「河原大輔,黒橋禎夫,"自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析",自然言語処理,Vol.11,No.3,2004」に記載された処理を適用することが可能である。
この文統合処理によって、得られた文を回答候補抽出パッセージとする。文の統合処理は、それぞれの文に含まれる表現の間に照応関係があり、参照関係文として判定された文に関して行う。複数文を1つの文にまとめる作業は、例えば、「ある名詞句に関する関係節を文生成技術で作成し、関係節を介して2文を1文にまとめる」という方針をとる。以下に複数文を入力して、1つの文にまとめる文統合処理の手順の例を示す。
対象となっている文を、例えば文献「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109(2003)」記載の構文意味解析システムなどを用いて解析する。この処理で得られるのは文の構文構造と動詞の時制の情報である。
あらかじめ人手で作成してある生成処理順序ルールから、統合対象となる文1と文2の生成に関して、どちらの文の名詞句に関係節を埋め込むかを決定する。文1と文2の主節の動詞は共に過去形であり、その場合は、文の出現順で後の方の文に前の文を埋め込む。このようなルールは、主節の動詞の時制、文の出現順序などから記述されており、動詞の時制、文の出現順序の順にルールが優先される。
例えば、
「太郎は疲れている。」
「太郎は働きすぎた。」
という2文に関する文生成では、1文目の主節の動詞は現在形であり、2文目の主節の動詞は過去系である。この時は、時制に関するルールが優先されて、2文目が1文目に埋め込まれ、「働きすぎた太郎は疲れている。」となる。「疲れている太郎は働きすぎた。」のように埋め込む順序が逆であると、本来の意味が変化してしまう。
上述した実施例について説明する。すなわち、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
これらの文の文1と文2とをまとめて1つの文にする処理を行なう。
文1と「秦市立城址公園」と文2の「公園」が照応関係にあるので、文1の「秦市立城址公園」に関する関係節文を作成する。文1の構文意味構造は、図7のような構成で成り立っていることが分かる。
図7は、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
について、構文・意味解析処理を行って生成した"f−structure(functional structure)"を示している。構文・意味解析処理は、前述の文献「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109(2003)」記載の構文意味解析システムを用いて行った。
構文・意味解析処理は、文法ルールや結合価辞書を適用し、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析処理である(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した"c−structure(constituent structure)"と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として"f−structure(functional structure)"を出力することができる。
すなわち、c−structureは、自然言語文の構造を、文の形態素を上位のフレーズへとまとめあげることによって木構造として表現するものであり、f−structureは、文法機能の概念に基づき、文の格構造、時制、様相、話法などの意味情報を属性―属性値のマトリックス構造で表現するものである。
図7は、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
について、構文・意味解析処理を行って生成した"f−structure(functional structure)"を示している。f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、木構造として示されるc−structureの各節点に付随する素性の集合であり、図7に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
この構文意味構造を適用して文の統合処理を行う。なお、構文意味解析結果に基づく文統合処理については、詳しくは、例えば文献「Kay,"Chart Generation",In proceedings of the 34th Annual Meeting of the ACL.」に記述されている処理を適用することが可能である。
処理の結果として、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
に基づいて、
「年末年始の準備が20日から始まった秦市立城址公園」
に相当する構文意味構造が得られる。
図8に、構文意味構造の変換処理態様について示す。
図8には、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
に基づく、構文・意味解析結果としてのf−structure(図8(a))と、
生成文(A)年末年始の準備が20日から始まった秦市立城址公園
の構文・意味解析結果としてのf−structure(図8(b))を示している。
次に、図8(b)に示す構文・意味解析結果を持つ文1に基づく関係節文を、
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
に埋め込む。この埋め込み処理により、文2は、
「年末年始の準備が20日から始まった秦市立城址公園では、松の木が飾り付けられてクリスマスツリーになった。」
として文1、文2がまとめられた統合文として設定される。
続いて、上述の処理によって生成した文2と文5とのまとめ処理を、上述の処理と同様に行なう。文2と文5についても生成順序ルールを適用し、文2から文5に埋め込む順序を得る。文を埋め込む処理も同様に構文意味構造上で処理が可能である。
なお、照応関係の実体が複数ある場合には、その実体を参照する表現ごとの構文意味構造を把握し、適切な関係節文を切り出さなければならない。以下に示す文2と文5、すなわち、
文2:年末年始の準備が20日から始まった秦市立城址公園では、松の木が飾り付けられてクリスマスツリーになった。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
これらの文において、「松の木」と「クリスマスツリー」の2つの表現に関して照応関係が発生している。この時「松の木」が関係している動詞は「飾り付けられ」であり、クリスマスツリーが関係しているのは「なった」である。「なった」にはゼロ代名詞があり、これは「松の木」を参照している。それぞれの動詞ごとに得られる構文意味構造および変換処理構成を図9に示す。
図9に示すように、
動詞「飾り付けられ」
主格「松の木」
に基づく変換処理により、
「飾り付けられた松の木」
が生成され、さらに、
動詞「なった」
主格「(松の木が)」
斜格「クリスマスツリーに」
斜格「年末年始の準備が20日から始まった秦市立城址公園内では」
これらに基づいて、
「年末年始の準備が20日から始まった秦市立城址公園では内で(松の木が)なったクリスマスツリー」、
が生成され、さらに、ゼロ代名詞の部分についても埋め込みを行う処理によって、
「年末年始の準備が20日から始まった秦市立城址公園内では内で飾り付けられた松の木がなったクリスマスツリー」
という文(関係節文)が生成される。
この関係節文は、前述の分1と分2の統合によって生成された文2、すなわち、
文2:年末年始の準備が20日から始まった秦市立城址公園では、松の木が飾り付けられてクリスマスツリーになった。
に基づいて生成される関係節文である。
この関係節文を、
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
に埋め込む。この埋め込み処理の結果、
統合文:「しかし、この飾り付けられた松の木の年末年始の準備が20日から始まった秦市立城址公園内で飾り付けられた松の木がなったクリスマスツリーにも不思議な魅力があり、マニアに人気がある。」
という統合された一文が生成される。
この文は、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
これらの3つの文を統合してまとめた文として生成される。
この時、元の文5は、「この松の木のツリー」というように「松の木」は「ツリー」の修飾節として機能しており、また、「飾り付けられた松の木」の部分は重複するので、曖昧性が生じやすい「の」で修飾しているほうの「松の木」の部分を削り取る処理を実行することで、
統合文:「しかし、この飾り付けられた松の木の年末年始の準備が20日から始まった秦市立城址公園内で飾り付けられた松の木がなったクリスマスツリーにも不思議な魅力があり、マニアに人気がある。」
という統合文が生成される。
このようにして得られた文1、文2、文5に基づいて生成された新たな文5(統合文)および統合された文1、文2、文5の前後の文を回答候補抽出パッセージとして設定して回答候補を得る。統合文の生成に用いられた文が存在した個所の前後も回答候補抽出パッセージとして含めることを考えると、回答候補抽出パッセージは以下の部分となる。
文3 一般的には、クリスマスツリーにはもみの木が用いられる。
文4 ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5 しかし、年末年始の準備が20日から始まった秦市立城址公園内で飾り付けられた松の木がなったクリスマスツリーにも不思議な魅力があり、マニアに人気がある。
これらの回答候補抽出パッセージを対象とした回答候補抽出処理は、前述の実施例と同様に実行され、場所を示す名詞句として、回答候補「ニューヨーク」、「ロックフェラーセンター」、「秦市立城址公園内」が取得される。その後の処理は、前述の実施例において説明したと同様のスコア算出が実行され、結果として、「秦市立城址公園」が最も優先的な回答として得られる。
本処理例によれば、複雑な文脈の記事から正しい答えを得るのみならず、質問の答えが得られた根拠とる文を出力する際に、照応解析結果を元に生成して1文にてユーザに提示をすることができ、ユーザの複雑な文章を読む手間を省くことができる。
最後に、上述した処理を実行する質問応答システムを構成する情報処理装置のハードウェア構成例について、図10を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した入力質問に基づく検索語(キーワード)抽出、検索処理、照応解析処理、参照関係文の抽出、回答候補抽出パッセージの決定処理、回答候補抽出処理、回答候補に対するスコア算出処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば検索結果としての回答候補、検索結果、パッセージの格納、回答候補の格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、クライアントやネットワーク接続サーバとの通信を実行する。
なお、図10に示す質問応答システムとして適用される情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の質問応答システムは、図10に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、質問に対する回答を提供するシステムにおいて、入力質問の検索結果に対して、テキスト解析により、テキスト中の少なくとも名詞、代名詞およびゼロ代名詞のいずれかの表現の同一性判断を行なう照応解析を実行し、照応解析結果に基づいて、検索結果に含まれる表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出し、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択して、選択されたパッセージから回答候補を抽出する構成としたので、例えば、回答候補抽出パッセージの選択処理において検索キーワードとのマッチ度に基づくパッセージ選択を行なった場合に、キーワードから離間した位置にある有力な回答候補を見落とすことなく、確実に回答候補として取得し、クライアントに提示することが可能となる。
既存の照応解析技術を用いて、検索結果として得られた記事に対して照応解析を施した例について説明する図である。 本発明の質問応答システムの適用例を示すネットワーク構成図である。 本発明の一実施形態に係る質問応答システムの構成について説明する図である。 本発明の一実施形態に係る質問応答システムの実行する照応解析処理例について説明する図である。 本発明の一実施形態に係る質問応答システムにおけるスコア算出処理について説明する図である。 本発明の質問応答システムの実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の一実施形態に係る質問応答システムにおいて実行する検索結果の構成文に対する構文意味解析処理の結果データについて説明する図である。 本発明の一実施形態に係る質問応答システムにおいて実行する検索結果の構成文に対する構文意味構造変換処理について説明する図である。 本発明の一実施形態に係る質問応答システムにおいて実行する構文意味構造変換処理について説明する図である。 本発明の一実施形態に係る質問応答システムのハードウェア構成例について説明する図である。
符号の説明
100 ネットワーク
101 クライアント
102 Webページ提供サーバ
103 データベース
200 質問応答システム
201 質問入力手段
202 質問解析手段
203 情報検索手段
204 照応解析手段
205 情報抽出手段
206 回答候補抽出手段
207 回答選択手段
208 回答出力手段
209 ユーザ対話手段
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (6)

  1. 質問を入力する質問入力手段と、
    入力質問から抽出した検索キーワードを用いて一群の文からなる文群を検索する検索手段と、
    前記検索手段で検索した文群を構成する文の各々に対して当該文の名詞、代名詞、またはゼロ代名詞が他方の文の語を参照する参照関係にあるかどうかを判別する照応解析手段と、
    前記検索手段で検索した前記文群から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文を回答候補抽出対象文として選択し、さらに、前記照応解析手段における参照関係の判別結果に基づいて、参照関係にある参照元の名詞、代名詞、またはゼロ代名詞を含む文および参照先の語を含む文を参照関係文として抽出する処理を実行するとともに、前記参照関係文の対応する一方が回答候補抽出対象文として選択されるときに、前記参照関係文の対応する他方も回答候補抽出対象文として選択する情報抽出手段と、
    前記情報抽出手段の選択した回答候補抽出対象文から回答候補を抽出する回答候補抽出手段と、
    前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段と、
    を有し、
    前記回答選択手段は、
    前記回答候補抽出手段の抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、
    回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、
    前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行する構成であることを特徴とする質問応答システム。
  2. 前記情報抽出手段は、
    前記検索手段で検索した前記文群から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文とその近傍の文を回答候補抽出対象文として選択し、さらに、前記参照関係文の対応する一方が回答候補抽出対象文として選択されるときに、前記参照関係文の対応する他方も回答候補抽出対象文として選択する構成であることを特徴とする請求項1に記載の質問応答システム。
  3. 質問を入力する質問入力手段と、
    入力質問から抽出した検索キーワードを用いて一群の文からなる文群を検索する検索手段と、
    前記検索手段で検索した文群を構成する文の各々に対して当該文の名詞、代名詞、またはゼロ代名詞が他方の文の語を参照する参照関係にあるかどうかを判別する照応解析手段と、
    前記照応解析手段における参照関係の判別結果に基づいて、参照関係にある参照元の名詞、代名詞、またはゼロ代名詞を含む文および参照先の語を含む文を参照関係文として抽出しこれら参照関係文を1つの文に統合するとともに、統合された文および統合されずに残された文から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文を回答候補抽出対象文として選択する情報抽出手段と、
    前記情報抽出手段の選択した回答候補抽出対象文から回答候補を抽出する回答候補抽出手段と、
    前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段と、
    を有し、
    前記回答選択手段は、
    前記回答候補抽出手段の抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、
    回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、
    前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行する構成であることを特徴とする質問応答システム。
  4. 前記情報抽出手段は、
    前記参照関係文を統合して1つの文を生成する処理において、統合対象の文の構文意味解析処理を実行し、構文意味解析結果に基づく文統合処理を実行する構成であることを特徴とする請求項に記載の質問応答システム。
  5. コンピュータを、
    質問を入力する質問入力手段、
    入力質問から抽出した検索キーワードを用いて一群の文からなる文群を検索する検索手段、
    前記検索手段で検索した文群を構成する文の各々に対して当該文の名詞、代名詞、またはゼロ代名詞が他方の文の語を参照する参照関係にあるかどうかを判別する照応解析手段、
    前記照応解析手段における参照関係の判別結果に基づいて、参照関係にある参照元の名詞、代名詞、またはゼロ代名詞を含む文および参照先の語を含む文を参照関係文として抽出する処理を実行するとともに、前記参照関係文の対応する一方が回答候補抽出対象文として選択されるときに、前記参照関係文の対応する他方も回答候補抽出対象文として選択する情報抽出手段、
    前記情報抽出手段の選択した回答候補抽出対象文から回答候補を抽出する回答候補抽出手段、
    前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段、
    として機能させるための質問応答システム用コンピュータ・プログラムであって、
    前記回答選択手段は、
    前記回答候補抽出手段の抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、
    回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、
    前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行する構成である質問応答システム用コンピュータ・プログラム。
  6. コンピュータを、
    質問を入力する質問入力手段、
    入力質問から抽出した検索キーワードを用いて一群の文からなる文群を検索する検索手段、
    前記検索手段で検索した文群を構成する文の各々に対して当該文の名詞、代名詞、またはゼロ代名詞が他方の文の語を参照する参照関係にあるかどうかを判別する照応解析手段、
    前記照応解析手段における参照関係の判別結果に基づいて、参照関係にある参照元の名詞、代名詞、またはゼロ代名詞を含む文および参照先の語を含む文を参照関係文として抽出しこれら参照関係文を1つの文に統合するとともに、統合された文および統合されずに残された文から回答候補抽出対象文を選択する情報抽出手段、
    前記情報抽出手段の選択した回答候補抽出対象文から回答候補を抽出する回答候補抽出手段、
    前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段、
    として機能させるための質問応答システム用コンピュータ・プログラムであって、
    前記回答選択手段は、
    前記回答候補抽出手段の抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、
    回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、
    前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行する構成である質問応答システム用コンピュータ・プログラム。
JP2005170424A 2005-06-10 2005-06-10 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Expired - Fee Related JP4654780B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005170424A JP4654780B2 (ja) 2005-06-10 2005-06-10 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US11/298,855 US7587389B2 (en) 2005-06-10 2005-12-12 Question answering system, data search method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005170424A JP4654780B2 (ja) 2005-06-10 2005-06-10 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2006344102A JP2006344102A (ja) 2006-12-21
JP4654780B2 true JP4654780B2 (ja) 2011-03-23

Family

ID=37525260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005170424A Expired - Fee Related JP4654780B2 (ja) 2005-06-10 2005-06-10 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US7587389B2 (ja)
JP (1) JP4654780B2 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5169816B2 (ja) * 2006-03-01 2013-03-27 日本電気株式会社 質問回答装置、質問回答方法および質問回答用プログラム
US7904414B2 (en) * 2007-04-02 2011-03-08 Kana Software, Inc. Adaptive multi-channel answering service for knowledge management systems
US8046339B2 (en) * 2007-06-05 2011-10-25 Microsoft Corporation Example-driven design of efficient record matching queries
US8195655B2 (en) * 2007-06-05 2012-06-05 Microsoft Corporation Finding related entity results for search queries
CN101796508B (zh) * 2007-08-31 2013-03-06 微软公司 歧义敏感自然语言处理系统中的共指消解
US8712758B2 (en) 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
JP2009064187A (ja) 2007-09-05 2009-03-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US10482114B2 (en) * 2008-03-27 2019-11-19 Oath Inc. System and method for maintenance of questions and answers through collaborative and community editing
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
JP4640554B2 (ja) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 サーバ装置、情報処理方法およびプログラム
US20110066685A1 (en) * 2009-09-11 2011-03-17 Hiroshi Kitada Sending email from a document storage server operating by mobile device remote from the document storage server
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20110246378A1 (en) * 2010-03-30 2011-10-06 Prussack E Fredrick Identifying high value content and determining responses to high value content
JP2012027845A (ja) * 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム
EP2617774B1 (en) * 2010-09-17 2015-03-04 Terumo Kabushiki Kaisha Silicone rubber composition
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
US9798800B2 (en) 2010-09-24 2017-10-24 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
WO2012040350A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Lexical answer type confidence estimation and application
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
WO2012040677A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Efficient passage retrieval using document metadata
WO2012047532A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using hypothesis pruning
WO2012047530A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
US8738617B2 (en) 2010-09-28 2014-05-27 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
KR101173561B1 (ko) * 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
US9110977B1 (en) * 2011-02-03 2015-08-18 Linguastat, Inc. Autonomous real time publishing
CN103177025B (zh) * 2011-12-23 2017-07-21 深圳市世纪光速信息技术有限公司 一种互动问答信息系统回答信息的推荐方法和装置
US9336297B2 (en) * 2012-08-02 2016-05-10 Paypal, Inc. Content inversion for user searches and product recommendations systems and methods
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
US9183257B1 (en) 2013-03-14 2015-11-10 Google Inc. Using web ranking to resolve anaphora
US20150169676A1 (en) * 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
CN106407198A (zh) * 2015-07-28 2017-02-15 百度在线网络技术(北京)有限公司 问答信息的处理方法及装置
JP2017151860A (ja) * 2016-02-26 2017-08-31 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
WO2017208518A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 情報処理装置
WO2018018626A1 (en) * 2016-07-29 2018-02-01 Microsoft Technology Licensing, Llc. Conversation oriented machine-user interaction
US10810215B2 (en) * 2017-12-15 2020-10-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
WO2019217722A1 (en) * 2018-05-09 2019-11-14 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
CN109726389B (zh) * 2018-11-13 2020-10-13 北京邮电大学 一种基于常识和推理的中文缺失代词补全方法
JP6942759B2 (ja) * 2019-07-30 2021-09-29 株式会社三菱総合研究所 情報処理装置、プログラム及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
JP2003122750A (ja) * 2001-10-09 2003-04-25 Communication Research Laboratory 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
US5903858A (en) * 1995-06-23 1999-05-11 Saraki; Masashi Translation machine for editing a original text by rewriting the same and translating the rewrote one
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
FR2825496B1 (fr) * 2001-06-01 2003-08-15 Synomia Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
JP2003242136A (ja) * 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
JP2003122750A (ja) * 2001-10-09 2003-04-25 Communication Research Laboratory 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム

Also Published As

Publication number Publication date
JP2006344102A (ja) 2006-12-21
US20060282414A1 (en) 2006-12-14
US7587389B2 (en) 2009-09-08

Similar Documents

Publication Publication Date Title
JP4654780B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
CA2484410C (en) System for identifying paraphrases using machine translation techniques
US7526474B2 (en) Question answering system, data search method, and computer program
JP4645242B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654776B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7672831B2 (en) System and method for cross-language knowledge searching
JP4635659B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US10296584B2 (en) Semantic textual analysis
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7099870B2 (en) Personalized web page
Beirade et al. Semantic query for Quranic ontology
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2006293731A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
Bakari et al. AQA-WebCorp: Web-based factual questions for Arabic
Stalin et al. Web based application for hindi question answering system
JP4401269B2 (ja) 対訳判断装置及びプログラム
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005234635A (ja) 文書要約装置および方法
JPH0540783A (ja) 自然言語解析装置
Moukdad A comparison of root and stemming techniques for the retrieval of Arabic documents
JP2004272785A (ja) 質問応答装置及び質問応答プログラム
JP2005227975A (ja) 文書検索装置および方法
JPH06187329A (ja) 自然言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4654780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees