JP2006293830A - 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム - Google Patents

質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2006293830A
JP2006293830A JP2005115893A JP2005115893A JP2006293830A JP 2006293830 A JP2006293830 A JP 2006293830A JP 2005115893 A JP2005115893 A JP 2005115893A JP 2005115893 A JP2005115893 A JP 2005115893A JP 2006293830 A JP2006293830 A JP 2006293830A
Authority
JP
Japan
Prior art keywords
question
answer
answer candidate
sentence
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005115893A
Other languages
English (en)
Other versions
JP4654745B2 (ja
Inventor
Daigo Sugihara
大悟 杉原
Hiroshi Masuichi
博 増市
Hiroki Yoshimura
宏樹 吉村
Tomoko Okuma
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005115893A priority Critical patent/JP4654745B2/ja
Priority to US11/299,746 priority patent/US7805303B2/en
Publication of JP2006293830A publication Critical patent/JP2006293830A/ja
Application granted granted Critical
Publication of JP4654745B2 publication Critical patent/JP4654745B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 質問応答システムにおいて、質問に対して最適な回答を提供可能とした構成を実現する。
【解決手段】 入力質問に基づく検索処理結果に基づいて初期回答候補を抽出し、抽出した回答候補についての検査処理を実行し、質問に対する最適な回答を選択可能とした。回答候補を適用したクエリによって検索を行い、検索結果として得られた文の構成語が、入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する。本構成により、質問に対する最適な回答を回答候補として選択してクライアントに提供することが可能となる。
【選択図】 図2

Description

本発明は、質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。さらに詳細には、質問文を入力して、質問に対応する回答を提供するシステムにおいて、質問に対して、より的確な回答を提供可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。
昨今、インターネットなどを介したネットワーク通信が盛んになり、様々なサービスがネットワークを介して行なわれている。ネットワークを介したサービスの1つとして検索サービスがある。検索サービスは、例えばネットワーク接続されたパーソナルコンピュータ、携帯端末などのユーザ端末からの検索要求を検索サーバが受信し、検索サーバにおいて、検索要求に応じた処理を実行して処理結果をユーザ端末に送信するサービスである。
例えば、インターネットを介した検索処理を実行する場合、検索サービスを提供しているWebサイトにアクセスし、Webサイトの提示メニューに従って、キーワード、カテゴリなどの検索条件を入力しサーバに送信する。サーバは、これらの検索条件に従って、処理を実行し、処理結果をユーザ端末に表示する。
データ検索処理には様々な態様がある。例えば、ユーザがキーワードを入力し、入力したキーワードを含む文書の一覧情報をユーザに提示するキーワードベースの検索方式や、ユーザが質問文を入力して質問に対する回答を提供するいわゆる質問応答システムなどがある。質問応答システムは、ユーザがキーワードを選択する必要がなく、また、質問に対する回答のみを受領することができるシステムであり利用が広まっている。
多くの質問応答システムは、質問に対する回答候補を、例えば、様々なWebページや、アクセス可能なデータベースのように組織化されていない文書集合、いわゆるオープンドメイン文書集合から抽出する処理を実行する。このような回答候補抽出を行う質問応答システムにおいて、検索によって得られた回答候補が、クライアントからの質問に対する回答として適切な回答であるか否かを検証する技術について研究されている。
例えば、非特許文献1には、回答候補の抽出に適用した検索対象テキスト集合以外のテキスト集合を用いた検索によって抽出した回答候補が、質問に対する回答として適切であるかを検証する技術を開示している。具体的には、クライアントからの質問文の主題と、検索によって得られた回答候補が、例えばシソーラス辞書において上位下位関係にあるか否か、あるいは、回答として数値を問う質問文である場合には、検索によって得られた回答候補が質問文の主題にあっているか否かなどを確認する処理であり、質問の主題と、取得された回答候補との関係を表す判定パターンとコーパス(検索対象言語データ)を用いて質問に対する回答妥当性を検査する構成を開示している。特許文献1にも、数量表現についての検査、例えば、トラの数量を表すのは「頭」であるのが妥当であることの確認を行う処理構成について開示している。
このように質問応答システムにおいて、オープンドメインな情報減(知識源ともいう)を利用して検索した回答候補の妥当性を判定する技術は、いくつか提案されている。しかし、このような回答候補の検査法は、基本的に以下のような手順を必要とする。
イ:人手によるパターンを用いて質問文からQF(質問文の主題)を抽出する。
例えば、質問文「国民栄誉賞を受賞した映画監督は誰ですか?」という質問からは、「映画監督」をQFとして取得する。
ロ:既存の質問応答システムと同様の手法にて、QFに基づく検索を実行し、回答候補を取得。例えば、「小淵恵三」と「黒沢明」を得る。
ハ:QF(質問文の主題)と回答候補とからなるパターンを生成し、生成パターンを検索文字列としてコーパス(検索対象言語データ)を検索する。例えば、「小淵恵三という映画監督」と「黒沢明という映画監督」といった文字列からなるパターンによって、コーパスを再度、検索し、ヒットする検索結果が得られた場合、このパターンに適用した回答候補が質問に対する妥当性が高いとし判定し、この回答候補のみを質問者に対する回答として出力する。
しかし、上記の回答検査手法では、QF(質問文の主題)と回答候補からなるパターンを生成して検索を行うものであり、クライアントからの質問文から取得するのは、QF(質問文の主題)のみであり、それ以上の情報を取得して検査に利用する構成とはなっていない。
このような検査手法では、以下のような問題が生ずる可能性がある。例えば、以下のような質問を考える。 質問「2003年に広島に行った野球選手は誰ですか?」
この質問に対するQF(質問文の主題)として取得される語は「野球選手」であり、検索の結果として得られた回答候補(A,B・・)に対して、例えば、
[Aは野球選手である」
[Bは野球選手である]
等のパターンを生成して、コーパスの検索による検査を行う。
しかし、この検査は不十分である場合がある。すなわち、
質問「2003年に広島に行った野球選手は誰ですか?」
に含まれる「広島」は、質問文を入力したユーザの意図として「広島カープ」という野球チームであった場合、「2003年、広島、選手」という検索キーワードを用いて得た回答候補には、「広島カープの野球選手」以外の「選手」が含まれることは十分に考えられるからである。「2003年、広島、野球選手」というキーワードを元に得た回答候補には、広島カープの対戦相手や選手のトレード先など他球団の選手名が含まれてしまうことが考えられる。
この時、質問から抽出するQF(質問文の主題)として「野球選手」のみを抽出し、このQF(質問文の主題)と回答候補からなる文字列パターンを用いて検査をした場合には、他球団の選手である回答候補でも、コーパス中にヒット文が出現する可能性は十分あり、回答候補の検査がパスし、ユーザの質問に対する回答の妥当性ありという誤った判定がなされる。
例えば、阪神の選手である「矢野」という選手が回答候補として得られた場合に、上述の手法によって、
質問に対するQF(質問文の主題)=「野球選手」
回答候補=「矢野」
を適用して、
「野球選手である矢野」という文字列パターンが生成され、
この文字列パターン「野球選手である矢野」をクエリとしてコーパスの検索を行なえば、コーパス中にヒット文が検出される可能性は、十分たかいものと考えられる。また、QFとして「広島に行った野球選手」という文字列を使用した場合にも、QF中の「広島」の意味が、「地名」なのか「スポーツチーム」なのかという語彙意味的な曖昧性が存在し、有効な検査を行い得ないことが考えられる。
特開2004−118647号公報 「秋葉友良,藤井敦,伊藤克,"質問応答における常識的なの選択と期待効用に基づく回答群の決定"、情報処理学会研究報告,2004−NL−163, pp.131−138」
上述したように、ユーザの質問に対応する回答を提供する質問応答システムにおける回答候補検査手法には、未だ不十分な点が多く、誤った回答を質問者(クライアント)に提示してしまう場合がある。本発明は、このような問題に鑑みてなされたものであり、既存の手法では回答候補の検査が不十分となる質問文に対しても有効な、より精度の高い検査により、質問に対する回答としてより適切な回答を選択することを可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、質問を入力する質問入力手段と、入力質問に基づく検索処理を実行する検索手段と、前記検索手段の検索結果に基づいて初期回答候補を抽出する回答候補抽出手段と、前記回答候補抽出手段の抽出した回答候補についての検査処理を実行する回答候補検査手段と、前記回答候補検査手段によって最終的に選択された回答を出力する回答出力手段を有し、前記回答候補検査手段は、前記回答候補抽出手段の抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語が、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行する構成であることを特徴とする質問応答システムにある。
さらに、本発明の質問応答システムの一実施態様において、前記回答候補検査手段は、前記入力質問から抽出されるQF(質問文の主題)と、前記回答候補抽出手段の抽出した回答候補との組み合わせからなるクエリを生成し、該クエリによる検索によってヒットした文を持つクエリに含まれる回答候補のみを選択する第1検査処理と、
前記第1検査処理において選択された回答候補について、前記第1検査処理において取得したヒット文の構成語について、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定する第2検査処理を実行する構成であり、該第2検査処理において、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記回答候補検査手段は、前記入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出し、前記QF(質問文の主題)を修飾する語の語彙意味を解析する処理を実行する質問意味分析手段を備えることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記回答候補検査手段は、前記質問意味分析手段が解析した前記入力質問におけるQF(質問文の主題)を修飾する語の語彙意味と、前記回答候補抽出手段の抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語との比較処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問意味分析手段は、前記QF(質問文の主題)を修飾する語の語彙意味解析処理において、シソーラス辞書における前記QF(質問文の主題)と、前記QF(質問文の主題)を修飾する語の意味距離を解析し、より近い意味距離を持つ語彙意味を、前記QF(質問文の主題)を修飾する語の語彙意味として優先的に選択する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問意味分析手段は、入力質問の構文意味解析処理を実行し、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問意味分析手段は、入力質問の構文意味解析時に格フレーム辞書を用いて、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を直接修飾する動詞を含む語句部分を抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の第2の側面は、データ検索方法であり、質問を入力する質問入力ステップと、入力質問に基づく検索処理を実行する検索ステップと、前記検索ステップにおける検索結果に基づいて初期回答候補を抽出する回答候補抽出ステップと、前記回答候補抽出ステップにおいて抽出した回答候補についての検査処理を実行する回答候補検査ステップと、前記回答候補検査ステップにおいて最終的に選択された回答を出力する回答出力ステップを有し、前記回答候補検査ステップは、前記回答候補抽出ステップにおいて抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語が、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行することを特徴とするデータ検索方法にある。
さらに、本発明のデータ検索方法の一実施態様において、前記回答候補検査ステップは、前記入力質問から抽出されるQF(質問文の主題)と、前記回答候補抽出ステップの抽出した回答候補との組み合わせからなるクエリを生成し、該クエリによる検索によってヒットした文を持つクエリに含まれる回答候補のみを選択する第1検査処理と、前記第1検査処理において選択された回答候補について、前記第1検査処理において取得したヒット文の構成語について、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定する第2検査処理を実行し、第2検査処理において、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記回答候補検査ステップは、入力質問の解析処理を実行し、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出し、前記QF(質問文の主題)を修飾する語の語彙意味を解析する処理を実行する質問意味分析ステップを備えることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記質問意味分析ステップは、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出し、さらに、QF(質問文の主題)を修飾する語についての語彙意味の解析処理を実行するステップであり、前記回答候補検査ステップは、前記質問意味分析ステップにおいて解析した前記入力質問におけるQF(質問文の主題)を修飾する語の語彙意味と、前記回答候補抽出ステップの抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語との比較処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記質問意味分析ステップは、前記QF(質問文の主題)を修飾する語の語彙意味解析処理において、シソーラス辞書における前記QF(質問文の主題)と、前記QF(質問文の主題)を修飾する語の意味距離を解析し、より近い意味距離を持つ語彙意味を、前記QF(質問文の主題)を修飾する語の語彙意味として優先的に選択する処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記質問意味分析ステップは、入力質問の構文意味解析処理を実行し、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出する処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記質問意味分析ステップは、入力質問の構文意味解析時に格フレーム辞書を用いて、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を直接修飾する動詞を含む語句部分を抽出する処理を実行することを特徴とする。
さらに、本発明の第3の側面は、データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、質問を入力する質問入力ステップと、入力質問に基づく検索処理を実行する検索ステップと、前記検索ステップにおける検索結果に基づいて初期回答候補を抽出する回答候補抽出ステップと、前記回答候補抽出ステップにおいて抽出した回答候補についての検査処理を実行する回答候補検査ステップと、前記回答候補検査ステップにおいて最終的に選択された回答を出力する回答出力ステップを有し、前記回答候補検査ステップは、前記回答候補抽出ステップにおいて抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語が、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行するステップであることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、質問に対する回答を提供するシステムにおいて、入力質問の語彙意味を解析し、入力質問の構成語の語彙意味に基づく回答候補検査処理を実行する構成としたので、質問に対する最適な回答を回答候補として選択してクライアントに提供することが可能となる。
本発明の構成によれば、質問に対する回答を提供するシステムにおいて、入力質問に基づく検索処理結果に基づいて初期回答候補を抽出し、抽出した回答候補についての検査処理を実行し、質問に対する最適な回答を選択可能としたものであり、回答候補を適用したクエリによって検索を行い、検索結果として得られた文の構成語が、入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する回答候補検査処理を実行する構成としたので、質問に対する最適な回答を回答候補として選択してクライアントに提供することが可能となる。
以下、図面を参照しながら本発明の実施形態に係る質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムの詳細について説明する。
[実施例1]
まず、図1を参照して、本発明の質問応答システムの利用形態の一例について説明する。図1は本発明の質問応答システム200をネットワークに接続したネットワーク構成を示す図である。図1に示すネットワーク100は、インターネットやイントラネットなどのネットワークであり、ネットワーク100には、質問応答システム200に対する質問を送信するユーザ端末としてのクライアント101−1〜n、クライアント101−1〜nに対する回答を取得するための素材としてのWebページを提供する様々なWebページ提供サーバ102A〜Nやデータベース103a〜nが接続されている。
質問応答システム200は、クライアント101−1〜nから、ユーザの生成した様々な質問文を入力し、入力質問に対する回答をクライアント101−1〜nに提供する。質問に対する回答は、Webページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納された文書データなどから取得する。Webページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納されたデータが検索対象データでありコーパス、あるいは情報源、知識源などと呼ばれる。
Webページ提供サーバ102A〜Nは、WWW(World Wide Web)システムによる公開ページとしてWebページを提供する。Webページは、Webブラウザに表示されるデータ集合であり、テキストデータやHTMLによるレイアウト情報、文書中に埋め込まれた画像や音声、動画などによって構成される。Webページの集合はWebサイトであり、Webサイトは、トップページ(ホームページ)とトップページからリンクされた他のWebページで構成される。
質問応答システム200の構成および処理について図2を参照して説明する。質問応答システム200は、ネットワーク100に接続され、ネットワーク100に接続されたクライアントからの質問を受領し、ネットワーク100に接続されたWebページ提供サーバの提供するWebページやその他のデータベースを情報源として回答を検索して、例えば回答候補からなるリストを生成してクライアントに提供する処理を実行する。
本発明の質問応答システムは、クライアントからの質問に対する一次的な検索によって得られた回答候補の検査を行い、質問に対する回答候補の妥当性を判定する処理を実行する。本発明の質問応答システムでは、質問文を構成する語彙の意味を取得し、これを回答候補の検査に用いることで、より精度の高い回答候補検査を行うものである。
具体的には、質問文中の語彙意味の組み合わせから質問文の構成要素の意味や関係を解析し、その解析結果に基づいて回答候補を選択する。例えば、
質問「2003年に広島に行った野球選手は誰ですか?」
という質問があった場合、
「野球選手が広島に行く」における「野球選手」と「広島」と「行く」との間に発生している関係は、「広島という場所に行く」という関係や「広島という球団に入団する」という関係であるということを区別して取得する。そして、質問文の「広島」が「地名」で用いられているか「地名(あるいはスポーツチーム)」で用いられているかを判定し、その結果を用いて、質問応答システムの初期的な検索によって得られた回答候補の回答候補以外の語彙、上記の場合だと「野球選手が行った広島」の意味を判定することで、質問文の意図にあった文脈を判断し、それによって回答候補を峻別する。
質問文中の語彙の語彙的な意味の関係を用いて検査を行う場合の利点としては、以下のようなものが挙げられる。語彙的な意味を用いることで表現のゆれを吸収しつつ、質問文のQF(質問文の主題)以外の情報を、回答候補の質問に対する妥当性の検査処理に組み込むことができ、検査の適合率を上げると同時に、回答候補を限定する精度を上げることができる。また、質問文中の語彙意味の組み合わせから、質問文の意図を細かく判断することができ、生じた質問の意味の曖昧性ごとに個別に対応することができる。このことで、特定の場合に対する外部データベースへのアクセスなどを実装すること、あるいはユーザに対する質問文の意図の聞き返しなど、質問文を構成する意味ごとの個別の対応が可能となる。
本発明の質問応答システム200の構成について、図2を参照して説明する。質問応答システム200は、図2に示すように、質問タイプ判定手段201、回答候補抽出手段202、クエリ生成手段203、パッセージ検索手段204、形態素解析手段205、回答候補検査手段206、回答出力手段207を有する。以下、質問応答システム200の有する各処理手段の実行する処理について説明する。
[質問入力手段]
質問入力手段201は、ネットワーク100を介して、クライアントからの質問文(入力質問)を入力する。以下では、具体的な質問例として、
(入力質問)「2003年に広島に行った野球選手は誰ですか?」
という質問がクライアントから入力されたと想定して、質問応答システム200における各手段が実行する処理について説明する。
[質問タイプ判定手段]
質問タイプ判定手段202は、既存の多くの質問応答システムと同様に、入力された質問文の質問タイプを判定する。例えば、下記の質問文、
「2003年に広島に行った野球選手は誰ですか?」
からは、「誰」という文字列から「人物」についての質問タイプであると判定する。
[質問意味分析手段]
質問意味分析手段203は、検索手段204における検索によって取得される回答候補の検査処理に適用するため、および、検索手段204における検索に適用する検索クエリを生成するため、質問文を構成する語彙の意味を取得する処理を実行する。
質問意味分析手段203の実行する処理の具体例について説明する。まず、従来から知られる手法(例えば非特許文献1に記載の手法)を適用して、質問文からQF(質問文の主題)を取得する。
質問文「2003年に広島に行った野球選手は誰ですか?」
からは、QF(質問文の主題)として「野球選手」が選択される。
次に、取得された質問文のQF(野球選手)と、このQFを修飾する部分の語を検出する。質問文のQF(野球選手)を修飾する語の検出には、例えば構文意味解析処理が適用される。例えば、形態素解析、構文解析、意味解析、文脈解析などにより、質問文を解析し、質問文のQF(野球選手)を修飾する語を検出する。解析結果として質問文のQF(野球選手)に対しては、QFを修飾する語「広島」が検出される。
次に、取得された質問文のQF(野球選手)を修飾する部分の語「広島」の語彙について、既存のシソーラス辞書を用いてその語彙意味を取得する。例えば、シソーラス辞書に基づいて、広島という語から「地名」と「球団」の二つの意味(語義)を得ることができる。
得られた複数の語義に優先順位を与えたい場合には、二つの語義の類似性を与えるシソーラス上の距離を計測し、距離に基づいて優先順位を擬似的に与えることができる。例えば、「野球選手」に対して「広島」の二つの語義(「地名」と「球団」)のどちらがシソーラス上の距離として近いかを計測し、優先順位を与える。二つの語のシソーラス上の意味属性をxとyとし、lxとlyをそれぞれの意味属性のシソーラスの根(ルート)からの階層の深さ、Lを二つの意味属性で一致している階層の深さとする。この時、二つの語義x、yのシソーラス上の距離(意味距離)は一般的に以下で与えられる。
dist(x,y)
「広島」の二つの意味「地名」と「球団」の意味属性をそれぞれx1とx2とし、「野球選手」の意味属性をyとすると、
「広島(地名)」と「野球選手」との距離:dist(x1,y)
「広島(球団)」と「野球選手」との距離:dist(x2,y)
となり、dist(x1,y)、dist(x2,y)を計算する。
この2つのシソーラス上の距離dist(x1,y)、dist(x2,y)を比較して、より短い距離を持つ方を高い優先順位とする。以下では広島の意味として「球団|(同義語)カープ」が高い優先順位を得たとして説明を行う。
ここで特記しておくべきは、本実施例では質問文に含まれるQF(質問文の主題)を用いて、質問文に含まれる「広島」の曖昧性を解決しているが、例えば、「2003年広島に行ったのは誰ですか?」のようにQF(質問文の主題)として特別な文字列を設定できないような場合には、「広島」の意味の曖昧性を解消せず、質問文中の語彙の組み合わせだけを取得したまま処理を継続し、回答候補に対する検査の段階で語彙意味の順位を判定することも考えられる。
あるいは別の構成としては、質問文の語彙に複数の意味が存在する場合には、ユーザに対して該当する語彙に複数の意味がある旨を通知し、ユーザの返答をまって意味を決定してもよい。この処理は、図2に示すユーザ対話手段209を利用してユーザに判定を求める処理として実行される。
質問文の構成語の曖昧性が解消しない場合には、後の回答候補検査手段206における回答候補検査処理の際に、語彙意味ごとに用意した制約を使い分けて回答候補の検査を行い、得られた検査結果を意味ごとに分けて出力する。このように、質問文中の語彙間の意味を用いて検査を行う手法では、適合率を落とさずに、精度向上のための個別対応が可能となる。
[検索手段204]
検索手段204は、既存の多くの質問応答システムと同様に、質問文から得られたキーワードを元に検索対象から文書を検索し、回答候補がありそうな文データ部分(パッセージ)を抽出する。ここでの検索対象データは、図1に示すWebページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納された文書データなどであり、コーパス、あるいは情報源、知識源などと呼ばれる。
このデータ検索処理に関する具体的な技術については、例えば、「Isozaki, H., "NTT's Question Answering System for NTCIR QAC2",Working Notes of NTCIR−4 Workshop, pp. 326−332 (2004)」に示されている。
具体的には、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得される「2003年、広島、野球選手」といったキーワードを用いて検索対象から文書を得、得られた文書から、回答候補が含まれていそうな文データ部分(パッセージ)を得る。
[回答候補抽出手段]
回答候補抽出手段205は、既存の質問応答技術を用いて、検索手段204における検索処理によって取得したパッセージから、前述の質問タイプ判定手段202の判定した質問タイプ「人物」に相当する語を選択し、この選択語を回答候補として取得する。
例えば、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得されるキーワード「2003年、広島、野球選手」の近傍に出現し、かつ語彙を示すNE(named entity)タグで「人物」タグが付与されている名詞をパッセージ中から取得して、回答候補とする。
[回答候補検査手段]
回答候補検査手段206は、回答候補抽出手段205がパッセージから抽出した回答候補に対する検査を実行する。検査は、QF(質問文の主題)の文字列と、質問意味分析手段203で得られた語彙意味についての制約を用いて行う。例えば、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得されるキーワード「2003年、広島、野球選手」に基づく検索によって得られた回答候補中に、
「黒田」「矢野」「渡辺オーナー」という回答候補が存在した場合に、これを以下のような手順で検査する。
(第1ステップ)
まず、既存の手法によるQF(質問文の主題)の文字列を用いた検査を行う。
すなわち、
[QF(質問文の主題)+回答候補]
の文字列パターンからなる検索クエリを生成して、コーパス(情報源)に対する検索を行う。
具体的には、例えばWebページ提供サーバの提供するWebページなどの外部コーパスに対して、
a)「黒田という野球選手」
b)「矢野という野球選手」
c)「渡辺オーナーという野球選手」
などの検索クエリを作成し、
これらの各検索クエリに対応するヒット文書を保持する。
この処理によって、
a)「黒田という野球選手」
b)「矢野という野球選手」
の2つの検索クエリに対するヒット文書は検出されるが、
c)「渡辺オーナーという野球選手」
という検索クエリに対するヒット文書は検出されず、結果として、この検査において、回答候補として、野球選手である「黒田」や「矢野」が検査にパスし、回答候補として残されるが、「渡辺オーナー」は野球選手ではなく、ヒット文書が検出されず、検査にパスせず、回答候補から除外される。
(第2ステップ)、
次に、回答候補検査手段206は、第1ステップの検索において、各回答候補が得られた文書の文脈において用いられている検索キーワードが、質問意味分析手段203で得られた質問文の語彙意味の用法で用いられているかどうか、各回答候補について検査する。
この検査処理においては、回答候補抽出手段205で得た回答候補ごとに、その回答候補が得られた文書の文脈において用いられている検索キーワードが、質問意味解析手段203で得られた語彙意味で用いられているか否かを判定する。ここでは、検索キーワードとして、「2003年、広島、野球選手」を適用し、
上記のステップ1の検査において、
a)「黒田という野球選手」
b)「矢野という野球選手」
の2つの検索クエリに対するヒット文書として検出されているので、これらの文書に含まれる文書中の「広島」が、質問意味解析手段203で得られた語彙意味で用いられているか否かを判定する。
質問意味解析手段203では、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得された質問文のQF(野球選手)を修飾する部分、すなわち「広島」の語彙について、既存のシソーラス辞書から得られた二つの意味「地名」と「球団」について、シソーラス上の距離(意味距離)の計測、すなわち、
「広島(地名)」と「野球選手」との距離:dist(x1,y)
「広島(球団)」と「野球選手」との距離:dist(x2,y)
に基づいて、質問中の「広島」が「球団」であると判定している。
従って、上記のステップ1の検査において、
a)「黒田という野球選手」
b)「矢野という野球選手」
の2つの検索クエリに対するヒット文書として検出された文書に含まれる文書中の「広島」が「球団」として適用されているかどうかを判定する。
この判定処理のために、「矢野」と「黒田」が含まれるヒット文書に対して、それぞれ形態素解析処理を行う。図3に、前述のステップ1の検索処理、すなわち、
a)「黒田という野球選手」
b)「矢野という野球選手」
の2つの検索クエリに基づく検索におけるヒット文書に含まれる構成文の形態素解析結果を示す。形態素解析は、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行う解析処理である。
図3には、
A.「矢野は広島市に行った。」に対する形態素解析結果の一部データ、
B.「黒田は広島カープに行った。」に対する形態素解析結果の一部データ、
これら2つのヒット文の形態素解析結果を示している。
A.「矢野は広島市に行った。」の「広島」に対する形態素解析結果は「名詞−固有名詞−地名−一般」であり、
B.「黒田は広島カープに行った。」の「広島」は「名詞−固有名詞−組織」である。二つの形態素解析結果において異なっているのは「地名」と「組織」である(「一般」部分は処理上で意味がないので除去する)。
前述したように、質問意味分析手段203における
質問文「2003年に広島に行った野球選手は誰ですか?」
に対する語彙解析によって、質問文における「広島」が「球団」、すなわち組織であると解析されている。
B.「黒田は広島カープに行った。」の「広島」は、
質問意味分析手段203が解析した質問文の[広島(組織)]の持つ語彙意味と同様の用法で用いられているが、
A.「矢野は広島市に行った。」の「広島」は、
質問意味分析手段203が解析した質問文の[広島(地名)]の持つ語彙意味と異なる用法で用いられている。
従って、回答候補検査手段206は、
前述のステップ1の検索処理で選択された文書、すなわち、
A.「矢野は広島市に行った。」、
B.「黒田は広島カープに行った。」、
から、B.「黒田は広島カープに行った。」に含まれる回答候補[黒田]を選択、あるいはスコア加算を行う。
この回答候補検査処理によって、
質問文「2003年に広島に行った野球選手は誰ですか?」
に対する回答候補として、
「黒田」
のみを選択、あるいは最高スコアとした回答候補リストを生成することができる。
なお、回答候補に対するスコア加算処理においては、シソーラスの意味属性間の距離と、その意味属性と関連があるかの正解との対応関係を学習し、十分な量の学習データによって学習されたスレッシュホールドによって、回答候補が含まれるヒット文書中の「広島」の意味を判定し、質問の意図にあった回答候補を取得する構成とする。また、シソーラス辞書によっては、広島の「球団」の同義語として「カープ」という語彙が得られることがある。スポーツチームなどでは、「広島カープ、野球選手」という検索クエリを用いて、直接選手のデータベースに問い合わせを行うプログラムを保持することも有効な方法である。
[回答選択手段]
回答選択手段207は、回答候補検査手段206で選択された回答候補を、例えばスコア値に基づくランキングリストとして、回答候補リストを生成する。
[回答出力手段]
回答出力手段208は、回答選択手段207において最終的に決定した回答候補をクライアントに対して出力する。
これらの処理によって、
例えば、質問Q、すなわち、
質問Q:「2003年に広島に行った野球選手は誰ですか?」
に対する回答として、
「黒田」
のみを選択、あるいは最高スコアとした回答候補リストをクライアントに提示することができる。
なお、質問意味分析手段203における分析処理の結果として、質問文におけるQF(質問文の主題)の修飾部分の語に関する語彙が複数存在し、曖昧性を解消しない場合には、QFとの意味的な距離、およびコーパス中のQFとの共起頻度の高い意味を優先的に出力するなどの工夫を行う構成としてもよい。
例えば、「広島」と「野球選手」の共起頻度をカウントする際に、「広島」が「組織」というNEを持つ場合の頻度が、「地名」のNEを持つ場合よりも多い場合には、「広島カープの黒田」のような、「組織」という意味で用いられる「広島」を含む文脈の回答候補を優先的に出力するなどの工夫が可能である。
次に、図4のフローチャートを参照して、本発明の質問応答システムの実行する処理シーケンスについて説明する。
ステップS101において、クライアントからの質問を入力すると、ステップS102において、入力された質問文の質問タイプを判定する。これは図2に示す質問タイプ判定手段202の実行する処理であり、
質問「2003年に広島に行った野球選手は誰ですか?」
からは、「誰」という文字列から「人物」についての質問タイプであると判定する。
次に、ステップS103において、質問文を構成する語の語彙意味を取得する処理を実行する。これは、図2に示す質問意味分析手段203の処理であり、回答候補の検査処理に適用し、また、検索に適用する検索クエリを生成するために、質問文を構成する語彙の意味を取得する処理である。
質問「2003年に広島に行った野球選手は誰ですか?」
から、質問文のQF(野球選手)と、QFを修飾する語として「広島」が抽出され、QFを修飾する語「広島」について、シソーラス辞書を用いてその語彙意味を取得する。
この場合、例えば、シソーラス辞書に基づいて、広島という語から「地名」と「球団」の二つの意味(語義)を得ることができる。次に、ステップS104において、シソーラス上の距離(意味距離)に基づいて、質問文の解析対象語の語彙意味を判定する。なお、このステップの処理は、QFを修飾する語に複数の語彙意味がある場合に実行すればよい。
すなわち、上述の例では、「広島」について、シソーラス辞書から、「地名」と「球団」の二つの意味(語義)を得ることができるので、
質問に含まれるQF(野球選手)と、各意味属性を持つ修飾語「広島(地名)」、「広島(球団)」との意味距離を測定する。すなわち、
「広島(地名)」と「野球選手」との距離:dist(x1,y)
「広島(球団)」と「野球選手」との距離:dist(x2,y)
の各距離を測定し、より近い意味距離を持つ方を、質問におけるQF(野球選手)の修飾語「広島」の持つ語彙意味として選択する。
この場合、「広島」は、「球団」の語彙意味を持つと判定される。
次に、ステップS105において、質問に対応する検索処理が実行される。この検索処理は、Webページ、データベースなどのコーパス(情報源)を対象とした検索処理であり、図2に示す検索手段204が実行する。質問文から選択されたキーワードに基づいて生成されるクエリによる検索処理が実行される。
具体的には、例えば、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得される「2003年、広島、野球選手」といったキーワードを用いたクエリによって、検索対象から文書を得、得られた文書から、回答候補が含まれていそうな文データ部分(パッセージ)を取得する処理として実行される。
次に、ステップS106において、検索処理によって取得したパッセージから、前述の質問タイプ判定手段の判定した質問タイプ、例えば「人物」に相当する語を選択し、この選択語を回答候補として取得する。この処理は、図2における回答候補抽出手段205の実行する処理である。
例えば、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得されるキーワード「2003年、広島、野球選手」に基づく検索によって得られたパッセージから、「人物」に相当する語として、「黒田」「矢野」「渡辺オーナー」という語を抽出し、これらを回答候補とする。
次に、ステップS107、ステップS108において回答候補検査処理を実行する。これらの処理は、図2に示す回答候補検査手段206が実行する。
まず、ステップS107において、
回答候補検査処理第1ステップを実行する。
これは、
[QF(質問文の主題)+回答候補]
の文字列パターンからなる検索クエリを生成して、コーパス(情報源)に対する検索を行う処理である。
具体的には、
質問文「2003年に広島に行った野球選手は誰ですか?」
から取得されるキーワード「2003年、広島、野球選手」に基づく検索によって得られた回答候補中に、「黒田」「矢野」「渡辺オーナー」という回答候補が存在した場合に、
a)「黒田という野球選手」
b)「矢野という野球選手」
c)「渡辺オーナーという野球選手」
などの検索クエリを作成し、これらの各検索クエリに基づく検索を行い、ヒット文書を持つ回答候補のみを回答候補として維持し、ヒット文書を持たない回答候補は、回答候補から除外する。
a)「黒田という野球選手」
b)「矢野という野球選手」
はヒット文書を持ち、「黒田」、「矢野」のみが回答候補として残る。
ステップS108は、回答候補検査処理第2ステップであり、第1ステップ(S107)の検索において、各回答候補が得られた文書の文脈において用いられているワードが、質問意味分析手段203で得られた質問文の語彙意味の用法で用いられているかどうか、各回答候補について検査する処理である。
ステップS107の回答候補検査処理第1ステップにおいて、
a)「黒田という野球選手」
b)「矢野という野球選手」
の2つの検索クエリに対するヒット文書として検出された文書、すなわち、
A.「矢野は広島市に行った。」
B.「黒田は広島カープに行った。」
の各文書の形態素解析を実行し、質問意味分析手段203で得られた質問文の語彙意味の用法で用いられているかどうか、各回答候補について検査する。
この場合、質問文
質問文「2003年に広島に行った野球選手は誰ですか?」
に対する語彙解析によって、質問文における「広島」が「球団」、すなわち組織であると解析されている。
B.「黒田は広島カープに行った。」の「広島」は、
質問意味分析手段203が解析した質問文の[広島(組織)]の持つ語彙意味と同様の用法で用いられているが、
A.「矢野は広島市に行った。」の「広島」は、地名であり、質問文の[広島(組織)]の持つ語彙意味と異なる用法で用いられていることが判明する。
この結果、B.「黒田は広島カープに行った。」に含まれる回答候補[黒田]が選択、あるいはスコアアップされる。
ステップS109では、ステップS107,S108の回答候補検査処理によって選択された回答候補について、例えばスコア値に基づくランキングリストからなる回答候補リストを生成し、ステップS110において、クライアントに対して出力する。
これらの処理によって、
例えば、質問Q、すなわち、
質問Q:「2003年に広島に行った野球選手は誰ですか?」
に対する回答として、
「黒田」
のみを選択、あるいは最高スコアとした回答候補リストをクライアントに提示することができる。
[その他の変更実施例]
次に、本発明に係る質問応答システムにおけるその他の実施例について説明する。
上述した実施例では、質問意味分析手段203は、質問文からQF(質問文の主題)を取得し、さらに、その修飾語を取得する処理を実行しているが、質問文の検査に格フレーム辞書、あるいは格フレーム辞書に相当するデータ構造を用いることが可能である。格フレームを制約として用いることで、格フレームの格要素から、動詞についてのクエリの拡張が可能となる。また、語彙間の意味のパターンについて格フレーム照合することで、表記のゆれの吸収を動詞にまで拡大して検査を行うことができる。
また、「広島に行ったのは誰ですか?」のように明確にQFとなる文字列が得られない場合にも、格フレームの構造から主格と斜格の意味クラスのパターンを得ることができ、回答候補に対する検査が可能となる。
以下に、質問意味分析手段202において、質問文の語彙間の意味を、格フレームを用いて判定し、それを用いて回答候補の検査を行う例を説明する。「2003年に広島に行った野球選手は誰ですか?」という質問がシステムに入力されたとして、説明する。
まず、質問文から格フレームの構造を得るため、質問文を構文意味解析する処理を行う。最初に、質問文特有の語尾を除去する。この場合、質問文の語尾を除去し、質問文特有の語彙「誰」をダミーの文字列に変換する。
2003年に広島に行った野球選手は誰ですか?
2003年に広島に行った野球選手はAです。
得られた文に構文意味解析処理を施す。構文意味解析処理について説明する。日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行うことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行う。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援、文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行う。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行うことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語(SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制や様相、話法などを判定する処理を意味解析が含む場合もある。
構文意味解析システム例については、例えば、「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109(2003)」にLFGに基づく自然言語処理システムの詳細が記述されている。本発明の質問応答システムの質問意味分析手段203における質問文のQF(野球選手)と、このQFを修飾する部分「広島」の検出には、例えばこのLFGに基づく自然言語処理システムを適用することが可能である。
図5に、Lexical Functional Grammar (LFG)LFGに基づく自然言語処理を実行する構文意味解析システム300の構成を示す。形態素解析部302は、日本語など特定の言語に関する形態素ルール302Aと形態素辞書302Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行う。例えば、「私の娘は英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun} の{up} 娘{Noun} は{up} 英語{Noun} を{up} 話す{Verb1}{tr} ます{jp} 。{pt}」が出力される。
このような形態素解析結果は、次いで、構文・意味解析部303に入力される。構文・意味解析部303は、文法ルール303Aや結合価辞書303Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行う(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した"c−structure(constituent structure)"と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として"f−structure(functional structure)"を出力する。
すなわち、c−structureは、自然言語文の構造を、文の形態素を上位のフレーズへとまとめあげることによって木構造として表現するものであり、f−structureは、文法機能の概念に基づき、文の格構造、時制、様相、話法などの意味情報を属性―属性値のマトリックス構造で表現するものである。
例えば、本例では、クライアントから入力された入力質問は、
(入力質問)「2003年に広島に行った野球選手は誰ですか?」
である。この質問文に対して、回答候補を持つ分として想定される文
想定文「2003年に広島に行った野球選手はAです」
の構文意味解析結果としてのf−structureを図6に示す。f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、木構造として示されるc−structureの各節点に付随する素性の集合であり、図6に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
図6に示すf−structureは、質問文に対する回答想定文の解析結果であり、この解析結果から、質問文のQF(野球選手)と、このQFを修飾する部分「広島」の検出が実行可能となる。
なお、質問
「2003年に広島に行った野球選手は誰ですか?」
の構文意味構造は、要約すると以下のようになる。
・述語「です」
・主語「2003年に広島に行った野球選手」という名詞句。
・XCOMP(英語のTo不定詞に相当する表現)「A」であり主語が係る。
次に、質問文の語彙間の格フレームを得る。この時、文のメインの動詞を定め、その格要素を得る。この時、以下のヒューリスティックスを用いる。構文意味構造については図6を参照。
*文のメインの動詞は構文意味構造上、最も上層の一般動詞とする。
*質問文を解析した結果の「です」など一般動詞でない動詞は用いない。
*また、XCOMP文、連体修飾節が存在する場合には、被修飾名詞を、XCOMP文あるいは連体修飾節中の動詞の格要素として認識する。
*格要素とならない時間などの表現は、除外する。
上記例の場合は、以下のように格フレームが定まる。この時「広島」の意味として構文意味解析結果から「organization」が得られる。ただし、この結果は格フレームを考慮していない。
(野球選手 主格)(広島 斜格)行く。
次に、得られた格フレームの構造を元に質問文の語彙および語彙間の意味関係を取得する。この処理においては、例えば、「「Kentaro Torisawa,"A Nearly Unsupervised Learning Method for Automatic Paraphrasing of Japanese Noun Phrases", In Proceedings of the Workshop on Automatic Paraphrasing,pp.63−72,Tokyo,Japan,December,2001」の公知の技術を用いて得た格フレーム辞書に相当する確率分布や、「河原大輔,黒橋禎夫,"用言と直前の格要素の組を単位とする格フレームの自動構築",自然言語処理,Vol.9,No.1,pp.3−19,2002」による格フレーム辞書を用いてもよい。
例えば、鳥澤らの格フレーム辞書に相当する確率分布を用いた手法で、以下の格フレームを表現することを考える。
(野球選手 主格)(広島 斜格)行った。
Figure 2006293830
上記式の、aとbはコーパスから確率分布を推定するときに定められる意味クラスに相当する表現である。「広島」が属しやすい意味クラスとしては「岩手,大阪,神戸,横浜」などの語彙が含まれる地名のクラスや、「巨人、横浜、阪神、早稲田」といったスポーツチームのクラスなど複数存在する。例えば、P(広島|地名クラス)やP(広島|スポーツチームクラス)といった確率値はP(広島|人名クラス)の確率値よりも高くなる。
この性質を用いて、P(野球選手,が,広島,に,行く)の確率値が最大となるような意味クラスの組{a,b}を選択することで、「野球選手が広島に行った」の格フレームの意味的な構造を捉えることができる。このような意味クラスの設定は、粒度の細かいシソーラス辞書と格フレーム辞書を用いることで得ることでも同様に可能である。例えば、河原らの得たシソーラス辞書には、図7に示すような「行く」に関するスロットがあるとする。
この時、「広島」や「野球選手」という単語がどちらの「行く」に属するのかを、「河原大輔,黒橋禎夫,"用言と直前の格要素の組を単位とする格フレームの自動構築",自然言語処理,Vol.9,No.1,pp.3−19,2002」による格フレーム辞書を用いて判定することができる。格フレームの構造を用いることで、以下のように、検索クエリの拡張や、回答候補の検査に用いることができる。ここで得られたaとbの組は、「選手」クラス、「スポーツチーム」のクラスであるとして説明を進める。
(検索クエリと検査語彙の動詞に関する拡張)
P(<が、に、V>|選手クラス,スポーツチーム)で表される確率分布において「行く」と同様の確率値を与える動詞を得て、検索クエリを拡張することができる。例えば、「入団する」などが得られる。一般的な形式の格フレーム辞書でも、このような動詞についてのクエリ拡張を、格フレーム辞書を構成する格要素動詞のシソーラス上の距離を比較することで得ることができる。例えば、「野球選手または選手」がガ格に存在し、「広島(地名や組織)」がニ格のフレームに存在するような動詞を、格フレーム辞書から検索することで、質問文の動詞についての「入団する」などの動詞が取得でき、これを用いても回答候補の検査や、文書検索を行うことができる。
(回答候補の検査)
回答候補が得られた文脈から、回答候補を含んで動詞と斜格の格要素と主格の格要素を取得し、主格の意味クラスを「選手」、斜格の格要素を「スポーツチーム」に固定した場合の確率値がスレッシュホールドを超えている場合に、その回答候補は検査をパスするものとする。(ただし、得られた回答候補の語彙がコーパス中に一定の頻度以上で存在しない場合には、その上位クラスとして「人名」クラスや「組織」クラスを設定するなどの工夫は必要である)。例えば、回答候補「黒田」が「黒田は広島カープに入団した。」という文から得られていた場合に、P(が、に、入団する|名前クラス、スポーツクラス)とP(広島カープ|スポーツチームクラス)とP(黒田|名前)の確率値の積がスレッシュホールドを超えている場合に検査をパスするものとする。この実施例では、確率値の積による検査を行っているが、一般的な格フレーム辞書とシソーラス辞書、さらには、意味クラスと語彙との間に人手で定めたルールを用いてもよい。
また、「広島に行ったのは誰ですか?」のように明確にQFとなる文字列が得られない場合にも、格フレームの構造から主格と斜格の意味クラスのパターンからQFに相当するものの候補を得ることができる。すなわち、「野球選手」のような明確な文字列による質問の主題は得られないが、この質問の答えとして、格フレームから、以下のような条件の回答候補を選ぶことで可能である。
「行く、入団するといった動詞」の主格として「選手クラスに属する名詞」をとり、かつ、斜格に「スポーツチームクラスをとる名詞」をとるなどの情報を得て、QFが取得できなくても検査が可能となる。
このように、格フレームを制約として用いることで、格フレームの格要素から、動詞についてのクエリの拡張が可能となる。また、語彙間の意味のパターンについて格フレーム照合することで、表記のゆれの吸収を動詞にまで拡大して検査を行うことができる。また、「広島に行ったのは誰ですか?」のように明確にQFとなる文字列が得られない場合にも、格フレームの構造から主格と斜格の意味クラスのパターンを得ることができ、回答候補に対する検査が可能となる。
最後に、上述した処理を実行する質問応答システムを構成する情報処理装置のハードウェア構成例について、図8を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した入力質問に基づく特徴語抽出、検索処理、クエリ生成処理、パッセージ検索処理、形態素解析処理、回答候補検査処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば検索結果としての回答候補、パッセージの格納、さらに、回答候補検査手段において適用するクエリの格納、クエリーに基づくヒット文の格納、ヒット文に対する形態素解析結果の格納、回答候補の格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、クライアントやネットワーク接続サーバとの通信を実行する。
なお、図8に示す質問応答システムとして適用される情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の質問応答システムは、図8に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、質問に対する回答を提供するシステムにおいて、入力質問の語彙意味を解析し、入力質問の構成語の語彙意味に基づく回答候補検査処理を実行する構成としたので、質問に対する最適な回答を回答候補として選択してクライアントに提供することが可能となる。
本発明の構成によれば、質問に対する回答を提供するシステムにおいて、入力質問に基づく検索処理結果に基づいて初期回答候補を抽出し、抽出した回答候補についての検査処理を実行し、質問に対する最適な回答を選択可能としたものであり、回答候補を適用したクエリによって検索を行い、検索結果として得られた文の構成語が、入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する回答候補検査処理を実行する構成としたので、質問に対する最適な回答を回答候補として選択してクライアントに提供することが可能となる。
本発明の質問応答システムの適用例を示すネットワーク構成図である。 本発明の一実施形態に係る質問応答システムの構成について説明する図である。 本発明の一実施形態に係る質問応答システムにおける回答候補検査手段の処理による形態素解析結果の例について説明する図である 本発明の一実施形態に係る質問応答システムの実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の一実施形態に係る質問応答システムにおける検査式生成手段を構成する構文意味解析システムの構成例を示す図である。 構文意味解析処理によって生成される構文意味解析結果としてのf−structureのデータ例を示した図である。 本発明の一実施形態に係る質問応答システムにおいて適用するシソーラス辞書のデータ例について説明する図である。 本発明の一実施形態に係る質問応答システムのハードウェア構成例について説明する図である。
符号の説明
100 ネットワーク
101 クライアント
102 Webページ提供サーバ
103 データベース
200 質問応答システム
201 質問入力手段
202 質問タイプ判定手段
203 質問意味分析手段
204 検索手段
205 回答候補抽出手段
206 回答候補検査手段
207 回答選択手段
208 回答出力手段
209 ユーザ対話手段
300 構文意味解析システム
302 形態素解析部
302A 形態素ルール
302B 形態素辞書
303 構文意味解析部
303A 文法ルール
303B 結合価辞書
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (15)

  1. 質問を入力する質問入力手段と、
    入力質問に基づく検索処理を実行する検索手段と、
    前記検索手段の検索結果に基づいて初期回答候補を抽出する回答候補抽出手段と、
    前記回答候補抽出手段の抽出した回答候補についての検査処理を実行する回答候補検査手段と、
    前記回答候補検査手段によって最終的に選択された回答を出力する回答出力手段を有し、
    前記回答候補検査手段は、
    前記回答候補抽出手段の抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語が、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行する構成であることを特徴とする質問応答システム。
  2. 前記回答候補検査手段は、
    前記入力質問から抽出されるQF(質問文の主題)と、前記回答候補抽出手段の抽出した回答候補との組み合わせからなるクエリを生成し、該クエリによる検索によってヒットした文を持つクエリに含まれる回答候補のみを選択する第1検査処理と、
    前記第1検査処理において選択された回答候補について、前記第1検査処理において取得したヒット文の構成語について、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定する第2検査処理を実行する構成であり、該第2検査処理において、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  3. 前記回答候補検査手段は、
    前記入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出し、前記QF(質問文の主題)を修飾する語の語彙意味を解析する処理を実行する質問意味分析手段を備えることを特徴とする請求項1に記載の質問応答システム。
  4. 前記回答候補検査手段は、
    前記質問意味分析手段が解析した前記入力質問におけるQF(質問文の主題)を修飾する語の語彙意味と、前記回答候補抽出手段の抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語との比較処理を実行する構成であることを特徴とする請求項3に記載の質問応答システム。
  5. 前記質問意味分析手段は、
    前記QF(質問文の主題)を修飾する語の語彙意味解析処理において、シソーラス辞書における前記QF(質問文の主題)と、前記QF(質問文の主題)を修飾する語の意味距離を解析し、より近い意味距離を持つ語彙意味を、前記QF(質問文の主題)を修飾する語の語彙意味として優先的に選択する処理を実行する構成であることを特徴とする請求項3に記載の質問応答システム。
  6. 前記質問意味分析手段は、
    入力質問の構文意味解析処理を実行し、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出する処理を実行する構成であることを特徴とする請求項3に記載の質問応答システム。
  7. 前記質問意味分析手段は、
    入力質問の構文意味解析時に格フレーム辞書を用いて、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を直接修飾する動詞を含む語句部分を抽出する処理を実行する構成であることを特徴とする請求項3に記載の質問応答システム。
  8. データ検索方法であり、
    質問を入力する質問入力ステップと、
    入力質問に基づく検索処理を実行する検索ステップと、
    前記検索ステップにおける検索結果に基づいて初期回答候補を抽出する回答候補抽出ステップと、
    前記回答候補抽出ステップにおいて抽出した回答候補についての検査処理を実行する回答候補検査ステップと、
    前記回答候補検査ステップにおいて最終的に選択された回答を出力する回答出力ステップを有し、
    前記回答候補検査ステップは、
    前記回答候補抽出ステップにおいて抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語が、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行することを特徴とするデータ検索方法。
  9. 前記回答候補検査ステップは、
    前記入力質問から抽出されるQF(質問文の主題)と、前記回答候補抽出ステップの抽出した回答候補との組み合わせからなるクエリを生成し、該クエリによる検索によってヒットした文を持つクエリに含まれる回答候補のみを選択する第1検査処理と、
    前記第1検査処理において選択された回答候補について、前記第1検査処理において取得したヒット文の構成語について、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定する第2検査処理を実行し、第2検査処理において、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行することを特徴とする請求項8に記載のデータ検索方法。
  10. 前記回答候補検査ステップは、
    入力質問の解析処理を実行し、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出し、
    前記QF(質問文の主題)を修飾する語の語彙意味を解析する処理を実行する質問意味分析ステップを備えることを特徴とする請求項8に記載のデータ検索方法。
  11. 前記質問意味分析ステップは、
    入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出し、さらに、QF(質問文の主題)を修飾する語についての語彙意味の解析処理を実行するステップであり、
    前記回答候補検査ステップは、
    前記質問意味分析ステップにおいて解析した前記入力質問におけるQF(質問文の主題)を修飾する語の語彙意味と、前記回答候補抽出ステップの抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語との比較処理を実行するステップであることを特徴とする請求項10に記載のデータ検索方法。
  12. 前記質問意味分析ステップは、
    前記QF(質問文の主題)を修飾する語の語彙意味解析処理において、シソーラス辞書における前記QF(質問文の主題)と、前記QF(質問文の主題)を修飾する語の意味距離を解析し、より近い意味距離を持つ語彙意味を、前記QF(質問文の主題)を修飾する語の語彙意味として優先的に選択する処理を実行することを特徴とする請求項10に記載のデータ検索方法。
  13. 前記質問意味分析ステップは、
    入力質問の構文意味解析処理を実行し、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を修飾する語を抽出する処理を実行することを特徴とする請求項10に記載のデータ検索方法。
  14. 前記質問意味分析ステップは、
    入力質問の構文意味解析時に格フレーム辞書を用いて、入力質問からQF(質問文の主題)と、該QF(質問文の主題)を直接修飾する動詞を含む語句部分を抽出する処理を実行することを特徴とする請求項10に記載のデータ検索方法。
  15. データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
    質問を入力する質問入力ステップと、
    入力質問に基づく検索処理を実行する検索ステップと、
    前記検索ステップにおける検索結果に基づいて初期回答候補を抽出する回答候補抽出ステップと、
    前記回答候補抽出ステップにおいて抽出した回答候補についての検査処理を実行する回答候補検査ステップと、
    前記回答候補検査ステップにおいて最終的に選択された回答を出力する回答出力ステップを有し、
    前記回答候補検査ステップは、
    前記回答候補抽出ステップにおいて抽出した回答候補を適用したクエリによる検索結果として得られた文の構成語が、前記入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定し、同様の語彙意味を有すると判定されたクエリに含まれる回答候補を、最終的な回答候補として選択する処理を実行するステップであることを特徴とするコンピュータ・プログラム。
JP2005115893A 2005-04-13 2005-04-13 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Expired - Fee Related JP4654745B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005115893A JP4654745B2 (ja) 2005-04-13 2005-04-13 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US11/299,746 US7805303B2 (en) 2005-04-13 2005-12-13 Question answering system, data search method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005115893A JP4654745B2 (ja) 2005-04-13 2005-04-13 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2006293830A true JP2006293830A (ja) 2006-10-26
JP4654745B2 JP4654745B2 (ja) 2011-03-23

Family

ID=37109649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005115893A Expired - Fee Related JP4654745B2 (ja) 2005-04-13 2005-04-13 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US7805303B2 (ja)
JP (1) JP4654745B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018566A (ja) * 2014-07-10 2016-02-01 ネイバー コーポレーションNAVER Corporation 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
KR20160026892A (ko) * 2013-06-27 2016-03-09 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 방법
CN105702248A (zh) * 2014-12-09 2016-06-22 苹果公司 在话音合成中消除同形异音词的歧义
JP2017157207A (ja) * 2016-03-01 2017-09-07 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 人工知能に基づく検索結果放送方法及び装置
JP2017208086A (ja) * 2016-05-19 2017-11-24 パロ アルト リサーチ センター インコーポレイテッド 自然言語ウェブブラウザ
JP2019016269A (ja) * 2017-07-10 2019-01-31 ヤフー株式会社 学習装置、情報処理装置、学習方法及び学習プログラム
JP2019046019A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2021022928A (ja) * 2019-07-24 2021-02-18 ネイバー コーポレーションNAVER Corporation 人工知能基盤の自動応答方法およびシステム

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396824B2 (en) * 1998-05-28 2013-03-12 Qps Tech. Limited Liability Company Automatic data categorization with optimally spaced semantic seed terms
US20070294229A1 (en) * 1998-05-28 2007-12-20 Q-Phrase Llc Chat conversation methods traversing a provisional scaffold of meanings
US7711672B2 (en) * 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US7873624B2 (en) * 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US8983977B2 (en) * 2006-03-01 2015-03-17 Nec Corporation Question answering device, question answering method, and question answering program
WO2008042974A2 (en) * 2006-10-03 2008-04-10 Qps Tech. Limited Liability Company Mechanism for automatic matching of host to guest content via categorization
JP5126068B2 (ja) * 2006-12-22 2013-01-23 日本電気株式会社 文言い換え方法、プログラムおよびシステム
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US8543565B2 (en) * 2007-09-07 2013-09-24 At&T Intellectual Property Ii, L.P. System and method using a discriminative learning approach for question answering
US9396262B2 (en) * 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US9875298B2 (en) 2007-10-12 2018-01-23 Lexxe Pty Ltd Automatic generation of a search query
US20110119261A1 (en) * 2007-10-12 2011-05-19 Lexxe Pty Ltd. Searching using semantic keys
US10482114B2 (en) * 2008-03-27 2019-11-19 Oath Inc. System and method for maintenance of questions and answers through collaborative and community editing
US8321406B2 (en) * 2008-03-31 2012-11-27 Google Inc. Media object query submission and response
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US20090327235A1 (en) * 2008-06-27 2009-12-31 Google Inc. Presenting references with answers in forums
US9047285B1 (en) * 2008-07-21 2015-06-02 NetBase Solutions, Inc. Method and apparatus for frame-based search
WO2010105216A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
CN102362275A (zh) * 2009-03-23 2012-02-22 富士通株式会社 内容推荐方法、推荐信息生成方法、内容推荐程序、内容推荐服务器以及内容提供系统
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US8924396B2 (en) * 2009-09-18 2014-12-30 Lexxe Pty Ltd. Method and system for scoring texts
US20110078192A1 (en) * 2009-09-30 2011-03-31 International Business Machines Corporation Inferring lexical answer types of questions from context
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US10204163B2 (en) * 2010-04-19 2019-02-12 Microsoft Technology Licensing, Llc Active prediction of diverse search intent based upon user browsing behavior
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
CA2812338C (en) 2010-09-24 2019-08-13 International Business Machines Corporation Lexical answer type confidence estimation and application
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
CN103221915B (zh) 2010-09-24 2017-02-08 国际商业机器公司 在开域类型强制中使用本体信息
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US9002773B2 (en) 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
EP2622510A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
EP2622428A4 (en) * 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
CN103229168B (zh) * 2010-09-28 2016-10-19 国际商业机器公司 在问答期间在多个候选答案之间证据扩散的方法和系统
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US10198506B2 (en) 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9965472B2 (en) * 2012-08-09 2018-05-08 International Business Machines Corporation Content revision using question and answer generation
US10169456B2 (en) * 2012-08-14 2019-01-01 International Business Machines Corporation Automatic determination of question in text and determination of candidate responses using data mining
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9535899B2 (en) 2013-02-20 2017-01-03 International Business Machines Corporation Automatic semantic rating and abstraction of literature
US9311294B2 (en) * 2013-03-15 2016-04-12 International Business Machines Corporation Enhanced answers in DeepQA system according to user preferences
US8935272B2 (en) 2013-03-17 2015-01-13 Alation, Inc. Curated answers community automatically populated through user query monitoring
US9342608B2 (en) 2013-08-01 2016-05-17 International Business Machines Corporation Clarification of submitted questions in a question and answer system
US9361384B2 (en) 2013-12-26 2016-06-07 Iac Search & Media, Inc. Image extraction service for question and answer search engine
US20150186528A1 (en) * 2013-12-26 2015-07-02 Iac Search & Media, Inc. Request type detection for answer mode selection in an online system of a question and answer search engine
US9495457B2 (en) 2013-12-26 2016-11-15 Iac Search & Media, Inc. Batch crawl and fast crawl clusters for question and answer search engine
US9378273B2 (en) * 2014-03-13 2016-06-28 International Business Machines Corporation System and method for question answering by reformulating word problems
US9607035B2 (en) 2014-05-21 2017-03-28 International Business Machines Corporation Extensible validation framework for question and answer systems
US11100557B2 (en) 2014-11-04 2021-08-24 International Business Machines Corporation Travel itinerary recommendation engine using inferred interests and sentiments
US11017312B2 (en) * 2014-12-17 2021-05-25 International Business Machines Corporation Expanding training questions through contextualizing feature search
US10169489B2 (en) * 2015-03-02 2019-01-01 International Business Machines Corporation Query disambiguation in a question-answering environment
KR101646754B1 (ko) * 2015-03-18 2016-08-12 연세대학교 산학협력단 모바일 시멘틱 검색 장치 및 그 방법
US10380125B2 (en) * 2015-05-01 2019-08-13 Sony Corporation Information processing apparatus and information processing method
US10467268B2 (en) * 2015-06-02 2019-11-05 International Business Machines Corporation Utilizing word embeddings for term matching in question answering systems
US10592540B2 (en) 2015-07-07 2020-03-17 Google Llc Generating elements of answer-seeking queries and elements of answers
US11955115B2 (en) * 2015-07-30 2024-04-09 Pat Inc. Semantic-based NLU processing system based on a bi-directional linkset pattern matching across logical levels for machine interface
US9478145B1 (en) * 2015-11-24 2016-10-25 International Business Machines Corporation Unreasonable answer filter
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
US10817790B2 (en) 2016-05-11 2020-10-27 International Business Machines Corporation Automated distractor generation by identifying relationships between reference keywords and concepts
US11250332B2 (en) * 2016-05-11 2022-02-15 International Business Machines Corporation Automated distractor generation by performing disambiguation operations
CN106649561B (zh) * 2016-11-10 2020-05-26 复旦大学 面向税务咨询业务的智能问答系统
CN106710596B (zh) * 2016-12-15 2020-07-07 腾讯科技(上海)有限公司 回答语句确定方法及装置
US10803249B2 (en) * 2017-02-12 2020-10-13 Seyed Ali Loghmani Convolutional state modeling for planning natural language conversations
CN110659354B (zh) 2018-06-29 2023-07-14 阿里巴巴(中国)有限公司 问答系统的建立方法、装置、存储介质及电子设备
US10970488B2 (en) * 2019-02-27 2021-04-06 International Business Machines Corporation Finding of asymmetric relation between words
US11429789B2 (en) * 2019-06-12 2022-08-30 International Business Machines Corporation Natural language processing and candidate response identification
KR20210036169A (ko) * 2019-09-25 2021-04-02 현대자동차주식회사 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
CN110852113B (zh) * 2019-10-10 2023-05-26 林原 翻译方法、装置、设备及存储介质
CN116134432A (zh) * 2020-01-14 2023-05-16 雷克斯股份有限公司 用于提供对查询的答案的系统和方法
CN113569099B (zh) * 2020-04-29 2022-12-13 阿里巴巴集团控股有限公司 模型训练方法、装置、电子设备及存储介质
CN113035179B (zh) * 2021-03-03 2023-09-26 中国科学技术大学 一种语音识别方法、装置、设备及计算机可读存储介质
CN113486174B (zh) * 2021-06-15 2022-11-29 北京三快在线科技有限公司 模型训练、阅读理解方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756954A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
JPH08212234A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> データベース検索装置及びデータベース検索方法
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
JP3845727B2 (ja) 2002-09-27 2006-11-15 独立行政法人情報通信研究機構 統計的検定を利用した質問応答システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756954A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
JPH08212234A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> データベース検索装置及びデータベース検索方法
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102256240B1 (ko) 2013-06-27 2021-05-26 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 방법
KR20160026892A (ko) * 2013-06-27 2016-03-09 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의 응답 시스템 및 방법
JP2016018566A (ja) * 2014-07-10 2016-02-01 ネイバー コーポレーションNAVER Corporation 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
CN105702248A (zh) * 2014-12-09 2016-06-22 苹果公司 在话音合成中消除同形异音词的歧义
JP2016122183A (ja) * 2014-12-09 2016-07-07 アップル インコーポレイテッド 音声合成における同綴異音異義語の曖昧さの解消
JP2017157207A (ja) * 2016-03-01 2017-09-07 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 人工知能に基づく検索結果放送方法及び装置
KR101970047B1 (ko) * 2016-03-01 2019-04-17 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 인공 지능을 기반으로 하는 검색 결과 플레이 방법과 장치
US10810272B2 (en) 2016-03-01 2020-10-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for broadcasting search result based on artificial intelligence
KR20170102412A (ko) * 2016-03-01 2017-09-11 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 인공 지능을 기반으로 하는 검색 결과 브로드캐스팅 방법과 장치
JP2017208086A (ja) * 2016-05-19 2017-11-24 パロ アルト リサーチ センター インコーポレイテッド 自然言語ウェブブラウザ
JP2022116343A (ja) * 2016-05-19 2022-08-09 パロ アルト リサーチ センター インコーポレイテッド 自然言語ウェブブラウザ
US11599709B2 (en) 2016-05-19 2023-03-07 Palo Alto Research Center Incorporated Natural language web browser
JP7485485B2 (ja) 2016-05-19 2024-05-16 パロ アルト リサーチ センター,エルエルシー 自然言語ウェブブラウザ
JP2019016269A (ja) * 2017-07-10 2019-01-31 ヤフー株式会社 学習装置、情報処理装置、学習方法及び学習プログラム
JP2019046019A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7080609B2 (ja) 2017-08-31 2022-06-06 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2021022928A (ja) * 2019-07-24 2021-02-18 ネイバー コーポレーションNAVER Corporation 人工知能基盤の自動応答方法およびシステム
JP7113047B2 (ja) 2019-07-24 2022-08-04 ネイバー コーポレーション 人工知能基盤の自動応答方法およびシステム

Also Published As

Publication number Publication date
US7805303B2 (en) 2010-09-28
US20060235689A1 (en) 2006-10-19
JP4654745B2 (ja) 2011-03-23

Similar Documents

Publication Publication Date Title
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7526474B2 (en) Question answering system, data search method, and computer program
JP4654780B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8185377B2 (en) Diagnostic evaluation of machine translators
JP4650072B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7844598B2 (en) Question answering system, data search method, and computer program
US7672831B2 (en) System and method for cross-language knowledge searching
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
US10055400B2 (en) Multilingual analogy detection and resolution
Wu et al. Semantic segment extraction and matching for internet FAQ retrieval
US10061770B2 (en) Multilingual idiomatic phrase translation
Jabbar et al. An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems
JP4401269B2 (ja) 対訳判断装置及びプログラム
Bakari et al. A logical representation of Arabic questions toward automatic passage extraction from the Web
Hong et al. Customizing a Korean-English MT System for Patent Translation
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
JP2006139708A (ja) テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
KR100745367B1 (ko) 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템
Moreda et al. Automatic generalization of a QA answer extraction module based on semantic roles
JP4812811B2 (ja) 機械翻訳装置及び機械翻訳プログラム
Landoulsi et al. Natural Language for Querying Geographic Databases
Fujita et al. Computing paraphrasability of syntactic variants using Web snippets
Kato et al. English sentence retrieval system based on dependency structure and its evaluation
Berzak Second language learning from a multilingual perspective

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees