JP2006344102A - 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム - Google Patents
質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2006344102A JP2006344102A JP2005170424A JP2005170424A JP2006344102A JP 2006344102 A JP2006344102 A JP 2006344102A JP 2005170424 A JP2005170424 A JP 2005170424A JP 2005170424 A JP2005170424 A JP 2005170424A JP 2006344102 A JP2006344102 A JP 2006344102A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- answer
- search
- answer candidate
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 入力質問の検索結果に対する照応解析結果に基づいて、検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出し、回答候補抽出パッセージの選択処理において、選択パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして設定し、これらのパッセージから回答候補を抽出する。本構成により、検索キーワードとのマッチ度に基づくパッセージ選択を行なった場合に、キーワードから離間した位置にある有力な回答候補を見落とすことなく、確実に回答候補として取得し、クライアントに提示することが可能となる。
【選択図】 図3
Description
質問文「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
この質問が質問応答システムに入力されたとする。この質問において、質問には「どこにありますか?」とあるので、質問応答システムは、「場所」を問う質問であると判別する。この質問タイプの判断処理は、既存の多くの手法において実行されている。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致し異なる表現でなされた同一の実体を指し示している。
文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致しており、さらに、
文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致していることが分かる。
質問を入力する質問入力手段と、
入力質問に基づく検索処理を実行する検索手段と、
前記検索手段の検索結果に対して照応解析処理を実行する照応解析手段と、
前記照応解析手段における照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出手段と、
前記情報抽出手段の選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出手段と、
前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段と、
を有する構成であることを特徴とする質問応答システムにある。
データ検索方法であり、
質問を入力する質問入力ステップと、
入力質問に基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果に対して照応解析処理を実行する照応解析ステップと、
前記照応解析ステップにおける照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出ステップと、
前記情報抽出ステップにおいて選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップと、
を有することを特徴とするデータ検索方法にある。
データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
質問を入力する質問入力ステップと、
入力質問に基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果に対して照応解析処理を実行する照応解析ステップと、
前記照応解析ステップにおける照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出ステップと、
前記情報抽出ステップにおいて選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
まず、図2を参照して、本発明の質問応答システムの利用形態の一例について説明する。図2は本発明の質問応答システム200をネットワークに接続したネットワーク構成を示す図である。図2に示すネットワーク100は、インターネットやイントラネットなどのネットワークであり、ネットワーク100には、質問応答システム200に対する質問を送信するユーザ端末としてのクライアント101−1〜n、クライアント101−1〜nに対する回答を取得するための素材としてのWebページを提供する様々なWebページ提供サーバ102A〜Nやデータベース103a〜nが接続されている。
質問入力手段201は、ネットワーク100を介して、クライアントからの質問文(入力質問)を入力する。以下では、具体的な質問例として、クライアント(質問ユーザ)からの入力質問文が以下の文であったとする。
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
この質問が質問応答システム200に入力されたとする。
質問解析手段202は、入力質問の解析処理を実行する。例えば質問が求めている回答が、人であるか場所であるかなどの質問タイプの判別や、質問の構成文から検索語(検索キーワード)となる特徴語の検出などが行なわれる。
この質問において、質問には「どこにありますか?」とあるので、質問は、「場所」を問う質問であると判別する。この質問タイプの判断処理は、既存の多くの手法において実行されている処理と同様である。
情報検索手段203は、質問解析手段202の解析によって抽出された検索語(検索キーワード)に基づく検索を実行する。すなわち、例えば、ネットワークに接続されたWebページ提供サーバの提供するWebページやデータベースを検索対象文書(知識源)とした検索処理を実行して質問に対応する回答の含まれると判定される文章を取得する。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
照応解析手段204は、情報検索手段203の検索結果としての検索文書に対して、照応解析処理を施す。照応解析処理は、検索結果としてのテキストの解析により、テキスト中の名詞句、代名詞およびゼロ代名詞のいずれかの表現の同一性判断を行なう処理として実行される。なお、照応解析技術については、例えば「河原大輔,黒橋禎夫,"自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析",自然言語処理,Vol.11,No.3,2004」、あるいは「飯田龍,乾健太郎,松本裕治,関根聡."機械学習による日本語名詞句照応解析の一手法",言語処理学会第10回年次大会,2004」などに詳細が記載されている。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この文1〜5からなる検索結果が得られているとする。
文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致し異なる表現でなされた同一の実体を指し示している。
文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致しており、さらに、
文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致している。
これらの解析結果を得たものとする。
この解析結果は、先に図1を参照して説明した結果と同様の結果である。
前述したように、既存の手法においては、このような複数の文(パッセージ)から回答候補を抽出するパッセージを選択する場合、キーワードとのマッチ度の高い文(パッセージ)を優先的に選択する処理を行っていた。
情報抽出手段205は、検索結果として得られた文(本では、前述の文1〜文5)ごとに、照応解析結果に基づき名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を抽出する。この処理について、図4を参照して説明する。
(1)文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致、
(2)文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致、
(3)文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致、
これらの照応解析結果(1)〜(3)が得られている。
照応解析結果(1)から、文1と文2は参照関係にある表現を共有する文であると判断する。また、
照応解析結果(2)から、文2と文5は参照関係にある表現を共有する文であると判断する。また、
照応解析結果(3)からも、文2と文5は参照関係にある表現を共有する文であると判断する。
本例において、参照関係文は、[文1と文2]、および[文2と文5]、これらの2組である。
(a)文5と、文5の前後にある文4、および、
(b)文5に対応する参照関係文である文2と、文2の前後にある文1、文3となる。
次に、キーワードマッチ度が文5に次いで高い文2に基づいて選択される回答候補抽出対象パッセージは、
(c)文2と、文2の前後にある文1,文3、および、
(d)文2に対応する参照関係文である文1と、文1の前後にある文2となる。
回答候補抽出手段206は、情報抽出手段205が上述した参照関係文を考慮した回答候補抽出対象パッセージ選択処理によって選択したパッセージを回答候補抽出対象パッセージとして、回答候補抽出処理を実行する。
「秦市立城址公園」
「ニューヨーク」
「ロックフェラーセンター」
が回答候補として選択される。
回答選択手段207は、回答候補抽出手段206の抽出した回答候補に、回答としての適正度を示すスコアを設定して、ランキングを行いスコアの高い順から回答候補を並べた回答候補リストを生成する。回答候補に対するスコア設定は、以下のスコア加算基準(a)(b)に従って実行する。
(b)各回答候補は、回答候補の含まれる文に対応する参照関係文がある場合、その参照関係文についてのキーワードマッチ度に基づくスコアを加点する。
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
に基づいて、抽出した検索に適用するキーワードである。
キーワードは、「マニア、人気、松の木、クリスマスツリー」
である。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この文1〜5からなる検索結果が得られているとする。
文1と文2は参照関係にある表現を共有する参照関係文であり、また、文2と文5も参照関係にある表現を共有する参照関係文であると判断されている。
文2には、2つのキーワード[松の木]、[クリスマスツリー]が含まれ、
文5には、3つのキーワード[松の木]、[マニア][人気]が含まれている。
「秦市立城址公園」
「ニューヨーク」
「ロックフェラーセンター」
が回答候補として選択されている。
文4の近傍の文5に含まれる3つのキーワード「マニア、松の木、人気」に基づく第1のスコア値[3]と、
近傍文5の参照関係文:文2に含まれる新たなキーワード「クリスマスツリー」に基づく第2のスコア値[1]、
これらの2つのスコア値の合計として、最終スコア値[4]が、回答候補「ニューヨーク」と「ロックフェラーセンター」に対するスコアとして付与される。
文2に含まれる2つのキーワード「松の木、クリスマスツリー」に基づく第1のスコア値[2]と、
文2の参照関係文:文5に含まれ、文2に含まれない新たなキーワード「マニア、人気」に基づく第2のスコア値[2]、
これらの合計スコア[4]が、回答候補「公園」(「秦市立城址公園」)のスコアとして付与される。
「公園」(「秦市立城址公園」)=スコア4
「ニューヨーク」=スコア4
「ロックフェラーセンター」=スコア4
が設定される。
回答出力手段208は、回答選択手段207において最終的に決定した回答候補をクライアントに対して出力する。
例えば、入力質問、すなわち、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
に対する回答として、
「秦市立城址公園」
のみを選択、あるいは回答候補リストの最上位に設定した回答候補リストをクライアントに提示することができる。
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
から、キーワード「マニア、人気、松の木、クリスマスツリー」抽出し、質問タイプは[場所]であると解析する。
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
から抽出された、キーワード「マニア、人気、松の木、クリスマスツリー」を用いたクエリによって、検索が実行され、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
この文1〜5からなる検索結果が得られる。
上記した文1〜5からなる検索結果に対して、照応解析を実行した場合、照応解析結果として、
文1の(a1)「秦城址公園」と文2の(a2)「公園」が一致し異なる表現でなされた同一の実体を指し示している。
文2の(b1)「クリスマスツリー」と文5の(b2)「ツリー」、文5の「人気である」の主格のゼロ代名詞である(b3)(この松の木のツリーが)が一致しており、さらに、
文2の(c1)「松の木」と文2の「なった」の主格のゼロ代名詞である(c2)(松の木が)と、文5の(c3)「この松の木」が一致している。
これらの解析結果が得られる。
「秦市立城址公園」
「ニューヨーク」
「ロックフェラーセンター」
が回答候補として選択される。
例えば、入力質問、すなわち、
(入力質問)「マニアに人気な松の木のクリスマスツリーはどこにありますか?」
に対する回答として、
「秦市立城址公園」
のみを選択、あるいは回答候補リストの最上位に設定した回答候補リストをクライアントに提示することができる。
次に、本発明に係る質問応答システムにおけるその他の実施例について説明する。
上述した実施例では、回答候補抽出パッセージの決定処理において、情報抽出手段205が、各文のキーワードマッチ度を算定し、キーワードマッチ度の高い文またはその近傍を含む文を回答候補抽出パッセージとして決定するとともに、キーワードマッチ度の高い文に対応する参照関係文の存否を確認し、参照関係文がある場合には、その参照関係文またはその近傍を含む文も回答候補抽出パッセージとして決定する処理を行なっていた。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
また、文2と文5には検索キーワードが含まれ、キーワードマッチ度が高い文であるとの解析結果をシステムがすでに得ているとする。
「太郎は疲れている。」
「太郎は働きすぎた。」
という2文に関する文生成では、1文目の主節の動詞は現在形であり、2文目の主節の動詞は過去系である。この時は、時制に関するルールが優先されて、2文目が1文目に埋め込まれ、「働きすぎた太郎は疲れている。」となる。「疲れている太郎は働きすぎた。」のように埋め込む順序が逆であると、本来の意味が変化してしまう。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文3:一般的には、クリスマスツリーにはもみの木が用いられる。
文4:ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
これらの文の文1と文2とをまとめて1つの文にする処理を行なう。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
について、構文・意味解析処理を行って生成した"f−structure(functional structure)"を示している。構文・意味解析処理は、前述の文献「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109(2003)」記載の構文意味解析システムを用いて行った。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
について、構文・意味解析処理を行って生成した"f−structure(functional structure)"を示している。f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、木構造として示されるc−structureの各節点に付随する素性の集合であり、図7に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
に基づいて、
「年末年始の準備が20日から始まった秦市立城址公園」
に相当する構文意味構造が得られる。
図8に、構文意味構造の変換処理態様について示す。
図8には、
文1:年末年始の準備が秦市立城址公園で20日から始まった。
に基づく、構文・意味解析結果としてのf−structure(図8(a))と、
生成文(A)年末年始の準備が20日から始まった秦市立城址公園
の構文・意味解析結果としてのf−structure(図8(b))を示している。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
に埋め込む。この埋め込み処理により、文2は、
「年末年始の準備が20日から始まった秦市立城址公園では、松の木が飾り付けられてクリスマスツリーになった。」
として文1、文2がまとめられた統合文として設定される。
文2:年末年始の準備が20日から始まった秦市立城址公園では、松の木が飾り付けられてクリスマスツリーになった。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
これらの文において、「松の木」と「クリスマスツリー」の2つの表現に関して照応関係が発生している。この時「松の木」が関係している動詞は「飾り付けられ」であり、クリスマスツリーが関係しているのは「なった」である。「なった」にはゼロ代名詞があり、これは「松の木」を参照している。それぞれの動詞ごとに得られる構文意味構造および変換処理構成を図9に示す。
動詞「飾り付けられ」
主格「松の木」
に基づく変換処理により、
「飾り付けられた松の木」
が生成され、さらに、
動詞「なった」
主格「(松の木が)」
斜格「クリスマスツリーに」
斜格「年末年始の準備が20日から始まった秦市立城址公園内では」
これらに基づいて、
「年末年始の準備が20日から始まった秦市立城址公園では内で(松の木が)なったクリスマスツリー」、
が生成され、さらに、ゼロ代名詞の部分についても埋め込みを行う処理によって、
「年末年始の準備が20日から始まった秦市立城址公園内では内で飾り付けられた松の木がなったクリスマスツリー」
という文(関係節文)が生成される。
文2:年末年始の準備が20日から始まった秦市立城址公園では、松の木が飾り付けられてクリスマスツリーになった。
に基づいて生成される関係節文である。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
に埋め込む。この埋め込み処理の結果、
統合文:「しかし、この飾り付けられた松の木の年末年始の準備が20日から始まった秦市立城址公園内で飾り付けられた松の木がなったクリスマスツリーにも不思議な魅力があり、マニアに人気がある。」
という統合された一文が生成される。
文1:年末年始の準備が秦市立城址公園で20日から始まった。
文2:公園内では、松の木が飾り付けられてクリスマスツリーになった。
文5:しかし、この松の木のツリーにも不思議な魅力があり、マニアに人気である。
これらの3つの文を統合してまとめた文として生成される。
統合文:「しかし、この飾り付けられた松の木の年末年始の準備が20日から始まった秦市立城址公園内で飾り付けられた松の木がなったクリスマスツリーにも不思議な魅力があり、マニアに人気がある。」
という統合文が生成される。
文4 ニューヨークのロックフェラーセンターの巨大ツリーは世界的に有名である。
文5 しかし、年末年始の準備が20日から始まった秦市立城址公園内で飾り付けられた松の木がなったクリスマスツリーにも不思議な魅力があり、マニアに人気がある。
101 クライアント
102 Webページ提供サーバ
103 データベース
200 質問応答システム
201 質問入力手段
202 質問解析手段
203 情報検索手段
204 照応解析手段
205 情報抽出手段
206 回答候補抽出手段
207 回答選択手段
208 回答出力手段
209 ユーザ対話手段
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
Claims (15)
- 質問を入力する質問入力手段と、
入力質問に基づく検索処理を実行する検索手段と、
前記検索手段の検索結果に対して照応解析処理を実行する照応解析手段と、
前記照応解析手段における照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出手段と、
前記情報抽出手段の選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出手段と、
を有する構成であることを特徴とする質問応答システム。 - 前記質問応答システムは、さらに、
前記回答候補抽出手段の抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択手段を有することを特徴とする請求項1に記載の質問応答システム。 - 前記情報抽出手段は、
検索結果の構成文から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記情報抽出手段は、
検索結果の構成文から、前記検索手段において適用した検索キーワードに対応する語を、より多く含む文とその近傍の文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記回答選択手段は、
前記回答候補抽出手段の抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、
回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、
前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記情報抽出手段は、
少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、前記参照関係文を統合して1つの文を生成する処理を実行する構成であり、
前記回答候補抽出手段は、
前記情報抽出手段において、統合された1つの文を回答候補抽出パッセージに含めて回答候補抽出処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記情報抽出手段は、
前記参照関係文を統合して1つの文を生成する処理において、統合対象の文の構文意味解析処理を実行し、構文意味解析結果に基づく文統合処理を実行する構成であることを特徴とする請求項6に記載の質問応答システム。 - データ検索方法であり、
質問を入力する質問入力ステップと、
入力質問に基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果に対して照応解析処理を実行する照応解析ステップと、
前記照応解析ステップにおける照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出ステップと、
前記情報抽出ステップにおいて選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出ステップと、
を有することを特徴とするデータ検索方法。 - 前記データ検索方法は、さらに、
前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップを有することを特徴とする請求項8に記載のデータ検索方法。 - 前記情報抽出ステップは、
検索結果の構成文から、前記検索ステップにおいて適用した検索キーワードに対応する語を、より多く含む文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行するステップを含むことを特徴とする請求項8に記載のデータ検索方法。 - 前記情報抽出ステップは、
検索結果の構成文から、前記検索ステップにおいて適用した検索キーワードに対応する語を、より多く含む文とその近傍の文を回答候補抽出パッセージとして選択し、さらに、選択した回答候補抽出パッセージに対応する参照関係文が存在する場合は、対応する参照関係文を含めて回答候補抽出パッセージとして選択する処理を実行するステップを含むことを特徴とする請求項8に記載のデータ検索方法。 - 前記回答選択ステップは、
前記回答候補抽出ステップの抽出した回答候補に対するスコア算出処理において、回答候補を含む文またはその近傍の文に含まれる検索キーワード対応語の数を反映させた第1のスコア値と、
回答候補を含む文またはその近傍の文に対応する参照関係文に含まれる検索キーワード対応語の数を反映させた第2のスコア値を求め、
前記第1のスコア値および第2のスコア値の双方に基づいて、回答候補に対応するスコア値を算出する処理を実行することを特徴とする請求項8に記載のデータ検索方法。 - 前記情報抽出ステップは、
少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、前記参照関係文を統合して1つの文を生成する処理を実行するステップであり、
前記回答候補抽出ステップは、
前記情報抽出ステップにおいて、統合された1つの文を回答候補抽出パッセージに含めて回答候補抽出処理を実行するステップであることを特徴とする請求項8に記載のデータ検索方法。 - 前記情報抽出ステップは、
前記参照関係文を統合して1つの文を生成する処理において、統合対象の文の構文意味解析処理を実行し、構文意味解析結果に基づく文統合処理を実行することを特徴とする請求項13に記載のデータ検索方法。 - データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
質問を入力する質問入力ステップと、
入力質問に基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果に対して照応解析処理を実行する照応解析ステップと、
前記照応解析ステップにおける照応解析結果に基づいて、少なくとも検索結果に含まれる名詞句、代名詞およびゼロ代名詞のいずれかの表現を整理し、参照関係にある表現を共有する文を参照関係文として抽出する処理を実行するとともに、回答候補抽出対象文としての回答候補抽出パッセージの選択処理において、選択された回答候補抽出パッセージに対応する参照関係文を含めて回答候補抽出パッセージとして選択する情報抽出ステップと、
前記情報抽出ステップにおいて選択した回答候補抽出パッセージから回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補に対して、回答としての適正度を示すスコアを算出する回答選択ステップと、
を有することを特徴とするコンピュータ・プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005170424A JP4654780B2 (ja) | 2005-06-10 | 2005-06-10 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US11/298,855 US7587389B2 (en) | 2005-06-10 | 2005-12-12 | Question answering system, data search method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005170424A JP4654780B2 (ja) | 2005-06-10 | 2005-06-10 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006344102A true JP2006344102A (ja) | 2006-12-21 |
JP4654780B2 JP4654780B2 (ja) | 2011-03-23 |
Family
ID=37525260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005170424A Expired - Fee Related JP4654780B2 (ja) | 2005-06-10 | 2005-06-10 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7587389B2 (ja) |
JP (1) | JP4654780B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010538374A (ja) * | 2007-08-31 | 2010-12-09 | マイクロソフト コーポレーション | 曖昧感応自然言語処理システムにおける同一指示解決 |
US8332208B2 (en) | 2007-09-05 | 2012-12-11 | Sony Corporation | Information processing apparatus, information processing method, and program |
US8712758B2 (en) | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
JP5770736B2 (ja) * | 2010-09-17 | 2015-08-26 | テルモ株式会社 | シリコーンゴム組成物 |
JP2021022292A (ja) * | 2019-07-30 | 2021-02-18 | 株式会社三菱総合研究所 | 情報処理装置、プログラム及び情報処理方法 |
JP2021523464A (ja) * | 2018-05-09 | 2021-09-02 | オラクル・インターナショナル・コーポレイション | 収束質問に対する回答を改善するための仮想談話ツリーの構築 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5169816B2 (ja) * | 2006-03-01 | 2013-03-27 | 日本電気株式会社 | 質問回答装置、質問回答方法および質問回答用プログラム |
US7904414B2 (en) * | 2007-04-02 | 2011-03-08 | Kana Software, Inc. | Adaptive multi-channel answering service for knowledge management systems |
US8046339B2 (en) * | 2007-06-05 | 2011-10-25 | Microsoft Corporation | Example-driven design of efficient record matching queries |
US8195655B2 (en) * | 2007-06-05 | 2012-06-05 | Microsoft Corporation | Finding related entity results for search queries |
US10482114B2 (en) * | 2008-03-27 | 2019-11-19 | Oath Inc. | System and method for maintenance of questions and answers through collaborative and community editing |
US8332394B2 (en) | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
JP4640554B2 (ja) * | 2008-08-26 | 2011-03-02 | Necビッグローブ株式会社 | サーバ装置、情報処理方法およびプログラム |
US20110066685A1 (en) * | 2009-09-11 | 2011-03-17 | Hiroshi Kitada | Sending email from a document storage server operating by mobile device remote from the document storage server |
JP2011095905A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US20110246378A1 (en) * | 2010-03-30 | 2011-10-06 | Prussack E Fredrick | Identifying high value content and determining responses to high value content |
JP2012027845A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、関連文提供方法、及びプログラム |
EP2616926A4 (en) | 2010-09-24 | 2015-09-23 | Ibm | PROVISION OF QUESTIONS AND ANSWERS WITH DELAYED ASSESSMENT ON THE BASIS OF TEXT WITH LIMITED STRUCTURE |
US9569724B2 (en) | 2010-09-24 | 2017-02-14 | International Business Machines Corporation | Using ontological information in open domain type coercion |
US9002773B2 (en) | 2010-09-24 | 2015-04-07 | International Business Machines Corporation | Decision-support application and system for problem solving using a question-answering system |
US8943051B2 (en) | 2010-09-24 | 2015-01-27 | International Business Machines Corporation | Lexical answer type confidence estimation and application |
CA2812338C (en) | 2010-09-24 | 2019-08-13 | International Business Machines Corporation | Lexical answer type confidence estimation and application |
US8892550B2 (en) | 2010-09-24 | 2014-11-18 | International Business Machines Corporation | Source expansion for information retrieval and information extraction |
US8898159B2 (en) | 2010-09-28 | 2014-11-25 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
WO2012047532A1 (en) | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using hypothesis pruning |
US8738617B2 (en) | 2010-09-28 | 2014-05-27 | International Business Machines Corporation | Providing answers to questions using multiple models to score candidate answers |
KR101173561B1 (ko) * | 2010-10-25 | 2012-08-13 | 한국전자통신연구원 | 질문 형태 및 도메인 인식 장치 및 그 방법 |
JP5197774B2 (ja) * | 2011-01-18 | 2013-05-15 | 株式会社東芝 | 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム |
US9110977B1 (en) * | 2011-02-03 | 2015-08-18 | Linguastat, Inc. | Autonomous real time publishing |
CN103177025B (zh) * | 2011-12-23 | 2017-07-21 | 深圳市世纪光速信息技术有限公司 | 一种互动问答信息系统回答信息的推荐方法和装置 |
US9336297B2 (en) * | 2012-08-02 | 2016-05-10 | Paypal, Inc. | Content inversion for user searches and product recommendations systems and methods |
US10621880B2 (en) | 2012-09-11 | 2020-04-14 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
US9183257B1 (en) | 2013-03-14 | 2015-11-10 | Google Inc. | Using web ranking to resolve anaphora |
US20150169676A1 (en) * | 2013-12-18 | 2015-06-18 | International Business Machines Corporation | Generating a Table of Contents for Unformatted Text |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
CN106407198A (zh) * | 2015-07-28 | 2017-02-15 | 百度在线网络技术(北京)有限公司 | 问答信息的处理方法及装置 |
JP2017151860A (ja) * | 2016-02-26 | 2017-08-31 | 富士通株式会社 | 検索制御プログラム、検索制御装置及び検索制御方法 |
WO2017208518A1 (ja) * | 2016-05-30 | 2017-12-07 | ソニー株式会社 | 情報処理装置 |
EP3491541A4 (en) * | 2016-07-29 | 2020-02-26 | Microsoft Technology Licensing, LLC | TALKED MACHINE USER INTERACTION |
US10810215B2 (en) * | 2017-12-15 | 2020-10-20 | International Business Machines Corporation | Supporting evidence retrieval for complex answers |
CN109726389B (zh) * | 2018-11-13 | 2020-10-13 | 北京邮电大学 | 一种基于常识和推理的中文缺失代词补全方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179875A (ja) * | 1995-12-25 | 1997-07-11 | Sharp Corp | 情報検索装置 |
JP2003122750A (ja) * | 2001-10-09 | 2003-04-25 | Communication Research Laboratory | 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US5774845A (en) * | 1993-09-17 | 1998-06-30 | Nec Corporation | Information extraction processor |
US5903858A (en) * | 1995-06-23 | 1999-05-11 | Saraki; Masashi | Translation machine for editing a original text by rewriting the same and translating the rewrote one |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
JP2002132811A (ja) | 2000-10-19 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 |
FR2825496B1 (fr) * | 2001-06-01 | 2003-08-15 | Synomia | Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises |
JP2003242136A (ja) * | 2002-02-20 | 2003-08-29 | Fuji Xerox Co Ltd | 構文情報タグ付与支援システムおよび方法 |
-
2005
- 2005-06-10 JP JP2005170424A patent/JP4654780B2/ja not_active Expired - Fee Related
- 2005-12-12 US US11/298,855 patent/US7587389B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179875A (ja) * | 1995-12-25 | 1997-07-11 | Sharp Corp | 情報検索装置 |
JP2003122750A (ja) * | 2001-10-09 | 2003-04-25 | Communication Research Laboratory | 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010538374A (ja) * | 2007-08-31 | 2010-12-09 | マイクロソフト コーポレーション | 曖昧感応自然言語処理システムにおける同一指示解決 |
US8712758B2 (en) | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
JP2014238865A (ja) * | 2007-08-31 | 2014-12-18 | マイクロソフト コーポレーション | 曖昧感応自然言語処理システムにおける同一指示解決 |
US8332208B2 (en) | 2007-09-05 | 2012-12-11 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP5770736B2 (ja) * | 2010-09-17 | 2015-08-26 | テルモ株式会社 | シリコーンゴム組成物 |
US9523001B2 (en) | 2010-09-17 | 2016-12-20 | Terumo Kabushiki Kaisha | Silicone rubber composition |
JP2021523464A (ja) * | 2018-05-09 | 2021-09-02 | オラクル・インターナショナル・コーポレイション | 収束質問に対する回答を改善するための仮想談話ツリーの構築 |
JP7258047B2 (ja) | 2018-05-09 | 2023-04-14 | オラクル・インターナショナル・コーポレイション | 収束質問に対する回答を改善するための仮想談話ツリーの構築 |
JP2021022292A (ja) * | 2019-07-30 | 2021-02-18 | 株式会社三菱総合研究所 | 情報処理装置、プログラム及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US7587389B2 (en) | 2009-09-08 |
US20060282414A1 (en) | 2006-12-14 |
JP4654780B2 (ja) | 2011-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4654780B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP4654745B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
CA2484410C (en) | System for identifying paraphrases using machine translation techniques | |
US7526474B2 (en) | Question answering system, data search method, and computer program | |
JP4645242B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP4635659B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US7672831B2 (en) | System and method for cross-language knowledge searching | |
JP4654776B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP2007141090A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US7099870B2 (en) | Personalized web page | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JP2006293731A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
Stalin et al. | Web based application for hindi question answering system | |
JP4940606B2 (ja) | 翻訳システム、翻訳装置、翻訳方法及びプログラム | |
JP4401269B2 (ja) | 対訳判断装置及びプログラム | |
JP2008257511A (ja) | 専門用語抽出装置、方法及びプログラム | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
JPH1145269A (ja) | 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2005234635A (ja) | 文書要約装置および方法 | |
Moukdad | A comparison of root and stemming techniques for the retrieval of Arabic documents | |
JPH0540783A (ja) | 自然言語解析装置 | |
JP2004272785A (ja) | 質問応答装置及び質問応答プログラム | |
JP2005227975A (ja) | 文書検索装置および方法 | |
Rosén | Exploring corpora through syntactic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4654780 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |