JP2006252380A - 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム - Google Patents

質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2006252380A
JP2006252380A JP2005070540A JP2005070540A JP2006252380A JP 2006252380 A JP2006252380 A JP 2006252380A JP 2005070540 A JP2005070540 A JP 2005070540A JP 2005070540 A JP2005070540 A JP 2005070540A JP 2006252380 A JP2006252380 A JP 2006252380A
Authority
JP
Japan
Prior art keywords
question
word
search
modified
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005070540A
Other languages
English (en)
Other versions
JP4645242B2 (ja
Inventor
Hiroshi Masuichi
博 増市
Daigo Sugihara
大悟 杉原
Tomoko Okuma
智子 大熊
Hiroki Yoshimura
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005070540A priority Critical patent/JP4645242B2/ja
Priority to US11/231,947 priority patent/US7461047B2/en
Publication of JP2006252380A publication Critical patent/JP2006252380A/ja
Application granted granted Critical
Publication of JP4645242B2 publication Critical patent/JP4645242B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 質問に対する回答を効率的に取得する改善された質問応答システムを実現する。
【解決手段】 入力質問から特徴語を選択し、特徴語を置き換えた変形質問を生成し、生成した変形質問に基づく変形質問ベース検索処理を実行し、さらに、この検索結果に含まれる語を拡張語として選択し、拡張語を適用した拡張語ベース検索処理を実行して、拡張語ベース検索ステップにおける検索結果に含まれる拡張語の対応関係を解析し、解析結果に基づいて、検索結果に含まれる特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する構成としたので、入力質問に対する回答が検索処理において検出できない場合であっても、類似質問に基づく質問によって、より高確率で質問に対する回答を取得することが可能となる。
【選択図】 図2

Description

本発明は、質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。さらに詳細には、質問文を入力して、質問に対応する回答を提供するシステムにおいて、精度の高い回答を効率的に提供することを可能とする質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。
昨今、インターネットなどを介したネットワーク通信が盛んになり、様々なサービスがネットワークを介して行なわれている。ネットワークを介したサービスの1つとして検索サービスがある。検索サービスは、例えばネットワーク接続されたパーソナルコンピュータ、携帯端末などのユーザ端末からの検索要求を検索サーバが受信し、検索サーバにおいて、検索要求に応じた処理を実行して処理結果をユーザ端末に送信するサービスである。
例えば、インターネットを介した検索処理を実行する場合、検索サービスを提供しているWebサイトにアクセスし、Webサイトの提示メニューに従って、キーワード、カテゴリなどの検索条件を入力しサーバに送信する。サーバは、これらの検索条件に従って、処理を実行し、処理結果をユーザ端末に表示する。
データ検索処理には様々な態様がある。例えば、ユーザがキーワードを入力し、入力したキーワードを含む文書の一覧情報をユーザに提示するキーワードベースの検索方式や、ユーザが質問文を入力して質問に対する回答を提供するいわゆる質問応答システムなどがある。質問応答システムは、ユーザがキーワードを選択する必要がなく、また、質問に対する回答のみを受領することができるシステムであり利用が広まっている。
例えば特許文献1は、典型的な質問応答システムについて開示している。特許文献1は、質問文から検索語集合と質問種別を判定し、判定された検索語集合と質問種別に従って、文書集合格納装置に格納された文書集合から関連文書集合を検索して、関連文書から質問文に対する回答を抽出し、抽出した回答と回答を抽出した文書情報を質問文に対する応答結果として提供する構成を開示している。
一般的な質問応答システムでは、ユーザから提供される質問文を入力として、ヒットした文書全体を出力するのではなく、質問に対応する回答を出力する。回答を得るための知識源としてはWeb情報を用いることが多い。しかし、現状において質問応答システムが十分な回答精度を有しているとは言い難く、普及の度合いも一般の検索システムと比べて遅れている。
一方で、質問応答システムにおいては、典型的な質問パターンが存在することが知られている。例えば、
{徳川家康}はいつ生まれましたか?
{コンゴ}の{首都}は{どこ}ですか?
{タージマハール}はどこにありますか?
などの質問パターンである。
上記質問において{}で示す語を置換することで、同一の質問パターンを適用した様々な質問が生成される。例えば、
「{徳川家康|源頼朝|杉田玄白}はいつ生まれましたか?」
「{コンゴ|エストニア|ラトビア}の{首都|人口|首相}は{どこ|何人|誰}ですか?」
「{タージマハール|アンコールワット|オペラハウス}はどこにありますか?」
といった質問である。上記質問において{a|b|c}は、aまたはbまたはcで置き換え可能であることを示している。
このように、質問応答システムにおいてユーザから提示される質問は、少数の典型的な質問パターンに分類され、このような典型的な質問パターンが質問全体の大部分をカバーするという経験則(Zipfの法則)の存在が知られている。これは、例えば非特許文献1に詳しい説明が記載されている。
非特許文献2には、「典型的な質問パターンと、それに対する回答を網羅的に含むWebページの組」を予め人手で用意し、質問パターンに合致する質問の回答精度を飛躍的に向上させる手法の提案が示されている。例えば、
アメリカの首都はどこですか?
イギリスの首都はどこですか?
など、「[国名]の首都はどこですか?」という質問パターンに対しては、国名とその首都の一覧表を持つWebページを予め特定しておく。この質問パターンに合致する質問がシステムに入力された場合、一覧表を参照し指定された国名に対応する首都を回答として出力することにより誤りのない回答を効率的に返すことが可能となる。
しかし、上述した手法、すなわち、典型的な質問パターンと、それに対する回答を網羅的に含むWebページの組を予め人手で用意する処理は、典型的な質問パターンに対する回答を網羅的に含むWebページを予め特定しておくことが必要であり、膨大な工数がかかるという問題点がある。さらに、Webページの廃止や大幅な内容変更あるいはURLの変更に対応するためのメンテナンスコストが極めて高くなるという問題もある。
特開2002−132811号公報 Jimmy Lin and Boris Katz, "Question Answering Techniques for the World Wide Web", Tutorial presentation at The 11th Conference of Computational Linguistics (2003) Boris Katz, Sue Felshin, Deniz Yuret, Ali Ibrahim, Jimmy Lin, Gregory Marton, Alton Jerome McFarland, and Baris Temelkuran, "Omnibase: Uniform access to heterogeneous data for question answering", In Proceedings of the 7th International Workshop on Applications of Natural Language to Information Systems (2002)
本発明は、上述の問題点に鑑みてなされたものであり、典型的な質問パターンに対する回答を含むWebページを自動的に効率的に選択し、さらに、Webページの廃止や内容変更あるいはURLの変更などが発生した場合にも誤った回答を行なうことのない精度の高い回答を提供することを可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
入力質問から特徴語を選択し、該特徴語を置き換えた変形質問を生成する類似質問生成手段と、
前記類似質問生成手段の生成した変形質問に基づく第1の検索処理を実行する変形質問ベース検索手段と、
前記変形質問ベース検索手段の検索処理によって取得した第1の検索結果に含まれる語を拡張語として選択し、拡張語を適用した第2の検索処理を実行する拡張語ベース検索手段と、
前記拡張語ベース検索手段の第2の検索処理によって取得した第2の検索結果に含まれる拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する回答選択手段と、
を有することを特徴とする質問応答システムにある。
さらに、本発明の質問応答システムの一実施態様において、前記回答選択手段は、前記第2の検索結果として取得される検索結果のHTML標記データに基づいて、拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定して、回答と判断される語を選択する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記類似質問生成手段は、入力質問を構成する特徴語を不変とした入力質問の類似質問である変形質問パターン1を生成し、前記変形質問ベース検索手段は、前記変形質問パターン1に基づく検索処理を実行する構成であり、該検索処理の結果として回答が取得されない場合に、前記類似質問生成手段は、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問パターン2を生成し、前記変形質問ベース検索手段は、前記変形質問パターン2に基づく検索処理を実行する構成であり、前記拡張語ベース検索手段は、前記変形質問パターン2に基づく検索処理によって取得した検索結果に含まれる語を拡張語として選択し、該選択拡張語を適用した検索処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記拡張語ベース検索手段は、前記入力質問における特徴語と、前記変形質問ベース検索手段の検索処理によって取得した第1の検索結果に含まれる語から選択される前記特徴語と同一のグループに属する同一グループ語と、前記変形質問における回答相当語を拡張語として選択し、選択した拡張語を適用した第2の検索処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問応答システムは、さらに、入力質問のパターン分類情報を格納した質問パターン保持手段と、前記質問パターン保持手段に格納された質問パターンの変形パターンを保持した変形質問パターン保持手段を有し、前記類似質問生成手段は、入力質問と、前記質問パターン保持手段の格納パターンを対比して、入力質問に対応する質問パターンを選択し、前記変形質問パターン保持手段の格納パターンに基づいて、選択した質問パターンに対応する変形質問パターンを生成する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問応答システムは、さらに、入力質問から取得される固有名詞としての特徴語のグループ分類情報を格納した固有名詞グループ情報保持手段を有し、前記類似質問生成手段は、前記固有名詞グループ情報保持手段の情報を適用して、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問を生成する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記類似質問生成手段は、特徴語を置き換えた変形質問を、予め設定したルールに基づいて生成する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問応答システムは、さらに、構文意味解析手段を有し、前記類似質問生成手段は、入力質問の構文解析結果に基づく質問パターンを生成し、前記変形質問ベース検索手段は、構文解析結果に基づく質問パターンに基づく検索処理を実行する構成であることを特徴とする。
さらに、本発明の第2の側面は、
入力質問から特徴語を選択し、該特徴語を置き換えた変形質問を生成する類似質問生成ステップと、
前記類似質問生成ステップにおいて生成した変形質問に基づく第1の検索処理を実行する変形質問ベース検索ステップと、
前記変形質問ベース検索ステップにおける検索処理によって取得した第1の検索結果に含まれる語を拡張語として選択し、拡張語を適用した第2の検索処理を実行する拡張語ベース検索ステップと、
前記拡張語ベース検索ステップにおける第2の検索処理によって取得した第2の検索結果に含まれる拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する回答選択ステップと、
を有することを特徴とするデータ検索方法にある。
さらに、本発明のデータ検索方法の一実施態様において、前記回答選択ステップは、前記第2の検索結果として取得される検索結果のHTML標記データに基づいて、拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定して、回答と判断される語を選択する処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記データ検索方法は、入力質問を構成する特徴語を不変とした入力質問の類似質問である変形質問パターン1を生成するステップと、前記変形質問パターン1に基づく検索処理を実行するステップと、該検索処理の結果として回答が取得されない場合に、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問パターン2を生成するステップと、前記変形質問パターン2に基づく検索処理を実行するステップを有し、前記拡張語ベース検索ステップは、前記変形質問パターン2に基づく検索処理によって取得した検索結果に含まれる語を拡張語として選択し、該選択拡張語を適用した検索処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記拡張語ベース検索ステップは、前記入力質問における特徴語と、前記変形質問ベース検索ステップの検索処理によって取得した第1の検索結果に含まれる語から選択される前記特徴語と同一のグループに属する同一グループ語と、前記変形質問における回答相当語を拡張語として選択し、選択した拡張語を適用した第2の検索処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記類似質問生成ステップは、入力質問と、質問パターン保持手段に保持された格納パターンとを対比して、入力質問に対応する質問パターンを選択し、変形質問パターン保持手段に保持された格納パターンに基づいて、選択した質問パターンに対応する変形質問パターンを生成する処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記類似質問生成ステップは、入力質問から取得される固有名詞としての特徴語のグループ分類情報を格納した固有名詞グループ情報保持手段の情報を適用して、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問を生成する処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記類似質問生成ステップは、特徴語を置き換えた変形質問を、予め設定したルールに基づいて生成する処理を実行することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記データ検索方法は、さらに、構文意味解析ステップを有し、前記類似質問生成ステップは、入力質問の構文解析結果に基づく質問パターンを生成し、前記変形質問ベース検索ステップは、構文解析結果に基づく質問パターンに基づく検索処理を実行することを特徴とする。
さらに、本発明の第3の側面は、
データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
入力質問から特徴語を選択し、該特徴語を置き換えた変形質問を生成する類似質問生成ステップと、
前記類似質問生成ステップにおいて生成した変形質問に基づく第1の検索処理を実行する変形質問ベース検索ステップと、
前記変形質問ベース検索ステップにおける検索処理によって取得した第1の検索結果に含まれる語を拡張語として選択し、拡張語を適用した第2の検索処理を実行する拡張語ベース検索ステップと、
前記拡張語ベース検索ステップにおける第2の検索処理によって取得した第2の検索結果に含まれる拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する回答選択ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、入力質問から特徴語を選択し、特徴語を置き換えた変形質問を生成し、生成した変形質問に基づく変形質問ベース検索処理を実行し、さらに、この検索結果に含まれる語を拡張語として選択し、拡張語を適用した拡張語ベース検索処理を実行して、拡張語ベース検索ステップにおける検索結果に含まれる拡張語の対応関係を解析し、解析結果に基づいて、検索結果に含まれる特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する構成としたので、入力質問に対する回答が検索処理において検出できない場合であっても、類似質問に基づく質問によって、より高確率で質問に対する回答を取得することが可能となる。
以下、図面を参照しながら本発明の実施形態に係る質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムの詳細について説明する。
まず、図1を参照して、本発明の質問応答システムの利用形態の一例について説明する。図1は本発明の質問応答システム200をネットワークに接続したネットワーク構成を示す図である。図1に示すネットワーク100は、インターネットやイントラネットなどのネットワークであり、ネットワーク100には、質問応答システム200に対する質問を送信するユーザ端末としてのクライアント101−1〜n、クライアント101−1〜nに対する回答を取得するための素材としてのWebページを提供する様々なWebページ提供サーバ102A〜Nが接続されている。
質問応答システム200は、クライアント101−1〜nから、ユーザの生成した様々な質問文を入力し、入力質問に対する回答をクライアント101−1〜nに提供する。質問に対する回答は、Webページ提供サーバ102A〜Nの提供するWebページから取得する。
Webページ提供サーバ102A〜Nは、WWW(World Wide Web)システムによる公開ページとしてWebページを提供する。Webページは、Webブラウザに表示されるデータ集合であり、テキストデータやHTMLによるレイアウト情報、文書中に埋め込まれた画像や音声、動画などによって構成される。Webページの集合はWebサイトであり、Webサイトは、トップページ(ホームページ)とトップページからリンクされた他のWebページで構成される。
質問応答システム200の構成および処理について図2を参照して説明する。質問応答システム200は、ネットワーク100に接続され、ネットワーク100に接続されたクライアントからの質問を受領し、ネットワーク100に接続されたWebページ提供サーバの提供するWebペーシを情報源として回答を検索して、クライアントに提供する処理を実行する。
質問応答システム200は、図2に示すように、質問入力手段201、類似質問生成手段202、変形質問ベース検索手段(拡張語検索手段)203、拡張語ベース検索手段204、回答選択手段205、回答出力手段206、質問パターン保持手段211、固有名詞グループ情報保持手段212、変形質問パターン保持手段213を有する。
まず、質問応答システム200の有するデータ、すなわち、質問パターン保持手段211、固有名詞グループ情報保持手段212、変形質問パターン保持手段213の保持するデータについて説明する。
[質問パターン保持手段]
質問パターン保持手段211は、質問の構成文における表層文字列を対象とした典型的な質問パターンを保持する。前述したように、クライアントから受信する質問(入力質問)には典型的パターンが存在することが知られている。例えば、
{徳川家康}はいつ生まれましたか?
{コンゴ}の{首都}は{どこ}ですか?
{タージマハール}はどこにありますか?
などの質問パターンであり、これらの質問において{}で示す語を置換することで、同一の質問パターンを適用した様々な質問が生成される。例えば、
「{徳川家康|源頼朝|杉田玄白}はいつ生まれましたか?」
「{コンゴ|エストニア|ラトビア}の{首都|人口|首相}は{どこ|何人|誰}ですか?」
「{タージマハール|アンコールワット|オペラハウス}はどこにありますか?」
といった質問である。上記質問において{a|b|c}は、aまたはbまたはcで置き換え可能であることを示している。
このように、質問応答システムにおいてユーザから提示される入力質問は、少数の典型的な質問パターンに分類され、このような典型的な質問パターンが質問全体の大部分をカバーするという経験則(Zipfの法則)の存在が知られている。
質問パターン保持手段211は、質問の構成文における表層文字列を対象とした典型的な質問パターンを保持する。例えば、
(質問パターン1)「[*1]の[*2]は{どこ|いつ|何|いくら}ですか?」
(質問パターン2)「[*1]は{何|どこ}を[*2(動詞連用形)]ましたか?」

のような、複数の典型的な質問パターンである。質問パターン保持手段211は、このような表層文字列を対象とした典型的な質問パターンを保持する。なお、上記質問パターンにおいて、[*1]、[*2]は基本的に任意の文字列を示すが、[*1]は固有名詞であり、このような固有名詞を特徴語と呼ぶ。
[固有名詞グループ情報保持手段]
固有名詞グループ情報保持手段212は、固有名詞を対象として、固有名詞のグループ情報を保持する。例えば、
県名のグループ:東京、大阪、北海道、・・、福島、・・鹿児島、沖縄
国名のグループ:日本、アメリカ、イギリス・・
さらに、惑星名、同分野の会社名、同一会社の商品名等、クライアントから受領する質問において特定される固有名詞(特徴語)を置き換え可能な固有名詞のグループを、固有名詞グループ情報として保持する。
[変形質問パターン保持手段]
変形質問パターン保持手段213は、質問パターン保持手段211が保持している質問パターンを変形するために適用する変形パターンを、質問パターンごとに保持する。例えば、質問パターン保持手段211の保持する質問パターンが、上述した質問パターンである場合、すなわち、
(質問パターン1)「[*1]の[*2]は{どこ|いつ|何|いくら}ですか?」
(質問パターン2)「[*1]は{何|どこ}を[*2(動詞連用形)]ましたか?」
このような質問パターンを質問パターン保持手段211が保持している場合に、変形質問パターン保持手段213は、これらの各質問パターン1,2に対応する変形パターンを各々保持する。上記質問において{a|b|c}は、aまたはbまたはcで置き換え可能であることを示している。
具体的には、上記の各質問パターン1,2に対応する変形パターンとして、
(変形質問パターン1)「[*1']{の|で}[*2]{は|が}[*3]{だ|です|である|で}」
(変形質問パターン2)「[*1']{は|が}[*3]を[*2(動詞連用形)]{ました|た(だ)}」
などを保持する。(変形質問パターン1)において示す[*3]は任意の文字列を示すものであり、入力質問に対する回答に相当する語が設定される位置、すなわち回答相当語構成部である。
以下、質問応答システム200における質問入力手段201、類似質問生成手段202、変形質問ベース検索手段(拡張語検索手段)203、拡張語ベース検索手段204、回答選択手段205、回答出力手段206の実行する処理について説明する。
[質問入力手段]
質問入力手段201は、ネットワーク100を介して、クライアントからの質問文(入力質問)を入力する。以下では、具体的な質問例として、
(入力質問)「沖縄の一番高い山はどこですか?」
という質問がクライアントから入力されたと想定して、質問応答システム200における各手段の処理について説明する。
[類似質問生成手段]
類似質問生成手段202は、入力質問を変形し、入力質問に類似する質問文、すなわち変形質問パターンを生成する。まず、質問パターン保持手段211に保持されている質問パターンのうち、入力質問文に合致する質問パターンを形態素解析を施した上で特定する。
クライアントからの入力質問が、
(入力質問)「沖縄の一番高い山はどこですか?」
である場合、この質問は、質問パターン保持手段211に保持されている質問パターン中、上述した(質問パターン1)、すなわち、
(質問パターン1)「[*1]の[*2]は{どこ|いつ|何|いくら}ですか?」
に対応する質問であると判定する。
(質問パターン1)の[*1]が(入力質問)の「沖縄」に、
(質問パターン1)の[*2]が(入力質問)の「一番高い山」に対応づけられるので、
入力質問は、質問パターン1に対応する質問であると判定する。
次に、類似質問生成手段202は、(質問パターン1)の[*1]、すなわち特徴語としての固有名詞を、(入力質問)のまま[*1']として質問を変形し、(変形質問パターン1)を生成する。
本実施例では、(入力質問)の[*1]は「沖縄」であり(入力質問)の[*2]が「一番高い山」であるため、
(入力質問)「沖縄の一番高い山はどこですか?」に対応する変形質問パターン1は、
(変形質問パターン1)「沖縄{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
として生成される。
(変形質問パターン1)における{a|b}や{a|b|c}は、選択的にaまたはb、あるいはaまたはbまたはcが適用可能であることを示す。
このように、類似質問生成手段202は、まず、
(a)入力質問に対応する質問パターンを、質問パターン保持手段211に保持された質問パターンから選択する処理、
(b)選択された質問パターンに基づいて、変形質問パターン保持手段213に保持された変形質問パターンを適用して(変形質問パターン1)を生成する処理、
これらの処理によって(変形質問パターン1)を生成する。
このような変形質問パターン生成処理によって、得られた(変形質問パターン1)を用いて変形質問ベース検索手段(拡張語検索手段)203が検索を行う。検索は、ネットワークに接続されたWebページ提供サーバの提供するWebページを対象とした検索処理、例えばテキストマッチングによる検索処理として実行される。
変形質問ベース検索手段(拡張語検索手段)203は、類似質問生成手段202の生成した(変形質問パターン1)を用いてWWW上のテキストを対象として検索を行い、合致するテキストが存在すれば、(変形質問パターン1)の[*3]に対応する文字列を回答として、回答出力手段206を介してクライアントに出力し終了する。
(変形質問パターン1)は、
「沖縄{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
であり、(変形質問パターン1)の[*3]に対応する文字列は、入力質問に対する回答に相当する語が設定される位置、すなわち回答相当語構成部の文字列である。従って、(変形質問パターン1)の[*3]に対応する文字列は、そのまま(入力質問)に対応する回答として回答出力手段206を介してクライアントに出力し終了する。
しかし、この(変形質問パターン1)を適用した検索処理において適切な検索結果が得られなかった場合には、さらに、類似質問生成手段202は、先に選択した(質問パターン1)における固有名詞(特徴語)として選択される語[*1']に相当する(入力質問)の構成語の同一グループの固有名詞[*1']を、固有名詞グループ情報保持手段212から抽出する。
固有名詞グループ情報保持手段212は、先に説明したように、質問において特定される固有名詞(特徴語)に対する置き換え可能な固有名詞のグループを、固有名詞グループ情報として保持している。
(質問パターン1)における固有名詞(特徴語)として選択される語[*1']に対応する(入力質問)の構成語=「沖縄」は県名のグループに属するため、
この場合、「沖縄」と同一グループの固有名詞[*1']は、例えば「熊本」「東京」「北海道」等の他の県名となる。
類似質問生成手段202は、同一グループの固有名詞[*1']によって、先に生成した(変形質問パターン1)の固有名詞(特徴語)を置き換えて(変形質問パターン2)を生成する。類似質問生成手段202の生成する(変形質問パターン2)は以下のような質問となる。
(変形質問パターン2−1)「熊本{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」、
(変形質問パターン2−2)「東京{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」、
(変形質問パターン2−3)「北海道{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
このような変形質問パターン生成処理によって、得られた(変形質問パターン2a〜)を、順次用いて変形質問ベース検索手段(拡張語検索手段)203が検索を行う。検索は、ネットワークに接続されたWebページ提供サーバの提供するWebページを対象とした検索処理、例えばテキストマッチングによる検索処理として実行され、あらかじめ定めた閾値(T)以上の検索結果数が得られた時点で、新たな(変形質問パターン2n)の生成、拡張語検索を終了する。
例えば、閾値(T)=10とした場合、例えば、(変形質問パターン2−1)〜(変形質問パターン2−30)を適用した検索によって10個の検索結果が得られた場合は、新たな(質問パターン2−31)・・の生成処理や、これらの変形質問パターン2による検索を停止して、次の拡張後ベースの検索処理に移行する。拡張後ベースの検索処理については、後段で説明する。
このように、類似質問生成手段202は、
(a)入力質問に対応する質問パターンを、質問パターン保持手段211に保持された質問パターンから選択する処理、
(b)選択された質問パターンに基づいて、変形質問パターン保持手段213に保持された変形質問パターンを適用して(変形質問パターン1)を生成する処理、
これらの処理によって(変形質問パターン1)を生成し、生成した(変形質問パターン1)による検索処理を実行するとともに、この検索処理によって適切な検索結果が得られれば、新たな変形質問パターン2の生成は行なわないが、適切な検索結果が得られない場合は、
(c)(質問パターン1)における固有名詞(特徴語)として選択される語[*1']に相当する(入力質問)の構成語の同一グループの固有名詞[*1']を、固有名詞グループ情報保持手段212から抽出し、同一グループの固有名詞[*1']によって、(変形質問パターン1)の固有名詞(特徴語)を置き換えて(変形質問パターン2a〜)を生成する処理、
これら(a)〜(c)の処理を実行する。
[変形質問ベース検索手段(拡張語検索手段)]
次に、変形質問ベース検索手段(拡張語検索手段)203の実行する処理について説明する。変形質問ベース検索手段(拡張語検索手段)203は、先にも説明したように、まず、上述の類似質問生成手段202の生成した(変形質問パターン1)を用いてWWW上のテキストを対象として検索を行い、合致するテキストが存在すれば、(変形質問パターン1)の[*3]に対応する文字列を回答として、回答出力手段206を介してクライアントに出力し終了する。
(変形質問パターン1)は、
「沖縄{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
であり、(変形質問パターン1)の[*3]に対応する文字列は、入力質問に対する回答に相当する語が設定される位置、すなわち回答相当語構成部の文字列である。従って、(変形質問パターン1)の[*3]に対応する文字列は、そのまま(入力質問)に対応する回答として回答出力手段206を介してクライアントに出力し終了する。
類似質問生成手段202の生成した(変形質問パターン1)を用いてWWW上のテキストを対象とした検索の結果、合致するテキストが存在しなかった場合には、変形質問ベース検索手段(拡張語検索手段)203は、類似質問生成手段202が生成する(変形質問パターン2a〜)を用いてWWW上のテキストを対象とした検索、例えばテキストマッチングによる検索を実行する。合致するテキストが存在すれば、(変形質問パターン2)の[*1']および[*3]に対応する文字列を抽出して、この文字列を拡張語とする。すなわち、特徴語としての固有名詞[*1']と、回答相当語構成部[*3]に対応する文字列を拡張語として選択する。
例えば、変形質問ベース検索手段(拡張語検索手段)203の実行する(変形質問パターン2)を用いた検索処理による検索結果として、
「熊本で一番高い山が国見岳です」
「北海道の一番高い山は大雪山である」
などのテキストが、Webページのテキストから取得された場合、
これら2つの検索結果において、特徴語としての固有名詞[*1']に相当する文字列は、「熊本」「北海道」であり、
回答相当語構成部[*3]に相当する文字列は、「国見岳」「大雪山」である。
この結果、「熊本」「北海道」「国見岳」「大雪山」の4語が拡張語として選択される。
変形質問ベース検索手段(拡張語検索手段)203は、類似質問生成手段202の変形質問パターン生成処理によって得られた(変形質問パターン2a〜)を、順次用いて検索を行う。検索は、ネットワークに接続されたWebページ提供サーバの提供するWebページを対象とした検索処理として実行され、あらかじめ定めた閾値(T)以上の検索結果数が得られた時点で、新たな(変形質問パターン2n)の生成、拡張語検索を終了する。
閾値(T)=10とした場合、例えば、(変形質問パターン2−1)〜(変形質問パターン2−30)を適用した検索によって10個の検索結果が得られた場合は、新たな(質問パターン2−31)・・の生成処理や、これらの変形質問パターン2による検索を停止して、次の拡張後ベースの検索処理に移行する。
[拡張語ベース検索手段]
拡張語ベース検索手段204は、クライアントから提示された入力質問に含まれる特徴語(固有名詞)[*1]と、変形質問ベース検索手段(拡張語検索手段)203によって実行された変形質問パターン2による検索の結果から抽出された拡張語、すなわち、変形質問パターン2による検索結果に含まれる特徴語としての固有名詞[*1']と、変形質問パターン2における回答相当語構成部[*3]に対応する文字列からなる拡張語に基づく検索を実行する。
すなわち、入力質問に含まれる特徴語(固有名詞)[*1]と、変形質問パターン2による検索結果に含まれる特徴語としての固有名詞[*1']と、回答相当語構成部[*3]に対応する文字列をANDで連結した検索式を生成して検索を行う。検索は、ネットワークに接続されたWebページ提供サーバの提供するWebページを対象とした検索処理、例えばキーワード検索処理として実行される。
上述の実施例では、入力質問に含まれる特徴語(固有名詞)[*1]は「沖縄」であり、変形質問ベース検索手段(拡張語検索手段)203によって実行された変形質問パターン2による検索の結果から抽出された拡張語は、
「熊本」「国見岳」「北海道」「大雪山」の4語であり、
拡張語ベース検索手段204は、
「沖縄AND熊本AND国見岳AND北海道AND大雪山」
を検索式として設定した検索処理を実行する。
この検索処理の結果、例えば図3に示すような各県の最高峰一覧表を持つWebページが検索される。
[回答選択手段]
回答選択手段205は、拡張語ベース検索手段205による検索の結果取得されたWebページと、拡張語を用いて入力質問に対する回答を取得する。図3に示すWebページのHTML表記(抜粋)は、図4に示す通りとなる。
回答選択手段205は、拡張語ベース検索手段205による検索の結果取得されたWebページ、あるいはそのHTML表記データに基づいて、
Webページの含まれる特徴語としての固有名詞[*1']と、回答相当語構成部[*3]との対応関係を解析する。
図3、図4に示す例では、変形質問パターン2による検索結果に含まれる特徴語としての固有名詞[*1']と、回答相当語構成部[*3]に対応する文字列からなる拡張語の関係として、
「熊本」と「国見岳」の関係、および
「北海道」と「大雪山」の関係、
について、解析する。
特徴語としての固有名詞[*1']と、回答相当語構成部[*3]との関係は、入力質問における「沖縄」([*1]、特徴語)と回答の関係と等しいと考えられる。
拡張語ベース検索手段205による検索の結果取得されたWebページに含まれるテキスト、あるいはテーブル、表などの構造を示すHTML表記データにおける単語やタグの出現構成、すなわち、本例では、「熊本」と「国見岳」の間の構造や「北海道」と「大雪山」の間の構造は、「沖縄」と「回答」の間の構造と類似している可能性が高い。
回答選択手段205は、この関係を用いて回答の抽出を行なう。本例では、図4に示すHTML標記中から、「熊本」と「国見岳」や、「北海道」と「大雪山」の間に存在する文字列、すなわち、「</TD><TD>」を取得し、「沖縄」との間に「</TD><TD>」に類似する(あるいは全く等しい)文字列が存在する単語を回答とする。図4に示すHTML文書では、「於茂登岳」がこの条件に該当するため「於茂登岳」を回答として出力する。
すなわち、図4のHTML標記データには、
熊本</TD><TD>国見岳
北海道</TD><TD>大雪山
の構成データが含まれる。また、
沖縄</TD><TD>於茂登岳
の標記データが含まれ、
変形質問パターン2における固有名詞[*1']と、回答相当語構成部[*3]との関係に相当する入力質問における「沖縄」([*1]、特徴語)と回答の関係は、
沖縄</TD><TD>於茂登岳
のデータに相当し、「於茂登岳」が回答に相当する文字列であると判定する。
なお、図4に示すHTMLデータを適用して、本例では、変形質問パターン2における固有名詞[*1']と、回答相当語構成部[*3]との間にあるデータのみを比較して回答を検出する処理を実行したが、変形質問パターン2における固有名詞[*1']と、回答相当語構成部[*3]の間のみならず、隣接するデータを比較する処理を行なう構成としてもよい。また、HTMLデータに基づく比較のみならず、表やテーブルの構成データに基づく比較抽出や、テキストデータに基づく比較抽出処理を実行する構成としてもよい。
[回答出力手段]
回答出力手段206は、質問応答システムにおいて得られた回答をクライアントに対して出力する。上述の回答選択手段205において拡張語ベースの検索の結果から得られた回答、あるいは、変形質問パターン1に基づく変形質問ベース検索手段203における検索結果において回答が得られた場合は、その回答をクライアントに出力する。
次に、図5のフローチャートを参照して、本発明の質問応答システムの実行する処理シーケンスについて説明する。
ステップS101において、クライアントからの質問を入力すると、ステップS102において、クライアントからの入力質問に対応する質問パターンの選択を実行する。この処理は、図2に示す類似質問生成手段202が、クライアントからの(入力質問)と、質問パターン保持手段211に格納された複数の質問パターンとの比較に基づいて実行する処理である。
具体的には、例えば、
(入力質問)「沖縄の一番高い山はどこですか?」
である場合、
(質問パターン1)「[*1]の[*2]は{どこ|いつ|何|いくら}ですか?
を選択する。
次に、ステップS103において、選択した質問パターンに対応する変形質問パターン1を生成する。この処理は、図2に示す類似質問生成手段202が、入力質問と入力質問に対応する質問パターンに基づいて、変形質問パターン保持手段213に格納された変形質問パターンを抽出して実行する処理である。
具体的には、
(入力質問)「沖縄の一番高い山はどこですか?」に対応する変形質問パターン1として、
(変形質問パターン1)「沖縄{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
を生成する。
次に、ステップS104において、生成した変形質問パターン1に基づいて検索処理を実行する。この処理は、図2における変形質問ベース検索手段203が実行する。すなわち、ステップS103の変形質問パターン生成処理によって、得られた(変形質問パターン1)を用いて変形質問ベース検索手段(拡張語検索手段)203が検索を行う。検索は、ネットワークに接続されたWebページ提供サーバの提供するWebページを対象とした検索処理、例えばテキストマッチングによる検索処理として実行される。
変形質問ベース検索手段(拡張語検索手段)203は、類似質問生成手段202の生成した(変形質問パターン1)を用いてWWW上のテキストを対象として検索を行い、ステップS105において、合致するテキストが存在し回答を取得できれば、ステップS113に進み、取得した回答を回答出力手段206を介してクライアントに出力する。
すなわち、(変形質問パターン1)の[*3]に対応する文字列を回答として、回答出力手段206を介してクライアントに出力し終了する。(変形質問パターン1)が、
「沖縄{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
である場合、(変形質問パターン1)の[*3]に対応する文字列は、入力質問に対する回答に相当する語が設定される位置、すなわち回答相当語構成部の文字列である。従って、(変形質問パターン1)の[*3]に対応する文字列を回答出力手段206を介してクライアントに出力し終了する。
ステップS105において、(変形質問パターン1)を用いた検索によって、合致するテキストが存在せず、回答を取得できない場合は、ステップS106に進む。
ステップS106では、(変形質問パターン1)に対応する(変形質問パターン2−1)を生成する。この処理は、以下の手順に従って行なわれる。
まず、類似質問生成手段202は、(質問パターン1)における固有名詞(特徴語)として選択される語[*1']に相当する(入力質問)の構成語の同一グループの固有名詞[*1']を、固有名詞グループ情報保持手段212から抽出する。例えば、「沖縄」と同一グループの固有名詞[*1']として、「熊本」「東京」「北海道」などである。
次に、類似質問生成手段202は、同一グループの固有名詞[*1']によって、先に生成した(変形質問パターン1)の固有名詞(特徴語)を置き換えて(変形質問パターン2)を生成する。類似質問生成手段202の生成する(変形質問パターン2)は以下のような質問となる。
(変形質問パターン2−1)「熊本{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
ステップS107では、ステップS106において生成した(変形質問パターン2)に基づいて変形質問ベース検索手段(拡張語検索手段)203が検索を行う。検索は、ネットワークに接続されたWebページ提供サーバの提供するWebページを対象とした検索処理、例えばテキストマッチングによる検索処理として実行され、ステップS108において、あらかじめ定めた閾値(T)以上の検索結果数が得られるまで、ステップS109→S106→S107→S108を繰り返し実行する。すなわち、異なる(変形質問パターン2−2〜)を生成して検索処理を実行する。例えば、
(変形質問パターン2−2)「東京{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」、
(変形質問パターン2−3)「北海道{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
のような(変形質問パターン2−n)を生成して検索処理を実行する。
ステップS108において、閾値(T)以上の数の検索結果が得られたと判定された場合は、ステップS110に進む。ステップS110では、変形質問ベース検索手段(拡張語検索手段)203の実行した(変形質問パターン2)を用いた検索処理による検索結果から拡張後を選択し、ステップS111において、選択した拡張語に基づく検索処理を実行する。
具体的には、(変形質問パターン2)を用いた検索処理による検索結果として、
「熊本で一番高い山が国見岳です」
「北海道の一番高い山は大雪山である」
などのテキストが取得された場合、
これら2つの検索結果において、特徴語としての固有名詞[*1']に相当する文字列は、「熊本」「北海道」と、回答相当語構成部[*3]に相当する文字列「国見岳」「大雪山」からなる、「熊本」「北海道」「国見岳」「大雪山」の4語を拡張語として選択し、クライアントから提示された入力質問に含まれる特徴語(固有名詞)[*1]、この例では「沖縄」を併せて、
「沖縄AND熊本AND国見岳AND北海道AND大雪山」
を検索式として設定した検索処理を実行する。
ステップS112では、ステップS111で実行した拡張語ベースの検索結果に基づいて、検索結果から標記ルールを求め、標記ルールに基づいて回答を得る。この処理は、回答選択手段205において実行する処理である。先に説明した例では、検索結果として得られたWebページのHTMLデータに基づいて、変形質問パターン2による検索結果に含まれる特徴語としての固有名詞[*1']と、回答相当語構成部[*3]に対応する文字列からなる拡張語の関係を標記ルールとして求め、この標記ルールを入力質問における「沖縄」([*1]、特徴語)と回答の関係に対応付けて、「於茂登岳」を回答として取得した。
ステップS113では、ステップS112において求めた回答を回答出力手段206を介してクライアントに出力する。これらの処理の結果、
(入力質問)「沖縄の一番高い山はどこですか?」に対応する回答「於茂登岳」がクライアントに提示されることになる。
[その他の実施例]
以下、上述した実施例と異なる構成例について説明する。
a.固有名詞グループ情報保持手段212および類似質問生成手段202の変更例
上述した実施例では、図2に示す固有名詞グループ情報保持手段が、固有名詞についてグループ化した辞書を持ち、例えば「沖縄」に対応するグループの名詞として「熊本」「北海道」などを出力する構成としていた。しかし、このような固有名詞グループ情報保持手段にデータを格納することなく、類似質問生成手段202において、入力質問に含まれる固有名詞(特徴語)に対応する同一のグループ名詞を逐次生成する処理を実行する構成としてもよい。
例えば、「英文字あるいはハイフン記号からなる文字列」+「スペース記号」+「英数字あるいはハイフン記号からなる文字列」に対して、
「上記のスペース記号までの文字列」+「任意の英数字あるいはハイフン記号からなる文字列」を同一のグループ名詞とするなどのルールに基づいて、入力質問に含まれる固有名詞(特徴語)に対応する同一のグループ名詞を逐次生成する処理を実行する構成としてもよい。
具体的には、例えば、
「FUJI PCV−HX22B7」に対しては、「FUJI *」(「*」の部分は任意の英数字あるいはハイフン記号からなる文字列)を同一のグループ名詞とする。
クライアントからの入力質問が、
「FUJI PCV−HX22B7の発売日はいつですか?」
という質問であった場合、
変形質問ベース検索手段203は、
「[FUJI *]の発売日は[*3]{だ|です|である|で}」といった変形質問パターン2を適用した検索によって、拡張語を検索する。WWW上のテキストに
「FUJI VGO−HX52B7の発売日は2004年12月4日です。」、
「FUJI PCV−RZ62の発売日は2003年6月10日だ。」
といった記述があれば、「FUJI VGO−HX52B7」「2004年12月4日」「FUJI PCV−RZ62」「2003年6月10日」を拡張語として得ることができ、FUJIで始まる機種の発売日一覧の記述を検索できる可能性が高い。
さらに、英数字以外にも接尾辞に注目し、例えば、入力質問の特徴語が「サンノゼ空港」である場合、「サンノゼ空港」に対応する同一グループ名詞を、
「任意の固有名詞」+(「国際」)+「空港」
と定義することができる。
上述のルールによれば、例えば、
羽田空港、
ケネディ国際空港
などが、「サンノゼ空港」に対応する同一グループ名詞に対応する名詞とされる。なお、同一グループ名詞は網羅的に生成する必要はなく、数個の拡張語を得ることができれば本発明の機能を実現することが可能である。
また、同一グループ名詞収集ルールを用いることによって、(Web上の)テキスト集合から自動的に同一グループ名詞辞書を作成することも可能である。例えば、
「[*]や」の一回以上の繰り返し+[*]+{といった|等の|などの}[**]・・・
という同一グループ名詞収集ルールを適用することにより同一グループ名詞の集合からなる辞書を作成することができる。
具体的には、例えばWebページ上のテキストに、
「F2AバッファローやF6Fヘルキャット5型やF8Fベアキャットといった米軍航空機・・・」
があった場合、このテキストは、「[*]や」の一回以上の繰り返し+[*]+{といった|等の|などの}[**]に相当するテキストであり、このテキストから、
「F2Aバッファロー」「F6Fヘルキャット5型」「F8Fベアキャット」が「米軍航空機」と同一のグループの名詞であると特定することができる。
本構成例では、固有名詞グループ情報保持手段212にあらかじめ格納されていない固有名詞に対応するグループ名詞を取得することができる。
b.変形質問ベース検索手段203の変更例
上述の実施例においては、変形質問ベース検索手段203では、変形質問パターン1、変形質問パターン2を適用した検索を行なう構成として説明した。例えば、
(入力質問)「沖縄の一番高い山はどこですか?」に対応させて、
(変形質問パターン1)「沖縄{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」や、
(変形質問パターン2−1)「熊本{の|で}一番高い山{は|が}[*3]{だ|です|である|で}」
などの各種の変形質問パターンを生成して検索を行なう構成例を説明した。
このような変形処理は、かならずしも必須ではなく、
(入力質問)「沖縄の一番高い山はどこですか?」に対応させて、特徴語の同一グループの名詞に単に置き換えた質問、例えば、
「熊本の一番高い山は何ですか?」、
「東京の一番高い山は何ですか?」
「北海道の一番高い山は何ですか?」等を入力とした検索を、例えば、「特開2002−132811」等で提案されている従来の質問応答システムを適用した処理と同様の処理で実行して拡張語の取得を行う構成としてもよい。
なお、通常、質問応答システムの回答候補には確信値が付与されているため、確信値が一定の閾値以上の回答候補を拡張語として採用することにより、的確な拡張語選択が可能となる。
本構成例によれば、変形パターンを質問パターンごとに用意することなく、拡張語の検索、取得を行なうことができる。
c.構文意味解析手段の利用例
上述した実施例に、さらに構文意味解析手段を付加することで、単一の質問パターンで複数の質問表現をカバーすることを可能とし、質問パターン生成の工数を低減することができる。
構文意味解析処理を行なう構文意味解析手段を持つ構成とし、質問パターン保持手段211が表層文字列だけではなく構文意味解析結果を対象とする質問パターンを保持する。
日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援、文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語(SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制や様相、話法などを判定する処理を意味解析が含む場合もある。
構文意味解析システムの例として、「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109(2003)」に詳細が記述されているLFGに基づく自然言語処理システムを適用することが可能である。
図6に、Lexical Functional Grammar (LFG)LFGに基づく自然言語処理システム300の構成を示す。形態素解析部302は、日本語など特定の言語に関する形態素ルール302Aと形態素辞書302Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行なう。例えば、「私の娘は英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun} の{up} 娘{Noun} は{up} 英語{Noun} を{up} 話す{Verb1}{tr} ます{jp} 。{pt}」が出力される。
このような形態素解析結果は、次いで、構文・意味解析部303に入力される。構文・意味解析部303は、文法ルール303Aや結合価辞書303Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行なう(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した"c−structure(constituent structure)"と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として"f−structure(functional structure)"を出力する。
すなわち、c−structureは、自然言語文の構造を、文の形態素を上位のフレーズへとまとめあげることによって木構造として表現するものであり、f−structureは、文法機能の概念に基づき、文の格構造、時制、様相、話法などの意味情報を属性―属性値のマトリックス構造で表現するものである。
例えば、
「沖縄の一番高い山は何ですか?」
と同じ意味を持つ質問は、
「沖縄の一番高い山はどこでしょう?」、
「沖縄にある一番高い山は何でしょうか?」、
「沖縄の中の一番高い山は何か?」等、
様々に表現することができる。これらを扱うためには、上述の実施例の場合、予め対応する全ての質問パターンを用意しておかなければならない。
しかし、構文意味解析処理を施した場合には、このような全ての質問パターンを用意する必要はない。すなわち、上記の全ての質問文は、図7に示す共通の解析結果を有する。図7(a)は、修飾元、修飾先、修飾の関係を示したデータであり、上記の様々な質問文の構文意味解析結果は、すべて図7(a)の解析結果となり共通のものとなる。
図7(a)に示す構文意味解析処理結果は、前述のc−structureとしての木構造として示すと図8に示す構造となる。
修飾元である「沖縄」は「山」を修飾先としており、修飾関係は任意修飾、
修飾元である「一番」は「高い」を修飾先としており、修飾関係は任意修飾、
修飾元である「高い」は「山」を修飾先としており、修飾関係は任意修飾、
修飾元である「山」は「連結動詞」を修飾先としており、修飾関係は主語、
修飾元である「疑問詞」は「連結動詞」を修飾先としており、修飾関係は補語、
以上のような解析結果となる。
この構成は、上述のすべての質問文に共通の結果となる。このようにすべての質問文に共通の図7(a)に示す構文意味解析結果に基づいて、構文意味解析結果を対象とする質問パターンとして、図7(b)の構文意味解析結果に従った質問パターンを設定し、変形質問ベース検索手段203において検索を実行する。この場合は、Webページの記述に対応する構文意味解析結果とのマッチングを検査することによる検索を行なうことになる。なお、図7(b)の構文意味解析結果に従った質問パターン中、[*2]は「*1」を含まない任意修飾部分を全て連結した要素である。
本処理例のように、質問文から構文意味解析結果を生成して、検索を行なうことで単一の質問パターンで複数の質問表現をカバーすることが可能となり、質問パターン生成の工数を低減することができる。
d.検索手段の変更例1
上述した実施例において、変形質問ベース検索手段(拡張語検索手段)203、および拡張語ベース検索手段204は、個々のWebページを検索対象データとした検索を行なう構成として説明した。この検索対象の単位をWebページではなく、ディレクトリ単位としてもよい。例えば、あるディレクトリ内に、各国の情報が書かれたWebページが国ごとに置かれている場合に、そのディレクトリ全体を一つのWebページとみなして検索を行う。
この検索処理を実行することで、例えば、単一のWebページに質問パターンと回答に関する情報が網羅的に記述されておらず、ディレクトリ内の複数のWebページに分散して記録されている場合などであっても、各ページをまたがったデータ取得が可能となり、検索におけるヒット率を高めることができる。
e.検索手段の変更例2
上述した実施例において、拡張語ベース検索手段204は、単に、取得した拡張語をAND連結した検索式に基づく検索を実行する例として説明した。
すなわち、拡張語ベース検索手段204は、例えば、
「沖縄AND熊本AND国見岳AND北海道AND大雪山」
を検索式として設定した検索処理を実行する。
この拡張語ベース検索処理において、さらに効果的に回答を取得するため、拡張語間の関係を利用した検索を行う。例えば、前述の例において、「熊本」と「国見岳」の関係および「北海道」と「大雪山」の関係が類似するWebページやディレクトリを優先した検索を行う。このような検索を実行することで、典型的な質問パターンとそれに対する回答を網羅的に含むWebページ(ディレクトリ)を高い精度で検索することが可能となる。
最後に、上述した処理を実行する質問応答システムを構成する情報処理装置のハードウェア構成例について、図9を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した入力質問に基づく対応質問パターンの選択、変形質問パターンの生成、変形質問パターンによる検索、拡張語検索、拡張語ベースの検索処理、回答選択処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、先に図2を参照して説明した質問パターン保持手段、固有名詞
グループ情報保持手段、変形質問パターン保持手段として利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、クライアントやネットワーク接続サーバとの通信を実行する。
なお、図9に示す質問応答システムとして適用される情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の質問応答システムは、図9に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、入力質問から特徴語を選択し、特徴語を置き換えた変形質問を生成し、生成した変形質問に基づく変形質問ベース検索処理を実行し、さらに、この検索結果に含まれる語を拡張語として選択し、拡張語を適用した拡張語ベース検索処理を実行して、拡張語ベース検索ステップにおける検索結果に含まれる拡張語の対応関係を解析し、解析結果に基づいて、検索結果に含まれる特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する構成としたので、入力質問に対する回答が検索処理において検出できない場合であっても、類似質問に基づく質問によって、より高確率で質問に対する回答を取得することが可能となる。
本発明の質問応答システムの適用例を示すネットワーク構成図である。 本発明の一実施形態に係る質問応答システムの構成について説明する図である。 本発明の一実施形態に係る質問応答システムにおいて取得される検索結果としてのWebページ例を示す図である。 図3に示すWebページのHTMLデータを示す図である。 本発明の一実施形態に係る質問応答システムの処理シーケンスについて説明するフローチャートを示す図である。 構文意味解析システムの構成例について説明する図である。 構文意味解析結果のデータおよび質問パターンについて説明する図である。 構文意味解析結果としてのc―structureの構成例について説明する図である。 本発明の一実施形態に係る質問応答システムのハードウェア構成例について説明する図である。
符号の説明
100 ネットワーク
101 クライアント
102 Webページ提供サーバ
200 質問応答システム
201 質問入力手段
202 類似質問生成手段
203 変形質問ベース検索手段
204 拡張語ベース検索手段
205 回答選択手段
206 回答出力手段
211 質問パターン保持手段
212 固有名詞グループ情報保持手段
213 変形質問パターン保持手段
300 構文意味解析システム
302 形態素解析部
302A 形態素ルール
302B 形態素辞書
303 構文意味解析部
303A 文法ルール
303B 結合価辞書
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (17)

  1. 入力質問から特徴語を選択し、該特徴語を置き換えた変形質問を生成する類似質問生成手段と、
    前記類似質問生成手段の生成した変形質問に基づく第1の検索処理を実行する変形質問ベース検索手段と、
    前記変形質問ベース検索手段の検索処理によって取得した第1の検索結果に含まれる語を拡張語として選択し、拡張語を適用した第2の検索処理を実行する拡張語ベース検索手段と、
    前記拡張語ベース検索手段の第2の検索処理によって取得した第2の検索結果に含まれる拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する回答選択手段と、
    を有することを特徴とする質問応答システム。
  2. 前記回答選択手段は、
    前記第2の検索結果として取得される検索結果のHTML標記データに基づいて、拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定して、回答と判断される語を選択する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  3. 前記類似質問生成手段は、
    入力質問を構成する特徴語を不変とした入力質問の類似質問である変形質問パターン1を生成し、
    前記変形質問ベース検索手段は、
    前記変形質問パターン1に基づく検索処理を実行する構成であり、
    該検索処理の結果として回答が取得されない場合に、
    前記類似質問生成手段は、
    入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問パターン2を生成し、
    前記変形質問ベース検索手段は、
    前記変形質問パターン2に基づく検索処理を実行する構成であり、
    前記拡張語ベース検索手段は、
    前記変形質問パターン2に基づく検索処理によって取得した検索結果に含まれる語を拡張語として選択し、該選択拡張語を適用した検索処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  4. 前記拡張語ベース検索手段は、
    前記入力質問における特徴語と、前記変形質問ベース検索手段の検索処理によって取得した第1の検索結果に含まれる語から選択される前記特徴語と同一のグループに属する同一グループ語と、前記変形質問における回答相当語を拡張語として選択し、選択した拡張語を適用した第2の検索処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  5. 前記質問応答システムは、さらに、
    入力質問のパターン分類情報を格納した質問パターン保持手段と、
    前記質問パターン保持手段に格納された質問パターンの変形パターンを保持した変形質問パターン保持手段を有し、
    前記類似質問生成手段は、
    入力質問と、前記質問パターン保持手段の格納パターンを対比して、入力質問に対応する質問パターンを選択し、前記変形質問パターン保持手段の格納パターンに基づいて、選択した質問パターンに対応する変形質問パターンを生成する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  6. 前記質問応答システムは、さらに、
    入力質問から取得される固有名詞としての特徴語のグループ分類情報を格納した固有名詞グループ情報保持手段を有し、
    前記類似質問生成手段は、
    前記固有名詞グループ情報保持手段の情報を適用して、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問を生成する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  7. 前記類似質問生成手段は、
    特徴語を置き換えた変形質問を、予め設定したルールに基づいて生成する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  8. 前記質問応答システムは、
    さらに、構文意味解析手段を有し、
    前記類似質問生成手段は、
    入力質問の構文解析結果に基づく質問パターンを生成し、
    前記変形質問ベース検索手段は、
    構文解析結果に基づく質問パターンに基づく検索処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  9. 入力質問から特徴語を選択し、該特徴語を置き換えた変形質問を生成する類似質問生成ステップと、
    前記類似質問生成ステップにおいて生成した変形質問に基づく第1の検索処理を実行する変形質問ベース検索ステップと、
    前記変形質問ベース検索ステップにおける検索処理によって取得した第1の検索結果に含まれる語を拡張語として選択し、拡張語を適用した第2の検索処理を実行する拡張語ベース検索ステップと、
    前記拡張語ベース検索ステップにおける第2の検索処理によって取得した第2の検索結果に含まれる拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する回答選択ステップと、
    を有することを特徴とするデータ検索方法。
  10. 前記回答選択ステップは、
    前記第2の検索結果として取得される検索結果のHTML標記データに基づいて、拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定して、回答と判断される語を選択する処理を実行するステップであることを特徴とする請求項9に記載のデータ検索方法。
  11. 前記データ検索方法は、
    入力質問を構成する特徴語を不変とした入力質問の類似質問である変形質問パターン1を生成するステップと、
    前記変形質問パターン1に基づく検索処理を実行するステップと、
    該検索処理の結果として回答が取得されない場合に、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問パターン2を生成するステップと、
    前記変形質問パターン2に基づく検索処理を実行するステップを有し、
    前記拡張語ベース検索ステップは、
    前記変形質問パターン2に基づく検索処理によって取得した検索結果に含まれる語を拡張語として選択し、該選択拡張語を適用した検索処理を実行することを特徴とする請求項9に記載のデータ検索方法。
  12. 前記拡張語ベース検索ステップは、
    前記入力質問における特徴語と、前記変形質問ベース検索ステップの検索処理によって取得した第1の検索結果に含まれる語から選択される前記特徴語と同一のグループに属する同一グループ語と、前記変形質問における回答相当語を拡張語として選択し、選択した拡張語を適用した第2の検索処理を実行するステップであることを特徴とする請求項9に記載のデータ検索方法。
  13. 前記類似質問生成ステップは、
    入力質問と、質問パターン保持手段に保持された格納パターンとを対比して、入力質問に対応する質問パターンを選択し、変形質問パターン保持手段に保持された格納パターンに基づいて、選択した質問パターンに対応する変形質問パターンを生成する処理を実行するステップであることを特徴とする請求項9に記載のデータ検索方法。
  14. 前記類似質問生成ステップは、
    入力質問から取得される固有名詞としての特徴語のグループ分類情報を格納した固有名詞グループ情報保持手段の情報を適用して、入力質問を構成する特徴語を、特徴語と同一のグループに属する同一グループ語に置き換えた変形質問を生成する処理を実行することを特徴とする請求項9に記載のデータ検索方法。
  15. 前記類似質問生成ステップは、
    特徴語を置き換えた変形質問を、予め設定したルールに基づいて生成する処理を実行することを特徴とする請求項9に記載のデータ検索方法。
  16. 前記データ検索方法は、さらに、
    構文意味解析ステップを有し、
    前記類似質問生成ステップは、
    入力質問の構文解析結果に基づく質問パターンを生成し、
    前記変形質問ベース検索ステップは、
    構文解析結果に基づく質問パターンに基づく検索処理を実行することを特徴とする請求項9に記載のデータ検索方法。
  17. データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
    入力質問から特徴語を選択し、該特徴語を置き換えた変形質問を生成する類似質問生成ステップと、
    前記類似質問生成ステップにおいて生成した変形質問に基づく第1の検索処理を実行する変形質問ベース検索ステップと、
    前記変形質問ベース検索ステップにおける検索処理によって取得した第1の検索結果に含まれる語を拡張語として選択し、拡張語を適用した第2の検索処理を実行する拡張語ベース検索ステップと、
    前記拡張語ベース検索ステップにおける第2の検索処理によって取得した第2の検索結果に含まれる拡張語の対応関係を解析し、該解析結果に基づいて、第2の検索結果に含まれる前記特徴語と回答相当語の構成部を特定し、回答と判断される語を選択する回答選択ステップと、
    を有することを特徴とするコンピュータ・プログラム。
JP2005070540A 2005-03-14 2005-03-14 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Expired - Fee Related JP4645242B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005070540A JP4645242B2 (ja) 2005-03-14 2005-03-14 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US11/231,947 US7461047B2 (en) 2005-03-14 2005-09-22 Question answering system, data search method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005070540A JP4645242B2 (ja) 2005-03-14 2005-03-14 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2006252380A true JP2006252380A (ja) 2006-09-21
JP4645242B2 JP4645242B2 (ja) 2011-03-09

Family

ID=36972248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005070540A Expired - Fee Related JP4645242B2 (ja) 2005-03-14 2005-03-14 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US7461047B2 (ja)
JP (1) JP4645242B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008538A (ja) * 2009-06-25 2011-01-13 Fuji Xerox Co Ltd データ出力装置、表示装置及びプログラム
JP2017037588A (ja) * 2015-08-14 2017-02-16 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017142669A (ja) * 2016-02-10 2017-08-17 富士通株式会社 情報出力システム、情報出力方法および情報出力プログラム
JP2021149956A (ja) * 2019-11-01 2021-09-27 ボイン アイティー カンパニー リミテッド 問題項目自動生成方法およびシステム
JP2022173178A (ja) * 2021-05-08 2022-11-18 ソフネック株式会社 意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1775367A1 (en) * 2005-10-13 2007-04-18 Electrolux Home Products Corporation N.V. Improved drain pump
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
US20080109735A1 (en) * 2006-11-03 2008-05-08 Research In Motion Limited System and method for replying to an electronic mail message
US8285697B1 (en) * 2007-01-23 2012-10-09 Google Inc. Feedback enhanced attribute extraction
US9063975B2 (en) * 2013-03-15 2015-06-23 International Business Machines Corporation Results of question and answer systems
US20090150387A1 (en) * 2007-11-08 2009-06-11 Marchewitz Jodi L Guided research tool
US7945525B2 (en) * 2007-11-09 2011-05-17 International Business Machines Corporation Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree
US10482114B2 (en) * 2008-03-27 2019-11-19 Oath Inc. System and method for maintenance of questions and answers through collaborative and community editing
US20090253112A1 (en) * 2008-04-07 2009-10-08 Microsoft Corporation Recommending questions to users of community qiestion answering
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8027973B2 (en) * 2008-08-04 2011-09-27 Microsoft Corporation Searching questions based on topic and focus
US20110066685A1 (en) * 2009-09-11 2011-03-17 Hiroshi Kitada Sending email from a document storage server operating by mobile device remote from the document storage server
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US9569724B2 (en) 2010-09-24 2017-02-14 International Business Machines Corporation Using ontological information in open domain type coercion
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
EP2616974A4 (en) 2010-09-24 2016-03-02 Ibm ESTIMATION AND CONFIDENCE APPLICATION OF LEXICAL TYPE OF RESPONSE
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
US9002773B2 (en) 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
EP2622592A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622428A4 (en) 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
WO2012047557A1 (en) * 2010-09-28 2012-04-12 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
CN103229162B (zh) 2010-09-28 2016-08-10 国际商业机器公司 使用候选答案逻辑综合提供问题答案
CA2741212C (en) * 2011-05-27 2020-12-08 Ibm Canada Limited - Ibm Canada Limitee Automated self-service user support based on ontology analysis
CA2767676C (en) 2012-02-08 2022-03-01 Ibm Canada Limited - Ibm Canada Limitee Attribution using semantic analysis
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9229974B1 (en) 2012-06-01 2016-01-05 Google Inc. Classifying queries
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9280908B2 (en) 2013-03-15 2016-03-08 International Business Machines Corporation Results of question and answer systems
CN104239343B (zh) * 2013-06-20 2018-04-27 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
US9898554B2 (en) 2013-11-18 2018-02-20 Google Inc. Implicit question query identification
CN103744897A (zh) * 2013-12-24 2014-04-23 华为技术有限公司 故障信息的关联搜索方法、系统和网络管理系统
US9378273B2 (en) 2014-03-13 2016-06-28 International Business Machines Corporation System and method for question answering by reformulating word problems
US10642935B2 (en) * 2014-05-12 2020-05-05 International Business Machines Corporation Identifying content and content relationship information associated with the content for ingestion into a corpus
JP6464604B2 (ja) * 2014-08-08 2019-02-06 富士通株式会社 検索支援プログラム、検索支援方法および検索支援装置
KR20160056548A (ko) 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
US10671601B2 (en) * 2014-12-08 2020-06-02 International Business Machines Corporation Platform for consulting solution
US10102275B2 (en) 2015-05-27 2018-10-16 International Business Machines Corporation User interface for a query answering system
US9727552B2 (en) * 2015-05-27 2017-08-08 International Business Machines Corporation Utilizing a dialectical model in a question answering system
US10490094B2 (en) 2015-09-25 2019-11-26 International Business Machines Corporation Techniques for transforming questions of a question set to facilitate answer aggregation and display
US10146858B2 (en) 2015-12-11 2018-12-04 International Business Machines Corporation Discrepancy handler for document ingestion into a corpus for a cognitive computing system
US10176250B2 (en) 2016-01-12 2019-01-08 International Business Machines Corporation Automated curation of documents in a corpus for a cognitive computing system
US9842161B2 (en) 2016-01-12 2017-12-12 International Business Machines Corporation Discrepancy curator for documents in a corpus of a cognitive computing system
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US9760627B1 (en) 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
JP6897168B2 (ja) * 2017-03-06 2021-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN107797984B (zh) * 2017-09-11 2021-05-14 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107807949A (zh) * 2017-09-11 2018-03-16 远光软件股份有限公司 智能交互方法、设备及存储介质
US11194956B2 (en) * 2018-04-30 2021-12-07 Patent Bots LLC Offline interactive natural language processing results
US11416481B2 (en) * 2018-05-02 2022-08-16 Sap Se Search query generation using branching process for database queries
JP7183600B2 (ja) * 2018-07-20 2022-12-06 株式会社リコー 情報処理装置、システム、方法およびプログラム
CN113535915B (zh) * 2018-09-28 2024-09-13 北京百度网讯科技有限公司 用于扩充数据集的方法
CN112182181B (zh) 2018-11-01 2023-08-29 百度在线网络技术(北京)有限公司 智能交互方法和装置
US11797756B2 (en) * 2019-04-30 2023-10-24 Microsoft Technology Licensing, Llc Document auto-completion
EP3822816A1 (en) * 2019-11-15 2021-05-19 42 Maru Inc. Device and method for machine reading comprehension question and answer
US11531818B2 (en) 2019-11-15 2022-12-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
CN112905860A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目条件替换的方法
US11782974B2 (en) * 2021-03-25 2023-10-10 Bank Of America Corporation System and method for dynamically identifying and retrieving information responsive to voice requests
CN113869948A (zh) * 2021-09-27 2021-12-31 重庆软岛科技股份有限公司 一种企业数字化营销开放式系统平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092033A (ja) * 2000-09-12 2002-03-29 Sanyo Electric Co Ltd 情報検索装置
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2003150624A (ja) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2005063185A (ja) * 2003-08-13 2005-03-10 Toshiba Corp 文書検索システム、質問応答システム、文書検索方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
FR2797958B1 (fr) * 1999-08-31 2001-10-26 Alstom Procede et dispositif de test du fonctionnement d'une unite electronique par simulation et installation de test d'unite a embarquer sur un materiel ferroviaire ou un vehicule electrique
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US7120627B1 (en) * 2000-04-26 2006-10-10 Global Information Research And Technologies, Llc Method for detecting and fulfilling an information need corresponding to simple queries
US6859800B1 (en) * 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US7031951B2 (en) * 2000-07-19 2006-04-18 Convergys Information Management Group, Inc. Expert system adapted dedicated internet access guidance engine
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US6928425B2 (en) * 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US7117432B1 (en) * 2001-08-13 2006-10-03 Xerox Corporation Meta-document management system with transit triggered enrichment
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US7149732B2 (en) * 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries
JP2003242136A (ja) 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法
US6850949B2 (en) * 2002-06-03 2005-02-01 Right Now Technologies, Inc. System and method for generating a dynamic interface via a communications network
US7373300B1 (en) * 2002-12-18 2008-05-13 At&T Corp. System and method of providing a spoken dialog interface to a website
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
JP4200834B2 (ja) * 2003-07-02 2008-12-24 沖電気工業株式会社 情報検索システム、情報検索方法及び情報検索プログラム
JP2005092271A (ja) * 2003-09-12 2005-04-07 Hitachi Ltd 質問応答方法及び質問応答装置
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7299228B2 (en) * 2003-12-11 2007-11-20 Microsoft Corporation Learning and using generalized string patterns for information extraction
CN1629833A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 实现问与答功能和计算机辅助写作的方法及装置
KR100597437B1 (ko) * 2004-12-17 2006-07-06 한국전자통신연구원 하이브리드 정답유형 인식 장치 및 방법
JP2006252382A (ja) 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4635659B2 (ja) 2005-03-14 2011-02-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7384191B2 (en) * 2005-05-26 2008-06-10 Harris Corporation Method and apparatus for measuring spatial temperature distribution of flames
US7209923B1 (en) * 2006-01-23 2007-04-24 Cooper Richard G Organizing structured and unstructured database columns using corpus analysis and context modeling to extract knowledge from linguistic phrases in the database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092033A (ja) * 2000-09-12 2002-03-29 Sanyo Electric Co Ltd 情報検索装置
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2003150624A (ja) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2005063185A (ja) * 2003-08-13 2005-03-10 Toshiba Corp 文書検索システム、質問応答システム、文書検索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008538A (ja) * 2009-06-25 2011-01-13 Fuji Xerox Co Ltd データ出力装置、表示装置及びプログラム
JP2017037588A (ja) * 2015-08-14 2017-02-16 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017142669A (ja) * 2016-02-10 2017-08-17 富士通株式会社 情報出力システム、情報出力方法および情報出力プログラム
JP2021149956A (ja) * 2019-11-01 2021-09-27 ボイン アイティー カンパニー リミテッド 問題項目自動生成方法およびシステム
JP7179886B2 (ja) 2019-11-01 2022-11-29 ボイン アイティー カンパニー リミテッド 問題項目自動生成方法およびシステム
JP2022173178A (ja) * 2021-05-08 2022-11-18 ソフネック株式会社 意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法
JP7312354B2 (ja) 2021-05-08 2023-07-21 ソフネック株式会社 意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法

Also Published As

Publication number Publication date
US7461047B2 (en) 2008-12-02
JP4645242B2 (ja) 2011-03-09
US20060206472A1 (en) 2006-09-14

Similar Documents

Publication Publication Date Title
JP4645242B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4635659B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7526474B2 (en) Question answering system, data search method, and computer program
US20070118519A1 (en) Question answering system, data search method, and computer program
JP4654780B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654776B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
US7340388B2 (en) Statistical translation using a large monolingual corpus
JP4650072B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20080262826A1 (en) Method for building parallel corpora
CN102253930B (zh) 一种文本翻译的方法及装置
JP2012520527A (ja) ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
WO2007051109A2 (en) System and method for cross-language knowledge searching
US20070011160A1 (en) Literacy automation software
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
JPH1145274A (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
WO2020026229A2 (en) Proposition identification in natural language and usage thereof
CN114661917B (zh) 文本扩增方法、系统、计算机设备及可读存储介质
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4645242

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370