JP5213098B2 - 質問応答方法及びシステム - Google Patents

質問応答方法及びシステム Download PDF

Info

Publication number
JP5213098B2
JP5213098B2 JP2007165692A JP2007165692A JP5213098B2 JP 5213098 B2 JP5213098 B2 JP 5213098B2 JP 2007165692 A JP2007165692 A JP 2007165692A JP 2007165692 A JP2007165692 A JP 2007165692A JP 5213098 B2 JP5213098 B2 JP 5213098B2
Authority
JP
Japan
Prior art keywords
question sentence
question
answer
training data
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007165692A
Other languages
English (en)
Other versions
JP2009003814A (ja
Inventor
友政 呉
秀紀 柏岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007165692A priority Critical patent/JP5213098B2/ja
Publication of JP2009003814A publication Critical patent/JP2009003814A/ja
Application granted granted Critical
Publication of JP5213098B2 publication Critical patent/JP5213098B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

ユーザから入力された質問文に対して応答を出力可能な質問応答方法及びシステム、プログラム並びに記録媒体に関する。
近年におけるインターネットの普及に伴い、ユーザは、検索エンジンを利用して所望のウェブページをサーチし、そこから知見を得ることが可能となってきている。特にユーザが知りたい情報について検索エンジンを介してウェブページを検索する場合、検索クエリーとして、キーワードを入力することにより、当該キーワードに関連するスニペットを持つウェブページが自動抽出され、これを検索リストとして表示されることになる。ユーザは、かかる検索リストに表示されたウェブページ一覧から所望のウェブページにアクセスし、知りたい情報を取得することが可能となる。
ところで、現在におけるウェブページの検索方法では、検索リストに表示されたウェブページ一覧から、所望の情報が記載されている、真のウェブページをユーザ自身が順次アクセスしながら見つけ出す必要があり、労力の負担が増大し、また検索に要する時間が長期化してしまうという問題点があった。
このため、このような検索エンジンを介して検索リストを表示する代替として、ユーザ自身が知りたい情報を自然な文章として端末を介して入力し、かかる質問文に対する応答を直接出力する質問応答システムが従来から望まれていた。このため、かかる質問応答システムに関する研究も従来より行われていた。
従来の質問応答システムは、4つのカテゴリーに分類することができる。
先ず、質問文の全てのキーワードと、解答候補との間で類似性を示す距離を求め、これに基づいて解答候補から正解を選び出すモデルが提案されている。しかし、このモデルでは、質問と解答候補が依拠する文章とが表面上一致していないだけで、正解を出すことができなくなるという問題点があった。
また、質問文を最初に予め定義したカテゴリーに分類し、これをオフラインの下で学習したアンサーパターンを利用して正解を抽出するモデルも提案されている。しかし、このモデルは、予め定義した何種類かの質問のタイプに対しては高い正確性を出すことが可能であるが、オープンドメインな質問応答のための質問のタイプを定義するのが困難であり、あらゆるタイプの質問に対して対応することができない。
自然言語処理(NLP:Natural Language Processing)に基づくモデルは、ユーザの質問を解析し、応答に相当する文を意味的な表現へと繋げ、そして意味的にマッチングするものを解答として見つけ出すものである。このモデルは、TREC(Text REtrieval Conference)のワークショップにおいてよく実演されるものであるが、NLPツールの高パフォーマンスに大きく依存するものである。このため、処理時間が長時間に亘るとともに、作業量の増加が無視できない。
さらに、マシーンラーニングに基づくモデルも研究されている(例えば、特許文献1参照。)が、未だその有用性は確立されていない。
即ち、これらの開示技術は、手入力された質問と解答のペアが所定量必要になるという問題点がある。また、マシーンラーニング技術に特化した上記ペアを収集するのは多大な労力が必要になり、コスト増につながる。
Jun Suzuki,Yutaka Sasaki,Eisaku Maeda.SVM Answer Selection for Open-Domain Question Answering,In Proc.of Coling-2002,pp974〜980(2002).
そこで、本発明は、上述した問題点に鑑みて案出されたものであり、オープンドメインな質問応答システムを実現する上で、その解答の正答率を向上させることが可能な質問応答方法及びシステム、プログラム並びに記録媒体を提供することにある。
本発明を適用した質問応答方法は、ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとを有し、上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数、
を特徴とする。
本発明を適用した質問応答システムは、ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析手段と、上記質問文解析手段により抽出されたキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索手段と、上記検索ステップにより検索された各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出手段と、上記解答候補抽出手段により抽出された各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリング手段と、上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類手段とを備え、上記分類手段は、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、上記分類手段は、上記SBFSを、上記キーワードのbi-gramの一致度に基づくものとし、上記BMFSを、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものとし、上記WWFSを、以下のISF値により重み付けすること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする。
本発明を適用したプログラムは、ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとをコンピュータに実行させ、上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする。
上述した構成からなる本発明では、後述する表1〜3の結果から示されるように、オープンドメインな質問応答システムを実現する上で、その解答の正答率を向上させることが可能となる。
以下、本発明を実施するための最良の形態として、ユーザから入力された質問文に対して応答を出力可能な質問応答システムに監視、図面を参照しながら詳細に説明をする。
本発明を適用した質問応答システム1は、図1に示すように、質問文を入力するユーザにより操作されるユーザ端末装置11と、このユーザ端末装置11により通信網12を介してそれぞれアクセス可能なウェブサーバ13と、このウェブサーバ13を制御するための制御装置14とを備えている。
ユーザ端末装置11は、例えばパーソナルコンピュータ(PC)等が適用され、質問文を入力するためのマウスやキーボード等からなる操作部と、情報をユーザに対して表示するための、例えば液晶ディスプレイからなる表示部を備える。このユーザ端末装置11は、ユーザからの質問文の入力を受け付けた場合に、これを通信網12を介して制御装置14へと送信する。
通信網12は、例えばウェブサーバ13とユーザ端末装置11とを電話回線を介して接続されるインターネット網を始め、TA/モデムと接続されるISDN(Integrated Services Digital Network)/B(broadband)−ISDN等のように、情報の双方向送受信を可能とした公衆通信網等である。
また制御装置14も同様にコンピュータで構成されるものであり、相互にバスで接続されたCPU(Central Processing Unit)や、メモリ、固定ディスクと、通信網12を介してユーザ端末装置11との間で情報を送受信するための通信インターフェースとを備えている。実際に、本発明に係る質問応答システム1を実行するためのプログラムは、この制御装置14における固定ディスク等にインストールされることになる。また、このプログラムは、他のCD−ROM等に記録された記録媒体として具体化することも可能となる。
制御装置14は、通信網12を介してユーザ端末装置11から受信した質問文を受けて、ウェブサーバ13へアクセスし、後述するような処理を実行することにより、上記質問文に対する応答を作り出し、通信網12を介してユーザ端末装置11へと送信する。ユーザ端末装置11は、送られてきた応答を液晶ディスプレイからなる表示部を介して表示する。
次に、本発明を適用した質問応答システム1の動作について説明をする。
図2は、質問応答システム1を実行する上でのフローチャートを示している。先ずステップS1において、ユーザからの質問文の入力を受け付ける。ちなみに、本発明は、オープンドメインの質問応答の実現を想定しているところ、ユーザは、言語や入力形式に支配されることなく、自然に質問したい内容を文章にし、これを入力していくことになる。このため、ユーザの入力すべき内容について、複雑なルールは特段存在せず、また高精度な言語解析技術も特段必要としない。
この質問文は、文書検索のクエリーとなりえるキーワードの集合と、質問の種別を規程するアンサータイプから構成されることになる。例えば、「いつ潜水艦が沈んだか?」という質問文が入力された場合においてキーワードは、「潜水艦」、「沈む」に相当し、アンサータイプは、「いつ」に相当するものとなる。即ち、このキーワードは、質問文中に含まれる名詞、動詞等を規程する単語であり、アンサータイプは、時、場所、主体、数量等、実際にユーザが知りたいカテゴリを示すものである。また、ステップS2は、質問からキーワードを抽出し、また疑問詞に基づいて質問の解答タイプを分類する。
次に、ステップS2へ移行し、上記ステップS1において抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する。その結果、このステップS2においては、キーワードに関係するウェブページが順次検索されてくることになる。このステップS2においては、例えば検索エンジンにおけるスニペットの記載に基づいて検索を行うようにしてもよい。ちなみに、このステップS2において、上述した例の質問文が入力された場合には、「潜水艦」、「沈む」というキーワードに関係するウェブページが順次検索されてくることになる。
次にステップS3へ移行し、ステップS2において検索した各ウェブページから、アンサータイプに基づいて解答候補を順次抽出する。即ち、アンサータイプとして、時、場所、主体、数量等の何れかがステップS1において抽出されているため、これに関係する解答候補を抽出してくることになる。このステップS3においては、例えば検索エンジンにおけるスニペットの記載から解答候補を抽出するようにしてもよい。ちなみに、このステップS3において、上述した例の質問文が入力された場合には、「いつ」に相当する時を表すアンサータイプに基づく解答候補を抽出してくることになる。
次にステップS4へ移行し、クラスタリングを行う。このクラスタリングは、解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする。同一の解答候補を含むウェブスニペットは、同系列のスニペットとみなし、これを同一のクラスタに属させる。そして、この割り当ての結果を分類ステップのトレーニングデータとしてとして利用する。
即ち、検索エンジンのトップm位までのスニペット{s1,s2,・・・,sm}からn個の解答候補{c1,c2,・・・,cn}を抽出する。これらのスニペットは、それぞれ解答候補{ci}と少なくとも1の質問キーワード{qi}を保有している。そして、これらスニペット{s1,s2,・・・,sm}は、ウェブサーチ結果のクラスタリングにより、n個のクラスタ{C1,C2,・・・,Cn}へと割り当てられることになる。
仮にスニペットがL個の異なる解答候補を保有するものであれば、そのスニペットはL個の異なるクラスタに割り当てられることになる。また、異なるスニペットの解答候補が互いに同一であれば、これらのスニペットは同一のクラスタに割り当てられることになる。
最終的に、クラスタ{Ci}は、解答候補{ci}の数によって決定される。そしてクラスタCiのクラスタ名は、解答候補ciに基づくものとなる。これらクラスタ化された解答候補ciが上述したトレーニングデータとなる。
次に、ステップS5へ移行し、トレーニングデータを解析することにより上記クラスタを分類する
さらに次にステップS6へ移行し、トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する。この分類ステップS6は、ユーザの質問から分析したテストベクトルを利用することにより、クラスタの一つに割り当て、質問に対する解答を、質問のクラスタの名称と仮定する。
以下、このステップS5とステップS6を一つの分類ステップとして説明をしていく。この分類ステップでは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出するようにしてもよい。
また、この分類ステップでは、トレーニングデータと質問文との単語重複度を示すSBFS(similarity-based feature set)、トレーニングデータと質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出するようにしてもよい。
SBFSとしては、キーワードの重複度、キーワードの非重複度、キーワードのbi-gramの一致度、シーソラスの重複度、キーワードと解答候補との間の規格化距離の何れか1以上に基づくものであってもよい。
BMFSは、人名が一致しているか否か、地域名が一致しているか否か、組織名が一致しているか否か、時を示す単語が一致しているか否か、数量を示す単語が一致しているか否か、語源が一致しているか否か、解答候補が質問文のbi-gramと一致したbi-gramを有するか否か、解答候補がネームディエンティティタイプを要求されているか否かの何れか1以上に基づくものであってもよい。
WWFSは、以下のISF値により重み付けされていてもよい。
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wが含まれているクラスタCiにおけるスニペットの数である。
最後にステップS7に移行し、実際に上記プロセスの下で得た回答をユーザ端末装置11の表示部を介して表示する。
次に、本発明を用いた質問応答システム1による効果について説明をする。
中国語によるウェブの質問応答(QA)における3種類のデータセットとしてのCTREC04、CTREC05、CTEST05を利用し、本発明を適用したU(unsupervised)-SVMを検証することとした。CTREC04は、TREC2004FACTOIDのテスト問題から翻訳された178個の中国語による質問のセットからなる。CTREC05は、TRE2005FACTOIDのテスト問題から翻訳された279個の中国語による質問のセットからなる。CTEST05は、中国語で記載されたものを除く、TERCのテスト問題に類似する178個の中国語の質問のセットからなる。
実験は、3つの評価項目、即ち、top_1,top_5,mrr_5に基づいて評価を行った。評価結果を表1、2、3に示す。ここで、top_1は、解答の正確性がトップ1位である解答が含まれている割合を示している。top_5は、解答の正確性がトップ5位以内である解答の一つが含まれている割合を示している。mrr_5は、各質問に対する正解の平均相対ランク(1/n)を示しており、ここで最高ランクn(n≦5)としている。
各データセット(CTREC04、CTREC05、CTEST05)をU-SVMを用いて解析することにより得られた各評価項目(top_1,top_5,mrr_5)を表1に示す。
Figure 0005213098
また、表2において、CTrec04と、CTrec05のテストデータをU-SVMとthe Retrieval-M(従来の検索手法)それぞれを用いて解析することにより得られた各評価項目(top_1,top_5,mrr_5)の相対比較を表2に示す。
Figure 0005213098
さらに、Pattern-M(パターン重視による手法)とS-SVM(SVMを利用した教化学習法によるもの)に対するU-SVMのパフォーマンス性を比較するために、CTEST05のデータセットを用いて検証を行った。表3は、U-SVM、Pattern-M、S-SVMの各モデルを用いてCTEST05を解析することにより得られた各評価項目(top_1,mrr_5)の相対比較を示している。
Figure 0005213098
上述した表1〜3の結果から、各モデルによる正答率(パフォーマンスランキング)は、U-SVM>Pattern-M>S-SVM>Retrieval-Mの順となった。
即ち、本発明では、上述した図2に示すフローに基づいて、解答を抽出していくため、正答率を向上させることが可能となる。
本発明を適用した質問応答システムの構成例を示す図である。 本発明を適用した質問応答システムの処理手順を示すフローチャートである。
符号の説明
1 質問応答システム
11 ユーザ端末装置
12 通信網
13 ウェブサーバ
14 制御装置

Claims (8)

  1. ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、
    上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、
    上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、
    上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、
    上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとを有し、
    上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
    上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、
    上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、
    上記WWFSは、以下のISF値により重み付けされていること
    ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
    ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
    を特徴とする質問応答方法。
  2. 上記分類ステップは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
    を特徴とする請求項1記載の質問応答方法。
  3. ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析手段と、
    上記質問文解析手段により抽出されたキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索手段と、
    上記検索ステップにより検索された各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出手段と、
    上記解答候補抽出手段により抽出された各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリング手段と、
    上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類手段とを備え、
    上記分類手段は、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
    上記分類手段は、上記SBFSを、上記キーワードのbi-gramの一致度に基づくものとし、
    上記BMFSを、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものとし、
    上記WWFSを、以下のISF値により重み付けすること
    ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
    ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
    を特徴とする質問応答システム。
  4. 上記分類手段は、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
    を特徴とする請求項3記載の質問応答システム。
  5. 上記質問文解析手段と、上記検索手段と、上記解答候補抽出手段と、上記クラスタリング手段と、上記分類手段とを備える制御装置と、当該制御装置に対して通信網を介して情報を送受信可能な複数のユーザ用端末装置とを備え、
    上記ユーザ用端末装置は、ユーザからの上記質問文の入力を受け付け、これを通信網を介して上記制御装置における上記質問文解析手段へと送信するとともに、当該制御装置における上記分類手段から出力される上記応答を上記通信網を介して受信し、これをユーザに表示すること
    を特徴とする請求項3又は4記載の質問応答システム。
  6. ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、
    上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、
    上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、
    上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、
    上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとをコンピュータに実行させ、
    上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
    上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、
    上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、
    上記WWFSは、以下のISF値により重み付けされていること
    ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
    ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
    を特徴とするプログラム。
  7. 上記分類ステップは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
    を特徴とする請求項6記載のプログラム。
  8. 請求項7項記載のプログラムが記録されていることを特徴とする記録媒体。
JP2007165692A 2007-06-22 2007-06-22 質問応答方法及びシステム Expired - Fee Related JP5213098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007165692A JP5213098B2 (ja) 2007-06-22 2007-06-22 質問応答方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007165692A JP5213098B2 (ja) 2007-06-22 2007-06-22 質問応答方法及びシステム

Publications (2)

Publication Number Publication Date
JP2009003814A JP2009003814A (ja) 2009-01-08
JP5213098B2 true JP5213098B2 (ja) 2013-06-19

Family

ID=40320113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007165692A Expired - Fee Related JP5213098B2 (ja) 2007-06-22 2007-06-22 質問応答方法及びシステム

Country Status (1)

Country Link
JP (1) JP5213098B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101928060B1 (ko) * 2017-12-01 2018-12-11 사회복지법인 삼성생명공익재단 아이디어 확장 방법, 시스템 및 컴퓨터 판독 가능한 기록매체

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9461945B2 (en) * 2013-10-18 2016-10-04 Jeffrey P. Phillips Automated messaging response
CN109710634B (zh) * 2018-12-28 2021-04-30 北京百度网讯科技有限公司 用于生成信息的方法及装置
CN111008267B (zh) * 2019-10-29 2024-07-12 平安科技(深圳)有限公司 智能对话方法及相关设备
CN111177349B (zh) * 2019-12-20 2022-05-17 厦门快商通科技股份有限公司 问答匹配方法、装置、设备及存储介质
CN111061853B (zh) * 2019-12-26 2024-01-12 竹间智能科技(上海)有限公司 一种快速获取faq模型训练语料的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
JP2003150624A (ja) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP4512826B2 (ja) * 2005-03-03 2010-07-28 国立大学法人 筑波大学 質問応答システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101928060B1 (ko) * 2017-12-01 2018-12-11 사회복지법인 삼성생명공익재단 아이디어 확장 방법, 시스템 및 컴퓨터 판독 가능한 기록매체

Also Published As

Publication number Publication date
JP2009003814A (ja) 2009-01-08

Similar Documents

Publication Publication Date Title
US9489450B2 (en) Method and apparatus for responding to an inquiry
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
EP1555625A1 (en) Query recognizer
KR102271361B1 (ko) 자동 질의응답 장치
JP2007141059A (ja) 読書支援システム及びプログラム
JP5213098B2 (ja) 質問応答方法及びシステム
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
WO2018227930A1 (zh) 智能提示答案的方法及装置
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
JP3198932B2 (ja) 文書検索装置
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
CN110688559A (zh) 一种检索方法及装置
CN110377706A (zh) 基于深度学习的搜索语句挖掘方法及设备
Secker et al. AISIID: An artificial immune system for interesting information discovery on the web
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
JP2010282403A (ja) 文書検索方法
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
CN112949287A (zh) 热词挖掘方法、系统、计算机设备和存储介质
Čeh et al. Developing a question answering system for the Slovene language
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees