JP4650072B2 - 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム - Google Patents
質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP4650072B2 JP4650072B2 JP2005114211A JP2005114211A JP4650072B2 JP 4650072 B2 JP4650072 B2 JP 4650072B2 JP 2005114211 A JP2005114211 A JP 2005114211A JP 2005114211 A JP2005114211 A JP 2005114211A JP 4650072 B2 JP4650072 B2 JP 4650072B2
- Authority
- JP
- Japan
- Prior art keywords
- answer
- candidate
- candidates
- search
- answer candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
を入力した場合、
回答候補として、例えば、「秋野不矩」、「本名ふく」が得られる。「秋野不矩」と「本名ふく」の間の関係を示す文として、あるパッセージ中の文「(省略)秋野不矩(本名ふく)(省略)」が実在する。この質問に対するユーザに提示する回答としては、「秋野不矩(本名ふく)」を含めることが望ましいが、従来のシステムでは提示される回答候補は比較的に短い文節で提示されるため、回答候補として「秋野不矩」、「本名ふく」がばらばらに提示されることが起こりやすい。
質問文:「2004年の年末に発生した出来事は何ですか?」
が質問応答システムに入力されると、例えば、質問文に含まれる特徴語である「2004年」「年末」「出来事」に基づく知識源の検索が実行され、
「紅白歌合戦」が多く抽出され、抽出頻度に基づくランキングを施した回答候補リストを生成してユーザに提示する処理を実行すると、「紅白歌合戦」が回答候補リストの上位にランキングされ、正解である「スマトラ沖地震」は下位にランキングされてしまうという事態が発生する。
まず、図1を参照して、本発明の質問応答システムの利用形態の一例について説明する。図1は本発明の質問応答システム200をネットワークに接続したネットワーク構成を示す図である。図1に示すネットワーク100は、インターネットやイントラネットなどのネットワークであり、ネットワーク100には、質問応答システム200に対する質問を送信するユーザ端末としてのクライアント101−1〜n、クライアント101−1〜nに対する回答を取得するための素材としてのWebページを提供する様々なWebページ提供サーバ102A〜Nやデータベース103a〜nが接続されている。
質問入力手段201は、ネットワーク100を介して、クライアントからの質問文(入力質問)を入力する。以下では、具体的な質問例として、
(入力質問)「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
という質問がクライアントから入力されたと想定して、質問応答システム200における各手段が実行する処理について説明する。
回答候補抽出手段202は、従来型の質問応答システムと同様、入力質問に基づいて知識源を検索して初期回答候補を抽出する処理を実行する。図3を参照して回答候補抽出手段202の処理について説明する。
クエリー生成手段203は、回答候補抽出手段292において取得した初期回答候補を検索語としたクエリーの生成を行なう。例えば初期回答候補に基づいてn−gram法を適用したクエリーを生成する。n−gram法とは、文字や単語の単位で、隣接するn個を1組とする手法である。本発明では、n≧2の回答候補の組み合わせを羅列する。なお、nはユーザによる指定も可能である。
「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
であるものとする。この質問に対して、回答候補抽出手段292において取得した初期回答候補集合AC(Answer Candidate)が、
初期回答候補集合AC:秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく
であるとする。この回答候補集合ACは従来型の質問応答システムにおいて得られる回答候補と同一である。
初期回答候補集合AC{秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく}
に基づいて生成されるクエリーリストであり、初期回答候補集合AC{秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく}を構成する初期回答候補から2つの初期回答候補を選択したすべての組み合わせからなるクエリーリストである。このリストは、n=2としたn−gramからなるクエリーリストの例である。すなわち、検索語2つを1組とする組み合わせのクエリーを生成している。
(5*4)/2=10通りであり、10個のクエリーが生成される。図4に示す1〜10のクエリーである。
[秋野不矩 and 伊藤正己]
等のキーワード検索式を意味する。この検索式が1つのクエリーに相当する。
(5*4*3)/3!=10通り、
n=4としたn−gram法に基づいてクエリーを生成すると、
(5*4*3*2)/4!=5通り、
のクエリーからなるクエリーリストが設定されることになる。
パッセージ検索手段204は、クエリー生成手段203の生成したクエリーに基づく検索処理を実行する。この検索処理の対象は、回答候補抽出手段202の情報検索部302が質問から抽出した特徴語に基づく知識源の検索によって取得した文章群としてのパッセージであり、パッセージを対象として、クエリー生成手段203の生成したクエリー、すなわち、図4に示すクエリー1〜10を順次適用して検索を実行する。
質問文Q「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
に基づいて抽出された特徴語に基づいて、回答候補抽出手段202が実行した知識源の情報検索によって取得された初期回答候補を含む文章群としてのすべての検索結果である。
図4に示す1〜10のクエリーを順次適用し、
クエリー1[秋野不矩 and 伊藤正己]
クエリー2[秋野不矩 and 田村三郎]
:
クエリー10[田村三郎 and 本名ふく]
の10個のクエリーをそれぞれ適用した検索処理を実行する。
パッセージp1の文集合={s11,s12・・・s1j}
パッセージp2の文集合={s21,s22・・・s2j}
:
パッセージpiの文集合={si1,si2・・・sij}
とし示される。この文集合のs11〜sijが文IDに相当する。
文集合S={(s11,s12…s1j),…,(si1,si2,…,sij)}として示される。
クエリー1[秋野不矩 and 伊藤正己]
に基づくパッセージ検索の結果として、
文ID=s44,s45・・・
が抽出され、
クエリー4[秋野不矩 and 本名ふく]
に基づくパッセージ検索の結果として、
文ID=s12,s13・・・
が抽出され、
クエリー9[田村三郎 and 本名ふく]
に基づくパッセージ検索の結果として、
文ID=s28,s36・・・
が抽出されたことを示している。
文ID=s12:秋野不矩(本名ふく)は、1908(明治41)年、静岡県天竜市に生まれた。
文ID=s44:今回受賞したのは、小説家で元海軍予備士官の阿川弘之氏(78)、日本画家の秋野不矩氏(91)、英米法・憲法学者で元最高裁判事の伊藤正己氏(80)、日本文化研究者の梅原猛氏(74)、生物有機化学者の田村三郎(82)の5名だった。
形態素解析手段205は、パッセージ件手段204における各クエリーに基づくパッセージ検索の結果、抽出されたヒット文の文IDを、図4に示す更新クエリーリストから取得し、文IDに対応するヒット文を取得し、取得したヒット文に対する形態素解析を実行する。
「秋野不矩(本名ふく)は、1908(明治41)年、静岡県天竜市に生まれた。」
について、形態素解析を実行した例を図6に示す。形態素解析の結果は、図6に示す文の構成要素情報としての[表層]と、各構成要素の[品詞情報]との対応データとして生成される。
回答候補検査手段206は、形態素解析手段205の生成した形態素解析結果に対して、予め規定されたルールを適用して、パッセージ検索の結果として、パッセージ文集合の中から選択された文IDに対応するヒット文の解析により、回答候補抽出手段202の抽出した複数の初期回答候補の回答の回答候補間の関係を検査する。例えば以下に説明するルールを適用して検査し、この検査に基づいて初期回答候補の回答としての適正を判定して、判定結果に基づいて、入力質問に対する最終的な提供回答候補の生成を実行する。
ルール1.初期回答候補間が直結している場合、複合名詞と判定し、初期回答候補を連結して新規回答候補とする。
ルール2.初期回答候補間が「ノ格」で直結している場合、「ノ格」で直結している初期回答候補を連結して新規回答候補とする。
ルール3.初期回答候補間に、1文字以上の記号が挟まっている場合、ただし括弧記号(「」、()など)が、最終の初期回答候補の形態素以降に出現している場合、これらの初期回答候補を連結して新規回答候補とする。
ルール4.初期回答候補間が、「と」などの並立助詞もしくは「または」など接続助詞で直結している場合、これらの初期回答候補を連結して新規回答候補とする。
これは、初期回答候補間が直結している場合、複合名詞である場合が多く、これを連結した上で新規回答候補として設定する処理ルールである。具体的には、
クエリーに基づくパッセージ検索によって抽出された文に対する形態素解析結果に基づいて、2つの初期回答候補[日本][赤十字社]が、直結している解析部分が検出された場合、この2つの初期回答候補[日本][赤十字社]を連結し、[日本赤十字社]を新たな回答候補とする。
これは、初期回答候補Aと初期回答候補Bがある場合、パッセージ検索の結果として選択された文の形態素解析結果中に、[AのB]といった解析部分が含まれる場合、[AのB]を新たな回答候補とする例である。例えば、クエリーに基づくパッセージ検索によって抽出された文に対する形態素解析結果に基づいて、2つの初期回答候補[スマトラ島][地震]が、「ノ格」で直結している解析部分、すなわち[スマトラ島の地震]が検出された場合、この[スマトラ島の地震]を新たな回答候補とする。
これは、例えば、初期回答候補Aと初期回答候補Bがある場合、パッセージ検索の結果として選択された文の形態素解析結果中に、A(B)といった解析部分が含まれる場合、[A(B)]を新たな回答候補とする例である。例えば、クエリーに基づくパッセージ検索によって抽出された文に対する形態素解析結果に基づいて、2つの初期回答候補[台風23号][TOKAGE]が、「台風23号(TOKAGE)」として記述されていることが解析された場合、この[台風23号(TOKAGE)]を新たな回答候補とする。
これは、例えば、初期回答候補Aと初期回答候補Bがある場合、パッセージ検索の結果として選択された文の形態素解析結果中に、AとBといった解析部分が含まれる場合、[AとB]を新たな回答候補とする例である。例えば、クエリーに基づくパッセージ検索によって抽出された文に対する形態素解析結果に基づいて、2つの初期回答候補[米][米糠]が、「米と米糠」として記述されていることが解析された場合、この[米と米糠]を新たな回答候補とする。
質問Q:「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
に対する処理シーケンスについて説明する。
が入力した場合、回答候補抽出手段202は知識源を検索対象として、初期回答候補AC、すなわち、
初期回答候補AC={秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく}
とともに、初期回答候補を含む文から構成されるパッセージを取得する。
初期回答候補AC={秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく}に基づいて、例えば図3に示すクエリーリストを生成し、
パッセージ検索手段204において、クエリーを順次適用してパッセージ検索を実行し、ヒットした文を取得する。
文ID=s12:秋野不矩(本名ふく)は、1908(明治41)年、静岡県天竜市に生まれた。
に対して形態素解析を実行して、図6に示す形態素解析結果を得る。
「秋野不矩(本名ふく)は、1908(明治41)年、静岡県天竜市に生まれた。」に対する形態素解析結果に対するルール適用例を図7に示し、図7を参照して説明する。
ルール3.初期回答候補間に、1文字以上の記号が挟まっている場合、ただし括弧記号(「」、()など)が、最終の初期回答候補の形態素以降に出現している場合、これらの初期回答候補を連結して新規回答候補とする。
このルール3に従って、
[秋野不矩(本名ふく)]
を新規回答候補として選択する処理を実行する。
質問Q:「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
が入力した場合、回答候補抽出手段202は知識源を検索対象として、初期回答候補AC、すなわち、
初期回答候補AC={秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく}
これら5つの初期回答候補を抽出するが、
回答候補検査手段206の実行する処理によって、
提供回答候補は、
提供回答候補AC={秋野不矩(本名ふく)、伊藤正己、田村三郎、阿川弘之}
の4つに減少する。
a,回答候補数減少許容方式
この方式は、ユーザに提示する回答候補の数を規定値m以下に減少することを許容するものであり、回答候補検査手段206の実行する処理によって選択された回答候補を最終回答候補とする。
この方式は、回答候補数が規定値m個になるまで、処理を繰り返し実行する。すなわち、回答候補抽出手段202において、抽出された回答候補から、次候補を取得して、同様の処理、すなわちクエリー生成、パッセージ検索、形態素解析、回答候補検査処理を繰り返し実行して、回答候補の数を規定値mとする。
初期回答候補AC={秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく}
である場合、最終的にユーザに提示する回答候補を、
提供回答候補AC={秋野不矩(本名ふく)、伊藤正己、田村三郎、阿川弘之}
としてもよいが、単に新たな回答候補を追加して、
提供回答候補AC={秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく、秋野不矩(本名ふく)}
としてユーザに提供としてもよい。
回答出力手段207は、回答候補検査手段206において最終的に決定した回答候補をクライアントに対して出力する。
例えば、質問Q、すなわち、
質問Q:「梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。」
に対する回答として、少なくとも、
回答候補AC={秋野不矩(本名ふく)、伊藤正己、田村三郎、阿川弘之}
を含む回答候補をユーザに提供することが可能となる。
次に、本発明の実施例2として、回答候補検査手段206においてユーザに提供する回答候補リストのランキングを調整し、より適切な回答候補のランキングを容易に設定する処理を行なう構成について説明する。
質問文:「2004年の年末に発生した出来事は何ですか?」
が質問応答システムに入力されると、質問文に含まれる特徴語である「2004年」「年末」「出来事」などに基づく知識源の検索が実行され、抽出されたパッセージ中の文から回答候補が選択される。選択された回答候補は、ユーザに提示するためにリスト化される。このリスト生成においては、例えばパッセージにおける回答候補の出現頻度などに基づくランキングが施される。
質問文Q:「2004年の年末に発生した出来事は何ですか?」
とした場合を想定して説明する。
回答候補集合AC={「紅白歌合戦」「年末ジャンボ宝くじ」、…、「スマトラ島地震」、「スマトラ島沖大地震」、「スマトラ沖の地震」}
を得たとする。
すなわち、ユーザ提示されるランキングリストは、
1.「紅白歌合戦」
2.「年末ジャンボ宝くじ」、
:
7.「スマトラ島地震」、
8.「スマトラ島沖大地震」、
9.「スマトラ沖の地震」
上記のような順番のランキングリストとなる。
クエリーID=1:スマトラ島地震andスマトラ島沖大地震
クエリーID=2:スマトラ島地震andスマトラ沖の地震
クエリーID=3:スマトラ島沖大地震andスマトラ沖の地震
といったクエリーが生成されて、パッセージ検索手段204が、各クエリーに基づくパッセージ検索を実行する。
MR=(重複する形態素総数)/(回答候補の形態素総数)
クエリーID=1:スマトラ島地震andスマトラ島沖大地震
クエリーID=2:スマトラ島地震andスマトラ沖の地震
クエリーID=3:スマトラ島沖大地震andスマトラ沖の地震
について、形態素解析部205の実行する形態素解析の結果について説明する。
a.[スマトラ島地震]
b.[スマトラ島沖大地震]
c.[スマトラ沖の地震]
これら3つの回答候補である。
a.[スマトラ/島/地震]=3つの形態素
b.[スマトラ/島/沖/大/地震]=5つの形態素
c.[スマトラ/沖/の/地震]=4つの形態素
このように、各回答候補の形態素数が求められる。(/)は形態素の区切りを示している。
MR=(重複する形態素総数)/(回答候補の形態素総数)
クエリーID1:MR=(3+3)/(3+5)=6/8=0.75
クエリーID2:MR=(3+2)/(3+4)=5/7=0.71
クエリーID2:MR=(4+3)/(5+4)=7/9=0.78
「スマトラ島地震」:1.23
「スマトラ島沖大地震」:0.98
「スマトラ沖の地震」:0.33
「スマトラ島地震」+「スマトラ島沖大地震」=1.23+0.98=2.21
「スマトラ島地震」+「スマトラ沖の地震」=1.23+0.33=1.56
「スマトラ島沖大地震」+「スマトラ沖の地震」=0.98+0.33=1.31
回答候補集合nAC={「スマトラ島地震」+「スマトラ島沖大地震」、「紅白歌合戦」、「年末ジャンボ宝くじ」、…、「スマトラ島地震」+「スマトラ沖の地震」、「スマトラ島沖大地震」+「スマトラ沖の地震」}
となる。
1.「紅白歌合戦」
2.「年末ジャンボ宝くじ」、
:
7.「スマトラ島地震」、
8.「スマトラ島沖大地震」、
9.「スマトラ沖の地震」
上記のような順番のランキングリストであった。
1.「スマトラ島地震」+「スマトラ島沖大地震」、
2.「紅白歌合戦」、
3.「年末ジャンボ宝くじ」、
:
8.「スマトラ島地震」+「スマトラ沖の地震」、
9.「スマトラ島沖大地震」+「スマトラ沖の地震」
上記のような結果となり、
次に、本発明に係る質問応答システムにおけるその他の実施例について説明する。
(1)パッセージ検索手段の検索対象の変更例
上述した実施例では、図2に示すパッセージ検索手段204の検索対象は、回答候補抽出手段202が知識源を検索対象として回答候補を検索した際に抽出される回答候補を含む文からなる文章群としてのパッセージであった。
上述した実施例では、回答候補検査手段206は、複数の初期回答候補中の回答候補間の関係を検査する上で、所定のルール、すなわち上述したルール1〜4によって構成される[同格・言い換え・並列ルール]を適用して回答候補の連結処理によって、最終的な回答候補を決定する処理を実行していた。
回答候補検査手段206は、生成した結合回答候補(cAC)を、再度、回答候補抽出手段202に入力し、結合回答候補(cAC)に基づく知識源の検索を実行する。ここで、結合回答候補(cAC)と同一の語が知識源に存在することが確認された場合は、この結合回答候補(cAC)を有効な回答候補として、ユーザに提供する回答候補に含め、結合回答候補(cAC)と同一の語が知識源に存在することが確認されなかった場合は、この結合回答候補(cAC)を無効な回答候補として、ユーザに提供する回答候補から削除する。
上述した実施例では、形態素解析手段205は、パッセージ検索によって取得した文の形態素解析を実行して、例えば図6に示す形態素解析結果を生成する処理を実行する構成であり、この形態素解析結果に基づいて、回答候補検査手段206は、ルールとの一致性を判定していた。
質問文Q:梅原猛さんと同時に文化勲章を受賞した4人は誰ですか。
回答候補集合AC:秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく
検索結果文s12:秋野不矩(本名ふく)は、1908(明治41)年、静岡県天竜市に生まれた。
例えば、
検索語:秋野不矩、伊藤正己、田村三郎、阿川弘之、本名ふく
とした場合、
上記s12には、検索語の2つ[秋野不矩]、[本名ふく]を含み、
パターンマッチング結果として、
[秋野不矩(本名ふく)]が抽出される。
1.回答候補間が直結している。
2.回答候補間は「か」「に」「と」「や」「も」「とか」「なり」「の」「ならびに」「または」などを挟んでいる。
3.回答候補間に括弧記号(「」、()など)がある。一方の回答候補は、括弧で囲まれている。
上述した実施例では、回答候補検査手段206は、形態素解析手段205の生成した形態素解析結果に対して、特定のルール、すなわち、同格・言い換え・並列ルールの適用可能性を逐一判定して、回答候補の連結可能性を判定する処理を実行していた。
素性抽出手段401は、形態素解析手段205が保持するパッセージ中のクエリー(回答候補)を含む文の回答候補の品詞情報や回答候補間の文節間の距離、回答候補間の品詞の羅列などを素性にする。
ステップ2.
評価手段402は、クエリー生成手段203で生成されたクエリーである回答候補どうしが、回答候補間を結合できる関係であるかどうかを素性とSVMを使用して判定する。結果により正例と判定された回答候補は結合される。結合する場合、回答候補間にある単語も一緒に提示する。例.「アジア」と「大砲」の間に、「の」がある場合、「アジアの大砲」とする。
正誤判定手段403は、回答候補集合のすべての回答候補に対して、ユーザが正解であるかいなかのチェックをする。回答候補集合は、回答候補ごとに根拠文(回答候補を含むパッセージ中の文)を一緒に提示する。根拠文は、その他のデータとして文IDと形態素解析結果も併せて持つ。
ステップ4.
素性抽出手段401は、回答候補の根拠文の形態素解析結果から素性を抽出する。学習データに必要な正例または負例の情報はユーザが付与した正誤判定の結果である。
ステップ5.
素性抽出手段401の抽出した素性を学習DB404に蓄積する。
ステップ6.
これまで学習DB404に蓄積された素性と本処理ステップで作成された追加の素性を併せて、学習モデルを再構成する。
ステップ7.
学習DB404に新しい学習モデルを蓄積する。蓄積された学習モデルは、次の評価に用いられる。
101 クライアント
102 Webページ提供サーバ
103 データベース
200 質問応答システム
201 質問入力手段
202 回答候補抽出手段
203 クエリー生成手段
204 パッセージ検索手段
205 形態素解析手段
206 回答候補検査手段
207 回答出力手段
301 質問解析部
302 情報検索部
303 回答抽出部
321 知識源
400 回答候補検査手段
401 素性抽出手段
402 評価手段
403 正誤判定手段
404 学習データベース
405 学習手段
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
Claims (9)
- 入力質問に基づく所定の知識源に対する検索処理により複数の初期回答候補を抽出する回答候補抽出手段と、
前記複数の初期回答候補から選んだ異なる初期回答候補からなる組み合わせについて当該組み合わせの要素をなす前記初期回答候補をともに検索語として含むクエリーを生成するクエリー生成手段と、
前記クエリーに基づく前記所定の知識源と異なる知識源に対する検索処理によりクエリーに対応するヒット文を抽出するパッセージ検索手段と、
前記ヒット文の解析により、前記複数の初期回答候補の回答候補間で同格、または言い換え、または並列に扱える関係があるかどうか検査し、同格、または言い換え、または並列に扱える関係の回答候補についての連結処理による新たな回答候補の生成し、またはリランキングの少なくともいずれかの処理を実行し、これにより前記入力質問に対する提供回答候補の生成を実行する回答候補検査手段と、
前記回答候補検査手段の生成した提供回答候補を出力する回答出力手段と、
を有し、前記所定の知識源と異なる知識源は、前記初期回答候補に基づいて判定された検索対象カテゴリにより複数の知識源から絞り込まれたものであることを特徴とする質問応答システム。 - 前記回答出力手段から出力される提供回答候補の数が予め定められた個数となるまで、前記クエリー生成手段が、前記回答出力手段から出力された提供回答候補を前記初期回答候補として前記クエリーを生成し、前記パッセージ検索手段が、当該クエリーに基づく前記所定の知識源と異なる知識源に対する検索処理によりクエリーに対応するヒット文を抽出し、前記回答候補検査手段が、当該ヒット文の解析により、前記複数の初期回答候補の回答候補間で同格、または言い換え、または並列に扱える関係があるかどうか検査し、同格、または言い換え、または並列に扱える関係の回答候補についての連結処理による新たな回答候補の生成し、またはリランキングの少なくともいずれかの処理を実行し、これにより前記入力質問に対する提供回答候補の生成を実行する処理を繰り返すことを特徴とする請求項1記載の質問応答システム。
- 前記質問応答システムは、さらに、
前記パッセージ検索手段が抽出したヒット文の形態素解析処理を実行する形態素解析手段を有し、
前記回答候補検査手段は、
前記形態素解析手段の解析結果に基づいて、前記ヒット文に含まれる前記複数の初期回答候補を含む領域が、予め設定されたルールに対応するか否かを判定し、ルールに適合する場合に、前記複数の初期回答候補を連結して提供回答候補を生成する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記回答候補検査手段は、
前記パッセージ検索手段が抽出したヒット文に対して、
前記初期回答候補に基づくパターンマッチングを実行し、前記ヒット文に含まれる前記複数の初期回答候補を含む領域を検出し、該検出領域が、予め設定されたルールに対応するか否かを判定し、ルールに適合する場合に、前記複数の初期回答候補を連結して提供回答候補を生成する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記パッセージ検索手段は、
前記回答候補抽出手段が実行した入力質問に基づく検索処理において、初期回答候補を含む文として抽出した文を含むパッセージの集合を検索対象とした検索処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記回答候補検査手段は、
前記複数の初期回答候補中に同義の回答候補が含まれるか否かを検査し、該検査に基づいて同義とされる複数の前記回答候補を一群とし、該一群とされた複数の回答候補と他の回答候補との比較結果に基づいて前記提供回答候補を生成することを特徴とする請求項1記載の質問応答システム。 - 前記質問応答システムにおいて、さらに、
前記クエリー生成手段が生成したクエリーの構成要素である初期回答候補の形態素解析を実行する形態素解析手段を有し、
前記回答候補検査手段は、
前記形態素解析手段の解析結果に基づいて、各クエリーの形態素重複率[MR]を算出し、該算出値に応じて、各回答候補のスコアを設定して、前記入力質問に対する提供回答候補として出力する回答候補ランキングを決定する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - 前記回答候補検査手段は、
機械学習法を適用した構成を有し、前記提供回答候補の抽出ルールを機械学習法に基づき更新する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。 - コンピュータを、
入力質問に基づく所定の知識源に対する検索処理により複数の初期回答候補を抽出する回答候補抽出手段、
前記複数の初期回答候補から選んだ異なる初期回答候補からなる組み合わせについて当該組み合わせの要素をなす前記初期回答候補をともに検索語として含むクエリーを生成するクエリー生成手段、
前記クエリーに基づく前記所定の知識源と異なる知識源に対する検索処理によりクエリーに対応するヒット文を抽出するパッセージ検索手段、
前記ヒット文の解析により、前記複数の初期回答候補の回答候補間で同格、または言い換え、または並列に扱える関係があるかどうか検査し、同格、または言い換え、または並列に扱える関係の回答候補についての連結処理による新たな回答候補の生成し、またはリランキングの少なくともいずれかの処理を実行し、これにより前記入力質問に対する提供回答候補の生成を実行する回答候補検査手段、
前記回答候補検査手段の生成した提供回答候補を出力する回答出力手段、
して機能させるためのコンピュータ・プログラムであり、
前記所定の知識源と異なる知識源は、前記初期回答候補に基づいて判定された検索対象カテゴリにより複数の知識源から絞り込まれたものであることを特徴とするコンピュータ・プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005114211A JP4650072B2 (ja) | 2005-04-12 | 2005-04-12 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US11/312,930 US20070022099A1 (en) | 2005-04-12 | 2005-12-21 | Question answering system, data search method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005114211A JP4650072B2 (ja) | 2005-04-12 | 2005-04-12 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006293731A JP2006293731A (ja) | 2006-10-26 |
JP4650072B2 true JP4650072B2 (ja) | 2011-03-16 |
Family
ID=37414242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005114211A Expired - Fee Related JP4650072B2 (ja) | 2005-04-12 | 2005-04-12 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070022099A1 (ja) |
JP (1) | JP4650072B2 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8943018B2 (en) | 2007-03-23 | 2015-01-27 | At&T Mobility Ii Llc | Advanced contact management in communications networks |
US9063975B2 (en) * | 2013-03-15 | 2015-06-23 | International Business Machines Corporation | Results of question and answer systems |
US20090119090A1 (en) * | 2007-11-01 | 2009-05-07 | Microsoft Corporation | Principled Approach to Paraphrasing |
US8332394B2 (en) | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
US8112269B2 (en) * | 2008-08-25 | 2012-02-07 | Microsoft Corporation | Determining utility of a question |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US8943051B2 (en) | 2010-09-24 | 2015-01-27 | International Business Machines Corporation | Lexical answer type confidence estimation and application |
EP2616926A4 (en) | 2010-09-24 | 2015-09-23 | Ibm | PROVISION OF QUESTIONS AND ANSWERS WITH DELAYED ASSESSMENT ON THE BASIS OF TEXT WITH LIMITED STRUCTURE |
US20120078062A1 (en) | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system |
JP5816936B2 (ja) * | 2010-09-24 | 2015-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム |
US8892550B2 (en) | 2010-09-24 | 2014-11-18 | International Business Machines Corporation | Source expansion for information retrieval and information extraction |
US9569724B2 (en) | 2010-09-24 | 2017-02-14 | International Business Machines Corporation | Using ontological information in open domain type coercion |
EP2622510A4 (en) | 2010-09-28 | 2017-04-05 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
EP2622428A4 (en) | 2010-09-28 | 2017-01-04 | International Business Machines Corporation | Providing answers to questions using hypothesis pruning |
US8738617B2 (en) | 2010-09-28 | 2014-05-27 | International Business Machines Corporation | Providing answers to questions using multiple models to score candidate answers |
US9600587B2 (en) | 2011-10-19 | 2017-03-21 | Zalag Corporation | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results |
US9208218B2 (en) * | 2011-10-19 | 2015-12-08 | Zalag Corporation | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results |
US9188081B2 (en) * | 2012-04-10 | 2015-11-17 | Honeywell International Inc. | Thrust reverser actuator with primary lock |
US10614725B2 (en) | 2012-09-11 | 2020-04-07 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
US9280908B2 (en) | 2013-03-15 | 2016-03-08 | International Business Machines Corporation | Results of question and answer systems |
US9244952B2 (en) | 2013-03-17 | 2016-01-26 | Alation, Inc. | Editable and searchable markup pages automatically populated through user query monitoring |
JP6152711B2 (ja) * | 2013-06-04 | 2017-06-28 | 富士通株式会社 | 情報検索装置および情報検索方法 |
US9495457B2 (en) | 2013-12-26 | 2016-11-15 | Iac Search & Media, Inc. | Batch crawl and fast crawl clusters for question and answer search engine |
US20150186528A1 (en) * | 2013-12-26 | 2015-07-02 | Iac Search & Media, Inc. | Request type detection for answer mode selection in an online system of a question and answer search engine |
CN103914548B (zh) * | 2014-04-10 | 2018-01-09 | 北京百度网讯科技有限公司 | 信息搜索方法和装置 |
US20150340026A1 (en) * | 2014-05-22 | 2015-11-26 | Palo Alto Research Center Incorporated | Extracting candidate answers for a knowledge base from conversational sources |
CN103995880B (zh) * | 2014-05-27 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 交互式搜索方法和装置 |
JP6414956B2 (ja) * | 2014-08-21 | 2018-10-31 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
US11017312B2 (en) * | 2014-12-17 | 2021-05-25 | International Business Machines Corporation | Expanding training questions through contextualizing feature search |
US9684714B2 (en) | 2014-12-22 | 2017-06-20 | International Business Machines Corporation | Using paraphrase metrics for answering questions |
WO2016151690A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 文書検索装置、方法及びプログラム |
US10795921B2 (en) | 2015-03-27 | 2020-10-06 | International Business Machines Corporation | Determining answers to questions using a hierarchy of question and answer pairs |
US20180018616A1 (en) * | 2016-07-18 | 2018-01-18 | Avaya Inc. | Systems and methods for lifecycle management of limited duration knowledge in automated interaction systems |
WO2018097091A1 (ja) * | 2016-11-25 | 2018-05-31 | 日本電信電話株式会社 | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム |
CN106710596B (zh) * | 2016-12-15 | 2020-07-07 | 腾讯科技(上海)有限公司 | 回答语句确定方法及装置 |
JP6739361B2 (ja) * | 2017-01-18 | 2020-08-12 | ヤフー株式会社 | 情報提供装置、情報提供方法、およびプログラム |
JP6769405B2 (ja) * | 2017-07-11 | 2020-10-14 | トヨタ自動車株式会社 | 対話システムおよび対話方法 |
US11347942B2 (en) * | 2017-11-07 | 2022-05-31 | Nec Corporation | Information processing apparatus, information processing method, and storage medium |
US11055329B2 (en) * | 2018-05-31 | 2021-07-06 | Microsoft Technology Licensing, Llc | Query and information meter for query session |
JP7172226B2 (ja) * | 2018-07-20 | 2022-11-16 | 株式会社リコー | 検索装置、検索方法及び検索プログラム |
JP7474459B2 (ja) * | 2019-04-16 | 2024-04-25 | 株式会社ユニバーサルエンターテインメント | 情報提供システム、及び、情報提供方法 |
US11841867B2 (en) | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN110516059B (zh) * | 2019-08-30 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
CN111047436B (zh) * | 2019-12-25 | 2023-08-11 | 出门问问信息科技有限公司 | 一种信息判定方法及装置 |
CN113407813B (zh) * | 2021-06-28 | 2024-01-26 | 北京百度网讯科技有限公司 | 确定候选信息的方法、确定查询结果的方法、装置、设备 |
WO2024124224A1 (en) * | 2022-12-08 | 2024-06-13 | Secureframe, Inc. | Systems and methods implementing a parallel search architecture for machine learning-based acceleration of data security, data security architectures, and data security compliance activities |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004192338A (ja) * | 2002-12-11 | 2004-07-08 | Oki Electric Ind Co Ltd | 質問応答装置、質問応答プログラムおよび該プログラムを記録した記録媒体 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04123264A (ja) * | 1990-09-14 | 1992-04-23 | Hitachi Ltd | 関連語テーブル作成装置及び文書検索装置 |
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
US6070133A (en) * | 1997-07-21 | 2000-05-30 | Battelle Memorial Institute | Information retrieval system utilizing wavelet transform |
JP3853974B2 (ja) * | 1998-05-18 | 2006-12-06 | 株式会社リコー | 同義語対抽出装置および記憶媒体 |
US6411962B1 (en) * | 1999-11-29 | 2002-06-25 | Xerox Corporation | Systems and methods for organizing text |
WO2001057711A1 (en) * | 2000-02-02 | 2001-08-09 | Searchlogic.Com Corporation | Combinatorial query generating system and method |
US7269545B2 (en) * | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US7051014B2 (en) * | 2003-06-18 | 2006-05-23 | Microsoft Corporation | Utilizing information redundancy to improve text searches |
-
2005
- 2005-04-12 JP JP2005114211A patent/JP4650072B2/ja not_active Expired - Fee Related
- 2005-12-21 US US11/312,930 patent/US20070022099A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004192338A (ja) * | 2002-12-11 | 2004-07-08 | Oki Electric Ind Co Ltd | 質問応答装置、質問応答プログラムおよび該プログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20070022099A1 (en) | 2007-01-25 |
JP2006293731A (ja) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4650072B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP4654745B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
JP4654776B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US9910848B2 (en) | Generating semantic variants of natural language expressions using type-specific templates | |
CN103229162B (zh) | 使用候选答案逻辑综合提供问题答案 | |
US7526474B2 (en) | Question answering system, data search method, and computer program | |
JP5816936B2 (ja) | 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム | |
US9710547B2 (en) | Natural language semantic search system and method using weighted global semantic representations | |
US9928235B2 (en) | Type-specific rule-based generation of semantic variants of natural language expression | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
RU2488877C2 (ru) | Идентификация семантических взаимоотношений в косвенной речи | |
US20160189029A1 (en) | Displaying Quality of Question Being Asked a Question Answering System | |
JP2012520527A (ja) | ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 | |
KR20050032937A (ko) | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 | |
JP2007141090A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
Hu et al. | Large-scale location prediction for web pages | |
KR20030006201A (ko) | 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템 | |
CN115221280A (zh) | 一种基于航天质量知识库的知识检索方法、系统及设备 | |
Xiong et al. | Inferring service recommendation from natural language api descriptions | |
Fabo | Concept-based and relation-based corpus navigation: applications of natural language processing in digital humanities | |
JP7312841B2 (ja) | 法律分析装置、及び法律分析方法 | |
Abd Rahim et al. | A Summarisation Tool for Hotel Reviews | |
Johnson | Enhancing Fault Localization in Software Maintenance Using Natural Language Processing Techniques | |
Fan et al. | Mining Knowledge from Large Corpora for Type Coercion in Question Answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4650072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131224 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |