JP4153843B2 - 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体 - Google Patents

自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体 Download PDF

Info

Publication number
JP4153843B2
JP4153843B2 JP2003285974A JP2003285974A JP4153843B2 JP 4153843 B2 JP4153843 B2 JP 4153843B2 JP 2003285974 A JP2003285974 A JP 2003285974A JP 2003285974 A JP2003285974 A JP 2003285974A JP 4153843 B2 JP4153843 B2 JP 4153843B2
Authority
JP
Japan
Prior art keywords
document
search
keyword
keywords
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003285974A
Other languages
English (en)
Other versions
JP2005056125A (ja
Inventor
成宏 池田
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003285974A priority Critical patent/JP4153843B2/ja
Publication of JP2005056125A publication Critical patent/JP2005056125A/ja
Application granted granted Critical
Publication of JP4153843B2 publication Critical patent/JP4153843B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索要求として入力される自然言語による質問文からキーワードを抽出し、キーワード入力による文書検索装置を利用して、ユーザの所望の文書を検索する自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体に関する。
従来の文書検索装置は基本的にキーワード入力による検索装置であり、ユーザが1つもしくは複数のキーワードを入力すると、それに適合する文書集合を検索結果として出力する。例えば、インターネットでよく用いられる検索エンジンのgoo(http://www.goo.ne.jp)やGoogle(http://www.google.com)などでは、キーワード検索が行われている。
しかしながら、キーワード入力による文書検索装置では、例えば「歴史上、一番背が高いアメリカの大統領は誰か」を調べる場合、この質問文からユーザが文書検索装置に入力すべきキーワード集合を作成するのは必ずしも容易ではない。
そのため、キーワード集合ではなく、自然言語による質問文で情報検索要求を情報検索装置に入力する方法が研究されている。このような検索方法は自然文検索と呼ばれている。この自然文検索方法による装置については、例えば、特許文献1に記載されている。
この特許文献1に記載の自然文検索装置では、入力された自然言語による質問文の中から名詞などをキーワードとして抽出し、キーワードによる文書検索装置により該当する文書群を検索する。そして、検索結果とともに返される検索キーワード周辺のテキスト(KWIC)中に含まれるキーワードの個数などに基づいて、質問文と検索された各文書との適合度を計算し、適合度に基づいて検索結果のランキングを行い、回答が含まれる文書が検索結果の上位にくるようにしている。
特願2003−155561号公報「自然文検索装置、その方法およびプログラム」
ところで、特許文献1に記載される従来の自然文検索装置では、ユーザからの検索要求の自然文が長くなると、文書検索装置への検索キーワードの個数が多くなる。一般に、キーワード入力による文書検索装置では、入力されたキーワードが全て含まれる文書を検索するため、検索キーワードの個数が多くなると、全てのキーワードを含む文書は非常に少なくなり、最悪の場合には1件も検索結果が得られなくなってしまう。
本発明は上記の問題に鑑みてなされたもので、検索要求として入力される自然言語による質問文から抽出されるキーワードの個数にかかわらず、適切な文書検索が可能な自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体を提供することを目的とする。
上記の目的を達成するため、本発明に係る自然文検索装置は、以下の構成を採用したことを特徴とする。
(1)自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置であって、前記質問文からキーワードを抽出するキーワード抽出部と、前記キーワードの重要度を計算する重要度計算部と、前記重要度が高い上位n(nは任意の自然数)語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成部と、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索インターフェース部と、前記取得された文書集合を適合度順に表示する検索結果表示部とを具備することを特徴とする。
(2)(1)の装置において、さらに、前記文書検索装置の検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキング部を備え、前記検索結果表示部は、再ランキングされた順序で前記文書集合を表示することを特徴とする。
(3)(1)の装置において、前記重要度計算部は、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
(4)(1)の装置において、前記検索条件生成部は、重要度が高い上位n(nは任意の自然数)語のキーワードをAND条件に指定して検索される文書集合を限定し、その他のキーワードをOR条件に指定してOR条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。
また、本発明に係る自然文検索方法は、以下の構成を採用したことを特徴とする。
(5)自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索方法であって、前記質問文からキーワードを抽出するキーワード抽出ステップと、前記キーワードの重要度を計算する重要度計算ステップと、前記重要度が高い上位n(nは任意の自然数)語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成ステップと、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索ステップと、前記取得された文書集合を適合度順に表示する検索結果表示ステップとを具備することを特徴とする。
(6)(5)の方法において、さらに、前記文書検索ステップの検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキングステップを備え、前記検索結果表示ステップは、再ランキングされた順序で前記文書集合を表示することを特徴とする。
(7)(5)の方法において、前記重要度計算ステップは、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
(8)(5)の方法において、前記検索条件生成ステップは、重要度が高い上位n(nは任意の自然数)語のキーワードをAND条件に指定して検索される文書集合を限定し、その他のキーワードをOR条件に指定してOR条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。
また、本発明に係る自然文検索プログラムは、以下の構成を採用したことを特徴とする。
(9)コンピュータを、自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置として機能させるための自然文検索プログラムであって、前記質問文からキーワードを抽出するキーワード抽出ステップと、前記キーワードの重要度を計算する重要度計算ステップと、前記重要度が高い上位n(nは任意の自然数)語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成ステップと、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索ステップと、前記取得された文書集合を適合度順に表示する検索結果表示ステップとを具備することを特徴とする。
(10)(9)のプログラムにおいて、さらに、前記文書検索ステップの検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキングステップを備え、前記検索結果表示ステップは、再ランキングされた順序で前記文書集合を表示することを特徴とする。
(11)(9)のプログラムにおいて、前記重要度計算ステップは、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
(12)(9)のプログラムにおいて、前記検索条件生成ステップは、重要度が高い上位n(nは任意の自然数)語のキーワードをAND条件に指定して検索される文書集合を限定し、その他のキーワードをOR条件に指定してOR条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。
また、本発明に係る自然文検索プログラム記憶媒体は、以下の構成を採用したことを特徴とする。
(13)コンピュータを、自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置として機能させるためのプログラムを記憶した、コンピュータで読み取り可能な自然文検索プログラム記憶媒体であって、前記質問文からキーワードを抽出するキーワード抽出ステップと、前記キーワードの重要度を計算する重要度計算ステップと、前記重要度が高い上位n(nは任意の自然数)語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成ステップと、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索ステップと、前記取得された文書集合を適合度順に表示する検索結果表示ステップとを具備するプログラムを記憶したことを特徴とする。
(14)(13)の記憶媒体において、前記プログラムは、さらに、前記文書検索ステップの検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキングステップを備え、前記検索結果表示ステップは、再ランキングされた順序で前記文書集合を表示することを特徴とする。
(15)(13)の記憶媒体において、前記プログラムの重要度計算ステップは、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
(16)(13)の記憶媒体において、前記プログラムの検索条件生成ステップは、重要度が高い上位n(nは任意の自然数)語のキーワードをAND条件に指定して検索される文書集合を限定し、その他のキーワードをOR条件に指定してOR条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。
すなわち、上記構成による自然文検索装置、方法、プログラム、プログラム記憶媒体では、ユーザにより入力された自然言語による質問文からキーワードを抽出し、キーワードの重要度を計算して上位n語をキーワード検索の必須条件(AND条件)に指定し、他のキーワードは優先条件(OR条件)に含めるため、ユーザが長い質問文を入力した場合でも、重要なキーワードを含み、さらに他のキーワードをも多く含むような文書が検索されてランク付けされるため、質問文の回答を含む文書が検索結果に含まれる可能性が高まる。
さらに、検索結果とともに返される文書の断片(キーワード付近のテキストをつなげたもの:KWIC)と質問文との適合度を計算し、その適合度順に検索結果の再ランキングを行うことによって、質問文の回答を含む文書が上位に検索されるようになる。
以上のように本発明によれば、検索要求として入力される自然言語による質問文からキーワードを抽出してその重要度を計算し、重要度の上位n語のキーワードを全て含み、その他のキーワードについては含まれなくてもよいが、含まれている文書の方が文書検索で上位にランクされるように文書検索条件を生成するようにしているので、入力される質問文が長い場合でも、適切な文書検索が可能となる。このため、インターネット検索エンジンなどの文書検索装置に対して長い質問文を入力した場合でも、適切な検索を行うことができる。
さらに、検索結果の文書の断片的な情報を用いて、検索要求に合致した文書が上位にランクされるように検索結果の再ランキングを行うようにしているので、ユーザは容易に検索要求を満たす文書を見つけ出すことが可能となる。
以下、図面を用いて本発明を実施するための最良の形態を説明する。
図1は本発明に係る自然文検索装置の一実施形態を示すブロック構成図である。図1において、入力部1は、ユーザの操作によって行われる、自然言語による質問文の検索要求、文書再ランキング要求を受け付ける。この入力部1で受けた質問文の検索要求は制御部2に与えられる。
上記制御部2は、入力部1で受けた検索要求に応じて、以下に説明するキーワード抽出部3、重要度計算部4、検索条件生成部5、文書検索インターフェース(I/F)部6、文書再ランキング部8、表示部9を総括的に制御する。
上記キーワード抽出部3は、質問文中の主要な語句をキーワードとして抽出する。上記重要度計算部4は、キーワード抽出部3で抽出された各キーワードの重要度を計算する。上記検索条件生成部5は、重要度計算部4で計算されたキーワードの重要度に応じて検索条件を生成する。
上記文書検索インターフェース部5は、キーワード検索が可能な文書検索装置7に接続され、検索条件となるキーワードを適宜文書検索装置7に送り、当該装置7の文書データベース(DB)から適合する文書を検索させ、その検索結果と共に対応する文書を取得する。上記文書再ランキング部8は、入力部1から文書再ランキング要求があった場合に、検索結果の文書の断片的な情報を用いて、検索要求に合致した文書が上位にランクされるように検索結果の再ランキングを行う。上記表示部9は、主に検索結果の文書情報を表示する。
上記構成による自然文検索装置は次のように動作する。
使用者が入力部1に自然文の検索要求(質問文)を入力すると、質問文は制御部2を経てキーワード抽出部3に渡される。
図2は、上記キーワード抽出部3において、質問文からキーワードを抽出するための処理手順を示すフローチャートである。図2において、まず、ステップS11では、質問文に対して形態素解析が行われ、質問文は単語毎に分割されるとともに各語に品詞が付与される。この形態素解析には、
齊藤邦子、永田昌明、「HMMに基づく多言語固有表現抽出システムの開発」言語処理学会、第9回年次大会発表論文集,pp.5−8,2002
に記載される手法を用いることができる。
次に、ステップS12で、質問文の各単語について、名詞、動詞、形容詞、名詞接尾辞のいずれかに属するか調べられる。これら以外の語の場合には、次の語を処理対象として、ステップS12以降の処理が行われる。
ステップS12で条件を満たす場合には、次のステップS13で、その単語が既定のストップワード(検索に使用しない語)のリストに登録されているか調べられる。ストップワードの場合には、次の単語を処理対象とし、ステップS12以降の処理が行われる。ストップワードでない場合には、次のステップS14で、その単語がキーワード集合に登録される。以上の処理が質問文中の全単語について行われ、キーワードが抽出される。
キーワード集合はキーワード抽出部3から制御部2を経て重要度計算部4へ送られ、各キーワードの重要度が計算される。ある文書集合において、キーワードKを含む文書数をdf、全文書数をNとするとき、キーワードの重要度sは次のように計算される。
s=log((N+1)/(df+1))/log(N+1) …(1)
この計算に用いられる文書集合は、検索対象の文書が格納されている文書検索装置7の文書DBを用いることが望ましいが、文書DBを直接利用することができない場合には、他の文書集合を用いても構わない。
続いて、キーワードとその重要度の対は制御部2を経て検索条件生成部5へ送られ、検索条件が作成される。
ここで、キーワード検索による文書検索装置7は、指定されたキーワードを全て含むことを条件とするAND条件と、指定のキーワードのいずれかを含むことを条件とするOR条件を組み合わせて検索条件を指定できるものを使用する。この場合、文書検索装置7では、キーワードを含む文書集合を検索結果として返すだけではなく、キーワードをより多く含む文書が上位に検索されるように工夫が施されているものとする。
このような文書検索装置7に対し、検索条件生成部5では、重要度が高いキーワードをAND条件に指定して検索される文書集合を限定し、その他のキーワードをOR条件に指定してOR条件中のキーワードを多く含む文書が上位に検索されるようにする。ここでは、AND条件中のキーワードはその全てを含む文書を検索することから、AND条件を必須条件と呼び、OR条件中のキーワードはキーワードが含まれる文書を優先的に上位に検索する役割を果たすことから、OR条件のことを優先条件と呼ぶことにする。
図3は、上記検索条件生成部5における詳細な処理手順を示すフローチャートである。図3において、まず、ステップS21で検索キーワードが重要度の降順でソートされ、ステップS22で各変数K,AL,iの初期化が行われる。Kはキーワード数、ALは検索条件の文字列長、iはカウンタである。
次に、ステップS23で、i≦M(M:AND条件に含めるキーワード数)の場合にはステップS24に進み、それ以外の場合には必須条件へのキーワード追加処理を終了し、ステップS29に進む。続いて、ステップS24でi番目のキーワードの文字列長をKLとし、ステップS25で検索条件にi番目のキーワードを追加できるか調べ(MAXは検索条件の最大文字列長)、追加できる場合にはステップS26に進み、そうでなければステップS28に進む。
次に、ステップS26では検索条件にi番目のキーワードを追加して、ステップS27で検索条件の文字列長ALを更新する。そして、ステップS28でカウンタiを進め、ステップS23へ戻る。
ステップS23で繰り返し条件を満たさなくなった場合には、ステップS29へ進む。ステップS29でi≦K(K:キーワード数)の場合にはステップS30へ進み、そうでなければ検索条件生成処理を終了する。
ステップS30ではKLをi番目のキーワードの文字列長とし、ステップS31で検索条件にi番目のキーワードを追加できるか調べる。追加できない場合は、ステップS34に進み、追加可能な場合には、ステップS32でi番目のキーワードを追加し、ステップS33で検索条件の文字列長を更新する。そして、ステップS34ではカウンタiを進め、ステップS29に戻る。以下、ステップS29以降の処理が繰り返し行われる。
上記のようにして作成された検索条件は、制御部2、文書検索インターフェース部6を経て文書検索装置7へ送られる。この文書検索装置7は検索条件を受信すると、文書DB中の文書のうち検索条件を満たす文書の情報(文書の識別IDやKWICなど)を検索条件との適合度順(ランク付け)に制御部2に返す。
次に、入力部1において文書再ランキングの実行が要求されている場合には、制御部2は検索結果を文書再ランキング部8へ渡し、検索された各文書のKWICを基に各文書の検索要求に対する適合度(スコア)を計算し、文書の再ランキングを行う。
文書再ランキング部8では、まず質問文の質問タイプの判定が行われる。この質問タイプは、その質問文が何を問う質問かを分類したもので、例えば「日付」、「人名」、「場所名」などがある。質問タイプの判定には、単語の意味を分類した意味カテゴリとサポートベクトルマシンを用いた以下の文献に記載される方法を用いる。
鈴木潤、佐々木裕、前田栄作、「統計的機械学習による質問タイプ同定」、情報科学技術フォーラム(FIT2002)、情報技術レターズ、pp.89−90(2002)
この方法では、意味カテゴリ数と同次元の特徴ベクトルを作成して、ある意味カテゴリに属する単語が質問文中に出現すると、そのカテゴリ及びその上位の全カテゴリに対応する特徴ベクトルの成分を1とする。そして、予め作成されたモデルを用いてサポートベクトルマシンで質問タイプ判定を行う。
尚、意味カテゴリには、以下の文献にある日本語語彙体系を用いる。日本語語彙体系は名詞を12段、2715カテゴリに分類し、1単語につき最大5個のカテゴリが割り当てられている。
NTTコミュニケーション科学研究所監修「日本語語彙体系」、岩波書店、1997
また、サポートベクトルマシンについては、以下の文献に詳しい解説がある。
Vladimir N. Vapnik, "The Nature of Statistical Learning Theory", Springer, 1995.
次に、再ランキングのキーとなる文書について、スコアの計算が行われる。文書dのスコアSd は単語や固有表現の出現頻度を考慮して以下のように計算する。
d =wu Σi ufi +wb Σj bfj +wt Σk tfk +wa Σl afl …(2)
ここで、wu 、wb 、wt 、wa は定数であり、ufi 、bfj 、tfk はそれぞれKWICに出現する質問文中のキーワードのユニグラム、キーワードから始まるバイグラム、トライグラムの出現頻度で、afl は質問タイプと同じ固有表現の出現頻度である。尚、固有表現とは一語または複数の語からなる固有名称のことで、固有表現抽出には前述の形態素解析の文献の方法を用いることができる。
検索結果の文書は式(2)のスコアの降順にソートされ、制御部2を経て表示部9に送られて、文書情報が使用者に提示される。
したがって、上記構成による自然文検索装置では、質問文からキーワードを抽出してその重要度を計算し、重要度の高い上位のキーワードを必須(AND)条件、その他のキーワードを優先(OR)条件とし、優先条件のキーワードが含まれている文書の方が文書検索で上位にランクされるように文書検索条件を生成するようにしているので、入力される質問文が長い場合でも、文書検索装置から質問文に対する回答文を比較的高い精度で検索することが可能となる。
さらに、検索結果の文書の断片的な情報を用いて、検索要求に合致した文書が上位にランクされるように検索結果の再ランキングを行うようにしているので、ユーザは容易に検索要求を満たす文書を見つけ出すことが可能となる。
以下、図4乃至図8を参照して、本発明の実施例を説明する。
ここでは、
「いかだでアマゾン川を下っていた日本人を殺害したのはどこの国の兵士ですか」
という質問文が入力された場合の実施例を示す。尚、文書検索装置7にはインターネットの検索エンジンを用いる。
入力部1に入力された質問文は制御部2を経てキーワード抽出部3へ送られ、図2に示した処理手順によってキーワードが抽出される。まず、入力された質問文は、形態素解析によって図4に示すように単語分割される。次に、全単語の中から、名詞、形容詞、動詞であり、かつストップワードリストにない単語がキーワード集合に登録される。ここでは、ストップワードリストに「誰」、「何」、「どれ」、「どこ」などの疑問詞や、代名詞、語幹が一文字の動詞などが登録されているものとする。したがって、キーワード抽出部3で得られるキーワード集合は「いかだ」、「アマゾン」、「川」、「日本」、「人」、「殺害」、「国」、「兵士」となる。
次に、重要度計算部4で各キーワードの重要度の計算が行われる。式(1)に用いられている単語の文書頻度の計算にインターネット検索エンジンの文書DBを利用することはできないので、新聞記事など他の文書で代用する。ここでは新聞記事を用いて、単語の文書頻度を計算し、図5に示すような重要度が得られたものとする。
続いて、検索条件生成部5でインターネット検索エンジンへの検索条件が生成される。ここでは、必須条件にはキーワードを4個指定し、その他のキーワードは優先条件に指定する。検索条件の文字列長の上限が十分大きい場合、必須条件、優先条件はそれぞれ次のようになる。
必須条件:[いかだ アマゾン 川 兵士]
優先条件:[殺害 国 人 兵士]
そして、インターネット検索エンジンのGoogleを用いて上記の検索条件で検索を行うと、全部で43の文書が検索され、検索結果の上位のKWICは図6に示すようになる。すなわち、文書2のKWICにはこの質問の回答「ペルー」が含まれており、文書2の本文を見なくてもKWICのみで質問の回答が得られる。
一方、本発明を用いずに、キーワードを全て列挙したAND条件、
[いかだ アマゾン 川 日本 人 殺害 国 兵士]
で検索を行うと、図7に示すようにわずか2件しか該当する文書が得られない。しかも、これらの文書の本文を見ても質問文の回答は得られない。
さらに、文書の再ランキング要求が指示されている場合、文書再ランキング部8では、キーワード抽出部3において抽出されたキーワードの各文書のKWICにおける出現頻度や固有表現の個数などを用いて、式(2)によってスコアを計算する。各文書のスコアの計算例を図8に示す。再ランキング後には、スコアが最も高い文書2が検索結果の最上位に表示される。文書2は、質問文「いかだでアマゾン川を下っていた日本人を殺害したのはどこの国の兵士ですか」の回答である「ペルー」を含んでおり、質問文の回答を含む文書がより上位になるように再ランキングされる。
本発明の一実施形態である自然文検索装置の構成を示すブロック図である。 上記実施形態のキーワード抽出部における処理手順を示すフローチャートである。 上記実施形態の検索要求文生成部における処理手順を示すフローチャートである。 上記実施形態の自然検索装置の実施例として、キーワード抽出部の形態素解析結果を示す図である。 上記実施例において、重要度計算部のキーワード重要度計算結果を示す図である。 上記実施例において、文書検索部の文書検索結果を示す図である。 上記実施例との比較のために、本発明を用いない場合の検索結果を示す図である。 上記実施例において、文書再ランキング部の各文書のスコア計算結果を示す図である。
符号の説明
1…入力部
2…制御部
3…キーワード抽出部
4…重要度計算部
5…検索条件生成部
6…文書検索インターフェース(I/F)部
7…文書検索装置
8…文書再ランキング部
9…表示部

Claims (8)

  1. 自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置であって、
    前記質問文からキーワードを抽出するキーワード抽出部と、
    前記キーワードの重要度を計算する重要度計算部と、
    前記キーワード抽出部により抽出されたK個のキーワードのうち重要度が高い上位n(n<K、かつ、nは1以上の自然数)語のキーワードを必ず含み、前記キーワード抽出部により抽出されたキーワードの上位n語以外のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成部と、
    前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合と前記文書集合の各文書に対してキーワード付近のテキストをつなげたキーワード周囲テキストを検索結果として取得する文書検索インターフェース部と、
    前記検索結果に含まれる各文書の前記キーワード周囲テキストと入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキング部と
    を具備することを特徴とする自然文検索装置。
  2. 前記重要度計算部は、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする請求項1記載の自然文検索装置。
  3. 前記文書再ランキング部は、適合度を
    d =w u Σ i uf i +w b Σ j bf j +w t Σ k tf k +w a Σ l af l
    但し、
    uf i :各文書のキーワード周囲テキストに出現する質問文中のキーワードのユニグラムの出現頻度、
    bf j :各文書のキーワード周囲テキストに出現する質問文中のキーワードから始まるバイグラムの出現頻度、
    tf k :各文書のキーワード周囲テキストに出現される質問文中のキーワードから始まるトライグラムの出現頻度、
    u ,w b ,w t ,w a :定数
    により算出することを特徴とする請求項1記載の自然文検索装置。
  4. 自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索方法であって、
    キーワード抽出部が前記質問文からキーワードを抽出するステップと、
    重要度計算部が前記キーワードの重要度を計算するステップと、
    検索条件生成部が前記キーワード抽出部により抽出されたK個のキーワードのうち重要度が高い上位n(n<K、かつ、nは1以上の自然数)語のキーワードを必ず含み、前記キーワード抽出部により抽出されたキーワードの上位n語以外のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成するステップと、
    文書検索インターフェース部が前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合と前記文書集合の各文書に対してキーワード付近のテキストをつなげたキーワード周囲テキストを検索結果として取得するステップと、
    文書再ランキング部が前記検索結果に含まれる各文書の前記キーワード周囲テキストと入力された質問文との適合度が高い順に検索結果を再ランキングするステップと、
    を実行することを特徴とする自然検索方法。
  5. 前記重要度計算部は、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする請求項記載の自然文検索方法。
  6. 前記文書再ランキング部は、適合度を
    d =w u Σ i uf i +w b Σ j bf j +w t Σ k tf k +w a Σ l af l
    但し、
    uf i :各文書のキーワード周囲テキストに出現する質問文中のキーワードのユニグラムの出現頻度、
    bf j :各文書のキーワード周囲テキストに出現する質問文中のキーワードから始まるバイグラムの出現頻度、
    tf k :各文書のキーワード周囲テキストに出現される質問文中のキーワードから始まるトライグラムの出現頻度、
    u ,w b ,w t ,w a :定数
    により算出することを特徴とする請求項4記載の自然文検索方法。
  7. コンピュータを請求項1乃至3のいずれか記載の各部として機能させることを特徴とする自然文検索プログラム。
  8. 請求項7記載のプログラムを記録したことを特徴とするコンピュータで読み取り可能な記録媒体。
JP2003285974A 2003-08-04 2003-08-04 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体 Expired - Lifetime JP4153843B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003285974A JP4153843B2 (ja) 2003-08-04 2003-08-04 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003285974A JP4153843B2 (ja) 2003-08-04 2003-08-04 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体

Publications (2)

Publication Number Publication Date
JP2005056125A JP2005056125A (ja) 2005-03-03
JP4153843B2 true JP4153843B2 (ja) 2008-09-24

Family

ID=34365441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003285974A Expired - Lifetime JP4153843B2 (ja) 2003-08-04 2003-08-04 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP4153843B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4755478B2 (ja) * 2005-10-07 2011-08-24 日本電信電話株式会社 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP4719921B2 (ja) * 2005-11-15 2011-07-06 独立行政法人情報通信研究機構 データ表示装置およびデータ表示プログラム
EP2188743A1 (en) * 2007-09-12 2010-05-26 ReputationDefender, Inc. Identifying information related to a particular entity from electronic sources
JP4724701B2 (ja) * 2007-10-30 2011-07-13 日本電信電話株式会社 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP6936014B2 (ja) * 2017-01-30 2021-09-15 三菱重工業株式会社 教師データ収集装置、教師データ収集方法、及びプログラム
KR20210067372A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN116610821B (zh) * 2023-07-21 2023-11-03 北京融信数联科技有限公司 一种基于知识图谱的企业风险分析方法、系统和存储介质

Also Published As

Publication number Publication date
JP2005056125A (ja) 2005-03-03

Similar Documents

Publication Publication Date Title
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP6570169B2 (ja) ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
KR100546743B1 (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
US8412514B1 (en) Method and apparatus for compiling and querying a QA database
Malandrakis et al. Distributional semantic models for affective text analysis
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
WO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
WO2014208213A1 (ja) ノン・ファクトイド型質問応答システムおよび方法
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2015219583A (ja) 話題決定装置、発話装置、方法、及びプログラム
JP4866153B2 (ja) 対話型質問方法、対話型質問システム、対話型質問プログラム及びそのプログラムを記録した記録媒体
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
US10102199B2 (en) Corpus specific natural language query completion assistant
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
De Boni et al. An analysis of clarification dialogue for question answering
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2003150624A (ja) 情報抽出装置および情報抽出方法
TW200419390A (en) Speech-based information retrieval
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080704

R151 Written notification of patent or utility model registration

Ref document number: 4153843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110711

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120711

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130711

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term