JP4153843B2

JP4153843B2 - 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体

Info

Publication number: JP4153843B2
Application number: JP2003285974A
Authority: JP
Inventors: 成宏池田; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-08-04
Filing date: 2003-08-04
Publication date: 2008-09-24
Anticipated expiration: 2023-08-04
Also published as: JP2005056125A

Description

本発明は、情報検索要求として入力される自然言語による質問文からキーワードを抽出し、キーワード入力による文書検索装置を利用して、ユーザの所望の文書を検索する自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体に関する。

従来の文書検索装置は基本的にキーワード入力による検索装置であり、ユーザが１つもしくは複数のキーワードを入力すると、それに適合する文書集合を検索結果として出力する。例えば、インターネットでよく用いられる検索エンジンのｇｏｏ（http://www.goo.ne.jp）やＧｏｏｇｌｅ（http://www.google.com）などでは、キーワード検索が行われている。

しかしながら、キーワード入力による文書検索装置では、例えば「歴史上、一番背が高いアメリカの大統領は誰か」を調べる場合、この質問文からユーザが文書検索装置に入力すべきキーワード集合を作成するのは必ずしも容易ではない。
そのため、キーワード集合ではなく、自然言語による質問文で情報検索要求を情報検索装置に入力する方法が研究されている。このような検索方法は自然文検索と呼ばれている。この自然文検索方法による装置については、例えば、特許文献１に記載されている。

この特許文献１に記載の自然文検索装置では、入力された自然言語による質問文の中から名詞などをキーワードとして抽出し、キーワードによる文書検索装置により該当する文書群を検索する。そして、検索結果とともに返される検索キーワード周辺のテキスト（ＫＷＩＣ）中に含まれるキーワードの個数などに基づいて、質問文と検索された各文書との適合度を計算し、適合度に基づいて検索結果のランキングを行い、回答が含まれる文書が検索結果の上位にくるようにしている。

特願２００３−１５５５６１号公報「自然文検索装置、その方法およびプログラム」

ところで、特許文献１に記載される従来の自然文検索装置では、ユーザからの検索要求の自然文が長くなると、文書検索装置への検索キーワードの個数が多くなる。一般に、キーワード入力による文書検索装置では、入力されたキーワードが全て含まれる文書を検索するため、検索キーワードの個数が多くなると、全てのキーワードを含む文書は非常に少なくなり、最悪の場合には１件も検索結果が得られなくなってしまう。

本発明は上記の問題に鑑みてなされたもので、検索要求として入力される自然言語による質問文から抽出されるキーワードの個数にかかわらず、適切な文書検索が可能な自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体を提供することを目的とする。

上記の目的を達成するため、本発明に係る自然文検索装置は、以下の構成を採用したことを特徴とする。
（１）自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置であって、前記質問文からキーワードを抽出するキーワード抽出部と、前記キーワードの重要度を計算する重要度計算部と、前記重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成部と、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索インターフェース部と、前記取得された文書集合を適合度順に表示する検索結果表示部とを具備することを特徴とする。

（２）（１）の装置において、さらに、前記文書検索装置の検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキング部を備え、前記検索結果表示部は、再ランキングされた順序で前記文書集合を表示することを特徴とする。

（３）（１）の装置において、前記重要度計算部は、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
（４）（１）の装置において、前記検索条件生成部は、重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードをＡＮＤ条件に指定して検索される文書集合を限定し、その他のキーワードをＯＲ条件に指定してＯＲ条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。

また、本発明に係る自然文検索方法は、以下の構成を採用したことを特徴とする。
（５）自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索方法であって、前記質問文からキーワードを抽出するキーワード抽出ステップと、前記キーワードの重要度を計算する重要度計算ステップと、前記重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成ステップと、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索ステップと、前記取得された文書集合を適合度順に表示する検索結果表示ステップとを具備することを特徴とする。

（６）（５）の方法において、さらに、前記文書検索ステップの検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキングステップを備え、前記検索結果表示ステップは、再ランキングされた順序で前記文書集合を表示することを特徴とする。

（７）（５）の方法において、前記重要度計算ステップは、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
（８）（５）の方法において、前記検索条件生成ステップは、重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードをＡＮＤ条件に指定して検索される文書集合を限定し、その他のキーワードをＯＲ条件に指定してＯＲ条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。

また、本発明に係る自然文検索プログラムは、以下の構成を採用したことを特徴とする。
（９）コンピュータを、自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置として機能させるための自然文検索プログラムであって、前記質問文からキーワードを抽出するキーワード抽出ステップと、前記キーワードの重要度を計算する重要度計算ステップと、前記重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成ステップと、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索ステップと、前記取得された文書集合を適合度順に表示する検索結果表示ステップとを具備することを特徴とする。

（１０）（９）のプログラムにおいて、さらに、前記文書検索ステップの検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキングステップを備え、前記検索結果表示ステップは、再ランキングされた順序で前記文書集合を表示することを特徴とする。

（１１）（９）のプログラムにおいて、前記重要度計算ステップは、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
（１２）（９）のプログラムにおいて、前記検索条件生成ステップは、重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードをＡＮＤ条件に指定して検索される文書集合を限定し、その他のキーワードをＯＲ条件に指定してＯＲ条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。

また、本発明に係る自然文検索プログラム記憶媒体は、以下の構成を採用したことを特徴とする。
（１３）コンピュータを、自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置として機能させるためのプログラムを記憶した、コンピュータで読み取り可能な自然文検索プログラム記憶媒体であって、前記質問文からキーワードを抽出するキーワード抽出ステップと、前記キーワードの重要度を計算する重要度計算ステップと、前記重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードを必ず含み、他のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成ステップと、前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合を取得する文書検索ステップと、前記取得された文書集合を適合度順に表示する検索結果表示ステップとを具備するプログラムを記憶したことを特徴とする。

（１４）（１３）の記憶媒体において、前記プログラムは、さらに、前記文書検索ステップの検索結果に含まれる文書の断片を解析し、入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキングステップを備え、前記検索結果表示ステップは、再ランキングされた順序で前記文書集合を表示することを特徴とする。

（１５）（１３）の記憶媒体において、前記プログラムの重要度計算ステップは、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする。
（１６）（１３）の記憶媒体において、前記プログラムの検索条件生成ステップは、重要度が高い上位ｎ（ｎは任意の自然数）語のキーワードをＡＮＤ条件に指定して検索される文書集合を限定し、その他のキーワードをＯＲ条件に指定してＯＲ条件中のキーワードを多く含む文書が上位に検索されるようにした検索条件を生成することを特徴とする。

すなわち、上記構成による自然文検索装置、方法、プログラム、プログラム記憶媒体では、ユーザにより入力された自然言語による質問文からキーワードを抽出し、キーワードの重要度を計算して上位ｎ語をキーワード検索の必須条件（ＡＮＤ条件）に指定し、他のキーワードは優先条件（ＯＲ条件）に含めるため、ユーザが長い質問文を入力した場合でも、重要なキーワードを含み、さらに他のキーワードをも多く含むような文書が検索されてランク付けされるため、質問文の回答を含む文書が検索結果に含まれる可能性が高まる。

さらに、検索結果とともに返される文書の断片（キーワード付近のテキストをつなげたもの：ＫＷＩＣ）と質問文との適合度を計算し、その適合度順に検索結果の再ランキングを行うことによって、質問文の回答を含む文書が上位に検索されるようになる。

以上のように本発明によれば、検索要求として入力される自然言語による質問文からキーワードを抽出してその重要度を計算し、重要度の上位ｎ語のキーワードを全て含み、その他のキーワードについては含まれなくてもよいが、含まれている文書の方が文書検索で上位にランクされるように文書検索条件を生成するようにしているので、入力される質問文が長い場合でも、適切な文書検索が可能となる。このため、インターネット検索エンジンなどの文書検索装置に対して長い質問文を入力した場合でも、適切な検索を行うことができる。

さらに、検索結果の文書の断片的な情報を用いて、検索要求に合致した文書が上位にランクされるように検索結果の再ランキングを行うようにしているので、ユーザは容易に検索要求を満たす文書を見つけ出すことが可能となる。

以下、図面を用いて本発明を実施するための最良の形態を説明する。
図１は本発明に係る自然文検索装置の一実施形態を示すブロック構成図である。図１において、入力部１は、ユーザの操作によって行われる、自然言語による質問文の検索要求、文書再ランキング要求を受け付ける。この入力部１で受けた質問文の検索要求は制御部２に与えられる。

上記制御部２は、入力部１で受けた検索要求に応じて、以下に説明するキーワード抽出部３、重要度計算部４、検索条件生成部５、文書検索インターフェース（Ｉ／Ｆ）部６、文書再ランキング部８、表示部９を総括的に制御する。
上記キーワード抽出部３は、質問文中の主要な語句をキーワードとして抽出する。上記重要度計算部４は、キーワード抽出部３で抽出された各キーワードの重要度を計算する。上記検索条件生成部５は、重要度計算部４で計算されたキーワードの重要度に応じて検索条件を生成する。

上記文書検索インターフェース部５は、キーワード検索が可能な文書検索装置７に接続され、検索条件となるキーワードを適宜文書検索装置７に送り、当該装置７の文書データベース（ＤＢ）から適合する文書を検索させ、その検索結果と共に対応する文書を取得する。上記文書再ランキング部８は、入力部１から文書再ランキング要求があった場合に、検索結果の文書の断片的な情報を用いて、検索要求に合致した文書が上位にランクされるように検索結果の再ランキングを行う。上記表示部９は、主に検索結果の文書情報を表示する。

上記構成による自然文検索装置は次のように動作する。
使用者が入力部１に自然文の検索要求（質問文）を入力すると、質問文は制御部２を経てキーワード抽出部３に渡される。
図２は、上記キーワード抽出部３において、質問文からキーワードを抽出するための処理手順を示すフローチャートである。図２において、まず、ステップＳ１１では、質問文に対して形態素解析が行われ、質問文は単語毎に分割されるとともに各語に品詞が付与される。この形態素解析には、
齊藤邦子、永田昌明、「ＨＭＭに基づく多言語固有表現抽出システムの開発」言語処理学会、第９回年次大会発表論文集，ｐｐ．５−８，２００２
に記載される手法を用いることができる。

次に、ステップＳ１２で、質問文の各単語について、名詞、動詞、形容詞、名詞接尾辞のいずれかに属するか調べられる。これら以外の語の場合には、次の語を処理対象として、ステップＳ１２以降の処理が行われる。
ステップＳ１２で条件を満たす場合には、次のステップＳ１３で、その単語が既定のストップワード（検索に使用しない語）のリストに登録されているか調べられる。ストップワードの場合には、次の単語を処理対象とし、ステップＳ１２以降の処理が行われる。ストップワードでない場合には、次のステップＳ１４で、その単語がキーワード集合に登録される。以上の処理が質問文中の全単語について行われ、キーワードが抽出される。

キーワード集合はキーワード抽出部３から制御部２を経て重要度計算部４へ送られ、各キーワードの重要度が計算される。ある文書集合において、キーワードＫを含む文書数をｄｆ、全文書数をＮとするとき、キーワードの重要度ｓは次のように計算される。
ｓ＝ｌｏｇ（（Ｎ＋１）／（ｄｆ＋１））／ｌｏｇ（Ｎ＋１） …（１）
この計算に用いられる文書集合は、検索対象の文書が格納されている文書検索装置７の文書ＤＢを用いることが望ましいが、文書ＤＢを直接利用することができない場合には、他の文書集合を用いても構わない。

続いて、キーワードとその重要度の対は制御部２を経て検索条件生成部５へ送られ、検索条件が作成される。
ここで、キーワード検索による文書検索装置７は、指定されたキーワードを全て含むことを条件とするＡＮＤ条件と、指定のキーワードのいずれかを含むことを条件とするＯＲ条件を組み合わせて検索条件を指定できるものを使用する。この場合、文書検索装置７では、キーワードを含む文書集合を検索結果として返すだけではなく、キーワードをより多く含む文書が上位に検索されるように工夫が施されているものとする。

このような文書検索装置７に対し、検索条件生成部５では、重要度が高いキーワードをＡＮＤ条件に指定して検索される文書集合を限定し、その他のキーワードをＯＲ条件に指定してＯＲ条件中のキーワードを多く含む文書が上位に検索されるようにする。ここでは、ＡＮＤ条件中のキーワードはその全てを含む文書を検索することから、ＡＮＤ条件を必須条件と呼び、ＯＲ条件中のキーワードはキーワードが含まれる文書を優先的に上位に検索する役割を果たすことから、ＯＲ条件のことを優先条件と呼ぶことにする。

図３は、上記検索条件生成部５における詳細な処理手順を示すフローチャートである。図３において、まず、ステップＳ２１で検索キーワードが重要度の降順でソートされ、ステップＳ２２で各変数Ｋ，ＡＬ，ｉの初期化が行われる。Ｋはキーワード数、ＡＬは検索条件の文字列長、ｉはカウンタである。

次に、ステップＳ２３で、ｉ≦Ｍ（Ｍ：ＡＮＤ条件に含めるキーワード数）の場合にはステップＳ２４に進み、それ以外の場合には必須条件へのキーワード追加処理を終了し、ステップＳ２９に進む。続いて、ステップＳ２４でｉ番目のキーワードの文字列長をＫＬとし、ステップＳ２５で検索条件にｉ番目のキーワードを追加できるか調べ（ＭＡＸは検索条件の最大文字列長）、追加できる場合にはステップＳ２６に進み、そうでなければステップＳ２８に進む。

次に、ステップＳ２６では検索条件にｉ番目のキーワードを追加して、ステップＳ２７で検索条件の文字列長ＡＬを更新する。そして、ステップＳ２８でカウンタｉを進め、ステップＳ２３へ戻る。
ステップＳ２３で繰り返し条件を満たさなくなった場合には、ステップＳ２９へ進む。ステップＳ２９でｉ≦Ｋ（Ｋ：キーワード数）の場合にはステップＳ３０へ進み、そうでなければ検索条件生成処理を終了する。

ステップＳ３０ではＫＬをｉ番目のキーワードの文字列長とし、ステップＳ３１で検索条件にｉ番目のキーワードを追加できるか調べる。追加できない場合は、ステップＳ３４に進み、追加可能な場合には、ステップＳ３２でｉ番目のキーワードを追加し、ステップＳ３３で検索条件の文字列長を更新する。そして、ステップＳ３４ではカウンタｉを進め、ステップＳ２９に戻る。以下、ステップＳ２９以降の処理が繰り返し行われる。

上記のようにして作成された検索条件は、制御部２、文書検索インターフェース部６を経て文書検索装置７へ送られる。この文書検索装置７は検索条件を受信すると、文書ＤＢ中の文書のうち検索条件を満たす文書の情報（文書の識別ＩＤやＫＷＩＣなど）を検索条件との適合度順（ランク付け）に制御部２に返す。

次に、入力部１において文書再ランキングの実行が要求されている場合には、制御部２は検索結果を文書再ランキング部８へ渡し、検索された各文書のＫＷＩＣを基に各文書の検索要求に対する適合度（スコア）を計算し、文書の再ランキングを行う。
文書再ランキング部８では、まず質問文の質問タイプの判定が行われる。この質問タイプは、その質問文が何を問う質問かを分類したもので、例えば「日付」、「人名」、「場所名」などがある。質問タイプの判定には、単語の意味を分類した意味カテゴリとサポートベクトルマシンを用いた以下の文献に記載される方法を用いる。

鈴木潤、佐々木裕、前田栄作、「統計的機械学習による質問タイプ同定」、情報科学技術フォーラム（ＦＩＴ２００２）、情報技術レターズ、ｐｐ．８９−９０（２００２）
この方法では、意味カテゴリ数と同次元の特徴ベクトルを作成して、ある意味カテゴリに属する単語が質問文中に出現すると、そのカテゴリ及びその上位の全カテゴリに対応する特徴ベクトルの成分を１とする。そして、予め作成されたモデルを用いてサポートベクトルマシンで質問タイプ判定を行う。

尚、意味カテゴリには、以下の文献にある日本語語彙体系を用いる。日本語語彙体系は名詞を１２段、２７１５カテゴリに分類し、１単語につき最大５個のカテゴリが割り当てられている。
ＮＴＴコミュニケーション科学研究所監修「日本語語彙体系」、岩波書店、１９９７
また、サポートベクトルマシンについては、以下の文献に詳しい解説がある。
Vladimir N. Vapnik, "The Nature of Statistical Learning Theory", Springer, 1995.
次に、再ランキングのキーとなる文書について、スコアの計算が行われる。文書ｄのスコアＳ_dは単語や固有表現の出現頻度を考慮して以下のように計算する。
Ｓ_d＝ｗ_uΣ_iｕｆ_i＋ｗ_bΣ_jｂｆ_j＋ｗ_tΣ_kｔｆ_k＋ｗ_aΣ_lａｆ_l…（２）
ここで、ｗ_u、ｗ_b、ｗ_t、ｗ_aは定数であり、ｕｆ_i、ｂｆ_j、ｔｆ_kはそれぞれＫＷＩＣに出現する質問文中のキーワードのユニグラム、キーワードから始まるバイグラム、トライグラムの出現頻度で、ａｆ_lは質問タイプと同じ固有表現の出現頻度である。尚、固有表現とは一語または複数の語からなる固有名称のことで、固有表現抽出には前述の形態素解析の文献の方法を用いることができる。

検索結果の文書は式（２）のスコアの降順にソートされ、制御部２を経て表示部９に送られて、文書情報が使用者に提示される。
したがって、上記構成による自然文検索装置では、質問文からキーワードを抽出してその重要度を計算し、重要度の高い上位のキーワードを必須（ＡＮＤ）条件、その他のキーワードを優先（ＯＲ）条件とし、優先条件のキーワードが含まれている文書の方が文書検索で上位にランクされるように文書検索条件を生成するようにしているので、入力される質問文が長い場合でも、文書検索装置から質問文に対する回答文を比較的高い精度で検索することが可能となる。

以下、図４乃至図８を参照して、本発明の実施例を説明する。
ここでは、
「いかだでアマゾン川を下っていた日本人を殺害したのはどこの国の兵士ですか」
という質問文が入力された場合の実施例を示す。尚、文書検索装置７にはインターネットの検索エンジンを用いる。

入力部１に入力された質問文は制御部２を経てキーワード抽出部３へ送られ、図２に示した処理手順によってキーワードが抽出される。まず、入力された質問文は、形態素解析によって図４に示すように単語分割される。次に、全単語の中から、名詞、形容詞、動詞であり、かつストップワードリストにない単語がキーワード集合に登録される。ここでは、ストップワードリストに「誰」、「何」、「どれ」、「どこ」などの疑問詞や、代名詞、語幹が一文字の動詞などが登録されているものとする。したがって、キーワード抽出部３で得られるキーワード集合は「いかだ」、「アマゾン」、「川」、「日本」、「人」、「殺害」、「国」、「兵士」となる。

次に、重要度計算部４で各キーワードの重要度の計算が行われる。式（１）に用いられている単語の文書頻度の計算にインターネット検索エンジンの文書ＤＢを利用することはできないので、新聞記事など他の文書で代用する。ここでは新聞記事を用いて、単語の文書頻度を計算し、図５に示すような重要度が得られたものとする。

続いて、検索条件生成部５でインターネット検索エンジンへの検索条件が生成される。ここでは、必須条件にはキーワードを４個指定し、その他のキーワードは優先条件に指定する。検索条件の文字列長の上限が十分大きい場合、必須条件、優先条件はそれぞれ次のようになる。
必須条件：［いかだアマゾン川兵士］
優先条件：［殺害国人兵士］
そして、インターネット検索エンジンのＧｏｏｇｌｅを用いて上記の検索条件で検索を行うと、全部で４３の文書が検索され、検索結果の上位のＫＷＩＣは図６に示すようになる。すなわち、文書２のＫＷＩＣにはこの質問の回答「ペルー」が含まれており、文書２の本文を見なくてもＫＷＩＣのみで質問の回答が得られる。

一方、本発明を用いずに、キーワードを全て列挙したＡＮＤ条件、
［いかだアマゾン川日本人殺害国兵士］
で検索を行うと、図７に示すようにわずか２件しか該当する文書が得られない。しかも、これらの文書の本文を見ても質問文の回答は得られない。

さらに、文書の再ランキング要求が指示されている場合、文書再ランキング部８では、キーワード抽出部３において抽出されたキーワードの各文書のＫＷＩＣにおける出現頻度や固有表現の個数などを用いて、式（２）によってスコアを計算する。各文書のスコアの計算例を図８に示す。再ランキング後には、スコアが最も高い文書２が検索結果の最上位に表示される。文書２は、質問文「いかだでアマゾン川を下っていた日本人を殺害したのはどこの国の兵士ですか」の回答である「ペルー」を含んでおり、質問文の回答を含む文書がより上位になるように再ランキングされる。

本発明の一実施形態である自然文検索装置の構成を示すブロック図である。上記実施形態のキーワード抽出部における処理手順を示すフローチャートである。上記実施形態の検索要求文生成部における処理手順を示すフローチャートである。上記実施形態の自然検索装置の実施例として、キーワード抽出部の形態素解析結果を示す図である。上記実施例において、重要度計算部のキーワード重要度計算結果を示す図である。上記実施例において、文書検索部の文書検索結果を示す図である。上記実施例との比較のために、本発明を用いない場合の検索結果を示す図である。上記実施例において、文書再ランキング部の各文書のスコア計算結果を示す図である。

符号の説明

１…入力部
２…制御部
３…キーワード抽出部
４…重要度計算部
５…検索条件生成部
６…文書検索インターフェース（Ｉ／Ｆ）部
７…文書検索装置
８…文書再ランキング部
９…表示部

Claims

自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索装置であって、
前記質問文からキーワードを抽出するキーワード抽出部と、
前記キーワードの重要度を計算する重要度計算部と、
前記キーワード抽出部により抽出されたＫ個のキーワードのうち重要度が高い上位ｎ（ｎ＜Ｋ、かつ、ｎは１以上の自然数）語のキーワードを必ず含み、前記キーワード抽出部により抽出されたキーワードの上位ｎ語以外のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成する検索条件生成部と、
前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合と前記文書集合の各文書に対してキーワード付近のテキストをつなげたキーワード周囲テキストを検索結果として取得する文書検索インターフェース部と、
前記検索結果に含まれる各文書の前記キーワード周囲テキストと入力された質問文との適合度が高い順に検索結果を再ランキングする文書再ランキング部と
を具備することを特徴とする自然文検索装置。
前記重要度計算部は、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする請求項１記載の自然文検索装置。
前記文書再ランキング部は、適合度を
Ｓ _d ＝ｗ _u Σ _i ｕｆ _i ＋ｗ _b Σ _j ｂｆ _j ＋ｗ _t Σ _k ｔｆ _k ＋ｗ _a Σ _l ａｆ _l
但し、
ｕｆ _i ：各文書のキーワード周囲テキストに出現する質問文中のキーワードのユニグラムの出現頻度、
ｂｆ _j ：各文書のキーワード周囲テキストに出現する質問文中のキーワードから始まるバイグラムの出現頻度、
ｔｆ _k ：各文書のキーワード周囲テキストに出現される質問文中のキーワードから始まるトライグラムの出現頻度、
ｗ _u ，ｗ _b ，ｗ _t ，ｗ _a ：定数
により算出することを特徴とする請求項１記載の自然文検索装置。
自然言語による質問文で表現された検索要求に適合する文書集合を検索する自然文検索方法であって、
キーワード抽出部が前記質問文からキーワードを抽出するステップと、
重要度計算部が前記キーワードの重要度を計算するステップと、
検索条件生成部が前記キーワード抽出部により抽出されたＫ個のキーワードのうち重要度が高い上位ｎ（ｎ＜Ｋ、かつ、ｎは１以上の自然数）語のキーワードを必ず含み、前記キーワード抽出部により抽出されたキーワードの上位ｎ語以外のキーワードをも含む文書を優先的に検索しランク付けするための検索条件を生成するステップと、
文書検索インターフェース部が前記検索条件に基づいてキーワードによる文書検索装置に文書検索を実行させ、当該装置から該当する文書集合と前記文書集合の各文書に対してキーワード付近のテキストをつなげたキーワード周囲テキストを検索結果として取得するステップと、
文書再ランキング部が前記検索結果に含まれる各文書の前記キーワード周囲テキストと入力された質問文との適合度が高い順に検索結果を再ランキングするステップと、
を実行することを特徴とする自然文検索方法。
前記重要度計算部は、文書集合において、キーワードを含む文書数と全文書数とに基づいて前記キーワードの重要度を計算することを特徴とする請求項４記載の自然文検索方法。
前記文書再ランキング部は、適合度を
Ｓ _d ＝ｗ _u Σ _i ｕｆ _i ＋ｗ _b Σ _j ｂｆ _j ＋ｗ _t Σ _k ｔｆ _k ＋ｗ _a Σ _l ａｆ _l
但し、
ｕｆ _i ：各文書のキーワード周囲テキストに出現する質問文中のキーワードのユニグラムの出現頻度、
ｂｆ _j ：各文書のキーワード周囲テキストに出現する質問文中のキーワードから始まるバイグラムの出現頻度、
ｔｆ _k ：各文書のキーワード周囲テキストに出現される質問文中のキーワードから始まるトライグラムの出現頻度、
ｗ _u ，ｗ _b ，ｗ _t ，ｗ _a ：定数
により算出することを特徴とする請求項４記載の自然文検索方法。
コンピュータを請求項１乃至３のいずれか記載の各部として機能させることを特徴とする自然文検索プログラム。
請求項７記載のプログラムを記録したことを特徴とするコンピュータで読み取り可能な記録媒体。