JP3799447B2

JP3799447B2 - 文書検索処理方法および文書検索システム

Info

Publication number: JP3799447B2
Application number: JP2002292962A
Authority: JP
Inventors: 真樹村田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2002-10-04
Filing date: 2002-10-04
Publication date: 2006-07-19
Anticipated expiration: 2022-10-04
Also published as: JP2004127131A

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータによる情報検索処理技術に関する。特に、電子化された文書群からキーワードを照合して適合する文書を検索する文書検索処理方法、文書検索システム、および前記文書検索処理方法を利用した質問応答システムに関する。
【０００２】
近年では多数の電子化された文書が存在する。この電子化された文書を記録した文書データベースなどから効率よく検索できることが重要である。
【０００３】
【従来の技術】
電子化された文書群を検索する文書検索処理方法として、いくつかの手法がある。基本的な方法としてＴＦ・ＩＤＦ法が知られている。ＴＦ・ＩＤＦ法は、単語の頻度情報を用いた検索手法であって、単語（キーワード）が文書内に出現する頻度（ｔｆ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）、および単語が出現する文書頻度（ｄｆ：ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の逆数をもちいて、以下の式により、より少ない文書に偏って出現するキーワードが多い場合にそのキーワードの重要度が高いものとして、かかるキーワードが多く出現する文書をよいと評価して評価スコアｓｃｏｒｅ（Ｄ）が高い文書を検索結果として出力する。
【０００４】
score(D) =Σ((tf(w,D) * log(N/df(w)))
（Σは、集合Ｗの要素ｗで加算）
Ｗ：ユーザが入力するキーワードの集合、
ｔｆ（ｗ，Ｄ）：文書Ｄでのｗの出現回数、
ｄｆ（ｗ）：全文書でｗが出現した文書の数、
Ｎ：文書の総数。
【０００５】
また、近年ではキーワードの出現位置に着目して、文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える検索方法が有力であり、例えば、非特許文献１に提示された方法がある。非特許文献１で参照するＲｏｂｅｒｔｓｏｎらのＯｋａｐｉｗｅｉｇｈｔｉｎｇの（１）式は、検索性能が高いことが知られている。また、非特許文献１で発明者らが提唱した（２）式は、新聞記事などのように記事のタイトルや記事の冒頭の文が重要であるような文書では検索性能がよいことが知られている。
【０００６】
また、キーワードの近接性を利用した文書検索はいくつか存在するが、例えば、非特許文献２に提示された方法などがある。非特許文献２に提示された方法は、そのキーワード同士の関連が高い場合に、キーワードが共起出現する距離が近いことは、その出現部分が局所的に重要であるとして、キーワードの出現位置を重要度付与の要素とするものである。
【０００７】
ところで、文書検索処理方法を適用する言語処理システムとして質問応答システムがある。質問応答システムは、自然言語による質問文「間接照応解析の精度はいくつですか」に対して「６８％」などを解答として出力する処理システムである。一般的な、質問応答システムは、概ね以下のような処理を行う。
【０００８】
第１の手順：質問文からキーワードを取り出す。例えば、質問文「間接照応解析の精度はいくつですか」から、「間接照応」「解析」「精度」などをキーワードとして抽出する。
【０００９】
第２の手順：文書データベースの文書とキーワードとを照合して、適合する文書を取り出す。抽出したキーワードの集合を含む文書に、質問の解が記述されていることが期待できるからである。解が記述してある文書の候補として、２０ぐらいの文書を取り出す。
【００１０】
第３の手順：候補として抽出した文書から解としてふさわしい表現を抜き出し、抜き出した表現を解答として出力する。
【００１１】
【非特許文献１】
村田真樹，他５名，”位置情報と分野情報を用いた情報検索”，自然言語処理（言語処理学会誌），言語処理学会，２０００年，７巻，２号，ｐ．１４１−１６０
【非特許文献２】
高木徹，他１名，”単語出現共起関係を用いた文書重要度付与の検討”，情報学基礎研究会誌，情報処理学会，１９９６年，ＦＩ−４１−８，ｐ．６１−６８
【００１２】
【発明が解決しようとする課題】
しかし、非特許文献１で提示されている、文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える従来の文書検索処理方法では、一文書の量が多い場合には文書内でキーワードが分散して存在しているため、単語頻度に引きずられてそれほど重要でない文書を抽出してしまう可能性がある。
【００１３】
また、非特許文献２で提示されている手法は、（１１）式〜（１４）式に示すように、キーワードが近接して出現するときにそのキーワードの出現回数を増加させて扱うものであって、確率論上の理論に基づいているものではなく、いわば経験的に得られた手法であって精度の面に問題があると考えられる。
【００１４】
さらに、文書検索では、文書単位の検索の他に、パッセージ（ある意味のまとまり、段落などの文書の部分単位）を検索する場合がある。例えば、現在ユーザから示されたキーワードに適合する内容は、ある文書の中でも、この段落のあたりですよと、さらに文書中での位置情報も検索結果として与えるものである。かかる位置情報をも含めた検索結果は、単に文書ごとの検索よりもユーザにとって便利である。そのため、文書検索の結果とともにキーワードとの関連性が高い部分を高い精度で提示できる手法が望まれている。
【００１５】
また、従来の質問応答システムの前記第２の手順では、一般的に文書を段落や３文程度の文の連続（パッセージと定義する）に分割し、文書をパッセージごとに分割して保管しておき、このパッセージを一文書の単位として扱ってキーワードによる文書検索を行なう。
【００１６】
文書を分割してパッセージを単位として文書検索する手法は、質問応答システムで出力されるべき解が一般的にキーワードの近くに記述してあることが多いため、キーワードと解とが近接して出現するはずであり、文書をパッセージに分割して処理しても解とキーワードとが分断されてしまうことは少ないだろうという前提に基づくものである。さらには、前記の第２の手順で、長い文書そのままを単位として文書検索を行なった場合には、主要なキーワードが長い文書において離れて出現するような文書、すなわち解が記述されているとは想定できないような文書をも抽出してしまう可能性があるため、かかる不適合な文書の抽出を生じないようにするためである。
【００１７】
しかし、実際には、長い文書においてキーワードと解とがパッセージの区切りを越えて出現することは大いにありうる。例えば、あるキーワードが文書の文頭の部分に記述されているのみでそれ以降には出現せず、解が文書の最後の方に記述されているような文書がある場合に、この文書を３文の連続をパッセージとして区切って検索したときには、前記第２の手順の文書検索では、キーワードが出現するパッセージを抽出できても、解が記述されているパッセージを抽出することは困難である。したがって、文書を単純に短い単位に分割して文書検索を行う処理で第２の手順を構成するという従来の質問応答システムでは解の精度に問題があることがわかる。
【００１８】
さらに、一般的な質問応答システムの前記第３の手順において、
評価情報ｖ１：キーワードとの近接性、
評価情報ｖ２：質問文の疑問表現の意味情報からの絞り込み
という２つの評価情報を用いる手法を採用する場合がある。この場合に、これらの評価情報の精度は解の精度につながると考えられる。そのため、精度のよい解を抽出できるように、解抽出でどのような評価情報を用いるかを考慮する必要がある。
【００１９】
本発明の目的は、長い文書そのままを検索対象として、確率的にキーワードの近接性を利用した精度の高い文書検索処理方法を提供することである。
【００２０】
さらに、本発明の目的は、文書内において与えられたキーワードとの関連性が高い部分がどこであるかという位置情報も出力できる文書検索処理方法を提供することである。
【００２１】
また、本発明の目的は、上記文書検索処理方法を用いた精度の高い質問応答システムを提供することである。
【００２２】
【課題を解決するための手段】
本発明は、上記の目的を達成するため、以下のような構成をとる。
【００２３】
本発明は、コンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、以下の処理ステップを備えるものである。
【００２４】
本発明は、文書取り込み部、領域仮定部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが行う処理方法であって、前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、前記領域仮定部が、前記取得した文書に所定の領域を仮定するステップと、前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、前記キーワード仮定部が、前記入力されたキーワードの集合から１以上のキーワードを抽出してキーワード部分集合を生成するステップと、前記評価スコア演算部が、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Ｑを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Ｐを求め、前記積Ｑに前記数Ｐとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える。
【００２５】
または、本発明は、文書取り込み部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが行う処理方法であって、前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、前記キーワード仮定部が、前記キーワードの集合の１つのキーワードを第１キーワードと設定し、前記キーワードの集合の前記第１キーワード以外のキーワードを第２キーワードと設定するステップと、前記評価スコア演算部が、前記第１キーワードと前記第２キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第２キーワードの個々について、当該第２キーワードの出現確率と、当該第２キーワードと前記第１キーワード間の距離にもとづいて求めた値を、前記第２キーワードの出現したものの分だけ掛け合わせた積Ｑを求め、前記積Ｑに前記第１キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える。
【００２６】
また、本発明は、電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、以下の処理手段を備えるものである。
【００２７】
本発明は、電子化された文書群を記憶する文書データベースと、前記文書データベースから文書を取得する処理手段と、前記文書に所定の領域を仮定する処理手段と、複数のキーワードで構成されたキーワードの集合を入力する処理手段と、前記入力されたキーワードの集合から１以上のキーワードを抽出してキーワード部分集合を生成する処理手段と、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせて値Ｑを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Ｐを求め、前記積Ｑに前記数Ｐとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える。
【００２８】
また、本発明は、電子化された文書群を記憶する文書データベースと、前記文書データベースから文書を取得する処理手段と、複数のキーワードで構成されたキーワードの集合を入力する処理手段と、前記キーワードの集合の１つのキーワードを第１キーワードと設定し、前記キーワードの集合の前記第１キーワード以外のキーワードを第２キーワードと設定する処理手段と、前記文書に出現する前記第１キーワードと前記第２キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第２キーワードの個々のキーワードについて、当該第２キーワードの出現確率と、当該第２キーワードと前記第１キーワード間の距離にもとづいて求めた値を、前記文書に出現した第２キーワードの分だけ掛け合わせた積Ｑを求め、前記積Ｑに前記第１キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える。
【００２９】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力する質問文入力手段と、前記質問文から解となりうる表現である解表現を予測する解表現予測手段と、前記質問文からキーワードを抽出するキーワード抽出手段と、文書群から文書を取り込む文書取り込み手段と、前記文書中に前記キーワードが出現する頻度および前記キーワードの出現の近接度にもとづいて前記キーワードの出現パターンの出現確率を算出し、前記出現確率が小さいほど前記キーワードとの関連性が高い文書であると判断して、前記出現確率にもとづく評価スコアを前記文書に付与する評価スコア算出手段と、前記評価スコアをもとに前記文書群から文書を抽出する出力文書抽出手段と、前記抽出した文書から前記解表現に適合する解を抽出する解抽出手段とを備える。
【００３０】
前記質問応答システムにおいて、前記評価スコア算出手段は、さらに、前記文書から領域を仮定する領域仮定手段を備え、前記文書ごとに、前記領域に前記キーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出し、前記文書で仮定したすべての領域についてそれぞれ算出した前記出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【００３１】
また、前記質問応答システムにおいて、前記評価スコア算出手段は、前記文書ごとに、前記キーワードから一つの起点キーワードを仮定し、前記起点キーワードから他のキーワードまでの距離を求め、前記起点キーワードが出現する確率および前記距離以内に前記他のキーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出し、前記文書で仮定したすべての起点キーワードについてそれぞれ算出した前記キーワードの出現パターンの出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【００３２】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力する質問文入力手段と、前記質問文から解となりうる表現である解表現を予測する解表現予測手段と、前記質問文からキーワードを抽出するキーワード抽出手段と、前記キーワードを前記文書群と参照して適合する文書を抽出する文書検索手段と、前記抽出した文書から前記解となりうる解表現を仮定する解表現仮定手段と、前記抽出した文書ごとに、前記文書中に前記解表現および前記キーワードが出現する頻度ならびに前記解表現および前記キーワードの出現の近接度にもとづいて前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する解抽出手段と、前記抽出した解表現を解答として出力する解答出力手段とを備える。
【００３３】
前記質問応答システムにおいて、前記解抽出手段は、前記文書ごとに、解表現を仮定し、前記解表現から前記キーワードまでの距離を求め、前記解表現が出現する確率および前記距離以内に前記キーワードが出現する確率をもとに前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記仮定したすべての解表現について、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記抽出したすべての文書についてそれぞれ算出した前記組の出現パターンの出現確率のうち最小の出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する。
【００３４】
本発明にかかる文書検索処理方法は、文書検索においてキーワードの近接性を重視するものである。与えられたキーワードの出現の分布である出現パターンの出現確率が小さいほど、すなわちキーワードの出現パターンが珍しいものであるほど、その出現パターンを含む文書の重要度が高いと評価することを前提にする。あるキーワード（集合）が近接して出現することの珍しさは、その出現する部分がキーワードとの関連性が高い部分であり、さらに、かかる範囲を含む文書の重要度も高いと見なすことができるからである。すなわち、キーワードの出現パターンの出現確率にもとづいた検索結果は偶然に得られる検索結果ではなく、重要な検索結果と考えられるからである。
【００３５】
本発明にかかる文書検索処理方法は、文書データベースなどの電子化された文書群から文書を１つずつ取り込み、この文書から領域を１つずつ順に仮定する。そして、文書ごとに、仮定した領域にキーワードが出現する確率を求め、前記確率にもとづいて前記キーワードの出現パターンの出現確率を算出し、前記出現確率が小さいほど前記キーワードとの関連性が高い文書であると判断して、前記出現確率にもとづく評価スコアを前記文書に付与し、前記評価スコアが上位の文書を抽出して検索結果とする。
【００３６】
また、前記出現確率を算出する場合に、前記文書から領域を１つずつ順に仮定し、前記文書ごとに、前記領域にキーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出する。そして、前記評価スコアを前記文書に付与する場合に、前記文書で仮定したすべての領域についてそれぞれ算出した前記出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【００３７】
または、前記出現確率を算出する場合に、前記文書ごとに、前記キーワードから一つの起点キーワードを仮定し、前記起点キーワードから他のキーワードまでの距離を求め、前記起点キーワードが出現する確率および前記距離以内に前記他のキーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出する。そして、前記評価スコアを前記文書に付与する場合に、前記文書で仮定したすべての起点キーワードについてそれぞれ算出した前記キーワードの出現パターンの出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【００３８】
これにより、本発明にかかる文書検索処理方法は、従来では提示されていなかった確率論上の理論に基づくキーワードの近接性を利用した文書評価のアルゴリズムにもとづき、より精度の高い文書検索処理方法を提供することができる。
【００３９】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力し、前記質問文から解となりうる解表現を予測し、前記質問文から複数のキーワードを抽出する。そして、文書データベースなどの文書群から文書を取り込み、前記文書中に前記キーワードが出現する頻度および前記キーワードの出現の近接度にもとづいて前記キーワードの出現パターンの出現確率を算出し、前記出現確率が小さいほど前記キーワードとの関連性が高い文書であると判断して、前記出現確率にもとづく評価スコアを前記文書に付与し、前記評価スコアをもとに前記文書群から文書を抽出する。その後、前記抽出した文書から前記解表現に適合する解を解答として抽出する。
【００４０】
そして、前記評価スコアを算出する場合に、前記文書検索処理方法のいずれかを用いて、前記文書に評価スコアを付与する。
【００４１】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力し、前記質問文から解となりうる表現である解表現を予測し、前記質問文からキーワードを抽出し、前記キーワードを前記文書群と参照して適合する文書を抽出する。そして、前記抽出した文書から前記解となりうる解表現を仮定し、前記抽出した文書ごとに、前記文書中に前記解表現および前記キーワードが出現する頻度ならびに前記解表現および前記キーワードの出現の近接度にもとづいて前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する。そして、前記抽出した解表現を解答として出力する。
【００４２】
前記質問応答システムで、解を抽出する場合に、前記文書ごとに、解表現を仮定し、前記解表現から前記キーワードまでの距離を求め、前記解表現が出現する確率および前記距離以内に前記キーワードが出現する確率をもとに前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記仮定したすべての解表現について、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記抽出したすべての文書についてそれぞれ算出した前記組の出現パターンの出現確率のうち最小の出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する。
【００４３】
これにより、本発明にかかる質問応答システムでは、従来の質問応答システムのように文書検索を小さなパッセージに分割して検索するのではなく、文書そのままを検索対象として文書を検索し、質問文から抽出されたキーワードの近接性を利用して、従来では抽出できなかった文書、すなわち「キーワードと離れて記述されている解表現を持つような文書」についても解抽出の対象となる文書として文書検索を行った上で、「解が記述されているとは想定できないような文書」の評価が低くなるようにして解表現を抽出し、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【００４４】
さらに、本発明にかかる質問応答システムは、解表現を抽出する際に、解となりうると仮定した表現（解表現) と質問文から抽出したキーワードとの近接性を利用して、キーワードと近接する解表現の評価を高くし、この評価により解表現を出力するため、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【００４５】
【発明の実施の形態】
以下、図を用いて本発明の実施の形態を説明する。
〔第１の実施の形態〕
第１の実施の形態において、本発明にかかる文書検索システムは、キーワードの出現パターンの出現確率として、文書内のある範囲（領域）を仮定し、その領域内で複数のキーワード（キーワード集合）が出現する確率を算出し、その出現確率をもとに文書に評価スコアを付与して、評価スコアの高い所定数の文書を検索結果として出力する。
【００４６】
本形態において文書検索の際に、文書Ｄに評価スコアｓｃｏｒｅ（Ｄ）を付与するアルゴリズムで用いる式（Ａ）を説明する。式（Ａ）は、基本的にキーワード集合の出現の状態がどれぐらい珍しいものかを計算するものである。
【００４７】

ここで、
Ｐ（Ｘ，Ｙ）：Ｙ個の順序のついたものからＸ個の異なるものを取り出す場合の数を示す順列とよばれる演算子(P(X,Y)=Y!/(Y-X)!)、
Ｎ：文書の総数、
Ｒ：文書中の連続した範囲、
Ｗ：ユーザが入力するキーワードの集合、
Ｗ１：キーワードの集合Ｗのある部分集合、
ｗ：部分集合Ｗ１のある要素（キーワード）
ｎ１：部分集合Ｗ１のうちで領域Ｒに出現したキーワードｗの種類の数、
ｎ２：領域Ｒの大きさ（日本語の場合は領域Ｒの文字数とする）、
ｔｆ（ｗ，Ｄ）：文書Ｄでのキーワードｗの出現回数、
ｏｃｃｕｒ（ｗ，Ｒ）：領域Ｒにキーワードｗが出現すると１、そうでない場合には０とする、
＾：指数を表す演算子であり、Ｘ＾ＹはＸのＹ乗を意味する。
【００４８】
ここで、ｄｆ（ｗ）／Ｎは、個々のキーワードｗの出現の確率であって、これの積がそれらのキーワードｗが同時に出現する確率である。また、Ｐ（ｎ１、ｎ２）は、領域Ｒにそのようなキーワード部分集合Ｗ１が出現する場合の数であり、これらをかけたものは領域Ｒにそれらのキーワード部分集合Ｗ１が出現する確率となっている。
【００４９】
この確率は、
P(n1,n2) *Π (df(w)/N)＾occur(w,R))
（Πは、Ｗ１の要素ｗで掛け算） (a1)
である。この（ａ１）の確率が小さいほどキーワードの部分集合Ｗ１が出現する確率が小さく、出現の状態が珍しいことを意味する。ただし、この（ａ１）では領域Ｒに出現したキーワードのうち、部分集合Ｗ１に含まれるものだけのキーワードｗを考えている。これは、与えられたすべてのキーワードの集合Ｗの出現を考えるよりもいくつかのキーワードを捨てた残りのキーワードｗからなる部分集合Ｗ１の場合の確率の方が大きくなる場合を考慮してのことである。
【００５０】
ここで単調減少関数−ｌｏｇ（Ｘ）を使って、
- log ( P(n1,n2) *Π (df(w)/N)＾occur(w,R)))
（Πは、Ｗ１の要素ｗで掛け算） (a2)
を構成する。この（ａ２）の値はキーワードの出現の珍しさを示すものである。したがって、キーワードの出現の珍しさの値が大きいほど、評価スコアｓｃｏｒｅ（Ｄ）の値が高く、文書Ｄの評価が良いことになる。
【００５１】
ここで、領域Ｒと部分集合Ｗ１は不定であったので、この珍しさを示す値を最大にする場合の領域Ｒと部分集合Ｗ１を用いることとし、最初にあげた式（Ａ）が導出される。
【００５２】
なお、単調減少関数−ｌｏｇ（Ｘ）を使うことなく、（ａ１）で示す確率から直接評価スコアｓｃｏｒｅ（Ｄ）を求めるようにしてもよい。この場合には、評価スコアｓｃｏｒｅ（Ｄ）の値が小さいほど文書Ｄの評価が良いことになる。
【００５３】
単調減少関数−ｌｏｇ（Ｘ）を使うことなく出現パターンの出現確率を用いて前記出現確率が小さい文書ほど評価がよいと判断することと、本例のように単調減少関数−ｌｏｇ（Ｘ）を使って出現パターンの珍しさを示す値を用いて前記珍しさが大きい文書ほど評価がよいと判断することは等価である。これは用いた関数−ｌｏｇ（Ｘ）が単調減少関数であるからである。特許請求の範囲では、本発明について単調減少関数−ｌｏｇ（Ｘ）を使わずに出現パターンの出現確率を利用して記述しており、本発明の実施の形態では、本発明について単調減少関数−ｌｏｇ（Ｘ）を使って出現パターンの珍しさを利用して記述していることに留意されたい。なお、本形態で示すように、単調減少関数−ｌｏｇ（Ｘ）を用い、掛け算の繰り返しを足し算の繰り返しとする処理の方が一般的であり、かつ、システムの構築も容易である。
【００５４】
図１に、本形態における文書検索システムの構成例を示す。
【００５５】
文書検索システム１は、キーワード入力部１１、文書取り込み部１２、評価スコア算出部１３、出力文書抽出部１４、出力整形部１５、および文書データベース２から構成される。
【００５６】
キーワード入力部１１は検索で用いるキーワードの集合Ｗを入力する手段、文書取り込み部１２は電子化された文書が記憶されている文書データベース２から文書Ｄを取り込む手段である。
【００５７】
評価スコア算出部１３は、文書取り込み部１２が取り込んだ文書Ｄについて、確率的にキーワードの近接性を用いてキーワードの出現パターンの珍しさ（出現確率）にもとづいた評価スコアｓｃｏｒｅ（Ｄ）を算出する手段である。評価スコア算出部１３は、領域仮定部１３１、キーワード仮定部１３２、および評価スコア演算部１３３を備える。
【００５８】
領域仮定部１３１は、文書Ｄ中から領域Ｒとなる部分を仮定する手段である。キーワード仮定部１３２は、与えられたキーワードの集合Ｗの部分集合となりうるキーワードの集合（部分集合）Ｗ１を仮定する手段である。評価スコア演算部１３３は、文書データベース２の文書Ｄについて、領域Ｒと部分集合Ｗ１とを用いて、前記の式（Ａ）を演算する手段である。
【００５９】
出力文書抽出部１４は、文書Ｄに付与された評価スコアｓｃｏｒｅ（Ｄ）をもとに、評価スコア値が高い文書を所定の数だけ抽出する手段である。出力整形部１５は、予め定めた用途に合わせて出力文書抽出部１４が抽出した文書を変形して、文書または所定のパッセージを出力する手段である。
【００６０】
具体例として、ユーザから与えられたキーワードの集合Ｗが、「間接照応」、「精度」および「％」である場合について説明する。
【００６１】
文書検索システム１のキーワード入力部１１は、これらのキーワードの集合Ｗを取得し、文書取り込み部１２は、文書データベース２から図２に示す文書Ｄを１つ取り込む。なお、長い文書に対する処理の方が本発明の効果は明確であるが、説明の便宜のために以下の短い文書Ｄを用いる。
【００６２】
評価スコア算出部１３は、領域仮定部１３１が仮定した文書Ｄ中の連続する範囲（領域Ｒ）に上記のキーワードの集合Ｗの部分集合Ｗ１（ここでは、キーワードの部分集合Ｗ１は「間接照応」、「精度」および「％」とする）が出現する確率をもとに、図２に示す文書の評価スコアｓｃｏｒｅ（Ｄ）を前記の式（Ａ）を用いて算出する。前記の（ａ２）に示すように、部分集合Ｗ１が出現する領域Ｒが小さくなるほど、部分集合Ｗ１の出現する確率値が小さくなり、その領域Ｒを含む文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）が高くなる。
【００６３】
図３に、図２に示す文書において仮定されたある領域Ｒを破線の矩形で示す。この破線の矩形で示す領域Ｒ「％の精度で解析できた。このことは、名詞格フレーム辞書が存在しない現在においてもある程度の精度で間接照応」についてのキーワードの部分集合Ｗ１での評価スコアｓｃｏｒｅ（Ｄ）の値が所定の範囲（例えば上位ｎ個以内）であれば、出力文書抽出部１４は、この領域Ｒを含む文書Ｄを抽出する。
【００６４】
出力整形部１５は、抽出された文書Ｄを所定の形式に変形して出力する。ここで、出力整形部１５が、文書を検索するのではなく、関係する文書Ｄの一部、すなわち、パッセージを検索すると定義されている場合は、この領域Ｒを含む最小の文集合や段落集合をパッセージとして出力する。
【００６５】
例えばパッセージが最小の文集合であると定義されていれば、以下のような文集合：
「この方法で、テストサンプルにおいて再現率６３％、適合率６８％の精度で解析できた。このことは、名詞格フレーム辞書が存在しない現在においてもある程度の精度で間接照応の解析ができることを意味している。」
を出力してユーザに提示する。
【００６６】
また、出力整形部１５は、パッセージとともに、出力したパッセージに関するキーワードの部分集合Ｗ１の出現位置や、文書Ｄに関する情報などを出力するようにしてもよい。
【００６７】
図４に、文書検索システム１の処理の流れを示す。文書検索システム１において、まず、キーワード入力部１１は、例えばユーザが入力したキーワードの集合Ｗを取得する（ステップＳ１０）。文書取り込み部１２は、文書データベース２から文書Ｄを順番に１つずつ取り込む（ステップＳ１１）。まず最初は１つ目の文書Ｄを取り込む。そして、領域仮定部１３１は、取り込んだ文書Ｄで領域を順に１つ仮定する（ステップＳ１２）。また、キーワード仮定部１３２は、キーワードの部分集合Ｗ１となりうるキーワードの集合を１つずつ順番に仮定する（ステップＳ１３）。まず１つ目のものを部分集合Ｗ１と仮定する。
【００６８】
次に、評価スコア演算部１３３は、現時点の文書Ｄで、領域Ｒとキーワードの部分集合Ｗ１とを用いて、
Σ(occur(w,R) * log(N/df(w))) - log P(n1,n2)
（Σは、集合Ｗの要素ｗで加算）
を計算し、この値をＶとして保持する（ステップＳ１４）。
【００６９】
そして、評価スコア算出部１３は、部分集合Ｗ１になりうる集合をすべて仮定したかどうかをチェックし、部分集合Ｗ１をすべて仮定していなければ、ステップＳ１３の処理へ戻り、部分集合Ｗ１をすべて仮定していれば、ステップＳ１６の処理へ進む（ステップＳ１５）。
【００７０】
さらに、文書Ｄ中で領域Ｒとして仮定できるすべての領域を仮定したかどうかをチェックし、領域Ｒをすべて仮定していなければ、ステップＳ１２の処理へ戻り、領域Ｒをすべて仮定していれば、ステップＳ１７の処理へ進み（ステップＳ１６）、保持している値Ｖの最大値を現在の文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）とする（ステップＳ１７）。
【００７１】
次に、評価スコア算出部１３は、文書データベース２で保持する全ての文書について処理が済んでいるかどうかをチェックする（ステップＳ１８）。全ての文書が処理済みでなければステップＳ１１の処理へ戻り、全ての文書が処理済みであれば、出力文書抽出部１４は、評価スコアｓｃｏｒｅ（Ｄ）の値が高い上位ｎ個の文書を抽出する（ステップＳ１９）。出力整形部１５は、抽出された文書を予め定めた用途に適した形式に変形して出力する（ステップＳ２０）。
【００７２】
〔第２の実施の形態〕
第２の実施の形態において、本発明にかかる文書検索システムは、キーワードの出現パターンの珍しさとして、与えられたキーワードの集合Ｗのうち、１つのキーワードｗ１を仮定し、キーワードｗ１を起点としてキーワードｗ１とキーワードｗ２との距離以内にキーワードｗ１およびキーワードｗ２が出現する確率を算出し、その出現確率をもとに文書Ｄに評価スコアｓｃｏｒｅ（Ｄ）を付与して、評価スコアの高い所定数の文書を検索結果として出力する。
【００７３】
本形態において文書検索の際に文書Ｄに評価スコアｓｃｏｒｅ（Ｄ）を付与するアルゴリズムで用いる式（Ｂ）を説明する。以下に示す式（Ｂ）も、基本的にキーワードが出現の状態がどれぐらい珍しいものかを計算するものである。
【００７４】

ここで、
Ｎ：文書の総数、
Ｗ：ユーザが入力するキーワードの集合、
ｗ１：集合Ｗのある要素（キーワード）、
ｗ２：部分集合Ｗ３のある要素（キーワード）、
ｄｉｓｔ（ｗ１，ｗ２）：キーワードｗ１とキーワードｗ２の距離を示す値
（日本語の場合は文字数とする。ただし、便宜上、ｗ１＝ｗ２の場合は、 dist(w1,w2)=1/2 とする）、
Ｗ３：df(w2)/N*dist(w1,w2)*2が１以下の場合に、集合Ｗの要素からなる部分集合
（df(w2)/N*dist(w1,w2)*2が１より大きいＷの要素はＷ３には含まれない）。
【００７５】
ここで、キーワードｗ１に対して距離ｄｉｓｔ（ｗ１、ｗ２）以内に存在するキーワードｗ２の出現確率は、キーワードｗ２の出現確率ｄｆ（ｗ２）／Ｎと、距離ｄｉｓｔ（ｗ１、ｗ２）以内にｗ１とｗ２とが出現する場合の数ｄｉｓｔ（ｗ１，ｗ２）＊２とを掛け合わせた、
df(w2)/N*dist(w1,w2)*2 (b1)
である。
【００７６】
ただし、式（ｂ１）は近似式であるため、この値が１よりも大きくなる場合がある。そのようなキーワードｗ１は出現確率が小さいため偶然その文書にあらわれただけであり意味をなさないと考えることができるので、この確率の掛け算では掛け合わせを行わない。これを表現するために集合Ｗ３を定義する。このため、キーワードｗ１以外の出現するすべてのキーワードｗ２の分を考えると、そのような状態になる確率は、
Π (df(w2)/N*dist(w1,w2)*2)
（Πは、Ｗ３の要素ｗ２で掛け算。ただし、ｗ１≠ｗ２） (b2)
である。式（ｂ２）で、ｗ１が出現する確率は、ｗ１＝ｗ２のとき、
(df(w2)/N)
である。このため、ｗ１＝ｗ２のとき、ｄｉｓｔ（ｗ１，ｗ２）＝１／２と定義すると、キーワードｗ１を含めてキーワードｗ１およびすべてのキーワードｗ２の分を考えたキーワードが出現する確率は、
Π (df(w2)/N*dist(w1,w2)*2)
（Πは、Ｗ３の要素ｗ２で掛け算） (b3)
となる。式（ｂ３）での確率が小さいほど、キーワードの出現パターンの出現確率が小さく、出現の状態が珍しいことを意味する。
【００７７】
ここで、単調減少関数−ｌｏｇ（Ｘ）を使って、
- log Π(df(w2)/N * dist(w1,w2)*2)
（Πは、Ｗ３の要素ｗ２で掛け算） (b4)
を構成する。式（ｂ４）での値は、キーワードの出現パターンの出現の珍しさを示すものとなっている。この（ｂ４）の値はキーワードの出現パターンの出現の珍しさを示すものである。したがって、キーワードの出現パターンの出現の珍しさの値が大きいほど、評価スコアｓｃｏｒｅ（Ｄ）の値が高く、文書Ｄの評価が良いことになる。
【００７８】
ここでキーワードｗ１は不定であったので、この珍しさを示す値を最大にする場合のキーワードｗ１を用いることとし、最初にあげた式（Ｂ）が導出される。
【００７９】
なお、単調減少関数−ｌｏｇ（Ｘ）を使うことなく、（ｂ３）で示す確率から直接評価スコアｓｃｏｒｅ（Ｄ）を求めるようにしてもよい。この場合には、評価スコアｓｃｏｒｅ（Ｄ）の値が小さいほど文書Ｄの評価が良いことになる。
【００８０】
図５に、第２の実施の形態における文書検索システムの構成例を示す。文書検索システム３は、キーワード入力部３１、文書取り込み部３２、評価スコア算出部３３、出力文書抽出部３４、出力整形部３５、および文書データベース２から構成される。
【００８１】
キーワード入力部３１は文書検索システム１のキーワード入力部１１と、文書取り込み部３２は文書取り込み部１２と、出力文書抽出部３４は出力文書抽出部１４と、出力整形部３５は出力整形部１５と、それぞれ同様の処理を行う手段である。
【００８２】
評価スコア算出部３３は、文書取り込み部３２が取り込んだ文書Ｄについて、確率的にキーワードの近接性を用いて、キーワードの出現パターンの珍しさを評価スコアｓｃｏｒｅ（Ｄ）として算出する手段である。評価スコア算出部３３は、キーワード仮定部３３１および評価スコア演算部３３２を備える。
【００８３】
キーワード仮定部３３１は、与えられたキーワードの集合Ｗから、着目する１つの主たるキーワードｗ１とその他のキーワードｗ２とを仮定する手段である。評価スコア演算部３３２は、文書データベース２から取り込んだ文書Ｄについて、キーワードｗ１とキーワードｗ２との出現の距離を用いて前記の式（Ｂ）を演算する手段である。
【００８４】
具体例として、ユーザから与えられたキーワードの集合Ｗが、「間接照応」、「精度」および「％」である場合について説明する。
【００８５】
文書検索システム３のキーワード入力部３１は、これらのキーワードの集合Ｗを取得し、文書取り込み部３２は、文書データベース２から図２に示す文書Ｄを１つ取り込む。評価スコア算出部３３のキーワード仮定部３３１は、与えられたキーワードの集合Ｗのうち「精度」をキーワードｗ１とし、「間接照応」および「％」をキーワードｗ２と仮定する。
【００８６】
評価スコア演算部３３２は、キーワードｗ１を起点としたキーワードｗ２との距離以内でキーワードｗ１とキーワードｗ２とが出現する確率をもとに、文書Ｄの評価スコアを前記の式（Ｂ）を用いて算出する。ここで、キーワードｗ１に対してキーワードｗ２が出現する距離が近いほど、キーワードｗ２を要素とする部分集合Ｗ３の出現確率値が小さくなり、文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）が高くなる。
【００８７】
図６に、図２に示す文書においてキーワードｗ１（「精度」）と最も近接して出現しているキーワードｗ２（「間接照応」、「％」）との関係を示す。このようなキーワードｗ２が近接した出現パターンの場合に、評価スコアｓｃｏｒｅ（Ｄ）の値が所定の範囲内（例えば上位ｎ個以内）であれば、出力文書抽出部３４は、文書Ｄを抽出する。
【００８８】
出力整形部３５は、抽出された文書Ｄを所定の形式に変形して出力する。ここで、出力整形部３５が、文書を検索するのではなく、関係する文書の一部、すなわち、パッセージを検索すると定義されている場合は、かかるキーワード群を含む最小の文集合や段落集合をパッセージとして出力してユーザに提示する。例えば、最小の文集合として、
「この方法で、テストサンプルにおいて再現率６３％、適合率６８％の精度で解析できた。このことは、名詞格フレーム辞書が存在しない現在においてもある程度の精度で間接照応の解析ができることを意味している。」
を出力する。
【００８９】
図７に、文書検索システム３の処理の流れを示す。文書検索システム３において、まず、キーワード入力部３１は、例えばユーザが指定したキーワードの集合Ｗを入力する（ステップＳ３０）。文書取り込み部３２は、文書データベース２から文書Ｄを１つ取り込む（ステップＳ３１）。キーワード仮定部３３１は、入力されたキーワードの集合Ｗから１つを取り出してキーワードｗ１と仮定し、キーワードｗ１以外のキーワードをｗ２とする（ステップＳ３２）。そして、評価スコア演算部３３２は、現時点の文書Ｄとキーワードｗ１、ｗ２とを用いて、
Σ (log(N/df(w2)/dist(w1,w2)/2))
（Σは、部分集合Ｗ３の要素ｗ２で加算）
を計算し、その値Ｖを保持する（ステップＳ３３）。
【００９０】
そして、評価スコア算出部３３は、キーワードの集合Ｗについてキーワードｗ１となりうる全てのキーワードを仮定したかどうかをチェックし（ステップＳ３４）、集合Ｗの要素がすべてキーワードｗ１として仮定されていなければ、ステップＳ３２の処理へ戻り、集合Ｗの要素がすべてキーワードｗ１として仮定されていれば、保持した値Ｖの最大値を現在の文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）とする（ステップＳ３５）。
【００９１】
次に、評価スコア算出部３３は、文書データベース２で保持する全ての文書について処理が済んでいるかどうかをチェックし（ステップＳ３６）、すべての文書が処理済みでなければステップＳ３１の処理へ戻り、すべての文書が処理済みであれば、出力文書抽出部３４は、評価スコアｓｃｏｒｅ（Ｄ）の値が高い上位ｎ個の文書を抽出する（ステップＳ３７）。さらに、出力整形部３５は、抽出された文書Ｄを予め定めた用途に適した形式に変形して出力する（ステップＳ３８）。
【００９２】
なお、第１および第２の実施の形態において、評価スコア算出部１３／３３が行う演算は、基本的に基本手法のＴＦ・ＩＤＦ法の拡張である。したがって、評価スコア算出部１３／３３は、前記の非特許文献１などに記載されている手法において用いられる補強項を、式（Ａ）または式（Ｂ）に追加して評価スコアｓｃｏｒｅ（Ｄ）を算出するようにしてもよい。追加する補強項は、例えば、キーワードが出現する位置（タイトル中、記事の先頭文など）によりキーワードの重要度を考慮する位置情報、キーワードが出現している分野での重要度を考慮する分野情報などにもとづいた項とする。
【００９３】
〔第３の実施の形態〕
第３の実施の形態として、本発明にかかる質問応答システムを説明する。本形態の質問応答システムは、質問応答システムで行う文書検索に、キーワードの近接性を利用した文書検索を行い、前記式（Ａ）または式（Ｂ）を用いたアルゴリズムによる演算処理を行うものである。
【００９４】
これにより、本形態における質問応答システムは、文書データベースから取り込んだ文書を、パッセージなどの短い単位に分割することなく文書そのものとして検索対象にすることができる。よって、文書そのものを検索対象とした場合であっても、キーワードが離れて出現するような文書であって解を抽出するには不適切な文書の抽出を回避することができる。
【００９５】
図８に、第３の実施の形態における質問応答システムの構成例を示す。質問応答システム４は、質問文入力部４１、解表現予測部４２、キーワード抽出部４３、文書検索部４４、解抽出部４５、および解答出力部４６を備える。
【００９６】
質問文入力部４１は質問文を入力する手段である。解表現予測部４２は入力された質問文を解析して解となりうる表現（解表現）を予測する手段である。キーワード抽出部４３は、解を含む文書を抽出するためのキーワードの集合Ｗを質問文から抽出する手段である。
【００９７】
文書検索部４４は、キーワードの集合Ｗをもとに文書データベース２から取り込んだ文書Ｄそのものを検索対象とし、文書検索システム１の評価スコア算出部１３とほぼ同様に、式（Ａ）を用いたアルゴリズムにより評価スコアｓｃｏｒｅ（Ｄ）を算出して文書を検索する手段である。文書検索部４４は、文書取り込み部４４１、領域仮定部４４２、キーワード仮定部４４３、評価スコア演算部４４４、および出力文書抽出部４４５を備える。
【００９８】
文書取り込み部４４１は文書検索システム１の文書取り込み部１２と、領域仮定部４４２は領域仮定部１３１と、キーワード仮定部４４３はキーワード仮定部１３２と、評価スコア演算部４４４は評価スコア演算部１３３と、出力文書抽出部４４５は出力文書抽出部１４と、それぞれ同様の処理を行う手段である。
【００９９】
解抽出部４５は、文書検索部４４で検索された文書から、予測した解表現を抽出する手段である。解抽出手法は、既知の一般的な手法で行う。解答出力部４６は、抽出された解表現を用いて質問文に適合する解答を生成し出力する手段である。
【０１００】
質問応答システム４は、図９に示すように、文書検索部４４の代わりに、別の構成例を持つ文書検索部４７を備えるようにしてもよい。文書検索部４７は、文書取り込み部４７１、キーワード仮定部４７２、評価スコア演算部４７３、および出力文書抽出部４７４を備える。文書取り込み部４７１は文書検索システム３の文書取り込み部３２と、キーワード仮定部４７２はキーワード仮定部３３１と、評価スコア演算部４７３は評価スコア演算部３３２と、出力文書抽出部４７４は出力文書抽出部３４と、それぞれ、同様の処理を行う手段である。
【０１０１】
質問応答システム４の文書検索部４７は、キーワードの集合Ｗをもとに文書データベース２から取り込んだ文書Ｄそのものを検索対象とし、文書検索システム３の評価スコア算出部３３とほぼ同様に、式（Ｂ）を用いたアルゴリズムにより評価スコアｓｃｏｒｅ（Ｄ）を算出して文書を検索する手段である。
【０１０２】
具体例として、ユーザから質問文「間接照応解析の精度はいくつですか。」が与えられたとする。質問応答システム４の質問文入力部４１は、この質問文を入力する。そして、解表現予測部４２では、入力された質問文からどういうものが解答としてふさわしいかを解析して解表現を予測する。例えば、質問文が「Ｘはどのくらい」、「Ｘはいくつ」などであれば解は「数量表現」であると予測する。また質問文が「Ｘはいつ」であれば解は「時間表現」であると、質問文が「Ｘはどこ」であれば解は「場所表現」と予測する。ここで、質問文が「いくつですか。」であることから、解表現予測部４２は、解となりうる表現が「数量表現」であると予測する。
【０１０３】
さらに、キーワード抽出部４３では、質問文を解析して「間接照応」、「精度」および「％」をキーワードの集合Ｗとして抽出する。キーワード抽出部４３は、ＪＵＭＡＮやＣＨＡＳＥＮなど既知の形態素解析手法を用いて形態素解析を行い、名詞と推定された形態素をキーワードの集合Ｗとして取り出す。
【０１０４】
文書検索部４４は、前記の式（Ａ）を用いるアルゴリズムにより文書データベース２の文書Ｄを評価し、評価スコアｓｃｏｒｅ（Ｄ）が高い上位ｎ個の文書を抽出する。別の構成である文書検索部４７では、前記の式（Ｂ）を用いるアルゴリズムにより文書データベース２の文書Ｄを評価し、評価スコアｓｃｏｒｅ（Ｄ）が高い上位ｎ個の文書を抽出する。図１０に、文書データベース２から上位ｎ個以内に抽出された文書の例を示す。
【０１０５】
その後、解抽出部４５は、ｎ個の文書から、予測された解表現に適合する表現を抜き出して解答出力部４６へ渡す。解表現予測部４２が「数量表現」であると予測しているので、例えば図１０に示す文書Ｄから「数量表現」に適合する「６８％」を解表現として抽出する。解答出力部４６は、受け取った解表現を解答として、例えば「６８％です」などの文を出力する。
【０１０６】
なお、従来の質問応答システムのように文書をパッセージ（ここでは３文の集合）に分割して文書検索を行う場合には、図１０の文書Ｄは破線で示す分割境界線により３つのパッセージに分割される。そのため、文書Ｄの解答が記述されたパッセージが文書検索で抽出されず高い精度の解答が出力されないことが明らかである。
【０１０７】
図１１に、質問応答システム４の処理の流れを示す。質問応答システム４において、まず、質問文入力部４１は、質問文を入力し（ステップＳ４０）、解表現予測部４２は、質問文を解析して質問文にふさわしい解表現を予測する（ステップＳ４１）。さらに、キーワード抽出部４３は、質問文を形態素解析して名詞として推定されるものをキーワードの集合Ｗとして取り出す（ステップＳ４２）。
【０１０８】
文書検索部４４または文書検索部４７は、キーワードの集合Ｗを用いて文書データベース２から１つ取り出した文書Ｄを検索する（ステップＳ４３）。文書検索部４４は、式（Ａ）のアルゴリズムを用いて文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）を算出し、もしくは文書検索部４７は、式（Ｂ）のアルゴリズムを用いて文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）を算出する。そして、文書検索部４４および文書検索部４７のいずれも、評価スコアｓｃｏｒｅ（Ｄ）が高い上位ｎ個の文書を抽出する。
【０１０９】
次に、解抽出部４５は、上位ｎ個の文書から、予測した解表現に適合する表現を抽出して（ステップＳ４４）、抽出された解表現を質問文にあう解答として出力する（ステップＳ４５）。
【０１１０】
本形態において、本発明にかかる質問応答システム４では、文書検索の際に、文書単位で検索を行い、かつ、質問文から抽出したキーワードの集合Ｗがより近くにある文書ほど質問文に関連が高いと考える。したがって、「キーワードが離れて出現する不適合な文書」については、抽出しないか、もしくは、そのような文書の評価スコアｓｃｏｒｅ（Ｄ）の値を小さくする。
【０１１１】
また、「キーワードが離れて出現するが重要な文書」が存在する場合は、そのような文書でもキーワードの集合Ｗの要素である個々のキーワードの出現をすべて確認することができるため、キーワードの集合Ｗを取り出すことができ、評価スコアｓｃｏｒｅ（Ｄ）の値を大きくする。
【０１１２】
ここで、「キーワードが離れて出現するが重要な文書」だけでなく、「キーワードが近接して出現するが重要な文書」が存在すれば、この「キーワードが近接して出現するが重要な文書」の方が大きな評価スコア値を持つことになるので、「キーワードが近接して出現するが重要な文書」が文書検索により抽出され、この文書から解を抽出しうることになる。
【０１１３】
また、「キーワードが近接して出現するが重要な文書」が存在しない場合は、「キーワードが離れて出現する文書」がおそらく重要な文書になり、この文書が比較的大きな評価スコア値を持つために抽出されることになる。
【０１１４】
これらのことから、質問応答システム４では、
「多くのキーワードが近接して出現する文書」、
「多くのキーワードが離れて出現する文書」、
「少しのキーワードが近接して出現する文書」、
「少しのキーワードが離れて出現する文書」、
の順位で文書に高い評価スコアｓｃｏｒｅ（Ｄ）を付与することになり、この順位づけにもとづいて文書を抽出することができるため、解が記述してありそうな順序で文書を抽出することが可能となる。
【０１１５】
通常、「多くのキーワードが離れて出現する文書」および「少しのキーワードが近接して出現する文書」に着目すると、どちらが評価スコアの値が大きくなるかは不明瞭である。あまりにキーワードが離れすぎて出現している場合には「少しのキーワードが近接して出現する文書」の方がよい場合もありうる。しかし、質問応答システム４の文書検索部４４は、キーワードの出現の珍しさと、キーワードが近接していることの珍しさとを統一したアルゴリズムで文書を評価するので、このような文書間での評価も可能となる。
【０１１６】
〔第４の実施の形態〕
第４の実施の形態として、別の構成をとる質問応答システムを説明する。
【０１１７】
本形態では、質問応答システムは、文書検索の際に、一般的なキーワード検索を行い、その検索結果に対して、前記式（Ａ）もしくは式（Ｂ）によるアルゴリズムを用いた文書検索を行うようにする。これにより、一般的な高速な文書検索によりある程度の文書を抽出しておき、さらに抽出した文書に対してのみ本発明にかかる文書検索処理方法を用いて検索を行うことにより、文書検索を高速かつ高精度に行うことが可能となる。
【０１１８】
図１２に、第４の実施の形態における質問応答システムの構成例を示す。質問応答システム５は、質問文入力部５１、解表現予測部５２、キーワード抽出部５３、文書検索部５４、文書スコア再計算部５５、解抽出部５６、および解答出力部５７を備える。
【０１１９】
質問文入力部５１は質問応答システム４の質問文入力部４１と、解表現予測部５２は解表現予測部４２と、キーワード抽出部５３はキーワード抽出部４３と、解抽出部５６は解抽出部４５と、解答出力部５７は解答出力部４６と、それぞれ同様の処理を行う手段である。
【０１２０】
文書検索部５４は、キーワードをもとに文書データベース２の文書について一般的な文書検索を行い所定数の文書を抽出する手段である。
【０１２１】
文書スコア再計算部５５は、文書検索部５４で抽出された文書について、式（Ａ）より評価スコアｓｃｏｒｅ（Ｄ）を計算し、評価スコアが高い文書を抽出する手段である。
【０１２２】
文書スコア再計算部５５は、領域仮定部５５１、キーワード仮定部５５２、および評価スコア演算部５５３を備える。領域仮定部５５１は質問応答システム４の領域仮定部４４２と、キーワード仮定部５５２はキーワード仮定部４４３と、評価スコア演算部５５３は評価スコア演算部４４４と、それぞれ、同様の処理を行う手段である。
【０１２３】
また、質問応答システム５は、図１３に示すように、文書スコア再計算部５５の代わりに、別の構成をとる文書スコア再計算部５８を備えるようにしてもよい。
【０１２４】
文書スコア再計算部５８は、文書検索部５４で抽出された文書について、式（Ｂ）により評価スコアを計算し、評価スコアが高い文書を抽出する手段である。文書スコア再計算部５８は、キーワード仮定部５８１、および評価スコア演算部５８２を備える。キーワード仮定部５８１は質問応答システム４のキーワード仮定部４７２と、評価スコア演算部５８２は評価スコア演算部４７３と、それぞれ、同様の処理を行う手段である。
【０１２５】
図１４に、質問応答システム５の処理の流れを示す。質問応答システム５において、まず、質問文入力部５１は、質問文を入力し（ステップＳ５０）、解表現予測部５２は、質問文を解析して質問文にふさわしい解表現を予測する（ステップＳ５１）。さらに、キーワード抽出部５３は、質問文を形態素解析して名詞と推定したものをキーワードの集合Ｗとして取り出す（ステップＳ５２）。
【０１２６】
文書検索部５４は、キーワードの集合Ｗを用いて文書を検索する。このとき既知の高速な検索アルゴリズムを用いて評価値が高い上位ｍ個の文書を抽出する（ステップＳ５３）。
【０１２７】
そして、文書スコア再計算部５５または文書スコア再計算部５８は、渡された上位ｍ個の文書についてだけ、キーワードの集合Ｗを用いて式（Ａ）もしくは式（Ｂ）のアルゴリズムで評価スコアを再計算し、評価スコアｓｃｏｒｅ（Ｄ）の値が高い上位ｎ個の文書を抽出する（ステップＳ５４）。
【０１２８】
そして、解抽出部５６は、上位ｎ個の文書から、予測した解表現に適合する表現を抽出して（ステップＳ５５）、解答出力部５７は、抽出された解表現を質問文に適合する解答として出力する（ステップＳ５６）。
【０１２９】
〔第５の実施の形態〕
第５の実施の形態として、別の構成をとる質問応答システムを説明する。
【０１３０】
既に述べたように、質問応答システムの解抽出の際に、
評価情報ｖ１：キーワードとの近接性、
評価情報ｖ２：質問文の疑問表現の意味情報からの絞り込み、
の２つの評価情報を用いて解抽出を行う場合がある。
【０１３１】
評価情報ｖ１は、解はキーワードの近くに記述してあるだろうという考え方に基づくものである。評価情報ｖ２は、例えば質問文が「間接照応解析の精度はいくつですか。」だとすると、解は数量表現であると予想できるので、なるべく数量表現を解として選択しようとする考え方に基づくものである。これらの２つの評価情報を組み合わせることにより、キーワードの近くに出現する数量表現を解として抽出することができ、例えば図１０の文書Ｄから「６８％」などの解を抽出することができる。
【０１３２】
本形態における質問応答システムは、解抽出の際の評価情報ｖ１「キーワードの近接性」を用いた評価において、式（Ｂ）のアルゴリズムを応用してキーワードの近接性を評価する。質問応答システムは、以下の式（Ｃ）を用いる。
【０１３３】

式（Ｃ）では、式（Ｂ）からの変更として、キーワードｗ１をｗ１∈Ｗとせずに、ｗ１は前記の評価情報ｖ２「質問文の疑問表現の意味時からの絞り込み」を満足する同一文書Ｄ中の任意の語（解の表現）のみとしておく。また、ｍａｘはｗ１でとらずに文書Ｄでとり、ｓｃｏｒｅはｗ１を引数とする。
【０１３４】
この新しい条件のもとで、文書検索の処理で抽出した文書について、ｓｃｏｒｅ（ｗ１）を計算し、ｓｃｏｒｅ（ｗ１）の値が最も大きいキーワードｗ１を「解」と判断し、そのときの文書Ｄを「解が記述してある文書」と判断する。このように解抽出を行うことにより、式（Ｂ）と同等の意味で、与えられたキーワードの集合が最も近接した距離で出現しているキーワードｗ１すなわち解表現を取り出すことができる。
【０１３５】
図１５に、質問応答システム６の構成例を示す。質問応答システム６は、質問文入力部６１、解表現予測部６２、キーワード抽出部６３、文書検索部６４、解抽出部６５、および解答出力部６６を備える。
【０１３６】
質問文入力部６１は質問応答システム４の質問文入力部４１と、解表現予測部６２は解表現予測部４２と、キーワード抽出部６３はキーワード抽出部４３と、解答出力部６６は解答出力部４６と、それぞれ同様の処理を行う手段である。
【０１３７】
文書検索部６４は、文書検索部４４または文書検索部４７のいずれかと同様の処理を行う手段である。なお、文書検索部６４は、文書検索のアルゴリズムとして既知の高速な文書検索処理方法を用いてもよい。
【０１３８】
解抽出部６５は、文書検索部６４から渡された文書およびキーワードをもとに、前記の評価情報ｖ１および評価情報ｖ２を用いた解抽出手法を用いて解を抽出する手段であって、評価情報ｖ１による評価において、前記の式（Ｃ）を用いた評価を行うものである。解抽出部６５は、解表現仮定部６５１と評価スコア演算部６５２とを備える。
【０１３９】
解表現仮定部６５１は、文書検索部６４から渡された文書を解析し、解となりうる表現（解候補）を順次抽出してキーワードｗ１と仮定する手段である。解表現仮定部６５１は、例えばｎ個の形態素連続となるような表現は全て解となりうる表現であるとして、該当する表現をキーワードｗ１と仮定する。なお、該当する表現が多過ぎる場合には、抽出したｎ個の形態素連続の表現のうち、助詞を含む表現を除去したものをキーワードｗ１と仮定してもよい。
【０１４０】
評価スコア演算部６５２は、以下の、前記の式（Ｃ）を用いて評価スコアを算出する。すなわち、
Σ (log(N/df(w2)/dist(w1,w2)/2))
（Σは、部分集合Ｗ３の要素ｗ２で加算）
の値を計算して、値Ｖを保持する。そして、評価スコア演算部６５２は、キーワードｗ１になりうる解候補すべてについて処理を行い、値Ｖの最大値をキーワードｗ１の評価スコアｓｃｏｒｅ（ｗ１）とし、ｓｃｏｒｅ（ｗ１）の値が高い上位ｎ個のキーワードｗ１を抽出して、解答出力部６６に渡す。解答出力部６６は、解抽出部６５から渡されたｎ個のキーワードｗ１を解答として出力する。
【０１４１】
これにより、質問文の表現に意味的に適合する表現であって、かつ、文書検索された文書群において、与えられたキーワードの集合と最も近接して出現するキーワードｗ１が重要な解候補であるとして抽出されることになる。
【０１４２】
なお、この値Ｖの算出の際に、解候補であるキーワードｗ１が、解表現予測部６２により特に解表現となりやすいと推定されている場合には、値Ｖに特別な加点をしてもよく、逆に、解表現としてあまりふさわしくないと推定されている場合には値Ｖに特別な減点をしてもよい。例えば、解表現予測部６２が、解表現は数量表現であると予測している場合に、評価スコア演算部６５２は、キーワードｗ１が数量表現であれば値Ｖに所定の値を加算する。また、キーワードｗ１が場所表現であれば値Ｖから所定の値を減算する。
【０１４３】
ここで、キーワードｗ１が数量表現であるか否かの判定は、どのような表現であれば数量表現であるかを示す規則を予め用意しておき、その規則にもとづいて判定する。また、どのような表現が数量表現であり、また数量表現でないかを示した学習データを用意して機械学習を行い、その学習結果にもとづいて判定を行うようにしてもよい。また、規則にもとづく方法と学習結果にもとづく方法を併用してもよい。
【０１４４】
具体例として、図１６に示すような文書Ｄがあるときに、質問文「間接照応解析の精度はいくつですか。」が与えられたとする。
【０１４５】
質問文入力部６１が質問文を入力すると、解表現予測部６２は、質問文を解析して解が「数値表現」であると予測する。さらに、キーワード抽出部６３は、質問文を形態素解析して、「間接照応」、「解析」および「精度」をキーワードの集合Ｗとして抽出する。
【０１４６】
文書検索部６４は、例えば文書検索部４７と同様の処理により文書に評価スコアを付与し、評価スコアの値が高い上位ｎ個の文書を抽出する。文書検索部６４は、文書Ｄについて、キーワードの集合Ｗのうち「精度」がキーワードｗ１であって「間接照応」と「解析」とがキーワードの集合Ｗ３の要素であるキーワードｗ２である場合に、式（Ｂ）の値が高いとして評価スコアｓｃｏｒｅ（Ｄ）を付与する。そして、その文書Ｄの評価スコアｓｃｏｒｅ（Ｄ）の値が、文書データベース２の文書中で比較的高い値を持つときは、上位ｎ個以内の文書として文書Ｄも抽出される。
【０１４７】
解抽出部６５の解表現仮定部６５１は、文書検索部６４が抽出した文書Ｄから解となりうる表現（解候補）を順にキーワードｗ１と仮定する。例えば、文書検索部６４が抽出した図１６に示す文書Ｄ中の「６８％」をキーワードｗ１とする。
【０１４８】
評価スコア演算部６５２は、抽出された文書すべてについて、キーワードｗ１の評価スコアｓｃｏｒｅ（ｗ１）を式（Ｃ）を用いて算出する。図１６に示す文書Ｄで、「６８％」がキーワードｗ１、「間接照応」、「精度」および「解析」がキーワードｗ２であった場合に、式（Ｃ）により求めたキーワードｗ１の評価スコアｓｃｏｒｅ（ｗ１）が最も高い値となるとき、その値がｓｃｏｒｅ（ｗ１）となる。ここで、キーワードｗ１が解候補の上位となり、文書Ｄが「解が記述されている文書」となる。したがって、解抽出部６５は、キーワードｗ１「６８％」を解として、図１６に示す文書Ｄを解が記述されている解記述文書として抽出する。
【０１４９】
解答出力部６６は、この解表現「６８％」を解答として出力する。また、解記述文書として文書Ｄの情報、文書Ｄ中に解答「６８％」が記述されている位置の情報などを併せて出力する。
【０１５０】
図１７に、質問応答システム６の処理の流れを示す。質問応答システム６において、質問文入力部６１は、質問文を入力し（ステップＳ６０）、解表現予測部６２は、質問文を解析して質問文にふさわしい解表現を予測し（ステップＳ６１）、キーワード抽出部６３は、質問文を形態素解析して名詞として推定されるものをキーワードの集合Ｗとして取り出す（ステップＳ６２）。文書検索部６４は、キーワードの集合Ｗを用いて、前記の式（Ａ）のアルゴリズム、式（Ｂ）のアルゴリズムまたは既知の高速な検索アルゴリズムにより、文書に評価スコアｓｃｏｒｅ（Ｄ）を付与し、評価スコアの値が高い上位ｎ個の文書を抽出する（ステップＳ６３）。
【０１５１】
そして、解抽出部６５は、抽出された上位ｎ個の文書から、式（Ｃ）のアルゴリズムを用いて、予測した解表現に適合する表現としてキーワードｗ１を抽出し（ステップＳ６４）、解答出力部６６は、抽出されたキーワードｗ１である解表現を解答として出力する（ステップＳ６５）。
【０１５２】
図１８に、ステップＳ６４の処理の詳細な処理の流れを示す。
【０１５３】
解抽出部６５において、解表現仮定部６５１は、文書検索部６４が抽出した文書Ｄを順に１つ取り込み（ステップＳ７０）、文書中で解となりうる表現（解候補）を順次抽出してキーワードｗ１と仮定する。まず、１つ目の表現をキーワードｗ１と仮定する。キーワードの集合Ｗの要素をキーワードｗ２とする（ステップＳ７１）。
【０１５４】
評価スコア演算部６５２は、現時点の文書Ｄとキーワードｗ１、ｗ２とを用いて、
Σ (log(N/df(w2)/dist(w1,w2)/2))
（Σは、部分集合Ｗ３の要素ｗ２で加算）
を計算し、その値Ｖを保持する（ステップＳ７２）。そして、値Ｖをキーワードｗ１の評価スコアｓｃｏｒｅ（ｗ１）とする（ステップＳ７３）。ここで、既にキーワードｗ１の評価スコアｓｃｏｒｅ（ｗ１）を求めていた場合には、今回求めた値Ｖと既に求めた評価スコアｓｃｏｒｅ（ｗ１）の大きいほうをキーワードｗ１の評価スコアｓｃｏｒｅ（ｗ１）とする。
【０１５５】
解抽出部６５は、解となりうる表現がすべてキーワードｗ１として仮定されたかどうかをチェックし（ステップＳ７４）、すべての表現がキーワードｗ１として仮定されていなければステップＳ７１の処理へ戻り、すべての表現がキーワードｗ１として仮定されていれば、さらに、抽出されたすべての文書Ｄについて処理が済んでいるかどうかをチェックし（ステップＳ７５）、すべての文書が処理済みでなければステップＳ７０の処理へ戻る。すべての文書が処理済みであれば、解抽出部６５は、評価スコアｓｃｏｒｅ（ｗ１）の値が高い上位ｎ個のキーワードｗ１を抽出する（ステップＳ７６）。
【０１５６】
以上、本発明をその実施の形態により説明したが、本発明はその主旨の範囲において種々の変形が可能であることは当然である。本発明の各手段または機能または要素は、コンピュータにより読み取られ実行される処理プログラムとして実現することができる。また、本発明を実現する処理プログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
【０１５７】
【発明の効果】
以上説明したように、本発明によれば、文書検索において、確率的にキーワードの近接性を利用し、キーワードが近接するほど文書の評価をよいと考えて、評価のよい文書を抽出する。すなわち、文書内で領域を仮定し、その領域にキーワードが出現する確率をもとにキーワードの出現パターンの出現確率を算出し、この出現確率が小さいほどその文書の評価をよいとする。また、与えられたキーワードから一つの起点キーワードを仮定し、その起点キーワードからキーワードへの距離以内に、これらのキーワードが出現する確率をもとにキーワードの出現パターンの出現確率を算出し、この出現確率が小さいほどその文書の評価をよいとする。
【０１５８】
これにより、従来では提示されていなかった確率論上の理論に基づいた文書評価のアルゴリズムにもとづく高精度の文書検索処理方法を提供することができる。
【０１５９】
また、本発明では、文書中でのキーワードの位置情報も検索結果として出力することになる。これにより、検索結果として、文書だけでなく文書内におけるキーワードの位置情報も併せて取得することができ、ユーザが検索結果をより有効に活用できる文書検索処理方法を提供することができる。
【０１６０】
このように、本発明にかかる文書検索処理方法は、インターネットなどの情報検索ソフトウェアなどがＷＷＷ（World Wide Web）上の文書を検索する場合にも適用できるものであり、高い有用性を備える。
【０１６１】
また、本発明にかかる質問応答システムでは、従来の質問応答システムのように、文書検索を小さなパッセージに分割せずに、文書そのままを検索対象として前記の文書検索処理方法を用いた文書検索を行う。その際に、質問文から抽出されたキーワードの近接性を利用して、従来では抽出できなかった文書、すなわち「キーワードと離れて記述されている解表現を持つような文書」についても解抽出の対象となる文書として文書検索を行った上で、「解が記述されているとは想定できないような文書」の評価が低くなるようにして解表現を抽出する。これにより、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【０１６２】
また、本発明にかかる質問応答システムは、解表現を抽出する際に、解となりうると仮定した解表現と質問文から抽出したキーワードとの距離の近接性を利用して、キーワードとより近接する解表現の評価を高くする。すなわち、文書から解表現を仮定し、この解表現を起点に、質問文から抽出したキーワードへの距離の範囲内に解表現およびキーワードの組が出現する確率をもとにこの組の出現パターンの出現確率を算出し、この出現確率が大きくなる解表現の評価をよいとする。
【０１６３】
これによっても、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【図面の簡単な説明】
【図１】第１の実施の形態における文書検索システムの構成例を示す図である。
【図２】文書データベースに記憶されている文書の例を示す図である。
【図３】図２に示す文書において、評価スコアがよい領域の例を示す図である。
【図４】第１の実施の形態における文書検索システムの処理の流れを示す図である。
【図５】第２の実施の形態における文書検索システムの構成例を示す図である。
【図６】文書中のキーワードｗ１およびキーワードｗ２を説明するための図である。
【図７】第２の実施の形態における文書検索システムの処理の流れを示す図である。
【図８】第３の実施の形態における質問応答システムの構成例を示す図である。
【図９】第３の実施の形態における質問応答システムの別の構成例を示す図である。
【図１０】文書データベースに記憶されている文書の例を示す図である。
【図１１】第３の実施の形態における質問応答システムの処理の流れを示す図である。
【図１２】第４の実施の形態における質問応答システムの構成例を示す図である。
【図１３】第４の実施の形態における質問応答システムの別の構成例を示す図である。
【図１４】第４の実施の形態における質問応答システムの処理の流れを示す図である。
【図１５】第５の実施の形態における質問応答システムの構成例を示す図である。
【図１６】文書中のキーワードｗ１およびキーワードｗ２を説明するための図である。
【図１７】第５の実施の形態における質問応答システムの処理の流れを示す図である。
【図１８】図１７に示すステップＳ６４の詳細な処理の流れを示す図である。
【符号の説明】
１文書検索システム
１１キーワード入力部
１２文書取り込み部
１３評価スコア算出部
１３１領域仮定部
１３２キーワード仮定部
１３３評価スコア演算部
１４出力文書抽出部
１５出力整形部
２文書データベース
３文書検索システム
３１キーワード入力部
３２文書取り込み部
３３評価スコア算出部
３３１キーワード仮定部
３３２評価スコア演算部
３４出力文書抽出部
３５出力整形部
４質問応答システム
４１質問文入力部
４２解表現予測部
４３キーワード抽出部
４４文書検索部
４４１文書取り込み部
４４２領域仮定部
４４３キーワード仮定部
４４４評価スコア演算部
４４５出力文書抽出部
４５解抽出部
４６解答出力部
４７文書検索部
４７１文書取り込み部
４７２キーワード仮定部
４７３評価スコア演算部
４７４出力文書抽出部
５質問応答システム
５１質問文入力部
５２解表現予測部
５３キーワード抽出部
５４文書検索部
５５文書スコア再計算部
５５１領域仮定部
５５２キーワード仮定部
５５３評価スコア演算部
５６解抽出部
５７解答出力部
５８文書スコア再計算部
５８１キーワード仮定部
５８２評価スコア演算部
６質問応答システム
６１質問文入力部
６２解表現予測部
６３キーワード抽出部
６４文書検索部
６５解抽出部
６５１解表現仮定部
６５２評価スコア演算部
６６解答出力部

Claims

文書取り込み部、領域仮定部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
前記領域仮定部が、前記取得した文書に所定の領域を仮定するステップと、
前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
前記キーワード仮定部が、前記入力されたキーワードの集合から１以上のキーワードを抽出してキーワード部分集合を生成するステップと、
前記評価スコア演算部が、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Ｑを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Ｐを求め、前記積Ｑに前記数Ｐとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
ことを特徴とする文書検索処理方法。
文書取り込み部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
前記キーワード仮定部が、前記キーワードの集合の１つのキーワードを第１キーワードと設定し、前記キーワードの集合の前記第１キーワード以外のキーワードを第２キーワードと設定するステップと、
前記評価スコア演算部が、前記第１キーワードと前記第２キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第２キーワードの個々について、当該第２キーワードの出現確率と、当該第２キーワードと前記第１キーワード間の距離にもとづいて求めた値を、前記第２キーワードの出現したものの分だけ掛け合わせた積Ｑを求め、前記積Ｑに前記第１キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
ことを特徴とする文書検索処理方法。
電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
電子化された文書群を記憶する文書データベースと、
前記文書データベースから文書を取得する処理手段と、
前記文書に所定の領域を仮定する処理手段と、
複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
前記入力されたキーワードの集合から１以上のキーワードを抽出してキーワード部分集合を生成する処理手段と、
前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせて値Ｑを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Ｐを求め、前記積Ｑに前記数Ｐとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
ことを特徴とする文書検索システム。
電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
電子化された文書群を記憶する文書データベースと、
前記文書データベースから文書を取得する処理手段と、
複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
前記キーワードの集合の１つのキーワードを第１キーワードと設定し、前記キーワードの集合の前記第１キーワード以外のキーワードを第２キーワードと設定する処理手段と、
前記文書に出現する前記第１キーワードと前記第２キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第２キーワードの個々のキーワードについて、当該第２キーワードの出現確率と、当該第２キーワードと前記第１キーワード間の距離にもとづいて求めた値を、前記文書に出現した第２キーワードの分だけ掛け合わせた積Ｑを求め、前記積Ｑに前記第１キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
ことを特徴とする文書検索システム。