JP3799447B2 - 文書検索処理方法および文書検索システム - Google Patents

文書検索処理方法および文書検索システム Download PDF

Info

Publication number
JP3799447B2
JP3799447B2 JP2002292962A JP2002292962A JP3799447B2 JP 3799447 B2 JP3799447 B2 JP 3799447B2 JP 2002292962 A JP2002292962 A JP 2002292962A JP 2002292962 A JP2002292962 A JP 2002292962A JP 3799447 B2 JP3799447 B2 JP 3799447B2
Authority
JP
Japan
Prior art keywords
keyword
document
keywords
unit
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002292962A
Other languages
English (en)
Other versions
JP2004127131A (ja
Inventor
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2002292962A priority Critical patent/JP3799447B2/ja
Publication of JP2004127131A publication Critical patent/JP2004127131A/ja
Application granted granted Critical
Publication of JP3799447B2 publication Critical patent/JP3799447B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータによる情報検索処理技術に関する。特に、電子化された文書群からキーワードを照合して適合する文書を検索する文書検索処理方法、文書検索システム、および前記文書検索処理方法を利用した質問応答システムに関する。
【0002】
近年では多数の電子化された文書が存在する。この電子化された文書を記録した文書データベースなどから効率よく検索できることが重要である。
【0003】
【従来の技術】
電子化された文書群を検索する文書検索処理方法として、いくつかの手法がある。基本的な方法としてTF・IDF法が知られている。TF・IDF法は、単語の頻度情報を用いた検索手法であって、単語(キーワード)が文書内に出現する頻度(tf:Term Frequency)、および単語が出現する文書頻度(df:Document Frequency)の逆数をもちいて、以下の式により、より少ない文書に偏って出現するキーワードが多い場合にそのキーワードの重要度が高いものとして、かかるキーワードが多く出現する文書をよいと評価して評価スコアscore(D)が高い文書を検索結果として出力する。
【0004】
score(D) =Σ((tf(w,D) * log(N/df(w)))
(Σは、集合Wの要素wで加算)
W:ユーザが入力するキーワードの集合、
tf(w,D):文書Dでのwの出現回数、
df(w):全文書でwが出現した文書の数、
N:文書の総数。
【0005】
また、近年ではキーワードの出現位置に着目して、文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える検索方法が有力であり、例えば、非特許文献1に提示された方法がある。非特許文献1で参照するRobertsonらのOkapi weightingの(1)式は、検索性能が高いことが知られている。また、非特許文献1で発明者らが提唱した(2)式は、新聞記事などのように記事のタイトルや記事の冒頭の文が重要であるような文書では検索性能がよいことが知られている。
【0006】
また、キーワードの近接性を利用した文書検索はいくつか存在するが、例えば、非特許文献2に提示された方法などがある。非特許文献2に提示された方法は、そのキーワード同士の関連が高い場合に、キーワードが共起出現する距離が近いことは、その出現部分が局所的に重要であるとして、キーワードの出現位置を重要度付与の要素とするものである。
【0007】
ところで、文書検索処理方法を適用する言語処理システムとして質問応答システムがある。質問応答システムは、自然言語による質問文「間接照応解析の精度はいくつですか」に対して「68%」などを解答として出力する処理システムである。一般的な、質問応答システムは、概ね以下のような処理を行う。
【0008】
第1の手順:質問文からキーワードを取り出す。例えば、質問文「間接照応解析の精度はいくつですか」から、「間接照応」「解析」「精度」などをキーワードとして抽出する。
【0009】
第2の手順:文書データベースの文書とキーワードとを照合して、適合する文書を取り出す。抽出したキーワードの集合を含む文書に、質問の解が記述されていることが期待できるからである。解が記述してある文書の候補として、20ぐらいの文書を取り出す。
【0010】
第3の手順:候補として抽出した文書から解としてふさわしい表現を抜き出し、抜き出した表現を解答として出力する。
【0011】
【非特許文献1】
村田真樹,他5名,”位置情報と分野情報を用いた情報検索”,自然言語処理(言語処理学会誌),言語処理学会,2000年,7巻,2号,p.141−160
【非特許文献2】
高木徹,他1名,”単語出現共起関係を用いた文書重要度付与の検討”,情報学基礎研究会誌,情報処理学会,1996年,FI−41−8,p.61−68
【0012】
【発明が解決しようとする課題】
しかし、非特許文献1で提示されている、文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える従来の文書検索処理方法では、一文書の量が多い場合には文書内でキーワードが分散して存在しているため、単語頻度に引きずられてそれほど重要でない文書を抽出してしまう可能性がある。
【0013】
また、非特許文献2で提示されている手法は、(11)式〜(14)式に示すように、キーワードが近接して出現するときにそのキーワードの出現回数を増加させて扱うものであって、確率論上の理論に基づいているものではなく、いわば経験的に得られた手法であって精度の面に問題があると考えられる。
【0014】
さらに、文書検索では、文書単位の検索の他に、パッセージ(ある意味のまとまり、段落などの文書の部分単位)を検索する場合がある。例えば、現在ユーザから示されたキーワードに適合する内容は、ある文書の中でも、この段落のあたりですよと、さらに文書中での位置情報も検索結果として与えるものである。かかる位置情報をも含めた検索結果は、単に文書ごとの検索よりもユーザにとって便利である。そのため、文書検索の結果とともにキーワードとの関連性が高い部分を高い精度で提示できる手法が望まれている。
【0015】
また、従来の質問応答システムの前記第2の手順では、一般的に文書を段落や3文程度の文の連続(パッセージと定義する)に分割し、文書をパッセージごとに分割して保管しておき、このパッセージを一文書の単位として扱ってキーワードによる文書検索を行なう。
【0016】
文書を分割してパッセージを単位として文書検索する手法は、質問応答システムで出力されるべき解が一般的にキーワードの近くに記述してあることが多いため、キーワードと解とが近接して出現するはずであり、文書をパッセージに分割して処理しても解とキーワードとが分断されてしまうことは少ないだろうという前提に基づくものである。さらには、前記の第2の手順で、長い文書そのままを単位として文書検索を行なった場合には、主要なキーワードが長い文書において離れて出現するような文書、すなわち解が記述されているとは想定できないような文書をも抽出してしまう可能性があるため、かかる不適合な文書の抽出を生じないようにするためである。
【0017】
しかし、実際には、長い文書においてキーワードと解とがパッセージの区切りを越えて出現することは大いにありうる。例えば、あるキーワードが文書の文頭の部分に記述されているのみでそれ以降には出現せず、解が文書の最後の方に記述されているような文書がある場合に、この文書を3文の連続をパッセージとして区切って検索したときには、前記第2の手順の文書検索では、キーワードが出現するパッセージを抽出できても、解が記述されているパッセージを抽出することは困難である。したがって、文書を単純に短い単位に分割して文書検索を行う処理で第2の手順を構成するという従来の質問応答システムでは解の精度に問題があることがわかる。
【0018】
さらに、一般的な質問応答システムの前記第3の手順において、
評価情報v1:キーワードとの近接性、
評価情報v2:質問文の疑問表現の意味情報からの絞り込み
という2つの評価情報を用いる手法を採用する場合がある。この場合に、これらの評価情報の精度は解の精度につながると考えられる。そのため、精度のよい解を抽出できるように、解抽出でどのような評価情報を用いるかを考慮する必要がある。
【0019】
本発明の目的は、長い文書そのままを検索対象として、確率的にキーワードの近接性を利用した精度の高い文書検索処理方法を提供することである。
【0020】
さらに、本発明の目的は、文書内において与えられたキーワードとの関連性が高い部分がどこであるかという位置情報も出力できる文書検索処理方法を提供することである。
【0021】
また、本発明の目的は、上記文書検索処理方法を用いた精度の高い質問応答システムを提供することである。
【0022】
【課題を解決するための手段】
本発明は、上記の目的を達成するため、以下のような構成をとる。
【0023】
本発明は、コンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、以下の処理ステップを備えるものである。
【0024】
本発明は、文書取り込み部、領域仮定部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが行う処理方法であって、前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、前記領域仮定部が、前記取得した文書に所定の領域を仮定するステップと、前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、前記キーワード仮定部が、前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成するステップと、前記評価スコア演算部が、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える。
【0025】
または、本発明は、文書取り込み部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが行う処理方法であって、前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、前記キーワード仮定部が、前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定するステップと、前記評価スコア演算部が、前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々について、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記第2キーワードの出現したものの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える。
【0026】
また、本発明は、電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、以下の処理手段を備えるものである。
【0027】
本発明は、電子化された文書群を記憶する文書データベースと、前記文書データベースから文書を取得する処理手段と、前記文書に所定の領域を仮定する処理手段と、複数のキーワードで構成されたキーワードの集合を入力する処理手段と、前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成する処理手段と、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせて値Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える。
【0028】
また、本発明は、電子化された文書群を記憶する文書データベースと、前記文書データベースから文書を取得する処理手段と、複数のキーワードで構成されたキーワードの集合を入力する処理手段と、前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定する処理手段と、前記文書に出現する前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々のキーワードについて、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記文書に出現した第2キーワードの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える。
【0029】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力する質問文入力手段と、前記質問文から解となりうる表現である解表現を予測する解表現予測手段と、前記質問文からキーワードを抽出するキーワード抽出手段と、文書群から文書を取り込む文書取り込み手段と、前記文書中に前記キーワードが出現する頻度および前記キーワードの出現の近接度にもとづいて前記キーワードの出現パターンの出現確率を算出し、前記出現確率が小さいほど前記キーワードとの関連性が高い文書であると判断して、前記出現確率にもとづく評価スコアを前記文書に付与する評価スコア算出手段と、前記評価スコアをもとに前記文書群から文書を抽出する出力文書抽出手段と、前記抽出した文書から前記解表現に適合する解を抽出する解抽出手段とを備える。
【0030】
前記質問応答システムにおいて、前記評価スコア算出手段は、さらに、前記文書から領域を仮定する領域仮定手段を備え、前記文書ごとに、前記領域に前記キーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出し、前記文書で仮定したすべての領域についてそれぞれ算出した前記出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【0031】
また、前記質問応答システムにおいて、前記評価スコア算出手段は、前記文書ごとに、前記キーワードから一つの起点キーワードを仮定し、前記起点キーワードから他のキーワードまでの距離を求め、前記起点キーワードが出現する確率および前記距離以内に前記他のキーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出し、前記文書で仮定したすべての起点キーワードについてそれぞれ算出した前記キーワードの出現パターンの出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【0032】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力する質問文入力手段と、前記質問文から解となりうる表現である解表現を予測する解表現予測手段と、前記質問文からキーワードを抽出するキーワード抽出手段と、前記キーワードを前記文書群と参照して適合する文書を抽出する文書検索手段と、前記抽出した文書から前記解となりうる解表現を仮定する解表現仮定手段と、前記抽出した文書ごとに、前記文書中に前記解表現および前記キーワードが出現する頻度ならびに前記解表現および前記キーワードの出現の近接度にもとづいて前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する解抽出手段と、前記抽出した解表現を解答として出力する解答出力手段とを備える。
【0033】
前記質問応答システムにおいて、前記解抽出手段は、前記文書ごとに、解表現を仮定し、前記解表現から前記キーワードまでの距離を求め、前記解表現が出現する確率および前記距離以内に前記キーワードが出現する確率をもとに前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記仮定したすべての解表現について、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記抽出したすべての文書についてそれぞれ算出した前記組の出現パターンの出現確率のうち最小の出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する。
【0034】
本発明にかかる文書検索処理方法は、文書検索においてキーワードの近接性を重視するものである。与えられたキーワードの出現の分布である出現パターンの出現確率が小さいほど、すなわちキーワードの出現パターンが珍しいものであるほど、その出現パターンを含む文書の重要度が高いと評価することを前提にする。あるキーワード(集合)が近接して出現することの珍しさは、その出現する部分がキーワードとの関連性が高い部分であり、さらに、かかる範囲を含む文書の重要度も高いと見なすことができるからである。すなわち、キーワードの出現パターンの出現確率にもとづいた検索結果は偶然に得られる検索結果ではなく、重要な検索結果と考えられるからである。
【0035】
本発明にかかる文書検索処理方法は、文書データベースなどの電子化された文書群から文書を1つずつ取り込み、この文書から領域を1つずつ順に仮定する。そして、文書ごとに、仮定した領域にキーワードが出現する確率を求め、前記確率にもとづいて前記キーワードの出現パターンの出現確率を算出し、前記出現確率が小さいほど前記キーワードとの関連性が高い文書であると判断して、前記出現確率にもとづく評価スコアを前記文書に付与し、前記評価スコアが上位の文書を抽出して検索結果とする。
【0036】
また、前記出現確率を算出する場合に、前記文書から領域を1つずつ順に仮定し、前記文書ごとに、前記領域にキーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出する。そして、前記評価スコアを前記文書に付与する場合に、前記文書で仮定したすべての領域についてそれぞれ算出した前記出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【0037】
または、前記出現確率を算出する場合に、前記文書ごとに、前記キーワードから一つの起点キーワードを仮定し、前記起点キーワードから他のキーワードまでの距離を求め、前記起点キーワードが出現する確率および前記距離以内に前記他のキーワードが出現する確率をもとに前記キーワードの出現パターンの出現確率を算出する。そして、前記評価スコアを前記文書に付与する場合に、前記文書で仮定したすべての起点キーワードについてそれぞれ算出した前記キーワードの出現パターンの出現確率のうち最小の出現確率にもとづく評価スコアを前記文書に付与する。
【0038】
これにより、本発明にかかる文書検索処理方法は、従来では提示されていなかった確率論上の理論に基づくキーワードの近接性を利用した文書評価のアルゴリズムにもとづき、より精度の高い文書検索処理方法を提供することができる。
【0039】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力し、前記質問文から解となりうる解表現を予測し、前記質問文から複数のキーワードを抽出する。そして、文書データベースなどの文書群から文書を取り込み、前記文書中に前記キーワードが出現する頻度および前記キーワードの出現の近接度にもとづいて前記キーワードの出現パターンの出現確率を算出し、前記出現確率が小さいほど前記キーワードとの関連性が高い文書であると判断して、前記出現確率にもとづく評価スコアを前記文書に付与し、前記評価スコアをもとに前記文書群から文書を抽出する。その後、前記抽出した文書から前記解表現に適合する解を解答として抽出する。
【0040】
そして、前記評価スコアを算出する場合に、前記文書検索処理方法のいずれかを用いて、前記文書に評価スコアを付与する。
【0041】
また、本発明にかかる質問応答システムは、電子化された自然言語による質問文を入力し、前記質問文から解となりうる表現である解表現を予測し、前記質問文からキーワードを抽出し、前記キーワードを前記文書群と参照して適合する文書を抽出する。そして、前記抽出した文書から前記解となりうる解表現を仮定し、前記抽出した文書ごとに、前記文書中に前記解表現および前記キーワードが出現する頻度ならびに前記解表現および前記キーワードの出現の近接度にもとづいて前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する。そして、前記抽出した解表現を解答として出力する。
【0042】
前記質問応答システムで、解を抽出する場合に、前記文書ごとに、解表現を仮定し、前記解表現から前記キーワードまでの距離を求め、前記解表現が出現する確率および前記距離以内に前記キーワードが出現する確率をもとに前記解表現および前記キーワードの組の出現パターンの出現確率を算出し、前記仮定したすべての解表現について、前記組の出現パターンの出現確率が小さいほど前記キーワードとの関連性が高い解表現であると判断して、前記抽出したすべての文書についてそれぞれ算出した前記組の出現パターンの出現確率のうち最小の出現確率にもとづく評価値を前記解表現に付与し、前記評価値をもとに解表現を抽出する。
【0043】
これにより、本発明にかかる質問応答システムでは、従来の質問応答システムのように文書検索を小さなパッセージに分割して検索するのではなく、文書そのままを検索対象として文書を検索し、質問文から抽出されたキーワードの近接性を利用して、従来では抽出できなかった文書、すなわち「キーワードと離れて記述されている解表現を持つような文書」についても解抽出の対象となる文書として文書検索を行った上で、「解が記述されているとは想定できないような文書」の評価が低くなるようにして解表現を抽出し、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【0044】
さらに、本発明にかかる質問応答システムは、解表現を抽出する際に、解となりうると仮定した表現(解表現) と質問文から抽出したキーワードとの近接性を利用して、キーワードと近接する解表現の評価を高くし、この評価により解表現を出力するため、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【0045】
【発明の実施の形態】
以下、図を用いて本発明の実施の形態を説明する。
〔第1の実施の形態〕
第1の実施の形態において、本発明にかかる文書検索システムは、キーワードの出現パターンの出現確率として、文書内のある範囲(領域)を仮定し、その領域内で複数のキーワード(キーワード集合)が出現する確率を算出し、その出現確率をもとに文書に評価スコアを付与して、評価スコアの高い所定数の文書を検索結果として出力する。
【0046】
本形態において文書検索の際に、文書Dに評価スコアscore(D)を付与するアルゴリズムで用いる式(A)を説明する。式(A)は、基本的にキーワード集合の出現の状態がどれぐらい珍しいものかを計算するものである。
【0047】
Figure 0003799447
ここで、
P(X,Y):Y個の順序のついたものからX個の異なるものを取り出す場合の数を示す順列とよばれる演算子(P(X,Y)=Y!/(Y-X)!)、
N:文書の総数、
R:文書中の連続した範囲、
W:ユーザが入力するキーワードの集合、
W1:キーワードの集合Wのある部分集合、
w:部分集合W1のある要素(キーワード)
n1:部分集合W1のうちで領域Rに出現したキーワードwの種類の数、
n2:領域Rの大きさ(日本語の場合は領域Rの文字数とする)、
tf(w,D):文書Dでのキーワードwの出現回数、
occur(w,R):領域Rにキーワードwが出現すると1、そうでない場合には0とする、
^:指数を表す演算子であり、X^YはXのY乗を意味する。
【0048】
ここで、df(w)/Nは、個々のキーワードwの出現の確率であって、これの積がそれらのキーワードwが同時に出現する確率である。また、P(n1、n2)は、領域Rにそのようなキーワード部分集合W1が出現する場合の数であり、これらをかけたものは領域Rにそれらのキーワード部分集合W1が出現する確率となっている。
【0049】
この確率は、
P(n1,n2) *Π (df(w)/N)^occur(w,R))
(Πは、W1の要素wで掛け算) (a1)
である。この(a1)の確率が小さいほどキーワードの部分集合W1が出現する確率が小さく、出現の状態が珍しいことを意味する。ただし、この(a1)では領域Rに出現したキーワードのうち、部分集合W1に含まれるものだけのキーワードwを考えている。これは、与えられたすべてのキーワードの集合Wの出現を考えるよりもいくつかのキーワードを捨てた残りのキーワードwからなる部分集合W1の場合の確率の方が大きくなる場合を考慮してのことである。
【0050】
ここで単調減少関数−log(X)を使って、
- log ( P(n1,n2) *Π (df(w)/N)^occur(w,R)))
(Πは、W1の要素wで掛け算) (a2)
を構成する。この(a2)の値はキーワードの出現の珍しさを示すものである。したがって、キーワードの出現の珍しさの値が大きいほど、評価スコアscore(D)の値が高く、文書Dの評価が良いことになる。
【0051】
ここで、領域Rと部分集合W1は不定であったので、この珍しさを示す値を最大にする場合の領域Rと部分集合W1を用いることとし、最初にあげた式(A)が導出される。
【0052】
なお、単調減少関数−log(X)を使うことなく、(a1)で示す確率から直接評価スコアscore(D)を求めるようにしてもよい。この場合には、評価スコアscore(D)の値が小さいほど文書Dの評価が良いことになる。
【0053】
単調減少関数−log(X)を使うことなく出現パターンの出現確率を用いて前記出現確率が小さい文書ほど評価がよいと判断することと、本例のように単調減少関数−log(X)を使って出現パターンの珍しさを示す値を用いて前記珍しさが大きい文書ほど評価がよいと判断することは等価である。これは用いた関数−log(X)が単調減少関数であるからである。特許請求の範囲では、本発明について単調減少関数−log(X)を使わずに出現パターンの出現確率を利用して記述しており、本発明の実施の形態では、本発明について単調減少関数−log(X)を使って出現パターンの珍しさを利用して記述していることに留意されたい。なお、本形態で示すように、単調減少関数−log(X)を用い、掛け算の繰り返しを足し算の繰り返しとする処理の方が一般的であり、かつ、システムの構築も容易である。
【0054】
図1に、本形態における文書検索システムの構成例を示す。
【0055】
文書検索システム1は、キーワード入力部11、文書取り込み部12、評価スコア算出部13、出力文書抽出部14、出力整形部15、および文書データベース2から構成される。
【0056】
キーワード入力部11は検索で用いるキーワードの集合Wを入力する手段、文書取り込み部12は電子化された文書が記憶されている文書データベース2から文書Dを取り込む手段である。
【0057】
評価スコア算出部13は、文書取り込み部12が取り込んだ文書Dについて、確率的にキーワードの近接性を用いてキーワードの出現パターンの珍しさ(出現確率)にもとづいた評価スコアscore(D)を算出する手段である。評価スコア算出部13は、領域仮定部131、キーワード仮定部132、および評価スコア演算部133を備える。
【0058】
領域仮定部131は、文書D中から領域Rとなる部分を仮定する手段である。キーワード仮定部132は、与えられたキーワードの集合Wの部分集合となりうるキーワードの集合(部分集合)W1を仮定する手段である。評価スコア演算部133は、文書データベース2の文書Dについて、領域Rと部分集合W1とを用いて、前記の式(A)を演算する手段である。
【0059】
出力文書抽出部14は、文書Dに付与された評価スコアscore(D)をもとに、評価スコア値が高い文書を所定の数だけ抽出する手段である。出力整形部15は、予め定めた用途に合わせて出力文書抽出部14が抽出した文書を変形して、文書または所定のパッセージを出力する手段である。
【0060】
具体例として、ユーザから与えられたキーワードの集合Wが、「間接照応」、「精度」および「%」である場合について説明する。
【0061】
文書検索システム1のキーワード入力部11は、これらのキーワードの集合Wを取得し、文書取り込み部12は、文書データベース2から図2に示す文書Dを1つ取り込む。なお、長い文書に対する処理の方が本発明の効果は明確であるが、説明の便宜のために以下の短い文書Dを用いる。
【0062】
評価スコア算出部13は、領域仮定部131が仮定した文書D中の連続する範囲(領域R)に上記のキーワードの集合Wの部分集合W1(ここでは、キーワードの部分集合W1は「間接照応」、「精度」および「%」とする)が出現する確率をもとに、図2に示す文書の評価スコアscore(D)を前記の式(A)を用いて算出する。前記の(a2)に示すように、部分集合W1が出現する領域Rが小さくなるほど、部分集合W1の出現する確率値が小さくなり、その領域Rを含む文書Dの評価スコアscore(D)が高くなる。
【0063】
図3に、図2に示す文書において仮定されたある領域Rを破線の矩形で示す。この破線の矩形で示す領域R「%の精度で解析できた。このことは、名詞格フレーム辞書が存在しない現在においてもある程度の精度で間接照応」についてのキーワードの部分集合W1での評価スコアscore(D)の値が所定の範囲(例えば上位n個以内)であれば、出力文書抽出部14は、この領域Rを含む文書Dを抽出する。
【0064】
出力整形部15は、抽出された文書Dを所定の形式に変形して出力する。ここで、出力整形部15が、文書を検索するのではなく、関係する文書Dの一部、すなわち、パッセージを検索すると定義されている場合は、この領域Rを含む最小の文集合や段落集合をパッセージとして出力する。
【0065】
例えばパッセージが最小の文集合であると定義されていれば、以下のような文集合:
「この方法で、テストサンプルにおいて再現率63%、適合率68%の精度で解析できた。このことは、名詞格フレーム辞書が存在しない現在においてもある程度の精度で間接照応の解析ができることを意味している。」
を出力してユーザに提示する。
【0066】
また、出力整形部15は、パッセージとともに、出力したパッセージに関するキーワードの部分集合W1の出現位置や、文書Dに関する情報などを出力するようにしてもよい。
【0067】
図4に、文書検索システム1の処理の流れを示す。文書検索システム1において、まず、キーワード入力部11は、例えばユーザが入力したキーワードの集合Wを取得する(ステップS10)。文書取り込み部12は、文書データベース2から文書Dを順番に1つずつ取り込む(ステップS11)。まず最初は1つ目の文書Dを取り込む。そして、領域仮定部131は、取り込んだ文書Dで領域を順に1つ仮定する(ステップS12)。また、キーワード仮定部132は、キーワードの部分集合W1となりうるキーワードの集合を1つずつ順番に仮定する(ステップS13)。まず1つ目のものを部分集合W1と仮定する。
【0068】
次に、評価スコア演算部133は、現時点の文書Dで、領域Rとキーワードの部分集合W1とを用いて、
Σ(occur(w,R) * log(N/df(w))) - log P(n1,n2)
(Σは、集合Wの要素wで加算)
を計算し、この値をVとして保持する(ステップS14)。
【0069】
そして、評価スコア算出部13は、部分集合W1になりうる集合をすべて仮定したかどうかをチェックし、部分集合W1をすべて仮定していなければ、ステップS13の処理へ戻り、部分集合W1をすべて仮定していれば、ステップS16の処理へ進む(ステップS15)。
【0070】
さらに、文書D中で領域Rとして仮定できるすべての領域を仮定したかどうかをチェックし、領域Rをすべて仮定していなければ、ステップS12の処理へ戻り、領域Rをすべて仮定していれば、ステップS17の処理へ進み(ステップS16)、保持している値Vの最大値を現在の文書Dの評価スコアscore(D)とする(ステップS17)。
【0071】
次に、評価スコア算出部13は、文書データベース2で保持する全ての文書について処理が済んでいるかどうかをチェックする(ステップS18)。全ての文書が処理済みでなければステップS11の処理へ戻り、全ての文書が処理済みであれば、出力文書抽出部14は、評価スコアscore(D)の値が高い上位n個の文書を抽出する(ステップS19)。出力整形部15は、抽出された文書を予め定めた用途に適した形式に変形して出力する(ステップS20)。
【0072】
〔第2の実施の形態〕
第2の実施の形態において、本発明にかかる文書検索システムは、キーワードの出現パターンの珍しさとして、与えられたキーワードの集合Wのうち、1つのキーワードw1を仮定し、キーワードw1を起点としてキーワードw1とキーワードw2との距離以内にキーワードw1およびキーワードw2が出現する確率を算出し、その出現確率をもとに文書Dに評価スコアscore(D)を付与して、評価スコアの高い所定数の文書を検索結果として出力する。
【0073】
本形態において文書検索の際に文書Dに評価スコアscore(D)を付与するアルゴリズムで用いる式(B)を説明する。以下に示す式(B)も、基本的にキーワードが出現の状態がどれぐらい珍しいものかを計算するものである。
【0074】
Figure 0003799447
ここで、
N:文書の総数、
W:ユーザが入力するキーワードの集合、
w1:集合Wのある要素(キーワード)、
w2:部分集合W3のある要素(キーワード)、
dist(w1,w2):キーワードw1とキーワードw2の距離を示す値
(日本語の場合は文字数とする。ただし、便宜上、w1=w2の場合は、 dist(w1,w2)=1/2 とする)、
W3:df(w2)/N*dist(w1,w2)*2が1以下の場合に、集合Wの要素からなる部分集合
(df(w2)/N*dist(w1,w2)*2が1より大きいWの要素はW3には含まれない)。
【0075】
ここで、キーワードw1に対して距離dist(w1、w2)以内に存在するキーワードw2の出現確率は、キーワードw2の出現確率df(w2)/Nと、距離dist(w1、w2)以内にw1とw2とが出現する場合の数dist(w1,w2)*2とを掛け合わせた、
df(w2)/N*dist(w1,w2)*2 (b1)
である。
【0076】
ただし、式(b1)は近似式であるため、この値が1よりも大きくなる場合がある。そのようなキーワードw1は出現確率が小さいため偶然その文書にあらわれただけであり意味をなさないと考えることができるので、この確率の掛け算では掛け合わせを行わない。これを表現するために集合W3を定義する。このため、キーワードw1以外の出現するすべてのキーワードw2の分を考えると、そのような状態になる確率は、
Π (df(w2)/N*dist(w1,w2)*2)
(Πは、W3の要素w2で掛け算。ただし、w1≠w2) (b2)
である。式(b2)で、w1が出現する確率は、w1=w2のとき、
(df(w2)/N)
である。このため、w1=w2のとき、dist(w1,w2)=1/2と定義すると、キーワードw1を含めてキーワードw1およびすべてのキーワードw2の分を考えたキーワードが出現する確率は、
Π (df(w2)/N*dist(w1,w2)*2)
(Πは、W3の要素w2で掛け算) (b3)
となる。式(b3)での確率が小さいほど、キーワードの出現パターンの出現確率が小さく、出現の状態が珍しいことを意味する。
【0077】
ここで、単調減少関数−log(X)を使って、
- log Π(df(w2)/N * dist(w1,w2)*2)
(Πは、W3の要素w2で掛け算) (b4)
を構成する。式(b4)での値は、キーワードの出現パターンの出現の珍しさを示すものとなっている。この(b4)の値はキーワードの出現パターンの出現の珍しさを示すものである。したがって、キーワードの出現パターンの出現の珍しさの値が大きいほど、評価スコアscore(D)の値が高く、文書Dの評価が良いことになる。
【0078】
ここでキーワードw1は不定であったので、この珍しさを示す値を最大にする場合のキーワードw1を用いることとし、最初にあげた式(B)が導出される。
【0079】
なお、単調減少関数−log(X)を使うことなく、(b3)で示す確率から直接評価スコアscore(D)を求めるようにしてもよい。この場合には、評価スコアscore(D)の値が小さいほど文書Dの評価が良いことになる。
【0080】
図5に、第2の実施の形態における文書検索システムの構成例を示す。文書検索システム3は、キーワード入力部31、文書取り込み部32、評価スコア算出部33、出力文書抽出部34、出力整形部35、および文書データベース2から構成される。
【0081】
キーワード入力部31は文書検索システム1のキーワード入力部11と、文書取り込み部32は文書取り込み部12と、出力文書抽出部34は出力文書抽出部14と、出力整形部35は出力整形部15と、それぞれ同様の処理を行う手段である。
【0082】
評価スコア算出部33は、文書取り込み部32が取り込んだ文書Dについて、確率的にキーワードの近接性を用いて、キーワードの出現パターンの珍しさを評価スコアscore(D)として算出する手段である。評価スコア算出部33は、キーワード仮定部331および評価スコア演算部332を備える。
【0083】
キーワード仮定部331は、与えられたキーワードの集合Wから、着目する1つの主たるキーワードw1とその他のキーワードw2とを仮定する手段である。評価スコア演算部332は、文書データベース2から取り込んだ文書Dについて、キーワードw1とキーワードw2との出現の距離を用いて前記の式(B)を演算する手段である。
【0084】
具体例として、ユーザから与えられたキーワードの集合Wが、「間接照応」、「精度」および「%」である場合について説明する。
【0085】
文書検索システム3のキーワード入力部31は、これらのキーワードの集合Wを取得し、文書取り込み部32は、文書データベース2から図2に示す文書Dを1つ取り込む。評価スコア算出部33のキーワード仮定部331は、与えられたキーワードの集合Wのうち「精度」をキーワードw1とし、「間接照応」および「%」をキーワードw2と仮定する。
【0086】
評価スコア演算部332は、キーワードw1を起点としたキーワードw2との距離以内でキーワードw1とキーワードw2とが出現する確率をもとに、文書Dの評価スコアを前記の式(B)を用いて算出する。ここで、キーワードw1に対してキーワードw2が出現する距離が近いほど、キーワードw2を要素とする部分集合W3の出現確率値が小さくなり、文書Dの評価スコアscore(D)が高くなる。
【0087】
図6に、図2に示す文書においてキーワードw1(「精度」)と最も近接して出現しているキーワードw2(「間接照応」、「%」)との関係を示す。このようなキーワードw2が近接した出現パターンの場合に、評価スコアscore(D)の値が所定の範囲内(例えば上位n個以内)であれば、出力文書抽出部34は、文書Dを抽出する。
【0088】
出力整形部35は、抽出された文書Dを所定の形式に変形して出力する。ここで、出力整形部35が、文書を検索するのではなく、関係する文書の一部、すなわち、パッセージを検索すると定義されている場合は、かかるキーワード群を含む最小の文集合や段落集合をパッセージとして出力してユーザに提示する。例えば、最小の文集合として、
「この方法で、テストサンプルにおいて再現率63%、適合率68%の精度で解析できた。このことは、名詞格フレーム辞書が存在しない現在においてもある程度の精度で間接照応の解析ができることを意味している。」
を出力する。
【0089】
図7に、文書検索システム3の処理の流れを示す。文書検索システム3において、まず、キーワード入力部31は、例えばユーザが指定したキーワードの集合Wを入力する(ステップS30)。文書取り込み部32は、文書データベース2から文書Dを1つ取り込む(ステップS31)。キーワード仮定部331は、入力されたキーワードの集合Wから1つを取り出してキーワードw1と仮定し、キーワードw1以外のキーワードをw2とする(ステップS32)。そして、評価スコア演算部332は、現時点の文書Dとキーワードw1、w2とを用いて、
Σ (log(N/df(w2)/dist(w1,w2)/2))
(Σは、部分集合W3の要素w2で加算)
を計算し、その値Vを保持する(ステップS33)。
【0090】
そして、評価スコア算出部33は、キーワードの集合Wについてキーワードw1となりうる全てのキーワードを仮定したかどうかをチェックし(ステップS34)、集合Wの要素がすべてキーワードw1として仮定されていなければ、ステップS32の処理へ戻り、集合Wの要素がすべてキーワードw1として仮定されていれば、保持した値Vの最大値を現在の文書Dの評価スコアscore(D)とする(ステップS35)。
【0091】
次に、評価スコア算出部33は、文書データベース2で保持する全ての文書について処理が済んでいるかどうかをチェックし(ステップS36)、すべての文書が処理済みでなければステップS31の処理へ戻り、すべての文書が処理済みであれば、出力文書抽出部34は、評価スコアscore(D)の値が高い上位n個の文書を抽出する(ステップS37)。さらに、出力整形部35は、抽出された文書Dを予め定めた用途に適した形式に変形して出力する(ステップS38)。
【0092】
なお、第1および第2の実施の形態において、評価スコア算出部13/33が行う演算は、基本的に基本手法のTF・IDF法の拡張である。したがって、評価スコア算出部13/33は、前記の非特許文献1などに記載されている手法において用いられる補強項を、式(A)または式(B)に追加して評価スコアscore(D)を算出するようにしてもよい。追加する補強項は、例えば、キーワードが出現する位置(タイトル中、記事の先頭文など)によりキーワードの重要度を考慮する位置情報、キーワードが出現している分野での重要度を考慮する分野情報などにもとづいた項とする。
【0093】
〔第3の実施の形態〕
第3の実施の形態として、本発明にかかる質問応答システムを説明する。本形態の質問応答システムは、質問応答システムで行う文書検索に、キーワードの近接性を利用した文書検索を行い、前記式(A)または式(B)を用いたアルゴリズムによる演算処理を行うものである。
【0094】
これにより、本形態における質問応答システムは、文書データベースから取り込んだ文書を、パッセージなどの短い単位に分割することなく文書そのものとして検索対象にすることができる。よって、文書そのものを検索対象とした場合であっても、キーワードが離れて出現するような文書であって解を抽出するには不適切な文書の抽出を回避することができる。
【0095】
図8に、第3の実施の形態における質問応答システムの構成例を示す。質問応答システム4は、質問文入力部41、解表現予測部42、キーワード抽出部43、文書検索部44、解抽出部45、および解答出力部46を備える。
【0096】
質問文入力部41は質問文を入力する手段である。解表現予測部42は入力された質問文を解析して解となりうる表現(解表現)を予測する手段である。キーワード抽出部43は、解を含む文書を抽出するためのキーワードの集合Wを質問文から抽出する手段である。
【0097】
文書検索部44は、キーワードの集合Wをもとに文書データベース2から取り込んだ文書Dそのものを検索対象とし、文書検索システム1の評価スコア算出部13とほぼ同様に、式(A)を用いたアルゴリズムにより評価スコアscore(D)を算出して文書を検索する手段である。文書検索部44は、文書取り込み部441、領域仮定部442、キーワード仮定部443、評価スコア演算部444、および出力文書抽出部445を備える。
【0098】
文書取り込み部441は文書検索システム1の文書取り込み部12と、領域仮定部442は領域仮定部131と、キーワード仮定部443はキーワード仮定部132と、評価スコア演算部444は評価スコア演算部133と、出力文書抽出部445は出力文書抽出部14と、それぞれ同様の処理を行う手段である。
【0099】
解抽出部45は、文書検索部44で検索された文書から、予測した解表現を抽出する手段である。解抽出手法は、既知の一般的な手法で行う。解答出力部46は、抽出された解表現を用いて質問文に適合する解答を生成し出力する手段である。
【0100】
質問応答システム4は、図9に示すように、文書検索部44の代わりに、別の構成例を持つ文書検索部47を備えるようにしてもよい。文書検索部47は、文書取り込み部471、キーワード仮定部472、評価スコア演算部473、および出力文書抽出部474を備える。文書取り込み部471は文書検索システム3の文書取り込み部32と、キーワード仮定部472はキーワード仮定部331と、評価スコア演算部473は評価スコア演算部332と、出力文書抽出部474は出力文書抽出部34と、それぞれ、同様の処理を行う手段である。
【0101】
質問応答システム4の文書検索部47は、キーワードの集合Wをもとに文書データベース2から取り込んだ文書Dそのものを検索対象とし、文書検索システム3の評価スコア算出部33とほぼ同様に、式(B)を用いたアルゴリズムにより評価スコアscore(D)を算出して文書を検索する手段である。
【0102】
具体例として、ユーザから質問文「間接照応解析の精度はいくつですか。」が与えられたとする。質問応答システム4の質問文入力部41は、この質問文を入力する。そして、解表現予測部42では、入力された質問文からどういうものが解答としてふさわしいかを解析して解表現を予測する。例えば、質問文が「Xはどのくらい」、「Xはいくつ」などであれば解は「数量表現」であると予測する。また質問文が「Xはいつ」であれば解は「時間表現」であると、質問文が「Xはどこ」であれば解は「場所表現」と予測する。ここで、質問文が「いくつですか。」であることから、解表現予測部42は、解となりうる表現が「数量表現」であると予測する。
【0103】
さらに、キーワード抽出部43では、質問文を解析して「間接照応」、「精度」および「%」をキーワードの集合Wとして抽出する。キーワード抽出部43は、JUMANやCHASENなど既知の形態素解析手法を用いて形態素解析を行い、名詞と推定された形態素をキーワードの集合Wとして取り出す。
【0104】
文書検索部44は、前記の式(A)を用いるアルゴリズムにより文書データベース2の文書Dを評価し、評価スコアscore(D)が高い上位n個の文書を抽出する。別の構成である文書検索部47では、前記の式(B)を用いるアルゴリズムにより文書データベース2の文書Dを評価し、評価スコアscore(D)が高い上位n個の文書を抽出する。図10に、文書データベース2から上位n個以内に抽出された文書の例を示す。
【0105】
その後、解抽出部45は、n個の文書から、予測された解表現に適合する表現を抜き出して解答出力部46へ渡す。解表現予測部42が「数量表現」であると予測しているので、例えば図10に示す文書Dから「数量表現」に適合する「68%」を解表現として抽出する。解答出力部46は、受け取った解表現を解答として、例えば「68%です」などの文を出力する。
【0106】
なお、従来の質問応答システムのように文書をパッセージ(ここでは3文の集合)に分割して文書検索を行う場合には、図10の文書Dは破線で示す分割境界線により3つのパッセージに分割される。そのため、文書Dの解答が記述されたパッセージが文書検索で抽出されず高い精度の解答が出力されないことが明らかである。
【0107】
図11に、質問応答システム4の処理の流れを示す。質問応答システム4において、まず、質問文入力部41は、質問文を入力し(ステップS40)、解表現予測部42は、質問文を解析して質問文にふさわしい解表現を予測する(ステップS41)。さらに、キーワード抽出部43は、質問文を形態素解析して名詞として推定されるものをキーワードの集合Wとして取り出す(ステップS42)。
【0108】
文書検索部44または文書検索部47は、キーワードの集合Wを用いて文書データベース2から1つ取り出した文書Dを検索する(ステップS43)。文書検索部44は、式(A)のアルゴリズムを用いて文書Dの評価スコアscore(D)を算出し、もしくは文書検索部47は、式(B)のアルゴリズムを用いて文書Dの評価スコアscore(D)を算出する。そして、文書検索部44および文書検索部47のいずれも、評価スコアscore(D)が高い上位n個の文書を抽出する。
【0109】
次に、解抽出部45は、上位n個の文書から、予測した解表現に適合する表現を抽出して(ステップS44)、抽出された解表現を質問文にあう解答として出力する(ステップS45)。
【0110】
本形態において、本発明にかかる質問応答システム4では、文書検索の際に、文書単位で検索を行い、かつ、質問文から抽出したキーワードの集合Wがより近くにある文書ほど質問文に関連が高いと考える。したがって、「キーワードが離れて出現する不適合な文書」については、抽出しないか、もしくは、そのような文書の評価スコアscore(D)の値を小さくする。
【0111】
また、「キーワードが離れて出現するが重要な文書」が存在する場合は、そのような文書でもキーワードの集合Wの要素である個々のキーワードの出現をすべて確認することができるため、キーワードの集合Wを取り出すことができ、評価スコアscore(D)の値を大きくする。
【0112】
ここで、「キーワードが離れて出現するが重要な文書」だけでなく、「キーワードが近接して出現するが重要な文書」が存在すれば、この「キーワードが近接して出現するが重要な文書」の方が大きな評価スコア値を持つことになるので、「キーワードが近接して出現するが重要な文書」が文書検索により抽出され、この文書から解を抽出しうることになる。
【0113】
また、「キーワードが近接して出現するが重要な文書」が存在しない場合は、「キーワードが離れて出現する文書」がおそらく重要な文書になり、この文書が比較的大きな評価スコア値を持つために抽出されることになる。
【0114】
これらのことから、質問応答システム4では、
「多くのキーワードが近接して出現する文書」、
「多くのキーワードが離れて出現する文書」、
「少しのキーワードが近接して出現する文書」、
「少しのキーワードが離れて出現する文書」、
の順位で文書に高い評価スコアscore(D)を付与することになり、この順位づけにもとづいて文書を抽出することができるため、解が記述してありそうな順序で文書を抽出することが可能となる。
【0115】
通常、「多くのキーワードが離れて出現する文書」および「少しのキーワードが近接して出現する文書」に着目すると、どちらが評価スコアの値が大きくなるかは不明瞭である。あまりにキーワードが離れすぎて出現している場合には「少しのキーワードが近接して出現する文書」の方がよい場合もありうる。しかし、質問応答システム4の文書検索部44は、キーワードの出現の珍しさと、キーワードが近接していることの珍しさとを統一したアルゴリズムで文書を評価するので、このような文書間での評価も可能となる。
【0116】
〔第4の実施の形態〕
第4の実施の形態として、別の構成をとる質問応答システムを説明する。
【0117】
本形態では、質問応答システムは、文書検索の際に、一般的なキーワード検索を行い、その検索結果に対して、前記式(A)もしくは式(B)によるアルゴリズムを用いた文書検索を行うようにする。これにより、一般的な高速な文書検索によりある程度の文書を抽出しておき、さらに抽出した文書に対してのみ本発明にかかる文書検索処理方法を用いて検索を行うことにより、文書検索を高速かつ高精度に行うことが可能となる。
【0118】
図12に、第4の実施の形態における質問応答システムの構成例を示す。質問応答システム5は、質問文入力部51、解表現予測部52、キーワード抽出部53、文書検索部54、文書スコア再計算部55、解抽出部56、および解答出力部57を備える。
【0119】
質問文入力部51は質問応答システム4の質問文入力部41と、解表現予測部52は解表現予測部42と、キーワード抽出部53はキーワード抽出部43と、解抽出部56は解抽出部45と、解答出力部57は解答出力部46と、それぞれ同様の処理を行う手段である。
【0120】
文書検索部54は、キーワードをもとに文書データベース2の文書について一般的な文書検索を行い所定数の文書を抽出する手段である。
【0121】
文書スコア再計算部55は、文書検索部54で抽出された文書について、式(A)より評価スコアscore(D)を計算し、評価スコアが高い文書を抽出する手段である。
【0122】
文書スコア再計算部55は、領域仮定部551、キーワード仮定部552、および評価スコア演算部553を備える。領域仮定部551は質問応答システム4の領域仮定部442と、キーワード仮定部552はキーワード仮定部443と、評価スコア演算部553は評価スコア演算部444と、それぞれ、同様の処理を行う手段である。
【0123】
また、質問応答システム5は、図13に示すように、文書スコア再計算部55の代わりに、別の構成をとる文書スコア再計算部58を備えるようにしてもよい。
【0124】
文書スコア再計算部58は、文書検索部54で抽出された文書について、式(B)により評価スコアを計算し、評価スコアが高い文書を抽出する手段である。文書スコア再計算部58は、キーワード仮定部581、および評価スコア演算部582を備える。キーワード仮定部581は質問応答システム4のキーワード仮定部472と、評価スコア演算部582は評価スコア演算部473と、それぞれ、同様の処理を行う手段である。
【0125】
図14に、質問応答システム5の処理の流れを示す。質問応答システム5において、まず、質問文入力部51は、質問文を入力し(ステップS50)、解表現予測部52は、質問文を解析して質問文にふさわしい解表現を予測する(ステップS51)。さらに、キーワード抽出部53は、質問文を形態素解析して名詞と推定したものをキーワードの集合Wとして取り出す(ステップS52)。
【0126】
文書検索部54は、キーワードの集合Wを用いて文書を検索する。このとき既知の高速な検索アルゴリズムを用いて評価値が高い上位m個の文書を抽出する(ステップS53)。
【0127】
そして、文書スコア再計算部55または文書スコア再計算部58は、渡された上位m個の文書についてだけ、キーワードの集合Wを用いて式(A)もしくは式(B)のアルゴリズムで評価スコアを再計算し、評価スコアscore(D)の値が高い上位n個の文書を抽出する(ステップS54)。
【0128】
そして、解抽出部56は、上位n個の文書から、予測した解表現に適合する表現を抽出して(ステップS55)、解答出力部57は、抽出された解表現を質問文に適合する解答として出力する(ステップS56)。
【0129】
〔第5の実施の形態〕
第5の実施の形態として、別の構成をとる質問応答システムを説明する。
【0130】
既に述べたように、質問応答システムの解抽出の際に、
評価情報v1:キーワードとの近接性、
評価情報v2:質問文の疑問表現の意味情報からの絞り込み、
の2つの評価情報を用いて解抽出を行う場合がある。
【0131】
評価情報v1は、解はキーワードの近くに記述してあるだろうという考え方に基づくものである。評価情報v2は、例えば質問文が「間接照応解析の精度はいくつですか。」だとすると、解は数量表現であると予想できるので、なるべく数量表現を解として選択しようとする考え方に基づくものである。これらの2つの評価情報を組み合わせることにより、キーワードの近くに出現する数量表現を解として抽出することができ、例えば図10の文書Dから「68%」などの解を抽出することができる。
【0132】
本形態における質問応答システムは、解抽出の際の評価情報v1「キーワードの近接性」を用いた評価において、式(B)のアルゴリズムを応用してキーワードの近接性を評価する。質問応答システムは、以下の式(C)を用いる。
【0133】
Figure 0003799447
式(C)では、式(B)からの変更として、キーワードw1をw1∈Wとせずに、w1は前記の評価情報v2「質問文の疑問表現の意味時からの絞り込み」を満足する同一文書D中の任意の語(解の表現)のみとしておく。また、maxはw1でとらずに文書Dでとり、scoreはw1を引数とする。
【0134】
この新しい条件のもとで、文書検索の処理で抽出した文書について、score(w1)を計算し、score(w1)の値が最も大きいキーワードw1を「解」と判断し、そのときの文書Dを「解が記述してある文書」と判断する。このように解抽出を行うことにより、式(B)と同等の意味で、与えられたキーワードの集合が最も近接した距離で出現しているキーワードw1すなわち解表現を取り出すことができる。
【0135】
図15に、質問応答システム6の構成例を示す。質問応答システム6は、質問文入力部61、解表現予測部62、キーワード抽出部63、文書検索部64、解抽出部65、および解答出力部66を備える。
【0136】
質問文入力部61は質問応答システム4の質問文入力部41と、解表現予測部62は解表現予測部42と、キーワード抽出部63はキーワード抽出部43と、解答出力部66は解答出力部46と、それぞれ同様の処理を行う手段である。
【0137】
文書検索部64は、文書検索部44または文書検索部47のいずれかと同様の処理を行う手段である。なお、文書検索部64は、文書検索のアルゴリズムとして既知の高速な文書検索処理方法を用いてもよい。
【0138】
解抽出部65は、文書検索部64から渡された文書およびキーワードをもとに、前記の評価情報v1および評価情報v2を用いた解抽出手法を用いて解を抽出する手段であって、評価情報v1による評価において、前記の式(C)を用いた評価を行うものである。解抽出部65は、解表現仮定部651と評価スコア演算部652とを備える。
【0139】
解表現仮定部651は、文書検索部64から渡された文書を解析し、解となりうる表現(解候補)を順次抽出してキーワードw1と仮定する手段である。解表現仮定部651は、例えばn個の形態素連続となるような表現は全て解となりうる表現であるとして、該当する表現をキーワードw1と仮定する。なお、該当する表現が多過ぎる場合には、抽出したn個の形態素連続の表現のうち、助詞を含む表現を除去したものをキーワードw1と仮定してもよい。
【0140】
評価スコア演算部652は、以下の、前記の式(C)を用いて評価スコアを算出する。すなわち、
Σ (log(N/df(w2)/dist(w1,w2)/2))
(Σは、部分集合W3の要素w2で加算)
の値を計算して、値Vを保持する。そして、評価スコア演算部652は、キーワードw1になりうる解候補すべてについて処理を行い、値Vの最大値をキーワードw1の評価スコアscore(w1)とし、score(w1)の値が高い上位n個のキーワードw1を抽出して、解答出力部66に渡す。解答出力部66は、解抽出部65から渡されたn個のキーワードw1を解答として出力する。
【0141】
これにより、質問文の表現に意味的に適合する表現であって、かつ、文書検索された文書群において、与えられたキーワードの集合と最も近接して出現するキーワードw1が重要な解候補であるとして抽出されることになる。
【0142】
なお、この値Vの算出の際に、解候補であるキーワードw1が、解表現予測部62により特に解表現となりやすいと推定されている場合には、値Vに特別な加点をしてもよく、逆に、解表現としてあまりふさわしくないと推定されている場合には値Vに特別な減点をしてもよい。例えば、解表現予測部62が、解表現は数量表現であると予測している場合に、評価スコア演算部652は、キーワードw1が数量表現であれば値Vに所定の値を加算する。また、キーワードw1が場所表現であれば値Vから所定の値を減算する。
【0143】
ここで、キーワードw1が数量表現であるか否かの判定は、どのような表現であれば数量表現であるかを示す規則を予め用意しておき、その規則にもとづいて判定する。また、どのような表現が数量表現であり、また数量表現でないかを示した学習データを用意して機械学習を行い、その学習結果にもとづいて判定を行うようにしてもよい。また、規則にもとづく方法と学習結果にもとづく方法を併用してもよい。
【0144】
具体例として、図16に示すような文書Dがあるときに、質問文「間接照応解析の精度はいくつですか。」が与えられたとする。
【0145】
質問文入力部61が質問文を入力すると、解表現予測部62は、質問文を解析して解が「数値表現」であると予測する。さらに、キーワード抽出部63は、質問文を形態素解析して、「間接照応」、「解析」および「精度」をキーワードの集合Wとして抽出する。
【0146】
文書検索部64は、例えば文書検索部47と同様の処理により文書に評価スコアを付与し、評価スコアの値が高い上位n個の文書を抽出する。文書検索部64は、文書Dについて、キーワードの集合Wのうち「精度」がキーワードw1であって「間接照応」と「解析」とがキーワードの集合W3の要素であるキーワードw2である場合に、式(B)の値が高いとして評価スコアscore(D)を付与する。そして、その文書Dの評価スコアscore(D)の値が、文書データベース2の文書中で比較的高い値を持つときは、上位n個以内の文書として文書Dも抽出される。
【0147】
解抽出部65の解表現仮定部651は、文書検索部64が抽出した文書Dから解となりうる表現(解候補)を順にキーワードw1と仮定する。例えば、文書検索部64が抽出した図16に示す文書D中の「68%」をキーワードw1とする。
【0148】
評価スコア演算部652は、抽出された文書すべてについて、キーワードw1の評価スコアscore(w1)を式(C)を用いて算出する。図16に示す文書Dで、「68%」がキーワードw1、「間接照応」、「精度」および「解析」がキーワードw2であった場合に、式(C)により求めたキーワードw1の評価スコアscore(w1)が最も高い値となるとき、その値がscore(w1)となる。ここで、キーワードw1が解候補の上位となり、文書Dが「解が記述されている文書」となる。したがって、解抽出部65は、キーワードw1「68%」を解として、図16に示す文書Dを解が記述されている解記述文書として抽出する。
【0149】
解答出力部66は、この解表現「68%」を解答として出力する。また、解記述文書として文書Dの情報、文書D中に解答「68%」が記述されている位置の情報などを併せて出力する。
【0150】
図17に、質問応答システム6の処理の流れを示す。質問応答システム6において、質問文入力部61は、質問文を入力し(ステップS60)、解表現予測部62は、質問文を解析して質問文にふさわしい解表現を予測し(ステップS61)、キーワード抽出部63は、質問文を形態素解析して名詞として推定されるものをキーワードの集合Wとして取り出す(ステップS62)。文書検索部64は、キーワードの集合Wを用いて、前記の式(A)のアルゴリズム、式(B)のアルゴリズムまたは既知の高速な検索アルゴリズムにより、文書に評価スコアscore(D)を付与し、評価スコアの値が高い上位n個の文書を抽出する(ステップS63)。
【0151】
そして、解抽出部65は、抽出された上位n個の文書から、式(C)のアルゴリズムを用いて、予測した解表現に適合する表現としてキーワードw1を抽出し(ステップS64)、解答出力部66は、抽出されたキーワードw1である解表現を解答として出力する(ステップS65)。
【0152】
図18に、ステップS64の処理の詳細な処理の流れを示す。
【0153】
解抽出部65において、解表現仮定部651は、文書検索部64が抽出した文書Dを順に1つ取り込み(ステップS70)、文書中で解となりうる表現(解候補)を順次抽出してキーワードw1と仮定する。まず、1つ目の表現をキーワードw1と仮定する。キーワードの集合Wの要素をキーワードw2とする(ステップS71)。
【0154】
評価スコア演算部652は、現時点の文書Dとキーワードw1、w2とを用いて、
Σ (log(N/df(w2)/dist(w1,w2)/2))
(Σは、部分集合W3の要素w2で加算)
を計算し、その値Vを保持する(ステップS72)。そして、値Vをキーワードw1の評価スコアscore(w1)とする(ステップS73)。ここで、既にキーワードw1の評価スコアscore(w1)を求めていた場合には、今回求めた値Vと既に求めた評価スコアscore(w1)の大きいほうをキーワードw1の評価スコアscore(w1)とする。
【0155】
解抽出部65は、解となりうる表現がすべてキーワードw1として仮定されたかどうかをチェックし(ステップS74)、すべての表現がキーワードw1として仮定されていなければステップS71の処理へ戻り、すべての表現がキーワードw1として仮定されていれば、さらに、抽出されたすべての文書Dについて処理が済んでいるかどうかをチェックし(ステップS75)、すべての文書が処理済みでなければステップS70の処理へ戻る。すべての文書が処理済みであれば、解抽出部65は、評価スコアscore(w1)の値が高い上位n個のキーワードw1を抽出する(ステップS76)。
【0156】
以上、本発明をその実施の形態により説明したが、本発明はその主旨の範囲において種々の変形が可能であることは当然である。本発明の各手段または機能または要素は、コンピュータにより読み取られ実行される処理プログラムとして実現することができる。また、本発明を実現する処理プログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
【0157】
【発明の効果】
以上説明したように、本発明によれば、文書検索において、確率的にキーワードの近接性を利用し、キーワードが近接するほど文書の評価をよいと考えて、評価のよい文書を抽出する。すなわち、文書内で領域を仮定し、その領域にキーワードが出現する確率をもとにキーワードの出現パターンの出現確率を算出し、この出現確率が小さいほどその文書の評価をよいとする。また、与えられたキーワードから一つの起点キーワードを仮定し、その起点キーワードからキーワードへの距離以内に、これらのキーワードが出現する確率をもとにキーワードの出現パターンの出現確率を算出し、この出現確率が小さいほどその文書の評価をよいとする。
【0158】
これにより、従来では提示されていなかった確率論上の理論に基づいた文書評価のアルゴリズムにもとづく高精度の文書検索処理方法を提供することができる。
【0159】
また、本発明では、文書中でのキーワードの位置情報も検索結果として出力することになる。これにより、検索結果として、文書だけでなく文書内におけるキーワードの位置情報も併せて取得することができ、ユーザが検索結果をより有効に活用できる文書検索処理方法を提供することができる。
【0160】
このように、本発明にかかる文書検索処理方法は、インターネットなどの情報検索ソフトウェアなどがWWW(World Wide Web)上の文書を検索する場合にも適用できるものであり、高い有用性を備える。
【0161】
また、本発明にかかる質問応答システムでは、従来の質問応答システムのように、文書検索を小さなパッセージに分割せずに、文書そのままを検索対象として前記の文書検索処理方法を用いた文書検索を行う。その際に、質問文から抽出されたキーワードの近接性を利用して、従来では抽出できなかった文書、すなわち「キーワードと離れて記述されている解表現を持つような文書」についても解抽出の対象となる文書として文書検索を行った上で、「解が記述されているとは想定できないような文書」の評価が低くなるようにして解表現を抽出する。これにより、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【0162】
また、本発明にかかる質問応答システムは、解表現を抽出する際に、解となりうると仮定した解表現と質問文から抽出したキーワードとの距離の近接性を利用して、キーワードとより近接する解表現の評価を高くする。すなわち、文書から解表現を仮定し、この解表現を起点に、質問文から抽出したキーワードへの距離の範囲内に解表現およびキーワードの組が出現する確率をもとにこの組の出現パターンの出現確率を算出し、この出現確率が大きくなる解表現の評価をよいとする。
【0163】
これによっても、より高い適合性を持つ解答を出力できる質問応答システムを提供することができる。
【図面の簡単な説明】
【図1】第1の実施の形態における文書検索システムの構成例を示す図である。
【図2】文書データベースに記憶されている文書の例を示す図である。
【図3】図2に示す文書において、評価スコアがよい領域の例を示す図である。
【図4】第1の実施の形態における文書検索システムの処理の流れを示す図である。
【図5】第2の実施の形態における文書検索システムの構成例を示す図である。
【図6】文書中のキーワードw1およびキーワードw2を説明するための図である。
【図7】第2の実施の形態における文書検索システムの処理の流れを示す図である。
【図8】第3の実施の形態における質問応答システムの構成例を示す図である。
【図9】第3の実施の形態における質問応答システムの別の構成例を示す図である。
【図10】文書データベースに記憶されている文書の例を示す図である。
【図11】第3の実施の形態における質問応答システムの処理の流れを示す図である。
【図12】第4の実施の形態における質問応答システムの構成例を示す図である。
【図13】第4の実施の形態における質問応答システムの別の構成例を示す図である。
【図14】第4の実施の形態における質問応答システムの処理の流れを示す図である。
【図15】第5の実施の形態における質問応答システムの構成例を示す図である。
【図16】文書中のキーワードw1およびキーワードw2を説明するための図である。
【図17】第5の実施の形態における質問応答システムの処理の流れを示す図である。
【図18】図17に示すステップS64の詳細な処理の流れを示す図である。
【符号の説明】
1 文書検索システム
11 キーワード入力部
12 文書取り込み部
13 評価スコア算出部
131 領域仮定部
132 キーワード仮定部
133 評価スコア演算部
14 出力文書抽出部
15 出力整形部
2 文書データベース
3 文書検索システム
31 キーワード入力部
32 文書取り込み部
33 評価スコア算出部
331 キーワード仮定部
332 評価スコア演算部
34 出力文書抽出部
35 出力整形部
4 質問応答システム
41 質問文入力部
42 解表現予測部
43 キーワード抽出部
44 文書検索部
441 文書取り込み部
442 領域仮定部
443 キーワード仮定部
444 評価スコア演算部
445 出力文書抽出部
45 解抽出部
46 解答出力部
47 文書検索部
471 文書取り込み部
472 キーワード仮定部
473 評価スコア演算部
474 出力文書抽出部
5 質問応答システム
51 質問文入力部
52 解表現予測部
53 キーワード抽出部
54 文書検索部
55 文書スコア再計算部
551 領域仮定部
552 キーワード仮定部
553 評価スコア演算部
56 解抽出部
57 解答出力部
58 文書スコア再計算部
581 キーワード仮定部
582 評価スコア演算部
6 質問応答システム
61 質問文入力部
62 解表現予測部
63 キーワード抽出部
64 文書検索部
65 解抽出部
651 解表現仮定部
652 評価スコア演算部
66 解答出力部

Claims (4)

  1. 文書取り込み部、領域仮定部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
    前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
    前記領域仮定部が、前記取得した文書に所定の領域を仮定するステップと、
    前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
    前記キーワード仮定部が、前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成するステップと、
    前記評価スコア演算部が、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
    前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
    ことを特徴とする文書検索処理方法。
  2. 文書取り込み部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
    前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
    前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
    前記キーワード仮定部が、前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定するステップと、
    前記評価スコア演算部が、前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々について、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記第2キーワードの出現したものの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
    前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
    ことを特徴とする文書検索処理方法。
  3. 電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
    電子化された文書群を記憶する文書データベースと、
    前記文書データベースから文書を取得する処理手段と、
    前記文書に所定の領域を仮定する処理手段と、
    複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
    前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成する処理手段と、
    前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせて値Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
    前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
    前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
    ことを特徴とする文書検索システム。
  4. 電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
    電子化された文書群を記憶する文書データベースと、
    前記文書データベースから文書を取得する処理手段と、
    複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
    前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定する処理手段と、
    前記文書に出現する前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々のキーワードについて、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記文書に出現した第2キーワードの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
    前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
    前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
    ことを特徴とする文書検索システム。
JP2002292962A 2002-10-04 2002-10-04 文書検索処理方法および文書検索システム Expired - Lifetime JP3799447B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002292962A JP3799447B2 (ja) 2002-10-04 2002-10-04 文書検索処理方法および文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002292962A JP3799447B2 (ja) 2002-10-04 2002-10-04 文書検索処理方法および文書検索システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005240160A Division JP3861105B2 (ja) 2005-08-22 2005-08-22 質問応答システム

Publications (2)

Publication Number Publication Date
JP2004127131A JP2004127131A (ja) 2004-04-22
JP3799447B2 true JP3799447B2 (ja) 2006-07-19

Family

ID=32284056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002292962A Expired - Lifetime JP3799447B2 (ja) 2002-10-04 2002-10-04 文書検索処理方法および文書検索システム

Country Status (1)

Country Link
JP (1) JP3799447B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141659A (ja) * 2010-01-06 2011-07-21 Fujifilm Corp 文書検索装置ならびにその動作制御方法およびその制御プログラム

Also Published As

Publication number Publication date
JP2004127131A (ja) 2004-04-22

Similar Documents

Publication Publication Date Title
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
US20010020238A1 (en) Document searching apparatus, method thereof, and record medium thereof
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
EP2045733A2 (en) Determining a document specificity
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
CN112905768A (zh) 一种数据交互方法、装置及存储介质
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
KR20200136636A (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
CN110427626B (zh) 关键词的提取方法及装置
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
JP2012141681A (ja) クエリセグメント位置決定装置
JP3799447B2 (ja) 文書検索処理方法および文書検索システム
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
JP3861105B2 (ja) 質問応答システム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
JP2010282403A (ja) 文書検索方法
TWI290684B (en) Incremental thesaurus construction method
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060328

R150 Certificate of patent or registration of utility model

Ref document number: 3799447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term