JP2009175826A

JP2009175826A - テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体

Info

Publication number: JP2009175826A
Application number: JP2008011125A
Authority: JP
Inventors: Makoto Onizuka; 真鬼塚
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-01-22
Filing date: 2008-01-22
Publication date: 2009-08-06
Anticipated expiration: 2028-01-22
Also published as: JP4691117B2

Abstract

【課題】インパクト値順の転置ファイルを利用する際に検索処理の処理性能を向上させることができるテキスト検索技術を提供すること。
【解決手段】テキスト検索装置１は、検索処理装置２０を有し、検索処理装置２０は、複数の単語等で指定された検索条件１０１を入力する検索条件入力手段と、入力された単語群１０２を単語辞書に基づいて抽出する単語抽出手段と、予め算出されたｄｆ値に基づいて、抽出された各単語を、ｄｆ値が低い単語群と高い単語群とに分類する単語群分類手段と、ｄｆ値が低い単語群については単語毎に構築されたインパクト値順の転置ファイル７１，７４を利用すると共に、ｄｆ値が高い単語群については単語毎に構築された文書ＩＤ順の転置ファイル７３を利用して出力候補となる候補文書を探索する候補文書探索手段と、検索条件を満たした時点で候補文書ｄ１６，…を確定して出力する候補文書出力手段とを備える。
【選択図】図２

Description

本発明は、大量のテキスト情報（例えば、多数の文書）から、テキスト情報に含まれる複数の単語と文書件数とを検索条件として、利用者の要求するテキスト情報を検索するテキスト検索技術に関する。

従来、テキスト情報（テキスト文書、以下、単に文書という）を高速に検索するために、転置ファイルを利用する技術が知られている。転置ファイルには、単語毎に文書ＩＤ順に文書を格納した文書ＩＤ順の転置ファイル（例えば、特許文献１および非特許文献１参照）と、単語毎にインパクト値順に文書を格納したインパクト値順の転置ファイル（例えば、非特許文献１〜４参照）とがある。インパクト値は、各テキスト文書において各単語毎に予め算出された単語出現頻度（ｔｆ値）と、当該テキスト文書に含まれる単語の総数と、に基づいて得られる重みの数値を示す。一般的にインパクト値順の転置ファイルを利用するテキスト検索装置の方が、文書ＩＤ順の転置ファイルを利用するテキスト検索装置よりも性能が良いことが知られている。

図３は、単語別に構築されたインパクト値順の転置ファイルを利用する従来のテキスト検索装置３００の概要を模式的に示す説明図である。テキスト検索装置３００は、検索処理装置３２０と、インデックス記憶装置３３０と、単語辞書記憶装置３５０とを備えている。検索処理装置３２０は、端末装置３６０から入力された検索条件４０１に含まれる単語群４０２を、単語辞書記憶装置３５０に記憶された単語辞書を参照して抽出し、インデックス記憶装置３３０に蓄積されたインパクト値順の転置ファイル３３１〜３３４を利用して、出力すべき候補となる文書（候補文書）を検索し、検索結果を端末装置３６０に出力する。図３に示した例では、検索処理装置３２０は、検索条件４０１である「東京の駅」というフレーズを分割し、単語群４０２として、「東京」、「の」、「駅」を抽出する。そして、各単語に対応した転置ファイル３３１，３３３，３３４について、符号４０３，４０４，４０５の矢印で示すように、インパクト値の高い順に文書毎に所定のスコアを算出する。これにより、共通の文書として３つの転置ファイルから、符号４１３，４１４，４１５でそれぞれ示した文書ＩＤが「１６」である文書（d16）等が探索され、候補文書として出力される。
特開平３−１０８０６４号公報（第１図） Justin Zobel and Alistair Moffat, "Inverted Files for Text Search Engines", ACM Computing Surveys, Vol. 38, No. 2, Article 6, July, 2006 Vo Ngoc Anh, Owen de Kretser, Alistair Moffat, "Impact Transformation: Effective and Efficient Web Retrieval", Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p.35-42, 2001 Vo Ngoc Anh and Alistair Moffat, "Vector-Space Ranking with Effective Early Termination", Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p.3-10, 2002 Vo Ngoc Anh and Alistair Moffat, "Pruned Query Evaluation Using Pre-Computed Impacts", Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p.372-379, 2006

しかしながら、単語別に構築されたインパクト値順の転置ファイルを利用する従来のテキスト検索装置において分割された各単語のうち、「の」や「が」のような助詞は、検索対象とする全テキスト文書を通じて出現してしまう。そのため、例えば、図３に示すように、「の」の転置ファイル３３３において、「東京」と「駅」との両方を含むテキスト文書を探索するためには、「の」の転置ファイル３３３について全スキャンをしてしまう確率が高いという性能上の問題があった。

また、例えば、Ｗｅｂ上の文書（ドキュメント）を検索対象とした場合に、ドキュメントに含まれる単語別に構築されたインパクト値順の転置ファイルを利用してテキスト文書をキーワード検索する際に、PageRank（登録商標）のような単語に依存しない文書独自のスコアをも考慮してテキスト文書を検索することが要望されている。しかしながら、インパクト値順の転置ファイルを利用してテキスト文書を検索する際に、単語に依存しない文書独自のスコアをどのように扱えば検索処理の性能を向上させることができるのか知られていなかった。

そこで、本発明では、前記した問題を解決し、インパクト値順の転置ファイルを利用する際に検索処理の処理性能を向上させることができるテキスト検索技術を提供することを目的とする。

前記課題を解決するため、請求項１に記載のテキスト検索装置は、文書ＩＤを有する各テキスト文書において単語毎に予め算出された単語出現頻度と、当該テキスト文書に含まれる単語の総数と、に基づいて得られる重みの数値を示すインパクト値を用いた単語毎に構築されたインパクト値順の転置ファイルと、前記各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルとを含む複数の転置ファイルを文書検索用のインデックスとして用いて、前記テキスト文書を検索するテキスト検索装置であって、複数の単語を含む検索式と文書件数とを指定された検索条件として入力する検索条件入力手段と、前記入力された検索式に含まれる各単語を単語辞書に基づいて抽出する単語抽出手段と、単語毎に検索対象とする全テキスト文書を通じて予め算出された文書出現頻度に基づいて、前記抽出された各単語を、前記文書出現頻度が所定のしきい値よりも低い単語群と、そうではない単語群とに分類する単語群分類手段と、前記文書出現頻度が所定のしきい値よりも低い単語群については前記インパクト値順の転置ファイルを利用して出力候補となる候補文書を探索し、その後、前記文書出現頻度が前記所定のしきい値以上の単語群については前記文書ＩＤ順の転置ファイルを利用して出力候補となる候補文書を探索する候補文書探索手段と、前記入力された検索条件を満たした時点で前記候補文書を確定して出力する候補文書出力手段とを備えることを特徴とする。

また、前記課題を解決するため、請求項７に記載のテキスト検索方法は、文書ＩＤを有する各テキスト文書において単語毎に予め算出された単語出現頻度と、当該テキスト文書に含まれる単語の総数と、に基づいて得られる重みの数値を示すインパクト値を用いた単語毎に構築されたインパクト値順の転置ファイルと、前記各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルとを含む複数の転置ファイルを文書検索用のインデックスとして用いて、検索対象として前記テキスト文書を検索するテキスト検索装置のテキスト検索方法であって、前記テキスト検索装置が、検索条件入力手段と、単語抽出手段と、単語群分類手段と、候補文書探索手段と、候補文書出力手段とを備え、前記検索条件入力手段によって、複数の単語を含む検索式と文書件数とを指定された検索条件として入力する検索条件入力ステップと、前記単語抽出手段によって、前記入力された検索式に含まれる各単語を単語辞書に基づいて抽出する単語抽出ステップと、前記単語群分類手段によって、単語毎に検索対象とする全テキスト文書を通じて予め算出された文書出現頻度に基づいて、前記抽出された各単語を、前記文書出現頻度が所定のしきい値よりも低い単語群と、そうではない単語群とに分類する単語群分類ステップと、前記候補文書探索手段によって、前記文書出現頻度が所定のしきい値よりも低い単語群については前記インパクト値順の転置ファイルを利用して出力候補となる候補文書を探索し、その後、前記文書出現頻度が所定のしきい値以上の単語群については前記文書ＩＤ順の転置ファイルを利用して出力候補となる候補文書を探索する候補文書探索ステップと、前記候補文書出力手段によって、前記入力された検索条件を満たした時点で前記候補文書を確定して出力する候補文書出力ステップとを含んで実行することを特徴とする。

請求項１に記載のテキスト検索装置または請求項７に記載のテキスト検索方法によれば、テキスト検索装置は、検索式に含まれ全文書を通じて文書出現頻度の高くない単語群については、より性能の高いインパクト値順の転置ファイルを用いて侯補文書を探索し、その後、検索式に含まれる残りの単語については、文書ＩＤ順の転置ファイルを用いて候補文書を絞り込む。このように、テキスト検索装置は、検索式に含まれる単語の検索対象とする全文書を通じた文書出現頻度に応じて２種類の転置ファイルを適切に使い分ける。文書ＩＤ順の転置ファイルを従来のように単独で利用する場合には、従来のようにインパクト値順の転置ファイルを単独で用いる場合よりも一般に性能が良くはない。しかし、本発明のテキスト検索装置は、第１段階でインパクト値順の転置ファイルを用いて候補文書をある程度絞り込んでから、第２段階で文書ＩＤ順の転置ファイルを利用する。そのため、第２段階では、文書ＩＤの降順に１つ１つ文書を単純に検索する必要はなく、第１段階で絞り込まれた文書の文書ＩＤ以外を適宜スキップすることができる。その結果、文書ＩＤ順の転置ファイルにおける全スキャンを避けることが可能となる。これにより、テキスト検索装置は、従来に比べて性能を向上させることができる。

また、請求項２に記載のテキスト検索装置は、請求項１に記載のテキスト検索装置において、前記候補文書探索手段が、前記文書出現頻度が前記所定のしきい値よりも低い単語群について前記インパクト値順の転置ファイルを読み込み、インパクト値の高い順に文書毎に前記検索式に依存する単語依存文書スコアを算出し、前記算出した単語依存文書スコアに基づいて前記候補文書を探索する第１探索手段と、前記探索された候補文書の件数が、前記指定された文書件数よりも大きくなったか否かを判別する件数判別手段と、前記探索された候補文書の件数が前記指定された文書件数よりも大きくなった場合に、前記文書出現頻度が前記所定のしきい値以上の単語群についての前記文書ＩＤ順の転置ファイルを読み込み、前記第１探索手段で探索された候補文書の文書ＩＤに一致する候補文書を探索しつつ文書毎のスコアを算出する第２探索手段と、前記第１探索手段と前記第２探索手段とを交互に用いて前記候補文書を絞り込み、前記候補文書の順位として前記指定された文書件数以内の順位を決定する絞込み制御手段とを備えることを特徴とする。

かかる構成によれば、テキスト検索装置は、第１段階として、探索された候補文書が、指定された文書件数に達するまでは、インパクト値順の転置ファイルを利用して候補文書を探索する。そのため、文書件数を指定した利用者が要求する文書数の文書を高速に検索できる。そして、指定された文書件数を超えた後では、第２段階として、文書ＩＤ順の転置ファイルから探索される候補文書と、第１段階で探索された候補文書と突き合わせながら文書毎のスコアを算出する。したがって、例えば、この文書毎のスコアとして各文書が取りうる最大スコアを予め設けておくことで、指定された文書件数に達していた候補文書の中から所定数の文書を除去する足切り処理を行うことができる。そして、テキスト検索装置は、この足切りにより減少した候補文書数を起点に、前記した第１段階を再度実行し、探索された候補文書が、指定された文書件数に達するまでは、インパクト値順の転置ファイルを利用して候補文書を探索する。以下、同様である。これにより、スコアの高い候補文書として、検索対象とするテキスト文書群の中で偏ることなくより幅広い多くの文書の中から選択された適切な候補文書を出力することが可能となる。

また、請求項３に記載のテキスト検索装置は、請求項２に記載のテキスト検索装置において、前記第１探索手段が、前記文書出現頻度が前記所定のしきい値よりも低い単語群について前記インパクト値順の転置ファイルを読み込み、文書毎にインパクト値の高い順に前記検索式に依存する単語依存文書スコアを算出する第１処理手段と、前記各テキスト文書毎に算出された文書独自のスコア順に予め構築された文書独自スコア順の転置ファイルから、前記単語依存文書スコアを算出した文書に対応する前記文書独自のスコアを読み込み、前記読み込んだ文書独自のスコアと、前記算出した単語依存文書スコアとの線形和を用いて前記候補文書を探索する第２処理手段とを備えることを特徴とする。

かかる構成によれば、テキスト検索装置は、第１段階として、探索された候補文書が、指定された文書件数に達するまで候補文書を探索する際に、第１処理手段でインパクト値順の転置ファイルを利用して算出した単語依存文書スコアと、文書独自スコア順の転置ファイルから読み込んだ文書独自のスコアとの線形和を用いて候補文書を探索する。したがって、テキスト検索装置は、単語依存文書スコアと、文書独自のスコアとの線形和を用いる構成なので、従来とは異なって、単語には依存しない文書のスコア（文書独自のスコア）を、あたかも検索式に含まれる単語に依存するスコア（単語依存文書スコア）の一種であるかのように同様に扱うことができる。ここで、文書独自のスコアは、文書に含まれる単語には依存しないスコアであり、例えば、PageRank（登録商標）等である。つまり、文書独自のスコアを、例えばＷｅｂ文書（ドキュメント）のうちで、より多くのユーザに閲覧、利用されるＷｅｂ文書ほど、その値が高くなるように設定することで、本発明のテキスト検索装置は、検索対象とするテキスト文書を、例えばＷｅｂ文書（ドキュメント）とした場合に、より多くのユーザに閲覧、利用されるＷｅｂ文書の中から、指定された検索式に含まれる単語が含まれる文書を候補文書として出力することが可能となる。その結果、本発明のテキスト検索装置は、検索処理の性能を従来よりも向上させることができる。

また、請求項４に記載のテキスト検索装置は、請求項３に記載のテキスト検索装置において、前記テキスト文書毎に文書独自のスコアを算出する独自スコア算出手段と、前記算出した文書独自のスコアに基づいて、前記文書独自スコア順の転置ファイルを構築する文書独自スコア転置ファイル構築手段とをさらに備えることを特徴とする。

かかる構成によれば、テキスト検索装置は、検索処理を行う前に、検索対象とするテキスト文書毎に文書独自のスコアを算出し、文書独自スコア順の転置ファイルを構築し、構築した文書独自スコア順の転置ファイルを蓄積保持することができる。したがって、テキスト検索装置は、文書独自スコア順の転置ファイルを蓄積保持した記憶装置に格納された文書独自スコア順の転置ファイルを用いて、例えば蓄積装置に格納されたテキスト情報を検索対象として検索処理を実行することができる。

また、請求項５に記載のテキスト検索装置は、請求項１ないし請求項４のいずれか一項に記載のテキスト検索装置において、前記各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルが、当該単語について前記検索対象とする全テキスト文書を通じて最大のインパクト値を保持したものであることを特徴とする。

かかる構成によれば、テキスト検索装置は、インパクト値順の転置ファイルを利用する検索処理においては、そのインパクト値に基づいて足切りを行うように、文書ＩＤ順の転置ファイルを利用する検索処理においては、文書ＩＤ順の転置ファイルが保持する最大のインパクト値に基づいて足切りを行うことができる。そのため、文書ＩＤ順の転置ファイルをインパクト値順の転置ファイルと併用して検索処理する際に、いずれの種類の転置ファイルを用いたときにでも足切りを行うことができる。これにより、検索対象とするテキスト文書群の中でより幅広い多くの文書の中から選択された適切な候補文書を出力することが可能となる。

また、請求項６に記載のテキスト検索装置は、請求項１ないし請求項５のいずれか一項に記載のテキスト検索装置において、前記インパクト値順の転置ファイルと、前記文書ＩＤ順の転置ファイルとを構築するインデックス構築手段をさらに備え、前記インデックス構築手段が、検索対象とするテキスト文書群を読み込む文書読込手段と、単語辞書に基づいて前記読み込んだ各テキスト文書から単語を抽出して当該テキスト文書に含まれる単語の特徴量として単語の総数および各単語の単語出現頻度を算出すると共に、単語毎に検索対象とする全テキスト文書を通じた文書出現頻度を算出する文書特徴量算出手段と、単語毎に前記文書出現頻度を前記検索対象とする全テキスト文書を通じて比較し、各単語の前記文書出現頻度が所定のしきい値よりも低いか否かを判別する出現頻度判別手段と、単語の前記文書出現頻度が前記所定のしきい値よりも低い場合に、当該単語について前記インパクト値順の転置ファイルを前記文書検索用のインデックスとして構築する第１転置ファイル構築手段と、単語の前記文書出現頻度が前記所定のしきい値以上である場合に、当該単語について前記検索対象とする全テキスト文書を通じて最大のインパクト値を算出し、前記算出した最大のインパクト値を含む文書ＩＤ順の転置ファイルを前記文書検索用のインデックスとして構築する第２転置ファイル構築手段とを備えることを特徴とする。

かかる構成によれば、テキスト検索装置は、検索処理を行う前に、検索対象とするテキスト文書群から、単語毎に全文書を通じた文書出現頻度を算出し、算出した文書出現頻度に基づき構築すべき適切な転置ファイルの種類として、インパクト値順の転置ファイルと文書ＩＤ順の転置ファイルのうちのいずれかを選択して選択した転置ファイルを構築する。したがって、テキスト検索装置は、算出した各単語の文書出現頻度と、それぞれ構築したインパクト値順の転置ファイルと文書ＩＤ順の転置ファイルとを蓄積保持することができる。そのため、テキスト検索装置は、文書出現頻度とインパクト値順の転置ファイルと文書ＩＤ順の転置ファイルとを蓄積保持した記憶装置に格納された文書出現頻度および各転置ファイルを用いて、例えば蓄積装置に格納されたテキスト情報を検索対象として検索処理を実行することができる。

また、請求項８に記載のテキスト検索プログラムは、請求項１ないし請求項６のいずれか一項に記載のテキスト検索装置の機能をコンピュータで実現するためのプログラムであることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。

また、請求項９に記載のコンピュータ読み取り可能な記録媒体は、請求項８に記載のテキスト検索プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。

本発明によれば、テキスト検索装置は、検索式に含まれる単語の検索対象とする全テキスト文書を通じた文書出現頻度が低い場合には、インパクト値順の転置ファイルを用いて文書の探索を行い、一方、全テキスト文書を通じた文書出現頻度が高い場合には、スキップが可能な文書ＩＤ順の転置ファイルを用いるので、検索処理を高速化する効果がある。そのため、インパクト値順の転置ファイルを利用する際に検索処理の処理性能を向上させることができる。

以下、図面を参照して本発明のテキスト検索装置およびテキスト検索方法を実施するための最良の形態（以下「実施形態」という）について第１実施形態と第２実施形態とに分けて詳細に説明する。

（第１実施形態）
［テキスト検索装置の構成］
図１は、本発明の第１実施形態に係るテキスト検索装置を模式的に示す構成図である。
テキスト検索装置１は、文書ＩＤを有する各テキスト文書においてインパクト値を用いた単語毎に構築されたインパクト値順の転置ファイルと、各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルとを含む複数の転置ファイルを文書検索用のインデックスとして用いて、検索対象としてテキスト文書を検索するものである。ここで、インパクト値は、各テキスト文書において各単語毎に予め算出された単語出現頻度（ｔｆ値）と、当該テキスト文書に含まれる単語の総数と、に基づいて得られる重みの数値を示す。

テキスト検索装置１は、例えば、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、ＲＯＭ（Read Only Memory）と、ＨＤＤ（Hard Disk Drive）と、入出力インタフェース等から構成される。このテキスト検索装置１は、テキスト検索エンジンとして、図１に示すように、インデックス構築装置１０と、検索処理装置２０と、インデックス記憶装置３０と、文書記憶装置４０と、単語辞書記憶装置５０とを備えている。

テキスト検索装置１は、利用者の使用するパーソナルコンピュータ等の端末装置６０にケーブルで接続されたマウスやキーボード等の入力装置Ｍ（図６参照）から入力される検索条件（検索式、文書件数）を入力する。なお、テキスト検索装置１は、例えば、インターネット等の通信ネットワークを介して受信した利用者の検索条件を入力することも可能である。

インデックス構築装置（インデックス構築手段）１０は、文書記憶装置４０に蓄えられた検索対象となるテキスト文書を読み込み、単語辞書記憶装置５０に蓄積された単語辞書を用いて、テキスト文書の形態素解析を行って単語を抽出し、転置ファイルを構築して、構築した転置ファイルをインデックス記憶装置３０に書き出す。本実施形態では、転置ファイルをインデックスで示す。なお、インデックスは、データの検索速度を向上させるために、どの単語がどの文書にあるかを示した索引を示す。

検索処理装置２０は、利用者により指定される文書件数（返却する結果件数）と検索式（複数の単語）とを端末装置６０から入力し、検索式を解析して単語群を抽出し、インデックス記憶装置３０から、抽出された単語に対応する転置ファイルを読み込み、検索条件を満たす候補文書を探索して、検索結果（候補文書）を端末装置６０に出力する。

インデックス記憶装置３０は、転置ファイル（インデックス）を蓄積するものであり、例えば、一般的なハードディスク等から構成される。
文書記憶装置４０は、検索対象となる複数の検索対象文書（テキスト文書、テキスト情報）を蓄積するものであり、例えば、一般的なハードディスク等から構成される。検索対象文書には、文書ＩＤ（識別情報）が付与されている。
単語辞書記憶装置５０は、単語辞書を蓄積するものであり、例えば、一般的なハードディスク等から構成される。なお、インデックス記憶装置３０、文書記憶装置４０、単語辞書記憶装置５０は、１以上の外部記憶装置で構成することもできる。

［テキスト検索装置の検索処理の概要］
図２は、本発明の第１実施形態に係るテキスト検索装置の概要を模式的に示す説明図である。なお、図２では、テキスト検索装置１の検索処理の概要を説明するために、図１に示したインデックス構築装置１０および文書記憶装置４０を省略して表示している。

検索処理装置２０は、端末装置６０から入力された検索条件１０１に含まれる単語群１０２を、単語辞書記憶装置５０に記憶された単語辞書を参照して抽出し、インデックス記憶装置３０に蓄積されたインパクト値順の転置ファイル７１，７２，７４と、文書ＩＤ順の転置ファイル７３とを利用して、出力すべき候補文書を検索し、検索結果を端末装置６０に出力する。このテキスト検索装置１は、図３に示した従来のテキスト検索装置３００と比較すると文書ＩＤ順の転置ファイル７３を、インパクト値順の転置ファイル７１，７２，７４と併用して検索処理をする点が異なっている。

図２に示した例では、テキスト検索装置１の検索処理装置２０は、検索条件１０１である「東京の駅」というフレーズを分割し、単語群１０２として、「東京」、「の」、「駅」を抽出する。そして、検索処理装置２０は、各単語の文書出現頻度（ｄｆ値）に対応して、第１段階として、「東京」と「駅」についてはインパクト値順の転置ファイル７１，７４について、符号１０３，１０４の矢印で示すように、インパクト値の高い順（降順）に文書毎に所定のスコアを算出する。これにより、共通の文書として２つの転置ファイル７１，７４から、符号１０５，１０６でそれぞれ示した文書ＩＤが「１６」である文書（d16）等が探索される。

そして、検索処理装置２０は、第２段階として、「の」については文書ＩＤ順の転置ファイル７３について、文書ＩＤが「１」である文書（d1）から１つずつスキャンするのではなく、符号１０７の矢印で示すように、適宜スキップして、符号１０８の矢印で示すように、文書ＩＤの小さい順（昇順）に、インパクト値順の転置ファイル７１，７４で探索された文書ＩＤに到達するまでスキャンし、符号１０９で示した文書ＩＤが「１６」である文書（d16）を探索し、見つけたときに文書毎に所定のスコアを算出する。以降、第１段階と第２段階とを繰り返して指定された文書件数の候補文書を出力する。なお、転置ファイル（インデックス）の個数は、図示した個数（４個）に限定されない。

次に、図２に示したテキスト検索装置１の検索処理装置２０による検索処理を実現するための、テキスト検索装置１の詳細な構成および動作を説明する。以下では、説明の都合上、インデックス構築装置１０（図１参照）と、検索処理装置２０について、それぞれの構成および動作を詳細に説明することとする。

［インデックス構築装置の構成］
図４は、図１に示すインデックス構築装置の一例を模式的に示すブロック図である。
インデックス構築装置１０は、インパクト値順の転置ファイルと、文書ＩＤ順の転置ファイルとを構築するものであり、文書読込手段１１と、文書特徴量算出手段１２と、出現頻度判別手段１３と、第１転置ファイル構築手段１４と、第２転置ファイル構築手段１５とを備えている。

文書読込手段１１は、文書記憶装置４０から、検索対象とするテキスト文書群を読み込むものである。
文書特徴量算出手段１２は、単語辞書記憶装置５０に蓄積された単語辞書に基づいて、文書読込手段１１で読み込んだ各テキスト文書から単語を抽出して当該テキスト文書に含まれる単語の特徴量として単語の総数および各単語の単語出現頻度（ｔｆ値：Term Frequency）を算出すると共に、単語毎に検索対象とする全テキスト文書を通じた文書出現頻度（ｄｆ値：Document Frequency）を算出するものである。なお、ｄｆ値は、その単語を含む文書数のことを指す。算出されたｄｆ値（文書出現頻度）は、例えば単語辞書記憶装置５０の所定領域に格納される。

出現頻度判別手段１３は、各単語の文書出現頻度を単語毎にテキスト文書群全体を通じて比較し、単語毎に文書出現頻度が所定のしきい値よりも低いか否かを判別するものである。本実施形態では、出現頻度判別手段１３は、未処理の単語を選択し、選択した単語のｄｆ値が所定のしきい値以上であるか否かを判別する。

第１転置ファイル構築手段１４は、単語の文書出現頻度が所定のしきい値よりも低い場合に、当該単語についてインパクト値順の転置ファイルを文書検索用のインデックスとして構築するものである。第１転置ファイル構築手段１４は、公知の方法でインパクト値順の転置ファイルを構築することができる。なお、インパクト値順の転置ファイルの構築の詳細については、例えば、非特許文献１〜４で述べられている。この第１転置ファイル構築手段１４は、構築したインパクト値順の転置ファイル３１をインデックス記憶装置３０に格納する。インパクト値順の転置ファイル３１は、インパクト値の降順で文書（文書ＩＤ）を列挙した転置ファイルである。なお、図４では、インパクト値順の転置ファイル３１を１つだけ例示したが、各単語別にそれぞれ設けられている。

第２転置ファイル構築手段１５は、単語の文書出現頻度が所定のしきい値以上である場合に、当該単語についてテキスト文書群全体を通じて最大のインパクト値を算出し、算出した最大のインパクト値を含む文書ＩＤ順の転置ファイルを文書検索用のインデックスとして構築するものである。第２転置ファイル構築手段１５は、公知の方法で文書ＩＤ順の転置ファイルを構築することができる。なお、文書ＩＤ順の転置ファイルの構築の詳細については、例えば、非特許文献１で述べられている。この第２転置ファイル構築手段１５は、構築した文書ＩＤ順の転置ファイル３２をインデックス記憶装置３０に格納する。文書ＩＤ順の転置ファイル３２は、文書ＩＤの昇順で文書（文書ＩＤ）を列挙した転置ファイルである。なお、図４では、文書ＩＤ順の転置ファイル３２を１つだけ例示したが、各単語別にそれぞれ設けられている。

なお、これら文書読込手段１１、文書特徴量算出手段１２、出現頻度判別手段１３、第１転置ファイル構築手段１４および第２転置ファイル構築手段１５は、ＣＰＵが記憶手段に格納された所定のプログラムをＲＡＭに展開して実行することにより実現されるものである。

［インデックス構築装置の動作］
図４に示したインデックス構築装置１０の動作について図５を参照（適宜図４参照）して説明する。図５は、図４に示すインデックス構築装置の動作を示すフローチャートである。インデックス構築装置１０は、文書読込手段１１によって、検索対象とするテキスト文書群を読み込み（ステップＳ１）、文書特徴量算出手段１２によって、各テキスト文書から単語を抽出して各文書に含まれる単語の総数、ｔｆ値およびｄｆ値を算出する（ステップＳ２）。

そして、インデックス構築装置１０は、出現頻度判別手段１３によって、転置ファイルを構築していない未処理の単語を選択する（ステップＳ３）。そして、インデックス構築装置１０は、出現頻度判別手段１３によって、選択した単語のｄｆ値が所定のしきい値以上であるか否かを判別する（ステップＳ４）。選択した単語のｄｆ値が所定のしきい値以上である場合（ステップＳ４：Ｙｅｓ）、インデックス構築装置１０は、第２転置ファイル構築手段１５によって、当該単語について最大のインパクト値を算出し、最大のインパクト値を含む文書ＩＤ順の転置ファイルを構築する（ステップＳ５）。

一方、ステップＳ４において、選択した単語のｄｆ値が所定のしきい値よりも低い場合（ステップＳ４：Ｎｏ）、インデックス構築装置１０は、第１転置ファイル構築手段１４によって、当該単語についてインパクト値順の転置ファイルを構築する（ステップＳ６）。ステップＳ５またはステップＳ６に続いて、インデックス構築装置１０は、出現頻度判別手段１３によって、全単語を処理したか否かを判別する（ステップＳ７）。未処理の単語がある場合（ステップＳ７：Ｎｏ）、インデックス構築装置１０は、ステップＳ３に戻る。一方、対象とする全単語を処理した場合（ステップＳ７：Ｙｅｓ）、インデックス構築装置１０は、転置ファイル（インデックス）を構築する処理を終了する。

具体的には、図２では、インデックスの構築時に「東京」、「トマト」、「駅」に対しては、インパクト値順の転置ファイル７１，７２，７４が構築され、「の」に対しては文書ＩＤ順の転置ファイル７３が構築されている。ただし、図２では、文書ＩＤ順の転置ファイル７３において最大のインパクト値の図示を省略している。ここで、最大のインパクト値を含む文書ＩＤ順の転置ファイルの構造の一例を図１４に示す。図１４に示したテキスト検索装置１Ｂは、インデックス記憶装置３０に、文書ＩＤ順の転置ファイル７６を蓄積している点が異なる。文書ＩＤ順の転置ファイル７６は、左端に最大のインパクト値（s12.0）を含んでいる点を除いて、図２に示した文書ＩＤ順の転置ファイル７３と同様である。ここで、最大のインパクト値（s12.0）を含む列は、左端に限定されるものではない。

［検索処理装置の構成］
図６は、図１に示す検索処理装置の一例を模式的に示すブロック図である。検索処理装置２０は、図６に示すように、検索条件入力手段２１と、単語抽出手段２２と、単語群分類手段２３と、候補文書探索手段２４と、候補文書出力手段２５とを備えている。

検索条件入力手段２１は、複数の単語を含む検索式と文書件数とを指定された検索条件として入力するものである。本実施形態では、検索条件入力手段２１は、テキスト検索装置１にケーブルで接続された端末装置６０から検索条件を入力する。なお、例えば、インターネット等の通信ネットワークを介して端末装置６０から検索条件を受信するようにしてもよい。端末装置６０の利用者は、例えば、マウスやキーボード等の入力装置Ｍを操作して、検索式および文書件数を検索条件として端末装置６０に入力する。

単語抽出手段２２は、入力された検索式に含まれる各単語を、単語辞書記憶装置５０に蓄積された単語辞書に基づいて抽出するものである。
単語群分類手段２３は、予め算出された文書出現頻度に基づいて、単語抽出手段２２で抽出された各単語を、文書出現頻度が所定のしきい値よりも低い単語群と、そうではない単語群とに分類するものである。本実施形態では、インデックス構築の際に得られて例えば単語辞書記憶装置５０の所定領域に格納されているｄｆ値（文書出現頻度）に基づいて、単語群分類手段２３は、抽出した単語群をｄｆ値（文書出現頻度）の高い単語群と低い単語群とに分類する。

候補文書探索手段２４は、文書出現頻度が所定のしきい値よりも低い単語群についてはインパクト値順の転置ファイルを利用して出力候補となる候補文書を探索し、その後、文書出現頻度が所定のしきい値以上の単語群については文書ＩＤ順の転置ファイルを利用して出力候補となる候補文書を探索するものである。本実施形態では、候補文書探索手段２４は、候補文書探索処理を実行するモジュールであり、サブモジュールとして、図６に示すように、第１探索手段２４１と、件数判別手段２４２と、第２探索手段２４３と、絞込制御手段２４４とを備えている。

第１探索手段２４１は、文書出現頻度が所定のしきい値よりも低い単語群（ｄｆ値の低い単語群）についてインパクト値順の転置ファイル３１を読み込み、インパクト値の高い順に文書毎に検索式に依存する単語依存文書スコアを算出し、算出した単語依存文書スコアに基づいて候補文書を探索するものである。ここで、単語依存文書スコアには、例えば、ｔｆ−ｉｄｆや、ＢＭ２５等の検索式に基づく所定のランキング関数を用いることができる。また、この第１探索手段２４１が候補文書を探索する際に各文書が取りうるスコアのｋ−ベスト（スコアが上位ｋ個の文書）を計算することで検索処理の足切りを行うことができる。なお、検索処理の足切りの方法の詳細については、例えば、非特許文献４で述べられている。

件数判別手段２４２は、第１探索手段２４１で探索された候補文書の件数が、検索条件で指定された文書件数よりも大きくなったか否かを判別するものである。本実施形態では、件数判別手段２４２は、第１探索手段２４１で探索された候補文書の件数が、検索条件で指定された文書件数よりも大きくなった場合に、その旨を第２探索手段２４３に出力する。

第２探索手段２４３は、第１探索手段２４１で探索された候補文書の件数が指定された文書件数よりも大きくなった場合に、文書出現頻度が所定のしきい値以上の単語群（ｄｆ値の高い単語群）についての文書ＩＤ順の転置ファイル３２を読み込み、第１探索手段２４１で探索された候補文書の文書ＩＤに一致する候補文書を探索しつつ文書毎のスコアを算出するものである。第２探索手段２４３は、候補文書を探索する際に、文書ＩＤ順の転置ファイル３２を適宜スキップしつつスキャンする。文書ＩＤ順の転置ファイル３２を適宜スキップしつつスキャンする方法の詳細は、例えば非特許文献１に記載されている。また、第２探索手段２４３は、候補文書の探索を行う際には、文書ＩＤ順の転置ファイル３２に保持した最大のインパクト値を用いて足切りを行う。

絞込制御手段２４４は、第１探索手段２４１と第２探索手段２４３とを交互に用いて候補文書を絞り込み、候補文書の順位として指定された文書件数以内の順位を決定するものである。本実施形態では、絞込制御手段２４４は、検索条件で指定された文書件数の順位が決定したか否かを判別する。絞込制御手段２４４が検索式の条件を満たしている候補文書を特定し、利用者が指定した結果件数を用いて、最終段階の足切り処理を行う方法は、例えば、非特許文献４で述べられている方法を用いることができる。なお、非特許文献４で述べられている方法では、３段階の足切り処理を行っている。

候補文書出力手段２５は、入力された検索条件を満たした時点で候補文書を確定して出力するものである。本実施形態では、候補文書出力手段２５は、テキスト検索装置１にケーブルで接続された端末装置６０に候補文書の一覧を出力する。なお、例えば、インターネット等の通信ネットワークを介して端末装置６０に候補文書の一覧を送信するようにしてもよい。端末装置６０は、取得した候補文書の一覧を、液晶ディスプレイ等の出力装置Ｄに出力表示し、利用者に提示する。

なお、これら検索条件入力手段２１、単語抽出手段２２、単語群分類手段２３、候補文書探索手段２４および候補文書出力手段２５は、ＣＰＵが記憶手段に格納された所定のプログラムをＲＡＭに展開して実行することにより実現されるものである。

［検索処理装置の動作］
図６に示した検索処理装置２０の動作について図７を参照（適宜図６参照）して説明する。図７は、図６に示す検索処理装置の動作を示すフローチャートである。まず、検索処理装置２０は、検索条件入力手段２１によって、検索式と文書件数とを指定された検索条件として入力する（ステップＳ１１：検索条件入力ステップ）。そして、検索処理装置２０は、単語抽出手段２２によって、検索式を解析して含まれる単語群を抽出する（ステップＳ１２：単語抽出ステップ）。そして、検索処理装置２０は、単語群分類手段２３によって、抽出した単語群を、ｄｆ値（出現頻度）の高い単語群と、低い単語群とに分類する（ステップＳ１３：単語群分類ステップ）。そして、検索処理装置２０は、候補文書探索手段２４によって、候補文書探索処理を実行する（ステップＳ１４：候補文書探索ステップ）。そして、検索処理装置２０は、候補文書出力手段２５によって、入力された検索条件を満たした時点で候補文書を確定して検索結果として出力する（ステップＳ１５：候補文書出力ステップ）。

＜候補文書探索処理＞
次に、前記したステップＳ１４の候補文書探索処理について図８を参照（適宜図６参照）して説明する。図８は、図７に示す候補文書探索処理の詳細を示すフローチャートである。まず、候補文書探索手段２４は、第１探索手段２４１によって、ｄｆ値の低い単語群についてインパクト値順の転置ファイル３１を読み込み、単語依存文書スコアを算出し、算出したスコアに基づいて候補文書を探索する（ステップＳ２１）。そして、候補文書探索手段２４は、件数判別手段２４２によって、候補文書の件数が、指定された文書件数を超えたか否かを判別する（ステップＳ２３）。候補文書の件数が、指定された文書件数を超えた場合（ステップＳ２３：Ｙｅｓ）、候補文書探索手段２４は、第２探索手段２４３によって、ｄｆ値の高い単語群について文書ＩＤ順の転置ファイル３２を読み込み（ステップＳ２５）、ステップＳ２１で探索された候補文書の文書ＩＤに一致する候補文書を探索する（ステップＳ２７）。ステップＳ２７において、第２探索手段２４３は、候補文書を探索する際に、文書ＩＤ順の転置ファイルを適宜スキップしつつスキャンすると共に、文書ＩＤを突合せつつ候補文書毎に文書毎のスコアを計算する。

続いて、候補文書探索手段２４は、絞込制御手段２４４によって、検索条件で指定された文書件数の順位が決定したか否かを判別する（ステップＳ２９）。指定された文書件数の順位が決定した場合（ステップＳ２９：Ｙｅｓ）、候補文書探索手段２４は、処理を終了する。一方、指定された文書件数の順位が決定していない場合（ステップＳ２９：Ｎｏ）、候補文書探索手段２４は、ステップＳ２１に戻り処理を繰り返す。
また、前記したステップＳ２３において、候補文書の件数が、検索条件で指定された文書件数を超えていない場合（ステップＳ２３：Ｎｏ）、候補文書探索手段２４は、ステップＳ２１に戻り、インパクト値順の転置ファイルをさらに読み進めて他の候補文書を探索する。これにより、スコアの高い候補文書として、検索対象とする文書群の中で偏ることなくより幅広い多くの文書の中から選択された適切な候補文書を出力することが可能となる。

なお、テキスト検索装置１は、一般的なコンピュータを、検索処理装置２０として機能させるテキスト検索プログラムを実行することで実現することもできる。また、テキスト検索装置１は、一般的なコンピュータを、前記したインデックス構築装置１０および検索処理装置２０として機能させるテキスト検索プログラムを実行することで実現することもできる。これらのプログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等のコンピュータに読み取り可能な記録媒体に書き込んで配布することも可能である。

本実施形態によれば、テキスト検索装置１は、検索式に含まれる単語のｄｆ値が低い場合には、インパクト値順の転置ファイル３１を用いて文書の探索を行い、一方、ｄｆ値が高い単語については、スキップが可能な文書ＩＤ順の転置ファイル３２を用いるので、検索処理を高速化することができる。そのため、インパクト値順の転置ファイル３１を利用するテキスト検索装置において、検索処理の処理性能を向上させることができる。その結果、リソース（ディスク、メモリ、ＣＰＵ）の消費を抑えることが可能である。

（第２実施形態）
［テキスト検索装置の検索処理の概要］
図９は、本発明の第２実施形態に係るテキスト検索装置の概要を模式的に示す説明図である。テキスト検索装置１Ａは、インデックス構築装置１０Ａと、検索処理装置２０Ａと、インデックス記憶装置３０と、文書記憶装置４０（図１参照）と、単語辞書記憶装置５０とを備えている。なお、図９では、テキスト検索装置１Ａの検索処理の概要を説明するために、文書記憶装置４０を省略して表示している。また、図２と同様の構成については、同じ符号を付して説明を省略する。

インデックス構築装置１０Ａは、インパクト値順の転置ファイルおよび文書ＩＤ順の転置ファイルに加えて、文書独自スコアを降順とした文書の順で、文書独自スコア順の転置ファイル７５を構築するものである。文書独自スコア順の転置ファイルは、検索式に含まれる単語に依存しない文書毎のスコアを格納する転置ファイルである。ここで、単語に依存しない文書毎のスコアとしては、検索サーバのログから得られる各Ｗｅｂページに対するクリック回数のデータを用いて算出された文書（Ｗｅｂページ）毎のスコアや、PageRank（登録商標）等を示す。なお、PageRank（登録商標）については、例えば、（Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Jan. 29, 1998、<URL：http://WWW-db.stanford.edu/~backru/pageranksub.ps>）に記載されている。

検索処理装置２０Ａは、インデックス記憶装置３０に蓄積されたインパクト値順の転置ファイル７１，７２，７４と、文書ＩＤ順の転置ファイル７３と、文書独自スコア順の転置ファイル７５とを利用して、出力すべき候補文書を検索し、検索結果（候補文書）を端末装置６０に出力する。この検索処理装置２０Ａは、第１実施形態の検索処理装置２０と比較して第１段階の探索方法が異なっている。

具体的には、テキスト検索装置１Ａの検索処理装置２０Ａは、図９に示した例では、第１段階として、「東京」と「駅」については、インパクト値順の転置ファイル７１，７４を利用して文書毎に所定のスコアを算出し、次いで、文書独自スコア順の転置ファイル７５から読み込まれる文書独自スコアと、算出したスコアとの合計を求め、合計したスコアに基づいて候補文書を探索する。これにより、共通の文書として３つの転置ファイル７１，７４，７５から、符号１０５，１０６，１１１でそれぞれ示した文書ＩＤが「１６」である文書（d16）等が探索される。

次に、図９に示したテキスト検索装置１Ａの検索処理装置２０Ａによる検索処理を実現するための、テキスト検索装置１Ａの詳細な構成および動作を説明する。以下では、説明の都合上、インデックス構築装置１０Ａと、検索処理装置２０Ａについて、それぞれの構成および動作の詳細な説明をすることとする。

［インデックス構築装置の構成］
図１０は、図９に示すインデックス構築装置の一例を模式的に示すブロック図である。図１０に示すインデックス構築装置１０Ａは、独自スコア算出手段１６と、文書独自スコア転置ファイル構築手段１７とを備えている点を除いて、図４に示したインデックス構築装置１０と同じ構成なので、同じ構成には同じ符号を付して説明を省略する。

独自スコア算出手段１６は、検索対象とするテキスト文書群を読み込み、テキスト文書毎に文書独自のスコアを算出するものである。
文書独自スコア転置ファイル構築手段１７は、独自スコア算出手段１６で算出した文書独自のスコアに基づいて、文書独自スコア順の転置ファイル３３を構築するものである。文書独自スコア転置ファイル構築手段１７は、構築した文書独自スコア順の転置ファイル３３をインデックス記憶装置３０に格納する。

［インデックス構築装置の動作］
図１０に示したインデックス構築装置１０Ａがインパクト値順の転置ファイル３１および文書ＩＤ順の転置ファイル３２を構築する動作は、第１実施形態のインデックス構築装置１０と同じなので説明を省略し、異なる点について図１１を参照（適宜図１０参照）して説明する。図１１は、図１０に示すインデックス構築装置による文書独自スコア転置ファイルを構築する動作を示すフローチャートである。インデックス構築装置１０Ａは、独自スコア算出手段１６によって、検索対象とするテキスト文書群を読み込み（ステップＳ３１）、独自スコア算出手段１６によって、テキスト文書毎に文書独自のスコアを算出する（ステップＳ３２）。そして、インデックス構築装置１０Ａは、文書独自スコア転置ファイル構築手段１７によって、文書独自スコア順の転置ファイル３３を構築する（ステップＳ３３）。なお、インデックス構築装置１０Ａが、文書独自スコア順の転置ファイル３３を構築するタイミングは、インパクト値順の転置ファイル３１および文書ＩＤ順の転置ファイル３２を構築する前後いずれのタイミングでもよいし、これらのファイルと並行して構築してもよい。

［検索処理装置の構成］
図１２は、図９に示す検索処理装置の一例を模式的に示すブロック図である。検索処理装置２０Ａは、第１探索手段２４１Ａの構成が異なる点を除いて図６に示した検索処理装置２０と同じ構成なので、同じ構成には同じ符号を付して説明を省略する。
第１探索手段２４１Ａは、図１２に示すように、第１処理手段２５１と、第２処理手段２５２とを備える。

第１処理手段２５１は、文書出現頻度が所定のしきい値よりも低い単語群（ｄｆ値が低い単語群）についてインパクト値順の転置ファイル３１を読み込み、文書毎にインパクト値の高い順に、検索式に依存する単語依存文書スコアを算出するものである。

第２処理手段２５２は、予め構築された文書独自スコア順の転置ファイル３３から、第１処理手段２５１で単語依存文書スコアを算出した文書に対応する文書独自のスコアを読み込み、読み込んだ文書独自のスコアと、第１処理手段２５１で算出した単語依存文書スコアとの線形和を用いて候補文書を探索するものである。例えば、ある文書について、文書独自のスコアが「５」であり、かつ、単語依存文書スコアが「１０」であれば、第２処理手段２５２は、その文書の合計スコアを「１５」として、候補文書を探索する。なお、線形和とは、単純な加算のみに限定されるものではなく、重み付けをしてから加算することも含む。

［検索処理装置の動作］
図１２に示した検索処理装置２０Ａは、全体の動作の中で候補文書探索処理（ステップＳ１４、図７参照）のみが異なる点を除いて、第１実施形態の検索処理装置２０と同じように動作するので、全体の動作の説明を省略し、候補文書探索処理について図１３を参照（適宜図１２参照）して説明する。図１３は、図１２に示す検索処理装置による候補文書探索処理の詳細を示すフローチャートである。

候補文書探索手段２４は、第１探索手段２４１Ａの第１処理手段２５１によって、ｄｆ値の低い単語群についてインパクト値順の転置ファイル３１を読み込み、単語依存文書スコアを算出する（ステップＳ２１ａ）。そして、候補文書探索手段２４は、第１探索手段２４１Ａの第２処理手段２５２によって、文書独自スコア順の転置ファイルを読み込み、読み込んだスコアと、ステップＳ２１ａで算出したスコア（単語依存文書スコア）との線形和に基づいて候補文書を探索する（ステップＳ２１ｂ）。以下の動作は、図８を参照して説明した候補文書探索処理と同様である。ただし、ステップＳ２７ｂでは、候補文書探索手段２４は、第２探索手段２４３によって、ステップＳ２１ｂで探索された候補文書の文書ＩＤに一致する候補文書を探索する。

本実施形態によれば、テキスト検索装置１Ａは、インパクト値順の転置ファイル３１を利用して算出した単語依存文書スコアと、文書独自スコア順の転置ファイル３３から読み込んだ文書独自のスコアとの線形和を用いて候補文書を探索することができる。したがって、テキスト検索装置１Ａは、単語には依存しない文書のスコア（文書独自のスコア）を、あたかも検索式に含まれる単語に依存するスコア（単語依存文書スコア）の一種であるかのように同様に扱うことができる。その結果、テキスト検索装置１Ａは、検索対象とする文書を、例えばＷｅｂ文書（ドキュメント）とした場合に、より多くのユーザに閲覧、利用されるＷｅｂ文書の中から、指定された検索式に含まれる単語が含まれる文書を候補文書として出力することが可能となる。

以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、各実施形態では、テキスト検索装置１（１Ａ）は、インデックス構築装置１０（１０Ａ）を備えるベストモードとして説明したが、インデックス構築装置１０（１０Ａ）は必須ではなく、予め構築された転置ファイルと予め算出されたｄｆ値とを蓄積格納していればよい。同様に、テキスト検索装置１（１Ａ）は、文書記憶装置４０を必ずしも備えていなくてもよい。また、検索対象となるテキスト文書（検索対象文書）は、１つの文書記憶装置４０に蓄積されている必要はなく、ネットワーク上の複数の記憶装置に分散配置されていてもよい。

また、各実施形態では、検索条件として、３個の単語を例示したが、検索条件で入力される単語数は複数であればよい。また、単語のフレーズだけではなく文章を検索式とすることもできる。また、検索式に含まれる単語は、名詞や助詞に限らず、形容詞等の他の品詞でもよい。また、検索式に含まれる単語の言語は日本語に限定されず、英語、仏語、中国語等の他の言語でもよい。

また、第２実施形態では、インデックス構築装置１０Ａが文書独自スコア順の転置ファイル３３を１つだけ作成するものとしたが、複数作成するようにしてもよい。例えば、検索サーバのログから得られる各Ｗｅｂページに対するクリック回数のデータを用いて算出された文書（Ｗｅｂページ）毎のスコアによる転置ファイルと、PageRank（登録商標）のスコアによる転置ファイルとをそれぞれ作成することができる。この場合、第２処理手段２５２は、２つの文書独自スコア順の転置ファイルから、第１処理手段２５１で単語依存文書スコアを算出した文書に対応する文書独自のスコアをそれぞれ読み込み、読み込んだそれぞれの文書独自のスコアと、第１処理手段２５１で算出した単語依存文書スコアとの線形和を用いて候補文書を探索する。このときに、２種類の文書独自スコアに別々の重み付けをしてから単語依存文書スコアに加算することも可能である。この場合にも、より多くのユーザに閲覧、利用されるＷｅｂ文書等の中から、指定された検索式に含まれる単語が含まれる文書を候補文書として出力することが可能となる。

本発明の第１実施形態に係るテキスト検索装置を模式的に示す構成図である。本発明の第１実施形態に係るテキスト検索装置の概要を模式的に示す説明図である。従来のテキスト検索装置の概要を模式的に示す説明図である。図１に示すインデックス構築装置の一例を模式的に示すブロック図である。図４に示すインデックス構築装置の動作を示すフローチャートである。図１に示す検索処理装置の一例を模式的に示すブロック図である。図６に示す検索処理装置の動作を示すフローチャートである。図７に示す候補文書探索処理の詳細を示すフローチャートである。本発明の第２実施形態に係るテキスト検索装置の概要を模式的に示す説明図である。図９に示すインデックス構築装置の一例を模式的に示すブロック図である。図１０に示すインデックス構築装置による文書独自スコア転置ファイルを構築する動作を示すフローチャートである。図９に示す検索処理装置の一例を模式的に示すブロック図である。図１２に示す検索処理装置による候補文書探索処理の詳細を示すフローチャートである。文書ＩＤ順の転置ファイルの一例を示す説明図である。

符号の説明

１（１Ａ，１Ｂ）テキスト検索装置
１０（１０Ａ）インデックス構築装置（インデックス構築手段）
１１文書読込手段
１２文書特徴量算出手段
１３出現頻度判別手段
１４第１転置ファイル構築手段
１５第２転置ファイル構築手段
１６独自スコア算出手段
１７文書独自スコア転置ファイル構築手段
２０（２０Ａ）検索処理装置
２１検索条件入力手段
２２単語抽出手段
２３単語群分類手段
２４候補文書探索手段
２４１（２４１Ａ）第１探索手段
２４２件数判別手段
２４３第２探索手段
２４４絞込制御手段
２５候補文書出力手段
２５１第１処理手段
２５２第２処理手段
３０インデックス記憶装置
４０文書記憶装置
５０単語辞書記憶装置
６０端末装置
Ｍ入力装置
Ｄ出力装置

Claims

文書ＩＤを有する各テキスト文書において単語毎に予め算出された単語出現頻度と、当該テキスト文書に含まれる単語の総数と、に基づいて得られる重みの数値を示すインパクト値を用いた単語毎に構築されたインパクト値順の転置ファイルと、前記各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルとを含む複数の転置ファイルを文書検索用のインデックスとして用いて、前記テキスト文書を検索するテキスト検索装置であって、
複数の単語を含む検索式と文書件数とを指定された検索条件として入力する検索条件入力手段と、
前記入力された検索式に含まれる各単語を単語辞書に基づいて抽出する単語抽出手段と、
単語毎に検索対象とする全テキスト文書を通じて予め算出された文書出現頻度に基づいて、前記抽出された各単語を、前記文書出現頻度が所定のしきい値よりも低い単語群と、そうではない単語群とに分類する単語群分類手段と、
前記文書出現頻度が所定のしきい値よりも低い単語群については前記インパクト値順の転置ファイルを利用して出力候補となる候補文書を探索し、その後、前記文書出現頻度が前記所定のしきい値以上の単語群については前記文書ＩＤ順の転置ファイルを利用して出力候補となる候補文書を探索する候補文書探索手段と、
前記入力された検索条件を満たした時点で前記候補文書を確定して出力する候補文書出力手段とを備えることを特徴とするテキスト検索装置。
前記候補文書探索手段は、
前記文書出現頻度が前記所定のしきい値よりも低い単語群について前記インパクト値順の転置ファイルを読み込み、インパクト値の高い順に文書毎に前記検索式に依存する単語依存文書スコアを算出し、前記算出した単語依存文書スコアに基づいて前記候補文書を探索する第１探索手段と、
前記探索された候補文書の件数が、前記指定された文書件数よりも大きくなったか否かを判別する件数判別手段と、
前記探索された候補文書の件数が前記指定された文書件数よりも大きくなった場合に、前記文書出現頻度が前記所定のしきい値以上の単語群についての前記文書ＩＤ順の転置ファイルを読み込み、前記第１探索手段で探索された候補文書の文書ＩＤに一致する候補文書を探索しつつ文書毎のスコアを算出する第２探索手段と、
前記第１探索手段と前記第２探索手段とを交互に用いて前記候補文書を絞り込み、前記候補文書の順位として前記指定された文書件数以内の順位を決定する絞込み制御手段とを備えることを特徴とする請求項１に記載のテキスト検索装置。
前記第１探索手段は、
前記文書出現頻度が前記所定のしきい値よりも低い単語群について前記インパクト値順の転置ファイルを読み込み、文書毎にインパクト値の高い順に前記検索式に依存する単語依存文書スコアを算出する第１処理手段と、
前記各テキスト文書毎に算出された文書独自のスコア順に予め構築された文書独自スコア順の転置ファイルから、前記単語依存文書スコアを算出した文書に対応する前記文書独自のスコアを読み込み、前記読み込んだ文書独自のスコアと、前記算出した単語依存文書スコアとの線形和を用いて前記候補文書を探索する第２処理手段とを備えることを特徴とする請求項２に記載のテキスト検索装置。
前記テキスト文書毎に文書独自のスコアを算出する独自スコア算出手段と、
前記算出した文書独自のスコアに基づいて、前記文書独自スコア順の転置ファイルを構築する文書独自スコア転置ファイル構築手段とをさらに備えることを特徴とする請求項３に記載のテキスト検索装置。
前記各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルは、当該単語について前記検索対象とする全テキスト文書を通じて最大のインパクト値を保持したものであることを特徴とする請求項１ないし請求項４のいずれか一項に記載のテキスト検索装置。
前記インパクト値順の転置ファイルと、前記文書ＩＤ順の転置ファイルとを構築するインデックス構築手段をさらに備え、
前記インデックス構築手段は、
検索対象とするテキスト文書群を読み込む文書読込手段と、
単語辞書に基づいて前記読み込んだ各テキスト文書から単語を抽出して当該テキスト文書に含まれる単語の特徴量として単語の総数および各単語の単語出現頻度を算出すると共に、単語毎に検索対象とする全テキスト文書を通じた文書出現頻度を算出する文書特徴量算出手段と、
単語毎に前記文書出現頻度を前記検索対象とする全テキスト文書を通じて比較し、各単語の前記文書出現頻度が所定のしきい値よりも低いか否かを判別する出現頻度判別手段と、
単語の前記文書出現頻度が前記所定のしきい値よりも低い場合に、当該単語について前記インパクト値順の転置ファイルを前記文書検索用のインデックスとして構築する第１転置ファイル構築手段と、
単語の前記文書出現頻度が前記所定のしきい値以上である場合に、当該単語について前記検索対象とする全テキスト文書を通じて最大のインパクト値を算出し、前記算出した最大のインパクト値を含む文書ＩＤ順の転置ファイルを前記文書検索用のインデックスとして構築する第２転置ファイル構築手段とを備えることを特徴とする請求項１ないし請求項５のいずれか一項に記載のテキスト検索装置。
文書ＩＤを有する各テキスト文書において単語毎に予め算出された単語出現頻度と、当該テキスト文書に含まれる単語の総数と、に基づいて得られる重みの数値を示すインパクト値を用いた単語毎に構築されたインパクト値順の転置ファイルと、前記各テキスト文書に含まれる単語毎に構築された文書ＩＤ順の転置ファイルとを含む複数の転置ファイルを文書検索用のインデックスとして用いて、検索対象として前記テキスト文書を検索するテキスト検索装置のテキスト検索方法であって、
前記テキスト検索装置は、検索条件入力手段と、単語抽出手段と、単語群分類手段と、候補文書探索手段と、候補文書出力手段とを備え、
前記検索条件入力手段によって、複数の単語を含む検索式と文書件数とを指定された検索条件として入力する検索条件入力ステップと、
前記単語抽出手段によって、前記入力された検索式に含まれる各単語を単語辞書に基づいて抽出する単語抽出ステップと、
前記単語群分類手段によって、単語毎に検索対象とする全テキスト文書を通じて予め算出された文書出現頻度に基づいて、前記抽出された各単語を、前記文書出現頻度が所定のしきい値よりも低い単語群と、そうではない単語群とに分類する単語群分類ステップと、
前記候補文書探索手段によって、前記文書出現頻度が所定のしきい値よりも低い単語群については前記インパクト値順の転置ファイルを利用して出力候補となる候補文書を探索し、その後、前記文書出現頻度が所定のしきい値以上の単語群については前記文書ＩＤ順の転置ファイルを利用して出力候補となる候補文書を探索する候補文書探索ステップと、
前記候補文書出力手段によって、前記入力された検索条件を満たした時点で前記候補文書を確定して出力する候補文書出力ステップとを含んで実行することを特徴とするテキスト検索方法。
請求項１ないし請求項６のいずれか一項に記載のテキスト検索装置の機能をコンピュータで実現するためのテキスト検索プログラム。
請求項８に記載のテキスト検索プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。