JP2005352687A

JP2005352687A - 文書検索用プログラム、文書検索システムおよび文書検索方法

Info

Publication number: JP2005352687A
Application number: JP2004171732A
Authority: JP
Inventors: Toshio Suzuki; 俊夫鈴木; Akihiro Hasegawa; 明宏長谷川
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-06-09
Filing date: 2004-06-09
Publication date: 2005-12-22

Abstract

【課題】より信頼性の高い文書検索処理を行なう。
【解決手段】ユーザが指定した条件を満たす文書を検索する文書検索システム１０は、文書収集部１４と、文書需要予測部２０と、インデックス管理部１６と、文書検索部２２とを有する。文書需要予測部２０は、文書収集部１４により収集された文書の需要予測値を算出する。インデックス管理部１６は、得られた需要予測値に基づいて、収集された文書をインデックスに登録するか否かを判断し、インデックスを適宜、更新する。文書検索部２２は、インデックスに基づいて、ユーザが指定した条件を満たす文書を検索し、その結果をユーザに提示する。
【選択図】図１

Description

ユーザが指定した条件を満たす文書を検索する文書検索システムとして、コンピュータを機能させる文書検索用プログラム、および、文書検索システム、文書検索方法に関する。

従来から検索対象として公開されている多数の文書の中から、ユーザが指定した条件を満たす文書を検索する文書検索システムが知られている。このような文書検索システムとして、検索対象の文書に含まれるキーワードなどを記憶したインデックス（索引）を作成し、このインデックスを読み込み、解釈することにより指定された条件を満たす文書を検索するシステムがある（例えば、下記特許文献１など）。

このインデックスを作成する場合は、まず、多数の文書を保持している文書格納部などから文書を収集する。そして、収集してきた文書を読み込み、文書の保存場所や、文書に含まれるキーワードやその出現位置などを抽出し、インデックスに記憶する。

特開２０００−２８５１３５号公報

ここで、検索対象の文書が増加すれば、当然、インデックスも大容量化する。インデックスが大容量化すると、その読み込み等に時間がかかり、指定の条件を満たす文書を検索するのに時間がかかって、高速処理の妨げとなる。さらに、不必要に大容量化すると、検索の精度も低下する場合がある。

ところで、従来から、セキュリティ上、インデックスへの登録が望ましくない文書を排除するために、インデックスへの文書の登録の際に、所定の登録基準を設ける技術がある。これによれば、登録される文書数が減少し、ひいては、インデックスの大容量化もある程度防止できる可能性がある。しかし、これは本来、インデックスの大容量化防止を目的とするのではなく、セキュリティ上の問題を解消するためのものである。したがって、インデックス大容量化の問題を適切に解消することはできない。そのため、この技術では、検索時間の高速化や検索精度を適切に向上することは困難である。

そこで、本発明では、より信頼性の高い文書検索処理ができる文書検索用プログラム、文書検索システム、文書検索方法を提供することを目的とする。

本発明の文書検索用プログラムは、ユーザが指定した条件を満たす文書を検索する文書検索システムとして、コンピュータを機能させる文書検索用プログラムであって、多数の文書を格納する文書格納部から文書を収集する文書収集手段と、文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、を有する文書検索システムとして、コンピュータを機能させることを特徴とする。

好適な態様では、文書需要予測手段は、さらに、索引に既に登録されている既登録文書の需要も算出し、索引管理手段は、既登録文書のうち、文書需要予測手段で予測された需要が所定の基準値より小さい文書を索引から削除する。

別の好適な態様では、文書需要予測手段は、文書検索手段によって検索結果としてユーザに提示された文書のうち、ユーザが取得した文書についての情報である過去検索情報を記憶する過去検索情報記憶手段と、過去検索情報の統計的解析により、需要予測対象の文書を公開した場合に当該文書が検索されて取得される確率である文書取得確率を算出する需要算出手段と、を有する。望ましくは、過去検索情報は、少なくとも、検索の際に使用された検索条件を含み、需要算出手段は、過去検索情報に基づいて、各検索条件が使用された確率である条件確率を算出する条件確率算出手段と、検索条件と需要予測対象の文書との関連性を示す検索スコアを、各検索条件ごとに算出する検索スコア算出手段と、を有し、条件確率と検索スコアとに基づいて、文書取得確率を算出する。望ましくは、過去検索情報は、さらに、検索した際に検索者により取得された文書の文書情報も含み、需要算出手段は、さらに、過去検索情報と検索スコア算出手段で算出された検索スコアとに基づいて、各検索条件で検索した際に対象文書と同一の検索スコアを有する文書が取得された確率である過去取得確率を算出する過去取得確率算出手段を有し、条件確率と過去取得確率とに基づいて、文書取得確率を算出する。

別の好適な態様では、過去検索情報は、さらに、検索を行った検索者の属性情報および検索を行った時間情報の少なくとも一方の情報を含む検索属性情報を含み、需要算出手段は、検索属性毎の文書取得確率を算出し、索引管理手段は、索引に検索属性毎の文書取得率も登録し、文書検索手段は、検索条件として検索属性も受け付ける。

他の本発明である文書検索システムは、ユーザが指定した条件を満たす文書を検索する文書検索システムであって、多数の文書を格納する文書格納部から文書を収集する文書収集手段と、文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、を有することを特徴とする。

他の本発明である文書検索方法は、ユーザが指定した条件を満たす文書を検索する文書検索方法であって、多数の文書を格納する文書格納部から文書を収集する文書収集工程と、文書収集工程により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測工程と、文書需要予測工程で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理工程と、ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索工程と、を有することを特徴とする。

本発明によれば、所定の基準値以上の需要がある文書のみがインデックスに登録されるため、インデックスが不必要に大容量化することを防止できる。これにより、より信頼性の高い文書検索処理ができる。

以下、本発明の実施の形態について図面を参照して説明する。図１に本発明の実施の形態である文書検索用プログラムを用いた文書検索システム１０の機能ブロック図を示す。

この文書検索システム１０は、文書収集部１４、インデックス管理部１６、文書需要予測部２０、インデックス記憶部１８、文書検索部２２、および、ユーザインターフェース２４（以下、「Ｕ／Ｉ２４」という）を有する。

文書収集部１４は、検索対象の文書が格納されている文書格納部１２から、文書を収集し、インデックス管理部１６に渡す。インデックス管理部１６は、渡された文書を、さらに、文書需要予測部２０に渡す。文書需要予測部２０では、当該文書を検索対象として公開した場合の需要を予測し、その予測値をインデックス管理部１６に返す。インデックス管理部１６は、得られた需要の予測値に基づいて、当該文書をインデックスに登録するか否か、既に登録されている場合は、登録されている内容を更新、削除するか否かを判断する。そして、その判断に基づいてインデックスの更新を行なう。文書検索部２２は、Ｕ／Ｉ２４を介してユーザから指定された条件を満たす文書を検索する。この検索は、インデックスに基づいて行なわれる。そして、検索結果として指定条件を満たす文書のリストをユーザに提示する。ユーザは、提示された文書リストに基づいて、取得したい文書を選び、その実データを文書格納部１２から取得する。以下、各構成要素について詳説する。

文書収集部１４は、文書格納部１２に格納された文書を収集する。ここで、文書格納部１２は、検索対象となり得る多数の文書を格納する記憶手段である。この文書格納部１２は、文書検索システム１０と同一のコンピュータ上に構成される必要はなく、他のコンピュータ上に構成されてもよい。その場合、文書格納部１２と文書収集部１４とは、ネットワークを介して接続され、文書収集部１４が、適宜、文書格納部１２にアクセスできるようになっている。また、当然ながら、文書格納部１２は、単一ではなく、複数のコンピュータで構成されてもよい。

文書収集部１４は、所定のタイミングで、文書格納部１２にアクセスし、検索対象となり得る文書を収集する。ここで、収集される文書は、新規に文書格納部１２に格納された文書、および、内容が更新された文書である。また、過去に収集した文書が削除されているかどうかも確認する。収集された文書、および、削除の確認結果は、インデックス管理部１６に渡される。

インデックス管理部１６は、インデックス記憶部１８に記憶されているインデックスを管理する。ここで、インデックスとは、各文書に含まれるキーワード（検索語）や各キーワードの出現位置などを、その文書の識別情報とともに記憶したものである。インデックス管理部１６は、このインデックスに新たな文書を登録したり、既に登録されている内容を変更、削除する。

インデックス管理部１６は、後述する文書需要予測部２０により算出される文書の需要予測値に基づいて、文書収集部１４から渡された文書を、インデックスに登録するか否か、既に登録されている場合は登録内容を更新するか否かを判断する。すなわち、インデックス管理部１６は、文書収集部１４から収集してきた文書を渡されると、まず、それを文書需要予測部２０に渡す。そして、文書需要予測部２０から出力される需要予測値が所定の基準値以上かを判断する。また、当該文書が既にインデックスに登録されているか否かも判断する。

そして、当該文書の需要が所定の基準値以上かつインデックスに未登録の場合は、当該文書をインデックスに新規登録する。登録は、当該文書に含まれるキーワードを抽出し、抽出したキーワードをその出現位置や当該文書の識別情報などと関連付けて、インデックスに書き込むことにより行なわれる。また、当該文書が既にインデックスに登録されている場合は、その登録内容を更新する。

一方、当該文書の需要予測値が所定の基準値より小さく、かつ、インデックスに未登録の場合、当該文書をインデックスに登録することなく、そのまま処理を終了する。また、インデックスに既に登録されているものの、その需要予測値が所定の基準値より小さい場合は、インデックスから当該文書の登録を削除する。すなわち、インデックス管理部１６は、常に、所定の基準値以上の需要がある文書のみがインデックスに登録されるようにする。

また、インデックス管理部１６は、文書収集部１４から渡された文書の削除の確認結果に基づいて、インデックスを更新する。すなわち、既にインデックスに登録されているものの文書格納部１２から削除された文書については、その登録を削除する。

文書需要予測部２０は、入力された文書の需要を予測する。この文書需要予測部２０について図２を用いて詳説する。図２は、文書需要予測部２０の詳細な機能ブロック図である。文書需要予測部２０は、過去検索情報データベース２８（以下、「過去検索情報ＤＢ２８」）と需要算出部３０とに大別される。

過去検索情報ＤＢ２８は、文書検索部２２で過去に行なわれた検索の情報（過去検索情報）を記憶している。具体的には、過去の検索で使用された検索条件と過去取得文書の文書情報などがある。

ここで、検索条件とは、検索クエリを指す。検索クエリは、周知のように、検索の条件として指定されるもので、所望の文書に含まれるであろう１以上のキーワードの組み合せである。文書検索部２２は、この検索クエリで指定されたキーワードを含む文書を検索し、その文書のリストを検索結果としてユーザに提示する。そして、ユーザは、提示された文書リストの中から所望の文書を選択し、その実データを文書格納部１２から取得する。この実データが取得された文書が過去取得文書となる。過去検索情報ＤＢは、過去検索情報として、この検索条件と過去取得文書の文書情報とを関連付けて記憶している。

需要算出部３０は、条件確率算出部３２、スコア算出部３４、過去取得確率算出部３６、文書取得確率算出部３８を備える。条件確率算出部３２は、過去検索情報に基づいて、ある検索クエリＱｉ（ｉ＝１，２，・・・，ｎ、ｎは整数）が所定の単位時間（例えば、１時間や１分など）内で使用される確率である条件確率Ｐｕ（Ｑｉ）を算出する。この条件確率Ｐｕ（Ｑｉ）は、ある検索クエリＱｉが使用された回数を、過去検索情報のサンプリング時間Ｔｃで割ることにより算出できる。

例えば、過去検索情報として過去３０日間に行われた検索の情報が保持されており（すなわち、サンプリング時間Ｔｃが３０×２４時間）、その中で、ある検索クエリＱ１が使用された検索は５回であったとする。この場合、所定の単位時間、１時間の間に検索クエリＱ１が使用される確率Ｐｕ（Ｑ１）は、Ｐｕ（Ｑ１）＝５／（３０×２４）×１００＝０．６９％となる。

ここで、この条件確率Ｐｕ（Ｑｉ）は、過去に使用された全ての検索クエリについて求めることが望ましいが、処理時間との関係で所定の条件を満たす一部の検索クエリについてのみ求めるようにしてもよい。算出された条件確率Ｐｕ（Ｑｉ）は、文書取得確率算出部３８に出力される。

スコア算出部３４は、各検索クエリＱｉに対する需要予測対象の文書（対象文書Ｄ）の検索スコアＳ_Ｑｉ，Ｄ＝Ｓ（Ｑｉ，Ｄ）を算出する。また、検索条件Ｑｉで検索した際にユーザにより取得された文書である過去取得文書Ｂｉｋ（ｋ＝１，２，，・・・ｋ、ｋは整数）の検索条件Ｑｉに対する検索スコアＳ_{Ｑｉ，Ｂｉｋ}＝Ｓ（Ｑｉ，Ｂｉｋ）も算出する。

ここで、検索スコアとは、検索条件として指定された検索クエリＱｉと、文書との関連の度合いを示す数値である。この検索スコアの算出アルゴリズムは従来から多数提案されており、検索クエリＱｉに含まれるキーワードの出現数や出現位置などに基づいて算出できる。通常、文書検索部２２は、検索結果として複数の文書のリストを提示する際に、検索スコアの高い順に表示する。したがって、検索スコアが高い文書ほど、ユーザの目に止まりやすいといえる。

スコア算出部３４で算出された検索スコアＳ_Ｑｉ，Ｄおよび検索スコアＳ_{Ｑｉ，Ｂｉｋ}は、過去取得確率算出部３６に出力される。過去取得確率算出部３６は、ある検索条件Ｑｉで検索した際に、対象文書Ｄと同じ検索スコアを有する過去取得文書Ｂｉｋ（すなわち、Ｓ_{Ｑｉ，Ｂｉｋ}＝Ｓ_Ｑｉ，Ｄとなる過去取得文書Ｂｉｋ）が取得される確率、過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）を算出する。これは、対象文書Ｄと同じ検索スコアを有する過去取得文書Ｂｉｋが取得された回数を、各検索条件Ｑｉが使用された回数で割ることで算出できる。

例えば、ある検索クエリＱ１に対する対象文書Ｄの検索スコアＳ_Ｑ１，Ｄ＝５０であったとする。そして、その検索条件Ｑ１は５回使用されており、そのうち、Ｑ１に対する検索スコアが５０の過去取得文書Ｂ１ｋ（Ｓ_{Ｑ１，Ｂ１ｋ}＝５０）が取得された回数は１回であったとする。この場合、過去取得確率Ｐｄ（Ｑ１，Ｓ_Ｑ１，Ｄ）＝１／５×１００＝２０％となる。このようにして算出された過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）は、文書取得確率算出部３８に出力される。

文書取得確率算出部３８は、算出された条件確率Ｐｕ（Ｑｉ）および過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）に基づいて、対象文書Ｄが所定の単位時間内に取得される確率、文書取得確率Ｐｄ_ＴＯＴ（Ｄ）を算出する。この文書取得確率Ｐｄ_ＴＯＴ（Ｄ）が高いほど対象文書Ｄは、取得される確率が高く、需要が高いといえる。文書取得確率Ｐｄ_ＴＯＴ（Ｄ）は、各検索クエリＱｉごとに、条件確率Ｐｕ（Ｑｉ）と過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）とを掛け合わせて、その乗算結果のｉについての総和をとることで算出できる。すなわち、文書取得確率Ｐｄ_ＴＯＴ（Ｄ）は、式（１）で表すことができる。

Ｐｄ_ＴＯＴ（Ｄ）＝Σ_ｉＰｕ（Ｑｉ）×Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）（１）

式（１）で算出された文書取得確率Ｐｄ_ＴＯＴ（Ｄ）、すなわち、文書の需要は、インデックス管理部１６へ出力される。インデックス管理部１６は、上述したように出力された需要予測値（文書取得確率Ｐｄ_ＴＯＴ（Ｄ））に基づいて、その文書をインデックスに登録するか否かなどを判断する。

再び、図１に戻り、文書検索部２２について説明する。文書検索部２２は、Ｕ／Ｉ２４を介してユーザから指定された検索条件を満たす文書を検索する。指定される検索条件は、上述したように、１以上のキーワードの組み合せである検索クエリである。文書検索部２２は、インデックスに登録されている全文書について、ユーザから指定された検索クエリに対する検索スコアを算出する。すなわち、文書検索部は、インデックスを読み込み、各文書に含まれるキーワードやその出現位置などを解釈する。次に、その解釈結果に基づいて、指定された検索クエリに対する各文書の検索スコアを算出する。そして、検索結果として、各文書を検索スコアの高い順に並べたリストをユーザに提示する。

ユーザは、提示された文書のリストから所望の文書を選択し、その実データを文書格納部１２から取得（ダウンロード）する。ここで、ユーザが取得した文書の情報は、Ｕ／Ｉを介して文書検索部２２に渡される。文書検索部２２では、この取得された文書の情報を、ユーザが指定した検索条件（検索クエリ）とともに、文書需要予測部２０の過去検索情報ＤＢ２８に記憶する。これにより、過去検索情報ＤＢ２８には、過去に行なわれた検索の情報が蓄積されていく。

次に、この文書検索システム１０におけるインデックスの管理の流れについて図３、図４を用いて説明する。図３はインデックスの管理の流れを示すフローチャートであり、図４は文書需要予測の流れを示すフローチャートである。

インデックスを作成する場合、まず、文書収集部１４により文書が収集される（Ｓ１０）。ここで収集される文書は、文書格納部１２に新たに格納された文書や、内容が更新された文書などである。収集された文書は、インデックス管理部１６に渡される。

インデックス管理部１６は、収集された文書を文書需要予測部２０に渡す。文書需要予測部２０では渡された文書を需要予測の対象文書Ｄとして、その需要を算出する（Ｓ１２）。この需要算出の流れを図４に示す。

文書の需要を予測する際は、まず、文書需要予測部２０の条件確率算出部３２により、過去検索情報に基づいて条件確率Ｐｕ（Ｑｉ）が算出される（Ｓ２６）。これは、各検索条件Ｑｉが使用された回数を、サンプリング時間で割ることにより得られる。算出された条件確率Ｐｕ（Ｑｉ）は文書取得確率算出部３８に出力される。

また、スコア算出部３４が各検索クエリＱｉに対する対象文書Ｄおよび過去取得文書Ｂｉｋの検索スコアＳ_Ｑｉ，Ｄ、Ｓ_{Ｑｉ，Ｂｉｋ}を算出する（Ｓ２８）。算出された検索スコアは、過去取得確率算出部３６に出力される。

過去取得確率算出部３６は、対象文書Ｄと同一検索スコアとなる過去取得文書Ｂｉｋ，すなわち、Ｓ_{Ｑｉ，Ｂｉｋ}＝Ｓ_Ｑｉ，Ｄとなる過去取得文書Ｂｉｋが取得される確率、過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）を算出する（Ｓ３０）。算出された過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）は、文書取得確率算出部３８に出力される。

文書取得確率算出部３８では、所定時間内に対象文書Ｄが取得される確率、文書取得確率Ｐｄ_ＴＯＴ（Ｄ）を算出する（Ｓ３２）。Ｐｄ_ＴＯＴ（Ｄ）は、各検索条件ごとに条件確率Ｐｕ（Ｑｉ）と過去取得確率Ｐｄ（Ｑｉ，Ｓ_Ｑｉ，Ｄ）とを掛け合わせ、その和をとることで算出できる（式（１）参照）。算出された文書取得確率Ｐｄ_ＴＯＴ（Ｄ）は、インデックス管理部１６に渡される。

再び、図３に戻り、インデックス作成の流れの続きを説明する。インデックス管理部１６は、文書需要予測部２０から渡された文書取得確率Ｐｄ_ＴＯＴ（Ｄ）が所定の基準値Ｐｔ以上か否かを判断する。文書取得確率Ｐｄ_ＴＯＴ（Ｄ）が所定の基準値Ｐｔ以上の場合（Ｐｄ_ＴＯＴ（Ｄ）≧Ｐｔ）はステップＳ１６へ、所定の基準値Ｐｔより小さいの場合（Ｐｄ_ＴＯＴ（Ｄ）＜Ｐｔ）はステップＳ２２へ進む。

ステップＳ１６では、当該文書が既にインデックスに登録されているか否かを判断する。まだ、登録されていない場合は、当該文書からキーワードを抽出し、抽出したキーワードをその出現位置や当該文書の識別情報とともに、インデックスに書き込む（Ｓ１８）。既に登録されている場合も当該文書からキーワードを抽出し、インデックスの登録内容を更新する（Ｓ２０）。

文書取得確率Ｐｄ_ＴＯＴ（Ｄ）が所定の基準値Ｐｔより小さい場合は、ステップＳ２２に進む。そして、やはり、インデックスに登録されているか否かを判断する。既に登録されている場合は、その登録を削除する（Ｓ２４）。まだ、登録されていない場合は、インデックスへの新規登録をすることなく、処理を終了する。

以上が、インデックスの管理の流れである。以上の説明から分かるように、本実施の形態では、収集した文書の需要を予測し、その需要が所定の基準値以上の場合のみ、インデックスに登録する。また、既にインデックスに登録されている文書についても、需要が所定の基準値に満たない場合は、登録を削除する。したがって、インデックスには、常に、所定の基準値以上の需要の文書のみが登録されていることとなる。逆にいえば、需要が低い文書は、インデックスには含まれない。これにより、インデックスが不必要に大容量化することが防止できる。

ここで、上述したように文書検索する場合は、文書検索部２２がインデックスの全てを読み込み解釈する。したがって、インデックスが不必要に大容量化すると、文書検索の高速化を阻害する。また、文書の中には、検索スコアが高くても需要が殆ど無い文書もある。このような文書までインデックスに登録しておくことは、文書検索の適正を下げることとなる。

しかし、本実施の形態によれば、需要に基づいてインデックスへの登録の可否を判断するため、不必要なインデックスの大容量化を防止でき、ひいては、文書検索の高速化を図れる。また、需要の少ない文書はインデックスに登録しない、または、削除することにより、より文書検索の適正を向上できる。

なお、インデックスに登録済みの文書については、文書収集のタイミング（すなわち、文書の内容が変更されたタイミング）とは関係なく、所定のタイミング（例えば、１ヶ月に一度など）で、インデックスへの登録内容の変更、削除を行なってもよい。言い換えれば、文書の内容に変更が無くても、定期的に需要を予測し、インデックスへの登録内容の変更、削除をしてもよい。このように文書の内容変更の有無とは無関係に定期的に需要を予測することによって、次第に需要がなくなっていった文書などをインデックスから削除できる。そして、より効率的に不必要なインデックスの大容量化を防止でき、ひいては、文書検索の高速化、検索精度の向上が図れる。

また、インデックスへの登録、変更、削除の判断基準として、需要予測値以外の値も参照してもよい。例えば、新規なキーワードを含む文書は、需要予測値に関わらずインデックスに登録するようにしてもよい。すなわち、世の中にできて間もない用語や製品に関する文書は、どうしても需要予測値が低くなる。しかし、そのような文書は、今後、需要が高まることもあるので、需要予測値に関わらず、インデックスに登録するようにしてもよい。

また、上記説明における文書需要の算出方法は、一例であり、他の方法で算出してもよい。例えば、本実施の形態では、過去取得確率を用いて文書取得確率を算出しているが、これを用いず、各検索クエリが使用される確率である条件確率と、各検索クエリに対する対象文書Ｄのスコアのみから、文書取得確率を算出してもよい。すなわち、一般的に、検索スコア（より正確には検索スコア順位）が高いほど、取得される確率が高くなる。したがって、検索スコアまたは検索スコア順位ごとに、取得されるであろう確率、仮取得率を決めておく。これは、例えば、検索スコア８０（検索スコア順位１０位）なら仮取得率は１０％、検索スコア５０（検索スコア順位２０位）なら仮取得率は５％、などのように一律で決めておく。そして、条件確率Ｐｕ（Ｑｉ）とこの仮取得確率とを掛け合わせた和を文書取得確率Ｐｄ_ＴＯＴ（Ｄ）としてもよい。

また、別の方法として、対象文書Ｄとは別の文書である比較文書Ｈｉの文書取得確率、比較取得確率Ｐｄ_ＴＯＴ（Ｈｉ）を算出し、得られた比較取得確率Ｐｄ_ＴＯＴ（Ｈｉ）、および、比較文書Ｈｉと対象文書Ｄとの相関度から文書取得確率Ｐｄ_ＴＯＴ（Ｄ）を算出してもよい。すなわち、過去検索情報として、各文書の取得された回数も蓄積しておく。そして、所定時間内に、各文書が取得される確率を算出する。ここで、各文書が比較文書Ｈｉとなり、その各文書が取得される確率が比較取得確率となる。次に、対象文書Ｄと各比較文書Ｈｉとの関連度Ａｉを算出する。ここで、関連度とは、２つの文書の関連性を示す度合いであり、例えば、共通して出現する語の数やその出現位置などをパラメータとした所定のアルゴリズムにしたがって算出される。このアルゴリズムは、従来から多数提案されており、これらを利用することができる。比較取得確率Ｐｄ_ＴＯＴ（Ｈｉ）および関連度Ａｉに基づいて、対象文書Ｄが所定時間内に取得される確率Ｐｄ_ＴＯＴ（Ｄ）を算出する。これは、各比較文書Ｈｉごとに比較取得確率Ｐｄ_ＴＯＴ（Ｈｉ）と関連度Ａｉとを掛け合わせ、その和の平均を取ることで得ることができる。すなわち文書取得確率Ｐｄ_ＴＯＴ（Ｄ）は、式（２）で求めることができる。

Ｐｄ_ＴＯＴ（Ｄ）＝（Σ_ｉＰｄ_ＴＯＴ（Ｈｉ）×Ａｉ）／（Σ_ｉＡｉ）（２）

この需要算出方法は、検索スコア計算に他文書からのリンク数を利用するものである場合にも有効である。文書検索システムの中には、各検索条件に対する文書の検索スコア算出に際して、他文書から張られたリンクの数をパラメータの一つとして用い、他文書からのリンク数が多いほど検索スコアが高くなるものがある。これは、他の文書からリンクが張られている（参照されている）文書は、有用な文書であることが多いためである。そして、他文書からのリンク数が多い文書の検索スコア順位を高くし、検索結果の表示順位を上げるようにしている。このような検索スコア計算によれば、より有用な文書が見つかりやすくなる。

しかしながら、このような検索スコア計算方法では、公開直後の対象文書Ｄは、他文書からのリンク数が０または少ないため検索スコアが低くなり、正確な需要を予測することが困難となる。そこで、既に他文書からリンクが張られ得る比較文書Ｈｉを用いて対象文書Ｄの需要を予測している。したがって、公開前の対象文書Ｄであっても他文書からのリンク数を反映した需要を求めることができ、より、精度の高い需要を求めることができる。

次に第二の実施の形態について説明する。第二の実施の形態の構成は、上述の実施の形態とほぼ同じであるため、図１，図２を用いて説明する。第二の実施の形態では、検索属性毎の需要も算出する点、さらに、検索条件として検索属性を指定できる点が上述の実施の形態と異なる。以下、第二の実施の形態について詳説する。

文書需要予測部２０は、通常の需要に加え、検索属性毎の需要を算出する。ここで、検索属性とは、例えば、検索を行なったユーザの属性（年齢や性別、所属グループなど）や、検索を行なった時間帯（時刻や曜日）などを指す。検索属性毎の需要は、過去検索情報として、検索属性情報（検索を行なった検索者の属性や時間帯）も記憶することにより可能となる。そして、文書取得確率を算出する際に用いる過去検索情報を、特定の検索属性の情報に限定すれば検索属性毎の文書取得確率が算出できる。

そして、得られた通常の需要（文書取得確率）および検索属性毎の需要は、インデックス管理部１６へと渡される。インデックス管理部１６では、通常の需要に基づいて、インデックスへの登録、変更、削除の有無を判断する。そして、インデックスへの登録、変更、削除をする場合は、検索属性毎の需要もインデックスに書き込む。すなわち、インデックスには、各文書に含まれるキーワード等の他、検索属性毎の需要も記憶される。

文書検索部２２は、検索条件として検索クエリの他、検索属性も受け付ける。例えば、特に女性に需要の高い文書を所望する場合は、検索条件として、検索クエリの他、「検索属性：女性」を入力する。これを受けた文書検索部２２は、インデックスを読み込み、検索スコアを算出する。この検索スコア算出に際しては、キーワードの有無や出現位置だけでなく、「検索属性：女性」における需要も考慮して算出する。これは、例えば、次のような方法で算出できる。

まず、キーワードの有無や位置だけに基づいて通常の検索スコアＳbasicを算出する。次に、「検索属性：女性」における需要の値に所定の係数を掛けた属性参照値Ｒを算出する。そして、得られた通常の検索スコアＳbasicと属性参照値Ｒとを加算した値を文書検索における最終検索スコアＳとして用いる。

最終検索スコアＳが得られれば、その得られた最終検索スコアＳの高い順に並べた文書リストをユーザに提示する。ユーザは提示された文書リストを見て、所望の文書を取得する。その際、文書検索部２２は、そのユーザの属性や時間帯を過去検索情報ＤＢ２８に渡す。

このように、検索条件として検索属性毎の需要を受け付け、検索スコア算出の際に、その検索属性での需要を考慮することにより、より、ユーザの希望に即した検索結果を提供できる。

なお、当然ながら、最終検索スコアＳの算出方法は、上述の方法に限られない。例えば、その検索属性における需要の値が所定の基準値以上の文書についてのみ、検索スコアを算出するようにしてもよい。すなわち、インデックスに基づいて、その検索属性において一定以上の需要がある文書のみを抽出する。そして、抽出した文書について、キーワードの有無や位置だけに基づいて通常の検索スコアＳbasicを算出し、これを最終検索スコアＳとしてもよい。

本発明の実施の形態である文書検索システムの機能ブロック図である。文書需要予測部の詳細な機能ブロック図である。インデックスの管理の流れを示すフローチャートである。文書の需要予測の流れを示すフローチャートである。

符号の説明

１０文書検索システム、１２文書格納部、１４文書収集部、１６インデックス管理部、１８インデックス記憶部、２０文書需要予測部、２２文書検索部、２４ユーザインターフェース、２８過去検索情報データベース、３０需要算出部、３２条件確率算出部、３４スコア算出部、３６過去取得確率算出部、３８文書取得確率算出部。

Claims

ユーザが指定した条件を満たす文書を検索する文書検索システムとして、コンピュータを機能させる文書検索用プログラムであって、
多数の文書を格納する文書格納部から文書を収集する文書収集手段と、
文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、
検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、
ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、
を有する文書検索システムとして、コンピュータを機能させることを特徴とする文書検索用プログラム。
請求項１に記載の文書検索用プログラムであって、
文書需要予測手段は、さらに、索引に既に登録されている既登録文書の需要も算出し、
索引管理手段は、既登録文書のうち、文書需要予測手段で予測された需要が所定の基準値より小さい文書を索引から削除することを特徴とする文書検索用プログラム。
請求項１または２に記載の文書検索用プログラムであって、
文書需要予測手段は、
文書検索手段による検索結果としてユーザに提示された文書のうち、ユーザが取得した文書についての情報である過去検索情報を記憶する過去検索情報記憶手段と、
過去検索情報の統計的解析により、需要予測対象の文書を公開した場合に当該文書が検索されて取得される確率である文書取得確率を算出する需要算出手段と、
を有することを特徴とする文書検索用プログラム。
請求項３に記載の文書検索用プログラムであって、
過去検索情報は、少なくとも、検索の際に使用された検索条件を含み、
需要算出手段は、
過去検索情報に基づいて、各検索条件が使用された確率である条件確率を算出する条件確率算出手段と、
検索条件と需要予測対象の文書との関連性を示す検索スコアを、各検索条件ごとに算出する検索スコア算出手段と、
を有し、条件確率と検索スコアとに基づいて、文書取得確率を算出することを特徴とする文書検索用プログラム。
請求項４に記載の文書検索用プログラムであって、
過去検索情報は、さらに、検索した際に検索者により取得された文書の文書情報も含み、
需要算出手段は、さらに、
過去検索情報と検索スコア算出手段で算出された検索スコアとに基づいて、各検索条件で検索した際に需要予測対象の文書と同一の検索スコアを有する文書が取得された確率である過去取得確率を算出する過去取得確率算出手段を有し、
条件確率と過去取得確率とに基づいて、文書取得確率を算出することを特徴とする文書検索用プログラム。
請求項３から６のいずれか１項に記載の文書検索用プログラムであって、
過去検索情報は、さらに、検索を行った検索者の属性情報および検索を行った時間情報の少なくとも一方の情報を含む検索属性情報を含み、
需要算出手段は、検索属性毎の文書取得確率を算出し、
索引管理手段は、索引に検索属性毎の文書取得率も登録し、
文書検索手段は、検索条件として検索属性も受け付ける
ことを特徴とする文書検索用プログラム。
ユーザが指定した条件を満たす文書を検索する文書検索システムであって、
多数の文書を格納する文書格納部から文書を収集する文書収集手段と、
文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、
検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、
ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、
を有することを特徴とする文書検索システム。
ユーザが指定した条件を満たす文書を検索する文書検索方法であって、
多数の文書を格納する文書格納部から文書を収集する文書収集工程と、
文書収集工程により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測工程と、
文書需要予測工程で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理工程と、
ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索工程と、
を有することを特徴とする文書検索方法。