JP2005352687A - 文書検索用プログラム、文書検索システムおよび文書検索方法 - Google Patents

文書検索用プログラム、文書検索システムおよび文書検索方法 Download PDF

Info

Publication number
JP2005352687A
JP2005352687A JP2004171732A JP2004171732A JP2005352687A JP 2005352687 A JP2005352687 A JP 2005352687A JP 2004171732 A JP2004171732 A JP 2004171732A JP 2004171732 A JP2004171732 A JP 2004171732A JP 2005352687 A JP2005352687 A JP 2005352687A
Authority
JP
Japan
Prior art keywords
document
search
index
demand
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004171732A
Other languages
English (en)
Inventor
Toshio Suzuki
俊夫 鈴木
Akihiro Hasegawa
明宏 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004171732A priority Critical patent/JP2005352687A/ja
Publication of JP2005352687A publication Critical patent/JP2005352687A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】より信頼性の高い文書検索処理を行なう。
【解決手段】ユーザが指定した条件を満たす文書を検索する文書検索システム10は、文書収集部14と、文書需要予測部20と、インデックス管理部16と、文書検索部22とを有する。文書需要予測部20は、文書収集部14により収集された文書の需要予測値を算出する。インデックス管理部16は、得られた需要予測値に基づいて、収集された文書をインデックスに登録するか否かを判断し、インデックスを適宜、更新する。文書検索部22は、インデックスに基づいて、ユーザが指定した条件を満たす文書を検索し、その結果をユーザに提示する。
【選択図】図1

Description

ユーザが指定した条件を満たす文書を検索する文書検索システムとして、コンピュータを機能させる文書検索用プログラム、および、文書検索システム、文書検索方法に関する。
従来から検索対象として公開されている多数の文書の中から、ユーザが指定した条件を満たす文書を検索する文書検索システムが知られている。このような文書検索システムとして、検索対象の文書に含まれるキーワードなどを記憶したインデックス(索引)を作成し、このインデックスを読み込み、解釈することにより指定された条件を満たす文書を検索するシステムがある(例えば、下記特許文献1など)。
このインデックスを作成する場合は、まず、多数の文書を保持している文書格納部などから文書を収集する。そして、収集してきた文書を読み込み、文書の保存場所や、文書に含まれるキーワードやその出現位置などを抽出し、インデックスに記憶する。
特開2000−285135号公報
ここで、検索対象の文書が増加すれば、当然、インデックスも大容量化する。インデックスが大容量化すると、その読み込み等に時間がかかり、指定の条件を満たす文書を検索するのに時間がかかって、高速処理の妨げとなる。さらに、不必要に大容量化すると、検索の精度も低下する場合がある。
ところで、従来から、セキュリティ上、インデックスへの登録が望ましくない文書を排除するために、インデックスへの文書の登録の際に、所定の登録基準を設ける技術がある。これによれば、登録される文書数が減少し、ひいては、インデックスの大容量化もある程度防止できる可能性がある。しかし、これは本来、インデックスの大容量化防止を目的とするのではなく、セキュリティ上の問題を解消するためのものである。したがって、インデックス大容量化の問題を適切に解消することはできない。そのため、この技術では、検索時間の高速化や検索精度を適切に向上することは困難である。
そこで、本発明では、より信頼性の高い文書検索処理ができる文書検索用プログラム、文書検索システム、文書検索方法を提供することを目的とする。
本発明の文書検索用プログラムは、ユーザが指定した条件を満たす文書を検索する文書検索システムとして、コンピュータを機能させる文書検索用プログラムであって、多数の文書を格納する文書格納部から文書を収集する文書収集手段と、文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、を有する文書検索システムとして、コンピュータを機能させることを特徴とする。
好適な態様では、文書需要予測手段は、さらに、索引に既に登録されている既登録文書の需要も算出し、索引管理手段は、既登録文書のうち、文書需要予測手段で予測された需要が所定の基準値より小さい文書を索引から削除する。
別の好適な態様では、文書需要予測手段は、文書検索手段によって検索結果としてユーザに提示された文書のうち、ユーザが取得した文書についての情報である過去検索情報を記憶する過去検索情報記憶手段と、過去検索情報の統計的解析により、需要予測対象の文書を公開した場合に当該文書が検索されて取得される確率である文書取得確率を算出する需要算出手段と、を有する。望ましくは、過去検索情報は、少なくとも、検索の際に使用された検索条件を含み、需要算出手段は、過去検索情報に基づいて、各検索条件が使用された確率である条件確率を算出する条件確率算出手段と、検索条件と需要予測対象の文書との関連性を示す検索スコアを、各検索条件ごとに算出する検索スコア算出手段と、を有し、条件確率と検索スコアとに基づいて、文書取得確率を算出する。望ましくは、過去検索情報は、さらに、検索した際に検索者により取得された文書の文書情報も含み、需要算出手段は、さらに、過去検索情報と検索スコア算出手段で算出された検索スコアとに基づいて、各検索条件で検索した際に対象文書と同一の検索スコアを有する文書が取得された確率である過去取得確率を算出する過去取得確率算出手段を有し、条件確率と過去取得確率とに基づいて、文書取得確率を算出する。
別の好適な態様では、過去検索情報は、さらに、検索を行った検索者の属性情報および検索を行った時間情報の少なくとも一方の情報を含む検索属性情報を含み、需要算出手段は、検索属性毎の文書取得確率を算出し、索引管理手段は、索引に検索属性毎の文書取得率も登録し、文書検索手段は、検索条件として検索属性も受け付ける。
他の本発明である文書検索システムは、ユーザが指定した条件を満たす文書を検索する文書検索システムであって、多数の文書を格納する文書格納部から文書を収集する文書収集手段と、文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、を有することを特徴とする。
他の本発明である文書検索方法は、ユーザが指定した条件を満たす文書を検索する文書検索方法であって、多数の文書を格納する文書格納部から文書を収集する文書収集工程と、文書収集工程により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測工程と、文書需要予測工程で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理工程と、ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索工程と、を有することを特徴とする。
本発明によれば、所定の基準値以上の需要がある文書のみがインデックスに登録されるため、インデックスが不必要に大容量化することを防止できる。これにより、より信頼性の高い文書検索処理ができる。
以下、本発明の実施の形態について図面を参照して説明する。図1に本発明の実施の形態である文書検索用プログラムを用いた文書検索システム10の機能ブロック図を示す。
この文書検索システム10は、文書収集部14、インデックス管理部16、文書需要予測部20、インデックス記憶部18、文書検索部22、および、ユーザインターフェース24(以下、「U/I24」という)を有する。
文書収集部14は、検索対象の文書が格納されている文書格納部12から、文書を収集し、インデックス管理部16に渡す。インデックス管理部16は、渡された文書を、さらに、文書需要予測部20に渡す。文書需要予測部20では、当該文書を検索対象として公開した場合の需要を予測し、その予測値をインデックス管理部16に返す。インデックス管理部16は、得られた需要の予測値に基づいて、当該文書をインデックスに登録するか否か、既に登録されている場合は、登録されている内容を更新、削除するか否かを判断する。そして、その判断に基づいてインデックスの更新を行なう。文書検索部22は、U/I24を介してユーザから指定された条件を満たす文書を検索する。この検索は、インデックスに基づいて行なわれる。そして、検索結果として指定条件を満たす文書のリストをユーザに提示する。ユーザは、提示された文書リストに基づいて、取得したい文書を選び、その実データを文書格納部12から取得する。以下、各構成要素について詳説する。
文書収集部14は、文書格納部12に格納された文書を収集する。ここで、文書格納部12は、検索対象となり得る多数の文書を格納する記憶手段である。この文書格納部12は、文書検索システム10と同一のコンピュータ上に構成される必要はなく、他のコンピュータ上に構成されてもよい。その場合、文書格納部12と文書収集部14とは、ネットワークを介して接続され、文書収集部14が、適宜、文書格納部12にアクセスできるようになっている。また、当然ながら、文書格納部12は、単一ではなく、複数のコンピュータで構成されてもよい。
文書収集部14は、所定のタイミングで、文書格納部12にアクセスし、検索対象となり得る文書を収集する。ここで、収集される文書は、新規に文書格納部12に格納された文書、および、内容が更新された文書である。また、過去に収集した文書が削除されているかどうかも確認する。収集された文書、および、削除の確認結果は、インデックス管理部16に渡される。
インデックス管理部16は、インデックス記憶部18に記憶されているインデックスを管理する。ここで、インデックスとは、各文書に含まれるキーワード(検索語)や各キーワードの出現位置などを、その文書の識別情報とともに記憶したものである。インデックス管理部16は、このインデックスに新たな文書を登録したり、既に登録されている内容を変更、削除する。
インデックス管理部16は、後述する文書需要予測部20により算出される文書の需要予測値に基づいて、文書収集部14から渡された文書を、インデックスに登録するか否か、既に登録されている場合は登録内容を更新するか否かを判断する。すなわち、インデックス管理部16は、文書収集部14から収集してきた文書を渡されると、まず、それを文書需要予測部20に渡す。そして、文書需要予測部20から出力される需要予測値が所定の基準値以上かを判断する。また、当該文書が既にインデックスに登録されているか否かも判断する。
そして、当該文書の需要が所定の基準値以上かつインデックスに未登録の場合は、当該文書をインデックスに新規登録する。登録は、当該文書に含まれるキーワードを抽出し、抽出したキーワードをその出現位置や当該文書の識別情報などと関連付けて、インデックスに書き込むことにより行なわれる。また、当該文書が既にインデックスに登録されている場合は、その登録内容を更新する。
一方、当該文書の需要予測値が所定の基準値より小さく、かつ、インデックスに未登録の場合、当該文書をインデックスに登録することなく、そのまま処理を終了する。また、インデックスに既に登録されているものの、その需要予測値が所定の基準値より小さい場合は、インデックスから当該文書の登録を削除する。すなわち、インデックス管理部16は、常に、所定の基準値以上の需要がある文書のみがインデックスに登録されるようにする。
また、インデックス管理部16は、文書収集部14から渡された文書の削除の確認結果に基づいて、インデックスを更新する。すなわち、既にインデックスに登録されているものの文書格納部12から削除された文書については、その登録を削除する。
文書需要予測部20は、入力された文書の需要を予測する。この文書需要予測部20について図2を用いて詳説する。図2は、文書需要予測部20の詳細な機能ブロック図である。文書需要予測部20は、過去検索情報データベース28(以下、「過去検索情報DB28」)と需要算出部30とに大別される。
過去検索情報DB28は、文書検索部22で過去に行なわれた検索の情報(過去検索情報)を記憶している。具体的には、過去の検索で使用された検索条件と過去取得文書の文書情報などがある。
ここで、検索条件とは、検索クエリを指す。検索クエリは、周知のように、検索の条件として指定されるもので、所望の文書に含まれるであろう1以上のキーワードの組み合せである。文書検索部22は、この検索クエリで指定されたキーワードを含む文書を検索し、その文書のリストを検索結果としてユーザに提示する。そして、ユーザは、提示された文書リストの中から所望の文書を選択し、その実データを文書格納部12から取得する。この実データが取得された文書が過去取得文書となる。過去検索情報DBは、過去検索情報として、この検索条件と過去取得文書の文書情報とを関連付けて記憶している。
需要算出部30は、条件確率算出部32、スコア算出部34、過去取得確率算出部36、文書取得確率算出部38を備える。条件確率算出部32は、過去検索情報に基づいて、ある検索クエリQi(i=1,2,・・・,n、nは整数)が所定の単位時間(例えば、1時間や1分など)内で使用される確率である条件確率Pu(Qi)を算出する。この条件確率Pu(Qi)は、ある検索クエリQiが使用された回数を、過去検索情報のサンプリング時間Tcで割ることにより算出できる。
例えば、過去検索情報として過去30日間に行われた検索の情報が保持されており(すなわち、サンプリング時間Tcが30×24時間)、その中で、ある検索クエリQ1が使用された検索は5回であったとする。この場合、所定の単位時間、1時間の間に検索クエリQ1が使用される確率Pu(Q1)は、Pu(Q1)=5/(30×24)×100=0.69%となる。
ここで、この条件確率Pu(Qi)は、過去に使用された全ての検索クエリについて求めることが望ましいが、処理時間との関係で所定の条件を満たす一部の検索クエリについてのみ求めるようにしてもよい。算出された条件確率Pu(Qi)は、文書取得確率算出部38に出力される。
スコア算出部34は、各検索クエリQiに対する需要予測対象の文書(対象文書D)の検索スコアSQi,D=S(Qi,D)を算出する。また、検索条件Qiで検索した際にユーザにより取得された文書である過去取得文書Bik(k=1,2,,・・・k、kは整数)の検索条件Qiに対する検索スコアSQi,Bik=S(Qi,Bik)も算出する。
ここで、検索スコアとは、検索条件として指定された検索クエリQiと、文書との関連の度合いを示す数値である。この検索スコアの算出アルゴリズムは従来から多数提案されており、検索クエリQiに含まれるキーワードの出現数や出現位置などに基づいて算出できる。通常、文書検索部22は、検索結果として複数の文書のリストを提示する際に、検索スコアの高い順に表示する。したがって、検索スコアが高い文書ほど、ユーザの目に止まりやすいといえる。
スコア算出部34で算出された検索スコアSQi,Dおよび検索スコアSQi,Bikは、過去取得確率算出部36に出力される。過去取得確率算出部36は、ある検索条件Qiで検索した際に、対象文書Dと同じ検索スコアを有する過去取得文書Bik(すなわち、SQi,Bik=SQi,Dとなる過去取得文書Bik)が取得される確率、過去取得確率Pd(Qi,SQi,D)を算出する。これは、対象文書Dと同じ検索スコアを有する過去取得文書Bikが取得された回数を、各検索条件Qiが使用された回数で割ることで算出できる。
例えば、ある検索クエリQ1に対する対象文書Dの検索スコアSQ1,D=50であったとする。そして、その検索条件Q1は5回使用されており、そのうち、Q1に対する検索スコアが50の過去取得文書B1k(SQ1,B1k=50)が取得された回数は1回であったとする。この場合、過去取得確率Pd(Q1,SQ1,D)=1/5×100=20%となる。このようにして算出された過去取得確率Pd(Qi,SQi,D)は、文書取得確率算出部38に出力される。
文書取得確率算出部38は、算出された条件確率Pu(Qi)および過去取得確率Pd(Qi,SQi,D)に基づいて、対象文書Dが所定の単位時間内に取得される確率、文書取得確率PdTOT(D)を算出する。この文書取得確率PdTOT(D)が高いほど対象文書Dは、取得される確率が高く、需要が高いといえる。文書取得確率PdTOT(D)は、各検索クエリQiごとに、条件確率Pu(Qi)と過去取得確率Pd(Qi,SQi,D)とを掛け合わせて、その乗算結果のiについての総和をとることで算出できる。すなわち、文書取得確率PdTOT(D)は、式(1)で表すことができる。
PdTOT(D)=ΣPu(Qi)×Pd(Qi,SQi,D) (1)
式(1)で算出された文書取得確率PdTOT(D)、すなわち、文書の需要は、インデックス管理部16へ出力される。インデックス管理部16は、上述したように出力された需要予測値(文書取得確率PdTOT(D))に基づいて、その文書をインデックスに登録するか否かなどを判断する。
再び、図1に戻り、文書検索部22について説明する。文書検索部22は、U/I24を介してユーザから指定された検索条件を満たす文書を検索する。指定される検索条件は、上述したように、1以上のキーワードの組み合せである検索クエリである。文書検索部22は、インデックスに登録されている全文書について、ユーザから指定された検索クエリに対する検索スコアを算出する。すなわち、文書検索部は、インデックスを読み込み、各文書に含まれるキーワードやその出現位置などを解釈する。次に、その解釈結果に基づいて、指定された検索クエリに対する各文書の検索スコアを算出する。そして、検索結果として、各文書を検索スコアの高い順に並べたリストをユーザに提示する。
ユーザは、提示された文書のリストから所望の文書を選択し、その実データを文書格納部12から取得(ダウンロード)する。ここで、ユーザが取得した文書の情報は、U/Iを介して文書検索部22に渡される。文書検索部22では、この取得された文書の情報を、ユーザが指定した検索条件(検索クエリ)とともに、文書需要予測部20の過去検索情報DB28に記憶する。これにより、過去検索情報DB28には、過去に行なわれた検索の情報が蓄積されていく。
次に、この文書検索システム10におけるインデックスの管理の流れについて図3、図4を用いて説明する。図3はインデックスの管理の流れを示すフローチャートであり、図4は文書需要予測の流れを示すフローチャートである。
インデックスを作成する場合、まず、文書収集部14により文書が収集される(S10)。ここで収集される文書は、文書格納部12に新たに格納された文書や、内容が更新された文書などである。収集された文書は、インデックス管理部16に渡される。
インデックス管理部16は、収集された文書を文書需要予測部20に渡す。文書需要予測部20では渡された文書を需要予測の対象文書Dとして、その需要を算出する(S12)。この需要算出の流れを図4に示す。
文書の需要を予測する際は、まず、文書需要予測部20の条件確率算出部32により、過去検索情報に基づいて条件確率Pu(Qi)が算出される(S26)。これは、各検索条件Qiが使用された回数を、サンプリング時間で割ることにより得られる。算出された条件確率Pu(Qi)は文書取得確率算出部38に出力される。
また、スコア算出部34が各検索クエリQiに対する対象文書Dおよび過去取得文書Bikの検索スコアSQi,D、SQi,Bikを算出する(S28)。算出された検索スコアは、過去取得確率算出部36に出力される。
過去取得確率算出部36は、対象文書Dと同一検索スコアとなる過去取得文書Bik,すなわち、SQi,Bik=SQi,Dとなる過去取得文書Bikが取得される確率、過去取得確率Pd(Qi,SQi,D)を算出する(S30)。算出された過去取得確率Pd(Qi,SQi,D)は、文書取得確率算出部38に出力される。
文書取得確率算出部38では、所定時間内に対象文書Dが取得される確率、文書取得確率PdTOT(D)を算出する(S32)。PdTOT(D)は、各検索条件ごとに条件確率Pu(Qi)と過去取得確率Pd(Qi,SQi,D)とを掛け合わせ、その和をとることで算出できる(式(1)参照)。算出された文書取得確率PdTOT(D)は、インデックス管理部16に渡される。
再び、図3に戻り、インデックス作成の流れの続きを説明する。インデックス管理部16は、文書需要予測部20から渡された文書取得確率PdTOT(D)が所定の基準値Pt以上か否かを判断する。文書取得確率PdTOT(D)が所定の基準値Pt以上の場合(PdTOT(D)≧Pt)はステップS16へ、所定の基準値Ptより小さいの場合(PdTOT(D)<Pt)はステップS22へ進む。
ステップS16では、当該文書が既にインデックスに登録されているか否かを判断する。まだ、登録されていない場合は、当該文書からキーワードを抽出し、抽出したキーワードをその出現位置や当該文書の識別情報とともに、インデックスに書き込む(S18)。既に登録されている場合も当該文書からキーワードを抽出し、インデックスの登録内容を更新する(S20)。
文書取得確率PdTOT(D)が所定の基準値Ptより小さい場合は、ステップS22に進む。そして、やはり、インデックスに登録されているか否かを判断する。既に登録されている場合は、その登録を削除する(S24)。まだ、登録されていない場合は、インデックスへの新規登録をすることなく、処理を終了する。
以上が、インデックスの管理の流れである。以上の説明から分かるように、本実施の形態では、収集した文書の需要を予測し、その需要が所定の基準値以上の場合のみ、インデックスに登録する。また、既にインデックスに登録されている文書についても、需要が所定の基準値に満たない場合は、登録を削除する。したがって、インデックスには、常に、所定の基準値以上の需要の文書のみが登録されていることとなる。逆にいえば、需要が低い文書は、インデックスには含まれない。これにより、インデックスが不必要に大容量化することが防止できる。
ここで、上述したように文書検索する場合は、文書検索部22がインデックスの全てを読み込み解釈する。したがって、インデックスが不必要に大容量化すると、文書検索の高速化を阻害する。また、文書の中には、検索スコアが高くても需要が殆ど無い文書もある。このような文書までインデックスに登録しておくことは、文書検索の適正を下げることとなる。
しかし、本実施の形態によれば、需要に基づいてインデックスへの登録の可否を判断するため、不必要なインデックスの大容量化を防止でき、ひいては、文書検索の高速化を図れる。また、需要の少ない文書はインデックスに登録しない、または、削除することにより、より文書検索の適正を向上できる。
なお、インデックスに登録済みの文書については、文書収集のタイミング(すなわち、文書の内容が変更されたタイミング)とは関係なく、所定のタイミング(例えば、1ヶ月に一度など)で、インデックスへの登録内容の変更、削除を行なってもよい。言い換えれば、文書の内容に変更が無くても、定期的に需要を予測し、インデックスへの登録内容の変更、削除をしてもよい。このように文書の内容変更の有無とは無関係に定期的に需要を予測することによって、次第に需要がなくなっていった文書などをインデックスから削除できる。そして、より効率的に不必要なインデックスの大容量化を防止でき、ひいては、文書検索の高速化、検索精度の向上が図れる。
また、インデックスへの登録、変更、削除の判断基準として、需要予測値以外の値も参照してもよい。例えば、新規なキーワードを含む文書は、需要予測値に関わらずインデックスに登録するようにしてもよい。すなわち、世の中にできて間もない用語や製品に関する文書は、どうしても需要予測値が低くなる。しかし、そのような文書は、今後、需要が高まることもあるので、需要予測値に関わらず、インデックスに登録するようにしてもよい。
また、上記説明における文書需要の算出方法は、一例であり、他の方法で算出してもよい。例えば、本実施の形態では、過去取得確率を用いて文書取得確率を算出しているが、これを用いず、各検索クエリが使用される確率である条件確率と、各検索クエリに対する対象文書Dのスコアのみから、文書取得確率を算出してもよい。すなわち、一般的に、検索スコア(より正確には検索スコア順位)が高いほど、取得される確率が高くなる。したがって、検索スコアまたは検索スコア順位ごとに、取得されるであろう確率、仮取得率を決めておく。これは、例えば、検索スコア80(検索スコア順位10位)なら仮取得率は10%、検索スコア50(検索スコア順位20位)なら仮取得率は5%、などのように一律で決めておく。そして、条件確率Pu(Qi)とこの仮取得確率とを掛け合わせた和を文書取得確率PdTOT(D)としてもよい。
また、別の方法として、対象文書Dとは別の文書である比較文書Hiの文書取得確率、比較取得確率PdTOT(Hi)を算出し、得られた比較取得確率PdTOT(Hi)、および、比較文書Hiと対象文書Dとの相関度から文書取得確率PdTOT(D)を算出してもよい。すなわち、過去検索情報として、各文書の取得された回数も蓄積しておく。そして、所定時間内に、各文書が取得される確率を算出する。ここで、各文書が比較文書Hiとなり、その各文書が取得される確率が比較取得確率となる。次に、対象文書Dと各比較文書Hiとの関連度Aiを算出する。ここで、関連度とは、2つの文書の関連性を示す度合いであり、例えば、共通して出現する語の数やその出現位置などをパラメータとした所定のアルゴリズムにしたがって算出される。このアルゴリズムは、従来から多数提案されており、これらを利用することができる。比較取得確率PdTOT(Hi)および関連度Aiに基づいて、対象文書Dが所定時間内に取得される確率PdTOT(D)を算出する。これは、各比較文書Hiごとに比較取得確率PdTOT(Hi)と関連度Aiとを掛け合わせ、その和の平均を取ることで得ることができる。すなわち文書取得確率PdTOT(D)は、式(2)で求めることができる。
PdTOT(D)=(ΣPdTOT(Hi)×Ai)/(ΣAi) (2)
この需要算出方法は、検索スコア計算に他文書からのリンク数を利用するものである場合にも有効である。文書検索システムの中には、各検索条件に対する文書の検索スコア算出に際して、他文書から張られたリンクの数をパラメータの一つとして用い、他文書からのリンク数が多いほど検索スコアが高くなるものがある。これは、他の文書からリンクが張られている(参照されている)文書は、有用な文書であることが多いためである。そして、他文書からのリンク数が多い文書の検索スコア順位を高くし、検索結果の表示順位を上げるようにしている。このような検索スコア計算によれば、より有用な文書が見つかりやすくなる。
しかしながら、このような検索スコア計算方法では、公開直後の対象文書Dは、他文書からのリンク数が0または少ないため検索スコアが低くなり、正確な需要を予測することが困難となる。そこで、既に他文書からリンクが張られ得る比較文書Hiを用いて対象文書Dの需要を予測している。したがって、公開前の対象文書Dであっても他文書からのリンク数を反映した需要を求めることができ、より、精度の高い需要を求めることができる。
次に第二の実施の形態について説明する。第二の実施の形態の構成は、上述の実施の形態とほぼ同じであるため、図1,図2を用いて説明する。第二の実施の形態では、検索属性毎の需要も算出する点、さらに、検索条件として検索属性を指定できる点が上述の実施の形態と異なる。以下、第二の実施の形態について詳説する。
文書需要予測部20は、通常の需要に加え、検索属性毎の需要を算出する。ここで、検索属性とは、例えば、検索を行なったユーザの属性(年齢や性別、所属グループなど)や、検索を行なった時間帯(時刻や曜日)などを指す。検索属性毎の需要は、過去検索情報として、検索属性情報(検索を行なった検索者の属性や時間帯)も記憶することにより可能となる。そして、文書取得確率を算出する際に用いる過去検索情報を、特定の検索属性の情報に限定すれば検索属性毎の文書取得確率が算出できる。
そして、得られた通常の需要(文書取得確率)および検索属性毎の需要は、インデックス管理部16へと渡される。インデックス管理部16では、通常の需要に基づいて、インデックスへの登録、変更、削除の有無を判断する。そして、インデックスへの登録、変更、削除をする場合は、検索属性毎の需要もインデックスに書き込む。すなわち、インデックスには、各文書に含まれるキーワード等の他、検索属性毎の需要も記憶される。
文書検索部22は、検索条件として検索クエリの他、検索属性も受け付ける。例えば、特に女性に需要の高い文書を所望する場合は、検索条件として、検索クエリの他、「検索属性:女性」を入力する。これを受けた文書検索部22は、インデックスを読み込み、検索スコアを算出する。この検索スコア算出に際しては、キーワードの有無や出現位置だけでなく、「検索属性:女性」における需要も考慮して算出する。これは、例えば、次のような方法で算出できる。
まず、キーワードの有無や位置だけに基づいて通常の検索スコアSbasicを算出する。次に、「検索属性:女性」における需要の値に所定の係数を掛けた属性参照値Rを算出する。そして、得られた通常の検索スコアSbasicと属性参照値Rとを加算した値を文書検索における最終検索スコアSとして用いる。
最終検索スコアSが得られれば、その得られた最終検索スコアSの高い順に並べた文書リストをユーザに提示する。ユーザは提示された文書リストを見て、所望の文書を取得する。その際、文書検索部22は、そのユーザの属性や時間帯を過去検索情報DB28に渡す。
このように、検索条件として検索属性毎の需要を受け付け、検索スコア算出の際に、その検索属性での需要を考慮することにより、より、ユーザの希望に即した検索結果を提供できる。
なお、当然ながら、最終検索スコアSの算出方法は、上述の方法に限られない。例えば、 その検索属性における需要の値が所定の基準値以上の文書についてのみ、検索スコアを算出するようにしてもよい。すなわち、インデックスに基づいて、その検索属性において一定以上の需要がある文書のみを抽出する。そして、抽出した文書について、キーワードの有無や位置だけに基づいて通常の検索スコアSbasicを算出し、これを最終検索スコアSとしてもよい。
本発明の実施の形態である文書検索システムの機能ブロック図である。 文書需要予測部の詳細な機能ブロック図である。 インデックスの管理の流れを示すフローチャートである。 文書の需要予測の流れを示すフローチャートである。
符号の説明
10 文書検索システム、12 文書格納部、14 文書収集部、16 インデックス管理部、18 インデックス記憶部、20 文書需要予測部、22 文書検索部、24 ユーザインターフェース、28 過去検索情報データベース、30 需要算出部、32 条件確率算出部、34 スコア算出部、36 過去取得確率算出部、38 文書取得確率算出部。

Claims (8)

  1. ユーザが指定した条件を満たす文書を検索する文書検索システムとして、コンピュータを機能させる文書検索用プログラムであって、
    多数の文書を格納する文書格納部から文書を収集する文書収集手段と、
    文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、
    検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、
    ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、
    を有する文書検索システムとして、コンピュータを機能させることを特徴とする文書検索用プログラム。
  2. 請求項1に記載の文書検索用プログラムであって、
    文書需要予測手段は、さらに、索引に既に登録されている既登録文書の需要も算出し、
    索引管理手段は、既登録文書のうち、文書需要予測手段で予測された需要が所定の基準値より小さい文書を索引から削除することを特徴とする文書検索用プログラム。
  3. 請求項1または2に記載の文書検索用プログラムであって、
    文書需要予測手段は、
    文書検索手段による検索結果としてユーザに提示された文書のうち、ユーザが取得した文書についての情報である過去検索情報を記憶する過去検索情報記憶手段と、
    過去検索情報の統計的解析により、需要予測対象の文書を公開した場合に当該文書が検索されて取得される確率である文書取得確率を算出する需要算出手段と、
    を有することを特徴とする文書検索用プログラム。
  4. 請求項3に記載の文書検索用プログラムであって、
    過去検索情報は、少なくとも、検索の際に使用された検索条件を含み、
    需要算出手段は、
    過去検索情報に基づいて、各検索条件が使用された確率である条件確率を算出する条件確率算出手段と、
    検索条件と需要予測対象の文書との関連性を示す検索スコアを、各検索条件ごとに算出する検索スコア算出手段と、
    を有し、条件確率と検索スコアとに基づいて、文書取得確率を算出することを特徴とする文書検索用プログラム。
  5. 請求項4に記載の文書検索用プログラムであって、
    過去検索情報は、さらに、検索した際に検索者により取得された文書の文書情報も含み、
    需要算出手段は、さらに、
    過去検索情報と検索スコア算出手段で算出された検索スコアとに基づいて、各検索条件で検索した際に需要予測対象の文書と同一の検索スコアを有する文書が取得された確率である過去取得確率を算出する過去取得確率算出手段を有し、
    条件確率と過去取得確率とに基づいて、文書取得確率を算出することを特徴とする文書検索用プログラム。
  6. 請求項3から6のいずれか1項に記載の文書検索用プログラムであって、
    過去検索情報は、さらに、検索を行った検索者の属性情報および検索を行った時間情報の少なくとも一方の情報を含む検索属性情報を含み、
    需要算出手段は、検索属性毎の文書取得確率を算出し、
    索引管理手段は、索引に検索属性毎の文書取得率も登録し、
    文書検索手段は、検索条件として検索属性も受け付ける
    ことを特徴とする文書検索用プログラム。
  7. ユーザが指定した条件を満たす文書を検索する文書検索システムであって、
    多数の文書を格納する文書格納部から文書を収集する文書収集手段と、
    文書収集手段により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測手段と、
    検索対象の文書の索引を管理する索引管理手段であって、文書需要予測手段で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理手段と、
    ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索手段と、
    を有することを特徴とする文書検索システム。
  8. ユーザが指定した条件を満たす文書を検索する文書検索方法であって、
    多数の文書を格納する文書格納部から文書を収集する文書収集工程と、
    文書収集工程により収集された文書を検索対象として公開した場合の需要を予測する文書需要予測工程と、
    文書需要予測工程で予測された需要が所定の基準値以上の文書のみを索引に登録する索引管理工程と、
    ユーザの指定した条件を満たす文書を、索引に基づいて検索し、その検索結果をユーザに提示する文書検索工程と、
    を有することを特徴とする文書検索方法。

JP2004171732A 2004-06-09 2004-06-09 文書検索用プログラム、文書検索システムおよび文書検索方法 Pending JP2005352687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004171732A JP2005352687A (ja) 2004-06-09 2004-06-09 文書検索用プログラム、文書検索システムおよび文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004171732A JP2005352687A (ja) 2004-06-09 2004-06-09 文書検索用プログラム、文書検索システムおよび文書検索方法

Publications (1)

Publication Number Publication Date
JP2005352687A true JP2005352687A (ja) 2005-12-22

Family

ID=35587138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004171732A Pending JP2005352687A (ja) 2004-06-09 2004-06-09 文書検索用プログラム、文書検索システムおよび文書検索方法

Country Status (1)

Country Link
JP (1) JP2005352687A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237725A (ja) * 2009-03-30 2010-10-21 Hitachi Software Eng Co Ltd ファイルサーバ運用支援装置、方法、プログラム及び記録媒体
JP2013522731A (ja) * 2010-03-11 2013-06-13 マイクロソフト コーポレーション ユーザのロールによるカスタマイズ可能なセマンティック検索
WO2015151199A1 (ja) * 2014-03-31 2015-10-08 楽天株式会社 需要予測システム、需要予測方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237725A (ja) * 2009-03-30 2010-10-21 Hitachi Software Eng Co Ltd ファイルサーバ運用支援装置、方法、プログラム及び記録媒体
JP2013522731A (ja) * 2010-03-11 2013-06-13 マイクロソフト コーポレーション ユーザのロールによるカスタマイズ可能なセマンティック検索
WO2015151199A1 (ja) * 2014-03-31 2015-10-08 楽天株式会社 需要予測システム、需要予測方法およびプログラム
JP6055956B2 (ja) * 2014-03-31 2016-12-27 楽天株式会社 需要予測システム、需要予測方法およびプログラム

Similar Documents

Publication Publication Date Title
US7693904B2 (en) Method and system for determining relation between search terms in the internet search system
US9171078B2 (en) Automatic recommendation of vertical search engines
KR100522029B1 (ko) 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템
US8065145B2 (en) Keyword outputting apparatus and method
RU2443015C2 (ru) Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением
KR101532715B1 (ko) 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
KR100962923B1 (ko) 텍스트에서 키워드를 효율적으로 검색하는 시스템 및 이의방법
US7711668B2 (en) Online document clustering using TFIDF and predefined time windows
US8140541B2 (en) Time-weighted scoring system and method
US8180785B2 (en) Method and system for searching numerical terms
US7831595B2 (en) Predicting and ranking search query results
US20060173556A1 (en) Methods and apparatus for using user gender and/or age group to improve the organization of documents retrieved in response to a search query
US20090112843A1 (en) System and method for providing differentiated service levels for search index
KR20070090014A (ko) 삭제 예측을 이용하여 다중 용어 검색 질의 내의 용어의연관값을 순위화하는 시스템 및 방법
US9594809B2 (en) System and method for compiling search results using information regarding length of time users spend interacting with individual search results
US20150199402A1 (en) Computerized systems and methods for indexing and serving recurrent calendar events
US20110184940A1 (en) System and method for detecting changes in the relevance of past search results
JP2007219929A (ja) 感性評価システム及び方法
US8533150B2 (en) Search index generation apparatus
KR100452085B1 (ko) 카테고리 별 키워드의 입력 순위를 제공하기 위한 검색서비스 시스템 및 그 방법
US7949576B2 (en) Method of providing product database
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
CN112835923A (zh) 一种相关检索方法、装置和设备
JP2005352687A (ja) 文書検索用プログラム、文書検索システムおよび文書検索方法
JP2000339316A (ja) 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体