JP2006331117A - 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム - Google Patents

文書検索システム、文書検索装置、文書検索方法および文書検索プログラム Download PDF

Info

Publication number
JP2006331117A
JP2006331117A JP2005154374A JP2005154374A JP2006331117A JP 2006331117 A JP2006331117 A JP 2006331117A JP 2005154374 A JP2005154374 A JP 2005154374A JP 2005154374 A JP2005154374 A JP 2005154374A JP 2006331117 A JP2006331117 A JP 2006331117A
Authority
JP
Japan
Prior art keywords
document
score
search
total
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005154374A
Other languages
English (en)
Inventor
Takuya Hiraoka
卓也 平岡
Tetsuya Ikeda
哲也 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005154374A priority Critical patent/JP2006331117A/ja
Publication of JP2006331117A publication Critical patent/JP2006331117A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】分散環境においても正確なスコアを算出することのできる文書検索システムを提供する。
【解決手段】 管理装置10は、各文書データ格納手段の登録文書数を、各文書検索装置から取得する登録文書数取得手段と、登録文書数に基づいて、複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出手段と、各文書データ格納手段の文書頻度を、各文書検索装置から取得する文書頻度取得手段と、文書頻度に基づいて、複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出手段とを有し、各文書検索装置20a〜20cは、総合登録文書数と、総合文書頻度算出手段が算出した総合文書頻度とに基づいて、検索キーワードのスコアを算出するスコア算出手段を有することを特徴とする。
【選択図】 図1

Description

本発明は、複数の文書データ格納手段を備えた文書検索システム、文書検索装置、文書検索方法および文書検索プログラムに関するものである。
転置索引を用いた多くの全文検索システムでは、検索結果一覧を表示するときに、入力されたキーワードと検索にヒットした文書との適合率をスコアという数値に表し、スコアの大きなものから順番に、検索結果一覧に表示している(例えば、非特許文献1,非特許文献2参照)。一般にスコアとは、入力されたキーワードに対するヒットした文書の重要度を表す。ここで、重要度は、キーワードの出現頻度に基づく値である。
真野博子,伊藤秀夫,小川泰嗣「文書検索におけるランキング検索技術」、リコーテクニカルレポート,No29、2003年12月12日 小川泰嗣,山本研策,真野博子,伊藤秀夫「全文研策システムのための複数転置ファイルを用いた登録高速化とランキング検索」、第13回データ工学ワークショップ(DEWS2002)、2002年
上記スコアを算出する際には、索引に登録されている登録文書数や、平均文書長を用いている。また、検索キーワードを含む文書数も用いている。これらのパラメータは索引全体にアクセスしなければ取得できない情報である。
分散環境においては、各索引からの検索結果をマージすることになるが、単純に結果をマージしただけでは、上記パラメータを正確に求めることができない。このため、正確なスコアを取得することができないという問題がある。
本発明は、上記に鑑みてなされたものであって、分散環境においても正確なスコアを算出することのできる文書検索システムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、文書データを格納する、複数の文書データ格納手段と、各文書データ格納手段に格納されている文書データを検索する、複数の文書検索装置と、前記複数の文書検索装置を管理する管理装置とを備え、前記管理装置は、前記文書データを検索するための検索キーワードを取得する検索キーワード取得手段と、各文書データ格納手段に格納されている前記文書データの数である登録文書数を、各文書検索装置から取得する登録文書数取得手段と、前記登録文書数取得手段が各文書検索装置から取得した前記登録文書数に基づいて、前記複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出手段と、各文書データ格納手段に格納されている前記文書データのうち、前記検索キーワード取得手段が取得した前記検索キーワードを含む文書データの数である文書頻度を、各文書検索装置から取得する文書頻度取得手段と、前記文書頻度取得手段が各文書検索装置から取得した前記文書頻度に基づいて、前記複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出手段とを有し、各文書検索装置は、前記総合登録文書数算出手段が算出した前記総合登録文書数と、前記総合文書頻度算出手段が算出した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出手段を有することを特徴とする。
また、請求項2にかかる発明は、請求項1に記載の文書検索システムであって、前記総合登録文書数算出手段は、前記登録文書数取得手段が各文書検索装置から取得した前記登録文書数を加算して前記総合登録文書数を得ることを特徴とする。
また、請求項3にかかる発明は、請求項1または2に記載の文書検索システムであって、前記総合文書頻度算出手段は、前記文書頻度取得手段が各文書検索装置から取得した前記文書頻度を加算して前記総合文書頻度を得ることを特徴とする。
また、請求項4にかかる発明は、請求項1から3のいずれか一項に記載の文書検索システムであって、前記管理装置は、各文書データ格納手段に格納されている前記文書データの平均文書長を、各文書検索装置から取得する平均文書長取得手段と、前記平均文書長取得手段が各文書検索装置から取得した前記平均文書長に基づいて、前記複数の文書データ格納手段全体に対する総平均文書長を算出する総平均文書長算出手段とをさらに有し、各文書検索装置の前記スコア算出手段は、さらに前記総平均文書長算出手段が算出した前記総平均文書長に基づいて、前記検索キーワードのスコアを算出することを特徴とする。
また、請求項5にかかる発明は、請求項4に記載の文書検索システムであって、前記総平均文書長算出手段は、前記平均文書長取得手段が各文書検索装置から取得した前記平均文書長の平均値を、前記総平均文書長として算出することを特徴とする。
また、請求項6にかかる発明は、請求項1から5のいずれか一項に記載の文書検索システムであって、各文書検索装置は、各文書データ格納手段に格納されている前記文書データ中における前記検索キーワードの出現数である文書内頻度を取得する文書内頻度取得手段をさらに有し、前記スコア算出手段は、さらに前記文書内頻度取得手段が取得した前記文書内頻度に基づいて、前記検索キーワードのスコアを算出することを特徴とする。
また、請求項7にかかる発明は、請求項1から6のいずれか一項に記載の文書検索システムであって、各文書検索装置は、ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得するスコア計算式取得手段をさらに有し、前記スコア算出手段は、前記スコア計算式取得手段が取得した前記スコア計算式情報に示される前記スコア計算式を利用して前記スコアを算出することを特徴とする。
また、請求項8にかかる発明は、請求項1から7のいずれか一項に記載の文書検索システムであって、各文書検索装置は、前記スコア算出手段が前記検索キーワードに対して算出したスコアを文書データごとに合成し、合成スコアを得るスコア合成手段をさらに有することを特徴とする。
また、請求項9にかかる発明は、請求項8に記載の文書検索システムであって、前記スコア合成手段は、同一の文書データにおいて、複数の前記検索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得ることを特徴とする。
また、請求項10にかかる発明は、請求項8または9に記載の文書検索システムであって、各文書検索装置は、ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得するスコア合成式取得手段をさらに有し、前記スコア算出手段は、前記スコア合成式取得手段が取得した前記スコア合成式情報に示される前記スコア合成式を利用して前記合成スコアを得ることを特徴とする。
また、請求項11にかかる発明は、文書データを格納する複数の文書データ格納手段を備えた文書管理システムにおいて前記文書データ格納手段に格納されている文書データを検索する文書検索装置であって、前記文書データを検索するための検索キーワードを取得する検索キーワード取得手段と、前記複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得する総合登録文書数取得手段と、前記複数の文書データ格納手段全体における、前記検索キーワード取得手段が取得した前記検索キーワードを含む文書データの数である総合文書頻度を取得する総合文書頻度取得手段と、前記総合登録文書数取得手段が取得した前記総合登録文書数と、前記総合文書頻度取得手段が取得した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出手段とを備えたことを特徴とする。
また、請求項12にかかる発明は、請求項11に記載の文書検索装置であって、前記複数の文書データ格納手段全体に対する総平均文書長を取得する総平均文書長取得手段をさらに備え、前記スコア算出手段は、さらに前記総平均文書長取得手段が取得した前記総平均文書長に基づいて、前記検索キーワードのスコアを算出することを特徴とする。
また、請求項13にかかる発明は、請求項11または12に記載の文書検索装置であって、前記文書データ格納手段に格納されている前記文書データ中における前記検索キーワードの出現数である文書内頻度を取得する文書内頻度取得手段をさらに備え、前記スコア算出手段は、さらに前記文書内頻度取得手段が取得した前記文書内頻度に基づいて、前記検索キーワードのスコアを算出することを特徴とする。
また、請求項14にかかる発明は、請求項11から13のいずれか一項に記載の文書検索装置であって、ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得するスコア計算式取得手段をさらに備え、前記スコア算出手段は、前記スコア計算式取得手段が取得した前記スコア計算式情報に示される前記スコア計算式を利用して前記スコアを算出することを特徴とする。
また、請求項15にかかる発明は、請求項11から14のいずれか一項に記載の文書検索装置であって、前記スコア算出手段が前記探索キーワードに対して算出したスコアを、文書データごとに合成し、合成スコアを得るスコア合成手段をさらに備えたことを特徴とする。
また、請求項16にかかる発明は、請求項15に記載の文書検索装置であって、前記スコア合成手段は、同一の文書データにおいて、複数の前記探索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得ることを特徴とする。
また、請求項17にかかる発明は、請求項15または16に記載の文書検索装置であって、ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得するスコア合成式取得手段をさらに備え、前記スコア算出手段は、前記スコア合成式取得手段が取得した前記スコア合成式情報に示される前記スコア合成式を利用して前記合成スコアを得ることを特徴とする。
また、請求項18にかかる発明は、文書データを格納する、複数の文書データ格納手段を備えた文書管理システムにおいて文書を管理する文書検索方法であって、前記文書データを検索するための検索キーワードを取得する検索キーワード取得ステップと、各文書データ格納手段に格納されている前記文書データの数である登録文書数を取得する登録文書数取得ステップと、前記登録文書数取得ステップにおいて取得した前記登録文書数に基づいて、前記複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出ステップと、各文書データ格納手段に格納されている前記文書データのうち、前記検索キーワード取得ステップにおいて取得した前記検索キーワードを含む文書データの数である文書頻度を取得する文書頻度取得ステップと、前記文書頻度取得ステップにおいて取得した前記文書頻度に基づいて、前記複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出ステップと、前記総合登録文書数算出ステップにおいて算出した前記総合登録文書数と、前記総合文書頻度算出ステップにおいて算出した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出ステップとを有することを特徴とする。
また、請求項19にかかる発明は、文書データを格納する複数の文書データ格納手段を備えた文書管理システムにおいて前記文書データ格納手段に格納されている文書データを検索する文書検索方法であって、前記文書データを検索するための検索キーワードを取得する検索キーワード取得ステップと、前記複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得する総合登録文書数取得ステップと、前記複数の文書データ格納手段全体における、前記検索キーワード取得ステップにおいて取得した前記検索キーワードを含む文書データの数である総合文書頻度を取得する総合文書頻度取得ステップと、前記総合登録文書数取得ステップにおいて取得した前記総合登録文書数と、前記総合文書頻度取得ステップにおいて取得した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出ステップとを有することを特徴とする。
また、請求項20にかかる発明は、請求項19に記載の文書検索方法をコンピュータに実行させることを特徴とする。
請求項1にかかる発明によれば、管理装置において、検索キーワード取得手段が、文書データを検索するための検索キーワードを取得し、文書数取得手段が、各文書データ格納手段に格納されている文書データの数である登録文書数を、各文書検索装置から取得し、総合登録文書数算出手段が、登録文書数取得手段が各文書検索装置から取得した登録文書数に基づいて、複数の文書データ格納手段全体に対する総合登録文書数を算出し、文書頻度取得手段が、各文書データ格納手段に格納されている文書データのうち、検索キーワード取得手段が取得した検索キーワードを含む文書データの数である文書頻度を、各文書検索装置から取得し、総合文書頻度算出手段が、文書頻度取得手段が各文書検索装置から取得した文書頻度に基づいて、複数の文書データ格納手段全体に対する総合文書頻度を算出し、各文書検索装置において、スコア算出手段が、総合登録文書数算出手段が算出した総合登録文書数と、総合文書頻度算出手段が算出した総合文書頻度とに基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項2にかかる発明によれば、総合登録文書数算出手段が、登録文書数取得手段が各文書検索装置から取得した登録文書数を加算して総合登録文書数を得るので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項3にかかる発明によれば、総合文書頻度算出手段が、文書頻度取得手段が各文書検索装置から取得した文書頻度を加算して総合文書頻度を得るので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項4にかかる発明によれば、管理装置において、平均文書長取得手段が、各文書データ格納手段に格納されている文書データの平均文書長を、各文書検索装置から取得し、総平均文書長算出手段が、平均文書長取得手段が各文書検索装置から取得した平均文書長に基づいて、複数の文書データ格納手段全体に対する総平均文書長を算出し、各文書検索装置において、スコア算出手段が、総平均文書長算出手段が算出した総平均文書長に基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項5にかかる発明によれば、総平均文書長算出手段が、平均文書長取得手段が各文書検索装置から取得した平均文書長の平均値を、総平均文書長として算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項6にかかる発明によれば、各文書検索装置において、文書内頻度取得手段が各文書データ格納手段に格納されている文書データ中における検索キーワードの出現数である文書内頻度を取得し、スコア算出手段が、文書内頻度取得手段が取得した文書内頻度に基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項7にかかる発明によれば、各文書検索装置において、スコア計算式取得手段がユーザによって指定されたスコア計算式を示すスコア計算式情報を取得し、スコア算出手段が、スコア計算式取得手段が取得したスコア計算式情報に示されるスコア計算式を利用してスコアを算出するので、ユーザの希望するスコア算出式において、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項8にかかる発明によれば、各文書検索装置において、スコア合成手段が、スコア算出手段が探索キーワードに対して算出したスコアを文書データごとに合成し、合成スコアを得るので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項9にかかる発明によれば、スコア合成手段が、同一の文書データにおいて、複数の探索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得るので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項10にかかる発明によれば、各文書検索装置において、スコア合成式取得手段がユーザによって指定されたスコア合成式を示すスコア合成式情報を取得し、スコア算出手段が、スコア合成式取得手段が取得したスコア合成式情報に示されるスコア合成式を利用して合成スコアを得るので、ユーザの希望するスコア合成式において、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項11にかかる発明によれば、検索キーワード取得手段が、文書データを検索するための検索キーワードを取得し、総合登録文書数取得手段が、複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得し、総合文書頻度取得手段が、複数の文書データ格納手段全体における、検索キーワード取得手段が取得した検索キーワードを含む文書データの数である総合文書頻度を取得し、スコア算出手段が、総合登録文書数取得手段が取得した総合登録文書数と、総合文書頻度取得手段が取得した総合文書頻度とに基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項12にかかる発明によれば、総平均文書長取得手段が、複数の文書データ格納手段全体に対する総平均文書長を取得し、スコア算出手段が、さらに総平均文書長取得手段が取得した総平均文書長に基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項13にかかる発明によれば、文書内頻度取得手段が、文書データ格納手段に格納されている文書データ中における検索キーワードの出現数である文書内頻度を取得し、スコア算出手段が、さらに文書内頻度取得手段が取得した文書内頻度に基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項14にかかる発明によれば、スコア計算式取得手段が、ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得し、スコア算出手段が、スコア計算式取得手段が取得したスコア計算式情報に示されるスコア計算式を利用してスコアを算出するので、ユーザの希望するスコア計算式において、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項15にかかる発明によれば、スコア合成手段が、スコア算出手段が探索キーワードに対して算出したスコアを、文書データごとに合成し、合成スコアを得るので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項16にかかる発明によれば、スコア合成手段が、同一の文書データにおいて、複数の探索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得るので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項17にかかる発明によれば、スコア合成式取得手段が、ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得し、スコア算出手段が、スコア合成式取得手段が取得したスコア合成式情報に示されるスコア合成式を利用して合成スコアを得るので、ユーザの希望するスコア合成式において、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項18にかかる発明によれば、検索キーワード取得ステップにおいて、文書データを検索するための検索キーワードを取得し、登録文書数取得ステップにおいて、各文書データ格納手段に格納されている文書データの数である登録文書数を取得し、総合登録文書数算出ステップにおいて、登録文書数取得ステップにおいて取得した登録文書数に基づいて、複数の文書データ格納手段全体に対する総合登録文書数を算出し、文書頻度取得ステップにおいて、各文書データ格納手段に格納されている文書データのうち、検索キーワード取得ステップにおいて取得した検索キーワードを含む文書データの数である文書頻度を取得し、総合文書頻度算出ステップにおいて、文書頻度取得ステップにおいて取得した文書頻度に基づいて、複数の文書データ格納手段全体に対する総合文書頻度を算出し、スコア算出ステップにおいて、総合登録文書数算出ステップにおいて算出した総合登録文書数と、総合文書頻度算出ステップにおいて算出した総合文書頻度とに基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項19にかかる発明によれば、検索キーワード取得ステップにおいて、文書データを検索するための検索キーワードを取得し、総合登録文書数取得ステップにおいて、複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得し、総合文書頻度取得ステップにおいて、複数の文書データ格納手段全体における、検索キーワード取得ステップにおいて取得した検索キーワードを含む文書データの数である総合文書頻度を取得し、スコア算出ステップにおいて、総合登録文書数取得ステップにおいて取得した総合登録文書数と、総合文書頻度取得ステップにおいて取得した総合文書頻度とに基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
また、請求項20にかかる発明によれば、検索キーワード取得ステップにおいて、文書データを検索するための検索キーワードを取得し、総合登録文書数取得ステップにおいて、複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得し、総合文書頻度取得ステップにおいて、複数の文書データ格納手段全体における、検索キーワード取得ステップにおいて取得した検索キーワードを含む文書データの数である総合文書頻度を取得し、スコア算出ステップにおいて、総合登録文書数取得ステップにおいて取得した総合登録文書頻度と、総合文書頻度取得ステップにおいて取得した総合文書頻度とに基づいて、検索キーワードのスコアを算出するので、分散する複数の文書データ格納手段に格納されている全ての文書データに基づく正確なスコアを算出することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる文書検索システム、文書検索装置、文書検索方法および文書検索プログラムの最良な実施の形態を詳細に説明する。
(実施の形態1)
図1は、実施の形態1にかかる文書管理システム1全体の構成を示すブロック図である。文書管理システム1は、管理サーバ10と複数のクライアント端末40a〜40cを備えている。管理サーバ10と複数のクライアント端末40a〜40cは、ネットワーク30を介して通信を行う。管理サーバ10は、複数の検索サーバ20a〜20cを管理する。
第1検索サーバ20aは、テキストデータが格納された第1索引ファイル22aおよびテキストデータに関連する情報が格納された第1レコードファイル24aを管理する。同様に、第2検索サーバ20bは、第2索引ファイル22bおよび第2レコードファイル24bを管理し、第3検索サーバ20cは、第3索引ファイル22cおよび第3レコードファイル24cを管理する。
なお、本実施の形態にかかる管理サーバ10は、特許請求の範囲に記載の管理装置に対応する。また、本実施の形態にかかる各検索サーバ20a〜20cは、特許請求の範囲に記載の文書検索装置に対応する。
図2は、管理サーバ10の機能構成を示すブロック図である。管理サーバ10は、登録部100と検索部110とを備えている。登録部100は、文書データの登録にかかる処理を行う。ここで、文書データは、テキストデータと、このテキストデータの属性とを含む情報である。属性としては、例えばテキストデータの登録日、タイトル、作成者等の情報がある。登録部100は、具体的には、文書データをいずれかのレコードファイルおよび索引ファイルに登録する。
検索部110は、文書データの検索にかかる処理を行う。検索部110は、検索条件取得部112と、検索キーワード抽出部114と、取得要求送出部116と、文書頻度取得部120と、文書頻度マージ部122と、総合文書頻度送出部124と、登録文書数取得部126と、登録文書数マージ部128と、総合登録文書数送出部130と、検索結果取得部140と、検索結果マージ部142と、総合検索結果送出部144とを有している。
検索条件取得部112は、ネットワーク30を介してクライアント端末40から検索条件を取得する。ここで、検索条件とは、索引ファイル22a〜22cに登録されている文書データの検索条件である。検索条件には、検索キーワード、登録文書数および文書頻度が含まれている。ここで、登録文書数とは、登録されている文書の総数を示す情報である。文書頻度とは、登録されている文書における検索キーワードが出現する文書の数を示す情報である。
検索キーワード抽出部114は、検索条件取得部112が取得した検索条件から1または2以上の検索キーワードを抽出する。取得要求送出部116は、検索キーワード抽出部114が抽出した検索キーワードに対する文書頻度および登録文書数の取得要求を各検索サーバ20a〜20cに送出する。
文書頻度取得部120は、各検索サーバ20a〜20cから文書頻度を取得する。文書頻度マージ部122は、文書頻度取得部120が各検索サーバ20a〜20cから取得した文書頻度をマージし、すべての検索サーバ20a〜20cに対する総合文書頻度を得る。より具体的には、各文書頻度を加算する。総合文書頻度送出部124は、文書頻度マージ部122により得られた総合文書頻度を各検索サーバ20a〜20cに送出する。
登録文書数取得部126は、各検索サーバ20a〜20cから登録文書数を取得する。登録文書数マージ部128は、登録文書数取得部126が各検索サーバ20a〜20cから取得した登録文書数をマージし、すべての検索サーバ20a〜20cに対する総合登録文書数を得る。より具体的には、各登録文書数を加算する。総合登録文書数送出部130は、登録文書数マージ部128により得られた総合登録文書数を各検索サーバ20a〜20cに送出する。
検索結果取得部140は、各検索サーバ20a〜20cから検索結果を取得する。検索結果マージ部142は、検索結果取得部140が各検索サーバ20a〜20cから取得した検索結果をマージソートし、すべての検索サーバ20a〜20cに対する総合検索結果を得る。総合検索結果送出部144は、検索結果マージ部142により得られた総合検索結果を各クライアント端末40a〜40cに送出する。
図3は、第1検索サーバ20aの機能構成を示すブロック図である。第1検索サーバ20aは、登録部200と、検索部210とを備えている。登録部200は、文書データの登録にかかる処理を行う。検索部210は、文書データの検索にかかる処理を行う。
検索部210は、検索キーワード取得部212と、文書頻度抽出部214と、登録文書数抽出部216と、総合文書頻度取得部220と、総合登録文書数取得部222と、スコア算出部224と、検索結果送出部226とを有している。
検索キーワード取得部212は、管理サーバ10から検索キーワードを取得する。文書頻度抽出部214は、検索キーワード取得部212が取得した検索キーワードに対する文書頻度を第1レコードファイル24aから抽出し、この文書頻度を管理サーバ10に送出する。登録文書数抽出部216は、第1レコードファイル24aから登録文書数を抽出し、この登録文書数を管理サーバ10に送出する。
総合文書頻度取得部220は、管理サーバ10から総合文書頻度を取得する。総合登録文書数取得部222は、管理サーバ10から総合登録文書数を取得する。スコア算出部224は、総合文書頻度取得部220が取得した総合文書頻度、総合登録文書数取得部222が取得した総合登録文書数、および第1レコードファイル24aから抽出した文書内頻度を利用して、スコアを算出する。検索結果送出部226は、スコア算出部224によって算出されたスコアを検索結果として管理サーバ10に送出する。
文書DjにおけるキーワードQiのスコアは、具体的には(式1)により算出される。
Figure 2006331117
ここで、tfijは、キーワードQiの文書Dj中における出現数、すなわち文書内頻度である。dfiは、キーワードQiを含む文書の数、すなわち文書頻度である。Nは、登録文書数である。
tfijとしては、第1索引ファイル22aにおける文書内頻度が利用される。dfiとしては、すべての索引ファイル22a〜22cにおける文書頻度、すなわち総合文書頻度が利用される。Nとしては、すべての索引ファイル22a〜22cにおける登録文書数、すなわち総合登録文書数が利用される。
なお、他の検索サーバ20b,20cの機能構成は、第1検索サーバ20aの機能構成と同様である。
図4は、第1索引ファイル22aのデータ構成を模式的に示す図である。第1索引ファイル24aは、転置方式の索引を有し、登録された文書データから作成された転置索引が登録されている。具体的には、第1索引ファイル22aはキーワードと、文書頻度とを対応付けて保持している(図4の構造1)。さらに、キーワードごとに、文書IDと文書内頻度とを対応付けて保持している(図4の構造2)。さらに、文書IDと、テキストデータの文書長とを対応付けて保持している(図4の構造3)。さらに、第1索引ファイル22aにおける登録文書数を保持している。
図5は、第1レコードファイル24aのデータ構成を模式的に示す図である。第1レコードファイル24aは、文書IDと、テキストデータの属性とを対応付けて保持している。具体的には、文書IDに対応付けて、タイトル、登録日および作成者を保持している。
なお、図4および図5を参照しつつ、第1索引ファイル22aおよび第1レコードファイル24aについて説明したが、他の索引ファイル22b,22cのデータ構成は、第1索引ファイル22aのデータ構成と同様である。また他のレコードファイル24b,24cのデータ構成は、第1レコードファイル24aのデータ構成と同様である。
図6は、文書管理システム1における検索処理を示すフローチャートである。まず、管理サーバ10の検索条件取得部112は、クライアント端末40a〜40cのいずれかから検索条件を取得する(ステップS100)。例えば、以下の問い合わせ文を検索条件として取得する。なお、以下の文におけるTは、文書データが格納されている表の名前である。

select 文書ID, スコアfrom T where テキスト like '%システム%' or テキスト like '%データベース%' order by スコア desc

この問い合わせ文には、検索キーワードとして「システム」および「データベース」が指定されている。
次に、検索キーワード抽出部114は、検索条件から検索キーワードを抽出する(ステップS102)。上記の問い合わせ文からは、「システム」および「データベース」が検索キーワードとして抽出される。
次に、取得要求送出部116は、検索キーワードに対する文書頻度および登録文書数の取得要求を各検索サーバ20a〜20cに送出する(ステップS104)。例えば、以下の問い合わせ文を文書頻度の取得要求として送出する。

select count(*) from T where テキスト like '%システム%'
select count(*) from T where テキスト like '%データベース%'

また、以下の問い合わせ文を登録文書数の取得要求として送出する。

select count(テキスト) from T
各検索サーバ20a〜20cにおいては、検索キーワード取得部212が検索キーワードとともに取得要求を取得すると、文書頻度抽出部214は、索引ファイル22から文書頻度を抽出する(ステップS110)。図8は、検索キーワード取得部212が抽出した文書頻度を示す図である。このように、各キーワードごとの文書頻度を取得する。
さらに、登録文書数抽出部216は、索引ファイル22から登録文書数を抽出する(ステップS112)。次に、抽出した文書頻度および登録文書数を管理サーバ10に送出する(ステップS114)。
管理サーバ10の文書頻度取得部120は、各検索サーバ20a〜20cから文書頻度を取得し、登録文書数取得部126は、各検索サーバ20a〜20cから登録文書数を取得する(ステップS114)。
次に、文書頻度マージ部122は、各検索サーバ20a〜20cから取得した文書頻度をマージする(ステップS120)。図9は、文書頻度のマージ結果を示す図である。検索キーワード「システム」について、第1索引ファイル22aにおける文書頻度として、「5」を取得し、第2索引ファイル22bにおける文書頻度として、「2」を取得したとする。また、第3索引ファイル22cにおける文書頻度として、「0」を取得したとする。この場合、文書頻度マージ部122は、これらを加算し総合文書頻度「7」を得る。
同様に、検索キーワード「データベース」についは、第1索引ファイル22aにおける文書頻度「2」と、第2索引ファイル22bにおける文書頻度「3」と、第3索引ファイル22cにおける文書頻度「0」を加算し、総合文書頻度「5」を得る。このように、文書頻度取得部120は、検索キーワードごとの総合文書頻度を算出する。
さらに、登録文書数マージ部128は、各検索サーバ20a〜20cから取得した登録文書数をマージする(ステップS122)。例えば、第1索引ファイル22aの登録文書数として「5」を取得し、第2索引ファイル22bの登録文書数として「2」を取得し、第3索引ファイル22cの登録文書数として「3」を取得した場合には、これらの値を加算し、総合登録文書数「10」を得る。
次に、総合文書頻度送出部124は、総合文書頻度を各検索サーバ20a〜20cに送出する。また、総合登録文書数送出部130は、総合登録文書数を各検索サーバ20a〜20cに送出する(ステップS124)。具体的には、以下の問い合わせ文を送出する。

select 文書ID, スコアfrom T where テキスト like ('%システム%' 総合文書頻度 7) or テキスト like ('%データベース%' 総合文書頻度 5) 総合登録文書数 10 order by スコア desc
各検索サーバ20a〜20cにおいては、スコア算出部224はさらに索引ファイル22から文書内頻度を抽出する(ステップS126)。図10は、文書内頻度の抽出結果を示す図である。図10においては、例えば、検索キーワード「システム」については、文書ID「1」で識別されるテキストデータに対する文書内頻度として「10」が抽出されている。
そして、スコア算出部224は、管理サーバ10から取得した総合文書頻度、総合登録文書数および索引ファイル22から抽出した文書内頻度を利用して、スコアを算出する(ステップS130)。
図7は、スコア算出処理(ステップS130)における詳細な処理を示すフローチャートである。スコア算出部224は、まず各検索キーワードごとのスコアを算出する(ステップS132)。図11は、スコア算出部224によって算出された検索キーワードごとのスコアを示す図である。図11においては、例えば、検索キーワード「システム」については、文書ID「1」で識別されるテキストデータに対するスコアとして「0.140819964」が得られている。
次に、テキストデータごとにスコアを合成する(ステップS134)。図12は、スコア算出部224によって合成されたスコアを示す図である。例えば、文書ID「1」で識別されるテキストデータにおいては、検索キーワード「システム」に対するスコア「0.140819964」と、検索キーワード「データベース」に対するスコア「0.200686664」とが加算され、合成スコア「0.341506627」が得られる。
次に、検索結果送出部226は、合成スコアの大きい方から順番に文書IDをソートする(ステップS136)。そして、図13に示すように、検索結果送出部226は、ソートされた文書IDを検索結果として管理サーバ10に送出する(ステップS140)。
管理サーバ10においては、検索結果取得部140が各検索サーバ20a〜20cから検索結果を取得すると、検索結果マージ部142は、検索結果をマージソートする(ステップS142)。そして、総合検索結果送出部144は、マージ結果を総合検索結果としてクライアント端末40に送出する(ステップS144)。以上で、検索処理が完了する。
このように、本実施の形態にかかる文書管理システム1においては、複数の索引ファイルが存在するが、それぞれの索引ファイルの合計の文書頻度および登録文書数を利用してスコアを算出しているので、より正確なスコアを検索結果として出力することができる。
図14は、実施の形態1にかかる管理サーバ10のハードウェア構成を示す図である。管理サーバ10は、ハードウェア構成として、管理サーバ10における検索処理を実行する検索プログラムなどが格納されているROM52と、ROM52内のプログラムに従って管理サーバ10の各部を制御するCPU51と、管理サーバ10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた管理サーバ10における検索プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、検索プログラムは、管理サーバ10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の検索プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
また、実施の形態1にかかる検索サーバ20a〜20cのハードウェア構成は、管理サーバ10のハードウェア構成と同様である。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした変更例としては、本実施の形態においては、管理サーバ10が、総合文書頻度および総合登録文書数を取得し、各検索サーバ20a〜20cがそれぞれ検索結果を得たが、各装置の処理分担は本実施の形態に限定されるものではない。例えば、検索結果のマージソートを管理サーバ10が行ってもよい。
(実施の形態2)
次に、実施の形態2にかかる文書管理システム1について説明する。実施の形態2にかかる文書管理システム1は、平均文書長を利用してスコアを算出する。この点で、実施の形態1にかかる文書管理システム1と異なっている。
図15は、実施の形態2にかかる管理サーバ10の機能構成を示すブロック図である。実施の形態2にかかる管理サーバ10の検索部110は、実施の形態1にかかる検索部110の機能構成に加えて、平均文書長取得部150と、平均文書長マージ部152と、総平均文書長送出部154とをさらに有している。
平均文書長取得部150は、各検索サーバ20a〜20cから平均文書長を取得する。ここで、平均文書長とは、各レコードファイル24a〜24cに格納されているテキストデータの文書長の平均である。平均文書長マージ部152は、各検索サーバ20a〜20cから取得した平均文書長をマージする。具体的には、各検索サーバ20a〜20cから取得した平均文書長の平均を算出する。すなわち、すべての検索サーバ20a〜20cにおける平均文書長である総平均文書長を得る。総平均文書長送出部154は、平均文書長マージ部152により得られた総平均文書長を各検索サーバ20a〜20cに送出する。
図16は、実施の形態2にかかる第1検索サーバ20aの機能構成を示すブロック図である。実施の形態2にかかる検索サーバ20の検索部210は、実施の形態1にかかる検索部210の機能構成に加えて、平均文書長取得部230と、総平均文書長取得部232とをさらに有している。
平均文書長取得部230は、第1索引ファイル22aから各テキストデータの文書長を取得する。さらに取得した文書長の平均、すなわち平均文書長を得る。総平均文書長取得部232は、管理サーバ10から総平均文書長を取得する。そして、スコア算出部224は、総平均文書長取得部232が取得した総平均文書長を利用してスコアを算出する。
文書DjにおけるキーワードQiのスコアは、具体的には(式2)により算出される。
Figure 2006331117
ここで、tfijは、キーワードQiの文書Dj中における出現数、すなわち文書内頻度である。dfiは、キーワードQiを含む文書の数、すなわち文書頻度である。ljは、文書Djの文書長である。Nは、登録文書数である。Lは、平均文書長である。
tfijとしては、第1索引ファイル22aにおける文書内頻度が利用される。dfijとしては、すべての索引ファイル22aa〜22cにおける文書頻度、すなわち総合文書頻度が利用される。Nとしては、すべての索引ファイル22a〜22cにおける登録文書数、すなわち総合登録文書数が利用される。Lとしては、すべての索引ファイル22a〜22cにおける平均文書長、すなわち総平均文書長が利用される。
図17は、実施の形態2にかかる文書管理システム1における検索処理を示すフローチャートである。実施の形態2にかかる文書管理システム1においては、管理サーバ10の検索キーワード抽出部114が検索キーワードを抽出すると、検索キーワードに対する文書頻度、登録文書数および平均文書長の取得要求を送出する(ステップS150)。例えば、以下の問い合わせ文を平均文書長の取得要求として送出する。

select avg(char_length(テキスト)) from T
そして、各検索サーバ20a〜20cにおいては、取得要求を取得すると平均文書長取得部230は、平均文書長を得る(ステップS152)。具体的には、平均文書長取得部230は、各文書の文書長を取得する。図18は、平均文書長取得部230が取得した文書長を示す図である。例えば、文書ID「1」で識別されるテキストデータの文書長として「100」を取得する。こうして得られたすべてのテキストデータの文書長の平均値を算出する。そして、文書頻度、登録文書数および平均文書長を管理サーバ10に送出する(ステップS154)。
管理サーバ10においては、各検索サーバ20a〜20cから文書頻度、登録文書数および平均文書長を取得すると、平均文書長マージ部152は、平均文書長をマージする(ステップS156)。これにより、すべての検索サーバ20a〜20cにおける総平均文書長を得る。そして、総平均文書長送出部154は、総平均文書長を各20a〜20cに送出する(ステップS158)。具体的には、以下の問い合わせ文を送出する。

select 文書ID, スコアfrom T where テキスト like ('%システム%' 総合文書頻度 7) or テキスト like ('%データベース%' 総合文書頻度 5) 総合登録文書数 10 総平均文書長 100.0 order by スコア desc
各検索サーバ20a〜20cは、総合文書頻度、総合登録文書数、文書内頻度および総平均文書長を利用してスコアを算出する(ステップS130)。図19は、スコア算出部224によって算出された検索キーワードごとのスコアを示す図である。図20は、スコア算出部224によって合成されたスコアを示す図である。
次に、検索結果送出部226は、合成スコアの大きい方から順番に文書IDをソートし、ソート結果を検索結果として管理サーバ10に送出する(ステップS140)。図21は、検索結果送出部226によるソート結果を示す図である。管理サーバ10は、各検索サーバ20a〜20cから取得した検索結果をマージソートし、総合検索結果を送出する(ステップS142,144)。以上で、検索処理が完了する。
このように、実施の形態2にかかる文書管理システム1においては、複数の索引ファイルが存在するが、それぞれの索引ファイルの合計の文書頻度および登録文書数に加えて、さらにすべての索引ファイルにおける平均文書長を利用してスコアを算出しているので、より正確なスコアを検索結果として出力することができる。
実施の形態2にかかる文書管理システム1のこれ以外の構成および処理は、実施の形態1にかかる文書管理システム1における構成および処理と同様である。
(実施の形態3)
次に、実施の形態3にかかる文書管理システム1について説明する。実施の形態3にかかる文書管理システム1においては、スコア算出において利用するスコア計算式を指定することができる。この点で、実施の形態3にかかる文書管理システム1は、他の実施の形態にかかる文書管理システム1と異なっている。
図22は、実施の形態3にかかる管理サーバ10の機能構成を示すブロック図である。管理サーバ10の検索部110は、実施の形態1にかかる検索部110の機能構成に加えて、スコア計算式抽出部160を有している。スコア計算式抽出部160は、検索条件取得部112が取得した検索条件からスコア計算式を抽出する。抽出したスコア計算式を各検索サーバ20a〜20cに送出する。
図23は、実施の形態3にかかる検索サーバ20の機能構成を示すブロック図である。検索サーバ20の検索部210は、実施の形態1にかかる検索部210の機能構成に加えて、スコア計算式取得部240を有している。スコア計算式取得部240は、管理サーバ10からスコア計算式を取得する。そして、スコア算出部224は、スコア計算式取得部240が取得したスコア計算式を利用してスコアを算出する。
図24は、実施の形態3にかかる文書管理システム1における検索処理を示すフローチャートである。実施の形態3においては、管理サーバ10の検索条件取得部112が検索条件を取得すると(ステップS100)、スコア計算式抽出部160は、検索条件からスコア計算式を抽出する(ステップS160)。そして、抽出したスコア計算式を各検索サーバ20a〜20cに送出する(ステップS162)。
具体的には、検索条件取得部112は、下記の問い合わせ式を検索条件として取得する。スコア計算式抽出部160は、例えば下記問い合わせ式においては、「NormalizedOkapiTfIdf」をスコア計算式として抽出する。

select 文書ID, スコアfrom T where テキスト like '%システム%' or テキスト like '%データベース%' calculator 'NormalizedOkapiTfIdf' order by スコア desc
なお、前提条件として、文書管理システム1においては、いくつかのスコア計算式を予め定義し、各スコア計算式に名前を付けておくこととする。これにより、問い合わせ式においてスコア計算式の名前を指定することにより、スコア計算式を指定することができる。
また、スコア計算式は、管理サーバ10が保持してもよく、また他の例としては、各検索サーバ20a〜20cが保持してもよい。管理サーバ10が保持する場合には、ステップS162においては、管理サーバ10は、スコア計算式を送出する。また、各検索サーバ20a〜20cが保持する場合には、ステップS162においては、管理サーバ10は、スコア計算式の名前を送出する。
そして、ステップS130においては、各検索サーバ20a〜20cは、ステップS162において取得したスコア計算式を利用してスコアを算出する。
実施の形態3にかかる文書管理システム1のこれ以外の構成および処理は、実施の形態1にかかる文書管理システム1の構成および処理と同様である。
(実施の形態4)
次に、実施の形態4にかかる文書管理システム1について説明する。実施の形態4にかかる文書管理システム1においては、スコア算出において利用するスコア計算式を指定することができる。この点で、実施の形態4にかかる文書管理システム1は、他の実施の形態にかかる文書管理システム1と異なっている。
図25は、実施の形態4にかかる管理サーバ10の機能構成を示すブロック図である。管理サーバ10の検索部110は、実施の形態1にかかる検索部110の機能構成に加えて、スコア合成式抽出部170を有している。スコア合成式抽出部170は、検索条件取得部112が取得した検索条件からスコア合成式を抽出する。抽出したスコア合成式を各検索サーバ20a〜20cに送出する。
図26は、実施の形態3にかかる検索サーバ20の機能構成を示すブロック図である。検索サーバ20の検索部210は、実施の形態1にかかる検索部210の機能構成に加えて、スコア合成式取得部250を有している。スコア合成式取得部250は、管理サーバ10からスコア合成式を取得する。そして、スコア算出部224は、スコア合成式取得部250が取得したスコア合成式を利用してスコアを合成する。
図27は、実施の形態4にかかる文書管理システム1における検索処理を示すフローチャートである。実施の形態4においては、管理サーバ10の検索条件取得部112が検索条件を取得すると(ステップS100)、スコア合成式抽出部170は、検索条件からスコア合成式を抽出する(ステップS170)。そして、抽出したスコア合成式を各検索サーバ20a〜20cに送出する(ステップS172)。
具体的には、検索条件取得部112は、下記の問い合わせ式を検索条件として取得する。スコア合成式抽出部170は、例えば、下記の問い合わせ式においては、「Sum」をスコア合成式として抽出する。

select 文書ID, スコアfrom T where テキスト like '%システム%' or テキスト like '%データベース%' calculator 'NormalizedOkapiTfIdf' combiner 'Sum' order by スコア desc
なお、前提条件として、文書管理システム1においては、いくつかのスコア合成式を予め定義し、各スコア合成式に名前を付けておくこととする。これにより、問い合わせ式においてスコア合成式の名前を指定することにより、スコア合成式を指定することができる。
また、スコア合成式は、管理サーバ10が保持してもよく、また他の例としては、各検索サーバ20a〜20cが保持してもよい。管理サーバ10が保持する場合には、ステップS172においては、管理サーバ10は、スコア合成式を送出する。また、各検索サーバ20a〜20cが保持する場合には、ステップS172においては、管理サーバ10は、スコア合成式の名前を送出する。
そして、ステップS130においては、各検索サーバ20a〜20cは、ステップS172において取得したスコア合成式を利用してスコアを合成する。
実施の形態4にかかる文書管理システム1のこれ以外の構成および処理は、実施の形態1にかかる文書管理システム1の構成および処理と同様である。
実施の形態1にかかる文書管理システム1全体の構成を示すブロック図である。 管理サーバ10の機能構成を示すブロック図である。 第1検索サーバ20aの機能構成を示すブロック図である。 第1索引ファイル22aのデータ構成を模式的に示す図である。 第1レコードファイル24aのデータ構成を模式的に示す図である。 文書管理システム1における検索処理を示すフローチャートである。 スコア算出処理(ステップS130)における詳細な処理を示すフローチャートである。 検索キーワード取得部212が抽出した文書頻度を示す図である。 文書頻度のマージ結果を示す図である。 文書内頻度の抽出結果を示す図である。 スコア算出部224によって算出された検索キーワードごとのスコアを示す図である。 スコア算出部224によって合成されたスコアを示す図である。 ソートされたスコアを示す図である。 実施の形態1にかかる管理サーバ10のハードウェア構成を示す図である。 実施の形態2にかかる管理サーバ10の機能構成を示すブロック図である。 実施の形態2にかかる第1検索サーバ20aの機能構成を示すブロック図である。 実施の形態2にかかる文書管理システム1における検索処理を示すフローチャートである。 平均文書長取得部230が取得した文書長を示す図である。 スコア算出部224によって算出された検索キーワードごとのスコアを示す図である。 スコア算出部224によって合成されたスコアを示す図である。 検索結果送出部226によるソート結果を示す図である。 実施の形態3にかかる管理サーバ10の機能構成を示すブロック図である。 実施の形態3にかかる第1検索サーバ20aの機能構成を示すブロック図である。 実施の形態3にかかる文書管理システム1における検索処理を示すフローチャートである。 実施の形態4にかかる管理サーバ10の機能構成を示すブロック図である。 実施の形態4にかかる第1検索サーバ20aの機能構成を示すブロック図である。 実施の形態4にかかる文書管理システム1における検索処理を示すフローチャートである。
符号の説明
1 文書管理システム
10 管理サーバ
20a〜20c 検索サーバ
22a〜22c 索引ファイル
24a〜24c レコードファイル
30 ネットワーク
40a〜40c クライアント端末
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 登録部
110 検索部
112 検索条件取得部
114 検索キーワード抽出部
116 取得要求送出部
120 文書頻度取得部
122 文書頻度マージ部
124 総合文書頻度送出部
126 登録文書数取得部
128 登録文書数マージ部
130 総合登録文書数送出部
140 検索結果取得部
142 検索結果マージ部
144 総合検索結果送出部
150 平均文書長取得部
152 平均文書長マージ部
154 総平均文書長送出部
160 スコア計算式抽出部
170 スコア合成式抽出部
200 登録部
210 検索部
212 検索キーワード取得部
214 文書頻度抽出部
216 登録文書数抽出部
220 総合文書頻度取得部
222 総合登録文書数取得部
224 スコア算出部
226 検索結果送出部
230 平均文書長取得部
232 総平均文書長取得部
240 スコア計算式取得部
250 スコア合成式取得部

Claims (20)

  1. 文書データを格納する、複数の文書データ格納手段と、
    各文書データ格納手段に格納されている文書データを検索する、複数の文書検索装置と、
    前記複数の文書検索装置を管理する管理装置と
    を備え、
    前記管理装置は、
    前記文書データを検索するための検索キーワードを取得する検索キーワード取得手段と、
    各文書データ格納手段に格納されている前記文書データの数である登録文書数を、各文書検索装置から取得する登録文書数取得手段と、
    前記登録文書数取得手段が各文書検索装置から取得した前記登録文書数に基づいて、前記複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出手段と、
    各文書データ格納手段に格納されている前記文書データのうち、前記検索キーワード取得手段が取得した前記検索キーワードを含む文書データの数である文書頻度を、各文書検索装置から取得する文書頻度取得手段と、
    前記文書頻度取得手段が各文書検索装置から取得した前記文書頻度に基づいて、前記複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出手段と
    を有し、
    各文書検索装置は、
    前記総合登録文書数算出手段が算出した前記総合登録文書数と、前記総合文書頻度算出手段が算出した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出手段を有することを特徴とする文書検索システム。
  2. 前記総合登録文書数算出手段は、前記登録文書数取得手段が各文書検索装置から取得した前記登録文書数を加算して前記総合登録文書数を得ることを特徴とする請求項1に記載の文書検索システム。
  3. 前記総合文書頻度算出手段は、前記文書頻度取得手段が各文書検索装置から取得した前記文書頻度を加算して前記総合文書頻度を得ることを特徴とする請求項1または2に記載の文書検索システム。
  4. 前記管理装置は、
    各文書データ格納手段に格納されている前記文書データの平均文書長を、各文書検索装置から取得する平均文書長取得手段と、
    前記平均文書長取得手段が各文書検索装置から取得した前記平均文書長に基づいて、前記複数の文書データ格納手段全体に対する総平均文書長を算出する総平均文書長算出手段と
    をさらに有し、
    各文書検索装置の前記スコア算出手段は、さらに前記総平均文書長算出手段が算出した前記総平均文書長に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項1から3のいずれか一項に記載の文書検索システム。
  5. 前記総平均文書長算出手段は、前記平均文書長取得手段が各文書検索装置から取得した前記平均文書長の平均値を、前記総平均文書長として算出することを特徴とする請求項4に記載の文書検索システム。
  6. 各文書検索装置は、各文書データ格納手段に格納されている前記文書データ中における前記検索キーワードの出現数である文書内頻度を取得する文書内頻度取得手段をさらに有し、
    前記スコア算出手段は、さらに前記文書内頻度取得手段が取得した前記文書内頻度に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項1から5のいずれか一項に記載の文書検索システム。
  7. 各文書検索装置は、ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得するスコア計算式取得手段をさらに有し、
    前記スコア算出手段は、前記スコア計算式取得手段が取得した前記スコア計算式情報に示される前記スコア計算式を利用して前記スコアを算出することを特徴とする請求項1から6のいずれか一項に記載の文書検索システム。
  8. 各文書検索装置は、前記スコア算出手段が前記検索キーワードに対して算出したスコアを文書データごとに合成し、合成スコアを得るスコア合成手段をさらに有することを特徴とする請求項1から7のいずれか一項に記載の文書検索システム。
  9. 前記スコア合成手段は、同一の文書データにおいて、複数の前記検索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得ることを特徴とする請求項8に記載の文書検索システム。
  10. 各文書検索装置は、ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得するスコア合成式取得手段をさらに有し、
    前記スコア算出手段は、前記スコア合成式取得手段が取得した前記スコア合成式情報に示される前記スコア合成式を利用して前記合成スコアを得ることを特徴とする請求項8または9に記載の文書検索システム。
  11. 文書データを格納する複数の文書データ格納手段を備えた文書管理システムにおいて前記文書データ格納手段に格納されている文書データを検索する文書検索装置であって、
    前記文書データを検索するための検索キーワードを取得する検索キーワード取得手段と、
    前記複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得する総合登録文書数取得手段と、
    前記複数の文書データ格納手段全体における、前記検索キーワード取得手段が取得した前記検索キーワードを含む文書データの数である総合文書頻度を取得する総合文書頻度取得手段と、
    前記総合登録文書数取得手段が取得した前記総合登録文書数と、前記総合文書頻度取得手段が取得した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出手段と
    を備えたことを特徴とする文書検索装置。
  12. 前記複数の文書データ格納手段全体に対する総平均文書長を取得する総平均文書長取得手段をさらに備え、
    前記スコア算出手段は、さらに前記総平均文書長取得手段が取得した前記総平均文書長に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項11に記載の文書検索装置。
  13. 前記文書データ格納手段に格納されている前記文書データ中における前記検索キーワードの出現数である文書内頻度を取得する文書内頻度取得手段をさらに備え、
    前記スコア算出手段は、さらに前記文書内頻度取得手段が取得した前記文書内頻度に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項11または12に記載の文書検索装置。
  14. ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得するスコア計算式取得手段をさらに備え、
    前記スコア算出手段は、前記スコア計算式取得手段が取得した前記スコア計算式情報に示される前記スコア計算式を利用して前記スコアを算出することを特徴とする請求項11から13のいずれか一項に記載の文書検索装置。
  15. 前記スコア算出手段が前記探索キーワードに対して算出したスコアを、文書データごとに合成し、合成スコアを得るスコア合成手段をさらに備えたことを特徴とする請求項11から14のいずれか一項に記載の文書検索装置。
  16. 前記スコア合成手段は、同一の文書データにおいて、複数の前記探索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得ることを特徴とする請求項15に記載の文書検索装置。
  17. ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得するスコア合成式取得手段をさらに備え、
    前記スコア算出手段は、前記スコア合成式取得手段が取得した前記スコア合成式情報に示される前記スコア合成式を利用して前記合成スコアを得ることを特徴とする請求項15または16に記載の文書検索装置。
  18. 文書データを格納する、複数の文書データ格納手段を備えた文書管理システムにおいて文書を管理する文書検索方法であって、
    前記文書データを検索するための検索キーワードを取得する検索キーワード取得ステップと、
    各文書データ格納手段に格納されている前記文書データの数である登録文書数を取得する登録文書数取得ステップと、
    前記登録文書数取得ステップにおいて取得した前記登録文書数に基づいて、前記複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出ステップと、
    各文書データ格納手段に格納されている前記文書データのうち、前記検索キーワード取得ステップにおいて取得した前記検索キーワードを含む文書データの数である文書頻度を取得する文書頻度取得ステップと、
    前記文書頻度取得ステップにおいて取得した前記文書頻度に基づいて、前記複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出ステップと、
    前記総合登録文書数算出ステップにおいて算出した前記総合登録文書数と、前記総合文書頻度算出ステップにおいて算出した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出ステップと
    を有することを特徴とする文書検索方法。
  19. 文書データを格納する複数の文書データ格納手段を備えた文書管理システムにおいて前記文書データ格納手段に格納されている文書データを検索する文書検索方法であって、
    前記文書データを検索するための検索キーワードを取得する検索キーワード取得ステップと、
    前記複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得する総合登録文書数取得ステップと、
    前記複数の文書データ格納手段全体における、前記検索キーワード取得ステップにおいて取得した前記検索キーワードを含む文書データの数である総合文書頻度を取得する総合文書頻度取得ステップと、
    前記総合登録文書数取得ステップにおいて取得した前記総合登録文書数と、前記総合文書頻度取得ステップにおいて取得した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出ステップと
    を有することを特徴とする文書検索方法。
  20. 請求項19に記載の文書検索方法をコンピュータに実行させることを特徴とする文書検索プログラム。
JP2005154374A 2005-05-26 2005-05-26 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム Pending JP2006331117A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005154374A JP2006331117A (ja) 2005-05-26 2005-05-26 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005154374A JP2006331117A (ja) 2005-05-26 2005-05-26 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム

Publications (1)

Publication Number Publication Date
JP2006331117A true JP2006331117A (ja) 2006-12-07

Family

ID=37552736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005154374A Pending JP2006331117A (ja) 2005-05-26 2005-05-26 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP2006331117A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234204A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 文書検索装置、文書検索方法および文書検索プログラム
JP2009187211A (ja) * 2008-02-05 2009-08-20 Nec Corp 情報検索システム、情報検索方法およびプログラム
JP2009271659A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2010092357A (ja) * 2008-10-09 2010-04-22 Intec Systems Institute Inc 施設関連情報検索方法および施設関連情報検索システム
CN101944108A (zh) * 2010-09-07 2011-01-12 深圳市彩讯科技有限公司 一种索引文件及索引文件建立方法
CN102317929A (zh) * 2009-02-18 2012-01-11 A9.Com有限公司 图像匹配方法和系统
US8180781B2 (en) 2008-05-28 2012-05-15 Ricoh Company, Ltd. Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
JP2013030089A (ja) * 2011-07-29 2013-02-07 E-Jidai:Kk 文書検索システムおよび文書検索プログラム
US9043349B1 (en) 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
JP5792871B1 (ja) * 2014-05-23 2015-10-14 日本電信電話株式会社 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297594A (ja) * 2001-04-02 2002-10-11 Nippon Telegr & Teleph Corp <Ntt> 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297594A (ja) * 2001-04-02 2002-10-11 Nippon Telegr & Teleph Corp <Ntt> 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234204A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 文書検索装置、文書検索方法および文書検索プログラム
JP2009187211A (ja) * 2008-02-05 2009-08-20 Nec Corp 情報検索システム、情報検索方法およびプログラム
JP2009271659A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US8180781B2 (en) 2008-05-28 2012-05-15 Ricoh Company, Ltd. Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
JP2010092357A (ja) * 2008-10-09 2010-04-22 Intec Systems Institute Inc 施設関連情報検索方法および施設関連情報検索システム
US8738647B2 (en) 2009-02-18 2014-05-27 A9.Com, Inc. Method and system for image matching
CN102317929A (zh) * 2009-02-18 2012-01-11 A9.Com有限公司 图像匹配方法和系统
JP2012518238A (ja) * 2009-02-18 2012-08-09 エーナイン・ドット・コム インコーポレイテッド 画像マッチングのための方法およびシステム
CN101944108A (zh) * 2010-09-07 2011-01-12 深圳市彩讯科技有限公司 一种索引文件及索引文件建立方法
JP2013030089A (ja) * 2011-07-29 2013-02-07 E-Jidai:Kk 文書検索システムおよび文書検索プログラム
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9043349B1 (en) 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US9390340B2 (en) 2012-11-29 2016-07-12 A9.com Image-based character recognition
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
JP5792871B1 (ja) * 2014-05-23 2015-10-14 日本電信電話株式会社 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events

Similar Documents

Publication Publication Date Title
JP2006331117A (ja) 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
JP5474038B2 (ja) モバイルサイトマップ
US7526476B2 (en) System and method for generating attribute-based selectable search extension
JP2011044170A (ja) 異なるソースからのサーチエンジン結果を1つのサーチ結果へと混合する方法及びシステム
JP2006107433A (ja) 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法
JP2010033197A (ja) 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
US20110208715A1 (en) Automatically mining intents of a group of queries
JP2010538386A (ja) クエリ別検索コレクション生成方法およびシステム
CN106095738A (zh) 推荐表单片段
JP2006285526A (ja) 画像データに応じた情報検索
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JP5010624B2 (ja) 検索装置
JP2006331014A (ja) 情報提供装置、情報提供方法及び情報提供プログラム
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
US20090030900A1 (en) Information processing apparatus, information processing method and computer readable information recording medium
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2006236221A (ja) ウエブページ検索のための管理サーバ装置
JP5358481B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム
JP2006185020A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP6034584B2 (ja) 特許調査支援装置、特許調査支援方法、およびプログラム
JP6751366B2 (ja) 情報管理システム、情報管理方法および情報管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110301