JP5105894B2 - 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体 - Google Patents

文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体 Download PDF

Info

Publication number
JP5105894B2
JP5105894B2 JP2007032681A JP2007032681A JP5105894B2 JP 5105894 B2 JP5105894 B2 JP 5105894B2 JP 2007032681 A JP2007032681 A JP 2007032681A JP 2007032681 A JP2007032681 A JP 2007032681A JP 5105894 B2 JP5105894 B2 JP 5105894B2
Authority
JP
Japan
Prior art keywords
document
search
condition
index
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007032681A
Other languages
English (en)
Other versions
JP2007280361A5 (ja
JP2007280361A (ja
Inventor
慎 福田
正晃 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007032681A priority Critical patent/JP5105894B2/ja
Priority to US11/682,393 priority patent/US8078584B2/en
Publication of JP2007280361A publication Critical patent/JP2007280361A/ja
Publication of JP2007280361A5 publication Critical patent/JP2007280361A5/ja
Application granted granted Critical
Publication of JP5105894B2 publication Critical patent/JP5105894B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Description

本発明は、ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体に関するものである。
文書管理サーバなどのデータベースに複数の文書を記憶しておき、それら記憶されている複数の文書の中からユーザが所望する文書を検索する文書検索システムが知られている。このようなシステムでは、例えば文書を登録する際に、その文書データに含まれているキーワードを抽出して検索用のインデックスを作成する。こうして作成された検索用インデックスは、その文書に対応付けられて、その実体とは別に管理される。そして文書を検索する際にユーザがキーワードを入力すると、入力されたキーワードが検索用インデックスに含まれているかどうかを判定し、もし含まれていればそのインデックスに対応する文書が検索対象であると判定する。このようにして検索用のインデックスを用いることにより、検索処理におけるレスポンスを高めている。
このような文書検索システムとして、ユーザが操作する装置(例えばPCなど)が複数のサーバに問合せることにより、統合した文書の検索サービスを実現することも提案されている(特許文献1参照)。このとき、複数のサーバはそれぞれが記憶する文書の検索用インデックスを互いに共有している。これにより、各ユーザがいずれか一つのサーバに対して文書の検索命令を発行することにより、複数のサーバに記憶されている文書の検索を行うことができる。
特開2004−342042号公報
しかしながら、上述した従来技術では次のような問題があった。即ち、ネットワークを介して接続された複数のサーバ等に格納されている文書データを検索する際に全てのサーバに対して検索依頼を行うと、全てのサーバからの検索結果の応答が返ってくるまでに時間がかかってしまう場合がある。また、検索が行われる毎に、検索依頼や検索結果の情報を含む多くのデータがネットワーク上に送出されるので、ネットワークに負荷がかかってしまう。
また、例えば上述した特許文献1のようにして、複数のサーバのそれぞれが格納している文書データの検索用インデックスを互いに共有するようにすれば、検索時にはいずれか一つのサーバにのみ検索を依頼すれば済むので、検索効率は良くなる。
しかしながらこの場合には、複数のサーバはそれぞれ他の全てのサーバに登録されている文書の検索用インデックスを保持しておかなければならない。そのため、サーバの数や格納される文書データの数が増加すると、保持すべき検索用インデックスの容量が増大し、メモリ資源の無駄使いとなってしまうとともに、検索処理に要する時間が長くなるという問題がある。また、あるサーバに文書が登録されると、そのインデックスがネットワークを介して他の全てのサーバに転送されるため、ネットワークトラフィックが大きくなるという問題がある。
本発明の目的は、上記従来技術の問題点を解決することにある。
本発明の特徴は、ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する際の検索効率を高めることにある。
上記目的を達成するために本発明の一態様に係る文書検索システムは以下のような構成を備える。即ち、
ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索システムであって、
前記複数の文書管理サーバのそれぞれに備えられ、文書データ及び当該文書データに対応するインデックス情報を記憶する記憶手段と、
前記複数の文書管理サーバの前記記憶手段に記憶されたインデックス情報のうち、第1の検索条件を満たす文書データに対応するインデックス情報を、当該記憶手段から読み出して集約する集約手段と、
ユーザから第2の検索条件に基づく文書データの検索の実行が指示された場合に、前記第1の検索条件及び前記第2の検索条件が一致するか否かを判定する判定手段と、
前記判定手段による判定の結果、前記第1の検索条件及び前記第2の検索条件が一致する場合に、前記集約手段により集約されたインデックス情報を参照することにより前記文書データの検索を実行する検索手段と、を有し、
前記集約手段は、前記複数の文書管理サーバのうち、前記第1の検索条件を満たす文書データが最も多く登録されている文書管理サーバに、当該第1の検索条件を満たす文書データに対応するインデックス情報を集約することを特徴とする。
また上記目的を達成するために本発明の一態様に係る文書検索装置は以下のような構成を備える。即ち、
ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索装置であって、
前記文書データを検索するための検索条件を入力する入力手段と、
前記入力手段により入力された検索条件の履歴情報を管理する履歴情報管理手段と、
前記履歴情報管理手段により管理された前記履歴情報に基づいて、予め定められた集約条件を満たす検索条件が存在するか否かを判定する判定手段と、
前記判定手段が前記予め定められた集約条件を満たす検索条件が存在すると判定した場合に、当該検索条件を満たす文書データに対応するインデックス情報を、前記文書検索装置に集約する集約手段と、
前記文書データの文書属性を判別する判別手段とを有し、
前記集約手段は、前記判定手段が前記予め定められた集約条件を満たす検索条件が存在すると判定した場合に、当該検索条件を満たす文書データのうち、前記判別手段による判別の結果に基づいて選択された文書データに対応するインデックス情報を集約することを特徴とする。
本発明によれば、ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する際の検索効率を高めることができる。
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
[第1の実施の形態]
図1(A)(B)は、本発明に係る第1の実施の形態に係る文書検索システムの構成の特徴を説明する図である。
図1(A)は、従来の文書検索システム(マルチサーバ検索システム)の構成を示すブロック図である。ここでは、ユーザはPCを用いて、各サーバに対してそれぞれ検索条件(キーワード)を送信して検索を依頼する。各サーバは、文書とともにその文書の検索用インデックスを対応付けて記憶している。各サーバは、PCから検索を依頼された場合に、そのPCから受信した検索条件と検索用インデックスとを比較して、その検索結果をPCに通知する。PCは各サーバから通知された検索結果をマージしてユーザに提供する。
ここでPCから検索を依頼すべきサーバの数が多くなった場合には、検索に時間がかかってしまう場合がある。特に、全部のサーバからの検索結果の応答を待って、それらをマージして検索結果を表示するような場合には、それぞれのサーバからの検索結果を受信し終えるまで検索結果の表示出力が待たされてしまい、効率が悪くなる。
これに対して図1(B)は、第1の実施の形態に係る文書検索システム(マルチサーバ検索システム)の構成を示すブロック図である。ここではユーザは、まずPC103を用いて管理サーバ101に対して検索条件(キーワード)を送信するとともに、サーバ105〜107にも検索条件を送信して文書の検索を依頼する。管理サーバ101は、予め定められた集約条件(例えば、予め定められた期間中に予め定められた回数以上使用されたこと等)に従って、ユーザから入力された検索条件が集約すべき検索条件であるかどうかを判定する。
そして、集約すべき検索条件であると判定した場合には、その検索条件に該当する検索用インデックスを、特定のサーバに集約する。尚、この集約とは、各サーバ105〜107に記憶されている検索用インデックスを移動してもよい。また或は、検索用インデックスを元のサーバに残したまま集約先に検索用インデックスの複製を生成して記憶させるようにしてもよい。さらに、管理サーバ101は、対応する検索用インデックスを集約したことを示す情報とともに、対応する検索用インデックスの集約を行った検索条件を示す情報を管理しておく。
そしてその後、ユーザによりある検索条件が指定されて検索が指示されると、管理サーバ101は、指定された検索条件を管理しているかどうか判断する。ユーザから指定された検索条件を管理サーバ101が管理していれば、対応する検索用インデックスが集約されているということになるので、検索用インデックスが集約されているサーバを特定して、そのサーバに対して検索条件を通知して検索を依頼する。
尚、検索用インデックスを集約する先としては、サーバ105〜107のうちいずれか、または管理サーバ101が考えられる。第1の実施の形態においては、サーバ105〜107のうち、集約される検索用インデックスのそれぞれに対応する文書を最も多く記憶しているサーバ(図1の例では、サーバ105〜107のいずれか)に集約する例を説明する。
この場合は、あるキーワードが検索条件として所定回数以上指定された場合に、そのキーワードにヒットする文書が最も多く記憶されているサーバを判別する。そして、そのサーバ(例えばサーバ106)に、指定されたキーワードでヒットする文書の検索用インデックスを集約する。これにより、これ以降、同一のキーワードで検索が指示されると、サーバ106に検索を依頼することにより、他のサーバ105、107に記憶されている文書の検索も行うことができるため検索効率が向上する。
尚、この場合、どのキーワードに対応する検索用インデックスがどのサーバに集約されているかを管理しておく必要がある。このため第1の実施の形態では、管理サーバ101が、例えば図11に示すようなテーブル形式で、検索条件として指定されたキーワードごとに、各キーワードに対応する検索用インデックスがどのサーバに集約されているかを示す情報を記憶している。図11の例では、例示した各キーワードのインデックス集約テーブルはそれぞれサーバ105,106,107に記憶されている。
尚、ここでは管理サーバ101は、サーバ105〜107とは別のサーバとして示しているが、この管理サーバ101は、サーバ105〜107のいずれかに組み込まれていても良い。或いは、管理サーバ101はPC103に組み込まれていても良い。
また、検索用インデックスとは、各サーバにおける文書毎に記述され、文書に含まれる文字列、文書名、文書作成日時、文書作成ユーザなどを示す情報を含んでいる。また、検索条件として指定されるキーワードとは、文書の検索用インデックスそのもの、或は文書の検索用インデックスに含まれる文字列であって、ユーザが検索を行うために入力する。
図2は、本発明における第1の実施の形態に係る文書検索システムの構成を説明するブロック図である。
このシステムは、インターネット104を介して接続された管理サーバ101と、文書サーバ(文書記憶装置)105、及びPC(パーソナルコンピュータ)103とを有している。なお、このシステムには文書サーバ105以外にも複数の文書サーバ(106、107など)がインターネット104を介して接続されているが、ここでは代表して文書サーバ105のみを示す。また、この管理サーバ101は、複数の文書サーバのいずれかに組み込まれていても良い。
この構成において、ユーザはPC103に備えられたブラウザと称されるソフトウェアを操作することによって、管理サーバ101或は文書サーバ105にアクセスして文書データを取得することができる。尚、各文書サーバには、文書データの実体と、それに対応する検索用のインデックスとが記憶されている。
尚、各サーバ間の接続として、第1の実施の形態ではインターネット104を用いているが、本発明は特にこれに限らず、例えば、LAN(Local Area Network)等の他のネットワークシステムを用いても構わない。
管理サーバ101は、複数の文書サーバ105を統合して文書の登録・検索サービスを実現する機能を提供するためのサーバである。ユーザは、PC103のブラウザを利用して特定の管理サーバ101が提供するアドレス(URL)にアクセスすることにより、文書サーバ105への文書の登録、文書サーバに記憶された文書の閲覧、取得、更新、検索などを行うことができる。
また管理サーバ101は、文書を検索するための検索条件としてユーザから指定されるキーワードを監視している。そして、設定記憶部110に記憶されている設定情報(例えば上述した集約条件)に従って、使用頻度の高いキーワードを抽出し、対応する検索用インデックスを集約するかどうかを判断する。そして、検索用インデックスを集約する場合には、そのキーワードに対応する検索用インデックスを各文書サーバから集約して特定のサーバ(各文書サーバのいずれか、または管理サーバ101)に記憶させる。なおこの時、集約すべき検索用インデックスに対応する文書を最も多く格納している文書サーバに各検索用インデックスを集約しておくことにより、後述する検索の際の効率がさらに良くなる。
そして、PC103においてユーザから入力されたキーワードが、対応する検索用インデックスを集約しておいたキーワードに一致すれば、その集約された検索用インデックスを有している文書サーバに対して検索を依頼する。
また検索用インデックスの集約を行った後でユーザが新たに文書を登録する場合は、その文書から作成された検索用インデックスが集約されるべき検索用インデックスかどうか判断する。そして、集約されるべき検索用インデックスである場合には、検索用インデックスの集約先である文書サーバに文書の実体と検索用インデックスとを格納する。
一方、文書サーバ105は、文書の実体及び検索用インデックスを格納し、文書の登録、閲覧、取得、更新、及び検索などの機能を提供している。ユーザは、文書サーバ105が提供するサービスを利用して、インターネット104を介して所定のアドレス(一般的にURL)にアクセスすることにより、文書サーバ105が格納している文書にアクセスできる。
複数の文書サーバのそれぞれは、検索条件としてキーワードが指定されて検索の依頼を受信すると、記憶している検索用インデックスを参照して検索条件に該当する文書を検索する。そして、その検索の結果をPC103或は管理サーバ101に返す。
また、文書サーバ105は、PC103から文書の登録を要求された場合には、その文書を自機に備えられた記憶部に登録するといった機能を提供する。
次に、第1の実施の形態に係る管理サーバ101について説明する。
設定記憶部110は、各種設定情報を記憶している。これら設定情報は、前述したようにあるキーワードに対応する検索用インデックスを集約する際、その検索用インデックスを集約するか否かを判別するために使用する情報などを含む。即ち、キーワードの使用頻度を求める場合、その監視期間を何日間とするか、また使用頻度の高いものから上位何位までのキーワードに対応する検索用インデックスを集約する対象とするかを定める。また或は、文書のヒット件数及び/或は回数が多いものから上位何位までを集約する対象とするかを定める。更には、使用頻度とヒット件数及び/或は回数を組み合わせるのかを決める。また集約された検索用インデックスが格納されている先の文書サーバ105を特定するための情報を記憶している。
更に文書の登録に際して、使用頻度の高いキーワードのうち上位いくつまでのキーワードに対応する検索用インデックスを比較の対象とするかを定める。また、文書の登録時に文書の検索用インデックスが集約の対象となっていれば、集約先のサーバに文書の実体を登録するか否かを定める等の情報が含まれている。尚、これら設定情報は、この管理サーバ101を管理しているサービス提供者によって任意に設定が可能である。
ヒット情報メモリ111は、検索条件として指定されたキーワードに基づいて、文書サーバ105から返された検索用インデックスの件数(即ち、ヒット件数)及び、そのヒット回数を各文書サーバ105〜107に対応付けてヒットテーブルとして格納している(図8参照)。インデックス管理部112は、設定記憶部110に記憶された設定情報に基づく条件の下で、ヒット情報メモリ111に記憶されているキーワードのヒット情報を比較して、集約対象のキーワードを決定する。そして各文書サーバから、そのキーワードに該当する検索用インデックスを取得し、それらを関連付けて記憶部118に記憶する。これにより、使用頻度の高い検索用インデックスを集約(コピー)した集約インデックスを作成する(図9参照)。こうして得られた集約インデックスは、そのキーワードにヒットする文書データが最も多く記憶されている文書サーバに送られて保存される。
文書登録部113は、ユーザから登録が指示された文書を登録する。キーワード監視部115は、ユーザによって指定されたキーワードと、文書サーバ105から返された検索用インデックスのヒット件数の情報を取得し、記憶部118に格納する。インデックス抽出部116は、文書を登録する際、その文書の検索用インデックスを作成する。登録先判定部114は、文書を登録する際、複数の文書サーバの中から、インデックス抽出部116により抽出された検索用インデックスが集約されている文書サーバを特定する。そして設定記憶部110で管理されている情報に基づいて、検索用インデックスの集約先の文書サーバに文書の実体を登録することが設定されているかどうかを判断し、設定されている場合には集約先の文書サーバを文書の登録先として選択する。制御部117は、この管理サーバ101全体の動作を制御している。記憶部118は、RAM(図3の202)或はHDD(図3の209)などで構成され、制御部117の制御の下に、上述の各種テーブルや各種データを記憶する。ネットワーク接続部119は、インターネット104やLANとの間での通信を制御している。
次に文書サーバ105について説明する。
検索部120は、PC103から検索条件としてキーワードを受信すると、文書登録部121に登録されている文書の検索用インデックスを検索し、そのキーワードが含まれている検索用インデックスを抽出する。文書登録部121は、PC103から文書の登録が指定されると、その文書の実体及び、その文書から抽出された検索用インデックスを記憶部123に格納する。制御部122は、この文書サーバ105全体の動作を制御している。記憶部123は、RAM(図3の202)或はHDD(図3の209)などで構成され、制御部122の制御の下に、上述のテーブル等の各種データを記憶する。ネットワーク接続部124は、インターネット104やLANとの間での通信を制御している。
尚、管理サーバ101及び文書サーバ105及び、ユーザが利用するPC103は、後述するようにCPU,ROM,RAM,HDD等で構成される情報処理装置(コンピュータ)により構成される。また、これらサーバは、例えば、ウエブサービスなどによって機能を提供する。
図3は、本実施の形態に係る管理サーバ101及び文書サーバ105の具体的なハードウェア構成を説明するブロック図である。
図3において、CPU201は、プログラムROM203及びRAM202に記憶されたプログラムに従ってサーバ全体の処理を制御している。RAM202は、CPU201の主メモリとして、及び実行プログラムの領域や該プログラムの実行エリアならびにデータエリアとして機能する。プログラムROM203は、CPU201の動作処理手順を記憶しているリードオンリーメモリである。このプログラムROM203には、このサーバの機器制御を行うシステムプログラムである基本ソフト(OS)を記録したプログラムROMと、システムを稼働するために必要な情報等が記録されているデータROMが含まれる。尚、このROM203の代わりに、後述のHDD209にシステムプログラムをインストールしておき、そのプログラムの実行時にRAM202にそのプログラムをロードして実行するようにしても良い。ネットワークインターフェース(NETIF)204は、インターネット104やLAN等を介してデータ転送を行うための制御や、接続状況の診断を行う。ビデオRAM205は、表示部206への表示データを記憶している。表示部206は、液晶やCRT等の表示装置である。キーボードコントローラ(KBC)207は、キーボード208やポインティングデバイスにより入力された信号をバス200に出力する。HDD209は、ハードディスクドライブであり、アプリケーションプログラムや各種データの保存用(前述の記憶部118,123としても機能している)に用いられる。FDD210は、例えばフロッピー(登録商標)ディスクドライブ、CDROMドライブ等のリムーバブルディスク(記録媒体)213へのデータの書込み及び読み出しを制御する。この記録媒体213としては、例えば、FDや外付けハードディスク、光記録媒体(例えば、CD−ROM)、光磁気記録媒体(例えば、MO)、半導体記録媒体(例えば、メモリカード)等の取り外し可能なデータ記録装置(リムーバブル・メディア)等がある。尚、HDD209に格納するアプリケーションプログラムやデータをFDD210に格納して使用することも可能である。プリンタコントローラ(PRTC)211は、プリンタ(PRT)212への出力信号を制御するためのコントローラである。プリンタ212は、印刷装置で、例えばLBP(レーザビームプリンタ)等が用いられる。バス200は上述した各ユニット間を接続するための伝送バス(アドレスバス、データバス、入出力バス、及び制御バス)である。
尚、図2に示す管理サーバ101の設定記憶部110、ヒット情報メモリ111、インデックス管理部112、文書登録部113、登録先判定部114、キーワード監視部115、インデックス抽出部116等は、CPU201とRAM202、HDD209及びプログラムにより実現されている。また、及び文書サーバ105の検索部120、文書登録部121等もまたCPU201とHDD209、そのプログラム等により実現されている。
図4及び図5は、第1の実施の形態に係る管理サーバ101における検索処理を説明するフローチャートである。この処理を実行するプログラムは、ROM203、或はRAM202に記憶されており、CPU201の制御の下に実行される。
まずステップS1で、PC103においてユーザから入力された検索指示と検索条件として用いられるキーワードとを受信する。
図7は、ユーザがPC103において検索用のキーワードを入力する際に表示される入力画面例を示す図である。
ここではキーワードの入力欄701に、キーワードである「projectA」が入力された状態を示している。この状態で「実行」ボタン702が指示されると、PC103から管理サーバ101に、入力されたキーワード(「projectA」)と共に検索指示が発行される。
これは文書の中に「projectA」という文字列が存在する文書や、文書の名称が「projectA」という文字列を含んでいるものを検索することを意味する。「実行」ボタン702は、検索実行の開始を指示するものである。
次にステップS2に進み、ステップS1で受信したキーワードに対応するインデックスが集約されているかどうかを判定する。ここでは、例えば図11に示すテーブルを参照して、そのキーワードに対応する検索用インデックスが集約されているサーバを求めて、そのサーバに問合せる。即ち、ここではステップS1で取得したキーワードに基づいてインデックス管理部112に問い合わせ、そのキーワードに対応するインデックスが集約されているかどうかを調べる。
こうして、そのキーワードに対応するインデックスが集約されていると判定するとステップS3に進み、ヒット情報メモリ111に記憶されている、そのヒットテーブルのヒット情報を更新する。
このようにして、入力されたキーワードに対応する文書の検索用インデックスが集約されている文書サーバを特定できるため、特定された文書サーバに検索を依頼することで他の文書サーバに格納された文書の検索も行うことができ、検索効率が高まる。
図8は、第1の実施の形態に係るヒット情報メモリ111に記憶されているヒットテーブルの一例を示す図である。
図の例では、キーワード「projectA」「Tokyo」「camera」のそれぞれに対して、そのヒット回数、ヒットしたサーバ名(文書サーバの名称)、各サーバにおけるヒットした文書の件数(使用回数)、登録日、更新日が登録されている。使用回数は、対応するキーワードが使用されるたびに1ずつ増加される。これにより、そのキーワードが何回使用されたのかが判別できる。文書件数は、キーワードにより各文書サーバが保有する検索用インデックスを検索した結果、何件の文書がヒットしたかを示す情報である。
よって、ステップS3では、例えばキーワードが「projectA」であれば、そのキーワードに対応する文書を記憶している文書サーバごとに、そのキーワードの使用回数が+1される。
図9(A)(B)は、第1の実施の形態において、キーワード(「projectA」)に対応するインデックスが集約された集約インデックスが記憶されている集約インデックステーブルの一例を示す図である。この集約インデックステーブルは、例えば文書サーバ105の記憶部118に記憶されている。
図9(A)は、キーワード「projectA」に対応する検索用インデックスを有する文書が、各サーバに格納されている状態を示している。即ち、文書サーバ105には、キーワード「projectA」の文字列を含む文書として「文書1」「文書2」が格納されている。また文書サーバ106には、キーワード「projectA」の文字列を含む文書として「文書3」〜「文書6」からなる4つの文書が格納されている。更に、文書サーバ107には、キーワード「projectA」に対応する検索用インデックスを有する文書として「文書7」〜「文書9」からなる3つの文書が格納されている。
図9(B)は、そのキーワード「projectA」に対応する検索用インデックスをまとめて文書サーバ106に集約インデックスとして登録した状態を示している。
この例では、キーワード「projectA」に対応する検索用インデックスとして文書サーバ105〜107に含まれる「文書1」〜「文書9」のインデックスが集約して作成される。そして、該集約されたインデックスに対応する文書を最も多く格納している文書サーバ106に、作成した集約インデックスを登録している。
このとき図11に示すテーブルでは、キーワード「projectA」の集約インデックステーブルの格納先は「文書サーバ106」となる。
再び図4に戻り、ステップS3でヒットテーブルを更新した後ステップS4に進み、その集約されたインデックスを登録している文書サーバ名を調べる。上述の図9の例ではこれは文書サーバ106となる。そこでステップS4では、その文書サーバ106に対して、キーワードを送信して検索を依頼する。そしてステップS5で、文書サーバ106からの検索結果の応答を待ち、検索結果が送られてくるとステップS6に進み、その検索結果を取得する。これによりPC103のユーザは、その検索結果に基づいて、所望の文書がどの文書サーバに登録されているかを認識でき、該当する文書サーバから所望の文書を取得することができる。
図10は、文書の検索結果を表示する画面例を説明する図である。
ここでは、キーワード(「projectA」)により検索された文書名と、その文書が登録されている文書サーバ名、その文書サイズ、及び更新日時が列挙されている。ここで、上述した文書情報以外の情報(例えば文書作成者名など)を表示するようにしてもよい。
このようにして、検索対象のキーワードに対応するインデックスが、集約されたインデックスとして登録されている場合には、特定のサーバにアクセスするだけで済むため、検索処理の効率が向上する。
一方ステップS2で、集約インデックステーブルに登録されていない場合はステップS11(図5)に進み、そのキーワードがヒット情報メモリ111のヒットテーブルに登録されているかを判別する。登録されている場合はステップS12に進み、そのヒットテーブルを更新する。一方、登録されていない場合はステップS13に進み、そのヒットテーブルにそのキーワードを登録する。こうしてステップS12或はステップS13を実行するとステップS14に進み、そのキーワードで検索する検索対象の文書サーバを決定し、その文書サーバに対してキーワードを送信して検索を依頼する。そしてステップS16で、検索対象となった全ての文書サーバからの応答があったかどうかを調べ、あればステップS17に進み、それら文書サーバからの検索結果をマージする。これらステップS14〜ステップS17の処理は従来のマルチサーバ検索処理(図1(A))と同じである。
次にステップS18で、ステップS12の処理で更新されたヒットテーブルにより、設定記憶部110に記憶された設定情報(集約条件)を満たすキーワードがあるか判断する。ここでは設定記憶部110の設定情報(集約条件)には、例えば、更新の対象期間である一週間が経過したか、また、使用頻度の高い上位3位までのインデックスを選択するか等が含まれる。このような設定情報は、それぞれ単独でも、或は適宜組み合わせて集約インデックステーブルに登録するか否かが決定される。
例えば、図8の場合、現在日時が2005年11月7日とする。いま設定記憶部110の設定情報で、一週間ごとで上位3位のキーワードを対象とすると設定されているとする。この場合、過去一週間が対象となるため、2005年11月1日からが対象となる。よってこの場合は、キーワードが「projectA」のみが対象になる。
こうしてステップS18で、登録されるべきインデックスが発生しないと判定されると何もせずに処理を終了するが、発生したと判定されるとステップS19に進み、そのキーワードで各文書サーバに問合せる。これにより各文書サーバでは、検索部120により、そのキーワードを含む文書のインデックスを検索する。そして各文書サーバからの検索結果に基づいて、集約できるインデックス群を求める(ステップS20)。ここではインデックス管理部112により、図9(B)に示すような集約インデックステーブルを作成する。そしてステップS21に進み、その集約された検索用インデックスに対応する文書を最も多く含む文書サーバ(前述の例では文書サーバ106)に、その集約インデックステーブルを渡して処理を終了する。これにより図11に示すテーブルも更新されることは言うまでもない。
次に文書データを登録する場合の処理を説明する。
図6は、第1の実施の形態に係る文書検索システムに文書データを登録する処理を説明するフローチャートである。
まずステップS31で、登録する文書データを入力する。次にステップS32で、その文書に基づいて検索用のインデックスを抽出する。これはインデックス抽出部116により実行される。次にステップS33で、その抽出したインデックスが、前述の集約インデックスとして既に登録されているかどうかを判別する。登録されているときはステップS34に進み、その集約インデックスを保存している文書サーバ(前述の例では文書サーバ106)に、その文書の実体を登録するか否かを判定する。これは設定記憶部110に記憶されている設定情報に基づいて決定される。ここで、その集約インデックスを保存している文書サーバに文書の実体を登録するように設定されている場合はステップS35に進み、その文書サーバにその文書の実体を登録する。
これにより、検索で使用頻度の高いキーワードが登録されている文書サーバに文書が登録されるので、ユーザの利便性がより向上する。
一方、ステップS33で、その抽出したインデックスが、前述の集約インデックスとして登録されていない場合、或はステップS34で、集約インデックスを保存しているサーバ以外の文書サーバに登録するように設定されている場合はステップS36に進み、ユーザが指定する文書サーバに、その文書の実体を登録する。
なお、ここでは文書サーバに格納されている文書を検索する例について説明したが、この文書とはテキストデータであってもよいし、ビットマップデータのような画像データであってもよい。また、文字列の情報を含まない画像を検索する場合にも、本発明を適用させることが可能であることは言うまでもない。
[第2の実施の形態]
次に、本発明における第2の実施の形態について説明する。第1の実施の形態においては、複数の文書サーバ105〜106に格納された文書の検索用インデックスを、該当する文書を最も多く格納している文書サーバに集約しておいて、集約先の文書サーバに対してPC103から検索を依頼するようにしている。
これに対して、第2の実施の形態においては、検索元の装置(第1の実施の形態においてはPC103)に検索用インデックスを集約するようにしている。これにより、対応する検索用インデックスが既に集約されているキーワードが検索条件として指定された場合には、自装置内に集約されている検索用インデックスを参照することにより、各文書サーバに格納された文書の検索を行うことができる。即ち、ネットワークを介して検索を依頼する必要がないので、より一層検索の効率を高めることができる。
図12は、本発明における第2の実施の形態に係る文書検索システムの構成の特徴を説明する図である。
第2の実施の形態における文書検索システムは、第1の実施の形態で説明した文書サーバ105〜107と同様にして文書及び文書の検索用インデックスを記憶することが可能な文書サーバ1201〜1204を備えている。また、文書サーバ1201は、PC103と同様に、ユーザから検索指示とともに検索条件としてキーワードの入力を受け付けて、文書サーバ1202〜1204に対して検索を依頼する機能を備えている。
なお、第2の実施の形態における文書検索システムには、文書サーバ1201〜1204に加えて、更に他の文書サーバを備えるようにしてもよい。
文書サーバ1201のユーザは、検索条件としてキーワードを入力することにより、文書サーバ1201又は文書サーバ1202〜1204のいずれかに格納されている文書を検索することができる。ユーザからキーワードの入力を受け付けた文書サーバ1201は、入力されたキーワードを文書サーバ1202〜1204に対して送信して検索を依頼する。キーワードを受信した文書サーバ1202〜1204は、それぞれ自機サーバに記憶している検索用インデックスを参照して、受信したキーワードを含む文書を検索し、その検索の結果を検索依頼元の文書サーバ1201に通知する。
このとき、文書サーバ1201自体にも文書及び文書の検索用インデックスが格納されているので、文書サーバ1201は自機内に記憶した検索用インデックスを参照することにより、自機内に記憶した文書の検索も実行する。
ここで、文書サーバ1201が文書サーバ1201〜1204に格納された文書の検索を行う場合には、文書サーバ1202〜1204に対して検索を依頼して検索結果を受け取るよりも、文書サーバ1201内の文書を検索する方が早く処理することができる。即ち、文書サーバ1201は、ネットワークを介して文書サーバ1202〜1204に対して検索を依頼する場合は,全ての文書サーバからの検索結果を受け取るまで待たなければならない。
これに対して、文書サーバ1201が自機内の文書を検索する場合にはネットワークを介した情報の送受信を行う必要がないので、その分処理を早くすることができる。そこで、第2の実施の形態においては、特定の条件を満たす文書の検索用インデックスを、予めユーザにより検索のための操作が行われる可能性の高い文書サーバに集約させておくようにする。
例えば、図12に示す例では、文書サーバ1203に格納された文書FのインデックスF、及び文書サーバ1204に格納された文書HのインデックスHの複製を、文書サーバ1201にも作成しておく。これにより、次にユーザが文書サーバ1201において検索を指示した場合に、文書F及び文書Hについては検索用インデックスが文書サーバ1201内にて記憶されているので、より早く検索結果が得られるようになる。
図13は、第2の実施の形態における文書検索システムの構成を示す模式図である。このシステムは、インターネット1300を介して接続された複数の文書サーバ1201〜1204を有している。なお、各サーバ間の接続としてインターネット1300を用いているが、本発明は特にこれに限らず、例えばLANなどの他のネットワークシステムを用いてもかまわない。
文書サーバ1201〜1204は、それぞれ文書の実体および文書インデックスを格納し、文書の登録、閲覧、取得、更新、および検索などの機能を提供している。ユーザは文書サーバ1201〜1204が提供する検索機能を用いて本システムに登録されている文書の実体を検索する。文書サーバ1201〜1204はそれぞれ、キーワードが指定されて検索の要求を受け取ると、管理している検索用インデックスに対応するかを判断し、対応している場合、その情報をユーザに返す。また文書の登録時には、その文書を登録するといった機能を提供する。
次に、文書サーバ1201の構成を説明する。なお、文書サーバ1202〜1204の構成は文書サーバ1201と同様であってもよいし、第1の実施の形態における文書サーバ105〜107と同様であっても構わない。
表示部1320は文書サーバ1201に備えられているLCDなどの表示装置である。検索条件入力部1321は、図7で示したような画面を表示部1320に表示することで、ユーザからの検索用キーワードを受け付ける。検索部1322は、ユーザから検索条件としてキーワードが指定されて検索の要求を受け取ると、自機内で記憶している検索用インデックスを参照することにより検索を行ない、その結果をユーザに返す。なお、他の文書サーバからの検索を依頼された場合にも同様に検索を行ない、その結果を検索依頼元の文書サーバに返す。
検索結果は表示部1320に表示されることでユーザに通知される。インデックス管理部1323は、文書サーバ内に格納される検索用インデックス全てを管理する。なお文書の実体および検索用インデックスは、記憶部1311に格納されている。また文書サーバ1201に格納されている検索用インデックスは、自機に格納される文書の実体に対応する検索用インデックスと、他の文書サーバに文書の実体が記憶されている文書の検索用インデックスとが存在する。
検索条件転送部1324は、検索条件入力部1321で入力された検索用キーワードを他の文書サーバに転送する。一方、検索条件受信部1325は他の文書サーバから転送された検索用キーワードを受信する。検索結果転送部1326は検索部1322で検索された検索結果を他の文書サーバに転送する。一方、検索結果受信部1327は他の文書サーバから転送される検索結果を受信し、表示部1320へ表示する。検索統計情報メモリ1328は、検索条件入力部1321で入力されたキーワードに関する統計情報などを記憶している。
集約条件生成部1329は、検索統計情報メモリ1328に記憶された統計情報に基づいて、文書サーバ1201に集約する条件を抽出する。ここで、集約条件とは各文書の検索用インデックスに含まれるキーワードおよび集約先となる文書サーバなどを示す情報により構成されている。集約条件転送部1330は、集約条件生成部1329により生成された集約条件を他の文書サーバに転送する。一方、集約条件受信部1331は他の文書サーバから転送される集約条件を受信する。
集約条件記憶部1332は、集約条件生成部1329で生成された集約条件および、他の文書サーバから受信した集約条件を記憶部1311に記憶しておく。集約条件判定部1333は、集約条件記憶部1332に記憶された集約条件に基づいて、インデックス管理部1323で管理される検索用インデックスの内、前記集約条件に該当するインデックスを判定する。
インデックス送信部1334は、集約条件判定部1333で集約すると判定された検索用インデックスを、指定された文書サーバに送信する。一方インデックス受信部1335は他の文書サーバから転送されるインデックスを受信し、記憶部1311に記憶する。
文書登録部1336は、文書サーバ1201に新たに文書を登録する。なお登録する文書の実体(および対応するインデックス)は、不図示の外部装置よりネットワーク接続部1310を経由して入力されるものとする。このとき文書登録部1336は、登録しようとする文書が集約条件判定部1333により集約すると判定されたならば、インデックス送信部1334により、この文書に対応する検索用インデックスを、指定される文書サーバに送信する。
文書サーバ1201〜1204のハードウェア構成は、図3に示す管理サーバ101及び文書サーバ105のハードウェア構成と同様であるものとする。
図14及び図19は、第2の実施の形態に係る文書サーバにおける検索処理を説明するフローチャートである。この処理を実行するプログラムは、ROM203、或はRAM202に記憶されており、CPU201の制御の下に実行される。
図14は、ユーザが検索操作する文書サーバ(ここでは文書サーバ1201)の処理を表す。まずステップS41で、ユーザによる入力される検索指示とその検索用キーワードとを受信する。検索用キーワードの入力画面例は図7で説明したものと同様である。次にステップS42に進み、検索統計情報メモリ1328に記憶された情報に、ステップS1401で入力されたキーワードを加えて更新する。
ここで検索統計情報メモリ1328は、図15に示すようなテーブルで表される。図15では検索に使用されたキーワードに対して、その検索頻度がカウントされている。即ち、所定のキーワードが検索条件として指定される度に検索回数を1つ増やすことにより、検索回数のカウントを行う。
次にステップS43に進み、検索部1322により、ステップS41で受信したキーワードの文字列を含む検索用インデックスが自機に登録されているかどうかを判定する。ここでは、図16に示すようなテーブルを参照して、ステップS41で受信したキーワードの文字列を含む検索用インデックスを検出する。図16に示すテーブルはインデックス管理部1323が管理し、検索用インデックスの追加・削除などに応じて随時テーブルの情報を更新する。
図16に示す例では、インデックス名と検索用キーワードおよび実体文書の所在が関連づけて記憶されている。なお実体文書の所在を見ると、検索を実施している文書サーバ(ここでは文書サーバ1201)以外が示されている検索用インデックスも存在する。これは他の文書サーバに実体が登録された文書の検索用インデックスがコピーされていることを表す。
次にステップS44に進み、検索条件転送部1324により他の文書サーバ(本例では文書サーバ1202〜1204)へ検索条件を転送する。図17はステップS44で転送される検索条件の一例を表す模式図である。図17では検索用キーワードと検索結果を返す文書サーバの情報が転送される。
次にステップS45に進み、検索結果受信部1327により、他の文書サーバからの検索結果を受信する。ステップS44で検索条件を転送した全ての文書サーバからの検索結果を受信すると一連の処理を終了する。なお検索結果は、他の文書サーバから受信したものを含め、検索にヒットしたものがあれば、全ての検索結果が得られる前に表示部1320に随時表示していくものとする。
図18は、ユーザが検索操作する文書サーバ(文書サーバ1201)における検索結果の表示例を示す図である。
図18では、検索用キーワードとして「みかん」が指定されたときの検索結果を表している。文書サーバ1201に記憶されるインデックスが図16で示した例であったとすると、インデックスAおよびインデックスCがキーワードとして「みかん」を含むため自機検索でヒットする。1801は文書サーバ1201での自機検索でヒットした検索結果を示しており、比較的高速に結果が表示される。なお、1802は他の文書サーバで検索ヒットした検索結果が表示されている。この場合、インターネット1300を介して他の文書サーバから検索結果を受信するため、検索結果1801に比較して,その結果が表示されるまでには時間を要することが多い。
図19は,図14のステップS44において、図17に示したような検索条件を転送された文書サーバ(本例では文書サーバ1202〜1204)の処理動作を表すフローチャートである。
ステップS51で検索条件受信部1325により、検索条件を受信する。次にステップS52に進み、検索部1322により、ステップS51で受信したキーワードの文字列を含む検索用インデックスが自機に登録されているかどうかを判定する。ここでも検索の方式についてはステップS43と同じく図16に示すようなテーブルを参照して、ステップS51で受信したキーワードを検索用キーワードとして保持するインデックスを検出するものとする。次にステップS53に進み、ステップS52で検索した結果を、検索結果転送部1326により指定された文書サーバに転送する。このとき検索ヒット件数が0であっても検索結果を転送する。
次に文書サーバ1201を例にインデックスの集約処理について説明する。
図20、図22及び図23は、文書サーバ1201におけるインデックス集約処理動作を表すフローチャートである。
まずステップS61で、集約条件生成部1329は、統計情報メモリ1328を参照し、自機における検索条件として指定された回数が多いキーワードを集約条件として抽出する。ここで集約条件として抽出されたキーワードを含む検索用インデックスを他の文書サーバ(文書サーバ1202〜1204)から取得して複製を作成することにより、文書サーバ1201に集約される。
尚、こうして生成された集約条件は、集約条件記憶部1332に記憶される。またこの集約条件が生成されるタイミングは、定期的なタイミングでも、ユーザの操作をトリガとする任意のタイミングでもどちらでもかまわない。例えばステップS42において、統計情報メモリ1328の統計情報が更新されたタイミング等のタイミングをトリガとしてもよい。
次にステップS62に進み、既に集約条件記憶部1332に記憶されていた集約条件が更新されたかどうかを判定する。集約条件が更新されたならばステップS63に進み、集約条件転送部1330により、その集約条件を他の文書サーバ(ここでは文書サーバ1202〜1204)へ転送する。
図21は、図20のステップS63で転送される集約条件の一例を示す模式図である。
この集約条件には、ステップS61で抽出されたキーワードと、その集約先となる文書サーバを表す情報が含まれている。このとき文書サーバ1201は一連の処理を一旦中断し、他の文書サーバから検索用インデックスが送信されてくるまで待機する。
図22は、図20のステップS63で転送された集約条件を受信した文書サーバの処理動作を表すフローチャートである。
まずステップS71で、集約条件受信部1331により集約条件を受信する。次にステップS72に進み、ステップS71で受信した集約条件を、集約条件記憶部1332に記憶する。次にステップS73に進み、集約条件判定部1333によって、ステップS71で受信した集約条件に対応するインデックスが自機に登録されているかどうかを判定する。ここでも判定の方式についてはステップS43と同じく図16に示すようなテーブルを参照して、ステップS71で受信したキーワードの文字列を含む検索用インデックスが登録されているかを判定するものとする。
次にステップS74に進み、ステップS73で集約の対象となる検索用インデックスが検出されるとステップS75に進む。ステップS75では、インデックス送信部1334により、ステップS73で検出された検索用インデックスを、指定された文書サーバへ送信する。このとき自機の検索用インデックスはそのまま残しておき、インデックス転送先の文書サーバには検索用インデックスの複製を転送することで検索用インデックスがコピーされる。尚、ステップS73で複数の検索用インデックスが検出された場合は、それら複数のインデックスの全てを指定された文書サーバへ転送する。
図23は、他の文書サーバよりインデックスが転送されてきた場合の文書サーバの動作を表すフローチャートである。
まずステップS81で、インデックス受信部1335により、その転送されたインデックスを受信する。次にステップS82に進み、ステップS81で受信したインデックスをインデックス管理部1323により記憶部1311に記憶し、一連の処理を終了する。
以上のような処理により、検索頻度の高いキーワードを保持する文書のインデックスが、文書サーバに集約される。例えば、文書サーバ1201に記憶されているインデックスが図16で示した状態であったとすると、インデックスC,Dは、それぞれ文書サーバ1203,1204からコピーされて記憶されたインデックスである。
次に文書サーバ1201を例に、文書の登録処理について説明する。
図24は、文書サーバにおける文書登録処理動作を表すフローチャートである。ここで前述したとおり、登録する文書の実体(および対応する検索用インデックス)は、不図示の外部装置よりネットワーク接続部1310を経由して入力されるものとする。なお、登録される文書の実体に対応する検索用インデックスは、第1の実施の形態で説明したように文書サーバ内で抽出(ステップS31)してもよい。
まずステップS91で、文書登録部1336により、入力された文書の実体および対応する検索用インデックスを記憶部1311に記憶する。次にステップS92に進み、集約条件判定部1333により、ステップS91で記憶した検索用インデックスが、集約条件記憶部1332に記憶した集約条件に該当するかどうかを判定する。ステップS91で、記憶した検索用インデックスが集約条件に該当する場合はステップS93に進む。ステップS93では、インデックス送信部1334により、該当する検索用インデックスを集約条件により指定された文書サーバへ送信する。ここでステップS93において、複数の集約条件に該当する場合には、全ての集約条件で指定された集約先文書サーバへ検索用インデックスを転送する。
文書登録の一例を、図25を用いて説明する。
図25(A)は、登録する文書に対応するインデックスを表和した図である。図25(B)は、文書を登録する文書サーバ(ここでは文書サーバ1201)において、集約条件記憶部1332に記憶される集約条件を表す。図25(A)に示すように、登録する文書は「パンダ」、「ぞう」といったキーワードを含んでいる。そして図25(B)によれば、これらキーワードは文書サーバ1203,1204に集約されているため、この検索用インデックスは、これら文書サーバ1203および1204に転送される。
以上の処理により、新たに登録された文書に対してもインデックスを集約することが可能となる。尚、図24のステップS93で転送された検索用インデックスを受信した文書サーバは、その検索用インデックスを自機にコピーするが、この処理については図23で説明した処理と同様である。
このようにして、検索条件として指定される頻度の高いキーワードに対応する検索用インデックスを予めユーザによる検索のための操作が行われる文書サーバに集約しておく。これにより、集約しておいた検索用インデックスを参照する検索は自機内で行えるため、高速に検索することが可能となる。
[第3の実施の形態]
次に、本発明における第3の実施の形態について説明する。第2の実施の形態では、検索頻度の高いキーワードを持つインデックスを予め検索が実行されるであろう文書サーバにコピーした。これに対し第3の実施の形態では、例えば文書表示装置や印刷装置などを文書サーバとして用いることを想定し、登録された文書の特性に基づいて検索用インデックスを特定の文書サーバにコピーする。
検索された文書は、文書サーバにおいて表示或は印刷されるものとする。第3の実施の形態でも、第2の実施の形態と同様に、ユーザは文書サーバを操作して目的とする文書を検索する。検索は自機内での検索を行うとともに他の文書サーバに対して検索条件を送信して検索を依頼する。ユーザが操作する文書サーバに所望の文書が登録されていた場合は、自機内での検索でヒットするので高速に検索することが可能である。
図26は、本発明の第3の実施の形態の文書検索システムを説明するための概念図である。図26では例として、各文書サーバは画像表示装置であるものとする。また文書サーバの画像表示装置能力として、カラー画像を表示できる文書サーバと、モノクロ画像しか表示できない文書サーバが混在するものとする。
この文書検索システムにおいて、文書としてカラー画像とモノクロ画像が登録された場合に、カラー画像はカラー表示可能な文書サーバから検索されて表示されると想定される。そのため、カラー文書に対応する検索用インデックスを予めカラー表示可能な文書サーバに集約(コピー)しておけば、集約先のカラー表示可能な文書サーバにおいてカラー文書を高速に検索することが可能となる。
図26では、文書サーバ2601は、カラー表示可能な文書サーバであり、文書サーバ2602〜2604はモノクロ表示しかできない文書サーバである。図26において、カラー文書に対応する検索用インデックスF,Hが文書サーバ2601にコピーされて記憶されている。即ち、カラー画像に対応するインデックスが文書サーバ2601に集約されている。これにより文書サーバ2601においてカラー画像を検索する場合に、自機内での検索でヒットするため高速に検索することが可能となる。
このように第3の実施の形態では、登録される文書の特性により、検索用インデックスの集約先文書サーバが決定される。なお第3の実施の形態では、文書サーバが画像表示装置の場合を例に説明するが、画像表示装置に限定するものではない。例えば文書サーバが印刷装置である場合、ページ数が多いデータの検索用インデックスは、印刷スピードが高速な文書サーバや消耗品残量が多い文書サーバにコピーする形態なども考えられる。また例えばグラフィック文書の検索用インデックスは、印刷解像度の高い文書サーバにコピーする形態なども考えられる。
図27は、第3の実施の形態における文書検索システムの構成を表す模式図である。第2の実施の形態で説明した構成に加えて、文書属性判定部2701、文書サーバ能力情報記憶部2702が追加されている。その他の構成は図13と同様である。文書属性判定部2701は、登録された文書がカラー画像かモノクロ画像かを判定する。文書サーバ能力情報記憶部2702は、各文書サーバの表示部1320の能力情報を記憶する。第3の実施の形態では、文書の登録処理以外の動作は上述した第2の実施の形態と同様のためその説明を省く。
図28は、文書サーバにおける文書登録処理動作を表すフローチャートである。第2の実施の形態と同様に、登録する文書の実体(および対応するインデックス)は、不図示の外部装置よりネットワーク接続部1310を経由して入力されるものとする。なお、登録される文書の実体に対応するインデックスは第1の実施の形態で説明したように文書サーバ内で抽出(ステップS31)してもよい。
まずステップS2801で、文書登録部1336により、入力された文書の実体および対応する検索用インデックスを記憶部1311に記憶する。次にステップS2802に進み、集約条件判定部1333により、ステップS2801で記憶した検索用インデックスが、集約条件記憶部1332で記憶した集約条件に該当するかどうかを判定する。
ステップS2801で記憶したインデックスが集約条件に該当する場合はステップS2803に進み、インデックス送信部1334により、該当する検索用インデックスを集約条件で指定された文書サーバへ送信する。このステップS2803では、複数の集約条件に該当する場合には、全ての集約条件で指定された集約先文書サーバへそれぞれ検索用インデックスを転送する。次にステップS2804に進み、文書属性判定部2701により、登録する文書の文書属性を判定する。ここでは文書の色形式(カラーかモノクロか)と画像サイズを検知するものとする。
次にステップS2805に進み、ステップS2804で判定した文書の色形式がカラーであるかどうかを判定する。ここで色形式がカラーであった場合には、次にステップS2806に進む。ステップS2806では、文書サーバ能力情報記憶部2702を参照し、カラー表示可能でかつ、ステップS2804で判定した文書の画像サイズを表示可能な文書サーバを判定する。ここで表示可能な文書サーバが存在する場合は、次にステップS2807に進み、インデックス送信部1334により、ステップS2806で表示可能と判定した文書サーバに対してインデックスを送信する。
文書登録の一例を図29を用いて説明する。
図29(A)は、登録する文書に対応する文書属性の一例を示す図である。ここでは文書の色形式と画像サイズが表されている。
図29(B)は、文書サーバ能力情報記憶部2702が記憶する各文書サーバの能力を表すテーブルの一例を示す図である。図29(A)において、登録する文書は色形式(カラー)と画像サイズ(1024×768)が得られる。そして図29(B)より、この文書を表示可能な文書サーバは、文書サーバ2603と判定される。こうして、この文書の検索用インデックスは、文書サーバ2603へ転送される。ここで文書サーバ2601および2604はカラー表示可能であるが、文書を表示するためのサイズが足りないため対象から外れる。
以上の処理により、新たに登録された文書に対して、文書の色形式がカラーで、かつ画像を表示可能な表示部を持つ文書サーバに、その検索用インデックスをコピー(登録)しておくことができる。
このようにして、登録される文書の特性に基づいて、予め検索されると予想される文書サーバに検索用インデックスを集約させることが可能となる。これにより文書サーバに応じて文書を高速に検索することが可能となる。
(他の実施形態)
以上、本発明の実施形態について詳述したが、本発明は、複数の機器から構成されるシステムに適用しても良いし、また一つの機器からなる装置に適用しても良い。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムを読み出して実行することによっても達成され得る。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明のクレームでは、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、様々なものが使用できる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などである。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページからハードディスク等の記録媒体にダウンロードすることによっても供給できる。その場合、ダウンロードされるのは、本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布する形態としても良い。その場合、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムが実行可能な形式でコンピュータにインストールされるようにする。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される形態以外の形態でも実現可能である。例えば、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
更に、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれるようにしてもよい。この場合、その後で、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。
以上説明したように本実施の形態によれば、マルチサーバによる検索システムにおいて、各サーバが全ての検索用インデックスを共有することがないため、検索用インデックスのデータ量の増大を抑えることができる。
また、例えばヒット率の高いインデックス、或は使用頻度の高いインデックス等が集約され、検索が指示されたキーワードがそのインデックスに対応しているとき、その集約インデックスの中で検索が行われるため、検索効率が向上するという効果がある。
本発明の実施の形態に係る文書検索システムの構成の特徴を説明する図である。 本発明の第1の実施の形態に係る文書検索システムの構成を説明するブロック図である。 本発明の実施の形態に係る管理サーバと文書サーバの具体的なハードウェア構成を説明するブロック図である。 本発明の実施の形態に係る管理サーバにおける検索処理を説明するフローチャートである。 本発明の実施の形態に係る文書検索システムに新たな文書データを登録する処理を説明するフローチャートである。 本発明の実施の形態に係るPCにおけるキーワードの入力画面例を示す図である。 本発明の実施の形態に係るヒット情報メモリに記憶されているヒットテーブルの一例を示す図である。 本発明の実施の形態において、集約された検索用インデックスが記憶されている集約インデックステーブルの一例を示す図である。 本発明の実施の形態に係るPCにおける文書の検索結果を表示する画面例を説明する図である。 本発明の実施の形態において、対応する検索用インデックスが集約されたキーワードを管理するテーブルのイメージ図である。 本発明における第2の実施の形態に係る文書検索システムの構成の特徴を説明する図である。 第2の実施の形態における文書検索システムの構成を示す模式図である。 第2の実施の形態に係る文書サーバにおける検索処理を説明するフローチャートである。 本発明の第2の実施の形態に係る統計情報テーブルの一例を示す図である。 本発明の第2の実施の形態に係る文書サーバが管理している検索用インデックステーブルの一例を示す図である。 本発明の第2の実施の形態に係る文書サーバに送信される検索条件の一例を示す図である。 ユーザが検索操作する文書サーバにおける検索結果の表示例を示す図である。 第2の実施の形態に係る文書サーバにおける検索処理を説明するフローチャートである。 第2の実施の形態に係る文書サーバにおけるインデックス集約処理動作を表すフローチャートである。の形態に係る文書サーバにおける集約条件の生成処理を説明するフローチャートである。 図20のステップS63で転送される集約条件の一例を示す模式図である。 図20のステップS63で転送された集約条件を受信した文書サーバの処理動作を表すフローチャートである。 他の文書サーバよりインデックスが転送されてきた場合の文書サーバの動作を表すフローチャートである。 文書サーバにおける文書登録処理動作を表すフローチャートである。 本発明の実施の形態に係る文書サーバにおける文書登録処理を説明するための図である。 本発明の第3の実施の形態の文書検索システムを説明するための概念図である。 第3の実施の形態における文書検索システムの構成を表す模式図である。 文書サーバにおける文書登録処理動作を表すフローチャートである。 本発明の第3の実施の形態に係る文書属性と文書サーバの能力情報を説明するための図である。

Claims (13)

  1. ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索システムであって、
    前記複数の文書管理サーバのそれぞれに備えられ、文書データ及び当該文書データに対応するインデックス情報を記憶する記憶手段と、
    前記複数の文書管理サーバの前記記憶手段に記憶されたインデックス情報のうち、第1の検索条件を満たす文書データに対応するインデックス情報を、当該記憶手段から読み出して集約する集約手段と、
    ユーザから第2の検索条件に基づく文書データの検索の実行が指示された場合に、前記第1の検索条件及び前記第2の検索条件が一致するか否かを判定する判定手段と、
    前記判定手段による判定の結果、前記第1の検索条件及び前記第2の検索条件が一致する場合に、前記集約手段により集約されたインデックス情報を参照することにより前記文書データの検索を実行する検索手段と、を有し、
    前記集約手段は、前記複数の文書管理サーバのうち、前記第1の検索条件を満たす文書データが最も多く登録されている文書管理サーバに、当該第1の検索条件を満たす文書データに対応するインデックス情報を集約することを特徴とする文書検索システム。
  2. 前記第1の検索条件、及び、前記集約手段により前記インデックス情報が集約された集約先の文書管理サーバを示す情報を含む集約情報を管理する集約情報管理手段を更に有し、
    前記判定手段による判定の結果、前記第1の検索条件及び前記第2の検索条件が一致する場合に、前記検索手段は、前記集約情報管理手段により管理された情報に基づいて、前記インデックス情報が集約された集約先の文書管理サーバにアクセスし、検索を実行することを特徴とする請求項1に記載の文書検索システム。
  3. ユーザにより指定された検索条件の履歴情報を管理する履歴情報管理手段と、
    前記履歴情報管理手段により管理された履歴情報に基づいて、予め定められた集約条件を満たす検索条件が存在する場合に、当該検索条件を満たす文書データに対応するインデックス情報を集約するよう前記集約手段を制御する制御手段と、
    を更に備えることを特徴とする請求項1又は2に記載の文書検索システム。
  4. 前記予め定められた集約条件とは、ユーザにより同一の検索条件が予め定められた回数以上指定されたことを条件とするものであることを特徴とする請求項3に記載の文書検索システム。
  5. 前記複数の文書管理サーバのいずれかに新たな文書データ、及び当該新たな文書データに対応するインデックス情報を登録する登録手段を更に有し、
    前記登録手段は、前記新たな文書データが前記第1の検索条件を満たす場合には、前記集約手段により前記インデックス情報が集約された集約先の文書管理サーバに、前記新たな文書データに対応するインデックス情報を登録することを特徴とする請求項に記載の文書検索システム。
  6. ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索装置であって、
    前記文書データを検索するための検索条件を入力する入力手段と、
    前記入力手段により入力された検索条件の履歴情報を管理する履歴情報管理手段と、
    前記履歴情報管理手段により管理された前記履歴情報に基づいて、予め定められた集約条件を満たす検索条件が存在するか否かを判定する判定手段と、
    前記判定手段が前記予め定められた集約条件を満たす検索条件が存在すると判定した場合に、当該検索条件を満たす文書データに対応するインデックス情報を、前記文書検索装置に集約する集約手段と、
    前記文書データの文書属性を判別する判別手段とを有し、
    前記集約手段は、前記判定手段が前記予め定められた集約条件を満たす検索条件が存在すると判定した場合に、当該検索条件を満たす文書データのうち、前記判別手段による判別の結果に基づいて選択された文書データに対応するインデックス情報を集約することを特徴とする文書検索装置。
  7. 前記予め定められた集約条件とは、前記入力手段により同一の検索条件が予め定められた回数以上指定されたことを条件とするものであることを特徴とする請求項に記載の文書検索装置。
  8. 前記文書検索装置の処理能力に関する能力情報を管理する能力情報管理手段を更に備え、
    前記集約手段は、前記判定手段が前記予め定められた集約条件を満たす検索条件が存在すると判定した場合に、当該検索条件を満たす文書データのうち、前記判別手段による判別の結果及び前記能力情報管理手段により管理された能力情報に基づいて選択された文書データに対応するインデックス情報を集約することを特徴とする請求項に記載の文書検索装置。
  9. 前記文書検索装置は、少なくとも、文書データを表示する表示装置または文書データを印刷する印刷装置のいずれかを備え、
    前記能力情報管理手段は、少なくとも前記表示装置に関する表示処理能力を示す能力情報または前記印刷装置に関する印刷処理能力を示す能力情報のいずれかを管理することを特徴とする請求項に記載の文書検索装置。
  10. ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索方法であって、
    前記複数の文書管理サーバのそれぞれにおいて、文書データ及び当該文書データに対応するインデックス情報を記憶装置に記憶する記憶工程と、
    前記記憶工程で記憶されたインデックス情報のうち、第1の検索条件を満たす文書データに対応するインデックス情報を、前記記憶装置から読み出して集約する集約工程と、
    ユーザから第2の検索条件に基づく文書データの検索の実行が指示された場合に、前記第1の検索条件及び前記第2の検索条件が一致するか否かを判定する判定工程と、
    前記判定工程における判定の結果、前記第1の検索条件及び前記第2の検索条件が一致する場合に、前記集約工程で集約されたインデックス情報を参照することにより前記文書データの検索を実行する検索工程と、を有し、
    前記集約工程は、前記複数の文書管理サーバのうち、前記第1の検索条件を満たす文書データが最も多く登録されている文書管理サーバに、当該第1の検索条件を満たす文書データに対応するインデックス情報を集約することを特徴とする文書検索方法。
  11. ネットワークを介して接続された複数の文書管理サーバから、当該文書管理サーバに登録された文書データを検索する文書検索装置における文書検索方法であって、
    前記文書データを検索するための検索条件を入力する入力工程と、
    前記入力工程で入力された検索条件の履歴情報を管理する履歴情報管理工程と、
    前記履歴情報管理工程で管理された前記履歴情報に基づいて、予め定められた集約条件を満たす検索条件が存在するか否かを判定する判定工程と、
    前記判定工程において前記予め定められた集約条件を満たす検索条件が存在すると判定された場合に、当該検索条件を満たす文書データに対応するインデックス情報を、前記文書検索装置に集約する集約工程と、
    前記文書データの文書属性を判別する判別工程とを有し、
    前記集約工程は、前記判定工程が前記予め定められた集約条件を満たす検索条件が存在すると判定した場合に、当該検索条件を満たす文書データのうち、前記判別工程による判別の結果に基づいて選択された文書データに対応するインデックス情報を集約することを特徴とする文書検索方法。
  12. 請求項10又は11に記載の文書検索方法をコンピュータに実行させるためのプログラム。
  13. 請求項10又は11に記載の文書検索方法をコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2007032681A 2006-03-14 2007-02-13 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体 Expired - Fee Related JP5105894B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007032681A JP5105894B2 (ja) 2006-03-14 2007-02-13 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体
US11/682,393 US8078584B2 (en) 2006-03-14 2007-03-06 Document retrieving system, document retrieving apparatus, method, program and storage medium therefor

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006069902 2006-03-14
JP2006069902 2006-03-14
JP2007032681A JP5105894B2 (ja) 2006-03-14 2007-02-13 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体

Publications (3)

Publication Number Publication Date
JP2007280361A JP2007280361A (ja) 2007-10-25
JP2007280361A5 JP2007280361A5 (ja) 2010-04-02
JP5105894B2 true JP5105894B2 (ja) 2012-12-26

Family

ID=38519136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007032681A Expired - Fee Related JP5105894B2 (ja) 2006-03-14 2007-02-13 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体

Country Status (2)

Country Link
US (1) US8078584B2 (ja)
JP (1) JP5105894B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4930153B2 (ja) * 2007-03-30 2012-05-16 富士通株式会社 文書検索システム、文書番号部分列取得装置、および文書検索方法
JP5371656B2 (ja) * 2009-09-24 2013-12-18 株式会社日立ソリューションズ ファイル検索システム
CN102831127B (zh) * 2011-06-17 2015-04-22 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
US8930691B2 (en) * 2011-08-16 2015-01-06 Microsoft Corporation Dynamic symmetric searchable encryption
JP5863615B2 (ja) * 2012-09-28 2016-02-16 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー 画像表示システム及び画像表示装置
KR101494963B1 (ko) 2013-06-24 2015-02-23 주식회사 포스코아이씨티 통합적인 자원 관리를 위한 정보 관리 시스템 및 방법
US9715515B2 (en) * 2014-01-31 2017-07-25 Microsoft Technology Licensing, Llc External data access with split index
CN106445677A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 负载均衡方法及设备
CN111399756B (zh) * 2019-09-29 2024-01-02 杭州海康威视系统技术有限公司 一种数据存储方法、数据下载方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4153596B2 (ja) * 1998-08-28 2008-09-24 株式会社東芝 コンテンツ連携システムおよびコンテンツ連携方法
JP2000259482A (ja) * 1999-03-10 2000-09-22 Toshiba Corp 電子ファイリングシステム、及び同システムに於けるファイル管理制御方法、同方法のプログラム情報が格納された記憶媒体
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6466931B1 (en) * 1999-07-30 2002-10-15 International Business Machines Corporation Method and system for transparently caching and reusing query execution plans efficiently
JP4119057B2 (ja) * 1999-08-18 2008-07-16 株式会社東芝 検索システム、検索装置およびプログラムを記録した記録媒体
JP2001067369A (ja) * 1999-08-27 2001-03-16 Nec Corp 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
JP2001236362A (ja) * 2000-02-25 2001-08-31 Hitachi Ltd 情報検索出力装置及び方法
US20010047353A1 (en) * 2000-03-30 2001-11-29 Iqbal Talib Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
JP2002169805A (ja) * 2000-11-30 2002-06-14 Matsushita Electric Ind Co Ltd クライアント・サーバ型文書検索装置
JP2004342042A (ja) 2003-05-19 2004-12-02 Will Being:Kk 分散環境における通信方法及び通信システム
US7685104B2 (en) * 2004-01-08 2010-03-23 International Business Machines Corporation Dynamic bitmap processing, identification and reusability
JP2005241952A (ja) * 2004-02-26 2005-09-08 Gap Kk 知識処理装置、知識処理方法および知識処理プログラム
US7672928B2 (en) * 2004-09-30 2010-03-02 Microsoft Corporation Query forced indexing

Also Published As

Publication number Publication date
US8078584B2 (en) 2011-12-13
JP2007280361A (ja) 2007-10-25
US20070219965A1 (en) 2007-09-20

Similar Documents

Publication Publication Date Title
JP5105894B2 (ja) 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体
JP4086360B2 (ja) 印刷制御システム
JP4405691B2 (ja) 印刷システム
JP5173594B2 (ja) 管理装置、画像形成装置及びそれらの処理方法
JP4251645B2 (ja) 情報処理方法及び装置
JP2006074601A (ja) 文書管理システム及びその方法
JP2004078554A (ja) 印刷システム、印刷装置、サーバ装置、プログラム、及び記録媒体
US20070206215A1 (en) Print Control System, Print Attribute Information Management Server, Print Controller, Print Control Method, Recording Medium, And Data Signal
US7831583B2 (en) Document retrieval system, document retrieval apparatus, document retrieval method, program, and storage medium
JP2012174042A (ja) 文書管理装置および文書管理装置の制御方法およびプログラム
JP3997013B2 (ja) 情報処理装置及び情報処理方法
JP2000089923A (ja) 印刷制御装置及び印刷制御方法
JP4208528B2 (ja) 情報処理装置、機能拡張プログラム、それをコンピュータ読み取り可能に記憶した記憶媒体、情報処理方法
JP2010061460A (ja) ワークフロー管理システム、ワークフロー管理方法、及びワークフロー管理プログラム
JP5063465B2 (ja) 文書管理装置、文書管理方法、情報処理プログラム及び記録媒体
JP2004110525A (ja) 電子バインダシステム、該システムの管理用プログラム及び記録媒体
JP4912288B2 (ja) 管理装置及び情報処理方法
JP2010049458A (ja) タスク管理システム、タスク管理装置、及びタスク検索方法
JP4081651B2 (ja) 記録装置
JP2004185278A (ja) 文書管理システム、クライアントコンピュータ及び文書管理プログラム
JP2004326817A (ja) 印刷装置,印刷方法,及び、印刷システム
JP2004013311A (ja) 情報処理装置、情報処理サーバ、情報処理システム、情報処理方法及びコンピュータプログラム並びにコンピュータ可読記憶媒体
JP2002373061A (ja) 印刷方法及び端末、サーバ、印刷装置並びに印刷システム
JP2004206446A (ja) ネットワークプリントサービス
JP2006092020A (ja) 文書管理装置および方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees