JP2006085565A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2006085565A
JP2006085565A JP2004271458A JP2004271458A JP2006085565A JP 2006085565 A JP2006085565 A JP 2006085565A JP 2004271458 A JP2004271458 A JP 2004271458A JP 2004271458 A JP2004271458 A JP 2004271458A JP 2006085565 A JP2006085565 A JP 2006085565A
Authority
JP
Japan
Prior art keywords
document
search
download
data
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004271458A
Other languages
English (en)
Inventor
Yu Kuratake
悠 倉竹
Kei Otsu
圭 大津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004271458A priority Critical patent/JP2006085565A/ja
Publication of JP2006085565A publication Critical patent/JP2006085565A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 クライアントに対する効率的なデータ提供を可能とするキャッシュデータ管理構成を実現する装置および方法を提供する。
【解決手段】 クライアントからの検索クエリに基づく検索処理に対応する検索ログと、ダウンロード処理に対応するダウンロードログに基づいて、検索クエリとダウンロード文書IDとの対応データからなる予想ダウンロード文書リストを生成し、生成リストに基づくキャッシュデータの更新を行なう。リスト中、検索クエリに対応するエントリに記録された文書ID対応の文書データがキャッシュ部に格納されていない場合、文書管理システムからデータを取得してキャッシュ部に格納する。本構成により、ユーザからの要求データのキャッシュヒット率を高めることが可能となる。
【選択図】 図1

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに、詳細には、クライアントからの検索処理に基づくデータ取得要求が発生する可能性の高いデータを予測して、予測データをキャッシュに格納する構成とし、クライアントからのデータ取得要求を受領した際、キャッシュからのデータ抽出および送信処理を行なうことにより、効率的なデータ提供を実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
インターネットあるいはイントラネットなどのネットワーク通信が盛んになり、このようなネットワークを介したサービスの1つとして検索サービスがある。ネットワーク接続されたパーソナルコンピュータ等のユーザ端末からの検索要求に応じた処理をサーバ側で実行し、その処理結果をユーザ端末に送信する。
例えば、インターネットあるいはイントラネットなどのネットワークを介した検索処理を実行する場合、検索サービスを提供している検索サーバやWebサイトにアクセスし、システムの提示するメニューに従って、キーワード、カテゴリなどの検索条件を入力し検索サービスを提供しているサーバに送信する。サーバは、これらの検索条件に従って、処理を実行し、処理結果をユーザ端末に表示する。
データ検索処理の実行機能を持つ検索エンジンは、例えば検索条件を設定した検索式に基づいてデータベースを検索し、それぞれの検索式に合致するデータをデータベースから抽出し、これを検索結果としてユーザ端末(クライアント)に出力する。
このように、検索エンジンが利用される場面において、利用者は、検索条件を設定した検索式など、いわゆる何らかの検索クエリをサーバに送信し、サーバからは、まず文書の要約や、文書の所在情報などの書誌事項からなる文書リストを取得し、これらの文書リストから必要な文書を選択し、その選択文書の実体を取得(ダウンロード)することで文書の二次利用を行うことが多い。
このとき、クライアントは、文書の実体をデータベースに格納しているデータ収集元である文書管理システムから文書の実体を取得する代わりに、検索エンジンが予め文書管理システムから取得し、検索エンジンの保有するキャッシュ(データ蓄積部)に保存しておいた文書のコピー(キャッシュデータ)を取得することが可能である。また、このようなキャッシュデータを利用した手法が広く用いられている。このキャッシュデータの利用構成によって、ユーザは、文書管理システムのデータベースから文書をダウンロードする時間を短縮することが可能となり、データ転送時間の短縮、データ転送におけるネットワーク帯域の節約など、効率的なデータ取得が可能となるというメリットがある。
検索エンジンによる検索サービスを行なう検索サーバは、新たなキャッシュデータの格納領域を確保するなどのメンテナンスが必要となる。例えば定期的にキャッシュの一部を削除するなどキャッシュメンテナンスを行なうことが必要となる。キャッシュ領域確保の手法としては、例えば、クライアントからの取得要求から最も時間の経過しているデータファイルを順に削除するといった手法が知られている。この手法は、LRU(Least-Recently-Used)法と呼ばれる。
しかし、LRU法のみによるキャッシュ管理においては、クライアントの前回の取得要求から長時間が経過している文書は削除されていることが多くなり、短時間に何度も同じ文書がクライアントからダウンロードされる場合にのみ、その文書のキャッシュが維持されるという結果をもたらすのみである。従って、ある閾値時間を越える一定期間毎にアクセスしているような文書は削除されていることが多くなるという問題がある。また、LRU法によるキャッシュメンテナンスでは、新たにキャッシュデータとして格納する予定の文書のデータ量が大きい場合、多くのキャッシュ済み文書を削除することが必要となるなど、キャッシュの必要な文書を格納できるかどうかが、キャッシュデータを保存する記憶領域に左右されるという欠点がある。
このようなLRU法における欠点を解決するキャッシュメンテナンス手法として、クライアントから要求されるであろうと判断される文書を予測し、予測に基づいてキャッシュ文書を選別する手法が提案されている。例えば特許文献1には、クライアントに提供する文書データを予想する手段として、クライアントに提供されたデータに基づく様々な判定手法、例えばクライアントに対するデータ提供後の経過時間、データ送付回数、データを取得したサーバに関する情報、提供データのサイズなどの情報に基づいて、キャッシュに保持するデータと、削除するデータとの判別を行う構成を開示している。
これらの様々な手法に基づいてキャッシュデータを選別することにより、単なるLRU法より有効な情報がキャッシュされている可能性、すなわちキャッシュヒット率を高めることが可能となる。しかし、これら従来手法を適用した場合でも、クライアントからの要求データに対するキャッシュヒット率を十分に高めることは困難である。
特開2002−116971号公報
本発明は、上述の問題点に鑑みてなされたものであり、クライアントが様々な検索クエリ(検索条件)を設定して実行するデータ検索処理において、キャッシュからのデータ提供率、すなわちキャッシュヒット率を向上させて、効率的なデータ提供処理を実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
情報処理装置であり、
クライアントから受領する検索クエリに従った検索処理を実行し、検索クエリに対応するデータの抽出処理を実行する検索部と、
クライアントからのデータ取得要求に対応するデータをデータキャッシュ部またはネットワーク接続された文書管理システムから取得し、取得データをクライアントに送信するダウンロード処理部と、
前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する文書リスト作成部と、
前記文書リストから、クライアントから受領する検索クエリに対応するクエリの設定エントリを抽出し、該エントリに設定された文書IDに対応する文書データ中、前記データキャッシュ部に未格納の文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行するキャッシュ準備部と、
を有することを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記キャッシュ準備部は、前記検索部において実行される検索処理に並行する処理として、文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記文書リスト作成部は、前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する処理を、一括したデータ処理であるバッチ処理として実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記文書リスト作成部は、前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記文書リスト作成部は、前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログであり、さらに、予め定められた時間間隔内に生成された検索ログとダウンロードログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記文書リスト作成部は、前記文書リストの各エントリに設定された文書ID数、および該文書リストの設定エントリ数を予め定めた最大値以下にするためのデータ削除処理を実行する構成であることを特徴とする。
さらに、本発明の第2の側面は、
情報検索およびデータ提供処理をコンピュータ上において実行させるコンピュータ・プログラムであり、
クライアントから受領する検索クエリに従った検索処理を実行し、検索クエリに対応するデータの抽出処理を実行する検索ステップと、
クライアントからのデータ取得要求に対応するデータをデータキャッシュ部またはネットワーク接続された文書管理システムから取得し、取得データをクライアントに送信するダウンロード処理ステップと、
前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する文書リスト作成ステップと、
前記文書リストから、クライアントから受領する検索クエリに対応するクエリの設定エントリを抽出し、該エントリに設定された文書IDに対応する文書データ中、前記データキャッシュ部に未格納の文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行するキャッシュ準備ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記キャッシュ準備ステップは、前記検索ステップにおいて実行される検索処理に並行する処理として、文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行することを特徴とする。
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記文書リスト作成ステップは、前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する処理を、一括したデータ処理であるバッチ処理として実行することを特徴とする。
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記文書リスト作成ステップは、前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行するステップであることを特徴とする。
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記文書リスト作成ステップは、前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログであり、さらに、予め定められた時間間隔内に生成された検索ログとダウンロードログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行するステップであることを特徴とする。
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記文書リスト作成ステップは、前記文書リストの各エントリに設定された文書ID数、および該文書リストの設定エントリ数を予め定めた最大値以下にするためのデータ削除処理を実行するステップを含むことを特徴とする。
さらに、本発明の第3の側面は、
情報処理方法であり、
検索部において実行する処理であり、クライアントから受領する検索クエリに従った検索処理を実行し、検索クエリに対応するデータの抽出処理を実行する検索ステップと、
ダウンロード処理部において実行する処理であり、クライアントからのデータ取得要求に対応するデータをデータキャッシュ部またはネットワーク接続された文書管理システムから取得し、取得データをクライアントに送信するダウンロード処理ステップと、
前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを文書リスト作成部において生成または更新する文書リスト作成ステップと、
キャッシュ準備部において実行する処理であり、前記文書リストから、クライアントから受領する検索クエリに対応するクエリの設定エントリを抽出し、該エントリに設定された文書IDに対応する文書データ中、前記データキャッシュ部に未格納の文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行するキャッシュ準備ステップと、
を有することを特徴とする情報処理方法にある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、クライアントからの検索クエリに基づいて実行された検索処理に対応する検索ログと、ダウンロード処理において生成されたダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる予想ダウンロード文書リストを生成し、クライアントからの検索要求の発生に基づいて、あるいは例えは定期的なバッチ処理として、予想ダウンロード文書リストを参照し、検索クエリの設定エントリに記録された文書IDに対応する文書データがデータキャッシュ部に格納されていない場合に、文書管理システムから文書データを取得してデータキャッシュ部に格納する処理を実行する構成としたので、多くの場合において、ユーザからのダウンロード要求を受領した時点では、データキャッシュ部に要求データが格納された状態とすることが可能、すなわちキャッシュヒット率を高めることが可能となり、クライアントを待たせることのない効率的な文書データ送信が可能となる。このように、本発明の構成によれば、クライアントにとっては、文書管理システムのデータベースからの文書ダウンロード時間を省略し、キャッシュからのデータ取得率を高めることが可能となり、データ転送時間の短縮、データ転送におけるネットワーク帯域の節約など、効率的なデータ検索およびデータ提供構成が実現される。
以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
図1は本発明の適用可能な情報検索システムの全体構成を示す図である。情報検索システムは、検索処理を実行する検索実行装置としての情報処理装置110、情報処理装置110に対してネットワーク150を介して検索の依頼を行い、検索結果を受領するクライアント131−1〜n、情報処理装置110における検索対象データを格納したデータベースを持つ文書管理システム121によって構成される。
クライアント131−1〜n、検索実行装置としての情報処理装置110、データベースを持つ文書管理システム121は、ネットワーク150を介して接続されている。ネットワークは、インターネット、イントラネット、LAN等の通信ネットワークである。
検索実行装置としての情報処理装置110は、検索部111、検索インデックス格納部112、キャッシュ準備部113、ダウンロード処理部114、予想ダウンロード文書リスト作成部115、データキャッシュ部116を有する。文書管理システム121は、検索対象となる文書実体データを格納したデータベースを有する。クライアントは、ネットワーク150を介した通信の可能な情報処理装置、例えばPC(パーソナルコンピュータ)によって構成される。
文書管理システム121の管理するデータベースには、様々なドキュメントが格納されている。文書管理システム121は、検索実行装置としての情報処理装置110からのデータ取得要求に応じて、文書のメタデータ(キーワード、ファイル名、フォルダ名、文書ID、要約など)を検索実行装置としての情報処理装置110に提供し、情報処理装置110は、これらのデータをインデックス情報として、検索インデックス格納部112に登録、格納する。
検索実行装置としての情報処理装置110は、クライアント131−1〜nから検索要求を受信し、検索部111が、クライアントから受信する検索クエリ(検索条件)としての、例えばキーワード等によって構成される検索式からなる検索クエリに基づいて、検索インデックス格納部112に格納されたインデックス情報に基づく検索処理を実行する。検索インデックス格納部112には、文書管理システム121のデータベースに登録されたデータに対応するインデックス情報が格納されており、検索処理は、検索インデックス格納部112に格納されたインデックスに基づいて実行される。検索部111は、クライアントからの検索クエリに適合するインデックス情報を検索インデックス格納部112から取得する。
検索インデックス格納部112には、文書のメタデータとして検索に適用可能なキーワード、ファイル名、フォルダ名、文書ID、要約、文書の所在、すなわち、文書の実体の格納された文書管理システムに関する情報などの各種情報が含まれる。情報処理装置110は、クライアント131からの検索クエリに合致するインデックスを選択し、選択インデックスに対応するヒット文書リストを生成して、クライアント131に送信する。クライアント131は、リストを取得し、これらのリストから必要な文書を選択し、その選択文書の実体を取得(ダウンロード)するといった処理を行なう。
ここで、情報処理装置110は、クライアントからのダウンロード要求のあった文書がデータキャッシュ部116に格納されているか否かを判定し、格納されている場合はデータキャッシュ部から要求されたデータを取得してクライアントに送信することができる。しかし、データキャッシュ部116に格納されていない場合は、文書管理システム121からデータを取得した後、クライアント131に提供することになる。文書管理システム121からクライアント131への文書のダウンロード中継処理を実行するのがダウンロード処理部114である。
キャッシュ準備部113は、クライアント131からのダウンロード要求が予測される文書を予め文書管理システム121から取得して、データキャッシュ部116に格納する処理を実行する。どのような文書データがクライアント131からダウンロード要求があるかを判定するためのデータとしてのリストを作成する処理を実行するのが予想ダウンロード文書リスト作成部115である。
本発明の構成において、クライアントからの要求に対応した検索処理を実行し、またクライアントからのデータ要求に従ってデータ送信処理を実行する情報処理装置110は、クライアント131からの文書実体の要求されるデータを予測し、予測文書をデータキャッシュ部116に予め格納して、キャッシュからのデータ送信率、すなわちキャッシュヒット率を向上させた構成を持つ。このキャッシュヒット率の向上を図るための処理を実行するのが、キャッシュ準備部113、および予想ダウンロード文書リスト作成部115である。
以下、図2以下を参照して、キャッシュ準備部113、および予想ダウンロード文書リスト作成部115の処理を中心として、情報処理装置110の実行する処理の詳細について説明する。
図2に示す情報処理装置110は、クライアント131から検索クエリを受領し、検索部111において検索処理を実行し、さらにクライアント131からのデータ(文書実体)要求に応じて、データキャッシュ部116あるいは、文書管理システム121から取得したデータをクライアント131に提供する処理を実行する。
具体的な処理例として、クライアント131から、「インターネット」という語と、「ショッピング」という語の両方を含む文書という検索条件、すなわち
「インターネット AND ショッピング」
上記の検索クエリを受領した場合の処理について説明する。図2に示す処理ステップ:S101〜S114に従って、各処理について説明する。
ステップS101
クライアント131からの検索クエリ:「インターネット AND ショッピング」は、検索部111に渡される。
ステップS102
検索部111は、検索インデックス格納部112からこのクエリに含まれるワードを内容に含む文書を検索する。前述したように、検索インデックス格納部112には、文書管理システム121のデータベースに登録されたデータに対応するインデックス情報、例えばキーワード等が格納されており、検索処理は、検索インデックス格納部112に格納されたインデックスに基づいて実行される。
ステップS103
検索部111における検索処理が開始されると同時に、検索部111は、キャッシュ準備部113に、この検索クエリを送る。すなわち、
検索クエリ:「インターネット AND ショッピング」
である。
ステップS104、S105、S106 キャッシュ準備部113は、予想ダウンロード文書リスト201に基づいて、クライアントからのダウンロード要求が発生する可能性の高い文書を判定し、ダウンロード要求が発生する可能性の高い文書がデータキャッシュ部116に格納済みか否かを確認し、格納されていない場合は、文書管理システム121から取得し、データキャッシュ部116に格納する処理を実行する。
予想ダウンロードリスト201は、予想ダウンロード文書リスト作成部115において作成されるリストであり、図3に示すデータ構成を持つ。すなわち、検索クエリと、検索クエリに対応するダウンロードが予想される文書IDリストとを対応付けたデータである。予想ダウンロード文書リスト作成部115における予想ダウンロードリストの作成処理については、後段で説明する。
本例において、キャッシュ準備部113は、図3に示す予想ダウンロードリストに基づいて、
検索クエリ:「インターネット AND ショッピング」
をキーとして予想ダウンロードリスト201を検索し、検索クエリ:「インターネット AND ショッピング」の設定されたエントリを抽出して、抽出したエントリに記録されたダウンロードが予想される文書のIDのリストを取得する。
図3に示す例では、「インターネット AND ショッピング」というクエリに対応するデータエントリ301に設定された文書IDのリストは、「456,125,412,043」である。このリストは、前述したように予想ダウンロード文書リスト作成部115によってあらかじめ作成されており、最近ダウンロードされた文書の文書IDほど、リストの先頭に来るようにソートされている。
キャッシュ準備部113は、予想ダウンロードリスト201に基づくクエリをキーとして取得した文書ID情報に従って、これらの文書IDに対応する文書データがデータキャッシュ部116に格納済みかどうかを、リストの先頭に記されている文書から順番に、データキャッシュ部116に問い合わせる。この場合は、文書ID=456,125,412,043の順に、問い合わせを実行する。もし、データキャッシュ部116に格納されていない場合はその文書を収集元の文書管理システム121から取得し、データキャッシュ部116に格納する。
なお、これらのキャッシュ準備部113の処理、すなわち図2に示すステップS104〜106の処理、具体的には、クエリに基づいて予想ダウンロードリストからダウンロードが予測される文書IDを取得し、データキャッシュ部116に格納されていない文書を文書管理システム121から取得してデータキャッシュ部116に格納する処理は、検索部111において実行される検索処理(S102)に並列して実行される。すなわち、情報処理装置110は、検索部111の検索処理から後述の文書ダウンロード処理の間、上述の文書のキャッシュ格納処理をバックグラウンド処理として実行する。
ステップS107
検索部111は、クライアント131から受領した検索クエリに基づいて、検索インデックス格納部112の検索処理を実行し、検索処理を完了すると、検索の結果、ヒットした文書のリストに基づいて検索ログ202を生成する。
検索ログ202の具体例について、図4を参照して説明する。検索ログは、図4に示すように、検索実行日時、検索要求クライアントである利用者ID、クライアントから受信し、検索部111において実行した検索に対応する検索クエリ、検索処理によってヒットした文書IDのリストの対応データとして構成される。この検索ログは、クライアントからの新たな検索要求に基づいて実行される検索が完了して時点でエントリを追加する処理がなされる。ただし、既に同一のクエリがログに登録されている場合は、ヒット文書IDに変化があった場合にヒット文書IDの更新処理のみが実行される。
なお、この検索ログにおいては、検索クエリは正規化されており、同じ検索クエリは同じ文字列となって記録されている。すなわち、例えば、
[安全 AND 食品 ]というクエリと、
[食品 AND 安全 ]というクエリは、
同じクエリであるが文字列は異なる。これを、それぞれの検索語を文字コード順に並べ変えることによって正規化する。従って、クエリに含まれるワードが同一である場合は、検索ログにおいては、1つのエントリとして集約されることになる。
ステップS108
検索部111は、クライアント131から受領した検索クエリに基づいて、検索インデックス格納部112の検索処理を実行し、検索処理を完了すると、インデックス情報から取得した文書名、要約などの書誌事項を含むヒット文書リストを生成して、クライアント131に送信する。
ステップS109
クライアント131は、ヒット文書リストから、取得(ダウンロード)したい文書を選択し、文書取得要求としてのダウンロードリクエストを文書ダウンロード処理部114に送信する。
ステップS110,S112
文書ダウンロード処理部114は、データキャッシュ部116を検索し、クライアント131からリクエストされた文書がデータキャッシュ部116に格納されているか否かを確認する。リクエスト文書がデータキャッシュ部116に格納されている場合は、データキャッシュ部116からリクエスト文書を取得して、クライアントに送信する。
ステップS111,S112
クライアント131からリクエストされた文書がデータキャッシュ部116に格納されていない場合は、文書ダウンロード処理部114は、収集元の文書管理システム121に文書取得要求を行って、リクエスト文書を取得し、取得文書をクライアント131に送信する。
ステップS113
文書ダウンロード処理部114は、クライアント131に対してダウンロードを行った
文書データに対応する文書IDを記録したダウンロードログ203を生成する。
文書ダウンロード処理部114の生成するダウンロードログのデータ構成例について、図5を参照して説明する。ダウンロードログは、図5に示すように、ダウンロード処理の実行された日時と、ダウンロードを行った利用者、すなわちクライアントに対応する利用者IDと、さらに、ダウンロードの実行された文書に対応する識別子である文書IDとが対応付けられたデータとして設定される。
ステップS114
予想ダウンロード文書リスト作成部115は、ステップS107において、検索部111が成した検索ログ202と、ステップS113において、ダウンロード処理部114が作成したダウンロードログ203に基づいて、先に図3を参照して説明した予想ダウンロード文書リスト201を作成もしくは更新する。この処理は、一定のタイミング(例えば1日1回など)の処理、いわゆる一括したデータ処理としてのバッチ処理として実行する。
予想ダウンロード文書リスト作成部115における予想ダウンロード文書リスト201の作成もしくは更新処理のロジックについて、図6に示すフローチャートを参照して説明する。
各処理ステップについて、順次、説明する。
まず、ステップS301において、検索ログの先頭の1行(1ログ)を抜き出し、それを検索ログAとする。
ステップS302において、検索ログAが記録された日時から予め設定した経過期間、例えば10分後の日時までの期間で、検索ログAのデータ項目「利用者ID」に記録されている利用者IDと同じ利用者IDが記録されたダウンロードログのエントリを検索する。
検索ログAのデータ項目「利用者ID」に記録されている利用者IDと同じ利用者IDが記録されたダウンロードログのエントリが検出された場合(S303:Yes)は、ステップS304に進み、その検出された同一ユーザのダウンロードログ・エントリをダウンロードログBとする。一方、検索ログAのデータ項目「利用者ID」に記録されている利用者IDと同じ利用者IDが記録されたダウンロードログのエントリが検出されなかった場合(S303:No)は、ステップS301に戻り、検索ログから未処理の新たなログデータを選択し、同様の処理を繰り返す。
ステップS303で、検索ログAのデータ項目「利用者ID」に記録されている利用者IDと同じ利用者IDが記録されたダウンロードログのエントリが検出され、ステップS304において、ダウンロードログBの設定がなされた場合は、ステップS305に進み、ダウンロードログBのデータ項目「ダウンロードされた文書ID」列に設定された文書IDが、検索ログAのデータ項目「ヒットした文書IDのリスト」列に記録されている文書IDのリストに含まれているかどうかを判定する。
ダウンロードログBに設定されたダウンロード文書の文書IDが、検索ログAのヒット文書の文書IDに含まれている場合(S305:Yes)、ログAとログBは関連のあるログとみなす。すなわち、利用者は、検索ログAによって検索された結果に基づいて、ダウンロードを実行し、ダウンロードログBが生成されたと推定する。
一方、ダウンロードログBに設定されたダウンロード文書の文書IDが、検索ログAのヒット文書の文書IDに含まれていない場合(S305:No)は、これらのログA,Bは利用者の一連の処理によって生成されたものではないと推定する。この場合は、ステップS301に戻り、検索ログから未処理の新たなログデータを選択し、同様の処理を繰り返す。
ダウンロードログBに設定されたダウンロード文書の文書IDが、検索ログAのヒット文書の文書IDに含まれており、ログAとログBが関連ログであると判定した場合は、ステップS306に進み、ダウンロードログAのデータ項目「検索クエリ」に記録された検索クエリをキーとし、ダウンロードログBのデータ項目「ダウンロードされた文書ID」に記録された文書IDを値とするエントリを新しく予想ダウンロード文書リストCの先頭に追加する。
もし、そのキー、すなわち、検索ログAのデータ項目「検索クエリ」に記録された検索クエリに一致する検索クエリを設定したエントリがすでに、予想ダウンロード文書リストCにあれば、そのエントリの「ダウンロードが予想される文書IDリスト」の先頭に、ダウンロードログBのデータ項目「ダウンロードされた文書ID」に記録された文書IDを追加する。
なお、予想ダウンロード文書リストCに、ダウンロードログAのデータ項目「検索クエリ」に記録された検索クエリに一致する検索クエリを設定したエントリが存在し、かつ、ダウンロードログBのデータ項目「ダウンロードされた文書ID」に記録された文書IDも、そのエントリに設定済みの場合は、その文書IDがそのエントリの「ダウンロードが予想される文書IDリスト」の先頭に来るようにリストを並べ替える更新処理を実行する。
上述の処理態様によって、ステップS306におけるデータ更新を完了し、ステップS307に進む。ステップS307では、「ダウンロードが予想される文書IDリスト」の1つのエントリに設定された文書IDの数が予め定めた一定の値(例えば5)を超えていないかについて判定する。
先に図2を参照して説明したように、キャッシュ準備部113は、クライアントからの検索クエリに基づいて「ダウンロードが予想される文書IDリスト」に設定された同一クエリに対応して設定された文書IDに対応する実文書データを文書管理システム121から、データキャッシュ部116に転送、格納する処理を実行する。しかし、データキャッシュ部116のデータ格納要領は無限ではない。従って、「ダウンロードが予想される文書IDリスト」の1つのエントリに設定された文書IDの数は、一定の数以下に保持することが要請される。ステップS307の処理は、この要請に従った処理である。
ステップS307では、「ダウンロードが予想される文書IDリスト」の1つのエントリに設定された文書IDの数が予め定めた一定の値(例えば5)を超えていないかについて判定し、超えている場合は、ステップS308において、閾値を超えた数の文書IDを持つエントリから、リストの末尾の文書IDの削除を実行する。「ダウンロードが予想される文書IDリスト」の各エントリに設定される文書IDは、ステップS306におけるデータ更新処理によって、日時の新しいダウンロード日時を持つ文書の文書IDが先頭に来るように設定されているので、リスト末尾の文書IDは、ダウンロード日時がリスト中で最も古いものである。従って、より古いダウンロード日時に対応する文書IDから順に削除されることになる。
次に、ステップS309において、「ダウンロードが予想される文書IDリスト」のエントリ数が予め定めた最大許容エントリ数を超えているかいないかを判定する。「ダウンロードが予想される文書IDリスト」のエントリは、新たなクエリとダウンロード文書IDの発生に伴い、先に説明したステップS306のデータ更新処理によって、順次、追加されることになり、メンテナンスを実行しないと、「ダウンロードが予想される文書IDリスト」のエントリ数は無限に増加してしまうことになる。そこで、「ダウンロードが予想される文書IDリスト」のエントリ数の最大値として最大許容エントリ数を設定し、エントリ数が、最大許容エントリ数を超えないようにメンテナンスを実行する。
「ダウンロードが予想される文書IDリスト」のエントリ数が予め定めた最大許容エントリ数を超えている場合は、ステップS310において、最大許容エントリ数を超えている分のエントリを削除する。エントリの削除は、「ダウンロードが予想される文書IDリスト」の末尾のエントリから順に実行する。前述のステップS306のデータ更新処理において説明したように、新たなエントリが追加される場合は、「ダウンロードが予想される文書IDリスト」の先頭にエントリ追加処理が実行されるので、削除されるエントリは、最も古いエントリから順番に行われることになる。
次に、ステップS311において、検索ログに設定された全てのログデータについての処理が完了したか否かを判定し、未処理データがある場合は、ステップS301に戻り、未処理ログについて同様の処理を繰り返し実行する。すべてのログデータの処理が終了すると、予想ダウンロード文書リストの更新処理を終了する。
図2に示す予想ダウンロード文書リスト作成部115は、上述した処理によって、検索ログ202と、ダウンロードログ203とを適用して、予想ダウンロード文書リスト201の生成または更新処理を実行する。この結果の予想ダウンロード文書リスト201が、先に図3を参照して説明したデータ構成を持つ予想ダウンロード文書リストとなる。
すなわち、図3に示すように、検索クエリと、検索クエリに対応するダウンロードが予想される文書IDリストとを対応付けたデータである。図2に示すキャッシュ準備部113は、この予想ダウンロード文書リスト201を参照し、クライアント131から検索部111を介して受領した検索クエリと同一の検索クエリのエントリを選択し、そのエントリに設定された文書IDに対応する文書データがデータキャッシュ部116に格納されているかいないかを検証して、未格納文書がある場合は、文書管理システム121から取得する。なお、このデータ取得処理は、検索部111における検索インデックス格納部112に格納されたインデックスに基づく検索処理に並行して実行される処理であり、クライアントからのダウンロード要求より先の段階で実行されることになり、多くの場合、ユーザからのダウンロード要求を受領した時点では、データキャッシュ部116に格納された文書データの送信が可能となる。
なお、図6を参照して説明した予想ダウンロード文書リスト作成部115による検索ログ202と、ダウンロードログ203とを適用した予想ダウンロード文書リスト201の生成または更新処理は、前述したように一括したデータ処理としてのバッチ処理により、例えば1日1回など、一定期間毎に実行する構成とすることが好ましい、このようなバッチ処理を実行する構成によれば、処理中以外はシステムに負荷をかけることがなく、データ検索処理の無い期間にまとめて行なうことで、データ検索に適用する処理資源を奪うことがなくなり、検索遅延などの問題を発生させることがない。
図7を参照して、予想ダウンロード文書作成部115が実行する予想ダウンロード文書リスト201の生成または更新処理の具体例について説明する。図6に示したフローを参照して説明したように、予想ダウンロード文書作成部115は、検索ログと、ダウンロードログとを適用して、予想ダウンロード文書リストの生成または更新処理を実行する。
図7には、
(1)検索ログ、
(2)ダウンロードログ
(3)予想ダウンロード文書リスト
を示している。
ここで、検索ログの処理対象のログデータA351に対する処理例について説明する。予想ダウンロード文書作成部115は、ログデータA351を処理対象ログデータとして選択(図6のステップS301の処理に相当)する。
次に、予想ダウンロード文書作成部115は、ログデータA351の利用者IDと同一の利用者IDが設定され、かつ処理日時、すなわちダウンロード日時、ログデータA351に設定された日時、すなわち検索実行日時から、予め定められた規定時間以内(例えば10分以内)の設定情報を持つエントリが、(2)ダウンロードログに設定されているか否かを検証する。
この条件に該当するエントリは、図7に示す(2)ダウンロードログのエントリ、すなわちダウンロードログB352である。検索ログA351と、ダウンロードログB352は関連ログであると判定されることになる。この処理は、図6のフローにおけるステップS302〜S305の処理であり、ダウンロードログB352の検出によって、ステップS306の処理に進むことになる。
次に、予想ダウンロード文書作成部115は、ステップS306の処理として、検索ログA351のデータ項目「検索クエリ」に記録された検索クエリをキーとし、ダウンロードログB352のデータ項目「ダウンロードされた文書ID」に記録された文書IDを値とするエントリを新しく予想ダウンロード文書リストの先頭に追加する。
しかし、図7に示す(3)予想ダウンロード文書リストには、ダウンロードログA351のデータ項目「検索クエリ」に記録された検索クエリに一致する検索クエリを設定したエントリがすでに存在している。図7に示す更新エントリ353である。
この場合、予想ダウンロード文書作成部115は、更新エントリ353の「ダウンロードが予想される文書IDリスト」の先頭に、ダウンロードログB352のデータ項目「ダウンロードされた文書ID」に記録された文書IDを追加する。図7に示す例では、文書ID[456]が追加された例を示している。
なお、前述したように、(3)予想ダウンロード文書リストに、検索ログA351のデータ項目「検索クエリ」に記録された検索クエリに一致する検索クエリを設定したエントリが存在し、かつ、ダウンロードログB352のデータ項目「ダウンロードされた文書ID」に記録された文書IDも、そのエントリに設定済みの場合は、その文書IDがそのエントリの「ダウンロードが予想される文書IDリスト」の先頭に来るようにリストを並べ替える更新処理を実行する。
このような処理によって、(3)予想ダウンロード文書リストの生成または更新処理が実行される。なお、図6を参照して説明したように、予想ダウンロード文書リストの各エントリに設定される文書IDは、予め定めた閾値以下になる様に処理が実行され、またエントリ数についても予め定めた最大許容エントリ数以下になるようにメンテナンス処理が実行されるので、予想ダウンロード文書リストに設定される文書ID、エントリが無限に増加することはなく、最適なデータ量に設定されることになる。なお、各エントリに設定される文書IDの最大値や最大エントリ数は、データキャッシュ部116の持つデータ容量に応じて最適値を設定する。
最後に、上述した検索処理を実行する情報処理装置110のハードウェア構成例について、図8を参照して説明する。
CPU(Central Processing Unit)501は、OS(Operating System)、上述の実施例において説明した検索処理、各種ログ生成処理、予想ダウンロード文書リストの更新、生成処理、データダウンロード処理、文書データの送受信処理等、各処理の実行シーケンスを記述した各種コンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、図1に示す検索インデックス格納部112、データキャッシュ部116としての役割、および各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、CPU501、またはHDD511等からの供給データの送信、データ受信を実行する。
なお、図8に示す情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の情報処理装置は、図8に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、クライアントからの検索クエリに基づいて実行された検索処理に対応する検索ログと、ダウンロード処理において生成されたダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる予想ダウンロード文書リストを生成し、クライアントからの検索要求の発生に基づいて、あるいは例えは定期的なバッチ処理として、予想ダウンロード文書リストを参照し、検索クエリの設定エントリに記録された文書IDに対応する文書データがデータキャッシュ部に格納されていない場合に、文書管理システムから文書データを取得してデータキャッシュ部に格納する処理を実行する構成としたので、多くの場合において、ユーザからのダウンロード要求を受領した時点では、データキャッシュ部に要求データが格納された状態とすることが可能、すなわちキャッシュヒット率を高めることが可能となり、クライアントを待たせることのない効率的な文書データ送信が可能となる。このように、本発明の構成によれば、クライアントにとっては、文書管理システムのデータベースからの文書ダウンロード時間を省略し、キャッシュからのデータ取得率を高めることが可能となり、データ転送時間の短縮、データ転送におけるネットワーク帯域の節約など、効率的なデータ検索およびデータ提供構成が実現される。
本発明の適用可能な情報検索システムの全体構成を示す図である。 情報検索およびデータのクライアントに対する提供処理を実行する情報処理装置の構成および処理について説明する図である。 予想ダウンロード文書リストのデータ構成例について説明する図である。 検索ログのデータ構成例について説明する図である。 ダウンロードログのデータ構成例について説明する図である。 情報検索およびデータのクライアントに対する提供処理を実行する情報処理装置の実行する予想ダウンロード文書リストの生成、更新処理手順について説明するフロー図である。 検索ログと、ダウンロードログに基づく予想ダウンロード文書リストの生成、更新処理の具体例について説明する図である。 データ検索およびクライアントに対するデータ提供処理を実行する情報処理装置のハードウェア構成例について説明する図である。
符号の説明
110 情報処理装置
111 検索部
112 検索インデックス格納部
113 キャッシュ準備部
114 ダウンロード処理部
115 予想ダウンロード文書リスト作成部
116 データキャシュ部
121 文書管理システム
131−1〜n クライアント
150 ネットワーク
201 予想ダウンロード文書リスト
202 検索ログ
203 ダウンロードログ
301 データエントリ
351 検索ログA
352 ダウンロードログB
353 更新エントリ
501 CPU(Central processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (13)

  1. 情報処理装置であり、
    クライアントから受領する検索クエリに従った検索処理を実行し、検索クエリに対応するデータの抽出処理を実行する検索部と、
    クライアントからのデータ取得要求に対応するデータをデータキャッシュ部またはネットワーク接続された文書管理システムから取得し、取得データをクライアントに送信するダウンロード処理部と、
    前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する文書リスト作成部と、
    前記文書リストから、クライアントから受領する検索クエリに対応するクエリの設定エントリを抽出し、該エントリに設定された文書IDに対応する文書データ中、前記データキャッシュ部に未格納の文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行するキャッシュ準備部と、
    を有することを特徴とする情報処理装置。
  2. 前記キャッシュ準備部は、
    前記検索部において実行される検索処理に並行する処理として、文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記文書リスト作成部は、
    前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する処理を、一括したデータ処理であるバッチ処理として実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  4. 前記文書リスト作成部は、
    前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  5. 前記文書リスト作成部は、
    前記検索部における検索処理に対応して生成される検索ログ、および前記ダウンロード処理部におけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログであり、さらに、予め定められた時間間隔内に生成された検索ログとダウンロードログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  6. 前記文書リスト作成部は、
    前記文書リストの各エントリに設定された文書ID数、および該文書リストの設定エントリ数を予め定めた最大値以下にするためのデータ削除処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  7. 情報検索およびデータ提供処理をコンピュータ上において実行させるコンピュータ・プログラムであり、
    クライアントから受領する検索クエリに従った検索処理を実行し、検索クエリに対応するデータの抽出処理を実行する検索ステップと、
    クライアントからのデータ取得要求に対応するデータをデータキャッシュ部またはネットワーク接続された文書管理システムから取得し、取得データをクライアントに送信するダウンロード処理ステップと、
    前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する文書リスト作成ステップと、
    前記文書リストから、クライアントから受領する検索クエリに対応するクエリの設定エントリを抽出し、該エントリに設定された文書IDに対応する文書データ中、前記データキャッシュ部に未格納の文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行するキャッシュ準備ステップと、
    を有することを特徴とするコンピュータ・プログラム。
  8. 前記キャッシュ準備ステップは、
    前記検索ステップにおいて実行される検索処理に並行する処理として、文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行することを特徴とする請求項7に記載のコンピュータ・プログラム。
  9. 前記文書リスト作成ステップは、
    前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを生成または更新する処理を一括したデータ処理であるバッチ処理として実行することを特徴とする請求項7に記載のコンピュータ・プログラム。
  10. 前記文書リスト作成ステップは、
    前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行するステップであることを特徴とする請求項7に記載のコンピュータ・プログラム。
  11. 前記文書リスト作成ステップは、
    前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログから、同一ユーザの処理ログであり、さらに、予め定められた時間間隔内に生成された検索ログとダウンロードログの組を抽出し、抽出したダウンロードログに記録されたダウンロード文書IDが、抽出した検索ログに記録されたヒット文書IDに一致する場合、該検索ログとダウンロードログとを関連ログと判定し、該関連ログに設定された検索クエリとダウンロード文書識別情報としての文書IDとに基づいて、前記文書リストの生成または更新処理を実行するステップであることを特徴とする請求項7に記載のコンピュータ・プログラム。
  12. 前記文書リスト作成ステップは、
    前記文書リストの各エントリに設定された文書ID数、および該文書リストの設定エントリ数を予め定めた最大値以下にするためのデータ削除処理を実行するステップを含むことを特徴とする請求項7に記載のコンピュータ・プログラム。
  13. 情報処理方法であり、
    検索部において実行する処理であり、クライアントから受領する検索クエリに従った検索処理を実行し、検索クエリに対応するデータの抽出処理を実行する検索ステップと、
    ダウンロード処理部において実行する処理であり、クライアントからのデータ取得要求に対応するデータをデータキャッシュ部またはネットワーク接続された文書管理システムから取得し、取得データをクライアントに送信するダウンロード処理ステップと、
    前記検索ステップにおける検索処理に対応して生成される検索ログ、および前記ダウンロード処理ステップにおけるダウンロード処理に対応して生成されるダウンロードログに基づいて、検索クエリとダウンロード文書識別情報としての文書IDとの対応データからなる文書リストを文書リスト作成部において生成または更新する文書リスト作成ステップと、
    キャッシュ準備部において実行する処理であり、前記文書リストから、クライアントから受領する検索クエリに対応するクエリの設定エントリを抽出し、該エントリに設定された文書IDに対応する文書データ中、前記データキャッシュ部に未格納の文書データを前記文書管理システムから取得して前記データキャッシュ部に格納する処理を実行するキャッシュ準備ステップと、
    を有することを特徴とする情報処理方法。
JP2004271458A 2004-09-17 2004-09-17 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Pending JP2006085565A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004271458A JP2006085565A (ja) 2004-09-17 2004-09-17 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004271458A JP2006085565A (ja) 2004-09-17 2004-09-17 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2006085565A true JP2006085565A (ja) 2006-03-30

Family

ID=36164002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004271458A Pending JP2006085565A (ja) 2004-09-17 2004-09-17 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2006085565A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204427A (ja) * 2007-01-26 2008-09-04 Yahoo Japan Corp キャッシュサーバ等に保存されたコンテンツのオリジナルurlを取得してurlフィルタリングを行なう装置
JP2008305225A (ja) * 2007-06-08 2008-12-18 Hitachi Ltd 制御計算機、計算機システム及びアクセス制御方法
JP2009157461A (ja) * 2007-12-25 2009-07-16 Canon Marketing Japan Inc 文書管理システム、文書管理装装置、文書管理方法、およびプログラム
KR20130138662A (ko) * 2012-06-11 2013-12-19 삼성전자주식회사 디스플레이 장치, 모바일 디바이스를 포함하는 서비스 제공 시스템 및 서비스 제공 방법
JP2013258699A (ja) * 2012-06-11 2013-12-26 Samsung Electronics Co Ltd ディスプレイ装置、モバイルデバイスを含むサービス提供システム及びサービス提供方法
CN106471571A (zh) * 2014-07-31 2017-03-01 乐威指南公司 用于在有异形词存在的情况下执行asr的系统和方法
JP7538715B2 (ja) 2020-12-28 2024-08-22 株式会社オービック 外部帳票保存システム、外部帳票保存方法、及び外部帳票保存プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204427A (ja) * 2007-01-26 2008-09-04 Yahoo Japan Corp キャッシュサーバ等に保存されたコンテンツのオリジナルurlを取得してurlフィルタリングを行なう装置
JP4542122B2 (ja) * 2007-01-26 2010-09-08 ヤフー株式会社 キャッシュサーバ等に保存されたコンテンツのオリジナルurlを取得してurlフィルタリングを行なう装置
JP2008305225A (ja) * 2007-06-08 2008-12-18 Hitachi Ltd 制御計算機、計算機システム及びアクセス制御方法
US7827178B2 (en) 2007-06-08 2010-11-02 Hitachi, Ltd. File server for performing cache prefetching in cooperation with search AP
JP2009157461A (ja) * 2007-12-25 2009-07-16 Canon Marketing Japan Inc 文書管理システム、文書管理装装置、文書管理方法、およびプログラム
JP2013258699A (ja) * 2012-06-11 2013-12-26 Samsung Electronics Co Ltd ディスプレイ装置、モバイルデバイスを含むサービス提供システム及びサービス提供方法
KR20130138662A (ko) * 2012-06-11 2013-12-19 삼성전자주식회사 디스플레이 장치, 모바일 디바이스를 포함하는 서비스 제공 시스템 및 서비스 제공 방법
KR102041610B1 (ko) * 2012-06-11 2019-11-27 삼성전자주식회사 디스플레이 장치, 모바일 디바이스를 포함하는 서비스 제공 시스템 및 서비스 제공 방법
US10499207B2 (en) 2012-06-11 2019-12-03 Samsung Electronics Co., Ltd. Service providing system including display device and mobile device, and method for providing service using the same
CN106471571A (zh) * 2014-07-31 2017-03-01 乐威指南公司 用于在有异形词存在的情况下执行asr的系统和方法
JP2017525993A (ja) * 2014-07-31 2017-09-07 ロヴィ ガイズ, インコーポレイテッド 同音異字の存在下でasrを行うためのシステムおよび方法
KR20220123347A (ko) * 2014-07-31 2022-09-06 로비 가이드스, 인크. 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
KR102574333B1 (ko) 2014-07-31 2023-09-01 로비 가이드스, 인크. 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
JP7538715B2 (ja) 2020-12-28 2024-08-22 株式会社オービック 外部帳票保存システム、外部帳票保存方法、及び外部帳票保存プログラム

Similar Documents

Publication Publication Date Title
JP4997950B2 (ja) ネットワーク管理システム、ネットワーク管理プログラムおよびネットワーク管理方法
JP5437557B2 (ja) 検索処理方法及び検索システム
US9064013B1 (en) Application of resource limits to request processing
JP5439761B2 (ja) コンテンツ再生装置、コンテンツ再生方法およびコンテンツ再生プログラム
JP4386459B1 (ja) ファイル格納システム、サーバ装置及びプログラム
US20100115061A1 (en) Server system, server apparatus, program and method
RU2733482C2 (ru) Способ и система для обновления базы данных поискового индекса
JP2007122643A (ja) データ検索システム、メタデータ同期方法およびデータ検索装置
JP2011191862A (ja) ファイル管理装置、ファイル管理システム、およびファイル管理プログラム
US8712992B2 (en) Method and apparatus for web crawling
WO2014059848A1 (zh) 一种网页搜索设备和方法
JP2006085565A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
Richard et al. Digital forensic tools: the next generation
EP2587381B1 (en) Server device and content acquisition method
JPH09204442A (ja) ドキュメントデータ検索システム
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
JP2009193440A (ja) キャッシュシステム、サーバおよび端末
EP1454268B1 (en) Electronic file management
JP4612834B2 (ja) 文書管理システム、文書検索方法、コンピュータプログラム、文書検索装置
JP2006185059A (ja) コンテンツ管理装置
JP5464082B2 (ja) 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN108664646B (zh) 一种基于关键字的音视频自动下载系统
JP2009037359A (ja) データ登録検索方法、データ登録検索プログラムおよびデータベースシステム
JP2005085113A (ja) 検索サーバ及び検索プログラム
US7908345B2 (en) Method and device for access to a digital document in a communication network of the station to station type