JP2005182623A - 文書収集装置、文書収集方法及びプログラム - Google Patents
文書収集装置、文書収集方法及びプログラム Download PDFInfo
- Publication number
- JP2005182623A JP2005182623A JP2003425070A JP2003425070A JP2005182623A JP 2005182623 A JP2005182623 A JP 2005182623A JP 2003425070 A JP2003425070 A JP 2003425070A JP 2003425070 A JP2003425070 A JP 2003425070A JP 2005182623 A JP2005182623 A JP 2005182623A
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- collection
- server
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】文書収集装置が、複数の文書が格納されている文書リポジトリに対して文書収集を行う場合、ファイアウォールなどの制限されたネットワーク環境では、文書収集装置から文書リポジトリへの能動的な通信が行えないという問題がある。
【解決手段】収集エージェント10には、文書収集装置を制御する制御部1と、文書リポジトリ7の文書の文書属性を取得する文書属性取得部2、及び文書情報をファイアウォール11とインターネット12を経由して収集サーバ20に送信する文書属性送信部4と文書送信部5がある。収集サーバ20は、文書属性受信部21と文書属性格納部23と文書受信部22と文書格納部24とを有しており、文書属性受信部21で受信した属性情報により‘受信の返信’として、文書送信要求情報を収集エージェント10に返信し、収集エージェント10から文書を受信する。
【選択図】図1
【解決手段】収集エージェント10には、文書収集装置を制御する制御部1と、文書リポジトリ7の文書の文書属性を取得する文書属性取得部2、及び文書情報をファイアウォール11とインターネット12を経由して収集サーバ20に送信する文書属性送信部4と文書送信部5がある。収集サーバ20は、文書属性受信部21と文書属性格納部23と文書受信部22と文書格納部24とを有しており、文書属性受信部21で受信した属性情報により‘受信の返信’として、文書送信要求情報を収集エージェント10に返信し、収集エージェント10から文書を受信する。
【選択図】図1
Description
本発明は、ネットワーク上にファイアウォールを介して接続された文書サーバの文書を収集する文書収集装置に関する。
従来、インターネットなどのネットワーク上に存在する文書を収集するシステムとして、収集ロボットと呼ばれるプログラムにより、Webサーバなどのコンテンツを有する文書リポジトリを巡回し、文書を収集するのが一般的である。このような文書に関する情報(以下コンテンツ情報という)を抽出する技術として、‘ロボット’と呼ばれるサーチプログラムが従来から用いられている。このロボットは、HTML(Hyper Text Markup Language)等で記述されているリンク情報を参照してその参照先へアクセスし、これを連続的におこなうことによってコンピュータネットワーク上のコンテンツ情報を収集するものがある。
しかし、この技術は文書を収集・取得してから更新判定を行うため、文書リポジトリ、および文書収集装置の双方の負荷が高くなってしまう問題があった。
この問題を解決する手段として、特許文献1に示される技術が示されている。この技術は、文書を収集する際に文書の属性情報だけを取得し、すでに収集した属性情報と比較した結果、新規、更新と判断された文書に対してのみ、文書の収集を行うというものである。
しかし、この技術は文書収集装置が主体となり、複数の文書が格納されている文書リポジトリ(文書サーバ)に対して文書収集が行われるため、ファイアウォールなどの制限されたネットワーク環境では、文書収集装置から文書リポジトリへの能動的な通信が行えない為、この手段は適用できないという問題があり、ファイアウォールの外部から検索サービスを提供することはできなかった。
また、更新された文書毎に文書リポジトリと文書収集装置との通信が発生し、送信する文書情報が増え、文書情報量が増大するという問題もあった。
以上のような問題を解決するために、本発明に係る文書収集装置は、複数の文書を格納している文書サーバから各文書の文書属性と文書を収集し、ファイアウォールで制限されたネットワークを介して文書属性と文書を送信する収集エージェントと、送信された文書属性と文書を受信する収集サーバと、を含む文書収集装置であって、収集エージェントは、各文書の文書属性と文書を文書サーバから取得する取得手段と、ファイアウォールを介して文書属性と文書を収集サーバに送信する送信手段とを有し、収集サーバは、収集エージェントより送信された文書属性を受信し、予め記憶されている文書属性と受信した文書属性との差分を検出し、ファイアウォールを介した受信に対する文書送信要求を収集エージェントに返信する返信手段と、文書送信要求に対し、収集エージェントから返信された文書を収集サーバが受信する文書受信手段と、受信した文書の文書属性を抽出して記憶を更新する属性記憶手段と、を有することを特徴とする。
更に、本発明に係る文書収集装置において、収集エージェントの取得手段は、複数の文書の記憶形式に応じた複数の属性取得手段と複数の文書取得手段とを含むことを特徴とする。
また、本発明に係る文書収集装置は、複数の文書を格納している文書サーバから、収集エージェントが各文書の文書属性と文書を取得する取得工程と、ファイアウォールで制限されたネットワークを介して文書属性と文書を収集サーバに送信する送信工程と、収集サーバが文書属性と文書を受信する受信工程とを有する文書収集方法であって、各文書の文書属性を文書サーバから取得する属性取得工程と、ファイアウォールを介して文書属性を収集サーバに送信する属性送信工程と、送信された文書属性を収集サーバが受信する属性受信工程と、予め記憶されている文書属性と受信した文書属性との差分を検出し、更新又は新規の場合には、ファイアウォールを介した受信に対する文書送信要求を収集エージェントに返信する返信工程と、文書送信要求に対し、収集エージェントが文書を取得する文書取得工程と、収集サーバにファイアウォールを介して文書を送信する文書送信工程と、送信された文書を収集サーバが受信する文書受信工程と、受信した文書の文書属性を抽出して記憶を更新する属性記憶工程と、を備えることを特徴とする。
更に、本発明に係る文書収集方法において、収集エージェントの属性取得工程と文書取得工程は、複数の文書の記憶形式に応じた複数の属性取得工程と複数の文書取得工程とを有することを特徴とする。
更にまた、本発明に係る文書収集方法において、収集エージェントの属性取得工程と属性送信工程は、予め決められた時刻に起動され、各文書の文書属性を文書サーバから取得する際に文書の保存されている上位階層から下位階層に向かって階層毎に文書をサーチして文書サーバから文書属性を取得し、ファイアウォールを介して収集サーバに送信することを特徴とする。
また、本発明に係る文書収集プログラムは、複数の文書を格納している文書サーバから、収集エージェントが各文書の文書属性と文書を取得する取得ステップと、ファイアウォールで制限されたネットワークを介して文書属性と文書を収集サーバに送信する送信ステップと、収集サーバが文書属性と文書を受信する受信ステップとを有する文書収集プログラムであって、各文書の文書属性を文書サーバから取得する属性取得ステップと、ファイアウォールを介して文書属性を収集サーバに送信する属性送信ステップと、送信された文書属性を収集サーバが受信する属性受信ステップと、予め記憶されている文書属性と受信した文書属性との差分を検出し、更新又は新規の場合には、ファイアウォールを介した受信に対する文書送信要求を収集エージェントに返信する返信ステップと、文書送信要求に対し、収集エージェントが文書を収集サーバにファイアウォールを介して送信する文書送信ステップと、送信された文書を収集サーバが受信する文書受信ステップと、受信した文書の文書属性を抽出して記憶を更新する属性記憶ステップと、を有することを特徴とする。
更に、本発明に係る文書収集プログラムにおいて、収集エージェントの属性取得ステップと文書取得ステップは、複数の文書の記憶形式に応じた複数の属性取得ステップと複数の文書取得ステップとを含むことを特徴とする。
更にまた、本発明に係る文書収集プログラムにおいて、収集エージェントの属性取得ステップと属性送信ステップは、予め決められた時刻に起動され、各文書の文書属性を文書サーバから取得する際に文書の保存されている上位階層から下位階層に向かって階層毎に文書をサーチして文書サーバから文書属性を取得し、ファイアウォールを介して収集サーバに送信することを特徴とする。
本発明により、ファイアウォールなどの一方向の通信しか行えない制限されたネットワークの状況下でも、収集エージェントが主体となって複数の文書が格納されている文書リポジトリからの文書収集が可能となり、検索サービスを提供することも可能となる。さらに、送信する文書情報を少なくすることにより効率良く収集を行うことができる。
以下、本発明の実施の形態(以下実施形態という)を、図面に従って説明する。
図1は、本発明の第1の実施形態を示す文書収集装置の全体構成図である。以下に、図1を用いて文書収集装置を説明する。文書収集装置は、収集エージェント10と収集サーバ20で構成され文書リポジトリ7からの文書を収集エージェント10が収集し、ファイアウォール11とインターネット12を介して収集サーバ20と接続され、収集サーバ20に文書が送信される。
複数の文書が格納されている文書リポジトリ7は、インターネット12上のホームページや文書管理ソフトウエアなどのコンテンツ・サーバとも呼ばれる。文書の中には、文字情報、図形情報、ビットマップ情報が含まれ、これらはコンテンツとも呼ばれている。以下、文書とは前述したようにコンテンツを含む。
収集エージェント10には、収集エージェント10を定期的に起動し、文書収集装置を制御する制御部1と、文書リポジトリ7の文書の文書属性を取得する文書属性取得部2、及び文書情報をファイアウォール11とインターネット12を経由して収集サーバ20に送信する文書属性送信部4がある。さらに、文書リポジトリ7の文書を取得する文書取得部3、及び文書をファイアウォール11とインターネット12を経由して収集サーバ20に送信する文書送信部5がある。
ファイアウォール11は、ファイアウォール11の内から外へ通信は行えるが、ファイアウォール11の外からの通信は遮断される。また、ファイアウォール11の内から外への通信に対する返信は行えるという性質を備えている。
収集サーバ20は、文書属性受信部21と文書属性格納部23と文書受信部22と文書格納部24とを有しており、ファイアウォール11とインターネット12を介して文書属性受信部21で受信した属性情報を文書属性格納部23にて格納する。同様にして、文書受信部22で受信した文書を文書格納部24に格納する。以下に、各処理部名称と処理部が含まれる場所及び各機能を示す。
1.制御部(収集エージェント)
文書収集装置の処理は、収集エージェント10が、主体となって文書収集を行い、制御部1は、タイマにより起動を制御され、適切な収集スケジュールが設定されている。最初に、制御部1は、文書属性取得部2を起動し、文書属性取得要求を発行させる。この文書属性取得により収集エージェント10の収集処理が開始される。また、制御部1は、文書属性所得部2だけでなく、文書属性送信部4、文書取得部3、文書送信部5の制御を行う。
文書収集装置の処理は、収集エージェント10が、主体となって文書収集を行い、制御部1は、タイマにより起動を制御され、適切な収集スケジュールが設定されている。最初に、制御部1は、文書属性取得部2を起動し、文書属性取得要求を発行させる。この文書属性取得により収集エージェント10の収集処理が開始される。また、制御部1は、文書属性所得部2だけでなく、文書属性送信部4、文書取得部3、文書送信部5の制御を行う。
2.文書属性所得部(収集エージェント)
収集エージェント10は、様々な文書が保管されているドキュメントマネージメントシステム(DMS)、データベース、ファイルシステムの様な文書リポジトリ7に対して、収集対象となっている文書について、文書属性情報を取得する。文書属性情報とは、文書名、更新日時、文書サイズ、所在情報、作成者、文書タイプなどで構成された情報のセットが1つ以上含まれているものを表す。文書リポジトリ7は、そのタイプにより文書属性の取得方法が異なる為、文書属性取得部は、それぞれの文書リポジトリ7に対して、図示していない複数の文書リポジトリ7からの属性情報を取得する。収集エージェント10は、収集する文書リポジトリ7の種類に応じ、1つまたは、複数の文書属性取得部2を持つ構造をとる。取得する文書属性情報は、コンテンツを持つ文章だけでなく、フォルダなどのコンテナ(文書を保管しておくディレクトリや収納領域、以下コンテナという)についても、その取得の対象としている。
収集エージェント10は、様々な文書が保管されているドキュメントマネージメントシステム(DMS)、データベース、ファイルシステムの様な文書リポジトリ7に対して、収集対象となっている文書について、文書属性情報を取得する。文書属性情報とは、文書名、更新日時、文書サイズ、所在情報、作成者、文書タイプなどで構成された情報のセットが1つ以上含まれているものを表す。文書リポジトリ7は、そのタイプにより文書属性の取得方法が異なる為、文書属性取得部は、それぞれの文書リポジトリ7に対して、図示していない複数の文書リポジトリ7からの属性情報を取得する。収集エージェント10は、収集する文書リポジトリ7の種類に応じ、1つまたは、複数の文書属性取得部2を持つ構造をとる。取得する文書属性情報は、コンテンツを持つ文章だけでなく、フォルダなどのコンテナ(文書を保管しておくディレクトリや収納領域、以下コンテナという)についても、その取得の対象としている。
3.文書属性送信部(収集エージェント)
文書属性送信部4は、文書属性取得部2で取得した文書属性情報を、収集サーバ20に送信する機能を持つ。また、送信に失敗した際に文書属性情報を再送信する機能も有している。また、文書属性情報は、共通のコンテナを親に持つ文書、およびコンテナを1つのリストにして送信される。
文書属性送信部4は、文書属性取得部2で取得した文書属性情報を、収集サーバ20に送信する機能を持つ。また、送信に失敗した際に文書属性情報を再送信する機能も有している。また、文書属性情報は、共通のコンテナを親に持つ文書、およびコンテナを1つのリストにして送信される。
4.文書属性受信部(収集サーバ)
文書属性受信部21は、収集エージェント10より送信された文書属性情報を受信し、文書属性格納部23に格納されている文書属性情報と、受信した文書属性情報を比較し、差分を検出する。差分を検出した結果、新規、更新された文書について、文書属性格納部の当該情報を追加、更新し、さらに受信した文書属性情報に対する返信として、文書送信要求情報を収集エージェント10に返す。収集エージェント10に文書返信要求を行った文書について、文書属性格納部23の文書の状態を図示しない‘文書受信待ち’にする。また、差分検出の結果、削除、変化なしと判断された文書については、受信した文書属性情報に対する返信情報中に文書送信要求情報を含まない。
文書属性受信部21は、収集エージェント10より送信された文書属性情報を受信し、文書属性格納部23に格納されている文書属性情報と、受信した文書属性情報を比較し、差分を検出する。差分を検出した結果、新規、更新された文書について、文書属性格納部の当該情報を追加、更新し、さらに受信した文書属性情報に対する返信として、文書送信要求情報を収集エージェント10に返す。収集エージェント10に文書返信要求を行った文書について、文書属性格納部23の文書の状態を図示しない‘文書受信待ち’にする。また、差分検出の結果、削除、変化なしと判断された文書については、受信した文書属性情報に対する返信情報中に文書送信要求情報を含まない。
差分検出の結果、削除と判断された文書については、文書属性格納部23より、当該文書属性情報を削除し、文書格納部24に文書が格納されている場合は、文書を削除する。また、文書属性情報にはコンテナが含まれており、コンテナの削除を検出した場合は、文書属性格納部23より、該当するコンテナの下位階層に含まれる文書属性、及び文書を削除する。これにより、収集エージェント10は、コンテナの下位階層に含まれる文書属性の削除を送信する必要がないため、送信する文書属性情報が削減できる。
5.文書属性格納部(収集サーバ)
文書属性格納部23は、文書属性受信部21で受信した文書属性情報を格納する。格納されている文書属性情報は、新たに文書属性情報を受信した際に差分を検出する為に用いられる。さらに、文書属性受信部21は、差分検出の結果、文書属性情報の追加、更新、削除要求を出し、文書属性格納部23は、該当文書属性情報を追加、更新、削除する。
文書属性格納部23は、文書属性受信部21で受信した文書属性情報を格納する。格納されている文書属性情報は、新たに文書属性情報を受信した際に差分を検出する為に用いられる。さらに、文書属性受信部21は、差分検出の結果、文書属性情報の追加、更新、削除要求を出し、文書属性格納部23は、該当文書属性情報を追加、更新、削除する。
6.文書取得部(収集エージェント)
文書取得部3は、収集サーバからの文書送信要求に応じて、要求された文書を文書リポジトリ7から取得する。文書属性取得部2と同様、文書リポジトリはそのタイプにより文書の取得の方法が異なるため、文書取得部3は、それぞれの文書リポジトリタイプに固有である。文書取得部3は、文書リポジトリの種類に応じて1つ又は複数の文書取得部3を持つ構成となっている。
文書取得部3は、収集サーバからの文書送信要求に応じて、要求された文書を文書リポジトリ7から取得する。文書属性取得部2と同様、文書リポジトリはそのタイプにより文書の取得の方法が異なるため、文書取得部3は、それぞれの文書リポジトリタイプに固有である。文書取得部3は、文書リポジトリの種類に応じて1つ又は複数の文書取得部3を持つ構成となっている。
7.文書送信部(収集エージェント)
文書送信部5は、文書属性情報の送信の結果、その返信として要求される‘受信の返信’の文書送信要求に応じた該当文書について、文書取得部3に取得要求を発行し、文書取得を行い、取得した文章の送信を行う。なお、文書送信は、圧縮して送信することも可能である。また、送信に失敗した際に文書を再送信する機能を併せ持つ。
文書送信部5は、文書属性情報の送信の結果、その返信として要求される‘受信の返信’の文書送信要求に応じた該当文書について、文書取得部3に取得要求を発行し、文書取得を行い、取得した文章の送信を行う。なお、文書送信は、圧縮して送信することも可能である。また、送信に失敗した際に文書を再送信する機能を併せ持つ。
8.文書受信部(収集サーバ)
文書受信部22は、収集エージェント10の文書送信部5より送られた文書を受け取り、文書格納部24に保存する機能を持つ。文書が圧縮されて送信された場合は、あらかじめ設定されているオプション指定により、圧縮したまま保存又は圧縮を解いてから保存する。
文書受信部22は、収集エージェント10の文書送信部5より送られた文書を受け取り、文書格納部24に保存する機能を持つ。文書が圧縮されて送信された場合は、あらかじめ設定されているオプション指定により、圧縮したまま保存又は圧縮を解いてから保存する。
9.文書格納部(収集サーバ)
文書格納部24は、上記文書受信部より受信した文書を格納する。また、文書削除要求に応じて格納されている文書を削除する機能も併せ持つ。
文書格納部24は、上記文書受信部より受信した文書を格納する。また、文書削除要求に応じて格納されている文書を削除する機能も併せ持つ。
図2は、第1の実施形態における収集エージェントと収集サーバの処理を示すフローチャートである。図2と図1を用いて文書収集装置の処理の流れを説明する。
処理が開始されると、制御部1が有しているタイマによりあらかじめ決められたスケジュールに従い起動処理が行われ(ステップS1)、文書属性取得部2が文書リポジトリ7から指定された文書の属性情報を取得する(ステップS2)。次に、属性情報は文書属性送信部4によりファイアウォール11とインターネット12を介して収集サーバ20の文書属性受信部21に送信される(ステップS3)。受信した属性情報は文書属性受信部21で処理され、文書属性格納部23から該当する文書の属性情報を読み出し(ステップS16)、受信した属性情報と差分を比較判定する(ステップS9)。
比較判定(ステップS9)の結果、変化なしの場合は、文書属性リストの返信を行う(ステップS12)。新規、更新の場合は、文書送信要求リストに追加(ステップS10)し、文書属性格納部23に文書属性の更新を行い(ステップS11)、文書属性リストの返信(ステップS12)に移り、文書送信要求として、文書名と送信情報を文書属性送信部4に‘受信の返信’として返信する。制御部1は、文書送信要求を読み出し(ステップS3)、‘新規、更新’の場合はステップS4にて、文書の送信要求ありとして文書取得(ステップS5)に移る。また、文書送信要求リストが空の場合はステップS4にて、送信情報に要求なしとして起動処理(ステップS1)に戻る。また、‘新規’又は‘更新’の場合は、文書取得部3は、文書リポジトリ7から文書を取得し(ステップS5)、文書送信部5からファイアウォール11とインターネット12を介して文書受信部22に送信する(ステップS6)。
ステップS6で送信された文書は、文書受信部22で受信され(ステップS17)、文書格納部24に一時格納される(ステップS15)。
収集エージェント10の関連する文書送信が終了(ステップS6)したことを確認し(ステップS7)、関連文書の送信が終了していない場合は文書取得(ステップS5)に戻りリストに従い送信を行う。もし、送信する文書が終了している場合は、全送信完了(ステップS7)判定をして、送信完了であれば、最初の起動処理(ステップS1)に戻る。
収集サーバの差分判定(ステップS9)において、文書が削除されていると判定すると、文書に関連する文書属性の削除(ステップS13)において、文書属性格納部23より、当該文書属性情報を削除し、文書格納部24に文書が格納されている場合は、文書を削除する(ステップS16)。また、文書属性情報にはコンテナが含まれており、コンテナの削除を検出した場合は、文書属性格納部23より、該当するコンテナの下位階層に含まれる文書属性(ステップS13)、及び文書を削除する(ステップS14)。これらの削除処理が行われた後、文書属性リストの返信(ステップS12)を行う。これらの一連の処理により、文書リポジトリ7の文書属性と文書が収集サーバ20に格納される。
図3は、第1の実施形態における複数の文書リポジトリ7と収集エージェント10の構成を示す構成図である。図3を用いて複数の文書リポジトリ7を処理する収集エージェント10の構成を説明する。図2では文書リポジトリ7を1つで示したが、文書リポジトリ7は、Web文書リポジトリ7a、DMS文書リポジトリ7b、Microsoft Windows(登録商標)ファイルシステム又はMacintosh(登録商標)ファイルシステムなどの文書を記憶している文書リポジトリ7cから各ファイル形式に固有の文書格納部を設けられている。これらの文書リポジトリの文書情報と文書を変換する変換部は、Web文書リポジトリに対応する文書属性/文書変換部9a、DMS文書リポジトリに対応する文書属性/文書変換部9b、Microsoft Windows(登録商標)ファイルシステム又はMacintosh(登録商標)ファイルシステムに対応する文書属性/文書変換部9cを有している。それぞれの取得部で取得し、統一ファイル形式又は一般形式に変換された文書属性と文書は、文書属性取得部2と文書取得部3に送られる。文書属性送信部4と文書送信部5から送られた文書属性と文書は、ファイアウォール11とインターネット12を介して収集サーバ20へ送信される。
このように、文書リポジトリはそのタイプにより文書の取得の方法が異なるため、文書属性/文書変換部9a〜9cは、それぞれの文書リポジトリタイプに固有であり、文書リポジトリの種類に応じて1つ又は複数の文書取得部を持つ構成となっている。本実施例では、文書リポジトリ毎に変換部を設けたが、1つの変換部で複数の変換機能を設けて処理することも好適に処理されるのは言うまでもない。
図4は、第2の実施形態における収集エージェント内に文書属性格納部を設けた文書収集装置の全体構成図である。さらに、図5は、第2の実施形態における収集エージェント内に文書属性格納部を設け更に複数の文書サーバと収集エージェントの構成を示す構成図である。図4、図5を用いて第2の実施形態について説明する。第1の実施形態との違いは、収集エージェント内に文書属性格納部6を備えた点が異なる。
1.文書属性格納部(収集エージェント)
図4に示す収集エージェント10は、文書属性取得部2で取得した文書属性を、文書属性格納部に保存し、次回の送信時に差分検出を行う。文書属性を取得し、予め文書属性格納部6に格納した文書属性を収集エージェント内で差分を検出するため、動作上は変わりないが、収集エージェントで差分検出を行うことで、新規、更新、削除と判定された文書のみ送信するため、文書属性情報量が少なく、通信コストを抑えた効率の良い収集が実現できる。同様に図5に示す構成図は、文書属性取得部から文書属性格納部に格納する形式ではなく、文書属性送信部4から文書属性格納部に格納することにより、複数の文書リポジトリに対応することが可能となる。
図4に示す収集エージェント10は、文書属性取得部2で取得した文書属性を、文書属性格納部に保存し、次回の送信時に差分検出を行う。文書属性を取得し、予め文書属性格納部6に格納した文書属性を収集エージェント内で差分を検出するため、動作上は変わりないが、収集エージェントで差分検出を行うことで、新規、更新、削除と判定された文書のみ送信するため、文書属性情報量が少なく、通信コストを抑えた効率の良い収集が実現できる。同様に図5に示す構成図は、文書属性取得部から文書属性格納部に格納する形式ではなく、文書属性送信部4から文書属性格納部に格納することにより、複数の文書リポジトリに対応することが可能となる。
本発明の第1と第2の実施形態は、従来型のロボット収集を行っている検索サービスへの適用はもちろん、検索代行サービスのように、契約ユーザの保有している文書を収集し、検索インデックスを作成し、検索サービスを提供する形態(ASP)に適している。契約ユーザの保有している文書は、公開文書は除き、多くの場合ファイアウォールなどで守られており、サービス事業者からのアクセスが不可能である。このような環境でも、本発明の一実施形態を適用することで文書収集が可能となり、検索サービスを提供することが可能になることは言うまでもない。
1 制御部、2 文書属性所得部、3 文書取得部、4 文書属性送信部、5 文書送信部、6 文書属性格納部、7 文書リポジトリ、9 文書属性/文書変換部、10 収集エージェント、11 ファイアウォール、12 インターネット、20 収集サーバ、21 文書属性受信部、22 文書受信部、23 文書属性格納部、24 文書格納部。
Claims (8)
- 複数の文書を格納している文書サーバから各文書の文書属性と文書を収集し、ファイアウォールで制限されたネットワークを介して文書属性と文書を送信する収集エージェントと、
送信された文書属性と文書を受信する収集サーバと、を含む文書収集装置であって、
収集エージェントは、
各文書の文書属性と文書を文書サーバから取得する取得手段と、
ファイアウォールを介して文書属性と文書を収集サーバに送信する送信手段とを有し、
収集サーバは、
収集エージェントより送信された文書属性を受信し、予め記憶されている文書属性と受信した文書属性との差分を検出し、ファイアウォールを介した受信に対する文書送信要求を収集エージェントに返信する返信手段と、
文書送信要求に対し、収集エージェントから返信された文書を収集サーバが受信する文書受信手段と、
受信した文書の文書属性を抽出して記憶を更新する属性記憶手段と、
を有することを特徴とする文書収集装置。 - 請求項1に記載の文書収集装置において、
収集エージェントの取得手段は、
複数の文書の記憶形式に応じた複数の属性取得手段と複数の文書取得手段とを含むことを特徴とする文書収集装置。 - 複数の文書を格納している文書サーバから、収集エージェントが各文書の文書属性と文書を取得する取得工程と、ファイアウォールで制限されたネットワークを介して文書属性と文書を収集サーバに送信する送信工程と、収集サーバが文書属性と文書を受信する受信工程とを有する文書収集方法であって、
各文書の文書属性を文書サーバから取得する属性取得工程と、
ファイアウォールを介して文書属性を収集サーバに送信する属性送信工程と、
送信された文書属性を収集サーバが受信する属性受信工程と、
予め記憶されている文書属性と受信した文書属性との差分を検出し、更新又は新規の場合には、ファイアウォールを介した受信に対する文書送信要求を収集エージェントに返信する返信工程と、
文書送信要求に対し、収集エージェントが文書を取得する文書取得工程と、
収集サーバにファイアウォールを介して文書を送信する文書送信工程と、
送信された文書を収集サーバが受信する文書受信工程と、
受信した文書の文書属性を抽出して記憶を更新する属性記憶工程と、
を備えることを特徴とする文書収集方法。 - 請求項3に記載の文書収集方法において、
収集エージェントの属性取得工程と文書取得工程は、
複数の文書の記憶形式に応じた複数の属性取得工程と複数の文書取得工程とを有することを特徴とする文書収集方法。 - 請求項3に記載の文書収集方法において、
収集エージェントの属性取得工程と属性送信工程は、
予め決められた時刻に起動され、各文書の文書属性を文書サーバから取得する際に文書の保存されている上位階層から下位階層に向かって階層毎に文書をサーチして文書サーバから文書属性を取得し、ファイアウォールを介して収集サーバに送信することを特徴とする文書収集方法。 - 複数の文書を格納している文書サーバから、収集エージェントが各文書の文書属性と文書を取得する取得ステップと、ファイアウォールで制限されたネットワークを介して文書属性と文書を収集サーバに送信する送信ステップと、収集サーバが文書属性と文書を受信する受信ステップとを有する文書収集プログラムであって、
各文書の文書属性を文書サーバから取得する属性取得ステップと、
ファイアウォールを介して文書属性を収集サーバに送信する属性送信ステップと、
送信された文書属性を収集サーバが受信する属性受信ステップと、
予め記憶されている文書属性と受信した文書属性との差分を検出し、更新又は新規の場合には、ファイアウォールを介した受信に対する文書送信要求を収集エージェントに返信する返信ステップと、
文書送信要求に対し、収集エージェントが文書を収集サーバにファイアウォールを介して送信する文書送信ステップと、
送信された文書を収集サーバが受信する文書受信ステップと、
受信した文書の文書属性を抽出して記憶を更新する属性記憶ステップと、
を有することを特徴とする文書収集プログラム。 - 請求項6に記載の文書収集プログラムにおいて、
収集エージェントの属性取得ステップと文書取得ステップは、
複数の文書の記憶形式に応じた複数の属性取得ステップと複数の文書取得ステップとを含むことを特徴とする文書収集プログラム。 - 請求項6に記載の文書収集プログラムにおいて、
収集エージェントの属性取得ステップと属性送信ステップは、
予め決められた時刻に起動され、各文書の文書属性を文書サーバから取得する際に文書の保存されている上位階層から下位階層に向かって階層毎に文書をサーチして文書サーバから文書属性を取得し、ファイアウォールを介して収集サーバに送信することを特徴とする文書収集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003425070A JP2005182623A (ja) | 2003-12-22 | 2003-12-22 | 文書収集装置、文書収集方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003425070A JP2005182623A (ja) | 2003-12-22 | 2003-12-22 | 文書収集装置、文書収集方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005182623A true JP2005182623A (ja) | 2005-07-07 |
Family
ID=34785065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003425070A Pending JP2005182623A (ja) | 2003-12-22 | 2003-12-22 | 文書収集装置、文書収集方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005182623A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012530292A (ja) * | 2009-06-12 | 2012-11-29 | マイクロソフト コーポレーション | コンテンツメッシュ検索 |
-
2003
- 2003-12-22 JP JP2003425070A patent/JP2005182623A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012530292A (ja) * | 2009-06-12 | 2012-11-29 | マイクロソフト コーポレーション | コンテンツメッシュ検索 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4594586B2 (ja) | ネットワーク・クライアントにおいて情報を処理するための方法およびシステム | |
JP4270992B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、サービス提供装置、サービス提供方法、サービス提供プログラム及び記録媒体 | |
US8423560B2 (en) | Filter range bound paged search | |
EP1215596A2 (en) | Information collection server with content conversion and synchronization for mobile clients | |
US6961751B1 (en) | Method, apparatus, and article of manufacture for providing enhanced bookmarking features for a heterogeneous environment | |
KR20110122834A (ko) | 네트워크-기반 주소록 시스템에서 다수의 연락처 정보 소스를 취합하는 시스템 및 방법 | |
KR100855997B1 (ko) | 전자 문서의 구성 가능한 변환 방법 | |
EP1158746B1 (en) | Apparatus and method for transferring to another terminal information transmitted from server to client | |
JP2004164623A (ja) | 表示データ生成装置、表示データ生成システム、表示データ生成方法、表示データ生成プログラム及び記録媒体 | |
US6952723B1 (en) | Method and system for correcting invalid hyperlink address within a public network | |
EP1204040A2 (en) | Method for managing alterations of contents | |
JP5049172B2 (ja) | リバースプロキシシステム | |
JPH1115716A (ja) | 文書更新通知装置および文書更新通知方法 | |
US7085807B2 (en) | System and method for providing links to available services over a local network by a thin portal service configured to access imaging data stored in a personal imaging repository | |
US20100037129A1 (en) | Electronic Document Request/Supply Method Based on XML | |
JP2005182623A (ja) | 文書収集装置、文書収集方法及びプログラム | |
JP2000122912A (ja) | 資源収集方法及び資源収集装置 | |
US6993525B1 (en) | Document-database access device | |
JPH11203321A (ja) | メタ情報管理機能を備えた情報提供装置 | |
US20110126090A1 (en) | Component cooperation device, a component cooperation method, a method of updating components of a web page and a program thereof | |
JP2003271647A (ja) | 閲覧ファイルデータ提供方法、閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体 | |
GB2353615A (en) | Selecting items such as data files | |
KR100625450B1 (ko) | 푸시시스템에서의 사용자 정의 긴급 메시지 처리 방법 | |
JP2006202307A (ja) | 情報管理方法及び情報管理システム及びそれに用いられるサーバ装置 | |
JP2006178526A (ja) | リソース提供システム、仲介エージェント、リソース提供方法、およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100105 |