JPH09311802A - 文書収集装置 - Google Patents

文書収集装置

Info

Publication number
JPH09311802A
JPH09311802A JP8149784A JP14978496A JPH09311802A JP H09311802 A JPH09311802 A JP H09311802A JP 8149784 A JP8149784 A JP 8149784A JP 14978496 A JP14978496 A JP 14978496A JP H09311802 A JPH09311802 A JP H09311802A
Authority
JP
Japan
Prior art keywords
document
time
access
update
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8149784A
Other languages
English (en)
Inventor
Takeshi Ueno
剛 上野
Yoshihiro Noguchi
喜洋 野口
Mitsuhiro Sato
光弘 佐藤
Mikito Ishikawa
幹人 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8149784A priority Critical patent/JPH09311802A/ja
Publication of JPH09311802A publication Critical patent/JPH09311802A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 ネットワーク上にある文書を収集する時に、
常に最新の文書情報を自動的にかつ効率良く収集するた
めの文書収集装置を提供すること。 【解決手段】 アクセス制御手段105からの起動によ
り、ネットワーク上の文書位置と文書名の対応を管理す
る格納位置管理手段101を用いて文書アクセス手段102が
ネットワーク上の文書群から目的の文書を収集し、文書
格納手段103に格納し、時間計測手段106により、その時
の時刻を取得履歴記録手段106に記録し、その後の文書
収集で前記取得履歴記録手段104に記録された時刻以降
に更新された文書のみを収集する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上に
配置された文書群のデータを該ネットワークに接続され
た特定の計算機内に自動的に収集する文書収集装置に関
し、特に文書の取得履歴を記録し、その取得履歴に基づ
き最新文書の取得を自動的に行なう文書収集装置に関す
るものである。
【0002】
【従来の技術】従来、ネットワーク上の文書群のデータ
を自動的に収集する方法として、図11に示すネットワ
ークロボットと呼ばれる文書収集手段がある。このネッ
トワークロボットは、ネットワーク上の文書群の格納位
置を与えて置くと、その文書群のデータを自動的に収集
してくる機構である。このネットワークロボットの構成
は図12のようになる。
【0003】また、特開平6−301577号公報のよ
うに、情報源に固有の知識を持ち、その情報源に文書収
集装置を派遣し最新の情報を得るものがある。
【0004】
【発明が解決しようとする課題】しかしながら、前記従
来のネットワークロボットでは,指定された文書を指定
された順序に従ってすべて収集するため、ネットワーク
上での文書の更新のパターンによっては、古いデータを
収集してしまう、前回収集時以降更新されていないため
に収集する必要のない文書を収集してしまう、文書への
アクセスに関わるデータ伝送率などの資源を有効に利用
できないなどの欠点があった。
【0005】また、情報源に文書収集装置を派遣するも
のは、派遣された情報源で情報の更新の有無をチェック
するため、複数の情報源を考慮した場合の収集の最適化
や資源の有効利用が困難であり、文書収集の効率化に限
界があった。
【0006】本発明は、前記従来の課題を解決するもの
で、ネットワーク上にある文書を収集する際に、常に最
新の文書情報を自動的にかつ効率良く収集するための文
書収集装置を提供することを目的とする。
【0007】
【課題を解決するための手段】この課題を解決するた
め、本発明は、文書収集をする文書アクセス手段と,そ
れを駆動するアクセス制御手段をもうけ、文書の取得履
歴を記録し、その取得履歴に基づき、最新文書の取得を
自動的に行なうようにする。
【0008】
【発明の実施の形態】本発明の請求項1記載の発明は、
ネットワーク上に分散格納された文書群を自動的に収集
する文書収集装置において、文書収集をする文書アクセ
ス手段と,それを駆動するアクセス制御手段をもうけ、
前回収集した時点以降に更新された文書のみを収集する
ことを特徴とする文書収集装置であり、最新の文書を効
率的に収集保持できるという作用を有する。
【0009】本発明の請求項2記載の発明は、文書が格
納されているネットワーク上の位置と文書の対応を管理
する格納位置管理手段と、ネットワーク上の文書の内容
を読み込む文書アクセス手段と、読み込んだ文書の内容
を記憶する文書格納手段と、時間を計測する時間計測手
段と、前記文書を読み込んだ日時を前記時間計測手段か
らの時刻で記録する取得履歴記録手段と、前記文書を最
後に取得した取得日時とネットワーク上での前記文書の
更新日時を比較して前回収集した時点以降に更新された
文書のみを収集するために前記文書アクセス手段を制御
するアクセス制御手段から構成されることを特徴とする
文書収集装置であり、請求項1記載の発明と同様な作用
を有する。
【0010】本発明の請求項3記載の発明は、文書とと
もに得られた更新日時を更新履歴として記録する更新履
歴記録手段を更に備え、前記更新履歴記録手段に記録さ
れた文書毎の複数の更新日時の記録により、前記アクセ
ス制御手段が前記文書の平均的な更新周期を計算し前記
文書を前記更新周期毎かつ予測される更新日時の直後に
取得するように前記時間計測手段を利用して前記文書ア
クセス手段を制御することを特徴とする請求項2記載の
文書収集装置としたものであり、適切な更新時刻を予想
して文書収集することができるため、一度に文書収集す
る場合に比べ負荷の分散をすることができるという作用
と、常に最新の文書を収集保持することができるという
作用を有する。
【0011】本発明の請求項4記載の発明は、前記更新
履歴記録手段に記録された文書毎の複数の更新日時の記
録により更新パターンを抽出する更新パターン抽出手段
と、その更新パターンを記録する更新パターン記憶手段
とを更に備え、前記文書を前記更新パターンに合わせか
つ予測される更新日時の直後に取得するように前記文書
アクセス手段を制御することを特徴とする請求項3記載
の文書収集装置としたものであり、更新パターンを抽出
し、その更新パータン毎に文書を収集することで、更新
パターンにあった時だけ文書収集し、平均的に最新の文
書収集ができるという作用を有する。
【0012】本発明の請求項5に記載の発明は、文書の
アクセス時間と前記文書のアクセスに関する平均データ
伝送率を記録するデータ伝送率記録手段を更に備え、前
記文書アクセス制御手段が平均データ伝送率の大きい文
書を優先して取得するように前記文書アクセス手段を制
御することにより効率的な収集を可能にしたことを特徴
とする請求項2記載の文書収集装置としたものであり、
平均データ伝送率の小さいいくつかの文書を収集しない
ことなどにより、効率的な文書収集が可能であるという
作用を有する。
【0013】本発明の請求項6に記載の発明は、前記デ
ータ伝送率記録手段に記録された前記文書のアクセスに
関する平均データ伝送率に基づき、前記文書アクセス制
御手段が平均データ伝送率の異なる複数の文書へのアク
セスを組み合せたアクセスプランを作成し、前記文書ア
クセス手段が複数の文書を並行にアクセスすることによ
り、ネットワーク資源から得られる可能な限りのデータ
伝送率をより均一かつ効率的に利用できるようにしたこ
とを特徴とする請求項5記載の文書収集装置としたもの
であり、前記ネットワーク資源から得られる可能な限り
のデータ伝送率をより均一かつ効率的に利用できるとい
う作用を有する。
【0014】以下、本発明の実施の形態について、図1
から図10を用いて説明する。
【0015】(第1の実施の形態)本発明の第1の実施
の形態について、図1を参照しながら説明する。図1は
本発明の第1の実施の形態における文書収集装置の構成
を示す概念図である。図1において、文書収集装置は、
文書が格納されているネットワーク上の位置と文書の対
応を管理する格納位置管理手段101と、ネットワーク上
の文書の内容を読み込む文書アクセス手段102と、読み
込んだ文書の内容を記憶する文書格納手段103と、前記
文書を読み込んだ日時を後記する時間計測手段106から
の時刻で記録する取得履歴記録手段104と、前記文書を
最後に取得した取得日時とネットワーク上での前記文書
の更新日時を比較して前回収集した時点以降に更新され
た文書のみを収集するために前記文書アクセス手段102
を制御するアクセス制御手段105と、時間を計測する時
間計測手段106とから構成されている。
【0016】以上のように構成された文書収集装置につ
いて、以下その動作を説明する。図2は文書収集装置の
動作手順を示す。
【0017】まず、ステップ202において、アクセス制
御手段105が文書アクセス手段102を起動する。ところ
で、格納位置管理手段101には文書アクセス手段102がア
クセスするネットワークでの文書の位置と文書名が格納
されている。
【0018】例えば、文書名、文書位置の順に、 ”文書A http://a/b/cl.html” のような記述が複数格納されているとする。
【0019】また、履歴記録手段104は、前回に文書を
取得した文書名とその取得日時が、例えば、 ”文書A Got 1996-03-18-10:55:30” のように記録されている。
【0020】ステップ203では、格納位置管理手段101の
文書名、文書位置の組を全てチェックしたか判定する。
まだ、何もチェックしていないので、ステップ204に進
む。
【0021】ステップ204において、文書アクセス手段1
02は、格納位置管理手段101から文書名、文書位置を一
つ得る。また、履歴記録手段104から文書名にマッチす
る取得時間を得て、それらを使用してネットワークから
目的の文書を得る。例えば、 ”文書A http://a/b/cl.html”と”文書A Got 1996-03-
18-10:55:30” から文書格納手段103に、前回取得した日時以降に更新
された文書のみを得る。
【0022】また、履歴記録手段104に時間計測手段106
から現在の時刻を得て、 ”文書A Got 1996-04-18-10:55:30” のようにその内容を更新する。
【0023】この動作を、ステップ203において、格納
位置管理手段101内の文書名、文書位置の組を全てチェ
ックし終わるまで繰り返す。
【0024】以上のように、第1の実施の形態によれ
ば、最新の文書収集を自動的に行なってこれを保持する
ことができるという効果を有する。
【0025】(第2の実施の形態)本発明の第2の実施
の形態について、図3を参照しながら説明する。図3は
本発明の第2の実施の形態における文書収集装置の構成
を示す概念図である。図3において、文書収集装置は、
文書が格納されているネットワーク上の位置と文書の対
応を管理する格納位置管理手段301と、ネットワーク上
の文書の内容を読み込む文書アクセス手段302と、読み
込んだ文書の内容を記憶する文書格納手段303と、前記
文書を読み込んだ日時を後記する時間計測手段306から
の時刻で記録する取得履歴記録手段304と、前記文書を
最後に取得した取得日時とネットワーク上での前記文書
の更新日時を比較して前回収集した時点以降に更新され
た文書のみを収集するために前記文書アクセス手段302
を制御するアクセス制御手段305と、時間を計測する時
間計測手段306と、文書が更新された日時を記録する更
新履歴記録手段307とから構成されている。
【0026】以上のように構成された文書収集装置につ
いて、以下その動作を説明する。図4は文書収集装置の
動作手順を示す。
【0027】まず、更新履歴記録手段307は、文書名と
その文書が更新された日時の履歴を、例えば、 のように記録しているものとする。
【0028】そこで、ステップ402において、アクセス
制御手段305は、更新履歴記録手段307内の更新データか
ら、平均的な更新周期を計算し、最後に更新された日時
にその平均周期を加えた時刻(予想更新時刻)を計算す
る。
【0029】次にステップ403において、時間計測手段3
06から現在の時刻を得て、予想更新時刻を経過したか判
定する。
【0030】そして、ステップ404において、予想更新
時刻を経過したら、その文書を文書アクセス手段302を
起動することでアクセスする。例えば、この例では、文
書Aは、平均更新周期は約1カ月なので、最後の ”Modified 1996-05-01-10:02:00” に1カ月を加えた ”Modified 1996-06-01-10:02:00” の時刻(予想更新時刻)を経過したら、目的の文書Aに
文書アクセス手段302を起動してアクセスする。
【0031】ここで、格納位置管理手段301には、文書
アクセス手段302がアクセスするネットワークでの文書
の位置と文書名を格納されているものとする。例えば、
文書名、文書位置の順に、 ”文書A http://a/b/cl.html” のような記述が複数格納されているとする。
【0032】また、取得履歴記録手段304には、前回に
文書を取得した文書名とその取得日時が、 ”文書A Got 1996-03-18-10:55:30” のように記録されているものとする。
【0033】ステップ405において、文書アクセス手段3
02が格納位置管理手段301からアクセス制御手段305で指
定された文書名と文書位置を一つ得る.取得履歴記録手
段304から文書名にマッチする取得時間を得て、それら
を使用してネットワークから目的の文書を得る。例え
ば、 ”文書A http://a/b/c1.html”と”Got 1996-03-18-10:
55:30” から文書格納手段303に前回取得した日時以降に更新さ
れた文書のみを得る。
【0034】また、取得履歴記録手段304に時間計測手
段306から現在の時刻を得て ”文書A Got 1996-06-01-10:03:30” のようにその内容を更新する。また、更新履歴記録手段
307に取得文書の更新日時を追加する。そして、ステッ
プ402から繰り返す。
【0035】以上のように、第2の実施の形態によれ
ば、常に最新の文書収集を自動的に行なってこれを保持
することができるという効果を有する。
【0036】(第3の実施の形態)本発明の第3の実施
の形態について、図5を参照しながら説明する。図5は
本発明の第3の実施の形態における文書収集装置の構成
を示す概念図である。図5において、文書収集装置は、
文書が格納されているネットワーク上の位置と文書の対
応を管理する格納位置管理手段501と、ネットワーク上
の文書の内容を読み込む文書アクセス手段502と、読み
込んだ文書の内容を記憶する文書格納手段503と、前記
文書を読み込んだ日時を時間計測手段506からの時刻で
記録する取得履歴記録手段504と、前記文書を最後に取
得した取得日時とネットワーク上での該文書の更新日時
を比較して前回収集した時点以降に更新された文書のみ
を収集するために文書アクセス手段502を制御するアク
セス制御手段505と、時間を計測する時間計測手段506
と、文書が更新された日時を記録する更新履歴記録手段
507と、更新履歴記録手段507から各文書の更新パターン
を抽出する更新パターン抽出手段508と、更新パターン
抽出手段508が抽出した更新パターンを記録する更新パ
ターン記録手段509とから構成されている。
【0037】以上のように構成された文書収集装置につ
いて、以下その動作を説明する。図6は文書収集装置の
動作手順を示す。
【0038】まず、更新履歴記録手段507は、文書名と
その文書が更新された日時の履歴を、例えば、 のように記録しているものとする。
【0039】そしてステップ602において、更新パター
ン抽出手段508は、更新履歴記録手段507内の文書履歴か
ら、各文書の平均的な更新周期を計算し、同じ更新周期
に対応する各文書を更新パターンとして、更新パターン
記録手段509に記録する。
【0040】ところで、更新パターン記録手段509は、
更新パターンと文書名を、 ”1年毎:文書B,文書C”と”1ヶ月:文書A” のように記録しているものとする。これは、文書B、文
書Cは1年毎に、文書Aは1カ月毎に更新していることを
表す。
【0041】ステップ603において、アクセス制御手段5
05は、更新パターン記録手段509から更新周期が短いも
のから順に更新周期とこの更新周期に属する文書名を得
る。さらに更新履歴記録手段507から一致する文書名
で、最後に更新された日時に、この更新周期を加えた日
時(予想更新時刻)を計算する。これを全ての更新時刻
について行ない、得られた予想更新時刻を時刻の早いも
のから順にソートする。
【0042】ステップ604において、時間計測手段506か
ら得た現在時刻は、ソートされた予想更新時刻にあるか
判定する。
【0043】ステップ605において、予想更新時刻を経
過したものがあれば、その文書を文書アクセス手段502
を起動することでアクセスする。例えば、この例では、
文書Aは平均更新周期は約1ヶ月なので、最後の ”Modified 1996-05-01-10:02:00” に1ヶ月を加えた ”Modified 1996-06-01-10:02:00” の時刻(予想更新時刻)を経過したら、目的の文書Aに
文書アクセス手段502を起動してアクセスする。
【0044】ここで、格納位置管理手段501には、文書
アクセス手段502がアクセスするネットワークでの文書
の位置と文書名を格納されているものとする。例えば、
文書名、文書位置の順に、 ”文書A http://a/b/cl.html” のような記述が複数格納されているとする。
【0045】また、取得履歴記録手段504には、前回に
文書を取得した文書名とその取得日時が、 ”文書A Got 1996-03-18-10:55:30” のように記録されているものとする。
【0046】ステップ606において、文書アクセス手段5
02が格納位置管理手段501からアクセス制御手段505で指
定された文書名と一致する文書位置を得る。また、取得
履歴記録手段504から文書名にマッチする取得時間を得
て、それらを使用してネットワークから目的の文書を得
る。例えば、 ”文書A http://a/b/cl.html”と”文書A Got 1996-03-
18-10:55:30” から文書格納手段503に前回取得した日時以降に更新さ
れた文書のみを得る。また、取得履歴記録手段504に時
間計測手段506から現在時刻を得て、 ”文書A Got 1996-06-01-10:03:30” のようにその内容を更新する。また、更新履歴記録手段
507に取得文書の更新日時を追加する。そして、ステッ
プ603から繰り返す。
【0047】以上のように、第3の実施の形態によれ
ば、更新パターンにあった時だけ文書収集を行ない、平
均的に最新の文書収集を効率よく自動的に行なってこれ
を保持することができるという効果を有する。
【0048】(第4の実施の形態)本発明の第4の実施
の形態について、図7を参照しながら説明する。図7は
本発明の第4の実施の形態における文書収集装置の構成
を示す概念図である。図7において、文書収集装置は、
文書が格納されているネットワーク上の位置と文書の対
応を管理する格納位置管理手段701と、ネットワーク上
の文書の内容を読み込む文書アクセス手段702と、読み
込んだ文書の内容を記憶する文書格納手段703と、前記
文書を読み込んだ日時を後記する時間計測手段706から
の時刻で記録する取得履歴記録手段704と、後記するデ
ータ伝送率記録手段707に記録された前記文書のアクセ
ス時間と平均データ転送率に基づき文書アクセス手段70
2を制御するアクセス制御手段705と、時間を計測する時
間計測手段706と、前記文書を読み込んだ際のアクセス
時間と平均データ転送率を記録するデータ伝送率記録手
段707とから構成されている。
【0049】以上のように構成された文書収集装置につ
いて、以下その動作を説明する。図8は文書収集装置の
動作手順を示す。ここで、データ伝送率記録手段707に
は、各文書への過去のアクセスに基づき、文書のアクセ
ス時間と該文書のアクセスに関する平均データ伝送率が
記録されているものとする。
【0050】ステップ802において、まず、アクセス制
御手段705は、データ伝送率記録手段707に記録されてい
る平均データ伝送率が大きな文書から順にアクセスする
ように、文書アクセス手段702を起動する。この時、時
間計測手段706よりアクセス開始時刻を得る。
【0051】ステップ803において、文書アクセス手段7
02は格納位置管理手段701から、指定された文書名に一
致する文書位置を得る。また、取得履歴記録手段704か
ら、この文書の前回得た日時を得る。そして、この文書
をネットワーク上の文書群から指定された文書位置で、
前回得た日時以降に更新された文書のみを得て、文書格
納手段703に格納する。この時、時間計測手段706から現
在の時刻を得て、取得履歴記録手段704に記録する。
【0052】ステップ804において、アクセス制御手段7
05は、時間計測手段706からアクセス終了時刻を得て、
アクセス開始時刻からの経過時間を計算する。また、文
書格納手段703から取得文書のサイズを得る。これらの
文書サイズと経過時間から、データ伝送率を計算し、デ
ータ伝送率記録手段707に記録する。
【0053】ステップ805において、データ伝送率記録
手段707内の全ての文書をチェックしたか判定する。ス
テップ805でチェックしていなければ、ステップ802から
繰り返す。ステップ805でチェックしていれば、ステッ
プ806に進み終了する。
【0054】以上のように、第4の実施の形態によれ
ば、アクセス制御手段は、平均データ伝送率の順に各文
書を読み込むよう文書アクセス手段を制御するので、こ
れにより、収集すべき全文書中の大部分をより早く収集
できる。また,平均データ伝送率の小さいいくつかの文
書を収集しないことにより、効率的な文書収集が可能で
ある。
【0055】(第5の実施の形態)本発明の第5の実施
の形態について、図9を用いて説明する。本発明の第5
の実施の形態における文書収集装置の構成は図7に示さ
れる前記第4の実施の形態の文書収集装置の構成と変わ
りがない。したがって、文書収集装置の動作について説
明する。図9は文書収集装置の動作手順を示す。ここで
データ伝送率記録手段707には、各文書への過去のアク
セスに基づき、文書のアクセス時間と該文書のアクセス
に関する平均データ伝送率が記録されているものとす
る。
【0056】ステップ902において、まず、アクセス制
御手段705は、データ伝送率記録手段707に記録されてい
る平均データ伝送率に基づき、アクセスプランを作成す
る。アクセスプランとは平均データ伝送率が異なる文書
へのアクセスを組み合わせることにより、ネットワーク
資源から得られる可能な限りのデータ伝送率をより均一
かつ効率的に利用するものである。アクセスプランの作
成方法には、いわゆる組み合せ最適化理論に基づく各種
の方法がありうるが、すべての場合に最良解を出す方法
はない。また、実際に文書を収集すると、最初に予測し
たアクセス時間と平均データ伝送率とは一般に差異を生
ずるため、段階的にアクセスプランを修正して行く必要
がある。
【0057】図10を用いてアクセスプラン作成方法の
一例を説明する。このアクセスプランの目的は、与えら
れたデータ伝送率という資源を最大限利用して、全文書
を最短の時間で収集することにある。
【0058】まず、予想されるアクセス時間が最長の文
書にアクセスする。同時に、残ったデータ伝送率を超え
て最も近い平均データ伝送率を持つ文書にアクセスす
る。それがなければ、平均データ伝送率が最大の文書に
アクセスし、再び残ったデータ伝送率に対して同様の文
書を探す。利用できるデータ伝送率を超えると、文書の
実際のデータ伝送率は少し低下するが、ネットワークが
提供するデータ伝送率という資源は最大限利用される。
【0059】一つの文書の収集が終了した時点で、まだ
収集していない文書中から、再び予想されるアクセス時
間が最長の文書にアクセスし、残ったデータ伝送率を超
えて最も近い平均データ伝送率を持つ文書にアクセスす
る。すべての文書を収集するまで、同様の手順を続け
る。
【0060】図10の例では文書Aから文書Fまでの6つ
の文書を収集している。文書Bと文書Eの実際のデータ伝
送率は、利用できるデータ伝送率の上限に達しているた
めに少し低下している。
【0061】このように作成されたアクセスプランに基
づき,ステップ903において、アクセス制御手段705は、
1つ以上の文書アクセス手段702を文書名を指定して起
動する。すなわち並列にアクセス手段702を起動し、文
書収集を並列に行なう。この時、時間計測手段706から
現在の時刻を得てアクセス開始時間を得る。
【0062】ステップ904において、文書アクセス手段7
02は格納位置管理手段701から、指定された文書名に一
致する文書位置を得る。また、取得履歴記録手段704か
ら、この文書を前回得た日時を得る。そして、この文書
をネットワーク上の文書群から指定された文書位置で、
前回得た日時以降に更新された文書のみを得て、文書格
納手段703に格納する。この時、時間計測手段706から現
在の時刻を得て、取得履歴記録手段704に記録する。
【0063】ステップ905において、アクセス制御手段7
05は、時間計測手段706からアクセス終了時刻を得て、
アクセス開始時刻からの経過時間を計算する。また、文
書格納手段703から取得文書のサイズを得る。これらの
文書サイズと経過時間から、データ伝送率を計算し、デ
ータ伝送率記録手段707に記録する。
【0064】ステップ906において、アクセスプランを
全て実行したか判定する。ステップ906でチェックして
いなければ、ステップ903から繰り返す。ステップ906で
チェックしていれば、ステップ907に進み終了する。
【0065】以上のように、第5の実施の形態によれ
ば、アクセス制御手段は、アクセスプランに基づいて各
文書を読み込んで行くように文書アクセス手段を制御す
るので、これにより、収集すべき全文書中をより早く収
集でき、効率的な文書収集が可能である。
【0066】
【発明の効果】以上のように、本発明は、最新の文書収
集を自動的に行なうことができる。また、ネットワーク
上の文書の次の更新時刻を予測して文書収集をすること
ができ、常に最新の文書収集を効率的に自動的に行なう
ことができる。
【0067】また、ネットワーク上の文書の更新パター
ンを得て更新パターン毎に文書収集することができるの
で、さらに効率的に文書収集ができる。
【0068】また、平均データ伝送率の大きい文書を優
先して取得することができるので、平均データ伝送率の
小さいいくつかの文書を収集しないことなどにより、効
率的な文書収集ができる。
【0069】また、文書アクセス手段が複数の文書を並
行にアクセスすることができる場合に、ネットワーク資
源から得られる可能な限りのデータ伝送率を利用するこ
とで、効率的な文書収集ができる。
【図面の簡単な説明】
【図1】第1の実施の形態における文書収集装置の構成
を示すブロック図、
【図2】第1の実施の形態における文書収集の手順を示
すフロー図、
【図3】第2の実施の形態における文書収集装置の構成
を示すブロック図、
【図4】第2の実施の形態における文書収集の手順を示
すフロー図、
【図5】第3の実施の形態における文書収集装置の構成
を示すブロック図 、
【図6】第3の実施の形態における文書収集の手順を示
すフロー図、
【図7】第4及び第5の実施の形態における文書収集装
置の構成を示すブロック図、
【図8】第4の実施の形態における文書収集の手順を示
すフロー図、
【図9】第5の実施の形態における文書収集の手順を示
すフロー図、
【図10】アクセスプラン作成方法の一例を示す概念
図、
【図11】ネットワークロボットの使用環境を示す概念
図、
【図12】従来システムの構成を示すブロック図であ
る。
【符号の説明】
101、301、501、701、1201 格納位置管理手段 102、302、502、702、1202 文書アクセス手段 103、303、503、703、1203 文書格納手段 104、304、504、 704 取得履歴記録手段 105、305、505、 705 アクセス制御手段 106、306、506、 706 時間計測手段 307、 507 更新履歴記録手段 508 更新パターン記録手段 509 更新パターン抽出手段 707 データ伝送率記録手段
フロントページの続き (72)発明者 石川 幹人 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上に分散格納されそれぞれ
    別個に更新される文書群のデータを該ネットワークに接
    続された特定の計算機内に自動的に収集する文書収集装
    置において、文書収集をする文書アクセス手段と,それ
    を駆動するアクセス制御手段をもうけ、前回収集した時
    点以降に更新された文書のみを収集することを特徴とす
    る文書収集装置。
  2. 【請求項2】 文書が格納されているネットワーク上の
    位置と文書の対応を管理する格納位置管理手段と、ネッ
    トワーク上の文書の内容を計算機内に読み込む文書アク
    セス手段と、読み込んだ文書の内容を記憶する文書格納
    手段と、時間を計測する時間計測手段と、前記文書を読
    み込んだ日時を前記時間計測手段からの時刻で記録する
    取得履歴記録手段と、前記文書を最後に取得した取得日
    時とネットワーク上での前記文書の更新日時を比較し前
    回収集した時点以降に更新された文書のみを収集するよ
    うに前記文書アクセス手段を制御するアクセス制御手段
    から構成されることを特徴とする文書収集装置。
  3. 【請求項3】 文書とともに得られた更新日時を更新履
    歴として記録する更新履歴記録手段を更に備え、前記更
    新履歴記録手段に記録された文書毎の複数の更新日時の
    記録により、前記アクセス制御手段が前記文書の平均的
    な更新周期を計算し前記文書を前記更新周期毎かつ予測
    される更新日時の直後に取得するように前記時間計測手
    段を利用して前記文書アクセス手段を制御することを特
    徴とする請求項2記載の文書収集装置。
  4. 【請求項4】 前記更新履歴記録手段に記録された文書
    毎の複数の更新日時の記録により更新パターンを抽出す
    る更新パターン抽出手段と、その更新パターンを記録す
    る更新パターン記録手段とを更に備え、前記アクセス制
    御手段が前記文書を前記更新パターンに合わせかつ予測
    される更新日時の直後に取得するように前記文書アクセ
    ス手段を制御することを特徴とする請求項3記載の文書
    収集装置。
  5. 【請求項5】 文書のアクセス時間と前記文書のアクセ
    スに関する平均データ伝送率を記録するデータ伝送率記
    録手段を更に備え、前記文書アクセス制御手段が平均デ
    ータ伝送率の大きい文書を優先して取得するように前記
    文書アクセス手段を制御することにより効率的な収集を
    可能にしたことを特徴とする請求項2記載の文書収集装
    置。
  6. 【請求項6】 前記データ伝送率記録手段に記録された
    前記文書のアクセスに関する平均データ伝送率に基づ
    き、前記文書アクセス制御手段が平均データ伝送率の異
    なる複数の文書へのアクセスを組み合せたアクセスプラ
    ンを作成し、前記文書アクセス手段が複数の文書を並行
    にアクセスすることにより、ネットワーク資源から得ら
    れる可能な限りのデータ伝送率をより均一かつ効率的に
    利用できるようにしたことを特徴とする請求項5記載の
    文書収集装置。
JP8149784A 1996-05-22 1996-05-22 文書収集装置 Pending JPH09311802A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8149784A JPH09311802A (ja) 1996-05-22 1996-05-22 文書収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8149784A JPH09311802A (ja) 1996-05-22 1996-05-22 文書収集装置

Publications (1)

Publication Number Publication Date
JPH09311802A true JPH09311802A (ja) 1997-12-02

Family

ID=15482648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8149784A Pending JPH09311802A (ja) 1996-05-22 1996-05-22 文書収集装置

Country Status (1)

Country Link
JP (1) JPH09311802A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11195039A (ja) * 1998-01-05 1999-07-21 Toshiba Corp 検索方法及び検索装置並びにデータベース方法及びデータベース装置
US6718391B1 (en) 1998-02-19 2004-04-06 Hitachi, Ltd. Reserved request type of searched information distribution server
US7203673B2 (en) 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
JP2008090369A (ja) * 2006-09-29 2008-04-17 Sharp Corp コンテンツ受信装置およびコンテンツ受信方法
US7599929B2 (en) 2006-05-09 2009-10-06 Fuji Xerox Co., Ltd. Document use tracking system, method, computer readable medium, and computer data signal
JP2009282950A (ja) * 2008-04-23 2009-12-03 Canon Inc 通信システムおよび通信方法、ならびに、クライアント装置およびその制御方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11195039A (ja) * 1998-01-05 1999-07-21 Toshiba Corp 検索方法及び検索装置並びにデータベース方法及びデータベース装置
US6718391B1 (en) 1998-02-19 2004-04-06 Hitachi, Ltd. Reserved request type of searched information distribution server
US6763393B2 (en) 1998-02-19 2004-07-13 Hitachi, Ltd. Reserved request type of searched information distribution server
US7203673B2 (en) 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
US7599929B2 (en) 2006-05-09 2009-10-06 Fuji Xerox Co., Ltd. Document use tracking system, method, computer readable medium, and computer data signal
JP2008090369A (ja) * 2006-09-29 2008-04-17 Sharp Corp コンテンツ受信装置およびコンテンツ受信方法
JP2009282950A (ja) * 2008-04-23 2009-12-03 Canon Inc 通信システムおよび通信方法、ならびに、クライアント装置およびその制御方法

Similar Documents

Publication Publication Date Title
JP4806201B2 (ja) 決定理論的ウェブクローリングおよびウェブページ変更予測
Törn et al. Topographical global optimization using pre-sampled points
JP4529213B2 (ja) 要素編成支援装置及び要素編成支援プログラムが記録された記憶媒体
JPH05158888A (ja) 複数のスケジュールのエントリを一致させる方法
US7225203B2 (en) Information storage system and information management system
CA2515968C (en) An apparatus and methods for managing data used by a mobile device
CN109634652A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
JPH09311802A (ja) 文書収集装置
JPH08106442A (ja) 画像データ転送システム及びその方法
JP4569047B2 (ja) プリントサービスシステム
CN102467355B (zh) 信息处理设备及方法
JP2002298072A (ja) 連携方法および連携プログラム
CN107580038A (zh) 一种专家推荐方法及系统
Saad et al. Improving the quality of web archives through the importance of changes
JP3930068B2 (ja) ワークフロー管理システム及びその表示方法
JPH02201552A (ja) トランザクショントレース情報採取方式
JPH01236396A (ja) 販売管理システムのデータ収集方法
JP3947007B2 (ja) 処理スケジュール設計プログラム及び方法並びに装置
JP7319839B2 (ja) 計算機システム及び業務フローの支援方法
JPH05334147A (ja) ファイル情報管理方法
JP2001142971A (ja) 納税情報管理システム
JP2901786B2 (ja) スケジュール作成装置
JP2734023B2 (ja) 索引検索方式
JPH09319770A (ja) データ収集装置
US20050149534A1 (en) System and method for managing large data sets

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees