JP2000076264A - インターネット情報探索システムと方法 - Google Patents

インターネット情報探索システムと方法

Info

Publication number
JP2000076264A
JP2000076264A JP10243236A JP24323698A JP2000076264A JP 2000076264 A JP2000076264 A JP 2000076264A JP 10243236 A JP10243236 A JP 10243236A JP 24323698 A JP24323698 A JP 24323698A JP 2000076264 A JP2000076264 A JP 2000076264A
Authority
JP
Japan
Prior art keywords
robot
url
management means
information storage
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10243236A
Other languages
English (en)
Other versions
JP3298516B2 (ja
Inventor
Yukiko Araki
祐希子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP24323698A priority Critical patent/JP3298516B2/ja
Publication of JP2000076264A publication Critical patent/JP2000076264A/ja
Application granted granted Critical
Publication of JP3298516B2 publication Critical patent/JP3298516B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】サーバにURL情報を取得しにいくタイミング
が悪いとCPUやネットワークに負荷をかける。 【解決手段】記憶装置2はロボット情報記憶部21とU
RL情報記憶部22とを備え、ロボット情報記憶部は、
ロボット12のIDと起動時間、接続時間を記憶しUR
L情報記憶部はWWWサーバの情報とURLの情報を記
憶し、データ処理装置1はロボット管理手段11とロボ
ット12とURL管理手段13とを備え、ロボット管理
手段はURL管理手段より未取得のWWWサーバを取得
し1つのWWWサーバに対して1つのロボットを起動し
ロボット情報記憶部を参照して次のロボットを立ち上げ
る時間を調節し、URL管理手段はロボット管理手段か
ら次のWWWサーバリストの要求をうけ、またロボット
からの次に探索すべきURLの要求を受けつけURL情
報記憶部を検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はインターネット情報
探索システムに関し、特にインターネット経由で参照で
きる多数の文書やデータを検索する検索エンジンに必要
なデータベースを作成するために、文書とURL(Un
iform Resource Location)を
取得するインターネット情報探索システムに関する。
【0002】
【従来の技術】従来、インターネット情報探索システム
はインターネット上の情報から自分の求めている情報を
すぐに探し出せるように、あらかじめ広範囲にわたって
URLの情報を取得するために用いられている。しか
し、実際にURLを探索してデータを取得するプログラ
ムをロボットというが、各ロボットのURL情報の取得
間隔が一定であり、他に起動されているロボットのこと
を何ら考慮していないため、ロボットが目標とするサー
バにURL情報を取得しにいくタイミングが悪いとCP
Uやネットワークに負荷をかけることがある。
【0003】
【発明が解決しようとする課題】上述した従来のインタ
ーネット情報探索システムは、第1の問題点は、ロボッ
トが目標とするサーバにURL情報を取得しにいくタイ
ミングが悪いとCPUやネットワークに負荷をかけるこ
とがあるということである。
【0004】その理由は、各ロボットのURL情報の取
得間隔が一定であり、他に起動されているロボットのこ
とを何ら考慮していないためである。
【0005】本発明の目的は、URL取得対象のサーバ
の負荷を考え、同じサーバのURLを取得する時はある
一定の時間をおくこととして、この動作をある範囲まで
繰り返し、データベースを作成していくインターネット
情報探索システムにおいて、ロボットの起動時間、起動
したロボットが次のURLにアクセスに行く時間を、他
のロボットの状況によって調節する機能をもつインター
ネット情報探索システムを提供することにある。
【0006】
【課題を解決するための手段】本発明のインターネット
情報探索システムは、データ処理装置と情報を記憶する
記憶装置とを含み、記憶装置はロボット情報記憶部とU
RL情報記憶部とを備え、ロボット情報記憶部は、ロボ
ットを見分けるためのIDとそのロボットの起動時間、
接続に要する時間を記憶し、URL情報記憶部は、取得
したWWWサーバの情報及びURLの最終取得時間を含
む情報を記憶し、データ処理装置はロボット管理手段と
ロボットとURL管理手段とを備え、ロボット管理手段
はURL管理手段より未取得のWWWサーバを取得し、
1つのWWWサーバに対して1つのロボットを起動し、
ロボット情報記憶部を参照して次のロボットの立ち上げ
時間を調節し、ロボットはロボット管理手段によって起
動され、目的のURLを取得し、本URLの取得時間を
ロボット管理手段に通知し、取得したURLをURL管
理手段に通知し、起動された後はURL管理手段に次の
URLを問い合わせたのち、ロボット管理手段に次回起
動時間を問い合わせ、その時間によりアクセスし、UR
L管理手段はロボット管理手段から次のWWWサーバリ
ストの要求をうけ、また、ロボットからの次に探索すべ
きURLの要求を受けつけURL情報記憶部を検索し、
結果をロボット管理手段およびロボットに渡し、ロボッ
トからのURLの通知を受け取り、URL情報記憶部の
更新、または登録を行うことにより構成されている。
【0007】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0008】図1は本発明のインターネット情報探索シ
ステムの一実施の形態を示す概略図である。
【0009】本発明の実施の形態は、図1に示すよう
に、インターネット経由で参照できる多数の文書やデー
タを検索する検索エンジン(例としてYahooやGo
oなどが実在する)に必要なデータベースを作成するた
めに、文書とURL(Uniform Resourc
e Location)を取得するインターネット情報
探索システムについての機能である。ここでいう文書と
はHTML(HyperText Markup La
nguage)で記述された文書、およびその文書から
リンクをはられた文書、データとする。実際にURLを
探索してデータを取得するプログラムをロボットとい
う。インターネット情報探索システムで最初に収集する
URLを指定すると、指定したURLが存在するサーバ
用のロボットが起動され、このURL(図1ではhtt
p://server1/index.html)を取
得しデータベースに登録する。またそのURLの内容を
解読してリンク情報を抜き出し(図1ではhttp:/
/server2/index2.html)、新たな
URLとして取得するという作業を行う。新しいURL
が違うサーバにある場合、新しいサーバ用にまたロボッ
トが起動される(つまり1サーバにつき1つのロボット
が起動される)。取得対象のサーバの負荷を考え、同じ
サーバのURLを取得する時はある一定の時間をおくこ
ととしている。この動作をある範囲まで繰り返し、デー
タベースを作成していくインターネット情報探索システ
ムにおいて、ロボットの起動時間、起動したロボットが
次のURLにアクセスに行く時間を、他のロボットの状
況によって調節する機能を提供するものである。
【0010】図2は本発明のインターネット情報探索シ
ステムの一実施の形態を示すブロック図である。図2を
参照すると、本実施の形態は、プログラム制御により動
作するデータ処理装置1と情報を記憶する記憶装置2と
を含む。
【0011】記憶装置2はロボット情報記憶部21とU
RL情報記憶部22とを備えている。
【0012】図6は本発明のインターネット情報探索シ
ステムの一実施の形態の動作を示す構成図である。図6
を参照すると、ロボット情報記憶部21は、ロボットを
見分けるためのIDとそのロボットの起動時間、接続に
要する時間が記憶されている。URL情報記憶部22
は、今までに取得したWWWサーバの情報及びURLの
情報が記憶されている。URLの情報には最終取得時間
が含まれている。
【0013】データ処理装置1はロボット管理手段11
とロボット12とURL管理手段13とを備えている。
【0014】ロボット管理手段11はURL管理手段1
3より未取得のWWWサーバを取得し、1つのWWWサ
ーバに対して1つのロボットを起動する。この時、ロボ
ット情報記憶部21を参照して次のロボット12を立ち
上げる時間を調節する。
【0015】ロボット12はロボット管理手段11によ
って起動され、目的のURLを取得する。この時にかか
る時間をロボット管理手段11に通知し、取得したUR
LはURL管理手段13に通知する。起動された後はU
RL管理手段13に次のURLを問い合わせたのち、ロ
ボット管理手段11に次回起動時間を問い合わせ、その
時間通りにアクセスする。
【0016】URL管理手段13はロボット管理手段1
1から次のWWWサーバリストの要求をうけ、また、ロ
ボット12からの次に探索すべきURLの要求を受けつ
けURL情報記憶部22を検索し、結果をそれぞれに渡
す。またロボット12からのURLの通知を受け取り、
URL情報記憶部22の更新、もしくは登録を行う。
【0017】次に、本発明の実施の形態の動作につい
て、図3から図7を参照して詳細に説明する。
【0018】図3は本発明のインターネット情報探索シ
ステムのロボット起動時の動作を示す流れ図である。
【0019】図4は本発明のインターネット情報探索シ
ステムの次のURLに接続する時の動作を示す流れ図で
ある。
【0020】図5は従来のロボットと本発明でのロボッ
トの動作を示すシーケンスチャートである。
【0021】図6は本発明のインターネット情報探索シ
ステムの一実施の形態の動作を示す構成図である。
【0022】図7は本発明のインターネット情報探索シ
ステムの一実施の形態の単位時間当たりのロボット起動
数算出方法を示すシーケンスチャートである。
【0023】ロボット12が接続時間を調整するのはロ
ボット管理手段11がロボット12を起動する時とロボ
ット12が次のURLに接続に行こうとする時の2パタ
ーンである。
【0024】それぞれ図3、図4で説明する。図3のロ
ボット起動時の動作を示す流れ図で、まずロボット管理
手段11がURL管理手段13に次に探索すべきWWW
サーバ名を問い合わせる(ステップA1)。ここでUR
L管理手段13はURL情報記憶部22にアクセスし、
探索する範囲のWWWサーバについてすべて処理が終わ
っているかどうか判断する(ステップA2)。この結
果、次に探索すべきWWWサーバが存在しない場合は現
在動作しているロボット12が終了するのを待つ。ロボ
ット管理手段11はロボット情報記憶部21にアクセス
し、他のロボット12の次回接続時間と接続に要する時
間を取得し、接続するタイミングが重ならないかチェッ
クする(ステップA3)。重なる場合は平均に接続でき
るようなタイミングを計算して、次回時間を調節する
(ステップA4)。次にロボット管理手段11はロボッ
ト12を起動する(ステップA5)。その後ロボット1
2はWWWサーバに接続し(ステップA6)この際にか
かった時間をロボット管理手段11に伝える(ステップ
A7)。
【0025】図4は図3の流れで起動されたロボット1
2が次のURLに接続に行こうとする時の流れであり、
ロボット管理手段11がURL管理手段13に次に探索
すべきURLを問い合わせる(ステップB1)。ここで
URL管理手段13はURL情報記憶部22にアクセス
し、探索する範囲のURLについてすべて処理が終わっ
ているかどうか判断する(ステップB2)。この結果、
次に探索すべきURLが存在しない場合は現在動作して
いるロボット12が終了するのを待つ。URLが存在す
る場合、最終取得時間を取得し、取得間隔が経過してる
かどうかを判断する(ステップB3)。まだ取得間隔を
過ぎていなかった場合、ロボット管理手段11は次に探
索すべきURLをURL管理手段13に問い合わせる。
過ぎていた場合、ロボット管理手段11はロボット情報
記憶部21にアクセスし、他のロボット12の次回接続
時間と接続に要する時間を取得し、接続するタイミング
が重ならないかチェックする(ステップB4)。重なる
場合は平均に接続できるようなタイミングを計算して、
次回時間を調節する(ステップB5)。次にロボット管
理手段11はロボットを起動する(ステップB6)。そ
の後ロボット12はWWWサーバに接続し(ステップB
7)この際にかかった時間をロボット管理手段11に伝
える(ステップB8)。この流れを探索すべきURLが
なくなるまで行う。
【0026】図3のステップA4,図4のステップB5
の時間を調節する方法について、例を用いてさらに詳し
く述べる。
【0027】図5は従来のロボットと本発明でのロボッ
トの動作を示すシーケンスチャートである。図5では複
数のロボットの動作を時間軸上に表示している。黒の部
分はそのロボット12が動いてる時間を示している。灰
色の部分はすべてのロボットが動いてる時間を表してい
る。従来のロボットの並列動作では別のロボットが立ち
上がるタイミングをなんら考慮していないため、起動す
る時間が集中する可能性があり、複数のロボットが同じ
時間帯に動き、ロボットがまったく動かない時間(図5
の白い部分)が増えてしまうことがある。
【0028】本発明では複数のロボット12を分散させ
るように起動する時間を調節するので並列して動くロボ
ット12の数が減り、ロボット12が1つも動かない時
間が短くなる。
【0029】ロボット情報記憶部21には図6のように
データが記憶されている。サーバ名(WWW1,WWW
2,WWW3,WWW4,WWW5,WWW6)、その
サーバに接続しているロボット12のID(0001,
0002,0003,0004,0005,000
6)、次回の起動時間(10/10 11:24;5
5,10/10 11:24;56,10/10 1
1:25;05,10/1011:25;07,10/
10 11:24;58,10/10 11:24:5
7)、前回サーバに接続するのにかかった時間(5,
6,5,3,6,5)がサーバ毎に記述されている。
【0030】ロボット12は同じサーバにアクセスする
時には一定間隔をあけることになっているが、この例で
はWWWサーバへの接続間隔を15秒だとする。サーバ
への接続間隔が一定なので、新規にロボット12が起動
されたり、あるサーバのURLがなくなって、ロボット
12が終了したりしなければ15秒おきに同じスケジュ
ールで接続が行われることになる。そこで本発明ではこ
の接続間隔15秒間のスケジューリングをロボット起動
時と次のURLにアクセスする時に逐次見直す方法をと
ることとする。図7では横軸を時間として、各ロボット
12がいつ起動され、接続時間が何秒かを図6で示した
ようにロボット情報記憶部21から抜き出し表示してい
る。黒く塗りつぶされた時間がそのロボットが目的のサ
ーバに接続している時間である。この図を使って単位時
間の接続数を算出する。ここでは単位時間を1秒とす
る。点線の間隔が単位時間に相当するので、この間隔で
縦に見てロボット12がいくつ起動されているかを算出
すればよい。例えばはじめの1秒はロボット1しか動い
ていないので合計は1になり、次の1秒ではロボット1
とロボット2が動いているため合計は2になる。こうし
て15秒間すべての単位時間での起動数を計算する。
【0031】次に起動するロボットの接続時間を取得す
る。すでにそのサーバに対するロボット12が起動され
ている場合は、ロボット情報記憶部21に記述してある
接続時間を使用し、新しいサーバに接続するためにあら
たにロボット12を起動する場合は、現在起動している
ロボット12の接続時間の平均を接続時間とする。図7
の例では図6のロボット情報記憶部21を参照し、接続
時間の平均を計算して(5+6+5+3+6+5)/6
=5秒である。よって現在の時間からその5秒後まで
の、単位時間に起動されるロボットの総和を求める。こ
の例では現在から5秒後までの総和は1+2+3+4+
4=14となる。次の1秒からの5秒間は2+3+4+
4+3=16である。このように単位時間ずつずらして
総和を計算していく。この値が小さければ負荷がかかっ
ていないことになるため、一番小さく、かつ現在の時間
に近い地点を探す。この例では4が一番小さいので、こ
の時間からロボットを開始することとし、ロボット情報
記憶部21に記述する。
【0032】次に、本発明の他の実施の形態について、
図8を参照して詳細に説明する。
【0033】図8は本発明のインターネット情報探索シ
ステムの一実施の形態のサーバへの接続間隔を調節した
時のシーケンスチャートである。
【0034】図8においてロボット数が増えて、単位時
間の接続数が多くなる場合には接続間隔内のロボット1
2の起動時間を調節しても負荷はかかってしまう。そこ
で接続間隔内の接続数の上限を決め、それ以上にロボッ
ト12が起動された場合は、さらにWWWサーバへの接
続間隔を調節して負荷がかからないようにする。
【0035】尚以上のようなインターネット情報探索シ
ステムの処理プログラムを記録した記録媒体を有し、コ
ンピュータに実行させることもできる。
【0036】
【発明の効果】以上説明したように、本発明のインター
ネット情報探索システムは、第1の効果は、ロボットが
次のURLにアクセスする時間を調節することにより、
同時にアクセスすることがなくなることにある。この結
果、CPUやネットワークに対する負荷が低減する。
【0037】その理由は、ロボットがアクセスする時間
をロボット管理手段で管理し、調節を行うためである。
【図面の簡単な説明】
【図1】本発明のインターネット情報探索システムの一
実施の形態を示す概略図である。
【図2】本発明のインターネット情報探索システムの一
実施の形態を示すブロック図である。
【図3】本発明のインターネット情報探索システムのロ
ボット起動時の動作を示す流れ図である。
【図4】本発明のインターネット情報探索システムの次
のURLに接続する時の動作を示す流れ図である。
【図5】従来のロボットと本発明でのロボットの動作を
示すシーケンスチャートである。
【図6】本発明のインターネット情報探索システムの一
実施の形態の動作を示す構成図である。
【図7】本発明のインターネット情報探索システムの一
実施の形態の単位時間当たりのロボット起動数算出方法
を示すシーケンスチャートである。
【図8】本発明のインターネット情報探索システムの一
実施の形態のサーバへの接続間隔を調節した時のシーケ
ンスチャートである。
【符号の説明】
1 データ処理装置 2 記憶装置 11 ロボット管理手段 12 ロボット 13 URL管理手段 21 ロボット情報記憶部 22 URL情報記憶部

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 データ処理装置と情報を記憶する記憶装
    置とを含み、記憶装置はロボット情報記憶部とURL情
    報記憶部とを備え、ロボット情報記憶部は、ロボットを
    見分けるためのIDとそのロボットの起動時間、接続に
    要する時間を記憶し、URL情報記憶部は、取得したW
    WWサーバの情報及びURLの最終取得時間を含む情報
    を記憶し、データ処理装置はロボット管理手段とロボッ
    トとURL管理手段とを備え、ロボット管理手段はUR
    L管理手段より未取得のWWWサーバを取得し、1つの
    WWWサーバに対して1つのロボットを起動し、ロボッ
    ト情報記憶部を参照して次のロボットの立ち上げ時間を
    調節し、ロボットはロボット管理手段によって起動さ
    れ、目的のURLを取得し、本URLの取得時間をロボ
    ット管理手段に通知し、取得したURLをURL管理手
    段に通知し、起動された後はURL管理手段に次のUR
    Lを問い合わせたのち、ロボット管理手段に次回起動時
    間を問い合わせ、その時間によりアクセスし、URL管
    理手段はロボット管理手段から次のWWWサーバリスト
    の要求をうけ、また、ロボットからの次に探索すべきU
    RLの要求を受けつけURL情報記憶部を検索し、結果
    をロボット管理手段およびロボットに渡し、ロボットか
    らのURLの通知を受け取り、URL情報記憶部の更
    新、または登録を行うことを特徴とするインターネット
    情報探索システム。
  2. 【請求項2】 データ処理装置と情報を記憶する記憶装
    置とを含み、記憶装置はロボット情報記憶部とURL情
    報記憶部とを備え、ロボット情報記憶部は、ロボットを
    見分けるためのIDとそのロボットの起動時間、接続に
    要する時間を記憶し、URL情報記憶部は、取得したW
    WWサーバの情報及びURLの最終取得時間を含む情報
    を記憶し、データ処理装置はロボット管理手段とロボッ
    トとURL管理手段とを備え、ロボット管理手段はUR
    L管理手段より未取得のWWWサーバを取得し、1つの
    WWWサーバに対して1つのロボットを起動し、ロボッ
    ト情報記憶部を参照して次のロボットの立ち上げ時間を
    調節し、ロボットはロボット管理手段によって起動さ
    れ、目的のURLを取得し、本URLの取得時間をロボ
    ット管理手段に通知し、取得したURLをURL管理手
    段に通知し、起動された後はURL管理手段に次のUR
    Lを問い合わせたのち、ロボット管理手段に次回起動時
    間を問い合わせ、その時間によりアクセスし、URL管
    理手段はロボット管理手段から次のWWWサーバリスト
    の要求をうけ、また、ロボットからの次に探索すべきU
    RLの要求を受けつけURL情報記憶部を検索し、結果
    をロボット管理手段およびロボットに渡し、ロボットか
    らのURLの通知を受け取り、URL情報記憶部の更
    新、または登録を行うことを特徴とするインターネット
    情報探索方法。
  3. 【請求項3】 データ処理装置と情報を記憶する記憶装
    置とを含み、記憶装置はロボット情報記憶部とURL情
    報記憶部とを備え、ロボット情報記憶部は、ロボットを
    見分けるためのIDとそのロボットの起動時間、接続に
    要する時間を記憶し、URL情報記憶部は、取得したW
    WWサーバの情報及びURLの最終取得時間を含む情報
    を記憶し、データ処理装置はロボット管理手段とロボッ
    トとURL管理手段とを備え、ロボット管理手段はUR
    L管理手段より未取得のWWWサーバを取得し、1つの
    WWWサーバに対して1つのロボットを起動し、ロボッ
    ト情報記憶部を参照して次のロボットの立ち上げ時間を
    調節し、ロボットはロボット管理手段によって起動さ
    れ、目的のURLを取得し、本URLの取得時間をロボ
    ット管理手段に通知し、取得したURLをURL管理手
    段に通知し、起動された後はURL管理手段に次のUR
    Lを問い合わせたのち、ロボット管理手段に次回起動時
    間を問い合わせ、その時間によりアクセスし、URL管
    理手段はロボット管理手段から次のWWWサーバリスト
    の要求をうけ、また、ロボットからの次に探索すべきU
    RLの要求を受けつけURL情報記憶部を検索し、結果
    をロボット管理手段およびロボットに渡し、ロボットか
    らのURLの通知を受け取り、URL情報記憶部の更
    新、または登録を行うインターネット情報探索処理をコ
    ンピュータに実行させるためのプログラムを記録したこ
    とを特徴とする記録媒体。
  4. 【請求項4】 ロボット管理手段がURL管理手段に次
    に探索すべきWWWサーバ名を問い合わせ、URL管理
    手段はURL情報記憶部にアクセスし、探索する範囲の
    WWWサーバについてすべて処理が終わっているかどう
    か判断し、探索すべきWWWサーバが存在しない場合は
    現在動作しているロボットが終了するのを待ち、ロボッ
    ト管理手段はロボット情報記憶部にアクセスし、他のロ
    ボットの次回接続時間と接続に要する時間を取得し、接
    続するタイミングが重ならないかチェックし、重なる場
    合は平均に接続できるようなタイミングを計算して、次
    回時間を調節し、ロボット管理手段はロボットを起動
    し、ロボットはWWWサーバに接続し、かかった時間を
    ロボット管理手段に伝えることを特徴とするインターネ
    ット情報探索システム。
  5. 【請求項5】 ロボット管理手段がURL管理手段に次
    に探索すべきWWWサーバ名を問い合わせ、URL管理
    手段はURL情報記憶部にアクセスし、探索する範囲の
    WWWサーバについてすべて処理が終わっているかどう
    か判断し、探索すべきWWWサーバが存在しない場合は
    現在動作しているロボットが終了するのを待ち、ロボッ
    ト管理手段はロボット情報記憶部にアクセスし、他のロ
    ボットの次回接続時間と接続に要する時間を取得し、接
    続するタイミングが重ならないかチェックし、重なる場
    合は平均に接続できるようなタイミングを計算して、次
    回時間を調節し、ロボット管理手段はロボットを起動
    し、ロボットはWWWサーバに接続し、かかった時間を
    ロボット管理手段に伝えることを特徴とするインターネ
    ット情報探索方法。
  6. 【請求項6】 ロボット管理手段がURL管理手段に次
    に探索すべきWWWサーバ名を問い合わせ、URL管理
    手段はURL情報記憶部にアクセスし、探索する範囲の
    WWWサーバについてすべて処理が終わっているかどう
    か判断し、探索すべきWWWサーバが存在しない場合は
    現在動作しているロボットが終了するのを待ち、ロボッ
    ト管理手段はロボット情報記憶部にアクセスし、他のロ
    ボットの次回接続時間と接続に要する時間を取得し、接
    続するタイミングが重ならないかチェックし、重なる場
    合は平均に接続できるようなタイミングを計算して、次
    回時間を調節し、ロボット管理手段はロボットを起動
    し、ロボットはWWWサーバに接続し、かかった時間を
    ロボット管理手段に伝えるインターネット情報探索処理
    をコンピュータに実行させるためのプログラムを記録し
    たことを特徴とする記録媒体。
  7. 【請求項7】 ロボット管理手段がURL管理手段に次
    に探索すべきURLを問い合わせ、URL管理手段はU
    RL情報記憶部にアクセスし、探索する範囲のURLに
    ついてすべて処理が終わっているかどうか判断し、次に
    探索すべきURLが存在しない場合は現在動作している
    ロボットが終了するのを待ち、URLが存在する場合、
    最終取得時間を取得し、取得間隔が経過してるかどうか
    を判断し、まだ取得間隔を過ぎていなかった場合、ロボ
    ット管理手段は次に探索すべきURLをURL管理手段
    に問い合わせ、過ぎていた場合、ロボット管理手段はロ
    ボット情報記憶部にアクセスし、他のロボットの次回接
    続時間と接続に要する時間を取得し、接続するタイミン
    グが重ならないかチェックし、重なる場合は平均に接続
    できるようなタイミングを計算して、次回時間を調節
    し、ロボット管理手段はロボットを起動し、ロボットは
    WWWサーバに接続し、かかった時間をロボット管理手
    段に伝えることを特徴とするインターネット情報探索シ
    ステム。
  8. 【請求項8】 ロボット管理手段がURL管理手段に次
    に探索すべきURLを問い合わせ、URL管理手段はU
    RL情報記憶部にアクセスし、探索する範囲のURLに
    ついてすべて処理が終わっているかどうか判断し、次に
    探索すべきURLが存在しない場合は現在動作している
    ロボットが終了するのを待ち、URLが存在する場合、
    最終取得時間を取得し、取得間隔が経過してるかどうか
    を判断し、まだ取得間隔を過ぎていなかった場合、ロボ
    ット管理手段は次に探索すべきURLをURL管理手段
    に問い合わせ、過ぎていた場合、ロボット管理手段はロ
    ボット情報記憶部にアクセスし、他のロボットの次回接
    続時間と接続に要する時間を取得し、接続するタイミン
    グが重ならないかチェックし、重なる場合は平均に接続
    できるようなタイミングを計算して、次回時間を調節
    し、ロボット管理手段はロボットを起動し、ロボットは
    WWWサーバに接続し、かかった時間をロボット管理手
    段に伝えることを特徴とするインターネット情報探索方
    法。
  9. 【請求項9】 ロボット管理手段がURL管理手段に次
    に探索すべきURLを問い合わせ、URL管理手段はU
    RL情報記憶部にアクセスし、探索する範囲のURLに
    ついてすべて処理が終わっているかどうか判断し、次に
    探索すべきURLが存在しない場合は現在動作している
    ロボットが終了するのを待ち、URLが存在する場合、
    最終取得時間を取得し、取得間隔が経過してるかどうか
    を判断し、まだ取得間隔を過ぎていなかった場合、ロボ
    ット管理手段は次に探索すべきURLをURL管理手段
    に問い合わせ、過ぎていた場合、ロボット管理手段はロ
    ボット情報記憶部にアクセスし、他のロボットの次回接
    続時間と接続に要する時間を取得し、接続するタイミン
    グが重ならないかチェックし、重なる場合は平均に接続
    できるようなタイミングを計算して、次回時間を調節
    し、ロボット管理手段はロボットを起動し、ロボットは
    WWWサーバに接続し、かかった時間をロボット管理手
    段に伝えるインターネット情報探索処理をコンピュータ
    に実行させるためのプログラムを記録したことを特徴と
    する記録媒体。
  10. 【請求項10】 ロボット情報記憶部に、サーバ名、そ
    のサーバに接続しているロボットのID、次回の起動時
    間、前回サーバに接続するのにかかった時間がサーバ毎
    に記述し、ロボットは同じサーバにアクセスする時には
    一定間隔をあけ、新規にロボットが起動されたり、ある
    サーバのURLがなくなって、ロボットが終了したりし
    なければ一定間隔おきに同じスケジュールで接続を行う
    ことを特徴とするインターネット情報探索システム。
  11. 【請求項11】 ロボット情報記憶部に、サーバ名、そ
    のサーバに接続しているロボットのID、次回の起動時
    間、前回サーバに接続するのにかかった時間がサーバ毎
    に記述し、ロボットは同じサーバにアクセスする時には
    一定間隔をあけ、新規にロボットが起動されたり、ある
    サーバのURLがなくなって、ロボットが終了したりし
    なければ一定間隔おきに同じスケジュールで接続を行う
    ことを特徴とするインターネット情報探索方法。
  12. 【請求項12】 ロボット情報記憶部に、サーバ名、そ
    のサーバに接続しているロボットのID、次回の起動時
    間、前回サーバに接続するのにかかった時間がサーバ毎
    に記述し、ロボットは同じサーバにアクセスする時には
    一定間隔をあけ、新規にロボットが起動されたり、ある
    サーバのURLがなくなって、ロボットが終了したりし
    なければ一定間隔おきに同じスケジュールで接続を行う
    インターネット情報探索処理をコンピュータに実行させ
    るためのプログラムを記録したことを特徴とする記録媒
    体。
  13. 【請求項13】 データ処理装置と情報を記憶する記憶
    装置とを含み、記憶装置はロボット情報記憶部とURL
    情報記憶部とを備え、ロボット情報記憶部は、ロボット
    を見分けるためのIDとそのロボットの起動時間、接続
    に要する時間を記憶し、URL情報記憶部は、取得した
    WWWサーバの情報及びURLの最終取得時間を含む情
    報を記憶し、データ処理装置はロボット管理手段とロボ
    ットとURL管理手段とを備え、ロボット管理手段はU
    RL管理手段より未取得のWWWサーバを取得し、1つ
    のWWWサーバに対して1つのロボットを起動し、ロボ
    ット情報記憶部を参照して、接続間隔内の接続数の上限
    を決め、それ以上にロボットが起動された場合は、WW
    Wサーバへの接続間隔を調節して次のロボットを立ち上
    げ、ロボットはロボット管理手段によって起動され、目
    的のURLを取得し、本URLの取得時間をロボット管
    理手段に通知し、取得したURLをURL管理手段に通
    知し、起動された後はURL管理手段に次のURLを問
    い合わせたのち、ロボット管理手段に次回起動時間を問
    い合わせ、その時間によりアクセスし、URL管理手段
    はロボット管理手段から次のWWWサーバリストの要求
    をうけ、また、ロボットからの次に探索すべきURLの
    要求を受けつけURL情報記憶部を検索し、結果をロボ
    ット管理手段およびロボットに渡し、ロボットからのU
    RLの通知を受け取り、URL情報記憶部の更新、また
    は登録を行うことを特徴とするインターネット情報探索
    システム。
  14. 【請求項14】 データ処理装置と情報を記憶する記憶
    装置とを含み、記憶装置はロボット情報記憶部とURL
    情報記憶部とを備え、ロボット情報記憶部は、ロボット
    を見分けるためのIDとそのロボットの起動時間、接続
    に要する時間を記憶し、URL情報記憶部は、取得した
    WWWサーバの情報及びURLの最終取得時間を含む情
    報を記憶し、データ処理装置はロボット管理手段とロボ
    ットとURL管理手段とを備え、ロボット管理手段はU
    RL管理手段より未取得のWWWサーバを取得し、1つ
    のWWWサーバに対して1つのロボットを起動し、ロボ
    ット情報記憶部を参照して、接続間隔内の接続数の上限
    を決め、それ以上にロボットが起動された場合は、WW
    Wサーバへの接続間隔を調節して次のロボットを立ち上
    げ、ロボットはロボット管理手段によって起動され、目
    的のURLを取得し、本URLの取得時間をロボット管
    理手段に通知し、取得したURLをURL管理手段に通
    知し、起動された後はURL管理手段に次のURLを問
    い合わせたのち、ロボット管理手段に次回起動時間を問
    い合わせ、その時間によりアクセスし、URL管理手段
    はロボット管理手段から次のWWWサーバリストの要求
    をうけ、また、ロボットからの次に探索すべきURLの
    要求を受けつけURL情報記憶部を検索し、結果をロボ
    ット管理手段およびロボットに渡し、ロボットからのU
    RLの通知を受け取り、URL情報記憶部の更新、また
    は登録を行うことを特徴とするインターネット情報探索
    方法。
  15. 【請求項15】 データ処理装置と情報を記憶する記憶
    装置とを含み、記憶装置はロボット情報記憶部とURL
    情報記憶部とを備え、ロボット情報記憶部は、ロボット
    を見分けるためのIDとそのロボットの起動時間、接続
    に要する時間を記憶し、URL情報記憶部は、取得した
    WWWサーバの情報及びURLの最終取得時間を含む情
    報を記憶し、データ処理装置はロボット管理手段とロボ
    ットとURL管理手段とを備え、ロボット管理手段はU
    RL管理手段より未取得のWWWサーバを取得し、1つ
    のWWWサーバに対して1つのロボットを起動し、ロボ
    ット情報記憶部を参照して、接続間隔内の接続数の上限
    を決め、それ以上にロボットが起動された場合は、WW
    Wサーバへの接続間隔を調節して次のロボットを立ち上
    げ、ロボットはロボット管理手段によって起動され、目
    的のURLを取得し、本URLの取得時間をロボット管
    理手段に通知し、取得したURLをURL管理手段に通
    知し、起動された後はURL管理手段に次のURLを問
    い合わせたのち、ロボット管理手段に次回起動時間を問
    い合わせ、その時間によりアクセスし、URL管理手段
    はロボット管理手段から次のWWWサーバリストの要求
    をうけ、また、ロボットからの次に探索すべきURLの
    要求を受けつけURL情報記憶部を検索し、結果をロボ
    ット管理手段およびロボットに渡し、ロボットからのU
    RLの通知を受け取り、URL情報記憶部の更新、また
    は登録を行うインターネット情報探索処理をコンピュー
    タに実行させるためのプログラムを記録したことを特徴
    とする記録媒体。
  16. 【請求項16】 ロボット管理手段がURL管理手段に
    次に探索すべきWWWサーバ名を問い合わせ、URL管
    理手段はURL情報記憶部にアクセスし、探索する範囲
    のWWWサーバについてすべて処理が終わっているかど
    うか判断し、探索すべきWWWサーバが存在しない場合
    は現在動作しているロボットが終了するのを待ち、ロボ
    ット管理手段はロボット情報記憶部にアクセスし、他の
    ロボットの次回接続時間と接続に要する時間を取得し、
    接続するタイミングが重ならないかチェックし、重なる
    場合は平均に接続できるようなタイミングを計算して、
    接続間隔内の接続数の上限を決め、それ以上にロボット
    が起動された場合は、WWWサーバへの接続間隔を調節
    して次のロボットを立ち上げ、ロボット管理手段はロボ
    ットを起動し、ロボットはWWWサーバに接続し、かか
    った時間をロボット管理手段に伝えることを特徴とする
    インターネット情報探索システム。
  17. 【請求項17】 ロボット管理手段がURL管理手段に
    次に探索すべきWWWサーバ名を問い合わせ、URL管
    理手段はURL情報記憶部にアクセスし、探索する範囲
    のWWWサーバについてすべて処理が終わっているかど
    うか判断し、探索すべきWWWサーバが存在しない場合
    は現在動作しているロボットが終了するのを待ち、ロボ
    ット管理手段はロボット情報記憶部にアクセスし、他の
    ロボットの次回接続時間と接続に要する時間を取得し、
    接続するタイミングが重ならないかチェックし、重なる
    場合は平均に接続できるようなタイミングを計算して、
    接続間隔内の接続数の上限を決め、それ以上にロボット
    が起動された場合は、WWWサーバへの接続間隔を調節
    して次のロボットを立ち上げ、ロボット管理手段はロボ
    ットを起動し、ロボットはWWWサーバに接続し、かか
    った時間をロボット管理手段に伝えることを特徴とする
    インターネット情報探索方法。
  18. 【請求項18】 ロボット管理手段がURL管理手段に
    次に探索すべきWWWサーバ名を問い合わせ、URL管
    理手段はURL情報記憶部にアクセスし、探索する範囲
    のWWWサーバについてすべて処理が終わっているかど
    うか判断し、探索すべきWWWサーバが存在しない場合
    は現在動作しているロボットが終了するのを待ち、ロボ
    ット管理手段はロボット情報記憶部にアクセスし、他の
    ロボットの次回接続時間と接続に要する時間を取得し、
    接続するタイミングが重ならないかチェックし、重なる
    場合は平均に接続できるようなタイミングを計算して、
    接続間隔内の接続数の上限を決め、それ以上にロボット
    が起動された場合は、WWWサーバへの接続間隔を調節
    して次のロボットを立ち上げ、ロボット管理手段はロボ
    ットを起動し、ロボットはWWWサーバに接続し、かか
    った時間をロボット管理手段に伝えるインターネット情
    報探索処理をコンピュータに実行させるためのプログラ
    ムを記録したことを特徴とする記録媒体。
  19. 【請求項19】 ロボット管理手段がURL管理手段に
    次に探索すべきURLを問い合わせ、URL管理手段は
    URL情報記憶部にアクセスし、探索する範囲のURL
    についてすべて処理が終わっているかどうか判断し、次
    に探索すべきURLが存在しない場合は現在動作してい
    るロボットが終了するのを待ち、URLが存在する場
    合、最終取得時間を取得し、取得間隔が経過してるかど
    うかを判断し、まだ取得間隔を過ぎていなかった場合、
    ロボット管理手段は次に探索すべきURLをURL管理
    手段に問い合わせ、過ぎていた場合、ロボット管理手段
    はロボット情報記憶部にアクセスし、他のロボットの次
    回接続時間と接続に要する時間を取得し、接続するタイ
    ミングが重ならないかチェックし、重なる場合は平均に
    接続できるようなタイミングを計算して、接続間隔内の
    接続数の上限を決め、それ以上にロボットが起動された
    場合は、WWWサーバへの接続間隔を調節して次のロボ
    ットを立ち上げ、ロボット管理手段はロボットを起動
    し、ロボットはWWWサーバに接続し、かかった時間を
    ロボット管理手段に伝えることを特徴とするインターネ
    ット情報探索システム。
  20. 【請求項20】 ロボット管理手段がURL管理手段に
    次に探索すべきURLを問い合わせ、URL管理手段は
    URL情報記憶部にアクセスし、探索する範囲のURL
    についてすべて処理が終わっているかどうか判断し、次
    に探索すべきURLが存在しない場合は現在動作してい
    るロボットが終了するのを待ち、URLが存在する場
    合、最終取得時間を取得し、取得間隔が経過してるかど
    うかを判断し、まだ取得間隔を過ぎていなかった場合、
    ロボット管理手段は次に探索すべきURLをURL管理
    手段に問い合わせ、過ぎていた場合、ロボット管理手段
    はロボット情報記憶部にアクセスし、他のロボットの次
    回接続時間と接続に要する時間を取得し、接続するタイ
    ミングが重ならないかチェックし、重なる場合は平均に
    接続できるようなタイミングを計算して、接続間隔内の
    接続数の上限を決め、それ以上にロボットが起動された
    場合は、WWWサーバへの接続間隔を調節して次のロボ
    ットを立ち上げ、ロボット管理手段はロボットを起動
    し、ロボットはWWWサーバに接続し、かかった時間を
    ロボット管理手段に伝えることを特徴とするインターネ
    ット情報探索方法。
  21. 【請求項21】 ロボット管理手段がURL管理手段に
    次に探索すべきURLを問い合わせ、URL管理手段は
    URL情報記憶部にアクセスし、探索する範囲のURL
    についてすべて処理が終わっているかどうか判断し、次
    に探索すべきURLが存在しない場合は現在動作してい
    るロボットが終了するのを待ち、URLが存在する場
    合、最終取得時間を取得し、取得間隔が経過してるかど
    うかを判断し、まだ取得間隔を過ぎていなかった場合、
    ロボット管理手段は次に探索すべきURLをURL管理
    手段に問い合わせ、過ぎていた場合、ロボット管理手段
    はロボット情報記憶部にアクセスし、他のロボットの次
    回接続時間と接続に要する時間を取得し、接続するタイ
    ミングが重ならないかチェックし、重なる場合は平均に
    接続できるようなタイミングを計算して、接続間隔内の
    接続数の上限を決め、それ以上にロボットが起動された
    場合は、WWWサーバへの接続間隔を調節して次のロボ
    ットを立ち上げ、ロボット管理手段はロボットを起動
    し、ロボットはWWWサーバに接続し、かかった時間を
    ロボット管理手段に伝えるインターネット情報探索処理
    をコンピュータに実行させるためのプログラムを記録し
    たことを特徴とする記録媒体。
  22. 【請求項22】 ロボット情報記憶部に、サーバ名、そ
    のサーバに接続しているロボットのID、次回の起動時
    間、前回サーバに接続するのにかかった時間がサーバ毎
    に記述し、ロボットは同じサーバにアクセスする時に
    は、接続間隔内の接続数の上限を決め、それ以上にロボ
    ットが起動された場合は、WWWサーバへの接続間隔を
    調節して次のロボットの立ち上げ接続を行うことを特徴
    とするインターネット情報探索システム。
  23. 【請求項23】 ロボット情報記憶部に、サーバ名、そ
    のサーバに接続しているロボットのID、次回の起動時
    間、前回サーバに接続するのにかかった時間がサーバ毎
    に記述し、ロボットは同じサーバにアクセスする時に
    は、接続間隔内の接続数の上限を決め、それ以上にロボ
    ットが起動された場合は、WWWサーバへの接続間隔を
    調節して次のロボットの立ち上げ接続を行うことを特徴
    とするインターネット情報探索方法。
  24. 【請求項24】 ロボット情報記憶部に、サーバ名、そ
    のサーバに接続しているロボットのID、次回の起動時
    間、前回サーバに接続するのにかかった時間がサーバ毎
    に記述し、ロボットは同じサーバにアクセスする時に
    は、接続間隔内の接続数の上限を決め、それ以上にロボ
    ットが起動された場合は、WWWサーバへの接続間隔を
    調節して次のロボットの立ち上げ接続を行うインターネ
    ット情報探索処理をコンピュータに実行させるためのプ
    ログラムを記録したことを特徴とする記録媒体。
JP24323698A 1998-08-28 1998-08-28 インターネット情報探索システムと方法 Expired - Fee Related JP3298516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24323698A JP3298516B2 (ja) 1998-08-28 1998-08-28 インターネット情報探索システムと方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24323698A JP3298516B2 (ja) 1998-08-28 1998-08-28 インターネット情報探索システムと方法

Publications (2)

Publication Number Publication Date
JP2000076264A true JP2000076264A (ja) 2000-03-14
JP3298516B2 JP3298516B2 (ja) 2002-07-02

Family

ID=17100872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24323698A Expired - Fee Related JP3298516B2 (ja) 1998-08-28 1998-08-28 インターネット情報探索システムと方法

Country Status (1)

Country Link
JP (1) JP3298516B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001096978A2 (en) * 2000-06-10 2001-12-20 Ccr Inc. System and method for facilitating internet search by providing web document layout image
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム
JP2008004122A (ja) * 2003-09-22 2008-01-10 Fujitsu Ltd プログラム、情報処理装置、アクセス分散方法、システム
CN100505737C (zh) * 2000-09-12 2009-06-24 国际商业机器公司 实现防止自动检索程序侵入的Web网站的系统和方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001096978A2 (en) * 2000-06-10 2001-12-20 Ccr Inc. System and method for facilitating internet search by providing web document layout image
US7099861B2 (en) 2000-06-10 2006-08-29 Ccr Inc. System and method for facilitating internet search by providing web document layout image
CN1317661C (zh) * 2000-06-10 2007-05-23 Ccr株式会社 通过提供万维网文件布局图像简化因特网搜索的系统和方法
WO2001096978A3 (en) * 2000-06-10 2007-11-01 Ccr Inc System and method for facilitating internet search by providing web document layout image
CN100505737C (zh) * 2000-09-12 2009-06-24 国际商业机器公司 实现防止自动检索程序侵入的Web网站的系统和方法
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム
JP2008004122A (ja) * 2003-09-22 2008-01-10 Fujitsu Ltd プログラム、情報処理装置、アクセス分散方法、システム

Also Published As

Publication number Publication date
JP3298516B2 (ja) 2002-07-02

Similar Documents

Publication Publication Date Title
US7949763B2 (en) Information processing apparatus, session recovery method, recording medium for storing session recovery program
JP3866768B2 (ja) ハイパーメディアインタラクティブを形成する方法及び装置
JP3681899B2 (ja) ネットワークプリンタの制御方法
US8972998B2 (en) Processing annotation requests using multithreaded constituent task and independent input/output tasks
JP4634547B2 (ja) リアルタイム情報配信方法
JPH10312350A (ja) リソース命名方法及び機構
US20040064570A1 (en) System and method for enabling a client application to operate offline from a server
JP2004516579A (ja) ネットワーク・クライアントから情報を要求するための方法およびシステム
JPH10207657A (ja) ネットワーク対応型印刷装置及び印刷方法及びネットワーク印刷システム
US20020052889A1 (en) Method for managing alterations of contents
JP4500318B2 (ja) 分散トランザクション処理方法、装置、及びプログラム
JPH1049354A (ja) 情報処理システム
JP3914317B2 (ja) データ通信装置およびその方法
JP3298516B2 (ja) インターネット情報探索システムと方法
JPH11328113A (ja) 情報検索装置
JP3682914B2 (ja) データ通信システムおよびこれに用いるデータ処理装置、ブラウザを利用した接続維持方法、記録媒体
CN106453573A (zh) 一种http服务器中cgi请求的处理方法和系统
JP2000066945A (ja) ドキュメント収集システム、装置及び方法、並びに記録媒体
US7908345B2 (en) Method and device for access to a digital document in a communication network of the station to station type
JPH10289171A (ja) プログラム間連携システム
JPH0749819A (ja) サーバ/クライアント方式の通信方法
JP2713669B2 (ja) データベース検索システムで用いられる端末
JPH08235096A (ja) プロセス間リンクコネクション設定システム及びその設定方法
JPH11161603A (ja) データ中継装置、データ中継方法、情報端末装置、情報端末装置の情報処理方法、データ通信システムおよび記録媒体
JP2003187176A (ja) 情報ランキング計算方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees