JP4948361B2 - Webサーバアクセススケジューリングシステム - Google Patents
Webサーバアクセススケジューリングシステム Download PDFInfo
- Publication number
- JP4948361B2 JP4948361B2 JP2007280728A JP2007280728A JP4948361B2 JP 4948361 B2 JP4948361 B2 JP 4948361B2 JP 2007280728 A JP2007280728 A JP 2007280728A JP 2007280728 A JP2007280728 A JP 2007280728A JP 4948361 B2 JP4948361 B2 JP 4948361B2
- Authority
- JP
- Japan
- Prior art keywords
- web server
- communication resource
- web
- communication
- download
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Description
インクリメンタルクローラは、各Webページの過去の更新傾向などに基づいて、次の更新時期を予測することにより再収集のタイミングを決定する。
また、従来のWebサーバアクセススケジューリングシステムにおいては、より多くの通信リソースを投入することによって収集速度および収集規模の向上を図る必要があったが、低速なWebサーバは大量に存在しており、十分な効果を得るためには膨大なコストを要するという課題があった。
図1はこの発明の実施の形態1に係るWebサーバアクセススケジューリングシステムの概略構成を示すブロック図である。
図1において、一般的なコンピュータ1は、プロセッサ、バス、メモリ、固定ディスクインタフェース、固定ディスク装置、およびネットワークインタフェースを備えており、コンピュータプログラムとして実現されたWebサーバアクセススケジューリングシステムを実現する。
コンピュータ1は、ネットワークインタフェースを介してインターネット9に接続されており、複数のWebサーバ10と通信して、Webページをダウンロードすることができるようになっている。
記憶部2は、コンピュータ1内の固定ディスク装置により実現されており、Webサーバ状態テーブル3と、通信リソース状態テーブル4と、Webページ状態テーブル5と、ダウンロードした複数のWebページコンテンツを記憶するWebページコンテンツテーブル6とを含む。各状態テーブル3〜5およびWebページコンテンツテーブル6の情報は、記憶部2内に記憶される。
ダウンロード手段8は、利用可能な通信リソースごとに複数存在し、各ダウンロード手段8が並行して動作することにより、単位時間当たりのダウンロードWebページ数を向上させることができる。ただし、通信リソースとは、独立して使用可能な論理接続を意味し、UNIX(登録商標)やWindows(登録商標)などのオペレーティングシステムにおいては、ソケットに相当する。
Webサーバ状態テーブル3は、所定のWebサーバ群の各Webサーバに対して、Webサーバ名22、アクセス間隔23、経過時間24、アクセス回数25、最終アクセス時刻26、および、リソースID27からなる項目の組を格納する。
リソースID27は、各Webサーバに割り当てられた通信リソースを、一意に識別するための識別子を示している。なお、Webサーバと通信リソースとの対応関係は、「1対1」である。
通信リソース状態テーブル4は、所定の通信リソース群の各通信リソースに対して、リソースID32、最小アクセス間隔33、最大アクセス間隔34、合計経過時間35、および、Webサーバリスト36からなる項目の組を格納する。
また、合計経過時間35は、Webサーバリスト36に含まれるすべてのWebサーバにおける平均経過時間、すなわち(経過時間24÷アクセス回数25)の総和を示している。
オーバーフローリソースに対しては、通信リソース状態テーブル4のリソースID32(=−1)とWebサーバリスト36のみが設定されかつ参照され、最小アクセス間隔33、最大アクセス間隔34、および合計経過時間35は、設定も参照もされない。
Webページ状態テーブル5は、Webページごとに、URI42、推定更新間隔43、および、最終アクセス時刻44を含む項目の組を格納する。
割り当て手段7の初期設定動作は、Webサーバアクセススケジューリングシステムの実行開始時に1度だけ起動される。なお、初期設定動作の以前において、Webサーバ状態テーブル3のすべてのリソースID27には、リソース未割り当て状態を示す値(たとえば、「0」)が設定されているものとする。
ステップS51において、上記条件「すべてのリソースID27≠0」が成立する(すなわち、YES)と判定されれば、初期設定の完了を表しているので、図5の初期設定ルーチンを終了する。
これにより、選択されたWebサーバのリソースID27が割り当て済みを示す所定値(≠0)に設定される。その後、ステップS51に戻って、ステップS52およびS53を繰り返し実行し、残りのWebサーバの処理を続ける。
図6において、まず、割り当て手段7は、割り当て対象のWebサーバのアクセス回数25が「0」である(第1の条件を満たす)か否か、または、割り当て対象のWebサーバのアクセス間隔23が割り当て対象のWebサーバの平均経過時間(=経過時間24÷アクセス回数25)よりも小さい(第2の条件を満たす)か否かを判定する(ステップS61)。
この場合、オーバーフローリソース(リソースID=−1)のWebサーバリスト36(図3参照)に、割り当て対象のWebサーバを追加するとともに、割り当て対象のWebサーバのリソースID27に「−1」を設定する。
また、ステップS61において第2の条件が成立する場合は、割り当て対象のWebサーバからWebページをダウンロードするのに要する平均経過時間が大きく、アクセス間隔23の実現がそもそも不可能な状態であるので、同様にオーバーフローリソース(リソースID=−1)の割り当てを行うことになる。
なお、ステップS62、S63は、リソースID順に処理を実行することに相当する。
図7はダウンロード手段8の動作を示すフローチャートであり、ノンブロッキングリソースの1つに対応する場合の処理を示している。
ステップ74の再計算処理は、ステップS73におけるWebページダウンロードの結果に応じて更新されるWebサーバ状態テーブル3の内容を、通信リソース状態テーブル4に反映するために必要となる。
以下、ステップS71に戻って上記処理を続行する。
ステップS77において、空き時間が発生していない(すなわち、NO)と判定されれば、直ちにステップS71に戻って上記処理を続行する。
最後に、「空き時間(=開始時刻+最小アクセス間隔33−現在時刻)分だけ実行を停止して待機し(ステップS79)、待機期間の終了後にステップS71に戻る。
図8において、まず、ダウンロード手段8は、ダウンロード対象となるWebサーバに属するWebページをWebページ状態テーブル5から検索し、判定時間(=次回アクセス予定時刻=最終アクセス時刻44+推定更新間隔43)が最小値を示すWebページを1つ選択する(ステップS81)。
ステップ82の処理は、DNSプロトコルによるWebサーバ名からIPアドレスへの変換や、HTTPプロトコルによるURIの送信およびコンテンツの受信を含む。
なお、ステップS85においては、前述の公知文献(日本データベース学会Letters Vol.6、No.1、pp.173−176「大規模Webアーカイブのための更新クローラの設計と実装」田村孝之、喜連川優)などに示された方法を用いることができる。
各Webページを推定更新間隔43ごとに繰り返しアクセスする場合、各Webページに対する単位時間当たりのアクセス頻度は、推定更新間隔43の逆数となる。
したがって、ステップS85において、Webページの推定更新間隔43を更新した後に、対応するWebサーバのアクセス間隔23も合わせて更新する。
図9において、まず、ダウンロード手段8は、オーバーフローリソースのWebサーバリスト36(図3参照)に含まれるWebサーバのうち、所定の条件「最終アクセス時刻26+アクセス間隔23−経過時間24÷アクセス回数25<現在時刻」を満たすWebサーバが存在するか否かに基づいて、「次アクセス開始候補」が存在するか否かを判定する(ステップS91)。
なお、ステップS91を間断なく繰り返す代わりに、セマフォや条件変数などの並行処理同期プリミティブを用いて、Webサーバ状態テーブル3の内容が変化するまで待機するようにしてもよい。
ステップS92、S93は、図8内の処理(ステップS81、S82)と同様である。
Webサーバ状態テーブル3は、所定のWebサーバ群の各Webサーバに対するアクセス間隔目標値(アクセス間隔23)と、通信リソース割り当て状態(リソースID27)と、1アクセス当たり平均経過時間と、を記憶する。通信リソース状態テーブル4は、所定の通信リソース群の各通信リソースに対する空き容量を記憶する。
また、所定の条件は、
(1)Webサーバの平均経過時間が各通信リソースの空き容量以下であることと、
(2)Webサーバのアクセス間隔目標値と、空き容量に対応する通信リソースが割り当てられたすべてのWebサーバに関するアクセス間隔目標値の最小値との比が一定値未満であることと、
(3)空き容量に対応する通信リソースが割り当てられたすべてのWebサーバに関するアクセス間隔目標値の最大値と、Webサーバのアクセス間隔目標値との比が一定値未満であることと、
のすべてを含む。
ここで、所定時間は、各Webサーバに関するアクセス間隔目標値と平均経過時間との差である。
また、Webサーバ10からダウンロードを行うことで平均経過時間などの条件が変化した場合には、通信リソースの再割り当てを行うことにより、常に最適な状態を維持することができる。
ここで、所定時間は、各Webサーバ10に関するアクセス間隔目標値と平均経過時間との差であり、判定時間は、各Webサーバ10の前回ダウンロード終了時刻に、所定時間の2倍を加算した値である。
ただし、「最終アクセス時刻26+アクセス間隔23−経過時間24÷アクセス回数25<現在時刻」となるWebサーバは、負荷抑制の目的ために、スケジュール対象外とする。
また、所定の条件は、Webサーバの平均経過時間とアクセス間隔目標値との比が、通信リソースの空き容量以下であることを含む。
ただし、一定値が大き過ぎると、通信リソースに対して割り当てられるWebサーバ数が多くなり、互いにアクセスをブロックしてしまうので、安全を見込んで「0.7」などの小さい値に設定しておく必要がある。
なお、上記実施の形態1では、オーバーフローリソースの種類について考慮しなかったが、図11および図12に示すように、オーバーフローリソースを3種類に分類して、それぞれ異なる制御を行うようにしてもよい。
この場合、「リソースID=−1」で表されるオーバーフローリソースと、「リソースID=−2」で表されるハードオーバーフローリソースと、「リソースID=−3」で表される未アクセスWebサーバ用リソースと、に対応した3種類の制御が行われる。
図11において、ステップS111〜S114は、前述(図6)のステップS61に代えて実行される処理である。
まず、割り当て手段7は、割り当て対象のWebサーバのアクセス回数25(図2参照)を「0」と比較して、アクセス回数=0であるか否かを判定する(ステップS111)。
ステップS111において、アクセス回数=0(すなわち、YES)と判定されれば、割り当て対象のWebサーバに対して、新たに導入した「未アクセスWebサーバ用リソース」を割り当てて(ステップS112)、図11の処理ルーチンを終了する。
このとき、割り当て手段7は、リソースID=−3に対応するWebサーバリスト36(図3参照)に割り当て対象のWebサーバを追加し、割り当て対象のWebサーバのリソースID27に「−3」を設定する。
このとき、割り当て手段7は、リソースID=−2に対応するWebサーバリスト36に割り当て対象のWebサーバを追加し、割り当て対象のWebサーバのリソースID27に「−2」を設定する。
図12は未アクセスWebサーバ用リソース(リソースID=−3)に対応する処理を示している。
まず、ダウンロード手段8は、未アクセスWebサーバ用リソースのWebサーバリスト36にWebサーバが存在するか否かを判定し(ステップS121)、Webサーバが存在しない(すなわち、NO)と判定されれば、未アクセスWebサーバ用リソースのWebサーバリスト36にWebサーバが挿入されるまで待機する。
このとき、ダウンロードが成功した場合にはWebサーバが存在することが明らかであるが、ダウンロードに失敗した場合でも、通信相手の不在によるエラーであるか、またはWebサーバによるエラー応答であるか、を区別する必要がある。
また、一時的なネットワーク経路の障害により、Webサーバ10との間の通信に失敗することもあるので、一定回数にわたってリトライしたうえで、Webサーバの有無を判定することが望ましい。
これにより、リトライ制限回数に達するまで、選択されたWebサーバに対する処理が繰り返し実行されることになる。
ただし、ノンブロッキングリソースに対応するダウンロード手段8の動作(図7参照)において、再割り当て処理(ステップS78)は、「オーバーフローリソース」のみを対象としており、「ハードオーバーフローリソース」は対象としない。
この場合、ダウンロード手段8は、第4の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対し、順次ダウンロードを行うとともに、Webサーバとの通信に成功した場合には、Webサーバに対して、新たに別の(第3の)通信リソース群のいずれかの通信リソースを、オーバーフローリソースとして割り当て手段7に割り当てさせるか、または、通信リソースの再割り当てを割り当て手段7に行わせる。
なお、上記実施の形態2では、オーバーフローリソースを3種類に分類したが、図13〜図16に示すように、4種類に分類してもよい。
図13〜図16はこの発明の実施の形態3を示しており、図13はWebサーバ状態テーブル3aの説明図、図14は割り当て手段7の動作を示すフローチャート、図15および図16はダウンロード手段8の動作を示すフローチャートである。
この場合、Webサーバアクセススケジューリングシステムは、前述(図2参照)のWebサーバ状態テーブル3に代えて、図13に示すWebサーバ状態テーブル3aを用いる。
日本語ページ数28は、対応するWebサーバに属するWebページのうち、ダウンロードの結果、「日本語で記述されている」と判明したWebページ数である。
たとえば公知の選択的Web情報収集装置(特開2006−235729号公報参照)には、Webページの記述言語に基づき、Webサーバの使用言語を判定し、特定言語が使用されているWebサーバ上のWebページを選択的に収集する技術が開示されており、この発明の実施の形態3は、この公知技術との組み合わせにより効果を発揮する。
まず、割り当て手段7は、割り当て対象のWebサーバのアクセス回数25(図13参照)を「0」と比較して、アクセス回数=0であるか否かを判定する(ステップS141)。
このとき、割り当て手段7は、リソースID=−3に対応するWebサーバリスト36(図3参照)に割り当て対象のWebサーバを追加し、割り当て対象のWebサーバのリソースID27に「−3」を設定する。
このとき、割り当て手段7は、リソースID=−4に対応するWebサーバリスト36に割り当て対象のWebサーバを追加し、割り当て対象のWebサーバのリソースID27に「−4」を設定する。
このとき、割り当て手段7は、リソースID=−2に対応するWebサーバリスト36に割り当て対象のWebサーバを追加し、割り当て対象のWebサーバのリソースID27に「−2」を設定する。
図15は未アクセスWebサーバ用リソース(リソースID=−3)に対応する処理を示しており、ステップS151〜S154、S157、S158は、前述(図12)のステップS121〜S126と同様の処理である。
図16において、まず、ダウンロード手段8は、コンテンツ判定中Webサーバ用リソースのWebサーバリスト36に、条件「最終アクセス時刻26+アクセス間隔23−経過時間24÷アクセス回数25<現在時刻」を満たすWebサーバ(次アクセス開始候補Webサーバ)が存在するか否かを判定し(ステップS161)、Webサーバが存在しない(すなわち、NO)と判定されれば、次アクセス開始候補Webサーバが現れるまで待機する。
なお、「ハードオーバーフローリソース(リソースID=−2)」に対応するダウンロード手段8の動作については、前述(図9参照)と同様なので、ここでは説明を省略する。
また、割り当て手段7は、Webサーバ群のいずれかのWebサーバに対して、過去に所定条件を満たすコンテンツをダウンロードしたことがない場合に、所定の通信リソース群とは異なる別の(第5の)通信リソース群(所定数からなる)から、通信リソースをコンテンツ判定中Webサーバ用リソースとして割り当てる。
ここで、所定時間は、各Webサーバに関するアクセス間隔目標値と平均経過時間との差である。
なお、コンテンツに対する所定条件は、
(1)コンテンツがテキストデータであることと、
(2)コンテンツが特定の文字コード(日本語)で記述されていることと、
の両方を含む。
この場合、ダウンロード手段8は、第4の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対し、順次ダウンロードを行うとともに、Webサーバとの通信に成功した場合には、Webサーバに対して、新たに別の(第5の)通信リソース群のいずれかの通信リソースを、オーバーフローリソースとして割り当て手段7に割り当てさせる。
たとえば、コンテンツに対する所定条件は、コンテンツが動画データであることであってもよい。
Claims (19)
- 記憶部と、ダウンロード手段と、割り当て手段と、を備えたWebサーバアクセススケジューリングシステムであって、
前記記憶部は、
所定のWebサーバ群の各Webサーバに対するアクセス間隔目標値と、通信リソース割り当て状態と、1アクセス当たり平均経過時間と、を記憶するWebサーバ状態テーブルと、
所定の通信リソース群の各通信リソースに対する空き容量を記憶する通信リソース状態テーブルと、を含み、
前記ダウンロード手段は、
前記アクセス間隔目標値と、前記通信リソース割り当て状態と、に基づき、
前記Webサーバ群からダウンロード対象のWebサーバを選択して、コンテンツをダウンロードするとともに、
ダウンロードの経過時間の実績に基づいて前記選択されたWebサーバの1アクセス当たり平均経過時間を前記記憶部に記憶させ、
前記割り当て手段は、
前記各Webサーバに対して、前記アクセス間隔目標値、前記平均経過時間、および前記空き容量が所定の条件を満たす通信リソースを前記通信リソース群から1つ選択して割り当て、
割り当てた結果を前記通信リソース割り当て状態として前記記憶部に記憶させること
を特徴とするWebサーバアクセススケジューリングシステム。 - 前記空き容量は、前記空き容量に対応する通信リソースが割り当てられたすべてのWebサーバに関する、前記アクセス間隔目標値の最小値と前記平均経過時間の総和との差であり、
前記所定の条件は、
前記Webサーバの前記平均経過時間が前記各通信リソースの前記空き容量以下であることと、
前記Webサーバの前記アクセス間隔目標値と、前記空き容量に対応する通信リソースが割り当てられたすべてのWebサーバに関する前記アクセス間隔目標値の最小値との比が一定値未満であることと、
前記空き容量に対応する通信リソースが割り当てられたすべてのWebサーバに関する前記アクセス間隔目標値の最大値と、前記Webサーバの前記アクセス間隔目標値との比が一定値未満であることと、のすべてを含む
ことを特徴とする請求項1に記載のWebサーバアクセススケジューリングシステム。 - 前記空き容量は、
値1を超えない定数と、前記空き容量に対応する通信リソースが割り当てられたすべてのWebサーバに関する、前記平均経過時間と前記アクセス間隔目標値の比の総和との差であり、
前記所定の条件は、
前記Webサーバの前記平均経過時間と前記アクセス間隔目標値との比が、前記通信リソースの前記空き容量以下であることを含む
ことを特徴とする請求項1に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記各通信リソースについて、その通信リソースが割り当てられた各Webサーバから巡回的にダウンロードを行い、
前記各Webサーバを一巡するごとに、前記各Webサーバを一巡するのに要した時間が、前記通信リソースが割り当てられたすべてのWebサーバに関する前記アクセス間隔目標値の最小値を下回らないように待機する
ことを特徴とする請求項2に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記各通信リソースのいずれかが割り当てられたWebサーバであって、前回ダウンロード終了から所定時間が経過した各Webサーバのうち、判定時間が最小となるWebサーバから順次ダウンロードを行い、
前記所定時間は、前記各Webサーバに関する前記アクセス間隔目標値と前記平均経過時間との差であり、
前記判定時間は、前記各Webサーバの前回ダウンロード終了時刻に、前記所定時間の2倍を加算した値である
ことを特徴とする請求項1から請求項3までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記各Webサーバからダウンロードした各コンテンツの更新履歴から前記各コンテンツの推定更新間隔を算出し、
前記各Webサーバに対応する前記アクセス間隔目標値を、前記各Webサーバに属するすべてのコンテンツに関する前記推定更新間隔の逆数の総和の逆数として与える
ことを特徴とする請求項1から請求項5までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記Webサーバ群のいずれかのWebサーバからのダウンロード後に、前記Webサーバの前記平均経過時間および前記アクセス間隔目標値を更新した結果、前記所定の条件が満たされなくなった場合に、
前記Webサーバに対する通信リソースの再割り当てを前記割り当て手段に行わせる
ことを特徴とする請求項1から請求項6までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対し、前記平均経過時間が前記アクセス間隔目標値を上回っている場合に、
前記通信リソース群とは異なる第2の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第2の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対して、順次ダウンロードを行う
ことを特徴とする請求項1から請求項7までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対し、前記所定の条件を満たす通信リソースが前記通信リソース群に存在しない場合に、
前記通信リソース群とは異なる第3の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第3の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバのうち、前回ダウンロード終了から所定時間が経過したWebサーバに対して、順次ダウンロードを行い、
前記所定時間は、前記各Webサーバに関する前記アクセス間隔目標値と前記平均経過時間との差である
ことを特徴とする請求項1から請求項8までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記通信リソース群のいずれかの通信リソースが割り当てられたWebサーバからのダウンロード後に、前記Webサーバの前記平均経過時間および前記アクセス間隔目標値を更新した結果、前記Webサーバに割り当てられた通信リソースの前記空き容量が一定値以上に達した場合に、
前記第3の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対して、通信リソースの再割り当てを前記割り当て手段に行わせる
ことを特徴とする請求項9に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対して、過去にアクセスしたことがない場合に、
前記通信リソース群とは異なる第4の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第4の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対し、順次ダウンロードを行うとともに、
前記Webサーバとの通信に成功した場合には、前記Webサーバに対して、新たに前記第3の通信リソース群のいずれかの通信リソースを前記割り当て手段に割り当てさせる
ことを特徴とする請求項10に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対して、過去にアクセスしたことがない場合に、
前記通信リソース群とは異なる第4の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第4の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対し、順次ダウンロードを行うとともに、
前記Webサーバとの通信に成功した場合には、前記Webサーバに対して、通信リソースの再割り当てを前記割り当て手段に行わせる
ことを特徴とする請求項1から請求項10までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対して、過去に所定条件を満たすコンテンツをダウンロードしたことがない場合に、
前記通信リソース群とは異なる第5の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第5の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバのうち、前回ダウンロード終了から所定時間が経過したWebサーバに対して、順次ダウンロードを行うとともに、
ダウンロードしたコンテンツが前記所定条件を満たす場合には、前記Webサーバに対して新たに前記第3の通信リソース群のいずれかの通信リソースを前記割り当て手段に割り当てさせ、
前記所定時間は、前記各Webサーバに関する前記アクセス間隔目標値と前記平均経過時間との差である
ことを特徴とする請求項10に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対して、過去に所定条件を満たすコンテンツをダウンロードしたことがない場合に、
前記通信リソース群とは異なる第5の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第5の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバのうち、前回ダウンロード終了から所定時間が経過したWebサーバに対して、順次ダウンロードを行うとともに、
ダウンロードしたコンテンツが前記所定条件を満たす場合には、前記Webサーバに対して通信リソースの再割り当てを前記割り当て手段に行わせ、
前記所定時間は、前記各Webサーバに関する前記アクセス間隔目標値と前記平均経過時間との差である
ことを特徴とする請求項1から請求項10までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記第5の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバからダウンロードしたコンテンツが前記所定条件を満たさなかった場合に、
前記Webサーバからのダウンロードを所定回数に達するまで行うとともに、
前記所定回数だけダウンロードを繰り返しても前記Webサーバから前記所定条件を満たすコンテンツがダウンロードされなかった場合には、
前記Webサーバに対して前記いずれの通信リソースも割り当てない
ことを特徴とする請求項13または請求項14に記載のWebサーバアクセススケジューリングシステム。 - 前記記憶部は、
ダウンロードした各Webページの状態を記憶するWebページ状態テーブルと、
前記各Webページのコンテンツを記憶するWebページコンテンツテーブルと、を含み、
前記コンテンツに対する所定条件は、
前記コンテンツがテキストデータであることと、
前記コンテンツが特定の文字コードで記述されていることと、の両方を含む
ことを特徴とする請求項13から請求項15までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記記憶部は、
ダウンロードした各Webページの状態を記憶するWebページ状態テーブルと、
前記各Webページのコンテンツを記憶するWebページコンテンツテーブルと、を含み、
前記コンテンツに対する所定条件は、前記コンテンツが動画データであることを含む
ことを特徴とする請求項13から請求項15までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記割り当て手段は、
前記Webサーバ群のいずれかのWebサーバに対して、過去にアクセスしたことがない場合に、
前記通信リソース群とは異なる第4の通信リソース群から通信リソースを割り当て、
前記ダウンロード手段は、
前記第4の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバに対し、順次ダウンロードを行うとともに、
前記Webサーバとの通信に成功した場合には、前記Webサーバに対して、新たに前記第5の通信リソース群のいずれかの通信リソースを前記割り当て手段に割り当てさせる
ことを特徴とする請求項13から請求項17までのいずれか1項に記載のWebサーバアクセススケジューリングシステム。 - 前記ダウンロード手段は、
前記第4の通信リソース群のいずれかの通信リソースが割り当てられた各Webサーバとの通信に成功しなかった場合に、
前記Webサーバとの通信を所定回数に達するまで再試行するとともに、
前記所定回数だけ通信を繰り返しても前記Webサーバとの通信に成功しなかった場合には、
前記Webサーバに前記いずれの通信リソースも割り当てない
ことを特徴とする請求項11、請求項12、または請求項18に記載のWebサーバアクセススケジューリングシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007280728A JP4948361B2 (ja) | 2007-10-29 | 2007-10-29 | Webサーバアクセススケジューリングシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007280728A JP4948361B2 (ja) | 2007-10-29 | 2007-10-29 | Webサーバアクセススケジューリングシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009110196A JP2009110196A (ja) | 2009-05-21 |
JP4948361B2 true JP4948361B2 (ja) | 2012-06-06 |
Family
ID=40778640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007280728A Active JP4948361B2 (ja) | 2007-10-29 | 2007-10-29 | Webサーバアクセススケジューリングシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4948361B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5032543B2 (ja) | 2009-09-16 | 2012-09-26 | 株式会社東芝 | スケジューリング装置、方法及びプログラム |
JP5462713B2 (ja) * | 2010-05-25 | 2014-04-02 | 株式会社Kddi研究所 | Webページ収集装置、方法及びプログラム |
JP5238829B2 (ja) | 2011-01-13 | 2013-07-17 | 株式会社東芝 | データ収集装置、データ収集プログラム、およびデータ収集システム |
KR101425816B1 (ko) * | 2013-10-29 | 2014-08-05 | 네이버 주식회사 | 실시간 검색 구현 방법 및 그 시스템 |
CN114827115B (zh) * | 2022-06-01 | 2024-06-28 | 青岛中科曙光科技服务有限公司 | 容器内Web服务的访问方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4025379B2 (ja) * | 1996-09-17 | 2007-12-19 | 株式会社ニューズウオッチ | 検索システム |
JP3507824B2 (ja) * | 2002-01-25 | 2004-03-15 | 株式会社東芝 | データ伝送装置及びデータ伝送方法 |
-
2007
- 2007-10-29 JP JP2007280728A patent/JP4948361B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009110196A (ja) | 2009-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10635664B2 (en) | Map-reduce job virtualization | |
JP4293011B2 (ja) | 障害時のサーバ決定方法 | |
US6757802B2 (en) | Method for memory heap and buddy system management for service aware networks | |
JP5121936B2 (ja) | リソース割り当て装置及びリソース割り当てプログラム及び記録媒体及びリソース割り当て方法 | |
JP6233413B2 (ja) | タスク割り当て判定装置、制御方法、及びプログラム | |
CN109729106B (zh) | 处理计算任务的方法、系统和计算机程序产品 | |
JP4948361B2 (ja) | Webサーバアクセススケジューリングシステム | |
US11311722B2 (en) | Cross-platform workload processing | |
US10394782B2 (en) | Chord distributed hash table-based map-reduce system and method | |
WO2005017763A2 (en) | System and method for allocating system resources | |
CN106569892B (zh) | 资源调度方法与设备 | |
JP6951846B2 (ja) | 計算機システム及びタスクの割当方法 | |
JP2011039800A (ja) | データベース管理方法およびシステム並びにその処理プログラム | |
JP6715420B2 (ja) | データ量圧縮方法、装置、プログラム及びicチップ | |
CN111857539A (zh) | 用于管理存储系统的方法、设备和计算机程序产品 | |
JP2016024612A (ja) | データ処理制御方法、データ処理制御プログラムおよびデータ処理制御装置 | |
KR101595967B1 (ko) | 데드라인 부여된 작업의 분산 처리 성능 향상을 위한 맵리듀스 스케쥴링 시스템 및 방법 | |
US20150365474A1 (en) | Computer-readable recording medium, task assignment method, and task assignment apparatus | |
US11550505B1 (en) | Intra-shard parallelization of data stream processing using virtual shards | |
CN113296877A (zh) | 数据处理方法和装置,及计算机存储介质和电子设备 | |
CN109407970B (zh) | 读写请求处理方法、装置及电子设备 | |
US9626226B2 (en) | Cross-platform workload processing | |
US8918555B1 (en) | Adaptive and prioritized replication scheduling in storage clusters | |
CN111459649B (zh) | 管理计算资源的存储器的方法、设备和计算机可读介质 | |
CN114706849B (zh) | 一种数据检索方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100827 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120306 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4948361 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |