JP3160719B2

JP3160719B2 - コンピュータのネットワークからワールドワイドウェッブ上のページを捜し出したり、ドキュメントを捜し出したりするためのシステム及び方法

Info

Publication number: JP3160719B2
Application number: JP52221597A
Authority: JP
Inventors: ルイスエムモーニア
Original assignee: コンパックコンピュータコーポレイション
Priority date: 1995-12-13
Filing date: 1996-12-10
Publication date: 2001-04-25
Anticipated expiration: 2016-12-10
Also published as: CN1811757A; EP3086246A3; CN1202257A; KR100330576B1; AU694386B2; CN1192317C; ZA9610561B; EP1241594A3; WO1997022069A1; CA2240350A1; EP3086246A2; AU1417597A; US5974455A; CN1811757B; KR19990064246A; JPH10512699A; US6032196A; TW311996B; EP1241594A2; EP0867007A1

Description

【発明の詳細な説明】発明の分野本発明は、一般的に、コンピュータのネットワークか
らワールドワイドウェッブ（WWW）上のページと呼ばれ
るドキュメントにアクセスしたり、ドキュメントを捜し
出したりするためのシステム及び方法に関し、特に、迅
速にワールドワイドウェッブ上のページを捜し出して解
析するためのシステム及び方法に関する。

発明の背景ここではウェッブページと呼ぶウェッブドキュメント
は、インターネットに接続された多数のサーバーコンピ
ュータ（ここでは以後「サーバー」と呼ぶ。）上に記憶
される。ウェッブ上の各々のページは別個のURL（ユニ
バーサルリソースロケーターuniversal resource locat
or）を有する。ウェッブサーバー上に記憶された多数の
ドキュメントはHTML（ハイパーテキストマークアップラ
ンゲージ−hypertext markup language）と呼ばれる標
準のドキュメント記述言語で書かれている。HTMLを使用
して、ウェッブドキュメントのデザイナーは、ドキュメ
ント中でハイパーテキストリンクもしくはアノテーショ
ンをドキュメント中の特定の語又は句と関連付けて、ウ
ェッブページの視覚的な外観及び内容を記述する。ハイ
パーテキストリンクは、その語又は句に関する情報を提
供する他のウェッブドキュメントもしくは同一のドキュ
メント中の他の部分のURLを識別する。

インターネットに接続されたウェッブクライアント上
で動くウェッブブラウザー（HTMLドキュメントを表示し
たり、ウェッブサーバーと通信したりするように設計さ
れたコンピュータプログラム）を使用して、ユーザーは
WWW上に記憶されたドキュメントにアクセスする。一般
的に、ユーザーが、ウェッブブラウザーで表示されるド
キュメント内でハイパーテキストリンク（一般的に、強
調された語もしくは句としてウェッブブラウザーで表示
される。）を選ぶことによって、ユーザはドキュメント
にアクセスする。そして、ウェッブブラウザーは、要求
されたドキュメントのURLによって識別されるウェッブ
サーバーへ、要求されたドキュメントのHTTP（ハイパー
テキスト転送プロトコル−hypaertext transfer protoc
ol）要求を出す。その要求に応答して、やはりHTTPを使
用して、指名されたウェッブサーバーは要求されたドキ
ュメントをウェッブブラウザーに返す。

1995年の末以後、ワールドワイドウェッブ（以後、
「ウェッブ」と呼ぶ。）として知られているインターネ
ット部分のページ数は、先の１年間に数倍にもなり、少
なくとも3000万ページに達するようになった。本発明
は、ウェッブが増大し続ける時に、ウェッブ上のページ
の経路を維持し続けるためのシステムを実施することを
意図している。

ウェッブ上のページを捜し出すためのシステムは、
「ウェッブクローラー（Web crawler）」や「ウェッブ
スパイダー（Web spider）」や「ウェッブロボット（We
b robot）」として様々に知られている。本発明は「ウ
ェッブスクーター（Web scooter）」としてつくられて
きた。何故ならば、それは既知のウェッブクローラーの
どれよりも非常に速いからである。本文では、「ウェッ
ブクローラー」、「ウェッブスパイダー」、「ウェッブ
スクーター」、「ウェッブクローラーコンピュータシス
テム」、「ウェッブスクーターコンピュータシステム」
という語を相互に互換性を有する語として使用する。

一般的に、従来技術のウェッブクローラーは以下のよ
うに動作する。既知のウェッブページのルートセットか
ら開始して、全ての既知のウェッブページに対する別個
のエントリーについて、ディスクファイルがつくられ
る。更なるウェッブページがフェッチされ、他のページ
へのそれらのリンクが解析される時、まだウェッブクロ
ーラーに知られていないウェッブページを参照するため
に、ディスクファイルに更なるエントリーがつくられ
る。エントリーの各々は、他のステータス情報と共に、
対応するウェッブページが処理されているかどうかを示
す。ウェッブクローラーはウェッブページを次のように
処理する。（Ａ）処理されているページ中の他のウェッ
ブページへの全てのリンクを識別し、関連する情報を記
憶して、まだ処理されていない識別された全てのウェッ
ブページを、処理されるべきウェッブページのリスト、
もしくは他の同等のデータ構造に加える。（Ｂ）ウェッ
ブページをインデクサ、もしくは他のドキュメント処理
システムに送る。

一般的に、既に処理されたウェッブページに関する情
報はディスクファイルに記憶される。何故ならば、ディ
スクファイルの情報量は、ランダムアクセスメモリ（RA
M）に記憶するには大きすぎるからである。例えば、も
し平均100バイトの情報がウェッブページのエントリー
の各々に対して記憶されるならば、3000万ウェッブペー
ジを表すデータファイルは約３ギガバイトになり、これ
はRAMに実際に記憶するには大きすぎる。

次に、１ウェッブページを処理する時に発生するディ
スクI/Oについて考える。この説明のために、典型的な
１ウェッブページは20個の他のウェッブページへのリフ
ァレンスを有し、ディスク記憶装置は１秒あたり50シー
クよりも多くの処理はできないと仮定する。ウェッブク
ローラーは、処理されているページ中の20個のページリ
ファレンスの各々を評価して、ウェッブクローラーがそ
れらのページについて既に知っているかどうかを決定し
なければならない。これを実施するために、ウェッブク
ローラーはウェッブインフォメーションディスクファイ
ルから20個のレコードの検索を試みなければならない。
もし、特定ページのリファレンスのレコードが既に存在
するならば、そのリファレンスは捨てられる。何故なら
ば、更なる処理は不要だからである。しかしながら、も
し特定ページのレコードが見つからないならば、そのペ
ージのアドレスの可能なエイリアスの各々に対してレコ
ードを捜し出す試みがなされなければならない。それに
よって、標準の１ウェッブページを解析するのに必要な
ディスクレコードの平均シーク数は、１ページあたり約
50ディスクシークにまで増大する。

特定ページのリファレンスのディスクファイルのレコ
ードがまだ存在していないならば、参照されたページの
新しいレコードがつくられてディスクファイルに加えら
れる。そして、そのページリファレンスが、処理される
べきページの待ち行列に加えられるか、もしくはそのペ
ージがまだフェッチされて処理されていないことを示す
のに、そのディスクファイルエントリ自体が使用され
る。

このように、単に１ウェッブページを処理するのに、
（存在するレコードを読み出し、新しいレコードを書き
込むために）おおよそ20ディスクシークが必要となる。
結果として、１秒あたり50ディスクシークの制限を与え
られているので、１秒あたり約１ウェッブページしか処
理されない。

加えて、ネットワークアクセス待ち時間の問題があ
る。ウェッブサーバー及びウェッブサーバーとウェッブ
クローラーコンピュータ上の両方で使用される特定のハ
ードウェアとソフトウェアの位置によって、ウェッブペ
ージを検索する時間は大きく変わるけれども、平均的
に、ウェッブページを検索するのには約３秒かかる。こ
のように、ネットワーク待ち時間もやはり、従来技術の
ウェッブクローラーによって処理されるウェッブページ
数を１秒あたり約0.33ウェッブページに制限する恐れが
ある。ディスク「シーク」制限、ネットワーク待ち時
間、及び他の遅延要因のために、代表的な従来技術のウ
ェッブクローラーは１日あたり約30,000ウェッブページ
よりも多くのページを処理することができない。

ウェッブページがウェッブに追加される速度、及びウ
ェッブページが削除されたり、改訂されたりする速度の
理由から、１日あたり30,000ウェッブページの処理で
は、ウェッブ上の全てのウェッブページの真に最新のデ
ィレクトリーもしくはインデックスを維持するには不十
分である。理想的には、ウェッブクローラーは１日あた
り少なくとも250万ウェッブページを訪れる（すなわ
ち、フェッチ及び解析する）ことができなければならな
い。

従って、非常に高速の性能を持つウェッブクローラが
必要となる。本発明の目的は、１日あたり数百万のウェ
ッブページを処理することができるように改良されたウ
ェッブクローラーを提供することである。本発明の関連
する目的は、主に、ウェッブクローラーのCPUの処理速
度によってのみ、ウェッブクローラーの動作速度が制限
されるようにするために、前記のディスク「シーク」制
限及びネットワーク待ち時間制限を解決するような改良
されたウェッブクローラーを提供することである。更
に、本発明の別の関連する目的は、平均して、１秒あた
り少なくとも30ウェッブページ、より好ましくは１秒あ
たり少なくとも100ウェッブページをフェッチ及び解析
することができるウェッブクローラーシステムを提供す
ることである。

発明の概要本発明の本質は、請求項１に記述されているようなウ
ェッブページを捜し出すためのシステム及び請求項６に
記述されているようなウェッブページを捜し出すための
方法に存在する。

以後に、迅速に、ワールドワイドウェッブ上のウェッ
ブページのディレクトリーを捜し出して作成するための
システム及び方法を説明する。ウェッブクローラーシス
テムは、ランダムアクセスメモリ（RAM）に記憶された
ハッシュテーブル及び代表的なディスク記憶装置である
第２のメモリに記憶されたシーケンシャルファイル（こ
こでは、「シーケンシャルディスクファイル」もしくは
「ウェッブインフォメーションディスクファイル」と呼
ぶ。）を含む。システムにとって既知である全てのウェ
ッブページに対して、ウェッブクローラーシステムは、
ハッシュテーブルにより小さなエントリーを記憶するの
に加えて、シーケンシャルディスクファイルにエントリ
ーを記憶する。ハッシュテーブルのエントリーは、識別
値、対応するウェッブページが上手くフェッチされた時
だけ真にセットされるフェッチフラグ、対応するエント
リーがシーケンシャルディスクファイルのどこに記憶さ
れているかを示すファイル位置インジケーターを含む。
シーケンシャルディスクファイルエントリーの各々は、
対応するウェッブページのURLとそのウェッブページに
関するフェッチステータス情報を含む。

ウェッブインフォメーションディスクファイルへの全
てのアクセスは、単一のI/Oオペレーションとして、シ
ーケンシャルディスクファイルから多数のエントリを入
力バッファに移すといったように、入力バッファを経由
して、シーケンシャルに行われる。従って、シーケンシ
ャルディスクファイルは入力バッファからアクセスされ
る。同様に、シーケンシャルファイルに加えられる全て
の新しいエントリーは付加バッファに記憶され、付加バ
ッファが一杯になった時はいつでも、付加バッファの内
容はシーケンシャルディスクファイルの最後に加えられ
る。このようにして、ウェッブインフォメーションディ
スクファイルへのランダムアクセスは排除され、ディス
クアクセス制限によって引き起こされる待ち時間は最小
化される。

ウェッブページを捜し出して、そのページを処理する
ためのプロシジャーは、シーケンシャルにシーケンシャ
ルファイルの全てのエントリーを見直し、設定された選
定規準を満たす次のエントリーを選ぶことを含む。処理
する次のファイルエントリーを選ぶ時、ハッシュテーブ
ルは、最新のエントリー候補の全ての既知のエイリアス
と照合されて、エイリアスでそのウェッブページが既に
フェッチされているかどうかを決定する。もしエイリア
ス下でそのウェッブページは既にフェッチされているな
らば、そのシーケンシャルファイルのエントリーのエラ
ータイプフィールドは「非−選定エイリアス」として記
録され、その候補エントリーは選ばれない。

一度、次のウェッブページのリファレンスエントリー
が選ばれると、ウェッブクローラーシステムは対応する
ウェッブページへのフェッチを試みる。もし、フェッチ
が不成功ならば、そのウェッブページのシーケンシャル
ファイルエントリーのフェッチステータス情報は、ウェ
ッブクローラーに返されたエラーリターンコードに従っ
てフェッチ失敗として記録される。もし、フェッチが成
功ならば、そのウェッブページの（入力バッファ中の）
シーケンシャルディスクファイルのエントリーの類似の
フェッチフラグと同様に、そのウェッブページのハッシ
ュテーブルエントリーのフェッチフラグがセットされ
る。加えて、フェッチされたウェッブページ中のURLリ
ンクの各々が解析される。もしそのリンクによって参照
されるURLもしくはそのURLの規定されたエイリアスのい
ずれかのエントリーが既にハッシュテーブルにあるなら
ば、そのURLリンクの更なる処理は必要ではない。もし
このようなエントリーがハッシュテーブル中に見つから
ないならば、そのURLは、まだウェッブページのウェッ
ブクローラのデータベースに含まれていない「新しい」
ウェッブページを表しており、従って、新しいウェッブ
ページのエントリーがシーケンシャルディスクファイル
に加えられる（すなわち、そのエントリーは付加バッフ
ァのディスクファイルの一部に加えられる。）。その新
しいディスクファイルのエントリーは処理されているリ
ンクによって参照されるURLを含み、「未フェッチ」と
登録される。加えて、対応する新しいエントリーがハッ
シュテーブルに加えられ、そしてそのエントリーのフェ
ッチフラグはクリアされて、対応するウェッブページは
まだフェッチされていないことを示すようにする。フェ
ッチされたページ中の全てのURLリンクの処理に加え
て、更なる処理のために、ウェッブクローラーはフェッ
チされたページをインデクサーに送る。

図面の簡単な説明添付図を参照して例示された以下の好ましい実施態様
の説明によって、本発明のより詳細な理解が得られるで
あろう。

・図１は本発明の好ましい実施態様に従うウェッブクロ
ーラーシステムの好ましい実施態様のブロック図であ
る。

・図２は本発明の好ましい実施態様で使用されるハッシ
ュテーブルの仕組みのブロック図である。

・図３は本発明の好ましい実施態様で使用されるシーケ
ンシャルなウェッブインフォメーションディスクファイ
ル及び関連するデータ構造のブロック図である。

・図４は本発明の好ましい実施態様で使用されるウェッ
ブクローラープロシジャーのフローチャートである。

好ましい実施態様の説明図１について、ウェッブスクーターコンピューターシ
ステム102を含む分散コンピュータシステム100が示され
ている。通信インターフェース104及び一セットのイン
ターネットや他のネットワークへの接続106によって、
ウェッブスクーターはインターネットやウェッブページ
インデクシングコンピュータ（Web page indexing comp
uter）108に接続される。ある実施態様では、ウェッブ
ページインデクシングコンピューター108は、ローカル
もしくはワイドエリアネットワーク接続を使用せずに、
専用通信チャネルを通って、ウェッブスクーター102に
直接接続される。ウェッブスクーター102が接続される
インターネット部分は、（Ａ）ウェッブページを記憶す
るウェッブサーバー110及び（Ｂ）ここでは総体的に参
照番号112で参照されている、分散ネームサービス（DN
S）として知られているサービスに協力するサーバーで
ある。本文では、DNS112は、全てのインターネットのホ
スト名に対して規定された全てのエイリアス一セットを
全ての要求者に提供し、そしてインターネットのホスト
名及びそれらのエイリアスは、全てのURLの先頭部分を
形成すると仮定する。

好ましい実施態様では、ウェッブスクーター102はデ
ジタルイクイップメント社製のアルファワークステーシ
ョンコンピューターであるが、実際は、あらゆるタイプ
のコンピューターをウェッブスクーターコンピュータと
して使用することができる。好ましい実施態様では、ウ
ェッブスクーター102はCPU114、前記の通信インターフ
ェース104、ユーザーインターフェース116、ランダムア
クセスメモリ（RAM）118、ディスクメモリ（disk）120
を含む。好ましい実施態様では、通信インターフェース
104は非常に高性能の通信インターフェースであり、１
秒あたり少なくとも30ウェッブページの平均フェッチス
ループットで、1000以上の重複する通信要求を取り扱う
ことができる。

好ましい実施態様では、ウェッブスクーターのRAMは
１ギガバイトのランダムアクセスメモリを有し、以下の
ものを記憶する。

・マルチタスクオペレーティングシステム122。

・DNS112からエイリアス情報をフェッチするためである
のに加えて、ウェッブページをフェッチするためでもあ
るインターネット通信マネージャープログラム124。

・ホスト名に対して規定されたエイリアスを表す情報を
記憶するホスト名テーブル126。

・ウェッブインフォメーションハッシュテーブル130。

・ハッシュテーブルマネージャープロシジャー132。

・入力バッファ134及び付加バッファ136。

・ハッシュテーブル130、入力バッファ134、付加バッフ
ァ136へのアクセスを制御するためのミューテックス（m
utex）138。

・ウェッブスクータープロシジャー140。

・T1スレッドの実行を決定するためのスレッドデータス
トラクチャー142。

ここで、T1の値はウェッブスクーターコンピューター
システム102のオペレーターで選ぶことができる整数で
ある。（例えば、好ましい実施態様では、T1は1000の値
にセットされる。）より詳細を以下に説明するように、ディスク記憶装置
120は、入力バッファ134及び付加バッファ136を経由し
て、シーケンシャルにアクセスされるウェッブインフォ
メーションディスクファイル150を記憶する。

ホスト名テーブル126は、特に、DNS112にとって既知
である各ホスト名の全てのエイリアスを表す情報を記憶
する。エイリアスは、ウェッブスクータープロシジャー
140によって特定のウェッブページのURLのホスト名部分
の代わりにされる効果的なURLの先頭部分の一セットで
あり、特定のウェッブページのエイリアスのURLの一セ
ットを成す。

次に、上記データ構造及びプロシジャーの使用及び動
作を図１−図４及び表１−表２を参照して説明する。表
１−表２は共にウェッブスクータープロシジャーの疑似
コード表現を含む。ここで使用される疑似コードは、こ
の説明の目的のためだけにつくられているが、その疑似
コードは一般的なコンピュータ言語の規約を使用してお
り、当業者である全てのコンピュータプログラマーが容
易に理解可能であるように設計されている。

ウェッブインフォメーションハッシュテーブル図２に関して、ウェッブインフォメーションハッシュ
テーブル130は、フェッチされて解析されたウェッブペ
ージのURLリンクによって参照される各ウェッブページ
に加えて、ウェッブスクーターシステムによってフェッ
チされて解析された各ウェッブページに対する別個のエ
ントリー160を含む。このようなエントリーの各々は、
以下を含む。

・対応するウェッブページに固有な識別値162。

・対応するウェッブページがウェッブスクーターによっ
てフェッチされて解析されたかどうかを示す１ビットの
「フェッチフラグ」164。

・ウェッブインフォメーションディスクファイル150の
対応するエントリーの位置を示すファイル位置値166。

好ましい実施態様では、識別値の各々は63ビットの長
さであり、ファイル位置値は各々32ビットの長さであ
る。結果として、好ましい実施態様において、ハッシュ
テーブルエントリーの各々は丁度12バイトを占める。ハ
ッシュテーブルエントリーのサイズそのものは重要でな
いが、ハッシュテーブルエントリー160の各々は対応す
るディスクファイルエントリーよりもかなり小さい（例
えば、平均して少なくとも75％小さい。）ということは
重要である。

ハッシュテーブルマネージャー132は、その「インタ
ーフェース」170を経由して、ウェッブスクータープロ
シジャー140から以下の２種類のプロシジャーコールを
受け取る。

・第１の要求はハッシュテーブルマネージャー132に特
定のURLのエントリーが存在するかどうかを問い合わ
せ、そして、もし存在するならば、その記録のフェッチ
フラグが、対応するウェッブページが先にフェッチされ
て解析されたことを示すかどうかを問い合わせる。

・第２の要求は、特定のURL及び特定のディスクファイ
ル位置の新しいエントリーをハッシュテーブル130に記
憶するようにハッシュテーブルマネージャーに要求す
る。

ハッシュテーブルマネージャー132は識別ハッシュ関
数172を使用して、そこに現れる全てのURLの63ビットの
識別値を計算する。識別関数172は、確実に全ての固有
のURLが同様に固有の識別値に変換されるように設計さ
れている。識別関数は全ての固有のウェッブページのUR
Lの圧縮されたコードをつくる。通常の当業者であれ
ば、適切な識別関数の設計を理解している。約2²⁵から2
²⁶のウェッブページがあると、識別値は2⁶³の別個の値
を持つことが可能であるということを注記する。

ハッシュテーブルが既に固有のURLのエントリーを有
するかどうかを、ウェッブスクータープロシジャー140
がハッシュテーブルマネージャー132に問い合わせる
時、ハッシュテーブルマネージャーは、（Ａ）前記の識
別ハッシュ関数172を使用して、固有のURLの識別値をつ
くる。（Ｂ）ハッシュテーブル130のどこにその識別値
を有するエントリーを記憶するかを決定するハッシュテ
ーブル位置関数174にその値を送る。（Ｃ）実際に、こ
のようなエントリーがハッシュテーブルに記憶されてい
るかどうかを決定する。（Ｄ）もしマッチするエントリ
ーが見つからないならば、失敗値（例えば、−１）を返
す。（Ｅ）もしハッシュテーブルにそのエントリーが見
つかったならば、成功値（例えば、０）及びそのエント
リーのフェッチフラグ値とディスク位置値を返す。

好ましい実施態様では、識別値の所定数の低位ビット
に基づいて、ハッシュテーブル位置関数174はハッシュ
テーブルエントリーの位置を決定し、同一の低位ビット
を持つ全ての識別値のエントリーのブロックのチェーン
に続く。ハッシュテーブル130中の、与えられた値の低
位ビットのエントリー160は、１ブロックあたりB1エン
トリーのブロックに配置される。ここで、B1は調整可能
なパラメーターである。好ましい実施態様で使用される
上記の方法は、ハッシュテーブル130に高密度な方法で
データを記憶するという利点がある。当業者は理解して
いるように、多くの他のハッシュテーブル位置関数を使
用することができる。

ウェッブスクータープロシジャー140が、ハッシュテ
ーブルマネージャー132に特定のURL及び特定のディスク
ファイル位置の新しいハッシュテーブルのエントリーを
記憶することを要求する時、ハッシュテーブルマネージ
ャーは、（Ａ）前記の識別ハッシュ関数172を使用し
て、特定のURLの識別値をつくる。（Ｂ）ハッシュテー
ブル130のどこに識別値を有するエントリーを記憶しな
ければならないかを決定するハッシュテーブル位置関数
174にその値を送る。（Ｃ）ハッシュテーブルの所定の
位置に、対応するウェッブページがまだフェッチされて
いないことを示すフェッチフラグ値、識別値、特定のデ
ィスクファイル位置と共に新しいエントリー160を記憶
する。

ウェッブインフォメーションディスクファイル及びバッ
ファ図３及び表２に関して、入力バッファ134及び付加バ
ッファ136は、どちらのバッファもRAMに配置されてお
り、これらのバッファの使用によって、ディスクアクセ
スの動作は最小化される。入力バッファ及び付加バッフ
ァの管理は、ディスクファイルマネージャーとしても知
られているバックグラウンドのシーケンシャルディスク
ファイル及びバッファハンドラープロシジャーによって
実施される。

好ましい実施態様では、入力バッファ及び付加バッフ
ァはサイズが各々50から100メガバイトである。入力バ
ッファ134は、ウェッブインフォメーションディスクフ
ァイル150の、シーケンシャルに並べられた連続部分を
記憶するのに使用される。ウェッブスクータープロシジ
ャーは、入力バッファ134、付加バッファ136、ディスク
ファイル150の使用の調整を要求される多数の他のブッ
クキーピングポインター（bookkeeping pointer）に加
えて、入力バッファの処理されるべき次のエントリーへ
のポインター176、及びウェッブインフォメーションデ
ィスクファイル150の入力バッファ134に転送されるべき
次のエントリー180へのポインター178を維持する。

単一のI/O動作として、多数のエントリーがシーケン
シャルディスクファイルから入力バッファへ移されると
いったように、ウェッブインフォメーションディスクフ
ァイル150への全てのアクセスは、入力バッファ134を経
由して、シーケンシャルに行われる。従って、シーケン
シャルディスクファイル150は入力バッファからアクセ
スされる。同様に、シーケンシャルファイルに加えられ
る全ての新しいエントリーは付加バッファ136に記憶さ
れ、付加バッファが一杯になった時はいつでも、付加バ
ッファの内容がシーケンシャルファイルの最後に加えら
れる。このようにして、ウェッブインフォメーションデ
ィスクファイルへのランダムアクセスは減少され、ディ
スクアクセス制限によって引き起こされる待ち時間は最
小化される。

ウェッブスクーターによって入力バッファ134の全て
のエントリーがスキャンされる度に、入力バッファのエ
ントリーへの全ての更新がウェッブインフォメーション
ディスクファイル150に再度記憶され、付加バッファ136
の全てのエントリーがディスクファイル150の最後に加
えられる。加えて、付加バッファ136はクリアされ、デ
ィスクファイルのエントリーの次の一セットが、（ポイ
ンター178によって示される）入力バッファ134にコピー
されるべきエントリーの最後の一セットの直後から、入
力バッファ134にコピーされる。ウェッブスクータープ
ロシジャーによってディスクファイルの最後のエントリ
ーがスキャンされると、スキャンはディスクファイル15
0の先頭に戻る。

付加バッファ136が新しいエントリーで一杯になった
時はいつでも、その中身はディスクファイル150の最後
に加えられ、そして、付加バッファはクリアされて新し
いエントリーを受け取る。

ウェッブインフォメーションディスクファイル150の
エントリー180の各々は以下を記憶する。

・エントリーによって参照されるウェッブページのURL
を記憶する可変長のURLフィールド182。

・ウェッブスクーターによって、対応するウェッブペー
ジがフェッチされて解析されたかどうかを示すフェッチ
フラグ184。

・参照されたウェッブページがフェッチされ、解析さ
れ、そしてインデックスを付けられた日付及び時間を示
すタイムスタンプ186。

・ウェッブページのサイズを示すサイズ値188。

・もし何か、エントリーが重複している（すなわち、エ
イリアスのURLの）エントリーで、無視されるべきであ
るといったような場合に、又は、参照されるウェッブペ
ージにフェッチする最後の試みが行われた時に発生した
エラータイプを示すエラータイプ値190。

・ここでは取り上げない他のフェッチステータスパラメ
ーター192。

URLフィールド182は可変長であるので、ウェッブイン
フォメーションディスクファイル150のレコード180もま
た可変長である。

ウェッブスクータープロシジャー図１−図４及び表１の疑似コードに関して、好ましい
実施態様におけるウェッブスクータープロシジャー140
は以下の通り動作する。ウェッブスクータープロシジャ
ーが実行を開始する時、そのプロシジャーはシステムの
データ構造を初期化する（200）。

・既に存在しているウェッブインフォメーションディス
クファイル150をスキャンし、シーケンシャルファイル
の全てのエントリーに対するエントリーについてハッシ
ュテーブル130を初期化する。

・シーケンシャルディスクのエントリーの第１のバッチ
をディスクファイル150から入力バッファ134にコピーす
る。

・空の付加バッファ136を新しいシーケンシャルファイ
ルのエントリー用に定義する。

・入力バッファ134、付加バッファ136、ハッシュテーブ
ル130へのアクセスを制御するためのミューテックス138
を定義する。

それから、ウェッブスクーターイニシャライザーはT1
個のスレッドを開始し（例えば、好ましい実施態様では
1000個のスレッドが開始される。）、スレッドの各々は
同一のスクータープロシジャーを実施する。

ウェッブスクーターイニシャライザープロシジャーの
実施の前に既に存在しているウェッブインフォメーショ
ンディスクファイル150のエントリー一セットは既知の
ウェッブページの「ルートセット」144と呼ばれる。
「アクセス可能」なウェッブページの一セットは、ルー
トセット中のURLリンクによって参照される全てのウェ
ッブページ及び他のアクセス可能なウェッブページ中の
URLリンクによって参照される全てのウェッブページか
ら成る。このように、いくつかのウェッブページはウェ
ッブスクーター102にとってアクセス不可であるように
することが可能である。何故ならば、ルートセットと
「アクセス不可な」ウェッブページとの間にはURLリン
クがないからである。

様々なチャネルによって、このようなウェッブページ
に関する情報が使用可能になると、更なるエントリーの
「マニュアル」挿入もしくは更なるエントリーを含むた
めの他の仕組みによって、ウェッブインフォメーション
ディスクファイル150を拡張することができ（それによ
って、ルートセット144を拡張する。）、以前にアクセ
ス不可であったウェッブページをアクセス可能にする。

以下は、全ての同時に実行されるスレッドによって実
行されるウェッブスクータープロシジャーの説明であ
る。プロシジャーの第１のステップはミューテックス
（202）を要求して待つことである。ミューテックスの
所有権が要求され、２つのスレッドが同一のディスクフ
ァイルのエントリーを処理しないように、そして２つの
スレッドが同時にハッシュテーブル、入力バッファ、不
可バッファもしくはディスクファイルへの情報の書き込
みを試みないようにする。ハッシュテーブル130、入力
バッファ134、付加バッファ136、ディスクファイル150
はここでは総合的に「保護されたデータ構造」と呼ばれ
る。なぜならば、ミューテックスの使用によって、それ
らは総合的に保護されているからである。一度スレッド
がミューテックスを所有すると、そのスレッドが規定さ
れた選定規準（204）を満たすエントリーを捜し出し、
そのエントリーを選ぶまで、そのスレッドは入力バッフ
ァ中のディスクファイルのエントリーを（ポインター17
6によって示される）まだスキャンされていない次のエ
ントリーからスキャンする（204）。

例えば、デフォルトの選定規準は次の通りである。
「エントリーによって、一度もフェッチされていない、
もしくは最後にフェッチされて解析されたのがH1時間よ
りも以前であると示されているようなウェッブページを
参照する全てのエントリー。ここで、H1はオペレーター
が選定可能な値である。ただし、エントリーは重複して
いるエントリーであることをエラータイプフィールドが
示している（すなわち、以下に説明されるように「非−
選定エイリアス」である。）エントリーを除く。」もし
H1が168にセットされるならば、最後にフェッチされて
解析されたのが１週間よりも前であるようなウェッブペ
ージを参照する全てのエントリーが選定規準を満たす。
ウェッブページの大きさが考慮されるような選定規準の
別の例は次の通りである。「一度もフェッチされていな
いウェッブページ、もしくは最後にフェッチされて解析
されたのがH1時間よりも前であり、大きさがS1よりも大
きいようなウェッブページ、もしくは最後にフェッチさ
れて解析されたのがH2時間よりも前であり、大きさがS1
以下であるようなウェッブページを表しているエントリ
ー。ただし、エントリーが「非−選定エイリアス」であ
ることをエラータイプフィールドが示しているエントリ
ーを除く。ここでS1、H1、H2はオペレーターが選定可能
な値である。」処理すべき次のエントリーを選定する時、ハッシュテ
ーブルを検索して現在のエントリー候補の全ての既知の
エイリアスを見つけ、エイリアスでそのウェッブページ
が既にフェッチされたかどうかを決定する。特に、もし
エントリーが、規定された選定規準を満たすならば、ホ
スト名テーブル126の情報を使用して、そのエントリー
のURLの全ての既知のエイリアスがつくられ、それから
ハッシュテーブル130が検索され、参照されたウェッブ
ページがそのエイリアスのURL下でフェッチされたこと
を示すフェッチフラグを有するエイリアスのURLのいず
れかのエントリーを、そのハッシュテーブルが記憶して
いるかどうかを調べる。もし入力バッファ中の現在のエ
ントリー候補によって参照されるウェッブページが、エ
イリアスのURL下で既にフェッチされていると判断され
るならば、その入力バッファのエントリーのエラータイ
プフィールド190は変更され、このエントリーは「非−
選定エイリアス」であると示すようにする。このように
して、今回及び以後、エントリーが更なる処理のために
選定されるのを防ぐ。

一度、ウェッブページのリファレンスエントリーが選
定されると、ミューテックスは解放され、他のスレッド
が保護されたデータ構造にアクセス可能となる（20
6）。それから、ウェッブスクータープロシジャーは対
応するウェッブページをフェッチするのを試みる（20
8）。フェッチが成功したか、もしくは失敗した後、再
度、そのプロシジャーはミューテックスを要求して待ち
（210）、再度、そのプロシジャーが保護されたデータ
構造を使用できるようにする。

もしフェッチが不成功ならば（212−Ｎ）、そのウェ
ッブページのシーケンシャルファイルのエントリー中の
フェッチステータス情報を、ウェッブクローラーへ返さ
れたエラーリターンコードに従ってフェッチ失敗として
記録する（214）。もしフェッチが成功ならば（212−
Ｙ）、（入力バッファの）シーケンシャルディスクファ
イルのエントリー180中のそのウェッブページのフェッ
チフラグ184のように、ハッシュテーブルのエントリー1
60中のそのウェッブページのフェッチフラグ164がセッ
トされる。加えて、フェッチされたウェッブページのUR
Lリンクの各々が解析される（216）。

フェッチされたウェッブページが解析された、もしく
はフェッチ失敗が入力バッファのエントリーに記録され
た後、ミューテックスは解放され、他のスレッドが保護
されたデータ構造にアクセスできるようにする（21
8）。

次に、フェッチされたウェッブページのURLリンクを
解析するためのプロシジャーを図4Bを参照して説明す
る。ウェッブページは、インデクシングシステム108に
よってインデックスを付けるための適切な情報を保有し
ていない画像ファイルのようなドキュメントへのURLリ
ンクを保有することができるということをここで注記す
る。しばしば、これらの参照されるドキュメントは、そ
れらを参照するウェッブページの構成要素として使用さ
れる。本文では、画像ファイルや他のインデックス付け
不可ファイルのような構成要素のファイルへのURLリン
クは、「他のウェッブページへのURLリンク」とはしな
い。インデックス付け不可ファイルへのこれらのURLリ
ンクは、ウェッブスクータープロシジャーによって無視
される。

一度、他のウェッブページに接続する全てのURLを処
理してしまうと（230）、インデックスを付けるための
インデクサーにフェッチされたウェッブページを送り
（232）、ウェッブスクーターによる、フェッチされた
ウェッブページの処理を完了する。そうでない場合に
は、ウェッブページへの次のURLリンクが選定される（2
34）。もし選定されたリンクに関連するURLのハッシュ
テーブルのエントリーが既に存在するならば、そのリン
クの更なる処理を要求せず、もし解析されているウェッ
ブページにどれか未処理のURLリンクが残っているなら
ば、次のURLリンクを選定する（234）。

もし選定されたリンクに関連するURLのハッシュテー
ブルのエントリーがまだ存在しないならば、ホスト名テ
ーブル126の情報を使用して、そのエントリーのURLの全
ての既知のエイリアスをつくる。それから、ハッシュテ
ーブル130を検索し、そのテーブルが、そのエイリアス
のURLのいずれかのエントリーを記憶しているかどうか
を調べる（238）。もしハッシュテーブル中にそのエイ
リアスのURLのいずれかのエントリーが存在するなら
ば、そのリンクの更なる処理を要求せず、そしてもし解
析されたウェッブページにどれか未処理のURLリンクが
残っているならば、次のURLリンクを選定する（234）。

もしハッシュテーブル中に選定されたリンクのURLも
しくはそのエイリアスのいづれかのエントリーが見つか
らないならば、そのURLは、まだウェッブページのウェ
ッブクローラーのデータベースに含まれていない「新し
い」ウェッブページを表し、従って新しいウェッブペー
ジのエントリーが、付加バッファ中のディスクファイル
の一部に加えられる（240）。その新しいディスクファ
イルのエントリーは処理されたリンクによって参照され
るURLを含み、「未フェッチ」と記録される。加えて、
対応する新しいエントリーがハッシュテーブルに加えら
れ、そしてそのエントリーのフェッチフラグはクリアさ
れて、対応するウェッブページはまだフェッチされてい
ないことを示すようにする（240）。それから、もしウ
ェッブページ中にどれか未処理のURLリンクが存在する
ならば、ウェッブページの処理はウェッブページの次の
未処理のURLリンクについて継続する。

目的及び動作が本文の範囲外であるようなプロシジャ
ーによって、ウェッブインフォメーションディスクファ
イル150へのインデックスとして、ウェッブインフォメ
ーションハッシュテーブル130は使用される。何故なら
ば、ハッシュテーブル130は、既知のウェッブページの
各々のディスクファイル位置の値を保有するからであ
る。いいかえると、ウェッブインフォメーションハッシ
ュテーブル中の対応するエントリーのディスクファイル
アドレスを最初に読み出し、それからそのアドレスにあ
るウェッブインフォメーションディスクファイルのエン
トリーを読み出すことによって、ウェッブインフォメー
ションディスクファイル中のエントリーはアクセスされ
る。

他の実施態様好ましい実施態様のハッシュテーブル構造130の代わ
りに、バランスドツリー（balanced tree）、スキップ
リスト（skip list）といったような、ウェッブインフ
ォメーションハッシュテーブル130の同一の属性を有す
る全てのデータ構造を使用することが可能である。

解法として、本発明は３つの基本の仕組みを使用し
て、従来技術のウェッブクローラーの速度制限を克服し
ている。

第１に、どのウェッブページリンクがまだウェッブク
ローラーに知られていない新しいウェッブページを表し
ているかを決定するのに十分な情報を含むウェッブペー
ジディレクトリテーブルが、RAM中に記憶され、ディス
クファイルにアクセスする必要なく、受け取られたウェ
ッブページを解析できるようにしている。

第２に、より完全なウェッブページディレクトリはシ
ーケンシャルな順番にだけアクセスされ、ディスクアク
セスがウェッブクローラーの実施速度に重要な影響を持
たない程度まで、実施されるディスクアクセスの数を減
少するような大きな入力及び付加バッファによって、そ
れらのアクセスを実施する。

第３に、ウェッブスクータープロシジャーを実行する
ための多数の同時にアクティブなスレッドを使用し、そ
してウェッブサーバーへの、同様の数の同時の通信チャ
ネルを操作可能な通信インターフェースを備えることに
よって、本発明はネットワークアクセス待ち時間によっ
て引き起こされる遅延を避ける。

特に、多数のスレッドがウェッブページフェッチ要求
に対する応答を待っている間に、他のスレッドは受け取
ったウェッブページを解析している。同一のウェッブス
クータープロシジャーを実施する多数のスレッドを使用
することによって、受け取られたウェッブページを処理
できるようになるためにミューテックスを待っている受
け取られたウェッブページに関するスレッドの待ち行列
が、平均的に存在するようである。また、ウェッブペー
ジのフェッチは、時間的にずれて行われる傾向にある。
結果として、ウェッブスクーターは殆どウェッブページ
を受け取るために待っていたり、他にする仕事がないと
いう状態にはならない。マルチプロセッサーのワークス
テーションを使用し、そしてウェッブスクータープロシ
ジャーを同時に実行するスレッドの数を更に増大するこ
とによって、ウェッブスクーターのスループットを更に
増大することが可能である。

いくつかの特定の実施態様を参照して本発明を説明し
たが、この説明は本発明の例であり、本発明を限定する
ものとして解釈されてはならない。ここで提示され、請
求された本発明の範囲から逸脱することなく、さまざま
な改修が可能である。

フロントページの続き (56)参考文献Ｐ．Ｍ．Ｅ．ＤｅＢｒａ＆ＴＲ．Ｄ．Ｊ．Ｐｏｓｔ，”ＩｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌｉｎｔｈｅＷｏｒｌｄ−ＷｉｄｅＷｅｂ：Ｍａｋｉｎｇｃｌｉｅｎｔ−ｂａｓｅｄｓｅａｒｃｈｉｎｇｆｅａｓｉｂｌｅ”，ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋｓａｎｄＩＳＤＮＳｙｓｔｅｍｓ，Ｖｏｌ．27，Ｎｏ．２, 1994，ｐｐ．183−192（平６−11) ＧｒｅｇＲ．Ｎｏｔｅｓｓ，”ＯＮＴＨＥＮＥＴＳ”，ＯＮＬＩＮＥ, Ｖｏｌ．19，Ｎｏ．４，ｐｐ．48−50, ＪＵＬＹ／ＡＵＧＵＳＴ 1995 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 12/00 G06F 15/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】各ウェッブページは固有のURL（ユニバー
サルリソースロケータ）を有し、少なくともいくつかの
前記ウェッブページは他のウェッブページへのURLリン
クを含んでいるような、遠隔地に配置されたアクセス可
能なコンピュータに記憶されているウェッブページを含
むデータセットを捜し出すためのシステムであり、対応するURLに従って、前記の遠隔地に配置されたコン
ピュータから特定のウェッブページをフェッチするため
の通信インターフェースと、エントリーの各々が対応するウェッブページのURL及び
フェッチステータス情報を示すような一セットのエント
リーを有するウェッブインフォメーションファイルと、 RAM（ランダムアクセスメモリ）に記憶されていて、エ
ントリーの各々が、対応するウェッブページの識別値及
びフェッチステータス情報を示すようなエントリー一セ
ットを有するウェッブインフォメーションテーブルと、ウェッブインフォメーションファイルのエントリーが前
記フェッチステータス情報に基づく事前に規定された選
定規準を満たすようなウェッブページをフェッチするた
めの命令と、受け取られた各々のウェッブページ中の各
々のURLリンクについて、ウェッブインフォメーション
テーブル中に対応するエントリーが既に存在するかどう
かを決定し、ウェッブインフォメーションテーブルに対
応するエントリーを有していないURLリンクの各々につ
いて、ウェッブインフォメーションテーブルに新しいエ
ントリーを加え、ウェッブインフォメーションファイル
に対応する新しいエントリーを加えるための命令とを含
む、前記システムによって実行される、ウェッブページ
をフェッチして解析するためのウェッブスクータープロ
シジャーを実行する手段とを備えるシステム。
【請求項２】重複する時間期間中に、各々がウェッブス
クータープロシジャーを実行するような多数のスレッド
を含み、スレッドのいくつかがウェッブページをフェッ
チしている間に、ウェッブページの他のスレッドは、フ
ェッチされたウェッブページを解析しているような手段
を含む請求項１に記載のシステム。
【請求項３】ミューテックスを含み、スレッドの各々に
よって実行される前記ウェッブスクータープロシジャー
は、ウェッブインフォメーションテーブル及びウェッブ
インフォメーションファイルにアクセスする前にミュー
テックスを要求して待つための命令を含む請求項２に記
載のシステム。
【請求項４】入力バッファ及び付加バッファと、シーケンシャルに並べられたエントリーのブロックをウ
ェッブインフォメーションファイルから入力バッファへ
記憶するためのファイルマネージャーと、入力バッファ中のウェッブインフォメーションファイル
のエントリーをスキャンして解析し、前記の事前に規定
された選定規準を満たす前記ウェッブインフォメーショ
ンファイルのエントリーを捜し出す前記ウェッブスクー
タープロシジャーと、前記ウェッブインフォメーションファイルに加えられる
べき全てのエントリーを前記付加バッファに記憶する前
記ウェッブスクータープロシジャーと、付加バッファ中
の多数のエントリーをウェッブインフォメーションファ
イルに移すための前記ファイルマネージャーとを含む請求項３に記載のシステム。
【請求項５】第２のメモリー中のエントリーの各々は第
１のメモリー中の対応するエントリーのアドレスを含む
請求項１に記載のシステム。
【請求項６】各ウェッブページは固有のURL（ユニバー
サルリソースロケーター）を有し、少なくともいくつか
の前記ウェッブページは他のウェッブページへのURLリ
ンクを含んでいるような、遠隔地に配置されているがア
クセス可能なコンピュータに記憶されているウェッブペ
ージを含むデータセットを捜し出す方法であり、各エントリーが、対応するウェッブページのURL及びフ
ェッチステータス情報を示すような一セットのエントリ
ーを有するウェッブインフォメーションファイルを記憶
するステップと、各エントリーが、対応するウェッブページの識別値及び
フェッチステータス情報を示すような一セットのエント
リーを有するウェッブインフォメーションテーブルをRA
M（ランダムアクセスメモリ）に記憶するステップと、（Ａ）ウェッブインフォメーションファイル中のエント
リーをシーケンシャルにスキャンして、前記エントリー
のどれが事前に規定された選定規準を満たすかを決定
し、（Ｂ）ウェッブインフォメーションファイルのエン
トリーが前記の事前に規定された選定規準を満たすよう
なウェッブページをフェッチし、（Ｃ）受け取られたウ
ェッブページの別のウェッブページへのURLリンクの各
々について、対応するエントリーが既にウェッブインフ
ォメーションテーブル中に存在するかどうかを決定し、
（Ｄ）ウェッブインフォメーションテーブル中に対応す
るエントリーを有していないURLリンクの各々につい
て、ウェッブインフォメーションテーブルに新しいエン
トリーを付加し、ウェッブインフォメーションファイル
に対応する新しいエントリーを付加することを含む、ウ
ェッブページをフェッチして解析するためのウェッブス
クータープロシジャーを実行するステップとを備える方法。
【請求項７】重複する時間期間中に多数のスレッドにお
いて前記ウェッブスクータープロシジャーを実行し、ス
レッドのいくつかがウェッブページをフェッチしている
間に、ウェッブページの他のスレッドはフェッチされた
ウェッブページを解析するようにすることを含む請求項
６に記載の方法。
【請求項８】ミューテックスを定義し、前記スレッドの各々において前記ウェッブスクータープ
ロシジャーを実行している間に、ウェッブインフォメー
ションテーブル及びウェッブインフォメーションファイ
ルにアクセスする前に、ミューテックスを要求して待つ
ことを含む請求項７に記載の方法。
【請求項９】前記RAMに、「入力バッファ」及び「付加
バッファ」を定義し、シーケンシャルに並べられたエントリーのブロックをウ
ェッブインフォメーションファイルから入力バッファへ
記憶し、シーケンシャルにウェッブインフォメーションファイル
のエントリーをスキャンする前記のステップは、入力バ
ッファのウェッブインフォメーションファイルのエント
リーをスキャンして、前記ウェッブインフォメーション
ファイルのエントリーのどれが前記の事前に規定された
選定規準を満たすかを決定することを含むステップを備
え、前記ファイルに加えられるべき全てのエントリーを前記
付加バッファに記憶し、付加バッファの多数のエントリーをウェッブインフォメ
ーションファイルに移すステップを備えている請求項８に記載の方法。
【請求項１０】ウェッブインフォメーションテーブルの
エントリーの各々はウェッブインフォメーションファイ
ルの対応するエントリーのアドレスを含み、ウェッブインフォメーションテーブルの対応するエント
リーのアドレスを読み出して、それから前記アドレスに
ある前記ウェッブインフォメーションファイルの前記の
１エントリーを読み出すことによって、前記ウェッブイ
ンフォメーションファイルの前記エントリーの１つにア
クセスすることを含む請求項６に記載の方法。
【請求項１１】各データセットはアドレスによって固有
に識別され、少なくともいくつかのデータセットは、コ
ンピュータに記憶された他のデータセットの接続アドレ
スを１つ以上含むような、ネットワークによって接続さ
れたコンピュータに記憶されているデータセットを捜し
出すための装置であり、識別されたデータセットの要求をコンピュータに送り、
前記の要求に応答してデータセットを受け取るための、
ネットワークに接続された通信インターフェースと、各々が対応するデータセットのアドレス及び対応するデ
ータセットのステータス情報を含んでいるようなエント
リーの第１の一セットを記憶している第１のメモリと、各々が対応するデータセットのアドレスの符号化及び対
応するデータセットのステータス情報の符号化を含んで
いるようなエントリーの第２の一セットを記憶している
第２のメモリと、第１と第２のメモリ及び通信インターフェースに接続さ
れ、シーケンシャルに第１の一セットのエントリーを読
み出し、事前に規定されたステータスに基づく選定規準
を満たすような対応するエントリーを第１の一セット中
に有する識別されたデータセットの要求をつくり、識別
されたデータセットを受け取るのに応答して、前記の第
１及び第２の一セットに、第２の一セットに対応するエ
ントリーが存在しない受け取られたデータセットの少な
くともアドレスの集合の各々に対応する新しいエントリ
ーをつくるスレッド手段とを備える装置。
【請求項１２】第２の一セットのエントリーの各々は第
１の一セットの対応するエントリーのアドレスを含み、
エントリーの前記の第２の一セットはエントリーの第１
の一セットにインデックスを付けるためのものであるよ
うな請求項11に記載の装置。
【請求項１３】スレッド手段のいくつかが前記の要求を
つくり、識別されたデータセットを受け取っている間
に、他のスレッド手段は前記第１と第２のメモリに新し
いエントリーをつくっているような多数の前記スレッド
を含む請求項11に記載の装置。
【請求項１４】ミューテックスを含み、前記スレッド手
段の各々は、第１のメモリ及び第２のメモリにアクセス
する前にミューテックスを要求して待つロジックを含む
ような請求項13に記載の装置。
【請求項１５】前記第２のメモリに配置された入力バッ
ファ及び付加バッファと、第１のメモリのシーケンシャルに並べられたエントリー
のグループを入力バッファに記憶するマネージャーと、入力バッファのエントリーをスキャンして解析し、前記
の事前に規定されたステータスに基づく選定規準を満た
す前記エントリーを捜し出す手段を含む前記スレッド手
段の各々と、前記第１のメモリに加えられるべき全てのエントリーを
前記付加バッファに記憶する前記スレッド手段の各々
と、付加バッファの多数のエントリーを第１のメモリに移す
手段も有する前記マネージャーとを含む請求項14に記載の装置。
【請求項１６】各データセットはアドレスによって固有
に識別され、少なくともいくつかの前記データセット
は、コンピュータに記憶された他のデータセットの接続
アドレスを１つ以上含むような、ネットワークによって
接続されたコンピュータに記憶されたデータセットを捜
し出す方法であり、（Ａ）各々が対応するデータセットのアドレス及び対応
するデータセットのステータス情報を含んでいるよう
な、エントリーの第１の一セットを第１のメモリに記憶
するステップと、（Ｂ）各々が対応するデータセットのアドレスの符号化
及び対応するデータセットのステータス情報の符号化を
含んでいるような、エントリーの第２の一セットを第２
のメモリに記憶するステップと、（Ｃ）シーケンシャルに第１の一セットのエントリーを
読み出すステップと、（Ｄ）事前に規定されたステータスに基づく選定規準を
満たす、第１の一セットの対応するエントリーを有する
識別されたデータセットの要求を、ネットワークを経由
してコンピュータに伝送するステップと、（Ｅ）識別されたデータセットを受け取るのに応答し
て、前記第１及び第２の一セットに、第２の一セットに
対応するエントリーが存在しない少なくとも受け取られ
たデータセットのアドレスの集合の各々に対応する新し
いエントリーをつくるステップを備える方法。
【請求項１７】前記ステップＢは、第２の一セットのエ
ントリーの各々に、第１の一セットの対応するエントリ
ーのアドレスを記憶し、エントリーの前記の第２の一セ
ットはエントリーの第１の一セットにインデックスを付
けるためのものであるような請求項16に記載の方法。
【請求項１８】重複する時間期間中に多数のスレッドに
おいてステップＣ、Ｄ、Ｅを実行し、スレッドのいくつ
かがデータセットをフェッチしている間に、データセッ
トの他のスレッドは、フェッチされたデータセットを解
析しているようにすることを含む請求項16に記載の方
法。
【請求項１９】ミューテックスを定義し、前記スレッドの各々は、第１及び第２のメモリのエント
リーの第１及び第２の一セットにアクセスする前にミュ
ーテックスを要求して待つことを含むような請求項18に記載の方法。
【請求項２０】前記第２のメモリに入力バッファ及び付
加バッファを定義し、シーケンシャルに並べられたエントリーのブロックをエ
ントリーの第１の一セットから入力バッファに記憶し、前記のシーケンシャルに読み出すステップは、入力バッ
ファのエントリーをシーケンシャルに読み出し、前記入
力バッファのエントリーのどれが前記の事前に規定され
たステータスに基づく選定規準を満たすかを決定するス
テップを備え、前記第１のメモリに加えられるべき全てのエントリーを
前記付加バッファに記憶し、付加バッファの多数のエントリーを第１のメモリに移す
ことを含む請求項19に記載の方法。