JP2003271670A

JP2003271670A - 情報収集装置、情報収集方法及びプログラム

Info

Publication number: JP2003271670A
Application number: JP2002076651A
Authority: JP
Inventors: Masaru Kiregawa; 優喜連川; Takayuki Tamura; 孝之田村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-03-19
Filing date: 2002-03-19
Publication date: 2003-09-26
Anticipated expiration: 2022-03-19
Also published as: JP4808357B2

Abstract

(57)【要約】【課題】収集したウェブページから抽出したリンクの
ＵＲＬを取得要求ＵＲＬキュー１０５からその抽出順に
取り出してアクセスするため、複数のＷＷＷサーバに対
するアクセス順序を制御することができないという課題
があった。【解決手段】ハイパテキスト情報に含まれるリンク情
報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆｏ
ｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出する
リンク抽出手段と、該リンク抽出手段が抽出したＵＲＬ
を格納すると共に、該ＵＲＬに記述されるリンク先のサ
ーバ装置を特定するサーバ名情報に基づいて、サーバ装
置ごとのＵＲＬの読み出し順を管理するＵＲＬ管理手段
と、該ＵＲＬ管理手段から読み出されたＵＲＬに対応す
るハイパテキスト情報を収集する通信手段とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は通信ネットワーク
に接続する複数の情報提供サーバが管理する情報を網羅
的に収集する情報収集装置に係り、特にインターネット
を介して複数のＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅ
ｂ）サーバから取得したＵＲＬ（ＵｎｉｆｏｒｍＲｅ
ｓｏｕｒｃｅＬｏｃａｔｏｒ）をＷＷＷサーバごとに
管理して各ＷＷＷサーバに対するアクセス順序を制御す
る情報収集装置、情報収集方法及びこれをコンピュータ
装置に具現化させるプログラムに関するものである。

【０００２】

【従来の技術】インターネット上で用いられる情報検索
システムであるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）
では、テキスト、音声、画像、動画などを含む様々な情
報を検索し利用することができる。このＷＷＷが提供す
る情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋ
ｕｐＬａｎｇｕａｇｅ）などの構造化タグ言語で記述
されたテキストファイルを中心に構成されている。一般
的に、これらの情報は、利用者の端末装置におけるブラ
ウザ機能によって閲覧・取得を行うことができ、ウェブ
ページと呼ばれている。また、ＷＷＷでは、ＵＲＬ（Ｕ
ｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）と呼
ばれる文字列によって、インターネットに接続する複数
のコンピュータ（ＷＷＷサーバ）上の個々の情報（ウェ
ブページに相当する情報）を一意に識別することができ
る。

【０００３】図１６は上述したＵＲＬを表す文字列の一
例を示す図である。図において、１００はＵＲＬ、１０
１はＵＲＬ１００内で目的の情報があるＷＷＷサーバ名
を特定する文字列で、１０２はＷＷＷサーバ内識別子で
あって、文字列１０１で特定されるＷＷＷサーバ内で目
的の情報が格納される場所を特定する。ＵＲＬ１００に
ついてもう少し具体的に説明すると、「ｈｔｔｐ：／
／」なる文字列は、通信プロトコルとしてＨＴＴＰ（Ｈ
ｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃ
ｏｌ）を用いることを示している。また、これに続く文
字列１０１によってＷＷＷサーバ名（ドメイン名）とし
て「ｗｗｗ．ｘｘｘ．ｃｏ．ｊｐ」で表されるＷＷＷサ
ーバが特定される。最後に、ＷＷＷサーバ内識別子１０
２として「／ｐｒｏｄｕｃｔｓ／ｏｒｄｅｒ．ｈｔｍ
ｌ」を記述することで、目的の情報（ウェブページ）の
ＷＷＷサーバ内での格納場所が特定される。

【０００４】上述したように、ＵＲＬを利用することで
ＷＷＷ上の情報を一意に識別することができるが、ＷＷ
Ｗ上の情報は膨大にあることから、利用者がＵＲＬを直
接指定して情報を取得することは稀である。多くの場
合、利用者が所望の情報に関するキーワードを指定し、
これを含むウェブページのＵＲＬを検索するＷＷＷ検索
エンジンが利用される。

【０００５】上述したようなＷＷＷ検索エンジンには、
ロボット型と呼ばれるサーチ手法をとるものがある。こ
の基本的な仕組みは、予めＷＷＷ上のウェブページを網
羅的に収集し、その内容を解析して検索インデックスを
作成するものである。この検索インデックスを利用する
ことによって、大量のウェブページの中から、利用者が
指定するキーワードを含むウェブページの検索を実用的
な時間内で実行することができる。

【０００６】図１７は、例えば米国特許５７４８９５４
号に開示された「ＭｅｔｈｏｄＦｏｒＳｅａｒｃｈ
ｉｎｇＡＱｕｅｕｅｄＡｎｄＲａｎｋｅｄＣ
ｏｎｓｔｒｕｃｔｅｄＣａｔａｌｏｇＯｆＦｉｌ
ｅｓＳｔｏｒｅｄＯｎＡＮｅｔｗｏｒｋ」を適用
したＷＷＷ検索エンジンにおける従来のＷＷＷ情報収集
装置の構成を示す図である。このＷＷＷ情報収集装置
は、一般的にウェブロボットやクローラなどと呼ばれる
ものに相当する。図において、１０３はインターネッ
ト、１０４はロボット型のＷＷＷ検索エンジンを構成す
るＷＷＷ情報収集装置で、例えばＷＷＷ上のウェブペー
ジを網羅的に収集するプログラムを実行するコンピュー
タ装置によって実現される。１０５は取得要求ＵＲＬキ
ューであって、収集すべきウェブページのＵＲＬを保持
する。１０６はインターネット１０３を介してＷＷＷサ
ーバＡ〜Ｃとの通信を行うダウンロード手段で、ＷＷＷ
サーバＡ〜Ｃからウェブページをダウンロードする。１
０７は既取得ＵＲＬ記憶手段であって、同じＵＲＬのウ
ェブページの重複したダウンロードを防ぐために既に取
得したウェブページのＵＲＬの一覧を格納する。１０８
はＵＲＬコンテンツ記憶手段で、ダウンロードしたウェ
ブページの内容を格納する。１０９はウェブページから
ＨＴＭＬのハイパーリンクを抽出して取得要求ＵＲＬキ
ュー１０５に挿入するリンク抽出手段である。Ａ〜Ｃは
インターネット１０３に接続する任意のＷＷＷサーバで
ある。

【０００７】次に動作について説明する。ＷＷＷ情報収
集装置１０４は、取得要求ＵＲＬキュー１０５に初期値
として１つ以上のＵＲＬを挿入することで動作を開始す
る。先ず、ＷＷＷ情報収集装置１０４は、取得要求ＵＲ
Ｌキュー１０５から取り出したＵＲＬをダウンロード手
段１０６に設定する。ダウンロード手段１０６は、ＷＷ
ＷサーバＡ〜Ｃにアクセスして当該ＵＲＬに対応するウ
ェブページをからダウンロードし、ＵＲＬコンテンツ記
憶手段１０８に格納する。このあと、リンク抽出手段１
０９が当該ウェブページの内容を解析して他のウェブペ
ージへのリンクを取り出し、当該リンクのＵＲＬを取得
要求ＵＲＬキュー１０５に挿入する。このように、ＷＷ
Ｗ情報収集装置１０４は、ウェブページに含まれるリン
クを次々とたどることで、インターネット１０３上の膨
大な量のウェブページをダウンロードする。

【０００８】このあと、ＷＷＷ情報収集装置１０４が収
集した情報は、インデクサ（不図示）と呼ばれる検索イ
ンデックスを作成するコンピュータ装置に送出される。
インデクサは、例えば検索インデックスを作成するプロ
グラムを実行するコンピュータ装置であり、これによっ
てＷＷＷ情報収集装置１０４が収集したウェブページ内
の文字情報から検索インデックスとなるデータベースが
作成される。この検索インデックスを利用することで、
ロボット型の検索エンジンを実現することができる。具
体的には、ＷＷＷサーバが利用者からの検索要求を受け
付けると、それを当該検索サービスを提供する検索サー
バに送出する。検索サーバでは、上記検索インデックス
を利用して検索を行い、検索結果を利用者の端末装置に
送信する。これによって、利用者は、端末装置のブラウ
ザ機能によって検索結果を閲覧することができる。

【０００９】図１８は図１７中のＷＷＷサーバ上におけ
るウェブページ配置の一例を示す図である。図におい
て、Ａ１〜Ａ７，Ｂ１，Ｃ１はウェブページのＵＲＬで
あって、ＷＷＷサーバＡ〜Ｃ内のウェブページの格納場
所を規定する。また、図１９は図１７中のＷＷＷ情報収
集装置によるウェブページのダウンロード順とＷＷＷサ
ーバのアクセス順の一例を示す図である。

【００１０】ここで、図１８及び図１９を参照して、Ｗ
ＷＷ情報収集装置１０４によるウェブページの探索動作
を詳細に説明する。先ず、ＷＷＷ情報収集装置１０４
は、ウェブページのダウンロードをリンクの抽出順に行
う。つまり、リンク抽出手段１０９は、ダウンロードし
たウェブページからリンクのＵＲＬを抽出するごとに、
取得要求ＵＲＬキュー１０５の末尾に挿入する。一方、
取得要求ＵＲＬキュー１０５では、ＵＲＬを格納された
順（ＦＩＦＯ；Ｆｉｒｓｔ−ＩｎＦｉｒｓｔ−Ｏｕ
ｔ）に取り出してダウンロード手段１０６に設定する。
このため、ウェブページのダウンロードがリンクの抽出
順に行われる。この探索法は、一般的に幅優先探索と呼
ばれている。

【００１１】ここで、図１８に示すようなウェブページ
の配置がなされたＷＷＷサーバにおいて幅優先探索を行
うことで、図１９に示すようなウェブページのダウンロ
ード順と各ＷＷＷサーバへのアクセス順の関係が得られ
る。具体的に説明すると、ＵＲＬがＡ１であるウェブペ
ージをダウンロードする。該ウェブページにはＵＲＬが
Ａ２，Ａ３である２つのリンクが含まれており、これら
はＡ２，Ａ３の順で抽出される。このあと、ＵＲＬがＡ
２，Ａ３のウェブページを逐次ダウンロードする。ＵＲ
ＬがＡ２のウェブページには、ＵＲＬがＢ１，Ａ４，Ａ
５である３つのリンクが含まれており、これらはＢ１，
Ａ４，Ａ５の順で抽出される。一方、ＵＲＬがＡ３のウ
ェブページには、ＵＲＬがＡ６，Ｃ１，Ａ７である３つ
のリンクが含まれており、これらはＡ６，Ｃ１，Ａ７の
順で抽出される。続いて、リンクが抽出された順に、Ｕ
ＲＬがＢ１，Ａ４，Ａ５，Ａ６，Ｃ１，Ａ７のウェブペ
ージが逐次ダウンロードされる。この挙動を記述したも
のが図１９であり、時間軸に対応する列方向に沿って、
収集されるウェブページのＵＲＬ、その際アクセスされ
たＷＷＷサーバが示されている。

【００１２】インターネット上にはＷＷＷサーバやウェ
ブページが膨大な量存在し、更新や追加も頻繁に行なわ
れることから、上述した検索インデックスの作成に要す
る情報の収集は高速に行われる必要がある。このため、
ダウンロード手段１０６が、上述のように逐次的にダウ
ンロードを行なうのではなく、同時に複数のＷＷＷサー
バから並行してダウンロードを行なうことで高速なウェ
ブページの収集を実現する技術も提案・実施されてい
る。

【００１３】

【発明が解決しようとする課題】従来の情報収集装置は
以上のように構成されているので、収集したウェブペー
ジから抽出したリンクのＵＲＬを取得要求ＵＲＬキュー
１０５からその抽出順に取り出してアクセスするため、
複数のＷＷＷサーバに対するアクセス順序を制御するこ
とができないという課題があった。

【００１４】また、取得要求ＵＲＬキュー１０５におい
て同一ＷＷＷサーバ内のウェブページに対するリンクが
連続した場合、当該ＷＷＷサーバに対する負荷が増加す
る。この負荷増加を抑制するため、従来では先行するＵ
ＲＬのダウンロード完了後、一定の時間間隔を空けてか
ら続くＵＲＬのウェブページをダウンロードすることが
行われていた。

【００１５】しかしながら、この探索方式では、異なる
ＷＷＷサーバから並行してウェブページをダウンロード
するにあたり、リンクが連続するＷＷＷサーバに対する
アクセスの時間間隔が他のＷＷＷサーバに対する時間間
隔と異なってしまうため、実質的に異なるＷＷＷサーバ
から並行してウェブページのダウンロードを行なえる可
能性が低くなる。このため、ウェブページの収集速度が
低下してしまうという課題があった。

【００１６】さらに、ウェブページの収集速度を上げる
ために、取得要求ＵＲＬキュー１０５の格納された先頭
のＵＲＬから検索して異なるＷＷＷサーバを見つけ、並
行してダウンロードを行なう探索方式も提案・実施され
ている。しかしながら、取得要求ＵＲＬキュー１０５の
容量が大きくなった場合、実質的に後から格納されたＵ
ＲＬは検索待ちの状態になることから、検索効率が低下
すると共に、ウェブページの収集速度の低下を招くとい
う課題があった。

【００１７】以上のように、従来のＷＷＷ情報収集装置
ではウェブページ収集速度の向上とＷＷＷサーバに対す
る負荷抑制とを両立させることができなかった。

【００１８】この発明は上記のような課題を解決するた
めになされたもので、通信ネットワークを介して複数の
情報提供サーバからウェブページなどのハイパテキスト
情報を網羅的に収集するにあたり、収集したハイパテキ
スト情報から抽出したＵＲＬを各情報提供サーバごとに
管理して各サーバに対するアクセス順序を制御すること
で、情報収集速度の向上とサーバに対する負荷抑制とを
両立させることができる情報収集装置、情報収集方法及
びこれをコンピュータ装置に具現化させるプログラムを
得ることを目的とする。

【００１９】

【課題を解決するための手段】この発明に係る情報収集
装置は、ハイパテキスト情報に含まれるリンク情報を解
析して、リンク先に対応するＵＲＬ（Ｕｎｉｆｏｒｍ
ＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出するリンク
抽出手段と、該リンク抽出手段が抽出したＵＲＬを格納
すると共に、該ＵＲＬに記述されるリンク先のサーバ装
置を特定するサーバ名情報に基づいて、サーバ装置ごと
のＵＲＬの読み出し順を管理するＵＲＬ管理手段と、該
ＵＲＬ管理手段から読み出されたＵＲＬに対応するハイ
パテキスト情報を収集する通信手段とを備えるものであ
る。

【００２０】この発明に係る情報収集装置は、ハイパテ
キスト情報に含まれるリンク情報を解析して、リンク先
に対応するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅ
Ｌｏｃａｔｏｒ）を抽出するリンク抽出手段と、ハイ
パテキスト情報の内容及び／又は他のハイパテキスト情
報からの参照数を用いて、ＵＲＬごとに読み出しの優先
度を設定する優先度設定手段と、該リンク抽出手段が抽
出したＵＲＬを格納すると共に、該ＵＲＬに記述される
リンク先のサーバ装置を特定するサーバ名情報、及び優
先度設定手段が設定した優先度に基づいて、サーバ装置
ごとのＵＲＬの読み出し順を管理するＵＲＬ管理手段
と、該ＵＲＬ管理手段から読み出されたＵＲＬに対応す
るハイパテキスト情報を収集する通信手段とを備えるも
のである。

【００２１】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、ＵＲＬに記述される各情報をその文字列順に
ページに割り当ててなるＢ木によって、読み出すべきＵ
ＲＬを検索するＵＲＬインデックス部と、サーバ名情報
を格納すると共に、各サーバ名情報の一意な読み出しを
管理するサーバ名情報記憶手段とを備えるものである。

【００２２】この発明に係る情報収集装置は、ＵＲＬイ
ンデックス部が、ディレクトリ階層の深さに応じてＵＲ
Ｌの読み出し順を設定するものである。

【００２３】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、サーバ名情報をキーとするハッシュによって
読み出すべきＵＲＬを検索するＵＲＬインデックス部
と、サーバ名情報を格納すると共に、各サーバ名情報の
一意な読み出しを管理するサーバ名情報記憶手段とを備
えるものである。

【００２４】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、サーバ名情報とＵＲＬの優先度の組み合わせ
をページに各々割り当ててなるＢ木によって、読み出す
べきＵＲＬを検索するＵＲＬインデックス部と、サーバ
名情報を格納すると共に、各サーバ名情報の一意な読み
出しを管理するサーバ名情報記憶手段とを備えるもので
ある。

【００２５】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、複数のサーバ装置に対応するＵＲＬを逐次読
み出してゆき、通信手段がＵＲＬに対応するハイパテキ
スト情報の収集を複数のサーバ装置との間で並行して実
行するものである。

【００２６】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、収集済みハイパテキスト情報数と未収集ハイ
パテキスト情報数とを用いてサーバ装置ごとに優先度を
設定する優先度設定テーブル部と、サーバ名情報を格納
すると共に、優先度設定テーブル部に設定された優先度
に応じて各サーバ名情報の一意な読み出しを管理するサ
ーバ名情報記憶手段とを備えるものである。

【００２７】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、収集済みハイパテキスト情報数と未収集ハイ
パテキスト情報数とが所定の閾値を超えると、新たなＵ
ＲＬの格納を行わないものである。

【００２８】この発明に係る情報収集装置は、収集済み
ハイパテキスト情報のＵＲＬを登録する既取得ＵＲＬ登
録手段を備え、ＵＲＬ管理手段が、通信手段によるハイ
パテキスト情報の収集が完了すると、該ハイパテキスト
情報に対応するＵＲＬを既取得ＵＲＬ登録手段に登録し
たのち、該ＵＲＬを削除するものである。

【００２９】この発明に係る情報収集装置は、ＵＲＬ管
理手段が、読み出すべきＵＲＬを予め読み出して格納す
るＵＲＬキャッシュを備えるものである。

【００３０】この発明に係る情報収集方法は、ハイパテ
キスト情報に含まれるリンク情報を解析して、リンク先
に対応するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅ
Ｌｏｃａｔｏｒ）を抽出するリンク抽出ステップと、
ＵＲＬに記述されるリンク先のサーバ装置を特定するサ
ーバ名情報に基づいて、サーバ装置ごとのＵＲＬの読み
出し順を管理するＵＲＬ管理ステップと、サーバ名情報
を用いて読み出されたＵＲＬに対応するハイパテキスト
情報を収集する情報収集ステップとを備えるものであ
る。

【００３１】この発明に係る情報収集方法は、ハイパテ
キスト情報に含まれるリンク情報を解析して、リンク先
に対応するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅ
Ｌｏｃａｔｏｒ）を抽出するリンク抽出ステップと、
ハイパテキスト情報の内容及び／又は他のハイパテキス
ト情報からの参照数を用いて、ＵＲＬごとに読み出しの
優先度を設定する優先度設定ステップと、ＵＲＬに記述
されるリンク先のサーバ装置を特定するサーバ名情報、
及び優先度設定ステップにて設定した優先度に基づいて
サーバ装置ごとのＵＲＬの読み出し順を管理するＵＲＬ
管理ステップと、サーバ名情報を用いて読み出されたＵ
ＲＬに対応するハイパテキスト情報を収集する情報収集
ステップとを備えるものである。

【００３２】この発明に係る情報収集方法は、ＵＲＬ管
理ステップにて、ＵＲＬに記述される各情報をその文字
列順にページに割り当ててなるＢ木によってサーバ装置
ごとのＵＲＬの読み出し順を管理するものである。

【００３３】この発明に係る情報収集方法は、ＵＲＬ管
理ステップにて、サーバ名情報をキーとするハッシュに
よってサーバ装置ごとのＵＲＬの読み出し順を管理する
ものである。

【００３４】この発明に係る情報収集方法は、ＵＲＬ管
理ステップにて、サーバ名情報とＵＲＬの優先度の組み
合わせをページに各々割り当ててなるＢ木によってサー
バ装置ごとのＵＲＬの読み出し順を管理するものであ
る。

【００３５】この発明に係るプログラムは、ハイパテキ
スト情報に含まれるリンク情報を解析して、リンク先に
対応するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅ
Ｌｏｃａｔｏｒ）を抽出するリンク抽出手段、該リンク
抽出手段が抽出したＵＲＬを格納すると共に、該ＵＲＬ
に記述されるリンク先のサーバ装置を特定するサーバ名
情報に基づいて、サーバ装置ごとのＵＲＬの読み出し順
を管理するＵＲＬ管理手段、該ＵＲＬ管理手段から読み
出されたＵＲＬに対応するハイパテキスト情報を収集す
る通信手段としてコンピュータを機能させるものであ
る。

【００３６】この発明に係るプログラムは、ハイパテキ
スト情報に含まれるリンク情報を解析して、リンク先に
対応するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅ
Ｌｏｃａｔｏｒ）を抽出するリンク抽出手段、ハイパテ
キスト情報の内容及び／又は他のハイパテキスト情報か
らの参照数を用いて、ＵＲＬごとに読み出しの優先度を
設定する優先度設定手段、該リンク抽出手段が抽出した
ＵＲＬを格納すると共に、該ＵＲＬに記述されるリンク
先のサーバ装置を特定するサーバ名情報、及び優先度設
定手段が設定した優先度に基づいて、サーバ装置ごとの
ＵＲＬの読み出し順を管理するＵＲＬ管理手段、該ＵＲ
Ｌ管理手段から読み出されたＵＲＬに対応するハイパテ
キスト情報を収集する通信手段としてコンピュータを機
能させるものである。

【００３７】

【発明の実施の形態】以下、この発明の実施の一形態を
説明するものである。実施の形態１．図１はこの発明の実施の形態１によるＷ
ＷＷ情報収集装置の構成を示す図である。図において、
１は実施の形態１によるＷＷＷ情報収集装置（情報収集
装置）であって、取得要求ＵＲＬ管理手段３に管理され
る取得要求ＵＲＬを読み出してＷＷＷ上のウェブページ
（ハイパテキスト情報）を網羅的に収集する。２はイン
ターネットで、任意のＷＷＷサーバＡ〜Ｃが接続すると
共に、ＷＷＷ情報収集装置１及びこれを用いた検索シス
テムと接続している。３は取得要求ＵＲＬ管理手段（Ｕ
ＲＬ管理手段）であって、収集すべきウェブページのＵ
ＲＬをその文字列順に格納し、これらＵＲＬに対応する
ＷＷＷサーバとの通信状態を管理すると共に、これらに
対応する「ＷＷＷサーバ名」（サーバ名情報）を先入れ
先出し順で格納する。４はインターネット２を介してＷ
ＷＷサーバＡ〜Ｃとの通信を行うダウンロード手段（通
信手段）で、ＷＷＷサーバＡ〜Ｃからウェブページをダ
ウンロードする。５は既取得ＵＲＬ記憶手段（既取得Ｕ
ＲＬ登録手段）であって、同じＵＲＬのウェブページの
重複したダウンロードを防ぐために既に取得したウェブ
ページのＵＲＬの一覧を格納する。６はＵＲＬコンテン
ツ記憶手段で、ダウンロードしたウェブページの内容を
格納する。７はリンク抽出手段であって、ＵＲＬコンテ
ンツ記憶手段６が格納するウェブページからＨＴＭＬの
ハイパーリンクを抽出して取得要求ＵＲＬ管理手段３に
送出する。Ａ〜Ｃはインターネット２に接続する任意の
ＷＷＷサーバ（サーバ装置）である。

【００３８】図２は図１中の取得要求ＵＲＬ管理手段の
構成を示すブロック図である。図において、８はＵＲＬ
インデックス（ＵＲＬインデックス部）であって、ＵＲ
Ｌを文字列順にソートし索引付けして記憶する。９はＷ
ＷＷサーバテーブルで、現在までに取得要求ＵＲＬ管理
手段３に登録された全てのＵＲＬに含まれる「ＷＷＷサ
ーバ名」とこれに対応するＷＷＷサーバの通信状態とが
登録される。１０は「ＷＷＷサーバ名」を先入れ先出し
順に格納するＷＷＷサーバキュー（サーバ名情報記憶手
段）であって、ＷＷＷサーバテーブル９において「ダウ
ンロード待ち状態」のＷＷＷサーバに対応する「ＷＷＷ
サーバ名」が格納される。なお、図１と同一構成要素に
は同一符号を付して重複する説明を省略する。

【００３９】ここで、ＷＷＷサーバテーブル９及びＷＷ
Ｗサーバキュー１０の概要を説明する。先ず、ＷＷＷサ
ーバテーブル９において、１つのＷＷＷサーバに対応す
るエントリ数は１又は０（未登録）であり、「ＷＷＷサ
ーバ名」をキーとしてＢ木やハッシュなどのインデック
スを作成することで探索を効率化することができる。ま
た、各ＷＷＷサーバの通信状態（各ＷＷＷサーバの「Ｗ
ＷＷサーバ名」とこれの通信状態とを入力するエントリ
の内容）は、「休止」、「ダウンロード待ち」、「ダウ
ンロード中」のいずれか１つであり、それぞれダウンロ
ードすべきＵＲＬがない状態、ＷＷＷサーバキュー１０
に登録された状態、ダウンロードを行なっている状態を
表している。さらに、ＷＷＷサーバキュー１０は先入れ
先出し順で「ＷＷＷサーバ名」を管理し、「ＷＷＷサー
バ名」自体での探索は行なわない。このため、「ＷＷＷ
サーバ名」の代わりに、ＷＷＷサーバを一意に識別でき
る情報、例えばＷＷＷサーバテーブル９におけるエント
リの位置などを利用してもよい。

【００４０】次に、ＵＲＬインデックス８の概要を説明
する。図３は図２中のＵＲＬインデックスを示す図であ
る。図において、１１は取得要求ＵＲＬを文字列順にソ
ートして格納するリーフページであって、ＵＲＬを文字
列順に格納する格納領域とポインタ１２との対で構成さ
れる。１２は複数のリーフページ１１を連結するポイン
タで、次に連結すべきリーフページ１１内の最初のＵＲ
Ｌ文字列の格納場所（アドレス）を示す情報である。１
３はリーフページ１１の上位階層を有するノードページ
であって、各リーフページ１１を導くポインタ１４と、
参照先のリーフページ１１内の最後に位置するＵＲＬ文
字列を格納する格納領域とから構成されている。１４は
リーフページ１１を参照する際に各リーフページ１１を
導くポインタで、参照すべきリーフページ１１の格納場
所（アドレス）を示す情報である。

【００４１】図３に示すように、ＵＲＬインデックス８
において、取得要求ＵＲＬは１つ以上の固定サイズのリ
ーフページ１１に格納される。また、各リーフページ１
１に対しては当該リーフページに対するポインタ１４を
格納する固定サイズのノードページ１３がただ一つ存在
する。このノードページ１３は１つ以上存在し、複数の
ノードページ１３が存在すると、当該ノードページ１３
を参照するさらに上位のノードページが作られる。この
最上位のノードページをルートページと呼ぶ。

【００４２】以上に述べたＵＲＬインデックス８の構造
は、ＵＲＬ文字列に対してＢ＋木インデックスを作成し
たものに相当する。Ｂ＋木インデックスの探索、挿入、
削除のアルゴリズムは、例えばＤｏｎａｌｄＥ．Ｋｎ
ｕｔｈ著「ＴｈｅＡｒｔｏｆＣｏｍｐｕｔｅｒＰ
ｒｏｇｒａｍｍｉｎｇ，Ｖｏｌｕｍｅ３，Ｓｏｒｔｉｎ
ｇａｎｄＳｅａｒｃｈｉｎｇ」（Ｒｅａｄｉｎｇ，
Ｍａｓｓａｃｈｕｓｅｔｔｓ：Ａｄｄｉｓｏｎ−Ｗｅｓ
ｌｅｙ刊，１９７３年，ＩＳＢＮ０−２０１−０３８
０３−Ｘ）に詳しく説明されているものを適用する。

【００４３】また、ＵＲＬの格納順はＵＲＬ文字列から
一意に決定できれば十分であり、ソートの基準は必ずし
も文字コードの単純比較に限らない。例えば、ＵＲＬの
ＷＷＷサーバ内識別子は階層的なファイル名に対応して
おり、ＷＷＷサーバ内識別子の「／」記号に先行する部
分はディレクトリを表すものと考えることができる。通
常、同じディレクトリ内には関連するファイルやサブデ
ィレクトリを配置し、より一般的な情報は上位のディレ
クトリに格納して下位のディレクトリには詳細な情報を
格納する。

【００４４】そこで、ＵＲＬ文字列を「／」記号で規定
されるディレクトリごとに分割してページ１１，１３な
どに割り当て、各ディレクトリ階層の深さの順を優先し
て、同一深さのディレクトリ間で文字列順に格納する。
これにより、ディレクトリ階層の浅いＵＲＬを先頭近く
に格納することもできる。このようなソート順を採用す
ると、ＷＷＷサーバごとに重要性の高いＵＲＬから並べ
ることができるようになる。

【００４５】次に動作について説明する。図４は図１中
のＷＷＷ情報収集装置の動作を概略的に示すフロー図で
あり、この図に沿ってＷＷＷ情報収集装置の動作概要を
説明する。先ず、取得要求ＵＲＬ管理手段３は、既知の
ＵＲＬを初期ＵＲＬとして登録する（ステップＳＴ
１）。この取得要求ＵＲＬ管理手段３によるＵＲＬの登
録手順は後述する。ここで、初期ＵＲＬとしては、多く
のウェブページをダウンロードするために、多くのリン
クを含むウェブページのＵＲＬを指定することが望まし
い。

【００４６】次に、取得要求ＵＲＬ管理手段３は、ＷＷ
Ｗサーバキュー１０の状態を調べ、ＵＲＬの構成要素を
分解して抽出した「ＷＷＷサーバ名」に対応する文字列
が格納されていれば、ステップＳＴ３の処理に移行し、
格納されておらず空であればステップＳＴ１１の処理に
移行する（ステップＳＴ２）。

【００４７】ステップＳＴ３において、取得要求ＵＲＬ
管理手段３は、ＷＷＷサーバキュー１０の先頭のエント
リの内容を読み出し、「ＷＷＷサーバ名」を取得する。
次いで、ＵＲＬインデックス８を探索して、当該「ＷＷ
Ｗサーバ名」に対応するＵＲＬがに登録されているか否
かを調べる。このとき、上記ＵＲＬがＵＲＬインデック
ス８に登録されていれば、ステップＳＴ５の処理に移行
し、登録されていなければステップＳＴ１０の処理に移
行する（ステップＳＴ４）。ここで、「ＷＷＷサーバ
名」が、例えば「ｗｗｗ．ｂｂｂ．ｃｏ．ｊｐ」なる文
字列であると、これに対応するＵＲＬは「ｈｔｔｐ：／
／ｗｗｗ．ｂｂｂ．ｃｏ．ｊｐ」で始まる文字列とな
る。即ち、ＵＲＬを文字列順で配置すると、同一の「Ｗ
ＷＷサーバ名」に対応するＵＲＬが必ず連続的に配置さ
れることになる。これによる効果としては、ＵＲＬイン
デックス８ではリーフページ１１にＵＲＬを文字列順で
格納していることから、例えば「ｈｔｔｐ：／／ｗｗ
ｗ．ｂｂｂ．ｃｏ．ｊｐ」で始まるＵＲＬが、ＷＷＷサ
ーバ「ｗｗｗ．ｂｂｂ．ｃｏ．ｊｐ」に対応するＵＲＬ
であることを容易に探索することができる。従って、Ｕ
ＲＬを文字列順で配置することで、ＵＲＬインデックス
８内に対象とする「ＷＷＷサーバ名」に対応するＵＲＬ
が存在するか否かを効率的に探索することができる。

【００４８】ステップＳＴ５において、「ＷＷＷサーバ
名」に対応するＵＲＬがＵＲＬインデックス８に登録さ
れている場合、取得要求ＵＲＬ管理手段３は、当該「Ｗ
ＷＷサーバ名」に対応するＵＲＬのうち文字列順で登録
された先頭のＵＲＬをＵＲＬインデックス８から読み出
してダウンロード手段４に送出する。この段階で、当該
ＵＲＬはＵＲＬインデックス８に登録された状態を維持
し、ＵＲＬインデックス８から削除されない。これは、
以降のダウンロードの最中にＷＷＷ情報収集装置１に障
害が発生した場合に、当該ＵＲＬの取得要求が失われる
のを防ぐためである。よって、ダウンロードが完了した
時点で、当該ＵＲＬがＵＲＬインデックス８から削除さ
れる。

【００４９】次に、ダウンロード手段４は、当該ＵＲＬ
が既取得ＵＲＬ記憶手段５に格納されているか否かを調
べ、当該ＵＲＬが格納されていないとステップＳＴ７の
処理に移行し、格納されているとステップＳＴ９の処理
に移行する（ステップＳＴ６）。ステップＳＴ９におい
て、ダウンロード手段４は、当該ＵＲＬが取得済みであ
ると判断し、これをＵＲＬインデックス８から削除した
後、ステップＳＴ４の処理に戻って、上記「ＷＷＷサー
バ名」に対応する別のＵＲＬを探索する。

【００５０】一方、既取得ＵＲＬ記憶手段５に格納され
ておらず、当該ＵＲＬが未取得であると判断されると、
ダウンロード手段４は、その旨を取得要求ＵＲＬ管理手
段３に通知して、ＷＷＷサーバテーブル９の当該ＷＷＷ
サーバに対応するエントリの状態を「ダウンロード中」
に変更させる（ステップＳＴ７）。

【００５１】続いて、ダウンロード手段４は、当該ＵＲ
Ｌのダウンロードを起動し、上記「ＷＷＷサーバ名」に
対応するＷＷＷサーバと通信接続してウェブページをダ
ウンロードする（ステップＳＴ８）。このあと、ＷＷＷ
情報収集装置１は、ステップＳＴ２の処理に戻って別の
ＷＷＷサーバに対するダウンロードを試みる。ここで、
上述したダウンロード動作は、図４に示す動作と並行し
て実行される。このため、ステップＳＴ８において、ダ
ウンロード手段４は、先行するＵＲＬに対応するウェブ
ページのダウンロード完了を待たない。このような並行
動作は、例えば既存のマルチスレッドの技法によって新
たなスレッドを生成してダウンロードを実行することで
実現される。ダウンロード動作自体の詳細は後述する。

【００５２】一方、ステップＳＴ４において、ＵＲＬイ
ンデックス８内に当該「ＷＷＷサーバ名」に対応するＵ
ＲＬがなかった場合、取得要求ＵＲＬ管理手段３は、Ｗ
ＷＷサーバテーブル９における上記「ＷＷＷサーバ名」
に対応するエントリの内容を「休止」に変更する（ステ
ップＳＴ１０）。このあと、ステップＳＴ２の処理に戻
って、別のＷＷＷサーバに対するダウンロードを試み
る。

【００５３】また、ステップＳＴ２において、ＷＷＷサ
ーバキュー１０に「ＷＷＷサーバ名」が格納されていな
かった場合、取得要求ＵＲＬ管理手段３は、ＷＷＷサー
バテーブル９中にエントリの内容が「ダウンロード中」
の通信状態に対応する「ＷＷＷサーバ名」が存在するか
否かを調べる（ステップＳＴ１１）。このとき、「ダウ
ンロード中」のエントリが存在する場合、取得要求ＵＲ
Ｌ管理手段３は、ステップＳＴ２に戻ってＷＷＷサーバ
キュー１０に他の「ＷＷＷサーバ名」が格納されるまで
待機する（待機ループ）。一方、ＷＷＷサーバキュー１
０に「ＷＷＷサーバ名」が格納されておらず、且つ、Ｗ
ＷＷサーバテーブル９に「ダウンロード中」状態のエン
トリが存在しない場合、取得要求ＵＲＬ管理手段３は、
全てのＷＷＷサーバが「休止」状態になったと判断して
動作を終了する。

【００５４】図５は図１中の取得要求ＵＲＬ管理手段に
よる動作を示すフロー図であり、この図に沿ってＵＲＬ
の登録動作について詳細に説明する。先ず、取得要求Ｕ
ＲＬ管理手段３は、ダウンロード手段４から登録しよう
とするＵＲＬが既取得ＵＲＬ記憶手段５に既に存在して
いるか否かの通知を受ける。このとき、対象とするＵＲ
Ｌが既取得ＵＲＬ記憶手段５に存在しているとの通知を
受けると、取得要求ＵＲＬ管理手段３は、当該ＵＲＬが
取得済みであると判断して登録せずに動作を終了する一
方、対象とするＵＲＬが存在しない旨の通知である場
合、当該ＵＲＬが未取得であると判断してステップＳＴ
２ａの処理に移行する（ステップＳＴ１ａ）。

【００５５】ステップＳＴ２ａにおいて、取得要求ＵＲ
Ｌ管理手段３は、ＵＲＬインデックス８を検索して当該
ＵＲＬが存在するか否かを調べる。このとき、ＵＲＬイ
ンデックス８に存在する場合、当該ＵＲＬの登録は不要
であるので動作を終了する。一方、当該ＵＲＬがＵＲＬ
インデックス８に存在しない場合、取得要求ＵＲＬ管理
手段３は、ステップＳＴ３ａの処理に進み、ＵＲＬイン
デックス８への挿入を行う。

【００５６】次に、取得要求ＵＲＬ管理手段３は、当該
ＵＲＬを構成する文字列から「ＷＷＷサーバ名」部分を
取り出し（ステップＳＴ４ａ）、当該「ＷＷＷサーバ
名」がＷＷＷサーバテーブル９に登録されているかどう
かを調べる（ステップＳＴ５ａ）。このとき、ＷＷＷサ
ーバテーブル９に当該「ＷＷＷサーバ名」が既に登録さ
れていると、取得要求ＵＲＬ管理手段３は、直ちにステ
ップＳＴ７ａの処理に進み、未登録の場合はステップＳ
Ｔ６ａの処理に進む。ステップＳＴ６ａにおいて、取得
要求ＵＲＬ管理手段３は、ＷＷＷサーバテーブル９に当
該「ＷＷＷサーバ名」とその通信状態の登録を行い、ス
テップＳＴ７ａの処理に進む。ここで、ＷＷＷサーバテ
ーブル９に登録するエントリの内容としては、当該「Ｗ
ＷＷサーバ名」と、その通信状態である「休止」が設定
される。

【００５７】続いて、取得要求ＵＲＬ管理手段３は、当
該「ＷＷＷサーバ名」に対応するＷＷＷサーバテーブル
９のエントリの通信状態に関する内容を調べ、「休止」
でなければ動作を終了し、通信状態が「休止」であると
ステップＳＴ８ａの処理に移行する（ステップＳＴ７
ａ）。

【００５８】ステップＳＴ８ａにおいて、取得要求ＵＲ
Ｌ管理手段３は、ＷＷＷサーバテーブル９の当該エント
リの通信状態に関する内容を「ダウンロード待ち」に設
定する。このあと、当該「ＷＷＷサーバ名」をＷＷＷサ
ーバキュー１０の末尾に挿入し、動作を終了する（ステ
ップＳＴ９ａ）。

【００５９】図６は実施の形態１によるＷＷＷ情報収集
装置のウェブページの収集動作を示すフロー図であり、
この図に沿ってダウンロード動作の詳細を説明する。先
ず、ダウンロード手段４は、取得要求ＵＲＬ管理手段３
から設定されたダウンロード対象のＵＲＬに対応する
「ＷＷＷサーバ名」で特定されるＷＷＷサーバのＩＰア
ドレスを取得する（ステップＳＴ１ｂ）。次いで、ダウ
ンロード手段４は、上記ＷＷＷサーバとのＨＴＴＰ接続
を確立し、ＧＥＴ要求を発行する（ステップＳＴ２
ｂ）。

【００６０】これにより、ダウンロード手段４は、イン
ターネット２を介してＷＷＷサーバから上記ＵＲＬに対
応するウェブページを収集し、これをＵＲＬコンテンツ
記憶手段６に格納する（ステップＳＴ３ｂ）。このあ
と、ダウンロード手段４は、直ちに当該ＵＲＬを既取得
ＵＲＬ記憶手段５に格納する（ステップＳＴ４ｂ）。こ
れに伴って、取得要求ＵＲＬ管理手段３は、当該ＵＲＬ
をＵＲＬインデックス８から削除する（ステップＳＴ５
ｂ）。

【００６１】上述したステップＳＴ４ｂ及びステップＳ
Ｔ５ｂを不可分の操作として実行することで、当該ＵＲ
ＬはＵＲＬインデックス８に存在するか、既取得ＵＲＬ
記憶手段５に存在するかのいずれかの状態になる。つま
り、何らかの障害があってその障害から回復したとき、
ダウンロードすべきウェブページのＵＲＬが既取得ＵＲ
Ｌ記憶手段５に存在する場合、障害発生前にダウンロー
ドが完了していたものと判断され、当該ＵＲＬがＵＲＬ
インデックス８から削除される。一方、ダウンロードす
べきウェブページのＵＲＬが既取得ＵＲＬ記憶手段５に
存在しない場合、ＵＲＬインデックス８に存在する当該
ＵＲＬをダウンロード手段４に設定してダウンロードを
再開する。このようにすることで、何らかの障害により
当該ＵＲＬのダウンロードが完了しなかった場合、回復
時に当該ＵＲＬに対応するウェブページの再ダウンロー
ドを行なうことが可能になると共に、当該ＵＲＬが既取
得ＵＲＬ記憶手段５に存在するにも関わらず、再度ダウ
ンロードされることを防ぐことができる。

【００６２】続いて、リンク抽出手段７は、収集したウ
ェブページをＵＲＬコンテンツ記憶手段６から読み出し
そのＨＴＭＬデータからリンク情報を抽出して、１つ以
上のリンクがあればリンク先ＵＲＬを取得要求ＵＲＬ管
理手段３に送出し登録させる（ステップＳＴ６ｂ）。取
得要求ＵＲＬ管理手段３によるＵＲＬの登録動作は上記
と同様である。

【００６３】次に、当該ＷＷＷサーバに対応するＵＲＬ
が連続している場合、ダウンロード手段４は、当該ＷＷ
Ｗサーバに対する次のアクセスまでの間隔が一定時間以
上空くように待機する（ステップＳＴ７ｂ）。これに伴
って、取得要求ＵＲＬ管理手段３は、ＷＷＷサーバテー
ブル９の当該ＷＷＷサーバに対応するエントリの通信状
態に関する内容を「ダウンロード待ち」に変更する（ス
テップＳＴ８ｂ）。

【００６４】このあと、取得要求ＵＲＬ管理手段３は、
当該ＷＷＷサーバに対応する「ＷＷＷサーバ名」をＷＷ
Ｗサーバキュー１０の末尾に挿入して動作を終了する
（ステップＳＴ９ｂ）。上述したように、ダウンロード
手段４によるダウンロード動作は、スレッドなどの並行
処理機構を用いて実現され、他のＷＷＷサーバに対する
ダウンロードとは独立して実行される。例えば、ステッ
プＳＴ１ｂからステップＳＴ５ｂまでの処理を実現する
プログラムや、ステップＳＴ７ｂからステップＳＴ９ｂ
までの処理を実現するプログラムをスレッドとし、ＷＷ
Ｗサーバキュー１０に格納される複数の「ＷＷＷサーバ
名」に対応する処理を並行して実行する。

【００６５】以上のように、この実施の形態１によれ
ば、収集すべき情報に対応する複数のＵＲＬをその文字
列順に格納するＵＲＬインデックス８と、これらＵＲＬ
に含まれる「ＷＷＷサーバ名」を先入れ先出し順で格納
するＷＷＷサーバキュー１０を備え、該ＷＷＷサーバキ
ュー１０から逐次読み出される複数の「ＷＷＷサーバ
名」に対応するＵＲＬをＵＲＬインデックス８に従って
読み出して、各ＷＷＷサーバごとに独立してダウンロー
ドを実行するので、同一ＷＷＷサーバに対するアクセス
間隔を制御しつつ、同時に最大限のＷＷＷサーバからダ
ウンロードを実行し収集速度を向上させることができ
る。

【００６６】また、この実施の形態１によれば、ＵＲＬ
の文字列順としてＵＲＬ文字列中の「／」記号で区切っ
た文字列をページに割り当てて階層化して、いわゆるＢ
＋木を適用したＵＲＬインデックス８で管理し、ディレ
クトリの階層の浅いＵＲＬを優先して読み出すようにし
たので、収集したＨＴＭＬデータからのＵＲＬの抽出順
に関わらず、重要なウェブページから順にダウンロード
することができる。

【００６７】さらに、この実施の形態１によれば、不可
分の操作でダウンロード済ＵＲＬのＵＲＬインデックス
８からの削除と既取得ＵＲＬ記憶手段５への登録を行な
うので、ダウンロード途中で障害が発生しても元の状態
に回復することができる。

【００６８】なお、ＷＷＷ情報収集装置１は、その構成
要素をＩＣなどの専用のハードウェアを用いて構成して
もよいし、ソフトウェア（ＷＷＷ情報収集プログラム）
を実行するコンピュータ装置を用いて構成してもよい。

【００６９】図７は、例えば図１中のＷＷＷ情報収集装
置をコンピュータ装置で具現化した際のハードウェア構
成を示す図である。図において、１５は当該コンピュー
タ装置のＣＰＵであって、上述したＷＷＷ情報収集装置
１の各構成手段３〜７の機能を実現するＷＷＷ情報収集
プログラムを実行する。１６はＷＷＷ情報収集プログラ
ムや該プログラムの実行に必要なデータを格納するメモ
リであり、取得要求ＵＲＬ管理手段３のＷＷＷサーバテ
ーブル９及びＷＷＷサーバキュー１０の機能を有してい
る。１７はコンソールインタフェースで、コンソール入
出力装置２１と装置１内部の構成部との間の情報送受を
中継する。１８はハードディスク装置２２に対するアク
セスを中継するディスクインタフェースで、１９はイン
ターネット２との接続を中継するネットワークインタフ
ェースである。また、２０は装置１の内部バスであっ
て、ＣＰＵ１５、メモリ１６、コンソールインタフェー
ス１７、ディスクインタフェース１８、及び、ネットワ
ークインタフェース１９を接続する。２１はコンソール
機能を実現するコンソール入出力装置で、装置１の制御
や保守などを行うためのコマンド入力やフレームを表示
する手段を有している。２２はハードディスク装置であ
り、既取得ＵＲＬ記憶手段５、ＵＲＬコンテンツ記憶手
段６、取得要求ＵＲＬ管理手段３のＵＲＬインデックス
８の機能を実現する。ハードディスク装置２２へのアク
セスを高速化するため、メモリ１６の一部をキャッシュ
領域に割り当て、頻繁にアクセスされるデータを常駐さ
せるようにしてもよい。

【００７０】次に動作について説明する。先ず、ＷＷＷ
情報収集プログラムを実行するＣＰＵ１５は、取得要求
ＵＲＬ管理手段３として機能し、上記実施の形態１と同
様に、既知のＵＲＬを初期ＵＲＬとして、ディスクイン
タフェース１８を介してハードディスク装置２２に記憶
する。次いで、ＷＷＷサーバキュー１０として機能する
メモリ１６の内容をチェックする。このとき、「ＷＷＷ
サーバ名」に関する情報が格納されていれば、メモリ１
６に格納された順にそれを読み出す。続いて、ＣＰＵ１
５は、読み出した「ＷＷＷサーバ名」に対応するＵＲＬ
が、ＵＲＬインデックス８として機能するハードディス
ク装置２２に登録されているか探索する。

【００７１】上記「ＷＷＷサーバ名」に対応するＵＲＬ
がハードディスク装置２２に登録されている場合、当該
ＵＲＬのうち文字列順で登録された先頭の１つを読み出
す。続いて、ＣＰＵ１５は、当該ＵＲＬがハードディス
ク装置２２内の既取得ＵＲＬ記憶手段５として割り当て
られた記憶領域に格納されているかどうか調べる。これ
によって、当該ＵＲＬが上記記憶領域に格納されている
と、ハードディスク装置２２内のＵＲＬインデックス８
として割り当てられた記憶領域から削除した後、上記
「ＷＷＷサーバ名」に対応する別のＵＲＬを探索する。

【００７２】一方、当該ＵＲＬが既取得ＵＲＬ記憶手段
５として割り当てられた記憶領域に格納されていない場
合、ＣＰＵ１５は、ＷＷＷサーバテーブル９として機能
するメモリ１６の上記「ＷＷＷサーバ名」に対応するエ
ントリの状態を「ダウンロード中」に変更する。次い
で、ＣＰＵ１５は、ＷＷＷ情報収集プログラム内の通信
プログラムを実行して、ネットワークインタフェース１
９と共にダウンロード手段として機能し、当該ＵＲＬに
対応するＷＷＷサーバにアクセスして対応するウェブペ
ージがダウンロードされる。このあと、ＣＰＵ１５は、
上記と同様にしてＷＷＷサーバキュー１０として機能す
るメモリ１６の内容をチェックし、逐次ウェブページの
ダウンロードを実行する。

【００７３】なお、上記構成では、ＵＲＬインデックス
８及び既取得ＵＲＬ記憶手段５がハードディスク装置２
２を共有し、不可分の操作でダウンロード済ＵＲＬのＵ
ＲＬインデックス８からの削除と既取得ＵＲＬ記憶手段
５への登録を行なうことができる。これにより、ダウン
ロード途中で障害が発生しても元の状態に回復すること
ができる。

【００７４】実施の形態２．この実施の形態２では、上
記実施の形態１で示したＵＲＬインデックス８をＢ＋木
の代わりに「ＷＷＷサーバ名」をキーとするハッシュを
用いて実現するものである。

【００７５】図８はこの発明の実施の形態２による取得
要求ＵＲＬ管理手段の構成を示す図である。図におい
て、３ａは実施の形態２による取得要求ＵＲＬ管理手段
（ＵＲＬ管理手段）であって、収集すべきウェブページ
のＵＲＬをＷＷＷサーバごとに先入れ先出し順で格納
し、これらＵＲＬに対応するＷＷＷサーバとの通信状態
を管理すると共に、これらに対応する「ＷＷＷサーバ
名」を先入れ先出し順で格納する。８ａはＵＲＬインデ
ックス（ＵＲＬインデックス部）で、収集すべき複数の
ＵＲＬををＷＷＷサーバごとに先入れ先出し順で格納す
る。２３はＵＲＬキャッシュであって、ＵＲＬ文字列を
キーとする有限サイズのハッシュテーブルである。な
お、図２と同一構成要素には同一符号を付して重複する
説明を省略する。

【００７６】図９は図８中のＵＲＬインデックスを示す
図である。図において、２４は複数のポインタ２５を配
列要素とするヘッダであって、「ＷＷＷサーバ名」に適
当なハッシュ関数を適用して得られる数値（ハッシュ
値）を配列の項番として１つのポインタ２５が選択され
る。ここで、ハッシュ関数は、例えば「ＷＷＷサーバ
名」の文字コードの総和をヘッダ２４の配列要素数で割
った剰余とすることができる。２５は固定サイズを有す
るバケット２６の格納場所を指定するポインタで、「Ｗ
ＷＷサーバ名」に対応するハッシュ値によって特定され
る。２６はポインタ２５によって特定されるバケットで
あって、各ハッシュ値に対応するＷＷＷサーバに属する
ＵＲＬ文字列が登録順に格納される。２７はバケット２
６の格納領域以上の数のＵＲＬを格納する際に複数のバ
ケット２６間を連結するあふれポインタである。

【００７７】また、ＵＲＬインデックス８ａにおいて、
異なる「ＷＷＷサーバ名」が同一のハッシュ値を持つこ
ともあり、その場合は１つのバケット２６に複数のＷＷ
Ｗサーバに対応するＵＲＬが混在することになる。さら
に、同一のハッシュ値に対応するＵＲＬが多く、１つの
バケット２６では格納領域が不足する場合は、あふれポ
インタ２７を用いて複数のバケット２６が連結される。

【００７８】次に動作について説明する。先ず、この実
施の形態２と上記実施の形態１とにおいて動作が相違す
る箇所について説明する。上述したように、この実施の
形態２では、ＵＲＬインデックスの実現方式がＢ木から
ハッシュに変更されている。このため、上記実施の形態
１によるＷＷＷ情報収集装置１の概略的な動作を示す図
４のうち、ステップＳＴ４、ステップＳＴ５及びステッ
プＳＴ９の処理が、ＵＲＬインデックス８ａの特徴に応
じて変更される。具体的には、ステップＳＴ４におい
て、取得要求ＵＲＬ管理手段３ａは、ＷＷＷサーバキュ
ー１０の先頭から読み出した「ＷＷＷサーバ名」に対応
するＵＲＬがＵＲＬインデックス８ａに存在するか否か
を、当該「ＷＷＷサーバ名」にハッシュ関数を適用して
算出したハッシュ値に対応するポインタ２５がヘッダ２
４に存在するか否かで判断する。また、ステップＳＴ５
やステップＳＴ９における処理は、当該「ＷＷＷサーバ
名」に対応するハッシュ値で特定されるポインタ２５に
よってバケット２６を読み出し、適宜ＵＲＬを探索して
その取り出しや削除が行われる。

【００７９】一方、上記実施の形態１によるＷＷＷ情報
収集装置１におけるＵＲＬの登録動作の詳細を示す図５
のうち、ステップＳＴ２ａ及びステップＳＴ３ａの処理
も、当該「ＷＷＷサーバ名」にハッシュ関数を適用して
算出したハッシュ値に対応するポインタ２５がヘッダ２
４に存在するか否かで判断し、このハッシュ値で特定さ
れるポインタ２５によって読み出されるバケット２６か
ら適宜ＵＲＬを探索して取り出しが行われる。

【００８０】さらに、上記実施の形態１によるＷＷＷ情
報収集装置１におけるダウンロード動作の詳細を示す図
６のうち、ステップＳＴ５ｂの処理も同様に、当該「Ｗ
ＷＷサーバ名」にハッシュ関数を適用して算出したハッ
シュ値で特定されるポインタ２５によってバケット２６
を読み出し、適宜ＵＲＬを探索して削除が行われる。

【００８１】ここで、この実施の形態２では、ＵＲＬイ
ンデックス８ａのバケット２６中ではＵＲＬが登録順に
格納されている。このため、上記実施の形態１のよう
に、ＵＲＬ文字列をキーとする検索は線形探索が必要と
なって効率的でない。そこで、ＵＲＬインデックス８ａ
中のＵＲＬの重複を許容して、図５におけるステップＳ
Ｔ２ａの処理を取り除いてもよい。この場合も、当該Ｕ
ＲＬに関するダウンロードを行うにあたり、図４中のス
テップＳＴ６において、既取得ＵＲＬ記憶手段５が参照
されてＵＲＬの重複除去が行なわれる。これにより、Ｕ
ＲＬインデックス８ａ中にＵＲＬが重複して格納されて
もダウンロード動作には影響を与えない。

【００８２】また、図５のステップＳＴ２ａにおいて、
ＵＲＬインデックス８ａの代わりにＵＲＬ文字列をキー
とするハッシュテーブルを用いて重複除去を行なうこと
もできる。

【００８３】図１０は図８中の取得要求ＵＲＬ管理手段
の動作を示すフロー図であり、ＵＲＬインデックス８ａ
中のＵＲＬの重複を許容した際、図５中のステップＳＴ
２ａに代わって行われる処理を示している。先ず、取得
要求ＵＲＬ管理手段３ａは、上記実施の形態１と同様
に、ダウンロード手段４から登録しようとするＵＲＬが
既取得ＵＲＬ記憶手段５に既に存在しているか否かの通
知を受ける。このとき、対象とするＵＲＬが既取得ＵＲ
Ｌ記憶手段５に既に存在しているとの通知であると、取
得要求ＵＲＬ管理手段３ａは、当該ＵＲＬが取得済みで
あると判断して登録せずに動作を終了する一方、対象と
するＵＲＬが存在しない旨の通知である場合、当該ＵＲ
Ｌが未取得であると判断してステップＳＴ２Ａ−１の処
理に移行する（ステップＳＴ１ａ）。

【００８４】ステップＳＴ２Ａ−１において、取得要求
ＵＲＬ管理手段３ａは、ＵＲＬキャッシュ２３を構成す
るＵＲＬ文字列のハッシュテーブルを検索して、当該Ｕ
ＲＬが存在するか否かを調べる。このとき、ＵＲＬキャ
ッシュ２３に存在する場合、当該ＵＲＬの登録は不要で
あるので動作を終了する。一方、当該ＵＲＬがＵＲＬキ
ャッシュ２３に存在しない場合、取得要求ＵＲＬ管理手
段３ａは、ステップＳＴ２Ａ−２の処理に進み、ＵＲＬ
キャッシュ２３に新たなＵＲＬを登録する空き領域があ
るか否かを判断する。

【００８５】ここで、ＵＲＬキャッシュ２３に全てのＵ
ＲＬを保持することはその記憶領域の浪費につながるた
め、登録するＵＲＬ数に制限を設けて、最近登録された
ＵＲＬのみを保持するようにする。つまり、ステップＳ
Ｔ２Ａ−２において、取得要求ＵＲＬ管理手段３ａは、
ＵＲＬキャッシュ２３に空き領域がないと判断すると、
ステップＳＴ２Ａ−３の処理に進んで最も古いＵＲＬを
ＵＲＬキャッシュ２３から削除して、ＵＲＬの格納領域
を確保したあと、ステップＳＴ２Ａ−４の処理に進む。
このとき、削除するＵＲＬは登録順で選択してもよい
し、ＬＲＵ（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅ
ｄ）方式に基づいて参照された順を基準に用いてもよ
い。

【００８６】一方、ステップＳＴ２Ａ−２において、取
得要求ＵＲＬ管理手段３ａがＵＲＬキャッシュ２３に空
き領域があると判断すると、ステップＳＴ２Ａ−４の処
理に進んで取得要求ＵＲＬをＵＲＬキャッシュ２３に登
録したあと、図５におけるステップＳＴ４ａの処理に移
行する。

【００８７】以上のように、この実施の形態２によれ
ば、収集すべき複数のＵＲＬ自体をＷＷＷサーバ毎に先
入れ先出し順で格納するＵＲＬインデックス８ａと、
「ＷＷＷサーバ名」を先入れ先出し順で格納するＷＷＷ
サーバキュー１０とを備え、該ＷＷＷサーバキュー１０
から逐次読み出される複数の「ＷＷＷサーバ名」に対応
するＵＲＬをＵＲＬインデックス８ａに従って読み出
し、これに対応するＷＷＷサーバとの通信状態を各々管
理しながらダウンロード動作を並行して実行するので、
同一ＷＷＷサーバに対するアクセス間隔を制御しつつ、
同時に最大限のＷＷＷサーバからダウンロードを実行し
収集速度を向上させることができる。

【００８８】なお、上記実施の形態２のハードウェア構
成も、上記実施の形態１と同様に、専用のハードウェア
又はＷＷＷ情報収集プログラムを実行するコンピュータ
装置を用いて実現することができる。

【００８９】実施の形態３．この実施の形態３では、上
記実施の形態１のＷＷＷサーバテーブル９に対して特定
の情報を付加し、当該情報に基づいてＷＷＷサーバに対
する優先度を付与してＷＷＷサーバキューへの挿入位置
を決定するものである。

【００９０】図１１はこの発明の実施の形態３によるＷ
ＷＷ情報収集装置のＷＷＷサーバテーブルを示す図であ
る。図において、９ａは実施の形態３によるＷＷＷサー
バテーブル（優先度設定テーブル部）であり、ＷＷＷサ
ーバごとに、「ＷＷＷサーバ名」及びその通信状態に加
えて、ＵＲＬインデックス８に格納されたＵＲＬ数を示
す取得要求ＵＲＬ数、既取得ＵＲＬ記憶手段５に格納さ
れたＵＲＬ数を示す既取得ＵＲＬ数、及び、これらから
算出した優先度を格納する。なお、ＷＷＷサーバテーブ
ル９ａ以外の構成は、上記実施の形態１で示したものと
同一であるものとする。

【００９１】次に動作について説明する。図１２は実施
の形態３の取得要求ＵＲＬ管理手段による動作を示すフ
ロー図であり、この図に示すフローは上記実施の形態１
におけるＵＲＬの登録動作の詳細を示す図５のうち、ス
テップＳＴ４ａ以降の処理に置き換わるものである。図
５中のステップＳＴ１ａからステップＳＴ３ａまでの処
理が行った後、取得要求ＵＲＬ管理手段３は、取得要求
ＵＲＬを構成する文字列から「ＷＷＷサーバ名」部分を
取り出す（ステップＳＴ４ａ）。続いて、取得要求ＵＲ
Ｌ管理手段３は、当該ＵＲＬから取り出した「ＷＷＷサ
ーバ名」がＷＷＷサーバテーブル９ａに登録されている
か判断し、登録済みであればステップＳＴ７Ａに進み、
未登録であればステップＳＴ６Ａに進む（ステップＳＴ
５Ａ）。

【００９２】ステップＳＴ６Ａでは、取得要求ＵＲＬ管
理手段３によって当該「ＷＷＷサーバ名」を設定した新
規のエントリがＷＷＷサーバテーブル９ａに追加され、
ステップＳＴ７Ａに進む。ここで、新規のエントリの各
項目は、通信状態＝「休止」、取得要求ＵＲＬ数＝既取
得ＵＲＬ数＝０に設定される。

【００９３】次に、取得要求ＵＲＬ管理手段３は、ＷＷ
Ｗサーバテーブル９ａの当該ＷＷＷサーバに対応するエ
ントリの取得要求ＵＲＬ数に１を加える（ステップＳＴ
７Ａ）。このあと、取得要求ＵＲＬ管理手段３は、当該
エントリの通信状態に関する内容を調べて「休止」でな
ければステップＳＴ１０Ａの処理に移行し、「休止」で
あればステップＳＴ９Ａの処理に進む（ステップＳＴ８
Ａ）。ステップＳＴ９Ａでは、取得要求ＵＲＬ管理手段
３によって当該エントリの通信状態に関する内容が「ダ
ウンロード待ち」に設定されたのち、ステップＳＴ１０
Ａの処理に移行する。

【００９４】ステップＳＴ１０Ａにおいて、取得要求Ｕ
ＲＬ管理手段３は、当該エントリの通信状態に関する内
容を調べ、「ダウンロード中」であれば処理を終了す
る。一方、「ダウンロード中」でなければ、ステップＳ
Ｔ１１Ａの処理に進む。ステップＳＴ１１Ａでは、取得
要求ＵＲＬ管理手段３によって当該エントリの優先度が
設定され、当該優先度に基づいてＷＷＷサーバキュー１
０の適切な位置に当該「ＷＷＷサーバ名」を挿入あるい
は移動する。

【００９５】ここで、上述した優先度の設定方法として
は、例えば（取得要求ＵＲＬ数−既取得ＵＲＬ数）によ
る差分値が大きいものを優先するように設定する。この
場合、新たに発見されたＷＷＷサーバのうち、他のＷＷ
Ｗサーバから多数参照されているものから優先的にダウ
ンロードすることになる。つまり、取得要求ＵＲＬ数が
多いと、当該ＷＷＷサーバに対するリンクが、他のＷＷ
Ｗサーバが保持する多くのウェブページに含まれてお
り、他のＷＷＷサーバから多数参照されるものと推察す
ることができる。この参照の多さは、そのＷＷＷサーバ
の重要度を反映している。また、既取得ＵＲＬ数が少な
いほど新たなウェブページに対するリンクが発見される
可能性が高いと考えられる。

【００９６】図１３は実施の形態３によるＷＷＷ情報収
集装置のウェブページの収集動作を示すフロー図であ
り、この図に沿ってダウンロード動作を説明する。な
お、この図１３は、上記実施の形態１におけるダウンロ
ード動作の詳細を示す図６のうちステップＳＴ４ｂとス
テップＳＴ５ｂの間に追加する動作及びステップＳＴ９
ｂに置き換わる動作を示している。ステップＳＴ４ｂに
おいて、ダウンロードしたＵＲＬを既取得ＵＲＬ記憶手
段５に格納すると、取得要求ＵＲＬ管理手段３は、ＷＷ
Ｗサーバテーブル９ａの当該ＷＷＷサーバに対応するエ
ントリの既取得ＵＲＬ数に１を加算する（ステップＳＴ
４ｂ−１）。これによって、後述するステップＳＴ９Ｂ
の処理において、ダウンロードがされるごとにＷＷＷサ
ーバテーブル９ａの当該ＷＷＷサーバの優先度が動的に
変更される。このあと、ステップＳＴ５ｂの処理に進
み、ステップＳＴ８ｂまで上記実施の形態１と同様の動
作がなされる。

【００９７】続いて、ＷＷＷサーバテーブル９ａの当該
ＷＷＷサーバに対応するエントリの通信状態に関する内
容が「ダウンロード待ち」に設定される（ステップＳＴ
８ｂ）と、取得要求ＵＲＬ管理手段３は、ステップＳＴ
１１Ａと同様に、当該ＷＷＷサーバに対応するエントリ
の取得要求ＵＲＬ数及び既取得ＵＲＬ数に基づいてその
優先度を設定し、当該優先度に基づいてＷＷＷサーバキ
ュー１０の適切な位置に（優先度順となるように）当該
「ＷＷＷサーバ名」を挿入する（ステップＳＴ９Ｂ）。

【００９８】以上のように、この実施の形態３によれ
ば、ＷＷＷサーバキュー１０に対してＷＷＷサーバごと
の取得要求ＵＲＬ数及び既取得ＵＲＬ数に基づいて設定
した優先度順に「ＷＷＷサーバ名」を格納するので、同
一ＷＷＷサーバに対するアクセス間隔を制御しつつ、重
要なウェブページやリンクを含むＷＷＷサーバに優先的
にアクセスすることができ、収集した情報の質を高める
ことができる。

【００９９】なお、上記実施の形態３では、各ＷＷＷサ
ーバの優先度が同じ初期値を有する例を示したが、以前
に実施したウェブページ収集完了時の優先度に基づいて
ＷＷＷサーバごとに異なる初期優先度を与えるようにし
てもよい。このようにすることで、収集ページが少ない
初期段階においても適切にＷＷＷサーバの優先度設定を
行うことができる。

【０１００】なお、上記実施の形態３におけるＵＲＬイ
ンデックスは、上記実施の形態２のＵＲＬインデックス
８ａを用いてもよい。また、ＵＲＬキャッシュ２３と組
み合わせてもよい。

【０１０１】また、上記実施の形態３において、ＷＷＷ
サーバテーブル９ａの取得要求ＵＲＬ数及び既取得ＵＲ
Ｌ数に基づいて取得要求ＵＲＬの廃棄を行なうようにし
てもよい。つまり、図５及び図１２に示したＵＲＬの登
録動作に先立って、取得要求ＵＲＬ管理手段３がＷＷＷ
サーバテーブル９ａの当該ＷＷＷサーバに対応するエン
トリを調べ、取得要求ＵＲＬ数又は既取得ＵＲＬ数が一
定値を越えていたらＵＲＬの登録を行なわずにＵＲＬを
廃棄する。このようにすることで、ＷＷＷサーバごとの
取得要求ＵＲＬ数及び既取得ＵＲＬ数を制限することが
できる。これにより、優先度の低いＷＷＷサーバのＵＲ
Ｌ格納に関わる性能や記憶領域のオーバヘッドが除外さ
れて、より効率的に優先度の高いＷＷＷサーバ対するア
クセスを実現することができる。

【０１０２】さらに、上記実施の形態３において、ＷＷ
Ｗサーバテーブル９ａにエラー発生回数を追加し、優先
度の設定や取得要求ＵＲＬの廃棄に反映させてもよい。
つまり、図６のステップＳＴ３ｂにおいて、ＷＷＷサー
バからのダウンロードが正常に完了しなかった際に、図
１３のステップＳＴ４ｂ−１においてＷＷＷサーバテー
ブルのエラー発生回数も＋１加算する。エラー発生回数
は、重み付けして優先度から差し引いたり、一定値を越
えた場合に取得要求ＵＲＬを廃棄するのに用いられる。
これにより、通信状態が良好でないＷＷＷサーバに繰り
返しアクセスするオーバヘッドが除外されて、より効率
的に正常なＷＷＷサーバに対するアクセスを実現するこ
とができる。

【０１０３】実施の形態４．この実施の形態４では、上
記実施の形態１のＵＲＬインデックス８においてＵＲＬ
を文字列順に格納する代わりに、ＵＲＬに設定した優先
度順に格納するものである。

【０１０４】図１４はこの発明の実施の形態４によるＷ
ＷＷ情報収集装置の構成を示す図である。図において、
１ａは実施の形態４によるＷＷＷ情報収集装置（情報収
集装置）であって、取得要求ＵＲＬ管理手段３ｂによっ
て優先度順に管理される取得要求ＵＲＬを読み出してＷ
ＷＷ上のウェブページを網羅的に収集する。３ｂは取得
要求ＵＲＬ管理手段（ＵＲＬ管理手段）で、収集すべき
ウェブページのＵＲＬをその優先度順に格納し、これら
ＵＲＬに対応するＷＷＷサーバとの通信状態を管理する
と共に、これらに対応する「ＷＷＷサーバ名」を先入れ
先出し順で格納する。２８は優先度設定手段であって、
ウェブページから抽出されたリンクのＵＲＬに対して優
先度を設定する。

【０１０５】次に動作について説明する。この実施の形
態４によるＷＷＷ情報収集装置１ａの基本的な動作とし
ては、先ず、ダウンロード手段４がウェブページをダウ
ンロードすると、ＵＲＬコンテンツ記憶手段６に格納す
る。このあと、リンク抽出手段７は、受信したウェブペ
ージをＵＲＬコンテンツ記憶手段６から読み出しそのＨ
ＴＭＬデータからリンク情報を抽出する。

【０１０６】このとき、優先度設定手段２８は、リンク
抽出手段７が読み出したウェブページやこれを解析して
抽出したリンク情報に対して、予め与えたキーワードの
出現頻度や他のウェブページからの参照数などに基づい
てウェブページの優先度を設定する。これに続いて、当
該優先度を元に当該ウェブページから抽出されたリンク
のＵＲＬに対しても優先度を設定する。これら優先度
は、リンク抽出手段７を介して取得要求ＵＲＬ管理手段
３ｂに送出されてＵＲＬインデックス８ｂに登録され
る。

【０１０７】次にＵＲＬインデックス８ｂについて説明
する。図１５は図１４中の取得要求ＵＲＬ管理手段を構
成するＵＲＬインデックスを示す図である。図におい
て、８ｂは実施の形態４によるＵＲＬインデックス（Ｕ
ＲＬインデックス部）であって、ＵＲＬが文字列順では
なく、ＵＲＬの優先度順にソートされ記憶される。１１
ａは取得要求ＵＲＬを対応する「ＷＷＷサーバ名」と当
該ＵＲＬの優先度との組み合わせをキーとしてソートし
て格納するリーフページであって、ＵＲＬに関する情報
の格納領域とポインタ１２ａとの対で構成される。１２
ａは複数のリーフページ１１ａを連結するポインタで、
次に連結すべきリーフページ１１ａの最初のＵＲＬ文字
列の格納場所（アドレス）を示す情報である。１３ａは
リーフページ１１ａの上位階層を有するノードページで
あって、各リーフページ１１ａを導くポインタ１４ａと
参照先のリーフページ１１ａ内の最後に位置するＵＲＬ
文字列を格納する格納領域とから構成されている。１４
ａはリーフページ１１ａを参照する際に各リーフページ
１１ａを導くポインタで、参照すべきリーフページ１１
ａの格納場所（アドレス）を示す情報である。

【０１０８】ＵＲＬインデックス８ｂにおいて、図１５
に示すように、取得要求ＵＲＬに対応するキーは、例え
ば（ｗｗｗ．ａａａ．ｃｏ．ｊｐ（ＷＷＷサーバ名），
２０（優先度））なる組み合わせで表される。また、リ
ーフページ１１ａには、上記組み合わせに加えて、元の
ＵＲＬを復元することができるように、キーに対応する
データとしてＵＲＬのＷＷＷサーバ内識別子も格納す
る。

【０１０９】上述したように、ＵＲＬインデックス８ｂ
は、取得要求ＵＲＬを「ＷＷＷサーバ名」とその優先度
の組み合わせをキーとして管理する。このため、上記実
施の形態１によるＷＷＷ情報収集装置１の概略的な動作
を示す図４のうち、ステップＳＴ４、ステップＳＴ５及
びステップＳＴ９の処理が、ＵＲＬインデックス８ｂの
特徴に応じて変更される。具体的には、ステップＳＴ４
において、取得要求ＵＲＬ管理手段３ｂは、ＷＷＷサー
バキュー１０の先頭から読み出した「ＷＷＷサーバ名」
に対応するＵＲＬがＵＲＬインデックス８ｂに存在する
か否かを判断するにあたり、当該「ＷＷＷサーバ名」と
ＵＲＬの優先度の組み合わせをキーとしてノードページ
１３ａ、リーフページ１１ａを探索する。つまり、当該
「ＷＷＷサーバ名」に関する上記組み合わせがあるかど
うかで判断する。また、ステップＳＴ５における処理で
は、当該「ＷＷＷサーバ名」とＵＲＬの優先度の組み合
わせのうち最大の優先度を有する組み合わせを順次読み
出し、当該「ＷＷＷサーバ名」とＷＷＷサーバ内識別子
とを組み合わせて復元したＵＲＬを取り出す。ステップ
ＳＴ９における処理では、ＵＲＬインデックス８ｂから
当該「ＷＷＷサーバ名」に関する上記組み合わせ及びこ
れに対応するＷＷＷサーバ内識別子を削除することで、
当該ＵＲＬの削除が行われる。

【０１１０】一方、上記実施の形態１によるＷＷＷ情報
収集装置１におけるＵＲＬの登録動作の詳細を示す図５
のうち、ステップＳＴ２ａの処理も、ノードページ１３
ａ、リーフページ１１ａ内に、当該「ＷＷＷサーバ名」
に関する上記組み合わせがあるかどうかで判断する。ま
た、この組み合わせから、当該「ＷＷＷサーバ名」を抽
出しＷＷＷサーバ内識別子と組み合わせてＵＲＬを復元
して取り出しが行われる。ステップＳＴ３ａの処理で
は、リーフページ１１ａ内に、当該「ＷＷＷサーバ名」
の文字列順に当該ＵＲＬの優先度と組み合わせて挿入さ
れる。このとき、ＷＷＷサーバ内識別子も上記組み合わ
せに関連付けられて格納される。

【０１１１】さらに、上記実施の形態１によるＷＷＷ情
報収集装置１におけるダウンロード動作の詳細を示す図
６のうち、ステップＳＴ５ｂの処理も、ＵＲＬインデッ
クス８ｂから当該「ＷＷＷサーバ名」に関する上記組み
合わせ及びこれに対応するＷＷＷサーバ内識別子を削除
することで、当該ＵＲＬの削除が行われる。

【０１１２】また、このＵＲＬインデックス８ｂでは、
ＵＲＬ文字列をキーとする検索は非効率になる。このた
め、上記実施の形態２と同様に、ＵＲＬの重複した登録
を防止するためのステップＳＴ２ａの処理を省略するこ
とができ、また、ＵＲＬキャッシュ２３と組み合わせて
用いることもできる。

【０１１３】以上のように、この実施の形態４によれ
ば、収集すべきＵＲＬに優先度を設定する優先度設定手
段２８と、ＷＷＷサーバ毎に優先度順にＵＲＬを格納す
るＵＲＬインデックス８ｂとを備えるので、ＷＷＷサー
バに対するアクセス間隔を制御しつつ、予め与えたキー
ワードや参照数などに基づいて重要度の高いウェブペー
ジからダウンロードすることができ、収集した情報の質
を高めることができる。

【０１１４】

【発明の効果】以上のように、この発明によれば、ハイ
パテキスト情報に含まれるリンク情報を解析して、リン
ク先に対応するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒ
ｃｅＬｏｃａｔｏｒ）を抽出し、ＵＲＬに記述されるリ
ンク先のサーバ装置を特定するサーバ名情報に基づいて
サーバ装置ごとのＵＲＬの読み出し順を管理して、サー
バ名情報を用いて読み出したＵＲＬに対応するハイパテ
キスト情報を収集するので、同一サーバ装置に対するア
クセス間隔を制御しつつ、同時に複数のサーバ装置から
ハイパテキスト情報の収集を実行することができ、情報
の収集速度を向上させることができるという効果があ
る。

【０１１５】この発明によれば、ハイパテキスト情報に
含まれるリンク情報を解析して、リンク先に対応するＵ
ＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔ
ｏｒ）を抽出し、ハイパテキスト情報の内容及び／又は
他のハイパテキスト情報からの参照数を用いて、ＵＲＬ
ごとに読み出しの優先度を設定し、ＵＲＬに記述される
リンク先のサーバ装置を特定するサーバ名情報、及び優
先度に基づいてサーバ装置ごとのＵＲＬの読み出し順を
管理して、サーバ名情報を用いて読み出したＵＲＬに対
応するハイパテキスト情報を収集するので、同一サーバ
装置に対するアクセス間隔を制御しつつ、重要なハイパ
テキスト情報の収集を優先して実行することができ、情
報の質を向上させることができるという効果がある。

【０１１６】この発明によれば、ＵＲＬに記述される各
情報をその文字列順にページに割り当ててなるＢ木によ
ってサーバ装置ごとのＵＲＬの読み出し順を管理するの
で、単一のインデックスで複数のサーバ装置の各々に対
応するＵＲＬを管理することができるという効果があ
る。

【０１１７】この発明によれば、ディレクトリ階層の深
さに応じてＵＲＬの読み出し順を設定するので、単一の
インデックスで複数のサーバ装置の各々に対応するＵＲ
Ｌを管理することができると共に、重要な情報を優先的
に収集することができるという効果がある。

【０１１８】この発明によれば、サーバ名情報をキーと
するハッシュによってサーバ装置ごとのＵＲＬの読み出
し順を管理するので、単一のインデックスで複数のサー
バ装置の各々に対応するＵＲＬを管理することができる
という効果がある。

【０１１９】この発明によれば、サーバ名情報とＵＲＬ
の優先度の組み合わせをページに各々割り当ててなるＢ
木によってサーバ装置ごとのＵＲＬの読み出し順を管理
するので、単一のインデックスで複数のサーバ装置の各
々に対応するＵＲＬを管理することができると共に、重
要な情報を優先的に収集することができるという効果が
ある。

【０１２０】この発明によれば、ハイパテキスト情報の
収集を複数のサーバ装置との間で並行して実行するの
で、情報の収集速度を向上させることができるという効
果がある。

【０１２１】この発明によれば、収集済みハイパテキス
ト情報数と未収集ハイパテキスト情報数とを用いてサー
バ装置ごとに優先度を設定し、該優先度に応じて各サー
バ名情報の一意な読み出しを管理するので、重要な情報
を有するサーバ装置に優先してアクセスすることができ
るという効果がある。

【０１２２】この発明によれば、収集済みハイパテキス
ト情報数と未収集ハイパテキスト情報数とが所定の閾値
を超えると、新たなＵＲＬの格納を行わないので、重要
性の低い情報を管理することによるＵＲＬの探索効率の
低下を防ぎ、重要な情報を高速に収集することができる
という効果がある。

【０１２３】この発明によれば、ハイパテキスト情報の
収集を完了すると、該ハイパテキスト情報に対応するＵ
ＲＬを既取得として登録したのち、該ＵＲＬを削除する
ので、障害の発生により情報収集が完了していないＵＲ
Ｌに対する取得要求が失われることを防ぐことができる
という効果がある。

【０１２４】この発明によれば、読み出すべきＵＲＬを
予め読み出して格納するＵＲＬキャッシュを備えるの
で、ＵＲＬの重複した登録が防がれ、ＵＲＬの登録処理
の効率を向上させることができるという効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１によるＷＷＷ情報収
集装置の構成を示す図である。

【図２】図１中の取得要求ＵＲＬ管理手段の構成を示
すブロック図である。

【図３】図２中のＵＲＬインデックスを示す図であ
る。

【図４】図１中のＷＷＷ情報収集装置の動作を概略的
に示すフロー図である。

【図５】図１中の取得要求ＵＲＬ管理手段による動作
を示すフロー図である。

【図６】実施の形態１によるＷＷＷ情報収集装置のウ
ェブページの収集動作を示すフロー図である。

【図７】図１中のＷＷＷ情報収集装置をコンピュータ
装置で具現化した際のハードウェア構成を示す図であ
る。

【図８】この発明の実施の形態２による取得要求ＵＲ
Ｌ管理手段の構成を示す図である。

【図９】図８中のＵＲＬインデックスを示す図であ
る。

【図１０】図８中の取得要求ＵＲＬ管理手段の動作を
示すフロー図である。

【図１１】この発明の実施の形態３によるＷＷＷ情報
収集装置のＷＷＷサーバテーブルを示す図である。

【図１２】実施の形態３の取得要求ＵＲＬ管理手段に
よる動作を示すフロー図である。

【図１３】実施の形態３によるＷＷＷ情報収集装置の
ウェブページの収集動作を示すフロー図である。

【図１４】この発明の実施の形態４によるＷＷＷ情報
収集装置の構成を示す図である。

【図１５】図１４中の取得要求ＵＲＬ管理手段を構成
するＵＲＬインデックスを示す図である。

【図１６】ＵＲＬを表す文字列の一例を示す図であ
る。

【図１７】従来のＷＷＷ情報収集装置の構成を示す図
である。

【図１８】図１７中のＷＷＷサーバ上におけるウェブ
ページ配置の一例を示す図である。

【図１９】図１７中のＷＷＷ情報収集装置によるウェ
ブページのダウンロード順とＷＷＷサーバのアクセス順
の一例を示す図である。

【符号の説明】

１，１ａＷＷＷ情報収集装置（情報収集装置）、２
インターネット、３，３ａ，３ｂ取得要求ＵＲＬ管理
手段（ＵＲＬ管理手段）、４ダウンロード手段（通信
手段）、５既取得ＵＲＬ記憶手段（既取得ＵＲＬ登録
手段）、６ＵＲＬコンテンツ記憶手段、７リンク抽
出手段、８，８ａ，８ｂＵＲＬインデックス（ＵＲＬ
インデックス部）、９ＷＷＷサーバテーブル、９ａ
ＷＷＷサーバテーブル（優先度設定テーブル部）、１０
ＷＷＷサーバキュー（サーバ名情報記憶手段）、１
１，１１ａリーフページ、１２，１２ａポインタ、
１３，１３ａノードページ、１４，１４ａポイン
タ、１５ＣＰＵ、１６メモリ、１７コンソールイ
ンタフェース、１８ディスクインタフェース、１９ネ
ットワークインタフェース、２０内部バス、２１コ
ンソール入出力装置、２２ハードディスク装置、２３
ＵＲＬキャッシュ、２４ヘッダ、２５ポインタ、
２６バケット、２７あふれポインタ、２８優先度
設定手段、Ａ〜ＣＷＷＷサーバ（サーバ装置）。

───────────────────────────────────────────────────── フロントページの続き (72)発明者田村孝之東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5B075 ND03 ND36 NK31 PR01 PR04 PR08 5B082 HA05 HA08

Claims

【特許請求の範囲】

【請求項１】ハイパテキスト情報に含まれるリンク情
報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆｏ
ｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出する
リンク抽出手段と、該リンク抽出手段が抽出した上記ＵＲＬを格納すると共
に、該ＵＲＬに記述されるリンク先のサーバ装置を特定
するサーバ名情報に基づいて、上記サーバ装置ごとのＵ
ＲＬの読み出し順を管理するＵＲＬ管理手段と、該ＵＲＬ管理手段から読み出された上記ＵＲＬに対応す
る上記ハイパテキスト情報を収集する通信手段とを備え
た情報収集装置。
【請求項２】ハイパテキスト情報に含まれるリンク情
報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆｏ
ｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出する
リンク抽出手段と、ハイパテキスト情報の内容及び／又は他のハイパテキス
ト情報からの参照数を用いて、ＵＲＬごとに読み出しの
優先度を設定する優先度設定手段と、該リンク抽出手段が抽出した上記ＵＲＬを格納すると共
に、該ＵＲＬに記述されるリンク先のサーバ装置を特定
するサーバ名情報、及び上記優先度設定手段が設定した
優先度に基づいて、上記サーバ装置ごとのＵＲＬの読み
出し順を管理するＵＲＬ管理手段と、該ＵＲＬ管理手段から読み出された上記ＵＲＬに対応す
る上記ハイパテキスト情報を収集する通信手段とを備え
た情報収集装置。
【請求項３】ＵＲＬ管理手段は、ＵＲＬに記述される
各情報をその文字列順にページに割り当ててなるＢ木に
よって、読み出すべきＵＲＬを検索するＵＲＬインデッ
クス部と、サーバ名情報を格納すると共に、各サーバ名
情報の一意な読み出しを管理するサーバ名情報記憶手段
とを備えることを特徴とする請求項１記載の情報収集装
置。
【請求項４】ＵＲＬインデックス部は、ディレクトリ
階層の深さに応じてＵＲＬの読み出し順を設定すること
を特徴とする請求項３記載の情報収集装置。
【請求項５】ＵＲＬ管理手段は、サーバ名情報をキー
とするハッシュによって読み出すべきＵＲＬを検索する
ＵＲＬインデックス部と、上記サーバ名情報を格納する
と共に、各サーバ名情報の一意な読み出しを管理するサ
ーバ名情報記憶手段とを備えることを特徴とする請求項
１記載の情報収集装置。
【請求項６】ＵＲＬ管理手段は、サーバ名情報とＵＲ
Ｌの優先度の組み合わせをページに各々割り当ててなる
Ｂ木によって、読み出すべきＵＲＬを検索するＵＲＬイ
ンデックス部と、上記サーバ名情報を格納すると共に、
各サーバ名情報の一意な読み出しを管理するサーバ名情
報記憶手段とを備えることを特徴とする請求項２記載の
情報収集装置。
【請求項７】ＵＲＬ管理手段は、複数のサーバ装置に
対応するＵＲＬを逐次読み出してゆき、通信手段は、上記ＵＲＬに対応するハイパテキスト情報
の収集を上記複数のサーバ装置との間で並行して実行す
ることを特徴とする請求項１から請求項６のうちのいず
れか１項記載の情報収集装置。
【請求項８】ＵＲＬ管理手段は、収集済みハイパテキ
スト情報数と未収集ハイパテキスト情報数とを用いてサ
ーバ装置ごとに優先度を設定する優先度設定テーブル部
と、サーバ名情報を格納すると共に、上記優先度設定テ
ーブル部に設定された優先度に応じて各サーバ名情報の
一意な読み出しを管理するサーバ名情報記憶手段とを備
えることを特徴とする請求項１から請求項７のうちのい
ずれか１項記載の情報収集装置。
【請求項９】ＵＲＬ管理手段は、収集済みハイパテキ
スト情報数と未収集ハイパテキスト情報数とが所定の閾
値を超えると、新たなＵＲＬの格納を行わないことを特
徴とする請求項１から請求項８のうちのいずれか１項記
載の情報収集装置。
【請求項１０】収集済みハイパテキスト情報のＵＲＬ
を登録する既取得ＵＲＬ登録手段を備え、ＵＲＬ管理手段は、通信手段がハイパテキスト情報の収
集を完了すると、該ハイパテキスト情報に対応するＵＲ
Ｌを上記既取得ＵＲＬ登録手段に登録したのち、該ＵＲ
Ｌを削除することを特徴とする請求項１から請求項９の
うちのいずれか１項記載の情報収集装置。
【請求項１１】ＵＲＬ管理手段は、読み出すべきＵＲ
Ｌを予め読み出して格納するＵＲＬキャッシュを備えた
ことを特徴とする請求項５又は請求項６記載の情報収集
装置。
【請求項１２】ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆ
ｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出す
るリンク抽出ステップと、上記ＵＲＬに記述されるリンク先のサーバ装置を特定す
るサーバ名情報に基づいて、上記サーバ装置ごとのＵＲ
Ｌの読み出し順を管理するＵＲＬ管理ステップと、上記サーバ名情報を用いて読み出されたＵＲＬに対応す
る上記ハイパテキスト情報を収集する情報収集ステップ
とを備えた情報収集方法。
【請求項１３】ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆ
ｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出す
るリンク抽出ステップと、ハイパテキスト情報の内容及び／又は他のハイパテキス
ト情報からの参照数を用いて、ＵＲＬごとに読み出しの
優先度を設定する優先度設定ステップと、上記ＵＲＬに記述されるリンク先のサーバ装置を特定す
るサーバ名情報、及び上記優先度設定ステップにて設定
した優先度に基づいて、上記サーバ装置ごとのＵＲＬの
読み出し順を管理するＵＲＬ管理ステップと、上記サーバ名情報を用いて読み出されたＵＲＬに対応す
る上記ハイパテキスト情報を収集する情報収集ステップ
とを備えた情報収集方法。
【請求項１４】ＵＲＬ管理ステップにて、ＵＲＬに記
述される各情報をその文字列順にページに割り当ててな
るＢ木によって、サーバ装置ごとのＵＲＬの読み出し順
を管理することを特徴とする請求項１２記載の情報収集
方法。
【請求項１５】ＵＲＬ管理ステップにて、サーバ名情
報をキーとするハッシュによってサーバ装置ごとのＵＲ
Ｌの読み出し順を管理することを特徴とする請求項１２
記載の情報収集方法。
【請求項１６】ＵＲＬ管理ステップにて、サーバ名情
報とＵＲＬの優先度の組み合わせをページに各々割り当
ててなるＢ木によって、サーバ装置ごとのＵＲＬの読み
出し順を管理することを特徴とする請求項１３記載の情
報収集方法。
【請求項１７】ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆ
ｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出す
るリンク抽出手段、該リンク抽出手段が抽出した上記ＵＲＬを格納すると共
に、該ＵＲＬに記述されるリンク先のサーバ装置を特定
するサーバ名情報に基づいて、上記サーバ装置ごとのＵ
ＲＬの読み出し順を管理するＵＲＬ管理手段、該ＵＲＬ管理手段から読み出された上記ＵＲＬに対応す
る上記ハイパテキスト情報を収集する通信手段としてコ
ンピュータを機能させるためのプログラム。
【請求項１８】ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するＵＲＬ（Ｕｎｉｆ
ｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出す
るリンク抽出手段、ハイパテキスト情報の内容及び／又は他のハイパテキス
ト情報からの参照数を用いて、ＵＲＬごとに読み出しの
優先度を設定する優先度設定手段、該リンク抽出手段が抽出した上記ＵＲＬを格納すると共
に、該ＵＲＬに記述されるリンク先のサーバ装置を特定
するサーバ名情報、及び上記優先度設定手段が設定した
優先度に基づいて、上記サーバ装置ごとのＵＲＬの読み
出し順を管理するＵＲＬ管理手段、該ＵＲＬ管理手段から読み出された上記ＵＲＬに対応す
る上記ハイパテキスト情報を収集する通信手段としてコ
ンピュータを機能させるためのプログラム