JP2003271670A - 情報収集装置、情報収集方法及びプログラム - Google Patents
情報収集装置、情報収集方法及びプログラムInfo
- Publication number
- JP2003271670A JP2003271670A JP2002076651A JP2002076651A JP2003271670A JP 2003271670 A JP2003271670 A JP 2003271670A JP 2002076651 A JP2002076651 A JP 2002076651A JP 2002076651 A JP2002076651 A JP 2002076651A JP 2003271670 A JP2003271670 A JP 2003271670A
- Authority
- JP
- Japan
- Prior art keywords
- url
- information
- server
- link
- hypertext
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
URLを取得要求URLキュー105からその抽出順に
取り出してアクセスするため、複数のWWWサーバに対
するアクセス順序を制御することができないという課題
があった。 【解決手段】 ハイパテキスト情報に含まれるリンク情
報を解析して、リンク先に対応するURL(Unifo
rm Resource Locator)を抽出する
リンク抽出手段と、該リンク抽出手段が抽出したURL
を格納すると共に、該URLに記述されるリンク先のサ
ーバ装置を特定するサーバ名情報に基づいて、サーバ装
置ごとのURLの読み出し順を管理するURL管理手段
と、該URL管理手段から読み出されたURLに対応す
るハイパテキスト情報を収集する通信手段とを備える。
Description
に接続する複数の情報提供サーバが管理する情報を網羅
的に収集する情報収集装置に係り、特にインターネット
を介して複数のWWW(World Wide We
b)サーバから取得したURL(Uniform Re
source Locator)をWWWサーバごとに
管理して各WWWサーバに対するアクセス順序を制御す
る情報収集装置、情報収集方法及びこれをコンピュータ
装置に具現化させるプログラムに関するものである。
システムであるWWW(WorldWide Web)
では、テキスト、音声、画像、動画などを含む様々な情
報を検索し利用することができる。このWWWが提供す
る情報は、HTML(Hyper Text Mark
up Language)などの構造化タグ言語で記述
されたテキストファイルを中心に構成されている。一般
的に、これらの情報は、利用者の端末装置におけるブラ
ウザ機能によって閲覧・取得を行うことができ、ウェブ
ページと呼ばれている。また、WWWでは、URL(U
niformResource Locator)と呼
ばれる文字列によって、インターネットに接続する複数
のコンピュータ(WWWサーバ)上の個々の情報(ウェ
ブページに相当する情報)を一意に識別することができ
る。
例を示す図である。図において、100はURL、10
1はURL100内で目的の情報があるWWWサーバ名
を特定する文字列で、102はWWWサーバ内識別子で
あって、文字列101で特定されるWWWサーバ内で目
的の情報が格納される場所を特定する。URL100に
ついてもう少し具体的に説明すると、「http:/
/」なる文字列は、通信プロトコルとしてHTTP(H
yper Text Transfer Protoc
ol)を用いることを示している。また、これに続く文
字列101によってWWWサーバ名(ドメイン名)とし
て「www.xxx.co.jp」で表されるWWWサ
ーバが特定される。最後に、WWWサーバ内識別子10
2として「/products/order.htm
l」を記述することで、目的の情報(ウェブページ)の
WWWサーバ内での格納場所が特定される。
WWW上の情報を一意に識別することができるが、WW
W上の情報は膨大にあることから、利用者がURLを直
接指定して情報を取得することは稀である。多くの場
合、利用者が所望の情報に関するキーワードを指定し、
これを含むウェブページのURLを検索するWWW検索
エンジンが利用される。
ロボット型と呼ばれるサーチ手法をとるものがある。こ
の基本的な仕組みは、予めWWW上のウェブページを網
羅的に収集し、その内容を解析して検索インデックスを
作成するものである。この検索インデックスを利用する
ことによって、大量のウェブページの中から、利用者が
指定するキーワードを含むウェブページの検索を実用的
な時間内で実行することができる。
号に開示された「Method For Search
ing A Queued And Ranked C
onstructed Catalog Of Fil
es Stored OnA Network」を適用
したWWW検索エンジンにおける従来のWWW情報収集
装置の構成を示す図である。このWWW情報収集装置
は、一般的にウェブロボットやクローラなどと呼ばれる
ものに相当する。図において、103はインターネッ
ト、104はロボット型のWWW検索エンジンを構成す
るWWW情報収集装置で、例えばWWW上のウェブペー
ジを網羅的に収集するプログラムを実行するコンピュー
タ装置によって実現される。105は取得要求URLキ
ューであって、収集すべきウェブページのURLを保持
する。106はインターネット103を介してWWWサ
ーバA〜Cとの通信を行うダウンロード手段で、WWW
サーバA〜Cからウェブページをダウンロードする。1
07は既取得URL記憶手段であって、同じURLのウ
ェブページの重複したダウンロードを防ぐために既に取
得したウェブページのURLの一覧を格納する。108
はURLコンテンツ記憶手段で、ダウンロードしたウェ
ブページの内容を格納する。109はウェブページから
HTMLのハイパーリンクを抽出して取得要求URLキ
ュー105に挿入するリンク抽出手段である。A〜Cは
インターネット103に接続する任意のWWWサーバで
ある。
集装置104は、取得要求URLキュー105に初期値
として1つ以上のURLを挿入することで動作を開始す
る。先ず、WWW情報収集装置104は、取得要求UR
Lキュー105から取り出したURLをダウンロード手
段106に設定する。ダウンロード手段106は、WW
WサーバA〜Cにアクセスして当該URLに対応するウ
ェブページをからダウンロードし、URLコンテンツ記
憶手段108に格納する。このあと、リンク抽出手段1
09が当該ウェブページの内容を解析して他のウェブペ
ージへのリンクを取り出し、当該リンクのURLを取得
要求URLキュー105に挿入する。このように、WW
W情報収集装置104は、ウェブページに含まれるリン
クを次々とたどることで、インターネット103上の膨
大な量のウェブページをダウンロードする。
集した情報は、インデクサ(不図示)と呼ばれる検索イ
ンデックスを作成するコンピュータ装置に送出される。
インデクサは、例えば検索インデックスを作成するプロ
グラムを実行するコンピュータ装置であり、これによっ
てWWW情報収集装置104が収集したウェブページ内
の文字情報から検索インデックスとなるデータベースが
作成される。この検索インデックスを利用することで、
ロボット型の検索エンジンを実現することができる。具
体的には、WWWサーバが利用者からの検索要求を受け
付けると、それを当該検索サービスを提供する検索サー
バに送出する。検索サーバでは、上記検索インデックス
を利用して検索を行い、検索結果を利用者の端末装置に
送信する。これによって、利用者は、端末装置のブラウ
ザ機能によって検索結果を閲覧することができる。
るウェブページ配置の一例を示す図である。図におい
て、A1〜A7,B1,C1はウェブページのURLで
あって、WWWサーバA〜C内のウェブページの格納場
所を規定する。また、図19は図17中のWWW情報収
集装置によるウェブページのダウンロード順とWWWサ
ーバのアクセス順の一例を示す図である。
WW情報収集装置104によるウェブページの探索動作
を詳細に説明する。先ず、WWW情報収集装置104
は、ウェブページのダウンロードをリンクの抽出順に行
う。つまり、リンク抽出手段109は、ダウンロードし
たウェブページからリンクのURLを抽出するごとに、
取得要求URLキュー105の末尾に挿入する。一方、
取得要求URLキュー105では、URLを格納された
順(FIFO;First−In First−Ou
t)に取り出してダウンロード手段106に設定する。
このため、ウェブページのダウンロードがリンクの抽出
順に行われる。この探索法は、一般的に幅優先探索と呼
ばれている。
の配置がなされたWWWサーバにおいて幅優先探索を行
うことで、図19に示すようなウェブページのダウンロ
ード順と各WWWサーバへのアクセス順の関係が得られ
る。具体的に説明すると、URLがA1であるウェブペ
ージをダウンロードする。該ウェブページにはURLが
A2,A3である2つのリンクが含まれており、これら
はA2,A3の順で抽出される。このあと、URLがA
2,A3のウェブページを逐次ダウンロードする。UR
LがA2のウェブページには、URLがB1,A4,A
5である3つのリンクが含まれており、これらはB1,
A4,A5の順で抽出される。一方、URLがA3のウ
ェブページには、URLがA6,C1,A7である3つ
のリンクが含まれており、これらはA6,C1,A7の
順で抽出される。続いて、リンクが抽出された順に、U
RLがB1,A4,A5,A6,C1,A7のウェブペ
ージが逐次ダウンロードされる。この挙動を記述したも
のが図19であり、時間軸に対応する列方向に沿って、
収集されるウェブページのURL、その際アクセスされ
たWWWサーバが示されている。
ブページが膨大な量存在し、更新や追加も頻繁に行なわ
れることから、上述した検索インデックスの作成に要す
る情報の収集は高速に行われる必要がある。このため、
ダウンロード手段106が、上述のように逐次的にダウ
ンロードを行なうのではなく、同時に複数のWWWサー
バから並行してダウンロードを行なうことで高速なウェ
ブページの収集を実現する技術も提案・実施されてい
る。
以上のように構成されているので、収集したウェブペー
ジから抽出したリンクのURLを取得要求URLキュー
105からその抽出順に取り出してアクセスするため、
複数のWWWサーバに対するアクセス順序を制御するこ
とができないという課題があった。
て同一WWWサーバ内のウェブページに対するリンクが
連続した場合、当該WWWサーバに対する負荷が増加す
る。この負荷増加を抑制するため、従来では先行するU
RLのダウンロード完了後、一定の時間間隔を空けてか
ら続くURLのウェブページをダウンロードすることが
行われていた。
WWWサーバから並行してウェブページをダウンロード
するにあたり、リンクが連続するWWWサーバに対する
アクセスの時間間隔が他のWWWサーバに対する時間間
隔と異なってしまうため、実質的に異なるWWWサーバ
から並行してウェブページのダウンロードを行なえる可
能性が低くなる。このため、ウェブページの収集速度が
低下してしまうという課題があった。
ために、取得要求URLキュー105の格納された先頭
のURLから検索して異なるWWWサーバを見つけ、並
行してダウンロードを行なう探索方式も提案・実施され
ている。しかしながら、取得要求URLキュー105の
容量が大きくなった場合、実質的に後から格納されたU
RLは検索待ちの状態になることから、検索効率が低下
すると共に、ウェブページの収集速度の低下を招くとい
う課題があった。
ではウェブページ収集速度の向上とWWWサーバに対す
る負荷抑制とを両立させることができなかった。
めになされたもので、通信ネットワークを介して複数の
情報提供サーバからウェブページなどのハイパテキスト
情報を網羅的に収集するにあたり、収集したハイパテキ
スト情報から抽出したURLを各情報提供サーバごとに
管理して各サーバに対するアクセス順序を制御すること
で、情報収集速度の向上とサーバに対する負荷抑制とを
両立させることができる情報収集装置、情報収集方法及
びこれをコンピュータ装置に具現化させるプログラムを
得ることを目的とする。
装置は、ハイパテキスト情報に含まれるリンク情報を解
析して、リンク先に対応するURL(Uniform
Resource Locator)を抽出するリンク
抽出手段と、該リンク抽出手段が抽出したURLを格納
すると共に、該URLに記述されるリンク先のサーバ装
置を特定するサーバ名情報に基づいて、サーバ装置ごと
のURLの読み出し順を管理するURL管理手段と、該
URL管理手段から読み出されたURLに対応するハイ
パテキスト情報を収集する通信手段とを備えるものであ
る。
キスト情報に含まれるリンク情報を解析して、リンク先
に対応するURL(Uniform Resource
Locator)を抽出するリンク抽出手段と、ハイ
パテキスト情報の内容及び/又は他のハイパテキスト情
報からの参照数を用いて、URLごとに読み出しの優先
度を設定する優先度設定手段と、該リンク抽出手段が抽
出したURLを格納すると共に、該URLに記述される
リンク先のサーバ装置を特定するサーバ名情報、及び優
先度設定手段が設定した優先度に基づいて、サーバ装置
ごとのURLの読み出し順を管理するURL管理手段
と、該URL管理手段から読み出されたURLに対応す
るハイパテキスト情報を収集する通信手段とを備えるも
のである。
理手段が、URLに記述される各情報をその文字列順に
ページに割り当ててなるB木によって、読み出すべきU
RLを検索するURLインデックス部と、サーバ名情報
を格納すると共に、各サーバ名情報の一意な読み出しを
管理するサーバ名情報記憶手段とを備えるものである。
ンデックス部が、ディレクトリ階層の深さに応じてUR
Lの読み出し順を設定するものである。
理手段が、サーバ名情報をキーとするハッシュによって
読み出すべきURLを検索するURLインデックス部
と、サーバ名情報を格納すると共に、各サーバ名情報の
一意な読み出しを管理するサーバ名情報記憶手段とを備
えるものである。
理手段が、サーバ名情報とURLの優先度の組み合わせ
をページに各々割り当ててなるB木によって、読み出す
べきURLを検索するURLインデックス部と、サーバ
名情報を格納すると共に、各サーバ名情報の一意な読み
出しを管理するサーバ名情報記憶手段とを備えるもので
ある。
理手段が、複数のサーバ装置に対応するURLを逐次読
み出してゆき、通信手段がURLに対応するハイパテキ
スト情報の収集を複数のサーバ装置との間で並行して実
行するものである。
理手段が、収集済みハイパテキスト情報数と未収集ハイ
パテキスト情報数とを用いてサーバ装置ごとに優先度を
設定する優先度設定テーブル部と、サーバ名情報を格納
すると共に、優先度設定テーブル部に設定された優先度
に応じて各サーバ名情報の一意な読み出しを管理するサ
ーバ名情報記憶手段とを備えるものである。
理手段が、収集済みハイパテキスト情報数と未収集ハイ
パテキスト情報数とが所定の閾値を超えると、新たなU
RLの格納を行わないものである。
ハイパテキスト情報のURLを登録する既取得URL登
録手段を備え、URL管理手段が、通信手段によるハイ
パテキスト情報の収集が完了すると、該ハイパテキスト
情報に対応するURLを既取得URL登録手段に登録し
たのち、該URLを削除するものである。
理手段が、読み出すべきURLを予め読み出して格納す
るURLキャッシュを備えるものである。
キスト情報に含まれるリンク情報を解析して、リンク先
に対応するURL(Uniform Resource
Locator)を抽出するリンク抽出ステップと、
URLに記述されるリンク先のサーバ装置を特定するサ
ーバ名情報に基づいて、サーバ装置ごとのURLの読み
出し順を管理するURL管理ステップと、サーバ名情報
を用いて読み出されたURLに対応するハイパテキスト
情報を収集する情報収集ステップとを備えるものであ
る。
キスト情報に含まれるリンク情報を解析して、リンク先
に対応するURL(Uniform Resource
Locator)を抽出するリンク抽出ステップと、
ハイパテキスト情報の内容及び/又は他のハイパテキス
ト情報からの参照数を用いて、URLごとに読み出しの
優先度を設定する優先度設定ステップと、URLに記述
されるリンク先のサーバ装置を特定するサーバ名情報、
及び優先度設定ステップにて設定した優先度に基づいて
サーバ装置ごとのURLの読み出し順を管理するURL
管理ステップと、サーバ名情報を用いて読み出されたU
RLに対応するハイパテキスト情報を収集する情報収集
ステップとを備えるものである。
理ステップにて、URLに記述される各情報をその文字
列順にページに割り当ててなるB木によってサーバ装置
ごとのURLの読み出し順を管理するものである。
理ステップにて、サーバ名情報をキーとするハッシュに
よってサーバ装置ごとのURLの読み出し順を管理する
ものである。
理ステップにて、サーバ名情報とURLの優先度の組み
合わせをページに各々割り当ててなるB木によってサー
バ装置ごとのURLの読み出し順を管理するものであ
る。
スト情報に含まれるリンク情報を解析して、リンク先に
対応するURL(Uniform Resource
Locator)を抽出するリンク抽出手段、該リンク
抽出手段が抽出したURLを格納すると共に、該URL
に記述されるリンク先のサーバ装置を特定するサーバ名
情報に基づいて、サーバ装置ごとのURLの読み出し順
を管理するURL管理手段、該URL管理手段から読み
出されたURLに対応するハイパテキスト情報を収集す
る通信手段としてコンピュータを機能させるものであ
る。
スト情報に含まれるリンク情報を解析して、リンク先に
対応するURL(Uniform Resource
Locator)を抽出するリンク抽出手段、ハイパテ
キスト情報の内容及び/又は他のハイパテキスト情報か
らの参照数を用いて、URLごとに読み出しの優先度を
設定する優先度設定手段、該リンク抽出手段が抽出した
URLを格納すると共に、該URLに記述されるリンク
先のサーバ装置を特定するサーバ名情報、及び優先度設
定手段が設定した優先度に基づいて、サーバ装置ごとの
URLの読み出し順を管理するURL管理手段、該UR
L管理手段から読み出されたURLに対応するハイパテ
キスト情報を収集する通信手段としてコンピュータを機
能させるものである。
説明するものである。 実施の形態1.図1はこの発明の実施の形態1によるW
WW情報収集装置の構成を示す図である。図において、
1は実施の形態1によるWWW情報収集装置(情報収集
装置)であって、取得要求URL管理手段3に管理され
る取得要求URLを読み出してWWW上のウェブページ
(ハイパテキスト情報)を網羅的に収集する。2はイン
ターネットで、任意のWWWサーバA〜Cが接続すると
共に、WWW情報収集装置1及びこれを用いた検索シス
テムと接続している。3は取得要求URL管理手段(U
RL管理手段)であって、収集すべきウェブページのU
RLをその文字列順に格納し、これらURLに対応する
WWWサーバとの通信状態を管理すると共に、これらに
対応する「WWWサーバ名」(サーバ名情報)を先入れ
先出し順で格納する。4はインターネット2を介してW
WWサーバA〜Cとの通信を行うダウンロード手段(通
信手段)で、WWWサーバA〜Cからウェブページをダ
ウンロードする。5は既取得URL記憶手段(既取得U
RL登録手段)であって、同じURLのウェブページの
重複したダウンロードを防ぐために既に取得したウェブ
ページのURLの一覧を格納する。6はURLコンテン
ツ記憶手段で、ダウンロードしたウェブページの内容を
格納する。7はリンク抽出手段であって、URLコンテ
ンツ記憶手段6が格納するウェブページからHTMLの
ハイパーリンクを抽出して取得要求URL管理手段3に
送出する。A〜Cはインターネット2に接続する任意の
WWWサーバ(サーバ装置)である。
構成を示すブロック図である。図において、8はURL
インデックス(URLインデックス部)であって、UR
Lを文字列順にソートし索引付けして記憶する。9はW
WWサーバテーブルで、現在までに取得要求URL管理
手段3に登録された全てのURLに含まれる「WWWサ
ーバ名」とこれに対応するWWWサーバの通信状態とが
登録される。10は「WWWサーバ名」を先入れ先出し
順に格納するWWWサーバキュー(サーバ名情報記憶手
段)であって、WWWサーバテーブル9において「ダウ
ンロード待ち状態」のWWWサーバに対応する「WWW
サーバ名」が格納される。なお、図1と同一構成要素に
は同一符号を付して重複する説明を省略する。
Wサーバキュー10の概要を説明する。先ず、WWWサ
ーバテーブル9において、1つのWWWサーバに対応す
るエントリ数は1又は0(未登録)であり、「WWWサ
ーバ名」をキーとしてB木やハッシュなどのインデック
スを作成することで探索を効率化することができる。ま
た、各WWWサーバの通信状態(各WWWサーバの「W
WWサーバ名」とこれの通信状態とを入力するエントリ
の内容)は、「休止」、「ダウンロード待ち」、「ダウ
ンロード中」のいずれか1つであり、それぞれダウンロ
ードすべきURLがない状態、WWWサーバキュー10
に登録された状態、ダウンロードを行なっている状態を
表している。さらに、WWWサーバキュー10は先入れ
先出し順で「WWWサーバ名」を管理し、「WWWサー
バ名」自体での探索は行なわない。このため、「WWW
サーバ名」の代わりに、WWWサーバを一意に識別でき
る情報、例えばWWWサーバテーブル9におけるエント
リの位置などを利用してもよい。
する。図3は図2中のURLインデックスを示す図であ
る。図において、11は取得要求URLを文字列順にソ
ートして格納するリーフページであって、URLを文字
列順に格納する格納領域とポインタ12との対で構成さ
れる。12は複数のリーフページ11を連結するポイン
タで、次に連結すべきリーフページ11内の最初のUR
L文字列の格納場所(アドレス)を示す情報である。1
3はリーフページ11の上位階層を有するノードページ
であって、各リーフページ11を導くポインタ14と、
参照先のリーフページ11内の最後に位置するURL文
字列を格納する格納領域とから構成されている。14は
リーフページ11を参照する際に各リーフページ11を
導くポインタで、参照すべきリーフページ11の格納場
所(アドレス)を示す情報である。
において、取得要求URLは1つ以上の固定サイズのリ
ーフページ11に格納される。また、各リーフページ1
1に対しては当該リーフページに対するポインタ14を
格納する固定サイズのノードページ13がただ一つ存在
する。このノードページ13は1つ以上存在し、複数の
ノードページ13が存在すると、当該ノードページ13
を参照するさらに上位のノードページが作られる。この
最上位のノードページをルートページと呼ぶ。
は、URL文字列に対してB+木インデックスを作成し
たものに相当する。B+木インデックスの探索、挿入、
削除のアルゴリズムは、例えばDonald E.Kn
uth著「The Artof Computer P
rogramming,Volume3,Sortin
g and Searching」(Reading,
Massachusetts:Addison−Wes
ley刊,1973年,ISBN 0−201−038
03−X)に詳しく説明されているものを適用する。
一意に決定できれば十分であり、ソートの基準は必ずし
も文字コードの単純比較に限らない。例えば、URLの
WWWサーバ内識別子は階層的なファイル名に対応して
おり、WWWサーバ内識別子の「/」記号に先行する部
分はディレクトリを表すものと考えることができる。通
常、同じディレクトリ内には関連するファイルやサブデ
ィレクトリを配置し、より一般的な情報は上位のディレ
クトリに格納して下位のディレクトリには詳細な情報を
格納する。
されるディレクトリごとに分割してページ11,13な
どに割り当て、各ディレクトリ階層の深さの順を優先し
て、同一深さのディレクトリ間で文字列順に格納する。
これにより、ディレクトリ階層の浅いURLを先頭近く
に格納することもできる。このようなソート順を採用す
ると、WWWサーバごとに重要性の高いURLから並べ
ることができるようになる。
のWWW情報収集装置の動作を概略的に示すフロー図で
あり、この図に沿ってWWW情報収集装置の動作概要を
説明する。先ず、取得要求URL管理手段3は、既知の
URLを初期URLとして登録する(ステップST
1)。この取得要求URL管理手段3によるURLの登
録手順は後述する。ここで、初期URLとしては、多く
のウェブページをダウンロードするために、多くのリン
クを含むウェブページのURLを指定することが望まし
い。
Wサーバキュー10の状態を調べ、URLの構成要素を
分解して抽出した「WWWサーバ名」に対応する文字列
が格納されていれば、ステップST3の処理に移行し、
格納されておらず空であればステップST11の処理に
移行する(ステップST2)。
管理手段3は、WWWサーバキュー10の先頭のエント
リの内容を読み出し、「WWWサーバ名」を取得する。
次いで、URLインデックス8を探索して、当該「WW
Wサーバ名」に対応するURLがに登録されているか否
かを調べる。このとき、上記URLがURLインデック
ス8に登録されていれば、ステップST5の処理に移行
し、登録されていなければステップST10の処理に移
行する(ステップST4)。ここで、「WWWサーバ
名」が、例えば「www.bbb.co.jp」なる文
字列であると、これに対応するURLは「http:/
/www.bbb.co.jp」で始まる文字列とな
る。即ち、URLを文字列順で配置すると、同一の「W
WWサーバ名」に対応するURLが必ず連続的に配置さ
れることになる。これによる効果としては、URLイン
デックス8ではリーフページ11にURLを文字列順で
格納していることから、例えば「http://ww
w.bbb.co.jp」で始まるURLが、WWWサ
ーバ「www.bbb.co.jp」に対応するURL
であることを容易に探索することができる。従って、U
RLを文字列順で配置することで、URLインデックス
8内に対象とする「WWWサーバ名」に対応するURL
が存在するか否かを効率的に探索することができる。
名」に対応するURLがURLインデックス8に登録さ
れている場合、取得要求URL管理手段3は、当該「W
WWサーバ名」に対応するURLのうち文字列順で登録
された先頭のURLをURLインデックス8から読み出
してダウンロード手段4に送出する。この段階で、当該
URLはURLインデックス8に登録された状態を維持
し、URLインデックス8から削除されない。これは、
以降のダウンロードの最中にWWW情報収集装置1に障
害が発生した場合に、当該URLの取得要求が失われる
のを防ぐためである。よって、ダウンロードが完了した
時点で、当該URLがURLインデックス8から削除さ
れる。
が既取得URL記憶手段5に格納されているか否かを調
べ、当該URLが格納されていないとステップST7の
処理に移行し、格納されているとステップST9の処理
に移行する(ステップST6)。ステップST9におい
て、ダウンロード手段4は、当該URLが取得済みであ
ると判断し、これをURLインデックス8から削除した
後、ステップST4の処理に戻って、上記「WWWサー
バ名」に対応する別のURLを探索する。
ておらず、当該URLが未取得であると判断されると、
ダウンロード手段4は、その旨を取得要求URL管理手
段3に通知して、WWWサーバテーブル9の当該WWW
サーバに対応するエントリの状態を「ダウンロード中」
に変更させる(ステップST7)。
Lのダウンロードを起動し、上記「WWWサーバ名」に
対応するWWWサーバと通信接続してウェブページをダ
ウンロードする(ステップST8)。このあと、WWW
情報収集装置1は、ステップST2の処理に戻って別の
WWWサーバに対するダウンロードを試みる。ここで、
上述したダウンロード動作は、図4に示す動作と並行し
て実行される。このため、ステップST8において、ダ
ウンロード手段4は、先行するURLに対応するウェブ
ページのダウンロード完了を待たない。このような並行
動作は、例えば既存のマルチスレッドの技法によって新
たなスレッドを生成してダウンロードを実行することで
実現される。ダウンロード動作自体の詳細は後述する。
ンデックス8内に当該「WWWサーバ名」に対応するU
RLがなかった場合、取得要求URL管理手段3は、W
WWサーバテーブル9における上記「WWWサーバ名」
に対応するエントリの内容を「休止」に変更する(ステ
ップST10)。このあと、ステップST2の処理に戻
って、別のWWWサーバに対するダウンロードを試み
る。
ーバキュー10に「WWWサーバ名」が格納されていな
かった場合、取得要求URL管理手段3は、WWWサー
バテーブル9中にエントリの内容が「ダウンロード中」
の通信状態に対応する「WWWサーバ名」が存在するか
否かを調べる(ステップST11)。このとき、「ダウ
ンロード中」のエントリが存在する場合、取得要求UR
L管理手段3は、ステップST2に戻ってWWWサーバ
キュー10に他の「WWWサーバ名」が格納されるまで
待機する(待機ループ)。一方、WWWサーバキュー1
0に「WWWサーバ名」が格納されておらず、且つ、W
WWサーバテーブル9に「ダウンロード中」状態のエン
トリが存在しない場合、取得要求URL管理手段3は、
全てのWWWサーバが「休止」状態になったと判断して
動作を終了する。
よる動作を示すフロー図であり、この図に沿ってURL
の登録動作について詳細に説明する。先ず、取得要求U
RL管理手段3は、ダウンロード手段4から登録しよう
とするURLが既取得URL記憶手段5に既に存在して
いるか否かの通知を受ける。このとき、対象とするUR
Lが既取得URL記憶手段5に存在しているとの通知を
受けると、取得要求URL管理手段3は、当該URLが
取得済みであると判断して登録せずに動作を終了する一
方、対象とするURLが存在しない旨の通知である場
合、当該URLが未取得であると判断してステップST
2aの処理に移行する(ステップST1a)。
L管理手段3は、URLインデックス8を検索して当該
URLが存在するか否かを調べる。このとき、URLイ
ンデックス8に存在する場合、当該URLの登録は不要
であるので動作を終了する。一方、当該URLがURL
インデックス8に存在しない場合、取得要求URL管理
手段3は、ステップST3aの処理に進み、URLイン
デックス8への挿入を行う。
URLを構成する文字列から「WWWサーバ名」部分を
取り出し(ステップST4a)、当該「WWWサーバ
名」がWWWサーバテーブル9に登録されているかどう
かを調べる(ステップST5a)。このとき、WWWサ
ーバテーブル9に当該「WWWサーバ名」が既に登録さ
れていると、取得要求URL管理手段3は、直ちにステ
ップST7aの処理に進み、未登録の場合はステップS
T6aの処理に進む。ステップST6aにおいて、取得
要求URL管理手段3は、WWWサーバテーブル9に当
該「WWWサーバ名」とその通信状態の登録を行い、ス
テップST7aの処理に進む。ここで、WWWサーバテ
ーブル9に登録するエントリの内容としては、当該「W
WWサーバ名」と、その通信状態である「休止」が設定
される。
該「WWWサーバ名」に対応するWWWサーバテーブル
9のエントリの通信状態に関する内容を調べ、「休止」
でなければ動作を終了し、通信状態が「休止」であると
ステップST8aの処理に移行する(ステップST7
a)。
L管理手段3は、WWWサーバテーブル9の当該エント
リの通信状態に関する内容を「ダウンロード待ち」に設
定する。このあと、当該「WWWサーバ名」をWWWサ
ーバキュー10の末尾に挿入し、動作を終了する(ステ
ップST9a)。
装置のウェブページの収集動作を示すフロー図であり、
この図に沿ってダウンロード動作の詳細を説明する。先
ず、ダウンロード手段4は、取得要求URL管理手段3
から設定されたダウンロード対象のURLに対応する
「WWWサーバ名」で特定されるWWWサーバのIPア
ドレスを取得する(ステップST1b)。次いで、ダウ
ンロード手段4は、上記WWWサーバとのHTTP接続
を確立し、GET要求を発行する(ステップST2
b)。
ターネット2を介してWWWサーバから上記URLに対
応するウェブページを収集し、これをURLコンテンツ
記憶手段6に格納する(ステップST3b)。このあ
と、ダウンロード手段4は、直ちに当該URLを既取得
URL記憶手段5に格納する(ステップST4b)。こ
れに伴って、取得要求URL管理手段3は、当該URL
をURLインデックス8から削除する(ステップST5
b)。
T5bを不可分の操作として実行することで、当該UR
LはURLインデックス8に存在するか、既取得URL
記憶手段5に存在するかのいずれかの状態になる。つま
り、何らかの障害があってその障害から回復したとき、
ダウンロードすべきウェブページのURLが既取得UR
L記憶手段5に存在する場合、障害発生前にダウンロー
ドが完了していたものと判断され、当該URLがURL
インデックス8から削除される。一方、ダウンロードす
べきウェブページのURLが既取得URL記憶手段5に
存在しない場合、URLインデックス8に存在する当該
URLをダウンロード手段4に設定してダウンロードを
再開する。このようにすることで、何らかの障害により
当該URLのダウンロードが完了しなかった場合、回復
時に当該URLに対応するウェブページの再ダウンロー
ドを行なうことが可能になると共に、当該URLが既取
得URL記憶手段5に存在するにも関わらず、再度ダウ
ンロードされることを防ぐことができる。
ェブページをURLコンテンツ記憶手段6から読み出し
そのHTMLデータからリンク情報を抽出して、1つ以
上のリンクがあればリンク先URLを取得要求URL管
理手段3に送出し登録させる(ステップST6b)。取
得要求URL管理手段3によるURLの登録動作は上記
と同様である。
が連続している場合、ダウンロード手段4は、当該WW
Wサーバに対する次のアクセスまでの間隔が一定時間以
上空くように待機する(ステップST7b)。これに伴
って、取得要求URL管理手段3は、WWWサーバテー
ブル9の当該WWWサーバに対応するエントリの通信状
態に関する内容を「ダウンロード待ち」に変更する(ス
テップST8b)。
当該WWWサーバに対応する「WWWサーバ名」をWW
Wサーバキュー10の末尾に挿入して動作を終了する
(ステップST9b)。上述したように、ダウンロード
手段4によるダウンロード動作は、スレッドなどの並行
処理機構を用いて実現され、他のWWWサーバに対する
ダウンロードとは独立して実行される。例えば、ステッ
プST1bからステップST5bまでの処理を実現する
プログラムや、ステップST7bからステップST9b
までの処理を実現するプログラムをスレッドとし、WW
Wサーバキュー10に格納される複数の「WWWサーバ
名」に対応する処理を並行して実行する。
ば、収集すべき情報に対応する複数のURLをその文字
列順に格納するURLインデックス8と、これらURL
に含まれる「WWWサーバ名」を先入れ先出し順で格納
するWWWサーバキュー10を備え、該WWWサーバキ
ュー10から逐次読み出される複数の「WWWサーバ
名」に対応するURLをURLインデックス8に従って
読み出して、各WWWサーバごとに独立してダウンロー
ドを実行するので、同一WWWサーバに対するアクセス
間隔を制御しつつ、同時に最大限のWWWサーバからダ
ウンロードを実行し収集速度を向上させることができ
る。
の文字列順としてURL文字列中の「/」記号で区切っ
た文字列をページに割り当てて階層化して、いわゆるB
+木を適用したURLインデックス8で管理し、ディレ
クトリの階層の浅いURLを優先して読み出すようにし
たので、収集したHTMLデータからのURLの抽出順
に関わらず、重要なウェブページから順にダウンロード
することができる。
分の操作でダウンロード済URLのURLインデックス
8からの削除と既取得URL記憶手段5への登録を行な
うので、ダウンロード途中で障害が発生しても元の状態
に回復することができる。
要素をICなどの専用のハードウェアを用いて構成して
もよいし、ソフトウェア(WWW情報収集プログラム)
を実行するコンピュータ装置を用いて構成してもよい。
置をコンピュータ装置で具現化した際のハードウェア構
成を示す図である。図において、15は当該コンピュー
タ装置のCPUであって、上述したWWW情報収集装置
1の各構成手段3〜7の機能を実現するWWW情報収集
プログラムを実行する。16はWWW情報収集プログラ
ムや該プログラムの実行に必要なデータを格納するメモ
リであり、取得要求URL管理手段3のWWWサーバテ
ーブル9及びWWWサーバキュー10の機能を有してい
る。17はコンソールインタフェースで、コンソール入
出力装置21と装置1内部の構成部との間の情報送受を
中継する。18はハードディスク装置22に対するアク
セスを中継するディスクインタフェースで、19はイン
ターネット2との接続を中継するネットワークインタフ
ェースである。また、20は装置1の内部バスであっ
て、CPU15、メモリ16、コンソールインタフェー
ス17、ディスクインタフェース18、及び、ネットワ
ークインタフェース19を接続する。21はコンソール
機能を実現するコンソール入出力装置で、装置1の制御
や保守などを行うためのコマンド入力やフレームを表示
する手段を有している。22はハードディスク装置であ
り、既取得URL記憶手段5、URLコンテンツ記憶手
段6、取得要求URL管理手段3のURLインデックス
8の機能を実現する。ハードディスク装置22へのアク
セスを高速化するため、メモリ16の一部をキャッシュ
領域に割り当て、頻繁にアクセスされるデータを常駐さ
せるようにしてもよい。
情報収集プログラムを実行するCPU15は、取得要求
URL管理手段3として機能し、上記実施の形態1と同
様に、既知のURLを初期URLとして、ディスクイン
タフェース18を介してハードディスク装置22に記憶
する。次いで、WWWサーバキュー10として機能する
メモリ16の内容をチェックする。このとき、「WWW
サーバ名」に関する情報が格納されていれば、メモリ1
6に格納された順にそれを読み出す。続いて、CPU1
5は、読み出した「WWWサーバ名」に対応するURL
が、URLインデックス8として機能するハードディス
ク装置22に登録されているか探索する。
がハードディスク装置22に登録されている場合、当該
URLのうち文字列順で登録された先頭の1つを読み出
す。続いて、CPU15は、当該URLがハードディス
ク装置22内の既取得URL記憶手段5として割り当て
られた記憶領域に格納されているかどうか調べる。これ
によって、当該URLが上記記憶領域に格納されている
と、ハードディスク装置22内のURLインデックス8
として割り当てられた記憶領域から削除した後、上記
「WWWサーバ名」に対応する別のURLを探索する。
5として割り当てられた記憶領域に格納されていない場
合、CPU15は、WWWサーバテーブル9として機能
するメモリ16の上記「WWWサーバ名」に対応するエ
ントリの状態を「ダウンロード中」に変更する。次い
で、CPU15は、WWW情報収集プログラム内の通信
プログラムを実行して、ネットワークインタフェース1
9と共にダウンロード手段として機能し、当該URLに
対応するWWWサーバにアクセスして対応するウェブペ
ージがダウンロードされる。このあと、CPU15は、
上記と同様にしてWWWサーバキュー10として機能す
るメモリ16の内容をチェックし、逐次ウェブページの
ダウンロードを実行する。
8及び既取得URL記憶手段5がハードディスク装置2
2を共有し、不可分の操作でダウンロード済URLのU
RLインデックス8からの削除と既取得URL記憶手段
5への登録を行なうことができる。これにより、ダウン
ロード途中で障害が発生しても元の状態に回復すること
ができる。
記実施の形態1で示したURLインデックス8をB+木
の代わりに「WWWサーバ名」をキーとするハッシュを
用いて実現するものである。
要求URL管理手段の構成を示す図である。図におい
て、3aは実施の形態2による取得要求URL管理手段
(URL管理手段)であって、収集すべきウェブページ
のURLをWWWサーバごとに先入れ先出し順で格納
し、これらURLに対応するWWWサーバとの通信状態
を管理すると共に、これらに対応する「WWWサーバ
名」を先入れ先出し順で格納する。8aはURLインデ
ックス(URLインデックス部)で、収集すべき複数の
URLををWWWサーバごとに先入れ先出し順で格納す
る。23はURLキャッシュであって、URL文字列を
キーとする有限サイズのハッシュテーブルである。な
お、図2と同一構成要素には同一符号を付して重複する
説明を省略する。
図である。図において、24は複数のポインタ25を配
列要素とするヘッダであって、「WWWサーバ名」に適
当なハッシュ関数を適用して得られる数値(ハッシュ
値)を配列の項番として1つのポインタ25が選択され
る。ここで、ハッシュ関数は、例えば「WWWサーバ
名」の文字コードの総和をヘッダ24の配列要素数で割
った剰余とすることができる。25は固定サイズを有す
るバケット26の格納場所を指定するポインタで、「W
WWサーバ名」に対応するハッシュ値によって特定され
る。26はポインタ25によって特定されるバケットで
あって、各ハッシュ値に対応するWWWサーバに属する
URL文字列が登録順に格納される。27はバケット2
6の格納領域以上の数のURLを格納する際に複数のバ
ケット26間を連結するあふれポインタである。
異なる「WWWサーバ名」が同一のハッシュ値を持つこ
ともあり、その場合は1つのバケット26に複数のWW
Wサーバに対応するURLが混在することになる。さら
に、同一のハッシュ値に対応するURLが多く、1つの
バケット26では格納領域が不足する場合は、あふれポ
インタ27を用いて複数のバケット26が連結される。
施の形態2と上記実施の形態1とにおいて動作が相違す
る箇所について説明する。上述したように、この実施の
形態2では、URLインデックスの実現方式がB木から
ハッシュに変更されている。このため、上記実施の形態
1によるWWW情報収集装置1の概略的な動作を示す図
4のうち、ステップST4、ステップST5及びステッ
プST9の処理が、URLインデックス8aの特徴に応
じて変更される。具体的には、ステップST4におい
て、取得要求URL管理手段3aは、WWWサーバキュ
ー10の先頭から読み出した「WWWサーバ名」に対応
するURLがURLインデックス8aに存在するか否か
を、当該「WWWサーバ名」にハッシュ関数を適用して
算出したハッシュ値に対応するポインタ25がヘッダ2
4に存在するか否かで判断する。また、ステップST5
やステップST9における処理は、当該「WWWサーバ
名」に対応するハッシュ値で特定されるポインタ25に
よってバケット26を読み出し、適宜URLを探索して
その取り出しや削除が行われる。
収集装置1におけるURLの登録動作の詳細を示す図5
のうち、ステップST2a及びステップST3aの処理
も、当該「WWWサーバ名」にハッシュ関数を適用して
算出したハッシュ値に対応するポインタ25がヘッダ2
4に存在するか否かで判断し、このハッシュ値で特定さ
れるポインタ25によって読み出されるバケット26か
ら適宜URLを探索して取り出しが行われる。
報収集装置1におけるダウンロード動作の詳細を示す図
6のうち、ステップST5bの処理も同様に、当該「W
WWサーバ名」にハッシュ関数を適用して算出したハッ
シュ値で特定されるポインタ25によってバケット26
を読み出し、適宜URLを探索して削除が行われる。
ンデックス8aのバケット26中ではURLが登録順に
格納されている。このため、上記実施の形態1のよう
に、URL文字列をキーとする検索は線形探索が必要と
なって効率的でない。そこで、URLインデックス8a
中のURLの重複を許容して、図5におけるステップS
T2aの処理を取り除いてもよい。この場合も、当該U
RLに関するダウンロードを行うにあたり、図4中のス
テップST6において、既取得URL記憶手段5が参照
されてURLの重複除去が行なわれる。これにより、U
RLインデックス8a中にURLが重複して格納されて
もダウンロード動作には影響を与えない。
URLインデックス8aの代わりにURL文字列をキー
とするハッシュテーブルを用いて重複除去を行なうこと
もできる。
の動作を示すフロー図であり、URLインデックス8a
中のURLの重複を許容した際、図5中のステップST
2aに代わって行われる処理を示している。先ず、取得
要求URL管理手段3aは、上記実施の形態1と同様
に、ダウンロード手段4から登録しようとするURLが
既取得URL記憶手段5に既に存在しているか否かの通
知を受ける。このとき、対象とするURLが既取得UR
L記憶手段5に既に存在しているとの通知であると、取
得要求URL管理手段3aは、当該URLが取得済みで
あると判断して登録せずに動作を終了する一方、対象と
するURLが存在しない旨の通知である場合、当該UR
Lが未取得であると判断してステップST2A−1の処
理に移行する(ステップST1a)。
URL管理手段3aは、URLキャッシュ23を構成す
るURL文字列のハッシュテーブルを検索して、当該U
RLが存在するか否かを調べる。このとき、URLキャ
ッシュ23に存在する場合、当該URLの登録は不要で
あるので動作を終了する。一方、当該URLがURLキ
ャッシュ23に存在しない場合、取得要求URL管理手
段3aは、ステップST2A−2の処理に進み、URL
キャッシュ23に新たなURLを登録する空き領域があ
るか否かを判断する。
RLを保持することはその記憶領域の浪費につながるた
め、登録するURL数に制限を設けて、最近登録された
URLのみを保持するようにする。つまり、ステップS
T2A−2において、取得要求URL管理手段3aは、
URLキャッシュ23に空き領域がないと判断すると、
ステップST2A−3の処理に進んで最も古いURLを
URLキャッシュ23から削除して、URLの格納領域
を確保したあと、ステップST2A−4の処理に進む。
このとき、削除するURLは登録順で選択してもよい
し、LRU(Least Recently Use
d)方式に基づいて参照された順を基準に用いてもよ
い。
得要求URL管理手段3aがURLキャッシュ23に空
き領域があると判断すると、ステップST2A−4の処
理に進んで取得要求URLをURLキャッシュ23に登
録したあと、図5におけるステップST4aの処理に移
行する。
ば、収集すべき複数のURL自体をWWWサーバ毎に先
入れ先出し順で格納するURLインデックス8aと、
「WWWサーバ名」を先入れ先出し順で格納するWWW
サーバキュー10とを備え、該WWWサーバキュー10
から逐次読み出される複数の「WWWサーバ名」に対応
するURLをURLインデックス8aに従って読み出
し、これに対応するWWWサーバとの通信状態を各々管
理しながらダウンロード動作を並行して実行するので、
同一WWWサーバに対するアクセス間隔を制御しつつ、
同時に最大限のWWWサーバからダウンロードを実行し
収集速度を向上させることができる。
成も、上記実施の形態1と同様に、専用のハードウェア
又はWWW情報収集プログラムを実行するコンピュータ
装置を用いて実現することができる。
記実施の形態1のWWWサーバテーブル9に対して特定
の情報を付加し、当該情報に基づいてWWWサーバに対
する優先度を付与してWWWサーバキューへの挿入位置
を決定するものである。
WW情報収集装置のWWWサーバテーブルを示す図であ
る。図において、9aは実施の形態3によるWWWサー
バテーブル(優先度設定テーブル部)であり、WWWサ
ーバごとに、「WWWサーバ名」及びその通信状態に加
えて、URLインデックス8に格納されたURL数を示
す取得要求URL数、既取得URL記憶手段5に格納さ
れたURL数を示す既取得URL数、及び、これらから
算出した優先度を格納する。なお、WWWサーバテーブ
ル9a以外の構成は、上記実施の形態1で示したものと
同一であるものとする。
の形態3の取得要求URL管理手段による動作を示すフ
ロー図であり、この図に示すフローは上記実施の形態1
におけるURLの登録動作の詳細を示す図5のうち、ス
テップST4a以降の処理に置き換わるものである。図
5中のステップST1aからステップST3aまでの処
理が行った後、取得要求URL管理手段3は、取得要求
URLを構成する文字列から「WWWサーバ名」部分を
取り出す(ステップST4a)。続いて、取得要求UR
L管理手段3は、当該URLから取り出した「WWWサ
ーバ名」がWWWサーバテーブル9aに登録されている
か判断し、登録済みであればステップST7Aに進み、
未登録であればステップST6Aに進む(ステップST
5A)。
理手段3によって当該「WWWサーバ名」を設定した新
規のエントリがWWWサーバテーブル9aに追加され、
ステップST7Aに進む。ここで、新規のエントリの各
項目は、通信状態=「休止」、取得要求URL数=既取
得URL数=0に設定される。
Wサーバテーブル9aの当該WWWサーバに対応するエ
ントリの取得要求URL数に1を加える(ステップST
7A)。このあと、取得要求URL管理手段3は、当該
エントリの通信状態に関する内容を調べて「休止」でな
ければステップST10Aの処理に移行し、「休止」で
あればステップST9Aの処理に進む(ステップST8
A)。ステップST9Aでは、取得要求URL管理手段
3によって当該エントリの通信状態に関する内容が「ダ
ウンロード待ち」に設定されたのち、ステップST10
Aの処理に移行する。
RL管理手段3は、当該エントリの通信状態に関する内
容を調べ、「ダウンロード中」であれば処理を終了す
る。一方、「ダウンロード中」でなければ、ステップS
T11Aの処理に進む。ステップST11Aでは、取得
要求URL管理手段3によって当該エントリの優先度が
設定され、当該優先度に基づいてWWWサーバキュー1
0の適切な位置に当該「WWWサーバ名」を挿入あるい
は移動する。
は、例えば(取得要求URL数−既取得URL数)によ
る差分値が大きいものを優先するように設定する。この
場合、新たに発見されたWWWサーバのうち、他のWW
Wサーバから多数参照されているものから優先的にダウ
ンロードすることになる。つまり、取得要求URL数が
多いと、当該WWWサーバに対するリンクが、他のWW
Wサーバが保持する多くのウェブページに含まれてお
り、他のWWWサーバから多数参照されるものと推察す
ることができる。この参照の多さは、そのWWWサーバ
の重要度を反映している。また、既取得URL数が少な
いほど新たなウェブページに対するリンクが発見される
可能性が高いと考えられる。
集装置のウェブページの収集動作を示すフロー図であ
り、この図に沿ってダウンロード動作を説明する。な
お、この図13は、上記実施の形態1におけるダウンロ
ード動作の詳細を示す図6のうちステップST4bとス
テップST5bの間に追加する動作及びステップST9
bに置き換わる動作を示している。ステップST4bに
おいて、ダウンロードしたURLを既取得URL記憶手
段5に格納すると、取得要求URL管理手段3は、WW
Wサーバテーブル9aの当該WWWサーバに対応するエ
ントリの既取得URL数に1を加算する(ステップST
4b−1)。これによって、後述するステップST9B
の処理において、ダウンロードがされるごとにWWWサ
ーバテーブル9aの当該WWWサーバの優先度が動的に
変更される。このあと、ステップST5bの処理に進
み、ステップST8bまで上記実施の形態1と同様の動
作がなされる。
WWWサーバに対応するエントリの通信状態に関する内
容が「ダウンロード待ち」に設定される(ステップST
8b)と、取得要求URL管理手段3は、ステップST
11Aと同様に、当該WWWサーバに対応するエントリ
の取得要求URL数及び既取得URL数に基づいてその
優先度を設定し、当該優先度に基づいてWWWサーバキ
ュー10の適切な位置に(優先度順となるように)当該
「WWWサーバ名」を挿入する(ステップST9B)。
ば、WWWサーバキュー10に対してWWWサーバごと
の取得要求URL数及び既取得URL数に基づいて設定
した優先度順に「WWWサーバ名」を格納するので、同
一WWWサーバに対するアクセス間隔を制御しつつ、重
要なウェブページやリンクを含むWWWサーバに優先的
にアクセスすることができ、収集した情報の質を高める
ことができる。
ーバの優先度が同じ初期値を有する例を示したが、以前
に実施したウェブページ収集完了時の優先度に基づいて
WWWサーバごとに異なる初期優先度を与えるようにし
てもよい。このようにすることで、収集ページが少ない
初期段階においても適切にWWWサーバの優先度設定を
行うことができる。
ンデックスは、上記実施の形態2のURLインデックス
8aを用いてもよい。また、URLキャッシュ23と組
み合わせてもよい。
サーバテーブル9aの取得要求URL数及び既取得UR
L数に基づいて取得要求URLの廃棄を行なうようにし
てもよい。つまり、図5及び図12に示したURLの登
録動作に先立って、取得要求URL管理手段3がWWW
サーバテーブル9aの当該WWWサーバに対応するエン
トリを調べ、取得要求URL数又は既取得URL数が一
定値を越えていたらURLの登録を行なわずにURLを
廃棄する。このようにすることで、WWWサーバごとの
取得要求URL数及び既取得URL数を制限することが
できる。これにより、優先度の低いWWWサーバのUR
L格納に関わる性能や記憶領域のオーバヘッドが除外さ
れて、より効率的に優先度の高いWWWサーバ対するア
クセスを実現することができる。
Wサーバテーブル9aにエラー発生回数を追加し、優先
度の設定や取得要求URLの廃棄に反映させてもよい。
つまり、図6のステップST3bにおいて、WWWサー
バからのダウンロードが正常に完了しなかった際に、図
13のステップST4b−1においてWWWサーバテー
ブルのエラー発生回数も+1加算する。エラー発生回数
は、重み付けして優先度から差し引いたり、一定値を越
えた場合に取得要求URLを廃棄するのに用いられる。
これにより、通信状態が良好でないWWWサーバに繰り
返しアクセスするオーバヘッドが除外されて、より効率
的に正常なWWWサーバに対するアクセスを実現するこ
とができる。
記実施の形態1のURLインデックス8においてURL
を文字列順に格納する代わりに、URLに設定した優先
度順に格納するものである。
WW情報収集装置の構成を示す図である。図において、
1aは実施の形態4によるWWW情報収集装置(情報収
集装置)であって、取得要求URL管理手段3bによっ
て優先度順に管理される取得要求URLを読み出してW
WW上のウェブページを網羅的に収集する。3bは取得
要求URL管理手段(URL管理手段)で、収集すべき
ウェブページのURLをその優先度順に格納し、これら
URLに対応するWWWサーバとの通信状態を管理する
と共に、これらに対応する「WWWサーバ名」を先入れ
先出し順で格納する。28は優先度設定手段であって、
ウェブページから抽出されたリンクのURLに対して優
先度を設定する。
態4によるWWW情報収集装置1aの基本的な動作とし
ては、先ず、ダウンロード手段4がウェブページをダウ
ンロードすると、URLコンテンツ記憶手段6に格納す
る。このあと、リンク抽出手段7は、受信したウェブペ
ージをURLコンテンツ記憶手段6から読み出しそのH
TMLデータからリンク情報を抽出する。
抽出手段7が読み出したウェブページやこれを解析して
抽出したリンク情報に対して、予め与えたキーワードの
出現頻度や他のウェブページからの参照数などに基づい
てウェブページの優先度を設定する。これに続いて、当
該優先度を元に当該ウェブページから抽出されたリンク
のURLに対しても優先度を設定する。これら優先度
は、リンク抽出手段7を介して取得要求URL管理手段
3bに送出されてURLインデックス8bに登録され
る。
する。図15は図14中の取得要求URL管理手段を構
成するURLインデックスを示す図である。図におい
て、8bは実施の形態4によるURLインデックス(U
RLインデックス部)であって、URLが文字列順では
なく、URLの優先度順にソートされ記憶される。11
aは取得要求URLを対応する「WWWサーバ名」と当
該URLの優先度との組み合わせをキーとしてソートし
て格納するリーフページであって、URLに関する情報
の格納領域とポインタ12aとの対で構成される。12
aは複数のリーフページ11aを連結するポインタで、
次に連結すべきリーフページ11aの最初のURL文字
列の格納場所(アドレス)を示す情報である。13aは
リーフページ11aの上位階層を有するノードページで
あって、各リーフページ11aを導くポインタ14aと
参照先のリーフページ11a内の最後に位置するURL
文字列を格納する格納領域とから構成されている。14
aはリーフページ11aを参照する際に各リーフページ
11aを導くポインタで、参照すべきリーフページ11
aの格納場所(アドレス)を示す情報である。
に示すように、取得要求URLに対応するキーは、例え
ば(www.aaa.co.jp(WWWサーバ名),
20(優先度))なる組み合わせで表される。また、リ
ーフページ11aには、上記組み合わせに加えて、元の
URLを復元することができるように、キーに対応する
データとしてURLのWWWサーバ内識別子も格納す
る。
は、取得要求URLを「WWWサーバ名」とその優先度
の組み合わせをキーとして管理する。このため、上記実
施の形態1によるWWW情報収集装置1の概略的な動作
を示す図4のうち、ステップST4、ステップST5及
びステップST9の処理が、URLインデックス8bの
特徴に応じて変更される。具体的には、ステップST4
において、取得要求URL管理手段3bは、WWWサー
バキュー10の先頭から読み出した「WWWサーバ名」
に対応するURLがURLインデックス8bに存在する
か否かを判断するにあたり、当該「WWWサーバ名」と
URLの優先度の組み合わせをキーとしてノードページ
13a、リーフページ11aを探索する。つまり、当該
「WWWサーバ名」に関する上記組み合わせがあるかど
うかで判断する。また、ステップST5における処理で
は、当該「WWWサーバ名」とURLの優先度の組み合
わせのうち最大の優先度を有する組み合わせを順次読み
出し、当該「WWWサーバ名」とWWWサーバ内識別子
とを組み合わせて復元したURLを取り出す。ステップ
ST9における処理では、URLインデックス8bから
当該「WWWサーバ名」に関する上記組み合わせ及びこ
れに対応するWWWサーバ内識別子を削除することで、
当該URLの削除が行われる。
収集装置1におけるURLの登録動作の詳細を示す図5
のうち、ステップST2aの処理も、ノードページ13
a、リーフページ11a内に、当該「WWWサーバ名」
に関する上記組み合わせがあるかどうかで判断する。ま
た、この組み合わせから、当該「WWWサーバ名」を抽
出しWWWサーバ内識別子と組み合わせてURLを復元
して取り出しが行われる。ステップST3aの処理で
は、リーフページ11a内に、当該「WWWサーバ名」
の文字列順に当該URLの優先度と組み合わせて挿入さ
れる。このとき、WWWサーバ内識別子も上記組み合わ
せに関連付けられて格納される。
報収集装置1におけるダウンロード動作の詳細を示す図
6のうち、ステップST5bの処理も、URLインデッ
クス8bから当該「WWWサーバ名」に関する上記組み
合わせ及びこれに対応するWWWサーバ内識別子を削除
することで、当該URLの削除が行われる。
URL文字列をキーとする検索は非効率になる。このた
め、上記実施の形態2と同様に、URLの重複した登録
を防止するためのステップST2aの処理を省略するこ
とができ、また、URLキャッシュ23と組み合わせて
用いることもできる。
ば、収集すべきURLに優先度を設定する優先度設定手
段28と、WWWサーバ毎に優先度順にURLを格納す
るURLインデックス8bとを備えるので、WWWサー
バに対するアクセス間隔を制御しつつ、予め与えたキー
ワードや参照数などに基づいて重要度の高いウェブペー
ジからダウンロードすることができ、収集した情報の質
を高めることができる。
パテキスト情報に含まれるリンク情報を解析して、リン
ク先に対応するURL(Uniform Resour
ceLocator)を抽出し、URLに記述されるリ
ンク先のサーバ装置を特定するサーバ名情報に基づいて
サーバ装置ごとのURLの読み出し順を管理して、サー
バ名情報を用いて読み出したURLに対応するハイパテ
キスト情報を収集するので、同一サーバ装置に対するア
クセス間隔を制御しつつ、同時に複数のサーバ装置から
ハイパテキスト情報の収集を実行することができ、情報
の収集速度を向上させることができるという効果があ
る。
含まれるリンク情報を解析して、リンク先に対応するU
RL(Uniform Resource Locat
or)を抽出し、ハイパテキスト情報の内容及び/又は
他のハイパテキスト情報からの参照数を用いて、URL
ごとに読み出しの優先度を設定し、URLに記述される
リンク先のサーバ装置を特定するサーバ名情報、及び優
先度に基づいてサーバ装置ごとのURLの読み出し順を
管理して、サーバ名情報を用いて読み出したURLに対
応するハイパテキスト情報を収集するので、同一サーバ
装置に対するアクセス間隔を制御しつつ、重要なハイパ
テキスト情報の収集を優先して実行することができ、情
報の質を向上させることができるという効果がある。
情報をその文字列順にページに割り当ててなるB木によ
ってサーバ装置ごとのURLの読み出し順を管理するの
で、単一のインデックスで複数のサーバ装置の各々に対
応するURLを管理することができるという効果があ
る。
さに応じてURLの読み出し順を設定するので、単一の
インデックスで複数のサーバ装置の各々に対応するUR
Lを管理することができると共に、重要な情報を優先的
に収集することができるという効果がある。
するハッシュによってサーバ装置ごとのURLの読み出
し順を管理するので、単一のインデックスで複数のサー
バ装置の各々に対応するURLを管理することができる
という効果がある。
の優先度の組み合わせをページに各々割り当ててなるB
木によってサーバ装置ごとのURLの読み出し順を管理
するので、単一のインデックスで複数のサーバ装置の各
々に対応するURLを管理することができると共に、重
要な情報を優先的に収集することができるという効果が
ある。
収集を複数のサーバ装置との間で並行して実行するの
で、情報の収集速度を向上させることができるという効
果がある。
ト情報数と未収集ハイパテキスト情報数とを用いてサー
バ装置ごとに優先度を設定し、該優先度に応じて各サー
バ名情報の一意な読み出しを管理するので、重要な情報
を有するサーバ装置に優先してアクセスすることができ
るという効果がある。
ト情報数と未収集ハイパテキスト情報数とが所定の閾値
を超えると、新たなURLの格納を行わないので、重要
性の低い情報を管理することによるURLの探索効率の
低下を防ぎ、重要な情報を高速に収集することができる
という効果がある。
収集を完了すると、該ハイパテキスト情報に対応するU
RLを既取得として登録したのち、該URLを削除する
ので、障害の発生により情報収集が完了していないUR
Lに対する取得要求が失われることを防ぐことができる
という効果がある。
予め読み出して格納するURLキャッシュを備えるの
で、URLの重複した登録が防がれ、URLの登録処理
の効率を向上させることができるという効果がある。
集装置の構成を示す図である。
すブロック図である。
る。
に示すフロー図である。
を示すフロー図である。
ェブページの収集動作を示すフロー図である。
装置で具現化した際のハードウェア構成を示す図であ
る。
L管理手段の構成を示す図である。
る。
示すフロー図である。
収集装置のWWWサーバテーブルを示す図である。
よる動作を示すフロー図である。
ウェブページの収集動作を示すフロー図である。
収集装置の構成を示す図である。
するURLインデックスを示す図である。
る。
である。
ページ配置の一例を示す図である。
ブページのダウンロード順とWWWサーバのアクセス順
の一例を示す図である。
インターネット、3,3a,3b 取得要求URL管理
手段(URL管理手段)、4 ダウンロード手段(通信
手段)、5 既取得URL記憶手段(既取得URL登録
手段)、6 URLコンテンツ記憶手段、7 リンク抽
出手段、8,8a,8b URLインデックス(URL
インデックス部)、9 WWWサーバテーブル、9a
WWWサーバテーブル(優先度設定テーブル部)、10
WWWサーバキュー(サーバ名情報記憶手段)、1
1,11a リーフページ、12,12a ポインタ、
13,13a ノードページ、14,14a ポイン
タ、15 CPU、16 メモリ、17 コンソールイ
ンタフェース、18 ディスクインタフェース、19ネ
ットワークインタフェース、20 内部バス、21 コ
ンソール入出力装置、22 ハードディスク装置、23
URLキャッシュ、24 ヘッダ、25 ポインタ、
26 バケット、27 あふれポインタ、28 優先度
設定手段、A〜C WWWサーバ(サーバ装置)。
Claims (18)
- 【請求項1】 ハイパテキスト情報に含まれるリンク情
報を解析して、リンク先に対応するURL(Unifo
rm Resource Locator)を抽出する
リンク抽出手段と、 該リンク抽出手段が抽出した上記URLを格納すると共
に、該URLに記述されるリンク先のサーバ装置を特定
するサーバ名情報に基づいて、上記サーバ装置ごとのU
RLの読み出し順を管理するURL管理手段と、 該URL管理手段から読み出された上記URLに対応す
る上記ハイパテキスト情報を収集する通信手段とを備え
た情報収集装置。 - 【請求項2】 ハイパテキスト情報に含まれるリンク情
報を解析して、リンク先に対応するURL(Unifo
rm Resource Locator)を抽出する
リンク抽出手段と、 ハイパテキスト情報の内容及び/又は他のハイパテキス
ト情報からの参照数を用いて、URLごとに読み出しの
優先度を設定する優先度設定手段と、 該リンク抽出手段が抽出した上記URLを格納すると共
に、該URLに記述されるリンク先のサーバ装置を特定
するサーバ名情報、及び上記優先度設定手段が設定した
優先度に基づいて、上記サーバ装置ごとのURLの読み
出し順を管理するURL管理手段と、 該URL管理手段から読み出された上記URLに対応す
る上記ハイパテキスト情報を収集する通信手段とを備え
た情報収集装置。 - 【請求項3】 URL管理手段は、URLに記述される
各情報をその文字列順にページに割り当ててなるB木に
よって、読み出すべきURLを検索するURLインデッ
クス部と、サーバ名情報を格納すると共に、各サーバ名
情報の一意な読み出しを管理するサーバ名情報記憶手段
とを備えることを特徴とする請求項1記載の情報収集装
置。 - 【請求項4】 URLインデックス部は、ディレクトリ
階層の深さに応じてURLの読み出し順を設定すること
を特徴とする請求項3記載の情報収集装置。 - 【請求項5】 URL管理手段は、サーバ名情報をキー
とするハッシュによって読み出すべきURLを検索する
URLインデックス部と、上記サーバ名情報を格納する
と共に、各サーバ名情報の一意な読み出しを管理するサ
ーバ名情報記憶手段とを備えることを特徴とする請求項
1記載の情報収集装置。 - 【請求項6】 URL管理手段は、サーバ名情報とUR
Lの優先度の組み合わせをページに各々割り当ててなる
B木によって、読み出すべきURLを検索するURLイ
ンデックス部と、上記サーバ名情報を格納すると共に、
各サーバ名情報の一意な読み出しを管理するサーバ名情
報記憶手段とを備えることを特徴とする請求項2記載の
情報収集装置。 - 【請求項7】 URL管理手段は、複数のサーバ装置に
対応するURLを逐次読み出してゆき、 通信手段は、上記URLに対応するハイパテキスト情報
の収集を上記複数のサーバ装置との間で並行して実行す
ることを特徴とする請求項1から請求項6のうちのいず
れか1項記載の情報収集装置。 - 【請求項8】 URL管理手段は、収集済みハイパテキ
スト情報数と未収集ハイパテキスト情報数とを用いてサ
ーバ装置ごとに優先度を設定する優先度設定テーブル部
と、サーバ名情報を格納すると共に、上記優先度設定テ
ーブル部に設定された優先度に応じて各サーバ名情報の
一意な読み出しを管理するサーバ名情報記憶手段とを備
えることを特徴とする請求項1から請求項7のうちのい
ずれか1項記載の情報収集装置。 - 【請求項9】 URL管理手段は、収集済みハイパテキ
スト情報数と未収集ハイパテキスト情報数とが所定の閾
値を超えると、新たなURLの格納を行わないことを特
徴とする請求項1から請求項8のうちのいずれか1項記
載の情報収集装置。 - 【請求項10】 収集済みハイパテキスト情報のURL
を登録する既取得URL登録手段を備え、 URL管理手段は、通信手段がハイパテキスト情報の収
集を完了すると、該ハイパテキスト情報に対応するUR
Lを上記既取得URL登録手段に登録したのち、該UR
Lを削除することを特徴とする請求項1から請求項9の
うちのいずれか1項記載の情報収集装置。 - 【請求項11】 URL管理手段は、読み出すべきUR
Lを予め読み出して格納するURLキャッシュを備えた
ことを特徴とする請求項5又は請求項6記載の情報収集
装置。 - 【請求項12】 ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するURL(Unif
orm Resource Locator)を抽出す
るリンク抽出ステップと、 上記URLに記述されるリンク先のサーバ装置を特定す
るサーバ名情報に基づいて、上記サーバ装置ごとのUR
Lの読み出し順を管理するURL管理ステップと、 上記サーバ名情報を用いて読み出されたURLに対応す
る上記ハイパテキスト情報を収集する情報収集ステップ
とを備えた情報収集方法。 - 【請求項13】 ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するURL(Unif
orm Resource Locator)を抽出す
るリンク抽出ステップと、 ハイパテキスト情報の内容及び/又は他のハイパテキス
ト情報からの参照数を用いて、URLごとに読み出しの
優先度を設定する優先度設定ステップと、 上記URLに記述されるリンク先のサーバ装置を特定す
るサーバ名情報、及び上記優先度設定ステップにて設定
した優先度に基づいて、上記サーバ装置ごとのURLの
読み出し順を管理するURL管理ステップと、 上記サーバ名情報を用いて読み出されたURLに対応す
る上記ハイパテキスト情報を収集する情報収集ステップ
とを備えた情報収集方法。 - 【請求項14】 URL管理ステップにて、URLに記
述される各情報をその文字列順にページに割り当ててな
るB木によって、サーバ装置ごとのURLの読み出し順
を管理することを特徴とする請求項12記載の情報収集
方法。 - 【請求項15】 URL管理ステップにて、サーバ名情
報をキーとするハッシュによってサーバ装置ごとのUR
Lの読み出し順を管理することを特徴とする請求項12
記載の情報収集方法。 - 【請求項16】 URL管理ステップにて、サーバ名情
報とURLの優先度の組み合わせをページに各々割り当
ててなるB木によって、サーバ装置ごとのURLの読み
出し順を管理することを特徴とする請求項13記載の情
報収集方法。 - 【請求項17】 ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するURL(Unif
orm Resource Locator)を抽出す
るリンク抽出手段、 該リンク抽出手段が抽出した上記URLを格納すると共
に、該URLに記述されるリンク先のサーバ装置を特定
するサーバ名情報に基づいて、上記サーバ装置ごとのU
RLの読み出し順を管理するURL管理手段、 該URL管理手段から読み出された上記URLに対応す
る上記ハイパテキスト情報を収集する通信手段としてコ
ンピュータを機能させるためのプログラム。 - 【請求項18】 ハイパテキスト情報に含まれるリンク
情報を解析して、リンク先に対応するURL(Unif
orm Resource Locator)を抽出す
るリンク抽出手段、 ハイパテキスト情報の内容及び/又は他のハイパテキス
ト情報からの参照数を用いて、URLごとに読み出しの
優先度を設定する優先度設定手段、 該リンク抽出手段が抽出した上記URLを格納すると共
に、該URLに記述されるリンク先のサーバ装置を特定
するサーバ名情報、及び上記優先度設定手段が設定した
優先度に基づいて、上記サーバ装置ごとのURLの読み
出し順を管理するURL管理手段、 該URL管理手段から読み出された上記URLに対応す
る上記ハイパテキスト情報を収集する通信手段としてコ
ンピュータを機能させるためのプログラム
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076651A JP4808357B2 (ja) | 2002-03-19 | 2002-03-19 | 情報収集装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076651A JP4808357B2 (ja) | 2002-03-19 | 2002-03-19 | 情報収集装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003271670A true JP2003271670A (ja) | 2003-09-26 |
JP4808357B2 JP4808357B2 (ja) | 2011-11-02 |
Family
ID=29205353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002076651A Expired - Lifetime JP4808357B2 (ja) | 2002-03-19 | 2002-03-19 | 情報収集装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4808357B2 (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006008919A1 (ja) * | 2004-07-16 | 2006-01-26 | The University Of Tokyo | 情報処理装置およびプログラム |
JP2006235729A (ja) * | 2005-02-22 | 2006-09-07 | Mitsubishi Electric Corp | 選択的Web情報収集装置 |
JP2007122450A (ja) * | 2005-10-28 | 2007-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 自動情報取得装置および自動情報取得方法 |
JP2007241819A (ja) * | 2006-03-10 | 2007-09-20 | Sharp Corp | 端末装置およびコンテンツ受信方法 |
WO2007105759A1 (ja) * | 2006-03-15 | 2007-09-20 | Osaka Industrial Promotion Organization | 数式記述構造化言語オブジェクト検索システムおよび検索方法 |
JP2007241378A (ja) * | 2006-03-06 | 2007-09-20 | Data Henkan Kenkyusho:Kk | 検索装置及びそのプログラム |
JP2007308567A (ja) * | 2006-05-17 | 2007-11-29 | Nippon Oil Corp | 水素化精製方法及び環境低負荷型ガソリン基材 |
JP2009282593A (ja) * | 2008-05-20 | 2009-12-03 | Yahoo Japan Corp | コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム |
JP2010514026A (ja) * | 2006-12-19 | 2010-04-30 | モールドテック オントウェルペン ベスローテン フェンノートシャップ | ウェブページの分類とそのコンテンツの整理をするための方法 |
KR100993818B1 (ko) | 2009-02-18 | 2010-11-12 | 고려대학교 산학협력단 | 웹 크롤링 시스템 및 그 방법 |
JP2012256095A (ja) * | 2011-06-07 | 2012-12-27 | Yahoo Japan Corp | クロールサーバ及び方法 |
KR101244357B1 (ko) * | 2011-08-11 | 2013-03-18 | 한국과학기술정보연구원 | 웹 자원 아카이빙을 위한 장치 및 방법 |
WO2014034002A1 (ja) * | 2012-08-31 | 2014-03-06 | パナソニック株式会社 | ウェブページキャッシュ装置、ウェブページキャッシュ方法、プログラム、及び集積回路 |
CN111782914A (zh) * | 2020-06-22 | 2020-10-16 | 杭州迪普科技股份有限公司 | 一种Web服务器防护方法、装置和网络设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000076264A (ja) * | 1998-08-28 | 2000-03-14 | Nec Corp | インターネット情報探索システムと方法 |
-
2002
- 2002-03-19 JP JP2002076651A patent/JP4808357B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000076264A (ja) * | 1998-08-28 | 2000-03-14 | Nec Corp | インターネット情報探索システムと方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006008919A1 (ja) * | 2004-07-16 | 2006-01-26 | The University Of Tokyo | 情報処理装置およびプログラム |
JP4718205B2 (ja) * | 2005-02-22 | 2011-07-06 | 三菱電機株式会社 | 選択的Web情報収集装置 |
JP2006235729A (ja) * | 2005-02-22 | 2006-09-07 | Mitsubishi Electric Corp | 選択的Web情報収集装置 |
JP2007122450A (ja) * | 2005-10-28 | 2007-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 自動情報取得装置および自動情報取得方法 |
JP2007241378A (ja) * | 2006-03-06 | 2007-09-20 | Data Henkan Kenkyusho:Kk | 検索装置及びそのプログラム |
JP2007241819A (ja) * | 2006-03-10 | 2007-09-20 | Sharp Corp | 端末装置およびコンテンツ受信方法 |
WO2007105759A1 (ja) * | 2006-03-15 | 2007-09-20 | Osaka Industrial Promotion Organization | 数式記述構造化言語オブジェクト検索システムおよび検索方法 |
JP4956757B2 (ja) * | 2006-03-15 | 2012-06-20 | 国立大学法人大阪大学 | 数式記述構造化言語オブジェクト検索システムおよび検索方法 |
JP2007308567A (ja) * | 2006-05-17 | 2007-11-29 | Nippon Oil Corp | 水素化精製方法及び環境低負荷型ガソリン基材 |
JP2010514026A (ja) * | 2006-12-19 | 2010-04-30 | モールドテック オントウェルペン ベスローテン フェンノートシャップ | ウェブページの分類とそのコンテンツの整理をするための方法 |
KR101506354B1 (ko) | 2006-12-19 | 2015-03-30 | 모올드텍 온트베르펜 비.브이. | 웹 페이지의 분류 및 대응 콘텐트의 조직화 방법 |
JP2009282593A (ja) * | 2008-05-20 | 2009-12-03 | Yahoo Japan Corp | コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム |
KR100993818B1 (ko) | 2009-02-18 | 2010-11-12 | 고려대학교 산학협력단 | 웹 크롤링 시스템 및 그 방법 |
JP2012256095A (ja) * | 2011-06-07 | 2012-12-27 | Yahoo Japan Corp | クロールサーバ及び方法 |
KR101244357B1 (ko) * | 2011-08-11 | 2013-03-18 | 한국과학기술정보연구원 | 웹 자원 아카이빙을 위한 장치 및 방법 |
WO2014034002A1 (ja) * | 2012-08-31 | 2014-03-06 | パナソニック株式会社 | ウェブページキャッシュ装置、ウェブページキャッシュ方法、プログラム、及び集積回路 |
CN111782914A (zh) * | 2020-06-22 | 2020-10-16 | 杭州迪普科技股份有限公司 | 一种Web服务器防护方法、装置和网络设备 |
CN111782914B (zh) * | 2020-06-22 | 2023-05-26 | 杭州迪普科技股份有限公司 | 一种Web服务器防护方法、装置和网络设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4808357B2 (ja) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3160719B2 (ja) | コンピュータのネットワークからワールドワイドウェッブ上のページを捜し出したり、ドキュメントを捜し出したりするためのシステム及び方法 | |
Najork et al. | High-performance web crawling | |
US6754799B2 (en) | System and method for indexing and retrieving cached objects | |
US8266134B1 (en) | Distributed crawling of hyperlinked documents | |
JP4808357B2 (ja) | 情報収集装置 | |
JP4832061B2 (ja) | コンテンツ収集装置およびコンテンツ収集システム | |
JP4795258B2 (ja) | Webページ再収集方式 | |
JP2002132832A (ja) | 画像検索方法及び画像検索エンジン装置 | |
EP0898754B1 (en) | Information retrieval in cache database | |
WO2006043274A2 (en) | Method and system for accelerating downloading of web pages. | |
US20150106335A1 (en) | Hierarchical data archiving | |
CN110889023A (zh) | 一种elasticsearch的分布式多功能搜索引擎 | |
CN113656673A (zh) | 面向广告投放的主从分布内容爬取机器人 | |
US9886446B1 (en) | Inverted index for text searching within deduplication backup system | |
JP4718205B2 (ja) | 選択的Web情報収集装置 | |
CN108446076A (zh) | 基于网络摘要数据的索引创建方法和系统 | |
EP2738696A1 (en) | Methods for providing web search suggestions and devices thereof | |
CN115248887A (zh) | 一种基于流式下载的爬虫方法 | |
JP4259858B2 (ja) | Wwwサイト履歴検索装置及び方法並びにプログラム | |
KR101117171B1 (ko) | 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
CN109992707A (zh) | 一种数据爬取方法、装置、存储介质及服务器 | |
JP3725835B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP2002091825A (ja) | ネットワークキャッシュ装置およびネットワークキャッシュ制御方法および記録媒体 | |
JP2001325280A (ja) | データベース検索システム | |
Amin et al. | WEBTracker: a web crawler for maximizing bandwidth utilization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080707 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081201 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090106 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110817 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4808357 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |