JP2006235729A

JP2006235729A - 選択的Ｗｅｂ情報収集装置

Info

Publication number: JP2006235729A
Application number: JP2005045784A
Authority: JP
Inventors: Takayuki Tamura; 孝之田村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-02-22
Filing date: 2005-02-22
Publication date: 2006-09-07
Anticipated expiration: 2025-02-22
Also published as: JP4718205B2

Abstract

【課題】高関連度のＷｅｂページからリンクされた低関連度のＷｅｂページが高い収集優先度を設定されることを防ぎ、大規模な選択的Ｗｅｂ情報収集の効率的な実現を可能にする選択的Ｗｅｂ情報収集装置を得る。
【解決手段】取得ＵＲＬ記憶部１に記憶された取得ＵＲＬキューから収集優先度の順位にしたがってＵＲＬを取り出し、Ｗｅｂページの内容と収集対象との関連度を含む関連度テーブルを生成する関連度計算手段２、４と、関連度計算手段２、４でダウンロードされたＷｅｂページ内に含まれるリンク先ＵＲＬを取り出して仮優先度を設定し、関連度テーブルおよび仮優先度に基づいてリンク先ＵＲＬの収集優先度を設定し、設定した収集優先度にしたがって、収集すべきＷｅｂページの新たなＵＲＬとしてリンク先ＵＲＬを取得ＵＲＬキューに挿入する優先度設定手段６、７とを備える。
【選択図】図１

Description

本発明は、ネットワークを介して所望の情報を収集する技術に関し、特にインターネット上で提供されているＷｅｂページを検索してＷｅｂページ内のリンク先のＵＲＬ（Uniform Resource Locator）を辿りながら収集対象に関連する情報の収集を行う選択的Ｗｅｂ情報収集装置に関する。

インターネットの検索エンジンサービスでは、既知のＷｅｂページのリンク先ページを再帰的に収集（クロール）することで網羅的にＷｅｂ情報を収集し、検索索引の維持を図っている。しかしながら、Ｗｅｂ情報を完全に網羅し、検索索引と実際のＷｅｂ情報との不整合を防ぐことは、大手の検索エンジンにとっても難しいため、利用者側で必要な情報（収集対象）に限って網羅的・高頻度のクロールを行なう、フォーカストクローリングなどの技術が提案されている。

従来のフォーカストクローリング方式では、収集したＷｅｂページの内容、すなわち単語の出現頻度などに基づいて当該ページと収集対象との関連度を計算し、それに応じて当該ページのリンク先に対する収集優先度（重要度）を設定する（例えば、特許文献１および特許文献２参照）。特許文献１では、さらに、同一ページ内のリンクに対し、リンクの出現位置や文書の構造に応じて重要度を変える方式も記載されている。これらの重要度設定により、トピックとの関連度が高いＷｅｂページを早期に、かつ、より多く収集することが可能になる。

特開２００４−５４６３１号公報（第１頁、図２）米国特許第６，４１８，４３３号明細書Ｆｉｇ．２

しかしながら、従来技術には次のような課題がある。従来のフォーカストクローリング方式において、不要な情報収集を防ぐには、トピック関連度が低いページのリンク先に対して低い収集優先度を設定することを行っており、本質的に一定量の低関連度ページを収集してしまうことを避けられない。

しかし、例えば「日本語で記述されたページ全体」のように、選択的ながらも大規模なＷｅｂ情報を収集しようとする場合、低関連度のページ、即ち非日本語ページの絶対数が大きくなるため、ネットワークやストレージのリソースの浪費が無視できなくなる。そのため、必要以上のハードウェア投資を行なうか、収集規模を妥協して早期にクロールを打ち切るなど、不利益を伴う対策を取る必要が生じる。

本発明は上述のような課題を解決するためになされたもので、高関連度のＷｅｂページからリンクされた低関連度のＷｅｂページが高い収集優先度を設定されることを防ぎ、大規模な選択的Ｗｅｂ情報収集の効率的な実現を可能にする選択的Ｗｅｂ情報収集装置を得ることを目的とする。

本発明に係る選択的Ｗｅｂ情報収集装置は、収集すべきＷｅｂページのＵＲＬが収集優先度の順位にしたがって並べられた取得ＵＲＬキューを記憶する取得ＵＲＬ記憶部と、Ｗｅｂページの内容と収集対象との関連度と、Ｗｅｂサーバ名とを関連づけた関連度テーブルを記憶する関連度記憶部と、取得ＵＲＬキューから収集優先度の順位にしたがってＵＲＬを取り出し、ＵＲＬによりダウンロードしたＷｅｂページの内容に基づいて関連度を求めて関連度テーブルを生成し、生成した関連度テーブルを関連度記憶部に記憶させる関連度計算手段と、関連度計算手段でダウンロードされたＷｅｂページ内に含まれるリンク先ＵＲＬを取り出し、取り出したリンク先ＵＲＬに含まれる情報およびＷｅｂページ内に含まれる情報からリンク先ＵＲＬの仮優先度を設定し、関連度テーブルおよび仮優先度に基づいてリンク先ＵＲＬの収集優先度を設定し、設定した収集優先度にしたがって、収集すべきＷｅｂページの新たなＵＲＬとしてリンク先ＵＲＬを取得ＵＲＬキューに挿入する優先度設定手段とを備えるものである。

本発明によれば、Ｗｅｂページの関連度と、取り出したリンク先ＵＲＬに含まれる情報およびＷｅｂページ内に含まれる情報から設定されるリンク先ＵＲＬの仮優先度とに基づいてリンク先ＵＲＬの収集優先度を設定することにより、高関連度のＷｅｂページからリンクされた低関連度のＷｅｂページが高い収集優先度を設定されることを防ぎ、大規模な選択的Ｗｅｂ情報収集の効率的な実現を可能にする選択的Ｗｅｂ情報収集装置を得ることができる。

以下、本発明の選択的Ｗｅｂ情報収集装置の好適な実施の形態につき図面を用いて説明する。
本発明の選択的Ｗｅｂ情報収集装置は、Ｗｅｂページ内のリンク先ＵＲＬの収集優先度を、元のＷｅｂページの関連度とリンク先ＵＲＬの仮優先度とに基づいて算出することにより、所望の収集対象に関連する情報を効率的に収集できる特徴を備えた選択的Ｗｅｂ情報収集装置に関するものである。

なお、以下の実施の形態においては、日本語で記述されたＷｅｂページを検索する場合を中心に説明する。しかしながら、本発明の選択的Ｗｅｂ情報収集装置は、日本語対応に限定されるものではなく、関連度の算出方法に応じて種々の適用が可能となる。

実施の形態１．
図１は、本発明の実施の形態１における選択的Ｗｅｂ情報収集装置の構成図である。図１において、取得ＵＲＬ記憶部１は、収集すべきＷｅｂページのＵＲＬが収集優先度の順位にしたがって並べられた取得ＵＲＬキューを記憶する記憶部である。なお、以下の実施の形態においては、収集優先度の数値が小さいものほど優先度（重要度）が高く、収集優先度の数値が大きいものほど優先度（重要度）が低いことを示している。

取得ＵＲＬキューから取り出されたＵＲＬの内容は、Ｗｅｂページダウンロード手段２によってインターネット９からダウンロードされ、Ｗｅｂページ記憶部３に格納される。また、Ｗｅｂページ関連度計算手段４は、ダウンロードされたＷｅｂページが日本語で記述されているかどうかを判定して関連度テーブルを生成して、関連度記憶部５に格納する。

次に、リンク抽出手段６は、ダウンロードされたＷｅｂページの中を解析して、Ｗｅｂページに含まれているリンク先ＵＲＬを取り出す。さらに、リンク抽出手段６は、取り出したリンク先ＵＲＬに対して仮優先度を求める。そして、リンク先ＵＲＬ優先度設定手段７は、取り出されたリンク先ＵＲＬに対して関連度記憶部５に格納された関連度テーブルの情報と仮優先度とに基づいて収集優先度を設定し、設定した収集優先度にしたがってリンク先ＵＲＬを取得ＵＲＬ記憶部１内の取得ＵＲＬキューに挿入する。

さらに、リンク先ＵＲＬ優先度設定手段７は、挿入したリンク先ＵＲＬの情報をＵＲＬ状態記憶部８に記憶させる。リンク先ＵＲＬ優先度設定手段７は、リンク先ＵＲＬの挿入を行う際に、このＵＲＬ状態記憶部８に記憶された情報を参照することにより、複数のＷｅｂページに含まれる同一のリンク先ＵＲＬを重複して挿入することを防止できる。

上述の１から８の構成要素は、ネットワークインタフェースと記憶装置を備えた一般的なコンピュータで実現することができる。また、Ｗｅｂページダウンロード手段２とＷｅｂページ関連度計算手段４とを合わせたものが関連度計算手段に相当し、リンク抽出手段６とリンク先ＵＲＬ優先度設定手段７とを合わせたものが優先度設定手段に相当する。

次に動作について説明する。
取得ＵＲＬ記憶部１内の取得ＵＲＬキューは、優先順位付きのキューとしてＵＲＬが並べられている。これにより、Ｗｅｂページダウンロード手段２は、収集優先度の高いＵＲＬから順番に取り出すことができる。Ｗｅｂページダウンロード手段２は、ＨＴＴＰなど公知の通信規約に基づいて実現できる。

Ｗｅｂページ関連度計算手段４は、ＨＴＴＰサーバからの応答情報、Ｗｅｂページ内のＭＥＴＡタグ情報、またはＷｅｂページの文字コードの使用頻度統計に基づいてＷｅｂページの記述文字コードセットを判定し、Ｗｅｂページ毎に関連度の分類を行う。具体的には、Ｗｅｂページ関連度計算手段４は、Ｗｅｂページの記述文字コードセットが日本語文字コードセット（７ビットＪＩＳ（ＩＳＯ−２０２２−ＪＰなど）、ＥＵＣ−ＪＰ、Ｓｈｉｆｔ＿ＪＩＳ）のいずれかで記述されていれば、高関連度ページに分類し、そうでなければ低関連度ページに分類し、関連度テーブルを作成する。

ユニコードやＵＴＦなど言語独立な文字コードセットが用いられている場合には、Ｗｅｂページ関連度計算手段４は、上記日本語文字コードセットに対応しない文字の数に応じて日本語かどうかを判定することができる。ここで、Ｗｅｂページの記述文字コードの判定は、Ｗｅｂブラウザソフトウェアが備える機能であり、公知の技術を用いて実現することができる。

なお、Ｗｅｂページ関連度計算手段４は、収集の目的に応じて異なる計算方法を取ることができる。例えば、ロシア語Ｗｅｂページの収集が目的であれば、Ｗｅｂページ関連度計算手段４は、ロシア語文字コードセットの判定を行い、あらかじめ与えられた文書に類似するＷｅｂページの収集が目的であれば、単語の出現頻度に基づいて関連度を求めることにより、一定以上の関連度のページを高関連度ページと判断し、それ以外を低関連度ページと判定すればよい。

図２は、本発明の実施の形態１における関連度記憶部５に格納される関連度テーブルのデータ構造を示す図である。図２における関連度テーブルであるＷｅｂサーバ関連度テーブル２０は、Ｗｅｂサーバ毎に、Ｗｅｂサーバ名２１と関連づけて、Ｗｅｂページ関連度計算手段４により判定された当該サーバからダウンロードした高関連度ページ数２２および低関連度ページ数２３を格納している。Ｗｅｂサーバ関連度テーブル２０は、例えば、主記憶装置上あるいは二次記憶装置上のハッシュテーブルとして実現することができ、新たなＷｅｂサーバからダウンロードを行なう都度、動的にエントリを追加する。

次に、リンク抽出手段６がＷｅｂページを解析してリンク先ＵＲＬを取り出した後に、そのリンク先ＵＲＬに仮優先度を設定する方法を説明する。図３は、本発明の実施の形態１における仮優先度設定処理のフローチャートである。ステップＳ３０１において、リンク先ＵＲＬ優先度設定手段７は、取り出したリンク先ＵＲＬのリンク元のＷｅｂページが日本語で記述されているかどうかを判定する。日本語で記述されていない場合は、ステップＳ３０４に進み、リンク先ＵＲＬ優先度設定手段７は、取り出したリンク先ＵＲＬに仮優先度として最低値の３を設定する。

リンク元Ｗｅｂページが日本語で記述されている場合には、ステップＳ３０２において、リンク先ＵＲＬ優先度設定手段７は、リンクのアンカー文字列、すなわちＨＴＭＬの＜Ａ＞と＜／Ａ＞などのタグで囲まれた部分が日本語で記述されているかどうかを判定する。アンカー文字列が日本語で記述されている場合には、ステップＳ３０６において、リンク先ＵＲＬ優先度設定手段７は、取り出したリンク先ＵＲＬに最高の仮優先度１を設定する。

アンカー文字列が日本語で記述されていない場合には、次にステップＳ３０３において、リンク先ＵＲＬ優先度設定手段７は、アンカー文字列がＵＲＬ文字列として解釈できるかどうかを判定する。アンカー文字列がＵＲＬ文字列として解釈できる場合には、ステップＳ３０６において、リンク先ＵＲＬ優先度設定手段７は、取り出したリンク先ＵＲＬに最高の仮優先度１を設定する。

アンカー文字列がＵＲＬ文字列でも日本語でもない場合には、ステップＳ３０５において、リンク先ＵＲＬ優先度設定手段７は、取り出したリンク先ＵＲＬに仮優先度として中位の２を設定する。上述したステップＳ３０３の処理は、日本語ページから海外のＷｅｂページをリンクしている可能性が高い場合に、優先度を下げることが目的である。

図４は、本発明の実施の形態１におけるＵＲＬ状態記憶部８に格納される既知ＵＲＬテーブル４０のデータ構造を示す図である。既知ＵＲＬテーブル４０は、リンク先ＵＲＬ毎に、対応するＵＲＬ識別子４１を格納している。この既知ＵＲＬテーブル４０は、リンク先ＵＲＬ優先度設定手段７が取得ＵＲＬ記憶部１内の取得ＵＲＬキューにリンク先ＵＲＬを挿入する毎に、そのＵＲＬ識別子４１を書き込むことができる。したがって、この既知ＵＲＬテーブル４０は、すでに取得ＵＲＬキューに挿入済みのリンク先ＵＲＬの一覧表に相当する。

ＵＲＬ識別子４１は、ＵＲＬ毎に一意であれば十分であり、ＵＲＬ文字列の代わりにＵＲＬ文字列の十分長い（例えば６４ビット）ＣＲＣチェックサムなどを用いてもよい。既知ＵＲＬテーブル４０は、Ｗｅｂサーバ関連度テーブル２０と同様に主記憶装置上あるいは二次記憶装置上のハッシュテーブルとして実現することができる。

次に、リンク先ＵＲＬ優先度設定手段７の動作を説明する。図５は、本発明の実施の形態１におけるリンク先ＵＲＬ優先度設定手段７による処理のフローチャートである。まず、ステップＳ５０１において、リンク先ＵＲＬ優先度設定手段７は、後述する方法に従って、リンク抽出手段６により設定されたリンク先ＵＲＬの仮優先度と、関連度記憶部５に記憶されたＷｅｂサーバ関連度テーブル２０とに基づいてＵＲＬの収集優先度を計算する。

次に、ステップＳ５０２において、リンク先ＵＲＬ優先度設定手段７は、計算した収集優先度の値が定数Ｊと等しいかまたはＪより大きい場合には、処理を終了する。これは、低関連度と予測されるＷｅｂページのＵＲＬを棄却するために行なう処理である。

次に、ステップＳ５０３において、リンク先ＵＲＬ優先度設定手段７は、既知ＵＲＬテーブル４０に当該ＵＲＬが既に登録されているかどうかを判定し、登録済みであれば処理を終了する。これは、同一ＵＲＬの再収集を防ぐための処理である。当該ＵＲＬが未登録であれば、ステップＳ５０４に進み、リンク先ＵＲＬ優先度設定手段７は、既知ＵＲＬテーブル４０に新たなエントリを挿入する。さらに、リンク先ＵＲＬ優先度設定手段７は、当該ＵＲＬをステップＳ５０１で求めた収集優先度で取得ＵＲＬ記憶部１内の取得ＵＲＬキューに挿入する。

次に、図５のステップＳ５０１におけるＵＲＬ収集優先度計算の動作の詳細を説明する。図６は、本発明の実施の形態１におけるＵＲＬ収集優先度計算処理のフローチャートである。まず、ステップＳ６０１において、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬのサーバ名部分が“ｊｐ”や“ｊａ”など日本を表す文字列を含むかどうかを判定し、含まれる場合には、ステップＳ６０５において、リンク抽出手段６が図３の動作に基づいてすでに設定した仮優先度の値を収集優先度の値とする。なお、このような文字列の情報は、図１には図示されていないが、リンク先ＵＲＬ優先度設定手段７の有している記憶部にあらかじめ設定されているものである。

ステップＳ６０５の処理は、当該サーバを日本語Ｗｅｂ情報収集の目的に対して高関連度サーバと判定することに相当する。異なる言語や国のＷｅｂ情報を選択的に収集する場合には、判定に用いる文字列を目的に合わせて変更する。適切な文字列が存在しない収集目的に対しては、リンク先ＵＲＬ優先度設定手段７は、ステップＳ６０１の処理を省略することができる。

ステップＳ６０１の条件が不成立の場合には、ステップＳ６０２において、リンク先ＵＲＬ優先度設定手段７は、Ｗｅｂサーバ関連度テーブル２０の情報に基づいて当該サーバの関連度を判定する。当該サーバの高関連度ページ数２２が０より大きい場合、すなわち過去に高関連度ページをダウンロードした実績があれば、ステップＳ６０５に進み、リンク先ＵＲＬ優先度設定手段７は、先と同様に仮優先度と同じ値を収集優先度として設定する。

また、高関連度ページ数２２が０でかつ低関連度ページ数２３が定数Ｔより小さい場合には、ステップＳ６０４において、リンク先ＵＲＬ優先度設定手段７は、収集優先度を、リンク抽出手段６が図３の動作に基づいて設定した仮優先度の値＋１に、すなわちより低い優先度に設定する。これは、当該サーバの関連度を判定中であることを示しており、中程度の優先度で収集を行なう効果を持つ。

また、高関連度ページ数２２が０でかつ低関連度ページ数２３が定数Ｔに等しいかＴより大きい場合には、ステップＳ６０３において、リンク先ＵＲＬ優先度設定手段７は、収集優先度を５、すなわち最低の優先度に設定する。これは、一定数のＷｅｂページをダウンロードしても高関連度のＷｅｂページが発見されなかったために、当該サーバ全体を低関連度と判定することを意味する。

図６のようにして収集優先度が設定されると、先に説明した図５のステップＳ５０２において、定数Ｊを５に設定した場合には、低関連度サーバへのリンクが全て棄却される。定数Ｊを４に設定した場合には、低関連度サーバへのリンクに加え、非日本語ページから判定中サーバへのリンク（すなわち、仮優先度が３であったものに相当）が棄却される。このようにして、Ｊの設定値に応じて、優先度の低いリンク先ＵＲＬを取得ＵＲＬキューに挿入せずに棄却するため、不要な低関連度ページの収集を防ぐことができる。

図７は、本発明の実施の形態１におけるＷｅｂサーバ関連度テーブル２０が図２に例示した値を持つ場合における各ＵＲＬの収集優先度の例を示したものである。ここでは、リンク元ページおよびアンカー文字列は、全て日本語とし、定数Ｔ＝５とした場合を示しており、この場合には、仮優先度の値は、図３の処理によって全て１となる。

したがって、リンク先ＵＲＬ優先度設定手段７によって設定される収集優先度は、ＵＲＬに対応するサーバが高関連度のもの（ｗｗｗ．ａａａ．ｃｏｍ）に対しては収集優先度＝１、判定中のサーバ（ｗｗｗ．ｂｂｂ．ｎｅｔ）に対しては収集優先度＝１＋１＝２、低関連度のサーバ（ｗｗｗ．ｃｃｃ．ｏｒｇ）に対しては収集優先度＝５となっている。

図８は、本発明の実施の形態１における選択的Ｗｅｂ情報収集装置の効果を示す概念図である。上述した処理によりリンク先ＵＲＬの収集優先度を求めることにより、低関連度情報の収集範囲を従来技術に比べて大幅に削減できることを示している。

実施の形態１によれば、優先度設定手段は、リンク先のサーバの関連度を過去の実績に基づいて計算し、未収集のＵＲＬの関連度を予測して収集優先度を設定することができる。これにより、低関連度のＷｅｂサーバからのＷｅｂページ収集を一定値以下に保ち、低関連度Ｗｅｂページのダウンロード数を全体として抑制することができ、効率的な選択的Ｗｅｂ情報収集の実現が可能になる。

さらに、優先度設定手段は、リンク元のＷｅｂページの関連度やアンカー文字列の関連度を収集優先度に反映することができる。これにより、高関連度サーバや関連度判定中のサーバに対しても関連度の高い情報を優先的に収集する制御を行なうことができる。

なお、以上の実施の形態１では、優先度の値として１から５までの整数値を用いたが、より細分化した優先度を設定してもよい。例えば、図６のステップＳ６０２において、高関連度サーバに設定する優先度を、高関連度ページ数の絶対値や高関連度ページ数と低関連度ページ数の比の範囲に応じて、さらに細かい優先度付けを行なうことができる。

実施の形態２．
実施の形態１では、未収集ＵＲＬの収集優先度をＷｅｂサーバの過去の実績に基づいて設定した。次に、ＵＲＬのディレクトリ毎の実績に基づいて収集優先度を設定する選択的Ｗｅｂ情報収集装置の実施の形態について説明する。この実施の形態２では、その全体構成は、実施の形態１の全体構成である図１と同様であるが、関連度記憶部５に格納される関連度テーブルの情報が異なる。

図９は、本発明の実施の形態２における関連度記憶部５に格納される関連度テーブルのデータ構造を示す図である。実施の形態１では、図２のＷｅｂサーバ関連度テーブル２０が関連度テーブルとして関連度記憶部５に格納されていた。実施の形態２では、図９に示すように、Ｗｅｂサーバ・ディレクトリ名９１に関連づけられたＷｅｂサーバ・ディレクトリ関連度テーブル９０が関連度テーブルとして関連度記憶部５に格納されている。

Ｗｅｂサーバ・ディレクトリ関連度テーブル９０は、ＵＲＬ文字列のうち、サーバ名とディレクトリ名（ＵＲＬ末尾の“／”に続く部分を取り除いた文字列）毎に、サーバ・ディレクトリ名９１を保持し、当該サーバ・ディレクトリ名に対応するＷｅｂページのうち、Ｗｅｂページ関連度計算手段４により高関連度と判定された高関連度ページ数９２および低関連度ページ数９３をサーバ・ディレクトリ名９１と関連づけて保持する。このようなサーバ名とディレクトリ名からなる部分をプレフィックスと称する。

図１０は、本発明の実施の形態２におけるＵＲＬ収集優先度計算処理のフローチャートであり、図５のステップＳ５０１に対応するリンク先ＵＲＬ優先度設定手段７によるＵＲＬ収集優先度計算処理に相当する。まず、ステップＳ１００１において、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬのサーバ名およびディレクトリ名部分に相当するプレフィックスが“ｊｐ”や“ｊａ”など日本を表す文字列を含むかどうかを判定し、含まれる場合には、ステップＳ１００５において、収集優先度＝仮優先度に設定する。

ステップＳ１００１の条件が不成立の場合には、ステップＳ１００２において、リンク先ＵＲＬ優先度設定手段７は、Ｗｅｂサーバ・ディレクトリ関連度テーブル９０の情報に基づいて当該サーバ・ディレクトリの関連度を判定する。当該サーバ・ディレクトリの高関連度ページ数９２が０より大きい場合、すなわち過去に高関連度ページをダウンロードした実績があれば、ステップＳ１００５に進む。

また、高関連度ページ数９２が０でかつ低関連度ページ数９３が定数Ｔより小さい場合には、ステップＳ１００４において、リンク先ＵＲＬ優先度設定手段７は、収集優先度を仮優先度＋１に設定する。また、高関連度ページ数９２が０でかつ低関連度ページ数９３が定数Ｔに等しいかＴより大きい場合には、ステップＳ１００３において、リンク先ＵＲＬ優先度設定手段７は、収集優先度を５に設定する。このような図１０における収集優先度の設定処理は、基本的には実施の形態１の図６における処理と同様である。

図１１は、本発明の実施の形態２におけるＷｅｂサーバ・ディレクトリ関連度テーブル９０が図９に例示した値を持つ場合における各ＵＲＬの収集優先度の例を示したものである。ここでは、リンク元ページおよびアンカー文字列は、全て日本語とし、定数Ｔ＝５とした場合を示しており、仮優先度の値は、全て１に相当する。

したがって、リンク先ＵＲＬ優先度設定手段７によって設定される収集優先度は、ＵＲＬに対応するサーバ・ディレクトリが高関連度のもの（ｗｗｗ．ｉｉｉ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／）に対しては収集優先度＝１、判定中のサーバ・ディレクトリ（ｗｗｗ．ｉｉｉ．ｃｏｍ／ｓｅｒｖｉｃｅ／）に対しては収集優先度＝１＋１＝２、低関連度のサーバ・ディレクトリ（ｗｗｗ．ｉｉｉ．ｃｏｍ／ｉｎｔｅｒｎａｔｉｏｎａｌ／）に対しては収集優先度＝５となっている。

実施の形態２によれば、優先度設定手段は、サーバ内のディレクトリを単位として過去の実績を保持し、関連度を判定することができる。これにより、同一サーバ上でディレクトリ毎に異なる言語のＷｅｂページを配置している場合や、一部のディレクトリに目的とするＷｅｂページが局在している場合でも、不要なディレクトリからのＷｅｂページ収集を抑え、選択的Ｗｅｂ情報収集の効率をさらに高めることが可能になる。

なお、ディレクトリを全て独立のものとして扱わずに、一定のレベル以内、例えば“／”文字２つまでで識別することにしてもよい。異なる言語のＷｅｂページは、ディレクトリ階層の上位で分けられることが多く、このような識別をすることによりＷｅｂサーバ・ディレクトリ関連度テーブルの規模を抑え、かつ不要なディレクトリ階層からのＷｅｂページ収集を削減することができる。

実施の形態３．
次に、複数のＷｅｂページからのリンク先ＵＲＬとして同一のＵＲＬに対する複数のリンク元の情報を用いて、ＵＲＬの収集優先度を動的に変更する選択的Ｗｅｂ情報収集装置の実施の形態について説明する。この実施の形態３では、その全体構成は、実施の形態１及び２の全体構成である図１と同様であるが、ＵＲＬ状態記憶部８に格納される情報が異なるとともに、リンク先ＵＲＬ優先度設定手段７とＷｅｂページダウンロード手段２の動作が異なる。

図１２は、本発明の実施の形態３におけるＵＲＬ状態記憶部８に格納されるＵＲＬ状態テーブル１２０のデータ構造を示す図である。実施の形態１及び２では、図４に示す既知ＵＲＬテーブル４０がＵＲＬ状態記憶部８に格納されていたが、実施の形態３では、図１２に示すようなＵＲＬ状態テーブル１２０がＵＲＬ状態記憶部８に格納されている。

ＵＲＬ状態テーブル１２０は、リンク先ＵＲＬをＵＲＬ識別子１２１とし、ＵＲＬ識別子１２１に対応して状態１２２および基本優先度１２３を有するとともに、ＵＲＬ識別子１２１に対する複数のリンク元のＵＲＬの情報について、被参照サーバ数１２４、および定数（Ｒ−１）個の被参照サーバ識別子１２５を格納している。ＵＲＬ識別子１２１は、図４の既知ＵＲＬテーブル４０におけるＵＲＬ識別子４１と同様、ＵＲＬ文字列のＣＲＣチェックサムなどを用いることができる。

状態１２２には、既にダウンロードが完了し、関連度を評価積みのＵＲＬに対しては「収集済み」を示す値が設定され、また、取得ＵＲＬ記憶部１内の取得ＵＲＬキューに格納されており、これから関連度の評価を行うＵＲＬに対しては「収集予定」を示す値が設定される。基本優先度１２３は、実施の形態１において、図６を用いて説明した処理により設定される各リンク先ＵＲＬの収集優先度に相当する。

被参照サーバ数１２４は、０からＲまでの整数値を取り、リンク先ＵＲＬが参照されているリンク元のＵＲＬの数を示している。また、被参照サーバ識別子１２５は、被参照サーバ数１２４の値が示す個数のそれぞれに対応するリンク元ＵＲＬのサーバ識別子を示している。

ただし、被参照サーバ数１２４がＲに等しい場合には、被参照サーバ識別子は、（Ｒ−１）個のサーバ識別子を保持する。サーバ識別子には、ＵＲＬ識別子１２１と同様にサーバ名文字列のチェックサム値を用いることができる。ＵＲＬ状態テーブル１２０は、既知ＵＲＬテーブル４０と同様に主記憶装置上あるいは二次記憶装置上のハッシュテーブルとして実現することができる。

次に、リンク先ＵＲＬ優先度設定手段７の動作を説明する。図１３は、本発明の実施の形態３におけるリンク先ＵＲＬ優先度設定手段７による処理のフローチャートである。まず、ステップＳ１３０１において、リンク先ＵＲＬ優先度設定手段７は、先に説明した図６に示すフローチャートの処理に従ってリンク先ＵＲＬの収集優先度を計算し、その値を基本優先度とする。

次に、ステップＳ１３０２において、リンク先ＵＲＬ優先度設定手段７は、当該ＵＲＬがＵＲＬ状態テーブル１２０に既に登録されているかどうかを判定する。未登録であれば、ステップＳ１３０８に進み、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬ状態テーブル１２０に当該ＵＲＬの新たなエントリを挿入する。

ただし、新たに挿入されるＵＲＬは、対応する状態１２２としては「収集予定」が設定され、基本優先度１２３としてはステップＳ１３０１で求めた値が設定され、被参照サーバ数１２４としては０が設定される。すなわち、被参照サーバ数１２４が０ということは、ＵＲＬ識別子１２１に対応するリンク先ＵＲＬは、まだ１つのＷｅｂページの中にしか含まれておらず、１つのＷｅｂサーバからしか参照されていないことを意味している。

さらに、ステップＳ１３０９において、リンク先ＵＲＬ優先度設定手段７は、後述する方法によりリンク元サーバ（ダウンロードしたＵＲＬのＷｅｂサーバ名部分）の識別子をＵＲＬ状態テーブル１２０に反映し、ステップＳ１３１０に進む。すなわち、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬ識別子１２１に対応する被参照サーバ数１２４および被参照サーバ識別子１２５を求め、ＵＲＬ状態テーブル１２０に反映する。

一方、先のステップＳ１３０２において当該ＵＲＬがＵＲＬ状態テーブル１２０に登録済みの場合には、ステップＳ１３０３に進み、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬ状態テーブル１２０の状態１２２が「収集予定」であるか否かを判定する。状態１２２が「収集予定」でない場合、すなわち「収集済み」の場合には、リンク先ＵＲＬ優先度設定手段７は、処理を終了する。

また、状態１２２が「収集予定」の場合には、ステップＳ１３０４に進み、リンク先ＵＲＬ優先度設定手段７は、ステップＳ１３０１で求めた新たな基本優先度がＵＲＬ状態テーブル１２０の基本優先度１２３より高ければ（すなわち、値が小さければ）、基本優先度１２３をステップＳ１３０１で求めた値に更新する。

次に、ステップＳ１３０５において、リンク先ＵＲＬ優先度設定手段７は、ステップＳ１３０９と同様にしてリンク元サーバ識別子をＵＲＬ状態テーブル１２０に反映する。続いて、ステップＳ１３０６において、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬ状態テーブル１２０の更新前と更新後で、基本優先度×Ｒ−被参照サーバ数＋１の値を比較し、変化がなければ処理を終了する。

ここで、基本優先度×Ｒ−被参照サーバ数＋１で求まる値の意味を説明する。この値をＲで割ったもの、すなわち｛基本優先度−（被参照サーバ数−１）／Ｒ｝として求まる値は、被参照サーバ数１２４が大きければ大きいほど小さくなり、１つの優先度を１／Ｒ毎に細分化した優先度に相当する。例えば、基本優先度が２でＲが５のときに、被参照サーバ数が０の場合の上式の値は１．８となり、被参照サーバ数が２の場合の上式の値は１．６となり、被参照サーバ数が増えるにしたがって値が小さくなり、優先度としては高くなることを意味する。基本優先度×Ｒ−被参照サーバ数＋１は、求まる値を整数化するために、優先度をＲ倍しているものである。

値が変化した場合には、ステップＳ１３０７に進み、リンク先ＵＲＬ優先度設定手段７は、取得ＵＲＬ記憶部１内の取得ＵＲＬキューから当該ＵＲＬを一端削除する。ただし、更新前の（基本優先度×Ｒ−被参照サーバ数＋１）の値が定数Ｊと等しいかＪより大きい場合には、当該ＵＲＬは、取得ＵＲＬ記憶部１内の取得ＵＲＬキューに存在しないので、リンク先ＵＲＬ優先度設定手段７は、このステップを省略することができる。

次に、ステップＳ１３１０において、リンク先ＵＲＬ優先度設定手段７は、更新後の（基本優先度×Ｒ−被参照サーバ数＋１）の値が定数Ｊより小さいかどうか判定し、小さくない場合には、処理を終了する。ステップＳ１３１０の条件が成り立つ場合には、ステップＳ１３１１に進み、リンク先ＵＲＬ優先度設定手段７は、更新後の（基本優先度×Ｒ−被参照サーバ数＋１）をＲで割った値を収集優先度として当該ＵＲＬを取得ＵＲＬ記憶部１内の取得ＵＲＬキューに挿入する。

なお、ＵＲＬ状態テーブル１２０の状態１２２は、Ｗｅｂページダウンロード手段２が当該ＵＲＬの内容をダウンロードした後に、Ｗｅｂページダウンロード手段２によって「収集済み」に更新される。

次に、図１３のステップＳ１３０５およびステップＳ１３０９におけるリンク元サーバである被参照サーバ識別子１２５のＵＲＬ状態テーブル１２０への反映の動作を説明する。図１４は、本発明の実施の形態３におけるリンク元サーバ識別子のＵＲＬ状態テーブル１２０への反映処理を示すフローチャートである。はじめに、ステップＳ１４０１において、リンク先ＵＲＬ優先度設定手段７は、リンク先ＵＲＬのサーバとリンク元ＵＲＬのサーバ（リンク先ＵＲＬが含まれていた被参照サーバ）とを比較する。

両者が等しい場合、すなわち同一サーバ内のリンクである場合には、リンク先ＵＲＬ優先度設定手段７は、処理を終了する。一方、異なるサーバ間のリンクの場合には、ステップＳ１４０２において、リンク先ＵＲＬ優先度設定手段７は、ＵＲＬ状態テーブル１２０の被参照サーバ数１２４の値が定数Ｒより小さいかどうか判定し、小さくない場合には処理を終了する。

小さい場合には、ステップＳ１４０３において、リンク先ＵＲＬ優先度設定手段７は、当該リンク元サーバ識別子がＵＲＬ状態テーブル１２０の被参照サーバ識別子１２５の中に含まれるかどうか判定し、含まれている場合には処理を終了する。

含まれていない場合には、ステップＳ１４０４において、リンク先ＵＲＬ優先度設定手段７は、リンク元サーバ識別子を被参照サーバ識別子１２５に追加し、被参照サーバ数１２４に１を加える。ただし、元の被参照サーバ数１２４が（Ｒ−１）に等しい場合には、リンク先ＵＲＬ優先度設定手段７は、被参照サーバ識別子１２５を更新せず、被参照サーバ数１２４をＲに設定する。これは、被参照サーバ数１２４がＲに達した場合に、被参照サーバ識別子１２５は参照されなくなるためであり、ＵＲＬ状態テーブル１２０のサイズを削減する効果を持つ。

実施の形態３によれば、それぞれのリンク先ＵＲＬが異なるサーバからどのくらい参照されているかを保持し、参照数に応じて動的に収集優先度を求めるため、多くのサーバから参照されているＷｅｂページを優先的に収集する効果を持つ。Ｗｅｂにおいては、有用なページは多くのサーバから参照される傾向が強いので、これにより収集したＷｅｂ情報の有用度も高めることができる。

さらに、基本優先度と被参照サーバ数を組み合わせて収集優先度を設定することにより、関連度が低いページであっても有用度の高いページを収集することができ、例えば、日本語Ｗｅｂページとともに日本語Ｗｅｂページから多く参照されている周辺情報を同時に収集することなどが可能になる。

実施の形態４．
次に、複数のＷｅｂサーバからのダウンロードを並行して実行する際に、Ｗｅｂサーバの関連度に応じて優先順位付けを行なう選択的Ｗｅｂ情報収集装置の実施の形態を説明する。

この実施の形態４は、図１の全体構成に対し、Ｗｅｂページダウンロード手段２が接続管理テーブル１５０をさらに備える点が実施の形態１と異なる。図１５は、本発明の実施の形態４における接続管理テーブル１５０のデータ構造を示す図である。接続管理テーブル１５０は、４つのサーバ優先順位１５１のそれぞれに対し、使用接続数１５２と最大接続数１５３を格納する。この接続管理テーブルは、図１には図示されていないが、Ｗｅｂページダウンロード手段２の有している記憶部に記憶されているものである。

サーバ優先順位１５１は、一例として、図６の高関連度サーバに対する値を１、判定中サーバのうち、低関連度ページ数が０より大きいものに対する値を２、低関連度ページ数および高関連度ページ数がともに０、すなわち未アクセスサーバに対する値を３、そして、低関連度サーバに対する値を４としてそれぞれ設定されている。ただし、低関連度サーバからのダウンロードを全く行なわない場合には、サーバ優先順位が４である最後のエントリは、省略することができる。

使用接続数１５２は、当該優先順位のサーバが使用中の接続数を示すものであり、Ｗｅｂページダウンロード手段２は、ダウンロードの都度、例えば、ＴＣＰ／ＩＰソケットを割り当てる際に使用接続数１５２を＋１とし、ダウンロード後にソケットを閉じる際に−１とする。最大接続数１５３は、定数であり、当該優先順位のサーバに同時に割り当てる許容最大接続数としてあらかじめ設定されている。

次に、Ｗｅｂページダウンロード手段２がＵＲＬのダウンロードを開始する際の接続割り当て動作を説明する。図１６は、本発明の実施の形態４における接続割り当て動作処理のフローチャートである。はじめに、ステップＳ１６０１において、Ｗｅｂページダウンロード手段２は、変数Ｐを０に初期化し、ステップＳ１６０２において、Ｐに１を加える。

次に、ステップＳ１６０３において、Ｗｅｂページダウンロード手段２は、接続管理テーブル１５０のサーバ優先順位１５１がＰに等しいエントリの使用接続数１５２と最大接続数１５３とを比較し、使用接続数１５２が最大接続数１５３より小さくない場合には、接続割り当ての失敗を示す応答を返し、当該ＵＲＬのダウンロードを待機させる。すなわち、Ｐの値に対応するサーバ優先順位１５１の使用接続数１５２がすでに最大接続数１５３に等しいときは、ダウンロード要求のあるＵＲＬを常に待機中にすることを意味している。

使用接続数１５２が最大接続数１５３より小さい場合には、ステップＳ１６０４に進み、Ｗｅｂページダウンロード手段２は、ダウンロードしようとするＵＲＬのサーバの優先順位が変数Ｐより大きいならばステップＳ１６０２に戻る。それ以外の場合には、ステップＳ１６０５において、Ｗｅｂページダウンロード手段２は、接続管理テーブル１５０のサーバ優先順位Ｐに対応する使用接続数１５２の値に１を加えて成功応答を返し、当該ＵＲＬのダウンロードを開始させる。このようにして、Ｗｅｂページダウンロード手段２は、接続管理テーブル１５０を用いて、関連度の値に応じて同時にダウンロードできるＷｅｂサーバの数を制限することができる。

実施の形態４によれば、Ｗｅｂページダウンロード手段は、サーバ優先順位に対応する最大接続数の設定に応じて、関連度が高いサーバに優先的に接続割り当てを行なうことができる。これにより、複数Ｗｅｂサーバへの同時接続を行なう場合に、低関連度サーバや判定中のサーバが多くの接続を占有してしまうことで高関連度Ｗｅｂページ全体の収集速度が低下することを防ぐことができる。

特に、判定中サーバのうち、未アクセスサーバをより低い優先順位に設定することで、サーバやネットワーク経路に障害があった場合に、タイムアウトするまで接続が長時間占有され、著しくネットワーク使用効率が低下するのを防ぐことができる。

実施の形態５．
次に、Ｗｅｂサーバの関連度とともにネットワーク経路の距離を考慮して優先度付けを行なう選択的Ｗｅｂ情報収集装置の実施の形態を説明する。この実施の形態５では、全体構成は、実施の形態１の全体構成である図１と同様であるが、関連度記憶部５に格納される関連度テーブルの情報が異なる。

図１７は、本発明の実施の形態２における関連度記憶部５に格納される関連度テーブルのデータ構造を示す図である。実施の形態１では、図２のＷｅｂサーバ関連度テーブル２０が関連度テーブルとして関連度記憶部５に格納されていた。実施の形態５では、図１７に示すように、ネットワーク距離を付加したＷｅｂサーバ関連度・距離テーブル１７０が関連度テーブルとして関連度記憶部５に格納されている。

Ｗｅｂサーバ関連度・距離テーブル１７０は、Ｗｅｂサーバ毎に、Ｗｅｂサーバ名１７１、高関連度ページ数１７２、低関連度ページ数１７３、ネットワーク距離１７４を格納している。

図１のＷｅｂページダウンロード手段２は、Ｗｅｂサーバ関連度・距離テーブル１７０を参照し、ダウンロードしようとするＵＲＬのＷｅｂサーバのエントリが存在しないか、あるいは高関連度ページ数１７２および低関連度ページ数１７３がともに０の場合に、当該Ｗｅｂサーバまでのネットワーク距離を計測し、Ｗｅｂサーバ関連度・距離テーブル１７０のネットワーク距離１７４の値を設定する。

ネットワーク距離は、Ｗｅｂサーバまでのネットワーク経路上のＩＰルータ機器の数（ホップ数）であり、ｔｒａｃｅｒｏｕｔｅなど公知のコンピュータプログラムを用いて計測することができる。

図１のリンク先ＵＲＬ優先度設定手段７は、図６と同様のＵＲＬ収集優先度計算において、Ｗｅｂサーバ関連度テーブル２０の代わりにＷｅｂサーバ関連度・距離テーブル１７０を参照し、高関連度ページ数１７２および低関連度ページ数１７３に加えてネットワーク距離１７４に基づいて収集優先度の決定を行う。

例えば、ネットワーク距離１７４が２０を越えていたら、リンク先ＵＲＬ優先度設定手段７は、高関連度ページ数１７２や低関連度ページ数１７３の値に関わらず低関連度サーバとみなし、最低収集優先度である５をリンク先ＵＲＬに付与することができる。

実施の形態５によれば、Ｗｅｂページダウンロード手段は、Ｗｅｂサーバへのネットワーク上の距離を収集優先度に反映することができる。これにより、特定の組織や地域（国）に関する選択的Ｗｅｂ情報収集を効率的に実施することが可能になる。

実施の形態６．
次に、Ｗｅｂサーバ毎のＷｅｂページ平均関連度を用いて収集優先度を設定する実施の形態を説明する。この実施の形態６では、全体構成は、実施の形態１の全体構成である図１と同様であるが、関連度記憶部５に格納される関連テーブルの情報が異なる。

図１８は、本発明の実施の形態６における関連度記憶部５に格納される関連度テーブルのデータ構造を示す図である。実施の形態１では、図２のＷｅｂサーバ関連度テーブルが関連度テーブルとして関連度記憶部５に格納されていた。実施の形態５では、図１８に示すように、平均関連度を有するＷｅｂサーバ平均関連度テーブル１８０が関連度テーブルとして関連度記憶部５に格納されている。

Ｗｅｂサーバ平均関連度テーブル１８０は、Ｗｅｂサーバ毎に、Ｗｅｂサーバ名１８１、平均関連度１８２、収集済みページ数１８３を格納している。

図１のＷｅｂページ関連度計算手段４は、ダウンロードしたＷｅｂページの関連度を計算し、Ｗｅｂサーバ平均関連度テーブル１８０の更新を行う。Ｗｅｂページの関連度をｒ、更新前の平均関連度１８２の値をｍ、収集済みページ数１８３の値をｎとすると、更新後の平均関連度１８２は、
（ｎ×ｍ＋ｒ）÷（ｎ＋１）
であり、収集済みページ数１８３は、（ｎ＋１）となる。

図１のリンク先ＵＲＬ優先度設定手段７は、図６と同様のＵＲＬ収集優先度計算において、Ｗｅｂサーバ関連度テーブル２０の代わりにＷｅｂサーバ平均関連度テーブル１８０を参照し、平均関連度１８２や収集済みページ数１８３に基づいて収集優先度の決定を行う。

例えば、リンク先ＵＲＬ優先度設定手段７は、収集済みページ数１８３の値が定数Ｔより小さいＷｅｂサーバに対しては中程度の収集優先度を、収集済みページ数１８３の値が定数Ｔ以上で平均関連度１８２の値が０．７より大きいＷｅｂサーバに対しては高い収集優先度を、そして、その他のＷｅｂサーバに対しては低い収集優先度をそれぞれ付与することができる。

実施の形態６によれば、Ｗｅｂページ関連度計算手段は、Ｗｅｂサーバ毎の収集済みページの平均的な関連度に基づいて収集優先度を設定できる。これにより、個々のＷｅｂページを高関連度と低関連度のいずれかに分類することが困難なトピックに対しても、統計的な情報を用いてきめ細かな収集優先度設定が可能であり、選択的Ｗｅｂ情報収集の効率を向上することができる。

本発明の実施の形態１に係る選択的Ｗｅｂ情報収集装置の構成図である。本発明の実施の形態１における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。本発明の実施の形態１における仮優先度設定処理のフローチャートである。本発明の実施の形態１におけるＵＲＬ状態記憶部に格納される既知ＵＲＬテーブルのデータ構造を示す図である。本発明の実施の形態１におけるリンク先ＵＲＬ優先度設定手段による処理のフローチャートである。本発明の実施の形態１におけるＵＲＬ収集優先度計算処理のフローチャートである。本発明の実施の形態１におけるＷｅｂサーバ関連度テーブルが図２に例示した値を持つ場合における各ＵＲＬの収集優先度の例を示したものである。本発明の実施の形態１における選択的Ｗｅｂ情報収集装置の効果を示す概念図である。本発明の実施の形態２における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。本発明の実施の形態２におけるＵＲＬ収集優先度計算処理のフローチャートである。本発明の実施の形態２におけるＷｅｂサーバ・ディレクトリ関連度テーブルが図９に例示した値を持つ場合における各ＵＲＬの収集優先度の例を示したものである。本発明の実施の形態３におけるＵＲＬ状態記憶部に格納されるＵＲＬ状態テーブルのデータ構造を示す図である。本発明の実施の形態３におけるリンク先ＵＲＬ優先度設定手段による処理のフローチャートである。本発明の実施の形態３におけるリンク元サーバ識別子のＵＲＬ状態テーブルへの反映処理を示すフローチャートである。本発明の実施の形態４における接続管理テーブルのデータ構造を示す図である。本発明の実施の形態４における接続割り当て動作処理のフローチャートである。本発明の実施の形態２における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。本発明の実施の形態６における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。

符号の説明

１取得ＵＲＬ記憶部、２Ｗｅｂページダウンロード手段、３Ｗｅｂページ記憶部、４Ｗｅｂページ関連度計算手段、５関連度記憶部、６リンク抽出手段、７リンク先ＵＲＬ優先度設定手段、８ＵＲＬ状態記憶部、２０Ｗｅｂサーバ関連度テーブル、４０既知ＵＲＬテーブル、９０Ｗｅｂサーバ・ディレクトリ関連度テーブル、１２０ＵＲＬ状態テーブル、１５０接続管理テーブル、１７０Ｗｅｂサーバ関連度・距離テーブル、１８０Ｗｅｂサーバ平均関連度テーブル。

Claims

収集すべきＷｅｂページのＵＲＬが収集優先度の順位にしたがって並べられた取得ＵＲＬキューを記憶する取得ＵＲＬ記憶部と、
Ｗｅｂページの内容と収集対象との関連度と、Ｗｅｂサーバ名とを関連づけた関連度テーブルを記憶する関連度記憶部と、
前記取得ＵＲＬキューから前記収集優先度の順位にしたがってＵＲＬを取り出し、前記ＵＲＬによりダウンロードしたＷｅｂページの内容に基づいて前記関連度を求めて前記関連度テーブルを生成し、生成した前記関連度テーブルを前記関連度記憶部に記憶させる関連度計算手段と、
前記関連度計算手段でダウンロードされた前記Ｗｅｂページ内に含まれるリンク先ＵＲＬを取り出し、取り出した前記リンク先ＵＲＬに含まれる情報および前記Ｗｅｂページ内に含まれる情報から前記リンク先ＵＲＬの仮優先度を設定し、前記関連度テーブルおよび前記仮優先度に基づいて前記リンク先ＵＲＬの収集優先度を設定し、設定した前記収集優先度にしたがって、収集すべきＷｅｂページの新たなＵＲＬとして前記リンク先ＵＲＬを前記取得ＵＲＬキューに挿入する優先度設定手段と
を備えることを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、前記Ｗｅｂページに含まれるページに対して、前記関連度が一定値以上であった高関連度ページ数と、それ以外の低関連度ページ数を求め、前記高関連度ページ数および前記低関連度ページ数と、前記Ｗｅｂサーバ名とを関連づけた関連度テーブルを生成し、
前記優先度設定手段は、前記関連度テーブルに基づいて、高関連度ページ数が０より大きいＷｅｂサーバからのリンク先ＵＲＬに高い収集優先度を設定し、高関連度ページ数が０で低関連度ページ数が一定値未満のＷｅｂサーバからのリンク先ＵＲＬに中程度の収集優先度を設定し、高関連度ページ数が０で低関連度ページ数が一定値以上のＷｅｂサーバからのリンク先ＵＲＬに低い収集優先度を設定する
ことを特徴とする選択的Ｗｅｂ情報収集装置。
請求項２に記載の選択的Ｗｅｂ情報収集装置において、
前記優先度設定手段は、特定の文字列パターンがあらかじめ記憶された記憶部を有し、当該文字列パターンに一致する名前を持つＷｅｂサーバからのリンク先ＵＲＬに高い収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度ページ数が０より大きいＷｅｂサーバからのリンク先ＵＲＬに高い収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度ページ数が０で低関連度ページ数が一定値未満のＷｅｂサーバからのリンク先ＵＲＬに中程度の収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度Ｗｅｂページ数が０で低関連度ページ数が一定値以上のＷｅｂサーバからのリンク先ＵＲＬに低い収集優先度を設定する
ことを特徴とする選択的Ｗｅｂ情報収集装置。
請求項２または３に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、特定の文字コードセット名の集合があらかじめ記憶された記憶部を有し、前記Ｗｅｂページに含まれるページに対して、Ｗｅｂページの記述文字コードセットが当該文字コードセットに含まれるかまたは当該文字コードセットのいずれかに変換可能である場合に高関連度ページとし、それ以外のＷｅｂページを低関連度ページとすることを特徴とする選択的Ｗｅｂ情報収集装置。
請求項４に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、日本語に用いられる特定の文字コードセット名の集合があらかじめ記憶された記憶部を有し、前記Ｗｅｂページに含まれるページに対して、Ｗｅｂページの記述文字コードセットが日本語文字コードセットに含まれるかまたは日本語文字コードセットのいずれかに変換可能である場合に高関連度ページとし、それ以外のＷｅｂページを低関連度ページとすることを特徴とする選択的Ｗｅｂ情報収集装置。
請求項５に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、Ｗｅｂサーバ名と比較する特定の文字列パターンとして部分文字列ｊｐ、ｊａ、ｊａｐａｎが記憶された記憶部を有することを特徴とする選択的Ｗｅｂ情報収集装置。
請求項５または６に記載の選択的Ｗｅｂ情報収集装置において、
前記優先度設定手段は、Ｗｅｂページが日本語文字コードセットで記述されていない場合にはリンク先ＵＲＬの収集優先度をより低く設定し、Ｗｅｂページが日本語文字コードセットで記述されており、アンカー文字列が日本語文字コードセットで記述されているか、あるいはアンカー文字列がＵＲＬと解釈できる場合に、リンク先ＵＲＬの収集優先度をより高く設定することを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、前記Ｗｅｂページに含まれるページに対して、平均関連度および収集ページ数を求め、前記Ｗｅｂサーバ名と関連づけた前記平均関連度および前記収集ページ数を有する関連度テーブルを生成し、
前記優先度設定手段は、前記収集ページ数が一定値未満のＷｅｂサーバからのリンク先ＵＲＬに中程度の収集優先度を設定し、前記収集ページ数が一定値以上のＷｅｂサーバからのリンク先ＵＲＬに対して前記平均関連度に応じた収集優先度を設定する
ことを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１ないし８に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度記憶部は、Ｗｅｂサーバ名の代わりにＷｅｂサーバ名およびディレクトリ名を含むプレフィックスと関連づけて前記関連度テーブルを記憶し、
前記関連度計算手段は、前記プレフィックスと関連づけた前記関連度テーブルを生成し、前記優先度設定手段は、前記プレフィックスと関連づけた前記関連度テーブルに基づいて前記収集優先度を設定する
ことを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１ないし９に記載の選択的Ｗｅｂ情報収集装置において、
リンク先ＵＲＬと前記リンク先ＵＲＬの参照元のＷｅｂサーバ名とを関連づけたＵＲＬ状態テーブルを記憶するＵＲＬ状態記憶部をさらに備え、
前記優先度設定手段は、収集優先度を設定したリンク先ＵＲＬがすでに前記ＵＲＬ状態テーブルに格納されている場合には、前記リンク先ＵＲＬの参照元のＷｅｂサーバ名を追加して前記ＵＲＬ状態テーブルを更新し、収集優先度を設定したリンク先ＵＲＬがまだ前記ＵＲＬ状態テーブルに格納されていない場合には、前記リンク先ＵＲＬと前記リンク先ＵＲＬの参照元のＷｅｂサーバ名とを関連づけたデータを新たに前記ＵＲＬ状態テーブルに追加し、前記ＵＲＬ状態テーブルに格納されている前記リンク先ＵＲＬの参照元のＷｅｂサーバ名の数に応じて前記リンク先ＵＲＬの収集優先度を再設定し、再設定した前記収集優先度により前記取得ＵＲＬ記憶部に記憶されている前記取得ＵＲＬキューの並び替えを行う
ことを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１０に記載の選択的Ｗｅｂ情報収集装置において、
前記優先度設定手段は、再設定前と再設定後のリンク先ＵＲＬの収集優先度が等しいとき、あるいはともに一定値未満のときは、前記取得ＵＲＬキューを更新せず、再設定前のリンク先ＵＲＬの収集優先度が一定値未満であり、かつ再設定後のリンク先ＵＲＬの収集優先度が一定値以上のときは、前記リンク先ＵＲＬを前記取得ＵＲＬキューに追加し、再設定前と再設定後のリンク先ＵＲＬの収集優先度が異なり、かつともに一定値以上のときは、前記取得ＵＲＬキューの並び替えを行い、再設定前のリンク先ＵＲＬの収集優先度が一定値以上であり、かつ再設定後のリンク先ＵＲＬの収集優先度が一定値未満のときは、前記リンク先ＵＲＬを前記取得ＵＲＬキューから削除することを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１ないし１１に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、前記関連度の値に応じて同時にダウンロードできるＷｅｂサーバの許容最大接続数をあらかじめ有し、前記許容最大接続数に基づいて同時にダウンロードするＷｅｂサーバの数を制限することを特徴とする選択的Ｗｅｂ情報収集装置。
請求項１ないし１２に記載の選択的Ｗｅｂ情報収集装置において、
前記関連度計算手段は、ダウンロード対象のＷｅｂサーバまでのネットワーク経路上のＩＰルータ機器の数に基づいてネットワーク距離を計測し、前記ネットワーク距離に応じて収集優先度を変更することを特徴とする選択的Ｗｅｂ情報収集装置。