JP2006235729A - 選択的Web情報収集装置 - Google Patents

選択的Web情報収集装置 Download PDF

Info

Publication number
JP2006235729A
JP2006235729A JP2005045784A JP2005045784A JP2006235729A JP 2006235729 A JP2006235729 A JP 2006235729A JP 2005045784 A JP2005045784 A JP 2005045784A JP 2005045784 A JP2005045784 A JP 2005045784A JP 2006235729 A JP2006235729 A JP 2006235729A
Authority
JP
Japan
Prior art keywords
url
relevance
priority
web
link destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005045784A
Other languages
English (en)
Other versions
JP4718205B2 (ja
Inventor
Takayuki Tamura
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005045784A priority Critical patent/JP4718205B2/ja
Publication of JP2006235729A publication Critical patent/JP2006235729A/ja
Application granted granted Critical
Publication of JP4718205B2 publication Critical patent/JP4718205B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】高関連度のWebページからリンクされた低関連度のWebページが高い収集優先度を設定されることを防ぎ、大規模な選択的Web情報収集の効率的な実現を可能にする選択的Web情報収集装置を得る。
【解決手段】取得URL記憶部1に記憶された取得URLキューから収集優先度の順位にしたがってURLを取り出し、Webページの内容と収集対象との関連度を含む関連度テーブルを生成する関連度計算手段2、4と、関連度計算手段2、4でダウンロードされたWebページ内に含まれるリンク先URLを取り出して仮優先度を設定し、関連度テーブルおよび仮優先度に基づいてリンク先URLの収集優先度を設定し、設定した収集優先度にしたがって、収集すべきWebページの新たなURLとしてリンク先URLを取得URLキューに挿入する優先度設定手段6、7とを備える。
【選択図】図1

Description

本発明は、ネットワークを介して所望の情報を収集する技術に関し、特にインターネット上で提供されているWebページを検索してWebページ内のリンク先のURL(Uniform Resource Locator)を辿りながら収集対象に関連する情報の収集を行う選択的Web情報収集装置に関する。
インターネットの検索エンジンサービスでは、既知のWebページのリンク先ページを再帰的に収集(クロール)することで網羅的にWeb情報を収集し、検索索引の維持を図っている。しかしながら、Web情報を完全に網羅し、検索索引と実際のWeb情報との不整合を防ぐことは、大手の検索エンジンにとっても難しいため、利用者側で必要な情報(収集対象)に限って網羅的・高頻度のクロールを行なう、フォーカストクローリングなどの技術が提案されている。
従来のフォーカストクローリング方式では、収集したWebページの内容、すなわち単語の出現頻度などに基づいて当該ページと収集対象との関連度を計算し、それに応じて当該ページのリンク先に対する収集優先度(重要度)を設定する(例えば、特許文献1および特許文献2参照)。特許文献1では、さらに、同一ページ内のリンクに対し、リンクの出現位置や文書の構造に応じて重要度を変える方式も記載されている。これらの重要度設定により、トピックとの関連度が高いWebページを早期に、かつ、より多く収集することが可能になる。
特開2004−54631号公報(第1頁、図2) 米国特許第6,418,433号明細書 Fig.2
しかしながら、従来技術には次のような課題がある。従来のフォーカストクローリング方式において、不要な情報収集を防ぐには、トピック関連度が低いページのリンク先に対して低い収集優先度を設定することを行っており、本質的に一定量の低関連度ページを収集してしまうことを避けられない。
しかし、例えば「日本語で記述されたページ全体」のように、選択的ながらも大規模なWeb情報を収集しようとする場合、低関連度のページ、即ち非日本語ページの絶対数が大きくなるため、ネットワークやストレージのリソースの浪費が無視できなくなる。そのため、必要以上のハードウェア投資を行なうか、収集規模を妥協して早期にクロールを打ち切るなど、不利益を伴う対策を取る必要が生じる。
本発明は上述のような課題を解決するためになされたもので、高関連度のWebページからリンクされた低関連度のWebページが高い収集優先度を設定されることを防ぎ、大規模な選択的Web情報収集の効率的な実現を可能にする選択的Web情報収集装置を得ることを目的とする。
本発明に係る選択的Web情報収集装置は、収集すべきWebページのURLが収集優先度の順位にしたがって並べられた取得URLキューを記憶する取得URL記憶部と、Webページの内容と収集対象との関連度と、Webサーバ名とを関連づけた関連度テーブルを記憶する関連度記憶部と、取得URLキューから収集優先度の順位にしたがってURLを取り出し、URLによりダウンロードしたWebページの内容に基づいて関連度を求めて関連度テーブルを生成し、生成した関連度テーブルを関連度記憶部に記憶させる関連度計算手段と、関連度計算手段でダウンロードされたWebページ内に含まれるリンク先URLを取り出し、取り出したリンク先URLに含まれる情報およびWebページ内に含まれる情報からリンク先URLの仮優先度を設定し、関連度テーブルおよび仮優先度に基づいてリンク先URLの収集優先度を設定し、設定した収集優先度にしたがって、収集すべきWebページの新たなURLとしてリンク先URLを取得URLキューに挿入する優先度設定手段とを備えるものである。
本発明によれば、Webページの関連度と、取り出したリンク先URLに含まれる情報およびWebページ内に含まれる情報から設定されるリンク先URLの仮優先度とに基づいてリンク先URLの収集優先度を設定することにより、高関連度のWebページからリンクされた低関連度のWebページが高い収集優先度を設定されることを防ぎ、大規模な選択的Web情報収集の効率的な実現を可能にする選択的Web情報収集装置を得ることができる。
以下、本発明の選択的Web情報収集装置の好適な実施の形態につき図面を用いて説明する。
本発明の選択的Web情報収集装置は、Webページ内のリンク先URLの収集優先度を、元のWebページの関連度とリンク先URLの仮優先度とに基づいて算出することにより、所望の収集対象に関連する情報を効率的に収集できる特徴を備えた選択的Web情報収集装置に関するものである。
なお、以下の実施の形態においては、日本語で記述されたWebページを検索する場合を中心に説明する。しかしながら、本発明の選択的Web情報収集装置は、日本語対応に限定されるものではなく、関連度の算出方法に応じて種々の適用が可能となる。
実施の形態1.
図1は、本発明の実施の形態1における選択的Web情報収集装置の構成図である。図1において、取得URL記憶部1は、収集すべきWebページのURLが収集優先度の順位にしたがって並べられた取得URLキューを記憶する記憶部である。なお、以下の実施の形態においては、収集優先度の数値が小さいものほど優先度(重要度)が高く、収集優先度の数値が大きいものほど優先度(重要度)が低いことを示している。
取得URLキューから取り出されたURLの内容は、Webページダウンロード手段2によってインターネット9からダウンロードされ、Webページ記憶部3に格納される。また、Webページ関連度計算手段4は、ダウンロードされたWebページが日本語で記述されているかどうかを判定して関連度テーブルを生成して、関連度記憶部5に格納する。
次に、リンク抽出手段6は、ダウンロードされたWebページの中を解析して、Webページに含まれているリンク先URLを取り出す。さらに、リンク抽出手段6は、取り出したリンク先URLに対して仮優先度を求める。そして、リンク先URL優先度設定手段7は、取り出されたリンク先URLに対して関連度記憶部5に格納された関連度テーブルの情報と仮優先度とに基づいて収集優先度を設定し、設定した収集優先度にしたがってリンク先URLを取得URL記憶部1内の取得URLキューに挿入する。
さらに、リンク先URL優先度設定手段7は、挿入したリンク先URLの情報をURL状態記憶部8に記憶させる。リンク先URL優先度設定手段7は、リンク先URLの挿入を行う際に、このURL状態記憶部8に記憶された情報を参照することにより、複数のWebページに含まれる同一のリンク先URLを重複して挿入することを防止できる。
上述の1から8の構成要素は、ネットワークインタフェースと記憶装置を備えた一般的なコンピュータで実現することができる。また、Webページダウンロード手段2とWebページ関連度計算手段4とを合わせたものが関連度計算手段に相当し、リンク抽出手段6とリンク先URL優先度設定手段7とを合わせたものが優先度設定手段に相当する。
次に動作について説明する。
取得URL記憶部1内の取得URLキューは、優先順位付きのキューとしてURLが並べられている。これにより、Webページダウンロード手段2は、収集優先度の高いURLから順番に取り出すことができる。Webページダウンロード手段2は、HTTPなど公知の通信規約に基づいて実現できる。
Webページ関連度計算手段4は、HTTPサーバからの応答情報、Webページ内のMETAタグ情報、またはWebページの文字コードの使用頻度統計に基づいてWebページの記述文字コードセットを判定し、Webページ毎に関連度の分類を行う。具体的には、Webページ関連度計算手段4は、Webページの記述文字コードセットが日本語文字コードセット(7ビットJIS(ISO−2022−JPなど)、EUC−JP、Shift_JIS)のいずれかで記述されていれば、高関連度ページに分類し、そうでなければ低関連度ページに分類し、関連度テーブルを作成する。
ユニコードやUTFなど言語独立な文字コードセットが用いられている場合には、Webページ関連度計算手段4は、上記日本語文字コードセットに対応しない文字の数に応じて日本語かどうかを判定することができる。ここで、Webページの記述文字コードの判定は、Webブラウザソフトウェアが備える機能であり、公知の技術を用いて実現することができる。
なお、Webページ関連度計算手段4は、収集の目的に応じて異なる計算方法を取ることができる。例えば、ロシア語Webページの収集が目的であれば、Webページ関連度計算手段4は、ロシア語文字コードセットの判定を行い、あらかじめ与えられた文書に類似するWebページの収集が目的であれば、単語の出現頻度に基づいて関連度を求めることにより、一定以上の関連度のページを高関連度ページと判断し、それ以外を低関連度ページと判定すればよい。
図2は、本発明の実施の形態1における関連度記憶部5に格納される関連度テーブルのデータ構造を示す図である。図2における関連度テーブルであるWebサーバ関連度テーブル20は、Webサーバ毎に、Webサーバ名21と関連づけて、Webページ関連度計算手段4により判定された当該サーバからダウンロードした高関連度ページ数22および低関連度ページ数23を格納している。Webサーバ関連度テーブル20は、例えば、主記憶装置上あるいは二次記憶装置上のハッシュテーブルとして実現することができ、新たなWebサーバからダウンロードを行なう都度、動的にエントリを追加する。
次に、リンク抽出手段6がWebページを解析してリンク先URLを取り出した後に、そのリンク先URLに仮優先度を設定する方法を説明する。図3は、本発明の実施の形態1における仮優先度設定処理のフローチャートである。ステップS301において、リンク先URL優先度設定手段7は、取り出したリンク先URLのリンク元のWebページが日本語で記述されているかどうかを判定する。日本語で記述されていない場合は、ステップS304に進み、リンク先URL優先度設定手段7は、取り出したリンク先URLに仮優先度として最低値の3を設定する。
リンク元Webページが日本語で記述されている場合には、ステップS302において、リンク先URL優先度設定手段7は、リンクのアンカー文字列、すなわちHTMLの<A>と</A>などのタグで囲まれた部分が日本語で記述されているかどうかを判定する。アンカー文字列が日本語で記述されている場合には、ステップS306において、リンク先URL優先度設定手段7は、取り出したリンク先URLに最高の仮優先度1を設定する。
アンカー文字列が日本語で記述されていない場合には、次にステップS303において、リンク先URL優先度設定手段7は、アンカー文字列がURL文字列として解釈できるかどうかを判定する。アンカー文字列がURL文字列として解釈できる場合には、ステップS306において、リンク先URL優先度設定手段7は、取り出したリンク先URLに最高の仮優先度1を設定する。
アンカー文字列がURL文字列でも日本語でもない場合には、ステップS305において、リンク先URL優先度設定手段7は、取り出したリンク先URLに仮優先度として中位の2を設定する。上述したステップS303の処理は、日本語ページから海外のWebページをリンクしている可能性が高い場合に、優先度を下げることが目的である。
図4は、本発明の実施の形態1におけるURL状態記憶部8に格納される既知URLテーブル40のデータ構造を示す図である。既知URLテーブル40は、リンク先URL毎に、対応するURL識別子41を格納している。この既知URLテーブル40は、リンク先URL優先度設定手段7が取得URL記憶部1内の取得URLキューにリンク先URLを挿入する毎に、そのURL識別子41を書き込むことができる。したがって、この既知URLテーブル40は、すでに取得URLキューに挿入済みのリンク先URLの一覧表に相当する。
URL識別子41は、URL毎に一意であれば十分であり、URL文字列の代わりにURL文字列の十分長い(例えば64ビット)CRCチェックサムなどを用いてもよい。既知URLテーブル40は、Webサーバ関連度テーブル20と同様に主記憶装置上あるいは二次記憶装置上のハッシュテーブルとして実現することができる。
次に、リンク先URL優先度設定手段7の動作を説明する。図5は、本発明の実施の形態1におけるリンク先URL優先度設定手段7による処理のフローチャートである。まず、ステップS501において、リンク先URL優先度設定手段7は、後述する方法に従って、リンク抽出手段6により設定されたリンク先URLの仮優先度と、関連度記憶部5に記憶されたWebサーバ関連度テーブル20とに基づいてURLの収集優先度を計算する。
次に、ステップS502において、リンク先URL優先度設定手段7は、計算した収集優先度の値が定数Jと等しいかまたはJより大きい場合には、処理を終了する。これは、低関連度と予測されるWebページのURLを棄却するために行なう処理である。
次に、ステップS503において、リンク先URL優先度設定手段7は、既知URLテーブル40に当該URLが既に登録されているかどうかを判定し、登録済みであれば処理を終了する。これは、同一URLの再収集を防ぐための処理である。当該URLが未登録であれば、ステップS504に進み、リンク先URL優先度設定手段7は、既知URLテーブル40に新たなエントリを挿入する。さらに、リンク先URL優先度設定手段7は、当該URLをステップS501で求めた収集優先度で取得URL記憶部1内の取得URLキューに挿入する。
次に、図5のステップS501におけるURL収集優先度計算の動作の詳細を説明する。図6は、本発明の実施の形態1におけるURL収集優先度計算処理のフローチャートである。まず、ステップS601において、リンク先URL優先度設定手段7は、URLのサーバ名部分が“jp”や“ja”など日本を表す文字列を含むかどうかを判定し、含まれる場合には、ステップS605において、リンク抽出手段6が図3の動作に基づいてすでに設定した仮優先度の値を収集優先度の値とする。なお、このような文字列の情報は、図1には図示されていないが、リンク先URL優先度設定手段7の有している記憶部にあらかじめ設定されているものである。
ステップS605の処理は、当該サーバを日本語Web情報収集の目的に対して高関連度サーバと判定することに相当する。異なる言語や国のWeb情報を選択的に収集する場合には、判定に用いる文字列を目的に合わせて変更する。適切な文字列が存在しない収集目的に対しては、リンク先URL優先度設定手段7は、ステップS601の処理を省略することができる。
ステップS601の条件が不成立の場合には、ステップS602において、リンク先URL優先度設定手段7は、Webサーバ関連度テーブル20の情報に基づいて当該サーバの関連度を判定する。当該サーバの高関連度ページ数22が0より大きい場合、すなわち過去に高関連度ページをダウンロードした実績があれば、ステップS605に進み、リンク先URL優先度設定手段7は、先と同様に仮優先度と同じ値を収集優先度として設定する。
また、高関連度ページ数22が0でかつ低関連度ページ数23が定数Tより小さい場合には、ステップS604において、リンク先URL優先度設定手段7は、収集優先度を、リンク抽出手段6が図3の動作に基づいて設定した仮優先度の値+1に、すなわちより低い優先度に設定する。これは、当該サーバの関連度を判定中であることを示しており、中程度の優先度で収集を行なう効果を持つ。
また、高関連度ページ数22が0でかつ低関連度ページ数23が定数Tに等しいかTより大きい場合には、ステップS603において、リンク先URL優先度設定手段7は、収集優先度を5、すなわち最低の優先度に設定する。これは、一定数のWebページをダウンロードしても高関連度のWebページが発見されなかったために、当該サーバ全体を低関連度と判定することを意味する。
図6のようにして収集優先度が設定されると、先に説明した図5のステップS502において、定数Jを5に設定した場合には、低関連度サーバへのリンクが全て棄却される。定数Jを4に設定した場合には、低関連度サーバへのリンクに加え、非日本語ページから判定中サーバへのリンク(すなわち、仮優先度が3であったものに相当)が棄却される。このようにして、Jの設定値に応じて、優先度の低いリンク先URLを取得URLキューに挿入せずに棄却するため、不要な低関連度ページの収集を防ぐことができる。
図7は、本発明の実施の形態1におけるWebサーバ関連度テーブル20が図2に例示した値を持つ場合における各URLの収集優先度の例を示したものである。ここでは、リンク元ページおよびアンカー文字列は、全て日本語とし、定数T=5とした場合を示しており、この場合には、仮優先度の値は、図3の処理によって全て1となる。
したがって、リンク先URL優先度設定手段7によって設定される収集優先度は、URLに対応するサーバが高関連度のもの(www.aaa.com)に対しては収集優先度=1、判定中のサーバ(www.bbb.net)に対しては収集優先度=1+1=2、低関連度のサーバ(www.ccc.org)に対しては収集優先度=5となっている。
図8は、本発明の実施の形態1における選択的Web情報収集装置の効果を示す概念図である。上述した処理によりリンク先URLの収集優先度を求めることにより、低関連度情報の収集範囲を従来技術に比べて大幅に削減できることを示している。
実施の形態1によれば、優先度設定手段は、リンク先のサーバの関連度を過去の実績に基づいて計算し、未収集のURLの関連度を予測して収集優先度を設定することができる。これにより、低関連度のWebサーバからのWebページ収集を一定値以下に保ち、低関連度Webページのダウンロード数を全体として抑制することができ、効率的な選択的Web情報収集の実現が可能になる。
さらに、優先度設定手段は、リンク元のWebページの関連度やアンカー文字列の関連度を収集優先度に反映することができる。これにより、高関連度サーバや関連度判定中のサーバに対しても関連度の高い情報を優先的に収集する制御を行なうことができる。
なお、以上の実施の形態1では、優先度の値として1から5までの整数値を用いたが、より細分化した優先度を設定してもよい。例えば、図6のステップS602において、高関連度サーバに設定する優先度を、高関連度ページ数の絶対値や高関連度ページ数と低関連度ページ数の比の範囲に応じて、さらに細かい優先度付けを行なうことができる。
実施の形態2.
実施の形態1では、未収集URLの収集優先度をWebサーバの過去の実績に基づいて設定した。次に、URLのディレクトリ毎の実績に基づいて収集優先度を設定する選択的Web情報収集装置の実施の形態について説明する。この実施の形態2では、その全体構成は、実施の形態1の全体構成である図1と同様であるが、関連度記憶部5に格納される関連度テーブルの情報が異なる。
図9は、本発明の実施の形態2における関連度記憶部5に格納される関連度テーブルのデータ構造を示す図である。実施の形態1では、図2のWebサーバ関連度テーブル20が関連度テーブルとして関連度記憶部5に格納されていた。実施の形態2では、図9に示すように、Webサーバ・ディレクトリ名91に関連づけられたWebサーバ・ディレクトリ関連度テーブル90が関連度テーブルとして関連度記憶部5に格納されている。
Webサーバ・ディレクトリ関連度テーブル90は、URL文字列のうち、サーバ名とディレクトリ名(URL末尾の“/”に続く部分を取り除いた文字列)毎に、サーバ・ディレクトリ名91を保持し、当該サーバ・ディレクトリ名に対応するWebページのうち、Webページ関連度計算手段4により高関連度と判定された高関連度ページ数92および低関連度ページ数93をサーバ・ディレクトリ名91と関連づけて保持する。このようなサーバ名とディレクトリ名からなる部分をプレフィックスと称する。
図10は、本発明の実施の形態2におけるURL収集優先度計算処理のフローチャートであり、図5のステップS501に対応するリンク先URL優先度設定手段7によるURL収集優先度計算処理に相当する。まず、ステップS1001において、リンク先URL優先度設定手段7は、URLのサーバ名およびディレクトリ名部分に相当するプレフィックスが“jp”や“ja”など日本を表す文字列を含むかどうかを判定し、含まれる場合には、ステップS1005において、収集優先度=仮優先度に設定する。
ステップS1001の条件が不成立の場合には、ステップS1002において、リンク先URL優先度設定手段7は、Webサーバ・ディレクトリ関連度テーブル90の情報に基づいて当該サーバ・ディレクトリの関連度を判定する。当該サーバ・ディレクトリの高関連度ページ数92が0より大きい場合、すなわち過去に高関連度ページをダウンロードした実績があれば、ステップS1005に進む。
また、高関連度ページ数92が0でかつ低関連度ページ数93が定数Tより小さい場合には、ステップS1004において、リンク先URL優先度設定手段7は、収集優先度を仮優先度+1に設定する。また、高関連度ページ数92が0でかつ低関連度ページ数93が定数Tに等しいかTより大きい場合には、ステップS1003において、リンク先URL優先度設定手段7は、収集優先度を5に設定する。このような図10における収集優先度の設定処理は、基本的には実施の形態1の図6における処理と同様である。
図11は、本発明の実施の形態2におけるWebサーバ・ディレクトリ関連度テーブル90が図9に例示した値を持つ場合における各URLの収集優先度の例を示したものである。ここでは、リンク元ページおよびアンカー文字列は、全て日本語とし、定数T=5とした場合を示しており、仮優先度の値は、全て1に相当する。
したがって、リンク先URL優先度設定手段7によって設定される収集優先度は、URLに対応するサーバ・ディレクトリが高関連度のもの(www.iii.com/products/)に対しては収集優先度=1、判定中のサーバ・ディレクトリ(www.iii.com/service/)に対しては収集優先度=1+1=2、低関連度のサーバ・ディレクトリ(www.iii.com/international/)に対しては収集優先度=5となっている。
実施の形態2によれば、優先度設定手段は、サーバ内のディレクトリを単位として過去の実績を保持し、関連度を判定することができる。これにより、同一サーバ上でディレクトリ毎に異なる言語のWebページを配置している場合や、一部のディレクトリに目的とするWebページが局在している場合でも、不要なディレクトリからのWebページ収集を抑え、選択的Web情報収集の効率をさらに高めることが可能になる。
なお、ディレクトリを全て独立のものとして扱わずに、一定のレベル以内、例えば“/”文字2つまでで識別することにしてもよい。異なる言語のWebページは、ディレクトリ階層の上位で分けられることが多く、このような識別をすることによりWebサーバ・ディレクトリ関連度テーブルの規模を抑え、かつ不要なディレクトリ階層からのWebページ収集を削減することができる。
実施の形態3.
次に、複数のWebページからのリンク先URLとして同一のURLに対する複数のリンク元の情報を用いて、URLの収集優先度を動的に変更する選択的Web情報収集装置の実施の形態について説明する。この実施の形態3では、その全体構成は、実施の形態1及び2の全体構成である図1と同様であるが、URL状態記憶部8に格納される情報が異なるとともに、リンク先URL優先度設定手段7とWebページダウンロード手段2の動作が異なる。
図12は、本発明の実施の形態3におけるURL状態記憶部8に格納されるURL状態テーブル120のデータ構造を示す図である。実施の形態1及び2では、図4に示す既知URLテーブル40がURL状態記憶部8に格納されていたが、実施の形態3では、図12に示すようなURL状態テーブル120がURL状態記憶部8に格納されている。
URL状態テーブル120は、リンク先URLをURL識別子121とし、URL識別子121に対応して状態122および基本優先度123を有するとともに、URL識別子121に対する複数のリンク元のURLの情報について、被参照サーバ数124、および定数(R−1)個の被参照サーバ識別子125を格納している。URL識別子121は、図4の既知URLテーブル40におけるURL識別子41と同様、URL文字列のCRCチェックサムなどを用いることができる。
状態122には、既にダウンロードが完了し、関連度を評価積みのURLに対しては「収集済み」を示す値が設定され、また、取得URL記憶部1内の取得URLキューに格納されており、これから関連度の評価を行うURLに対しては「収集予定」を示す値が設定される。基本優先度123は、実施の形態1において、図6を用いて説明した処理により設定される各リンク先URLの収集優先度に相当する。
被参照サーバ数124は、0からRまでの整数値を取り、リンク先URLが参照されているリンク元のURLの数を示している。また、被参照サーバ識別子125は、被参照サーバ数124の値が示す個数のそれぞれに対応するリンク元URLのサーバ識別子を示している。
ただし、被参照サーバ数124がRに等しい場合には、被参照サーバ識別子は、(R−1)個のサーバ識別子を保持する。サーバ識別子には、URL識別子121と同様にサーバ名文字列のチェックサム値を用いることができる。URL状態テーブル120は、既知URLテーブル40と同様に主記憶装置上あるいは二次記憶装置上のハッシュテーブルとして実現することができる。
次に、リンク先URL優先度設定手段7の動作を説明する。図13は、本発明の実施の形態3におけるリンク先URL優先度設定手段7による処理のフローチャートである。まず、ステップS1301において、リンク先URL優先度設定手段7は、先に説明した図6に示すフローチャートの処理に従ってリンク先URLの収集優先度を計算し、その値を基本優先度とする。
次に、ステップS1302において、リンク先URL優先度設定手段7は、当該URLがURL状態テーブル120に既に登録されているかどうかを判定する。未登録であれば、ステップS1308に進み、リンク先URL優先度設定手段7は、URL状態テーブル120に当該URLの新たなエントリを挿入する。
ただし、新たに挿入されるURLは、対応する状態122としては「収集予定」が設定され、基本優先度123としてはステップS1301で求めた値が設定され、被参照サーバ数124としては0が設定される。すなわち、被参照サーバ数124が0ということは、URL識別子121に対応するリンク先URLは、まだ1つのWebページの中にしか含まれておらず、1つのWebサーバからしか参照されていないことを意味している。
さらに、ステップS1309において、リンク先URL優先度設定手段7は、後述する方法によりリンク元サーバ(ダウンロードしたURLのWebサーバ名部分)の識別子をURL状態テーブル120に反映し、ステップS1310に進む。すなわち、リンク先URL優先度設定手段7は、URL識別子121に対応する被参照サーバ数124および被参照サーバ識別子125を求め、URL状態テーブル120に反映する。
一方、先のステップS1302において当該URLがURL状態テーブル120に登録済みの場合には、ステップS1303に進み、リンク先URL優先度設定手段7は、URL状態テーブル120の状態122が「収集予定」であるか否かを判定する。状態122が「収集予定」でない場合、すなわち「収集済み」の場合には、リンク先URL優先度設定手段7は、処理を終了する。
また、状態122が「収集予定」の場合には、ステップS1304に進み、リンク先URL優先度設定手段7は、ステップS1301で求めた新たな基本優先度がURL状態テーブル120の基本優先度123より高ければ(すなわち、値が小さければ)、基本優先度123をステップS1301で求めた値に更新する。
次に、ステップS1305において、リンク先URL優先度設定手段7は、ステップS1309と同様にしてリンク元サーバ識別子をURL状態テーブル120に反映する。続いて、ステップS1306において、リンク先URL優先度設定手段7は、URL状態テーブル120の更新前と更新後で、基本優先度×R−被参照サーバ数+1の値を比較し、変化がなければ処理を終了する。
ここで、基本優先度×R−被参照サーバ数+1で求まる値の意味を説明する。この値をRで割ったもの、すなわち{基本優先度−(被参照サーバ数−1)/R}として求まる値は、被参照サーバ数124が大きければ大きいほど小さくなり、1つの優先度を1/R毎に細分化した優先度に相当する。例えば、基本優先度が2でRが5のときに、被参照サーバ数が0の場合の上式の値は1.8となり、被参照サーバ数が2の場合の上式の値は1.6となり、被参照サーバ数が増えるにしたがって値が小さくなり、優先度としては高くなることを意味する。基本優先度×R−被参照サーバ数+1は、求まる値を整数化するために、優先度をR倍しているものである。
値が変化した場合には、ステップS1307に進み、リンク先URL優先度設定手段7は、取得URL記憶部1内の取得URLキューから当該URLを一端削除する。ただし、更新前の(基本優先度×R−被参照サーバ数+1)の値が定数Jと等しいかJより大きい場合には、当該URLは、取得URL記憶部1内の取得URLキューに存在しないので、リンク先URL優先度設定手段7は、このステップを省略することができる。
次に、ステップS1310において、リンク先URL優先度設定手段7は、更新後の(基本優先度×R−被参照サーバ数+1)の値が定数Jより小さいかどうか判定し、小さくない場合には、処理を終了する。ステップS1310の条件が成り立つ場合には、ステップS1311に進み、リンク先URL優先度設定手段7は、更新後の(基本優先度×R−被参照サーバ数+1)をRで割った値を収集優先度として当該URLを取得URL記憶部1内の取得URLキューに挿入する。
なお、URL状態テーブル120の状態122は、Webページダウンロード手段2が当該URLの内容をダウンロードした後に、Webページダウンロード手段2によって「収集済み」に更新される。
次に、図13のステップS1305およびステップS1309におけるリンク元サーバである被参照サーバ識別子125のURL状態テーブル120への反映の動作を説明する。図14は、本発明の実施の形態3におけるリンク元サーバ識別子のURL状態テーブル120への反映処理を示すフローチャートである。はじめに、ステップS1401において、リンク先URL優先度設定手段7は、リンク先URLのサーバとリンク元URLのサーバ(リンク先URLが含まれていた被参照サーバ)とを比較する。
両者が等しい場合、すなわち同一サーバ内のリンクである場合には、リンク先URL優先度設定手段7は、処理を終了する。一方、異なるサーバ間のリンクの場合には、ステップS1402において、リンク先URL優先度設定手段7は、URL状態テーブル120の被参照サーバ数124の値が定数Rより小さいかどうか判定し、小さくない場合には処理を終了する。
小さい場合には、ステップS1403において、リンク先URL優先度設定手段7は、当該リンク元サーバ識別子がURL状態テーブル120の被参照サーバ識別子125の中に含まれるかどうか判定し、含まれている場合には処理を終了する。
含まれていない場合には、ステップS1404において、リンク先URL優先度設定手段7は、リンク元サーバ識別子を被参照サーバ識別子125に追加し、被参照サーバ数124に1を加える。ただし、元の被参照サーバ数124が(R−1)に等しい場合には、リンク先URL優先度設定手段7は、被参照サーバ識別子125を更新せず、被参照サーバ数124をRに設定する。これは、被参照サーバ数124がRに達した場合に、被参照サーバ識別子125は参照されなくなるためであり、URL状態テーブル120のサイズを削減する効果を持つ。
実施の形態3によれば、それぞれのリンク先URLが異なるサーバからどのくらい参照されているかを保持し、参照数に応じて動的に収集優先度を求めるため、多くのサーバから参照されているWebページを優先的に収集する効果を持つ。Webにおいては、有用なページは多くのサーバから参照される傾向が強いので、これにより収集したWeb情報の有用度も高めることができる。
さらに、基本優先度と被参照サーバ数を組み合わせて収集優先度を設定することにより、関連度が低いページであっても有用度の高いページを収集することができ、例えば、日本語Webページとともに日本語Webページから多く参照されている周辺情報を同時に収集することなどが可能になる。
実施の形態4.
次に、複数のWebサーバからのダウンロードを並行して実行する際に、Webサーバの関連度に応じて優先順位付けを行なう選択的Web情報収集装置の実施の形態を説明する。
この実施の形態4は、図1の全体構成に対し、Webページダウンロード手段2が接続管理テーブル150をさらに備える点が実施の形態1と異なる。図15は、本発明の実施の形態4における接続管理テーブル150のデータ構造を示す図である。接続管理テーブル150は、4つのサーバ優先順位151のそれぞれに対し、使用接続数152と最大接続数153を格納する。この接続管理テーブルは、図1には図示されていないが、Webページダウンロード手段2の有している記憶部に記憶されているものである。
サーバ優先順位151は、一例として、図6の高関連度サーバに対する値を1、判定中サーバのうち、低関連度ページ数が0より大きいものに対する値を2、低関連度ページ数および高関連度ページ数がともに0、すなわち未アクセスサーバに対する値を3、そして、低関連度サーバに対する値を4としてそれぞれ設定されている。ただし、低関連度サーバからのダウンロードを全く行なわない場合には、サーバ優先順位が4である最後のエントリは、省略することができる。
使用接続数152は、当該優先順位のサーバが使用中の接続数を示すものであり、Webページダウンロード手段2は、ダウンロードの都度、例えば、TCP/IPソケットを割り当てる際に使用接続数152を+1とし、ダウンロード後にソケットを閉じる際に−1とする。最大接続数153は、定数であり、当該優先順位のサーバに同時に割り当てる許容最大接続数としてあらかじめ設定されている。
次に、Webページダウンロード手段2がURLのダウンロードを開始する際の接続割り当て動作を説明する。図16は、本発明の実施の形態4における接続割り当て動作処理のフローチャートである。はじめに、ステップS1601において、Webページダウンロード手段2は、変数Pを0に初期化し、ステップS1602において、Pに1を加える。
次に、ステップS1603において、Webページダウンロード手段2は、接続管理テーブル150のサーバ優先順位151がPに等しいエントリの使用接続数152と最大接続数153とを比較し、使用接続数152が最大接続数153より小さくない場合には、接続割り当ての失敗を示す応答を返し、当該URLのダウンロードを待機させる。すなわち、Pの値に対応するサーバ優先順位151の使用接続数152がすでに最大接続数153に等しいときは、ダウンロード要求のあるURLを常に待機中にすることを意味している。
使用接続数152が最大接続数153より小さい場合には、ステップS1604に進み、Webページダウンロード手段2は、ダウンロードしようとするURLのサーバの優先順位が変数Pより大きいならばステップS1602に戻る。それ以外の場合には、ステップS1605において、Webページダウンロード手段2は、接続管理テーブル150のサーバ優先順位Pに対応する使用接続数152の値に1を加えて成功応答を返し、当該URLのダウンロードを開始させる。このようにして、Webページダウンロード手段2は、接続管理テーブル150を用いて、関連度の値に応じて同時にダウンロードできるWebサーバの数を制限することができる。
実施の形態4によれば、Webページダウンロード手段は、サーバ優先順位に対応する最大接続数の設定に応じて、関連度が高いサーバに優先的に接続割り当てを行なうことができる。これにより、複数Webサーバへの同時接続を行なう場合に、低関連度サーバや判定中のサーバが多くの接続を占有してしまうことで高関連度Webページ全体の収集速度が低下することを防ぐことができる。
特に、判定中サーバのうち、未アクセスサーバをより低い優先順位に設定することで、サーバやネットワーク経路に障害があった場合に、タイムアウトするまで接続が長時間占有され、著しくネットワーク使用効率が低下するのを防ぐことができる。
実施の形態5.
次に、Webサーバの関連度とともにネットワーク経路の距離を考慮して優先度付けを行なう選択的Web情報収集装置の実施の形態を説明する。この実施の形態5では、全体構成は、実施の形態1の全体構成である図1と同様であるが、関連度記憶部5に格納される関連度テーブルの情報が異なる。
図17は、本発明の実施の形態2における関連度記憶部5に格納される関連度テーブルのデータ構造を示す図である。実施の形態1では、図2のWebサーバ関連度テーブル20が関連度テーブルとして関連度記憶部5に格納されていた。実施の形態5では、図17に示すように、ネットワーク距離を付加したWebサーバ関連度・距離テーブル170が関連度テーブルとして関連度記憶部5に格納されている。
Webサーバ関連度・距離テーブル170は、Webサーバ毎に、Webサーバ名171、高関連度ページ数172、低関連度ページ数173、ネットワーク距離174を格納している。
図1のWebページダウンロード手段2は、Webサーバ関連度・距離テーブル170を参照し、ダウンロードしようとするURLのWebサーバのエントリが存在しないか、あるいは高関連度ページ数172および低関連度ページ数173がともに0の場合に、当該Webサーバまでのネットワーク距離を計測し、Webサーバ関連度・距離テーブル170のネットワーク距離174の値を設定する。
ネットワーク距離は、Webサーバまでのネットワーク経路上のIPルータ機器の数(ホップ数)であり、tracerouteなど公知のコンピュータプログラムを用いて計測することができる。
図1のリンク先URL優先度設定手段7は、図6と同様のURL収集優先度計算において、Webサーバ関連度テーブル20の代わりにWebサーバ関連度・距離テーブル170を参照し、高関連度ページ数172および低関連度ページ数173に加えてネットワーク距離174に基づいて収集優先度の決定を行う。
例えば、ネットワーク距離174が20を越えていたら、リンク先URL優先度設定手段7は、高関連度ページ数172や低関連度ページ数173の値に関わらず低関連度サーバとみなし、最低収集優先度である5をリンク先URLに付与することができる。
実施の形態5によれば、Webページダウンロード手段は、Webサーバへのネットワーク上の距離を収集優先度に反映することができる。これにより、特定の組織や地域(国)に関する選択的Web情報収集を効率的に実施することが可能になる。
実施の形態6.
次に、Webサーバ毎のWebページ平均関連度を用いて収集優先度を設定する実施の形態を説明する。この実施の形態6では、全体構成は、実施の形態1の全体構成である図1と同様であるが、関連度記憶部5に格納される関連テーブルの情報が異なる。
図18は、本発明の実施の形態6における関連度記憶部5に格納される関連度テーブルのデータ構造を示す図である。実施の形態1では、図2のWebサーバ関連度テーブルが関連度テーブルとして関連度記憶部5に格納されていた。実施の形態5では、図18に示すように、平均関連度を有するWebサーバ平均関連度テーブル180が関連度テーブルとして関連度記憶部5に格納されている。
Webサーバ平均関連度テーブル180は、Webサーバ毎に、Webサーバ名181、平均関連度182、収集済みページ数183を格納している。
図1のWebページ関連度計算手段4は、ダウンロードしたWebページの関連度を計算し、Webサーバ平均関連度テーブル180の更新を行う。Webページの関連度をr、更新前の平均関連度182の値をm、収集済みページ数183の値をnとすると、更新後の平均関連度182は、
(n×m+r)÷(n+1)
であり、収集済みページ数183は、(n+1)となる。
図1のリンク先URL優先度設定手段7は、図6と同様のURL収集優先度計算において、Webサーバ関連度テーブル20の代わりにWebサーバ平均関連度テーブル180を参照し、平均関連度182や収集済みページ数183に基づいて収集優先度の決定を行う。
例えば、リンク先URL優先度設定手段7は、収集済みページ数183の値が定数Tより小さいWebサーバに対しては中程度の収集優先度を、収集済みページ数183の値が定数T以上で平均関連度182の値が0.7より大きいWebサーバに対しては高い収集優先度を、そして、その他のWebサーバに対しては低い収集優先度をそれぞれ付与することができる。
実施の形態6によれば、Webページ関連度計算手段は、Webサーバ毎の収集済みページの平均的な関連度に基づいて収集優先度を設定できる。これにより、個々のWebページを高関連度と低関連度のいずれかに分類することが困難なトピックに対しても、統計的な情報を用いてきめ細かな収集優先度設定が可能であり、選択的Web情報収集の効率を向上することができる。
本発明の実施の形態1に係る選択的Web情報収集装置の構成図である。 本発明の実施の形態1における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。 本発明の実施の形態1における仮優先度設定処理のフローチャートである。 本発明の実施の形態1におけるURL状態記憶部に格納される既知URLテーブルのデータ構造を示す図である。 本発明の実施の形態1におけるリンク先URL優先度設定手段による処理のフローチャートである。 本発明の実施の形態1におけるURL収集優先度計算処理のフローチャートである。 本発明の実施の形態1におけるWebサーバ関連度テーブルが図2に例示した値を持つ場合における各URLの収集優先度の例を示したものである。 本発明の実施の形態1における選択的Web情報収集装置の効果を示す概念図である。 本発明の実施の形態2における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。 本発明の実施の形態2におけるURL収集優先度計算処理のフローチャートである。 本発明の実施の形態2におけるWebサーバ・ディレクトリ関連度テーブルが図9に例示した値を持つ場合における各URLの収集優先度の例を示したものである。 本発明の実施の形態3におけるURL状態記憶部に格納されるURL状態テーブルのデータ構造を示す図である。 本発明の実施の形態3におけるリンク先URL優先度設定手段による処理のフローチャートである。 本発明の実施の形態3におけるリンク元サーバ識別子のURL状態テーブルへの反映処理を示すフローチャートである。 本発明の実施の形態4における接続管理テーブルのデータ構造を示す図である。 本発明の実施の形態4における接続割り当て動作処理のフローチャートである。 本発明の実施の形態2における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。 本発明の実施の形態6における関連度記憶部に格納される関連度テーブルのデータ構造を示す図である。
符号の説明
1 取得URL記憶部、2 Webページダウンロード手段、3 Webページ記憶部、4 Webページ関連度計算手段、5 関連度記憶部、6 リンク抽出手段、7 リンク先URL優先度設定手段、8 URL状態記憶部、20 Webサーバ関連度テーブル、40 既知URLテーブル、90 Webサーバ・ディレクトリ関連度テーブル、120 URL状態テーブル、150 接続管理テーブル、170 Webサーバ関連度・距離テーブル、180 Webサーバ平均関連度テーブル。

Claims (13)

  1. 収集すべきWebページのURLが収集優先度の順位にしたがって並べられた取得URLキューを記憶する取得URL記憶部と、
    Webページの内容と収集対象との関連度と、Webサーバ名とを関連づけた関連度テーブルを記憶する関連度記憶部と、
    前記取得URLキューから前記収集優先度の順位にしたがってURLを取り出し、前記URLによりダウンロードしたWebページの内容に基づいて前記関連度を求めて前記関連度テーブルを生成し、生成した前記関連度テーブルを前記関連度記憶部に記憶させる関連度計算手段と、
    前記関連度計算手段でダウンロードされた前記Webページ内に含まれるリンク先URLを取り出し、取り出した前記リンク先URLに含まれる情報および前記Webページ内に含まれる情報から前記リンク先URLの仮優先度を設定し、前記関連度テーブルおよび前記仮優先度に基づいて前記リンク先URLの収集優先度を設定し、設定した前記収集優先度にしたがって、収集すべきWebページの新たなURLとして前記リンク先URLを前記取得URLキューに挿入する優先度設定手段と
    を備えることを特徴とする選択的Web情報収集装置。
  2. 請求項1に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、前記Webページに含まれるページに対して、前記関連度が一定値以上であった高関連度ページ数と、それ以外の低関連度ページ数を求め、前記高関連度ページ数および前記低関連度ページ数と、前記Webサーバ名とを関連づけた関連度テーブルを生成し、
    前記優先度設定手段は、前記関連度テーブルに基づいて、高関連度ページ数が0より大きいWebサーバからのリンク先URLに高い収集優先度を設定し、高関連度ページ数が0で低関連度ページ数が一定値未満のWebサーバからのリンク先URLに中程度の収集優先度を設定し、高関連度ページ数が0で低関連度ページ数が一定値以上のWebサーバからのリンク先URLに低い収集優先度を設定する
    ことを特徴とする選択的Web情報収集装置。
  3. 請求項2に記載の選択的Web情報収集装置において、
    前記優先度設定手段は、特定の文字列パターンがあらかじめ記憶された記憶部を有し、当該文字列パターンに一致する名前を持つWebサーバからのリンク先URLに高い収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度ページ数が0より大きいWebサーバからのリンク先URLに高い収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度ページ数が0で低関連度ページ数が一定値未満のWebサーバからのリンク先URLに中程度の収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度Webページ数が0で低関連度ページ数が一定値以上のWebサーバからのリンク先URLに低い収集優先度を設定する
    ことを特徴とする選択的Web情報収集装置。
  4. 請求項2または3に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、特定の文字コードセット名の集合があらかじめ記憶された記憶部を有し、前記Webページに含まれるページに対して、Webページの記述文字コードセットが当該文字コードセットに含まれるかまたは当該文字コードセットのいずれかに変換可能である場合に高関連度ページとし、それ以外のWebページを低関連度ページとすることを特徴とする選択的Web情報収集装置。
  5. 請求項4に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、日本語に用いられる特定の文字コードセット名の集合があらかじめ記憶された記憶部を有し、前記Webページに含まれるページに対して、Webページの記述文字コードセットが日本語文字コードセットに含まれるかまたは日本語文字コードセットのいずれかに変換可能である場合に高関連度ページとし、それ以外のWebページを低関連度ページとすることを特徴とする選択的Web情報収集装置。
  6. 請求項5に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、Webサーバ名と比較する特定の文字列パターンとして部分文字列jp、ja、japanが記憶された記憶部を有することを特徴とする選択的Web情報収集装置。
  7. 請求項5または6に記載の選択的Web情報収集装置において、
    前記優先度設定手段は、Webページが日本語文字コードセットで記述されていない場合にはリンク先URLの収集優先度をより低く設定し、Webページが日本語文字コードセットで記述されており、アンカー文字列が日本語文字コードセットで記述されているか、あるいはアンカー文字列がURLと解釈できる場合に、リンク先URLの収集優先度をより高く設定することを特徴とする選択的Web情報収集装置。
  8. 請求項1に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、前記Webページに含まれるページに対して、平均関連度および収集ページ数を求め、前記Webサーバ名と関連づけた前記平均関連度および前記収集ページ数を有する関連度テーブルを生成し、
    前記優先度設定手段は、前記収集ページ数が一定値未満のWebサーバからのリンク先URLに中程度の収集優先度を設定し、前記収集ページ数が一定値以上のWebサーバからのリンク先URLに対して前記平均関連度に応じた収集優先度を設定する
    ことを特徴とする選択的Web情報収集装置。
  9. 請求項1ないし8に記載の選択的Web情報収集装置において、
    前記関連度記憶部は、Webサーバ名の代わりにWebサーバ名およびディレクトリ名を含むプレフィックスと関連づけて前記関連度テーブルを記憶し、
    前記関連度計算手段は、前記プレフィックスと関連づけた前記関連度テーブルを生成し、前記優先度設定手段は、前記プレフィックスと関連づけた前記関連度テーブルに基づいて前記収集優先度を設定する
    ことを特徴とする選択的Web情報収集装置。
  10. 請求項1ないし9に記載の選択的Web情報収集装置において、
    リンク先URLと前記リンク先URLの参照元のWebサーバ名とを関連づけたURL状態テーブルを記憶するURL状態記憶部をさらに備え、
    前記優先度設定手段は、収集優先度を設定したリンク先URLがすでに前記URL状態テーブルに格納されている場合には、前記リンク先URLの参照元のWebサーバ名を追加して前記URL状態テーブルを更新し、収集優先度を設定したリンク先URLがまだ前記URL状態テーブルに格納されていない場合には、前記リンク先URLと前記リンク先URLの参照元のWebサーバ名とを関連づけたデータを新たに前記URL状態テーブルに追加し、前記URL状態テーブルに格納されている前記リンク先URLの参照元のWebサーバ名の数に応じて前記リンク先URLの収集優先度を再設定し、再設定した前記収集優先度により前記取得URL記憶部に記憶されている前記取得URLキューの並び替えを行う
    ことを特徴とする選択的Web情報収集装置。
  11. 請求項10に記載の選択的Web情報収集装置において、
    前記優先度設定手段は、再設定前と再設定後のリンク先URLの収集優先度が等しいとき、あるいはともに一定値未満のときは、前記取得URLキューを更新せず、再設定前のリンク先URLの収集優先度が一定値未満であり、かつ再設定後のリンク先URLの収集優先度が一定値以上のときは、前記リンク先URLを前記取得URLキューに追加し、再設定前と再設定後のリンク先URLの収集優先度が異なり、かつともに一定値以上のときは、前記取得URLキューの並び替えを行い、再設定前のリンク先URLの収集優先度が一定値以上であり、かつ再設定後のリンク先URLの収集優先度が一定値未満のときは、前記リンク先URLを前記取得URLキューから削除することを特徴とする選択的Web情報収集装置。
  12. 請求項1ないし11に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、前記関連度の値に応じて同時にダウンロードできるWebサーバの許容最大接続数をあらかじめ有し、前記許容最大接続数に基づいて同時にダウンロードするWebサーバの数を制限することを特徴とする選択的Web情報収集装置。
  13. 請求項1ないし12に記載の選択的Web情報収集装置において、
    前記関連度計算手段は、ダウンロード対象のWebサーバまでのネットワーク経路上のIPルータ機器の数に基づいてネットワーク距離を計測し、前記ネットワーク距離に応じて収集優先度を変更することを特徴とする選択的Web情報収集装置。
JP2005045784A 2005-02-22 2005-02-22 選択的Web情報収集装置 Active JP4718205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005045784A JP4718205B2 (ja) 2005-02-22 2005-02-22 選択的Web情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005045784A JP4718205B2 (ja) 2005-02-22 2005-02-22 選択的Web情報収集装置

Publications (2)

Publication Number Publication Date
JP2006235729A true JP2006235729A (ja) 2006-09-07
JP4718205B2 JP4718205B2 (ja) 2011-07-06

Family

ID=37043343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005045784A Active JP4718205B2 (ja) 2005-02-22 2005-02-22 選択的Web情報収集装置

Country Status (1)

Country Link
JP (1) JP4718205B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041517A1 (ja) * 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報収集装置、検索エンジン、情報収集方法およびプログラム
JP2010140087A (ja) * 2008-12-09 2010-06-24 Nec Corp 情報収集装置、情報収集方法及びプログラム
JP2010186459A (ja) * 2009-01-15 2010-08-26 Ntt Docomo Inc コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法
WO2011019877A3 (en) * 2009-08-14 2011-06-30 Google Inc. Context based resource relevance
JP2014528136A (ja) * 2011-12-13 2014-10-23 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd ネットデータの採集方法及びシステム
CN104715016A (zh) * 2015-02-04 2015-06-17 北京中搜网络技术股份有限公司 一种搜悦采集方法
JP2019020958A (ja) * 2017-07-14 2019-02-07 株式会社日立製作所 情報収集支援装置および情報収集支援方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090111A (ja) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002259407A (ja) * 2000-12-27 2002-09-13 Fujitsu Ltd 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090111A (ja) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002259407A (ja) * 2000-12-27 2002-09-13 Fujitsu Ltd 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041517A1 (ja) * 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報収集装置、検索エンジン、情報収集方法およびプログラム
JP5325229B2 (ja) * 2008-10-08 2013-10-23 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報収集装置、検索エンジン、情報収集方法およびプログラム
US8676782B2 (en) 2008-10-08 2014-03-18 International Business Machines Corporation Information collection apparatus, search engine, information collection method, and program
JP2010140087A (ja) * 2008-12-09 2010-06-24 Nec Corp 情報収集装置、情報収集方法及びプログラム
JP2010186459A (ja) * 2009-01-15 2010-08-26 Ntt Docomo Inc コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法
WO2011019877A3 (en) * 2009-08-14 2011-06-30 Google Inc. Context based resource relevance
US8620929B2 (en) 2009-08-14 2013-12-31 Google Inc. Context based resource relevance
JP2014528136A (ja) * 2011-12-13 2014-10-23 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd ネットデータの採集方法及びシステム
CN104715016A (zh) * 2015-02-04 2015-06-17 北京中搜网络技术股份有限公司 一种搜悦采集方法
CN104715016B (zh) * 2015-02-04 2018-02-16 北京中搜搜悦网络技术有限公司 一种搜悦采集方法
JP2019020958A (ja) * 2017-07-14 2019-02-07 株式会社日立製作所 情報収集支援装置および情報収集支援方法

Also Published As

Publication number Publication date
JP4718205B2 (ja) 2011-07-06

Similar Documents

Publication Publication Date Title
JP4718205B2 (ja) 選択的Web情報収集装置
US7577939B2 (en) Method, system and program product for sharing source code over a network
US7801848B2 (en) Redistributing a distributed database
JP4559158B2 (ja) データにアクセスするための方法及びシステム
US8620926B2 (en) Using a hashing mechanism to select data entries in a directory for use with requested operations
CN109391664A (zh) 用于多集群容器部署的系统和方法
WO2008141583A1 (fr) Procédé d'entrée de caractères, système d'entrée et procédé pour mettre à jour un lexique de mots
JP2009528624A (ja) クエリの一部に基づくキャッシュクエリ結果の提供
JP2010538386A (ja) クエリ別検索コレクション生成方法およびシステム
KR101172885B1 (ko) 디바이스 식별자를 이용한 디바이스 프로파일 제공 시스템 및 방법
JP2008186157A (ja) Webページ再収集方式
WO2008060050A1 (en) Apparatus and method for parsing domain profile in software communication architecture
CN110737663A (zh) 一种数据存储方法、装置、设备及存储介质
JP2003271670A (ja) 情報収集装置、情報収集方法及びプログラム
CN115705313A (zh) 一种数据处理方法、装置、设备及计算机可读存储介质
KR20100022565A (ko) 해시트리를 이용한 url 검색방법
JP2007109237A (ja) データ検索システム、方法およびプログラム
JP2013054602A (ja) グラフパターンマッチングシステムおよびグラフパターンマッチング方法
Field et al. Grid Deployment Experiences: The path to a production quality LDAP based grid information system
CN102333123B (zh) 文件存储方法、设备、查找方法、设备和网络设备
CN109710860B (zh) 一种url分类匹配的方法及装置
De Roure et al. Investigating link service infrastructures
JP2010287036A (ja) ストレージサーバー装置及びコンピュータプログラム
JP2003167734A (ja) 名前対応付け方法及び装置
CN106407260A (zh) 一种获取文件类型的处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110331

R150 Certificate of patent or registration of utility model

Ref document number: 4718205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250