JP2006235729A - 選択的Web情報収集装置 - Google Patents
選択的Web情報収集装置 Download PDFInfo
- Publication number
- JP2006235729A JP2006235729A JP2005045784A JP2005045784A JP2006235729A JP 2006235729 A JP2006235729 A JP 2006235729A JP 2005045784 A JP2005045784 A JP 2005045784A JP 2005045784 A JP2005045784 A JP 2005045784A JP 2006235729 A JP2006235729 A JP 2006235729A
- Authority
- JP
- Japan
- Prior art keywords
- url
- relevance
- priority
- web
- link destination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 230000009193 crawling Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】取得URL記憶部1に記憶された取得URLキューから収集優先度の順位にしたがってURLを取り出し、Webページの内容と収集対象との関連度を含む関連度テーブルを生成する関連度計算手段2、4と、関連度計算手段2、4でダウンロードされたWebページ内に含まれるリンク先URLを取り出して仮優先度を設定し、関連度テーブルおよび仮優先度に基づいてリンク先URLの収集優先度を設定し、設定した収集優先度にしたがって、収集すべきWebページの新たなURLとしてリンク先URLを取得URLキューに挿入する優先度設定手段6、7とを備える。
【選択図】図1
Description
本発明の選択的Web情報収集装置は、Webページ内のリンク先URLの収集優先度を、元のWebページの関連度とリンク先URLの仮優先度とに基づいて算出することにより、所望の収集対象に関連する情報を効率的に収集できる特徴を備えた選択的Web情報収集装置に関するものである。
図1は、本発明の実施の形態1における選択的Web情報収集装置の構成図である。図1において、取得URL記憶部1は、収集すべきWebページのURLが収集優先度の順位にしたがって並べられた取得URLキューを記憶する記憶部である。なお、以下の実施の形態においては、収集優先度の数値が小さいものほど優先度(重要度)が高く、収集優先度の数値が大きいものほど優先度(重要度)が低いことを示している。
取得URL記憶部1内の取得URLキューは、優先順位付きのキューとしてURLが並べられている。これにより、Webページダウンロード手段2は、収集優先度の高いURLから順番に取り出すことができる。Webページダウンロード手段2は、HTTPなど公知の通信規約に基づいて実現できる。
実施の形態1では、未収集URLの収集優先度をWebサーバの過去の実績に基づいて設定した。次に、URLのディレクトリ毎の実績に基づいて収集優先度を設定する選択的Web情報収集装置の実施の形態について説明する。この実施の形態2では、その全体構成は、実施の形態1の全体構成である図1と同様であるが、関連度記憶部5に格納される関連度テーブルの情報が異なる。
次に、複数のWebページからのリンク先URLとして同一のURLに対する複数のリンク元の情報を用いて、URLの収集優先度を動的に変更する選択的Web情報収集装置の実施の形態について説明する。この実施の形態3では、その全体構成は、実施の形態1及び2の全体構成である図1と同様であるが、URL状態記憶部8に格納される情報が異なるとともに、リンク先URL優先度設定手段7とWebページダウンロード手段2の動作が異なる。
次に、複数のWebサーバからのダウンロードを並行して実行する際に、Webサーバの関連度に応じて優先順位付けを行なう選択的Web情報収集装置の実施の形態を説明する。
次に、Webサーバの関連度とともにネットワーク経路の距離を考慮して優先度付けを行なう選択的Web情報収集装置の実施の形態を説明する。この実施の形態5では、全体構成は、実施の形態1の全体構成である図1と同様であるが、関連度記憶部5に格納される関連度テーブルの情報が異なる。
次に、Webサーバ毎のWebページ平均関連度を用いて収集優先度を設定する実施の形態を説明する。この実施の形態6では、全体構成は、実施の形態1の全体構成である図1と同様であるが、関連度記憶部5に格納される関連テーブルの情報が異なる。
(n×m+r)÷(n+1)
であり、収集済みページ数183は、(n+1)となる。
Claims (13)
- 収集すべきWebページのURLが収集優先度の順位にしたがって並べられた取得URLキューを記憶する取得URL記憶部と、
Webページの内容と収集対象との関連度と、Webサーバ名とを関連づけた関連度テーブルを記憶する関連度記憶部と、
前記取得URLキューから前記収集優先度の順位にしたがってURLを取り出し、前記URLによりダウンロードしたWebページの内容に基づいて前記関連度を求めて前記関連度テーブルを生成し、生成した前記関連度テーブルを前記関連度記憶部に記憶させる関連度計算手段と、
前記関連度計算手段でダウンロードされた前記Webページ内に含まれるリンク先URLを取り出し、取り出した前記リンク先URLに含まれる情報および前記Webページ内に含まれる情報から前記リンク先URLの仮優先度を設定し、前記関連度テーブルおよび前記仮優先度に基づいて前記リンク先URLの収集優先度を設定し、設定した前記収集優先度にしたがって、収集すべきWebページの新たなURLとして前記リンク先URLを前記取得URLキューに挿入する優先度設定手段と
を備えることを特徴とする選択的Web情報収集装置。 - 請求項1に記載の選択的Web情報収集装置において、
前記関連度計算手段は、前記Webページに含まれるページに対して、前記関連度が一定値以上であった高関連度ページ数と、それ以外の低関連度ページ数を求め、前記高関連度ページ数および前記低関連度ページ数と、前記Webサーバ名とを関連づけた関連度テーブルを生成し、
前記優先度設定手段は、前記関連度テーブルに基づいて、高関連度ページ数が0より大きいWebサーバからのリンク先URLに高い収集優先度を設定し、高関連度ページ数が0で低関連度ページ数が一定値未満のWebサーバからのリンク先URLに中程度の収集優先度を設定し、高関連度ページ数が0で低関連度ページ数が一定値以上のWebサーバからのリンク先URLに低い収集優先度を設定する
ことを特徴とする選択的Web情報収集装置。 - 請求項2に記載の選択的Web情報収集装置において、
前記優先度設定手段は、特定の文字列パターンがあらかじめ記憶された記憶部を有し、当該文字列パターンに一致する名前を持つWebサーバからのリンク先URLに高い収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度ページ数が0より大きいWebサーバからのリンク先URLに高い収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度ページ数が0で低関連度ページ数が一定値未満のWebサーバからのリンク先URLに中程度の収集優先度を設定し、名前が当該文字列パターンに一致せず高関連度Webページ数が0で低関連度ページ数が一定値以上のWebサーバからのリンク先URLに低い収集優先度を設定する
ことを特徴とする選択的Web情報収集装置。 - 請求項2または3に記載の選択的Web情報収集装置において、
前記関連度計算手段は、特定の文字コードセット名の集合があらかじめ記憶された記憶部を有し、前記Webページに含まれるページに対して、Webページの記述文字コードセットが当該文字コードセットに含まれるかまたは当該文字コードセットのいずれかに変換可能である場合に高関連度ページとし、それ以外のWebページを低関連度ページとすることを特徴とする選択的Web情報収集装置。 - 請求項4に記載の選択的Web情報収集装置において、
前記関連度計算手段は、日本語に用いられる特定の文字コードセット名の集合があらかじめ記憶された記憶部を有し、前記Webページに含まれるページに対して、Webページの記述文字コードセットが日本語文字コードセットに含まれるかまたは日本語文字コードセットのいずれかに変換可能である場合に高関連度ページとし、それ以外のWebページを低関連度ページとすることを特徴とする選択的Web情報収集装置。 - 請求項5に記載の選択的Web情報収集装置において、
前記関連度計算手段は、Webサーバ名と比較する特定の文字列パターンとして部分文字列jp、ja、japanが記憶された記憶部を有することを特徴とする選択的Web情報収集装置。 - 請求項5または6に記載の選択的Web情報収集装置において、
前記優先度設定手段は、Webページが日本語文字コードセットで記述されていない場合にはリンク先URLの収集優先度をより低く設定し、Webページが日本語文字コードセットで記述されており、アンカー文字列が日本語文字コードセットで記述されているか、あるいはアンカー文字列がURLと解釈できる場合に、リンク先URLの収集優先度をより高く設定することを特徴とする選択的Web情報収集装置。 - 請求項1に記載の選択的Web情報収集装置において、
前記関連度計算手段は、前記Webページに含まれるページに対して、平均関連度および収集ページ数を求め、前記Webサーバ名と関連づけた前記平均関連度および前記収集ページ数を有する関連度テーブルを生成し、
前記優先度設定手段は、前記収集ページ数が一定値未満のWebサーバからのリンク先URLに中程度の収集優先度を設定し、前記収集ページ数が一定値以上のWebサーバからのリンク先URLに対して前記平均関連度に応じた収集優先度を設定する
ことを特徴とする選択的Web情報収集装置。 - 請求項1ないし8に記載の選択的Web情報収集装置において、
前記関連度記憶部は、Webサーバ名の代わりにWebサーバ名およびディレクトリ名を含むプレフィックスと関連づけて前記関連度テーブルを記憶し、
前記関連度計算手段は、前記プレフィックスと関連づけた前記関連度テーブルを生成し、前記優先度設定手段は、前記プレフィックスと関連づけた前記関連度テーブルに基づいて前記収集優先度を設定する
ことを特徴とする選択的Web情報収集装置。 - 請求項1ないし9に記載の選択的Web情報収集装置において、
リンク先URLと前記リンク先URLの参照元のWebサーバ名とを関連づけたURL状態テーブルを記憶するURL状態記憶部をさらに備え、
前記優先度設定手段は、収集優先度を設定したリンク先URLがすでに前記URL状態テーブルに格納されている場合には、前記リンク先URLの参照元のWebサーバ名を追加して前記URL状態テーブルを更新し、収集優先度を設定したリンク先URLがまだ前記URL状態テーブルに格納されていない場合には、前記リンク先URLと前記リンク先URLの参照元のWebサーバ名とを関連づけたデータを新たに前記URL状態テーブルに追加し、前記URL状態テーブルに格納されている前記リンク先URLの参照元のWebサーバ名の数に応じて前記リンク先URLの収集優先度を再設定し、再設定した前記収集優先度により前記取得URL記憶部に記憶されている前記取得URLキューの並び替えを行う
ことを特徴とする選択的Web情報収集装置。 - 請求項10に記載の選択的Web情報収集装置において、
前記優先度設定手段は、再設定前と再設定後のリンク先URLの収集優先度が等しいとき、あるいはともに一定値未満のときは、前記取得URLキューを更新せず、再設定前のリンク先URLの収集優先度が一定値未満であり、かつ再設定後のリンク先URLの収集優先度が一定値以上のときは、前記リンク先URLを前記取得URLキューに追加し、再設定前と再設定後のリンク先URLの収集優先度が異なり、かつともに一定値以上のときは、前記取得URLキューの並び替えを行い、再設定前のリンク先URLの収集優先度が一定値以上であり、かつ再設定後のリンク先URLの収集優先度が一定値未満のときは、前記リンク先URLを前記取得URLキューから削除することを特徴とする選択的Web情報収集装置。 - 請求項1ないし11に記載の選択的Web情報収集装置において、
前記関連度計算手段は、前記関連度の値に応じて同時にダウンロードできるWebサーバの許容最大接続数をあらかじめ有し、前記許容最大接続数に基づいて同時にダウンロードするWebサーバの数を制限することを特徴とする選択的Web情報収集装置。 - 請求項1ないし12に記載の選択的Web情報収集装置において、
前記関連度計算手段は、ダウンロード対象のWebサーバまでのネットワーク経路上のIPルータ機器の数に基づいてネットワーク距離を計測し、前記ネットワーク距離に応じて収集優先度を変更することを特徴とする選択的Web情報収集装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005045784A JP4718205B2 (ja) | 2005-02-22 | 2005-02-22 | 選択的Web情報収集装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005045784A JP4718205B2 (ja) | 2005-02-22 | 2005-02-22 | 選択的Web情報収集装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006235729A true JP2006235729A (ja) | 2006-09-07 |
JP4718205B2 JP4718205B2 (ja) | 2011-07-06 |
Family
ID=37043343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005045784A Active JP4718205B2 (ja) | 2005-02-22 | 2005-02-22 | 選択的Web情報収集装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4718205B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010041517A1 (ja) * | 2008-10-08 | 2010-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報収集装置、検索エンジン、情報収集方法およびプログラム |
JP2010140087A (ja) * | 2008-12-09 | 2010-06-24 | Nec Corp | 情報収集装置、情報収集方法及びプログラム |
JP2010186459A (ja) * | 2009-01-15 | 2010-08-26 | Ntt Docomo Inc | コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 |
WO2011019877A3 (en) * | 2009-08-14 | 2011-06-30 | Google Inc. | Context based resource relevance |
JP2014528136A (ja) * | 2011-12-13 | 2014-10-23 | 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd | ネットデータの採集方法及びシステム |
CN104715016A (zh) * | 2015-02-04 | 2015-06-17 | 北京中搜网络技术股份有限公司 | 一种搜悦采集方法 |
JP2019020958A (ja) * | 2017-07-14 | 2019-02-07 | 株式会社日立製作所 | 情報収集支援装置および情報収集支援方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090111A (ja) * | 1998-09-14 | 2000-03-31 | Matsushita Electric Ind Co Ltd | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002259407A (ja) * | 2000-12-27 | 2002-09-13 | Fujitsu Ltd | 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム |
JP2003271670A (ja) * | 2002-03-19 | 2003-09-26 | Mitsubishi Electric Corp | 情報収集装置、情報収集方法及びプログラム |
-
2005
- 2005-02-22 JP JP2005045784A patent/JP4718205B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090111A (ja) * | 1998-09-14 | 2000-03-31 | Matsushita Electric Ind Co Ltd | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002259407A (ja) * | 2000-12-27 | 2002-09-13 | Fujitsu Ltd | 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム |
JP2003271670A (ja) * | 2002-03-19 | 2003-09-26 | Mitsubishi Electric Corp | 情報収集装置、情報収集方法及びプログラム |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010041517A1 (ja) * | 2008-10-08 | 2010-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報収集装置、検索エンジン、情報収集方法およびプログラム |
JP5325229B2 (ja) * | 2008-10-08 | 2013-10-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報収集装置、検索エンジン、情報収集方法およびプログラム |
US8676782B2 (en) | 2008-10-08 | 2014-03-18 | International Business Machines Corporation | Information collection apparatus, search engine, information collection method, and program |
JP2010140087A (ja) * | 2008-12-09 | 2010-06-24 | Nec Corp | 情報収集装置、情報収集方法及びプログラム |
JP2010186459A (ja) * | 2009-01-15 | 2010-08-26 | Ntt Docomo Inc | コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 |
WO2011019877A3 (en) * | 2009-08-14 | 2011-06-30 | Google Inc. | Context based resource relevance |
US8620929B2 (en) | 2009-08-14 | 2013-12-31 | Google Inc. | Context based resource relevance |
JP2014528136A (ja) * | 2011-12-13 | 2014-10-23 | 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd | ネットデータの採集方法及びシステム |
CN104715016A (zh) * | 2015-02-04 | 2015-06-17 | 北京中搜网络技术股份有限公司 | 一种搜悦采集方法 |
CN104715016B (zh) * | 2015-02-04 | 2018-02-16 | 北京中搜搜悦网络技术有限公司 | 一种搜悦采集方法 |
JP2019020958A (ja) * | 2017-07-14 | 2019-02-07 | 株式会社日立製作所 | 情報収集支援装置および情報収集支援方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4718205B2 (ja) | 2011-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4718205B2 (ja) | 選択的Web情報収集装置 | |
US7577939B2 (en) | Method, system and program product for sharing source code over a network | |
US8484548B1 (en) | Anchor tag indexing in a web crawler system | |
US7801848B2 (en) | Redistributing a distributed database | |
JP4559158B2 (ja) | データにアクセスするための方法及びシステム | |
US8620926B2 (en) | Using a hashing mechanism to select data entries in a directory for use with requested operations | |
WO2008141583A1 (fr) | Procédé d'entrée de caractères, système d'entrée et procédé pour mettre à jour un lexique de mots | |
CN109391664A (zh) | 用于多集群容器部署的系统和方法 | |
JP2009528624A (ja) | クエリの一部に基づくキャッシュクエリ結果の提供 | |
JP2010538386A (ja) | クエリ別検索コレクション生成方法およびシステム | |
KR101172885B1 (ko) | 디바이스 식별자를 이용한 디바이스 프로파일 제공 시스템 및 방법 | |
JP2008186157A (ja) | Webページ再収集方式 | |
JP2003271670A (ja) | 情報収集装置、情報収集方法及びプログラム | |
CN115705313A (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
KR20100022565A (ko) | 해시트리를 이용한 url 검색방법 | |
JP2007109237A (ja) | データ検索システム、方法およびプログラム | |
JP2013054602A (ja) | グラフパターンマッチングシステムおよびグラフパターンマッチング方法 | |
CN109710860B (zh) | 一种url分类匹配的方法及装置 | |
De Roure et al. | Investigating link service infrastructures | |
CN102333123A (zh) | 文件存储方法、设备、查找方法、设备和网络设备 | |
JP2010287036A (ja) | ストレージサーバー装置及びコンピュータプログラム | |
JP2003167734A (ja) | 名前対応付け方法及び装置 | |
CN106407260A (zh) | 一种获取文件类型的处理方法及装置 | |
US20070088811A1 (en) | Management system and method of storing components in a distributed system | |
JP2005018217A (ja) | 検索サーバ装置及び検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4718205 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |