JP4795258B2 - Webページ再収集方式 - Google Patents
Webページ再収集方式 Download PDFInfo
- Publication number
- JP4795258B2 JP4795258B2 JP2007018012A JP2007018012A JP4795258B2 JP 4795258 B2 JP4795258 B2 JP 4795258B2 JP 2007018012 A JP2007018012 A JP 2007018012A JP 2007018012 A JP2007018012 A JP 2007018012A JP 4795258 B2 JP4795258 B2 JP 4795258B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- web server
- web
- access
- recollection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 83
- 238000000605 extraction Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 238000011112 process operation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Description
クローラは、他者が運用するWebサーバに対してアクセスを繰り返すため、Webサーバ本来の目的である一般利用者への情報提供を妨げないよう、十分な間隔を空けてアクセスするなどの配慮が必要である。こうしたWebサーバアクセス間隔への配慮は、インクリメンタルクローラにおけるWebページ再収集のスケジューリングとは相容れず、Webページ収集時期やWebページ収集範囲が不適切なものになってしまう可能性がある。
図1は、本発明の実施の形態1におけるWebページ再収集方式の構成図である。本実施の形態1におけるWebページ再収集方式は、Webサーバ状態記憶手段1、Webページ状態記憶手段2、Webページ内容記憶手段3、ディスパッチ手段4、Webページダウンロード手段5、Webページ再アクセススケジューリング手段6、Webサーバアクセススケジューリング手段7、およびハイパーリンク抽出手段8で構成される。
Webサーバ状態記憶手段1は、Webサーバ状態テーブルを記憶する記憶部である。図2は、本発明の実施の形態1におけるWebサーバ状態記憶手段1に記憶されるWebサーバ状態テーブル11の形式を示す図である。
本実施の形態2では、先の実施の形態1における図7のステップS708に先立ち、新たな処理を追加する場合について説明する。図10は、本発明の実施の形態2におけるWebサーバアクセススケジューリング手段7の新たな処理動作を示すフローチャートである。
本実施の形態3では、先の実施の形態1における図7のステップS708に先立ち、上述の実施の形態2とは異なる新たな処理を追加する場合について説明する。図11は、本発明の実施の形態3におけるWebサーバアクセススケジューリング手段7の新たな処理動作を示すフローチャートである。
本実施の形態4では、先の実施の形態1における図7のステップS708に先立ち、上述の実施の形態2、3とは異なる新たな処理を追加する場合について説明する。図12は、本発明の実施の形態4におけるWebサーバアクセススケジューリング手段7の新たな処理動作を示すフローチャートである。
Claims (16)
- Webサーバから前回ダウンロードしたWebページの内容またはWebページのハッシュ値を前回内容情報として記憶部に記憶させ、当該Webページを再度ダウンロードした際のWebページの内容情報と、前記記憶部に記憶された前記前回内容情報とを比較して当該Webページの更新の有無を検知し、ダウンロード時刻と前記更新の有無を対応付けたデータを履歴データとしてダウンロードを行うごとに前記記憶部にさらに記憶させ、前記履歴データに基づいて当該Webページが次に更新されると期待される時刻を次回ダウンロード時刻として設定して前記記憶部に記憶させるWebページ再アクセススケジューリング手段と、
同一Webサーバに属する複数のWebページについて、前記Webページ再アクセススケジューリング手段の有する前記記憶部に記憶された前記前回ダウンロード時刻と前記次回ダウンロード時刻との差分から求まるそれぞれのアクセス間隔を用いて、当該Webサーバに及ぼすアクセス負荷指標を計算し、前記アクセス負荷指標が所定許容値を超えない場合に前記アクセス負荷指標に基づいて当該Webサーバに対するアクセス間隔を設定するWebサーバアクセススケジューリング手段と
を備えることを特徴とするWebページ再収集方式。 - 請求項1に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、前記所定許容値をWebサーバに属するWebページの数に応じて切り替えることを特徴とするWebページ再収集方式。 - 請求項1または2に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、前記アクセス負荷指標が前記所定許容値を超えた場合には、Webサーバに属するそれぞれのWebページの前記アクセス間隔に対して一律の定数を乗算して次回ダウンロード時刻を再設定することを特徴とするWebページ再収集方式。 - 請求項1ないし3のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、前記アクセス負荷指標が前記所定許容値を超えた場合には、Webサーバに属するそれぞれのWebページの前記アクセス間隔に対して一律の定数を加算して次回ダウンロード時刻を再設定することを特徴とするWebページ再収集方式。 - 請求項1ないし4のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、前記アクセス負荷指標が前記所定許容値を超えた場合には、当該Webサーバに属するWebページのうち、共通する部分文字列をURIに含むWebページ群の一部を次回以降のダウンロード対象から除外し、除外されていないWebページに対して次回ダウンロード時刻を再設定することを特徴とするWebページ再収集方式。 - 請求項5に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、URI文字列をディレクトリ単位で末尾から削除したものを前記部分文字列として用いることを特徴とするWebページ再収集方式。 - 請求項5に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、パラメータとして符号?とそれに続く1つ以上のパラメータ名およびパラメータ値を含むURIに対して符号?以前の文字列とパラメータ名の組を前記部分文字列として用いることを特徴とするWebページ再収集方式。 - 請求項5に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、URI文字列をディレクトリ単位で末尾から削除するとともに、パラメータとして符号?とそれに続く1つ以上のパラメータ名およびパラメータ値を含むURIに対しては符号?以前の文字列とパラメータ名の組を前記部分文字列として用いることを特徴とするWebページ再収集方式。 - 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、共通部分文字列が長いWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。 - 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、前記アクセス間隔が短いWebページを多く含むWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。 - 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、共通部分文字列以外のURI文字列が数字のみ、または同一文字数の特徴を有するWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。 - 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、内容またはそのハッシュ値が共通するものが多いWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。 - 請求項5ないし12のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、内容またはそのハッシュ値が重複するWebページをダウンロード対象から除外することを特徴とするWebページ再収集方式。 - 請求項5ないし13のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、URIの文字列順に編成されたWebページの順番に基づいて除外対象となるWebページを選択することを特徴とするWebページ再収集方式。 - 請求項5ないし13のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、前記アクセス間隔の短い順に編成されたWebページの順番に基づいて除外対象となるWebページを選択することを特徴とするWebページ再収集方式。 - 請求項1ないし15のいずれか1項に記載のWebページ再収集方式において、
前記Webサーバアクセススケジューリング手段は、同一Webサーバに属する複数のWebページのアクセス間隔の逆数の総和を当該Webサーバの前記アクセス負荷指標として用いることを特徴とするWebページ再収集方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018012A JP4795258B2 (ja) | 2007-01-29 | 2007-01-29 | Webページ再収集方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018012A JP4795258B2 (ja) | 2007-01-29 | 2007-01-29 | Webページ再収集方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008186157A JP2008186157A (ja) | 2008-08-14 |
JP4795258B2 true JP4795258B2 (ja) | 2011-10-19 |
Family
ID=39729174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007018012A Active JP4795258B2 (ja) | 2007-01-29 | 2007-01-29 | Webページ再収集方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4795258B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5448428B2 (ja) * | 2008-11-27 | 2014-03-19 | 三菱電機株式会社 | データ管理システム及びデータ管理方法及びデータ管理プログラム |
JP5063729B2 (ja) * | 2010-03-31 | 2012-10-31 | ヤフー株式会社 | クローラ管理システム及び方法 |
CN102347912B (zh) | 2010-08-02 | 2014-11-05 | 腾讯科技(深圳)有限公司 | 即时通讯软件中获取动态更新的方法及系统 |
AU2011382479B2 (en) * | 2010-12-29 | 2015-07-30 | Amazon Technologies, Inc. | Receiver-side data deduplication in data systems |
US8943023B2 (en) | 2010-12-29 | 2015-01-27 | Amazon Technologies, Inc. | Receiver-side data deduplication in data systems |
US9116909B2 (en) | 2010-12-29 | 2015-08-25 | Amazon Technologies, Inc. | Reduced bandwidth data uploading in data systems |
US9468110B2 (en) | 2012-08-03 | 2016-10-11 | Mitsubishi Electric Corporation | Chassis assembly structure |
KR101425816B1 (ko) * | 2013-10-29 | 2014-08-05 | 네이버 주식회사 | 실시간 검색 구현 방법 및 그 시스템 |
JP6417806B2 (ja) * | 2014-09-12 | 2018-11-07 | 富士ゼロックス株式会社 | 画像形成装置及びプログラム |
KR101949945B1 (ko) * | 2016-04-26 | 2019-02-19 | 주식회사 팬소프트 | 전자책 단말 장치 및 상기 전자책 단말 장치의 전자책 데이터 다운로드 방법 |
JP7269747B2 (ja) * | 2019-02-05 | 2023-05-09 | 株式会社日立製作所 | 検出装置、検出方法、および検出プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3618917B2 (ja) * | 1996-08-05 | 2005-02-09 | 株式会社東芝 | 情報収集方法 |
JP4380375B2 (ja) * | 2003-03-19 | 2009-12-09 | 富士ゼロックス株式会社 | 文書収集装置および文書収集用コンピュータプログラム |
JP4342961B2 (ja) * | 2004-01-16 | 2009-10-14 | パイオニア株式会社 | 情報配信表示システムおよび情報配信方法 |
-
2007
- 2007-01-29 JP JP2007018012A patent/JP4795258B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008186157A (ja) | 2008-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4795258B2 (ja) | Webページ再収集方式 | |
CN102341800B (zh) | 检索处理方法以及装置 | |
US8849775B2 (en) | Caching web documents in two or more caches | |
JP5147947B2 (ja) | クエリ別検索コレクション生成方法およびシステム | |
US8250065B1 (en) | System and method for ranking information based on clickthroughs | |
US20150106335A1 (en) | Hierarchical data archiving | |
CN105991398A (zh) | 一种即时通信im聊天记录的保存方法及装置 | |
CN106302829A (zh) | 一种信息访问方法、装置及服务器 | |
US7865821B2 (en) | Electronic document update notification device and electronic document update notifying method | |
JP2007148885A (ja) | コンテンツ収集装置およびコンテンツ収集システム | |
JP4718205B2 (ja) | 選択的Web情報収集装置 | |
JP2009245179A (ja) | 文書検索支援装置 | |
JP2003271670A (ja) | 情報収集装置、情報収集方法及びプログラム | |
JP2008158589A (ja) | 更新情報通知装置及び更新情報通知プログラム | |
JP2009145953A (ja) | データ検索装置、データ検索方法、コンピュータプログラム、及び記録媒体 | |
CN108108381B (zh) | 页面的监测方法及装置 | |
JP5186880B2 (ja) | ファイル管理システム、ファイル管理方法、及び、ファイル管理プログラム | |
JP4253315B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP2000339316A (ja) | 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体 | |
KR100953491B1 (ko) | 최신정보 제공 방법 및 시스템 | |
US20030236799A1 (en) | Method for managing files and dependent applications that act on them | |
JP3916219B2 (ja) | リンク先圧縮システム | |
WO2013106423A1 (en) | Method and apparatus for animating transitions between search results | |
JP2003271494A (ja) | 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体 | |
JP2004178070A (ja) | 情報検索方法及び情報検索装置並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110726 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4795258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |