JP2011215912A - クローラ管理システム及び方法 - Google Patents
クローラ管理システム及び方法 Download PDFInfo
- Publication number
- JP2011215912A JP2011215912A JP2010083826A JP2010083826A JP2011215912A JP 2011215912 A JP2011215912 A JP 2011215912A JP 2010083826 A JP2010083826 A JP 2010083826A JP 2010083826 A JP2010083826 A JP 2010083826A JP 2011215912 A JP2011215912 A JP 2011215912A
- Authority
- JP
- Japan
- Prior art keywords
- crawl
- url
- priority
- crawler
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000004044 response Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 34
- 238000013500 data storage Methods 0.000 description 8
- 230000009193 crawling Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】複数のクローラ(123a,123b)は、複数のキュー記憶手段(112a,112b)に記憶されたURLを読み出して当該URLに対応するWebページのデータを取得する。このとき、優先的にクロールさせる特定のURLが複数のキュー記憶手段(112a,112b)のうち一部のキュー記憶手段(112a)に記憶された場合、当該一部のキュー記憶手段(112a)から特定のURLを優先的に読み込む。
【選択図】図1
Description
これにより、クローラ管理システムは、当該一部のキュー記憶手段から読み込んだ特定のURLに基づいて、当該特定のURLに対応するWebページのデータを取得することができる。したがって、クローラ管理システムは、クローラのプログラム自体を改変することなく、更新頻度の高い特定のWebページに対応して情報を取得できる。
これにより、所定のWebページが更新された場合に、所定のWebページのURLが定期的に優先クロール先URL記憶手段に記憶され、また、所定のWebページのURLが特定のURLとしてクローラに読み出される。このため、クローラは、優先的にそのURLに対応するWebページのデータを取得することができる。したがって、クロール装置は、クローラのプログラム自体を改変することなく、更新頻度の高い特定のWebページについて、定期的に情報を取得することができる。
ここで、特定URLは、所定のWebサイトにおいて、更新があったか否かを定期的にチェックする対象となるWebページ(以下、特定Webページとする)のURLである。特定Webページは、例えば、あるWebサイトにおいて、商品等の人気ランキング等が表示され、更新頻度が比較的高いWebページである。
クロール装置10は、記憶部11と、制御部12とを備える。
つまり、クローラ部123は、常に第1キュー記憶部112aに優先的に参照して、第1キュー記憶部112aに特定URLが格納されている場合はこれを取得し、第1キュー記憶部112aに特定URLが格納されていない場合に、他のキューとなる第2キュー記憶部112b、・・・第Xキュー記憶部112xからURL(例えば、図1のS1,S2,Sn等)を取得する。
また、クローラ部123は、第1キュー記憶部112aから特定URLを読み出した場合は、当該特定URLのWebページのデータをWebデータ記憶部114に格納するが、当該Webページ(特定Webページ)に含まれるリンク先のURLの抽出は行わない。
したがって、クローラ部123が第1キュー記憶部112aから特定URLを読み出した場合は、当該特定URLのWebページのデータの取得のみが行われる。
クロール先管理装置20は、記憶部21と制御部22とを備え、記憶部21は、優先クロール先リスト記憶部110及び優先クロール先URL記憶手段としての優先クロール先URL記憶部111を備える。また、制御部22は、優先クロール先収集部121を備える。
なお、記憶部21及び制御部22は、それぞれ、クロール装置10と同様のハードウェア構成を備えることができる。
本実施形態では、このように、特定URLは、優先クロール先指定部122が優先クロール先URL記憶部111から読み出したURLであり、また、優先クロール先収集部121が定期的に更新の有無を確認する特定URLであり、第1キュー記憶部112aに格納されて優先的にクロール対象となるURLである。
また、第1キュー記憶部112aから特定URLを取得したクローラ部123であっても、再度第1キュー記憶部112aを参照したときに特定URLが格納されていなければ、第2キュー記憶部112b等を参照してURLを取得する。
20 クロール先管理装置
30 Webサーバ
110 優先クロール先リスト記憶部
111 優先クロール先URL記憶部
112a 第1キュー記憶部
112b 第2キュー記憶部
112n 第Nキュー記憶部
114 Webデータ記憶部
121 優先クロール先収集部
122 優先クロール先指定部
123a 第1クローラ
123b 第2クローラ
123x 第Xクローラ
N インターネット
Claims (3)
- 通信ネットワーク上に公開されたWebサーバを巡回してWebページのデータを取得するクロール装置と、前記クロール装置のクロール先を指定するクロール先管理装置と、を備えるクローラ管理システムであって、
前記クロール装置は、
前記クロール先を示すURLをキューとして記憶する複数のキュー記憶手段と、
前記複数のキュー記憶手段が記憶したURLを読み込んで対応するWebページのデータを取得する複数のクローラと、を備え、
前記クロール先管理装置は、
前記複数のキュー記憶手段のうち一部のキュー記憶手段に、前記複数のクローラを優先してクロールさせる特定のURLを記憶させる優先クロール先指定手段と、を備え、
前記クローラは、前記優先クロール先指定手段が前記特定のURLを前記一部のキュー記憶手段に記憶させたことに応じて、当該記憶させた前記特定のURLを、それ以外の前記キュー記憶手段が記憶するURLに優先して読み込むクローラ管理システム。 - 前記クロール先管理装置は、
定期的に所定のWebサイトにおける所定のWebページのデータを取得して記憶し、前回取得した前記所定のWebページのデータと比較することにより、変更があったと判断した場合に、前記所定のWebページのURLを、優先クロール先URL記憶手段に記憶させる優先クロール先URL収集手段をさらに備え、
前記優先クロール先指定手段は、前記優先クロール先URL収集手段が前記優先クロール先URL記憶手段に記憶させた前記所定のWebページのURLを読み出し、前記一部のキュー記憶手段に記憶させる請求項1に記載のクローラ管理システム。 - 通信ネットワーク上に公開されたWebサーバを巡回してWebページのデータを取得するクロール装置と、前記クロール装置のクロール先を指定するクロール先管理装置と、からなるシステムに、特定のURLをクロールさせるクロール方法であって、
前記クロール装置は、複数のクローラのクロール先を示すURLをキューとして記憶する複数のキュー記憶手段を備え、
前記クロール先管理装置が、前記複数のキュー記憶手段のうち一部のキュー記憶手段に、前記複数のクローラを優先してクロールさせる前記特定のURLを記憶させるステップと、
前記クロール装置が、前記特定のURLが前記一部のキュー記憶手段に記憶されたことに応じて、前記クローラに、当該記憶させた前記特定のURLを、それ以外の前記キュー記憶手段が記憶するURLに優先して読み込ませるステップと、を実行させるクロール方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010083826A JP5063729B2 (ja) | 2010-03-31 | 2010-03-31 | クローラ管理システム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010083826A JP5063729B2 (ja) | 2010-03-31 | 2010-03-31 | クローラ管理システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011215912A true JP2011215912A (ja) | 2011-10-27 |
JP5063729B2 JP5063729B2 (ja) | 2012-10-31 |
Family
ID=44945572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010083826A Active JP5063729B2 (ja) | 2010-03-31 | 2010-03-31 | クローラ管理システム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5063729B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014528136A (ja) * | 2011-12-13 | 2014-10-23 | 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd | ネットデータの採集方法及びシステム |
JP2016006700A (ja) * | 2015-10-15 | 2016-01-14 | 株式会社エヌ・ティ・ティ・データ | 配信情報解析装置、配信情報解析方法、配信情報解析プログラム |
JP2018180874A (ja) * | 2017-04-12 | 2018-11-15 | 富士通株式会社 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
CN110633429A (zh) * | 2018-05-31 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 内容爬取方法与装置以及分布式爬虫系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11328191A (ja) * | 1998-05-13 | 1999-11-30 | Nec Corp | Wwwロボット検索システム |
JP2001092745A (ja) * | 1999-09-17 | 2001-04-06 | Internet Research Institute Inc | インターネットのウェブコンテンツデータを静止衛星を利用して複数のサーバコンピュータへマルチキャストデータ配信を行うための通信システムおよびその方法 |
JP2001222425A (ja) * | 2000-02-10 | 2001-08-17 | Nec Software Kobe Ltd | ウィルス駆除システムと方法および記録媒体 |
JP2002342371A (ja) * | 2001-05-16 | 2002-11-29 | Nec Corp | Www検索システムおよび方法 |
JP2004070957A (ja) * | 2003-08-01 | 2004-03-04 | Toshiba Corp | 検索システム |
WO2007027469A2 (en) * | 2005-08-29 | 2007-03-08 | Google Inc. | Mobile sitemaps |
JP2008186157A (ja) * | 2007-01-29 | 2008-08-14 | Mitsubishi Electric Corp | Webページ再収集方式 |
-
2010
- 2010-03-31 JP JP2010083826A patent/JP5063729B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11328191A (ja) * | 1998-05-13 | 1999-11-30 | Nec Corp | Wwwロボット検索システム |
JP2001092745A (ja) * | 1999-09-17 | 2001-04-06 | Internet Research Institute Inc | インターネットのウェブコンテンツデータを静止衛星を利用して複数のサーバコンピュータへマルチキャストデータ配信を行うための通信システムおよびその方法 |
JP2001222425A (ja) * | 2000-02-10 | 2001-08-17 | Nec Software Kobe Ltd | ウィルス駆除システムと方法および記録媒体 |
JP2002342371A (ja) * | 2001-05-16 | 2002-11-29 | Nec Corp | Www検索システムおよび方法 |
JP2004070957A (ja) * | 2003-08-01 | 2004-03-04 | Toshiba Corp | 検索システム |
WO2007027469A2 (en) * | 2005-08-29 | 2007-03-08 | Google Inc. | Mobile sitemaps |
JP2008186157A (ja) * | 2007-01-29 | 2008-08-14 | Mitsubishi Electric Corp | Webページ再収集方式 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014528136A (ja) * | 2011-12-13 | 2014-10-23 | 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd | ネットデータの採集方法及びシステム |
JP2016006700A (ja) * | 2015-10-15 | 2016-01-14 | 株式会社エヌ・ティ・ティ・データ | 配信情報解析装置、配信情報解析方法、配信情報解析プログラム |
JP2018180874A (ja) * | 2017-04-12 | 2018-11-15 | 富士通株式会社 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
CN110633429A (zh) * | 2018-05-31 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 内容爬取方法与装置以及分布式爬虫系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5063729B2 (ja) | 2012-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4806201B2 (ja) | 決定理論的ウェブクローリングおよびウェブページ変更予測 | |
US8893043B2 (en) | Method and system for predictive browsing | |
US8417686B2 (en) | Web crawler scheduler that utilizes sitemaps from websites | |
US9912766B2 (en) | System and method for identifying a link and generating a link identifier for the link on a webpage | |
US10324984B2 (en) | System and method for content selection for web page indexing | |
JP4795258B2 (ja) | Webページ再収集方式 | |
JP5063729B2 (ja) | クローラ管理システム及び方法 | |
US9529911B2 (en) | Building of a web corpus with the help of a reference web crawl | |
JP2016194921A (ja) | キュレートされたコンテンツ内の古くなったアイテムの除去 | |
JP5782937B2 (ja) | タグ管理装置、タグ管理システムおよびタグ管理プログラム | |
RU2449360C1 (ru) | Система и способ формирования антивирусных баз в соответствии с параметрами персонального компьютера | |
JP4741301B2 (ja) | 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム | |
Hurst et al. | Social streams blog crawler | |
JP2007156546A (ja) | コンテンツリスト提供装置およびコンテンツリスト提供方法 | |
CN110674757B (zh) | 布控方法、系统及计算机可读存储介质 | |
US10033826B2 (en) | Token based dynamic cache-busting | |
JP5018536B2 (ja) | 情報サービス検索システム、巡回収集方法、及び情報サービス巡回収集プログラム | |
JP6960274B2 (ja) | データ収集装置、データ収集方法、およびプログラム | |
JP5165717B2 (ja) | デッドリンク判定装置及び方法 | |
JP6967870B2 (ja) | データベース連携システム、データベース連携方法、およびプログラム | |
JP2011129146A (ja) | ネットワーク上の情報を自動検索する情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム | |
JP5801218B2 (ja) | Urlフィルタリングシステム | |
JP2006134169A (ja) | 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法 | |
JP4917057B2 (ja) | 情報収集方法及び情報収集装置 | |
Chen | An open solution to discover the graph structure of World Wide Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120807 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5063729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |