CN102469132A - 从网站中多个不同ip的服务器抓取网页的方法及系统 - Google Patents
从网站中多个不同ip的服务器抓取网页的方法及系统 Download PDFInfo
- Publication number
- CN102469132A CN102469132A CN2010105463340A CN201010546334A CN102469132A CN 102469132 A CN102469132 A CN 102469132A CN 2010105463340 A CN2010105463340 A CN 2010105463340A CN 201010546334 A CN201010546334 A CN 201010546334A CN 102469132 A CN102469132 A CN 102469132A
- Authority
- CN
- China
- Prior art keywords
- webpage
- grasp
- task
- server
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 241001122315 Polites Species 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (17)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010546334.0A CN102469132B (zh) | 2010-11-15 | 2010-11-15 | 从网站中多个不同ip的服务器抓取网页的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010546334.0A CN102469132B (zh) | 2010-11-15 | 2010-11-15 | 从网站中多个不同ip的服务器抓取网页的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102469132A true CN102469132A (zh) | 2012-05-23 |
CN102469132B CN102469132B (zh) | 2014-04-30 |
Family
ID=46072295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010546334.0A Expired - Fee Related CN102469132B (zh) | 2010-11-15 | 2010-11-15 | 从网站中多个不同ip的服务器抓取网页的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102469132B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037010A (zh) * | 2012-12-26 | 2013-04-10 | 人民搜索网络股份公司 | 一种分布式网络爬虫系统及其抓取方法 |
CN103237089A (zh) * | 2013-05-16 | 2013-08-07 | 广东睿江科技有限公司 | 基于dns轮询方式网页的修复方法、装置和服务器 |
CN103324522A (zh) * | 2013-06-20 | 2013-09-25 | 北京奇虎科技有限公司 | 对从各服务器抓取数据的任务进行调度的方法和设备 |
CN103678311A (zh) * | 2012-08-31 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 基于中转模式的网页访问方法及系统、抓取路径服务器 |
CN104731645A (zh) * | 2015-03-19 | 2015-06-24 | 蔡树彬 | 一种任务调度方法和装置及数据下载方法和装置 |
CN104967698A (zh) * | 2015-02-13 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 一种爬取网络数据的方法和装置 |
CN105681478A (zh) * | 2016-04-19 | 2016-06-15 | 北京高地信息技术有限公司 | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 |
CN105743852A (zh) * | 2014-12-09 | 2016-07-06 | 航天信息股份有限公司 | 通过http实现跨越网闸进行Socket保持连接通信的方法及系统 |
CN105868258A (zh) * | 2015-12-28 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 爬虫系统 |
CN105989151A (zh) * | 2015-03-02 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 网页抓取方法及装置 |
CN106294393A (zh) * | 2015-05-20 | 2017-01-04 | 天脉聚源(北京)科技有限公司 | 一种网络搜索的方法和系统 |
CN103544278B (zh) * | 2013-10-22 | 2017-02-01 | 北京奇虎科技有限公司 | 确定网站抓取流量配额的方法及设备 |
CN106407219A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 网页链接的爬取方法及装置 |
CN106445966A (zh) * | 2015-08-11 | 2017-02-22 | 北京国双科技有限公司 | 一种数据获取方法和装置 |
CN106959975A (zh) * | 2016-01-11 | 2017-07-18 | 广州市动景计算机科技有限公司 | 一种转码资源缓存处理方法、装置及设备 |
CN107025226A (zh) * | 2016-01-29 | 2017-08-08 | 广州市动景计算机科技有限公司 | 目标站点访问方法、装置和中转服务器 |
CN107105071A (zh) * | 2017-05-05 | 2017-08-29 | 北京京东金融科技控股有限公司 | Ip调用方法及装置、存储介质、电子设备 |
CN107454205A (zh) * | 2017-07-31 | 2017-12-08 | 北京北信源软件股份有限公司 | 一种连接服务器的方法和装置 |
CN108536535A (zh) * | 2018-01-24 | 2018-09-14 | 北京奇艺世纪科技有限公司 | 一种dns服务器及其线程控制方法和装置 |
CN108900623A (zh) * | 2018-07-11 | 2018-11-27 | 邦尼集团有限公司 | 一种基于动态ip的网页正文获取方法及装置 |
CN110119468A (zh) * | 2019-05-15 | 2019-08-13 | 重庆八戒传媒有限公司 | 一种提高抓取公开数据种子精度的方法和装置 |
CN110929129A (zh) * | 2018-08-31 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种信息检测方法、设备及机器可读存储介质 |
CN106941537B (zh) * | 2017-05-05 | 2020-08-07 | 北京奇艺世纪科技有限公司 | 一种负载均衡方法及装置 |
CN111931108A (zh) * | 2020-07-31 | 2020-11-13 | 福建深空信息技术有限公司 | 一种安全网站更新方法及系统 |
CN113486229A (zh) * | 2021-07-05 | 2021-10-08 | 北京百度网讯科技有限公司 | 抓取压力的控制方法、装置、电子设备及可读存储介质 |
CN114943049A (zh) * | 2022-05-18 | 2022-08-26 | 深圳优美创新科技有限公司 | 网页外部逻辑数据获取方法、系统、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127038A (zh) * | 2006-08-18 | 2008-02-20 | 鸿富锦精密工业(深圳)有限公司 | 下载网站静态网页的系统及方法 |
-
2010
- 2010-11-15 CN CN201010546334.0A patent/CN102469132B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127038A (zh) * | 2006-08-18 | 2008-02-20 | 鸿富锦精密工业(深圳)有限公司 | 下载网站静态网页的系统及方法 |
Non-Patent Citations (2)
Title |
---|
张晓峰: "并行网页抓取系统设计", 《北京交通大学硕士学位论文》 * |
翁岩青: "网页抓取策略研究", 《哈尔滨工程大学工学硕士学位论文》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678311A (zh) * | 2012-08-31 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 基于中转模式的网页访问方法及系统、抓取路径服务器 |
CN103678311B (zh) * | 2012-08-31 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 基于中转模式的网页访问方法及系统、抓取路径服务器 |
CN103037010A (zh) * | 2012-12-26 | 2013-04-10 | 人民搜索网络股份公司 | 一种分布式网络爬虫系统及其抓取方法 |
CN103237089A (zh) * | 2013-05-16 | 2013-08-07 | 广东睿江科技有限公司 | 基于dns轮询方式网页的修复方法、装置和服务器 |
CN103324522A (zh) * | 2013-06-20 | 2013-09-25 | 北京奇虎科技有限公司 | 对从各服务器抓取数据的任务进行调度的方法和设备 |
CN103324522B (zh) * | 2013-06-20 | 2016-09-28 | 北京奇虎科技有限公司 | 对从各服务器抓取数据的任务进行调度的方法和设备 |
CN103544278B (zh) * | 2013-10-22 | 2017-02-01 | 北京奇虎科技有限公司 | 确定网站抓取流量配额的方法及设备 |
CN105743852A (zh) * | 2014-12-09 | 2016-07-06 | 航天信息股份有限公司 | 通过http实现跨越网闸进行Socket保持连接通信的方法及系统 |
CN104967698B (zh) * | 2015-02-13 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种爬取网络数据的方法和装置 |
CN104967698A (zh) * | 2015-02-13 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 一种爬取网络数据的方法和装置 |
CN105989151A (zh) * | 2015-03-02 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 网页抓取方法及装置 |
CN105989151B (zh) * | 2015-03-02 | 2019-09-06 | 阿里巴巴集团控股有限公司 | 网页抓取方法及装置 |
CN104731645A (zh) * | 2015-03-19 | 2015-06-24 | 蔡树彬 | 一种任务调度方法和装置及数据下载方法和装置 |
CN106294393A (zh) * | 2015-05-20 | 2017-01-04 | 天脉聚源(北京)科技有限公司 | 一种网络搜索的方法和系统 |
CN106407219A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 网页链接的爬取方法及装置 |
CN106445966A (zh) * | 2015-08-11 | 2017-02-22 | 北京国双科技有限公司 | 一种数据获取方法和装置 |
WO2017113687A1 (zh) * | 2015-12-28 | 2017-07-06 | 乐视控股(北京)有限公司 | 爬虫系统及方法 |
CN105868258A (zh) * | 2015-12-28 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 爬虫系统 |
CN106959975A (zh) * | 2016-01-11 | 2017-07-18 | 广州市动景计算机科技有限公司 | 一种转码资源缓存处理方法、装置及设备 |
CN106959975B (zh) * | 2016-01-11 | 2021-06-04 | 阿里巴巴(中国)有限公司 | 一种转码资源缓存处理方法、装置及设备 |
CN107025226A (zh) * | 2016-01-29 | 2017-08-08 | 广州市动景计算机科技有限公司 | 目标站点访问方法、装置和中转服务器 |
CN105681478B (zh) * | 2016-04-19 | 2019-01-22 | 北京高地信息技术有限公司 | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 |
CN105681478A (zh) * | 2016-04-19 | 2016-06-15 | 北京高地信息技术有限公司 | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 |
CN107105071A (zh) * | 2017-05-05 | 2017-08-29 | 北京京东金融科技控股有限公司 | Ip调用方法及装置、存储介质、电子设备 |
CN106941537B (zh) * | 2017-05-05 | 2020-08-07 | 北京奇艺世纪科技有限公司 | 一种负载均衡方法及装置 |
CN107454205A (zh) * | 2017-07-31 | 2017-12-08 | 北京北信源软件股份有限公司 | 一种连接服务器的方法和装置 |
CN108536535A (zh) * | 2018-01-24 | 2018-09-14 | 北京奇艺世纪科技有限公司 | 一种dns服务器及其线程控制方法和装置 |
CN108900623A (zh) * | 2018-07-11 | 2018-11-27 | 邦尼集团有限公司 | 一种基于动态ip的网页正文获取方法及装置 |
CN108900623B (zh) * | 2018-07-11 | 2022-02-01 | 邦尼集团有限公司 | 一种基于动态ip的网页正文获取方法及装置 |
CN110929129A (zh) * | 2018-08-31 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种信息检测方法、设备及机器可读存储介质 |
CN110929129B (zh) * | 2018-08-31 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 一种信息检测方法、设备及机器可读存储介质 |
CN110119468A (zh) * | 2019-05-15 | 2019-08-13 | 重庆八戒传媒有限公司 | 一种提高抓取公开数据种子精度的方法和装置 |
CN111931108A (zh) * | 2020-07-31 | 2020-11-13 | 福建深空信息技术有限公司 | 一种安全网站更新方法及系统 |
CN113486229A (zh) * | 2021-07-05 | 2021-10-08 | 北京百度网讯科技有限公司 | 抓取压力的控制方法、装置、电子设备及可读存储介质 |
CN113486229B (zh) * | 2021-07-05 | 2023-11-07 | 北京百度网讯科技有限公司 | 抓取压力的控制方法、装置、电子设备及可读存储介质 |
CN114943049A (zh) * | 2022-05-18 | 2022-08-26 | 深圳优美创新科技有限公司 | 网页外部逻辑数据获取方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102469132B (zh) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102469132A (zh) | 从网站中多个不同ip的服务器抓取网页的方法及系统 | |
CN101917490B (zh) | 一种读取缓存数据的方法及系统 | |
CN102752154B (zh) | Web网站死链检测方法 | |
CN103347068B (zh) | 一种基于代理集群网络缓存加速方法 | |
CN109067930A (zh) | 域名接入方法、域名解析方法、服务器、终端及存储介质 | |
CN101119373B (zh) | 一种网关级流式病毒扫描方法及其系统 | |
CN101820451A (zh) | 一种动态域名服务优化系统 | |
CN103795575B (zh) | 一种面向多数据中心的系统监控方法 | |
CN103561060B (zh) | 一种多线程环境下的通信链接方法及中转服务器 | |
CN103414608A (zh) | 快速的web流量采集统计系统和方法 | |
CN105677615A (zh) | 一种基于weka接口的分布式机器学习方法 | |
CN103179148A (zh) | 一种在互联网中分享附件的处理方法和系统 | |
CN106131227A (zh) | 负载平衡方法、元数据服务器系统及负载平衡系统 | |
CN110874429A (zh) | 面向海量数据采集的分布式网络爬虫性能优化方法 | |
CN107342913A (zh) | 一种cdn节点的探测方法和装置 | |
CN104331328A (zh) | 虚拟资源调度方法和虚拟资源调度装置 | |
CN102253948B (zh) | 在多源信息系统中搜索信息的方法和装置 | |
CN106202232A (zh) | 一种停电事件的分析方法及装置 | |
CN103856503B (zh) | Nas集群系统的文件数据的处理方法及nas集群系统 | |
CN103631804B (zh) | 电子地图的切图方法及处理系统 | |
CN102347930A (zh) | 网页内容获取方法和系统 | |
CN103428249A (zh) | 一种http请求包的收集及处理方法、系统和服务器 | |
CN201919010U (zh) | 一种网站访问性能监测系统 | |
CN102083100B (zh) | 一种用于基于站点检测多个资源链接的状态的方法与设备 | |
CN102103522A (zh) | 资源管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220624 Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031 Patentee after: New founder holdings development Co.,Ltd. Patentee after: Peking University Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd. Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd. Patentee before: Peking University Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140430 |