CN102469132A - 从网站中多个不同ip的服务器抓取网页的方法及系统 - Google Patents

从网站中多个不同ip的服务器抓取网页的方法及系统 Download PDF

Info

Publication number
CN102469132A
CN102469132A CN2010105463340A CN201010546334A CN102469132A CN 102469132 A CN102469132 A CN 102469132A CN 2010105463340 A CN2010105463340 A CN 2010105463340A CN 201010546334 A CN201010546334 A CN 201010546334A CN 102469132 A CN102469132 A CN 102469132A
Authority
CN
China
Prior art keywords
webpage
grasp
task
server
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105463340A
Other languages
English (en)
Other versions
CN102469132B (zh
Inventor
李湘军
于晓明
杨建武
吴新丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201010546334.0A priority Critical patent/CN102469132B/zh
Publication of CN102469132A publication Critical patent/CN102469132A/zh
Application granted granted Critical
Publication of CN102469132B publication Critical patent/CN102469132B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种从网站中多个不同IP的服务器抓取网页的方法及系统。本发明首先为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;然后判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。本发明的访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;而且当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。

Description

从网站中多个不同IP的服务器抓取网页的方法及系统
技术领域
本发明涉及一种从网站中抓取网页的方法及系统,尤其是涉及一种从网站中多个不同IP的服务器抓取网页的方法及系统。
背景技术
随着互联网的飞速发展,互联网上的信息规模越来越大,网站访问量也越来越大。大多数信息规模较大或访问量较大的网站,为了满足目前的互联网访问需求,都提供了多台不同IP(Internet Protocol,网络之间互连的协议)的服务器,通过智能DNS(Domain Name System,域名系统)服务器,按照负载均衡的策略返回不同顺序的服务器IP列表,客户端会使用第一个服务器进行访问,从而将用户的访问请求分散到不同的服务器上。为了防止服务器压力过大或者被恶意攻击,这些网站尤其是论坛和博客,会对并发过大或者频率过快的访问采取临时性地拒绝服务或永久性地封杀对方IP的措施。对于一个客户端而言,如果该客户端发送的多个访问请求被分配到了网站的同一台服务器上,则可能会因为该服务器的限制而被拒绝服务,甚至被封杀IP。
现有的爬虫系统一般都按照网站来控制访问策略,由于受到网站访问并发数的限制,所以采集效率较低,如果增加抓取网页的工作线程数量又容易触发网站的限制访问条件,造成抓取失败或被封杀IP。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种从网站中多个不同IP的服务器抓取网页的方法与系统,该方法及系统能够在礼貌访问网站的前提下,成倍地提高网页抓取的效率。
为解决上述技术问题,本发明采用的技术方案如下:
一种从网站中多个不同IP的服务器抓取网页的方法,包括以下步骤:
(1)为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;
(2)判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
一种从网站中多个不同IP的服务器抓取网页的系统,包括为客户端的网页抓取任务分配目标网站服务器IP的分配装置,所述网页抓取任务包括待抓取网页的网页地址;
用于判断所述网页抓取任务是否符合所述服务器的礼貌访问条件的判断装置;
用于利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页的抓取装置。
本发明所述的方法及系统,访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。
附图说明
图1是本发明所述从网站中多个不同IP的服务器抓取网页的系统结构框图;
图2是本发明所述从网站中多个不同IP的服务器抓取网页的方法流程图;
图3是本发明所述方法一具体实施方式的流程图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
图1示出了本发明所述从网站中多个不同IP的服务器抓取网页的系统结构。如图1所示,该系统包括分配装置11,与分配装置11连接的判断装置12,与判断装置12连接的抓取装置13。
分配装置11用于为客户端的网页抓取任务分配目标网站服务器IP。所述网页抓取任务包括待抓取网页的URL(网页地址);所述目标网站是指待抓取网页所在的网站。
判断装置12用于判断网页抓取任务是否符合服务器的礼貌访问条件。所述礼貌访问条件包括如下两个方面:①使用该IP的并发数不超过设定的并发数限制;②向该IP发送请求的时间间隔不小于设定的时间间隔限制。
抓取装置13用于利用分配的IP建立与该IP的服务器的连接,从该IP的服务器中抓取所述URL的网页。
图2示出了采用图1所示系统从网站中多个不同IP的服务器抓取网页的方法流程。该方法首先为客户端的网页抓取任务分配目标网站服务器的IP;然后判断该网页抓取任务是否符合被分配IP的服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
图3示出了本发明所述方法一具体实施方式的流程。客户端可随时将网页抓取任务加载到抓取任务队列中,所述网页抓取任务包括待抓取网页的URL。如图3所示,对抓取任务队列中的网页抓取任务进行如下操作:
(1)定时刷新抓取任务队列,如果抓取任务队列为空,则重复该步骤。
(2)遍历抓取任务队列。为当前网页抓取任务分配网站服务器的IP地址,并判断当前网页抓取任务是否符合所述礼貌访问条件。只有满足了礼貌访问条件,抓取网页才不会被目标网站拒绝。如果符合礼貌访问条件,则从抓取任务队列中取下该网页抓取任务,并累加该网页抓取任务所使用IP的并发数,作为下次判断礼貌访问条件的依据;如果不符合,则继续判断抓取任务队列中下一个网页抓取任务,直到本次遍历结束。
所述分配IP地址的过程如下:
判断客户端缓存中与该网页抓取任务中的URL对应的主机名是否有IP列表。如果没有IP列表,则预分配使用第一个IP,即标记该网页抓取任务使用IP列表中的第一个IP,等到进行了DNS解析后再转换为实际的第一个IP地址。此处之所以不立即进行DNS解析是为了避免影响获取网页抓取任务的效率。如果有IP列表且已知IP列表中所有IP的抓取速度,则分配一个可用的且抓取速度最快的IP。如果IP的抓取速度未知,则轮询分配一个IP,即按照顺序分配。例如,将IP1分配给任务a,将IP2分配给任务b,将IP3分配给任务c;当所有IP均被分配一遍后,再从IP1开始分配。
如果客户端缓存中与取下的网页抓取任务中的URL对应的主机名没有IP列表,则对目标网站主机名进行DNS解析,获取IP列表,将预分配使用的第一个IP转换为IP列表实际的第一个IP地址。对主机名和与该主机名对应的IP列表进行缓存,这样在以后分配IP时,只需根据主机名从缓存中直接查找IP即可,不必每个网页抓取任务都重新进行DNS解析,从而减小了解析的代价,减轻了对DNS服务器的压力。
(3)对取下的网页抓取任务,用所分配的IP与目标网站该IP的服务器建立Socket连接。记录每次发送连接请求的时间,作为下次判断礼貌访问条件的依据。
如果连接成功,则缓存该连接以便重复利用,下次使用该连接时,直接从缓存中获取该连接。如果连接失败,则标记该IP建立连接失败,关闭该连接,并将该网页抓取任务加载到失败任务队列。定时将失败任务队列中的任务加载到抓取任务队列中。
如果与某IP建立连接的失败次数超过设定的阈值M时,标记该IP不可用,分配IP时不再分配该IP。本实施方式中,M取值为20。当不可用的IP个数超过了IP列表中IP总数的设定比例N时,重新进行DNS解析,获取新的IP列表。本实施方式中,N取值为50%。
缓存客户端与目标网站建立的Socket连接,并在短时间内重复利用这个连接,能够减少建立连接的代价,提高运行的效率。为了防止重用连接超过设定的有效期限造成访问网页失败,还需要记录每次使用该连接的时间,如果某次使用该连接的时间超过了有效期限,则删除缓存中的该连接,下次使用时再重新建立新的Socket连接。
网站服务器可能由于某些原因如网络不稳定,服务器宕机,更换IP等造成当前IP不能使用,此时建立Socket连接就会失败。IP不能使用,可能是暂时的,也可能是长期的,因此本实施方式中记录连接失败的次数,只有当连接失败次数超过设定的阈值M时,才标记该IP为不可用,分配IP时不再分配该IP。
(4)根据建立的连接通过HTTP协议访问网页。
如果访问成功,则抓取网页内容,并标记该连接可以重用。记录并统计该IP的抓取速度,为下一次分配IP时提供依据。由于IP的访问速度是不断变化的,记录的速度值应该能够反映历史和当前的抓取速度,这样既能防止当前偶尔的网络不好导致不能反映历史速度,又能防止过去网络一直不好导致不能反映当前的速度。在抓取网页内容后,记录该网页抓取任务所使用IP的本次抓取速度,并统计该IP的综合抓取速度。可以采用如下公式统计IP的综合抓取速度:
S 0 = 0 S n = α S n - 1 + β R n , n ≥ 1 , α + β = 1
其中,Sn表示第n次该IP的记录速度,Sn-1表示第n-1次该IP的记录速度,α表示历史速度的权重,Rn表示第n次该IP的实际抓取速度,β表示当前速度的权重。α和β值之和应为1,这两个值直接影响到统计的IP访问速度的可靠性。本实施方式中,α和β的取值均为0.5。
如果访问网页失败,则关闭该连接,将该任务加入到失败任务队列,定时将失败任务队列中的任务加入到抓取任务队列。访问完毕后,还需要递减使用该IP的并发数,以使得可以继续分配该IP。
(5)分析被抓取的网页中的URL链接,排重后加载到抓取任务队列中。
分析被抓取的网页中的URL链接的方法可采用现有方法,如中国专利申请公开的“一种基于网页抽取的搜索系统及搜索方法”(公开日:2008.06.04;公开号:CN101192234),此处不再详细说明。
分析出被抓取的网页中的URL链接后,先在抓取的网页中的网页地址链接中进行排重,然后再在整个抓取任务队列中的网页地址链接中进行排重,避免重复抓取。
本实施方式中,排重的方法如下:先将URL字符串转换为MD5值,然后通过比较每个URL的MD5值进行排重。在网页中的网页地址链接中排重时,如果有相同的,则只取一个。在整个网页抓取任务中的网页地址链接中进行排重时,如有相同的,则说明任务中存在该URL链接,否则说明不存在,可以加载到抓取任务队列中。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种从网站中多个不同IP的服务器抓取网页的方法,包括以下步骤:
(1)为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;
(2)判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
2.如权利要求1所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(1)中所述网页抓取任务可随时加载到抓取任务队列中;定时刷新抓取任务队列;如果抓取任务队列不空,则遍历抓取任务队列,获取符合所述礼貌访问条件的网页抓取任务。
3.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:所述礼貌访问条件包括如下两个方面:①使用该IP的并发数不超过设定的并发数限制;②向该IP发送请求的时间间隔不小于设定的时间间隔限制。
4.如权利要求3所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果当前网页抓取任务符合所述礼貌访问条件,则从抓取任务队列中取下该网页抓取任务,并累加该网页抓取任务所使用IP的并发数;如果当前网页抓取任务不符合所述礼貌访问条件,则继续判断抓取任务队列中下一个网页抓取任务。
5.如权利要求1所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(1)中所述为网页抓取任务分配目标网站服务器的IP的过程如下:
判断客户端缓存中与所述网页地址对应的主机名是否有IP列表;如果没有IP列表,则预分配使用第一个IP;如果有IP列表且已知IP列表中所有IP的抓取速度,则分配一个可用的且抓取速度最快的IP,否则轮询分配一个IP。
6.如权利要求5所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果网页抓取任务没有与该网页地址对应的主机名的IP列表,则对该主机名进行DNS解析,获取IP列表,将预分配的第一个IP转换为IP列表中实际的第一个IP;然后将所述主机名和IP列表进行缓存。
7.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在利用所述IP建立与所述服务器的连接过程中,如果连接成功,则缓存该连接,下次使用该连接时,直接从缓存中获取该连接;如果连接失败,则对该IP进行标记,并将该网页抓取任务加载到失败任务队列。
8.如权利要求7所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:缓存该连接后,记录每次使用该连接的时间,当使用该连接的时间超过了设定的有效期限时,则删除该连接。
9.如权利要求7所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果连接失败的次数超过设定的阈值M时,标记该IP不可用,下次分配IP时不再分配该IP。
10.如权利要求9所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:当不可用的IP个数超过了IP列表中IP总个数的设定比例N时,重新进行DNS解析,获取新的IP列表。
11.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在建立与所述服务器的连接后,访问所述网页地址的网页;如果访问成功,则抓取网页内容,并标记该连接可以重用;如果访问失败,则关闭该连接,并将该网页抓取任务加载到失败任务队列。
12.如权利要求7或11所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:定时将所述失败任务队列中的任务加载到抓取任务队列中。
13.如权利要求11所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在抓取网页内容后,记录该网页抓取任务所使用IP的本次抓取速度,并统计所述IP的综合抓取速度。
14.如权利要求13所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:采用如下公式统计所述IP的综合抓取速度:
S 0 = 0 S n = αS n - 1 + β R n , n ≥ 1 , α + β = 1
其中,Sn表示第n次所述IP的抓取速度,Sn-1表示第n-1次所述IP的抓取速度,α表示历史抓取速度的权重,Rn表示第n次所述IP的实际抓取速度,β表示当前抓取速度的权重。
15.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在从所述服务器中抓取所述网页地址的网页后,分析抓取的网页中的网页地址链接;先在抓取网页中的网页地址链接中进行排重,然后再在整个抓取任务队列中的网页地址链接中进行排重;排重后加载到抓取任务队列中。
16.如权利要求15所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于,所述排重的方法为:先将网页地址字符串转换为MD5值,然后通过比较每个网页地址的MD5值进行排重。
17.一种从网站中多个不同IP的服务器抓取网页的系统,包括为客户端的网页抓取任务分配目标网站服务器IP的分配装置(11),所述网页抓取任务包括待抓取网页的网页地址;
用于判断所述网页抓取任务是否符合所述服务器的礼貌访问条件的判断装置(12);
用于利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页的抓取装置(13)。
CN201010546334.0A 2010-11-15 2010-11-15 从网站中多个不同ip的服务器抓取网页的方法及系统 Expired - Fee Related CN102469132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010546334.0A CN102469132B (zh) 2010-11-15 2010-11-15 从网站中多个不同ip的服务器抓取网页的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010546334.0A CN102469132B (zh) 2010-11-15 2010-11-15 从网站中多个不同ip的服务器抓取网页的方法及系统

Publications (2)

Publication Number Publication Date
CN102469132A true CN102469132A (zh) 2012-05-23
CN102469132B CN102469132B (zh) 2014-04-30

Family

ID=46072295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010546334.0A Expired - Fee Related CN102469132B (zh) 2010-11-15 2010-11-15 从网站中多个不同ip的服务器抓取网页的方法及系统

Country Status (1)

Country Link
CN (1) CN102469132B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN103237089A (zh) * 2013-05-16 2013-08-07 广东睿江科技有限公司 基于dns轮询方式网页的修复方法、装置和服务器
CN103324522A (zh) * 2013-06-20 2013-09-25 北京奇虎科技有限公司 对从各服务器抓取数据的任务进行调度的方法和设备
CN103678311A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 基于中转模式的网页访问方法及系统、抓取路径服务器
CN104731645A (zh) * 2015-03-19 2015-06-24 蔡树彬 一种任务调度方法和装置及数据下载方法和装置
CN104967698A (zh) * 2015-02-13 2015-10-07 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置
CN105681478A (zh) * 2016-04-19 2016-06-15 北京高地信息技术有限公司 通过对网络资源调度提高网络爬虫抓取效率的方法和装置
CN105743852A (zh) * 2014-12-09 2016-07-06 航天信息股份有限公司 通过http实现跨越网闸进行Socket保持连接通信的方法及系统
CN105868258A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 爬虫系统
CN105989151A (zh) * 2015-03-02 2016-10-05 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN103544278B (zh) * 2013-10-22 2017-02-01 北京奇虎科技有限公司 确定网站抓取流量配额的方法及设备
CN106407219A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 网页链接的爬取方法及装置
CN106445966A (zh) * 2015-08-11 2017-02-22 北京国双科技有限公司 一种数据获取方法和装置
CN106959975A (zh) * 2016-01-11 2017-07-18 广州市动景计算机科技有限公司 一种转码资源缓存处理方法、装置及设备
CN107025226A (zh) * 2016-01-29 2017-08-08 广州市动景计算机科技有限公司 目标站点访问方法、装置和中转服务器
CN107105071A (zh) * 2017-05-05 2017-08-29 北京京东金融科技控股有限公司 Ip调用方法及装置、存储介质、电子设备
CN107454205A (zh) * 2017-07-31 2017-12-08 北京北信源软件股份有限公司 一种连接服务器的方法和装置
CN108536535A (zh) * 2018-01-24 2018-09-14 北京奇艺世纪科技有限公司 一种dns服务器及其线程控制方法和装置
CN108900623A (zh) * 2018-07-11 2018-11-27 邦尼集团有限公司 一种基于动态ip的网页正文获取方法及装置
CN110119468A (zh) * 2019-05-15 2019-08-13 重庆八戒传媒有限公司 一种提高抓取公开数据种子精度的方法和装置
CN110929129A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 一种信息检测方法、设备及机器可读存储介质
CN106941537B (zh) * 2017-05-05 2020-08-07 北京奇艺世纪科技有限公司 一种负载均衡方法及装置
CN111931108A (zh) * 2020-07-31 2020-11-13 福建深空信息技术有限公司 一种安全网站更新方法及系统
CN113486229A (zh) * 2021-07-05 2021-10-08 北京百度网讯科技有限公司 抓取压力的控制方法、装置、电子设备及可读存储介质
CN114943049A (zh) * 2022-05-18 2022-08-26 深圳优美创新科技有限公司 网页外部逻辑数据获取方法、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127038A (zh) * 2006-08-18 2008-02-20 鸿富锦精密工业(深圳)有限公司 下载网站静态网页的系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127038A (zh) * 2006-08-18 2008-02-20 鸿富锦精密工业(深圳)有限公司 下载网站静态网页的系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张晓峰: "并行网页抓取系统设计", 《北京交通大学硕士学位论文》 *
翁岩青: "网页抓取策略研究", 《哈尔滨工程大学工学硕士学位论文》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678311A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 基于中转模式的网页访问方法及系统、抓取路径服务器
CN103678311B (zh) * 2012-08-31 2018-11-13 腾讯科技(深圳)有限公司 基于中转模式的网页访问方法及系统、抓取路径服务器
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN103237089A (zh) * 2013-05-16 2013-08-07 广东睿江科技有限公司 基于dns轮询方式网页的修复方法、装置和服务器
CN103324522A (zh) * 2013-06-20 2013-09-25 北京奇虎科技有限公司 对从各服务器抓取数据的任务进行调度的方法和设备
CN103324522B (zh) * 2013-06-20 2016-09-28 北京奇虎科技有限公司 对从各服务器抓取数据的任务进行调度的方法和设备
CN103544278B (zh) * 2013-10-22 2017-02-01 北京奇虎科技有限公司 确定网站抓取流量配额的方法及设备
CN105743852A (zh) * 2014-12-09 2016-07-06 航天信息股份有限公司 通过http实现跨越网闸进行Socket保持连接通信的方法及系统
CN104967698B (zh) * 2015-02-13 2018-11-23 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置
CN104967698A (zh) * 2015-02-13 2015-10-07 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置
CN105989151A (zh) * 2015-03-02 2016-10-05 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN105989151B (zh) * 2015-03-02 2019-09-06 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN104731645A (zh) * 2015-03-19 2015-06-24 蔡树彬 一种任务调度方法和装置及数据下载方法和装置
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN106407219A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 网页链接的爬取方法及装置
CN106445966A (zh) * 2015-08-11 2017-02-22 北京国双科技有限公司 一种数据获取方法和装置
WO2017113687A1 (zh) * 2015-12-28 2017-07-06 乐视控股(北京)有限公司 爬虫系统及方法
CN105868258A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 爬虫系统
CN106959975A (zh) * 2016-01-11 2017-07-18 广州市动景计算机科技有限公司 一种转码资源缓存处理方法、装置及设备
CN106959975B (zh) * 2016-01-11 2021-06-04 阿里巴巴(中国)有限公司 一种转码资源缓存处理方法、装置及设备
CN107025226A (zh) * 2016-01-29 2017-08-08 广州市动景计算机科技有限公司 目标站点访问方法、装置和中转服务器
CN105681478B (zh) * 2016-04-19 2019-01-22 北京高地信息技术有限公司 通过对网络资源调度提高网络爬虫抓取效率的方法和装置
CN105681478A (zh) * 2016-04-19 2016-06-15 北京高地信息技术有限公司 通过对网络资源调度提高网络爬虫抓取效率的方法和装置
CN107105071A (zh) * 2017-05-05 2017-08-29 北京京东金融科技控股有限公司 Ip调用方法及装置、存储介质、电子设备
CN106941537B (zh) * 2017-05-05 2020-08-07 北京奇艺世纪科技有限公司 一种负载均衡方法及装置
CN107454205A (zh) * 2017-07-31 2017-12-08 北京北信源软件股份有限公司 一种连接服务器的方法和装置
CN108536535A (zh) * 2018-01-24 2018-09-14 北京奇艺世纪科技有限公司 一种dns服务器及其线程控制方法和装置
CN108900623A (zh) * 2018-07-11 2018-11-27 邦尼集团有限公司 一种基于动态ip的网页正文获取方法及装置
CN108900623B (zh) * 2018-07-11 2022-02-01 邦尼集团有限公司 一种基于动态ip的网页正文获取方法及装置
CN110929129A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 一种信息检测方法、设备及机器可读存储介质
CN110929129B (zh) * 2018-08-31 2023-12-26 阿里巴巴集团控股有限公司 一种信息检测方法、设备及机器可读存储介质
CN110119468A (zh) * 2019-05-15 2019-08-13 重庆八戒传媒有限公司 一种提高抓取公开数据种子精度的方法和装置
CN111931108A (zh) * 2020-07-31 2020-11-13 福建深空信息技术有限公司 一种安全网站更新方法及系统
CN113486229A (zh) * 2021-07-05 2021-10-08 北京百度网讯科技有限公司 抓取压力的控制方法、装置、电子设备及可读存储介质
CN113486229B (zh) * 2021-07-05 2023-11-07 北京百度网讯科技有限公司 抓取压力的控制方法、装置、电子设备及可读存储介质
CN114943049A (zh) * 2022-05-18 2022-08-26 深圳优美创新科技有限公司 网页外部逻辑数据获取方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN102469132B (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
CN102469132A (zh) 从网站中多个不同ip的服务器抓取网页的方法及系统
CN101917490B (zh) 一种读取缓存数据的方法及系统
CN102752154B (zh) Web网站死链检测方法
CN103347068B (zh) 一种基于代理集群网络缓存加速方法
CN109067930A (zh) 域名接入方法、域名解析方法、服务器、终端及存储介质
CN101119373B (zh) 一种网关级流式病毒扫描方法及其系统
CN101820451A (zh) 一种动态域名服务优化系统
CN103795575B (zh) 一种面向多数据中心的系统监控方法
CN103561060B (zh) 一种多线程环境下的通信链接方法及中转服务器
CN103414608A (zh) 快速的web流量采集统计系统和方法
CN105677615A (zh) 一种基于weka接口的分布式机器学习方法
CN103179148A (zh) 一种在互联网中分享附件的处理方法和系统
CN106131227A (zh) 负载平衡方法、元数据服务器系统及负载平衡系统
CN110874429A (zh) 面向海量数据采集的分布式网络爬虫性能优化方法
CN107342913A (zh) 一种cdn节点的探测方法和装置
CN104331328A (zh) 虚拟资源调度方法和虚拟资源调度装置
CN102253948B (zh) 在多源信息系统中搜索信息的方法和装置
CN106202232A (zh) 一种停电事件的分析方法及装置
CN103856503B (zh) Nas集群系统的文件数据的处理方法及nas集群系统
CN103631804B (zh) 电子地图的切图方法及处理系统
CN102347930A (zh) 网页内容获取方法和系统
CN103428249A (zh) 一种http请求包的收集及处理方法、系统和服务器
CN201919010U (zh) 一种网站访问性能监测系统
CN102083100B (zh) 一种用于基于站点检测多个资源链接的状态的方法与设备
CN102103522A (zh) 资源管理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220624

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140430