CN102314463A - 分布式爬虫系统及其提取网页数据的方法 - Google Patents

分布式爬虫系统及其提取网页数据的方法 Download PDF

Info

Publication number
CN102314463A
CN102314463A CN2010102246718A CN201010224671A CN102314463A CN 102314463 A CN102314463 A CN 102314463A CN 2010102246718 A CN2010102246718 A CN 2010102246718A CN 201010224671 A CN201010224671 A CN 201010224671A CN 102314463 A CN102314463 A CN 102314463A
Authority
CN
China
Prior art keywords
url
server
reptile
data
formation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102246718A
Other languages
English (en)
Inventor
贾海禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruixin Online System Tech Co Ltd
Original Assignee
Beijing Ruixin Online System Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruixin Online System Tech Co Ltd filed Critical Beijing Ruixin Online System Tech Co Ltd
Priority to CN2010102246718A priority Critical patent/CN102314463A/zh
Publication of CN102314463A publication Critical patent/CN102314463A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种分布式爬虫系统及其提取网页数据的方法,该系统包括爬虫服务器,用于发布未处理URL队列,并对所述分布式爬虫系统进行逻辑控制;消息队列服务器,用于从所述爬虫服务器接收URL队列,并将所述URL队列向所述下载端发送;至少一个下载端,用于根据从所述消息队列服务器中接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;URL过滤器,用于对所述爬虫服务器收到的网页数据进行排重。本发明的爬虫服务器不需要知道下载端的实现,爬虫服务器将任务发给消息队列服务器,并等待任务结果的返回即可,逻辑控制和下载任务的分离,让分布式爬虫系统的启动、管理、容错都变的简单许多。

Description

分布式爬虫系统及其提取网页数据的方法
技术领域
本发明涉及计算机数据挖掘技术,特别是涉及一种分布式爬虫系统及其提取网页数据的方法。
背景技术
搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。1994年,爬虫程序被应用到索引程序中,Yahoo、Google等相继出现。但至今,功能再强大的搜索引擎都仍然存在信息丢失、更新率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。
在这种情况下定向抓取相关网页资源的主题爬虫应运而生。主题爬虫又称为聚焦爬虫,为自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。作为一种智能的Web爬虫,它的基本工作过程与一般的爬虫是相似的。与一般爬虫不同的是,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
目前无论对于一般爬虫还是主题爬虫,大部分研究都是专注于爬虫的搜索策略和相关度分析方面,在这些方面也已取得相当多的进展。而面对越来越庞大的网络资源,提高爬虫程序的速度已成为当前搜索领域的一个焦点问题,但现有的爬虫程序显然不能满足高速爬取的需求。
发明内容
有鉴于此,本发明提出一种分布式爬虫系统及其提取网页数据的方法,以提高网页爬取速度。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种分布式爬虫系统,包括爬虫服务器、消息队列服务器、至少一个下载端和统一资源定位符URL过滤器,其中,所述爬虫服务器,用于发布未处理URL队列,并对所述分布式爬虫系统进行逻辑控制;所述消息队列服务器,用于从所述爬虫服务器接收URL队列,并将所述URL队列向所述下载端发送;所述下载端,用于根据从所述消息队列服务器中接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;以及所述URL过滤器,用于对所述爬虫服务器收到的网页数据进行排重。
本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。
前述的分布式爬虫系统,所述消息队列服务器向所述下载端下达URL队列或根据所述下载端的请求向其提供URL队列。
前述的分布式爬虫系统,还包括本地文件子系统,用于存储所述爬虫服务器收到的所述网页数据。
前述的分布式爬虫系统,还包括分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
前述的分布式爬虫系统,所述URL过滤器为基于二进制数组bitSet的过滤器。
前述的分布式爬虫系统,还包括监控端,用于监控和管理所述爬虫服务器。
本发明的目的及解决其技术问题另外还采用以下技术方案来实现。依据本发明提出的一种提取网页数据的方法,其基于前述的系统,包括以下步骤:S1.爬虫服务器发布未处理URL队列;S2.所述消息队列服务器接收所述URL队列并将其发送到至少一个下载端;S3.所述下载端根据接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;以及S4.对所述爬虫服务器收到的网页数据进行排重。
本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。
前述的提取网页数据的方法,所述步骤S1中,爬虫服务器发布的未处理URL队列包括种子URL队列;所述步骤S3中,所述下载端下载的网页数据包括种子URL对应页面上的超链接URL。
前述的提取网页数据的方法,步骤S4具体为:S411.爬虫服务器从超链接URL中取出一条URL数据;S412.爬虫服务器判断该URL数据是否与其最近最少使用LRU缓存中的数据一致,若不一致,则执行步骤S413,若一致,则抛弃该URL数据并执行步骤S411;S413.URL过滤器对所述URL数据进行排重,若排重未命中,则执行步骤S51,若排重命中,则抛弃该URL数据并执行步骤S411;步骤S4之后包括步骤S51:将排重通过的URL数据放入所述爬虫服务器的未处理URL队列中并执行步骤S411。
由上述技术方案可知,本发明的实施例通过采用分布式爬虫系统,具有以下有益效果:
本发明的爬虫服务器不需要知道下载端的实现,爬虫服务器将任务发给消息队列服务器,并等待任务结果的返回即可。逻辑控制和下载任务的分离,让分布式爬虫系统的启动、管理、容错都变的简单许多。
爬虫服务器不需要知道有多少个下载端在下载,不需要去管理下载端,这使得整个结构非常容易扩展。在网络环境允许的情况,如果想获取更快的爬取速度,可以实时的增加一个下载端,而不需要更改原来的系统,也不需要重新启动原来的系统,就可以让系统拥有更强大的抓取能力,这样就解决了在系统实时运行时想增加抓取能力的问题。
通过以下参照附图对优选实施例的说明,本发明的上述以及其它目的、特征和优点将更加明显。
附图说明
图1为本发明分布式爬虫系统一实施例的结构示意图;
图2为基于本发明分布式爬虫系统的提取网页数据方法一实施例的流程图;
图3为本发明提取网页数据方法一具体实施例的流程图。
具体实施方式
下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
本发明将现有技术中的爬虫程序以分布式爬虫系统来实现,总的来说,该分布式爬虫系统中的爬虫服务器实现整个系统的逻辑控制,系统中的至少一个下载端进行具体的任务处理,利用这种爬虫服务器和下载端分离的架构来构成分布式爬虫系统。
请参阅图1所示,其为本发明提出的分布式爬虫系统1一实施例的结构示意图,分布式爬虫系统1包括爬虫服务器11、消息队列服务器12、至少一个下载端13以及URL(Uniform Resource Locator,统一资源定位符)过滤器14。
爬虫服务器11是整个系统的核心部分,用于发布未处理URL队列,并对该分布式爬虫系统1的其余各部分进行逻辑控制。其控制分布式爬虫系统1爬虫策略的实现,实现爬虫的主要逻辑,并协同、调度系统其他部分以完成爬虫的流程。
具体地,爬虫服务器11内可存储未处理URL队列、处理中的URL队列以及已处理URL队列,能够实现发布未处理URL队列、接收返回的已处理的URL队列,并可提供有系统管理界面。
消息队列服务器12,其作为爬虫服务器11和下载端13之间的中转站,用于从爬虫服务器11接收URL队列,以便于下载端13获取。
下载端13用于根据从消息队列服务器12中接收的URL队列下载网页,并将下载的网页数据发送至爬虫服务器11。
具体地说,消息队列服务器12可主动向下载端13下达需抓取的URL队列;也可以在收到下载端13的请求后,向发请求的下载端13提供URL队列。
需要说明的是,下载端13可使用现有技术中的网页抓取方式,本发明不就抓取的具体细节加以说明,仅就发明对现有技术的改进之处加以描述。
URL过滤器14,用于对爬虫服务器11收到的网页数据进行排重。
由于Internet上的网页中重复的URL很多,没有排重,爬虫就会永无休止的重复抓取。排重服务确保每个URL任务只被执行一次。
URL过滤器14可为现有技术中的过滤器,但由于对网页排重的需要,现有技术中的过滤器都需要对过滤内容进行存储,以判断是否需要过滤。每次过滤判断需要去查找是否内容已经存在然后做出判断,如果没有存在需要再进行一次存储操作。这些过滤器的缺点是查询存储操作执行速度较慢,需要额外的存储空间。
在本实施例中,优选基于bitSet的过滤器。基于bitSet的过滤器的基本原理为:
由于过滤器只需要对待过滤的内容是否存在做出一个“是”或“非”的二值判断,并不需要获取内容,因此基于bitSet的过滤器并不将数据存储。基于bitSet的过滤器是将数据通过一定的哈希方法映射成一个二进制数组bitSet中的几个点,这样,待过滤的内容经由该哈希算法映射成二进制数组bitSet中的几个点后,若发现相同的位置已经被置位,则说明该内容已经存在,便可将该内容过滤掉。
采用本实施例的分布式爬虫系统,爬虫服务器11不需要知道下载端13的实现,爬虫服务器11将任务发给消息队列服务器12,并等待任务结果的返回即可。逻辑控制和下载任务的分离,让分布式爬虫系统1的启动、管理、容错都变的简单许多。
此外,爬虫服务器11不需要知道有多少个下载端在下载,不需要去管理下载端,这使得整个结构非常容易扩展。在网络环境允许的情况,如果想获取更快的爬取速度,可以实时的增加一个下载端,而不需要更改原来的系统,也不需要重新启动原来的系统,就可以让系统拥有更强大的抓取能力,这样就解决了在系统实时运行时想提高抓取能力的问题。
爬虫服务器11收到下载端13发送的网页数据后,可将其存储在本地文件子系统16中,该本地文件子系统可为单独的计算机,但由于互联网的网页数据相当庞大,单机的本地文件子系统16有时并不能满足这样庞大的存储需求,因此,可进一步将本地文件子系统16中网页数据同步到基于客户机/服务器模式的分布式文件子系统17中,以确保所有的网页数据都能有效的存储。
分布式爬虫系统1还可包括监控端15,其用于监控和管理爬虫服务器11的状态,以保证系统的正常运行。
在现有的爬虫程序中,监控端并不单独存在。本发明将监控端15与爬虫服务器11分离,能够减少系统的耦合性。监控的功能分离出来之后,一是降低爬虫服务器11的复杂性,二是可以在分布式爬虫系统1运行的同时修改监控端15以达到特定的控制管理目的。
本领域及技术人员可以理解,本实施例中提出的分布式爬虫系统可作为一般爬虫系统,也可作为主题爬虫系统。
本发明还提出了一种提取网页数据的方法,该方法基于上述分布式爬虫系统,请参阅图2所示,本方法包括以下步骤:
S1:爬虫服务器发布未处理URL队列;
S2:消息队列服务器接收URL队列并将其发送到至少一个下载端;
S3:下载端根据接收的URL队列下载网页,并将下载的网页数据发送至爬虫服务器;
S4:对所述爬虫服务器收到的网页数据进行排重。
上述步骤的具体实现,可采用与上述分布式爬虫系统实施例中相同的实施方式,在此不再赘述。
请参阅图3所示,其为本发明提取网页数据的方法一具体实施例的示意图,本实施例是将本发明的分布式爬虫系统作为主题爬虫系统的应用,具体包括以下步骤:
S11:爬虫服务器发布种子URL队列;
具体地,爬虫服务器将种子URL放入未处理URL队列中,以向消息队列服务器发布。
S21:消息队列服务器从服务器的未处理URL队列中接收URL队列,并将其发送到至少一个下载端;
这时,爬虫服务器会将消息队列服务器接收的URL队列标记为处理中。
S31:下载端根据接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器,该网页数据中包括种子URL对应页面上的超链接URL;
爬虫服务器会根据收到的网页数据,将相应的URL队列标记为已处理。
本领域技术人员知道,主题爬虫的爬行过程可以看作是一个有选择性的遍历Web图的过程,它从一组种子URL出发,沿着Web页面上的超链接不断爬行并下载网页。
由于本发明中的下载端执行爬行并下载网页的功能,因此其下载的网页数据中可能会包括有种子URL对应页面上的超链接URL,若存在有超链接URL,则这些超链接的URL置于URLList(URL列表)中,这样,网页数据中的超链接的URL实际上是以URLList的形式返回至爬虫服务器。
S41:对所述爬虫服务器收到的网页数据进行排重;
在本实施例中,主要针对URLList中的数据进行排重,以避免超链接URL重复。
对URLList中的数据进行排重的具体过程可包括:
S411:爬虫服务器从超链接URL中取出一条URL数据;
S412:爬虫服务器判断该URL数据是否与其LRU(least recently used,最近最少使用)缓存中的数据一致,若不一致,则执行步骤S413,若一致,则抛弃该URL数据并执行步骤S411;
这里,LRU缓存设于服务器的内存中,如果该URL数据与LRU缓存中的数据一致,说明最近下载过该URL数据,则抛弃该URL数据,并执行步骤S411来重新取出一条URL数据。
S413:URL过滤器对该URL数据进行排重,若排重未命中,则执行步骤S51,若排重命中,则抛弃该URL数据并执行步骤S411;
URL过滤器对URL数据的排重可采用与前述分布式爬虫系统实施例中相同的实施方式,在此不再赘述。
S51:将排重通过的URL数据放入爬虫服务器的未处理URL队列中,以进行基于此URL的网页抓取,并执行步骤S411来提取下一条URL数据。
虽然已参照几个典型实施例描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (9)

1.一种分布式爬虫系统,其特征在于,包括爬虫服务器、消息队列服务器、至少一个下载端和统一资源定位符URL过滤器,其中,
所述爬虫服务器,用于发布未处理URL队列,并对所述分布式爬虫系统进行逻辑控制;
所述消息队列服务器,用于从所述爬虫服务器接收URL队列,并将所述URL队列向所述下载端发送;
所述下载端,用于根据从所述消息队列服务器中接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;以及
所述URL过滤器,用于对所述爬虫服务器收到的网页数据进行排重。
2.根据权利要求1所述的分布式爬虫系统,其特征在于,所述消息队列服务器向所述下载端下达URL队列或根据所述下载端的请求向其提供URL队列。
3.根据权利要求1所述的分布式爬虫系统,其特征在于,还包括本地文件子系统,用于存储所述爬虫服务器收到的所述网页数据。
4.根据权利要求3所述的分布式爬虫系统,其特征在于,还包括分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
5.根据权利要求1所述的分布式爬虫系统,其特征在于,还包括监控端,用于监控和管理所述爬虫服务器。
6.根据权利要求1-5中任一项权利要求所述的分布式爬虫系统,其特征在于,所述URL过滤器为基于二进制数组bitSet的过滤器。
7.一种提取网页数据的方法,其特征在于,其基于权利要求1所述的系统,包括以下步骤:
S1.爬虫服务器发布未处理URL队列;
S2.所述消息队列服务器接收URL队列并将其发送到至少一个下载端;
S3.所述下载端根据接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;以及
S4.对所述爬虫服务器收到的网页数据进行排重。
8.根据权利要求7所述的提取网页数据的方法,其特征在于,
所述步骤S1中,爬虫服务器发布的未处理URL队列包括种子URL队列;
所述步骤S3中,所述下载端下载的网页数据包括种子URL对应页面上的超链接URL。
9.根据权利要求8所述的提取网页数据的方法,其特征在于,步骤S4具体为:
S411.爬虫服务器从超链接URL中取出一条URL数据;
S412.爬虫服务器判断该URL数据是否与其最近最少使用LRU缓存中的数据一致,若不一致,则执行步骤S413,若一致,则抛弃该URL数据并执行步骤S411;
S413.URL过滤器对所述URL数据进行排重,若排重未命中,则执行步骤S51,若排重命中,则抛弃该URL数据并执行步骤S411;
步骤S4之后包括步骤S51:
将排重通过的URL数据放入所述爬虫服务器的未处理URL队列中并执行步骤S411。
CN2010102246718A 2010-07-07 2010-07-07 分布式爬虫系统及其提取网页数据的方法 Pending CN102314463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102246718A CN102314463A (zh) 2010-07-07 2010-07-07 分布式爬虫系统及其提取网页数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102246718A CN102314463A (zh) 2010-07-07 2010-07-07 分布式爬虫系统及其提取网页数据的方法

Publications (1)

Publication Number Publication Date
CN102314463A true CN102314463A (zh) 2012-01-11

Family

ID=45427641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102246718A Pending CN102314463A (zh) 2010-07-07 2010-07-07 分布式爬虫系统及其提取网页数据的方法

Country Status (1)

Country Link
CN (1) CN102314463A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN102929912A (zh) * 2012-09-10 2013-02-13 新浪网技术(中国)有限公司 生成微博图片的方法及系统
CN103067521A (zh) * 2013-01-08 2013-04-24 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103258017A (zh) * 2013-04-24 2013-08-21 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统
CN103475687A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN104484405A (zh) * 2014-12-15 2015-04-01 北京国双科技有限公司 执行爬取任务的方法和装置
CN104572901A (zh) * 2014-12-25 2015-04-29 小米科技有限责任公司 网页数据的下载方法及装置
CN104866555A (zh) * 2015-05-15 2015-08-26 浪潮软件集团有限公司 一种基于网络爬虫的自动化采集方法
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN105426407A (zh) * 2015-11-02 2016-03-23 浪潮软件集团有限公司 一种基于内容分析的web数据采集方法
CN105912934A (zh) * 2016-04-20 2016-08-31 迅鳐成都科技有限公司 一种面向数据产权保护的反内爬访控方法
CN106168985A (zh) * 2016-08-26 2016-11-30 南京车易淘网络信息技术有限公司 一种可快速分布式部署的爬虫方法
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN107066530A (zh) * 2017-03-01 2017-08-18 苏州朗动网络科技有限公司 一种数据刷新系统及数据刷新方法
CN107066526A (zh) * 2017-02-23 2017-08-18 武汉智寻天下科技有限公司 一种网络爬虫系统及方法
CN107104822A (zh) * 2017-03-29 2017-08-29 杭州云纪网络科技有限公司 服务器备灾处理方法、装置、存储介质及电子设备
CN107180103A (zh) * 2017-05-31 2017-09-19 成都明途科技有限公司 搜索更便捷快速的交互系统
CN107193960A (zh) * 2017-05-24 2017-09-22 南京大学 一种分布式爬虫系统及周期性增量抓取方法
CN107193870A (zh) * 2017-04-12 2017-09-22 广东万丈金数信息技术股份有限公司 网页内容的提取方法和系统
CN107273450A (zh) * 2017-05-31 2017-10-20 成都明途科技有限公司 一种新型智能推荐资源的系统
CN107291838A (zh) * 2017-05-31 2017-10-24 成都明途科技有限公司 有效筛分资源的爬虫系统
CN107729564A (zh) * 2017-11-13 2018-02-23 北京众荟信息技术股份有限公司 一种分布式的聚焦网络爬虫网页爬取方法及系统
CN108132948A (zh) * 2016-11-30 2018-06-08 北京国双科技有限公司 处理爬取网页的方法和装置
WO2018149400A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 一种页面发布方法、可读存储介质、终端设备及装置
CN109063199A (zh) * 2018-09-11 2018-12-21 广州神马移动信息科技有限公司 资源过滤方法及其装置、电子设备、计算机可读介质
CN109063216A (zh) * 2018-10-17 2018-12-21 珠海市智图数研信息技术有限公司 一种分布式垂直业务搜索爬虫框架
CN109933706A (zh) * 2019-03-29 2019-06-25 北京达佳互联信息技术有限公司 一种数据获取方法、装置、电子设备及存储介质
CN112448991A (zh) * 2019-09-05 2021-03-05 顺丰科技有限公司 一种地址去重方法、相关设备及存储介质
CN113239253A (zh) * 2021-04-09 2021-08-10 北京皮尔布莱尼软件有限公司 一种网络爬虫实现方法、系统、计算设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929912A (zh) * 2012-09-10 2013-02-13 新浪网技术(中国)有限公司 生成微博图片的方法及系统
CN102929912B (zh) * 2012-09-10 2016-05-11 新浪网技术(中国)有限公司 生成微博图片的方法及系统
CN102932448B (zh) * 2012-10-30 2016-04-27 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN103067521A (zh) * 2013-01-08 2013-04-24 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103067521B (zh) * 2013-01-08 2016-08-17 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103258017A (zh) * 2013-04-24 2013-08-21 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统
CN103258017B (zh) * 2013-04-24 2016-04-13 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统
CN103475687A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103475687B (zh) * 2013-05-24 2016-12-28 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN104484405A (zh) * 2014-12-15 2015-04-01 北京国双科技有限公司 执行爬取任务的方法和装置
CN104572901B (zh) * 2014-12-25 2018-12-18 小米科技有限责任公司 网页数据的下载方法及装置
CN104572901A (zh) * 2014-12-25 2015-04-29 小米科技有限责任公司 网页数据的下载方法及装置
CN104866555A (zh) * 2015-05-15 2015-08-26 浪潮软件集团有限公司 一种基于网络爬虫的自动化采集方法
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN105426407A (zh) * 2015-11-02 2016-03-23 浪潮软件集团有限公司 一种基于内容分析的web数据采集方法
CN105912934A (zh) * 2016-04-20 2016-08-31 迅鳐成都科技有限公司 一种面向数据产权保护的反内爬访控方法
CN105912934B (zh) * 2016-04-20 2018-10-30 迅鳐成都科技有限公司 一种面向数据产权保护的反内爬访控方法
CN106168985A (zh) * 2016-08-26 2016-11-30 南京车易淘网络信息技术有限公司 一种可快速分布式部署的爬虫方法
CN108132948A (zh) * 2016-11-30 2018-06-08 北京国双科技有限公司 处理爬取网页的方法和装置
WO2018149400A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 一种页面发布方法、可读存储介质、终端设备及装置
CN107066526A (zh) * 2017-02-23 2017-08-18 武汉智寻天下科技有限公司 一种网络爬虫系统及方法
CN107066530A (zh) * 2017-03-01 2017-08-18 苏州朗动网络科技有限公司 一种数据刷新系统及数据刷新方法
CN107104822A (zh) * 2017-03-29 2017-08-29 杭州云纪网络科技有限公司 服务器备灾处理方法、装置、存储介质及电子设备
CN107104822B (zh) * 2017-03-29 2020-09-08 恒生电子股份有限公司 服务器备灾处理方法、装置、存储介质及电子设备
CN107193870A (zh) * 2017-04-12 2017-09-22 广东万丈金数信息技术股份有限公司 网页内容的提取方法和系统
CN107193960A (zh) * 2017-05-24 2017-09-22 南京大学 一种分布式爬虫系统及周期性增量抓取方法
CN107193960B (zh) * 2017-05-24 2020-11-10 南京大学 一种分布式爬虫系统及周期性增量抓取方法
CN107180103A (zh) * 2017-05-31 2017-09-19 成都明途科技有限公司 搜索更便捷快速的交互系统
CN107273450A (zh) * 2017-05-31 2017-10-20 成都明途科技有限公司 一种新型智能推荐资源的系统
CN107291838A (zh) * 2017-05-31 2017-10-24 成都明途科技有限公司 有效筛分资源的爬虫系统
CN107729564A (zh) * 2017-11-13 2018-02-23 北京众荟信息技术股份有限公司 一种分布式的聚焦网络爬虫网页爬取方法及系统
CN109063199A (zh) * 2018-09-11 2018-12-21 广州神马移动信息科技有限公司 资源过滤方法及其装置、电子设备、计算机可读介质
CN109063199B (zh) * 2018-09-11 2022-10-25 优视科技有限公司 资源过滤方法及其装置、电子设备、计算机可读介质
CN109063216A (zh) * 2018-10-17 2018-12-21 珠海市智图数研信息技术有限公司 一种分布式垂直业务搜索爬虫框架
CN109933706A (zh) * 2019-03-29 2019-06-25 北京达佳互联信息技术有限公司 一种数据获取方法、装置、电子设备及存储介质
CN112448991A (zh) * 2019-09-05 2021-03-05 顺丰科技有限公司 一种地址去重方法、相关设备及存储介质
CN112448991B (zh) * 2019-09-05 2023-06-13 顺丰科技有限公司 一种地址去重方法、相关设备及存储介质
CN113239253A (zh) * 2021-04-09 2021-08-10 北京皮尔布莱尼软件有限公司 一种网络爬虫实现方法、系统、计算设备及存储介质
CN113239253B (zh) * 2021-04-09 2024-02-23 北京皮尔布莱尼软件有限公司 一种网络爬虫实现方法、系统、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN102314463A (zh) 分布式爬虫系统及其提取网页数据的方法
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN102646129B (zh) 一种主题相关的分布式网络爬虫系统
Kausar et al. Web crawler: a review
US8799262B2 (en) Configurable web crawler
CN103970788A (zh) 一种基于网页爬取的爬虫技术
US20090024748A1 (en) Website monitoring and cookie setting
CN105260388A (zh) 一种分布式垂直爬虫服务系统的优化方法
CN105589943B (zh) 搜索结果页面的图片适应性处理的方法、装置和服务器
CN103198097B (zh) 一种基于分布式文件系统的海量地学数据并行处理方法
CN102170479A (zh) Web缓存的更新方法及Web缓存的更新装置
CN101694658A (zh) 基于新闻去重的网页爬虫的构建方法
CN103914568A (zh) 调度http代理的方法和装置
CN109600385B (zh) 一种访问控制方法及装置
CN102946320A (zh) 一种分布式用户行为日志预测网络监管方法及系统
CN104462158A (zh) 数据抓取方法和数据抓取系统
TWI553493B (zh) 搜尋軟體應用程式之方法及其系統
CN104615597B (zh) 浏览器中清除缓存文件的方法、装置和系统
Anbukodi et al. Reducing web crawler overhead using mobile crawler
Chitraa et al. An efficient path completion technique for web log mining
CN111444412B (zh) 网络爬虫任务的调度方法及装置
CN104572901B (zh) 网页数据的下载方法及装置
KR20120071827A (ko) 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법
Hurst et al. Social streams blog crawler
Xie et al. Design and implementation of the topic-focused crawler based on scrapy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120111