CN106934027A - 分布式爬虫实现方法及系统 - Google Patents

分布式爬虫实现方法及系统 Download PDF

Info

Publication number
CN106934027A
CN106934027A CN201710149022.8A CN201710149022A CN106934027A CN 106934027 A CN106934027 A CN 106934027A CN 201710149022 A CN201710149022 A CN 201710149022A CN 106934027 A CN106934027 A CN 106934027A
Authority
CN
China
Prior art keywords
search
distributed
server
subtasks
scope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710149022.8A
Other languages
English (en)
Inventor
马岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Boxinnuoda Trading Consultation Co Ltd
Original Assignee
Shenzhen Boxinnuoda Trading Consultation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Boxinnuoda Trading Consultation Co Ltd filed Critical Shenzhen Boxinnuoda Trading Consultation Co Ltd
Priority to CN201710149022.8A priority Critical patent/CN106934027A/zh
Publication of CN106934027A publication Critical patent/CN106934027A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式爬虫实现方法,所述方法包括如下步骤:服务器获取搜索的信息以及搜索的范围;服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;服务器将多个搜索子任务分配给分布式系统内的设备。本发明提供的技术方案具有效率高的优点。

Description

分布式爬虫实现方法及系统
技术领域
本发明涉及数据处理领域,尤其涉及一种分布式爬虫实现方法及系统。
背景技术
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
网络爬虫实际是一种网络信息抓取的应用程序,现有的网络爬虫抓取数据量大,导致数据搜索效率低。
发明内容
本申请提供一种分布式爬虫实现方法。其解决现有技术的技术方案效率低的缺点。
一方面,提供一种分布式爬虫实现方法,所述方法包括如下步骤:分布式爬虫实现方法,所述方法包括如下步骤:
服务器获取搜索的信息以及搜索的范围;
服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;
服务器将多个搜索子任务分配给分布式系统内的设备。
可选的,所述方法还包括:
服务器依据负载均衡的原则分配该多个搜索子任务。
可选的,所述方法还包括:
服务器按分布式系统内的设备的位置分配多个搜索子任务。
第二方面,提供一种分布式爬虫实现系统,所述系统包括:
获取单元,用于获取搜索的信息以及搜索的范围;
处理单元,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。
可选的,所述系统还包括:
处理单元,用于服务器依据负载均衡的原则分配该多个搜索子任务。
可选的,所述系统还包括:
处理单元,用于按分布式系统内的设备的位置分配多个搜索子任务。
第三方面,提供一种服务器,包括:处理器、无线收发器、存储器和总线,所述处理器、无线收发器、存储器通过总线连接,所述无线收发器,用于获取搜索的信息以及搜索的范围;
所述处理器,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。
可选的,所述处理器,用于服务器依据负载均衡的原则分配该多个搜索子任务。
可选的,所述处理器,用于按分布式系统内的设备的位置分配多个搜索子任务。
本发明提供的技术方案通过将搜索任务分解成多个搜索子任务,然后分布给分布式系统的多个设备来执行,从而提高了效率的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一较佳实施方式提供的一种分布式爬虫实现方法的流程图;
图2为本发明第二较佳实施方式提供的一种分布式爬虫实现系统的结构图。
图3为本发明第二较佳实施方式提供的一种服务器的硬件结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明第一较佳实施方式提出的一种分布式爬虫实现方法,该方法如图1所示,包括如下步骤:
步骤S101、服务器获取搜索的信息以及搜索的范围。
步骤S102、服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务。
步骤S103、服务器将多个搜索子任务分配给分布式系统内的设备。
本发明提供的技术方案通过将搜索任务分解成多个搜索子任务,然后分布给分布式系统的多个设备来执行,从而提高了效率的优点。
可选的,服务器依据负载均衡的原则分配该多个搜索子任务。
可选的,服务器按分布式系统内的设备的位置分配多个搜索子任务。
请参考图2,图2是本发明第二较佳实施方式提出的一种分布式爬虫实现系统,该系统如图2所示,包括:
获取单元201,用于获取搜索的信息以及搜索的范围;
处理单元202,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。
本发明提供的技术方案通过将搜索任务分解成多个搜索子任务,然后分布给分布式系统的多个设备来执行,从而提高了效率的优点。
可选的,处理单元202,用于服务器依据负载均衡的原则分配该多个搜索子任务。
可选的,处理单元202,用于按分布式系统内的设备的位置分配多个搜索子任务。
参阅图3,图3为一种服务器30,包括:处理器301、无线收发器302、存储器303和总线304,无线收发器302用于与外部设备之间收发数据。处理器301的数量可以是一个或多个。本申请的一些实施例中,处理器301、存储器302和收发器303可通过总线304或其他方式连接。服务器30可以用于执行图1的步骤。关于本实施例涉及的术语的含义以及举例,可以参考图1对应的实施例。此处不再赘述。
无线收发器302,用于获取搜索的信息以及搜索的范围。
其中,存储器303中存储程序代码。处理器901用于调用存储器903中存储的程序代码,用于执行以下操作:
处理器301,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。
需要说明的是,这里的处理器301可以是一个处理元件,也可以是多个处理元件的统称。例如,该处理元件可以是中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digital singnalprocessor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
存储器303可以是一个存储装置,也可以是多个存储元件的统称,且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器303可以包括随机存储器(RAM),也可以包括非易失性存储器(non-volatile memory),例如磁盘存储器,闪存(Flash)等。
总线304可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
该终端还可以包括输入输出装置,连接于总线304,以通过总线与处理器301等其它部分连接。该输入输出装置可以为操作人员提供一输入界面,以便操作人员通过该输入界面选择布控项,还可以是其它接口,可通过该接口外接其它设备。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种分布式爬虫实现方法,其特征在于,所述方法包括如下步骤:
服务器获取搜索的信息以及搜索的范围;
服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;
服务器将多个搜索子任务分配给分布式系统内的设备。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
服务器依据负载均衡的原则分配该多个搜索子任务。
3.根据权要求2所述的方法,其特征在于,所述方法还包括:
服务器按分布式系统内的设备的位置分配多个搜索子任务。
4.一种分布式爬虫实现系统,其特征在于,所述系统包括:
获取单元,用于获取搜索的信息以及搜索的范围;
处理单元,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。
5.根据权利要求4所述的系统,其特征在于,所述系统还包括:
处理单元,用于服务器依据负载均衡的原则分配该多个搜索子任务。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
处理单元,用于按分布式系统内的设备的位置分配多个搜索子任务。
7.一种服务器,包括:处理器、无线收发器、存储器和总线,所述处理器、无线收发器、存储器通过总线连接,其特征在于,
所述无线收发器,用于获取搜索的信息以及搜索的范围;
所述处理器,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。
8.根据权利要求7所述的服务器,其特征在于,所述处理器,用于服务器依据负载均衡的原则分配该多个搜索子任务。
9.根据权利要求7所述的服务器,其特征在于,所述处理器,用于按分布式系统内的设备的位置分配多个搜索子任务。
CN201710149022.8A 2017-03-14 2017-03-14 分布式爬虫实现方法及系统 Pending CN106934027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710149022.8A CN106934027A (zh) 2017-03-14 2017-03-14 分布式爬虫实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710149022.8A CN106934027A (zh) 2017-03-14 2017-03-14 分布式爬虫实现方法及系统

Publications (1)

Publication Number Publication Date
CN106934027A true CN106934027A (zh) 2017-07-07

Family

ID=59433014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710149022.8A Pending CN106934027A (zh) 2017-03-14 2017-03-14 分布式爬虫实现方法及系统

Country Status (1)

Country Link
CN (1) CN106934027A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562956A (zh) * 2017-09-30 2018-01-09 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
CN107679233A (zh) * 2017-10-24 2018-02-09 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
CN107766522A (zh) * 2017-10-25 2018-03-06 麦格创科技(深圳)有限公司 分布式爬虫系统中任务管理器的分配方法及系统
WO2018165839A1 (zh) * 2017-03-14 2018-09-20 深圳市博信诺达经贸咨询有限公司 分布式爬虫实现方法及系统
WO2019061385A1 (zh) * 2017-09-30 2019-04-04 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
WO2019084749A1 (zh) * 2017-10-31 2019-05-09 麦格创科技(深圳)有限公司 分布式系统的网页分配方法及系统
CN110968420A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种多爬虫平台的调度方法、装置、存储介质及处理器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070773A1 (en) * 2007-09-10 2009-03-12 Novell, Inc. Method for efficient thread usage for hierarchically structured tasks
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN103942098A (zh) * 2014-04-29 2014-07-23 国家电网公司 一种任务处理系统和方法
CN106161487A (zh) * 2015-03-23 2016-11-23 多媒体影像解决方案有限公司 服务器的信息处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070773A1 (en) * 2007-09-10 2009-03-12 Novell, Inc. Method for efficient thread usage for hierarchically structured tasks
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN103942098A (zh) * 2014-04-29 2014-07-23 国家电网公司 一种任务处理系统和方法
CN106161487A (zh) * 2015-03-23 2016-11-23 多媒体影像解决方案有限公司 服务器的信息处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018165839A1 (zh) * 2017-03-14 2018-09-20 深圳市博信诺达经贸咨询有限公司 分布式爬虫实现方法及系统
CN107562956A (zh) * 2017-09-30 2018-01-09 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
WO2019061385A1 (zh) * 2017-09-30 2019-04-04 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
CN107679233A (zh) * 2017-10-24 2018-02-09 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
CN107766522A (zh) * 2017-10-25 2018-03-06 麦格创科技(深圳)有限公司 分布式爬虫系统中任务管理器的分配方法及系统
WO2019084749A1 (zh) * 2017-10-31 2019-05-09 麦格创科技(深圳)有限公司 分布式系统的网页分配方法及系统
CN110968420A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种多爬虫平台的调度方法、装置、存储介质及处理器

Similar Documents

Publication Publication Date Title
CN106934027A (zh) 分布式爬虫实现方法及系统
CN108156022A (zh) 一种服务调用方法、装置及电子设备
CN102023843B (zh) 函数的调用方法、装置及智能卡
CN108834086A (zh) 短信发送的方法、装置、计算机设备和存储介质
CN107885767A (zh) 一种页面操作方法及装置
CN104503831A (zh) 设备优化方法及装置
CN106954043A (zh) 监控系统中云服务的任务分配方法及系统
CN112306471A (zh) 一种任务的调度方法和装置
CN108959139A (zh) 一种cpld管脚复用方法与装置
CN105630419B (zh) 一种资源池的分区视图发送方法及管理节点
CN111158800B (zh) 基于映射关系构建任务dag的方法及装置
CN104267985A (zh) 一种软件加载方法和设备
CN110704099B (zh) 联盟链的构建方法、装置和电子设备
CN106227592A (zh) 任务调用方法及任务调用装置
CN106055367A (zh) 一种脚本文件载入方法及装置
CN106851213A (zh) 监控系统中云平台的分组任务分配方法及系统
CN110032499A (zh) 页面用户流失的分析方法、装置、服务器及可读存储介质
CN107589991A (zh) 分布式系统的网页分配方法及系统
CN107562956A (zh) 分布式爬虫任务分配方法及系统
CN107590284A (zh) 分布式爬虫系统中任务管理器的选举方法及系统
CN106873470A (zh) 绕线机的进度统计和分配方法及系统
CN106865346A (zh) 绕线机的旋转控制方法及系统
CN112083912A (zh) 服务编排的中间结果处理方法、装置、设备及存储介质
CN106952050A (zh) 基于绕线机的错误修改方法及系统
CN106294146A (zh) 参数替换测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication