CN107707673A - 基于网页任务的实现方法及系统 - Google Patents
基于网页任务的实现方法及系统 Download PDFInfo
- Publication number
- CN107707673A CN107707673A CN201711054322.4A CN201711054322A CN107707673A CN 107707673 A CN107707673 A CN 107707673A CN 201711054322 A CN201711054322 A CN 201711054322A CN 107707673 A CN107707673 A CN 107707673A
- Authority
- CN
- China
- Prior art keywords
- equipment
- time delay
- task
- distributed
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
- H04L43/0864—Round trip delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/63—Routing a service request depending on the request content or context
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于网页任务的实现方法,所述方法包括如下步骤:分布式设备接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;分布式设备将N个数据包依次发送给分布式系统的其他M个设备;分布式设备统计M个设备返回的N个数据包的M组N个时延;分布式设备依据每组N个时延中的最小时延分配网页任务。本发明提供的技术方案具有效率高的优点。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于网页任务的实现方法及系统。
背景技术
网页采集是一种对特定网页进行采集的简称,对于网页采集而言,现有的网页采集一般在分布式系统内实现,但是现有的网页采集无法依据实际情况对网页采集的任务进行分配,导致网页采集效率低。
发明内容
本申请提供一种基于网页任务的实现方法。其解决现有技术的技术方案效率低的缺点。
一方面,提供一种基于网页任务的实现方法,所述方法包括如下步骤:
分布式设备接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;
分布式设备将N个数据包依次发送给分布式系统的其他M个设备;
分布式设备统计M个设备返回的N个数据包的M组N个时延;
分布式设备依据每组N个时延中的最小时延分配网页任务。
可选的,所述分布式设备依据该M个时延和分配网页采集任务,具体包括:
分布式设备对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
可选的,所述方法还包括:
分布式设备在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
第二方面,提供一种基于网页任务的实现系统,所述系统包括:分布式设备以及M个设备,所述分布式设备与M个设备连接;
分布式设备,用于接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;将N个数据包依次发送给分布式系统的其他M个设备;统计M个设备返回的N个数据包的M组N个时延;依据每组N个时延中的最小时延分配网页任务;
所述M个设备,用于接收分配网页采集任务执行网页采集。
可选的,所述分布式设备,还用于对M个时延和中位于第一区间的X个设备分配第一组网页采集任务,将第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的时延和低于第二区间的Y个设备的时延和,第一组网页采集任务大于第二组网页采集任务。
可选的,所述分布式设备,还用于在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
第三方面,提供一种分布式设备,包括:处理器、无线收发器、存储器和总线,所述处理器、无线收发器、存储器通过总线连接,
所述无线收发器,用于接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;
所述处理器,用于将N个数据包依次发送给分布式系统的其他M个设备;统计M个设备返回的N个数据包的M组N个时延;依据每组N个时延中的最小时延分配网页任务。
可选的,所述处理器,用于对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
可选的,所述处理器,用于在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
第四方面,提供一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面提供的方法。
本发明提供的技术方案通过最小时延来分配网页采集的任务,即最小时延较小的设备分配较多的网页采集任务,最小时延较大的设备分配较少的网页采集任务,从而提高了效率的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一较佳实施方式提供的一种基于网页任务的实现方法的流程图;
图2为本发明第二较佳实施方式提供的一种基于网页任务的实现系统的结构图。
图3为本发明第二较佳实施方式提供的一种分布式设备的硬件结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明第一较佳实施方式提出的一种基于网页任务的实现方法,该方法如图1所示,包括如下步骤:
步骤S101、分布式设备接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务。
步骤S102、分布式设备将N个数据包依次发送给分布式设备的其他M个设备,统计M个设备返回的N个数据包的M组N个时延,每组包含N个数据包的时延。
上述步骤S102的实现方法可以为:
分布式设备获取历史分享的数据包的大小(即容量,多少个MB或多个KB);提取历史数据包的大小区间,将该大小区间划分成N个子区间,分布式设备虚拟N个数据包,其中N个数据包中的第M个数据包的大小为N个区间中第M个子区间的中值,分布式设备将N个数据包依次发送给M个其他分布式设备,UE统计其他M个分布式设备中每个接入点的N个数据包的时延,得到M组N个时延。
下面以一个实际的例子来说明反馈参数为时间和的计算方式;
这里的数据包的大小具体可以包括:6MB、5MB、4MB、3MB、2MB、1MB,这里划分的N个区间以2个区间为例,具体的2个区间的范围可以为,区间1【6MB,4MB】;区间2【3MB,1MB】,那么分布式设备虚拟出2个数据包,为了方便说明,这里以数据包A表示第一区间虚拟数据包,数据包B表示第二区间虚拟数据包,数据包A的大小为5MB,数据包B的大小为2MB,将数据包A以及数据包B依次发送给M个其他设备,(这里以三个AP为例,分别为AP1,AP2以及AP3),AP1接收到数据包A以后会返回ACK(1a),接收时间为tACK(1a),数据包A的发送时间为t1a,AP1接收到数据包B以后会返回ACK(1b),接收时间可以为tACK(1b),数据包B的发送时间为t1b;那么AP1的N个时延即为:tACK(1a)-t1a以及tACK(1b)-t1b。同理可以计算出AP2和AP3的N个时延。
步骤S103、依据每组N个时延中的最小时延分配网页任务。
本发明提供的技术方案通过最小时延来分配网页采集的任务,即最小时延较小的设备分配较多的网页采集任务,最小时延较大的设备分配较少的网页采集任务,从而提高了效率的优点。
可选的,上述步骤S103的实现方法具体可以为:
分布式设备对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
可选的,上述方法在步骤S103之后还可以包括:
分布式设备在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
请参考图2,图2是本发明第二较佳实施方式提出的一种分布式爬虫实现系统,该系统如图2所示,包括:分布式设备201以及M个设备202,所述分布式设备与设备连接;
分布式设备,用于接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;将N个数据包依次发送给分布式系统的其他M个设备;统计M个设备返回的N个数据包的M组N个时延;依据每组N个时延中的最小时延分配网页任务;
该M个设备202,用于接收分配网页采集任务执行网页采集。
可选的,所述分布式设备,还用于对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
可选的,所述分布式设备,还用于在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
参阅图3,图3为一种分布式设备30,包括:处理器301、无线收发器302、存储器303和总线304,无线收发器302用于与外部设备之间收发数据。处理器301的数量可以是一个或多个。本申请的一些实施例中,处理器301、存储器302和收发器303可通过总线304或其他方式连接。服务器30可以用于执行图1的步骤。关于本实施例涉及的术语的含义以及举例,可以参考图1对应的实施例。此处不再赘述。
无线收发器302,用于接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;
处理器301,用于将N个数据包依次发送给分布式系统的其他M个设备;统计M个设备返回的N个数据包的M组N个时延;依据每组N个时延中的最小时延分配网页任务。
其中,存储器303中存储程序代码。处理器901用于调用存储器903中存储的程序代码,用于执行以下操作:
处理器301,用于对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
需要说明的是,这里的处理器301可以是一个处理元件,也可以是多个处理元件的统称。例如,该处理元件可以是中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digital singnalprocessor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
存储器303可以是一个存储装置,也可以是多个存储元件的统称,且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器303可以包括随机存储器(RAM),也可以包括非易失性存储器(non-volatile memory),例如磁盘存储器,闪存(Flash)等。
总线304可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
该终端还可以包括输入输出装置,连接于总线304,以通过总线与处理器301等其它部分连接。该输入输出装置可以为操作人员提供一输入界面,以便操作人员通过该输入界面选择布控项,还可以是其它接口,可通过该接口外接其它设备。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于网页任务的实现方法,其特征在于,所述方法包括如下步骤:
分布式设备接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;
分布式设备将N个数据包依次发送给分布式系统的其他M个设备;
分布式设备统计M个设备返回的N个数据包的M组N个时延;
分布式设备依据每组N个时延中的最小时延分配网页任务。
2.根据权利要求1所述的方法,其特征在于,所述分布式设备依据该M个时延和分配网页采集任务,具体包括:
分布式设备对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分布式设备在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
4.一种基于网页任务的实现系统,其特征在于,所述系统包括:分布式设备以及M个设备,所述分布式设备与M个设备连接;
分布式设备,用于接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;将N个数据包依次发送给分布式系统的其他M个设备;统计M个设备返回的N个数据包的M组N个时延;依据每组N个时延中的最小时延分配网页任务;
所述M个设备,用于接收分配网页采集任务执行网页采集。
5.根据权利要求4所述的系统,其特征在于,
所述分布式设备,还用于对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
6.根据权利要求4所述的方法,其特征在于,
所述分布式设备,还用于在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
7.一种分布式设备,包括:处理器、无线收发器、存储器和总线,所述处理器、无线收发器、存储器通过总线连接,其特征在于,
所述无线收发器,用于接收或发起任务消息,所述任务消息用于在分布式系统中分配网页采集任务;
所述处理器,用于将N个数据包依次发送给分布式系统的其他M个设备;统计M个设备返回的N个数据包的M组N个时延;依据每组N个时延中的最小时延分配网页任务。
8.根据权利要求7所述的服务器,其特征在于,所述处理器,用于对最小时延在第一区间的X个设备分配第一组网页采集任务,将最小时延在第二区间的Y个设备分给第二组网页采集任务,其中第一区间的X个设备的最小时延低于第二区间的Y个设备的最小时延,第一组网页采集任务大于第二组网页采集任务。
9.根据权利要求7所述的服务器,其特征在于,所述处理器,用于在配置完第一网页采集任务时,将第一网页采集任务群发给分布式系统的其他设备,接收其他设备返回的确认消息。
10.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711054322.4A CN107707673A (zh) | 2017-10-31 | 2017-10-31 | 基于网页任务的实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711054322.4A CN107707673A (zh) | 2017-10-31 | 2017-10-31 | 基于网页任务的实现方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107707673A true CN107707673A (zh) | 2018-02-16 |
Family
ID=61177100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711054322.4A Pending CN107707673A (zh) | 2017-10-31 | 2017-10-31 | 基于网页任务的实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107707673A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102843276A (zh) * | 2011-10-18 | 2012-12-26 | 国网电力科学研究院 | 一种分布式部署的网络时延采集方法 |
US20130090965A1 (en) * | 2011-10-11 | 2013-04-11 | Mobiwork, Llc | Real time customer access to location, arrival and on-site time data |
CN103425519A (zh) * | 2012-05-16 | 2013-12-04 | 富士通株式会社 | 分布式计算方法和分布式计算系统 |
CN104009890A (zh) * | 2014-06-10 | 2014-08-27 | 江苏省邮电规划设计院有限责任公司 | 一种互联网中的网络质量测试系统及方法 |
CN104301161A (zh) * | 2013-07-17 | 2015-01-21 | 华为技术有限公司 | 业务质量指标的计算方法、计算装置以及通信系统 |
CN105022662A (zh) * | 2014-04-22 | 2015-11-04 | 中国银联股份有限公司 | 一种分布式任务分配方法 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
-
2017
- 2017-10-31 CN CN201711054322.4A patent/CN107707673A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130090965A1 (en) * | 2011-10-11 | 2013-04-11 | Mobiwork, Llc | Real time customer access to location, arrival and on-site time data |
CN102843276A (zh) * | 2011-10-18 | 2012-12-26 | 国网电力科学研究院 | 一种分布式部署的网络时延采集方法 |
CN103425519A (zh) * | 2012-05-16 | 2013-12-04 | 富士通株式会社 | 分布式计算方法和分布式计算系统 |
CN104301161A (zh) * | 2013-07-17 | 2015-01-21 | 华为技术有限公司 | 业务质量指标的计算方法、计算装置以及通信系统 |
CN105022662A (zh) * | 2014-04-22 | 2015-11-04 | 中国银联股份有限公司 | 一种分布式任务分配方法 |
CN104009890A (zh) * | 2014-06-10 | 2014-08-27 | 江苏省邮电规划设计院有限责任公司 | 一种互联网中的网络质量测试系统及方法 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106934027A (zh) | 分布式爬虫实现方法及系统 | |
CN108777698A (zh) | 网页存储方法、系统及区块链节点设备 | |
CN108121511A (zh) | 一种分布式边缘存储系统中的数据处理方法、装置及设备 | |
CN104484383A (zh) | Js文件处理方法和装置 | |
CN107256180A (zh) | 数据处理方法、装置及终端 | |
CN107885767A (zh) | 一种页面操作方法及装置 | |
CN106954043A (zh) | 监控系统中云服务的任务分配方法及系统 | |
CN103250382B (zh) | 分流方法、设备和系统 | |
CN107589991A (zh) | 分布式系统的网页分配方法及系统 | |
CN107040427A (zh) | 一种网卡配置的方法及装置 | |
CN107707673A (zh) | 基于网页任务的实现方法及系统 | |
CN107679243A (zh) | 任务分配在分布式系统的应用方法及系统 | |
CN107679233A (zh) | 分布式爬虫任务分配方法及系统 | |
CN107729153A (zh) | 网页采集任务分配方法及系统 | |
CN107784116A (zh) | 任务分配在分布式系统的实现方法及系统 | |
CN109753012A (zh) | 一种基于云平台的加工机远程控制方法、装置及系统 | |
CN106952207A (zh) | 监控云平台分布式系统的选举方法及系统 | |
CN107800789A (zh) | 分布式爬虫系统中任务管理器的分配方法及系统 | |
CN107766522A (zh) | 分布式爬虫系统中任务管理器的分配方法及系统 | |
CN109359799A (zh) | 保单调单处理方法、装置、计算机设备及存储介质 | |
CN106851213A (zh) | 监控系统中云平台的分组任务分配方法及系统 | |
CN107562956A (zh) | 分布式爬虫任务分配方法及系统 | |
CN106294143A (zh) | 芯片的寄存器的调试方法及装置 | |
CN104135376B (zh) | 用于分享数字对象于网状网络的方法和装置 | |
CN106034110B (zh) | 访问链路生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180216 |