CN107222564A - 数据采集方法及装置 - Google Patents

数据采集方法及装置 Download PDF

Info

Publication number
CN107222564A
CN107222564A CN201710538665.1A CN201710538665A CN107222564A CN 107222564 A CN107222564 A CN 107222564A CN 201710538665 A CN201710538665 A CN 201710538665A CN 107222564 A CN107222564 A CN 107222564A
Authority
CN
China
Prior art keywords
acquisition
data
acquisition node
module
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710538665.1A
Other languages
English (en)
Inventor
汤寒林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Data Network Technology Co Ltd
Original Assignee
Guizhou Data Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Data Network Technology Co Ltd filed Critical Guizhou Data Network Technology Co Ltd
Priority to CN201710538665.1A priority Critical patent/CN107222564A/zh
Publication of CN107222564A publication Critical patent/CN107222564A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明实施例公开了一种数据采集方法及装置,涉及信息技术领域,能够避免数据的重复采集,并且可以提高采集速度。本发明的方法包括:首先对采集任务进行拆分,得到多个分布式采集任务,并将所述多个分布式采集任务分别发送至对应的采集节点,然后接收各采集节点分别返回的数据信息,最后根据各所述数据信息,输出采集结果。

Description

数据采集方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种数据采集方法及装置。
背景技
现有技术中,当采集节点需要采集数据时,向相应的服务器发起数据采集请求,并获取对应的数据信息。如果当前向服务器采集数据的采集节点较多,则会造成大量的重复采集,浪费采集次数。
发明内容
本发明的实施例提供一种数据采集方法及装置,能够解决重复采集数据的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种数据采集方法,包括:
对采集任务进行拆分,得到多个分布式采集任务;
将所述多个分布式采集任务分别发送至对应的采集节点;
接收各所述采集节点分别返回的数据信息;
根据各所述数据信息,输出采集结果。
结合第一方面,在第一方面的第一种可能的实现方式中,所述数据信息包括曾缓存数据信息或当前采集数据信息;其中,所述曾缓存数据信息缓存在采集节点,所述当前采集数据信息由采集节点基于所述分布式采集任务进行实时采集。
结合第一方面,在第一方面的第二种可能的实现方式中,所述方法还包括:
获取各所述采集节点的采集速度及采集成功率;
基于所述采集速度及所述采集成功率,调整分布式采集任务的数量及采集节点的数量。
结合第一方面,在第一方面的第三种可能的实现方式中,所述方法还包括:
将所述采集结果发送给各所述采集节点。
第二方面,本发明的实施例提供一种数据采集装置,包括:
拆分模块,用于对采集任务进行拆分,得到多个分布式采集任务;
任务发送模块,用于将所述拆分模块拆分得到的所述多个分布式采集任务分别发送至对应的采集节点;
接收模块,用于接收各所述采集节点分别返回的数据信息;
输出模块,用于根据所述接收模块接收的各所述数据信息,输出采集结果。
结合第二方面,在第二方面的第一种可能的实现方式中,所述接收模块接收的所述数据信息包括曾缓存数据信息或当前采集数据信息;其中,所述曾缓存数据信息缓存在采集节点,所述当前采集数据信息由采集节点基于所述分布式采集任务进行实时采集。
结合第二方面,在第二方面的第二种可能的实现方式中,所述装置还包括:获取模块、调整模块;
所述获取模块,用于获取各所述采集节点的采集速度及采集成功率;
所述调整模块,用于基于所述获取模块获取的所述采集速度及所述采集成功率,调整分布式采集任务的数量及采集节点的数量。
结合第二方面,在第二方面的第三种可能的实现方式中,所述装置还包括:数据发送模块;
所述数据发送模块,用于将所述采集结果发送给各所述采集节点。
本发明实施例提供的数据采集方法及装置,通过首先对采集任务进行拆分,得到多个分布式采集任务,并将所述多个分布式采集任务分别发送至对应的采集节点,然后接收各采集节点分别返回的数据信息,最后根据各所述数据信息,输出采集结果。能够在多个采集节点同时向服务器采集数据时,通过各不同采集节点分别采集相应数据片段,并将各数据片段进行整合后发送给采集节点,能够实现发布式并发数据采集,从而可以避免数据的重复采集,并且可以提高采集速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的数据采集方法的流程示意图;
图2是本发明实施例的数据采集方法的另一流程示意图;
图3是本发明实施例的数据采集装置结构示意图;
图4是本发明实施例的数据采集装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明一实施例提供一种数据采集方法,如图1所示,所述方法包括:
101、对采集任务进行拆分,得到多个分布式采集任务。
其中,分布式采集任务的数量可以基于当前的采集节点个数进行实时确定,也可以按照当前采集数据所占空间的大小进行确定。
在本发明实施例中,可以对采集任务进行数据等量拆分,即每个分布式采集任务对应的待采集数据大小均相同;也可以按照各采集节点的采集能力(例如,采集节点采集数据的速度和/或成功率)对采集任务进行拆分,即对于采集速度快且采集成功率高的采集节点,为其分配的分布式采集任务对应的待采集数据越大。
对于本发明实施例,采集任务可以针对任何数据的采集,例如,采集任务可以为对网页数据的采集。
102、将多个分布式采集任务分别发送至对应的采集节点。
其中,分布式采集任务携带有采集节点标识及待采集数据标识。
103、接收各采集节点分别返回的数据信息。
其中,采集节点返回的数据信息,可以是采集节点实时基于分布式采集任务进行数据采集得到,也可以是已缓存在采集节点的数据。
104、根据各所述数据信息,输出采集结果。
其中,采集结果包括采集任务对应的数据信息。在本发明实施例中,采集结果可以由各数据信息拼接得到。
与现有技术相比,本发明实施例能够在多个采集节点同时向服务器采集数据时,通过各不同采集节点分别采集相应数据片段,并将各数据片段进行整合后发送给采集节点,能够实现发布式并发数据采集,从而可以避免数据的重复采集,并且可以提高采集速度。
本发明又一实施例提供一种数据采集方法,如图2所示,所述方法包括:
201、获取各采集节点的采集速度及采集成功率。
202、基于采集速度及采集成功率,调整分布式采集任务的数量及采集节点的数量。
例如,对于采集成功率较低的采集节点,可以将其从采集任务中删除,以避免由于部分采集节点对数据采集失败,而导致采集任务失败的情况。在本发明实施例中,删除部分成功率较低的采集节点后,即减少采集任务的数量及采集节点的数量。
再例如,对于新加入的采集速度较高或采集成功率较高的采集节点,可以将其加入采集任务,即增加采集任务的数量及采集节点的数量。
对于本发明实施例,可以基于采集速度及采集成功率,对分布式采集任务的数量及采集节点的数量进行动态调整。在本发明实施例中,可以按照预设时间间隔,动态调整分布式采集任务的数量及采集节点的数量;也可以按照随机时间间隔,动态调整分布式采集任务的数量及采集节点的数量。
例如,期望采集的数据信息总量为Itotal,单位为Byte;可用的采集节点数量为N,各采集节点的采集速度为vi,(1≤i≤N),单位为Byte/s;各采集节点的采集成功率为pi,(1≤i≤N),用百分比表示。
步骤202可根据需求的不同,而实施为以下方式:
方式1:要求在给定的时间ΔT1内完成采集任务,且要求所有采集节点参与数据采集。
为完成采集任务,每个采集节点工作的有效采集时间ΔT2为:
其中,λ为防止数据丢包等意外而设置的时间放大系数,一般可取1≤λ≤1.2;
第i个采集节点分配的数据采集任务表示为Ii,表示第i个采集节点所需要采集的数据信息量:
ΔT2也是能够完成采集任务的最短时间,因此ΔT1≥ΔT2
上述方式1,可以控制采集任务的采集时间,且充分利用每个采集节点,满足对采集时间的需求。
方式2:要求在给定的时间ΔT1内(单位可为秒)完成采集任务,且只要求采集效率最高的若干个采集节点完成采集任务。
为完成采集任务,要求的平均有效数据采集速率为:
其中,η为防止数据丢包等意外而设置的数据采集速率缩小系数,一般可取0.85≤η≤0.95。
如果某采集节点的采集速度vi和采集成功率pi满足
vipi≥vE_ave
则该采集节点参与数据采集任务,否则不参与数据采集任务。
根据上述判断准则,设共有采集效率最高前M个采集节点需要参与数据采集任务,将其用下标j重新编号(1≤j≤M)。
第j个采集节点分配的数据采集任务为:
上述方式2,可以控制采集任务的采集时间,且充分利用采集效率高的采集节点,使得其余采集节点可执行其他数据的采集任务。
203、对采集任务进行拆分,得到多个分布式采集任务。
其中,分布式采集任务的数量可以基于当前的采集节点个数进行实时确定,也可以按照当前采集数据所占空间的大小进行确定。
在本发明实施例中,可以对采集任务进行数据等量拆分,即每个分布式采集任务对应的待采集数据大小均相同;也可以按照各采集节点的采集能力(例如,采集节点采集数据的速度和/或成功率)对采集任务进行拆分,即对于采集速度快且采集成功率高的采集节点,为其分配的分布式采集任务对应的待采集数据越大。
204、将多个分布式采集任务分别发送至对应的采集节点。
其中,分布式采集任务携带有采集节点标识及待采集数据标识。
205、接收各采集节点分别返回的数据信息。
对于本发明实施例,数据信息包括曾缓存数据信息或当前采集数据信息;其中,曾缓存数据信息缓存在采集节点,当前采集数据信息由采集节点基于分布式采集任务进行实时采集。
在本发明实施例中,采集节点接收到对应的分布式采集任务后,首先基于哈希值判断数据库中是否缓存有分布式采集任务对应的数据信息;如果数据库中缓存有分布式采集任务对应的数据信息,则采集节点可以直接返回曾缓存数据信息;或者,如果数据库中未缓存分布式采集任务对应的数据信息,则采集节点基于该分布式采集任务实时进行数据采集,得到当前采集数据信息。
当数据库缓存有分布式采集任务对应的数据信息时,采集节点返回曾缓存数据信息,由于采集节点无需再次对数据进行采集,因此能够进一步提高数据采集速度及数据采集成功率。
206、根据各数据信息,输出采集结果。
其中,采集结果包括采集任务对应的数据信息。在本发明实施例中,采集结果可以由各数据信息拼接得到。
207、将采集结果发送给各采集节点。
与现有技术相比,本发明实施例能够在多个采集节点同时向服务器采集数据时,通过各不同采集节点分别采集相应数据片段,并将各数据片段进行整合后发送给采集节点,能够实现发布式并发数据采集,从而可以避免数据的重复采集,并且可以提高采集速度。
本发明又一实施例提供一种数据采集装置,如图3所示,所述装置包括:拆分模块31、任务发送模块32、接收模块33、输出模块34。
拆分模块31,用于对采集任务进行拆分,得到多个分布式采集任务。
任务发送模块32,用于将拆分模块31拆分得到的多个分布式采集任务分别发送至对应的采集节点。
接收模块33,用于接收各采集节点分别返回的数据信息。
输出模块34,用于根据接收模块33接收的各数据信息,输出采集结果。
与现有技术相比,本发明实施例能够在多个采集节点同时向服务器采集数据时,通过各不同采集节点分别采集相应数据片段,并将各数据片段进行整合后发送给采集节点,能够实现发布式并发数据采集,从而可以避免数据的重复采集,并且可以提高采集速度。
对于本发明实施例,接收模块33接收的数据信息包括曾缓存数据信息或当前采集数据信息;其中,曾缓存数据信息缓存在采集节点,当前采集数据信息由采集节点基于分布式采集任务进行实时采集。
进一步的,如图4所示,所述装置还可以包括:获取模块41、调整模块42、数据发送模块43;
获取模块41,用于获取各所述采集节点的采集速度及采集成功率。
调整模块42,用于基于所述获取模块41获取的所述采集速度及所述采集成功率,调整分布式采集任务的数量及采集节点的数量。
数据发送模块43,用于将所述采集结果发送给各所述采集节点。
与现有技术相比,本发明实施例能够在多个采集节点同时向服务器采集数据时,通过各不同采集节点分别采集相应数据片段,并将各数据片段进行整合后发送给采集节点,能够实现发布式并发数据采集,从而可以避免数据的重复采集,并且可以提高采集速度。
本发明实施例提供的数据采集装置可以实现上述提供的数据采集方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的数据采集方法及装置可以适用于对数据进行采集,但不仅限于此。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种数据采集方法,其特征在于,包括:
对采集任务进行拆分,得到多个分布式采集任务;
将所述多个分布式采集任务分别发送至对应的采集节点;
接收各所述采集节点分别返回的数据信息;
根据各所述数据信息,输出采集结果。
2.根据权利要求1所述的方法,其特征在于,所述数据信息包括曾缓存数据信息或当前采集数据信息;其中,所述曾缓存数据信息缓存在采集节点,所述当前采集数据信息由采集节点基于所述分布式采集任务进行实时采集。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取各所述采集节点的采集速度及采集成功率;
基于所述采集速度及所述采集成功率,调整分布式采集任务的数量及采集节点的数量。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述采集结果发送给各所述采集节点。
5.一种数据采集装置,其特征在于,包括:
拆分模块,用于对采集任务进行拆分,得到多个分布式采集任务;
任务发送模块,用于将所述拆分模块拆分得到的所述多个分布式采集任务分别发送至对应的采集节点;
接收模块,用于接收各所述采集节点分别返回的数据信息;
输出模块,用于根据所述接收模块接收的各所述数据信息,输出采集结果。
6.根据权利要求5所述的装置,其特征在于,
所述接收模块接收的所述数据信息包括曾缓存数据信息或当前采集数据信息;其中,所述曾缓存数据信息缓存在采集节点,所述当前采集数据信息由采集节点基于所述分布式采集任务进行实时采集。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:获取模块、调整模块;
所述获取模块,用于获取各所述采集节点的采集速度及采集成功率;
所述调整模块,用于基于所述获取模块获取的所述采集速度及所述采集成功率,调整分布式采集任务的数量及采集节点的数量。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:数据发送模块;
所述数据发送模块,用于将所述采集结果发送给各所述采集节点。
CN201710538665.1A 2017-07-04 2017-07-04 数据采集方法及装置 Pending CN107222564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710538665.1A CN107222564A (zh) 2017-07-04 2017-07-04 数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710538665.1A CN107222564A (zh) 2017-07-04 2017-07-04 数据采集方法及装置

Publications (1)

Publication Number Publication Date
CN107222564A true CN107222564A (zh) 2017-09-29

Family

ID=59951722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710538665.1A Pending CN107222564A (zh) 2017-07-04 2017-07-04 数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN107222564A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及系统
CN102035664A (zh) * 2009-09-27 2011-04-27 中兴通讯股份有限公司 简单网络管理协议设备的数据并行采集归并方法及系统
CN102375837A (zh) * 2010-08-19 2012-03-14 中国移动通信集团公司 数据采集系统和方法
CN102724220A (zh) * 2011-03-29 2012-10-10 无锡物联网产业研究院 任务协同方法、装置及物联网系统
CN104714875A (zh) * 2015-03-11 2015-06-17 浪潮集团有限公司 一种分布式的自动化采集的方法
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN104915259A (zh) * 2015-06-15 2015-09-16 浪潮软件集团有限公司 一种应用于分布式采集系统的任务调度方法
CN105824744A (zh) * 2016-03-21 2016-08-03 焦点科技股份有限公司 一种基于b2b平台的实时日志采集分析方法
US20170118098A1 (en) * 2015-09-06 2017-04-27 RISC Networks, LLC Systems and methods for intelligent application grouping

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及系统
CN102035664A (zh) * 2009-09-27 2011-04-27 中兴通讯股份有限公司 简单网络管理协议设备的数据并行采集归并方法及系统
CN102375837A (zh) * 2010-08-19 2012-03-14 中国移动通信集团公司 数据采集系统和方法
CN102724220A (zh) * 2011-03-29 2012-10-10 无锡物联网产业研究院 任务协同方法、装置及物联网系统
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN104714875A (zh) * 2015-03-11 2015-06-17 浪潮集团有限公司 一种分布式的自动化采集的方法
CN104915259A (zh) * 2015-06-15 2015-09-16 浪潮软件集团有限公司 一种应用于分布式采集系统的任务调度方法
US20170118098A1 (en) * 2015-09-06 2017-04-27 RISC Networks, LLC Systems and methods for intelligent application grouping
CN105824744A (zh) * 2016-03-21 2016-08-03 焦点科技股份有限公司 一种基于b2b平台的实时日志采集分析方法

Similar Documents

Publication Publication Date Title
CN102523256B (zh) 内容的管理方法的方法、装置和系统
CN103812849B (zh) 一种本地缓存更新方法、系统、客户端及服务器
Gadde et al. Reduce, reuse, recycle: An approach to building large internet caches
CN102411637B (zh) 分布式文件系统的元数据管理方法
CN101237331B (zh) 话单文件的生成方法、传输方法、系统和装置
CN102289508B (zh) 分布式缓存阵列及其数据查询方法
CN105512053B (zh) 移动透明计算系统服务器端多用户访问的镜像缓存方法
CN102137139A (zh) 缓存替换策略的选择方法、装置、代理服务器和系统
CN105653473B (zh) 基于二元标识的缓存数据访问方法及装置
CN102439580A (zh) 用于网络加速以及对高速缓存文件系统进行高效索引编制的系统及方法
CN110278202A (zh) 一种文件上传系统
CN102438020A (zh) 内容分发网络中内容分发的方法、设备和网络系统
CN106603729A (zh) 一种分布式文件系统多客户端同步方法及系统
CN107479833B (zh) 一种面向键值存储的远程非易失内存访问与管理方法
CN104580432A (zh) memcached系统及内存缓存数据提供、维护和集群维护方法及装置
CN103823807A (zh) 一种去除重复数据的方法、装置及系统
CN102594902A (zh) 一种基于节点性能的BitTorrent节点选择方法
CN106603319A (zh) 一种故障处理的方法、管理服务器以及逻辑服务器
CN103532796B (zh) 大型isp间互联口统计系统及方法
Busari et al. Simulation evaluation of a heterogeneous web proxy caching hierarchy
CN103297547B (zh) 使用基于dht的p2p系统构建云存储辅助系统的方法
DE112016000174T5 (de) Synchronisieren mit einem lokalen gepaarten gerät zum erhalten von daten von einem fernserver unter verwendung einer punkt-zu-punkt-verbindung
CN102377826B (zh) 一种对等网络中冷门资源索引的优化放置方法
CN107222564A (zh) 数据采集方法及装置
CN111241069B (zh) 一种基于区块链的数据扁平化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170929