CN114374695A - 一种分布式数据采集系统运行方法及系统 - Google Patents

一种分布式数据采集系统运行方法及系统 Download PDF

Info

Publication number
CN114374695A
CN114374695A CN202210279882.4A CN202210279882A CN114374695A CN 114374695 A CN114374695 A CN 114374695A CN 202210279882 A CN202210279882 A CN 202210279882A CN 114374695 A CN114374695 A CN 114374695A
Authority
CN
China
Prior art keywords
acquisition
acquisition unit
data
task
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210279882.4A
Other languages
English (en)
Other versions
CN114374695B (zh
Inventor
宋文凯
甘中学
陈益飞
张盼强
冯浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhichang Technology Group Co ltd
Original Assignee
Zhichang Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhichang Technology Group Co ltd filed Critical Zhichang Technology Group Co ltd
Publication of CN114374695A publication Critical patent/CN114374695A/zh
Application granted granted Critical
Publication of CN114374695B publication Critical patent/CN114374695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种分布式数据采集系统运行方法及系统,包括根据任务需求设定对应数量的采集单元并将采集单元布置于相同局域网中;访问采集单元的后台管理服务,根据采集需求分别对采集单元进行分配式采集参数配置/同步式采集参数配置;采集单元根据分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;访问采集单元的后台管理服务,查询采集单元的数据采集结果,调用上层业务系统利用数据采集结果进行分析处理,本发明满足了分布式数据采集系统对数据采集实时性、可靠性和资源有效利用等的需求,提升了系统稳定性。

Description

一种分布式数据采集系统运行方法及系统
相关申请参考:
本申请根据《专利法》第二十九条要求2021年11月26日向国家知识产权局提交的发明专利申请(一种分布式数据采集系统运行方法,申请号为202111419852 .0)的优先权,本文以此申请的内容为基础并通过参考将其完整地结合于此。
技术领域
本发明属于数据分析处理技术领域,具体涉及一种分布式数据采集系统运行方法及系统。
背景技术
大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理及处理的数据集合,21世纪是大数据的时代,高价值的样本数据是统计学、深度学习等诸多应用技术的基础,一个稳定高效的数据采集系统是所有大数据平台的基石,大数据分析是将所有数据进行统计及分析的技术,用于通过多个数据之间的已经或未知的关联性来进行获取或预测答案。
随着工业大数据环境的到来,工业过程中数据源日渐多样化、数据规模增大,面对工业大规模高频数据的采集,以及一些新的应用需求,为了保证数据采集的时序性、实时性和可靠性,越来越多的企业开始考虑采用分布式系统来进行工业数据采集。在分布式数据采集系统的设计过程中,任务分配策略是十分关键的环节,它将直接影响采集系统的资源利用率效率和数据采集效率,面对巨量的数据采集需求,目前传统数据采集系统采用单点采集,由技术人员通过计算采集任务工作量,来人工部署相应数量的服务来进行采集工作,最后每个单点服务将采集到的数据通过相应网络上传至中央数据库或者业务单元进行汇总处理。
采用上述方法进行数据采集存在以下问题:
1、现有的数据采集系统中,为了提高资源利用率,同时满足采集任务中重要任务的采集可靠性,常常仅为采集任务中的部分重要数据所对应的采集任务进行备份,并且采集任务复杂度不同,数据采集设备的性能配置也不同,无法实现各采集单元的负载均衡,容易造成采集资源的浪费。
2、系统整体稳定性差,单点故障将会影响对应采集任务的失败,造成上层业务系统数据的缺失,数据采集单元硬件损坏或者系统崩溃,如未能及时备份至稳定网络位置,将会造成系统配置的丢失,使运维修复工作任务变得艰巨。
发明内容
针对上述现有技术的不足,本申请提供一种分布式数据采集方法及系统。
第一方面本申请提供一种分布式数据采集方法,包括以下步骤:根据任务需求设定对应数量的采集单元并将采集单元布置于相同局域网中;
访问采集单元的后台管理服务,根据采集需求分别对采集单元进行分配式采集参数配置/同步式采集参数配置;
采集单元根据分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;
访问采集单元的后台管理服务,查询采集单元的数据采集结果,调用上层业务系统利用数据采集结果进行分析处理。
在一些实施例中,上述一种分布式数据采集方法中,分配式采集参数配置包括:
配置采集单元与采集任务的对应参数;
配置采集单元的采集时间和采集任务以及单元资源利用率的对应参数;
配置采集单元上任务转移所消耗的资源与转移任务数量的对应参数;
配置采集单元之间任务转移的通信消耗与转移任务的对应参数。
在一些实施例中,上述一种分布式数据采集方法中,执行分配式采集任务的步骤包括:
根据分配式采集参数配置的对应参数确定进行初始采集工作的采集单元,将剩余采集单元作为备用;
将初始采集任务和部分初始任务中的重要任务分配给采集单元并开始进行数据采集;
通过后台管理服务判断采集单元在数据采集的过程中是否出现采集错误情况,若是,则通过后台管理服务对采集单元进行调整后,继续进行采集任务得到数据采集结果;
若不存在采集错误情况,则根据采集单元执行完采集任务后得到数据采集结果。
在一些实施例中,上述一种分布式数据采集方法中,通过后台管理服务判断采集单元在数据采集的过程中是否出现采集错误情况,若是,则通过后台管理服务对采集单元进行调整后,继续进行采集任务得到数据采集结果,包括:
判断采集单元在数据采集的过程中是否存在采集单元故障,若是,则通过后台管理服务对采集单元进行故障后任务调整;
判断采集单元在数据采集的过程中是否存在采集单元过载或采集单元上采集时间不满足采集周期要求的情况,若是,则通过后台管理服务对采集单元进行采集单元过载后任务调整;
判断采集单元在数据采集的过程中是否存在采集单元上重要采集任务出现采集失败的情况,若是,则通过后台管理服务将采集单元对应的重要任务的采集结果从对应的采集单元上存入数据采集系统;
若上述情况均不存在,则继续执行采集任务,得到数据采集结果。
在一些实施例中,上述一种分布式数据采集方法中,同步式采集参数配置包括:
访问任意一台采集单元的后台管理服务,配置同步式采集任务的对应参数并将其广播到局域网络中,使得剩余的其它采集单元从该采集单元同步新的配置信息;
对单个采集单元进行配置后,采集单元将会被分配一个独有编号,随后在局域网络中进行广播,配置信息采用链式存储方式,新配置将会记录上一个配置的编号,剩余的其它采集单元将会比对配置链来判断是否更新当前配置信息并进行保存,保证每一个采集单元都有完全一样包含所有任务的配置信息;
所有采集单元保存对应配置信息后完成同步式采集参数配置。
在一些实施例中,上述一种分布式数据采集方法中,执行同步式采集任务包括:
每个采集单元根据同步式采集参数配置的配置信息和剩余采集性能,动态地循环申请任务;
每个采集单元会实时统计运行信息和设备冗余载荷,根据配置信息,来主动申请任务;
所有采集单元动态申请任务,单次可申请一个任务,使得各个采集单元负载尽可能达到均衡后,执行响应采集任务,得到数据采集结果;
每个采集单元将会把采集到的数据广播到局域网络中,除进行广播外的剩余采集单元将会同步更新该采集任务的数据结果。
在一些实施例中,上述一种分布式数据采集方法中,在同步式采集任务执行过程中,整个系统中的任一采集单元/至少大于一个采集单元出现故障而无法执行采集任务后,对应的采集任务都将会被置为未申请,剩余采集单元将积极响应并申请这些任务。
在一些实施例中,上述一种分布式数据采集方法中,在同步式采集任务执行过程中,每个采集单元采集后的数据将被广播到整个局域网,剩余采集单元将会同步更新对应采集任务的当前数据,通过任一采集单元服务皆可查询整个数据采集系统中所有采集任务的当前数据。
在一些实施例中,上述一种分布式数据采集方法中,还包括扩容步骤和缩容步骤,扩容步骤为:当需要进行扩容时,在该局域网内加入新的采集单元,该单元将会广播扩容信息,并从其它任一采集单元同步配置信息,随后所有采集任务将会重新进行申请分配;
缩容步骤为:当需要进行缩容时,其中一个采集单元被移除后,隶属于该单元的采集任务状态会更改为未申请,随后这些采集任务将会重新被其它单元申请分配。
第二方面本申请提出了一种分布式数据采集系统,包括网络配置模块、采集参数配置模块、采集模块和数据获取分析模块;
网络配置模块,用于根据任务需求设定对应数量的采集单元并将采集单元布置于相同局域网中;
采集参数配置模块,用于访问采集单元的后台管理服务,根据采集需求分别对采集单元进行分配式采集参数配置/同步式采集参数配置;
采集模块,用于让采集单元根据分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;
数据获取分析模块,用于访问采集单元的后台管理服务,查询采集单元的数据采集结果,调用上层业务系统利用数据采集结果进行分析处理。
本发明的有益效果:
1、综合考虑采集单元的资源利用率、采集效率、负载均衡和采集可靠性
等多重因素,通过分配式采集参数配置,解决了分布式数据采集系统在采集过程中采集单元故障、过载和部分采集任务采集失败后的相关问题,满足了分布式数据采集系统对数据采集实时性、可靠性和资源有效利用等的需求。
2、通过同步式采集参数配置,进行链式配置存储,实时将数据采集任务配置信息进行广播并多单元同步保存,不易造成配置丢失,可随时追溯和还原,降低了运维复杂度;采集单元根据自身性能配置和运行状况动态申请并执行采集任务,达到了自主性地负载均衡;能够根据采集需求,灵活进行缩容和扩容,进行单元热插拔而不影响其余整个系统运行,提升系统稳定性。
附图说明
图1为本发明总体流程示意图。
图2为分配式采集参数配置流程图。
图3为分配式采集任务执行流程图。
图4为同步式采集任务执行流程图。
图5为同步式采集任务执行示意图。
图6为同步式采集参数配置示意图。
图7为扩容示意图。
图8为缩容示意图。
图9为本系统结构图。
具体实施方式
下面结合附图对本发明作进一步的详细说明,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
第一方面本申请提出了一种分布式数据采集运行方法,如图1所示,包括以下步骤:
S100:根据任务需求设定对应数量的采集单元并将采集单元布置于相同局域网中;
S200:访问采集单元的后台管理服务,根据采集需求分别对采集单元进行分配式采集参数配置/同步式采集参数配置;
如图2所示,根据采集需求分别对采集单元进行分配式采集参数配置的步骤包括:
S210:配置采集单元与采集任务的对应参数;
其中,通过后台服务管理单独对每个采集单元分配采集任务,改变采集任务个数,测量大量不同采集任务条件下,第q个采集单元上消耗的采集任务个数Tq及其采集资源利用率数据uq,以及该采集单元上分配的全部采集任务所需要的采集时间数据timeq;对上述步骤中的第q个采集单元上的采集任务数据Tq和对应资源消耗数据
Figure DEST_PATH_IMAGE001
进行拟合,求得两者的函数关系式:
Figure DEST_PATH_IMAGE003
S211:配置采集单元的采集时间和采集任务以及单元资源利用率的对应参数;
对步骤S210中所得采集任务个数Tq和对应采集资源利用率数据uq、采集时间数据timeq进行拟合,求得第q个采集单元上采集时间数据timeq与采集任务个数Tq和资源利用率数据uq的函数关系式timeq=g(Tq ,uq );
S212:配置采集单元上任务转移所消耗的资源与转移任务数量的对应参数;
本实施例中,由于各采集单元之间转移任务的资源开销相较于任务执行的资源开销来说较小,所以忽略不计。
S213:配置采集单元之间任务转移的通信消耗与转移任务的对应参数。
本实施例中,由于各采集单元间采用光纤通信,任务转移的通信开销较小,所以忽略不计。
根据采集需求分别对采集单元进行同步式采集参数配置的步骤包括:
S220:访问任意一台采集单元的后台管理服务,配置同步式采集任务的对应参数并将其广播到局域网络中,使得剩余的其它采集单元从该采集单元同步新的配置信息;
S221:对单个采集单元进行配置后,采集单元将会被分配一个独有编号,随后在局域网络中进行广播,配置信息采用链式存储方式,新配置将会记录上一个配置的编号,剩余的其它采集单元将会比对配置链来判断是否更新当前配置信息并进行保存,保证每一个采集单元都有完全一样包含所有任务的配置信息,如图6所示。
S223:所有采集单元保存对应配置信息后完成同步式采集参数配置。
如图7-图8所示,其中,在同步式采集参数配置中,还包括扩容步骤和缩容步骤;
当系统需要进行扩容时,只要在该局域网内加入新的采集单元,该单元将会广播扩容信息,并从其它任一采集单元同步配置信息,随后所有采集任务将会重新进行申请分配。
当系统需要进行缩容时,该单元被移除后,隶属于该单元的采集任务状态会更改为未申请,随后这些采集任务将会重新被其它单元申请分配。
S300:采集单元根据分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;
其中,如图3所示,执行分配式采集任务的步骤包括,
S310:根据分配式采集参数配置的对应参数确定进行初始采集工作的采集单元,将剩余采集单元作为备用;
将剩余采集单元作为备用的目的是节约数据采集的服务器资源,提高资源利用率,当采集任务发生变化或者需要增加资源的时候,再通过后台服务管理向系统提出资源申请。
S311:将初始采集任务和部分初始任务中的重要任务分配给采集单元并开始进行数据采集;
S312:通过后台管理服务判断采集单元在数据采集的过程中是否出现采集错误情况;
若是,则判断采集错误情况并通过后台管理服务对采集单元进行对应调整,执行步骤S312-10/ S312-20/ S312-30;
判断采集单元在数据采集的过程中是否存在采集单元故障,若是,则执行步骤S312-10;
S312-10:通过后台管理服务进行采集单元故障后任务调整。
其中,采集单元故障后任务调整包括:
将当前采集周期的故障采集单元上初始任务中的重要任务的采集结果从其对应的采集单元存入数据采集系统的数据库;
下一采集周期,从备用的采集单元中寻找和故障采集单元资源剩余情况最相近的单元,作为新加入的采集单元,将故障采集单元上的部分初始任务和其中的重要任务转移至新加入的采集单元进行采集,然后执行步骤S313。
其中,视数据采集系统自带的数据库类型而定,可以是SQL Server或HBase数据库等;
判断采集单元在数据采集的过程中是否存在采集单元过载/采集单元上采集时间不满足采集周期要求的情况,若是,则执行步骤S312-20;
S312-20:通过后台管理服务对采集单元进行采集单元过载后任务调整。
其中,采集单元过载后任务调整包括:
根据步骤S210-S213的参数配置关系,建立需要新加入采集单元数量的调整模型,确定新加入的采集单元个数的最小值为m,调整模型为:
Figure DEST_PATH_IMAGE005
其中,公式(1.1)表示若存在任务从单元q迁移到单元p,则不存在任务从单元p迁移到单元q,从而保证任务迁移的单调性,Tqp表示从第q个单元迁移到第p个单元的任务个数, Tpq表示从第p个单元迁移到第q个单元的任务个数;
Figure DEST_PATH_IMAGE007
公式(1.2)表示一个单元不能既迁出任务又迁入任务,n表示新加入单元前工作的采集单元个数;
Figure DEST_PATH_IMAGE009
公式(1.3)表示任务迁移过程中以及任务迁移完成后初始工作采集单元中第q个采集单元的资源利用率不能超过后台服务管理所设置的资源利用率上限,uq0表示初始工作采集单元中第q个单元未分配任务前的资源利用率,Rq表示初始工作采集单元中第q个采集单元上配置的可用资源总量,uh表示后台服务管理设置的单元资 源利用率上限,uw表示后台服务管理设置的单元资源利用率阈值带宽,Tq表示任务迁移前初始工作采集单元中第q个单元上的采集任务个数,
Figure 773368DEST_PATH_IMAGE010
表示任务迁移后初始工作采集单元中第q个单元上采集任务执行所消耗的资源,
Figure DEST_PATH_IMAGE011
表示任务迁移后初始工作采集单元中第q个单元上采集任务迁移所消耗的资源,
Figure 736776DEST_PATH_IMAGE010
Figure 410334DEST_PATH_IMAGE011
的取值分别由式(1.4)和式(1.5)确定,具体函数关系由步骤S210和步骤S212确定
Figure DEST_PATH_IMAGE013
公式(1.6)表示任务迁移完成后初始工作采集单元中第q个单元的资源利用率;
Figure DEST_PATH_IMAGE015
公式(1-7)表示任务迁移后初始工作采集单元中第q个采集单元上执行一次全部采集任务的采集时间timeq不能超过后台服务管理设定的采集周期Time;
Figure DEST_PATH_IMAGE017
其中,timeq表示任务迁移后初始工作采集单元中第q个单元上执行一次全部采集任务的采集时间,timeq的取值由式(1.8)确定;
Figure DEST_PATH_IMAGE019
公式(1.9)表示新加入单元中第p个采集单元的资源利用率不能超过后台服务管理所设置的资源利用率上限,up表示任务迁移完成后新加入单元中第p个单元的资源利用率,up0表示新加入单元中第p个单元未分配任务前的资源利用率,Rp表示新加入单元中第 p个采集单元上配置的可用资源总量,
Figure 492123DEST_PATH_IMAGE020
表示任务迁移后新加入单元中第p个单元上采集任务执行所消耗的资源,
Figure DEST_PATH_IMAGE021
表示任务迁移后新加入单元中第p个单元上采集任务迁移所消耗的资源,其中
Figure 36368DEST_PATH_IMAGE020
Figure 577202DEST_PATH_IMAGE021
的取值分别由式(1.10)和式(1.11)确定;
Figure DEST_PATH_IMAGE023
公式(1.12)表示任务迁移后新加入单元中第p个采集单元上执行一次全部采集任务的采集时间不能超过后台服务管理设定的采集周期Time,timep表示任务迁移后新加入单元中第p个单元上执行一次全部采集任务的采集时间,timep的取值由公式(1.13)确定,具体函数关系由步骤S211确定
求解上述步骤的调整模型,求得新加入的最小采集单元个数,并从备用的的采集单元中选择相应个数的采集单元,加入采集工作,然后执行步骤S313。
判断采集单元在数据采集的过程中是否存在采集单元上重要采集任务出现采集失败的情况,若是,则执行步骤S312-30;
S312-30:通过后台管理服务将采集单元对应的重要任务的采集结果从对应的采集单元上存入数据采集系统;
若不是,则执行步骤S313:
S313:根据采集单元执行完采集任务后得到数据采集结果。
如图4-图5所示,另一方面,执行同步式采集任务的步骤包括,
S320:每个采集单元根据同步式采集参数配置的配置信息和剩余采集性能,动态地循环申请任务;
S321:每个采集单元会实时统计运行信息和设备冗余载荷,根据配置信息,来主动申请任务;
其中,采集任务通过数据源区分,不同数据源判断为不同任务。
S322:所有采集单元动态申请任务,单次可申请一个任务,使得各个采集单元负载尽可能达到均衡后,执行响应采集任务,得到数据采集结果;
其中,整个系统中的任一采集单元/至少大于一个采集单元出现故障而无法执行采集任务后,对应的采集任务都将会被置为未申请,剩余采集单元将积极响应并申请这些任务。
S323:每个采集单元将会把采集到的数据广播到局域网络中,除进行广播外的剩余采集单元将会同步更新该采集任务的数据结果。
其中,每个采集单元采集后的数据将被广播到整个局域网,剩余采集单元将会同步更新对应采集任务的当前数据,通过任一采集单元服务皆可查询整个数据采集系统中所有采集任务的当前数据。
S400:访问采集单元的后台管理服务,查询采集单元的数据采集结果,调用上层业务系统利用数据采集结果进行分析处理。
如图9所示,第二方面本申请提出了一种分布式数据采集系统,包括网络配置模块、采集参数配置模块、采集模块和数据获取分析模块,采集模块包括至少两个采集单元;
网络配置模块,用于根据任务需求设定对应数量的采集单元并将采集单元布置于相同局域网中;
采集参数配置模块,用于访问采集单元的后台管理服务,根据采集需求分别对采集单元进行分配式采集参数配置/同步式采集参数配置;
采集模块,用于让采集单元根据分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;
数据获取分析模块,用于访问采集单元的后台管理服务,查询采集单元的数据采集结果,调用上层业务系统利用数据采集结果进行分析处理。
本发明的有益效果:综合考虑采集单元的资源利用率、采集效率、负载均衡和采集可靠性等多重因素,在不同的执行采集任务时通过分配式采集参数配置和同步式采集参数配置,解决了分布式数据采集系统在采集过程中采集单元故障、过载和部分采集任务采集失败后的相关问题,满足了分布式数据采集系统对数据采集实时性、可靠性和资源有效利用等的需求,并且不易造成配置丢失,可随时追溯和还原,降低了运维复杂度,提升系统稳定性。
以上仅是本发明优选的实施方式,需指出的是,对于本领域技术人员在不脱离本技术方案的前提下,作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。

Claims (10)

1.一种分布式数据采集系统运行方法,其特征在于:包括以下步骤,
根据任务需求设定对应数量的采集单元并将所述采集单元布置于相同局域网中;
访问所述采集单元的后台管理服务,根据采集需求分别对所述采集单元进行分配式采集参数配置/同步式采集参数配置;
所述采集单元根据所述分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;
访问所述采集单元的后台管理服务,查询所述采集单元的数据采集结果,调用上层业务系统利用所述数据采集结果进行分析处理。
2.根据权利要求1所述的一种分布式数据采集系统运行方法,其特征在于:所述访问所述采集单元的后台管理服务,根据采集需求分别对所述采集单元进行分配式采集参数配置/同步式采集参数配置,所述分配式采集参数配置包括:
配置所述采集单元与采集任务的对应参数;
配置所述采集单元的采集时间和采集任务以及单元资源利用率的对应参数;
配置所述采集单元上任务转移所消耗的资源与转移任务数量的对应参数;
配置所述采集单元之间任务转移的通信消耗与转移任务的对应参数。
3.根据权利要求2所述的一种分布式数据采集系统运行方法,其特征在于:所述采集单元根据所述分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果,执行所述分配式采集任务包括:
根据所述分配式采集参数配置的对应参数确定进行初始采集工作的采集单元,将剩余采集单元作为备用;
将初始采集任务和部分初始任务中的重要任务分配给所述采集单元并开始进行数据采集;
通过后台管理服务判断所述采集单元在数据采集的过程中是否出现采集错误情况,若是,则通过后台管理服务对所述采集单元进行调整后,继续进行采集任务得到数据采集结果;
若不存在所述采集错误情况,则根据所述采集单元执行完采集任务后得到数据采集结果。
4.根据权利要求3所述的一种分布式数据采集系统运行方法,其特征在于:所述通过后台管理服务判断所述采集单元在数据采集的过程中是否出现采集错误情况,若是,则通过后台管理服务对所述采集单元进行调整后,继续进行采集任务得到数据采集结果,包括:
判断所述采集单元在数据采集的过程中是否存在采集单元故障,若是,则通过后台管理服务对所述采集单元进行故障后任务调整;
判断所述采集单元在数据采集的过程中是否存在采集单元过载或采集单元上采集时间不满足采集周期要求的情况,若是,则通过后台管理服务对所述采集单元进行采集单元过载后任务调整;
判断所述采集单元在数据采集的过程中是否存在采集单元上重要采集任务出现采集失败的情况,若是,则通过后台管理服务将所述采集单元对应的重要任务的采集结果从对应的采集单元上存入数据采集系统;
若上述情况均不存在,则继续执行采集任务,得到数据采集结果。
5.根据权利要求1所述的一种分布式数据采集系统运行方法,其特征在于:所述访问所述采集单元的后台管理服务,根据采集需求分别对所述采集单元进行分配式采集参数配置/同步式采集参数配置,所述同步式采集参数配置包括:
访问任意一台所述采集单元的后台管理服务,配置同步式采集任务的对应参数并将其广播到局域网络中,使得剩余的其它采集单元从该采集单元同步新的配置信息;
对单个采集单元进行配置后,所述采集单元将会被分配一个独有编号,随后在局域网络中进行广播,所述配置信息采用链式存储方式,新配置将会记录上一个配置的编号,剩余的其它采集单元将会比对配置链来判断是否更新当前配置信息并进行保存,保证每一个采集单元都有完全一样包含所有任务的配置信息;
所有所述采集单元保存对应配置信息后完成同步式采集参数配置。
6.根据权利要求5所述的一种分布式数据采集系统运行方法,其特征在于:所述采集单元根据所述分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果,执行所述同步式采集任务包括:
每个所述采集单元根据同步式采集参数配置的配置信息和剩余采集性能,动态地循环申请任务;
每个采集单元会实时统计运行信息和设备冗余载荷,根据配置信息,来主动申请任务;
所有所述采集单元动态申请任务,单次可申请一个任务,使得各个采集单元负载尽可能达到均衡后,执行响应采集任务,得到数据采集结果;
每个采集单元将会把采集到的数据广播到局域网络中,除进行广播外的剩余采集单元将会同步更新该采集任务的数据结果。
7.根据权利要求6所述的一种分布式数据采集系统运行方法,其特征在于:所述每个采集单元会实时统计运行信息和设备冗余载荷,根据配置信息,来主动申请任务,包括,整个系统中的任一个所述采集单元/至少大于一个所述采集单元出现故障而无法执行采集任务后,对应的采集任务都将会被置为未申请,剩余所述采集单元将积极响应并申请这些任务。
8.根据权利要求6所述的一种分布式数据采集系统运行方法,其特征在于:所述每个采集单元将会把采集到的数据广播到局域网络中,除进行广播外的剩余采集单元将会同步更新该采集任务的数据结果,包括,每个所述采集单元采集后的数据将被广播到整个局域网,剩余所述采集单元将会同步更新对应采集任务的当前数据,通过任一所述采集单元服务皆可查询整个数据采集系统中所有采集任务的当前数据。
9.根据权利要求6所述的一种分布式数据采集系统运行方法,其特征在于:还包括扩容步骤和缩容步骤,所述的扩容步骤为:当需要进行扩容时,在该局域网内加入新的采集单元,该单元将会广播扩容信息,并从其它任一采集单元同步配置信息,随后所有采集任务将会重新进行申请分配;
所述的缩容步骤为:当需要进行缩容时,其中一个采集单元被移除后,隶属于该单元的采集任务状态会更改为未申请,随后这些采集任务将会重新被其它单元申请分配。
10.一种分布式数据采集系统,其特征在于:包括网络配置模块、采集参数配置模块、采集模块和数据获取分析模块;
所述网络配置模块,用于根据任务需求设定对应数量的采集单元并将所述采集单元布置于相同局域网中;
所述采集参数配置模块,用于访问所述采集单元的后台管理服务,根据采集需求分别对所述采集单元进行分配式采集参数配置/同步式采集参数配置;
所述采集模块,用于让所述采集单元根据所述分配式采集参数配置/同步式采集参数配置的配置信息执行分配式采集任务/同步式采集任务,得到对应的采集数据结果;
所述数据获取分析模块,用于访问所述采集单元的后台管理服务,查询所述采集单元的数据采集结果,调用上层业务系统利用所述数据采集结果进行分析处理。
CN202210279882.4A 2021-11-26 2022-03-22 一种分布式数据采集系统运行方法及系统 Active CN114374695B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021114198520 2021-11-26
CN202111419852.0A CN114124958A (zh) 2021-11-26 2021-11-26 一种分布式数据采集系统运行方法

Publications (2)

Publication Number Publication Date
CN114374695A true CN114374695A (zh) 2022-04-19
CN114374695B CN114374695B (zh) 2022-06-28

Family

ID=80370009

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111419852.0A Pending CN114124958A (zh) 2021-11-26 2021-11-26 一种分布式数据采集系统运行方法
CN202210279882.4A Active CN114374695B (zh) 2021-11-26 2022-03-22 一种分布式数据采集系统运行方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111419852.0A Pending CN114124958A (zh) 2021-11-26 2021-11-26 一种分布式数据采集系统运行方法

Country Status (1)

Country Link
CN (2) CN114124958A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227330A (zh) * 2008-02-19 2008-07-23 Ut斯达康通讯有限公司 一种历史性能数据采集方法和系统
US20120131130A1 (en) * 2009-10-29 2012-05-24 Precision Microdynamics, Inc. Network Control Architecture and Protocol for a Distributed Control, Data Acquisition and Data Distribution System and Process
CN103188714A (zh) * 2011-12-29 2013-07-03 中兴通讯股份有限公司 实时数据采集方法、系统和采集网元
CN106060123A (zh) * 2016-05-20 2016-10-26 深圳市永兴元科技有限公司 分布式数据系统的数据采集方法及分布式数据系统
CN106126346A (zh) * 2016-07-05 2016-11-16 东北大学 一种大规模分布式数据采集系统及方法
CN106357426A (zh) * 2016-08-26 2017-01-25 东北大学 一种基于工业云的大规模分布式智能数据采集系统及方法
CN107918561A (zh) * 2017-11-17 2018-04-17 东北大学 一种工业分布式数据采集系统中的任务分配方法
CN108536539A (zh) * 2018-04-26 2018-09-14 东北大学 一种工业分布式数据采集系统中的任务调度方法
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
US20190361874A1 (en) * 2018-05-22 2019-11-28 Hitachi, Ltd. Data management method and data management system
CN111580954A (zh) * 2020-04-01 2020-08-25 中国科学院信息工程研究所 一种可扩展的分布式数据采集方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227330A (zh) * 2008-02-19 2008-07-23 Ut斯达康通讯有限公司 一种历史性能数据采集方法和系统
US20120131130A1 (en) * 2009-10-29 2012-05-24 Precision Microdynamics, Inc. Network Control Architecture and Protocol for a Distributed Control, Data Acquisition and Data Distribution System and Process
CN103188714A (zh) * 2011-12-29 2013-07-03 中兴通讯股份有限公司 实时数据采集方法、系统和采集网元
CN106060123A (zh) * 2016-05-20 2016-10-26 深圳市永兴元科技有限公司 分布式数据系统的数据采集方法及分布式数据系统
CN106126346A (zh) * 2016-07-05 2016-11-16 东北大学 一种大规模分布式数据采集系统及方法
CN106357426A (zh) * 2016-08-26 2017-01-25 东北大学 一种基于工业云的大规模分布式智能数据采集系统及方法
CN107918561A (zh) * 2017-11-17 2018-04-17 东北大学 一种工业分布式数据采集系统中的任务分配方法
CN108536539A (zh) * 2018-04-26 2018-09-14 东北大学 一种工业分布式数据采集系统中的任务调度方法
US20190361874A1 (en) * 2018-05-22 2019-11-28 Hitachi, Ltd. Data management method and data management system
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN111580954A (zh) * 2020-04-01 2020-08-25 中国科学院信息工程研究所 一种可扩展的分布式数据采集方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
晏亮等: "地县一体化分布式数据采集系统", 《云南电力技术》 *
王军等: "基于任务调度的电能量计量采集系统的设计与实现", 《电网技术》 *

Also Published As

Publication number Publication date
CN114124958A (zh) 2022-03-01
CN114374695B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN110022226B (zh) 一种基于面向对象的数据采集系统及采集方法
CN109918198B (zh) 一种基于用户特征预测的仿真云平台负载调度系统及方法
CN112148484B (zh) 一种基于耦合度的微服务在线分配方法与系统
CN107733986A (zh) 支持一体化部署及监控的保护运行大数据支撑平台
TWI725744B (zh) 透過多層次相關性建立系統資源預測及資源管理模型的方法
CN108536539B (zh) 一种工业分布式数据采集系统中的任务调度方法
CN112860393B (zh) 一种分布式任务调度方法及系统
CN102271145A (zh) 一种虚拟计算机集群及其实施方法
CN111160873A (zh) 基于分布式架构的跑批处理装置及方法
CN102510403B (zh) 用于车辆数据接收和实时分析的集群分布式系统及方法
CN104484228B (zh) 基于Intelli‑DSC的分布式并行任务处理系统
CN114666335A (zh) 一种基于dds的分布式系统负载均衡装置
CN105516317B (zh) 一种用电信息多层级负载均摊高效采集方法
CN114374695B (zh) 一种分布式数据采集系统运行方法及系统
CN109359800B (zh) 一种配电自动化主站系统运行状态的评价方法及系统
CN116089079A (zh) 一种基于大数据的计算机资源分配管理系统及方法
CN113590281B (zh) 基于动态集中式调度的分布式并行模糊测试方法及系统
CN114706675A (zh) 基于云边协同系统的任务部署方法及装置
CN113467955A (zh) 一种配网主站数据采集链路智能分配方法及系统
CN104462581B (zh) 基于微通道内存映射和Smart‑Slice的极速文件指纹提取系统及方法
CN114253736A (zh) 一种电网智能化分布式计算及运行新系统
CN106844021B (zh) 计算环境资源管理系统及其管理方法
CN112988904A (zh) 一种分布式数据管理系统及数据存储方法
CN113110935A (zh) 分布式批量作业处理系统
US20070124343A1 (en) Method or apparatus for processing data in a system management application program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant