CN107908476B

CN107908476B - 基于分布式集群的数据处理方法与装置

Info

Publication number: CN107908476B
Application number: CN201711108861.1A
Authority: CN
Inventors: 贺彪; 徐大青; 张展国; 杨迎春; 李洪普; 王少鹏; 丁博
Original assignee: State Grid Corp of China SGCC; Xuji Group Co Ltd; Xuchang XJ Software Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; Xuji Group Co Ltd; Xuchang XJ Software Technology Co Ltd
Priority date: 2017-11-11
Filing date: 2017-11-11
Publication date: 2020-06-23
Anticipated expiration: 2037-11-11
Also published as: CN107908476A

Abstract

本发明涉及基于分布式集群的数据处理方法与装置，通过在计算节点运行Region分区的镜像实例，使得Region分区的数据访问尽可能的本地化，缓解了用电信息采集系统的网络资源的消耗，从而提升分布式计算集群的运算效率，削减分布式集群的建设成本和维护费用；并且优化了架构于分布式数据库上的其他应用的响应速度。

Description

基于分布式集群的数据处理方法与装置

技术领域

本发明属于电信息采集系统数据分布式运算技术领域，具体涉及基于分布式集群的数据处理方法与装置。

背景技术

为满足大型电力公司集约化管理的需求，减少用电信息采集系统的运营成本，各省电力公司的用电信息采集系统一般都采取集中部署的模式，把全省的智能电表都集中接入到省电力公司总部进行统一处理，而不是分散到各个地市级电力公司。按现在各省公司的用户规模，用电信息采集系统需要连接的智能电表数量，一般都在数百万甚至上千万只。考虑到智能电表每15分钟上送一次数据，每天将产生几十亿行记录，1年大约会产生200TB的数据。另外，为了对设备状态和电网运行情况进行分析和追溯，一般电表的历史数据需要保存5-7年。对于这种高密度、长时间跨度的基础数据进行运算和分析需要耗费大量的时间和运算资源，如何合理利用有限的运算资源、提升用电信息采集系统的运算效率是非常困难的事情。

在现有的用电信息采集系统中，数据处理主要依靠性能强大的分布式集群完成，如图1所示，分布式集群的每个服务器节点都会部署数据节点，Region分区，计算节点。现有的分布式计算集群的计算节点通过访问分布式数据库的Region分区进行数据访问。然而由于Region分区所管理的数据散布在分布式数据存储的各个节点上；在分布式计算过程中，只有存储于本地数据节点的数据块可以有Region分区直接访问，存储在其他数据节点的数据块需要通过网络进行读取。如此一来，占用了分布式集群大量的网络IO(通信网络)；并且，通过网络获取数据比从本地直接读取数据的速度慢，从而影响分布式计算集群的运算效率；并且网络IO的大量消耗会影响分布式集群其他业务的响应速度；随着用电信息采集系统采集数据量的不断增长，有限的运算资源需要经过不断的软硬件升级才能满足，由此带来的用电信息采集系统的成本投入，维护费用等也一直不断提高。

发明内容

本发明的目的是提供一种基于分布式集群的数据处理方法与装置，用于解决现有分布式集群中计算节点通过网络接收其他计算节点导致的计算数据速度慢的问题，以及占用过多运算资源造成分布式集群整体运行速度慢的问题。

为解决上述技术问题，本发明提出一种基于分布式集群的数据处理方法，包括以下解决方案：

所述分布式集群至少包括两个服务器节点，每个服务器节点均包括计算节点、分区和数据节点，包括如下步骤：

1)当有计算节点需要执行计算任务时，将该计算节点对应分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上；

2)该计算节点通过该计算节点的对应分区读取数据，除该计算节点外的其他计算节点通过对应分区的镜像读取数据；

3)所有计算节点根据各自计算节点读取的数据进行计算，每个计算节点根据读取的数据计算完成后，由所述需要执行计算任务的计算节点汇总所有计算节点的计算结果。

所述除该计算节点外的其它计算节点根据读取的数据计算完成后，删除所述对应分区的镜像。

当所述需要执行计算任务的计算节点对应分区内的数据发生变化时，同步更新所述对应分区的镜像。

所述对应分区的镜像对所述除该计算节点外的其它计算节点只读。

为解决上述技术问题，本发明还提出基于分布式集群的数据处理装置，包括以下解决方案：

所述分布式集群至少包括两个服务器节点，每个服务器节点均包括计算节点、分区和数据节点，包括处理器，用于实现以下步骤的指令：

本发明的有益效果是：

本发明在计算一个服务器节点设定分区内的数据时，对应在相关服务节点的数据节点上运行该设定分区的镜像实例，其中，相关服务节点存储有该服务区节点设定分区的数据。然后利用相关服务节点的计算节点通过上述设定分区的镜像读取并计算数据，计算完成后将计算结果发送至该设定分区的计算节点，汇总计算结果。本发明不需要直接通过网络获取相关服务节点中数据节点的数据，仅通过设置分区的镜像在相关服务节点中进行计算，提高了分布式集群中计算节点的计算速度和计算效率，节省了分布式集群的运算资源。

通过在每个数据节点运行Region分区的镜像实例，使得分布式任务最大化的优先从本地读取数据，从而减少整个分布式集群数据节点间的数据交互，缓解了用电信息采集系统的网络资源的消耗，节约网络IO开销；并且从本地读取数据能够提升数据读取速度，提升分布式集群运算效率；从另一方面来说，优化配置了分布式集群的网络资源，降低了分布式集群的建设成本、硬件维护与升级费用。并且，对于架构于分布式数据库的之上的其他应用系统，其响应速度将有显著提升，即优化了架构于分布式数据库上的其他应用的响应速度。

附图说明

图1是现有分布式集群的示意图；

图2是本发明的分布式集群的示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明。

实施例一：

为了提升大数据平台的数据处理效率、缓解运算压力、减少软硬件资源的耗费、降低建设成本和升级维护费用，本发明提出以下基于分布式集群的数据处理方法：

在每个数据节点上运行Region分区的镜像实例，供分布式计算节点直接访问该数据节点上的本地数据，减少分布式计算过程中各个节点间的网络传输压力。

本发明所涉及的分布式集群如图1所示，分布式集群包括N个服务器节点，每个服务器节点均包括计算节点、Region分区和数据节点，其中，所涉及的Region分区为分布式数据库中用于管理所存储数据的基本结构。Region分区的镜像为分布式计算任务开始前对Region分区对象在剩余数据节点的复制，与Region分区具有相同的结构，但是Region分区的镜像对其所管理的数据只读。

具体数据处理方法的步骤如下：

1)当有计算节点需要执行计算任务时，除了该计算节点的对应的数据节点外，在剩余所有数据节点上运行该计算节点对应分区的镜像；

3)所有计算节点根据各自计算节点读取的数据进行计算，每个计算节点根据读取的数据计算完成后，由需要执行计算任务的计算节点汇总所有计算节点的计算结果。

本发明在计算一个服务器节点分区内的数据时，对应在相关服务节点的数据节点上运行该设定分区的镜像实例，其中，相关服务节点存储有该服务区节点设定分区的数据。然后利用相关服务节点的计算节点通过上述设定分区的镜像读取并计算数据，计算完成后将计算结果发送至该设定分区的计算节点，汇总计算结果。本发明不需要直接通过网络获取相关服务节点中数据节点的数据，仅通过设置分区的镜像在相关服务节点中进行计算，提高了分布式集群中计算节点的计算速度和计算效率，节省了分布式集群的运算资源。

作为本实施例的进一步改进，除该计算节点外的其它计算节点根据读取的数据计算完成后，需要删除对应分区的镜像，保证尽量少的占用其他服务器节点的空间。作为本实施例的其他改进，对应分区的镜像对除该计算节点外的其它计算节点只读。

另外，当需要执行计算任务的计算节点对应分区内的数据发生变化时，需要同步更新除了该计算节点对应的数据节点外的其他所有数据节点上运行的对应分区的镜像实例，及时更新数据，使各计算节点准确读取相应数据。

相应的，本发明还提出了一种基于分布式集群的数据处理装置，其中，分布式集群至少包括两个服务器节点，每个服务器节点均包括计算节点、分区和数据节点。

上述数据处理装置至少包括一个处理器，用于实现以下步骤的指令：

上述所指的数据处理装置，实际上是基于本发明数据处理方法流程的一种计算机解决方案，即一种软件构架，可以应用到计算机中，上述装置即为与方法流程相对应的处理进程。由于对上述方法的介绍已经足够清楚完整，故不再详细进行描述。

实施例二：

由于阶梯电价计算电费是用电信息采集系统中重要的业务数据，需要对所采集基础数据中计费周期首尾两天的日冻结电量进行减法并分段乘以阶梯电价后求和得到，因此，本发明以阶梯电费的运算作为实例，提出以下智能电表的数据处理方法：

用电信息采集系统每天定时从智能电表采集当前电能示值作为日冻结电量，存储于分布式数据库中。如图1所示，分布式数据库的数据管理由各个Region分区负责管理；分布式数据库构建于分布式存储之上，而分布式存储的数据块随机的分布于各个数据节点中。

当系统需要使用阶梯电费数据时，用电采集系统会发起分布式计算任务对该计费周期首尾两天的日冻结电量并做减法运算获得。如图1所示，分布式计算任务中，计算节点2通过访问Region分区2获取数据，Region分区2再从各个数据节点中获取其所管理数据的数据块，返回给计算节点2。而数据块并非是全部存储在Region分区所在的节点，而是分散在集群内各个节点上。

因此本发明在分布式计算任务开始前，在各个计算节点运行Region分区2的镜像实例，如图2所示。在分布式计算任务运行过程中，计算节点可以直接访问本节点的Region分区2镜像，并优先从本地的数据节点获取其所管理的数据。

综上所述，本发明通过在每个节点运行Region分区的镜像实例，使得计算节点能够最大化的直接从本地获取数据，极大地减少了Region分区通过网络获取其他数据节点数据，有效的减少了集群网络IO，从而提升分布式计算效率，加快架构与分布式数据库上其他实时业务的响应速度，减少了分布式集群因为性能不足而带来的升级维护成本。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于分布式集群的数据处理方法，所述分布式集群至少包括两个服务器节点，每个服务器节点均包括计算节点、Region分区和数据节点，其特征在于，包括以下步骤：

1)当有计算节点需要执行计算任务时，将该计算节点对应Region分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上；

2)该计算节点通过该计算节点的对应Region分区读取数据，除该计算节点外的其他计算节点通过对应Region分区的镜像读取数据；

2.根据权利要求1所述的基于分布式集群的数据处理方法，其特征在于，所述除该计算节点外的其它计算节点根据读取的数据计算完成后，删除所述对应Region分区的镜像。

3.根据权利要求1所述的基于分布式集群的数据处理方法，其特征在于，当所述需要执行计算任务的计算节点对应Region分区内的数据发生变化时，同步更新所述对应Region分区的镜像。

4.根据权利要求1所述的基于分布式集群的数据处理方法，其特征在于，所述对应Region分区的镜像对所述除该计算节点外的其它计算节点只读。

5.一种基于分布式集群的数据处理装置，所述分布式集群至少包括两个服务器节点，每个服务器节点均包括计算节点、Region分区和数据节点，其特征在于，包括处理器，用于实现以下步骤的指令：

6.根据权利要求5所述的基于分布式集群的数据处理装置，其特征在于，所述除该计算节点外的其它计算节点根据读取的数据计算完成后，删除所述对应Region分区的镜像。

7.根据权利要求5所述的基于分布式集群的数据处理装置，其特征在于，当所述需要执行计算任务的计算节点对应Region分区内的数据发生变化时，同步更新所述对应Region分区的镜像。

8.根据权利要求5所述的基于分布式集群的数据处理装置，其特征在于，所述对应Region分区的镜像对所述除该计算节点外的其它计算节点只读。