CN107908476B - 基于分布式集群的数据处理方法与装置 - Google Patents
基于分布式集群的数据处理方法与装置 Download PDFInfo
- Publication number
- CN107908476B CN107908476B CN201711108861.1A CN201711108861A CN107908476B CN 107908476 B CN107908476 B CN 107908476B CN 201711108861 A CN201711108861 A CN 201711108861A CN 107908476 B CN107908476 B CN 107908476B
- Authority
- CN
- China
- Prior art keywords
- computing
- data
- node
- nodes
- computing node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000005192 partition Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 abstract description 5
- 230000004044 response Effects 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 19
- 230000005611 electricity Effects 0.000 description 15
- 230000002354 daily effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于分布式集群的数据处理方法与装置,通过在计算节点运行Region分区的镜像实例,使得Region分区的数据访问尽可能的本地化,缓解了用电信息采集系统的网络资源的消耗,从而提升分布式计算集群的运算效率,削减分布式集群的建设成本和维护费用;并且优化了架构于分布式数据库上的其他应用的响应速度。
Description
技术领域
本发明属于电信息采集系统数据分布式运算技术领域,具体涉及基于分布式集群的数据处理方法与装置。
背景技术
为满足大型电力公司集约化管理的需求,减少用电信息采集系统的运营成本,各省电力公司的用电信息采集系统一般都采取集中部署的模式,把全省的智能电表都集中接入到省电力公司总部进行统一处理,而不是分散到各个地市级电力公司。按现在各省公司的用户规模,用电信息采集系统需要连接的智能电表数量,一般都在数百万甚至上千万只。考虑到智能电表每15分钟上送一次数据,每天将产生几十亿行记录,1年大约会产生200TB的数据。另外,为了对设备状态和电网运行情况进行分析和追溯,一般电表的历史数据需要保存5-7年。对于这种高密度、长时间跨度的基础数据进行运算和分析需要耗费大量的时间和运算资源,如何合理利用有限的运算资源、提升用电信息采集系统的运算效率是非常困难的事情。
在现有的用电信息采集系统中,数据处理主要依靠性能强大的分布式集群完成,如图1所示,分布式集群的每个服务器节点都会部署数据节点,Region分区,计算节点。现有的分布式计算集群的计算节点通过访问分布式数据库的Region分区进行数据访问。然而由于Region分区所管理的数据散布在分布式数据存储的各个节点上;在分布式计算过程中,只有存储于本地数据节点的数据块可以有Region分区直接访问,存储在其他数据节点的数据块需要通过网络进行读取。如此一来,占用了分布式集群大量的网络IO(通信网络);并且,通过网络获取数据比从本地直接读取数据的速度慢,从而影响分布式计算集群的运算效率;并且网络IO的大量消耗会影响分布式集群其他业务的响应速度;随着用电信息采集系统采集数据量的不断增长,有限的运算资源需要经过不断的软硬件升级才能满足,由此带来的用电信息采集系统的成本投入,维护费用等也一直不断提高。
发明内容
本发明的目的是提供一种基于分布式集群的数据处理方法与装置,用于解决现有分布式集群中计算节点通过网络接收其他计算节点导致的计算数据速度慢的问题,以及占用过多运算资源造成分布式集群整体运行速度慢的问题。
为解决上述技术问题,本发明提出一种基于分布式集群的数据处理方法,包括以下解决方案:
所述分布式集群至少包括两个服务器节点,每个服务器节点均包括计算节点、分区和数据节点,包括如下步骤:
1)当有计算节点需要执行计算任务时,将该计算节点对应分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上;
2)该计算节点通过该计算节点的对应分区读取数据,除该计算节点外的其他计算节点通过对应分区的镜像读取数据;
3)所有计算节点根据各自计算节点读取的数据进行计算,每个计算节点根据读取的数据计算完成后,由所述需要执行计算任务的计算节点汇总所有计算节点的计算结果。
所述除该计算节点外的其它计算节点根据读取的数据计算完成后,删除所述对应分区的镜像。
当所述需要执行计算任务的计算节点对应分区内的数据发生变化时,同步更新所述对应分区的镜像。
所述对应分区的镜像对所述除该计算节点外的其它计算节点只读。
为解决上述技术问题,本发明还提出基于分布式集群的数据处理装置,包括以下解决方案:
所述分布式集群至少包括两个服务器节点,每个服务器节点均包括计算节点、分区和数据节点,包括处理器,用于实现以下步骤的指令:
1)当有计算节点需要执行计算任务时,将该计算节点对应分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上;
2)该计算节点通过该计算节点的对应分区读取数据,除该计算节点外的其他计算节点通过对应分区的镜像读取数据;
3)所有计算节点根据各自计算节点读取的数据进行计算,每个计算节点根据读取的数据计算完成后,由所述需要执行计算任务的计算节点汇总所有计算节点的计算结果。
所述除该计算节点外的其它计算节点根据读取的数据计算完成后,删除所述对应分区的镜像。
当所述需要执行计算任务的计算节点对应分区内的数据发生变化时,同步更新所述对应分区的镜像。
所述对应分区的镜像对所述除该计算节点外的其它计算节点只读。
本发明的有益效果是:
本发明在计算一个服务器节点设定分区内的数据时,对应在相关服务节点的数据节点上运行该设定分区的镜像实例,其中,相关服务节点存储有该服务区节点设定分区的数据。然后利用相关服务节点的计算节点通过上述设定分区的镜像读取并计算数据,计算完成后将计算结果发送至该设定分区的计算节点,汇总计算结果。本发明不需要直接通过网络获取相关服务节点中数据节点的数据,仅通过设置分区的镜像在相关服务节点中进行计算,提高了分布式集群中计算节点的计算速度和计算效率,节省了分布式集群的运算资源。
通过在每个数据节点运行Region分区的镜像实例,使得分布式任务最大化的优先从本地读取数据,从而减少整个分布式集群数据节点间的数据交互,缓解了用电信息采集系统的网络资源的消耗,节约网络IO开销;并且从本地读取数据能够提升数据读取速度,提升分布式集群运算效率;从另一方面来说,优化配置了分布式集群的网络资源,降低了分布式集群的建设成本、硬件维护与升级费用。并且,对于架构于分布式数据库的之上的其他应用系统,其响应速度将有显著提升,即优化了架构于分布式数据库上的其他应用的响应速度。
附图说明
图1是现有分布式集群的示意图;
图2是本发明的分布式集群的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
实施例一:
为了提升大数据平台的数据处理效率、缓解运算压力、减少软硬件资源的耗费、降低建设成本和升级维护费用,本发明提出以下基于分布式集群的数据处理方法:
在每个数据节点上运行Region分区的镜像实例,供分布式计算节点直接访问该数据节点上的本地数据,减少分布式计算过程中各个节点间的网络传输压力。
本发明所涉及的分布式集群如图1所示,分布式集群包括N个服务器节点,每个服务器节点均包括计算节点、Region分区和数据节点,其中,所涉及的Region分区为分布式数据库中用于管理所存储数据的基本结构。Region分区的镜像为分布式计算任务开始前对Region分区对象在剩余数据节点的复制,与Region分区具有相同的结构,但是Region分区的镜像对其所管理的数据只读。
具体数据处理方法的步骤如下:
1)当有计算节点需要执行计算任务时,除了该计算节点的对应的数据节点外,在剩余所有数据节点上运行该计算节点对应分区的镜像;
2)该计算节点通过该计算节点的对应分区读取数据,除该计算节点外的其他计算节点通过对应分区的镜像读取数据;
3)所有计算节点根据各自计算节点读取的数据进行计算,每个计算节点根据读取的数据计算完成后,由需要执行计算任务的计算节点汇总所有计算节点的计算结果。
本发明在计算一个服务器节点分区内的数据时,对应在相关服务节点的数据节点上运行该设定分区的镜像实例,其中,相关服务节点存储有该服务区节点设定分区的数据。然后利用相关服务节点的计算节点通过上述设定分区的镜像读取并计算数据,计算完成后将计算结果发送至该设定分区的计算节点,汇总计算结果。本发明不需要直接通过网络获取相关服务节点中数据节点的数据,仅通过设置分区的镜像在相关服务节点中进行计算,提高了分布式集群中计算节点的计算速度和计算效率,节省了分布式集群的运算资源。
作为本实施例的进一步改进,除该计算节点外的其它计算节点根据读取的数据计算完成后,需要删除对应分区的镜像,保证尽量少的占用其他服务器节点的空间。作为本实施例的其他改进,对应分区的镜像对除该计算节点外的其它计算节点只读。
另外,当需要执行计算任务的计算节点对应分区内的数据发生变化时,需要同步更新除了该计算节点对应的数据节点外的其他所有数据节点上运行的对应分区的镜像实例,及时更新数据,使各计算节点准确读取相应数据。
相应的,本发明还提出了一种基于分布式集群的数据处理装置,其中,分布式集群至少包括两个服务器节点,每个服务器节点均包括计算节点、分区和数据节点。
上述数据处理装置至少包括一个处理器,用于实现以下步骤的指令:
1)当有计算节点需要执行计算任务时,将该计算节点对应分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上;
2)该计算节点通过该计算节点的对应分区读取数据,除该计算节点外的其他计算节点通过对应分区的镜像读取数据;
3)所有计算节点根据各自计算节点读取的数据进行计算,每个计算节点根据读取的数据计算完成后,由需要执行计算任务的计算节点汇总所有计算节点的计算结果。
上述所指的数据处理装置,实际上是基于本发明数据处理方法流程的一种计算机解决方案,即一种软件构架,可以应用到计算机中,上述装置即为与方法流程相对应的处理进程。由于对上述方法的介绍已经足够清楚完整,故不再详细进行描述。
实施例二:
由于阶梯电价计算电费是用电信息采集系统中重要的业务数据,需要对所采集基础数据中计费周期首尾两天的日冻结电量进行减法并分段乘以阶梯电价后求和得到,因此,本发明以阶梯电费的运算作为实例,提出以下智能电表的数据处理方法:
用电信息采集系统每天定时从智能电表采集当前电能示值作为日冻结电量,存储于分布式数据库中。如图1所示,分布式数据库的数据管理由各个Region分区负责管理;分布式数据库构建于分布式存储之上,而分布式存储的数据块随机的分布于各个数据节点中。
当系统需要使用阶梯电费数据时,用电采集系统会发起分布式计算任务对该计费周期首尾两天的日冻结电量并做减法运算获得。如图1所示,分布式计算任务中,计算节点2通过访问Region分区2获取数据,Region分区2再从各个数据节点中获取其所管理数据的数据块,返回给计算节点2。而数据块并非是全部存储在Region分区所在的节点,而是分散在集群内各个节点上。
因此本发明在分布式计算任务开始前,在各个计算节点运行Region分区2的镜像实例,如图2所示。在分布式计算任务运行过程中,计算节点可以直接访问本节点的Region分区2镜像,并优先从本地的数据节点获取其所管理的数据。
综上所述,本发明通过在每个节点运行Region分区的镜像实例,使得计算节点能够最大化的直接从本地获取数据,极大地减少了Region分区通过网络获取其他数据节点数据,有效的减少了集群网络IO,从而提升分布式计算效率,加快架构与分布式数据库上其他实时业务的响应速度,减少了分布式集群因为性能不足而带来的升级维护成本。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (8)
1.一种基于分布式集群的数据处理方法,所述分布式集群至少包括两个服务器节点,每个服务器节点均包括计算节点、Region分区和数据节点,其特征在于,包括以下步骤:
1)当有计算节点需要执行计算任务时,将该计算节点对应Region分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上;
2)该计算节点通过该计算节点的对应Region分区读取数据,除该计算节点外的其他计算节点通过对应Region分区的镜像读取数据;
3)所有计算节点根据各自计算节点读取的数据进行计算,每个计算节点根据读取的数据计算完成后,由所述需要执行计算任务的计算节点汇总所有计算节点的计算结果。
2.根据权利要求1所述的基于分布式集群的数据处理方法,其特征在于,所述除该计算节点外的其它计算节点根据读取的数据计算完成后,删除所述对应Region分区的镜像。
3.根据权利要求1所述的基于分布式集群的数据处理方法,其特征在于,当所述需要执行计算任务的计算节点对应Region分区内的数据发生变化时,同步更新所述对应Region分区的镜像。
4.根据权利要求1所述的基于分布式集群的数据处理方法,其特征在于,所述对应Region分区的镜像对所述除该计算节点外的其它计算节点只读。
5.一种基于分布式集群的数据处理装置,所述分布式集群至少包括两个服务器节点,每个服务器节点均包括计算节点、Region分区和数据节点,其特征在于,包括处理器,用于实现以下步骤的指令:
1)当有计算节点需要执行计算任务时,将该计算节点对应Region分区的镜像运行到除该计算节点外的其它计算节点对应的数据节点上;
2)该计算节点通过该计算节点的对应Region分区读取数据,除该计算节点外的其他计算节点通过对应Region分区的镜像读取数据;
3)所有计算节点根据各自计算节点读取的数据进行计算,每个计算节点根据读取的数据计算完成后,由所述需要执行计算任务的计算节点汇总所有计算节点的计算结果。
6.根据权利要求5所述的基于分布式集群的数据处理装置,其特征在于,所述除该计算节点外的其它计算节点根据读取的数据计算完成后,删除所述对应Region分区的镜像。
7.根据权利要求5所述的基于分布式集群的数据处理装置,其特征在于,当所述需要执行计算任务的计算节点对应Region分区内的数据发生变化时,同步更新所述对应Region分区的镜像。
8.根据权利要求5所述的基于分布式集群的数据处理装置,其特征在于,所述对应Region分区的镜像对所述除该计算节点外的其它计算节点只读。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711108861.1A CN107908476B (zh) | 2017-11-11 | 2017-11-11 | 基于分布式集群的数据处理方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711108861.1A CN107908476B (zh) | 2017-11-11 | 2017-11-11 | 基于分布式集群的数据处理方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107908476A CN107908476A (zh) | 2018-04-13 |
CN107908476B true CN107908476B (zh) | 2020-06-23 |
Family
ID=61845088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711108861.1A Active CN107908476B (zh) | 2017-11-11 | 2017-11-11 | 基于分布式集群的数据处理方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908476B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851023A (zh) * | 2023-03-29 | 2024-04-09 | 广州纳指数据智能科技有限公司 | 一种高性能计算机群与本地资源算力的转换方法及其系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033889A (zh) * | 2009-09-29 | 2011-04-27 | 熊凡凡 | 分布式数据库并行处理系统 |
CN104618153A (zh) * | 2015-01-20 | 2015-05-13 | 北京大学 | 分布式并行图处理中基于p2p的动态容错方法及系统 |
CN106156810A (zh) * | 2015-04-26 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 通用机器学习算法模型训练方法、系统和计算节点 |
CN106598475A (zh) * | 2015-10-19 | 2017-04-26 | 中兴通讯股份有限公司 | 一种实现分区切换的方法及装置 |
US9720995B1 (en) * | 2009-01-09 | 2017-08-01 | Pivotal Software, Inc. | Preventing pauses in algorithms requiring pre-image information concerning modifications during data replication |
-
2017
- 2017-11-11 CN CN201711108861.1A patent/CN107908476B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720995B1 (en) * | 2009-01-09 | 2017-08-01 | Pivotal Software, Inc. | Preventing pauses in algorithms requiring pre-image information concerning modifications during data replication |
CN102033889A (zh) * | 2009-09-29 | 2011-04-27 | 熊凡凡 | 分布式数据库并行处理系统 |
CN104618153A (zh) * | 2015-01-20 | 2015-05-13 | 北京大学 | 分布式并行图处理中基于p2p的动态容错方法及系统 |
CN106156810A (zh) * | 2015-04-26 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 通用机器学习算法模型训练方法、系统和计算节点 |
CN106598475A (zh) * | 2015-10-19 | 2017-04-26 | 中兴通讯股份有限公司 | 一种实现分区切换的方法及装置 |
Non-Patent Citations (1)
Title |
---|
采用设备镜像技术提高Sybase数据库的可用性;李承康;《金融科技时代》;20120818(第7期);第74-75页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107908476A (zh) | 2018-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110022226B (zh) | 一种基于面向对象的数据采集系统及采集方法 | |
CN110047014A (zh) | 一种基于负荷曲线和历史电量的用户电量数据修复方法 | |
CN111077870A (zh) | 一种基于流计算的opc数据实时采集监控智能系统及方法 | |
CN105005570B (zh) | 基于云计算的海量智能用电数据挖掘方法及装置 | |
Lin et al. | A cloud server energy consumption measurement system for heterogeneous cloud environments | |
US20110282982A1 (en) | Dynamic application placement based on cost and availability of energy in datacenters | |
US20120130659A1 (en) | Analysis of Large Data Sets Using Distributed Polynomial Interpolation | |
CN109151072A (zh) | 一种基于雾节点的边缘计算系统 | |
CN104239144A (zh) | 一种多级分布式任务处理系统 | |
CN103617067A (zh) | 一种基于云计算的电力软件仿真系统 | |
Thakkar et al. | Renda: resource and network aware data placement algorithm for periodic workloads in cloud | |
CN115373835A (zh) | Flink集群的任务资源调整方法、装置及电子设备 | |
Bedini et al. | Modeling performance of a parallel streaming engine: bridging theory and costs | |
He | Novel container cloud elastic scaling strategy based on Kubernetes | |
Dong et al. | Forecasting smart meter energy usage using distributed systems and machine learning | |
CN208890843U (zh) | 一种基于雾节点的边缘计算系统 | |
CN112948353B (zh) | 一种应用于DAstudio的数据分析方法、系统及存储介质 | |
CN107908476B (zh) | 基于分布式集群的数据处理方法与装置 | |
CN112905732A (zh) | 电表抄读成功率的获取方法、装置 | |
Dai et al. | Rahec: A mechanism of resource management for heterogeneous clouds | |
CN113296907B (zh) | 一种基于集群的任务调度处理方法、系统和计算机设备 | |
CN109165203A (zh) | 基于Hadoop架构的大型公共建筑能耗数据存储分析方法 | |
CN109302723A (zh) | 一种基于互联网的多节点实时无线电监测控制系统及控制方法 | |
CN113886503A (zh) | 一种电力采集数据分布式存储方法及系统 | |
Paranou et al. | Forecasting resource demand for dynamic datacenter sizing in telco infrastructures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |