CN107609085A - 一种基于大数据技术的智能电网量测数据处理方法及系统 - Google Patents

一种基于大数据技术的智能电网量测数据处理方法及系统 Download PDF

Info

Publication number
CN107609085A
CN107609085A CN201710798269.2A CN201710798269A CN107609085A CN 107609085 A CN107609085 A CN 107609085A CN 201710798269 A CN201710798269 A CN 201710798269A CN 107609085 A CN107609085 A CN 107609085A
Authority
CN
China
Prior art keywords
data
access
metric
metric data
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710798269.2A
Other languages
English (en)
Inventor
王思文
毛洪涛
丛培贤
孙峰烈
唐胜
谢玉波
曹健
李强
陈得丰
秦鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Original Assignee
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd, State Grid Corp of China SGCC, State Grid Liaoning Electric Power Co Ltd, Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201710798269.2A priority Critical patent/CN107609085A/zh
Publication of CN107609085A publication Critical patent/CN107609085A/zh
Pending legal-status Critical Current

Links

Abstract

本发明一种基于大数据技术的智能电网量测数据处理方法及系统。随着智能电网信息化不断发展,调度自动化和采集监测类系统积累了海量的电网量测数据。目前采用的传统关系型数据库用于电力信息系统量测数据存储,存在处理效率低的问题。本发明针对传统关系型数据库用于电力信息系统量测数据处理效率低的问题,设计并实现了基于大数据技术的量测数据处理系统。

Description

一种基于大数据技术的智能电网量测数据处理方法及系统
技术领域
本发明涉及一种电网的量测数据处理方法,特别是一种基于大数据技术的智能电网量测数据处理方法及系统。
技术背景
随着智能电网信息化不断发展,调度自动化和采集监测类系统积累了海量的电网量测数据,量测数据作为电网领域四大数据类型之一,是设备状态监测、辅助决策分析、大数据挖掘的重要基础,目前采用传统关系型数据库进行存储,传统关系型数据库用于电力信息系统量测数据存在处理效率低的问题。随着大数据技术的不断成熟,先进的存储与计算架构与传统架构在性能和扩展性上不断拉开差距,采用传统架构的关系型数据库逐渐暴露出技术不足与局限性,不能够很好的支撑大数据环境下对量测数据的高效计算与深度挖掘。
发明内容
本发明针对传统关系型数据库用于电力信息系统量测数据处理效率低的问题,设计并实现了基于大数据技术的量测数据处理系统,该系统分为数据接入、实时处理、数据存储、数据访问接口四个功能模块,其中,数据接入模块基于分布式消息队列技术,实现了大规模量测数据的缓冲接入;实时处理模块基于流计算技术,提高了量测数据在入库前的实时处理效率;数据存储模块设计了量测数据列式存储模型,实现了大规模量测数据的高效存取;数据访问接口模块由结合量测数据特点的统一访问接口UAPI组件实现。
数据接入模块应用Kafka组件,Kafka是一种高吞吐量的分布式发布订阅消息系统,通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于TB的消息存储也能够保持长时间的稳定性能。高吞吐量对于非常普通的硬件,Kafka也支持每秒数百万的消息,支持通过 Kafka服务器和消费机集群来分区消息,支持Hadoop并行数据加载。
实时处理模块应用Storm组件,Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。
数据存储模块应用HBase存储系统,HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价 PC Server上搭建起大规模结构化存储存储。
技术方案:
本发明一种基于大数据技术的智能电网量测数据处理方法及系统包括数据接入、实时处理、数据存储、数据访问接口四个功能模块。
数据接入模块,抽取原业务系统数据:从多个源业务系统中抽取出数据,并对数据的正确性与完整性进行校验,对存在错误的数据进行校正。
进一步地,业务系统进入各自的适配器:由于生产系统众多,数据接口实现方式千差万别,量测数据接入系统前需要定制适配器与数据源系统对接,一是用于协议转换,二是用于对生数据进行初步加工,使其格式统一。
进一步地,数据统一进入Kafka消息队列:适配器一端连接数据源系统,一段连接量测数据处理系统的Kafka组件,根据接入数据类型的不同在Kafka上配置不同的消息队列,一个数据源系统接入的量测数据类型可能有多种,即一个数据源系统可能对应Kafka中的多个队列。由于Kafka是分布式消息队列,具有异步通信特点,其吞吐量非常大,可以同时接入多套数据源系统,各源业务系统由部署在各业务服务器上的软件系统实现,并且能够对峰值巨大的数据起到缓冲作用,避免对整个系统构成冲击。
实时处理模块,采用Storm组件进行实时计算:在量测数据入库前,采用Storm组件对数据流进行流计算。由于Kafka中不同消息队列对应不同的量测数据类型,处理方式千差万别,所以需要根据业务需求开发相应的Storm处理逻辑。Strom作为一个分布式实时计算系统,提供了很好的并行流计算框架,可以对数据进行分布式加工处理,支持大规模数据的实时计算。此过程主要完成两类工作,一是对进入系统的数据进行深度加工,例如数据补全、数据质量检查等。加工后的数据一般存储于Hbase和Redis中;二是对流过的数据进行统计分析,一般分析后的数据作废,只保留分析结果存储于Mysql中。对于第一种情况,其中的Redis主要用于热数据缓存,因为第一种情况一般是对量测数据的入库处理,入库后的数据需要被频繁访问,而越新的数据访问热度往往越高。为了提高热数据的访问效率,数据存储到 Hbase时同时存储一份到Redis,Redis作为内存数据库具有更高的访问效率。需要说明的是Redis只保存最近一段时间的数据,数据超过一定时间将被定期清除。
数据存储模块,根据存储模型对数据进行存储:数据的存储方式至关重要,它对数据的存储、修改、查询等操作的效率有着直接的影响。总体而言,数据的存储方式可以被分为两种:随机存储方式和固定存储方式。这两种方法各有利弊,如何选择取决于实际的具体需求。在大数据的情况下,数据量非常庞大,多达数TB乃至数PB,读取数据时需要在磁盘或内存里四处查找,这样不仅增加了数据读取代价,而且也加重了系统负担。如果能够把经常需要读取的数据集中存储在一起(物理上放在位置比较靠近的地方),这样,磁盘在实际存取时就能通过少量的IO次数把数据读取出来,即将随机IO转化为顺序 IO,此时则不论处理范围有多大,均能够获得非常好的读取效率。改进数据存储策略已经成为提升大数据系统数据处理性能的热点研究方向,本发明着重讨论海量量测数据在Hbase列式存储中的存储模型,在深入研究Hbase存储机制的前提下,针对量测数据应用时的断面访问和批量访问特点设计了高效的存储模型。
数据访问接口,业务系统对数据进行访问:本系统根据数据的时效性特点将数据存储在Redis缓存和Hbase列式存储中,并且对量测数据的存储模型进行了设计,如果要求上层应用直接操作多种存储容器,操作较为复杂,为了屏蔽数据访问的复杂度,本系统设计基于大数据平台原生态接口,构造统一访问接口UAPI,屏蔽底层数据的存储细节,使得业务应用根据电网模型访问数据,配套机制实现结果缓存、访问分流、高可用等功能,由于UAPI的构造跟具体数据应用场景关系密切,本文不做过多阐述。
附图说明:图1一种基于大数据技术的智能电网量测数据处理方法及系统
具体实施方法:
本发明一种基于大数据技术的智能电网量测数据处理方法及系统,结合附图进行以下说明:
1、抽取原业务系统数据:从多个源业务系统中抽取出数据,并对数据的正确性与完整性进行校验,对存在错误的数据进行校正。
2、业务系统进入各自的适配器:由于生产系统众多,数据接口实现方式千差万别,量测数据接入系统前需要定制适配器与数据源系统对接,一是用于协议转换,二是用于对生数据进行初步加工,使其格式统一。
3、数据统一进入Kafka消息队列:适配器一端连接数据源系统,一段连接量测数据处理系统的Kafka组件,根据接入数据类型的不同在Kafka上配置不同的消息队列,一个数据源系统接入的量测数据类型可能有多种,即一个数据源系统可能对应Kafka中的多个队列。由于Kafka是分布式消息队列,具有异步通信特点,其吞吐量非常大,可以同时接入多套数据源系统,各源业务系统由部署在各业务服务器上的软件系统实现,并且能够对峰值巨大的数据起到缓冲作用,避免对整个系统构成冲击。
4、采用Storm组件进行实时计算:在量测数据入库前,采用Storm 组件对数据流进行流计算。由于Kafka中不同消息队列对应不同的量测数据类型,处理方式千差万别,所以需要根据业务需求开发相应的 Storm处理逻辑。Strom作为一个分布式实时计算系统,提供了很好的并行流计算框架,可以对数据进行分布式加工处理,支持大规模数据的实时计算。此过程主要完成两类工作,一是对进入系统的数据进行深度加工,例如数据补全、数据质量检查等。加工后的数据一般存储于Hbase和Redis中;二是对流过的数据进行统计分析,一般分析后的数据作废,只保留分析结果存储于Mysql中。对于第一种情况,其中的Redis主要用于热数据缓存,因为第一种情况一般是对量测数据的入库处理,入库后的数据需要被频繁访问,而越新的数据访问热度往往越高。为了提高热数据的访问效率,数据存储到Hbase时同时存储一份到Redis,Redis作为内存数据库具有更高的访问效率。需要说明的是Redis只保存最近一段时间的数据,数据超过一定时间将被定期清除。
5、根据存储模型对数据进行存储:数据的存储方式至关重要,它对数据的存储、修改、查询等操作的效率有着直接的影响。总体而言,数据的存储方式可以被分为两种:随机存储方式和固定存储方式。这两种方法各有利弊,如何选择取决于实际的具体需求。在大数据的情况下,数据量非常庞大,多达数TB乃至数PB,读取数据时需要在磁盘或内存里四处查找,这样不仅增加了数据读取代价,而且也加重了系统负担。如果能够把经常需要读取的数据集中存储在一起(物理上放在位置比较靠近的地方),这样,磁盘在实际存取时就能通过少量的IO次数把数据读取出来,即将随机IO转化为顺序IO,此时则不论处理范围有多大,均能够获得非常好的读取效率。改进数据存储策略已经成为提升大数据系统数据处理性能的热点研究方向,本发明着重讨论海量量测数据在Hbase列式存储中的存储模型,在深入研究Hbase存储机制的前提下,针对量测数据应用时的断面访问和批量访问特点设计了高效的存储模型。
6、业务系统对数据进行访问:本系统根据数据的时效性特点将数据存储在Redis缓存和Hbase列式存储中,并且对量测数据的存储模型进行了设计,如果要求上层应用直接操作多种存储容器,操作较为复杂,为了屏蔽数据访问的复杂度,本系统设计基于大数据平台原生态接口,构造统一访问接口UAPI,屏蔽底层数据的存储细节,使得业务应用根据电网模型访问数据,配套机制实现结果缓存、访问分流、高可用等功能,由于UAPI的构造跟具体数据应用场景关系密切,本文不做过多阐述。
部署在硬件上的实施效果:
以某网省用电信息采集系统量测数据处理为例,Windows服务器部署三个软件,分别是海量平台一发双收工具、Mysql数据库以及 SFTP服务。海量平台一发双收工具用于将业务系统的数据转换为标准形式的E文件;Mysql数据与用于存储业务系统的档案数据;SFTP 服务用于提供E文件下载服务。
两台Linux服务器中的第一台服务器部署五个组件,分别是SFTP下载组件、Eparse组件、RPC组件、RedisLoader组件以及Kafka2hbase 组件。另一台Linux服务器部署Kafka2hbase组件。SFTP下载组件用于将海量一发双收工具生成的E文件下载到Linux服务器本地文件夹;Eparse组件用于将E文件进行解析,写入分布式消息队列Kafka 中;RPC组件用于各组件的通信;Kafka2hbase组件将消息队列中的数据写入Hbase;RedisLoader组件将消息队列中的数据写入Redis。在该网省现场,Kafka2hbase写入大数据平台服务器Hbase数据库中的写入速率可达到75M每秒,满足该网省用电信息采集系统采集监测数据应用需求。
有益效果:应用先进的大数据技术对智能电网中海量的量测数据进行准确、高速的处理。

Claims (5)

1.一种基于大数据技术的智能电网量测数据处理方法及系统,其特征在于,该系统分为数据接入、实时处理、数据存储、数据访问接口四个功能模块,其中,数据接入模块基于分布式消息队列技术,实现了大规模量测数据的缓冲接入;实时处理模块基于流计算技术,提高了量测数据在入库前的实时处理效率;数据存储模块设计了量测数据列式存储模型,实现了大规模量测数据的高效存取;数据访问接口模块由结合量测数据特点的统一访问接口UAPI组件实现。
2.根据权利要求1中所述,一种基于大数据技术的智能电网量测数据处理方法及系统,其特征在于,该系统中数据接入模块,抽取原业务系统数据:从多个源业务系统中抽取出数据,并对数据的正确性与完整性进行校验,对存在错误的数据进行校正;
进一步地,业务系统进入各自的适配器:由于生产系统众多,数据接口实现方式千差万别,量测数据接入系统前需要定制适配器与数据源系统对接,一是用于协议转换,二是用于对生数据进行初步加工,使其格式统一;
进一步地,数据统一进入Kafka消息队列:适配器一端连接数据源系统,一段连接量测数据处理系统的Kafka组件,根据接入数据类型的不同在Kafka上配置不同的消息队列,一个数据源系统接入的量测数据类型可能有多种,即一个数据源系统可能对应Kafka中的多个队列,由于Kafka是分布式消息队列,具有异步通信特点,其吞吐量非常大,可以同时接入多套数据源系统,各源业务系统由部署在各业务服务器上的软件系统实现,并且能够对峰值巨大的数据起到缓冲作用,避免对整个系统构成冲击。
3.根据权利要求1中所述,一种基于大数据技术的智能电网量测数据处理方法及系统,其特征在于,该系统中实时处理模块,采用Storm组件进行实时计算。
4.根据权利要求1中所述,一种基于大数据技术的智能电网量测数据处理方法及系统,其特征在于,该系统中数据存储模块,在深入研究Hbase存储机制的前提下,针对量测数据应用时的断面访问和批量访问特点设计了高效的存储模型。
5.根据权利要求1中所述,一种基于大数据技术的智能电网量测数据处理方法及系统,其特征在于,数据访问接口,本系统设计基于大数据平台原生态接口,构造统一访问接口UAPI,屏蔽底层数据的存储细节,使得业务应用根据电网模型访问数据,配套机制实现结果缓存、访问分流、高可用等功能。
CN201710798269.2A 2017-09-07 2017-09-07 一种基于大数据技术的智能电网量测数据处理方法及系统 Pending CN107609085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710798269.2A CN107609085A (zh) 2017-09-07 2017-09-07 一种基于大数据技术的智能电网量测数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710798269.2A CN107609085A (zh) 2017-09-07 2017-09-07 一种基于大数据技术的智能电网量测数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN107609085A true CN107609085A (zh) 2018-01-19

Family

ID=61062135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710798269.2A Pending CN107609085A (zh) 2017-09-07 2017-09-07 一种基于大数据技术的智能电网量测数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN107609085A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804686A (zh) * 2018-06-14 2018-11-13 北京全联互控科技有限公司 一种物联网数据采集处理及分析应用的整体解决方法
CN108833494A (zh) * 2018-05-24 2018-11-16 国家电网有限公司 一种分布式数据存储方法和系统
CN109560613A (zh) * 2018-12-11 2019-04-02 江苏瑞中数据股份有限公司 一种调度电能量数据质量在线研判系统及其研判方法
CN109684416A (zh) * 2018-11-13 2019-04-26 国电南京自动化股份有限公司 一种高并发实时历史数据存储系统
CN109857525A (zh) * 2018-12-05 2019-06-07 贵州电网有限责任公司 一种用电采集系统的智能调度系统和控制方法
CN110599229A (zh) * 2018-06-13 2019-12-20 武汉斗鱼网络科技有限公司 亿级流量广告实时处理方法、存储介质、电子设备和系统
CN111509849A (zh) * 2020-04-22 2020-08-07 广东电网有限责任公司 一种基于流式计算的数字电网系统
CN111611286A (zh) * 2020-06-10 2020-09-01 北京许继电气有限公司 一种工业物联网场景的流式数据处理方法
CN114138196A (zh) * 2021-11-26 2022-03-04 南方电网大数据服务有限公司 电力系统数据存储方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574643A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种电网实时数据中心与大数据平台融合方法
CN107066500A (zh) * 2016-12-30 2017-08-18 江苏瑞中数据股份有限公司 一种基于pms模型的电网海量数据质量校验方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574643A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种电网实时数据中心与大数据平台融合方法
CN107066500A (zh) * 2016-12-30 2017-08-18 江苏瑞中数据股份有限公司 一种基于pms模型的电网海量数据质量校验方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
沈佳等: "海量历史准实时数据管理平台的研究与实现", 《科技传播》 *
犹锋等: "基于大数据技术的量测数据处理系统设计", 《无线互联科技》 *
陈然: "大规模电网运行数据实时同步技术研究", 《云南电力技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833494A (zh) * 2018-05-24 2018-11-16 国家电网有限公司 一种分布式数据存储方法和系统
CN110599229A (zh) * 2018-06-13 2019-12-20 武汉斗鱼网络科技有限公司 亿级流量广告实时处理方法、存储介质、电子设备和系统
CN108804686A (zh) * 2018-06-14 2018-11-13 北京全联互控科技有限公司 一种物联网数据采集处理及分析应用的整体解决方法
CN109684416A (zh) * 2018-11-13 2019-04-26 国电南京自动化股份有限公司 一种高并发实时历史数据存储系统
CN109857525A (zh) * 2018-12-05 2019-06-07 贵州电网有限责任公司 一种用电采集系统的智能调度系统和控制方法
CN109560613A (zh) * 2018-12-11 2019-04-02 江苏瑞中数据股份有限公司 一种调度电能量数据质量在线研判系统及其研判方法
CN111509849A (zh) * 2020-04-22 2020-08-07 广东电网有限责任公司 一种基于流式计算的数字电网系统
CN111611286A (zh) * 2020-06-10 2020-09-01 北京许继电气有限公司 一种工业物联网场景的流式数据处理方法
CN111611286B (zh) * 2020-06-10 2024-03-08 北京许继电气有限公司 一种工业物联网场景的流式数据处理方法
CN114138196A (zh) * 2021-11-26 2022-03-04 南方电网大数据服务有限公司 电力系统数据存储方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107609085A (zh) 一种基于大数据技术的智能电网量测数据处理方法及系统
CN109977158B (zh) 公安大数据分析处理系统及方法
CN105069703B (zh) 一种电网海量数据管理方法
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN104036025A (zh) 一种基于分布式的海量日志采集系统
CN106502772A (zh) 基于分布式离线技术的电量数据批量高速处理方法及系统
CN109710731A (zh) 一种基于Flink的数据流多向处理系统
CN106708016A (zh) 故障监控方法和装置
CN112236761B (zh) 数据立方体的动态增量更新
US20140229482A1 (en) Grouping interdependent fields
CN107577771A (zh) 一种大数据挖掘系统
CN109739919A (zh) 一种用于电力系统的前置机和采集系统
CN111178587A (zh) 一种基于spark框架的短期电力负荷快速预测方法
WO2023284132A1 (zh) 一种云平台日志的分析方法、系统、设备及介质
CN102937984B (zh) 一种收集数据的系统、客户端和方法
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN107590749A (zh) 一种配用电数据的处理方法及系统
CN106383916A (zh) 基于工业设备预测性维护的数据处理方法
CN105138650A (zh) 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
CN111367953A (zh) 一种资讯数据的流式处理方法及装置
CN107895017A (zh) 一种基于大数据技术的电能质量监测系统构建方法
CN112559634A (zh) 一种基于计算机云计算大数据用数据管理系统
CN111159152B (zh) 基于大数据处理技术的二次运维数据融合方法
CN115115090A (zh) 一种基于改进lstm-cnn的风功率短期预测方法
CN107315743A (zh) 一种基于适配器的大数据转换方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180119