CN109492002A

CN109492002A - 一种智能电网大数据存储与分析系统及处理方法

Info

Publication number: CN109492002A
Application number: CN201811219445.3A
Authority: CN
Inventors: 颜钢锋; 时侠圣; 王轶楠
Original assignee: Huanan Industrial Technology Research Institute of Zhejiang University
Current assignee: Huanan Industrial Technology Research Institute of Zhejiang University
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-19
Anticipated expiration: 2038-10-19
Also published as: CN109492002B

Abstract

本发明公开了一种智能电网大数据存储与分析系统及处理方法，本发明可对智能电网海量数据进行快速处理，确保电网数据分析反馈的实时性，并且给用户提供数据可视化展示平台。本发明支持需求侧和供给侧的双层分析。通过供给侧分析，国家电网能够优化智能电网运行、短期负荷预测和需求峰值规划。通过需求侧分析，国家电网可以更好的解读消费者消费情况，并且提供个性化服务。

Description

一种智能电网大数据存储与分析系统及处理方法

技术领域

本发明涉及电网数据存储方法领域，具体为一种基于ICT技术的智能电网数据存储与分析系统，解决智能电网电力终端复杂海量数据的快速存储与分析的问题。

背景技术

电网是关系国民生活以及经济发展的重要基础，合理、高效地分配电力资源以及保持整个电网系统的安全稳定运行对国民经济的发展起着重要的影响。目前我国的电力系统发展不够完善，自身数据利用率低、运行成本高、易受环境影响等缺点使得电网可靠性、自愈能力、稳定性差。随着我国电力系统行业的进一步智能化改革，各种智能传感器应用于电力系统的各个环节以实现故障检测无人化、数据采集实时化、数据处理在线化等。智能工控终端的普及，必将引发数据量的剧增，此外，电力系统各个环节的采集信息大都是孤立的，没有完整的通信网络，而数据的充分利用正成为电力系统行业运营和发展的引擎。但这个引擎正面临着数据量大而复杂等巨大的挑战。

电网的数据成分十分复杂，涉及发电、输电、配电、用电、调度等各个环节，是包括结构化数据和非结构化数据两部分的混合异构数据；电网系统的数据量十分庞大，是跨单位、跨专业、跨业务数据集合。电网运行设备检测、电力企业营销、电力企业管理是电网业务数据的三个主要来源，这些数据中，85％以上的是文档、音频和视频等非结构化数据。随着机器学习和深度学习的兴起，人工智能的概念越来越被人们所接受，人工智能的基础是海量数据的存储和管理，相应的数据管理系统应该能利用有限的资源，充分挖掘数据信息，科学组织管理数据，以提高数据库的访问效率。

智能电网的数据处理机制包括结构数据分析和非结构数据分析两个方面：结构数据的分析主要是对计算机数据进行收集，整合电网系统的操作数据，从而实现数据分析参数，从而获得整合度高的数据，也是关系数据库中的数据；非结构数据分析是以计算机图像和视频为基础框架下的参数设置，具有独特性，运用数据库的二维编辑实现数据分析，非线性数据分析具有更多的低维性，提高标准化操作。利用机器学习算法实现非结构化数据破解，取代传统的将其转化为结构化数据的繁琐形式。同时，数据可视化可以揭示无法以任何其他方式展示的数据中错综复杂的结构。

分布式计算是处理和分析大数据，建立数据模型的重要手段。数据挖掘技术的关键在于对大数据进行处理和分析，挖掘数据所包含的规律。首先，利用分布式计算的方法将大量的数据整合成数据集合，将数据内在隐含的规律分析后导出，然后以可视化等客户容易接受和理解的方式表示出来，最后对收集结果进行统计分析、整理归类和全面的解释。可视化数据技术包括数据的可视化、信息的可视化、科学的可视化以及成绩图形的可视化，旨在借助有效的表达，帮助与客户实现信息的沟通，便于相关者对数据的理解分析。总体分解如下。硬件架构：商用服务器集群为在整个分布式网格的大量并行处理提供了计算能力和速度；分析应用架构：新的数据处理系统通过管理和推送数据到单个节点、发送指示给联网服务器以并行运行、收集单个结果，然后重组数据以生成有意义的结果；数据架构：未处理非结构化数据的多样性和复杂性，数据库包含关系型和非关系型。

Hadoop是开源系统，集可视化、分析、共享、搜索、排序和组织等功能一体，使用简单的编程模型以允许在计算机集群中分布式处理大数据。本发明提出了一种高效的数据管理平台。该平台能够充分利用闲置服务器的资源，从各个地区的供电系统中挖取服务器资源，以虚拟机的形式提高整个系统的资源利用率。同时对数据进行基于客户需求的处理、分析与计算，提高用户访问数据库的效率。

对于智能电网大数据处理技术而言，数据处理的速度十分重要。通常情况下，数据规模越大、量越多，数据处理的时间就会越长。传统的数据处理存储方法是根据数据量的大小而设计系统，在设计数据量范围内的数据处理非常快，但是对于超过了设计数据处理量时，就会造成处理系统瘫痪的可能，未能够实现处理大数据的功能需求。在未来智能电网大数据时代下，需要从发、配、输、用等各方面进行实时数据处理。

传统的执行数据分析方法是采用SRS,R,Matlab和Proc-SQL等方法，但是这些方法都需要把数据从数据库中提取出来，然后做进一步的分析。这部分的数据转移是需要很大工作量的，在海量大数据的情况下，此举势必消耗大量资源。在本发明中，使用工具包MADlib和P1/PgSQL将所有分析算法内嵌于数据库PostSQL中，实现数据分析的快速性。目前的大数据分为如下三个类型：复杂的批量数据、基于历史数据的交互式查询和基于实时数据流的数据处理。Spark Streaming可对上述三种情景的输入输出数据进行批处理，简化开发和维护成本，提高数据库管理平台的鲁棒性。

发明内容

本发明针对现有技术的不足，提供一种基于ICT(信息通信技术)的数据库管理平台，可对智能电网海量数据进行快速处理，确保电网数据分析反馈的实时性，并且给用户提供数据可视化展示平台。本发明的技术系统框架包括三层系统。分别是数据获取、数据处理和数据分析。

为了达到上述目的，本发明技术方案包括：

一种智能电网大数据存储与分析系统，包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块；

所述数据采集模块用于采集电网数据，包含原有计算机中存储的结构化数据和采集自电网运行中的非结构化数据；

所述数据预处理模块用于对采集的数据进行预处理，包括传输和清洗；

所述数据存储模块用于存储智能电网产生的各种结构化和非结构化数据；

所述数据分析模块用于智能电网数据的分析，并根据客户需要提供处理后的数据。

在上述方案的基础上，所述大数据管理系统还包括身份认证模块，在大数据可视化展示启动之前，身份认证模块需要用户输入身份认证信息进行身份认证并进行权限认定，不同等级权限的用户拥有相应等级的操作权限。

在上述方案的基础上，所述大数据存储系统还包括数据加密模块，用于对数据采集模块采集到的数据信息进行加密处理形成加密数据信号，通过数据预处理传输至数据存储模块。

在上述方案中，所述数据预处理模块用来处理海量流数据，可对不同来源的数据进行处理，包含丰富的系统(Spark,Hive,Linux Shell,Java Virtual Machine和Python等)。每个处理单元都可认为是目的明确的执行单元，例如数据清洗、数据传输、数据匿名化或者流数据挖掘(比如数据异常检测)。同时，数据预处理模块也提供了集成数据处理单元，支持不同数据源的数据读取和写数据操作。

在上述方案中，非结构化数据具备不方便用数据库二维逻辑进行表现的特征，图片、报表、视频等便属于较为典型的非结构化数据。需要对非结构化数据做处理，其数据模型处理步骤概括为：“数据预处理(重复性清除和无效数据清洗)→学习数据结果集和测试训练集(模式查询)→特征选择和多维聚类(多维分析)”。

在上述方案中，用户通过不同的线程提交的job可以并发运行，但是受到资源的限制。通过Job Scheduler到调度池内申请资源，调度池根据job性质，决定调度模式。

在上述方案中，数据预处理模块也支持使用Hive作为批处理系统来处理海量数据集。Hive是一个基于SQL和Hadoop MapReduce矿建的开源分布式数据存储系统。同时，Hive提供类SQL查询语句。Hive通过SQL-MapReduce翻译器把SQL语句翻译到Hadoop MapReduce任务中。由于Hive的低延迟性，所以Hive适合于对海量大数据做线下分析。

在上述方案中，所述数据存储模块包含许多内嵌式分析算法(通过开源数据库中的分析字典MADlib执行)和数据库PostSQL。

一种智能电网大数据存储与分析系统的处理方法，该方法具体包括以下步骤：

步骤1：获取数据；

通过数据采集模块采集电网数据，包含原有计算机中存储的结构化数据和采集自电网运行中的非结构化数据；

步骤2：数据处理

步骤2.1：结构化数据处理；

采用Spark对采集的结构化数据流进行处理；原始数据以任何周期读取；执行不同获取器获取不同来源、不同类型的数据；当连续数据被读入Spark Streaming时都会被离散化处理，以便进行秒级以下的微型批处理；对离散化数据流进行一系列操作，包括映射、过滤、编号、缺值过滤、数据合法性检测和缩减，并且允许用户指定尺寸的窗口操作和滑动区间操作等；进行清洗和定义操作之后的数据临时放置于Spark内部表中；此时用户可以使用SQL语句进行读写等操作；最终，数据将会存放于Hive表中；

步骤2.2：非结构化数据处理；

构建数据管理系统模型；其包含原始数据库、特征函数以及特征空间三部分；特征是指某些数据或整体数据所具有的共同特征；针对原始数据的存储，智能电网系统基于分布式文件系统Hadoop作为原始数据的存储媒介进行；基于Map Reduce计算模型，把复杂问题分解成多个子问题进行独立处理；针对非结构化数据，其具体处理流程如下：(1)数据清洗；对无用数据进行清楚，减少数据所占空间；同时将数据属性中连续值的离散化处理和数据转换；(2)数据模式挖掘；负责数据预处理，构建数据分类器、利用准备好的测试集，以此开展学习数据结果集和测试训练集；训练出数据中的有用信息；(3)多维分析；综合选择特征选择方法开展分析，最终，处理后的数据将会存放于Hbase表中；

步骤3：任务调度；数据处理模块支持在同一个平台上运行不同的工作流；数据预处理模块使用集中式业务调度系统来进行任务调度和计算资源分配；该系统采用两种调度方式：确定型和不确定型；确定型方法用来在特定时间执行用户操作；不确定型方法用来调度单独服务器环境下的不确定时间工作流；此外，Spark的调度器以先进先出方式调度job的执行；

步骤4：数据优化与存储

数据存储模块中的数据库PostSQL利用内嵌式工具包MADlib进行数据预分析；工具包MADlib中包含线性回归、K-means聚类、柱状图和ARIMA；同时，MADlib也提供了逻辑和多类别逻辑回归、线性和逻辑的弹性网络正则化、关联规则、交叉验证、矩阵分解、线性判别分析、奇异值分解和主成分析方法；与其对应分析函数如表1所示；最终，向用户提供可视化展示；

表1不同模式下的集成函数。

本发明技术方案的具体分析处理框架，包含离线分析

(hive,pig,spark)、近似实时分析(impala)和实时分析(storm、sparkstreaming)。支持需求侧和供给侧的双层分析。通过供给侧分析，国家电网能够优化智能电网运行、短期负荷预测和需求峰值规划。通过需求侧分析，国家电网可以更好的解读消费者消费情况，并且提供个性化服务。用户也可以更清晰的了解自己的消费，以便节约能源。具体包括：消费分析、消费模式挖掘、分割、预测、在线故障检测、反馈服务、可视化消费和邻居消费对比。

附图说明

图1本发明的分层结构框图；

图2本发明数据流处理流程图；

图3本发明的Spark Streaming处理流程图；

图4本发明的非结构化数据转换流程图；

图5本发明的分布式架构图；

表1本发明的不同模式下的集成函数表。

具体实施方法

如图1所示，本发明的技术系统框架包括三层系统。分别是数据获取、数据处理和数据分析。具体包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块；

所述数据存储模块用于存储预处理后的智能电网产生的各种结构化和非结构化数据；

以下结合附图2对本发明实施过程作进一步仔细解释。

步骤1：获取数据。数据源包括：由远程智能电表传输的工控终端设备实时运行数据，传感器的各种视频、音频等数据，电力服务中心等操作数据。基于ZigBee无线传感器网和智能传感器技术，实现终端设备数据的快速实时采集与传输。

步骤2.1：结构化数据处理。采用Spark对采集的结构化数据流进行处理。如图3所示。原始数据可以以任何周期读取，本系统采用的典型周期是15分钟或一小时。执行不同获取器可以获取不同来源、不同类型的数据。当连续数据被读入Spark Streaming时都会被离散化处理，以便进行秒级以下的微型批处理。此时可以对离散化数据流进行一系列操作，比如映射、过滤、编号、缺值过滤、数据合法性检测和缩减等，并且允许用户指定尺寸的窗口操作和滑动区间操作等。进行清洗和定义操作之后的数据临时放置于Spark内部表中。此时用户可以使用SQL语句进行读写等操作。最终，数据将会存放于Hive表中。

步骤2.2：非结构化数据处理。需要构建数据管理系统模型。其包含原始数据库、特征函数以及特征空间三部分。特征是指某些数据或整体数据所具有的共同特征。针对原始数据的存储，智能电网系统主要基于分布式文件系统Hadoop作为原始数据的存储媒介进行。基于Map Reduce计算模型，把复杂问题分解成多个子问题进行独立处理。如图4所示。针对非结构化数据，其具体处理流程如下：(1)数据清洗。对无用数据进行清楚，减少数据所占空间。同时将数据属性中连续值的离散化处理和数据转换。(2)数据模式挖掘。负责数据预处理(基于概率评估方法)，通过合理选择人工智能算法构建数据分类器、利用准备好的测试集，以此开展学习数据结果集和测试训练集。训练出数据中的有用信息。(3)多维分析。综合选择特征选择方法开展分析，最终，处理后的数据将会存放于Hbase表中。

步骤3：任务调度。数据处理模块支持在同一个平台上运行不同的工作流。数据预处理模块使用集中式业务调度系统来进行任务调度和计算资源分配。该系统采用两种调度方式：确定型和不确定型。确定型方法用来在特定时间执行用户操作。不确定型方法用来调度单独服务器环境下的不确定时间工作流。此外，Spark的调度器以先进先出方式调度job的执行。

步骤4：数据优化与存储。数据存储模块中的数据库PostSQL利用内嵌式工具包MADlib进行数据预分析。工具包MADlib中包含线性回归、K-means聚类、柱状图和ARIMA等方法。同时，MADlib也提供了逻辑和多类别逻辑回归、线性和逻辑的弹性网络正则化、关联规则、交叉验证、矩阵分解、线性判别分析、奇异值分解和主成分析方法等。与其对应分析函数如表1所示。最终，向用户提供可视化展示。

表1不同模式下的集成函数。

本发明技术方案的具体分析处理框架如图5所示，包含离线分析(hive,pig,spark)、近似实时分析(impala)和实时分析(storm、spark streaming)。

Claims

1.一种智能电网大数据存储与分析系统，其特征在于：包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块；

2.根据权利要求1所述的一种智能电网大数据存储与分析系统，其特征在于：所述数据预处理模块用来处理海量流数据，可对不同来源的数据进行处理，包含丰富的系统；每个处理单元都可认为是目的明确的执行单元，具体为数据清洗、数据传输、数据匿名化或者流数据挖掘；同时，数据预处理模块也提供了集成数据处理单元，支持不同数据源的数据读取和写数据操作；系统包括Spark,Hive,Linux Shell,Java Virtual Machine和Python。

3.根据权利要求1所述的一种智能电网大数据存储与分析系统，其特征在于：所述的非结构化数据具备不方便用数据库二维逻辑进行表现的特征；需要对非结构化数据做处理，其数据模型处理步骤概括为：“数据预处理→学习数据结果集和测试训练集→特征选择和多维聚类”。

4.根据权利要求1所述的一种智能电网大数据存储与分析系统，其特征在于：数据预处理模块支持使用Hive作为批处理系统来处理海量数据集；Hive是一个基于SQL和HadoopMapReduce矿建的开源分布式数据存储系统；同时，Hive提供类SQL查询语句；Hive通过SQL-MapReduce翻译器把SQL语句翻译到Hadoop MapReduce任务中；由于Hive的低延迟性，所以Hive适合于对海量大数据做线下分析。

5.根据权利要求1所述的一种智能电网大数据存储与分析系统，其特征在于：所述数据存储模块包含内嵌式分析算法和数据库PostSQL。

6.根据权利要求1所述的一种智能电网大数据存储与分析系统的处理方法，其特征在于，该方法具体包括以下步骤：

步骤1：获取数据；

步骤2：数据处理

步骤2.1：结构化数据处理；

步骤2.2：非结构化数据处理；

步骤4：数据优化与存储

表1。