CN107832876B

CN107832876B - 基于MapReduce框架的分区最大负荷预测方法

Info

Publication number: CN107832876B
Application number: CN201711023670.5A
Authority: CN
Inventors: 周嘉
Original assignee: Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2020-09-04
Anticipated expiration: 2037-10-27
Also published as: CN107832876A

Abstract

本发明提出了一种基于MapReduce框架的分区最大负荷预测方法，主要有大数据平台搭建、原始数据清洗、负荷数据分区、历史最大负荷求取、线性回归预测这5个步骤。大数据实时处理平台主要由分布式存储层和分布式计算层构成。分布式存储层采用Hadoop的分布式文件系统(HDFS)，数据建表采用Hadoop的Hive组件；分布式计算层采用Apache Spark，将数据以分布式弹性数据集的形式转化、操作。本发明提出的配电网大数据分区并行计算方法可以快速精确的从数据中计算出历史区域最大负荷，并以此为数据基础进行最大负荷预测，为配电网管理、规划提供数据支持，对配电网安全经济运行具有重要意义。

Description

基于MapReduce框架的分区最大负荷预测方法

技术领域

本发明涉及的是采用计算机技术对于配电网大数据进行处理，旨在从海量的配网数据中提取出对于配电网规划、管理有实用价值的台区负荷最大值，并以此为数据基础进行负荷预测，属于配电网大数据挖掘与分析领域。

背景技术

随着国家电网公司建设坚强电网战略目标的提出，智能用电终端和采集终端数量日益扩大，使得各种类型的电力自动化数据出现几何级的增长，呈现出“体量大”、“类型多”、“密度低”和“增速快”的典型大数据特征。在配电网的管理与规划过程中，电力负荷统计指标、电压分析统计指标等一系列数据可以为配电网发策部门提供电力系统规划、设计、调度提供决策的依据。国内已有传统电力系统信息平台的建设大多采用价格昂贵的大型服务器，存储采用磁盘阵列，数据库采用关系数据库系统，业务应用采用紧密耦合的套装软件，导致系统扩展性较差、成本较高，难以适应智能电网对状态监测数据可靠性和实时性的更高要求。2006年Hadoop分布式计算平台发布，2009年，伯克利大学提出和发展了Spark计算平台，在Hadoop分布式计算的基础上，引入了内存计算，使数据计算速度得到10倍乃至100倍的提升。Hadoop大数据处理框架可以很好的解决数据量剧增带来的瓶颈，且具备良好的可靠性和可扩展性、数据处理量大、实时性高、成本低廉等优势。HDFS(HadoopDistribute File System)是Hadoop上的分布式文件系统。HDFS有着高容错性的特点，采master/slave结构，并且用来设计部署在廉价的硬件上。它提供高吞吐量来访问数据，适合那些大量数据的应用程序。

国内外将大数据技术运用于配电网数据分析的实例并不罕见，但目前使用该架构的程度仅仅停留于对于配电网数据的聚类预测，并未有按照供电单元对配电网数据进行分类规划统计，提供与用户有直接关联的台区负荷统计分析指标展示服务的先例。

发明内容

发明目的：从海量的配网数据中提取出对于配电网规划、管理有实用价值的台区负荷最大值，并以此为数据基础进行负荷预测，为供电公司提供负荷预警服务。

技术方案：为了实现上述目的，本发明提出了一种基于MapReduce框架的分区最大负荷预测方法，使用的技术方案如下：

技术方案包括如下步骤：

步骤a:搭建由以Hadoop为核心的分布式存储层与以Spark为核心的分布式计算层构成的大数据分析平台；

步骤b:对原始负荷数据进行数据预处理；

步骤c:采用交叉点判别法对配变按照供电台区进行筛选、划分；

步骤d:对台区公变、专变分别求和，构建合适的Map函数和Reduce函数，求取台区公变与专变在一年中的最大负荷；

步骤e:采用线性回归模型对台区公变与专变的最大负荷分别进行预测，台区最大负荷即为两个预测值之和。

进一步地，上述步骤中，大数据存储分析平台搭建过程如下：

1)采用Linux Ubuntu作为操作系统。

2)将原始数据存储于Hadoop平台提供的分布式文件系统(HDFS)，实现数据集的离散化存储和查询；

3)采用Hadoop提供的Hive组件，以EXTERNAL作为关键字，对负荷数据按照如下格式进行数据建表：

4)在上述的大数据存储平台上，以Apache Hadoop为开发工具，对计算任务进行调度，完成HQL语句与集群上的MapReduce作业的转换；

5)上层采用Apache Spark用于大数据的实时处理，对数据表以弹性分布式数据集(RDD)的形式进行并行化操作。

进一步地，上述步骤中，原始数据预处理的步骤如下：

1)空数据采用拉格朗日插值定理补全；

2)以配变ID和日期为Key，对数据进行去重；

3)采用统计学中的3σ定理找到原始数据中的异常数据并剔除。

进一步地，上述步骤中，采用交叉点判别法对配变按照供电台区进行筛选、划分步骤如下：

1)对配变坐标以及区域顶点坐标进行地图投影。

2)以待测配变的横纵坐标做射线，得到该射线与多边形的各个交点。

3)计算待测配变两边射线与交点的个数，如果待测配变两边交点数均为奇数，则判定该配变在供电台区内；如果不是，判定该配变在供电台区外。

进一步地，上述步骤中，求取台区最大负荷的具体过程如下：

1)对台区所有公变/专变以采样点为关键值进行求和，得到包含该台区当年任意时间点公变/专变总负荷的RDD。

2)构建Map函数求取各天96个采样点中台区公变/专变总负荷的最大值，以此作为新RDD的第一列。

3)构建的Reduce函数为两两比较取最大值，用来对新RDD的第一列进行迭代，以此得到台区最大负荷。

6、进一步地，上述步骤中，线性回归预测供电台区最大负荷的步骤如下：

1)按照上述方法求出该台区公变的历史最大负荷。

2)以年份为特征值，对历史最大负荷按照下式进行线性回归：

load_max(y)＝α₀+α₁y

load_max(y)为历史最大负荷；y为年份，α₀和α₁代表线性回归方程的系数；

3)对专变的历史最大负荷采用同样的处理方式，台区最大负荷预测值即为公变预测值与专变预测值之和：

load_{max_pre}＝load_{common_pre}+load_{Special_pre}

load_{max_pve}为台区最大负荷预测值，load_{common_pre}为公变最大预测值；load_{special_pre}为专变最大预测值。

有益效果：使用本发明的可以对海量电力负荷数据进行快速准确的实时计算。通过大数据计算机制MapReduce对电网庞大的数据进行并行化计算，最终提取出与用户直接关联的台区指标，并以此为数据基础进行预测，为配电网的管理、规划提供科学的数据基础。采用的分布式文件系统具有良好的扩展性，可以保证在数据量增加时，系统的运算速度不会改变。本发明对电网发策部门工作效率的提高具有重要意义。

附图说明

图1是本发明的大数据分布式计算平台架构图。

图2是RDD算子并行化处理得到区域负荷统计指标的过程图。

图3是台区最大负荷预测值的计算流程图。

具体实施方式

下面结合附图对本发明进行详细的描述。

1、本发明以图1的分层结构搭建分布式系统开发平台，将包含有负荷数据、日期、配变名、配变坐标的数据存放于分布式文件系统中，通过Hadoop的Hive组件对电力负荷原始数据构建外部表，以供分布式计算层的访问、查询。分布式计算层采用Apache Spark进行并行化计算。

2、在数据建表之前，对用采数据存在的空数据、重复数据、越限数据进行处理：对空数据的主要处理方式为在Spark平台中，用map方式对数据集进行行切割，条件判断数据字段是否为空。若某字段为空，则删除该行数据；对重复数据的主要处理方式为以配变标识ID以及日期为特征判据，对具有相同key-value的数据进行合并，统计结果不为1的，则在原数据集中删除重复行。对越限数据的主要处理方式采用3σ准则去除异常数据，即计算负荷数据的残差、标准差，剔除残差大于3倍单次测量标准差的数据。

3、按照实施方式2中的步骤对数据进行清洗后，按照：序号：bigint，数据导出系统：string，线路：string，标识：string，位置：string，地址：string，日期：string，总采样数：int，采样点0：double，……，采样点95：double的结构对负荷数据进行数据建表。

4、对供电台区公变专变最大负荷计算的基本流程如图2。将实施方式3中建立的外部表读取到Spark平台中成为分布式弹性数据集(RDD)，弹性数据集主要通过转换和操作两种方式处理：转换主要是将原始RDD通过一定操作形成一个新的RDD，根据电力负荷数据RDD中包含的配变经纬度，以台区边界为基准按照交叉点数判别法对每一台配变进行filter划分；操作主要是对RDD内的元素或RDD本身的结构进行计算，得到一个确定的数据，对按照供电台区划分好的公变、专变数据通过agg方法以采集点为关键值对公变、专变数据进行求和计算，可以得到各断面下供电台区公变、专变负荷之和的RDD。构建Map函数求取各天96个采样点中台区公变/专变总负荷的最大值，以此作为新RDD的第一列。构建的Reduce函数为两两比较取最大值，用来对新RDD的第一列进行迭代，以此得到台区最大负荷。

5、对供电台区最大负荷的预测过程图如图3，采用实施方案4中的计算方法计算出台区公变历史最大负荷和台区专变历史最大负荷；以年份为特征值对公变和专变分别进行线性回归预测；台区最大负荷为公变预测结果与专变预测结果之和。

本发明通过搭建图1的大数据平台，运用图2的弹性分布式数据集处理方法，对海量电力数据进行价值挖掘。巧妙的利用了Spark迭代方面的优势，对电力负荷数据进行台区划分。采用Spark的转换和操作方法对数据进行并行化计算，具有计算速度快，数据精确度高等优点，为今后配电网以供电分区为单位的大数据处理、分析提供了技术路线。

Claims

1.一种基于MapReduce框架的分区最大负荷预测方法，其特征在于，包括以下步骤：

步骤b:对原始负荷数据进行数据预处理；

2.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，步骤a的搭建过程如下：

1)采用Linux Ubuntu作为操作系统；

3)采用Hadoop提供的Hive组件，以EXTERNAL作为关键字，对负荷数进行数据建表；

4)在上述的大数据分析平台上，以Apache Hadoop为开发工具，对计算任务进行调度，完成HQL语句与集群上的MapReduce作业的转换；

3.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，步骤b对数据预处理包括：

1)空数据采用拉格朗日插值定理补全；

2)以配变ID和日期为Key，对数据进行去重；

4.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，步骤c利用交叉点判别法判断配变所在区域的步骤包括：

1)对配变坐标以及区域顶点坐标进行地图投影；

2)以待测配变的横纵坐标做射线，得到该射线与多边形的各个交点；

3)计算待测配变两边射线的交点的个数，如果待测配变两边交点数均为奇数，则判定该配变在供电台区内；如果不是，判定该配变在供电台区外。

5.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，步骤d求取台区公变与专变在一年中的最大负荷的具体过程如下：

1)对台区所有公变/专变以采样点为关键值进行求和，得到包含该台区当年任意时间点公变/专变总负荷的RDD；

2)构建Map函数求取各天96个时间采样点中台区公变/专变总负荷的最大值，以此作为新RDD的第一列；

3)构建的Reduce函数为两两比较取最大值，用来对新RDD的第一列进行迭代，以此得到台区公变与专变在一年中的最大负荷。

6.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，步骤e线性回归预测供电台区最大负荷的步骤如下：

1)按照步骤d求出该台区公变的历史最大负荷；

2)以年份为特征值，对公变历史最大负荷按照下式进行线性回归：

load_max(y)＝α₀+α₁y

load_max(y)为公变历史最大负荷；y为年份，α₀和α₁代表线性回归方程的系数；

load_{max_pre}＝load_{common_pre}+load_{Special_pre}

7.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，以配电网最末端的台区为单位，最大负荷预测结果与用户直接相关。

8.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于，充分利用内存计算迭代速度快的优势，对弹性分布式数据集的区域划分的方法采用交叉点判别法，对每一条数据中的经纬度进行迭代，快速得到配变数据的划分结果。

9.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法，其特征在于：搭建的分布式存储计算框架可扩展性很好，系统的计算性能随着节点数的增加保持接近线性的增长，当采集的电力负荷实时数据源增加时，通过增加节点来保证大数据的计算速度和响应效率。