CN107832876B - 基于MapReduce框架的分区最大负荷预测方法 - Google Patents

基于MapReduce框架的分区最大负荷预测方法 Download PDF

Info

Publication number
CN107832876B
CN107832876B CN201711023670.5A CN201711023670A CN107832876B CN 107832876 B CN107832876 B CN 107832876B CN 201711023670 A CN201711023670 A CN 201711023670A CN 107832876 B CN107832876 B CN 107832876B
Authority
CN
China
Prior art keywords
data
maximum load
transformer
load
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711023670.5A
Other languages
English (en)
Other versions
CN107832876A (zh
Inventor
周嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority to CN201711023670.5A priority Critical patent/CN107832876B/zh
Publication of CN107832876A publication Critical patent/CN107832876A/zh
Application granted granted Critical
Publication of CN107832876B publication Critical patent/CN107832876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于MapReduce框架的分区最大负荷预测方法,主要有大数据平台搭建、原始数据清洗、负荷数据分区、历史最大负荷求取、线性回归预测这5个步骤。大数据实时处理平台主要由分布式存储层和分布式计算层构成。分布式存储层采用Hadoop的分布式文件系统(HDFS),数据建表采用Hadoop的Hive组件;分布式计算层采用Apache Spark,将数据以分布式弹性数据集的形式转化、操作。本发明提出的配电网大数据分区并行计算方法可以快速精确的从数据中计算出历史区域最大负荷,并以此为数据基础进行最大负荷预测,为配电网管理、规划提供数据支持,对配电网安全经济运行具有重要意义。

Description

基于MapReduce框架的分区最大负荷预测方法
技术领域
本发明涉及的是采用计算机技术对于配电网大数据进行处理,旨在从海量的配网数据中提取出对于配电网规划、管理有实用价值的台区负荷最大值,并以此为数据基础进行负荷预测,属于配电网大数据挖掘与分析领域。
背景技术
随着国家电网公司建设坚强电网战略目标的提出,智能用电终端和采集终端数量日益扩大,使得各种类型的电力自动化数据出现几何级的增长,呈现出“体量大”、“类型多”、“密度低”和“增速快”的典型大数据特征。在配电网的管理与规划过程中,电力负荷统计指标、电压分析统计指标等一系列数据可以为配电网发策部门提供电力系统规划、设计、调度提供决策的依据。国内已有传统电力系统信息平台的建设大多采用价格昂贵的大型服务器,存储采用磁盘阵列,数据库采用关系数据库系统,业务应用采用紧密耦合的套装软件,导致系统扩展性较差、成本较高,难以适应智能电网对状态监测数据可靠性和实时性的更高要求。2006年Hadoop分布式计算平台发布,2009年,伯克利大学提出和发展了Spark计算平台,在Hadoop分布式计算的基础上,引入了内存计算,使数据计算速度得到10倍乃至100倍的提升。Hadoop大数据处理框架可以很好的解决数据量剧增带来的瓶颈,且具备良好的可靠性和可扩展性、数据处理量大、实时性高、成本低廉等优势。HDFS(HadoopDistribute File System)是Hadoop上的分布式文件系统。HDFS有着高容错性的特点,采master/slave结构,并且用来设计部署在廉价的硬件上。它提供高吞吐量来访问数据,适合那些大量数据的应用程序。
国内外将大数据技术运用于配电网数据分析的实例并不罕见,但目前使用该架构的程度仅仅停留于对于配电网数据的聚类预测,并未有按照供电单元对配电网数据进行分类规划统计,提供与用户有直接关联的台区负荷统计分析指标展示服务的先例。
发明内容
发明目的:从海量的配网数据中提取出对于配电网规划、管理有实用价值的台区负荷最大值,并以此为数据基础进行负荷预测,为供电公司提供负荷预警服务。
技术方案:为了实现上述目的,本发明提出了一种基于MapReduce框架的分区最大负荷预测方法,使用的技术方案如下:
技术方案包括如下步骤:
步骤a:搭建由以Hadoop为核心的分布式存储层与以Spark为核心的分布式计算层构成的大数据分析平台;
步骤b:对原始负荷数据进行数据预处理;
步骤c:采用交叉点判别法对配变按照供电台区进行筛选、划分;
步骤d:对台区公变、专变分别求和,构建合适的Map函数和Reduce函数,求取台区公变与专变在一年中的最大负荷;
步骤e:采用线性回归模型对台区公变与专变的最大负荷分别进行预测,台区最大负荷即为两个预测值之和。
进一步地,上述步骤中,大数据存储分析平台搭建过程如下:
1)采用Linux Ubuntu作为操作系统。
2)将原始数据存储于Hadoop平台提供的分布式文件系统(HDFS),实现数据集的离散化存储和查询;
3)采用Hadoop提供的Hive组件,以EXTERNAL作为关键字,对负荷数据按照如下格式进行数据建表:
Figure GDA0002507328400000021
4)在上述的大数据存储平台上,以Apache Hadoop为开发工具,对计算任务进行调度,完成HQL语句与集群上的MapReduce作业的转换;
5)上层采用Apache Spark用于大数据的实时处理,对数据表以弹性分布式数据集(RDD)的形式进行并行化操作。
进一步地,上述步骤中,原始数据预处理的步骤如下:
1)空数据采用拉格朗日插值定理补全;
2)以配变ID和日期为Key,对数据进行去重;
3)采用统计学中的3σ定理找到原始数据中的异常数据并剔除。
进一步地,上述步骤中,采用交叉点判别法对配变按照供电台区进行筛选、划分步骤如下:
1)对配变坐标以及区域顶点坐标进行地图投影。
2)以待测配变的横纵坐标做射线,得到该射线与多边形的各个交点。
3)计算待测配变两边射线与交点的个数,如果待测配变两边交点数均为奇数,则判定该配变在供电台区内;如果不是,判定该配变在供电台区外。
进一步地,上述步骤中,求取台区最大负荷的具体过程如下:
1)对台区所有公变/专变以采样点为关键值进行求和,得到包含该台区当年任意时间点公变/专变总负荷的RDD。
2)构建Map函数求取各天96个采样点中台区公变/专变总负荷的最大值,以此作为新RDD的第一列。
3)构建的Reduce函数为两两比较取最大值,用来对新RDD的第一列进行迭代,以此得到台区最大负荷。
6、进一步地,上述步骤中,线性回归预测供电台区最大负荷的步骤如下:
1)按照上述方法求出该台区公变的历史最大负荷。
2)以年份为特征值,对历史最大负荷按照下式进行线性回归:
loadmax(y)=α01y
loadmax(y)为历史最大负荷;y为年份,α0和α1代表线性回归方程的系数;
3)对专变的历史最大负荷采用同样的处理方式,台区最大负荷预测值即为公变预测值与专变预测值之和:
loadmax_pre=loadcommon_pre+loadSpecial_pre
loadmax_pve为台区最大负荷预测值,loadcommon_pre为公变最大预测值;loadspecial_pre为专变最大预测值。
有益效果:使用本发明的可以对海量电力负荷数据进行快速准确的实时计算。通过大数据计算机制MapReduce对电网庞大的数据进行并行化计算,最终提取出与用户直接关联的台区指标,并以此为数据基础进行预测,为配电网的管理、规划提供科学的数据基础。采用的分布式文件系统具有良好的扩展性,可以保证在数据量增加时,系统的运算速度不会改变。本发明对电网发策部门工作效率的提高具有重要意义。
附图说明
图1是本发明的大数据分布式计算平台架构图。
图2是RDD算子并行化处理得到区域负荷统计指标的过程图。
图3是台区最大负荷预测值的计算流程图。
具体实施方式
下面结合附图对本发明进行详细的描述。
1、本发明以图1的分层结构搭建分布式系统开发平台,将包含有负荷数据、日期、配变名、配变坐标的数据存放于分布式文件系统中,通过Hadoop的Hive组件对电力负荷原始数据构建外部表,以供分布式计算层的访问、查询。分布式计算层采用Apache Spark进行并行化计算。
2、在数据建表之前,对用采数据存在的空数据、重复数据、越限数据进行处理:对空数据的主要处理方式为在Spark平台中,用map方式对数据集进行行切割,条件判断数据字段是否为空。若某字段为空,则删除该行数据;对重复数据的主要处理方式为以配变标识ID以及日期为特征判据,对具有相同key-value的数据进行合并,统计结果不为1的,则在原数据集中删除重复行。对越限数据的主要处理方式采用3σ准则去除异常数据,即计算负荷数据的残差、标准差,剔除残差大于3倍单次测量标准差的数据。
3、按照实施方式2中的步骤对数据进行清洗后,按照:序号:bigint,数据导出系统:string,线路:string,标识:string,位置:string,地址:string,日期:string,总采样数:int,采样点0:double,……,采样点95:double的结构对负荷数据进行数据建表。
4、对供电台区公变专变最大负荷计算的基本流程如图2。将实施方式3中建立的外部表读取到Spark平台中成为分布式弹性数据集(RDD),弹性数据集主要通过转换和操作两种方式处理:转换主要是将原始RDD通过一定操作形成一个新的RDD,根据电力负荷数据RDD中包含的配变经纬度,以台区边界为基准按照交叉点数判别法对每一台配变进行filter划分;操作主要是对RDD内的元素或RDD本身的结构进行计算,得到一个确定的数据,对按照供电台区划分好的公变、专变数据通过agg方法以采集点为关键值对公变、专变数据进行求和计算,可以得到各断面下供电台区公变、专变负荷之和的RDD。构建Map函数求取各天96个采样点中台区公变/专变总负荷的最大值,以此作为新RDD的第一列。构建的Reduce函数为两两比较取最大值,用来对新RDD的第一列进行迭代,以此得到台区最大负荷。
5、对供电台区最大负荷的预测过程图如图3,采用实施方案4中的计算方法计算出台区公变历史最大负荷和台区专变历史最大负荷;以年份为特征值对公变和专变分别进行线性回归预测;台区最大负荷为公变预测结果与专变预测结果之和。
本发明通过搭建图1的大数据平台,运用图2的弹性分布式数据集处理方法,对海量电力数据进行价值挖掘。巧妙的利用了Spark迭代方面的优势,对电力负荷数据进行台区划分。采用Spark的转换和操作方法对数据进行并行化计算,具有计算速度快,数据精确度高等优点,为今后配电网以供电分区为单位的大数据处理、分析提供了技术路线。

Claims (9)

1.一种基于MapReduce框架的分区最大负荷预测方法,其特征在于,包括以下步骤:
步骤a:搭建由以Hadoop为核心的分布式存储层与以Spark为核心的分布式计算层构成的大数据分析平台;
步骤b:对原始负荷数据进行数据预处理;
步骤c:采用交叉点判别法对配变按照供电台区进行筛选、划分;
步骤d:对台区公变、专变分别求和,构建合适的Map函数和Reduce函数,求取台区公变与专变在一年中的最大负荷;
步骤e:采用线性回归模型对台区公变与专变的最大负荷分别进行预测,台区最大负荷即为两个预测值之和。
2.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,步骤a的搭建过程如下:
1)采用Linux Ubuntu作为操作系统;
2)将原始数据存储于Hadoop平台提供的分布式文件系统(HDFS),实现数据集的离散化存储和查询;
3)采用Hadoop提供的Hive组件,以EXTERNAL作为关键字,对负荷数进行数据建表;
4)在上述的大数据分析平台上,以Apache Hadoop为开发工具,对计算任务进行调度,完成HQL语句与集群上的MapReduce作业的转换;
5)上层采用Apache Spark用于大数据的实时处理,对数据表以弹性分布式数据集(RDD)的形式进行并行化操作。
3.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,步骤b对数据预处理包括:
1)空数据采用拉格朗日插值定理补全;
2)以配变ID和日期为Key,对数据进行去重;
3)采用统计学中的3σ定理找到原始数据中的异常数据并剔除。
4.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,步骤c利用交叉点判别法判断配变所在区域的步骤包括:
1)对配变坐标以及区域顶点坐标进行地图投影;
2)以待测配变的横纵坐标做射线,得到该射线与多边形的各个交点;
3)计算待测配变两边射线的交点的个数,如果待测配变两边交点数均为奇数,则判定该配变在供电台区内;如果不是,判定该配变在供电台区外。
5.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,步骤d求取台区公变与专变在一年中的最大负荷的具体过程如下:
1)对台区所有公变/专变以采样点为关键值进行求和,得到包含该台区当年任意时间点公变/专变总负荷的RDD;
2)构建Map函数求取各天96个时间采样点中台区公变/专变总负荷的最大值,以此作为新RDD的第一列;
3)构建的Reduce函数为两两比较取最大值,用来对新RDD的第一列进行迭代,以此得到台区公变与专变在一年中的最大负荷。
6.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,步骤e线性回归预测供电台区最大负荷的步骤如下:
1)按照步骤d求出该台区公变的历史最大负荷;
2)以年份为特征值,对公变历史最大负荷按照下式进行线性回归:
loadmax(y)=α01y
loadmax(y)为公变历史最大负荷;y为年份,α0和α1代表线性回归方程的系数;
3)对专变的历史最大负荷采用同样的处理方式,台区最大负荷预测值即为公变预测值与专变预测值之和:
loadmax_pre=loadcommon_pre+loadSpecial_pre
loadmax_pve为台区最大负荷预测值,loadcommon_pre为公变最大预测值;loadspecial_pre为专变最大预测值。
7.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,以配电网最末端的台区为单位,最大负荷预测结果与用户直接相关。
8.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于,充分利用内存计算迭代速度快的优势,对弹性分布式数据集的区域划分的方法采用交叉点判别法,对每一条数据中的经纬度进行迭代,快速得到配变数据的划分结果。
9.根据权利要求1所述的基于MapReduce框架的分区最大负荷预测方法,其特征在于:搭建的分布式存储计算框架可扩展性很好,系统的计算性能随着节点数的增加保持接近线性的增长,当采集的电力负荷实时数据源增加时,通过增加节点来保证大数据的计算速度和响应效率。
CN201711023670.5A 2017-10-27 2017-10-27 基于MapReduce框架的分区最大负荷预测方法 Active CN107832876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711023670.5A CN107832876B (zh) 2017-10-27 2017-10-27 基于MapReduce框架的分区最大负荷预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711023670.5A CN107832876B (zh) 2017-10-27 2017-10-27 基于MapReduce框架的分区最大负荷预测方法

Publications (2)

Publication Number Publication Date
CN107832876A CN107832876A (zh) 2018-03-23
CN107832876B true CN107832876B (zh) 2020-09-04

Family

ID=61649819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711023670.5A Active CN107832876B (zh) 2017-10-27 2017-10-27 基于MapReduce框架的分区最大负荷预测方法

Country Status (1)

Country Link
CN (1) CN107832876B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734355B (zh) * 2018-05-24 2022-03-08 国网福建省电力有限公司 一种应用于电能质量综合治理场景的短期电力负荷并行预测方法及系统
CN109242132A (zh) * 2018-06-05 2019-01-18 国网江苏省电力有限公司南通供电分公司 基于MapReduce框架的分区最大负荷预测方法
CN108921324A (zh) * 2018-06-05 2018-11-30 国网江苏省电力有限公司南通供电分公司 基于配变聚类的台区短期负荷预测方法
CN109102106A (zh) * 2018-07-05 2018-12-28 国网江苏省电力有限公司泰州供电分公司 一种基于电力大数据负荷密度优化计算方法
CN109376132A (zh) * 2018-08-01 2019-02-22 国网浙江省电力有限公司电力科学研究院 基于Spark技术的计量设备典型运行曲线评估方法及系统
CN109977091A (zh) * 2019-02-25 2019-07-05 贵州电网有限责任公司 一种分布式计算和存储系统
CN110069467A (zh) * 2019-04-16 2019-07-30 沈阳工业大学 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法
CN111241087A (zh) * 2020-03-10 2020-06-05 天津市普迅电力信息技术有限公司 一种基于分布式计算的能源数据自动化处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096772A1 (en) * 2003-10-31 2005-05-05 Cox David N. Transformer performance prediction
CN104361110B (zh) * 2014-12-01 2016-01-20 广东电网有限责任公司清远供电局 海量用电数据分析系统及其实时计算、数据挖掘方法
CN105305426B (zh) * 2015-10-20 2017-03-22 国网山东省电力公司菏泽供电公司 基于偏差控制机制的Mapreduce化两步法短期负荷预测方法
CN105678398A (zh) * 2015-12-24 2016-06-15 国家电网公司 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
公变负荷预测方法研究;胡志亮;《中国优秀硕士学位论文全文数据库 工程科技辑》;20140615(第6期);全文 *
基于大数据聚类的电力系统中长期负荷预测;徐源;《电力系统及其自动化学报》;20170831;第29卷(第8期);全文 *

Also Published As

Publication number Publication date
CN107832876A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107832876B (zh) 基于MapReduce框架的分区最大负荷预测方法
CN107402976B (zh) 一种基于多元异构模型的电网多源数据融合方法及系统
CN105069703B (zh) 一种电网海量数据管理方法
CN107807961B (zh) 一种基于Spark计算引擎的配电网大数据分区处理方法
CN108446293A (zh) 一种基于城市多源异构数据构建城市画像的方法
CN105678398A (zh) 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统
CN106095639A (zh) 一种集群亚健康预警方法及系统
CN105701596A (zh) 一种基于大数据技术的配网抢修精益化方法以及管理系统
JP6784780B2 (ja) 大規模再生可能エネルギーのデータについて確率モデルを構築する方法
CN114676883A (zh) 基于大数据的电网运行管理方法、装置、设备及存储介质
CN113935562A (zh) 一种电力设备健康状况智能评级与自动预警方法
CN108446396B (zh) 一种基于改进型cim模型的电力数据处理方法
CN107590749A (zh) 一种配用电数据的处理方法及系统
AU2022204116A1 (en) Verification method for electrical grid measurement data
CN107918830A (zh) 一种基于大数据技术的配电网运行状态评估系统及方法
CN108920609A (zh) 基于多维度分析的电力实验数据挖掘方法
CN112688431A (zh) 一种基于大数据的配电网负荷过载可视化方法及系统
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
CN111178587A (zh) 一种基于spark框架的短期电力负荷快速预测方法
CN104601604A (zh) 网络安全态势分析方法
Guo Application of meteorological big data
CN115238950A (zh) 一种基于蚁群算法的输电线路路径智能选择方法及系统
CN109412155B (zh) 一种基于图计算的配电网供电能力评估方法
CN116154768B (zh) 采用点预测误差经验分布逆变换的功率区间预测方法
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant