CN109190855A

CN109190855A - 一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法

Info

Publication number: CN109190855A
Application number: CN201811272954.2A
Authority: CN
Inventors: 邓孟华; 郝珈玮; 顾皓亮; 刘议华; 阎鼎
Original assignee: State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-01-11

Abstract

本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，结合Spark分布式计算平台，通过RDD数据集转换，实现了Spark平台下的并行随机森林回归算法，进而提出了基于Spark平台和并行随机森林回归算法的短期电力负荷预测方法，很好地应对了当前电力大数据背景下对负荷预测高精度，海量数据运算的要求。

Description

一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法

技术领域

本发明涉及一种用于智能电网领域的基于Spark平台和并行随机森林回归算法的电力负荷预测方法。

背景技术

伴随着经济的稳步发展和社会的不断进步，能源作为经济社会的重要物质基础，也经历着不断的革新。构建以智能电网为基础，特高压电网为关键，清洁能源为根本的全球能源互联网，是实现人类可持续发展的必由之路，具有巨大的经济、社会、环境综合效益。而电力大数据的研究是智能电网技术所包含的一个重要分支，通过对SCADA系统、EMS系统采集和存储的数据进行深度挖掘及分析，可以对电力系统的调度控制提供决策与帮助。长久以来，电力负荷预测一直是电力工作者们最为关注的问题之一，如今在电力大数据环境下，如何从智能电网庞大的业务流、信息流、数据流中提取负荷预测相关数据，并对这些数据进行处理，使得负荷预测更具准确性和实时性，成为当前研究的重点课题

发明内容

本发明的目的是为了克服现有技术的不足，提供一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，引入Spark分布式运算平台，通过RDD(resilientdistributeddatasets,RDD)数据集转换，实现随机森林算法模型，以实现对于电力负荷的预测。

实现上述目的的一种技术方案是：一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，包括如下步骤：

步骤1：获取每日电力负荷预测原始数据，并对原始数据进行数据清理、数据预处理；

步骤2：通过Spark平台将经过预处理的数据进行RDD处理，生成RDD数据集；

步骤3：根据RDD数据集采用Bagging算法，有放回地对数据集进行抽样形成K个大小一致的样本集，生成K个决策树；

步骤4：对K个决策树进行并行往复地迭代计算，将计算结果将进行RDD转换；根据K个决策树的计算结果形成基于并行随机森林回归模型的电力负荷预测模型；

步骤5：将待预测日的相关数据输入电力负荷预测模型；

步骤6：得到待预测日的电力负荷预测结果。

进一步的，所述每日电力负荷预测原始数据的属性包括最高温度、最低温度、是否节假日、天气趋势、前一天同期负荷、前一周同期负荷和前一月同期负荷。

进一步的，所述Spark平台，包括一台主服务器作为管理节点driver，四台台式机作为计算节点worker，所述台式机分别于所述主服务器连接。

附图说明

图1为本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法的流程图。

具体实施方式

为了能更好地对本发明的技术方案进行理解，下面通过具体地实施例并结合附图进行详细地说明：

请参阅图1，本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，包括如下步骤：

步骤1：获取每日电力负荷预测原始数据，并对原始数据进行数据清理、数据预处理。负荷采集频率为每15分钟一次，每日电力负荷预测原始数据的属性包括最高温度、最低温度、是否节假日、天气趋势、前一天同期负荷、前一周同期负荷和前一月同期负荷。

步骤2：通过Spark平台将经过预处理的数据进行RDD处理，生成RDD数据集。Spark是一种基于内存运算的分布式集群框架，旨在简化集群上并行程序的编写。集群中，一台高内存的任务调度服务器作为主节点(driver)，若干高磁盘存储的任务计算机器作为从节点(worker)，在计算时，driver接受用户指令和任务，将任务分割给每个worker去执行，worker执行任务时可以从Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)或其它分布式文件系统中提取数据，worker计算后的数据存在内存中，然后返回给driver。driver将各个worker返回的数据经过整合后得到最终结果。Spark继承了MapReduce的线性扩展性和容错性，同时改进了MapReduce必须先Map再Reduce这种严格的执行过程，Spark可以通过有向无环图(DAG)算子将中间结果直接传到作业的下一步而不必像MapReduce存入HDFS中。在本发明中，Spark平台采用一台DELL服务器作为管理节点driver，12核CPU，主频2.60HZ，内存32G，硬盘10T，操作系统为Linux Ubuntu12.04desktop；四台联想普通台式机作为计算节点worker，2核CPU，主频2.94GHz，内存2G，硬盘1T，操作系统为Linux Ubuntu12.04 desktop；集群中各开源软件版本为：Hadoop版本为2.7.3，Spark版本为2.0.1，jdk版本为1.8，Scala版本为2.11.8，python版本为2.7。弹性分布式数据集(resilient distributed datasets,RDD)是Spark最核心的部分，具有如下特点：RDD表示已被分区且能够被并行操作的数据集合，Spark中计算任务的组织、运算、调度、错误恢复都是以RDD为单元进行的；RDD不可被分割，一个RDD数据集只能完整地存在于一个分布式平台的节点中；RDD具有容错机制，父RDD与子RDD之间的依赖关系保存于lineage中，当RDD中出现数据丢失和损坏时，可根据lineage重新计算恢复；Hadoop的MapReduce计算模型中，每一步的运算都伴随着大量的磁盘IO操作，而Spark在对RDD进行运算时通过Cache算子将数据缓存于内存中，数据调用方便，省去了MapReduce中大量的磁盘IO操作。这种在循环中多次访问数据集、交互式的数据分析过程特别适用于机器学习中的大量迭代运算。

步骤3：根据RDD数据集采用Bagging算法，有放回地对数据集进行抽样形成K个大小一致的样本集，生成K个决策树。

步骤4：对K个决策树进行并行往复地迭代计算，将计算结果将进行RDD转换，根据K个决策树的计算结果形成基于并行随机森林回归模型的电力负荷预测模型。

随机森林算法是一种常见的组合(ensemble)算法，组合算法的原理是由训练数据构建一组基分类器(base classifier)，然后对每个基分类器的预测结果进行投票从而决定分类。组合分类器的效果往往比基分类器的分类效果要好，随机森林算法是由多棵决策树(decisiontree)构成的“森林”，它的基分类器是决策树，相比于单个决策树算法，随机森林算法具有分类、预测效果更好，不容易出现过拟合的特点。这是因为随机森林算法的构建具有如下两个特点：

1)随机森林中决策树的训练集构成：采用了通过k次随机抽取等量样本形成大小一致的样本集YT_k(k＝1,2,…)的方法。由于是随机抽取的，对于k棵决策树，每个决策树的训练集都不同，但是因为随机抽取样本形成数据集，所以每棵决策树的训练集在统计学意义下是等价的，最大可能的保留了数据的所有特性。

2)单棵决策树的生长：决策树的生长关键是对“最优分裂属性”的选择，该算法中对每个分裂节点处都随机选择m(m≤M)(M是样本的所有属性)个属性做为待判断分裂属性，将随机性引入树的生长中。

综上，由于这两个特点使得模型的建立不但很好地保留了原始数据集的统计学特性，并且在模型的建立上尽可能的体现出了随机性，从而使模型预测效果好，预防了模型建立的过拟合。

步骤5：将待预测日的相关数据输入电力负荷预测模型。

步骤6：得到待预测日的电力负荷预测结果。

本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法在，结合对Spark分布式计算框架的研究，通过RDD数据集转换，实现了Spark平台下的并行随机森林回归算法，进而提出了基于Spark平台和并行随机森林回归算法的短期电力负荷预测方法，很好地应对了当前电力大数据背景下对负荷预测高精度，海量数据运算的要求。其有如下优势：

1)并行随机森林回归算法(SP-RFR)保留了随机森林算法的原有特性，并且进行了改进，对噪声鲁棒性好，且不易出现过拟合，同时，由于基于Spark平台RDD数据集运算的特性，提高了预测的适应能力和泛化能力。

2)并行随机森林回归负荷预测模型SP-RFR与传统的单机负荷预测模型(如SVM,CART)相比，负荷预测精度更高，误差更小，预测的负荷曲线更接近于实际负荷曲线；负荷预测结果符合“近大远小”的特征，且负荷预测模型在处理大量负荷相关数据时体现出了很强的鲁棒性，受离群数据干扰较弱；在数据量较小时SP-RFR模型运算速度低于单机模型，但随着数据量的增大，分布式集群下的SP-RFR算法的优势很明显，证明在分布式环境下该模型有一定的实用性，可以较好地应用于电力大数据背景下的负荷预测。

本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，其特征在于包括如下步骤：

步骤5：将待预测日的相关数据输入电力负荷预测模型；

步骤6：得到待预测日的电力负荷预测结果。

2.根据权利要求1所述的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，其特征在于，所述每日电力负荷预测原始数据的属性包括最高温度、最低温度、是否节假日、天气趋势、前一天同期负荷、前一周同期负荷和前一月同期负荷。

3.根据权利要求1所述的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法，其特征在于，所述Spark平台，包括一台主服务器作为管理节点driver，四台台式机作为计算节点worker，所述台式机分别于所述主服务器连接。