CN109190855A - 一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法 - Google Patents
一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法 Download PDFInfo
- Publication number
- CN109190855A CN109190855A CN201811272954.2A CN201811272954A CN109190855A CN 109190855 A CN109190855 A CN 109190855A CN 201811272954 A CN201811272954 A CN 201811272954A CN 109190855 A CN109190855 A CN 109190855A
- Authority
- CN
- China
- Prior art keywords
- data
- load
- random forest
- forest regression
- rdd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 33
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000003066 decision tree Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005201 scrubbing Methods 0.000 claims description 3
- 238000013277 forecasting method Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,结合Spark分布式计算平台,通过RDD数据集转换,实现了Spark平台下的并行随机森林回归算法,进而提出了基于Spark平台和并行随机森林回归算法的短期电力负荷预测方法,很好地应对了当前电力大数据背景下对负荷预测高精度,海量数据运算的要求。
Description
技术领域
本发明涉及一种用于智能电网领域的基于Spark平台和并行随机森林回归算法的电力负荷预测方法。
背景技术
伴随着经济的稳步发展和社会的不断进步,能源作为经济社会的重要物质基础,也经历着不断的革新。构建以智能电网为基础,特高压电网为关键,清洁能源为根本的全球能源互联网,是实现人类可持续发展的必由之路,具有巨大的经济、社会、环境综合效益。而电力大数据的研究是智能电网技术所包含的一个重要分支,通过对SCADA系统、EMS系统采集和存储的数据进行深度挖掘及分析,可以对电力系统的调度控制提供决策与帮助。长久以来,电力负荷预测一直是电力工作者们最为关注的问题之一,如今在电力大数据环境下,如何从智能电网庞大的业务流、信息流、数据流中提取负荷预测相关数据,并对这些数据进行处理,使得负荷预测更具准确性和实时性,成为当前研究的重点课题
发明内容
本发明的目的是为了克服现有技术的不足,提供一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,引入Spark分布式运算平台,通过RDD(resilientdistributeddatasets,RDD)数据集转换,实现随机森林算法模型,以实现对于电力负荷的预测。
实现上述目的的一种技术方案是:一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,包括如下步骤:
步骤1:获取每日电力负荷预测原始数据,并对原始数据进行数据清理、数据预处理;
步骤2:通过Spark平台将经过预处理的数据进行RDD处理,生成RDD数据集;
步骤3:根据RDD数据集采用Bagging算法,有放回地对数据集进行抽样形成K个大小一致的样本集,生成K个决策树;
步骤4:对K个决策树进行并行往复地迭代计算,将计算结果将进行RDD转换;根据K个决策树的计算结果形成基于并行随机森林回归模型的电力负荷预测模型;
步骤5:将待预测日的相关数据输入电力负荷预测模型;
步骤6:得到待预测日的电力负荷预测结果。
进一步的,所述每日电力负荷预测原始数据的属性包括最高温度、最低温度、是否节假日、天气趋势、前一天同期负荷、前一周同期负荷和前一月同期负荷。
进一步的,所述Spark平台,包括一台主服务器作为管理节点driver,四台台式机作为计算节点worker,所述台式机分别于所述主服务器连接。
本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,结合Spark分布式计算平台,通过RDD数据集转换,实现了Spark平台下的并行随机森林回归算法,进而提出了基于Spark平台和并行随机森林回归算法的短期电力负荷预测方法,很好地应对了当前电力大数据背景下对负荷预测高精度,海量数据运算的要求。
附图说明
图1为本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法的流程图。
具体实施方式
为了能更好地对本发明的技术方案进行理解,下面通过具体地实施例并结合附图进行详细地说明:
请参阅图1,本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,包括如下步骤:
步骤1:获取每日电力负荷预测原始数据,并对原始数据进行数据清理、数据预处理。负荷采集频率为每15分钟一次,每日电力负荷预测原始数据的属性包括最高温度、最低温度、是否节假日、天气趋势、前一天同期负荷、前一周同期负荷和前一月同期负荷。
步骤2:通过Spark平台将经过预处理的数据进行RDD处理,生成RDD数据集。Spark是一种基于内存运算的分布式集群框架,旨在简化集群上并行程序的编写。集群中,一台高内存的任务调度服务器作为主节点(driver),若干高磁盘存储的任务计算机器作为从节点(worker),在计算时,driver接受用户指令和任务,将任务分割给每个worker去执行,worker执行任务时可以从Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)或其它分布式文件系统中提取数据,worker计算后的数据存在内存中,然后返回给driver。driver将各个worker返回的数据经过整合后得到最终结果。Spark继承了MapReduce的线性扩展性和容错性,同时改进了MapReduce必须先Map再Reduce这种严格的执行过程,Spark可以通过有向无环图(DAG)算子将中间结果直接传到作业的下一步而不必像MapReduce存入HDFS中。在本发明中,Spark平台采用一台DELL服务器作为管理节点driver,12核CPU,主频2.60HZ,内存32G,硬盘10T,操作系统为Linux Ubuntu12.04desktop;四台联想普通台式机作为计算节点worker,2核CPU,主频2.94GHz,内存2G,硬盘1T,操作系统为Linux Ubuntu12.04 desktop;集群中各开源软件版本为:Hadoop版本为2.7.3,Spark版本为2.0.1,jdk版本为1.8,Scala版本为2.11.8,python版本为2.7。弹性分布式数据集(resilient distributed datasets,RDD)是Spark最核心的部分,具有如下特点:RDD表示已被分区且能够被并行操作的数据集合,Spark中计算任务的组织、运算、调度、错误恢复都是以RDD为单元进行的;RDD不可被分割,一个RDD数据集只能完整地存在于一个分布式平台的节点中;RDD具有容错机制,父RDD与子RDD之间的依赖关系保存于lineage中,当RDD中出现数据丢失和损坏时,可根据lineage重新计算恢复;Hadoop的MapReduce计算模型中,每一步的运算都伴随着大量的磁盘IO操作,而Spark在对RDD进行运算时通过Cache算子将数据缓存于内存中,数据调用方便,省去了MapReduce中大量的磁盘IO操作。这种在循环中多次访问数据集、交互式的数据分析过程特别适用于机器学习中的大量迭代运算。
步骤3:根据RDD数据集采用Bagging算法,有放回地对数据集进行抽样形成K个大小一致的样本集,生成K个决策树。
步骤4:对K个决策树进行并行往复地迭代计算,将计算结果将进行RDD转换,根据K个决策树的计算结果形成基于并行随机森林回归模型的电力负荷预测模型。
随机森林算法是一种常见的组合(ensemble)算法,组合算法的原理是由训练数据构建一组基分类器(base classifier),然后对每个基分类器的预测结果进行投票从而决定分类。组合分类器的效果往往比基分类器的分类效果要好,随机森林算法是由多棵决策树(decisiontree)构成的“森林”,它的基分类器是决策树,相比于单个决策树算法,随机森林算法具有分类、预测效果更好,不容易出现过拟合的特点。这是因为随机森林算法的构建具有如下两个特点:
1)随机森林中决策树的训练集构成:采用了通过k次随机抽取等量样本形成大小一致的样本集YTk(k=1,2,…)的方法。由于是随机抽取的,对于k棵决策树,每个决策树的训练集都不同,但是因为随机抽取样本形成数据集,所以每棵决策树的训练集在统计学意义下是等价的,最大可能的保留了数据的所有特性。
2)单棵决策树的生长:决策树的生长关键是对“最优分裂属性”的选择,该算法中对每个分裂节点处都随机选择m(m≤M)(M是样本的所有属性)个属性做为待判断分裂属性,将随机性引入树的生长中。
综上,由于这两个特点使得模型的建立不但很好地保留了原始数据集的统计学特性,并且在模型的建立上尽可能的体现出了随机性,从而使模型预测效果好,预防了模型建立的过拟合。
步骤5:将待预测日的相关数据输入电力负荷预测模型。
步骤6:得到待预测日的电力负荷预测结果。
本发明的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法在,结合对Spark分布式计算框架的研究,通过RDD数据集转换,实现了Spark平台下的并行随机森林回归算法,进而提出了基于Spark平台和并行随机森林回归算法的短期电力负荷预测方法,很好地应对了当前电力大数据背景下对负荷预测高精度,海量数据运算的要求。其有如下优势:
1)并行随机森林回归算法(SP-RFR)保留了随机森林算法的原有特性,并且进行了改进,对噪声鲁棒性好,且不易出现过拟合,同时,由于基于Spark平台RDD数据集运算的特性,提高了预测的适应能力和泛化能力。
2)并行随机森林回归负荷预测模型SP-RFR与传统的单机负荷预测模型(如SVM,CART)相比,负荷预测精度更高,误差更小,预测的负荷曲线更接近于实际负荷曲线;负荷预测结果符合“近大远小”的特征,且负荷预测模型在处理大量负荷相关数据时体现出了很强的鲁棒性,受离群数据干扰较弱;在数据量较小时SP-RFR模型运算速度低于单机模型,但随着数据量的增大,分布式集群下的SP-RFR算法的优势很明显,证明在分布式环境下该模型有一定的实用性,可以较好地应用于电力大数据背景下的负荷预测。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (3)
1.一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,其特征在于包括如下步骤:
步骤1:获取每日电力负荷预测原始数据,并对原始数据进行数据清理、数据预处理;
步骤2:通过Spark平台将经过预处理的数据进行RDD处理,生成RDD数据集;
步骤3:根据RDD数据集采用Bagging算法,有放回地对数据集进行抽样形成K个大小一致的样本集,生成K个决策树;
步骤4:对K个决策树进行并行往复地迭代计算,将计算结果将进行RDD转换;根据K个决策树的计算结果形成基于并行随机森林回归模型的电力负荷预测模型;
步骤5:将待预测日的相关数据输入电力负荷预测模型;
步骤6:得到待预测日的电力负荷预测结果。
2.根据权利要求1所述的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,其特征在于,所述每日电力负荷预测原始数据的属性包括最高温度、最低温度、是否节假日、天气趋势、前一天同期负荷、前一周同期负荷和前一月同期负荷。
3.根据权利要求1所述的一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法,其特征在于,所述Spark平台,包括一台主服务器作为管理节点driver,四台台式机作为计算节点worker,所述台式机分别于所述主服务器连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811272954.2A CN109190855A (zh) | 2018-10-26 | 2018-10-26 | 一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811272954.2A CN109190855A (zh) | 2018-10-26 | 2018-10-26 | 一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109190855A true CN109190855A (zh) | 2019-01-11 |
Family
ID=64944406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811272954.2A Pending CN109190855A (zh) | 2018-10-26 | 2018-10-26 | 一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190855A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516884A (zh) * | 2019-08-30 | 2019-11-29 | 贵州大学 | 一种基于大数据平台的短期负荷预测方法 |
CN111178587A (zh) * | 2019-12-06 | 2020-05-19 | 广东工业大学 | 一种基于spark框架的短期电力负荷快速预测方法 |
CN113125960A (zh) * | 2019-12-31 | 2021-07-16 | 河北工业大学 | 一种基于随机森林模型的车载锂离子电池荷电状态预测方法 |
CN113869552A (zh) * | 2021-08-26 | 2021-12-31 | 国网河北省电力有限公司邢台供电分公司 | 基于蝙蝠算法优化的随机森林模型预测用电需求的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678398A (zh) * | 2015-12-24 | 2016-06-15 | 国家电网公司 | 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统 |
CN106897109A (zh) * | 2017-02-13 | 2017-06-27 | 云南大学 | 基于随机森林回归的虚拟机性能预测方法 |
-
2018
- 2018-10-26 CN CN201811272954.2A patent/CN109190855A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678398A (zh) * | 2015-12-24 | 2016-06-15 | 国家电网公司 | 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统 |
CN106897109A (zh) * | 2017-02-13 | 2017-06-27 | 云南大学 | 基于随机森林回归的虚拟机性能预测方法 |
Non-Patent Citations (1)
Title |
---|
刘琪琛: "基于Spark平台和并行随机森林回归算法的电力负荷预测方法", 《电力建设》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516884A (zh) * | 2019-08-30 | 2019-11-29 | 贵州大学 | 一种基于大数据平台的短期负荷预测方法 |
CN111178587A (zh) * | 2019-12-06 | 2020-05-19 | 广东工业大学 | 一种基于spark框架的短期电力负荷快速预测方法 |
CN111178587B (zh) * | 2019-12-06 | 2022-11-22 | 广东工业大学 | 一种基于spark框架的短期电力负荷快速预测方法 |
CN113125960A (zh) * | 2019-12-31 | 2021-07-16 | 河北工业大学 | 一种基于随机森林模型的车载锂离子电池荷电状态预测方法 |
CN113869552A (zh) * | 2021-08-26 | 2021-12-31 | 国网河北省电力有限公司邢台供电分公司 | 基于蝙蝠算法优化的随机森林模型预测用电需求的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190855A (zh) | 一种基于Spark平台和并行随机森林回归算法的电力负荷预测方法 | |
Qiu et al. | Yafim: a parallel frequent itemset mining algorithm with spark | |
CN107193967A (zh) | 一种多源异构行业领域大数据处理全链路解决方案 | |
Pandey et al. | Prominence of mapreduce in big data processing | |
CN110502509B (zh) | 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置 | |
CN102222092A (zh) | 一种MapReduce平台上的海量高维数据聚类方法 | |
CN110119421A (zh) | 一种基于Spark流式分类的电力窃电用户识别方法 | |
CN103345514A (zh) | 大数据环境下的流式数据处理方法 | |
CN102737126A (zh) | 云计算环境下的分类规则挖掘方法 | |
Ismail et al. | Big Data prediction framework for weather Temperature based on MapReduce algorithm | |
US20170262773A1 (en) | Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data | |
Vu et al. | Distributed adaptive model rules for mining big data streams | |
Khezr et al. | MapReduce and its application in optimization algorithms: a comprehensive study | |
Li et al. | Learning to reformulate for linear programming | |
CN107590225A (zh) | 一种基于分布式数据挖掘算法的可视化管理系统 | |
CN110134646A (zh) | 知识平台服务数据存储与集成方法及系统 | |
CN103106321A (zh) | 一种基于Apriori方法的气象灾害智能感知方法 | |
CN103870342B (zh) | 云计算环境中的基于结点属性函数的任务核值计算方法 | |
Lakshmi et al. | Machine learning approaches on map reduce for Big Data analytics | |
Atzori et al. | Gdup: De-duplication of scholarly communication big graphs | |
CN107871013A (zh) | 一种海量数据高效抽取方法 | |
Cheng et al. | A survey of incremental high-utility pattern mining based on storage structure | |
Wang et al. | Research on Clustream Algorithm Based on Spark | |
Fang et al. | MLN4KB: an efficient markov logic network engine for large-scale knowledge bases and structured logic rules | |
Xiong et al. | Grey correlation-oriented random forest and particle swarm optimization algorithm for power load forecasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190111 |
|
WD01 | Invention patent application deemed withdrawn after publication |