CN110008626B - 一种基于Spark的短期电力能耗预测方法 - Google Patents
一种基于Spark的短期电力能耗预测方法 Download PDFInfo
- Publication number
- CN110008626B CN110008626B CN201910304495.XA CN201910304495A CN110008626B CN 110008626 B CN110008626 B CN 110008626B CN 201910304495 A CN201910304495 A CN 201910304495A CN 110008626 B CN110008626 B CN 110008626B
- Authority
- CN
- China
- Prior art keywords
- data
- energy consumption
- item
- training
- power energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 13
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000005192 partition Methods 0.000 claims description 9
- 238000002922 simulated annealing Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 5
- 230000010076 replication Effects 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 4
- 238000004134 energy conservation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于Spark的短期电力能耗预测方法。本发明的方法主要为,根据历史电力能耗数据与天气信息,使用STL时间序列分解与支持向量回归对未来短期内电力能耗使用情况进行预测,并利用Spark分布式计算框架加速海量电力能耗数据下的模型训练,从而提升了模型处理海量数据的能力,同时,由于使用STL时间序列分解算法,减少了各分量间的交叉影响,提升了模型的预测精度。
Description
技术领域
本发明涉及一种基于Spark的短期电力能耗预测方法。
背景技术
目前,节能减排已成为我国实现可持续发展的重要举措,然而,作为节能减排技术应用的主要载体,部分高校与园区能耗数据统计粗放,没有科学的能耗监管、预测,无法依靠历史能耗数据辅助管理、完善系统以及制定相应的节能策略。而其原因,正是缺乏有效地对能耗数据监管,在理论上,也缺少对能耗模型的研究。而对电力能耗的分析预测能有效帮助挖掘节能潜力,推进园区的用能优化。
对能耗数据的分析预测,根据预测的期间,可将预测分为短期预测、中期预测和长期预测,分别对应一小时到一周,一周到一年和一年至数十年的预测。短期的预测一般用于保证系统的稳定性,中期的预测一般用于生产计划的优化,长期一般用于辅助投资计划的制定。传统的预测方法无法很好地处理与能耗数据具有高度依赖的非线性关系的信息,如季节、天气等,机器学习算法在这方面具有很大优势。
物联网的发展使得电力能耗数据的采集密度越来越高,采集规模不断扩大,使用更多的电力能耗数据进行训练使模型更具普适性,但也向模型的训练效率效率提出了很高的要求。在海量数据下,单机环境由于面临计算资源缺乏的问题,无法实现高效的训练,为此,需要通过计算机集群实现大规模训练数据的处理。
发明内容
本发明的目的是,针对上述问题,提供一种基于Spark分布式计算框架的电力能耗预测算法,通过STL时间序列分解与支持向量回归在历史能耗数据与天气数据的基础上,完成能耗预测,同时由于采用了Spark分布式计算框架的计算机集群,能有效应对单机环境下计算资源不足的问题。
本发明的技术方案分为训练与预测阶段:
在训练阶段,基于历史能耗数据与天气数据训练模型:
第一步:电力能耗数据(时间信息与电力能耗值)与天气数据的预处理与特征工程处理。由于现实存在的环境噪声、网络等随机因素影响,数据不可避免的会出现数据丢失、错误与噪声干扰等情况,因此需要通过预处理进行缺失数据的补点、离群点处理与降噪处理。特征工程处理使SVR算法能更好地捕获数据间的非线性关系。
第二步:对电力能耗数据进行STL时间序列分解,得到趋势项和周期项。
第三步:对于分解得到的趋势项和周期项,通过模拟退火算法查找对应CascadeSVR模型的最优参数,模型的训练数据为预处理与特征工程处理后的电力能耗数据与天气数据。Cascade SVR模型需预先指定的超参数有惩罚系数C与RBF核参数γ,通过模拟退火算法能快速找到最优的C与γ。
第四步:使用第三步得到的最优参数训练趋势项与周期项的Cascade SVR模型,模型的训练数据为预处理与特征工程处理后的电力能耗数据与天气数据。
第五步:保存趋势项与周期项SVR模型。
在预测阶段,基于待预测时段的时间信息与天气预报数据使用模型进行预测:
第一步:特征数据(时间信息与天气预报数据)的特征工程处理,同训练阶段第一步。
第二步:使用特征数据与训练阶段得到的趋势项与周期项SVR模型,分别对趋势项与周期项进行预测。
第三步:整合趋势项与周期项数据得到总体预测结果。
本发明的有益效果为,本发明的技术方案是通过Spark分布式计算框架完成模型训练,除STL时间序列分解效率很高不进行并行化外,电力能耗数据的预处理、特征工程处理、SVR训练均可通过Spark分布式计算框架实现并行化,提升了模型处理海量数据的能力,同时,由于使用STL时间序列分解算法,减少了各分量间的交叉影响,提升了模型的预测精度。
附图说明
图1为训练与预测阶段流程图
图2为主-从集群下运行于主节点的模拟退火算法对SVR进行参数优化示意图
图3为基于Spark的SVR训练流程图
具体实施方式
下面结合附图详细描述明本发明的技术方案。
如图1所示,为本发明训练与预测阶段流程图,其中除STL时间序列分解效率很高,不进行并行化外,其余步骤均通过Spark分布式计算框架实现并行化。
在模型训练阶段,使用历史电力能耗数据与天气数据
第一步:电力能耗数据预处理与特征工程处理,其中,预处理包括a)缺失数据处理,通过相邻数平均法完成;b)离群点处理,通过标准差法进行判断,之后同缺失数据处理的方式;c)降噪,通过滑动平均法完成。特征数据的特征工程处理包括a)特征编码,对日期数据中离散的变量年、月、星期、小时进行独热码编码;b)无量纲化,使用标准化法进行特征的无量纲化。电力能耗数据的预处理与特征工程处理这两步均可用过调用Spark的API进行计算,其中缺失数据处理与降噪可通过窗口函数完成,离群点判断、特征编码、无量纲化可通过map算子完成。
第二步:电力能耗数据的STL时间序列分解,本发明采用乘法模型STL时间序列分解算法将电力能耗数据分解为趋势项、周期项、与余项,其中,趋势项是低频变化部分,是数据的长期特征。周期项则是由季节性干扰产生的高频部分,是在较短时间内表现出的周期性特征。余项则是随机部分。趋势项与周期项包含了电力能耗数据中的绝大部分信息,余项一般非常小且表现出很强的随机性,予以舍弃。STL时间序列分解在单机环境下进行。
第三步:模拟退火算法选择Cascade SVR的最优超参数,由于网格搜索对SVR算法超参数优化的效率过低,因此引入模拟退火算法进行SVR的最优超参数选择,SVR的待优化参数是惩罚系数C与RBF核参数γ,在划分好各自的解空间和步长后,可以得到参数组合的解空间xi,以均方误差作为评价标准,通过模拟退火算法求出解空间xi中均方误差最低的参数组合。Cascade SVR实现在主-从模式下的Spark集群,因此,模拟退火算法将运行于主节点,同时,为了保证各节点SVR对非支持向量过滤的评价标准是一致的,则各节点的SVR将会选择同样的参数。基于以上两点,可知,对基于Spark的并行SVR进行参数优化,模拟退火算法本身在Master节点运行即可,这同样也符合Master节点作为控制节点的初衷,如图2。
第四步:基于最优参数进行Cascade SVR训练,如图3所示,在Spark分布式计算集群实现Cascade SVR的训练,将训练集切分后并行训练,并层层合并的SVR方式可以自然地使用Spark的编程模型描述,输入的训练集经过切分后,分为数个独立的分区(Paritition),使用MapPartition函数可以对各分区的子训练集进行分布式的SVM训练,各节点在训练结束后将会得到各自的支持向量,之后通过Repartition函数可以直接对各节点得到的支持向量进行整合并重新分区,作为下一层各节点的输入。初始训练集的分区数可以根据实际使用的集群情况而确定,一般一个节点负责一个分区的数据。最后,根据停机条件判定是否反馈全局支持向量或输出模型,若要反馈,则可通过广播变量(broadcast)将全局支持向量广播到各节点,并重新划分训练集中的非支持向量进行第二轮训练。
第五步:保存SVR模型。
在预测阶段,基于待预测时段的时间信息与天气预报数据使用模型进行预测,此处,还需在Spark分布式计算框架上实现的是模型的整合,通过使用Spark RDD的join操作合并两组预测数据后,通过map算子另每行的两项数据相乘即可。
Claims (1)
1.一种基于Spark的短期电力能耗预测方法,其特征在于,包括:
S1、基于Spark分布式计算框架,对电力能耗数据与天气数据进行预处理与特征工程处理;所述预处理包括进行缺失数据的补点、离群点处理与降噪,所述特征工程处理是将数据进行标准化,便于更好地捕获数据间的非线性关系;
S2、对预处理后的电力能耗数据进行STL时间序列分解,得到趋势项和周期项;具体为采用乘法模型STL时间序列分解算法将电力能耗数据分解为趋势项、周期项和余项,其中,趋势项是低频部分,周期项是高频部分,余项则是随机部分,将余项舍弃;
基于Spark分布式计算框架,进行以下步骤:
S3、通过模拟退火算法,根据得到的趋势项和周期项查找对应Cascade SVR模型的最优超参数;
S4、根据得到的最优参数训练趋势项与周期项的Cascade SVR模型;具体方法为:
将输入的训练集经过切分后,分为数个独立的分区,使用MapPartition函数对各分区的子训练集进行分布式的SVM训练,各节点在训练结束后将会得到各自的支持向量,之后通过Repartition函数直接对各节点得到的支持向量进行整合并重新分区,作为下一层各节点的输入;
初始训练集的分区数根据实际使用的集群情况而确定,定义一个节点负责一个分区的数据;
根据预设的停机条件判定是否反馈全局支持向量或输出模型,若要反馈,则通过广播变量将全局支持向量广播到各节点,并重新划分训练集中的非支持向量进行下一轮训练;
S5、将待预测数据进行如步骤S1所述的特征工程处理,获得预测特征数据;
S6、使用步骤S4获得模型,对步骤S5获得的预测特征数据,分别对趋势项与周期项进行预测;
S7、整合趋势项与周期项预测数据得到预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304495.XA CN110008626B (zh) | 2019-04-16 | 2019-04-16 | 一种基于Spark的短期电力能耗预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304495.XA CN110008626B (zh) | 2019-04-16 | 2019-04-16 | 一种基于Spark的短期电力能耗预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110008626A CN110008626A (zh) | 2019-07-12 |
CN110008626B true CN110008626B (zh) | 2022-06-24 |
Family
ID=67172232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910304495.XA Expired - Fee Related CN110008626B (zh) | 2019-04-16 | 2019-04-16 | 一种基于Spark的短期电力能耗预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008626B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079935B (zh) * | 2019-10-16 | 2022-10-18 | 重庆邮电大学 | 一种spark下的机器学习快速大规模样本签名方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020791B2 (en) * | 2011-12-06 | 2015-04-28 | Toyota Motor Engineering & Maunfacturing North America, Inc. | Process for designing and manufacturing an ignition system for an internal combustion engine |
CN105608512A (zh) * | 2016-03-24 | 2016-05-25 | 东南大学 | 一种短期负荷预测方法 |
CN108230441B (zh) * | 2018-01-09 | 2021-09-21 | 华南理工大学 | 一种构建烟支三维模型及其流道优化的方法 |
CN108256075A (zh) * | 2018-01-17 | 2018-07-06 | 深圳市和拓创新科技有限公司 | 一种基于非侵入式智能监测分析用户用电数据的技术 |
CN108879656B (zh) * | 2018-06-09 | 2021-08-10 | 宝鸡文理学院 | 一种基于子抽样svr集成的短期电力负荷预测方法 |
-
2019
- 2019-04-16 CN CN201910304495.XA patent/CN110008626B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN110008626A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111815035B (zh) | 一种融合形态聚类及TCN-Attention的短期负荷预测方法 | |
CN110619389A (zh) | 一种基于lstm-rnn的冷热电联供系统负荷预测方法及系统 | |
CN114154558B (zh) | 基于图神经网络的分布式能源发电负荷预测系统及方法 | |
CN113344192B (zh) | 企业级电机系统节能优化自动控制方法及系统 | |
CN114428803B (zh) | 空压站运行优化方法、系统、存储介质及终端 | |
CN114819374A (zh) | 区域新能源超短期功率预测方法及系统 | |
CN113591368A (zh) | 一种综合能源系统多能负荷预测方法及系统 | |
CN110008626B (zh) | 一种基于Spark的短期电力能耗预测方法 | |
CN113052389A (zh) | 基于多任务的分布式光伏电站超短期功率预测方法及系统 | |
CN109300058B (zh) | 一种梯级水电站群优化调度两阶段直接搜索降维方法 | |
CN114091776A (zh) | 一种基于K-means的多分支AGCNN短期电力负荷预测方法 | |
CN109980695B (zh) | 一种配用电系统的分布式能源和用户行为预测方法 | |
Liang et al. | Hybrid algorithm based on genetic simulated annealing algorithm for complex multiproduct scheduling problem with zero-wait constraint | |
CN117113054A (zh) | 一种基于图神经网络和Transformer的多元时间序列预测方法 | |
CN111799793A (zh) | 一种源网荷协同的输电网规划方法与系统 | |
CN101930566A (zh) | 基于平行系统的水利实验模拟系统及实验模拟方法 | |
Liao et al. | Multicore parallel dynamic programming algorithm for short-term hydro-unit load dispatching of huge hydropower stations serving multiple power grids | |
CN111985692B (zh) | 一种基于ceemdan的用电负荷预测方法 | |
Zhang et al. | Short-term power load forecasting model design based on EMD-PSO-GRU | |
CN101976840A (zh) | 基于邻接矩阵准平方的电力系统网络拓扑分析方法 | |
Xu et al. | NWP feature selection and GCN-based ultra-short-term wind farm cluster power forecasting method | |
CN112766609A (zh) | 一种基于云计算的用电量预测方法 | |
CN112200366A (zh) | 负荷预测方法、装置、电子设备及可读存储介质 | |
CN114513012A (zh) | 一种考虑时空相关性的新能源出力场景构建方法及系统 | |
CN112749792B (zh) | 一种基于bp算法的风速预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220624 |
|
CF01 | Termination of patent right due to non-payment of annual fee |