CN115293400A - 一种电力系统负荷预测方法及系统 - Google Patents
一种电力系统负荷预测方法及系统 Download PDFInfo
- Publication number
- CN115293400A CN115293400A CN202210718685.8A CN202210718685A CN115293400A CN 115293400 A CN115293400 A CN 115293400A CN 202210718685 A CN202210718685 A CN 202210718685A CN 115293400 A CN115293400 A CN 115293400A
- Authority
- CN
- China
- Prior art keywords
- cnn
- load
- lstm
- parameters
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 96
- 238000012549 training Methods 0.000 claims abstract description 66
- 230000002068 genetic effect Effects 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 63
- 239000013598 vector Substances 0.000 claims description 29
- 210000002569 neuron Anatomy 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 21
- 230000005611 electricity Effects 0.000 claims description 18
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000009396 hybridization Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 13
- 230000035772 mutation Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000010076 replication Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims 1
- 230000007774 longterm Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 description 14
- 230000002159 abnormal effect Effects 0.000 description 12
- 108090000623 proteins and genes Proteins 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000415 inactivating effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Physiology (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Power Engineering (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电力系统负荷预测方法和系统。本发明预测方法包括:以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;将滑动采样后的数据集划分为训练集和测试集,构成GA‑CNN‑LSTM模型的输入;构建GA‑CNN‑LSTM模型;构建基于GA遗传算法的调参策略;将训练集输入GA‑CNN‑LSTM模型,在GPU上进行模型调参,获得最优参数;将训练集输入GA‑CNN‑LSTM模型,使用最优参数,在GPU上进行模型训练;将训练集输入GA‑CNN‑LSTM模型,在测试集上进行预测,获得最终预测结果;使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。本发明能得到更可靠的数据集划分方式及能稳定、精确地挖掘电力负荷序列长期依赖关系,有效解决电力负荷预测技术难题。
Description
技术领域
本发明涉及电力系统负荷预测技术领域,尤其是一种基于多因素聚类算法和GA-CNN-LSTM混合模型的电力系统负荷预测方法及系统。
背景技术
电力系统负荷预测是一项基础性的研究工作,它具有以下几点意义:
1.电力系统负荷预测研究可协助政府和供电公司发挥电能源的基础性调节作用,提升电力安全保供能力,完善储销体系。
2.电力系统负荷预测研究可指导电力公司优化电网调度、优化电网格局、引导用户侧参与市场化需求侧响应,推动源网荷储协同发展。
3.电力系统负荷预测研究是响应国家“能源技术革命”号召,推动能源技术与现代信息技术深度融合的一种体现。
电力系统负荷预测是利用变压器台区电力负荷数据、负荷特性数据并结合多种相关影响因子,通过一系列模型和算法,输出负荷预测数据。电力负荷预测又分为实时负荷预测、短期负荷预测、长期负荷预测,其中实时负荷预测对电网公司的生产计划和能源调度起到重要的指导作用。
国内外许多专家、学者在电力系统负荷预测领域做了大量的研究,提出了许多负荷预测的算法和模型。
(1)基于时间序列预测的自回归模型AR、自回归移动平均模型ARMA、差分整合移动平均自回归模型ARIMA等;这类模型算法简单、运行效率高,适用于平稳的时间序列,而无法精确拟合呈现出明显周期性、季节性、记忆性、惯性、非线性特征、非平稳的电力负荷数据。
(2)基于统计学习方法的模型,如支持向量机SVM等,SVM算法能将非线性数据集在高维空间中转化为线性约束条件下的凸二次规划问题,很好地解决了学习非线性数据的难题,但随着电力数据的快速增长,SVR算法在使用高斯核函数时拟合速度过慢,不适合工业应用。
(3)基于树模型,如决策树、随机森林、Adaboost模型、XGboost模型、Lightgbm模型等。这些树模型支持在分布式环境上运行,能根据信息增益寻找合适的特征分割点时、运算速度较快且可解释性强。但仍然无法捕捉到时间序列数据中一些非线性的规律。
(4)基于循环神经网络,如长短时记忆模型LSTM和GRU模型能有效捕获时间序列的记忆性、惯性、周期性规律,与电力负荷序列“近大远小”的序列特性相吻合,但是如果不对原始特征进行优化和增强,LSTM网络容易产生梯度爆炸和梯度消失的问题,其对时间序列预测的精度仍然一定具有局限性。
(5)CNN卷积神经网络能从多维度多层次捕获数据的特征和细节,但由于CNN原生适配于图像处理任务,单纯使用CNN网络训练时间序列,往往不能发挥出CNN模型强大的特征提取能力,反而会因为把时序数据完全当做图像来处理,形成了额外的噪声,增加了训练的误差。
经检索,部分研究者在处理负荷序列前,会对原始数据集进行按地域或按行业的分类。虽然,较没有分类以前,预测的精度得到了一定的提高;但是,这种分类方式没有考虑到了时序数据本身的数字特征,如最高负荷、最低负荷、峰谷差、负荷率、平均增长速率、均值、标准差、变异系数等;因而,通过对原始数据集划分方式的改进来提高预测精度仍然很值得研究。
发明内容
本发明所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种基于多因素聚类算法和GA-CNN-LSTM混合模型的电力系统负荷预测方法及系统,以得到更可靠的数据集划分方式及能稳定、精确地挖掘电力负荷序列长期依赖关系,有效解决电力负荷预测技术难题。
为此,本发明采用的一种技术方案为:一种电力系统负荷预测方法,其包括:
步骤S1、采集构成用电企业用电负荷数据集的负荷数据和相关特征;
步骤S2、对企业用电数据集进行数据预处理及特征工程处理;
步骤S3、提取各用电企业负荷曲线的数字特征,构成用电企业负荷曲线数字特征集合;
步骤S4、使用Kmeans算法对数字特征集合以用电企业为单位进行聚类;
步骤S5、将聚类后的数据集以聚类类别为单位进行归一化;
步骤S6、以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;
步骤S7、将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;
步骤S8、构建GA-CNN-LSTM模型的编码层;
步骤S9、构建GA-CNN-LSTM模型的解码层;
步骤S10、构建GA-CNN-LSTM模型的训练层;
步骤S11、构建基于GA遗传算法的调参策略;
步骤S12、将训练集输入GA-CNN-LSTM模型,在GPU上进行模型调参,获得最优参数;
步骤S13、将训练集输入GA-CNN-LSTM模型,使用步骤S12获得的最优参数,在GPU上进行模型训练;
步骤S14、将训练集输入GA-CNN-LSTM模型,在测试集上进行预测,获得最终预测结果;
步骤S15、使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。
进一步地,步骤S1包括:
步骤S1-1:以用电企业为单位采集变压器台区电力负荷数据;
步骤S1-2:以用电企业为单位采集天气相关特征;
步骤S1-3:以用电企业为单位采集时间相关特征;
步骤S1-4:拼接步骤S1-1、S1-2和S1-3的特征,构成企业用电负荷数据集。
更进一步地,所述企业用电负荷数据集的负荷数据和相关特征表示为:
D={D1,D2,…,Di,…Dm},
其中,Di为第i家用电企业的负荷矩阵,m为用电企业总数;
进一步地,步骤S2包括:
步骤S-2-1:缺省值填补,其方法为:
对于第i家用电企业第d天t时刻的缺损值,使用如下方法做填补:如果上一天同时刻的负荷值存在,那么使用代替缺损值;如果同一天上一时刻的负荷值存在,那么使用代替缺损值;如果下一天同时刻的负荷值存在,那么使用代替缺损值;如果同一天下一时刻的负荷值存在,那么使用代替缺损值;否则,使用该用电企业当日的负荷均值代替缺损值;
步骤S-2-2:处理异常数据,其方法为:
S-2-2-1,对于数据文件错误的企业数据集,直接删除,同时输出异常数据报告;
S-2-2-2,对于每个时刻的负荷值均为0的异常数据集,直接删除,同时输出异常数据报告;
S-2-2-3,对于电力负荷值为特殊字符的数据集,直接删除,同时输出异常数据报告;
S-2-2-4,对于数据文件中企业名称和行业不匹配的企业数据集,核对数据文件后重新下载;
S-2-2-5,对于重复的用电企业数据集,只保留一家用电企业数据集,同时输出异常数据报告。
进一步地,步骤S3包括:
步骤S3-1、以用电企业为单位提取电力负荷分布特性相关的数字特征:最高负荷、最低负荷、峰谷差、负荷率,其计算公式如下:
谷峰差yL=ymax-ymin,
式中,yt表示t时刻的负荷,n表示负荷序列的长度;
步骤S3-2、以用电企业为单位提取序列增长速率相关的数字特征:平均增长速率,其计算公式如下:
式中,y1、yn分别表示t为1和n时的负荷;
步骤S3-3、以用电企业为单位提取序列特征参数相关的数字特征:均值、标准差和变异系数,其计算公式为:
步骤S3-4、以用电企业为单位,拼接步骤S3-1、S3-2和S3-3的结果,构成用电企业负荷曲线数字特征集合,其计算公式如下:
进一步地,所述步骤S4-1、S4-2和S4-3中所述的Kmeans算法,包含以下步骤:
给定聚类中心个数为K;
步骤S-Kmeans-1:从数据集中随机选取K个聚类中心:
{C1,C2,…,CK}和K个对应的聚类中心向量{Γ1,Γ2,…,ΓK},
步骤S-Kmeans-5:重复步骤S-Kmeans-2至S-Kmeans-4,直至聚类中心的位置不再变换,或重复迭代次数满1000次;
相应地,把用电企业数据集划分为K个类别:
最终得到K个聚类类别C={C1,C2,…,Ci,…Ck}和K个对应的聚类中心向量{Γ1,Γ2,…,ΓK}。
更进一步地,所述步骤S4-1、固定聚类中心向量初始化参数,以轮廓系数与1的欧氏距离为优化目标,执行100次Kmeans算法选取最优聚类类别个数;所述轮廓系数计算步骤为:
步骤S-silhouette-1:
计算样本i到所属簇内其他样本点的平均欧氏距离a(i),
A表示样本点i、j所属的聚类簇;
步骤S-silhouette-2:
找到一个不含样本i的聚类簇,使得样本i到该聚类簇中各样本点的平均欧氏距离最小,取该平均欧氏距离,记为b(i),
C表示样本点j所属的聚类簇;
步骤S-silhouette-3:计算样本i的轮廓系数s(i),
步骤S-silhouette-4:计算总体的轮廓系数S:
所述的Kmeans算法,其优化目标表达式为:
其中,i=1,2,…,m;m为用电企业总数;
C={C1,C2,…,Cj,…,CK}为聚类簇的划分;
j=1,2,…,K;
Γj为簇Cj对应的聚类中心向量;
进一步地,所述步骤S4-1、固定聚类中心向量初始化参数,以轮廓系数与1的欧氏距离为优化目标,执行100次Kmeans算法选取最优聚类类别个数;其表达式为:
其中,
Kn为执行第n次Kmeans算法时设定的聚类个数;Θ1表示执行第1次Kmeans算法时构成初始聚类中心向量的参数;Bfeature表示用电企业的负荷曲线数字特征向量;表示执行第n次Kmeans算法时,所得到的聚类类别为j的用电企业的负荷信息矩阵;Sn表示执行第n次Kmeans算法时,得到的轮廓系数值;K′为输出的最优的聚类类别个数。
所述步骤S4-2、根据S4-1得到的最优聚类类别个数,以轮廓系数与1的欧氏距离为优化目标,执行100次Kmeans算法选取最优的聚类中心向量初始化参数;其表达式为:
所述步骤S4-3、根据S4-1、S4-2得到的最优聚类类别个数和最优的聚类中心向量初始化参数,执行1次Kmeans算法,得到最优的按聚类类别划分的用电企业负荷矩阵;其表达式为:
进一步地,所述步骤S5、将聚类后的数据集以聚类类别为单位进行归一化;所述归一化算法计算公式为:
其中,i=1,2,3…,K;
函数f的作用是筛选出所有需要归一化的特征。
进一步地,所述步骤S6、以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;所述时间序列滑动采样包含如下步骤:
步骤S-6-1:将输入集合展平为一维时序向量集;
步骤S-6-2:采样完成的数据集表示为:
Loadi=(Datai,Lablei)
|Loadi|=|Ei|-Dayx-Dayy+1;
其中,
|Ei|表示采样前的数据集的大小;Loadi表示聚类类别Ci对应的采样后的负荷数据集;|Loadi|表示聚类类别Ci对应的采样后的负荷数据集的大小;Datai为输入变量集,Lablei为输出变量集;Dayx为输入变量所含电力负荷数据的时点数;Dayy为输出变量所含电力负荷数据的时点数。
进一步地,所述步骤S7、将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;所述数据集划分包含如下步骤:
步骤S-7-1:对每个聚类的数据集,随机重排样本的顺序;
其中每个样本排列在每个位置的概率均相同;
步骤S-7-2:对随机重排后的序列,取前90%的样本构成训练集,取后10%的样本构成测试集。
进一步地,所述步骤S8、构建GA-CNN-LSTM模型的编码层,其数据维度为:
输入:encode_input∈R(batchsize,FeatureSize,1),
输出:encode_output∈R(batchsize,FeatureSize,n_featuremap),
其中,encode_input表示编码层输入,
n_featuremap为特征图的个数。
进一步地,所述步骤S8-1、封装GA-CNN-LSTM模型的输入数据;包括以下步骤:
步骤S8-1-1:按批次,以聚类类型为单位,从步骤S-6-2的采样输出结果中取样本数据,所述批大小为32;即,每一次从聚类类型为i的数据集
Loadi=(Datai,Lablei)中顺序取出32组样本数据;
所取出的每组样本数据由输入和标签构成,表示为:
Groupd=(GroupX,GroupY)d;
d=1,2,…,batchsize;
FeatureSize为特征个数,由1个电力负荷值和若干其余特征组成;
d表示批次;batchsize表示批大小;
步骤S8-1-2:对步骤S8-1-1所述的每组样本数据,构建GA-CNN-LSTM网络的输入样本X,其构建方法为:
从GroupX中取Dayx条用电负荷值,构成样本的前Dayx个特征;
从GroupY中取出第1个数据点时的其他特征(除用电负荷值以外),构成样本X的其余特征;
步骤S8-1-3:对步骤S8-1-1所述的每组样本数据,构建GA-CNN-LSTM网络的一组标签Y,其构建方法为:
从GroupY中取Dayy条用电负荷值,构成Y标签;
最终,封装成GA-CNN-LSTM模型的一个输入数据为:
encode_input∈R(batchsize,FeatureSize,1),R表示实数空间。
所述步骤S8-2、设置CNN卷积神经网络的超参数:特征图宽度;其初始参数设置为:128;
所述步骤S8-3、设置CNN卷积神经网络的超参数:卷积步长;其初始参数设置为:1;
所述步骤S8-4、设置CNN卷积神经网络的超参数:卷积核大小;其初始参数设置为:5;
所述步骤S8-5、设置CNN卷积神经网络的超参数:边界填充大小;其初始参数设置为:2个数据单位;
进一步地,所述步骤S9、构建GA-CNN-LSTM模型的解码层;其数据维度为:
输入:encode_output∈R(batchsize,FeatureSize,n_featuremap);
encode_output表示编码层输出;
LSTM单元输出:decode_LSTM∈R(batchsize,1,LSTM_layer);
FC单元输出:decode_FC∈R(batchsize,1);
LSTM_layer表示超参数:LSTM网络的层数。
进一步地,所述步骤S9-1、设置长短期记忆网络LSTM的超参数:方向;其初始参数设置为:单向;
所述步骤S9-2、设置长短期记忆网络LSTM的超参数:层数;其初始参数设置为:2;
所述步骤S9-3、设置长短期记忆网络LSTM的超参数:随机失活神经元个数;其初始参数设置为:0.1;
所述步骤S9-4、设置长短期记忆网络LSTM的超参数:隐层神经元个数;其初始参数设置为:64;
所述步骤S9-5、构建全连接神经网络层;所述全连接神经网络输入包含16个神经元,输出包含1个神经元。
所述步骤S9-6、构建循环预测机制;其计算公式为:
进一步地,所述步骤S10-1、构建基于Adam算法的优化器,其公式为:
其中,η表示学习率,gt表示t时刻的梯度,β1和β2分别表示第一、第二加权衰减系数,θ表示模型参数,ε表示稳定性参数,mt表示计算过程t时刻的中间变量,vt表示计算过程t时刻的中间变量,m0表示计算过程0时刻的中间变量,v0表示计算过程0时刻的中间变量,表示mt经加权衰减后的结果,表示vt经加权衰减后的结果,表示t时刻的第一加权衰减系数,表示t时刻的第二加权衰减系数。
所述步骤S10-2、设置训练终止条件;其模型训练的终止条件为:若连续8个epoch训练集的均方误差值MSE没有降低,则训练终止;否则,执行60个epoch后,训练终止。
所述长短期记忆网络LSTM,其对输入数据的计算包含以下步骤:
S-LSTM-1:计算t时刻的输入门衰减系数和输入值,其公式为:
kt为t时刻输入门衰减系数,inputt为t时刻的输入值,ht-1为t-1时刻的网络输出值,xt为t时刻的网络输入值,Wk、Winput为权重参数,bk、binput为偏置参数。
S-LSTM-2:计算t时刻的遗忘门衰减系数和记忆值,其公式为:
其中,ft为t时刻遗忘门衰减系数,kt为t时刻输入门衰减系数,inputt为t时刻输入值,ht-1为t-1时刻的网络输出值,xt为t时刻的网络输入值,Cellt为t时刻记忆单元存储的记忆值,Wf为权重参数,bf为偏置参数。
S-LSTM-3:计算t时刻的输出门衰减系数和输出值,其公式为:
其中,Ot为t时刻输入门衰减系数,Outputt为t时刻输出值,ht-1为t-1时刻的网络输出值,xt为t时刻的网络输入值,Cellt为t时刻记忆单元存储的记忆值,Wo为权重参数,bo为偏置参数。
所述步骤S11-1、设置待调的超参数:编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数;其中,调参范围可表示为:
解码层中LSTM网络的隐层神经元个数:θ1∈Z+;
解码层中LSTM网络的层数:θ2∈Z+;
编码层中CNN卷积神经网络的特征图个数:θ3∈Z+;
其中,Z+表示正整数。
所述步骤S11-2、对个体编码并设置初始种群;初始种群为:
Θ={θ1,θ2,θ3}={16,2,128},
所述步骤S11-3、设置个体的适应度函数;其表达式为:
F(Θ)为适应度函数,
Yreal为真实的负荷值,
N为样本的总数,
函数Y=Φ(X,OtherFeature,Θ)表示GA-CNN-LSTM网络的循环预测结果;
所述步骤S11-4、设置复制率、杂交率、变异率;所述杂交率、变异率、复制率为:
P(基因杂交)=6%,P(基因变异)=88%,P(基因复制)=6%;
所述步骤S11-5、定义遗传算法规则;所述遗传算法包含如下步骤:
步骤S11-5-1、开始本轮迭代:产生一个0-99之间的随机数n作为遗传算法随机数。根据以下公式确定突变类型:
步骤S11-5-2、构建子代基因:
(1)若本轮迭代采取杂交的方式:
从Θ={θ1,θ2,θ3}中随机选取两个参数,进行值交换,构成一组新的参数,
Θnext={θ1,θ2,θ3};
(2)若本轮迭代采取复制的方式:
从Θ={θ1,θ2,θ3}中随机选取两个参数,将第二个参数的值复制给第一个参数,构成一组新的参数,
Θnext={θ1,θ2,θ3};
(3)若本轮迭代采取变异的方式,使用以下步骤更新参数:
3-1、获取探索值ξ,获取探索值的方法如下:
如果选中的参数是lstm_neurons,探索值为-2到2之间的整数随机数;
如果选中的参数是lstm_layer,探索值为-2到2之间的整数随机数;
如果选中的参数是cnn_feature_map,探索值为-5到5之间的整数随机数;
3-2、从Θ={θ1,θ2,θ3}中随机选取1个参数θ作为变异参数;
3-3、更新子代基因值:θ←θ+ξ;
构成一组新的参数:Θnext={θ1,θ2,θ3}。
步骤S11-5-3、使用步骤S11-3的公式计算当前参数的适应度。若适应度值降低,
则用Θnext代替Θ,本轮迭代结束;否则,本轮迭代结束。
所述步骤S11-6、设置遗传算法终止条件;所述遗传算法终止条件为:遗传代数=1000次。
所述步骤S12将训练集输入GA-CNN-LSTM模型,在GPU上进行模型调参;获得最优的参数集合:
Θ={θ1,θ2,θ3}。
所述步骤S15、使用均方误差MSE、均方根误差RMSE、决定系数R2、平均绝对误差MAE指标评估模型的效果;其公式为:
本发明的另一方面,提供一种电力系统负荷预测系统,其包括:
电力负荷数据采集单元:采集构成用电企业用电负荷数据集的负荷数据和相关特征;
数据预处理及特征工程单元:对企业用电数据集进行数据预处理及特征工程处理;
电力负荷曲线数字特征提取单元:提取各用电企业负荷曲线的数字特征,构成用电企业负荷曲线数字特征集合;
数据集聚类处理单元:使用Kmeans算法对数字特征集合以用电企业为单位进行聚类;
数据集采样处理单元:将聚类后的数据集以聚类类别为单位进行归一化;以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;
GA-CNN-LSTM模型编码层构建单元:封装GA-CNN-LSTM模型的输入数据;设置CNN卷积神经网络的超参数:特征图宽度、卷积步长、卷积核大小和边界填充大小;
GA-CNN-LSTM模型解码层构建单元:设置长短期记忆网络LSTM的超参数:方向、层数、随机失活神经元个数和隐层神经元个数;构建全连接神经网络层;构建循环预测机制;
GA-CNN-LSTM模型训练层构建单元:构建基于Adam算法的优化器;设置学习率衰减机制;设置训练终止条件;
GA遗传算法调参单元,设置待调的超参数:编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数;对个体编码并设置初始种群;设置个体的适应度函数;设置复制率、杂交率、变异率;定义遗传算法规则;设置遗传算法终止条件;依据GA遗传算法的结果固定模型的参数;
GA-CNN-LSTM模型训练单元:将训练集输入GA-CNN-LSTM模型,使用GA遗传算法调参单元进行调参,获得最优参数;将训练集输入GA-CNN-LSTM模型,GA遗传算法调参单元获得的最优参数,在GPU上进行模型训练;将训练集输入GA-CNN-LSTM模型,在测试集上进行预测,获得最终预测结果;
电力负荷模型评估单元:使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。
本发明具有的有益效果如下:
1.模型评估效果优于逻辑回归、支持向量机、随机森林、KNN、XGBoost、LightGBM等机器学习模型;
2.模型评估效果优于卷积神经网络、简单循环神经网络等深度学习模型;
3.模型可以适应小的数据集,其复杂度可自适应伸缩,更适合工业应用;
4.模型使用基于Kmeans的聚类算法对企业进行分类,使得负荷序列分布、增长速率、特征参数等数字特征近似的企业数据聚合在一起;使得聚类之内的用电企业,其负荷曲线的数字特征是类似的,聚类之外的用电企业,其负荷曲线的数字特征是强差异性的。而对于这些负荷曲线数字特征类似的用电企业,他们之间往往包含着一些共同的信息,比如类似的作息、类似的订单周期、类似的负荷强度等等,而这些信息通过聚类算法很容易被铺捉到。
5.模型无需添加额外的信息采集设备或系统,仅使用国家电网内部的“电力用户用电采集系统”即可完成基础数据的采集,其低耦合的特性使其更易于系统间的集成,更为经济可靠;
6.基于长短时记忆网络LSTM和全连接神经网络构成的解码层,其长短时记忆网络LSTM部分是一种链式循环的网络结构,这种链式循环结构解决了时间序列长时依赖的问题。其模型结构更符合电力负荷序列的实质,即一种中长期的时间序列。因而建模过程具有较强的可解释性和适用性;
7.在模型预测过程中,采用连续多日预测多天的方式,相较一次性并行地输出多天预测值更符合实际应用场景,具有更低的均方误差,因而更适合于工业应用;
8.基于Adam算法的优化器在传统随机梯度下降优化算法的基础上增加了动量特性、自适应学习率,使得模型在学习过程中既能快速接近最优值又不易陷入局部最低点;
9.引入训练的提前终止条件后,既能提高模型训练的效率,又能降低过拟合的风险;
10.GA-CNN-LSTM模型在基于长短时记忆网络LSTM的解码层中设置了合适的随机失活比例,使得神经元以一定概率停止工作,这样的机制有效改善了过拟合现象,提高了模型的泛化能力。
11.GA-CNN-LSTM模型的编码层使用基于CNN卷积神经网络的特征提取器,能以滑动卷积的方式提取数据集中的信息,这种信息的提取方式是多角度的,长距离的,符合时序数据潜在的特点。
12.GA-CNN-LSTM模型使用GA遗传算法调参,这种调参方式是基于达尔文“适者生存”的思想而发展起来的,它从一组初始群体出发,通过选择、杂交、变异等操作,使群体进化到搜索空间中尽可能佳的区域。理论上,当迭代次数趋于无穷大的时候总能找到全局最优的参数。
13.GA-CNN-LSTM模型使用GA遗传算法调参,这种调参方式,其目标函数的函数值是随着迭代次数的增加单调递减的,因而它对参数的优化程度取决于用户在何时主动停止运算。
14.GA-CNN-LSTM模型使用GA遗传算法调参,这种调参方式,在参数逼近最优值的过程中,由于杂交算子的作用,参数不易落入局部最小值点;同时,由于变异算子的作用,模型会在当前最优值点的附近进一步探索更优的参数;而复制算子能在保留源基因特点的基础上尝试对目标基因做改进;在这三种算子的共同作用下,GA遗传算法不断地向最优值点逼近。
15.在企业用电负荷数据集的负荷数据和相关特征的选取上,兼顾了国家统计局发布的宏观数据,也考虑了时间因素、天气因素,因而较单纯的时序趋势外推数据能更全面地表达企业用电负荷的特征。
16.基于GA遗传算法的调参性能较网格搜索、贝叶斯搜索等常规调参方法好。
附图说明
图1为本发明算法流程图;
图2为本发明系统架构图;
图3为本发明实施例提供的对负荷曲线数字特征进行聚类所输出的决策边界示意图;
图4为本发明实施例提供的GA-CNN-LSTM模型编码层结构示意图;
图5为本发明实施例提供的GA-CNN-LSTM模型解码层结构示意图;
图6为本发明实施例提供的基于GA遗传算法的调参单元流程示意图;
图7为本发明实施例提供的某用电公司负荷曲线真实值与预测值的对比图。
具体实施方式
下面将结合实施例和附图,对本发明作进一步描述。通过附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施例1
本实施例为一种电力系统负荷预测方法,如图1所示,其步骤如下:
本实施例数据集采集自国家电网公司电力用户信息采集系统。采集杭州供电公司和嘉兴供电公司下属的10061家企业近6年的电力负荷数据和负荷特性数据。
步骤S1、采集构成企业用电负荷数据集的负荷数据和相关特征;所述企业用电负荷数据集的负荷数据和相关特征可表示为:
D={D1,D2,…,Di,…Dm},
其中,Di为第i家用电企业的负荷矩阵,m为用电企业总数;
步骤S2、对企业用电数据集进行数据预处理及特征工程处理;包括以下步骤:
步骤S-2-1:缺省值填补,其方法为:
对于第i家用电企业第d天t时刻的缺损值使用如下方法做填补:如果上一天同时刻的负荷值存在,那么使用代替缺损值;如果同一天上一时刻的负荷值存在,那么使用代替缺损值;如果下一天同时刻的负荷值存在,那么使用代替缺损值;如果同一天下一时刻的负荷值存在,那么使用代替缺损值;否则,使用该用电企业当日的负荷均值代替缺损值。
步骤S-2-2:处理异常数据,其方法为:
S-2-2-1对于数据文件错误的企业数据集,直接删除,同时输出异常数据报告;
S-2-2-2对于每个时刻的负荷值均为0的异常数据集,直接删除,同时输出异常数据报告;
S-2-2-3对于电力负荷值为特殊字符的数据集,直接删除,同时输出异常数据报告;
S-2-2-4对于数据文件中企业名称和行业不匹配的企业数据集,核对数据文件后重新下载;
S-2-2-5对于重复的用电企业数据集,只保留一家用电企业数据集,同时输出异常数据报告。
步骤S3、提取各用电企业负荷曲线的数字特征,构成各用电企业数字特征集合。
其中,步骤S3-1、以用电企业为单位提取电力负荷分布特性相关的数字特征:最高负荷、最低负荷、峰谷差、负荷率的计算公式为:
式中,yt表示t时刻的负荷,n表示负荷序列的长度;
步骤S3-2、以用电企业为单位提取序列增长速率相关的数字特征:平均增长速率;其计算公式为:
式中,y1、yn分别表示t为1和n时的负荷;
步骤S3-3、以用电企业为单位提取序列特征参数相关的数字特征:均值、标准差、变异系数,其计算公式为:
步骤S3-4、以用电企业为单位,拼接S3-1、S3-2、S3-3的结果,构成用电企业负荷曲线数字特征集合;其计算公式为:
图3为本发明实施例提供的对负荷曲线数字特征进行聚类所输出的决策边界示意图。
步骤S4、使用Kmeans算法对数字特征集合以用电企业为单位进行聚类。
步骤S4-1、固定聚类中心向量初始化参数,以轮廓系数与1的欧氏距离为优化目标,执行100次Kmeans算法选取最优聚类类别个数;所述轮廓系数计算步骤为:
步骤S-silhouette-1:
计算样本i到所属簇内其他样本点的平均欧氏距离a(i),
步骤S-silhouette-2:
找到一个不含样本i的聚类簇,使得样本i到该聚类簇中各样本点的平均欧氏距离最小,取该平均欧氏距离,记为b(i),
步骤S-silhouette-3:计算样本i的轮廓系数s(i)
步骤S-silhouette-4:计算总体的轮廓系数S:
所述的Kmeans算法,其优化目标表达式为:
其中,i=1,2,…,m;m为用电企业总数;
C={C1,C2,…,Cj,…,CK}为聚类簇的划分;
j=1,2,…,K;
Γj为簇Cj对应的聚类中心向量;
步骤S4-1、固定聚类中心向量初始化参数,以轮廓系数与1的欧氏距离为优化目标,执行100次Kmeans算法选取最优聚类类别个数;其表达式为:
其中,
Kn为执行第n次Kmeans算法时设定的聚类个数;Θ1表示执行第1次Kmeans算法时构成初始聚类中心向量的参数;Bfeature表示用电企业的负荷曲线数字特征向量;表示执行第n次Kmeans算法时,所得到的聚类类别为j的用电企业的负荷信息矩阵;Sn表示执行第n次Kmeans算法时,得到的轮廓系数值;K′为输出的最优的聚类类别个数。
步骤S4-2、根据S4-1得到的最优聚类类别个数,以轮廓系数与1的欧氏距离为优化目标,执行100次Kmeans算法选取最优的聚类中心向量初始化参数;其表达式为:
步骤S4-3、根据S4-1、S4-2得到的最优聚类类别个数和最优的聚类中心向量初始化参数,执行1次Kmeans算法,得到最优的按聚类类别划分的用电企业负荷矩阵;其表达式为:
步骤S5、将聚类后的数据集以聚类类别为单位进行归一化;所述归一化算法计算公式为:
其中,i=1,2,3…,K;
函数f的作用是筛选出所有需要归一化的特征。
所述步骤S4-1、S4-2、S4-3、S4-4中所述的Kmeans算法,包含以下步骤:
给定聚类中心个数为K;
步骤S-Kmeans-1:从数据集中随机选取K个聚类中心:
{C1,C2,…,CK}和K个对应的聚类中心向量{Γ1,Γ2,…,ΓK},
步骤S-Kmeans-5:重复步骤S-Kmeans-2至S-Kmeans-4,直至聚类中心的位置不再变换,或重复迭代次数满1000次;
相应地,把用电企业数据集划分为K个类别:
最终得到K个聚类类别C={C1,C2,…,Ci,…Ck}和K个对应的聚类中心向量{Γ1,Γ2,…,ΓK}。
步骤S6、以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;所述时间序列滑动采样包含如下步骤:
步骤S-6-1:将输入集合展平为一维时序向量集;
步骤S-6-2:采样完成的数据集表示为:
Loadi=(Datai,Lablei)
|Loadi|=|Ei|-Dayx-Dayy+1;
其中,
|Ei|表示采样前的数据集的大小;Loadi表示聚类类别Ci对应的采样后的负荷数据集;|Loadi|表示聚类类别Ci对应的采样后的负荷数据集的大小;Datai为输入变量集,Lablei为输出变量集;Dayx为输入变量所含电力负荷数据的时点数;Dayy为输出变量所含电力负荷数据的时点数。
步骤S7、将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;所述数据集划分包含如下步骤:
步骤S-7-1:对每个聚类的数据集,随机重排样本的顺序;
其中每个样本排列在每个位置的概率均相同;
步骤S-7-2:对随机重排后的序列,取前90%的样本构成训练集,取后10%的样本构成测试集。
步骤S8、构建GA-CNN-LSTM模型的编码层。其数据维度为:
输入:encode_input∈R(batchsize,FeatureSize,1),
输出:encode_output∈R(batchsize,FeatureSize,n_featuremap),
其中,encode_input表示编码层输入,
n_featuremap为特征图的个数。
步骤S8-1、封装GA-CNN-LSTM模型的输入数据;包括以下步骤:
步骤S8-1-1:按批次,以聚类类型为单位,从步骤S-6-2的采样输出结果中取样本数据,所述批大小为32;即,每一次从聚类类型为i的数据集。
Loadi=(Datai,Lablei)中顺序取出32组样本数据,i=1,2,…K;
所取出的每组样本数据由输入和标签构成,表示为:
Groupd=(GroupX,GroupY)d;
d=1,2,…,batchsize;
FeatureSize为特征个数,由1个电力负荷值和若干其余特征组成;
d表示批次;batchsize表示批大小;
步骤S8-1-2:对步骤S8-1-1所述的每组样本数据,构建GA-CNN-LSTM网络的输入样本X,其构建方法为:
从GroupX中取Dayx条用电负荷值,构成样本的前Dayx个特征;
从GroupY中取出第1个数据点时的其他特征(除用电负荷值以外),构成样本X的其余特征;
步骤S8-1-3:对步骤S8-1-1所述的每组样本数据,构建GA-CNN-LSTM网络的一组标签Y,其构建方法为:
从GroupY中取Dayy条用电负荷值,构成Y标签;
最终,封装成GA-CNN-LSTM模型的一个输入数据为:
encode_input∈R(batchsize,FeatureSize,1),R表示实数空间。
图4为本发明实施例提供的GA-CNN-LSTM模型编码层结构示意图。
步骤S8-2、设置CNN卷积神经网络的超参数:特征图宽度;其初始参数设置为:128;
步骤S8-3、设置CNN卷积神经网络的超参数:卷积步长;其初始参数设置为:1;
步骤S8-4、设置CNN卷积神经网络的超参数:卷积核大小;其初始参数设置为:5;
步骤S8-5、设置CNN卷积神经网络的超参数:边界填充大小;其初始参数设置为:2个数据单位;
图5为本发明实施例提供的GA-CNN-LSTM模型解码层结构示意图;
所述步骤S9、构建GA-CNN-LSTM模型的解码层;其数据维度为:
输入:encode_output∈R(batchsize,FeatureSize,n_featuremap);
encode_output表示编码层输出;
LSTM单元输出:decode_LSTM∈R(batchsize,1,LSTM_layer);
FC单元输出:decode_FC∈R(batchsize,1);
LSTM_layer表示超参数:LSTM网络的层数。
步骤S9-1、设置长短期记忆网络LSTM的超参数:方向;其初始参数设置为:单向;
步骤S9-2、设置长短期记忆网络LSTM的超参数:层数;其初始参数设置为:2;
步骤S9-3、设置长短期记忆网络LSTM的超参数:随机失活神经元个数;其初始参数设置为:0.1;
步骤S9-4、设置长短期记忆网络LSTM的超参数:隐层神经元个数;其初始参数设置为:64;
步骤S9-5、构建全连接神经网络层;所述全连接神经网络输入包含16个神经元,输出包含1个神经元。
步骤S9-6、构建循环预测机制;其计算公式为:
步骤S10、构建GA-CNN-LSTM模型的训练层。
步骤S10-1、构建基于Adam算法的优化器;其公式为:
其中,η表示学习率,gt表示t时刻的梯度,β1和β2分别表示第一、第二加权衰减系数,θ表示模型参数,ε表示稳定性参数,mt表示计算过程t时刻的中间变量,vt表示计算过程t时刻的中间变量,m0表示计算过程0时刻的中间变量,v0表示计算过程0时刻的中间变量,表示mt经加权衰减后的结果,表示vt经加权衰减后的结果,表示t时刻的第一加权衰减系数,表示t时刻的第二加权衰减系数。
步骤S10-2、设置训练终止条件;其模型训练的终止条件为:若连续8个epoch训练集的均方误差值MSE没有降低,则训练终止;否则,执行60个epoch后,训练终止。
所述长短期记忆网络LSTM,其对输入数据的计算包含以下步骤:
S-LSTM-1:计算t时刻的输入门衰减系数和输入值,其公式为:
kt为t时刻输入门衰减系数,inputt为t时刻的输入值,ht-1为t-1时刻的网络输出值,xt为t时刻的网络输入值,Wk、Winput为权重参数,bk、binput为偏置参数。
S-LSTM-2:计算t时刻的遗忘门衰减系数和记忆值,其公式为:
其中,ft为t时刻遗忘门衰减系数,kt为t时刻输入门衰减系数,inputt为t时刻输入值,ht-1为t-1时刻的网络输出值,xt为t时刻的网络输入值,Cellt为t时刻记忆单元存储的记忆值,Wf为权重参数,bf为偏置参数。
S-LSTM-3:计算t时刻的输出门衰减系数和输出值,其公式为:
其中,Ot为t时刻输入门衰减系数,Outputt为t时刻输出值,ht-1为t-1时刻的网络输出值,xt为t时刻的网络输入值,Cellt为t时刻记忆单元存储的记忆值,Wo为权重参数,bo为偏置参数。
步骤S11、构建基于GA遗传算法的调参策略。
步骤S11-1、设置待调的超参数:编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数;其中,调参范围可表示为:
解码层中LSTM网络的隐层神经元个数:θ1∈Z+;
解码层中LSTM网络的层数:θ2∈Z+;
编码层中CNN卷积神经网络的特征图个数:θ3∈Z+;
其中,Z+表示正整数。
步骤S11-2、对个体编码并设置初始种群;初始种群为:
Θ={θ1,θ2,θ3}={16,2,128}
步骤S11-3、设置个体的适应度函数;其表达式为:
F(Θ)为适应度函数,
Yreal为真实的负荷值,
N为样本的总数,
函数Y=Φ(X,OtherFeature,Θ)表示GA-CNN-LSTM网络的循环预测结果;
步骤S11-4、设置复制率、杂交率、变异率;所述杂交率、变异率、复制率为:
P(基因杂交)=6%,P(基因变异)=88%,P(基因复制)=6%;
图6为本发明实施例提供的基于GA遗传算法的调参单元流程示意图;
表1为本发明实施例提供的基于GA遗传算法的调参日志
从调参日志中可以发现,随着遗传算法迭代次数的增加,参数会逐渐逼近最优解。
步骤S11-5、定义遗传算法规则;所述遗传算法包含如下步骤:
步骤S11-5-1、开始本轮迭代:产生一个0-99之间的随机数n作为遗传算法随机数。根据以下公式确定突变类型:
步骤S11-5-2、构建子代基因:
(1)若本轮迭代采取杂交的方式:
从Θ={θ1,θ2,θ3}中随机选取两个参数,进行值交换,构成一组新的参数,
Θnext={θ1,θ2,θ3};
(2)若本轮迭代采取复制的方式:
从Θ={θ1,θ2,θ3}中随机选取两个参数,将第二个参数的值复制给第一个参数,构成一组新的参数,
Θnext={θ1,θ2,θ3};
(3)若本轮迭代采取变异的方式,使用以下步骤更新参数:
3-1、获取探索值ξ,获取探索值的方法如下:
如果选中的参数是lstm_neurons,探索值为-2到2之间的整数随机数;
如果选中的参数是lstm_layer,探索值为-2到2之间的整数随机数;
如果选中的参数是cnn_feature_map,探索值为-5到5之间的整数随机数;
3-2、从Θ={θ1,θ2,θ3}中随机选取1个参数θ作为变异参数;
3-3、更新子代基因值:θ←θ+ξ;
构成一组新的参数:Θnext={θ1,θ2,θ3}。
步骤S11-5-3、使用步骤S11-3的公式计算当前参数的适应度。
若适应度值降低,则用Θnext代替Θ,本轮迭代结束;否则,本轮迭代结束。
步骤S11-6、设置遗传算法终止条件;所述遗传算法终止条件为:遗传代数=1000次。
步骤S12将训练集输入GA-CNN-LSTM模型,在GPU上进行模型调参;获得最优的参数集合:
Θ={θ1,θ2,θ3}。
步骤S13、将训练集输入GA-CNN-LSTM模型,使用步骤S12获得的最优参数,在GPU上进行模型训练。
步骤S14、将训练集输入GA-CNN-LSTM模型,在测试集上进行预测,获得最终预测结果。
步骤S15、使用均方误差MSE、均方根误差RMSE、决定系数R2、平均绝对误差MAE指标评估模型的效果;其公式为:
图7为本发明实施例提供的某用电公司负荷曲线真实值与预测值的对比图,从对比图中可见,实施本发明的预测曲线与真实曲线拟合度较高。
表2为本发明实施例提供的模型效果评估表
使用的模型 | 数据集 | MSE_score | RMSE_score | MAE | R2_score | 优化器 | total_epochs |
GC-CNN_LSTM(本发明) | 聚类类型1 | 0.010750476 | 0.103684504 | 0.073953174 | 0.978487907 | Addam | 12 |
GC-CNN_LSTM(本发明) | 聚类类型2 | 0.02227906 | 0.149261715 | 0.103833534 | 0.976370665 | Adam | 30 |
GC-CNN_LSTM(本发明) | 聚类类型3 | 0.037624598 | 0.19397061 | 0.115313992 | 0.961429384 | Adam | 43 |
GC-CNN_LSTM(本发明) | 聚类类型4 | 0.468061596 | 0.684150273 | 0.495754331 | 0.523131076 | Adam | 38 |
GC-CNN_LSTM(本发明) | 聚类类型5 | 0.253139585 | 0.50312979 | 0.333364069 | 0.752165574 | Addam | 51 |
GC-CNN_LSTM(本发明) | 聚类类型6 | 0.186490968 | 0.431846 | 0.228755504 | 0.798947377 | Adam | 72 |
GC-CNN_LSTM(本发明) | 聚类类型7 | 0.063068941 | 0.251135305 | 0.168441653 | 0.933711256 | Adam | 23 |
GC-CNN_LSTM(本发明) | 聚类类型8 | 0.027789002 | 0.166700337 | 0.127910167 | 0.974056188 | Adam | 25 |
GC-CNN_LSTM(本发明) | 聚类类型9 | 0.086432077 | 0.293993328 | 0.208487317 | 0.838074805 | Adam | 34 |
GC-CNN_LSTM(本发明) | 不做聚类的数据集 | 0.266316772 | 0.516058884 | 0.329572707 | 0.70159652 | Adam | 30 |
DecisionTreeRegressor | 总体 | 0.120610715 | 0.344949704 | 0.168230208 | 0.879314271 | ||
KNN.csv | 总体 | 0.117931951 | 0.340997312 | 0.157477265 | 0.882040226 | ||
LightGBM.csv | 总体 | 0.108730648 | 0.327962556 | 0.157405286 | 0.891435078 | ||
RandomForestRegressor | 总体 | 0.107861637 | 0.326575584 | 0.156782926 | 0.892040587 | ||
Ridge.csv | 总体 | 0.097405421 | 0.303769182 | 0.152770383 | -11.3704453 | ||
SVR.csv | 总体 | 0.120446819 | 0.344718295 | 0.15782647 | 0.879450045 | ||
Xgboost.csv | 总体 | 0.1024889 | 0.318497154 | 0.153918627 | 0.897517968 |
从评估表可见:1.实施本发明,聚类后的数据集拟合效果明显优于聚类前数据集的拟合效果;2.实施本发明,GA-CNN-LSTM模型的效果在大多数数据集上优于线性回归模型、最近邻回归模型、决策树回归模型、随机森林回归模型、XGboost模型、LightGBM模型、支持向量机回归模型等对比算法。
实施例2
本实施例提供一种电力系统负荷预测系统,如图2所示,其包括:
电力负荷数据采集单元:采集构成用电企业用电负荷数据集的负荷数据和相关特征;
数据预处理及特征工程单元:对企业用电数据集进行数据预处理及特征工程处理;
电力负荷曲线数字特征提取单元:提取各用电企业负荷曲线的数字特征,构成用电企业负荷曲线数字特征集合;
数据集聚类处理单元:使用Kmeans算法对数字特征集合以用电企业为单位进行聚类;
数据集采样处理单元:将聚类后的数据集以聚类类别为单位进行归一化;以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;
GA-CNN-LSTM模型编码层构建单元:封装GA-CNN-LSTM模型的输入数据;设置CNN卷积神经网络的超参数:特征图宽度、卷积步长、卷积核大小和边界填充大小;
GA-CNN-LSTM模型解码层构建单元:设置长短期记忆网络LSTM的超参数:方向、层数、随机失活神经元个数和隐层神经元个数;构建全连接神经网络层;构建循环预测机制;
GA-CNN-LSTM模型训练层构建单元:构建基于Adam算法的优化器;设置学习率衰减机制;设置训练终止条件;
GA遗传算法调参单元,设置待调的超参数:编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数;对个体编码并设置初始种群;设置个体的适应度函数;设置复制率、杂交率、变异率;定义遗传算法规则;设置遗传算法终止条件;依据GA遗传算法的结果固定模型的参数;
GA-CNN-LSTM模型训练单元:将训练集输入GA-CNN-LSTM模型,使用GA遗传算法调参单元进行调参,获得最优参数;将训练集输入GA-CNN-LSTM模型,GA遗传算法调参单元获得的最优参数,在GPU上进行模型训练;将训练集输入GA-CNN-LSTM模型,在测试集上进行预测,获得最终预测结果;
电力负荷模型评估单元:使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。
实施例2未详细说明的部分参见实施例1。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电力系统负荷预测方法,其特征在于,包括:
步骤S1、采集构成用电企业用电负荷数据集的负荷数据和相关特征;
步骤S2、对企业用电数据集进行数据预处理及特征工程处理;
步骤S3、提取各用电企业负荷曲线的数字特征,构成用电企业负荷曲线数字特征集合;
步骤S4、使用Kmeans算法对数字特征集合以用电企业为单位进行聚类;
步骤S5、将聚类后的数据集以聚类类别为单位进行归一化;
步骤S6、以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;
步骤S7、将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;
步骤S8、构建GA-CNN-LSTM模型的编码层;
步骤S9、构建GA-CNN-LSTM模型的解码层;
步骤S10、构建GA-CNN-LSTM模型的训练层;
步骤S11、构建基于GA遗传算法的调参策略;
步骤S12、将训练集输入GA-CNN-LSTM模型,在GPU上进行模型调参,获得最优参数;
步骤S13、将训练集输入GA-CNN-LSTM模型,使用步骤S12获得的最优参数,在GPU上进行模型训练;
步骤S14、将训练集输入GA-CNN-LSTM模型,在测试集上进行预测,获得最终预测结果;
步骤S15、使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。
2.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S1的具体内容如下:
步骤S1-1:以用电企业为单位采集变压器台区电力负荷数据;
步骤S1-2:以用电企业为单位采集天气相关特征;
步骤S1-3:以用电企业为单位采集时间相关特征;
步骤S1-4:拼接步骤S1-1、S1-2和S1-3的特征,构成企业用电负荷数据集。
3.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S3的具体内容如下:
步骤S3-1、以用电企业为单位提取电力负荷分布特性相关的数字特征:最高负荷、最低负荷、峰谷差、负荷率;
步骤S3-2、以用电企业为单位提取序列增长速率相关的数字特征:平均增长速率;
步骤S3-3、以用电企业为单位提取序列特征参数相关的数字特征:均值、标准差和变异系数;
步骤S3-4、以用电企业为单位,拼接S3-1、S3-2、S3-3的结果,构成用电企业负荷曲线数字特征集合。
4.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S4的具体内容如下:
步骤S4-1、固定聚类中心向量初始化参数,以轮廓系数与1的欧氏距离为优化目标,执行多次Kmeans算法选取最优聚类类别个数;
步骤S4-2、根据S4-1得到的最优聚类类别个数,以轮廓系数与1的欧氏距离为优化目标,执行多次Kmeans算法选取最优的聚类中心向量初始化参数;
步骤S4-3、根据S4-1、S4-2得到的最优聚类类别个数和最优的聚类中心向量初始化参数,执行1次Kmeans算法,得到最优的按聚类类别划分的用电企业负荷矩阵。
5.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S8的具体内容如下:
步骤S8-1、封装GA-CNN-LSTM模型的输入数据;
步骤S8-2、设置CNN卷积神经网络的超参数:特征图宽度;
步骤S8-3、设置CNN卷积神经网络的超参数:卷积步长;
步骤S8-4、设置CNN卷积神经网络的超参数:卷积核大小;
步骤S8-5、设置CNN卷积神经网络的超参数:边界填充大小。
6.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S9的具体内容如下:
步骤S9-1、设置长短期记忆网络LSTM的超参数:方向;
步骤S9-2、设置长短期记忆网络LSTM的超参数:层数;
步骤S9-3、设置长短期记忆网络LSTM的超参数:随机失活神经元个数;
步骤S9-4、设置长短期记忆网络LSTM的超参数:隐层神经元个数;
步骤S9-5、构建全连接神经网络层;
步骤S9-6、构建循环预测机制。
8.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S10的具体内容如下:
步骤S10-1、构建基于Adam算法的优化器;
步骤S10-2、设置训练终止条件。
9.根据权利要求1所述的一种电力系统负荷预测方法,其特征在于,所述步骤S11的具体内容如下:
步骤S11-1、设置待调的超参数:编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数;
步骤S11-2、对个体编码并设置初始种群;
步骤S11-3、设置个体的适应度函数;
步骤S11-4、设置复制率、杂交率、变异率;
步骤S11-5、定义遗传算法规则;
步骤S11-6、设置遗传算法终止条件;
步骤S11-7、依据GA遗传算法的结果固定模型的参数。
10.一种电力系统负荷预测系统,其特征在于,包括:
电力负荷数据采集单元:采集构成用电企业用电负荷数据集的负荷数据和相关特征;
数据预处理及特征工程单元:对企业用电数据集进行数据预处理及特征工程处理;
电力负荷曲线数字特征提取单元:提取各用电企业负荷曲线的数字特征,构成用电企业负荷曲线数字特征集合;
数据集聚类处理单元:使用Kmeans算法对数字特征集合以用电企业为单位进行聚类;
数据集采样处理单元:将聚类后的数据集以聚类类别为单位进行归一化;以用电企业为单位,对企业用电数据集以给定的采样时间窗口进行滑动采样;将滑动采样后的数据集划分为训练集和测试集,构成GA-CNN-LSTM模型的输入;
GA-CNN-LSTM模型编码层构建单元:封装GA-CNN-LSTM模型的输入数据;设置CNN卷积神经网络的超参数:特征图宽度、卷积步长、卷积核大小和边界填充大小;
GA-CNN-LSTM模型解码层构建单元:设置长短期记忆网络LSTM的超参数:方向、层数、随机失活神经元个数和隐层神经元个数;构建全连接神经网络层;构建循环预测机制;
GA-CNN-LSTM模型训练层构建单元:构建基于Adam算法的优化器;设置学习率衰减机制;设置训练终止条件;
GA遗传算法调参单元,设置待调的超参数:编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数;对个体编码并设置初始种群;设置个体的适应度函数;设置复制率、杂交率、变异率;定义遗传算法规则;设置遗传算法终止条件;依据GA遗传算法的结果固定模型的参数;
GA-CNN-LSTM模型训练单元:将训练集输入GA-CNN-LSTM模型,使用GA遗传算法调参单元进行调参,获得最优参数;将训练集输入GA-CNN-LSTM模型,GA遗传算法调参单元获得的最优参数,在GPU上进行模型训练;将训练集输入GA-CNN-LSTM模型,在测试集上进行预测,获得最终预测结果;
电力负荷模型评估单元:使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210718685.8A CN115293400A (zh) | 2022-06-23 | 2022-06-23 | 一种电力系统负荷预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210718685.8A CN115293400A (zh) | 2022-06-23 | 2022-06-23 | 一种电力系统负荷预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115293400A true CN115293400A (zh) | 2022-11-04 |
Family
ID=83820339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210718685.8A Pending CN115293400A (zh) | 2022-06-23 | 2022-06-23 | 一种电力系统负荷预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293400A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660226A (zh) * | 2022-12-13 | 2023-01-31 | 国网冀北电力有限公司 | 电力负荷的预测模型构建方法和基于数字孪生的构建装置 |
CN116933114A (zh) * | 2023-06-12 | 2023-10-24 | 浙江大学 | 一种基于cnn-lstm的直流微电网检测方法及装置 |
CN117236381A (zh) * | 2023-11-08 | 2023-12-15 | 智能制造龙城实验室 | 一种基于三元组长短时记忆神经网络的刀具磨损监测方法 |
-
2022
- 2022-06-23 CN CN202210718685.8A patent/CN115293400A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660226A (zh) * | 2022-12-13 | 2023-01-31 | 国网冀北电力有限公司 | 电力负荷的预测模型构建方法和基于数字孪生的构建装置 |
CN115660226B (zh) * | 2022-12-13 | 2023-04-25 | 国网冀北电力有限公司 | 电力负荷的预测模型构建方法和基于数字孪生的构建装置 |
CN116933114A (zh) * | 2023-06-12 | 2023-10-24 | 浙江大学 | 一种基于cnn-lstm的直流微电网检测方法及装置 |
CN117236381A (zh) * | 2023-11-08 | 2023-12-15 | 智能制造龙城实验室 | 一种基于三元组长短时记忆神经网络的刀具磨损监测方法 |
CN117236381B (zh) * | 2023-11-08 | 2024-02-02 | 智能制造龙城实验室 | 一种基于三元组长短时记忆神经网络的刀具磨损监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115293400A (zh) | 一种电力系统负荷预测方法及系统 | |
Zhou et al. | Fuzzy classifier design using genetic algorithms | |
CN101414366B (zh) | 基于改进极端学习机方法的电力系统短期负荷预测方法 | |
CN110751318A (zh) | 一种基于ipso-lstm的超短期电力负荷预测方法 | |
CN110717610B (zh) | 一种基于数据挖掘的风电功率预测方法 | |
CN116596044B (zh) | 基于多源数据的发电负荷预测模型训练方法及装置 | |
CN113688869B (zh) | 一种基于生成对抗网络的光伏数据缺失重构方法 | |
CN112330052A (zh) | 一种配变负荷预测方法 | |
Wang et al. | A new approach of obtaining reservoir operation rules: Artificial immune recognition system | |
CN112819192A (zh) | 一种基于蜂群算法优化的rf_gru网络短期电力负荷预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN115640901A (zh) | 一种基于混合神经网络和生成对抗的小样本负荷预测方法 | |
CN111275074A (zh) | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 | |
Chen et al. | Short-term Wind Speed Forecasting Based on Singular Spectrum Analysis, Fuzzy C-Means Clustering, and Improved POABP | |
Yang | Combination forecast of economic chaos based on improved genetic algorithm | |
CN116956160A (zh) | 一种基于自适应树种算法的数据分类预测方法 | |
CN117114184A (zh) | 一种城市碳排放影响因素特征提取与中长期预测方法及装置 | |
Wang | Analysis of bank credit risk evaluation model based on BP neural network | |
CN115713144A (zh) | 基于组合cgru模型的短期风速多步预测方法 | |
CN115965135A (zh) | 基于朴素贝叶斯分类的新能源预测误差建模方法及系统 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN115481788A (zh) | 相变储能系统负荷预测方法及系统 | |
CN111882106A (zh) | 基于综合因素和ceemd-igwo-grnn的短期电力负荷预测方法 | |
Dobrovska et al. | Development Of The Classifier Based On A Multilayer Perceptron Using Genetic Algorithm And Cart Decision Tree | |
Wang et al. | Research on House Price Forecast Based on Hyper Parameter Optimization Gradient Boosting Regression Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |