CN113193551A

CN113193551A - 基于多因素和改进特征筛选策略的短期电力负荷预测方法

Info

Publication number: CN113193551A
Application number: CN202110458740.XA
Authority: CN
Inventors: 徐先峰; 赵依; 刘状壮; 李陇杰; 卢勇; 张震; 代杰; 段晨东; 茹锋
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-30
Anticipated expiration: 2041-04-27
Also published as: CN113193551B

Abstract

本发明提供了基于多因素和改进特征筛选策略的短期电力负荷预测方法包括以下步骤：步骤S1，导入原始多因素数据集和数据预处理；步骤S2，构造候选特征变量集；步骤S3，基于数据集重构和RReliefF算法的小时粒度特征筛选；步骤S4，引入基于余弦相似度的k‑means聚类标签；步骤S5，确定最终的输入变量集；步骤S6，模型训练与预测。本发明注重于短期电力负荷预测的前端数据处理，与当前的多种主流预测模型都可以结合使用，并能显著改善模型的预测精度，具有广泛的通用性。本发明能够有效解决基于小时粒度的特征变量选取规则问题，在特征变量中加入负荷曲线的形状和模式信息，通过提高前端输入数据的质量，显著提升短期电力负荷的预测性能。

Description

基于多因素和改进特征筛选策略的短期电力负荷预测方法

技术领域

本发明属于于电力负荷预测领域，涉及短期电力负荷预测，特别涉及一种基于多因素和改进特征筛选策略的短期电力负荷预测方法。

背景技术

短期负荷预测在电力系统的运行中具有重要意义，它是电网安全经济运行的保障和制定供电计划的依据。负荷预测作为连接能源和需求侧的桥梁，涉及有序用电、节能减排等工作的方方面面，精准的短期负荷预测不仅能满足电力负荷精细化管理的要求，更是促进需求侧改革、提髙居民用电感受的重要支撑。

由于电力负荷波动趋势会受气象、节假日、社会经济等多种外部因素的影响。显然在实际的负荷预测过程中，充分考虑外部相关因素有助于提高负荷的预测精度。然而计及外部影响因素提高了输入信号的维数，会加重模型的学习负担，降低学习效率，因此，特征筛选成为解决该问题的有效手段。然而如何在海量数据中筛选出对于负荷预测的有益信息，在有限的维数中提升输入数据的信息质量，避免输入低效数据和冗余数据，成为了一个有必要深入研究的课题。

发明内容

针对现有技术存在的不足，本发明的目的在于，提供一种基于多因素和改进特征筛选策略的短期电力负荷预测方法，以解决现有技术中短期电力负荷预测精度有待进一步提升的技术问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

一种基于多因素和改进特征筛选策略的短期电力负荷预测方法，该方法包括以下步骤：

步骤S1，导入原始多因素数据集和数据预处理：

步骤S11，采集待预测地区电力的历史电力负荷数据、历史温度数据、历史湿度数据和历史电价数据；

步骤S12，根据历史温度数据和历史湿度数据计算历史温湿指数数据THI，并作为一个特征属性；历史温湿指数数据的计算公式为：

THI＝T+0.36Dp+41.2 公式Ⅰ；

式中：

T为干球温度的数值，干球温度的单位为℃；

Dp为露点温度的数值，露点温度的单位为℃；

步骤S13，将历史电力负荷数据、历史温度数据、历史温湿指数数据和历史电价数据整理成M×4的矩阵，该矩阵即为原始多因素数据集；

其中，M为数据采样点数；

步骤S14，对于原始多因素数据集中的异常数据和缺失数据，采用线性插值的方法进行替代和补齐；

步骤S15，对于每一属性数据的样本序列，进行无量纲归一化处理，完成数据预处理；

所述的归一化公式为：

式中：

X^*为归一化后的值；

X为样本序列值；

X_min为样本序列中的最小值；

X_max为样本序列中的最大值；

步骤S2：构造候选特征变量集：

步骤S21，设L^*为t时刻的待预测电力负荷，选取t-h时刻的h小时前历史负荷和t-d*24时刻的d天前历史负荷作为预测负荷L^*的候选特征变量，由此对于历史负荷这一属性共生成30个候选特征变量；

步骤S22，使用与步骤S21同样的方法对温度、温湿指数和电价特征属性数据序列进行操作，生成对应该特征属性的30个候选特征变量；

步骤S3，基于数据集重构和RReliefF算法的小时粒度特征筛选：

步骤S31：对于待预测电力负荷序列L^*＝[l₁,l₂,l₃,…l_24(n-1)+i,i＝1,2,…24]，其中，l_24(n-1)+i代表第n天第i个小时的负荷值，抽取每天第i个小时的负荷并按顺序重构造为

由此重构得到对应不同小时时刻的24个新的小时级电力负荷序列；

步骤S32，使用与步骤S31同样的方法对候选特征变量集中的每个候选特征变量序列依次进行操作，则每个候选特征变量序列都重构得到对应不同小时时刻的24个新的小时级特征变量序列F_i；

步骤S33，对于第i个小时，将

作为目标序列，F_i作为待选变量序列，采用RReliefF算法计算出各个待选变量序列与目标序列的相关性权重系数W(A)；

步骤S34，将步骤S33中计算出的各权重系数W(A)从大到小进行排列，取对应W(A)排名前30的30个特征变量放入最优特征集S_i；

步骤S35：i＝1,2,…24，对于不同i的取值，重复步骤S43和步骤S44，由此得到24个不同的小时粒度最优特征集S_i；

步骤S4，引入基于余弦相似度的k-means聚类标签；

步骤S41，随机选择K个初始聚类中心C₁,C₂,…C_K，对应K个类簇V₁,V₂,…V_K；

步骤S42，分别计算每个日负荷样本DL_i＝[dl₁,dl₂,…dl₂₄]到第k个聚类中心C_k＝[c₁,c₂,…c₂₄]的余弦相似度S_cos(DL_i,C_k)，其计算公式为：

步骤S43，根据样本与聚类中心相似度最高的原则对其进行分类，若步骤S42中求出的K个余弦相似度中的最大值对应的聚类中心为C_k，则将日负荷样本DL_i划分至类簇V_k，按照此规则将所有电力负荷样本划分至类簇V₁,V₂,…V_K中；

步骤S44，计算每个聚类中所有样本的均值

并将其更新为新的聚类中心C_k；

其中，|V_k|表示第k个类簇中样本对象的个数；

步骤S45，重复步骤S42至步骤S44，直到聚类中心不再改变或达到设定的迭代次数上限；

步骤S46，对聚类结果计算轮廓系数，轮廓系数s(i)的计算公式为：

式中：

a(i)为样本DL_i到同簇其他样本DL_j的平均余弦相似度；

b(i)为样本DL_i到其他簇中所有样本DL_j的平均余弦相似度；

步骤S47，给定K的取值范围，给定聚类算法迭代次数，对应不同K的取值分别重复执行上述步骤S41至步骤S46；

S48：取对应轮廓系数最大的K值作为最优的聚类个数，并将K＝最优聚类个数下的聚类结果标签V＝[v₁,v₂,…v_K]作为一维特征变量；

步骤S5，确定最终的输入变量集：

步骤S51，根据待预测电力负荷序列每一点的对应采样时间，生成表征小时信息的时间变量H，H的取值范围为1～24的整数，对于第i个小时的负荷，其时间变量H＝i；

步骤S52，对于预测第n天第i个小时的负荷值L^*，最终输入预测模型的变量集S^*包括：由步骤S3得到的对应第i个小时的最优特征集S_i，由步骤S4得到的对应第n天的聚类标签V，以及由步骤S51生成的时间变量H；最终输入预测模型的变量集S^*共计32维；

步骤S6：模型训练与预测；

步骤S61，按照上述步骤S1至步骤S5准备好的待预测电力负荷序列L^*和最终输入变量集S^*，划分训练集和测试集；

步骤S62，将训练集输入预测模型进行训练并调整超参数；

步骤S63，预测模型训练完毕后，输入测试集完成提前1小时的电力负荷预测。

本发明还具有如下技术特征：

步骤S11中，对数据进行采集时，所有采集数据的长度统一，采样间隔均为1小时；

步骤S21中，h的取值为1～23的整数，d为1～7的整数。

步骤S47中，K的取值范围为2～10的整数，聚类算法迭代次数为500。

步骤S62中，预测模型为有监督的机器学习模型。

本发明与现有技术相比，具有如下技术效果：

(Ⅰ)本发明提出的基于多因素和改进特征筛选策略注重于短期电力负荷预测的前端数据处理，与当前的多种主流预测模型都可以结合使用，并能显著改善模型的预测精度，具有广泛的通用性。

(Ⅱ)本发明能够有效解决基于小时粒度的特征变量选取规则问题，在特征变量中加入负荷曲线的形状和模式信息，通过提高前端输入数据的质量，显著提升短期电力负荷的预测性能。

(Ⅲ)本发明中提出一种构造候选特征变量集的方法。通过充分考虑时间延迟因素在多因素与负荷之间的作用，所构造的候选特征变量集能够涵盖绝大部分与当前时刻负荷具有直接影响作用和间接影响作用的候选变量，为后续的特征筛选奠定基础。

(Ⅳ)本发明中提出一种基于数据集重构和RReliefF算法的小时粒度特征筛选。相比常规的特征筛选，应用此方法能够解决基于小时粒度的特征变量选取规则问题，更准确和深入地挖掘负荷位于气象因素敏感时刻和电价因素敏感时刻的不同最优特征集，以助于实现电力负荷的高精度预测。

(Ⅴ)本发明中引入基于余弦相似度的k-means聚类标签作为特征变量。通过将传统的欧氏距离改进为余弦相似度作为相似性度量函数，使k-means能够更加准确捕捉负荷曲线的在形态上的特征类型。聚类标签表征的形状信息和典型负荷模式信息有效提高了预测模型的识别和预测能力。

(Ⅵ)本发明的方法主要为短期电力负荷预测的前端数据处理方法，通过改善输入数据质量，从而能显著提高多种主流预测模型的预测精度，具有广泛的通用性。

(Ⅶ)本发明的方法结合时间延迟因素，充分涵盖了可能影响当前电力负荷的特征变量。之后利用基于数据集重构和RReliefF算法的小时粒度特征筛选，筛选出不同小时时刻的最优特征集，实现电力负荷的精细化预测。同时利用基于余弦相似度的k-means聚类算法，引入聚类标签表征负荷模式和形状信息，增强预测模型对不同类型的负荷曲线的识别能力。

(Ⅷ)本发明作为一种通用性的前端数据处理方法，能够有效提高预测阶段机器学习模型的学习效率和预测性能。

(Ⅸ)本发明所提出的基于多因素和改进特征筛选策略的短期电力负荷预测算法，主要针对前期输入数据的处理；经过试验验证，对于当前多种主流和经典的电力负荷预测模型，应用所提出改进策略后，能够在有限的维数中有效提升输入数据的质量，使后续预测阶段的机器学习模型能够更好地学习和捕捉负荷与多因素之间的影响关系和变化规律，从而进一步提升短期电力负荷预测的精度。

附图说明

图1为本发明的整体流程示意图。

图2为本发明的基于数据集重构和RReliefF算法的小时粒度特征筛选的原理示意图。

图3为应用例所有模型的预测结果的MAPE比较。

以下结合实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

由于电力负荷会受气象、电价等多种外部因素影响，结合多因素数据进行负荷预测能有助于提升预测结果的准确度。然而在实际应用中，经常会出现由于考虑过多因素导致输入模型数据的维数过高，加重模型的学习负担；对上百维的特征变量仅凭主观经验选取，选取规则有失科学性等问题；现有特征筛选方法直接衡量整体相关性，而忽视了最优特征集受时间因素的影响；因此为了充分挖掘电力负荷的关键影响变量，改善预测模型的输入数据质量，进一步提高短期电力负荷预测的精度，提出了本发明。

本发明的基于多因素和改进特征筛选策略的短期电力负荷预测方法包括以下步骤：

步骤S1，导入原始多因素数据集和数据预处理；

步骤S2，构造候选特征变量集；

步骤S3，基于数据集重构和RReliefF算法的小时粒度特征筛选；

步骤S4，引入基于余弦相似度的k-means聚类标签；

步骤S5，确定最终的输入变量集；

步骤S6，模型训练与预测。

遵从上述技术方案，以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例：

本实施例给出一种基于多因素和改进特征筛选策略的短期电力负荷预测方法，如图1所示，该方法包括以下步骤：

步骤S1，导入原始多因素数据集和数据预处理：

其中，对数据进行采集时，所有采集数据的长度统一，采样间隔均为1小时；为了保证方案的实施效果和最终负荷预测的准确度，数据集不能过小，采集数据的时间跨度应在一年以上为宜。

THI＝T+0.36Dp+41.2 公式Ⅰ；

式中：

T为干球温度的数值，干球温度的单位为℃；

Dp为露点温度的数值，露点温度的单位为℃；

其中，M为数据采样点数；

步骤S15，为了避免负荷与各影响因素之间量纲的差异，对于每一属性数据的样本序列，进行无量纲归一化处理，完成数据预处理；

所述的归一化公式为：

式中：

X^*为归一化后的值；

X为样本序列值；

X_min为样本序列中的最小值；

X_max为样本序列中的最大值；

步骤S2：构造候选特征变量集：

为了充分挖掘历史多因素数据对t时刻负荷的影响关系，并充分考虑时间延迟因素在其中的影响，需要构造候选特征变量集。

其中，h的取值为1～23的整数，d为1～7的整数。

步骤S3，基于数据集重构和RReliefF算法的小时粒度特征筛选：

直接将步骤S2中构造的候选特征变量集中所有变量输入预测模型会导致模型学习困难，因此需要筛选出最优变量集；目前常规使用的特征筛选方法一般直接去衡量特征序列与负荷序列的整体相关性，但这样就忽视了电力负荷在每天不同时刻受外部因素影响的程度会有所不同，在气象敏感时刻和电价敏感时刻的最优特征集也会有所不同；为此本发明提出了一种基于数据集重构和RReliefF算法的小时粒度特征筛选方法，具体如图2所示。

步骤S33，对于第i个小时，将

步骤S4，引入基于余弦相似度的k-means聚类标签；

为了进一步提高负荷预测的准确度，使用基于余弦相似度的k-means算法对历史负荷序列进行聚类分析，并将聚类标签作为一维特征变量来表征不同的负荷模式和曲线形状信息。

步骤S44，计算每个聚类中所有样本的均值

并将其更新为新的聚类中心C_k；

其中，|V_k|表示第k个类簇中样本对象的个数；

式中：

a(i)为样本DL_i到同簇其他样本DL_j的平均余弦相似度；

b(i)为样本DL_i到其他簇中所有样本DL_j的平均余弦相似度；

其中，K的取值范围为2～10的整数，聚类算法迭代次数为500。

需要说明的是，区别于传统的k-means算法采用欧式距离作为相似性度量函数，步骤S42中选取余弦相似度作为度量函数；欧式距离仅是对负荷曲线几何平均距离的度量，不能很好地反应负荷曲线的形态相似性，存在一定局限性；而余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上；所以本算法能更加关注不同季节时段下负荷曲线在形态上的相似和差异，从而更好地对不同类型的负荷曲线做出区分。

步骤S5，确定最终的输入变量集：

需要说明的是，因为由步骤S4得到聚类标签V已经能够表征周末、节假日和季节等信息，所以不需要再引入其他时间变量，避免造成特征冗余。

步骤S52，对于预测第n天第i个小时的负荷值L^*，最终输入预测模型的变量集S^*包括：由步骤S3得到的对应第i个小时的最优特征集S_i(30维)，由步骤S4得到的对应第n天的聚类标签V(1维)，以及由步骤S51生成的时间变量H(1维)；最终输入预测模型的变量集S^*共计32维；

步骤S6：模型训练与预测；

步骤S62，将训练集输入预测模型进行训练并调整超参数；

其中，预测模型为有监督的机器学习模型。需要说明的是，此处可适用的预测模型并无固定的要求，但必须为有监督的机器学习模型，如人工神经网络及其变种模型MLP、CNN、LSTM等，决策树及其变种模型Random Forest、GDBT、LightGBM等，支持向量机及其变种模型SVM、LSSVM等。

步骤S63，预测模型训练完毕后，输入测试集完成提前1小时的电力负荷预测。需要说明的是，本发明中使用MAPE、RMSE指标对预测结果进行评价。

应用例：

以ISO-NE电力负荷多因素数据集为例，遵从上述实施例中的基于多因素和改进特征筛选策略的短期电力负荷预测方法的所有步骤进行提前一小时的短期电力负荷预测实验，用于验证该方法的技术效果。

试验选取了在当前电力负荷预测领域多种主流和经典的机器学习算法：时间卷积网络(TCN)、长短时记忆网络(LSTM)、多层感知器(MLP)、极限学习机(ELM)和梯度提升树(GDBT)分别作为预测模型。使用本发明提出方法的模型记为“CL-DR-Model”，不使用本发明提出方法的模型记为为“Original-Model”。所有模型对一个测试周的提前一小时预测结果如图3所示。

由图3可知，虽然每个模型的预测精度限于模型自身特性各不相同，但结合使用本发明所提出方法后，各模型的预测精度均获得显著提升。由此证明本发明所提出方法作为一种着重于前端数据处理的负荷预测方法，在有限维数数据中提升输入数据质量，能够有效提升短期电力负荷预测精度。