CN112200391B

CN112200391B - 基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法

Info

Publication number: CN112200391B
Application number: CN202011285879.0A
Authority: CN
Inventors: 李润秋; 张鹭; 罗迪; 姚瑾; 王威
Original assignee: Economic and Technological Research Institute of State Grid Shaanxi Electric Power Co Ltd
Current assignee: Economic and Technological Research Institute of State Grid Shaanxi Electric Power Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2023-07-04
Anticipated expiration: 2040-11-17
Also published as: CN112200391A

Abstract

本发明公开了基于k‑近邻互信息特征简化的配电网边缘侧负荷预测方法，通过补全缺失值以及对天气日期类型进行独热编码等预处理方式建立负荷预测训练及验证数据集，然后对日总负荷预测循环神经网络进行前向和后向传播的训练；得出预测日总负荷后，估计多维输入向量与输出向量之间的互信息，进行特征选择以简化运算节省边缘计算能耗，将特征简化后的天气、日期数据与日总负荷、分时刻负荷数据作为新的数据样本训练分时刻负荷预测网络；最后将预测日相关信息输入训练完成的分时刻负荷预测网络得出区域内某日的日总负荷以及分时刻负荷预测值。本发明实现方法整体化简，在一定程度上提高区域内部分边缘计算任务的效率，完善配电物联网的边缘计算架构。

Description

基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法

技术领域

本发明涉及配电网短期负荷预测技术领域，具体涉及边缘计算架构下应用深度循环神经网络的配电物联网负荷预测方法，设计轻量化适用于边缘计算侧的日时双层神经网络预测模型，并对其进行简化特征变量的训练使其根据所划分能量自治区域内的历史负荷数据进行准确实时的短期负荷预测。

背景技术

我国电力物联网发展迅速，随着5G通信网络的逐渐展开其建设进程进一步加快，社会生产进步和人民生活水平提高，对电力系统安全的依赖性也不断加强，对配电网络安全稳定性的提升以及智能化的建设提出了更高要求。配电物联网建设过程中最为基础的感知层设备数量大幅增长，设备状态数据、运行环境信息等海量异构且不同传输带宽的数据爆炸式增长，给电力数据的传输存储以及运算处理工作带来了巨大压力。边缘计算技术可以就近处理仅对于本地更有价值的数据，也能够更近距离地储存和归档原始数据，进行简单的过滤、统计工作或通过上层云计算中心下发的数据处理模型对数据进行初步处理后再将结果上传，减少需要进行维护或送往云端和企业数据中心的数据量，从而节约时间成本和能耗成本，并为更重要更复杂的数据流处理节约有限的网络带宽，在配电物联网中合理设计边缘计算架构、应用边缘计算技术可以降低组网成本。

边缘计算架构下的配网数据处理工作要求利用边缘侧有限的计算资源和结构复杂的本地数据，进行有效的信息提取并尽量节约数据处理的能耗和传输时间，但配电物联网当前阶段采用的基于深度学习的负荷预测方法多适用于电力数据中心，网络结构复杂、占用大量计算资源不适合在边缘计算架构进行轻量化的计算和实时数据处理，而且普遍采用时间序列进行预测而很少计及天气和日期类型等信息的影响。

发明内容

针对配网数据中心现有负荷预测方法模型复杂不便于下发至边缘计算侧执行分区负荷预测任务的问题，本发明提出了一种适用于边缘计算架构的轻量化日时分层负荷预测神经网络模型，并同时提出基于此模型在能量自治区域边缘侧进行短期负荷预测的方法，提高利用边缘侧所采集数据进行区域负荷预测的效率并减轻边缘侧计算压力。

为达到上述目的，本发明采用如下技术方案：

基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法，包括以下步骤：

步骤1：收集包含天气信息、具体日期、每隔十五分钟采集一次的历史分时刻负荷数据以及日总负荷的数据集作为负荷预测任务的原始数据集Ω₀，对原始数据集Ω₀进行缺失值补全、孤立点检测和剔除，对天气信息以及历史分时刻负荷数据进行归一化处理，对日期所属类型进行独热编码，预处理后得到数据集

其中，/>

表示日期信息，

表示天气信息，/>

表示历史负荷值，L_D表示预测结果中的日总负荷值，将该数据集划分为日负荷训练集T_d和日负荷验证集V_d；

步骤2：利用步骤1得到的日负荷训练集T_d对基于深度循环神经网络的日总负荷预测模型进行训练；

步骤3：将预测目标日的天气信息、具体日期、历史分时刻负荷数据作为日总负荷预测模型的输入，得到目标日的日总负荷预测值

步骤4：基于k-近邻互信息的特征匹配方法，计算高维输入变量中具体日期、天气信息各子集与日总负荷预测值之间的信息关联程度，保留原数据集中的强关联输入变量，筛除弱关联项组成分时刻负荷预测网络的层间过渡数据集

其中，/>

表示特征筛选后的日期信息，/>

表示特征筛选后的天气数据，/>

表示输出的预测日分时刻负荷序列，；

步骤5：利用步骤4得到的层间过渡数据集

训练基于深度循环神经网络的分时刻负荷预测模型；

步骤6：利用步骤2和步骤5中训练完成的日总负荷以及分时刻负荷预测双层模型，输入预测目标日的日期类型、天气信息和过去一周内历史负荷数据，对预测日的总负荷值和一天内每隔十五分钟的96个负荷值进行预测。

所述步骤2包括以下步骤：

S2.1:日总负荷预测模型的输入节点包括日最高温度、最低气温、日平均气温、相对湿度、降雨量、周几、是否节假日以及过去一周内每隔十五分钟采集一次的672个历史负荷值信息，输出节点为预测日的日总负荷；S2.2:日总负荷预测模型的隐藏层层数初始设置为5层，隐藏层每层的节点数根据经验公式设置初始值为30个，在训练过程中根据模型收敛情况以及预测效果对隐藏层和节点数进行试凑，节点数设置经验公式如下：

式中，n₁代表初始隐藏层节点数，n代表预测网络输入层节点数679，m代表预测日总负荷网络输出层节点数1，c∈[1,10]的自然数；

S2.3:日总负荷预测模型的激活函数设置为tansig函数，初始化训练迭代次数为2000次，初始学习率设为0.1；

S2.4:日总负荷预测模型根据激活函数正向计算各层节点输入值和神经节点传播权重，根据反向传播算法反馈误差对神经节点传播权值进行更新优化，直到在超出迭代阈值之前神经网络的损失函数值收敛，则训练结束；

S2.5:日总负荷预测模型的损失函数Loss_d为预测值与实际值的差。

所述步骤4包括以下步骤：

S4.1:首先将天气信息和具体日期表示为多维特征输入变量X＝(X₁,X₂,...X_M)，输出历史分时刻负荷序列中的峰值为Y，输入变量每个维度变量X_i与输出Y之间的互信息值为MI(X_i,Y)，根据k-近邻互信息的具体计算公式如下：

式中，ψ函数为Psi(Digamma)函数，其定义为

确定ψ函数的自变量k取值的具体步骤如S4.2所述，ψ函数的自变量n为X与Y合并数据集的总样本数量，n_x(i)表示数据集X中距离X与Y合并数据集中第i个点x_i严格小于/>

的近邻点数，d_i为x_i与其k近邻之间的距离，n_y(i)表示数据集Y中距离X与Y合并数据集中第i个点x_i严格小于/>

的近邻点数；

S4.2:将(X_i,Y)随机分成s个互斥且近似的子集U₁,U₂,...,U_s，依次去掉其中第j个子集U_j，由剩余子集组成数据集Ω_{remain_j}，其中的输入为X_ij，随机置换Y得到Y_j,π,设定k∈[1,30]，k为整数，根据S4.1中公式计算k取每一个值时，数据集Ω_{remain_j},j∈[1,s]中的X_ij与Y之间的互信息MI_k(X_j,Y)值，以及X_ij与Y_j,π之间的互信息MI_k(X_j,Y_j,π)值，并计算其分布，进行z检验，使z_k最大的k即为第i维输入变量X_i对应的k值，z检验的具体公式如下：

式中，；μ_k和μ_k,π分别代表互信息MI_k(X_j,Y)和MI_k(X_j,Y_j,π)的均值，σ_k和σ_k,π分别代表MI_k(X_j,Y)和MI_k(X_j,Y_j,π)的标准差，N代表互信息值的个数；

S4.3:根据S4.1的互信息估计公式和S4.2确定的k值计算每个维度变量X_i与输出Y之间的互信息值MI(X_i,Y)，按照互信息值降序排列，剔除弱相关输入变量。

所述步骤5包括以下步骤：

S5.1:将层间过渡数据集Ω₂的90％作为训练集T_t，其余10％作为验证集V_t，训练时输入变量为特征提取后的日期数据

天气数据/>

过去一周内每隔十五分钟采集的历史分时刻负荷数据/>

以及日总负荷L_D；

S5.2:网络的输入节点数根据特征提取结果和负荷数据集而定，隐藏层层数和每层节点数利用试凑法得到；

S5.4:分时刻负荷预测模型的激活函数设置为tanh函数，初始化训练迭代次数为1000次，初始学习率设为0.1；

S5.5:根据反向传播算法反馈误差更新优化各层节点权值，重复训练过程直到损失函数Loss_t(s)收敛，则训练结束，用验证集V_t检测分时刻负荷预测模型预测准确率，当准确率在90％以上时表示模型训练达标，如果低于90％则返回步骤4重新对特征输入变量进行选择组成新的输入数据集，基于均方根误差的损失函数Loss_t具体计算公式如下：

式中，y_i为预测时刻实际负荷值，

为预测时刻预测负荷值。

与现有技术相比，至少具有以下有益的技术效果：

该方法首次根据预测任务的复杂程度对深度循环神经网络的结构进行轻量化设计，并通过分层多次调用网络的方法将负荷预测任务分解为日总负荷预测任务和分时负荷预测任务；

该方法的输入为包含区域日期、天气及历史负荷的经过预处理的数据集，首先对总-分式双层负荷预测网络中的日总负荷层进行训练，有效预测出日总负荷，将多输入特征信息汇集到日总负荷中以达到简化分时负荷预测输入层的目的；

基于k-近邻估计互信息值的特征匹配方法建立输入特征变量与输出之间的关联，更新输入数据集对分时负荷层进行训练，在节省分时刻负荷预测网络训练以及预测时间的同时保持所提取出的特征信息与预测负荷量之间具有强有效关联；

在利用重组数据集训练分时刻负荷层的环节，根据预测精确度反复迭代对特征信息的提炼过程，使最终得到的重组数据集对分时刻负荷预测模型的训练效果是理想的，实现对能量自治区域内各时刻负荷更准确的负荷预测。

附图说明

图1为本发明预测方法流程图。

具体实施方式

为了使本发明的目的和技术方案更加清晰和便于理解。以下结合附图和实例，对本发明进行进一步的详细说明，此处所描述的具体实施例仅用于解释本发明，并非用于限定本发明。

下面结合“利用历史负荷数据集对区域性分时刻负荷进行预测”这一实例对本发明作更详细的说明。

如图1所示，本发明一种基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法，步骤如下：

步骤1：收集包含天气信息、具体日期、每隔十五分钟采集一次的历史分时刻负荷数据以及日总负荷的数据集作为负荷预测任务的原始数据集Ω₀，对原始数据集Ω₀整体进行缺失值补全、孤立点的检测和剔除操作，对天气信息中包含的温度、湿度、降雨量数据以及历史分时刻负荷数据进行归一化处理，对日期是否为节假日、为周几进行独热编码，预处理后将数据集

划分为日负荷训练集T_d和日负荷验证集V_d，其中/>

表示日期信息，/>

表示天气信息，/>

表示历史负荷值，L_D表示预测结果中的日总负荷值，归一化公式如下式所示：

式中，y_max、y_min分别表示归一化后的最大最小值，默认为±1，x_max、x_min分别表示归一化前的原始数据范围；

步骤2：利用步骤1得到的日负荷训练集T_d对基于深度循环神经网络的日总负荷预测模型进行训练，具体包括以下步骤：

S2.1:日总负荷预测模型的输入节点包括日最高温度、最低气温、日平均气温、相对湿度、降雨量、周几、是否节假日以及过去一周内每隔十五分钟采集一次的672个历史负荷值等信息，输出节点为预测日的日总负荷；

S2.2:日总负荷预测模型的隐藏层层数初始设置为5层，隐藏层每层的节点数根据经验公式设置初始值为30个，在训练过程中根据模型收敛情况以及预测效果对隐藏层和节点数进行试凑，节点数设置经验公式如下：

S2.4:日总负荷预测模型根据激活函数正向计算各层节点输入值和神经节点传播权重，根据反向传播算法反馈误差对权值进行更新优化，重复上述过程直到在超出迭代阈值之前神经网络的损失函数值收敛，则训练结束；

S2.5:日总负荷预测网络的损失函数Loss_d为预测值与实际值的差；

步骤4：基于k-近邻互信息的特征匹配方法，计算高维输入变量中具体日期、天气信息各子集与日总负荷预测值之间的信息关联程度，保留原数据集中的强关联输入变量，筛除弱关联项组成层间过渡数据集

以简化下一层分时刻负荷预测网络的训练样本，提高预测效率，其中，/>

表示特征筛选后的日期信息，/>

表示特征筛选后的天气数据，前四项为预测网络输入，/>

表示输出的预测日分时刻负荷序列，具体包括以下步骤：

式中，ψ函数为Psi(Digamma)函数，其定义为

的近邻点数；

S4.2:将(X_i,Y)随机分成s个互斥且近似的子集U₁,U₂,...,U_s，依次去掉其中第j个子集U_j，由剩余子集组成数据集Ω_{remain_j}，其中的输入为X_ij，随机置换Y得到Y_j,π,设定k∈[1,30]，k为整数，根据S4.1中公式计算k取每一个值时，数据集Ω_{remain_j},j∈[1,s]中的X_ij与Y之间的互信息MI_k(X_j,Y)值，以及X_ij与Y_j,π之间的互信息MI_k(X_j,Y_j,π)值，并计算其分布，进行z检验，使z_k最大的k即为第i维输入变量Xi对应的k值，z检验的具体公式如下：

S4.3:根据S4.1的互信息估计公式和S4.2确定的k值计算每个维度变量X_i与输出Y之间的互信息值MI(X_i,Y)，按照互信息值降序排列，剔除弱相关输入变量；

步骤5：利用步骤4得到的层间过渡数据集

训练基于深度循环神经网络的分时刻负荷预测模型，具体步骤如下：

天气数据/>

过去一周内每隔十五分钟采集的历史分时刻负荷数据/>

以及日总负荷L_D；

S5.5:根据反向传播算法反馈误差更新优化各层节点权值，重复训练过程直到损失函数Loss_t(s)收敛，则训练结束，用验证集检测模型预测准确率，当准确率在90％以上时表示模型训练达标，如果低于90％则返回步骤4重新对特征输入变量进行选择组成新的输入数据集，基于均方根误差的损失函数Loss_t具体计算公式如下：

式中，y_i为预测时刻实际负荷值，

为预测时刻预测负荷值；

输入周一到周日7个预测目标日的日期类型、天气信息和每天对应的过去一周内历史负荷数据，对预测日的总负荷值和一天内每隔十五分钟的负荷值进行预测后，最终输出预测结果与实际情况相符的准确率为85.01％，符合配网边缘计算架构下对能量自治区域内短期负荷预测的要求。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。