CN113205182B

CN113205182B - 一种基于稀疏剪枝方法的实时电力负荷预测系统

Info

Publication number: CN113205182B
Application number: CN202110764899.4A
Authority: CN
Inventors: 唐洪; 邓锋; 肖湘; 夏军; 凌象政
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-09-17
Anticipated expiration: 2041-07-07
Also published as: CN113205182A

Abstract

本发明公开了一种基于稀疏剪枝方法的实时电力负荷预测系统，该系统采用连接灵敏度表示神经网络连接的重要性，并根据连接重要性在网络反向传播过程中去除对目标函数关联度较小的连接，从而使得预测系统中的GRU神经网络连接变得稀疏，这种稀疏化的GRU神经网络只需要在GRU神经网络上进行单次剪枝，并使用微调方式优化预测性能。经过实际测试，结果显示，基于连接灵敏度的单次剪枝算法在去除GRU预测系统中99.3%的参数，实现高稀疏率的情况下，该系统分类的准确度不会受到损失，解决了GRU预测系统在训练阶段参数量冗余，计算量庞大的问题。

Description

一种基于稀疏剪枝方法的实时电力负荷预测系统

技术领域

本发明涉及数据处理与预测技术领域，特别涉及一种基于稀疏剪枝方法的实时电力负荷预测系统。

背景技术

在电力系统中，发电量和负荷需要保持一致，电力负荷预测对于保持这两者的平衡具有重要意义，对保证智能电网稳定运行，优化能源配置起到重要作用。电力负荷数据具有典型的时序特点，目前基于SVM（支持向量机）的时序预测系统结构简单，不能有效提取历史数据的特征。随着深度学习技术在模式识别方面取得的巨大成功，采用基于深度学习的时序预测模型已成为业界共识。伴随深度神经网络的性能的提高，神经网络模型的参数量和计算量也在不断增长，部署这种深层大型模型对计算和存储资源提出了很高的要求，难以应用到资源受限的边缘设备上，以致应用受到很大限制。如，电力负荷预测需要从边缘端收集数据并且迅速返回配电系统的运行状态和实时负荷，需要把预测系统部署在内存、功耗受限的边缘端，而现有的深层神经网络预测模型参数量太大无法满足使用要求。理论上讲，目前基于深层神经网络的时序模型中存在的冗余参数和特征表示，也会给移动平台带来沉重的计算和存储负担。一般情况，过多的参数数量是会对网络性能的优化有一定的益处，但对保证预测准确度来说却是非必要的。因此，需要设计一种参数稀疏的深层神经网络用于电力负荷预测，该预测系统在保证模型预测性能的前提下能大幅度压缩参数的数量。

网络剪枝是一种流行的深度网络模型压缩方法。使用该方法在已经训练好的模型上进行修改，通过减少冗余参数，再进行微调，可以降低网络参数的复杂度和过拟合现象，且不会损失原来的准确率。目前的时序GRU（门控循环单元）网络是RNN（循环神经网络）网络的一种变体，和长短期记忆网络（Long Short-Term Memory，LSTM）一样，也是为了解决时序网络在长期记忆和反向传播中面临的梯度问题提出来的。相比LSTM网络，GRU神经网络参数量少，更容易训练，而且能够达到与LSTM网络相似的效果，因此很多时候会更倾向于使用GRU神经网络进行时序预测。把网络剪枝技术运用在GRU神经网络上的原因是希望降低GRU神经网络的参数量，并且在性能方面逼近原始网络。2016年，Han等人提出具有代表性工作的“三通道”剪枝方法，证明了参数设置过高的深度神经网络可以被压缩大约一至两个数量级，且不会显着降低精度。但Han的方法中在判断参数重要性时不正确的裁剪使参数无法恢复的问题，Guo等人针对Han方法的问题提出了动态剪枝方法，降低了网络剪枝的过程复杂度。为了进一步提升性能，Lee等人在LSTM和GRU神经网络上提出了SNiP（Single-ShotNetwork Pruning Based on Connection Sensitivity）单次剪枝方法大大提高了剪枝效率。但是Matthew Shunshi Zhang等人发现SNiP只适用于小数据集，在大数据集上其效果甚至不如随机修剪。2019年，Hua等人给出了RCLSTM（Random Connection Long Short-TermMemory）策略，让LSTM网络能够在付出25%的性能损失下获得99%的高稀疏率，取得了当时最好的效果。2020年，Xiong等人给出了最新的门控RNN网络的压缩方案SCLSTM（SparseRandom Connection Long Short-Term Memory）策略，SCLSTM不仅性能超过RCLSTM，甚至在剪枝后网络性能不逊色于密集连接的LSTM网络。Rahul等人试验了三种门控变体GRU（Gate-Variants of Gated Recurrent Unit，GVGRU），通过减少GRU神经网络中的更新门和重置门中约70%的参数，发现这三种GRU神经网络的变体与原始的GRU神经网络的性能相当。以上研究表明，GRU神经网络能够在不损坏性能的前提下通过修剪策略来降低网络参数量。

然而，以上剪枝技术中仍存在以下两个问题：剪枝过程中可能会不同程度的删除错误权重，预测性能上有待提高；训练过程比较缓慢，所占的内存开销依旧很大，在真实的电力负荷预测业务中依然无法满足边缘端部署的要求。

发明内容

本发明的目的在于提出一种基于稀疏剪枝方法的实时电力负荷预测系统，该预测系统依据预训练后的GRU神经网络，在反向传播过程中筛选出对目标函数影响不大的神经连接，设立的连接灵敏度修剪阈值可以快速识别重要连接，并且只需一次剪枝。该预测系统解决了GRU神经网络在训练阶段需要大量资源的缺陷问题，为在资源有限的电力数据边缘端上部署这种改进的负荷预测系统提供了一个很好的解决方案。

一种基于稀疏剪枝方法的实时电力负荷预测系统，包括多维时序数据集构建单元、神经连接敏感性阈值计算单元、模型参数修剪单元、模型微调单元和时序预测单元；

所述多维时序数据集构建单元用于GRU神经网络学习使用，具体用于执行缺失值数据填充、异常值数据清洗以及最大最小归一化，最后利用时间窗进行滑动处理，同时移除掉存在空缺值的数据行；所述神经连接敏感性阈值计算单元用于设立GRU神经网络在不同学习任务中的神经连接灵敏度，以作为网络修剪的参考，GRU神经网络学习多维时序数据中的时序规律之后，按照步骤(1)-(3)的方法设立当前任务的修剪阈值

；

步骤(1)，构建多维电力负荷数据集；

依据包含n个时刻的原始数据集

，其中x ^(t)为时刻为t的原始电力负荷数据，且

，

表示维度为1×1的实数，设定滑动窗口

，N ⁺表示大于零的自然数，通过时间窗进行滑动处理得到新的数据维度m=n-s-1，并形成适用于网络学习的时序数据集

，其中X ^(t)为t时刻的时序数据序列，且

，

表示维度为m行s列的实数，y ^(t)为标签数据列，且

，

表示维度为s行1列的实数；

步骤(2)，建立基于多维电力负荷数据集确定GRU神经网络的有监督学习映射关系；

GRU神经网络的结构中存在两个特定的门结构，分别为更新门和重置门：

其中，z ^(t)表示GRU神经网络t时刻下更新门状态，r ^(t)表示GRU神经网络t时刻下重置门状态，

是激活函数，h ^(t-1)是t-1时刻下的隐藏层状态，W _z为更新门的权重，W _r为重置门的权重，这两个权重参数矩阵都是

维，0<p<m，0<q<s，b _z和b _r是对应位置的偏置项，作为循环神经网络的变体，GRU神经网络的组成中同样继承以下结构：

其中，

表示GRU神经网络t时刻下的隐藏层状态，h ^t表示GRU神经网络t时刻下的输出状态，W _h是t-1时刻隐藏层和输入x ^(t)复合后到隐藏层的权重矩阵，g是激活函数，

为哈达马乘积，b _h是对应位置的偏置项，最后GRU神经网络定义为迭代计算完成的映射关系：

其中，W为GRU神经网络中三个线性运算的参数矩阵W _z、W _r、W _h的组合，

为t时刻的预测值；

步骤(3)，依据映射关系内的参数矩阵W设立修剪阈值

，同时引入辅助指标变量

，c是由0和1组成的长度为p的向量，用于优化目标函数L _GRU(W;D _T)：

其中

为人工控制的常数，

是用于控制修剪阈值

的敏感因子，i和j分别是参数矩阵的行下标和列下标，p和q分别是参数矩阵行和列的最大维度，|W _ij|是参数矩阵中i行j列位置处的参数绝对值，|W|是参数矩阵的绝对值，

是|W _ij|的平均值，

是|W|的平均值，给定稀疏水平k，设定模型约束条件：

对应于参数矩阵，有掩膜矩阵

：

其中，C _ij为掩膜矩阵C中第i行第j列的元素，

为掩膜矩阵C中第q列，T为转置符号，此时，优化问题转换为：

其中，

是用于计算单个样本的损失函数，

表示时序数据集D _T内第i行第j列的时序数据X _ij及其标签y _i；

所述模型参数修剪单元用于按照神经连接敏感性阈值计算单元给出的修剪阈值

作为删减标准，修剪掉GRU神经网络中不敏感的神经连接，同时产生一个单次剪枝后的准预测系统；

所述模型微调单元用于对单次剪枝后的准预测系统进行重训练以微调模型参数来提高性能，微调后产生的最终模型即为稀疏化的GRU预测系统；

所述时序预测单元用于预测未来时段的时序特征。

上述基于稀疏剪枝方法的实时电力负荷预测系统，其中，人工控制的敏感因子

取值服从

。

有益效果：

本发明提供了一种基于稀疏剪枝方法的实时电力负荷预测系统，该预测系统依据预训练后的GRU神经网络，在反向传播过程中筛选出对目标函数影响不大的神经连接，设立连接灵敏度修剪阈值进行单次剪枝，最后通过fine-turning步骤进一步优化压缩后模型的时序预测性能。基于该方法提出的稀疏化的GRU预测系统（Sparse Connection GatedRecurrent Unit，简称SCGRU）在保持原模型性能的情况下实现了高度稀疏率，解决了GRU神经网络在训练阶段需要大量资源缺陷问题，训练过程更快，减小了所占的内存开销，为在资源有限的移动设备上部署GRU神经网络提供了一个的目前最佳的解决方案。本发明实现了将模型剪枝和模型稀疏化结合，不但可以进一步提升模型剪枝得精度，而且能提升模型的运算效率。

实验证明，本发明的预测系统在不影响精度的情况下，将GRU所需的存储和计算量减少一个数量级。本发明的预测系统将传统的GRU预测系统的参数量减少了98.4%，而RCGRU和Xiong等人的方法（以下简称X-GRU）最多能够修剪97%。同时，本发明的预测系统在性能上超过了RCGRU，X-GRU和传统的GRU预测系统。在LAN流量预测中，本发明的预测系统在只保留0.7%的参数量下模型性能没有显著下降。总之，本发明的预测系统可以降低浮点运算量，存储负担以及网络复杂性，同时保持良好的性能，从而使其更易于在资源有限的电力数据边缘平台上进行部署。因此，在资源有限的边缘设备上本发明的预测系统能够成功代替传统的GRU预测系统，并且本发明的预测系统的性能要优于最新的算法，进一步表明了该方法的有效性。

附图说明

图1为本发明实施例提供的基于稀疏剪枝方法的实时电力负荷预测系统的工作原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明的实例提供一种基于稀疏剪枝方法的实时电力负荷预测系统，从图1中可知，流程起始时首先进行数据预处理，以构建多维时序数据集；同时，建立一种全连接的GRU神经网络；然后，基于神经连接灵敏度来设计网络修剪的阈值，同时给稀疏力度设定有界限的参考标准；其次，使用修剪后的模型进行损失值计算，并进行梯度更新；最后，对准预测系统进行参数微调，以形成最终的SCGRU预测系统。

基于上述流程，该预测系统包括：

多维时序数据集构建单元，用于GRU神经网络学习使用，具体用于执行缺失值数据填充、异常值数据清洗以及最大最小归一化，最后利用时间窗（Time-window）进行滑动处理，同时移除掉存在空缺值的数据行。

神经连接敏感性阈值计算单元，用于设立GRU神经网络在不同学习任务中的神经连接灵敏度，以作为网络修剪的参考，GRU神经网络学习多维时序数据中的时序规律之后，按照步骤(1)-(3)的方法设立当前任务的修剪阈值

；

步骤(1)，构建多维电力负荷数据集；

依据包含n个时刻的原始数据集

，其中x ^(t)为时刻为t的原始电力负荷数据，且

，

表示维度为1×1的实数，设定滑动窗口大小

，其中X ^(t)为t时刻的时序数据序列，且

，

表示维度为m行s列的实数，y ^(t)为标签数据列，且

，

表示维度为s行1列的实数；

其中，

为t时刻的预测值；

步骤(3)，依据映射关系内的参数矩阵W设立修剪阈值

，同时引入辅助指标变量

其中

为人工控制的常数，

是用于控制修剪阈值

是|W _ij|的平均值，

是|W|的平均值，给定稀疏水平k，设定模型约束条件：

为了保证被剪枝的连接不再经由反向传播而复活，引入辅助指标变量

，对应于参数矩阵，有掩膜矩阵

：

其中，C _ij为掩膜矩阵C中第i行第j列的元素，

其中，L _GRU(W;D _T)为GRU神经网络学习的目标函数，

是用于计算单个样本的损失函数，

表示时序数据集D _T内第i行第j列的时序数据X _ij及其标签y _i。

模型参数修剪单元，用于按照神经连接敏感性阈值计算单元给出的修剪阈值

作为删减标准，修剪掉GRU神经网络中不敏感的神经连接，同时产生一个单次剪枝后的准预测系统。

模型微调单元，用于对单次剪枝后的准预测系统进行重训练以微调系统参数来提高性能，微调后产生的最终预测系统即为稀疏化的GRU预测系统。

时序预测单元，用于预测未来时段的时序特征。可以分别选择经典时序预测系统、剪枝预系统以及最终SCGRU预测系统作为预测工具，并进行预测结果的比较。

下面对上述的基于稀疏剪枝方法的实时电力负荷预测系统的有效性进行验证：

为了验证本发明所述预测系统的有效性，将该预测系统来预测局域网流量（LocalArea Network，LAN）数据集以及中国某省份电力负荷流量数据。LAN数据集来自GÉANT（研究和教育界的泛欧数据源）骨干网中链路的实际流量数据。从2005年间的4个月内由23个带宽点每15分钟采样一次，数据点单位为Kbps。该数据集由使用完整内部网关协议（InternalGateway Protocol，IGP）路由信息构建的流量矩阵组成，并以可扩展标记语言（ExtensibleMarkup Language，XML）的形式记录，每条数据可以映射为一个23×23的流量矩阵。电力负荷数据集从2014年1月至2016年6月，每间隔5分钟记录一次，其数据单位是MW。原始数据集内总共有257184条，每条数据由采集时间和电力负荷值组成。此外，本发明引入在时序任务中非常出色的传统机器学习模型如自回归移动平均（Autoregressive Integrated MovingAverage，ARIMA）、支持向量回归（Support Vector Regression，SVR）以及前馈神经网络（Feed Forward Neural Networks，FFNNs），同时，加入稀疏模型RCGRU、X-GRU以及三种门控变体GRU（Gate-Variants of Gated Recurrent Units，GVGRUs）等作为深度神经网络的代表。最后，为了分析不同系统之间的性能误差，本发明在实验中使用均方根误差（Root MeanSquare Error，RMSE）作为模型性能的衡量标准。

1．电力负荷实验分析

在电力负荷预测实验中，基于实时流量预测的需要，本发明引入了滑动窗口，将输入流量序列长度设置为100。并对原始数据作为基数10的对数进行归一化，以使神经网络的训练阶段收敛更快。同时，所有基于GRU的神经网络（mini-GRU除外）的隐藏单元统一设置为350，批次大小设置为128，随机种子设置为42，而训练样本数与测试样本数之比设置为9:1。在训练过程中使用自适应矩估计（Adam）优化器，学习率设置为0.001，权重衰减为1e-5。RMSE用于测量预测值和实际值之间的差异。为了比较预测系统的稀疏能力，本发明设置RCGRU、X-GRU和SCGRU预测系统（即本发明提供的预测系统）在同一压缩率下进行比较。同时参与比较的还有GVGRUs、SVR和FFNN等常用的预测技术。其中，FFNN的输入维度设置为100，三个隐藏层各具50个神经元。SVR选择径向基函数（Radial Basis Function，RBF）作为核，参数迭代更新的停止阈值设置为0.001，并且输入维度设置为100。

本发明对比了各个预测系统所使用的参数量，稀疏比例，修剪周期和预测误差RMSE。对比结果如表1所示，经典预测系统的效果显然不如基于神经网络的预测系统，存储单元大小为35的GRU预测系统比全连接GRU预测系统落在了更好的局部最优解中。在基于结构稀疏的GVGRUs预测系统中，GVGRU-1预测系统在减少了0.19%的参数情况下，效果强于全连接GRU预测系统。放弃了偏置的GVGRU-2预测系统能够在稀疏连接66.41%的情况下，预测性能效果好于全连接GRU预测系统。RCGRU预测系统能够在极度稀疏的情况下保证预测性能，并且Xiong等人能够在同一个稀疏水平下，性能更上一个台阶。但是，RCGRU和X-GRU预测系统都需要大量的“剪枝-重训练”迭代周期来优化神经连接。而SCGRU预测系统在学习过程中设定好稀疏水平k后，只需要修剪一次便可以学习到同样的甚至更优的性能。

表1 本发明和其他现有预测系统在电力负荷预测方面的多个维度比较

在基于连接的稀疏预测系统中，本发明分析了SCGRU，X-GRU和RCGRU预测系统的最佳修剪率，以及它们在不同修剪率下的性能。在0%到90%的修剪力度区间，每隔10%进行测试。在90%到99%区间，每隔1%进行测试。为了探究某些稀疏预测系统的极限，在99%-99.5%区间，每隔0.1%进行测试。从表2左侧可以得知，RCGRU预测系统的在没有微调情况下效果非常差。X-GRU预测系统的最佳稀疏效果要好于SCGRU预测系统，不过，SCGRU预测系统的最佳极度稀疏效果最优。SCGRU预测系统在没有微调的情况下，稀疏90%的参数，并且性能下降的程度在可接受范围内。表2右侧则是展现了各个预测系统微调后的性能对比，RCGRU预测系统稀疏能力非常高，但是与传统的GRU预测系统相比，性能下降明显。X-GRU预测系统最佳剪枝率为95%，并且能够保证一个非常好的模型性能。SCGRU预测系统是三者最好的，它在稀疏97%的参数量情况下，模型性能甚至好于传统的GRU预测系统。同时，在稀疏98.4%的情况下，SCGRU预测系统的性能依旧强于RCGRU和X-GRU预测系统。

表2 本发明和基于神经连接剪枝的预测系统在电力负荷预测方面的修剪性能比较（其中，BPR: best pruning rate表示最佳剪枝率; BERP: the best extreme pruningrate最佳极端剪枝率; Best-RMSE: 最好的均方根误差；BEPR-RMSE: 最佳极端剪枝率时的均方根误差）

2．局域网流量预测和分析

在LAN流量预测实验中，数据预处理方面同样使用了滑动窗口，并且设置为100。类似地，除了mini-GRU以外，其他所有基于GRU的神经网络的隐藏单元统一设置为350。批次大小设置为32，随机种子设置为42。优化器Adam的学习率设置为0.001，权重衰减为9e-5，并且同样使用RMSE来计算误差。同样，本发明对比了SCGRU和X-GRU、RCGRU、GVGRUs以及在时序预测方面有突出表现的ARIMA、SVR和FFNN。其中，FFNN的输入维度设置为100，并设置了两个神经元个数为50的隐藏层。SVR的设置和电力负荷预测实验一致。最后，重点比较了三个基于神经连接的稀疏预测系统（RCGRU、X-GRU和SCGRU）在有微调和没有微调两种情况下的预测性能。

本发明对比了各个预测系统所使用的参数量，稀疏比例，修剪周期和预测误差RMSE。对比结果如表3所示，经典预测系统的效果显然不如基于神经网络的预测系统，存储单元大小为35的GRU预测系统比全连接GRU预测系统落在了更好的局部最优解中。在基于结构稀疏的GVGRUs预测系统中，GVGRU-1预测系统在减少了0.19%的参数情况下，效果强于全连接GRU预测系统。放弃了偏置的GVGRU-2预测系统能够在稀疏连接66.41%的情况下，模型性能效果好于全连接GRU预测系统。RCGRU预测系统能够在极度稀疏的情况下保证预测性能，并且Xiong等人能够在同一个稀疏水平下，性能更上一个台阶。但是，RCGRU和X-GRU预测系统都需要“剪枝-重训练”迭代周期（“prune-retrain”cycles）来优化神经连接。SCGRU预测系统在学习过程中设定好稀疏水平k后，只需要修剪一次便可以学习到同样的甚至更优的性能。

表3 本发明和其他现有预测系统在LAN流量预测方面的多个维度比较

在基于连接的稀疏模型中，本发明分析了SCGRU，X-GRU和RCGRU预测系统的最佳修剪率，以及它们在不同修剪率下的性能。在0%到90%的修剪力度区间，每隔10%进行测试。在90%到99%区间，每隔1%进行测试。为了探究某些稀疏模型的极限，在99%-99.5%区间，每隔0.1%进行测试。表4左侧展示了RCGRU，X-GRU和RCGRU预测系统在没有微调的情况下，各个预测系统的最佳修剪率和最佳极度修剪率之比。如果没有微调，RCGRU预测系统几乎丧失了能力。X-GRU预测系统能展现出一些韧性。而本发明提出的SCGRU预测系统能够没有微调的情况下，单次修剪70%的参数量而没有显著性能损失。表4右侧展示了RCGRU，X-GRU和RCGRU预测系统在有微调的情况下，各个系统的最佳修剪率和最佳极度修剪率之比。很显然，微调后各个模型的最佳修剪率上升。不过，SCGRU预测系统系统还是能够在修剪最多参数量的情况下性能最好。

表4 本发明和基于神经连接剪枝的预测系统在LAN流量预测方面的修剪性能比较

以上结果表明，本发明所提出的预测系统的预测性能具有非常高的优异性和实用价值。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。