CN117878959A

CN117878959A - 配电网无功优化方法、设备、装置及计算机可读存储介质

Info

Publication number: CN117878959A
Application number: CN202410068258.9A
Authority: CN
Inventors: 廖锦霖; 林佳; 吴桂联; 朱乃璇; 孙锘祾
Original assignee: State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-12

Abstract

本发明公开一种配电网无功优化方法、设备、装置及计算机可读存储介质，所述方法包括根据配电网的调节设备确定对应的动作集合以及状态集合；根据所述调节设备的动作集合以及状态集合确定对应的奖励函数；基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合；根据所述动作策略对所述配电网进行无功优化；能够自适应地做出决策动态调整配电网的节点电压，从而减少电网损耗，在实现实时决策的同时保证更好的无功优化效果。

Description

配电网无功优化方法、设备、装置及计算机可读存储介质

技术领域

本发明涉及配电网无功优化领域，尤其涉及一种配电网无功优化方法、设备、装置及计算机可读存储介质。

背景技术

随着大规模风力、光伏等分布式电源大量引入配电网，其出力不确定的电源在系统中的占比逐步提高，配电网在分布式电源消纳、灵活性资源调控等方面面临挑战。由于风力和光伏随天气变化波动明显，其出力具有随机性，此外还有负荷的随机波动，这些给配电网带来电能质量降低、网损提高等问题，系统安全性难以保证。因此，需要优化配电网的无功，在保障电网稳定、可靠运行的条件下，减少电网网损。

目前主流的配电网无功优化方法，如遗传算法、模拟退火算法、粒子群算法等，寻优迭代时间长，导致求解优化目标函数时间长，无法满足实时调度、调节的需求，此外还存在陷入局部最优的问题。

发明内容

本发明所要解决的技术问题是：提供一种配电网无功优化方法、设备、装置及计算机可读存储介质，能够实现实时地对配电网进行无功优化。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种配电网无功优化方法，包括步骤：

根据配电网的调节设备确定对应的动作集合以及状态集合；

根据所述调节设备的动作集合以及状态集合确定对应的奖励函数；

基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合；

根据所述动作策略对所述配电网进行无功优化。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种配电网无功优化设备，包括：

集合确定模块，用于根据配电网的调节设备确定对应的动作集合以及状态集合；

函数确定模块，用于根据所述调节设备的动作集合以及状态集合确定对应的奖励函数；

交互模块，用于基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合；

优化模块，用于根据所述动作策略对所述配电网进行无功优化。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种配电网无功优化装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种配电网无功优化方法的步骤。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述一种配电网无功优化方法的步骤。

本发明的有益效果在于：先根据配电网的调节设备确定对应的动作集合、状态集合以及奖励函数；接着基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合；最后根据所述动作策略对所述配电网进行无功优化；能够自适应地做出决策动态调整配电网的节点电压，从而减少电网损耗，在实现实时决策的同时保证更好的无功优化效果。

附图说明

图1为本发明实施例的一种配电网无功优化方法的步骤流程图；

图2为本发明实施例的Actor－Critic网络的结构示意图；

图3为本发明实施例的算法优化流程图；

图4为本发明实施例的一种配电网无功优化设备的结构示意图；

图5为本发明实施例的一种配电网无功优化装置的结构示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本申请上述配电网无功优化方法、设备、装置及计算机可读存储介质能够适用于分布式光伏、风机等电源出力变化下实时优化调度配电网的资源，以优化配电网无功的应用场景，以下通过具体实施方式进行说明：

在一个可选的实施方式中，如图1所示，配电网无功优化方法，包括步骤：

S1、根据配电网的调节设备确定对应的动作集合以及状态集合；

其中，所述调节设备包括电容器SC、变压器OLTC以及逆变器DG；

离散投切电容器(Switching Capacitor,SC)和有载调压变压器(On-Line TapChanger,OLTC)属于离散调节设备。它们调节无功功率的方式是在预定的档位或步进上进行，通过开关或变压器的操作，使系统吸收或释放特定的无功功率。这些调节设备只能在预先设定的离散级别上进行调节。分布式电源(Distributed Generation,DG)的无功功率是连续调节的。在本实施方式中，DG逆变器运行在母线上，其视在功率容量为S_DG。DG逆变器可以在一定范围内连续地提供或吸收无功功率，而不是像离散调节设备那样只能在特定档位上进行调节。这种连续调节使得DG系统能够更灵活地响应电力系统的变化需求，如实时调整无功功率来稳定电压等，可表示为：

-Q_DG,MAX≤Q_DG≤Q_DG,MAX

式中，Q_DG,MAX为最大无功功率，无功功率P_DG为有功功率，α_DG∈[-1,1]，Q_DG＝α_DGQ_DG,MAX，α_DG为控制变量。

在配电网无功优化中，目标是通过调整无功功率的分配，确保电压能够稳定在正常范围内，并同时最小化配电网的有功网损，目标函数可表示为：

式中，N为日内周期的数量；P_loss,i为有功网损，i表示第i个周期。

在进行配电网无功优化时，节点电压U_d、无功功率Q_d和动作量变化SG_d必须满足一系列约束条件，以确保优化结果的可行性和可靠性，如下所示：

上述式子中，两边的值分别为节点电压U_d、无功功率Q_d和动作量变化SG_d的最小值和最大值。

SC、OLTC、DG的动作集合[a₁,a₂,…,a_N]^T定义了动作的搜索空间，即需要在这些动作中选择最优的组合来达到优化目标。

本实施方式引入三个重要的变量和矩阵来描述配电网无功优化的决策过程。其中，U_i矩阵表示第i个决策阶段的配电网节点电压状况，其维度为n×m，n为可量测的节点个数，m为动作周期的测量次数。SG_i矩阵则记录了第i个动作周期内各个调节设备的投切档位情况，而E_i矩阵表示第i个动作周期内各个调节设备已经完成的动作。通过这些变量，能够全面地描述配电网在不同决策阶段内的状态和调节设备的运行情况。配电网系统中所有母线上的电压作为状态空间，可以表示为：

s_i＝{U_i,SG_i,E_i}

本实施方式设定每隔15分钟，对配电网进行一次动作决策，调整各个无功设备的运行状态，以优化电力系统的无功功率分配。这样的设置允许及时对电网进行调整，以应对电力系统动态变化，保持电网的稳定性和性能。通过此设计，能够在较短的时间内实现优化策略的实施，提高配电网的响应速度，以及保证无功设备调节的准确性和高效性。

S2、根据所述调节设备的动作集合以及状态集合确定对应的奖励函数；

优化算法将在每个决策阶段内尝试寻找最优的投切策略，以实现SC电压约束条件的满足，并同时降低网损和动作成本，从而达到更好的配电网无功优化效果；

其中，所述电容器SC执行第i次动作后的奖励函数为：

式中，P_loss,i为执行第i个动作后的有功网损，λ_SC为SC的动作调节系数，G_SC,j表示第j次决策时SC的操作状态；

所述变压器OLTC执行第i次动作后的奖励函数为：

式中，λ_O为OLTC的动作调节系数，G_OLTC,j为第j次决策时OLTC的操作状态；

所述逆变器DG执行第i次动作后的奖励函数为：

式中，λ_D为DG的档位调节系数，U_k,baseline为电压基准值，U_k,j为DG所连母线的电压，U_max和U_min分别为电压上、下限，N_D为节点总数，k为节点标号；

S3、基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合；

S4、根据所述动作策略对所述配电网进行无功优化。

其中，步骤S3包括：

设置动作网络和评价网络；

根据当前的动作策略和所述调节设备对应的当前状态，通过所述动作网络从所述调节设备对应的动作集合中选择动作与所述配电网的环境进行交互，根据对应的奖励函数得到所述交互对应的奖励，并转移到所述调节设备的下一个状态，返回执行根据当前的动作策略和所述调节设备对应的当前状态步骤直至达到预设交互次数；

根据上述交互过程中确定的动作、状态以及奖励形成所述调节设备对应的轨迹序列；

通过所述评价网络对所述轨迹序列进行评估，根据评估结果更新所述动作网络和评价网络的参数；

返回执行根据当前的动作策略和所述调节设备对应的当前状态步骤直至达到预设迭代次数。

其中，所述通过所述评价网络对所述轨迹序列进行评估，根据评估结果更新所述动作网络和评价网络的参数包括：

通过所述评价网络使用所述轨迹序列计算TD误差，所述TD误差通过比较当前的值函数估计和目标值函数之间的差异得到；

最小化所述TD误差以更新所述评价网络；

通过更新后的所述评价网络估计每个状态在所述轨迹序列中的累计回报，得到每个状态在当前动作策略下的预期回报，根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数以最大化所述预期回报。

具体地，所述TD误差R_t为：

R_t＝(V^π(s_t+1)+r_t-V^π(s_t)|a_t)

式中，V^π(s_t+1)为策略为π的评价网络在状态为s_t+1时的期望奖励值，r_t为在第t步时采取动作a_t后所得奖励值，V^π(s_t)|a_t为策略为π的评价网络在状态为s_t时采取动作a_t后的期望奖励值，其中，V为整个周期的期望奖励值，即t从1取到T和加起来，r_t为t那一步的单个的奖励值；

最小化所述TD误差为：

式中，S_old和S分别为更新前、后的状态，θ_old和θ分别为更新前后的所述动作网络的参数；

所述预期回报为：

式中，T表示决策周期，s_t表示t时刻下环境的状态，a_t表示t时刻下选择的动作，R(·)表示奖励；

所述根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数包括：

式中，表示t时刻的预期回报，/>表示/>的梯度，/>和/>分别表示更新前后的所述评价网络的参数，η₁和η₂分别表示动作网络和评价网络的更新步长，KL[π_old|π_θ]表示KL散度，π_old和π_θ分别表示更新前后的策略，β表示惩罚项系数；

其中，本实施方式用KL散度(Kullback-Leibler divergence)来控制动作策略的更新幅度。KL散度是一个概率分布与另一个概率分布有何不同的度量。在贝叶斯理论中，存在真实的分布π_old，用近似分布π_θ来估计。KL散度衡量的是动作空间S上近似分布π_θ与真实分布π_old之间的距离，即KL[π_old|π_θ]，可用下式表示：

如果更新幅度过大，则给予较大惩罚项βKL[π_old|π_θ]，即增大β的值；如果更新幅度过小，则给予较小惩罚项βKL[π_old|π_θ]，即减小β的值，具体调整如下所示：

式中，β_highKL_target表示KL散度的控制上限，β_lowKL_target表示KL散度的控制下限，如果KL散度大于控制上限值β_highKL_target，即表示更新速度过快；反之，则表示更新速度过慢，为大于1的常数。

本实施方式中，在每一个状态下选择动作是基于概率分布的，并且动作的概率分布会随着学习过程不断调整，以使获得的累计奖励期望值最大，根据交互结果动态调整动作策略就是通过判断不同动作概率下做出的动作对应得到的奖励值，不断学习、调整该动作的概率，即如果该动作对应得到的奖励值大，便提高该动作的概率；反之，则减小该动作的概率；

如图2所示，首先，动作网络Actor与环境进行交互，Actor根据当前的策略与环境进行互动，从当前状态选择动作并与环境进行交互，得到奖励并转移到下一个状态，这个过程会生成一条轨迹序列，包含了智能体在环境中的行为和与环境的交互结果。然后，使用轨迹序列中的状态、动作和奖励信息，计算TD误差，基于TD误差，更新评价网络Critic网络，它是值函数的近似器，通过最小化TD误差来提高值函数估计的准确性。再使用更新后的Critic网络对轨迹序列进行评价。通过使用Critic网络估计每个状态的累积回报，对轨迹序列进行评估，并得到每个状态在当前策略下的预期回报。最后，使用策略梯度方法来更新Actor网络的参数。策略梯度方法是一种梯度上升法，通过使用Critic网络的评估结果来计算梯度，指示在不同状态下选择动作的概率应该如何调整，以便最大化预期回报，然后，使用这个梯度来更新Actor网络的参数，以改进策略。整个训练过程是一个迭代的过程，重复执行这些步骤多次，直到Actor和Critic网络能够很好地拟合环境，策略达到令人满意的水平。在每次迭代中，Actor不断改进策略，而Critic则逐渐提高值函数的估计准确性。这样，通过不断地与环境交互和更新网络参数，使得整个系统在强化学习任务中逐渐拟合并优化，以实现更好的性能。

优化模型流程图如图3所示，每一次迭代包含动作选择和执行、奖励值获取和网络训练三个阶段。在动作网络输出动作后，动作选择和执行阶段结束，进入奖励值获取阶段。环境根据输出的动作给出奖励值，进入网络训练阶段。在网络训练阶段，更新行动网络与价值网络的网络权重，即网络参数。

在另一个可选的实施方式中，在用策略梯度方法更新所述动作网络和评价网络的参数时，通过多个线程(即worker)同步计算多个梯度，判断所述多个梯度中是否至少有预设个梯度是可用的，若是，则根据所述预设个梯度取平均，根据梯度平均值更新所述动作网络和评价网络的参数。

本实施方式中，通过多线程在线训练能够达到更好的优化效果，在实现实时决策的同时保证更好地优化效果，对提高配电网的安全可靠、实时性和高效运行效果显著。

Actor网络负责根据当前环境状态给出动作，而Critic网络负责评估动作。然后，Actor网络根据Critic网络的评估来选择动作。通过使用自适应Kullback-Leibler(KL散度)和多个worker，可以有效地训练Actor网络和Critic网络。

上述算法对应的伪代码如下：

W是worker的数量，D是可以为worker提供梯度更新的参数的阈值，N是总episode，T是每个worker在计算参数更新之前收集的数据点，K是计算K步后反向传播的时间步数。

将上述算法应用于基于IEEE 123节点的配电网系统中，在该实施方式中，配电网系统包含了3个容量为750kW的DG设备，每个DG设备采用下垂控制策略用于电压调节。

选择夏季日和冬季日的典型时刻12:00进行仿真，通过对比平均网损和电压偏差，评估不同算法在配电网无功功率优化上的性能。实验结果如表1所示。

表1不同方法的电压偏差和平均网损

通过对表1的数据进行分析，可以得到：在典型日下，本申请采用的模型算法在降低网损方面表现最优。与传统的遗传算法GA、基于值的深度Q网络DQN以及基于策略的深度确定性策略梯度方法DDPG相比，本申请所提模型在夏季日的平均网损分别降低了13.59％、8.94％、3.08％，在冬季日的平均网损分别降低了16.72％、6.58％、3.07％。无论是夏季日还是冬季日，本申请所提模型都能以更高效的方式减小系统的网损。此外，通过本申请所提模型优化后，电压偏差最小化，确保了电压运行的稳定性，并将电压波动降至最低。因此，实验可以证明本申请所提模型算法的有效性和优越性。

为了验证所提出的本申请所提模型的可扩展性和适用性，对IEEE 123节点仿真系统进行了仿真，器件的详细参数如表2所示。

表2调压设备参数

设备	参数	节点位置
			OLTC	±10×0.01	1
SC1～SC4	5×100kVar	16,4658,106
			DG1～DG6	750kW	28,48,67,89,93,113

对IEEE 123节点仿真系统两个典型日的网络损耗结果进行对比分析，如表3所示。从表3中可以看出，本申请所提模型在典型夏季的网络损耗最低。与GA、DQN、DDPG相比，夏季平均网损分别降低了13.47％、10.17％和5.07％，冬季平均网损分别下降17.79％、7.85％和4.02％，此外，本申请所提模型还进行了优化，最大限度地减少了电压偏差，确保了电压运行的稳定性，并最大限度地减少了电压波动。在夏季，本申请所提模型的电压偏差分别比GA、DQN、DDPG低55.60％、44.80％、11.57％。而在冬季，本申请所提模型的电压偏差分别比GA、DQN和DDPG低55.55％、46.10％、14.89％。因此，证明了本申请所提模型的有效性、优越性和适用性。

表3IEEE 123节点模拟系统中典型日平均网损和电压偏差对比

在另一个可选的实施方式中，如图4所示，一种配电网无功优化设备，该设备与上述的一种配电网无功优化方法一一对应，包括：

在另一个可选的实施方式中，如图5所示，一种配电网无功优化装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一个实施方式所述的一种配电网无功优化方法的步骤。

在另一个可选的实施方式中，一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述任一个实施方式所述的一种配电网无功优化方法的步骤。

综上所述，本发明提供的一种配电网无功优化方法、设备、装置及计算机可读存储介质，构建以最小化配电网无功为目标函数的优化模型，并考虑运行约束条件，训练有素的智能体可以实时调度优化配电网的资源，先根据配电网的调节设备确定对应的动作集合、状态集合以及奖励函数；接着基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合；最后根据所述动作策略对所述配电网进行无功优化；能够自适应地做出决策来调整节点电压并减少电网损耗，通过设计多线程在线训练达到了更好的优化效果，在实现实时决策的同时保证更好的优化效果，对提高配电网的安全可靠、实时性和高效运行效果显著。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种配电网无功优化方法，其特征在于，包括步骤：

根据配电网的调节设备确定对应的动作集合以及状态集合；

根据所述动作策略对所述配电网进行无功优化。

2.根据权利要求1所述的一种配电网无功优化方法，其特征在于，所述基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互，根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合包括：

设置动作网络和评价网络；

3.根据权利要求2所述的一种配电网无功优化方法，其特征在于，所述通过所述评价网络对所述轨迹序列进行评估，根据评估结果更新所述动作网络和评价网络的参数包括：

最小化所述TD误差以更新所述评价网络；

4.根据权利要求3所述的一种配电网无功优化方法，其特征在于，所述TD误差R_t为：

R_t＝(V^π(s_t+1)+r_t-V^π(s_t)|a_t)

式中，V^π(s_t+1)为策略为π的评价网络在状态为s_t+1时的期望奖励值，r_t为在第t步时采取动作a_t后所得奖励值，V^π(s_t)|a_t为策略为π的评价网络在状态为s_t时采取动作a_t后的期望奖励值；

最小化所述TD误差为：

所述预期回报为：

φ＝φ_old+η₂▽_φL_SEL

式中，表示t时刻的预期回报，▽_φL_SEL表示/>的梯度，/>和/>分别表示更新前后的所述评价网络的参数，η₁和η₂分别表示动作网络和评价网络的更新步长，KL[π_old|π_θ]表示KL散度，π_old和π_θ分别表示更新前后的策略，表示惩罚项系数。

5.根据权利要求4所述的一种配电网无功优化方法，其特征在于，所述根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数之后还包括：

式中，β_highKL_target表示KL散度的控制上限，β_lowKL_target表示KL散度的控制下限，为大于1的常数。

6.根据权利要求3或4所述的一种配电网无功优化方法，其特征在于，在用策略梯度方法更新所述动作网络和评价网络的参数时，通过多个线程同步计算多个梯度，判断所述多个梯度中是否至少有预设个梯度是可用的，若是，则根据所述预设个梯度取平均，根据梯度平均值更新所述动作网络和评价网络的参数。

7.根据权利要求1至4中任一项所述的一种配电网无功优化方法，其特征在于，所述调节设备包括电容器SC、变压器OLTC以及逆变器DG；

所述电容器SC执行第i次动作后的奖励函数为：

所述变压器OLTC执行第i次动作后的奖励函数为：

所述逆变器DG执行第i次动作后的奖励函数为：

式中，λ_D为DG的档位调节系数，U_k,baseline为电压基准值，U_k,j为DG所连母线的电压，U_max和U_min分别为电压上、下限，N_D为节点总数，k为节点标号。

8.一种配电网无功优化设备，其特征在于，包括：

9.一种配电网无功优化装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种配电网无功优化方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任一项所述的一种配电网无功优化方法的步骤。