CN115758871A

CN115758871A - 一种基于安全强化学习的配电网重构节能降损方法及装置

Info

Publication number: CN115758871A
Application number: CN202211395159.9A
Authority: CN
Inventors: 潘洋; 赵越; 杨川; 夏诗羽; 王家兵; 黄振勇; 刘晨; 曾飞; 苏伟
Original assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd; State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd; State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-07

Abstract

本发明公开一种基于安全强化学习的配电网重构节能降损方法及装置。包括以下步骤：步骤S1：采集配电网历史运行数据作为安全强化学习的学习样本数据；步骤S2：将配电网重构建模为受约束的马尔可夫决策过程，搭建强化学习环境；步骤S3：针对搭建的强化学习环境，运用约束策略优化算法离线训练，获得最优神经网络模型；步骤S4：通过最优神经网络模型求解配电网重构。本发明将配电网重构问题制定为受约束的马尔可夫决策过程，保证电压安全性的同时，最小化开关切换成本和网络损耗成本。

Description

一种基于安全强化学习的配电网重构节能降损方法及装置

技术领域

本发明涉及配网技术领域，特别涉及一种基于安全强化学习的配电网重构节能降损方法及装置。

背景技术

动态配电网重构问题根据线路电阻损耗、负载损耗或分布式电源的托管容量确定运营范围内网络重构的最佳顺序。配电网重构问题中建模的常见操作约束包括电压幅度限制和网络辐射度。远程可控开关的频繁切换可能导致设备过度磨损，增加成本。

大多数关于动态配电网重构问题的现有措施都采用基于物理模型的控制方法。配电网重构问题常常被表述为混合整数或动态规划问题，此外启发式算法和元启发式算法也得到广泛的应用。然而，现有的基于物理模型的算法严重依赖于对网络拓扑和参数的准确了解，区域电力公司很难维持准确的网络模型，并且一级和二级网络的参数估计并不准确，因此基于模型的算法可能并不可靠。其次基于模型的算法计算复杂度通常很大，这使得基于模型的计算非常耗时，难以实现配电网重构的实时应用。

目前，深度强化学习方法已经在配电网重构上得到一定的应用。首先，深度强化学习方法是无模型的，因此不需要依赖准确的配电网参数。其次基于离线策略的深度强化学习方法可以保存训练好的最优神经网络模型，实现配电网重构的实时在线应用。

然而，传统的深度强化学习方法允许智能体在训练期间自由探索任何行为，这可能会给配电网重构过程带来严重的安全问题，不当行为可能导致违反潮流约束并在配电馈线中产生过压和欠压行为。此外，传统强化学习大都采用在奖励函数中添加惩罚项的方法解决训练过程中的电压违规行为，而在实践中惩罚系数的设计较为困难。惩罚系数过大奖励值会偏低，导致智能体不能学习到最优的重构方案；惩罚系数过小无法充分惩罚违反约束行为，带来配网运行的安全性。

发明内容

本发明提供了一种基于安全强化学习的配电网重构节能降损方法及装置，将配电网重构问题建模成受约束的马尔科夫决策过程，并采用约束策略优化的安全强化学习方法进行离线训练，并在线测试。在保证电压幅值满足约束的同时，能够使配电网损耗得到显著降低，实现了安全性和经济性的统一。

本发明的技术方案为：包括以下步骤：

步骤S1：采集配电网历史运行数据作为安全强化学习的学习样本数据；

步骤S2：将配电网重构建模为受约束的马尔可夫决策过程，搭建强化学习环境；

步骤S3：针对搭建的强化学习环境，运用约束策略优化算法离线训练，获得最优神经网络模型；

步骤S4：通过最优神经网络模型求解配电网重构。

步骤S1中，采集n周的历史运行数据，n＞2且取整数；

其中，历史运行数据包括配电网各节点注入有功和无功功率。

步骤S2中，受约束的马尔可夫决策过程为：

通过一个辅助成本函数C扩充马尔可夫决策过程，令J_C(π)表示策略π相对于成本函数的预期折现回报：

那么受约束的马尔可夫决策过程的可行的平稳策略为：

式中，E表示期望，τ表示轨迹τ＝(s₀,a₀,s₁,…)，τ～π表示轨迹τ上的分布取决于π，γ为折扣系数，d是限制，a_t属于动作空间，s_t和s_t+1分别属于状态空间；

平稳策略的目标函数为：

式中，Π表示所有的固定策略集，Π_C是将成本函数C_t+1的未来折扣回报进行限制的平稳策略，J(π)表示奖励函数R_t+1的未来折扣回报。

其中，奖励函数R_t+1为：

式中，C^l等于固定零售电价与网络损耗的乘积，网络损耗与在时间t的有功功率p_t、无功功率q_t和配电网辐射构造

相关；C^s等于每次切换的固定成本和切换动作次数的乘积，A_t为动作空间，

为配电网在时间t的配电网辐射构造，S_t为状态空间；

成本函数C_t+1为：

式中，N^v是具有电压测量设备的所有节点的集合；

和v是电压的上限和下限，A_t为动作空间，S_t为状态空间。

其中，状态空间

式中，p_t＝[p_1t,p_2t,…,p_nt]，q_t＝[q_1t,q_2t,…,q_nt]，

表示配电网在时间t-1的辐射构造，p_it和q_it为节点i在时间t节点注入有功和无功功率。

步骤S3包括以下步骤：

步骤S31：求解目标函数转化

根据约束策略优化理论的推论，将目标函数变为如下的代理优化目标：

式中，θ是神经网络参数，

是在动作a满足策略

下的状态s分布，

和

分别是与未来奖励

及未来成本回报

相关的优势函数，d是限制，D_KL(θ||θ_i[s])是分布在π_θ和

的KL-散度，δ是一个很小值；

步骤S32：简化求解问题

将步骤S31的优化目标进行近似处理，近似为如下的优化问题：

式中，

是关于优势函数

未来期望的策略梯度，其中，θ是神经网络参数，

是在动作a满足策略

下的状态s分布；

是未来成本回报，d是限制；

是关于成本优势函数

未来期望的策略梯度；

是分布在π_θ和

的最大KL-散度的拉普拉斯算子，δ是一个很小值；

步骤S33：采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程；

在每次迭代中，首先更新Γ时间步数，并运行策略网络参数

；然后收集到状态-动作组{(s_t,a_t)|t＝0,1,…,Γ-1}，使用重要性采样估计梯度；其次通过在线搜索算法解决步骤S32中的策略优化问题；最后使用最优解θ_i+1来更新策略网络参数。

一种基于安全强化学习的配电网重构节能降损装置，包括：

采集模块，用于采集配电网历史运行数据作为安全强化学习的学习样本数据；

建模模块，用于将配电网重构建模为受约束的马尔可夫决策过程，搭建强化学习环境；

训练模块，针对搭建的强化学习环境，运用约束策略优化算法离线训练，获得最优神经网络模型；

求解模块，通过最优神经网络模型求解配电网重构。

本发明具有以下有益效果：

1、本发明提出的算法是无模型的，不需要准确的配电网拓扑参数；

2、本发明将配电网重构问题建模为受约束的马尔可夫决策过程，分别制定了奖励及成本函数，避免了实践中惩罚系数设计困难的问题；

3、本发明使用约束策略优化算法训练好的最优神经网络模型可以离线保存，在线应用，能够实现配电网重构的秒级求解；

4、本发明提出的约束策略优化算法是一种安全强化学习算法，训练过程中能够在满足电压约束的同时，有效降低网络损耗，兼顾了安全性和经济性的统一。

附图说明

图1为本发明的方法流程图；

图2为训练阶段的奖励值曲线；

图3为训练阶段的约束值曲线；

图4为CPO测试阶段某天的各节点电压分布。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明包括以下步骤：

步骤S4：通过最优神经网络模型求解配电网重构。即将当前配电网各个节点的有功及无功功率数据输入最优神经网络模型，求解配电网络的拓扑结构状态，获得最小的配电网络重构运营成本。

本发明在工作中，将配电网重构问题制定为受约束的马尔可夫决策过程，保证电压安全性的同时，最小化开关切换成本和网络损耗成本。通过使用一种基于约束策略优化(CPO)的安全强化学习方法来学习神经网络策略。与允许智能体在训练期间自由探索任何行为的传统深度强化学习方法不同，所提出的方法将探索限制在满足训练期间交流潮流约束的安全策略上。本发明所提出的方法是无模型的，不需要配电网完整且准确的网络参数。而且是一种在线算法，可以实现配电网重构的秒级求解。

步骤S1中，采集n周的历史运行数据，n＞2且取整数；

步骤S2包括以下步骤：

步骤S21：马尔可夫决策过程定义

一个马尔可夫决策过程是一个元组(S,A,P,r,γ,T)，它由一组状态S、一组动作A、一个状态转移概率

一个奖励函数r(s,a)、一个折扣系数γ∈[0,1]、和时间范围T组成。在马尔可夫决策过程中，代理在每个离散时间步t处根据环境的状态S_t∈S选择动作A_t∈A，之后智能体收到奖励R_t+1＝r(S_t,A_t)，环境状态将根据状态转移概率P(S_t+1|S_t,A_t)过度到S_t+1，当t＝|T|且S_|T|为终止状态时，该过程终止。

在强化学习中，目标是选择一个策略π来最大化性能度量J(π)，它通常被认为是无限折现总回报

τ表示轨迹τ＝(s₀,a₀,s₁,…)，τ～π表示轨迹τ上的分布取决于π。

步骤S22：受约束的马尔可夫决策过程定义

受约束的马尔可夫决策过程是增加了约束的马尔可夫决策过程，这些约束限制了该马尔可夫决策过程的允许策略集。具体来说，用一个辅助成本函数C和限制d来扩充马尔可夫决策过程，令J_C(π)表示策略π相对于成本函数的预期折现回报：

那么受约束的马尔可夫决策过程的可行的平稳策略是：

式中，E表示期望，τ表示轨迹τ＝(s₀,a₀,s₁,…)，τ～π表示轨迹τ上的分布取决于π，γ为折扣系数，d是限制，a_t属于动作空间，s_t和s_t+1分别属于状态空间。

平稳策略的目标函数为：

表示一个运行策略π的目标是，在不超过代价阈值的约束条件Π_C的情况下，获取最大的未来奖励J(π)。其中，Π表示所有的固定策略集，Π_C是将成本函数C_t+1的未来折扣回报限制在一定范围内的平稳策略，J(π)是关于奖励函数R_t+1的未来折扣回报。

其中，动作空间A_t

动作空间定义为：

表示配电网在时间t的配电网辐射构造，也就是说，

表示与无分流配电网相关的有向图生成森林。

状态空间S_t

在时刻t的状态空间定义为：

式中，p_t＝[p_1t,p_2t,…,p_nt]，q_t＝[q_1t,q_2t,…,q_nt]，

奖励函数R_t+1

配电网重构的目标是最小化网络损失和切换成本，强化学习的目标是最大化未来折现回报。因此奖励函数定义为线损负成本和切换动作负成本之和：

相关；C^s等于每次切换的固定成本和切换动作次数的乘积。

成本函数C_t+1

将成本函数C_t+1定义为所有计量节点的电压违规绝对值之和：

式中，N^v是具有电压测量设备的所有节点的集合；

和v是电压的上限和下限。

步骤S3中，运用约束策略优化算法离线训练，当未来奖励收敛到稳定值时，获得最优神经网络模型；

具体包括以下步骤：

步骤S31：求解目标函数转化

式中，θ是神经网络参数，

是在动作a满足策略

下的状态s分布，

和

分别是与未来奖励

及未来成本回报

相关的优势函数，d是限制，D_KL(θ||θ_i[s])是分布在π_θ和

的KL-散度，δ是一个很小值。

步骤S32：简化求解问题

将步骤S31的优化目标进行近似处理，首先对目标函数和约束函数做泰勒展开，得到一个简化后的优化问题：目标函数一阶泰勒展开得到一个线性函数，其中一个约束条件一阶泰勒展开得到多个线性约束，另一个约束条件二阶泰勒展开得到一个二次函数；近似为如下的优化问题：

式中，

是关于优势函数

未来期望的策略梯度，其中，θ是神经网络参数，

是在动作a满足策略

下的状态s分布；

是未来成本回报，d是限制；

是关于成本优势函数

未来期望的策略梯度；

是分布在π_θ和

的最大KL-散度的拉普拉斯算子，δ是一个很小值。

步骤S33：采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程，具体算法的伪代码在算法1中所示。

在每次迭代中，首先更新Γ时间步数，并运行策略网络参数

然后收集到状态-动作组{(s_t,a_t)|t＝0,1,…,Γ-1}，使用重要性采样估计梯度

以及

具体公式如下所示：

式中，Γ是训练总的时间步数，T是训练一轮的周期，

是一个高斯策略，

是策略梯度，

和

分别是在策略网络参数

下与未来奖励和成本相关的优势函数，γ为折扣因子，c_t是成本函数，d是成本函数的限制。

其次通过在线搜索算法解决步骤S32中的策略优化问题；最后使用最优解θ_i+1来更新策略网络参数。

由于深度Q网络算法(DQN)训练期间，允许智能体的任何自由探索行为，由此可能会导致违反潮流约束并在配电馈线中产生过压和欠压行为。本发明采用的约束策略优化算法(CPO)在网络损耗控制和电压控制方面具有良好的性能。

本发明将配电网重构问题，建模为受约束的马尔可夫决策过程，分别制定了奖励及成本函数，并不需要手动涉及惩罚系数；所提出的基于约束策略优化的安全强化学习方法，可以高效训练神经网络以生成满足电压约束的最优配电网重构策略。此外所提方法是无模型的，不需要准确且完整的配电网参数，能够在满足配电网安全性的同时，有效降低配网线损。

下面以16节点配电网作为算例，介绍本发明：

配电网基准电压为100MVA，在节点11装有光伏，假设每条线段都有一个遥控开关，配电网重构的动作数量由矩阵树定理计算为190次。线路开关每次线路切换产生的成本C^s为4$，与网络损失相关的成本C^l为0.13$/kWh，最大和最小节点电压设置为

和v＝0.95。负荷数据的时间序列取自爱尔兰能源监管委员会智能计量项目，太阳能发电数据均来自南加州站点。将26周的历史数据集划分为25周的训练数据集和1周的测试数据集。

为了验证所提出的安全强化学习方法，即约束策略优化算法(CPO)的有效性，本发明将其与传统的深度强化学习算法，即深度Q网络算法(DQN)进行对比。对于DQN来处理约束，本发明通过在奖励函数中添加一个惩罚项1000*C_t+1来惩罚任何违反电压约束的行为。

1.经济性分析

训练阶段的奖励值曲线如图2所示。

随着训练步数的增加，DQN算法和CPO算法的奖励值都在稳步增加，并最终收敛。奖励值是动作切换成本和网络损失成本之和的负数。这说明了两种算法都能学习到配电网重构的节能降损策略，其中CPO的最终奖励值更高，经济成本更低。与DQN相比，CPO每天约能降低36.4％的运行成本，因此，CPO算法在网络损耗控制方面具有良好的性能。

2.安全性分析

训练阶段的约束值曲线如图3所示。

训练过程中，可以看出DQN算法的约束值违反情况较为频繁，CPO的约束值在很少的迭代步数后就降低接近为0，并保持稳定。由于定义了约束值为训练过程中电压的违反情况，所以约束值越高，电压越限的几率和程度越大。因此CPO在训练过程中能够学习到考虑电压安全性的策略。

CPO测试阶段某天的各节点电压分布如图4所示。

随机选定测试数据集中的一天，作为离线训练保存好的模型输入，配电网各节点的最大最小电压分布情况如图4所示。由此可以看出，经CPO训练好的最优神经网络模型，在线测试阶段，配网各电压被维持在0.95-1.05p.u之间。

因此CPO算法在电压控制方面具有良好的性能。

3.实时性分析

在线测试阶段，计算24小时的动态网络重构时间仅需0.37秒，因此能够满足实时应用的要求。