CN116565876A

CN116565876A - 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质

Info

Publication number: CN116565876A
Application number: CN202310427523.3A
Authority: CN
Inventors: 李晓旭; 田猛; 龚立; 郑涵; 朱紫阳; 王先培
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-08

Abstract

本发明公开了涉及一种鲁棒强化学习的配网潮流优化方法及计算机可读介质。本发明选择多节点配电网模型中多个节点作为火力发电、分布式发电、分布式储能、负荷节点。获取多个时刻每个节点的有、无功出力和最大有、无功出力，分布式储能节点的荷电状态；构建配电网的各约束条件，包括节点有功平衡、支路有、无功潮流、发电单元有、无功、分布式储能单元荷电状态和负荷单元有功约束。优化目标为最小化配电网的综合损耗；构建配电网潮流优化主智能体和攻击型智能体的状态、动作、奖励、惩罚集合；通过TA‑Lag‑TRPO算法求解主智能体和攻击型智能体的零和博弈鲁棒强化学习模型。本发明可解决配电网鲁棒性增强的潮流优化问题，提升配电网潮流优化过程中的安全性和抗干扰能力。

Description

一种鲁棒强化学习的配网潮流优化方法及计算机可读介质

技术领域

本申请涉及电网调度信息领域，具体涉及一种鲁棒强化学习的配网潮流优化方法及计算机可读介质。

背景技术

配电网潮流优化是配电网分析、规划与调度运行的重要基础，对保证电力系统可靠、安全、高效运行具有重要意义。传统配电网潮流优化方法包括梯度下降算法、牛顿法以及启发式算法等。传统优化方法在面对复杂配电网环境时存在计算效率低下、无法保证收敛精度的缺陷，难以应对愈发复杂的现代电力系统。近年来，大量研究利用深度强化学习有效提升了复杂配电网环境下潮流优化计算的计算效率和精度。

然而，大多数基于深度强化学习的配电网潮流优化方法都无法推广到现实配电网环境中。新能源发电和分布式储能单元的大规模集成显著加剧了复杂性、不确定性和波动性。模拟电网环境和现实电网环境之间存在一定差距，传感器观测误差或者新能源发电单元的出力预测偏差以及负荷预测偏差误差均可以被视为深度强化学习泛用问题中不可忽视的干扰。这些问题导致智能体利用深度强化学习学习到的最优策略方法无法转移到现实配电网环境中。

发明内容

针对大多数基于深度强化学习的配电网潮流优化方法都无法推广到现实配电网环境中的问题，本发明提出了一种鲁棒强化学习的配网潮流优化方法及计算机可读介质。

本发明方法的技术方案为一种鲁棒强化学习的配网潮流优化方法，包括以下步骤：

步骤1：获取配电网模型，分别选择多节点配电网模型中K₁个节点作为多个火力发电节点、K₂个节点作为多个分布式发电节点、K₃个节点作为多个分布式储能节点、K₄个节点作为多个负荷节点，获取多个时刻的每个火力发电节点出力的有功、多个时刻的每个火力发电节点出力的无功、多个时刻的每个分布式储能节点出力的有功、多个时刻的每个分布式储能节点出力的无功、多个时刻的每个负荷节点的有功、多个时刻的每个负荷节点的无功、多个时刻的每个分布式发电节点出力的最大有功、多个时刻的每个分布式发电节点出力的最大无功、多个时刻的每个分布式发电节点出力的有功、多个时刻的每个分布式发电节点出力的无功、多个时刻的每个分布式储能节点的荷电状态；

步骤2：依次构建配电网节点的有功平衡约束、配电网有功潮流约束、配电网无功潮流约束、火力发电单元的有功约束、火力发电单元的无功约束、分布式发电单元的有功约束、分布式发电单元的无功约束、分布式储能单元的荷电状态约束、负荷单元的有功约束，构建配电网综合损耗，以配电网综合损耗最小化作为潮流优化目标；

步骤3：根据每个时刻的每个火力发电节点出力的有功、每个时刻的每个分布式储能节点出力的有功、每个时刻的每个负荷节点的有功、每个时刻的每个负荷节点的无功、每个时刻的每个分布式发电节点出力的最大有功、每个时刻的每个分布式发电节点出力的最大无功、每个时刻的每个分布式储能节点的荷电状态构建每个时刻的状态集合，根据每个时刻的每个分布式发电节点的有功削减量、每个时刻的每个分布式发电节点的无功削减量、每个时刻的每个分布式储能节点的有功调节量、每个时刻的每个分布式储能节点的无功调节量构建每个时刻的主智能体动作集合，将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合，结合每个时刻的状态集合、每个时刻的主智能体动作集合分别计算每个时刻的主智能体的奖励值、每个时刻的主智能体的惩罚值，结合每个时刻的状态集合、每个时刻的攻击型智能体动作集合分别计算每个时刻的攻击型智能体的奖励值、每个时刻的攻击型智能体的惩罚值；通过多个时刻的状态集合、多个时刻的主智能体动作集合、多个时刻的主智能体奖励函数、多个时刻的主智能体惩罚函数构建配电网潮流优化主智能体；通过多个时刻的状态集合、多个时刻的攻击型智能体动作集合、多个时刻的攻击型智能体奖励函数、多个时刻的攻击型智能体惩罚函数构建配电网攻击型智能体；

步骤4：根据步骤3所述的主智能体和攻击型智能体构建双智能体零和博弈鲁棒强化学习模型，通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型，实现配电网鲁棒性增强的潮流优化。

作为优选，步骤1所述多个时刻的每个火力发电节点出力的有功，定义如下：

t∈[1,T]

tg∈[1,K₁]

i_tg∈[1,M]

其中，T表示时刻的数量，K₁表示火力发电节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第tg个火力发电节点的出力的有功，即表示第t个时刻配电网模型中第i_tg个节点接入的火力发电节点的出力的有功；

步骤1所述多个时刻的每个火力发电节点出力的无功，定义如下：

t∈[1,T]

tg∈[1,K₁]

i_tg∈[1,M]

其中，T表示时刻的数量，K₁表示火力发电节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第tg个火力发电节点的出力的无功，即表示第t个时刻配电网模型中第i_tg个节点接入的火力发电节点的出力的无功；

步骤1所述多个时刻的每个分布式储能节点出力的有功，定义如下：

t∈[1,T]

des∈[1,K₃]

i_des∈[1,M]

其中，T表示时刻的数量，K₃表示分布式储能节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第des个分布式储能节点的出力的有功，即表示第t个时刻配电网模型中第i_des个节点接入的分布式储能节点的出力的有功；

作为优选，步骤1所述多个时刻的每个分布式储能节点出力的无功，定义如下：

t∈[1,T]

des∈[1,K₃]

i_des∈[1,M]

其中，T表示时刻的数量，K₃表示分布式储能节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第des个分布式储能节点的出力的无功，即表示第t个时刻配电网模型中第i_des个节点接入的分布式储能节点的出力的无功；

步骤1所述多个时刻的每个负荷节点的有功，定义如下：

t∈[1,T]

l∈[1,K₄]

i_l∈[1,M]

其中，T表示时刻的数量，K₄表示负荷节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第l个负荷节点的出力的有功，即表示第t个时刻配电网模型中第i_l个节点接入的负荷节点的出力的有功；

步骤1所述多个时刻的每个负荷节点的无功，定义如下：

t∈[1,T]

l∈[1,K₄]

i_l∈[1,M]

其中，T表示时刻的数量，K₄表示负荷节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第l个负荷节点的出力的无功，即表示第t个时刻配电网模型中第i_l个节点接入的负荷节点的出力的无功；

步骤1所述多个时刻的每个分布式发电节点出力的最大有功，定义如下：

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

其中，T表示时刻的数量，K₂表示分布式发电节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第dg个分布式发电节点的出力的最大有功，即表示第t个时刻配电网模型中第i_dg个节点接入的分布式发电节点的出力的最大有功；

步骤1所述多个时刻的每个分布式发电节点出力的最大无功，定义如下：

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

其中，T表示时刻的数量，K₂表示分布式发电节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第dg个分布式发电节点的出力的最大无功，即表示第t个时刻配电网模型中第i_dg个节点接入的分布式发电节点的出力的最大无功；

步骤1所述多个时刻的每个分布式发电节点出力的有功，定义如下：

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

其中，T表示时刻的数量，K₂表示分布式发电节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第dg个分布式发电节点的出力的有功，即表示第t个时刻配电网模型中第i_dg个节点接入的分布式发电节点的出力的有功；

步骤1所述多个时刻的每个分布式发电节点出力的无功，定义如下：

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

其中，T表示时刻的数量，K₂表示分布式发电节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第dg个分布式发电节点的出力的无功，即表示第t个时刻配电网模型中第i_dg个节点接入的分布式发电节点的出力的无功；

步骤1所述多个时刻的每个分布式储能节点的荷电状态，定义如下：

t∈[1,T]

des∈[1,K₃]

i_des∈[1,M]

其中，T表示时刻的数量，K₃表示分布式储能节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第des个分布式储能节点的荷电状态，即表示第t个时刻配电网模型中第i_des个节点接入的分布式储能节点的荷电状态；

作为优选，步骤2所述配电网节点的有功平衡约束，定义如下：

其中，M表示配电网模型中节点的数量，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第des个分布式储能节点的出力的有功，表示第t个时刻第l个负荷节点的出力的有功，K₁表示火力发电节点的数量，K₂表示分布式发电节点的数量，K₃表示分布式储能节点的数量，K₄表示负荷节点的数量；

步骤2所述配电网有功潮流约束，定义如下：

P_ij＝(V_i ²-V_iV_jcosθ_ij)g_ij-V_iV_jb_ijsinθ_ij

i∈[1,M]

j∈[1,M]

其中，P_ij为节点i到节点j的有功潮流，V_i和V_j分别为节点i和节点j处的节点电压，θ_ij为节点i到节点j的相角，g_ij为节点i到节点j的电导，b_ij为节点i到节点j的电纳,M表示配电网模型中节点的数量；

步骤2所述配电网无功潮流约束，定义如下：

Q_ij＝-V_iV_jg_ijsinθ_ij-(V_i ²-V_iV_jcosθ_ij)b_ij

i∈[1,M]

j∈[1,M]

其中，Q_ij为节点i到节点j的无功潮流，V_i和V_j分别为节点i和节点j处的节点电压，θ_ij和g_ij分别为节点电压相角和支路电导,M表示配电网模型中节点的数量；

步骤2所述火力发电单元和分布式发电单元的有功约束，定义如下：

其中，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第tg个火力发电节点的出力的最大有功，表示第t个时刻第dg个分布式发电节点的出力的最大有功，的值随时间以及自然气象变化而上下浮动；M表示配电网模型中节点的数量；

步骤2所述火力发电单元和分布式发电单元的无功约束，定义如下：

其中，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第tg个火力发电节点的出力的最大有功，表示第t个时刻第dg个分布式发电节点的出力的最大有功；

步骤2所述分布式储能单元的荷电状态约束，定义如下：

其中，表示第t个时刻第des个分布式储能节点的荷电状态，和分别为第t个时刻第des个分布式储能节点的最小荷电状态、第t个时刻第des个分布式储能节点的最大荷电状态，η∈[0,1]为分布式储能单元充放电效率系数，△t表示配电网络决策时刻t的变化量；

步骤2所述负荷单元的有功约束，定义如下：

其中，表示第t个时刻第l个负荷节点的出力的有功，表示第t个时刻第l个负荷节点的出力的最小有功；

步骤2所述配电网综合损耗，定义如下：

其中，表示第t个时刻分布式发电节点在削减出力过程中的能量损耗；表示第t个时刻电力线路能量损耗；表示第t个时刻分布式储能节点在储、放电能过程的电能损耗，T表示时刻的数量；

其中，表示第t个时刻分布式发电节点在削减出力过程中的能量损耗；表示第t个时刻电力线路能量损耗；表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,表示第t个时刻第dg个分布式发电节点的出力的最大有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第des个分布式储能节点的出力的有功，表示第t个时刻第l个负荷节点的出力的有功，Δ表示求t到t+1时刻的变化量，K₁表示火力发电节点的数量，K₂表示分布式发电节点的数量，K₃表示分布式储能节点的数量，K₄表示负荷节点的数量；

作为优选，步骤3所述每个时刻的状态集合，具体定义如下：

其中，T表示时刻的数量，s_t表示第t个时刻的状态集合，分别表示第t个时刻第tg个火力发电节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功，分别表示第t个时刻第des个分布式储能节点的出力的有功和无功，分别表示第t个时刻第l个负荷节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功，表示第t个时刻第des个分布式储能节点的荷电状态；

步骤3所述每个时刻的主智能体动作集合，具体定义如下：

其中，a_1,t表示第t个时刻的主智能体动作集合；和分别代表第t个时刻第dg个分布式发电节点的有功值、无功削减值；和分别表示第t个时刻第des个分布式储能节点的有功值、无功注入值。

步骤3所述将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合，具体过程如下：

攻击型智能体的动作是对主智能体的马尔可夫观测状态施加扰动其动作集合a_2,t与s_t形式与维度相同；

其中，a_2,t表示第t个时刻的主智能体动作集合，分别表示第t个时刻第tg个火力发电节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功，分别表示第t个时刻第des个分布式储能节点的出力的有功、无功，分别表示第t个时刻第l个负荷节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功，表示第t个时刻第des个分布式储能节点的荷电状态；

步骤3所述计算每个时刻的主智能体的奖励值，具体过程如下：

其中，r_t为即时奖励值，表示第t个时刻分布式发电节点在削减出力过程中的能量损耗；表示第t个时刻电力线路能量损耗；表示第t个时刻分布式储能节点在储、放电能过程的电能损耗；

其中，表示第t个时刻第dg个分布式发电节点的出力的最大有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第des个分布式储能节点的出力的有功，表示第t个时刻第l个负荷节点的出力的有功，Δ表示求t到t+1时刻的变化量。

步骤3所述计算每个时刻的主智能体的惩罚值，具体过程如下：

其中，V_i为节点i的电压值，V_i ^max为节点i的最大电压幅值，V_i ^min为节点i的最小电压幅值，M表示配电网模型中节点的数量。

其中，S_ij(S_ji)为节点i(j)到j(i)的功率值，为节点i到节点j的最大视在潮流，为节点i的最小视在潮流，M表示配电网模型中节点的数量。

步骤3所述计算每个时刻的攻击型智能体的奖励值，具体过程如下：

攻击型智能体的奖励值为主智能体的奖励值的相反数：

步骤3所述计算每个时刻的攻击型智能体的惩罚值，具体过程如下：

攻击型智能体的惩罚值与主智能体的惩罚值相同：

作为优选，步骤4所述构建双智能体零和博弈鲁棒强化学习模型，具体如下：

主智能体通过深度强化学习算法和步骤3定义的主智能体、攻击型智能体状态集合、动作集合更新潮流优化策略μ的神经网络参数θ，策略μ使得主智能体的奖励函数期望值最大化，同时使得主智能体的惩罚函数期望值低于约束阈值K：

其中，μ_θ为主智能体人工神经网络参数为θ的潮流优化策略，v_θ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略，s_t为主智能体和攻击型智能体的第t个时刻的状态集合，a_1,t为主智能体的第t个时刻的动作集合，a_2,t为攻击型智能体的第t个时刻的动作集合，r_t为第t个时刻的奖励值，a_1,t～μ_θ(s_t)表示输入为状态集合s_t时利用潮流优化策略μ_θ输出动作集合a_1,t，a_2,t～v_θ′(s_t)表示输入为状态集合s_t时利用状态扰动策略v_θ′输出动作集合a_2,t，为主智能体利用潮流优化策略μ_θ获取到的奖励函数期望值，为主智能体利用潮流优化策略μ_θ获取到的惩罚函数期望值，T表示时刻的数量，c₁为电压越限惩罚值，c₂为潮流越限惩罚值，γ∈(0,1]为折扣因子，反映未来收益的重要程度，K为约束阈值，max表示利用潮流优化策略μ_θ获取最大值，E表示求期望。

攻击型智能体的目标是学习到状态扰动策略ν的最优网络参数θ’，对主智能体的观测状态进行扰动。与主智能体相反，攻击型智能体使其奖励函数期望值最小化，同时满足其惩罚函数期望值低于约束阈值K：

其中，μ_θ为主智能体人工神经网络参数为θ的潮流优化策略，v_θ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略，s_t为主智能体和攻击型智能体的第t个时刻的状态集合，a_1,t为主智能体的第t个时刻的动作集合，a_2,t为攻击型智能体的第t个时刻的动作集合，r_t为第t个时刻的奖励值，a_1,t～μ_θ(s_t)表示输入为状态集合s_t时利用潮流优化策略μ_θ输出动作集合a_1,t，a_2,t～v_θ′(s_t)表示输入为状态集合s_t时利用状态扰动策略v_θ′输出动作集合a_2,t，为攻击型智能体利用状态扰动策略v_θ′获取到的奖励函数期望值，为攻击型智能体利用状态扰动策略v_θ′获取到的惩罚函数期望值，T表示时刻的数量，c₁为电压越限惩罚值，c₂为潮流越限惩罚值，γ∈(0,1]为折扣因子，反映未来收益的重要程度，K为约束阈值，min表示利用状态扰动策略v_θ′获取最小值，E表示求期望。

本质上，两智能体的目标、约束函数共同构成了双智能体零和博弈鲁棒强化学习模型目标约束形式：

其中，maxmin表示利用状态扰动策略v_θ′获取最小值的同时利用潮流优化策略μ_θ获取最大值,为主智能体潮流优化策略μ_θ和攻击型智能体状态扰动策略v_θ′共同作用的奖励函数期望值，为主智能体潮流优化策略μ_θ和攻击型智能体状态扰动策略v_θ′共同作用的惩罚函数期望值，K为约束阈值；

将拉格朗日乘子法应用于上述目标约束优化问题，使其转换为无约束优化问题。主智能体得到无约束目标形式：

攻击智能体得到无约束目标形式：

其中，为主智能体潮流优化策略μ_θ的无约束优化目标，为攻击型智能体潮流优化策略v_θ′的无约束优化目标，为主智能体利用潮流优化策略μ_θ获取到的奖励函数期望值，为主智能体利用潮流优化策略μ_θ获取到的惩罚函数期望值，为攻击型智能体利用状态扰动策略v_θ′获取到的奖励函数期望值，为攻击型智能体利用状态扰动策略v_θ′获取到的惩罚函数期望值，β为可迭代更新的拉格朗日乘子参数，λ为可迭代更新的拉格朗日乘子参数，用于权衡智能体的决策策略神经网络参数在奖励和惩罚之间的取舍更新，a_1,t为主智能体的第t个时刻的动作集合，a_2,t为攻击型智能体的第t个时刻的动作集合。

根据上述分析，可以将双智能体零和博弈鲁棒强化学习模型目标约束形式转化为如下双智能体零和博弈鲁棒强化学习模型无约束目标形式：

为主智能体潮流优化策略μ_θ和攻击型智能体状态扰动策略v_θ′共同作用的无约束优化目标，得到双智能体零和博弈鲁棒强化学习模型的求解目标；

步骤4所通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型，具体如下：

构建目标函数，具体如下：：

其中，argmax表示是求函数最大化的参数，E为求期望，为奖励函数的时序差分残差，将其定义为优势函数。D_KL为使用KL散度来衡量新人工神经网络参数θ_new和旧人工神经网络参数θ之间的更新距离，为主智能体的惩罚函数期望值，表示输入状态为s时，利用潮流优化策略输出动作a的概率，μ_θ(a|s)表示输入状态为s时，利用潮流优化策略μ_θ输出动作a的概率，δ为KL距离的阈值，K为约束阈值。

首先利用泰勒展开公式对其进行近似处理：

其中，argmax表示是求函数最大化的参数，g表示求解目标项的梯度，H表示求新人工神经网络参数θ_new和旧人工神经网络参数θ之间平均KL距离的黑塞矩阵，δ为KL距离的阈值；

构建Lag-TRPO算法，具体如下：

再利用拉格朗日乘子法将带惩罚函数期望值约束项变换到求解目标项上成为无约束形式，通过人工神经网络梯度下降法使得拉格朗日乘子β自适应收敛到合适的值，从而实现有约束到无约束优化问题的等价转换；所述TA-Lag-TRPO算法具体如下：

实现的是主智能体和攻击型智能体之间的零和博弈训练过程；

固定攻击型智能体的扰动策略v，主智能体学习决策策略μ以及如何防御攻击型智能体的状态扰动攻击；在T步决策中，Lag-TRPO算法根据第n次迭代的决策参数θ_n、第n-1次迭代的扰动参数θ′_n-1依次做出决策a_1,t，a_2,t，同时对训练序列日志数据{s_t,a_1,t,a_2,t,r_t,c_t}进行采样，评价所做决策并更新优化决策参数θ_n。T步决策后，固定住主智能体的调度决策策略μ，攻击型智能体学习如何攻击和干扰主智能体的决策，与上述过程相似。在T步决策中，Lag-TRPO算法根据第n次迭代的决策参数θ_n、第n次迭代的扰动参数θ′_n依次做出决策a_1,t，a_2,t，同时对训练序列日志数据{s_t,a_1,t,a_2,t,r_t,c_t}进行采样，评价所做决策并更新扰动策略ν参数θ′_n。交替进行上述过程直至循环结束，返回主智能体决策策略μ参数θ_N，攻击型智能体扰动策略ν参数θ'_N，n≤N，N为最大迭代次数；

本发明还提供了一种计算机可读介质，所述计算机可读介质存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，执行所述鲁棒强化学习的配网潮流优化方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明能够充分考虑模拟配电网仿真模型与现实电网环境之间的差距，建立对潮流优化主智能体施加观测状态扰动的攻击型智能体。该攻击型智能体与潮流优化主智能体交替式训练、异步执行，相互对抗博弈，形成一个基于Maximin策略的零和博弈。潮流优化主智能体在与攻击型智能体进行基于Maximin策略零和博弈训练的过程中将逐渐提升对外界干扰的鲁棒性以及外部攻击下配电网潮流优化的安全性。该方法旨在优化解决大多数基于深度强化学习的配电网潮流优化问题，提升配电网潮流优化方法的鲁棒性与安全性、保障配电网的安全运行。

充分考虑模拟电网环境和现实电网环境之间的差距，建立面向提高对外界干扰的鲁棒性以及外部攻击下的配电网电网潮流优化模型；

模拟了电网环境和现实电网环境之间的差距，重点关注因电力环境建模误差或者训练、测试输入数据误差以导致智能体利用深度强化学习算法学习到的最优策略无法转移到现实世界中的问题；

将Maximin方法用于鲁棒强化学习，并提出了一种新的基于MA-Lag-TRPO算法的Maximin学习目标。该潮流优化模型旨在优化提高配电网自动化调度、优化过程中的鲁棒性和安全性，改善配电网的安全运行可靠性、提高配电网的投资效益。

附图说明

图1：本发明实施例的方法流程图。

图2：本发明实施例的配电网环境建模示意图。

图3：本发明实施例的基于配电网潮流优化马尔可夫零和博弈模型总体框架图。

图4：本发明实施例的TA-Lag-TRPO算法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本发明实施例提供的基于鲁棒强化学习的配电网潮流优化方法的流程图。如图1所示，该方法包括：

步骤1所述多个时刻的每个火力发电节点出力的有功，定义如下：

t∈[1,T]

tg∈[1,K₁]

i_tg∈[1,M]

t∈[1,T]

tg∈[1,K₁]

i_tg∈[1,M]

t∈[1,T]

des∈[1,K₃]

i_des∈[1,M]

步骤1所述多个时刻的每个分布式储能节点出力的无功，定义如下：

t∈[1,T]

des∈[1,K₃]

i_des∈[1,M]

步骤1所述多个时刻的每个负荷节点的有功，定义如下：

t∈[1,T]

l∈[1,K₄]

i_l∈[1,M]

步骤1所述多个时刻的每个负荷节点的无功，定义如下：

t∈[1,T]

l∈[1,K₄]

i_l∈[1,M]

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

t∈[1,T]

dg∈[1,K₂]

i_dg∈[1,M]

t∈[1,T]

des∈[1,K₃]

i_des∈[1,M]

图2是本发明实施例的配电网环境建模示意图。如图2所示：

配电网模拟环境具有包含火力发电和分布式发电的发电单元、与配电网实现能源双向流动的分布式储能单元、具有一定负荷特性的负荷单元。步骤1已经选择多节点配电网模型中K1、K2、K3、K4个节点作为火力发电、分布式发电、分布式储能、负荷节点。获取多个时刻每个节点的有、无功出力和最大有、无功出力，分布式储能节点的荷电状态。配电网潮流优化模拟环境需要考虑潮流优化目标-约束模型，步骤2依次构建各约束和目标。

步骤2：依次构建配电网节点的有功平衡约束、配电网支路有功约束、配电网无功潮流等式约束、火力发电单元的有功约束、火力发电单元的无功约束、分布式储能单元的荷电状态约束、负荷单元的有功约束，构建配电网综合损耗，以配电网综合损耗最小化作为潮流优化目标；

步骤2所述配电网节点的有功平衡约束，定义如下：

步骤2所述配电网支路有功潮流约束，定义如下：

P_ij＝(V_i ²-V_iV_jcosθ_ij)g_ij-V_iV_jb_ijsinθ_ij

i∈[1,M]

j∈[1,M]

步骤2所述配电网无功潮流约束，定义如下：

Q_ij＝-V_iV_jg_ijsinθ_ij-(V_i ²-V_iV_jcosθ_ij)b_ij

i∈[1,M]

j∈[1,M]

布式发电单元的有功约束，定义如下：

步骤2所述分布式储能单元的荷电状态约束，定义如下：

步骤2所述负荷单元的有功约束，定义如下：

步骤2所述配电网综合损耗，定义如下：

图3是本发明实施例的基于配电网潮流优化马尔可夫零和博弈模型总体框架图。如图3所示：

基于配电网潮流优化马尔可夫零和博弈模型主要模拟实现配电网潮流优化主智能体与攻击型智能体之间的双智能体零和博弈。其中，将配电网仿真模型与现实配网环境之间的差距建模为攻击型智能体。其训练目标是对配电网主智能体的马尔可夫观测状态施加外界扰动，企图干扰配网潮流优化过程。两智能体具有相反的奖励函数和相同的惩罚约束条件，构成零和博弈。步骤3依次构建配电网潮流优化主智能体和攻击型智能体的状态、动作、奖励、惩罚集合。

步骤3所述每个时刻的状态集合，具体定义如下：

步骤3所述每个时刻的主智能体动作集合，具体定义如下：

攻击型智能体的奖励值为主智能体的奖励值的相反数：

攻击型智能体的惩罚值与主智能体的惩罚值相同：

步骤4所述构建双智能体零和博弈鲁棒强化学习模型，具体如下：

攻击智能体得到无约束目标形式：

构建目标函数，具体如下：：

首先利用泰勒展开公式对其进行近似处理：

构建Lag-TRPO算法，具体如下：

再利用拉格朗日乘子法将带惩罚函数期望值约束项变换到求解目标项上成为无约束形式，通过人工神经网络梯度下降法使得拉格朗日乘子β自适应收敛到合适的值，从而实现有约束到无约束优化问题的等价转换；

针对双智能体零和博弈鲁棒强化学习模型无约束目标形式，结合TRPO算法以及拉格朗日乘子法，提出了一种TA-Lag-TRPO算法来实现主智能体和攻击型智能体的博弈训练，求解双智能体零和博弈鲁棒强化学习模型。所述TA-Lag-TRPO算法具体如下：

图4是本发明实施例的MA-Lag-TRPO算法流程图：

具体实现的是主智能体和攻击型智能体之间的零和博弈训练过程。固定攻击型智能体的扰动策略v，主智能体学习决策策略μ以及如何防御攻击型智能体的状态扰动攻击；在T步决策中，Lag-TRPO算法根据第n次迭代的决策参数θ_n、第n-1次迭代的扰动参数θ_n'_-1依次做出决策a_1,t，a_2,t，同时对训练序列日志数据{s_t,a_1,t,a_2,t,r_t,c_t}进行采样，评价所做决策并更新优化决策参数θ_n。T步决策后，固定住主智能体的调度决策策略μ，攻击型智能体学习如何攻击和干扰主智能体的决策，与上述过程相似。在T步决策中，Lag-TRPO算法根据第n次迭代的决策参数θ_n、第n次迭代的扰动参数θ_n'依次做出决策a_1,t，a_2,t，同时对训练序列日志数据{s_t,a_1,t,a_2,t,r_t,c_t}进行采样，评价所做决策并更新扰动策略ν参数θ_n'。交替进行上述过程直至循环结束，返回主智能体决策策略μ参数θ_N，攻击型智能体扰动策略ν参数θ'_N，n≤N，N为最大迭代次数；

本发明的具体实施例还提供了一种计算机可读介质。

所述计算机可读介质为服务器工作站；

所述服务器工作站存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行本发明实施例的鲁棒强化学习的配网潮流优化方法的步骤。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种鲁棒强化学习的配网潮流优化方法，其特征在于：

获取配电网模型、分布式发电节点、分布式储能节点、火力发电节点、负荷节点出力的数据；

构建配电网综合损耗，以配电网综合损耗最小化作为潮流优化目标；

构建每个时刻的状态集合、每个时刻的主智能体动作集合、每个时刻的攻击型智能体动作集合，进一步构建配电网潮流优化主智能体、配电网攻击型智能体；

构建双智能体零和博弈鲁棒强化学习模型，通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型。

2.根据权利要求1所述的鲁棒强化学习的配网潮流优化方法，其特征在于，包括以下步骤：

步骤4：根据主智能体和攻击型智能体构建双智能体零和博弈鲁棒强化学习模型，通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型，实现配电网鲁棒性增强的潮流优化。

3.根据权利要求2所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

步骤1所述多个时刻的每个负荷节点的有功，定义如下：

步骤1所述多个时刻的每个负荷节点的无功，定义如下：

其中，T表示时刻的数量，K₃表示分布式储能节点的数量，M表示配电网模型中节点的数量，表示第t个时刻第des个分布式储能节点的荷电状态，即表示第t个时刻配电网模型中第i_des个节点接入的分布式储能节点的荷电状态。

4.根据权利要求3所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

步骤2所述配电网节点的有功平衡约束，定义如下：

步骤2所述配电网有功潮流约束，定义如下：

P_ij＝(V_i ²-V_iV_jcosθ_ij)g_ij-V_iV_jb_ijsinθ_ij

i∈[1,M]

j∈[1,M]

步骤2所述配电网无功潮流约束，定义如下：

Q_ij＝-V_iV_jg_ijsinθ_ij-(V_i ²-V_iV_jcosθ_ij)b_ij

i∈[1,M]

j∈[1,M]

步骤2所述分布式储能单元的荷电状态约束，定义如下：

步骤2所述负荷单元的有功约束，定义如下：

其中，表示第t个时刻第l个负荷节点的出力的有功，表示第t个时刻第l个负荷节点的出力的最小有功。

5.根据权利要求4所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

步骤2所述配电网综合损耗，定义如下：

其中，表示第t个时刻分布式发电节点在削减出力过程中的能量损耗；表示第t个时刻电力线路能量损耗；表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,表示第t个时刻第dg个分布式发电节点的出力的最大有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第des个分布式储能节点的出力的有功，表示第t个时刻第l个负荷节点的出力的有功，Δ表示求t到t+1时刻的变化量，K₁表示火力发电节点的数量，K₂表示分布式发电节点的数量，K₃表示分布式储能节点的数量，K₄表示负荷节点的数量。

6.根据权利要求5所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

步骤3所述每个时刻的状态集合，具体定义如下：

步骤3所述每个时刻的主智能体动作集合，具体定义如下：

其中，a_1,t表示第t个时刻的主智能体动作集合；和分别代表第t个时刻第dg个分布式发电节点的有功值、无功削减值；和分别表示第t个时刻第des个分布式储能节点的有功值、无功注入值；

其中，a_2,t表示第t个时刻的主智能体动作集合，分别表示第t个时刻第tg个火力发电节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功，分别表示第t个时刻第des个分布式储能节点的出力的有功、无功，分别表示第t个时刻第l个负荷节点的出力的有功、无功，分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功，表示第t个时刻第des个分布式储能节点的荷电状态。

7.根据权利要求6所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

其中，表示第t个时刻第dg个分布式发电节点的出力的最大有功，表示第t个时刻第dg个分布式发电节点的出力的有功，表示第t个时刻第tg个火力发电节点的出力的有功，表示第t个时刻第des个分布式储能节点的出力的有功，表示第t个时刻第l个负荷节点的出力的有功，Δ表示求t到t+1时刻的变化量；

其中，V_i为节点i的电压值，V_i ^max为节点i的最大电压幅值，V_i ^min为节点i的最小电压幅值，M表示配电网模型中节点的数量；

其中，S_ij(S_ji)为节点i(j)到j(i)的功率值，为节点i到节点j的最大视在潮流，为节点i的最小视在潮流，M表示配电网模型中节点的数量；

攻击型智能体的奖励值为主智能体的奖励值的相反数：

攻击型智能体的惩罚值与主智能体的惩罚值相同：

8.根据权利要求7所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

其中，μ_θ为主智能体人工神经网络参数为θ的潮流优化策略，v_θ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略，s_t为主智能体和攻击型智能体的第t个时刻的状态集合，a_1,t为主智能体的第t个时刻的动作集合，a_2,t为攻击型智能体的第t个时刻的动作集合，r_t为第t个时刻的奖励值，a_1,t～μ_θ(s_t)表示输入为状态集合s_t时利用潮流优化策略μ_θ输出动作集合a_1,t，a_2,t～v_θ′(s_t)表示输入为状态集合s_t时利用状态扰动策略v_θ′输出动作集合a_2,t，为主智能体利用潮流优化策略μ_θ获取到的奖励函数期望值，为主智能体利用潮流优化策略μ_θ获取到的惩罚函数期望值，T表示时刻的数量，c₁为电压越限惩罚值，c₂为潮流越限惩罚值，γ∈(0,1]为折扣因子，反映未来收益的重要程度，K为约束阈值，max表示利用潮流优化策略μ_θ获取最大值，E表示求期望；

攻击型智能体的目标是学习到状态扰动策略ν的最优网络参数θ’，对主智能体的观测状态进行扰动；与主智能体相反，攻击型智能体使其奖励函数期望值最小化，同时满足其惩罚函数期望值低于约束阈值K：

其中，μ_θ为主智能体人工神经网络参数为θ的潮流优化策略，v_θ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略，s_t为主智能体和攻击型智能体的第t个时刻的状态集合，a_1,t为主智能体的第t个时刻的动作集合，a_2,t为攻击型智能体的第t个时刻的动作集合，r_t为第t个时刻的奖励值，a_1,t～μ_θ(s_t)表示输入为状态集合s_t时利用潮流优化策略μ_θ输出动作集合a_1,t，a_2,t～v_θ′(s_t)表示输入为状态集合s_t时利用状态扰动策略v_θ′输出动作集合a_2,t，为攻击型智能体利用状态扰动策略v_θ′获取到的奖励函数期望值，为攻击型智能体利用状态扰动策略v_θ′获取到的惩罚函数期望值，T表示时刻的数量，c₁为电压越限惩罚值，c₂为潮流越限惩罚值，γ∈(0,1]为折扣因子，反映未来收益的重要程度，K为约束阈值，min表示利用状态扰动策略v_θ′获取最小值，E表示求期望；

两智能体的目标、约束函数共同构成了双智能体零和博弈鲁棒强化学习模型目标约束形式：

将拉格朗日乘子法应用于上述目标约束优化问题，使其转换为无约束优化问题；主智能体得到无约束目标形式：

攻击智能体得到无约束目标形式：

其中，为主智能体潮流优化策略μ_θ的无约束优化目标，为攻击型智能体潮流优化策略v_θ′的无约束优化目标，R_μθ为主智能体利用潮流优化策略μ_θ获取到的奖励函数期望值，为主智能体利用潮流优化策略μ_θ获取到的惩罚函数期望值，为攻击型智能体利用状态扰动策略v_θ′获取到的奖励函数期望值，为攻击型智能体利用状态扰动策略v_θ′获取到的惩罚函数期望值，β为可迭代更新的拉格朗日乘子参数，λ为可迭代更新的拉格朗日乘子参数，用于权衡智能体的决策策略神经网络参数在奖励和惩罚之间的取舍更新，a_1,t为主智能体的第t个时刻的动作集合，a_2,t为攻击型智能体的第t个时刻的动作集合；

为主智能体潮流优化策略μ_θ和攻击型智能体状态扰动策略v_θ′共同作用的无约束优化目标，得到双智能体零和博弈鲁棒强化学习模型的求解目标。

9.根据权利要求8所述的鲁棒强化学习的配网潮流优化方法，其特征在于：

构建目标函数，具体如下：：

其中，argmax表示是求函数最大化的参数，E为求期望，为奖励函数的时序差分残差，将其定义为优势函数；D_KL为使用KL散度来衡量新人工神经网络参数θ_new和旧人工神经网络参数θ之间的更新距离，为主智能体的惩罚函数期望值，表示输入状态为s时，利用潮流优化策略输出动作a的概率，μ_θ(a|s)表示输入状态为s时，利用潮流优化策略μ_θ输出动作a的概率，δ为KL距离的阈值，K为约束阈值；

首先利用泰勒展开公式对其进行近似处理：

构建Lag-TRPO算法，具体如下：

固定攻击型智能体的扰动策略v，主智能体学习决策策略μ以及如何防御攻击型智能体的状态扰动攻击；在T步决策中，Lag-TRPO算法根据第n次迭代的决策参数θ_n、第n-1次迭代的扰动参数θ′_n-1依次做出决策a_1,t，a_2,t，同时对训练序列日志数据{s_t,a_1,t,a_2,t,r_t,c_t}进行采样，评价所做决策并更新优化决策参数θ_n。T步决策后，固定住主智能体的调度决策策略μ，攻击型智能体学习如何攻击和干扰主智能体的决策，与上述过程相似。在T步决策中，Lag-TRPO算法根据第n次迭代的决策参数θ_n、第n次迭代的扰动参数θ′_n依次做出决策a_1,t，a_2,t，同时对训练序列日志数据{s_t ^,a_1,t,a_2,t,r_t,c_t}进行采样，评价所做决策并更新扰动策略ν参数θ′_n。交替进行上述过程直至循环结束，返回主智能体决策策略μ参数θ_N，攻击型智能体扰动策略ν参数θ'_N，n≤N，N为最大迭代次数。

10.一种计算机可读介质，其特征在于，其存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-9任一项所述方法的步骤。