CN116031889A

CN116031889A - 基于鲁棒深度强化学习的多智能体分布式电压控制方法

Info

Publication number: CN116031889A
Application number: CN202211635714.0A
Authority: CN
Inventors: 陈巨龙; 李庆生; 李震; 刘文霞; 刘影; 刘大猛; 陈露东; 王杰; 罗宁; 王斌; 徐常; 朱永清; 吴志; 顾伟; 周苏洋
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-28

Abstract

本发明公开了基于鲁棒深度强化学习的多智能体分布式电压控制方法，包括搭建多馈线配电网多智能体控制设备模型，包括OLTC模型及光伏逆变器模型；建立计及主网电压波动的多智能体双层电压控制模型，包括上层主智能体状态‑对抗性马尔科夫决策模型控制慢时间尺度OLTC抽头位置，下层子智能体DistFlow最优潮流模型控制快时间尺度光伏逆变器无功功率；基于构建的多智能体电压控制模型，采用鲁棒D3QN算法训练主智能体网络并求解上层主智能体输出状态，引入二阶锥松弛技术求解下层子智能体控制方案。本方法实现了主网电压波动情况下的多馈线配电网电压鲁棒控制，提升了电压控制的鲁棒性与迅速性，有利于维持配电网安全稳定运行。

Description

基于鲁棒深度强化学习的多智能体分布式电压控制方法

技术领域

本发明涉及基于鲁棒深度强化学习的多智能体分布式电压控制方法，属于配电网电压控制技术领域。

背景技术

近年来，分布式光伏渗透率的不断提高给配电网的电压控制带来了深远的影响。与此同时，动态无功补偿技术不断发展，储能技术逐渐成熟，分布式能源日益可控化，这些都为配电网的电压控制带来了越来越多的可控资源，也对现有的电压控制方法提出了挑战。传统的电压控制方案需要建立精确的物理模型，采用一些近似和简化技术对参数进行优化。当配电网规模变大，建立精确物理模型的难度也会变大。在大量分布式光伏不断接入的情况下，整个网络的复杂性、随机性和动态性能都会不断增加，继续采用传统的方法可能会造成控制精度的降低，求解耗时较长，甚至难以求解。深度强化学习具有去模型化的特点，可在毫秒的尺度之内提供最优解，在解决复杂的多变量问题方面具有很大的优势。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述基于鲁棒深度强化学习的多智能体分布式电压控制方法中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供基于鲁棒深度强化学习的多智能体分布式电压控制方法。

为解决上述技术问题，本发明提供如下技术方案：基于鲁棒深度强化学习的多智能体分布式电压控制方法，其包括，

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：参考对抗性马尔科夫决策模型和DistFlow最优潮流模型搭建计及主网电压波动的多智能体双层电压控制模型；

通过鲁棒D3QN算法，确定上层满时间尺度OLTC抽头位置；

引入二阶锥松弛技术的凸优化DistFlow最优潮流模型，获取下层快时间尺度光伏逆变器无功功率；

通过计算数据判断电压控制模型是否收敛；

实现多智能体分布式电压控制。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：所述OLTC机组和光伏逆变器机组模型为

OLTC机组模型为

其中，T为慢时间尺度，u_ref(T)为T时段OLTC抽头位置函数；U¹ _t为上级主网电压波动后的实际幅值，U¹ _ref为上级主网电压额定值；a_tp(T)为T时段OLTC的抽头位置变量；U^max和U^min分别为所允许的电压最大值和最小值；tp^max和tp^min分别为抽头位置的最大值和最小值，取+16和-16；

光伏逆变器机组模型为

-1≤a_pv,i(T,t)≤1

其中，t为快时间尺度，i为节点；Q_PV,i(T,t)为逆变器输出的无功功率，a_pv,i(T,t)为光伏逆变器的连续型控制变量，

为无功输出绝对值的上限；P_PV,i(T,t)为光伏元件输出的有功功率，

为光伏额定视在功率。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：所述计及主网电压波动的多智能体双层电压控制模型，包括上层主智能体状态-对抗性马尔科夫决策模型，下层子智能体DistFlow最优潮流模型。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：构建上层主智能体状态-对抗性马尔科夫决策模型

对抗价值函数和动作-价值函数为

其中，s为当前状态，a为动作；V_π～w(s)为对抗价值函数，Q_π～w(s,a)为动作价值函数；π～w为在观测扰动下的策略；r为回报值，γ为折扣率；

基于固定策略π和固定对手w下的贝尔曼方程为，

V_π～w(s)＝∑_a∈Aπ(a|w(s)∑_s′∈Sp(s|s,a)[r(s,a,a′)+γV_π-w(s′)]

其中，A为动作空间集合，S为状态空间集合，p为概率，s'为下一时刻的状态；

固定策略π的最优对抗价值函数和动作-价值函数为，

其中，π～w^*为在固定策略π下的最优对手，其使总期望回报最小化；

固定策略π下的最优对手w^*下的贝尔曼收敛方程为，

其中，X(s)为扰动集，包含对手的所有干扰

最优对手w^*(π)下的最优策略π^*为，

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：定义上层主智能体状态-对抗性马尔科夫决策过程各状态量，

状态空间S

其中，K为该配网中总馈线数，

为各馈线节点有功功率平均值；

对手扰动w(s)

其中，

Δu为电压波动；

动作空间A

a_tp(T)∈[-16,16]

回报值

。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：下层的DistFlow最优潮流模型

下层子智能体电压控制的目标为最小化整个配网系统的瞬时电压偏差，t时刻各馈线上的子智能体的目标函数为：

其中，N_k为第k条馈线上的节点数；v_i(T,t)为节点i处的电压幅值。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：下层DistFlow最优潮流模型的约束条件，

在每个T开始时，主智能体将OLTC控制下的公共节点电压发送给各子智能体；基于此，在接下来的每个t开始时，各子智能体负责各自馈线上逆变器的无功调节；各子智能体建立各自馈线上的DistFlow潮流方程约束为，

v₀(T,t)＝(U_ref(T))²

其中，v_i(T,t)为节点i处电压幅值的平方，v₀(T,t)为各馈线公共节点电压幅值的平方，i_ij(T,t)为从节点i流向节点j的电流幅值的平方。(T，t)为第T个时间间隔下的第t个时间槽的时刻；v_j(T,t)和v_i(T,t)分别为节点j和i处的电压幅值；r_ij和x_ij为节点i到节点j的线路的电阻和电抗；P_ij(T,t)为从节点i流向节点j的有功功率，Q_ij(T,t)为从节点i流向节点j的无功功率；P_L,j(T,t)为节点j处的有功负荷，Q_L,j(T,t)为节点j处的无功负荷；ψ(j)为节点j的父级母线集，功率从各父级母线流向节点j；φ(j)为节点j的子级母线集，功率从节点j流向各子级母线。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：通过鲁棒D3QN算法训练主智能体网络，

将上层Q函数分成两部分，

Q_π(s,a)＝V_π(s)+A_π(s,a)

其中，V_π(s)为状态-价值函数，A_π(s，a)为优势函数；

定义最优动作价值函数，

其中，V^*(s)为最优状态价值函数，A^*(s,a)为最优优势函数；

近似动作-价值函数Duelingnetwork，

其中，A(s，a；θ，θ^A)为优势神经网络，用于拟合最优优势函数A^*(s，a；V(s；θ，θ^V)为状态-价值神经网络，用于拟合最优状态价值函数；其中θ为二者共享的隐藏层；

引入目标Q网络，

y_i＝r_i+γ·Q(s_i+1,a^*；θ'_Q)

其中，θ'_Q为目标Q网络的参数，y_i目标Q值，目标Q网络的参数θ'_Q通过特定时间步复制Q网络的参数θ_Q来更新；

引入经验回放池，经验回放池记为D，用于存储每次动作的经验e_t＝(s_t，a_t，r_t，s_t+1)，

定义D3QN算法总偏差距离

引入鲁棒策略正则化算子作用于总偏差距离：

其中，L_D3QN(θ_Q)为Q网络参数集合，L_D3QN(θ_Q)为鲁棒策略正则化算子，

c为一个很小的正常数，

为最大状态扰动。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：通过二阶锥松弛技术将非凸优化问题转化为凸优化问题

将

和

的约束进行二阶锥松弛

求解下层最优电压控制问题，获取各馈线光伏逆变器无功出力。

作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案，其中：判断训练后的双层电压控制模型是否收敛

设定训练回合数，输入包含各馈线负荷功率与光伏出力数据的训练集，对鲁棒D3QN的主智能体进行训练；

所有训练回合结束后，观察回报值曲线，若回报值趋于平稳乃至不变，表明回报值曲线收敛至最优值，控制模型收敛。

本发明有益效果为：构建了一种基于鲁棒深度强化学习的多智能体电压控制方法，基于鲁棒D3QN算法训练主智能体网络，并将训练好的模型投入实际应用。该发明提升了电压控制的鲁棒性，同时降低了各个智能体间的通讯延迟，提升了迅速性，有助于维持配电网安全稳定运行。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1中基于鲁棒深度强化学习的多智能体分布式电压控制方法的流程图。

图2为实施例2中基于鲁棒深度强化学习的多智能体分布式电压控制方法采用测试算例的多馈线配电网拓扑结构示意图。

图3为实施例2中基于鲁棒深度强化学习的多智能体分布式电压控制方法采用测试算例某典型场景下的电气热冷负荷需求情况图；图3(a)为各馈线负荷曲线；(b)为各馈线光伏输出曲线。

图4为实施例2中基于鲁棒深度强化学习的多智能体分布式电压控制方法采用测试算例某典型场景下设备出力、多能流模拟运行分布以及负荷缺额等计算结果图；图4(a)为各馈线负荷曲线(b)为各馈线上光伏输出曲线。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1，为本发明的一个实施例，提供了基于鲁棒深度强化学习的多智能体分布式电压控制方法，包括：

构建多智能体双层电压控制模型。包含上层状态-对抗性马尔科夫决策模型和下层DistFlow最优潮流电压模型：构建上层主智能体状态-对抗性马尔科夫决策模型

对抗价值函数和动作-价值函数为，

基于固定策略π和固定对手w下的贝尔曼方程为，

V_π～w(s)＝∑_a∈Aπ(a|w(s)∑_s′∈Sp(s′|s,a)[r(s,a,a′)+γV_π-w(s′)]

固定策略π的最优对抗价值函数和动作-价值函数为，

固定策略π下的最优对手w^*下的贝尔曼收敛方程为，

其中，X(s)为扰动集，包含对手的所有干扰

最优对手w^*(π)下的最优策略π*为，

引入对手扰动智能体观测状态，明确上层状态-对抗性马尔科夫决策过程中的最优对手与最优动作价值函数，确定该多馈线电压控制问题中的状态空间、对手扰动、动作空间及回报值；定义上层主智能体状态-对抗性马尔科夫决策过程各状态量

状态空间S

其中，K为该配网中总馈线数，

为各馈线节点有功功率平均值；

对手扰动w(s)

其中，

Δu为电压波动；

动作空间A

a_tp(T)∈[-16,16]

回报值

。

构建下层DistFlow最优潮流模型，以最小化整个配网系统的瞬时电压偏差之和为目标函数，计及有功、无功功率平衡约束，光伏逆变器无功出力约束，节点电压约束，馈线电流约束；下层的DistFlow最优潮流模型

下层DistFlow最优潮流模型的约束条件，

v₀(T,t)＝(U_ref(T))²

设置多智能体网络超参数，包括经验回放池大小、最小池大小、折扣系数、目标Q函数更新周期、Q网络学习率、状态对抗正则化参数、PGD攻击中的迭代次数K、PGD攻击中的参数∈；

训练多智能体网络：

通过鲁棒D3QN算法训练主智能体网络，

将上层Q函数分成两部分，

Q_π(s,a)＝V_π(s)+A_π(s,a)

其中，V_π(s)为状态-价值函数，A_π(s，a)为优势函数；

定义最优动作价值函数，

其中，V^*(s)为最优状态价值函数，A^*(s,a)为最优优势函数；

近似动作-价值函数Duelingnetwork，

其中，A(s，a；θ，θ^A)为优势神经网络，用于拟合最优优势函数A^*(s，a)；V(s；θ，θ^V)为状态-价值神经网络，用于拟合最优状态价值函数；其中θ为二者共享的隐藏层；

引入目标Q网络，

y_i＝r_i+γ·Q(s_i+1，a^*；θ'_Q)

引入经验回放池，经验回放池记为D，用于存储每次动作的经验

定义D3QN算法总偏差距离

引入鲁棒策略正则化算子作用于总偏差距离：

c为一个很小的正常数，

为最大状态扰动。

初始化Q网络参数、目标Q网络参数θ'_Q＝θ_Q；初始化经验回放池D_D3QN；初始化配电网状态s₁；

从t＝1开始计数，在每个慢时间尺度利用ε-贪婪策略获得动作a_t；在配电网环境中执行动作a_t，获得回报值r_t以及新的状态s_t+1；将经验{s_t，a_t，r_t，s_t+1}存入经验回放池D_D3QN；随机从D_D3QN中采样M个经验{s_i，a_i，r_i，s'_i}形成最小池；对于所有的s_i，计算a_i ^*；

根据

y_i＝r_i+γ·Q(s_i+1,a^*；θ'_Q)

计算TD-loss；使用PDG算法求解最大状态扰动；

计算hinge损失之和：

使用梯度下降法最小化损失

更新Q网络参数；

按每B个时间步更新D3QN的目标Q网络θ'_Q＝θ_Q；更新状态s_t＝s_t+1；返回步骤，令t＝t+1，重复训练直至t＝T，T为慢时间尺度数量。

判断控制模型是否收敛，若收敛，则可投入实际应用；若不收敛，则增加训练轮次直至收敛。

实施例2

下面以图2所示的多馈线配电网络为例验证本发明的有效性。该配电网由三条馈线组成。其中，在各馈线公共节点的变电所母线上安装OLTC。馈线1上总的负荷容量为14MW，在节点5和节点10处安装光伏单元，额定容量均为4MW；馈线2上总的负荷容量为28.9MW，在节点27、节点34、节点41、节点46、节点51、节点55和节点58处安装光伏，额定容量分别为5MW、5MW、3MW、3MW、2MW、2MW和4MW；馈线3上总的负荷容量为16MW，在节点77、节点81、节点87、节点88、节点94和节点96处安装光伏，其额定容量分别为4MW、3MW、1MW、3MW、3MW和2MW。在各光伏单元处同时安装光伏逆变器。

图3为该多智能体网络2880组训练集，图4为288组测试集。

表1展示了本模型控制方法与传统控制方法的计算时间。

表1基于模型的控制方法和基于鲁棒D3QN的控制方法的计算时间

结果表明基于鲁棒D3QN的方法仅需27.1667s即可完成控制，其中主智能体获得OLTC控制变量的总用时仅为0.0221s，远远小于基于模型方法所用的5682.2683s。本研究所提方法具有较高的计算效率，在线应用前景广阔。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。