CN116031889A - 基于鲁棒深度强化学习的多智能体分布式电压控制方法 - Google Patents

基于鲁棒深度强化学习的多智能体分布式电压控制方法 Download PDF

Info

Publication number
CN116031889A
CN116031889A CN202211635714.0A CN202211635714A CN116031889A CN 116031889 A CN116031889 A CN 116031889A CN 202211635714 A CN202211635714 A CN 202211635714A CN 116031889 A CN116031889 A CN 116031889A
Authority
CN
China
Prior art keywords
agent
node
voltage control
model
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211635714.0A
Other languages
English (en)
Inventor
陈巨龙
李庆生
李震
刘文霞
刘影
刘大猛
陈露东
王杰
罗宁
王斌
徐常
朱永清
吴志
顾伟
周苏洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202211635714.0A priority Critical patent/CN116031889A/zh
Publication of CN116031889A publication Critical patent/CN116031889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/30Reactive power compensation

Abstract

本发明公开了基于鲁棒深度强化学习的多智能体分布式电压控制方法,包括搭建多馈线配电网多智能体控制设备模型,包括OLTC模型及光伏逆变器模型;建立计及主网电压波动的多智能体双层电压控制模型,包括上层主智能体状态‑对抗性马尔科夫决策模型控制慢时间尺度OLTC抽头位置,下层子智能体DistFlow最优潮流模型控制快时间尺度光伏逆变器无功功率;基于构建的多智能体电压控制模型,采用鲁棒D3QN算法训练主智能体网络并求解上层主智能体输出状态,引入二阶锥松弛技术求解下层子智能体控制方案。本方法实现了主网电压波动情况下的多馈线配电网电压鲁棒控制,提升了电压控制的鲁棒性与迅速性,有利于维持配电网安全稳定运行。

Description

基于鲁棒深度强化学习的多智能体分布式电压控制方法
技术领域
本发明涉及基于鲁棒深度强化学习的多智能体分布式电压控制方法,属于配电网电压控制技术领域。
背景技术
近年来,分布式光伏渗透率的不断提高给配电网的电压控制带来了深远的影响。与此同时,动态无功补偿技术不断发展,储能技术逐渐成熟,分布式能源日益可控化,这些都为配电网的电压控制带来了越来越多的可控资源,也对现有的电压控制方法提出了挑战。传统的电压控制方案需要建立精确的物理模型,采用一些近似和简化技术对参数进行优化。当配电网规模变大,建立精确物理模型的难度也会变大。在大量分布式光伏不断接入的情况下,整个网络的复杂性、随机性和动态性能都会不断增加,继续采用传统的方法可能会造成控制精度的降低,求解耗时较长,甚至难以求解。深度强化学习具有去模型化的特点,可在毫秒的尺度之内提供最优解,在解决复杂的多变量问题方面具有很大的优势。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述基于鲁棒深度强化学习的多智能体分布式电压控制方法中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于如何提供基于鲁棒深度强化学习的多智能体分布式电压控制方法。
为解决上述技术问题,本发明提供如下技术方案:基于鲁棒深度强化学习的多智能体分布式电压控制方法,其包括,
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:参考对抗性马尔科夫决策模型和DistFlow最优潮流模型搭建计及主网电压波动的多智能体双层电压控制模型;
通过鲁棒D3QN算法,确定上层满时间尺度OLTC抽头位置;
引入二阶锥松弛技术的凸优化DistFlow最优潮流模型,获取下层快时间尺度光伏逆变器无功功率;
通过计算数据判断电压控制模型是否收敛;
实现多智能体分布式电压控制。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:所述OLTC机组和光伏逆变器机组模型为
OLTC机组模型为
Figure BDA0004007153070000021
其中,T为慢时间尺度,uref(T)为T时段OLTC抽头位置函数;U1 t为上级主网电压波动后的实际幅值,U1 ref为上级主网电压额定值;atp(T)为T时段OLTC的抽头位置变量;Umax和Umin分别为所允许的电压最大值和最小值;tpmax和tpmin分别为抽头位置的最大值和最小值,取+16和-16;
光伏逆变器机组模型为
Figure BDA0004007153070000022
Figure BDA0004007153070000023
-1≤apv,i(T,t)≤1
其中,t为快时间尺度,i为节点;QPV,i(T,t)为逆变器输出的无功功率,apv,i(T,t)为光伏逆变器的连续型控制变量,
Figure BDA0004007153070000024
为无功输出绝对值的上限;PPV,i(T,t)为光伏元件输出的有功功率,
Figure BDA0004007153070000025
为光伏额定视在功率。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:所述计及主网电压波动的多智能体双层电压控制模型,包括上层主智能体状态-对抗性马尔科夫决策模型,下层子智能体DistFlow最优潮流模型。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:构建上层主智能体状态-对抗性马尔科夫决策模型
对抗价值函数和动作-价值函数为
Figure BDA0004007153070000026
Figure BDA0004007153070000027
其中,s为当前状态,a为动作;Vπ~w(s)为对抗价值函数,Qπ~w(s,a)为动作价值函数;π~w为在观测扰动下的策略;r为回报值,γ为折扣率;
基于固定策略π和固定对手w下的贝尔曼方程为,
Vπ~w(s)=∑a∈Aπ(a|w(s)∑s′∈Sp(s|s,a)[r(s,a,a′)+γVπ-w(s′)]
Figure BDA0004007153070000031
其中,A为动作空间集合,S为状态空间集合,p为概率,s'为下一时刻的状态;
固定策略π的最优对抗价值函数和动作-价值函数为,
Figure BDA0004007153070000032
Figure BDA0004007153070000033
其中,π~w*为在固定策略π下的最优对手,其使总期望回报最小化;
固定策略π下的最优对手w*下的贝尔曼收敛方程为,
Figure BDA0004007153070000034
其中,X(s)为扰动集,包含对手的所有干扰
最优对手w*(π)下的最优策略π*为,
Figure BDA0004007153070000035
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:定义上层主智能体状态-对抗性马尔科夫决策过程各状态量,
状态空间S
Figure BDA0004007153070000036
其中,K为该配网中总馈线数,
Figure BDA0004007153070000037
为各馈线节点有功功率平均值;
对手扰动w(s)
Figure BDA0004007153070000038
其中,
Figure BDA0004007153070000039
Δu为电压波动;
动作空间A
atp(T)∈[-16,16]
回报值
Figure BDA0004007153070000041
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:下层的DistFlow最优潮流模型
下层子智能体电压控制的目标为最小化整个配网系统的瞬时电压偏差,t时刻各馈线上的子智能体的目标函数为:
Figure BDA0004007153070000042
其中,Nk为第k条馈线上的节点数;vi(T,t)为节点i处的电压幅值。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:下层DistFlow最优潮流模型的约束条件,
在每个T开始时,主智能体将OLTC控制下的公共节点电压发送给各子智能体;基于此,在接下来的每个t开始时,各子智能体负责各自馈线上逆变器的无功调节;各子智能体建立各自馈线上的DistFlow潮流方程约束为,
Figure BDA0004007153070000043
Figure BDA0004007153070000044
Figure BDA0004007153070000045
Figure BDA0004007153070000046
Figure BDA0004007153070000047
v0(T,t)=(Uref(T))2
其中,vi(T,t)为节点i处电压幅值的平方,v0(T,t)为各馈线公共节点电压幅值的平方,iij(T,t)为从节点i流向节点j的电流幅值的平方。(T,t)为第T个时间间隔下的第t个时间槽的时刻;vj(T,t)和vi(T,t)分别为节点j和i处的电压幅值;rij和xij为节点i到节点j的线路的电阻和电抗;Pij(T,t)为从节点i流向节点j的有功功率,Qij(T,t)为从节点i流向节点j的无功功率;PL,j(T,t)为节点j处的有功负荷,QL,j(T,t)为节点j处的无功负荷;ψ(j)为节点j的父级母线集,功率从各父级母线流向节点j;φ(j)为节点j的子级母线集,功率从节点j流向各子级母线。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:通过鲁棒D3QN算法训练主智能体网络,
将上层Q函数分成两部分,
Qπ(s,a)=Vπ(s)+Aπ(s,a)
其中,Vπ(s)为状态-价值函数,Aπ(s,a)为优势函数;
定义最优动作价值函数,
Figure BDA0004007153070000051
Figure BDA0004007153070000052
其中,V*(s)为最优状态价值函数,A*(s,a)为最优优势函数;
近似动作-价值函数Duelingnetwork,
Figure BDA0004007153070000053
其中,A(s,a;θ,θA)为优势神经网络,用于拟合最优优势函数A*(s,a;V(s;θ,θV)为状态-价值神经网络,用于拟合最优状态价值函数;其中θ为二者共享的隐藏层;
引入目标Q网络,
Figure BDA0004007153070000054
yi=ri+γ·Q(si+1,a*;θ'Q)
其中,θ'Q为目标Q网络的参数,yi目标Q值,目标Q网络的参数θ'Q通过特定时间步复制Q网络的参数θQ来更新;
引入经验回放池,经验回放池记为D,用于存储每次动作的经验et=(st,at,rt,st+1),
定义D3QN算法总偏差距离
Figure BDA0004007153070000055
引入鲁棒策略正则化算子作用于总偏差距离:
Figure BDA0004007153070000056
Figure BDA0004007153070000057
其中,LD3QNQ)为Q网络参数集合,LD3QNQ)为鲁棒策略正则化算子,
Figure BDA0004007153070000058
c为一个很小的正常数,
Figure BDA0004007153070000059
为最大状态扰动。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:通过二阶锥松弛技术将非凸优化问题转化为凸优化问题
Figure BDA0004007153070000061
Figure BDA0004007153070000062
的约束进行二阶锥松弛
Figure BDA0004007153070000063
求解下层最优电压控制问题,获取各馈线光伏逆变器无功出力。
作为本发明所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:判断训练后的双层电压控制模型是否收敛
设定训练回合数,输入包含各馈线负荷功率与光伏出力数据的训练集,对鲁棒D3QN的主智能体进行训练;
所有训练回合结束后,观察回报值曲线,若回报值趋于平稳乃至不变,表明回报值曲线收敛至最优值,控制模型收敛。
本发明有益效果为:构建了一种基于鲁棒深度强化学习的多智能体电压控制方法,基于鲁棒D3QN算法训练主智能体网络,并将训练好的模型投入实际应用。该发明提升了电压控制的鲁棒性,同时降低了各个智能体间的通讯延迟,提升了迅速性,有助于维持配电网安全稳定运行。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为实施例1中基于鲁棒深度强化学习的多智能体分布式电压控制方法的流程图。
图2为实施例2中基于鲁棒深度强化学习的多智能体分布式电压控制方法采用测试算例的多馈线配电网拓扑结构示意图。
图3为实施例2中基于鲁棒深度强化学习的多智能体分布式电压控制方法采用测试算例某典型场景下的电气热冷负荷需求情况图;图3(a)为各馈线负荷曲线;(b)为各馈线光伏输出曲线。
图4为实施例2中基于鲁棒深度强化学习的多智能体分布式电压控制方法采用测试算例某典型场景下设备出力、多能流模拟运行分布以及负荷缺额等计算结果图;图4(a)为各馈线负荷曲线(b)为各馈线上光伏输出曲线。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1,为本发明的一个实施例,提供了基于鲁棒深度强化学习的多智能体分布式电压控制方法,包括:
构建多智能体双层电压控制模型。包含上层状态-对抗性马尔科夫决策模型和下层DistFlow最优潮流电压模型:构建上层主智能体状态-对抗性马尔科夫决策模型
对抗价值函数和动作-价值函数为,
Figure BDA0004007153070000071
Figure BDA0004007153070000072
其中,s为当前状态,a为动作;Vπ~w(s)为对抗价值函数,Qπ~w(s,a)为动作价值函数;π~w为在观测扰动下的策略;r为回报值,γ为折扣率;
基于固定策略π和固定对手w下的贝尔曼方程为,
Vπ~w(s)=∑a∈Aπ(a|w(s)∑s′∈Sp(s′|s,a)[r(s,a,a′)+γVπ-w(s′)]
Figure BDA0004007153070000073
其中,A为动作空间集合,S为状态空间集合,p为概率,s'为下一时刻的状态;
固定策略π的最优对抗价值函数和动作-价值函数为,
Figure BDA0004007153070000081
Figure BDA0004007153070000082
其中,π~w*为在固定策略π下的最优对手,其使总期望回报最小化;
固定策略π下的最优对手w*下的贝尔曼收敛方程为,
Figure BDA0004007153070000083
其中,X(s)为扰动集,包含对手的所有干扰
最优对手w*(π)下的最优策略π*为,
Figure BDA0004007153070000084
引入对手扰动智能体观测状态,明确上层状态-对抗性马尔科夫决策过程中的最优对手与最优动作价值函数,确定该多馈线电压控制问题中的状态空间、对手扰动、动作空间及回报值;定义上层主智能体状态-对抗性马尔科夫决策过程各状态量
状态空间S
Figure BDA0004007153070000085
其中,K为该配网中总馈线数,
Figure BDA0004007153070000086
为各馈线节点有功功率平均值;
对手扰动w(s)
Figure BDA0004007153070000087
其中,
Figure BDA0004007153070000088
Δu为电压波动;
动作空间A
atp(T)∈[-16,16]
回报值
Figure BDA0004007153070000089
构建下层DistFlow最优潮流模型,以最小化整个配网系统的瞬时电压偏差之和为目标函数,计及有功、无功功率平衡约束,光伏逆变器无功出力约束,节点电压约束,馈线电流约束;下层的DistFlow最优潮流模型
下层子智能体电压控制的目标为最小化整个配网系统的瞬时电压偏差,t时刻各馈线上的子智能体的目标函数为:
Figure BDA00040071530700000810
其中,Nk为第k条馈线上的节点数;vi(T,t)为节点i处的电压幅值。
下层DistFlow最优潮流模型的约束条件,
在每个T开始时,主智能体将OLTC控制下的公共节点电压发送给各子智能体;基于此,在接下来的每个t开始时,各子智能体负责各自馈线上逆变器的无功调节;各子智能体建立各自馈线上的DistFlow潮流方程约束为,
Figure BDA0004007153070000091
Figure BDA0004007153070000092
Figure BDA0004007153070000093
Figure BDA0004007153070000094
Figure BDA0004007153070000095
v0(T,t)=(Uref(T))2
其中,vi(T,t)为节点i处电压幅值的平方,v0(T,t)为各馈线公共节点电压幅值的平方,iij(T,t)为从节点i流向节点j的电流幅值的平方。(T,t)为第T个时间间隔下的第t个时间槽的时刻;vj(T,t)和vi(T,t)分别为节点j和i处的电压幅值;rij和xij为节点i到节点j的线路的电阻和电抗;Pij(T,t)为从节点i流向节点j的有功功率,Qij(T,t)为从节点i流向节点j的无功功率;PL,j(T,t)为节点j处的有功负荷,QL,j(T,t)为节点j处的无功负荷;ψ(j)为节点j的父级母线集,功率从各父级母线流向节点j;φ(j)为节点j的子级母线集,功率从节点j流向各子级母线。
设置多智能体网络超参数,包括经验回放池大小、最小池大小、折扣系数、目标Q函数更新周期、Q网络学习率、状态对抗正则化参数、PGD攻击中的迭代次数K、PGD攻击中的参数∈;
训练多智能体网络:
通过鲁棒D3QN算法训练主智能体网络,
将上层Q函数分成两部分,
Qπ(s,a)=Vπ(s)+Aπ(s,a)
其中,Vπ(s)为状态-价值函数,Aπ(s,a)为优势函数;
定义最优动作价值函数,
Figure BDA0004007153070000096
Figure BDA0004007153070000097
其中,V*(s)为最优状态价值函数,A*(s,a)为最优优势函数;
近似动作-价值函数Duelingnetwork,
Figure BDA0004007153070000101
其中,A(s,a;θ,θA)为优势神经网络,用于拟合最优优势函数A*(s,a);V(s;θ,θV)为状态-价值神经网络,用于拟合最优状态价值函数;其中θ为二者共享的隐藏层;
引入目标Q网络,
Figure BDA0004007153070000102
yi=ri+γ·Q(si+1,a*;θ'Q)
其中,θ'Q为目标Q网络的参数,yi目标Q值,目标Q网络的参数θ'Q通过特定时间步复制Q网络的参数θQ来更新;
引入经验回放池,经验回放池记为D,用于存储每次动作的经验
Figure BDA00040071530700001011
Figure BDA00040071530700001010
定义D3QN算法总偏差距离
Figure BDA0004007153070000103
引入鲁棒策略正则化算子作用于总偏差距离:
Figure BDA0004007153070000104
Figure BDA0004007153070000105
其中,LD3QNQ)为Q网络参数集合,LD3QNQ)为鲁棒策略正则化算子,
Figure BDA0004007153070000106
c为一个很小的正常数,
Figure BDA0004007153070000107
为最大状态扰动。
初始化Q网络参数、目标Q网络参数θ'Q=θQ;初始化经验回放池DD3QN;初始化配电网状态s1
从t=1开始计数,在每个慢时间尺度利用ε-贪婪策略获得动作at;在配电网环境中执行动作at,获得回报值rt以及新的状态st+1;将经验{st,at,rt,st+1}存入经验回放池DD3QN;随机从DD3QN中采样M个经验{si,ai,ri,s'i}形成最小池;对于所有的si,计算ai *
根据
Figure BDA0004007153070000108
yi=ri+γ·Q(si+1,a*;θ'Q)
计算TD-loss;使用PDG算法求解最大状态扰动;
计算hinge损失之和:
Figure BDA0004007153070000109
使用梯度下降法最小化损失
Figure BDA0004007153070000111
更新Q网络参数;
按每B个时间步更新D3QN的目标Q网络θ'Q=θQ;更新状态st=st+1;返回步骤,令t=t+1,重复训练直至t=T,T为慢时间尺度数量。
判断控制模型是否收敛,若收敛,则可投入实际应用;若不收敛,则增加训练轮次直至收敛。
实施例2
下面以图2所示的多馈线配电网络为例验证本发明的有效性。该配电网由三条馈线组成。其中,在各馈线公共节点的变电所母线上安装OLTC。馈线1上总的负荷容量为14MW,在节点5和节点10处安装光伏单元,额定容量均为4MW;馈线2上总的负荷容量为28.9MW,在节点27、节点34、节点41、节点46、节点51、节点55和节点58处安装光伏,额定容量分别为5MW、5MW、3MW、3MW、2MW、2MW和4MW;馈线3上总的负荷容量为16MW,在节点77、节点81、节点87、节点88、节点94和节点96处安装光伏,其额定容量分别为4MW、3MW、1MW、3MW、3MW和2MW。在各光伏单元处同时安装光伏逆变器。
图3为该多智能体网络2880组训练集,图4为288组测试集。
表1展示了本模型控制方法与传统控制方法的计算时间。
表1基于模型的控制方法和基于鲁棒D3QN的控制方法的计算时间
Figure BDA0004007153070000112
结果表明基于鲁棒D3QN的方法仅需27.1667s即可完成控制,其中主智能体获得OLTC控制变量的总用时仅为0.0221s,远远小于基于模型方法所用的5682.2683s。本研究所提方法具有较高的计算效率,在线应用前景广阔。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:包括,
参考对抗性马尔科夫决策模型和DistFlow最优潮流模型搭建计及主网电压波动的多智能体双层电压控制模型;
通过鲁棒D3QN算法,确定上层满时间尺度OLTC抽头位置;
引入二阶锥松弛技术的凸优化DistFlow最优潮流模型,获取下层快时间尺度光伏逆变器无功功率;
通过计算数据判断电压控制模型是否收敛;
实现多智能体分布式电压控制。
2.如权利要求1所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:所述OLTC机组和光伏逆变器机组模型为,
OLTC机组模型为
Figure FDA0004007153060000011
其中,T为慢时间尺度,uref(T)为T时段OLTC抽头位置函数;U1 t为上级主网电压波动后的实际幅值,U1 ref为上级主网电压额定值;atp(T)为T时段OLTC的抽头位置变量;Umax和Umin分别为所允许的电压最大值和最小值;tpmax和tpmin分别为抽头位置的最大值和最小值,取+16和-16;
光伏逆变器机组模型为,
Figure FDA0004007153060000012
Figure FDA0004007153060000013
其中,t为快时间尺度,i为节点;QPV,i(T,t)为逆变器输出的无功功率,apv,i(T,t)为光伏逆变器的连续型控制变量,
Figure FDA0004007153060000014
为无功输出绝对值的上限;PPV,i(T,t)为光伏元件输出的有功功率,
Figure FDA0004007153060000015
为光伏额定视在功率。
3.如权利要求1或2所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:所述计及主网电压波动的多智能体双层电压控制模型,包括上层主智能体状态-对抗性马尔科夫决策模型,下层子智能体DistFlow最优潮流模型。
4.如权利要求3所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:构建上层主智能体状态-对抗性马尔科夫决策模型
对抗价值函数和动作-价值函数为,
Figure FDA0004007153060000021
Figure FDA0004007153060000022
其中,s为当前状态,a为动作;Vπ~w(s)为对抗价值函数,Qπ~w(s,a)为动作价值函数;π~w为在观测扰动下的策略;r为回报值,γ为折扣率;
基于固定策略π和固定对手w下的贝尔曼方程为,
Vπ~w(s)=∑a∈Aπ(a|w(s)∑s′∈Sp(s′|s,a)[r(s,a,a′)+γVπ-w(s′)]
Figure FDA0004007153060000023
其中,A为动作空间集合,S为状态空间集合,p为概率,s'为下一时刻的状态;
固定策略π的最优对抗价值函数和动作-价值函数为,
Figure FDA0004007153060000024
Figure FDA0004007153060000025
其中,π~w*为在固定策略π下的最优对手,其使总期望回报最小化;
固定策略π下的最优对手w*下的贝尔曼收敛方程为,
Figure FDA0004007153060000026
其中,X(s)为扰动集,包含对手的所有干扰
最优对手w*(π)下的最优策略π*为,
Figure FDA0004007153060000027
5.如权利要求4所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:定义上层主智能体状态-对抗性马尔科夫决策过程各状态量
状态空间S
Figure FDA0004007153060000028
其中,K为该配网中总馈线数,
Figure FDA0004007153060000029
为各馈线节点有功功率平均值;
对手扰动w(s)
Figure FDA0004007153060000031
其中,
Figure FDA0004007153060000032
Δu为电压波动;
动作空间A
atp(T)∈[-16,16]
回报值
Figure FDA0004007153060000033
6.如权利要求4所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:下层的DistFlow最优潮流模型
下层子智能体电压控制的目标为最小化整个配网系统的瞬时电压偏差,t时刻各馈线上的子智能体的目标函数为:
Figure FDA0004007153060000034
其中,Nk为第k条馈线上的节点数;vi(T,t)为节点i处的电压幅值。
7.如权利要求6所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:下层DistFlow最优潮流模型的约束条件,
在每个T开始时,主智能体将OLTC控制下的公共节点电压发送给各子智能体;基于此,在接下来的每个t开始时,各子智能体负责各自馈线上逆变器的无功调节;各子智能体建立各自馈线上的DistFlow潮流方程约束为,
Figure FDA0004007153060000035
Figure FDA0004007153060000036
Figure FDA0004007153060000037
Figure FDA0004007153060000038
v0(T,t)=(Uref(T))2
其中,vi(T,t)为节点i处电压幅值的平方,v0(T,t)为各馈线公共节点电压幅值的平方,iij(T,t)为从节点i流向节点j的电流幅值的平方。(T,t)为第T个时间间隔下的第t个时间槽的时刻;vj(T,t)和vi(T,t)分别为节点j和i处的电压幅值;rij和xij为节点i到节点j的线路的电阻和电抗;Pij(T,t)为从节点i流向节点j的有功功率,Qij(T,t)为从节点i流向节点j的无功功率;PL,j(T,t)为节点j处的有功负荷,QL,j(T,t)为节点j处的无功负荷;ψ(j)为节点j的父级母线集,功率从各父级母线流向节点j;φ(j)为节点j的子级母线集,功率从节点j流向各子级母线。
8.如权利要求1或4所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在与:通过鲁棒D3QN算法训练主智能体网络,
将上层Q函数分成两部分,
Qπ(s,a)=Vπ(s)+Aπ(s,a)
其中,Vπ(s)为状态-价值函数,Aπ(s,a)为优势函数;
定义最优动作价值函数,
Figure FDA0004007153060000041
Figure FDA0004007153060000042
其中,V*(s)为最优状态价值函数,A*(s,a)为最优优势函数;
近似动作-价值函数Duelingnetwork,
Figure FDA0004007153060000043
其中,A(s,a;θ,θA)为优势神经网络,用于拟合最优优势函数A*(s,a);V(s;θ,θV)为状态-价值神经网络,用于拟合最优状态价值函数;其中θ为二者共享的隐藏层;
引入目标Q网络,
Figure FDA0004007153060000044
yi=ri+γ·Q(si+1,a*;θ′Q)
其中,θ'Q为目标Q网络的参数,yi目标Q值,目标Q网络的参数θ'Q通过特定时间步复制Q网络的参数θQ来更新;
引入经验回放池,经验回放池记为D,用于存储每次动作的经验et=(st,at,rt,st+1),
定义D3QN算法总偏差距离
Figure FDA0004007153060000045
引入鲁棒策略正则化算子作用于总偏差距离:
Figure FDA0004007153060000046
Figure FDA0004007153060000047
其中,LD3QNQ)为Q网络参数集合,LD3QNQ)为鲁棒策略正则化算子,
Figure FDA0004007153060000051
c为一个很小的正常数,
Figure FDA0004007153060000052
为最大状态扰动。
9.如权利要求1或8所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:通过二阶锥松弛技术将非凸优化问题转化为凸优化问题
Figure FDA0004007153060000053
Figure FDA0004007153060000054
的约束进行二阶锥松弛
Figure FDA0004007153060000055
10.如权利要求1、3或4所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:判断训练后的双层电压控制模型是否收敛
设定训练回合数,输入包含各馈线负荷功率与光伏出力数据的训练集,对鲁棒D3QN的主智能体进行训练;
所有训练回合结束后,观察回报值曲线,若回报值趋于平稳乃至不变,表明回报值曲线收敛至最优值,控制模型收敛。
CN202211635714.0A 2022-12-19 2022-12-19 基于鲁棒深度强化学习的多智能体分布式电压控制方法 Pending CN116031889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211635714.0A CN116031889A (zh) 2022-12-19 2022-12-19 基于鲁棒深度强化学习的多智能体分布式电压控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211635714.0A CN116031889A (zh) 2022-12-19 2022-12-19 基于鲁棒深度强化学习的多智能体分布式电压控制方法

Publications (1)

Publication Number Publication Date
CN116031889A true CN116031889A (zh) 2023-04-28

Family

ID=86090524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211635714.0A Pending CN116031889A (zh) 2022-12-19 2022-12-19 基于鲁棒深度强化学习的多智能体分布式电压控制方法

Country Status (1)

Country Link
CN (1) CN116031889A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116388280A (zh) * 2023-06-02 2023-07-04 电力规划总院有限公司 基于深度强化学习算法的综合能源系统电压控制方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116388280A (zh) * 2023-06-02 2023-07-04 电力规划总院有限公司 基于深度强化学习算法的综合能源系统电压控制方法及系统

Similar Documents

Publication Publication Date Title
Pradhan et al. Coordinated power management and control of standalone PV-hybrid system with modified IWO-based MPPT
CN107437824A (zh) 一种基于遗传算法的地区分布式电源准入容量的计算方法
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
CN113241803B (zh) 一种基于新能源消纳的储能调度方法及计算机介质
CN113363998B (zh) 一种基于多智能体深度强化学习的配电网电压控制方法
CN110265991B (zh) 一种直流微电网的分布式协调控制方法
CN111490542B (zh) 一种多端柔性多状态开关的选址定容方法
CN111049173A (zh) 多端直流配网自组织下垂控制方法
CN113378100B (zh) 考虑碳排放的配电网源网荷储协同优化调度模型和方法
CN110912177A (zh) 一种多端柔性直流输电系统多目标优化设计方法
CN112381262B (zh) 考虑负荷电压特性及新能源强不确定性的微电网规划方法
CN113962159A (zh) 一种基于合理弃光的配电网光伏最大接入容量的评估方法
CN116031889A (zh) 基于鲁棒深度强化学习的多智能体分布式电压控制方法
CN114928057A (zh) 一种适用于新能源多端柔直系统的多目标潮流优化方法
CN116667325A (zh) 一种基于改进布谷鸟算法的微电网并网运行优化调度方法
CN112560222A (zh) 一种改善电网动态稳定性的无功优化配置方法
CN112467748A (zh) 三相不平衡主动配电网双时标分布式电压控制方法及系统
CN109390971B (zh) 一种基于门当户对遗传算法的配电网多目标主动重构方法
CN115912372B (zh) 一种含高比例分布式光伏接入配电网电压控制方法及系统
CN116645089A (zh) 一种考虑退役电池容量退化的储能系统双层优化配置方法
CN114881346A (zh) 基于改进鲸鱼优化算法的动态重构与无功电压调整的双层优化调度方法
CN111769570B (zh) 计及暂态电压约束的日前两阶段动态无功储备优化方法、系统、存储介质
Hongfei et al. Optimal control virtual inertia of optical storage microgrid based on improved sailfish algorithm
CN112117772B (zh) 一种新能源接入下计及输电阻塞的储能快速优化配置方法
CN115313510A (zh) 一种自适应无功补偿的光伏逆变器控制方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination