CN113363998A - 一种基于多智能体深度强化学习的配电网电压控制方法 - Google Patents

一种基于多智能体深度强化学习的配电网电压控制方法 Download PDF

Info

Publication number
CN113363998A
CN113363998A CN202110701019.9A CN202110701019A CN113363998A CN 113363998 A CN113363998 A CN 113363998A CN 202110701019 A CN202110701019 A CN 202110701019A CN 113363998 A CN113363998 A CN 113363998A
Authority
CN
China
Prior art keywords
agent
voltage control
time scale
action
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110701019.9A
Other languages
English (en)
Other versions
CN113363998B (zh
Inventor
张靖
李忆琪
吴志
顾伟
赵树文
周苏洋
龙寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110701019.9A priority Critical patent/CN113363998B/zh
Publication of CN113363998A publication Critical patent/CN113363998A/zh
Application granted granted Critical
Publication of CN113363998B publication Critical patent/CN113363998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/16Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by adjustment of reactive power
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E70/00Other energy conversion or management systems reducing GHG emissions
    • Y02E70/30Systems combining energy storage with energy generation of non-fossil origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开一种基于多智能体深度强化学习的配电网电压控制方法,涉及电气工程技术领域和计算机科学技术领域,包括:步骤10)构建针对电容器组、光伏逆变器、储能装置多种调压装置的配电网多时间尺度电压控制模型;步骤20)将控制变量分配给多个智能体,将电压控制问题转换成马尔科夫决策过程;步骤30)采用基于多智能体深度确定性策略梯度的多智能体深度强化学习算法解该MDP过程,其中针对离散调压装置特性对该算法进行改进;步骤40)训练并执行多智能体以实现多时间尺度电压控制方法。与现有技术相比,该方法从优化配电网电压控制的角度,建立了多时间尺度控制系统,并提出了基于的算法同时处理连续和离散调压装置以控制电压。

Description

一种基于多智能体深度强化学习的配电网电压控制方法
技术领域
本发明涉及电气工程技术领域和计算机技术领域,具体的是一种基于多智 能体深度强化学习的配电网电压控制方法。
背景技术
大量的分布式光伏接入配电网对配电网的电压控制产生了深远的影响。同 时,动态无功补偿技术的发展,储能设备的使用以及可控的分布式能源为配电 网的电压控制带来了更多的可控元素,并对现有的控制方法提出了挑战。
传统的电压控制方法主要基于特定的物理模型,使用逼近技术将其建模为 混合整数非线性规划问题,并将其进一步转化为各种优化问题。当配电网规模 较大且包含各种分布式发电时,整个问题的复杂性,随机性,动态特性和维度 将不断增加,可能会导致精度损失和次优策略的产生。同时,求解过程很耗时, 并且快速适应时变分布式电源/负载的能力受到限制。
近年来,人工智能技术的飞速发展为各种复杂的动态系统的战略控制决策 开辟了一条新的道路。在这些AI技术中,强化学习由于其无需采取特定优化模 型即可基于动作,状态和奖励进行全局优化的优势,受到了越来越多的关注。 该方法使用智能体通过与环境反复交互来逐步学习最优策略,可以从各种传感 器收集的数据中探索有用的信息,处理隐藏在数据中的不确定性,并直接挖掘 输入和输出之间的潜在联系。在电压控制方面,已有研究使用Q-learning方法来 学习变压器抽头调节和并联电容器的最佳控制动作。但是,它使用查找表来表 示每个可能的状态-动作对的动作值函数,因此遭受了严重的维度诅咒。为了克 服这一缺点,深度强化学习(DRL)将强化学习与深度学习(DL)相结合,利 用深度神经网络(DNN)来拟合Q表或直接拟合策略函数。例如利用深度Q网 络(DQN)来处理连续状态空间和离散动作变量的问题,可用来控制电容器、 变压器抽头等离散变量装置;采用深度确定性策略梯度(DDPG)算法直接处理 连续状态和动作空间,可用于控制逆变器等连续变量装置。但是,在现有的基 于DRL的电压控制方法中,往往将动作空间认为是离散的或连续的,而在实际 的配电网中,离散型和连续型调压装置可能同时存在;且这些方法无法实现在 不同时间尺度内对不同设备进行控制,也忽略了存储系统的重要作用。
发明内容
针对上述技术问题,本发明采用如下技术方案:
一种基于多智能体深度强化学习的配电网电压控制方法,该控制方法包括 以下步骤:
步骤10)针对多种调压装置的控制需求,构建针对电容器组、光伏逆变器、 储能装置多种调压装置的配电网多时间尺度电压控制模型;
步骤20)基于步骤10)建立的多时间尺度电压控制模型,将控制变量分配 给多个智能体,将电压控制问题转换成马尔科夫决策(MDP)过程;
步骤30)基于步骤20)建立的MDP过程,采用基于多智能体深度确定性 策略梯度(MADDPG)的多智能体深度强化学习(MADRL)算法解该MDP过 程,其中针对离散调压装置特性对该算法进行改进;
步骤40)基于步骤30)提出的MADRL算法,训练并执行多智能体以实现 多时间尺度电压控制方案;
进一步地,所述步骤10)中,所建立的多时间尺度电压控制模型适应了不 同时间尺度设备的控制需求,将每天划分为以NT个间隔,标记为T=1,2…,NT, 然后将这些间隔=进一步划分为Nt个间隙,标记为t=1,2…,Nt。在每个间隔T的 最开始,控制慢速调压设备(即电容器);同时,在每个时隙t的开始处控制快 速调压设备(即PV逆变器和储能系统ESS)的输出。
进一步地,构建调压装置电容器组的模型:
QCB,i(T,t)=acb,i(T)·QCB,i (1)
其中QCB,i表示该电容器无功功率的铭牌值;acb,i(T)∈{0,1}是控制变量,代表此电容器组的开/关状态,当acb,i(T)=1时,电容器接入电网。
进一步地,构建调压装置光伏逆变器的模型:
Figure BDA0003124685770000031
其中SPV,i为其标称容量,PPV,i(T,t)为已知的有功功率输出,
Figure BDA0003124685770000032
表示此光伏装置的最大无功功率,并且控制变量定义为apv,i(T,t)∈[-1,1]。
进一步地,构建调压装置储能装置的模型:
Figure BDA0003124685770000033
其中
Figure BDA0003124685770000034
是安全的最小/最大容量;οi(T,t)是安装在总线i上的储能装置的荷 电状态;
Figure BDA0003124685770000035
为额定充电/放电功率;aess,i(T,t)∈[-1,1]为动作变量;PESS,i(T,t)是 充放电功率。
进一步地,根据分支流模型,构建配电网的多时间尺度电压控制模型,其 目标函数为:
Figure BDA0003124685770000036
约束条件为:
Figure BDA0003124685770000041
Figure BDA0003124685770000042
Figure BDA0003124685770000043
Figure BDA0003124685770000044
Pj(T,t)=PL,j(T,t)-PPV,j(T,t)+PESS,j(T,t) (4f)
Qj(T,t)=QL,j(T,t)-QPV,j(T,t)-QCB,j(T,t) (4g)
其中i和j代表网格中的不同总线;φ(j)和
Figure BDA0003124685770000045
分别表示母线j的父母线组和子母线组。Pij和Qij是从母线i流向母线j的有功和无功功率;PL,j和QL,j是母线j 的有功和无功负载;rij和xij是(i,j)的电阻和电抗;iij是线电流幅值的平方;vj电压 幅值的平方。
进一步地,所述步骤20)的具体内容包括:
步骤201):针对各个智能体,构建各自的Action元素:
Figure BDA0003124685770000046
式中:acb,i(T)∈{0,1},apv,i(t)∈[-1,1],aess,i(t)∈[-1,1];
步骤202):针对各个智能体,构建各自的State元素:
Figure BDA0003124685770000047
式中:
Figure BDA0003124685770000048
表示间隔T中所有总线的平均有功功率,V(t)是时间t上所有总线的电压幅度,OT(t)是时间t处ESS的荷电状态,
Figure BDA0003124685770000049
是时间t处ESS的最小/ 最大容量;
步骤203):针对各个智能体,构建各自的Reward元素:
Figure BDA0003124685770000051
在学习过程中,对于每个智能体,从时间k开始的折扣奖励定义为回报:
Figure BDA0003124685770000052
其中rk是时间步长k上的奖励,折现因子γ∈[0,1]。
步骤204):构建动作值函数表示在控制策略π下在状态sk时执行动作ak后的预期收益,其定义为:
Figure BDA0003124685770000053
其中Eπ[·]表示寻求对策略π的期望,而控制策略π表示状态到动作的映射。
将动作值函数用贝尔曼方程表示为:
Qπ(sk,ak)=Eπ[rk+γQπ(sk+1,ak+1)|sk,ak] (10)
步骤205):构建性能函数J(π),用于衡量策略π的性能:
Figure BDA0003124685770000054
其中ρβ表示折扣状态分布,Qπ(s,π(s))表示在每个步骤中根据策略π选择动作所生成的Q值。
可选策略π*可通过最大化的J(π)获得即:
Figure BDA0003124685770000055
进一步地,所述步骤30)的具体内容包括:
步骤301):基于步骤20)中构建的多个智能体的MDP过程,构建基于MADDPG 的MADRL算法,实现对各种调压装置的控制。它引入了集中训练和分散执行的 架构,采用actor-critic体系结构,针对每个智能体,使用两个深度神经网络 ——actor网络和critic网络——来模拟策略函数和动作值函数。其中actor online network(缩写为网络π)记作π(s|θπ),其参数为θπ;critic online network(缩写为Q网络)记为θ(s,a|θQ),其参数为θQ。为了稳定学习过程,创 建了两个目标网络:带有参数θπ'的target actor networkπ'和带有参数θQ' 的target critic network Q'。另外,为了探索可能的更好策略,将随机高斯 噪声
Figure BDA0003124685770000061
添加到actor网络的输出π(s|θπ)上,以形成行为策略
Figure BDA0003124685770000062
Figure BDA0003124685770000063
在集中训练期间,每个智能体的critic网络除了输入自己的状态动作信息 之外,还输入了其他信息,例如其他智能体的State和Action,以获得更准确 的Q值。在分散执行期间,经过充分训练后的每个agent都可以根据自己的State 采取适当的行动,而无需其他人提供信息,因此,在MADDPG中,可以将智能体 i的动作值函数定义为Qi(sk,i,sk,-i,ak,i,ak,-i),其中sk,i和ak,i是智能体i在 时序k上的state和action,sk,-i和ak,-i是其他智能体在时序k上的 state和action。
同时为了更新在线网络,应用了replay buffer来存储历史经验。在每个 时间步长,网络π和网络Q可以通过从replay buffer统一采样一个mini batch来进行更新。
针对储能装置和光伏逆变器等连续变量的设备,每个智能体根据从replaybuffer中采样的mini batch,通过最小化损失函数来更新critic网络,该损失函数 为:
Figure BDA0003124685770000071
actor网络朝着最大化J(π)的方向更新,即:
Figure BDA0003124685770000072
目标网络采用soft-update方式更新,即:
Figure BDA0003124685770000073
其中ω<<1。
针对电容器等离散变量的装置,采用根据概率选择动作的方式,将actor网 络的输出向量(浮点数向量)作为电容器配置方案的概率向量,其每个元素都 对应于电容器配置的概率。该概率向量中的某个元素越大,其相应电容器配置 被选择的可能性就越大。然后,将求解电容器配置的离散变量的问题转换为训 练其对应概率向量的连续变量的问题,这可以通过MADDPG获得。对电容器组 的智能体,其二进制动作向量集构成其动作空间A,其基数为
Figure BDA0003124685770000074
这也是概 率向量的范数。
因此,针对该离散变量的智能体,在训练过程中,在将噪声添加到策略π(st) 之后,我们将输出向量最小化和归一化以将其转换为概率向量Pat,而二进制的 动作向量at则基于Pat随机选择,其转换过程如下:
Figure BDA0003124685770000075
Figure BDA0003124685770000076
at=ChoiceByProb(Pat) (17c)
其中ε是一个较小的正数(例如ε=10-5)。
在执行过程中根据策略π(st)的最大值选择动作,即:
at=arg max(π(st)) (18)
进一步地,所述步骤40)的具体内容包括:根据步骤30)提出的MADRL 算法,每种调压装置的智能体构建自己的actor网络、critic网络以及replay buffer。 在长时间尺度T开始时配置电容器,在短时间尺度t上控制储能和逆变器的输出。 各个智能体利用训练数据集按步骤30)的算法进行训练,在执行阶段各训练好 的智能体可根据当前的配电网状态采取相应的动作,以实现多时间尺度电压控 制。
本发明的有益效果:
本发明提供一种基于多智能体深度强化学习的配电网电压控制方法,该方 法从优化配电网电压控制的角度,基于大量分布式和可控元件入网,针对多种 控制装置建立了多时间尺度电压控制模型,并提出了基于MADDPG的MADRL 算法同时处理连续型和离散型调压装置以控制电压。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的流程图。
图2是本发明实施例的训练算法流程;
图3是本发明实施例的执行算法流程;
图4是本发明实施例中的IEEE-123节点配电网系统结构图。
图5是本发明实施例中的各个光伏输出的有功功率线条图。
图6是本发明实施例中的不同控制方法下电压分布图。
图7是本发明实施例中的episode奖励曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的一种基于多智能体深度强化学习的配电网电 压控制方法,包括以下步骤:
步骤10)建立的多时间尺度电压控制模型以适应不同时间尺度设备的控制 需求,将每天划分为以NT个间隔,标记为T=1,2…,NT,然后将这些间隔进一步 划分为Nt个间隙,标记为t=1,2…,Nt。在每个间隔T的最开始,控制电容器等 慢速调压设备;同时,在每个时隙t的开始处控制PV逆变器和储能系统ESS等 快速调压设备的输出。
在此基础上,构建调压装置电容器组的模型:
QCB,i(T,t)=acb,i(T)·QCB,i (1)
其中QCB,i表示该电容器无功功率的铭牌值;acb,i(T)∈{0,1}是控制变量,代表此电容器组的开/关状态,当acb,i(T)=1时,电容器接入电网。
同时,构建调压装置光伏逆变器的模型:
Figure BDA0003124685770000091
其中SPV,i为其标称容量,PPV,i(T,t)为已知的有功功率输出,
Figure BDA0003124685770000092
表示此光伏装置的最大无功功率,并且控制变量定义为apv,i(T,t)∈[-1,1]。
构建调压装置储能装置的模型:
Figure BDA0003124685770000093
其中
Figure BDA0003124685770000101
是安全的最小/最大容量;οi(T,t)是安装在总线i上的储能装置的荷 电状态;
Figure BDA0003124685770000102
为额定充电/放电功率;aess,i(T,t)∈[-1,1]为动作变量;PESS,i(T,t)是 充放电功率。
最后,根据分支流模型,构建配电网的多时间尺度电压控制模型,其目标 函数为:
Figure BDA0003124685770000103
约束条件为:
Figure BDA0003124685770000104
Figure BDA0003124685770000105
Figure BDA0003124685770000106
Figure BDA0003124685770000107
Pj(T,t)=PL,j(T,t)-PPV,j(T,t)+PESS,j(T,t) (4f)
Qj(T,t)=QL,j(T,t)-QPV,j(T,t)-QCB,j(T,t) (4g)
其中i和j代表网格中的不同总线;φ(j)和
Figure BDA0003124685770000108
分别表示母线j的父母线组和子母线组。Pij和Qij是从母线i流向母线j的有功和无功功率;PL,j和QL,j是母线j 的有功和无功负载;rij和xij是(i,j)的电阻和电抗;iij是线电流幅值的平方;vj电压 幅值的平方。
步骤20)基于步骤10)建立的多时间尺度电压控制模型,将控制变量分配 给多个智能体,将电压控制问题转换成马尔科夫决策(MDP)过程。
针对各个智能体,构建各自的Action元素:
Figure BDA0003124685770000111
式中:acb,i(T)∈{0,1},apv,i(t)∈[-1,1],aess,i(t)∈[-1,1];
针对各个智能体,构建各自的State元素:
Figure BDA0003124685770000112
式中:
Figure BDA0003124685770000113
表示间隔T中所有总线的平均有功功率,V(t)是时间t上所有总线的电压幅度,OT(t)是时间t处ESS的荷电状态,
Figure BDA0003124685770000114
是时间t处ESS的最小/ 最大容量;
针对各个智能体,构建各自的Reward元素:
Figure BDA0003124685770000115
在学习过程中,对于每个智能体,从时间k开始的折扣奖励定义为回报:
Figure BDA0003124685770000116
其中rk是时间步长k上的奖励,折现因子γ∈[0,1]。
构建动作值函数表示在控制策略π下在状态sk时执行动作ak后的预期收益, 其定义为:
Figure BDA0003124685770000117
其中Eπ[·]表示寻求对策略π的期望,而控制策略π表示状态到动作的映射。
将动作值函数用贝尔曼方程表示为:
Qπ(sk,ak)=Eπ[rk+γQπ(sk+1,ak+1)|sk,ak] (10)
构建性能函数J(π),用于衡量策略π的性能:
Figure BDA0003124685770000121
其中ρβ表示折扣状态分布,Qπ(s,π(s))表示在每个步骤中根据策略π选择动作所生成的Q值。
可选策略π*可通过最大化的J(π)获得即:
Figure BDA0003124685770000122
进一步地,所述步骤30)的具体内容包括:
步骤30)基于步骤20)中构建的多个智能体的MDP过程,提出基于MADDPG 的MADRL算法,实现对各种调压装置的控制。它引入了集中训练和分散执行的 架构,采用actor-critic体系结构,针对每个智能体,使用两个深度神经网络 ——actor网络和critic网络——来模拟策略函数和动作值函数。其中actor online network(缩写为网络π)记作π(s|θπ),其参数为θπ;critic online network(缩写为Q网络)记为θ(s,a|θQ),其参数为θQ。为了稳定学习过程,创 建了两个目标网络:带有参数θπ'的target actor networkπ'和带有参数θQ' 的target critic network Q'。另外,为了探索可能的更好策略,将随机高斯 噪声
Figure BDA0003124685770000123
添加到actor网络的输出π(s|θπ)上,以形成行为策略
Figure BDA0003124685770000125
Figure BDA0003124685770000124
在集中训练期间,每个智能体的critic网络除了输入自己的状态动作信息 之外,还输入了其他信息,例如其他智能体的State和Action,以获得更准确 的Q值。在分散执行期间,经过充分训练后的每个agent都可以根据自己的State 采取适当的行动,而无需其他人提供信息,因此,在MADDPG中,可以将智能体i的动作值函数定义为Qi(sk,i,sk,-i,ak,i,ak,-i),其中sk,i和ak,i是智能体i在 时序k上的state和action,sk,-i和ak,-i是其他智能体在时序k上的 state和action。
同时为了更新在线网络,应用了replay buffer来存储历史经验。在每个 时间步长,网络π和网络Q可以通过从replay buffer统一采样一个mini batch来进行更新。
针对储能装置和光伏逆变器等连续变量的设备,每个智能体根据从replaybuffer中采样的mini batch,通过最小化损失函数来更新critic网络,该损失函数 为:
Figure BDA0003124685770000131
actor网络朝着最大化J(π)的方向更新,即:
Figure BDA0003124685770000132
目标网络采用soft-update方式更新,即:
Figure BDA0003124685770000133
其中ω<<1。
针对电容器等离散变量的装置,采用根据概率选择动作的方式,将actor网 络的输出向量(浮点数向量)作为电容器配置方案的概率向量,其每个元素都 对应于电容器配置的概率。该概率向量中的某个元素越大,其相应电容器配置 被选择的可能性就越大。然后,将求解电容器配置的离散变量的问题转换为训 练其对应概率向量的连续变量的问题,这可以通过MADDPG获得。对电容器组 的智能体,其二进制动作向量集构成其动作空间A,其基数为
Figure BDA0003124685770000141
这也是概 率向量的范数。
因此,针对该离散变量的智能体,在训练过程中,在将噪声添加到策略π(st) 之后,我们将输出向量最小化和归一化以将其转换为概率向量Pat,而二进制的 动作向量at则基于Pat随机选择,其转换过程如下:
Figure BDA0003124685770000142
Figure BDA0003124685770000143
at=ChoiceByProb(Pat) (17c)
其中ε是一个较小的正数(例如ε=10-5)。
在执行过程中根据策略π(st)的最大值选择动作,即:
at=arg max(π(st)) (18)
步骤40)根据步骤30)提出的MADRL算法,每种调压装置的智能体构建自 己的actor网络、critic网络以及replay buffer。在长时间尺度T开始时配 置电容器,在短时间尺度t上控制储能和逆变器的输出。各个智能体利用训练 数据集按步骤30)的算法进行训练,在执行阶段各训练好的智能体可根据当前 的配电网状态采取相应的动作,以实现多时间尺度电压控制。该算法具体训练 和执行过程如图2和图3所示。
针对于上述的方法,下面列举一具体实施例,将修改后IEEE-123总线系统 用于分析该方案的有效性和可行性。在本方法中,将IEEE-123总线系统修改为 平衡系统,并重新编排母线编号,如图4所示。该测试馈线的额定电压为4.16kV, 功率参考值为100MVA。此外,在总线22、31、41、50、63、73、79、87、94、 103、106和112上安装了12个光伏单元,容量分别为400kVA,200kVA,200 kVA,400kVA,400kVA,400kVA,400kVA,400kVA,400kVA,400kVA,400kVA,200kVA。每一个光伏单元中都配备有智能逆变器。在总线3、20、44、 93上分别安装了4个电容器,每个电容器的容量为30kvar。同时,在母线56, 83,96,116分别安装了4个储能系统,它们的最大容量为500kWh,额定充电/ 放电功率为100kW。为简单起见,假设所有12个PV单元均提供相同的功率输出, 如图5所示。此外,负载数据是根据某地区的实际负载曲线进行修改所得。将 原始负载数据乘以不同常数,以使各总线的负载分布彼此不同。该系统中的所 有参数均已转换为标幺值。
该实施例是基于Pytorch框架实现的,培训过程在CPU上执行。actor和 critic网络是四层全连接的神经网络,即一个输入层,两个分别具有90和22 个神经元的隐藏层以及一个输出层。使用ReLU函数作为隐藏层中的激活函数, 而输出层只是一个没有激活函数的线性层。输出层末端也使用了tanh函数,以 将输出保持在[-1,1]之间。下表为MADRL培训的详细设置:
Figure BDA0003124685770000151
首先,基于最优潮流,分析没有任何电压控制条件下的每日母线电压分布。 经分析可知最有问题的电压出现在总线1,总线2和总线7上,违反了通常的 1.05的最大电压线。以总线1和总线2上的电压幅度为例,如图6黑直线所示。
其次,将所提出的基于多智能体深度强化学习的配电网多时间尺度电压控制 方案应用于学习不同电压控制设备的控制策略。按照算法1中显示的步骤对电 容器组,储能装置和光伏逆变器的智能体进行训练。进行了150个episode的 训练,每个episode在遍历一天1440个样本后终止。我们假设时间间隔T=6 分钟,时隙t=1分钟。episode奖励如图7所示。在该图中,横轴表示episode 的数量,纵轴表示奖励值。可以看出在大约30episode之后,这些agent可以 有效地从过去的经验中学习,并且奖励值收敛到最佳点,表明模型已经收敛。 此时,这些经过培训的MADRL智能体可应用于控制这些设备。
基于训练有素的MADRL agent,我们可以获得控制结果,如下图6中灰直线 所示。与没有任何电压控制条件下的情况相比,所提出的基于多智能体深度强 化学习的配电网多时间尺度电压控制方案使电压得到了显著改善,尤其是总线1 和总线2中最有问题的总线的电压。这些总线的电压幅度被控制在通常的最大 电压线1.05以下。
同时为了检验本发明的电压控制方法的有效性,将其与两阶段最优控制方 案进行对比,如图6中灰直线和黑虚线所示。可以看出本发明的电压控制方法 的控制效果与两阶段优选控制方案相似。计算两者的求解时间如下表所示,可 以看出本发明消耗的时间更短,仅为1.446s,可以满足实时控制的需求。
Figure BDA0003124685770000161
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例” 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含 于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表 述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或 者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明 还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (6)

1.一种配电网多时间尺度电压控制方法,其特征在于,包括以下步骤:
步骤1:针对多种调压装置的控制需求,构建针对电容器组、光伏逆变器、储能装置多种调压装置的配电网多时间尺度电压控制模型;
步骤2:基于所述多时间尺度电压控制模型,将控制变量分配给多个智能体,将电压控制问题转换成马尔科夫决策过程;
步骤3:采用基于多智能体深度确定性策略梯度的多智能体深度强化学习算法解所述的马尔科夫决策过程,其中针对离散调压装置特性对该算法进行改进;
步骤4:基于所述的多智能体深度强化学习算法,训练并执行多智能体以实现多时间尺度电压控制方案。
2.根据权利要求1所述的配电网多时间尺度电压控制方法,其特征在于,所述步骤1包括:将时间划分为长时间尺度T和短时间尺度t,且T=Nt*t;在每个T开始时控制电容器的配置,在每个t开始时控制逆变器输出和储能充放电。相应的控制装置模型为:
QCB,i(T,t)=acb,i(T)·QCB,i (1)
Figure FDA0003124685760000011
Figure FDA0003124685760000012
式中acb,i(T)∈{0,1}为电容器控制变量;apv,i(T,t)∈[-1,1]为逆变器控制变量;aess,i(T,t)∈[-1,1]为储能控制变量;QCB,i为电容器无功功率铭牌值;SPV,i为逆变器额定容量,PPV,i(T,t)为光伏有功输出,QPV,i(T,t)为逆变器无功输出;οi(T,t)为储能的荷电状态,
Figure FDA0003124685760000013
为最大充放电功率,
Figure FDA0003124685760000014
为储能最小/最大安全容量;
基于交流潮流建立以最小化长期平均电压偏差为目标的最优电压控制模型。
3.根据权利要求1所述的配电网多时间尺度电压控制方法,其特征在于,所述步骤2包括:按照控制设备的种类将控制变量分配给若干个智能体,不采用传统基于模型的优化算法,而是将电压控制问题转换为MDP过程,并针对每个智能体建立Action,State,Reward这些元素:
Figure FDA0003124685760000021
Figure FDA0003124685760000022
上述式中,a为Action空间,s为State空间,其中
Figure FDA0003124685760000023
表示时间T中所有总线的平均有功功率,V(t)是时间t上所有总线的电压幅度,r为Reward空间;
在MDP过程中,对于每个agent,从时间k开始的折扣奖励定义为回报:
Figure FDA0003124685760000024
其中rk是时间步长k上的奖励,折现因子γ∈[0,1];
动作值函数表示在控制策略π下在状态sk中执行动作ak后的预期收益,其定义为:
Figure FDA0003124685760000025
其中Eπ[·]表示寻求对策略π的期望,而控制策略π表示状态到动作的映射;
将动作值函数用贝尔曼方程表示为:
Qπ(sk,ak)=Eπ[rk+γQπ(sk+1,ak+1)|sk,ak] (7)
此外,用性能函数J(π)衡量策略π的性能:
Figure FDA0003124685760000031
其中ρβ表示折扣状态分布,Qπ(s,π(s))表示在每个步骤中根据策略π选择动作所生成的Q值;
可选策略π*可通过最大化的J(π)获得即:
Figure FDA0003124685760000032
4.根据权利要求1所述的配电网多时间尺度电压控制方法,其特征在于,所述步骤3包括以下步骤:针对所述步骤2构建的MDP过程,采用基于MADDPG的MADRL算法;所述MADDPG包括actor和critic两个神经网络,模拟策略函数和动作值函数,分别表示为π(s|θπ)和Q(s,a|θQ);建立两个目标网络:actor target networkπ’和critic target network Q’。针对每个智能体建立其actor和critic网络,在集中训练期间,每个智能体的critic网络除了输入自己的状态、动作信息之外,还输入其他智能体的状态和行为信息;
针对储能装置和光伏逆变器等连续变量的设备,每个agent根据从replay buffer中采样的mini batch,通过最小化损失函数来更新critic网络,即
Figure FDA0003124685760000033
actor网络朝着最大化J(π)的方向更新,即:
Figure FDA0003124685760000034
目标网络采用soft-update方式更新,即:
Figure FDA0003124685760000041
其中ω<<1。
5.根据权利要求4所述的配电网多时间尺度电压控制方法,其特征在于,根据对actor的输出添加一个随机高斯噪声
Figure FDA0003124685760000042
即:
Figure FDA0003124685760000043
针对电容器等离散变量的装置,采用根据概率选择动作的方式,将actor网络的输出向量作为电容器配置方案的概率向量,其每个元素都对应于电容器配置的概率;将求解电容器配置的离散变量的问题转换成训练其对应概率向量的连续变量的问题,这可以通过MADDPG获得;对电容器组的智能体,其二进制动作向量集构成动作空间A,其基数为
Figure FDA0003124685760000044
在训练过程中,将噪声添加到策略π(st)之后,将输出向量最小化和归一化以将其转换为概率向量Pat,而二进制的动作向量at则基于Pat随机选择,其转换过程如下:
Figure FDA0003124685760000045
Figure FDA0003124685760000046
at=ChoiceByProb(Pat) (14c)
其中ε是取正数;
在执行过程中根据策略π(st)的最大值选择动作,即:
at=argmax(π(st))。 (15)
6.根据权利要求1所述的配电网多时间尺度电压控制方法,其特征在于,所述步骤4包括以下步骤:根据所述MADRL算法,在长时间尺度T开始时配置电容器,在短时间尺度t上控制储能和逆变器的输出;各个智能体利用训练数据集按所述步骤3的算法进行训练,在执行阶段各训练好的智能体可根据当前的配电网状态采取相应的动作,以实现多时间尺度电压控制。
CN202110701019.9A 2021-06-21 2021-06-21 一种基于多智能体深度强化学习的配电网电压控制方法 Active CN113363998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110701019.9A CN113363998B (zh) 2021-06-21 2021-06-21 一种基于多智能体深度强化学习的配电网电压控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110701019.9A CN113363998B (zh) 2021-06-21 2021-06-21 一种基于多智能体深度强化学习的配电网电压控制方法

Publications (2)

Publication Number Publication Date
CN113363998A true CN113363998A (zh) 2021-09-07
CN113363998B CN113363998B (zh) 2022-06-28

Family

ID=77536029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110701019.9A Active CN113363998B (zh) 2021-06-21 2021-06-21 一种基于多智能体深度强化学习的配电网电压控制方法

Country Status (1)

Country Link
CN (1) CN113363998B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807029A (zh) * 2021-10-19 2021-12-17 华北电力大学(保定) 一种基于深度强化学习的双时间尺度电网电压优化方法
CN113872213A (zh) * 2021-09-09 2021-12-31 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
CN114123178A (zh) * 2021-11-17 2022-03-01 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114169627A (zh) * 2021-12-14 2022-03-11 湖南工商大学 一种深度强化学习分布式光伏发电激励方法
CN114447942A (zh) * 2022-02-08 2022-05-06 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN115986750A (zh) * 2022-12-30 2023-04-18 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法
CN116388280A (zh) * 2023-06-02 2023-07-04 电力规划总院有限公司 基于深度强化学习算法的综合能源系统电压控制方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113872213A (zh) * 2021-09-09 2021-12-31 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
CN113872213B (zh) * 2021-09-09 2023-08-29 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
CN113807029A (zh) * 2021-10-19 2021-12-17 华北电力大学(保定) 一种基于深度强化学习的双时间尺度电网电压优化方法
CN114123178A (zh) * 2021-11-17 2022-03-01 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114169627A (zh) * 2021-12-14 2022-03-11 湖南工商大学 一种深度强化学习分布式光伏发电激励方法
CN114447942A (zh) * 2022-02-08 2022-05-06 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN114447942B (zh) * 2022-02-08 2024-06-11 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN115986750A (zh) * 2022-12-30 2023-04-18 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法
CN115986750B (zh) * 2022-12-30 2024-05-17 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法
CN116388280A (zh) * 2023-06-02 2023-07-04 电力规划总院有限公司 基于深度强化学习算法的综合能源系统电压控制方法及系统

Also Published As

Publication number Publication date
CN113363998B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN113363998B (zh) 一种基于多智能体深度强化学习的配电网电压控制方法
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN113363997B (zh) 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
CN112465664B (zh) 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN114362187B (zh) 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
Cui et al. Decentralized safe reinforcement learning for inverter-based voltage control
CN112636396B (zh) 光伏配电网控制方法及终端
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及系统
CN112418496B (zh) 一种基于深度学习的配电台区储能配置方法
Li et al. Day-ahead optimal dispatch strategy for active distribution network based on improved deep reinforcement learning
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN115313403A (zh) 一种基于深度强化学习算法的实时电压调控方法
CN117200213A (zh) 基于自组织映射神经网络深度强化学习的配电系统电压控制方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
Yin et al. Expandable deep width learning for voltage control of three-state energy model based smart grids containing flexible energy sources
CN117172097A (zh) 基于云边协同与多智能体深度学习的配电网调度运行方法
Zeng et al. Distributed deep reinforcement learning-based approach for fast preventive control considering transient stability constraints
Li et al. A multi-agent deep reinforcement learning-based “Octopus” cooperative load frequency control for an interconnected grid with various renewable units
CN112560222A (zh) 一种改善电网动态稳定性的无功优化配置方法
Liu et al. An AGC dynamic optimization method based on proximal policy optimization
CN116865270A (zh) 一种含嵌入式直流的柔性互联配电网优化调度方法及系统
CN116031889A (zh) 基于鲁棒深度强化学习的多智能体分布式电压控制方法
Qiu et al. Neural networks-based inverter control: modeling and adaptive optimization for smart distribution networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant