CN113363998A

CN113363998A - 一种基于多智能体深度强化学习的配电网电压控制方法

Info

Publication number: CN113363998A
Application number: CN202110701019.9A
Authority: CN
Inventors: 张靖; 李忆琪; 吴志; 顾伟; 赵树文; 周苏洋; 龙寰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-09-07
Anticipated expiration: 2041-06-21
Also published as: CN113363998B

Abstract

本发明公开一种基于多智能体深度强化学习的配电网电压控制方法，涉及电气工程技术领域和计算机科学技术领域，包括：步骤10)构建针对电容器组、光伏逆变器、储能装置多种调压装置的配电网多时间尺度电压控制模型；步骤20)将控制变量分配给多个智能体，将电压控制问题转换成马尔科夫决策过程；步骤30)采用基于多智能体深度确定性策略梯度的多智能体深度强化学习算法解该MDP过程，其中针对离散调压装置特性对该算法进行改进；步骤40)训练并执行多智能体以实现多时间尺度电压控制方法。与现有技术相比，该方法从优化配电网电压控制的角度，建立了多时间尺度控制系统，并提出了基于的算法同时处理连续和离散调压装置以控制电压。

Description

一种基于多智能体深度强化学习的配电网电压控制方法

技术领域

本发明涉及电气工程技术领域和计算机技术领域，具体的是一种基于多智能体深度强化学习的配电网电压控制方法。

背景技术

大量的分布式光伏接入配电网对配电网的电压控制产生了深远的影响。同时，动态无功补偿技术的发展，储能设备的使用以及可控的分布式能源为配电网的电压控制带来了更多的可控元素，并对现有的控制方法提出了挑战。

传统的电压控制方法主要基于特定的物理模型，使用逼近技术将其建模为混合整数非线性规划问题，并将其进一步转化为各种优化问题。当配电网规模较大且包含各种分布式发电时，整个问题的复杂性，随机性，动态特性和维度将不断增加，可能会导致精度损失和次优策略的产生。同时，求解过程很耗时，并且快速适应时变分布式电源/负载的能力受到限制。

近年来，人工智能技术的飞速发展为各种复杂的动态系统的战略控制决策开辟了一条新的道路。在这些AI技术中，强化学习由于其无需采取特定优化模型即可基于动作，状态和奖励进行全局优化的优势，受到了越来越多的关注。该方法使用智能体通过与环境反复交互来逐步学习最优策略，可以从各种传感器收集的数据中探索有用的信息，处理隐藏在数据中的不确定性，并直接挖掘输入和输出之间的潜在联系。在电压控制方面，已有研究使用Q-learning方法来学习变压器抽头调节和并联电容器的最佳控制动作。但是，它使用查找表来表示每个可能的状态-动作对的动作值函数，因此遭受了严重的维度诅咒。为了克服这一缺点，深度强化学习(DRL)将强化学习与深度学习(DL)相结合，利用深度神经网络(DNN)来拟合Q表或直接拟合策略函数。例如利用深度Q网络(DQN)来处理连续状态空间和离散动作变量的问题，可用来控制电容器、变压器抽头等离散变量装置；采用深度确定性策略梯度(DDPG)算法直接处理连续状态和动作空间，可用于控制逆变器等连续变量装置。但是，在现有的基于DRL的电压控制方法中，往往将动作空间认为是离散的或连续的，而在实际的配电网中，离散型和连续型调压装置可能同时存在；且这些方法无法实现在不同时间尺度内对不同设备进行控制，也忽略了存储系统的重要作用。

发明内容

针对上述技术问题，本发明采用如下技术方案：

一种基于多智能体深度强化学习的配电网电压控制方法，该控制方法包括以下步骤：

步骤10)针对多种调压装置的控制需求，构建针对电容器组、光伏逆变器、储能装置多种调压装置的配电网多时间尺度电压控制模型；

步骤20)基于步骤10)建立的多时间尺度电压控制模型，将控制变量分配给多个智能体，将电压控制问题转换成马尔科夫决策(MDP)过程；

步骤30)基于步骤20)建立的MDP过程，采用基于多智能体深度确定性策略梯度(MADDPG)的多智能体深度强化学习(MADRL)算法解该MDP过程，其中针对离散调压装置特性对该算法进行改进；

步骤40)基于步骤30)提出的MADRL算法，训练并执行多智能体以实现多时间尺度电压控制方案；

进一步地，所述步骤10)中，所建立的多时间尺度电压控制模型适应了不同时间尺度设备的控制需求，将每天划分为以N_T个间隔，标记为T＝1,2…,N_T，然后将这些间隔＝进一步划分为N_t个间隙，标记为t＝1,2…,N_t。在每个间隔T的最开始，控制慢速调压设备(即电容器)；同时，在每个时隙t的开始处控制快速调压设备(即PV逆变器和储能系统ESS)的输出。

进一步地，构建调压装置电容器组的模型：

Q_CB,i(T,t)＝a_cb,i(T)·Q_CB,i (1)

其中Q_CB,i表示该电容器无功功率的铭牌值；a_cb,i(T)∈{0,1}是控制变量，代表此电容器组的开/关状态，当a_cb,i(T)＝1时，电容器接入电网。

进一步地，构建调压装置光伏逆变器的模型：

其中S_PV,i为其标称容量，P_PV,i(T,t)为已知的有功功率输出，

表示此光伏装置的最大无功功率，并且控制变量定义为a_pv,i(T,t)∈[-1,1]。

进一步地，构建调压装置储能装置的模型：

其中

是安全的最小/最大容量；ο_i(T,t)是安装在总线i上的储能装置的荷电状态；

为额定充电/放电功率；a_ess,i(T,t)∈[-1,1]为动作变量；P_ESS,i(T,t)是充放电功率。

进一步地，根据分支流模型，构建配电网的多时间尺度电压控制模型，其目标函数为：

约束条件为：

P_j(T,t)＝P_L,j(T,t)-P_PV,j(T,t)+P_ESS,j(T,t) (4f)

Q_j(T,t)＝Q_L,j(T,t)-Q_PV,j(T,t)-Q_CB,j(T,t) (4g)

其中i和j代表网格中的不同总线；φ(j)和

分别表示母线j的父母线组和子母线组。P_ij和Q_ij是从母线i流向母线j的有功和无功功率；P_L,j和Q_L,j是母线j 的有功和无功负载；r_ij和x_ij是(i,j)的电阻和电抗；i_ij是线电流幅值的平方；v_j电压幅值的平方。

进一步地，所述步骤20)的具体内容包括：

步骤201)：针对各个智能体，构建各自的Action元素：

式中：a_cb,i(T)∈{0,1}，a_pv,i(t)∈[-1,1]，a_ess,i(t)∈[-1,1]；

步骤202)：针对各个智能体，构建各自的State元素：

式中：

表示间隔T中所有总线的平均有功功率，V(t)是时间t上所有总线的电压幅度，O^T(t)是时间t处ESS的荷电状态，

是时间t处ESS的最小/ 最大容量；

步骤203)：针对各个智能体，构建各自的Reward元素：

在学习过程中，对于每个智能体，从时间k开始的折扣奖励定义为回报：

其中r_k是时间步长k上的奖励,折现因子γ∈[0,1]。

步骤204)：构建动作值函数表示在控制策略π下在状态s_k时执行动作a_k后的预期收益，其定义为：

其中E_π[·]表示寻求对策略π的期望，而控制策略π表示状态到动作的映射。

将动作值函数用贝尔曼方程表示为：

Q_π(s_k,a_k)＝E_π[r_k+γQ_π(s_k+1,a_k+1)|s_k,a_k] (10)

步骤205)：构建性能函数J(π),用于衡量策略π的性能:

其中ρ^β表示折扣状态分布，Q_π(s,π(s))表示在每个步骤中根据策略π选择动作所生成的Q值。

可选策略π*可通过最大化的J(π)获得即：

进一步地，所述步骤30)的具体内容包括：

步骤301)：基于步骤20)中构建的多个智能体的MDP过程，构建基于MADDPG 的MADRL算法，实现对各种调压装置的控制。它引入了集中训练和分散执行的架构，采用actor-critic体系结构，针对每个智能体，使用两个深度神经网络 ——actor网络和critic网络——来模拟策略函数和动作值函数。其中actor online network(缩写为网络π)记作π(s|θ^π)，其参数为θ_π；critic online network(缩写为Q网络)记为θ(s,a|θ^Q)，其参数为θ^Q。为了稳定学习过程，创建了两个目标网络：带有参数θ^π'的target actor networkπ'和带有参数θ^Q' 的target critic network Q'。另外，为了探索可能的更好策略，将随机高斯噪声

添加到actor网络的输出π(s|θ^π)上，以形成行为策略

在集中训练期间，每个智能体的critic网络除了输入自己的状态动作信息之外，还输入了其他信息，例如其他智能体的State和Action，以获得更准确的Q值。在分散执行期间，经过充分训练后的每个agent都可以根据自己的State 采取适当的行动，而无需其他人提供信息,因此，在MADDPG中，可以将智能体 i的动作值函数定义为Q_i(s_k,i,s_k,-i,a_k,i,a_k,-i),其中s_k,i和a_k,i是智能体i在时序k上的state和action,s_k,-i和a_k,-i是其他智能体在时序k上的 state和action。

同时为了更新在线网络，应用了replay buffer来存储历史经验。在每个时间步长,网络π和网络Q可以通过从replay buffer统一采样一个mini batch来进行更新。

针对储能装置和光伏逆变器等连续变量的设备，每个智能体根据从replaybuffer中采样的mini batch，通过最小化损失函数来更新critic网络，该损失函数为：

actor网络朝着最大化J(π)的方向更新，即：

目标网络采用soft-update方式更新，即：

其中ω＜＜1。

针对电容器等离散变量的装置，采用根据概率选择动作的方式，将actor网络的输出向量(浮点数向量)作为电容器配置方案的概率向量，其每个元素都对应于电容器配置的概率。该概率向量中的某个元素越大，其相应电容器配置被选择的可能性就越大。然后，将求解电容器配置的离散变量的问题转换为训练其对应概率向量的连续变量的问题，这可以通过MADDPG获得。对电容器组的智能体,其二进制动作向量集构成其动作空间A,其基数为

这也是概率向量的范数。

因此，针对该离散变量的智能体，在训练过程中，在将噪声添加到策略π(s_t) 之后,我们将输出向量最小化和归一化以将其转换为概率向量P_at,而二进制的动作向量a_t则基于P_at随机选择，其转换过程如下：

a_t＝ChoiceByProb(P_at) (17c)

其中ε是一个较小的正数(例如ε＝10^-5)。

在执行过程中根据策略π(s_t)的最大值选择动作，即：

a_t＝arg max(π(s_t)) (18)

进一步地，所述步骤40)的具体内容包括：根据步骤30)提出的MADRL 算法，每种调压装置的智能体构建自己的actor网络、critic网络以及replay buffer。在长时间尺度T开始时配置电容器，在短时间尺度t上控制储能和逆变器的输出。各个智能体利用训练数据集按步骤30)的算法进行训练，在执行阶段各训练好的智能体可根据当前的配电网状态采取相应的动作，以实现多时间尺度电压控制。

本发明的有益效果：

本发明提供一种基于多智能体深度强化学习的配电网电压控制方法，该方法从优化配电网电压控制的角度，基于大量分布式和可控元件入网，针对多种控制装置建立了多时间尺度电压控制模型，并提出了基于MADDPG的MADRL 算法同时处理连续型和离散型调压装置以控制电压。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程图。

图2是本发明实施例的训练算法流程；

图3是本发明实施例的执行算法流程；

图4是本发明实施例中的IEEE-123节点配电网系统结构图。

图5是本发明实施例中的各个光伏输出的有功功率线条图。

图6是本发明实施例中的不同控制方法下电压分布图。

图7是本发明实施例中的episode奖励曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的一种基于多智能体深度强化学习的配电网电压控制方法，包括以下步骤：

步骤10)建立的多时间尺度电压控制模型以适应不同时间尺度设备的控制需求，将每天划分为以N_T个间隔，标记为T＝1,2…,N_T，然后将这些间隔进一步划分为N_t个间隙，标记为t＝1,2…,N_t。在每个间隔T的最开始，控制电容器等慢速调压设备；同时，在每个时隙t的开始处控制PV逆变器和储能系统ESS等快速调压设备的输出。

在此基础上，构建调压装置电容器组的模型：

Q_CB,i(T,t)＝a_cb,i(T)·Q_CB,i (1)

同时，构建调压装置光伏逆变器的模型：

其中S_PV,i为其标称容量，P_PV,i(T,t)为已知的有功功率输出，

构建调压装置储能装置的模型：

其中

最后，根据分支流模型，构建配电网的多时间尺度电压控制模型，其目标函数为：

约束条件为：

P_j(T,t)＝P_L,j(T,t)-P_PV,j(T,t)+P_ESS,j(T,t) (4f)

Q_j(T,t)＝Q_L,j(T,t)-Q_PV,j(T,t)-Q_CB,j(T,t) (4g)

其中i和j代表网格中的不同总线；φ(j)和

步骤20)基于步骤10)建立的多时间尺度电压控制模型，将控制变量分配给多个智能体，将电压控制问题转换成马尔科夫决策(MDP)过程。

针对各个智能体，构建各自的Action元素：

式中：a_cb,i(T)∈{0,1}，a_pv,i(t)∈[-1,1]，a_ess,i(t)∈[-1,1]；

针对各个智能体，构建各自的State元素：

式中：

是时间t处ESS的最小/ 最大容量；

针对各个智能体，构建各自的Reward元素：

其中r_k是时间步长k上的奖励,折现因子γ∈[0,1]。

构建动作值函数表示在控制策略π下在状态s_k时执行动作a_k后的预期收益，其定义为：

将动作值函数用贝尔曼方程表示为：

Q_π(s_k,a_k)＝E_π[r_k+γQ_π(s_k+1,a_k+1)|s_k,a_k] (10)

构建性能函数J(π),用于衡量策略π的性能:

可选策略π*可通过最大化的J(π)获得即：

进一步地，所述步骤30)的具体内容包括：

步骤30)基于步骤20)中构建的多个智能体的MDP过程，提出基于MADDPG 的MADRL算法，实现对各种调压装置的控制。它引入了集中训练和分散执行的架构，采用actor-critic体系结构，针对每个智能体，使用两个深度神经网络 ——actor网络和critic网络——来模拟策略函数和动作值函数。其中actor online network(缩写为网络π)记作π(s|θ^π)，其参数为θ_π；critic online network(缩写为Q网络)记为θ(s,a|θ^Q)，其参数为θ^Q。为了稳定学习过程，创建了两个目标网络：带有参数θ^π'的target actor networkπ'和带有参数θ^Q' 的target critic network Q'。另外，为了探索可能的更好策略，将随机高斯噪声

添加到actor网络的输出π(s|θ^π)上，以形成行为策略

在集中训练期间，每个智能体的critic网络除了输入自己的状态动作信息之外，还输入了其他信息，例如其他智能体的State和Action，以获得更准确的Q值。在分散执行期间，经过充分训练后的每个agent都可以根据自己的State 采取适当的行动，而无需其他人提供信息,因此，在MADDPG中，可以将智能体i的动作值函数定义为Q_i(s_k,i,s_k,-i,a_k,i,a_k,-i),其中s_k,i和a_k,i是智能体i在时序k上的state和action,s_k,-i和a_k,-i是其他智能体在时序k上的 state和action。

actor网络朝着最大化J(π)的方向更新，即：

目标网络采用soft-update方式更新，即：

其中ω＜＜1。

这也是概率向量的范数。

a_t＝ChoiceByProb(P_at) (17c)

其中ε是一个较小的正数(例如ε＝10^-5)。

在执行过程中根据策略π(s_t)的最大值选择动作，即：

a_t＝arg max(π(s_t)) (18)

步骤40)根据步骤30)提出的MADRL算法，每种调压装置的智能体构建自己的actor网络、critic网络以及replay buffer。在长时间尺度T开始时配置电容器，在短时间尺度t上控制储能和逆变器的输出。各个智能体利用训练数据集按步骤30)的算法进行训练，在执行阶段各训练好的智能体可根据当前的配电网状态采取相应的动作，以实现多时间尺度电压控制。该算法具体训练和执行过程如图2和图3所示。

针对于上述的方法，下面列举一具体实施例，将修改后IEEE-123总线系统用于分析该方案的有效性和可行性。在本方法中，将IEEE-123总线系统修改为平衡系统，并重新编排母线编号，如图4所示。该测试馈线的额定电压为4.16kV，功率参考值为100MVA。此外，在总线22、31、41、50、63、73、79、87、94、 103、106和112上安装了12个光伏单元，容量分别为400kVA，200kVA，200 kVA，400kVA，400kVA，400kVA，400kVA，400kVA，400kVA，400kVA，400kVA，200kVA。每一个光伏单元中都配备有智能逆变器。在总线3、20、44、 93上分别安装了4个电容器，每个电容器的容量为30kvar。同时，在母线56, 83,96,116分别安装了4个储能系统,它们的最大容量为500kWh，额定充电/ 放电功率为100kW。为简单起见，假设所有12个PV单元均提供相同的功率输出，如图5所示。此外，负载数据是根据某地区的实际负载曲线进行修改所得。将原始负载数据乘以不同常数，以使各总线的负载分布彼此不同。该系统中的所有参数均已转换为标幺值。

该实施例是基于Pytorch框架实现的，培训过程在CPU上执行。actor和 critic网络是四层全连接的神经网络，即一个输入层，两个分别具有90和22 个神经元的隐藏层以及一个输出层。使用ReLU函数作为隐藏层中的激活函数，而输出层只是一个没有激活函数的线性层。输出层末端也使用了tanh函数，以将输出保持在[-1，1]之间。下表为MADRL培训的详细设置：

首先，基于最优潮流，分析没有任何电压控制条件下的每日母线电压分布。经分析可知最有问题的电压出现在总线1，总线2和总线7上，违反了通常的 1.05的最大电压线。以总线1和总线2上的电压幅度为例，如图6黑直线所示。

其次，将所提出的基于多智能体深度强化学习的配电网多时间尺度电压控制方案应用于学习不同电压控制设备的控制策略。按照算法1中显示的步骤对电容器组，储能装置和光伏逆变器的智能体进行训练。进行了150个episode的训练，每个episode在遍历一天1440个样本后终止。我们假设时间间隔T＝6 分钟，时隙t＝1分钟。episode奖励如图7所示。在该图中，横轴表示episode 的数量，纵轴表示奖励值。可以看出在大约30episode之后，这些agent可以有效地从过去的经验中学习，并且奖励值收敛到最佳点，表明模型已经收敛。此时，这些经过培训的MADRL智能体可应用于控制这些设备。

基于训练有素的MADRL agent，我们可以获得控制结果，如下图6中灰直线所示。与没有任何电压控制条件下的情况相比，所提出的基于多智能体深度强化学习的配电网多时间尺度电压控制方案使电压得到了显著改善，尤其是总线1 和总线2中最有问题的总线的电压。这些总线的电压幅度被控制在通常的最大电压线1.05以下。

同时为了检验本发明的电压控制方法的有效性，将其与两阶段最优控制方案进行对比，如图6中灰直线和黑虚线所示。可以看出本发明的电压控制方法的控制效果与两阶段优选控制方案相似。计算两者的求解时间如下表所示，可以看出本发明消耗的时间更短，仅为1.446s，可以满足实时控制的需求。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例” 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种配电网多时间尺度电压控制方法，其特征在于，包括以下步骤：

步骤1：针对多种调压装置的控制需求，构建针对电容器组、光伏逆变器、储能装置多种调压装置的配电网多时间尺度电压控制模型；

步骤2：基于所述多时间尺度电压控制模型，将控制变量分配给多个智能体，将电压控制问题转换成马尔科夫决策过程；

步骤3：采用基于多智能体深度确定性策略梯度的多智能体深度强化学习算法解所述的马尔科夫决策过程，其中针对离散调压装置特性对该算法进行改进；

步骤4：基于所述的多智能体深度强化学习算法，训练并执行多智能体以实现多时间尺度电压控制方案。

2.根据权利要求1所述的配电网多时间尺度电压控制方法，其特征在于，所述步骤1包括：将时间划分为长时间尺度T和短时间尺度t，且T＝N_t*t；在每个T开始时控制电容器的配置，在每个t开始时控制逆变器输出和储能充放电。相应的控制装置模型为：

Q_CB,i(T,t)＝a_cb,i(T)·Q_CB,i (1)

式中a_cb,i(T)∈{0,1}为电容器控制变量；a_pv,i(T,t)∈[-1,1]为逆变器控制变量；a_ess,i(T,t)∈[-1,1]为储能控制变量；Q_CB,i为电容器无功功率铭牌值；S_PV,i为逆变器额定容量，P_PV,i(T,t)为光伏有功输出，Q_PV,i(T,t)为逆变器无功输出；ο_i(T,t)为储能的荷电状态，

为最大充放电功率，

为储能最小/最大安全容量；

基于交流潮流建立以最小化长期平均电压偏差为目标的最优电压控制模型。

3.根据权利要求1所述的配电网多时间尺度电压控制方法，其特征在于，所述步骤2包括：按照控制设备的种类将控制变量分配给若干个智能体，不采用传统基于模型的优化算法，而是将电压控制问题转换为MDP过程，并针对每个智能体建立Action,State,Reward这些元素：

上述式中，a为Action空间，s为State空间，其中

表示时间T中所有总线的平均有功功率，V(t)是时间t上所有总线的电压幅度，r为Reward空间；

在MDP过程中，对于每个agent，从时间k开始的折扣奖励定义为回报：

其中r_k是时间步长k上的奖励,折现因子γ∈[0,1]；

动作值函数表示在控制策略π下在状态s_k中执行动作a_k后的预期收益，其定义为：

其中E_π[·]表示寻求对策略π的期望，而控制策略π表示状态到动作的映射；

将动作值函数用贝尔曼方程表示为：

Q_π(s_k,a_k)＝E_π[r_k+γQ_π(s_k+1,a_k+1)|s_k,a_k] (7)

此外，用性能函数J(π)衡量策略π的性能:

其中ρ^β表示折扣状态分布，Q_π(s,π(s))表示在每个步骤中根据策略π选择动作所生成的Q值；

可选策略π*可通过最大化的J(π)获得即：

4.根据权利要求1所述的配电网多时间尺度电压控制方法，其特征在于，所述步骤3包括以下步骤：针对所述步骤2构建的MDP过程，采用基于MADDPG的MADRL算法；所述MADDPG包括actor和critic两个神经网络，模拟策略函数和动作值函数，分别表示为π(s|θ^π)和Q(s,a|θ^Q)；建立两个目标网络：actor target networkπ’和critic target network Q’。针对每个智能体建立其actor和critic网络，在集中训练期间，每个智能体的critic网络除了输入自己的状态、动作信息之外，还输入其他智能体的状态和行为信息；

针对储能装置和光伏逆变器等连续变量的设备，每个agent根据从replay buffer中采样的mini batch，通过最小化损失函数来更新critic网络，即

actor网络朝着最大化J(π)的方向更新，即：

目标网络采用soft-update方式更新，即：

其中ω＜＜1。

5.根据权利要求4所述的配电网多时间尺度电压控制方法，其特征在于，根据对actor的输出添加一个随机高斯噪声

即：

针对电容器等离散变量的装置，采用根据概率选择动作的方式，将actor网络的输出向量作为电容器配置方案的概率向量，其每个元素都对应于电容器配置的概率；将求解电容器配置的离散变量的问题转换成训练其对应概率向量的连续变量的问题，这可以通过MADDPG获得；对电容器组的智能体,其二进制动作向量集构成动作空间A,其基数为

在训练过程中，将噪声添加到策略π(s_t)之后，将输出向量最小化和归一化以将其转换为概率向量P_at，而二进制的动作向量a_t则基于P_at随机选择，其转换过程如下：

a_t＝ChoiceByProb(P_at) (14c)

其中ε是取正数；

在执行过程中根据策略π(s_t)的最大值选择动作，即：

a_t＝argmax(π(s_t))。 (15)

6.根据权利要求1所述的配电网多时间尺度电压控制方法，其特征在于，所述步骤4包括以下步骤：根据所述MADRL算法，在长时间尺度T开始时配置电容器，在短时间尺度t上控制储能和逆变器的输出；各个智能体利用训练数据集按所述步骤3的算法进行训练，在执行阶段各训练好的智能体可根据当前的配电网状态采取相应的动作，以实现多时间尺度电压控制。