CN116845859A

CN116845859A - 基于多智能体强化学习的配电网两阶段动态重构运行方法

Info

Publication number: CN116845859A
Application number: CN202310612131.4A
Authority: CN
Inventors: 高红均; 王子晗; 贺帅佳; 王仁浚; 刘俊勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-10-03

Abstract

本发明公开了基于多智能体强化学习的配电网两阶段动态重构运行方法，包括：步骤S1，第一阶段，构建基于带变换的值函数分解多智能体深度强化学习模型，为每个开关分配一个子智能体，以实现重构拓扑的自适应输出；步骤S2，在智能体执行探索过程中，考虑配电网辐射性与连通性，输出满足配电网重构拓扑约束的动作；步骤S3，在多智能体模型中子智能体的状态空间中考虑各节点功率、支路电流、所处时刻以及一阶段基于带变换的值函数分解多智能体深度强化学习模型的输出动作，对配电网运行中连续变量进行优化。通过本发明所提供的技术方案，可以实现自行决定电网重构方案，具有可拓展性与实用性。

Description

基于多智能体强化学习的配电网两阶段动态重构运行方法

技术领域

本发明涉及配电网动态重构优化运行技术领域，具体是基于多智能体强化学习的配电网两阶段动态重构运行方法。

背景技术

随着城市区域负荷的高速发展以及新型电力系统背景下新能源的大量接入，城市配电网目前面临着负荷分布不均衡的问题，对城市配电网运行的经济性与可靠性提出了新的挑战。当为了均衡负荷新建架空线路经济成本高或变电站用地紧张时，配电网重构技术就是有效的解决手段之一，配电网重构能够通过改变联络开关与分段开关的通断状态来转移负荷调整网络结构，以达到提高清洁能源消纳能力、均衡负荷和消除线路过载的目的。然而，现有的配电网重构方法如数学求解方法需要建立显示模型，在日趋复杂的配电网运行环境下难以求解，启发式算法又易于陷入局部最优解，同时单智能体强化学习虽然能够通过大量探索求得最优决策方案，但是需要事先为每一个输出神经元确定好重构拓扑。因此，面对新型电力系统背景下新能源大量接入的配电网，如何安全经济的进行重构优化运行已经成为了目前亟待研究的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供基于多智能体强化学习的配电网两阶段动态重构运行方法，其特征在于，包括如下步骤：

步骤S1，第一阶段，构建基于带变换的值函数分解多智能体深度强化学习模型，为每个开关分配一个子智能体，以实现重构拓扑的自适应输出；其中以配电网各时刻光伏节点光伏电源发电量、负荷节点负荷需求量、与上级电网交互功率、各支路流过电流以及所处时刻为特征构建多智能体模型中子智能体的联合状态空间；以支路开关通断状态为子智能体的动作空间，带变换的值函数分解模型的奖励函数综合考虑配电网运行网损、开关通断损耗、电压偏移指数；带变换的值函数分解模型的状态转移函数考虑光伏电源出力的随机性，构建带变换的值函数分解模型的联合动作空间；

步骤S2，在智能体执行探索过程中，考虑配电网辐射性与连通性，输出满足配电网重构拓扑约束的动作；

步骤S3，第二阶段，在子智能体的动作空间考虑光伏出力和弃负荷量；带变换的值函数分解模型的奖励函数考虑配电网运行网损、弃光弃负荷量和电压均衡度，基于深度确定性策略梯度算法，在多智能体模型中子智能体的状态空间中考虑各节点功率、支路电流、所处时刻以及一阶段基于带变换的值函数分解多智能体深度强化学习模型的输出动作，对配电网运行中连续变量进行优化。

进一步的，所述的多智能体模型中子智能体的联合状态空间为：

子智能体状态空间：

式中：o_n,t表示单智能体n在t时刻对配电网环境的观测值；表示节点i在t时刻与上级电网的交互量；节点i在t时刻的光伏电源发电量；表示节点i在t时刻的负荷需求量；t'表示所处时刻t的标幺值；

子智能体动作空间：

式中：表示子智能体n的动作空间；w_ij表示支路ij的通断状态；

带变换的值函数分解模型的联合状态空间：

式中：表示所有单智能体的观测值集合；表示所有单智能体的动作集合。

进一步的，所述的带变换的值函数分解模型的联合动作空间为：

带变换的值函数分解模型的联合动作空间:

式中：表示所有单智能体的动作集合。

带变换的值函数分解模型的奖励函数:

式中：表示配电网重构阶段针对带变换的值函数分解模型的配电网经济运行指标；表示的取反；c^loss表示配电网运行单位有功网损电价；r_ij表示支路ij的电阻；分别表示改变馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态时的单次操作成本，其中馈线联络开关表示联系两条所属同一变电站同一变压器的馈线的开关、变压器联络开关表示联系两条所属同一变电站不同变压器的馈线的开关、变电站联系开关表示联系两条所属不同变电站的馈线的开关、支路分段开关表示馈线支路中默认闭合状态的开关；为了抑制潮流大范围转移，分别表示重构区域中馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态的标志，0表示断开，1表示闭合；电压偏移指数；表示V_i ^N和V_i,t分别为节点i的电压额定值和t时段实际值；c_t ^l表示负荷均衡度；R_i,t表示t时段节点i的负载率；表示配电网t时段平均负载率；P_i,t为节点i在t时段注入的有功功率；P_i ^max为节点i最大允许注入有功功率；N表示配电网节点数；表示潮流越限惩罚；表示辐射性与连通性惩罚，若智能体输出拓扑不满足约束，则对智能体施加惩罚；λ^t表示步数奖励；c^r表示正向奖励偏置，起到智能体执行满足约束的动作时时奖励值大于0的作用；c表示最大惩罚；

带变换的值函数分解模型的状态转移函数:

s_t+1＝f(s_t,a_t,ρ)

式中：ρ表示随机量；N表示正态分布；μ^N,PV表示正态分布平均值；σ^N,PV表示噪声正态分布标准差。

进一步的，所述的辐射性为：

式中：N^B表示配电网节点个数；N^Sub表示配电网中变电站个数；E^Always表示支路中没有开关一直处于连通状态的支路；

连通性为：

根据配电网拓扑建立一个n×n的连通矩阵T，用T(i,j)表示节点i和节点j之间是否存在电气连接，同时还要满足i＜j。如果节点i和节点j之间存在电气连接则T(i,j)＝1；否则T(i,j)＝0，而矩阵中对角元素为该元素所在行列之和；通过追溯每个节点的最终父节点是否为电源节点来判断该节点是否为孤点或处于孤岛之中。

进一步的，所述的对配电网运行中连续变量进行优化，包括：

在t时刻时步骤S3的深度确定性策略梯度算法首先通过步骤S1与S2的基于带变换的值函数分解模型确定配电网重构拓扑，随后将基于带变换的值函数分解模型的输出动作作为步骤S3的深度确定性策略梯度模型的状态空间，当t时刻的两阶段优化完成后再过度到t+1时刻进行优化。

基于多智能体强化学习的配电网两阶段动态重构运行系统，应用权利要求1-5任一所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，基于带变换的值函数分解模型的配电网重构模型和基于深度确定性策略梯度算法的配电网运行优化模型；

所述重构级别快速决策模型包括：一阶段配电网运行状态精确感知模块、重构方案决策模块、一阶段经验池模块、联络开关动作模块、第一信息交互模块；

所述一阶段配电网运行状态精确感知模块，用于实时感知配电网运行中的与上级电网交互功率、各光伏电源并网功率、负荷需求功率、各支路电流以及所处时刻；

所述重构方案决策模块，用于根据系统实时感知到的配电网运行状态，直接对配电网拓扑进行优化，自适应输出配电网重构拓扑；

所述一阶段经验池模块，用于储存配电网历史运行状态、模型历史动作以及对应的奖励值；

所述联络开关动作模块，用于根据重构方案远程控制开关进行通断；

所述第一信息交互模块，用于配电网重构结果给基于深度确定性策略梯度算法的配电网运行优化模型；

所述基于深度确定性策略梯度算法的配电网运行优化模型包括第二信息交互模块、二阶段配电网运行状态精确感知模块、二阶段经验池模块、光伏电源并网量决策模块、削减负荷量决策模块；

所述第二信息交互模块，用于接收基于带变换的值函数分解模型的配电网重构模型的重构方案；

所述二阶段配电网运行状态精确感知模块，用于实时感知配电网运行中的与上级电网交互功率、各光伏电源并网功率、负荷需求功率、各支路电流、所处时刻以及基于带变换的值函数分解模型的输出动作；

所述二阶段经验池模块，用于存储二阶段配电网历史运行环境、配电网运行优化模型相应的决策动作以及决策后所得奖励值；

所述光伏电源并网量决策模块，用于根据配电网运行优化模型决定当前状态下的光伏电源并网量；

所述削减负荷量决策模块，用于根据配电网运行优化模型决定当前状态下的削减负荷量。

本发明的有益效果是：提出基于多智能体强化学习的城市配电网两阶段动态重构优化运行系统方法，针对数学求解方法需要建立显示模型，在日趋复杂的配电网运行环境下难以求解，启发式算法又易于陷入局部最优解，同时单智能体强化学习虽然能够通过大量探索求得最优决策方案，但是需要事先为每一个输出神经元确定好重构拓扑的问题，引入基于集中训练、分步的执行的多智能体强化学习框架，搭建基于多智能体强化学习的两阶段配电网重构运行优化模型。第一阶段首先使用基于带变换的值函数分解多智能体深度强化学习模型为配电网中每一个开关分配一个智能体，在训练过程中加入连通性与辐射性约束，使其自适应输出满足约束的重构方案，第二阶段采用深度确定性策略梯度模型对配电网优化运行中连续变量进行优化，该深度强化学习模型不用事先为每个输出神经元确定拓扑，能够自行决定重构方案，具有可拓展性与实用性。

附图说明

图1为基于多智能体强化学习的配电网两阶段动态重构运行方法流程示意图；

图2为基于带变换的值函数分解算法的配电网重构模型工作原理图；

图3为基于深度确定性策略梯度算法的配电网运行优化模型工作原理图；

图4为配电网两阶段动态重构运行优化训练结果图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

为了使本发明的目的，技术方案及优点更加清楚明白，结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，基于多智能体强化学习的配电网两阶段动态重构运行方法，包括如下步骤：

所述的多智能体模型中子智能体的联合状态空间为：

子智能体状态空间：

子智能体动作空间：

带变换的值函数分解模型的联合状态空间：

所述的带变换的值函数分解模型的联合动作空间为：

带变换的值函数分解模型的联合动作空间:

式中：表示所有单智能体的动作集合。

带变换的值函数分解模型的奖励函数:

式中：表示配电网重构阶段针对带变换的值函数分解模型的配电网经济运行指标；表示的取反；c^loss表示配电网运行单位有功网损电价；r_ij表示支路ij的电阻；分别表示改变馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态时的单次操作成本，其中馈线联络开关表示联系两条所属同一变电站同一变压器的馈线的开关、变压器联络开关表示联系两条所属同一变电站不同变压器的馈线的开关、变电站联系开关表示联系两条所属不同变电站的馈线的开关、支路分段开关表示馈线支路中默认闭合状态的开关；为了抑制潮流大范围转移，分别表示重构区域中馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态的标志，0表示断开，1表示闭合；电压偏移指数；表示V_i ^N和V_i,t分别为节点i的电压额定值和t时段实际值；表示负荷均衡度；R_i,t表示t时段节点i的负载率；表示配电网t时段平均负载率；P_i,t为节点i在t时段注入的有功功率；P_i ^max为节点i最大允许注入有功功率；N表示配电网节点数；表示潮流越限惩罚；表示辐射性与连通性惩罚，若智能体输出拓扑不满足约束，则对智能体施加惩罚；λ^t表示步数奖励；c^r表示正向奖励偏置，起到智能体执行满足约束的动作时时奖励值大于0的作用；c表示最大惩罚；

带变换的值函数分解模型的状态转移函数:

s_t+1＝f(s_t,a_t,ρ)

所述的辐射性为：

连通性为：

所述的对配电网运行中连续变量进行优化，包括：

基于多智能体强化学习的配电网两阶段动态重构运行系统，应用所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，包括基于带变换的值函数分解模型的配电网重构模型和基于深度确定性策略梯度算法的配电网运行优化模型；

具体的，现有的配电网重构方法如数学求解方法需要建立显示模型，在日趋复杂的配电网运行环境下难以求解，启发式算法又易于陷入局部最优解，同时单智能体强化学习虽然能够通过大量探索求得最优决策方案，但是需要事先为每一个输出神经元确定好重构拓扑。因此，面对新型电力系统背景下新能源大量接入的配电网，如何安全经济的进行重构优化运行已经成为了目前亟待研究的问题。

如图1所示，本发明提出一种基于多智能体强化学习的城市配电网两阶段动态重构优化运行方法。首先，第一阶段基于带变换的值函数分解多智能体深度强化学习模型，为每个开关分配一个子智能体，以实现重构拓扑的自适应输出；以配电网各时刻光伏节点光伏电源发电量、负荷节点负荷需求量、与上级电网交互功率、各支路流过电流以及所处时刻为特征构建多智能体模型中子智能体的状态空间；以支路开关通断状态为动作空间；奖励函数综合考虑配电网运行网损、开关通断损耗、电压偏移指数等；状态转移函数考虑光伏电源出力带来的随机性。

第二阶段中，基于深度确定性策略梯度算法，在状态空间中考虑各节点功率、支路电流、所处时刻以及一阶段模型的输出动作；动作空间仅考虑光伏出力和弃负荷量；奖励函数考虑配电网运行网损、弃光弃负荷量、电压均衡度等，对配电网运行中连续变量进行优化。

其中，如图2所示，基于带变换的值函数分解算法的配电网重构模型由一阶段配电网运行状态精确感知模块、重构方案决策模块、一阶段经验池模块、联络开关动作模块、第一信息交互模块组成；一阶段配电网运行状态精确感知模块用于实时感知配电网运行中的与上级电网交互功率、各光伏电源并网功率、负荷需求功率、各支路电流以及所处时刻；重构方案决策模块用于根据系统实时感知到的配电网运行状态，直接对配电网拓扑进行优化，自适应输出配电网重构拓扑；一阶段经验池模块用于储存一阶段配电网历史运行状态、模型历史动作以及对应的奖励值；联络开关动作模块用于根据重构方案远程控制开关进行通断；第一信息交互模块用于配电网重构结果给基于深度确定性策略梯度算法的配电网运行优化模型；

其中，如图3所示，基于深度确定性策略梯度算法的配电网运行优化模型由第二信息交互模块、二阶段配电网运行状态精确感知模块、二阶段经验池模块、光伏电源并网量决策模块、削减负荷量决策模块组成；第二信息交互模块用于接收基于带变换的值函数分解模型的配电网重构模型的重构方案；二阶段配电网运行状态精确感知模块用于实时感知配电网运行中的与上级电网交互功率、各光伏电源并网功率、负荷需求功率、各支路电流、所处时刻以及基于带变换的值函数分解模型的输出动作；二阶段经验池模块用于存储二阶段配电网历史运行环境、配电网运行优化模型相应的决策动作以及决策后所得奖励值；光伏电源并网量决策模块用于根据配电网运行优化模型决定当前状态下的光伏电源并网量；削减负荷量决策模块，用于根据配电网运行优化模型决定当前状态下的削减负荷量。

基于带变换的值函数分解算法的配电网重构模型中，

所述子智能体状态空间：

式中：o_n,t表示单智能体n在t时刻对配电网环境的观测值；表示节点i在t时刻与上级电网的交互量；节点i在t时刻的光伏电源发电量；表示节点i在t时刻的负荷需求量；t'表示所处时刻t的标幺值。

所述子智能体动作空间：

式中：表示子智能体n的动作空间；w_ij表示支路ij的通断状态。

所述带变换的值函数分解模型的联合状态空间:

所述带变换的值函数分解模型的联合动作空间:

式中：表示所有单智能体的动作集合。

所述带变换的值函数分解模型的奖励函数:

式中：表示配电网重构阶段针对带变换的值函数分解模型的配电网经济运行指标；表示的取反；c^loss表示配电网运行单位有功网损电价；r_ij表示支路ij的电阻；分别表示改变馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态时的单次操作成本，其中馈线联络开关表示联系两条所属同一变电站同一变压器的馈线的开关、变压器联络开关表示联系两条所属同一变电站不同变压器的馈线的开关、变电站联系开关表示联系两条所属不同变电站的馈线的开关、支路分段开关表示馈线支路中默认闭合状态的开关；为了抑制潮流大范围转移，分别表示重构区域中馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态的标志，0表示断开，1表示闭合；电压偏移指数；表示V_i ^N和V_i,t分别为节点i的电压额定值和t时段实际值；表示负荷均衡度；R_i,t表示t时段节点i的负载率；表示配电网t时段平均负载率；P_i,t为节点i在t时段注入的有功功率；P_i ^max为节点i最大允许注入有功功率；N表示配电网节点数；表示潮流越限惩罚；表示辐射性与连通性惩罚，若智能体输出拓扑不满足约束，则对智能体施加惩罚；λ^t表示步数奖励；c^r表示正向奖励偏置，起到智能体执行满足约束的动作时时奖励值大于0的作用；c表示最大惩罚。

所述带变换的值函数分解模型的状态转移函数:

s_t+1＝f(s_t,a_t,ρ)

所述辐射性判据：

式中：N^B表示配电网节点个数；N^Sub表示配电网中变电站个数；E^Always表示支路中没有开关一直处于连通状态的支路。

所述连通性判据：

根据配电网拓扑建立一个n×n的连通矩阵T，用T(i,j)表示节点i和节点j之间是否存在电气连接，同时还要满足i＜j。如果节点i和节点j之间存在电气连接则T(i,j)＝1；否则T(i,j)＝0，而矩阵中对角元素为该元素所在行列之和。通过追溯每个节点的最终父节点是否为电源节点来判断该节点是否为孤点或处于孤岛之中。

基于深度确定性策略梯度算法的配电网运行优化模型中：

所述深度确定性策略梯度算法的状态空间为：

所述基于深度确定性策略梯度算法的动作空间为:

所述基于深度确定性策略梯度算法的奖励函数为:

式中：表示第二阶段深度确定性策略梯度算法的配电网经济性运行奖励；由于模型同样是以奖励最大为目标，表示的取反；表示削减负荷成本；表示弃光成本；。

算例验证分析：

采用修改后的实际148节点系统对所提方法进行验证，基于24时段数据使用本发明所提模型对系统进行优化验证。

如图4所示，算例采用基于多智能体强化学习的城市配电网两阶段动态重构优化运行方法对配电网运行进行优化，为每个开关分配一个智能体，而深度确定性策略梯度模型负责对弃光与弃负荷变量进行优化，其奖励值在训练180 000轮次后就达到了最大值附近，从奖励走势可以看出，其奖励值在150 000轮次后大于0，说明集中训练分布执行的策略不仅能够使智能体自行决策拓扑，并且决策的拓扑能够满足配电网辐射性与连通性的约束。同时，虽然其奖励值在不断振荡，但是优化效果在不断提升，最后并趋于稳定，并且超过了原始拓扑的奖励值，验证了本文多智能体优化模型的有效性。

本发明考虑城市配电网运行经济性与安全性需求以及快速决策需要，重点研究基于多智能体强化学习算法的城市配电网两阶段动态重构优化运行方法。首先基于带变换的值函数分解多智能体深度强化学习模型，为每个开关分配一个智能体以实现重构拓扑的自适应输出。随后在智能体执行探索过程中，考虑配电网辐射性与连通性，仅输出满足配电网重构拓扑约束的动作。最后基于深度确定性策略梯度算法，在状态空间中考虑各节点功率、支路电流、所处时刻以及一阶段模型的输出动作；动作空间仅考虑光伏出力和弃负荷量；奖励函数考虑配电网运行网损、弃光弃负荷量、电压均衡度等，对配电网运行中连续变量进行优化。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于多智能体强化学习的配电网两阶段动态重构运行方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，其特征在于，所述的多智能体模型中子智能体的联合状态空间为：

子智能体状态空间：

子智能体动作空间：

带变换的值函数分解模型的联合状态空间：

3.根据权利要求2所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，其特征在于，所述的带变换的值函数分解模型的联合动作空间为：

带变换的值函数分解模型的联合动作空间:

式中：表示所有单智能体的动作集合。

带变换的值函数分解模型的奖励函数:

式中：表示配电网重构阶段针对带变换的值函数分解模型的配电网经济运行指标；r_t ^e,QTRAN表示的取反；c^loss表示配电网运行单位有功网损电价；r_ij表示支路ij的电阻；分别表示改变馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态时的单次操作成本，其中馈线联络开关表示联系两条所属同一变电站同一变压器的馈线的开关、变压器联络开关表示联系两条所属同一变电站不同变压器的馈线的开关、变电站联系开关表示联系两条所属不同变电站的馈线的开关、支路分段开关表示馈线支路中默认闭合状态的开关；为了抑制潮流大范围转移，分别表示重构区域中馈线联络开关、变压器联络开关、变电站联络开关以及支路分段开关通断状态的标志，0表示断开，1表示闭合；电压偏移指数；表示V_i ^N和V_i,t分别为节点i的电压额定值和t时段实际值；表示负荷均衡度；R_i,t表示t时段节点i的负载率；表示配电网t时段平均负载率；P_i,t为节点i在t时段注入的有功功率；P_i ^max为节点i最大允许注入有功功率；N表示配电网节点数；表示潮流越限惩罚；表示辐射性与连通性惩罚，若智能体输出拓扑不满足约束，则对智能体施加惩罚；λ^t表示步数奖励；c^r表示正向奖励偏置，起到智能体执行满足约束的动作时时奖励值大于0的作用；c表示最大惩罚；

带变换的值函数分解模型的状态转移函数:

s_t+1＝f(s_t,a_t,ρ)

4.根据权利要求3所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，其特征在于，所述的辐射性为：

连通性为：

5.根据权利要求4所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，其特征在于，所述的对配电网运行中连续变量进行优化，包括：

6.基于多智能体强化学习的配电网两阶段动态重构运行系统，其特征在于，应用权利要求1-5任一所述的基于多智能体强化学习的配电网两阶段动态重构运行方法，基于带变换的值函数分解模型的配电网重构模型和基于深度确定性策略梯度算法的配电网运行优化模型；