CN113780622B

CN113780622B - 基于多智能体强化学习的多微网配电系统分布式调度方法

Info

Publication number: CN113780622B
Application number: CN202110892549.6A
Authority: CN
Inventors: 李捷; 潘振宁; 余涛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2024-03-12
Anticipated expiration: 2041-08-04
Also published as: CN113780622A

Abstract

本发明公开了基于多智能体强化学习的多微网配电系统分布式调度方法，属于电力系统经济调度领域。包括以下步骤：步骤1、建立配网和微网的动态经济调度优化模型；步骤2、将调度优化问题转化为多智能体强化学习问题；步骤3、通过解析的方法，分别将配网和微网的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数；步骤4、将配网和微网的调度目标最优值对应边界功率的函数嵌入强化学习中，使各智能体策略配合实现分布式自主学习。该方法目的在于仅传递边界变量及函数，实现考虑随机性的配网和多微网的分布式自主学习，在保护各主体隐私的前提下使得全社会福利的最大化。

Description

基于多智能体强化学习的多微网配电系统分布式调度方法

技术领域

本发明属于电力系统经济调度领域，尤其涉及基于多智能体强化学习的多微网配电系统分布式调度方法。

背景技术

分布式可再生能源的高渗透下，多微网成为电力系统未来的发展趋势。然而，可再生能源的间歇性和随机性给配网和多微网间的经济调度带来了巨大的挑战。另一方面，配网和各微网属于不同的主体，协调不同主体间的经济调度的前提是保证各主体的隐私，集中式算法不再适用。因此，研究配网和多微网的分布式学习方法，对于充分利用各类能源的灵活性具有重大的意义。中国公开专利申请“一种基于分布式机器学习的智能电网实时经济调度方法(CN111242436A)”中公开了基于分布式学习的调度方法，但该方法仍需要将不同主体的信息集中起来进行训练，不能满足隐私性等需求。应用较广泛的分布式算法如交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)等在分布式优化上能取得较好的效果，但在分布式学习上，每进行一次学习，需要先多次迭代求取最优策略，耗费时间过多，且两个以上的算子的问题不能保证算法的收敛性。因此，需要研究新的适用于配网和多微网的分布式学习算法。

发明内容

本发明提供了基于多智能体强化学习的多微网配电系统分布式调度方法，目的在于仅传递边界变量及函数，实现配网和多微网的分布式自主学习。

本发明的目的至少通过如下技术方案之一实现。

本发明提供的基于多智能体强化学习的多微网配电系统分布式调度方法，包括以下步骤：

S1、建立配网和微网的动态经济调度优化模型；

S2、将调度优化问题转化为多智能体强化学习问题；

S3、通过解析的方法，分别将配网和微网的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数；

S4、嵌入强化学习中，使各智能体策略配合实现全局最优、只需传递边界参数的分布式自主学习。

进一步地，所述建立配网和微网的动态经济调度优化模型，包括配网的运行约束、微网的运行约束以及总成本最小化的目标函数。

其中，配网的潮流约束如下：

式中，i、j均为节点编号，P_ij、Q_ij、r_ij和x_ij分别为节点ij间的有功传输功率、无功传输功率、电阻和电抗，P_i、Q_i分别为节点i的有功功率、无功功率；NB为支路数；P_ij,max和-P_ij,max分别为节点ij间的最大和最小有功传输功率；V_i,max和V_i,min分别为节点i的最大和最小电压；δ_i(t)、V_i(t)分别为t时刻节点i的电压和相角，δ_j(t)、V_j(t)分别为t时刻节点j的电压和相角。

配网的发电机出力约束：

其中，为配网中的发电机在t+1时刻中发出的有功功率；/>和/>分别为配网发电机的上升速率限制和下降速率限制，P^G,max和P^G,min分别为发电机输出功率的上限和下限。

除了与外部大电网相连的节点，配电网内其它节点(包括与微网相连的节点)在t时刻的节点注入功率P_i,t如下：

式中，为t时刻节点i上的发电机的有功和无功出力；/>为t时刻配网向节点i上的连接的微电网传输的边界功率，该值为正表示配网向微网卖出功率，该值为负表示配网向微网买入功率；/>为t时刻节点i上的常规有功负荷。

建立微网的调度优化模型，假设微网包括储能，分布式电源，则微网的运行约束如下：

其中，储能约束如下：

储能充电放电不能同时进行，需满足以下约束：

式中：为t时刻储能的功率；/>为放电功率；/>为充电功率；/>为t时刻储能的电量；/>分别为功率和能量的上下限约束，η为充放电效率。

分布式电源中微燃机的运行约束与配网的发电机一样，包括爬坡约束与功率上下限约束：

其中，为微燃机在t+1时刻中发出的有功功率；v_up和v_dowm分别为微燃机的向上最大爬坡速率和向下最大爬坡速率，P^DG,max和P^DG,min分别为微燃机输出功率的上限和下限；

分布式电源中光伏发电和风机约束如下：

其中，P_t ^PV和P_t ^W分别为光伏和风机在t时刻发出的有功功率；P_t ^PV，max和P_t ^W，max分别为光伏和风机在t时刻发出的最大功率；

微电网与配电网之间传输的功率约束如下：

其中，P_t ^buy和P_t ^sell分别为微网在t时刻向上层电网买电和卖电的功率；为t时刻配网向连接的微电网传输的功率；P_t ^buy，max和P_t ^sell，max分别为微网在t时刻向上层电网买电和卖电的功率最大值，其中，P_t ^sell，max为负值；

微网的功率平衡约束如下：

式中，P_t ^CON为t时刻微网的常规负荷。

构建总成本最小、实现社会福利最大化的目标函数F，即

其中，F^DNO、F^MGO k分别是配电网和第k个微电网的运行成本，皆为二次函数；k指第k个微电网；x^DNO、x^MGO,k分别是配电网和第k个微电网的决策变量。

进一步地，步骤S2所述将调度优化问题转化为多智能体强化学习问题中，首先，在随机优化中，配网和多微网的动态经济调度的目标是考虑各类资源的随机性下，通过实时调度决策，使得调度周期内的总成本最小，即将实时调度描述成一个多阶段随机序贯决策问题：

其中，x_t表示决策变量，χ_t表示可行域，E()表示取期望值运算，F_t表示t时刻的调度收益，M表示调度周期；

即根据贝尔曼的最优性原理，可将多时段的优化决策问题转化成递推问题，将式(10)转化成：

其中，S_t为配网和多微网t时刻所处的状态，F(S_t,x_t)为配网和多微网在S_t状态时作了决策x_t后产生的实时运行成本，V_t(S_t)为配网和多微网在S_t状态的值函数，V_t+1(S_t+1|S_t,x_t,W_t)为配网和多微网在S_t状态的前提下，做出决策x_t、接收外源信息W_t后t+1时刻的值函数，值函数的意义为后续状态对当前状态的影响；

由于在实际的电力系统中，配网和多微网分别属于不同的主体，如果将整个系统的值函数(10)进行训练，保证不了主体间的隐私需求，因此配网和各微网需要单独对自己的值函数进行训练，即

其中，DNO表示配网，为配网t时刻所处的状态；F_t ^DNO为配网在/>状态时作了决策/>后产生的实时运行成本，决策/>即配网各发电单元的出力、传输到各微网的功率；/>为配网在/>状态的值函数，/>为配网在/>状态的前提下，做出决策/>接收外源信息W_t ^DNO后t+1时刻的值函数，外源信息W_t ^DNO即配网中的各种预测信息；MGO表示微网，k表示第k个微网，/>为第k个微网t时刻所处的状态；/>为第k个微网在/>状态时作了决策/>后产生的实时运行成本，/>为第k个微网在/>状态的值函数，/>为第k个微网在/>状态的前提下，做出决/>接收外源信息/>后t+1时刻的值函数。

利用分段线性函数法拟合式(12)和(13)中的值函数，即

β代表段数，表示配网值函数第/>段的斜率，/>为每段线性凸函数的资源量；/>表示第k个微网值函数第/>段的斜率，/>为每段线性凸函数的资源量,ξ表示折算因子。

进一步地，步骤S3所述通过解析的方法，将配网和微网各自的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数中，解析的方法即根据多参数规划理论中的最优分割对配网向连接的k个微电网传输的边界功率Pb^MGO＝[Pb^MGO,1,Pb^MGO,2,Pb^MGO ^,3,…,Pb^MGO,k]进行快速分区，在每个分区内，配网和微网各自的调度目标最优值与传输的边界功率存在唯一对应关系。首先，配网的模型(1)～(3)、(14)可以重构为

其中P^DNO为配网中除了传输功率外的决策变量，即配网各发电单元的出力、潮流等；其中V^DNO为目标函数关于Pb^MGO的表示符号；C^DNO为目标函数关于P^DNO的表示符号；Q^DNO为P^DNO的二次系数矩阵，f^DNO为P^DNO的一次系数矩阵，r^DNO为配网目标函数的常数项。G^DNO、W^DNO和S^DNO均为形成配网运行约束的矩阵。

微网的模型(4)～(8)、(15)可以重构为

其中P^MGO,k为第k个微网中除了边界功率Pb^MGO,k外的决策变量，即微网中分布式电源、储能等的出力；其中V^MGO,k为目标函数关于Pb^MGO,k的表示符号；C^MGO,k为目标函数关于P^MGO,k的表示符号；Q^MGO,k为P^MGO,k的二次系数矩阵，f^MGO,k为P^MGO,k的一次系数矩阵，r^MGO,k为微网目标函数的常数项，G^MGO,k、W^MGO,k和S^MGO,k分别为形成微网运行约束的矩阵；Pb^MGO,k为配网与第k个微网交互的边界功率。

给定边界功率Pb^MGO形成的多面体内的任意值Pb^MGO﹡，则公式(16)可以求得最优解，此时公式(16)中的约束分有效约束(18)和无效约束(19)，

配网运行约束矩阵中有效约束形成的矩阵；/>W_I ^DNO、/>配网运行约束矩阵中无效约束形成的矩阵；其中A表示有效约束的下标，I表示无效约束的下标，根据多参数规划理论的最优分割理论，参数Pb^MGO形成的多面体可分割成有限的临界区域CR₁，CR₂，……CR_N，在同一个临界区域内，有效约束和无效约束的类型及个数相同；

其中，在某一分区内，移除无效约束，则问题(16)的拉格朗日函数可以被写成

其中λ为有效约束(18)的拉格朗日乘子。使用一阶KKT条件可得

即

代入有效约束(18)中即得

即

由于在同一分区内，有效约束和无效约束的类型相同，上述推导不会改变，如此便将拉格朗日乘子λ表示成边界功率Pb^MGO的函数，将(24)代入(22)中，可得P^DNO与边界功率Pb^MGO的映射关系，再代入式(16)中的目标函数，进而可得V^DNO与Pb^MGO的映射关系。遍历所有的分区，则可得到每一分区对应的映射关系，即

是常数矩阵，/>是常数向量，/> 是常量，数值皆由P^DNO与边界功率Pb^MGO的映射关系代入式(16)中推导而得。

微网的推理模型同理，不再赘述，即将第k个微网中的边界功率Pb^MGO,k分区之后，可得到V^MGO,k关于Pb^MGO,k的映射关系：

是常数矩阵，/>是常数向量，/>是常量，数值皆由前述推导而得。

步骤4具体包括以下步骤：

S4.1、初始化配网和多微网为第n次迭代中的近似值函数，直接各值函数的分段斜率为0；生成n个训练样本TS¹,TS²,…,TSⁿ；令迭代次数g＝1；

S4.2、从t＝1,…,M,进行前推计算；

S4.3、令t＝1；

S4.4、根据最新的配网、微网等信息，各微网根据式(26)更新分区及映射函数。微网向配网传递CR及CR对应的函数，配网通过式(27)进行求解

得到配网各决策变量的最优决策，及各配网与多微网间的边界功率Pb^MGO,1,Pb^MGO ^,2,Pb^MGO,3,…,Pb^MGO,k，并将边界功率传递给各微网。

S4.5、各微网根据边界功率映射得到决策变量的最优值。

S4.6、对配网的状态施加正负扰动，根据式(27)得到配网和多微网的最优解，并计算正负边际效益值。对每个微网的状态施加正负扰动，再次执行步骤4.4和4.5得到配网和多微网的最优解，并计算正负边际效益值。令t＝t+1，若t≤M，返回步骤4.4。若t>M，循环终止。

S4.7、根据正负边际效益值，配网和各微网利用凹自适应值估计法(concaveadaptive value estimation algorithm，CAVE)分别进行值函数的更新。令g＝g+1，若g≤n，返回步骤4.2。若g>n，迭代停止，得到收敛的值函数。

与现有技术相比，本发明能够实现的有益效果至少如下：

本发明在建立配网和微网的动态经济调度优化模型并将调度优化问题转化为多智能体强化学习问题后，分别将配网和微网的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数，并嵌入强化学习中，能够仅传递边界变量及函数，实现考虑随机性的配网和多微网的分布式自主学习，同时满足分布性与智能性，在保护各主体隐私的前提下使得全社会福利的最大化。

附图说明

图1为一种基于多智能体强化学习的配网和多微网分布式随机实时调度方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面将结合实施例以及附图，对本发明的具体实施进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种基于多智能体强化学习的配网和多微网分布式随机实时调度方法，如图1所示，包括以下步骤：

步骤1、建立配网和微网的动态经济调度优化模型；

步骤2、将调度优化问题转化为多智能体强化学习问题；

步骤3、通过解析的方法，将配网和微网各自的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数；

步骤4、嵌入强化学习中，使各智能体策略配合实现全局最优、只需传递边界参数的分布式自主学习。

在本发明其中一个实施例中，步骤1中的建立配网和微网的动态经济调度优化模型，包括配网的运行约束、微网的运行约束以及总成本最小化的目标函数。

其中，配网的运行约束包括配网的潮流约束和配网的发电机出力约束，

配网的潮流约束如下：

式中，i、j均为节点编号，P_ij、Q_ij、r_ij和x_ij分别为节点i、j间的有功传输功率、无功传输功率、电阻和电抗，P_i、Q_i分别为节点i的有功功率、无功功率；NB为支路数；P_ij,max和-P_ij,max分别为节点i、j间的最大和最小有功传输功率；V_i,max和V_i,min分别为节点i的最大和最小电压；δ_i(t)、V_i(t)分别为t时刻节点i的电压和相角，δ_j(t)、V_j(t)分别为t时刻节点j的电压和相角。

配网的发电机出力约束：

其中，为配网中的发电机在t+1时刻中发出的有功功率，P_t ^G为配网中的发电机在t时刻中发出的有功功率；/>和/>分别为配网发电机的上升速率限制和下降速率限制，P^G,max和P^G,min分别为发电机输出功率的上限和下限。

除了与外部大电网相连的节点，配电网内其它节点(包括与微网相连的节点)在t时刻的节点注入功率如下：

式中，为t时刻节点i上的发电机的有功和无功出力；/>为t时刻配网向节点i上的连接的微电网传输的边界功率，该值为正表示配网向微网卖出功率，该值为负表示配网向微网买入功率；/>为t时刻节点i上的常规有功负荷；

在本发明其中一个实施例中，建立微网的调度优化模型，假设微网包括储能和分布式电源，则微网的运行约束如下：

其中，储能约束如下：

储能充电放电不能同时进行，需满足以下约束：

分布式电源中光伏发电和风机约束如下：

其中，P_t ^PV和P_t ^W分别为光伏和风机在t时刻发出的有功功率；P_t ^PV，max和P_t ^W，max分别为光伏和风机在t时刻发出的最大功率。

微电网与配电网之间传输的功率约束如下：

其中，P_t ^buy和P_t ^sell分别为微网在t时刻向上层电网买电和卖电的功率；为t时刻配网向连接的微电网传输的功率；P_t ^buy，max和P_t ^sell，max分别为微网在t时刻向上层电网买电和卖电的功率最大值，其中，P_t ^sell，max为负值。

微网的功率平衡约束如下：

式中，P_t ^CON为t时刻微网的常规负荷。

构建总成本最小、实现社会福利最大化的目标函数F，即

其中，F^DNO、分别是配电网和第k个微电网的运行成本，皆为二次函数；k指第k个微电网；x^DNO、x^MGO,k分别是配电网和第k个微电网的决策变量。MGOs代表所有微电网的集合。

在本发明其中一个实施例中，步骤2包括以下步骤，将调度优化问题转化为多智能体强化学习问题。首先，在随机优化中，配网和多微网的动态经济调度的目标是考虑各类资源的随机性下，通过实时调度决策，使得调度周期内的总成本最小，即将实时调度描述成一个多阶段随机序贯决策问题：

其中，V_t(S_t)为配网和多微网在S_t状态的值函数，S_t为配网和多微网t时刻所处的状态，F(S_t,x_t)为配网和多微网在S_t状态时作了决策x_t后产生的实时运行成本，V_t+1(S_t+1|S_t,x_t,W_t)为配网和多微网在S_t状态的前提下，做出决策x_t、接收外源信息W_t后t+1时刻的值函数，值函数的意义为后续状态对当前状态的影响；

其中，DNO表示配网，为配网t时刻所处的状态；F_t ^DNO为配网在/>状态时作了决策/>后产生的实时运行成本，决策/>即配网各发电单元的出力、传输到各微网的功率；/>为配网在/>状态的值函数，/>为配网在/>状态的前提下，做出决策/>接收外源信息W_t ^DNO后t+1时刻的值函数，外源信息W_t ^DNO即配网中的各种预测信息；/>为第k个微网在/>状态的值函数，MGO表示微网，k表示第k个微网，/>为第k个微网t时刻所处的状态；/>为第k个微网在/>状态时作了决策/>后产生的实时运行成本，/>为第k个微网在/>状态的前提下，做出决/>接收外源信息/>后t+1时刻的值函数；

利用分段线性函数法拟合式(12)和(13)中的值函数，即

在本发明其中一个实施例中，所述步骤3中，通过解析的方法，将配网和微网各自的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数，解析的方法即根据多参数规划理论中的最优分割对配网向连接的k个微电网传输的边界功率Pb^MGO＝[Pb^MGO ^,1,Pb^MGO,2,Pb^MGO,3,…,Pb^MGO,k]进行快速分区，在每个分区内，配网和微网各自的调度目标最优值与传输的边界功率存在唯一对应关系。首先，配网的模型(1)～(3)、(14)可以重构为

其中P^DNO为配网中除了传输功率外的决策变量，即配网各发电单元的出力、潮流；其中V^DNO为目标函数关于Pb^MGO的表示符号；C^DNO为目标函数关于P^DNO的表示符号；Q^DNO为P^DNO的二次系数矩阵，f^DNO为P^DNO的一次系数矩阵，r^DNO为配网目标函数的常数项。G^DNO、W^DNO和S^DNO分别为形成约束(1)～(3)的矩阵。

微网的模型(4)～(8)、(15)可以重构为

其中P^MGO,k为第k个微网中除了边界功率Pb^MGO,k外的决策变量，即微网中分布式电源、储能等的出力；其中V^MGO,k为目标函数关于Pb^MGO,k的表示符号；C^MGO,k为目标函数关于P^MGO,k的表示符号；Q^MGO,k为P^MGO,k的二次系数矩阵，f^MGO,k为P^MGO,k的一次系数矩阵，r^MGO,k为微网目标函数的常数项。G^MGO,k、W^MGO,k和S^MGO,k为形成微网运行约束的矩阵；Pb^MGO,k为配网与第k个微网交互的边界功率。

下文以配网的模型为例，描述配网目标函数与边界功率的映射关系，微网同理。

给定边界功率Pb^MGO形成的多面体内的任意值Pb^MGO﹡，则问题(16)可以求得最优解，此时(16)中的约束可以分有效约束(18)和无效约束(19)，

/>

配网运行约束矩阵中有效约束形成的矩阵；/>W_I ^DNO、/>配网运行约束矩阵中无效约束形成的矩阵；其中A表示有效约束的下标，I表示无效约束的下标。根据多参数规划理论的最优分割理论，参数Pb^MGO形成的多面体可分割成有限的临界区域CR₁，CR₂，……CR_N。在同一个临界区域内，有效约束和无效约束的类型及个数相同。

在本发明其中一个实施例中，在某一分区内，移除无效约束，则问题(16)的拉格朗日函数可以被写成

其中λ为有效约束(18)的拉格朗日乘子。使用一阶KKT条件可得

即

代入有效约束(18)中即得

即

将第k个微网中的边界功率Pb^MGO,k分区之后，得到V^MGO,k关于Pb^MGO,k的映射关系：

在本发明其中一个实施例中，步骤4中，将配网和微网各自的调度目标最优值对应边界功率的函数嵌入强化学习中，使各智能体策略配合实现全局最优、只需传递边界参数的分布式自主学习。

步骤S4具体包括以下步骤：

S4.2、从t＝1,…,M,进行前推计算；

S4.3、令t＝1；

S4.4、根据最新的配网、微网信息，各微网根据式(26)更新分区及映射函数。微网向配网传递CR及CR对应的函数，配网通过式(27)进行求解

S4.5、各微网根据边界功率映射得到决策变量的最优值。

本发明实施例提供的方法该方法仅传递边界变量及函数，可以实现考虑随机性的配网和多微网的分布式自主学习，在保护各主体隐私的前提下使得全社会福利的最大化。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于多智能体强化学习的多微网配电系统分布式调度方法，其特征在于，包括以下步骤：

建立配网和微网的动态经济调度优化模型；

将调度优化问题转化为多智能体强化学习问题；

通过解析的方法，分别将配网和微网的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数；

将所述分段二次函数嵌入强化学习中，使各智能体策略配合实现分布式自主学习；

建立配网和微网的动态经济调度优化模型中，所述动态经济调度优化模型包括配网的运行约束、微网的运行约束以及总成本最小化的目标函数；

构建总成本最小、实现社会福利最大化的目标函数F，即

其中，F^DNO、F_k ^MGO分别是配电网和第k个微电网的运行成本，皆为二次函数；k指第k个微电网；x^DNO、x^MGO,k分别是配电网和第k个微电网的决策变量，MGOs代表所有微电网的集合；

所述通过解析的方法，将配网和微网各自的调度目标最优值在不同的区域内映射成对应边界功率的分段二次函数中，解析的方法即根据多参数规划理论中的最优分割对配网向连接的k个微电网传输的边界功率Pb^MGO＝[Pb^MGO,1,Pb^MGO,2,Pb^MGO,3,…,Pb^MGO,k]进行分区，在每个分区内，配网和微网各自的调度目标最优值与传输的边界功率存在唯一对应关系，首先，将配网的模型重构为

其中，V^DNO为目标函数关于Pb^MGO的表示符号；C^DNO为目标函数关于P^DNO的表示符号；P^DNO为配网中除了传输功率外的决策变量，即配网各发电单元的出力和潮流；Q^DNO为P^DNO的二次系数矩阵，f^DNO为P^DNO的一次系数矩阵，r^DNO为配网目标函数的常数项，G^DNO、W^DNO和S^DNO分别为形成配网运行约束的矩阵；

将微网的模型重构为

其中，V^MGO,k为目标函数关于Pb^MGO,k的表示符号；Pb^MGO,k为配网与第k个微网交互的边界功率，C^MGO,k为目标函数关于P^MGO,k的表示符号；P^MGO,k为第k个微网中除了边界功率Pb^MGO,k外的决策变量，即微网中分布式电源和储能的出力；Q^MGO,k为P^MGO,k的二次系数矩阵，f^MGO,k为P^MGO,k的一次系数矩阵，r^MGO,k为微网目标函数的常数项，G^MGO,k、W^MGO,k和S^MGO,k均为形成微网运行约束的矩阵；T表示矩阵的转置；

给定边界功率Pb^MGO形成的多面体内的任意值Pb^MGO*，则公式(16)求得最优解，此时公式(16)中的约束分有效约束(18)和无效约束(19)，

为配网运行约束矩阵中有效约束形成的矩阵；/> 配网运行约束矩阵中无效约束形成的矩阵；其中A表示有效约束的下标，I表示无效约束的下标，根据多参数规划理论的最优分割理论，参数Pb^MGO形成的多面体可分割成有限的临界区域CR₁，CR₂，……CR_N，在同一个临界区域内，有效约束和无效约束的类型及个数相同；

其中，在某一分区内，移除无效约束，则公式(16)的拉格朗日函数被写成

其中λ为有效约束(18)的拉格朗日乘子，使用一阶KKT条件得

即

代入有效约束(18)中即得

即

由于在同一分区内，有效约束和无效约束的类型相同，上述推导不会改变，如此便将拉格朗日乘子λ表示成边界功率Pb^MGO的函数，将公式(24)代入公式(22)中，得P^DNO与边界功率Pb^MGO的映射关系，再代入式(16)中的目标函数，进而得V^DNO与Pb^MGO的映射关系，遍历所有的分区，则得到每一分区对应的映射关系，即

是常数矩阵，/>是常数向量，/> 是常量；

是常数矩阵，/>是常数向量，是常量；

其中，将分段二次函数嵌入强化学习中，使各智能体策略配合实现全局最优、只需传递边界参数的分布式自主学习，包括：

S4.1、初始化配网和多微网为第n次迭代中的近似值函数，设置各近似值函数的分段斜率为0；生成n个训练样本TS¹,TS²,…,TSⁿ；令迭代次数g＝1；

S4.2、从t＝1,…M,进行前推计算；

S4.3、令t＝1；

S4.4、根据最新的配网、微网信息，各微网根据式(26)更新分区及映射函数，微网向配网传递区域CR及区域CR对应的函数，配网通过式(27)进行求解

V为成本最小化的目标函数，为配网在/>状态的值函数，V^MGO,k为第k个微网目标函数关于Pb^MGO,k的表示符号；

得到配网各决策变量的最优决策，及各配网与多微网间的边界功率Pb^MGO,1,Pb^MGO,2,Pb^MGO,3,…,Pb^MGO,k，并将边界功率传递给各微网；

S4.5、各微网根据边界功率映射得到决策变量的最优值；

S4.6、对配网的状态施加正负扰动，根据式(27)得到配网和多微网的最优解，并计算正负边际效益值，对每个微网的状态施加正负扰动，再次执行S4.4和S4.5得到配网和多微网的最优解，并计算正负边际效益值；令t＝t+1，若t≤M，返回S4.4，若t>M，循环终止；

S4.7、根据正负边际效益值，配网和各微网分别进行值函数的更新，令g＝g+1，若g≤n，返回S4.2，若g>n，迭代停止，得到收敛的值函数。

2.根据权利要求1所述的基于多智能体强化学习的多微网配电系统分布式调度方法，其特征在于，所述配网的运行约束包括配网的潮流约束、配网的发电机出力约束；

其中，配网的潮流约束如下：

式中，i、j均为节点编号，P_ij、Q_ij、r_ij和x_ij分别为节点ij间的有功传输功率、无功传输功率、电阻和电抗，P_i、Q_i分别为节点i的有功功率、无功功率；NB为支路数；P_ij,max和-P_ij,max分别为节点ij间的最大和最小有功传输功率；V_i,max和V_i,min分别为节点i的最大和最小电压；δ_i(t)、V_i(t)分别为t时刻节点i的电压和相角，δ_j(t)、V_j(t)分别为t时刻节点j的电压和相角；

配网的发电机出力约束：

其中，为配网中的发电机在t+1时刻中发出的有功功率，P_t ^G为配网中的发电机在t时刻中发出的有功功率；/>和/>分别为配网发电机的上升速率限制和下降速率限制，P^G ^,max和P^G,min分别为发电机输出功率的上限和下限；

除了与外部大电网相连的节点，配电网内其它节点在t时刻的节点注入功率P_i,t如下：

3.根据权利要求1所述的基于多智能体强化学习的多微网配电系统分布式调度方法，其特征在于，所述建立微网的调度优化模型中，假设微网包括储能和分布式电源，则微网的运行约束如下：

其中，储能约束如下：

储能充电放电不能同时进行，需满足以下约束：

式中：为t时刻储能的功率；/>为放电功率；P_i ^-为充电功率；/>为t时刻储能的电量；/>分别为功率和能量的上下限约束，η为充放电效率；

分布式电源中微燃机的运行约束包括爬坡约束与功率上下限约束：

其中，P_t ^DG为微燃机在t时刻中发出的有功功率；为微燃机在t+1时刻中发出的有功功率；v_up和v_dowm分别为微燃机的向上最大爬坡速率和向下最大爬坡速率，P^DG,max和P^DG,min分别为微燃机输出功率的上限和下限；

分布式电源中光伏发电和风机约束如下：

微电网与配电网之间传输的功率约束如下：

其中，P_t ^buy和P_t ^sell分别为微网在t时刻向上层电网买电和卖电的功率；Pb_t ^MGO为t时刻配网向连接的微电网传输的功率；P_t ^buy，max和P_t ^sell，max分别为微网在t时刻向上层电网买电和卖电的功率最大值，其中，P_t ^sell，max为负值；

微网的功率平衡约束如下：

Pb_t ^MGO+P_t ^W+P_t ^PV+P_t ^DG+P_t ^ESS＝P_t ^CON (8)

式中，P_t ^CON为t时刻微网的常规负荷。

4.根据权利要求1所述的基于多智能体强化学习的多微网配电系统分布式调度方法，其特征在于，所述将调度优化问题转化为多智能体强化学习问题中，首先，在随机优化中，配网和多微网的动态经济调度的目标是考虑各类资源的随机性下，通过实时调度决策，使得调度周期内的总成本最小，即将实时调度描述成一个多阶段随机序贯决策问题：

其中，x_t表示决策变量，χ_t表示可行域，E[]表示取期望值运算，F_t表示t时刻的调度收益，M表示调度周期；

根据贝尔曼的最优性原理，将多时段的优化决策问题转化成递推问题，将式(10)转化成：

其中，V_t(S_t)为配网和多微网在S_t状态的值函数，S_t为配网和多微网t时刻所处的状态，F(S_t,x_t)为配网和多微网在S_t状态时作了决策x_t后产生的实时运行成本，ξ表示表示折算因子，V_t+1(S_t+1|S_t,x_t,W_t)为配网和多微网在S_t状态的前提下，做出决策x_t、接收外源信息W_t后t+1时刻的值函数；

配网和各微网单独对自己的值函数进行训练，即

其中，为配网在S_t ^DNO状态的值函数，DNO表示配网，/>为配网t时刻所处的状态；F_t ^DNO为配网在/>状态时作了决策/>后产生的实时运行成本，决策/>即配网各发电单元的出力和传输到各微网的功率；/>为配网在/>状态的前提下，做出决策/>和接收外源信息W_t ^DNO后t+1时刻的值函数，外源信息W_t ^DNO即配网中的各种预测信息；MGO表示微网，k表示第k个微网，/>为第k个微网t时刻所处的状态；/>为第k个微网在/>状态时作了决策/>后产生的实时运行成本，/>为第k个微网在/>状态的值函数，/>为第k个微网在/>状态的前提下，做出决策/>接收外源信息/>后t+1时刻的值函数，ξ表示表示折算因子；

利用分段线性函数法拟合式(12)和(13)中的值函数，即

β代表段数，表示配网值函数第r_tDNO段的斜率，/>为每段线性凸函数的资源量；/>表示第k个微网值函数第/>段的斜率，/>为每段线性凸函数的资源量,ξ表示折算因子。

5.根据权利要求1所述的基于多智能体强化学习的多微网配电系统分布式调度方法，其特征在于，S4.7中，配网和各微网利用凹自适应值估计法分别进行值函数的更新。