CN114285075B

CN114285075B - 一种基于分布式深度强化学习的微电网能量在线优化方法

Info

Publication number: CN114285075B
Application number: CN202111578715.1A
Authority: CN
Inventors: 郭方洪; 何通; 刘冰; 吴祥; 董辉; 张文安; 俞立; 姚荣康
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-09-15
Anticipated expiration: 2041-12-22
Also published as: CN114285075A

Abstract

本发明公开了一种基于分布式深度强化学习的微电网能量在线优化方法，分布式地管理各发电单元、储能单元与主电网的能源生产与调用。首先利用Actor网络与本地环境进行交互，获取相应的动作策略，再根据环境参数与所选动作判断是否满足约束条件，计算奖励值。随后Critic网络学习本地与其他智能体的神经网络参数，最后根据所学模型，对Actor网络选择的动作进行反馈，引导Actor网络追寻更高的奖励值。对于此类延迟敏感，并且参数空间巨大的应用场景，本发明所提出的方法在训练完成后可以快速给出优化策略，合理分配各单元发电出力，最终有效地解决了微电网中的能源优化问题。

Description

一种基于分布式深度强化学习的微电网能量在线优化方法

技术领域

本申请属于微电网能量优化技术领域，具体涉及一种基于分布式深度强化学习的微电网能量在线优化方法。

背景技术

微电网(MG)是智能电网的重要组成部分，其内部包含分布式供能单元，储能单元，负载等。微电网运行可以分为两种模式，即孤岛模式与并网模式。其中孤岛模式可以提高电力系统的可靠性和灵活性。在并网模式下，MG通过关闭公共耦合点上的隔离开关(IS)来连接到主电网，微电网中各单元，包括主电网都存在本地的能源生产、电力交互数据。因此，相比于传统的大型电网，微电网中引入了多种新能源，导致电源的发电能力存在较高的不确定性。如何协调每个可分布式电源的出力成了微电网能源管理的主要问题。

目前常见的解决不确定性优化问题的方法主要包括动态规划、随机线性规划、微分进化算法、飞蛾扑火算法等。上述方法虽然可以有效地解决某个场景下的管理问题，但是考虑到负载的时变性，需要系统能对变化不确定的环境快速做出反应，因此，传统的优化算法仍然存在较多的缺陷。

强化学习得益于其在训练完成后，可以快速根据模型来对实时变化的环境做出反馈这一特点，开始被应用于微电网能源管理的问题上。深度强化学习算法(DDPG)在训练完成之后，面对时变的负载和环境可以快速给出最优解，有效的解决了负载时变性带来的问题。

值得指出的是，上述方法是基于单一智能体的集中式强化学习方法，并且假设微电网系统规模有限。然而，随着系统模型中可控发电单元数量的不断增加，模型的动作和状态空间也在成倍数的增长，这对传统的集中式强化学习算法带来了极大的挑战。

发明内容

本申请的目的在于提供一种基于分布式深度强化学习的微电网能量在线优化方法，不仅能有效提高模型反应速度，解决负载时变的问题，同时大大降低了单一神经网络学习的复杂度，解决了模型过于复杂的问题。

为实现上述目的，本申请所采取的技术方案为：

一种基于分布式深度强化学习的微电网能量在线优化方法，所述基于分布式深度强化学习的微电网能量在线优化方法，包括：

步骤1、初始化环境，包括：

步骤11、建立一个包含n个独立的发电单元、m个负载单元、实时充放电的储能单元以及进行电力交互的主电网的微电网系统模型；

步骤12、收集多智能体环境下的训练数据，为每个智能体设计本地的动作空间、状态空间、约束条件以及奖励值；

步骤13、为每个智能体创建两个独立的网络，基于动作的动作估计网络和基于价值的状态估计网络，并且创建两个独立网络各自对应的目标网络，动作现实网络和状态现实网络；

步骤14、为每个智能体建立一个经验池，存储智能体本地的状态参数、动作参数、奖励值，以及微电网系统模型中其他智能体的状态参数；

步骤2、获取环境参数输入Actor网络，根据Actor网络所选动作，更新下一个时刻的状态参数，所述环境参数包括本地负载单元的负载需求、本地发电单元的发电功率、本地发电单元与主电网的电力交互功率，以及储能单元的荷电量；

步骤3、根据当前时刻与下一时刻的状态参数进行约束条件判断，若满足约束条件则计算代价函数作为奖励值；否则计算惩罚函数作为奖励值；

步骤4、Actor网络从经验池获取本地的状态参数和动作参数进行学习，Critic网络从经验池获取全局参数进行学习，所述全局参数包括全局负载单元的负载需求、各发电单元的发电功率、各发电单元与主电网的电力交互功率，以及储能单元的荷电量；

步骤5、将当前时刻与下一时刻的状态参数、动作参数、奖励值存储至经验池中，并将下一时刻的状态参数赋予当前时刻；

步骤6、判断时刻是否达到最大值，若时刻达到最大值则回合结束输出各发电单元发电计划优化结果，否则返回步骤2继续执行。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述发电单元的动作为发电单元发电功率增减步长，所述主电网从整个动作区间内选择动作，所述动作区间范围为单位时间内发电单元发电功率最大增减量，则根据Actor网络当前时刻所选动作更新更新发电单元下一时刻的发电功率以及与主电网的电力交互功率如下：

P_G,i(t+1)＝P_G,i(t)+a_i·ΔP

P_grid(t+1)＝a_i·δ

式中，P_G,i(t+1)为发电单元i∈I_[1,n]在时刻t+1的发电功率，P_G,i(t)为发电单元i∈I_[1,n]在时刻t的发电功率，a_i为Actor网络当前时刻所选择的发电单元i∈I_[1,n]的动作，ΔP为发电单元发电功率增减步长，P_grid(t+1)为发电单元在时刻t+1与主电网的电力交互功率，δ为主电网的功率扩展系数，用于将选出的动作a_i扩展到主电网功率范围。

作为优选，所述约束条件的设计如下：

1)功率平衡约束：在时刻t，微电网系统模型的功率平衡约束可以表示为：

式中，P_G,i(t)为发电单元i∈I_[1,n]在时刻t的发电功率，P_ess(t)为储能单元在时刻t与各发电单元的电量交互之和，P_d,j(t)为负载单元j∈J_[1,m]在时刻t的负载需求，P_grid(t)为主电网在时刻t的电力交互功率；

2)爬坡约束：在时刻t爬坡约束表示为：

CL_min,i≤P_G,i(t+1)-P_G,i(t)≤CL_max,i

CL_ess,min≤P_ess(t)≤CL_ess,max

式中，CL_max,i,CL_min,i分别为发电单元i∈I_[1,n]的爬坡功率上下限，CL_ess,max,CL_ess,min分别为储能单元的爬坡功率上下限，P_G,i(t+1)为发电单元i∈I_[1,n]在时刻t+1的发电功率；

3)功率上下限约束：在时刻t功率上下限约束表示为：

P_min,i≤P_G,i(t)≤P_max,i

式中，P_max,i,P_min,i分别为发电单元i∈I_[1,n]的发电功率上下限，分别为主电网的电力交互功率上下限；

4)储能单元的荷电状态约束：在时刻t储能单元荷电状态约束表示为：

SoC_min≤SoC(t)≤SoC_max

式中，SoC_max,SoC_min分别为储能单元的荷电量上下限，SoC(t)为储能单元在时刻t的荷电量。

作为优选，所述代价函数的设计如下：

1)在满足负载需求，确保功率平衡的条件下，找到最优运行策略，降低发电单元的发电成本，使整体电力系统成本最低，其中发电成本代价函数表示为：

式中，F₁(t)为时刻t发电成本代价函数，P_G,i(t)为发电单元i∈I_[1,n]在时刻t的发电功率，α_i,β_i,γ_i为发电单元i∈I_[1,n]的发电成本参数；

2)发电单元工作功率与储能单元寿命代价函数表示为：

F₂(t)＝(P_G,i(t)-P_opt,i)²+|P_ess(t)|/ESS_cap

式中，F₂(t)为发电单元工作功率与储能单元寿命代价函数，P_opt,i为发电单元i∈I_[1,n]的最优工作功率，P_ess(t)为储能单元在时刻t与各发电单元的电量交互之和，ESS_cap为储能单元最大寿命；

3)储能单元荷电状态代价函数表示为：

F₃(t)＝(SoC(t+1|t)-SoC_opt)²

式中，F₃(t)为储能单元荷电状态代价函数，SoC(t+1|t)为储能单元在时刻(t+1|t)的荷电量，SoC_opt为储能单元寿命与理想储电状态值；

4)主电网电力交易代价函数表示为：

F₄(t)＝P_grid(t)·Price_level(t)

式中，F₄(t)为主电网电力交易代价函数，P_grid(t)为主电网在时刻t的电力交互功率，Price_level(t)为时刻t的电力交易电价。

本申请提供的一种基于分布式深度强化学习的微电网能量在线优化方法，分布式地管理各发电单元、储能单元与主电网的能源生产与调用。首先利用Actor网络与本地环境进行交互，获取相应的动作策略，再根据环境参数与所选动作判断是否满足约束条件，计算奖励值。随后Critic网络学习本地与其他智能体的神经网络参数，最后根据所学模型，对Actor网络选择的动作进行反馈，引导Actor网络追寻更高的奖励值。对于此类延迟敏感，并且参数空间巨大的应用场景，本申请所提出的方法在训练完成后可以快速给出优化策略，合理分配各单元发电出力，最终有效地解决了微电网中的能源优化问题。

附图说明

图1为本申请的基于分布式深度强化学习的微电网能量在线优化方法的流程图；

图2为本申请建立的微电网系统模型结构图；

图3为本申请设计的神经网络流程图；

图4为本申请的分布式深度强化学习算法和传统的深度强化学习算法在相同环境下收敛情况对比图；

图5是本申请中提出的分布式深度强化学习算法在模型训练完成后，单回合内发电单元发电功率示意图；

图6是本申请中提出的分布式深度强化学习算法在模型训练完成后，单回合内储能单元荷电量变化图；

图7是本申请中提出的分布式深度强化学习算法训练过程中，储能单元单回合平均荷电量变化图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

为了克服多电源环境下，负载时变性以及模型复杂度高的问题，本实施例基于深度强化学习算法，结合分布式框架结构，提供一种基于分布式深度强化学习的微电网能量在线优化方法。如图1所示，本实施例首先获取微电网系统的各项状态参数，各智能体将本地的状态参数传入本地Actor网络中选出对应的动作。并根据所选动作更新出下一时刻的状态参数。将当前时刻与下一时刻的状态参数进行约束条件判断，若满足约束条件则计算代价函数作为奖励值，若不满足则将惩罚函数作为奖励值。奖励值计算完成后，Actor与Critic网络从经验池提取参数进行学习，并将当前时刻与下一时刻的状态参数、动作参数、奖励值存储进经验池中供将来学习。动作的旋转导致环境中各参数发生变化，状态参数为环境参数的一部分，即将下一时刻的状态参数赋予当前时刻以更新环境参数，并判断回合是否结束，若没结束则继续选择动作进行下一个时刻的学习。

具体的，本实施例的基于分布式深度强化学习的微电网能量在线优化方法，包括以下步骤：

步骤1、初始化环境，包括：

步骤11、如图2所示，在发配电环境中，微电网包含发电单元(例如太阳能单元、风能单元)、负载单元(例如居民用电负载1～m)和储能单元(例如电容电池)，而整个微电网系统包含发电单元、负载单元、储能单元以及主电网。因此本实施例首先建立一个包含n个独立的发电单元、m个负载单元、实时充放电的储能单元以及进行电力交互的主电网的微电网系统模型，并加入一个电力中心用于汇总各单元的信息。

为了便于描述，本实施例中定义发电单元i∈I_[1,n]在时刻t的发电功率为P_G,i(t)，负载单元j∈J_[1,m]在t时刻的负载需求为P_d,j(t)。储能单元在t时刻的荷电量为SoC(t)，储能单元在时刻t与各发电单元的电量交互之和为P_ess(t)。电力系统(即微电网)与主电网的电力交互功率为P_grid(t)，当电力系统从主电网买进需要的电力时P_grid(t)为正，卖出多余电力时P_grid(t)为负。每个回合包含T个时刻，优化中当时刻达到最大值后回合结束。当发电单元的发电量超出或者低于负载需求时，储能单元会存储或者释放相应的电能来维持系统稳定。

步骤12、收集多智能体环境下的训练数据，为每个智能体设计本地的动作空间、状态空间、约束条件以及奖励值。

在t时刻，所有智能体的状态集合表示为S＝[s₁,s₂,...,s_n]^T。则每个单独的智能体的状态值s(t)设定如式(1)所示；智能体的动作集合为A＝[a₁,a₂,...,a_n]^T，每个智能体的动作a(t)设定如式(2)所示；动作策略集合为π＝[π₁,π₂,...,π_n]^T；奖励集合为R＝[r₁,r₂,…,r_n]^T。

步骤13、如图3所示，为每个智能体创建两个独立的网络，基于动作的动作估计网络和基于价值的状态估计网络，并且创建两个独立网络各自对应的目标网络，动作现实网络和状态现实网络。

动作估计网络和状态估计网络对应的网络参数为θ^μ,θ^Q，动作现实网络和状态现实网络对应的网络参数为θ^μ′,θ^Q′。现实网络拥有与估计网络相同的结构均包含相同的输入层、隐含层和输出层，但是网络参数与估计网络相比相对滞后，以此来进一步切断数据之间的关联性。以智能体i为例，将步骤1中获取的状态参数s_i输入Actor网络来选择出动作a_i。动作网络累计收益期望以及策略梯度如公式(3)、(4)所示：

其中，μ为动作策略，ρ^μ为状态s所服从的分布，θ＝[θ₁,θ₂,…θ_n]表示n个智能体的策略参数。需要说明的是，动作网络累计收益期望以及策略梯度为现有公式，其具体细节不再进行赘述。

步骤14、为每个智能体建立一个经验池，存储智能体本地的状态参数、动作参数、奖励值，以及微电网系统模型中其他智能体的状态参数。

在模型训练过程中，通过提取经验池中的数据进行学习可以有效打断数据相关性，使模型易于收敛。经验池存储数据模式为(S,A,R,S'),S'为下一时刻的状态参数，S'＝[s₁',s₂',…,s_n']^T。

步骤2、获取环境参数输入Actor网络，根据Actor网络所选动作，更新下一个时刻的状态参数。本实施例中的环境具有供给侧和需求侧，供给侧包含发电单元(PG1、PG2、PG3)，储能单元(蓄电池)和主电网，需求侧包含负载单元(PD1、PD2、PD3)。因此获取的环境参数包括本地负载单元的负载需求、本地发电单元的发电功率、本地发电单元与主电网的电力交互功率，以及储能单元的荷电量。

考虑到发电单元与主电网动作区间范围大小有较大差异，因此在设计发电单元的动作时，选择将发电单元发电功率增减步长设计为动作，而主电网则从整个动作区间(动作区间范围为单位时间内发电单元发电功率最大增减量)内选择动作，则根据Actor网络当前时刻所选动作更新更新发电单元下一时刻的发电功率以及与主电网的电力交互功率如下：

步骤3、根据当前时刻与下一时刻的状态参数进行约束条件判断，若满足约束条件则计算代价函数作为奖励值；否则计算惩罚函数作为奖励值。

其中，采用状态参数S,S'判断所选动作a_i是否满足约束条件，本实施例设计约束条件如下：

式中，P_G,i(t)为发电单元i∈I_[1,n]在时刻t的发电功率，P_ess(t)为储能单元在时刻t与各发电单元的电量交互之和，P_d,j(t)为负载单元j∈J_[1,m]在时刻t的负载需求，P_grid(t)为主电网在时刻t的电力交互功率。

2)爬坡约束：由于发电单元的发电功率变化是随着时间进行的，因此单位时间内是有限度的。同时，为了避免储能单元过度的充放电造成损耗，因此储能单元在单位时间内，充放电功率被限制在一定范围内。本实施例设计在时刻t爬坡约束表示为：

CL_min,i≤P_G,i(t+1)-P_G,i(t)≤CL_max,i (8)

CL_ess,min≤P_ess(t)≤CL_ess,max (9)

式中，CL_max,i,CL_min,i分别为发电单元i∈I_[1,n]的爬坡功率上下限，CL_ess,max,CL_ess,min分别为储能单元的爬坡功率上下限，P_G,i(t+1)为发电单元i∈I_[1,n]在时刻t+1的发电功率。

3)功率上下限约束：电力系统中，每台发电单元都有自己的发电功率上限与下限范围，超过上限会对发电单元造成损伤，低于下限发电单元会关停。在每个时刻，电力系统从主电网买卖的电量也受到传输线最大功率限制的约束。因此在时刻t功率上下限约束表示为：

P_min,i≤P_G,i(t)≤P_max,i (10)

式中，P_max,i,P_min,i分别为发电单元i∈I_[1,n]的发电功率上下限，分别为主电网的电力交互功率上下限。

4)储能单元的荷电状态约束：当储能单元荷电量过高时，会对储能单元造成一定的损耗，而荷电量过低时，面对用电需求突然增加容易出现电力不足的情况。为了保证储能单元的持续稳定运行，需要将荷电量限制在一定范围。在时刻t储能单元荷电状态约束表示为：

SoC_min≤SoC(t)≤SoC_max (12)

本实施例中考虑到系统发电时的成本与寿命，系统设计的主要优化目标分为四个部分，即代价函数的设计如下：

式中，F₁(t)为时刻t发电成本代价函数，P_G,i(t)为发电单元i∈I_[1,n]在时刻t的发电功率，α_i,β_i,γ_i为发电单元i∈I_[1,n]的发电成本参数，其中发电成本由实际发电机的成本参数确定。

2)加强发电单元之间的电力调度，通过互相调度的方式使发电单元尽可能的在最优工作功率上工作，降低发电单元的使用损耗。控制储能单元的充放电行为与强度，防止系统频繁或高强度的使用储能单元导致储能单元寿命缩短。发电单元工作功率与储能单元寿命代价函数表示为：

F₂(t)＝(P_G,i(t)-P_opt,i)²+|P_ess(t)|/ESS_cap (14)

式中，F₂(t)为发电单元工作功率与储能单元寿命代价函数，P_opt,i为发电单元i∈I_[1,n]的最优工作功率，P_ess(t)为储能单元在时刻t与各发电单元的电量交互之和ESS_cap为储能单元最大寿命。

3)储能单元与发电单元组协调工作，将储能单元储电量保持在理想状态，防止出现突发情况导致电力供应不足。储能单元荷电状态代价函数表示为：

F₃(t)＝(SoC(t+1|t)-SoC_opt)² (15)

式中，F₃(t)为储能单元荷电状态代价函数，SoC(t+1|t)为储能单元在时刻(t+1|t)的荷电量，SoC_opt为储能单元寿命与理想储电状态值。

4)考虑到电价随时间段分为峰平谷三个价位，电力系统需要在保证在满足电力需求的前提下，在与主电网的交互中得到最大的利润。主电网电力交易代价函数表示为：

F₄(t)＝P_grid(t)·Price_level(t) (16)

本实施例将奖励函数主要分为两部分，一部分为正常计算的代价函数，一部分为违反约束条件时产生的惩罚。若满足约束条件则奖励函数如式17所示，表示在时刻t电力系统总的运行成本F(t)。若不满足约束条件，则奖励函数如式18所示，采用的惩罚项r(t)作为代替并将本地奖励函数记为r_i。

F(t)＝θ₁F₁(t)+θ₂F₂(t)+θ₃F₃(t)+θ₄F₄(t) (17)

r(t)＝∈J-η (18)

其中，θ₁,θ₂,θ₃,θ₄为各优化目标对应的权重；∈,η为超出约束的惩罚系数，分别为较小与极大的正值。

步骤4、Actor网络从经验池获取本地的状态参数和动作参数进行学习，Critic网络从经验池获取全局参数进行学习，所述全局参数包括全局负载单元的负载需求、各发电单元的发电功率、各发电单元与主电网的电力交互功率，以及储能单元的荷电量。

步骤5、将当前时刻与下一时刻的状态参数、动作参数、奖励值存储至经验池中，并将下一时刻的状态参数赋予当前时刻。

在另一个实施例中，通过具体实验进一步说明本实施例提出的微电网能量优化方法的有效性：

本实验模型，仿真等基于python3.6的环境编写，根据步骤1中所述设计模型，并根据步骤3中所述来设计约束条件，建立模型和约束条件后以n＝3、m＝3、回合数为10000、每一回合包含24个时刻的参数在仿真环境中按照步骤1～6运行直至回合结束，且取深度强化学习算法(DDPG算法)作为对照算法进行实验。

如图4所示，从实验结果可以看出，随着智能体开始从经验池中提取早期数据进行学习，奖励值逐渐开始呈现明显上升趋势并趋于收敛，当达到2800回合左右时，本申请提出的方法(应用MADDPG算法在微电网能量在线优化的方法)的奖励值逐渐收敛于-30000上下，而应用DDPG算法在微电网能量在线优化的方法使用了将近3400回合左右才逐渐收敛于-90000，并且仍然存在较大的波动。说明本申请提出的基于分布式深度强化学习算法的调度方式获得的系统总奖励要优于单智能体的DDPG算法。

并且从图5可以看出，在训练完成后，模型中各发电单元(即发电机1、发电机2和发电机3)均工作在最优工作点上下。如图6，7的结果表明，储能单元的荷电量也始终围绕着最佳荷电状态上下波动。证明本申请提出的方法能有效实现代价函数的优化。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于分布式深度强化学习的微电网能量在线优化方法，其特征在于，所述基于分布式深度强化学习的微电网能量在线优化方法，包括：

步骤1、初始化环境，包括：

步骤2、获取环境参数输入Actor网络，根据Actor网络所选动作，更新下一个时刻的状态参数，所述环境参数包括本地负载单元的负载需求、本地发电单元的发电功率、本地发电单元与主电网的电力交互功率，以及储能单元的荷电量；所述发电单元的动作为发电单元发电功率增减步长，所述主电网从整个动作区间内选择动作，所述动作区间范围为单位时间内发电单元发电功率最大增减量，则根据Actor网络当前时刻所选动作更新发电单元下一时刻的发电功率以及与主电网的电力交互功率如下：

P_G,i(t+1)＝P_G,i(t)+a_i·ΔP

P_grid(t+1)＝a_i·δ

式中，P_G,i(t+1)为发电单元i∈I_[1,n]在时刻t+1的发电功率，P_G,i(t)为发电单元i∈I_[1,n]在时刻t的发电功率，a_i为Actor网络当前时刻所选择的发电单元i∈I_[1,n]的动作，ΔP为发电单元发电功率增减步长，P_grid(t+1)为发电单元在时刻t+1与主电网的电力交互功率，δ为主电网的功率扩展系数，用于将选出的动作a_i扩展到主电网功率范围；

步骤3、根据当前时刻与下一时刻的状态参数进行约束条件判断，若满足约束条件则计算代价函数作为奖励值；否则计算惩罚函数作为奖励值；所述代价函数的设计如下：

2)发电单元工作功率与储能单元寿命代价函数表示为：

F₂(t)＝(P_G,i(t)-P_opt,i)²+|P_ess(t)|/ESS_cap

3)储能单元荷电状态代价函数表示为：

F₃(t)＝(SoC(t+1|t)-SoC_opt)²

4)主电网电力交易代价函数表示为：

F₄(t)＝P_grid(t)·Price_level(t)

式中，F₄(t)为主电网电力交易代价函数，P_grid(t)为主电网在时刻t的电力交互功率，Price_level(t)为时刻t的电力交易电价；步骤4、Actor网络从经验池获取本地的状态参数和动作参数进行学习，Critic网络从经验池获取全局参数进行学习，所述全局参数包括全局负载单元的负载需求、各发电单元的发电功率、各发电单元与主电网的电力交互功率，以及储能单元的荷电量；

2.如权利要求1所述的基于分布式深度强化学习的微电网能量在线优化方法，其特征在于，所述约束条件的设计如下：

1)功率平衡约束：在时刻t，微电网系统模型的功率平衡约束表示为：

2)爬坡约束：在时刻t爬坡约束表示为：

CL_min,i≤P_G,i(t+1)-P_G,i(t)≤CL_max,i

CL_ess,min≤P_ess(t)≤CL_ess,max

3)功率上下限约束：在时刻t功率上下限约束表示为：

P_min,i≤P_G,i(t)≤P_max,i

P_gridmin≤P_grid(t)≤P_gridmax

式中，P_max,i,P_min,i分别为发电单元i∈I_[1,n]的发电功率上下限，P_gridmax,P_girdmin分别为主电网的电力交互功率上下限；

SoC_min≤SoC(t)≤SoC_max