CN110929948B

CN110929948B - 基于深度强化学习的完全分布式智能电网经济调度方法

Info

Publication number: CN110929948B
Application number: CN201911206937.3A
Authority: CN
Inventors: 符杨; 郭笑岩; 米阳; 张智泉; 丁枳尹; 袁明瀚; 李振坤; 田书欣
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-12-16
Anticipated expiration: 2039-11-29
Also published as: CN110929948A

Abstract

本发明涉及一种基于深度强化学习的完全分布式智能电网经济调度方法，包括以下步骤：1)获取网络拓扑结构，建立基于负荷分配和机组组合的经济调度模型；2)通过深度强化学习模型获取经济调度模型的局部最优解，作为第一Q函数表；3)将第一Q函数表载入预训练后的深度卷积神经网络，获取第二Q函数表；4)根据第二Q函数表，初始化各机组的功率，载入机组功率求解模型，并根据网络拓扑结构，更新第二Q函数表，得到全局最优解；5)进行电网经济调度。与现有技术相比，本发明不仅能够在数据量大、网络结构复杂的智能电网环境下，实现经济调度最优化，而且不依赖于明确的目标函数，能适应分布式能源的“即插即用”特性，具有良好的应用前景。

Description

基于深度强化学习的完全分布式智能电网经济调度方法

技术领域

本发明涉及完全分布式智能电网经济调度领域，尤其是涉及一种基于深度强化学习的完全分布式智能电网经济调度方法。

背景技术

随着可再生能源的大力发展，含高密度间歇性能源的智能电网(Smart Grid)逐步发展为一种新的能源结构。由于大规模间歇性可再生能源的普及，需要足够的可控资源来确保电力系统的安全可靠运行。除了传统的可控发电机外，柔性负载在保持系统平衡方面也起着重要作用。因此，在综合考虑“源-网-荷-储”各部分之间联系的情况下，如何管理大规模和分散的需求响应，实现全局优化与多方共赢，已经引起了极大的关注。

针对智能电网中的能量管理和优化控制问题，已经有多种不同算法可以处理，主要有经典优化方法、基于规划的方法、启发式算法等，这些算法能够解决微电网中许多问题。文献“面向能源互联网的多能源局域网两层功率优化分配”(米阳，刘红业，宋根新，李战强，符杨，李振坤.电力自动化设备，2018，38(07)：1-10.)针对面向能源互联网的多能源互联网运行调度中的实时功率分配问题，提出一种基于多智能体两层一致性理论的多能源局域网实时动态功率分配策略，并不属于完全分布式计算求解；文献“主动配电网源–荷–储分布式协调优化运行(二)：考虑非理想遥测环境的一致性算法”(徐熙林，宋依群，姚良忠，严正.中国电机工程学报，2018，38(11)：3244-3254)针对为实现主动配电网源-荷-储分布式协调优化，提出一种完全分布式协调的鲁棒一致性算法；文献“基于信息物理系统的孤岛微网实时调度的一致性协同算法”(吕朋蓬，赵晋泉，李端超，林昌年.中国电机工程学报，2016，36(06)：1471-1480)基于孤岛微网信息物理系统的架构提出一种有功功率的实时调度模型与一种考虑功率平衡约束的完全分布式协同算法。上述文献虽采用以一致性原理为基础的完全分布式算法来达到减少运算时间成本，保障系统信息安全等目的，但并没有对一致性原理本身进行进一步的探究。同时，上述文献均是在机组组合确定的情况下，根据不同的负荷需求来对功率进行分配，但实际情况下机组组合在长时间尺度下并未一成不变的，单纯考虑实时功率分配对于电力系统经济调度来说是没有实际意义的，应将机组组合的不确定性一并考虑进去。

随着人工智能的兴起，深度强化学习(deep reinforcement learning，DRL)的研究也越来越深入，也越来越多应用于电力系统的优化和控制中。在分布式能量管理中，文献“On-line building energy optimization using deep reinforcement learning”(Mocanu E，Mocanu D C，Nguyen P H，et al.IEEE Transactions on Smart Grid，2017，(99)：1-1)采用深度强化学习算法根据微电网高维数据在线计算能量优化策略，通过实时反馈和控制以提高电能的使用效率。文献“电动汽车充电控制的深度增强学习优化方法”(杜明秋，李妍，王标，张艺涵，罗潘，王少荣.中国电机工程学报，2019，39(14)：4042-4049)基于电网在线运行状态数据采集，采用竞争深度Q网络结构的深度增强学习方法开展电动汽车充电控制优化。文献“基于深度强化学习的微电网复合储能协调控制方法”(张自东，邱才明，张东霞，徐舒玮，贺兴.电网技术，2019，43(06)：1914-1921)构建了一个孤岛运行的包含光伏发电、储氢装置、蓄电池的复合能源系统，并采用深度强化学习方法对其进行协调控制。上述文献虽能够通过深度强化学习解决多目标优化的Pareto最优解集问题，但是面对分布式能源的“即插即用”特性以及处理连续性变量等方面的问题，深度强化学习算法显得有些力不从心。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种考虑了机组组合的不确定性、并且运算速度快的基于深度强化学习的完全分布式智能电网经济调度方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度强化学习的完全分布式智能电网经济调度方法，该方法包括以下步骤：

S1：获取完全分布式智能电网的网络拓扑结构数据，建立基于负荷分配和机组组合的经济调度模型；

S2：初始化Q函数表和调度策略，并通过深度强化学习模型获取所述经济调度模型的局部最优解，并将所述局部最优解作为第一Q函数表；由第一Q函数表基本确定海量机组的合理组合序列；

S3：将第一Q函数表载入预训练后的深度卷积神经网络中进行更新，获取第二Q函数表；通过深度卷积神经网络进一步逼近最优调度方案，并实现对第一Q函数表的降维，以提高运算速度；

S4：根据第二Q函数表，初始化各个机组的功率，将各个机组的功率载入基于完全一致性算法的增量成本求解模型中，并根据网络拓扑结构数据，获取满足预设的收敛条件的各机组的功率，从而更新第二Q函数表；通过增量成本求解模型对第二Q函数表中各机组的功率进行优化，进一步获取各机组功率的全局最优解；

S5：采用全局最优解进行智能电网经济调度；

所述Q函数表包括状态-动作值函数。

进一步地，步骤S1中，所述基于负荷分配和机组组合的经济调度模型的表达式包括：

目标函数：

约束条件：

P_i,t∈Ρ(S_i,t)

式中，γ为折扣因子，γ^t-1为，F_i(·)为经济成本函数，P_i,t为第i个可调单元在t时刻的出力，S_i,t为第i个可调单元在t时刻的状态，P_loss为功率损失，D_t为t时刻不可调的总刚性负荷，N_c为已投入的可调单元的总个数；所述可调单元包括可调单元与柔性负荷单元，所述可调单元出力为正值，所述柔性负荷单元出力为负值；

在经济调度模型中引入折扣因子γ，主要带来以下三个方面的好处：1)无限长时间区间内的经济调度问题在γ∈(0,1]是有定义的；2)有限时间段和无限长时间内的经济调度问题能够写成统一的表示形式；3)折扣因子γ与《Reinforcement Learning：AnIntroduction》一书中引入的因子相对应，方便应用相关的强化学习理论。

F_i(·)＝C_i(P_i,t)I_i,t+C_i,SU(t)+C_i,SD(t)

式中，C_i(·)为可调单元运行时的成本函数，I_i,t＝1或0为第i个可调单元在第t时段内处于投入运行或停机状态，C_i,SD(t)为t时刻的停机成本，C_i,SU(t)为t时刻的启动成本，若T_i,D≤X_i,OFF(t)≤T_i,D+T_i,b2c，则t时刻的启动成本C_i,SU(t)为热启动成本C_i,hot；若X_i,OFF(t)≥T_i,D+T_i,b2c，则t时刻的启动成本C_i,SU(t)为冷启动成本C_i,cold，T_i,D为第i个可调单元的最短持续停机时间，X_i,OFF(t)为第i个可调单元在t时刻已经连续处于停机状态的时间，T_i,b2c为第i个可调单元选择停机状态冷却模式的经济性超越停机状态热态模式时的临界时间；

式中，T_i＝max{T_i,U,T_i,D,T_i,b2c}，P_i,0为第i个可调单元的初始出力状态，I_i,0为第i个可调单元的初始运行状态，P_i,t为第i个可调单元在t-1时刻的出力。

进一步地，所述经济调度模型的约束条件还包括功率平衡约束、可调单元的容量约束、最短持续运行/停机时间约束和爬坡/滑坡约束，

所述功率平衡约束的表达式为：

式中，P_i为第i个可调单元的总出力，D为不可调的总刚性负荷；

所述可调单元的容量约束的表达式为：

P_i ^min≤P_i≤P_i ^max

式中，P_i ^min为已投入运行的第i个可调单元的最小输出功率，P_i ^max为已投入运行的第i个可调单元的最大输出功率；

所述最短持续运行/停机时间约束的表达式为：

(X_i,ON(t-1)-T_i,U)(I_i,t-1-I_i,t)≥0

(T_i,D-X_i,OFF(t-1))(I_i,t-1-I_i,t)≥0

式中，X_i,ON(t-1)为第i个可调单元在t时刻已经连续处于停机状态的时间，X_i,OFF(t-1)为第i个可调单元在t-1时刻已经连续处于停机状态的时间，T_i,U为第i个可调单元的最短持续启动时间，I_i,t-1为第i个可调单元在第t-1时段内的启停状态；

所述爬坡/滑坡约束的表达式为：

-R_i,D≤(P_i,t-P_i,t-1)I_i,tI_i,t-1≤R_i,U

式中，R_i,D为可调单元的最大滑坡能力，R_i,U为可调单元的最大爬坡能力。

进一步地，所述步骤S2具体包括以下步骤：

S201：初始化Q函数表和调度策略；

S202：使用贪婪算法选取下一时刻的动作；

S203：根据当前时刻和下一时刻的动作数据，更新Q函数表；

S204：若步骤S203更新后的Q函数表为所述经济调度模型的局部最优解，则将当前的Q函数表作为第一Q函数表，否则根据当前的Q函数表更新调度策略，并依次执行步骤S202至S204。

进一步地，步骤S203中，所述Q函数表的更新表达式为：

式中，←表示更新，Q(S_i,t,P_i,t)为第i个可调单元在t时刻的状态-动作值函数，reward1_t为t时刻的Q函数表的更新奖励函数值，γ为折扣因子，ρ为Q函数表的更新学习率，

为第i个可调单元在第t+1时刻最小状态-动作值函数。

所述调度策略的更新表达式为：

式中，π(S_i,t)为第i个可调单元在t时刻的状态对应的调度策略。

进一步地，通过深度卷积神经网络进一步逼近第一Q函数表的最优调度方案，步骤S3中，所述深度卷积神经网络的预训练过程具体为，通过随机梯度下降更新网络参数，从而更新第一Q函数表，直到满足预设的误差条件；所述网络参数的更新表达式为：

式中，ω_t为t时刻的网络参数，ω_t+1为t+1时刻的网络参数，

为t时刻的网络参数下的随机梯度下降策略，ξ为深度卷积神经网络的学习率，reward2_t为深度卷积神经网络在t时刻的奖励函数值，γ为折扣因子，Q(S_i,t,P_i,t)为第i个可调单元在t时刻的状态-动作值函数，Q(S_i,t+1,P_i,t+1)为第i个可调单元在t+1时刻的状态-动作值函数。

进一步地，所述误差条件根据误差函数值设定，所述误差函数值的计算表达式为：

式中，L(ω_t)为t时刻的网络参数下的误差函数值。

进一步地，所述步骤S4具体包括以下步骤：

S401：根据第二Q函数表获取机组组合，并初始化各个机组的功率；

S402：采用Adam算法更新各个机组的功率，并求解各个机组的微增率；

为加快收敛速度，在Adam算法中定义信噪比系数(SNR)如下式所示。

式中，

为在第k次校正偏差后的梯度，

为在第k次校正偏差后的平方梯度。

当SNR较小时，有效下降步长Δk更趋近于零，目标函数也将更快收敛于极值。这是一个理想的特性，因为较小的SNR意味着：算法对

的方向是否对应真实梯度的方向存着更大的不确定性。例如，SNR在最优解附近趋向于0，因此也会在参数空间中有更小的有效步长：即自动退火的形式。在该形式下，可有效降低陷入局部最优解的概率，因为当计算点达到局部最优解时能利用该特性通过模拟退火算法高概率地跳出并最终趋于全局最优。

S403：根据网络拓扑结构数据，结合等微增率准则和一致性原理，更新各个机组的微增率，直至满足预设的收敛条件，获取各个机组的功率，从而更新第二Q函数表，并将更新后的第二Q函数表作为全局最优解；

所述微增率为成本函数对功率的求导值，所述收敛条件为各个机组的微增率收敛于同一值。

进一步地，在不断迭代的过程中，微增率μ_i会向一个“特定值”逐渐逼近，但这个“特定值”并不一定是系统边际成本微增率μ^*，即不能满足各种约束条件。因此只有“一致项”还不能正确求解模型，需要加入“调整项”反馈修正，使结果向μ^*逼近。步骤S403中，所述微增率的更新公式为：

式中，μ_i(k+1)为第i个可调单元在k+1时刻的微增率，w_i,j为智能电网的网络拓扑结构的一致项系数矩阵第i行第j列的元素，ε_i为第i个可调单元的调整系数，f_i(k)为第i个可调单元在k时刻的调整项，f_i(k+1)为第i个可调单元在k+1时刻的调整项，v_i,j为转置后的一致项系数矩阵第i行第j列的元素，P_i(k+1)为第i个可调单元在k+1时刻的有功出力，D_i(k+1)为第i个可调单元在k+1时刻有功需求的实测值，N_c为已经投入运行的可调单元；

式中一致项系数矩阵中的i与第i个可调单元的i是一一对应的，一致性系数矩阵是个方阵，(i,j)代表第i个可调单元是否与第j个可调单元的联系情况，w_i,j代表第i个可调单元与第j个可调单元的一致性拓扑联系系数。在该矩阵中i与j代表数字，代表第几个可调单元，且i与j在数学上相互独立；

“功率调整项”的引入是为了使优化结果满足功率平衡的等式约束。在其计算过程中，“功率调整项”通过微增率计算公式决定一致性变量收敛方向，使得功率决策结果不断逼近最优解，在迭代的过程中“功率调整项”之和与能源互联网内部的有功功率缺额之差保持不变。因此所述调整项的初始值的约束条件如下：

式中，P_i(0)为第i个可调单元初始时刻的出力，D_i(0)为第i个可调单元初始时刻的总刚性负荷，f_i(0)第i个可调单元初始时刻的调整项。

进一步地，所述一致项系数矩阵的表达式为：

Φ＝(w_i,j)_N×N

w_i,j＝-a'_i,j

式中，Φ为一致项系数矩阵，N为可调单元的数目，所述网络拓扑结构数据中的节点由一个或多个可调单元构成，第i个可调单元位于网络拓扑结构数据中第m个节点中，第j个可调单元位于网络拓扑结构数据中第n个节点中，σ_m为网络拓扑结构数据中第m个节点的网络凝聚度，D_m为网络拓扑结构数据中与第m个节点相连的节点的集合，d_m,n为网络拓扑结构数据中第m个节点与第n个节点的最短距离。

与现有技术相比，本发明具有以下优点：

(1)本发明完全分布式智能电网经济调度方法，首先通过深度强化学习模型获取第一Q函数表，以确定机组组合的局部最优解；然后通过深度卷积神经网络对第一Q函数表进行拟合优化，同时对第一Q函数表进行降维，提取有用特征，获取第二Q函数表，以减少后续运算时间；最后通过基于完全一致性算法的增量成本求解模型，获取各机组的功率最优解，由此实现对机组组合和各机组功率的全局最优调度，具有能应对数据量大、网络结构复杂的智能电网环境，并且运算快速的优点。

(2)本发明完全分布式智能电网经济调度方法的经济调度模型考虑到机组组合的不确定性，并通过后续的模型自动求解出全局最优解，因此，当有机组停机或有新的机组投入运行时，仍能计算出新的全局最优解，能适应分布式能源的“即插即用”特性。

(3)本发明完全分布式智能电网经济调度方法的经济调度模型加入了折扣因子具有以下三点好处：1)无限长时间区间内的经济调度问题在γ∈(0,1]是有定义的；2)有限时间段和无限长时间内的经济调度问题能够写成统一的表示形式；3)折扣因子与《Reinforcement Learning：An Introduction》一书中引入的因子相对应，方便应用相关的强化学习理论。

(4)本发明完全分布式智能电网经济调度方法，在经过深度强化模型更新Q函数表后，通过深度卷积神经网络，采用函数逼近的方法逼近最优的Q函数值，在需要解决的问题模型未知或者状态空间很大时，仍能获取最优的Q函数表。

(5)本发明完全分布式智能电网经济调度方法，在基于完全一致性算法的增量成本求解模型中进行微增率的更新时，基于节点重要度对一致项系数矩阵进行了改进，重要度高的节点被赋予较大的自设权重，重要度高的节点被赋予较小的自设权重，从而使得算法能充分挖掘数据的有用信息，提高了算法的收敛速度。

(6)本发明完全分布式智能电网经济调度方法，在基于一致性原理的机组功率求解模型中，将等微增率准则与一致性原理相结合，并加入调整项，使得各个机组的微增率在迭代过程中向特定值收敛，提高模型求解结果的准确性，实现经济调度的最优化。

(7)本发明完全分布式智能电网经济调度方法，与基于规划的方法相比，不需要每次从头更新所有决策状态而能够实现基于当前状态进行决策，具有实时性并能够实现在线决策；与启发式算法相比，本发明能够更加稳定地达到收敛结果，且结果受输入数据的影响较小，因此本发明具有较好的鲁棒性；同时，本发明通过通信关联节点间的信息交换，控制实现各节点间所选取一致性变量的协同一致；控制迭代计算过程在各节点的本地控制装置中完成，无需集中的控制计算中心。

(8)本发明完全分布式智能电网经济调度方法，可以直接从数据的角度，不依赖于明确的目标函数，不依赖于明确的物理原理来进行建模，能够应用到存在物理过程大部分人是无法控制的，存在不确定性，无法用具体的数学模型来表示其物理过程的风力发电、光伏发电等新能源发电的系统中，可扩展性高。

附图说明

图1为本发明基于深度强化学习的完全分布式智能电网经济调度方法的流程图；

图2为本发明实施例IEEE-14节点系统拓扑结构图；

图3为本发明实施例一致性变量仿真图；

图4为本发明实施例不平衡功率仿真图；

图5为本发明实施例各个可控单元的输出功率仿真图；

图6为本发明实施例多指令式一致性变量仿真图；

图7为本发明实施例多指令式不平衡功率仿真图；

图8为本发明实施例多指令可控单元的输出功率仿真图；

图9为本发明实施例三种算法的收敛效果对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例为一种基于深度强化学习的完全分布式智能电网经济调度方法，该方法包括以下步骤：

S2：初始化Q函数表和调度策略，并通过深度强化学习模型获取经济调度模型的局部最优解，并将局部最优解作为第一Q函数表；

S3：将第一Q函数表载入预训练后的深度卷积神经网络中进行更新，获取第二Q函数表；

S4：根据第二Q函数表，初始化各个机组的功率，将各个机组的功率载入基于完全一致性算法的增量成本求解模型中，并根据网络拓扑结构数据，获取满足预设的收敛条件的各机组的功率，从而更新第二Q函数表，获取全局最优解；

S5：采用经过步骤S4更新后的第二Q函数表进行智能电网经济调度。

下面对各步骤进行具体介绍：

1、建立经济调度模型

负荷分配的目标是寻找最优的调度策略，在N_c个已投入运行的可调单元(包含可调单元与柔性负荷单元，发电单元出力为正值，柔性负荷单元出力为负值)分配不可调的总刚性负荷，使得总成本最小，即

其中，C_i(·)为第i个可调单元运行时的成本函数，P_i为第i个可调单元的出力功率，N_c为已经投入运行的可调单元，常见凸形式的成本函数为二次函数形式：

C_i(P_i)＝a_iP_i ²+b_iP_i+c_i (2)

其中，a_i，b_i，c_i为第i个可调单元的成本系数。负荷分配受功率平衡约束和发电容量约束的制约，其中功率平衡约束的表达式为：

其中，P_loss为功率损失，P_i为第i个可调单元的总出力，D为不可调的总刚性负荷。可调单元的容量约束的表达式为：

P_i ^min≤P_i≤P_i ^max (4)

其中，P_i ^min和P_i ^max分别为已投入运行的第i个可调单元的最小输出功率和最大输出功率。

当面对一个共有N个可调单元的能源互联网给总刚性负荷D供电的情况时，该类问题则为机组组合问题。机组组合问题的目标是，找到一段时间T内的机组调度策略使得总成本最小，即

其中，N为可调单元的总个数,这些可调单元均可以停机或投入运行。I_i,t＝1(或I_i,t＝0)为可调单元i在第t时段内处于投入运行(或停机)状态。C_i,SD(t)为t时刻的停机成本，C_i,SU(t)为t时刻的启动成本，若T_i,D≤X_i,OFF(t)≤T_i,D+T_i,b2c，则t时刻的启动成本C_i,SU(t)为热启动成本C_i,hot；若X_i,OFF(t)≥T_i,D+T_i,b2c，则t时刻的启动成本C_i,SU(t)为冷启动成本C_i,cold，T_i,D为第i个可调单元的最短持续停机时间，X_i,OFF(t)为第i个可调单元在t时刻已经连续处于停机状态的时间，T_i,b2c为第i个可调单元选择停机状态冷却模式的经济性超越停机状态热态模式时的临界时间。

除在每一时间段满足负荷分配问题的约束条件外，所有可调单元i＝1,2,...,N还受最短持续运行/停机时间的约束：

式中，X_i,ON(t-1)为第i个可调单元在t时刻已经连续处于停机状态的时间，X_i,OFF(t-1)为第i个可调单元在t-1时刻已经连续处于停机状态的时间，T_i,U为第i个可调单元的最短持续启动时间，I_i,t-1为第i个可调单元在第t-1时段内的启停状态以及爬坡/滑坡约束：

-R_i,D≤(P_i,t-P_i,t-1)I_i,tI_i,t-1≤R_i,U (7)

式中，R_i,D为发电单元的最大滑坡能力，R_i,U为发电单元的最大爬坡能力。

将负荷分配问题和机组组合问题联合起来，转化为如下统一形式的经济调度模型：

P_i,t∈Ρ_i(S_i,t)＝{P_i,t|(3),(4),(6),(7)}

其中，γ∈(0,1]为折扣因子，F_i(·)为发电成本C_i(P_i,t)I_i,t+C_i,SU(t)+C_i,SD(t)，P_i,t为第i个可调单元在第t时刻的出力，P_i,t满足约束条件(3)、(4)、(6)和(7)，S_i,t为第i个可调单元的状态，定义为：

其中，T_i＝max{T_i,U,T_i,D,T_i,b2c}。P_i,0为第i个可调单元的初始出力状态，I_i,0为第i个可调单元的初始运行状态，P_i,t为第i个可调单元在t-1时刻的出力。

在经济调度模型中引入折扣因子γ，并写成公式(11)中统一形式，主要带来以下三个方面的好处：1)无限长时间区间内的经济调度问题在γ∈(0,1]是有定义的；2)有限时间段和无限长时间内的经济调度问题能够写成统一的表示形式；3)折扣因子γ和Sutton等引入的因子相对应，方便应用相关的强化学习理论。

2、深度强化学习模型

2.1、深度强化学习算法

强化学习基于马尔科夫决策过程(Markov decision process，MDP)，即系统下一时刻状态仅与当前时刻状态有关，而与前序状态无关。其问题模型通常被表示为一个元组(S，A，P，R)，其中：S表示状态的集合，A表示动作的集合，P表示状态转移概率，R表示奖惩函数。

在策略π下，当智能体在状态s_t时执行动作a_t，并以概率P转移到下一状态s_t+1，同时接收来自环境的反馈r_t。为降低未来回报对当前的影响，需要对未来的回报乘以折扣因子γ，则从τ时刻开始到T时刻情节结束时奖赏之和定义为：

状态-动作值函数Q_π(s,a)，即已知当前状态s和动作a，在策略π作用下产生的长期回报期望为：

Q_π(s,a)＝E_π[R_t|s_t＝s,a_t＝a] (13)

由此可得到贝尔曼方程(Bellman equation，BE)：

Q_π(s_t,a_t)＝E_π[r_t+1+γQ_π(s_t+1,a_t+1)|s_t,a_t] (14)

2.2、深度强化学习模型的处理步骤

本实施例深度强化学习包括以下步骤：

S201：使用贪婪算法选取下一阶段动作；

按照ε-贪婪算法选取动作来平衡探索和利用。具体地，以概率1-ε选取调度策略π(S_i,t)指定的动作，以概率ε等可能地选取发电功率P_i,t，同时满足约束(10)。

S202：收集当前状态以及下一阶段动作数据，并计算价值评分；

S203：更新状态-动作值函数值

在每一次访问(S_i,t,P_i,t)时，状态-动作值函数Q(S_i,t,P_i,t)按照式(15)进行更新。

其中，ρ表示本在状态S_i,t智能体t时刻采取动作P_i,t时的学习率，←表示更新，Q(S_i,t,P_i,t)为第i个可调单元在t时刻的状态-动作值函数，reward1_t为t时刻的Q函数表的更新奖励函数值，γ为折扣因子。在公式(15)中，(1-ρ)Q(S_i,t,P_i,t)表示对历史信息的处理，

引入了每一次访问所带来的新信息。

S204：若步骤S203更新后的Q函数表满足经济调度模型约束条件，则将当前的Q函数表作为第一Q函数表，否则根据当前的Q函数表更新调度策略，并依次执行步骤S202至S204。

根据当前的状态-动作值函数Q(S_i,t,P_i,t)改进调度策略π(S_i,t)

如果存在多个P_i,t+1使得目标值最小，则随机地选取其中一个P_i,t+1。

3、深度卷积神经网络(Deep Q Network)

当需要解决的问题模型未知或者状态空间很大时，无法通过状态转移函数或者表格的形式得到状态-动作值函数，而需要进一步用函数逼近的方法表示状态-动作值函数。表格型Q函数更新过程如式(15)所示，DQN(Deep Q Network)算法使用深度卷积神经网络(convolutional neural network，CNN)来逼近状态-动作值函数Q函数，此时深度卷积神经网络的预训练过程中，参数更新示意公式如式(17)所示：

式中，ω_t为t时刻的网络参数，用于更新Q函数，ω_t+1为t+1时刻的网络参数，

训练神经网络时，使用均方差定义误差函数：

其中，L(ω_t)为t时刻的网络参数下的误差函数值，ω为神经网络权值。求取误差函数关于ω的梯度，采用随机梯度下降来更新参数，直至满足预设的误差条件，从而得到最优的状态-动作值函数Q函数值，此时可以得到最优策略。

4、完全一致性算法

S401：根据第二Q函数表判断机组组合，并重新初始化各个机组功率；

S402：使用Adam算法更新各个机组功率，并求解各个增量成本；

基于随机梯度的优化在许多科学和工程领域具有核心实际意义。这些领域中的许多问题可以被视为某些标量参数化目标函数的优化，其需要关于其参数的最大化或最小化。如果函数相对于其参数是可微分的，则梯度下降是相对有效的优化方法，因为关于所有参数的一阶偏导数的计算与仅评估该函数具有相同的计算复杂度。通常，客观函数是随机的。例如，许多目标函数由一系列子函数组成，这些子函数是在不同子样本数据下评估的；在这种情况下，通过针对各个子功能采取梯度步骤，即随机梯度下降(SGD)或上升，可以使优化更有效。

本实施例运用Adam算法，一种有效的随机优化方法，来对完全分布式算法进行改进，以加快收敛速度。该算法是SGD的升级版，只需要一次内存需求很少的一阶梯度，并根据梯度的第一和第二矩的估计来计算不同参数的各个自适应学习速率。同时，参数更新的大小对于梯度的重新缩放是不变的，步长也是由步长超参数(the stepsizehyperparameter)所决定，不需要固定的目标。

设C(P)为目标函数：一个随机标量函数，它可以相对于参数微分。我们感兴趣的是最小化该函数的期望值：E[C(P)]及其关于参数P。对于

我们表示梯度，即C_k的偏导数的矢量，相对于在迭代步长k处评估的P。

该算法更新的是梯度m_k和平方梯度v_k的指数移动平均值(exponential movingaverages)，其中超参数β₁,β₂∈[0,1)控制这些移动平均值的指数衰减率。移动均值本身使用梯度的第一阶矩(均值)和第二阶原始矩(有偏方差)进行估计。

有偏差的第一阶矩估计和第二阶原始矩估计的更新迭代公式如下：

偏差校正后的第一阶矩估计和第二阶原始矩估计的计算迭代公式如下：

假设调整系数ε＝0，在迭代步长k参数空间中采取的有效下降步长遵循下式(23)

有效下降步长有两个上界，如下式(24)所示：

由于α设定了参数空间中有效步长大小的上限，因而通常可以推导出α的正确数量级，使得在一定次数的迭代中可以从P₀达到最优。

为加快收敛速度，我们定义信噪比系数(SNR)如下式所示。

式中，

为在第k次校正偏差后的梯度，

为在第k次校正偏差后的平方梯度。

那么，参数P的更新公式如下：

S403：使用完全一致性算法更新增量成本；

下面进行具体介绍：

4.1、增量成本的更新过程

一阶一致性算法是将系统中的所有变量收敛到同一值，离散系统下的迭代格式如下：

X(k+1)＝ΦX(k) (25)

式中：k为时间步数；X为由系统状态变量x_i构成的向量。改进后的一致项系数矩阵Φ矩阵需满足2个条件：1、为非负行随机方阵，即各行向量中的元素非负且加和为1；2、所有特征根都不大于1。

经过足够多次的迭代运算，系统的所有状态变量都会收敛到一个固定值

式中i＝1,2,...,N_c，n为系统中单元总数；x_i(0)为x_i的初值。

“等微增率准则”是解决电力系统调度优化问题的经典方法，表达如下：

式中：μ^*为系统边际成本微增率；μ_i,t为可控单元i的微增率，定义为(2)中的成本函数对功率的求导值，即

μ_i,t＝2a_iP_i,t+b_i (28)

在确定了μ^*后，便可逆推出可控单元的出力大小。

将各单元的成本微增率μ映射成一致性算法中的系统变量，通过信息交互，每一个智能体收集与其相邻的智能体的信息，进行完全分布式一致性计算，各μ在此进程中将向同一值收敛，这与“等微增率准则”要求一致。

4.2、“一致项+调整项”功率调整的更新

根据上节介绍的更新原则，选择成本微增率μ_i为一阶一致性算法的状态变量，构成“一致项”，由(28)可知在不断迭代的过程中，μ_i会向一个“特定值”逐渐逼近，但这个“特定值”并不一定是μ^*，即不能满足各种约束条件。因此只有“一致项”还不能正确求解模型，需要加入“调整项”反馈修正，使结果向μ^*逼近。修改一致性变量更新公式如下：

式中，μ_i(k+1)为第i个可调单元在k+1时刻的微增率，w_i,j为智能电网的网络拓扑结构的一致项系数矩阵第i行第j列的元素，ε_i为第i个可调单元的调整系数，f_i(k)为第i个可调单元在k时刻的调整项，f_i(k+1)为第i个可调单元在k+1时刻的调整项，v_i,j为转置后的一致项系数矩阵第i行第j列的元素，P_i(k+1)为第i个可调单元在k+1时刻的有功出力，D_i(k+1)为第i个可调单元在k+1时刻有功需求的实测值。

4.3、基于节点重要度的一致项系数矩阵的改进

在对网络拓扑结构的研究过程中，通常以节点度数作为衡量节点重要度的标准，认为与节点相连的边越多则该节点越重要。但是往往某些关键节点并不一定具有较大的度数。为了解决这个问题，本文采用节点收缩后的网络凝聚度来评估网络中的节点重要度。节点收缩后的网络凝聚度σ，即节点重要度定义如下：

式中，N为网络中的节点数目；l为节点之间的平均最短路径，d是用边的数目表示的网络中任意两节点i和j之间的最短距离，V是网络中所有节点组成的集合。从式(31)可以看出，节点重要度主要取决于节点度数和节点在网络中的位置：1、在相同条件下，度数越大的节点收缩以后网络中节点和边的数目就越少，网络凝聚度就越大，该节点越重要；2、处于“要塞”位置的节点重要度较高，因为很多节点对之间的最短路径都要经过该节点，该节点收缩后将减少网络的平均最短距离，网络凝聚度较大。

实际上，由于在智能电网中各个节点的位置信息对整个网络稳定性以及计算速度的影响不尽相同，依据节点重要度来定义一致项系数矩阵Φ，借助节点重要度来描述节点在网络拓扑中的地位，重要度高的节点被赋予较大的自设权重，反之将被赋予较小的自设权重，从而使得算法能充分挖掘数据的有用信息，提高算法的收敛速度。基于节点重要度和公式(31)，定义改进后的邻接矩阵A'。A'中元素的取值方式为

式中，Φ为一致项系数矩阵，N为可调单元的数目，网络拓扑结构数据中的节点由一个或多个可调单元构成，第i个可调单元位于网络拓扑结构数据中第m个节点中，第j个可调单元位于网络拓扑结构数据中第n个节点中，σ_m为网络拓扑结构数据中第m个节点的网络凝聚度，D_m为网络拓扑结构数据中与第m个节点相连的节点的集合，d_m,n为网络拓扑结构数据中第m个节点与第n个节点的最短距离。可见改进后的邻接矩阵A'仍保持行随机属性。那么一致项系数矩阵为Φ＝(w_i,j)_N×N，其中w_i,j＝-a'_i,j，

用于公式(25)、(29)和(30)中。

4.4、初始状态的设定

“功率调整项”的引入是为了使优化结果满足功率平衡的等式约束。在其计算过程中，“功率调整项”通过式(29)决定一致性变量收敛方向，使得功率决策结果不断逼近最优解，在迭代的过程中“功率调整项”之和与能源互联网内部的有功功率缺额之差保持不变。因此在设置初值时，使初始值满足下列约束公式(33)。

在计算过程中，f_i作为系统的负反馈会向0收敛，当所有f_i收敛到0时，即表示系统有功缺额为0，至此等式约束满足。同时，式(28)中的μ_i在一致项的作用下迭代到的“收敛值”即为μ^*。

5、具体实施试验

在不考虑传输损耗的情况下，搭建并研究了IEEE-14节点系统中所提出的完全分布式经济调度管理策略的性能。系统拓扑结构如下图2所示。图2中，G为火力发电单元，WG为风力发电单元，MG(Main Grid)为主网，Transformer为变压器，Breaker为路断器，1至14为系统拓扑结构的节点，BESS为储能装置。图2中的系统拓扑结构的节点与可调单元没有关系，本实施例中IEEE-14节点系统的14节点与14个可调单元数值上相等属于巧合。IEEE-14节点系统是美国电气和电子工程师协会(IEEE，全称是Institute of Electrical andElectronics Engineers)公认用于电力系统分析的标准模拟仿真系统，还有IEEE-118，IEEE-36等众多仿真系统，每一个节点上不一定只连接一个可调单元。

假设经检测，传达给能源互联网的调度指令为总的功率不平衡量是ΔP＝52.3kW，需要对整个系统进行平衡与调度，使用本发明算法计算，仿真实验数据图如图3、4、5所示。图3中DG1、DG2至DG14为各可调单元的出力。图4中，delta_perror为整个系统的不平衡功率。

由于在现实情况下负荷并非一成不变，调度指令会随着负荷与总发电机组的功率之差和当前系统整体状况而发生变化，因而为了验证所提算法在因负荷变化而引起的发电功率指令连续变化情况下的有效性，调度指令依次设为28.7kW，50kW，82.6kW和118.7kW，调度周期为0.4s，以此来模拟本发明所提出的算法在真实调度系中的运算情况。仿真实验图如图6、7、8所示。

为验证所提出的算法的高效性，该小节使用几种较为常用的传统算法(传统一致性算法、基于节点重要度算法和本发明算法)来解决第一个算例中的问题，即调度指令为总的功率不平衡量是ΔP＝18.7kW。通过不平衡功率收敛至0的过程，来反应各个算法收敛的效率。具体数据如图9所示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度强化学习的完全分布式智能电网经济调度方法，其特征在于，该方法包括以下步骤：

S2：初始化Q函数表和调度策略，并通过深度强化学习模型获取所述经济调度模型的局部最优解，并将所述局部最优解作为第一Q函数表；

S4：根据第二Q函数表，初始化各个机组的功率，将各个机组的功率载入基于一致性原理的机组功率求解模型中，并根据网络拓扑结构数据，获取满足预设的收敛条件的各机组的功率，从而更新第二Q函数表，获取全局最优解；

S5：采用全局最优解进行智能电网经济调度；

所述Q函数表包括状态-动作值函数；

步骤S3中，所述深度卷积神经网络的预训练过程具体为，通过随机梯度下降更新网络参数，从而更新第一Q函数表，直到满足预设的误差条件；所述网络参数的更新表达式为：

式中，ω_t为t时刻的网络参数，ω_t+1为t+1时刻的网络参数，

为t时刻的网络参数下的随机梯度下降策略，ξ为深度卷积神经网络的学习率，reward2_t为深度卷积神经网络在t时刻的奖励函数值，γ为折扣因子，Q(S_i,t,P_i,t)为第i个可调单元在t时刻的状态-动作值函数，Q(S_i,t+1,P_i,t+1)为第i个可调单元在t+1时刻的状态-动作值函数；

所述误差条件根据误差函数值设定，所述误差函数值的计算表达式为：

式中，L(ω_t)为t时刻的网络参数下的误差函数值。

2.根据权利要求1所述的一种基于深度强化学习的完全分布式智能电网经济调度方法，其特征在于，步骤S1中，所述基于负荷分配和机组组合的经济调度模型的表达式包括：

目标函数：

约束条件：

P_i,t∈P(S_i,t)

式中，γ为折扣因子，γ^t-1为t-1时刻的累计折扣因子，F_i(·)为经济成本函数，P_i,t为第i个可调单元在t时刻的出力，S_i,t为第i个可调单元在t时刻的状态，P_loss为功率损失，D_t为t时刻不可调的总刚性负荷，N_c为已投入的可调单元的总个数；所述可调单元包括可调单元与柔性负荷单元，所述可调单元出力为正值，所述柔性负荷单元出力为负值；

F_i(·)＝C_i(P_i,t)I_i,t+C_i,SU(t)+C_i,SD(t)