CN115441437A

CN115441437A - 基于深度强化学习的区域电网日前-日内联合调度方法

Info

Publication number: CN115441437A
Application number: CN202211102713.XA
Authority: CN
Inventors: 唐昊; 梁硕哲; 张莹杰; 王正风; 程文娟; 梁肖; 高卫恒; 栾喜臣
Original assignee: Hefei University of Technology; State Grid Anhui Electric Power Co Ltd
Current assignee: Hefei University of Technology; State Grid Anhui Electric Power Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-12-06

Abstract

本发明属于电力系统调度优化技术领域，更具体地，涉及一种基于深度强化学习的区域电网日前‑日内联合调度方法，其建立了区域电网日内滚动调度优化模型，并提出了一种基于深度强化学习的调度策略求解。首先，日前调度计划每日根据日前风电及负荷预测曲线进行制定；然后，针对区域电网建立日内滚动调度模型：目标函数和约束条件；最后，利用深度强化学习算法对日内滚动模型进行求解。该方法在日前调度计划与AGC调控之间加入日内滚动计划，使得调度计划之间的衔接更加紧密、过渡更加平稳。深度强化学习算法相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性，极大提升了求解效率。

Description

基于深度强化学习的区域电网日前-日内联合调度方法

技术领域

本发明属于区域电网调度优化领域，更具体地，涉及一种基于深度强化学习的区域电网日前-日内联合调度方法。

背景技术

由于新能源发电为典型的间歇性电源，其出力具有波动性和不确定性，如果仅根据传统调度方法难以满足调度需求从而造成弃风或失负荷。因此有必要深入研究一种新的调度方法对区域电网中各类资源进行合理调度，进一步提高新能源的消纳率。

由于风电等可再生资源出力与负荷需求的日前预测误差通常难以避免，如果仅根据日前风电及负荷预测数据制定次日机组组合和机组出力计划，在AGC环节将会出现较大功率不平衡量，有时难以消除从而造成弃风或失负荷。通常，风电等可再生能源发电出力和负荷需求的预测精度与时间尺度直接相关，比如日内预测精度一般高于日前预测精度。此外，电力系统中柔性负荷等各类可调度资源的响应速度可能不同，采用传统日前调度环节直接与AGC环节衔接的模式难以充分利用区域电网中弹性资源的多时间尺度特性。然而目前的研究中，未能充分利用区域电网中弹性资源的多时间尺度特性，使得调度计划之间的衔接不够紧密，过渡不够平稳。

目前，针对电力调度模型的求解方法主要有传统求解器求解和深度强化学习算法求解。传统基于数学模型的求解器求解方法可以得到最优解，但对于混合整数规划问题计算效率不高，有时不能满足实时性要求。深度强化学习算法求解为解决此类问题提供了新思路。优势行动器-评判器(Advantage ActorCritic,A2C)算法是一种更快、更简单和更鲁棒的并行深度强化学习算法，它可以在连续的动作空间中工作。A2C利用同步学习器进行训练，即在一台机器上使用多个CPU线程(此处每个线程称为一个学习器)，以更高效地学习，其求解速度远远快于传统方法。随着源荷双侧弹性资源大量加入电网，在问题规模进一步扩大的情况下，深度强化学习方法可以更好的适应调度需求。因此，研究基于深度强化学习的电力调度方法具有重要的理论意义和应用价值。

发明内容

针对现有技术中存在的问题，本发明提出一种基于深度强化学习的区域电网日前-日内联合调度方法，该方法在日前调度计划与AGC调控之间加入日内滚动计划，以使得调度计划之间的衔接更加紧密、过渡更加平稳。

为实现上述目的，本发明采用如下技术方案：

基于深度强化学习的区域电网日前-日内联合调度方法，包括以下步骤：

步骤1：日前调度计划每日根据日前风电及负荷预测曲线进行制定，得到火电机组的启停计划、火电机组出力计划、A类可削减负荷补偿价格及削减量、可平移负荷运行起始时间；

步骤2：日内滚动调度模型的目标函数为最小化系统运行成本与风险成本之和，约束为日内功率平衡约束、线路传输容量约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束；

步骤3：利用深度强化学习完成日内滚动调度模型求解，获得日内调度计划。

本技术方案进一步的优化，所述步骤2中建立日内滚动调度模型目标函数：

其中，k为当前的时段，要对未来M*ΔT时段的风电出力和负荷需求进行预测；P_i,t为火电机组i的日前出力计划，在日内滚动调度模型中为已知量；ΔP_i,t为火电机组i在日内t时段的出力调整量，为模型的决策变量；

和

分别为火电机组i在日内出力调整后的煤耗成本、附加煤耗成本和寿命损耗成本；

为t时段 B类可削减负荷调度成本；

为t时段弃风风险成本；

为t时段火电机组i的失负荷风险成本；δ_i,t为火电机组i的日前启停计划，在日内滚动调度模型中为已知量；a_i、b_i和c_i为机组i的煤耗成本系数；

为机组i运行在深度调峰状态下的煤耗率系数；υ_i为机组i 在常规最小技术出力状态下的煤耗率系数；z_i,t用来表示火电机组是否处于深度调峰状态，当机组运行于常规最小技术出力之下时，该值为1，当机组运行于常规最小技术出力之上时，该值为0；ε_i为火电机组在额定出力下的煤耗率；ρ^coal为单位煤炭价格；N_i,t(P_i,t+ΔP_i,t) 为机组i的转子致裂循环周次，其取值与(P_i,t+ΔP_i,t)密切相关；ω_i为火电机组运行损耗系数；

为机组i的购机成本；ΔT为t时段的时间长度；ΔP_t ^B表示t时段B类可削减负荷的负荷削减量；

为t时段B类可削减负荷的补偿价格；λ^cw为单位电量的弃风风险成本系数；N_w为区域电网内风电场数量；

为t时段风电出力和负荷需求极端场景下第j个风电场的弃风功率；λ^cl为单位电量的失负荷风险成本系数；ΔP_t ^cl为t时段风电出力和负荷需求极端场景下区域电网的失荷功率。

本技术方案更进一步的优化，所述步骤2中建立日内滚动调度模型约束条件：

所述约束条件主要包括日内功率平衡约束、线路潮流约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束如下式所示：

所述日内功率平衡约束：

其中，N_g为区域电网内火电机组数量，N_w为区域电网内风电场数量，i,j分别表示当前火电机组i和风电机组j；

和

为日内超短期负荷预测及风电预测功率，ΔP_t ^B为B类可削减负荷备用调用量；ΔP_t ^A为A类可削减负荷调用量；ΔP_t ^cl为t时段切负荷量；P_t ^sh为可平移负荷经调度后t时段用电功率；P_t ^sh*为可平移负荷经调度前t时段用电功率；

所述火电机组出力上下限约束：

P_i ^min≤P_i,t+ΔP_i,t≤P_i ^max

其中，P_i ^min和P_i ^max分别为火电机组i的最大、最小出力，对于常规火电机组，P_i ^min为常规最小技术出力，对于经灵活性改造后的深度调峰机组，P_i ^min为机组改造后的最大调峰深度；

和

分别为区域电网在深度调峰机组i在t时段向上和向下备用容量值；

所述火电机组爬坡约束：

-r_i ^downΔT≤(P_i,t+ΔP_i,t)-(P_i,t-1+ΔP_i,t-1)≤r_i ^upΔT

其中，r_i ^down和r_i ^up分别为火电机组i向下和向上爬坡的速率，ΔT为t-1到t时段的时间间隔；

所述线路潮流约束：

其中，T_l,g、T_l,j和T_l,b为功率传输分配系数，

为经调度后区域电网t时段在节点k的日内超短期预测负荷值，且

F_l ^max为线路l潮流上限；

所述B类可削减负荷备用调用约束：

0≤ΔP_t ^B≤P_t ^B。

本技术方案进一步的优化，所述步骤3具体如下：

根据步骤2所建立的日内滚动调度模型，建立马尔科夫决策模型，决策过程的变量包括：

1)状态空间构造：状态空间包括区域电网的超短期负荷预测值、超短期风电预测值、上时刻机组出力、日前调度计划，即：

S＝{P^w,P^l,P,P^day-ahead}

其中，P^w为区域电网日内超短期风电预测状态集合；P^l为日内超短期负荷功率预测状态集合；P为上一时刻各火电机组出力状态集合；P^day-ahead为区域电网日前调度计划状态集合；

2)动作空间构造：包括火电机组出力调整量区间、B类可削减负荷补偿价格及可削减量区间，即：

A＝{ΔP,ρ^B,ΔP^B}

其中，ΔP为区域电网日内火电机组出力调整动作集合；ρ^B为B类可削减负荷补偿价格动作集合；ΔP^B为B类可削减负荷削减量动作集合；

3)奖励函数构造：包括区域电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分，其中，区域电网日内滚动调度计划运行成本和弃风/失负荷惩罚即为权利要求5所述的目标函数，安全约束惩罚为系统支路潮流越限惩罚，即电网内部支路的潮流超过了其所能承受的极限值，可表示为：

其中，

为潮流越限惩罚；ρ^pf为潮流越限惩罚系数；μ_l,t为0-1变量，代表支路l在t时刻是否越限，μ_l,t＝1表示线路潮流越限，μ_l,t＝0表示线路潮流未越限；L为区域电网内支路总数；

因此，智能体奖励函数R可以表示为：

为使奖励最大化，电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分之和必须最小。

本技术方案进一步的优化，所述步骤3的深度强化学习算法为A2C算法。

本技术方案更进一步的优化，所述A2C算法设计：

A2C算法从组成上来看共包含两个深度网络，即Actor网络和Critic网络，Actor网络输入系统状态信息，输出当前状态下动作选择概率，Critic网络输入系统状态信息，输出当前状态的值函数；Actor网络和Critic网络根据区域电网调度环境信息，分别输出未来4h的调度计划和当前状态的状态值函数，将调度计划作用于外部环境获得下一状态和奖励，并将其作为网络训练的数据；训练完成后，Actor网络的输出即为区域电网的日内滚动调度计划。

本技术方案更进一步的优化，

Actor网络需要根据Critic网络的反馈进行更新，而Critic网络根据智能体与环境交互所产生的状态转移进行更新；Critic网络采用网络参数θ^v实现对状态值函数V(s；θ^v)的拟合，并根据状态值函数进行参数更新，可以表达为：

式中：L(θ^v)为网损函数，r为此时的奖励，γ为折扣因子，

为在状态s_t+1时的价值函数，

为在状态s_t时的价值函数，

为i时的Critic网络参数；

Critic网络输入系统状态信息，输出当前状态的值函数，对于Actor网络，其将动作策略近似为函数表达即π(s,a)≈π(a|s；θ^π)，并对其进行进一步的拟合近似可得到下式，

式中：θ^π为Actor网络的权重参数；与状态转移概率P不同，p(a|s,θ^π)表示网络参数为θ^π时在状态s下采取动作a的概率；

策略π的目标函数可以表示为

式中，R(a|s)表示在状态s下执行动作a的奖励，

表示网络参数为θ^π时在状态s下采取动作a的概率，J(θ^π)表示网络参数为θ^π时的策略，

表示网络参数为θ^π时在状态s下采取动作a所获得的奖励期望；

根据梯度下降法，可知

式中，

为t时刻的Actor网络的权重参数，

为t+1时刻的Actor网络的权重参数，α为学习率；

进一步，根据▽f(x)＝f(x)▽logf(x)可以推出

采用动作值函数Q^π(s,a)替换R可以得到

为使反馈值既可以大于零又可以小于零，增加状态值函数V^π(s)作为基线值，可以得到

定义优势函数A(s,a)为

根据上式可得

更一般地，可以将其表示为

Actor网络同样输入系统状态信息，输出当前状态下动作选择概率，与Critic网络相比Actor网络的输出层分为均值层和标准差层，通过输出的均值和方差组成一个正态分布，进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作，通过这种方式实现了动作的连续取值，同时也保证了火电机组不会出现爬坡越限和出力越限。

区别于现有技术，本发明有益效果主要表现在：

1.本发明在日前调度计划与AGC调控之间加入日内滚动计划，传统的两时间尺度(日前+AGC)调度模式不够精细，缺少中间过渡环节，仅根据日前风电及负荷预测数据制定次日机组组合和机组出力计划，在AGC环节将会出现较大功率不平衡量，有时难以消除从而造成弃风或失负荷，加入日内滚动调度，使得调度计划之间的衔接更加紧密、过渡更加平稳。

2.本发明采用深度强化学习算法对日内滚动调度模型进行求解，由于区域电网调度中心在日内滚动调度阶段需要B类可削减负荷聚合商进行交互，且日内滚动调度时间尺度较短，系统对调度计划的制定有一定实时性要求，利用深度强化学习算法可以提高计算效率，相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性。

附图说明

图1为区域电网的架构示意图；

图2为日前-日内滚动调度流程图；

图3为Critic网络结构示意图；

图4为Actor网络结构示意图；

图5为A2C算法训练框架图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

本发明公开了一种基于深度强化学习的区域电网日前-日内联合调度方法，在日前调度计划与AGC调控之间加入日内滚动计划，使得调度计划之间的衔接更加紧密、过渡更加平稳。所述深度强化学习算法相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性。

请参阅图1所示，区域电网的架构示意图。区域电网的电力系统包括：常规火电机组、深度调峰机组、风力发电机组、刚性负荷和柔性负荷，柔性负荷包括可削减负荷和可平移负荷；可削减负荷包括A类可削减负荷和B类可削减负荷；A类可削减负荷为响应速度较慢，提前通知时间较长的负荷，调度中心在日前对A类可削减负荷做出计划并下达指令； B类可削减负荷为调节周期较短、响应速度较快的负荷，调度中心在日内较短时间内对B 类可削减负荷做出计划并下达指令。

参阅如图2所示，日前-日内滚动调度流程示意图，包括如下步骤，

步骤2：建立日内滚动调度模型：目标函数、约束条件。目标函数为最小化系统运行成本与风险成本之和，约束为日内功率平衡约束、线路潮流约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束：

步骤2.1：建立日内滚动调度模型目标函数：

和

为t时段 B类可削减负荷调度成本；

为t时段弃风风险成本；

为机组i运行在深度调峰状态下的煤耗率系数；υ_i为机组i 在常规最小技术出力状态下的煤耗率系数；z_i,t用来表示火电机组是否处于深度调峰状态，当机组运行于常规最小技术出力之下时，该值为1，当机组运行于常规最小技术出力之上时，该值为0；ε_i为火电机组在额定出力下的煤耗率；ρ^coal为单位煤炭价格。N_i,t(P_i,t+ΔP_i,t) 为机组i的转子致裂循环周次，其取值与(P_i,t+ΔP_i,t)密切相关；ω_i为火电机组运行损耗系数；

为t时段风电出力和负荷需求极端场景下第j个风电场的弃风功率；λ^cl为单位电量的失负荷风险成本系数；ΔP_t ^cl为t时段风电出力和负荷需求极端场景下区域电网的失荷功率；

步骤2.2：建立日内滚动调度模型约束条件：

所述约束条件主要包括日内功率平衡约束、线路传输容量约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束如下式所示：

所述日内功率平衡约束：

其中，N_g为区域电网内火电机组数量，N_w为区域电网内风电场数量，i,j分别表示当前火电机组i和风电机组j；P_t ^loadl和

为日内超短期负荷预测及风电预测功率。ΔP_t ^B为B类可削减负荷备用调用量；ΔP_t ^A为A类可削减负荷调用量；ΔP_t ^cl为t时段切负荷量；P_t ^sh为可平移负荷经调度后t时段用电功率；P_t ^sh*为可平移负荷经调度前t时段用电功率；

所述火电机组出力上下限约束：

P_i ^min≤P_i,t+ΔP_i,t≤P_i ^max

和

分别为区域电网在深度调峰机组i在t时段向上和向下备用容量值。

所述火电机组爬坡约束：

-r_i ^downΔT≤(P_i,t+ΔP_i,t)-(P_i,t-1+ΔP_i,t-1)≤r_i ^upΔT

其中，r_i ^down和r_i ^up分别为火电机组i向下和向上爬坡的速率，ΔT为t-1到t时段的时间间隔。

所述线路潮流约束：

其中，T_l,g、T_l,j和T_l,b为功率传输分配系数，

F_l ^max为线路l潮流上限。

所述B类可削减负荷备用调用约束：

0≤ΔP_t ^B≤P_t ^B

步骤3：利用深度强化学习求解日内调度模型：

S＝{P^w,P^l,P,P^day-ahead}

其中，P^w为区域电网日内超短期风电预测状态集合；P^l为日内超短期负荷功率预测状态集合；P为上一时刻各火电机组出力状态集合；P^day-ahead为区域电网日前调度计划状态集合。

A＝{ΔP,ρ^B,ΔP^B}

其中，ΔP为区域电网日内火电机组出力调整动作集合；ρ^B为B类可削减负荷补偿价格动作集合；ΔP^B为B类可削减负荷削减量动作集合。

3)奖励函数构造：包括区域电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分。其中，区域电网日内滚动调度计划运行成本和弃风/失负荷惩罚即为步骤2.1中建立日内滚动调度模型目标函数。安全约束惩罚为系统支路潮流越限惩罚，即电网内部支路的潮流超过了其所能承受的极限值，可表示为：

其中，

为潮流越限惩罚；ρ^pf为潮流越限惩罚系数；μ_l,t为0-1变量，代表支路l在t 时刻是否越限，μ_l,t＝1表示线路潮流越限，μ_l,t＝0表示线路潮流未越限；L为区域电网内支路总数。

因此，智能体奖励函数R可以表示为：

A2C算法设计：

参阅如图3所示，Critic网络结构示意图。Critic网络输入系统状态信息，输出当前状态的值函数。通过输入层，隐含层，输出层得到当前状态的值函数。

A2C算法从组成上来看共包含两个深度网络，即Actor网络和Critic网络。Actor网络输入系统状态信息，输出当前状态下动作选择概率，Critic网络输入系统状态信息，输出当前状态的值函数。Actor网络和Critic网络根据区域电网调度环境信息，分别输出未来4h的调度计划和当前状态的状态值函数，将调度计划作用于外部环境获得下一状态和奖励，并将其作为网络训练的数据。训练完成后，Actor网络的输出即为区域电网的日内滚动调度计划。

Actor网络需要根据Critic网络的反馈进行更新，而Critic网络根据智能体与环境交互所产生的状态转移进行更新。Critic网络采用网络参数θ^v实现对状态值函数V(s；θ^v)的拟合，并根据状态值函数进行参数更新，可以表达为：

式中：L(θ^v)为网损函数，r为此时的奖励，γ为折扣因子，

为在状态s_t+1时的价值函数，

为在状态s_t时的价值函数，

为i时的Critic网络参数。

Critic网络输入系统状态信息，输出当前状态的值函数。对于Actor网络，其将动作策略近似为函数表达即π(s,a)≈π(a|s；θ^π)，并对其进行进一步的拟合近似可得到下式。

式中：θ^π为Actor网络的权重参数；与状态转移概率P不同，p(a|s,θ^π)表示网络参数为θ^π时在状态s下采取动作a的概率。

策略π的目标函数可以表示为

式中，R(a|s)表示在状态s下执行动作a的奖励，

表示网络参数为θ^π时在状态s下采取动作a所获得的奖励期望。

根据梯度下降法，可知

式中，

为t时刻的Actor网络的权重参数，

为t+1时刻的Actor网络的权重参数，α为学习率。

进一步，根据

可以推出

采用动作值函数Q^π(s,a)替换R可以得到

定义优势函数A(s,a)为

根据上式可得

更一般地，可以将其表示为

Actor网络同样输入系统状态信息，输出当前状态下动作选择概率。与Critic网络相比Actor网络的输出层分为均值层和标准差层，通过输出的均值和方差组成一个正态分布，进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作，通过这种方式实现了动作的连续取值，同时也保证了火电机组不会出现爬坡越限和出力越限。

A2C算法的调度优化框架：

Actor网络和Critic网络根据区域电网调度环境信息，分别输出未来4h的调度计划和当前状态的状态值函数，将调度计划作用于外部环境获得下一状态和奖励，并将其作为网络训练的数据。训练完成后，Actor网络的输出即为区域电网的日内滚动调度计划。

本发明在日前调度计划与AGC调控之间加入日内滚动计划，使得调度计划之间的衔接更加紧密、过渡更加平稳。所述深度强化学习算法相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性，极大提升了求解效率。

参阅如图4所示，Actor网络结构示意图。Actor网络输入系统状态信息，输出当前状态下动作选择概率。与Critic网络相比，Actor网络的输出层分为均值层和标准差层，通过输出的均值和方差组成一个正态分布，进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作，通过这种方式实现了动作的连续取值，同时也保证了火电机组不会出现爬坡越限和出力越限。

由于Actor网络与Critic网络的输入信息均为区域电网的调度环境信息，其各自的输入层和隐含层均是对区域电网调度环境信息进行特征提取。因此，本文将Actor网络与Critic网络的输入层和隐含层合并，即Actor网络与Critic网络共用相同的输入层与隐含层。

参阅如图5所示，为A2C算法训练框架图。Actor网络和Critic网络根据区域电网调度环境信息，分别输出未来4h的调度计划和当前状态的状态值函数，将调度计划作用于外部环境获得下一状态和奖励，并将其作为网络训练的数据。训练完成后，Actor网络的输出即为区域电网的日内滚动调度计划。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.基于深度强化学习的区域电网日前-日内联合调度方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度强化学习的区域电网日前-日内联合调度方法，其特征在于，所述步骤2中建立日内滚动调度模型目标函数：

和

为t时段B类可削减负荷调度成本；

为t时段弃风风险成本；

为机组i运行在深度调峰状态下的煤耗率系数；υ_i为机组i在常规最小技术出力状态下的煤耗率系数；z_i,t用来表示火电机组是否处于深度调峰状态，当机组运行于常规最小技术出力之下时，该值为1，当机组运行于常规最小技术出力之上时，该值为0；ε_i为火电机组在额定出力下的煤耗率；ρ^coal为单位煤炭价格；N_i,t(P_i,t+ΔP_i,t)为机组i的转子致裂循环周次，其取值与(P_i,t+ΔP_i,t)密切相关；ω_i为火电机组运行损耗系数；