CN108964042A

CN108964042A - 基于深度q网络的区域电网运行点调度优化方法

Info

Publication number: CN108964042A
Application number: CN201810819706.9A
Authority: CN
Inventors: 唐昊; 王诗平; 王珂; 姚建国; 杨胜春; 吕凯
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2018-12-07
Anticipated expiration: 2038-07-24
Also published as: CN108964042B

Abstract

本发明提供了一种基于深度Q网络的区域电网运行点调度优化方法，包括步骤：确定区域电网运行点调度中心的调度架构；将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型，该模型包含状态、行动、代价及优化目标函数；利用深度Q网络对马尔科夫动态决策过程模型进行策略求解；区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量；区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息，动态确定下一调度时段的电网运行点。本发明可有效应对新能源出力与负荷需求的随机性，充分发挥源‑荷互动调度潜力，维持区域电网功率的动态平衡，提高电网系统运行效率。

Description

基于深度Q网络的区域电网运行点调度优化方法

技术领域

本专利涉及电网智能调度技术领域，具体涉及一种基于深度Q网络的区域电网运行点调度优化方法。

背景技术

随着大规模风电并网和柔性负荷的迅速发展，源-荷双侧不确定性对电网调度运行的影响日益严重，源-荷互动为源-网-荷互动框架体系的重要组成部分，能够促进发用电资源的合理利用，提高系统运行的安全性、经济性、清洁性等综合效益。

现有技术中，存在在日前调度计划模型中考虑可中断负荷和激励负荷的方案，体现了负荷侧资源的潜在调峰效益，如杨楠等[杨楠,王波,刘涤尘,等.计及大规模风电和柔性负荷的电力系统供需侧联合随机调度方法[J].中国电机工程学报,2013,33(16):63-69.]；也存在设计一种多时间尺度滚动协调的需求响应调度框架的方案，体现了负荷侧资源在不同时间尺度的调度潜力，如姚建国等[姚建国,杨胜春,王珂,等.平衡风功率波动的需求响应调度框架与策略设计[J].电力系统自动化,2014,38(9):85-92.]基于风功率波动和负荷响应的特征；还存在构建基于日前和实时调度的互动决策模型的方案，实现了间歇性能源和柔性负荷的协调优化，如Galvan等[Galvan E,Alcaraz G G,Cabrera N G.Two-phase Short-term Scheduling Approach with Intermittent Renewable EnergyResources and Demand Response[J].IEEE Latin America Transactions,2015,13(1):181-187.]。这些方案，是通过柔性负荷调度来应对发电侧资源的随机性问题，对电网运行点动态调度具有一定借鉴意义，然而传统处理不确定性电网调度问题的方法主要集中于鲁棒优化方法、不确定规划等，在解决区域电网运行点动态调度问题时，随着问题规模的增大，传统的算法会出现计算量大，“维数灾”、难以得到全局最优解等问题，其在线应用存在很大挑战。

发明内容

本发明的目的是提供一种基于深度Q网络的区域电网运行点调度优化方法，可有效应对新能源出力与负荷需求的随机性，充分发挥源-荷互动调度潜力，维持区域电网功率的动态平衡，提高电网系统的运行效率。

为了克服现有技术存在的问题，达到上述目的，本发明提供了一种基于深度Q网络的区域电网运行点调度优化方法，其包括以下步骤：

确定区域电网运行点调度中心的调度架构；

将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型，该模型包含状态、行动、代价及优化目标函数；

利用深度Q网络对所述马尔科夫动态决策过程模型进行策略求解，获得优化策略；

其中，所述区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量；

所述调度架构至少包括N_G个常规火电机组、N_W个风电机组和N_F个DLC柔性负荷代理；

所述区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息，动态确定下一调度时段的电网运行点。

优选的是，建立所述马尔科夫动态决策过程模型，包括以下步骤：

将一天的时间等分为K+1个调度时段，采用等周期决策，决策时刻为调度时段k的起始时刻t_k，其中k∈{0,1,…K}，则所述区域电网运行点调度中心在一天开始前从系统读取当天各时段的短期风电出力预测信息为P_Wjk、短期负荷功率预测信息为P_Lk、日前调度计划确定的火电机组启停为μ_ik及出力为P_Gik、柔性负荷可调度容量为P_Dlkmax；

在所述决策时刻t_k，所述区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为和负荷功率超短期预测数据为组成系统在k时刻的状态

定义所述决策时刻t_k系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔP_Gik、风电机组弃风量以及柔性负荷削减量P_Dlk，将ΔP_Gik、以及P_Dlk分别离散为一系列固定值，则ΔP_Gik、和P_Dlk所取固定值的任一组合对应一种行动，即

定义所述区域电网在一个决策周期产生的运行代价c_k，由决策周期对应调度时段k内火电机组出力调整代价柔性负荷补偿代价弃风补偿代价和未满足约束条件的惩罚代价组成，则运行代价c_k表征为：

定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为V^π(s)：

其中，π为优化策略，为系统状态s_k到行动a_k的映射，E为期望；优化性能准则函数V^π(s)即是在策略π下的期望。

优选的是，利用深度Q网络进行策略求解以获得优化策略，包括以下步骤：

构造深度Q网络，包括当前值网络和目标值网络，初始化当前值网络权重参数θ_i、目标值网络权重参数输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ，定义任意一个样本轨道为m，样本轨道总数为M，令m＝0；

令k＝0，随机初始化系统状态s_k；

构造深度Q网络的输入序列由当前状态s_k和记录的前W个决策时刻的状态、动作组成，当k＜W时，当k≥W时，将序列输入到当前值网络，当前值网络的输出用来评估当前状态行动对的值函数，选取最小Q值对应的行动a^greedy，同时，随机选取有效行动a^rand，采用ε-贪心策略选取行动a_k，若ε＜rand(0,1)成立，则将a^greedy赋值给a_k，否则将a^rand赋值给a_k，逐渐减小ε的取值；

所述区域电网运行点调度中心执行决策时刻t_k的行动a_k，并观察决策周期内产生的运行代价c_k，经过一个决策周期后，观察下一决策时刻的状态s_k+1并构造输入序列将一条学习样本存储到经验池，判断经验池样本数是否大于经验池容量D，若是，则移除记忆最久远的一条样本；

判断经验池内学习样本数是否大于批训练样本数B，若是，则从经验池中随机抽取B条学习样本对当前值网络进行批训练，并判断k与K的大小，即，若k＜K，令k＝k+1，返回至构造深度Q网络的输入序列的步骤；若k＝K，令m＝m+1；

若m＜M，返回至随机初始化系统状态s_k的步骤；否则结束循环，完成当前值网络的参数训练，得到最优策略

优选的是，区域电网调度中心在运行时执行所述运行点调度优化策略，包括以下步骤：

构造实际决策时刻t_k下的输入序列至少包括实际决策时刻t_k下的状态信息；

根据最优策略选取最优行动得到该决策周期内各火电机组出力调整量ΔP_Gik、风电机组弃风量以及柔性负荷削减量P_Dlk。

优选的是，离散为一系列固定值，包括以下步骤：

将火电机组i出力调整量ΔP_Gik从ΔP_Gik ^-到ΔP_Gik ⁺离散化为共(2a+1)个固定值，其中ΔP_Gik ^-和ΔP_Gik ⁺分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力上调和下调容量；

将柔性负荷代理l的负荷削减量P_Dlk从0到P_Dlkmax离散化为共(b+1)个固定值，其中P_Dlkmax为柔性负荷代理l的最大可调度容量；

将风电机组弃风量从0到离散化为共(h+1)个固定值，其中α_jk为风电机组j的最大可接受弃风率；

行动空间维度为

优选的是，所述约束条件，至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束，具体表征为：

μ_ik(P_Gimin-P_Gik)≤ΔP_Gik≤μ_ik(P_Gimax-P_Gik)；

ΔP_Gi(k-1)+(P_Gi(k-1)-P_Gik-r_di)≤ΔP_Gik≤ΔP_Gi(k-1)+(P_Gi(k-1)-P_Gik+r_ui)；

0≤P_Dlk≤P_Dlkmax；

其中，P_Wjk分别为风电机组j在k时段的风电功率超短期和短期预测值，P_Lk分别为负荷需求的超短期和短期预测值，P_Gimin、P_Gimax、r_ui、r_di分别为火电机组i的出力上下限和上下爬坡速率。

优选的是，所述构造当前值网络和目标网络结构一致，为H+M层深度卷积网络，前H层为卷积层，后M层为全连接层，其中最后一层的输出节点数目与动作数一致，表示每一种动作对应的Q值。

优选的是，深度Q网络的批训练，包括以下步骤：

从经验池中随机抽取B条经验，对每条经验将作为目标值网络的输入，观察目标值网络的输出计算目标Q值若样本轨道在第j+1决策时刻终止则y_j＝c_j，通过最小化当前Q值和目标Q值之间的均方误差更新当前值网络的参数，误差函数为采用随机梯度下降法更新当前值网络参数，每经过C轮迭代，将当前值网络的参数复制给目标值网络。

本发明的有益效果是：

1)本发明针对区域电网运行点动态调度问题，以系统日运行代价最小为目标，通过确定区域电网运行点源-荷双侧调度架构、建立区域电网运行点调度的马尔科夫决策过程模型、采用深度Q网络进行策略求解，可有效地应对区域电网中风电出力及负荷需求存在的随机性，在所得优化策略下，根据超短期风电出力和负荷需求预测信息，选择最优行动来调整常规发电机组出力、风电机组出力以及削减柔性负荷需求，动态制定区域电网运行点计划，提高电网系统的运行效益；

2)基于深度Q网络算法的策略求解，与传统优化算法相比，有效解决了维数灾问题，将学习优化方法应用到实际的电网智能调度中，提高区域电网运行点调度效率。

附图说明

图1为本发明提供的基于深度Q网络的区域电网运行点调度优化方法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明，以使本领域普通技术人员参照本说明书后能够据以实施。

如图1所示，本实施方式提供了一种基于深度Q网络的区域电网运行点调度优化方法，其包括以下步骤：

S10，确定区域电网运行点调度中心的调度架构；

S20，将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型，该模型包含状态、行动、代价及优化目标函数；

S30，利用深度Q网络对马尔科夫动态决策过程模型进行策略求解，获得优化策略；

上述实施方式中，区域电网含大规模风电和柔性负荷，区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量，区域电网运行点调度中心的可调度资源至少包括常规火电机组、风电机组和柔性负荷，因此，步骤S10中，调度架构至少包括N_G个常规火电机组、N_W个风电机组和N_F个DLC(Direct Load Control，直接负荷控制)柔性负荷代理；而区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息，动态确定下一调度时段的电网运行点。

上述实施方式中，一方面，针对区域电网运行点动态调度问题，通过确定区域电网运行点源-荷双侧调度架构、建立区域电网运行点调度的马尔科夫决策过程模型、采用深度Q网络进行策略求解，在所得策略下，调度中心可根据决策时刻接下来两个时段的超短期风电出力、负荷需求预测信息和当前的电网运行点信息，动态确定下一调度时段的电网运行点计划，从而有效地应对区域电网中风电出力及负荷需求存在的随机性，维持区域电网功率的动态平衡。在所得优化策略下，根据超短期风电出力和负荷需求预测信息，选择最优行动来调整常规发电机组出力、风电机组出力以及削减柔性负荷需求，动态制定区域电网运行点计划，提高电网系统的运行效益。另一方面，基于深度Q网络算法的策略求解，与传统优化算法相比，有效解决了维数灾问题，将学习优化方法应用到实际的电网智能调度中，提高区域电网运行点调度效率。

需要说明的是，系统的行动包括决策周期内各火电机组出力调整量ΔP_Gik、风电弃风量以及柔性负荷代理负荷削减量P_Dlk。区域电网运行点调度优先调整火电机组出力，当火电机组调整能力不足时，系统将适当选择切负荷或弃风以维持功率平衡。

作为上述实施方式的优选，步骤S20中，建立马尔科夫动态决策过程模型，包括以下步骤：

S21，将一天的时间等分为K+1个调度时段，采用等周期决策，决策时刻为调度时段k的起始时刻t_k，其中k∈{0,1,…K}，则区域电网运行点调度中心在一天开始前从系统读取当天各时段的短期风电出力预测信息为P_Wjk、短期负荷功率预测信息为P_Lk、日前调度计划确定的火电机组启停为μ_ik及出力为P_Gik、柔性负荷可调度容量为P_Dlkmax；

S22，在决策时刻t_k，区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为和负荷功率超短期预测数据为组成系统在k时刻的状态

S23，定义决策时刻t_k系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔP_Gik、风电机组弃风量以及柔性负荷削减量P_Dlk，将ΔP_Gik、以及P_Dlk分别离散为一系列固定值，则ΔP_Gik、和P_Dlk所取固定值的任一组合对应一种行动，即

S24，定义区域电网在一个决策周期产生的运行代价c_k，由决策周期对应调度时段k内火电机组出力调整代价柔性负荷补偿代价弃风补偿代价和未满足约束条件的惩罚代价组成，则运行代价c_k表征为：

S25，定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为V^π(s)：

上述实施方式中，步骤S23中，通过该离散为一系列固定值的方法，系统的行动集为D＝D_G×D_F×D_W，其中系统行动向量为其中步骤S25中，π为优化策略，为系统状态s_k到行动a_k的映射，E为期望；优化性能准则函数V^π(s)即是在策略π下的期望。区域电网运行点调度的优化目标是求得最优策略π^*，则在最优策略π^*下系统的平均日运行总代价最低。

该实施方式中，以系统日运行代价最小为目标，来建立区域电网运行点调度的马尔科夫决策过程模型以及采用深度Q网络(Deep Q Network，DQN)学习进行策略求解。需要说明的是，步骤S21提及的“短期”，提供了一种短期预测的方式，具体地，短期包括日前的未来24小时或48小时的时间范围，短期预测包括对未来24小时或48小时内的风电出力或负荷需求进行预测。步骤S22提及的“超短期”，提供了一种超短期预测的方式，具体地，超短期的时间尺度短于短期预测，超短期包括日内对未来15分钟～4小时的时间范围，超短期预测包括在日内对未来15分钟～4小时的时间范围内风电出力和负荷需求进行预测。

作为上述实施方式的进一步优选，步骤S30中，利用深度Q网络进行策略求解以获得优化策略，包括以下步骤：

S31，构造深度Q网络，包括当前值网络和目标值网络，初始化当前值网络权重参数θ_i、目标值网络权重参数输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ，定义任意一个样本轨道为m，样本轨道总数为M，令m＝0；

S32，令k＝0，随机初始化系统状态s_k；

S33，构造深度Q网络的输入序列由当前状态s_k和记录的前W个决策时刻的状态、动作组成，当k＜W时，当k≥W时，将序列输入到当前值网络，当前值网络的输出用来评估当前状态行动对的值函数，选取最小Q值对应的行动a^greedy，同时，随机选取有效行动a^rand，采用ε-贪心策略选取行动a_k，若ε＜rand(0,1)成立，则将a^greedy赋值给a_k，否则将a^rand赋值给a_k，逐渐减小ε的取值；

S34，区域电网运行点调度中心执行决策时刻t_k的行动a_k，并观察决策周期内产生的运行代价c_k，经过一个决策周期后，观察下一决策时刻的状态s_k+1并构造输入序列将一条学习样本存储到经验池，判断经验池样本数是否大于经验池容量D，若是，则移除记忆最久远的一条样本；

S35，判断经验池内学习样本数是否大于批训练样本数B，若是，则从经验池中随机抽取B条学习样本对当前值网络进行批训练，并判断k与K的大小，即，若k＜K，令k＝k+1，返回至构造深度Q网络的输入序列的步骤S33；若k＝K，令m＝m+1；

S36，若m＜M，返回至随机初始化系统状态s_k的步骤；否则结束循环，完成当前值网络的参数训练，得到最优策略

作为上述实施方式的进一步优选，区域电网调度中心在运行时执行所述运行点调度优化策略，包括以下步骤：

作为上述实施方式的进一步优选，步骤S23中，离散为一系列固定值，包括以下步骤：

行动空间维度为

作为上述实施方式的进一步优选，步骤S24中，约束条件，至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束，具体表征为：

μ_ik(P_Gimin-P_Gik)≤ΔP_Gik≤μ_ik(P_Gimax-P_Gik)；

0≤P_Dlk≤P_Dlkmax；

作为上述实施方式的进一步优选，步骤S31中，构造当前值网络和目标网络结构一致，为H+M层深度卷积网络，前H层为卷积层，后M层为全连接层，其中最后一层的输出节点数目与动作数一致，表示每一种动作对应的Q值。

作为上述实施方式的进一步优选，步骤S36中，深度Q网络的批训练，包括以下步骤：

本发明解决了区域电网运行点调度问题，将深度强化学习算法应用于电网智能调度领域，通过对运行数据进行离线学习，所得调度策略可根据不同的风电出力和负荷需求预测信息，动态确定电网最优运行点，促进了新能源的消纳，提高了电网的运行效益，有利于电力系统安全稳定地运行。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于深度Q网络的区域电网运行点调度优化方法，其特征在于，其包括以下步骤：

确定区域电网运行点调度中心的调度架构；

2.如权利要求1所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，建立所述马尔科夫动态决策过程模型，包括以下步骤：

其中，π为优化策略，为系统状态s_k到行动a_k的映射，E为期望；优化性能准则函数V^π(s)即是在策略的期望。

3.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，利用深度Q网络进行策略求解以获得优化策略，包括以下步骤：

令k＝0，随机初始化系统状态s_k；

4.如权利要求3所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，区域电网调度中心在运行时执行所述运行点调度优化策略，包括以下步骤：

5.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，离散为一系列固定值，包括以下步骤：

行动空间维度为

6.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，所述约束条件，至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束，具体表征为：

μ_ik(P_Gimin-P_Gik)≤ΔP_Gik≤μ_ik(P_Gimax-P_Gik)；

0≤P_Dlk≤P_Dlkmax；

7.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，所述构造当前值网络和目标网络结构一致，为H+M层深度卷积网络，前H层为卷积层，后M层为全连接层，其中最后一层的输出节点数目与动作数一致，表示每一种动作对应的Q值。

8.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法，其特征在于，深度Q网络的批训练，包括以下步骤：