CN113890112B

CN113890112B - 一种基于多场景并行学习的电网前瞻调度方法

Info

Publication number: CN113890112B
Application number: CN202111147877.XA
Authority: CN
Inventors: 唐昊; 余佩遥; 管金昱; 姚建国; 王珂; 毛文博; 李远松; 高博
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Hefei University of Technology
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Hefei University of Technology
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-09-15
Anticipated expiration: 2041-09-29
Also published as: CN113890112A

Abstract

本发明属于电力系统技术领域，更具体地，涉及一种基于数据驱动的电网前瞻优化调度辅助决策方法。定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口，定义电网前瞻调度窗口内各调度时刻的机组输出功率组成的序列为该前瞻调度窗口的前瞻调度巡航路径。首先建立包含节点拓扑结构、机组物理参数、电网系统物理参数、调度目标以及滚动刷新的前瞻调度窗口内电网日内短期负荷预测数据在内的电网调度模型，然后以多场景并行学习的Asynchronous Advantage Actor‑Critic算法作为框架构建调度智能体，通过将前瞻调度窗口的状态矩阵输入到调度智能体中，从而得到下一时刻前瞻窗口的前瞻调度巡航路径。

Description

一种基于多场景并行学习的电网前瞻调度方法

技术领域

本发明属于电力系统技术领域，更具体地，涉及一种基于多场景并行学习的电网前瞻调度方法。

背景技术

随着能源转型的不断深入，电力系统进入新时代，特高压交直流混联电网规模快速扩大，高渗透率新能源快速发展，分布式电源、储能等新型负荷比例快速上升，以广泛互联、智能互动、灵活柔性、安全可控为特征的新一代电力系统正在形成，对调控技术支撑能力提出了新的要求。

为适应新一代电力系统发展和安全稳定优质运行的需要，显著提升对大电网一体化控制、清洁能源全网统一消纳、源网荷协同互动和市场化运作的支撑能力，国家电网公司研发了新一代调度控制系统，新一代调度控制系统中大电网调度稳态自适应巡航采用统一决策、分散控制的多级调度协同控制模式，在确定调控目标(巡航目标)的基础上，在横向上将感知、评估、决策和控制等功能环节灵活组合和智能联动，在纵向上以任务为导向实现多级调度的协同控制自动执行电网实时平衡控制和安全自校正控制，可有效减轻调度运行人员的工作负担，提高复杂大电网调度控制的智能化水平。当前稳态自适应巡航场景主要基于传统物理模型进行调度计划的编制和优化分析计算，对源荷双侧不确定性的处理还较为简单，特别是日内阶段，存在难以有效应对不确定和随机性问题、面对海量计算时速度无法满足要求、常需人工干预等新问题，如何有效提升电网应对不确定场景的能力，特别是提升电网日内调度决策的效率和适应性，是当前电网稳态自适应巡航面临的新挑战。

发明内容

针对目前大电网调度稳态自适应巡航在现有技术中存在的问题，本发明提出一种基于多场景并行学习的电网前瞻调度方法，该方法能够实现对电网未来一段时间内的电网调度做出快速、有效的决策，为调度员提供调度控制的辅助决策手段。本发明利用神经网络对前瞻窗口内电网运行状态进行特征提取，降低了对大量电网运行数据识别分析的难度，利用多个子线程上的神经网络与对应场景的电网调度模型并行交互的学习方式提升了调度智能体的训练速度，所得调度策略能够在线快速解析，提高了电网调度指令决策效率。

为实现上述目的，本发明采用如下技术方案：

一种基于多场景并行学习的电网前瞻调度方法，该方法包括以下步骤，

定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口，定义电网前瞻调度窗口内各调度时刻的机组输出功率组成的序列为该前瞻调度窗口的前瞻调度巡航路径；首先建立包含节点拓扑结构、机组物理参数、电网系统物理参数、调度目标以及滚动刷新的前瞻调度窗口内电网日内短期负荷预测数据在内的电网调度模型，然后以多场景并行学习的Asynchronous Advantage Actor-Critic算法作为框架构建调度智能体，通过将前瞻调度窗口的状态矩阵输入到调度智能体中，从而得到下一时刻前瞻窗口的机组输出功率序列既前瞻调度巡航路径。通过多场景并行学习的方法训练调度智能体，实现对电网未来一段时间内的运行情况输出安全、经济的机组输出功率序列。

本技术方案进一步的优化，具体包括如下步骤，

步骤1、确定调度决策间隔时长△t，确定单个前瞻窗口内调度时刻数量N_T，日内前瞻调度窗口数量N_D；

步骤2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数，包括输出功率上限输出功率下限/>以及机组最大爬坡功率/>

步骤3、获取当前前瞻窗口T^k内时刻t时节点i上的机组输出功率该时刻t的机组输出功率向量/>可表示为：

当前前瞻窗口T^k的机组输出功率序列可表示为：

步骤4、获取下一时刻前瞻窗口T^k+1内时刻t时节点i的负荷预测值该时刻t的负荷预测向量/>可表示为：

下一时刻前瞻窗口T^k+1的短期负荷预测序列可表示为：

步骤5、将当前前瞻窗口T^k的机组输出功率序列和下一时刻前瞻窗口T^k+1的系统负荷预测序列/>按照电网节点拓扑结构关系构造为前瞻窗口状态矩阵；

步骤6、建立下一时刻前瞻窗口T^k+1中时刻t的机组出力经济性代价函数其中γⁱ、βⁱ、αⁱ为机组运行代价系数，支路潮流越限代价/>以及系统功率不平衡代价

下一时刻前瞻窗口T^k+1中时刻t的系统代价函数可表示为：

下一时刻前瞻窗口T^k+1的系统代价函数可表示为：

系统的优化目标函数可表示为：

步骤7、在计算机多个线程上分别以多个电网运行场景下的支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数、优化目标函数以及前瞻调度窗口内电网日内短期负荷预测数据建立多个场景的电网调度模型；

步骤8、构建以Asynchronous Advantage Actor-Critic作为算法框架的深度强化学习调度智能体，以卷积神经网络以及全连接层作为网络结构建立主网络，在多个子线程上建立与主网络结构相同的多个子网络，通过各个子网络与其对应场景的电网调度模型进行交互学习训练调度智能体，通过将前瞻调度窗口的状态矩阵输入到调度智能体中，从而得到下一时刻前瞻窗口的机组输出功率序列既前瞻调度巡航路径。

本技术方案更进一步的优化，所述步骤5具体步骤为：

步骤5.1、负荷预测序列中的向量/>构造为m×n的矩阵/>其中m×n与节点数量N_bus的关系为m×n＝N_bus；

步骤5.2、当前前瞻窗口输出功率序列中的机组输出功率向量/>通过增加元素0使其维数与/>维数相同，增加维数后的机组输出功率向量/>构造为m×n的矩阵同时机组输出功率/>在/>中的位置/>与节点负荷/>在/>中所在的位置/>相同；

步骤5.3、构建下一时刻前瞻窗口T^k+1内时刻t时的状态矩阵并以此构建下一时刻前瞻窗口T^k+1的状态矩阵S_k+1，其可表示为：

本技术方案更进一步的优化，所述主网络包括Actor网络和Critic网络。

本技术方案更进一步的优化，所述步骤8中调度智能体学习的具体步骤为：

步骤8.1、初始化主网络中Actor网络和Critic网络的参数θ和θ_v，初始化子网络中Actor网络和Critic网络的参数θ′和θ_v′，初始化主网络时间步数T＝0，主网络最大时间步数T_max，主网络中Actor网络更新步长α以及Critic网络更新步长β，初始化子网络时间步数t＝1，子网络最大时间步数t_max；

步骤8.2、重置主网络中Actor网络和Critic网络的参数梯度dθ＝0，dθ_v＝0；

步骤8.3、子网络从主网络中获取参数θ′＝θ，θ_v′＝θ_v；

步骤8.4、记录子网络当前时间步数t_start＝t；

步骤8.5、根据步骤5获取当前前瞻窗口状态矩阵S_t作为网络输入状态s_t；

步骤8.6、采样策略分布π(a_t|s_t；θ′)得到输出动作向量a_t；

步骤8.7、动作向量a_t映射为当前前瞻窗口的机组输出功率序列，并依次输入到电网调度模型中，获得奖励r_t并获取下一时刻前瞻窗口状态矩阵；

步骤8.8、主网络时间步数T＝T+1，子网络时间步数t＝t+1；

步骤8.9、如果s_t是终止状态，或者当t-t_start＝t_max，进入步骤9.10，否则回到步骤9.6；

步骤8.10、状态s_t的奖励R可表示为：

步骤8.11、计算当前时间步的累计奖励R，其中i∈(t-1,t-2,t-3,…,t_start)，

R＝r_i+γR (30)

累计子网络中Actor网络的梯度更新，

累计子网络中Critic网络的梯度更新，

步骤8.12、利用梯度dθ和dθ_v以及更新步长更新主网络的参数θ和θ_v，

θ＝θ-αdθ (33)

θ_v＝θ_v-βdθ_v (34)

步骤8.13、利用梯度dθ和dθ_v以及更新步长更新主网络的参数θ和θ_v，

步骤8.14、当T＝T_max时，训练结束。

在智能电网的建设背景下，调度也在向智能化方向不断发展，将深度强化学习方法引入电力系统调度领域，可以有效利用电网中的大数据，为电网调度提供智能化解决方案，提高电力系统运行的稳定性和安全性。与现有技术相比，本发明的效益成果在于：

1、本发明利用神经网络对前瞻窗口内多维输入状态进行特征提取，相较传统方法降低了对大量电网运行数据识别分析的难度。

2、采用Asynchronous Advantage Actor-Critic算法有效利用了计算机多线程的并行计算能力，通过多个子线程与多场景下的电网调度模型并行交互学习来加速训练样本的获取速度，有效提升智能体的训练速度。

3、采用学习类方法可离线地拟合逼近并泛化前瞻优化调度策略，完成训练后的智能体能够快速地映射某个前瞻窗口输入状态所对应的机组输出功率序列，相比模型类方法对输入进行在线解析并迭代优化的决策模式，学习类的方法能够增强电网短时优化决策能力，提升电网优化决策效率。

附图说明

图1为伊利诺伊智能电网中心所公开的IEEE300节点标准系统图；

图2为电网前瞻优化调度辅助决策方法的算法流程图；

图3为下一时刻前瞻窗口T^k+1的状态矩阵S_k+1的构建方法示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

本发明优选一实施例，实施例中的电网前瞻优化调度辅助决策方法应用于IEEE300节点标准系统，参阅图1所示IEEE300节点标准系统图，该图来自于：IllinoisCenter for a Smarter Electric Grid.IEEE 300-Bus System[EB/OL].[2019-06-13]。IEEE300节点标准系统包含300个节点，304条支路，69台机组，其参数包括：支路物理参数，节点的拓扑结构，节点物理参数，节点所含机组物理参数，系统滚动的短期负荷预测；输入前瞻窗口内短期负荷预测序列及上一个前瞻窗口内机组输出功率序列所构造的前瞻状态矩阵，根据基于多场景并行学习的电网前瞻调度方法所得的策略输出当前前瞻窗口内机组输出功率序列，实现滚动优化未来一段时间内电网调度策略，提升电网运行效益。通过多场景并行学习的方法训练智能体，实现对电网未来一段时间内的运行情况输出安全、经济的前瞻调度巡航路径。本实施案例中基于多场景并行学习的电网前瞻调度方法按如下步骤进行：

步骤1、确定调度决策间隔时长△t，确定单个前瞻窗口内调度时刻数量N_T，日内前瞻调度窗口数量N_D。

步骤2、获取电网支路物理参数包括支路Bⁱ的起始节点终止节点/>电阻/>电抗/>电纳/>长期允许功率Rate、变比Ratio、运行状态Status；节点拓扑结构信息包括节点母线编号bⁱ、节点类型/>节点物理参数包括节点母线注入负荷的有功功率/>与节点母线并联的电导/>与节点母线并联的电纳/>节点母线的基准电压/>节点i上对应机组物理参数，包括输出功率上限/>输出功率下限/>以及机组最大上爬坡功率/>最大下爬坡功率/>

当前前瞻窗口T^k的机组输出功率序列可表示为：

下一时刻前瞻窗口T^k+1的短期负荷预测序列可表示为：

步骤5、将当前前瞻窗口T^k的机组输出功率序列和下一时刻前瞻窗口T^k+1的系统负荷预测序列/>按照电网节点拓扑结构关系构造为前瞻窗口状态矩阵，其具体步骤为：

步骤5.1、本实施例电网系统含300个节点，负荷预测序列中的向量/>构造为15×20的矩阵/>

步骤5.2、当前前瞻窗口输出功率序列中的机组输出功率向量/>通过增加元素0使其维数达到300维，增加维数后的机组输出功率向量/>构造为15×20的矩阵/>同时机组输出功率/>在/>中的位置/>与节点负荷/>在/>中所在的位置/>相同。

步骤5.3、构建下一时刻前瞻窗口T^k+1内时刻t时的状态矩阵并以此构建下一时刻前瞻窗口T^k+1的状态矩阵S_k+1，参阅图3所示，为下一时刻前瞻窗口的状态矩阵的构建方法示意图，其可表示为：

计算下一时刻前瞻窗口T^k+1中时刻t的系统代价函数

计算下一时刻前瞻窗口Tk+1的系统代价函数

计算系统的优化目标函数：

步骤7、在计算机上开启N_thread个线程，在每个线程上分别以本实施例的电网系统在多种运行场景下所获取的步骤2中的负荷预测曲线、支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数以及步骤6中的优化目标函数建立多个场景的电网调度模型。

步骤8、以Asynchronous Advantage Actor-Critic作为算法框架的深度强化学习智能体构建方法为：在主线程上建立主网络，其包含一个Actor网络和一个Critic网络，二者的网络结构均为四层CNN以及一个全连接层，初始化卷积核、卷积步长以及边界填充数，第一层CNN输入为N_thread×S_k+1，填充边界后进行卷积操作，将该层输出输入到第二层CNN，后续CNN层均对上层CNN的输出先填充边界后进行卷积操作，第四层CNN的输出作为全连接层的输入，Actor网络的全连接层输出动作的概率分布，Critic网络的全连接层输出状态的价值。在N_thread个子线程上分别建立与主网络结构相同的子网络，并且建立主线程与子线程之间的通信。参阅图2所示，为电网前瞻优化调度辅助决策方法的算法流程图。智能体学习的具体步骤为：

步骤8.1、初始化主网络中Actor网络和Critic网络的参数θ和θ_v，初始化子网络中Actor网络和Critic网络的参数θ′和θ_v′，初始化主网络时间步数T＝0，主网络最大时间步数T_max，主网络中Actor网络更新步长α以及Critic网络更新步长β，初始化子网络时间步数t＝1，子网络更新时间步数t_max；

步骤8.3、子网络从主网络中获取参数θ′＝θ，θ_v′＝θ_v；

步骤8.4、记录子网络当前时间步数t_start＝t；

步骤8.5、采用步骤5获取下一时刻前瞻窗口状态矩阵S_k+1作为网络输入状态s_t；

步骤8.6、采样策略分布π(a_t|s_t；θ′)得到输出动作向量a_t；

步骤8.7、根据机组输出功率上限输出功率下限/>最大上爬坡功率/>最大下爬坡功率/>以及下一时刻前瞻窗口T^k+1中t时刻节点i上机组的输出功率/>计算t+1时刻可能的机组输出功率上限/>和可能的输出功率下限/>

动作向量a_t中机组出力动作分量映射为前瞻窗口T^k+1中t+1时刻节点i上机组输出功率，

依次将动作分量映射后得到前瞻窗口T^k+1的机组输出功率序列即前瞻调度巡航路径将/>输入到电网仿真环境中，计算前瞻窗口T^k+1的系统代价函数/>计算奖励/>获取下一时刻前瞻窗口状态矩阵；

步骤8.8、主网络时间步数T＝T+1，子网络时间步数t＝t+1；

步骤8.9、如果s_t是终止状态，或者当t-t_start＝t_max，进入步骤8.10，否则回到步骤8.6；

步骤8.10、状态s_t的奖励R可表示为：

R＝r_i+γR (16)

累计子网络中Actor网络的梯度更新，

累计子网络中Critic网络的梯度更新，

θ＝θ-αdθ (19)

θ_v＝θ_v-βdθ_v (20)

步骤8.13、利用梯度dθ和dθ_v以及更新步长更新主网络的参数θ和θ_v；

步骤8.14、当T＝T_max时，训练结束。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于多场景并行学习的电网前瞻调度方法，其特征在于，该方法包括以下步骤，定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口，定义电网前瞻调度窗口内各调度时刻的机组输出功率组成的序列为该前瞻调度窗口的前瞻调度巡航路径；首先建立包含节点拓扑结构、机组物理参数、电网系统物理参数、调度目标以及滚动刷新的前瞻调度窗口内电网日内短期负荷预测数据在内的电网调度模型，然后以多场景并行学习的Asynchronous Advantage Actor-Critic算法作为框架构建调度智能体，通过将前瞻调度窗口的状态矩阵输入到调度智能体中，从而得到下一时刻前瞻窗口的机组输出功率序列即前瞻调度巡航路径；具体包括如下步骤，

步骤1、确定调度决策间隔时长Δt，确定单个前瞻窗口内调度时刻数量N_T，日内前瞻调度窗口数量N_D；

当前前瞻窗口T^k的机组输出功率序列可表示为：

下一时刻前瞻窗口T^k+1的短期负荷预测序列可表示为：

步骤6、建立下一时刻前瞻窗口T^k+1中时刻t的机组出力经济性代价函数其中γⁱ、βⁱ、αⁱ为机组运行代价系数，支路潮流越限代价/>以及系统功率不平衡代价/>

下一时刻前瞻窗口T^k+1中时刻t的系统代价函数可表示为：

下一时刻前瞻窗口T^k+1的系统代价函数可表示为：

系统的优化目标函数可表示为：

步骤8、构建以Asynchronous Advantage Actor-Critic作为算法框架的深度强化学习调度智能体，以卷积神经网络以及全连接层作为网络结构建立主网络，在多个子线程上建立与主网络结构相同的多个子网络，通过各个子网络与其对应场景的电网调度模型进行交互学习训练调度智能体，通过将前瞻调度窗口的状态矩阵输入到调度智能体中，从而得到下一时刻前瞻窗口的机组输出功率序列即前瞻调度巡航路径。

2.如权利要求1所述的基于多场景并行学习的电网前瞻调度方法，其特征在于，所述步骤5具体步骤为：

步骤5.2、当前前瞻窗口输出功率序列中的机组输出功率向量/>通过增加元素0使其维数与/>维数相同，增加维数后的机组输出功率向量/>构造为m×n的矩阵/>同时机组输出功率/>在/>中的位置/>与节点负荷/>在/>中所在的位置/>相同；

3.如权利要求1所述的基于多场景并行学习的电网前瞻调度方法，其特征在于，所述主网络包括Actor网络和Critic网络。

4.如权利要求1所述的基于多场景并行学习的电网前瞻调度方法，其特征在于，所述步骤8中调度智能体学习的具体步骤为：

步骤8.1、初始化主网络中Actor网络和Critic网络的参数θ和θ_v，初始化子网络中Actor网络和Critic网络的参数θ′和θ′_v，初始化主网络时间步数T＝0，主网络最大时间步数T_max，主网络中Actor网络更新步长α以及Critic网络更新步长β，初始化子网络时间步数t＝1，子网络最大时间步数t_max；

步骤8.3、子网络从主网络中获取参数θ′＝θ，θ′_v＝θ_v；

步骤8.4、记录子网络当前时间步数t_start＝t；

步骤8.6、采样策略分布π(a_t|s_t；θ′)得到输出动作向量a_t；

步骤8.8、主网络时间步数T＝T+1，子网络时间步数t＝t+1；

步骤8.10、状态s_t的奖励R可表示为：

R＝r_i+γR (13)

累计子网络中Actor网络的梯度更新，

累计子网络中Critic网络的梯度更新，

θ＝θ-αdθ (16)

θ_v＝θ_v-βdθ_v (17)

步骤8.14、当T＝T_max时，训练结束。