CN113890112B - 一种基于多场景并行学习的电网前瞻调度方法 - Google Patents
一种基于多场景并行学习的电网前瞻调度方法 Download PDFInfo
- Publication number
- CN113890112B CN113890112B CN202111147877.XA CN202111147877A CN113890112B CN 113890112 B CN113890112 B CN 113890112B CN 202111147877 A CN202111147877 A CN 202111147877A CN 113890112 B CN113890112 B CN 113890112B
- Authority
- CN
- China
- Prior art keywords
- look
- network
- ahead
- window
- power grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/466—Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明属于电力系统技术领域,更具体地,涉及一种基于数据驱动的电网前瞻优化调度辅助决策方法。定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,定义电网前瞻调度窗口内各调度时刻的机组输出功率组成的序列为该前瞻调度窗口的前瞻调度巡航路径。首先建立包含节点拓扑结构、机组物理参数、电网系统物理参数、调度目标以及滚动刷新的前瞻调度窗口内电网日内短期负荷预测数据在内的电网调度模型,然后以多场景并行学习的Asynchronous Advantage Actor‑Critic算法作为框架构建调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的前瞻调度巡航路径。
Description
技术领域
本发明属于电力系统技术领域,更具体地,涉及一种基于多场景并行学习的电网前瞻调度方法。
背景技术
随着能源转型的不断深入,电力系统进入新时代,特高压交直流混联电网规模快速扩大,高渗透率新能源快速发展,分布式电源、储能等新型负荷比例快速上升,以广泛互联、智能互动、灵活柔性、安全可控为特征的新一代电力系统正在形成,对调控技术支撑能力提出了新的要求。
为适应新一代电力系统发展和安全稳定优质运行的需要,显著提升对大电网一体化控制、清洁能源全网统一消纳、源网荷协同互动和市场化运作的支撑能力,国家电网公司研发了新一代调度控制系统,新一代调度控制系统中大电网调度稳态自适应巡航采用统一决策、分散控制的多级调度协同控制模式,在确定调控目标(巡航目标)的基础上,在横向上将感知、评估、决策和控制等功能环节灵活组合和智能联动,在纵向上以任务为导向实现多级调度的协同控制自动执行电网实时平衡控制和安全自校正控制,可有效减轻调度运行人员的工作负担,提高复杂大电网调度控制的智能化水平。当前稳态自适应巡航场景主要基于传统物理模型进行调度计划的编制和优化分析计算,对源荷双侧不确定性的处理还较为简单,特别是日内阶段,存在难以有效应对不确定和随机性问题、面对海量计算时速度无法满足要求、常需人工干预等新问题,如何有效提升电网应对不确定场景的能力,特别是提升电网日内调度决策的效率和适应性,是当前电网稳态自适应巡航面临的新挑战。
发明内容
针对目前大电网调度稳态自适应巡航在现有技术中存在的问题,本发明提出一种基于多场景并行学习的电网前瞻调度方法,该方法能够实现对电网未来一段时间内的电网调度做出快速、有效的决策,为调度员提供调度控制的辅助决策手段。本发明利用神经网络对前瞻窗口内电网运行状态进行特征提取,降低了对大量电网运行数据识别分析的难度,利用多个子线程上的神经网络与对应场景的电网调度模型并行交互的学习方式提升了调度智能体的训练速度,所得调度策略能够在线快速解析,提高了电网调度指令决策效率。
为实现上述目的,本发明采用如下技术方案:
一种基于多场景并行学习的电网前瞻调度方法,该方法包括以下步骤,
定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,定义电网前瞻调度窗口内各调度时刻的机组输出功率组成的序列为该前瞻调度窗口的前瞻调度巡航路径;首先建立包含节点拓扑结构、机组物理参数、电网系统物理参数、调度目标以及滚动刷新的前瞻调度窗口内电网日内短期负荷预测数据在内的电网调度模型,然后以多场景并行学习的Asynchronous Advantage Actor-Critic算法作为框架构建调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列既前瞻调度巡航路径。通过多场景并行学习的方法训练调度智能体,实现对电网未来一段时间内的运行情况输出安全、经济的机组输出功率序列。
本技术方案进一步的优化,具体包括如下步骤,
步骤1、确定调度决策间隔时长△t,确定单个前瞻窗口内调度时刻数量NT,日内前瞻调度窗口数量ND;
步骤2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数,包括输出功率上限输出功率下限/>以及机组最大爬坡功率/>
步骤3、获取当前前瞻窗口Tk内时刻t时节点i上的机组输出功率该时刻t的机组输出功率向量/>可表示为:
当前前瞻窗口Tk的机组输出功率序列可表示为:
步骤4、获取下一时刻前瞻窗口Tk+1内时刻t时节点i的负荷预测值该时刻t的负荷预测向量/>可表示为:
下一时刻前瞻窗口Tk+1的短期负荷预测序列可表示为:
步骤5、将当前前瞻窗口Tk的机组输出功率序列和下一时刻前瞻窗口Tk+1的系统负荷预测序列/>按照电网节点拓扑结构关系构造为前瞻窗口状态矩阵;
步骤6、建立下一时刻前瞻窗口Tk+1中时刻t的机组出力经济性代价函数其中γi、βi、αi为机组运行代价系数,支路潮流越限代价/>以及系统功率不平衡代价
下一时刻前瞻窗口Tk+1中时刻t的系统代价函数可表示为:
下一时刻前瞻窗口Tk+1的系统代价函数可表示为:
系统的优化目标函数可表示为:
步骤7、在计算机多个线程上分别以多个电网运行场景下的支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数、优化目标函数以及前瞻调度窗口内电网日内短期负荷预测数据建立多个场景的电网调度模型;
步骤8、构建以Asynchronous Advantage Actor-Critic作为算法框架的深度强化学习调度智能体,以卷积神经网络以及全连接层作为网络结构建立主网络,在多个子线程上建立与主网络结构相同的多个子网络,通过各个子网络与其对应场景的电网调度模型进行交互学习训练调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列既前瞻调度巡航路径。
本技术方案更进一步的优化,所述步骤5具体步骤为:
步骤5.1、负荷预测序列中的向量/>构造为m×n的矩阵/>其中m×n与节点数量Nbus的关系为m×n=Nbus;
步骤5.2、当前前瞻窗口输出功率序列中的机组输出功率向量/>通过增加元素0使其维数与/>维数相同,增加维数后的机组输出功率向量/>构造为m×n的矩阵同时机组输出功率/>在/>中的位置/>与节点负荷/>在/>中所在的位置/>相同;
步骤5.3、构建下一时刻前瞻窗口Tk+1内时刻t时的状态矩阵并以此构建下一时刻前瞻窗口Tk+1的状态矩阵Sk+1,其可表示为:
本技术方案更进一步的优化,所述主网络包括Actor网络和Critic网络。
本技术方案更进一步的优化,所述步骤8中调度智能体学习的具体步骤为:
步骤8.1、初始化主网络中Actor网络和Critic网络的参数θ和θv,初始化子网络中Actor网络和Critic网络的参数θ′和θv′,初始化主网络时间步数T=0,主网络最大时间步数Tmax,主网络中Actor网络更新步长α以及Critic网络更新步长β,初始化子网络时间步数t=1,子网络最大时间步数tmax;
步骤8.2、重置主网络中Actor网络和Critic网络的参数梯度dθ=0,dθv=0;
步骤8.3、子网络从主网络中获取参数θ′=θ,θv′=θv;
步骤8.4、记录子网络当前时间步数tstart=t;
步骤8.5、根据步骤5获取当前前瞻窗口状态矩阵St作为网络输入状态st;
步骤8.6、采样策略分布π(at|st;θ′)得到输出动作向量at;
步骤8.7、动作向量at映射为当前前瞻窗口的机组输出功率序列,并依次输入到电网调度模型中,获得奖励rt并获取下一时刻前瞻窗口状态矩阵;
步骤8.8、主网络时间步数T=T+1,子网络时间步数t=t+1;
步骤8.9、如果st是终止状态,或者当t-tstart=tmax,进入步骤9.10,否则回到步骤9.6;
步骤8.10、状态st的奖励R可表示为:
步骤8.11、计算当前时间步的累计奖励R,其中i∈(t-1,t-2,t-3,…,tstart),
R=ri+γR (30)
累计子网络中Actor网络的梯度更新,
累计子网络中Critic网络的梯度更新,
步骤8.12、利用梯度dθ和dθv以及更新步长更新主网络的参数θ和θv,
θ=θ-αdθ (33)
θv=θv-βdθv (34)
步骤8.13、利用梯度dθ和dθv以及更新步长更新主网络的参数θ和θv,
步骤8.14、当T=Tmax时,训练结束。
在智能电网的建设背景下,调度也在向智能化方向不断发展,将深度强化学习方法引入电力系统调度领域,可以有效利用电网中的大数据,为电网调度提供智能化解决方案,提高电力系统运行的稳定性和安全性。与现有技术相比,本发明的效益成果在于:
1、本发明利用神经网络对前瞻窗口内多维输入状态进行特征提取,相较传统方法降低了对大量电网运行数据识别分析的难度。
2、采用Asynchronous Advantage Actor-Critic算法有效利用了计算机多线程的并行计算能力,通过多个子线程与多场景下的电网调度模型并行交互学习来加速训练样本的获取速度,有效提升智能体的训练速度。
3、采用学习类方法可离线地拟合逼近并泛化前瞻优化调度策略,完成训练后的智能体能够快速地映射某个前瞻窗口输入状态所对应的机组输出功率序列,相比模型类方法对输入进行在线解析并迭代优化的决策模式,学习类的方法能够增强电网短时优化决策能力,提升电网优化决策效率。
附图说明
图1为伊利诺伊智能电网中心所公开的IEEE300节点标准系统图;
图2为电网前瞻优化调度辅助决策方法的算法流程图;
图3为下一时刻前瞻窗口Tk+1的状态矩阵Sk+1的构建方法示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明优选一实施例,实施例中的电网前瞻优化调度辅助决策方法应用于IEEE300节点标准系统,参阅图1所示IEEE300节点标准系统图,该图来自于:IllinoisCenter for a Smarter Electric Grid.IEEE 300-Bus System[EB/OL].[2019-06-13]。IEEE300节点标准系统包含300个节点,304条支路,69台机组,其参数包括:支路物理参数,节点的拓扑结构,节点物理参数,节点所含机组物理参数,系统滚动的短期负荷预测;输入前瞻窗口内短期负荷预测序列及上一个前瞻窗口内机组输出功率序列所构造的前瞻状态矩阵,根据基于多场景并行学习的电网前瞻调度方法所得的策略输出当前前瞻窗口内机组输出功率序列,实现滚动优化未来一段时间内电网调度策略,提升电网运行效益。通过多场景并行学习的方法训练智能体,实现对电网未来一段时间内的运行情况输出安全、经济的前瞻调度巡航路径。本实施案例中基于多场景并行学习的电网前瞻调度方法按如下步骤进行:
步骤1、确定调度决策间隔时长△t,确定单个前瞻窗口内调度时刻数量NT,日内前瞻调度窗口数量ND。
步骤2、获取电网支路物理参数包括支路Bi的起始节点终止节点/>电阻/>电抗/>电纳/>长期允许功率Rate、变比Ratio、运行状态Status;节点拓扑结构信息包括节点母线编号bi、节点类型/>节点物理参数包括节点母线注入负荷的有功功率/>与节点母线并联的电导/>与节点母线并联的电纳/>节点母线的基准电压/>节点i上对应机组物理参数,包括输出功率上限/>输出功率下限/>以及机组最大上爬坡功率/>最大下爬坡功率/>
步骤3、获取当前前瞻窗口Tk内时刻t时节点i上的机组输出功率该时刻t的机组输出功率向量/>可表示为:
当前前瞻窗口Tk的机组输出功率序列可表示为:
步骤4、获取下一时刻前瞻窗口Tk+1内时刻t时节点i的负荷预测值该时刻t的负荷预测向量/>可表示为:
下一时刻前瞻窗口Tk+1的短期负荷预测序列可表示为:
步骤5、将当前前瞻窗口Tk的机组输出功率序列和下一时刻前瞻窗口Tk+1的系统负荷预测序列/>按照电网节点拓扑结构关系构造为前瞻窗口状态矩阵,其具体步骤为:
步骤5.1、本实施例电网系统含300个节点,负荷预测序列中的向量/>构造为15×20的矩阵/>
步骤5.2、当前前瞻窗口输出功率序列中的机组输出功率向量/>通过增加元素0使其维数达到300维,增加维数后的机组输出功率向量/>构造为15×20的矩阵/>同时机组输出功率/>在/>中的位置/>与节点负荷/>在/>中所在的位置/>相同。
步骤5.3、构建下一时刻前瞻窗口Tk+1内时刻t时的状态矩阵并以此构建下一时刻前瞻窗口Tk+1的状态矩阵Sk+1,参阅图3所示,为下一时刻前瞻窗口的状态矩阵的构建方法示意图,其可表示为:
步骤6、建立下一时刻前瞻窗口Tk+1中时刻t的机组出力经济性代价函数其中γi、βi、αi为机组运行代价系数,支路潮流越限代价/>以及系统功率不平衡代价
计算下一时刻前瞻窗口Tk+1中时刻t的系统代价函数
计算下一时刻前瞻窗口Tk+1的系统代价函数
计算系统的优化目标函数:
步骤7、在计算机上开启Nthread个线程,在每个线程上分别以本实施例的电网系统在多种运行场景下所获取的步骤2中的负荷预测曲线、支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数以及步骤6中的优化目标函数建立多个场景的电网调度模型。
步骤8、以Asynchronous Advantage Actor-Critic作为算法框架的深度强化学习智能体构建方法为:在主线程上建立主网络,其包含一个Actor网络和一个Critic网络,二者的网络结构均为四层CNN以及一个全连接层,初始化卷积核、卷积步长以及边界填充数,第一层CNN输入为Nthread×Sk+1,填充边界后进行卷积操作,将该层输出输入到第二层CNN,后续CNN层均对上层CNN的输出先填充边界后进行卷积操作,第四层CNN的输出作为全连接层的输入,Actor网络的全连接层输出动作的概率分布,Critic网络的全连接层输出状态的价值。在Nthread个子线程上分别建立与主网络结构相同的子网络,并且建立主线程与子线程之间的通信。参阅图2所示,为电网前瞻优化调度辅助决策方法的算法流程图。智能体学习的具体步骤为:
步骤8.1、初始化主网络中Actor网络和Critic网络的参数θ和θv,初始化子网络中Actor网络和Critic网络的参数θ′和θv′,初始化主网络时间步数T=0,主网络最大时间步数Tmax,主网络中Actor网络更新步长α以及Critic网络更新步长β,初始化子网络时间步数t=1,子网络更新时间步数tmax;
步骤8.2、重置主网络中Actor网络和Critic网络的参数梯度dθ=0,dθv=0;
步骤8.3、子网络从主网络中获取参数θ′=θ,θv′=θv;
步骤8.4、记录子网络当前时间步数tstart=t;
步骤8.5、采用步骤5获取下一时刻前瞻窗口状态矩阵Sk+1作为网络输入状态st;
步骤8.6、采样策略分布π(at|st;θ′)得到输出动作向量at;
步骤8.7、根据机组输出功率上限输出功率下限/>最大上爬坡功率/>最大下爬坡功率/>以及下一时刻前瞻窗口Tk+1中t时刻节点i上机组的输出功率/>计算t+1时刻可能的机组输出功率上限/>和可能的输出功率下限/>
动作向量at中机组出力动作分量映射为前瞻窗口Tk+1中t+1时刻节点i上机组输出功率,
依次将动作分量映射后得到前瞻窗口Tk+1的机组输出功率序列即前瞻调度巡航路径将/>输入到电网仿真环境中,计算前瞻窗口Tk+1的系统代价函数/>计算奖励/>获取下一时刻前瞻窗口状态矩阵;
步骤8.8、主网络时间步数T=T+1,子网络时间步数t=t+1;
步骤8.9、如果st是终止状态,或者当t-tstart=tmax,进入步骤8.10,否则回到步骤8.6;
步骤8.10、状态st的奖励R可表示为:
步骤8.11、计算当前时间步的累计奖励R,其中i∈(t-1,t-2,t-3,…,tstart),
R=ri+γR (16)
累计子网络中Actor网络的梯度更新,
累计子网络中Critic网络的梯度更新,
步骤8.12、利用梯度dθ和dθv以及更新步长更新主网络的参数θ和θv,
θ=θ-αdθ (19)
θv=θv-βdθv (20)
步骤8.13、利用梯度dθ和dθv以及更新步长更新主网络的参数θ和θv;
步骤8.14、当T=Tmax时,训练结束。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (4)
1.一种基于多场景并行学习的电网前瞻调度方法,其特征在于,该方法包括以下步骤,定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,定义电网前瞻调度窗口内各调度时刻的机组输出功率组成的序列为该前瞻调度窗口的前瞻调度巡航路径;首先建立包含节点拓扑结构、机组物理参数、电网系统物理参数、调度目标以及滚动刷新的前瞻调度窗口内电网日内短期负荷预测数据在内的电网调度模型,然后以多场景并行学习的Asynchronous Advantage Actor-Critic算法作为框架构建调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列即前瞻调度巡航路径;具体包括如下步骤,
步骤1、确定调度决策间隔时长Δt,确定单个前瞻窗口内调度时刻数量NT,日内前瞻调度窗口数量ND;
步骤2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数,包括输出功率上限输出功率下限/>以及机组最大爬坡功率/>
步骤3、获取当前前瞻窗口Tk内时刻t时节点i上的机组输出功率该时刻t的机组输出功率向量/>可表示为:
当前前瞻窗口Tk的机组输出功率序列可表示为:
步骤4、获取下一时刻前瞻窗口Tk+1内时刻t时节点i的负荷预测值该时刻t的负荷预测向量/>可表示为:
下一时刻前瞻窗口Tk+1的短期负荷预测序列可表示为:
步骤5、将当前前瞻窗口Tk的机组输出功率序列和下一时刻前瞻窗口Tk+1的系统负荷预测序列/>按照电网节点拓扑结构关系构造为前瞻窗口状态矩阵;
步骤6、建立下一时刻前瞻窗口Tk+1中时刻t的机组出力经济性代价函数其中γi、βi、αi为机组运行代价系数,支路潮流越限代价/>以及系统功率不平衡代价/>
下一时刻前瞻窗口Tk+1中时刻t的系统代价函数可表示为:
下一时刻前瞻窗口Tk+1的系统代价函数可表示为:
系统的优化目标函数可表示为:
步骤7、在计算机多个线程上分别以多个电网运行场景下的支路物理参数、节点拓扑结构信息、节点物理参数、节点i上对应机组物理参数、优化目标函数以及前瞻调度窗口内电网日内短期负荷预测数据建立多个场景的电网调度模型;
步骤8、构建以Asynchronous Advantage Actor-Critic作为算法框架的深度强化学习调度智能体,以卷积神经网络以及全连接层作为网络结构建立主网络,在多个子线程上建立与主网络结构相同的多个子网络,通过各个子网络与其对应场景的电网调度模型进行交互学习训练调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列即前瞻调度巡航路径。
2.如权利要求1所述的基于多场景并行学习的电网前瞻调度方法,其特征在于,所述步骤5具体步骤为:
步骤5.1、负荷预测序列中的向量/>构造为m×n的矩阵/>其中m×n与节点数量Nbus的关系为m×n=Nbus;
步骤5.2、当前前瞻窗口输出功率序列中的机组输出功率向量/>通过增加元素0使其维数与/>维数相同,增加维数后的机组输出功率向量/>构造为m×n的矩阵/>同时机组输出功率/>在/>中的位置/>与节点负荷/>在/>中所在的位置/>相同;
步骤5.3、构建下一时刻前瞻窗口Tk+1内时刻t时的状态矩阵并以此构建下一时刻前瞻窗口Tk+1的状态矩阵Sk+1,其可表示为:
3.如权利要求1所述的基于多场景并行学习的电网前瞻调度方法,其特征在于,所述主网络包括Actor网络和Critic网络。
4.如权利要求1所述的基于多场景并行学习的电网前瞻调度方法,其特征在于,所述步骤8中调度智能体学习的具体步骤为:
步骤8.1、初始化主网络中Actor网络和Critic网络的参数θ和θv,初始化子网络中Actor网络和Critic网络的参数θ′和θ′v,初始化主网络时间步数T=0,主网络最大时间步数Tmax,主网络中Actor网络更新步长α以及Critic网络更新步长β,初始化子网络时间步数t=1,子网络最大时间步数tmax;
步骤8.2、重置主网络中Actor网络和Critic网络的参数梯度dθ=0,dθv=0;
步骤8.3、子网络从主网络中获取参数θ′=θ,θ′v=θv;
步骤8.4、记录子网络当前时间步数tstart=t;
步骤8.5、根据步骤5获取当前前瞻窗口状态矩阵St作为网络输入状态st;
步骤8.6、采样策略分布π(at|st;θ′)得到输出动作向量at;
步骤8.7、动作向量at映射为当前前瞻窗口的机组输出功率序列,并依次输入到电网调度模型中,获得奖励rt并获取下一时刻前瞻窗口状态矩阵;
步骤8.8、主网络时间步数T=T+1,子网络时间步数t=t+1;
步骤8.9、如果st是终止状态,或者当t-tstart=tmax,进入步骤9.10,否则回到步骤9.6;
步骤8.10、状态st的奖励R可表示为:
步骤8.11、计算当前时间步的累计奖励R,其中i∈(t-1,t-2,t-3,…,tstart),
R=ri+γR (13)
累计子网络中Actor网络的梯度更新,
累计子网络中Critic网络的梯度更新,
步骤8.12、利用梯度dθ和dθv以及更新步长更新主网络的参数θ和θv,
θ=θ-αdθ (16)
θv=θv-βdθv (17)
步骤8.13、利用梯度dθ和dθv以及更新步长更新主网络的参数θ和θv,
步骤8.14、当T=Tmax时,训练结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111147877.XA CN113890112B (zh) | 2021-09-29 | 2021-09-29 | 一种基于多场景并行学习的电网前瞻调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111147877.XA CN113890112B (zh) | 2021-09-29 | 2021-09-29 | 一种基于多场景并行学习的电网前瞻调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113890112A CN113890112A (zh) | 2022-01-04 |
CN113890112B true CN113890112B (zh) | 2023-09-15 |
Family
ID=79007746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111147877.XA Active CN113890112B (zh) | 2021-09-29 | 2021-09-29 | 一种基于多场景并行学习的电网前瞻调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113890112B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929948A (zh) * | 2019-11-29 | 2020-03-27 | 上海电力大学 | 基于深度强化学习的完全分布式智能电网经济调度方法 |
CN111311008A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 交直流大电网动态安全风险态势滚动前瞻预警方法及系统 |
CN112529727A (zh) * | 2020-11-06 | 2021-03-19 | 台州宏远电力设计院有限公司 | 基于深度强化学习的微电网储能调度方法及装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11216759B2 (en) * | 2018-01-02 | 2022-01-04 | Shanghai Jiao Tong University | Real-time economic dispatch method of power system |
-
2021
- 2021-09-29 CN CN202111147877.XA patent/CN113890112B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929948A (zh) * | 2019-11-29 | 2020-03-27 | 上海电力大学 | 基于深度强化学习的完全分布式智能电网经济调度方法 |
CN111311008A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 交直流大电网动态安全风险态势滚动前瞻预警方法及系统 |
CN112529727A (zh) * | 2020-11-06 | 2021-03-19 | 台州宏远电力设计院有限公司 | 基于深度强化学习的微电网储能调度方法及装置及设备 |
Non-Patent Citations (1)
Title |
---|
于一潇 等.基于深度强化学习的风电场储能系统预测决策一体化调度.《电力系统自动化》.2021,第45卷(第1期),第132-140页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113890112A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mousavi et al. | Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning | |
Mocanu et al. | On-line building energy optimization using deep reinforcement learning | |
CN110341690B (zh) | 一种基于确定性策略梯度学习的phev能量管理方法 | |
Luo et al. | Generalized nesterov's acceleration-incorporated, non-negative and adaptive latent factor analysis | |
Liu et al. | Parallel reinforcement learning: A framework and case study | |
CN113282368B (zh) | 一种用于变电站巡视的边缘计算资源调度方法 | |
Ding et al. | BNAS: Efficient neural architecture search using broad scalable architecture | |
Ruelens et al. | Direct load control of thermostatically controlled loads based on sparse observations using deep reinforcement learning | |
CN109255726A (zh) | 一种混合智能技术的超短期风功率预测方法 | |
CN106296044B (zh) | 电力系统风险调度方法和系统 | |
Sujil et al. | FCM Clustering‐ANFIS‐based PV and wind generation forecasting agent for energy management in a smart microgrid | |
Chaghari et al. | Fuzzy clustering based on Forest optimization algorithm | |
CN113033072A (zh) | 一种基于多头注意力指针网络的成像卫星任务规划方法 | |
CN113298191A (zh) | 基于个性化半监督在线联邦学习的用户行为识别方法 | |
Li et al. | Supervised assisted deep reinforcement learning for emergency voltage control of power systems | |
Chen et al. | A scalable graph reinforcement learning algorithm based stochastic dynamic dispatch of power system under high penetration of renewable energy | |
CN113890112B (zh) | 一种基于多场景并行学习的电网前瞻调度方法 | |
CN114336632A (zh) | 一种基于模型信息辅助深度学习校正交流潮流的方法 | |
Han et al. | Research on short-term load forecasting of power system based on IWOA-KELM | |
CN114707613B (zh) | 基于分层的深度策略梯度网络的电网调控方法 | |
CN117200213A (zh) | 基于自组织映射神经网络深度强化学习的配电系统电压控制方法 | |
CN116739466A (zh) | 基于多智能体深度强化学习的配送中心车辆路径规划方法 | |
CN111191941A (zh) | 一种基于人工蜂群算法解决sevm模型问题的方法 | |
Cai et al. | A data-driven distributed and easy-to-transfer method for short-term voltage stability assessment | |
Zhao et al. | Short-term load forecasting based on RBF neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |