CN116307449A - 一种风电储能站实时调控方法与系统 - Google Patents

一种风电储能站实时调控方法与系统 Download PDF

Info

Publication number
CN116307449A
CN116307449A CN202211575702.3A CN202211575702A CN116307449A CN 116307449 A CN116307449 A CN 116307449A CN 202211575702 A CN202211575702 A CN 202211575702A CN 116307449 A CN116307449 A CN 116307449A
Authority
CN
China
Prior art keywords
energy storage
wind power
scheduling
storage station
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211575702.3A
Other languages
English (en)
Inventor
谢平平
陆秋瑜
杨银国
李力
刘洋
闫斌杰
杨壁瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202211575702.3A priority Critical patent/CN116307449A/zh
Publication of CN116307449A publication Critical patent/CN116307449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种风电储能站实时调控方法与系统,方法包括:构建风电储能站的在线运行模型;基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;基于DDPG强化学习算法构建风电储能站的进阶调度模型;根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;采用进阶在线调度策略对风电储能站进行调控。本方法提供的实时调控方法通过基础在线调度策略支持风电储能站建立初期的安全稳定运行,通过进阶在线调度策略支持风电储能站后期的经济高效运行,其实现无需依赖于历史数据,可以对风电储能站进行在线实时的调控。

Description

一种风电储能站实时调控方法与系统
技术领域
本发明涉及电力技术领域,尤其是涉及一种风电储能站实时调控方法与系统。
背景技术
随着“双碳”目标的提出以及能源问题的逐渐严峻,发展可再生能源已经成为了目前电力系统改革的关键路径。一般来说,沿海地区具有丰富的海上风电资源,对这些地区而言发展海上风电是实现清洁、绿色发电的重要手段。在实际运行中,为了减小风电波动性、随机性的影响,通常会为风电场配置一定容量的储能,以风储联合电站的方式进行运行。而新建的风储联合电站通常缺乏历史运行数据,难以在短时间内训练出预测模型对风电出力等不确定量进行预测,因而无法考虑未来的信息,只能基于系统当下的状态量进行调度决策。在此背景下,如何设计合适的实时调控算法支持风储联合电站的在线运行则成为了一个关键问题。
对于风电储能实时调控的问题,现有方法通常采用近似动态规划、Q学习等算法进行在线调度,然而这些方法十分依赖于历史数据,在历史数据较少或没有历史数据的情况下则需通过在决策空间内随机采样等方式进行决策、获得样本,而这可能对系统的安全稳定运行带来风险,且算法收敛性较差。此外Q学习通常会对决策空间进行离散化,限制了决策量的取值,其决策效果也会相应地受到限制。
发明内容
本发明旨在提供一种风电储能站实时调控方法与系统,以解决上述技术问题,无需依赖于历史数据,可以实现对风电储能站的在线实时调控。
为了解决上述技术问题,本发明提供了一种风电储能站实时调控方法,包括以下步骤:
构建风电储能站的在线运行模型;
基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;
基于DDPG强化学习算法构建风电储能站的进阶调度模型;
根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;
采用进阶在线调度策略对风电储能站进行调控。
上述方案在缺乏历史数据及未来的预测信息的情况下,以Lyapunov优化方法对在线运行模型进行优化,得到基础在线调度策略,对风电储能站进行调度并收集基础运行数据;在基础运行数据量积累到一定程度后对基于DDPG强化学习算法构建的进阶调度模型进行训练并实现风电储能站的进阶调控。其中,基础在线调度策略用于支持风电储能站建立初期的安全稳定运行,进阶在线调度策略可以支持风电储能站后期的经济高效运行,评估标准的设置更为风电储能站的在线运行模式提供了参考。上述方案的实现无需依赖于历史数据,可以对风电储能站进行在线实时的调控。
进一步地,所述构建风电储能站的在线运行模型是后续获取在线调度策略的基础,其中在线指的是风电储能站的运行只依赖于过去与当前的信息,而不依赖于未来不确定量的预测信息。考虑到实际应用中风电等不确定量的随机性较强,在缺乏历史数据的情况下难以准确预测,因此构建风电储能站的在线运行模型对于新建的风电储能站具有实际意义。构建风电储能站的在线运行模型包括风电出力约束、储能容量约束、传输线容量约束等。
进一步地,所述基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略,具体为:
基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题:
minτQt(Pt ws-Pt sg)+V[-πtτ(Pt wgdPt sg)]
s.t.Pt ws≥0,Pt wg≥0,Pt sg≥0
Figure BDA0003985586470000031
Pt wgdPt sg≤Tu
Pt ws≤Pu,Pt sg≤Pu
式中:τ表示每次决策的时间间隔;Qt为基于储能电量构建的虚拟队列,有Qt=Et-η,Et表示时刻t的储能电量,η为常量;Pt ws为用于储能充电的风电功率;Pt wg为直接输给受端电网的风电功率;V为常量;πt表示实时电价;ηd为储能的放电效率;Pt sg为储能站输向受端电网的功率;ηc为储能的充电效率;Pt w表示时刻t的最大风电出力;Tu为传输线容量;Pu为储能的最大充放电功率;
求解Lyapunov优化问题,获取基础在线调度策略。
上述方案中,在新建的风电储能站刚投入运行时,由于缺乏历史运行数据,因此难以对在线调度策略进行训练,此时可基于Lyapunov优化方法建立基础的调度策略,以支持风电储能站建立初期的安全稳定运行。Lyapunov优化方法作为一种在线优化方法,仅基于风电储能站当下的状态进行决策,既不依赖于未来的预测信息也不需要过去的历史运行数据,因此可作为风电储能站的基础在线调度策略。
进一步地,所述采用基础在线调度策略对风电储能站进行调度,获取基础运行数据具体为:
采用基础在线调度策略对风电储能站进行调度,获取各个时刻的状态量和决策量,得到一系列状态-动作数据;
基于状态-动作数据计算对应的奖励,建立数据四元组作为基础运行数据。
进一步地,所述基于DDPG强化学习算法构建风电储能站的进阶调度模型,具体为:
基于DDPG强化学习算法构建风电储能站的进阶调度模型,,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,其中:
所述Actor网络用于生成决策策略,即输入状态后会输出相应的动作,并生成Actor目标网络更新参数;
所述Critic网络用于对决策策略进行评估,即输入状态和动作后会输出相应的评分,并生成Critic目标网络更新参数;
所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略;
所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估,生成模拟真实评分;
其中,在所述风电储能站的进阶调度模型中,所述状态包括储能电量、最大风电出力和实时电价,所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率;所述评分为储能充放电动作带来的长期收益;所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。
进一步地,所述根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略,具体为:
所述基础运行数据为数据四元组,包括状态、动作、奖励和下一时刻的状态;
基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练,不断更新网络参数,获取当前调度策略;
其中:Actor网络的训练目标为最大化储能充放电动作带来的长期收益;Critic网络的目标为训练最小化储能长期收益与模拟真实的储能长期收益之间的误差;
根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断;若满足预设的评估标准,则将当前调度策略作为进阶在线调度策略;否则,继续对Actor网络、Critic网络进行训练。
上述方案提供的一种风电储能站实时调控方法,其提出的基础在线调度策略可以保证风电储能站的安全运行,并基于基础在线调度策略得到的基础运行数据训练由DDPG强化学习算法构建的风电储能站的进阶调度模型,可以进一步优化风电储能站的在线运行效益,为风电储能站的在线运行提供参考。
本发明还提供一种风电储能站实时调控系统,包括在线运行模块、Lyapunov优化模块、基础调度模块、DDPG算法模块、训练评估模块和进阶调度模块;其中:
所述在线运行模块用于构建风电储能站的在线运行模型;
所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;
所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;
所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型;
所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;
所述进阶调度模块用于采用进阶在线调度策略对风电储能站进行调控。
进一步地,所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略,具体为:
基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题:
minτQt(Pt ws-Pt sg)+V[-πtτ(Pt wgdPt sg)]
s.t.Pt ws≥0,Pt wg≥0,Pt sg≥0
Figure BDA0003985586470000051
Pt wgdPt sg≤Tu
Pt ws≤Pu,Pt sg≤Pu
式中:τ表示每次决策的时间间隔;Qt为基于储能电量构建的虚拟队列,有Qt=Et-η,Et表示时刻t的储能电量,η为常量;Pt ws为用于储能充电的风电功率;Pt wg为直接输给受端电网的风电功率;V为常量;πt表示实时电价;ηd为储能的放电效率;Pt sg为储能站输向受端电网的功率;ηc为储能的充电效率;Pt w表示时刻t的最大风电出力;Tu为传输线容量;Pu为储能的最大充放电功率;
求解Lyapunov优化问题,获取基础在线调度策略。
进一步地,所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度,获取基础运行数据,具体为:
采用基础在线调度策略对风电储能站进行调度,获取各个时刻的状态量和决策量,得到一系列状态-动作数据;
基于状态-动作数据计算对应的奖励,建立数据四元组作为基础运行数据。
进一步地,所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型,具体为:
基于DDPG强化学习算法构建风电储能站的进阶调度模型,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,其中:
所述Actor网络用于生成决策策略,即输入状态后会输出相应的动作,并生成Actor目标网络更新参数;
所述Critic网络用于对决策策略进行评估,即输入状态和动作后会输出相应的评分,并生成Critic目标网络更新参数;
所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略;
所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估,生成模拟真实评分;
其中,在所述风电储能站的进阶调度模型中,所述状态包括储能电量、最大出力和实时电价,所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率;所述评分为储能充放电动作带来的长期收益;所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。
进一步地,所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略,具体为:
所述基础运行数据为数据四元组,包括状态、动作、奖励和下一时刻的状态;
基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练,不断更新网络参数,获取当前调度策略;
其中:Actor网络的训练目标为最大化储能电量;Critic网络的目标为训练最小化储能电量与模拟真实储能电量之间的误差;
根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断;若满足预设的评估标准,则将当前调度策略作为进阶在线调度策略;否则,继续对Actor网络、Critic网络进行训练。
本发明还提供一种风电储能站实时调控方法设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种风电储能站实时调控方法。
本发明还提供一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行所述的一种风电储能站实时调控方法。
附图说明
图1为本发明一实施例提供的一种风电储能站实时调控方法流程示意图;
图2为本发明一实施例提供的风电储能站的结构示意图;
图3为本发明一实施例提供的风电储能站的进阶调度模型结构示意图;
图4为本发明一实施例提供的基础在线调度策略辅助进阶调度模型训练的示意图;
图5为本发明一实施例提供的判断进阶调度模型是否符合评估标准的流程示意图;
图6为本发明一实施例提供的一种风电储能站实时调控系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,一种风电储能站实时调控方法,包括以下步骤:
S1:构建风电储能站的在线运行模型;
S2:基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;
S3:采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;
S4:基于DDPG强化学习算法构建风电储能站的进阶调度模型;
S5:根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;
S6:采用进阶在线调度策略对风电储能站进行调控。
本实施例在缺乏历史数据及未来的预测信息的情况下,以Lyapunov优化方法对在线运行模型进行优化,得到基础在线调度策略,对风电储能站进行调度并收集基础运行数据;在基础运行数据量积累到一定程度后对基于DDPG强化学习算法构建的进阶调度模型进行训练并实现风电储能站的进阶调控。其中,基础在线调度策略用于支持风电储能站建立初期的安全稳定运行,进阶在线调度策略可以支持风电储能站后期的经济高效运行,评估标准的设置更为风电储能站的在线运行模式提供了参考。上述方案的实现无需依赖于历史数据,可以对风电储能站进行在线实时的调控。
进一步地,所述构建风电储能站的在线运行模型是后续获取在线调度策略的基础,其中在线指的是风电储能站的运行只依赖于过去与当前的信息,而不依赖于未来不确定量的预测信息。考虑到实际应用中风电等不确定量的随机性较强,在缺乏历史数据的情况下难以准确预测,因此构建风电储能站的在线运行模型对于新建的风电储能站具有实际意义。请参见图2,构建风电储能站的在线运行模型包括风电出力约束、储能容量约束、传输线容量约束等,具体为:
设风电场于时刻t的最大出力为Pt w,其中为储能充电的功率为Pt ws,直接输给受端电网的功率为Pt wg,如还有无法利用的风能则则被舍弃。储能输向受端电网的功率则为Pt sg。各个时刻的Pt ws、Pt wg、Pt sg均为决策变量,其应满足下述约束。
首先各个决策变量非负:
Figure BDA0003985586470000081
风电场于任意时刻的实际出力不能超过最大出力,从而有
Figure BDA0003985586470000091
其中ηc为储能的充电效率。而流向受端电网的功率不能超过传输线容量,从而有:
Figure BDA0003985586470000095
其中ηd为储能的放电效率,Tu为传输线容量;
储能的运行约束则如下所示:
Figure BDA0003985586470000096
Figure BDA0003985586470000097
Figure BDA0003985586470000092
Figure BDA0003985586470000093
其中Pu为储能的最大充放电功率,El,Eu则分别表示储能的电量下限与上限,τ为每次决策的时间间隔。上述四个约束中,前两个为储能的功率约束,第三个为储能电量的状态方程,第四个则是储能的电量约束。
而对于目标函数,风电储能站的运行目标是在一段时间内使得运行收益最大化。令πt表示时刻t受端电网从风储电站买电的实时电价,T为运行周期,从而目标函数为:
Figure BDA0003985586470000094
从而得到在线运行模型为:
Figure BDA0003985586470000101
Figure BDA0003985586470000109
Figure BDA0003985586470000102
Figure BDA0003985586470000103
Figure BDA0003985586470000104
Figure BDA0003985586470000105
Figure BDA0003985586470000106
在线运行模型所针对的问题为线性规划问题,易于求解。然而该模型的优化问题是需要事先已知0~T时刻的全部参数,才能基于上述模型在事前进行全局优化。然而在实际运行中,风电最大出力Pt w、实时电价πt等信息通常难以预测,只知其上下界
Figure BDA00039855864700001010
πt∈[πminmax],因此这些参数需建模为随机量。相应地,目标函数应记为:
Figure BDA0003985586470000107
其中
Figure BDA0003985586470000108
表示期望值。
在实际运行中,由于未来的随机量信息难以预测,因此只能基于当下的信息进行在线决策,尽可能保证上述期望收益最大化。在本实施例所涉及的问题中,时刻t的决策变量为Pt ws、Pt wg、Pt sg,而已知信息为当下的储能电量Et、风电最大出力Pt w、实时电价πt。从而可将时刻t的决策量及状态量分别记为
at=(Pt ws,Pt wg,Pt sg)
st=(Et,Pt wt)
其中at代表时刻t的决策量,st代表时刻t的状态量。而在线调度策略即为寻找由状态量到决策量的映射at=φt(st),从而在满足各约束的前提下使得整个运行周期的期望收益尽可能达到最优。
需要说明的是,上述在线运行模型可用于风电储能站的在线决策,具体应用过程为:
步骤一:于时刻t观测到当前时刻的储能电量Et、风电最大出力Pt w、实时电价πt等状态信息;
步骤二:以当下的状态信息(Et,Pt wt)作为输入,运行某种在线调度策略算法,输出当下的决策(Pt ws,Pt wg,Pt sg)、执行该决策带来的单步收益πtτ(Pt wgdPt sg)以及决策执行后对应的储能电量Et+1
步骤三:进入时刻t+1,返回执行步骤一。
上述应用过程的关键在于步骤二的在线调度策略,其难点在于在线运行模式下只可计算当前的决策所带来的的单步收益,但由于当前的决策会影响未来的系统状态,即影响下一时刻的储能电量Et+1进而影响未来的决策,使得单步收益最优不一定意味着全运行周期的整体收益最优。在此情况下,如何尽可能地优化全运行周期的收益即为设计在线调度策略面临的关键技术问题。
进一步地,所述基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略,具体为:
基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题:
minτQt(Pt ws-Pt sg)+V[-πtτ(Pt wgdPt sg)]
s.t.Pt ws≥0,Pt wg≥0,Pt sg≥0
Figure BDA0003985586470000111
Pt wgdPt sg≤Tu
Pt ws≤Pu,Pt sg≤Pu
式中:τ表示每次决策的时间间隔;Qt为基于储能电量构建的虚拟队列,有Qt=Et-η,Et表示时刻t的储能电量,η为常量;Pt ws为用于储能充电的风电功率;Pt wg为直接输给受端电网的风电功率;V为常量;πt表示实时电价;ηd为储能的放电效率;Pt sg为储能站输向受端电网的功率;ηc为储能的充电效率;Pt w表示时刻t的最大风电出力;Tu为传输线容量;Pu为储能的最大充放电功率;
求解Lyapunov优化问题,获取基础在线调度策略。
上述方案中,在新建的风电储能站刚投入运行时,由于缺乏历史运行数据,因此难以对在线调度策略进行训练,此时可基于Lyapunov优化方法建立基础的调度策略,以支持风电储能站建立初期的安全稳定运行。Lyapunov优化方法作为一种在线优化方法,仅基于风电储能站当下的状态进行决策,既不依赖于未来的预测信息也不需要过去的历史运行数据,因此可作为风电储能站的基础在线调度策略。Lyapunov优化方法虽然无法保证全局最优,但能够保证系统的安全运行,即任意时刻的运行策略都能充分满足系统的各运行约束。
需要说明的是,Lyapunov优化方法是在通信与网络等领域被广泛使用的一种优化方法,其核心思想是建立虚拟队列,在对目标函数进行优化的同时保证虚拟队列的稳定性,即虚拟队列长度尽可能趋近于常值。基于该思想,在风电储能站运行问题中可将储能电量的稳定性建模为:
Figure BDA0003985586470000121
即在长时间尺度下使得储能的净充电量期望趋于零,从而保证储能的电量稳定,既不会显著充电突破电量上限,也不会显著放电超过电量下限。
基于上述思想,时刻t的在线运行模型可以优化建模为Lyapunov优化问题。需要说明的是,Lyapunov优化问题的目标函数是储能队列漂移量τ(Pt ws-Pt sg)与原单阶段目标函数πtτ(Pt wgdPt sg)的加权,旨在兼顾储能电量稳定性与风电储能站收益,即在信息量有限的情况下尽可能保证系统安全性与经济性。参数Qt=Et-η为基于储能电量构建的虚拟队列,其中η为常量;参数V也为常量。关于η与V的取值方面,可以证明,当η=El+τPu+Vπmax,且
Figure BDA0003985586470000122
时,原运行优化问题中的各个约束均可得到满足,尤其是储能的电量可保持在[El,Eu]区间内。从而该在线调度策略可在保证系统的运行安全性的情况下获得一个较优的结果。
需要进一步说明的是,上述Lyapunov优化问题不含任何时序耦合项,仅需基于当前时刻t的状态进行决策,因此是一种在线决策范式。且该问题为线性规划,易于求解。
进一步地,所述采用基础在线调度策略对风电储能站进行调度,获取基础运行数据具体为:
采用基础在线调度策略对风电储能站进行调度,获取各个时刻的状态量和决策量,得到一系列状态-动作数据;
基于状态-动作数据计算对应的奖励,建立数据四元组作为基础运行数据。
在本实施例中,基于Lyapunov优化问题获取的基础在线调度策略在运行一段时间后,可积累得到一些历史运行数据,从而可对调度策略进行训练和优化,以进一步提高风电储能站的运行收益。DDPG作为一种高效的强化学习算法,可以应用于控制量为连续量的应用场景,适用于风电储电站的在线运行问题。
基于Lyapunov优化问题进行初始化的DDPG算法充分兼顾了Lyapunov优化和DDPG算法的优势。一方面,传统的强化学习算法在训练初期通常是随机选取动作获得样本,这种方式随机性较强,需要较多样本才能达到较好效果,且随机动作的安全性难以保证,可能会违反一些约束条件。相比之下,利用Lyapunov优化问题进行初始化的DDPG算法让智能体在训练初期能够较快地学得Lyapunov优化的调度模式,保证系统的在线安全运行,相比于随机选取动作的模式在收敛性、安全性等方面具有显著优势。另一方面,DDPG算法作为一种强化学习算法,在样本量较大的情况下能够充分挖掘历史数据的信息,基于探索与利用的学习模式自发地优化调度策略,提升风储电站的效益,在后期能够取得比Lyapunov优化更好的效果。
具体地,DDPG算法作为一种强化学习算法,其相应的训练数据的形式通常为四元组(st,at,rt,st+1),其中st,at,rt分别代表当下的状态、动作、奖励值,而st+1则是执行了动作at后在下一时刻的状态。在本问题中,状态st=(Et,Pt wt),而决策量at full=(Pt ws,Pt wg,Pt sg)。考虑到at full维数较高,且其各个动作分量均可由储能净充电动作量Pt c推导而得,因而可将决策量进行降维得到动作at=Pt c∈[-Pu,Pu],而决策量Pt ws,Pt wg,Pt sg分别为关于Pt c的函数:
Figure BDA0003985586470000131
Pt wg=Pt w-Pt ws
Figure BDA0003985586470000141
因此一旦动作at确定,风电储能站中各个决策量即可直接计算获得。
可以将奖励函数rt则定义为:
rt=πt reldPt sg+Pt wg
即电站向电网放电所取得的收益。其中πt rel=πtav为时刻t的相对电价,πav表示平均电价。如果采用绝对电价作为收益的计算方式,则由于强化学习的短视特性,其更倾向于尽可能地用储能进行放电以获取短期的收益;相比之下,用相对电价计算奖励则体现了实时电价波动对长期收益的影响,使得储能在电价高时放电,在电价低时充电。此外值得一提的是,由于应用场景为新建电站,其历史信息可能较少,因此平均电价不是已知量,在此情况下可以基于滑动平均的方式得到平均电价的估计值
Figure BDA0003985586470000142
来代替πav,即在各时刻更新
Figure BDA0003985586470000143
其中α为滑动平均的权重。
因此,DDPG算法中的状态、动作、奖励函数如下所示:
st=(Et,Pt wt)
at=Pt c∈[-Pu,Pu]
rt=πt reldPt sg+Pt wg
由此可在每次动作执行后获得四元组(st,at,rt,st+1),将其作为基础运行数据进行保存。
进一步地,所述基于DDPG强化学习算法构建风电储能站的进阶调度模型,具体为:
基于DDPG强化学习算法构建风电储能站的进阶调度模型,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,其中:
所述Actor网络用于生成决策策略,即输入状态后会输出相应的动作,并生成Actor目标网络更新参数;
所述Critic网络用于对决策策略进行评估,即输入状态和动作后会输出相应的评分,并生成Critic目标网络更新参数;
所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略;
所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估,生成模拟真实评分;
其中,在所述风电储能站的进阶调度模型中,所述状态包括储能电量、最大出力和实时电价,所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率;所述评分为储能充放电动作带来的长期收益;所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。
需要说明的是,储能充放电动作带来的长期收益即“充放电动作为当下带来的单步收益”加上“充放电动作执行后的储能电量可为未来带来的收益(即储能电量的经济价值)。
在本实施例中,风电储能站的进阶调度模型请参见图3,其主要由Actor网络和Critic网络等两套神经网络组成,其中Actor网络的参数记为θμ,Critic网络的参数记为θQ。Actor网络给出策略at=μ(stμ),即输入状态st后Actor网络会输出相应的动作at;而Critic网络对策略进行评估,即输入状态st和动作at后Critic网络会输出相应的评分Q(st,at)。两套网络均是利用样本池中的数据(st,at,rt,st+1),基于反向传播算法进行训练,不断更新网络参数。其中Actor网络的目标函数是最大化Q值,即:
Figure BDA0003985586470000151
而Critic网络的目标是最小化其预测的Q值Qpred(s,μ(s|θμ)|θQ)与真实的Q值Qactual之间的误差,即:
Figure BDA0003985586470000152
其中,预测Q值的计算方式为:
Qpred(st,atQ)=rt+γQ(st+1,at+1Q)
其中而γ∈(0,1]为折扣因子,需要提前给定;状态st+1是在状态st下执行动作at获得。而训练阶段所生成的动作at(以及at+1)常常是在Actor网络输出的动作μ(s|θμ)基础上添加高斯随机噪声N(0,σ2)而获得,如下式所示,其目的是在动作中加入一定随机性从而尝试探索出更优的策略。
at=μ(stμ)+N(0,σ2)
除了实时更新的Actor网络和Critic网络外,DDPG算法中还需要有一套更新较慢的Actor目标网络和Critic目标网络,如图3所示,其作用是模拟真实的Q值Qactual,即
Figure BDA0003985586470000161
其中
Figure BDA0003985586470000162
分别为Actor目标网络和Critic目标网络的参数,其通过软更新的方式进行更新,即
Figure BDA0003985586470000163
Figure BDA0003985586470000164
其中超参数α∈(0,1)为软更新权重,通常情况下α取值较小,因而Actor目标网络和Critic目标网络的更新较慢,以保证训练稳定性。
因此,对于进阶调度模型地训练,实质上是对Actor网络和Critic网络利用基础运行数据不断进行训练,基于目标函数Lμ/LQ及反向传播算法实时更新网络参数θμQ;而Actor目标网络和Critic目标网络则利用软更新的方式对参数
Figure BDA0003985586470000165
进行较慢的更新。
进一步地,所述根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略,具体为:
所述基础运行数据为数据四元组,包括状态、动作、奖励和下一时刻的状态;
基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练,不断更新网络参数,获取当前调度策略;
其中:Actor网络的训练目标为最大化储能电量;Critic网络的目标为训练最小化储能电量与模拟真实储能电量之间的误差;
根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断;若满足预设的评估标准,则将当前调度策略作为进阶在线调度策略;否则,继续对Actor网络、Critic网络进行训练。
本实施例具体阐述了对于进阶调度模型的训练过程,具体而言,在电站运行初期执行基础调度策略并记录各个时刻的状态量和决策量,自然会得到一系列状态-动作数据(st,at),t=0,1,2,...,而基于这些数据亦可计算出相应的奖励值rt,从而不断建立(st,at,rt,st+1)四元组并将其加入样本池,以供DDPG模型进行训练。当DDPG模型训练足够充分时,即可以DDPG模型作为进阶调度策略,直接基于Actor网络的输出动作进行在线调度,取代基础调度策略支持电站的在线运行,如图4所示。以DDPG模型作为进阶策略,其不仅能够学得基础调度策略的决策模式,亦可基于历史数据进行自发的探索和优化,带来比基础调度策略更多的收益。
需要说明的是,本实施例针对另一个关键问题为何时进行基础调度策略与进阶调度策略的切换,即何时可以认为DDPG模型已经训练充分、其性能已经超过Lyapunov优化模型。针对于该问题,本实施例通过预设评估标准进行比较判断,具体为:
设定计算间隔,本实施例采用每个运行日为一个计算间隔。即在每个运行日结束时,基于下述评估算法评价DDPG的性能,如果连续M个运行日中DDPG算法模型均满足评估标准,则认为DDPG的性能足以支持在线运行,此时可将在线运行策略由基础调度策略切换为进阶调度策略,如图5所示。其中M为超参数,需事先指定其取值。
步骤一:给定超参数K、β%的取值;
步骤二:以运行日为周期,从基础运行数据中随机选取K个完整运行日的历史数据,包括各个时刻的风电出力与电价数据。
步骤三:基于选取的历史数据,对每个完整运行日分别基于基础调度策略和当前的DDPG策略进行运行模拟,计算两种策略下得到的日收益。
步骤四:对两种策略得到的日收益进行比较,如果在K个完整运行日的模拟中至少有β%的完整运行日满足DDPG策略的日收益高于基础调度策略的日收益,则本次评估通过,即认为在本次评估中DDPG策略优于基础策略;反之,本次评估不通过。
本实施例预设的评估标准构成了以基础调度策略及进阶调度策略为基础的风电村能站的在线运行算法,并说明了由基础策略切换到进阶策略的评判标准。该在线运行算法可为风电村能站的实时调控提供有效指导。
本实施例提供的一种风电储能站实时调控方法,其提出的基础在线调度策略可以保证风电储能站的安全运行,并基于基础在线调度策略得到的基础运行数据训练由DDPG强化学习算法构建的风电储能站的进阶调度模型,可以进一步优化风电储能站的在线运行效益,为风电储能站的在线运行提供参考。
请参见图6,本实施例提供一种风电储能站实时调控系统,用于实现一种风电储能站实时调控方法,具体包括在线运行模块、Lyapunov优化模块、基础调度模块、DDPG算法模块、训练评估模块和进阶调度模块;其中:
所述在线运行模块用于构建风电储能站的在线运行模型;
所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;
所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;
所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型;
所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;
所述进阶调度模块用于采用进阶在线调度策略对风电储能站进行调控。
进一步地,所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略,具体为:
基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题:
minτQt(Pt ws-Pt sg)+V[-πtτ(PtwgdPt sg)]
s.t.Pt ws≥0,Pt wg≥0,Pt sg≥0
Figure BDA0003985586470000191
Pt wgdPt sg≤Tu
Pt ws≤Pu,Pt sg≤Pu
式中:τ表示每次决策的时间间隔;Qt为基于储能电量构建的虚拟队列,有Qt=Et-η,Et表示时刻t的储能电量,η为常量;Pt ws为用于储能充电的风电功率;Pt wg为直接输给受端电网的风电功率;V为常量;πt表示实时电价;ηd为储能的放电效率;Pt sg为储能站输向受端电网的功率;ηc为储能的充电效率;Pt w表示时刻t的最大风电出力;Tu为传输线容量;Pu为储能的最大充放电功率;
求解Lyapunov优化问题,获取基础在线调度策略。
进一步地,所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度,获取基础运行数据,具体为:
采用基础在线调度策略对风电储能站进行调度,获取各个时刻的状态量和决策量,得到一系列状态-动作数据;
基于状态-动作数据计算对应的奖励,建立数据四元组作为基础运行数据。
进一步地,所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型,具体为:
基于DDPG强化学习算法构建风电储能站的进阶调度模型,,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,其中:
所述Actor网络用于生成决策策略,即输入状态后会输出相应的动作,并生成Actor目标网络更新参数;
所述Critic网络用于对决策策略进行评估,即输入状态和动作后会输出相应的评分,并生成Critic目标网络更新参数;
所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略;
所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估,生成模拟真实评分;
其中,在所述风电储能站的进阶调度模型中,所述状态包括储能电量、最大出力和实时电价,所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率;所述评分为储能充放电动作带来的长期收益;所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。
进一步地,所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略,具体为:
所述基础运行数据为数据四元组,包括状态、动作、奖励和下一时刻的状态;
基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练,不断更新网络参数,获取当前调度策略;
其中:Actor网络的训练目标为最大化储能电量;Critic网络的目标为训练最小化储能电量与模拟真实储能电量之间的误差;
根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断;若满足预设的评估标准,则将当前调度策略作为进阶在线调度策略;否则,继续对Actor网络、Critic网络进行训练。
本实施例提供一种风电储能站实时调控方法设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种风电储能站实时调控方法。
本实施例提供一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行所述的一种风电储能站实时调控方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种风电储能站实时调控方法,其特征在于,包括以下步骤:
构建风电储能站的在线运行模型;
基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;
采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;
基于DDPG强化学习算法构建风电储能站的进阶调度模型;
根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;
采用进阶在线调度策略对风电储能站进行调控。
2.根据权利要求1所述的一种风电储能站实时调控方法,其特征在于,所述基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略,具体为:
基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题:
minτQt(Pt ws-Pt sg)+V[-πtτ(Pt wgdPt sg)]
s.t.Pt ws≥0,Pt wg≥0,Pt sg≥0
Figure FDA0003985586460000011
Pt wgdPt sg≤Tu
Pt ws≤Pu,Pt sg≤Pu
式中:τ表示每次决策的时间间隔;Qt为基于储能电量构建的虚拟队列,有Qt=Et-η,Et表示时刻t的储能电量,η为常量;Pt ws为用于储能充电的风电功率;Pt wg为直接输给受端电网的风电功率;V为常量;πt表示实时电价;ηd为储能的放电效率;Pt sg为储能站输向受端电网的功率;ηc为储能的充电效率;Pt w表示时刻t的最大风电出力;Tu为传输线容量;Pu为储能的最大充放电功率;
求解Lyapunov优化问题,获取基础在线调度策略。
3.根据权利要求1所述的一种风电储能站实时调控方法,其特征在于,所述采用基础在线调度策略对风电储能站进行调度,获取基础运行数据具体为:
采用基础在线调度策略对风电储能站进行调度,获取各个时刻的状态量和决策量,得到一系列状态-动作数据;
基于状态-动作数据计算对应的奖励,建立数据四元组作为基础运行数据。
4.根据权利要求1所述的一种风电储能站实时调控方法,其特征在于,所述基于DDPG强化学习算法构建风电储能站的进阶调度模型,具体为:
基于DDPG强化学习算法构建风电储能站的进阶调度模型,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,其中:
所述Actor网络用于生成决策策略,即输入状态后会输出相应的动作,并生成Actor目标网络更新参数;
所述Critic网络用于对决策策略进行评估,即输入状态和动作后会输出相应的评分,并生成Critic目标网络更新参数;
所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略;
所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估,生成模拟真实评分;
其中,在所述风电储能站的进阶调度模型中,所述状态包括储能电量、最大出力和实时电价,所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率;所述评分为储能充放电动作带来的长期收益;所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。
5.根据权利要求4所述的一种风电储能站实时调控方法,其特征在于,所述根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略,具体为:
所述基础运行数据为数据四元组,包括状态、动作、奖励和下一时刻的状态;
基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练,不断更新网络参数,获取当前调度策略;
其中:Actor网络的训练目标为最大化储能充放电动作带来的长期收益;Critic网络的目标为训练最小化储能长期收益与模拟真实的储能长期收益之间的误差;
根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断;若满足预设的评估标准,则将当前调度策略作为进阶在线调度策略;否则,继续对Actor网络、Critic网络进行训练。
6.一种风电储能站实时调控系统,其特征在于,包括在线运行模块、Lyapunov优化模块、基础调度模块、DDPG算法模块、训练评估模块和进阶调度模块;其中:
所述在线运行模块用于构建风电储能站的在线运行模型;
所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略;
所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度,获取基础运行数据;
所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型;
所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略;
所述进阶调度模块用于采用进阶在线调度策略对风电储能站进行调控。
7.根据权利要求6所述的一种风电储能站实时调控系统,其特征在于,所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化,获取基础在线调度策略,具体为:
基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题:
minτQt(Pt ws-Pt sg)+V[-πtτ(Pt wgdPt sg)]
s.t.Pt ws≥0,Pt wg≥0,Pt sg≥0
Figure FDA0003985586460000031
Pt wgdPt sg≤Tu
Pt ws≤Pu,Pt sg≤Pu
式中:τ表示每次决策的时间间隔;Qt为基于储能电量构建的虚拟队列,有Qt=Et-η,Et表示时刻t的储能电量,η为常量;Pt ws为用于储能充电的风电功率;Pt wg为直接输给受端电网的风电功率;V为常量;πt表示实时电价;ηd为储能的放电效率;Pt sg为储能站输向受端电网的功率;ηc为储能的充电效率;Pt w表示时刻t的最大风电出力;Tu为传输线容量;Pu为储能的最大充放电功率;
求解Lyapunov优化问题,获取基础在线调度策略。
8.根据权利要求6所述的一种风电储能站实时调控系统,其特征在于,所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度,获取基础运行数据,具体为:
采用基础在线调度策略对风电储能站进行调度,获取各个时刻的状态量和决策量,得到一系列状态-动作数据;
基于状态-动作数据计算对应的奖励,建立数据四元组作为基础运行数据。
9.根据权利要求6所述的一种风电储能站实时调控系统,其特征在于,所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型,具体为:
基于DDPG强化学习算法构建风电储能站的进阶调度模型,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,其中:
所述Actor网络用于生成决策策略,即输入状态后会输出相应的动作,并生成Actor目标网络更新参数;
所述Critic网络用于对决策策略进行评估,即输入状态和动作后会输出相应的评分,并生成Critic目标网络更新参数;
所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略;
所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估,生成模拟真实评分;
其中,在所述风电储能站的进阶调度模型中,所述状态包括储能电量、最大出力和实时电价,所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率;所述评分为储能充放电动作带来的长期收益;所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。
10.根据权利要求9所述的一种风电储能站实时调控系统,其特征在于,所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练,直至进阶调度模型符合预设的评估标准,获取进阶在线调度策略,具体为:
所述基础运行数据为数据四元组,包括状态、动作、奖励和下一时刻的状态;
基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练,不断更新网络参数,获取当前调度策略;
其中:Actor网络的训练目标为最大化储能充放电动作带来的长期收益;Critic网络的目标为训练最小化储能长期收益与模拟真实的储能长期收益之间的误差;
根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断;若满足预设的评估标准,则将当前调度策略作为进阶在线调度策略;否则,继续对Actor网络、Critic网络进行训练。
CN202211575702.3A 2022-12-07 2022-12-07 一种风电储能站实时调控方法与系统 Pending CN116307449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211575702.3A CN116307449A (zh) 2022-12-07 2022-12-07 一种风电储能站实时调控方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211575702.3A CN116307449A (zh) 2022-12-07 2022-12-07 一种风电储能站实时调控方法与系统

Publications (1)

Publication Number Publication Date
CN116307449A true CN116307449A (zh) 2023-06-23

Family

ID=86824635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211575702.3A Pending CN116307449A (zh) 2022-12-07 2022-12-07 一种风电储能站实时调控方法与系统

Country Status (1)

Country Link
CN (1) CN116307449A (zh)

Similar Documents

Publication Publication Date Title
CN112186811B (zh) 一种基于深度强化学习的agc机组动态优化方法
CN116345577B (zh) 风-光-储微电网能量调控优化方法、设备及存储介质
CN110414725B (zh) 预测决策一体化的风电场储能系统调度方法及装置
CN116247648A (zh) 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法
CN111598721B (zh) 一种基于强化学习和lstm网络的负荷实时调度方法
Jiang et al. Research on short-term optimal scheduling of hydro-wind-solar multi-energy power system based on deep reinforcement learning
CN114123273A (zh) 一种风电-光伏-储能联合系统的控制方法及系统
CN114696351A (zh) 一种电池储能系统动态优化方法、装置、电子设备和存储介质
CN112182835A (zh) 一种考虑风电不确定性和储能调节的电力系统可靠性评估方法及系统
CN113972645A (zh) 基于多智能体深度确定策略梯度算法的配电网优化方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN112952831A (zh) 一种负荷侧储能提供堆叠服务的日内优化运行策略
CN117172097A (zh) 基于云边协同与多智能体深度学习的配电网调度运行方法
CN117117989A (zh) 一种机组组合深度强化学习求解方法
CN117833316A (zh) 一种用户侧储能动态优化运行的方法
CN117767433A (zh) 基于数字孪生的实时县域能源互联网调度方法及系统
CN116345450A (zh) 一种基于深度强化学习的风光水互补系统智能调度方法
CN116307449A (zh) 一种风电储能站实时调控方法与系统
CN115936273A (zh) 一种电力系统多阶段演化路径规划运行优化方法和系统
Tang et al. Voltage Control Strategy of Distribution Networks with Distributed Photovoltaic Based on Multi-agent Deep Reinforcement Learning
CN114595621A (zh) 考虑锂电池寿命损耗成本的风储联合系统经济调度方法
CN113705067B (zh) 一种微网优化运行策略生成方法、系统、设备及存储介质
CN117993693B (zh) 一种行为克隆强化学习的零碳园区调度方法及系统
CN118469104B (zh) 基于可变时间常数梯度算法的综合能源系统优化调度方法
CN118504417B (zh) 一种考虑调度经验的强化学习优化调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination