CN116307449A

CN116307449A - 一种风电储能站实时调控方法与系统

Info

Publication number: CN116307449A
Application number: CN202211575702.3A
Authority: CN
Inventors: 谢平平; 陆秋瑜; 杨银国; 李力; 刘洋; 闫斌杰; 杨壁瑜
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-06-23

Abstract

本发明提供了一种风电储能站实时调控方法与系统，方法包括：构建风电储能站的在线运行模型；基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略；采用基础在线调度策略对风电储能站进行调度，获取基础运行数据；基于DDPG强化学习算法构建风电储能站的进阶调度模型；根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略；采用进阶在线调度策略对风电储能站进行调控。本方法提供的实时调控方法通过基础在线调度策略支持风电储能站建立初期的安全稳定运行，通过进阶在线调度策略支持风电储能站后期的经济高效运行，其实现无需依赖于历史数据，可以对风电储能站进行在线实时的调控。

Description

一种风电储能站实时调控方法与系统

技术领域

本发明涉及电力技术领域，尤其是涉及一种风电储能站实时调控方法与系统。

背景技术

随着“双碳”目标的提出以及能源问题的逐渐严峻，发展可再生能源已经成为了目前电力系统改革的关键路径。一般来说，沿海地区具有丰富的海上风电资源，对这些地区而言发展海上风电是实现清洁、绿色发电的重要手段。在实际运行中，为了减小风电波动性、随机性的影响，通常会为风电场配置一定容量的储能，以风储联合电站的方式进行运行。而新建的风储联合电站通常缺乏历史运行数据，难以在短时间内训练出预测模型对风电出力等不确定量进行预测，因而无法考虑未来的信息，只能基于系统当下的状态量进行调度决策。在此背景下，如何设计合适的实时调控算法支持风储联合电站的在线运行则成为了一个关键问题。

对于风电储能实时调控的问题，现有方法通常采用近似动态规划、Q学习等算法进行在线调度，然而这些方法十分依赖于历史数据，在历史数据较少或没有历史数据的情况下则需通过在决策空间内随机采样等方式进行决策、获得样本，而这可能对系统的安全稳定运行带来风险，且算法收敛性较差。此外Q学习通常会对决策空间进行离散化，限制了决策量的取值，其决策效果也会相应地受到限制。

发明内容

本发明旨在提供一种风电储能站实时调控方法与系统，以解决上述技术问题，无需依赖于历史数据，可以实现对风电储能站的在线实时调控。

为了解决上述技术问题，本发明提供了一种风电储能站实时调控方法，包括以下步骤：

构建风电储能站的在线运行模型；

基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略；采用基础在线调度策略对风电储能站进行调度，获取基础运行数据；

基于DDPG强化学习算法构建风电储能站的进阶调度模型；

根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略；

采用进阶在线调度策略对风电储能站进行调控。

上述方案在缺乏历史数据及未来的预测信息的情况下，以Lyapunov优化方法对在线运行模型进行优化，得到基础在线调度策略，对风电储能站进行调度并收集基础运行数据；在基础运行数据量积累到一定程度后对基于DDPG强化学习算法构建的进阶调度模型进行训练并实现风电储能站的进阶调控。其中，基础在线调度策略用于支持风电储能站建立初期的安全稳定运行，进阶在线调度策略可以支持风电储能站后期的经济高效运行，评估标准的设置更为风电储能站的在线运行模式提供了参考。上述方案的实现无需依赖于历史数据，可以对风电储能站进行在线实时的调控。

进一步地，所述构建风电储能站的在线运行模型是后续获取在线调度策略的基础，其中在线指的是风电储能站的运行只依赖于过去与当前的信息，而不依赖于未来不确定量的预测信息。考虑到实际应用中风电等不确定量的随机性较强，在缺乏历史数据的情况下难以准确预测，因此构建风电储能站的在线运行模型对于新建的风电储能站具有实际意义。构建风电储能站的在线运行模型包括风电出力约束、储能容量约束、传输线容量约束等。

进一步地，所述基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略，具体为：

基于Lyapunov优化方法将时刻t的在线运行模型优化建模为Lyapunov优化问题：

minτQ_t(P_t ^ws-P_t ^sg)+V[-π_tτ(P_t ^wg+η_dP_t ^sg)]

s.t.P_t ^ws≥0，P_t ^wg≥0，P_t ^sg≥0

P_t ^wg+η_dP_t ^sg≤T^u

P_t ^ws≤P^u，P_t ^sg≤P^u

式中：τ表示每次决策的时间间隔；Q_t为基于储能电量构建的虚拟队列，有Q_t＝E_t-η，E_t表示时刻t的储能电量，η为常量；P_t ^ws为用于储能充电的风电功率；P_t ^wg为直接输给受端电网的风电功率；V为常量；π_t表示实时电价；η_d为储能的放电效率；P_t ^sg为储能站输向受端电网的功率；η_c为储能的充电效率；P_t ^w表示时刻t的最大风电出力；T^u为传输线容量；P^u为储能的最大充放电功率；

求解Lyapunov优化问题，获取基础在线调度策略。

上述方案中，在新建的风电储能站刚投入运行时，由于缺乏历史运行数据，因此难以对在线调度策略进行训练，此时可基于Lyapunov优化方法建立基础的调度策略，以支持风电储能站建立初期的安全稳定运行。Lyapunov优化方法作为一种在线优化方法，仅基于风电储能站当下的状态进行决策，既不依赖于未来的预测信息也不需要过去的历史运行数据，因此可作为风电储能站的基础在线调度策略。

进一步地，所述采用基础在线调度策略对风电储能站进行调度，获取基础运行数据具体为：

采用基础在线调度策略对风电储能站进行调度，获取各个时刻的状态量和决策量，得到一系列状态-动作数据；

基于状态-动作数据计算对应的奖励，建立数据四元组作为基础运行数据。

进一步地，所述基于DDPG强化学习算法构建风电储能站的进阶调度模型，具体为：

基于DDPG强化学习算法构建风电储能站的进阶调度模型，，包括Actor网络、Critic网络、Actor目标网络和Critic目标网络，其中：

所述Actor网络用于生成决策策略，即输入状态后会输出相应的动作，并生成Actor目标网络更新参数；

所述Critic网络用于对决策策略进行评估，即输入状态和动作后会输出相应的评分，并生成Critic目标网络更新参数；

所述Actor目标网络用于基于Actor目标网络更新参数及输入的状态生成模拟真实决策策略；

所述Critic网络用于基于Critic目标网络更新参数及输入的状态、模拟真实决策策略进行评估，生成模拟真实评分；

其中，在所述风电储能站的进阶调度模型中，所述状态包括储能电量、最大风电出力和实时电价，所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率；所述评分为储能充放电动作带来的长期收益；所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。

进一步地，所述根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略，具体为：

所述基础运行数据为数据四元组，包括状态、动作、奖励和下一时刻的状态；

基于基础运行数据采用反向传播算法对Actor网络、Critic网络进行训练，不断更新网络参数，获取当前调度策略；

其中：Actor网络的训练目标为最大化储能充放电动作带来的长期收益；Critic网络的目标为训练最小化储能长期收益与模拟真实的储能长期收益之间的误差；

根据风电储能站在当前调度策略下的收益与在基础在线调度策略下的收益情况进行判断；若满足预设的评估标准，则将当前调度策略作为进阶在线调度策略；否则，继续对Actor网络、Critic网络进行训练。

上述方案提供的一种风电储能站实时调控方法，其提出的基础在线调度策略可以保证风电储能站的安全运行，并基于基础在线调度策略得到的基础运行数据训练由DDPG强化学习算法构建的风电储能站的进阶调度模型，可以进一步优化风电储能站的在线运行效益，为风电储能站的在线运行提供参考。

本发明还提供一种风电储能站实时调控系统，包括在线运行模块、Lyapunov优化模块、基础调度模块、DDPG算法模块、训练评估模块和进阶调度模块；其中：

所述在线运行模块用于构建风电储能站的在线运行模型；

所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略；

所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度，获取基础运行数据；

所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型；

所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略；

所述进阶调度模块用于采用进阶在线调度策略对风电储能站进行调控。

进一步地，所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略，具体为：

minτQ_t(P_t ^ws-P_t ^sg)+V[-π_tτ(P_t ^wg+η_dP_t ^sg)]

s.t.P_t ^ws≥0，P_t ^wg≥0，P_t ^sg≥0

P_t ^wg+η_dP_t ^sg≤T^u

P_t ^ws≤P^u，P_t ^sg≤P^u

求解Lyapunov优化问题，获取基础在线调度策略。

进一步地，所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度，获取基础运行数据，具体为：

进一步地，所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型，具体为：

基于DDPG强化学习算法构建风电储能站的进阶调度模型，包括Actor网络、Critic网络、Actor目标网络和Critic目标网络，其中：

其中，在所述风电储能站的进阶调度模型中，所述状态包括储能电量、最大出力和实时电价，所述动作包括储能充电的功率、直接输给受端电网的功率和储能站输向受端电网的功率；所述评分为储能充放电动作带来的长期收益；所述模拟真实评分为模拟储能充放电动作带来的真实长期收益。

进一步地，所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略，具体为：

其中：Actor网络的训练目标为最大化储能电量；Critic网络的目标为训练最小化储能电量与模拟真实储能电量之间的误差；

本发明还提供一种风电储能站实时调控方法设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现所述的一种风电储能站实时调控方法。

本发明还提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行所述的一种风电储能站实时调控方法。

附图说明

图1为本发明一实施例提供的一种风电储能站实时调控方法流程示意图；

图2为本发明一实施例提供的风电储能站的结构示意图；

图3为本发明一实施例提供的风电储能站的进阶调度模型结构示意图；

图4为本发明一实施例提供的基础在线调度策略辅助进阶调度模型训练的示意图；

图5为本发明一实施例提供的判断进阶调度模型是否符合评估标准的流程示意图；

图6为本发明一实施例提供的一种风电储能站实时调控系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，一种风电储能站实时调控方法，包括以下步骤：

S1：构建风电储能站的在线运行模型；

S2：基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略；

S3：采用基础在线调度策略对风电储能站进行调度，获取基础运行数据；

S4：基于DDPG强化学习算法构建风电储能站的进阶调度模型；

S5：根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略；

S6：采用进阶在线调度策略对风电储能站进行调控。

本实施例在缺乏历史数据及未来的预测信息的情况下，以Lyapunov优化方法对在线运行模型进行优化，得到基础在线调度策略，对风电储能站进行调度并收集基础运行数据；在基础运行数据量积累到一定程度后对基于DDPG强化学习算法构建的进阶调度模型进行训练并实现风电储能站的进阶调控。其中，基础在线调度策略用于支持风电储能站建立初期的安全稳定运行，进阶在线调度策略可以支持风电储能站后期的经济高效运行，评估标准的设置更为风电储能站的在线运行模式提供了参考。上述方案的实现无需依赖于历史数据，可以对风电储能站进行在线实时的调控。

进一步地，所述构建风电储能站的在线运行模型是后续获取在线调度策略的基础，其中在线指的是风电储能站的运行只依赖于过去与当前的信息，而不依赖于未来不确定量的预测信息。考虑到实际应用中风电等不确定量的随机性较强，在缺乏历史数据的情况下难以准确预测，因此构建风电储能站的在线运行模型对于新建的风电储能站具有实际意义。请参见图2，构建风电储能站的在线运行模型包括风电出力约束、储能容量约束、传输线容量约束等，具体为：

设风电场于时刻t的最大出力为P_t ^w，其中为储能充电的功率为P_t ^ws，直接输给受端电网的功率为P_t ^wg，如还有无法利用的风能则则被舍弃。储能输向受端电网的功率则为P_t ^sg。各个时刻的P_t ^ws、P_t ^wg、P_t ^sg均为决策变量，其应满足下述约束。

首先各个决策变量非负：

风电场于任意时刻的实际出力不能超过最大出力，从而有

其中η_c为储能的充电效率。而流向受端电网的功率不能超过传输线容量，从而有：

其中η_d为储能的放电效率，T^u为传输线容量；

储能的运行约束则如下所示：

其中P^u为储能的最大充放电功率，E^l，E^u则分别表示储能的电量下限与上限，τ为每次决策的时间间隔。上述四个约束中，前两个为储能的功率约束，第三个为储能电量的状态方程，第四个则是储能的电量约束。

而对于目标函数，风电储能站的运行目标是在一段时间内使得运行收益最大化。令π_t表示时刻t受端电网从风储电站买电的实时电价，T为运行周期，从而目标函数为：

从而得到在线运行模型为：

在线运行模型所针对的问题为线性规划问题，易于求解。然而该模型的优化问题是需要事先已知0～T时刻的全部参数，才能基于上述模型在事前进行全局优化。然而在实际运行中，风电最大出力P_t ^w、实时电价π_t等信息通常难以预测，只知其上下界

π_t∈[π_min,π_max]，因此这些参数需建模为随机量。相应地，目标函数应记为：

其中

表示期望值。

在实际运行中，由于未来的随机量信息难以预测，因此只能基于当下的信息进行在线决策，尽可能保证上述期望收益最大化。在本实施例所涉及的问题中，时刻t的决策变量为P_t ^ws、P_t ^wg、P_t ^sg，而已知信息为当下的储能电量E_t、风电最大出力P_t ^w、实时电价π_t。从而可将时刻t的决策量及状态量分别记为

a_t＝(P_t ^ws,P_t ^wg,P_t ^sg)

s_t＝(E_t,P_t ^w,π_t)

其中a_t代表时刻t的决策量，s_t代表时刻t的状态量。而在线调度策略即为寻找由状态量到决策量的映射a_t＝φ_t(s_t)，从而在满足各约束的前提下使得整个运行周期的期望收益尽可能达到最优。

需要说明的是，上述在线运行模型可用于风电储能站的在线决策，具体应用过程为：

步骤一：于时刻t观测到当前时刻的储能电量E_t、风电最大出力P_t ^w、实时电价π_t等状态信息；

步骤二：以当下的状态信息(E_t,P_t ^w,π_t)作为输入，运行某种在线调度策略算法，输出当下的决策(P_t ^ws,P_t ^wg,P_t ^sg)、执行该决策带来的单步收益π_tτ(P_t ^wg+η_dP_t ^sg)以及决策执行后对应的储能电量E_t+1。

步骤三：进入时刻t+1，返回执行步骤一。

上述应用过程的关键在于步骤二的在线调度策略，其难点在于在线运行模式下只可计算当前的决策所带来的的单步收益，但由于当前的决策会影响未来的系统状态，即影响下一时刻的储能电量E_t+1进而影响未来的决策，使得单步收益最优不一定意味着全运行周期的整体收益最优。在此情况下，如何尽可能地优化全运行周期的收益即为设计在线调度策略面临的关键技术问题。

minτQ_t(P_t ^ws-P_t ^sg)+V[-π_tτ(P_t ^wg+η_dP_t ^sg)]

s.t.P_t ^ws≥0，P_t ^wg≥0，P_t ^sg≥0

P_t ^wg+η_dP_t ^sg≤T^u

P_t ^ws≤P^u，P_t ^sg≤P^u

求解Lyapunov优化问题，获取基础在线调度策略。

上述方案中，在新建的风电储能站刚投入运行时，由于缺乏历史运行数据，因此难以对在线调度策略进行训练，此时可基于Lyapunov优化方法建立基础的调度策略，以支持风电储能站建立初期的安全稳定运行。Lyapunov优化方法作为一种在线优化方法，仅基于风电储能站当下的状态进行决策，既不依赖于未来的预测信息也不需要过去的历史运行数据，因此可作为风电储能站的基础在线调度策略。Lyapunov优化方法虽然无法保证全局最优，但能够保证系统的安全运行，即任意时刻的运行策略都能充分满足系统的各运行约束。

需要说明的是，Lyapunov优化方法是在通信与网络等领域被广泛使用的一种优化方法，其核心思想是建立虚拟队列，在对目标函数进行优化的同时保证虚拟队列的稳定性，即虚拟队列长度尽可能趋近于常值。基于该思想，在风电储能站运行问题中可将储能电量的稳定性建模为：

即在长时间尺度下使得储能的净充电量期望趋于零，从而保证储能的电量稳定，既不会显著充电突破电量上限，也不会显著放电超过电量下限。

基于上述思想，时刻t的在线运行模型可以优化建模为Lyapunov优化问题。需要说明的是，Lyapunov优化问题的目标函数是储能队列漂移量τ(P_t ^ws-P_t ^sg)与原单阶段目标函数π_tτ(P_t ^wg+η_dP_t ^sg)的加权，旨在兼顾储能电量稳定性与风电储能站收益，即在信息量有限的情况下尽可能保证系统安全性与经济性。参数Q_t＝E_t-η为基于储能电量构建的虚拟队列，其中η为常量；参数V也为常量。关于η与V的取值方面，可以证明，当η＝E^l+τP^u+Vπ_max，且

时，原运行优化问题中的各个约束均可得到满足，尤其是储能的电量可保持在[E^l,E^u]区间内。从而该在线调度策略可在保证系统的运行安全性的情况下获得一个较优的结果。

需要进一步说明的是，上述Lyapunov优化问题不含任何时序耦合项，仅需基于当前时刻t的状态进行决策，因此是一种在线决策范式。且该问题为线性规划，易于求解。

在本实施例中，基于Lyapunov优化问题获取的基础在线调度策略在运行一段时间后，可积累得到一些历史运行数据，从而可对调度策略进行训练和优化，以进一步提高风电储能站的运行收益。DDPG作为一种高效的强化学习算法，可以应用于控制量为连续量的应用场景，适用于风电储电站的在线运行问题。

基于Lyapunov优化问题进行初始化的DDPG算法充分兼顾了Lyapunov优化和DDPG算法的优势。一方面，传统的强化学习算法在训练初期通常是随机选取动作获得样本，这种方式随机性较强，需要较多样本才能达到较好效果，且随机动作的安全性难以保证，可能会违反一些约束条件。相比之下，利用Lyapunov优化问题进行初始化的DDPG算法让智能体在训练初期能够较快地学得Lyapunov优化的调度模式，保证系统的在线安全运行，相比于随机选取动作的模式在收敛性、安全性等方面具有显著优势。另一方面，DDPG算法作为一种强化学习算法，在样本量较大的情况下能够充分挖掘历史数据的信息，基于探索与利用的学习模式自发地优化调度策略，提升风储电站的效益，在后期能够取得比Lyapunov优化更好的效果。

具体地，DDPG算法作为一种强化学习算法，其相应的训练数据的形式通常为四元组(s_t,a_t,r_t,s_t+1)，其中s_t,a_t,r_t分别代表当下的状态、动作、奖励值，而s_t+1则是执行了动作a_t后在下一时刻的状态。在本问题中，状态s_t＝(E_t,P_t ^w,π_t)，而决策量a_t ^full＝(P_t ^ws,P_t ^wg,P_t ^sg)。考虑到a_t ^full维数较高，且其各个动作分量均可由储能净充电动作量P_t ^c推导而得，因而可将决策量进行降维得到动作a_t＝P_t ^c∈[-P^u,P^u]，而决策量P_t ^ws,P_t ^wg,P_t ^sg分别为关于P_t ^c的函数：

P_t ^wg＝P_t ^w-P_t ^ws

因此一旦动作a_t确定，风电储能站中各个决策量即可直接计算获得。

可以将奖励函数r_t则定义为：

r_t＝π_t ^rel(η_dP_t ^sg+P_t ^wg)τ

即电站向电网放电所取得的收益。其中π_t ^rel＝π_t-π_av为时刻t的相对电价，π_av表示平均电价。如果采用绝对电价作为收益的计算方式，则由于强化学习的短视特性，其更倾向于尽可能地用储能进行放电以获取短期的收益；相比之下，用相对电价计算奖励则体现了实时电价波动对长期收益的影响，使得储能在电价高时放电，在电价低时充电。此外值得一提的是，由于应用场景为新建电站，其历史信息可能较少，因此平均电价不是已知量，在此情况下可以基于滑动平均的方式得到平均电价的估计值

来代替π_av，即在各时刻更新

其中α为滑动平均的权重。

因此，DDPG算法中的状态、动作、奖励函数如下所示：

s_t＝(E_t,P_t ^w,π_t)

a_t＝P_t ^c∈[-P^u,P^u]

r_t＝π_t ^rel(η_dP_t ^sg+P_t ^wg)τ

由此可在每次动作执行后获得四元组(s_t,a_t,r_t,s_t+1)，将其作为基础运行数据进行保存。

需要说明的是，储能充放电动作带来的长期收益即“充放电动作为当下带来的单步收益”加上“充放电动作执行后的储能电量可为未来带来的收益(即储能电量的经济价值)。

在本实施例中，风电储能站的进阶调度模型请参见图3，其主要由Actor网络和Critic网络等两套神经网络组成，其中Actor网络的参数记为θ^μ，Critic网络的参数记为θ^Q。Actor网络给出策略a_t＝μ(s_t|θ^μ)，即输入状态s_t后Actor网络会输出相应的动作a_t；而Critic网络对策略进行评估，即输入状态s_t和动作a_t后Critic网络会输出相应的评分Q(s_t,a_t)。两套网络均是利用样本池中的数据(s_t,a_t,r_t,s_t+1)，基于反向传播算法进行训练，不断更新网络参数。其中Actor网络的目标函数是最大化Q值，即：

而Critic网络的目标是最小化其预测的Q值Q^pred(s,μ(s|θ^μ)|θ^Q)与真实的Q值Q^actual之间的误差，即：

其中，预测Q值的计算方式为：

Q^pred(s_t,a_t|θ^Q)＝r_t+γQ(s_t+1,a_t+1|θ^Q)

其中而γ∈(0,1]为折扣因子，需要提前给定；状态s_t+1是在状态s_t下执行动作a_t获得。而训练阶段所生成的动作a_t(以及a_t+1)常常是在Actor网络输出的动作μ(s|θ^μ)基础上添加高斯随机噪声N(0,σ²)而获得，如下式所示，其目的是在动作中加入一定随机性从而尝试探索出更优的策略。

a_t＝μ(s_t|θ^μ)+N(0,σ²)

除了实时更新的Actor网络和Critic网络外，DDPG算法中还需要有一套更新较慢的Actor目标网络和Critic目标网络，如图3所示，其作用是模拟真实的Q值Q^actual，即

其中

分别为Actor目标网络和Critic目标网络的参数，其通过软更新的方式进行更新，即

其中超参数α∈(0,1)为软更新权重，通常情况下α取值较小，因而Actor目标网络和Critic目标网络的更新较慢，以保证训练稳定性。

因此，对于进阶调度模型地训练，实质上是对Actor网络和Critic网络利用基础运行数据不断进行训练，基于目标函数L_μ/L_Q及反向传播算法实时更新网络参数θ^μ/θ^Q；而Actor目标网络和Critic目标网络则利用软更新的方式对参数

进行较慢的更新。

本实施例具体阐述了对于进阶调度模型的训练过程，具体而言，在电站运行初期执行基础调度策略并记录各个时刻的状态量和决策量，自然会得到一系列状态-动作数据(s_t,a_t),t＝0,1,2,...，而基于这些数据亦可计算出相应的奖励值r_t，从而不断建立(s_t,a_t,r_t,s_t+1)四元组并将其加入样本池，以供DDPG模型进行训练。当DDPG模型训练足够充分时，即可以DDPG模型作为进阶调度策略，直接基于Actor网络的输出动作进行在线调度，取代基础调度策略支持电站的在线运行，如图4所示。以DDPG模型作为进阶策略，其不仅能够学得基础调度策略的决策模式，亦可基于历史数据进行自发的探索和优化，带来比基础调度策略更多的收益。

需要说明的是，本实施例针对另一个关键问题为何时进行基础调度策略与进阶调度策略的切换，即何时可以认为DDPG模型已经训练充分、其性能已经超过Lyapunov优化模型。针对于该问题，本实施例通过预设评估标准进行比较判断，具体为：

设定计算间隔，本实施例采用每个运行日为一个计算间隔。即在每个运行日结束时，基于下述评估算法评价DDPG的性能，如果连续M个运行日中DDPG算法模型均满足评估标准，则认为DDPG的性能足以支持在线运行，此时可将在线运行策略由基础调度策略切换为进阶调度策略，如图5所示。其中M为超参数，需事先指定其取值。

步骤一：给定超参数K、β％的取值；

步骤二：以运行日为周期，从基础运行数据中随机选取K个完整运行日的历史数据，包括各个时刻的风电出力与电价数据。

步骤三：基于选取的历史数据，对每个完整运行日分别基于基础调度策略和当前的DDPG策略进行运行模拟，计算两种策略下得到的日收益。

步骤四：对两种策略得到的日收益进行比较，如果在K个完整运行日的模拟中至少有β％的完整运行日满足DDPG策略的日收益高于基础调度策略的日收益，则本次评估通过，即认为在本次评估中DDPG策略优于基础策略；反之，本次评估不通过。

本实施例预设的评估标准构成了以基础调度策略及进阶调度策略为基础的风电村能站的在线运行算法，并说明了由基础策略切换到进阶策略的评判标准。该在线运行算法可为风电村能站的实时调控提供有效指导。

本实施例提供的一种风电储能站实时调控方法，其提出的基础在线调度策略可以保证风电储能站的安全运行，并基于基础在线调度策略得到的基础运行数据训练由DDPG强化学习算法构建的风电储能站的进阶调度模型，可以进一步优化风电储能站的在线运行效益，为风电储能站的在线运行提供参考。

请参见图6，本实施例提供一种风电储能站实时调控系统，用于实现一种风电储能站实时调控方法，具体包括在线运行模块、Lyapunov优化模块、基础调度模块、DDPG算法模块、训练评估模块和进阶调度模块；其中：

所述在线运行模块用于构建风电储能站的在线运行模型；

minτQ_t(P_t ^ws-P_t ^sg)+V[-π_tτ(Pt^wg+η_dP_t ^sg)]

s.t.P_t ^ws≥0，P_t ^wg≥0，P_t ^sg≥0

P_t ^wg+η_dP_t ^sg≤T^u

P_t ^ws≤P^u，P_t ^sg≤P^u

求解Lyapunov优化问题，获取基础在线调度策略。

本实施例提供一种风电储能站实时调控方法设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现所述的一种风电储能站实时调控方法。

本实施例提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行所述的一种风电储能站实时调控方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种风电储能站实时调控方法，其特征在于，包括以下步骤：

构建风电储能站的在线运行模型；

基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略；

采用基础在线调度策略对风电储能站进行调度，获取基础运行数据；

基于DDPG强化学习算法构建风电储能站的进阶调度模型；

采用进阶在线调度策略对风电储能站进行调控。

2.根据权利要求1所述的一种风电储能站实时调控方法，其特征在于，所述基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略，具体为：

minτQ_t(P_t ^ws-P_t ^sg)+V[-π_tτ(P_t ^wg+η_dP_t ^sg)]

s.t.P_t ^ws≥0，P_t ^wg≥0，P_t ^sg≥0

P_t ^wg+η_dP_t ^sg≤T^u

P_t ^ws≤P^u，P_t ^sg≤P^u

求解Lyapunov优化问题，获取基础在线调度策略。

3.根据权利要求1所述的一种风电储能站实时调控方法，其特征在于，所述采用基础在线调度策略对风电储能站进行调度，获取基础运行数据具体为：

4.根据权利要求1所述的一种风电储能站实时调控方法，其特征在于，所述基于DDPG强化学习算法构建风电储能站的进阶调度模型，具体为：

5.根据权利要求4所述的一种风电储能站实时调控方法，其特征在于，所述根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略，具体为：

6.一种风电储能站实时调控系统，其特征在于，包括在线运行模块、Lyapunov优化模块、基础调度模块、DDPG算法模块、训练评估模块和进阶调度模块；其中：

所述在线运行模块用于构建风电储能站的在线运行模型；

7.根据权利要求6所述的一种风电储能站实时调控系统，其特征在于，所述Lyapunov优化模块用于基于Lyapunov优化方法对在线运行模型进行优化，获取基础在线调度策略，具体为：

minτQ_t(P_t ^ws-P_t ^sg)+V[-π_tτ(P_t ^wg+η_dP_t ^sg)]

s.t.P_t ^ws≥0，P_t ^wg≥0，P_t ^sg≥0

P_t ^wg+η_dP_t ^sg≤T^u

P_t ^ws≤P^u，P_t ^sg≤P^u

求解Lyapunov优化问题，获取基础在线调度策略。

8.根据权利要求6所述的一种风电储能站实时调控系统，其特征在于，所述基础调度模块用于采用基础在线调度策略对风电储能站进行调度，获取基础运行数据，具体为：

9.根据权利要求6所述的一种风电储能站实时调控系统，其特征在于，所述DDPG算法模块用于基于DDPG强化学习算法构建风电储能站的进阶调度模型，具体为：

10.根据权利要求9所述的一种风电储能站实时调控系统，其特征在于，所述训练评估模块用于根据基础运行数据对进阶调度模型进行训练，直至进阶调度模型符合预设的评估标准，获取进阶在线调度策略，具体为：