CN110414725A

CN110414725A - 预测决策一体化的风电场储能系统调度方法及装置

Info

Publication number: CN110414725A
Application number: CN201910626144.0A
Authority: CN
Inventors: 杨明; 杨佳峻; 朱毅; 于一潇
Original assignee: Shandong University; Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: Shandong University; Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-05
Anticipated expiration: 2039-07-11
Also published as: CN110414725B

Abstract

本公开提供了一种预测决策一体化的风电场储能系统调度方法及装置。其中，预测决策一体化的风电场储能系统调度方法，包括：样本积累步骤：将风电场状态s_t输入至评价网络，输出动作空间A中所有动作的Q值并由ε‑greedy策略确定储能系统的调度指令a_t，在储能系统执行该调度指令后，计算返回的奖励r_t并观察下一时段风电场状态s_t+1，将(s_t,a_t,r_t,s_t+1)作为一个样本存储到缓存器中，重复上述过程直至缓存器中样本数达到预设上限值；Q值迭代步骤；网络训练步骤；学习环节结束判断步骤：若风电场获取的收益不再增长并在预设书中范围内波动，则此时评价网络已收敛，当前调度指令最优；否则，重复上述步骤，直至评价网络收敛，输出最优调度指令。

Description

预测决策一体化的风电场储能系统调度方法及装置

技术领域

本公开属于风电场储能系统优化领域，尤其涉及一种预测决策一体化的风电场储能系统调度方法及装置。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

风力发电机出力和市场电价直接关系着风电场的收益。风力发电机的出力具有不确定性和不可调度性，这些特性让风电场的收入也随之波动且不受控制。此外，电力市场发布的电价包含市场的供需平衡信息、传输阻塞、燃料成本等信息，调整电价是市场引导和约束发电商提供优质电能的手段。作为电力市场中电价的被动接受者，风力发电商根据电价的高低安排发电量能提高其调度收益。

储能技术为风电场应对风电的不确定性提供了解决途径。对于储能系统而言，当其被集成到风电场中时，风力发电机与储能系统的混合输出可以在一定程度上被控制。储能系统的调节能力不仅用来消除风电的部分不确定性，还用来实现根据电价制定的长期发电计划，实现长期利益的最大化。针对在风电不确定性条件下风电场储能系统的优化控制，当前研究以风电功率预测为前提，遵循预测、决策相分离的调度模式。从机器学习的角度来看，预测阶段是从风电场高维度的气象数据到预测功率值(或其他相关形式)的数据压缩、特征提取过程。发明人发下，预测与决策的分离致使该过程丢失了许多原始数据中蕴含的有效决策依据，并额外引入了因预测算法带来的误差干扰。此外，在基于数学优化算法的决策阶段，风电的不确定性通常被假设为特定的概率分布，概率分布与实际风电不确定性的匹配程度也影响着调度结果的可参考性。

发明内容

为了解决上述问题，本公开提供一种预测决策一体化的风电场储能系统调度方法及装置，其对风电场储能系统进行预测决策一体化调度，能够最大程度地避免风电场中有效决策依据的丢失，提升调度结果的有效性。

本公开的第一个方面提供一种预测决策一体化的风电场储能系统调度方法。

一体化的风电场储能系统调度方法，包括：

样本积累步骤：将当前时刻风电场状态s_t输入至评价网络，输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令a_t，在储能系统执行该调度指令后，计算返回的奖励r_t并观察下一时段风电场状态s_t+1，将(s_t,a_t,r_t,s_t+1)作为一个样本存储到缓存器中，重复上述过程直至缓存器中样本数达到预设上限值；

Q值迭代步骤：对存储的样本进行批量采样，再经评价网络和目标网络计算出每个样本的时间差分偏差值，取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值；其中目标网络是评价网络的阶段性复制品，两者具有相同的网络结构；

网络训练步骤：利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数，每当评价网络被更新预设次数后，将评价网络的参数拷贝至目标网络；

学习环节结束判断步骤：若风电场获取的调度收益不再增长并在预设数值范围内波动，则此时评价网络已收敛，当前调度指令最优；否则，重复上述步骤，直至评价网络收敛，输出最优调度指令。

本公开的第二个方面提供一种预测决策一体化的风电场储能系统调度装置。

一种预测决策一体化的风电场储能系统调度装置，包括：

样本积累模块，其用于：将当前时刻风电场状态s_t输入至评价网络，输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令a_t，在储能系统执行该调度指令后，计算返回的奖励r_t并观察下一时段风电场状态s_t+1，将(s_t,a_t,r_t,s_t+1)作为一个样本存储到缓存器中，重复上述过程直至缓存器中样本数达到预设上限值；

Q值迭代模块，其用于：对存储的样本进行批量采样，再经评价网络和目标网络计算出每个样本的时间差分偏差值，取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值；其中目标网络是评价网络的阶段性复制品，两者具有相同的网络结构；

网络训练模块，其用于：利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数，每当评价网络被更新预设次数后，将评价网络的参数拷贝至目标网络；

学习环节结束判断模块，其用于：若风电场获取的调度收益不再增长并在预设数值范围内波动，则此时评价网络已收敛，当前调度指令最优；否则，重复上述步骤，直至评价网络收敛，输出最优调度指令。

本公开的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的预测决策一体化的风电场储能系统调度方法中的步骤。

本公开的第四个方面提供一种计算机可读存储介质。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的预测决策一体化的风电场储能系统调度方法中的步骤。

本公开的有益效果是：

(1)作为一种风电场储能系统经济调度方法，本公开对风电场储能系统进行预测决策一体化调度。该调度模式令包含高维度原始气象数据的风电场状态直接驱动储能系统的控制。端到端(end-to-end)的一体化调度模式最大程度地避免风电场中有效决策依据的丢失，提升调度结果的有效性。

(2)本公开将深度强化学习应用于风电场储能系统的优化控制，其不依赖具体统计模型的特性让优化过程无需表述或假设风电的不确定性规律。与之相对应，这种数据驱动的优化算法让蕴含在历史数据中的风电不确定性规律被机器自动捕捉并加以利用，避免了对不确定性的建模误差，进一步提升决策结果的可参考性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的预测决策一体化的储能系统调度模式示意图；

图2为当前传统的预测决策分离的储能系统调度模式示意图；

图3为本公开实施例的的控制器中神经网络结构的示意图；

图4为本公开实施例的所用的强化学习基本原理的示意图；

图5为本公开实施例的中基于深度强化学习的储能系统优化控制示意图；

图6为本公开实施例的中基于深度强化学习DQN算法的储能系统优化控制流程示意图；

图7为本公开实施例的验证中风电场在优化过程中所获收益的变化曲线。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例的一体化的风电场储能系统调度方法，包括：

样本积累步骤：将风电场状态s_t输入至评价网络，输出动作空间A中所有动作的Q值并由ε-greedy策略确定储能系统的调度指令a_t，在储能系统执行该调度指令后，计算返回的奖励r_t并观察下一时段风电场状态s_t+1，将(s_t,a_t,r_t,s_t+1)作为一个样本存储到缓存器中，重复上述过程直至缓存器中样本数达到预设上限值；

其中，评价网络为一个深度神经网络，本实例中评价网络的结构如图3所示；

Q值迭代步骤：对存储的样本进行批量采样，再经评价网络和目标网络计算出每个样本的时间差分偏差值，取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值，其中目标网络是评价网络的阶段性复制品，二者具有相同的网络结构；

预测决策一体化调度模式将传统风电场调度模式中存在的预测、决策两个独立的阶段合二为一，形成端到端的调度模式。该模式下风储合作机制如图1所示，而传统的风储合作机制如图2所示。在预测决策一体化调度模式中，功率、气象和储能系统状态等数据都被作为决策依据输入到控制器中。具体的，风电场的输入状态空间由前瞻电价λ_t、上一个调度时段结束后储能系统存储的电量值E_t-1以及风电场的测量数据组成，如下式所示：

式中：M_t表示风力发电机的实时及历史输出功率、风电场的风速、风向、气压、湿度等实时、历史甚至预测的气象数据。

在大量的决策依据中自动提取有益于提高售电收益的数据特征，进而直接给出储能系统的充放电功率作为输出指令。因此，输出动作空间由储能系统的充放电功率值P_ESS,t的n个等离散量组成，如下式所示：

A＝{a₁,a₂,…,a_n} (2)

调度结束后，风电场向电网注入的功率P_sys,t为该时刻风力发电机的实际输出功率P_w,t与所决策的储能系统充放电功率P_ESS,t之和，如式(3)所示：

P_sys,t＝P_w,t+P_ESS,t (3)

其中，P_ESS,t为正值表示储能系统处于放电状态，负值表示储能系统处于充电状态。

深度神经网络拟合了从状态s_t到所有可行调度指令的Q值之间的映射关系，其初始参数为随机数。Q值衡量了该调度指令能为风电场带来长期收益。然后ε-greedy动作选择策略根据神经网络计算出的Q值选择最终的调度指令作为最终输出指令a_t。ε-greedy如下式所示：

式中：π表示在状态s下动作a被选取的概率；ε(≠0)为随机选取动作的概率，argmax_aQ(s,a)表示动作空间中具有最大Q值的可行动作。

该策略表达的物理含义是：以ε的概率随机选择动作空间中的某个动作作为输出指令，以1-ε的概率来选择动作空间中Q值最大的动作作为输出指令。

在考虑储能系统运行约束的情况下执行调度指令并计算调度收益r_t。

其中，风电场所获得的调度收益计算如下：

r_t＝P_sys,tλ_tΔt-C_t (5)

式中：λ_t是风电场在t时段的售电价格，C_t是风电场因储能系统运行状态越限而支付的惩罚费用，Δt为两次调度之间的时间间隔。

其中，储能系统运行约束如下：

储能系统的调节能力受其运行约束的限制。本实施例中以蓄电池组作为储能元件。储能系统的充放电功率可进一步表示为：

式中：与分别为t时段储能系统的放电、充电功率值；与分别是t时段储能系统的放电、充电状态变量，值为0时表示非，值为1时表示是。式(7)表示同一时段充电和放电状态无法同时存在。

蓄电池组的功率约束主要有：

1)充放电功率限制约束：

式中：和是储能系统允许的最大充、放电功率值。

由于蓄电池组t时段的电量与t-1时段的电量有关，即满足：

式中：和为储能系统的充电、放电效率；E_t表示t时段储能元件的电量值。因此，储能系统还受到蓄电池容量与电量的限制。

2)储能系统容量约束：

E_min≤E_t≤E_max (11)

式中：E_max与E_min分别为储能系统允许的最大、最小存储电量值。

3)控制周期末时段电量约束：

E₂₄＝E_end (12)

式中：E₂₄为储能系统在一个控制周期结束后储能系统中存储的电量值；E_end为储能系统在进入下一个控制周期时要求的存储电量值，是一个固定值。该约束保证了储能系统能长期具备对风电场收益的调节能力。

4)储能系统充放电状态转换次数约束：

式中：Y_ESS,t是储能系统充放电状态的转换变量，值为0表示t时段与t-1时段的充放电状态相同，值为1表示状态发生了变化；N_ESS是一个调度周期内储能系统充放电状态允许转换的最大次数。

其中，在调度过程中，若储能系统对式(12)、式(13)约束越限，风电场将根据越限程度来支付惩罚费用，惩罚费用计算如下：

1)违反控制周期末时段电量约束：

违反该约束后，风电场以E_end与E₂₄之间的差值为依据支付惩罚费用：

式中：是储能系统违反控制周期末时段电量约束时的惩罚费用系数。

2)违反储能系统充放电状态转换次数约束：

违反该约束后，风电场以实际转换次数与最大允许转换次数的差值为依据支付惩罚费用：

式中：是违反储能系统充放电状态转换次数约束时的惩罚费用系数。

储能系统的运行状态越限后，风电场需要支付的惩罚费用是上述两类惩罚费用之和：

使用深度强化学习DQN算法更新控制器中的神经网络参数。

其中，强化学习的基本概念及原理如下：

强化学习的基本原理是不断鼓励智能体(控制器)以更高的概率输出能带来高回报的可行动作。智能体本质上是一个从状态空间S到动作空间A的映射关系。通过对外部环境的试错探索(即提升外部环境返回的奖励r_t)，强化学习直接优化智能体内部的映射关系，无需考虑状态s_t与动作a_t之间的物理机理。强化学习过程如图4所示。在传统强化学习算法中，映射关系通常以二维表格的形式存在，很难直接表征并处理连续的输入变量，必须对连续的状态空间进行离散才能与算法匹配，造成了不必要的信息损失。

本实施例将深度强化学习DQN算法应用到风电场的控制中，令控制器可以处理一体化调度模式下连续且高维度的风电场状态空间。深度强化学习引入深度神经网络来拟合映射关系。属于大数据挖掘技术的深度神经网络(深度学习)能有效挖掘状态空间中的高阶数据特征并筛除冗余信息，提升深度强化学习的优化效果。基于DQN算法的储能系统优化控制如图5所示。

其中DQN算法的更新原理如图6所示：

在DQN中，将控制器中搭建的神经网络称作评价网络。DQN中每一次学习过程可大致分为Q值迭代(Q-learning)和评价网络训练两个过程。其中，Q值的迭代规则如下所示：

式中：Q(s_t,a_t；θ_t)是经评价网络得出的在状态s_t下动作a_t的Q值；θ_t表示评价网络的网络参数；θ^-是目标网络(target network)的网络参数；α是学习率；r_t是奖励值；γ是衰减系数。目标网络与评价网络共同完成Q值的迭代，使迭代过程更加稳定，提升算法的收敛性。

在Q值迭代完毕后，DQN根据迭代前后Q值的差来训练评价网络，该差值被称为时间差分偏差(temporal difference error,TD-Error)，如下所示：

评价网络训练过程中的损失函数L(θ_t)为：

L(θ_t)＝TD-Error² (19)

神经网络的训练(即深度学习)要求输入样本之间相互独立，但是强化学习产生的样本是连续的过程化样本，二者之间的矛盾使得算法的收敛性较差。因此，DQN设置了以replay buffer为主的经验回放机制，以打乱强化学习产生的过程化样本。Replay buffer将控制器经历过的样本存储，然后等概率地随机提取部分样本作为神经网络的训练集。

本实施例的风电场的储能系统参数如下

表1储能系统参数

风电场状态空间由前瞻电价λ_t、上一个调度时段结束后储能系统存储的电量值E_t-1以及实时的风电场测量数据组成。测量数据包含：实时的测风塔10m风速、测风塔30m风速、测风塔50m风速、测风塔70m风速、轮毂高度风速、测风塔10m风向、测风塔30m风向、测风塔50m风向、测风塔70m风向、轮毂高度风向、风电场气压、湿度以及风力发电机的输出功率。整个状态空间由15维数据组成。各时段的售电电价如表2所示。

表2不同时段的售电价格

动作空间中，储能系统的充放电功率被等间隔地离散为31个动作，即{-7.5,-7.0,…,0,…,7.0,7.5}。

风电场的收益会随风电功率的波动而波动。图7所示为风电场平均收益随控制器历经样本数量增加的变化曲线。在初期的样本积累阶段中，由于经验回放机制中存储的样本数量不足，Q值的迭代和评价网络的训练未能被执行，因此该阶段的收益较低且无上升趋势。样本积累完毕后，从状态空间到动作空间的映射关系被持续优化，风电场的收益也随着历经样本的增加而有一个明显的上升阶段并随后达到一个稳定的波动范围。当收益曲线稳定后，风电场储能系统调度所获得的平均收益为6724.4元/小时。

为进一步说明所提方法的有效性，对预测、决策相分离的传统调度方法和基于场景的随机优化算法(scenario-based stochastic programming,SSP)进行了比较分析。在基于场景的随机优化过程中，风电功率的预测误差被假设服从正态分布N(μ,σ²)，并取系数μ＝0、σ＝0.1y_i。表3给出了风电场经历4000小时运营后不同情况下的调度收益。

表3多种情况下风电场的评价收益

通过对比情况1—5或3—5可得结论：与传统调度模式相比，预测决策一体化调度模式能为风电场带来更高收益。这是因为一体化调度模式能充分利用高维度风电场状态空间中蕴含的有效决策信息，提升调度的可参考性。此外，传统调度模式下，预测阶段中风电功率的预测精度会影响整个调度流程所获得的收益。而预测决策一体化调度模式未额外引入预测算法，因此不会存在该现象。

通过对比情况1—2或3—4可得结论：与数学优化算法相比，深度强化学习DQN算法不需要对风电的不确定性做特定假设或描述，避免了因概率分布的建模误差而导致的收益损失，进一步提升风电场所获收益。

综上，基于深度强化学习DQN算法的预测决策一体化调度(情况5)能最大化风电场的调度收益，证明了预测决策一体化调度模式和深度强化学习算法在风电场控制中的有效性。

作为一种风电场储能系统经济调度方法，本实施例对风电场储能系统进行预测决策一体化调度。该调度模式令包含高维度原始气象数据的风电场状态直接驱动储能系统的控制。端到端(end-to-end)的一体化调度模式最大程度地避免风电场中有效决策依据的丢失，提升调度结果的有效性。

本实施例将深度强化学习应用于风电场储能系统的优化控制，其不依赖具体统计模型的特性让优化过程无需表述或假设风电的不确定性规律。与之相对应，这种数据驱动的优化算法让蕴含在历史数据中的风电不确定性规律被机器自动捕捉并加以利用，避免了对不确定性的建模误差，进一步提升决策结果的可参考性。

实施例二

本实施例的一种预测决策一体化的风电场储能系统调度装置，包括：

(1)样本积累模块，其用于：将当前时刻风电场状态s_t输入至评价网络，输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令a_t，在储能系统执行该调度指令后，计算返回的奖励r_t并观察下一时段风电场状态s_t+1，将(s_t,a_t,r_t,s_t+1)作为一个样本存储到缓存器中，重复上述过程直至缓存器中样本数达到预设上限值；

(2)Q值迭代模块，其用于：对存储的样本进行批量采样，再经评价网络和目标网络计算出每个样本的时间差分偏差值，取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值；其中目标网络是评价网络的阶段性复制品，两者具有相同的网络结构；

(3)网络训练模块，其用于：利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数，每当评价网络被更新预设次数后，将评价网络的参数拷贝至目标网络；

(4)学习环节结束判断模块，其用于：若风电场获取的调度收益不再增长并在预设数值范围内波动，则此时评价网络已收敛，当前调度指令最优；否则，重复上述步骤，直至评价网络收敛，输出最优调度指令。

实施例三

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的预测决策一体化的风电场储能系统调度方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的预测决策一体化的风电场储能系统调度方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种预测决策一体化的风电场储能系统调度方法，其特征在于，包括：

2.如权利要求1所述的预测决策一体化的风电场储能系统调度方法，其特征在于，在所述样本积累步骤中，ε-greedy动作选择策略是以ε的概率随机选择动作空间中的某个动作作为储能系统的调度指令，以1-ε的概率来选择动作空间中Q值最大的动作作为储能系统的调度指令，其中，0<ε≤1。

3.如权利要求2所述的预测决策一体化的风电场储能系统调度方法，其特征在于，在所述样本积累步骤中，ε-greedy动作选择策略的表达式为：

式中：π(a,s)表示在状态s下动作a被选取的概率；argmax_a Q(s,a)表示动作空间中具有最大Q值的可行动作。

4.如权利要求1所述的预测决策一体化的风电场储能系统调度方法，其特征在于，在所述Q值迭代步骤中，Q值迭代规则为：

式中：Q(s_t,a_t；θ_t)是经评价网络得出的在状态s_t下动作a_t的Q值；θ_t表示评价网络的网络参数；θ^-是目标网络的网络参数；α是学习率；r_t是奖励值；γ是衰减系数；是目标网络得出的在状态s_t+1下动作a_t+1的最大Q值。

5.如权利要求1所述的预测决策一体化的风电场储能系统调度方法，其特征在于，在所述学习环节结束判断步骤中，风电场获取的调度收益设为r_t，其表达式为：

r_t＝P_sys,tλ_tΔt-C_t

式中：λ_t是风电场在t时段的售电价格，C_t是风电场因储能系统运行状态越限而支付的惩罚费用，P_sys,t为风电场向电网注入的功率，Δt为相邻两次调度之间的时间间隔。

6.一种预测决策一体化的风电场储能系统调度装置，其特征在于，包括：

7.如权利要求6所述的预测决策一体化的风电场储能系统调度装置，其特征在于，在所述样本积累模块中，ε-greedy动作选择策略是以ε的概率随机选择动作空间中的某个动作作为储能系统的调度指令，以1-ε的概率来选择动作空间中Q值最大的动作作为储能系统的调度指令，其中，0<ε≤1。

8.如权利要求6所述的预测决策一体化的风电场储能系统调度装置，其特征在于，在所述Q值迭代模块中，Q值迭代规则为：

式中：Q(s_t,a_t；θ_t)是经评价网络得出的在状态s_t下动作a_t的Q值；θ_t表示评价网络的网络参数；θ^-是目标网络的网络参数；α是学习率；r_t是奖励值；γ是衰减系数；是目标网络得出的在状态s_t+1下动作a_t+1的最大Q值；

或在所述学习环节结束判断模块中，风电场获取的调度收益设为r_t，其表达式为：

r_t＝P_sys,tλ_tΔt-C_t

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的预测决策一体化的风电场储能系统调度方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的预测决策一体化的风电场储能系统调度方法中的步骤。