CN114219182A

CN114219182A - 一种基于强化学习的异常天气场景风电预测方法

Info

Publication number: CN114219182A
Application number: CN202210066557.XA
Authority: CN
Inventors: 刘艳丽; 王俊毅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-03-22
Anticipated expiration: 2042-01-20
Also published as: CN114219182B

Abstract

本发明公开了一种基于强化学习的异常天气场景风电预测方法，所述风电预测方法基于强化学习系统，所述强化学习系统包括数据集、策略网络和价值网络；所述强化学习系统还包括根据异常天气中历史时段风电功率变化对所述策略网络、价值网络更新预测未来时段风电状况的环境互换模块，其中：所述环境互换模块通过如下步骤完成对策略网络、价值网络更新：S101、初始化价值网络与策略网络；S102、根据历史阶段风电功率对数据集训练获得环境奖赏值；S103、根据历史阶段风电功率对数据集训练获得预测价值；S104、根据环境奖赏值、预测价值对价值网络更新；S105、根据环境奖赏值、预测价值对策略网络更新；本发明可以应对不同环境的策略处理异常环境下的风电预测问题。

Description

一种基于强化学习的异常天气场景风电预测方法

技术领域

本发明属于对异常天气预测方法，尤其涉及一种基于强化学习的异常天气场景风电预测方法。

背景技术

随着能源危机与环境污染问题的日益严重，大力发展可再生能源成为了全球重点关注的问题。其中，风力发电作为重要的可再生能源，在新能源装机中占据了重要的比重。据统计，到2020年年底，全球风电装机容量已达到743GW。然而，由于环境因素的影响，风电出力具有很大的随机性与不确定性，给电力系统的安全稳定运行带来很大的挑战。准确可靠的风电预测成为促进可再生能源并网运行的重要前提。常见的风电预测方法主要分为物理方法、统计学方法、人工智能方法以及混合方法。

1)物理方法

物理方法是指直接构建物理环境信息与预测对象之间的关系模型，或者将物理信息作为预测模型的主要输入变量构建预测模型。新能源电力系统供需预测受风速风向、地形条件、环境温度、太阳辐照度、云量等环境因素影响大，深度挖掘物理量与预测对象间的内在联系可以为构建准确可靠的预测模型提供信息支撑。

2)统计学方法

统计学方法为传统预测的常用方法，通过对历史记录数据的分析，建立历史数据与预测对象之间的函数模型。其中，时间序列模型是典型的统计方法，常见模型有自回归模型、移动平均模型、自回归移动平均模型、差分整合移动平均自回归模型。此外，马尔可夫链模型、指数平滑方法、卡尔曼滤波等预测方法也属于统计学方法范畴。

3)人工智能方法

随着人工智能技术与大数据的发展，基于机器学习和深度学习的方法凭借其在数据挖掘和特征提取方面的潜在能力，在风电预测中被广泛应用。

随着异常天气的影响，风电输出功率发生大幅度波动，对调度人员制定含风电电力系统的调度计划带来了巨大的挑战。2021年1月4日-9日，受寒潮影响，冀北地区风电场发生大范围低温停机，累计55座风电场、3640台风机因气温低于最低允许运行温度而停机。传统的预测方法无法有效适应异常的环境变化，因此，异常天气场景下的风电预测是现代智能电网运行调度的重要基础，是未来实现风电并网的重要条件。

发明内容

本发明针对现有风电预测方法的不足，提出了基于强化学习的异常天气场景风电预测方法，该方法利用强化学习的核心优势是在与环境的交互中学习，通过环境对不同行为的评价性反馈信号来逐渐强化与完善学习系统的行为，选择最优的应对不同环境的策略处理异常环境下的风电预测问题。

为了解决现有技术问题，本发明采用如下技术方案予以实施：

一种基于强化学习的异常天气场景风电预测方法，所述风电预测方法基于强化学习系统，所述强化学习系统包括数据集、策略网络和价值网络；所述强化学习系统还包括根据异常天气中历史时段风电功率变化对所述策略网络、价值网络更新预测未来时段风电状况的环境互换模块，其中：所述环境互换模块通过如下步骤完成对策略网络、价值网络更新：

S101、初始化价值网络与策略网络；

初始化价值网络与策略网络，如式(5-1)-(5-2)所示：

q(a,s,w) (5-1)

π(a|s,θ) (5-2)

其中，s表示状态，a表示动作，w,θ分别表示价值网络与策略网络；

S102、根据历史阶段风电功率通过如下公式对数据集训练获得环境奖赏值；

r_t＝-|y_t-a_t| (5-5)

其中，y_t表示与x_t对应的未来时刻风电出力数据，即训练样本的输出；

表示不同的分位数水平；

S103、根据历史阶段风电功率通过如下公式对数据集训练获得预测价值；

q_t＝q(s_t,a_t,w_t) (5-7)

q_t+1＝q(s_t+1,a_t+1,w_t) (5-8)

S104、根据环境奖赏值、预测价值通过如下公式对价值网络更新；

δ_t＝q_t-(r_t+γq_t+1) (5-9)

w_t+1＝w_t-α·δ_t·d_w,t (5-11)

S105、根据环境奖赏值、预测价值通过如下公式对策略网络更新；

θ_t+1＝θ_t+β·q_t·d_θ,t (5-13)

其中，β为给定系数。

进一步，所述环境互换模块在强化学习系统应用过程：

S201、根据历史阶段风电出力数据构建强化学习系统的训练数据集；

S202、对强化学习系统中数据集、策略网络和价值网络进行初始化；

S203、采用权利要求1中所述环境互换模对策略网络、价值网络更新步骤；

S204、判断是否完成对所有样本的训练；

S205、判断是否完成所有迭代次数；

S206、输出预测未来阶段风电出力状况。

有益效果

随着异常天气的影响，风电输出功率发生大幅度波动，对调度人员制定含风电电力系统的调度计划带来了巨大的挑战。传统的预测方法无法有效适应异常的环境变化，异常天气场景下的风电预测是斜坡事件平抑、现代智能电网运行调度的重要基础，是未来实现风电并网的重要条件。

本发明利用强化学习的核心优(即在与环境的交互中学习，通过环境对不同行为的评价性反馈信号来逐渐强化与完善学习系统，从而选择最优的应对不同环境的策略)，处理异常环境下的风电预测问题。发明可为应对极端情况、促进新能源接入创造良好理论与技术基础。

附图说明

图1是本发明一种基于强化学习的异常天气场景风电预测方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图与实例对本发明做详细的论述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

如图1所述，本发明提供一种基于强化学习的异常天气场景风电预测方法，包括如下步骤：

步骤1获取风电出力

采集风电出力数据，构建强化学习网络训练数据集。

步骤2训练强化学习网络

步骤2.1输入总迭代次数与训练数据集样本总数

步骤2.2初始化迭代次数与训练样本标号

定义n表示迭代次数，t表示训练样本标号。令n＝1，t＝1，初始化迭代次数与训练样本标号。

步骤2.3初始化价值网络与策略网络

初始化价值网络与策略网络，如式(5-1)-(5-2)所示。

q(a,s,w) (5-1)

π(a|s,θ) (5-2)

其中，s表示状态，a表示动作，w,θ分别表示价值网络与策略网络

步骤2.4根据状态计算动作值与环境奖赏

步骤2.4.1获取当前状态值，如式(5-3)所示

s_t＝x_t (5-3)

其中，x_t表示历史风电出力数据，即训练样本的输入。

步骤2.4.2根据当前状态值计算动作值，如式(5-4)所示

a_t＝π(·|s_t,θ_t) (5-4)

步骤2.4.3根据动作值更新状态，并计算新动作值

步骤2.4.4计算奖赏值

点预测奖赏如式(5-5)所示，概率预测奖赏值如式(5-6)所示。

r_t＝-|y_t-a_t| (5-5)

其中，y_t表示与x_t对应的未来时刻风电出力数据，即训练样本的输出。

表示不同的分位数水平。

步骤2.4.5计算长期价值

长期价值计算结果如式(5-7)-(5-8)所示。

q_t＝q(s_t,a_t,w_t) (5-7)

q_t+1＝q(s_t+1,a_t+1,w_t) (5-8)

步骤2.5更新价值网络

采用TD算法更新价值网络，如式(5-9)-(5-11)所示。

δ_t＝q_t-(r_t+γq_t+1) (5-9)

w_t+1＝w_t-α·δ_t·d_w,t (5-11)

其中，α与γ为给定系数。

步骤2.6更新策略网络

采用梯度下降算法更新价值网络，如式(5-12)-(5-13)所示。

θ_t+1＝θ_t+β·q_t·d_θ,t (5-13)

其中，β为给定系数。

步骤2.7判断是否完成对所有样本的训练

步骤2.7.1完成对所有样本的训练，则前进到步骤2.8

步骤2.7.2未完成对所有样本的训练，则令i＝i+1，返回到步骤2.4

步骤2.8判断是否完成所有迭代次数

步骤2.3.1未完成对所有样本的训练，则令n＝n+1，返回到步骤2.3

步骤2.3.1完成对所有样本的训练，则结束训练

步骤3预测未来时刻风电出力

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于强化学习的异常天气场景风电预测方法，所述风电预测方法基于强化学习系统，所述强化学习系统包括数据集、策略网络和价值网络；其特征在于：所述强化学习系统还包括根据异常天气中历史时段风电功率变化对所述策略网络、价值网络更新预测未来时段风电状况的环境互换模块，其中：所述环境互换模块通过如下步骤完成对策略网络、价值网络更新：

S101、初始化价值网络与策略网络；

初始化价值网络与策略网络，如式(5-1)-(5-2)所示：

q(a,s,w) (5-1)

π(a|s,θ) (5-2)

r_t＝-|y_t-a_t| (5-5)