CN112966445B

CN112966445B - 一种基于强化学习模型fqi的水库防洪优化调度方法

Info

Publication number: CN112966445B
Application number: CN202110304840.7A
Authority: CN
Inventors: 胡鹤轩; 尹苏明; 胡强; 朱跃龙; 胡震云; 张晔
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-10-14
Anticipated expiration: 2041-03-15
Also published as: CN112966445A

Abstract

本发明公开了一种基于强化学习模型FQI的水库防洪优化调度方法，包括：获取水库历史调度数据作为强化学习基本数据集，并通过随机模拟的方法充分扩展数据集。比较FQI迭代算法中使用的不同特点的函数逼近器，选择实际效果较好的模型作为FQI强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性，选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标，生成水库防洪优化调度方案，在保证高质量解的前提下，解决传统水库防洪优化调度算法计算复杂度高、收敛慢的问题。

Description

一种基于强化学习模型FQI的水库防洪优化调度方法

技术领域

本发明属于水库防洪优化调度技术领域，具体涉及一种基于强化学习模型FQI的水库防洪优化调度方法。

背景技术

中国拥有丰富的水资源，具有广阔的应用前景。水库建造的意义也在于充分利用这些资源，水库通过来水的储存及适时地泄水对水资源进行合理使用，针对不同的效益水资源利用的方式多种多样，在防洪、发电、灌溉、供水等多领域水库均扮演着重要的控制角色。在汛期水库以防洪为主要功能，并且入库流量预报具有时效性这一特点又为防洪调度增加了不确定性，水库防洪优化调度在其调度周期内是一个典型的多阶段、高维度、非凸性、离散的优化问题，求解理论上的最优解较为困难。

现有技术的水库防洪优化调度控制，包括动态规划法、启发式算法如遗传算法、以及强化学习算法。中国专利申请(CN202010870395.6)“一种梯级水库生态发电多目标中长期随机调度模型的构建方法以及优化调度方法”，采用强化学习的SARSA算法，在考虑随机入库径流的情况下得出满足生态发电综合贴近度最大的梯级水库中长期调度方案。该方法所采用的强化学习SARSA算法适合于水库优化调度模型状态空间和动作空间较小的情况，当水库优化调度模型状态空间和动作空间较大时，该强化学习SARSA算法优化缓慢。

上述现有技术的不足主要表现为：(1)经典动态规划算法计算需求随着所考虑水库优化调度模型的状态变量增多呈指数增长从而导致著名的维度灾难问题。相关的各种简化和近似方法，在许多情况下产生的业务策略效率低下，水库调度优化模型相关性较差。(2)启发式算法的初始解大多为不满足约束的不可行解，致使进化缓慢。启发式算法参数的设定使得算法存在早熟和易收敛于局部极值问题。当时段数较多时，智能算法的搜索速度较慢，且易于陷入局部最优。(3)上述的强化学习SARSA算法随着搜索空间的增加导致优化速度缓慢问题，难以求得最优解。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于强化学习模型FQI的水库防洪优化调度方法，获取水库历史调度数据作为强化学习基本数据集，并通过随机模拟充分扩展数据集；其比较FQI迭代算法中使用不同特点的函数逼近器，选择实际效果较好的模型作为FQI 强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性，选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标，最终生成水库防洪优化调度方案，在保证高质量解的前提下，解决传统水库防洪优化调度算法计算复杂度高，收敛慢的问题。

为解决上述技术问题，本发明采用以下技术方案。

本发明的一种基于强化学习模型FQI的水库防洪优化调度方法，包括：

步骤1、建立水库防洪优化调度模型及确定模型的约束条件；

步骤2、构建强化学习样本数据集；

步骤3、选定函数逼近器；

步骤4、将强化学习方法FQI运用到水库防洪优化调度模型中：步骤2和步骤3中获得的强化学习数据集和函数逼近器，应用到强化学习FQI模型迭代算法中；

所述的建立水库防洪优化调度模型及确定模型的约束条件的过程包括：

设时段数为T的水库防洪调度中，设单时段奖励函数R_t(s_t，u_t，x_t)；

R_t+1(s_t+1，u_t)＝c₁(z₀-z(s_t+1))+c₂(l₀-f(u_t，x_t))，t＝1，2，...，T

其中，s_t+1为水库的在t+1时刻的蓄水，u_t为水库在t时刻的释放量；z₀为水库防洪水位阈值即防洪限制水位，z(s_t+1)为水库库容与水位映射函数，由库容水位曲线得出；l₀为下游防洪控制点警戒水位，x_t为下游防洪控制点区间流量，f(u_t，x_t)为下游防洪控制点水位与水库释放量和区间洪水流量映射函数，c₁和c₂为大于0的常数；

将水库释放策略p定义为序列p＝{m(s₁)，m(s₂)，...，m(s_T)}＝{u₁，u₂，...，u_T}；使用折扣因子0＜γ＜1逐时段自乘使奖励函数值在后期权重呈递减趋势，以此来体现入库径流预报随时间增加准确度下降的特性即时效性，则最终的水库防洪优化调度模型即水库优化调度目标可确定为如下计算公式：

水库防洪优化调度模型约束条件：

1-1.水量平衡约束：s_t+1＝s_t+a_t+1-u_t+1，a_t+1为t+1时刻入库流量预报值；

1-2.下泄流量约束：u_min≤u_t+1≤u_max，u_min为t+1时刻释放水量最小值，u_max为t+1 时刻释放水量最大值；

1-3.库容约束：s_min≤s_t≤s_max，s_min为t时刻库容最小值，s_max为t时刻库容最大值；

1-4.边界条件约束：s₀，s₀为水库初始时刻蓄水量。

进一步地，所述步骤2中建立强化学习样本数据集的过程包括：

利用FQI算法通过学习经验对水库防洪优化调度模型进行优化；此学习经验可表示为 <s_t，u_t，s_t+1，R_t+1>四元组形式的有限数据集

其中

是数据集

的基数；数据集中每个样本是在t时刻水库状态s_t采取决策释放量u_t后转移到t+1时刻所在状态s_t+1及获得的阶段奖励值R_t+1；此种形式的样本数据集可通过两种方式获取：

2-1.从实际水库调度管理，即水库历史记录中获取水库各时刻的入库流量和释放水量；

2-2.通过模型模拟的蒙特卡洛随机模拟法，探索水库在不同状态和不同运行策略下获取的防洪效果；

在真正生成强化学习训练数据集时，需要将所述的水库防洪优化调度模型转换成递推模式，即构建贝尔曼方程：

则最优释放策略计算公式为：

上式中，Q_t(·，·)又称为Q函数或值函数；

分别是将水库状态变量和水库释放量离散化；强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集

建立的，其中h为算法迭代次数，初始值为0；强化学习训练数据集输出值计算方式如下：

由此，即可将构建强化学习数据集转变成：

其中

为样本的特征输入，

为样本的值输出。

进一步地，所述步骤3中选定函数逼近器的过程包括：

将FQI迭代算法与任何基于最小二乘法的函数逼近器相结合；选用深度神经网络-参数学习和极限随机森林-无参数学习的两种机器学习方法进行比较，选择防洪效果较好即p值较大的算法投入使用。

进一步地，在步骤4中所述的强化学习FQI模型迭代算法包括：

该算法的策略为：通过将优化模型中的Q_h(·)替换为

在此循环算法中不断地得到

从而模型不断地往最优的方向优化，利用该生成的策略进行生成最终的防洪调度方案。

与现有技术相比，本发明具有以下优点和有益效果：

1：本发明的FQI模型是无需对系统构造显式物理模型，通过对经验数据的学习在每轮循环中不断优化模型的解从而求得最优解，相较于传统动态规划的递归解法，极大减少所需的计算量，有效处理了维数灾问题。

2：本发明通过水库历史调度数据与模型随机模拟产生调度数据相结合的方法产生强化学习数据集，有效保证了强化学习数据集的完备性、科学性。

3：本发明方法将机器学习中传统的有监督学习(深度神经网络和极限随机森林)和无监督具有自我学习决策能力的强化学习(FQI)结合起来，充分考虑入库流量预报的时效性，在一定程度上保证水库防洪优化调度最优解的可靠性。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明的一种实施例的方法流程图。

图2为本发明的一种实施例的函数逼近器示意图。其中，图2a是深度神经网络示意图，图2b是极限随机森林示意图。

图3为本发明的一种实施例的强化学习示意图。

图4为本发明的一种实施例的强化学习FQI算法流程图。

具体实施方式

本发明提供了一种基于强化学习模型FQI的水库防洪优化调度方法，将强化学习模型FQI 应用到水库防洪优化调度问题中。首先获取水库历史调度数据作为强化学习基本数据集，并通过随机模拟的方法充分扩展数据集。比较FQI迭代算法中使用的不同特点的函数逼近器，选择实际效果较好的模型作为FQI强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性，选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标，生成水库防洪优化调度方案，在保证高质量解的前提下，解决传统水库防洪优化调度算法计算复杂度高，收敛慢的问题。

下面结合附图对本发明做进一步详细说明。

图1为本发明的一种实施例的方法流程图。如图1所示，本实施例方法，包括以下步骤：

步骤1、建立水库防洪优化调度模型及确定模型的约束条件。其过程包括：

设时段数为T的水库防洪调度中，设单时段奖励函数R_t(s_t，u_t，x_t)。

s_t+1为水库的在t+1时刻的蓄水量，u_t为水库在t时刻的下泄量。z₀为水库防洪水位阈值 (防洪限制水位)，z(s_t+1)为水库库容与水位映射函数，由库容水位曲线得出。l₀为下游防洪控制点警戒水位，x_t为水库到下游防洪控制点的区间汇入流量，f(u_t，x_t)为下游防洪控制点水位与水库释放量和区间洪水流量映射函数，c₁和c₂为常数，大于0。

此种奖励函数的建立旨在突出水库水位安全和下游防洪控制点安全的矛盾性，这种矛盾性体现在当水库为保证自身水位安全释放水量较多时，下游水位会因流入水量过大增加超过警戒水位的可能性，当水库为保证下游水位安全释放水量较少时，水库水位会因为释放水量较少增加超过水库自身防洪水位的可能性，关键在于寻找水库合适的释放量。所以此种奖励函数的设置方式也体现这点：根据水量平衡约束条件，在t时刻水库释放量u_t决定t+1时刻水库的蓄水量，u_t越大，z(s_t+1)越小，c₁(z₀-z(s_t+1))越大，与此同时，f(u_t，x_t)越大，c₂(l₀-f(u_t，x_t))越小，模型通过自身的优化来寻找合适的水库释放水量。另外，常数c₁和c₂分别控制两目标之间的权重，为生成偏好方案留有冗余性。当c₁＞c₂时，防洪重点在于水库水位的安全，反之，防洪重点在于下游防洪控制点的安全。

水库释放策略p被定义为序列p＝{m(s₁)，m(s₂)，...，m(s_T)}＝{u₁，u₂，...，u_T}。使用折扣因子 0＜γ＜1逐时段自乘使时段奖励值在后期权重呈递减趋势，以此来体现入库流量预报随时间增加准确度下降的特性。最终的水库防洪优化调度模型可以确定为如下计算公式。

水库防洪优化调度模型约束条件：

1-2.下泄流量约束：u_min≤u_t+1≤u_max(u_min为t+1时刻释放水量最小值，u_max为t+1 时刻释放水量最大值)；

1-3.库容约束：s_min≤s_t≤s_max(s_min为t时刻库容最小值，s_max为t时刻库容最大值)；

1-4.边界条件约束：s₀水库初始时刻蓄水量。

步骤2、建立强化学习数据集：

强化学习模型FQI不需要对系统进行构建物理模型，通过学习历史经验得到的优化策略。这种经验表示为<s_t，u_t，s_t+1，R_t+1>四元组形式的有限数据集

如下所示：

其中

是数据集

的样本数。数据集中每个样本是在t时刻水库状态s_t采取决策释放量u_t后转移到t+1时刻所在状态s_t+1及获得的阶段奖励值R_t+1。此种形式的样本集可通过两种方式获取：

2-1.从实际水库调度管理，即水库历史记录中获取水库各时刻的入库流量和释放水量。对于具有长期运行经验的水库，可选取不同时间段的汛期水库数据进行学习。

2-2.通过模型模拟(如蒙特卡洛随机模拟法)，探索水库在不同状态值和不同运行策略下获取的防洪效果。在使用模型进行随机模拟时，产生的数据应具备科学性和完备性这两个特征。科学性要求产生的水库模拟释放量在汛期是合理的满足步骤一提出的约束条件，不会出现一些极端的情况，如水库释放量为零，水库水位超过最大值等现象，可根据实际运行的数据分布采用随机采样的方式得到或者根据当前水库的状态、入库流量、时间段等事先计算水库下泄量的边界值，之后在边界值内进行随机采样。完备性要求产生的水库运行数据充分，可将随机模拟的轮数增加，对水库运行策略空间进行充分搜索。

在真正生成强化学习训练数据集时，需要将步骤一中的水库防洪优化调度模型转换成递推模式，即构建贝尔曼方程，计算公式如下：

则最优释放策略计算公式为：

上式中Q_t(·，·)又被称为Q函数或值函数。

分别是将水库状态变量和水库释放量离散化。强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集

建立的，算法假定各时刻所达到的状态对应的Q函数值为已知值(通过将离散点处对应Q函数值进行线性插值得出)，H为算法总迭代次数，h为算法的迭代第h次，将水库状态和水库释放量离散点下对应的Q函数值初始化为0，迭代更新值同时也为强化学习训练数据集输出值，计算方式如下：

因此构建强化学习数据集即可转变成：

其中

为样本的特征输入，

为样本的值输出。

步骤3、选定函数逼近器：

原则上，FQI迭代算法可以与任何基于最小二乘法的函数逼近器相结合。在实践中，所采用的近似器应具有两个可取的特征：建模灵活、计算高效。

当前机器学习主流算法分为两种：参数学习和非参数学习。参数学习算法指的是算法有一个已知的函数形式，对数据集完成训练后得到一系列的训练参数，然后根据训练参数来预测新样本的值，这时不再依赖之前的训练数据，参数值是确定的。非参数学习算法无需假定一个已知的函数的形式，每次预测新样本都会依赖之前的数据，参数值是不确定的。两者各有优缺点，如表1所示。

表1

	优点	缺点
			参数学习	简单，快速，数据量少	有限的复杂性，模型可能没有潜在的映射函数
非参数学习	无需假设函数形式，适应度较高	过拟合风险，数据多，训练较慢

本发明选用神经网络(参数学习)和极限随机森林(无参数学习)这两种机器学习方法为代表进行比较，选择防洪效果较好即p值较大的算法较好的算法投入使用。

神经网络可以证明将任何连续的、多元的函数逼近到任何期望的精度，且当前有关神经网络框架较为成熟，在实际应用只要确定每层的神经元个数即可，训练最终优化的是神经元中权重参数的值，如图2a所示。基于极限随机树的方法提供训练数据集

(树构建算法) 的递归二进制分区的非参数估计，如图2b所示。通过对

应用适当的分割规则，将输入空间(根)划分为两个子集(节点)，并在每次分割产生的两个子集上迭代重复该操作，直到满足给定的终止测试。最终分区(叶)的每个子集都与输出值或输入函数(关联规则)相关联。极限随机数需要确定的是森林中的数目M，n_min分割叶节点的最小基数，K备选切割方向的数量，从n个输入特征中选出。

步骤4、将强化学习方法FQI运用到水库防洪优化调度中：

FQI是一种考虑连续状态、连续动作的强化学习，如图3所示。它基于某个防洪调度策略生成的足够丰富的样本，通过对该样本的学习，在每一轮迭代中优化Q函数值，求解水库最优释放水量策略p^*。

根据步骤2和步骤3中获得RL学习数据集和函数逼近器，将其应用到强化学习FQI模型迭代算法中，所述算法流程如图4所示，具体过程包括：

该算法的策略为通过将优化模型中的Q_h(·)替换为

可以在此循环算法中不断的得到

从而模型不断地往最优的方向优化。利用该生成的策略进行生成最终的防洪调度方案。

Claims

1.一种基于强化学习模型FQI的水库防洪优化调度方法，其特征在于，包括：

步骤1、建立水库防洪优化调度模型及确定模型的约束条件；

步骤2、构建强化学习样本数据集；

步骤3、选定函数逼近器；

R_t+1(s_t+1，u_t)＝c₁(z₀-z(s_t+1))+c₂(l₀-f(u_t，x_t))，t＝1，2，…，T

将水库释放策略p定义为序列p＝{m(s₁)，m(s₂)，...，m(s_T)}＝{u₁，u₂，...，u_T}；使用折扣因子0＜γ＜1逐时段自乘使奖励函数值在后期权重呈递减趋势，以此来体现入库径流预报随时间增加准确度下降的特性即时效性，则最终的水库防洪优化调度模型即水库优化调度目标确定为如下计算公式：