CN112966445B - 一种基于强化学习模型fqi的水库防洪优化调度方法 - Google Patents

一种基于强化学习模型fqi的水库防洪优化调度方法 Download PDF

Info

Publication number
CN112966445B
CN112966445B CN202110304840.7A CN202110304840A CN112966445B CN 112966445 B CN112966445 B CN 112966445B CN 202110304840 A CN202110304840 A CN 202110304840A CN 112966445 B CN112966445 B CN 112966445B
Authority
CN
China
Prior art keywords
reservoir
flood control
model
reinforcement learning
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110304840.7A
Other languages
English (en)
Other versions
CN112966445A (zh
Inventor
胡鹤轩
尹苏明
胡强
朱跃龙
胡震云
张晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110304840.7A priority Critical patent/CN112966445B/zh
Publication of CN112966445A publication Critical patent/CN112966445A/zh
Application granted granted Critical
Publication of CN112966445B publication Critical patent/CN112966445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习模型FQI的水库防洪优化调度方法,包括:获取水库历史调度数据作为强化学习基本数据集,并通过随机模拟的方法充分扩展数据集。比较FQI迭代算法中使用的不同特点的函数逼近器,选择实际效果较好的模型作为FQI强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性,选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标,生成水库防洪优化调度方案,在保证高质量解的前提下,解决传统水库防洪优化调度算法计算复杂度高、收敛慢的问题。

Description

一种基于强化学习模型FQI的水库防洪优化调度方法
技术领域
本发明属于水库防洪优化调度技术领域,具体涉及一种基于强化学习模型FQI的水库防洪优化调度方法。
背景技术
中国拥有丰富的水资源,具有广阔的应用前景。水库建造的意义也在于充分利用这些资源,水库通过来水的储存及适时地泄水对水资源进行合理使用,针对不同的效益水资源利用的方式多种多样,在防洪、发电、灌溉、供水等多领域水库均扮演着重要的控制角色。在汛期水库以防洪为主要功能,并且入库流量预报具有时效性这一特点又为防洪调度增加了不确定性,水库防洪优化调度在其调度周期内是一个典型的多阶段、高维度、非凸性、离散的优化问题,求解理论上的最优解较为困难。
现有技术的水库防洪优化调度控制,包括动态规划法、启发式算法如遗传算法、以及强化学习算法。中国专利申请(CN202010870395.6)“一种梯级水库生态发电多目标中长期随机调度模型的构建方法以及优化调度方法”,采用强化学习的SARSA算法,在考虑随机入库径流的情况下得出满足生态发电综合贴近度最大的梯级水库中长期调度方案。该方法所采用的强化学习SARSA算法适合于水库优化调度模型状态空间和动作空间较小的情况,当水库优化调度模型状态空间和动作空间较大时,该强化学习SARSA算法优化缓慢。
上述现有技术的不足主要表现为:(1)经典动态规划算法计算需求随着所考虑水库优化调度模型的状态变量增多呈指数增长从而导致著名的维度灾难问题。相关的各种简化和近似方法,在许多情况下产生的业务策略效率低下,水库调度优化模型相关性较差。(2)启发式算法的初始解大多为不满足约束的不可行解,致使进化缓慢。启发式算法参数的设定使得算法存在早熟和易收敛于局部极值问题。当时段数较多时,智能算法的搜索速度较慢,且易于陷入局部最优。(3)上述的强化学习SARSA算法随着搜索空间的增加导致优化速度缓慢问题,难以求得最优解。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于强化学习模型FQI的水库防洪优化调度方法,获取水库历史调度数据作为强化学习基本数据集,并通过随机模拟充分扩展数据集;其比较FQI迭代算法中使用不同特点的函数逼近器,选择实际效果较好的模型作为FQI 强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性,选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标,最终生成水库防洪优化调度方案,在保证高质量解的前提下,解决传统水库防洪优化调度算法计算复杂度高,收敛慢的问题。
为解决上述技术问题,本发明采用以下技术方案。
本发明的一种基于强化学习模型FQI的水库防洪优化调度方法,包括:
步骤1、建立水库防洪优化调度模型及确定模型的约束条件;
步骤2、构建强化学习样本数据集;
步骤3、选定函数逼近器;
步骤4、将强化学习方法FQI运用到水库防洪优化调度模型中:步骤2和步骤3中获得的强化学习数据集和函数逼近器,应用到强化学习FQI模型迭代算法中;
所述的建立水库防洪优化调度模型及确定模型的约束条件的过程包括:
设时段数为T的水库防洪调度中,设单时段奖励函数Rt(st,ut,xt);
Rt+1(st+1,ut)=c1(z0-z(st+1))+c2(l0-f(ut,xt)),t=1,2,...,T
其中,st+1为水库的在t+1时刻的蓄水,ut为水库在t时刻的释放量;z0为水库防洪水位阈值即防洪限制水位,z(st+1)为水库库容与水位映射函数,由库容水位曲线得出;l0为下游防洪控制点警戒水位,xt为下游防洪控制点区间流量,f(ut,xt)为下游防洪控制点水位与水库释放量和区间洪水流量映射函数,c1和c2为大于0的常数;
将水库释放策略p定义为序列p={m(s1),m(s2),...,m(sT)}={u1,u2,...,uT};使用折扣因子0<γ<1逐时段自乘使奖励函数值在后期权重呈递减趋势,以此来体现入库径流预报随时间增加准确度下降的特性即时效性,则最终的水库防洪优化调度模型即水库优化调度目标可确定为如下计算公式:
Figure GDA0003750636850000021
水库防洪优化调度模型约束条件:
1-1.水量平衡约束:st+1=st+at+1-ut+1,at+1为t+1时刻入库流量预报值;
1-2.下泄流量约束:umin≤ut+1≤umax,umin为t+1时刻释放水量最小值,umax为t+1 时刻释放水量最大值;
1-3.库容约束:smin≤st≤smax,smin为t时刻库容最小值,smax为t时刻库容最大值;
1-4.边界条件约束:s0,s0为水库初始时刻蓄水量。
进一步地,所述步骤2中建立强化学习样本数据集的过程包括:
利用FQI算法通过学习经验对水库防洪优化调度模型进行优化;此学习经验可表示为 <st,ut,st+1,Rt+1>四元组形式的有限数据集
Figure GDA0003750636850000022
其中
Figure GDA0003750636850000023
是数据集
Figure GDA0003750636850000024
的基数;数据集中每个样本是在t时刻水库状态st采取决策释放量ut后转移到t+1时刻所在状态st+1及获得的阶段奖励值Rt+1;此种形式的样本数据集可通过两种方式获取:
2-1.从实际水库调度管理,即水库历史记录中获取水库各时刻的入库流量和释放水量;
2-2.通过模型模拟的蒙特卡洛随机模拟法,探索水库在不同状态和不同运行策略下获取的防洪效果;
在真正生成强化学习训练数据集时,需要将所述的水库防洪优化调度模型转换成递推模式,即构建贝尔曼方程:
Figure GDA0003750636850000031
则最优释放策略计算公式为:
Figure GDA0003750636850000032
上式中,Qt(·,·)又称为Q函数或值函数;
Figure GDA0003750636850000033
分别是将水库状态变量和水库释放量离散化;强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集
Figure GDA0003750636850000034
建立的,其中h为算法迭代次数,初始值为0;强化学习训练数据集输出值计算方式如下:
Figure GDA00037506368500000310
Figure GDA0003750636850000035
由此,即可将构建强化学习数据集转变成:
Figure GDA0003750636850000036
其中
Figure GDA0003750636850000037
为样本的特征输入,
Figure GDA0003750636850000038
为样本的值输出。
进一步地,所述步骤3中选定函数逼近器的过程包括:
将FQI迭代算法与任何基于最小二乘法的函数逼近器相结合;选用深度神经网络-参数学习和极限随机森林-无参数学习的两种机器学习方法进行比较,选择防洪效果较好即p值较大的算法投入使用。
进一步地,在步骤4中所述的强化学习FQI模型迭代算法包括:
Figure GDA0003750636850000039
Figure GDA0003750636850000041
该算法的策略为:通过将优化模型中的Qh(·)替换为
Figure GDA0003750636850000042
在此循环算法中不断地得到
Figure GDA0003750636850000043
从而模型不断地往最优的方向优化,利用该生成的策略进行生成最终的防洪调度方案。
与现有技术相比,本发明具有以下优点和有益效果:
1:本发明的FQI模型是无需对系统构造显式物理模型,通过对经验数据的学习在每轮循环中不断优化模型的解从而求得最优解,相较于传统动态规划的递归解法,极大减少所需的计算量,有效处理了维数灾问题。
2:本发明通过水库历史调度数据与模型随机模拟产生调度数据相结合的方法产生强化学习数据集,有效保证了强化学习数据集的完备性、科学性。
3:本发明方法将机器学习中传统的有监督学习(深度神经网络和极限随机森林)和无监督具有自我学习决策能力的强化学习(FQI)结合起来,充分考虑入库流量预报的时效性,在一定程度上保证水库防洪优化调度最优解的可靠性。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明的一种实施例的方法流程图。
图2为本发明的一种实施例的函数逼近器示意图。其中,图2a是深度神经网络示意图,图2b是极限随机森林示意图。
图3为本发明的一种实施例的强化学习示意图。
图4为本发明的一种实施例的强化学习FQI算法流程图。
具体实施方式
本发明提供了一种基于强化学习模型FQI的水库防洪优化调度方法,将强化学习模型FQI 应用到水库防洪优化调度问题中。首先获取水库历史调度数据作为强化学习基本数据集,并通过随机模拟的方法充分扩展数据集。比较FQI迭代算法中使用的不同特点的函数逼近器,选择实际效果较好的模型作为FQI强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性,选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标,生成水库防洪优化调度方案,在保证高质量解的前提下,解决传统水库防洪优化调度算法计算复杂度高,收敛慢的问题。
下面结合附图对本发明做进一步详细说明。
图1为本发明的一种实施例的方法流程图。如图1所示,本实施例方法,包括以下步骤:
步骤1、建立水库防洪优化调度模型及确定模型的约束条件。其过程包括:
设时段数为T的水库防洪调度中,设单时段奖励函数Rt(st,ut,xt)。
Rt+1(st+1,ut)=c1(z0-z(st+1))+c2(l0-f(ut,xt)),t=1,2,...,T
st+1为水库的在t+1时刻的蓄水量,ut为水库在t时刻的下泄量。z0为水库防洪水位阈值 (防洪限制水位),z(st+1)为水库库容与水位映射函数,由库容水位曲线得出。l0为下游防洪控制点警戒水位,xt为水库到下游防洪控制点的区间汇入流量,f(ut,xt)为下游防洪控制点水位与水库释放量和区间洪水流量映射函数,c1和c2为常数,大于0。
此种奖励函数的建立旨在突出水库水位安全和下游防洪控制点安全的矛盾性,这种矛盾性体现在当水库为保证自身水位安全释放水量较多时,下游水位会因流入水量过大增加超过警戒水位的可能性,当水库为保证下游水位安全释放水量较少时,水库水位会因为释放水量较少增加超过水库自身防洪水位的可能性,关键在于寻找水库合适的释放量。所以此种奖励函数的设置方式也体现这点:根据水量平衡约束条件,在t时刻水库释放量ut决定t+1时刻水库的蓄水量,ut越大,z(st+1)越小,c1(z0-z(st+1))越大,与此同时,f(ut,xt)越大,c2(l0-f(ut,xt))越小,模型通过自身的优化来寻找合适的水库释放水量。另外,常数c1和c2分别控制两目标之间的权重,为生成偏好方案留有冗余性。当c1>c2时,防洪重点在于水库水位的安全,反之,防洪重点在于下游防洪控制点的安全。
水库释放策略p被定义为序列p={m(s1),m(s2),...,m(sT)}={u1,u2,...,uT}。使用折扣因子 0<γ<1逐时段自乘使时段奖励值在后期权重呈递减趋势,以此来体现入库流量预报随时间增加准确度下降的特性。最终的水库防洪优化调度模型可以确定为如下计算公式。
Figure GDA0003750636850000051
水库防洪优化调度模型约束条件:
1-1.水量平衡约束:st+1=st+at+1-ut+1,at+1为t+1时刻入库流量预报值;
1-2.下泄流量约束:umin≤ut+1≤umax(umin为t+1时刻释放水量最小值,umax为t+1 时刻释放水量最大值);
1-3.库容约束:smin≤st≤smax(smin为t时刻库容最小值,smax为t时刻库容最大值);
1-4.边界条件约束:s0水库初始时刻蓄水量。
步骤2、建立强化学习数据集:
强化学习模型FQI不需要对系统进行构建物理模型,通过学习历史经验得到的优化策略。这种经验表示为<st,ut,st+1,Rt+1>四元组形式的有限数据集
Figure GDA0003750636850000052
如下所示:
Figure GDA0003750636850000053
其中
Figure GDA0003750636850000054
是数据集
Figure GDA0003750636850000055
的样本数。数据集中每个样本是在t时刻水库状态st采取决策释放量ut后转移到t+1时刻所在状态st+1及获得的阶段奖励值Rt+1。此种形式的样本集可通过两种方式获取:
2-1.从实际水库调度管理,即水库历史记录中获取水库各时刻的入库流量和释放水量。对于具有长期运行经验的水库,可选取不同时间段的汛期水库数据进行学习。
2-2.通过模型模拟(如蒙特卡洛随机模拟法),探索水库在不同状态值和不同运行策略下获取的防洪效果。在使用模型进行随机模拟时,产生的数据应具备科学性和完备性这两个特征。科学性要求产生的水库模拟释放量在汛期是合理的满足步骤一提出的约束条件,不会出现一些极端的情况,如水库释放量为零,水库水位超过最大值等现象,可根据实际运行的数据分布采用随机采样的方式得到或者根据当前水库的状态、入库流量、时间段等事先计算水库下泄量的边界值,之后在边界值内进行随机采样。完备性要求产生的水库运行数据充分,可将随机模拟的轮数增加,对水库运行策略空间进行充分搜索。
在真正生成强化学习训练数据集时,需要将步骤一中的水库防洪优化调度模型转换成递推模式,即构建贝尔曼方程,计算公式如下:
Figure GDA0003750636850000061
则最优释放策略计算公式为:
Figure GDA0003750636850000062
上式中Qt(·,·)又被称为Q函数或值函数。
Figure GDA0003750636850000063
分别是将水库状态变量和水库释放量离散化。强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集
Figure GDA0003750636850000064
建立的,算法假定各时刻所达到的状态对应的Q函数值为已知值(通过将离散点处对应Q函数值进行线性插值得出),H为算法总迭代次数,h为算法的迭代第h次,将水库状态和水库释放量离散点下对应的Q函数值初始化为0,迭代更新值同时也为强化学习训练数据集输出值,计算方式如下:
Figure GDA0003750636850000065
Figure GDA0003750636850000066
因此构建强化学习数据集即可转变成:
Figure GDA0003750636850000067
其中
Figure GDA0003750636850000068
为样本的特征输入,
Figure GDA0003750636850000069
为样本的值输出。
步骤3、选定函数逼近器:
原则上,FQI迭代算法可以与任何基于最小二乘法的函数逼近器相结合。在实践中,所采用的近似器应具有两个可取的特征:建模灵活、计算高效。
当前机器学习主流算法分为两种:参数学习和非参数学习。参数学习算法指的是算法有一个已知的函数形式,对数据集完成训练后得到一系列的训练参数,然后根据训练参数来预测新样本的值,这时不再依赖之前的训练数据,参数值是确定的。非参数学习算法无需假定一个已知的函数的形式,每次预测新样本都会依赖之前的数据,参数值是不确定的。两者各有优缺点,如表1所示。
表1
优点 缺点
参数学习 简单,快速,数据量少 有限的复杂性,模型可能没有潜在的映射函数
非参数学习 无需假设函数形式,适应度较高 过拟合风险,数据多,训练较慢
本发明选用神经网络(参数学习)和极限随机森林(无参数学习)这两种机器学习方法为代表进行比较,选择防洪效果较好即p值较大的算法较好的算法投入使用。
神经网络可以证明将任何连续的、多元的函数逼近到任何期望的精度,且当前有关神经网络框架较为成熟,在实际应用只要确定每层的神经元个数即可,训练最终优化的是神经元中权重参数的值,如图2a所示。基于极限随机树的方法提供训练数据集
Figure GDA0003750636850000071
(树构建算法) 的递归二进制分区的非参数估计,如图2b所示。通过对
Figure GDA0003750636850000072
应用适当的分割规则,将输入空间(根)划分为两个子集(节点),并在每次分割产生的两个子集上迭代重复该操作,直到满足给定的终止测试。最终分区(叶)的每个子集都与输出值或输入函数(关联规则)相关联。极限随机数需要确定的是森林中的数目M,nmin分割叶节点的最小基数,K备选切割方向的数量,从n个输入特征中选出。
步骤4、将强化学习方法FQI运用到水库防洪优化调度中:
FQI是一种考虑连续状态、连续动作的强化学习,如图3所示。它基于某个防洪调度策略生成的足够丰富的样本,通过对该样本的学习,在每一轮迭代中优化Q函数值,求解水库最优释放水量策略p*
根据步骤2和步骤3中获得RL学习数据集和函数逼近器,将其应用到强化学习FQI模型迭代算法中,所述算法流程如图4所示,具体过程包括:
Figure GDA0003750636850000073
该算法的策略为通过将优化模型中的Qh(·)替换为
Figure GDA0003750636850000074
可以在此循环算法中不断的得到
Figure GDA0003750636850000075
从而模型不断地往最优的方向优化。利用该生成的策略进行生成最终的防洪调度方案。

Claims (4)

1.一种基于强化学习模型FQI的水库防洪优化调度方法,其特征在于,包括:
步骤1、建立水库防洪优化调度模型及确定模型的约束条件;
步骤2、构建强化学习样本数据集;
步骤3、选定函数逼近器;
步骤4、将强化学习方法FQI运用到水库防洪优化调度模型中:步骤2和步骤3中获得的强化学习数据集和函数逼近器,应用到强化学习FQI模型迭代算法中;
所述的建立水库防洪优化调度模型及确定模型的约束条件的过程包括:
设时段数为T的水库防洪调度中,设单时段奖励函数Rt(st,ut,xt);
Rt+1(st+1,ut)=c1(z0-z(st+1))+c2(l0-f(ut,xt)),t=1,2,…,T
其中,st+1为水库的在t+1时刻的蓄水,ut为水库在t时刻的释放量;z0为水库防洪水位阈值即防洪限制水位,z(st+1)为水库库容与水位映射函数,由库容水位曲线得出;l0为下游防洪控制点警戒水位,xt为下游防洪控制点区间流量,f(ut,xt)为下游防洪控制点水位与水库释放量和区间洪水流量映射函数,c1和c2为大于0的常数;
将水库释放策略p定义为序列p={m(s1),m(s2),...,m(sT)}={u1,u2,...,uT};使用折扣因子0<γ<1逐时段自乘使奖励函数值在后期权重呈递减趋势,以此来体现入库径流预报随时间增加准确度下降的特性即时效性,则最终的水库防洪优化调度模型即水库优化调度目标确定为如下计算公式:
Figure FDA0003777724810000011
水库防洪优化调度模型约束条件:
1-1.水量平衡约束:st+1=st+at+1-ut+1,at+1为t+1时刻入库流量预报值;
1-2.下泄流量约束:umin≤ut+1≤umax,umin为t+1时刻释放水量最小值,umax为t+1时刻释放水量最大值;
1-3.库容约束:smin≤st≤smax,smin为t时刻库容最小值,smax为t时刻库容最大值;
1-4.边界条件约束:s0,s0为水库初始时刻蓄水量。
2.根据权利要求1所述一种基于强化学习模型FQI的水库防洪优化调度方法,其特征在于:所述步骤2中建立强化学习样本数据集的过程包括:
利用FQI算法通过学习经验对水库防洪优化调度模型进行优化;此学习经验表示为<st,ut,st+1,Rt+1>四元组形式的有限数据集
Figure FDA0003777724810000012
其中
Figure FDA0003777724810000013
是数据集
Figure FDA0003777724810000014
的基数;数据集中每个样本是在t时刻水库状态st采取决策释放量ut后转移到t+1时刻所在状态st+1及获得的阶段奖励值Rt+1;此种形式的样本数据集通过两种方式获取:
2-1.从实际水库调度管理,即水库历史记录中获取水库各时刻的入库流量和释放水量;
2-2.通过模型模拟的蒙特卡洛随机模拟法,探索水库在不同状态和不同运行策略下获取的防洪效果;
在真正生成强化学习训练数据集时,需要将所述的水库防洪优化调度模型转换成递推模式,即构建贝尔曼方程:
Figure FDA0003777724810000021
则最优释放策略计算公式为:
Figure FDA0003777724810000022
式中,Qt(·,·)又称为Q函数或值函数;
Figure FDA0003777724810000023
分别是将水库状态变量和水库释放量离散化;强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集
Figure FDA0003777724810000024
建立的,其中h为算法迭代次数,初始值为0;强化学习训练数据集输出值计算方式如下:
Figure FDA0003777724810000025
Figure FDA0003777724810000026
由此,即可将构建强化学习数据集转变成:
Figure FDA0003777724810000027
其中
Figure FDA0003777724810000028
为样本的特征输入,
Figure FDA0003777724810000029
为样本的值输出。
3.根据权利要求1所述一种基于强化学习模型FQI的水库防洪优化调度方法,其特征在于:所述步骤3中选定函数逼近器的过程包括:
将FQI迭代算法与任何基于最小二乘法的函数逼近器相结合;选用深度神经网络-参数学习和极限随机森林-无参数学习的两种机器学习方法进行比较,选择防洪效果较好即p值较大的算法投入使用。
4.根据权利要求2所述一种基于强化学习模型FQI的水库防洪优化调度方法,其特征在于:在步骤4中所述的强化学习FQI模型迭代算法包括:
输入:强化学习数据集
Figure FDA00037777248100000210
和函数逼近器算法
初始化
Figure FDA00037777248100000211
过程:
for h=0,H do
h=h+1
创建强化学习训练数据集
Figure FDA00037777248100000212
其中
Figure FDA00037777248100000213
在数据集
Figure FDA00037777248100000214
使用输入的函数逼近器算法进行函数逼近
更新函数逼近器并求解
Figure FDA00037777248100000215
end for
输出:策略
Figure FDA00037777248100000216
生成
其中,h为算法迭代次数,
该算法的策略为:通过将优化模型中的Qh(·)替换为
Figure FDA0003777724810000031
在此循环算法中不断地得到
Figure FDA0003777724810000032
从而模型不断地往最优的方向优化,利用该生成的策略进行生成最终的防洪调度方案。
CN202110304840.7A 2021-03-15 2021-03-15 一种基于强化学习模型fqi的水库防洪优化调度方法 Active CN112966445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110304840.7A CN112966445B (zh) 2021-03-15 2021-03-15 一种基于强化学习模型fqi的水库防洪优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110304840.7A CN112966445B (zh) 2021-03-15 2021-03-15 一种基于强化学习模型fqi的水库防洪优化调度方法

Publications (2)

Publication Number Publication Date
CN112966445A CN112966445A (zh) 2021-06-15
CN112966445B true CN112966445B (zh) 2022-10-14

Family

ID=76278026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110304840.7A Active CN112966445B (zh) 2021-03-15 2021-03-15 一种基于强化学习模型fqi的水库防洪优化调度方法

Country Status (1)

Country Link
CN (1) CN112966445B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592195B (zh) * 2021-08-23 2023-10-24 武汉大学 基于机器学习的两阶段水库发电优化调度方法及装置
CN114611778B (zh) * 2022-03-04 2022-09-06 山东锋士信息技术有限公司 一种基于入库流量的水库水位预警方法及系统
CN115952958B (zh) * 2023-03-14 2023-07-11 珠江水利委员会珠江水利科学研究院 基于maddpg强化学习的水库群联合优化调度方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564213A (zh) * 2018-04-10 2018-09-21 中国水利水电科学研究院 一种基于gpu加速的并联水库群防洪优化调度方法
CN108710972A (zh) * 2018-05-16 2018-10-26 河海大学 一种基于poa算法的水库防洪调度方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN112149984A (zh) * 2020-09-17 2020-12-29 河海大学 一种基于贝叶斯网络的水库调洪多维不确定性风险分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564213A (zh) * 2018-04-10 2018-09-21 中国水利水电科学研究院 一种基于gpu加速的并联水库群防洪优化调度方法
CN108710972A (zh) * 2018-05-16 2018-10-26 河海大学 一种基于poa算法的水库防洪调度方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN112149984A (zh) * 2020-09-17 2020-12-29 河海大学 一种基于贝叶斯网络的水库调洪多维不确定性风险分析方法

Also Published As

Publication number Publication date
CN112966445A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966445B (zh) 一种基于强化学习模型fqi的水库防洪优化调度方法
CN112633578B (zh) 一种引调水工程影响下梯级水库群优化调度方法
CN108846517B (zh) 一种分位数概率性短期电力负荷预测集成方法
CN109345010B (zh) 一种梯级泵站的多目标优化调度方法
CN110930016A (zh) 一种基于深度q学习的梯级水库随机优化调度方法
CN109670650B (zh) 基于多目标优化算法的梯级水库群调度模型的求解方法
CN107527119A (zh) 基于改进的多目标量子遗传算法的水资源优化调度方法
WO2023070293A1 (zh) 一种工业副产煤气系统长期调度方法
Wang et al. Cross entropy optimization based on decomposition for multi-objective economic emission dispatch considering renewable energy generation uncertainties
CN106651628B (zh) 基于图论的区域冷热电综合能源优化配置方法及装置
CN106529732A (zh) 基于神经网络与随机前沿分析的碳排放效率预测方法
CN109345068B (zh) 一种基于余留期效益函数近似的水电站水库两阶段随机优化调度方法
CN110472840A (zh) 一种基于神经网络技术的农业水利调度方法及系统
CN116307533B (zh) 水库群防洪调度智能化方法、系统及介质
CN111709109A (zh) 一种考虑源荷时序相关性的光伏消纳容量计算方法及装置
CN111861137A (zh) 梯级水库群并行多目标调度方法
CN114757579A (zh) 一种复杂工程体系下水库群防洪优化调度方法
CN115828726A (zh) 基于机器学习的太阳能跨季节储热供热系统优化控制方法
Zhu et al. Ultra-short-term wind power probabilistic forecasting based on an evolutionary non-crossing multi-output quantile regression deep neural network
CN109038654B (zh) 一种考虑分布式风电高渗透并网的配电系统优化运行方法
CN116683471B (zh) 无功功率补偿资源的配置方法、装置以及设备
CN115459320B (zh) 一种多点分布式储能系统聚合控制智能决策方法及装置
CN108330896A (zh) 一种梯级水库调度方法及系统
CN115018156B (zh) 一种短期风电功率预测方法
CN112308195B (zh) 模拟局部代价来求解DCOPs的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant