CN116738874A - 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法 - Google Patents
基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法 Download PDFInfo
- Publication number
- CN116738874A CN116738874A CN202310534464.XA CN202310534464A CN116738874A CN 116738874 A CN116738874 A CN 116738874A CN 202310534464 A CN202310534464 A CN 202310534464A CN 116738874 A CN116738874 A CN 116738874A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- pump group
- water
- agent
- rainfall
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000002787 reinforcement Effects 0.000 title claims abstract description 63
- 238000005457 optimization Methods 0.000 title claims abstract description 39
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 93
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 61
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000005192 partition Methods 0.000 claims abstract description 16
- 238000001363 water suppression through gradient tailored excitation Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 claims description 29
- 238000012544 monitoring process Methods 0.000 claims description 23
- 238000005265 energy consumption Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000011217 control strategy Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004088 simulation Methods 0.000 abstract description 4
- 230000002902 bimodal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/28—Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/08—Fluids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Geometry (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Fluid Mechanics (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于Multi‑Agent PPO强化学习的闸泵群联合优化调度方法,该方法的步骤包括:构建基于排水分区的产汇流模型;构建一维河道非恒定流水动力模型;构造水网闸泵群实时调控指标系数,作为Multi‑Agent PPO强化学习的奖励反馈;构建面向水网闸泵群实时调控的Multi‑Agent PPO强化学习模型,对模型进行训练,基于调控指标系数更新强化学习模型的网络参数,输出最优调度规则,将水力状态与闸泵群调度方案决策对应匹配,输出当前状态的价值及当前状态所对应的闸泵群调度策略。本发明有效提升调控效果,大幅减少调度策略优化时间,可满足闸泵群联合优化调度对于模拟调控精度与计算时长的要求。
Description
技术领域
本发明涉及闸泵群调度技术领域,具体涉及一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法。
背景技术
复杂水网闸泵群联合调度系统是一个耦合协调多设施、实现多目标的有组织复杂系统,设施间的耦合协调直接影响到系统的性能与目标的实现。联围水系闸泵群联合调度在实际工程应用中主要存在的问题是:从系统设计到运行管理过程中多设施间的耦合协调调度不足,究其原因主要在于系统本身网络结构复杂、调度目标多维、输入及边界具有随机性等;针对这些问题,使用传统的模型预测控制(MPC)方法,难以兼顾策略优化时间与控制效果;因为对于结构越复杂的系统,系统控制模型一般会越复杂,计算时间就越长,策略优化时间随之增长。
目前联合调度有采用优化算法进行调度方案制定,在优化求解的过程中需要进行迭代优化求解导致时效性低的问题,但如何有效解决复杂联围水系闸泵群联合调度系统对于模拟调控精度与计算时长的要求,实现调度方案制定的安全又稳定、快速又有效,是一个待解决的技术难题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,本发明基于排水分区产汇流模型、一维河道水动力模型组合构建调度控制模型作为强化学习的认知学习模型,构建中心化训练、去中心化执行的Multi-Agent PPO强化学习模型,实现多智能体与调度控制模型的同步学习,增大模型训练速度;将训练好的策略应用于闸泵群联合优化调度,有效提升调控效果,大幅减少调度策略优化时间,可满足闸泵群联合优化调度对于模拟调控精度与计算时长的要求。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,包括下述步骤:
基于河道分布将研究区域划分为若干排水分区,利用径流系数法将各排水分区的降雨过程转化为流量过程,构建得到基于排水分区的产汇流模型;
构建一维河道非恒定流水动力模型,在各排水分区内的河道上随机选择一个点,将各排水分区所求得的流量过程以点源的形式作为一维河道非恒定流水动力模型的内边界输入,模拟水流的汇入过程,将研究区域的潮位作为一维河道非恒定流水动力模型的外边界输入,在闸泵维持t时刻开关状态的基础上,输入河网系统t时刻的状态,输出河网系统t+1时刻的状态;
构造水网闸泵群实时调控指标系数,作为Multi-Agent PPO强化学习的奖励反馈;
构建面向水网闸泵群实时调控的Multi-Agent PPO强化学习模型,对模型进行训练,具体包括:随机生成降雨过程及外边界输入,给定初始水力状态,将河网系统t时刻的状态输入强化学习智能体,强化学习智能体作出闸泵群调度方案决策并产生下一时刻对应的水力状态,根据所处水力状态计算调控指标系数,基于调控指标系数更新强化学习模型的网络参数,输出最优调度规则,将水力状态与闸泵群调度方案决策对应匹配,输出当前状态的价值及当前状态所对应的闸泵群调度策略。
作为优选的技术方案,利用径流系数法将各排水分区的降雨过程转化为流量过程,具体表示为:
其中,Q(t)为第t时段的流量,α为径流系数,P(t)为第t时段总降雨量,F为排水分区面积,Δt为时段长度。
作为优选的技术方案,构建一维河道非恒定流水动力模型,具体表示为:
其中,B为河道宽度,Z为水位,t为时间,Q为流量,x为舜水流向坐标值,q为变化的流量值,α为径流系数,g为重力加速度,A为河道横断面积,Sf为权重系数。
作为优选的技术方案,构造水网闸泵群实时调控指标系数,具体包括:水安全评估指标、水资源评估指标和经济性能评估指标,通过将水安全评估指标、水资源评估指标和经济性能评估指标加权求和得到水网闸泵群实时调控指标系数。
作为优选的技术方案,水安全评估指标以监控断面实时水位超出风险阈值水位的量级衡量,计算方式如下:
其中,RS(t)为t时刻系统水安全评估指标,B为系统总监控断面数,ai为第i个监控断面的水安全风险系数,用于表征不同监控断面对水安全风险的敏感程度,zi(t)为t时刻第i个监控断面的实时水位;为第i个监控断面的风险阈值水位;
水资源评估指标以河网总蓄水量处在设定区间情况衡量,计算方式如下:
其中,RRi(t)为t时刻系统水资源评估指标,S(t)为t时刻河网总蓄水量,SL与SR分别为维持区域水资源综合利用所需保持的河网总蓄水量的左区间与右区间;
经济性能评估指标以泵站的能耗情况衡量,计算方式如下:
其中,RE(t)为t时刻系统经济性能评估指标,N为系统内总泵站数,ey为第y个泵站的能耗系数,εy(t)为t时刻第y个泵站的启停情况。
作为优选的技术方案,所述强化学习智能体包括Actor-Critic网络结构,网络的输入为当前水力状态的观测值,输出为当前状态的价值及当前状态所对应的闸泵群调度策略,基于多个子进程同步进行Actor-Critic中心化训练,将各子进程中强化学习智能体的交互数据传回主进程,主进程将所有子进程的传回数据缓存后供主网络训练更新,实现策略优化,将更新后的网络再下发到各子进程,实现子进程中各强化学习智能体的策略优化。
作为优选的技术方案,基于PPO截断更新Actor-Critic网络结构的参数,具体表示为:
其中,πθ'(a|s)、分别为更新后的策略与更新前的策略,/>为时序差分残差,rt为t时刻的奖励,γ为奖励折扣系数,/>分别为t、t+1时刻的状态价值,clip表示将/>限制在[1-ε,1+ε]内,ε为超参数,用于表示进行截断的范围。
作为优选的技术方案,随机生成降雨过程及外边界输入,具体包括:
基于历史降雨数据获取不同降雨总量、不同历时、不同雨峰位置的场次降雨,并计算场次降雨总量的最大、最小值;
在场次降雨总量的最小、最大值组成的区间内,随机生成降雨总量,并按照不同历时与雨峰位置任意组合,随机生成降雨过程;
在场次降雨总量的最小、最大值组成的区间内,随机生成外边界条件。
作为优选的技术方案,还包括评估与验证步骤,具体包括:存储选定断面水位及闸门开度的变化过程,通过水安全维度、水资源综合利用维度、总体经济性能维度对Multi-Agent PPO强化学习模型学习到的调度控制策略进行评估与验证。
作为优选的技术方案,水安全维度通过风险阈值水位达标率反映:
其中,IS为风险阈值水位达标率,T为调度总时长;
水资源综合利用维度通过河网总蓄水量处在特定区间的达标率反映:
其中,IR为河网总蓄水量处在特定区间的达标率;
总体经济性能维度通过系统时段平均能耗反映:
其中,IE为系统时段平均能耗反应。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于排水分区产汇流模型、一维河道水动力模型组合构建调度控制模型作为强化学习的认知学习模型,构建中心化训练、去中心化执行的Multi-Agent PPO强化学习模型,实现多智能体与调度控制模型的同步学习,增大模型训练速度;将训练好的策略应用于闸泵群联合优化调度,有效提升调控效果,大幅减少调度策略优化时间,可满足闸泵群联合优化调度对于模拟调控精度与计算时长的要求。
(2)本发明使用水文水动力等机理模型精细构建了复杂水网闸泵群调度控制模型,让强化学习在机理模型中不断交互学习,保障了调控的精准度,基于多智能体强化学习,解决了模型学习效率低的技术问题,加快了闸泵群优化调度的收敛速度。
附图说明
图1为本发明基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法的流程图;
图2为本发明调度控制模型输出整个河网系统对应时刻状态的示意图;
图3为本发明Multi-Agent PPO强化学习模型的架构示意图;
图4为本发明Multi-Agent PPO强化学习网络参数更新流程的示意图;
图5为本发明训练时监测断面水位变化、闸门开度调控过程的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例提供一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,包括下述步骤:
S1:构建基于排水分区产汇流模型、一维河道非恒定流水动力模型,具体步骤包括:
S11:利用河道分布将研究区域划分为若干排水分区,利用径流系数法,将各排水分区的降雨过程转化为流量过程,构建基于排水分区的产汇流模型;
基于径流系数法求排水分区流量过程计算公式如下:
其中,Q(t)为第t时段的流量(m3/s),α为径流系数,P(t)为第t时段总降雨量,F为排水分区面积(km2),Δt为时段长度(h)。
S12:一维河道非恒定流水动力模型通过以下公式构建:
其中,B为河道宽度,Z为水位,t为时间,Q为流量,x为舜水流向坐标值,q为变化的流量值,g为重力加速度,A为河道横断面积,Sf为权重系数。
在本实施例中,在各排水分区内的河道上随机选择一个点,将各排水分区所求得的流量过程以点源的形式作为一维河道非恒定流水动力模型的内边界输入,以模拟水流的汇入过程;研究区域的潮位作为一维河道非恒定流水动力模型的外边界输入;
如图2所示,得到排水分区、闸泵分布、河道情况等内容,实现模拟降雨、外边界、河道水位、流量等从状态t(St)到状态t+1(St+1)的变化过程,即在闸泵维持t时刻开关状态的基础上,通过输入整个河网系统t时刻的状态St(包含t时刻的外江潮位、时段降雨总量、各河道断面的水位、各河道断面流量等),输出整个河网系统t+1时刻的状态St+1(包含t+1时刻的外江潮位、时段降雨总量、各河道断面的水位、各河道断面流量等)。
S2:构造复杂水网闸泵群实时调控指标系数,作为Multi-Agent PPO强化学习的奖励反馈;
如图3、图4所示,Multi-Agent PPO强化学习模型与调度控制模型的每次交互中(即各强化学习智能体通过输入河网系统t时刻的状态St,作出闸泵群调度方案决策at),都会产生新的水力状态(即通过调度控制模型模拟河网在执行闸泵群调度方案at的基础上,河网系统t+1时刻的状态St+1),根据所处水力状态计算调控指标系数(即计算St+1时的调控指标系数),指导强化学习模型网络参数的更新,模型朝着获取调控指标系数最大的方向不断更新学习。
复杂水网闸泵群实时调控指标包括:水安全评估指标、水资源评估指标、经济性能评估指标;
水安全评估指标以监控断面实时水位超出风险阈值水位的量级衡量,计算方式如下:
其中,RS(t)为t时刻系统水安全评估指标;B为系统总监控断面数;ai为第i个监控断面的水安全风险系数,用于表征不同监控断面对水安全风险的敏感程度;zi(t)为t时刻第i个监控断面的实时水位;为第i个监控断面的风险阈值水位,基于监控断面附件居民地分布情况、经济发展情况综合分析确定。
如下表1所示,本实施例共设置4个监测断面,得到各断面的水安全风险系数:
表1各断面的水安全风险系数表
编号 | 监测断面 | 水安全风险系数 |
1 | 监测断面830 | 1.2 |
2 | 监测断面1080 | 1.2 |
3 | 监测断面342 | 0.8 |
4 | 监测断面476 | 0.6 |
水资源评估指标以河网总蓄水量处在特定区间情况衡量,计算方式如下:
其中,RRi(t)为t时刻系统水资源评估指标;S(t)为t时刻河网总蓄水量;SL与SR分别为维持区域水资源综合利用所需保持的河网总蓄水量的左区间与右区间。
经济性能评估指标以泵站的能耗情况衡量,计算方式如下:
RE(t)为t时刻系统经济性能评估指标;N为系统内总泵站数;ey为第y个泵站的能耗系数;εy(t)为t时刻第y个泵站的启停情况,取0或1。
复杂水网闸泵群实时调控指标系数计算公式如下:
R(t)=kSRS(t)+kRRR(t)+kERE(t)
其中,kS、kR、kE为对应控制指标的权重系数,确定不同的权重系数,以表征重点控制指标。
S3:构建面向复杂水网闸泵群实时调控的Multi-Agent PPO强化学习模型,对模型进行训练;
为了加快强化学习模型对调度控制模型的交互学习速度,基于Actor-Critic中心化训练、去中心化执行框架及Proximal Policy Optimization(PPO)构建多智能体强化学习算法;
对于Actor-Critic中心化训练、去中心化执行框架:
基于多个子进程同步构建多智能体强化学习模型,实现多个智能体与调度控制模型的同步交互,即各智能体在与调度控制模型进行交互时,进程同步开展;将各子进程中智能体的交互数据通过pipe传回主进程,主进程将所有子进程的传回数据缓存后供主网络训练更新,实现策略优化;将更新后的网络再下发到各子进程,实现子进程中各智能体的策略优化。
各智能体包含独立的Actor-Critic结构,其由策略模块Actor及价值模块Critic两部分组成;各子进程中智能体的Actor-Critic结构用于与调度控制模型进行交互;主线程智能体的Actor-Critic结构用于存储参数,并实现参数的更新。
Actor-Critic由一个神经网络模型搭建而成,即Actor-Critic网络,网络的输入为当前水力状态的观测值(observation),输出为当前状态的价值及针对当前状态所制定的闸泵群调度策略。Actor-Critic网络的搭建可基于网络输入数据结构进行适当调整,如当输入数据包含时间序列数据,可利用循环神经网络及全连接网络进行搭建。
在本实施例中,主要包括41个闸门、1个泵站的实时工况,降雨,外边界,共44维;输出为当前状态的价值及针对当前状态所制定的闸泵群调度策略,共43维。本实施例基于全连接层搭建Actor-Critic网络。
表2 Actor-Critic网络结构示意表
结构名称 | 神经元个数 | 激活函数 | 输入数据维度 | 输出数据维度 |
输入层 | 100 | Relu | 44 | 128 |
隐藏层1 | 100 | Relu | 128 | 256 |
隐藏层2 | 100 | Relu | 256 | 128 |
输出层 | 20 | Linear | 128 | 43 |
对于Proximal Policy Optimization(PPO)的智能体网络参数更新:
利用PPO截断实现Actor-Critic网络结构的参数更新,其计算式如下:
其中,πθ'(a|s)、分别为更新后的策略与更新前的策略;/>为时序差分残差,计算式中rt为t时刻的奖励,γ为奖励折扣系数,/>分别为t、t+1时刻的状态价值,由Actor-Critic输出获取;clip的计算方式为:clip(x,L,R)=max(min(x,R),L),即把/>限制在[1-ε,1+ε]内;ε为超参数,表示进行截断的范围。
收集研究区域的历史降雨数据、调度控制模型外边界历史实测数据;
基于历史降雨数据,分析不同降雨总量、不同历时、不同雨峰位置的场次降雨,并计算场次降雨总量的最大、最小值;
在场次降雨总量的最小、最大值组成的区间内,随机生成降雨总量,并按照不同历时与雨峰位置任意组合,随机生成降雨过程;
计算调度控制模型外边界历史实测数据的最大、最小值;
在最小、最大值组成的区间内,随机生成外边界条件。如下表3所示,得到随机生成降雨过程组合,具体如下:
表3 随机生成降雨过程组合表
降雨量 | 降雨历时 | 雨型 |
113 | 6 | 单峰 |
82 | 6 | 双峰 |
27 | 6 | 均匀 |
52 | 3 | 单峰 |
23 | 3 | 双峰 |
16 | 3 | 均匀 |
31 | 2 | 单峰 |
25 | 2 | 双峰 |
16 | 2 | 均匀 |
18 | 1.5 | 单峰 |
24 | 1.5 | 双峰 |
17 | 1.5 | 均匀 |
基于上述步骤所构建的调度控制模型、调控指标系数、Multi-Agent PPO强化学习模型、降雨及外边界输入等,对模型进行训练。具体的,随机生成降雨过程及调度控制模型的外边界(潮位),并给定初始水力状态(各河道断面的初始水位及闸门的初始闸后水位)组成状态S0,各强化学习智能体以S0为输入做出调度决策a0,调度控制模型基于所作出的调度决策a0模拟计算出下一水力状态S1,并基于所处水力状态计算调控指标系数R0,Multi-Agent强化学习模型的Actor-Critic网络参数依据R0以PPO算法及梯度反向传播的计算方式朝着获取更大调控指标系数更新,不断重复此交互过程,强化学习模型最终习得一种隐含的最优调度规则,即任意给定水力状态S迅速做出精准调度决策a的能力,Multi-Agent强化学习模型的训练流程如图3所示。训练过程中,可存储重点断面水位及闸门开度的变化过程,并绘制变化过程曲线以判断模型学习的效果,如图5所示,得到水力状态S与调度决策a的变化过程。
如下表4所示,强化学习模型主要超参数设置具体如下:
表4强化学习模型主要超参数表
参数名称 | 参数设置 |
Batch size | 32 |
最大episode长度 | 360 |
Learning rate | 0.001 |
β1 | 0.9 |
β2 | 0.999 |
PPO clip-paramε | 0.2 |
学习率衰减系数 | 0.98 |
智能体个数 | 5 |
奖励折扣系数 | 0.9 |
S4:对Multi-Agent PPO强化学习模型学习到的调度控制策略进行评估与验证。
通过水安全维度、水资源综合利用维度、总体经济性能维度三方面对训练好的控制策略进行评估验证。
水安全维度通过风险阈值水位达标率反映:
其中,IS为风险阈值水位达标率,T为调度总时长。
水资源综合利用维度通过河网总蓄水量处在特定区间的达标率反映:
其中,IR为河网总蓄水量处在特定区间的达标率。
总体经济性能维度通过系统时段平均能耗反映:
其中,IE为系统时段平均能耗反应。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,包括下述步骤:
基于河道分布将研究区域划分为若干排水分区,利用径流系数法将各排水分区的降雨过程转化为流量过程,构建得到基于排水分区的产汇流模型;
构建一维河道非恒定流水动力模型,在各排水分区内的河道上随机选择一个点,将各排水分区所求得的流量过程以点源的形式作为一维河道非恒定流水动力模型的内边界输入,模拟水流的汇入过程,将研究区域的潮位作为一维河道非恒定流水动力模型的外边界输入,在闸泵维持t时刻开关状态的基础上,输入河网系统t时刻的状态,输出河网系统t+1时刻的状态;
构造水网闸泵群实时调控指标系数,作为Multi-Agent PPO强化学习的奖励反馈;
构建面向水网闸泵群实时调控的Multi-Agent PPO强化学习模型,对模型进行训练,具体包括:随机生成降雨过程及外边界输入,给定初始水力状态,将河网系统t时刻的状态输入强化学习智能体,强化学习智能体作出闸泵群调度方案决策并产生下一时刻对应的水力状态,根据所处水力状态计算调控指标系数,基于调控指标系数更新强化学习模型的网络参数,输出最优调度规则,将水力状态与闸泵群调度方案决策对应匹配,输出当前状态的价值及当前状态所对应的闸泵群调度策略。
2.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,利用径流系数法将各排水分区的降雨过程转化为流量过程,具体表示为:
其中,Q(t)为第t时段的流量,α为径流系数,P(t)为第t时段总降雨量,F为排水分区面积,Δt为时段长度。
3.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,构建一维河道非恒定流水动力模型,具体表示为:
其中,B为河道宽度,Z为水位,t为时间,Q为流量,x为舜水流向坐标值,q为变化的流量值,α为径流系数,g为重力加速度,A为河道横断面积,Sf为权重系数。
4.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,构造水网闸泵群实时调控指标系数,具体包括:水安全评估指标、水资源评估指标和经济性能评估指标,通过将水安全评估指标、水资源评估指标和经济性能评估指标加权求和得到水网闸泵群实时调控指标系数。
5.根据权利要求4所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,水安全评估指标以监控断面实时水位超出风险阈值水位的量级衡量,计算方式如下:
其中,RS(t)为t时刻系统水安全评估指标,B为系统总监控断面数,ai为第i个监控断面的水安全风险系数,用于表征不同监控断面对水安全风险的敏感程度,zi(t)为t时刻第i个监控断面的实时水位;为第i个监控断面的风险阈值水位;
水资源评估指标以河网总蓄水量处在设定区间情况衡量,计算方式如下:
其中,RRi(t)为t时刻系统水资源评估指标,S(t)为t时刻河网总蓄水量,SL与SR分别为维持区域水资源综合利用所需保持的河网总蓄水量的左区间与右区间;
经济性能评估指标以泵站的能耗情况衡量,计算方式如下:
其中,RE(t)为t时刻系统经济性能评估指标,N为系统内总泵站数,ey为第y个泵站的能耗系数,εy(t)为t时刻第y个泵站的启停情况。
6.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,所述强化学习智能体包括Actor-Critic网络结构,网络的输入为当前水力状态的观测值,输出为当前状态的价值及当前状态所对应的闸泵群调度策略,基于多个子进程同步进行Actor-Critic中心化训练,将各子进程中强化学习智能体的交互数据传回主进程,主进程将所有子进程的传回数据缓存后供主网络训练更新,实现策略优化,将更新后的网络再下发到各子进程,实现子进程中各强化学习智能体的策略优化。
7.根据权利要求6所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,基于PPO截断更新Actor-Critic网络结构的参数,具体表示为:
其中,πθ'(a|s)、分别为更新后的策略与更新前的策略,/>为时序差分残差,rt为t时刻的奖励,γ为奖励折扣系数,/>分别为t、t+1时刻的状态价值,clip表示将/>限制在[1-ε,1+ε]内,ε为超参数,用于表示进行截断的范围。
8.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,随机生成降雨过程及外边界输入,具体包括:
基于历史降雨数据获取不同降雨总量、不同历时、不同雨峰位置的场次降雨,并计算场次降雨总量的最大、最小值;
在场次降雨总量的最小、最大值组成的区间内,随机生成降雨总量,并按照不同历时与雨峰位置任意组合,随机生成降雨过程;
在场次降雨总量的最小、最大值组成的区间内,随机生成外边界条件。
9.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,还包括评估与验证步骤,具体包括:存储选定断面水位及闸门开度的变化过程,通过水安全维度、水资源综合利用维度、总体经济性能维度对Multi-Agent PPO强化学习模型学习到的调度控制策略进行评估与验证。
10.根据权利要求9所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法,其特征在于,水安全维度通过风险阈值水位达标率反映:
其中,IS为风险阈值水位达标率,T为调度总时长;
水资源综合利用维度通过河网总蓄水量处在特定区间的达标率反映:
其中,IR为河网总蓄水量处在特定区间的达标率;
总体经济性能维度通过系统时段平均能耗反映:
其中,IE为系统时段平均能耗反应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534464.XA CN116738874B (zh) | 2023-05-12 | 2023-05-12 | 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534464.XA CN116738874B (zh) | 2023-05-12 | 2023-05-12 | 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738874A true CN116738874A (zh) | 2023-09-12 |
CN116738874B CN116738874B (zh) | 2024-01-23 |
Family
ID=87901982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310534464.XA Active CN116738874B (zh) | 2023-05-12 | 2023-05-12 | 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738874B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106168991A (zh) * | 2016-06-24 | 2016-11-30 | 珠江水利委员会珠江水利科学研究院 | 一种基于水动力数值模拟的感潮河网潮位预报方法 |
US20200090074A1 (en) * | 2018-09-14 | 2020-03-19 | Honda Motor Co., Ltd. | System and method for multi-agent reinforcement learning in a multi-agent environment |
CN112733463A (zh) * | 2020-09-11 | 2021-04-30 | 南京中禹智慧水利研究院有限公司 | 一种基于河网水动力模型的闸群联合调度方法 |
CN114139354A (zh) * | 2021-11-12 | 2022-03-04 | 山东浪潮科学研究院有限公司 | 基于强化学习的电力系统仿真调度方法及系统 |
US20220164502A1 (en) * | 2020-11-23 | 2022-05-26 | Jiangsu University | Pump machine unit optimized operation regulation system and method based on digital twin |
CN115345380A (zh) * | 2022-09-01 | 2022-11-15 | 国家电网有限公司华北分部 | 一种基于人工智能的新能源消纳电力调度方法 |
CN115544899A (zh) * | 2022-11-23 | 2022-12-30 | 南京邮电大学 | 基于多智能体深度强化学习的水厂取水泵站节能调度方法 |
CN115828783A (zh) * | 2022-12-06 | 2023-03-21 | 水利部南京水利水文自动化研究所 | 一种水闸流激振动智能规避方法及系统 |
CN116011731A (zh) * | 2022-12-05 | 2023-04-25 | 中国电建集团成都勘测设计研究院有限公司 | 基于机器学习算法与雨洪数值模型的厂网河联合调度方法 |
-
2023
- 2023-05-12 CN CN202310534464.XA patent/CN116738874B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106168991A (zh) * | 2016-06-24 | 2016-11-30 | 珠江水利委员会珠江水利科学研究院 | 一种基于水动力数值模拟的感潮河网潮位预报方法 |
US20200090074A1 (en) * | 2018-09-14 | 2020-03-19 | Honda Motor Co., Ltd. | System and method for multi-agent reinforcement learning in a multi-agent environment |
CN112733463A (zh) * | 2020-09-11 | 2021-04-30 | 南京中禹智慧水利研究院有限公司 | 一种基于河网水动力模型的闸群联合调度方法 |
US20220164502A1 (en) * | 2020-11-23 | 2022-05-26 | Jiangsu University | Pump machine unit optimized operation regulation system and method based on digital twin |
CN114139354A (zh) * | 2021-11-12 | 2022-03-04 | 山东浪潮科学研究院有限公司 | 基于强化学习的电力系统仿真调度方法及系统 |
CN115345380A (zh) * | 2022-09-01 | 2022-11-15 | 国家电网有限公司华北分部 | 一种基于人工智能的新能源消纳电力调度方法 |
CN115544899A (zh) * | 2022-11-23 | 2022-12-30 | 南京邮电大学 | 基于多智能体深度强化学习的水厂取水泵站节能调度方法 |
CN116011731A (zh) * | 2022-12-05 | 2023-04-25 | 中国电建集团成都勘测设计研究院有限公司 | 基于机器学习算法与雨洪数值模型的厂网河联合调度方法 |
CN115828783A (zh) * | 2022-12-06 | 2023-03-21 | 水利部南京水利水文自动化研究所 | 一种水闸流激振动智能规避方法及系统 |
Non-Patent Citations (2)
Title |
---|
JIAHUI XU 等: "Zone scheduling optimization of pumps in water distribution networks with deep reinforcement learning and knowledge-assisted learning", SOFT COMPUTING, vol. 25, pages 14757, XP037597530, DOI: 10.1007/s00500-021-06177-3 * |
檀朝东;蔡振华;邓涵文;刘世界;秦鹏;王一兵;宋文容;: "基于强化学习的煤层气井螺杆泵排采参数智能决策", 石油钻采工艺, no. 01, pages 67 - 74 * |
Also Published As
Publication number | Publication date |
---|---|
CN116738874B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103809557B (zh) | 一种基于神经网络的污水处理过程优化控制方法 | |
Mandal et al. | In search of suitable fuzzy membership function in prediction of time series data | |
CN108711847A (zh) | 一种基于编码解码长短期记忆网络的短期风电功率预测方法 | |
CN105868853B (zh) | 一种短期风电功率组合概率预测方法 | |
CN107425520A (zh) | 一种含节点注入功率不确定性的主动配电网三相区间状态估计方法 | |
CN105354620A (zh) | 一种风机发电功率的预测方法 | |
CN106529818A (zh) | 基于模糊小波神经网络的水质评价预测方法 | |
CN105608271A (zh) | 一种基于分解与优化的短期风速时序预测方法 | |
CN105243259A (zh) | 基于极限学习机的脉动风速快速预测方法 | |
AU2021106540A4 (en) | Prediction method and system for river algal blooms | |
CN105512832A (zh) | 基于时变权最小方差的城市需水量组合预测方法 | |
CN104463356A (zh) | 一种基于多维信息人工神经网络算法的光伏发电功率预测方法 | |
CN112100911B (zh) | 一种基于深度bilstm的太阳辐射预测方法 | |
CN104933489A (zh) | 基于自适应神经模糊推理系统的风电功率实时高精度预测方法 | |
CN106295857A (zh) | 一种风电功率超短期预测方法 | |
Song et al. | An indoor temperature prediction framework based on hierarchical attention gated recurrent unit model for energy efficient buildings | |
CN105809349A (zh) | 一种考虑来水相关性梯级水电站群的调度方法 | |
CN112182951B (zh) | 一种考虑多重不确定性的土地利用规划方法 | |
CN114757104A (zh) | 一种基于数据驱动的串联闸群调水工程水力实时调控模型的构建方法 | |
CN107301478A (zh) | 一种电缆线路短时负荷预测方法 | |
CN109408896B (zh) | 一种污水厌氧处理产气量多元智能实时监控方法 | |
CN114566971A (zh) | 一种基于近端策略优化算法的实时最优潮流计算方法 | |
CN116738874B (zh) | 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法 | |
Tao et al. | On comparing six optimization algorithms for network-based wind speed forecasting | |
Xiaojian et al. | A traffic flow forecasting model based on BP neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |