CN116738874A

CN116738874A - 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法

Info

Publication number: CN116738874A
Application number: CN202310534464.XA
Authority: CN
Inventors: 宋利祥; 丁武; 何用; 胡晓张; 张炜; 陈睿智; 刘晓建; 王汉岗; 王强; 查大伟; 刘宇; 李旭东; 胡豫英; 张印; 杨佳利
Original assignee: Pearl River Hydraulic Research Institute of PRWRC
Current assignee: Pearl River Hydraulic Research Institute of PRWRC
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-09-12
Anticipated expiration: 2043-05-12
Also published as: CN116738874B

Abstract

本发明公开了一种基于Multi‑Agent PPO强化学习的闸泵群联合优化调度方法，该方法的步骤包括：构建基于排水分区的产汇流模型；构建一维河道非恒定流水动力模型；构造水网闸泵群实时调控指标系数，作为Multi‑Agent PPO强化学习的奖励反馈；构建面向水网闸泵群实时调控的Multi‑Agent PPO强化学习模型，对模型进行训练，基于调控指标系数更新强化学习模型的网络参数，输出最优调度规则，将水力状态与闸泵群调度方案决策对应匹配，输出当前状态的价值及当前状态所对应的闸泵群调度策略。本发明有效提升调控效果，大幅减少调度策略优化时间，可满足闸泵群联合优化调度对于模拟调控精度与计算时长的要求。

Description

基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法

技术领域

本发明涉及闸泵群调度技术领域，具体涉及一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法。

背景技术

复杂水网闸泵群联合调度系统是一个耦合协调多设施、实现多目标的有组织复杂系统，设施间的耦合协调直接影响到系统的性能与目标的实现。联围水系闸泵群联合调度在实际工程应用中主要存在的问题是：从系统设计到运行管理过程中多设施间的耦合协调调度不足，究其原因主要在于系统本身网络结构复杂、调度目标多维、输入及边界具有随机性等；针对这些问题，使用传统的模型预测控制(MPC)方法，难以兼顾策略优化时间与控制效果；因为对于结构越复杂的系统，系统控制模型一般会越复杂，计算时间就越长，策略优化时间随之增长。

目前联合调度有采用优化算法进行调度方案制定，在优化求解的过程中需要进行迭代优化求解导致时效性低的问题，但如何有效解决复杂联围水系闸泵群联合调度系统对于模拟调控精度与计算时长的要求，实现调度方案制定的安全又稳定、快速又有效，是一个待解决的技术难题。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，本发明基于排水分区产汇流模型、一维河道水动力模型组合构建调度控制模型作为强化学习的认知学习模型，构建中心化训练、去中心化执行的Multi-Agent PPO强化学习模型，实现多智能体与调度控制模型的同步学习，增大模型训练速度；将训练好的策略应用于闸泵群联合优化调度，有效提升调控效果，大幅减少调度策略优化时间，可满足闸泵群联合优化调度对于模拟调控精度与计算时长的要求。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，包括下述步骤：

基于河道分布将研究区域划分为若干排水分区，利用径流系数法将各排水分区的降雨过程转化为流量过程，构建得到基于排水分区的产汇流模型；

构建一维河道非恒定流水动力模型，在各排水分区内的河道上随机选择一个点，将各排水分区所求得的流量过程以点源的形式作为一维河道非恒定流水动力模型的内边界输入，模拟水流的汇入过程，将研究区域的潮位作为一维河道非恒定流水动力模型的外边界输入，在闸泵维持t时刻开关状态的基础上，输入河网系统t时刻的状态，输出河网系统t+1时刻的状态；

构造水网闸泵群实时调控指标系数，作为Multi-Agent PPO强化学习的奖励反馈；

构建面向水网闸泵群实时调控的Multi-Agent PPO强化学习模型，对模型进行训练，具体包括：随机生成降雨过程及外边界输入，给定初始水力状态，将河网系统t时刻的状态输入强化学习智能体，强化学习智能体作出闸泵群调度方案决策并产生下一时刻对应的水力状态，根据所处水力状态计算调控指标系数，基于调控指标系数更新强化学习模型的网络参数，输出最优调度规则，将水力状态与闸泵群调度方案决策对应匹配，输出当前状态的价值及当前状态所对应的闸泵群调度策略。

作为优选的技术方案，利用径流系数法将各排水分区的降雨过程转化为流量过程，具体表示为：

其中，Q(t)为第t时段的流量，α为径流系数，P(t)为第t时段总降雨量，F为排水分区面积，Δt为时段长度。

作为优选的技术方案，构建一维河道非恒定流水动力模型，具体表示为：

其中，B为河道宽度，Z为水位，t为时间，Q为流量，x为舜水流向坐标值，q为变化的流量值，α为径流系数，g为重力加速度，A为河道横断面积，S_f为权重系数。

作为优选的技术方案，构造水网闸泵群实时调控指标系数，具体包括：水安全评估指标、水资源评估指标和经济性能评估指标，通过将水安全评估指标、水资源评估指标和经济性能评估指标加权求和得到水网闸泵群实时调控指标系数。

作为优选的技术方案，水安全评估指标以监控断面实时水位超出风险阈值水位的量级衡量，计算方式如下：

其中，RS(t)为t时刻系统水安全评估指标，B为系统总监控断面数，a_i为第i个监控断面的水安全风险系数，用于表征不同监控断面对水安全风险的敏感程度，z_i(t)为t时刻第i个监控断面的实时水位；为第i个监控断面的风险阈值水位；

水资源评估指标以河网总蓄水量处在设定区间情况衡量，计算方式如下：

其中，RR_i(t)为t时刻系统水资源评估指标，S(t)为t时刻河网总蓄水量，S^L与S^R分别为维持区域水资源综合利用所需保持的河网总蓄水量的左区间与右区间；

经济性能评估指标以泵站的能耗情况衡量，计算方式如下：

其中，RE(t)为t时刻系统经济性能评估指标，N为系统内总泵站数，e_y为第y个泵站的能耗系数，ε_y(t)为t时刻第y个泵站的启停情况。

作为优选的技术方案，所述强化学习智能体包括Actor-Critic网络结构，网络的输入为当前水力状态的观测值，输出为当前状态的价值及当前状态所对应的闸泵群调度策略，基于多个子进程同步进行Actor-Critic中心化训练，将各子进程中强化学习智能体的交互数据传回主进程，主进程将所有子进程的传回数据缓存后供主网络训练更新，实现策略优化，将更新后的网络再下发到各子进程，实现子进程中各强化学习智能体的策略优化。

作为优选的技术方案，基于PPO截断更新Actor-Critic网络结构的参数，具体表示为：

其中，π_θ'(a|s)、分别为更新后的策略与更新前的策略，/>为时序差分残差，r_t为t时刻的奖励，γ为奖励折扣系数，/>分别为t、t+1时刻的状态价值，clip表示将/>限制在[1-ε,1+ε]内，ε为超参数，用于表示进行截断的范围。

作为优选的技术方案，随机生成降雨过程及外边界输入，具体包括：

基于历史降雨数据获取不同降雨总量、不同历时、不同雨峰位置的场次降雨，并计算场次降雨总量的最大、最小值；

在场次降雨总量的最小、最大值组成的区间内，随机生成降雨总量，并按照不同历时与雨峰位置任意组合，随机生成降雨过程；

在场次降雨总量的最小、最大值组成的区间内，随机生成外边界条件。

作为优选的技术方案，还包括评估与验证步骤，具体包括：存储选定断面水位及闸门开度的变化过程，通过水安全维度、水资源综合利用维度、总体经济性能维度对Multi-Agent PPO强化学习模型学习到的调度控制策略进行评估与验证。

作为优选的技术方案，水安全维度通过风险阈值水位达标率反映：

其中，IS为风险阈值水位达标率，T为调度总时长；

水资源综合利用维度通过河网总蓄水量处在特定区间的达标率反映：

其中，IR为河网总蓄水量处在特定区间的达标率；

总体经济性能维度通过系统时段平均能耗反映：

其中，IE为系统时段平均能耗反应。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明基于排水分区产汇流模型、一维河道水动力模型组合构建调度控制模型作为强化学习的认知学习模型，构建中心化训练、去中心化执行的Multi-Agent PPO强化学习模型，实现多智能体与调度控制模型的同步学习，增大模型训练速度；将训练好的策略应用于闸泵群联合优化调度，有效提升调控效果，大幅减少调度策略优化时间，可满足闸泵群联合优化调度对于模拟调控精度与计算时长的要求。

(2)本发明使用水文水动力等机理模型精细构建了复杂水网闸泵群调度控制模型，让强化学习在机理模型中不断交互学习，保障了调控的精准度，基于多智能体强化学习，解决了模型学习效率低的技术问题，加快了闸泵群优化调度的收敛速度。

附图说明

图1为本发明基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法的流程图；

图2为本发明调度控制模型输出整个河网系统对应时刻状态的示意图；

图3为本发明Multi-Agent PPO强化学习模型的架构示意图；

图4为本发明Multi-Agent PPO强化学习网络参数更新流程的示意图；

图5为本发明训练时监测断面水位变化、闸门开度调控过程的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例提供一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，包括下述步骤：

S1：构建基于排水分区产汇流模型、一维河道非恒定流水动力模型，具体步骤包括：

S11：利用河道分布将研究区域划分为若干排水分区，利用径流系数法，将各排水分区的降雨过程转化为流量过程，构建基于排水分区的产汇流模型；

基于径流系数法求排水分区流量过程计算公式如下：

其中，Q(t)为第t时段的流量(m³/s)，α为径流系数，P(t)为第t时段总降雨量，F为排水分区面积(km²)，Δt为时段长度(h)。

S12：一维河道非恒定流水动力模型通过以下公式构建：

其中，B为河道宽度，Z为水位，t为时间，Q为流量，x为舜水流向坐标值，q为变化的流量值，g为重力加速度，A为河道横断面积，S_f为权重系数。

在本实施例中，在各排水分区内的河道上随机选择一个点，将各排水分区所求得的流量过程以点源的形式作为一维河道非恒定流水动力模型的内边界输入，以模拟水流的汇入过程；研究区域的潮位作为一维河道非恒定流水动力模型的外边界输入；

如图2所示，得到排水分区、闸泵分布、河道情况等内容，实现模拟降雨、外边界、河道水位、流量等从状态t(S_t)到状态t+1(S_t+1)的变化过程，即在闸泵维持t时刻开关状态的基础上，通过输入整个河网系统t时刻的状态S_t(包含t时刻的外江潮位、时段降雨总量、各河道断面的水位、各河道断面流量等)，输出整个河网系统t+1时刻的状态S_t+1(包含t+1时刻的外江潮位、时段降雨总量、各河道断面的水位、各河道断面流量等)。

S2：构造复杂水网闸泵群实时调控指标系数，作为Multi-Agent PPO强化学习的奖励反馈；

如图3、图4所示，Multi-Agent PPO强化学习模型与调度控制模型的每次交互中(即各强化学习智能体通过输入河网系统t时刻的状态S_t，作出闸泵群调度方案决策a_t)，都会产生新的水力状态(即通过调度控制模型模拟河网在执行闸泵群调度方案a_t的基础上，河网系统t+1时刻的状态S_t+1)，根据所处水力状态计算调控指标系数(即计算S_t+1时的调控指标系数)，指导强化学习模型网络参数的更新，模型朝着获取调控指标系数最大的方向不断更新学习。

复杂水网闸泵群实时调控指标包括：水安全评估指标、水资源评估指标、经济性能评估指标；

水安全评估指标以监控断面实时水位超出风险阈值水位的量级衡量，计算方式如下：

其中，RS(t)为t时刻系统水安全评估指标；B为系统总监控断面数；a_i为第i个监控断面的水安全风险系数，用于表征不同监控断面对水安全风险的敏感程度；z_i(t)为t时刻第i个监控断面的实时水位；为第i个监控断面的风险阈值水位，基于监控断面附件居民地分布情况、经济发展情况综合分析确定。

如下表1所示，本实施例共设置4个监测断面，得到各断面的水安全风险系数：

表1各断面的水安全风险系数表

编号	监测断面	水安全风险系数
			1	监测断面830	1.2
2	监测断面1080	1.2
			3	监测断面342	0.8
4	监测断面476	0.6

水资源评估指标以河网总蓄水量处在特定区间情况衡量，计算方式如下：

其中，RR_i(t)为t时刻系统水资源评估指标；S(t)为t时刻河网总蓄水量；S^L与S^R分别为维持区域水资源综合利用所需保持的河网总蓄水量的左区间与右区间。

经济性能评估指标以泵站的能耗情况衡量，计算方式如下：

RE(t)为t时刻系统经济性能评估指标；N为系统内总泵站数；e_y为第y个泵站的能耗系数；ε_y(t)为t时刻第y个泵站的启停情况，取0或1。

复杂水网闸泵群实时调控指标系数计算公式如下：

R(t)＝k_SRS(t)+k_RRR(t)+k_ERE(t)

其中，k_S、k_R、k_E为对应控制指标的权重系数，确定不同的权重系数，以表征重点控制指标。

S3：构建面向复杂水网闸泵群实时调控的Multi-Agent PPO强化学习模型，对模型进行训练；

为了加快强化学习模型对调度控制模型的交互学习速度，基于Actor-Critic中心化训练、去中心化执行框架及Proximal Policy Optimization(PPO)构建多智能体强化学习算法；

对于Actor-Critic中心化训练、去中心化执行框架：

基于多个子进程同步构建多智能体强化学习模型，实现多个智能体与调度控制模型的同步交互，即各智能体在与调度控制模型进行交互时，进程同步开展；将各子进程中智能体的交互数据通过pipe传回主进程，主进程将所有子进程的传回数据缓存后供主网络训练更新，实现策略优化；将更新后的网络再下发到各子进程，实现子进程中各智能体的策略优化。

各智能体包含独立的Actor-Critic结构，其由策略模块Actor及价值模块Critic两部分组成；各子进程中智能体的Actor-Critic结构用于与调度控制模型进行交互；主线程智能体的Actor-Critic结构用于存储参数，并实现参数的更新。

Actor-Critic由一个神经网络模型搭建而成，即Actor-Critic网络，网络的输入为当前水力状态的观测值(observation)，输出为当前状态的价值及针对当前状态所制定的闸泵群调度策略。Actor-Critic网络的搭建可基于网络输入数据结构进行适当调整，如当输入数据包含时间序列数据，可利用循环神经网络及全连接网络进行搭建。

在本实施例中，主要包括41个闸门、1个泵站的实时工况，降雨，外边界，共44维；输出为当前状态的价值及针对当前状态所制定的闸泵群调度策略，共43维。本实施例基于全连接层搭建Actor-Critic网络。

表2 Actor-Critic网络结构示意表

结构名称	神经元个数	激活函数	输入数据维度	输出数据维度
					输入层	100	Relu	44	128
隐藏层1	100	Relu	128	256
					隐藏层2	100	Relu	256	128
输出层	20	Linear	128	43

对于Proximal Policy Optimization(PPO)的智能体网络参数更新：

利用PPO截断实现Actor-Critic网络结构的参数更新，其计算式如下：

其中，π_θ'(a|s)、分别为更新后的策略与更新前的策略；/>为时序差分残差，计算式中r_t为t时刻的奖励，γ为奖励折扣系数，/>分别为t、t+1时刻的状态价值，由Actor-Critic输出获取；clip的计算方式为：clip(x,L,R)＝max(min(x,R),L)，即把/>限制在[1-ε,1+ε]内；ε为超参数，表示进行截断的范围。

收集研究区域的历史降雨数据、调度控制模型外边界历史实测数据；

基于历史降雨数据，分析不同降雨总量、不同历时、不同雨峰位置的场次降雨，并计算场次降雨总量的最大、最小值；

计算调度控制模型外边界历史实测数据的最大、最小值；

在最小、最大值组成的区间内，随机生成外边界条件。如下表3所示，得到随机生成降雨过程组合，具体如下：

表3 随机生成降雨过程组合表

降雨量	降雨历时	雨型
			113	6	单峰
82	6	双峰
			27	6	均匀
52	3	单峰
			23	3	双峰
16	3	均匀
			31	2	单峰
25	2	双峰
			16	2	均匀
18	1.5	单峰
			24	1.5	双峰
17	1.5	均匀

基于上述步骤所构建的调度控制模型、调控指标系数、Multi-Agent PPO强化学习模型、降雨及外边界输入等，对模型进行训练。具体的，随机生成降雨过程及调度控制模型的外边界(潮位)，并给定初始水力状态(各河道断面的初始水位及闸门的初始闸后水位)组成状态S₀，各强化学习智能体以S₀为输入做出调度决策a₀，调度控制模型基于所作出的调度决策a₀模拟计算出下一水力状态S₁，并基于所处水力状态计算调控指标系数R₀，Multi-Agent强化学习模型的Actor-Critic网络参数依据R₀以PPO算法及梯度反向传播的计算方式朝着获取更大调控指标系数更新，不断重复此交互过程，强化学习模型最终习得一种隐含的最优调度规则，即任意给定水力状态S迅速做出精准调度决策a的能力，Multi-Agent强化学习模型的训练流程如图3所示。训练过程中，可存储重点断面水位及闸门开度的变化过程，并绘制变化过程曲线以判断模型学习的效果，如图5所示，得到水力状态S与调度决策a的变化过程。

如下表4所示，强化学习模型主要超参数设置具体如下：

表4强化学习模型主要超参数表

参数名称	参数设置
		Batch size	32
最大episode长度	360
		Learning rate	0.001
β1	0.9
		β2	0.999
PPO clip-paramε	0.2
		学习率衰减系数	0.98
智能体个数	5
		奖励折扣系数	0.9

S4：对Multi-Agent PPO强化学习模型学习到的调度控制策略进行评估与验证。

通过水安全维度、水资源综合利用维度、总体经济性能维度三方面对训练好的控制策略进行评估验证。

水安全维度通过风险阈值水位达标率反映：

其中，IS为风险阈值水位达标率，T为调度总时长。

其中，IR为河网总蓄水量处在特定区间的达标率。

总体经济性能维度通过系统时段平均能耗反映：

其中，IE为系统时段平均能耗反应。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，利用径流系数法将各排水分区的降雨过程转化为流量过程，具体表示为：

3.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，构建一维河道非恒定流水动力模型，具体表示为：

4.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，构造水网闸泵群实时调控指标系数，具体包括：水安全评估指标、水资源评估指标和经济性能评估指标，通过将水安全评估指标、水资源评估指标和经济性能评估指标加权求和得到水网闸泵群实时调控指标系数。

5.根据权利要求4所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，水安全评估指标以监控断面实时水位超出风险阈值水位的量级衡量，计算方式如下：

经济性能评估指标以泵站的能耗情况衡量，计算方式如下：

6.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，所述强化学习智能体包括Actor-Critic网络结构，网络的输入为当前水力状态的观测值，输出为当前状态的价值及当前状态所对应的闸泵群调度策略，基于多个子进程同步进行Actor-Critic中心化训练，将各子进程中强化学习智能体的交互数据传回主进程，主进程将所有子进程的传回数据缓存后供主网络训练更新，实现策略优化，将更新后的网络再下发到各子进程，实现子进程中各强化学习智能体的策略优化。

7.根据权利要求6所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，基于PPO截断更新Actor-Critic网络结构的参数，具体表示为：

8.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，随机生成降雨过程及外边界输入，具体包括：

9.根据权利要求1所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，还包括评估与验证步骤，具体包括：存储选定断面水位及闸门开度的变化过程，通过水安全维度、水资源综合利用维度、总体经济性能维度对Multi-Agent PPO强化学习模型学习到的调度控制策略进行评估与验证。

10.根据权利要求9所述的基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法，其特征在于，水安全维度通过风险阈值水位达标率反映：

其中，IS为风险阈值水位达标率，T为调度总时长；

其中，IR为河网总蓄水量处在特定区间的达标率；

总体经济性能维度通过系统时段平均能耗反映：

其中，IE为系统时段平均能耗反应。