CN115952958A

CN115952958A - 基于maddpg强化学习的水库群联合优化调度方法

Info

Publication number: CN115952958A
Application number: CN202310238977.6A
Authority: CN
Inventors: 丁武; 宋利祥; 杨芳; 王汉岗; 张炜; 何用; 刘晋; 查大伟; 胡豫英; 杨滨; 李东豪; 沈灿诚; 李文
Original assignee: Pearl River Hydraulic Research Institute of PRWRC
Current assignee: Pearl River Hydraulic Research Institute of PRWRC
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-04-11
Anticipated expiration: 2043-03-14
Also published as: CN115952958B

Abstract

本发明属于水库群联合调度技术领域，尤其是涉及一种基于MADDPG强化学习的水库群联合优化调度方法。所述方法包括以下步骤：获取区域水库集雨范围信息数据，根据区域水库集雨范围信息数据构建水库群调度控制模型；获取水库群联合调控信息数据，通过对水库群联合调控信息数据进行水库群设备联动调控目标处理，生成水库群联合调控目标数据，利用水库群联合调控奖励函数对水库群联合调控目标数据进行水库群联合调控奖励计算，生成水库群联合调控奖励数据。本发明能够解决现有水库群调度方法无法兼顾调度效果和计算效率的难题。

Description

基于MADDPG强化学习的水库群联合优化调度方法

技术领域

本发明属于水库群联合调度技术领域，尤其是涉及一种基于MADDPG强化学习的水库群联合优化调度方法。

背景技术

水库群联合优化调度可为水库群发挥防洪、灌溉、发电、供水等巨大社会经济效益提供技术支撑，但由于水库群调度控制系统机理的复杂性和决策的非线性，目前基于传统优化算法的系统实时控制方法仍难以同时兼顾调度效果和优化效率。同时，目前利用强化学习算法实现水库调度的方法，往往只是优化单一目标或者只针对单一水库的优化调度。然而，水库群联合优化调度通常具有控制变量高维、多目标调控的特点，现有的水库群联合调度方案所面临的调度效果和计算效率无法兼顾的难题，难以实现水库群的多目标联合优化调度，阻碍水库群联合调度的发展。

发明内容

本发明提供一种基于MADDPG强化学习的水库群联合优化调度方法，以解决至少一个上述技术问题。

为实现上述目的，一种基于MADDPG强化学习的水库群联合优化调度方法，包括以下步骤：

步骤S1：获取区域水库集雨范围信息数据，根据区域水库集雨范围信息数据构建水库群调度控制模型；

步骤S2：获取水库群联合调控信息数据，通过对水库群联合调控信息数据进行水库群设备联动调控目标处理，生成水库群联合调控目标数据，利用水库群联合调控奖励函数对水库群联合调控目标数据进行水库群联合调控奖励计算，从而生成水库群联合调控奖励数据；

步骤S3：根据MADDPG算法构建MADDPG强化学习模型，利用水库群联合调控奖励数据对MADDPG强化学习模型进行学习模型优化处理，得到水库群智能体模型，利用水库群智能体模型对水库群调度控制模型进行水库群优化调度强化学习处理，从而生成水库群最优调度方案策略；

步骤S4：对水库群最优调度方案策略进行水库群保障程度评估处理，生成水库群保障程度评估信息，从而实现水库联合优化调度任务。

本实施例通过获取某个城市的水库集雨范围信息数据，运用高精度数值模拟方法构建水库群调度控制模型，达到物理流域的数值仿真效果，实现高保真的调度控制模型，并利用通过获取到的某个城市的水库群联合调控信息数据设立水库群联合调控奖励数据，构建MADDPG强化学习模型，利用水库群联合调控奖励数据对MADDPG强化学习模型进行优化，得到多个水库群智能体，并利用多个水库群智能体同时和调度控制模型进行水库群优化调度强化学习，将优化时间转化为离线学习成本的同时还有效提升了模型的优化效率，针对各调度目标构造相应奖励函数，实现水库群的联合优化调度，并对水库群的联合优化调度进行保障程度评估，观察进行水库群联合优化调度后的效果。综上，基于MADDPG强化学习的水库群联合优化调度方法通常具有控制变量高维、多目标调控的特点，并且能有效解决目前水库群实时调度所面临的调度效果和计算效率无法兼顾的难题，实现水库群的多目标联合优化调度，对其进行发展是十分必要的。

在本说明书的一个实施例中，步骤S1具体包括：

步骤S11：获取区域水库集雨范围信息数据；

步骤S12：根据区域水库集雨范围信息数据通过集总式水文模型建模方式进行建模，从而构建集雨范围内的区域集总式水文模型；

步骤S13：根据区域水库集雨范围信息数据通过水库调洪计算瞬态法计算方式进行建模，从而构建库区调洪演算模型；

步骤S14：根据区域水库集雨范围信息数据通过圣维南方程组及Preissmann格式离散计算方式进行建模，从而构建库区下游河道一维水动力模型；

步骤S15：根据区域水库集雨范围信息数据通过WRF-Hydro分布式水文模型建模方式进行建模，从而构建区下游区间入流分布式水文模型；

步骤S16：收集区域实测雨洪过程信息，利用GA遗传算法对区域实测雨洪过程信息进行雨洪过程预测处理，从而生成区域预测雨洪信息；

步骤S17：利用区域预测雨洪信息对区域集总式水文模型、库区调洪演算模型、库区下游河道一维水动力模型、区下游区间入流分布式水文模型进行参数自动率定处理，从而生成区域总式水文率定信息、库区调洪演算率定信息、库区下游河道一维水动力率定信息以及区下游区间入流分布式水文率定信息；

步骤S18：根据区域总式水文率定信息、库区调洪演算率定信息、库区下游河道一维水动力率定信息以及区下游区间入流分布式水文率定信息构建水库群调度控制模型。

本实施例获取区域水库集雨范围信息数据，为后续提供建模的数据基础，通过不同的建模方式对水文、水动力、下游河道流量、雨水流量等进行建模，为水库群调度提供基础模型，提高调度的科学性和精准性，利用遗传算法对实测雨洪过程信息进行预测处理，为水库群调度提供更准确的雨洪信息，利用预测雨洪信息对水文模型等进行参数自动率定，提高了模型的精度和可靠性，基于水文模型等构建水库群调度控制模型，实现对水库群最优调度方案的生成。

在本说明书的一个实施例中，步骤S13中的水库调洪计算瞬态法计算方式与步骤S14中的圣维南方程组及Preissmann格式离散计算方式分别如下所示：

水库调洪计算瞬态法计算方式如下：

其中，

为计算时段中的水库平均入库流量，

为计算时段中的下游河道的平均下泄流量，

为计算时段初的水库入库流量，

为计算时段末的水库入库流量，

为计算时段初的下游河道下泄流量，

为计算时段末的下游河道下泄流量，

为计算时段初水库的蓄水量，

为计算时段末水库的蓄水量，

为计算时段初与末的水库之差的蓄水量，

为水库调洪计算时段长；

基于圣维南方程组及Preissmann格式离散计算方式如下：

其中，

为水库群调度系统总防洪控制断面数，

为水库群调度系统中水库个数的数量，

为水库基于构建下游河道所需要的时间，

为计算时段中的水库入库流量，

为下游河道下泄速度，

为下游河道的下泄流量，

为计算时段中的水库入库流量的常数调整项，

为水库防洪控制断的权重信息，

为下游河道的蓄水量，

为下游河道蓄水量造成的压力。

本实施例中利用水库调洪计算瞬态法来计算时段初与末的水库之差的蓄水量

与水库调洪计算时段长

之比

，利用水库群中的时段初、末的入库流量总和

与时段初、末下泄流量之差

，利用圣维南方程组及Preissmann格式离散对区域水库集雨范围信息数据进行数据建模，通过水库群调度系统总防洪控制断面数

、水库个数的数量

、水库基于构建下游河道所需要的时间

、计算时段中的水库入库流量

以及下游河道下泄速度

的关系，得到下游河道的下泄流量

。

在本说明书的一个实施例中，其中，步骤S2中的水库群设备联动调控目标处理包括水库下游防洪安全奖励计算、系统保证自身防洪安全奖励计算、系统保障水库发电奖励计算以及系统保障水生态环境奖励计算，步骤S2具体包括：

步骤S21：获取水库群联合调控信息数据；

步骤S22：利用水库下游防洪安全计算公式对水库群联合调控信息数据进行水库下游防洪安全奖励计算，从而生成水库下游防洪安全奖励数据；

步骤S23：利用系统保障水库自身防洪安全计算公式对水库群联合调控信息数据进行系统保证自身防洪安全奖励计算，从而生成系统保障水库自身防洪安全奖励数据；

步骤S24：利用系统保障水库发电公式对水库群联合调控信息数据进行系统保障水库发电奖励计算，从而生成系统保障水库发电奖励数据；

步骤S25：利用系统保障水生态环境公式对水库群联合调控信息数据进行系统保障水生态环境奖励计算，从而生成系统保障水生态环境奖励数据；

步骤S26：将水库下游防洪安全奖励数据、系统保障水库自身防洪安全奖励数据、系统保障水库发电奖励数据、系统保障水生态环境奖励数据进行数据分类整合，得到水库群联合调控目标数据；

步骤S27：利用水库群联合调控奖励函数对水库群联合调控目标数据进行水库群联合调控奖励计算，从而生成水库群联合调控奖励数据。

本实施例通过获取某个地区的水库群联合调控信息数据，并利用数学公式得到不同调控的水库群设备进行奖励数据计算，对这些奖励数据进行整合得到水库群联合调控奖励数据，水库群联合调控奖励数据是利用水库下游防洪安全，水库自身防洪安全，水库发电，水库水生态环境这些因素形成一种优化水库群联合调度的方法，利用水库群联合调控奖励数据去对水库群调度模型进行相应的模型改进，使水库群调度模型可以发挥更大的作用，提高了水库群联合调度的效率和准确性，为实现水资源的高效利用和生态保护提供了支持。

在本说明书的一个实施例中，其中，步骤S22中的水库下游防洪安全计算公式、步骤S23中的系统保障水库自身防洪安全计算公式、步骤S24中的系统保障水库发电公式、步骤S25中的系统保障水生态环境公式以及步骤S27中的水库群联合调控奖励函数公式分别如下所示：

水库下游防洪安全计算公式如下：

其中，

为

时刻水库群调度系统保障下游防洪安全所获得的奖励，

为水库调度时间，

为水库群调度系统总防洪控制断面数，

为第

个防洪控制断面的防洪要求流量，

为

时刻第

个防洪控制断面的实时流量；

系统保障水库自身防洪安全计算公式如下：

其中，

为

时刻水库群调度系统保障水库自身防洪安全所获得的奖励，

为水库调度时间，

为水库群调度系统中水库个数，

为第

个水库水位低于正常蓄水位的安全风险系数，

为第

个水库水位高于防洪高水位的安全风险系数，

为第

个水库的正常蓄水位，

为第

个水库的防洪高水位，

为第

个水库在第

时段的实时水位；

系统保障水库发电公式如下：

其中，

为

时刻水库群调度系统保障水库发电所获得的奖励，

为水库调度时间，

为水库群调度系统中水库个数，

为第

个水库的出力系数，

为

个水库在第

时段的机组过流流量，

为第

个水库在第

时段的实时水位，

为第

个水库在第

时段的尾水位，

为水库群调度系统保障水库发电所获得的奖励的异常调整值；

系统保障水生态环境公式如下：

其中，

为

时刻水库群调度系统保障下游水生态环境所获得的奖励，

为水库调度时间，

为水库群调度系统总防洪控制断面数，

为

时刻第

个防洪控制断面的实时流量，

为第

个防洪控制断面维持水生态环境所需流量；

水库群联合调控奖励函数公式如下：

其中，

为水库群调度系统在时段

的总奖励值，

为水库调度时间，

为水库下游防洪安全奖励数据的权重信息，

为系统保障水库自身防洪安全奖励数据的权重信息，

为水系统保障水库发电奖励数据的权重信息，

为系统保障水生态环境奖励数据的权重信息，

为

时刻水库群调度系统保障下游防洪安全所获得的奖励，

为

时刻水库群调度系统保障水库自身防洪安全所获得的奖励，

为

时刻水库群调度系统保障水库发电所获得的奖励，

为

时刻水库群调度系统保障下游水生态环境所获得的奖励。

本实施例为计算水库群调度系统中所获得的各项奖励与水库群调度系统的总奖励，在

时刻水库群调度系统保障下游防洪安全所获得的奖励

中，当

时刻第

个防洪控制断面的实时流量

小于第

个防洪控制断面的防洪要求流量

，则不获得奖励，当

时刻第

个防洪控制断面的实时流量

大于第

个防洪控制断面的防洪要求流量

，则获得奖励；在

时刻水库群调度系统保障水库自身防洪安全所获得的奖励

中，当水库的实时水位高于水库的正常蓄水位并且小于水库的防洪高水位，则不获得奖励，当水库的实时水位低于水库的正常蓄水位或者高于水库的防洪高水位，则获得奖励；在

时刻水库群调度系统保障水库发电所获得的奖励

中，每个水库处理系数

、机组过流流量

以及水库的实时水位

与水库的尾水位

之差，三者之间的得到

，并利用水库群调度系统保障水库发电所获得的奖励的异常调整值

调整水库群系统保障水库发电获得的奖励；在

时刻水库群调度系统保障下游水生态环境所获得的奖励

中，当

时刻第

个防洪控制断面的实时流量大于第

个防洪控制断面维持水生态环境所需流量，则不获得奖励，当

时刻第

个防洪控制断面的实时流量小于第

个防洪控制断面维持水生态环境所需流量，则获得奖励；利用上述中得到各项奖励对应的权重信息

、

、

以及

对所获得的奖励

、

、

以及

进行水库群调度系统奖励调整，最终得到水库群调度系统在时段

的总奖励值

。

在本说明书的一个实施例中，步骤S3具体包括：

步骤S31：对区域水库集雨范围信息数据进行历史特征数据提取处理，从而得到历史区域水库集雨范围特征信息数据；

步骤S32：根据历史区域水库集雨范围特征信息数据通过MADDPG算法构建MADDPG强化学习模型；

步骤S33：利用水库群联合调控奖励对MADDPG强化学习模型进行学习模型优化处理，从而生成水库群智能体模型；

步骤S34：利用水库群智能体模型对水库群调度控制模型进行优化调度强化学习处理，从而生成水库群最优调度方案策略。

本实施例通过区域水库集雨范围信息中的历史特征数据构建MADDPG强化学习模型，MADDPG强化学习模型是通过水位、流量、雨量等关系的影响对水库群调度生成更优的方案策略，在MADDPG随着不同的水库群联合调控奖励生成多种水库群智能体模型，并利用这些水库群智能体模型对相应的水库群调度控制模型利用现代信息技术，如人工智能、强化学习等，进行水库群的联合调度优化，提高水库调度效率和水资源利用，是效益得到最大化，从而生成水库群最优调度方案策略。

在本说明书的一个实施例中，步骤S31中的MADDPG算法包括Critic损失函数构建水库群智能体公式、Actor网络参数梯度下降算法构建水库群智能体公式，Critic损失函数构建水库群智能体公式、Actor网络参数梯度下降算法构建水库群智能体公式分别如下所示：

Critic损失函数构建水库群智能体公式为：

其中，

为各水库群智能体当前所处状态的真实价值评估值，

为各水库群智能体网络的参数，

为水库群智能体个数，

为从样本池中采样的个数，每个样本以元组的形式给出，如第

个样本的形式为：{

，

，

}，

为所有水库群智能体的观测集合，

为所有水库群智能体的动作集合，

为所有水库群智能体的奖励集合，

为第

个样本中各水库群智能体当前所处状态的真实价值评估值，

为各水库群智能体中心化的动作价值函数；

Actor网络参数梯度下降算法构建水库群智能体公式为：

其中，

为各水库群智能体当前所处状态的策略价值评估值，

为水库群智能体的策略参数，

为从样本池中采样的个数，

为水库群智能体的策略函数，

为水库群智能体的策略价值函数。

在本说明书的一个实施例中，步骤S33具体包括：

预设水库群联合调控奖励阈值；

将水库群联合调控奖励数据与水库群联合调控奖励阈值进行阈值比对处理，筛选出面向奖励最大方向的水库群联合调控奖励数据，从而生成奖励最大化水库群联合调控奖励数据；

获取实时区域水库水文数据；

利用区域水库水文数据对最大化水库群联合调控奖励数据进行水库群联合调控奖励优化处理，从而生成优化水库群联合调控奖励数据；

利用优化水库群联合调控奖励数据对MADDPG强化学习模型进行学习模型优化处理，从而生成水库群智能体模型。

本实施例通过设立水库群联合调控奖励阈值并且进行阈值比对处理可以筛选得到最大化的水库群联合调控奖励数据，并且通过水库的水文数据对奖励数据进行优化处理可以更好地适应当前的环境和需求，提高调度控制模型的效率和性能，优化水库群联合调控奖励数据对MADDPG强化学习模型进行学习模型优化处理可以生成更优秀的水库群智能体模型，从而实现更优的水库群联合调控方案。

在本说明书的一个实施例中，其中，步骤S4中的水库群保障程度评估处理包括行下游防洪安全及水生态环境保障程度评估处理、水库自身防洪安全保障程度评估处理以及水库系统发电保障程度评估处理，步骤S4具体包括：

步骤S41：利用下游防洪安全及水生态环境算法对水库群最优调度方案策略进行下游防洪安全及水生态环境保障程度评估处理，从而生成下游防洪安全及水生态环境保障程度；

步骤S42：利用水库自身防洪安全算法对水库群最优调度方案策略进行水库自身防洪安全保障程度评估处理，从而生成水库自身防洪安全保障程度；

步骤S43：利用水库系统发电算法对水库群最优调度方案策略进行水库系统发电保障程度评估处理，从而生成水库系统发电保障程度；

步骤S44：将下游防洪安全及水生态环境保障程度、水库自身防洪安全保障程度、水库系统发电保障程度进行水库群联合保障程度整合，生成水库群保障程度评估信息，从而实现水库联合优化调度方法。

本实施例通过多因素综合考虑和评估，为水库调度提供全面的保障程度信息，有利于决策者做出更加科学的决策，提高了水库调度决策的可靠性和准确性，在满足下游防洪安全、水生态环境保障、水库自身防洪安全和水库系统发电等要求的前提下，实现了水库群联合最优调度，提高了水库群的整体效率和优化程度，此外，通过整合各项保障程度评估信息，可以生成水库群保障程度评估信息，为水库调度提供全面的考虑，通过多因素综合考虑和评估，为水库调度提供全面的保障程度信息，有利于决策者做出更加科学的决策，提高了水库调度决策的可靠性和准确性。

在本说明书的一个实施例中，步骤S41中的下游防洪安全及水生态环境算法、步骤S42中的水库自身防洪安全算法、步骤S43中的水库系统发电算法分别如下所示：

下游防洪安全及水生态环境算法如下：

其中，

为下游防洪安全及水生态环境保障程度，

为水库群调度系统总防洪控制断面数，

为水库群调度系统中调度总时长，

为水库调度时间，

为

时刻中随防洪控制断改变的下游安全防洪的权重信息，

为

时刻第

个防洪控制断面的实时流量，

为第

个防洪控制断面维持水生态环境所需流量，

为第

个防洪控制断面的防洪要求流量；

水库自身防洪安全算法如下：

其中，

为水库自身防洪安全保障程度，

为水库群调度系统中水库个数，

为水库群调度系统中调度总时长，

为水库调度时间，

为

时刻中随水库蓄水量改变的水库蓄水的权重信息，

为第

个水库在第

时段的实时水位，

为第

个水库的正常蓄水位，

为第

个水库的防洪高水位；

水库系统发电算法如下：

其中，

为水库系统发电保障程度，

为水库群调度系统中调度总时长，

为水库调度时间，

为

时刻水库群调度系统保障水库发电所获得的奖励。

本实施例讲述水库调度系统相关的各项保障程度，在下游防洪安全及水生态环境保障程度

中，需要考虑

时刻第

个防洪控制断面的实时流量

是否在第

个防洪控制断面的防洪要求流量

与第

个防洪控制断面维持水生态环境所需流量

区间范围，如果不在区间范围，则不具备任何下游防洪安全及水生态环境保障程度，如果在区间范围，则下游防洪安全及水生态环境保障程度与水库群调度系统总防洪控制断面数

以及水库群调度系统中调度总时长

为反比关系；在水库自身防洪安全保障程度

中，需要考虑第

个水库在第

时段的实时水位

是否在第

个水库的防洪高水位

与第

个水库的正常蓄水位

区间范围，如果不在区间范围，则不具备任何水库自身防洪安全保障程度，如果在区间范围，则库自身防洪安全保障程度与水库群调度系统中水库个数

以及水库群调度系统中调度总时长

为反比关系；水库系统发电保障程度

与

时刻水库群调度系统保障水库发电所获得的奖励

为正比关系，与水库群调度系统中调度总时长

为反比关系。

本申请实施例中，通过获取区域水库集雨范围信息数据来构建水库群调度控制模型，其中水库群调度控制模型包括区域总式水文模型、库区调洪演算模型、库区下游河道一维水动力模型以及区间入流分布式水文模型，各模型互相调配，帮助调度水库群中的各水库，再利用获取的水库群联合调控信息数据进行水库群联动调控目标处理，生成的水库群联合调控目标数据为水库群调控要优化需要达到的目标，利用水库群联合调控奖励函数对水库群联合调控目标数据进行水库群联合调控奖励计算，生成水库群联合调控奖励数据，利用水库群联合调控奖励数据去优化水库群调度控制模型，该优化为水库群调度控制模型需要经过水库群联合调控奖励数据的要求去调度，从而得到水库群最优调度方案策略，并对水库群最有策略进行水库群保障程度评估处理，评估水库群最有调度方案策略是否满足各项水库群的安全保障，从而实现水库联合优化调度任务。综上，基于MADDPG强化学习的水库群联合优化调度方法通常具有控制变量高维、多目标调控的特点，并且能有效解决目前水库群实时调度所面临的调度效果和计算效率无法兼顾的难题，实现水库群的多目标联合优化调度，对其进行发展是十分必要的。

附图说明

图1为本发明一种基于MADDPG强化学习的水库群联合优化调度方法的步骤流程示意图；

图2为本发明的利用MADDPG强化学习智能体得到最优调度策略去指导水库群调控操作方法示意图；

图3为a地、b地以及c地三大库的集总式水文模型率定过程示意图；

图4为图1中步骤S2的详细实施步骤流程示意图；

图5为图1中步骤S3的详细实施步骤流程示意图；

图6为基于MADPG强化学习模型优化调度控制模型示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于MADDPG强化学习的水库群联合优化调度方法。所述基于MADDPG强化学习的水库群联合优化调度方法执行主体包括但不限于搭载该系统的：机械设备、云服务器、网络传输设备等可看作本申请的通用计算节点，执行的区域水库包括但不限于：a地、b地以及c地。

本发明提供一种基于MADDPG强化学习的水库群联合优化调度方法，包括以下步骤：

本发明实施例中，参考图1所述，为本发明一种基于MADDPG强化学习的水库群联合优化调度方法的步骤流程示意图，在本实例中，所述基于MADDPG强化学习的水库群联合优化调度方法的步骤包括：

本发明实施例中，利用GIS（地理信息系统）技术获取区域水库集雨范围信息数据，包括水库的地理位置、蓄水量、调度规划、水文数据，水库集雨区域、集雨面积、集雨特征等，基于水文数据和集雨范围信息数据，构建水库群调度控制模型，建立相关的数学模型和算法，包括线性规划、动态规划、遗传算法、模拟退火等，利用该模型对水库群进行调度规划，以实现下游防洪、水库蓄水、生态环境保护、水力发电等目标的平衡。

本发明实施例中，收集水库群中各个水库的水位、流量、发电量等相关数据，并将其整合为一份数据集，根据水库群各设备的物理特征与收集到的数据集，计算出水库群联合调控的目标数据，使用水库群联合调控奖励函数对水库群联合调控目标数据进行奖励计算，以评估水库群联合调控的效果。例如，对于防洪目标，可以设置一个奖励函数，对于超出防洪容量的水库会受到负面奖励，而对于正常运营的水库会获得正面奖励，将生成的水库群联合调控奖励数据反馈到水库群联合调控系统中，作为评估水库群联合调控效果的指标，为后续水库群联合优化调度提供依据。

本发明实施例中，根据MADDPG算法构建MADDPG强化学习模型，并且利用上述步骤得到的水库群联合调控奖励数据对MADDPG强化学习模型进行学习模型优化处理，基于水库群联合调控奖励数据，对MADDPG强化学习模型进行训练，构建多个优化后的水库群智能体模型，每个智能体负责控制一个水库，智能体之间可以相互交互，让智能体通过相互博弈和学习来优化自身策略，利用优化后的水库群智能体模型对水库群调度控制模型进行水库群优化调度强化学习处理，从而生成水库群最优调度方案策略。

本发明实施例中，对上述得到的水库群最有调度方案策略进行水库群保障程度评估，观察得到的水库群最有调度方案策略中各条件是否满足保障策略，从而实现水库联合优化调度任务。

本发明实施例中，参考图2所述，为本发明的利用MADDPG强化学习智能体得到最优调度策略去指导水库群调控操作方法示意图，在本实施例中，如图所示包括：

该图首先通过学习让强化模型具有智慧，利用水库群调度控制模型模拟使得状态

转变为

，即模拟下一个水库群调度控制模型的状态，通过计算从状态

转变为

的区别得到奖励函数，在利用前面的步骤去训练MADDPG强化学习智能体，MADDPG强化学习智能体反馈回给水库群调度控制模型知道水库群新的调度方案

，并且MADDPG强化学习智能体习得的最优调度策略指导水库群调控操作，使得强化学习模型充当控制设施的大脑。

在本说明书的一个实施例中，步骤S1具体包括：

步骤S11：获取区域水库集雨范围信息数据；

本发明实施例中，通过调查研究、现场勘测、卫星遥感等方式收集建模区域1959年、1964年、1979年、2005年等典型年份a地水库站、b地水库站、c地水库站等水文站实测洪水流量过程及降雨数据作为获取的区域水库集雨范围信息数据，根据区域水库集雨范围信息数据，通过集总式水文模型建模方式进行建模，可以使用HEC-HMS、SWMM等软件，得到区域集总式水文模型，通过水库调洪计算瞬态法计算方式进行建模，可以使用HEC-ResSim、HEC-RAS等软件，得到库区调洪演算模型，通过圣维南方程组及Preissmann格式离散计算方式进行建模，可以使用MIKE11、MIKE21等软件，得到库区下游河道一维水动力模型，通过WRF-Hydro分布式水文模型建模方式进行建模，可以使用WRF-Hydro、MIKE SHE等软件，得到区下游区间入流分布式水文模型，收集区域实测雨洪过程信息，可以通过监测站点、卫星遥感等方式获取，利用GA遗传算法对区域实测雨洪过程信息进行雨洪过程预测处理，可以使用MATLAB等软件，得到区域预测雨洪信息，利用区域预测雨洪信息对区域集总式水文模型、库区调洪演算模型、库区下游河道一维水动力模型、区下游区间入流分布式水文模型进行参数自动率定处理，可以使用Pest、Calib、Invers等软件，得到区域总式水文率定信息、库区调洪演算率定信息、库区下游河道一维水动力率定信息以及区下游区间入流分布式水文率定信息，根据区域总式水文率定信息、库区调洪演算率定信息、库区下游河道一维水动力率定信息以及区下游区间入流分布式水文率定信息构建水库群调度控制模型。

本发明实施例中，参考图3所述，为a地、b地以及c地三大库的集总式水文模型率定过程示意图，在本实施例中，如图所示包括：

在a地、b地、c地的水库群调度控制模型中，随着水库的蓄水量的变化，水库群调度控制模型的率定值也随着变化，在图中横坐标表示水库的蓄水量，纵坐标表示水库群调度控制模型的率定值。在a地水库站中，水库的蓄水量为0、20、40、60、80、100、120以及140，水库群调度控制模型的率定值为0.065、0.07、0.075、0.08、0.085以及0.09；在b地水库站中，水库的蓄水量为0、50以及100，水库群调度控制模型的率定值为0.32、0.34以及0.36；在c地水库站中，水库的蓄水量为0、50以及100，水库群调度控制模型的率定值为15、20、25、30以及35。三地的水库的蓄水量与水库群调度控制模型的率定值呈现反比。

水库调洪计算瞬态法计算方式如下：

其中，

为计算时段中的水库平均入库流量，

为计算时段中的下游河道的平均下泄流量，

为计算时段初的水库入库流量，

为计算时段末的水库入库流量，

为计算时段初的下游河道下泄流量，

为计算时段末的下游河道下泄流量，

为计算时段初水库的蓄水量，

为计算时段末水库的蓄水量，

为计算时段初与末的水库之差的蓄水量，

为水库调洪计算时段长；

基于圣维南方程组及Preissmann格式离散计算方式如下：

其中，

为水库群调度系统总防洪控制断面数，

为水库群调度系统中水库个数的数量，

为水库基于构建下游河道所需要的时间，

为计算时段中的水库入库流量，

为下游河道下泄速度，

为下游河道的下泄流量，

为计算时段中的水库入库流量的常数调整项，

为水库防洪控制断的权重信息，

为下游河道的蓄水量，

为下游河道蓄水量造成的压力。

与水库调洪计算时段长

之比

，利用水库群中的时段初、末的入库流量总和

与时段初、末下泄流量之差

、水库个数的数量

、水库基于构建下游河道所需要的时间

、计算时段中的水库入库流量

以及下游河道下泄速度

的关系，得到下游河道的下泄流量

。

步骤S21：获取水库群联合调控信息数据；

作为本发明的一个实例，参考图4所示，为图1中步骤S2的详细实施步骤流程示意图，在本实例中所述内容包括：

步骤S21：获取水库群联合调控信息数据；

本发明实施例中，从水文水资源部门和电力公司获取水库群联合调控信息数据，包括各水库当前的水位、进出水流量、调度计划等。

本发明实施例中，利用设计洪水、安全水位、运行洪水等参数，通过水库下游防洪安全计算公式计算出水库下游防洪安全奖励数据。

本发明实施例中，利用水库的调度计划、水库调度能力等参数，通过系统保障水库自身防洪安全计算公式计算出系统保障水库自身防洪安全奖励数据。

本发明实施例中，利用水库的水位、进出水流量等参数，通过系统保障水库发电公式计算出系统保障水库发电奖励数据。

本发明实施例中，利用水库的水位、进出水流量等参数，通过系统保障水生态环境公式计算出系统保障水生态环境奖励数据。

本发明实施例中，将水库下游防洪安全奖励数据、系统保障水库自身防洪安全奖励数据、系统保障水库发电奖励数据、系统保障水生态环境奖励数据进行整合，并对不同类型的奖励数据进行加权处理，得到水库群联合调控目标数据。

本发明实施例中，将水库群联合调控目标数据代入水库群联合调控奖励函数进行计算，得到水库群联合调控奖励数据，根据奖励数据，优化调整水库群的调度计划，以实现水库群联合优化调度任务。

水库下游防洪安全计算公式如下：

其中，

为

时刻水库群调度系统保障下游防洪安全所获得的奖励，

为水库调度时间，

为水库群调度系统总防洪控制断面数，

为第

个防洪控制断面的防洪要求流量，

为

时刻第

个防洪控制断面的实时流量；

系统保障水库自身防洪安全计算公式如下：

其中，

为

时刻水库群调度系统保障水库自身防洪安全所获得的奖励，

为水库调度时间，

为水库群调度系统中水库个数，

为第

个水库水位低于正常蓄水位的安全风险系数，

为第

个水库水位高于防洪高水位的安全风险系数，

为第

个水库的正常蓄水位，

为第

个水库的防洪高水位，

为第

个水库在第

时段的实时水位；

系统保障水库发电公式如下：

其中，

为

时刻水库群调度系统保障水库发电所获得的奖励，

为水库调度时间，

为水库群调度系统中水库个数，

为第

个水库的出力系数，

为

个水库在第

时段的机组过流流量，

为第

个水库在第

时段的实时水位，

为第

个水库在第

时段的尾水位，

系统保障水生态环境公式如下：

其中，

为

时刻水库群调度系统保障下游水生态环境所获得的奖励，

为水库调度时间，

为水库群调度系统总防洪控制断面数，

为

时刻第

个防洪控制断面的实时流量，

为第

个防洪控制断面维持水生态环境所需流量；

水库群联合调控奖励函数公式如下：

其中，

为水库群调度系统在时段

的总奖励值，

为水库调度时间，

为水库下游防洪安全奖励数据的权重信息，

为系统保障水库自身防洪安全奖励数据的权重信息，

为水系统保障水库发电奖励数据的权重信息，

为系统保障水生态环境奖励数据的权重信息，

为

时刻水库群调度系统保障下游防洪安全所获得的奖励，

为

时刻水库群调度系统保障水库自身防洪安全所获得的奖励，

为

时刻水库群调度系统保障水库发电所获得的奖励，

为

时刻水库群调度系统保障下游水生态环境所获得的奖励。

时刻水库群调度系统保障下游防洪安全所获得的奖励

中，当

时刻第

个防洪控制断面的实时流量

小于第

个防洪控制断面的防洪要求流量

，则不获得奖励，当

时刻第

个防洪控制断面的实时流量

大于第

个防洪控制断面的防洪要求流量

，则获得奖励；在

时刻水库群调度系统保障水库自身防洪安全所获得的奖励

时刻水库群调度系统保障水库发电所获得的奖励

中，每个水库处理系数

、机组过流流量

以及水库的实时水位

与水库的尾水位

之差，三者之间的得到

调整水库群系统保障水库发电获得的奖励；在

时刻水库群调度系统保障下游水生态环境所获得的奖励

中，当

时刻第

个防洪控制断面的实时流量大于第

时刻第

个防洪控制断面的实时流量小于第

、

、

以及

对所获得的奖励

、

、

以及

的总奖励值

。

本发明实施例中，如得到d地、e地、f地、g地以及h地t时刻的防洪要求流量，见表1：

表1

由此可以计算出t时刻水库群调度系统保障下游防洪安全所获得的奖励

；

如得到a地、b地以及c地t时刻水各水库正常蓄水位、防洪高水位、安全风险系数见表2：

表2

由此可计算出t时刻水库群调度系统保障水库自身防洪安全所获得的奖励

。

如得到d地、e地、f地、g地以及h地t时刻的生态流量，见下表3：

表3

由此可计算

时刻水库群调度系统保障下游水生态环境所获得的奖励

。

在本说明书的一个实施例中，步骤S3具体包括：

作为本发明的一个实例，参考图5所示，为图1中步骤S2的详细实施步骤流程示意图，在本实例中所述内容包括：

本发明实施例中，提取上述步骤中区域水库集雨范围信息数据的历史相关的特征信息，如水库的平均入库流量、出库流量、最大水位、最小水位、水库存储量等，这些特征信息可以反映水库的水文变化情况。

本发明实施例中，通过上述步骤得到的数据，利用MADDPG算法构建MADDPG强化学习模型，以此来用于强化水库群调度控制模型；

本发明实施例中，利用水库群联合调控奖励对MADDOG强化学习模型进行优化，选取水库群联合调控奖励最大化对MADDPG学习模型改进，生成多个对应不同奖励与不同调度方案的智能体模型；

本发明实施例中，每个水库群智能体模型对应不同的水库进行优化调度，使水库调度方法得到提高，利用MADDPG强化学习模型其主要思想是每个智能体都有自己的策略网络和值网络，同时还有一个公共的价值网络，用于评估每个智能体的动作效果。通过多智能体的协作学习，可以得到最优的水库群调度方案。

本发明实施例中，参考图6所述，为基于MADPG强化学习模型优化调度控制模型示意图，在本实施例中，如图所示包括：

在调度控制模型中，收集降雨信息、水库集雨区信息以及库区信息，通过这些数据并利用数学算法建立对应的集总式水文模型，一维河道水动力模型，分布式水文模型以及水库调洪模型，通过这些模型共同构建调度控制模型；在MADDPG强化学习模型中，基于智能体1、智能体i以及智能体N的Actor网络1、Actor网络i以及Actor网络N，并且由调度控制模型中的水力状态1、水力状态i以及水力状态N，通过Actor网络与水力状态得到到偏低方案1、调度方案以及调度方案N，多种调度方案搭配得到多种价值评估，如价值评估1、价值评估i以及价值评估N，价值评估在反馈回给智能体实现优化，MADDPG强化学习模型通过中心Critic网络实现。

Critic损失函数构建水库群智能体公式为：

其中，

为各水库群智能体当前所处状态的真实价值评估值，

为各水库群智能体网络的参数，

为水库群智能体个数，

个样本的形式为：{

，

，

}，

为所有水库群智能体的观测集合，

为所有水库群智能体的动作集合，

为所有水库群智能体的奖励集合，

为第

个样本中各水库群智能体当前所处状态的真实价值评估值，

为各水库群智能体中心化的动作价值函数；

Actor网络参数梯度下降算法构建水库群智能体公式为：

其中，

为各水库群智能体当前所处状态的策略价值评估值，

为水库群智能体的策略参数，

为从样本池中采样的个数，

为水库群智能体的策略函数，

为水库群智能体的策略价值函数。

在本说明书的一个实施例中，步骤S33具体包括：

预设水库群联合调控奖励阈值；

获取实时区域水库水文数据；

本发明实施例中，预设一个用于比对水库群联合调控奖励数据的水库群联合调控奖励阈值，通过水库群联合调控奖励数据与水库群联合调控奖励阈值进行阈值比对处理，可以筛选出最大化的水库群联合调控奖励数据，获取最新的区域水库水文数据，通过实时水库群水文数据与多个最大化的水库群联合调控奖励数据对MADDPG强化学习模型生成国歌水库群智能体模型。

本发明实施例中，针对步骤S41、S42、S43生成的下游防洪安全及水生态环境保障程度、水库自身防洪安全保障程度、水库系统发电保障程度数据，设置相应的权重系数，用于整合水库群保障程度评估信息。例如，可以设置下游防洪安全及水生态环境保障程度的权重系数为0.4，水库自身防洪安全保障程度的权重系数为0.3，水库系统发电保障程度的权重系数为0.3；根据权重系数对生成的下游防洪安全及水生态环境保障程度、水库自身防洪安全保障程度、水库系统发电保障程度数据进行加权平均，得到水库群保障程度评估信息。例如，可以按照以下公式计算水库群保障程度评估信息：

水库群保障程度评估信息= 0.4 * 下游防洪安全及水生态环境保障程度+ 0.3 *水库自身防洪安全保障程度+ 0.3 * 水库系统发电保障程度。

将水库群保障程度评估信息作为评价指标，用于评估水库群最优调度方案策略的保障程度，根据评估结果，可以对水库群最优调度方案策略进行优化和改进，以进一步提高水库群的保障程度。

下游防洪安全及水生态环境算法如下：

其中，

为下游防洪安全及水生态环境保障程度，

为水库群调度系统总防洪控制断面数，

为水库群调度系统中调度总时长，

为水库调度时间，

为

时刻中随防洪控制断改变的下游安全防洪的权重信息，

为

时刻第

个防洪控制断面的实时流量，

为第

个防洪控制断面维持水生态环境所需流量，

为第

个防洪控制断面的防洪要求流量；

水库自身防洪安全算法如下：

其中，

为水库自身防洪安全保障程度，

为水库群调度系统中水库个数，

为水库群调度系统中调度总时长，

为水库调度时间，

为

时刻中随水库蓄水量改变的水库蓄水的权重信息，

为第

个水库在第

时段的实时水位，

为第

个水库的正常蓄水位，

为第

个水库的防洪高水位；

水库系统发电算法如下：

其中，

为水库系统发电保障程度，

为水库群调度系统中调度总时长，

为水库调度时间，

为

时刻水库群调度系统保障水库发电所获得的奖励。

中，需要考虑

时刻第

个防洪控制断面的实时流量

是否在第

个防洪控制断面的防洪要求流量

与第

个防洪控制断面维持水生态环境所需流量

以及水库群调度系统中调度总时长

为反比关系；在水库自身防洪安全保障程度

中，需要考虑第

个水库在第

时段的实时水位

是否在第

个水库的防洪高水位

与第

个水库的正常蓄水位

以及水库群调度系统中调度总时长

为反比关系；水库系统发电保障程度

与

时刻水库群调度系统保障水库发电所获得的奖励

为正比关系，与水库群调度系统中调度总时长

为反比关系。

本实施通过获取区域水库集雨范围信息数据来构建水库群调度控制模型，其中水库群调度控制模型包括区域总式水文模型、库区调洪演算模型、库区下游河道一维水动力模型以及区间入流分布式水文模型，各模型互相调配，帮助调度水库群中的各水库，再利用获取的水库群联合调控信息数据进行水库群联动调控目标处理，生成的水库群联合调控目标数据为水库群调控要优化需要达到的目标，利用水库群联合调控奖励函数对水库群联合调控目标数据进行水库群联合调控奖励计算，生成水库群联合调控奖励数据，利用水库群联合调控奖励数据去优化水库群调度控制模型，该优化为水库群调度控制模型需要经过水库群联合调控奖励数据的要求去调度，从而得到水库群最优调度方案策略，并对水库群最有策略进行水库群保障程度评估处理，评估水库群最有调度方案策略是否满足各项水库群的安全保障，从而实现水库联合优化调度任务。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，步骤S1具体包括：

步骤S11：获取区域水库集雨范围信息数据；

3.根据权利要求2所述的基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，步骤S13中的水库调洪计算瞬态法计算方式与步骤S14中的圣维南方程组及Preissmann格式离散计算方式分别如下所示：

水库调洪计算瞬态法计算方式如下：

其中，

为计算时段中的水库平均入库流量，

为计算时段中的下游河道的平均下泄流量，

为计算时段初的水库入库流量，

为计算时段末的水库入库流量，

为计算时段初的下游河道下泄流量，

为计算时段末的下游河道下泄流量，

为计算时段初水库的蓄水量，

为计算时段末水库的蓄水量，

为计算时段初与末的水库之差的蓄水量，

为水库调洪计算时段长；

基于圣维南方程组及Preissmann格式离散计算方式如下：

其中，

为水库群调度系统总防洪控制断面数，

为水库群调度系统中水库个数，

为水库基于构建下游河道所需要的时间，

为计算时段中的水库入库流量，

为下游河道下泄速度，

为下游河道的下泄流量，

为计算时段中的水库入库流量的常数调整项，

为水库防洪控制断的权重信息，

为下游河道的蓄水量，

为下游河道蓄水量造成的压力。

4.根据权利要求2所述的基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，其中，步骤S2中的水库群设备联动调控目标处理包括水库下游防洪安全奖励计算、系统保证自身防洪安全奖励计算、系统保障水库发电奖励计算以及系统保障水生态环境奖励计算，步骤S2具体包括：

步骤S21：获取水库群联合调控信息数据；

5.根据权利要求4所述的基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，其中，步骤S22中的水库下游防洪安全计算公式、步骤S23中的系统保障水库自身防洪安全计算公式、步骤S24中的系统保障水库发电公式、步骤S25中的系统保障水生态环境公式以及步骤S27中的水库群联合调控奖励函数公式分别如下所示：

水库下游防洪安全计算公式如下：

其中，

为

时刻水库群调度系统保障下游防洪安全所获得的奖励，

为水库调度时间，

为水库群调度系统总防洪控制断面数，

为第

个防洪控制断面的防洪要求流量，

为

时刻第

个防洪控制断面的实时流量；

系统保障水库自身防洪安全计算公式如下：

其中，

为

时刻水库群调度系统保障水库自身防洪安全所获得的奖励，

为水库调度时间，

为水库群调度系统中水库个数，

为第

个水库水位低于正常蓄水位的安全风险系数，

为第

个水库水位高于防洪高水位的安全风险系数，

为第

个水库的正常蓄水位，

为第

个水库的防洪高水位，

为第

个水库在第

时段的实时水位；

系统保障水库发电公式如下：

其中，

为

时刻水库群调度系统保障水库发电所获得的奖励，

为水库调度时间，

为水库群调度系统中水库个数，

为第

个水库的出力系数，

为

个水库在第

时段的机组过流流量，

为第

个水库在第

时段的实时水位，

为第

个水库在第

时段的尾水位，

系统保障水生态环境公式如下：

其中，

为

时刻水库群调度系统保障下游水生态环境所获得的奖励，

为水库调度时间，

为水库群调度系统总防洪控制断面数，

为

时刻第

个防洪控制断面的实时流量，

为第

个防洪控制断面维持水生态环境所需流量；

水库群联合调控奖励函数公式如下：

其中，

为水库群调度系统在时段

的总奖励值，

为水库调度时间，

为水库下游防洪安全奖励数据的权重信息，

为系统保障水库自身防洪安全奖励数据的权重信息，

为水系统保障水库发电奖励数据的权重信息，

为系统保障水生态环境奖励数据的权重信息，

为

时刻水库群调度系统保障下游防洪安全所获得的奖励，

为

时刻水库群调度系统保障水库自身防洪安全所获得的奖励，

为

时刻水库群调度系统保障水库发电所获得的奖励，

为

时刻水库群调度系统保障下游水生态环境所获得的奖励。

6.根据权利要求4所述的基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，步骤S3具体包括：

7.根据权利要求6所述的基于MADDPG强化学习的水库群联合优化调度方法，其特征在于，步骤S31中的MADDPG算法包括Critic损失函数构建水库群智能体公式、Actor网络参数梯度下降算法构建水库群智能体公式，Critic损失函数构建水库群智能体公式、Actor网络参数梯度下降算法构建水库群智能体公式分别如下所示：

Critic损失函数构建水库群智能体公式为：