CN116187208B

CN116187208B - 基于约束强化学习的流域水量水质联合调度方法

Info

Publication number: CN116187208B
Application number: CN202310464435.0A
Authority: CN
Inventors: 赵鑫; 雒翠; 陈新; 钟振亮; 邹国胜; 颜寅杰; 沈双宇; 罗锋; 王迪; 曾振雄
Original assignee: Shenzhen Ghy Environment Water Conservancy Co ltd
Current assignee: Shenzhen Ghy Environment Water Conservancy Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-08-01
Anticipated expiration: 2043-04-27
Also published as: CN116187208A

Abstract

本发明公开了一种基于约束强化学习的流域水量水质联合调度方法，涉及智能环境水务技术领域；该方法包括以下的步骤：S10、水质耦合仿真模拟平台的构建，对水质耦合仿真模拟平台中的状态空间、动作空间、每时刻回报以及每时刻各类代价进行设计，并基于水动力学仿真平台，构建水质耦合仿真模拟平台；S20、策略网络及评估网络的构建，采用神经网络表示调度策略；所述评估网络包括回报评估网络和多个针对不同代价指标的代价评估网络；S30、交互式调度策略的优化，策略网络的优化目标是令调度策略满足代价约束的条件下最大化累计回报；本发明的有益效果是：该方法改善了现有水量水质调度方法无法有效应对复杂极端情况下的问题。

Description

基于约束强化学习的流域水量水质联合调度方法

技术领域

本发明涉及智能环境水务技术领域，更具体的说，本发明涉及一种基于约束强化学习的流域水量水质联合调度方法。

背景技术

在智慧环境水务领域的工作中，为了应对极端降雨天气情况，充分发挥已有水网的承载能力，实现流域内的防洪调峰，通常需要对流域内的流量实施精准调度。此外，为了确保考核断面水质达标，也需要对流域内的水量水质进行精准调度。

在部分地区，流域内水位-流量关系复杂多变，为了同时实现水质改善和防洪排涝的目标，通常需同步考虑河流水系的分布特征、区域降雨特性、防洪、治涝工程之间的联动性、制约性、独立性，再根据专家经验设计调度规则，实现流域内水量的动态调度。但在设计此类基于规则的调度方法时需要依赖大量人力，同时受限于规则的表示能力，当遭遇极端、复杂的天气环境时，基于规则的调度方法通常无法兼顾水质改善和防洪排涝等多项指标。

因此，针对这一问题，迫切需要研发一种能适用于极端、复杂环境的高效水量水质联合调度方法，以满足实际需要。

发明内容

为了克服现有技术的不足，本发明提供一种基于约束强化学习的流域水量水质联合调度方法，该方法改善了现有水量水质调度方法无法有效应对复杂极端情况下的问题。

本发明解决其技术问题所采用的技术方案是：一种基于约束强化学习的流域水量水质联合调度方法，其改进之处在于，该方法包括以下的步骤：

S10、水质耦合仿真模拟平台的构建，对水质耦合仿真模拟平台中的状态空间、动作空间、每时刻回报以及每时刻各类代价进行设计，并基于水动力学仿真平台，构建水质耦合仿真模拟平台；

S20、策略网络及评估网络的构建，采用神经网络表示调度策略，其策略网络的输入为当前时刻的系统状态，策略网络中的状态向量的组成与步骤S10中状态空间的设计相同，策略网络的输出为当前时刻应执行的动作，策略网络的动作向量的组成与步骤S10中动作空间的设计相同；

所述评估网络包括回报评估网络和多个针对不同代价指标的代价评估网络，回报评估网络的输入为系统当前的状态，输出为对当前调度策略所得的累计回报的估计；代价评估网络的输入为系统当前的状态，输出为对当前调度策略所得的累计代价的估计；

S30、交互式调度策略的优化，策略网络的优化目标是令调度策略满足代价约束的条件下最大化累计回报。

进一步的，步骤S10中，所述的状态空间包括水库、生态库、泵站、河道以及水闸中水量的各项参数，其内容如下：

水库：雨量、水位、当前库容、渗漏量、进出库流量、各类污染物浓度；

生态库：雨量、水位、进出库水量、截洪沟流量、各类污染物浓度；

泵站：雨量、内水位、承泄区水位、机组运行状态；

河道：雨量、水位、流量、河道断面的各类污染物浓度；

水闸：雨量、水闸上游水位、水闸下游水位。

进一步的，步骤S10中，所述动作空间包括水库、生态库、泵站以及水闸中闸门的各项参数，其内容如下：

水库：各类水闸的开启度，包括挡潮闸、分洪闸、节制闸、截污闸、景观闸；

生态库：分水闸、截流箱控制闸、生态库控制闸的启闭；

泵站：泵站中排水闸的启闭、泵站各个机组的抽排流量以及泵房应急处置措施，其中泵房应急处置措施包括堆积沙袋拦水高度；

水闸：水闸的启闭。

进一步的，步骤S10中，每时刻回报记为，由不同区域不同设施的该时刻回报组成，包括：

水库内的回报同水库的水位与水库汛限水位的差值相关，当水库水位小于汛限水位时回报高，反之回报低，其中 i 表示第 i 个水库；

生态库的回报同生态库内湿地水位以及各类污染物含量相关，污染物类型k的含量越低，其对应的回报越高；对湿度水位进行控制，其对应回报设计为与预期水位的差值的绝对值，则生态库的回报为这两项子回报的和：；

泵站的回报与内水位与设计水位的差值、以及有关泵站机组运行功率相关；若内水位大于设计水位则对应的回报为负值，用于对当前状态进行惩罚，反之回报为0；若泵站内机组运行功率越高则对应的回报越低，此回报用于尽量减少电量消耗，实现能量利用的最优化；泵站内的总回报为上述回报之和：；

河道断面回报与河道断面的水位以及该断面各污染物指标相关；若河道水位小于设计水位则对应的回报为正值，反之该回报为负值；该河道断面的污染物类型k的含量越低，则对应的回报则越高；因此，河道断面的总回报为上述回报之和：；

环境中t时刻的回报为上述所有回报之和，即：

。

进一步的，步骤S10中，每时刻各类代价的设计时的约束条件包括：

水位不超过设施的溢出水位；

各断面的各类污染物浓度不超过设计阈值。

进一步的，步骤S10中，每时刻各类代价的设计包括以下步骤：

河道断面以及生态库污染物浓度代价记为，其中k表示第k种污染物，i表示第i个设施；若污染物浓度越大，则代价越高；

河道以及水库断面的水位代价记为，其中i表示第i个设施；若水位越高，则代价越高；

代价的约束表示为：

；

其中表示第k种污染物指标的设置阈值，表示第i个设施的水位设置阈值，N 表示考虑总共 N 个时刻的各项指标；m 表示总共 m 种污染物类别；n 表示总共 n 个设施；t 表示第 t 个时刻；上述公式中表示，在某个河道断面上，所有时刻水位平均值要小于设计阈值，或所有时刻该断面某种污染物浓度的平均值小于设计阈值。

进一步的，所述步骤S10中，还包括对水质耦合仿真模拟平台中的暴雨设计的步骤：暴雨设计原则根据当地100年一遇的极端降水标准进行设计。

进一步的，所述步骤S30中，调度策略的网络优化目标由以下公式描述：

；

其中，t 表示第 t 个时刻；N 表示考虑总共 N 个时刻的各项指标；其中表示第k种污染物指标的设置阈值，表示第i个设施的水位设置阈值；表示在策略下的期望值；表示 t 时刻，在河道断面或第i个设施上，第 k 种污染物的浓度；表示调度策略网络；优化策略网络的步骤如下：

S301、流域仿真环境输出一个初始状态，令t=0，初始化数据库D；

S302、调度策略会根据t时刻，系统状态执行动作；

S303、流域仿真环境根据调度策略的动作，将系统状态转移到下一个时刻的状态，同时给出当前这一时刻的回报，以及各类代价，；

S304、对这一步的交互数据进行储存，数据元组的格式为，将该数据存入数据库D；

S305、令，若距离上一次策略网络更新超过了P步，利用带约束的强化学习方法对调度策略进行优化，同时优化回报评估网络和代价评估网络，随后清空数据库D，当更新后策略收敛了则迭代结束，否则返回至步骤S302。

进一步的，所述的步骤S30中，还包括采用梯度下降法对于回报评估网络和代价评估网络优化的步骤，采用的损失函数如下：

；

其中表示评估网络的权重，表示各个评估网络，s表示评估网络的输入。

进一步的，所述步骤S305中，带约束的强化学习方法包括以下内容：

采用对偶乘子法处理带约束的强化学习问题，其目标函数如下：

；

其中，和分别为各个约束项的乘子系数，表示调度策略，t表示时间，表示惩罚系数，表示t时刻调度策略从仿真环境中得到的回报值，m表示具有m个不同的代价约束，表示t时刻调度策略从仿真环境中得到的不同的代价值，表示不同的代价值阈值，n表示总共 n 个河道断面或设施；

带约束的强化学习方法包括步骤：

S3051、利用策略梯度方法对目标函数进行优化，更新调度策略网络；

S3052、更新对偶乘子，更新方式如下公式：

；

S3053、若调度策略网络未收敛则返回至步骤S3051，否则结束。

本发明的有益效果是：本发明提供一种基于约束强化学习的流域水量水质联合调度方法，该方法改善了现有水量水质调度方法无法有效应对复杂极端情况下的问题，使得调度策略实现对流域的流量的调度以及水域的水质保障。

附图说明

图1为本发明中水质耦合仿真模拟平台的构建示意图。

图2为本发明中优化策略网络的步骤示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，专利中涉及到的所有联接/连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少联接辅件，来组成更优的联接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

本发明提供了一种基于约束强化学习的流域水量水质联合调度方法，为了实现交互式的调度算法优化，建立了一个对现有水域水动力学模拟的仿真环境。这个仿真环境包含几大模块：状态空间、动作空间、回报函数、多个代价函数。这个仿真环境也在本文中称为一个系统。

状态空间是一个数学上的概念，正如线性空间类似。状态空间由无穷个向量组成，每个向量表示一种系统在某个时刻的状态；全体向量组成的空间称为状态空间。

本实施例中的状态空间表示该仿真环境中所有可能的状态，此处的状态表示某个时刻仿真环境中各个部件的状态，例如，水域中，每个时刻某些地点水流速度、温度、天气情况、污染物含量等信息组合起来构成一个向量，用这个向量来表示这个流域的状态。

动作空间的定义同状态空间，只不过其中的向量表示智能体在某个时刻所执行的动作。例如，一个水域中，我们需要对流量进行控制；某个阀门开启多大是一个动作。然而，这个水域中包含多个待控制的设备。因此，对不同阀门进行的操作可看成一个向量，就构成了一个动作向量。

调度算法会根据实时的上述系统状态进行一些智能决策，保证系统能稳定运行。即，水域中各个断面的水位不超过阈值，也不低于某个阈值。以及各个断面的污染物浓度低于某个阈值。而动作空间就是调度策略能够执行的所有可能的动作；例如，各个阀门的开合大小。这可以用一个向量来表示。

回报设计以及代价设计：在仿真环境中，在某个状态下，调度策略执行了某个动作后，仿真环境中会对应的输出一个回报值和多个代价值，用于表示这一动作的好坏。调度策略会根据每次动作对应的回报值和代价值来更新策略，从而使得调度策略能够得到的回报变高。因此，如何设计仿真环境中的回报函数以及代价函数也是至关重要的，回报和代价都可以表示为一个函数，其输入是一个状态和一个动作，其输出是一个数值。

参照图1、图2所示，本发明提供了一种基于约束强化学习的流域水量水质联合调度方法，该方法包括以下的步骤：

本实施例中，步骤S10中，所述的状态空间包括水库、生态库、泵站、河道以及水闸中水量的各项参数，其内容如下：

泵站：雨量、内水位、承泄区水位、机组运行状态；

河道：雨量、水位、流量、河道断面的各类污染物浓度；

水闸：雨量、水闸上游水位、水闸下游水位。

步骤S10中，所述动作空间包括水库、生态库、泵站以及水闸中闸门的各项参数，其内容如下：

生态库：分水闸、截流箱控制闸、生态库控制闸的启闭；

水闸：水闸的启闭。

在一个具体的实施例中，基于某地区的第一水库片区，其水质耦合仿真模拟平台的构建步骤如下：

水库片区水域面积约为 44 km²，共有流域面积大于 1 km²的河流10条，2座水库，1座生态库，1座排涝泵站，3处河道水位监测站。流域内10条河道分别为：A河、B河、C河、D河、E河、F河、G河、H河、I河、J河。其河道断面的警戒水位、保证水位以及提顶高程水位等信息如表 1所示：

根据保证水位，在构建流域仿真模型时，这些河道断面上的设施水位阈值即可直接确定。

该流域内已建成的水库包括第一水库以及第二水库，两座水库的基本参数如表 2所示：

根据表2的信息，可得水库的水位高度代价阈值可分别设定为 88.55米和38.75米。此外，其他参数可用于在仿真模型中对水库的水动力学进行建模。

该流域内包含一座生态库，生态库系统内包含四座闸门，分别为为A河口分水闸、截流箱涵控制闸、生态库控制闸及K河截流箱涵控制闸。因此，整个调度系统中的动作空间包含这四个闸门的启闭控制。该生态库中包含一座湿地，该湿地的控制水位设定为 32.70米，作为生态库水位回报和代价计算基准。

第一水库流域范围内仅有一座排涝泵站，A路与A高速处桥涵排涝泵站，设计排涝流量为 0.6m³/s，水泵 2 台，总装机功率为90kw，排水管径为DN600，主要抽排高速桥涵管道及周边坡面雨水，涝水排向J河。因此，该仿真环境中的动作空间包含对这个泵站的控制。

该水域中防洪调度分区内河口有两座水闸，其中 1 座为截污闸，1 座为泄洪闸，基本情况如表 3 所示：

因此，该仿真环境中的动作空间包含对这两个水闸的启闭。

根据上述各个水务设施的基本参数，在水动力仿真软件中构建该流域的水动力仿真环境，并设定仿真环境中的回报和代价计算方程，使得调度算法与仿真环境交互时每一步都能获得回报以及对应的代价。

在上述的实施例中，水质耦合仿真模拟平台中的状态空间、动作空间、每时刻回报以及每时刻各类代价的计算方式如下：

步骤S10中，每时刻回报记为，由不同区域不同设施的该时刻回报组成，包括：

河道断面回报与河道断面的水位以及该断面各污染物指标相关；若河道水位小于设计水位则对应的回报为正值，反之该回报为负值；该河道断面的污染物类型k的含量越低，则对应的回报则越高；因此，河道断面的总回报为上述回报之和：

；

环境中 t时刻的回报为上述所有回报之和，即：

。

由于回报的设计是所有上述指标的和，在对调度策略进行优化时，会对不同的指标进行权衡。但污染物含量这类指标必须小于一定的设计阈值，仅仅从最大化累计回报的设计上无法满足此类硬性的约束。因此，需要额外设计一些代价，用于保证最终通过训练得到的调度策略能够这类硬约束。在本实施例中，步骤S10中，每时刻各类代价的设计时的约束条件包括：其一、水位不超过设施的溢出水位；其二、各断面的各类污染物浓度不超过设计阈值。

步骤S10中，每时刻各类代价的设计包括以下步骤：

代价的约束表示为：

；

其中表示第k种污染物指标的设置阈值，表示第i个设施的水位设置阈值，N表示考虑总共 N 个时刻的各项指标；m 表示总共 m 种污染物类别；n 表示总共 n 个设施；t 表示第 t 个时刻；上述公式中表示，在某个河道断面上，所有时刻水位平均值要小于设计阈值，或所有时刻该断面某种污染物浓度的平均值小于设计阈值。

另外，结合图1所示，所述步骤S10中，还包括对水质耦合仿真模拟平台中的暴雨设计的步骤：暴雨设计原则根据当地100年一遇的极端降水标准进行设计。此外，还需对水库设施各项参数、河道参数、泵站设施参数等进行采集。基于水动力学仿真平台，配合上述状态空间、动作空间、回报以及代价的设定，即可构建一个适用于强化学习算法的水质耦合仿真模拟平台。

S20、策略网络及评估网络的构建，采用神经网络表示调度策略，其策略网络的输入为当前时刻的系统状态，策略网络中的状态向量的组成与步骤S10中状态空间的设计相同，策略网络的输出为当前时刻应执行的动作，策略网络的动作向量的组成与步骤S10中动作空间的设计相同；因此策略网络中的状态向量的组成和策略网络的动作向量的组成在本实施例中不再详细说明；

系统状态的含义是，当前水域中各个水域的水流速度、温度、天气情况、污染物含量等信息。我们需要对根据系统的状态，也就是水域中当前各个地方的水流量，温度，天气情况来判断需要执行什么操作（进行决策）。这些温度、天气这些信息就是系统当前的状态。

所述评估网络包括回报评估网络和多个针对不同代价指标的代价评估网络，其目的是为了减小对累计回报和累计代价的采样方差，回报评估网络的输入为系统当前的状态，输出为对当前调度策略所得的累计回报的估计；代价评估网络的输入为系统当前的状态，输出为对当前调度策略所得的累计代价的估计；

所述步骤S30中，调度策略的网络优化目标由以下公式描述：

；

其中，t 表示第 t 个时刻；N 表示考虑总共 N 个时刻的各项指标；其中表示第k种污染物指标的设置阈值，表示第i个设施的水位设置阈值；表示在策略下的期望值；表示 t 时刻，在河道断面或第i个设施上，第 k 种污染物的浓度；表示调度策略网络；该表达式意味着，对于一个调度策略，将其在仿真环境中进行多次实验，得到多条状态变化轨迹，对每一条轨迹都可以计算其累计回报以及各类累计代价，取多条轨迹累计回报、各类累计代价的平均值即可。根据上式，优化调度策略时期望该策略的累计回报变高且同时能满足各类代价约束。

为了优化调度策略网络，首先随机初始化调度策略网络的权重，随后令策略与环境进行交互，采集交互数据，同时利用所采集的数据进行调度策略网络的权重更新。结合图2所示，优化策略网络的步骤如下：

S302、调度策略会根据t时刻，系统状态执行动作；

S304、对这一步的交互数据进行储存，数据元组的格式为,将该数据存入数据库D；

所述的步骤S30中，还包括采用梯度下降法对于回报评估网络和代价评估网络优化的步骤，采用的损失函数如下：

；

在本实施例中，所述步骤S305中，带约束的强化学习方法包括以下内容：

；

其中，和分别为各个约束项的乘子系数，表示调度策略，t表示时间，表示惩罚系数，表示t时刻调度策略从仿真环境中得到的回报值，m表示具有m个不同的代价约束，表示t时刻调度策略从仿真环境中得到的不同的代价值，表示不同的代价值阈值，n表示总共 n 个河道断面或设施。

带约束的强化学习方法包括步骤：

S3052、更新对偶乘子，更新方式如下公式：

；

S3053、若调度策略网络未收敛则返回至步骤S3051，否则结束。

至此，即可得到满足约束条件下且能最大化累计回报的调度策略。

本发明涉及一种面向环境水务领域的流域水质水量联合调度方法。其主要目标在于通过对水库、水闸、泵站的精准调度，以提高流域内的防洪排涝及水质保障的能力。

本发明首先搭建涵盖水库、河道、堤防、泵站、水闸、管渠等对象的流域水动力学水质耦合仿真模拟平台，依据这些对象在真实场景下状况配置特征及运行调运参数，通过实际监测数据对模型进行率定和验证，达到精度要求后，投入业务化运行；而后，为仿真模型中的每一时刻设计回报函数和代价函数，回报函数的设计准则为河道内水位不超过警戒水位则回报高，反之回报低；代价函数的设计准则为当各个监测断面的水污染指标低于某个阈值时代价低，否则这一时刻代价高。

在这种设定下，调度算法的目标为最大化累计回报的同时，需要求累计代价小于已设定的阈值。为了同时最大化累计回报以及满足代价约束条件，本发明考虑对约束违背的情况进行惩罚，利用约束项构造惩罚函数加入回报中，并利用强化学习方法对总的目标函数进行优化。最终，所得到的策略网络能够有效的对流域内中各类设施进行精准调度，实现防洪排涝、水质保障等功能。

本发明具有以下的特点：其一，在普通强化学习算法的基础上引入了约束项，使得该方法能够有效的处理流域调度中存在的污染物超标的问题；其二，利用了原始优化问题的对偶问题，在对偶问题中找到了较优的惩罚系数，随后将该惩罚系数用于原始优化问题的优化，从而能快速的进行带约束优化问题的寻优；其三，考虑到强化学习方法是基于采样获取数据并进行优化的算法，其数据利用率低、训练困难，本发明额外构建了回报评估网络以及代价评估网络，充分利用已有的数据集，有效的提高了样本的利用率，避免了重复的采样；解决了针对环境水务领域的流域调度中存在不精准、不可靠的问题。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于约束强化学习的流域水量水质联合调度方法，其特征在于，该方法包括以下的步骤：

步骤S10中，所述的状态空间包括水库、生态库、泵站、河道以及水闸中水量的各项参数，其内容如下：

泵站：雨量、内水位、承泄区水位、机组运行状态；

河道：雨量、水位、流量、河道断面的各类污染物浓度；

水闸：雨量、水闸上游水位、水闸下游水位；

生态库：分水闸、截流箱控制闸、生态库控制闸的启闭；

水闸：水闸的启闭；

环境中t时刻的回报为上述所有回报之和，即：

；

2.根据权利要求1所述的基于约束强化学习的流域水量水质联合调度方法，其特征在于，步骤S10中，每时刻各类代价的设计时的约束条件包括：

水位不超过设施的溢出水位；

各断面的各类污染物浓度不超过设计阈值。

3.根据权利要求1所述的基于约束强化学习的流域水量水质联合调度方法，其特征在于，步骤S10中，每时刻各类代价的设计包括以下步骤：

代价的约束表示为：

；

其中表示第k种污染物指标的设置阈值，表示第i个设施的水位设置阈值，N 表示考虑总共 N 个时刻的各项指标；m 表示总共 m 种污染物类别；n 表示总共 n 个设施；t表示第 t 个时刻；上述公式中表示，在某个河道断面上，所有时刻水位平均值要小于设计阈值，或所有时刻该断面某种污染物浓度的平均值小于设计阈值。

4.根据权利要求1所述的基于约束强化学习的流域水量水质联合调度方法，其特征在于，所述步骤S30中，调度策略的网络优化目标由以下公式描述：

；

S301、流域仿真环境输出一个初始状态，令t=0，初始化数据库D；S302、调度策略会根据t时刻，系统状态执行动作；

5.根据权利要求4所述的基于约束强化学习的流域水量水质联合调度方法，其特征在于，所述的步骤S30中，还包括采用梯度下降法对于回报评估网络和代价评估网络优化的步骤，采用的损失函数如下：

；

6.根据权利要求4所述的基于约束强化学习的流域水量水质联合调度方法，其特征在于，所述步骤S305中，带约束的强化学习方法包括以下内容：

；

带约束的强化学习方法包括步骤：

S3052、更新对偶乘子，更新方式如下公式：

；

S3053、若调度策略网络未收敛则返回至步骤S3051，否则结束。