CN113050430A

CN113050430A - 一种基于鲁棒强化学习的排水系统控制方法

Info

Publication number: CN113050430A
Application number: CN202110335721.8A
Authority: CN
Inventors: 汪启杭; 金韬; 刘伟明; 冯鹏宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-29
Anticipated expiration: 2041-03-29
Also published as: CN113050430B

Abstract

本发明公开了一种基于鲁棒强化学习的排水系统控制方法，首先利用SWMM模型对排水系统进行计算机建模，划子汇水区域，对排水系统中各种设施进行精确建模。然后在建模的基础上，本发明构建了强化学习环境，来实现控制方法和排水系统的交互。基于马尔科夫过程(MDP)构建了强化学习算法的基本框架。并针对排水系统随机扰动大的特点，引入条件风险价值函数CVaR来提升算法框架的鲁棒性，得到了带CVaR约束条件的MDP，最后结合深度置信策略梯度(DDPG)算法构建了鲁棒强化学习算法。本发明将鲁棒强化学习应用于排水管网系统，可以通过计算机自动控制的方式来对排水管网系统这类复杂系统进行较为精确的控制，其控制精度和鲁棒性要优于现有的方法。

Description

一种基于鲁棒强化学习的排水系统控制方法

技术领域

本发明涉及排水系统的自动化控制领域，尤其涉及一种基于鲁棒强化学习的排水系统控制方法。

背景技术

强化学习是与自动控制理论息息相关的一种重要的算法，通过训练一个智能体，与环境不断交互，从交互数据样本中学习到一种最优的策略，使得智能体在某次交互的过程中获得的全局损失值最小。由于它不需要精确的系统建模就可以得到较好的控制效果，并且对环境变化的适应性强，因此，它在如游戏AI，机器人控制等领域得到了非常广泛的应用。在排水系统的控制中，传统的方法如PID算法一般在线性时不变的系统表现较好，但是它对非线性的系统控制效果会变差。排水系统的非线性严重，并且还有很强的随机扰动(降雨量是很大的随机变量，且对水位深度影响显著)。此外，排水系统中通常涉及多目标控制，各状态参量之间耦合非常大，这时候传统的控制算法效果会变得非常差。本文中提出的鲁棒强化学习方法，可以有效地将各参量控制在阈值以下，其中，DDPG算法是基于函数逼近的方法，因此它可以很好地对连续状态变量进行建模，实现连续控制。基于带约束条件的MDP方法则是从控制算法的安全性和鲁棒性出发，考虑了随机扰动导致损失函数波动所带来的问题，如算法稳定性差、波动大或无法收敛等情况。

对于排水系统的控制领域，传统方法主要有：

a)PID算法

PID算法的应用非常广泛，由于其算法简单、鲁棒性强和可靠性高，被广泛应用于工业过程的控制。它的表达式如下：

e(t)为误差函数：

e(t)＝S(t)-S(t-1)

b)模糊自适应PID算法

模糊自适应PID算法在PID算法中增加了模糊规则控制器，通过误差和误差的变化率来自动调整三项系数K_p,K_i,K_d，一定程度上改善了控制器对时变和非线性系统的控制能力。

c)MPC(Model Predictive Control)模型预测控制算法，模型预测控制是根据系统当前时刻的状态以及输入，对下一个或多个状态给出预测值，结合预测状态值输出控制信号，它的优势在于可以处理多输入多输出的系统，一定程度上解决了状态变量耦合的问题。它的缺点是在每一步输出控制信号之前，都需要对系统进行预测，这种预测是基于模型的，因此若系统难以预测，则需要进行多次调整，找到最接近的系统状态预测值，这样的运算是比较消耗时间的，特别是对于复杂系统会消耗更长的时间。

综合以上，现有的算法存在以下缺点：

1.对于非线性时变系统表现不够好。

如PID算法和模糊PID算法，它们结构比较简单，适用于很多简单的系统，如恒温箱温度控制，但是在涉及复杂系统时，它们表现会较差。

2.需要掌握模型的知识才能达到较好的控制效果。

如MPC方法，模型预测控制方法需要给出系统的下一步或者几步的状态预测值，因此需要掌握被控模型的信息，若被控模型是一个很难预测的系统，则无法获得准确的预测值，或者需要足够多的样本才能计算出预测值，极其消耗算力。

3.无法应对存在多种随机扰动的系统。

在排水系统中，存在着很多的干扰源，如降雨量的波动，径流波动等，这些因素会导致系统状态变量波动较大，而PID算法和MPC算法都无法很好地抑制这些随机波动过程对被控制量的影响。

4.存在较大的时延。

PID算法由于有微分环节的存在，因此可以一定程度上加快系统的响应速度，但是若微分环节系数过大，则会将控制信号和随机噪声同时放大，使得微分控制信号失真。MPC算法在每一步的运算中都要计算一步或者多步状态值，因此会存在非常大的时延。

5.对于多输入输出的系统，或者多状态变量耦合系统控制效果差。

PID算法在应对多输入输出问题时通常是采用多个PID控制器，相当于假设各随机变量彼此之间相互独立，没有考虑状态变量之间潜在的耦合。

发明内容

本发明目的在于针对现有的技术的不足，提出一种基于鲁棒强化学习的排水系统控制方法，通过对排水系统进行计算机建模，再在建模的基础上为其设计了一个强化学习的交互学习环境，定义了状态空间，即被控制量，定义了动作空间，即输入控制信号。考虑到系统的随机波动性，在模型内添加了高斯噪声，来模拟排水管网系统中的随机扰动现象。在状态空间的基础上，设计了损失函数，即通过将不同的状态变量值映射为一个评估当前状态的指标，若当前状态差，则损失函数值大，若当前状态好，则损失函数值小。然后利用降雨数据集生成训练组和测试组模型，用于后面训练模型使用。考虑到系统状态变量的随机性，并且损失函数是系统状态变量的函数，因此损失值也是一个随机变量，在一般的强化学习算法中，只是简单地用全局损失值的数学期望来表示价值函数，再通过对该价值函数优化来获得最优策略。对于一个样本来说，由于样本的随机性影响，数学期望值并不能体现出所有的样本的特征。因此，在该策略下，一定会存在一部分样本，它们的全局损失值非常大，对损失函数值的大小影响十分显著，很容易导致损失函数出现较大的波动，影响算法的稳定性和收敛性。因此采用条件风险价值函数来约束全局损失值低于某一阈值，旨在尽可能降低模型出现波动的概率。在这种思想的指引下，本发明构造了带有CVaR约束的MDP过程，并通过拉格朗日乘数法的方法对其优化，由于条件风险价值函数CVaR是一个凸性函数，因此可以在其驻点取到局部最优值，所以通过求取拉格朗日目标函数的梯度的方法来对其进行优化。在此基础之上，本发明最后通过将CVaR约束的MDP过程与DDPG算法框架相结合，设计了鲁棒强化学习算法，与标准DDPG算法不同的是，本发明在策略网络中加了一个对全局损失值带约束的条件。增强了策略网络的鲁棒性，可以更快的收敛，抗随机扰动能力强。

本发明的目的是通过以下技术方案来实现的：一种基于鲁棒强化学习的排水系统控制方法，结合了计算机建模的优点(精确并且快速)，利用强化学习来训练一个智能体，使其通过与排水系统模型进行交互学习，可以学到一种策略，来实时地将各控制对象控制在给定的参数范围内，具体实施方法如下：

(1)对排水系统进行计算机建模。

(1.1)子汇水区域的划分。

(1.1.1)对于该研究区域，采用泰森多边形的方式进行预划分，然后再作人工调整，这种方法比较简单，节省时间。若根据管网走向、建筑物和街道分布作人工划分，则比较费时间，且需要非常详细的研究区域地理信息，人工划分法适合研究区域不大，且管网走向明确，研究区域资料丰富的情况。

(1.2)泰森多边形方法通常用于GIS(地理信息系统)中，它可以由荷兰气候学家A.H.Thiessen提出并用于估算某个区域的平均降雨量。

假设一个区域存在N个降雨采集站，将所有相邻的三个气象站用线段连接形成多个三角形，再分别对每个三角形做出三条边的垂直平分线。于是在每一个降雨采集站都会有一个垂直平分线围成的多边形，此多边形即代表一个研究区域，它的降雨量即为它内部的降雨采集站的降雨量。

泰森多边形具有如下的特点：

1.每个由垂直平分线构成的泰森多边形内仅含有唯一的一个节点。

2.泰森多边形的顶点到该节点的距离和最近。

3.位于泰森多边形上的点到它两端的节点相等(中垂线定理)。

在确定排水管网的每个节点的位置后，便可以对该区域使用泰森多边形方法了，再进行人工微调。

(1.3)在子汇水区域建模完成的基础上，再对排水管网进行建模。

(1.3.1)对节点的建模，节点通常按其用途可分为三种，第一种是连接节点，即管段互相连接的排水系统节点。在实际的工程设施中，它们可能是排水管网的检查井，或者是自然地表水渠的汇流节点。

连接节点需要的定义参数主要为：

1.内底标高；

2.外部进流数据，相当于额外的进流量；

3.到地表的高度；

4.发生溢流时的积水表面积，即节点水位过高，发生外溢时候在地表的积水表面积。

第二种节点是排放节点，它一般处于排水系统的最下游，用于排放。

排放节点的主要参数为：

1.内底标高；

2.边界条件类型以及阶段描述；

3.是否存在拍门，即阻止水流回流的单向阀。

第三种节点是蓄水单元，它是提供蓄水功能的排水系统节点，它在实际工程上可以是蓄水池等一切具有蓄水功能的设施。

蓄水单元的主要输入参数为：

1.内底标高。

2.最大深度。

3.深度-表面积方程。

4.蒸发潜力。

5.发生溢流时的积水表面积。

6.外部进流量。

(1.3.2)对管渠的建模,管渠的功能是将一个节点的水输送到下一节点中的管道或者渠道，常见的排水管渠通常为圆形、椭圆形或者拱形，为了方便计算，本方法中将其定义为圆形。

管渠通常需要定义的参数有：

1.进水节点和出水节点名称；

2.进出水节点内底的标高；

3.管渠的长度；

4.曼宁粗糙系数，通常需要查表来获取该项参数，表格如附图所示；

5.断面几何尺寸，断面面积和水力半径；

6.是否存在防止回流的拍门；

7.最大深度。

(1.3.3)对调节阀的建模，调节阀是排水系统中用于控制流量的设施。它需要的参数主要包含：

1.进水和出水节点名；

2.形状(圆形或者矩形)；

3.流量系数；

4.开启或者关闭的时间；

(1.4)最后，进行模型的验证工作，用SWMM软件来测试该模型的可行性，如记录报错或者警告信息，模型的连续性误差，对地表径流、流量演算的误差是否处于正常范围以内。

(1.5)将降雨量数据集分割为训练集和测试集，降雨数据集来自于气象资料，通常按照月份进行分割，每一个数据文件里包含整月的降雨量统计，并且每个数据文件的降雨量是按照固定时间间隔采样来进行统计的。每个数据点表示该时间间隔内采集的降雨量值。

(2)强化学习环境的搭建

(2.1)强化学习环境的构建强化学习的环境的主要作用是提供一个接口，来与智能体进行交互。具体步骤如下：

1.利用SWMM的计算引擎代码进行计算并提取运算结果。

2.利用GNU编译SWMM核心代码

3.生成SWMM.dll(动态链接库文件)

4.利用Python语言来调取SWMM.dll模块，然后使用该模块中的函数来构建排水管网系统的编程环境。

5.利用SWMM.dll模块实现一个编程接口，对已经建好的排水管网模型执行运行，运行过程分为若干个个时间步(时间步即每个一定时间进行一次模型的采样)，时间步为模型控制和状态参量的最小单位，在每个时间步内，通过给定调节阀的开度来控制节点的水深，以及管段的流量。

6.排水系统模型抽象图如图1所示，首先定义状态空间参数，状态空间参数主要包含如下状态量：

1)待控制蓄水单元的深度；

2)待控制蓄水单元的溢流量；

3)待控制节点的深度；

4)待控制节点的溢流值；

5)待控制管段的流量值；

7.定义动作空间参数，动作空间参数包含以下项：

1)待控制阀门开度；

2)待控制阀门个数；

8.定义交互函数，它的功能为，接受智能体的动作，执行排水模型的运行模拟，输出状态空间参数，如6所包含的所有状态量，以及该时间步的损失值。

9.定义损失函数，它的功能是，根据状态空间里的参数来给出损失值，损失函数是所有状态变量的多元函数，其作用是评估当前状态的好坏程度，若当前状态未超过给定阈值，则损失函数较小，若超出，则损失函数较大，对超过阈值的情况施加惩罚因子，增大两种情况下损失函数数值的差距。它的形式可以是状态变量的简单线性组合，或者是状态变量的2次幂或者3次幂。假设被控制量分别为X₁,X₂,X₃,...，则损失函数可定义为一个如下形式的分段函数：

R(X₁,X₂,X₃,...)＝F(X₁,X₂,X₃,...)+k·F_punish(X₁,X₂,X₃,...)

式中，R(X₁,X₂,X₃,...)为总损失函数，F(X₁,X₂,X₃,...)为基准损失函数，它的作用是为于所有范围的状态值X₁,X₂,X₃,...定义一个损失值基准线，k是惩罚因子系数，当状态值小于阈值时，k＝0，当状态值大于阈值时，k＝1。F_punish(X₁,X₂,X₃,...)为惩罚函数，在状态值超过阈值的时候，通过引入惩罚项，可以放大损失值，反馈给智能体的损失值显著增加，从而，算法会根据该种情况加大调节量，使状态值迅速低于阈值。

10.定义信息读取函数，调用该函数，将获得不同单元设施的状态信息，以便进行实时跟踪和统计。

11.定义终止函数，排水系统完成运行后将调用此函数，退出强化学习环境。

(2.2)进行数据预处理

(2.2.1)将降雨数据集分割为训练集和测试集，降雨数据集一般可由气象资料获取，每个数据文件包含按一定时间采样的降雨数据，将训练集和测试集按照3:1的比例进行随机分割。

(2.2.2)在降雨数据集分割完毕的基础上，再依次将降雨文件导入到建好的排水管网模型中，生成新的模型文件，这些不同的模型将用于后面的计算。

(3)以下为鲁棒强化学习的理论框架和推导过程。

强化学习的目标是训练一个智能体，使其与环境进行不断地交互，从交互数据样本中学习到一种最优的策略，使得智能体在某次交互的过程中获得的全局损失值最小。

(3.1)MDP过程的构建

(3.1.1)定义全局损失值。假设排水系统的每步状态可以表示为S₀,S₁,S₂...，智能体每步动作可以表示为A₁,A₂,A₃...，每步损失值可以表示为R₁,R₂,R₃...，则智能体与排水系统的交互轨迹可由下述轨迹来描述：

S₀,A₀,R₁,S₁,A₁,R₂,S₂,A₂,R₃,...

其中，S_i代表系统状态值，A_i代表智能体动作值，R_i代表智能体与环境单次交互后获得的损失值。该轨迹的意义可简要概括为，在状态S_i时候，智能体采取动作A_i，系统反馈一个损失值R_i+1给智能体，系统状态值转变为S_i+1。

(3.1.2)则一条轨迹的全局损失值可定义为：

γ(0≤γ<1)表示折扣值，即对不同时刻的智能体所取得的损失值施加一个权重系数，表示智能体不同时刻所获得的损失值重要程度是不同的。距离当前时刻较近的损失值会更大，代表短期损失，而距离当前时刻较远的损失值将会更小，代表长期损失，通过调节γ的值，可以同时表征短期损失和长期损失，使得智能体能兼顾长期和短期损失。

(3.1.3)交互轨迹与智能体采取的动作值有关，假设用策略函数π(a|s)来表示某一状态s下智能体采取动作a的概率。则若确定智能体策略π(a|s)，以及当前状态s，就能确定智能体交互轨迹所取得的全局损失。π(a|s)是一个随机变量函数，所以全局损失值也是一个随机变量，对于随机变量的大小，主要关心其数学期望值。定义该数学期望值为当前状态s和策略π(a|s)下的价值函数，记其为V_π(s)，则它的表达式如下：

(3.1.4)类似地，将在状态s下采取动作a的全局损失的期望值称为动作价值函数，记其为Q_π(s,a)，则它的表达式如下：

(3.1.5)对于智能体，最优策略应是全局损失取最小值时获得，可对价值函数V_π(s)进行优化，即可以获得最优的策略。

MDP过程的一系列框架是强化学习算法的基础和前提，它给出了某一状态下的价值函数，对其优化即可获得最优策略。

(3.2)基于条件风险价值的MDP

根据定义式，价值函数表示为全局损失值的数学期望，用数学期望值来衡量某一随机变量的大小，考虑到排水系统中存在很多随机扰动，这些扰动将显著影响每步交互过程的损失值，进而使得价值函数波动过大，因此，仅仅通过优化价值函数无法保证得到稳定、鲁棒的控制策略，为了解决该问题，本发明引入了带约束条件的MDP过程，利用条件风险价值函数(CVaR)和风险价值函数(VaR)来约束全局损失值，使它低于某个阈值，降低了价值函数波动的风险，进而提升了算法的稳定性和鲁棒性。其步骤如下：

(3.2.1)条件风险价值函数(CVaR)函数和风险价值函数(VaR)常用于经济学领域。VaR和CVaR常用于经济学中来定义某项资产或者证券可能遭受的最大损失值，进而表征某项资产或证券的风险高低。在本发明的排水系统模型中，状态参量会受到系统内的随机扰动，导致它波动非常大，并且有可能出现超出给定阈值的风险。通过用VaR和CVaR来表征该风险，并将之约束在某一给定阈值以下，则可以很好地降低波动对算法的影响，提高稳定性。具体实现步骤如下：

1.定义一个随机变量X，在本算法框架中，它代表的是智能体交互过程的全局损失，X的累积概率密度函数为F(x)＝P{X≤x}，则风险价值函数的定义式如下：

VaR_α(X)＝min{x|F(x)≥1-α}

α为置信度水平，它的含义是随机变量X的分布概率密度函数的1α分位点，表示在置信度水平α下，随机变量X的样本中，可能出现的最大损失值。

2.CVaR_α(X)则指的是样本X中超过风险价值VaR_α(X)的部分样本的期望值，其定义式如下：

CVaR_α(X)＝E[X|X＞v]

式中，v代表VaR_α(X)，CVaR_α(X)在VaR_α(X)的基础上考虑了超过置信度水平下X分布的上界的那一部分样本，因此CVaR_α(X)可以对这部分超出“阈值”的样本进行更加精确地量化。与VaR相比，CVaR函数具有很多优点，如它是一个凸性函数，所谓凸性，即函数满足以下关系：

f(λx₁+(1-λ)x₂)≥λf(x₁)+(1-λ)f(x₂)

式中，λ∈(0,1)是一个系数，x₁、x₂分别是自变量。凸函数有一个很好的特性，即可以利用求导的方式来求其极值点，并且其极值点为全局最大或最小，因此仅仅用梯度下降或上升的方式即可求解其最小值或最大值。

3.进一步地，可根据A中定义式将化简为：

其中，(x)⁺＝max(x,0)，表示变量x中大于0的部分。可以看出，若置信度水平α→0，则v→0，CVaR_α(X,v)＝E(X)，CVaR退化为随机变量的数学期望，若置信度水平α→1，则v→max(X)，(X-v)⁺项为0，因此CVaR_α(X,v)＝v≈max(X)。通过该式可以很容易计算出随机变量的条件风险价值。

(3.2.2)带约束的MDP可采取如下的优化方式为以下步骤：

4.假设状态变量为x_k，a_k表示动作变量，γ是折扣率，π(a|s)是策略函数，则环境的损失函数为:

5.对MDP过程进行约束，定义策略函数π(a|s,θ)，a为当前动作，s为当前状态，θ为待求参数，由θ来确定策略函数π。定义损失函数G_θ(s,π(a|s,θ))，损失函数表示在当前状态s和当前策略π下，智能体所获全局损失值。假设损失函数的约束上界为b，记CVaR函数为C_α(X,v)，则带约束条件的MDP目标函数如下：

minV_π(s)subject to C_α(G_θ(s,π(a|s,θ)),v)≤b

其中V_π(s)为动作-价值函数，即损失函数的数学期望；

6.对于带约束的最大化或者最小化优化问题，可采用拉格朗日乘数法对其进行处理，则目标函数转化为：

7.根据(3.2.1)可知，C_α(X,v)为凸函数，因此可通过求解梯度的方式来进行优化，式中，要优化的三项参数分别是θ、v、λ。对三者求梯度可得：

D.根据(3.2.1)中对C_α(X,v)的定义式，将上式展开可得：

以上三个式子为带约束条件的MDP过程优化公式，与传统的MDP过程相比，它需要在每次更新参数时，额外完成对风险价值v，以及拉格朗日乘子λ的更新。大部分强化学习算法都是基于MDP框架来进行的，因此可将带约束的MDP过程同某种强化学习算法框架相结合，提升原有算法的抗扰动能力和鲁棒性。

(3.3)结合带约束的MDP和DDPG的鲁棒强化学习算法

鲁棒强化学习算法的构建，同样是基于MDP的过程的，不同的是它用神经网络代替了价值函数和策略函数，因为价值函数的本质就是对状态空间S或者状态-动作空间S×A进行估值，而策略函数则是将动作空间S映射到动作空间A。比较经典的深度强化学习算法有DQN，Actor-Critic，PG，DDPG等。算法在应用于本发明的排水系统控制中，需考虑其控制对象和控制机构的参数特征，在排水系统中，状态参量繁多，皆为连续变量，动作参量同样为连续变量，因此考虑使用DDPG算法作为鲁棒强化学习算法的算法框架。

(3.3.1)DDPG是一种优秀的强化学习算法，它吸收了Actor-Critic算法、DQN等算法的优点，它由四个神经网络组成，分别是当前策略网络θ^μ，当前价值网络θ^Q，目标策略网络θ^μ′，目标价值网络θ^Q′。θ^μ负责根据当前状态S输出动作A,θ^Q负责根据当前状态S和θ^μ输出的动作A来估算动作价值函数，θ^μ′和θ^Q′则是分别从θ^μ和θ^Q复制参数，动作的选择是基于θ^μ进行的，而动作价值函数的估算则是基于θ^μ′和θ^Q′的。这种当前网络和目标网络的划分借鉴了DQN中双网络的结构，因为在函数逼近法中，价值函数的估算是采用TD差分方法，这种方法属于对价值的有偏估计，因此，随着时间步的累积，误差会越来越大，导致估值过高，模型不容易收敛，这种双网络结构，采用当前网络的价值来选择动作，而从目标网络中选择动作价值，将动作选择和价值评估分开进行，已被证实可以显著提高训练的稳定性。其具体为下：

1.当前策略网络采用策略梯度方法，具体为对当前价值网络输出动作价值的数学期望求解梯度，假设优化目标函数为J(θ^μ)，那么它的梯度如下式：

上式中，a＝π(s,θ^μ)指的是当前策略网络输出的动作值，θ^μ为其网络参数。G(s,a|θ^Q)指的是当前价值网络输出值，它相当于全局损失函数，θ^Q为其网络参数。

2.在此基础上，进一步获得其网络参数更新式：

其中

表示当前网络参数，

表示更新后网络参数，δ∈(0,1)是学习率。

3.对于带约束的MDP过程，则当前策略网络的优化方式变更为：

4.当前价值网络采用的是TD-Error方法优化，目标函数定义为：

式中，γ为折扣系数，r为单步损失值，G(s,a|θ^Q′)为目标价值网络输出，与当前价值网络不同的是，它的参数是θ^Q′，并且它的输入策略a＝π(s|θ^μ′)来自目标策略网络，θ^μ′为目标策略网络参数。

5.当前价值网络的损失函数即为当前价值和目标价值的均方差：

6.对于目标策略网络和目标价值网络，采用从当前网络复制参数的方法来更新。

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^μ′＝τθ^μ′+(1-τ)θ^μ′

式中，τ∈(0,1)是更新系数，表示每次参数更新的步长。该更新公式为软更新方式，通过步长来约束每次更新的幅度，使得神经网络参数波动不至于过于剧烈，影响算法的稳定性。

相比原来的更新式，它需要额外更新两个参数风险价值v和拉格朗日乘数λ，其余部分与原来的更新方式一致。当前价值网络、目标策略网络和目标价值网络三者的更新方式也分别与不带约束条件的DDPG方法一致。

附图说明

图1为排水管网模型计算机建模示意图；

图2为环境构造流程图；

图3为算法流程图；

图4为本发明神经网络结构图；

图5为本发明方法流程图。

具体实施方式

以下结合附图对本发明具体实施方式做进一步补充说明。

模型研究区域为杭州市某地的排水管网设施，其抽象连接图如图1所示：

图中关键对象已标出其名称，它们分别是蓄水单元St1,St2、调节阀门V1,V2、节点J1和管段C2。在该系统中，主要需要控制的量是蓄水单元St1、St2的水位，J1节点的水位，排水系统总溢流量，以及管段C2的流量值。因此一共有五个系统状态量和两个控制量。

强化学习环境用于提供智能体交互学习的平台，它接受智能体输出的动作，随后将系统状态值和一定的损失值反馈给智能体。其构建流程如图2所示。

首先要使用SWMM计算模块来对排水管网模型进行流量的演算。由于源代码是C语言，不易直接用来编程，需要将其编译成动态链接库文件(dll)，供其他编程语言调用。

状态空间的参数主要为蓄水单元St1、St2的水位，J1节点的水位，模型总溢流量，以及管段C2的流量值。动作空间的参数为阀门V1,V2的开度(0～100％)。

调用核心代码中的Node模块获取蓄水单元St1、St2的所有属性，J1节点的所有属性，调用Link模块获取管段C2的所有属性。

定义交互函数，此交互函数作用为输入智能体生成的动作，将该动作值施加于排水系统，就会更新当前的所有状态值，再将更新后的状态值以及该步的损失值，反馈给智能体。

定义损失函数。损失值由损失函数给出，损失函数需要综合考虑所有的状态值，若状态值高于阈值，则会施加惩罚因子，从而调节状态值，使得其最终低于阈值。损失函数可以是所有状态值的线性组合多项式，每项状态参数需要考虑其值域，来赋予相应的权重系数，使得所有的状态参数对总的损失值贡献相等，即对所有状态参数一视同仁。

将240个降雨数据集按1:3比例分割为测试集和训练集，降雨数据是一个时间序列，代表按某时长采样的降雨值，它无法直接使用，需要导入排水管网模型生成不同降雨下的模型。

图4描述了算法流程图，算法模型是本发明的核心理论部分，其步骤为：

第一步先构造带约束的MDP过程，约束条件为全局损失值的条件风险价值。

第二步，定义价值函数，价值函数为全局损失值的数学期望值。讨论了仅仅优化全局损失值的数学期望值会有怎样的局限性。以及理论上使用条件风险价值来作为约束条件会有哪些预期提升。

第三步，引入条件风险价值作为约束条件，结合拉格朗日乘数法构造优化函数。

第四步，对三参数求解梯度，由于优化函数是凸函数，因此仅通过求解梯求解对各参数完成优化。

第五步，结合DDPG算法的网络更新公式，将带约束MDP过程引入DDPG算法当中，得到了鲁棒强化学习算法

第六步，神经网络模型的搭建，与标准DDPG算法的网络结构类似，但是需要额外引入两个参数，其中，一个是VaR(风险价值)参数，另外一个是拉格朗日乘数λ，每次更新四个网络的权重参数的同时，也对这两个参数进行更新。

策略网络一共由四层神经网络组成，神经元总个数为127个，包括输入层5个神经元，隐藏层120个神经元，输出层2个神经元，激活函数为Relu，使用Batch Normalization归一化权重，权重使用高斯采样进行初始化。

价值网络一共由四层神经网络组成，神经元总个数为128个，包括输入层7个神经元，隐藏层120个神经元，输出层1个神经元，激活函数为Relu，使用Batch Normalization归一化权重，权重使用高斯采样进行初始化。

本实施例中，将降雨量数据集分割为训练集和测试集，降雨量数据集来自于气象资料，其时间跨度为2000年1月1日至2019年12月31日，按照月份进行分割，每个数据文件里包含整月的降雨量统计，并且每个数据文件的降雨量是按照每15分钟采样一次来进行统计的。

本发明在多个测试数据集上进行了测试，并对比了基于PID控制、基于MPC控制、不采用任何控制算法的效果，统计结果表明，相比不采用任何控制算法，总的溢流量减少了48.93％，总溢流频次减少了46.31％。对比采用PID控制算法，总的溢流量减少了29.37％，总的溢流频次减少了31.09％。对比采用MPC控制算法，总的溢流量减少了13.89％，总的溢流频次减少了12.76％。

图5为本发明全部流程图。

上述实施例用用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权力要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于鲁棒强化学习的排水系统控制方法，其特征在于，包括以下步骤：

(1)对排水系统进行建模，划分子汇水区域，定义关键对象，具体为：

(1.1)将待研究区域划分成大小不同，形状各异的若干子汇水区域，定义每个区域的雨量计、出水口、宽度、坡度、渗透率、采用的渗透方程和土地类型等参数；

(1.2)定义排水系统模型中的关键对象，所述关键对象包括蓄水单元、管道、节点、调节阀和排水口等；

(1.3)将降雨量数据集分割为训练集和测试集，将数据集输入排水系统模型的雨量计中。

(2)构建强化学习环境，强化学习环境的作用是提供一个与智能体进行交互的接口，通过接口实现对排水系统状态参数的跟踪和控制，实现方法为利用SWMM的计算引擎代码进行计算和控制，并调用SWMM的库函数提取运算结果。

(3)通过鲁棒强化学习算法实现排水系统的控制，包括：

(3.1)基于马尔科夫决策过程(MDP)构建强化学习的基本理论框架；

(3.2)基于条件风险价值函数(CVaR)改进MDP过程，包括以下子步骤：

(3.2.1)在MDP过程中引入风险价值函数(VaR)和条件风险价值函数(CVaR)，得到带约束的MDP过程；定义一个随机变量X，在本算法框架中，它代表的是智能体交互过程的全局损失，X的累积概率密度函数为F(x)＝P{X≤x}，则风险价值函数的定义式如下：

VaR_α(X)＝min{x|F(x)≥1-α}

它的含义是随机变量X的分布概率密度函数的1-α分位点，表示在置信度水平α下，随机变量X的样本中，可能出现的最大损失值，将VaR_α(X)记为v；

条件风险价值函数指的是随机变量X中超过风险价值v的部分样本的期望值，它量化了X中高于风险价值v的部分样本的数值特征，其定义式如下：

CVaR_α(X,v)＝E[X|X＞v]

进一步地，可展开为：

其中，(x)⁺＝max(x,0)，表示变量x中大于0的部分。

(3.2.2)带约束的MDP可采取如下的优化方式：

A.对MDP过程进行约束，定义策略函数π(a|s,θ)，a为当前动作，s为当前状态，θ为分布参数，由θ来确定策略函数π；定义损失函数G_θ(s,π(a|s,θ))，损失函数表示在当前状态s和当前策略π下，智能体所获全局损失值；假设损失函数的约束上界为b，记CVaR函数为C_α(X,v)，则带约束条件的MDP目标函数如下：

min V_π(s)subject to C_α(G_θ(s,π(a|s,θ)),v)≤b

其中V_π(s)为动作-价值函数，即损失函数的数学期望；

B.对于带约束的最大化或者最小化优化问题，可采用拉格朗日乘数法对其进行处理，则目标函数转化为：

C.对拉格朗日函数中的三参数求梯度可得到：

D.进一步地，代入条件风险价值函数表达式后展开可得：

(3.3)基于带约束条件的MDP框架的鲁棒强化学习，用神经网络代替价值函数和策略函数，具体步骤如下：

A.在排水系统模型中，需要控制的状态变量均为连续值，动作变量也是连续值，因此选取DDPG算法作为算法框架，它由四个网络组成，分别是当前策略网络、当前价值网络、目标策略网络、目标价值网络，四网络参数依次为θ^μ、θ^Q、θ^μ′和θ^Q′。

B.当前策略网络采用策略梯度方法，具体为对当前价值网络输出值的数学期望求解梯度，假设优化目标函数为J(θ^μ)，那么它的梯度如下式：

C.在此基础上，进一步获得其网络参数更新式：

其中

表示当前网络参数，

表示更新后网络参数，δ∈(0,1)是学习率。

D.对于带约束的MDP过程，则当前策略网络的优化方式变更为：

E.当前价值网络采用的是TD-Error方法优化，目标函数定义为：

F.当前价值网络的损失函数即为当前价值和目标价值的均方差：

G.对于目标策略网络和目标价值网络，采用从当前网络复制参数的方法来更新。

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^μ′＝τθ^μ+(1-τ)θ^μ′

式中，τ∈(0,1)是更新系数，表示每次参数更新的步长。

(3.4)在训练集上对鲁棒强化学习模型进行训练，设计神经网络结构，具体为：

(3.4.1)神经网络设计为全连接层，激活函数为Relu，添加Batch Normalization层，神经网络的超参数由调参过程获得。

(3.4.2)神经网络的更新方式通过(3.3)中数学公式来更新四个网络参数。

(3.4.3)设定最小损失阈值，当神经网络的损失低于阈值，则认为网络已经训练好，退出训练进程，并保存权重矩阵到本地。

(3.5)在测试集上对鲁棒强化学习模型进行测试并验证模型效果。

2.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(1.1)具体为：

(1.1.1)定义雨量计，雨量计是一个提供降雨数据的对象，它的数据是一个时间序列。

(1.1.2)定义出水口，出水口为接受子汇水区域排水的节点。

(1.1.3)定义子汇水区域的宽度，即薄层径流的地表漫流特征宽度(米或英尺)。

(1.1.4)定义不渗透百分比和不渗透地表面积百分比。

(1.1.5)定义子汇水区域渗透方程，包括Horton渗透方程、Green-Ampt渗透方程和SCS曲线渗透方程。

(1.1.6)定义土地类型，即土地开发活动的类型或者子汇水区域的地表特征。

3.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(1.2)具体为：

(1.2.1)蓄水单元的建模，模型中有若干蓄水单元，需要定义其内底标高、最大高度、表面积和深度方程。

(1.2.2)管道的建模，管道是连接不同对象的管线，它主要的参数有进水节点、出水节点、管道截面形状、长度、直径和曼宁粗糙系数等。

(1.2.3)节点的建模，节点是不同管道联结的交合处，通常需要指定其内底标高、最大深度和初始深度等。

(1.2.4)调节阀的建模，调节阀是一个能够通过调节其开度来控制流量大小的节点，它的参数通常包括截面形状、流量系数、开启/关闭所需时间、是否具有拍门(具有防止水倒灌等功能)。

(1.2.5)排水口的建模，需要定义其内底标高。

4.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(1.3)中，将降雨量数据集按照3:1的比例分割为训练集和测试集，降雨量数据集来自于气象资料，通常按照月份进行分割，每个数据文件的降雨量按照一定时间间隔采样一次来进行统计，并且每个数据文件里包含某个月的降雨量统计，最后将数据文件导入排水系统模型的雨量计中，生成新的模型文件。

5.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(1)中，完成排水系统模型的建模后，运行、测试模型的连续性误差，使误差尽可能低。

6.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(2)具体包括以下子步骤：

(2.1)定义环境的状态空间S和动作空间A。

(2.2)利用强化学习常用三方库gym进行环境的配置。

(2.3)定义Node对象和Link对象，定义待控制对象，读取其属性信息。

(2.4)定义交互函数，它的功能为提供智能体与环境的交互接口，每输入一个动作值，环境状态值发生改变，然后将更新后的状态值和损失值反馈给智能体。

(2.5)定义损失函数，它的功能为根据状态空间中的参数计算损失值，然后再通过交互函数反馈给智能体。

(2.6)定义终止函数，排水系统完成运行后将调用此函数，退出强化学习环境。

7.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(3.1)具体包括以下子步骤：

S₀,A₀,R₁,S₁,A₁,R₂,S₂,A₂,R₃,...

为了区分不同时刻智能体所获损失值，应将不同时刻损失值乘上折扣系数γ(0≤γ<1)，则在t时刻后，该轨迹线中智能体所获全局损失G_t定义为：

(3.1.2)智能体在每一条交互轨迹线中所能获得的总损失是跟它所采取的策略函数π(a|s)是相关的，因此通过最小化交互轨迹的总损失和即可获得最优策略。在给定当前状态S_t＝s以及策略函数π的情况下，由于策略函数π是一个随机变量函数，那么总损失同为随机变量，将总损失的期望值定义为价值函数，记为V_π(s)，其定义式如下：

类似地，在策略π下，状态s时所采取的动作a的价值函数记为Q_π，称为动作-价值函数，其定义式如下：

(3.1.3)通过对动作-价值函数的最小化可以获得最优策略：

8.根据权利要求1所述的一种基于鲁棒强化学习的排水系统控制方法，其特征在于，所述步骤(3.5)具体包括以下子步骤：

(3.5.1)统计蓄水单元和节点的水位，看是否有超出设定值的情况出现。

(3.5.2)统计管段的流量，看是否超出最大流量设定值。

(3.5.3)统计节点和蓄水单元的总溢流值以及溢流频次，溢流值即该节点水位过高以至于漫出地表的水量。该参量可以直观地表征排水设施的控制效果。

(3.5.4)通过统计结果，以及对比已有控制算法，验证鲁棒强化学习算法的控制效果。