CN113741182B

CN113741182B - 一种基于广义值迭代的污水处理过程控制方法

Info

Publication number: CN113741182B
Application number: CN202110916446.9A
Authority: CN
Inventors: 王鼎; 赵明明; 乔俊飞; 赵慧玲
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-11-17
Anticipated expiration: 2041-08-11
Also published as: CN113741182A

Abstract

本发明提出一种基于广义值迭代的污水处理过程控制方法，用于解决溶解氧浓度和硝态氮浓度的最优跟踪设计问题。本发明通过任意一个半正定的函数进行初始化而不必须为零，其中参数λ能够从未来的多个回报中学习从而加速学习过程。在GVI(λ)算法框架下，引入三个神经网络分别用于近似两种代价函数和跟踪控制律，给出基于神经网络的代价函数和跟踪控制律更新公式。在迭代算法执行过程中，建立一个新的停止准则来终止算法，从而保证系统的稳定性和跟踪控制律的最优性。实验结果表明，这里提出的GVI(λ)算法能在保证系统稳定性的前提下，有效地控制溶解氧浓度和硝态氮浓度。

Description

一种基于广义值迭代的污水处理过程控制方法

技术领域

本发明属于污水处理过程控制领域。

背景技术

淡水资源短缺问题和污水排放导致的水污染问题愈发严重，如何实现水资源的可持续利用一直以来都是人们关注的焦点。城市污水处理在解决水体污染方面起到了至关重要的作用，但是许多污水处理厂的运行状况不容乐观，这表现在底层跟踪控制器难以应对外界变化，水质超标不符合国家排放标准，高耗能导致运行成本高等。当前中国的污水处理厂大多使用活性污泥法进行脱氮除磷以改善出水水质，这其中好氧区的溶解氧浓度和厌氧区的硝态氮浓度被视为两个主要的控制对象。研究者们提出各种控制方法对这两个变量进行有效控制以使得污水处理过程稳定运行。事实上，作为一个流程复杂的工业过程系统，污水处理系统具有高度非线性、大时变和强干扰等特点。这要求设计的底层控制器能够快速地适应工况变化，具备抗干扰的能力。经典的控制方法例如比例积分微分(PID)控制，由于简单、易操作等特点在污水处理厂得到了大量的应用。然而，参数固定和自适应能力差的局限使其难以应对复杂的外界干扰。设计自适应效果好、具有强鲁棒性能的智能控制器已成为当下污水处理领域的研究热点。本发明结合强化学习中系统与环境交互的思想，以执行-评判结构为基本框架，提出了一种基于广义值迭代[Generalizedvalue iteration(λ)]，简称GVI(λ)的最优跟踪控制算法，以实现对溶解氧和硝态氮浓度的稳定控制。

对于非线性系统的最优控制问题，求解非线性Hamilton-Jacobi-Bellman(HJB)方程是必需的，然而其解析解通常难以获取。基于强化学习机制，以动态规划中最优性原理为理论基础、神经网络为近似工具的自适应动态规划(Adaptive dynamicprogramming，ADP)应运而生。强大的自适应和学习能力使ADP在求解非线性HJB方程方面展现了巨大潜力。ADP的核心在于不断的评估和执行从而获取一个近似最优控制律使得系统的长期代价函数最小。作为一种智能优化技术，ADP方法已经在电力系统、化工过程、智能交通得到了广泛的应用。特别地，一些学者已将ADP技术引入了污水处理领域进行智能优化和控制。然而，ADP算法在污水处理过程的相关工作依旧匮乏，且已有的工作主要依赖于传统的启发式动态规划(Heuristic dynamic programming，简称HDP)。因此，需要提出更高级的结构并改善控制效果。

在此背景下，针对非仿射形式的污水处理系统，本发明提出了一种新的GVI(λ)算法用于控制溶解氧和硝态氮的浓度，使其跟踪上理想的设定值。相比于传统的HDP，本发明引入了一个长期的预测参数λ，这有利于加速学习和优化过程。广义值迭代意味着可以使用任意的半正定函数来初始化算法。如果初始化的代价函数使得系统单调递减，就可以根据Lyapunov第二方法判断系统的稳定性，这是传统HDP所不具备的。本专利将具有调节能力的GVI(λ)算法进行拓展用于解决跟踪控制问题。通过将被控对象与理想值作差并构造一个误差系统，将原系统的跟踪问题视为误差系统的调节问题。此外，可以通过收集输入输出数据进行算法的实施从而减弱系统动力学未知带来的困难。最后，将提出的方法应用在污水处理平台进行验证。

发明内容

本发明所设计的控制策略以及实验数据是基于污水处理过程中常用的基准仿真模型(Benchmark Simulation Model No.1，BSM1)。BSM1是由欧盟科学技术合作组织和国际水协提出的一个仿真平台。该平台主要包括生化反应池和二沉池两大模块。生化反应池中前面两个分区(厌氧区)用来进行反硝化反应，后面三个分区(好氧区)被用来进行硝化反应。工艺分析表明第二分区的硝态氮质量浓度S_NO,2和第五分区的溶解氧质量浓度S_O,5关系着污水处理过程的脱氮除磷能力，进而决定了出水的水质。在污水处理过程中，底层控制的目标是使溶解氧和硝态氮浓度跟踪上理想的设定值，设定值一般为2mg/L和1mg/L。实际上，设定值通常是由上层优化决定。然而，上层优化的约束条件很大部分受底层跟踪效果的影响。因此，设计控制器实现S_O,5和S_NO,2对设定值快速且精确的跟踪是污水处理系统稳定运行的关键。研究表明，氧气转换系数K_La,5是S_O,5的相关控制参数，而内回流量Q_a,2是S_NO,2的相关控制参数。在本发明中，我们设计了一种基于GVI(λ)算法的具有自适应能力的智能跟踪控制器，用于得到近似最优的K_La,5和Q_a,2来实现对S_O,5和S_NO,2的有效控制。基于GVI(λ)算法的污水处理系统智能控制设计结构图如图1所示。

步骤1、实施污水处理问题转换。将原始系统状态与理想的设定值作差得到误差系统，对误差系统进行调节使得误差为零。

污水处理过程的动态方程考虑为如下的离散时间非线性系统

x(k+1)＝F(x(k),u(x(k))),k＝0,1,2,… (1)

其中，x(k)是二维的系统状态，表示当前k时刻第五分区的溶解氧质量浓度S_O,5和第二分区的硝态氮质量浓度S_NO,2；u(x(k))是二维的控制变量，代表k时刻的氧气转换系数K_La,5和内回流量Q_a,2；F(·,·)是一个未知的连续系统函数。

定义需要跟踪的理想轨迹(设定值)为

r(k+1)＝ψ(r(k)) (2)

其中，r(k)为k时刻系统状态需要跟踪的理想状态，ψ(·)是一个输出恒定为2和1的常数函数。也就是说，在污水处理过程中，期望轨迹r(k+1)＝r(k)＝[2,1]^T保持不变。为了实现对理想轨迹的跟踪，假设存在一个相对于理想轨迹的稳定控制u(r(k))且满足

r(k+1)＝F(r(k),u(r(k))) (3)

本发明将污水处理中的最优跟踪问题转换为对误差系统的最优调节问题。为了构造误差系统，首先，定义溶解氧浓度和硝态氮浓度与设定值之间的误差为

e(k)＝x(k)-r(k) (4)

然后，定义氧气转换系数和内回流量与稳定控制之间的误差控制律为

u(e(k))＝u(x(k))-u(r(k)) (5)

根据式(1)-(5)，误差系统归纳为：

针对误差系统的最优调节问题，目标是找到一个反馈控制律能够使得误差镇定到平衡状态且最小化如下的代价函数

其中，k是系统的当前时刻，而j＝k,k+1,k+2…代表k之后的任意时刻；U(e(j),u(e(j)))＞0是正定的效用函数，表示当前j时间段内的立即成本，代价函数J(e(k))是所有时刻立即成本的总合；Q和R分别为代价函数对于状态变量和控制变量的矩阵，在这里，选取Q＝0.01I₂和R＝0.01I₂，其中I₂是二维的单位矩阵；根据式(7)，误差动态系统的代价函数一般形式为

当式(8)中所示的代价函数最小时即为最优代价函数J^*(e(k))，此时使得代价函数最小的控制律被称为最优控制律u^*(e(k))。最优控制律能够使得式(6)的误差逐渐趋向于零向量，即实现溶解氧浓度和硝态氮浓度对设定值的跟踪。

根据Bellman最优性原理，最优代价函数满足如下HJB方程

使得代价函数最小的最优控制律将通过下式求解

接下来，给出式(8)的不同形式从而引入带有长期预测参数λ的代价函数。定义一步回报(one-return)代价函数、两步回报(two-return)代价函数和n步回报(n-return)代价函数如下所示

将式(11)中的所有项进行平均分配有利于加速学习过程。例如，两步回报的平均分配为C^Av(1,2)＝(1-λ)C⁽¹⁾+λC⁽²⁾，其中λ∈(0,1)是一个权重因子。值得注意的是，每一项元素前面的系数总和为1，即(1-λ)+λ＝1。进一步，得到n步回报的平均值，也称为λ-return代价函数，即

在本文中，权重因子的取值为λ＝0.985。此外，定义J(·)为one-return代价函数V⁰，而C^λ为λ-return代价函数V^λ。式(12)表明了在求解目标函数C^λ时需要one-return代价函数J(·)和λ-return代价函数C^λ(·)的共同作用。

本发明提出的GVI(λ)算法中有两种代价函数，即one-return代价函数和λ-return代价函数。根据上述描述，one-return代价函数(V⁰＝J)和其最优形式分别为

V⁰(e(k))＝U(e(k),u(e(k)))+V⁰(e(k+1)) (13)

和

其中，是(13)中代价函数V⁰(e(k))的最小值。λ-return代价函数(V^λ＝C^λ)及最优形式分别为

V^λ(e(k))＝U(e(k),u(e(k)))+λV^λ(e(k+1))+(1-λ)V⁰(e(k+1)) (15)

和

其中，是(15)中代价函数V^λ(e(k))的最小值。通常，精确的的/>和V^λ(e(k))无法直接求解，因此本发明通过迭代的算法来获取其近似解。

步骤2、建立迭代算法框架。针对误差系统的优化问题，引入GVI(λ)算法来获取最优控制策略；建立一种新的停止准则以保证策略的最优性和系统稳定性。

首先，选取迭代指标i＝0,1,2,···。然后，构造三个迭代序列，即one-return代价函数序列{V_i ⁰(e(k))}，λ-return代价函数序列{V_i ^λ(e(k))}和控制律序列{v_i(e(k))}。需要注意的是迭代过程并非从开始，而是以广义值迭代的形式开展，即和/>其中Θ⁰和Θ^λ是半正定矩阵。在这里，令Θ⁰＝I₂和Θ^λ＝1.1I₂。当i＝0，迭代控制律为

进一步，得到one-return和λ-return代价函数分别为

和

V₁ ^λ(e(k))＝U(e(k),v₀(e(k)))+λV₀ ^λ(e(k+1))+(1-λ)V₀ ⁰(e(k+1)) (19)

类似地，当i＝1,2,···时，迭代控制律能够通过下式求解：

与此同时，给出对应的one-return和λ-return代价函数的形式为

和

在迭代过程中，定义一个很小的正数δ＝10^-8，当迭代代价函数满足以下两个条件时，

停止更新代价函数和控制律。此时，Lyapunov函数满足V_i ^λ(e(k+1))-V_i ^λ(e(k))＜0，这意味着系统的稳定性和策略最优性都得到了保证。公式(24)成立的前提是代价函数序列单调递减。令初始化的代价函数满足即可实现代价函数序列单调递减。传统HDP方法固有的缺点是代价函数只能被初始化为/>也就是说代价函数是一个单调非减的序列，这使得迭代过程中的控制律无法保证系统稳定性。

步骤3、GVI(λ)算法的神经网络实现。基于观测到的输入输出数据，使用模型网络来近似复杂的污水处理系统；构造一个执行网络来近似控制律；构造one-return和λ-return评判网络分别用来近似one-return和λ-return代价函数。

在这里，四个神经网络都使用三层反向传播神经网络。需要注意的是模型网络用来辨识污水处理系统，而不是辨识误差系统，这样有利于获得更精确的稳定控制u(r(k))。执行网络和两个评判网络的输入都为当前时刻的误差e(k)。执行网络的输出为one-return评判网络的输出为/>λ-return评判网络的输出为/>

步骤3-1根据污水处理过程的输入输出数据，建立模型网络以辨识被控系统。

模型网络的输入为溶解氧和硝态氮的浓度x(k)以及氧传递系数和内回流量u(x(k))，输出为下一时刻溶解氧和硝态氮的浓度的近似值表达式为

其中，θ(·)＝tanh(·)是激活函数，W_m1和W_m2是在[0,1]中随机初始化的权值矩阵，B_m1和B_m2是在[0,1]中随机初始化的阈值向量。该神经网络的训练是根据系统真实输出的溶解氧和硝态氮浓度x(k+1)与神经网络近似产生的溶解氧和硝态氮浓度来开展的。在神经网络训练过程中，定义性能度量为

为了使模型网络的逼近效果更好，本专利使用MATLAB中的神经网络工具箱进行训练，并且选取“trainlm”作为训练方法。在充分的训练结束后，模型网络的权值和阈值保持不变，将被用于迭代过程中产生下一时刻的状态。

本发明通过训练好的模型网络参数来求解稳定控制u(r(k))。将式(3)重写为

因为上式中只有u(r(k))是未知的，所以可以通过数学方法求解公式(27)从而得到稳定控制。

步骤3-2构建one-return和λ-return评判网络分别用来近似迭代过程中的one-return和λ-return代价函数。

在提出的GVI(λ)算法中，两个评判网络的输入都为跟踪误差e(k)。基于权值和one-return评判网络的输出为

其中，是近似的one-return代价函数。基于/>需要逼近的目标值为

因此，one-return评判网络的训练性能度量如下所示：

根据梯度下降法，神经网络权值更新规则如下

其中，:＝表示赋值操作，是one-return评判网络的学习率。

基于权值和/>λ-return评判网络的输出如下所示

其中，是近似的λ-return代价函数，其目标值为

进一步，给出λ-return评判网络的性能度量为

同样地，基于梯度下降法的神经网络权值更新规则为

其中，是λ-return评判网络的学习率。

步骤3-3建立执行网络用来近似迭代过程中的控制律。

特别地，执行网络输出的控制律要求使得两个评判网络的输出最小，这也正是本发明中GVI(λ)算法的特点。考虑理想轨迹与状态之间的误差e(k)作为输入，执行网络的输出为

对于one-return和λ-return的学习方式，给出两种控制律，即

和

在执行网络训练过程中，给出两个性能度量函数

定义执行网络整体的性能度量为

权值矩阵的更新规则表示如下

其中，β_a＝0.02是执行网络的学习率，当(23)和(24)中的停止条件满足时，终止执行网络的训练，这样固定下来的权值用以产生近似最优控制律。

考虑模型网络、两个评判网络和一个执行网络，针对离散时间系统的GVI(λ)算法的整体结构如图2所示。

步骤4、利用GVI(λ)算法解决污水处理中溶解氧和硝态氮浓度的控制问题。由于执行网络和评判网络都是针对误差系统的，所以需要执行网络得到的控制律与稳定控制相加，进一步得到原系统的控制律。

在上述迭代算法过程中，首先计算污水处理系统输出的溶解氧和硝态氮浓度与理想值之间的误差，通过执行网络得到误差控制律u(e(k))。误差控制律和稳定控制相加得到原系统的近似最优控制律u(x(k))，即u(x(k))＝u(e(k))+u(r(k))。将获得的控制律应用到污水处理系统中来控制溶解氧浓度和硝态氮浓度。

本设计的创新点：针对复杂的污水处理过程，考虑高度非线性且系统模型未知等因素，利用输入输出数据得到系统的近似模型。通过将状态和理想值作差构造出误差系统，使用提出的GVI(λ)算法对误差系统进行调节。在迭代过程中，代价函数不需要初始化为零，这拓宽了值迭代算法的应用。该算法不仅能够加速学习过程，而且能够保证系统稳定。从这点意义上来说，迭代指标不需要增加到无穷来获得可容许控制律从而保证系统的稳定性，新的停止准则的提出大大地减少了迭代次数，这有利于实时在线迭代以更好地适应外界变化。

针对污水处理系统中溶解氧和硝态氮浓度的稳定控制问题，首先建立误差系统，然后通过对误差系统的最优调节以实现原系统状态对设定值的跟踪。基于广义值迭代思想和长期预测参数λ，以神经网络为实现工具，提出的GVI(λ)算法能够对误差进行快速调节，并且具有较强的鲁棒性。仿真实验表明，本专利提出的智能跟踪控制器在复杂污水处理过程中具有较好的控制效果。

附图说明

图1基于GVI(λ)算法的污水处理系统智能控制设计结构图。

图2针对离散时间系统的GVI(λ)算法的整体结构。

图3λ-return代价函数收敛过程

图4λ-return评判网络和执行网络的权值矩阵范数收敛过程

图5溶解氧和硝态氮浓度曲线

图6跟踪误差曲线

图7溶解氧浓度曲线

图8硝态氮浓度曲线

图9溶解氧浓度跟踪曲线

图10硝态氮浓度跟踪曲线

具体实施方式

该部分通过具体的实验数据进行污水处理过程溶解氧和硝态氮浓度控制的实验验证。根据污水处理系统的输入输出数据使用模型网络对系统进行辨识。在MATLAB神经网络工具箱的初始化中，设置模型网络隐含层神经元的个数为12，学习率为θ＝0.02。通过收集的26880个数据样本进行训练，一旦模型网络训练完毕，权值和阈值保持不变用以产生下一时刻的状态。特别地，模型网络还被用来评估稳定控制u(r(k))，由于已知r(k)和r(k+1)的值，可以使用MATLAB中的函数“fsolve”解得u(r(k))＝[206,29166]^T。尽管调节的目标为误差，实际上并不需要对误差系统进行建模，只需通过原系统的状态和理想轨迹作差得到误差。

在GVI(λ)算法框架中，One-return和λ-return评判网络的结构为2-10-1，而执行网络的结构为2-10-2。在每一次迭代过程中，one-return和λ-return评判网络以及执行网络的最大训练步为1000，直到误差精度达到10^-8。通常控制器的目标是将溶解氧浓度和硝态氮浓度保持在2mg/L和1mg/L，这意味着r(k)＝[2,1]^T。

执行GVI(λ)算法后，绘制代价函数和τ_i的收敛曲线如图3所示。当迭代次数为13的时候系统满足了稳定条件，当迭代次数为346时满足近似最优条件，可以看到停止准则的两个条件都得以满足。图4展示了λ-return评判网络和执行网络的权值矩阵范数，这表明评判网络和执行网络得到了充分的训练。接下来，使用训练后的执行网络作为控制器进行溶解氧和硝态氮的浓度控制。经过开展仿真实验，污水处理平台的溶解氧和硝态氮浓度的状态x(k)如图5所示，跟踪误差e(k)如图6所示。图5和图6表明，在设计的控制器作用下，溶解氧浓度和硝态氮浓度能够达到理想值，同时误差也逐渐趋向于零向量。

为了验证系统的自适应能力和鲁棒性，在不同时间步赋予设定值不同的数值。同时引入PID控制器作为对比，其中PID的参数主要靠经验凑试法获得。将PID调试出的最佳控制效果和GVI(λ)的控制效果做比较。图7和图8展示了溶解氧浓度和硝态氮浓度在不同控制器作用下的对比曲线。相应的，图9和图10给出了溶解氧浓度和硝态氮浓度在不同控制器作用下的跟踪误差曲线。因为控制变量氧气转换系数的数量级较小，所以图7中两种方法都展现了较好的效果。然而，由于内回流量的变化量比较大，图8中GVI(λ)相对于PID展现出了更好的控制效果。这说明GVI(λ)算法不仅具有快速的响应能力，也具有更强的鲁棒性。值得一提的是，提出的GVI(λ)算法能够在满足停止条件的情况下保证稳定性，这也是大多数方法不具备的特征。以上结果验证了本发明中基于GVI(λ)算法的最优跟踪技术的有效性。

Claims

1.一种基于广义值迭代的污水处理过程控制方法，其特征在于：

步骤1、实施污水处理问题转换

将原始系统状态与理想的设定值作差得到误差系统，对误差系统进行调节使得误差为零；

污水处理过程的动态方程考虑为如下的离散时间非线性系统

x(k+1)＝F(x(k),u(x(k))),k＝0,1,2,… (1)

其中，x(k)是二维的系统状态，表示当前k时刻第五分区的溶解氧质量浓度S_O,5和第二分区的硝态氮质量浓度S_NO,2；u(x(k))是二维的控制变量，代表k时刻的氧气转换系数K_La,5和内回流量Q_a,2；F(·,·)是一个未知的连续系统函数；

定义需要跟踪的理想轨迹即设定值为

r(k+1)＝ψ(r(k)) (2)

其中，r(k)为k时刻系统状态需要跟踪的理想状态，ψ(·)是一个输出恒定为2和1的常数函数；也就是说，在污水处理过程中，期望轨迹r(k+1)＝r(k)＝[2,1]^T保持不变；为了实现对理想轨迹的跟踪，假设存在一个相对于理想轨迹的稳定控制u(r(k))且满足

r(k+1)＝F(r(k),u(r(k))) (3)

定义溶解氧浓度和硝态氮浓度与设定值之间的误差为

e(k)＝x(k)-r(k) (4)

u(e(k))＝u(x(k))-u(r(k)) (5)

根据式(1)-(5)，误差系统归纳为：

其中，k是系统的当前时刻，而j＝k,k+1,k+2…代表k之后的任意时刻；

U(e(j),u(e(j)))＞0是正定的效用函数，表示当前j时间段内的立即成本，代价函数J(e(k))是所有时刻立即成本的总合；Q和R分别为代价函数对于状态变量和控制变量的矩阵，在这里，选取Q＝0.01I₂和R＝0.01I₂，其中I₂是二维的单位矩阵；根据式(7)，误差动态系统的代价函数一般形式为

当式(8)中所示的代价函数最小时即为最优代价函数J^*(e(k))，此时使得代价函数最小的控制律被称为最优控制律u^*(e(k))；最优控制律能够使得式(6)的误差逐渐趋向于零向量，即实现溶解氧浓度和硝态氮浓度对设定值的跟踪；

根据Bellman最优性原理，最优代价函数满足如下HJB方程

使得代价函数最小的最优控制律将通过下式求解

接下来，给出式(8)的不同形式从而引入带有长期预测参数λ的代价函数；定义一步回报(one-return)代价函数、两步回报(two-return)代价函数和n步回报(n-return)代价函数如下所示

将式(11)中的所有项进行平均分配有利于加速学习过程；两步回报的平均分配为C^Av(1 ^,2)＝(1-λ)C⁽¹⁾+λC⁽²⁾，其中λ∈(0,1)是一个权重因子；值得注意的是，每一项元素前面的系数总和为1，即(1-λ)+λ＝1；进一步，得到n步回报的平均值，也称为λ-return代价函数，即

权重因子的取值为λ＝0.985；此外，定义J(·)为one-return代价函数V⁰，而C^λ为λ-return代价函数V^λ；式(12)表明了在求解目标函数C^λ时需要one-return代价函数J(·)和λ-return代价函数C^λ(·)的共同作用；

有两种代价函数，即one-return代价函数和λ-return代价函数；根据上述描述，one-return代价函数(V⁰＝J)和其最优形式分别为

V⁰(e(k))＝U(e(k),u(e(k)))+V⁰(e(k+1)) (13)

和

其中，是(13)中代价函数V⁰(e(k))的最小值；λ-return代价函数(V^λ＝C^λ)及最优形式分别为

V^λ(e(k))＝U(e(k),u(e(k)))+λV^λ(e(k+1))+(1-λ)V⁰(e(k+1)) (15)

和

其中，是(15)中代价函数V^λ(e(k))的最小值；

步骤2、建立迭代算法框架；

首先，选取迭代指标i＝0,1,2,…；然后，构造三个迭代序列，即one-return代价函数序列{V_i ⁰(e(k))}，λ-return代价函数序列{V_i ^λ(e(k))}和控制律序列{v_i(e(k))}；需要注意的是迭代过程并非从开始，而是以广义值迭代的形式开展，即和/>其中Θ⁰和Θ^λ是半正定矩阵；在这里，令Θ⁰＝I₂和Θ^λ＝1.1I₂；当i＝0，迭代控制律为

进一步，得到one-return和λ-return代价函数分别为

和

类似地，当i＝1,2,…时，迭代控制律能够通过下式求解：

与此同时，给出对应的one-return和λ-return代价函数的形式为

和

停止更新代价函数和控制律；此时，Lyapunov函数满足V_i ^λ(e(k+1))-V_i ^λ(e(k))＜0，这意味着系统的稳定性和策略最优性都得到了保证；公式(24)成立的前提是代价函数序列单调递减；令初始化的代价函数满足即可实现代价函数序列单调递减；

步骤3、GVI(λ)算法的神经网络实现；

基于观测到的输入输出数据，使用模型网络来近似复杂的污水处理系统；构造一个执行网络来近似控制律；构造one-return和λ-return评判网络分别用来近似one-return和λ-return代价函数；

在这里，四个神经网络都使用三层反向传播神经网络；模型网络用来辨识污水处理系统；执行网络和两个评判网络的输入都为当前时刻的误差e(k)；执行网络的输出为one-return评判网络的输出为/>λ-return评判网络的输出为/>

步骤3-1根据污水处理过程的输入输出数据，建立模型网络以辨识被控系统；

其中，θ(·)＝tanh(·)是激活函数，W_m1和W_m2是在[0,1]中随机初始化的权值矩阵，B_m1和B_m2是在[0,1]中随机初始化的阈值向量；该神经网络的训练是根据系统真实输出的溶解氧和硝态氮浓度x(k+1)与神经网络近似产生的溶解氧和硝态氮浓度来开展的；在神经网络训练过程中，定义性能度量为

使用MATLAB中的神经网络工具箱进行训练，并且选取“trainlm”作为训练方法；当训练结束后，模型网络的权值和阈值保持不变，将被用于迭代过程中产生下一时刻的状态；

通过训练好的模型网络参数来求解稳定控制u(r(k))；将式(3)重写为

步骤3-2构建one-return和λ-return评判网络分别用来近似迭代过程中的one-return和λ-return代价函数；

在提出的GVI(λ)算法中，两个评判网络的输入都为跟踪误差e(k)；基于权值和/>one-return评判网络的输出为

其中，是近似的one-return代价函数；基于/>需要逼近的目标值为

因此，one-return评判网络的训练性能度量如下所示：

根据梯度下降法，神经网络权值更新规则如下

其中，:＝表示赋值操作，是one-return评判网络的学习率；

基于权值和/>λ-return评判网络的输出如下所示

其中，是近似的λ-return代价函数，其目标值为

进一步，给出λ-return评判网络的性能度量为

同样地，基于梯度下降法的神经网络权值更新规则为

其中，是λ-return评判网络的学习率；

步骤3-3建立执行网络用来近似迭代过程中的控制律；

考虑理想轨迹与状态之间的误差e(k)作为输入，执行网络的输出为

对于one-return和λ-return的学习方式，给出两种控制律，即

和

在执行网络训练过程中，给出两个性能度量函数

定义执行网络整体的性能度量为

权值矩阵的更新规则表示如下

其中，β_a＝0.02是执行网络的学习率，当(23)和(24)中的停止条件满足时，终止执行网络的训练，这样固定下来的权值用以产生近似最优控制律；

步骤4、执行网络得到的控制律与稳定控制相加，进一步得到原系统的控制律；

首先计算污水处理系统输出的溶解氧和硝态氮浓度与理想值之间的误差，通过执行网络得到误差控制律u(e(k))；误差控制律和稳定控制相加得到原系统的近似最优控制律u(x(k))，即u(x(k))＝u(e(k))+u(r(k))；将获得的控制律应用到污水处理系统中来控制溶解氧浓度和硝态氮浓度。