CN111797363B

CN111797363B - 基于数据的污水处理系统自学习轨迹跟踪方法

Info

Publication number: CN111797363B
Application number: CN202010705687.4A
Authority: CN
Inventors: 王鼎; 赵明明; 乔俊飞; 杜胜利
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2024-02-06
Anticipated expiration: 2040-07-21
Also published as: CN111797363A

Abstract

本发明提供一种基于数据的污水处理系统自学习轨迹跟踪方法，利用DHP结构实现非仿射非线性系统的自学习最优跟踪控制算法，并将该方法应用于暴雨天气下的污水处理过程控制。在本发明中，采用数值方法求解与期望轨迹对应的稳定控制，进而建立基于迭代DHP求解非仿射系统最优控制律的数据驱动自学习方法；将该方法应用于溶解氧和硝态氮的浓度控制，以达到污水处理系统良好的轨迹跟踪效果。

Description

基于数据的污水处理系统自学习轨迹跟踪方法

技术领域

本发明属于污水处理技术领域，尤其涉及一种基于数据的污水处理系统自学习轨迹跟踪方法。

背景技术

水是包括人类在内的所有生命赖以生存的基本资源，在人类经济、社会发展过程中扮演着重要角色。我国是一个淡水资源相当缺乏的国家，人均淡水资源量仅为世界的四分之一。随着我国城镇化规模的不断扩大，污水排放量逐年增加，导致的水污染问题也愈发严重，如何实现水资源的可持续利用越来越重要。其中，城市污水处理是改善水资源短缺、水体污染的重要手段。然而，我国很多污水处理厂存在技术设计经验不足的现状，容易产生运行成本高、能量消耗大、水质超标严重等问题。因此，深入研究污水处理过程的控制机理与方法，特别是利用先进的智能控制及优化方法，使得污水处理厂低成本、低能耗、高效率地稳定运行，对于我国污水处理行业的发展具有深远的意义。但是，污水处理系统是一个高度非线性的工业过程控制系统，由于各种因素的混合影响，使得污水处理的流程复杂，呈现出强耦合、大时变以及强干扰等特点。污水处理过程不仅具有典型的非线性特征，而且其数学机理模型难以精确建立，这使得污水处理控制存在很大的难度。对于传统的控制器设计技术，由于自适应能力差、参数固定等原因，使其无法适应污水处理系统的复杂特征，难以达到理想的控制效果。因此，设计自适应能力强且控制效果好的先进控制方法，已经成为污水处理领域的研究热点。本发明提出基于迭代二次启发式规划(Dual heuristicprogramming，DHP)的先进自学习最优跟踪控制技术，用于解决一类污水处理过程的浓度设计问题。

作为一种具有学习能力的智能优化方法，自适应动态规划融合了动态规划、强化学习、函数近似等，能够通过迭代获取非线性Hamilton-Jacobi-Bellman方程的近似解，有效地应对非线性系统的最优控制问题。在自适应动态规划的算法结构中，启发式动态规划和DHP的使用最为广泛。最优跟踪控制问题是一类重要的研究课题，目标是使被控系统跟踪上期望的轨迹。自适应动态规划也可应用于解决最优跟踪控制问题。一般地，将非线性系统与期望轨迹的误差作为状态进行调节，可将最优跟踪问题转换为最优调节问题。虽然自适应动态规划具有良好的自学习和自适应能力，且目前针对离散时间仿射系统已有很多的研究，但是对于非仿射未知系统的最优跟踪控制问题却缺乏系统性的研究成果，尤其在污水处理过程控制领域的应用还比较少。特别地，已有的研究一般是针对晴天和雨天情况下的污水处理控制设计，很少有面向暴雨天气的污水处理过程智能跟踪控制技术，更没有合理设计与期望轨迹对应的稳定控制。

发明内容

在此背景下，针对复杂非仿射系统，本发明提出一种基于DHP的自学习最优跟踪控制算法，并将该方法应用于暴雨天气下的污水处理过程控制。由于包含数据驱动学习过程，所以在处理近似最优调节问题时，不需要已知未知系统的模型，也就是对被控对象的动态信息要求较少。基于自适应动态规划思想求解最优跟踪控制问题的过程可以看作是对新系统的调节过程，即通过一定的处理将被控系统与期望轨迹构造成为一个新的增广系统，将跟踪问题转换为增广系统的调节问题，从而可以求解最优控制律。在本发明中，提出一种数值方法求解与期望轨迹对应的稳定控制，进而建立基于迭代DHP求解非仿射系统最优控制律的自学习方法。最后，将该方法应用于污水处理过程的浓度控制，以达到污水处理系统良好的轨迹跟踪效果。

附图说明

图1污水处理系统智能跟踪控制设计示意图；

图2基于数据的迭代DHP实现结构图；

图3溶解氧浓度的模型网络输出值与平台输出值；

图4硝态氮浓度的模型网络输出值与平台输出值；

图5模型网络输出值与平台输出值的测试误差；

图6溶解氧浓度和硝态氮浓度变化曲线；

图7溶解氧浓度和硝态氮浓度与设定值的跟踪误差；

图8氧气转换系数和内回流量变化曲线；

图9氧气转换系数和内回流量与稳定控制的差值。

具体实施方式

污水处理是一个复杂的工业过程控制系统，具有明显的非线性特征且较难建立精确的数学模型，这使得污水处理过程控制及优化存在很大的难度。本发明通过引入迭代二次启发式规划(Dual heuristic programming，DHP)技术，提出一种数据驱动的污水处理系统自学习轨迹跟踪方法，降低对被控对象的动态模型信息要求，并用以实现污水处理过程中暴雨天气下溶解氧浓度和硝态氮浓度的跟踪控制设计。首先，针对复杂未知系统函数提出一种新颖策略来获取与期望轨迹相对应的稳定控制。然后，根据迭代自适应动态规划算法，给出未知非仿射系统的协状态函数更新公式和迭代控制策略，以近似求解最优跟踪控制问题。最后，通过构造三个神经网络来进行训练学习，促进智能算法的具体实现。实验结果表明，本发明提出的基于迭代DHP的自学习最优跟踪控制技术，能够使得溶解氧浓度和硝态氮浓度快速地跟踪上期望轨迹，从而实现污水处理过程的有效控制。

考虑污水处理过程中一种常用的基准仿真模型(Benchmark Simulation ModelNo.1，BSM1)。该模型主要包括生化反应池和二沉池两大部分。生化反应池共分为五个分区，自左向右分别是第一、二、三、四、五分区。其中，前两个分区为缺氧区，主要是污水处理的反硝化过程；后三个分区为好氧区，主要是污水处理的硝化反应过程。其中，好氧区第五分区中溶解氧质量浓度S_O,5和厌氧区第二分区中硝态氮质量浓度S_NO,2对除氮效果有着重要影响，是污水处理过程控制中的两个主要对象。能否对溶解氧和硝态氮的质量浓度进行有效的控制，是污水处理系统能够稳定运行的关键条件。其中，第五分区的氧气转换系数K_La,5是S_O,5的控制参数，而第五分区到第二分区的内回流量Q_a,2是S_NO,2的控制参数。利用BSM1模型开展污水处理控制实验时，控制器的设计目标是将第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2分别保持在2mg/L和1mg/L的水平。本发明中，通过设计智能跟踪控制器得到最优的输入变量，从而实现对溶解氧浓度和硝态氮浓度的有效控制。基于数据驱动机制的污水处理系统智能跟踪控制设计示意图如图1所示。

根据上述示意图1，本发明提供一种数据驱动的污水处理系统自学习轨迹跟踪方法，包括以下步骤：

步骤1、开展污水处理轨迹跟踪控制的问题转化。将原始系统与期望轨迹进行处理，构造一个新的增广系统，在定义合适代价函数的基础上，将轨迹跟踪问题转换为最优调节问题。

针对暴雨天气情况下污水处理中的最优跟踪问题，首先定义原始系统的状态变量x_k＝[S_O,5,S_NO,2]^T表示由溶解氧和硝态氮的质量浓度组成的二维向量，定义u_x(x_k)＝[K_La,5,Q_a,2]^T作为原始系统的控制输入信号，其中，k表示时间步。接下来，定义d_k＝[2,1]^T表示要跟踪的期望轨迹，u_d(d_k)为期望轨迹所对应的稳定控制输入。为了构造一个新的增广系统，需要定义跟踪误差向量和跟踪控制向量，其中，跟踪误差e_k＝x_k-d_k，跟踪控制u_e(e_k)＝u_x(x_k)-u_d(d_k)。然后，对增广系统进行处理，定义新的效用函数，求解使得跟踪误差系统代价函数最小的控制律，即将跟踪控制问题转换为误差动态的最优调节问题。

针对上述转换问题，考虑以下非仿射动态系统：

x_k+1＝Γ(x_k,u_x(x_k)), (1)

其中，x_k是状态向量，u_x(x_k)是控制向量。对于最优跟踪控制问题，目标是找到最优控制策略使得非仿射系统能够成功跟踪上期望轨迹。特别地，在本发明的污水处理系统中，状态变量x_k＝[S_O,5,S_NO,2]^T表示由溶解氧浓度和硝态氮浓度组成的一个向量。定义期望轨迹如下所示：

d_k+1＝κ(d_k). (2)

本发明中的期望轨迹为d_k＝[2,1]^T。定义跟踪误差向量如下所示：

e_k＝x_k-d_k. (3)

这里需注意，e_k为溶解氧浓度和硝态氮浓度与其设定值的误差向量。此外，定义一个相对于期望轨迹的稳定控制u_d(d_k)，并满足关系式

d_k+1＝Γ(d_k,u_d(d_k)). (4)

这里，u_d(d_k)可以通过求解式(4)获得，且可以表示为如下形式：

通过数值方法求解可以获得期望的稳定控制u_d(d_k)。进而，定义跟踪控制如下所示：

u_e(e_k)＝u_x(x_k)-u_d(d_k). (6)

根据式(1)-(6)，可以获得一个新的增广系统如下所示：

因此，增广系统(7)可以进一步写为

χ_k+1＝φ(χ_k,u_e(e_k)), (8)

其中，和u_e(e_k)分别是增广系统的状态向量和控制向量。为了获取新系统的最优控制策略，定义如下的代价函数且需要找到一个控制序列来使其最小化：

其中，U(χ_l,u_e(e_l))是正定的效用函数且U(0,0)＝0。通常地，效用函数可以定义为如下形式：

其中，Q和R是适当维数的对称正定矩阵。由于此时的效用函数只与误差有关，所以可以认为是对误差动态系统的调节设计。

根据式(10)的形式，误差动态系统的代价函数可以简单表示为

因此，系统(8)的主要部分可以写为

e_k+1＝ψ(e_k,u_e(e_k)). (12)

这里，ψ(0,0)＝0。于是，误差动态系统的代价函数可以重写为

最优代价函数满足如下表达式：

误差动态系统的最优控制策略应该满足

于是，原始系统的最优跟踪控制策略就可以通过

得到，其中，u_d(d_k)可以借助式(5)获取。

步骤2、建立新颖的自适应动态规划控制框架并利用DHP技术实施迭代算法。针对跟踪误差动态，提出改进的值迭代算法来获取非仿射系统的最优控制策略，并建立一种新颖的DHP方法以降低迭代计算的复杂度，促进算法的实现。

为了开展值迭代运算，选取迭代指标i＝0,1,2,K，并构造迭代代价函数J_i(e_k)和迭代控制律u_ei(e_k)。首先，初始化代价函数J₀(·)＝0，相应的控制输入为

这样，代价函数更新为

类似地，在控制律和代价函数之间进行迭代运算，不断通过

来求取控制律，然后利用

更新迭代代价函数。经过一定次数的迭代后，即可得到最优代价函数J^*(e_k)和最优控制策略

然而，对于非仿射系统，直接求解式(19)存在困难，所以需要提出一种新的方法来获取最优控制策略。本发明中，使用梯度下降的方法来寻找u_ei(e_k)并最小化J_i+1(e_k)。这里选取内部迭代指标j＝0,1,2,K，并构造首先，随机初始化u_ei(e_k)作为/>然后，u_ei(e_k)的更新规则就采用如下所示的梯度下降法：

其中，α_u∈(0,1)是内部迭代过程的学习率。在没有对误差动态系统建模的情况下，对于/>的求解存在较大的困难。这里，受到/>和/>的启发，对式(21)进行改写，可以得到如下公式：

注意到在式(22)中，每次迭代步中的控制律u_ei(e_k)都需要求解大大地增加了计算量。下面提出DHP结构来实现上述迭代自适应动态规划算法。

引入一个协状态函数

其中，λ₀(·)＝0。因为结合式(20)，进一步推导可以得到

同样的，对式(24)中涉及的误差模型进行替换，得到的如下迭代关系式：

因此，在迭代DHP算法中，通过在式(22)和(25)之间进行迭代，即可实现对协状态函数序列{λ_i}和控制序列{u_ei}的更新，并可以通过计算协状态函数求解控制策略。基于数据的迭代DHP实现结构示意图如图2所示，其中，表示经过最大次数(即j_max次)内部迭代之后得到的控制律，实线表示信号传播路径，虚线表示反向传播，粗框线表示权值传递。

步骤3、借助神经网络学习技术实现数据驱动的迭代DHP算法。基于污水处理系统暴雨天气下的批量数据，构造模型网络来近似复杂的污水处理系统，并利用数值方法求解稳定控制，构造执行网络和评判网络分别用于近似控制策略和协状态函数，并通过不同神经网络之间的交互学习实现迭代DHP算法。

为了实现上述数据驱动的迭代DHP算法，需要构造模型网络、执行网络和评判网络来近似相关变量。首先，模型网络用来近似未知非仿射系统，其输出为并进一步用于求解期望稳定控制u_d(d_k)。然后，构造评判网络和执行网络并对神经网络进行训练，其中，执行网络的输出为近似的控制策略/>评判网络的输出为近似的协状态函数/>用于实现数据驱动迭代DHP算法的三个神经网络结构已在上述图2中给出。

步骤3-1、基于污水处理过程的实际运行数据，构造模型网络来近似被控动态系统，并用于求解稳定控制。

对于未知非仿射系统，需要构造模型网络来评估系统状态，学习未知的非线性系统动态。利用一个三层的神经网络来构造模型网络，其输出表示为

其中，模型网络的输入为ω_m1和ω_m2是权重矩阵，b₁和b₂是阈值向量，δ(·)是激活函数。该神经网络的训练是根据暴雨天气下的实际进水数据来开展的。这里，定义神经网络训练过程的性能度量如下所示：

采用梯度下降法更新神经网络权重和阈值，更新规则如下所示：

其中，θ∈(0,1)是学习率，符号“:＝”表示赋值运算。这里使用神经网络工具箱进行训练，并选取“trainlm”作为训练方法。通过随机初始化不同的状态向量和控制向量，根据污水处理平台实际的输入和输出运行数据对该网络进行训练。当训练结束后，网络的权值和阈值保持不变，然后就可以使用训练好的神经网络表达式近似原始的污水处理系统。

因为原始系统的动态函数未知，所以式(4)的求解存在困难，可以通过训练好的模型网络表达式来获取u_d(d_k)。考虑将式(4)重写为如下所示：

其中，然后运用数学方法求解公式(29)可以得到u_d(d_k)。需要注意的是，评判网络的输入/>无法直接获取，所以需要模型网络输出/>再由公式得到下一时刻的近似误差。

步骤3-2、构建评判网络并进行训练，以近似迭代过程中的协状态函数。

根据迭代DHP算法，通过评判网络来近似协状态函数的值。评判网络的输入为跟踪误差向量e_k，其输出表示如下：

评判网络训练过程的性能度量如下所示：

同样的，采用梯度下降法更新神经网络权重，更新规则表示如下：

其中，ζ∈(0,1)是评判网络的学习率，经过训练可以得到评判网络的合适权值。

步骤3-3、构建执行网络以近似迭代过程中的控制策略，并结合新颖的迭代控制律表达式开展训练学习。

在执行网络中，输入为期望轨迹与当前状态的误差e_k，输出的表达如下所示：

根据式(22)和(23)，内部迭代中的控制律可以表示如下：

通过j_max次迭代更新，可以获得每个迭代步的最终控制策略u_ei(e_k)。这样，定义执行网络训练过程的性能度量如下所示：

权重矩阵的更新规则表示如下

其中，η∈(0,1)是执行网络的学习率，经过训练可以得到执行网络的合适权值。利用训练好的执行网络，便可以得到误差动态的近似最优控制律本发明是对污水处理系统进行的建模，而没有对误差动态进行建模，所以实现过程中需要通过/>得到模型网络的输入。

步骤4、利用迭代DHP算法完成污水处理系统轨迹跟踪设计。将执行网络最终得到的近似最优控制律和期望稳定控制相加，得到原始模型网络的近似最优跟踪控制律。

根据上述算法过程，对复杂的污水处理系统进行建模。计算原始系统输出的溶解氧和硝态氮浓度与设定值之间的误差，作为执行网络的输入，经过迭代得到误差动态的近似最优控制律将执行网络得到的近似最优控制律和期望稳定控制相加得到/>即/>也就是原始模型网络的近似最优跟踪控制律。将得到的控制律应用到原始污水处理系统中，实现溶解氧浓度和硝态氮浓度对期望值的轨迹跟踪。

本发明的创新之处：针对一类高度非线性且系统模型未知的污水处理系统，在DHP框架下，利用数据驱动的迭代自适应动态规划方法进行控制器设计。针对非仿射系统难以获取最优控制策略的问题，给出了相应的设计方法。基于污水处理系统平台中暴雨天气下的实际数据，对系统进行精确辨识，建立近似的动态模型。构造一个增广系统，将原始系统的最优跟踪问题转换为最优调节问题。构造评判网络和执行网络并进行训练学习，之后由执行网络输出近似最优控制律，进一步得到原始系统的近似最优跟踪控制律，从而实现对暴雨天气下复杂污水处理系统中溶解氧和硝态氮浓度的自学习跟踪控制，使其稳定到期望轨迹。

实验结果

本部分利用具体的实验数据进行暴雨天气下污水处理过程控制的实验验证。在DHP算法中，选取效用函数中的矩阵参数和/>根据暴雨天气情况下污水处理系统的输入输出数据对系统进行建模。为了提高模型网络的精度，设置神经网络隐含层神经元的个数为40，所以模型网络的训练结构为4-40-2，其中，学习率选取θ＝0.02。当模型网络训练结束之后，使用335个测试数据来验证模型网络的性能。首先，在一定范围内随机生成当前状态x_k和控制信号u_x(x_k)，将其分别输入到模型网络和污水处理平台中，然后获取模型网络和污水处理平台下一时间步的状态向量/>和x_k+1。图3同时展示溶解氧浓度对应的模型网络输出值和平台实际输出值，图4同时展示硝态氮浓度对应的模型网络输出值和平台实际输出值。然后，以/>作为误差性能度量，图5给出模型网络输出值/>与平台实际输出值x_k+1之间的测试误差。图3、4、5验证了本发明所建立的模型网络的精确性。

基于构造的模型网络表达式，求解式(29)可以获得与期望轨迹相对应的稳定控制u_d(d_k)。需要注意的是，模型网络的性能直接决定了u_d(d_k)的精确度，所以对模型的精确度要求较高。由于已知d_k和d_k+1的值，以及上述训练好的阈值和权值，可以使用MATLAB中的函数“fsolve”解得u_d(d_k)的值为[157.6,22339.4]^T。

接下来，执行网络和评判网络的训练结构统一选取为2-20-2，学习率一致选为η＝ζ＝0.05。在训练结束后，将执行网络权值用于构造跟踪控制器使得非仿射系统跟踪上期望轨迹。此外，根据污水处理平台的数据，选取溶解氧和硝态氮浓度初始状态为[0.5,3.7]^T。经过开展实验，暴雨天气下污水处理系统的溶解氧浓度和硝态氮浓度的变化趋势如图6所示。在上述控制器的作用下，溶解氧浓度和硝态氮浓度与期望轨迹的误差如图7所示，也即跟踪误差。从图6和图7可以看出，在已设计的跟踪控制器作用下，溶解氧浓度和硝态氮浓度能够成功地跟踪上设定值，这样跟踪误差也快速趋于零向量。此外，图8展示氧气转换系数和污泥内回流量的变化趋势，图9展示氧气转换系数和污泥内回流量与稳定控制之间的差值，即跟踪控制。从图8和图9可以看出两个控制信号，即氧气转换系数和污泥内回流量，也能快速地达到稳定控制所对应的值，这样跟踪控制输入也快速地收敛到零。以上结果验证了本发明所提出的基于迭代DHP的最优跟踪设计方法在污水处理过程中具有良好的控制效果，能够实现暴雨天气下溶解氧浓度和硝态氮浓度的有效控制，达到对设定轨迹快速跟踪的目标，从而保证污水处理系统的正常运行。

针对暴雨情况下污水处理系统中溶解氧浓度和硝态氮浓度的跟踪控制问题，通过构造新的增广系统，以迭代自适应动态规划算法为基础，以具有非线性逼近能力的神经网络为实现工具，提出迭代DHP框架下非仿射系统的轨迹跟踪控制技术。本发明建立先进的最优跟踪控制策略可以用于溶解氧和硝态氮的浓度设计，实际的仿真实验也验证了其在复杂污水处理系统中具有良好的控制效果。

Claims

1.一种基于数据的污水处理系统自学习轨迹跟踪方法，其特征在于，污水处理过程采用的基准仿真模型包括：生化反应池和二沉池两大部分，生化反应池共分为五个分区，自左向右分别是第一、二、三、四、五分区，前两个分区用于缺氧区为污水处理的反硝化过程；后三个分区为好氧区用于污水处理的硝化反应过程，设好氧区第五分区中溶解氧质量浓度为S_O,5，厌氧区第二分区中硝态氮质量浓度为S_NO,2，第五分区的氧气转换系数K_La,5是S_O,5的控制参数，而第五分区到第二分区的内回流量Q_a,2是S_NO,2的控制参数；利用基准仿真模型开展污水处理控制时，控制器的设计目标是将第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2分别保持在2mg/L和1mg/L的水平；其包括以下步骤：

步骤1、污水处理轨迹跟踪控制的问题转化，

针对暴雨天气情况下污水处理中的最优跟踪问题，首先定义原始系统的状态变量x_k＝[S_O,5,S_NO,2]^T表示由溶解氧和硝态氮的质量浓度组成的二维向量，定义u_x(x_k)＝[K_La,5,Q_a,2]^T作为原始系统的控制输入信号，其中，k表示时间步；定义d_k＝[2,1]^T表示要跟踪的期望轨迹，u_d(d_k)为期望轨迹所对应的稳定控制输入；构造一个新的增广系统，需要定义跟踪误差向量和跟踪控制向量，跟踪误差e_k＝x_k-d_k，跟踪控制u_e(e_k)＝u_x(x_k)-u_d(d_k)，对增广系统进行处理，定义新的效用函数，求解使得跟踪误差系统代价函数最小的控制律，即将跟踪控制问题转换为误差动态的最优调节问题；

步骤2、建立新颖的自适应动态规划控制框架并利用DHP技术实施迭代算法，针对跟踪误差动态，采用改进的值迭代算法来获取非仿射系统的最优控制策略，

选取迭代指标i＝0,1,2,…，并构造迭代代价函数J_i(e_k)和迭代控制律u_ei(e_k)，首先，初始化代价函数J₀(·)＝0，相应的控制输入为：

这样，代价函数更新为

类似地，在控制律和代价函数之间进行迭代运算，不断通过

来求取控制律，然后利用

更新迭代代价函数，经过一定次数的迭代后，即可得到最优代价函数J^*(e_k)和最优控制策略

使用梯度下降的方法来寻找u_ei(e_k)并最小化J_i+1(e_k)，选取内部迭代指标j＝0,1,2,...，并构造首先，随机初始化u_ei(e_k)作为/>然后，u_ei(e_k)的更新规则就采用如下所示的梯度下降法：

其中，α_u∈(0,1)是内部迭代过程的学习率；

对式(21)进行改写，进一步得到如下公式：

进一步采用DHP结构来实现上述迭代自适应动态规划算法，引入一个协状态函数

其中，λ₀(·)＝0，由于结合式(20)，进一步推导得到

在迭代DHP算法中，通过在式(22)和(25)之间进行迭代，即可实现对协状态函数序列{λ_i}和控制序列{u_ei}的更新，并通过计算协状态函数求解控制策略；

步骤3、基于污水处理系统暴雨天气下的批量数据，构造模型网络来近似复杂的污水处理系统，并利用数值方法求解稳定控制，构造执行网络和评判网络分别用于近似控制策略和协状态函数，并通过不同神经网络之间的交互学习实现基于数据的迭代DHP，

构造模型网络、执行网络和评判网络来近似相关变量；首先，模型网络用来近似未知非仿射系统，其输出为并进一步用于求解期望稳定控制u_d(d_k)；然后，构造评判网络和执行网络并对神经网络进行训练，其中，执行网络的输出为近似的控制策略/>评判网络的输出为近似的协状态函数/>

步骤4、利用迭代DHP算法完成污水处理系统轨迹跟踪，将执行网络最终得到的近似最优控制律和期望稳定控制相加，得到原始模型网络的近似最优跟踪控制律，

根据上述算法过程，对复杂的污水处理系统进行建模；计算原始系统输出的溶解氧和硝态氮浓度与设定值之间的误差，作为执行网络的输入，经过迭代得到误差动态的近似最优控制律将执行网络得到的近似最优控制律和期望稳定控制相加得到/>即即原始模型网络的近似最优跟踪控制律；将得到的控制律/>应用到原始污水处理系统中，实现溶解氧浓度和硝态氮浓度对期望值的轨迹跟踪。

2.如权利要求1所述的基于数据的污水处理系统自学习轨迹跟踪方法，其特征在于，步骤1具体为：针对转换问题，考虑以下非仿射动态系统：

x_k+1＝Γ(x_k,u_x(x_k)) (1)

其中，x_k是状态向量，u_x(x_k)是控制向量，对于最优跟踪控制问题，目标是找到最优控制策略使得非仿射系统能够成功跟踪上期望轨迹；在污水处理系统中，状态变量x_k＝[S_O,5,S_NO,2]^T表示由溶解氧浓度和硝态氮浓度组成的一个向量，定义期望轨迹如下所示：

d_k+1＝κ(d_k) (2)

期望轨迹为d_k＝[2,1]^T，定义跟踪误差向量如下所示：

e_k＝x_k-d_k (3)

e_k为溶解氧浓度和硝态氮浓度与其设定值的误差向量，同时定义一个相对于期望轨迹的稳定控制u_d(d_k)，并满足关系式

d_k+1＝Γ(d_k,u_d(d_k)) (4)

u_d(d_k)通过求解式(4)获得，且表示为如下形式：

通过数值方法求解获得期望的稳定控制u_d(d_k)，定义跟踪控制如下所示：

u_e(e_k)＝u_x(x_k)-u_d(d_k) (6)

根据式(1)-(6)，获得一个新的增广系统如下所示：

因此，增广系统(7)进一步写为：

χ_k+1＝φ(χ_k,u_e(e_k)) (8)

其中，和u_e(e_k)分别是增广系统的状态向量和控制向量；为了获取新系统的最优控制策略，定义如下的代价函数且需要找到一个控制序列来使其最小化：

其中，U(χ_l,u_e(e_l))是正定的效用函数且U(0,0)＝0，效用函数定义为如下形式：

其中，Q和R是适当维数的对称正定矩阵；

根据式(10)的形式，误差动态系统的代价函数简单表示为

因此，系统(8)的主要部分写为

e_k+1＝ψ(e_k,u_e(e_k)) (12)

ψ(0,0)＝0，误差动态系统的代价函数重写为

最优代价函数满足如下表达式：

误差动态系统的最优控制策略应该满足

原始系统的最优跟踪控制策略就通过

得到，其中，u_d(d_k)借助式(5)获取。

3.如权利要求1所述的基于数据的污水处理系统自学习轨迹跟踪方法，其特征在于，步骤3具体为：

步骤3-1、基于污水处理过程的实际运行数据，构造模型网络来近似被控动态系统，并用于求解稳定控制，

对于未知非仿射系统，构造模型网络来评估系统状态，学习未知的非线性系统动态，利用一个三层的神经网络来构造模型网络，其输出表示为

其中，模型网络的输入为ω_m1和ω_m2是权重矩阵，b₁和b₂是阈值向量，δ(·)是激活函数，该神经网络的训练是根据暴雨天气下的实际进水数据来开展的，定义神经网络训练过程的性能度量如下所示：

其中，θ∈(0,1)是学习率，符号“:＝”表示赋值运算，

通过训练好的模型网络表达式来获取u_d(d_k)，考虑将式(4)重写为如下所示：

其中，然后运用数学方法求解公式(29)得到u_d(d_k)；

步骤3-2、构建评判网络并进行训练，以近似迭代过程中的协状态函数，

根据迭代DHP算法，通过评判网络来近似协状态函数的值，评判网络的输入为跟踪误差向量e_k，其输出表示如下：

评判网络训练过程的性能度量如下所示：

其中，ζ∈(0,1)是评判网络的学习率，经过训练得到评判网络的合适权值；

步骤3-3、构建执行网络以近似迭代过程中的控制策略，并结合新颖的迭代控制律表达式开展训练学习，

根据式(22)和(23)，内部迭代中的控制律表示如下：

通过j_max次迭代更新，获得每个迭代步的最终控制策略u_ei(e_k)，定义执行网络训练过程的性能度量如下所示：

权重矩阵的更新规则表示如下

其中，η∈(0,1)是执行网络的学习率，经过训练得到执行网络的合适权值；利用训练好的执行网络，得到误差动态的近似最优控制律