CN106873379B

CN106873379B - 一种基于迭代adp算法的污水处理最优控制方法

Info

Publication number: CN106873379B
Application number: CN201710205688.0A
Authority: CN
Inventors: 乔俊飞; 王亚清; 柴伟
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2019-12-27
Anticipated expiration: 2037-03-31
Also published as: CN106873379A

Abstract

一种基于迭代ADP算法的污水处理最优控制方法针对污水处理过程(Wastewater treatment process,WWTP)溶解氧浓度和硝态氮浓度的控制问题。该策略中无需知道污水处理过程的非线性动力学模型，只需系统的输入输出观测信息，利用神经网络逼近非线性函数结构的特性，采用神经网络来逼近性能评价指标和最优控制策略，研究了控制器的在线学习算法，取得了较好的效果，提高污水处理的精度和控制器的稳定性、降低了污水处理成本，实现污水处理过程最优控制，从而促使污水处理厂高效稳定运行。

Description

一种基于迭代ADP算法的污水处理最优控制方法

技术领域

本发明涉及到污水处理过程中溶解氧和硝态氮的最优控制方法。根据活性污泥法污水处理工艺流程可知，污水处理控制是通过对污水中的主要控制变量溶解氧和硝态氮进行控制从而达到污水处理出水水质达标的目的。以提高污水处理过程控制性能、促进污水处理过程节能降耗一直是开展污水处理过程智能控制研究的目标。非线性系统的最优控制是控制界研究的焦点问题。污水处理系统是一个大型的非线性系统，易受到进水流量、污泥负荷重的扰动以及进流污水中不确定的混合成分影响，具有高度非线性、大时变、大滞后、干扰严重等特征。通过设计一种基于Bellman最优化原理的自适应动态规划方法来实现污水处理过程的最优控制，既提高了污水处理的控制精度，又提高了控制系统的稳定性，对于实现污水处理过程稳定高效运行具有重要意义。

背景技术

截至2016年3月底，全国城市、县累计建成污水处理厂3910座，每天的污水处理能力达到1.67亿立方米，但是污水处理运行状况却不容乐观，主要存在问题是：污水处理过程中电能消耗大，运行成本高，导致污水处理厂建得起养不起。而污水处理控制确保污水处理质量达标；研究并推广高效、低能耗的污水处理新技术；因此，本发明的研究成果具有广阔的应用前景。

城市污水处理的目标是使得污水出水水质达到国家排放标准。目前我国污水处理厂多采用活性污泥法污水处理工艺，在该工艺流程中，污水处理控制是通过控制污水生化反应池中的溶解氧和硝态氮的浓度，来达到污水出水水质达标的目的。污水厂控制污水处理过程传统上采取PID控制方法实现，但是PID控制由于其增益调度值固定不能适应大时变的情况，而且受参数调整的限制，污水处理控制精度低误差大，抗干扰能力较差，因此，基于污水处理高度非线性、大时变、大滞后、干扰严重的系统特征，研究污水处理智能最优控制方法，提高污水控制精度，保证污水水质达标，同时使系统能够平稳高效运行，已经成为污水过程控制领域的重要课题，

本发明提出一种基于迭代ADP算法的污水处理控制策略，该策略中无需知道污水处理过程的非线性动力学模型，只需系统的输入输出观测信息，搭建了ADP强化学习的污水处理控制体系结构，利用神经网络辨识特性，采用三层BP神经网络来分别逼近性能评价指标和最优控制策略，并通过梯度下降算法分别训练模型网络、评价网络和行动网络，在线实现了污水处理最优控制，取得了良好的控制效果。

发明内容

本发明获得了一种基于迭代ADP算法的污水处理最优控制方法。该方法首先推导了针对非线性系统的基于Bellman最优化原理展开的ADP的控制原理，然后结合强化学习设计了基于ADP控制的体系结构并研究了迭代ADP算法的实现过程，最后利用神经网络的辨识特性，实现了该发明提出的控制策略。并将该方法应用于污水处理控制过程，利用国际水协会提出的BSM1基准仿真平台进行了仿真实验，验证了该控制方法的有效性。

一种基于迭代ADP算法的污水处理最优控制方法设计包括以下步骤：

(1)最优控制问题分析

污水处理系统的动态方程可以描述为一般离散时间非线性系统：

x(k+1)＝f[x(k),u(k)],k＝0,1,… (1)

式中，x(k)∈R²是系统状态(其中R表示线性空间，R²表示二维空间的向量)，表示当前k时刻污水处理系统中第五分区溶解氧S_O,5和第二分区硝态氮的浓度S_NO,2的浓度值，u(k)∈R²(R的含义同上)是系统控制输入，表示k时刻第五分区曝气量K_La,5和第二分区的污泥内回流量Q_a,2，f(·)是未知系统函数，是关于x(k)和u(k)的非线性光滑函数。

系统最优控制问题的性能指标函数J的形式为：

式中，γ为折扣因子，且0<γ≤1；k表示系统当前时刻；j＝k,k+1,…表示k之后的任意时刻；U[x(j),u(j)]>0为效用函数，表示当前j时间段内控制量产生的立即成本；函数J[x(k)]是状态x(k)的代价函数，它依赖于初始状态x(k)。动态规划的目的是选择一个控制序列u(j),j＝k,k+1,…，使得式(2)定义的代价函数J[x(k)]最小化。为方便起见，将J[x(k)]简写为J(k)。

推导式(2)可以得到

J(k)＝U(k)+γJ(k+1) (3)

对于污水处理过程控制而言，最优控制的效果与出水水质直接相关，即与第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2的设定值跟踪效果直接相关，所以设定立即回报为

U＝e^T(k)Qe(k) (4)

式中，e^T(k)表示e(k)的转置，e(k)＝[e₁(k),e₂(k)]^T,e₁(k)＝y₁(k)-R_set1(k),e₂(k)＝y₂(k)-R_set2(k),y₁(k)和y₂(k)分别是从污水处理厂测得的第五分区的溶解氧浓度S_O,5的值和第二分区硝态氮浓度S_NO,2的值，R_set1(k)和R_set2(k)分别是第五分区的溶解氧浓度S_O,5和第二分区硝态氮浓度S_NO,2的跟踪设定值；Q为任意正定矩阵，为了计算方便，通常选为单位矩阵。

那么最优性能指标函数J^*(k)为

根据Bellman最优性原理可知，最优性能指标函数J^*(k)可通过求解以下HJB方程得到

对应的最优控制策略u^*(k)为

(2)基于迭代ADP算法的最优控制器设计

该步骤利用一种新型的迭代自适应动态规划算法来求解最优控制问题HJB方程的最优解。

算法的基本思想是：引入迭代指标i，以任意半正定函数为初始函数，随着迭代次数i从0到∞不断增加，性能指标函数和控制策略重复进行迭代更新，最终使得性能指标函数和控制策略收敛到HJB方程的最优解。

算法迭代过程如下：

首先，令i＝0，初始迭代性能指标函数V₀(x(k))＝0，则控制v₀(x(k))可以通过下式计算

迭代性能指标函数为

对于迭代指标i＝1,2,…迭代ADP算法将在

和

之间进行迭代。

式中，v_i(x(k))表示当前k时刻第i次迭代的控制策略，V_i+1(x(k))表示当前k时刻第i+1次迭代的性能指标函数值。

经过一定次数的迭代之后，性能指标函数V_i(x(k))将一致收敛到最优性能指标函数J^*(k)，此时V_i(x(k))将收敛到最优控制策略u^*(k)。

(3)迭代ADP算法的神经网络实现

该迭代ADP算法采用三个神经网络实现，分别是模型网络、评价网络和行动网络，所有这些网络都选择三层BP神经网络，算法的结构如图2所示，模型网络用来建立未知系统的输入输出关系，评价网络通过评价函数来评价给定策略的影响(策略评价)，行动网络根据评价函数调整当前控制策略(策略提升)，这个过程随时间迭代进行，从而逐渐找到最优控制策略。

假设所选三层BP神经网络输入层和隐含层之间的权矩阵为W，隐含层和输出层之间的权矩阵为V，那么各个神经网络的权值训练过程如下：

①模型网络

模型网络的输入为系统当前k时刻的状态和控制量，X(k)＝[x(k),u(k)]，输出为下一时刻的状态预测值

模型网络的建立目的是辨识污水处理系统模型，逼近系统输出。因此模型网络的训练目标是最小化E_m(k)。

式中，式中，x(k+1)为系统的输出，为模型网络输出，e_m(k)表示神经网络逼近误差。

根据梯度下降法则，模型网络的权值更新公式为

W_m(k+1)＝W_m(k)+ΔW_m(k) (15)

其中α_m>0是模型网络的学习率。

②评价网络

评价网络的输入为系统当前k时刻的状态x(k)，输出为性能评价函数。在该ADP控制结构中，评价网络有两个，如说明书附图2所示，其中评价网络1用于训练网络权值，输出为即当前k时刻第i+1次迭代产生的性能指标估计值，评论网络2用第i次迭代评价网络1训练好的权值参数来计算k+1时刻的状态预测值产生的性能评价指标的值J^[i](k+1)。

其中，V_c和W_c分别表示评价网络输入层到隐含层和隐含层到输出层的权值矩阵，评价网络的建立目的是逼近性能指标函数J^[i+1](k)。

J^[i+1](k)＝U^[i](k)+γJ^[i](k+1) (18)

因此评价网络的训练目标是最小化E_c(k)。

式中，e_c ^[i](k)为第i次迭代的评价函数误差，根据梯度下降法则，评价网络的权值更新公式为

W_c ^[i](k+1)＝W_c ^[i](k)+ΔW_c ^[i](k) (21)

式中，ΔW_c ^[i](k)为训练过程中的权值增量，为求偏导符号，α_c>0为评价网络的学习率。

③执行网络

对于执行网络，以状态向量x(k)作为输入并以最优控制量u(k)作为输出。执行网络的输出表示为

u(k)＝(W_a)^Tσ((V_a)^Tx(k)) (24)

其中，V_a和W_a分别表示执行网络输入层到隐含层和隐含层到输出层的权值矩阵，执行网络的训练以最小化J^[i+1](k)为目标。

由于J^[i+1](k)与近似相等，根据梯度下降法则，得权值更新公式为

W_a(k+1)＝W_a(k)+ΔW_a(k) (25)

这里定义效用函数为

U(k)＝e(k)Ae^T(k)＝(x(k)-R_set(k))A(x(k)-R_set(k))^T (28)

式中，x(k)为系统当前k时刻的状态变量，R_set(k)为系统状态的跟踪设定值。e(k)为当前k时刻的系统状态误差，A取单位矩阵。

则

其中和分别是评价网络和模型网络的输出对输入的导数关系式，β_a>0是执行网络学习率。

本发明的创造性主要体现在：

本发明设计了一种基于迭代ADP算法的污水处理控制方法，该方法的创造性主要体现在：

(1)该方法为解决未知复杂非线性系统提供了技术支撑，不需要知道系统精确的动力学模型，只需要系统输入输出观测信息，利用人工神经网络特有的辨识特性，逼近性能评价指标和最优控制策略，实现ADP最优控制问题。

(2)该方法采用迭代算法使得每一步通过迭代得到的控制策略都是最优解，相对于一步求解得到控制策略的传统方法具有更好的控制效果。

(3)迭代ADP算法在污水处理控制上的应用方面，针对系统提出了将与控制效果直接相关的跟踪误差的方差作为系统的效用函数，来进行迭代自适应动态规划。

以上基于迭代ADP算法的污水处理最优控制系统，属于本发明的保护范围。

本发明提出的基于迭代ADP的污水处理智能控制方法，解决了未知复杂非线性系统的最优控制问题，相对于传统控制器不仅了控制精度，而且提高控制器适应大时变系统的能力。

附图说明

图1是污水处理过程基准模型

图2是迭代ADP算法的控制结构框图

图3是仿真实验雨天条件下系统进水流量图

图4是设定值固定时溶解氧浓度控制效果图

图5是设定值固定时硝态氮浓度控制效果图

图6是第五分区曝气量曲线图

图7是污泥内回流量曲线图

图8是设定值变化时溶解氧浓度控制效果图

图9是设定值变化时硝态氮浓度控制效果图

具体实施方式

BSM1模型是国际水协会(International Water Association,IWA)提出的一个用于测试污水处理过程控制策略的标准模型(如图1所示)，它由生化反应池和二沉池组成，生化反应池分为五个分区，前两个分区为缺氧区，后三个分区为好氧区，生化反应池采用的是IAWQ提出的ASM1数学模型进行模拟，经过生化反应池的污水进入二沉池进行泥水分离，分离后上层为处理后的出水排入受纳水体，下层污泥一部分回流至缺氧区作为生化反应的载体，另一部分作为剩余污泥排出。

该BSM1仿真实验的控制目标将第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2分别保持在2mg/L和1mg/L。控制量分别为第五分区的曝气量K_La,5及从第五分区到第二分区的回流量Q_a，缺省的控制策略为PID控制策略，系统的采样周期为T＝1.25×10^-2h≈45s。

本发明采用基于迭代ADP算法的污水处理控制器对污水处理过程中第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2进行最优控制，设计的控制器的结构图如图2所示。

BSM1模型的入水数据取自实际污水处理厂，包含了三个数据文件，分别包含了晴天、雨天、暴雨天情况下14天的进水信息。该实验中选择雨天的数据进行仿真。具体步骤如下：

(1)污水处理的最优控制问题

污水处理控制过程为一个非线性过程，其状态方程可以由式(1)表示，定义系统最优控制问题的性能指标函数J的形式为式(2)所示，动态规划的目的是选择一个控制序列u(i),i＝k,k+1,…，使得式(2)定义的代价函数J[(k)]最小化。根据Bellman最优性原理可知，最优性能指标函数J^*(k)可通过求解HJB方程式(5)得到，对应的最优控制策略u^*(k)为式(6)所示。

(2)基于迭代ADP算法求解HJB方程

(3)控制器的神经网络实现

迭代ADP算法采用三个神经网络实现，分别是模型网络、评价网络和行动网络，所有这些网络都选择三层BP神经网络，算法的控制结构框图如图2所示。模型网络、评价网络、行动网络的神经元个数分别为4-10-2、2-10-2、2-10-2。模型网络的输入为[K_La,5(k),Q_a(k),y₁(k),y₂(k)]，模型网络的输出为预测状态[y₁(k+1),y₂(k+1)]；评价网络1的输入为系统状态[y₁(k),y₂(k)]，输出为评价指标函数J(k),评价网络2的输入为预测跟踪误差[y₁(k+1),y₂(k+1)]，输出为评价指标函数行动网络的输入为系统状态[y₁(k),y₂(k)]，输出为最优控制变化量[ΔK_La,5(k),ΔQ_a(k)]。

基于BSM1基准仿真平台的仿真实验中，雨天入水流量变化如图3所示。当第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2分别为固定值2mg/L和1mg/L时，验证该迭代ADP算法的控制效果，S_O,5和S_NO,2的状态跟踪曲线分别如图4、5所示，当第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2分别为改变设定值时，对DO浓度的期望值做了如下改变：3-6天设定值为1.8mg/L，8-11天设定值为2.2mg/L，其余时间段均为2mg/L。对硝态氮浓度做了如下改变：3-6天设定值为0.8mg/L，8-11天设定值为1.2mg/L，其余时间段均为1mg/L，验证该迭代ADP算法的控制效果，S_O,5和S_NO,2的状态跟踪曲线分别如图6、7所示。

Claims

1.一种基于迭代ADP算法的污水处理最优控制方法，其特征在于，包括以下步骤：

(1)最优控制问题分析

污水处理系统的动态方程用一般离散时间非线性系统来描述：

x(k+1)＝f[x(k),u(k)],k＝0,1,… (1)

式中，x(k)∈R²是系统状态，表示当前k时刻污水处理系统中第五分区溶解氧S_O,5和第二分区硝态氮的浓度S_NO,2的浓度值，u(k)∈R²是系统控制输入，表示k时刻第五分区曝气量K_La,5和第二分区的污泥内回流量Q_a,2，其中R表示线性空间，R²表示二维空间的向量，f(·)是未知系统函数，是关于x(k)和u(k)的非线性光滑函数；

系统最优控制问题的性能指标函数J的形式为：

式中，γ为折扣因子，且0<γ≤1；k表示系统当前时刻；j＝k,k+1,…表示k之后的任意时刻；U[x(j),u(j)]>0为效用函数，表示当前j时间段内控制量产生的立即成本；函数J[x(k)]是状态x(k)的代价函数，它依赖于初始状态x(k)；动态规划的目的是选择一个控制序列u(j),j＝k,k+1,…，使得式(2)定义的代价函数J[x(k)]最小化；为方便起见，将J[x(k)]简写为J(k)；

推导式(2)得到

J(k)＝U(k)+γJ(k+1) (3)

对于污水处理过程控制而言，系统跟踪控制的效果与出水水质直接相关，即与第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2的设定值跟踪效果直接相关，所以设定立即成本为

U＝e^T(k)Qe(k) (4)

式中，e^T(k)表示e(k)的转置，e(k)＝[e₁(k),e₂(k)]^T,e₁(k)＝y₁(k)-R_set1(k),e₂(k)＝y₂(k)-R_set2(k),y₁(k)和y₂(k)分别是从污水处理厂测得的第五分区的溶解氧浓度SO_,5的值和第二分区硝态氮浓度S_NO,2的值，R_set1(k)和R_set2(k)分别是第五分区的溶解氧浓度S_O,5和第二分区硝态氮浓度S_NO,2的跟踪设定值；Q为任意正定矩阵，为了计算方便，通常选为单位矩阵；

那么最优性能指标函数J^*(k)为

根据Bellman最优性原理，最优性能指标函数J^*(k)通过求解HJB方程得到

对应的最优控制策略u^*(k)为

(2)基于迭代ADP算法的最优控制器设计

该步骤利用一种迭代自适应动态规划算法来求解最优控制问题HJB方程的最优解；

算法的基本思想是：引入迭代指标i，以任意半正定函数为初始函数，随着迭代次数i从0到∞不断增加，性能指标函数和控制策略重复进行迭代更新，最终使得性能指标函数和控制策略收敛到HJB方程的最优解；

算法迭代过程如下：

首先，令i＝0，初始迭代性能指标函数V₀(x(k))＝0，则控制策略v₀(x(k))通过下式计算

迭代性能指标函数为

对于迭代指标i＝1,2,…迭代ADP算法将在

和

之间进行迭代；

式中，v_i(x(k))表示当前k时刻第i次迭代的控制策略，V_i+1(x(k)) 表示当前k时刻第i+1次迭代的性能指标函数值；

经过一定次数的迭代之后，性能指标函数V_i(x(k))将一致收敛到最优性能指标函数J^*(k)，此时V_i(x(k))将收敛到最优控制策略u^*(k)；

(3)迭代ADP算法的神经网络实现

该迭代ADP算法采用三个神经网络实现，分别是模型网络、评价网络和行动网络，所有这些网络都选择三层BP神经网络，模型网络用来建立未知系统的输入输出关系，评价网络通过评价函数来评价给定策略的影响，行动网络根据评价函数调整当前控制策略，这个过程随时间迭代进行，从而逐渐找到最优控制策略；

①模型网络

模型网络的输入为系统当前k时刻的状态和控制量，即输入X(k)＝[x(k),u(k)]，输出为下一时刻的状态预测值

式中，V_m和W_m分别表示模型网络输入层到隐含层和隐含层到输出层的权值矩阵，σ表示隐含层函数，采用sigmoid函数表示；模型网络的建立目的是辨识污水处理系统模型，逼近系统输出；因此模型网络的训练目标是最小化E_m(k)；

式中，x(k+1)为系统的输出，为模型网络输出，e_m(k)表示神经网络逼近误差；

根据梯度下降法则，模型网络的权值更新公式为

W_m(k+1)＝W_m(k)+ΔW_m(k) (15)

其中α_m>0是模型网络的学习率；

②评价网络

评价网络的输入为系统当前k时刻的状态x(k)，输出为性能评价函数；在该ADP控制结构中，评价网络有两个，其中第一评价网络用于训练网络权值，输出为即当前k时刻第i+1次迭代产生的性能指标估计值，评论网络2用第i次迭代第一评价网络训练好的权值参数来计算k+1时刻的状态预测值产生的性能评价指标的值J^[i](k+1)；

其中，V_c和W_c分别表示评价网络输入层到隐含层和隐含层到输出层的权值矩阵，评价网络的建立目的是逼近性能指标函数J^[i+1](k)；

J^[i+1](k)＝U^[i](k)+γJ^[i](k+1) (18)

因此评价网络的训练目标是最小化E_c ^[i](k)；

W_c ^[i](k+1)＝W_c ^[i](k)+ΔW_c ^[i](k) (21)

式中，ΔW_c ^[i](k)为训练过程中的权值增量，为求偏导符号，α_c＞0为评价网络的学习率；

③执行网络

对于执行网络，以状态向量x(k)作为输入并以最优控制量u(k)作为输出；执行网络的输出表示为

u(k)＝(W_a)^Tσ((V_a)^Tx(k)) (24)

其中，V_a和W_a分别表示执行网络输入层到隐含层和隐含层到输出层的权值矩阵，执行网络的训练以最小化J^[i+1](k)为目标；

W_a(k+1)＝W_a(k)+ΔW_a(k) (25)

这里定义效用函数为

U(k)＝e(k)Ae^T(k)＝(x(k)-R_set(k))A(x(k)-R_set(k))^T (28)

式中，x(k)为系统当前k时刻的状态变量，R_set(k)为系统状态的跟踪设定值；e(k)为当前k时刻的系统状态误差，A取单位矩阵；

则

2.根据权利要求1所述的一种基于迭代ADP算法的污水处理最优控制方法，其特征在于：系统由生化反应池和二沉池组成，生化反应池分为五个分区，前两个分区为缺氧区，后三个分区为好氧区，经过生化反应池的污水进入二沉池进行泥水分离，分离后上层为处理后的出水排入受纳水体，下层污泥一部分回流至缺氧区作为生化反应的载体，另一部分作为剩余污泥排出；分别通过对生化反应池中的第五分区曝气量和第二分区的污泥内回流量实现对第五分区溶解氧浓度和第二分区硝态氮浓度的控制；

将第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2分别保持在2mg/L和1mg/L；控制量分别为第五分区的曝气量K_La,5及从第五分区到第二分区的回流量Q_a，2，缺省的控制策略为PID控制策略，系统的采样周期为T＝1.25×10^-2h≈45s；

采用基于迭代ADP算法的最优控制器对污水处理过程中第五分区的溶解氧浓度S_O,5和第二分区的硝态氮浓度S_NO,2进行了最优控制。

3.根据权利要求1所述的一种基于迭代ADP算法的污水处理最优控制方法，其特征在于：模型网络、评价网络、行动网络的神经元个数分别设置为4-10-2、2-10-2、2-10-2；模型网络的输入为[K_La,5(k),Q_a(k),y₁(k),y₂(k)]，模型网络的输出为预测状态[y₁(k+1),y₂(k+1)]；第一评价网络的输入为系统状态[y₁(k),y₂(k)]，输出为评价指标函数J(k),第二评价网络的输入为预测跟踪误差[y₁(k+1),y₂(k+1)]，输出为评价指标函数行动网络的输入为系统状态[y₁(k),y₂(k)]，输出为最优控制变化量[ΔK_La,5(k),ΔQ_a(k)]。