CN112147885B - 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 - Google Patents

一种基于执行-评判结构的溶解氧浓度智能优化控制方法 Download PDF

Info

Publication number
CN112147885B
CN112147885B CN202010855574.2A CN202010855574A CN112147885B CN 112147885 B CN112147885 B CN 112147885B CN 202010855574 A CN202010855574 A CN 202010855574A CN 112147885 B CN112147885 B CN 112147885B
Authority
CN
China
Prior art keywords
network
execution
target
judgment
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010855574.2A
Other languages
English (en)
Other versions
CN112147885A (zh
Inventor
乔俊飞
杨茹越
王鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010855574.2A priority Critical patent/CN112147885B/zh
Publication of CN112147885A publication Critical patent/CN112147885A/zh
Application granted granted Critical
Publication of CN112147885B publication Critical patent/CN112147885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D11/00Control of flow ratio
    • G05D11/02Controlling ratio of two or more flows of fluid or fluent material
    • G05D11/13Controlling ratio of two or more flows of fluid or fluent material characterised by the use of electric means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W10/00Technologies for wastewater treatment
    • Y02W10/10Biological treatment of water, waste water, or sewage

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于执行‑评判结构的溶解氧浓度智能优化控制方法本发明既属于控制领域,又属于污水处理领域。本发明通过神经网络建立执行‑评判结构中的执行机制与评判机制,并通过离轨策略迭代方法提高了算法对环境的探索能力和在扰动情况下的鲁棒性能。该方法不需要建立污水处理过程模型,利用污水处理过程在线数据对执行机制与评判机制的参数进行更新,可以使评判机制逼近系统在当前控制策略下的系统性能指标,进一步使执行机制在系统性能指标的作用下优化当前控制策略。该方法在污水处理溶解氧浓度跟踪设定值的无模型最优控制问题中取得了较好的效果,有助于提高控制精度和系统稳定性。

Description

一种基于执行-评判结构的溶解氧浓度智能优化控制方法
技术领域
本发明基于无模型的执行-评判结构智能优化控制方法实现对污水处理中溶解氧浓度设定值的跟踪。污水处理过程是一个具有强干扰的非线性系统,主要体现在污水处理系统进水水量和进水水质条件波动大,无法为净化水质的活性污泥微生物提供恒定的生长环境。控制溶解氧浓度精确跟踪目标设定值,不仅可以保证微生物的净化效率,还可以保证出水水质的稳定。本发明既属于控制领域,又属于污水处理领域。
背景技术
在对全国七个主要地区的656座污水处理厂的调查中发现,按照城镇污水处理厂污染物排放标准(GB 18918-2002)仅有185座污水处理厂达到了一级A排放标准,有将近30%的污水处理厂没有达到一级B排放标准。可见,我国的污水处理厂的出水水质还有待提高。同时,我国污水处理工厂采用的主要工艺中,传统活性污泥法、厌氧-缺氧-好氧法、厌氧-好氧法、氧化沟工艺和序批式活性污泥法的应用数量和规模中占有较大比重。在这些工艺方法中,都需要对活性污泥生化反应中的溶解氧浓度进行控制。对污水溶解氧浓度的最优控制可以提高出水水质质量。因此,本发明具有广阔的应用前景。
本发明提出一种基于执行-评判结构智能优化控制方法控制污水处理溶解氧浓度,该方法通过执行-评判结构无需对控制系统进行建模,通过利用系统运行的在线数据生成数据集,随机选取数据集中的数据对评判网络和执行网络的参数进行更新,使评判网络逼近系统性能指标,执行网络逼近最优的控制策略,避免了对污水处理系统建模不精确的问题,实现了对污水处理溶解氧浓度的精确跟踪控制。
发明内容
本发明获得了一种基于执行-评判结构的溶解氧浓度智能优化控制方法。该方法通过分析污水处理过程中溶解氧浓度的控制特点,提出了溶解氧浓度控制中存在的最优控制问题。借助执行-评判结构智能优化算法,设计了利用系统运行在线数据的无模型溶解氧浓度最优控制方法。采用神经网络学习系统运行的在线数据逼近性能指标函数和最优控制策略。将这一方法运用到污水处理过程中,采用国际水协提出的BSM1基准仿真平台进行仿真实验,验证了该方法的有效性。
一种基于执行-评判结构的溶解氧浓度智能优化控制方法,其特征在于,包括如下步骤:
(1)最优控制问题分析
本发明所研究的污水处理过程可以看作一个离散时间的非线性非仿射系统来描述:
xt+1=F(xt,ut),t=0,1,2,…#(1)
其中t是系统的离散时刻,t可取任意大于0的数。
Figure BDA0002644970030000021
是系统状态,表示t时刻污水处理系统的第五分区溶解氧浓度SDO,5与第五分区溶解氧浓度目标设定值
Figure BDA0002644970030000022
之间的差值。ut是系统t时刻的控制输入。并且ut=ΔKLa5,t=KLa5,t-KLa5,t-1,其中KLa5,t表示t时刻污水处理系统第五分区的氧传递系数,KLa5,t-1表示t时刻的上一时刻t-1时刻的污水处理系统第五分区的氧传递系数,ΔKLa5,t表示t时刻氧传递系数的增量。F(·)是代表了系统动态的未知非线性函数。
系统在t时刻的性能指标J(xt,ut)是效用函数U(xt,ut)从t时刻到∞时刻的累积,可以表示如下:
Figure BDA0002644970030000031
其中,xt和ut分别表示t时刻系统状态和控制输入。t时刻的效用函数U(xt,ut)等于xt的转置乘以半正定矩阵R再乘以xt加xt+1的转置乘以半正定矩阵K再乘以xt+1,可以表示为
Figure BDA0002644970030000032
本文中,符号上标T表示转置。该算法的目的是,在t时刻通过控制序列
Figure BDA0002644970030000037
来实现最小化系统性能指标J(xt,ut)的目标。以控制序列
Figure BDA0002644970030000038
为变量,最小化的系统性能指标可以得到最优系统性能指标J*(xt,ut)。在本文中,最小化系统性能指标可以使系统跟踪目标设定值的误差降到最小,从而实现控制问题的最优解。
最优系统性能指标表示为:
Figure BDA0002644970030000033
最优系统性能指标函数J*(xt,ut)由公式(2)和公式(3)进一步推导可以得到:
Figure BDA0002644970030000034
根据动态规划中的最优性原理,通过公式(4),系统t时刻的最优控制输入
Figure BDA0002644970030000035
可以表示为:
Figure BDA0002644970030000036
(2)基于执行-评判结构的智能优化控制器设计
该步骤利用一种基于执行-评判结构的智能优化控制方法来求解最优控制问题中的最优解。执行-评判结构由执行器(Actor)和评判器(Critic)组成,其中执行器负责生成依据系统状态给出控制输入的控制策略,评判器依据系统状态和控制输入给出近似系统性能指标。通过智能优化算法,使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·)。通过评判器对执行器生成的可用控制策略进行评判,使执行器生成的控制策略通过梯度下降不断逼近最优策略。
执行器生成的控制策略表示为μ(·),执行器依据状态xt生成控制输入μ(xt)。定义系统的输入-状态值函数,即Q函数。Q函数是系统在t时刻执行控制输入μ(xt)累积效用函数得到的,Q函数可以表示为:
Figure BDA0002644970030000041
由公式(6),可以推导得到:
Q(xt,μ(xt))=U(xt,μ(xt))+Q(xt+1,μ(xt+1))#(7)
t时刻最优Q函数表示为Q*(xt,μ(xt))。由公式(4),进一步可以得到:
Figure BDA0002644970030000042
μ*(xt)是最优控制输入,可以表示为:
Figure BDA0002644970030000043
该过程所采用的具体算法步骤如下:
①记i为算法迭代次数。第i次迭代中使用的控制策略表示为μi(·),t时刻第i次迭代的初始控制输入表示为μi(xt)。
②在t时刻第i次迭代中构建Q函数:
Qi(xt,μi(xt))=U(xt,μi(xt))+Qi(xt+1,μi(xt+1))#(10)
③通过梯度下降的方式更新控制策略:
Figure BDA0002644970030000044
在公式(11)中,β是学习率,β∈(0,1)。
④算法迭代次数加1。若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≥γ,则返回步骤②,其中γ是迭代停止条件,γ∈(0,0.1)。若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≤γ,算法停止,得到最优控制输入μ*(xt)=μi+1(xt)。
(3)执行-评判结构智能优化控制方法的神经网络实现
执行-评判结构智能优化算法通过四个三层神经网络实现,分别是执行网络,目标执行网络,评判网络和目标评判网络。其中,执行网络的输入是系统状态,执行网络的输出是控制策略μ(·)的近似,表示为
Figure BDA0002644970030000051
评判网络的输入是系统状态与控制输入组成的向量,评判网络的输出是对Q函数的近似,表示为
Figure BDA0002644970030000052
通过对系统在线运行数据的收集,可以不借助系统模型更新评判网络和执行网络的参数。执行网络的参数通过参数传递规则传给目标执行网络,评判网络的参数通过参数传递规则传给目标评判网络。执行网络用于更新自身与目标执行网络的参数,目标执行网络用于给出系统控制输入。目标评判网络与评判网络结合使评判网络的输出逼近Q函数,同时对执行网络的控制效果进行评判以更新执行网络的参数。
1)评判网络设计:
Figure BDA0002644970030000053
在公式(12)中,评判网络的输入值
Figure BDA0002644970030000054
是由t时刻系统状态xt和控制输入
Figure BDA0002644970030000055
组成的,其中
Figure BDA0002644970030000056
是目标执行网络依据状态xt的输出,评判网络的输出值是在状态xt对Q函数的近似。wc,h是评判网络输入层至隐含层的网络权值,
Figure BDA0002644970030000057
是评判网络第i次迭代中隐含层至输出层的网络权值。其中,wc,h在评判网络初始化时在(-1,1)之间随机选取后保持不变,
Figure BDA0002644970030000058
在评判网络初始化时在(-1,1)之间随机选取后随着算法的迭代而更新。评判网络的激活函数σ(·)选用双曲正切函数。
2)执行网络设计:
Figure BDA0002644970030000061
在公式(13)中,执行网络的输入值是t时刻系统状态xt,执行网络的输出值是由控制策略
Figure BDA0002644970030000062
灰据状态xt给出的控制输入估计值
Figure BDA0002644970030000063
wa,h是执行网络输入层至隐含层的网络权值,
Figure BDA0002644970030000064
是执行网络在第i次迭代中隐含层至输出层的网络权值。wa,h在执行网络初始化时在(-1,1)之间随机选取后保持不变,
Figure BDA0002644970030000065
在执行网络初始化时在(-1,1)之间随机选取后基于评判网络的评判而更新。执行网络的激活函数σ(·)选用双曲正切函数。
3)目标评判网络与目标执行网络的设计:
在初始化时,目标执行网络和执行网络的结构和参数相同,目标评判网络和评判网络的结构和参数相同。w′a,h是目标执行网络输入层至隐含层的网络权值,
Figure BDA0002644970030000066
是目标执行网络在第i次迭代中隐含层至输出层的网络权值。w′a,h在目标执行网络初始化时与执行网络传的wa,h相同,并保持不变。
Figure BDA0002644970030000067
在目标执行网络初始化时与执行网络的
Figure BDA0002644970030000068
相同,之后随执行网络迭代而更新。目标执行网络的输入值是t+1时刻系统状态xt+1,目标执行网络的输出值是由目标控制策略
Figure BDA0002644970030000069
依据状态xt+1给出的
Figure BDA00026449700300000610
该网络如公式(14)所示。目标执行网络的激活函数σ(·)选用双曲正切函数。为方便起见,目标执行网络在第i次迭代中依据状态xt+1得到的网络输出表示为
Figure BDA00026449700300000611
Figure BDA00026449700300000612
同理可得,目标执行网络在第i次迭代中依据状态xt得到的网络输出表示为
Figure BDA00026449700300000613
并且
Figure BDA00026449700300000614
Figure BDA00026449700300000615
w′c,h是目标评判网络输入层至隐含层的网络权值,
Figure BDA00026449700300000616
是目标评判网络第i次迭代中隐含层至输出层的网络权值。w′c,h在目标评判网络初始化时与评判网络的wc,h相同,并保持不变。
Figure BDA0002644970030000071
在目标评判网络初始化时与评判网络的
Figure BDA0002644970030000072
相同,之后随评判网络迭代而更新。目标评判网络的输入值是
Figure BDA0002644970030000073
Figure BDA0002644970030000074
习标评判网络的输出值是在状态xt+1对Q函数的近似,该网络如公式(15)所示。目标评判网络的激活函数σ(·)选用双曲正切函数。
Figure BDA0002644970030000075
4)执行网络与评判网络的更新:
处于状态xt的系统施加控制输入dt后驱动系统转移到状态xt+1,同时可以得到系统t时刻的效用
Figure BDA0002644970030000076
为方便书写取
Figure BDA0002644970030000077
将数据组
Figure BDA0002644970030000078
收集到数据集SM中,其中M表示数据集SM的最大大小。随机从SM中随机选择N个数据组组成更新序列SN,N是整数。控制器采样间隔是τ,
Figure BDA0002644970030000079
M=3000·N。SM随着系统状态的更新而更新,并对数据的更新采取先入后出的原则。
受公式(7)启发,评判网络与目标评判网络之间的关系如下:
Figure BDA00026449700300000710
评判网络在第i次迭代中的误差定义为
Figure BDA00026449700300000711
根据公式(16),可以将辅助误差
Figure BDA00026449700300000712
表示为:
Figure BDA00026449700300000713
评判网络的学习率为βc,βc∈(0,1),评判网络隐含层到输出层的权值可以按照如下公式更新:
Figure BDA00026449700300000714
执行网络的误差定义为
Figure BDA0002644970030000081
辅助误差
Figure BDA0002644970030000082
可以表示为:
Figure BDA0002644970030000083
执行网络的学习率为βa,βa∈(0,1),执行网络隐含层到输出层的权值可以按照如下公式更新:
Figure BDA0002644970030000084
该过程所采用的具体算法步骤如下:
①随机初始化评判网络和执行网络的所有权值参数。将执行网络参数赋给目标执行网络,将评判网络参数赋给目标评判网络。初始化系统的迭代次数是i,系统时刻是t。系统容许误差是∈,∈∈(0,0.1)。初始化数据集SM为空集。定义系统近期效用和函数UB,计算在最近的B时刻内系统效用函数的和来判断系统是否达到稳定状态,B是整数,B∈(0,100)。UB的公式表示如下:
Figure BDA0002644970030000085
②取当前系统时刻为t时刻,迭代次数为i。目标执行网络依据系统状态xt给出t时刻的控制输入
Figure BDA0002644970030000086
系统被控制输入驱动到状态xt+1。计算系统在状态xt的效用rt,将系统返回的数据组
Figure BDA0002644970030000087
依据先入后出的规则存储到数据集SN中。当SM中数据组个数大于B时,计算UB。若UR≤∈,跳转到步骤⑥。
③依次选择SN中的数据组,由公式(17)逐个计算各个数据组的评判网络误差。将SN中所有数据组的评判网络误差的和记为
Figure BDA0002644970030000088
评判网络隐含层到输出层的权值按如下方式更新:
Figure BDA0002644970030000091
④依据公式(19)计算执行网络误差
Figure BDA0002644970030000092
并按公式(20)更新执行网络隐含层到输出层的权值。
⑤取ζ∈(0,1),更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值:
Figure BDA0002644970030000093
Figure BDA0002644970030000094
⑥在控制输入的作用下系统状态从xt转移到xt+1,系统迭代次数加1,返回步骤②。
本发明的创造性主要体现在:
1.一些智能优化控制方法可以在离散时间仿射系统的控制中取得良好的效果,而对于像污水处理过程这样的非仿射系统则需要建立模型来求解。该方法不需要建立被控系统的模型,不仅避免了建立系统所可能造成的误差,同时能够精确的控制非仿射系统跟踪目标设定值。
2.该方法采用离轨策略迭代方式,相对于同轨策略迭代方式可以尽可能的对环境进行探索,还可以避免系统陷入局部最优。对污水处理过程这样入水水量和水质参数变化大的系统来说,对环境积极的探索可以提高系统应对未知扰动的鲁棒性。
附图说明
图1是污水处理仿真基准模型示意图
图2是基于执行-评判结构智能优化算法的结构框图
图3是仿真实验晴天条件下系统入水流量图
图4是跟踪溶解氧浓度设定值的控制效果图
图5是生化反应第五分区氧传递系数曲线图
图6是评判网络隐含层至输出层权值范数的收敛曲线图
图7是执行网络隐含层至输出层权值范数的收敛曲线图
具体实施方式
本发明获得了一种基于执行-评判结构的溶解氧浓度智能优化控制方法,根据污水处理仿真平台BSM1实时生成的数据实现了对仿真实验中第五分区溶解氧浓度设定值为2mg/L的跟踪控制。其中,BSM1是欧盟科学技术合作组织与国际水协合作共同提出的污水处理仿真基准模型。如图1所示,该模型是由生化反应池与二沉池两部分组成的。在生化反应池中,前两个反应区为缺氧区,后三个反应区为好氧区。污水经过生化反应池之后进入二沉池中,并通过沉降作用将污水中的水和污泥进行分离。好氧区通过曝气装置控制反应区的溶解氧浓度,体现在BSM1模型中通过控制氧传递系数来实现对溶解氧浓度的控制。
选取BSM1模型中的晴天入水数据,控制系统的采样周期为60s。具体步骤如下:
(1)最优控制问题分析
将污水处理系统看作一个离散非线性非仿射系统,则污水处理系统状态方程可以由公式(1)表示,取溶解氧浓度设定值
Figure BDA0002644970030000101
为2mg/L。定义系统在t时刻的性能指标J(xt,ut)如公式(2)所示。通过在t时刻得到的控制序列
Figure BDA0002644970030000102
来最小化性能指标以实现跟踪溶解氧浓度设定值。根据动态规划中的最优性原理,通过公式(4)可以得到系统t时刻的最优控制输入
Figure BDA0002644970030000103
Figure BDA0002644970030000104
可以由公式(5)表示。
(2)基于执行-评判结构的智能优化控制器设计
该步骤利用一种基于执行-评判结构的智能优化控制方法来求解最优控制问题中的最优解。执行-评判结构由执行器(Actor)和评判器(Critic)组成,其中执行器负责生成依据系统状态给出控制输入的控制策略,评判器依据系统状态和控制输入给出近似系统性能指标。通过智能优化算法,使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·)。通过评判器对执行器生成的可用控制策略进行评判,使执行器生成的控制策略通过梯度下降不断逼近最优策略。
(3)执行-评判结构智能优化算法的神经网络实现
执行-评判结构智能优化算法通过四个三层神经网络实现,分别是执行网络,目标执行网络,评判网络和目标评判网络,在第i次迭代中算法的结构框图如图2所示。其中,评判网络和目标评判网络的结构是2-200-1。评判网络和目标评判网络可以分别由公式(12)和公式(15)表示,这两个网络的输入分别是
Figure BDA0002644970030000111
Figure BDA0002644970030000112
这两个网络的输出分别是
Figure BDA0002644970030000113
Figure BDA0002644970030000114
执行网络和目标执行网络的结构是1-100-1。执行网络和目标执行网络可以分别由公式(13)和公式(14)表示,这两个网络的输入分别是xt和xt+1,这两个网络的输出分别是
Figure BDA0002644970030000115
Figure BDA0002644970030000116
以上四个神经网络都采用双曲正切函数作为激活函数。
该控制结构中网络参数的更新步骤如下:
①初始化评判网络和执行网络的权值参数,随机在(-0.3,0.3)之间选取输入层到隐含层的权值参数,随机在(-0.5,0.5)之间选取隐含层到输出层的权值参数。将执行网络参数赋给目标执行网络,将评判网络参数赋给目标评判网络。系统的迭代次数是i,系统时刻是t。取效用函数中的半正定矩阵R和K为单位阵。取系统容许误差∈=10-5,近期效用和函数中的B=30。初始化数据集SM为空集,取数据集的最大大小M=15000。
②取当前系统时刻为t时刻,迭代次数为i。目标执行网络依据系统状态xt给出t时刻的控制输入
Figure BDA0002644970030000121
系统被控制输入驱动到状态xt+1。计算系统在状态xt的效用rt,将系统返回的数据组
Figure BDA0002644970030000122
依据先入后出的规则存储到数据集SM中。当SM中数据组个数大于B时,计算UB。若UB≤∈,跳转到步骤⑥。
③随机从SM中随机选择N个数据组组成更新序列SN,取N=50。依次选择SN中的数据组,由公式(17)逐个计算各个数据组的评判网络误差。将SN中所有数据组的评判网络误差的和记为
Figure BDA0002644970030000123
评判网络隐含层到输出层的权值按公式(22)更新。
④依据公式(19)计算执行网络误差
Figure BDA0002644970030000124
并按公式(20)更新执行网络隐含层到输出层的权值。
⑤取ζ=0.1,按照公式(23)和(24)更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值。
⑥在控制输入的作用下系统状态从xt转移到xt+1,系统的迭代次数加1,返回步骤②。
在BSM1仿真实验中,干燥天气情况下的入水流量变化如图3所示。验证该控制方法在干燥天气的入水数据条件下对BSM1第五分区溶解氧浓度的跟踪效果,结果如图4所示。第五分区氧传递系数的变化可由图5表示。为了更好的观察评判网络和执行网络的权值
Figure BDA0002644970030000125
Figure BDA0002644970030000126
的收敛情况,在BSM1中连续两次使用干燥天气入水数据对控制系统进行仿真实验,可以得到权值
Figure BDA0002644970030000127
Figure BDA0002644970030000128
范数的收敛曲线如图6和图7所示。

Claims (1)

1.一种基于执行-评判结构的溶解氧浓度智能优化控制方法,其特征在于,包括如下步骤:
(1)最优控制问题分析
污水处理过程看作一个离散时间的非线性非仿射系统来描述:
xt+1=F(xt,ut),t=0,1,2,…#(1)
其中t是系统的离散时刻,t可取任意大于0的数;
Figure FDA0002644970020000011
是系统状态,表示t时刻污水处理系统的第五分区溶解氧浓度SDO,5与第五分区溶解氧浓度目标设定值
Figure FDA0002644970020000012
之间的差值;ut是系统t时刻的控制输入;并且ut=ΔKLa5,t=KLa5,t-KLa5,t-1,其中KLa5,t表示t时刻污水处理系统第五分区的氧传递系数,KLa5,t-1表示t时刻的上一时刻t-1时刻的污水处理系统第五分区的氧传递系数,ΔKLa5,t表示t时刻氧传递系数的增量;F(·)是代表了系统动态的未知非线性函数;
系统在t时刻的性能指标J(xt,ut)是效用函数U(xt,ut)从t时刻到∞时刻的累积,表示如下:
Figure FDA0002644970020000013
其中,xt和ut分别表示t时刻系统状态和控制输入;t时刻的效用函数U(xt,ut)等于xt的转置乘以半正定矩阵R再乘以xt加xt+1的转置乘以半正定矩阵K再乘以xt+1,表示为
Figure FDA0002644970020000014
本文中,符号上标T表示转置;该算法的目的是,在t时刻通过控制序列
Figure FDA0002644970020000019
来实现最小化系统性能指标J(xt,ut)的目标;以控制序列ut为变量,最小化的系统性能指标得到最优系统性能指标J*(xt,ut);在本文中,最小化系统性能指标使系统跟踪目标设定值的误差降到最小,从而实现控制问题的最优解;
最优系统性能指标表示为:
Figure FDA0002644970020000015
最优系统性能指标函数J*(xt,ut)由公式(2)和公式(3)进一步推导得到:
Figure FDA0002644970020000016
根据动态规划中的最优性原理,通过公式(4),系统t时刻的最优控制输入
Figure FDA0002644970020000017
表示为:
Figure FDA0002644970020000018
(2)基于执行-评判结构的智能优化控制器设计
执行-评判结构由执行器(Actor)和评判器(Critic)组成,其中执行器负责生成依据系统状态给出控制输入的控制策略,评判器依据系统状态和控制输入给出近似系统性能指标;通过智能优化算法,使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·);通过评判器对执行器生成的可用控制策略进行评判,使执行器生成的控制策略通过梯度下降不断逼近最优策略;
执行器生成的控制策略表示为μ(·),执行器依据状态xt生成控制输入μ(xt);定义系统的输入-状态值函数,即Q函数;Q函数是系统在t时刻执行控制输入μ(xt)累积效用函数得到的,Q函数表示为:
Figure FDA0002644970020000021
由公式(6),推导得到:
Q(xt,μ(xt))=U(xt,μ(xt))+Q(xt+1,μ(xt+1))#(7)
t时刻最优Q函数表示为Q*(xt,μ(xt));由公式(4),进一步得到:
Figure FDA0002644970020000022
μ*(xt)是最优控制输入,表示为:
Figure FDA0002644970020000023
该过程所采用的具体算法步骤如下:
①记i为算法迭代次数;第i次迭代中使用的控制策略表示为μi(·),t时刻第i次迭代的初始控制输入表示为μi(xt);
②在t时刻第i次迭代中构建Q函数:
Qi(xt,μi(xt))=U(xt,μi(xt))+Qi(xt+1,μi(xt+1))#(10)
③通过梯度下降的方式更新控制策略:
Figure FDA0002644970020000024
在公式(11)中,β是学习率,β∈(0,1);
④算法迭代次数加1;若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≥γ,则返回步骤②,其中γ是迭代停止条件,γ∈(0,0.1);若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≤γ,算法停止,得到最优控制输入μ*(xt)=μi+1(xt);
(3)执行-评判结构智能优化控制方法的神经网络实现
执行-评判结构智能优化算法通过四个三层神经网络实现,分别是执行网络,目标执行网络,评判网络和目标评判网络;其中,执行网络的输入是系统状态,执行网络的输出是控制策略μ(·)的近似,表示为
Figure FDA0002644970020000031
评判网络的输入是系统状态与控制输入组成的向量,评判网络的输出是对Q函数的近似,表示为
Figure FDA0002644970020000032
通过对系统在线运行数据的收集,不借助系统模型更新评判网络和执行网络的参数;执行网络的参数通过参数传递规则传给目标执行网络,评判网络的参数通过参数传递规则传给目标评判网络;执行网络用于更新自身与目标执行网络的参数,目标执行网络用于给出系统控制输入;目标评判网络与评判网络结合使评判网络的输出逼近Q函数,同时对执行网络的控制效果进行评判以更新执行网络的参数;
1)评判网络设计:
Figure FDA0002644970020000033
在公式(12)中,评判网络的输入值
Figure FDA0002644970020000034
是由t时刻系统状态xt和控制输入
Figure FDA0002644970020000035
组成的,其中
Figure FDA0002644970020000036
是目标执行网络依据状态xt的输出,评判网络的输出值是在状态xt对Q函数的近似;wc,h是评判网络输入层至隐含层的网络权值,
Figure FDA0002644970020000037
是评判网络第i次迭代中隐含层至输出层的网络权值;其中,wc,h在评判网络初始化时在(-1,1)之间随机选取后保持不变,
Figure FDA0002644970020000038
在评判网络初始化时在(-1,1)之间随机选取后随着算法的迭代而更新;评判网络的激活函数σ(·)选用双曲正切函数;
2)执行网络设计:
Figure FDA0002644970020000039
在公式(13)中,执行网络的输入值是t时刻系统状态xt,执行网络的输出值是由控制策略
Figure FDA00026449700200000310
依据状态xt给出的控制输入估计值
Figure FDA00026449700200000311
wa,h是执行网络输入层至隐含层的网络权值,
Figure FDA00026449700200000312
是执行网络在第i次迭代中隐含层至输出层的网络权值;wa,h在执行网络初始化时在(-1,1)之间随机选取后保持不变,
Figure FDA00026449700200000313
在执行网络初始化时在(-1,1)之间随机选取后基于评判网络的评判而更新;执行网络的激活函数σ(·)选用双曲正切函数;
3)目标评判网络与目标执行网络的设计:
在初始化时,目标执行网络和执行网络的结构和参数相同,目标评判网络和评判网络的结构和参数相同;w′a,h是目标执行网络输入层至隐含层的网络权值,
Figure FDA0002644970020000041
是目标执行网络在第i次迭代中隐含层至输出层的网络权值;w′a,h在目标执行网络初始化时与执行网络传的wa,h相同,并保持不变;
Figure FDA0002644970020000042
在目标执行网络初始化时与执行网络的
Figure FDA0002644970020000043
相同,之后随执行网络迭代而更新;目标执行网络的输入值是t+1时刻系统状态xt+1,目标执行网络的输出值是由目标控制策略
Figure FDA0002644970020000044
依据状态xt+1给出的
Figure FDA0002644970020000045
该网络如公式(14)所示;目标执行网络的激活函数σ(·)选用双曲正切函数;为方便起见,目标执行网络在第i次迭代中依据状态xt+1得到的网络输出表示为
Figure FDA0002644970020000046
Figure FDA0002644970020000047
同理可得,目标执行网络在第i次迭代中依据状态xt得到的网络输出表示为
Figure FDA0002644970020000048
并且
Figure FDA0002644970020000049
Figure FDA00026449700200000410
w′c,h是目标评判网络输入层至隐含层的网络权值,
Figure FDA00026449700200000411
是目标评判网络第i次迭代中隐含层至输出层的网络权值;w′c,h在目标评判网络初始化时与评判网络的wc,h相同,并保持不变;
Figure FDA00026449700200000412
在目标评判网络初始化时与评判网络的
Figure FDA00026449700200000413
相同,之后随评判网络迭代而更新;目标评判网络的输入值是
Figure FDA00026449700200000414
目标评判网络的输出值是在状态xt+1对Q函数的近似,该网络如公式(15)所示;目标评判网络的激活函数σ(·)选用双曲正切函数;
Figure FDA00026449700200000415
4)执行网络与评判网络的更新:
处于状态xt的系统施加控制输入dt后驱动系统转移到状态xt+1,同时得到系统t时刻的效用
Figure FDA00026449700200000416
为方便书写取
Figure FDA00026449700200000417
将数据组
Figure FDA00026449700200000418
收集到数据集SM中,其中M表示数据集SM的最大大小;随机从SM中随机选择N个数据组组成更新序列SN,N是整数;控制器采样间隔是τ,
Figure FDA00026449700200000419
M=3000·N;SM随着系统状态的更新而更新,并对数据的更新采取先入后出的原则;
受公式(7)启发,评判网络与目标评判网络之间的关系如下:
Figure FDA00026449700200000420
评判网络在第i次迭代中的误差定义为
Figure FDA0002644970020000051
根据公式(16),将辅助误差
Figure FDA0002644970020000052
表示为:
Figure FDA0002644970020000053
评判网络的学习率为βc,βc∈(0,1),评判网络隐含层到输出层的权值按照如下公式更新:
Figure FDA0002644970020000054
执行网络的误差定义为
Figure FDA0002644970020000055
辅助误差
Figure FDA0002644970020000056
表示为:
Figure FDA0002644970020000057
执行网络的学习率为βa,βa∈(0,1),执行网络隐含层到输出层的权值按照如下公式更新:
Figure FDA0002644970020000058
该过程所采用的具体算法步骤如下:
①随机初始化评判网络和执行网络的所有权值参数;将执行网络参数赋给目标执行网络,将评判网络参数赋给目标评判网络;初始化系统的迭代次数是i,系统时刻是t;系统容许误差是∈,∈∈(0,0.1);初始化数据集SM为空集;定义系统近期效用和函数UB,计算在最近的B时刻内系统效用函数的和来判断系统是否达到稳定状态,B是整数,B∈(0,100);UB的公式表示如下:
Figure FDA0002644970020000059
②取当前系统时刻为t时刻,迭代次数为i;目标执行网络依据系统状态xt给出t时刻的控制输入
Figure FDA00026449700200000510
系统被控制输入驱动到状态xt+1;计算系统在状态xt的效用rt,将系统返回的数据组
Figure FDA00026449700200000511
依据先入后出的规则存储到数据集SM中;当SM中数据组个数大于B时,计算UB;若UR≤∈,跳转到步骤⑥;
③依次选择SN中的数据组,由公式(17)逐个计算各个数据组的评判网络误差;将SN中所有数据组的评判网络误差的和记为
Figure FDA00026449700200000512
评判网络隐含层到输出层的权值按如下方式更新:
Figure FDA0002644970020000061
④依据公式(19)计算执行网络误差
Figure FDA0002644970020000062
并按公式(20)更新执行网络隐含层到输出层的权值;
⑤取ζ∈(0,1),更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值:
Figure FDA0002644970020000063
Figure FDA0002644970020000064
⑥在控制输入的作用下系统状态从xt转移到xt+1,系统迭代次数加1,返回步骤②。
CN202010855574.2A 2020-08-21 2020-08-21 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 Active CN112147885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010855574.2A CN112147885B (zh) 2020-08-21 2020-08-21 一种基于执行-评判结构的溶解氧浓度智能优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010855574.2A CN112147885B (zh) 2020-08-21 2020-08-21 一种基于执行-评判结构的溶解氧浓度智能优化控制方法

Publications (2)

Publication Number Publication Date
CN112147885A CN112147885A (zh) 2020-12-29
CN112147885B true CN112147885B (zh) 2022-06-07

Family

ID=73888990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010855574.2A Active CN112147885B (zh) 2020-08-21 2020-08-21 一种基于执行-评判结构的溶解氧浓度智能优化控制方法

Country Status (1)

Country Link
CN (1) CN112147885B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114063452A (zh) * 2021-10-21 2022-02-18 北京工业大学 一种用于污水处理最优跟踪控制的在线adhdp方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197544A (zh) * 2013-02-25 2013-07-10 北京工业大学 基于非线性模型预测的污水处理过程多目标控制方法
CN107720946A (zh) * 2017-10-11 2018-02-23 浙江大学宁波理工学院 Sbr污水处理工艺中的串级控制方法
CN110187635A (zh) * 2019-04-10 2019-08-30 浙江中控软件技术有限公司 用于连续重整装置的实时优化方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025338B (zh) * 2017-03-27 2020-04-03 北京工业大学 一种基于递归rbf神经网络的污泥膨胀故障辨识方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197544A (zh) * 2013-02-25 2013-07-10 北京工业大学 基于非线性模型预测的污水处理过程多目标控制方法
CN107720946A (zh) * 2017-10-11 2018-02-23 浙江大学宁波理工学院 Sbr污水处理工艺中的串级控制方法
CN110187635A (zh) * 2019-04-10 2019-08-30 浙江中控软件技术有限公司 用于连续重整装置的实时优化方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许进超 等."基于自组织模糊神经网络溶解氧控制方法研究".《智能系统学报》.2018,第3卷(第6期),第905-912页. *

Also Published As

Publication number Publication date
CN112147885A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
Han et al. Model predictive control of dissolved oxygen concentration based on a self-organizing RBF neural network
Han et al. Dynamic MOPSO-based optimal control for wastewater treatment process
AU2021101438A4 (en) Adaptive control method and system for aeration process
CN106873379A (zh) 一种基于迭代adp算法的污水处理最优控制方法
CN111367181B (zh) 一种用于污水处理系统的混合驱动智能评判控制方法
CN108536106B (zh) 一种基于卡尔曼滤波-极限学习机的曝气系统溶解氧在线调控方法
Caraman et al. Predictive Control of aWastewater Treatment Process
Baruch et al. Adaptive recurrent neural network control of biological wastewater treatment
CN112147885B (zh) 一种基于执行-评判结构的溶解氧浓度智能优化控制方法
CN113189881A (zh) 一种污水处理多目标优化控制方法及系统
Han et al. Robust optimal control for anaerobic-anoxic-oxic reactors
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN101893852B (zh) 一种pH中和过程的多目标建模方法
CN112000004B (zh) 一种利用迭代二次启发式规划的污水处理浓度控制方法
Fu et al. Dissolved oxygen control system based on the TS fuzzy neural network
CN113111576A (zh) 一种基于混合编码粒子群-长短期记忆神经网络出水氨氮软测量方法
Yetilmezsoy Modeling studies for the determination of completely mixed activated sludge reactor volume: Steady-state, empirical and ANN applications
Qiao et al. Recurrent neural network-based control for wastewater treatment process
Liu et al. Dynamic multi-objective optimization and multi-units linear active disturbance rejection control for wastewater treatment processes
CN112967761B (zh) 基于自组织模糊神经网络的污水除磷加药计算方法及介质
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
Chan et al. A pretreatment method of wastewater based on artificial intelligence and fuzzy neural network system
Piotrowski Comparison of two nonlinear predictive control algorithms for dissolved oxygen tracking problem at wwtp
Stîngă et al. Estimation based control strategies for an aerobic bioprocess
Caraman et al. Predictive control of a wastewater treatment process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant