CN112147885B - 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 - Google Patents
一种基于执行-评判结构的溶解氧浓度智能优化控制方法 Download PDFInfo
- Publication number
- CN112147885B CN112147885B CN202010855574.2A CN202010855574A CN112147885B CN 112147885 B CN112147885 B CN 112147885B CN 202010855574 A CN202010855574 A CN 202010855574A CN 112147885 B CN112147885 B CN 112147885B
- Authority
- CN
- China
- Prior art keywords
- network
- execution
- target
- judgment
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D11/00—Control of flow ratio
- G05D11/02—Controlling ratio of two or more flows of fluid or fluent material
- G05D11/13—Controlling ratio of two or more flows of fluid or fluent material characterised by the use of electric means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W10/00—Technologies for wastewater treatment
- Y02W10/10—Biological treatment of water, waste water, or sewage
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于执行‑评判结构的溶解氧浓度智能优化控制方法本发明既属于控制领域,又属于污水处理领域。本发明通过神经网络建立执行‑评判结构中的执行机制与评判机制,并通过离轨策略迭代方法提高了算法对环境的探索能力和在扰动情况下的鲁棒性能。该方法不需要建立污水处理过程模型,利用污水处理过程在线数据对执行机制与评判机制的参数进行更新,可以使评判机制逼近系统在当前控制策略下的系统性能指标,进一步使执行机制在系统性能指标的作用下优化当前控制策略。该方法在污水处理溶解氧浓度跟踪设定值的无模型最优控制问题中取得了较好的效果,有助于提高控制精度和系统稳定性。
Description
技术领域
本发明基于无模型的执行-评判结构智能优化控制方法实现对污水处理中溶解氧浓度设定值的跟踪。污水处理过程是一个具有强干扰的非线性系统,主要体现在污水处理系统进水水量和进水水质条件波动大,无法为净化水质的活性污泥微生物提供恒定的生长环境。控制溶解氧浓度精确跟踪目标设定值,不仅可以保证微生物的净化效率,还可以保证出水水质的稳定。本发明既属于控制领域,又属于污水处理领域。
背景技术
在对全国七个主要地区的656座污水处理厂的调查中发现,按照城镇污水处理厂污染物排放标准(GB 18918-2002)仅有185座污水处理厂达到了一级A排放标准,有将近30%的污水处理厂没有达到一级B排放标准。可见,我国的污水处理厂的出水水质还有待提高。同时,我国污水处理工厂采用的主要工艺中,传统活性污泥法、厌氧-缺氧-好氧法、厌氧-好氧法、氧化沟工艺和序批式活性污泥法的应用数量和规模中占有较大比重。在这些工艺方法中,都需要对活性污泥生化反应中的溶解氧浓度进行控制。对污水溶解氧浓度的最优控制可以提高出水水质质量。因此,本发明具有广阔的应用前景。
本发明提出一种基于执行-评判结构智能优化控制方法控制污水处理溶解氧浓度,该方法通过执行-评判结构无需对控制系统进行建模,通过利用系统运行的在线数据生成数据集,随机选取数据集中的数据对评判网络和执行网络的参数进行更新,使评判网络逼近系统性能指标,执行网络逼近最优的控制策略,避免了对污水处理系统建模不精确的问题,实现了对污水处理溶解氧浓度的精确跟踪控制。
发明内容
本发明获得了一种基于执行-评判结构的溶解氧浓度智能优化控制方法。该方法通过分析污水处理过程中溶解氧浓度的控制特点,提出了溶解氧浓度控制中存在的最优控制问题。借助执行-评判结构智能优化算法,设计了利用系统运行在线数据的无模型溶解氧浓度最优控制方法。采用神经网络学习系统运行的在线数据逼近性能指标函数和最优控制策略。将这一方法运用到污水处理过程中,采用国际水协提出的BSM1基准仿真平台进行仿真实验,验证了该方法的有效性。
一种基于执行-评判结构的溶解氧浓度智能优化控制方法,其特征在于,包括如下步骤:
(1)最优控制问题分析
本发明所研究的污水处理过程可以看作一个离散时间的非线性非仿射系统来描述:
xt+1=F(xt,ut),t=0,1,2,…#(1)
其中t是系统的离散时刻,t可取任意大于0的数。是系统状态,表示t时刻污水处理系统的第五分区溶解氧浓度SDO,5与第五分区溶解氧浓度目标设定值之间的差值。ut是系统t时刻的控制输入。并且ut=ΔKLa5,t=KLa5,t-KLa5,t-1,其中KLa5,t表示t时刻污水处理系统第五分区的氧传递系数,KLa5,t-1表示t时刻的上一时刻t-1时刻的污水处理系统第五分区的氧传递系数,ΔKLa5,t表示t时刻氧传递系数的增量。F(·)是代表了系统动态的未知非线性函数。
系统在t时刻的性能指标J(xt,ut)是效用函数U(xt,ut)从t时刻到∞时刻的累积,可以表示如下:
其中,xt和ut分别表示t时刻系统状态和控制输入。t时刻的效用函数U(xt,ut)等于xt的转置乘以半正定矩阵R再乘以xt加xt+1的转置乘以半正定矩阵K再乘以xt+1,可以表示为本文中,符号上标T表示转置。该算法的目的是,在t时刻通过控制序列来实现最小化系统性能指标J(xt,ut)的目标。以控制序列为变量,最小化的系统性能指标可以得到最优系统性能指标J*(xt,ut)。在本文中,最小化系统性能指标可以使系统跟踪目标设定值的误差降到最小,从而实现控制问题的最优解。
最优系统性能指标表示为:
最优系统性能指标函数J*(xt,ut)由公式(2)和公式(3)进一步推导可以得到:
(2)基于执行-评判结构的智能优化控制器设计
该步骤利用一种基于执行-评判结构的智能优化控制方法来求解最优控制问题中的最优解。执行-评判结构由执行器(Actor)和评判器(Critic)组成,其中执行器负责生成依据系统状态给出控制输入的控制策略,评判器依据系统状态和控制输入给出近似系统性能指标。通过智能优化算法,使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·)。通过评判器对执行器生成的可用控制策略进行评判,使执行器生成的控制策略通过梯度下降不断逼近最优策略。
执行器生成的控制策略表示为μ(·),执行器依据状态xt生成控制输入μ(xt)。定义系统的输入-状态值函数,即Q函数。Q函数是系统在t时刻执行控制输入μ(xt)累积效用函数得到的,Q函数可以表示为:
由公式(6),可以推导得到:
Q(xt,μ(xt))=U(xt,μ(xt))+Q(xt+1,μ(xt+1))#(7)
t时刻最优Q函数表示为Q*(xt,μ(xt))。由公式(4),进一步可以得到:
μ*(xt)是最优控制输入,可以表示为:
该过程所采用的具体算法步骤如下:
①记i为算法迭代次数。第i次迭代中使用的控制策略表示为μi(·),t时刻第i次迭代的初始控制输入表示为μi(xt)。
②在t时刻第i次迭代中构建Q函数:
Qi(xt,μi(xt))=U(xt,μi(xt))+Qi(xt+1,μi(xt+1))#(10)
③通过梯度下降的方式更新控制策略:
在公式(11)中,β是学习率,β∈(0,1)。
④算法迭代次数加1。若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≥γ,则返回步骤②,其中γ是迭代停止条件,γ∈(0,0.1)。若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≤γ,算法停止,得到最优控制输入μ*(xt)=μi+1(xt)。
(3)执行-评判结构智能优化控制方法的神经网络实现
执行-评判结构智能优化算法通过四个三层神经网络实现,分别是执行网络,目标执行网络,评判网络和目标评判网络。其中,执行网络的输入是系统状态,执行网络的输出是控制策略μ(·)的近似,表示为评判网络的输入是系统状态与控制输入组成的向量,评判网络的输出是对Q函数的近似,表示为通过对系统在线运行数据的收集,可以不借助系统模型更新评判网络和执行网络的参数。执行网络的参数通过参数传递规则传给目标执行网络,评判网络的参数通过参数传递规则传给目标评判网络。执行网络用于更新自身与目标执行网络的参数,目标执行网络用于给出系统控制输入。目标评判网络与评判网络结合使评判网络的输出逼近Q函数,同时对执行网络的控制效果进行评判以更新执行网络的参数。
1)评判网络设计:
在公式(12)中,评判网络的输入值是由t时刻系统状态xt和控制输入组成的,其中是目标执行网络依据状态xt的输出,评判网络的输出值是在状态xt对Q函数的近似。wc,h是评判网络输入层至隐含层的网络权值,是评判网络第i次迭代中隐含层至输出层的网络权值。其中,wc,h在评判网络初始化时在(-1,1)之间随机选取后保持不变,在评判网络初始化时在(-1,1)之间随机选取后随着算法的迭代而更新。评判网络的激活函数σ(·)选用双曲正切函数。
2)执行网络设计:
在公式(13)中,执行网络的输入值是t时刻系统状态xt,执行网络的输出值是由控制策略灰据状态xt给出的控制输入估计值wa,h是执行网络输入层至隐含层的网络权值,是执行网络在第i次迭代中隐含层至输出层的网络权值。wa,h在执行网络初始化时在(-1,1)之间随机选取后保持不变,在执行网络初始化时在(-1,1)之间随机选取后基于评判网络的评判而更新。执行网络的激活函数σ(·)选用双曲正切函数。
3)目标评判网络与目标执行网络的设计:
在初始化时,目标执行网络和执行网络的结构和参数相同,目标评判网络和评判网络的结构和参数相同。w′a,h是目标执行网络输入层至隐含层的网络权值,是目标执行网络在第i次迭代中隐含层至输出层的网络权值。w′a,h在目标执行网络初始化时与执行网络传的wa,h相同,并保持不变。在目标执行网络初始化时与执行网络的相同,之后随执行网络迭代而更新。目标执行网络的输入值是t+1时刻系统状态xt+1,目标执行网络的输出值是由目标控制策略依据状态xt+1给出的该网络如公式(14)所示。目标执行网络的激活函数σ(·)选用双曲正切函数。为方便起见,目标执行网络在第i次迭代中依据状态xt+1得到的网络输出表示为即同理可得,目标执行网络在第i次迭代中依据状态xt得到的网络输出表示为并且
w′c,h是目标评判网络输入层至隐含层的网络权值,是目标评判网络第i次迭代中隐含层至输出层的网络权值。w′c,h在目标评判网络初始化时与评判网络的wc,h相同,并保持不变。在目标评判网络初始化时与评判网络的相同,之后随评判网络迭代而更新。目标评判网络的输入值是 习标评判网络的输出值是在状态xt+1对Q函数的近似,该网络如公式(15)所示。目标评判网络的激活函数σ(·)选用双曲正切函数。
4)执行网络与评判网络的更新:
处于状态xt的系统施加控制输入dt后驱动系统转移到状态xt+1,同时可以得到系统t时刻的效用为方便书写取将数据组收集到数据集SM中,其中M表示数据集SM的最大大小。随机从SM中随机选择N个数据组组成更新序列SN,N是整数。控制器采样间隔是τ,M=3000·N。SM随着系统状态的更新而更新,并对数据的更新采取先入后出的原则。
受公式(7)启发,评判网络与目标评判网络之间的关系如下:
评判网络的学习率为βc,βc∈(0,1),评判网络隐含层到输出层的权值可以按照如下公式更新:
执行网络的学习率为βa,βa∈(0,1),执行网络隐含层到输出层的权值可以按照如下公式更新:
该过程所采用的具体算法步骤如下:
①随机初始化评判网络和执行网络的所有权值参数。将执行网络参数赋给目标执行网络,将评判网络参数赋给目标评判网络。初始化系统的迭代次数是i,系统时刻是t。系统容许误差是∈,∈∈(0,0.1)。初始化数据集SM为空集。定义系统近期效用和函数UB,计算在最近的B时刻内系统效用函数的和来判断系统是否达到稳定状态,B是整数,B∈(0,100)。UB的公式表示如下:
②取当前系统时刻为t时刻,迭代次数为i。目标执行网络依据系统状态xt给出t时刻的控制输入系统被控制输入驱动到状态xt+1。计算系统在状态xt的效用rt,将系统返回的数据组依据先入后出的规则存储到数据集SN中。当SM中数据组个数大于B时,计算UB。若UR≤∈,跳转到步骤⑥。
⑤取ζ∈(0,1),更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值:
⑥在控制输入的作用下系统状态从xt转移到xt+1,系统迭代次数加1,返回步骤②。
本发明的创造性主要体现在:
1.一些智能优化控制方法可以在离散时间仿射系统的控制中取得良好的效果,而对于像污水处理过程这样的非仿射系统则需要建立模型来求解。该方法不需要建立被控系统的模型,不仅避免了建立系统所可能造成的误差,同时能够精确的控制非仿射系统跟踪目标设定值。
2.该方法采用离轨策略迭代方式,相对于同轨策略迭代方式可以尽可能的对环境进行探索,还可以避免系统陷入局部最优。对污水处理过程这样入水水量和水质参数变化大的系统来说,对环境积极的探索可以提高系统应对未知扰动的鲁棒性。
附图说明
图1是污水处理仿真基准模型示意图
图2是基于执行-评判结构智能优化算法的结构框图
图3是仿真实验晴天条件下系统入水流量图
图4是跟踪溶解氧浓度设定值的控制效果图
图5是生化反应第五分区氧传递系数曲线图
图6是评判网络隐含层至输出层权值范数的收敛曲线图
图7是执行网络隐含层至输出层权值范数的收敛曲线图
具体实施方式
本发明获得了一种基于执行-评判结构的溶解氧浓度智能优化控制方法,根据污水处理仿真平台BSM1实时生成的数据实现了对仿真实验中第五分区溶解氧浓度设定值为2mg/L的跟踪控制。其中,BSM1是欧盟科学技术合作组织与国际水协合作共同提出的污水处理仿真基准模型。如图1所示,该模型是由生化反应池与二沉池两部分组成的。在生化反应池中,前两个反应区为缺氧区,后三个反应区为好氧区。污水经过生化反应池之后进入二沉池中,并通过沉降作用将污水中的水和污泥进行分离。好氧区通过曝气装置控制反应区的溶解氧浓度,体现在BSM1模型中通过控制氧传递系数来实现对溶解氧浓度的控制。
选取BSM1模型中的晴天入水数据,控制系统的采样周期为60s。具体步骤如下:
(1)最优控制问题分析
将污水处理系统看作一个离散非线性非仿射系统,则污水处理系统状态方程可以由公式(1)表示,取溶解氧浓度设定值为2mg/L。定义系统在t时刻的性能指标J(xt,ut)如公式(2)所示。通过在t时刻得到的控制序列来最小化性能指标以实现跟踪溶解氧浓度设定值。根据动态规划中的最优性原理,通过公式(4)可以得到系统t时刻的最优控制输入 可以由公式(5)表示。
(2)基于执行-评判结构的智能优化控制器设计
该步骤利用一种基于执行-评判结构的智能优化控制方法来求解最优控制问题中的最优解。执行-评判结构由执行器(Actor)和评判器(Critic)组成,其中执行器负责生成依据系统状态给出控制输入的控制策略,评判器依据系统状态和控制输入给出近似系统性能指标。通过智能优化算法,使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·)。通过评判器对执行器生成的可用控制策略进行评判,使执行器生成的控制策略通过梯度下降不断逼近最优策略。
(3)执行-评判结构智能优化算法的神经网络实现
执行-评判结构智能优化算法通过四个三层神经网络实现,分别是执行网络,目标执行网络,评判网络和目标评判网络,在第i次迭代中算法的结构框图如图2所示。其中,评判网络和目标评判网络的结构是2-200-1。评判网络和目标评判网络可以分别由公式(12)和公式(15)表示,这两个网络的输入分别是和这两个网络的输出分别是和执行网络和目标执行网络的结构是1-100-1。执行网络和目标执行网络可以分别由公式(13)和公式(14)表示,这两个网络的输入分别是xt和xt+1,这两个网络的输出分别是和以上四个神经网络都采用双曲正切函数作为激活函数。
该控制结构中网络参数的更新步骤如下:
①初始化评判网络和执行网络的权值参数,随机在(-0.3,0.3)之间选取输入层到隐含层的权值参数,随机在(-0.5,0.5)之间选取隐含层到输出层的权值参数。将执行网络参数赋给目标执行网络,将评判网络参数赋给目标评判网络。系统的迭代次数是i,系统时刻是t。取效用函数中的半正定矩阵R和K为单位阵。取系统容许误差∈=10-5,近期效用和函数中的B=30。初始化数据集SM为空集,取数据集的最大大小M=15000。
②取当前系统时刻为t时刻,迭代次数为i。目标执行网络依据系统状态xt给出t时刻的控制输入系统被控制输入驱动到状态xt+1。计算系统在状态xt的效用rt,将系统返回的数据组依据先入后出的规则存储到数据集SM中。当SM中数据组个数大于B时,计算UB。若UB≤∈,跳转到步骤⑥。
③随机从SM中随机选择N个数据组组成更新序列SN,取N=50。依次选择SN中的数据组,由公式(17)逐个计算各个数据组的评判网络误差。将SN中所有数据组的评判网络误差的和记为评判网络隐含层到输出层的权值按公式(22)更新。
⑤取ζ=0.1,按照公式(23)和(24)更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值。
⑥在控制输入的作用下系统状态从xt转移到xt+1,系统的迭代次数加1,返回步骤②。
Claims (1)
1.一种基于执行-评判结构的溶解氧浓度智能优化控制方法,其特征在于,包括如下步骤:
(1)最优控制问题分析
污水处理过程看作一个离散时间的非线性非仿射系统来描述:
xt+1=F(xt,ut),t=0,1,2,…#(1)
其中t是系统的离散时刻,t可取任意大于0的数;是系统状态,表示t时刻污水处理系统的第五分区溶解氧浓度SDO,5与第五分区溶解氧浓度目标设定值之间的差值;ut是系统t时刻的控制输入;并且ut=ΔKLa5,t=KLa5,t-KLa5,t-1,其中KLa5,t表示t时刻污水处理系统第五分区的氧传递系数,KLa5,t-1表示t时刻的上一时刻t-1时刻的污水处理系统第五分区的氧传递系数,ΔKLa5,t表示t时刻氧传递系数的增量;F(·)是代表了系统动态的未知非线性函数;
系统在t时刻的性能指标J(xt,ut)是效用函数U(xt,ut)从t时刻到∞时刻的累积,表示如下:
其中,xt和ut分别表示t时刻系统状态和控制输入;t时刻的效用函数U(xt,ut)等于xt的转置乘以半正定矩阵R再乘以xt加xt+1的转置乘以半正定矩阵K再乘以xt+1,表示为本文中,符号上标T表示转置;该算法的目的是,在t时刻通过控制序列来实现最小化系统性能指标J(xt,ut)的目标;以控制序列ut为变量,最小化的系统性能指标得到最优系统性能指标J*(xt,ut);在本文中,最小化系统性能指标使系统跟踪目标设定值的误差降到最小,从而实现控制问题的最优解;
最优系统性能指标表示为:
最优系统性能指标函数J*(xt,ut)由公式(2)和公式(3)进一步推导得到:
(2)基于执行-评判结构的智能优化控制器设计
执行-评判结构由执行器(Actor)和评判器(Critic)组成,其中执行器负责生成依据系统状态给出控制输入的控制策略,评判器依据系统状态和控制输入给出近似系统性能指标;通过智能优化算法,使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·);通过评判器对执行器生成的可用控制策略进行评判,使执行器生成的控制策略通过梯度下降不断逼近最优策略;
执行器生成的控制策略表示为μ(·),执行器依据状态xt生成控制输入μ(xt);定义系统的输入-状态值函数,即Q函数;Q函数是系统在t时刻执行控制输入μ(xt)累积效用函数得到的,Q函数表示为:
由公式(6),推导得到:
Q(xt,μ(xt))=U(xt,μ(xt))+Q(xt+1,μ(xt+1))#(7)
t时刻最优Q函数表示为Q*(xt,μ(xt));由公式(4),进一步得到:
μ*(xt)是最优控制输入,表示为:
该过程所采用的具体算法步骤如下:
①记i为算法迭代次数;第i次迭代中使用的控制策略表示为μi(·),t时刻第i次迭代的初始控制输入表示为μi(xt);
②在t时刻第i次迭代中构建Q函数:
Qi(xt,μi(xt))=U(xt,μi(xt))+Qi(xt+1,μi(xt+1))#(10)
③通过梯度下降的方式更新控制策略:
在公式(11)中,β是学习率,β∈(0,1);
④算法迭代次数加1;若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≥γ,则返回步骤②,其中γ是迭代停止条件,γ∈(0,0.1);若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≤γ,算法停止,得到最优控制输入μ*(xt)=μi+1(xt);
(3)执行-评判结构智能优化控制方法的神经网络实现
执行-评判结构智能优化算法通过四个三层神经网络实现,分别是执行网络,目标执行网络,评判网络和目标评判网络;其中,执行网络的输入是系统状态,执行网络的输出是控制策略μ(·)的近似,表示为评判网络的输入是系统状态与控制输入组成的向量,评判网络的输出是对Q函数的近似,表示为通过对系统在线运行数据的收集,不借助系统模型更新评判网络和执行网络的参数;执行网络的参数通过参数传递规则传给目标执行网络,评判网络的参数通过参数传递规则传给目标评判网络;执行网络用于更新自身与目标执行网络的参数,目标执行网络用于给出系统控制输入;目标评判网络与评判网络结合使评判网络的输出逼近Q函数,同时对执行网络的控制效果进行评判以更新执行网络的参数;
1)评判网络设计:
在公式(12)中,评判网络的输入值是由t时刻系统状态xt和控制输入组成的,其中是目标执行网络依据状态xt的输出,评判网络的输出值是在状态xt对Q函数的近似;wc,h是评判网络输入层至隐含层的网络权值,是评判网络第i次迭代中隐含层至输出层的网络权值;其中,wc,h在评判网络初始化时在(-1,1)之间随机选取后保持不变,在评判网络初始化时在(-1,1)之间随机选取后随着算法的迭代而更新;评判网络的激活函数σ(·)选用双曲正切函数;
2)执行网络设计:
在公式(13)中,执行网络的输入值是t时刻系统状态xt,执行网络的输出值是由控制策略依据状态xt给出的控制输入估计值wa,h是执行网络输入层至隐含层的网络权值,是执行网络在第i次迭代中隐含层至输出层的网络权值;wa,h在执行网络初始化时在(-1,1)之间随机选取后保持不变,在执行网络初始化时在(-1,1)之间随机选取后基于评判网络的评判而更新;执行网络的激活函数σ(·)选用双曲正切函数;
3)目标评判网络与目标执行网络的设计:
在初始化时,目标执行网络和执行网络的结构和参数相同,目标评判网络和评判网络的结构和参数相同;w′a,h是目标执行网络输入层至隐含层的网络权值,是目标执行网络在第i次迭代中隐含层至输出层的网络权值;w′a,h在目标执行网络初始化时与执行网络传的wa,h相同,并保持不变;在目标执行网络初始化时与执行网络的相同,之后随执行网络迭代而更新;目标执行网络的输入值是t+1时刻系统状态xt+1,目标执行网络的输出值是由目标控制策略依据状态xt+1给出的该网络如公式(14)所示;目标执行网络的激活函数σ(·)选用双曲正切函数;为方便起见,目标执行网络在第i次迭代中依据状态xt+1得到的网络输出表示为即同理可得,目标执行网络在第i次迭代中依据状态xt得到的网络输出表示为并且
w′c,h是目标评判网络输入层至隐含层的网络权值,是目标评判网络第i次迭代中隐含层至输出层的网络权值;w′c,h在目标评判网络初始化时与评判网络的wc,h相同,并保持不变;在目标评判网络初始化时与评判网络的相同,之后随评判网络迭代而更新;目标评判网络的输入值是目标评判网络的输出值是在状态xt+1对Q函数的近似,该网络如公式(15)所示;目标评判网络的激活函数σ(·)选用双曲正切函数;
4)执行网络与评判网络的更新:
处于状态xt的系统施加控制输入dt后驱动系统转移到状态xt+1,同时得到系统t时刻的效用为方便书写取将数据组收集到数据集SM中,其中M表示数据集SM的最大大小;随机从SM中随机选择N个数据组组成更新序列SN,N是整数;控制器采样间隔是τ,M=3000·N;SM随着系统状态的更新而更新,并对数据的更新采取先入后出的原则;
受公式(7)启发,评判网络与目标评判网络之间的关系如下:
评判网络的学习率为βc,βc∈(0,1),评判网络隐含层到输出层的权值按照如下公式更新:
执行网络的学习率为βa,βa∈(0,1),执行网络隐含层到输出层的权值按照如下公式更新:
该过程所采用的具体算法步骤如下:
①随机初始化评判网络和执行网络的所有权值参数;将执行网络参数赋给目标执行网络,将评判网络参数赋给目标评判网络;初始化系统的迭代次数是i,系统时刻是t;系统容许误差是∈,∈∈(0,0.1);初始化数据集SM为空集;定义系统近期效用和函数UB,计算在最近的B时刻内系统效用函数的和来判断系统是否达到稳定状态,B是整数,B∈(0,100);UB的公式表示如下:
②取当前系统时刻为t时刻,迭代次数为i;目标执行网络依据系统状态xt给出t时刻的控制输入系统被控制输入驱动到状态xt+1;计算系统在状态xt的效用rt,将系统返回的数据组依据先入后出的规则存储到数据集SM中;当SM中数据组个数大于B时,计算UB;若UR≤∈,跳转到步骤⑥;
⑤取ζ∈(0,1),更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值:
⑥在控制输入的作用下系统状态从xt转移到xt+1,系统迭代次数加1,返回步骤②。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010855574.2A CN112147885B (zh) | 2020-08-21 | 2020-08-21 | 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010855574.2A CN112147885B (zh) | 2020-08-21 | 2020-08-21 | 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112147885A CN112147885A (zh) | 2020-12-29 |
CN112147885B true CN112147885B (zh) | 2022-06-07 |
Family
ID=73888990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010855574.2A Active CN112147885B (zh) | 2020-08-21 | 2020-08-21 | 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112147885B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063452A (zh) * | 2021-10-21 | 2022-02-18 | 北京工业大学 | 一种用于污水处理最优跟踪控制的在线adhdp方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103197544A (zh) * | 2013-02-25 | 2013-07-10 | 北京工业大学 | 基于非线性模型预测的污水处理过程多目标控制方法 |
CN107720946A (zh) * | 2017-10-11 | 2018-02-23 | 浙江大学宁波理工学院 | Sbr污水处理工艺中的串级控制方法 |
CN110187635A (zh) * | 2019-04-10 | 2019-08-30 | 浙江中控软件技术有限公司 | 用于连续重整装置的实时优化方法和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025338B (zh) * | 2017-03-27 | 2020-04-03 | 北京工业大学 | 一种基于递归rbf神经网络的污泥膨胀故障辨识方法 |
-
2020
- 2020-08-21 CN CN202010855574.2A patent/CN112147885B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103197544A (zh) * | 2013-02-25 | 2013-07-10 | 北京工业大学 | 基于非线性模型预测的污水处理过程多目标控制方法 |
CN107720946A (zh) * | 2017-10-11 | 2018-02-23 | 浙江大学宁波理工学院 | Sbr污水处理工艺中的串级控制方法 |
CN110187635A (zh) * | 2019-04-10 | 2019-08-30 | 浙江中控软件技术有限公司 | 用于连续重整装置的实时优化方法和设备 |
Non-Patent Citations (1)
Title |
---|
许进超 等."基于自组织模糊神经网络溶解氧控制方法研究".《智能系统学报》.2018,第3卷(第6期),第905-912页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112147885A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Model predictive control of dissolved oxygen concentration based on a self-organizing RBF neural network | |
Han et al. | Dynamic MOPSO-based optimal control for wastewater treatment process | |
AU2021101438A4 (en) | Adaptive control method and system for aeration process | |
CN106873379A (zh) | 一种基于迭代adp算法的污水处理最优控制方法 | |
CN111367181B (zh) | 一种用于污水处理系统的混合驱动智能评判控制方法 | |
CN108536106B (zh) | 一种基于卡尔曼滤波-极限学习机的曝气系统溶解氧在线调控方法 | |
Caraman et al. | Predictive Control of aWastewater Treatment Process | |
Baruch et al. | Adaptive recurrent neural network control of biological wastewater treatment | |
CN112147885B (zh) | 一种基于执行-评判结构的溶解氧浓度智能优化控制方法 | |
CN113189881A (zh) | 一种污水处理多目标优化控制方法及系统 | |
Han et al. | Robust optimal control for anaerobic-anoxic-oxic reactors | |
CN109408896B (zh) | 一种污水厌氧处理产气量多元智能实时监控方法 | |
CN101893852B (zh) | 一种pH中和过程的多目标建模方法 | |
CN112000004B (zh) | 一种利用迭代二次启发式规划的污水处理浓度控制方法 | |
Fu et al. | Dissolved oxygen control system based on the TS fuzzy neural network | |
CN113111576A (zh) | 一种基于混合编码粒子群-长短期记忆神经网络出水氨氮软测量方法 | |
Yetilmezsoy | Modeling studies for the determination of completely mixed activated sludge reactor volume: Steady-state, empirical and ANN applications | |
Qiao et al. | Recurrent neural network-based control for wastewater treatment process | |
Liu et al. | Dynamic multi-objective optimization and multi-units linear active disturbance rejection control for wastewater treatment processes | |
CN112967761B (zh) | 基于自组织模糊神经网络的污水除磷加药计算方法及介质 | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
Chan et al. | A pretreatment method of wastewater based on artificial intelligence and fuzzy neural network system | |
Piotrowski | Comparison of two nonlinear predictive control algorithms for dissolved oxygen tracking problem at wwtp | |
Stîngă et al. | Estimation based control strategies for an aerobic bioprocess | |
Caraman et al. | Predictive control of a wastewater treatment process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |