CN112147885B

CN112147885B - 一种基于执行-评判结构的溶解氧浓度智能优化控制方法

Info

Publication number: CN112147885B
Application number: CN202010855574.2A
Authority: CN
Inventors: 乔俊飞; 杨茹越; 王鼎
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-06-07
Anticipated expiration: 2040-08-21
Also published as: CN112147885A

Abstract

一种基于执行‑评判结构的溶解氧浓度智能优化控制方法本发明既属于控制领域，又属于污水处理领域。本发明通过神经网络建立执行‑评判结构中的执行机制与评判机制，并通过离轨策略迭代方法提高了算法对环境的探索能力和在扰动情况下的鲁棒性能。该方法不需要建立污水处理过程模型，利用污水处理过程在线数据对执行机制与评判机制的参数进行更新，可以使评判机制逼近系统在当前控制策略下的系统性能指标，进一步使执行机制在系统性能指标的作用下优化当前控制策略。该方法在污水处理溶解氧浓度跟踪设定值的无模型最优控制问题中取得了较好的效果，有助于提高控制精度和系统稳定性。

Description

一种基于执行-评判结构的溶解氧浓度智能优化控制方法

技术领域

本发明基于无模型的执行-评判结构智能优化控制方法实现对污水处理中溶解氧浓度设定值的跟踪。污水处理过程是一个具有强干扰的非线性系统，主要体现在污水处理系统进水水量和进水水质条件波动大，无法为净化水质的活性污泥微生物提供恒定的生长环境。控制溶解氧浓度精确跟踪目标设定值，不仅可以保证微生物的净化效率，还可以保证出水水质的稳定。本发明既属于控制领域，又属于污水处理领域。

背景技术

在对全国七个主要地区的656座污水处理厂的调查中发现，按照城镇污水处理厂污染物排放标准(GB 18918-2002)仅有185座污水处理厂达到了一级A排放标准，有将近30％的污水处理厂没有达到一级B排放标准。可见，我国的污水处理厂的出水水质还有待提高。同时，我国污水处理工厂采用的主要工艺中，传统活性污泥法、厌氧-缺氧-好氧法、厌氧-好氧法、氧化沟工艺和序批式活性污泥法的应用数量和规模中占有较大比重。在这些工艺方法中，都需要对活性污泥生化反应中的溶解氧浓度进行控制。对污水溶解氧浓度的最优控制可以提高出水水质质量。因此，本发明具有广阔的应用前景。

本发明提出一种基于执行-评判结构智能优化控制方法控制污水处理溶解氧浓度，该方法通过执行-评判结构无需对控制系统进行建模，通过利用系统运行的在线数据生成数据集，随机选取数据集中的数据对评判网络和执行网络的参数进行更新，使评判网络逼近系统性能指标，执行网络逼近最优的控制策略，避免了对污水处理系统建模不精确的问题，实现了对污水处理溶解氧浓度的精确跟踪控制。

发明内容

本发明获得了一种基于执行-评判结构的溶解氧浓度智能优化控制方法。该方法通过分析污水处理过程中溶解氧浓度的控制特点，提出了溶解氧浓度控制中存在的最优控制问题。借助执行-评判结构智能优化算法，设计了利用系统运行在线数据的无模型溶解氧浓度最优控制方法。采用神经网络学习系统运行的在线数据逼近性能指标函数和最优控制策略。将这一方法运用到污水处理过程中，采用国际水协提出的BSM1基准仿真平台进行仿真实验，验证了该方法的有效性。

一种基于执行-评判结构的溶解氧浓度智能优化控制方法，其特征在于，包括如下步骤：

(1)最优控制问题分析

本发明所研究的污水处理过程可以看作一个离散时间的非线性非仿射系统来描述：

x_t+1＝F(x_t，u_t)，t＝0，1，2，…#(1)

其中t是系统的离散时刻，t可取任意大于0的数。

是系统状态，表示t时刻污水处理系统的第五分区溶解氧浓度S_DO，5与第五分区溶解氧浓度目标设定值

之间的差值。u_t是系统t时刻的控制输入。并且u_t＝ΔK_La_5，t＝K_La_5，t-K_La_5，t-1，其中K_La_5，t表示t时刻污水处理系统第五分区的氧传递系数，K_La_5，t-1表示t时刻的上一时刻t-1时刻的污水处理系统第五分区的氧传递系数，ΔK_La_5，t表示t时刻氧传递系数的增量。F(·)是代表了系统动态的未知非线性函数。

系统在t时刻的性能指标J(x_t，u_t)是效用函数U(x_t，u_t)从t时刻到∞时刻的累积，可以表示如下：

其中，x_t和u_t分别表示t时刻系统状态和控制输入。t时刻的效用函数U(x_t，u_t)等于x_t的转置乘以半正定矩阵R再乘以x_t加x_t+1的转置乘以半正定矩阵K再乘以x_t+1，可以表示为

本文中，符号上标T表示转置。该算法的目的是，在t时刻通过控制序列

来实现最小化系统性能指标J(x_t，u_t)的目标。以控制序列

为变量，最小化的系统性能指标可以得到最优系统性能指标J^*(x_t，u_t)。在本文中，最小化系统性能指标可以使系统跟踪目标设定值的误差降到最小，从而实现控制问题的最优解。

最优系统性能指标表示为：

最优系统性能指标函数J^*(x_t，u_t)由公式(2)和公式(3)进一步推导可以得到：

根据动态规划中的最优性原理，通过公式(4)，系统t时刻的最优控制输入

可以表示为：

(2)基于执行-评判结构的智能优化控制器设计

该步骤利用一种基于执行-评判结构的智能优化控制方法来求解最优控制问题中的最优解。执行-评判结构由执行器(Actor)和评判器(Critic)组成，其中执行器负责生成依据系统状态给出控制输入的控制策略，评判器依据系统状态和控制输入给出近似系统性能指标。通过智能优化算法，使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·)。通过评判器对执行器生成的可用控制策略进行评判，使执行器生成的控制策略通过梯度下降不断逼近最优策略。

执行器生成的控制策略表示为μ(·)，执行器依据状态x_t生成控制输入μ(x_t)。定义系统的输入-状态值函数，即Q函数。Q函数是系统在t时刻执行控制输入μ(x_t)累积效用函数得到的，Q函数可以表示为：

由公式(6)，可以推导得到：

Q(x_t，μ(x_t))＝U(x_t，μ(x_t))+Q(x_t+1，μ(x_t+1))#(7)

t时刻最优Q函数表示为Q^*(x_t，μ(x_t))。由公式(4)，进一步可以得到：

μ^*(x_t)是最优控制输入，可以表示为：

该过程所采用的具体算法步骤如下：

①记i为算法迭代次数。第i次迭代中使用的控制策略表示为μ_i(·)，t时刻第i次迭代的初始控制输入表示为μ_i(x_t)。

②在t时刻第i次迭代中构建Q函数：

Qⁱ(x_t，μ_i(x_t))＝U(x_t，μ_i(x_t))+Qⁱ(x_t+1，μ_i(x_t+1))#(10)

③通过梯度下降的方式更新控制策略：

在公式(11)中，β是学习率，β∈(0，1)。

④算法迭代次数加1。若||Qⁱ(x_t，μ_i(x_t))-Qⁱ(x_t+1，μ_i(x_t+1))||≥γ，则返回步骤②，其中γ是迭代停止条件，γ∈(0，0.1)。若||Qⁱ(x_t，μ_i(x_t))-Qⁱ(x_t+1，μ_i(x_t+1))||≤γ，算法停止，得到最优控制输入μ^*(x_t)＝μ_i+1(x_t)。

(3)执行-评判结构智能优化控制方法的神经网络实现

执行-评判结构智能优化算法通过四个三层神经网络实现，分别是执行网络，目标执行网络，评判网络和目标评判网络。其中，执行网络的输入是系统状态，执行网络的输出是控制策略μ(·)的近似，表示为

评判网络的输入是系统状态与控制输入组成的向量，评判网络的输出是对Q函数的近似，表示为

通过对系统在线运行数据的收集，可以不借助系统模型更新评判网络和执行网络的参数。执行网络的参数通过参数传递规则传给目标执行网络，评判网络的参数通过参数传递规则传给目标评判网络。执行网络用于更新自身与目标执行网络的参数，目标执行网络用于给出系统控制输入。目标评判网络与评判网络结合使评判网络的输出逼近Q函数，同时对执行网络的控制效果进行评判以更新执行网络的参数。

1)评判网络设计：

在公式(12)中，评判网络的输入值

是由t时刻系统状态x_t和控制输入

组成的，其中

是目标执行网络依据状态x_t的输出，评判网络的输出值是在状态x_t对Q函数的近似。w_c，h是评判网络输入层至隐含层的网络权值，

是评判网络第i次迭代中隐含层至输出层的网络权值。其中，w_c，h在评判网络初始化时在(-1，1)之间随机选取后保持不变，

在评判网络初始化时在(-1，1)之间随机选取后随着算法的迭代而更新。评判网络的激活函数σ(·)选用双曲正切函数。

2)执行网络设计：

在公式(13)中，执行网络的输入值是t时刻系统状态x_t，执行网络的输出值是由控制策略

灰据状态x_t给出的控制输入估计值

w_a，h是执行网络输入层至隐含层的网络权值，

是执行网络在第i次迭代中隐含层至输出层的网络权值。w_a，h在执行网络初始化时在(-1，1)之间随机选取后保持不变，

在执行网络初始化时在(-1，1)之间随机选取后基于评判网络的评判而更新。执行网络的激活函数σ(·)选用双曲正切函数。

3)目标评判网络与目标执行网络的设计：

在初始化时，目标执行网络和执行网络的结构和参数相同，目标评判网络和评判网络的结构和参数相同。w′_a，h是目标执行网络输入层至隐含层的网络权值，

是目标执行网络在第i次迭代中隐含层至输出层的网络权值。w′_a，h在目标执行网络初始化时与执行网络传的w_a，h相同，并保持不变。

在目标执行网络初始化时与执行网络的

相同，之后随执行网络迭代而更新。目标执行网络的输入值是t+1时刻系统状态x_t+1，目标执行网络的输出值是由目标控制策略

依据状态x_t+1给出的

该网络如公式(14)所示。目标执行网络的激活函数σ(·)选用双曲正切函数。为方便起见，目标执行网络在第i次迭代中依据状态x_t+1得到的网络输出表示为

即

同理可得，目标执行网络在第i次迭代中依据状态x_t得到的网络输出表示为

并且

w′_c，h是目标评判网络输入层至隐含层的网络权值，

是目标评判网络第i次迭代中隐含层至输出层的网络权值。w′_c，h在目标评判网络初始化时与评判网络的w_c，h相同，并保持不变。

在目标评判网络初始化时与评判网络的

相同，之后随评判网络迭代而更新。目标评判网络的输入值是

习标评判网络的输出值是在状态x_t+1对Q函数的近似，该网络如公式(15)所示。目标评判网络的激活函数σ(·)选用双曲正切函数。

4)执行网络与评判网络的更新：

处于状态x_t的系统施加控制输入d_t后驱动系统转移到状态x_t+1，同时可以得到系统t时刻的效用

为方便书写取

将数据组

收集到数据集S_M中，其中M表示数据集S_M的最大大小。随机从S_M中随机选择N个数据组组成更新序列S_N，N是整数。控制器采样间隔是τ，

M＝3000·N。S_M随着系统状态的更新而更新，并对数据的更新采取先入后出的原则。

受公式(7)启发，评判网络与目标评判网络之间的关系如下：

评判网络在第i次迭代中的误差定义为

根据公式(16)，可以将辅助误差

表示为：

评判网络的学习率为β_c，β_c∈(0，1)，评判网络隐含层到输出层的权值可以按照如下公式更新：

执行网络的误差定义为

辅助误差

可以表示为：

执行网络的学习率为β_a，β_a∈(0，1)，执行网络隐含层到输出层的权值可以按照如下公式更新：

该过程所采用的具体算法步骤如下：

①随机初始化评判网络和执行网络的所有权值参数。将执行网络参数赋给目标执行网络，将评判网络参数赋给目标评判网络。初始化系统的迭代次数是i，系统时刻是t。系统容许误差是∈，∈∈(0，0.1)。初始化数据集S_M为空集。定义系统近期效用和函数U_B，计算在最近的B时刻内系统效用函数的和来判断系统是否达到稳定状态，B是整数，B∈(0，100)。U_B的公式表示如下：

②取当前系统时刻为t时刻，迭代次数为i。目标执行网络依据系统状态x_t给出t时刻的控制输入

系统被控制输入驱动到状态x_t+1。计算系统在状态x_t的效用r_t，将系统返回的数据组

依据先入后出的规则存储到数据集S_N中。当S_M中数据组个数大于B时，计算U_B。若U_R≤∈，跳转到步骤⑥。

③依次选择S_N中的数据组，由公式(17)逐个计算各个数据组的评判网络误差。将S_N中所有数据组的评判网络误差的和记为

评判网络隐含层到输出层的权值按如下方式更新：

④依据公式(19)计算执行网络误差

并按公式(20)更新执行网络隐含层到输出层的权值。

⑤取ζ∈(0，1)，更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值：

⑥在控制输入的作用下系统状态从x_t转移到x_t+1，系统迭代次数加1，返回步骤②。

本发明的创造性主要体现在：

1.一些智能优化控制方法可以在离散时间仿射系统的控制中取得良好的效果，而对于像污水处理过程这样的非仿射系统则需要建立模型来求解。该方法不需要建立被控系统的模型，不仅避免了建立系统所可能造成的误差，同时能够精确的控制非仿射系统跟踪目标设定值。

2.该方法采用离轨策略迭代方式，相对于同轨策略迭代方式可以尽可能的对环境进行探索，还可以避免系统陷入局部最优。对污水处理过程这样入水水量和水质参数变化大的系统来说，对环境积极的探索可以提高系统应对未知扰动的鲁棒性。

附图说明

图1是污水处理仿真基准模型示意图

图2是基于执行-评判结构智能优化算法的结构框图

图3是仿真实验晴天条件下系统入水流量图

图4是跟踪溶解氧浓度设定值的控制效果图

图5是生化反应第五分区氧传递系数曲线图

图6是评判网络隐含层至输出层权值范数的收敛曲线图

图7是执行网络隐含层至输出层权值范数的收敛曲线图

具体实施方式

本发明获得了一种基于执行-评判结构的溶解氧浓度智能优化控制方法，根据污水处理仿真平台BSM1实时生成的数据实现了对仿真实验中第五分区溶解氧浓度设定值为2mg/L的跟踪控制。其中，BSM1是欧盟科学技术合作组织与国际水协合作共同提出的污水处理仿真基准模型。如图1所示，该模型是由生化反应池与二沉池两部分组成的。在生化反应池中，前两个反应区为缺氧区，后三个反应区为好氧区。污水经过生化反应池之后进入二沉池中，并通过沉降作用将污水中的水和污泥进行分离。好氧区通过曝气装置控制反应区的溶解氧浓度，体现在BSM1模型中通过控制氧传递系数来实现对溶解氧浓度的控制。

选取BSM1模型中的晴天入水数据，控制系统的采样周期为60s。具体步骤如下：

(1)最优控制问题分析

将污水处理系统看作一个离散非线性非仿射系统，则污水处理系统状态方程可以由公式(1)表示，取溶解氧浓度设定值

为2mg/L。定义系统在t时刻的性能指标J(x_t，u_t)如公式(2)所示。通过在t时刻得到的控制序列

来最小化性能指标以实现跟踪溶解氧浓度设定值。根据动态规划中的最优性原理，通过公式(4)可以得到系统t时刻的最优控制输入

可以由公式(5)表示。

(2)基于执行-评判结构的智能优化控制器设计

(3)执行-评判结构智能优化算法的神经网络实现

执行-评判结构智能优化算法通过四个三层神经网络实现，分别是执行网络，目标执行网络，评判网络和目标评判网络，在第i次迭代中算法的结构框图如图2所示。其中，评判网络和目标评判网络的结构是2-200-1。评判网络和目标评判网络可以分别由公式(12)和公式(15)表示，这两个网络的输入分别是

和

这两个网络的输出分别是

和

执行网络和目标执行网络的结构是1-100-1。执行网络和目标执行网络可以分别由公式(13)和公式(14)表示，这两个网络的输入分别是x_t和x_t+1，这两个网络的输出分别是

和

以上四个神经网络都采用双曲正切函数作为激活函数。

该控制结构中网络参数的更新步骤如下：

①初始化评判网络和执行网络的权值参数，随机在(-0.3，0.3)之间选取输入层到隐含层的权值参数，随机在(-0.5，0.5)之间选取隐含层到输出层的权值参数。将执行网络参数赋给目标执行网络，将评判网络参数赋给目标评判网络。系统的迭代次数是i，系统时刻是t。取效用函数中的半正定矩阵R和K为单位阵。取系统容许误差∈＝10^-5，近期效用和函数中的B＝30。初始化数据集S_M为空集，取数据集的最大大小M＝15000。

依据先入后出的规则存储到数据集S_M中。当S_M中数据组个数大于B时，计算U_B。若U_B≤∈，跳转到步骤⑥。

③随机从S_M中随机选择N个数据组组成更新序列S_N，取N＝50。依次选择S_N中的数据组，由公式(17)逐个计算各个数据组的评判网络误差。将S_N中所有数据组的评判网络误差的和记为

评判网络隐含层到输出层的权值按公式(22)更新。

④依据公式(19)计算执行网络误差

并按公式(20)更新执行网络隐含层到输出层的权值。

⑤取ζ＝0.1，按照公式(23)和(24)更新目标评判网络隐含层到输出层的权值和目标执行网络隐含层到输出层的权值。

⑥在控制输入的作用下系统状态从x_t转移到x_t+1，系统的迭代次数加1，返回步骤②。

在BSM1仿真实验中，干燥天气情况下的入水流量变化如图3所示。验证该控制方法在干燥天气的入水数据条件下对BSM1第五分区溶解氧浓度的跟踪效果，结果如图4所示。第五分区氧传递系数的变化可由图5表示。为了更好的观察评判网络和执行网络的权值

和

的收敛情况，在BSM1中连续两次使用干燥天气入水数据对控制系统进行仿真实验，可以得到权值

和

范数的收敛曲线如图6和图7所示。

Claims

1.一种基于执行-评判结构的溶解氧浓度智能优化控制方法，其特征在于，包括如下步骤：

(1)最优控制问题分析

污水处理过程看作一个离散时间的非线性非仿射系统来描述：

x_t+1＝F(x_t，u_t)，t＝0，1，2，…#(1)

其中t是系统的离散时刻，t可取任意大于0的数；

之间的差值；u_t是系统t时刻的控制输入；并且u_t＝ΔK_La_5，t＝K_La_5，t-K_La_5，t-1，其中K_La_5，t表示t时刻污水处理系统第五分区的氧传递系数，K_La_5，t-1表示t时刻的上一时刻t-1时刻的污水处理系统第五分区的氧传递系数，ΔK_La_5，t表示t时刻氧传递系数的增量；F(·)是代表了系统动态的未知非线性函数；

系统在t时刻的性能指标J(x_t，u_t)是效用函数U(x_t，u_t)从t时刻到∞时刻的累积，表示如下：

其中，x_t和u_t分别表示t时刻系统状态和控制输入；t时刻的效用函数U(x_t，u_t)等于x_t的转置乘以半正定矩阵R再乘以x_t加x_t+1的转置乘以半正定矩阵K再乘以x_t+1，表示为

本文中，符号上标T表示转置；该算法的目的是，在t时刻通过控制序列

来实现最小化系统性能指标J(x_t，u_t)的目标；以控制序列u_t为变量，最小化的系统性能指标得到最优系统性能指标J^*(x_t，u_t)；在本文中，最小化系统性能指标使系统跟踪目标设定值的误差降到最小，从而实现控制问题的最优解；

最优系统性能指标表示为：

最优系统性能指标函数J^*(x_t，u_t)由公式(2)和公式(3)进一步推导得到：

表示为：

(2)基于执行-评判结构的智能优化控制器设计

执行-评判结构由执行器(Actor)和评判器(Critic)组成，其中执行器负责生成依据系统状态给出控制输入的控制策略，评判器依据系统状态和控制输入给出近似系统性能指标；通过智能优化算法，使评判器生成的近似系统性能指标不断接近系统实际的性能指标J(·)；通过评判器对执行器生成的可用控制策略进行评判，使执行器生成的控制策略通过梯度下降不断逼近最优策略；

执行器生成的控制策略表示为μ(·)，执行器依据状态x_t生成控制输入μ(x_t)；定义系统的输入-状态值函数，即Q函数；Q函数是系统在t时刻执行控制输入μ(x_t)累积效用函数得到的，Q函数表示为：

由公式(6)，推导得到：

Q(x_t，μ(x_t))＝U(x_t，μ(x_t))+Q(x_t+1，μ(x_t+1))#(7)

t时刻最优Q函数表示为Q^*(x_t，μ(x_t))；由公式(4)，进一步得到：

μ^*(x_t)是最优控制输入，表示为：

该过程所采用的具体算法步骤如下：

①记i为算法迭代次数；第i次迭代中使用的控制策略表示为μ_i(·)，t时刻第i次迭代的初始控制输入表示为μ_i(x_t)；

②在t时刻第i次迭代中构建Q函数：

Qⁱ(x_t，μ_i(x_t))＝U(x_t，μ_i(x_t))+Qⁱ(x_t+1，μ_i(x_t+1))#(10)

③通过梯度下降的方式更新控制策略：

在公式(11)中，β是学习率，β∈(0，1)；

④算法迭代次数加1；若||Qⁱ(x_t，μ_i(x_t))-Qⁱ(x_t+1，μ_i(x_t+1))||≥γ，则返回步骤②，其中γ是迭代停止条件，γ∈(0，0.1)；若||Qⁱ(x_t，μ_i(x_t))-Qⁱ(x_t+1，μ_i(x_t+1))||≤γ，算法停止，得到最优控制输入μ^*(x_t)＝μ_i+1(x_t)；

(3)执行-评判结构智能优化控制方法的神经网络实现

执行-评判结构智能优化算法通过四个三层神经网络实现，分别是执行网络，目标执行网络，评判网络和目标评判网络；其中，执行网络的输入是系统状态，执行网络的输出是控制策略μ(·)的近似，表示为

通过对系统在线运行数据的收集，不借助系统模型更新评判网络和执行网络的参数；执行网络的参数通过参数传递规则传给目标执行网络，评判网络的参数通过参数传递规则传给目标评判网络；执行网络用于更新自身与目标执行网络的参数，目标执行网络用于给出系统控制输入；目标评判网络与评判网络结合使评判网络的输出逼近Q函数，同时对执行网络的控制效果进行评判以更新执行网络的参数；

1)评判网络设计：

在公式(12)中，评判网络的输入值

是由t时刻系统状态x_t和控制输入

组成的，其中

是目标执行网络依据状态x_t的输出，评判网络的输出值是在状态x_t对Q函数的近似；w_c，h是评判网络输入层至隐含层的网络权值，

是评判网络第i次迭代中隐含层至输出层的网络权值；其中，w_c，h在评判网络初始化时在(-1，1)之间随机选取后保持不变，

在评判网络初始化时在(-1，1)之间随机选取后随着算法的迭代而更新；评判网络的激活函数σ(·)选用双曲正切函数；

2)执行网络设计：

依据状态x_t给出的控制输入估计值

w_a，h是执行网络输入层至隐含层的网络权值，

是执行网络在第i次迭代中隐含层至输出层的网络权值；w_a，h在执行网络初始化时在(-1，1)之间随机选取后保持不变，

在执行网络初始化时在(-1，1)之间随机选取后基于评判网络的评判而更新；执行网络的激活函数σ(·)选用双曲正切函数；

3)目标评判网络与目标执行网络的设计：

在初始化时，目标执行网络和执行网络的结构和参数相同，目标评判网络和评判网络的结构和参数相同；w′_a，h是目标执行网络输入层至隐含层的网络权值，

是目标执行网络在第i次迭代中隐含层至输出层的网络权值；w′_a，h在目标执行网络初始化时与执行网络传的w_a，h相同，并保持不变；

在目标执行网络初始化时与执行网络的

相同，之后随执行网络迭代而更新；目标执行网络的输入值是t+1时刻系统状态x_t+1，目标执行网络的输出值是由目标控制策略

依据状态x_t+1给出的

该网络如公式(14)所示；目标执行网络的激活函数σ(·)选用双曲正切函数；为方便起见，目标执行网络在第i次迭代中依据状态x_t+1得到的网络输出表示为

即

并且

w′_c，h是目标评判网络输入层至隐含层的网络权值，

是目标评判网络第i次迭代中隐含层至输出层的网络权值；w′_c，h在目标评判网络初始化时与评判网络的w_c，h相同，并保持不变；

在目标评判网络初始化时与评判网络的

相同，之后随评判网络迭代而更新；目标评判网络的输入值是

目标评判网络的输出值是在状态x_t+1对Q函数的近似，该网络如公式(15)所示；目标评判网络的激活函数σ(·)选用双曲正切函数；

4)执行网络与评判网络的更新：

处于状态x_t的系统施加控制输入d_t后驱动系统转移到状态x_t+1，同时得到系统t时刻的效用

为方便书写取

将数据组

收集到数据集S_M中，其中M表示数据集S_M的最大大小；随机从S_M中随机选择N个数据组组成更新序列S_N，N是整数；控制器采样间隔是τ，

M＝3000·N；S_M随着系统状态的更新而更新，并对数据的更新采取先入后出的原则；

受公式(7)启发，评判网络与目标评判网络之间的关系如下：

评判网络在第i次迭代中的误差定义为

根据公式(16)，将辅助误差

表示为：

评判网络的学习率为β_c，β_c∈(0，1)，评判网络隐含层到输出层的权值按照如下公式更新：

执行网络的误差定义为

辅助误差

表示为：

执行网络的学习率为β_a，β_a∈(0，1)，执行网络隐含层到输出层的权值按照如下公式更新：

该过程所采用的具体算法步骤如下：

①随机初始化评判网络和执行网络的所有权值参数；将执行网络参数赋给目标执行网络，将评判网络参数赋给目标评判网络；初始化系统的迭代次数是i，系统时刻是t；系统容许误差是∈，∈∈(0，0.1)；初始化数据集S_M为空集；定义系统近期效用和函数U_B，计算在最近的B时刻内系统效用函数的和来判断系统是否达到稳定状态，B是整数，B∈(0，100)；U_B的公式表示如下：

②取当前系统时刻为t时刻，迭代次数为i；目标执行网络依据系统状态x_t给出t时刻的控制输入

系统被控制输入驱动到状态x_t+1；计算系统在状态x_t的效用r_t，将系统返回的数据组

依据先入后出的规则存储到数据集S_M中；当S_M中数据组个数大于B时，计算U_B；若U_R≤∈，跳转到步骤⑥；

③依次选择S_N中的数据组，由公式(17)逐个计算各个数据组的评判网络误差；将S_N中所有数据组的评判网络误差的和记为

评判网络隐含层到输出层的权值按如下方式更新：

④依据公式(19)计算执行网络误差

并按公式(20)更新执行网络隐含层到输出层的权值；