CN110376879B

CN110376879B - 一种基于神经网络的pid型迭代学习控制方法

Info

Publication number: CN110376879B
Application number: CN201910757702.7A
Authority: CN
Inventors: 常明方; 吴爱国
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2022-05-10
Anticipated expiration: 2039-08-16
Also published as: CN110376879A

Abstract

本发明提出了一种基于神经网络的PID型迭代学习控制方法，属于控制科学与工程领域。对于一般的非线性差分系统，作者首先给出了一种迭代学习PID控制器，然后利用三个RBF神经网络对PID控制器中的动态参数

进行拟合。根据梯度下降法对神经网络的权值进行估计并得出神经网络权值更新表达式。由于受控系统的精确模型比较复杂或者是未知的，我们无法求得神经网络权值估计表达式中系统伪偏导数(PPD)的真值，我们用其估计值来进行数值代替。这样就生了一个可以运行的非线性迭代学习控制算法。最后，举例说明了本算法在非线性系统和抓放机器人系统当中的数值仿真是有效的。因此这个算法可应用到一般的(未知的)非线性差分系统当中去。

Description

一种基于神经网络的PID型迭代学习控制方法

技术领域

本发明涉及控制科学与工程领域，尤其涉及一种基于神经网络的PID型迭代学习控制方法。

背景技术

迭代学习是被控系统在有限时间区间不断吸取先前经验进行重复学习的一种控制方法。可以理解为：在被控系统进行第i次操作的时候，控制器把第(i-1)次及其之前的输入(输出)数据和误差利用起来，使被控系统在第i次操作当中获得比较好的执行效果。按照这样的方法不断地进行控制器修正，从而使被控系统走向期望的轨迹。

过去三十年来，迭代学习控制无论是在理论还是在应用方面，都取得了丰富的成果。然而，这些成果主要集中在解决已知模型的线性或者仿射非线性系统的迭代学习控制问题。例如：线性系统作为最基本的系统模型，其迭代学习理论自提出伊始就得到发展和丰富。对于简单的可以重复的连续(或离散)线性时变系统。已经形成了成熟的诸如P型，D型，PI型，PD型，PID型等类型的PID型迭代学习控制律,此外还有比较普遍的高阶学习律，反馈-前馈学习律等。同样，仿射非线性系统也有着成熟的PID型,高阶控制器等类型的迭代学习控制律。此外由于仿射非系统含有了非线性成分，一些文献会采用神经网络，小波逼近等方法来处理迭代学习问题。

而对于一般的非仿射非线性系统或者未知精确模型的非线性系统的迭代学习问题的研究成果，并不是很多。对于已知模型的非仿射非线性系统，主要有简单的P型，反馈-前馈型等迭代学习算法。对于未知模型的，有一些基本的数据驱动方法。因此如何将传统的有良好性能的控制器和数据驱动方法结合起来来完成非线性系统特别是未知的非线性系统的迭代学习控制是我们要解决问题。

发明内容

本发明提供了一种基于神经网络的PID型迭代学习控制方法，包括依次执行如下步骤：

步骤1：建立非线性差分系统的动态线性化模型，并给出其伪偏导数PPD的估计值表达式；

步骤2：建立基于神经网络的PID迭代学习控制器，具体给出神经网络拟合控制器参数k_P,i(t),k_I,i(t)，k_D,i(t)的方法以及神经网络权值更新法则；

步骤3：用伪偏导数PPD的估计值来代替神经网络权值更新法则中真实值，设计迭代学习控制方案。

上述一种基于神经网络的PID型迭代学习控制方法的步骤1中，系统的动态线性化和PPD的估计如下：

第一步骤，受控系统的数学模型：

假设所要进行迭代学习控制的受控系统具有如下非线性差分方程模型：

y_i(t+1)＝f(y_i(t),y_i(t-1),…,y_i(t-n_y),u_i(t),u_i(t-1),…,u_i(t-n_u)) (1)

其中，u_i(t)和y_i(t)分别是第i次迭代和第t个采样时刻的输入和输出信号；i∈I[1,+∞)，t∈I[1,T]；n_u，n_y是两个未知的正整数；f(…)是未知非线性标量函数；

对于公式(1)的SISO非线性系统，在提出其紧格式动态线性化模型之前，以下两个假设是必需的：

假设1 f(…)关于(它所包含的输入输出)各个变量的偏导数是连续的；

假设2系统沿着迭代轴方向满足Lipschitz条件，即对于t∈I[1,T]，i∈I[1,+∞)，若|Δu_i(t)|≠0，则下式成立：

|Δy_i(t+1)|≤b|Δu_i(t)| (2)

其中，Δy_i(t+1)＝y_i(t+1)-y_i-1(t+1)，Δu_i(t)＝u_i(t)-u_i-1(t)，b＞0是个常数；

第二步骤，对受控系统的数学模型进行动态线性化；

对于受控系统(1)，如果假设1和假设2成立，则系统可以转化为如下动态线性化形式：

其中，

是一个时变参数向量且满足

第三步骤，对

的估计：

为了能够估计系统的

提出以下准则函数：

根据梯度下降法，能够得到

的如下估计表达式

其中，μ是步长因子，并且对于t∈I[1,T]，初值

有界并且给定。

上述一种基于神经网络的PID型迭代学习控制方法的步骤2中，RBF神经网络拟合PID控制器参数和神经网络的权值更新的过程如下：

第一步骤，动态PID控制器的形式：

不失一般性，我们定义在系统运行的过程当中第i次迭代第t时刻的跟踪误差为

e_i(t)＝y_d(t)-y_i(t)

其中y_d(t)是t时刻的期望轨迹；

对于如下一般形式的PID型控制器：

其中，k_P,i(t),k_I,i(t),k_D,i(t)分别是控制器的比例单元，积分单元，微分单元的动态参数；在实际应用当中选用参数k_P,i(t)，k_I,i(t)和k_D,i(t)的估计值

和

来进行控制器设计，即选用如下形式控制器：

第二步骤，用神经网络来拟合控制器的动态增益

和

选用3个RBF神经网络来分别对动态参数

和

进行拟合，每个神经网络都是一个多输入单输出的三层结构，并且中间层均含有m个结点，能够得到如下参数拟合表达式：

其中

w_P,i(t)＝[w_P1,i(t) w_P2,i(t) … w_Pm,i(t)]^T

w_I,i(t)＝[w_I1,i(t) w_I2,i(t) … w_Im,i(t)]^T

w_D,i(t)＝[w_D1,i(t) w_D2,i(t) … w_Dm,i(t)]^T

是神经网络的权值向量；

h_P1,i(Z_S,i(t))＝[h_P1,i(z_S,i(t)) h_P2,i(z_S,i(t)) … h_Pm,i(z_S,i(t))]^T

h_I1,i(Z_S,i(t))＝[h_I1,i(z_S,i(t)) h_I2,i(z_S,i(t)) … h_Im,i(z_S,i(t))]^T

h_D,i(Z_S,i(t))＝[h_D1,i(z_S,i(t)) h_D2,i(z_S,i(t)) … h_Dm,i(z_S,i(t))]^T

是隐藏层径向基函数组成的向量，其中向量

是神经网络的输入；

第三步骤，求取神经网络权值w_P,i(t)，w_I,i(t)和w_D,i(t)的更新法则：

引入能量函数

根据梯度下降法求得神经网络w_P,i(t)，w_I,i(t)和w_D,i(t)的更新法则公式为：

其中，η_P，η_I，η_D＞0为设定的学习因子。

上述一种基于神经网络的PID型迭代学习控制方法的步骤3中，实际运行的神经网络更新法则和迭代学习控制方案如下：

第一步骤：为保证神经网络权值更新程序能够运行，用步骤2第三步骤中PPD的估计值

来代替神经网络权值更新法则(11)，(12)和(13)中的真实值

能得神经网络权重更新法则公式如下：

第二步骤，迭代学习控制方案包括：

步骤s1：首先设定神经网络的结构，给出隐藏层节点m的值，给出神经网络的中心和宽度以及第1次迭代时t∈I[1,T]的初始输入；给出其中的动态参数w_P,1(t),w_I,1(t),w_D,1(t),t∈I[1,T]的初始值；给定系统的初始输入u₁(t)，t∈I[1,T]的值；给出其中的动态参数

t∈I[1,T]的初始值；选择步长因子和学习因子μ，η_P，η_I，η_D的值；设置受控系统的初始值即对于i∈I[1,+∞)，每次运行时在t＝1时刻均有y_i(1)＝y_d(1)；

步骤s2：为了使系统能够接近期望轨迹,需要对运动过程当中的参数

w_P,i(t),w_I,i(t),w_D,i(t),i∈I[1,+∞),t∈I[1,T]值进行数值限制；

步骤s3：根据初值和参数值的设置使受控系统按照如下顺序运行：

步骤s4：重复执行步骤s1-s3的操作，直到本发明的PID型迭代学习控制方法取得良好的控制效果。

作为本发明的进一步实施，该PID型迭代学习控制方法还包括执行以下步骤：

步骤4：将步骤3所得到迭代学习控制方案应用到非线性系统数学模型和抓放机器人系统模型的控制中。

本发明的有益效果是：本发明提出的基于神经网络的PID型迭代学习控制方法，有效的把神经网络、PID控制器、系统的动态线性化技术结合起来解决非线性系统的迭代学习控制问题。其中，神经网络的强大的逼近能力使得迭代学习跟踪效果达到了良好的精度；PID控制器由此也被推广到一般的(未知的)非线性系统的迭代学习控制当中；系统的动态化模型的应用达到了从数据模型分析控制系统的效果。仿真研究验证了这种方案的有效性，并且实现了高效的迭代学习跟踪。

附图说明

图1是本发明实施例1对于非仿射非线性系统的最大跟踪误差曲线图；

图2是本发明实施例2的抓放机器人模型图；

图3是本发明实施例2对于抓放机器人模型的速度实行迭代学习控制时的最大跟踪误差曲线图。

具体实施方式

下面结合两个实施用例对本发明做进一步说明:

实施例1：

考虑如下系统：

显然，这是一个非仿射非线性系统。迭代学习任务当中期望的输出轨迹为：

y_d(t)＝0.5×(-1)^round(t/10) t∈I[1,100]

我们采用本发明中所提出的迭代学习方案公式(17)对该系统进行控制，现在我们对神经网络的结构和参数的初值进行预先的设置。用来估计PID控制器增益的3个神经网络均采用带有3个节点的隐藏层,并且这3个神经网络的输入均为：

对于所有的i∈I[1,+∞)，t∈I[1,T]，我们设定神经网络的径向基函数中心均为[0 0 0]^T，宽度均为100；对于所有的t∈I[1,T]，第1次迭代神经网络的输入设定为z_S,1(t)＝[0 0 0]^T。第1次迭代的权值为w_P,1(t)＝[0.2 0 0]^T，w_I,1(t)＝[0 0 0]^T，w_D,1(t)＝[0 00]^T；对于所有的t∈I[1,T]，第1次迭代系统的初始输入为u₁(t)＝0；对于所有的t∈I[1,T]，第1次迭代系统的伪偏导数的初始值为

对于所有的i∈I[1,+∞)，系统在时刻t＝1的输出y_i(1)＝y_d(1)；伪偏导数PPD的估计值

表达式中步长因子选择为μ＝0.05，神经网络权值学习因子选择为η_P＝η_I＝η_D＝0.0001。

以每次迭代的最大误差

作为考量标准，图1给出100次迭代过程当中e_i,max的仿真曲线,可以看出被控系统每次迭代的最大误差呈现出逐渐减小趋势，迭代学习控制取得了良好的效果。

实施例2：

如图2是一个抓放机器人模型(参考非专利文献2：Liu N.Learningidentification and control for repetitive linear time-varying systems[D].University of Illinois at Urbana-Champaign,2014.)，对于机械臂的转角θ，我们取状态变量x₁＝θ和

并且以角速度为系统输出，可以得到如下二阶线性数学模型：

其中β＝2Nm/rad是粘性摩擦系数，K_t＝100是执行器增益，M(t)是时变的机械臂底端的质量，L＝0.1m是机械臂的长度。在机械臂抓放过程当中，重物在第5秒被抓取，第10秒被放下。M(t)的质量也从1kg变到了10kg，然后又变回1kg。

取采样时间T_s＝0.01s，在时间区间[1,10]内离散化模型(19)可以得到如下切换系统：

设定迭代学习任务当中期望的输出轨迹为：

y_d(t)＝2sin(πt/1000) t∈I[1,1000]

我们采用本章所提出的迭代学习方案(17)对该系统进行控制。现在我们对神经网络的结构和参数的初值进行预先的设置。用来估计PID控制器增益的3个神经网络均采用带有3个节点的隐藏层,并且这3个神经网络的输入均为：

对于所有的i∈I[1,+∞)，t∈I[1,T]，我们设定神经网络的径向基函数中心均为[0 0 0]^T，宽度均为20000；对于所有的t∈I[1,T]，第1次迭代神经网络的输入设定为z_S,1(t)＝[0 0 0]^T，第1次迭代的权值为w_P,1(t)＝[0.01 0 0]^T，w_I,1(t)＝[0 0 0]^T，w_D,1(t)＝[00 0]^T；对于所有的t∈I[1,T]，第1次迭代系统的初始输入为u₁(t)＝0；对于所有的t∈I[1,T]，第1次迭代系统的伪偏导数的初始值为

表达式中步长因子选择为μ＝0.01，神经网络权值学习因子选择为η_P＝η_I＝η_D＝0.00001。

同样以每次迭代的最大误差

作为考量标准，图3给出50次迭代过程当中e_i,max的仿真曲线,可以看出被控系统每次迭代的最大误差呈现出逐渐减小趋势，迭代学习控制取得了良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。