CN107193210A

CN107193210A - 一种非线性系统的自适应学习预设性能控制方法

Info

Publication number: CN107193210A
Application number: CN201710318682.4A
Authority: CN
Inventors: 罗建军; 魏才盛; 袁建平; 王明明; 朱战霞; 殷泽阳
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2017-09-22
Anticipated expiration: 2037-05-08
Also published as: CN107193210B

Abstract

本发明公开了一种非线性系统的自适应学习预设性能控制方法，先建立Euler‑Lagrange动力学系统模型，然后对所述动力学系统模型进行预设性能控制，设计标称预设性能控制器，最后基于自适应动态规划，设计基于学习的自适应控制器。本发明在不需要系统确切的动力学模型基础上，仅依赖于系统的输入/输出数据，设计出一种低复杂度的鲁棒自适应控制器，使得受控的Euler‑Lagrange系统的瞬态与稳态性能能够得到先验设计，同时又可避免传统基于数据学习控制严重依赖初始允许控制策略的缺点。

Description

一种非线性系统的自适应学习预设性能控制方法

技术领域

本发明属于非线性系统的自适应控制技术领域，具体涉及一种非线性系统的自适应学习预设性能控制方法。

背景技术

很多实际工程系统(如航天器、空间机器人等)都可以写成Euler-Lagrange形式，因此对 Euler-Lagrange系统的鲁棒控制一直是控制领域研究的热点。现有针对Euler-Lagrange系统的控制方法主要有滑模控制、预测模型控制、控制等。但是这些提及的控制方法都严重依赖于Euler-Lagrange系统的动力学模型。由于系统的不确定性以及外界环境的干扰，精确的 Euler-Lagrange系统模型往往难以获得，为了实现对带有未知非线性的Euler-Lagrange系统的鲁棒控制，基于神经网络和模糊系统的自适应控制方法不断被提出，虽然这些自适应控制能够很好的实现对Euler-Lagrange系统的鲁棒控制，但是由于在控制过程中采用神经网络或者模糊系统对未知非线性系统的逼近，带来模型近似误差问题，以及设计的自适应控制律只在神经网络或者模糊近似器所在的紧集合上有效问题。因此，如何克服这些问题是Euler-Lagrange系统控制领域值得深究的研究方向。

近年来，随着人工智能理论和技术的不断发展，基于数据学习的自适应控制被提出。该自适应方法仅依赖于系统的输入输出数据，有效地克服了基于系统动力学模型控制方法的局限性。但是基于数据学习的自适应控制方法却严重依赖于初始允许控制策略，并以此来为后续的学习控制律提供可靠的稳定状态序列，这对于实际带有未知的非线性Euler-Lagrange系统来说，具有应用上的不可扩展性。而如何结合基于数据学习的自适应控制的优点来实现对带有未知非线性的Euler-Lagrange系统的低复杂度鲁棒控制是值得深究的课题。

除此之外，现有针对Euler-Lagrange系统的瞬态与稳态性能多依赖于繁复的后验调参，难以先验设计。因此如何实现对不确定Euler-Lagrange控制系统的瞬态与稳态性能的先验设计也是值得考虑的问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种非线性系统的自适应学习预设性能控制方法，针对不确定Euler-Lagrange非线性系统控制问题。

本发明采用以下技术方案：

一种非线性系统的自适应学习预设性能控制方法，包括以下步骤：

S1、建立Euler-Lagrange动力学系统模型；

S2、对所述动力学系统模型进行预设性能控制，设计标称预设性能控制器；

S3、针对评价网络，基于自适应动态规划，定义增强性能信号采用三层神经网络对最优的补偿控制输入进行近似，采用三层神经网络对执行层补偿控制进行近似，最终实现基于学习的自适应预设性能控制器。

进一步的，步骤S1中，定义变量r＝q，所述动力学系统模型为：

其中，r为广义位置，v为速度，M^-1(r)为正定对称转动惯量，C(r,v)为科里奥利矩阵， g(r)为重力矢量，τ为控制力矩，d为外界未知有界干扰。

进一步的，步骤S2中，所述标称预设性能控制器为：

其中：τ_p,i为第i维预设性能控制输入，k_i为待设计的正的控制增益，为统一误差，或(-1,κ_s,i)，κ为正的常量，ξ_s,i为正的伴随参量。

进一步的，定义所述动力学系统模型的预设性能为：

其中：κ_s,i∈[0,1],是单调递减函数。

进一步的，定义流形如下：

s＝e_v+βe_r

其中，s＝[s₁,...,s_n]^T∈Rⁿ为滤波误差，β∈R^n×n为待设计正定对角矩阵，e_v＝v-v_d为广义速度误差，e_r＝r-r_d∈Rⁿ为广义位置误差，v_d为广义期望速度，r_d为期望位置。

进一步的，步骤S3中，所述增强性能信号为：

其中：s为滤波误差，τ_c∈Rⁿ自适应学习补偿控制项，Q,R分别为正定矩阵。

进一步的，步骤S3中，最优的补偿控制输入在评价网络待优化的长时间性能为：

三层神经网络对执行层相应补偿控制近似为：

其中，τ_c,i为第i维补偿控制输入，i＝1,...,n，ω_c1,k＝[ω_c1,k1,...,ω_c1,k2n]^T为输入层与隐藏层的权重参数，为隐藏层与输出层之间的权重参数，φ_c,k为神经网络激活函数， N_c为评价层隐藏层节点个数。

进一步的，步骤S3中，对于输入层与隐藏层以及隐藏层与输出层之间的权重参数可以利用梯度下降法实现更新。

进一步的，所述基于学习的自适应预设性能控制器τ为：

其中，τ_p,i为标称预设性能控制输入，τ_c,i为补偿控制输入，k_i为正的控制增益，ξ_i为伴随变量，γ _s,i为预设性能的下界增益，为预设性能的上界增益，为执行网络第一层神经网络权重，φ_a,k为执行网络中隐藏层激活函数，为神经网络的输入信号。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种非线性系统的自适应学习预设性能控制方法，通过建立Euler-Lagrange动力学系统模型，并对所述动力学系统模型进行预设性能控制，设计标称预设性能控制器，然后基于自适应动态规划，设计基于学习的自适应控制器，在不需要Euler-Lagrange系统模型信息基础上，仅依赖于系统的输入/输出数据，就可以实现对受控Euler-Lagrange系统的鲁棒自适应控制，并且系统对未知不确定性以及外界干扰具有较强的鲁棒性以及自适应性，受控Euler-Lagrange 系统的瞬态与稳态性能可以实现先验的设计。

进一步的，在只需要不确定Euler-Lagrange系统的输入输出数据基础上，基于自适应动态规划方法，形成自适应补偿控制律，能够增强标称预设性能控制器对未知不确定性以及外界干扰的鲁棒性以及自适应性。

综上所述，本发明在不需要系统确切的动力学模型基础上，仅依赖于系统的输入/输出数据，设计出一种低复杂度的鲁棒自适应控制器，使得受控的Euler-Lagrange系统的瞬态与稳态性能能够得到先验设计，同时又可避免传统基于数据学习控制严重依赖初始允许控制策略的缺点。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为地面小车第一维流形响应图；

图2为地面小车第二维流形响应图；

图3为地面小车第三维流形响应图；

图4为地面小车系统输出追踪图；

图5为地面小车三维控制输入示意图；

图6为地面小车二维轨迹追踪图。

具体实施方式

本发明公开了一种不确定Euler-Lagrange非线性系统的自适应学习预设性能控制方法，针对不确定Euler-Lagrange非线性系统控制问题，提出一种仅依赖系统输入/输出信息的低复杂度鲁棒自适应控制方法，实现对不确定Euler-Lagrange系统的鲁棒追踪控制，并且避开传统基于模型控制方法设计复杂度高以及传统基于数据学习控制方法严重依赖初始允许控制策略等缺点。

具体步骤如下：

S1、Euler-Lagrange动力学系统描述

本发明针对Euler-Lagrange的系统模型为：

其中，q＝[q₁,...,q_n]^T∈Rⁿ为广义坐标向量，n为系统维数，T是向量转置，Rⁿ为n维欧几里得空间，M(q)∈R^n×n为正定对称转动惯量；为科里奥利矩阵；g(q)为重力矢量；τ,d∈Rⁿ为控制力矩以及外界未知有界干扰。

定义变量r＝q，则式(1)等价转化为：

其中，r,v∈Rⁿ为广义位置与速度。

S2、标称预设性能控制器

针对系统模型(2)，定义流形如下：

s＝e_v+βe_r (3)

其中，s＝[s₁,…,s_n]^T∈Rⁿ为滤波误差，β∈R^n×n为待设计正定对角矩阵，e_v＝v-v_d为广义速度误差，e_r＝r-r_d∈Rⁿ为广义位置误差，v_d为广义期望速度，r_d为期望位置。

为了实现对系统模型(2)的预设性能控制，定义预设性能如下：

其中，ρ_s，i0＞ρ_s，i∞＞0，κ_s,i∈[0,1],是单调递减函数。在式(4)预设性能下，设计的标称预设性能控制器为：

其中：τ_p,i为第i维预设性能控制输入，k_i为待设计的正的控制增益，为统一误差，或(-1,κ_s,i)，κ为正的常量，ξ_s,i为正的伴随参量，即

S3、基于学习的自适应控制器设计

为了增强步骤S2设计的标称预设性能控制器对未知干扰以及不确定性的鲁棒性与自适应性，基于自适应动态规划(Adaptive Dynamic Programming-ADP)，设计基于学习的自适应控制器。

在ADP中，通常基于神经网络设计评价-执行动作网络，分别对增强性能信号以及控制序列进行近似最优求解。

首先针对评价网络，定义增强性能信号为：

其中，为评价网络的增强性能信号，τ_c∈Rⁿ为自适应学习补偿控制项，Q,R分别为正定矩阵，T为向量的转置。

对于评价网络，待优化的长时间性能：

其中，为复合信号，η∈(0,1)为折扣因子，t为当前时刻，Δt为采用步长。

则最优的补偿控制输入在优化式(7)得到，即：

对于式(8)的贝尔曼最优性问题，难以得到解析的解，因此采用3层神经网络进行近似，即：

其中，ω_c1,k＝[ω_c1,k1,...,ω_c1,k2n]^T为输入层与隐藏层的权重参数，为隐藏层与输出层之间的权重参数，φ_c,k为神经网络激活函数(可以用线性激活函数、S型函数等)， N_c为评价层隐藏层节点个数。

对于输入层与隐藏层以及隐藏层与输出层之间的权重参数可以利用梯度下降法实现更新。

对于执行层，相应的补偿控制用3层神经网络近似为：

其中，τ_c,i(i＝1,...,n)为第i维补偿控制输入，其他参数含义类同式(9)。

通过迭代求解式(9)与(10)，最终实现稳定的在线学习补偿控制器的计算。

基于式(5)与式(10)的计算，可以得到基于学习的自适应预设性能控制器τ为：

实施例

以地面小车定点追踪控制为仿真对象，其中仿真实验中三个预设性能函数的12个参数ρ_s,10,ρ_s,20,ρ_s,30,ρ_s,1∞,ρ_s,2∞,ρ_s,3∞,κ_s,1,κ_s,2,κ_s,3,,分别取为 6,35,3,0.05,0.1,0.05,0.02,0.02,0.05；控制增益k₁,k₂,k₃分别取600,800,200；流形参数β＝diag{1,1,2}。

地面小车的各项参数为：惯性矩阵M＝diag{M₁,M₂,M₃}，其中 M₁＝500kg,M₂＝1000kg,M₃＝700kgm²，科里奥利矩阵C为：

其中：

评价-执行层的隐藏层节点个数都为10，且输入层与隐藏层，以及隐藏层与输出层的权重参数初始值在[-0.3,0.3],[-0.2,0.2]区间上任意取。

折扣参数因子为0.95，评价-执行网络训练的容许误差为10^-5，单次训练的周期为300步。

在仿真过程中加入的外界干扰力矩d为：

其中，t为当前时刻。

图1至图3表明小车预设的性能在设计的控制律下得到的有效保证，图4表明小车的三维输出(横侧向位置极其偏航角)在设计的控制器下快速收敛到期望的位置，其中，y₁,y₂,y₃分别为横向、纵向位置以及偏航角度，图5表明小车的三个控制通道的输入满足控制饱和约束，因此仿真的结果验证了理论方法的正确性。

请参阅图6，通过对小车平面位置追踪的跟踪控制，仿真结果验证了理论的正确性，并表明在不需要知道小车具体动力学模型信息基础上，仅依赖于小车的输入/输出信息即可实现对小车的鲁棒自适应控制，显示了该方法相比于传统基于模型控制方法的简单有效性。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种非线性系统的自适应学习预设性能控制方法，其特征在于，包括以下步骤：

S1、建立Euler-Lagrange动力学系统模型；

2.根据权利要求1所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，步骤S1中，定义变量r＝q,所述动力学系统模型为：

<mrow> <mover> <mi>r</mi> <mo>&CenterDot;</mo> </mover> <mo>=</mo> <mi>v</mi> </mrow>

<mrow> <mover> <mi>v</mi> <mo>&CenterDot;</mo> </mover> <mo>=</mo> <msup> <mi>M</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mi>v</mi> <mo>-</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&tau;</mi> <mo>+</mo> <mi>d</mi> <mo>&rsqb;</mo> </mrow>

其中，r为广义位置，v为速度，M^-1(r)为正定对称转动惯量，C(r,v)为科里奥利矩阵，g(r)为重力矢量，τ为控制力矩，d为外界未知有界干扰。

3.根据权利要求1所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，步骤S2中，所述标称预设性能控制器为：

<mrow> <msub> <mi>&tau;</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>&Lambda;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <munder> <mi>&gamma;</mi> <mo>&OverBar;</mo> </munder> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <msub> <mover> <mi>&gamma;</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&Lambda;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

4.根据权利要求3所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，定义所述动力学系统模型的预设性能为：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>&kappa;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>&rho;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo><</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo><</mo> <msub> <mi>&rho;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>&rho;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo><</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo><</mo> <msub> <mi>&kappa;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>&rho;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中：是单调递减函数。

5.根据权利要求4所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，定义流形如下：

s＝e_v+βe_r

6.根据权利要求1所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，步骤S3中，所述增强性能信号为：

7.根据权利要求1所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，步骤S3中，最优的补偿控制输入在评价网络待优化的长时间性能为：

三层神经网络对执行层相应补偿控制近似为：

<mrow> <msub> <mi>&tau;</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>a</mi> </msub> </munderover> <msub> <mi>&omega;</mi> <mrow> <mi>a</mi> <mn>2</mn> <mo>,</mo> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <msub> <mi>&phi;</mi> <mrow> <mi>a</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>&omega;</mi> <mrow> <mi>a</mi> <mn>1</mn> <mo>,</mo> <mi>k</mi> </mrow> <mi>T</mi> </msubsup> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mi>z</mi> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中，τ_c,i为第i维补偿控制输入，i＝1,...,n，ω_c1,k＝[ω_c1,k1,...,ω_c1,k2n]^T为输入层与隐藏层的权重参数，为隐藏层与输出层之间的权重参数，φ_c,k为神经网络激活函数，N_c为评价层隐藏层节点个数。

8.根据权利要求7所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，步骤S3中，对于输入层与隐藏层以及隐藏层与输出层之间的权重参数可以利用梯度下降法实现更新。

9.根据权利要求8所述的一种非线性系统的自适应学习预设性能控制方法，其特征在于，所述基于学习的自适应预设性能控制器τ为：

<mrow> <msub> <mi>&tau;</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>&tau;</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&tau;</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>&Lambda;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <munder> <mi>&gamma;</mi> <mo>&OverBar;</mo> </munder> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <msub> <mover> <mi>&gamma;</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&Lambda;</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>a</mi> </msub> </munderover> <msub> <mi>&omega;</mi> <mrow> <mi>a</mi> <mn>2</mn> <mo>,</mo> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <msub> <mi>&phi;</mi> <mrow> <mi>a</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>&omega;</mi> <mrow> <mi>a</mi> <mn>1</mn> <mo>,</mo> <mi>k</mi> </mrow> <mi>T</mi> </msubsup> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mi>z</mi> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中，τ_p,i为标称预设性能控制输入，τ_c,i为补偿控制输入，k_i为正的控制增益，ξ_i为伴随变量，γ_s,i为预设性能的下界增益，为预设性能的上界增益，为执行网络第一层神经网络权重，φ_a,k为执行网络中隐藏层激活函数，为神经网络的输入信号。