CN109976161B

CN109976161B - 一种不确定非线性系统的有限时间优化跟踪控制方法

Info

Publication number: CN109976161B
Application number: CN201910328240.7A
Authority: CN
Inventors: 丁亮; 高海波; 李树; 王情帆; 安鑫; 刘艳军; 李楠; 邓宗全
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2022-04-08
Anticipated expiration: 2039-04-23
Also published as: CN109976161A

Abstract

本发明提供了不确定非线性系统的有限时间优化跟踪控制方法，涉及智能控制技术领域。本发明提供一种不确定非线性系统的有限时间优化跟踪控制方法，包括：根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型；根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差；定义所述不确定非线性系统的价值评估函数；根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器，使所述不确定非线性系统的价值评估函数最优；根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。本发明综合考虑了有限时间收敛和最优控制，具有收敛快、精度高、抗干扰鲁棒性好等优点。

Description

一种不确定非线性系统的有限时间优化跟踪控制方法

技术领域

本发明涉及跟踪控制技术领域，具体而言，涉及一种不确定非线性系统的有限时间优化跟踪控制方法。

背景技术

神经网络因其较强的适应性特点而成为自适应控制领域的研究热点，在比较热门的优化控制领域也有着广泛应用和推广。现有的优化控制算法研究工作已经取得丰硕成果，在工程领域的应用和推广也取得了一定进展。但是对于非线性系统中，通常存在较多的不确定干扰项，对于非线性系统的跟踪控制，往往采用无限时间的跟踪控制方法，抗干扰能力低，从而导致跟踪控制的不准确性。

发明内容

本发明解决的问题是针对不确定非线性系统的有限时间优化跟踪控制方法进行优化，解决上述技术问题中的至少一个。

为解决上述问题，本发明提供一种不确定非线性系统的有限时间优化跟踪控制方法，包括：

根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型；

根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差；

根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数；

根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器，使所述不确定非线性系统的价值评估函数最优；

根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。

可选地，所述根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数包括：

根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型；

根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数。

可选地，所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限，所述价值评估函数被定义为

其中，γ为折损系数，并且γ＞0，

为正定矩阵，t₀满足对于任意的t≥t₀闭环系统内所有信号均半全局一致收敛，U(u)是一个正定矩阵且满足

其中λ为控制输入的上界，R是一个对角矩阵，满足R＝diag(r₁,r₂)，r₁和r₂是两个常数，tanh为双曲正切函数。

可选地，所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括：

根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数；

基于有限时间收敛理论，根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入；

根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器。

可选地，所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括：

基于莱布尼茨法则，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程；

根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数；

根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件；

在所述不确定非线性系统的最优价值评估函数的前提条件下，基于强化学习方法，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数。

可选地，所述基于强化学习方法，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括：

设定所述不确定非线性系统的价值评估函数的解算条件，引入神经网络的权重向量和逼近误差，所述不确定非线性系统的价值评估函数建立神经网络模型，所述神经网络的权重向量代表所述增广系统模型在所述不确定非线性系统的价值评估函数中的权重；

设定强化学习条件；

设计强化学习的评价函数；

基于梯度下降法，获得所述神经网络的最优权重向量和神经网络的逼近误差，使所述不确定非线性系统的价值评估函数值最小；

根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。

可选地，所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括：

根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数；

根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值，并设定控制输入函数的估计误差；

引入动态神经网络的权重向量，根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型，所述动态神经网络的权重向量表示所述增广系统模型在所述控制输入函数中的权重；

基于梯度下降法，获得所动态述神经网络的最优权重向量；

根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。

可选地，所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括：

基于李雅普诺夫稳定性定理，根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型；

根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点：是，根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制；否，重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。

可选地，所述不确定因子包括系统未知项、有界不确定项和干扰项。

相比于现有技术，本发明所述的不确定非线性系统的有限时间优化跟踪控制方法具备以下优势：

本发明综合考虑了跟踪误差和不确定因子的干扰，具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域，可达到控制目标在最短的时间内达到最优性能的工程要求，具有收敛快、精度高等优点，更受人青睐；现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法，而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程，与之相比，本发明的实用性、抗干扰鲁棒性更好，应用领域更加广泛；最后，随着工程上对生产成本的限制愈加严格，收敛时间越短，就意味着成本越低，效益越高。

本发明还提供一种不确定非线性系统的跟踪控制系统，包括：不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块；

所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型；

所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差；

所述控制系统评估模型建模模块用于根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数；

所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器，使所述不确定非线性系统的价值评估函数最优；

所述跟踪模块用于根据所述最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。

相比于现有技术，本发明所述的不确定非线性系统的跟踪控制系统与上述所述的不确定非线性系统的有限时间优化跟踪控制方法相同，在此不再累述。

附图说明

图1为本发明中不确定非线性系统的有限时间优化跟踪控制方法的流程图；

图2为本发明中不确定非线性系统的有限时间优化跟踪控制系统的示意图；

图3为本发明中轮式移动机器人的基本机构；

图4为本发明中存在滑移状况的轮式移动机器人的动力学模型。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

实施例一

如图1所示，本实施例提供一种不确定非线性系统的有限时间优化跟踪控制方法，包括：

S1:根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型；

S2:根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差；

S3:根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数；

S4:根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器，使所述不确定非线性系统的价值评估函数最优；

S5:根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。

在S1步骤中，不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统：

ξ'(t)＝f(t)ξ(t)+g(t)u(t)+d(t)

其中，f(t)为系统不确定项，指的是包含不确定非线性系统未建模动态等在内的不确定非线性系统未知部分；g(t)为有界不确定项函数，指的是输入转移矩阵一般化之后的系数函数，一般假定不确定，但是有界；u(t)为控制输入，d(t)为系统中不确定干扰项，指系统在运行过程中收到的内在或外在的影响，特指在可控范围内的影响；ξ(t)为系统状态函数，t指的是时间，后文中z(t)可简化为z，ξ(t)可简化为ξ，g(t)可简化为g，u(t)可简化为u，d(t)可简化为d。

为更好地完成控制算法设计，保证被控系统收敛性，现给出如下设定条件：g有界，满足

这里g为g(t)的缩写，g、

分别为g(t)的上界与下届；神经网络隐含层中的激活函数

有界，满足

函数逼近误差ε(·)有界，满足

在S2步骤中，最优跟踪控制是通过寻求最优策略以使给定性能函数最小化，同时保证系统输出以最优的方式实现对目标轨迹的跟踪。定义实际轨迹与参考轨迹间的差为z(t)＝ξ(t)-ξ_d(t)，其中z(t)为跟踪误差，ξ_d为ξ_d(t)的简写，ξ_d为有界期望轨迹。

在S3步骤中，所述根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数包括：

S31：根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型；

S32：根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数。

这里，所述跟踪误差的一阶导数z'＝f(t)ξ(t)+g(t)u(t)+d(t)-ξ'_d。

假设参考轨迹ξ_d有界，并且其一阶导数可写作满足李普希兹连续条件的函数，则有ξ'_d(t)＝l(ξ_d(t))。且有ξ_d(0)＝0。

定义所述目标增广系统的状态为ψ(t)＝[z(t),ξ_d(t)]^T，则所述目标增广系统可被转化为ψ'(t)＝F(ψ(t))+G(t)u+D(t)，其中

其中，所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限，所述价值评估函数被定义为

其中，γ为折损系数，并且γ＞0，

在S4步骤中，所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括：

S41:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数；

S42:基于有限时间收敛理论，根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入；

S43:根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器。

在S41步骤中，所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括：

S411：基于莱布尼茨法则，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程，形式如下：

S412：根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数，形式如下：

S413：根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件，即最优价值评估函数满足：

S414：在所述不确定非线性系统的最优价值评估函数的前提条件下，基于强化学习方法，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数。这里，所述不确定非线性系统的最优价值评估函数的形式如下:

在步骤S414中，所述基于强化学习方法，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括：

S4141：设定所述不确定非线性系统的价值评估函数的解算条件，引入神经网络的权重向量和逼近误差，所述不确定非线性系统的价值评估函数建立神经网络模型，所述神经网络的权重向量代表所述增广系统模型在所述不确定非线性系统的价值评估函数中的权重；

S4142：设定强化学习条件；

S4143：设计强化学习的评价函数；

S4144：基于梯度下降法，获得所述神经网络的最优权重向量和神经网络的逼近误差，使所述不确定非线性系统的价值评估函数值最小；

S4145：根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。

这里，假设所述价值评估函数L₁及其一阶导数均为连续光滑函数，则L₁及其梯度

可表示为：

其中，

为神经网络的权重向量，代表神经网络节点数，

是激活函数，ε_c代表逼近误差。

选取积分型强化学习间隔为T＞0，由于引入了评价神经网络逼近效果，所述逼近误差的贝尔曼方程可以表示为如下形式：

其中，

由于激活函数和评价神经网络逼近效果有界，所述价值评估函数的梯度亦有界，则逼近误差有界，即

为某正常数。

评价神经网络逼近效果，所述价值评估函数的贝尔曼方程可被表达为如下形式：

式中

是对ω_c的估计。因此，误差函数的估计值

可被写成如下形式：

那么，强化学习的评价函数可表示为如下形式：

其中，

为对U(u)的估计。

为了最小化近似误差，给出以下贝尔曼误差：

利用梯度下降法，可得到

表达式：

其中α_c代表评价神经网络的学习效率。

综上几点，可得：

其中，

在S42步骤中，所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括：

S421:根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数；

S422:根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值，并设定控制输入函数的估计误差；

S423:引入动态神经网络的权重向量，根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型，所述动态神经网络的权重向量表示所述增广系统模型在所述控制输入函数中的权重；

S424:基于梯度下降法，获得所动态述神经网络的最优权重向量；

S425:根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。

根据评价神经网络逼近效果，最优控制输入可被改写为：

为了解决在哈密顿-雅克比-贝尔曼函数中由不确定变量

造成的影响，给出如下转换：

故U(u)可被改写为如下形式：

进而有：

考虑评价神经网络逼近效果，控制输入可被改写为：

其中，u₁是控制输入，

是对最优评价神经网络权重ω_c的当前状态的估计。

评价神经网络，由于

是对最优评价神经网络权重ω_c的当前估计，这并不能保证闭环控制系统的稳定性，因此提出另一种动态神经网络，来寻找最优控制策略，并且保证系统的稳定性。

其中，

是控制输入的估计值，

是动态神经网络的权重向量，代表了对于ω_c当前值的估计值，φ_a是激活函数当前值。

于是，基于强化学习的贝尔曼方程误差可被定义为：

其中

因此，权重ω_c的当前估计值

可被改写为：

定义控制输入的近似误差z_u为：

为了使误差最小化，给出以下方程：

基于梯度下降法，可得：

式中Ξ′＝RΞ，η是一个正参数，方程的最后一项是为了保证系统的稳定性。

在步骤S5之前，所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括：

也就是说，在S5步骤之前，增加稳定性评估与有限时间收敛验证步骤，当满足系统稳定性与有限时间收敛时，满足如下条件，根据李雅普诺夫稳定性定理，定义李雅普诺夫模型为：

L(k)＝L₁(k)+L₂(k)+L₃(k)

其中L₁(k)为已知的最优价值函数，

1)李雅普诺夫模型L₁的一阶导数为：

设计足够短的强化学习时间间隔：即

ρ₁＝1±ρ₀，ρ₁∈U(1,ρ₀)，ρ₀是足够小的正常数。

L'₁表达式可改写为：

李雅普诺夫模型第一部分L₁可改写为：

进而，可得近似误差为：

其中，t₁是为设定有限时间。

神经网络权重ω_c的估计值

可整理为如下形式：

2)李雅普诺夫模型第二部分L₂一阶微分为：

利用柯西中值定理，上式可改写为：

基于所述动态神经网络的逼近误差模型z_u，可得：

3)李雅普诺夫模型第三部分L₃的一阶微分为：

其中

根据柯西中值定理：

综上，李雅普诺夫模型L的一阶导数为：

其中c_i＞0，i＝1,2,3，

为了实现在有限时间域内收敛，在方程的右边加减几项，得到：

引理1：对于正变量y和x，和正常数μ，η和l，有如下方程：

为了保证系统在有限时间域内收敛，利用上述引理。因此常数项应该为正数，则有：

根据引理1，得到不等式：

其中e^-γT＞ρ₁，

有限时间t₁应该满足如下关系：

继续利用引理1，令x＝1，y值分别满足

则有：

因此，李雅普诺夫函数L的一阶导数可改写为：

引理2：对于y_j∈R，j＝1,2,...,m，0＜p＜1，有以下不等式：

利用引理2，李雅普诺夫函数L的一阶导数满足：

L'≤-cL^β+π。

其中

引理3：对于满足

的系统，如果光滑正定函数L(x)存在，标量c＞0，0＜β＜1，π＞0，且有

则这个非线性系统是半全局一致收敛的。

根据引理3可知，对于

该非线性闭环控制系统中的所有信号都在有限时间内达到半全局一致收敛。

本发明综合考虑了跟踪误差和不确定因子的干扰，具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域，可达到控制目标在最短的时间内达到最优性能的工程要求，具有收敛快、精度高等优点，更受人青睐；其次，现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法，而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程，与之相比，将有限时间与最优控制算法相结合，本发明的实用性、抗干扰鲁棒性更好，应用领域更加广泛；最后，随着工程上对生产成本的限制愈加严格，收敛时间越短，就意味着成本越低，效益越高，因此该有限时间控制方法拥有巨大的市场潜力。

实施例二

本系统根据上述所述的不确定非线性系统的有限时间优化跟踪控制方法对不确定非线性系统进行跟踪控制，综合考虑了跟踪误差和不确定因子的干扰，具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域，可达到控制目标在最短的时间内达到最优性能的工程要求，具有收敛快、精度高等优点，更受人青睐；其次，现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法，而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程，与之相比，本发明的实用性、抗干扰鲁棒性更好，应用领域更加广泛；最后，随着工程上对生产成本的限制愈加严格，收敛时间越短，就意味着成本越低，效益越高。

实施例三

本实施例提供一种轮式移动机器人的仿真跟踪控制方法，对实施例一所述的方法进行验证，建立空间坐标系，为了便于系统的动态分析，在该机器人的质心处建立平面坐标系，如图3和图4所示。

建立基于该模型的非线性动力学系统，该系统的动力学方程为：

其中，m是轮式移动机器人的质量，v是其速度，β是车身轴线与速度方向的夹角，

是车身轴线与x轴的夹角，θ是两轮旋转的角度，d₁是车轮到车身轴线的距离，d₂是质心到两轮轴线的距离，

分别是左、右车轮提供的动力，f_DP是运动阻力，I是轮式移动机器人的转动惯量，ω是其角速度，τ_R是阻力矩。

将其改写为向量形式：

Mξ'+Aξ+G＝B(τ-T_De)-F_R

式中，

由于质量矩阵是对称矩阵，可以将方程改写为状态空间形式：

ξ'(t)＝f(t)ξ(t)+g(t)τ+d(t)

式中，f(t)＝-M^-1Α和g(t)＝M^-1B是未知的常函数，d(t)＝M^-1(BT_De+F_R-G)是等效阻力矩和不确定的阻力共同形成的阻力矩阵。

基于实施例一中的方法，通过仿真模拟计算，本专利所设计优化控制器能够保证轮式移动机器人系统在有限时间内实现对期望轨迹的最优跟踪，即轮式移动机器人控制系统系统是半全局实际有限时间稳定的。

当然，本发明所述的不确定非线性系统的有限时间优化跟踪控制方法可以应用于轮式移动机器人移动系统、机械臂系统，连续搅拌反应釜系统等带有不确定的较复杂工程系统。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种不确定非线性系统的有限时间优化跟踪控制方法，其特征在于，包括：

根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型，所述不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统：

ξ'(t)＝f(t)ξ(t)+g(t)u(t)+d(t)，

其中，f(t)为系统不确定项，指的是包含所述不确定非线性系统未建模动态等在内的所述不确定非线性系统未知部分；g(t)为有界不确定项函数，指的是输入转移矩阵一般化之后的系数函数，一般假定不确定，但是有界；u(t)为控制输入，d(t)为系统中不确定干扰项，指系统在运行过程中收到的内在或外在的影响，特指在可控范围内的影响；ξ(t)为系统状态函数，t指的是时间；

根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数；

所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括：根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数；

基于有限时间收敛理论，根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入；根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器；

所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括：基于莱布尼茨法则，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程，形式如下：

其中，γ为折损系数，并且γ＞0，

其中λ为控制输入的上界，R是一个对角矩阵，满足R＝diag(r₁,r₂)，r₁和r₂是两个常数，tanh为双曲正切函数，L₁为价值评估函数，u为控制输入u(t)的简化，ψ为目标增广系统的状态ψ(t)的简化，ψ(t)＝[z(t),ξ_d(t)]^T；

根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数，形式如下：

其中，

ξ(d)为有界期望轨迹，z为跟踪误差，

根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件，即最优价值评估函数满足：

在所述不确定非线性系统的最优价值评估函数的前提条件下，基于强化学习方法，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数，所述不确定非线性系统的最优价值评估函数的形式如下：

；

2.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法，其特征在于，所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限，所述价值评估函数被定义为

3.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法，其特征在于，所述基于强化学习方法，根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括：

设定所述不确定非线性系统的价值评估函数的解算条件，引入神经网络的权重向量和逼近误差，所述不确定非线性系统的价值评估函数建立神经网络模型，所述神经网络的权重向量代表所述目标增广系统模型在所述不确定非线性系统的价值评估函数中的权重；

设定强化学习条件；

设计强化学习的评价函数；

4.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法，其特征在于，所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括：

引入动态神经网络的权重向量，根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型，所述动态神经网络的权重向量表示所述目标增广系统模型在所述控制输入函数中的权重；

基于梯度下降法，获得所动态述神经网络的最优权重向量；

5.根据权利要求4所述的不确定非线性系统的有限时间优化跟踪控制方法，其特征在于，所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括：

6.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法，其特征在于，所述不确定因子包括系统未知项、有界不确定项和干扰项。

7.一种不确定非线性系统的有限时间优化跟踪控制系统，其特征在于，包括：不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块；

所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型，所述不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统：

ξ'(t)＝f(t)ξ(t)+g(t)u(t)+d(t)，

其中，f(t)为系统不确定项，指的是包含不确定非线性系统未建模动态等在内的不确定非线性系统未知部分；g(t)为有界不确定项函数，指的是输入转移矩阵一般化之后的系数函数，一般假定不确定，但是有界；u(t)为控制输入，d(t)为系统中不确定干扰项，指系统在运行过程中收到的内在或外在的影响，特指在可控范围内的影响；ξ(t)为系统状态函数，t指的是时间；

其中，γ为折损系数，并且γ＞0，

其中λ为控制输入的上界，R是一个对角矩阵，满足R＝diag(r₁,r₂)，r₁和r₂是两个常数，tanh为双曲正切函数，L₁为价值评估函数，u为控制输入u(r)的简化，ψ为目标增广系统的状态ψ(t)的简化，ψ(t)＝[z(t),ξ_d(t)]^T；

；

所述跟踪模块用于根据最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。