CN109976161B - 一种不确定非线性系统的有限时间优化跟踪控制方法 - Google Patents

一种不确定非线性系统的有限时间优化跟踪控制方法 Download PDF

Info

Publication number
CN109976161B
CN109976161B CN201910328240.7A CN201910328240A CN109976161B CN 109976161 B CN109976161 B CN 109976161B CN 201910328240 A CN201910328240 A CN 201910328240A CN 109976161 B CN109976161 B CN 109976161B
Authority
CN
China
Prior art keywords
nonlinear system
uncertain nonlinear
uncertain
evaluation function
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910328240.7A
Other languages
English (en)
Other versions
CN109976161A (zh
Inventor
丁亮
高海波
李树
王情帆
安鑫
刘艳军
李楠
邓宗全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910328240.7A priority Critical patent/CN109976161B/zh
Publication of CN109976161A publication Critical patent/CN109976161A/zh
Application granted granted Critical
Publication of CN109976161B publication Critical patent/CN109976161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了不确定非线性系统的有限时间优化跟踪控制方法,涉及智能控制技术领域。本发明提供一种不确定非线性系统的有限时间优化跟踪控制方法,包括:根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;定义所述不确定非线性系统的价值评估函数;根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。本发明综合考虑了有限时间收敛和最优控制,具有收敛快、精度高、抗干扰鲁棒性好等优点。

Description

一种不确定非线性系统的有限时间优化跟踪控制方法
技术领域
本发明涉及跟踪控制技术领域,具体而言,涉及一种不确定非线性系统的有限时间优化跟踪控制方法。
背景技术
神经网络因其较强的适应性特点而成为自适应控制领域的研究热点,在比较热门的优化控制领域也有着广泛应用和推广。现有的优化控制算法研究工作已经取得丰硕成果,在工程领域的应用和推广也取得了一定进展。但是对于非线性系统中,通常存在较多的不确定干扰项,对于非线性系统的跟踪控制,往往采用无限时间的跟踪控制方法,抗干扰能力低,从而导致跟踪控制的不准确性。
发明内容
本发明解决的问题是针对不确定非线性系统的有限时间优化跟踪控制方法进行优化,解决上述技术问题中的至少一个。
为解决上述问题,本发明提供一种不确定非线性系统的有限时间优化跟踪控制方法,包括:
根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。
可选地,所述根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数包括:
根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数。
可选地,所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限,所述价值评估函数被定义为
Figure GDA0003478197200000021
其中,γ为折损系数,并且γ>0,
Figure GDA0003478197200000022
为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足
Figure GDA0003478197200000023
其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数。
可选地,所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:
根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;
根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器。
可选地,所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程;
根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数;
根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件;
在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数。
可选地,所述基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
设定所述不确定非线性系统的价值评估函数的解算条件,引入神经网络的权重向量和逼近误差,所述不确定非线性系统的价值评估函数建立神经网络模型,所述神经网络的权重向量代表所述增广系统模型在所述不确定非线性系统的价值评估函数中的权重;
设定强化学习条件;
设计强化学习的评价函数;
基于梯度下降法,获得所述神经网络的最优权重向量和神经网络的逼近误差,使所述不确定非线性系统的价值评估函数值最小;
根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。
可选地,所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括:
根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数;
根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值,并设定控制输入函数的估计误差;
引入动态神经网络的权重向量,根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型,所述动态神经网络的权重向量表示所述增广系统模型在所述控制输入函数中的权重;
基于梯度下降法,获得所动态述神经网络的最优权重向量;
根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。
可选地,所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括:
基于李雅普诺夫稳定性定理,根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型;
根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点:是,根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制;否,重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。
可选地,所述不确定因子包括系统未知项、有界不确定项和干扰项。
相比于现有技术,本发明所述的不确定非线性系统的有限时间优化跟踪控制方法具备以下优势:
本发明综合考虑了跟踪误差和不确定因子的干扰,具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域,可达到控制目标在最短的时间内达到最优性能的工程要求,具有收敛快、精度高等优点,更受人青睐;现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法,而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程,与之相比,本发明的实用性、抗干扰鲁棒性更好,应用领域更加广泛;最后,随着工程上对生产成本的限制愈加严格,收敛时间越短,就意味着成本越低,效益越高。
本发明还提供一种不确定非线性系统的跟踪控制系统,包括:不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块;
所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
所述控制系统评估模型建模模块用于根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述跟踪模块用于根据所述最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。
相比于现有技术,本发明所述的不确定非线性系统的跟踪控制系统与上述所述的不确定非线性系统的有限时间优化跟踪控制方法相同,在此不再累述。
附图说明
图1为本发明中不确定非线性系统的有限时间优化跟踪控制方法的流程图;
图2为本发明中不确定非线性系统的有限时间优化跟踪控制系统的示意图;
图3为本发明中轮式移动机器人的基本机构;
图4为本发明中存在滑移状况的轮式移动机器人的动力学模型。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
实施例一
如图1所示,本实施例提供一种不确定非线性系统的有限时间优化跟踪控制方法,包括:
S1:根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
S2:根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
S3:根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
S4:根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
S5:根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。
在S1步骤中,不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统:
ξ'(t)=f(t)ξ(t)+g(t)u(t)+d(t)
其中,f(t)为系统不确定项,指的是包含不确定非线性系统未建模动态等在内的不确定非线性系统未知部分;g(t)为有界不确定项函数,指的是输入转移矩阵一般化之后的系数函数,一般假定不确定,但是有界;u(t)为控制输入,d(t)为系统中不确定干扰项,指系统在运行过程中收到的内在或外在的影响,特指在可控范围内的影响;ξ(t)为系统状态函数,t指的是时间,后文中z(t)可简化为z,ξ(t)可简化为ξ,g(t)可简化为g,u(t)可简化为u,d(t)可简化为d。
为更好地完成控制算法设计,保证被控系统收敛性,现给出如下设定条件:g有界,满足
Figure GDA0003478197200000071
这里g为g(t)的缩写,g
Figure GDA0003478197200000072
分别为g(t)的上界与下届;神经网络隐含层中的激活函数
Figure GDA0003478197200000073
有界,满足
Figure GDA0003478197200000074
函数逼近误差ε(·)有界,满足
Figure GDA0003478197200000075
在S2步骤中,最优跟踪控制是通过寻求最优策略以使给定性能函数最小化,同时保证系统输出以最优的方式实现对目标轨迹的跟踪。定义实际轨迹与参考轨迹间的差为z(t)=ξ(t)-ξd(t),其中z(t)为跟踪误差,ξd为ξd(t)的简写,ξd为有界期望轨迹。
在S3步骤中,所述根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数包括:
S31:根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
S32:根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数。
这里,所述跟踪误差的一阶导数z'=f(t)ξ(t)+g(t)u(t)+d(t)-ξ'd
假设参考轨迹ξd有界,并且其一阶导数可写作满足李普希兹连续条件的函数,则有ξ'd(t)=l(ξd(t))。且有ξd(0)=0。
定义所述目标增广系统的状态为ψ(t)=[z(t),ξd(t)]T,则所述目标增广系统可被转化为ψ'(t)=F(ψ(t))+G(t)u+D(t),其中
Figure GDA0003478197200000081
Figure GDA0003478197200000082
其中,所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限,所述价值评估函数被定义为
Figure GDA0003478197200000083
其中,γ为折损系数,并且γ>0,
Figure GDA0003478197200000084
为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足
Figure GDA0003478197200000085
其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数。
在S4步骤中,所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:
S41:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
S42:基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;
S43:根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器。
在S41步骤中,所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
S411:基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程,形式如下:
Figure GDA0003478197200000091
S412:根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数,形式如下:
Figure GDA0003478197200000092
S413:根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件,即最优价值评估函数满足:
Figure GDA0003478197200000093
S414:在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数。这里,所述不确定非线性系统的最优价值评估函数的形式如下:
Figure GDA0003478197200000094
在步骤S414中,所述基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
S4141:设定所述不确定非线性系统的价值评估函数的解算条件,引入神经网络的权重向量和逼近误差,所述不确定非线性系统的价值评估函数建立神经网络模型,所述神经网络的权重向量代表所述增广系统模型在所述不确定非线性系统的价值评估函数中的权重;
S4142:设定强化学习条件;
S4143:设计强化学习的评价函数;
S4144:基于梯度下降法,获得所述神经网络的最优权重向量和神经网络的逼近误差,使所述不确定非线性系统的价值评估函数值最小;
S4145:根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。
这里,假设所述价值评估函数L1及其一阶导数均为连续光滑函数,则L1及其梯度
Figure GDA0003478197200000101
可表示为:
Figure GDA0003478197200000102
其中,
Figure GDA0003478197200000103
为神经网络的权重向量,代表神经网络节点数,
Figure GDA0003478197200000104
是激活函数,εc代表逼近误差。
选取积分型强化学习间隔为T>0,由于引入了评价神经网络逼近效果,所述逼近误差的贝尔曼方程可以表示为如下形式:
Figure GDA0003478197200000105
其中,
Figure GDA0003478197200000111
由于激活函数和评价神经网络逼近效果有界,所述价值评估函数的梯度亦有界,则逼近误差有界,即
Figure GDA0003478197200000112
Figure GDA0003478197200000113
为某正常数。
评价神经网络逼近效果,所述价值评估函数的贝尔曼方程可被表达为如下形式:
Figure GDA0003478197200000114
式中
Figure GDA0003478197200000115
是对ωc的估计。因此,误差函数的估计值
Figure GDA0003478197200000116
可被写成如下形式:
Figure GDA0003478197200000117
那么,强化学习的评价函数可表示为如下形式:
Figure GDA0003478197200000118
其中,
Figure GDA0003478197200000119
为对U(u)的估计。
为了最小化近似误差,给出以下贝尔曼误差:
Figure GDA00034781972000001110
利用梯度下降法,可得到
Figure GDA00034781972000001111
表达式:
Figure GDA00034781972000001112
其中αc代表评价神经网络的学习效率。
综上几点,可得:
Figure GDA00034781972000001113
其中,
Figure GDA0003478197200000121
在S42步骤中,所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括:
S421:根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数;
S422:根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值,并设定控制输入函数的估计误差;
S423:引入动态神经网络的权重向量,根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型,所述动态神经网络的权重向量表示所述增广系统模型在所述控制输入函数中的权重;
S424:基于梯度下降法,获得所动态述神经网络的最优权重向量;
S425:根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。
根据评价神经网络逼近效果,最优控制输入可被改写为:
Figure GDA0003478197200000122
为了解决在哈密顿-雅克比-贝尔曼函数中由不确定变量
Figure GDA0003478197200000123
造成的影响,给出如下转换:
Figure GDA0003478197200000124
Figure GDA0003478197200000131
故U(u)可被改写为如下形式:
Figure GDA0003478197200000132
进而有:
Figure GDA0003478197200000133
Figure GDA0003478197200000134
考虑评价神经网络逼近效果,控制输入可被改写为:
Figure GDA0003478197200000135
其中,u1是控制输入,
Figure GDA0003478197200000136
是对最优评价神经网络权重ωc的当前状态的估计。
评价神经网络,由于
Figure GDA0003478197200000137
是对最优评价神经网络权重ωc的当前估计,这并不能保证闭环控制系统的稳定性,因此提出另一种动态神经网络,来寻找最优控制策略,并且保证系统的稳定性。
Figure GDA0003478197200000141
其中,
Figure GDA0003478197200000142
是控制输入的估计值,
Figure GDA0003478197200000143
是动态神经网络的权重向量,代表了对于ωc当前值的估计值,φa是激活函数当前值。
于是,基于强化学习的贝尔曼方程误差可被定义为:
Figure GDA0003478197200000144
其中
Figure GDA0003478197200000145
因此,权重ωc的当前估计值
Figure GDA0003478197200000146
可被改写为:
Figure GDA0003478197200000147
定义控制输入的近似误差zu为:
Figure GDA0003478197200000148
为了使误差最小化,给出以下方程:
Figure GDA0003478197200000149
基于梯度下降法,可得:
Figure GDA00034781972000001410
式中Ξ′=RΞ,η是一个正参数,方程的最后一项是为了保证系统的稳定性。
在步骤S5之前,所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括:
基于李雅普诺夫稳定性定理,根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型;
根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点:是,根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制;否,重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。
也就是说,在S5步骤之前,增加稳定性评估与有限时间收敛验证步骤,当满足系统稳定性与有限时间收敛时,满足如下条件,根据李雅普诺夫稳定性定理,定义李雅普诺夫模型为:
L(k)=L1(k)+L2(k)+L3(k)
其中L1(k)为已知的最优价值函数,
Figure GDA0003478197200000151
1)李雅普诺夫模型L1的一阶导数为:
Figure GDA0003478197200000152
设计足够短的强化学习时间间隔:即
Figure GDA0003478197200000153
ρ1=1±ρ0,ρ1∈U(1,ρ0),ρ0是足够小的正常数。
L'1表达式可改写为:
Figure GDA0003478197200000161
李雅普诺夫模型第一部分L1可改写为:
Figure GDA0003478197200000162
进而,可得近似误差为:
Figure GDA0003478197200000163
其中,t1是为设定有限时间。
神经网络权重ωc的估计值
Figure GDA0003478197200000164
可整理为如下形式:
Figure GDA0003478197200000165
2)李雅普诺夫模型第二部分L2一阶微分为:
Figure GDA0003478197200000166
利用柯西中值定理,上式可改写为:
Figure GDA0003478197200000167
基于所述动态神经网络的逼近误差模型zu,可得:
Figure GDA0003478197200000168
3)李雅普诺夫模型第三部分L3的一阶微分为:
Figure GDA0003478197200000171
其中
Figure GDA0003478197200000172
根据柯西中值定理:
Figure GDA0003478197200000173
综上,李雅普诺夫模型L的一阶导数为:
Figure GDA0003478197200000174
其中ci>0,i=1,2,3,
Figure GDA0003478197200000175
Figure GDA0003478197200000176
为了实现在有限时间域内收敛,在方程的右边加减几项,得到:
Figure GDA0003478197200000177
引理1:对于正变量y和x,和正常数μ,η和l,有如下方程:
Figure GDA0003478197200000178
为了保证系统在有限时间域内收敛,利用上述引理。因此常数项应该为正数,则有:
Figure GDA0003478197200000181
根据引理1,得到不等式:
Figure GDA0003478197200000182
其中e-γT>ρ1
Figure GDA0003478197200000183
有限时间t1应该满足如下关系:
Figure GDA0003478197200000184
继续利用引理1,令x=1,y值分别满足
Figure GDA0003478197200000185
Figure GDA0003478197200000186
则有:
Figure GDA0003478197200000187
Figure GDA0003478197200000188
Figure GDA0003478197200000189
因此,李雅普诺夫函数L的一阶导数可改写为:
Figure GDA00034781972000001810
引理2:对于yj∈R,j=1,2,...,m,0<p<1,有以下不等式:
Figure GDA0003478197200000191
利用引理2,李雅普诺夫函数L的一阶导数满足:
L'≤-cLβ+π。
其中
Figure GDA0003478197200000192
引理3:对于满足
Figure GDA0003478197200000195
的系统,如果光滑正定函数L(x)存在,标量c>0,0<β<1,π>0,且有
Figure GDA0003478197200000193
则这个非线性系统是半全局一致收敛的。
根据引理3可知,对于
Figure GDA0003478197200000194
该非线性闭环控制系统中的所有信号都在有限时间内达到半全局一致收敛。
本发明综合考虑了跟踪误差和不确定因子的干扰,具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域,可达到控制目标在最短的时间内达到最优性能的工程要求,具有收敛快、精度高等优点,更受人青睐;其次,现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法,而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程,与之相比,将有限时间与最优控制算法相结合,本发明的实用性、抗干扰鲁棒性更好,应用领域更加广泛;最后,随着工程上对生产成本的限制愈加严格,收敛时间越短,就意味着成本越低,效益越高,因此该有限时间控制方法拥有巨大的市场潜力。
实施例二
本发明还提供一种不确定非线性系统的跟踪控制系统,包括:不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块;
所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
所述控制系统评估模型建模模块用于根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述跟踪模块用于根据所述最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。
本系统根据上述所述的不确定非线性系统的有限时间优化跟踪控制方法对不确定非线性系统进行跟踪控制,综合考虑了跟踪误差和不确定因子的干扰,具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域,可达到控制目标在最短的时间内达到最优性能的工程要求,具有收敛快、精度高等优点,更受人青睐;其次,现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法,而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程,与之相比,本发明的实用性、抗干扰鲁棒性更好,应用领域更加广泛;最后,随着工程上对生产成本的限制愈加严格,收敛时间越短,就意味着成本越低,效益越高。
实施例三
本实施例提供一种轮式移动机器人的仿真跟踪控制方法,对实施例一所述的方法进行验证,建立空间坐标系,为了便于系统的动态分析,在该机器人的质心处建立平面坐标系,如图3和图4所示。
建立基于该模型的非线性动力学系统,该系统的动力学方程为:
Figure GDA0003478197200000211
其中,m是轮式移动机器人的质量,v是其速度,β是车身轴线与速度方向的夹角,
Figure GDA0003478197200000212
是车身轴线与x轴的夹角,θ是两轮旋转的角度,d1是车轮到车身轴线的距离,d2是质心到两轮轴线的距离,
Figure GDA0003478197200000213
分别是左、右车轮提供的动力,fDP是运动阻力,I是轮式移动机器人的转动惯量,ω是其角速度,τR是阻力矩。
将其改写为向量形式:
Mξ'+Aξ+G=B(τ-TDe)-FR
式中,
Figure GDA0003478197200000214
Figure GDA0003478197200000215
Figure GDA0003478197200000216
由于质量矩阵是对称矩阵,可以将方程改写为状态空间形式:
ξ'(t)=f(t)ξ(t)+g(t)τ+d(t)
式中,f(t)=-M-1Α和g(t)=M-1B是未知的常函数,d(t)=M-1(BTDe+FR-G)是等效阻力矩和不确定的阻力共同形成的阻力矩阵。
基于实施例一中的方法,通过仿真模拟计算,本专利所设计优化控制器能够保证轮式移动机器人系统在有限时间内实现对期望轨迹的最优跟踪,即轮式移动机器人控制系统系统是半全局实际有限时间稳定的。
当然,本发明所述的不确定非线性系统的有限时间优化跟踪控制方法可以应用于轮式移动机器人移动系统、机械臂系统,连续搅拌反应釜系统等带有不确定的较复杂工程系统。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (7)

1.一种不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,包括:
根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型,所述不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统:
ξ'(t)=f(t)ξ(t)+g(t)u(t)+d(t),
其中,f(t)为系统不确定项,指的是包含所述不确定非线性系统未建模动态等在内的所述不确定非线性系统未知部分;g(t)为有界不确定项函数,指的是输入转移矩阵一般化之后的系数函数,一般假定不确定,但是有界;u(t)为控制输入,d(t)为系统中不确定干扰项,指系统在运行过程中收到的内在或外在的影响,特指在可控范围内的影响;ξ(t)为系统状态函数,t指的是时间;
根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数;
根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器;
所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程,形式如下:
Figure FDA0003478197190000021
其中,γ为折损系数,并且γ>0,
Figure FDA0003478197190000022
为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足
Figure FDA0003478197190000023
其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数,L1为价值评估函数,u为控制输入u(t)的简化,ψ为目标增广系统的状态ψ(t)的简化,ψ(t)=[z(t),ξd(t)]T
根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数,形式如下:
Figure FDA0003478197190000024
其中,
Figure FDA0003478197190000025
ξ(d)为有界期望轨迹,z为跟踪误差,
Figure FDA0003478197190000026
根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件,即最优价值评估函数满足:
Figure FDA0003478197190000031
在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数,所述不确定非线性系统的最优价值评估函数的形式如下:
Figure 3
根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。
2.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限,所述价值评估函数被定义为
Figure FDA0003478197190000033
3.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
设定所述不确定非线性系统的价值评估函数的解算条件,引入神经网络的权重向量和逼近误差,所述不确定非线性系统的价值评估函数建立神经网络模型,所述神经网络的权重向量代表所述目标增广系统模型在所述不确定非线性系统的价值评估函数中的权重;
设定强化学习条件;
设计强化学习的评价函数;
基于梯度下降法,获得所述神经网络的最优权重向量和神经网络的逼近误差,使所述不确定非线性系统的价值评估函数值最小;
根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。
4.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括:
根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数;
根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值,并设定控制输入函数的估计误差;
引入动态神经网络的权重向量,根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型,所述动态神经网络的权重向量表示所述目标增广系统模型在所述控制输入函数中的权重;
基于梯度下降法,获得所动态述神经网络的最优权重向量;
根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。
5.根据权利要求4所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括:
基于李雅普诺夫稳定性定理,根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型;
根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点:是,根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制;否,重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。
6.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述不确定因子包括系统未知项、有界不确定项和干扰项。
7.一种不确定非线性系统的有限时间优化跟踪控制系统,其特征在于,包括:不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块;
所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型,所述不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统:
ξ'(t)=f(t)ξ(t)+g(t)u(t)+d(t),
其中,f(t)为系统不确定项,指的是包含不确定非线性系统未建模动态等在内的不确定非线性系统未知部分;g(t)为有界不确定项函数,指的是输入转移矩阵一般化之后的系数函数,一般假定不确定,但是有界;u(t)为控制输入,d(t)为系统中不确定干扰项,指系统在运行过程中收到的内在或外在的影响,特指在可控范围内的影响;ξ(t)为系统状态函数,t指的是时间;
所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数;
所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器;
所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程,形式如下:
Figure FDA0003478197190000061
其中,γ为折损系数,并且γ>0,
Figure FDA0003478197190000062
为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足
Figure FDA0003478197190000063
其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数,L1为价值评估函数,u为控制输入u(r)的简化,ψ为目标增广系统的状态ψ(t)的简化,ψ(t)=[z(t),ξd(t)]T
根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数,形式如下:
Figure FDA0003478197190000064
根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件,即最优价值评估函数满足:
Figure FDA0003478197190000071
在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数,所述不确定非线性系统的最优价值评估函数的形式如下:
Figure 2
所述跟踪模块用于根据最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。
CN201910328240.7A 2019-04-23 2019-04-23 一种不确定非线性系统的有限时间优化跟踪控制方法 Active CN109976161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910328240.7A CN109976161B (zh) 2019-04-23 2019-04-23 一种不确定非线性系统的有限时间优化跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910328240.7A CN109976161B (zh) 2019-04-23 2019-04-23 一种不确定非线性系统的有限时间优化跟踪控制方法

Publications (2)

Publication Number Publication Date
CN109976161A CN109976161A (zh) 2019-07-05
CN109976161B true CN109976161B (zh) 2022-04-08

Family

ID=67085920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910328240.7A Active CN109976161B (zh) 2019-04-23 2019-04-23 一种不确定非线性系统的有限时间优化跟踪控制方法

Country Status (1)

Country Link
CN (1) CN109976161B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362081B (zh) * 2019-07-16 2020-04-24 武昌理工学院 一种移动机器人路径规划方法
CN112925203A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 一种基于加强学习的最优跟踪控制算法
CN112947430B (zh) * 2021-02-03 2022-07-15 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN113134187B (zh) * 2021-04-19 2022-04-29 重庆大学 基于积分强化学习的多消防巡检协作机器人系统
CN114563953B (zh) * 2022-01-31 2023-05-09 四川大学 兼顾多因素影响的轮式机器人自适应容错可靠控制系统及方法
CN115609592B (zh) * 2022-11-22 2023-03-07 季华实验室 一种机械臂自适应跟踪控制方法
CN116149262B (zh) * 2023-04-23 2023-07-04 山东科技大学 一种伺服系统的跟踪控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897224A (zh) * 2018-08-03 2018-11-27 合肥工业大学 一种不确定轮式移动机器人的自适应轨迹跟踪控制方法
CN109031947A (zh) * 2018-06-19 2018-12-18 哈尔滨理工大学 基于径向基神经网络的轨迹跟踪控制及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109031947A (zh) * 2018-06-19 2018-12-18 哈尔滨理工大学 基于径向基神经网络的轨迹跟踪控制及方法
CN108897224A (zh) * 2018-08-03 2018-11-27 合肥工业大学 一种不确定轮式移动机器人的自适应轨迹跟踪控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adaptive Neural Network-Based Finite-Time Online Optimal Tracking Control of the Nonlinear System With Dead Zone;Liang Ding 等;《IEEE》;20190926;全文 *
Adaptive Neural Network-Based Tracking Control for Full-State Constrained Wheeled Mobile Robotic System;Liang Ding 等;《IEEE》;20171231;全文 *
Adaptive_Neural_Network_Finite-Time_Output_Feedback_Control_of_Quantized_Nonlinear_Systems;F. Wang 等;《IEEE》;20181231;参见第1839-1840页 *
ADP-Based Online Tracking Control of Partially Uncertain Time-Delayed Nonlinear System and Application to Wheeled Mobile Robots;Haibo Gao 等;《IEEE》;20190312;全文 *
Optimal tracking control of nonlinear partially-unknown constrained-input systems using integral reinforcement learning;HamidrezaModares 等;《web of science》;20141231;参见第1780-1787页 *

Also Published As

Publication number Publication date
CN109976161A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109976161B (zh) 一种不确定非线性系统的有限时间优化跟踪控制方法
CN111152225B (zh) 存在输入饱和的不确定机械臂固定时间轨迹跟踪控制方法
CN108942924B (zh) 基于多层神经网络的模型不确定性机械臂运动控制方法
CN107561935B (zh) 基于多层神经网络的电机位置伺服系统摩擦补偿控制方法
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN108875253B (zh) 基于干扰观测器的欠驱动吊车系统的终端滑模消摆控制方法及系统
CN108628172B (zh) 一种基于扩张状态观测器的机械臂高精度运动控制方法
CN107121932B (zh) 电机伺服系统误差符号积分鲁棒自适应控制方法
CN110543184B (zh) 一种刚性飞行器的固定时间神经网络控制方法
CN110471438B (zh) 一种刚性飞行器的固定时间自适应姿态跟踪控制方法
CN104589349A (zh) 一种混合悬浮微重力环境下带有单关节机械臂的组合体自主控制方法
CN110977988A (zh) 基于有限时间命令滤波的多关节机械臂阻抗控制方法
CN112148036B (zh) 网络化机器人系统的固定时间估计器的双边跟踪控制方法
CN111965976B (zh) 基于神经网络观测器的机器人关节滑模控制方法及系统
CN113377121B (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN114047773A (zh) 一种基于扩张状态观测器的水下集矿机器人反步滑模自适应姿态控制方法
CN110488854B (zh) 一种基于神经网络估计的刚性飞行器固定时间姿态跟踪控制方法
CN114815618B (zh) 一种基于动态增益的自适应神经网络跟踪控制方法
CN114167734B (zh) 一种强耦合非线性系统高精度控制方法及控制系统
CN109048995B (zh) 一种三自由度Delta并联机器人的非线性关节摩擦力补偿方法
CN111427264A (zh) 一种复杂遥操作技术的神经自适应固定时间控制方法
CN116015134A (zh) 一种基于扩张状态观测器的永磁同步电机固定时间积分滑模控制方法
CN114211478B (zh) 一种模块化机械臂协调操作最优控制方法及系统
CN114147713B (zh) 基于自适应神经网络高阶动态滑模的轨迹跟踪控制方法
CN112987770B (zh) 两栖仿蟹多足机器人步行足抗饱和有限时间运动控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant