CN109976161B - 一种不确定非线性系统的有限时间优化跟踪控制方法 - Google Patents
一种不确定非线性系统的有限时间优化跟踪控制方法 Download PDFInfo
- Publication number
- CN109976161B CN109976161B CN201910328240.7A CN201910328240A CN109976161B CN 109976161 B CN109976161 B CN 109976161B CN 201910328240 A CN201910328240 A CN 201910328240A CN 109976161 B CN109976161 B CN 109976161B
- Authority
- CN
- China
- Prior art keywords
- nonlinear system
- uncertain nonlinear
- uncertain
- evaluation function
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 118
- 230000006870 function Effects 0.000 claims description 141
- 238000013528 artificial neural network Methods 0.000 claims description 55
- 238000012905 input function Methods 0.000 claims description 21
- 230000002787 reinforcement Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000003416 augmentation Effects 0.000 claims description 14
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 238000005094 computer simulation Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013210 evaluation model Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 11
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了不确定非线性系统的有限时间优化跟踪控制方法,涉及智能控制技术领域。本发明提供一种不确定非线性系统的有限时间优化跟踪控制方法,包括:根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;定义所述不确定非线性系统的价值评估函数;根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。本发明综合考虑了有限时间收敛和最优控制,具有收敛快、精度高、抗干扰鲁棒性好等优点。
Description
技术领域
本发明涉及跟踪控制技术领域,具体而言,涉及一种不确定非线性系统的有限时间优化跟踪控制方法。
背景技术
神经网络因其较强的适应性特点而成为自适应控制领域的研究热点,在比较热门的优化控制领域也有着广泛应用和推广。现有的优化控制算法研究工作已经取得丰硕成果,在工程领域的应用和推广也取得了一定进展。但是对于非线性系统中,通常存在较多的不确定干扰项,对于非线性系统的跟踪控制,往往采用无限时间的跟踪控制方法,抗干扰能力低,从而导致跟踪控制的不准确性。
发明内容
本发明解决的问题是针对不确定非线性系统的有限时间优化跟踪控制方法进行优化,解决上述技术问题中的至少一个。
为解决上述问题,本发明提供一种不确定非线性系统的有限时间优化跟踪控制方法,包括:
根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。
可选地,所述根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数包括:
根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数。
可选地,所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限,所述价值评估函数被定义为其中,γ为折损系数,并且γ>0,为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数。
可选地,所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:
根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;
根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器。
可选地,所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程;
根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数;
根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件;
在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数。
可选地,所述基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
设定所述不确定非线性系统的价值评估函数的解算条件,引入神经网络的权重向量和逼近误差,所述不确定非线性系统的价值评估函数建立神经网络模型,所述神经网络的权重向量代表所述增广系统模型在所述不确定非线性系统的价值评估函数中的权重;
设定强化学习条件;
设计强化学习的评价函数;
基于梯度下降法,获得所述神经网络的最优权重向量和神经网络的逼近误差,使所述不确定非线性系统的价值评估函数值最小;
根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。
可选地,所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括:
根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数;
根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值,并设定控制输入函数的估计误差;
引入动态神经网络的权重向量,根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型,所述动态神经网络的权重向量表示所述增广系统模型在所述控制输入函数中的权重;
基于梯度下降法,获得所动态述神经网络的最优权重向量;
根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。
可选地,所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括:
基于李雅普诺夫稳定性定理,根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型;
根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点:是,根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制;否,重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。
可选地,所述不确定因子包括系统未知项、有界不确定项和干扰项。
相比于现有技术,本发明所述的不确定非线性系统的有限时间优化跟踪控制方法具备以下优势:
本发明综合考虑了跟踪误差和不确定因子的干扰,具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域,可达到控制目标在最短的时间内达到最优性能的工程要求,具有收敛快、精度高等优点,更受人青睐;现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法,而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程,与之相比,本发明的实用性、抗干扰鲁棒性更好,应用领域更加广泛;最后,随着工程上对生产成本的限制愈加严格,收敛时间越短,就意味着成本越低,效益越高。
本发明还提供一种不确定非线性系统的跟踪控制系统,包括:不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块;
所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
所述控制系统评估模型建模模块用于根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述跟踪模块用于根据所述最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。
相比于现有技术,本发明所述的不确定非线性系统的跟踪控制系统与上述所述的不确定非线性系统的有限时间优化跟踪控制方法相同,在此不再累述。
附图说明
图1为本发明中不确定非线性系统的有限时间优化跟踪控制方法的流程图;
图2为本发明中不确定非线性系统的有限时间优化跟踪控制系统的示意图;
图3为本发明中轮式移动机器人的基本机构;
图4为本发明中存在滑移状况的轮式移动机器人的动力学模型。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
实施例一
如图1所示,本实施例提供一种不确定非线性系统的有限时间优化跟踪控制方法,包括:
S1:根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
S2:根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
S3:根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
S4:根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
S5:根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。
在S1步骤中,不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统:
ξ'(t)=f(t)ξ(t)+g(t)u(t)+d(t)
其中,f(t)为系统不确定项,指的是包含不确定非线性系统未建模动态等在内的不确定非线性系统未知部分;g(t)为有界不确定项函数,指的是输入转移矩阵一般化之后的系数函数,一般假定不确定,但是有界;u(t)为控制输入,d(t)为系统中不确定干扰项,指系统在运行过程中收到的内在或外在的影响,特指在可控范围内的影响;ξ(t)为系统状态函数,t指的是时间,后文中z(t)可简化为z,ξ(t)可简化为ξ,g(t)可简化为g,u(t)可简化为u,d(t)可简化为d。
为更好地完成控制算法设计,保证被控系统收敛性,现给出如下设定条件:g有界,满足这里g为g(t)的缩写,g、分别为g(t)的上界与下届;神经网络隐含层中的激活函数有界,满足函数逼近误差ε(·)有界,满足
在S2步骤中,最优跟踪控制是通过寻求最优策略以使给定性能函数最小化,同时保证系统输出以最优的方式实现对目标轨迹的跟踪。定义实际轨迹与参考轨迹间的差为z(t)=ξ(t)-ξd(t),其中z(t)为跟踪误差,ξd为ξd(t)的简写,ξd为有界期望轨迹。
在S3步骤中,所述根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数包括:
S31:根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
S32:根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数。
这里,所述跟踪误差的一阶导数z'=f(t)ξ(t)+g(t)u(t)+d(t)-ξ'd。
假设参考轨迹ξd有界,并且其一阶导数可写作满足李普希兹连续条件的函数,则有ξ'd(t)=l(ξd(t))。且有ξd(0)=0。
其中,所述有限时间轨迹跟踪控制器的价值评估函数以有限的收敛时间作为积分上限,所述价值评估函数被定义为其中,γ为折损系数,并且γ>0,为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数。
在S4步骤中,所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:
S41:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
S42:基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;
S43:根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器。
在S41步骤中,所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
S411:基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程,形式如下:
S412:根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数,形式如下:
S413:根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件,即最优价值评估函数满足:
S414:在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数。这里,所述不确定非线性系统的最优价值评估函数的形式如下:
在步骤S414中,所述基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
S4141:设定所述不确定非线性系统的价值评估函数的解算条件,引入神经网络的权重向量和逼近误差,所述不确定非线性系统的价值评估函数建立神经网络模型,所述神经网络的权重向量代表所述增广系统模型在所述不确定非线性系统的价值评估函数中的权重;
S4142:设定强化学习条件;
S4143:设计强化学习的评价函数;
S4144:基于梯度下降法,获得所述神经网络的最优权重向量和神经网络的逼近误差,使所述不确定非线性系统的价值评估函数值最小;
S4145:根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。
选取积分型强化学习间隔为T>0,由于引入了评价神经网络逼近效果,所述逼近误差的贝尔曼方程可以表示为如下形式:
评价神经网络逼近效果,所述价值评估函数的贝尔曼方程可被表达为如下形式:
那么,强化学习的评价函数可表示为如下形式:
为了最小化近似误差,给出以下贝尔曼误差:
其中αc代表评价神经网络的学习效率。
综上几点,可得:
在S42步骤中,所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括:
S421:根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数;
S422:根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值,并设定控制输入函数的估计误差;
S423:引入动态神经网络的权重向量,根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型,所述动态神经网络的权重向量表示所述增广系统模型在所述控制输入函数中的权重;
S424:基于梯度下降法,获得所动态述神经网络的最优权重向量;
S425:根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。
根据评价神经网络逼近效果,最优控制输入可被改写为:
故U(u)可被改写为如下形式:
进而有:
考虑评价神经网络逼近效果,控制输入可被改写为:
于是,基于强化学习的贝尔曼方程误差可被定义为:
定义控制输入的近似误差zu为:
为了使误差最小化,给出以下方程:
基于梯度下降法,可得:
式中Ξ′=RΞ,η是一个正参数,方程的最后一项是为了保证系统的稳定性。
在步骤S5之前,所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括:
基于李雅普诺夫稳定性定理,根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型;
根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点:是,根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制;否,重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。
也就是说,在S5步骤之前,增加稳定性评估与有限时间收敛验证步骤,当满足系统稳定性与有限时间收敛时,满足如下条件,根据李雅普诺夫稳定性定理,定义李雅普诺夫模型为:
L(k)=L1(k)+L2(k)+L3(k)
1)李雅普诺夫模型L1的一阶导数为:
L'1表达式可改写为:
李雅普诺夫模型第一部分L1可改写为:
进而,可得近似误差为:
其中,t1是为设定有限时间。
2)李雅普诺夫模型第二部分L2一阶微分为:
利用柯西中值定理,上式可改写为:
基于所述动态神经网络的逼近误差模型zu,可得:
3)李雅普诺夫模型第三部分L3的一阶微分为:
根据柯西中值定理:
综上,李雅普诺夫模型L的一阶导数为:
引理1:对于正变量y和x,和正常数μ,η和l,有如下方程:
根据引理1,得到不等式:
有限时间t1应该满足如下关系:
因此,李雅普诺夫函数L的一阶导数可改写为:
引理2:对于yj∈R,j=1,2,...,m,0<p<1,有以下不等式:
利用引理2,李雅普诺夫函数L的一阶导数满足:
L'≤-cLβ+π。
本发明综合考虑了跟踪误差和不确定因子的干扰,具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域,可达到控制目标在最短的时间内达到最优性能的工程要求,具有收敛快、精度高等优点,更受人青睐;其次,现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法,而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程,与之相比,将有限时间与最优控制算法相结合,本发明的实用性、抗干扰鲁棒性更好,应用领域更加广泛;最后,随着工程上对生产成本的限制愈加严格,收敛时间越短,就意味着成本越低,效益越高,因此该有限时间控制方法拥有巨大的市场潜力。
实施例二
本发明还提供一种不确定非线性系统的跟踪控制系统,包括:不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块;
所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型;
所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
所述控制系统评估模型建模模块用于根据所述不确定非线性系统模型和所述跟踪误差定义所述不确定非线性系统的价值评估函数;
所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述跟踪模块用于根据所述最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。
本系统根据上述所述的不确定非线性系统的有限时间优化跟踪控制方法对不确定非线性系统进行跟踪控制,综合考虑了跟踪误差和不确定因子的干扰,具有收敛快、精度高、抗干扰鲁棒性好等优点。本发明立足于最优控制问题中的有限时间收敛领域,可达到控制目标在最短的时间内达到最优性能的工程要求,具有收敛快、精度高等优点,更受人青睐;其次,现有有限时间控制问题多采用设计神经网络有限时间协同控制器的方法,而本发明创新地利用强化学习算法来解决哈密顿-雅克比-贝尔曼方程,与之相比,本发明的实用性、抗干扰鲁棒性更好,应用领域更加广泛;最后,随着工程上对生产成本的限制愈加严格,收敛时间越短,就意味着成本越低,效益越高。
实施例三
本实施例提供一种轮式移动机器人的仿真跟踪控制方法,对实施例一所述的方法进行验证,建立空间坐标系,为了便于系统的动态分析,在该机器人的质心处建立平面坐标系,如图3和图4所示。
建立基于该模型的非线性动力学系统,该系统的动力学方程为:
其中,m是轮式移动机器人的质量,v是其速度,β是车身轴线与速度方向的夹角,是车身轴线与x轴的夹角,θ是两轮旋转的角度,d1是车轮到车身轴线的距离,d2是质心到两轮轴线的距离,分别是左、右车轮提供的动力,fDP是运动阻力,I是轮式移动机器人的转动惯量,ω是其角速度,τR是阻力矩。
将其改写为向量形式:
Mξ'+Aξ+G=B(τ-TDe)-FR
由于质量矩阵是对称矩阵,可以将方程改写为状态空间形式:
ξ'(t)=f(t)ξ(t)+g(t)τ+d(t)
式中,f(t)=-M-1Α和g(t)=M-1B是未知的常函数,d(t)=M-1(BTDe+FR-G)是等效阻力矩和不确定的阻力共同形成的阻力矩阵。
基于实施例一中的方法,通过仿真模拟计算,本专利所设计优化控制器能够保证轮式移动机器人系统在有限时间内实现对期望轨迹的最优跟踪,即轮式移动机器人控制系统系统是半全局实际有限时间稳定的。
当然,本发明所述的不确定非线性系统的有限时间优化跟踪控制方法可以应用于轮式移动机器人移动系统、机械臂系统,连续搅拌反应釜系统等带有不确定的较复杂工程系统。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (7)
1.一种不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,包括:
根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型,所述不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统:
ξ'(t)=f(t)ξ(t)+g(t)u(t)+d(t),
其中,f(t)为系统不确定项,指的是包含所述不确定非线性系统未建模动态等在内的所述不确定非线性系统未知部分;g(t)为有界不确定项函数,指的是输入转移矩阵一般化之后的系数函数,一般假定不确定,但是有界;u(t)为控制输入,d(t)为系统中不确定干扰项,指系统在运行过程中收到的内在或外在的影响,特指在可控范围内的影响;ξ(t)为系统状态函数,t指的是时间;
根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数;
根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器;
所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程,形式如下:
其中,γ为折损系数,并且γ>0,为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数,L1为价值评估函数,u为控制输入u(t)的简化,ψ为目标增广系统的状态ψ(t)的简化,ψ(t)=[z(t),ξd(t)]T;
根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数,形式如下:
根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件,即最优价值评估函数满足:
在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数,所述不确定非线性系统的最优价值评估函数的形式如下:
根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制。
3.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:
设定所述不确定非线性系统的价值评估函数的解算条件,引入神经网络的权重向量和逼近误差,所述不确定非线性系统的价值评估函数建立神经网络模型,所述神经网络的权重向量代表所述目标增广系统模型在所述不确定非线性系统的价值评估函数中的权重;
设定强化学习条件;
设计强化学习的评价函数;
基于梯度下降法,获得所述神经网络的最优权重向量和神经网络的逼近误差,使所述不确定非线性系统的价值评估函数值最小;
根据所述神经网络的最优权重向量和神经网络的逼近误差确认所述不确定非线性系统的最优价值评估函数。
4.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入包括:
根据所述不确定非线性系统的最优价值评估函数建立所述不确定非线性系统的控制输入函数;
根据所述不确定非线性系统的控制输入函数得到所述不确定非线性系统的控制输入函数的估计值,并设定控制输入函数的估计误差;
引入动态神经网络的权重向量,根据所述不确定非线性系统的控制输入函数的估计值建立执行神经网络模型,所述动态神经网络的权重向量表示所述目标增广系统模型在所述控制输入函数中的权重;
基于梯度下降法,获得所动态述神经网络的最优权重向量;
根据所述动态神经网络的最优权重向量和所述控制输入函数的估计误差确定所述不确定非线性系统的最优控制输入。
5.根据权利要求4所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述根据所述有限时间轨迹跟踪控制器对不确定非线性系统进行跟踪控制前还包括:
基于李雅普诺夫稳定性定理,根据所述不确定非线性系统的价值评估函数、所述神经网络的最优权重向量和所述动态神经网络的最优权重向量建立李雅普诺夫模型;
根据所述李雅普诺夫模型检验所述不确定非线性系统的最优控制输入在有限时间内是否收敛到平衡点:是,根据所述不确定非线性系统的最优控制输入对所述不确定非线性系统进行跟踪控制;否,重新进行所述根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型。
6.根据权利要求1所述的不确定非线性系统的有限时间优化跟踪控制方法,其特征在于,所述不确定因子包括系统未知项、有界不确定项和干扰项。
7.一种不确定非线性系统的有限时间优化跟踪控制系统,其特征在于,包括:不确定非线性系统建模模块、跟踪误差模型建模模块、控制系统评估模型建模模块、控制器设计模块和跟踪模块;
所述不确定非线性系统建模模块用于根据不确定因子、系统轨迹和控制关系建立不确定非线性系统模型,所述不确定非线性系统抽象为一个部分不确定的非严格反馈的非线性系统:
ξ'(t)=f(t)ξ(t)+g(t)u(t)+d(t),
其中,f(t)为系统不确定项,指的是包含不确定非线性系统未建模动态等在内的不确定非线性系统未知部分;g(t)为有界不确定项函数,指的是输入转移矩阵一般化之后的系数函数,一般假定不确定,但是有界;u(t)为控制输入,d(t)为系统中不确定干扰项,指系统在运行过程中收到的内在或外在的影响,特指在可控范围内的影响;ξ(t)为系统状态函数,t指的是时间;
所述跟踪误差模型建模模块用于根据所述不确定非线性系统模型定义所述不确定非线性系统的跟踪误差;
根据所述不确定非线性系统模型和所述跟踪误差建立目标增广系统模型;
根据所述目标增广系统模型定义所述不确定非线性系统的价值评估函数;
所述控制器设计模块用于根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器,使所述不确定非线性系统的价值评估函数最优;
所述根据所述不确定非线性系统的价值评估函数设计所述不确定非线性系统的有限时间轨迹跟踪控制器包括:根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数;
基于有限时间收敛理论,根据所述不确定非线性系统的最优价值评估函数确认所述不确定非线性系统的最优控制输入;根据所述不确定非线性系统的最优控制输入建立有限时间轨迹跟踪控制器;
所述根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数包括:基于莱布尼茨法则,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的跟踪贝尔曼方程,形式如下:
其中,γ为折损系数,并且γ>0,为正定矩阵,t0满足对于任意的t≥t0闭环系统内所有信号均半全局一致收敛,U(u)是一个正定矩阵且满足其中λ为控制输入的上界,R是一个对角矩阵,满足R=diag(r1,r2),r1和r2是两个常数,tanh为双曲正切函数,L1为价值评估函数,u为控制输入u(r)的简化,ψ为目标增广系统的状态ψ(t)的简化,ψ(t)=[z(t),ξd(t)]T;
根据所述不确定非线性系统的跟踪贝尔曼方程得到哈密顿函数,形式如下:
根据所述哈密顿函数设定所述不确定非线性系统的最优价值评估函数的前提条件,即最优价值评估函数满足:
在所述不确定非线性系统的最优价值评估函数的前提条件下,基于强化学习方法,根据所述不确定非线性系统的价值评估函数确认所述不确定非线性系统的最优价值评估函数,所述不确定非线性系统的最优价值评估函数的形式如下:
所述跟踪模块用于根据最优控制系统模型的最优解对不确定非线性系统进行跟踪控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328240.7A CN109976161B (zh) | 2019-04-23 | 2019-04-23 | 一种不确定非线性系统的有限时间优化跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328240.7A CN109976161B (zh) | 2019-04-23 | 2019-04-23 | 一种不确定非线性系统的有限时间优化跟踪控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109976161A CN109976161A (zh) | 2019-07-05 |
CN109976161B true CN109976161B (zh) | 2022-04-08 |
Family
ID=67085920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910328240.7A Active CN109976161B (zh) | 2019-04-23 | 2019-04-23 | 一种不确定非线性系统的有限时间优化跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109976161B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362081B (zh) * | 2019-07-16 | 2020-04-24 | 武昌理工学院 | 一种移动机器人路径规划方法 |
CN112925203A (zh) * | 2021-01-21 | 2021-06-08 | 深圳翱诺科技有限公司 | 一种基于加强学习的最优跟踪控制算法 |
CN112947430B (zh) * | 2021-02-03 | 2022-07-15 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN113134187B (zh) * | 2021-04-19 | 2022-04-29 | 重庆大学 | 基于积分强化学习的多消防巡检协作机器人系统 |
CN114563953B (zh) * | 2022-01-31 | 2023-05-09 | 四川大学 | 兼顾多因素影响的轮式机器人自适应容错可靠控制系统及方法 |
CN115609592B (zh) * | 2022-11-22 | 2023-03-07 | 季华实验室 | 一种机械臂自适应跟踪控制方法 |
CN116149262B (zh) * | 2023-04-23 | 2023-07-04 | 山东科技大学 | 一种伺服系统的跟踪控制方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897224A (zh) * | 2018-08-03 | 2018-11-27 | 合肥工业大学 | 一种不确定轮式移动机器人的自适应轨迹跟踪控制方法 |
CN109031947A (zh) * | 2018-06-19 | 2018-12-18 | 哈尔滨理工大学 | 基于径向基神经网络的轨迹跟踪控制及方法 |
-
2019
- 2019-04-23 CN CN201910328240.7A patent/CN109976161B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109031947A (zh) * | 2018-06-19 | 2018-12-18 | 哈尔滨理工大学 | 基于径向基神经网络的轨迹跟踪控制及方法 |
CN108897224A (zh) * | 2018-08-03 | 2018-11-27 | 合肥工业大学 | 一种不确定轮式移动机器人的自适应轨迹跟踪控制方法 |
Non-Patent Citations (5)
Title |
---|
Adaptive Neural Network-Based Finite-Time Online Optimal Tracking Control of the Nonlinear System With Dead Zone;Liang Ding 等;《IEEE》;20190926;全文 * |
Adaptive Neural Network-Based Tracking Control for Full-State Constrained Wheeled Mobile Robotic System;Liang Ding 等;《IEEE》;20171231;全文 * |
Adaptive_Neural_Network_Finite-Time_Output_Feedback_Control_of_Quantized_Nonlinear_Systems;F. Wang 等;《IEEE》;20181231;参见第1839-1840页 * |
ADP-Based Online Tracking Control of Partially Uncertain Time-Delayed Nonlinear System and Application to Wheeled Mobile Robots;Haibo Gao 等;《IEEE》;20190312;全文 * |
Optimal tracking control of nonlinear partially-unknown constrained-input systems using integral reinforcement learning;HamidrezaModares 等;《web of science》;20141231;参见第1780-1787页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109976161A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109976161B (zh) | 一种不确定非线性系统的有限时间优化跟踪控制方法 | |
CN111152225B (zh) | 存在输入饱和的不确定机械臂固定时间轨迹跟踪控制方法 | |
CN107561935B (zh) | 基于多层神经网络的电机位置伺服系统摩擦补偿控制方法 | |
CN112904728B (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN108628172B (zh) | 一种基于扩张状态观测器的机械臂高精度运动控制方法 | |
CN108508749A (zh) | 一种用于抓捕非合作目标的空间机械臂系统抗干扰迭代学习控制方法 | |
CN110543184B (zh) | 一种刚性飞行器的固定时间神经网络控制方法 | |
CN106774379B (zh) | 一种智能超螺旋强鲁棒姿态控制方法 | |
CN104589349A (zh) | 一种混合悬浮微重力环境下带有单关节机械臂的组合体自主控制方法 | |
CN110471438B (zh) | 一种刚性飞行器的固定时间自适应姿态跟踪控制方法 | |
CN108227506A (zh) | 一种基于自适应最优化方法的机器人导纳控制系统 | |
CN113377121B (zh) | 一种基于深度强化学习的飞行器智能抗扰动控制方法 | |
CN109062240B (zh) | 一种基于神经网络估计的刚性飞行器固定时间自适应姿态跟踪控制方法 | |
CN114516047B (zh) | 基于径向基神经网络终端滑模控制机械臂轨迹方法及系统 | |
CN112148036B (zh) | 网络化机器人系统的固定时间估计器的双边跟踪控制方法 | |
CN111965976B (zh) | 基于神经网络观测器的机器人关节滑模控制方法及系统 | |
CN114167734B (zh) | 一种强耦合非线性系统高精度控制方法及控制系统 | |
CN110488854B (zh) | 一种基于神经网络估计的刚性飞行器固定时间姿态跟踪控制方法 | |
CN111590561A (zh) | 一种分布式机械臂系统鲁棒预设性能控制方法 | |
CN109048995B (zh) | 一种三自由度Delta并联机器人的非线性关节摩擦力补偿方法 | |
CN111427264A (zh) | 一种复杂遥操作技术的神经自适应固定时间控制方法 | |
CN114211478B (zh) | 一种模块化机械臂协调操作最优控制方法及系统 | |
CN116015134A (zh) | 一种基于扩张状态观测器的永磁同步电机固定时间积分滑模控制方法 | |
CN115473467A (zh) | 基于模糊观测器的柔性关节机械臂指令滤波反步控制方法 | |
CN112987770B (zh) | 两栖仿蟹多足机器人步行足抗饱和有限时间运动控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |