CN111496792A - 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 - Google Patents
一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 Download PDFInfo
- Publication number
- CN111496792A CN111496792A CN202010345703.3A CN202010345703A CN111496792A CN 111496792 A CN111496792 A CN 111496792A CN 202010345703 A CN202010345703 A CN 202010345703A CN 111496792 A CN111496792 A CN 111496792A
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- formula
- saturation
- neural network
- fixed time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002787 reinforcement Effects 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 31
- 238000011156 evaluation Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013461 design Methods 0.000 claims description 9
- 238000011217 control strategy Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 6
- 229920006395 saturated elastomer Polymers 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001808 coupling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/1605—Simulation of manipulator lay-out, design, modelling of manipulator
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统,该方法包括:获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;根据获取的状态数据,采用强化学习控制算法抑制机械臂的模型不确定性;设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间期望轨迹跟踪控制。本发明方法具有对模型不确定性的在线学习能力,使得机械臂可以准确且快速地跟踪轨迹。
Description
技术领域
本发明涉及机械臂轨迹跟踪技术领域,特别是指一种基于强化学习的机械臂输入饱和固定时间轨迹跟踪控制方法及系统。
背景技术
机械臂在军事、制造业、医疗环境等危险环境领域有着广泛的应用,机械臂的轨迹跟踪控制技术一直是研究的热门方向之一,机械臂按照提前设定的关节轨迹进行运动是实现这些复杂任务的关键;然而,由于动力学模型不确定性,耦合效应以及外部未知干扰问题,使得机械臂准确且快速地跟踪轨迹十分困难。
近年来出现了许多轨迹跟踪控制方法,包括PID控制、自适应控制、非线性控制等。但是,现有的这些轨迹跟踪控制方法并不能克服动力学模型不确定性,耦合效应以及外部未知干扰因素所导致的机械臂轨迹跟踪控制不够准确、快速的问题;因此,迫切需要探索一种有效的机械臂轨迹跟踪控制技术。
发明内容
本发明要解决的技术问题是提供一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统,以至少部分解决现有的轨迹跟踪控制方法所存在的上述问题。
为解决上述技术问题,本发明提供如下技术方案:
一种机械臂输入饱和固定时间轨迹跟踪控制方法,所述方法包括:
获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;
根据获取的状态数据,采用强化学习控制算法抑制机械臂的模型不确定性;
设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;
设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间期望轨迹跟踪控制。
进一步地,所述状态数据包括机械臂关节的位置和机械臂关节的速度。
进一步地,所述采用强化学习控制算法抑制机械臂的模型不确定性,包括:
基于机械臂的动力学模型,采用径向基函数神经网络进行最优权值的估计,设计Actor神经网络生成强化学习控制策略;设计Critic神经网络用于评估执行成本,并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。
进一步地,所述机械臂的动力学模型建立如下:
式中,以及表示广义机械臂关节位置坐标、速度以及加速度;是惯性矩阵,式中名义惯性矩阵M0(q)是对称正定的,MΔ(q)表示未知部分,表示离心科氏力项,表示重力项,表示未知且有界的外部干扰, 表示关节控制输入力矩;
动力学模型公式(1)表示为:
考虑到关节力矩饱和问题,控制输入力矩τ(t)表示为:
式中,τH>τL是已知的控制输入受限值,则控制输入重新表示为:
τ(t)=τ0(t)+τΔ(t) (5)
式中,τ0(t)表示名义上设计的部分,未知部分τΔ(t)表示如下:
进一步地,所述设计非奇异快速终端滑模控制器,包括:
定义系统的跟踪误差:
将式(2)代入到式(7)中得到误差系统如下:
式中,τ0表示待设计的控制输入指令,τΔ表示执行器饱和溢出效应;
采用一种新的非奇异固定时间快速滑动模态变量:
式中,α>0,β>0,k>1,v1>1,p,g是正的标量,且满足gk>1,1/v1<pk<1,控制器设计为:
进一步地,所述非线性抗饱和补偿器设计为:
进一步地,所述Actor神经网络的设计如下:
采用执行神经网络来估计未知信息,因此,控制器设计为:
式中,fNN是RBFNN的输出向量,用于近似复合干扰l,表示为:
瞬时近似误差表示为:
然后将该误差设计为:
式中,Id(t)=0,表示期望的理想成本,kI表示正常数;
将人工神经网络的权值更新律设计为;
式中,Ea=ln(cosh ea),δa>0为执行神经网络的学习率;
将基于投影的神经网络权值更新律设计为:
进一步地,所述Critic神经网络设计如下:
代价函数表示为:
根据梯度下降法,Critic神经网络的权值更新律设计为:
将(19)代入到(21)中得到:
相应地,为解决上述技术问题,本发明还提供如下技术方案:
一种机械臂输入饱和固定时间轨迹跟踪控制系统,所述系统包括:
机械臂期望轨迹及状态数据获取模块,用于获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;
强化学习控制模块,用于根据获取的状态数据,采用强化学习控制算法抑制机械臂的模型不确定性;
非线性抗饱和补偿器设计模块,用于设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;
非奇异快速终端滑模控制器,用于设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间期望轨迹跟踪控制。
进一步地,所述强化学习控制模块具体用:
基于机械臂的动力学模型,采用径向基函数神经网络进行最优权值的估计,设计Actor神经网络生成强化学习控制策略;设计Critic神经网络用于评估执行成本,并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。
本发明的上述技术方案的有益效果如下:
本发明的机械臂输入饱和固定时间轨迹跟踪控制方法考虑到机械臂动力学模型的不确定性,设计了一种计算简单的强化学习方法,可赋予控制器对模型不确定性的在线学习能力。设计的强化学习控制算法采用径向基函数神经网络来实现,其中Actor神经网络用于生成控制策略,Critic神经网络用于评估执行成本。考虑到控制力矩的输入饱和现象,设计了一种非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应,并且为了使轨迹跟踪误差在固定时间内收敛到原点小邻域内,设计了一种新的非奇异快速终端滑模控制器,保证跟踪误差的收敛时间不依赖于初始误差大小,并给出了收敛时间上界的估计。
附图说明
图1为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法流程图;
图2为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节位置的跟踪性能示意图;
图3为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节位置的跟踪误差示意图;
图4为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节速度的跟踪性能示意图;
图5为本发明提供的机械臂输入饱和固定时间轨迹跟踪控制方法对机器人关节速度的跟踪误差示意图;
图6为本发明提供的控制器输入力矩示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
第一实施例
首先,需要说明的是,人工神经网络具有仅利用先验的输入-输出信息来映射输入输出关系的能力,由于神经网络具有良好的函数逼近能力,因此被广泛用于不确定非线性系统的控制设计。
基于径向基函数神经网络(RBFNN)的方法在一定条件下对非线性函数进行任意精度的逼近是可行的。如果没有或只有相对有限的系统动力学知识,它能够有效地构建一个控制器实现任务控制。工程中有结合滑模控制、动态表面控制、阻抗控制、模糊逻辑控制等智能控制方法的大量实例。
强化学习与监督学习不同,它是一种从环境中获取训练信息的学习方法,是一种评价信号而不是误差信号。Actor-Critic提供了一个经典的强化学习框架,Actor神经网络生成策略用于产生执行器的输入,Critic神经网络用于评估执行成本,以确定情况是好于预期还是差于预期,并定义一个值用来衡量。然后,Actor神经网络根据Critic神经网络的评价修改其控制策略。通过这些步骤,代价函数将收敛到全局最优。
基于上述,请参阅图1至图6,本实施例提供一种机械臂输入饱和固定时间轨迹跟踪控制方法,所述机械臂输入饱和固定时间轨迹跟踪控制方法包括:
S101,获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;其中,状态数据包括机械臂关节的位置和机械臂关节的速度;
S102,根据获取的状态数据,基于机械臂的动力学模型,采用强化学习控制算法抑制机械臂的模型不确定性;
需要说明的是,本实施例基于机械臂的动力学模型,采用径向基函数神经网络进行最优权值的估计,设计Actor神经网络生成强化学习控制策略;设计Critic神经网络用于评估执行成本,并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。由于强化学习神经网络具有很好的学习系统不确定性的能力,因此可对系统不确定性保持良好的逼近能力。
S103,设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;以克服控制输入饱和问题;
S104,设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间轨迹跟踪控制。
本实施例定义跟踪误差并建立机械臂轨迹跟踪误差动力学模型,接着定义滑模变量并建立滑模变量的动力学,然后采用滑模变量设计固定时间控制器。
其中,机械臂的动力学模型建立如下:
式中,以及表示广义机械臂关节位置坐标、速度以及加速度;是惯性矩阵,式中名义惯性矩阵M0(q)是对称正定的,MΔ(q)表示未知部分,表示离心科氏力项,表示重力项,表示未知且有界的外部干扰, 表示关节控制输入力矩;
动力学模型公式(1)可以写成:
考虑到关节力矩饱和问题,控制输入力矩τ(t)可以表示为:
式中,τH>τL是已知的控制输入受限值,则控制输入可以重新表示为:
τ(t)=τ0(t)+τΔ(t) (5)
式中,τ0(t)表示名义上设计的部分,未知部分τΔ(t)可以表示如下:
定义系统的跟踪误差:
将式(2)代入到式(7)中得到误差系统如下:
式中,τ0表示待设计的控制输入指令,τΔ表示执行器饱和溢出效应;
A、非奇异快速终端滑模控制器和非线性抗饱和补偿器设计如下:
为了保证e1和e2在与初始状态无关的固定时间Ts内收敛到原点小邻域,采用了一种新的非奇异固定时间快速滑动模态变量:
式中,α>0,β>0,k>1,v1>1,p,g是正的标量,且满足gk>1,1/v1<pk<1;
s的时间导数是:
如果所有的动力学已知,那么τeq可以设计为:
式中,v4>1,v2v4<1,v3v4>1,σ1,σ2为两个正常数,Ks=diag{ks1,ks2,…,ksn}是对角正定矩阵,其中,ksi>0,i=1,2,…,n,ζ是抗饱和补偿器的状态,l是复合干扰。
非线性抗饱和补偿器的更新率可以设计为:
为处理模型中的复合干扰,在Lyapunov稳定性理论框架下,基于径向基神经网络分别设计一个用于评估成本的评价网络(Critic)和一个用于生成强化学习控制输入的执行网络(Actor)。具体如下:
B、执行网络(Actor)的设计如下:
在实际应用中,复合扰动l是未知的,这里采用了执行神经网络来估计未知信息。因此,控制器设计为:
式中,fNN是RBFNN的输出向量,用于近似复合干扰l,表示为:
瞬时近似误差可以表示为:
然后将该误差设计为:
式中,Id(t)=0,表示期望的理想成本,kI表示正常数;
将人工神经网络的权值更新律设计为;
式中,Ea=ln(cosh ea),δa>0为执行神经网络的学习率;
将基于投影的神经网络权值更新律设计为:
C、评价(Critic)神经网络的设计如下:
代价函数表示为:
根据梯度下降法,评价(Critic)神经网络的权值更新律可以设计为:
将(21)代入到(23)中得到:
D、稳定性分析
根据基于投影算法的权值更新律,有两种情况需要考虑:
选择一个候选的李雅普诺夫函数如下:
将(8)和(15)代入(11),则闭环系统可以表示为:
式中,εi,(i=1,2,…,n)表示近似误差。
将(31)和(14)代入,则V(t)的导数为:
根据杨氏不等式,有:
将(34)和(35)代入到(33)中得:
将(19)和(24)代入(37)可得:
引理1存在yi∈R,i=1,2,…,n,0<r1≤1,r2>1,满足以下条件:
根据引理1,式(39)可以化简为:
式中,
σ5=min{σ1,σ3,1},σ6=min{σ2,σ4,1}
引理2考虑以下非线性系统:
式中,α,β,p,q,k是正的参数,且pk<1,qk>1。则系统可以在固定时间T内收敛到原点邻域Ω内,其中:
且收敛时间T为T≤1/(αkθk(1-pk))+1/(βkθk(qk-1)),0<θ<1 (45)
根据引理2可知,本实施例设计的控制器可以使系统误差在固定时间收敛到原点小邻域内。
计算机数值仿真中采用了双连杆刚性机械臂验证所提出控制器的有效性,系统结构框图如图1所示。定义x1=[x11,x12]T作为机械臂的关节角度,然后给出两连杆机器人数学模型中的相关矩阵:
式中p3=m2l1lc2,p4=m1lc2+m2l1,p5=m2lc2;mi和li分别是连杆i的质量和长度,m1=2.00(kg),m2=0.85(kg),l1=0.35(m),l2=0.31(m);Ii是连杆i的转动惯量, lci是第i个连杆的质心;g=9.8(m/s2)。
机器人的初始位置和速度为:
x11(0)=x12(0)=1.5(rad),x21(0)=x22(0)=0(rad/s)
设置的期望轨迹为:
xd=[0.1sin(0.5t)+cos(0.5t),0.1cos(t)+cos(t)]T
式中,t∈[0,tm],tm=10(s)
扰动转矩为:
d(t)=[0.1sin(0.5t)+0.25cos(0.5t),0.25sin(0.5t)+0.1sin(0.5t)]T
饱和受限参数设置为:
τH=5,τL=-5。
本实施例的机械臂输入饱和固定时间轨迹跟踪控制方法的仿真结果如图2-6所示,其中图2和图3表明两连杆刚性机械臂关节角位置可以高精度快速稳定地跟踪上期望关节角轨迹;图4和图5表明关节角速度也可以高精度快速稳定地跟踪上期望关节角速度;图6表明所提出的控制信号保持有界且始终满足执行器饱和受限要求。仿真结果表明所提出的控制方法是可行有效的。
综上,本实施例提供了一种轨迹跟踪控制方法,考虑到机械臂动力学模型的不确定性,设计了一种计算简单的强化学习方法,能够赋予控制器对模型不确定性的在线学习能力。设计的强化学习控制算法采用径向基函数神经网络来实现,其中Actor神经网络用于生成控制策略,Critic神经网络用于评估执行成本。考虑到控制力矩的输入饱和现象,设计了一种非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应,并且为了使轨迹跟踪误差在固定时间内收敛到原点小邻域内,设计了一种新的非奇异快速终端滑模控制器,保证跟踪误差的收敛时间不依赖于初始误差大小,并给出了收敛时间上界的估计。
第二实施例
本实施例提供一种机械臂输入饱和固定时间轨迹跟踪控制系统,其包括:
机械臂期望轨迹及状态数据获取模块,用于获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;
强化学习控制模块,用于根据获取的状态数据,采用强化学习控制算法抑制机械臂的模型不确定性;
非线性抗饱和补偿器设计模块,用于设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;
非奇异快速终端滑模控制器,用于设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间期望轨迹跟踪控制。
本实施例的机械臂输入饱和固定时间轨迹跟踪控制系统与第一实施例的机械臂输入饱和固定时间轨迹跟踪控制方法相对应;其中,该机械臂输入饱和固定时间轨迹跟踪控制系统中的各功能模块所实现的功能与上述机械臂输入饱和固定时间轨迹跟踪控制方法中的各流程步骤相对应;故,在此,不再赘述。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需说明的是,以上所述是本发明的优选实施方式,应当指出,尽管已描述了本发明的优选实施例,但对于本领域普通技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
Claims (10)
1.一种机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,包括:
获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;
根据获取的状态数据,采用强化学习控制算法抑制机械臂的模型不确定性;
设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;
设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间期望轨迹跟踪控制。
2.如权利要求1所述的机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,所述状态数据包括机械臂关节的位置和机械臂关节的速度。
3.如权利要求1所述的机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,所述采用强化学习控制算法抑制机械臂的模型不确定性,包括:
基于机械臂的动力学模型,采用径向基函数神经网络进行最优权值的估计,设计Actor神经网络生成强化学习控制策略;设计Critic神经网络用于评估执行成本,并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。
4.如权利要求3所述的机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,所述机械臂的动力学模型建立如下:
式中,以及表示广义机械臂关节位置坐标、速度以及加速度;是惯性矩阵,式中名义惯性矩阵M0(q)是对称正定的,MΔ(q)表示未知部分,表示离心科氏力项,表示重力项,表示未知且有界的外部干扰, 表示关节控制输入力矩;
动力学模型公式(1)表示为:
考虑到关节力矩饱和问题,控制输入力矩τ(t)表示为:
式中,τH>τL是已知的控制输入受限值,则控制输入重新表示为:
τ(t)=τ0(t)+τΔ(t) (5)
式中,τ0(t)表示名义上设计的部分,未知部分τΔ(t)表示如下:
5.如权利要求4所述的机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,所述设计非奇异快速终端滑模控制器,包括:
定义系统的跟踪误差:
将式(2)代入到式(7)中得到误差系统如下:
式中,τ0表示待设计的控制输入指令,τΔ表示执行器饱和溢出效应;
采用一种新的非奇异固定时间快速滑动模态变量:
式中,α>0,β>0,k>1,v1>1,p,g是正的标量,且满足gk>1,1/v1<pk<1,控制器设计为:
7.如权利要求5所述的机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,所述Actor神经网络的设计如下:
采用执行神经网络来估计未知信息,因此,控制器设计为:
式中,fNN是RBFNN的输出向量,用于近似复合干扰l,表示为:
瞬时近似误差表示为:
然后将该误差设计为:
式中,Id(t)=0,表示期望的理想成本,kI表示正常数;
将人工神经网络的权值更新律设计为;
式中,Ea=ln(coshea),δa>0为执行神经网络的学习率;
将基于投影的神经网络权值更新律设计为:
8.如权利要求7所述的机械臂输入饱和固定时间轨迹跟踪控制方法,其特征在于,所述Critic神经网络设计如下:
代价函数表示为:
根据梯度下降法,Critic神经网络的权值更新律设计为:
将(19)代入到(21)中得到:
9.一种机械臂输入饱和固定时间轨迹跟踪控制系统,其特征在于,包括:
机械臂期望轨迹及状态数据获取模块,用于获取机械臂的期望轨迹,并通过机械臂传感器获取机械臂的状态数据;
强化学习控制模块,用于根据获取的状态数据,采用强化学习控制算法抑制机械臂的模型不确定性;
非线性抗饱和补偿器设计模块,用于设计非线性抗饱和补偿器实时补偿关节力矩执行机构的饱和溢出效应;
非奇异快速终端滑模控制器,用于设计非奇异快速终端滑模控制器,使得机械臂关节轨迹跟踪误差在固定时间内收敛到原点小邻域,实现对机械臂输入饱和固定时间期望轨迹跟踪控制。
10.如权利要求9所述的机械臂输入饱和固定时间轨迹跟踪控制系统,其特征在于,所述强化学习控制模块具体用:
基于机械臂的动力学模型,采用径向基函数神经网络进行最优权值的估计,设计Actor神经网络生成强化学习控制策略;设计Critic神经网络用于评估执行成本,并通过一个评估指标以确定在线学习情况是好于预期还是差于预期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345703.3A CN111496792B (zh) | 2020-04-27 | 2020-04-27 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345703.3A CN111496792B (zh) | 2020-04-27 | 2020-04-27 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111496792A true CN111496792A (zh) | 2020-08-07 |
CN111496792B CN111496792B (zh) | 2021-06-01 |
Family
ID=71866434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010345703.3A Active CN111496792B (zh) | 2020-04-27 | 2020-04-27 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111496792B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111956452A (zh) * | 2020-08-29 | 2020-11-20 | 上海电气集团股份有限公司 | 一种上肢康复机器人控制方法及装置 |
CN112223276A (zh) * | 2020-09-01 | 2021-01-15 | 上海大学 | 基于自适应神经网络滑模控制的多关节机器人控制方法 |
CN112241124A (zh) * | 2020-10-27 | 2021-01-19 | 南昌大学 | 一种自适应反演积分非奇异快速终端滑模控制器设计方法 |
CN112621759A (zh) * | 2020-12-28 | 2021-04-09 | 燕山大学 | 基于事件触发机制的遥操作系统分数阶滑模同步控制方法 |
CN112936286A (zh) * | 2021-03-13 | 2021-06-11 | 齐鲁工业大学 | 一种多柔性机械臂系统自适应一致性追踪控制方法及系统 |
CN112975986A (zh) * | 2021-03-25 | 2021-06-18 | 珞石(北京)科技有限公司 | 基于径向基函数的机械臂点对点轨迹规划方法及装置 |
CN113199477A (zh) * | 2021-04-29 | 2021-08-03 | 浙江工业大学 | 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法 |
CN113352320A (zh) * | 2021-05-11 | 2021-09-07 | 浙江工业大学 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
CN113359767A (zh) * | 2021-07-05 | 2021-09-07 | 沈阳工业大学 | 机器人结构慢变化的有界轨迹跟踪误差安全驱动控制方法 |
CN113359419A (zh) * | 2021-06-22 | 2021-09-07 | 天津理工大学 | 一种高速并联机器人的模糊耦合控制方法 |
CN113370205A (zh) * | 2021-05-08 | 2021-09-10 | 浙江工业大学 | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 |
CN113589689A (zh) * | 2021-07-09 | 2021-11-02 | 南昌大学 | 一种基于多参数自适应神经网络的滑模控制器设计方法 |
CN114516047A (zh) * | 2022-02-14 | 2022-05-20 | 安徽大学 | 基于径向基神经网络终端滑模控制机械臂轨迹方法及系统 |
CN114536338A (zh) * | 2022-03-03 | 2022-05-27 | 深圳亿嘉和科技研发有限公司 | 一种液压机械臂的控制方法 |
CN114559429A (zh) * | 2022-02-22 | 2022-05-31 | 华南理工大学 | 基于自适应迭代学习的柔性机械臂的神经网络控制方法 |
CN114571451A (zh) * | 2022-02-25 | 2022-06-03 | 山东新一代信息产业技术研究院有限公司 | 一种可调漏斗边界的自适应滑模控制方法及设备 |
CN115128951A (zh) * | 2022-06-16 | 2022-09-30 | 浙江大学 | 一种基于期望轨迹受限优化的双环高性能控制方法 |
CN115122335A (zh) * | 2022-07-29 | 2022-09-30 | 华南理工大学 | 基于外环速度补偿的封闭机器人任务空间学习控制方法、存储介质及机器人 |
CN115609592A (zh) * | 2022-11-22 | 2023-01-17 | 季华实验室 | 一种机械臂自适应跟踪控制方法 |
CN115857342A (zh) * | 2022-11-28 | 2023-03-28 | 北京理工大学 | 基于自适应神经网络的航天器观测载荷随动机构控制方法 |
CN115847404A (zh) * | 2022-11-28 | 2023-03-28 | 燕山大学 | 一种基于复合学习的受限机械臂有限时间控制方法 |
CN116339141A (zh) * | 2023-03-10 | 2023-06-27 | 山东科技大学 | 一种机械臂全局固定时间轨迹跟踪滑模控制方法 |
CN117283565A (zh) * | 2023-11-03 | 2023-12-26 | 安徽大学 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
CN117681212A (zh) * | 2024-02-01 | 2024-03-12 | 安徽大学 | 基于动力学参数辨识和快速终端滑模协作机器人控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005014169A (ja) * | 2003-06-27 | 2005-01-20 | Canon Inc | フィードバック制御装置および加工装置 |
US20070260935A1 (en) * | 2006-04-07 | 2007-11-08 | International Business Machines Corporation | Methods, systems, and computer program products for compensating for disruption caused by trace enablement |
CN105425812A (zh) * | 2016-01-14 | 2016-03-23 | 北京航空航天大学 | 一种基于双模型下的无人机自动着舰轨迹控制方法 |
CN108039706A (zh) * | 2017-12-19 | 2018-05-15 | 电子科技大学 | 一种有源电力滤波器抗饱和频率自适应谐振控制方法 |
CN108227491A (zh) * | 2017-12-28 | 2018-06-29 | 重庆邮电大学 | 一种基于滑模神经网络的智能车轨迹跟踪控制方法 |
CN108803632A (zh) * | 2018-09-19 | 2018-11-13 | 哈尔滨工程大学 | 基于饱和补偿技术的水面无人艇全状态约束轨迹跟踪控制方法 |
-
2020
- 2020-04-27 CN CN202010345703.3A patent/CN111496792B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005014169A (ja) * | 2003-06-27 | 2005-01-20 | Canon Inc | フィードバック制御装置および加工装置 |
US20070260935A1 (en) * | 2006-04-07 | 2007-11-08 | International Business Machines Corporation | Methods, systems, and computer program products for compensating for disruption caused by trace enablement |
CN105425812A (zh) * | 2016-01-14 | 2016-03-23 | 北京航空航天大学 | 一种基于双模型下的无人机自动着舰轨迹控制方法 |
CN108039706A (zh) * | 2017-12-19 | 2018-05-15 | 电子科技大学 | 一种有源电力滤波器抗饱和频率自适应谐振控制方法 |
CN108227491A (zh) * | 2017-12-28 | 2018-06-29 | 重庆邮电大学 | 一种基于滑模神经网络的智能车轨迹跟踪控制方法 |
CN108803632A (zh) * | 2018-09-19 | 2018-11-13 | 哈尔滨工程大学 | 基于饱和补偿技术的水面无人艇全状态约束轨迹跟踪控制方法 |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111956452A (zh) * | 2020-08-29 | 2020-11-20 | 上海电气集团股份有限公司 | 一种上肢康复机器人控制方法及装置 |
CN112223276A (zh) * | 2020-09-01 | 2021-01-15 | 上海大学 | 基于自适应神经网络滑模控制的多关节机器人控制方法 |
CN112223276B (zh) * | 2020-09-01 | 2023-02-10 | 上海大学 | 基于自适应神经网络滑模控制的多关节机器人控制方法 |
CN112241124A (zh) * | 2020-10-27 | 2021-01-19 | 南昌大学 | 一种自适应反演积分非奇异快速终端滑模控制器设计方法 |
CN112241124B (zh) * | 2020-10-27 | 2022-02-11 | 南昌大学 | 一种自适应反演积分非奇异快速终端滑模控制器设计方法 |
CN112621759B (zh) * | 2020-12-28 | 2021-12-24 | 燕山大学 | 基于事件触发机制的遥操作系统分数阶滑模同步控制方法 |
CN112621759A (zh) * | 2020-12-28 | 2021-04-09 | 燕山大学 | 基于事件触发机制的遥操作系统分数阶滑模同步控制方法 |
CN112936286A (zh) * | 2021-03-13 | 2021-06-11 | 齐鲁工业大学 | 一种多柔性机械臂系统自适应一致性追踪控制方法及系统 |
CN112975986A (zh) * | 2021-03-25 | 2021-06-18 | 珞石(北京)科技有限公司 | 基于径向基函数的机械臂点对点轨迹规划方法及装置 |
CN113199477A (zh) * | 2021-04-29 | 2021-08-03 | 浙江工业大学 | 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法 |
CN113199477B (zh) * | 2021-04-29 | 2022-06-17 | 浙江工业大学 | 一种基于强化学习的Baxter机械臂轨迹跟踪控制方法 |
CN113370205A (zh) * | 2021-05-08 | 2021-09-10 | 浙江工业大学 | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 |
CN113370205B (zh) * | 2021-05-08 | 2022-06-17 | 浙江工业大学 | 一种基于机器学习的Baxter机械臂轨迹跟踪控制方法 |
CN113352320B (zh) * | 2021-05-11 | 2022-06-17 | 浙江工业大学 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
CN113352320A (zh) * | 2021-05-11 | 2021-09-07 | 浙江工业大学 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
CN113359419A (zh) * | 2021-06-22 | 2021-09-07 | 天津理工大学 | 一种高速并联机器人的模糊耦合控制方法 |
CN113359767A (zh) * | 2021-07-05 | 2021-09-07 | 沈阳工业大学 | 机器人结构慢变化的有界轨迹跟踪误差安全驱动控制方法 |
CN113359767B (zh) * | 2021-07-05 | 2023-08-18 | 沈阳工业大学 | 机器人结构慢变化的有界轨迹跟踪误差安全驱动控制方法 |
CN113589689B (zh) * | 2021-07-09 | 2024-01-02 | 南昌大学 | 一种基于多参数自适应神经网络的滑模控制器设计方法 |
CN113589689A (zh) * | 2021-07-09 | 2021-11-02 | 南昌大学 | 一种基于多参数自适应神经网络的滑模控制器设计方法 |
CN114516047A (zh) * | 2022-02-14 | 2022-05-20 | 安徽大学 | 基于径向基神经网络终端滑模控制机械臂轨迹方法及系统 |
CN114559429A (zh) * | 2022-02-22 | 2022-05-31 | 华南理工大学 | 基于自适应迭代学习的柔性机械臂的神经网络控制方法 |
CN114559429B (zh) * | 2022-02-22 | 2023-09-29 | 华南理工大学 | 基于自适应迭代学习的柔性机械臂的神经网络控制方法 |
CN114571451B (zh) * | 2022-02-25 | 2023-08-22 | 山东新一代信息产业技术研究院有限公司 | 一种可调漏斗边界的自适应滑模控制方法及设备 |
CN114571451A (zh) * | 2022-02-25 | 2022-06-03 | 山东新一代信息产业技术研究院有限公司 | 一种可调漏斗边界的自适应滑模控制方法及设备 |
CN114536338B (zh) * | 2022-03-03 | 2023-09-26 | 深圳亿嘉和科技研发有限公司 | 一种液压机械臂的控制方法 |
CN114536338A (zh) * | 2022-03-03 | 2022-05-27 | 深圳亿嘉和科技研发有限公司 | 一种液压机械臂的控制方法 |
CN115128951A (zh) * | 2022-06-16 | 2022-09-30 | 浙江大学 | 一种基于期望轨迹受限优化的双环高性能控制方法 |
CN115122335A (zh) * | 2022-07-29 | 2022-09-30 | 华南理工大学 | 基于外环速度补偿的封闭机器人任务空间学习控制方法、存储介质及机器人 |
CN115609592A (zh) * | 2022-11-22 | 2023-01-17 | 季华实验室 | 一种机械臂自适应跟踪控制方法 |
CN115847404A (zh) * | 2022-11-28 | 2023-03-28 | 燕山大学 | 一种基于复合学习的受限机械臂有限时间控制方法 |
CN115857342A (zh) * | 2022-11-28 | 2023-03-28 | 北京理工大学 | 基于自适应神经网络的航天器观测载荷随动机构控制方法 |
CN115857342B (zh) * | 2022-11-28 | 2024-05-24 | 北京理工大学 | 基于自适应神经网络的航天器观测载荷随动机构控制方法 |
CN115847404B (zh) * | 2022-11-28 | 2024-07-05 | 燕山大学 | 一种基于复合学习的受限机械臂有限时间控制方法 |
CN116339141A (zh) * | 2023-03-10 | 2023-06-27 | 山东科技大学 | 一种机械臂全局固定时间轨迹跟踪滑模控制方法 |
CN116339141B (zh) * | 2023-03-10 | 2023-10-03 | 山东科技大学 | 一种机械臂全局固定时间轨迹跟踪滑模控制方法 |
CN117283565A (zh) * | 2023-11-03 | 2023-12-26 | 安徽大学 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
CN117283565B (zh) * | 2023-11-03 | 2024-03-22 | 安徽大学 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
CN117681212A (zh) * | 2024-02-01 | 2024-03-12 | 安徽大学 | 基于动力学参数辨识和快速终端滑模协作机器人控制方法 |
CN117681212B (zh) * | 2024-02-01 | 2024-05-14 | 安徽大学 | 基于动力学参数辨识和快速终端滑模协作机器人控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111496792B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111496792B (zh) | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 | |
Zhao et al. | Neuroadaptive robotic control under time-varying asymmetric motion constraints: A feasibility-condition-free approach | |
CN108942924B (zh) | 基于多层神经网络的模型不确定性机械臂运动控制方法 | |
Peters et al. | Reinforcement learning by reward-weighted regression for operational space control | |
CN111596545B (zh) | 一种多输入多输出机械系统自适应容错预设性能控制方法 | |
Peng et al. | Neural-learning-based force sensorless admittance control for robots with input deadzone | |
Qi et al. | Stable indirect adaptive control based on discrete-time T–S fuzzy model | |
CN113589689B (zh) | 一种基于多参数自适应神经网络的滑模控制器设计方法 | |
CN108555914B (zh) | 一种基于腱驱动灵巧手的dnn神经网络自适应控制方法 | |
CN111702767A (zh) | 一种基于反演模糊自适应的机械手阻抗控制方法 | |
Rego et al. | Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems | |
Zhang | Integral barrier Lyapunov functions-based neural control for strict-feedback nonlinear systems with multi-constraint | |
CN114859725A (zh) | 一种非线性系统自适应事件触发控制方法及系统 | |
Chen et al. | Novel adaptive neural networks control with event-triggered for uncertain nonlinear system | |
CN113219825B (zh) | 一种四足机器人单腿轨迹跟踪控制方法及系统 | |
Miao et al. | DOPH∞-based path-following control for underactuated marine vehicles with multiple disturbances and constraints | |
Yovchev et al. | Constrained output iterative learning control | |
Chen et al. | Neural network compensator-based robust iterative learning control scheme for mobile robots nonlinear systems with disturbances and uncertain parameters | |
CN107894709A (zh) | 基于自适应评价网络冗余机器人视觉伺服控制 | |
CN116175588A (zh) | 一种机器人自适应神经滑模控制方法、设备及介质 | |
An et al. | Fast model-free learning for controlling a quadrotor UAV with designed error trajectory | |
CN113238482B (zh) | 一种单臂机器人系统的渐近跟踪控制方法及系统 | |
Gan et al. | Trajectory tracking of unmanned underwater vehicles based on model predictive control in two dimension | |
Mao et al. | Learning From Actor-Critic Algorithm With Application to Asymmetric Tailored Performance Tracking Control of Underactuated Surface Vehicle | |
Adigüzel et al. | Nonlinear discrete-time disturbance attenuation for robotic manipulators with immersion and invariance approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |