CN107544261A - 不确定环境接触下的可重构机器人分散学习最优控制方法 - Google Patents
不确定环境接触下的可重构机器人分散学习最优控制方法 Download PDFInfo
- Publication number
- CN107544261A CN107544261A CN201711017777.9A CN201711017777A CN107544261A CN 107544261 A CN107544261 A CN 107544261A CN 201711017777 A CN201711017777 A CN 201711017777A CN 107544261 A CN107544261 A CN 107544261A
- Authority
- CN
- China
- Prior art keywords
- msub
- mrow
- mover
- msubsup
- centerdot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Feedback Control In General (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
不确定环境接触下的可重构机器人分散学习最优控制方法,属于机器人控制算法领域,为了解决传统的可重构机器人控制方法中存在机器人关节的抖振效应及稳定性和控制精度低的问题,首先建立可重构机器人系统动力学模型,通过对可重构机器人关节子系统间的耦合力矩交联项的分析,然后构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性;该方法可以在面向不确定环境接触的条件下,使机器人系统实现良好的稳定性与控制精度,可以在提高可重构机器人控制精度的同时,降低系统执行器的能耗,并降低了机器人系统动力学模型的复杂性。
Description
技术领域
本发明涉及一种可重构机器人系统的分散学习最优控制方法,属于机器人控制算法领域。
背景技术
可重构机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求,基于上述优点,可重构机器人经常应用于不确定性和危险的环境中,如太空探测、灾害救援、高低温环境作业等。此外,在复杂和不确定的环境面前,可重构机器人需要兼顾控制精度和功耗的合适控制系统。
一般来说,为了实现模块化和可重构的特点,可重构机器人应该具有可以添加、删除或者根据任务需要来替换的重要属性,这对于可重构机器人控制系统的设计是一个挑战。分散控制是构建可重构机器人控制系统的一种有效的控制策略。由于仅需要采用每个关节模块的局部信息,使得分散控制策略可以为机器人控制系统提供结构上的灵活性,使得可重构机器人可以根据不同任务的需求重组成不同的构形而无需调整控制器的参数。
由于可重构机器人的子系统动力学模型具有关节子系统间的耦合力矩交联项,包括哥式力项、离心力项和重力项,因此对关节子系统间的耦合力矩交联项的处理是一个难题。近期的一类研究,如[李元春,宋扬,赵博,环境约束可重构机械臂模块化力/位置控制,上海交通大学学报,vol.51,no.6,709-714,2017],该技术将可重构机器人关节子系统间的耦合力矩交联项考虑为一类完全未知的非线性函数,并利用神经网络对其进行近似逼近。然而,如果对于所有的关节模块,都简单的将关节子系统间的耦合力矩交联项视为未知的非线性函数,势必将极大的增大系统不确定性的数量级,从而导致所采用的分散补偿控制器必须具备更大的控制增益以获得理想的控制性能,但是这会使执行器产生瞬时的大功率输出,从而导致机器人关节的抖振效应并降低控制器的稳定性与控制精度。
发明内容
本发明为了解决传统的可重构机器人控制方法中存在机器人关节的抖振效应及稳定性和控制精度低的问题,提出一种性能良好的分散学习最优控制方法,以实现不确定环境接触下可重构机器人系统的高精度分散最优控制。将可重构机器人系统的动力学模型描述为一个相互关联的子系统的合成,通过策略迭代算法求解HJB方程,结合神经网络与近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化,并最终实现完备的分散学习最优控制。
本发明解决技术问题的方案是:
不确定环境接触下的可重构机器人分散学习最优控制方法,其特征是,首先建立可重构机器人系统动力学模型,通过对可重构机器人关节子系统间的耦合力矩交联项的分析,然后构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
该方法包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τfi是关节输出转矩,τi是电机输出转矩;
定义系统的状态向量控制输入ui=τi;
则子系统的状态空间的形式可以表示为:
上式中,Bi=(Imiγi)-1,代表已建模的动力学模型部分,是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项,x是关节的位置向量,是关节的速度向量,是关节的加速度向量;
步骤二,考虑式(11),构建代价函数如下:
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,xid与分别是第i个关节的期望位置和速度,αei为确定常数,为效用函数,和是确定的正常数矩阵,Di∈R+为已知的上界函数;
构建哈密顿方程和最优代价函数如下:
其中,是第i个关节期望的加速度,为代价函数Ji(si)的梯度;
在最优控制设计下,满足如下HJB方程:
令满足式(16)的分散最优控制律定义为如下形式:
其中,ui1是反馈控制律,是最优补偿控制律;
处理式(11)中的和将(16)式的HJB方程改写成:
接下来,定义反馈控制律ui1为
其中,ui1是利用第i个关节模块的已知局部信息设计,设计分散最优控制的律的问题可以转化为找到一个最优补偿控制律来处理可重构机器人系统的不确定项;
步骤三,通过神经网络来近似代价函数Ji(si),定义如下:
其中,Wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
将式(21)带入式(18)可得:
理想权值Wci是未知的,用近似权值来建立一个评价神经网络去估计代价函数:
根据哈密顿方程(14)和HJB方程(16),哈密顿方程可以进一步改写为:
其中,ui2是补偿控制律,ecHi是由神经网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为权值估计误差为结合式(24)与式(26),可以得到一个用表示eci的方程为:
训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,αci>0表示评价神经网络的学习速率;
推导出神经网络权值的动态误差,引入下式:
通过式(27),(28)和(29),得到评价神经网络的动态误差如下所示:
在实现在线策略迭代算法来对策略进行改进时,得到了近似最优控制律如下所示:
结合式(19)与(31),得到本发明的分散学习最优控制律为:
本发明的有益效果如下:
1、本发明所述的可重构机器人分散学习最优控制方法,可以在面向不确定环境接触的条件下,使机器人系统实现良好的稳定性与控制精度。
2、本发明所述的分散学习最优控制方法,可以在提高可重构机器人控制精度的同时,降低系统执行器的能耗。
3、本发明解决了关节子系统间耦合力矩交联项数量级过大的问题,并降低了机器人系统动力学模型的复杂性。
附图说明
图1为本发明不确定环境接触下的可重构机器人分散学习最优控制方法原理图。
图2为本发明仿真验证中考虑的时变约束力图2(a)和碰撞力图2(b)曲线。
图3为本发明仿真验证中的可重构机器人构形A的位置图3(a)和速度图3(b)跟踪误差曲线。
图4为本发明仿真验证中的可重构机器人构形B的位置图4(a)和速度图4(b)跟踪误差曲线。
图5为本发明仿真验证中的可重构机器人构形A图5(a)和构形B图5(b)的控制力矩曲线。
图6为本发明仿真验证中的可重构机器人构形A关节1图6(a)和关节2图6(b)的评价神经网络权值曲线。
图7为本发明仿真验证中的可重构机器人构形B关节1图7(a)和关节2图7(b)的评价神经网络权值曲线。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,采用本发明的可重构机器人分散学习最优控制方法,其实现中关键处理方法及过程如下:
1、动力学模型的建立。
建立可重构机机器人系统的动力学模型如下:
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τfi是关节输出转矩,τi是电机输出转矩。
(1)式中,关节摩擦项可以考虑为如下的关于关节位置和速度的函数:
其中,bfi是粘性摩擦系数,fci是库伦摩擦相关系数,fsi是静态相关系数,fτi是关于Stribeck效应的位置参数,是位置误差和其他摩擦模型误差。假设fsi和fτi的标称值和他们的实际值是相接近的,我们就可以通过标称参数值和来线性化忽略高阶项后可以得到:
结合式(2)和式(3),关节摩擦项可以近似等于:
其中,表示摩擦参数不确定项,分别为给定的摩擦参数的估计值,且表示为:
此外,(1)式子中的关节子系统间的耦合力矩交联项可以表示为:
其中,zmi是第i个转子旋转轴上的单位矢量,zlj是第i个关节旋转轴上的单位矢量,zlk是第k个转子旋转轴上的单位矢量。
为了便于分析关节子系统间的耦合力矩交联项,将与表示为:
其中,下脚标i,j,k分别代表第i,j,k个关节。 是单位向量zmi与zlj的点积,是校正误差;是单位向量zmi与zlk×zlj的点积,是校正误差。
不同于现有的对于包含哥式力项、离心力项、重力项等项的交联项的研究,该方法中由于柔轮输出转矩τfi可以反映出负载转矩和第i个关节与外部环境接触时的转矩,所以子系统交联项只包含降阶关节的动态信息(从基座到第i个关节)。这可以大大降低交联项的数量级,并且降低动力学模型的复杂性。
重新改写式(1)中第i个子系统的动力学模型可以得到:
其中,Bi=(Imiγi)-1∈R+与表示动力学模型中的已精确建模和估计的部分,是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项。定义系统的状态向量控制输入ui=τi。
子系统的状态空间的形式可以表示为:
性质1:根据摩擦力模型(4),如果参数bfi,fci,fsi和fτi都是有界的,我们可以得出是有界的,且ρFil=[ρFi1,ρFi2,ρFi3,ρFi4]是一个已知的常数向量,ρFi1,ρFi2,ρFi3,ρFi4为已知的正常数上界。因此,摩擦力模型的上界可以定义为
性质2:摩擦力项有界,且ρfpi对于任意的位置θi与速度是一个已知的有界常数。
性质3:zmi,zlk与zlj是沿着相应关节旋转方向的单位矢量,与得到的向量乘积是有界的。此外,当关节稳定时,它的加速度与速度一定是有界的,因此,根据在(8)与(9)中交联项的形式,可以得出这样的结论:如果关节j和关节k是稳定的(j,k<i),那么与是有界的,且满足 ρUj与ρVj是已知正常数上界。由此可知,性质3说明了如果关节j和关节k是稳定的(j,k<i),那么与是有界的,这意味着当我们设计第i个关节的控制器时,低阶关节i-1也已经是稳定的。
2、代价函数与哈密顿函数的构建。
首先,构建代价函数为:
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,xid与分别是第i个关节期望的位置和速度,αei为确定常数,为效用函数,和是确定的正常数矩阵,Di∈R+为已知的上界函数。
定义哈密顿方程如下:
其中,是第i个关节的期望加速度,为代价函数Ji(si)的梯度。
定义如下最优代价函数:
易知在最优控制设计下,满足如下HJB方程:
令满足式(16)的分散最优控制律定义为如下形式:
其中,ui1是反馈控制律,是最优补偿控制律。
为了处理式(11)中的和HJB方程(16)可以改写成:
定义反馈控制律ui1为:
由于ui1是根据第i个关节模块的局部动态信息来设计的,因此,设计分散最优控制律的问题可以被转化为寻找一个最优补偿控制律来处理可重构模块机器人系统的不确定项。
通过基于策略迭代的学习算法,来求HJB方程的解。令δ=0,从初始控制策略开始,选择一个很小的正常数ε,基于控制策略根据与 求解而后采用对控制策略进行更新,如果δ>0且则停止运算,得到近似最优控制,否则δ=δ+1然后继续求解
3、基于神经网络的代价函数近似实现。
利用单隐层神经网络来近似代价函数Ji(si),定义如下:
其中,Wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
将式(21)带入式(18)可得:
由于理想权值Wci是未知的,所以用近似权值建立一个评价神经网络来估计代价函数:
根据哈密顿方程(14)和HJB方程(16),哈密顿方程可以进一步改写为:
其中,ui2是补偿控制律。ecHi是由神经网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为权值估计误差为结合式(24)与式(26),可以得到一个用表示eci的方程:
为了训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,αci>0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差,引入下式:
通过式(27),(28)和(29),得到评价神经网络的动态误差如下所示
在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制率如下所示:
结合式(19)与(31),可得可重构机器人系统的分散学习最优控制律为:
4、仿真验证。
为了验证所提出的分散最优控制方法的有效性,对不确定环境接触的二自由度可重构机器人模型的两种不同构形进行仿真验证,其中,控制器参数由表1给出:
表1控制器参数
可重构机器人的两种不同构形的初始位置均选为x10=[1,1]T,x20=[0,0]T,两种构形的理想轨迹如下所示:
构形A:
x1d=0.4cos(0.3t)-0.1sin(0.5t)
构形B:
x1d=0.2cos(0.5t)-0.2sin(0.4t)
x1d=0.3cos(0.6t)-0.4sin(0.6t)
选取权值向量为:激活函数σci(si)(i=1,2)选取为:摩擦模型参数选取为:
fci=0.35+0.7sin(10θi)n·m
fsi=0.5+sin(10θi)n·m
fτi=0.1+0.2sin(10θi)s2/rad2
bfi=0.5+0.3sin(10θi)n·m·s/rad
在仿真中考虑了两种类型的外部环境接触,包括连续时变环境约束(构形A)和随机时间点处的碰撞(构形B)。
对于构形A,其所受到的外界接触力被考虑成由一个长度lc=0.5m,质量mc=4kg,以时变角度变量α(t)=0.75π+0.2sin(t/2)旋转的刚性长杆接触所产生的时变接触力fcont,可以表示为:
对于构形B,在30秒和45秒的时间点上,在垂直于末端执行器的方向上施加50N的碰撞力。
图2所示分别为仿真过程中考虑的时变约束力图2(a)和碰撞力图2(b)曲线。需要注意的是,约束力和碰撞力的信息只用于仿真设计中,而不用于控制器设计中,因为对可重构机器人系统的控制器来说,环境接触力一直是未知的。
图3所示分别为可重构机器人构形A的位置图3(a)和速度图3(b)跟踪误差曲线。在前10秒,由于分散学习最优控制器需要一段时间来训练评价网络,因此这种情况下的跟踪误差都比较明显。在此之后,由于模型的不确定项得到补偿,跟踪误差会收敛到一个很小的范围(小于10e-2弧度)。
图4所示分别为可重构机器人构形B的位置图4(a)和速度图4(b)跟踪误差曲线。由仿真结果可知,瞬时位置误差和速度误差发生30秒和45秒的时间点上,这是由于与环境发生了碰撞的原因,在此之后,跟踪误差在分散最优控制的作用下迅速收敛。
图5所示分别为可重构机器人构形A图5(a)和构形B图5(b)的控制力矩曲线。从中我们可以得出这样的结论:这些控制力矩连续而平滑,可以用于实际的可重构机器人系统中。此外,受益于最优控制策略,力矩消耗在适当的范围内进行了最优化,以匹配每个关节模块的输出功率。值得注意的是,本发明的分散学习最优控制器适用于可重构模块机器人的不同构形,而无需调整控制器参数。
图6所示分别为可重构机器人构形A关节1图6(a)和关节2图6(b)的评价神经网络权值曲线。在线迭代策略算法和评价神经网络训练的实现过程中,对于每个独立的子系统,我们得到了每种情况下两秒钟后的权值收敛的结果,实际上,构形A的评价神经网络的权值会收敛到:
图7所示分别为可重构机器人构形B关节1图7(a)和关节2图7(b)的评价神经网络权值曲线,由仿真结果可知,构形B的评价神经网络的权值会收敛到:
通过上述仿真结果可知,采用本发明所示的分散学习最优控制方法,可以使可重构机器人系统在面向不确定环境接触的条件下实现高性能的轨迹跟踪控制。
Claims (2)
1.不确定环境接触下的可重构机器人分散学习最优控制方法,其特征是,首先建立可重构机器人系统动力学模型,通过对可重构机器人关节子系统间的耦合力矩交联项的分析,然后构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
2.根据权利要求1所述的不确定环境接触下的可重构机器人分散学习最优控制方法,其特征在于,该方法包括以下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
<mrow>
<msub>
<mi>I</mi>
<mrow>
<mi>m</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
<msub>
<mover>
<mi>&theta;</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>&theta;</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>&theta;</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>Z</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>,</mo>
<mover>
<mi>&theta;</mi>
<mo>&CenterDot;</mo>
</mover>
<mo>,</mo>
<mover>
<mi>&theta;</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<mrow>
<msub>
<mi>&tau;f</mi>
<mi>i</mi>
</msub>
</mrow>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
</mfrac>
<mo>=</mo>
<msub>
<mi>&tau;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τfi是关节输出转矩,τi是电机输出转矩;
定义系统的状态向量控制输入ui=τi;
则子系统的状态空间的形式可以表示为:
<mrow>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>=</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>+</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mo>,</mo>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>y</mi>
<mo>=</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,Bi=(Imiγi)-1,代表已建模的动力学模型部分,是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项,x是关节的位置向量,是关节的速度向量,是关节的加速度向量;
步骤二,考虑式(11),构建代价函数如下:
<mrow>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mo>&Integral;</mo>
<mn>0</mn>
<mi>&infin;</mi>
</msubsup>
<mo>{</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mi>&tau;</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>}</mo>
<mi>d</mi>
<mi>&tau;</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,xid与分别是第i个关节的期望位置和速度,αei为确定常数,为效用函数,和是确定的正常数矩阵,Di∈R+为已知的上界函数;
构建哈密顿方程和最优代价函数如下:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mo>&dtri;</mo>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>&dtri;</mo>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mover>
<mi>s</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>&dtri;</mo>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,是第i个关节期望的加速度,为代价函数Ji(si)的梯度;
<mrow>
<msubsup>
<mi>J</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>min</mi>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
</munder>
<msubsup>
<mo>&Integral;</mo>
<mn>0</mn>
<mi>&infin;</mi>
</msubsup>
<mo>{</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mi>&tau;</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>}</mo>
<mi>d</mi>
<mi>&tau;</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>15</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
在最优控制设计下,满足如下HJB方程:
<mrow>
<mn>0</mn>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>u</mi>
</munder>
<msub>
<mi>H</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mo>&dtri;</mo>
<msubsup>
<mi>J</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>16</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
令满足式(16)的分散最优控制律定义为如下形式:
<mrow>
<msubsup>
<mi>u</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>=</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
<mo>*</mo>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>17</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ui1是反馈控制律,是最优补偿控制律;
处理式(11)中的和将(16)式的HJB方程改写成:
<mrow>
<mn>0</mn>
<mo>=</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msubsup>
<mi>u</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>&dtri;</mo>
<msubsup>
<mi>J</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
<mo>*</mo>
</msubsup>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>18</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
接下来,定义反馈控制律ui1为
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>f</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>f</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mover>
<mi>f</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>s</mi>
<mi>i</mi>
</mrow>
</msub>
<msup>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mover>
<mi>f</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>&tau;</mi>
<mi>i</mi>
</mrow>
</msub>
<msubsup>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>sgn</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<msub>
<mi>&tau;</mi>
<mrow>
<mi>f</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
</mfrac>
<mo>-</mo>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>19</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ui1是利用第i个关节模块的已知局部信息设计,设计分散最优控制的律的问题可以转化为找到一个最优补偿控制律来处理可重构机器人系统的不确定项;
步骤三,通过神经网络来近似代价函数Ji(si),定义如下:
<mrow>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>W</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>&epsiv;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>20</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
<mrow>
<mo>&dtri;</mo>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<mo>&dtri;</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>W</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>+</mo>
<mo>&dtri;</mo>
<msub>
<mi>&epsiv;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>21</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
将式(21)带入式(18)可得:
<mrow>
<mn>0</mn>
<mo>=</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msubsup>
<mi>u</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mo>&dtri;</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>W</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>+</mo>
<mo>&dtri;</mo>
<msub>
<mi>&epsiv;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
<mo>*</mo>
</msubsup>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>22</mn>
<mo>)</mo>
</mrow>
</mrow>
理想权值Wci是未知的,用近似权值来建立一个评价神经网络去估计代价函数:
<mrow>
<msub>
<mover>
<mi>J</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>23</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
根据哈密顿方程(14)和HJB方程(16),哈密顿方程可以进一步改写为:
<mrow>
<msub>
<mi>H</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mo>&dtri;</mo>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>H</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>24</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ui2是补偿控制律,ecHi是由神经网络逼近误差而得到的残差,它可以定义为:
<mrow>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>H</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>=</mo>
<mo>-</mo>
<mo>&dtri;</mo>
<msubsup>
<mi>&epsiv;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>25</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
以同样的方式近似哈密顿方程,可得:
<mrow>
<msub>
<mover>
<mi>H</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>D</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>26</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
定义误差方程为权值估计误差为结合式(24)与式(26),可以得到一个用表示eci的方程为:
<mrow>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>H</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<msubsup>
<mover>
<mi>W</mi>
<mo>~</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<mo>&dtri;</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>27</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
<mrow>
<msub>
<mover>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>=</mo>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>28</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,αci>0表示评价神经网络的学习速率;
推导出神经网络权值的动态误差,引入下式:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mo>&dtri;</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&phi;</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>29</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
通过式(27),(28)和(29),得到评价神经网络的动态误差如下所示:
<mrow>
<msub>
<mover>
<mover>
<mi>W</mi>
<mo>~</mo>
</mover>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>H</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<msubsup>
<mover>
<mi>W</mi>
<mo>~</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
<mi>T</mi>
</msubsup>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>30</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
在实现在线策略迭代算法来对策略进行改进时,得到了近似最优控制律如下所示:
<mrow>
<msubsup>
<mover>
<mi>u</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
<mo>*</mo>
</msubsup>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<msubsup>
<mi>R</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<mo>&dtri;</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>31</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
结合式(19)与(31),得到本发明的分散学习最优控制律为:
<mrow>
<msubsup>
<mi>u</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>=</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>f</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>+</mo>
<mo>(</mo>
<mrow>
<msub>
<mover>
<mi>f</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mover>
<mi>f</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>s</mi>
<mi>i</mi>
</mrow>
</msub>
<msup>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mover>
<mi>f</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>&tau;</mi>
<mi>i</mi>
</mrow>
</msub>
<msubsup>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
</msup>
<mi>sgn</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<mrow>
<msub>
<mi>&tau;f</mi>
<mi>i</mi>
</msub>
</mrow>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
</mfrac>
</mrow>
<mo>)</mo>
<mo>-</mo>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>e</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>e</mi>
<mo>&CenterDot;</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<msubsup>
<mi>R</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<mo>&dtri;</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>37</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711017777.9A CN107544261B (zh) | 2017-10-26 | 2017-10-26 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711017777.9A CN107544261B (zh) | 2017-10-26 | 2017-10-26 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107544261A true CN107544261A (zh) | 2018-01-05 |
CN107544261B CN107544261B (zh) | 2020-07-24 |
Family
ID=60967252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711017777.9A Active CN107544261B (zh) | 2017-10-26 | 2017-10-26 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107544261B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108448594A (zh) * | 2018-03-05 | 2018-08-24 | 中国科学院自动化研究所 | 微电网频率自适应学习控制方法 |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109031949A (zh) * | 2018-07-06 | 2018-12-18 | 广东工业大学 | 一种智能制造系统协同控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110515297A (zh) * | 2019-08-29 | 2019-11-29 | 中国科学院自动化研究所 | 基于冗余肌肉骨骼系统的阶段式运动控制方法 |
CN111546345A (zh) * | 2020-05-26 | 2020-08-18 | 广州纳丽生物科技有限公司 | 一种基于接触动力学模型的肌肤材质力学性能测量方法 |
CN111730594A (zh) * | 2020-06-11 | 2020-10-02 | 长春工业大学 | 一种模块化机器人面向外部碰撞的分散控制方法及系统 |
CN111880414A (zh) * | 2020-08-20 | 2020-11-03 | 辽宁石油化工大学 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
CN112965368A (zh) * | 2021-01-19 | 2021-06-15 | 云南卫士盾科技有限公司 | stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法 |
CN113093771A (zh) * | 2021-04-07 | 2021-07-09 | 安徽大学 | 基于神经网络的水下机器人-机械手系统的建模方法及系统 |
CN113093538A (zh) * | 2021-03-18 | 2021-07-09 | 长春工业大学 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
CN113103237A (zh) * | 2021-04-25 | 2021-07-13 | 长春工业大学 | 一种面向未知环境约束的可重构机械臂控制方法及系统 |
CN114211478A (zh) * | 2022-01-05 | 2022-03-22 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
CN114406996A (zh) * | 2021-12-30 | 2022-04-29 | 长春工业大学 | 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统 |
CN116339154A (zh) * | 2023-05-30 | 2023-06-27 | 湖南工商大学 | 空间机器人捕获卫星操作的智能容错控制方法及设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111880412B (zh) * | 2020-08-12 | 2021-07-16 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5513098A (en) * | 1993-06-04 | 1996-04-30 | The Johns Hopkins University | Method for model-free control of general discrete-time systems |
US6216083B1 (en) * | 1998-10-22 | 2001-04-10 | Yamaha Motor Co., Ltd. | System for intelligent control of an engine based on soft computing |
CN101320251A (zh) * | 2008-07-15 | 2008-12-10 | 华南理工大学 | 基于确定学习理论的机器人行走控制方法 |
CN105487376A (zh) * | 2015-12-30 | 2016-04-13 | 南京航空航天大学 | 一种基于数据驱动单网络结构的最优控制方法 |
CN107045557A (zh) * | 2016-11-01 | 2017-08-15 | 长春工业大学 | 面向约束的可重构机械臂非奇异终端滑模力位置控制方法 |
-
2017
- 2017-10-26 CN CN201711017777.9A patent/CN107544261B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5513098A (en) * | 1993-06-04 | 1996-04-30 | The Johns Hopkins University | Method for model-free control of general discrete-time systems |
US6216083B1 (en) * | 1998-10-22 | 2001-04-10 | Yamaha Motor Co., Ltd. | System for intelligent control of an engine based on soft computing |
CN101320251A (zh) * | 2008-07-15 | 2008-12-10 | 华南理工大学 | 基于确定学习理论的机器人行走控制方法 |
CN105487376A (zh) * | 2015-12-30 | 2016-04-13 | 南京航空航天大学 | 一种基于数据驱动单网络结构的最优控制方法 |
CN107045557A (zh) * | 2016-11-01 | 2017-08-15 | 长春工业大学 | 面向约束的可重构机械臂非奇异终端滑模力位置控制方法 |
Non-Patent Citations (5)
Title |
---|
DING WANG等: "Decentralized guaranteed cost control of interconnected systems with uncertainties: a learning-based optimal control strategy", 《NEUROCOMPUTING》 * |
吴文强: "可重构模块化机器人建模、优化与控制", 《中国博士学位论文全文数据库》 * |
李元春等: "可重构机械臂分散自适应迭代学习控制", 《吉林大学学报(工学版)》 * |
董博: "面向动态约束的可重构模块机器人力矩估计与分散控制方法研究", 《中国博士学位论文全文数据库》 * |
董博等: "动态约束下可重构模块机器人分散强化学习最优控制", 《吉林大学学报(工学版)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108448594A (zh) * | 2018-03-05 | 2018-08-24 | 中国科学院自动化研究所 | 微电网频率自适应学习控制方法 |
CN109031949A (zh) * | 2018-07-06 | 2018-12-18 | 广东工业大学 | 一种智能制造系统协同控制方法 |
CN108789417B (zh) * | 2018-07-30 | 2021-06-22 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109581868B (zh) * | 2018-09-21 | 2021-11-30 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN109946975B (zh) * | 2019-04-12 | 2020-04-24 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110515297A (zh) * | 2019-08-29 | 2019-11-29 | 中国科学院自动化研究所 | 基于冗余肌肉骨骼系统的阶段式运动控制方法 |
CN111546345A (zh) * | 2020-05-26 | 2020-08-18 | 广州纳丽生物科技有限公司 | 一种基于接触动力学模型的肌肤材质力学性能测量方法 |
CN111546345B (zh) * | 2020-05-26 | 2021-08-17 | 广州纳丽生物科技有限公司 | 一种基于接触动力学模型的肌肤材质力学性能测量方法 |
CN111730594A (zh) * | 2020-06-11 | 2020-10-02 | 长春工业大学 | 一种模块化机器人面向外部碰撞的分散控制方法及系统 |
CN111880414A (zh) * | 2020-08-20 | 2020-11-03 | 辽宁石油化工大学 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
CN112965368A (zh) * | 2021-01-19 | 2021-06-15 | 云南卫士盾科技有限公司 | stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法 |
CN112965368B (zh) * | 2021-01-19 | 2022-07-26 | 云南卫士盾科技有限公司 | stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法 |
CN113093538A (zh) * | 2021-03-18 | 2021-07-09 | 长春工业大学 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
CN113093771A (zh) * | 2021-04-07 | 2021-07-09 | 安徽大学 | 基于神经网络的水下机器人-机械手系统的建模方法及系统 |
CN113093771B (zh) * | 2021-04-07 | 2022-07-26 | 安徽大学 | 基于神经网络的水下机器人-机械手系统的建模方法及系统 |
CN113103237A (zh) * | 2021-04-25 | 2021-07-13 | 长春工业大学 | 一种面向未知环境约束的可重构机械臂控制方法及系统 |
CN114406996A (zh) * | 2021-12-30 | 2022-04-29 | 长春工业大学 | 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统 |
CN114406996B (zh) * | 2021-12-30 | 2023-05-26 | 长春工业大学 | 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统 |
CN114211478A (zh) * | 2022-01-05 | 2022-03-22 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
CN114211478B (zh) * | 2022-01-05 | 2022-09-30 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
CN116339154A (zh) * | 2023-05-30 | 2023-06-27 | 湖南工商大学 | 空间机器人捕获卫星操作的智能容错控制方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107544261B (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107544261A (zh) | 不确定环境接触下的可重构机器人分散学习最优控制方法 | |
Ulrich et al. | Modeling and direct adaptive control of a flexible-joint manipulator | |
CN109240086B (zh) | 一种非线性双边遥操作系统的自适应鲁棒控制方法 | |
CN104723340B (zh) | 基于连接和阻尼配置的柔性关节机械臂的阻抗控制方法 | |
CN109581868B (zh) | 基于评判辨识结构的可重构机器人分散神经最优控制方法 | |
CN110170992A (zh) | 一种基于动态规划的模块化机械臂多故障容错控制方法 | |
CN104808512B (zh) | 一种航天器多级驱动刚柔耦合响应的获取方法 | |
CN101508112B (zh) | 三自由度搬运工业机器人多目标优化设计参数的获取方法 | |
CN110877333A (zh) | 一种柔性关节机械臂控制方法 | |
CN104723341A (zh) | 基于连接和阻尼配置的柔性关节机械臂的位置控制方法 | |
CN107505846A (zh) | 一种空间机械臂系统抗干扰姿态协调验证装置及控制方法 | |
CN110333733A (zh) | 一种四旋翼飞行器的串级变论域模糊pid姿态控制系统及方法 | |
Njeri et al. | Gain tuning for high-speed vibration control of a multilink flexible manipulator using artificial neural network | |
CN113093538A (zh) | 一种模块化机器人系统的非零和博弈神经-最优控制方法 | |
López-Martínez et al. | A multivariable nonlinear H∞ controller for a laboratory helicopter | |
CN105912007A (zh) | 空间机械臂抗干扰姿态稳定的微分几何非线性控制方法 | |
CN104965413B (zh) | 受控化发射平台的摩擦补偿自适应控制方法 | |
CN105182990A (zh) | 具有输出受限的三自由度模型直升机的鲁棒控制方法 | |
CN108536164B (zh) | 挠性航天器无角速度测量的姿态控制方法 | |
CN105759617A (zh) | 基于lpv系统的三自由度直升机控制方法 | |
Ider et al. | Trajectory tracking control of flexible-joint robots | |
Lu et al. | Robust adaptive control of antagonistic tendon-driven joint in the presence of parameter uncertainties and external disturbances | |
CN107813312A (zh) | 一种欠驱动高自由度机械臂被动关节角度调整方法 | |
Abba et al. | Robot dynamic modeling using a power flow approach with application to biped locomotion | |
Abderrahmene et al. | Neural network NARMA-L2 control of a Twin Rotor MIMO System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |