CN109581868A - 基于评判辨识结构的可重构机器人分散神经最优控制方法 - Google Patents
基于评判辨识结构的可重构机器人分散神经最优控制方法 Download PDFInfo
- Publication number
- CN109581868A CN109581868A CN201811105107.7A CN201811105107A CN109581868A CN 109581868 A CN109581868 A CN 109581868A CN 201811105107 A CN201811105107 A CN 201811105107A CN 109581868 A CN109581868 A CN 109581868A
- Authority
- CN
- China
- Prior art keywords
- neural network
- follows
- joint
- error
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
基于评判辨识结构的可重构机器人分散神经最优控制方法,属于机器人控制算法领域,为了解决现有技术中存在分散最优控制精度低的问题,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性;本发明解决了现有技术中存在分散最优控制精度低的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。
Description
技术领域
本发明涉及一种可重构机器人系统的分散神经最优控制方法,属于机器人控制算法领域。
背景技术
可重构机器人由电源装置、减速设备、执行器、传感器和计算系统组成。这些模块可以被组装成具有标准机械接口的预定参数,以满足各种任务的需求。从这一优势出发,可重构机器人经常被用于复杂而危险的工作环境,如救灾、空间探索、高温/低温作业等。因此,可重构机器人需要适当的控制系统来保证机器人系统的稳定性,同时考虑到控制性能和功耗组合的优化实现。
可重构机器人的重要特性是机器人模块可以添加、删除和替换,而不需要调整其他模块的控制参数。换句话说,对于可重构机器人系统,在子系统和本地控制器之间存在着物理上的信息交换限制,对于这些子系统和本地控制器来说,它们拥有集中控制器的能力是不可靠的。
对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与内部动力学有很大的不同。分散神经最优控制策略是在非线性系统的动态信息是完全未知的前提下进行研究的,因此这些方法的应用局限于求解机器人系统特定类的最优控制问题,而没有实现最优的动态补偿。事实上,在设计机器人分散最优控制器时,尤其是在可重构机器人系统中,需要充分利用现有的动态模型信息。
赵博等人在International Journal of Control,Automation and Systems上发表的”Model-free Adaptive Dynamic Programming Based Near-optimal DecentralizedTracking Control of Reconfigurable Manipulators”,该文中分散最优控制没有考虑复杂的互联非线性系统,特别是对于可重构机器人系统,交联项的性质和大小与内部动力学完全不同,所以该方法存在控制精度低的问题。
发明内容
本发明为了解决现有技术中存在分散最优控制精度低的问题,提出了一种基于评判辨识结构的可重构机器人分散神经最优控制方法。
本发明解决技术问题的方案是:
基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
基于评判辨识结构的可重构机器人分散神经最优控制方法,包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;
定义系统的状态向量控制输入ui=τi;
则子系统的状态空间的形式可以表示为:
其中,表示动力学模型中已建模的部分,表示耦合力矩交联项,是模型不确定项,包括摩擦模型误差和外界扰动;
步骤二,构建代价函数如下:
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,和是确定的正常数矩阵;
构建哈密顿方程如下:
其中,是第i个关节的期望加速度,为代价函数Ji(si)的梯度;接下来,定义如下最优代价函数:
根据式(15)、(16),基于非线性系统最优控制设计理论,易知满足如下HJB方程:
最优控制律定义为如下形式:
其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,为基于自适应动态规划的神经最优控制律;
将式(17)的HJB方程改写成:
接下来,定义ui1为
ui1是根据第i个关节模块的局部动态信息来设计的;
步骤三,交联项动力学的辨识;
交联项hi可以用一个单层神经网络来进行逼近:
σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态, xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差;在(23) 的基础上,考虑如下有界控制输入uih非线性动力学系统:
用神经网络辨识逼近(24),得到:
其中,为辨识系统状态xih,hi的逼近为为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:
rih=kiheih+vih (27)
其中,是辨识误差,vih由如下广义解给出:
其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:
其中,在此基础上,定义辨识误差函数:
根据式(28)、(29)对时间t的导数,有如下定义:
神经网络权重更新设计如下:
其中,proj表示光滑投影运算,Γih表示正常数增益矩阵;
结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:
权值由(31)更新;
步骤四,通过神经网络来近似代价函数Ji(si),定义如下:
其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
其中:和分别代表激活函数的梯度和逼近误差;结合(21),(37)
由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:
根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:
其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为权值估计误差为结合式 (40)与式(42),可以得到一个用表示eci的方程:
训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,αci>0表示评价神经网络的学习速率;推导出神经网络权值的动态误差,引入下式:
通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:
结合(18)和(36),理想基于自适应动态规划的神经最优控制律为:
在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制律如下所示:
结合式(22),(35)与(48),可得到基于评判辨识结构的可重构机器人分散神经最优控制律为:
本发明的有益效果如下:
在位置跟踪方面,本发明改善了系统的跟踪性能,并且降低了评判神经网络对未知非线性项的计算负担,关节位置的稳态误差减小。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
在训练神经网络方面,本发明通过在线策略迭代的方法可以更快的训练神经网络。
因此,本发明解决了现有技术中存在分散最优控制精度低的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。
附图说明
图1为本发明基于评判辨识结构的可重构机器人分散神经最优控制原理图。
图2为本发明基于评判辨识结构的可重构机器人分散神经最优控制方法流程图。
图3为本发明仿真验证中的可重构机器人构型A关节1(图3-(a))和关节2(图3-(b))的提出方法的关节位置跟踪曲线。
图4为本发明仿真验证中的可重构机器人构形A的提出方法的关节位置跟踪误差曲线。
图5为本发明仿真验证中的可重构机器人构型A关节1(图5-(a))和关节2(图5-(b))的提出方法的关节位置跟踪曲线。
图6为本发明仿真验证中的可重构机器人构形A关节1的提出方法的评判神经网络权重调节曲线。
图7为本发明仿真验证中的可重构机器人构形A关节2的提出方法的评判神经网络权重调节曲线。
图8为本发明仿真验证中的可重构机器人构型B关节1(图8-(a))和关节2(图8-(b))的提出方法的关节位置跟踪曲线。
图9为本发明仿真验证中的可重构机器人构形B的提出方法的关节位置跟踪误差曲线。
图10为本发明仿真验证中的可重构机器人构型B关节1(图10-(a))和关节2(图10-(b))的提出方法的控制力矩曲线。
图11为本发明仿真验证中的可重构机器人构形B关节1的提出方法的评判神经网络权重调节曲线。
图12为本发明仿真验证中的可重构机器人构形B关节2的提出方法的评判神经网络权重调节曲线。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,根据控制器参数与期望动力学信息,与期望位置变量、关节输出转矩与摩擦参数估计值相结合得到基于局部动力学信息的模型补偿控制律ui1。确定神经网络初值,得到神经网络权值更新率,得到辨识误差函数,获得辨识策略的神经网络控制律ui2。通过近似代价函数,通过评判网络,得到基于自适应动态规划的神经最优控制律把ui1、ui2与相加,得到分散神经最优控制律,运用到动力学模型,获得关节位置变量。与期望位置变量作差得到位置误差,再进而作用到神经网络权值更新率。
如图2所示,基于评判辨识结构的可重构机器人分散神经最优控制方法,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
1、动力学模型的建立
建立可重构机器人系统的动力学模型如下:
上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间地耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩。
(1)式中,关节摩擦项表示为关于关节位置和速度的函数:
其中,bfi是粘性摩擦系数,fci是库伦摩擦相关系数,fsi是静态相关系数,fτi是关于Stribeck 效应的位置参数,是位置误差和其他摩擦模型误差。假设fsi和fτi的标称值和它们的实际值是相接近的,可以通过标称参数值和来线性化忽略高阶项后可以得到:
结合式(2)和式(3),关节摩擦项可以近似等于:
其中,表示摩擦参数不确定项,分别为给定的摩擦参数的估计值,且表示为:
此外,(1)式子中的关节子系统间的耦合力矩交联项可以表示为:
其中,zmi是第i个转子旋转轴上的单位矢量,zlj是第j个关节旋转轴上的单位矢量,zlk是第 k个关节旋转轴上的单位矢量。
便于分析关节子系统间的耦合力矩交联项,将与表示为:
其中,i,j,k分别代表第i,j,k个关节。 是单位向量zmi与zlj的点积,是校正误差;是单位向量zmi与zlk×zlj的点积,是校正误差。
(1)中di(qi)项定义为:
di(qi)=dih(qi)+dis(qi) (9)
其中,dih(qi)表示力矩传输波纹,dis(qi)表示力矩传感干扰。
重新改写式(1)中第i个子系统的动力学模型可以得到:
其中,定义系统的状态向量控制输入ui=τi。
第i个子系统的状态空间的形式可以表示为:
其中表示动力学模型中已建模部分,表示耦合力矩交联项,是模型不确定项,包括摩擦模型误差和外界扰动。
性质1:根据摩擦力模型(4),如果参数bfi,fci,fsi和fτi都是有界的,可以得出是有界的,且ρFil=[ρFi1,ρFi2,ρFi3,ρFi4]T是一个已知的常数向量,ρFi1,ρFi2,ρFi3,ρFi4为已知的正常数上界。因此,摩擦力模型的上界可以定义为
性质2:摩擦力项有界,且ρfpi对于任意的位置qi与速度是一个已知的有界常数。
性质3:zmi,zlk与zlj是沿着相应关节旋转方向的单位矢量,与得到的向量乘积是有界的。此外,当关节稳定时,它的加速度与速度一定是有界的,因此,根据在(7)与(8)中交联项的形式,可以得出这样的结论:如果关节j和关节k是稳定的(j,k<i),那么与是有界的,且满足 ρUi与ρVi是已知正常数上界。由此可知,性质3说明了如果关节j和关节k是稳定的(j,k<i),那么与是有界的,这意味着当设计第i个关节的控制器时,低阶关节i-1也已经是稳定的。
性质4:dih(qi)主要受到波形发生器和谐波传动器中柔轮最大变形量影响,因此dih(qi) ≤ρdhi。
性质5:dis(qi)的上界|dis(qi)|≤ρdsi是由力矩传感偏离决定的。
2、代价函数与哈密顿函数的构建
首先,构建代价函数为:
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数。xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,和是确定的正常数矩阵。根据性质1,2,3,4,5,可得:
耦合力矩交联项hi和模型不确定项它们上界函数Hi,Wi满足下列关系:
定义哈密顿方程如下:
其中,是第i个关节的期望加速度,为代价函数Ji(si)的梯度。接下来,定义如下最优代价函数:
基于非线性系统最优控制设计理论下,易知满足如下HJB方程:
若存在并且连续可微分机器人系统(11)的最优控制律为:
HJB方程可以改写成:
接下来,把最优控制分解成:
分别解决项φi,hi,可以修正HJB方程为:
定义控制律ui1为:
由于ui1是根据第i个关节模块的局部动态信息来设计的。
接下来,通过基于策略迭代的学习算法,来求HJB方程的解。选择一个很小的正常数εip,让开始的允许控制策略基于控制策略根据与求解而后采用对控制策略进行更新,如果δp>0且则停止运算,得到近似最优控制,否则δp=δp+1然后继续求解
3、交联项动力学的辨识
要辨识交联项动力学,首先要给出以下假设:
假设1:神经网络逼近误差是有上界的,上界是一个未知常数。
假设2:激活函数σ(·)和它的导数σ′(·)是有界的。
利用假设1和2,交联项hi可以用一个单层神经网络来进行逼近:
σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态, xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差。在(23) 的基础上,考虑如下有界控制输入uih非线性动力学系统:
用神经网络辨识逼近(24),得到:
其中,为辨识系统状态xih,hi的逼近为为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:
rih=kiheih+vih (26)
其中,是辨识误差,vih由如下广义解给出:
其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:
其中,在此基础上,定义辨识误差函数:
根据(28),(29)对时间t的导数,有如下定义:
神经网络权重更新设计如下:
其中,proj表示光滑投影运算,Γih表示正常数增益矩阵,(30)可以重新改写为:
其中,定义为:
其中定义一个辅助项用代替中 Pih=Pih2+Pih3。根据假设1和2,使用公式(29),(31),(33)可以获得以下边界:
其中μi1(·),μi2(·)为正非增全局可逆函数,ξim,m=1,…,6为可计算正常数。
结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:
权重由(32)更新。
4、基于评判神经网络的代价函数近似实现
利用单层神经网络来近似代价函数Ji(si),定义如下:
其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
其中:和分别代表激活函数的梯度和逼近误差。结合(21),(37)
由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:
根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:
其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为权值估计误差为结合式 (40)与式(42),可以得到一个用表示eci的方程:
训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,αci>0表示评价神经网络的学习速率。推导出神经网络权值的动态误差,引入下式:
通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:
结合(18)和(36),得到基于自适应动态规划的神经最优控制律为:
在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似神经最优控制律如下所示:
结合式(22),(35)与(48),可得到基于评判-辨识结构的可重构机器人分散神经最优控制律为:
5、仿真验证
验证所提出的分散神经最优控制方法的有效性,对二自由度可重构机器人模型的两种不同构形进行仿真验证,其中,控制器参数由表1给出:
表1控制器参数
两种构形的理想轨迹如下所示:
构形A:
x1d=0.4sin(0.3t)-0.1cos(0.5t)
x2d=0.3cos(0.6t)+0.6sin(0.2t)
构形B:
x1d=0.2cos(0.5t)+0.2sin(0.4t)
x2d=0.3cos(0.2t)-0.4sin(0.6t)
选取权值向量为:构形A初始值为构形B初始值为 激活函数σci(si)(i=1,2)选取为:
辨识的激活函数选择为有5个隐含层的对称S型函数,辨识参数选择为 kih=800,αih=350,γih=5,δi1=0.5,Γih=0.1I,其中I是单位矩阵。其余的设计参数、控制参数和不确定性界限由表1给出。摩擦模型参数选取为:
fci=0.35+0.7sin(10θi)n·m
fsi=0.5+sin(10θi)n·m
fτi=0.1+0.2sin(10θi)s2/rad2
bfi=0.5+0.3sin(10θi)n·m·s/rad
图3给出了系统的关节位置跟踪曲线。跟踪性能的提高在于基于模型的动态补偿的实现和交联项的识别,这可降低系统中未知非线性动力学的规模和评判神经网络的计算负担。
图4是构型A的提出方法的位置跟踪误差曲线。图中关节位置的稳态误差减小,由于动态补偿是通过模型补偿控制器和基于交联项辨识的学习控制器来实现的,并且在基于自适应动态规划的神经最优控制律下也对模型的不确定性进行了补偿。
图5是构型A的控制力矩曲线,在曲线中,控制力矩是连续、平滑的电机输出力矩,可以在实际的可重构机器人系统上实施的。提出的神经最优控制不仅可以保证系统闭环渐进稳定,而且优化保持在适当范围内的功率消耗,以匹配每个连接模块中电机的输出功率。
图6和图7是构型A的各独立关节子系统的神经网络权值调整曲线。实施在线策略迭代和评判神经网络的训练,可以看到权值在10秒以前可以收敛,评判神经网络收敛到 Wc1=[21.5714,43.4167,39.2565],Wc2=[26.4409,30.5433,26.4850]。
图8-12给出了构型B的关节位置跟踪曲线、位置跟踪误差曲线、控制力矩曲线和关节1、关节2权值收敛结果曲线。它与构型A相比较,有相似的结果。这意味着所提出的分散最优控制律不需要对控制参数进行调整,适用于可重构机器人的不同控制。可以看到,构型B关节1的位置跟踪误差明显小于构型A。因为构型B关节1不受重力的影响,减小了关节动力学和不确定性的大小。构型B中评判神经网络收敛到 Wc1=[22.8395,33.1094,37.5858],Wc2=[32.2989,7.0446,16.0892]
仿真结果表明,所提出的分散最优控制方法能为可重构机器人提供稳定性和精确性,以满足各种任务的要求。
Claims (2)
1.基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。
2.根据权利要求1所述的基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征在于,该方法包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;
定义系统的状态向量控制输入ui=τi;
则子系统的状态空间的形式可以表示为:
其中,Bi=(Imiγi)-1∈R+,表示动力学模型中已建模的部分,表示耦合力矩交联项,θi(xi)=Bi(-fpi(xi1,xi2)-Y(xi2)Fi-di(xi1))是模型不确定项,包括摩擦模型误差和外界扰动;
步骤二,构建代价函数如下:
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,和是确定的正常数矩阵;
构建哈密顿方程如下:
其中,是第i个关节的期望加速度,Ji(0)=0,为代价函数Ji(si)的梯度;
接下来,定义如下最优代价函数:
根据式(15)、(16),基于非线性系统最优控制设计理论,易知满足如下HJB方程:
最优控制律定义为如下形式:
其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,为基于自适应动态规划的神经最优控制律;
将式(17)的HJB方程改写成:
接下来,定义ui1为
ui1是根据第i个关节模块的局部动态信息来设计的;
步骤三,交联项动力学的辨识;
交联项hi可以用一个单层神经网络来进行逼近:
σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差;在(23)的基础上,考虑如下有界控制输入uih非线性动力学系统:
用神经网络辨识逼近(24),得到:
其中,为辨识系统状态xih,hi的逼近为 为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:
rih=kiheih+vih (27)
其中,是辨识误差,vih由如下广义解给出:
其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:
其中,在此基础上,定义辨识误差函数:
根据式(28)、(29)对时间t的导数,有如下定义:
神经网络权重更新设计如下:
其中,proj表示光滑投影运算,Γih表示正常数增益矩阵;
结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:
权值由(31)更新;
步骤四,通过神经网络来近似代价函数Ji(si),定义如下:
其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
▽Ji(si)=(▽σci(si))Twci+▽εci T (37)
其中:和▽εci分别代表激活函数的梯度和逼近误差;结合(21),(37)
由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:
根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:
其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为权值估计误差为结合式(40)与式(42),可以得到一个用表示eci的方程:
训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,αci>0表示评价神经网络的学习速率;推导出神经网络权值的动态误差,引入下式:
通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:
结合(18)和(36),理想基于自适应动态规划的神经最优控制律为:
在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制律如下所示:
结合式(22),(35)与(48),可得到基于评判辨识结构的可重构机器人分散神经最优控制律为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811105107.7A CN109581868B (zh) | 2018-09-21 | 2018-09-21 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811105107.7A CN109581868B (zh) | 2018-09-21 | 2018-09-21 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109581868A true CN109581868A (zh) | 2019-04-05 |
CN109581868B CN109581868B (zh) | 2021-11-30 |
Family
ID=65919841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811105107.7A Active CN109581868B (zh) | 2018-09-21 | 2018-09-21 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109581868B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN110554604A (zh) * | 2019-08-08 | 2019-12-10 | 中国地质大学(武汉) | 一种多智能体同步控制方法、设备及存储设备 |
CN111880412A (zh) * | 2020-08-12 | 2020-11-03 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
CN112965487A (zh) * | 2021-02-05 | 2021-06-15 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN113093538A (zh) * | 2021-03-18 | 2021-07-09 | 长春工业大学 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
CN113103237A (zh) * | 2021-04-25 | 2021-07-13 | 长春工业大学 | 一种面向未知环境约束的可重构机械臂控制方法及系统 |
CN113733117A (zh) * | 2021-09-09 | 2021-12-03 | 长春工业大学 | 一种可重构机器人人类意图辨识最优控制方法及装置 |
CN114488783A (zh) * | 2020-10-23 | 2022-05-13 | 太原理工大学 | 一种基于Scara机械臂的神经网络优化控制方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477444B1 (en) * | 2000-07-07 | 2002-11-05 | Fuji Xerox Co., Ltd. | Method for the automated design of decentralized controllers for modular self-reconfigurable robots |
US20060095169A1 (en) * | 2004-04-15 | 2006-05-04 | Minor Mark A | System and method for controlling modular robots |
CN103399493A (zh) * | 2013-08-07 | 2013-11-20 | 长春工业大学 | 可重构机械臂传感器故障实时诊断和容错系统及其方法 |
US20140350722A1 (en) * | 2011-02-19 | 2014-11-27 | Richard Arthur Skrinde | Apparatus and method for enabling rapid configuration and reconfiguration of a robotic assemblage |
US20150210329A1 (en) * | 2006-11-02 | 2015-07-30 | Timothy Hutcheson | Reconfigurable Balancing Robot and Method for Moving Over Large Obstacles |
CN104991448A (zh) * | 2015-05-25 | 2015-10-21 | 哈尔滨工程大学 | 一种基于构型平面的水下机械臂运动学的求解方法 |
CN106933212A (zh) * | 2017-04-21 | 2017-07-07 | 华南理工大学 | 一种分布式制造环境下的可重构工业机器人编程控制方法 |
CN107045557A (zh) * | 2016-11-01 | 2017-08-15 | 长春工业大学 | 面向约束的可重构机械臂非奇异终端滑模力位置控制方法 |
CN107471206A (zh) * | 2017-08-16 | 2017-12-15 | 大连交通大学 | 一种模块化工业机器人重构系统及其控制方法 |
CN107544261A (zh) * | 2017-10-26 | 2018-01-05 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
CN108092560A (zh) * | 2018-01-16 | 2018-05-29 | 北京理工大学 | 一种双电机伺服系统的保性能鲁棒分散控制方法 |
CN108312146A (zh) * | 2018-01-31 | 2018-07-24 | 南京工程学院 | 模块化机器人分散控制方法及系统 |
EP3372354A1 (en) * | 2017-03-09 | 2018-09-12 | SUPSI (Scuola Universitaria Della Svizzera Italiana) | Modular robotic joint and reconfigurable robot made using the same |
-
2018
- 2018-09-21 CN CN201811105107.7A patent/CN109581868B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477444B1 (en) * | 2000-07-07 | 2002-11-05 | Fuji Xerox Co., Ltd. | Method for the automated design of decentralized controllers for modular self-reconfigurable robots |
US20060095169A1 (en) * | 2004-04-15 | 2006-05-04 | Minor Mark A | System and method for controlling modular robots |
US20150210329A1 (en) * | 2006-11-02 | 2015-07-30 | Timothy Hutcheson | Reconfigurable Balancing Robot and Method for Moving Over Large Obstacles |
US20140350722A1 (en) * | 2011-02-19 | 2014-11-27 | Richard Arthur Skrinde | Apparatus and method for enabling rapid configuration and reconfiguration of a robotic assemblage |
CN103399493A (zh) * | 2013-08-07 | 2013-11-20 | 长春工业大学 | 可重构机械臂传感器故障实时诊断和容错系统及其方法 |
CN104991448A (zh) * | 2015-05-25 | 2015-10-21 | 哈尔滨工程大学 | 一种基于构型平面的水下机械臂运动学的求解方法 |
CN107045557A (zh) * | 2016-11-01 | 2017-08-15 | 长春工业大学 | 面向约束的可重构机械臂非奇异终端滑模力位置控制方法 |
EP3372354A1 (en) * | 2017-03-09 | 2018-09-12 | SUPSI (Scuola Universitaria Della Svizzera Italiana) | Modular robotic joint and reconfigurable robot made using the same |
CN106933212A (zh) * | 2017-04-21 | 2017-07-07 | 华南理工大学 | 一种分布式制造环境下的可重构工业机器人编程控制方法 |
CN107471206A (zh) * | 2017-08-16 | 2017-12-15 | 大连交通大学 | 一种模块化工业机器人重构系统及其控制方法 |
CN107544261A (zh) * | 2017-10-26 | 2018-01-05 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
CN108092560A (zh) * | 2018-01-16 | 2018-05-29 | 北京理工大学 | 一种双电机伺服系统的保性能鲁棒分散控制方法 |
CN108312146A (zh) * | 2018-01-31 | 2018-07-24 | 南京工程学院 | 模块化机器人分散控制方法及系统 |
Non-Patent Citations (3)
Title |
---|
YI AN: "Decentralized Guaranteed Cost Control of Modular and Reconfigurable Robots Based on Adaptive Dynamic Programming", 《THE 30TH CHINESE CONTROL AND DECISION CONFERENCE (2018 CCDC)》 * |
董博: "面向动态约束的可重构模块机器人力矩估计与分散控制方法研究", 《中国博士学位论文全文数据库-信息科技辑》 * |
董博等: "动态约束下可重构模块机器人分散强化学习最优控制", 《吉林大学学报(工学版)》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN110018687B (zh) * | 2019-04-09 | 2022-03-04 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN109946975B (zh) * | 2019-04-12 | 2020-04-24 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110554604A (zh) * | 2019-08-08 | 2019-12-10 | 中国地质大学(武汉) | 一种多智能体同步控制方法、设备及存储设备 |
CN110554604B (zh) * | 2019-08-08 | 2021-07-09 | 中国地质大学(武汉) | 一种多智能体同步控制方法、设备及存储设备 |
CN111880412B (zh) * | 2020-08-12 | 2021-07-16 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
CN111880412A (zh) * | 2020-08-12 | 2020-11-03 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
CN114488783A (zh) * | 2020-10-23 | 2022-05-13 | 太原理工大学 | 一种基于Scara机械臂的神经网络优化控制方法 |
CN114488783B (zh) * | 2020-10-23 | 2023-12-22 | 太原理工大学 | 一种基于Scara机械臂的神经网络优化控制方法 |
CN112965487A (zh) * | 2021-02-05 | 2021-06-15 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN112965487B (zh) * | 2021-02-05 | 2022-06-17 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN113093538A (zh) * | 2021-03-18 | 2021-07-09 | 长春工业大学 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
CN113103237A (zh) * | 2021-04-25 | 2021-07-13 | 长春工业大学 | 一种面向未知环境约束的可重构机械臂控制方法及系统 |
CN113733117A (zh) * | 2021-09-09 | 2021-12-03 | 长春工业大学 | 一种可重构机器人人类意图辨识最优控制方法及装置 |
CN113733117B (zh) * | 2021-09-09 | 2023-09-08 | 长春工业大学 | 一种可重构机器人人类意图辨识控制方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109581868B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109581868A (zh) | 基于评判辨识结构的可重构机器人分散神经最优控制方法 | |
CN107544261B (zh) | 不确定环境接触下的可重构机器人分散学习最优控制方法 | |
Yoo et al. | Adaptive dynamic surface control of flexible-joint robots using self-recurrent wavelet neural networks | |
Karimi et al. | Non-affine nonlinear adaptive control of decentralized large-scale systems using neural networks | |
CN109465825A (zh) | 机械臂柔性关节的rbf神经网络自适应动态面控制方法 | |
CN107263481B (zh) | 一种多自由度机器人的类脑学习控制方法 | |
CN108942924A (zh) | 基于多层神经网络的模型不确定性机械臂运动控制方法 | |
CN106406085A (zh) | 基于跨尺度模型的空间机械臂轨迹跟踪控制方法 | |
CN106054594A (zh) | 基于控制输入饱和的无模型自适应控制方法 | |
Nokhbeh et al. | Modelling and control of ball-plate system | |
CN108388114A (zh) | 一种基于输出重定义的柔性机械臂复合控制方法 | |
Li et al. | Synchronization of ball and beam systems with neural compensation | |
CN111273544B (zh) | 基于预测rbf前馈补偿型模糊pid的雷达俯仰运动控制方法 | |
Feng et al. | Full‐order sliding‐mode control of rigid robotic manipulators | |
CN115990888B (zh) | 一种具有死区和时变约束功能的机械臂控制方法 | |
CN113093538A (zh) | 一种模块化机器人系统的非零和博弈神经-最优控制方法 | |
Zhang et al. | Low-level control technology of micro autonomous underwater vehicle based on intelligent computing | |
Karimi et al. | Decentralized adaptive control of large-scale affine and nonaffine nonlinear systems | |
Abdulla et al. | Roll control system design using auto tuning LQR technique | |
CN102139769B (zh) | 基于自组织cmac的挠性卫星快速稳定控制方法 | |
CN107894709A (zh) | 基于自适应评价网络冗余机器人视觉伺服控制 | |
Xu et al. | performance control of robot manipulators with kinematics, dynamics and actuator uncertainties | |
Okuma et al. | A neural network compensator for uncertainties of robotic manipulators | |
Sarkar et al. | Real time swing up and stabilization of rotary inverted pendulum system | |
Qi et al. | A compound controller of an aerial manipulator based on maxout fuzzy neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |