CN113093538A - 一种模块化机器人系统的非零和博弈神经-最优控制方法 - Google Patents

一种模块化机器人系统的非零和博弈神经-最优控制方法 Download PDF

Info

Publication number
CN113093538A
CN113093538A CN202110316833.9A CN202110316833A CN113093538A CN 113093538 A CN113093538 A CN 113093538A CN 202110316833 A CN202110316833 A CN 202110316833A CN 113093538 A CN113093538 A CN 113093538A
Authority
CN
China
Prior art keywords
equation
neural network
joint
optimal control
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110316833.9A
Other languages
English (en)
Inventor
张振国
刘克平
董博
朱新野
马冰
王悦西
杨宏韬
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202110316833.9A priority Critical patent/CN113093538A/zh
Publication of CN113093538A publication Critical patent/CN113093538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出了一种模块化机器人系统的非零和博弈神经‑最优控制方法,首先基于力矩反馈技术建立了模块化机器人的动力学模型,并将动力学模型描述为一类存在交联耦合项的子系统整合的形式。基于局部动力学信息的鲁棒控制律补偿系统的摩擦项,将最优轨迹跟踪问题转化为n个参与者的非零和神经‑最优控制问题。采用自适应动态规划算法,对评判函数用单评判网络进行逼近,并解决了耦合的哈密顿‑雅可比方程。

Description

一种模块化机器人系统的非零和博弈神经-最优控制方法
技术领域
本发明涉及不确定环境下补偿-评判结构的模块化机器人非零和博弈神经-最优控制方法,属于机器人控制算法领域。
背景技术
模块化机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求,基于上述优点,模块化机器人经常应用于不确定环境中,例如人机交互、外界碰撞等。此外,在不确定环境下,模块化机器人需要兼顾控制精度和功耗的合适控制系统。
最优控制作为控制理论的重要组成部分,其研究的核心问题是对于一个给定的被控系统,选择合适的控制策略使系统的某些性能指标达到最优。对于模块化机器人系统,获取其最优控制策略则需要求解耦合的哈密顿-雅克比方程,而该方程是一类非线性偏微分方程,难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强有力工具,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿-雅克比方程的解。
对于不确定环境下的非线性系统,尤其是模块化机器人系统,通过设计补偿-评判结构的非零和神经-最优控制,并结合通过求解耦合的哈密顿-雅克比方程得到非零和最优控制律,运用到动力学模型,获得关节位置变量。
发明内容
本发明为了解决传统的模块化机器人控制方法中存在不确定环境情况下,机器人关节的跟踪性能较低的问题,提出一种性能较好的非零和最优控制方法,以实现不确定环境下模块化机器人系统的高精度非零和最优控制。将模块化机器人系统的动力学模型描述为一个相互耦合的子系统的合成,通过求解耦合的HJ方程,结合补偿结构以及近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化,并最终实现完备的非零和神经-最优控制。
本发明解决技术问题的方案是:
一种模块化机器人系统的非零和博弈神经-最优控制方法,其特征是,首先建立模块化机器人系统动力学模型,通过对模块化机器人关节子系统间的耦合交联项的分析,然后构建代价函数与耦合的HJ方程,接下来采用神经网络对代价函数进行近似,从而得到本发明所提出的补偿-评判结构的非零和博弈神经-最优控制律。
该方法包括如下步骤:
step1,建立模块化机器人系统动力学模型如下:
Figure BDA0002981366240000021
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi
Figure BDA0002981366240000022
Figure BDA0002981366240000023
分别是关节位置,速度和加速度,
Figure BDA0002981366240000024
是关节摩擦项,
Figure BDA0002981366240000025
是关节子系统间的关节子系统间的耦合交联项,τis是关节输出转矩,τi是电机输出转矩;
令gi=(Iimγi)-1∈R+,定义状态向量
Figure BDA0002981366240000026
控制输入ui=τi。重新改写式(1)中第i个子系统的动力学模型可以得到:
Figure BDA0002981366240000027
其中,
Figure BDA0002981366240000028
表示动力学模型中的已精确建模和估计的部分,
Figure BDA0002981366240000029
是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项以及不确定环境项。定义系统的状态向量
Figure BDA00029813662400000210
控制输入ui=τi
step2,构建代价函数为:
Figure BDA00029813662400000211
其中,s(e(τ))定义为
Figure BDA00029813662400000212
为滤波误差,且e=x1-xd
Figure BDA00029813662400000213
分别代表关节的位置和速度跟踪误差,xd
Figure BDA00029813662400000214
分别是期望的位置和速度,αe为确定常数,Ui(s,u1,...,un)为效用函数,
Figure BDA00029813662400000215
Figure BDA00029813662400000216
是确定的正常数矩阵;
定义哈密顿方程如下:
Figure BDA0002981366240000031
其中,
Figure BDA0002981366240000032
为代价函数Ji(s)的梯度,
Figure BDA0002981366240000033
为计算辅助项,
Figure BDA0002981366240000034
为期望的加速度;
定义如下最优代价函数:
Figure BDA0002981366240000035
已知在最优控制设计下,Ji *(s,u1,...,un)满足如下耦合的HJ方程:
Figure BDA0002981366240000036
令满足式(14)的分散最优控制律
Figure BDA0002981366240000037
定义为如下形式:
Figure BDA0002981366240000038
其中,ui1是鲁棒控制律,
Figure BDA0002981366240000039
是最优补偿控制律;
定义鲁棒控制律ui1为:
ui1=ui1C+ui1F (16)
其中ui1C,ui1F分别为鲁棒常数与变量补偿的控制律,其中ui1C可以定义为:
Figure BDA00029813662400000310
其中上式控制律的参数可以由已经测量和已知项得到。
ui1F=ui1Fp+Yi(xi2)(ui1FYa+ui1FYb) (18)
其中ui1Fp,ui1FYa,ui1FYb可以定义为:
Figure BDA00029813662400000311
其中εiFpiFrciFrmiFvm代表为已知的函数阈值,并为正常数;
step3,通过神经网络来近似代价函数Ji(s),定义如下:
Figure BDA0002981366240000041
其中,Wic是理想的权值向量,φic(s)是激活函数,εic是神经网络的逼近误差,Ji(s)的梯度通过神经网络近似为:
Figure BDA0002981366240000042
定义激活函数φic(s)为:
Figure BDA0002981366240000043
由于理想权值Wic是未知的,所以用近似权值
Figure BDA0002981366240000044
建立一个评价神经网络来估计代价函数:
Figure BDA0002981366240000045
根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
Figure BDA0002981366240000046
其中,eicH是由神经网络逼近误差而得到的残差;
以同样的方式近似哈密顿方程,可得:
Figure BDA0002981366240000047
定义误差方程为
Figure BDA0002981366240000048
权值估计误差为
Figure BDA0002981366240000049
结合式(24)与式(25),可以得到一个用
Figure BDA00029813662400000410
表示eic的方程:
Figure BDA00029813662400000411
为了训练和调整评价网络的权值信息,采用目标函数
Figure BDA00029813662400000412
它可以被
Figure BDA00029813662400000413
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure BDA00029813662400000414
其中,αic>0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差,引入下式:
Figure BDA0002981366240000051
通过式(24),(25),得到评价神经网络的动态误差如下所示:
Figure BDA0002981366240000052
其中正常数
Figure BDA0002981366240000053
以及辅助量定义为
Figure BDA0002981366240000054
因此得到近似最优控制律
Figure BDA0002981366240000055
如下所示:
Figure BDA0002981366240000056
结合式(16)与(30),可得模块化机器人系统的非零和神经-最优控制律
Figure BDA0002981366240000057
为:
Figure BDA0002981366240000058
本发明的有益效果如下:
本发明所述的一种模块化机器人系统的非零和博弈神经-最优控制方法,可以在面向不确定环境的条件下,使机器人系统实现良好的稳定性与控制精度。
本发明所述一种模块化机器人系统的非零和博弈神经-最优控制方法,可以在提高模块化机器人控制精度的同时,降低系统执行器的能耗。
附图说明
图1为本发明一种模块化机器人系统的非零和博弈神经-最优控制方法原理图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,本发明一种模块化机器人系统的非零和博弈神经-最优控制方法,其实现中关键处理方法及过程如下:
1、建立动力学模型
建立模块化机机器人系统的动力学模型如下:
Figure BDA0002981366240000059
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi
Figure BDA0002981366240000061
Figure BDA0002981366240000062
分别是关节位置,速度和加速度,
Figure BDA0002981366240000063
是关节摩擦项,
Figure BDA0002981366240000064
是关节子系统间的耦合交联项,τis是关节输出转矩,τi是电机输出转矩。
(1)式中,关节摩擦项
Figure BDA0002981366240000065
可以考虑为如下的关于关节位置和速度的函数:
Figure BDA0002981366240000066
其中,是关于Stribeck效应的位置参数,
Figure BDA0002981366240000067
分别为给定的摩擦参数的估计值,
Figure BDA0002981366240000068
是位置误差和其他摩擦模型误差。假设fis和f的标称值和他们的实际值是相接近的,我们就可以通过标称参数值
Figure BDA0002981366240000069
Figure BDA00029813662400000610
来线性化
Figure BDA00029813662400000611
忽略高阶项后,关节摩擦项
Figure BDA00029813662400000612
可以近似等于:
Figure BDA00029813662400000613
其中,
Figure BDA00029813662400000614
表示摩擦参数不确定项,且
Figure BDA00029813662400000615
表示为:
Figure BDA00029813662400000616
此外,(1)式子中的关节子系统间的耦合交联项
Figure BDA00029813662400000617
可以表示为:
Figure BDA00029813662400000618
其中,vmi是第i个转子旋转轴上的单位矢量,vlj是第i个关节旋转轴上的单位矢量,vlk是第k个转子旋转轴上的单位矢量。
为了便于分析关节子系统间的耦合力矩交联项,将
Figure BDA00029813662400000619
表示为:
Figure BDA00029813662400000620
Figure BDA0002981366240000071
其中,
Figure BDA0002981366240000072
下脚标i,j,k分别代表第i,j,k个关节。
Figure BDA0002981366240000073
Figure BDA0002981366240000074
是单位向量vmi与vlj的点积,
Figure BDA0002981366240000075
是校正误差;
Figure BDA0002981366240000076
是单位向量vmi与vlkvlj的点积,
Figure BDA0002981366240000077
是校正误差。
耦合关节力矩τis是由关节力矩传感器测得,其中:
τis=τisfisc (8)
其中τisf为自由空间下关节力矩传感器测得、τisc是由于连续或者瞬时碰撞导致的环境接触。
令gi=(Iimγi)-1∈R+,定义状态向量
Figure BDA0002981366240000078
控制输入ui=τi。重新改写式(1)中第i个子系统的动力学模型可以得到:
Figure BDA0002981366240000079
其中,
Figure BDA00029813662400000710
表示动力学模型中的已精确建模和估计的部分,
Figure BDA00029813662400000711
是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项以及不确定环境项。定义系统的状态向量
Figure BDA00029813662400000712
控制输入ui=τi
性质1:根据摩擦力模型(2),如果参数fib,fic,fis,f都是有界的,我们可以得出
Figure BDA00029813662400000713
是有界的,且
Figure BDA00029813662400000714
ρFil=[ρFi1Fi2Fi3Fi4]是一个已知的常数向量,ρFi1Fi2Fi3Fi4为已知的正常数上界。因此,摩擦力模型的上界可以定义为
Figure BDA00029813662400000715
性质2:摩擦力项
Figure BDA00029813662400000716
有界,且
Figure BDA00029813662400000717
ρfpi对于任意的位置θi与速度
Figure BDA00029813662400000718
是一个已知的有界常数。
性质3:vmi,vlk与vlj是沿着相应关节旋转方向的单位矢量,
Figure BDA0002981366240000081
Figure BDA0002981366240000082
得到的向量乘积是有界的。此外,当关节稳定时,它的加速度与速度一定是有界的,因此,根据在(6)与(7)中交联项的形式,可以得出这样的结论:如果关节j和关节k是稳定的(j,k<i),那么
Figure BDA0002981366240000083
是有界的。由此可知,性质3说明了如果关节j和关节k是稳定的(j,k<i),那么
Figure BDA0002981366240000084
是有界的,这意味着当我们设计第i个关节的控制器时,低阶关节i-1也已经是稳定的。
为了方便模块化机器人控制器的设计,将子系统扩张为n个参与者的状态空间形式:
Figure BDA0002981366240000085
其中,x=[x1,x2]T∈R2n代表子系统的全局状态,x1=[x11,...,xi1,...,xn1]T,x2=[x12,...,xi2,...,xn2]T代表位置与速度的全局向量,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T为系统的动力学向量,Ξ(x)=[Ξ1(x),...,Ξi(x),...,Ξn(x)]T为不确定项,Gj=[0,..,gj,...,0]T为输入矩阵,gj=(Ijmγj)-1是矩阵Gj的第j个元素。
2、构建代价函数与哈密顿函数
首先,构建代价函数为:
Figure BDA0002981366240000086
其中,s(e(τ))定义为
Figure BDA0002981366240000087
为滤波误差,且e=x1-xd
Figure BDA0002981366240000088
分别代表关节的位置和速度跟踪误差,xd
Figure BDA0002981366240000089
分别是期望的位置和速度,αe为确定常数,Ui(s,u1,...,un)为效用函数,
Figure BDA00029813662400000810
Figure BDA00029813662400000811
是确定的正常数矩阵。
定义哈密顿方程如下:
Figure BDA00029813662400000812
其中,
Figure BDA00029813662400000813
为代价函数Ji(s)的梯度,
Figure BDA00029813662400000814
为计算辅助项,
Figure BDA00029813662400000815
为期望的加速度。
定义如下最优代价函数:
Figure BDA0002981366240000091
已知在最优控制设计下,Ji *(s,u1,...,un)满足如下耦合的HJ方程:
Figure BDA0002981366240000092
令满足式(14)的分散最优控制律
Figure BDA0002981366240000093
定义为如下形式:
Figure BDA0002981366240000094
其中,ui1是鲁棒控制律,
Figure BDA0002981366240000095
是最优补偿控制律;
定义鲁棒控制律ui1为:
ui1=ui1C+ui1F (16)
其中ui1C,ui1F分别为鲁棒常数与变量补偿的控制律。其中ui1C可以定义为:
Figure BDA0002981366240000096
其中可以由已经测量和已知项得到。
ui1F=ui1Fp+Yi(xi2)(ui1FYa+ui1FYb) (18)
其中ui1Fp,ui1FYa,ui1FYb可以定义为:
Figure BDA0002981366240000097
其中εiFpiFrciFrmiFvm为已知的正常数。
3、基于神经网络的代价函数近似实现
利用RBF神经网络来近似最优代价函数
Figure BDA0002981366240000098
定义如下:
Figure BDA0002981366240000101
其中,Wic是理想的权值向量,φic(s)是激活函数,εic是神经网络的逼近误差,Ji(s)的梯度通过神经网络近似为:
Figure BDA0002981366240000102
定义激活函数Tic(s)为:
Figure BDA0002981366240000103
由于理想权值Wic是未知的,所以用近似权值
Figure BDA0002981366240000104
建立一个评价神经网络来估计代价函数:
Figure BDA0002981366240000105
根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
Figure BDA0002981366240000106
其中,eicH是由神经网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
Figure BDA0002981366240000107
定义误差方程为
Figure BDA0002981366240000108
权值估计误差为
Figure BDA0002981366240000109
结合式(24)与式(25),可以得到一个用
Figure BDA00029813662400001010
表示eic的方程:
Figure BDA00029813662400001011
为了训练和调整评价网络的权值信息,采用目标函数
Figure BDA00029813662400001012
它可以被
Figure BDA00029813662400001013
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure BDA00029813662400001014
其中,αic>0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差,引入下式:
Figure BDA00029813662400001015
通过式(24),(25),得到评价神经网络的动态误差如下所示
Figure BDA0002981366240000111
其中正常数
Figure BDA0002981366240000112
以及辅助量定义为
Figure BDA0002981366240000113
因此得到近似最优控制律
Figure BDA0002981366240000114
如下所示:
Figure BDA0002981366240000115
结合式(16)与(30),可得模块化机器人系统的非零和神经-最优控制律
Figure BDA0002981366240000116
为:
Figure BDA0002981366240000117
本发明所述的一种模块化机器人系统的非零和博弈神经-最优控制方法,可以使模块化机器人系统在面向不确定环境的条件下实现高性能的轨迹跟踪控制。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种模块化机器人系统的非零和博弈神经-最优控制方法,其特征是,首先建立模块化机器人系统动力学模型,通过对模块化机器人关节子系统间的耦合交联项的分析,然后构建代价函数与耦合的HJ方程,最后采用神经网络对代价函数进行近似,从而得到本发明所提出的补偿-评判结构的非零和博弈神经-最优控制律。
2.根据权利要求1所述的一种模块化机器人系统的非零和博弈神经-最优控制方法,该方法包括以下步骤:
Step1,建立模块化机器人系统动力学模型如下:
Figure FDA0002981366230000011
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi
Figure FDA0002981366230000012
Figure FDA0002981366230000013
分别是关节位置,速度和加速度,
Figure FDA0002981366230000014
是关节摩擦项,
Figure FDA0002981366230000015
是关节子系统间的耦合交联项,τis是关节输出转矩,τi是电机输出转矩;
令gi=(Iimγi)-1∈R+,定义状态向量
Figure FDA0002981366230000016
控制输入ui=τi;重新改写式(1)中第i个子系统的动力学模型可以得到:
Figure FDA0002981366230000017
其中,
Figure FDA0002981366230000018
表示动力学模型中的已精确建模和估计的部分,
Figure FDA0002981366230000019
是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项以及不确定环境项;定义系统的状态向量
Figure FDA00029813662300000110
控制输入ui=τi
Step2,构建代价函数为:
Figure FDA00029813662300000111
其中,s(e(τ))定义为
Figure FDA00029813662300000112
为滤波误差,且e=x1-xd
Figure FDA00029813662300000113
分别代表关节的位置和速度跟踪误差,xd
Figure FDA00029813662300000114
分别是期望的位置和速度,αe为确定常数,Ui(s,u1,...,un)为效用函数,
Figure FDA0002981366230000021
Figure FDA0002981366230000022
是确定的正常数矩阵;
定义哈密顿方程如下:
Figure FDA0002981366230000023
其中,
Figure FDA0002981366230000024
为代价函数Ji(s)的梯度,
Figure FDA0002981366230000025
为计算辅助项,
Figure FDA0002981366230000026
为期望的加速度;
定义如下最优代价函数:
Figure FDA0002981366230000027
已知在最优控制设计下,Ji *(s,u1,...,un)满足如下耦合的HJ方程:
Figure FDA0002981366230000028
令满足式(14)的分散最优控制律
Figure FDA0002981366230000029
定义为如下形式:
Figure FDA00029813662300000210
其中,ui1是鲁棒控制律,
Figure FDA00029813662300000211
是最优补偿控制律。
定义鲁棒控制律ui1为:
ui1=ui1C+ui1F (16)
其中ui1C,ui1F分别为鲁棒常数与变量补偿的控制律;其中ui1C可以定义为:
Figure FDA00029813662300000212
其中上式控制律的参数可以由已经测量和已知项得到;
ui1F=ui1Fp+Yi(xi2)(ui1FYa+ui1FYb) (18)
其中ui1Fp,ui1FYa,ui1FYb可以定义为:
Figure FDA0002981366230000031
其中εiFpiFrciFrmiFvm代表为已知的函数阈值,并为正常数;
Step3,通过神经网络来近似代价函数Ji(s),定义如下:
Figure FDA0002981366230000032
其中,Wic是理想的权值向量,φic(s)是激活函数,εic是神经网络的逼近误差,Ji(s)的梯度通过神经网络近似为:
Figure FDA0002981366230000033
定义激活函数φic(s)为:
Figure FDA0002981366230000034
由于理想权值Wic是未知的,所以用近似权值
Figure FDA0002981366230000035
建立一个评价神经网络来估计代价函数:
Figure FDA0002981366230000036
根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
Figure FDA0002981366230000037
其中,eicH是由神经网络逼近误差而得到的残差;
以同样的方式近似哈密顿方程,可得:
Figure FDA0002981366230000038
定义误差方程为
Figure FDA0002981366230000039
权值估计误差为
Figure FDA00029813662300000310
结合式(24)与式(25),可以得到一个用
Figure FDA00029813662300000311
表示eic的方程:
Figure FDA0002981366230000041
为了训练和调整评价网络的权值信息,采用目标函数
Figure FDA0002981366230000042
它可以被
Figure FDA0002981366230000043
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure FDA0002981366230000044
其中,αic>0表示评价神经网络的学习速率;为了推导出神经网络权值的动态误差,引入下式:
Figure FDA0002981366230000045
通过式(24),(25),得到评价神经网络的动态误差如下所示:
Figure FDA0002981366230000046
其中正常数
Figure FDA0002981366230000047
以及辅助量定义为
Figure FDA0002981366230000048
因此得到近似最优控制律
Figure FDA0002981366230000049
如下所示:
Figure FDA00029813662300000410
结合式(16)与(30),可得模块化机器人系统的非零和神经-最优控制律
Figure FDA00029813662300000411
为:
Figure FDA00029813662300000412
CN202110316833.9A 2021-03-18 2021-03-18 一种模块化机器人系统的非零和博弈神经-最优控制方法 Pending CN113093538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316833.9A CN113093538A (zh) 2021-03-18 2021-03-18 一种模块化机器人系统的非零和博弈神经-最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316833.9A CN113093538A (zh) 2021-03-18 2021-03-18 一种模块化机器人系统的非零和博弈神经-最优控制方法

Publications (1)

Publication Number Publication Date
CN113093538A true CN113093538A (zh) 2021-07-09

Family

ID=76669446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316833.9A Pending CN113093538A (zh) 2021-03-18 2021-03-18 一种模块化机器人系统的非零和博弈神经-最优控制方法

Country Status (1)

Country Link
CN (1) CN113093538A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114211478A (zh) * 2022-01-05 2022-03-22 长春工业大学 一种模块化机械臂协调操作最优控制方法及系统
CN114406996A (zh) * 2021-12-30 2022-04-29 长春工业大学 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统
CN115877871A (zh) * 2023-03-03 2023-03-31 北京航空航天大学 一种基于强化学习的非零和博弈无人机编队控制方法
CN117031968A (zh) * 2023-10-10 2023-11-10 山东科技大学 一种基于非合作博弈的带式输送机控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108789417A (zh) * 2018-07-30 2018-11-13 长春工业大学 基于自适应动态规划的可重构机械臂保代价分散控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
WO2019222597A1 (en) * 2018-05-18 2019-11-21 Google Llc System and methods for pixel based model predictive control
DE102019203634A1 (de) * 2019-03-18 2020-09-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ansteuern eines Roboters
CN111880412A (zh) * 2020-08-12 2020-11-03 长春工业大学 基于单评判网络的可重构机器人零和神经最优控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
WO2019222597A1 (en) * 2018-05-18 2019-11-21 Google Llc System and methods for pixel based model predictive control
CN108789417A (zh) * 2018-07-30 2018-11-13 长春工业大学 基于自适应动态规划的可重构机械臂保代价分散控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
DE102019203634A1 (de) * 2019-03-18 2020-09-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ansteuern eines Roboters
CN111880412A (zh) * 2020-08-12 2020-11-03 长春工业大学 基于单评判网络的可重构机器人零和神经最优控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO DONG 等: "A neuro-optimal control method of modular robot manipulators based on nonzero-sum game strategy", 《2020 CHINESE AUTOMATION CONGRESS (CAC)》 *
夏宏兵: "基于自适应动态规划的可重构机械臂容错控制方法研究", 《中国硕士学位论文全文数据库信息科技辑》 *
董博: "面向动态约束的可重构模块机器人力矩估计与分散控制方法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114406996A (zh) * 2021-12-30 2022-04-29 长春工业大学 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统
CN114211478A (zh) * 2022-01-05 2022-03-22 长春工业大学 一种模块化机械臂协调操作最优控制方法及系统
CN114211478B (zh) * 2022-01-05 2022-09-30 长春工业大学 一种模块化机械臂协调操作最优控制方法及系统
CN115877871A (zh) * 2023-03-03 2023-03-31 北京航空航天大学 一种基于强化学习的非零和博弈无人机编队控制方法
CN117031968A (zh) * 2023-10-10 2023-11-10 山东科技大学 一种基于非合作博弈的带式输送机控制方法
CN117031968B (zh) * 2023-10-10 2024-02-09 山东科技大学 一种基于非合作博弈的带式输送机控制方法

Similar Documents

Publication Publication Date Title
CN113093538A (zh) 一种模块化机器人系统的非零和博弈神经-最优控制方法
CN107544261B (zh) 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108789417B (zh) 基于自适应动态规划的可重构机械臂保代价分散控制方法
CN108942924B (zh) 基于多层神经网络的模型不确定性机械臂运动控制方法
CN107561935B (zh) 基于多层神经网络的电机位置伺服系统摩擦补偿控制方法
CN109465825A (zh) 机械臂柔性关节的rbf神经网络自适应动态面控制方法
CN109581868B (zh) 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN112904728A (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN101369132B (zh) 基于神经网络辨识器的永磁球形电动机力学解耦控制方法
CN109683624A (zh) 用于小型无人直升机姿态控制的非线性鲁棒控制方法
CN111730594A (zh) 一种模块化机器人面向外部碰撞的分散控制方法及系统
Yang et al. A CMAC-PD compound torque controller with fast learning capacity and improved output smoothness for electric load simulator
CN108762088B (zh) 一种迟滞非线性伺服电机系统滑模控制方法
Mohammadi et al. PSO tuned FLC for full autopilot control of quadrotor to tackle wind disturbance using bond graph approach
Wu et al. A study on tracking error based on mechatronics model of a 5-DOF hybrid spray-painting robot
CN113703319A (zh) 基于强化学习的关节模组不等式约束最优鲁棒控制方法
Ren et al. Trajectory-tracking-based adaptive neural network sliding mode controller for robot manipulators
CN115990888A (zh) 一种具有死区和时变约束功能的机械臂控制方法
Zhang et al. Robot peg-in-hole assembly based on contact force estimation compensated by convolutional neural network
Liu et al. Full backstepping control in dynamic systems with air disturbances optimal estimation of a quadrotor
CN113733117B (zh) 一种可重构机器人人类意图辨识控制方法及装置
Salmasi et al. A manoeuvre control strategy for flexible-joint manipulators with joint dry friction
CN112363538B (zh) 一种速度信息不完备下的auv区域跟踪控制方法
Zhang et al. Adaptive backstepping control of dual-motor driving servo systems with friction
Guo et al. Robust control of a serial variable stiffness actuator based on nonlinear disturbance observer (NDOB)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210709