CN111880412A - 基于单评判网络的可重构机器人零和神经最优控制方法 - Google Patents

基于单评判网络的可重构机器人零和神经最优控制方法 Download PDF

Info

Publication number
CN111880412A
CN111880412A CN202010805559.7A CN202010805559A CN111880412A CN 111880412 A CN111880412 A CN 111880412A CN 202010805559 A CN202010805559 A CN 202010805559A CN 111880412 A CN111880412 A CN 111880412A
Authority
CN
China
Prior art keywords
error
joint
neural network
reconfigurable robot
cost function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010805559.7A
Other languages
English (en)
Other versions
CN111880412B (zh
Inventor
董博
安天骄
门小东
朱新野
张振国
刘克平
李元春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202010805559.7A priority Critical patent/CN111880412B/zh
Publication of CN111880412A publication Critical patent/CN111880412A/zh
Application granted granted Critical
Publication of CN111880412B publication Critical patent/CN111880412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Abstract

基于单评判辨网络的可重构机器人系统的零和神经最优控制方法,属于机器人控制算法领域,为了解决现有技术中存在不确定性干扰的问题,该方法首先建立可重构机器人系统的动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合交联项的观测,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。该方法改善了系统的跟踪性能,并且采用了单评判神经网络对未知非线性项的计算负担,关节位置的稳态误差减小;不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗;为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。

Description

基于单评判网络的可重构机器人零和神经最优控制方法
技术领域
本发明涉及一种可重构机器人系统的单评判网络零和神经最优控制方法,属于机器人控 制算法领域。
背景技术
可重构机器人可以根据不同的任务需求对自身构形进行重新组合与配置,从而表现出许 多传统机器人所不具有的优势。“模块化”与“可重构”作为可重构机器人设计的两大基本 要求,其主要思想是将一个复杂的机器人系统分解为多个具有较高便携性与可维护性的子系 统,从而有效缩短机器人系统的设计与制造的周期。可重构机器人系统不可避免在未知环境 下完成工作,并且要综合考虑并确保系统的稳定性、鲁棒性、精确性、节能性等指标,因此 在环境信息不确定的条件下采用合适的控制策略是十分必要的。
最优控制作为现代控制理论的重要组成部分,其研究的核心问题是对于一个给定的被控 系统,选择合适的控制策略使系统的某些性能指标达到最优。对于可重构机器人系统,获取 其最优控制策略则需要求解哈密顿-雅克比-埃塞克方程,而该方程是一类非线性偏微分方程, 难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强 有力工具,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿- 雅克比-埃塞克方程的解。
对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与 内部动力学有很大的不同。通过设计状态扩展观测器对耦合交联项进行观测,并结合通过求 解哈密顿-雅克比-埃塞克方程的零和最优控制律以及最坏干扰律,得到单评判网络的零和神 经最优控制律,运用到动力学模型,获得关节位置变量。
发明内容
本发明为了解决现有技术中存在不确定性干扰的问题,提出了一种基于单评判辨网络的 可重构机器人系统的零和神经最优控制方法。
本发明解决技术问题的方案是:
基于单评判网络的可重构机器人零和神经最优控制方法,其特征是,该方法首先建立可 重构机器人系统的动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算 法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合交联项的观测,接下 来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
基于单评判网络结构的可重构机器人零和神经最优控制方法,包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
Figure BDA0002628993730000021
上式中,u∈Rn代表控制力矩,q∈Rn表示关节位置向量,
Figure BDA0002628993730000022
表示关节速度向量,
Figure BDA0002628993730000023
表示关节加速度向量,M(q)∈Rn×n代表惯性矩阵,
Figure BDA0002628993730000024
表示哥氏力和离心力项, G(q)∈Rn代表重力项。
在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会 带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子 系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:
Figure BDA0002628993730000025
Figure BDA0002628993730000026
其中,qi,
Figure BDA0002628993730000027
ui,
Figure BDA0002628993730000028
Mi,Ci是第i个q,
Figure BDA0002628993730000029
u,G,M,C的元素向量,Mij(q)和
Figure BDA00026289937300000210
表示矩阵 M(q)和
Figure BDA00026289937300000211
第ij个元素,
Figure BDA00026289937300000212
表示交联耦合项,di(qi)是不确定干扰项。
Figure BDA00026289937300000213
则(2)所示的动力学模型可以描述为如下状态空间形式:
Figure BDA00026289937300000214
其中,xi是第i个子系统的状态,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。
步骤二,构建代价函数如下:
Figure BDA00026289937300000215
其中,ei=xi1-xid
Figure RE-GDA00026976307100000216
分别代表第i个关节的位置和速度跟踪误差,其中Υii为确 定常数。xid
Figure RE-GDA00026976307100000217
分别是第i个关节期望的位置、速度和加速度,
Figure RE-GDA00026976307100000218
为效用函数,
Figure RE-GDA00026976307100000219
Figure RE-GDA00026976307100000220
是确定的正常 数矩阵。
定义哈密顿方程如下:
Figure BDA0002628993730000031
其中,
Figure BDA0002628993730000032
是第i个关节的期望加速度,Ji(0)=0,
Figure BDA0002628993730000033
为代价函数Ji(si)的梯度。
接下来,定义如下最优代价函数:
Figure BDA0002628993730000034
Figure BDA0002628993730000035
存在并且连续可微分可重构机器人系统的最优控制律为以及最坏干扰律为:
Figure BDA0002628993730000036
HJI方程可以改写成:
Figure BDA0002628993730000037
步骤三,交联项动力学的观测:
基于线性状态扩张观测器,状态空间可以扩张为:
Figure BDA0002628993730000038
其中xi3为系统的扩张状态,
Figure BDA0002628993730000039
为xi3对时间的导数。线性扩展观测器的模型可以描述为:
Figure BDA00026289937300000310
其中lij,j=1,2,3为观测器选择的增益参数。其中,
Figure BDA00026289937300000311
ωi0>0为常数,αij,j=1,2,3选择为满足特征多项式s3i1s2i2s+αi3=(s+1)3的根,其中
Figure BDA0002628993730000041
在特征多项式中可以表示为:
Figure BDA0002628993730000042
其中ωi0为状态扩张观测器的带宽。
令观测误差为
Figure BDA0002628993730000043
根据(13)和(14),观测误差可以定义为:
Figure BDA0002628993730000044
Figure BDA0002628993730000045
误差动力学可以描述为:
Figure BDA0002628993730000046
其中
Figure BDA0002628993730000047
αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。
步骤四,利用单层神经网络来近似代价函数
Figure BDA0002628993730000048
定义如下:
Figure BDA0002628993730000049
其中,Wic是理想的权值向量,
Figure BDA00026289937300000410
是激活函数,εic是神经网络的逼近误差,
Figure BDA00026289937300000411
的梯度 通过神经网络近似为:
Figure BDA00026289937300000412
其中:
Figure BDA00026289937300000413
Figure BDA00026289937300000414
分别代表激活函数的梯度和逼近误差。
由于理想权值Wic是未知的,所以用近似权值
Figure BDA00026289937300000415
建立一个评价神经网络来估计代价函数:
Figure BDA00026289937300000416
根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
Figure BDA00026289937300000417
其中,eiJh是由评判网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
Figure BDA0002628993730000051
定义误差方程为:
Figure BDA0002628993730000052
权值估计误差定义为:
Figure BDA0002628993730000053
训练和调整评价网络的权值信息,采用目标函数
Figure BDA0002628993730000054
它可以被
Figure BDA0002628993730000055
训练来取到最 小值,且神经网络的权值可以通过下式进行更新:
Figure BDA0002628993730000056
其中,αi表示评价神经网络的学习速率。
评价神经网络的动态误差如下所示:
Figure BDA0002628993730000057
其中,υi定义为:
Figure BDA0002628993730000058
结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:
Figure BDA0002628993730000059
在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似零和神 经最优控制律
Figure BDA00026289937300000510
和最坏干扰律
Figure BDA00026289937300000511
如下所示:
Figure BDA00026289937300000512
本发明的有益效果如下:
在位置跟踪方面,本发明改善了系统的跟踪性能,并且采用了单评判神经网络对未知非 线性项的计算负担,关节位置的稳态误差减小。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而 且可以降低每个关节的能量损耗。
在训练神经网络方面,本发明通过在线策略迭代的方法可以更快的训练神经网络。
因此,本发明解决了现有技术中存在不确定性干扰的最优控制精度低的问题,为可重构 机器人提供稳定性和精确性,并且可以满足各种任务的需求。
附图说明
图1为本发明基于单评判网络结构的可重构机器人零和神经最优控制原理图。
图2为本发明基于单评判网络结构的可重构机器人零和神经最优控制方法流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,根据控制器参数与期望动力学信息,与期望位置变量作比较。通过确定神 经网络初值,得到神经网络权值更新率。交联项模型与其观测值相比较,得到观测误差函数, 获得交联项动力学的观测信息。通过近似代价函数与评判网络,得到基于单评判网络的自适 应动态规划的零和最优控制律
Figure BDA0002628993730000061
以及最坏干扰律
Figure BDA0002628993730000062
把交联项动力学观测信息、
Figure BDA0002628993730000063
Figure BDA0002628993730000064
相结 合,得到单评判网络的零和神经最优控制律,运用到动力学模型,获得关节位置变量。与期 望位置变量作差得到位置误差,再进而作用到神经网络权值更新率。
如图2所示,基于单评判网络的可重构机器人零和神经最优控制方法,该方法首先建立 可重构机器人系统动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算 法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测, 接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
1、动力学模型的建立
建立可重构机器人系统的动力学模型如下:
Figure BDA0002628993730000065
上式中,u∈Rn代表控制力矩,q∈Rn表示关节位置向量,
Figure BDA0002628993730000066
表示关节速度向量,
Figure BDA0002628993730000067
表示关节加速度向量,M(q)∈Rn×n代表惯性矩阵,
Figure BDA0002628993730000068
表示哥氏力和离心力项, G(q)∈Rn代表重力项。
在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会 带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子 系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:
Figure BDA0002628993730000071
Figure BDA0002628993730000072
其中,qi,
Figure BDA0002628993730000073
ui,
Figure BDA0002628993730000074
Mi,Ci是第i个q,
Figure BDA0002628993730000075
u,G,M,C的元素向量,Mij(q)和
Figure BDA0002628993730000076
表示矩阵 M(q)和
Figure BDA0002628993730000077
第ij个元素,
Figure BDA0002628993730000078
表示交联耦合项,di(qi)是不确定干扰项。
Figure BDA0002628993730000079
则(2)所示的动力学模型可以描述为如下状态空间形式:
Figure BDA00026289937300000710
其中,xi是第i个子系统的状态,
Figure BDA00026289937300000711
其中,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。
2、代价函数与哈密顿函数的构建
首先,构建代价函数为:
Figure BDA00026289937300000712
其中,ei=xi1-xid
Figure RE-GDA00026976307100000712
分别代表第i个关节的位置和速度跟踪误差,其中Υii为确 定常数。xid
Figure RE-GDA00026976307100000713
分别是第i个关节期望的位置、速度和加速度,
Figure RE-GDA00026976307100000714
为效用函数,
Figure RE-GDA00026976307100000715
Figure RE-GDA00026976307100000716
是确定的正常 数矩阵。
定义哈密顿方程如下:
Figure BDA00026289937300000718
其中,
Figure BDA00026289937300000719
是第i个关节的期望加速度,Ji(0)=0,
Figure BDA00026289937300000720
为代价函数Ji(si)的梯度。 接下来,定义如下最优代价函数:
Figure BDA0002628993730000081
基于非线性系统最优控制设计理论下,易知
Figure BDA0002628993730000082
满足如下HJI方程:
Figure BDA0002628993730000083
Figure BDA0002628993730000084
存在并且连续可微分可重构机器人系统的最优控制律为以及最坏干扰律为:
Figure BDA0002628993730000085
HJI方程可以改写成:
Figure BDA0002628993730000086
接下来,通过基于策略迭代的学习算法,来求HJI方程的解。选择一个很小的正常数εi, 让k=0,
Figure BDA0002628993730000087
开始的允许控制策略
Figure BDA0002628993730000088
以及干扰律
Figure BDA0002628993730000089
基于控制策略
Figure BDA00026289937300000810
和干扰律
Figure BDA00026289937300000811
根据
Figure BDA00026289937300000812
Figure BDA00026289937300000813
求解
Figure BDA00026289937300000814
而后采用
Figure BDA00026289937300000815
对控制策略进行更新,
Figure BDA00026289937300000816
对干扰策略进行更新。如果k>0且
Figure BDA00026289937300000817
则停止运算, 得到近似最优控制律以及干扰律,否则k=k+1然后继续求解
Figure BDA00026289937300000818
3、交联项动力学的观测
采用状态扩张观测器来观测交联项动力学hi(x)。
根据状态空间(4),首先假设可重构机器人系统没有不确定性干扰,基于线性状态扩张观 测器,状态空间可以扩张为:
Figure BDA0002628993730000091
其中xi3为系统的扩张状态,
Figure BDA0002628993730000092
为xi3对时间的导数。线性扩展观测器的模型可以描述为:
Figure BDA0002628993730000093
其中lij,j=1,2,3为观测器选择的增益参数。其中,
Figure BDA0002628993730000094
ωi0>0为常数,αij,j=1,2,3选择为满足特征多项式s3i1s2i2s+αi3=(s+1)3的根,其中
Figure BDA0002628993730000095
在特征多项式中可以表示为:
Figure BDA0002628993730000096
其中ωi0为状态扩张观测器的带宽。
令观测误差为
Figure BDA0002628993730000097
根据(13)和(14),观测误差可以定义为:
Figure BDA0002628993730000098
Figure BDA0002628993730000099
误差动力学可以描述为:
Figure BDA00026289937300000910
其中
Figure BDA00026289937300000911
αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。
4、基于评判神经网络的代价函数近似实现
利用单层神经网络来近似代价函数
Figure BDA00026289937300000912
定义如下:
Figure BDA0002628993730000101
其中,Wic是理想的权值向量,
Figure BDA0002628993730000102
是激活函数,εic是神经网络的逼近误差,
Figure BDA0002628993730000103
的梯度 通过神经网络近似为:
Figure BDA0002628993730000104
其中:
Figure BDA0002628993730000105
Figure BDA0002628993730000106
分别代表激活函数的梯度和逼近误差。结合(11),(19)得到
Figure BDA0002628993730000107
由于理想权值Wic是未知的,所以用近似权值
Figure BDA0002628993730000108
建立一个评价神经网络来估计代价函数:
Figure BDA0002628993730000109
根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
Figure BDA00026289937300001010
其中,eiJh是由评判网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
Figure BDA00026289937300001011
定义误差方程为:
Figure BDA00026289937300001012
权值估计误差定义为:
Figure BDA00026289937300001013
训练和调整评价网络的权值信息,采用目标函数
Figure BDA00026289937300001014
它可以被
Figure BDA00026289937300001015
训练来取到最 小值,且神经网络的权值可以通过下式进行更新:
Figure BDA00026289937300001016
其中,αi表示评价神经网络的学习速率。
评价神经网络的动态误差如下所示:
Figure BDA0002628993730000111
其中,υi定义为:
Figure BDA0002628993730000112
结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:
Figure BDA0002628993730000113
在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似零和神 经最优控制律
Figure BDA0002628993730000114
和最坏干扰律
Figure BDA0002628993730000115
如下所示:
Figure BDA0002628993730000116
5、仿真验证
验证所提出的零和神经最优控制方法的有效性,对二自由度可重构机器人模型的两种不 同构形进行仿真验证,其中,动力学模型为:
构形A:
Figure BDA0002628993730000117
Figure BDA0002628993730000118
Figure BDA0002628993730000119
构形B:
Figure BDA00026289937300001110
Figure BDA00026289937300001111
Figure BDA00026289937300001112
两种构形的参考轨迹定义为:
Figure BDA0002628993730000121
选取权值向量
Figure BDA0002628993730000122
为:
Figure BDA0002628993730000123
构形A和 B初始值选取为
Figure BDA0002628993730000124
激活函数选取为:
Figure BDA0002628993730000125
通过Matlab仿真结果表明,所提出的零和神经最优控制方法能为可重构机器人提供稳定 性和精确性,以满足各种任务的要求。

Claims (2)

1.基于单评判网络结构的可重构机器人零和神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJI方程,通过基于策略迭代的学习算法,来求HJI方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。
2.根据权利要求1所述的基于单评判网络结构的可重构机器人零和神经最优控制方法,其特征在于,该方法包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
Figure RE-FDA0002697630700000011
上式中,u∈Rn代表控制力矩,q∈Rn表示关节位置向量,
Figure RE-FDA0002697630700000012
表示关节速度向量,
Figure RE-FDA0002697630700000013
表示关节加速度向量,M(q)∈Rn×n代表惯性矩阵,
Figure RE-FDA0002697630700000014
表示哥氏力和离心力项,G(q)∈Rn代表重力项。
在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:
Figure RE-FDA0002697630700000015
Figure RE-FDA0002697630700000016
其中,qi,
Figure RE-FDA0002697630700000017
ui,
Figure RE-FDA0002697630700000018
Mi,Ci是第i个q,
Figure RE-FDA0002697630700000019
u,G,M,C的元素向量,Mij(q)和
Figure RE-FDA00026976307000000110
表示矩阵M(q)和
Figure RE-FDA00026976307000000111
第ij个元素,
Figure RE-FDA00026976307000000112
表示交联耦合项,di(qi)是不确定干扰项。
Figure RE-FDA00026976307000000113
则(2)所示的动力学模型可以描述为如下状态空间形式:
Figure RE-FDA00026976307000000114
其中,xi是第i个子系统的状态,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。
步骤二,构建代价函数如下:
Figure RE-FDA0002697630700000021
其中,ei=xi1-xid
Figure RE-FDA0002697630700000022
分别代表第i个关节的位置和速度跟踪误差,其中Υii为确定常数。xid
Figure RE-FDA0002697630700000023
分别是第i个关节期望的位置、速度和加速度,
Figure RE-FDA0002697630700000024
为效用函数,
Figure RE-FDA0002697630700000025
Figure RE-FDA0002697630700000026
是确定的正常数矩阵。
定义哈密顿方程如下:
Figure RE-FDA0002697630700000027
其中,
Figure RE-FDA0002697630700000028
是第i个关节的期望加速度,Ji(0)=0,
Figure RE-FDA0002697630700000029
为代价函数Ji(si)的梯度。接下来,定义如下最优代价函数:
Figure RE-FDA00026976307000000210
Figure RE-FDA00026976307000000211
存在并且连续可微分可重构机器人系统的最优控制律为以及最坏干扰律为:
Figure RE-FDA00026976307000000212
Figure RE-FDA00026976307000000213
HJI方程可以改写成:
Figure RE-FDA00026976307000000214
步骤三,交联项动力学的观测:
基于线性状态扩张观测器,状态空间可以扩张为:
Figure RE-FDA00026976307000000215
其中xi3为系统的扩张状态,
Figure RE-FDA00026976307000000216
为xi3对时间的导数。线性扩展观测器的模型可以描述为:
Figure RE-FDA0002697630700000031
其中lij,j=1,2,3为观测器选择的增益参数。其中,
Figure RE-FDA0002697630700000032
ωi0>0为常数,αij,j=1,2,3选择为满足特征多项式s3i1s2i2s+αi3=(s+1)3的根,其中
Figure RE-FDA0002697630700000033
在特征多项式中可以表示为:
Figure RE-FDA0002697630700000034
其中ωi0为状态扩张观测器的带宽。
令观测误差为
Figure RE-FDA0002697630700000035
根据(13)和(14),观测误差可以定义为:
Figure RE-FDA0002697630700000036
Figure RE-FDA0002697630700000037
误差动力学可以描述为:
Figure RE-FDA0002697630700000038
其中
Figure RE-FDA0002697630700000039
αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。
步骤四,利用单层神经网络来近似代价函数
Figure RE-FDA00026976307000000310
定义如下:
Figure RE-FDA00026976307000000311
其中,Wic是理想的权值向量,
Figure RE-FDA00026976307000000312
是激活函数,εic是神经网络的逼近误差,
Figure RE-FDA00026976307000000313
的梯度通过神经网络近似为:
Figure RE-FDA00026976307000000314
其中:
Figure RE-FDA0002697630700000041
Figure RE-FDA00026976307000000413
分别代表激活函数的梯度和逼近误差。
由于理想权值Wic是未知的,所以用近似权值
Figure RE-FDA0002697630700000042
建立一个评价神经网络来估计代价函数:
Figure RE-FDA0002697630700000043
根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
Figure RE-FDA0002697630700000044
其中,eiJh是由评判网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
Figure RE-FDA0002697630700000045
定义误差方程为:
Figure RE-FDA0002697630700000046
权值估计误差定义为:
Figure RE-FDA0002697630700000047
训练和调整评价网络的权值信息,采用目标函数
Figure RE-FDA0002697630700000048
它可以被
Figure RE-FDA0002697630700000049
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure RE-FDA00026976307000000410
其中,αi表示评价神经网络的学习速率。
评价神经网络的动态误差如下所示:
Figure RE-FDA00026976307000000411
其中,υi定义为:
Figure RE-FDA00026976307000000412
结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:
Figure RE-FDA0002697630700000051
Figure RE-FDA0002697630700000052
在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似零和神经最优控制律
Figure RE-FDA0002697630700000053
和最坏干扰律
Figure RE-FDA0002697630700000054
如下所示:
Figure RE-FDA0002697630700000055
Figure RE-FDA0002697630700000056
CN202010805559.7A 2020-08-12 2020-08-12 基于单评判网络的可重构机器人零和神经最优控制方法 Active CN111880412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010805559.7A CN111880412B (zh) 2020-08-12 2020-08-12 基于单评判网络的可重构机器人零和神经最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805559.7A CN111880412B (zh) 2020-08-12 2020-08-12 基于单评判网络的可重构机器人零和神经最优控制方法

Publications (2)

Publication Number Publication Date
CN111880412A true CN111880412A (zh) 2020-11-03
CN111880412B CN111880412B (zh) 2021-07-16

Family

ID=73203916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805559.7A Active CN111880412B (zh) 2020-08-12 2020-08-12 基于单评判网络的可重构机器人零和神经最优控制方法

Country Status (1)

Country Link
CN (1) CN111880412B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112965487A (zh) * 2021-02-05 2021-06-15 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人系统的非零和博弈神经-最优控制方法
CN113189879A (zh) * 2021-05-10 2021-07-30 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014047142A1 (en) * 2012-09-20 2014-03-27 Brain Corporation Spiking neuron network adaptive control apparatus and methods
CN105196294A (zh) * 2015-10-29 2015-12-30 长春工业大学 采用位置测量的可重构机械臂分散控制系统及控制方法
CN108789417A (zh) * 2018-07-30 2018-11-13 长春工业大学 基于自适应动态规划的可重构机械臂保代价分散控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN110450156A (zh) * 2019-07-30 2019-11-15 洛阳润信机械制造有限公司 多自由度机械臂系统自适应模糊控制器的优化设计方法
US20200023846A1 (en) * 2018-07-23 2020-01-23 SparkCognition, Inc. Artificial intelligence-based systems and methods for vehicle operation
CN107544261B (zh) * 2017-10-26 2020-07-24 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014047142A1 (en) * 2012-09-20 2014-03-27 Brain Corporation Spiking neuron network adaptive control apparatus and methods
CN105196294A (zh) * 2015-10-29 2015-12-30 长春工业大学 采用位置测量的可重构机械臂分散控制系统及控制方法
CN107544261B (zh) * 2017-10-26 2020-07-24 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
US20200023846A1 (en) * 2018-07-23 2020-01-23 SparkCognition, Inc. Artificial intelligence-based systems and methods for vehicle operation
CN108789417A (zh) * 2018-07-30 2018-11-13 长春工业大学 基于自适应动态规划的可重构机械臂保代价分散控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN110450156A (zh) * 2019-07-30 2019-11-15 洛阳润信机械制造有限公司 多自由度机械臂系统自适应模糊控制器的优化设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIANJIAO AN等: "Critic Only Policy Iteration-based Zero-sum Neuro-optimal Control of Modular and Reconfigurable Robots with uncertain disturbance via Adaptive Dynamic Programming", 《2020 12TH INTERNATIONAL CONFERENCE ON ADVANCED COMPUTATIONAL INTELLIGENCE (ICACI)》 *
李元春等: "可重构机械臂分散自适应迭代学习控制", 《吉林大学学报(工学版)》 *
董博等: "动态约束下可重构模块机器人分散强化学习最优控制", 《吉林大学学报(工学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112947430B (zh) * 2021-02-03 2022-07-15 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112965487A (zh) * 2021-02-05 2021-06-15 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN112965487B (zh) * 2021-02-05 2022-06-17 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人系统的非零和博弈神经-最优控制方法
CN113189879A (zh) * 2021-05-10 2021-07-30 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111880412B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111880412B (zh) 基于单评判网络的可重构机器人零和神经最优控制方法
Djordjevic et al. Data-driven control of hydraulic servo actuator based on adaptive dynamic programming.
Li et al. A novel recurrent neural network for manipulator control with improved noise tolerance
Peng et al. Neural-learning-based force sensorless admittance control for robots with input deadzone
EP3424650B1 (en) A method and apparatus for performing control of a movement of a robot arm
CN110936382B (zh) 一种数据驱动的工业机器人能耗优化方法
CN101452258A (zh) 一种与模型无关的自适应控制器及其控制方法
Sushchenko et al. Processing of redundant information in airborne electronic systems by means of neural networks
CN109514564A (zh) 一种复合二次型多关节机械臂最优控制方法
Heidari et al. Design a PID controller for suspension system by back propagation neural network
CN106773688A (zh) 一种直接自适应控制方法及装置
Lu et al. Friction coefficient estimation in servo systems using neural dynamic programming inspired particle swarm search
CN113276114B (zh) 一种基于终端任务指派的可重构机械臂协同力/运动控制系统与方法
CN113370208A (zh) 一种可重构机械臂子系统的控制方法及系统
CN113341696A (zh) 一种运载火箭姿态控制参数智能整定方法
Chen et al. Adaptive fuzzy PD+ control for attitude maneuver of rigid spacecraft
CN108319146B (zh) 一种径向基神经网络基于离散粒子群训练的方法
Takatani et al. Neural network-based construction of inverse kinematics model for serial redundant manipulators
CN113485099B (zh) 一种非线性离散时间系统的在线学习控制方法
Anditio et al. Integrating PSO optimized LQR controller with virtual sensor for quadrotor position control
CN114186477A (zh) 一种基于Elman神经网络的轨道预测算法
Toropov Modelling and approximation strategies in optimization—global and mid-range approximations, response surface methods, genetic programming, low/high fidelity models
Huang et al. An adaptive neural sliding mode controller for MIMO systems
Xia et al. The control of two-wheeled self-balancing vehicle based on reinforcement learning in a continuous domain
Lu et al. A novel steering control for real autonomous vehicles via PI adaptive dynamic programming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant