CN108789417B - 基于自适应动态规划的可重构机械臂保代价分散控制方法 - Google Patents

基于自适应动态规划的可重构机械臂保代价分散控制方法 Download PDF

Info

Publication number
CN108789417B
CN108789417B CN201810851336.7A CN201810851336A CN108789417B CN 108789417 B CN108789417 B CN 108789417B CN 201810851336 A CN201810851336 A CN 201810851336A CN 108789417 B CN108789417 B CN 108789417B
Authority
CN
China
Prior art keywords
mechanical arm
reconfigurable
joint
reconfigurable mechanical
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810851336.7A
Other languages
English (en)
Other versions
CN108789417A (zh
Inventor
董博
安毅
周帆
靳伟宁
安天骄
刘富
刘克平
李元春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN201810851336.7A priority Critical patent/CN108789417B/zh
Publication of CN108789417A publication Critical patent/CN108789417A/zh
Application granted granted Critical
Publication of CN108789417B publication Critical patent/CN108789417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

基于自适应动态规划的可重构机械臂最优保代价分散控制方法,属于机器人控制系统及控制算法领域,为了解决传统的可重构机械臂控制方法中关节耦合的交联项对系统整体控制干扰、可重构机械臂重构及控制过程中能耗问题、电机实际工作过程中不确定性允许范围问题,该方法构建可重构机械臂子系统的动力学模型,并且用可重构机械臂惯性项、哥氏力和离心力项、重力项将各个关节之间的耦合交联项单独表示出来,构建性能指标函数和HJB方程,通过基于ADP策略迭代的方法求解HJB方程,运用神经网络补偿关节之间的耦合交联不确定项,最后通过不同构形二自由度的机械臂数值仿真验证了算法的有效性;实现了可重构机械臂的高精度控制。

Description

基于自适应动态规划的可重构机械臂保代价分散控制方法
技术领域
本发明涉及一种基于自适应动态规划的可重构机械臂的最优保代价分散控制方法,属于机器人控制系统及控制算法领域。
背景技术
相比于传统类型的机械臂,可重构机械臂是一类可以根据不同的任务需求来重新组合、配置自身的构形,并且具有标准的模块、接口的一种新型机械臂。每个模块可以按照给定的任务需求单独或者协同组合更有效、有目的的执行工作,有很高程度的自动组装性、灵活应变性及环境适应性。基于现代制造业高开放性和易移植性的要求,可重构机械臂在工业生产、探测探险、精密制造、国防航天、高温强压等领域内有广泛的应用潜力。从长远角度看,可重构机械臂的出现节约了传统机械臂的生产成本与时间,提高了生产和工作效率。然而,目前可重构机械臂兼顾控制精度与功耗问题亟待研究。
传统机械臂的动力学模型可以根据各关节参数信息建立,对于可重构机械臂来说,控制目标不同和机械臂构形组装前后动力学模型的改变导致了全局动力学模型信息未知,仅能获取部分子系统动力学模型信息,故控制系统结构变得更加复杂。传统的集中控制过程中需要消耗大量的运算资源,并有“牵一发而动全身”的缺点,即当机械臂系统结构较复杂时,控制器的稳定性与可靠性难以保证,分散控制方法克服此类缺点,可重构机械臂可以通过关节协作组成不同构形来完成复杂的工作任务,即在已知每个关节的局部信息的基础上构建控制器,使各关节模块在不同任务需求下重组成不同构形时无需调整控制器的参数信息,且在某一子系统控制器出现故障时也不影响其他子系统控制器及整个控制器的正常工作运转。
自适应动态规划(Adaptive Dynamic Programming,简称ADP)是一种模拟人脑智能的学习方法,它基于强化学习的思想来模拟人与环境交互学习的过程,产生于多学科交叉,其核心思想是构建评判网络和执行网络分别对代价函数和控制策略进行逼近,利用Bellman最优原理,实现系统的在线学习和最优控制,避免求解Hamilton-Jacobi-Bellman(HJB)方程中“维数灾”问题。
多年以来,诸多学者对自适应动态规划(ADP)、可重构机械臂、分散控制、保代价控制方面有诸多的研究,并取得了显著的理论成果与实践应用。在可重构机械臂实现最优分散控制的同时,机械臂构形重组前后动力学模型的不确定性和关节间的耦合的交联项的存在对系统整体的控制有着至关重要的影响。在2017届中国控制会议上,王梓旭等人发表了基于自适应动态规划的可重构机械臂分散控制的研究论文中,运用ADP学习算法和分散控制的思想处理了这类问题,使可重构机械臂控制过程达到最优化,并通过神经网络学习出机械臂随着控制目标变化其构形重构后的动力学模型,处理了关节间耦合交联项等问题,但没有考虑可重构机械臂重构过及控制过程中能耗问题和电机实际工作过程中不确定性允许范围的问题。
发明内容
本发明为了解决传统的可重构机械臂控制方法中关节耦合的交联项对系统整体控制干扰、可重构机械臂重构及控制过程中能耗问题、电机实际工作过程中不确定性允许范围问题,提出一种基于自适应动态规划的可重构机械臂最优保代价分散控制方法。
本发明解决技术问题的方案是:
基于自适应动态规划的可重构机械臂的最优保代价分散控制方法,该方法为:构建可重构机械臂子系统的动力学模型,并且用可重构机械臂惯性项、哥氏力和离心力项、重力项将各个关节之间的耦合交联项单独表示出来,构建性能指标函数和HJB方程,通过基于ADP策略迭代的方法求解HJB方程,运用神经网络补偿关节之间的耦合交联不确定项,最后通过不同构形二自由度的机械臂数值仿真验证了算法的有效性。
基于自适应动态规划的可重构机械臂的最优保代价分散控制方法,该方法包括如下步骤;
步骤一,模型的建立与关节子系统间的耦合力矩交联项分析;
Figure BDA0001747578790000021
Figure BDA0001747578790000022
上式中,下标i代表第i个模块,qi
Figure BDA0001747578790000023
Figure BDA0001747578790000024
为实际关节位置、速度和加速度,Mi(qi)、
Figure BDA0001747578790000025
和Gi(qi)分别为机械臂的惯性项、哥氏力和离心力项、重力项,Mij(qi),
Figure BDA0001747578790000026
表示可重构机械臂所有子系统惯性项、哥氏力和离心力项、重力项的集合,Mii(qi)、
Figure BDA0001747578790000027
分别表示可重构机械臂第ii个子系统惯性项、哥氏力和离心力项,
Figure BDA0001747578790000028
是关节子系统间的耦合力矩交联项,ui是电机输出转矩;
定义系统的状态向量
Figure BDA0001747578790000029
xi1,xi2是状态变量的分量,
Figure BDA00017475787900000210
Figure BDA00017475787900000211
是xi1关于时间的一阶导数;
则可重构机械臂子系统的动力学模型的状态空间的形式可以表示为:
Figure BDA0001747578790000031
上式中,
Figure BDA0001747578790000032
Figure BDA0001747578790000033
都是非线性局部Lipschitz连续函数;
步骤二,根据步骤一建立的可重构机械臂子系统的动力学模型的状态空间方程,建立性能指标函数如下:
Figure BDA0001747578790000034
其中,
Figure BDA0001747578790000035
是效用函数,
Figure BDA0001747578790000036
其中
Figure BDA0001747578790000037
Figure BDA0001747578790000038
是确定的正常数矩阵,
Figure BDA0001747578790000039
为关节速度变量误差,其中
Figure BDA00017475787900000310
是期望的关节速度变量,
Figure BDA00017475787900000311
为已知的上界函数,
Figure BDA00017475787900000312
其中
Figure BDA00017475787900000313
Figure BDA00017475787900000314
都是已知的有界函数,
Figure BDA00017475787900000315
是性能指标对速度误差的一阶导数,表示性能指标函数的梯度;
将公式(6)描述为哈密顿雅可比贝尔曼(HJB)方程如下:
Figure BDA00017475787900000316
最优性能指标函数
Figure BDA00017475787900000317
满足:
Figure BDA00017475787900000318
则满足(8)式的最优控制律如下表示:
Figure BDA00017475787900000319
处理式(5)中的
Figure BDA00017475787900000320
闭环的HJB方程(7)改写成:
Figure BDA00017475787900000321
利用第i个关节模块的局部动态信息设计ui,在分散最优控制的律的问题下,
Figure BDA00017475787900000322
是一个处理可重构机械臂系统的不确定项的最优补偿控制律;
步骤三,采用理想的评判神经网络来近似代价函数
Figure BDA00017475787900000323
对包含模型的不确定项进行补偿,定义如下:
Figure BDA0001747578790000041
其中,Wi是理想的权值向量,
Figure BDA0001747578790000042
是激活函数,εic是神经网络的逼近误差,
Figure BDA0001747578790000043
的梯度通过神经网络近似为:
Figure BDA0001747578790000044
其中,
Figure BDA0001747578790000045
和▽εic分别是
Figure BDA0001747578790000046
和εic关于时间的导数;
HJB方程可以被描述为以下形式:
Figure BDA0001747578790000047
Figure BDA0001747578790000048
Figure BDA0001747578790000049
其中
Figure BDA00017475787900000410
是ei关于时间的二阶导数,理想权值Wi是未知的,用近似权值
Figure BDA00017475787900000411
去建立一个评价神经网络去估计性能指标函数,相应的HJB方程可以写成如下形式:
Figure BDA00017475787900000412
Figure BDA00017475787900000413
其中,
Figure BDA00017475787900000414
Figure BDA00017475787900000415
的估测值,eic为神经网络近似HJB方程前后的残差,为了训练和调整评价网络的权值信息,采用目标函数
Figure BDA00017475787900000416
Figure BDA00017475787900000417
它可以被
Figure BDA00017475787900000418
训练来取到最小值,神经权值可以通过下式进行更新:
Figure BDA00017475787900000419
其中,αi是神经网络的更新学习率,我们定义权值误差
Figure BDA00017475787900000420
可以得到由神经网络逼近误差而得到的残差eic
Figure BDA00017475787900000421
权重误差
Figure BDA00017475787900000422
的更新率如下式所示
Figure BDA00017475787900000423
理想的控制策略可以被描述为
Figure BDA00017475787900000424
步骤四,通过步骤一、步骤二及步骤三中给出的可重构机械臂子系统动力学模型、性能指标函数、最优保代价分散控制器,及理想的评判神经网络近似后的代价函数对包含模型的不确定项进行补偿,使可重构机械臂关节实际轨迹精确地跟踪期望轨迹;如果迭代中前后两次性指标数差值
Figure BDA0001747578790000051
其中ε是一个正常数,此时步骤三中迭代出的控制律为所求的最优控制律
Figure BDA0001747578790000052
否则判断系统是否达到最大运行时间,若是,则输出控制律
Figure BDA0001747578790000053
并结束,否则进入循环步骤一。
本发明的有益效果如下:
1、本发明所述的可重构机械臂,具有质量体积小、高自组性、低能耗、高负载等优点。
2、本发明运用基于自适应动态规划的学习方法及分散策略处理模型耦合关联不确定项,使可重构机械臂关节控制器的设计仅要求当前关节的动力学信息已知即可,从而避免了多自由度可重构机械臂控制系统的复杂性问题,实现了可重构机械臂的高精度控制,降低了传统机械臂的能耗成本,提高了生产和工作效率。
3、本发明采用保代价的控制策略,在很好的解决关节耦合交联不确定项的同时,还考虑了可重构机械臂关节能耗有界问题,及电动机在工作过程中由于电压电流不稳定造成的小范围不确定问题,例如未知负载、可重构机械臂关节间转轴中心偏差角度、编码器和速度计的测量不精确性和噪音、可重构机械臂转动时关节间摩擦力影响。实际应用中,体现着系统的安全性和可靠性。
附图说明
图1为本发明基于自适应动态规划的可重构机械臂的保代价分散控制方法原理图。
图2为本发明基于自适应动态规划的可重构机械臂的保代价分散控制方法流程图。
图3为本发明仿真实验中构形一关节一位置跟踪曲线图。
图4为本发明仿真实验中构形一关节二位置跟踪曲线图。
图5为本发明仿真实验中构形一关节速度跟踪曲线图。
图6为本发明仿真实验中构形一关节位置速度跟踪误差曲线图。
图7为本发明仿真实验中构形一神经网络学习权值曲线图。
图8为本发明仿真实验中构形二关节一位置跟踪曲线图。
图9为本发明仿真实验中构形二关节二位置跟踪曲线图。
图10为本发明仿真实验中构形二关节速度跟踪曲线图。
图11为本发明仿真实验中构形二关节位置速度跟踪误差曲线图。
图12为本发明仿真实验中构形二神经网络学习权值曲线图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,基于自适应动态规划的可重构机械臂的保代价分散控制方法原理图,其中可重构机械臂关节位置变量qi由增量式编码器实时测得,结合系统期望动力学信息中期望关节位置变量qid、期望关节速度变量
Figure BDA0001747578790000061
期望关节加速度变量
Figure BDA0001747578790000062
利用设计出的保代价控制器得出控制策略ui,控制策略作用于系统的动力学模型,输出关节位置变量qi反馈到增量式编码器中来构成一个可控的闭环系统,对系统偏差进行实时调节,直到误差精度达到要求为止。
如图2所示,基于自适应动态规划的可重构机械臂的保代价分散控制方法流程图,改方法步骤如下:
1、构建可重构机械臂子系统的动力学模型,检测增量式编码器读数,得到位置测量信息,并且用机械臂惯性项、哥氏力和离心力项、重力项将各个关节之间的耦合交联项单独表示出来;
考虑n自由度模块化可重构机械臂动力学模型如下:
Figure BDA0001747578790000063
上式中q,
Figure BDA0001747578790000064
Figure BDA0001747578790000065
为实际关节位置、速度和加速度,M(q)∈Rn×n代表惯性矩阵项,
Figure BDA0001747578790000066
代表哥氏力和离心力项,G(q)∈Rn代表重力项,u是关节电机输出转矩。
将模型(1)分解为
Figure BDA0001747578790000067
上式中qj,
Figure BDA0001747578790000068
Figure BDA0001747578790000069
分别是q,
Figure BDA00017475787900000610
Figure BDA00017475787900000611
的第j个分量,代表着第j个模块关节的实际关节位置、速度和加速度,Mij(qi)和
Figure BDA00017475787900000612
是M(q)和
Figure BDA00017475787900000613
的第ij个分量,
Figure BDA00017475787900000614
和ui是G(q)和u第i个分量。
建立可重构机械臂关节子系统的动力学模型如下:
Figure BDA00017475787900000615
Figure BDA0001747578790000071
上式中,下标i代表第i个模块,qi
Figure BDA0001747578790000072
Figure BDA0001747578790000073
为第i个实际关节位置、速度和加速度,Mi(qi)、
Figure BDA0001747578790000074
和Gi(qi)分别为机械臂的惯性项、哥氏力和离心力项、重力项,Mij(qi),
Figure BDA0001747578790000075
表示可重构机械臂所有子系统惯性项、哥氏力和离心力项、重力项的集合,Mii(qi)、
Figure BDA0001747578790000076
分别表示可重构机械臂第ii个子系统惯性项、哥氏力和离心力项,
Figure BDA0001747578790000077
是关节子系统间的耦合力矩交联项,ui是电机输出转矩。
定义系统的状态向量
Figure BDA0001747578790000078
xi1,xi2是状态变量的分量,
Figure BDA0001747578790000079
Figure BDA00017475787900000710
是xi1关于时间的一阶导数。
则可重构机械臂子系统的动力学模型的状态空间的形式可以表示为:
Figure BDA00017475787900000711
上式中,
Figure BDA00017475787900000712
fi(xi)、gi(xi)和
Figure BDA00017475787900000713
分别是非线性局部Lipschitz连续函数,
Figure BDA00017475787900000714
是模型不确定耦合交联项,并且
Figure BDA00017475787900000715
Figure BDA00017475787900000716
2、根据建立的可重构机械臂子系统的动力学模型的状态空间方程,建立性能指标函数;
首先建立性能指标函数方程:
Figure BDA00017475787900000717
其中,
Figure BDA00017475787900000718
是效用函数,
Figure BDA00017475787900000719
其中
Figure BDA00017475787900000720
Figure BDA00017475787900000721
是确定的正常数矩阵,
Figure BDA00017475787900000722
为关节速度变量误差,其中
Figure BDA00017475787900000723
是期望的关节速度变量,
Figure BDA00017475787900000724
为已知的上界函数,
Figure BDA00017475787900000725
其中
Figure BDA00017475787900000726
Figure BDA00017475787900000727
都是已知的有界函数,
Figure BDA00017475787900000728
是性能指标对速度误差的一阶导数,表示性能指标函数的梯度。
假设1:可重构机械臂交联耦合系统中,关节期望位置变量,关节期望速度变量,关节期望加速度变量都是已知有界的。
假设2:存在一个性能指标函数
Figure BDA0001747578790000081
和一个已知有界函数
Figure BDA0001747578790000082
使得
Figure BDA0001747578790000083
定义哈密顿雅可比贝尔曼(HJB)方程如下:
Figure BDA0001747578790000084
在这里,最优性能指标函数
Figure BDA0001747578790000085
满足
Figure BDA0001747578790000086
可得最优控制律为
Figure BDA0001747578790000087
利用第i个关节模块的局部动态信息设计ui,在分散最优控制的律的问题下,
Figure BDA0001747578790000088
是一个处理可重构机械臂系统的不确定项的最优补偿控制律。
闭环系统的HJB方程可以改写成:
Figure BDA0001747578790000089
3、基于策略迭代的学习算法;
通过基于策略迭代的学习算法,来求解HJB方程的解,具体方法:
步骤1:参数初始化,选择一个很小的正常数ε,定义最大迭代时间T,选择j为迭代次数,使j=0开始迭代,J(0)=0,从初始控制策略
Figure BDA00017475787900000810
开始;让δ=0,从初始控制策略
Figure BDA00017475787900000811
开始,选择一个很小的正常数ε;
步骤2:基于控制策略
Figure BDA00017475787900000812
根据
Figure BDA00017475787900000813
Figure BDA00017475787900000814
求解
Figure BDA00017475787900000815
步骤3:控制策略由
Figure BDA00017475787900000816
更新;
步骤4:如果j>0且
Figure BDA00017475787900000817
则停止运算,输出最优控制律
Figure BDA00017475787900000818
否则j=j+1,然后返回到步骤2。如果迭代时间超过最大T,对数据进行存储,输出控制律
Figure BDA00017475787900000819
并结束,结果可采用word,excel或图表形式保存。
根据以上的迭代方法,我们可以得到控制系统的最优控制律
Figure BDA0001747578790000091
使系统的实际运动轨迹跟随期望运动轨迹。
4、采用理想的评判神经网络来近似代价函数
Figure BDA0001747578790000092
对包含模型的不确定项进行补偿,并基于ADP的学习算法的实现;
采用理想的评判神经网络来近似代价函数
Figure BDA0001747578790000093
定义如下:
Figure BDA0001747578790000094
Wi是理想的权值向量,
Figure BDA0001747578790000095
是激活函数,εic是神经网络的逼近误差,
Figure BDA0001747578790000096
的梯度通过神经网络近似为:
Figure BDA0001747578790000097
其中,
Figure BDA0001747578790000098
Figure BDA00017475787900000923
分别是
Figure BDA0001747578790000099
和εic关于时间的导数。
通过(7)(8)和(12),可知
Figure BDA00017475787900000910
HJB方程可以被描述为以下形式
Figure BDA00017475787900000911
Figure BDA00017475787900000912
Figure BDA00017475787900000913
其中,
Figure BDA00017475787900000914
是ei关于时间的二阶导数。理想权值Wi是未知的,用近似权值
Figure BDA00017475787900000915
去建立一个评价神经网络去估计性能指标函数,相应的HJB方程如下:
Figure BDA00017475787900000916
Figure BDA00017475787900000917
上式中,
Figure BDA00017475787900000918
Figure BDA00017475787900000919
的估测值,eic为神经网络近似HJB方程前后的残差,为了训练和调整评价网络的权值信息,采用目标函数
Figure BDA00017475787900000920
Figure BDA00017475787900000921
它可以被
Figure BDA00017475787900000922
训练来取到最小值,神经权值可以通过下式进行更新:
Figure BDA0001747578790000101
其中,αi是神经网络的更新学习率,我们定义权值误差
Figure BDA0001747578790000102
根据(14)和(15)可以得到由神经网络逼近误差而得到的残差eic
Figure BDA0001747578790000103
权重误差
Figure BDA0001747578790000104
的更新率如下式所示
Figure BDA0001747578790000105
理想的控制策略可以被描述为
Figure BDA0001747578790000106
理想的控制策略近似描述为
Figure BDA0001747578790000107
5、仿真验证;
选取两种不同构形的二自由度可重构机械臂模型进行仿真实验来验证基于自适应动态规划的可重构机械臂保代价分散最优控制方法的有效性。
首先给出两种不同构形的动力学方程的参数,如下所示:
Figure BDA0001747578790000108
Figure BDA0001747578790000109
Figure BDA00017475787900001010
Figure BDA00017475787900001011
Figure BDA00017475787900001012
Figure BDA00017475787900001013
系统输入控制力矩u=[u1,u2]T,并且可重构机械臂构形一和可重构机械臂构形二两个关节的期望轨迹为xa1d和xa2d,xb1d和xb2d,如下所示。我们定义实际关节的位置变量和速度变量是
Figure BDA0001747578790000111
xa1d=0.4sin(0.3t)-0.1cos(0.5t)
xa2d=0.3cos(0.6t)+0.6sin(0.2t)
xb1d=0.2cos(0.5t)+0.25sin(0.4t)
xb2d=0.3cos(0.2t)-0.4sin(0.6t)
神经网络权值定义为
Figure BDA0001747578790000112
Figure BDA0001747578790000113
初始值为
Figure BDA0001747578790000114
激活函数表示每个关节间耦合误差项,选为
Figure BDA0001747578790000115
e1和e2分别为关节一和关节二的位置误差,e3和e4分别为关节一和关节二的速度误差。对于选取的可重构机械臂动力学相关参数,我们选定保代价各项为d=[d1,d2]T,D=[D1,D2],d1=[0.5q1sin(0.3t),0]T,d2=[0,0.3q2sin(0.3t)]T,D1(x)=[1,0]T,D2(x)=[0,1]T
机械臂构型一的仿真结果如图3-7所示,图3和图4是机械臂构形一的关节一和关节二的轨迹跟踪曲线,虚线代表可重构机械臂实际运行轨迹,实线代表可重构机械臂给定期望轨迹。由图像可知,关节一的实际运行轨迹跟踪上给定期望轨迹大约是在系统启动后15s左右,关节二的实际轨迹跟踪上给定期望轨迹大约是在系统启动后10s左右,起始不能很好跟踪给定曲线是因为神经网络训练学习的过程中要耗费一定的时间。图5是机械臂构形一中关节一和关节二速度跟踪曲线,可见在很短的时间内实际速度运行曲线可以跟踪上给定期望速度轨迹。可以从跟踪误差曲线图6看出可重构机械臂构形一的跟踪性能。图7是神经网络的权值曲线,可见两组权值分别收敛于[34.4479,44.4479,40.4814,20.4814,36.2297]T和[46.2297,48.9450,39.3436,49.3436,54.9544]T。因此,仿真后的曲线更好的说明了提出算法的有效性。
机械臂构形二的仿真结果如图8-12所示,图8和图9是机械臂构形二的关节一和关节二的轨迹跟踪曲线,虚线代表可重构机械臂实际运行轨迹,实线代表可重构机械臂给定期望轨迹。由图像可知,关节一的实际运行轨迹跟踪上给定期望轨迹大约是在系统启动后25s左右,关节二的实际轨迹跟踪上给定期望轨迹大约是在系统启动后15s左右,那不能很好跟踪给定曲线是因为神经网络训练学习的过程中要耗费一定的时间。图10是机械臂构形二中关节一和关节二速度跟踪曲线,可见在很短的时间内实际速度运行曲线可以跟踪上给定期望速度轨迹。可以从跟踪误差曲线图11看出可重构机械臂构形二的跟踪性能。图12是神经网络权值曲线,可见两组权值分别收敛于[25.7156,35.7156,20.7921,0.7921,36.3169]T和[46.3169,18.8008,44.5914,54.5914,38.0084]T,因此,仿真后的曲线更好的说明了提出算法的有效性。

Claims (1)

1.基于自适应动态规划的可重构机械臂的最优保代价分散控制方法,其特征是,该方法为:构建可重构机械臂子系统的动力学模型,并且用可重构机械臂惯性项、哥氏力和离心力项、重力项将各个关节之间的耦合交联项单独表示出来,构建性能指标函数和HJB方程,通过基于ADP策略迭代的方法求解HJB方程,运用神经网络补偿关节之间的耦合交联不确定项,最后通过不同构形二自由度的机械臂数值仿真验证了算法的有效性;
该方法具体步骤如下:
步骤一,模型的建立与关节子系统间的耦合力矩交联项分析;
Figure FDA0002988744810000011
Figure FDA0002988744810000012
上式中,下标i代表第i个模块,qi
Figure FDA0002988744810000013
Figure FDA0002988744810000014
为实际关节位置、速度和加速度,Mi(qi)、
Figure FDA0002988744810000015
和Gi(qi)分别为机械臂的惯性项、哥氏力和离心力项、重力项,Mij(qi),
Figure FDA0002988744810000016
Figure FDA0002988744810000017
表示可重构机械臂所有子系统惯性项、哥氏力和离心力项、重力项的集合,Mii(qi)、
Figure FDA0002988744810000018
分别表示可重构机械臂第ii个子系统惯性项、哥氏力和离心力项,
Figure FDA0002988744810000019
是关节子系统间的耦合力矩交联项,ui是电机输出转矩;
定义系统的状态向量
Figure FDA00029887448100000110
xi1,xi2是状态变量的分量,
Figure FDA00029887448100000111
Figure FDA00029887448100000112
是xi1关于时间的一阶导数;
则可重构机械臂子系统的动力学模型的状态空间的形式表示为:
Figure FDA00029887448100000113
上式中,
Figure FDA00029887448100000114
都是非线性局部Lipschitz连续函数;
步骤二,根据步骤一建立的可重构机械臂子系统的动力学模型的状态空间方程,建立性能指标函数如下:
Figure FDA0002988744810000021
其中,
Figure FDA0002988744810000022
是效用函数,
Figure FDA0002988744810000023
其中
Figure FDA0002988744810000024
Figure FDA0002988744810000025
是确定的正常数矩阵,
Figure FDA0002988744810000026
为关节速度变量误差,其中
Figure FDA0002988744810000027
是期望的关节速度变量,
Figure FDA0002988744810000028
为已知的上界函数,
Figure FDA0002988744810000029
其中
Figure FDA00029887448100000210
Figure FDA00029887448100000211
都是已知的有界函数,
Figure FDA00029887448100000212
是性能指标对速度误差的一阶导数,表示性能指标函数的梯度;
将公式(6)描述为哈密顿雅可比贝尔曼(HJB)方程如下:
Figure FDA00029887448100000213
最优性能指标函数
Figure FDA00029887448100000214
满足:
Figure FDA00029887448100000215
则满足(8)式的最优控制律如下表示:
Figure FDA00029887448100000216
处理式(5)中的
Figure FDA00029887448100000217
闭环的HJB方程(7)改写成:
Figure FDA00029887448100000218
利用第i个关节模块的局部动态信息设计ui,在分散最优控制的律的问题下,
Figure FDA00029887448100000224
是一个处理可重构机械臂系统的不确定项的最优补偿控制律;
步骤三,采用理想的评判神经网络来近似代价函数
Figure FDA00029887448100000219
对包含模型的不确定项进行补偿,定义如下:
Figure FDA00029887448100000220
其中,Wi是理想的权值向量,
Figure FDA00029887448100000221
是激活函数,εic是神经网络的逼近误差,
Figure FDA00029887448100000222
的梯度通过神经网络近似为:
Figure FDA00029887448100000223
其中,
Figure FDA0002988744810000031
Figure FDA0002988744810000032
分别是
Figure FDA0002988744810000033
和εic关于时间的导数;
HJB方程被描述为以下形式:
Figure FDA0002988744810000034
Figure FDA0002988744810000035
Figure FDA0002988744810000036
其中
Figure FDA0002988744810000037
是ei关于时间的二阶导数,理想权值Wi是未知的,用近似权值
Figure FDA0002988744810000038
去建立一个评价神经网络去估计性能指标函数,相应的HJB方程写成如下形式:
Figure FDA0002988744810000039
Figure FDA00029887448100000310
其中,
Figure FDA00029887448100000311
Figure FDA00029887448100000312
的估测值,eic为神经网络近似HJB方程前后的残差,为了训练和调整评价网络的权值信息,采用目标函数
Figure FDA00029887448100000313
Figure FDA00029887448100000314
它可以被
Figure FDA00029887448100000315
训练来取到最小值,神经权值通过下式进行更新:
Figure FDA00029887448100000316
其中,αi是神经网络的更新学习率,我们定义权值误差
Figure FDA00029887448100000317
可以得到由神经网络逼近误差而得到的残差eic为:
Figure FDA00029887448100000318
权重误差
Figure FDA00029887448100000319
的更新率如下式所示
Figure FDA00029887448100000320
理想的控制策略被描述为
Figure FDA00029887448100000321
步骤四,通过步骤一、步骤二及步骤三中给出的可重构机械臂子系统动力学模型、性能指标函数、最优保代价分散控制器,及理想的评判神经网络近似后的代价函数对包含模型的不确定项进行补偿,使可重构机械臂关节实际轨迹精确地跟踪期望轨迹;如果迭代中前后两次性指标数差值
Figure FDA0002988744810000041
其中ε是一个正常数,此时步骤三中迭代出的控制律为所求的最优控制律
Figure FDA0002988744810000042
否则判断系统是否达到最大运行时间,若是,则输出控制律
Figure FDA0002988744810000043
并结束,否则进入循环步骤一。
CN201810851336.7A 2018-07-30 2018-07-30 基于自适应动态规划的可重构机械臂保代价分散控制方法 Active CN108789417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810851336.7A CN108789417B (zh) 2018-07-30 2018-07-30 基于自适应动态规划的可重构机械臂保代价分散控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810851336.7A CN108789417B (zh) 2018-07-30 2018-07-30 基于自适应动态规划的可重构机械臂保代价分散控制方法

Publications (2)

Publication Number Publication Date
CN108789417A CN108789417A (zh) 2018-11-13
CN108789417B true CN108789417B (zh) 2021-06-22

Family

ID=64078612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810851336.7A Active CN108789417B (zh) 2018-07-30 2018-07-30 基于自适应动态规划的可重构机械臂保代价分散控制方法

Country Status (1)

Country Link
CN (1) CN108789417B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240092B (zh) * 2018-11-30 2021-09-10 长春工业大学 基于多智能体可重构模块化柔性机械臂轨迹跟踪控制方法
CN110170992B (zh) * 2019-04-02 2022-11-04 长春工业大学 一种基于动态规划的模块化机械臂多故障容错控制方法
CN110107231B (zh) * 2019-06-06 2024-03-29 吉林大学 一种自适应神经网络自动猫道及其控制方法
CN110821683B (zh) * 2019-11-20 2021-07-06 大连理工大学 一种航空发动机在最优加速跟踪控制中的自适应动态规划方法
CN111665820B (zh) * 2020-06-08 2021-11-23 杭州电子科技大学 工业互联系统的分散式故障检测与容错控制方法
CN111730594A (zh) * 2020-06-11 2020-10-02 长春工业大学 一种模块化机器人面向外部碰撞的分散控制方法及系统
CN111890363B (zh) * 2020-07-27 2022-12-30 四川大学 一种基于快速自适应梯度神经网络算法的机械臂运动规划方法
CN111965976B (zh) * 2020-08-06 2021-04-23 北京科技大学 基于神经网络观测器的机器人关节滑模控制方法及系统
CN111880412B (zh) * 2020-08-12 2021-07-16 长春工业大学 基于单评判网络的可重构机器人零和神经最优控制方法
CN114488783B (zh) * 2020-10-23 2023-12-22 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN112743541B (zh) * 2020-12-21 2022-03-04 南京埃斯顿自动化股份有限公司 一种无力/力矩传感器机械臂软浮动控制方法
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人系统的非零和博弈神经-最优控制方法
CN113276114B (zh) * 2021-05-20 2022-09-16 北京师范大学 一种基于终端任务指派的可重构机械臂协同力/运动控制系统与方法
CN113733117B (zh) * 2021-09-09 2023-09-08 长春工业大学 一种可重构机器人人类意图辨识控制方法及装置
CN113650020A (zh) * 2021-09-15 2021-11-16 山东交通学院 一种机械臂系统有限时间自适应镇定控制方法和系统
CN114063452A (zh) * 2021-10-21 2022-02-18 北京工业大学 一种用于污水处理最优跟踪控制的在线adhdp方法
CN114367990B (zh) * 2022-03-22 2022-06-10 北京航空航天大学 一种基于机理数据混合模型的机械臂触觉外力估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5513098A (en) * 1993-06-04 1996-04-30 The Johns Hopkins University Method for model-free control of general discrete-time systems
US6216083B1 (en) * 1998-10-22 2001-04-10 Yamaha Motor Co., Ltd. System for intelligent control of an engine based on soft computing
CN105196294A (zh) * 2015-10-29 2015-12-30 长春工业大学 采用位置测量的可重构机械臂分散控制系统及控制方法
CN105487376A (zh) * 2015-12-30 2016-04-13 南京航空航天大学 一种基于数据驱动单网络结构的最优控制方法
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108828949A (zh) * 2018-07-20 2018-11-16 南京航空航天大学 一种基于自适应动态规划的分布式最优协同容错控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5513098A (en) * 1993-06-04 1996-04-30 The Johns Hopkins University Method for model-free control of general discrete-time systems
US6216083B1 (en) * 1998-10-22 2001-04-10 Yamaha Motor Co., Ltd. System for intelligent control of an engine based on soft computing
CN105196294A (zh) * 2015-10-29 2015-12-30 长春工业大学 采用位置测量的可重构机械臂分散控制系统及控制方法
CN105487376A (zh) * 2015-12-30 2016-04-13 南京航空航天大学 一种基于数据驱动单网络结构的最优控制方法
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108828949A (zh) * 2018-07-20 2018-11-16 南京航空航天大学 一种基于自适应动态规划的分布式最优协同容错控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Decentralized guaranteed cost control of interconnected systems with uncertainties: a learning-based optimal control strategy;Wang D,et.;《Neurocomputing》;20161231;第297-306页 *
Decentralized Optimal Control for Modular and Reconfigurable Robots Based on;王梓旭;《2017 the 36th Chinese Control Conference(CCC)》;20170728;第6823-6828页 *
动态约束下可重构模块机器人分散强化学习最优控制;董博等;《吉林大学学报(工学版)》;20140930;第1375-1384页 *

Also Published As

Publication number Publication date
CN108789417A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108789417B (zh) 基于自适应动态规划的可重构机械臂保代价分散控制方法
CN108942924B (zh) 基于多层神经网络的模型不确定性机械臂运动控制方法
Su et al. Attitude control of underwater glider combined reinforcement learning with active disturbance rejection control
CN113146640B (zh) 一种考虑执行器故障的机械臂分散最优容错控制方法
CN110170992A (zh) 一种基于动态规划的模块化机械臂多故障容错控制方法
CN109176525A (zh) 一种基于rbf的移动机械手自适应控制方法
CN108508749A (zh) 一种用于抓捕非合作目标的空间机械臂系统抗干扰迭代学习控制方法
CN105773623A (zh) 基于预测型间接迭代学习的scara机器人轨迹跟踪控制方法
CN113211446B (zh) 一种事件触发-神经动态规划的机械臂分散跟踪控制方法
Shan et al. Structural error and friction compensation control of a 2 (3PUS+ S) parallel manipulator
CN113093538A (zh) 一种模块化机器人系统的非零和博弈神经-最优控制方法
CN112077839B (zh) 一种机械臂的运动控制方法及装置
CN115990888B (zh) 一种具有死区和时变约束功能的机械臂控制方法
CN113733117B (zh) 一种可重构机器人人类意图辨识控制方法及装置
Wu et al. A study on tracking error based on mechatronics model of a 5-DOF hybrid spray-painting robot
Tang et al. Tracking control of an underwater manipulator using active disturbance rejection
Nawrocka et al. Neural network control for robot manipulator
CN116141314A (zh) 基于射影几何代数的机器人动力学参数辨识方法及系统
CN113290554B (zh) 一种基于值迭代的Baxter机械臂智能优化控制方法
CN112000014B (zh) 一种操控机械臂的模型预测与反演的控制方法
CN115366132A (zh) 一种基于关节外力矩估计的机器臂事件触发式控制方法
Yang et al. Multi-degree-of-freedom joint nonlinear motion control with considering the friction effect
Olma et al. Model-based method for the accuracy analysis of Hardware-in-the-Loop test rigs for mechatronic vehicle axles
Grepl Adaptive composite control of electronic throttle using local learning method
Sima et al. Connections and Interfaces of Mechatronic Components on Digital Factory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant