CN114995137A - 基于深度强化学习的绳驱并联机器人控制方法 - Google Patents

基于深度强化学习的绳驱并联机器人控制方法 Download PDF

Info

Publication number
CN114995137A
CN114995137A CN202210617587.5A CN202210617587A CN114995137A CN 114995137 A CN114995137 A CN 114995137A CN 202210617587 A CN202210617587 A CN 202210617587A CN 114995137 A CN114995137 A CN 114995137A
Authority
CN
China
Prior art keywords
rope
reinforcement learning
parallel robot
driven parallel
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210617587.5A
Other languages
English (en)
Other versions
CN114995137B (zh
Inventor
吴承伟
卢彦岐
张欧阳
姚蔚然
孙光辉
吴立刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202210617587.5A priority Critical patent/CN114995137B/zh
Publication of CN114995137A publication Critical patent/CN114995137A/zh
Application granted granted Critical
Publication of CN114995137B publication Critical patent/CN114995137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

基于深度强化学习的绳驱并联机器人控制方法,属于绳驱并联机器人领域,本发明为解决现有精确动力学模型没有考虑不确定性的影响或者在运动过程中绳驱并联机器人发生了变化,控制性能低的问题。本发明方法包括以下步骤:第一步、建立绳驱并联机器人的动力学模型,将绳驱并联机器人的动力学模型描述成马尔科夫决策过程;第二步、利用Lyapunov的柔性actor‑critic强化学习算法框架获取动作控制信号ur(m),第三步、将基本控制器输出的动作控制信号ua(m)与强化学习算法框架获取动作控制信号ur(m)叠加生成绳驱并联机器人的控制信号。

Description

基于深度强化学习的绳驱并联机器人控制方法
技术领域
本发明属于绳驱并联机器人领域。
背景技术
绳驱并联机器人使用绳索来驱动末端执行器在超大工作空间进行运动,其绕线驱动装置放置在地面或者工作台上,减少了整体运动负载,可以获得更高的移动速度。同时相比于传统串联机械臂,可以减小在发生事故时对人造成的危险。正是由于绳驱并联机器人上述的优点,其被广泛地应用于生产生活的各个领域中,例如,用于体育赛事摄像的Skycam系统,可以进行3D打印的6自由度绳驱并联机器人,大型射电望远镜FAST的馈源装置以及起重机等大型货物存储搬运设备。然而使用绳索这种柔性体作为驱动装置会导致绳驱并联机器人的动力学模型中参数存在不确定性,进而导致绳驱并联机器人的控制方法设计困难,控制效果不理想。目前有学者通过高速相机(CCD)或者高精度的运动捕捉系统进行模型参数标定来提高控制精度,然而这种方法几乎完全依赖于标定设备的精度以及标定过程的操作。这种标定的方法不但过程繁琐,所用设备昂贵而且标定出来的参数并不一定准确。因此绝大多数学者选择改进控制方法去解决上述问题。但目前已有的控制方法绝大多数都是基于精确动力学模型参数的方法,所设计的控制方法需要去精确匹配模型参数。如果在设计中没有考虑不确定性的影响或者在运动过程中绳驱并联机器人发生了变化,那么控制性能将大大降低。
发明内容
针对现有精确动力学模型没有考虑不确定性的影响或者在运动过程中绳驱并联机器人发生了变化,控制性能低的问题,本发明提供一种基于深度强化学习的绳驱并联机器人控制方法。本发明方法通过强化学习算法补偿模型参数不确定性对于控制效果的负面影响并提高系统对于末端执行器质量的自适应性,实现了绳驱机器人高精度控制,灵活操作。
本发明所述基于深度强化学习的绳驱并联机器人控制方法,该方法包括以下步骤:
第一步、建立绳驱并联机器人的动力学模型:
Figure BDA0003675074080000011
其中,X(m)为m时刻绳驱并联机器人的末端执行器的状态误差向量,
Figure BDA0003675074080000012
X(m+1)为m+1时刻末端执行器的状态误差向量,
ur(m)表示m时刻深度强化学习得到的动作控制信号,
Figure BDA0003675074080000021
Figure BDA0003675074080000022
代表在状态X(m)下采取动作控制信号ur(m),状态转移到X(m+1)的概率;其中
Figure BDA0003675074080000023
代表状态空间,
Figure BDA0003675074080000024
代表动作空间,
Figure BDA0003675074080000025
代表状态转移概率;
第二步、利用Lyapunov的柔性actor-critic强化学习算法框架获取ur(m):
强化学习算法框架内建立两套深度神经网络分别用于训练估计动作价值函数
Figure BDA0003675074080000026
和估计策略函数πr(ur(m)|X(m)),两个深度神经网络的参数分别为δrr
训练完成两套深度神经网络后,通过采样最优策略
Figure BDA00036750740800000214
获取动作控制信号ur(m):
Figure BDA0003675074080000027
其中,πr表示需要去学习的策略,
Figure BDA0003675074080000028
代表所有可选择的策略,
Figure BDA0003675074080000029
基于πr分布的期望值,
Figure BDA00036750740800000210
αr表示温度系数;
γ∈[0,1)为折扣因子;
ur(m+1)表示m+1时刻深度强化学习得到的动作控制信号;
Figure BDA00036750740800000211
为动作价值函数,采用Lyapunov函数实现,表示在采取策略πr进行决策时,在状态X(m)下选取动作控制信号ur(m)后,所获得的回报的期望值;
πr(ur(m)|X(m))为策略函数,表示采取所学习到的策略πr进行决策时,在状态X(m)下选取动作控制信号ur(m)的概率;
Figure BDA00036750740800000212
为控制成本,按式
Figure BDA00036750740800000213
获取,其中Dr为正定的权重矩阵;
第三步、绳驱并联机器人的控制信号u(m)按下式获得:
u(m)=ua(m)+ur(m)
其中ua(m)是基本控制器输出动作控制信号,ur(m)是强化学习算法框架输出的动作控制信号。
优选地,状态误差向量X(m)按下式获取:
Figure BDA0003675074080000031
其中Li,i=1,2,...,2n+12为误差项,n为绳驱并联机器人驱动绳索的数量;
xp(m),yp(m),zp(m)为末端执行器的位置的离散量;
αp(m),βp(m),γp(m)为末端执行器的角度的离散量;
Figure BDA0003675074080000036
为末端执行器驱动的n根绳索长度的离散量;
d[·]是[·]的微分项,表示其变化率;
[·]e(m)和[·](m)分别上述变量的期望值与实际值。
优选地,用于估计动作价值函数
Figure BDA0003675074080000032
的深度神经网络的参数δr通过最小化贝尔曼残差来训练得到。
优选地,用于估计策略函数πr(ur(m)|X(m))的深度神经网络的参数μr通过拉格朗日乘子来训练得到。
优选地,最优策略
Figure BDA0003675074080000037
获取过程为:
基于控制成本
Figure BDA0003675074080000033
与引入的熵
Figure BDA0003675074080000034
动作价值函数可以由下式得到:
Figure BDA0003675074080000035
其中,
Figure BDA0003675074080000041
是基于X(m+1)分布的期望值,其可由下式表示:
Figure BDA0003675074080000042
等式(3)中的
Figure BDA0003675074080000043
为状态价值函数,表示从状态X(m+1)开始,采取策略πr进行决策所获得的回报的期望值,其可由下式得到:
Figure BDA0003675074080000044
其中πr(ur(m)|X(m))表示采取所学习到的策略πr进行决策时,在状态X(m)下选取ur(m)这个动作的概率。
Figure BDA0003675074080000045
由下式表示:
Figure BDA0003675074080000046
强化学习的目标就是找到一个最优策略使得Q-函数取值最小化,即如下式所示:
Figure BDA0003675074080000047
为了学习到最优策略
Figure BDA00036750740800000413
我们需要重复策略评估和策略改进两个步骤,直到训练结束。
优选地,
策略评估过程为:
通过贝尔曼回溯操作
Figure BDA0003675074080000048
在策略评估中不断重复计算包含熵
Figure BDA0003675074080000049
的Q-函数,所述Q-函数为动作价值函数,其计算方式如下:
Figure BDA00036750740800000410
其中
Figure BDA00036750740800000411
可由下式得到:
Figure BDA00036750740800000412
策略改进的过程为:
通过下式可以实现策略改进的操作:
Figure BDA0003675074080000051
其中
Figure BDA0003675074080000052
代表上一次更新的策略,
Figure BDA0003675074080000053
代表本次更新的策略,
Figure BDA0003675074080000054
代表策略
Figure BDA0003675074080000055
的动作价值函数,
Figure BDA0003675074080000056
代表KL距离,
Figure BDA0003675074080000057
表示归一化因子;
根据上述结论且引入Lyapunov函数后最优策略
Figure BDA0003675074080000059
的求解问题可以由下列带约束的优化问题表示:
Figure BDA0003675074080000058
本次选择Q-函数作为Lyapunov函数。
本发明的有益效果:
(1)本次将绳驱并联机器人的动力学模型描述成马尔科夫决策过程,首次提出了一种基于深度强化学习的绳驱并联机器人控制方法,相比于现有的控制方法,不需要精确辨识参数,就可以实现所需的控制性能,提高了系统的鲁棒性与自适应性。
(2)本次提出的深度强化学习方法通过引入Lyapunov函数,不仅可以保证训练的收敛性还可以保证闭环跟踪系统的稳定性。
(3)本次在深度强化学习的训练过程中引入基本控制器去生成大量有效的训练数据,可以有效地提高训练的成功率以及缩短训练的时间。
附图说明
图1是n根绳索控制6个自由度的绳驱并联机器人示意图;
图2是基于强化学习的控制方法原理框图;
图3是斜圆轨迹的跟踪对比图;
图4是斜8字轨迹的跟踪对比图;
图中实线EXP代表期望轨迹,双划线BU代表基本控制器作用于具有参数不确定性的实际模型的跟踪曲线,虚线RLU代表本发明所述基于强化学习的控制方法作用于具有参数不确定性的实际模型的跟踪曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一:下面结合图1和图2说明本实施方式,本实施方式所述基于深度强化学习的绳驱并联机器人控制方法,
如图1所示为n根绳索控制6个自由度的绳驱并联机器人示意图,绳驱并联机器人的末端执行器的平移向量为pe=[xp yp zp]T,旋转向量为ψe=[αp βp γp]T,因此,绳驱并联机器人的末端执行器位置运动向量为
Figure BDA0003675074080000061
根据拉格朗日方程动力学建模方法以及相关数学手段可以得到绳驱并联机器人的动力学模型如下式:
Figure BDA0003675074080000062
其中u是电机力矩为系统的输入量,x是末端执行器的位置运动向量为系统的输出量。M是正定的对称惯性矩阵,J和JT为雅可比矩阵以及其转置。Im,Fv,Fc分别为绳索绕线驱动装置的惯性矩阵,粘性摩擦矩阵,库仑摩擦矩阵。RT为从电机转角到绳索长度的传动比,
Figure BDA0003675074080000063
为科里奥利离心式矩阵,G为重力向量。
图2中xexp,
Figure BDA0003675074080000064
为轨迹规划规划得到末端执行器的期望位置,速度以及加速度向量,表示为xexp=[xpe,ype,zpepepepe]T。x,
Figure BDA0003675074080000065
为实际系统中反馈得到的末端执行器的实际位置与速度向量,表示为x=[x,y,z,α,β,γ]T。ex,
Figure BDA0003675074080000066
为末端执行位置的误差向量及其导数,
Figure BDA00036750740800000611
为绳索长度的跟踪误差向量及其导数。
Figure BDA00036750740800000613
为绳索的期望长度及其导数可以由xexp,
Figure BDA0003675074080000069
计算得到,
Figure BDA00036750740800000612
由实际系统中反馈的绳索的实际长度及其导数,相关参数计算方式如下式:
ex=xexp-x
Figure BDA0003675074080000071
Figure BDA00036750740800000710
Figure BDA0003675074080000072
xexp,
Figure BDA0003675074080000073
Figure BDA00036750740800000711
作为基本控制器的输入,输出ua。ex,
Figure BDA00036750740800000712
作为强化学习控制器的输入,输出ur。ua与ur叠加共同作用于绳驱并联机器人。绳驱并联机器人系统反馈实际的末端执行器位置与绳索长度x,
Figure BDA00036750740800000713
等式(1)所示的动力学模型考虑了非线性因素,但是忽略了参数的不确定性,因此可以将(1)中的模型视为标称模型。考虑模型参数不确定性的影响,可以将(1)中模型描述成下式:
Figure BDA0003675074080000079
其中MU,RTU,ImU,FvU,FcU,GU表示具有不确定性的参数,其主要由于参数辨识的不准确以及运动过程中的变化引起的,其可以表示为下式:
MU=(M+ΔM),RTU=(RT+ΔRT),ImU=(Im+ΔIm)
FvU=(Fv+ΔFv),FcU=(Fc+ΔFc),GU=(G+ΔG)
其中M,RT,Im,Fv,Fc,G为参数的标称值。
为了解决如(2)所示的由参数不确定性引起的问题,本发明给出如何设计基于强化学习的控制算法去解决由于参数不确定性引起的控制精度下降的问题。图2为基于强化学习的控制算法示意图,该算法的电机力矩控制信号u(m)的获得方式如下:
u(m)=ua(m)+ur(m)
其中ua(m)是基本控制器输出动作控制信号,ur(m)是强化学习算法框架输出的动作控制信号,ur是需要学习得到的控制信号。基本控制器ua(m)的引入,可以获得更加有效的训练数据,进而提高强化学习训练的成功率以及缩短训练时间。对于基本控制器ua(m),我们可以选择任意一个基于等式(1)所示的标称模型设计的控制方法,只要该方法可以保证标称模型系统稳定。
因此本发明主要给出一种强化学习算法去得到ur(m),该算法可以在存在参数不确定性的系统中具有较好的控制性能。下面详细介绍如何建立强化学习框架来学习ur(m),主要分为三个步骤。
第一步:将绳驱并联机器人的动力学模型描述成马尔可夫决策过程。
在强化学习中,智能体与环境一直相互交互,这个交互过程通常通过马尔可夫决策过程来表示,马尔科夫决策过程是强化学习中的一个基本框架。马尔可夫决策过程通常采用一个五元组进行表示:
Figure BDA0003675074080000081
其中
Figure BDA0003675074080000082
代表状态空间,
Figure BDA0003675074080000083
代表动作空间,
Figure BDA0003675074080000084
代表状态转移概率,
Figure BDA0003675074080000085
控制成本,γ∈[0,1)为折扣因子。
为了所建立的训练框架具有通用性,给出绳驱并联机器人的通用形式:n根绳索控制6个自由度的绳驱并联机器人的马尔可夫决策过程。如下式所述的误差向量X(m)被定义为马尔可夫决策过程的状态。
Figure BDA0003675074080000086
其中Li,i=1,2,…,2n+12为误差项。xp(m),yp(m),zp(m),αp(m),βp(m),γp(m)为末端执行器的位置与角度的离散量,
Figure BDA0003675074080000089
为绳索长度的离散量。d[·]是[·]的微分项,表示其变化率。[·]e(m)和[·](m)分别上述变量的期望值与实际值。
综上,马尔可夫决策过程可以描述成下式:
Figure BDA0003675074080000087
其中
Figure BDA0003675074080000088
代表在状态X(m)下采取ur(m)动作,状态转移到X(m+1)的概率。
第二步:给出基于Lyapunov的柔性actor-critic强化学习算法框架。
控制成本
Figure BDA0003675074080000091
选择如下形式:
Figure BDA0003675074080000092
其中Dr为正定的权重矩阵。
基于上式的控制成本
Figure BDA0003675074080000093
与引入的熵
Figure BDA0003675074080000094
动作价值函数(Q-函数)可以由下式得到:
Figure BDA0003675074080000095
其中πr表示需要去学习的策略,
Figure BDA0003675074080000096
表示在采取策略πr进行决策时,在状态X(m)下选取ur(m)这个动作后,所获得的回报的期望值。
Figure BDA0003675074080000097
是基于X(m+1)分布的期望值,其可由下式表示:
Figure BDA0003675074080000098
等式(3)中的
Figure BDA0003675074080000099
为状态价值函数,表示从状态X(m+1)开始,采取策略πr进行决策所获得的回报的期望值,其可由下式得到:
Figure BDA00036750740800000910
其中πr(ur(m)|X(m))表示采取所学习到的策略πr进行决策时,在状态X(m)下选取ur(m)这个动作的概率。
等式(3)通过引入熵
Figure BDA00036750740800000911
可以使控制成本最低的同时使动作空间的熵最大,可以提高训练的效率。αr为一个温度系数,代表熵
Figure BDA00036750740800000912
在Q-函数中的重要程度,熵
Figure BDA00036750740800000913
由下式表示:
Figure BDA00036750740800000914
强化学习的目标就是找到一个最优策略使得Q-函数取值最小化,即如下式所示:
Figure BDA00036750740800000915
式中
Figure BDA00036750740800000916
代表所有可选择的策略,
Figure BDA00036750740800000917
代表所学习到的最优策略。
为了学习到最优策略
Figure BDA00036750740800001016
我们需要重复两个步骤即策略评估和策略改进,直到训练结束。
(1)策略评估
通过贝尔曼回溯操作
Figure BDA0003675074080000101
可以在策略评估中不断重复计算包含熵
Figure BDA0003675074080000102
的Q-函数,其计算方式如下:
Figure BDA0003675074080000103
其中
Figure BDA0003675074080000104
可由下式得到:
Figure BDA0003675074080000105
(2)策略改进
通过下式可以实现策略改进的操作:
Figure BDA0003675074080000106
其中
Figure BDA0003675074080000107
代表上一次更新的策略,
Figure BDA0003675074080000108
代表本次更新的策略,
Figure BDA0003675074080000109
代表策略
Figure BDA00036750740800001010
的动作价值函数,
Figure BDA00036750740800001011
代表Kullback-Leibler Divergence(KL距离),
Figure BDA00036750740800001012
表示归一化因子。
因此,根据上述结论且引入Lyapunov函数后最优策略
Figure BDA00036750740800001017
的求解问题可以由下列带约束的优化问题表示:
Figure BDA00036750740800001013
其中引入Lyapunov函数可以保证闭环跟踪系统的稳定性,本次选择Q-函数作为Lyapunov函数。
第三步:建立神经网络并基于训练得到的深度神经网络为马尔可夫决策过程输出最优策略。
为解决上述优化问题,我们建立两套深度神经网络进行训练学习,其中一套深度神经网络用于估计动作价值函数
Figure BDA00036750740800001014
另一套深度神经网络用于估计策略函数
Figure BDA00036750740800001015
其中δrr分别代表两套深度神经网络的参数。下面将给出梯度更新规则,通过如表1所示的训练流程图可以得到最优的参数
Figure BDA00036750740800001018
当得到最优参数后,最优策略
Figure BDA00036750740800001114
通过两套深度神经网络可以得到。ur通过采样
Figure BDA00036750740800001115
也可以得到,那么基于强化学习的控制方法至此可以得到。
1)参数δr的更新规则
参数δr是通过最小化贝尔曼残差来训练得到,其可由下式表示:
Figure BDA0003675074080000111
式中
Figure BDA0003675074080000112
代表系统通过训练积累的数据。
δr是用于估计动作价值函数
Figure BDA0003675074080000113
的神经网络的参数;
μr是用于估计动作价值函数
Figure BDA0003675074080000114
的神经网络的参数;
Figure BDA0003675074080000115
代表参数δr的性能函数;
参数δr的梯度估计如下式所示:
Figure BDA0003675074080000116
Figure BDA0003675074080000117
代表对
Figure BDA0003675074080000118
求梯度;
Figure BDA0003675074080000119
代表对
Figure BDA00036750740800001110
求梯度;
2)参数μr的更新规则
参数μr通过一些数学技巧例如重新参数化以及采用了拉格朗日乘子,可以由下式表示:
Figure BDA00036750740800001111
式中
Figure BDA00036750740800001112
Figure BDA00036750740800001113
代表参数μr的性能函数;
参数μr的梯度估计如下式所示:
Figure BDA0003675074080000121
3)参数αr和ξ的更新规则
下面介绍在训练过程中,需要用到的参数αr和ξ的更新规则。参数αr的更新规则为不断将下式取到最大值时的αr赋给新的αr
Figure BDA0003675074080000122
式中
Figure BDA0003675074080000123
代表期望目标熵。
J(αr)代表参数αr的性能函数。
同理参数ξ的更新规则也为不断将下式取到最大值时的ξ赋给新的ξ:
Figure BDA0003675074080000124
J(ξ)代表参数ξ的性能函数。
具体实施方式二:下面结合图1至图4说明本实施方式,本实施方式给出一个具体实施例。
如图1所示为n根绳索控制6个自由度的绳驱并联机器人示意图。其中O-OXOYOZ为世界坐标系,P为末端执行器质心,平移向量pe=[xp yp zp]T为质心P在世界坐标系分别沿XYZ三轴的平移,旋转向量为ψe=[αp βp γp]T为质心P在世界坐标系绕XYZ三轴的转动,则运动向量
Figure BDA0003675074080000125
为质心P相对于世界坐标系的运动向量。
表1基于强化学习的控制算法训练流程
Figure BDA0003675074080000131
表2神经网络训练超参数
Figure BDA0003675074080000132
我们将以一个3根绳索控制3个自由度的绳驱并联机器人为例,提供一个仿真示例作为一种具体实施方式的介绍。我们选用具有期望张力补偿的增广PD控制器作为基本控制器,增广PD控制器模型如下式所示:
Figure BDA0003675074080000133
给定基本控制器中所示的相关参数如下所示:
Im为绳索绕线驱动装置的惯性矩阵,Im=diag(0.03562,0.03562,0.03562);
RT为从电机转角到绳索长度的传动比,RT=diag(0.06,0.06,0.06);
Fv为绳索绕线驱动装置的粘性摩擦矩阵,Fv=diag(0.3245,0.3211,0.3321);
Fc为绳索绕线驱动装置的库仑摩擦矩阵,Fc=diag(0.4567,0.4475,0.4532);
M是正定的对称惯性矩阵,M=diag(2,2,2);
Kp和Kd分别PD控制器的两个参数项,Kp=diag(20,20,20),Kd=diag(0.5,0.5,0.5);Texp代表绳索的期望张力值,可以通过
Figure BDA0003675074080000141
求解得到。
其中G为重力向量,G=[0,0,-2×9.8]T
Figure BDA0003675074080000142
kj,j=1,2,3代表沿每根绳索方向的单位向量,J和JT为雅可比矩阵以及其转置。
给定式(2)所示的具有参数不确定性的模型中相关参数如下所示:
MU=diag(2.3,2.3,2.3),RTU=diag(0.063222,0.0646622,0.063545)
ImU=diag(0.05362,0.05262,0.05262),FvU=diag(0.6345,0.64711,0.62511)
FcU=diag(0.938571,0.91055,0.991356)
下面介绍如何得到强化学习的输出ur(m)。
首先进行第一步,将绳驱并联机器人的动力学模型描述成马尔可夫决策过程。为了构造马尔可夫决策过程,误差向量X(m)如下所述,定义为马尔可夫决策过程的状态。
Figure BDA0003675074080000143
其中Li,i=1,2,...,2n+12为误差项。xp(m),yp(m),zp(m)为末端执行器位置的离散量,
Figure BDA0003675074080000144
为绳索长度的离散量。d[·]是[·]的微分项,表示其变化率。[·]e(m)和[·](m)分别上述变量的期望值与实际值。
综上,马尔可夫决策过程可以描述成下式:
Figure BDA0003675074080000151
其中
Figure BDA0003675074080000152
代表在状态X(m)下采取ur(m)动作,状态转移到X(m+1)的概率。
第二步:建立引入李雅普诺夫Lyapunov约束的基于actor-critic的学习算法框架。
控制成本
Figure BDA0003675074080000153
选择如下形式:
Figure BDA0003675074080000154
其中Dr=diag(25,1,25,1,25,1,25,1,25,1,25,1)为权重矩阵。
第三步,利用表2中的超参数进行深度神经网络的训练,同时在训练中会在一定范围内随机给定初始位置,以增强网络的适应性。在完成训练后选取最好的一组策略作为本次强化学习的控制策略,用以输出控制量ur(m)。
我们选取了2种具有代表性的轨迹:斜圆轨迹与斜8字轨迹进行了仿真实验,两种轨迹如下式所示:
斜圆期望轨迹:
Figure BDA0003675074080000155
斜8字期望轨迹:
Figure BDA0003675074080000156
图3和图4分别为斜圆轨迹的跟踪对比图和斜8字轨迹的跟踪对比图,其中实线代表期望轨迹,双划线BU代表基本控制器作用于具有参数不确定性的实际模型的跟踪曲线,虚线RLU代表本次提出的基于强化学习的控制方法作用于具有参数不确定性的实际模型的跟踪曲线。从图3和图4可以看出,基本控制器在模型参数不确定性的负面影响下,跟踪性能急剧下降,而本次提出的基于强化学习的控制方法可以较好地抑制参数不确定性对于跟踪效果产生的负面影响,使绳驱并联机器人系统不需要精确的辨识参数,同样可以完成较好的期望轨迹跟踪任务。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。

Claims (6)

1.基于深度强化学习的绳驱并联机器人控制方法,其特征在于,该方法包括以下步骤:
第一步、建立绳驱并联机器人的动力学模型:
Figure FDA0003675074070000011
其中,X(m)为m时刻绳驱并联机器人的末端执行器的状态误差向量,
Figure FDA0003675074070000012
X(m+1)为m+1时刻末端执行器的状态误差向量,
ur(m)表示m时刻深度强化学习得到的动作控制信号,
Figure FDA00036750740700000114
Figure FDA0003675074070000013
代表在状态X(m)下采取动作控制信号ur(m),状态转移到X(m+1)的概率;其中
Figure FDA0003675074070000015
代表状态空间,
Figure FDA0003675074070000014
代表动作空间,
Figure FDA00036750740700000113
代表状态转移概率;
第二步、利用Lyapunov的柔性actor-critic强化学习算法框架获取ur(m):
强化学习算法框架内建立两套深度神经网络分别用于训练估计动作价值函数
Figure FDA0003675074070000016
和估计策略函数πr(ur(m)|X(m)),两个深度神经网络的参数分别为δrr
训练完成两套深度神经网络后,通过采样最优策略
Figure FDA00036750740700000115
获取动作控制信号ur(m):
Figure FDA0003675074070000017
Figure FDA0003675074070000018
其中,πr表示需要去学习的策略,
Figure FDA0003675074070000019
代表所有可选择的策略,
Figure FDA00036750740700000111
基于πr分布的期望值,
Figure FDA00036750740700000110
αr表示温度系数;
γ∈[0,1)为折扣因子;
ur(m+1)表示m+1时刻深度强化学习得到的动作控制信号;
Figure FDA00036750740700000112
为动作价值函数,采用Lyapunov函数实现,表示在采取策略πr进行决策时,在状态X(m)下选取动作控制信号ur(m)后,所获得的回报的期望值;
πr(ur(m)|X(m))为策略函数,表示采取所学习到的策略πr进行决策时,在状态X(m)下选取动作控制信号ur(m)的概率;
Figure FDA0003675074070000023
为控制成本,按式
Figure FDA0003675074070000024
获取,其中Dr为正定的权重矩阵;
第三步、绳驱并联机器人的控制信号u(m)按下式获得:
u(m)=ua(m)+ur(m)
其中ua(m)是基本控制器输出动作控制信号,ur(m)是强化学习算法框架输出的动作控制信号。
2.根据权利要求1所述基于深度强化学习的绳驱并联机器人控制方法,其特征在于,状态误差向量X(m)按下式获取:
X(m)=[L1,L2,L3,L4,L5,L6,L7,L8,L9,L10,L11,L12,L13,L14,…,Li,…,L2n+11,L2n+12]T
Figure FDA0003675074070000021
其中Li,i=1,2,...,2n+12为误差项,n为绳驱并联机器人驱动绳索的数量;
xp(m),yp(m),zp(m)为末端执行器的位置的离散量;
αp(m),βp(m),γp(m)为末端执行器的角度的离散量;
Figure FDA0003675074070000025
为末端执行器驱动的n根绳索长度的离散量;
d[·]是[·]的微分项,表示其变化率;
[·]e(m)和[·](m)分别上述变量的期望值与实际值。
3.根据权利要求1所述基于深度强化学习的绳驱并联机器人控制方法,其特征在于,用于估计动作价值函数
Figure FDA0003675074070000022
的深度神经网络的参数δr通过最小化贝尔曼残差来训练得到。
4.根据权利要求1所述基于深度强化学习的绳驱并联机器人控制方法,其特征在于,用于估计策略函数πr(ur(m)|X(m))的深度神经网络的参数μr通过拉格朗日乘子来训练得到。
5.根据权利要求1所述基于深度强化学习的绳驱并联机器人控制方法,其特征在于,最优策略
Figure FDA00036750740700000310
获取过程为:
基于控制成本
Figure FDA00036750740700000311
与引入的熵
Figure FDA00036750740700000312
动作价值函数可以由下式得到:
Figure FDA00036750740700000313
其中,
Figure FDA00036750740700000314
是基于X(m+1)分布的期望值,其可由下式表示:
Figure FDA0003675074070000039
等式(3)中的Vπr(X(m+1))为状态价值函数,表示从状态X(m+1)开始,采取策略πr进行决策所获得的回报的期望值,其可由下式得到:
Figure FDA0003675074070000037
Figure FDA0003675074070000038
其中πr(ur(m)|X(m))表示采取所学习到的策略πr进行决策时,在状态X(m)下选取ur(m)这个动作的概率。
Figure FDA0003675074070000036
由下式表示:
Figure FDA0003675074070000031
强化学习的目标就是找到一个最优策略使得Q-函数取值最小化,即如下式所示:
Figure FDA0003675074070000032
为了学习到最优策略
Figure FDA0003675074070000034
我们需要重复策略评估和策略改进两个步骤,直到训练结束。
6.根据权利要求5所述基于深度强化学习的绳驱并联机器人控制方法,其特征在于,
策略评估过程为:
通过贝尔曼回溯操作
Figure FDA0003675074070000033
在策略评估中不断重复计算包含熵
Figure FDA0003675074070000035
的Q-函数,所述Q-函数为动作价值函数,其计算方式如下:
Figure FDA0003675074070000041
其中
Figure FDA0003675074070000045
可由下式得到:
Figure FDA0003675074070000042
策略改进的过程为:
通过下式可以实现策略改进的操作:
Figure FDA0003675074070000043
其中
Figure FDA0003675074070000046
代表上一次更新的策略,
Figure FDA0003675074070000047
代表本次更新的策略,
Figure FDA0003675074070000048
代表策略
Figure FDA0003675074070000049
的动作价值函数,
Figure FDA00036750740700000411
代表KL距离,
Figure FDA00036750740700000410
表示归一化因子;
根据上述结论且引入Lyapunov函数后最优策略
Figure FDA00036750740700000413
的求解问题可以由下列带约束的优化问题表示:
Figure FDA0003675074070000044
Figure FDA00036750740700000412
本次选择Q-函数作为Lyapunov函数。
CN202210617587.5A 2022-06-01 2022-06-01 基于深度强化学习的绳驱并联机器人控制方法 Active CN114995137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210617587.5A CN114995137B (zh) 2022-06-01 2022-06-01 基于深度强化学习的绳驱并联机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210617587.5A CN114995137B (zh) 2022-06-01 2022-06-01 基于深度强化学习的绳驱并联机器人控制方法

Publications (2)

Publication Number Publication Date
CN114995137A true CN114995137A (zh) 2022-09-02
CN114995137B CN114995137B (zh) 2023-04-28

Family

ID=83030769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210617587.5A Active CN114995137B (zh) 2022-06-01 2022-06-01 基于深度强化学习的绳驱并联机器人控制方法

Country Status (1)

Country Link
CN (1) CN114995137B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595869A (zh) * 2023-05-11 2023-08-15 哈尔滨工业大学(深圳) 一种允许碰撞的绳索牵引并联机器人的数据驱动控制策略

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN113156980A (zh) * 2021-05-28 2021-07-23 山东大学 一种基于深度强化学习的塔式起重机路径规划方法及系统
WO2021157004A1 (ja) * 2020-02-06 2021-08-12 日本電信電話株式会社 方策推定方法、方策推定装置及びプログラム
CN113885330A (zh) * 2021-10-26 2022-01-04 哈尔滨工业大学 一种基于深度强化学习的信息物理系统安全控制方法
US20220004191A1 (en) * 2020-07-01 2022-01-06 Wuhan University Of Technology Usv formation path-following method based on deep reinforcement learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
WO2021157004A1 (ja) * 2020-02-06 2021-08-12 日本電信電話株式会社 方策推定方法、方策推定装置及びプログラム
US20220004191A1 (en) * 2020-07-01 2022-01-06 Wuhan University Of Technology Usv formation path-following method based on deep reinforcement learning
CN113156980A (zh) * 2021-05-28 2021-07-23 山东大学 一种基于深度强化学习的塔式起重机路径规划方法及系统
CN113885330A (zh) * 2021-10-26 2022-01-04 哈尔滨工业大学 一种基于深度强化学习的信息物理系统安全控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何文凯 等: "绳索牵引式并联机器人神经网络PID控制" *
保宏 等: "输入不确定的6自由度悬索并联机器人位置控制" *
刘欣 等: "6自由度柔索并联机器人的动力学建模与抗扰控制" *
韦慧玲 等: "一种绳牵引摄像机器人的运动控制策略与稳定性研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595869A (zh) * 2023-05-11 2023-08-15 哈尔滨工业大学(深圳) 一种允许碰撞的绳索牵引并联机器人的数据驱动控制策略
CN116595869B (zh) * 2023-05-11 2023-11-24 哈尔滨工业大学(深圳) 一种允许碰撞的绳索牵引并联机器人的数据驱动控制策略

Also Published As

Publication number Publication date
CN114995137B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN109514602B (zh) 一种基于负载自适应辨识的工业机器人力矩补偿控制方法
CN110244735B (zh) 移动机器人跟踪预定轨迹的启发式动态规划控制方法
CN109176525A (zh) 一种基于rbf的移动机械手自适应控制方法
CN112904728A (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN111185907A (zh) 一种作业型飞行机器人抓取后的位姿稳定控制方法
CN110083167A (zh) 一种移动机器人的路径跟踪方法及装置
CN115625711B (zh) 一种考虑末端力的双臂机器人协同控制方法
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN110737195A (zh) 基于速度控制的双足机器人行走落脚点规划方法及装置
CN114995137A (zh) 基于深度强化学习的绳驱并联机器人控制方法
CN109828468A (zh) 一种针对磁滞非线性机器人系统的控制方法
CN116834014A (zh) 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统
CN113829351B (zh) 一种基于强化学习的移动机械臂的协同控制方法
CN114840947A (zh) 一种带约束的三自由度机械臂动力学模型
Martins et al. Trajectory tracking of a nonholonomic mobile robot with parametric and nonparametric uncertainties: A proposed neural control
Li et al. Kinodynamics-based pose optimization for humanoid loco-manipulation
Li et al. Neural adaptive tracking control for wheeled mobile robots
Roveda et al. Cartesian tasks oriented friction compensation through a reinforcement learning approach
CN114800521A (zh) 一种带约束的三自由度机械臂固定路径点运动控制系统
CN116736748A (zh) 构建机器人的控制器的方法和机器人
Hendzel Robust neural networks control of omni-mecanum wheeled robot with hamilton-jacobi inequality
CN112965370A (zh) 一种基于改进萤火虫算法优化的水下航行器轨迹跟踪控制方法
Fu et al. Adaptive dynamic programming with balanced weights seeking strategy
Heyu et al. Impedance control method with reinforcement learning for dual-arm robot installing slabstone
Wolf et al. Vector field path planning and control of an autonomous robot in a dynamic environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wu Ligang

Inventor after: Wu Chengwei

Inventor after: Lu Yanqi

Inventor after: Zhang Ouyang

Inventor after: Yao Weiran

Inventor after: Sun Guanghui

Inventor before: Wu Chengwei

Inventor before: Lu Yanqi

Inventor before: Zhang Ouyang

Inventor before: Yao Weiran

Inventor before: Sun Guanghui

Inventor before: Wu Ligang

GR01 Patent grant
GR01 Patent grant