CN111702766A

CN111702766A - 一种基于力觉引导的机械臂自适应开门旋拧方法

Info

Publication number: CN111702766A
Application number: CN202010646146.9A
Authority: CN
Inventors: 刘满禄; 张静; 蒋元成; 张华�; 李新茂; 王姮; 刘宏伟; 周建; 宋宇; 曾睿
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-09-25
Anticipated expiration: 2040-07-07
Also published as: CN111702766B

Abstract

本发明公开了一种基于力觉引导的机械臂自适应开门旋拧方法，其通过机械臂末端的六维力传感器获得力和力矩信息，将实际力或力矩与期望力或力矩之间的差值，作为深度确定性策略梯度算法的状态输入，同时输出动作，利用机械臂末端所受两个方向力的函数关系，设置基础奖励函数，通过机械臂的期望运动方向，设置引导性奖励函数，使机械臂自动适应力与力矩的变化，完成旋拧门把手任务。

Description

一种基于力觉引导的机械臂自适应开门旋拧方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于力觉引导的机械臂自适应开门旋拧方法。

背景技术

因核辐射对人体会造成损伤，以核应急、核运维、核退役为代表的非结构化环境需要机器人代替人执行相关作业、处置任务。传统结构化环境机器人任务执行算法难以适应以上复杂的任务和环境，需要通过改进算法，进一步提升机器人系统的环境和任务适应性。以核退役与应急中典型的开门任务为例，因任务对象的不确定，任务过程多变，无法做到每次开门能够规范化操作。且现有机械臂无法根据旋拧门的力反馈对开门过程进行调节，容易造成门锁或机械臂损伤。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于力觉引导的机械臂自适应开门旋拧方法通过自适应的强化学习算法，提高了机器人适应环境的能力，减小了门锁或机械臂损伤概率。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于力觉引导的机械臂自适应开门旋拧方法，其包括以下步骤：

S1、在机械臂的夹持端设置力传感器，并根据旋量理论获取机械臂末端的当前位姿；

S2、根据马尔科夫决策过程对机械臂从当前状态变化到下一状态的过程进行建模，得到机械臂运动模型；机械臂运动模型包括状态集合、动作集合、状态转移概率和奖励回报；

S3、在机械臂运动模型中，采集并根据机械臂在开门旋拧过程中力传感器的数据获取机械臂在X轴的力矩误差、Y轴和Z轴方向的力误差；获取机械臂在开门旋拧过程中在X轴、Y轴和Z轴方向的位移；其中Y轴为水平轴，Z轴为竖直轴，X轴与门锁同轴；

S4、根据力矩误差和力误差建立引导性奖励；根据位移结果和实时力大小建立惩罚值；

S5、将机械臂运动模型中Y方向的力误差的绝对值取负为奖惩依据，获取机械臂在开门旋拧过程中的基础奖励；

S6、基于机械臂运动模型，根据步骤S3至步骤S5获取的数据，采用深度确定性策略梯度算法对机械臂开门旋拧路径进行规划，完成基于力觉引导的机械臂自适应开门。

进一步地，步骤S1中根据旋量理论获取机械臂末端的当前位姿的具体方法为：

根据旋量理论的指数积公式对机械臂建立数学模型，设定机械臂的每个关节的方向、位置和末端初始位姿，进而得到包含每个关节转轴单位矢量、每个关节旋转轴的位置矢量、机械臂末端初始位姿、每个关节的运动旋量和机械臂正运动学POE模型。

进一步地，机械臂为UR5机械臂。

进一步地，步骤S3的具体方法为：

将门把手旋转角度作为机械臂的理想旋转角度，获取机械臂在开门旋拧过程中在X轴、Y轴和Z轴方向的位移；将机械臂末端旋拧门把手沿着圆弧轨迹运行时在Y轴和Z轴方向所受反作用力作为机械臂的期望力，根据公式：

ΔF_y＝F_ye-F_yd

ΔF_z＝F_ze-F_zd

获取机械臂在Y轴方向的力误差ΔF_y和在Z轴方向的力误差ΔF_z；根据公式：

ΔT_x＝T_xe-T_xd

获取机械臂在X轴的力矩误差ΔT_x；其中F_ye为Y轴方向的实际力；F_yd为Y轴方向的期望力；F_ze为Z轴方向的实际力；F_zd为Z轴方向的期望力；T_xe为X轴方向的实际力矩；T_xd为X轴方向的期望力矩。

进一步地，步骤S4中根据力矩误差和力误差建立引导性奖励的具体方法为：

根据公式：

建立引导性奖励r_g1；其中ΔF_y为机械臂在Y轴方向的力误差；ΔF_z为机械臂在Z轴方向的力误差；ΔT_x为机械臂在X轴的力矩误差。

进一步地，步骤S4中根据位移结果和实时力大小建立惩罚值的具体方法为：

根据公式：

建立惩罚值r_g2；其中Δy_step为机械臂末端沿Y轴方向移动的步长；Δz_step为机械臂末端沿Z轴方向移动的步长；F_ye为机械臂Y轴方向的实际力；F_ze为机械臂Z轴方向的实际力；T_xe为机械臂在X轴的实际力矩。

进一步地，步骤S5的具体方法为：

根据公式：

r_b＝-λ|ΔF_y|

获取机械臂在开门旋拧过程中的基础奖励r_b；其中λ为常数；ΔF_y为机械臂在Y轴方向的力误差。

进一步地，步骤S6的具体方法包括以下子步骤：

S6-1、初始化深度确定性策略梯度算法中actor的评估网络的网络参数

actor的目标网络的网络参数

critic的评估网络的网络参数

和critic的目标网络的网络参数

S6-2、获取当前时刻机械臂在Y轴、Z轴的力误差和X轴方向的力矩误差

判断当前时刻是否为初始时刻，若是则随机生成一个下一时刻的力误差

并进入步骤S6-3；否则从经验回放池中随机选取数据作为下一个时刻的力误差

并进入步骤S6-3；其中

和

分别为当前时刻机械臂在Y轴、Z轴的力误差和X轴方向的力矩误差；

和

分别为随机生成的下一时刻时机械臂在Y轴、Z轴的力误差和X轴方向的力矩误差；i＝0表示当前时刻为初始时刻；

S6-3、将力误差s_i输入actor的评估网络，得到动作值a_i＝μ(s_i)；其中μ(s_i)表示当前时刻actor的评估网络的输出；将力误差s_i+1输入actor的目标网络，得到下一时刻时的动作值a_i+1＝μ'(s_i+1)；其中μ'(s_i+1)为下一时刻时actor的目标网络的输出；将a_i和s_i输入critic的评估网络，得到当前时刻critic的评估网络输出的状态-动作值

将a_i+1和s_i+1输入critic的目标网络，得到下一时刻时critic的目标网络输出的状态-动作值

S6-4、根据公式：

以loss最小化为目标，采用均方根误差定义critic的评估网络的损失函数，对损失函数采用梯度下降的方法更新当前时刻下critic的评估网络的网络参数，得到下一时刻critic的评估网络的网络参数

其中r_i为当前时刻引导性奖励、惩罚值和基础奖励的总和，γ为软更新系数；N为常数；

S6-5、根据公式：

得到下一时刻critic的目标网络的网络参数

S6-6、根据公式：

得到下一时刻actor的评估网络的网络参数

其中

表示当前时刻的critic的评估网络的输出的状态-动作值

对动作值a_i的梯度；

表示当前时刻的actor的评估网络输出的动作值a_i对当前时刻的actor的评估网络的网络参数

的梯度；

S6-7、根据公式：

得到下一时刻actor的目标网络的网络参数

S6-8、将生成的力误差、实际得到的力误差、每个时刻下引导性奖励、惩罚值和基础奖励的总和，以及生成的动作存储至经验回放池中；

S6-9、判断是否完成了旋拧开门，若是则结束路径规划，否则返回步骤S6-2。

进一步地，软更新系数γ的值为0.001。

本发明的有益效果为：本发明通过机械臂末端的六维力传感器获得力和力矩信息，将实际力或力矩与期望力或力矩之间的差值，作为深度确定性策略梯度算法的状态输入，同时输出动作，利用机械臂末端所受两个方向力的函数关系，设置基础奖励函数，通过机械臂的期望运动方向，设置引导性奖励函数，使机械臂自动适应力与力矩的变化，完成旋拧门把手任务。

附图说明

图1为本发明的流程示意图；

图2为UR5机械臂模型示意图；

图3为机械臂末端受力分析示意图；

图4为深度确定性策略梯度算法的使用框图；

图5为引导性奖励对路径收敛的影响示意图；

图6为实施例中机械臂末端轨迹示意图；

图7为实施例中Y轴方向的力跟踪示意图；

图8为实施例中Z轴方向的力跟踪示意图；

图9为实施例中X轴的转矩跟踪示意图；

图10为实施例中机械臂末端变化曲线示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于力觉引导的机械臂自适应开门旋拧方法包括以下步骤：

步骤S1中根据旋量理论获取机械臂末端的当前位姿的具体方法为：根据旋量理论的指数积公式对机械臂建立数学模型，设定机械臂的每个关节的方向、位置和末端初始位姿，进而得到包含每个关节转轴单位矢量、每个关节旋转轴的位置矢量、机械臂末端初始位姿、每个关节的运动旋量和机械臂正运动学POE模型。

如图3所示，步骤S3的具体方法为：将门把手旋转角度作为机械臂的理想旋转角度，获取机械臂在开门旋拧过程中在X轴、Y轴和Z轴方向的位移；将机械臂末端旋拧门把手沿着圆弧轨迹运行时在Y轴和Z轴方向所受反作用力作为机械臂的期望力，根据公式：

ΔF_y＝F_ye-F_yd

ΔF_z＝F_ze-F_zd

ΔT_x＝T_xe-T_xd

步骤S4中根据力矩误差和力误差建立引导性奖励的具体方法为：根据公式：

步骤S4中根据位移结果和实时力大小建立惩罚值的具体方法为：根据公式：

步骤S5的具体方法为：根据公式：

r_b＝-λ|ΔF_y|

参考图4，步骤S6的具体方法包括以下子步骤：

actor的目标网络的网络参数

critic的评估网络的网络参数

和critic的目标网络的网络参数

并进入步骤S6-3；其中

和

和

S6-4、根据公式：

其中r_i为当前时刻引导性奖励、惩罚值和基础奖励的总和，γ为软更新系数，值为0.001；N为常数；

S6-5、根据公式：

得到下一时刻critic的目标网络的网络参数

S6-6、根据公式：

得到下一时刻actor的评估网络的网络参数

其中

表示当前时刻的critic的评估网络的输出的状态-动作值

对动作值a_i的梯度；

的梯度；

S6-7、根据公式：

得到下一时刻actor的目标网络的网络参数

在本发明的一个实施例中，机械臂为UR5机械臂，其模型如图2所示，因此UR5机械臂当前状态包括6个关节转轴单位矢量：

6个关节旋转轴的位置矢量：

机械臂末端初始位姿：

第i个关节的运动旋量：

正运动学POE模型：

其中τ₁为第一个关节的转轴单位矢量；τ₂为第二个关节的转轴单位矢量；τ₃为第三个关节的转轴单位矢量；τ₄为第四个关节的转轴单位矢量；τ₅为第五个关节的转轴单位矢量；τ₆为第六个关节的转轴单位矢量；p₁为第一个关节旋转轴的位置矢量；p₂为第二个关节旋转轴的位置矢量；p₃为第三个关节旋转轴的位置矢量；p₄为第四个关节旋转轴的位置矢量；p₅为第五个关节旋转轴的位置矢量；p₆为第六个关节旋转轴的位置矢量；L₁为第一个关节的纵向长度；L₅为第五个关节的纵向长度；L₆为第六个关节的横向长度；a₂为第二个关节的纵向长度；a₃为第三个关节的纵向长度；a₄为第四个关节的横向长度；τ_i为第i个关节的转轴单位矢量；p_i为第i个关节旋转轴的位置矢量。

在具体实施过程中，深度确定性策略梯度算法(DDPG)的训练过程中，Optimizer优化器采用的随机梯度下降学习率取10^-4，奖励衰减率取0.9，batch size取35，回合数取1000，经验回放池容量取6000，评估网络和目标网络权值为随机初始化，偏置b初始化为10^-3，探索策略选用ε-greedy策略。在设置奖励的权重时，为了提高基础奖励的重要性，将λ设置为1.5。训练前，机械臂和门把手之间有间隔；仿真开始，机械臂末端根据V-REP内在的逆运动学模块进行路径规划，运动至门把手，并夹握门把手上距离旋转副轴心70mm的位置；训练开始，机械臂夹握门把手运动，六维力传感器通过采集机械臂末端所受到的力，来获取当前力误差状态，输入到DDPG算法中，根据actor动作策略以及critic的评判获取动作，进行下一次机械臂与门把手的交互循环，直至旋拧门把手的角度为90°，即任务完成。

为了避免在探索过程中，机械臂沿着不理想的方向运动时间过长，导致收敛速度变慢，设置了-1500的奖励下限，当累计奖励R<-1500时，判定任务失败。如下图5所示(横坐标为回合数)，图5(a)为机械臂在未设置引导性奖励的情况下，算法训练所获取的奖励值。可以看出算法在第612个回合时，机械臂第一次完成任务，但是由于机械臂能够运动的路径非常多，探索过程非常缓慢，在训练1000回合之后，算法无法收敛；由图5(b)可以看出，在有引导性奖励的情况下，机械臂在386回合以后，算法逐渐开始收敛，并在650回合之后，逐渐稳定在-500左右。由此可以看出，在有引导性奖励的情况下，算法收敛速度更快，而且更加稳定。

测试阶段，将训练阶段获得的半径为70mm的旋拧模型用于旋拧半径为80mm的门把手，如图6所示(横坐标为Y轴，纵坐标为Z轴)，图6(a)为圆心(-0.05，0.5914)，半径为80mm，圆心角π/4的一段圆弧，图6(b)为机械臂夹握门把手半径80mm处旋拧的轨迹，可以看出其与理想的圆弧轨迹有一定的偏差，但是总体偏差不大。该算法并未进行位置跟踪，主要通过控制力来适应环境，自动规划轨迹，目的是尽可能使机械臂所受到的力最小。

机械臂在能完成任务的情况下，所受到的力越小越好，保证机械臂不受到损伤，本方法中设置期望力的目的是让实际力有一个收敛的方向，并且不能超过15N。如图7所示(横坐标为运行步长，纵坐标为力)，机械臂末端Y轴方向的实际力都是逐渐收敛于期望力，从图7(a)可以看出，训练模型在半径70mm的门把手位置测试时，力变化更加平滑，任意一点的力前后变化范围在5N内。从图7(b)可以看出，将模型运用在半径80mm的门把手位置测试时，力的变化幅度会大一些，但仍处于可控范围内。

在图8中(横坐标为运行步长，纵坐标为力)，在Z轴方向上，训练模型在两个半径的门把手位置测试时，实际力逐渐收敛于期望力，同时在旋拧半径80mm的门把手上，力未超出最大值，收敛效果较好。图9中(横坐标为运行步长，纵坐标为转矩)力矩跟踪的目的是为了设置引导性奖励，其次将其限制在(-2，0)的范围，避免力矩过大，使机械臂第六个关节角瞬时变化过大，损坏机械臂。在图10中(横坐标为运行步长，纵坐标为角度)，第六个关节角变化曲线平滑，结束状态，说明机械臂末端的位姿是跟随门把手角度的变化而变化的，从而验证了算法具有位姿跟踪效果，并且跟踪效果较好。

综上所述，本发明通过机械臂末端的六维力传感器获得力和力矩信息，将实际力或力矩与期望力或力矩之间的差值，作为深度确定性策略梯度算法的状态输入，同时输出动作，利用机械臂末端所受两个方向力的函数关系，设置基础奖励函数，通过机械臂的期望运动方向，设置引导性奖励函数，使机械臂自动适应力与力矩的变化，完成旋拧门把手任务。仿真数据结果表明，在有引导性奖励的情况下，基于力觉引导的机械臂自适应旋拧方法能够在更短的时间内达到收敛，完成机械臂旋拧门把手的任务。