CN115390439A

CN115390439A - 一种基于残差强化学习的机器人自主化装配方法

Info

Publication number: CN115390439A
Application number: CN202210999879.XA
Authority: CN
Inventors: 刘乃龙; 谢心如; 刘昊; 黄煌
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-25

Abstract

本发明涉及一种基于残差强化学习的机器人自主化装配方法，步骤包括：根据机器人装配过程中的状态s_t定义笛卡尔空间控制指令；在机器人末端与装配表面接近阶段设置k₁＝0；当F_ext＞F_max时，机器人与装配表面发生了第一次接触；判断待装配物体是否进入到装配孔位；进入插入阶段，设置k₂＝0，机器人执行插入操作，当检测到外力F_ext＞F_d/2时，装配成功。本发明针对装配过程中的接近、搜索、插入三个阶段，分别设计相应的装配策略，使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略，实现端到端的机器人自学习装配。

Description

一种基于残差强化学习的机器人自主化装配方法

技术领域

本发明涉及一种基于残差强化学习的机器人自主化装配方法，属于智能操控技术领域。

背景技术

机器人自主装配是智能制造中的重要组成部分，一直是研究的热点。以往的方法大多依赖于装配件的几何参数和姿态信息等先验知识，而这些先验知识在非结构化环境中将难以估计。结合视觉和触觉的互补信息，人类可以毫不费力地完成几乎所有与环境交互的操作任务。然而，在非结构化和不断变化的环境中，精细化的机器人操作如装配仍然面临着巨大的挑战。主要原因在于机器人难以利用传统的视觉方法完成对待装配物体的精确定位以及机器人与环境接触时需要考虑力的因素。

强化学习被认为最有可能赋予机器人类似人一样的能力，机器人可以通过与环境的交互从多种传感器观察中学习复杂的技能。目前，针对装配任务，大部分工作只考虑了单一的力觉信息或者视觉信息，并且都是在结构化的环境中，已知待装配物体的几何信息等先验知识。也有一部分工作尝试将视觉和力觉以及机器人本体信息等融合起来，学习形成一个多模态的先验空间，然后再利用强化学习去学习装配技能，这种方法需要大量人为设计的机器人路径，工作量大且繁琐。

此外，大多数基于梯度的强化学习算法样本效率低，数据需求量大，训练时间长。因此大部分基于强化学习的工作都是在仿真中验证，并没有部署到实际机器人硬件上执行。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提出一种基于残差强化学习的机器人自主化装配方法，对装配过程中的接近、搜索、插入三个阶段分别设计相应的装配策略，使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略，实现端到端的机器人自学习装配。

本发明解决技术的方案是：

一种基于残差强化学习的机器人自主化装配方法，步骤如下：

(1)根据机器人装配过程中的状态s_t定义笛卡尔空间控制指令；

(2)在机器人末端与装配表面接近阶段：设置k₁＝0，机器人的笛卡尔运动增量由视觉策略π_θ(s_t)决定；

(3)当F_ext＞F_max时，机器人与装配表面发生了第一次接触，机器人状态由接近切换到搜索；通过深度强化学习策略π_θ和解析力控策略π_H共同作用，来最大化自定义的奖励r_t,策略π_θ和接近阶段一致，依据图像来引导机器人运动，以最大化奖励，而策略π_H负责机器人末端与环境的柔顺交互，其中深度强化学习策略π_θ的输出为u_RL，解析力控策略π_H的输出为u_H；

(4)判断是否切换到插入阶段，即判断待装配物体是否进入到装配孔位：当条件|z-z₀|＜h和外力F_ext＜∈两者同时满足时，则由搜索阶段进入到插入阶段；

其中，z表示机器人末端在z轴上的坐标，z₀表示孔的底部在z轴方向的坐标，h表示孔的高度，∈为一个小量；

(5)进入插入阶段，设置k₂＝0，机器人执行插入操作，当检测到外力F_ext＞F_d/2时，装配成功。

进一步的，深度强化学习策略π_θ的在线训练，采用的训练算法为PPO，在训练中给输出命令和训练参数加入了高斯噪声，噪声可以表示为

μ为均值，σ为方差，在训练中，依据装配任务的特点设置奖励函数，可以表示为

其中，R，S，I，C和F分别表示为接近、搜索、插入、完成和失败，d_t、v_t表示位移和旋转增量，下标R和S分别表示每个阶段的初始时刻装配轴和孔的距离，k_d和k_S为比例因子。

进一步的，机器人与环境的状态集合s_t包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器，机器人待装配的轴孔零件包含在手眼相机的深度图像中。

进一步的，在搜索阶段，机器人末端会给装配孔表面的法线方向施加一个恒力F_d，恒力的控制率为

F_u＝F_d+k_p·F_e+k_i·∫F_edt，

其中k_p,k_i分别为比例和积分参数。

进一步的，F_e＝F_d-F_ext为力的期望值与实际值的误差，其他方向采用动态导纳控制。

进一步的，控制率表示为

进一步的，将该控制率进行离散化用于程序控制

其中，M,B,K为机器人运动中期望的质量，阻尼和刚度，Δt为控制周期。

进一步的，

为路径跟踪阻抗误差。

进一步的，步骤(1)中，笛卡尔空间控制指令x_u＝k₁π_H(s_t)+k₂π_θ(s_t)，其中π_θ为深度强化学习策略，π_H为解析力控策略，k₁,k₂∈[0,1]为比例系数。

进一步的，步骤(2)中，视觉策略由两部分组成，分别是特征提取卷积神经网络和强化学习决策网络。

本发明与现有技术相比的有益效果是：

(1)本发明针对装配过程中的接近、搜索、插入三个阶段，分别设计相应的装配策略，使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略，实现端到端的机器人自学习装配；

(2)本发明方法无需预先知道装配物体的几何知识，也不需要人为搜集训练数据集，并且所提出的装配方法样本效率高，训练时间短，对未知物体的泛化能力强。

附图说明

图1为本发明残差强化学习框架图；

图2为结合视觉和力觉的端到端训练流程框图；

图3为力控算法流程。

具体实施方式

下面结合实施例对本发明作进一步阐述。

一、基于视觉和解析力控方法的残差强化学习框架

首先获取机器人与环境的状态集合s_t,包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器，手眼相机的视野包括了机器人待装配的轴孔零件。残差强化学习策略包含了三部分，分别为用户根据任务特点自定义的奖励函数，深度强化学习策略π_θ和解析力控策略π_H。深度强化学习策略π_θ和解析力控策略π_H共同作用来最大化定义的奖励r_t,可以表示为

x_u＝k₁π_H(s_t)+k₂π_θ(s_t)

x_u是机器人的笛卡尔空间控制指令，k₁,k₂∈[0,1]为比例系数。残差强化学习的流程示意图如图1所示。

二、根据状态识别的分阶段装配策略

如图2所示，本发明的根据状态识别的分阶段装配策略，本发明将装配过程分为了三个阶段进行，分别表示为接近，搜索和插入。包括如下步骤：

(1)接近阶段

在接近阶段中，由于机器人末端与环境并没有接触，所以设置k₁＝0，机器人的笛卡尔运动增量是由视觉策略π_θ(s_t)决定，视觉策略由两部分组成，分别是特征提取卷积神经网络和强化学习决策网络。其中，所述特征提取卷积神经网络是由5个卷积层组成，输入图像大小被裁剪为3×240×320，从前往后，卷积核大小依次为8×8,4×4,3×3,2×2和2×2，卷积核移动的步长依次为4,2,2,1,1,每层卷积后面都跟有ReLU激活函数，在卷积层的末尾带有一层全连接层，最终输出1×512的特征向量。该特征向量在本发明中表示为装配体之间的相对位置关系。本发明中的强化学习决策网络采用通用的动作网络和评价网络组成的学习架构，不再赘述。

(2)搜索阶段

接近和搜索之间以外力的状态识别为分界点，当F_ext＞F_max时，认为是机器人与装配表面发生了第一次接触，然后机器人状态由接近切换到搜索。

在搜索阶段，机器人末端的装配轴与装配孔表面接触，此时深度强化学习策略π_θ和解析力控策略π_H共同作用来最大化定义的奖励r_t,策略π_θ和接近阶段一致，依据图像来引导机器人运动，以最大化奖励，而策略π_H负责机器人末端与环境的柔顺交互，在本发明中，在搜索阶段，机器人末端会给装配孔表面的法线方向施加一个恒力F_d，恒力的控制率为

F_u＝F_d+k_p·F_e+k_i·∫F_edt，

其中k_p,k_i分别为比例和积分参数，F_e＝F_d-F_ext为力的期望值与实际值的误差，其他方向采用动态导纳控制，控制率表示为

进一步我们将该控制率进行离散化用于程序控制

其中，M,B,K为机器人运动中期望的质量，阻尼和刚度。Δt为控制周期，

为路径跟踪阻抗误差。该策略不仅能够精确的跟踪视觉策略产生的机器人末端运动增量，而且也可以对外界的扰动做出柔顺行为，有效的保护了机器人的安全。在接近和搜索阶段中，机器人主要完成装配轴和装配孔的接触和对齐。

(3)插入阶段

第二步搜索和第三步插入的状态识别条件是，|z-z₀|＜h和外力F_ext＜∈两者需要同时满足才能进行装配状态的切换，z表示机器人末端在z轴上的坐标，z₀表示孔的底部在z轴方向的坐标，h表示孔的高度。∈为一个小量。在第三阶段中，k₂＝0，机器人进行插入操作，当外力检测到F_ext＞F_d/2时，装配成功。

三、基于解析法的力控制算法

解析力控策略中：本发明设计的基于解析法的力控制算法框图如图3所示。本发明将显式力控制和导纳控制以平行力位框架相结合，有效了实现了机器人快速高效的搜索，同时保证了机器人训练和部署中的安全性。在框图中

S＝diag(s₁,s₂…s₆),s∈{0,1}

为选择矩阵，diag表示将向量(s₁,s₂…s₆)转为对角矩阵。在本发明中，装配轴是由安装在机器人末端的夹爪所夹持，6轴的力/力矩传感器安装在机器人与夹爪之间，所以装配轴和装配孔之间的交互力要经过中值滤波进行噪声处理，死区进行漂移处理，重力补偿排除夹爪重力的影响。

在本发明中，深度强化学习策略中的动作空间定义为A＝[Δx,Δy,Δz,Δα_x,Δα_y,Δα_z]，分别为笛卡尔空间的位移增量和旋转增量，观测空间为手眼相机的图片

力控制的反馈量为F_ext＝[F_x,F_y,F_z,M_x,M_y,M_z]。机器人笛卡尔空间用一个6维光滑的流形表示

进一步表示为一个6维的向量为

其中

为位移增量，

u和θ分别为旋转轴和旋转角。

四、残差强化学习训练算法

将残差强化学习训练算法更为细致地总结如下：

(1)初始化策略π_θ和π_H；

(2)对于每一个Episode；

(3)获取状态s_t；

(4)计算强化学习策略u_RL～π_θ(u_t|s_t)；

(5)计算残差强化学习策略u_t＝u_RL+u_H；

(6)机器人执行u_t，以优先级p_i存储(S_t-1,A_t-1,R_t,γ_t,S_t)；

(7)采用优先级批采样状态；

(8)更新优先级存储器；

(9)优化强化学习策略π_θ。

本发明为了能让残差强化学习策略在机器人上安全高效地执行，我们同时提出了安全训练机制。叙述如下：

(1)获取参数T_max,T_one,F_max,v_max,acc_max,a_max,v_max；

(2)在最大训练步数T_max内；

(3)获取初始状态s₀；

(4)在连续最大探索步数T_one内；

(5)获取初始状态s_t；

(6)计算强化学习策略u_RL～π_θ(u_t|s_t)；

(7)获取当前外力F_ext、积分加速度acc与速度v；

(8)获取积分加速度的2范数acc_norm与速度的2范数v_norm；

(9)如果acc_norm＞acc_max，则acc*＝|acc_max/acc_norm|；

(10)如果υ_norm＞υ_max，则υ*＝|υ_max/υ_norm|；

(11)计算残差策略u_t＝u_RL+u_H；

(12)如果|u_t-x|/Δt＞ν_max，则进行笛卡尔空间位姿插值L_i(u_t)～ν_max；

(13)机器人执行u_t；

(14)如果F_ext＞F_max或者a＞a_max或者T＞T_one-1；

(15)复位机器人；

(16)循环整个流程直到结束。

其中，T_max,T_one,F_max,v_max,acc_max,a_max,v_max分别为总时间步长，一次连续探索的最大时间步长，最大接触力、最大积分速度、最大积分加速度、最大策略动作增量和最大笛卡尔速度。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于残差强化学习的机器人自主化装配方法，其特征在于，步骤如下：

(2)在机器人末端与装配表面接近阶段：设置比例系数k₁＝0，机器人的笛卡尔运动增量由深度强化学习策略π_θ决定；

(3)当机器人末端的外力F_ext＞F_max时，F_max为外力允许的最大值，机器人与装配表面发生了第一次接触，机器人状态由接近切换到搜索；通过深度强化学习策略π_θ和解析力控策略π_H共同作用，来最大化自定义的奖励r_t,深度强化学习策略π_θ和接近阶段一致，依据图像来引导机器人运动，以最大化奖励，而策略π_H负责机器人末端与环境的柔顺交互，其中深度强化学习策略π_θ的输出为u_RL，解析力控策略π_H的输出为u_H；

(5)进入插入阶段，设置比例系数k₂＝0，机器人执行插入操作，当检测到外力F_ext＞F_d/2时，F_d为期望的外力，则装配成功。

2.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，深度强化学习策略π_θ的在线训练，采用的训练算法为PPO，在训练中给输出命令和训练参数加入了高斯噪声，噪声可以表示为

3.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，机器人与环境的状态集合s_t包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器，机器人待装配的轴孔零件包含在手眼相机的深度图像中。

4.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，在搜索阶段，机器人末端会给装配孔表面的法线方向施加一个期望的外力F_d，期望的外力的控制率为

F_u＝F_d+k_p·F_e+k_i·∫F_edt，

其中k_p,k_i分别为比例和积分参数。

5.根据权利要求4所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，F_e＝F_d-F_ext为力的期望值与实际值的误差，其他方向采用动态导纳控制。

6.根据权利要求4所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，控制率表示为

其中，x_e为路径跟踪阻抗误差，

为x_e的一阶导数，

为x_e的二阶导数。

7.根据权利要求6所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，将该控制率进行离散化用于程序控制

其中，M,B,K分别为机器人运动中期望的质量、阻尼和刚度，

为t时刻的x_e，Δt为控制周期。

8.根据权利要求7所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，路径跟踪阻抗误差

其中，x_p为机器人的末端位置。

9.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，步骤(1)中，笛卡尔空间控制指令x_u＝k₁π_H+k₂π_θ，其中π_θ为深度强化学习策略，π_H为解析力控策略，k₁,k₂∈[0,1]为比例系数。

10.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法，其特征在于，步骤(2)中，视觉策略由两部分组成，分别是特征提取卷积神经网络和强化学习决策网络。