CN113392703B

CN113392703B - 基于注意力机制和非合理动作抑制的机械臂自主抓取方法

Info

Publication number: CN113392703B
Application number: CN202110510867.1A
Authority: CN
Inventors: 杨宇翔; 倪志浩; 高明裕; 曾毓; 黄继业; 林辉品
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2024-02-02
Anticipated expiration: 2041-05-11
Also published as: CN113392703A

Abstract

本发明涉及基于注意力机制和非合理动作抑制的机械臂自主抓取方法。采用深度强化学习方法通过奖励函数指导智能体进行物体的自主抓取技能的学习。利用注意力机制使得网络在试错中持续关注能够提升抓取成功率的抓取位置区域；设计的非合理动作抑制策略，能够有效解决强化学习方法从仿真迁移到真实环境中存在状态差异的问题。本发明具有很高的环境适应性和抓取成功率，能够在复杂环境下实现对物体的高效自主抓取。

Description

基于注意力机制和非合理动作抑制的机械臂自主抓取方法

技术领域

本发明属于智能控制领域，具体涉及基于注意力机制和非合理动作抑制的机械臂自主抓取方法。

背景技术

机械臂抓取任务是机器人任务中的一项基本任务，具有广泛的应用场景。基于强化学习的机械臂自主抓取是该领域的一个研究热点，强化学习方法通过奖励函数来指导智能体自主学习高效有用的抓取策略，能够实现在无结构复杂环境下的自主抓取。本发明在机械臂抓取强化学习网络中引入注意力机制使网络能够关注有效的物体抓取区域，同时设计非合理动作抑制策略来抑制不合理的抓取动作，大大提升了复杂环境中物体抓取的成功率，具有重要的理论价值和实际意义。

发明内容

本发明针对现有技术的不足，提供了一种基于注意力机制和非合理动作抑制的机械臂自主抓取方法。

本发明一种基于注意力机制和非合理动作抑制的机械臂自主抓取方法，该方法具体包括以下步骤：

步骤(1)：利用RGB-D相机采集目标区域的深度图I_depth和彩色图I_color，尺寸为H×W，将彩色图I_color和深度图I_depth以ΔΘ为旋转间隔逆时针旋转d次，得到d组具有不同旋转方向的彩色图和深度图/>记为状态s_t，其中t表示当前时刻；

步骤(2)：构建深度强化学习网络，网络由特征提取层、注意力机制层、上采样层和非合理动作抑制层组成；

(a)特征提取层：

将d组彩色图和深度图/>输入网络，对每一组进行特征提取；以第d_i组为例，和/>各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图/>和深度特征图/>

(b)注意力机制层：

将颜色和深度特征图进行通道拼接操作得到融合特征图然后将/>经过一个注意力机制模块，让网络持续关注杂乱物体中较好的抓取位置区域，得到/>

注意力机制的操作步骤如下:

注意力机制模块中首先将特征图沿着空间维度进行全局平均池化操作得到将/>通过一个全连接层L1和Rectified Linear Unit激活层，对每个通道的特征信息进行特征融合；接着再经过一个全连接层L2和Sigmod激活层得到注意力机制模块的权重/>的维度与输入特征图/>通道维度一致；将/>和/>进行乘法操作得到最终的输出/>

其中AvgPool(·)表示空间全局平均池化操作，L1(·)和L2(·)表示全连接层，σ(·)表示Rectified Linear Unit激活层，Sigmod(·)表示Sigmod激活层，bn(·)表示Batch Normalization操作；

(c)上采样层:

将注意力特征图经过一个卷积核大小为1×1的卷积层、Batch Normalization层和Rectified Linear Unit激活层得到特征图/>实现通道降维；然后，将特征图/>进行顺时针旋转，使其回到与彩色图I_color一样的角度方向，再进行上采样操作得到尺寸为H×W的上采样图/>d组颜色状态图/>和深度状态图/>获得d组上采样图/>进行通道拼接操作得到d维尺寸为H×W的像素级别的动作预测Q(s_t,a；θ)；

其中，θ为网络参数，a表示抓取动作的动作空间，该动作空间由机械臂的执行位置(x_w,y_w,z_w)和夹爪旋转角度Θ组成；

(d)非合理动作抑制层：

根据Q(s_t,a；θ)得到每个通道维度下的最大动作预测值，即最佳抓取位置(x_w,y_w,z_w)和夹爪旋转角度Θ，共获得d维最佳动作预测；

在每个维度中，沿着各自的最佳动作方向，经过不同的偏移后，得到不同掩码区域k表示不同的掩码区域，d表示维度；具体的，掩码区域/>是以该维度下的最佳抓取位置沿着抓取方向偏移不同像素后的像素点为中心，尺寸为(h_g,w_g)的长方形区域；掩码区域的长边w_g与抓取方向垂直；

表示在掩码区域/>内属于物体区域的概率，对同一个动作方向不同偏移值下的/>进行求均值操作得到该动作方向上最终的概率P^d；

其中，K表示每个动作方向上的掩码区域数量；

P^d越小表示成功抓取物体的概率越大，碰撞的概率越小；因此，非合理动作抑制策略π(s_t)为：

π(s_t)＝1-P^d (6)

将d维的非合理动作抑制策略π(s_t)与d维的最大动作预测值Q(s_t,a；θ)进行通道相乘操作，最终获得时刻t下的最佳动作a_t；

步骤(3)：设计奖励函数，训练强化学习网络；

①奖励函数设计：

抓取奖励r_g定义如下：

r_g＝G-λΔΨ (7)

ΔΨ＝|Ε_Θ-Ο_Θ|∈[0°,90°] (8)

其中，G表示抓取的结果，如果抓取成功G＝1.5，如果抓取失败G＝0；ΔΨ表示抓取角度的偏差，由夹爪实际旋转角度Ε_Θ与该物体实际角度Ο_Θ的绝对差计算得到，λ表示该角度偏差对于抓取奖励的影响程度；

②采用时间差分的双重Q学习更新方式对网络进行训练；

在时间t，采集机械臂工作区间的RGB-D图像得到状态s_t，将s_t输入当前网络得到最佳执行动作a_t(x_w,y_w,z_w,Θ)；执行该动作a_t后，再次采集RGB-D图像得到下一个状态s_t+1，根据物体是否抓取成功，给动作a_t的一个奖励r_g；采用时间差分法来最小化当前状态下执行动作的动作预测值Q(s_t,a_t；θ)与带有未来期望奖励的目标值之间的时间差分误差；该目标值y_t采用双重Q学习方法定义：

其中，参数θ_target表示动作价值目标网络，该参数来自于Δt时刻前的网络参数；γ表示衰减因子；

步骤(4)：完成步骤(3)的训练后，将训练好的网络参数直接从仿真环境迁移到真实环境中，通过RealSense-435i相机对机械臂工作区间环境进行图像采集，进而得到状态s_t；将状态s_t输入网络得到最佳执行动作a_t(x_w,y_w,z_w,Θ)，通过ROS MoveIt运动规划库对机械臂抓取的路径进行规划与控制。

作为优选，为了防止机械臂与物体之间的碰撞，本发明设置抓取控制时的最低安全高度z_safe，保证抓取过程的安全性。首先，根据最佳动作位置(x_w,y_w)，将其沿着夹爪旋转角度Θ方向进行像素偏移操作(偏移的像素值根据夹爪的初始打开宽度获得)，得到两个表示夹爪末端位置的区域。其次，将该区域的最大高度值与工作空间桌面高度的绝对差值作为系统的最低安全高度z_safe。在抓取过程中，抓取高度z_w为：

z_w＝z_w+z_safe (10)。

本发明具有以下有益的效果：

本发明采用深度强化学习方法通过奖励函数指导智能体进行物体的自主抓取技能的学习。利用注意力机制使得网络在试错中持续关注能够提升抓取成功率的抓取位置区域；设计的非合理动作抑制策略，能够有效解决强化学习方法从仿真迁移到真实环境中存在状态差异的问题，保证物体的抓取过程安全高效，具有很高的环境适应性及抓取成功率。通过学习后，该方法能够在复杂环境下完成物体的自主抓取任务。

附图说明

图1为基于注意力机制和非合理动作抑制的机械臂自主抓取流程图。

具体实施方式

本发明专利提供了基于注意力机制和非合理动作抑制的机械臂自主抓取方法，包括以下步骤：

步骤(1)：利用RGB-D相机采集目标区域的深度图像I_depth和颜色图像I_color，尺寸大小为320×320，将上述颜色图I_color和深度图I_depth以ΔΘ＝22.5°为旋转间隔逆时针旋转d＝16次，得到d组具有不同旋转方向的颜色状态图和深度状态图/>记为状态s_t，其中t表示当前时刻。

步骤(2)：构建深度强化学习网络，网络(见附图1)由特征提取层、注意力机制层、上采样层和非合理动作抑制层组成。

(a)特征提取层：

将d组颜色状态图和深度状态图/>输入抓取网络，以第d_i组为例，/>和各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图/>和深度特征图/>

(b)注意力机制层：

注意力机制的操作步骤如下:

注意力机制模块中首先将特征图沿着空间维度进行全局平均池化操作得到将/>通过一个全连接层L1和Rectified Linear Unit激活层，对每个通道的特征信息进行特征融合。接着再经过一个全连接层L2和Sigmod激活层得到注意力机制模块的权重/>的维度与输入特征图/>通道维度一致。将/>和/>进行乘法操作得到最终的输出/>

其中AvgPool(·)表示空间全局平均池化操作，L1(·)和L2(·)表示全连接层，σ(·)表示Rectified Linear Unit激活层，Sigmod(·)表示Sigmod激活层，bn(·)表示Batch Normalization操作。

(c)上采样层:

首先，将注意力特征图经过一个卷积核大小为1×1的卷积层、BatchNormalization层和Rectified Linear Unit激活层得到特征图/>实现通道降维。然后，将特征图/>进行顺时针旋转，使其回到与彩色图I_color一样的角度方向，再进行上采样操作得到尺寸为320×320的上采样图/>最终，d组颜色状态图/>和深度状态图/>获得d组上采样图/>进行通道拼接操作得到d维尺寸为320×320的像素级别的动作预测值Q(s_t,a；θ)。

其中，θ为网络参数，a表示抓取动作的动作空间，该动作空间由机械臂的执行位置(x_w,y_w,z_w)和夹爪旋转角度Θ组成。

(d)非合理动作抑制层：

根据Q(s_t,a；θ)得到每个通道维度下最大动作预测值和对应的最佳抓取位置(x_w,y_w,z_w)和夹爪旋转角度Θ，共可获得d维最佳动作。

在每个维度中，沿着他们各自的动作方向，经过不同的偏移值S∈[11,13,15]之后，得到掩码区域具体的，掩码区域/>是以最大动作预测值对应的抓取位置沿着抓取方向Θ偏移S∈[11,13,15]像素后的像素点为中心，与抓取方向Θ垂直且尺寸为(h_g,w_g)＝(8,15)的长方形区域。其中k＝3表示该方向上的偏移值数量，d表示维度。将/>定义为在掩码区域/>内属于物体区域的概率，对同一个动作方向上的不同偏移值下的/>进行求均值操作得到该动作方向上最终的概率P^d。

其中，K＝6表示在每一个动作方向上掩码区域数量。

P^d越小表示成功抓取物体的概率越大，碰撞的概率越小。因此，我们的非合理动作抑制策略π(s_t)为：

π(s_t)＝1-P^d (6)

将d维的非合理动作抑制策略与d维的最大动作预测值进行通道相乘操作，最终获得时刻t下的最佳动作a_t。

步骤(3)：设计奖励函数，训练强化学习网络。

①励函数设计：

抓取奖励r_g定义如下：

r_g＝G-λΔΨ (7)

ΔΨ＝|Ε_Θ-Ο_Θ|∈[0°,90°] (8)

其中，G表示抓取的结果，如果抓取成功G＝1.5，如果抓取失败G＝0。ΔΨ表示抓取角度的偏差，由夹爪实际旋转角度Ε_Θ与该物体实际角度Ο_Θ的绝对差计算得到，λ＝0.02表示该角度偏差对于抓取奖励的影响程度。

②用时间差分的双重Q学习更新方式对网络进行训练。

在时间t，采集机械臂工作区间的RGB-D图像得到状态s_t，将s_t输入当前策略(即网络)得到最佳执行动作a_t(x_w,y_w,z_w,Θ)。执行该动作a_t后，再次采集RGB-D图像得到下一个状态s_t+1，根据物体是否抓取成功，给动作a_t的一个奖励r_g。采用时间差分法来最小化当前状态下执行动作的动作预测值Q(s_t,a_t；θ)与带有未来期望奖励的目标值之间的时间差分误差。该目标值y_t采用双重Q学习方法定义：

其中，参数θ_target表示动作价值目标网络，该参数来自于Δt＝200时刻前的网络参数；γ表示衰减因子。在实验中，设置γ＝0.5。

步骤(4)：完成步骤(3)的训练后，将训练好的网络参数直接从仿真环境迁移到真实环境中，通过RealSense-435i相机对机械臂工作区间环境进行图像采集，进而得到状态s_t。将状态s_t输入网络得到最佳执行动作a_t(x_w,y_w,z_w,Θ)，通过ROS MoveIt运动规划库对机械臂抓取的路径进行规划与控制。

为了防止机械臂与物体之间的碰撞，本发明设置抓取控制时的最低安全高度z_safe，保证抓取过程的安全性。首先，根据最佳动作位置(x_w,y_w)，将其沿着夹爪旋转角度Θ方向进行像素偏移操作(偏移的像素值根据夹爪的初始打开宽度获得)，得到两个表示夹爪末端位置的区域。其次，将该区域的最大高度值与工作空间桌面高度的绝对差值作为系统的最低安全高度z_safe。在抓取过程中，抓取高度z_w为：

z_w＝z_w+z_safe (10)。

Claims

1.基于注意力机制和非合理动作抑制的机械臂自主抓取方法，其特征在于，该方法的具体步骤是：

(a)特征提取层：

将d组彩色图和深度图/>输入网络，对每一组进行特征提取；以第d_i组为例，/>和/>各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图/>和深度特征图/>

(b)注意力机制层：

注意力机制的操作步骤如下:

其中AvgPool(·)表示空间全局平均池化操作，L1(·)和L2(·)表示全连接层，σ(·)表示Rectified Linear Unit激活层，Sigmod(·)表示Sigmod激活层，bn(·)表示BatchNormalization操作；

(c)上采样层:

(d)非合理动作抑制层：

其中，K表示每个动作方向上的掩码区域数量；

π(s_t)＝1-P^d (6)

步骤(3)：设计奖励函数，训练强化学习网络；

①奖励函数设计：

抓取奖励r_g定义如下：

r_g＝G-λΔΨ (7)

ΔΨ＝|Ε_Θ-Ο_Θ|∈[0°,90°] (8)

②采用时间差分的双重Q学习更新方式对网络进行训练；

步骤(4)：完成步骤(3)的训练后，将训练好的网络参数直接从仿真环境迁移到真实环境中，通过相机对机械臂工作区间环境进行图像采集，进而得到状态s_t；将状态s_t输入网络得到最佳执行动作a_t(x_w,y_w,z_w,Θ)，通过ROS MoveIt运动规划库对机械臂抓取的路径进行规划与控制。

2.根据权利要求1所述的基于注意力机制和非合理动作抑制的机械臂自主抓取方法，其特征在于：为了防止机械臂与物体之间的碰撞，设置抓取控制时的最低安全高度z_safe，保证抓取过程的安全性；首先，根据最佳动作位置(x_w,y_w)，将其沿着夹爪旋转角度Θ方向进行像素偏移操作，其中偏移的像素值根据夹爪的初始打开宽度获得，得到两个表示夹爪末端位置的区域；其次，将该区域的最大高度值与工作空间桌面高度的绝对差值作为系统的最低安全高度z_safe；在抓取过程中，抓取高度z_w为：

z_w＝z_w+z_safe (10)。