CN114918918B

CN114918918B - 一种含领域自适应的机器人乱序目标推抓方法

Info

Publication number: CN114918918B
Application number: CN202210581185.4A
Authority: CN
Inventors: 钱堃; 段波伊; 景星烁; 张天浩; 张卓旸
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2023-07-25
Anticipated expiration: 2042-05-26
Also published as: CN114918918A

Abstract

本发明涉及机器人抓取操作领域，公开一种含领域自适应的机器人乱序目标推抓方法，包括以下步骤：1）搭建与真实场景相似的仿真环境，训练推‑抓操作协同策略的深度强化学习模型；2）分别在真实环境和仿真环境中采集样本，进行相应预处理构成用于训练图像迁移网络的数据集；3）构建基于多级注意力聚合及一致性约束的双向域对抗迁移网络，在所采集的非配对图像数据集上进行训练，实现将实物图像迁移为伪仿真图像并且迁移效果满足机器人推‑抓场景中的任务一致性；4）将解耦训练的图像迁移模块和机器人操作技能模型进行级联部署，实现机器人对现实环境中物体的乱序推散和抓取。本发明可用于基于RGB‑D相机的机器人乱序目标抓推协同策略迁移学习问题。

Description

一种含领域自适应的机器人乱序目标推抓方法

技术领域

本发明属于机器人乱序目标抓取领域，具体涉及一种含领域自适应的机器人乱序目标推抓方法。

背景技术

在料框内堆叠物体的无序抓取中，由于机器人抓取姿态受料框环境制约、物体之间没有适于二指手爪的足够空隙，通常无法直接单步抓取紧密放置的物体。通过推动作先把紧密放置的物体打散再抓取，是提高无序抓取成功率的关键。

深度强化学习方法将深度学习和强化学习结合，可以不依赖于数据集从零开始探索学习机器人推-抓协同策略。Zeng(见Zeng A.等，Learning Synergies between Pushingand Grasping with Self-supervised Deep Reinforcement Learning.IEEE/RSJ IROS,2018)提出了利用深度强化学习进行推-抓协同学习，可在有限时间自主通过推、抓序列行为协同来实现料框内堆叠物体的无序抓取。然而直接在实物机器人上进行推-抓策略的训练将造成极大硬件损耗。因此当前关于机器人的抓取算法研究主要依托仿真环境训练完成。

将机器人在仿真环境下学习得到的策略迁移到现实环境中，需要解决仿真环境与现实场景之间存在的来自于图像质量、结构信息、纹理信息等的感知差异问题，否则会导致迁移后模型性能的下降。因此有必要研究与任务耦合的感知端像素级跨域迁移问题，从而提升包括质量和稳定性等方面的推抓协同策略从仿真到现实跨域泛化的性能。

发明内容

为解决上述问题，本发明公开了一种含领域自适应的机器人乱序目标推抓方法，通过对解耦训练的图像迁移模块和推-抓操作协同策略的深度强化学习模型进行级联部署，干扰少，实现机器人对现实环境中物体的乱序推散和抓取。

为达到上述目的，本发明的技术方案如下：

一种含领域自适应的机器人乱序目标推抓方法，包括以下步骤：

步骤1，在仿真平台中搭建与真实场景相似的仿真环境，训练推-抓协同策略的深度强化学习模型并在仿真环境中测试其性能；

步骤2，在实验室环境中采集真实抓取场景的图像得到现实域数据集，在仿真环境中采集所搭建场景的抓取图像得到仿真域数据集，并进行相应的预处理；

步骤3，将卷积神经网络和Transformer结合，构建基于多级注意力聚合及一致性约束的双向域对抗迁移网络。在所采集的非配对仿真域和现实域的RGB-D数据集上进行训练，实现将实物图像迁移为伪仿真图像并且迁移效果满足机器人推-抓场景中的任务一致性；

步骤4，将解耦训练的图像迁移模块和推-抓协同策略的深度强化学习模型进行级联部署，实现机器人对现实环境中物体的乱序推散和抓取。

具体地，步骤1搭建的仿真环境中使用的物体模型来自大型公共数据集3Dn_et，是根据现实场景中使用的15个抓取物品制作的相应大小和形态的CAD模型，具有纯色属性。

具体地，步骤2中的图片预处理方法，对于收集到的现实域图像，首先使用目标检测模型检测出RGB图像中所有物体，然后以中心扩展的方式扩展到正方形，以此方法裁剪RGB图像和由深度图像得到的掩码图像，然后调整大小到112*112。对于收集到的仿真域图像，使用掩码图像检测所有物体，然后以中心扩展的方式扩展到正方形，以此方法裁剪掩码图像和对应的RGB图像，然后调整大小到112*112。

具体地，步骤3中所述的迁移网络是基于多级注意力聚合及一致性约束的双向域对抗迁移网络，其中生成器网络包括编码器和解码器结构。编码阶段，主要对渐层信息提取能力更强的CNN特征和高层语义抽象能力较强的Transformer特征进行串联编码。解码阶段，使用提出的多级注意力聚合模块进行级联解码。其判别器网络基本结构为马尔可夫判别器。通过多层连接模块将不同尺度层所隐藏的判别信息进行自适应联合，构造多尺度连接马尔可夫判别器。

具体地，基于多级注意力聚合及一致性约束的双向域对抗迁移网络的目标学习损失包括对抗损失、双向循环一致性损失、映射一致性损失、任务一致性损失。

对于对抗损失，生成器G_S→T将源域中的一张图片和一个噪声向量映射到一张假图片，判别器D_T输出所输入给定图片属于源域的可能性，其域对抗损失函数为：

其中，表示从源域中采样带标签的样本组成的数据集，N_s是源域样本数量。/>表示从目标域中采样无标签的样本组成的数据集，N_t是目标域样本数量。

双向循环一致性损失为：

引入该损失的目的是保证生成样本G_S→T(x_s)和源域样本x_s图像中物体信息保持不变。

映射一致性损失为：

引入该损失的目的是为了保证两个生成器确实具有迁移成特定风格的能力，即保证所生成样本和目标域样本的风格相似，不发生整体颜色改变等等问题。

任务一致性损失为：

该损失通过计算成对均方误差来衡量迁移前后样本像素对之间的差异，从而约束物体形状与大小的改变。其中，k_s和k_t分别为输入的源域样本x_s和目标域样本x_t中像素的个数，m_s和m_t是对应于样本x_s和x_t的物体掩码，o是Hadamard乘积，是L2范数的平方。该损失能够使迁移模型具备保持图像内物体形状的能力，同时鼓励图像前景以一致的方式改变。

具体地，推-抓操作协同策略的深度强化学习模型和图像迁移模型是解耦训练的，只在部署基于领域自适应的机器人抓推协同策略模型时才将二者级联。

本发明的有益效果是：

1.感知端的图像迁移模块和推-抓操作协同策略的深度强化学习模型是解耦训练的。解耦训练可使得网络架构不会过分复杂，两部分网络可以各自聚焦所需完成的任务，避免不必要信息的干扰，更容易收敛和训练成功。

2.对于感知端的图像迁移模块，由于CNN适合提取浅层信息，而Transformer在高层语义部分具有更强的语义抽象和捕捉全局上下文信息的能力，因此在双向域对抗迁移网络的生成器结构中综合使用CNN和Transformer，提升网络的特征提取能力。

3.在对抗损失、双向循环一致性损失以及映射一致性损失的基础上，针对抓取图像迁移的任务特点，增加了任务一致性损失，从约束物体形状和大小的角度出发，考虑通过计算基于物体掩码的成对均方误差来保证RGB图像迁移前后的内容一致性，从而提升像素迁移的质量。

4.在基于多级注意力聚合及一致性约束的双向域对抗迁移网络训练部分，采集到的仿真域图像和现实域图像需经过一系列预处理才能作为网络的训练集。主要处理步骤为“裁剪”得到尽可能只包含单个物体的图像，此操作的目的是为了解决当完整图像作为网络输入进行训练时会产生的背景泄露、物体纹理错乱、迁移后的物体出现假影甚至缺失等问题。经裁剪过后的图像作为训练集可以降低背景比重，实现前景和后景的分别有效迁移。

附图说明

图1为本发明的方法总体流程图。

图2为在仿真平台搭建的仿真场景图。

图3为采集到的原始现实域图像和仿真域图像。

图4为预处理后的现实域图像和仿真域图像。

图5为迁移网络的生成器结构图。

图6为抓取图像的像素级跨域迁移部分迁移结果图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

步骤1，在Vrep仿真平台中搭建与真实场景相似的仿真环境，训练推-抓操作协同策略的深度强化学习模型并在仿真环境中测试其性能；

步骤2，在真实环境中采集真实抓取场景的图像得到现实域数据集，在Vrep仿真环境中采集所搭建场景的抓取图像得到仿真域数据集，并进行相应的预处理；

步骤3，使用深度学习框架构建用于像素级领域自适应的生成对抗网络，在所采集的非配对仿真域和实物数据集上进行训练，实现将实物图像迁移为伪仿真图像并且迁移效果满足机器人推-抓场景中的任务一致性；

步骤4，将解耦训练的图像迁移模块和推-抓操作协同策略的深度强化学习模型进行级联部署，实现机器人对现实环境中物体的乱序推散和抓取。

本发明的实施，需要用到RGB-D深度传感器、机械臂以及GPU，具体实施过程中采用的是带有Geforce 1080Ti GPU的台式机一个、RealSense深度相机一个以及配置了ROBOTIQ85二指夹持器的UR5机械臂一个。

具体地，步骤1搭建的仿真环境中使用的物体模型来自大型公共数据集3Dnet，是根据现实场景中使用的15个抓取物品制作的相应大小和形态的CAD模型，具有纯色属性。同时导入软件自带的UR5机械臂和二指手爪模型并进行装配构成实验机械臂主体，导入两个视觉传感器分别获取工作空间的RGB图像和深度图像，同时，创建一个工作台和料框作为放置物体和收纳物体的空间并达到对物体位置进行约束的效果。通过以上操作就可以Vrep仿真平台中构建与现实工作空间相似的仿真场景，如图2所示。然后在仿真平台中使用动量梯度下降法对深度强化学习模型进行训练。

具体地，在步骤2中采集的现实域图像和仿真域图像为抓取场景的heightmap顶视图。为了获得顶视图，首先利用手眼标定获得相机和机械臂执行器之间的坐标转换关系，然后将深度相机获取的图像投影到3D点云上，然后在重力方向上进行正射反向投影以得到RGB通道和深度通道的顶视图。采集到的现实域和仿真域的RGB顶视图如图3所示。

为保证迁移的有效性，对采集到的RGB数据集进行预处理，对于现实域图像：

(1)利用深度图像得到每张RGB图像的掩码；

(2)利用yolov5算法训练目标检测模型，对heightmap RGB图像中15类样本进行目标检测；

(3)读取经检测模型检测后每张RGB图像中物体边界框的标注，选择每个边界框的长边并以中心扩展的方式扩展到正方形，以此方法裁剪RGB图像和对应的掩码图像；

(4)调整上述处理后所得图像的大小至112*112。

对于仿真域图像：

(1)利用掩码图像提取图像中每个物体的边界框；

(2)利用(1)产生的标注信息选择每个边界框的长边并以中心扩展的方式扩展到正方形，以此方法裁剪掩码图像和对应的RGB图像；

(3)调整上述处理后所得图像的大小至112*112。

经过以上预处理步骤得到的可用于图像迁移网络训练的数据集如图4所示。

具体地，步骤3中所述的像素级领域自适应的生成对抗网络，是一种基于多级注意力聚合及一致性约束的双向域对抗迁移网络，即通过双向循环对抗结构，实现像素级迁移的GAN网络。该网络的结构主要包括生成器网络和判别器网络。其中生成器网络(如图5所示)包括编码器和解码器结构：编码阶段，主要对渐层信息提取能力更强的CNN特征和高层语义抽象能力较强的Transformer特征进行串联编码。Transformer编码部分仅利用了原始Transformer结构中的编码器部分，即多头自注意力机制和位置编码的多层全连接前馈网络。解码阶段，使用提出的多级注意力聚合模块进行级联解码。多级注意力聚合模块可综合原有CNN层中的通道注意力和空间注意力特征，并于高层自注意力特征进行聚合，获取聚合注意力特征，更关注与待生成域相关的部分，增强图像的像素级迁移的稳健性。判别器网络基本结构为马尔可夫判别器，通过多层连接模块将不同尺度层所隐藏的判别信息进行自适应联合，构造多尺度连接马尔可夫判别器。多层连接模块的基本结构为以最低尺度输入为基础，与另外两个尺度的输入经下采样、全局池化以及全连接得到自适应权重分别进行融合，合并为最终输出。

具体地，基于多级注意力聚合及一致性约束的双向域对抗迁移网络的目标学习损失包括对抗损失、双向循环一致性损失、映射一致性损失以及任务一致性损失。

双向循环一致性损失定义如下：

映射一致性损失定义如下：

任务一致性损失定义如下：

该损失通过计算成对均方误差(PMSE)来衡量迁移前后样本像素对之间的差异，从而约束物体形状与大小的改变。其中，k_s和k_t分别为输入的源域样本x_s和目标域样本x_t中像素的个数，m_s和m_t是对应于样本x_s和x_t的物体掩码，o是Hadamard乘积，是L2范数的平方。该损失能够使迁移模型具备保持图像内物体形状的能力，同时鼓励图像前景以一致的方式改变。

具体地，基于多级注意力聚合及一致性约束的双向域对抗迁移网络的性能评价方式为：由生成器将实物抓取图像迁移为伪仿真图像，采用生成图像的FID、SSIM指标，比较由仿真器直接生成的仿真图像和伪仿真图像，如图6所示。

具体地，步骤4中基于领域自适应的机器人抓推协同策略模型部署实施方法如下：该模型的输入为RealSense深度相机拍摄得到的真实抓取场景图转化后的顶视图，包括RGB图像和深度图像。对于RGB图像，需进行以下处理：(1)利用YOLO目标检测模型对图像中所有物体进行检测。(2)使用预处理方法得到图像迁移模型所需的输入。(3)利用迁移模型中的从现实域到仿真域的生成器对图像中所有物体进行迁移并进行背景贴图。由此得到现实场景下RGB顶视图像的伪仿真域图像，并作为推-抓操作协同策略的深度强化学习抓取算法的RGB输入。对于深度图像，由于现实域和仿真域的域间差可忽略，因此直接作为推-抓操作协同策略的深度强化学习抓取算法的Depth输入。输入的RGB图像和深度图像经深度强化学习决策模型处理即可指导机器人动作执行。

Claims

1.一种含领域自适应的机器人乱序目标推抓方法，其特征在于，包括以下步骤：

步骤1，在仿真平台中搭建与真实场景相似的仿真环境，训练推-抓操作协同策略的深度强化学习模型并在仿真环境中测试其性能；

步骤2，分别在真实和仿真环境中采集抓取场景图像，通过视角变换，构建现实域和仿真域非配对的多物体顶视图数据集；分别在顶视图的RGB图I_RGB和掩码深度图上根据物体检测边界框进行图像裁剪预处理构成用于训练图像迁移网络的数据集；

步骤3，将卷积神经网络和Transformer结合，构建基于多级注意力聚合及一致性约束的双向域对抗迁移网络，在所采集的非配对仿真域和现实域的RGB-D数据集上进行训练，实现将实物图像迁移为伪仿真图像并且迁移效果满足机器人推-抓场景中的任务一致性；

2.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤1搭建的仿真环境中使用的物体模型是根据现实场景中使用的15个抓取物品制作的相应纯色CAD模型。

3.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤2中的图像裁剪预处理，是指对于收集到的现实域顶视图像使用目标检测模型检测出RGB图像中所有物体，对于收集到的仿真域顶视图像直接使用物体掩码框定所有物体，然后分别在现实域和仿真域的RGB图I_RGB和掩码深度图上，从物体中心扩展到正方形，以此方法裁剪I_RGB和/>然后把裁剪出的图像调整大小到112*112，构成用于训练图像迁移网络的数据集。

4.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤3中所述的迁移网络是基于多级注意力聚合及一致性约束的双向域对抗迁移网络，其中生成器网络包括编码器和解码器结构；编码阶段，对浅层信息提取能力更强的CNN特征和高层语义抽象能力较强的Transformer特征进行串联编码；解码阶段，使用提出的多级注意力聚合模块进行级联解码。

5.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤3中所述的基于多级注意力聚合及一致性约束的双向域对抗迁移网络，其判别器网络基本结构为马尔可夫判别器，通过多层连接模块将不同尺度层所隐藏的判别信息进行自适应联合，构造多尺度连接马尔可夫判别器。

6.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤3中所述迁移模块的目标学习损失包括对抗损失、双向循环一致性损失、映射一致性损失、任务一致性损失；

其中，表示从源域中采样带标签的样本组成的数据集，N_s是源域样本数量；/>表示从目标域中采样无标签的样本组成的数据集，N_t是目标域样本数量；

双向循环一致性损失为：

映射一致性损失为：

任务一致性损失为：

其中，k_s和k_t分别为输入的源域样本x_s和目标域样本x_t中像素的个数，m_s和m_t是对应于样本x_s和x_t的物体掩码，o是Hadamard乘积，是L2范数的平方。

7.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤1和步骤3所述的推-抓操作协同策略结合的深度强化学习模型和图像迁移模型是解耦训练的，只在部署含领域自适应的机器人乱序目标推抓模型时才将二者级联。