CN113822933B

CN113822933B - 一种基于ResNeXt的智能机器人抓取方法

Info

Publication number: CN113822933B
Application number: CN202111056444.3A
Authority: CN
Inventors: 韩慧妍; 王文俊; 张元�; 杨晓文; 薛红新
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-09-29
Anticipated expiration: 2041-09-09
Also published as: CN113822933A

Abstract

本发明属于机器人视觉技术领域，具体涉及一种基于ResNeXt的智能机器人抓取方法。为克服现有抓取技术不能在检测速度和精度取得平衡的缺点，本发明生成真值图时，将标注按角度分类，高斯化的抓取质量图，构建的深度学习网络模型包括两次下采样、堆叠多次ResNeXt组成的的瓶颈层、两次上采样和并行的卷积构成的输出，得到输出后与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，将拍摄到的深度图像输入到训练好的深度网络模型得到像素级预测输出，将像素级预测输出转换至机器人坐标抓取，利用机器人操作系统执行抓取。

Description

一种基于ResNeXt的智能机器人抓取方法

技术领域

本发明属于机器人视觉技术领域，具体涉及一种基于ResNeXt的智能机器人抓取方法。

背景技术

机器人是衡量国家创新能力的重要指标。作为更接近消费端的服务机器人，在人口老龄化加剧以及劳动力成本上升等因素推动下，未来市场发展空间非常广阔。

在服务机器人所需功能中，机器人抓取是实现机器人与现实世界交互的基本手段。人类看到放置在平台上的物体，可以立即决定如何对其抓取，但是对机器人来说，这是相当具有挑战性的任务。数十年来，为使机器人抓取达到媲美人类的灵巧程度，学术界和科研界都在不断努力。基于视觉的机器人抓取方法通常可以分为以下两类：一类是分析方法，使用几何方式分析目标物体的形状，同时根据物理模型，力学分析等确定一个合适的抓取，这种方法需要精确的模型计算，不仅费时，而且泛化能力差。另一类是数据驱动方法，又称经验方法，这类方法往往使用深度学习的方式，仅需将工作台的RGB或深度图像及抓取标注作为输入，大大减少了人类的工作量，在最近几年逐渐成为主流。

更短的产品生命周期和不断增长的定制需求要求更灵活和多变的生产系统，从而催生自动化配置(即插即用)机器人系统的研究。对依赖于规则运行的机器人而言，在动态、未知和非结构化环境操作(例如，捡垃圾，家庭或日常环境，专业服务等)中分析方法难以给予合适的数学描述。数据驱动方法能够自动适应给定任务，而无需任何人工干预的机器人抓取方法，将大大减少编程工作和开发难度，有重要意义。

数据驱动方法主要依靠深度学习，而基于深度学习的机器人抓取根据工作方式不同又可分为判别式和生成式方法。基于判别的方法首先采样抓取候选样本，并用神经网络对候选样本进行排序，得到最终抓取位姿，此类方法由于使用了两阶段的深度学习，通常在时间上是昂贵的。生成式的方法极大地缩减了检测时间，但是在精度上还有待提高。针对上述问题，有必要提出要一种高精度的生成式机器人智能抓取方法，兼顾检测时间和准确率。

ResNeXt是ResNet和Inception的结合体，在图像分类任务中被提出。ResNeXt本质是分组卷积结构的残差网络，通过改变基数(Cardinality)来控制组的数量，利用GPU等并行计算设备的优势，大大缩减了运行时间；同时由于每个基数的每个分支都具有相同的拓扑，故而大幅减少了参数数量。实验证明，ResNeXt比Inception的超参数更少，并且相同参数量的情况下，在更多的应用场景下表现好于ResNet。ResNeXt结构简单，具有更好的通用性，使其成为轻量级网络的优选。

发明内容

现有生成式抓取检测方法，在生成真值图时，同一抓取点多个抓取标注矩形导致标注值覆盖的情况，严重影响了模型抓取准确率。同时，更深的网络虽然能够提供更高的准确率，但是时间的成本也是随之上升。

为克服现有抓取技术不能在检测速度和精度取得平衡的缺点，本发明提供了一种基于ResNeXt的智能机器人抓取方法，主要解决以下问题：(1)网络过深导致的参数量及时间增长问题；(2)标注堆叠产生歧义导致生成式抓取检测精度有限，进而影响抓取成功率的问题。

为了达到上述目的，本发明采用了下列技术方案：

一种基于ResNeXt的智能机器人抓取方法，包括以下步骤：

步骤1，采集原始数据：使用RGB-D相机拍摄所要抓取的物体，得到RGB图像和对应的深度图像，并使用MATLAB标注程序代码在拍摄的RGB图像上画出抓取矩形完成标注；

步骤2，生成训练数据：根据标注生成像素级真值图；

步骤3，构建深度网络模型：所述深度学习网络模型包括输入块、下采样块、瓶颈块、上采样块、输出块；

所述输入块仅使用1维300×300深度图输入；

所述下采样块先通过卷积核为9的大尺寸二维卷积扩充通道数到32层，再通过两个同样的核为4的二维卷积完成两次下采样，每次下采样后通道数翻倍，每层卷积后都做批归一化和ReLU激活，下采样完成后得到128×75×75的特征图；

所述瓶颈块由5层同构ResNeXt块构成，每个ResNeXt块构造如下：输入128×75×75特征图，通过核为1的二维卷积升维到256；再经过核为3，分组数为32的分组卷积进一步提取特征；核为1的卷积完成特征聚合，并降维到128；输出特征与输入完成残差相加得到输出；其中第一、三个卷积分别完成通道数的缩减及扩充，第二个卷积是分组卷积，三次卷积处理后的特征与输入构成残差连接。

所述上采样块每次转置卷积都跟随批归一化和ReLU激活函数，每次上采样都将通道数减半，第一次上采样后特征为64×151×151大小，第二次后得到32×301×301维特征；

所述输出块先经过一次核为9、步长为1、padding为4的转置卷积，再通过6个并行的核为2的普通卷积得到分任务输出，均不跟随批归一化层和激活函数，最终得到6幅预测图，分别为L`、Q``、O、COS、SIN、W`；

步骤4，训练深度网络模型，将拍摄到的深度图像进行预处理后，输入到深度网络模型，得到输出后与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，根据真值图的不同特性，目标函数计算二进制交叉熵损失和均方误差损失，优化器由Adam优化算法完成；

步骤5，抓取预测，拍摄到的深度图像输入到训练好的深度网络模型得到像素级预测输出：抓取质量分数图Q`，抓取角度图Φ`，抓取宽度图W`，搜索Q`中值最大的像素所在坐标(u,v)，用此坐标在Φ`和W`中分别得到对应的抓取角度θ和抓取宽度w，构成完整抓取预测，至此，得到像素坐标抓取预测，如公式(2)所示：

其中，Q`(u,v)表示(u,v)抓取点坐标对应的质量分数，SIN(u,v)表示(u,v)抓取点坐标对应的SIN值，COS(u,v)表示(u,v)抓取点坐标对应的COS值，W`(u,v)表示(u,v)抓取点坐标对应的宽度，arctan()表示反三角函数；

步骤6，坐标变换，根据RGB-D相机与机器人之间的手眼标定，将像素坐标抓取预测转换到机器人坐标抓取，如公式(3)所示：

G＝T_Extri(T_Intri(g,z_c)) (3)

其中，g表示像素坐标抓取预测，z_c表示抓取矩形中心距离相机的距离，T_Intri表示相机内参，T_Extri表示相机外参；

手眼标定由ROS(机器人操作系统)中的easy_handeye功能包完成，利用标定生成矩阵计算机器人坐标系下抓取点的位置。

步骤7，执行抓取，使用机器人操作系统中的Moveit功能包控制机器人发送位姿指令，使用IKFast算法用作逆运动学求解。机器人接受运动命令，到达预抓取位置，张开抓取执行器两指末端至机器人坐标下抓取宽度大小，控制机器人到达抓取位姿，闭合执行器，回到预抓取位姿，到达指定放置位置，松开执行器放置物品到目标点，抓取完成。

进一步，所述步骤1中RGB-D相机与所要抓取的物体自顶向下距离大于30cm，小于100cm。

进一步，所述步骤2中根据标注生成像素级真值图，具体步骤如下：

步骤2.1，首先选取抓取矩形抓取方向中心1/3部分做为蒙版，根据蒙版所在抓取矩形抓取方向的不同，将蒙版分为三个类class₁＝[-π/2,-π/6)、class₂＝[-π/6,π/6)、class₃＝[π/6,π/2)，绘制到3幅蒙版图中；

步骤2.2，按照蒙版图绘制四种类型真值图：质量分数真值图Q中，蒙版处置1；抓取角度真值图Φ中，蒙版处填充抓取角度值，范围在[-π/2,-π/2)；抓取宽度不需要按角度分类，三幅蒙版图绘制到一张抓取宽度真值图W中，蒙版处设为抓取宽度W；将三幅蒙版图绘制到一张抓取位置注意图L`中，蒙版处设为1。

进一步，所述步骤4中预处理具体为：将步骤1中深度图像裁切到300×300像素并归一化，然后随机左右旋转30°以内，水平、垂直翻转，随机裁切中心1/2。

进一步，所述步骤4中得到输出后与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，具体步骤为：

非二值化的Q``、W`采用均方误差损失函数；COS、SIN和Φ对应的cos和sin值做均方误差损失；COS和SIN应按照三角函数关系约束公式sin²α+cos²α＝1做Loss_MSE(COS²,1-SIN²)的角度损失，系数设为0.5；Q向上取整代替O的真值，对二值化的注意力图O和L`做二进制交叉熵损失；还需计算Q`＝L×O×Q``与质量分数真值图Q的均方误差损失，损失函数如式(1)所示，计算目标函数，反向传播调整模型参数，直至网络收敛；

式(1)中，L_MSE()表示均方误差损失函数，L_BCE()表示二进制交叉熵损失函数，Loss表示总损失函数，表示Q向上取整。

进一步，所述步骤5中搜索Q`中值最大的像素所在坐标(u,v)由numpy中的argmax()和unravel_index()完成。

进一步，所述步骤5中抓取质量图Q`的获取方法为：L和O分别做为抓取位置和方向的注意图，Q``乘以L将角度类别之间异常值去除，再乘以O过滤角度类别内的异常值，得到最终抓取质量图Q`；所述抓取角度图Φ`的获取方法为：角度对应的COS、SIN值一起代入反三角函数求得预测角度Φ`。

与现有技术相比本发明具有以下优点：

1.生成真值图时，将标注按角度分类，解耦角度纠缠，减缓了标注重叠导致的模型理解困难的问题。同时，高斯化的抓取质量图帮助提高抓取中心位置的重要性，进一步提高准确率。

2.瓶颈层采用同构ResNeXt模块，简化网络模型，ResNeXt中的分组卷积在保证精度的同时，对缩减参数量及检测时间有着重要作用，使用ResNeXt模块后，整体模型参数量由1.90M缩减到0.88M，使其可以运行在更低配置的机器上。

3.采用生成式基于ResNeXt的机器人抓取，在使用显卡加速的情况下，检测速度可达单次13ms，在Cornell和Jacquard公开抓取数据集实验分别得到95.5％和94.4％检测精度，优于现有生成式和判别式深度学习抓取方法。

附图说明

图1是RGB图像矩形标注示意图；

图2是绘制所得真值图与原真值图的对比；

图3是瓶颈块结构示意图；

图4是整体网络结构；

图5是抓取预测结果。

具体实施方式

实施例1

一种基于ResNeXt的智能机器人抓取方法，其特征在于，包括以下步骤：

步骤1，采集原始数据：使用Intel Realsense RGB-D深度相机拍摄置于平台上的所要抓取的物体，得到640×480像素大小的RGB图像和对应的深度图像，并使用MATLAB图像标注程序在拍摄的RGB图像上画出抓取矩形完成标注；

Intel Realsense RGB-D深度相机与所要抓取的物体自顶向下距离大于30cm，小于100cm；

参阅图1，其中(x,y)表示抓取矩形的中心，即抓取点的像素坐标(抓取点)；w表示像素坐标下抓取宽度，即抓取执行器两指末端张开距离；h值固定为h＝w/2；θ表示抓取方向(矩形长边方向)与水平正方向(向右)的夹角，由于对跖抓取的对称性，范围在[-π/2,-π/2)。对一幅图进行多次标注，覆盖绝大部分可能的抓取位置。

步骤2，生成训练数据：生成式深度学习抓取检测本质上来自图像分割任务，需要像素级标注，所以要使用步骤1中的矩形标注生成对应的像素级真值图，根据标注生成像素级真值图，具体步骤如下：

步骤2.2，按照蒙版图绘制四种类型真值图：质量分数真值图Q中，蒙版处置1；抓取角度真值图Φ中，蒙版处填充抓取角度值，范围在[-π/2,-π/2)；抓取宽度不需要按角度分类，三幅蒙版图绘制到一张抓取宽度真值图W中，蒙版处设为抓取宽度W；为了提高网络模型对抓取位置的注意力，将三幅蒙版图绘制到一张抓取位置注意图L`中，蒙版处设为1。

另外，针对原方法最优抓取点不够集中的缺点，为突出蒙版中心位置抓取概率最大的特性，用另一个蒙版，由原蒙版所在矩形对应宽高的高斯核K构成，K与Q相乘，并将小于0.9的点设为0.9，得到高斯化质量分数图Q，如下公式所示，其中u₀＝min_u(mask)，σ_u＝max_u(msak)-min_u(mask)，v₀，σ_v同理。绘制所得真值图参阅图2。可以看到，与原方法GGCNN(图2右)相比，本发明的抓取质量图在蒙版中心具有突出的抓取质量，高于蒙版其余位置。在角度图中，重叠的覆盖值情况大幅减少，整个抓取图抓取位置颜色基本同一。

步骤3，参阅图4，构建深度网络模型：所述深度学习网络模型包括输入块、下采样块、瓶颈块、上采样块、输出块；

所述输入块仅使用1维300×300深度图输入，加快处理时间；

参阅图3，所述瓶颈块由5层同构ResNeXt块构成，每个ResNeXt块构造如下：输入128×75×75特征图，通过核为1的二维卷积升维到256；再经过核为3，分组数为32的分组卷积进一步提取特征；核为1的卷积完成特征聚合，并降维到128；输出特征与输入完成残差相加得到输出；

所述输出块先经过一次核为9、步长为1、padding为4的转置卷积，再通过6个并行的核为2的普通卷积得到分任务输出，均不跟随批归一化层和激活函数，以方便突出像素级的一些细节信息，最终得到6幅预测图，分别为L`、Q``、O、COS、SIN、W`；

步骤4，训练深度网络模型，将拍摄到的深度图像进行预处理后，预处理：将步骤1中深度图像裁切到300×300像素并归一化，然后随机左右旋转30°以内，水平、垂直翻转，随机裁切中心1/2，输入到深度网络模型，得到输出后与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，具体方法为：

步骤5，抓取预测，拍摄到的深度图像输入到训练好的深度网络模型得到像素级预测输出：抓取质量分数图Q`，抓取角度图Φ`，抓取宽度图W`，搜索Q`中值最大的像素所在坐标(u,v)，用此坐标在Φ`和W`中分别得到对应的抓取角度θ和抓取宽度w，构成完整抓取预测，至此，得到像素坐标抓取预测(检测结果示例参阅图5)，如公式(2)所示：

搜索Q`中值最大的像素所在坐标(u,v)由numpy中的argmax()和unravel_index()完成；

抓取质量图Q`的获取方法为：L和O分别做为抓取位置和方向的注意图，Q``乘以L将角度类别之间异常值去除，再乘以O过滤角度类别内的异常值，得到最终抓取质量图Q`；所述抓取角度图Φ`的获取方法为：角度对应的COS、SIN值一起代入反三角函数求得预测角度Φ`

步骤6，坐标变换，根据RGB-D相机与机器人之间的手眼标定，将像素坐标抓取转换到机器人坐标抓取，如公式(3)所示：

G＝T_Extri(T_Intri(g,z_c)) (3)

步骤7，执行抓取，使用机器人操作系统中的Moveit功能包控制机器人发送位姿指令，使用IKFast算法用作逆运动学求解，机器人接受运动命令，到达预抓取位置，张开抓取执行器两指末端至机器人坐标下抓取宽度大小，控制机器人到达抓取位姿，闭合执行器，回到预抓取位姿，到达指定放置位置，松开执行器放置物品到目标点，抓取完成。

实施例2

数据集实验评价标准：

本实施例使用矩形度量做为本发明设计的网络进行评价指标，当预测抓取矩形和真实矩形满足以下关系时，被认为是一次合格的抓取：

1.预测矩形与真实标注矩形的抓取方向角度偏差在30°以内。

2.预测矩形与真实标注矩形的jaccard相似系数大于25％，如以下公式所示：

其中g_p表示预测框，g_t为真实框，|g_p∩g_t|表示两者的交集，|g_p∪g_t|两者并集区域。

数据集实验环境：

本实施例在ubuntu20.04操作系统上完成数据集实验，具体配置包括CoreTM i7-9700CPU，频率为3.00GHz，16GB内存，显存8G的NVIDIA RTX 2070SUPER显卡，CUDA10.2加速工具箱，Pytorch1.7深度学习框架。

数据集实验：

同GGCNN一样，本发明在常见抓取检测数据集Cornell，Jacquard给出实验结果，划分90％的数据用于训练，10％的数据用来测试训练结果。使用Adam优化器，学习率为0.001，批大小为8，一次迭代包括1000个批次。Jacquard数据集训练时迭代50次；Cornell数据集训练时使用Jacquard预训练模型，一次迭代设500个批次，迭代5次，打乱训练数据(IW)测试对同一对象不同姿态泛化能力，顺序读取训练数据(OW)测试对新对象的泛化能力。实验结果如下。

表1不同方法Jacquard数据集实验结果

表2不同方法Cornell数据集实验结果

消融实验：

为了验证本实施例所使用方法的有效性，在Jacquard数据集的消融实验如表3所示。可以看到，质量图高斯化可以带来约0.4％的精度提升。在加入角度离散后，可以极大地提升模型的检测精度，高达1.7％。这证明了本实施例使用的方法在抓取检测中有重要作用。

表3 Jacquard消融实验

本实施例在Cornell和Jacquard公开抓取数据集实验，相较于生成式方法GGCNN系列的73％和84％的准确率，本发明达到了95.5％和94.4％，单次检测速度仅13ms，满足实时要求，平衡了检测速度与精度。

Claims

1.一种基于ResNeXt的智能机器人抓取方法，其特征在于，包括以下步骤：

步骤1，采集原始数据：使用RGB-D相机拍摄所要抓取的物体，得到RGB图像和对应的深度图像，并使用MATLAB图像标注程序在拍摄的RGB图像上画出抓取矩形完成标注；

步骤2，生成训练数据：根据标注生成像素级真值图；

所述输入块仅使用1维300×300深度图输入；

所述瓶颈块由5层同构ResNeXt块构成，每个ResNeXt块构造如下：输入128×75×75特征图，通过核为1的二维卷积升维到256；再经过核为3，分组数为32的分组卷积进一步提取特征；核为1的卷积完成特征聚合，并降维到128；输出特征与输入完成残差相加得到输出；

步骤4，训练深度网络模型，将拍摄到的深度图像进行预处理后，输入到深度网络模型，得到输出后与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛；

G＝T_Extri(T_Intri(g,z_c)) (3)

2.根据权利要求1所述的一种基于ResNeXt的智能机器人抓取方法，其特征在于，所述步骤1中RGB-D相机与所要抓取的物体自顶向下距离大于30cm，小于100cm。

3.根据权利要求1所述的一种基于ResNeXt的智能机器人抓取方法，其特征在于，所述步骤2中根据标注生成像素级真值图，具体步骤如下：

4.根据权利要求1所述的一种基于ResNeXt的智能机器人抓取方法，其特征在于，所述步骤4中预处理具体为：将步骤1中深度图像裁切到300×300像素并归一化，然后随机左右旋转30°以内，水平、垂直翻转，随机裁切中心1/2。

5.根据权利要求1所述的一种基于ResNeXt的智能机器人抓取方法，其特征在于，所述步骤4中得到输出后与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，具体步骤为：

6.根据权利要求1所述的一种基于ResNeXt的智能机器人抓取方法，其特征在于，所述步骤5中搜索Q`中值最大的像素所在坐标(u,v)由numpy中的argmax()和unravel_index()完成。

7.根据权利要求1所述的一种基于ResNeXt的智能机器人抓取方法，其特征在于，所述步骤5中抓取质量图Q`的获取方法为：L和O分别做为抓取位置和方向的注意图，Q``乘以L将角度类别之间异常值去除，再乘以O过滤角度类别内的异常值，得到最终抓取质量图Q`；所述抓取角度图Φ`的获取方法为：角度对应的COS、SIN值一起代入反三角函数求得预测角度Φ`。