CN111523486A

CN111523486A - 一种基于改进CenterNet的机械臂抓取检测方法

Info

Publication number: CN111523486A
Application number: CN202010335287.9A
Authority: CN
Inventors: 王勇; 陈荟西; 冯雨齐
Original assignee: Chongqing University of Technology
Current assignee: Sichuan Jiulai Technology Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11
Anticipated expiration: 2040-04-24
Also published as: CN111523486B

Abstract

本发明公开了一种基于改进CenterNet的机械臂抓取检测方法，将待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络，第一卷积神经网络输出抓取框预测中心点坐标，第二卷积神经网络输出抓取框预测偏移向量，第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量；基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。本发明首次引入候选抓取框预测中心点检测的思想到机械臂的到抓取检测中，采用目标检测中的CenterNet网络模型，该模型不需要设置大量的超参数，使得检测更加简单，提高了机械臂抓取检测的检测速率已经对应的神经网络训练的效率。

Description

一种基于改进CenterNet的机械臂抓取检测方法

技术领域

本发明属于机器视觉技术领域，具体涉及一种基于改进CenterNet的机械臂抓取检测方法。

背景技术

近年来，随着计算机技术的发展，计算机视觉作为人工智能的一个重要研究领域，已经广泛应用于各行各业，其中基于视觉的机械臂抓取也逐渐成为当前的一个研究热点。在机械臂抓取任务中，主要有传统方法抓取和基于计算机视觉的抓取两种。传统一般是采用人工示教的方式，如手掰机械臂，使机械臂到某个固定位置进行抓取。由于抓取位姿凭靠的使记忆且机械臂自身没有感知能力，因而在执行任务时容易受到外界环境中许多不确定因素的影响。计算机视觉解决机械臂抓取问题的通常做法是，首先利用相机等采集设备对目标进行采样，然后结合模式识别、图像处理等方法分析和处理得到目标物体的空间位置和姿态等有效信息，最后利用所得信息使机械臂完成抓取动作。深度学习应用于机械臂抓取任务中的优势在于不需使用者预先选定提取何种特征，而是采用一种通用的学习过程使模型从大规模数据中学习进而学得目标具备的特征。

在深度学习的目标检测算法中，基于Anchor-based的方法使得one-stage算法性能能够挑战two-stage。同样在抓取检测中Anchor-based方法能借助预先设置的先验信息提升检测效果。在抓取检测中采用Anchor box的先验机制，可以降低了直接进行回归计算的难度。定向Anchor box先验机制，合理引入了抓取检测中旋转角度参数的先验信息，提高了检测的正确率。但Anchor-based方法严重增加了超参数的数量以及网络的复杂度，从而降低了训练的效率和检测的速率。

因此，如何提高机械臂抓取检测的检测速率已经对应的神经网络训练的效率，成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术中存在的上述不足，本发明实际需要解决的问题是：如何提高机械臂抓取检测的检测速率已经对应的神经网络训练的效率。

为解决上述技术问题，本发明采用了如下的技术方案：

一种基于改进CenterNet的机械臂抓取检测方法，包括如下步骤：

S1、获取待检测图像对应的RGB图像及深度图像；

S2、对RGB图像及深度图像进行特征融合生成RGD图像；

S3、提取所述RGD图像的特征并生成待预测特征图；

S4、将所述待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络，第一卷积神经网络输出抓取框预测中心点坐标，第二卷积神经网络输出抓取框预测偏移向量，第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量，其中，第一卷积神经网络对待预测特征图进行预测，得到中心点热力图，将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点，将值最大的候选抓取框预测中心点作为抓取框预测中心点；

S5、基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。

优选地，步骤S3包括：

S201、提取所述RGD图像的特征生成第一特征图；

S202、将第一特征图降维得到权重图；

S203、将权重图与第一特征图按对应的像素点相乘后再与第一特征图相加，得到待预测特征图。

优选地，抓取框信息包括抓取框中心点坐标x'及y'、抓取框尺寸w'及h'、抓取框旋转角度θ'，步骤S5中：

式中，

及

为抓取框预测中心点坐标，

及

为

及

对应的预测偏移量，

及

为抓取框预测尺寸，

为抓取框预测旋转角度，

为将

限制在(0,1)范围内的激活函数。

优选地，本方法基于训练后的抓取检测模型实现，所述抓取检测模型包括待预测特征图提取模型、第一卷积神经网络、第二卷积神经网络及第三卷积神经网络，在对所述抓取检测模型进行训练时，首先对待预测特征图提取模型进行预训练，再对所述抓取检测模型进行端到端的训练，其中：

第一卷积神经网络的损失函数为L₁

式中，e＝10^-6，N为候选抓取框预测中心点个数，α及β均为超参数，

为中心点热力图，Y为预处理后的标签。

综上所述，本发明公开了一种基于改进CenterNet的机械臂抓取检测方法，包括如下步骤：S1、获取待检测图像对应的RGB图像及深度图像；S2、对RGB图像及深度图像进行特征融合生成RGD图像；S3、提取所述RGD图像的特征并生成待预测特征图；S4、将所述待预测特征图分别输入第一卷积神经网络、第二卷积神经网络及第三卷积神经网络，第一卷积神经网络输出抓取框预测中心点坐标，第二卷积神经网络输出抓取框预测偏移向量，第三卷积神经网络输出抓取框预测尺寸与抓取框预测旋转角度向量，其中，第一卷积神经网络对待预测特征图进行预测，得到中心点热力图，将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点，将值最大的候选抓取框预测中心点作为抓取框预测中心点；S5、基于抓取框预测中心点坐标、抓取框预测偏移向量及抓取框预测尺寸与抓取框预测旋转角度向量计算最终的抓取框信息。同现有的Anchor-box与Anchor-free相比，本发明首次引入候选抓取框预测中心点检测的思想到机械臂的到抓取检测中，采用目标检测中的CenterNet网络模型，该模型更关注目标的中心位置，不需要设置大量的超参数，使得检测更加简单，提高了机械臂抓取检测的检测速率已经对应的神经网络训练的效率。

附图说明

图1为本发明公开的一种基于改进CenterNet的机械臂抓取检测方法的流程图；

图2为抓取框示意图；

图3为实现一种基于改进CenterNet的机械臂抓取检测方法的一种具体方式的模型示意图；

图4A至图4L为采用本发明的方法进行抓取检测时的抓取框与标签示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1所示，本发明公开了一种基于改进CenterNet的机械臂抓取检测方法，包括如下步骤：

S1、获取待检测图像对应的RGB图像及深度图像；

S2、对RGB图像及深度图像进行特征融合生成RGD图像；

用深度图像的深度信息替换RGB图像中的B通道融合成RGD图像。

S3、提取所述RGD图像的特征并生成待预测特征图；

本发明在机械臂的抓取检测中引入了关键点检测的思想，与比以往的栅格化思想相比细粒度更高。

与目标检测不同的是抓取检测具有方向性，研究人员提出由五维参数(x,y,w,h,θ)组成的抓取矩形来表示物体的待抓取位置，它仅仅在目标检测边界框的基础上加入旋转角度参数。如图2所示，(x,y)表示矩形的中心；w,h分别表示矩形的长和宽，并且w代表夹持器张开的距离，h代表夹持器自身的物理宽度；θ(0°～180°)表示矩形相对于水平轴方向的顺时针旋转角度。

CenterNet模型相比其他基于关键点的目标检测模型只需要关注目标的中心位置，并且这种基于Anchor-free的方法不需要设置大量的超参数，使得检测更加简单。而在机械臂的抓取检测中，保证抓取矩形中心位置的准确性是预测一个良好抓取矩形的重要前提，中心位置所产生的误差往往会导致矩形没有意义。所以本发明将对中心位置的预测看作一个关键点估计的问题，对CenterNet模型进行改进使其能适用于抓取检测。

本发明中，可利用提取特征能力更强的Hourglass-104作为提取待预测特征图的骨干网络，在网络输入阶段，将RGB图像和深度图像通过前期特征融合的方式变为RGD图像，经特征提取后形成128×128×256大小的待预测特征图。在预测阶段，一共分为三个部分，并且分别使用三个不同的两层卷积神经网络进行预测，其中第一部分为抓取框预测中心点，输出大小为128×128的中心点热力图，每个像素点的值代表该点的权重，权重大小的范围为[0,1]，将权重值超过一定阈值(预设阈值)的像素点作为检测出的关键点(候选抓取框预测中心点)，选择权重值最大的点作为最终的抓取框预测中心点；第二部分为关键点偏移量预测，代表候选抓取框预测中心点x和y方向上的偏移，输出大小为128×128×2的向量；第三部分为以每个候选抓取框预测中心点为中心的抓取框的长宽以及旋转角度预测，输出大小为128×128×3的向量。

同现有的Anchor-box与Anchor-free相比，本发明首次引入候选抓取框预测中心点检测的思想到机械臂的到抓取检测中，采用目标检测中的CenterNet网络模型，该模型更关注目标的中心位置，不需要设置大量的超参数，使得检测更加简单，提高了机械臂抓取检测的检测速率已经对应的神经网络训练的效率。

具体实施时，步骤S3包括：

S201、提取所述RGD图像的特征生成第一特征图；

S202、将第一特征图降维得到权重图；

在计算机视觉领域，注意力机制通常被引入来进行视觉信息处理。注意力是一种机制或者方法论，并没有严格的数学定义。在神经网络中，注意力机制可以提取图像中的显著性区域，让卷积神经网络将注意力集中在图像的感兴趣区域上，而忽略无关信息。注意力模块通常是一个额外的神经网络，能够硬性选择输入的某些部分，或者给输入的不同部分分配不同的权重。本发明在原有网络的基础上新增一个分支来提取注意力权重值，使网络更加关注图像的重点信息，从而具有更强的预测能力，有利于进行关键点检测以及回归计算。

此时整个模型如图3所示，在网络输入阶段，将RGB图像和深度图像通过前期特征融合的方式变为RGD图像，经特征提取后形成128×128×256大小的第一特征图。在注意力机制阶段，通过一层卷积神经网络将原通道数降维为1，然后对应生成大小为128×128×1的权重图，将权重图与第一特征图按像素点相乘再加上第一特征图，最后输出128×128×256大小的待预测特征图。

令特征提取后输出的第一特征图为A∈R^w×h×c,经过视觉注意力模型后形成的待预测特征图为Z∈R^w×h×c，而A→Z的注意力机制映射计算方法如下式所示：

式中，k[m,n]为一个1×1大小的卷积核，m为1，n为1，w为边界框的宽，h为边界框的高，c为关键点的类型数，等于1，而A'∈R^w×h为通过k后输出的特征图，我们使用激活函数Sigmoid直接获取A'的权重图I∈[0,1]^W×H，每个像素点的权重大小代表其注意力的强度值，最后I与第一特征图A点乘再加上A得到待预测特征图Z。

具体实施时，抓取框信息包括抓取框中心点坐标x'及y'、抓取框尺寸w'及h'、抓取框旋转角度θ'，步骤S5中：

式中，

及

为抓取框预测中心点坐标，

及

为

及

对应的预测偏移量，

及

为抓取框预测尺寸，

为抓取框预测旋转角度，

为将

限制在(0,1)范围内的激活函数。

中心点热力图为

其中W为中心点热力图宽，H为中心点热力图高，尺寸缩放比例R可取值为4，关键点类型数C可取值为1；可将抓取检测看作一个排序问题，只需寻找到一个最优的抓取框；通过寻找中心点热力图

的峰值点

来确定最大抓取矩形的中心位置，并同时输出用于修正中心位置的偏移量

以及矩形的其他参数

最终预测的抓取位置(x',y',w',h',θ')时，x',y',w',h'的预测方式和CenterNet中相同；而对于旋转角度θ'，经大量实验证明在抓取检测中旋转角度是比长和宽更加难以预测的参数，如果采用直接回归计算的方式会造成很大的误差，所以发明使用激活函数将网络输出值θ'限制在(0,1)范围内，然后再进行转换至[0,180]范围内。

具体实施时，本方法基于训练后的抓取检测模型实现，所述抓取检测模型包括待预测特征图提取模型、第一卷积神经网络、第二卷积神经网络及第三卷积神经网络，在对所述抓取检测模型进行训练时，首先对待预测特征图提取模型进行预训练，再对所述抓取检测模型进行端到端的训练，其中：

第一卷积神经网络的损失函数为L₁

为中心点热力图，Y为预处理后的标签。

本发明采用Focal Loss解决中心点热力图上关键点个数与非关键点个数不均衡带来的问题。剩余参数的损失函数，直接利用均方误差进行回归计算。

为了达到更好的检测效果以及减小训练成本，本发明可在目标检测COCO数据集上对Hourglass-104进行预训练，并在此基础上对整个模型进行端到端的训练。

在计算损失时，首先需要对抓取矩形标签进行预处理。对于真实的中心位置p，将其进行下采样得到对应关键点

然后每个像素点通过高斯核

映射到

上，σ_p表示标准方差，根据实验证明在抓取检测中σ_p取值为radius较为合理，能达到很好的效果，其中radius为高斯半径，计算方式如下：

其中w,h分别为抓取框的长和宽，而λ为康奈尔抓取数据集评估中的IOU阈值，可取值为0.25。

本发明使用五倍交叉验证的方式对本发明公开的技术方案的效果进行评估。其中对于训练集和测试集的划分存在两种不同的方式，分别为图像分割和对像分割。

图像分割是指将数据集中的所有图像按五折随机划分，训练集和测试集的图像比例分别为4：1。这有助于评估模型对不同位置和姿态的物体检测的性能。

对像分割是指将数据集中的所有对象实例按五折随机划分，训练集和测试集的对象比例分别为4：1。这有助于评估模型对没见过对象检测的性能。

并且按照康奈尔抓取数据集上的矩形度量标准对结果进行评估：如果预测出的抓取矩形G与任意一个正矩形标签G'同时满足以下两个条件，则认为该矩形是一个正确的抓取位置。

|G_θ-G'_θ|＜30°

其中|G_θ-G'_θ|＜30°为预测矩形与正矩形标签的角度大小相差小于300。条件

为预测的矩形与正矩形标签的Jaccard相似系数大于25％。

表1显示了本发明与方法分别在图像分割和对象分割上的抓取检测结果。

本发明中分别给出了模型中无注意力机制和有注意力机制的检测结果。如果不加入注意力机制，在图像分割和对象分割上的正确率分别为97.7％，94.8％。而加入注意力机制的结果为98.3％，96.7％，分别提高了0.6％，1.9％。

方法1至5提出的模型均采用Anchor-free的方法，可以看出本发明的方法(包括注意力机制)在准确率上，相比方法1中的模型分别大幅度提高了24.4％，22.1％；相比方法2中的模型提高了10.3％，9.6％；相比方法3中的并行网络结构提高了9.09％，7.74％；相比方法4中的模型提高了11.9％，12％；相比Anchor-free方法中表现最好的方法5提高了4.2％，3.4％，并且本发明的模型满足端到端的训练，结构更加简单。

方法6至方法8采用的是基于Anchor-based的方法，可以看出本发明的方法(包括注意力机制)在准确率上，相比方法6的传统Anchor box机制分别提高了5.1％，7.6％；相比方法7的模型分别提高了2.3％，0.6％；相比方法8提出的表现较好的定向Anchor box机制分别提高了0.6％，0.1％。

实验结果表明，本发明的方法的准确率领先于现有的其他Anchor free模型；而且能超过大部分基于Anchor based的模型，同时减少了大量超参数的设置。

此外，如图4A至图4L所示，本发明对检测的部分结果进行了可视化，其中边框为浅色的矩形是给定目标的正矩形标签，边框为深色的矩形是由关键点检测中置信度最高的点以及该点对应的其他参数组成的抓取矩形。可以采用本发明的方法，检测结果几乎与标签完全重合。

方法1出自Lenz I,Lee H,Saxena A.Deep learning for detecting roboticgrasps[J].The International Journal of Robotics Research,2015,34(4-5):705-724.

方法2出自Redmon J,Angelova A.Real-time grasp detection usingconvolutional neural networks[C].IEEE International Conference on Roboticsand Automation(ICRA),2015,1316-1322.

方法3出自Kumra S,Kanan C.Robotic grasp detection using deepconvolutional neural networks[J].IEEE International Conference on IntelligentRobots and Systems(IROS),2017,769-776.

方法4出自Chen L,Huang P F,Meng Z J.Convolutional Multi-GraspDetection using Grasp Path for RGBD[J].Robotics and Autonomous Systems,2019,113:94-103.

方法5出自喻群超，尚伟伟，张驰.基于三级卷积神经网络的物体抓取检测[J].机器人，2018，40(5)：762-768.

方法6出自Guo D,Sun F,Liu H,et al.A hybrid deep architecture forrobotic grasp detection[C].IEEE International Conference on Robotics andAutomation(ICRA),2017,1609-1614.

方法7出自Chu F J,Xu R,Vela P.Real-world Multi-object,Multi-graspDetection[J].IEEE Robotics and Automation Letters,2018,3,3355-3362.

方法8出自Zhou X,Lan X,Zhang H,et al.Fully Convolutional GraspDetection Network with Anchor Box[C].IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS),2018,7223-7230.

以上仅是本发明优选的实施方式，需指出是，对于本领域技术人员在不脱离本技术方案的前提下，还可以做出若干变形和改进，上述变形和改进的技术方案应同样视为落入本申请要求保护的范围。

Claims

1.一种基于改进CenterNet的机械臂抓取检测方法，其特征在于，包括如下步骤：

S1、获取待检测图像对应的RGB图像及深度图像；

S2、对RGB图像及深度图像进行特征融合生成RGD图像；

S3、提取所述RGD图像的特征并生成待预测特征图；

2.如权利要求1所述的基于改进CenterNet的机械臂抓取检测方法，其特征在于，步骤S3包括：

S201、提取所述RGD图像的特征生成第一特征图；

S202、将第一特征图降维得到权重图；

3.如权利要求1或2所述的基于改进CenterNet的机械臂抓取检测方法，其特征在于，抓取框信息包括抓取框中心点坐标x'及y'、抓取框尺寸w'及h'、抓取框旋转角度θ'，步骤S5中：

式中，

及

为抓取框预测中心点坐标，

及

为

及

对应的预测偏移量，

及

为抓取框预测尺寸，

为抓取框预测旋转角度，

为将

限制在(0,1)范围内的激活函数。

4.如权利要求1所述的基于改进CenterNet的机械臂抓取检测方法，其特征在于，本方法基于训练后的抓取检测模型实现，所述抓取检测模型包括待预测特征图提取模型、第一卷积神经网络、第二卷积神经网络及第三卷积神经网络，在对所述抓取检测模型进行训练时，首先对待预测特征图提取模型进行预训练，再对所述抓取检测模型进行端到端的训练，其中：

第一卷积神经网络的损失函数为L₁

为中心点热力图，Y为预处理后的标签。