CN114092766A

CN114092766A - 一种基于特征注意力机制的机器人抓取检测方法

Info

Publication number: CN114092766A
Application number: CN202111406277.0A
Authority: CN
Inventors: 于秀丽; 董明帅; 魏世民; 白宇轩; 吴澍; 周麟坤; 杨奉豪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-25

Abstract

本发明公开了一种基于特征注意力机制的机器人抓取检测方法，该方法提出使用注意力机制，引导抓取检测器关注于目标物体本身的特征。使得机器人能够根据目标物体自身的类别、结构及纹理特征预测该物体最合理的抓取位置。通过这种方法减小了抓取检测器的检测范围，降低了对物体抓取检测没有贡献的背景信息的影响，提高了抓取检测模型的效率。另外，这种在杂乱场景中专注于目标本体特征的抓取检测方式，更契合人类的抓取习惯，进一步推动了机器人抓取检测的智能化过程。

Description

一种基于特征注意力机制的机器人抓取检测方法

技术领域

本发明涉及深度学习、图像识别以及机器人控制领域，是一种基于特征注意力机制的机器人抓取检测方法。

背景技术

随着当前深度学习技术的发展，计算机对于环境的感知能力也得到了极大的增强。同时也进一步提升了机器人自主感知、自主规划的能力。抓取作为工业机器人和辅助机器人的一项基本技能一直是当前机器人领域一个重要的研究方向。随着深度学习技术在机器人领域的应用，机器人对于目标物体的感知方法和抓取位置的预测方法发生了很大的改变。对于目标的感知技术由之前的靶标或边缘识别方法逐渐转化为基于像素特征的方法；对于抓取位置的检测方法由之前3D模型匹配或者手工特征匹配方法转化成基于图像特征的预测方法。在此基础上，抓取位置的表示方式也转化为简单的五维矩形抓取表示{x,y,θ,w,h}，如图2所示。其中(x,y)为矩形抓取表示的中心点像素坐标，同时也是机器人夹爪中心点要到达的位置；θ为抓取矩形长边与水平方向的夹角，即机器人夹爪张开方向与水平方向的夹角；(w,h)分别表示抓取矩形的宽和高，即夹爪张开的距离以及夹爪的宽度。

当前现有的机器人抓取检测方法是针对整个场景的抓取检测，没有像人一样先找到目标物体，然后针对目标物体的特征进行抓取检测。在这种情况下杂乱的背景会影响模型的抓取检测精度。另外，模型没有识别物体的能力，只对局部的抓取位置敏感，容易产生错误的或者不合理的抓取预测。

因此，如何提供一种引导机器人抓取检测注意力的机制，使得机器人能够更多的关注于目标物体本身的特征，并根据目标的特征生成抓取位置，是当前亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于特征注意力机制的机器人抓取检测方法，该方式采用多任务处理机制，其中一项任务为检测模型输入图像中物体的廓落信息，该轮廓信息会作为注意力信号突出场景中目标位置的特征；第二项任务为抓取检测，根据注意力机制给出的特征预测该目标的抓取配置。通过这种方法，引导抓取检测模型更多的关于目标物体本体对特征，降低了对抓取检测贡献不大的背景特征上的资源消耗。同时，该方法使得模型具有物体整体的概念，是根据物体的轮廓以及纹理特征预测生成的抓取配置，因此生成的抓取配置相对于传统方法更加合理。

此外，在多目标场景中，我们提出了一中更加科学的抓取检测方法。即根据注意力机制的引导，对场景中的物体一个一个进行抓取检测，而不是像传统方法一样一次性将场景中所有可能的抓取位置全部检测出来。本发明提出的方法更加符合人类的抓取习惯，同时也使得模型能够更好的应用于动态的场景。

一方面，本申请实施例提供的一种基于特征注意力机制的机器人抓取检测方法，包括：

数据集(Cornell抓取检测数据集和BUPT数据集)中图像包含的物体区域位置及类别的标定及预处理；

进一步地，所述步骤对数据集(Cornell抓取检测数据集和BUPT数据集)中图像包含的物体区域位置标定和类别标定，具体包括利用Photoshop软件自动生成物体的轮廓信息并手动填充该轮廓所对应的物品类别或者采用labelme图像标注工具手工标注图像中物体的轮廓及其类别。

进一步地，所述步骤数据集的预处理，对完成标定的Cornell抓取检测数据集和BUPT数据集区分训练集和测试集，在本发明中以4:1的比例将数据集分成训练集和测试集。

进一步地，所述步骤数据集的预处理，对完成标定的Cornell抓取检测数据集和BUPT数据集分别做数据预处理操作，使处理后的数据满足模型的输入输出需求。具体包括图像数据的处理、数据集的扩展以及抓取位置等标注参数的编码三部分。其中，图像数据的处理包括图像的裁剪，将原始数据集中图像裁剪为480*480以适应模型的需求；其次为将数据集的深度图像标准化后替换RGB图像的蓝色通道，组成RGD图像，以使得物体所在的区域特征更加明显。数据扩展是为了增加训练集的数量，减少模型在训练过程中的过拟合现象，在本发明中用的扩展方法为旋转，将图像在0°-340°内均匀旋转18次。抓取位置等标注参数的编码是将抓取位置，目标轮廓以及目标类别等标注信息进行编码操作，以方便模型的训练和测试。抓取位置的编码方式为将数据集中以(x_min,y_min,x_max,y_max)表示的抓取矩形编码为以{x,y,w,h}表示的抓取矩形位置和形状以及以θ_class表示的矩形角度类别的形式；目标轮廓的编码为将物体轮廓位置信息编码为8-bit的灰度图像；物体类别信息按照类别顺序编码为对应的整型数据。

进一步地，所述步骤数据集的预处理中抓取位置的编码方法将数据集中以(x_min,y_min,x_max,y_max)表示的抓取矩形编码为以{x,y,w,h}表示的抓取矩形位置和形状以及θ_class表示的矩形角度类别的形式。其中(x,y)表示抓取矩形的中心点，w和h表示抓取矩形的宽和高。此外，在本发明中将连续的角度数据转化为离散的类别数据，其具体编码方式为在-90°-90°的角度区间内将角度数据分为18个类别，角度类别映射方式如式1所示：

其中θ为连续的角度数据，round()为向上取整操作。

构建基于特征注意力机制的抓取检测模型；

进一步地，所述步骤构建基于特征注意力机制的抓取检测模型，模型有特征提取主干单元、特征融合单元、注意力机制以及抓取检测器等四部分组成，具体细节如图1所示。本发明中采用VGG-16网络作为特征提取主干单元，用于对输入图像的特征提取和编码工作；特征融合单元为将主干网络编码后的特征进行上采样操作，并依次与上一层网络进行级联，生成四层公共特征层(C1-C4)用于后续的注意力模块和抓取检测器；注意力机制单元主要用于寻找输入图像中目标物体的特征区域，为抓取检测器提供特征位置的引导。其具体实现方式为通过对C1特征图做基于多分类的语义分割操作，将场景中的不同目标以及背景的特征区域区分开来，生成包含单一目标类别和特征区域的二进制权重向量，并且根据抓取需求将对应类别的权重向量与特征图做Hardmard乘积，突出场景中的目标特征；抓取检测器为根据注意力机制提供的目标特征，预测生成针对该类型目标物体的抓取配置。

使用ImageNet数据集训练模型的特征提取网络；

进一步地，所述步骤使用ImageNet数据集训练模型的特征提取网络中，使用ImageNet数据集对VGG-16主干网络进行以目标检测为目的的预训练，训练VGG-16对于不同目标物体的特征提取能力。

使用公开的Cornell抓取数据集和BUPT数据集对模型进行训练和测试；

进一步地，所述步骤使用公共的Cornell抓取数据集和BUPT数据集对模型进行训练，在本发明中使用公开的Cornell抓取检测数据集对模型进行训练用于验证本发明所提出的注意力机制的有效性。使用BUPT数据集训练模型用于验证本发明所提出的方法在真实实验环境下抓取检测的准确率。

进一步地，所述步骤使用公共的Cornell抓取数据集和BUPT数据集对模型进行训练，本发明所提出的基于特征注意力机制的抓取检测模型为多任务模型，分别包含目标位置检测分支和抓取检测分支。因此，在模型训练过程中包含两部分损失函数分别是用于目标位置检测的分割损失函数和用于抓取检测的抓取框位置回归损失和角度分类损失。

进一步地，本发明使用交叉熵函数作为分割损失，如式2所示：

其中N为数据集中物品种类的数量；p为不同类型物品的one-hot编码，当物品类别属于i时p_i＝1否则p_i＝0；

为模型预测值的概率分布，

表示该目标属于第i类物体的概率。

在本发明中，使用Smooth L1作为抓取矩形预测的回归损失。对于多目标场景，该模型根据语义分割的结果，逐个预测目标的抓取配置。因此，模型训练过程中的回归损失由不同的目标损失值组成。另外，对于不同预测目标的在训练过程中ground-truth的选择问题，本发明提出根据数据集中标注的ground-truth的中心点的位置是否在该目标所包含的像素区域范围内作为判断标准。本发明将目标对象像素区域中包含的图像注释视为ground-truth。基于此，抓取检测分支的抓取框位置回归损失如式3所示。

其中，n为图像中物体的类别数量；t表示抓取矩形的四个参数的向量{x,y,w,h}；

为模型的预测值，t_m为该目标物体所对应的ground-truth。

本发明采用分类的方式对抓取矩形的角度进行预测，角度预测的分类损失采用交叉熵的形式如式4所示。

其中，k为角度的类别数量在此为18；θ为角度类别的one-hot编码，当该抓取框的角度属于第i类时θ_i＝1；

是模型的预测值，表示当前抓取框的角度属于第i类的概率。

综上，在本发明中抓取分支的损失函数可以表示为：

L_Grasp({t},{θ})＝L_reg(t)+L_cls(θ) (5)

模型总体损失函数为：

L_total＝L_Seg+αL_Grasp (6)

在本发明中，基于目标区域分割的注意力机制是决定抓取检测模型准确率的重要因素，因此，在最终损失函数中我们设置α＝0.5作为超参数，引导模型更多的关注目标分割的性能。

进一步地，所述步骤使用公共的Cornell抓取数据集和BUPT数据集对模型进行训练，在模型训练过程中采用Adam作为模型的优化器，从而根据损失的梯度优化模型各个层的参数。在本发明中优化器的学习率设置为0.001，学习率的衰减系数为0.0008。

进一步地，所述步骤使用公共的Cornell抓取数据集和BUPT数据集对模型进行测试，其中测试标准为当前常用的矩形度量指标。具体为1)预测的抓取角度与数据集中所标注的抓取矩形的角度相差不超过30°；2)预测的抓取矩形与数据集中所标注的抓取矩形的Jacquard系数大于25％。其中Jacquard系数的表示形式如式7所示。抓取检测模型的预测值同时满足以上两个条件则视为预测成功。

其中g为数据集中所标注的抓取矩形，即为ground-truth；

为模型预测的抓取矩形。

为预测值与ground-truth的交集；

为预测值与ground-truth的并集。

进一步地，所述步骤使用公共的Cornell抓取数据集和BUPT数据集对模型进行测试，验证本发明的有效性。根据试验结果，在不加入注意力机制的模型在Cornell数据集上的准确率为94.5％，在本发明提出的带有注意力机制的模型中取得98.3％的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明实施例中基于特征注意力机制的抓取检测模型整体结构示意图；

图2为本发明提供的抓取配置表示方法；

图3为本发明提供的一种基于特征注意力机制的抓取检测方法的流程示意图；

图4为本发明实施例中基于特征注意力机制的抓取检测模型在Cornell数据集上的测试结果；

图5为本发明实施例中基于特征注意力机制的抓取检测模型在BUPT数据集上的测试结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述为本申请的实施例的基于特征注意力机制的抓取检测模型整体结构示意图，模型整体有四部分组成：特征提取主干网络、特征融合单元、注意力模块以及抓取检测器。其中特征提取主干网络和特征融合单元分别用于提取输入图像的特征和特征融合，从而生成包含丰富的语义信息和结构信息的特征图；注意力木块的目标为根据语义分割检测目标物体的像素区域，并且突出特征图中对应目标区域的特征，从而达到引导抓取检测模型注意力的目的；最后为抓取检测器，该部分利用注意力模块突出的物体整体特征预测抓取位置。

其中，本法发明所提出的模型采用Python3.5编写模型的结构，在Pytorch深度学习框架上运行。本发明的训练和验证环境为在Ubuntu16.04下配置，CPU为Inter(R)Core(TM)i9-9900CPU@2.30GHZ,GPU为NVIDIA GeForce GTX 2080ti。

如图2所示为本申请的实施例抓取位置表示方法示意图，该抓取表示方法适用于平行夹板抓取器。其中(x,y)表示平行夹板中心点的像素坐标；w表示平行夹板的张开的尺寸；θ表示平行夹板张开方向与水平方向的夹角；h表示平行夹板的宽度。

参见图3，为本申请实施例示例性示出的一种基于特征注意力机制的抓取检测方法的流程示意图，所述方法包括以下步骤：

步骤S1：数据集中物体轮廓及类别的标定及预处理。具体包括标定图像中目标物体的轮廓及其类别。标注完成后。根据模型的输入输出需求对数据集中的图像及各种标签文件做数据预处理。具体包括图像尺寸的裁剪以及数据增强，以及抓取配置、物体轮廓以及物体类别等标注的编码。从而，便于模型的训练和测试。

步骤S2：构建基于特征注意力机制的抓取检测模型；

具体的，模型结构如图1所示。模型有特征提取主干网络、特征融合单元、注意力模块以及抓取检测器四部分组成。其中注意力模块为本发明的核心，其实现原理为通过语义分割分支识别输入图像中不同类型目标的区域，然后根据抓取需求引导抓取检测器更多的关注特征图中该目标所在区域的特征，从而达到引导抓取检测模型注意力的目的。降低了模型对整个场景抓取检测的资源消耗。

步骤S3：使用ImageNet数据对模型的主干网络进行预训练；

具体的，使用ImageNet数据对模型的主干网络进行预训练。由于不同的机器视觉任务对于基础特征的需求差别不大，在一定程度上可以复用。因此，使用预训练的方式既解决了当前任务中图像数量不足的问题，同时又提升了后期的训练效率。在本方明中采用目标检测的任务对主干网络进行预训练。

步骤S4：使用公开的Cornell抓取数据集和BUPT数据集对模型进行训练；

具体的，在步骤S3的基础上，使用公开的Cornell抓取数据集和BUPT数据集对模型整体进行训练

步骤S5：使用公开的Cornell抓取数据集和BUPT数据集测试模型性能；

具体的，将训练好的模型使用Cornell抓取数据集的测试集或者BUPT数据集的测试集进行性能测试。在测试过程中测试集图像一张一张的输入进模型并统计预测结果。我们的模型在公开的Cornell数据集上取得了98.3％的抓取检测精度，使用本发明采集的BUPT数据集上取得了91.7％的精度。

从上述实施例可以看出，方法包括现有公开数据集以及本发明中所收集的数据集的标定及预处理；搭建基于特征注意力机制的抓取检测模型；使用大型的ImageNet数据集对模型的主干特征提取网络进行预训练；并利用处理后的Cornell抓取检测数据集或者BUPT数据集训练模型的整体功能；最后利用测试集对模型的性能进行测试和验证。

如图4、图5所示，为本发明中所提出的模型在Cornell数据集和BUPT数据集上的预测结果。从图中可以看出，本发明所提出的抓取检测模型可以同时预测目标的抓取位置以及该位置所对应的类别信息和置信度分数。

上述方法与现有技术相比，具有以下优点：

1、现有抓取检测方法是通过提取并分析整幅图像的特征，并根据该特征预测图像中可能存在的抓取位置。因此，现有方法没有区分输入图像中的物体以及背景，是一种不加区分的抓取检测方式。与之相反，本发明提出的基于特征注意力机制的抓取表示方法对输入模型的图像区域进行了区分，使得模型在抓取检测过程中有针对性的使用物体的特征预测属于该物体的抓取位置，减少了在对其他区域检测过程中不必要资源消耗。

2、由于现有抓取检测方法没有对输入图像中的目标和背景进行区分，抓取检测模型大都是将图像中满足抓取位置局部特征的像素区域视为抓取位置。然而，机器人的工作场景大都是杂乱的，背景复杂，存在很多与抓取位置相似的区域。因此，现有抓取检测模型容易受到局部背景信息的干扰，生成错误的抓取预测。本发明提出的抓取检测方法，在抓取位置的预测阶段使用的是目标物体的整体特征，模型具有物体的概念，而不仅仅只有抓取位置的概念。因此，本发明提出的方法降低了背景对抓取检测模型性能的干扰，同时使得模型的预测过程更加科学合理。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于特征注意力机制的机器人抓取检测方法，其特征在于，所述方法包括：

数据集(Cornell抓取检测数据集和BUPT数据集)中图像所包含的物体区域位置及类别的标定及预处理；

构建基于特征注意力机制的抓取检测模型；

使用ImageNet数据集训练模型的特征提取网络；

使用公开的Cornell抓取数据集和BUPT数据集对模型进行训练和测试。

2.根据权利要求1所述的基于特征注意力机制的机器人抓取检测方法，其特征在于，对数据集中图像所包含的物体的位置信息和类别信息进行标定以及数据预处理，具体包括：

所述数据集包含当前已公开的Cornell抓取检测数据集和本方案在实施过程中在真实场景中收集的数据集；并且，标定上述两个数据集中包含的物品的类别以及轮廓位置信息。

3.根据权利要求1所述的基于特征注意力机制的抓取检测方法，其特征在于，对已标定好的抓取检测数据集进行数据预处理，具体包括：

所述数据集的预处理为对数据集中抓取位置、物体轮廓以及物体类别信息的编码操作，以及对数据集中图像数据的前处理。

4.根据权利要求1所述的构建基于特征注意力机制的抓取检测模型，其特征在于，搭建基于注意力机制的抓取检测模型，具体包括：

所述注意力机制为引导抓取检测模型只关注的与该目标抓取相关的特征；搭建以目标特征位置为注意力的抓取检测模型。

5.根据权利要求1所述的构建基于特征注意力机制的抓取检测方法，其特征在于，使用ImageNet数据集对模型进行预训练，具体包括：

所述ImageNet数据集对抓取检测模型的特征提取主干网络进行预训练，提升模型对于不同类别物体外观及纹理特征的感知能力，降低在整个模型训练过程中的过拟合风险。

6.根据权利要求1所述的基于特征注意力机制的抓取检测方法，其特征在于，使用公共的Cornell抓取数据集和BUPT数据集对模型进行训练和测试，具体包括：

所述使用的Cornell抓取数据集和BUPT数据集为经过数据预处理后的数据集，并且将数据集中的图像按照4:1的比例分为训练集和测试集分别用于模型的训练和测试；

所述对模型进行训练和测试为通过训练集训练模型对目标的感知能力以及对目标抓取位置的预测能力，训练完成后利用测试集验证模型的性能；

所述对数据集中图像所包含的物体区域位置及类别的标定为标定物体的轮廓信息、类别信息以及抓取位置信息；所述对数据集的预处理为转换和裁剪图像的尺寸和格式，并且对标定的信息进行编码；所述使用ImageNet数据集训练模型的特征提取网络，为训练模型的特征编码主干网络；所述使用公共的Cornell抓取数据集和BUPT数据集对模型进行训练和测试，包括在训练过程中对模型参数的调整和优化以及网络性能的测试和验证。