CN115019147A

CN115019147A - 一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型

Info

Publication number: CN115019147A
Application number: CN202210783135.4A
Authority: CN
Inventors: 于秀丽; 董明帅; 魏世民; 白宇轩; 吴澍
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-06

Abstract

本发明公开了一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，该模型提出使用Transformer机制提取输入图像的特征，然后使用全卷积神经网络预测图片中所有可能的抓取位置。通过将Transformer与卷积神经网络结合，该模型同时融合了Transformer机制优秀的全局建模能力和卷积神经网络的归纳偏置能力。从而使得本模型不需要多次下采样操作在模型的初始阶段就能够对输入图像的全局特征进行建模和相关性计算，避免了传统模型由于下采样造成的特征丢失；此外，本模型同时融合了卷积神经网络的归纳偏置能力，降低了模型训练过程中对大尺寸数据集的依赖。因此，本模型能够更好的对杂乱堆叠场景的特征进行建模，并且可以在小规模数据集上训练出令人满意的结果。基于以上优势，本发明提出的模型可以广泛的应用于各种常见的生活场景的抓取检测任务，具有更强的鲁棒性和环境适应性。

Description

一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型

技术领域

本发明涉及深度学习、图像识别以及机器人控制领域，是一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型。

背景技术

抓取操作是机器人的一项基本技能，它是机器人执行许多其他重要任务的基础。然而在物体杂乱且堆叠摆放的日常生活场景中机器人的抓取仍然面临很大的挑战。其中最重要的影响因素是当前机器人对环境的感知能力不足，难以准确的建模工作场景的特征并映射为相应的抓取配置。

当前在机器人抓取检测领域，基于深度学习的抓取检测方法已经逐渐成为机器人感知环境特征并检测抓取配置的主要方法。传统的基于卷积神经网络(CNNs)的深度学习模型对于单目标场景具有很好的适应性和较高的抓取检测精度，但是对于杂乱且堆叠的多目标场景传统的CNNs模型依然存在特征丢失，全局建模能力不足等问题，难以准确预测每个物体的抓取位置。

因此，如何提供一种高效的特征提取方法及建模方法，使得机器人能够在杂乱且堆叠的工作场景中准确的检测出不同物体的抓取位置以及抓取位置对应的物体类别，是提升机器人操作过程自主化，智能化过程中亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，该模型采用Transformer模块作为主干网络的基本单元提取输入图像的特征并对特征进行编码；编码后的特征经过多尺度特征融合操作后，使用全卷积神经网络对特征进行解码生成抓取位置以及其对应的物体类别，如图1所示。其中，Transformer机制具有很强的全局特征提取能力，因此能够很好的适应杂乱堆叠的复杂工作场景。此外，本发明采用全卷积神经网络作为解码器，在弥补了Transformer机制归纳偏置能力不足的基础上，同时预测每个特征点的抓取位置以及该抓取位置所对应的物体类别。因此，使得机器人在抓取过程中具备很强的自主性，并且可以根据任务需求抓取指定类别的物体，可以有效提高机器人操作的智能化水平。

一方面，本申请实施例提供的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，包括：

抓取检测数据集(VMRD抓取检测数据集)的预处理；

进一步地，所述步骤对抓取检测数据集(VMRD抓取检测数据集)的预处理，为对VMRD抓取检测数据集进行数据增强，特征编码操作。

进一步地，所述步骤对抓取检测数据集的数据增强操作包括对数据集中图像的裁剪、随机旋转、亮度变化等，从而扩大数据集的规模，增强数据集中不同物体在不同位置、不同姿态以及不同亮度等条件下的多样性。

进一步地，所述数据集的特征编码操作，为对数据集中的标签包括抓取位置标签、抓取位置所对应的类别标签进行编码操作。其中抓取位置标签编码为{x_min,y_min,x_max,y_max,θ_class}，其中(x_min,y_min,x_max,y_max)为抓取矩形的左上角和右下角坐标，θ_class为抓取矩形相对于图像水平方向夹角的角度类别。角度类别的编码方式为在-90°-90°的角度区间内将角度数据分为18个类别。

进一步地，所述数据集特征编码操作中，对抓取矩形所对应的物体类别标签进行编码操作。

基于Transformer机制的抓取检测模型的搭建；

进一步地，所述搭建基于Transformer机制的抓取检测模型，模型整体结构可以分为编码器和解码器两部分，模型的具体细节如图1所示。其中编码器部分以Transformer模块为基本单元，解码器部分采用全卷积神经网络对编码器生成的特征图进行解码操作。

进一步地，所述以Transformer模块为基本单元的编码器，为了适应Transformer机制序列化的输入，本发明将图像分割成固定大小的图像块并通过卷积操作将图像块的特征转化为固定尺寸的序列数据，并在不同序列数据中嵌入图像块的位置信息。最后将序列化的图像信息输入到Transformer编码器中。

进一步地，所述以Transformer模块为基本单元的编码器，在编码器中Transformer模块的数量为一般设置为6-12层。其中编码器的最后三层生成的特征图会输入到解码器中，用于抓取位置和物体类别的预测，如图1(A)所示。

进一步地，所述全卷积神经网络的解码器首先会对编码器生成的三层特征图进行多尺度特征融合操作，如图1(B)所示。融合后的特征图经过全卷积神经网络，预测生成每个特征位置所对应的抓取位置以及抓取位置所对应的物体类别。

使用VMRD数据集对模型进行训练及性能测试；

进一步地，所述步骤使用VMRD数据集对模型进行训练，在本发明中使用当前公开的VMRD数据集训练模型，该数据集为杂乱的多目标物体数据集。

进一步地，所述步骤使用VMRD数据集对模型进行训练，本发明提出的模型可同时检测抓取位置以及检测抓取位置所对应的物体类别。因此，在模型训练过程中需要同时优化以上两个任务。为了同时监督以上两个任务的参数优化过程，本发明针对以上两种任务的各自特点使用两部分损失函数，分别是抓取检测损失和类别分类损失。

进一步地，所述抓取检测损失包含两部分，分别是抓取位置坐标的回归损失以及抓取角度的分类的损失。本发明中使用CIoU损失作为抓取位置坐标的回归损失，如式1所示：

其中，ρ²(b,b^gt)表示预测抓取矩形的中心点与真值之间的距离；υ表示模型预测的抓取矩形与抓取位置的真值的相似性，υ表示为：

α为权重系数，可以表示为：

该损失函数通过计算预测值与真实值的中心点距离、抓取矩形的相似度以及IoU等多个指标监督模型的训练过程。

此外，本发明使用交叉熵作为抓取角度的分类损失，如式4所示：

其中，N表示角度类别的数量，

表示角度类别真实值的one-hot编码；p＝[p₀,p₁,...,p_N-1]为模型的预测值，表示该抓取位置属于不同角度类别的概率分布。

对于物体类别的回归损失(L_{obj_class})，在本发明中使用与抓取角度分类一致的交叉熵损失，在不再做信息赘述。

综上，本模型在训练过程中的总损失可以表示为：

L_{total_loss}＝ωL_{grasp_pos}+βL_{θ_class}+λL_{obj_class} (5)

其中，ω，β，λ为不同损失之间的权重调整参数，用于调节模型的训练过程，使模型达到最好的效果。在本发明中ω取值为0.05，β取值为0.25，λ取值为0.5。

进一步地，所述步骤使用VMRD数据集对模型进行训练，在模型训练过程中采用Adam作为模型的优化器，从而根据损失的梯度优化模型各个层的参数。在本发明中优化器的学习率设置为0.001，每迭代十次衰减一个数量级。

进一步地，所述步骤使用VMRD数据集对模型进行测试，其中预测值被判定为正确的表示的条件是：

1)预测的抓取矩形与数据集中标注的矩形的IoU大于25％；

2)预测抓取矩形的角度与数据集中所标注的抓取矩形的角度相差不大于30°；

3)预测的抓取矩形多对应的物体类别与数据集中所标注的物体类别标签一致。

进一步地，所述步骤使用VMRD数据集对模型进行测试，验证本发明所提出模型的有效性。本发明所提出的模型在VMRD数据集的测试集上取得了80.9％的准确率，比传统的基于CNNs的抓取检测模型的精度提了6.3％。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明提出的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型图；(A)为模型整体结构；(B)为基于Transformer的编码器结构；(C)为基于全卷积神经网络的解码器结构；

图2为本发明实施例中一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型实施流程图；

图3为本发明所提出的模型在堆叠杂乱场景中的抓取检测结果，其中包含抓取检测位置以及抓取检测位置所对应的物体类别；

图4为本发明实施例中抓取检测模型的识别效果；其中，第一行为输入模型的原始图像，第二行为模型预测的抓取置信度的热力图(高亮的部分置信度高)，第三行为对应的抓取检测结果；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述为本申请的实施例的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型图，模型整体分为两部分：以Transformer机制为基本单元的编码器和基于全卷积神经网络的解码器。基于Transformer机制的解码器能够很好的提取输入图像的全局特征，并且根据任务需求，突出关键位置的特征信息，如图4所示。基于全卷积神经网络的解码器对编码器器的输出特征进行特征融合以及解码操作，最终预测生成带有物体类别的抓取配置。

其中，本法发明所提出的模型采用Python3.8编写模型的结构，在Pytorch深度学习框架上运行。本发明的训练和验证环境为在Ubuntu18.04下配置，CPU为Inter(R)Core(TM)i9-9900CPU@2.30GHZ,GPU为NVIDIA GeForce GTX 2080ti。

参见图2，为本申请实施例示例性示出的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型实施流程图，所述方法包括以下步骤：

步骤S1：抓取检测数据集(VMRD抓取检测数据集)的预处理；

具体的，抓取检测数据集的预处理包括数据增强以及数据集标签的编码操作。其中数据增强包括随机裁剪、随机角度旋转以及亮度变化等。通过数据增强增加数据集的数量以及数据集中不同目标状态特征的多样性，避免模型在训练过程中的过拟合现象，增强模型对不同工作环境的泛化能力。数据集标签的编码操作主要是针对抓取位置的坐标表示、抓取框的角度信息以及抓取框所对应的物体类别信息进行编码，用于模型的训练。

步骤S2：基于Transformer机制的抓取检测模型的搭建；

具体的，模型结构如图1所示。本发明所提出的模型主要包含两部分：以基于Transformer模块的编码器和基于卷积神经网络的解码器。编码器中Transformer模块的数量在6-12个之间，用于对输入图像的特征进行提取。在解码器的开始部分，首先对编码器生成的特征图进行特征融合操作，然后对融合后的特征图进行像素级的预测，预测特征图中每个像素所对应的抓取配置。

步骤S3：使用VMRD数据集对模型进行训练；

具体的，本发明使用VMRD抓取检测数据集对模型整体参数进行训练。

步骤S4：使用VMRD数据集测试模型性能；

具体的，在模型训练完成之后，本发明使用VMRD数据集中的测试集对模型进行测试，验证模型在未知场景中的性能。

从上述实施例可以看出，本发明提出的方法包括数据集的预处理，基于Transformer机制的抓取检测模型的搭建，以及使用抓取检测数据集对模型进行训练和测试。

如图3所示，为本发明中所提出模型在杂乱堆叠场景中的预测结果。从预测结果可以看出，本发明所提出的模型可以在杂乱场景中预测各个物体的抓取位置，并且能够同时预测出不同抓取位置所对应的物体种类。

上述方法与现有技术相比，具有以下优点：

1、本发明所提出的基于Transformer机制的抓取检测模型相比较于传统的CNNs模型具有更好的全局建模能力，该模型可以在初始阶段就能够对全局的特征进行建模及相关性计算，减少了由于下采样造成的特征损失。因此，在具有复杂特征的杂乱堆叠的场景下本发明所提出的模型的相比较于传统的CNNs模型具有更高的抓取检测精度。

2、本发明所提出的模型同时融合了Transformer和卷积神经网络两种模型的优点。相比较于当前传统的Transformer模型本发明所提出的模型具有更好的归纳偏置能力；相比较于传统的卷积神经网络本发明所提出的模型具有更好的全局特征提取能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，所述方法包括：

抓取检测数据集(VMRD抓取检测数据集)的预处理；

基于Transformer机制的抓取检测模型的搭建；

使用VMRD数据集对模型进行训练及性能测试。

2.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，对抓取检测数据集(VMRD抓取检测数据集)的预处理，具体包括：

所述抓取检测数据集为当前已经公开的VMRD数据集，该数据集中的图像包含多个目标物体且物体之间随机的杂乱堆叠摆放。

所述对抓取检测数据集的预处理，其中预处理过程包括图像和标签的随机旋转、图像尺寸的随机裁剪、图片亮度的随机调整以及标签的编码操作。

3.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，搭建基于Transformer机制的抓取检测模型，具体包括：

所述基于Transformer机制的抓取检测模型为编码器-解码器结构，其中编码器以Transformer模块为基本单元，对输入图像进行全局的特征提取及特征编码操作；全卷积神经网络为模型的解码器，对编码器生成的特征图进行多尺度特征融合操作，最后根据融合后的特征图预测输入图像中所有可能的抓取位置，以及该抓取位置对应的物体类别。

4.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，使用VMRD数据集对模型进行训练及性能测试，具体包括：

所述VMRD数据集为经过数据预处理之后的VMRD抓取检测数据集，并且将数据集按照4:1的比例随机划分为训练集和测试集。

所述对模型进行训练和测试其中模型中以Transformer模块为基本单元的解码器为在ImageNet数据集上预训练的模型。

所述对模型进行训练为使用VMRD数据集中的训练集对模型进行训练，训练过程主要用于微调以Transformer模块为基本单元的编码器参数以及确定解码器参数。

所述对模型进行测试为使用VMRD数据集的测试集，验证模型在杂乱场景中对物体抓取检测以及识别等任务上的性能。

所述对抓取检测数据集的预处理为对图像进行随机旋转以及裁剪，并且对标定的信息进行转换和编码；所述基于Transformer机制的抓取检测模型的搭建，为使用Transformer的基本模块作为模型的解码器的基本单元，使用全卷积神经网络并结合多尺度特征融合操作作为模型的解码器，最后通过解码器预测融合后的特征图中每个特征所对应的抓取配置信息以及类别信息；所述使用VMRD数据集对模型进行训练及性能测试，其中训练为使用VMRD抓取检测数据集训练模型从而对模型的参数进行微调和优化，使其更适应抓取检测任务的需求；测试为使用VMRD的测试集测试模型的性能。