CN115909197A

CN115909197A - 一种基于注意力机制的多尺度融合机器人抓取检测方法

Info

Publication number: CN115909197A
Application number: CN202211385821.2A
Authority: CN
Inventors: 赵阳; 王进; 张海运; 陆国栋
Original assignee: Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd; Zhejiang University ZJU
Current assignee: Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd; Zhejiang University ZJU
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-04-04

Abstract

本发明公开了一种基于注意力机制的多尺度融合机器人抓取检测方法，通过构建抓取检测模型并对其进行训练实现；该方法突出了抓取检测的显著特征，降低了对物体抓取检测没有贡献的背景信息的影响，提高了抓取检测模型的效率。同时采用轻量化的网络设计方法，可兼顾机器人抓取实时性和准确性的要求，完成端到端的抓取检测。另外，这种在杂乱场景中专注于目标本体特征的抓取检测方式，更契合人类的感知模式，进一步推动了机器人抓取检测的智能化过程。本发明解决了经验抓取检测方法为实现泛化性而很难满足精准性的问题；解决了抓取检测方法在真实场景中难以保证实时性的问题。

Description

一种基于注意力机制的多尺度融合机器人抓取检测方法

技术领域

本发明涉及图像处理、深度学习以及机器人抓取控制领域，特别涉及一种基于注意力机制的多尺度融合机器人抓取检测方法。

背景技术

抓取检测(Grasp Detection)，是为指定的机器人抓取器,获取可用于实际抓取操作的抓取方案的一种技术。在家庭和工业场景中，从桌子上抓取物体是机器人在独立运行或执行人机协作任务时一个非常重要和有挑战性的步骤。一般的，机器人抓取可分为抓取检测、轨迹规划和执行三个步骤。抓取检测是指机器人通过RGB或RGBD摄像机获取目标的视觉信息，然后利用这些视觉信息预测抓取模型来指导机械臂和抓取器执行抓取任务。

机器人的抓取力远远落后于人类的表现，并且是机器人领域中尚未解决的问题。当人们看到新颖的物体时，他们可以根据自己的经验本能地快速轻松地抓住任何未知物体。近年来展开了许多与机器人抓取和操纵有关的工作，但是实时的抓取检测仍然是一个挑战

抓取检测主要分为两类方法，一种是分析法，一种是经验法。分析法指的是依据机械手的各种参数，通过设计符合稳定性和灵活性等条件的力闭合约束条件来限定抓取位姿。这类方法，可以理解为一种基于动力学、几何学的约束问题的求解和优化。当抓取位姿满足力闭合条件时物体被夹具夹住，并在静摩擦力的作用下使得物体不再发生位移或旋转，从而维持抓取的稳定。分析法生成的抓取位姿能够确保目标物体的成功抓取，但这种方法通常只能应用在简单的理想模型上。实际场景的多变性、物体摆放的随机性、以及图像传感器的噪声等等，一方面增加了计算的复杂度，另一方面计算的精度无法得到保证。经验法就是利用知识库中的信息，去检测抓取位姿及判断其合理性。从物体的特征出发，利用相似性进行分类和位姿估计，从而达到抓取的目的。不需要像分析法那样需要预知目标物体的摩擦系数等等参数，具有更好的鲁棒性。但是经验法通常并不能兼顾实现精准性和实时性。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于注意力机制的多尺度融合机器人抓取检测方法，同时兼顾机械臂抓取的实时性和精确性。

本发明采用的技术方案为：

一种基于注意力机制的多尺度融合机器人抓取检测方法，包括：

构建抓取检测模型；

收集抓取数据集，其中包括RGB图像及相应的标注信息，及深度信息；对数据集进行尺度变换、平移、翻转和旋转的数据增强，扩充数据集，并对图像中所包含物体区域进行标定；

对数据集进行数据预处理，包括图像数据预处理及标注参数预处理，将扩充后的数据集按比例随机划分训练集和验证集；

利用训练集数据对提出的抓取检测模型进行训练，采用反向传播算法和基于标准梯度的优化算法来优化目标函数的梯度，使得检测得到的抓取框与真实值差异最小化；同时利用验证集对抓取检测模型进行测试，来调整抓取检测模型训练过程中的学习率，并一定程度避免抓取检测模型的过拟合；

根据训练得到的抓取检测模型，利用预处理之后的真实图像数据作为网络输入，抓取配置及抓取框五维表示作为抓取检测模型输出，最终映射到真实世界坐标。

上述技术方案中，所述抓取检测模型包括前端的特征提取器和后端的抓取预测器；其中特征提取器包括超大卷积模块、残差及多尺度模块、注意力模块依次连接。具体的，所述抓取检测模型可以包括：

通道特征提取层，采用超大卷积核和深度可分离的构建方法，用于分别提取RGBD的特征，降低模型的参数量，并对RGBD四通道的特征进行融合；再经过两次稀疏卷积降采样，进一步提取特征；

RBF多尺度感受层，由若干层残差模块和RBF模块构成，使用残差模块避免梯度消失问题，RBF模块利用多分支卷积层扩张和合并以及不同的大小的空洞卷积模拟人类感受野；

注意力编码层，采用空间注意力和正则化注意力的组合方式，之后经过上采样，将特征图的尺寸还原为输入尺寸大小；

抓取生成层，利用经过上采样的特征图，通过多分支的输出模式获得回归结果。

进一步地，所述抓取数据集可以包含当前已公开的Cornell抓取检测数据集和Jacquard抓取检测数据集；并且，标定上述两个数据集中图像包含的物品的类别以及轮廓位置信息。

进一步地，图像数据预处理包括图像的剪裁截取原始数据中心部分将输入图像的尺寸转换成适应模型的需求，其次将RGBD四通道的图像数据进行归一化的处理以加速网络的训练，最后将归一化之后的RGBD数据进行拼接，得到最终的数据作为网络模型的输入。

进一步地，标注参数处理包括：对抓取数据集的标签包括一系列的抓取位姿，每一个位姿分别转换成矩形框的形式来描述，即五维抓取表示{x,y,θ,w,h}，将标签转换为{G，Θ，W}的形式，其中G代表可抓取的区域，选取每个矩形的在沿长度方向中心1/3的部分作为可抓取位置的编码，可抓取位置编码为1，不可抓取位置编码为0；Θ表示可抓取位置的角度，为了解决角度周期变化的问题，使用sin2θ和cos2θ来表示角度，将可抓取位置分别编码为sin2θ和cos2θ；W代表抓取的宽度，将可抓取部分编码为该位姿的宽度值h，并进行归一化处理以利于网络的收敛；所有的标签位姿组合形成最后P，SIN2θ，COS2θ，W的标签图，其中P代表抓取位置。

进一步地，训练过程中损失函数定义为：

L_total＝L_Q+L_sin2Θ+L_cos2Θ+L_width

其中L_Q为抓取质量分数损失、L_sin2Θ、L_cos2Θ为角度预测损失L_width为宽度预测损失。

与现有技术相比，本发明的有益效果是

1、本发明方法利用注意力机制，引导抓取检测器关注于目标物体本身的特征。使得机器人能够根据目标物体自身的类别、结构及纹理特征预测该物体最合理的抓取位置；

2、本发明方法中，由超大深度可分离卷积可提取超大范围感受野RGBG四通道全局特征，由多级并联不同尺度空洞卷积提取具有多尺度特征融合的特征图，抓取模型可以有效综合全局和局部的特征信息，有效提高了检测准确度，同时加快了训练速度；

3、本发明利用轻量化的网络设计方法，保证精度的同时降低计算量，解决了抓取检测方法在真实场景中难以保证实时性的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明实施例中基于注意力机制的抓取检测模型整体结构示意图；

图2为本发明提供的抓取配置表示方法；

图3为本发明提供的一种基于注意力机制的多尺度融合机器人抓取检测方法的流程示意图；

图4为本发明实施例中基于注意力机制的抓取检测模型在实际物体上的测试结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述为本申请的实施例的基于注意力机制的抓取检测模型整体结构示意图，该模型以目标特征位置和目标特征通道为注意力，可引导抓取检测只关注于与目标抓取相关的特征；模型整体有四部分组成：通道特征提取层、多尺度融合层、注意力编码层以及抓取检测生成层。通道特征提取层，采用超大卷积核和深度可分离的构建方法，用于分别提取RGBD的特征，同时采获取较大感受野，深度可分离的设计进一步降低模型的参数量；RBF多尺度感受层，通过模拟人类感受野的方法，用于获得不同尺度的特征并增大感受野；注意力编码层采用空间注意力和正则化注意力的组合方式，寻找输入图像中目标物体的特征区域和拥有有效特征的通道，对突出显著特征加以更有效的利用，之后经过两次上采样，将特征图的尺寸还原为输入尺寸大小。抓取生成层利用经过上采样的特征图，通过多分支的输出模式获得回归结果P、sin 2θ、cos 2θ和W，最终获得抓取位置、抓取角度和抓取宽度。具体的，如图1，本发明实例中的抓取检测网络采用编码解码的结构，主要包括四部分{c1,c2,c3,c4}：

c1为通道特征提取层，采用超大卷积核和深度可分离的构建方法，用于分别提取RGBD的特征，在深度可分卷积的DW阶段将卷积核设置较大(本实例中设为31*31)，采用较大的卷积核对RGBD四通道进行逐通道卷积，下一步再对它进行逐点卷积，采用大卷积核可以获取较大感受野，有效地获取全局特征；深度可分离的设计进一步降低模型的参数量，并对RGBD四通道的特征进行融合；在经过两次稀疏卷积降采样，进一步提取特征；

c2为RBF多尺度感受层，由若干层残差模块和RBF模块构成，使用残差模块可以有效避免梯度消失问题，并进一步提取深层特征；RBF模块利用多分支卷积层扩张和合并以及不同的大小的空洞卷积模拟人类感受野的方法，用于获得不同尺度的特征并在更大区域捕获信息，并保持较低的参数量；

c3为注意力编码层，采用空间注意力和正则化注意力的组合方式，将上一步的特征层经过两条路，一路经过最大池化和平均池化，经过一步卷积，再经过sigmoid激活函数，另一路经过一层BN，然后经过sigmoid激活函数，最后二路对应相乘；该层寻找输入图像中目标物体的特征区域和拥有有效特征的通道，对突出显著特征加以更有效的利用，c3层之后经过两次上采样，将特征图的尺寸还原为输入尺寸大小；

c4为抓取生成层利用经过上采样的特征图，通过多分支的输出模式获得回归结果P、sin 2θ、cos 2θ和W，θ的最终结果由下式得出，最终获得输出图P、Θ和W分别代表抓取位置、抓取角度和抓取宽度。

其中，本法发明所提出的模型采用Python3.7编写模型的结构，在Pytorch深度学习框架上运行。本发明的训练和验证环境为在Ubuntu20.04下配置，CPU为Intel(R)Xeon(R)CPU E5-2699C v4@2.20GHz,GPU为NVIDIA TITAN RTX。

如图2所示为本申请的实施例抓取位置表示方法示意图，该抓取表示方法适用于平行夹板抓取器。其中(x,y)表示平行夹板中心点的像素坐标；w表示平行夹板的张开的尺寸；θ表示平行夹板张开方向与水平方向的夹角；h表示平行夹板的宽度。

参见图3，为本申请实施例示例性示出的一种基于注意力机制的多尺度融合机器人抓取检测方法的流程示意图，所述方法包括以下步骤：

步骤S1.收集抓取数据集(Cornell抓取数据集和Jacquard抓取数据集)以及数据集的预处理，数据集包括RGB图像及相应的标注信息和深度信息；对数据集进行尺度变换、平移、翻转和旋转的数据增强，扩充数据集；将数据集区分为训练集和测试集，本实例中按照9:1的比例划分数据集为训练集和测试集

步骤S2对数据集进行数据预处理操作，使处理后的数据满足模型的输入输出需求，具体包括图像数据的处理和标注参数的处理。

其中，图像数据的处理包括图像的剪裁、截取原始数据中心部分将输入图像的尺寸转换成300*300以适应模型的需求，其次将RGBD四通道的图像数据进行归一化的处理以加速网络的训练，最后将归一化之后的RGBD数据进行拼接，得到最终的数据作为网络模型的输入；

标签的处理包括：cornell和Jacquard数据集的标签包括一系列的抓取位姿，每一个位姿分别转换成矩形框的形式来描述即五维抓取表示{x,y,θ,w,h}，继续将标签转换为{G，Θ，W}的形式，其中G代表可抓取的区域，选取每个矩形的在沿长度方向中心1/3的部分作为可抓取位置的编码，可抓取位置编码为1，不可抓取位置编码为0；Θ表示可抓取位置的角度，为了解决角度周期变化的问题，使用sin2θ和cos2θ来表示角度，将可抓取位置分别编码为sin2θ和cos2θ；W代表抓取的宽度将可抓取部分编码为该位姿的宽度值h，并进行归一化处理以利于网络的收敛；所有的标签位姿组合行程最后P，Sin2θ，Cos2θ，W的标签图。

步骤S3构建抓取检测网络模型。本发明中的抓取检测网络采用编码解码的结构，主要包括四部分。通道特征提取层，采用超大卷积核和深度可分离的构建方法，用于分别提取RGBD的特征，同时采获取较大感受野，深度可分离的设计进一步降低模型的参数量；RBF多尺度感受层，通过模拟人类感受野的方法，用于获得不同尺度的特征并增大感受野；注意力编码层采用空间注意力和正则化注意力的组合方式，寻找输入图像中目标物体的特征区域和拥有有效特征的通道，对突出显著特征加以更有效的利用，之后经过两次上采样，将特征图的尺寸还原为输入尺寸大小；抓取生成层利用经过上采样的特征图，通过多分支的输出模式获得回归结果P、sin 2θ、cos 2θ和W，最终获得输出图P、Θ和W分别代表抓取位置、抓取角度和抓取宽度。利用高斯卷积核对输出结果P、Θ和W做平滑处理，最终通过抓取位置P输出图结果确定物体的最优抓取位置，并根据当前位置信息分别在抓取角度图Θ和宽度图W获取对应的抓取角度和抓取宽度信息，即获得最终的推理结果。

步骤S4使用Cornell抓取数据集和Jacquard数据集进行模型训练和测试，本发明所提出的基于注意力机制的轻量抓取检测模型采用多分支的输出结果，在训练过程中损失函数包括位置回归损失、角度回归损失和宽度回归损失。本发明抓取分支总损失函数定义如下式所示：

L_total＝L_Q+L_sin2Θ+L_cos2Θ+L_width

其中L_Q为抓取质量分数损失、L_sin2Θ、L_cos2Θ为角度预测损失L_width为宽度预测损失。L_Q、L_sin2Θ、L_cos2Θ、L_width皆采用smooth l1损失函数，smooth l1损失函数定义如下式：

在模型训练过程中采用Adam作为模型的优化器，并使用凯明方法对部分卷积层初始化，从而根据损失的梯度优化模型各个层的参数。在本发明中优化器的学习率设置为0.001，采用模拟退火的学习率衰减模式训练。步骤S5使用Cornell抓取数据集和Jacquard抓取数据集对模型进行测试，验证本发明的有效性。其中测试指标标准为常用的矩形度量指标具体为：

(1)预测的抓取角度与标签数据的角度相差不超过30°；

(2)预测的抓取矩形与数据集中所标注的抓取矩形的Jacquard系数大于25％；

Jacquard系数如下式所示

其中B为数据集中所标注的抓取矩形，即为ground-truth；A为模型预测的抓取矩形。A∩B为预测值与ground-truth的交集；A∪B为预测值与ground-truth的并集。

另外，当预测矩形与标签矩形中心距离超过15时，检验有效性大大较低，通过设定阈值的方式可提高检验后续检验的效率。

具体的，根据检验结果，在Cornell抓取数据集和Jacquard抓取数据集的准确率分别为97.73％和92.79％，在参数为0.7M的情况下实现了6ms的快速推理速度。

步骤S7使用训练好的抓取检测网络应用在实际机械臂上测试实际抓取效果，具体步骤包括：准备环节包括相机内参标定和手眼标定。进一步地，获取RGBD图像，将深度图与彩色图进行对齐，对深度图进行预处理，融合RGBD数据，并进行裁剪尺寸为300*300和进行归一化处理。进一步地，将获取的图像数据输入已经训练好的模型，获取在图像空间的抓取配置和抓取点的深度信息。由手眼标定的获取的坐标转换矩阵获取世界坐标系下的抓取位置。

如图4所示，为本明中所提出的模型在实际物体上的预测结果从实验结果可得，在本发明提出的算法相比其他算法具有更高的准确率和效率，在真实场景下展示了良好的效果。该方案

利用注意力机制，能够引导抓取检测器关注于目标物体本身的特征。使得机器人能够根据目标物体自身的类别、结构及纹理特征预测该物体最合理的抓取位置；采用超大深度可分离卷积可提取超大范围感受野RGBG四通道全局特征，由多级并联不同尺度空洞卷积可提取具有多尺度特征融合的特征图，抓取模型可以有效综合全局和局部的特征信息，有效提高了检测准确度，同时加快了训练速度；且该方案利用轻量化的网络设计方法，在保证精度的同时可降低计算量，解决了抓取检测方法在真实场景中难以保证实时性的问题。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，包括：

构建抓取检测模型；

2.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，所述抓取检测模型包括前端的特征提取器和后端的抓取预测器；其中特征提取器包括超大卷积模块、残差及多尺度模块、注意力模块依次连接。

3.根据权利要求2所述的基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，所述抓取检测模型包括：

4.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，所述抓取数据集包含当前已公开的Cornell抓取检测数据集和Jacquard抓取检测数据集；并且，标定上述两个数据集中图像包含的物品的类别以及轮廓位置信息。

5.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，图像数据预处理包括图像的剪裁截取原始数据中心部分将输入图像的尺寸转换成适应模型的需求，其次将RGBD四通道的图像数据进行归一化的处理以加速网络的训练，最后将归一化之后的RGBD数据进行拼接，得到最终的数据作为网络模型的输入。

6.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，标注参数处理包括：对抓取数据集的标签包括一系列的抓取位姿，每一个位姿分别转换成矩形框的形式来描述，即五维抓取表示{x,y,θ,w,h}，将标签转换为{G，Θ，W}的形式，其中G代表可抓取的区域，选取每个矩形的在沿长度方向中心1/3的部分作为可抓取位置的编码，可抓取位置编码为1，不可抓取位置编码为0；Θ表示可抓取位置的角度，为了解决角度周期变化的问题，使用sin2θ和cos2θ来表示角度，将可抓取位置分别编码为sin2θ和cos2θ；W代表抓取的宽度，将可抓取部分编码为该位姿的宽度值h，并进行归一化处理以利于网络的收敛；所有的标签位姿组合形成最后P，SIN2θ，COS2θ，W的标签图，其中P代表抓取位置。

7.根据权利要求1所述的基于注意力机制的多尺度融合机器人抓取检测方法，其特征在于，训练过程中损失函数定义为：

L_total＝L_Q+L_sin2Θ+L_cos2Θ+L_width