CN116486219A

CN116486219A - 一种基于Transformer的区域预估与多层级特征融合抓取检测方法

Info

Publication number: CN116486219A
Application number: CN202310318396.3A
Authority: CN
Inventors: 王勇; 李邑灵; 安春艳; 袁鑫林
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-25

Abstract

本发明公开了一种基于Transformer的区域预估与多层级特征融合抓取检测方法，涉及机器人技术领域。本发明步骤如下：RGB图像通过2D目标检测器的检测把需要进行抓取检测的目标区域框选中，与同一物体的深度图像进行组合成四通道的图片作为输入；四通道的输入经过Patch Partition模块分割成多块不重叠的patch,每个patch被看做是token，表示原始输入像素的级联。本发明采用Transformer架构，利用Transformer架构的编码器和解码器结构来编码解码抓取检测图像，使得模型具有优秀的全局特征关联与建模能力，具有更强的特征表达能力与泛化能力；并为了增强模型的迁移泛化能力以及丰富并保留更多的细粒度特征，采用了区域预估和多层级特征融合来增强模型抓取性能。

Description

一种基于Transformer的区域预估与多层级特征融合抓取检测方法

技术领域

本发明属于机器人技术领域，特别是涉及一种基于Transformer的区域预估与多层级特征融合抓取检测方法。

背景技术

科学技术的进步促进着机器人产业的发展，机器人在医疗、教育、公共服务等领域的应用规模在逐年扩大，在未知和非结构化环境下实现机械臂的夹取操作是机器人在日常操作中基础但很重要的一部分；抓取位置检测是指在一个给定物体上，通过算法找到一种满足抓取任务需求的可行抓取位置；

在21世纪之前，分析法和经验法是解决抓取位置检测的主流方法；分析法主要运用几何建模以及运动学和动力学相关知识，通过复杂的建模计算，最后生成适用的抓取配置；经验法注重从先前的成功抓取中总结经验，省略建立数学和物理模型的过程，基于一些标准对抓取位置进行排序，最终得到抓取位置；

目前人们大多是采用数据驱动的机器学习的方法来完成目标抓取位置的检测；机器学习的抓取检测方法根据实际的应用场景有所不同，目前常见的抓取场景可分为2D平面抓取和6Dof空间抓取两大类；2D平面抓取方法的抓取方向受限，仅能从一个方向获取待抓取物体的相关信息，并进行抓取；通常使用的输入信息为RGB图像和RGB-D图像；

主要分为两阶段抓取检测和单阶段抓取检测；两阶段抓取检测，第一阶段为候选抓取生成阶段，在这个阶段，模型从图像中生成多个抓取位置作为候选抓取；第二个阶段为候选抓取评价阶段，在这个阶段，通过设计模型中的评估标准，对前一个阶段采样得到的候选抓取对应的区域进行打分，从而得到各个区域对应的抓取成功率；而单阶段抓取检测，主要是利用卷积神经网络的滑动窗口效果以及参数共享的特性，实现了不同图像区域的计算共享，即在完整的原图上进行特征计算，并对图像上所有未知进行目标检测，从而将之前繁杂的候选区域采样与特征计算融合到一起，只经过单次检测得到目标结果；

随着传感器的发展，面向点云和深度图像的六自由度抓取逐渐成为机器人领域的热门方向；6Dof空间抓取方法意味着夹具可以在三位物理空间中从任意方向对待抓取物体进行抓取；在6Dof空间抓取方法中，常见的研究场景是抓取物体已知的情况，因此此类问题常被转换成6D对象姿态估计问题；

传统的分析法来预测抓取位置必须设定一些假设，如能准确获取待抓取物体的模型参数、环境参数及能合理简化夹具模型等，而在现实抓取场景中，这些假设往往难以成立；并且分析法需要对已知物体进行三维建模，然而往往很难通过视觉对第一次看到的实际物体进行完整、准确的三维重建；而经验法非常依赖先前的抓取经验，采用经验法来检测抓取位置必须建立一个完备的抓取经验数据库,然而要建立这种数据库是不切实际的，不可能收集所有的抓取位置；

此外，由于非结构化环境日渐复杂化、抓取任务多样化等的现实情况，经验法的计算复杂度也越来越大，很难满足实际场景下的任务需求；目前的一些基于机器学习的机械臂抓取位置检测方法中，Lenz提出的两阶段抓取检测方法是较早把机器学习运用在机械臂抓取检测的方法之一，为机械臂抓取研究开辟了新的道路；

但是，这种两阶段的检测方法需要对整张图片进行遍历，十分的耗时，在实际运用下的实时性很差；MingshuaiDong提出了一种旨在解决复杂场景下目标物体抓取检测的模型，该模型先利用一个网络把相应的物体分割出来，然后利用另一个网络在分割出来的物体上进行抓取位置检测，有着不错检测效果；但是该模型完全依赖于第一个网络的分割效率，受限于目标分割网络的分割召回率；Kumra采用两个并行网络结构对RGB图像和三通道的深度图像进行多模态融合的抓取检测模型，最后再利用浅卷积神经网络预测给定对象的抓取位置；但是Kumra这种多模态融合操作只是简单的拼接两个网络最后的特征输出，没有充分地利用到网络中各粒度的特征信息，可能会导致检测目标的部分特征信息的丢失，这不利于多目标的抓取检测；6Dof抓取检测方法通常是基于三维点云数据进行检测，对点云数据的完整性要求较高，因此该类算法效率相对较低；

当前基于机器学习的抓取检测方法主要是基于卷积神经网络(CNN)构建的，由于卷积网络对全局信息关联能力较差，在现实环境多目标或者场景发生改变的情况下，网络的抓取质量就会有着大幅度的下降。

发明内容

本发明的目的在于提供一种基于Transformer的区域预估与多层级特征融合抓取检测方法，以解决上述背景技术中提出的技术问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于Transformer的区域预估与多层级特征融合抓取检测方法，步骤如下：

RGB图像通过2D目标检测器的检测把需要进行抓取检测的目标区域框选中，与同一物体的深度图像进行组合成四通道的图片作为输入；

四通道的输入经过Patch Partition模块分割成多块不重叠的patch,每个patch被看做是“token”，表示原始输入像素的级联；

将固定位置编码嵌入到每个token后传入编码器Encoder模块；

在编码器Encoder中，Linear Embedding层把每个token转化为C维的嵌入向量，接着经过patch merging+Transformer Block模组对token数量改变；

通过解码器Decoder执行与Patch merging相反的操作，通过patch Expanding+TransformerBlock模组对改变数量的token进行恢复；

通过多层级特征融合网络对Encoder收集的各层级输出特征进行融合；

生成与检测图像大小相同的像素热图预测抓取位置。

进一步地，Encoder模块收集到各个Encoder子块处理过后的特征图，通过下采样和卷积操作将特征图进行融合，并符合Decoder模块的输入规格。

进一步地，将符合Decoder模块输入规格的融合后特征图，通过Decoder模块处理，并在抓取预测模块得到有关抓取位置预测的抓取框的宽、抓取框的旋转角度的正弦与余弦两个分量以及该抓取置信度得分。

进一步地，抓取预测模块得到有关抓取位置预测的抓取框的宽、抓取框的旋转角度的正弦与余弦两个分量以及该抓取置信度得分，表达式如下：

其中，g表示抓取检测模型预测的抓取位置，g_Score、g_Sin、g_Cos、g_width分别表示预测抓取g的置信度得分、旋转角度sin与cos分量和抓取预测框的宽；x_n表示抓取检测网络输入到抓取预测模块的数据；是抓取检测网络对输入数据处理的4个卷积操作。

进一步地，RGB图像通过2D目标检测器的检测把需要进行抓取检测的目标区域框选中，步骤如下：

通过Faster—Rcnn对RGB图像进行检测，将抓取物体的位置用矩形框进行标注，在将除去矩形区域内的其他背景去除并作0填充。

进一步地，数据进入单个Transformerblock之前，使用LN对其进行归一化,然后进入W-MSA模块，通过线性映射矩阵W_QKV将输入序列t投影得到Q、K、V，表达式如下：

[Q,K,V]＝tW_QKV

其中，t表示输入序列，Q表示查询向量，K表示键向量，R表示值向量；

通过矩阵点积计算Q和K间的相似度，与V进行加权，自注意力的计算表达式如下:

其中，Attention(Q,K,V)表示输入序列t的自注意分数，SoftMax表示归一化指数函数，；d是向量Q的维度；B表示学习的相对位置编码；T表示转置符号，用来把向量K转置；

经过W-MSA模块后，使用残差连接与最开始的输入进行融合后进行归一化，经过带有GELU的两层线性连接层(MLP)，再次使用残差连接融合前面的输入信息在传到带有SW-MSA的Transformer block，表达式如下：

其中，和t^l分别表示第l模块(S)W-MSA模块和MLP模块的输出，t^l-1表示前一层的输出特征。

进一步地，热图中每个像素表示的该像素的抓取位置；

通过线性层与形状重排操作把Decoder的输出分辨率转为与图像大小一致，通过四个1x1的卷积生成四个单通道像素热图分别对应抓取检测的S、W、sin 2θ、cos 2θ，通过公式确定抓取角度θ，最终抓取由抓取分数图S的最高分数抓取决定。

进一步地，对预测抓取位置进行验证，步骤如下：

当抓取位置G与ground truth G'同时满足条件|G_θ-G'_θ|＜30°和条件认识抓取位置G正确；

条件|G_θ-G'_θ|＜30°表示预测抓取框与标注矩形框的角度大小相差小于30°；

条件表示预测的抓取框与标注矩形框的交并比大于25％。

本发明具有以下有益效果：

1、本发明采用了Transformer架构，利用Transformer架构的编码器和解码器结构来编码解码抓取检测图像，使得模型具有优秀的全局特征关联与建模能力。相比于传统基于卷积神经网络的抓取检测模型，具有更强的特征表达能力与泛化能力；并为了增强模型的迁移泛化能力以及丰富并保留更多的细粒度特征，还采用了区域预估和多层级特征融合来增强模型抓取性能；大量的试验表明，我们提出的方法抓取性能优于基于CNN的方法。

2、本发明通过利用一个特征融合模块对Encoder各个子模块的特征输出进行特征融合，保留各层级的特征信息再输入到Decoder模块进行抓取检测；然后利用当前优秀的2D目标检测器对抓取目标进行初步位置预测，去除背景等其他噪音因素的影响，使得我们的网络有着优秀的抓取检测性能。

3、本发明利用检测效果比较好的目标检测器来对模型的RGB图像输入进行初步的目标位置定位，去除抓取检测目标区域以外的背景，然后与深度图像结合为四通道作为模型的输入，这样的操作可以让抓取检测模型更多的关注抓取目标，让模型能够更快的获取抓取目标的特征信息，减少环境背景因素对抓取检测的影响，增强模型的泛化能力。

4、本发明利用多个卷积神经网络把Transformer中Encoder各个子模块的输出特征进行特征融合，这样从Encoder输入到Decoder的信息就包括了各个层级模块获取的有用特征信息，特征信息更加的丰富保留了更多的细粒度特征。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于Transformer的区域预估与多层级特征融合抓取检测模型示意图；

图2为本发明的TransformerBlock结构示意图；

图3为本发明的抓取关系表示示意图；

图4为本发明的康奈尔数据集上部分实验结果可视化示意图；

图5为本发明的Jacquard数据集上部分实验结果可视化示意图；

图6为本发明的Cornel数据集的抓取检测结果对比示意图；

图7为本发明的Jacquard数据集的抓取检测结果对比示意图；

图8为本发明的多目标抓取数据集的抓取检测结果对比示意图；

图9为本发明的真实场景的抓取示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-9所示，本发明为一种基于Transformer的区域预估与多层级特征融合抓取检测方法，步骤如下：

(1)技术方案

1.网络架构

如图1所示，RGB图像通过2D目标检测器的检测把需要进行抓取检测的目标大概区域框选出，然后与同一物体的深度图像进行组合成四通道的图片作为下面模块的输入。

四通道的输入经过Patch Partition模块分割成多块不重叠的patch,每个patch被看做是“token”，表示原始输入像素的级联，具体的讲就是4通道大小为224*224的输入(4*224*224)分割成为(224/4)*(224/4)个4*4大小通道数为3的小patch。然后用固定位置编码嵌入到每个token后传入Encoder。进入到Encoder模块后，收集到各个Encoder子块处理过后的特征图，经过一系列的下采样和卷积操作把这些特征图融合起来使其符合Decoder模块的输入规格，然后经过Decoder模块进一步处理，最后在抓取预测模块得到有关抓取位置预测的抓取框的宽、抓取框的旋转角度的正弦与余弦两个分量以及该抓取置信度得分。

最终的输出结果表达式为：

2.目标位置预估

目标检测已经发展出一套成熟的检测流程并且成功运用在实际生活的各个领域如自动驾驶、人脸识别、工业检测等。抓取检测和目标检测在存在许多不同之处，但是技术路线大体上还是有许多相似的地方，比如都得事先找到需要检测的物体位置，但抓取检测除了要对抓取的物体进行定位以外还得预测出相应的抓取信息。

因此本发明利用了一个比较成熟的2D目标检测器-Faster—Rcnn(鉴于Yolo-Fastest检测速度非常快，每帧耗时仅为5.37ms,并且有较高的准确率)对RGB图像进行检测，事先把要抓取的物体位置用矩形框标注出来，然后把除去矩形区域内的其他背景去除并作0填充，这样背景区域对网络权重就没有任何影响，考虑到把背景去除可能会降低模型的泛化能力，本发明把处理过的RGB图像与没有处理过的Depth图像融合成RGB-D四通道图像作为网络的输入。当然，任何目标检测器不可能百分百的定位出需要进行检测的目标，本发明的处理方法是在训练阶段当检测器框选出来的区域里没有需要检测的目标时就不对原始RGB图像进行处理，保留原图信息；在预测阶段因为不知道检测目标的位置标签，无法采用与训练阶段完全相同的措施，本发明采取的措施是把检测评分前5的目标共同构成的区域框选出来，同时训练和预测都把检出目标的区域扩大30％，避免检出物体不完整情况的出现。

3.网络中TransformerBlock

本发明的TransformerBlock采用的是基于移动窗口的SwinTransformer，与一般的TransformerBlock不同之处在于用移动窗口的多头注意力模块取代了标准的多头注意力模块,采用这种移动窗口的Transformer模块的模型计算复杂度比一般的visionTransformer要低得多，并且增强了模型的全局和局部特征的获取能力，图2所示的是两个SwinTransformerblock的结构图。数据进入单个Transformerblock之前，使用Layernormalization(LN)对其进行归一化,然后进入windowmulti-headself-attention(W-MSA)模块(这是注意力机制的关键所在，它用来建立图像空间上的长距离依赖,弥补卷积神经网络感受野受限的缺陷)，首先通过线性映射矩阵W_QKV将输入序列t投影得到Q、K、V，其定义如下：

[Q,K,V]＝tW_QKV

其中，t表示输入序列，Q表示查询向量，K表示键向量，R表示值向量。

然后,通过矩阵点积计算Q和K间的相似度，再与V进行加权.自注意力的计算过程如下所示:

其中，Attention(Q,K,V)表示的是由上述t转化而来的三个向量Q、K、V计算得到的自注意力分数，即输入序列t的自注意分数，Q、K、V依次表示的是查询向量、键向量、值向量；SoftMax是一个通用的函数名，叫归一化指数函数，通常就叫SoftMax函数；d是向量Q的维度；B是一个可学习的相对位置编码；T是一个数学符号，即转置符号，用来把向量K转置。

如图2所示，经过W-MSA模块后，使用残差连接与最开始的输入进行融合，接着又进行一次归一化，然后经过带有GELU的两层线性连接层(MLP)，最后再次使用残差连接融合前面的输入信息在传到下个带有SW-MSA即移动窗口多头注意力机制的Transformerblock.这种带有窗口变化机制与移动窗口变化机制的Transformer模块组数据变化过程如下：

其中，和t^l分别表示第l模块(S)W-MSA模块和MLP模块的输出，t^l-1表示前一层的输出特征，W-MSA、LN、MLP、SW-MSA为图2中的模块名称。

4.解码器和编码器

传入模型的特征图经过编码器编码使得模型得到的特征图包含的特征信息更加符合抓取检测任务的需求。在通道数为4，尺寸为W×H的图像数据进入编码器Encoder之前，要经过Patch Partition层分割为个互不重叠的4通道大小为P×P的patch,每个patch被看作是“token”表示原始输入像素的级联。在Encoder中，Linear Embedding层把每个token转化为C维的嵌入向量，接着经过两个连续TransformerBlock，其输出维度不发生任何改变。然后经过三个(patch merging+Transformer Block×2)的模组，patch merging层会把token的数量变为原来的/>维度变为原来的两倍，这样经过三个模组后token数量变为/>维度变为8C。这几个阶段分别产生不同层级的特征，我们收集到这四个阶段输出的特征图在特征融合模块进行融合。

Patch merging layer:将输入的每2×2相邻的patches进行特征拼接，这种操作会把tokens的数量减少2×2＝4的倍数(等同于2X的池化或者下采样)，因为token的分辨率减少了四倍，再通过线性映射把token的维度变为两倍。

本发明的解码器Decoder同样使用Swin TransformerBlock来构建。与编码器Encoder中Patch merging不同的是我们使用Patch Expanding层来扩展从上一模块传来的特征信息，准确的说是执行与Patch merging相反的操作，通过三个(patch Expanding+Transformer Block×2)模组把维度为8C,数量为H/8P×W/8P的token恢复到进入Encoder之前的尺寸即H/P×W/P×C。

Patch Expanding layer：先通过线性层把token(h×w×c)的维度变为原来的2倍,然后重塑token的形状，把形状为(h×w×2c)的token转变为

5.多粒度特征融合

Transformer Block内的残差连接使Block内部的网络之间实现一定的特征融合，但是各个Block之间是不存在这样的连接的。本发明的Encoder模块存在着八个Transformer Block，随着网络的加深，提取的特征更加抽象，但也伴随着空间细节和细粒度特征的丢失，这对像素级的抓取检测任务有着极大影响，使得模型在小目标的抓取检测和泛化效果变差，有必要结合低层级和高层级的特征来描述抓取物体边界和细节。因此，本发明设计了一个基于卷积神经网路的多层级特征融合网络对Encoder收集的各层级输出特征进行融合。因为Encoder各个模块输出的特征图尺度不一，我们用卷积网络对各个层级输出进行特征维度变换(考虑到在Encoder中低层级模块的输出特征尺度更大，变换到小尺度缩减的比例更大，本发明在低层级使用的卷积层数目就更多一些)，然后通过下采样的操作使得他们的尺寸大小一致并融合在一起，最后通过一层1x1卷积使其通道数与Decoder的输入一致。本发明的多层级特征融合操作使得Encoder各层级的特征都得以保留，输入到Decoder的语义信息更加丰富并保留了更多的特征细节。

6.抓取位置预测与损失函数

本发明实现了端到端的像素级抓取检测，使用抓取网络生成与检测图像大小相同的像素热图来预测抓取位置，热图中每个像素表示的该像素的抓取位置。具体实现：通过线性层与形状重排操作把Decoder的输出分辨率转为与图像大小一致的224*224，然后通过四个1x1的卷积生成四个单通道224*224的像素热图分别对应抓取检测的S、W、sin 2θ、cos 2θ，利用sin 2θ、cos 2θ通过公式确定抓取角度θ，最终抓取由抓取分数图S的最高分数抓取决定。这样就把抓取位置检测变成了一个端到端的回归问题，通过本发明提出的模型找到输入图像I到抓取位置G的一个映射关系F：I～G,使得预测与groundTruth(即输入图像I的真实抓取标签G)的距离达到最小。网络的损失函数定义如下：

公式中，由/>中的/>和公式中的i和m构成，/>由抓取位置G和公式中的i和m构成。

其中，i表示从1到n对后面的smooth的运算结果进行求和，m表示把S、W、θ分别代入Smooth中运算后求和，n指的是待检测图像中像素点得数目，Smooth(x,y)函数的定义如下：

(2)技术效果

1.实验结果及分析

本发明利用康奈尔和Jacquard两个常用的数据集进行了验证，同时也在多目标混乱场景下进行了测试。沿用了大部分研究采用的5折交叉验证的评估方法，把实验数据样本划分为5个子样本，其中4个样本作为训练集，1个样本作为验证集，每个子样本验证一次。同时，为了避免模型训练得过度拟合，本发明通过随机裁剪、随机旋转以及随机缩放的方式来扩展数据集。

本发明采用的评估标准是康奈尔抓取数据集上的矩形度量标准。如果模型预测的抓取位置G与ground truth G'同时满足以下两个条件，则认为该预测是正确的。

|G_θ-G'_θ|＜30° (1)

其中条件(1)表示预测抓取框与标注矩形框的角度大小相差小于30°，这意味着两者抓取角度的差值在[-30°,30°]均可。条件(2)表示预测的抓取框与标注矩形框的交并比(intersection over union，IoU)大于25％；在抓取位置检测中，这一指标又被称为Jaccard指数。

对于平行抓握器，抓取检测的目标是在图像中检测出满足抓取任务的有效抓握矩形，本发明采用的抓取表示方法如下：

G＝{S,W,θ}∈R^3×W×H

该表示方法是针对像素级的抓取检测的，S、W、θ∈R^W×H,其中S表示的是图像中每个像素点的抓取得分，范围是[0,1],S越高表明该点抓取位置越准确；W表示的是每个像素点的抓取宽度，θ表示的是每个像素点的抓取角度，它是用Sin和Cos两个分量来确定的。W、H是检测图像的尺寸宽高。图3展示了该抓取关系，对于每个像素(x,y)都有一个G表示抓取，G的参数w和θ如图所示，另外还有相应的S来表示该像素点的抓取分数。

本发明提出的抓取检测网络在康奈尔抓取数据集与Jacquard抓取数据集上进行训练和测试，分别取得了98.6％与95.9％的抓取准确率，检测速率达到了39帧每秒以上。表1和表2展示本发明与当前一些检测效果较好的抓取检测方法在Cornell与Jacquard抓取数据集的抓取检测结果对比。

表1Cornell数据集抓取检测结果

表2Jacquard数据集抓取检测结果

本发明采用Image-Wise split(IW)和Object-Wise split(OW)两个评估参数来证明抓取预测准确率。Image-Wise split(IW)是指将数据集中的所有图像随机划分，这种划分有利于评估模型在检测物体位置和姿态时的性能。Object-Wise split(OW)是指将数据集中的所有对象实例随机划分，这种划分方法有利于评估模型在测试未知对象时的性能。同时还考虑了不同模型输入和模型检测时间效率来进行综合比较。以RGB和深度图像为输入时，本发明提出的模型能够达到98.6％的抓取准确率，优于其他算法，并且检测效率可以达到39.2帧每秒，实时检测效果优秀。当仅以深度图像作为输入时，由于缺少了目标区域预估过程，模型的检测速率有所提升达到48帧以上，但是抓取准确率有所下降。当仅用RGB图像作为网络的输入，因为去除了目标以外的背景且没有与深度图像组合，模型的泛化能力不如RGB+Depth的组合，ow的准确率比IW低一些，但检测准确率还是相对较高的。对于Jacquard数据集，用90％的数据作为训练集，剩下的10％作为验证集，本发明的抓取检测网络实现了95.9％的准确率。

2.可视化效果分析

图4和图5分别展示了本发明在Cornell数据集与Jacquard数据集检测的部分结果可视化。图中第一行展示了本发明在给定检测图像上检测出Score热图中抓取质量得分最高的点以及该点对应得其他参数组成的抓取矩形。第二、三、四行分别展示了本发明提出的模型得到的抓取质量得分Score、抓取矩形旋转角度Angel以及抓取矩形宽度Width三个热图，其中Angle热图由Sin与Cos两个角度分量通过公式转化得到。我们可以看到本发明得到抓取检测矩形都是很适合检测图中物品的抓取的，得到的三张抓取检测热图也是很准确的分割出合适的抓取点的轮廓

为了更好的展示本发明的检测效果，本发明与抓取检测网络GR-CNN和GGCNN的检测结果进行了对比评估.图6、图7、图8展示了本发明提出的抓取检测网络与GR-CNN和GG-CNN在Cornell抓取数据集、Jacquard抓取数据集以及多目标检测数据集上的部分检测效果热图对比。可以看到，本发明得到的的抓取质量图更加清晰，能够更好的分割出抓取目标和背景，这使得本发明的抓取检测不容易被环境背景因素影响。同时，在多目标检测也同样可以清晰区分各个抓取物体，并且抓取预测也是比较准确的。而GR-CNN不能够很好的检测到所有抓取目标，并且有的抓取矩形宽度和角度并不适合抓取物体；从GG-CNN的检测热图可以发现它的抓取区域很分散，没有关注到抓取位置区域。

AUBO-I10机器人被用于评估本发明提出的抓取检测方法。该机器人配有一个平行夹持器，夹持器的有效载荷为10千克。zed 2i相机被垂直放在工作台的上方用于拍摄RGB图像和深度图像。本发明提出的抓取检测方法利用摄像头采集的实时的图像信息预测图像坐标中的抓取配置，然后它将被转移到机器人世界坐标，最后由机器人的抓取器实现目标抓取。抓取试验中的物品都是训练数据集中未出现过的物品，他们被随机放置在工作台上。试验场景如图9所示。实验中，抓握预测框按每个框的置信度得分从高到底依次被传送给机器人，机器人执行一次抓取后把抓取的物品放回再进行下一次抓取。若物品能够被抓住并放置回去则认为这次抓取是成功的。表3列出了本发明提出的方法与部分基于深度学习的抓取检测方法的结果。我们总共进行了300次真实机器人的抓取尝试，284次成功的抓取，抓取成功率为94.7％。

表3真实抓取检测对比结果

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该本发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，步骤如下：

四通道的输入经过Patch Partition模块分割成多块不重叠的patch,每个patch被看做是token，表示原始输入像素的级联；

将固定位置编码嵌入到每个token后传入编码器Encoder模块；

生成与检测图像大小相同的像素热图预测抓取位置。

2.根据权利要求1所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，Encoder模块收集到各个Encoder子块处理过后的特征图，通过下采样和卷积操作将特征图进行融合，并符合Decoder模块的输入规格。

3.根据权利要求2所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，将符合Decoder模块输入规格的融合后特征图，通过Decoder模块处理，并在抓取预测模块得到有关抓取位置预测的抓取框的宽、抓取框的旋转角度的正弦与余弦两个分量以及该抓取置信度得分。

4.根据权利要求3所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，抓取预测模块得到有关抓取位置预测的抓取框的宽、抓取框的旋转角度的正弦与余弦两个分量以及该抓取置信度得分，表达式如下：

5.根据权利要求1所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，RGB图像通过2D目标检测器的检测把需要进行抓取检测的目标区域框选中，步骤如下：

6.根据权利要求1所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，数据进入单个Transformerblock之前，使用LN对其进行归一化,然后进入W-MSA模块，通过线性映射矩阵W_QKV将输入序列t投影得到Q、K、V，表达式如下：

[Q,K,V]＝tW_QKV

经过W-MSA模块后，使用残差连接与最开始的输入进行融合后进行归一化，经过带有GELU的两层线性连接层(MLP)，再次使用残差连接融合前面的输入信息在传到带有SW-MSA的Transformerblock，表达式如下：

7.根据权利要求1所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，热图中每个像素表示的该像素的抓取位置；

通过线性层与形状重排操作把Decoder的输出分辨率转为与图像大小一致，通过四个1x1的卷积生成四个单通道像素热图分别对应抓取检测的S、W、sin2θ、cos2θ，通过公式确定抓取角度θ，最终抓取由抓取分数图S的最高分数抓取决定。

8.根据权利要求1所述的一种基于Transformer的区域预估与多层级特征融合抓取检测方法，其特征在于，对预测抓取位置进行验证，步骤如下：

条件表示预测的抓取框与标注矩形框的交并比大于25％。