CN115526935A

CN115526935A - 基于全局和局部信息的像素级抓取位姿检测方法及系统

Info

Publication number: CN115526935A
Application number: CN202211190519.1A
Authority: CN
Inventors: 常发亮; 杨如瑞; 刘春生; 王德鑫; 郇恒强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-27

Abstract

本发明公开了基于全局和局部信息的像素级抓取位姿检测方法及系统；其中所述方法包括：获取场景图像，并对场景图像进行预处理；将预处理后的场景图像，输入到训练后的像素级抓取位姿检测网络中，输出每个像素点的平面抓取位姿，经过位姿转换关系，将平面抓取位姿映射到现实场景，由机械臂实现目标对象的抓取；其中，训练后的像素级抓取位姿检测网络，其工作原理包括：对场景图像进行特征提取，得到图像特征；对提取的图像特征进行降噪处理；对降噪处理后的图特征进行特征融合，得到包含不同感受野的特征图；对包含不同感受野的特征图进行分类预测，输出每个像素点的平面抓取位姿。

Description

基于全局和局部信息的像素级抓取位姿检测方法及系统

技术领域

本发明涉及抓取位姿检测技术领域，特别是涉及基于全局和局部信息的像素级抓取位姿检测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

抓取位姿检测是实现机器人物体操作的基础技术，随着机器人智能化的发展，机器人的精确操作对抓取位姿检测的精度需求也越来也高，也要求位姿检测算法可以使用到多物体的复杂场景中。目前的抓取检测算法大多使用卷积神经网络，基于物体之间的局部信息来预测可能存在的抓取位姿，很少结合场景中不同物体间的全局信息来预测多物体场景中的抓取位姿。

Dexin Wang等人在《IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS》发表的论文《High-performance Pixel-level Grasp Detection based on Adaptive Graspingand Grasp-aware Network》提出将传统的基于矩形框的抓取位姿检测转换成了逐像素的有向箭头预测，提高了抓取检测的稠密性，避免遗漏可能存在的抓取位姿，并通过空洞卷积和特征融合的方法获取不同尺度的特征，增强了模型的检测能力和泛化能力。不过该方法还是基于传统的卷积神经网络，尽管通过空洞卷积和特征融合的方法提高了全局信息的感知提取能力，不过空洞卷积并没有特别强的全局信息聚合能力，因此在多物体的复杂场景中表现并不是很出色。仅仅依赖局部信息并不能很好地解决多物体复杂场景中物体之间相互影响的情况。

目前对全局信息的处理和应用主要以Transformer机制为主，获取图像不同patch之间的相关性，并且在图像处理的多个领域取得了很好的效果。ZeLiu等人在2021年的ICCV会议上发表的《Swin Transformer:Hierarchical VisionTransformer using ShiftedWindows》一文中，提出了通过循环移位和局部窗口注意力机制的Transformer模型，不仅可以获取全局信息，得到不同层次的特征图，还降低了计算量。此方法后来被应用到目标检测，语义分割等领域，都取得了非常好的效果。虽然Swin Transformer有很强的全局信息的提取能力，不过在提取特征的过程中，局部信息可能遭到破坏，而且逐像素预测需要十分精细的信息，因此单纯的Swin Transformer用来抓取位姿预测效果不好，需要对其进行改进提高它的局部信息处理的能力，并且后续要能很好地融合局部信息和全局信息。

在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：通常的抓取检测算法使用卷积神经网络获取场景中物体的局部信息，缺乏对全局信息的关注，这就导致在多物体的复杂场景中的抓取检测不够准确，限制了抓取算法的精度与可用性。

发明内容

为了解决现有技术的对多物体复杂场景下预测精度不高的问题，本发明提供了基于全局和局部信息的像素级抓取位姿检测方法及系统；提出改进FFN模块来提高Transformer的局部信息提取聚合能力，然后设计自适应特征融合模块对不同的特征进行融合，最后通过三个并行的网络分支预测不同的抓取参数，将参数融合获得抓取配置，得到可靠的抓取，提高抓取位姿检测的精度和泛化性。

第一方面，本发明提供了基于全局和局部信息的像素级抓取位姿检测方法；

基于全局和局部信息的像素级抓取位姿检测方法，包括：

获取场景图像，并对场景图像进行预处理；

将预处理后的场景图像，输入到训练后的像素级抓取位姿检测网络中，输出每个像素点的平面抓取位姿，经过位姿转换关系，将平面抓取位姿映射到现实场景，由机械臂实现目标对象的抓取；

其中，训练后的像素级抓取位姿检测网络，其工作原理包括：对场景图像进行特征提取，得到图像特征；对提取的图像特征进行降噪处理；对降噪处理后的图特征进行特征融合，得到包含不同感受野的特征图；对包含不同感受野的特征图进行分类预测，输出每个像素点的平面抓取位姿。

第二方面，本发明提供了基于全局和局部信息的像素级抓取位姿检测系统；

基于全局和局部信息的像素级抓取位姿检测系统，包括：

获取模块，其被配置为：获取场景图像，并对场景图像进行预处理；

位姿检测模块，其被配置为：将预处理后的场景图像，输入到训练后的像素级抓取位姿检测网络中，输出每个像素点的平面抓取位姿，经过位姿转换关系，将平面抓取位姿映射到现实场景，由机械臂实现目标对象的抓取；

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

融合全局信息和局部信息，借助Transformer的全局信息提取能力和卷积神经网络的局部信息聚合能力，将两种方法融合实现互补，检测输入图像中每个像素可能存在的抓取配置，再经过筛选得到图像中物体的可靠的平面抓取配置。

提出改进FFN结构将卷积网络引入Swin Transformer中，增强网络对局部信息的提取聚合能力，然后提出了自适应特征融合模块，来自适应地学习融合不同的特征，得到足够精细的特征图，提高像素级预测的准确性和泛化能力。

本发明采用基于Transformer的特征网络，深度挖掘不同物体之间的关系，提取蕴含多物体交互关系的深层特征。

在Transformer中加入局部信息的提取模块，增强对物体局部信息的提取能力；通过自适应特征融合模块来学习特征在抓取位姿预测的重要性，提高重要信息在预测中的权重，增强预测效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一的基于全局信息和局部信息融合的像素级抓取位姿检测方法的流程图；

图2(a)为本发明实施例一的Swin Transformer网络结构；

图2(b)为本发明实施例一的改进后的Swin Transformer Block的内部网络结构；

图3(a)为本发明实施例一的基于全局信息和局部信息融合的像素级抓取位姿检测网络结构图；

图3(b)为本发明实施例一的特征融合网络内部结构图；

图4(a)-图4(p)为本发明实施例一的PLGP数据集抓取位姿预测结果样例。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

像素级抓取位姿检测是指对输入RGB图像或者深度图像逐像素地预测在每个像素点可能存在的平面抓取配置，并通过后续的位姿转换关系映射到现实场景，再经由机械臂实现可靠的抓取，在计算机视觉、人机交互、机器人操作等领域具有重要的作用。

实施例一

本实施例提供了基于全局和局部信息的像素级抓取位姿检测方法；

如图1所示，基于全局和局部信息的像素级抓取位姿检测方法，包括：

S101：获取场景图像，并对场景图像进行预处理；

S102：将预处理后的场景图像，输入到训练后的像素级抓取位姿检测网络中，输出每个像素点的平面抓取位姿，经过位姿转换关系，将平面抓取位姿映射到现实场景，由机械臂实现目标对象的抓取；

其中，训练后的像素级抓取位姿检测网络，其工作原理包括：

对场景图像进行特征提取，得到图像特征；

对提取的图像特征进行降噪处理；

对降噪处理后的图特征进行特征融合，得到包含不同感受野的特征图；

对包含不同感受野的特征图进行分类预测，输出每个像素点的平面抓取位姿。

进一步地，所述场景图像，允许是RGB图像、深度图像或RGB-D图像。

进一步地，所述对场景图像进行预处理，包括：

对图像依次进行尺度缩放、角度旋转、高斯噪声添加和平移操作；

对平移操作后的图像，采用中心裁剪的方式，裁剪出设定尺寸的图像，并对裁剪出的图像进行归一化处理。

示例性地，所述对场景图像进行预处理，包括：

在[1,1.2]的尺度内进行随机放缩，在[-30°,30°]的范围内随机旋转，接着添加高斯噪声，然后使用在图像的水平和垂直方向最多平移30个像素点的中心裁剪方法获得320×320大小的输入图像，最后对该图像进行归一化。

Input＝Normalize(Crop(Gaussian(Rotate(Rescale(I))))) (1)

其中，Crop是指中心裁剪，Gaussian操作指添加随机高斯噪声，Rotate指随机旋转操作，Rescale是随机放缩操作。

进一步地，如图3(a)所示，所述训练后的像素级抓取位姿检测网络，其网络结构包括：

依次连接的骨干网络、去噪网络、特征融合网络和解码器。

进一步地，所述骨干网络采用改进后的Swin Transformer网络来实现。

进一步地，如图2(a)所示，所述改进后的Swin Transformer网络，包括：

依次连接的块分割Patch Partition层、第一阶模块Stage1、第二阶模块Stage2、第三阶模块Stage3和第四阶模块Stage4；

所述第一阶模块Stage1，包括：依次连接的线性编码Liner Embedding层、第一改进后的Swin Transformer Block和第二改进后的Swin Transformer Block；

所述第二阶模块Stage2，包括：依次连接的第一块合并Patch Merging层、第三改进后的Swin Transformer Block和第四改进后的Swin Transformer Block；

所述第三阶模块Stage3，包括：依次连接的第二Patch Merging层、第五改进后的Swin Transformer Block、第六改进后的Swin Transformer Block、第七改进后的SwinTransformer Block、第八改进后的Swin Transformer Block、第九改进后的SwinTransformer Block和第十改进后的Swin Transformer Block；

所述第四阶模块Stage4，包括：依次连接的第三Patch Merging层、第十一改进后的Swin Transformer Block和第十二改进后的Swin Transformer Block。

进一步地，所述第一改进后的Swin Transformer Block、第二改进后的SwinTransformer Block、第三改进后的Swin Transformer Block、第四改进后的SwinTransformer Block第五改进后的Swin Transformer Block、第六改进后的SwinTransformer Block、第七改进后的Swin Transformer Block、第八改进后的SwinTransformer Block、第九改进后的Swin Transformer Block和第十改进后的SwinTransformer Block、第十一改进后的Swin Transformer Block和第十二改进后的SwinTransformer Block内部结构是一致的。

进一步地，所述改进后的Swin Transformer网络，是将Swin Transformer网络的Swin Transformer Block均替换为第一改进后的Swin Transformer Block。

进一步地，如图2(b)所示，所述第一改进后的Swin Transformer Block，包括：

依次连接的第一基本单元和第二基本单元；

所述第一基本单元，包括：依次连次连接的第一层归一化层LN(LayerNormalization)、窗多头自注意力机制层(Window Multi-head Self-Attention,W-MSA)、加法器J1、第二层归一化层LN、第一改进FFN模块和加法器J2；其中，加法器J1的输入端与第一层归一化层LN的输入端残差连接；加法器J2的输入端与第二层归一化层LN的输入端残差连接；

所述第二基本单元，包括：依次连次连接的第三层归一化层LN、移位窗多头自注意力机制层(Shifted Window Multi-head Self-Attention,SW-MSA)、加法器J3、第四层归一化层LN、第二改进FFN模块和加法器J4；其中，加法器J3的输入端与第三层归一化层LN的输入端残差连接；加法器J4的输入端与第四层归一化层LN的输入端残差连接；

第一层归一化层LN的输入端作为第一改进后的Swin Transformer Block的输入端；加法器J4的输出端作为第一改进后的Swin Transformer Block的输出端；加法器J2的输出端与第三层归一化层LN的输入端连接。

应理解地，窗多头自注意力机制层(Window Multi-head Self-Attention,W-MSA)，是对传统多头自注意力机制的改进，将输入图像划分成一个个小窗口，然后对窗口进行注意力计算，降低运算复杂度。

应理解地，移位窗多头自注意力机制层(Shifted Window Multi-head Self-Attention,SW-MSA)，是为了解决窗多头自注意力只能感受窗口之内的信息的问题，将输入特征图像向左和向上分别平移窗口大小的一半，然后将左上角移出窗口的特征信息移动到右下角的位置，这样窗口可以感受不同位置的信息，实现窗口之间的信息交流。移位窗多头自注意力机制层是将特征图的元素进行移位，使不相邻的元素相邻，再经过窗注意力计算获得不相邻位置元素之间的相关性。

进一步地，第一改进FFN模块与第二改进FFN的内部结构是一致的；

所述第一改进FFN模块，包括：

依次连接的1*1的卷积层C1、维度变换Reshape层R1、3*3的深度可分离卷积(Depth-wise)层C2、维度变换Reshape层R2和卷积层C3。

其中，卷积神经网络(卷积层C1、深度可分离卷积(Depth-wise)层C2和卷积层C3)提取局部信息，改进后的Swin Transformer网络提取全局信息。

进一步地，所述第一改进FFN模块，工作原理包括：

在通过滑动窗口注意力机制层处理之后得到特征编码P，使用一维卷积挖掘特征编码P的通道相关性，得到特征编码L；

然后将特征编码L从一维调整为二维图像特征F，送入Depth-wise卷积提取局部特征F′；

然后将得到的F′调整成一维特征编码L′，继续使用一维卷积处理得到特征图P′。

然后送入后续的Swin Transformer Block进行处理。

L＝Conv1D(P) (3)

F′＝DWConv2D(Reshape(L)) (4)

P′＝Conv1D(Reshape(F′)) (5)

循环多次之后，得到的特征图就包含了比较丰富的信息，方便对图像进行逐像素的预测。

进一步地，所述改进后的Swin Transformer网络，其工作原理包括：

将输入图像切成一个个patch，然后嵌入向量，得到输入图像的Token，然后经过四个Swin Transformer Block进行特征提取，得到特征图。

进一步地，所述第一改进后的Swin Transformer Block，其工作原理包括：

步骤102-a1：对于输入的图像Token的编码S_i，采用一个窗多头自注意力机制层或者移位窗多头自注意力机制层的线性转换层计算得到一个query向量Q_i,key向量K_i和一个value向量V_i；随后将Q_j和K_i点乘后得到一个分数，用来表示输入S_j与S_i的相似性，并且将这个分数作为权重与V_i加权求和后得到注意力特征head_i。这个过程被称作缩放点乘注意力(Scaled dot-product attention)，用矩阵的形式表示为：

其中，d是Q和K的维度，B是相对位置编码；

步骤102-a2：对提取的注意力特征序列重新调整大小成二维特征图像；

步骤102-a3：对得到的二维特征图像进行卷积操作，提取局部信息，获取不同特征点与其周围特征点之间的关系；

步骤102-a4：将经过卷积处理过的特征图重新调成大小成一维特征序列，送入后续的Swin Transformer Block中继续计算。

Swin Transformer基于循环移位和局部窗自注意力，它的基本结构如图2(b)所示。

Swin Transformer Block内部的窗自注意力机制层是将注意力的计算限制在每个窗口内，减轻计算量。

为了可以获得更好的性能，深度提取图像的局部信息，本发明设计了改进FFN模块替换Swin Transformer的FFN模块，引入卷积神经网络，增强模型的局部信息提取能力。

进一步地，如图3(a)所示，所述去噪网络，其网络结构包括：

加法器J5，所述加法器J5的输入端分别与第一阶模块Stage1、第二阶模块Stage2、第三阶模块Stage3和第四阶模块Stage4的输出端连接；

所述加法器J5的输出端与Refine层的输入端连接；

Refine层的输出端与加法器J6的输入端连接，加法器J6的输入端还与第一阶模块Stage1的输入端连接；加法器J6的输出端分别与特征金字塔(Feature Pyramid Network,FPN)网络自顶向下的四个层的输入端连接，FPN网络自顶向下的四个层的输出端与拼接单元的输入端连接，拼接单元的输出端与特征融合网络的输入端连接。

进一步地，所述去噪网络，其工作原理包括：

将改进后的Swin Transformer网络得到的四层特征图分别标记为S1,S2,S3,S4，分别是Stage1，Stage2，Stage3，Stage4的结果，它们的尺寸逐渐减小。

对S1和S2使用池化处理将尺寸缩小到S3的大小，使用双线性插值将S4的尺寸放大到S3的大小，将处理后的特征图相加，再经过Refine层进行细化与特征图平衡，得到特征图A3；

对特征图A3使用双线性插值恢复到S1原来的尺寸，再与S1相加，得到特征图A1；

对特征图A3使用双线性插值恢复到S2原来的尺寸，再与S2相加，得到特征图A2；

对特征图A3使用使用池化操作恢复到S4原来的尺寸，再与S4相加，得到特征图A4；

随后将A4双线性插值放大到A3的尺寸大小，再与A3相加得到M3；

将M3双线性插值放大到A2的尺寸大小，再与A2相加得到M2；

再将M2双线性插值放大到A1的尺寸大小，再与A1相加得到M1；

然后将M2,M3,A4使用双线性插值放大到A1的尺寸；

再将M1,M2,M3,A4拼接成高维特征图；

接着使用卷积层降维，得到特征融合网络的输入特征图。

Refine层就是对特征进行去噪和进一步精炼。

进一步地，如图3(b)所示，所述特征融合网络，其网络结构包括：

并列的空洞卷积层C4、空洞卷积层C5、空洞卷积层C6和空洞卷积层C7；

空洞卷积层C4、空洞卷积层C5、空洞卷积层C6和空洞卷积层C7的输入端均与去噪网络的输出端连接；

空洞卷积层C4、空洞卷积层C5、空洞卷积层C6和空洞卷积层C7的输出端均与卷积层C8的输入端连接；

卷积层C8的输出端与Sigmoid函数层的输入端连接；

Sigmoid函数层的输出端与Split分割函数层的输入端连接；

Split分割函数层的输出端输出四个独立的权重参数，基于四个独立的权重参数对空洞卷积层C4、空洞卷积层C5、空洞卷积层C6和空洞卷积层C7的输出数据进行加权，再利用加法器对加权后的数据进行求和；

将求和后的数据与第一阶模块Stage1的输出数据进行拼接，将拼接结果输入到卷积层C9中，卷积层C9输出值为特征融合网络的输出值。

应理解地，由于对输入的每个像素都预测抓取配置是非常困难的，需要输入的特征图包含足够精细且丰富的特征，因此本发明设计了自适应特征融合来增强解码阶段特征图的信息丰富性。

进一步地，所述特征融合网络，其工作原理为：

使用四个不同膨胀系数的空洞卷积对经过平衡特征金字塔(Balanced FeaturePyramid,BFP)降噪和FPN处理后的特征图进行处理，来扩大解码阶段的感受野，得到四个具有不同感受野的特征图f₁ f₂ f₃ f₄；

随后使用卷积网络计算这四个特征图对后续解码的重要性，得到

再将W分割成4个独立的权重参数，权重参数分别与特征图f₁ f₂ f₃ f₄逐像素相乘，放大重要的特征元素，抑制不重要的特征。

f_i＝Conv_i(F) (6)

W＝Sigmoid(Conv_fw(Concat(f₁,f₂,f₃,f₄))) (7)

其中，Conv_i是空洞卷积，Conv_fw是计算重要性权重的卷积模块，W_i是将W分割之后的权重，⊙是逐像素相乘。

将骨干网络的第一阶模块Stage1输出的特征图引入到经过融合得到的F_L特征当中；

F_AF＝Conv_AF(Concat(F_L,Conv_b1(F_b1))) (9)

其中，Conv_b1是降维操作。

进一步地，所述解码器，其网络结构包括：

并列的三个分支：第一分支、第二分支和第三分支；

第一分支包括依次连接的卷积层C10、反卷积层F1和上采样层U1；

第二分支包括依次连接的卷积层C11、反卷积层F2和上采样层U2；

第三分支包括依次连接的卷积层C12、反卷积层F3和上采样层U3；

所述卷积层C10、卷积层C11和卷积层C12的输入端均与卷积层C9的输出端连接。

进一步地，所述解码器，其工作原理包括：

将融合后的特征F_AF分别送入三个平行的分支，在每个分支都经过卷积层，反卷积层和上采样层，得到最后的平面抓取位姿；其中，平面抓取位姿，包括：抓取置信度、角度分类和抓取宽度。

进一步地，所述训练后的像素级抓取位姿检测网络，其训练过程包括：

构建训练集和测试集；所述训练集和测试集均为已知每个像素点的平面抓取位姿的场景图像；

将训练集输入到像素级抓取位姿检测网络中，对网络进行训练，当网络的损失函数值不再下降时，停止训练，得到初步训练后的像素级抓取位姿检测网络；

再将测试集输入到像素级抓取位姿检测网络中，对像素级抓取位姿检测网络进行测试，当测试准确度超过设定阈值时，停止训练，得到训练后的像素级抓取位姿检测网络。

进一步地，所述训练集和测试集，是PLGP数据集，本数据集是通过虚拟仿真环境生成的稠密抓取标注数据集，包含来自杂乱场景下不同视角的45550张RGB-D图像，每个图像都有稠密的标注，总共包含超过5800万个抓取位姿。

PLGP数据集包含RGB图像和深度图像，在输入的时候选择单独使用RGB图像或者深度图像或者使用RGB-D图像。标记输入图像为I，I可以是RGB图像，可以是深度图像，也可以是RGB-D图像。

进一步地，所述损失函数采用Focal Loss损失函数。该损失函数能够平衡数据集中正负样本不平衡状况。

使用Focal Loss损失函数来对网络参数进行优化：

其中，P是大小为K×H×W大小的输出结果，P^*是训练目标，γ和α是Focal Loss的参数，1()是判断函数，满足括号里面的表达式就为1，否则为0。

因为输出是三个平行的分支网络，因此总的损失函数为：

β₁，β₂，β₃是每个部分的权重，这里被分别设置成100,1000和2000。

本发明以8张图片为一个batch输入，骨干网络不使用预训练权重参数，所有的网络层都使用kaiming初始化。优化器选择AdamW优化器，初始学习率为5×10^-7，使用Warmup技术，经过一轮训练之后使用基础学习率5×10^-5，权重衰减设置成0.05。使用公式(12)为损失函数对参数进行优化。整个网络在单个GPU上总共训练100个epoch。

进一步地，所述对场景图像进行特征提取，得到图像特征，具体包括：

Patch Partition层输出将图像分割编码后的特征图依次经过第一阶模块Stage1、第二阶模块Stage2、第三阶模块Stage3和第四阶模块Stage4，均输出图像特征，第一阶模块Stage1输出全局信息。

将四个模块得到的图像特征进行BFP降噪和FPN融合，得到降噪后的特征图。

进一步地，所述对降噪处理后的图特征进行特征融合，得到包含不同感受野的特征图，具体包括：

步骤102-b1：分别使用四种不同膨胀系数的空洞卷积进行处理，得到四个具有不同感受野的特征图像；

步骤102-b2：将四个不同感受野的特征图像拼接起来并通过卷积网络学习它们对于后续预测的重要性得到重要性参数，对重要性参数做归一化处理，将重要性参数映射到(0,1)之间；

步骤102-b3：将重要性参数张量分割成四个，分别与四个不同感受野的特征图逐像素相乘，得到加权后的特征图，放大重要部分的特征，抑制不重要部分的特征，然后再将特征图拼接起来并降维；

步骤102-b4：将骨干网络中第一层的特征进行降维后与步骤102-b3中得到的特征图拼接并降维，得到包含不同感受野的特征图。

进一步地，所述对包含不同感受野的特征图进行分类预测，输出每个像素点的平面抓取位姿表示，具体包括：

每个像素点的平面抓取位姿表示，是指：每个像素点的抓取置信度、抓取角度和抓取宽度。

根据抓取置信度筛选出置信度最高的像素点，然后通过坐标系转换从像素坐标系转换到相机坐标系再转换到世界坐标系，得到三维世界中抓取的点的位置，将机械臂移动到指定的位置，根据抓取角度进行旋转，接着根据抓取宽度张开机械臂的夹爪夹持物体，完成抓取操作。

抓取位姿表示分为抓取点的空间坐标(三维)，抓取方向和机械爪张开宽度，平面抓取因为是从上往下抓，抓取的朝向是固定的，因此抓取方向退化成机械臂绕桌子平面法线旋转的角度。

应理解地，上述技术方案提供了一种存在多个物体的场景下，借助改进SwinTransformer网络获取输入图像的局部信息和全局信息，再通过后续的特征融合模块来进行特征融合。整个包括改进Swin Transformer网络、改进FFN模块，局部信息和全局信息提取，自适应特征融合，最后使用Focal loss来减轻正负样本不均衡的问题。

本发明的效果可以用下列实验进一步说明：

1.实验条件

本发明的所有验证实验的硬件条件为：Ubuntu20.04L，CPU：Intel(R)Xeon(R)Gold6226R CPU@2.90GHz，1块NVIDIA GeForce 3090显卡。

实验所用软件环境为：python3.7，pytorch＝1.7.1，torchvision＝0.8.2

实验数据来自于PLGP数据集。PLGP数据集使用仿真技术收集了4555个3D模型的抓取位姿，包含了不同场景不同视角总共45550个RGB-D图像。训练集和测试集可以按照8:2的比例进行分配。

2.实验内容及结果

本发明在PLGP数据集进行了多物体复杂场景下物体抓取位预测实验，本发明采用的评价指标主要有Success Rate(SR)，Percent Cleared(PC)，Average Precision(AP)，具体描述如下：

SR：场景中的物体被一个接一个地抓取，直到(a)没有物体残留或(b)机器人连续抓取5次失败。成功率衡量举起物体的抓握尝试的百分比。计算公式为：

其中T_S为成功举起物体的次数，T_total是总的尝试次数。

PC：上述抓取测试结束之后成功移出场景的物体的个数与场景中总的物体个数之比，衡量的是成功移出物体的能力。计算公式为：

其中P_S为成功将物体移出场景外的次数，P_total是场景中物体的总数。

AP：取置信度排名前50的抓取位姿测试计算平均精度。在每个抓取过程之后，场景被重置为其初始状态，保证每次测试的场景都相同。

表1是本发明所设计的方法与以往的算法之间的比较，其中评判指标采用上述SR，PC，Ap指标，数值越大表明效果越好。表1显示本发明在性能上优于以往的算法。除此之外，本发明还进行了消融实验，表2、表3和表4分别证明了改进FFN模块、自适应特征融合和Focal Loss函数的有效性。

表1抓取预测结果

表2验证改进FFN模块的有效性

表3验证自适应特征融合的有效性

表4验证Focal loss损失函数的有效性

实施例二

本实施例提供了基于全局和局部信息的像素级抓取位姿检测系统；

基于全局和局部信息的像素级抓取位姿检测系统，包括：

此处需要说明的是，上述获取模块和位姿检测模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于全局和局部信息的像素级抓取位姿检测方法，其特征是，包括：

获取场景图像，并对场景图像进行预处理；

2.如权利要求1所述的基于全局和局部信息的像素级抓取位姿检测方法，其特征是，所述训练后的像素级抓取位姿检测网络，其网络结构包括：

依次连接的骨干网络、去噪网络、特征融合网络和解码器；

所述骨干网络采用改进后的Swin Transformer网络来实现；

所述改进后的Swin Transformer网络，是将Swin Transformer网络的SwinTransformer Block均替换为第一改进后的Swin Transformer Block。

3.如权利要求2所述的基于全局和局部信息的像素级抓取位姿检测方法，其特征是，所述第一改进后的Swin Transformer Block，包括：

依次连接的第一基本单元和第二基本单元；

所述第一基本单元，包括：依次连次连接的第一层归一化层LN、窗多头自注意力机制层、加法器J1、第二层归一化层LN、第一改进FFN模块和加法器J2；其中，加法器J1的输入端与第一层归一化层LN的输入端残差连接；加法器J2的输入端与第二层归一化层LN的输入端残差连接；

所述第二基本单元，包括：依次连次连接的第三层归一化层LN、移位窗多头自注意力机制层、加法器J3、第四层归一化层LN、第二改进FFN模块和加法器J4；其中，加法器J3的输入端与第三层归一化层LN的输入端残差连接；加法器J4的输入端与第四层归一化层LN的输入端残差连接；

第一层归一化层LN的输入端作为第一改进后的Swin Transformer Block的输入端；加法器J4的输出端作为第一改进后的Swin Transformer Block的输出端；加法器J2的输出端与第三层归一化层LN的输入端连接；

第一改进FFN模块与第二改进FFN的内部结构是一致的；

所述第一改进FFN模块，包括：

依次连接的1*1的卷积层C1、维度变换Reshape层R1、3*3的深度可分离卷积Depth-wise层C2、维度变换Reshape层R2和卷积层C3。

4.如权利要求3所述的基于全局和局部信息的像素级抓取位姿检测方法，其特征是，所述第一改进FFN模块，工作原理包括：

5.如权利要求2所述的基于全局和局部信息的像素级抓取位姿检测方法，其特征是，所述改进后的Swin Transformer网络，其工作原理包括：

将输入图像切成一个个patch，然后嵌入向量，得到输入图像的Token，然后经过四个Swin Transformer Block进行特征提取，得到特征图；

所述第一改进后的Swin Transformer Block，其工作原理包括：

对于输入的图像Token的编码S_i，采用一个窗多头自注意力机制层或者移位窗多头自注意力机制层的线性转换层计算得到一个query向量Q_i,key向量K_i和一个value向量V_i；随后将Q_j和K_i点乘后得到一个分数，用来表示输入S_j与S_i的相似性，并且将这个分数作为权重与V_i加权求和后得到注意力特征head_i；这个过程被称作缩放点乘注意力，用矩阵的形式表示为：

其中，d是Q和K的维度，B是相对位置编码；

对提取的注意力特征序列重新调整大小成二维特征图像；

对得到的二维特征图像进行卷积操作，提取局部信息，获取不同特征点与其周围特征点之间的关系；

将经过卷积处理过的特征图重新调成大小成一维特征序列，送入后续的SwinTransformer Block中继续计算。

6.如权利要求2所述的基于全局和局部信息的像素级抓取位姿检测方法，其特征是，所述去噪网络，其工作原理包括：

将改进后的Swin Transformer网络得到的四层特征图分别标记为S1,S2,S3,S4，分别是Stage1，Stage2，Stage3，Stage4的结果，它们的尺寸逐渐减小；

将M3双线性插值放大到A2的尺寸大小，再与A2相加得到M2；

再将M2双线性插值放大到A1的尺寸大小，再与A1相加得到M1；

然后将M2,M3,A4使用双线性插值放大到A1的尺寸；

再将M1,M2,M3,A4拼接成高维特征图；

接着使用卷积层降维，得到特征融合网络的输入特征图。

7.如权利要求2所述的基于全局和局部信息的像素级抓取位姿检测方法，其特征是，所述特征融合网络，其工作原理为：

使用四个不同膨胀系数的空洞卷积对经过平衡特征金字塔降噪和FPN处理后的特征图进行处理，来扩大解码阶段的感受野，得到四个具有不同感受野的特征图f₁ f₂ f₃ f₄；

再将W分割成4个独立的权重参数，权重参数分别与特征图f₁f₂ f₃f₄逐像素相乘，放大重要的特征元素，抑制不重要的特征；

f_i＝Conv_i(F) (6)

W＝Sigmoid(Conv_fw(Concat(f₁,f₂,f₃,f₄))) (7)

其中，Conv_i是空洞卷积，Conv_fw是计算重要性权重的卷积模块，W_i是将W分割之后的权重，⊙是逐像素相乘；

F_AF＝Conv_AF(Concat(F_L,Conv_b1(F_b1))) (9)

其中，Conv_b1是降维操作。

8.基于全局和局部信息的像素级抓取位姿检测系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。