CN117523181A

CN117523181A - 基于非结构化场景的多尺度物体抓取点检测方法及系统

Info

Publication number: CN117523181A
Application number: CN202311847215.2A
Authority: CN
Inventors: 朱文博; 杨志豪; 罗陆锋; 卢清华; 王恺; 阮文俊
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-06
Anticipated expiration: 2043-12-29
Also published as: CN117523181B

Abstract

本发明公开了基于非结构化场景的多尺度物体抓取点检测方法及系统，该方法包括：获取待抓取物体的RGB‑D图像；引入双分支注意力模块，构建多尺度物体抓取点检测模型；基于多尺度物体抓取点检测模型，对待抓取物体的RGB‑D图像进行抓取点提取处理，得到物体抓取点图像，所述物体抓取点图像包括抓取质量图像、旋转角度图像和开口宽度图像；根据物体抓取点图像对待抓取物体进行抓取处理。本发明能够精准地识别物体的抓取区域，提升抓取的准确率。本发明作为基于非结构化场景的多尺度物体抓取点检测方法及系统，可广泛应用于物体抓取技术领域。

Description

基于非结构化场景的多尺度物体抓取点检测方法及系统

技术领域

本发明涉及物体抓取技术领域，尤其涉及基于非结构化场景的多尺度物体抓取点检测方法及系统。

背景技术

近年来随着人工智能快速发展，机器人作为人工智能领域的代表受到人们的高度重视。机器人的大量应用使得其对各种灵巧操作要求极高，因此机器人的抓取点检测能力正受到越来越多的关注。为了提高机器人的总体抓取能力，准确的抓取点检测是一个相对关键的部分，而在现实世界中，物体的多样性和环境的复杂性使得机器人在抓取任务中面临很大的挑战，现有的研究者们将深度学习的方法应用到机器人抓取点检测任务，通过卷积神经网络成功地改善了机器人总体抓取性能，但是现有的运用卷积神经网络执行机器人抓取任务的方法存在以下问题：

1）检测物体单一：现有技术通常只能检测单一类型物体，物体种类过于简单，缺乏对多种类物体的识别能力。这意味着在面对不同类型的物体时，机器人可能无法进行有效的抓取操作。

2）抓取质量问题：现有技术存在抓取质量低下的问题，不能够灵活调整抓取区域，难以将目标物体和背景清晰区分，这会导致抓取的不稳定和不准确。

3）检测区域不精准：现有技术对抓取区域的识别不够精准，存在个别物体的抓取区域无法识别的现象，从而影响抓取的成功率。

发明内容

为了解决上述技术问题，本发明的目的是提供基于非结构化场景的多尺度物体抓取点检测方法及系统，能够精准地识别物体的抓取区域，提升抓取的准确率。

本发明所采用的第一技术方案是：基于非结构化场景的多尺度物体抓取点检测方法，包括以下步骤：

获取待抓取物体的RGB-D图像；

引入双分支注意力模块，构建多尺度物体抓取点检测模型；

基于多尺度物体抓取点检测模型，对待抓取物体的RGB-D图像进行抓取点提取处理，得到物体抓取点图像，所述物体抓取点图像包括抓取质量图像、旋转角度图像和开口宽度图像；

根据物体抓取点图像对待抓取物体进行抓取处理。

进一步，所述多尺度物体抓取点检测模型包括特征提取模块、双分支注意力模块和卷积转置模块，所述特征提取模块的输出端与所述双分支注意力模块的输入端连接，所述双分支注意力模块的输出端与所述卷积转置模块的输入端连接。

进一步，所述基于多尺度物体抓取点检测模型，对待抓取物体的RGB-D图像进行抓取点提取处理，得到物体抓取点图像这一步骤，其具体包括：

将待抓取物体的RGB-D图像输入至多尺度物体抓取点检测模型；

基于多尺度物体抓取点检测模型的特征提取模块，对待抓取物体的RGB-D图像进行特征提取处理，得到初步的待抓取物体的多尺度RGB-D图像特征；

基于多尺度物体抓取点检测模型的双分支注意力模块，对初步的待抓取物体的多尺度RGB-D图像特征进行特征映射处理，得到待抓取物体的多尺度RGB-D图像特征；

基于多尺度物体抓取点检测模型的卷积转置模块，对待抓取物体的多尺度RGB-D图像特征进行采样处理，得到物体抓取点图像。

进一步，所述基于多尺度物体抓取点检测模型的特征提取模块，对待抓取物体的RGB-D图像进行特征提取处理，得到初步的待抓取物体的多尺度RGB-D图像特征这一步骤，其具体包括：

将待抓取物体的RGB-D图像输入至多尺度物体抓取点检测模型的特征提取模块，所述特征提取模块包括第一卷积层、选择性卷积核模块、第二卷积层和第三卷积层；

基于特征提取模块的第一卷积层和第三卷积层，分别对待抓取物体的RGB-D图像进行特征提取处理，得到第一待抓取物体的RGB-D特征图像和第三待抓取物体的RGB-D特征图像；

基于特征提取模块的选择性卷积核模块，对第一待抓取物体的RGB-D特征图像进行多尺度特征提取，得到第一待抓取物体的RGB-D多尺度特征图像；

基于特征提取模块的第二卷积层，对第一待抓取物体的RGB-D多尺度特征图像进行特征提取，得到第二待抓取物体的RGB-D多尺度特征图像；

将第三待抓取物体的RGB-D特征图像与第二待抓取物体的RGB-D多尺度特征图像进行融合处理，得到初步的待抓取物体的多尺度RGB-D图像特征。

进一步，所述基于特征提取模块的选择性卷积核模块，对第一待抓取物体的RGB-D特征图像进行多尺度特征提取，得到第一待抓取物体的RGB-D多尺度特征图像这一步骤，其具体包括：

将第一待抓取物体的RGB-D特征图像输入至特征提取模块的选择性卷积核模块，所述选择性卷积核模块包括第一卷积核、第二卷积核、全局平均池化层、第一全连接层、第二全连接层、第三全连接层、第一二维卷积层和第二二维卷积层；

基于选择性卷积核模块的第一卷积核和第二卷积核，分别对第一待抓取物体的RGB-D特征图像进行特征提取处理，得到第一待抓取物体的RGB-D映射特征图像和第二待抓取物体的RGB-D映射特征图像；

将第一待抓取物体的RGB-D映射特征图像和第二待抓取物体的RGB-D映射特征图像进行融合处理，得到融合后的待抓取物体的RGB-D映射特征图像；

基于选择性卷积核模块的全局平均池化层，对融合后的待抓取物体的RGB-D映射特征图像进行多尺度特征运算处理，得到待抓取物体的RGB-D全局特征图像；

基于选择性卷积核模块的第一全连接层，对待抓取物体的RGB-D全局特征图像进行特征压缩处理，得到待抓取物体的RGB-D压缩特征图像；

基于选择性卷积核模块的第二全连接层和第三全连接层，对待抓取物体的RGB-D压缩特征图像进行特征权值赋予处理，得到第一待抓取物体的RGB-D权值特征图像和第二待抓取物体的RGB-D权值特征图像；

将第一待抓取物体的RGB-D权值特征图像与第一待抓取物体的RGB-D映射特征图像进行融合处理，得到第一融合待抓取物体的RGB-D特征图像；

基于选择性卷积核模块的第一二维卷积层，对第一融合待抓取物体的RGB-D特征图像进行特征提取处理，得到第一融合待抓取物体的RGB-D二维特征图像；

将第二待抓取物体的RGB-D权值特征图像与第二待抓取物体的RGB-D映射特征图像进行融合处理，得到第二融合待抓取物体的RGB-D特征图像；

基于选择性卷积核模块的第二二维卷积层，对第二融合待抓取物体的RGB-D特征图像进行特征提取处理，得到第二融合待抓取物体的RGB-D二维特征图像；

将第一融合待抓取物体的RGB-D二维特征图像与第二融合待抓取物体的RGB-D二维特征图像进行融合处理，得到第一待抓取物体的RGB-D多尺度特征图像。

进一步，所述基于多尺度物体抓取点检测模型的双分支注意力模块，对初步的待抓取物体的多尺度RGB-D图像特征进行特征映射处理，得到待抓取物体的多尺度RGB-D图像特征这一步骤，其具体包括：

将初步的待抓取物体的多尺度RGB-D图像特征输入至多尺度物体抓取点检测模型的双分支注意力模块，所述双分支注意力模块包括全局池化层、局部分支模块和全局分支模块；

基于双分支注意力模块的全局池化层，对初步的待抓取物体的多尺度RGB-D图像特征进行全局池化处理，得到待抓取物体的多尺度RGB-D图像全局池化特征；

基于双分支注意力模块的局部分支模块，对待抓取物体的多尺度RGB-D图像全局池化特征进行局部特征映射处理，得到待抓取物体的多尺度RGB-D图像局部特征权值；

基于双分支注意力模块的全局分支模块，对待抓取物体的多尺度RGB-D图像全局池化特征进行全局特征映射处理，得到待抓取物体的多尺度RGB-D图像全局特征权值；

将待抓取物体的多尺度RGB-D图像局部特征权值与待抓取物体的多尺度RGB-D图像全局特征权值进行相乘处理，得到待抓取物体的多尺度RGB-D图像特征权值；

将待抓取物体的多尺度RGB-D图像特征权值与初步的待抓取物体的多尺度RGB-D图像特征进行融合，得到待抓取物体的多尺度RGB-D图像特征。

进一步，所述基于多尺度物体抓取点检测模型的卷积转置模块，对待抓取物体的多尺度RGB-D图像特征进行采样处理，得到物体抓取点图像这一步骤，其具体包括：

将待抓取物体的多尺度RGB-D图像特征输入至多尺度物体抓取点检测模型的卷积转置模块，所述卷积转置模块包括第一二维卷积转置模块、第二二维卷积转置模块和第三二维卷积转置模块，所述第一二维卷积转置模块和所述第二二维卷积转置模块均包括二维卷积转置层和批量标准化层；

基于卷积转置模块的第一二维卷积转置模块，对待抓取物体的多尺度RGB-D图像特征进行上采样处理，得到第一待抓取物体的多尺度RGB-D图像上采样特征；

基于卷积转置模块的第二二维卷积转置模块，对第一待抓取物体的多尺度RGB-D图像上采样特征进行上采样处理，得到第二待抓取物体的多尺度RGB-D图像上采样特征；

基于卷积转置模块的第三二维卷积转置模块，对第二待抓取物体的多尺度RGB-D图像上采样特征进行上采样处理，得到物体抓取点图像。

本发明所采用的第二技术方案是：基于非结构化场景的多尺度物体抓取点检测系统，包括：

获取模块，用于获取待抓取物体的RGB-D图像；

构建模块，用于引入双分支注意力模块，构建多尺度物体抓取点检测模型；

特征提取模块，用于基于多尺度物体抓取点检测模型，对待抓取物体的RGB-D图像进行抓取点提取处理，得到物体抓取点图像，所述物体抓取点图像包括抓取质量图像、旋转角度图像和开口宽度图像；

抓取模块，用于根据物体抓取点图像对待抓取物体进行抓取处理。

本发明方法及系统的有益效果是：本发明通过引入双分支注意力模块，构建多尺度物体抓取点检测模型，进一步基于多尺度物体抓取点检测模型，对待抓取物体的RGB-D图像进行抓取点提取处理，得到物体抓取点图像，引入双分支注意力模块能够检测多类别物体的能力，从而提高了对未知物体抓取的泛化能力，可以处理不同种类、形状和尺寸的物体，使其在实际场景中更具实用性和通用性，多尺度物体抓取点检测模型通过获取图像的多尺度的特征信息，能够精准地识别物体的抓取区域，尤其在非结构化的场景下，提升了抓取的准确率。

附图说明

图1是本发明实施例基于非结构化场景的多尺度物体抓取点检测方法的步骤流程图；

图2是本发明实施例基于非结构化场景的多尺度物体抓取点检测系统的结构框图；

图3是本发明具体实施例多尺度物体抓取点检测模型的结构示意图；

图4是本发明具体实施例选择性卷积核的结构示意图；

图5是本发明具体实施例的双分支注意力模块的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

视觉是机器人感知外界世界主要的形式之一。视觉可提供物体的外部特性，包括：外观，形状和其他可见的特性。对于抓取物体而言，人类可以很直观地预测抓取物体区域，自动判断抓取的位置和尺度等是否合适，这得益于视觉稳定的反馈信息，对于机器人同样如此，非结构化场景指的是在某些特定的环境下，无法使用固定结构或模式进行数据分析和处理的情况，也就是所谓的环境复杂性较高。

在现实世界中，物体的多样性和环境的复杂性使得机器人在抓取任务中面临很大的挑战。对于具有不同尺寸且处于杂乱环境下的物体，单纯依靠检测单纹理背景下的单一物体是远远不够的，在此基础上还需要考虑抓握角度、抓取物的尺寸以及抓取物所处环境。近年来，研究者们将深度学习的方法应用到机器人抓取点检测任务，通过卷积神经网络成功地改善了机器人总体抓取能力，但是现有的通过卷积神经网络的机器人抓取存在检测物体单一、抓取质量低下以及检测区域不精准的问题。

参照图1，本发明提供了基于非结构化场景的多尺度物体抓取点检测方法，该方法包括以下步骤：

S1、获取待抓取物体的RGB-D图像；

具体地，通过基于主动式红外双目立体测距的RealSense相机来获取待抓取物体的RGB-D图像，该图像为一张分辨率为224×224，通道为4的RGB-D图像，其包含了彩色图像和深度图像信息。

S2、引入双分支注意力模块，构建多尺度物体抓取点检测模型；

具体地，本发明实施例所述多尺度物体抓取点检测模型包括特征提取模块、双分支注意力模块和卷积转置模块，所述特征提取模块的输出端与所述双分支注意力模块的输入端连接，所述双分支注意力模块的输出端与所述卷积转置模块的输入端连接。

在本实施例中，通过三个模块来达到物体抓取点检测任务。在特征提取模块上使用卷积层对物体进行特征提取。在现实生活中面对多样化物体，传统的卷积操作没有考虑到物体的多尺度特征，为了能够实现多样化物体抓取点检测的任务，在特征提取模块引入选择性卷积核的方法，提出了基于选择性卷积核（SK）的抓取点检测网络，与之前的方法相比，SKGNet研究了物体的多尺度问题，利用不同大小的卷积核进行多尺度特征提取和融合,这可以使得模型更好地适应不同尺度的物体，从而提高抓取的准确性和泛化能力；在注意力模块上，卷积层从输入图像中提取特征，然后将卷积层的输出馈送到残差层中。一般来说，精确度随着层数的增加而增加，但是超过一定的层数时就会出现梯度消失和维数误差的问题，从而导致精度饱和和下降。因此，残差层的使用使得该网络通过跳跃连接能够更好地学习恒等函数。近年来，SENet在图像分类和目标检测等任务中表现出良好的性能，由于SENet是轻量级的，可以很容易地添加到卷积模块中。在ResNet模块中加入SENet后将生成SE-ResNet模块，这种结合模块可以很好地调整特征通道的权重，使重要通道更加集中，能够在ResNet的基础上进一步优化特征的提取和传递。虽然SE-ResNet模块可以很好地调整通道维度中特征的权重，但只使用一个注意分支而没有任何其他约束可能会给网络带来次优结果。为了解决这个问题，在注意力模块提出了一种新的两分支SE-ResNet (TSE-ResNet)模块，引入两个SE模块能调整通道权重，最后再把局部特征和全局特征通过挤压和激励进行连接，从而达到提取多尺度特征物体的目的；在卷积转置模块，将图像通过卷积层和残差层后，图像的尺寸和分辨率逐渐减小，这会导致图像难以解析，造成信息丢失。因此，为了更容易解析卷积运算后的图像并保留其空间特征，可以使用卷积转置运算对图像进行上采样，最后得到的输出图像的大小与输入图像的大小相同，保证了模型输出与任务要求想匹配。

S3、基于多尺度物体抓取点检测模型，对待抓取物体的RGB-D图像进行抓取点提取处理，得到物体抓取点图像，所述物体抓取点图像包括抓取质量图像、旋转角度图像和开口宽度图像；

具体地，将待抓取物体的RGB-D图像输入至多尺度物体抓取点检测模型，在特征提取模块上，首先使用一个批归一化的卷积层，然后使用SK卷积来调整网络的注意力并提取多尺度特征，在SK卷积层之后再次进行批处理归一化，应用卷积层和短连接得到维度翻倍但分辨率降低的具有多尺度特征图像，接着将图像输入到双分支注意力模块的残差层上，经过全局以及局部特征映射后，将排除了背景等其他干扰的具有重要特征的图像输入到卷积转置模块，在该模块进行上采样以恢复图像分辨率，最终得到质量图像、角度图像和宽度图像，输出图像的大小与输入图像的大小相同，保证了模型输出与任务要求相匹配。

S31、基于多尺度物体抓取点检测模型的特征提取模块，对待抓取物体的RGB-D图像进行特征提取处理，得到初步的待抓取物体的多尺度RGB-D图像特征；

具体地，将待抓取物体的RGB-D图像输入至多尺度物体抓取点检测模型的特征提取模块，所述特征提取模块包括第一卷积层、选择性卷积核模块、第二卷积层和第三卷积层；基于特征提取模块的第一卷积层和第三卷积层，分别对待抓取物体的RGB-D图像进行特征提取处理，得到第一待抓取物体的RGB-D特征图像和第三待抓取物体的RGB-D特征图像；基于特征提取模块的选择性卷积核模块，对第一待抓取物体的RGB-D特征图像进行多尺度特征提取，得到第一待抓取物体的RGB-D多尺度特征图像；基于特征提取模块的第二卷积层，对第一待抓取物体的RGB-D多尺度特征图像进行特征提取，得到第二待抓取物体的RGB-D多尺度特征图像；将第三待抓取物体的RGB-D特征图像与第二待抓取物体的RGB-D多尺度特征图像进行融合处理，得到初步的待抓取物体的多尺度RGB-D图像特征。

在本实施例中，输入一张分辨率为224×224，通道为4的RGB-D图像，该图像包含了彩色图像和深度图像信息，其视觉特征经三个普通卷积层，即图3中的Conv2D+BN和一个选择性卷积核层即图3中的SKconv进行提取。为了充分利用图像信息，该模块使用选择性卷积核，所述选择性卷积核如图4所示，它分别使用两种不同大小的卷积核（本申请实施例卷积核大小分别为3和5）来提取特征，不同的卷积核大小可以调整接受域的大小，使模型能够获得物体的多尺度特征，增强了模型对物体的感知能力。普通卷积层操作包括了卷积、引入激活函数以及归一化。其中卷积能减少图像的尺寸和分辨率，同时使得通道数翻倍，目的是在保留主要特征的前提下减少数据量，从而加快模型处理速度。激活函数是在卷积操作之后引入的非线性函数，它的作用是为了给网络引入非线性特性，使得网络可以学习更复杂的特征和模式。归一化操作有助于提升网络的稳定性和训练速度。

其中，对于基于特征提取模块的选择性卷积核模块，对第一待抓取物体的RGB-D特征图像进行多尺度特征提取，得到第一待抓取物体的RGB-D多尺度特征图像，还包括将第一待抓取物体的RGB-D特征图像输入至特征提取模块的选择性卷积核模块，所述选择性卷积核模块包括第一卷积核、第二卷积核、全局平均池化层、第一全连接层、第二全连接层、第三全连接层、第一二维卷积层和第二二维卷积层；基于选择性卷积核模块的第一卷积核和第二卷积核，分别对第一待抓取物体的RGB-D特征图像进行特征提取处理，得到第一待抓取物体的RGB-D映射特征图像和第二待抓取物体的RGB-D映射特征图像；将第一待抓取物体的RGB-D映射特征图像和第二待抓取物体的RGB-D映射特征图像进行融合处理，得到融合后的待抓取物体的RGB-D映射特征图像；基于选择性卷积核模块的全局平均池化层，对融合后的待抓取物体的RGB-D映射特征图像进行多尺度特征运算处理，得到待抓取物体的RGB-D全局特征图像；基于选择性卷积核模块的第一全连接层，对待抓取物体的RGB-D全局特征图像进行特征压缩处理，得到待抓取物体的RGB-D压缩特征图像；基于选择性卷积核模块的第二全连接层和第三全连接层，对待抓取物体的RGB-D压缩特征图像进行特征权值赋予处理，得到第一待抓取物体的RGB-D权值特征图像和第二待抓取物体的RGB-D权值特征图像；将第一待抓取物体的RGB-D权值特征图像与第一待抓取物体的RGB-D映射特征图像进行融合处理，得到第一融合待抓取物体的RGB-D特征图像；基于选择性卷积核模块的第一二维卷积层，对第一融合待抓取物体的RGB-D特征图像进行特征提取处理，得到第一融合待抓取物体的RGB-D二维特征图像；将第二待抓取物体的RGB-D权值特征图像与第二待抓取物体的RGB-D映射特征图像进行融合处理，得到第二融合待抓取物体的RGB-D特征图像；基于选择性卷积核模块的第二二维卷积层，对第二融合待抓取物体的RGB-D特征图像进行特征提取处理，得到第二融合待抓取物体的RGB-D二维特征图像；将第一融合待抓取物体的RGB-D二维特征图像与第二融合待抓取物体的RGB-D二维特征图像进行融合处理，得到第一待抓取物体的RGB-D多尺度特征图像。

在本实施例中，该模块使用选择性卷积核，如图4所示，它分别使用两种不同大小的卷积核（本申请实施例卷积核大小分别为3和5）来提取物体多尺度特征，特征提取后得到两个特征映射和/>，然后将/>和/>进行叠加运算来融合多尺度特征/>，其表达式具体为：

;

上式中，表示3×3卷积核的特征映射，/>表示5×5卷积核的特征映射，分别表示特征图像的长度、宽度和通道数，/>表示对应的特征图像，/>表示融合后的特征图像。

接着用全局平均池化对融合的多尺度特征进行运算生成全局特征，紧接着再用一个全连接层来对全局特征进行压缩操作得到压缩特征/>，其表达式为：

;

上式中，表示压缩操作。

这时再用两个相同的全连接层生成两个权值特征和/>，其表达式为：

;

上式中表示经全连接层调整的/>的权值特征，/>表示经全连接层调整的/>的权值特征.

最后使用跨通道softmax来得到最终的特征映射，其表达式为：

;

上式中，和/>分别表示/>和/>的关注权值，/>和/>分别表示通过softmax来计算对应的/>和/>的权值特征，/>表示每个通道的权重。

S32、基于多尺度物体抓取点检测模型的双分支注意力模块，对初步的待抓取物体的多尺度RGB-D图像特征进行特征映射处理，得到待抓取物体的多尺度RGB-D图像特征；

具体地，将初步的待抓取物体的多尺度RGB-D图像特征输入至多尺度物体抓取点检测模型的双分支注意力模块，所述双分支注意力模块包括全局池化层、局部分支模块和全局分支模块；基于双分支注意力模块的全局池化层，对初步的待抓取物体的多尺度RGB-D图像特征进行全局池化处理，得到待抓取物体的多尺度RGB-D图像全局池化特征；基于双分支注意力模块的局部分支模块，对待抓取物体的多尺度RGB-D图像全局池化特征进行局部特征映射处理，得到待抓取物体的多尺度RGB-D图像局部特征权值；基于双分支注意力模块的全局分支模块，对待抓取物体的多尺度RGB-D图像全局池化特征进行全局特征映射处理，得到待抓取物体的多尺度RGB-D图像全局特征权值；将待抓取物体的多尺度RGB-D图像局部特征权值与待抓取物体的多尺度RGB-D图像全局特征权值进行相乘处理，得到待抓取物体的多尺度RGB-D图像特征权值；将待抓取物体的多尺度RGB-D图像特征权值与初步的待抓取物体的多尺度RGB-D图像特征进行融合，得到待抓取物体的多尺度RGB-D图像特征。

在本实施例中，如图5所示，第一部分提取的特征经过残差层首先进行全局池化，随后进入到两个分支通道。本地分支有两个SE模块来调整通道权重，为了避免次优结果，设置了两种不同的还原比（r和2r）。两个SE模块的输出经过挤压和激励操作后连接在一起，定义为局部特征FL，FL的形状为C×N。还有一个全局分支，它将原始特征作为输入，然后使用全局池化层和全连接层处理原始特征，使用Softmax层生成最终的全局特征FG，其形状为N×1。将局部特征与全局特征相乘，并使用Sigmoid函数生成最终权值。最后再将原始特征与最终权值相乘，生成最终的特征图。

S33、基于多尺度物体抓取点检测模型的卷积转置模块，对待抓取物体的多尺度RGB-D图像特征进行采样处理，得到物体抓取点图像。

具体地，将待抓取物体的多尺度RGB-D图像特征输入至多尺度物体抓取点检测模型的卷积转置模块，所述卷积转置模块包括第一二维卷积转置模块、第二二维卷积转置模块和第三二维卷积转置模块，所述第一二维卷积转置模块和所述第二二维卷积转置模块均包括二维卷积转置层和批量标准化层；基于卷积转置模块的第一二维卷积转置模块，对待抓取物体的多尺度RGB-D图像特征进行上采样处理，得到第一待抓取物体的多尺度RGB-D图像上采样特征；基于卷积转置模块的第二二维卷积转置模块，对第一待抓取物体的多尺度RGB-D图像上采样特征进行上采样处理，得到第二待抓取物体的多尺度RGB-D图像上采样特征；基于卷积转置模块的第三二维卷积转置模块，对第二待抓取物体的多尺度RGB-D图像上采样特征进行上采样处理，得到物体抓取点图像。

在本实施例中，卷积转置模块具体包括：首先经过卷积转置层，将图像恢复到原来的数值后再进行归一化操作，最后经过激活函数后得到三个预测结果：抓取质量图像、旋转角度图像和开口宽度图像。

将图像通过上述卷积层和残差层后，图像的大小从224×224减小到56×56，图像尺寸的减小使得网络因更加专注于提取高级特征而导致图像很难被解析。为了使卷积运算后的图像更容易解析和保留空间特征，使用卷积转置运算对图像进行上采样，使得输出图像的大小与输入图像的大小相同，恢复图像的分辨率以便更好地理解和解析图像中的信息。经过以上操作，最终得到三个预测结果：抓取质量图像、旋转角度图像和开口宽度图像。

S4、根据物体抓取点图像对待抓取物体进行抓取处理。

综上所述，本发明实施例与现有技术的改进点在于：

1）多类别抓取能力：与现有技术相比，本申请实施例具备检测多类别物体的能力，从而提高了对未知物体抓取的泛化能力。这意味着该技术可以处理不同种类、形状和尺寸的物体，使其在实际场景中更具实用性和通用性。

2）灵活的抓取区域调整：相对于传统方法，本申请实施例允许灵活地调整抓取区域，从而提升抓取质量。这种能力使得机器人能够适应不同形状和大小的物体，提高了抓取的成功率，并实现了与背景区的有效分离。

3）精准的抓取区域识别：本申请实施例能够精准地识别物体的抓取区域，尤其在非结构的场景下，提升了抓取的准确率。这意味着机器人可以更可靠地定位并抓取目标物体，从而减少了误差和失败的可能性。

参照图2，基于非结构化场景的多尺度物体抓取点检测系统，包括：

获取模块，用于获取待抓取物体的RGB-D图像；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，包括以下步骤：

获取待抓取物体的RGB-D图像；

引入双分支注意力模块，构建多尺度物体抓取点检测模型，所述双分支注意力模块包括全局池化层、局部分支模块和全局分支模块；

根据物体抓取点图像对待抓取物体进行抓取处理。

2.根据权利要求1所述基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，所述多尺度物体抓取点检测模型包括特征提取模块、双分支注意力模块和卷积转置模块，所述特征提取模块的输出端与所述双分支注意力模块的输入端连接，所述双分支注意力模块的输出端与所述卷积转置模块的输入端连接。

3.根据权利要求2所述基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，所述基于多尺度物体抓取点检测模型，对待抓取物体的RGB-D图像进行抓取点提取处理，得到物体抓取点图像这一步骤，其具体包括：

4.根据权利要求3所述基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，所述基于多尺度物体抓取点检测模型的特征提取模块，对待抓取物体的RGB-D图像进行特征提取处理，得到初步的待抓取物体的多尺度RGB-D图像特征这一步骤，其具体包括：

5.根据权利要求4所述基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，所述基于特征提取模块的选择性卷积核模块，对第一待抓取物体的RGB-D特征图像进行多尺度特征提取，得到第一待抓取物体的RGB-D多尺度特征图像这一步骤，其具体包括：

6.根据权利要求5所述基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，所述基于多尺度物体抓取点检测模型的双分支注意力模块，对初步的待抓取物体的多尺度RGB-D图像特征进行特征映射处理，得到待抓取物体的多尺度RGB-D图像特征这一步骤，其具体包括：

将初步的待抓取物体的多尺度RGB-D图像特征输入至多尺度物体抓取点检测模型的双分支注意力模块；

7.根据权利要求6所述基于非结构化场景的多尺度物体抓取点检测方法，其特征在于，所述基于多尺度物体抓取点检测模型的卷积转置模块，对待抓取物体的多尺度RGB-D图像特征进行采样处理，得到物体抓取点图像这一步骤，其具体包括：

8.一种如权利要求1-7中任一项所述的基于非结构化场景的多尺度物体抓取点检测方法的系统，其特征在于，包括以下模块：

获取模块，用于获取待抓取物体的RGB-D图像；