CN117464684A

CN117464684A - 一种基于坐标注意力高分辨率融合的机械臂抓取方法

Info

Publication number: CN117464684A
Application number: CN202311572866.5A
Authority: CN
Inventors: 尹选春; 汤常兴
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-01-30

Abstract

本发明公开了一种基于坐标注意力高分辨率融合的机械臂抓取方法，包括：S1、获取公开的平面物体抓取数据集；S2、构建基于坐标注意力机制的高分辨率抓取检测网络；S3、训练抓取检测网络；S4、搭建机械臂抓取系统；S5、将采集的深度相机视角下的RGB图像输入抓取检测网络，抓取检测网络预测得到物体在深度相机中的位置和姿态信息；S6、根据预测得到的物体位置和姿态信息以及机械臂抓取系统下的坐标转换关系，计算物体相对于及机械臂基座坐标系下的位姿；S7、根据计算出的抓取位姿，控制机械臂抓取场景中的物体。本发明构建基于坐标注意力机制的高分辨率抓取检测网络，可获得更加准确的物体抓取检测，能够有效的应用在机器人抓取任务中。

Description

一种基于坐标注意力高分辨率融合的机械臂抓取方法

技术领域

本发明属于机器人技术领域，具体涉及一种基于坐标注意力高分辨率融合的机械臂抓取方法。

背景技术

机器人抓取作为机器人应用中常用的基础动作，可以有效帮助人们完成任务，被广泛应用在工厂、家居和医疗等环境中，近些年来得到了极高的关注，传统的机器人抓取是针对已知物体进行人工手动的标定，按照设定好的位置对物体进行抓取，这样的抓取会耗费大量的人力资源，并且只能针对已知物体在已知环境下的抓取，实用性能不高。

在过去的十年中，深度学习受到了广泛关注，并且应用于提高抓取检测性能。深度卷积网络在诸多的计算机视觉任务中取得了应用，其能够比手工设计的表示学习到更丰富的特征，针对抓取检测，通过使用深度卷积神经网络开发了许多的生成抓取检测卷积神经网络。

然而现在更多的抓取检测所使用的深度卷积神经网络都遵循LeNet-5的设计规则，这个设计规则在卷积的过程中将高分辨率和低分辨率连接成串联，逐渐减小特征图的空间大小，得到低分辨率的表示然后再进行进一步的分类处理。但是物体检测位姿估计是一个对于位置敏感的任务，在这个过程中，过度的减小分辨率可能会造成很多位置信息的丢失，可能会得到不准确的预测，在对于相同物体进行抓取预测的时候，可能还会存在当物体在图像中的位置发生变化的时候，抓取预测的位置就会产生变化，导致同一个物体在图像中的不同位置抓取成功率不同。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于坐标注意力高分辨率融合的机械臂抓取方法。

为了达到上述目的，本发明采用以下技术方案：

一种基于坐标注意力高分辨率融合的机械臂抓取方法，包括以下步骤：

S1、获取公开的平面物体抓取数据集，并划分为训练集和测试集；

S2、构建基于坐标注意力机制的高分辨率抓取检测网络；

S3、使用训练集训练抓取检测网络，使用测试集验证训练完成的抓取检测网络；

S4、搭建机械臂抓取系统，包括深度相机、机械臂、末端执行器以及控制平台；

S5、通过深度相机对抓取场景中的物体进行采集，将采集的深度相机视角下的RGB图像输入训练好的抓取检测网络，抓取检测网络预测得到物体在深度相机中的位置和姿态信息；

S6、根据预测得到的物体位置和姿态信息以及搭建的机械臂抓取系统下的坐标转换关系，计算物体相对于及机械臂基座坐标系下的位姿；

S7、根据计算出的抓取位姿，控制机械臂抓取场景中的物体。

本发明与现有技术相比，具有如下优点和有益效果：

1、抓取检测是对位置敏感的任务，在使用现有的技术时，往往会出现同一个物体在画面的不同位置，抓取检测的结果抓取位置得不到统一，会导致同一物体在不同位置被抓取成功的概率不尽相同，可能会在某一些位置可以被成功抓取，当移动到其他位置时，出现不同的抓取预测位置，导致抓取失败，本发明提出的算法通过坐标注意力机制，融合了坐标信息，能够在一定程度上解决这个问题，减少位置信息给抓取检测带来的误差。

2、常用的LeNet-5设计规则所设计的网络模型会采用先压缩后扩张的方式处理图像，会导致一部分的分辨率信息的丢失，本发明使用高分辨率网络模型，保持高分辨率的过程会在一定程度上保留更多信息，使抓取预测的结果更加精确。

附图说明

图1是本发明方法的流程图；

图2是本发明方法的示意图；

图3是坐标注意力机制示意图；

图4是并行多分辨率卷积示意图；

图5是重复多分辨率融合示意图；

图6是基于坐标注意力机制的高分辨率抓取检测网络的结构示意图；

图7是高分辨率抓取检测网络训练完成后使用验证集的验证结果输出；

图8是本发明方法和其他算法的预测结果对比图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1和图2所示，本发明，一种基于坐标注意力高分辨率融合的机械臂抓取方法，包括以下步骤：

S1、获取公开的平面物体抓取数据集，并划分为训练集和测试集；具体为：

获取公开的Jacquard数据集或Cornell数据集；当获取Jacquard数据集时，由于Jacquard是一个大型合成数据集，主要包含11000个物体的54000张照片，因此直接将数据按预设比例划分为训练集和测试集；

当获取Cornell数据集时，由于Cornell数据集规模小，只有240个物体总共885张图像，因此需要对其进行一定的扩充；对Comell数据集中的RGB图像进行随机裁剪、缩放和旋转处理，以扩充Comell数据集，将扩充后Cornell数据集按预设的比例划分为训练集和测试集。

S2、构建基于坐标注意力机制的高分辨率抓取检测网络；如图6所示，为基于坐标注意力机制的高分辨率抓取检测网络的结构示意图。

抓取检测网络通过倒置残差网络和一个坐标注意力机制对特征图进行位置信息保留，再采用高分辨率网络对保留位置信息的特征图进一步进行特征提取，最终得到网络输出结果；

输入抓取检测网络的图像一般为包含RGB三个通道的一张图像，输入时的通道数量较少，此时的输入是低维通道表示，为了减少模型的参数复杂度和参数数量，使用倒置残差网络将输入扩展为高维度，经过轻量级的深度卷积对其进行过滤，再使用线性的卷积将特征投影回到低维度的表示，假设输入的特征图为张量的批量大小为32，输出特征图为/>该过程表示为：

扩展卷积，将输入通道数C_in扩展为：hidden_dim＝round(C_in×expand_ratio)；

其中，round表示对计算结果进行四舍五入，expand_ratio＞1；卷积操作为1×1的逐点卷积，迭代式表示为：

x′＝W_{pw 1}*x，x′∈R^{(hidden_dim×H×W)} (1)

其中W_{pw 1}∈R^{(hidden_dim×C_in×1×1)}是扩展卷积层的权重，x′是扩展卷积之后的输出；具体的：x经过一个1×1的Conv2D层(无偏置项)，将通道数从3扩展到hidden_dim＝3*6＝18，所以输出的特征图形状为(32，18，224，224)。

批量归一化：输出的特征图经过一个BatchNorm2d层进行标准化，特征图形状不变，仍然是(32，18，224，224)。

ReLU6激活：特征图送入ReLU6函数进行激活，特征图形状保持不变(32，18，224，224)。

深度卷积：对扩展后的特征图x′，执行带有步长s的深度卷积；迭代式表示为：

x″＝W_dw*x′，x″∈R^{(hidden_dim×H′×W′)} (2)

其中，W_dw∈R^{(hidden_dim×1×3×3)}是深度卷积层的权重，x″是深度卷积之后的特征图；具体的，经过激活后，特征图送入一个步长为2没有偏置项的3×3的Conv2D层进行深度卷积操作，输出的特征图的尺寸为(32，18，112，112)。

批量归一化：输出的特征图经过一个BatchNorm2d层进行标准化，特征图形状不变，仍然是(32，18，112，112)。

ReLU6激活：再次经过ReLU6函数进行激活，特征图形状保持不变(32，18，112，112)。

调整卷积：对于深度卷积之后的结果x″，再次进行1×1的调整卷积，将通道数调整到C_out，迭代式表示为：

其中，是调整卷积的权重；具体的，特征图通过一个1×1的Conv2D层(无偏置项)将通道数从18变为需要输出的通道数64，大小不变，所以输出特征图的尺寸为(32，64，112，112)。

批量归一化：输出的特征图经过一个BatchNorm2d层进行标准化，特征图形状不变，仍然是(32，64，112，112)。

将输出的特征图再进行一次上述的过程，最终输出的特征图y的尺寸为(32,64,56,56)。

一次倒置残差网络处理的整个过程如下表1所示。

表1

注意力机制具体包括以下步骤：

经过上一步的预处理之后得到的特征图y其大小为(32,64,56,56)，其中32是批次大小、64是通道数、56是高度、56是宽度。按照之前描述的过程进行坐标注意力融合操作。

空间位置信息的嵌入：准备两个全局感知上下文信息，一个用于水平方向，一个用于垂直方向，在水平方向上，使用公式(4)计算每个通道每一行的平均值：

对于垂直方向，使用公式(5)计算每个通道每一列的平均值：

在水平方向上，得到的形状为(32,64,56,1)。在垂直方向上，得到的形状为(32,64,1,56)。

接下来将这两个特征图连接，形成一个新的大小为(32,128,56,56)的特征图T。这个新构造的特征图被送入一个1×1卷积层L₁进行处理，并通过ReLU激活函数。假设这个1×1卷积层的输出通道数为128，那么经过这一步处理后，得到一个大小为(32,128,56,56)的中间特征映射M。

坐标注意力映射生成：接下来将会把这个中间特征映射M平均分割为两个特征图：M^h和M^w，每个的大小为(32,64,56,56)。接着将这两个新特征图分别通过1×1卷积层L_h和L_w进行处理，并通过Sigmoid激活函数得到两个大小同样为(32,64,56,56)的输出A^h和A^w。这两个输出阵列就代表了水平和垂直方向的注意力权重。

最后阶段利用注意力权重A^h和A^w加权原始的输入特征图X，具体执行通过公式(6)：

具体来说，对于每个位置(i,j)，它的值会乘以对应位置的水平和垂直注意力权重。经过这个加权操作得到了大小仍然为(32,64,56,56)的输出特征图Y，它依然包含了原始输入的通道数，但是每个通道的特征现在都已经根据注意力权重做了调整。

如图3所示，为坐标注意力机制的示意图。

高分辨率网络包括：

并行多分辨率卷积步骤，分为多个阶段，首先是接受来自经过坐标注意力机制后的输出Y作为高分辨率卷积流开始的第一阶段，在此基础上，逐步加入由高到低分辨率的流，形成新的阶段，并将多分辨率流并行连接，这个过程类似分组卷积，将输入通道分成几个通道子集，分别对每个子集在不同的空间分辨率上进行常规卷积，而在分组卷积中，分辨率是相同的；如图4所示，为该步骤的示意图。

重复多分辨率融合步骤，在并行多分辨率卷积步骤中，得到了多个不同大小的分辨率表示，重复多分辨率融合步骤则重复多次的交换多个分辨率表示之间的信息；输入通道被分成几个子集，输出通道也被分成几个子集；以全连接的方式连接输入和输出子集，并且每个连接是常规卷积，每个输出通道子集是对输入通道子集的卷积的输出的总和。如图5所示，为该步骤的示意图。

高分辨率网络的具体过程为：

采样阶段1，该采用残差网络结构，由一系列残差块构成；第一层通过步长为1的3×3的卷积，再经过归一化处理之后，分成两个分支，一个分支继续进行步长为1的3×3的卷积得到尺度1，另一个分支通过步长为2的3×3卷积进行下采样得到尺度2，这样就经过采样阶段1得到了不同尺度下的特征图；

融合阶段1，包括高分辨率模块，每个高分辨率模块分开处理采样阶段1多尺度的特征，在模块内部进行特征交换，最后用ReLU激活函数进行特征融合；其中，高分辨率模块的信息流针对每个阶段进行定制，针对多尺度特征进行上采样或下采样。

采样阶段2，将采样阶段1中下采样的尺度2进一步经过步长为2的3×3卷积进行下采样得到尺度3，将尺度1和尺度2分别进行步长为1的3×3卷积得到尺度4和尺度5，得到不同尺度下的特征图。

融合阶段2，和融合阶段1类似，将采样阶段2中的不同尺度结果经过内部的特征交换和特征融合。

采样阶段3，将采样阶段2中尺度3进一步经过步长为2的3×3卷积进行下采样得到尺度6，将尺度4、尺度5、尺度6分别经过步长为1的3×3卷积得到尺度7、尺度8和尺度9。

融合阶段3，和前面的融合阶段类似，将采样阶段3中的不同尺度结果经过内部的特征交换和特征融合，最后得到融合后的结果尺度10。

通过最后的卷积层进行变换，将得到的融合结果尺度10压缩到适当的通道大小，然后通过BatchNorm和ReLU，最后根据最终任务的需求，使用1×1的卷积将特征图通道数降低，通过上采样回到原始空间尺寸，并分别得到位置输出、余弦输出、正弦输出以及宽度输出。

训练抓取检测网络前，还包括对训练集进行处理，包括：

将图像进行裁剪和截取以满足后续输入图像的尺寸要求；将RGB三个通道的图像数据进行归一化的处理以便于加速网络的训练过程；将归一化后的RGB数据进行拼接，得到最终的数据作为训练抓取检测网络的输入；

训练抓取检测网络时，输入预处理后的图像数据到抓取检测网络并得到四个网络输出：

位置输出、余弦和正弦输出以及宽度输出；

其中，位置输出是一个二维的向量，表示物体在相机坐标系下的位置；余弦和正弦输出表示物体的方向，余弦和正弦输出可组合成一个旋转矩阵或者四元数，表示物体在相机坐标系下的旋转；宽度输出表示物体的大小或者宽度，用于估计末端执行器的开合程度；

在训练过程中，训练的损失函数包括位置回归损失、角度回归损失和抓取宽度回归损失，抓取总损失函数定义如下：

L＝L_Q+L_{sin 2θ}+L_{cos 2θ}+L_W (7)

其中，L_Q为抓取质量分数的损失，L_{sin 2θ}和L_{cos 2θ}为角度预测损失，L_W是宽度预测损失；

对于上述每一个参数Φ＝{θ，Q，W}，在给定的带标签的Cornell数据集中，选择N个样本x₁，x₂，...，x_N，构建神经网络以确保在Φ在经过一定次数的更新后最小化损失函数：

其中，x_i∈R^H×W，H和W分别是图像的高度和宽度；y_i是Cornell数据集中定义的与图像样本x_i对应的标签；

在训练时采用Adam作为优化器。

S4、搭建机械臂抓取系统，机械臂抓取系统具体包括：

深度相机、机械臂、末端执行器以及控制平台；

深度相机视角固定保持垂直向下；机械臂通过基座固定；末端执行器采用二指抓手，安装在机械臂末端法兰上；控制平台具体为一台搭载Linux系统的计算机，控制平台连接深度相机和机械臂，获取深度相机拍摄图像以及对机械臂进行控制。

步骤S4还包括通过深度相机标定得到坐标系之间的转换关系矩阵，转换关系矩阵包括：

2D图像坐标系和相机坐标系之间的转换矩阵T_ci和相机坐标系和机械臂坐标系的转换矩阵T_rc。

在输入的RGB三通道图像坐标系下，机械臂抓取系统对于物体的抓取表示为：

G_i＝(x，y，Θ_i，W_i，q) (9)

其中，x和y表示在RGB三通道图像坐标系下抓取的中心点的横坐标和纵坐标，Θ_i表示在RGB三通道图像坐标系下的方向，W_i表示在RGB三通道图像坐标系下所需的夹取宽度，q表示抓取的质量得分；

公式(9)是在2D的图像坐标系下所定义的，需要将其转换为机械臂坐标系，转换描述为：

G_r＝T_rc(T_ci(G_i)) (10)

将这个抓取表示方法扩展到图像中的多个抓取，所有的抓取集合可以表示为：

G＝(Θ，W，Q)∈R^3·H·W (11)

其中，Θ、W和Q表示通过抓取检测网络最终预测的抓取角度、抓取宽度和抓取质量得分；

通过搜索具有最大抓取质量得分的像素值来计算抓取中心的位置：

步骤S5中，物体在深度相机中的位置和姿态信息具体包括相机视角下的抓取位置、抓取旋转角度以及抓取宽度；

步骤S6中，根据机械臂抓取系统下的坐标转换关系矩阵，将深度相机视角下的抓取位置、抓取旋转角度以及抓取宽度转换为机械臂坐标系下对应物体的抓取位置、抓取旋转角度以及抓取宽度。

S7、根据计算出的抓取位姿，控制机械臂抓取场景中的物体；具体为：

机械臂坐标系下对应物体的抓取位置即机械臂末端执行器要到达物体的实际最佳抓取位置，抓取旋转角度即末端执行器对于物体的最佳抓取角度，抓取宽度即末端执行器的开合角度；

根据机械臂坐标系下对应物体的抓取位置、抓取旋转角度以及抓取宽度，控制机械臂对物体进行抓取。

实施例

本实施例中，采用深度相机RealSense D455、Aubo_C5机械臂、Linux系统环境的电脑等构建机械臂抓取系统。

本实施例中采用Cornell数据集，首先对Cornell数据集进行扩充，在原来的基础上使用随机剪裁、缩放和旋转创造一个增强数据集，从而得到更多的有效抓取样本，以便在网络模型的训练中获得更好的效果。

构建基于坐标注意力机制的高分辨率抓取检测网络，采用Python3.8编写模型的结构，在Pytorch深度学习框架上运行。本实施例的训练和验证环境在Ubuntu18.04下配置。

训练网络模型：将扩充后的Cornell增强数据集按照9∶1的比例划分为训练集和测试集。将训练集在训练网络模型前进行进一步的处理，在这个过程中，主要是对图像数据的处理和对标签的处理，将图像进行裁剪并截取原始数据中心部分得到224*224的图像尺寸以满足后续输入图像的尺寸要求，其次将RGB三个通道的图像数据进行归一化的处理以便于加速网络的训练过程，最后将归一化后的RGB数据进行拼接，得到最终的数据作为模型训练的输入；标签的处理上，在Cornell数据集中，包含了一系列的抓取位姿信息作为标签，每一个位姿信息可以分别转换成矩形框的形式用来描述抓取的五个指标，即公式G_i＝(x，y，Θ_i，W_i，q)，将这一些标签进一步转换成集合的形式，即公式G＝(Θ，W，Q)，根据构建的抓取检测网络，首先使用倒置残差模块对输入的图像进行特征提取，接着采用坐标注意力机制对图像进行位置信息的提取，将位置信息和图像特征信息进行融合后进入到高分辨率神经网络，高分辨率神经网络采用多分辨率并行连接的方式，经过四次分辨率的变化，再使用融合的方式获得不同尺度等下的特征信息，最终输出得到(x，y)、sin2θ、cos2θ、W，作为最终的推理结果。

在训练过程中损失函数包括位置回归损失、角度回归损失和抓取宽度回归损失，抓取检测网络的抓取总损失函数如上文公式(10)所示。

在训练抓取检测网络时采用Adam作为模型优化器，优化器学习率设置为0.001，测试指标的标准采用常用的矩形度量指标：

预测的抓取矩阵与Cornell数据集中标签的抓取矩阵Jacquard系数大于等于25％，其中Jacquard系数定义如下：

其中，B为数据集中的标签定义的抓取矩形，A为抓取检测网络预测的抓取矩阵。

抓取检测网络训练完验证的结果如图7所示。

搭建实际抓取场景，首先对深度相机进行内参标定，然后将深度相机进行固定，视角朝向抓取平台，在机械臂末端放置标定板并进行手眼标定得到机械臂坐标系和相机坐标系之间的坐标转换矩阵，使用深度相机进一步获取RGB图像并进行尺寸的裁剪为224*224和归一化处理，将处理好的RGB图像输入训练好的抓取检测网络中，预测得到在图像坐标系下的抓取位置以及位姿信息，根据手眼标定的结果将图像坐标系的结果转换到机械臂坐标系下，使用ROS系统控制机械臂移动到具体位置对物体进行抓取。

如图8所示，图中a、b、c分别代表其他使用LeNet-5设计规则的算法针对同一个物体在不同旋转下的结果，同一个物体在不同旋转角度的情况下，所预测的抓取结果都不一样，甚至可能出现类似c结果的比较差的抓取情况；图中d、e、f是本发明方法在同样配置下生成的抓取预测，针对用一个物体，当经过不同的旋转之后，抓取预测的结果比较准确，并且在同一个物体上会保持相似的抓取位置。

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，包括以下步骤：

S2、构建基于坐标注意力机制的高分辨率抓取检测网络；

2.根据权利要求1所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，步骤S1具体为：

获取公开的Jacquard数据集或Cornell数据集；当获取Jacquard数据集时，直接将数据按预设比例划分为训练集和测试集；

当获取Cornell数据集时，对Cornell数据集中的RGB图像进行随机裁剪、缩放和旋转处理，以扩充Cornell数据集，将扩充后Cornell数据集按预设的比例划分为训练集和测试集。

3.根据权利要求1所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，步骤S2中，抓取检测网络通过倒置残差网络和一个坐标注意力机制对特征图进行位置信息保留，再采用高分辨率网络对保留位置信息的特征图进一步进行特征提取，最终得到网络输出结果；

其中，倒置残差网络具体将输入扩展为高维度，使用轻量级的深度卷积对其进行过滤，再使用线性的卷积将特征投影回到低维度的表示，假设输入的特征图为输出特征图为/>该过程表示为：

x′＝W_pw1*x，x′∈R^{(hidden_dim×H×W)} (1)

其中W_pw1∈R^{(hidden_dim×C_in×1×1})是扩展卷积层的权重，x′是扩展卷积之后的输出；

批量归一化，扩展卷积之后的输出经过一个BatchNorm2d层进行标准化；

ReLU6激活，标准化后，特征图送入ReLU6函数进行激活；

深度卷积，对扩展后的特征图x′，执行带有步长s的深度卷积；迭代式表示为：

x″＝W_dw*x′，x″∈R^{(hidden_dim×H′×W′)} (2)

其中，W_dw∈R^{(hidden_dim×1×3×3)}是深度卷积层的权重，x″是深度卷积之后的特征图；

批量归一化，深度卷积之后的输出经过一个BatchNorm2d层进行标准化；

ReLU6激活，标准化后，特征图送入ReLU6函数进行激活；

调整卷积，对于深度卷积之后的结果x″，再次进行1×1的调整卷积，将通道数调整到C_out，迭代式表示为：

其中，是调整卷积的权重。

4.根据权利要求3所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，坐标注意力机制具体包括以下步骤：

对于一个输入的特征图X，表示为n×c×h×w；

其中，n、c、h以及w分别表示了批次大小、通道数、高度和宽度；

注意力机制包括空间位置信息的嵌入和坐标注意力映射生成两个部分；

对于垂直方向，使用公式(5)计算每个通道每一列的平均值：

再将这两个生成的特征图连接，形成一个表示全局空间上下文的特征图T；特征图T会被送入一个1×1卷积层L₁进行处理并通过非线性激活函数，生成中间特征映射M；

坐标注意力映射生成：首先将M分成两个部分：M^h和M^w；将这两个新特征图分别通过1×1卷积层L_h和L_w准换，并且加上Sigmoid激活函数，生成最终的注意力权重A^h和A^w；

利用注意力权重A^h和A^w加权最初的输入特征图X，具体执行通过公式(6)：

最后得到最终的输出特征图Y，输出到后续的网络模型中。

5.根据权利要求1所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，高分辨率网络包括：

并行多分辨率卷积步骤，分为多个阶段，首先是接受来自经过坐标注意力机制后的输出Y作为高分辨率卷积流开始的第一阶段，在此基础上，逐步加入由高到低分辨率的流，形成新的阶段，并将多分辨率流并行连接，这个过程类似分组卷积，将输入通道分成几个通道子集，分别对每个子集在不同的空间分辨率上进行常规卷积，而在分组卷积中，分辨率是相同的；

重复多分辨率融合步骤，在并行多分辨率卷积步骤中，得到了多个不同大小的分辨率表示，重复多分辨率融合步骤则重复多次的交换多个分辨率表示之间的信息；输入通道被分成几个子集，输出通道也被分成几个子集；以全连接的方式连接输入和输出子集，并且每个连接是常规卷积，每个输出通道子集是对输入通道子集的卷积的输出的总和；

高分辨率网络的具体过程为：

采样阶段1，该采用残差网络结构，由一系列残差块构成；第一层通过步长为1的3×3的卷积，再经过归一化处理之后，分成两个分支，一个分支继续进行步长为1的3×3的卷积得到尺度1，另一个分支通过步长为2的3×3卷积进行下采样得到尺度2；经过采样阶段1得到了不同尺度下的特征图；

融合阶段1，包括高分辨率模块，每个高分辨率模块分开处理采样阶段1多尺度的特征，在模块内部进行特征交换，最后用ReLU激活函数进行特征融合；其中，高分辨率模块的信息流针对每个阶段进行定制，针对多尺度特征进行上采样或下采样；

采样阶段2，将采样阶段1中下采样的尺度2进一步经过步长为2的3×3卷积进行下采样得到尺度3，将尺度1和尺度2分别进行步长为1的3×3卷积得到尺度4和尺度5，得到不同尺度下的特征图；

融合阶段2，和融合阶段1相似，将采样阶段2中的不同尺度结果经过内部的特征交换和特征融合；

采样阶段3，将采样阶段2中尺度3进一步经过步长为2的3×3卷积进行下采样得到尺度6，将尺度4、尺度5、尺度6分别经过步长为1的3×3卷积得到尺度7、尺度8和尺度9；

融合阶段3，和前面的融合阶段相似，将采样阶段3中的不同尺度结果经过内部的特征交换和特征融合，最后得到融合后的结果尺度10；

通过最后的卷积层进行变换，将得到的结果尺度10压缩到预设的通道大小，然后通过BatchNorm和ReLU，根据最终任务的需求，使用1×1的卷积将特征图通道数降低，通过上采样回到原始空间尺寸，并分别得到位置输出、余弦输出、正弦输出以及宽度输出。

6.根据权利要求1所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，步骤S3中，训练抓取检测网络前，还包括对训练集进行处理，包括：

位置输出、余弦输出、正弦输出以及宽度输出；

L＝L_Q+L_sin2θ+L_cos2θ+L_W (7)

其中，L_Q为抓取质量分数的损失，L_sin2θ和L_cos2θ为角度预测损失，L_W是宽度预测损失；

对于参数Φ＝{θ，Q，W}，在给定的带标签的Comell数据集中，选择N个样本x₁，x₂，...，x_N，构建神经网络以确保在Φ在经过一定次数的更新后最小化损失函数：

其中，x_i∈R^H×W，H和W分别是图像的高度和宽度；y_i是Comell数据集中定义的与图像样本x_i对应的标签；

在训练时采用Adam作为优化器。

7.根据权利要求1所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，机械臂抓取系统中，深度相机视角固定保持垂直向下；机械臂通过基座固定；末端执行器采用二指抓手，安装在机械臂末端法兰上；控制平台具体为一台搭载Linux系统的计算机，控制平台连接深度相机和机械臂，获取深度相机拍摄图像以及对机械臂进行控制；

8.根据权利要求7所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，在输入的RGB三通道图像坐标系下，机械臂抓取系统对于物体的抓取表示为：

G_i＝(x，y，Θ_i，W_i，q) (9)

G_r＝T_rc(T_ci(G_i)) (10)

将这个抓取表示方法扩展到图像中的多个抓取，所有的抓取集合表示为：

G＝(Θ，W，Q)∈R^3·H·W (11)

9.根据权利要求1所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，步骤S5中，物体在深度相机中的位置和姿态信息具体包括相机视角下的抓取位置、抓取旋转角度以及抓取宽度；

10.根据权利要求9所述的一种基于坐标注意力高分辨率融合的机械臂抓取方法，其特征在于，步骤S7具体为：