CN114998573B

CN114998573B - 一种基于rgb-d特征深度融合的抓取位姿检测方法

Info

Publication number: CN114998573B
Application number: CN202210426360.2A
Authority: CN
Inventors: 袁丁; 马浩; 王清可; 张弘
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2024-05-14
Anticipated expiration: 2042-04-22
Also published as: CN114998573A

Abstract

本发明涉及一种基于RGB‑D特征深度融合的抓取位姿检测方法，首先，使用深度相机获取任务场景的RGB彩色图像和深度图像并进行图像预处理。其次，构建端到端的目标检测定位与抓取姿态预测的卷积神经网络，将RGB图像与深度图像以两路输入到构建的卷积神经网络中。接着，将RGB‑D特征进行深度融合，通过基于两步逼近思想的自适应锚框设置方法，获得待抓取物的二维平面抓取位姿表示，进而可以利用机械臂与相机的标定信息将抓取位姿映射到三维空间中实施抓取操作。本发明能够克服现有方法中机械臂抓取效率低下、泛化性能差的问题，实现端到端的目标定位与抓取检测，能够实时、准确地进行目标抓取位姿检测，经实验验证，具有准确性和鲁棒性。

Description

一种基于RGB-D特征深度融合的抓取位姿检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于RGB-D特征深度融合的抓取位姿检测方法。

背景技术

随着工业生产的发展，传统制造业逐渐无法满足产品的个性化需求。为了顺应智能制造的潮流，将传统制造业与信息技术相结合是未来制造业发展的必然趋势。在传统制造业的转型升级过程中，工业机器人由于其高效稳定、能在高危环境下作业等优势发挥了巨大作用。

抓取是工业机器人应用中的基本问题之一，目前的工业机器人多为机械臂装置，一般采用示教再现的方式完成抓取任务，对目标对象及工作环境的感知力较低。适应变化的能力是智能机器人将任务一般化的必要技能，计算机视觉具有精度高、范围广、信息量大等优势，将计算机视觉引入工业机器人应用当中，可以有效提高工业机器人的感知能力和智能水平。近年来，以卷积神经网络为代表的深度学习，凭借其强大的特征提取能力与学习能力，逐渐成为计算机视觉领域的常用方法，展示出了巨大的研究前景。

经典的基于深度学习的抓取检测方法是滑动窗口法。滑动窗口法使用小分类器来判断图像中的一小块区域中是否包含可行的抓取，是一个多次迭代的过程。但由于多次迭代的过程非常缓慢，这种方法有较高的延迟。之后又出现了使用多模态融合方法将RGB数据和深度数据进行整合，显著提高了准确率，但依旧没有解决耗时较长的问题。

上述经典方法常为在特征提取层之后采用分类或者回归方式做抓取配置预测，然而之后另外一种方式即基于锚框的矩形框回归方法逐渐出现。在这种方法中，预先设定的锚框除了不同大小之外，还附加了不同的旋转角度。有了预设的锚框之后，角度回归更加准确与迅速。相较之前的算法，在准确率和速度方面均有较大提升。然而其网络的输入常为RGD三通道，即传统的RGB图像中蓝色通道被替换为深度通道，通过这种处理使得网络可以使用预训练，使模型具有一定的泛化性。但蓝色通道被丢弃，导致部分信息丢失，面对蓝色信息较为丰富的场景时鲁棒性较差。同时，通过增加锚框的数量虽然能提高结果的精度，但导致检测速度较慢。另外，单种尺寸的锚框使得网络对小目标的检测效果不够理想。

除此之外，强化学习也逐步在机器人领域崭露头角。强化学习也是机器学习方法中的一种，强调对抗学习，根据环境变化调整行动，来争取最大化奖励。基于强化学习的机械臂抓取检测算法端到端地学习图像到机械臂动作的控制，机械臂在经过大量的抓取实验之后可以获得很好的抓取技能。基于强化学习的机械臂抓取算法原理上来讲较为直观，但需要大量的训练数据予以支撑。理论上来讲，只要拥有足够的时间与资源，强化学习可以让机器人学会各种各样的技能。但是在实际中通常没有如此庞大的资源支撑，因此需要采用更为巧妙的手段解决问题。

发明内容

本发明解决的技术问题是：克服现有技术的不足，即不能充分利用RGB彩色图像与深度图像的信息，无法充分发掘两种模态数据的相关性和独特性；同时克服现有技术方法中锚框设置灵活性不足、面向多尺度场景时准确度欠佳的缺陷，本发明提供一种基于RGB-D特征深度融合的抓取位姿检测方法，实现了对二指手爪机械臂抓取姿态的实时、准确计算，取得了好的结果。

本发明技术解决方案：一种基于RGB-D特征深度融合的抓取位姿检测方法，实现步骤如下：

第一步，使用深度相机同时获取任务场景的RGB彩色图像和D图像(即深度图像)数据并进行预处理；

第二步，构建基于RGB-D特征深度融合的抓取检测网络，该网络包括四部分：特征提取主干网络、RGB-D特征深度融合网络、目标检测头与抓取检测头；其中RGB图像和D图像以两支路输入特征提取主干网络部分进行特征提取，两支路共享特征提取主干网络，分别获取RGB特征与D特征；

第三步，目标检测头利用RGB特征进行目标分类和定位，利用定位结果，基于两步逼近方法为后续的抓取检测计算自适应锚框；

第四步，通过RGB-D特征深度融合网络将RGB特征与D特征进行融合，获取深度融合特征，并将深度融合特征输入到抓取检测头中；

第五步，利用第三步所得的自适应锚框和第四步所得的深度融合特征，抓取检测头进行二维平面的抓取位姿检测，位姿检测结果可映射到三维空间得到机械臂对目标的实际抓取位姿。

本发明一种基于RGB-D特征深度融合的抓取位姿检测方法，针对传统机械臂抓取的效率低下、泛化性差等问题，通过多方面的技术创新改进，实现了端到端的实时、准确的目标抓取位姿检测，并具有一定的鲁棒性，可以适应不同环境，能够为机械臂提供可靠的抓取配置。

所述第二步中，RGB图像和D图像以两支路输入特征提取主干网络部分进行特征提取，两支路共享特征提取主干网络，具体实现如下：

RGB图像与D图像以两路输入抓取检测网络，均通过主干网络部分进行特征提取，两种模态的图像通道数不同，RGB图像为3通道，D图像为单通道，两路的特征提取过程中仅有各卷积层输出通道数不同，D图像支路中的各层输出通道数是RGB图像支路中的1/2，以减少特征冗余和网络计算量。

网络的双输入方式，独立地进行特征提取，具有以下优点：一方面，RGB图像和D图像之间存在显著差异，分别反映了物体的不同属性，两条独立的支路分别对两种图像进行特征提取，保证了网络对不同模态数据特征提取的专注度，避免了现有技术将RGB图像与D图像堆叠在一起进行特征提取带来的性能不足问题；另一方面，可以有效地避免D图像中的噪声对RGB图像特征提取的干扰，单独对D图像提取特征有利于在计算过程中对噪声的去除；另外，采用两支路共享特征提取主干网络的方法，有效降低网络参数量，加快网络训练过程及预测过程。

所述第三步中，基于两步逼近方法为后续的抓取检测计算自适应锚框，具体实现如下：

两步逼近方法是指将机械臂抓取检测任务拆分为目标检测问题与抓取位姿检测问题：第一步进行目标检测，对目标的边界框进行逼近；第二步进行抓取检测，对第一步得到的边界框进行一定的缩放调整作为抓取检测的锚框，再对最优抓取框进行逼近。在利用目标检测头获得目标的检测框和类别后，通过对目标的检测框进行如下式的变换以设定后续抓取检测的初始锚框：

其中，w与h指目标检测框的宽、高，w_a与h_a指锚框的宽、高，N_t为设定的阈值，α为设定的放缩系数。

上述表达式可具体表述为如下规则，进行抓取检测自适应初始锚框的设定：

(1)当目标边界框的长度和宽度至少有一项较小(小于阈值N_t)时，假设其中的较小值为l_min，则将αl_min(α>1)作为锚框的高即h，此时若另一项同样较小，则使用相同的系数α对其进行缩放作为锚框的宽w，否则使用固定值40作为锚框的宽；

(2)当目标边界框的长度与宽度均大于阈值N_t时，采用40×40大小的正方形框作为锚框；

(3)对于锚框的角度设定，规定若目标边界框的高度大于宽度，则锚框角度为0°，否则为90°。

采用自适应初始锚框能够提升网络对小目标的抓取检测性能，解决了当前技术中固定尺寸锚框鲁棒性不足的问题。对于大目标，其抓取矩形框的大小受机械臂手爪大小限制，通过固定大小的锚框进行回归能得到较为准确的结果；而对于小目标及细长目标，由于其信息量较少且噪声比例较大，使用固定大小的锚框进行逼近Groundtruth较为困难，而使用根据目标尺寸大小来设置的自适应锚框，减小了逼近的难度，可以得到更加准确的结果。

所述第四步中，RGB-D特征深度融合网络将RGB特征与D特征进行融合，具体实现如下：

RGB-D特征深度融合网络的输入数据为：主干网络最后一层输出的RGB特征与D特征，其特征通道数分别为1024、512，特征图尺寸均为7×7；主干网络倒数第二层输出的RGB特征与D特征，其特征通道数分别为512、256，特征图尺寸均为14×14；

考虑到网络深层特征的感受野较大，表达了更为完整的关键信息；而浅层特征更多地关注局部细节信息。因此在RGB-D特征深度融合网络中采用“回流”结构，将深层特征的融合结果作为低层特征融合的指导，进行多尺度的特征融合。RGB-D特征深度融合网络首先将主干网络最后一层输出的RGB特征与D特征进行通道维拼接，进行第一次融合，获得通道数为1536、尺寸为7×7的特征图；接着将该特征图通过卷积层和上采样层获得通道数为512、尺寸为14×14的特征图；然后再将该特征图与主干网络倒数第二层输出的RGB特征与D特征进行通道维拼接，进行第二次融合，获得通道数为1280、尺寸为14×14的特征图；最后将深度融合后的特征进行三层卷积计算，获得通道数为1024、尺寸为14×14的特征图，进而将计算结果输入到抓取检测头中。

RGB-D特征深度融合网络具有以下优点：(1)充分利用了多种模态的不同信息，保留互补信息的同时减少了冗余信息；(2)融合过程简单，对网络整体的解算速度影响较小；(3)结合了网络中多尺度的上下文信息，可以得到更强的RGB-D融合特征表示，使得算法面对小目标时具有更好的鲁棒性。

本发明与现有技术相比的优势在于：

(1)本发明的方法，借助RGB图像与深度图像，构建端到端的卷积神经网络同时实现目标检测识别与抓取姿态预测，通过二维抓取配置向三维空间的映射，从而完成对二指手爪机械臂抓取姿态的实时、准确计算，具有一定的有效性和鲁棒性。

(2)本发明采用了双支路输入结构，两条独立的前向支路分别对RGB图像与深度图像进行处理。一方面保证了网络对不同模态数据特征提取的专注度，同时这种网络设计可以使用大规模的网络预训练，提升了模型的迁移能力和泛化能力。克服了现有方法将网络输入设置为RGD三通道，使得蓝色通道被丢弃导致部分信息丢失而鲁棒性较差的缺陷。另一方面，采用RGB-D双支路输入方式可以使抓取检测与目标检测有机结合，共享特征提取网络权重，通过单个网络同时输出目标类别与位姿信息，且耗时不变；而采用RGBD四通道输入方式时，需要两条网络单独输出类别与位姿，耗时累加导致总体速度较慢。

(3)对齐的彩色图像与深度图像具有一定的空间相关性，在特征层面在中间表达或最后表达对其进行深度融合，具备以下优点：1)充分利用了多种模态的不同信息，保留互补信息的同时减少了冗余信息；2)融合过程简单，对网络整体的解算速度不会造成很大影响；3)深度图中的噪声较多，噪声在低层特征中仍然保持较大影响，在较深层次进行特征融合，能够更多地消除噪声带来的负面影响；4)网络深层特征的感受野较大，表达了更为完整的目标关键信息，而浅层特征更多地关注局部信息。因此在网络中采用了“回流”结构，将深层特征的融合结果作为低层特征融合的指导，多尺度融合结合了网络中多尺度的上下文信息，可以得到更强的RGB-D融合特征表示。

(4)本发明将机械臂抓取检测任务拆分为目标检测问题与抓取位姿检测问题，采用“两步逼近”思想进行抓取位姿检测。自适应锚框计算方法根据目标的尺寸大小设置抓取锚框，能一定程度上减小逼近GroundTruth的难度，将直接预测抓取任务进行分解转化，解决了固定大小的锚框进行逼近较为困难的问题，可以得到更加准确的结果。

附图说明

图1为本发明中抓取检测算法框架图；

图2为本发明中目标检测网络的总体结构图；

图3为本发明中抓取检测网络的总体结构图；

图4为本发明中数据预处理流程的示意图；

图5为本发明中二维平面抓取位姿表示的示意图；

图6为本发明中抓取检测两步逼近法流程的示意图；

图7为本发明中相机与机械臂固定位置的示意图；

图8为本发明中实验平台的实际拍摄图；

图9为本发明中目标检测的结果示例；

图10为本发明中单目标抓取检测的结果示例；

图11为本发明中多目标抓取检测的结果示例；

图12为本发明中机械臂抓取成功的示例。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

本发明一种基于RGB-D特征深度融合的抓取位姿检测方法，实验环境配置为，以GPU(型号为Nvidia GeForce GTX 1080Ti)作为计算平台，采用GPU并行计算框架，选取PyTorch作为神经网络框架。深度相机型号为Kinect V2.0，机械臂为Universal Robots公司出产的优傲UR5型机械臂，实验平台如图8所示。

如图1所示，具体步骤如下。

1、使用深度相机同时获取任务场景的RGB彩色图像和D图像(即深度图像)数据集，对数据集进行标注和预处理，并进行数据增强和数据集划分。其中数据预处理流程如图4所示(由于深度图像可读性较差，以对应的彩色图像为例)，具体实施如下。

(1)针对图像中存在的噪声进行去噪处理。方法采用中值滤波，在保留图像边缘信息的同时，有效抑制噪声。

(2)针对深度相机成像特点，进行阈值分割。由于深度相机存在一定的有效检测范围，当待测物体与摄像头的距离超过该范围时成像误差较大，如Kinect相机拍摄距离在0.8m～2.5m时成像效果较好。因此采用阈值分割的方法进行处理，去除过近或过远的目标，有效减少无关区域，保留待检测区域，效果如图4所示。

同时借助彩色图像与深度图像的匹配关系进行分割操作，将不符合深度要求的区域像素灰度值置为255，具体操作见式(1)。

v_d>d_max或v_d<d_min (2)

式中，v_rgb为彩色图像中某一点的灰度值，v_d为该点在深度图中对应的灰度值，d_max和d_min分别为实验中设定的最大有效深度和最小有效深度值。

2、根据图2所示搭建基于RGB图像的单阶段目标检测网络。单阶段目标检测网络由主干网络DarkNet-53和检测头串联而成。其中，网络采用ImageNet数据集预训练的DarkNet-53作为特征提取主干网络，DarkNet-53先后由1个卷积层和5个残差模块串联组成，图2中右下框内表示了残差模块结构，图中Conv2d表示二维卷积、BN表示批量归一化、LeakyReLU表示LeakyReLU激活函数。以上六层结构的输出通道数分别为64、64、128、256、512、1024，各层输出特征图宽与高均相同，边长分别为112、112、56、28、14、7；检测头由含有五层卷积的卷积模块和一层卷积层组成，两部分输出特征图通道数分别为1024、90，特征图尺寸均为7×7，检测头最终输出目标的类别、置信度和检测框位置。

3、目标检测网络构建完成后，冻结主干网络参数，用已标注目标类别和检测框的RGB图像训练集对检测网络进行训练，得到目标检测网络训练结果。目标检测网络训练时，其损失函数包含两部分，一部分为分类损失，另一部分为定位损失。

分类损失采用交叉熵损失。交叉熵损失函数见式(2)，其中N代表网格的数量，B代表每个网格中锚框的数量，M代表类别的数量；为01变量，若预测结果与真实类别相同则为1，否则为0；/>为第i个网格中的第j个预设框负责的目标属于类别c的概率。

定位损失分为边框回归损失和置信度损失两部分。边框回归损失函数采SmoothL1Loss，其函数表达式见式(3)，其中x表示预测值与真值的差值。

置信度损失函数如式(4)所示。其中，其中N代表网格的数量，B代表每个网格中锚框的数量；为网络预测的置信度值，/>为01变量，若第i个网格中的第j个预设框中实际含有目标，则为1，否则为0；/>为01变量，若预测目标实际为正样本则为1，否则为0；/>为01变量，若预测目标实际为负样本则为1，否则为0；λ_no为权重系数，用来平衡正负样本不均的问题。

综上，总的损失函数表达式见式(5)。其中，当某一网格中存在真实目标时，需要针对预测值计算所有的分类误差与定位误差，而不存在真实目标时，只需计算置信度误差。

4、以步骤3中训练好的目标检测网络为基础，根据图3构建基于RGB-D特征深度融合的抓取检测网络。该网络包括四部分：特征提取主干网络、RGB-D特征深度融合网络、目标检测头与抓取检测头。其中RGB图像和D图像以两支路输入特征提取主干网络部分进行特征提取，两支路共享特征提取主干网络，分别获取RGB特征与D特征。

(1)两路输入共享特征提取主干网络具体为：RGB图像与D图像以两路输入抓取检测网络，均通过主干网络部分进行特征提取，由于两种模态的图像通道数不同，RGB图像为3通道，D图像为单通道，因此两路的特征提取过程中仅有各卷积层输出通道数不同，D图像支路中的各层输出通道数是RGB图像支路中的1/2。

(2)RGB-D特征深度融合网络具体为：RGB-D特征深度融合网络首先将DarkNet-53最后一层输出的RGB特征与D特征进行通道维拼接，即图3中的Concat操作，进行第一次融合，获得通道数为1536、尺寸为7×7的特征图；接着将该特征图通过卷积层和上采样层获得通道数为512、尺寸为14×14的特征图；然后将该特征图与DarkNet-53倒数第二层输出的RGB特征和D特征进行通道维拼接，进行第二次融合，获得通道数为1280、尺寸为14×14的特征图；最后将深度融合后的特征通过三层卷积计算，获得输出通道数为1024、尺寸为14×14的特征图，之后将计算结果输入到抓取检测头中。

(3)抓取检测网络将机械臂抓取检测任务拆分为目标检测问题与抓取位姿检测问题，采用“两步逼近”方法进行抓取位姿检测，如图6所示。第一步进行目标检测，对目标的边界框进行逼近；第二步进行抓取检测，对第一步得到的边界框进行一定的缩放调整作为抓取检测的锚框，再对最优抓取框进行逼近。图6中，Box0表示目标检测锚框，Box1表示目标检测结果，Box2指根据目标检测结果获得的抓取检测锚框，Box3表示最终的抓取检测结果。

(4)目标检测头利用主干网络对应RGB图像的输出特征进行目标分类和定位，利用其检测框结果为后续的抓取检测设置自适应锚框；具体实现为：在利用目标检测头获得目标的检测框和类别后，通过对目标的检测框进行如下式的变换以设定后续抓取检测的初始锚框：

1)当目标边界框的长度和宽度至少有一项较小(小于阈值N_t)时，假设其中的较小值为l_min，则将αl_min(α>1)作为锚框的高，此时若另一项同样较小，则使用相同的系数α对其进行缩放作为锚框的宽，否则使用固定值40作为锚框的宽；

2)当目标边界框的长度与宽度均大于阈值N_t时，采用40×40大小的正方形框作为锚框；

3)对于锚框的角度设定，规定若目标边界框的高度大于宽度，则锚框角度为0°，否则为90°。

(5)抓取检测头通过深度融合后的特征和第四步获得的自适应锚框进行二维平面的抓取姿态预测，在机械臂的二维平面抓取位姿检测任务中，预测结果表示为带有旋转的矩形框，如图5所示，即如下的五维向量：

G₂＝(x,y,w,h,θ) (8)

其中x,y表示手爪中心移动的目标位置坐标，w表示二指手爪的张开大小，h表示手爪宽度的合适尺寸，θ则为手爪旋转角度在二维平面内的投影；

抓取检测头为一个卷积层，输出通道为6，分别指旋转矩形框5个分量的预测偏移量及预测置信度。其中各分量的预测偏移量如下：

其中，x_p,y_p表示手爪中心移动的目标位置坐标预测值，x_g,y_g表示网格中心的坐标值，w_p表示二指手爪的张开大小预测值，h_p表示手爪宽度的合适尺寸预测值。

从而，相应的解码方式为：

5、以预处理后的RGB图像与D图像数据集训练构建的抓取检测网络，获得最终的训练结果。训练时的损失函数为定位损失，包含置信度损失与边框回归损失，由于抓取检测任务中角度对实际抓取成功与否的影响较大，因此赋予更大的权重α(α>1)，损失函数如下所示。

其中，N指预测框数量，j＝{x,y,w,h}，s_g,s_u为抓取预测的置信度得分，包括成功抓取和不成功抓取，IoU为预测框与真实框的交并比，λ为平衡系数，用来降低负样本的损失贡献，以解决正负样本不均衡的问题。

6、进行机械臂与深度相机的手眼标定。相机与机械臂的位置采用“Eye to hand”的安装方式，即：将相机与机械臂分别安装在平台的固定位置，相机不随机械臂一起移动，如图7所示。设相机坐标系到机械臂坐标系的旋转矩阵为R，平移向量为t。则空间中任一点P在相机坐标系下的坐标P_c和在机械臂坐标系下的坐标P_r满足式(11)，其中R为正交矩阵：

P_r＝RP_c+t (12)

依照矩阵运算的规则，将R矩阵扩展至4×4，得到：

在获取较多对(大于4对)的机械臂末端在相机坐标系和机械臂坐标系下的坐标之后，通过SVD分解的方式求解R矩阵和t向量，从而获得相机坐标系和机械臂坐标系之间的关系。

7、利用标定信息实现二维抓取配置向三维空间的映射。具体实现如下：

(1)三维空间中的抓取配置与行动路径表示。二维平面旋转矩形框形式的抓取位姿是目标在三维空间中抓取位姿的低维投影，机械臂在三维空间中的抓取配置表示为：

G₃＝(x,y,z,α,β,γ,w) (14)

其中x,y,z表示手爪中心移动的目标位置坐标，α,β,γ表示抓取位姿在x,y,z三个维度上的三个角度，w表示二指手爪的张开大小。

在机械臂运动学中，通常(2)求解三维空间中的抓取位置与机械臂手爪张开大小。在得到预测矩形框之后，可根据相机坐标系与机械臂坐标系的转移矩阵，计算得到三维空间中的抓取位置与机械臂手爪张开大小。若已知相机坐标系与机械臂坐标系之间的旋转矩阵R和平移向量t，矩形框中心点周围邻域内的最小深度为d₀，相机坐标系下抓取位置的坐标为(x_c,y_c,z_c)，则有：

其中，f和c为深度相机内部参数，x,y表示抓取位置在图像中的坐标。

将相机坐标系下的抓取位置坐标转换为机械臂坐标系下的抓取位置坐标(x_r,y_r,z_r)，如下式所示。

机械臂手爪的实际张开大小如下，其中w指二维平面内表示的二指手爪的张开大小。

(2)求解三维空间中手爪的抓取姿态。使用四元数表示法规划机械臂的行动路径，即q＝(q_w,q_x,q_y,q_z)。首先需提取矩形框中心附近的点云，拟合曲面后计算法向量n作为手爪的抓取方向，而后手爪绕该方向旋转θ，再执行抓取。具体的计算过程如下。

进一步考虑到真实场景中物体通常放置于某个水平面上，为简化映射过程，减少计算量，则假设机械臂手爪采取沿Z轴方向自上而下抓取的方式。首先将机械臂移动到待抓取目标上方，之后手爪绕Z轴旋转θ，执行抓取。此时可以快速求得四元数为：

8、机械臂根据三维空间的抓取位姿指令实施抓取操作。一次成功的抓取需要实现以下三个阶段：

1)手爪处于张开状态，控制机械臂由初始状态移动到目标位置；

2)控制手爪闭合，抓紧物体；

3)机械臂向上抬起一段距离，过程中物体没有掉落。

如表1所示，通过实验验证，在开源抓取检测数据集康奈尔数据集上进行测试，使用本方法在不同杰卡德系数阈值下均能获得准确率较高的预测精度。

表1不同杰卡德系数阈值下的测试准确率

图9展示了网络中目标检测部分的结果示例，左上角表示了待抓取目标的分类结果，分别指木棍、眼镜、杯子、盘子、瓶子、遥控器、棍子和鼠标。图9的结果表明目标检测网络能够准确检测定位出目标所在位置，为抓取检测奠定了良好的基础；图10及图11分别展示了抓取检测网络对单目标及多目标均能准确预测出二维平面的抓取位姿(其中图10中第一行为GroundTruth，第二行为网络输出结果)，表明本发明方法在面对尺度不一的物体时，也可以保持稳定性和鲁棒性；图12展示了机械臂成功抓取的示例。各项结果证明了本发明提供的方法针对各种目标均有良好的准确性。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于RGB-D特征深度融合的抓取位姿检测方法，其特征在于，包括以下步骤：

第一步，使用深度相机同时获取任务场景的RGB彩色图像和深度图像即D图像的数据，并进行预处理；

第五步，利用第三步所得的自适应锚框和第四步所得的深度融合特征，抓取检测头进行二维平面的抓取位姿检测，位姿检测结果映射到三维空间得到机械臂对目标的实际抓取位姿；

RGB图像与D图像以两路输入抓取检测网络，均通过主干网络部分进行特征提取，两种模态的图像通道数不同，RGB图像为3通道，D图像为单通道，两路的特征提取过程中仅有各卷积层输出通道数不同，D图像支路中的各层输出通道数是RGB图像支路中的1/2，以减少特征冗余和网络计算量；

两步逼近方法是指将机械臂抓取检测任务拆分为目标检测问题与抓取位姿检测问题：第一步进行目标检测，对目标的边界框进行逼近；第二步进行抓取检测，对第一步得到的边界框进行一定的缩放调整作为抓取检测的锚框，再对最优抓取框进行逼近，在利用目标检测头获得目标的检测框和类别后，通过对目标的检测框进行如下式的变换以设定后续抓取检测的初始锚框：

其中，w与h指目标检测框的宽、高，w_a与h_a指锚框的宽、高，N_t为设定的阈值，α为设定的放缩系数；

上述表达式具体表述为如下规则，进行抓取检测自适应初始锚框的设定：

(1)当目标边界框的长度和宽度至少有一项小于阈值N_t时，假设其中的较小值为l_min，则将αl_min(α>1)作为锚框的高即h，此时若另一项同样小于阈值N_t，则使用相同的系数α对其进行缩放作为锚框的宽w，否则使用固定值40作为锚框的宽；

(3)对于锚框的角度设定，规定若目标边界框的高度大于宽度，则锚框角度为0°，否则为90°；

在RGB-D特征深度融合网络中采用“回流”结构，将深层特征的融合结果作为低层特征融合的指导，进行多尺度的特征融合，RGB-D特征深度融合网络首先将主干网络最后一层输出的RGB特征与D特征进行通道维拼接，进行第一次融合，获得通道数为1536、尺寸为7×7的特征图；接着将该特征图通过卷积层和上采样层获得通道数为512、尺寸为14×14的特征图；然后再将该特征图与主干网络倒数第二层输出的RGB特征与D特征进行通道维拼接，进行第二次融合，获得通道数为1280、尺寸为14×14的特征图；最后将深度融合后的特征进行三层卷积计算，获得通道数为1024、尺寸为14×14的特征图，进而将计算结果输入到抓取检测头中。