CN112270249A

CN112270249A - 一种融合rgb-d视觉特征的目标位姿估计方法

Info

Publication number: CN112270249A
Application number: CN202011152483.9A
Authority: CN
Inventors: 王耀南; 刘学兵; 朱青; 袁小芳; 毛建旭; 周显恩; 吴成中; 冯明涛; 刘彩苹
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-26
Anticipated expiration: 2040-10-26
Also published as: CN112270249B

Abstract

本发明提供了一种融合RGB‑D视觉特征的目标位姿估计方法。所述融合RGB‑D视觉特征的目标位姿估计方法包括如下步骤：获取包含目标物体的RGB图像和深度图像；将RGB图像输入至主干网络进行RGB特征提取和实例分割，获得多通道卷积特征图像和目标物体分割掩码；利用目标分割掩码裁剪多通道卷积特征图像和深度图像，得到每个目标物体的图像卷积特征块和深度图像块；对目标物体任意尺寸的图像卷积特征块进行空间金字塔池化，得到规范大小的目标RGB特征向量；从深度图像块获取目标物体点云，并提取点云特征，获得点云特征向量；融合目标的RGB特征和点云特征，进行目标位置估计和姿态估计，输出每个对应目标的类别和位姿P。本发明目标位姿估计精度高、过程简便。

Description

一种融合RGB-D视觉特征的目标位姿估计方法

技术领域

本发明涉及机器人视觉感知及深度学习中目标识别与检测领域，特别涉及一种基于RGB-D(深度图像)视觉特征的目标位姿估计方法。

背景技术

目标位姿估计是机器人视觉感知领域一个重要内容，一般而言，目标位姿由三维位置和三维旋转共6个参数组成，指的是在以机器人相机中心为原点的坐标系下，目标物体的位置t和朝向R。在机器人抓取、搬运和操纵任务中，获取作业目标精确的三维空间信息是保证任务有效执行的前提，因此目标位姿估计成为提升机器人应用能力的一个关键技术。由于环境复杂和目标物体多样性，目标位姿估计是一个具有挑战性的问题，容易受到诸如背景干扰、杂乱堆叠、相互遮挡和表面弱纹理等情况的影响，也因此位姿估计是计算机视觉研究中的一个热点。

传统的位姿估计方法主要包括模板匹配和特征点匹配，前者使用多尺度窗口，在图像上不断滑动，计算每个位置与数据库中已知位姿数据的匹配度，最后根据匹配情况利用非极大值抑制法确定最佳位姿；后者首先提取并检测出二维图像特征点，其次匹配至物体模型中三维关键点，最后利用PnP方法解算出目标位姿。此类方法由于需要针对目标人为设计特征提取方法，易受物体遮挡、表面弱纹理影响，鲁棒性差。

随着深度学习在计算机视觉领域的快速发展，基于卷积神经网络的目标位姿估计方法得到了广泛应用。此类方法利用卷积网络自动进行特征提取，然后直接预测各目标物体三维关键点在二维图像平面的投影，并通过PnP方法计算位姿参数。在此基础上，另一类深度学习方法省去关键点预测和位姿解算步骤，直接通过卷积特征回归物体位姿参数，实现端到端的位姿估计。与传统方法比较，基于深度学习的方法克服了人工特征计算的弊端，自适应能力强，同时抑制了复杂背景和光照变化带来的检测干扰，鲁棒性高。但当预测物体表面纹理弱或存在严重遮挡时，卷积网络难以提取有效的特征，使得网络参数回归能力下降，精度差。

近年来，低成本消费级深度相机的出现为基于视觉图像的位姿估计方法提供了新的思路，深度图像由于不受光照和物体表面纹理影响，对空间几何位置敏感，可以与彩色图像进行优势互补，进一步提高位姿估计精度。由于数据类型存在差异，现有深度学习网络处理RGB-D数据主要分两类，一类将深度图像作为彩色图像的附加通道，直接输入现有网络进行卷积特征提取，该方法忽略了深度图像的空间几何特征；另一类则从深度图像重建点云，并利用点云网络进行特征提取，然后通过一些复杂的处理步骤结合卷积网络特征实现位姿估计，此类方法过程繁琐，未能充分利用RGB-D不同类型数据特征。

发明内容

本发明提供了一种融合RGB-D视觉特征的目标位姿估计方法，其目的是为了解决背景技术中RGB-D目标位姿估计精度差、过程繁琐的问题。

为了达到上述目的，本发明的实施例提供的一种融合RGB-D视觉特征的目标位姿估计方法，包括如下步骤：

步骤S1：获取包含目标物体的RGB图像(彩色图像)和深度(Depth)；

步骤S2：将RGB图像输入至主干网络进行RGB特征提取和实例分割，获得多通道卷积特征图像和目标物体分割掩码；

步骤S3：利用目标分割掩码裁剪多通道卷积特征图像和深度图像，得到每个目标物体的图像卷积特征块和深度图像块；

步骤S4：对目标物体任意尺寸的图像卷积特征块进行空间金字塔池化，得到规范大小的目标RGB特征向量；

步骤S5、从深度图像块获取目标物体点云，并提取点云特征，获得点云特征向量；

步骤S6：融合目标RGB特征向量和点云特征向量，通过位姿回归网络进行目标位置估计和姿态估计，输出每个对应目标的类别C和6维位姿P。

优选地，所述步骤S2具体包括如下步骤：

步骤S21、利用主干网络对RGB图像进行特征提取，获得多个不同尺寸和通道的特征图(Feature Maps)；

步骤S22、利用步骤S21中得到的特征图进行实例分割，利用上采样、特征融合操作，获得目标在RGB图像中的实例分割掩码(SegmentationMask)；

步骤S23、对步骤S21中得到的特征图进行上采样、特征融合操作，获得与输入的RGB图像相同尺寸的多通道卷积特征图像。

优选地，步骤S5具体为：

根据小孔成像模型，利用相机内参从包含目标的深度图像块中计算出三维点云，计算过程中通过随机采样或填充策略对点云数量进行删增，确保每个目标点云数量相同，最后利用一个点云特征网络获得目标规范大小的点云特征向量。

优选地，所述步骤S21具体为：

主干网络基于ResNet18卷积神经网络，舍弃网络层中的"layer4"与"fc"层，输出"layer2"和"layer3"层作为图像的卷积特征，其尺寸大小分别为输入图像的

和

特征通道数分别为128和256。

优选地，所述步骤S22中的目标实例分割及所述S23中的多通道卷积特征的获取采用类似的网络结构，仅输出特征通道数不同，F₁、F₂、F₃和F₄为网络卷积处理过程中不同阶段特征图像的张量形式，其步骤如下：

步骤S2231：从主干网络获取两种不同尺寸的卷积特征，数据张量形式分别为

其中H、W为输入图像的高度和宽度；

步骤S2232：对F₂进行一倍上采样至

接着进行一个1×1卷积以融合各通道特征信息，并降低特征通道，输出一个特征层

步骤S2233：融合F₁和F₃，依次进行8倍上采样、1×1卷积特征融合，获得与输入图像尺寸一致的特征层F₄:[128,H,W]；

步骤S2234：采用不同的卷积策略完成多通道卷积特征获取与目标实例分割，多通道卷积特征获取保持F₄的张量形式，目标实例分割降低特征通道至目标类别总数，获取类别C和分割掩码。

优选地，所述步骤S3中，场景中各目标裁剪出的RGB特征形状、大小各异，对此构造一个目标边界框大小的矩形特征空间，填入裁剪后的目标RGB特征，对其余空间用0填充，具体为：利用获取的目标分割掩码从所述多通道卷积特征图像和输入深度图像中分别裁剪出与目标相同大小的图像卷积特征块和深度图像块。

优选地，所述步骤S5、从深度图像块获取目标物体点云，并提取点云特征，获得点云特征向量，具体为：

裁剪后的目标深度图像块表述为D_i∈(u_i,v_i,I(u_i,v_i)),i＝1,2,...,m，其中u，v为图像坐标，u_i为目标物体点云的横向坐标，v_i为目标物体点云的纵向坐标，I(u,v)为该点深度值，首先利用最远点采样或复制方法确保各目标m一致，其次利用相机内参和小孔成像模型从深度图像中获取点云(X_i,Y_i,Z_i)：

其中

构成相机内参K，f_x、f_y为透视模式下相机在x、y方向上的等效焦距，c_x、c_y为相机光轴在图像坐标系x、y方向上的偏移；

点云特征网络采用PointNet结构，通过全局池化输出固定大小的点云特征向量。

优选地，所述步骤S6具体为：融合目标RGB特征向量与点云特征向量后，分别输入位置和通过两个独立位姿回归网络估计出目标的位置信息和姿态信息，得到位置向量t和姿态矩阵R，最终组合成目标位姿矩阵，输出每个对应目标的类别C和6维位姿P，6维位姿P的输出包括目标位姿矩阵T＝[R|t；0,1]T＝[R|t；0,1]的输出。

优选地，还包括：

步骤S7：利用目标位姿估计数据集中提供的RGB-D图像、图像中各目标物体分割掩码和位姿参数对步骤S6中提出的位姿回归网络进行训练。

优选地，所述步骤S7中位姿估计网络训练方法具体为：

步骤S71：实例分割网络学习，获取数据集中的RGB图像和对应目标分割掩码输入到网络中，学习主干网络、实例分割模块及对应上采样模块的网络层参数，所采用损失函数为逐像素的交叉熵(Cross Entropy)计算，先利用SoftMax函数对分割结果中各像素进行类别概率估计：

其中，(u,v)为输出特征像素坐标，j为通道数量，也即目标类别总数，特别的，w＝0表示类别为背景的概率，为索引变量；通过计算输出概率与分割掩码的交叉熵作为损失：

Loss_CE＝-∑_(u,v)c_wlog(P_w)

其中，w_i＝1，w为分割掩码中(u,v)处所属类别，P_i为上述式子P(w,u,v)计算得到，遍历了整个图像，其求和范围直接用(u，v)表示；

步骤S72：固定主干网络和实例分割网络参数，输入RGB-D图像，利用各目标物体位置参数和姿态参数对网络剩余部分进行训练，采用的损失函数计算如下：

Loss＝Loss_t+αLoss_R

其中，

和

分别为网络预测位姿和数据集中位姿真实值，α为权重因子，用于调节两种不同损失函数对网络的影响。

采用本发明能达到的技术效果：

(1)提出一种融合RGB-D视觉特征策略的位姿估计方法，利用卷积神经网络和点云网络分别提取RGB图像和Depth图像(预处理成点云数据)特征，并规范化处理特征尺度，保留特征空间信息，实现两种不同特质数据的融合，提高网络的位姿参数回归能力。

(2)针对位姿参数中，位置和姿态两种不同几何含义数据的特点，使用两个独立MLP结构进行回归预测，使网络更有效地学习特征表述。

(3)采用端到端的训练和推理方式，避免了基于关键点预测方法的后处理操作，执行速度快，效率高。

附图说明

图1为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的网络结构和流程示意图；

图2为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的位姿估计网络中各模块数据的张量形式示意图；

图3(a)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的目标位姿网络训练及推理采用的数据集LINEMOD的图片示意图；

图3(b)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的目标位姿网络训练及推理采用的数据集YCB的图片示意图；

图4(a)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的目标实例分割过程中损失下降曲线；

图4(b)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的位姿参数回归总损失下降曲线；

图5为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的网络部分推理结果展示。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的问题，提供了一种融合RGB-D视觉特征的目标位姿估计方法，如图1所示，包括如下步骤：

步骤S1：获取包含目标物体的RGB图像(彩色图像)和深度(Depth)图像；

步骤S3：利用目标分割掩码裁剪多通道卷积特征图像和深度图像，得到每个目标物体的图像卷积特征块和深度图像块；场景中各目标裁剪出的RGB特征形状、大小各异，对此构造一个目标边界框大小的矩形特征空间，填入裁剪后的目标RGB特征，对其余空间用0填充，具体为：利用获取的目标分割掩码从所述多通道卷积特征图像和输入深度图像中分别裁剪出与目标相同大小的图像卷积特征块和深度图像块。

步骤S5、从深度图像块获取目标物体点云，并提取点云特征，获得点云特征向量；具体为：

其中

步骤S6：融合目标RGB特征向量和点云特征向量，通过位姿回归网络进行目标位置估计和姿态估计，输出每个对应目标的类别C和6维位姿P；具体为：融合目标RGB特征向量与点云特征向量后，分别输入位置和通过两个独立位姿回归网络估计出目标的位置信息t和姿态信息R，得到位置向量t和姿态矩阵R，最终组合成目标位姿矩阵T＝[R|t]，最终组合成目标位姿矩阵T＝[R|t；0,1]，输出每个对应目标的类别C和6维位姿P，6维位姿P的输出包括目标位姿矩阵T＝[R|t；0,1]的输出。

其中，所述步骤S2具体包括如下步骤：

步骤S21、利用主干网络对RGB图像进行特征提取，获得多个不同尺寸和通道的特征图；具体为：

和

特征通道数分别为128和256。

步骤S22、利用步骤S21中得到的特征图进行实例分割，利用上采样、特征融合操作，获得目标在RGB图像中的实例分割掩码；

所述步骤S22中的目标实例分割及所述S23中的多通道卷积特征的获取采用类似的网络结构，仅输出特征通道数不同，F₁、F₂、F₃和F₄为网络卷积处理过程中不同阶段特征图像的张量形式，其步骤如下：

其中H、W为输入图像的高度和宽度；

步骤S2232：对F₂进行一倍上采样至

所述步骤S7中，位姿估计网络训练方法具体为：

Loss_CE＝-∑_(u,v)c_wlog(P_w)

Loss＝Loss_t+αLoss_R

其中，

和

在本发明的另一较佳实施例中，具体实施步骤如下：

步骤1：利用RGB-D相机获取目标场景下的RGB图像与Depth图像，图像数据分别为[3,480,640](张量形式，通道-高度-宽度)，[480,640](张量形式，高度-宽度)，并已由相机内部自动配准，相机内部参数K已知；

步骤2：将RGB图像输入至主干网络进行特征提取，获取不同尺寸和通道数的特征图。本方法主干网络基于ResNet18结构，在其基础上，舍弃网络结构中的"layer4"与"fc"层，输出"layer2"与"layer3"层，特征数据张量形式分别为[128,60,80]和[256,30,40]；

步骤3：利用步骤2中得到的特征图进行目标实例分割，通过上采样、特征融合和卷积操作，获取目标在RGB图像中的实例分割掩码。具体操作为，从主干网络获取两种卷积特征F₁:[128,60,80]，F₂:[256,30,40]，对F₂上采样一倍至[256,60,80]，接着进行一个1×1卷积处理以融合各通道特征信息，降低特征通道，输出特征F₃:[128,60,80]，其次，融合F₁和F₃，依次进行8倍上采样、1×1卷积特征融合，获得与输入图像尺寸一致的特征层F₄:[128,480,640]，最后执行一次3×3卷积，降低特征通道至[22,480,640]，其中22为目标类别数量，背景区域也作为一个独立类别并入其中，利用SoftMax处理获得类别掩码，同时输出图像中的目标数量及类别Object:[n]。

步骤4：获取RGB图像相同尺寸的多通道特征图，处理过程与步骤3类似，从主干网络中获取F₁和F₂，进行上采样、融合、卷积操作，不同之处在于该步最后直接输出特征层F₄，作为RGB图像卷积特征，用于裁剪目标RGB特征。

步骤5：利用上述步骤3获取的目标分割掩码从步骤4获取的多通道RGB特征图裁剪出与目标相同大小的特征图块，经过一个空间金字塔池化模块(Spatial PyramidPooling)得到一个规范大小的RGB特征向量。由于目标分割结果中，大小、形状各异，首先获从分割掩码中计算得到边界框(x,y,h,w)，并以此大小构造一个[128,h,w]的空张量，填入裁剪后的目标RGB特征，对其余未涉及到的空间用0填充，之后利用一个空间金字塔池化模块，将[128,h,w]特征规范化成一个固定大小特征向量[128,21]，所采用的池化格子为(1,2,4)。分割掩码中每个目标进行一次特征裁剪和池化操作，共获得n个RGB特征向量F_RGB:[n,128,21]。

步骤6：裁剪目标Depth图像并计算获得目标点云，首先通过步骤3中分割掩码从Depth图像中裁剪出目标物体深度信息块，表述为D_i∈(u_i,v_i,I(u_i,v_i)),i＝1,2,...,m，其中u、v为裁剪出的图像块中像素二维坐标，I(u,v)为该坐标像素值(深度值)。为保证各目标物体裁剪后深度图像块像素点总数m一致，利用最远点采样法或复制法分别对像素点较多或较少的目标物体进行删增，本发明实施过程中m设置为1000。其次，利用小孔成像模型中，目标三维点云(X_i,Y_i,Z_i)与二维图像投影点(u_i,v_i)的映射关系，获取目标点云：

其中

构成相机内参K

各目标物体获取的点云数据依次输入到点云网络进行特征提取，本发明方法所采用的点云特征网络基于PointNet结构，舍弃"fc"层，降低特征通道数，并利用复制操作扩展向量长度至21，使输出为[128,21]，确保与目标物体RGB图像特征向量形式一致，同样的，n个目标物体输出特征向量为F_Points:[n,128,21]。

步骤7：融合步骤5和6中目标物体RGB特征向量F_RGB与点云特征向量F_Points，获得目标融合特征F_Objs:[n,128,21]，然后分别输入两个独立MLP回归网络MLP_t和MLP_R，对各目标物体位置参数和姿态参数进行预测，得到各物体位姿参数translation:[n,3]，rotation:[n,3,3]。

利用目标位姿估计数据集中提供的RGB-D图像、图像中各目标物体分割掩码和位姿参数对上述提出的位姿估计网络进行训练，具体步骤为：

步骤1：实例分割网络学习，获取数据集中的RGB图像和对应目标分割掩码输入到网络中，学习主干网络、实例分割模块及对应上采样模块的网络层参数，所采用损失函数为逐像素的交叉熵(Cross Entropy)计算，先利用SoftMax函数对分割结果中各像素进行类别概率估计：

其中，(u,v)为输出特征像素坐标，j为通道数量，也即目标类别总数，特别的，i＝0表示类别为背景的概率。通过计算输出概率与分割掩码的交叉熵作为损失：

Loss_CE＝-∑_(u,v)c_ilog(P_i)

其中，c_i＝1，i为分割掩码中(u,v)处所属类别。

步骤2：固定主干网络和实例分割网络参数，输入RGB-D图像，利用各目标物体位置参数和姿态参数对网络剩余部分进行训练，采用的损失函数计算如下：

Loss＝Loss_t+αLoss_R

其中，

和

为了验证本发明方法的有效性和准确性，分别在目标位姿公开数据集LINEMOD(图3(a))和YCB(图3(b)所示)上进行了测试，首先利用训练集对网络进行训练，然后在测试集上进行位姿预测性能测试。图4(a)为目标实例分割过程中损失下降曲线，图4(b)为位姿参数回归总损失下降曲线，图5为部分位姿结果展示。可以看出，各目标物体能准确进行分割，各目标物体通过预测的位姿参数，绘制三维边界框，能与目标真实三维边界框准确重合。

采用本发明所提供的一种融合RGB-D视觉特征的目标位姿估计方法，其技术优点体现如下：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，包括如下步骤：

步骤S1：获取包含目标物体的RGB图像和深度图像；

2.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S2具体包括如下步骤：

步骤S21、利用主干网络对RGB图像进行特征提取，获得多个不同尺寸和通道的特征图；

3.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，步骤S5具体为：

4.根据权利要求2所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S21具体为：

和

特征通道数分别为128和256。

5.根据权利要求2所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S22中的目标实例分割及所述S23中的多通道卷积特征图像的获取采用类似的网络结构，仅输出特征通道数不同，F₁、F₂、F₃和F₄为网络卷积处理过程中不同阶段特征图像的张量形式，其步骤如下：

步骤S2231：从主干网络获取两种不同尺寸的卷积特征，数据张量形式分别为F₁:

F₂:

其中H、W为输入图像的高度和宽度；

步骤S2232：对F₂进行一倍上采样至

接着进行一个1×1卷积以融合各通道特征信息，并降低特征通道，输出一个特征层F₃:

步骤S2234：采用不同的卷积策略完成多通道卷积特征图像获取与目标实例分割，多通道卷积特征图像获取保持F₄的张量形式，目标实例分割降低特征通道至目标类别总数，获取类别C和分割掩码。

6.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S3中，场景中各目标裁剪出的RGB特征形状、大小各异，对此构造一个目标边界框大小的矩形特征空间，填入裁剪后的目标RGB特征，对其余空间用0填充，具体为：利用获取的目标分割掩码从所述多通道卷积特征图像和输入深度图像中分别裁剪出与目标相同大小的图像卷积特征块和深度图像块。

7.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S5、从深度图像块获取目标物体点云，并提取点云特征，获得点云特征向量，具体为：

其中

8.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S6具体为：融合目标RGB特征向量与点云特征向量后，分别输入位置和通过两个独立位姿回归网络估计出目标的位置信息和姿态信息，得到位置向量t和姿态矩阵R，最终组合成目标位姿矩阵T＝[R|t；0,1]，输出每个对应目标的类别C和6维位姿P，6维位姿P的输出包括目标位姿矩阵T＝[R|t；0,1]的输出。

9.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，还包括：

10.根据权利要求9所述的一种融合RGB-D视觉特征的目标位姿估计方法，其特征在于，所述步骤S7中位姿估计网络训练方法具体为：

Loss_CE＝-∑_(u,v)c_wlog(P_w)

Loss＝Loss_t+αLoss_R

其中，

和