CN114663514A

CN114663514A - 一种基于多模态稠密融合网络的物体6d姿态估计方法

Info

Publication number: CN114663514A
Application number: CN202210574035.0A
Authority: CN
Inventors: 宋亚楠; 刘贤斐; 沈卫明; 姜泽维; 周迪楠
Original assignee: Institute Of Computer Innovation Technology Zhejiang University
Current assignee: Institute Of Computer Innovation Technology Zhejiang University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-06-24
Anticipated expiration: 2042-05-25
Also published as: CN114663514B

Abstract

本发明公开了一种基于多模态稠密融合网络的物体6D姿态估计方法。将物体的RGB图像和点云输入物体6D姿态估计网络训练和预测获得旋转和平移变换结果；网络中用卷积神经网络提取物体表面特征，对物体表面特征截取后再与物体几何特征拼接融合成局部模态稠密融合特征，输入下一多层感知机获取物体几何特征，融合得全局多模态稠密融合特征，再输入到实例分割关键点处理模块得目标关键点，结合最远点采样得采样关键点，通过奇异值分解获得6D姿态信息。本发明方法能够充分利用物体的RGB信息和深度信息，两种模态信息的相互补充融合能有效提高网络对相似物体的姿态判别能力，对噪声、遮挡、低纹理等复杂环境具有较强的适应性。

Description

一种基于多模态稠密融合网络的物体6D姿态估计方法

技术领域

本发明涉及计算机视觉和6D姿态估计领域的一种物体姿态估计方法，特别涉及一种基于多模态稠密融合网络的物体6D姿态估计方法。

背景技术

物体6D姿态估计广泛应用于机器人抓取、自主导航、增强现实等领域。然而由于传感器的噪声、不确定的光照条件以及场景物体之间的遮挡等原因，准确估计物体相对相机的6D姿态是一个具有挑战的任务。

虽然基于深度学习的方法能有效从RGB图像中估计物体的6D姿态，但是不能有效适应弱光照、低纹理等复杂场景。一些6D姿态估计方法首先在RGB图像上获取物体的初始姿态，然后基于物体深度信息进一步优化6D姿态估计结果。虽然这些方法提升了对弱光照等复杂环境的适应能力，但是需要消耗大量的计算资源，物体姿态估计的效率提升受到限制。以DenseFusion为代表的6D姿态估计方法同时利用卷积神经网络和点云网络提取物体RGB信息和深度信息，实现了6D姿态估计网络的端到端训练学习。

然而这些网络独立提取物体RGB信息和深度信息，只在网络后端拼接融合两种模态特征，不能充分利用两种模态之间的互补信息，不利于提升6D物体姿态估计的精度。

发明内容

本发明的目的是为了解决背景技术而提出的一种基于多模态稠密融合网络的物体6D姿态估计方法，在使用卷积网络和多层感知机网络提取物体RGB表面信息和点云深度信息的同时，将物体RGB表面特征融入到点云深度特征，提升网络对点云物体空间几何信息的利用能力。物体表面信息和深度信息的稠密融合，进一步提升了网络对弱纹理、低光照、遮挡等复杂场景的适应能力。

为了实现上述目的，本发明采用的技术方案为：

步骤1：构建物体6D姿态估计网络；

步骤2：将物体的RGB图像和点云输入物体6D姿态估计网络后进行训练；

步骤3：采集待测场景下物体的RGB图像和点云，输入到训练后的物体6D姿态估计网络中，直接预测获得旋转变换和平移变换结果，作为物体6D姿态估计结果。

所述的物体的RGB图像和点云是采用外部的三维深度相机针对同一物体在同一时刻获得的RGB图像和点云。

所述的物体6D姿态估计网络包括连续多个卷积操作模块、连续多个多层感知机以及局部模态融合模块、全局模态融合模块、实例分割关键点处理模块；连续多个卷积操作模块构成了卷积神经网络，将输入的RGB图像依次经连续多个卷积操作模块处理后获得最终物体表面特征，连续多个多层感知机和连续多个卷积操作模块之间通过局部模态融合模块传递特征数据获得物体几何特征，将输入的点云经连续多个多层感知机处理后获得最终物体几何特征，将最终物体表面特征和最终物体几何特征经全局模态融合模块处理融合为全局模态融合特征，将全局模态融合特征经实例分割关键点处理模块后获得目标关键点；同时针对输入的点云经最远点采样处理获得采样关键点，最后将目标关键点和采样关键点经过奇异值分解SVD处理后获得旋转变换参数R和平移变换参数t。

每个卷积操作模块均是有一次卷积操作构成。

连续多个多层感知机和连续多个卷积操作模块之间通过局部模态融合模块传递特征数据获得物体几何特征，具体是在第i个卷积操作模块和第i个多层感知机之间连接设置一个局部模态融合模块，将第i个卷积操作模块输出的物体表面特征和第i个多层感知机输出的物体几何特征均输入到局部模态融合模块中，通过局部模态融合模块将物体表面特征融合到物体几何特征中，处理获得局部模态融合特征，再将局部模态融合特征输入到第i+1个多层感知机中。

由最后一个卷积操作模块输出的物体表面特征作为最终物体表面特征，由最后一个多层感知机输出的物体几何特征作为最终物体几何特征。

全局多模态稠密特征输入到实例分割模块、关键点生成模块和中心点生成模块构成的实例分割关键点处理模块，然后经过聚类和投票操作获得物体在相机坐标系下的关键点。

所述的实例分割关键点处理模块包括实例分割模块、关键点生成模块、中心点生成模块以及聚类操作、投票操作；将全局模态融合特征分别经实例分割模块、关键点生成模块、中心点生成模块处理获得语义分割信息、姿态关键点、物体中心点，根据不同物体类别的物体中心点作为不同物体的位置，针对物体的语义分割信息通过聚类操作将具有相同语义信息的姿态关键点聚类为同一个物体类别，属于同一个物体类别的姿态关键点通过投票方法提取该物体类别的物体中心点和目标关键点，即物体在相机坐标系下的关键点。

物体中心点用于区分不同物体实例的位置，对区分同一类别不同实例的物体至关重要。例如：如果一个图像上有两个苹果，如果只根据语义分割信息聚类关键点，就无法区分关键点属于哪个苹果。结合物体中心点位置，能很好地应对这种场景。

所述的实例分割模块、关键点生成模块、中心点生成模块均采用多层感知机。

所述的局部模态融合模块包括特征剪裁操作和注意力池化操作；物体表面特征F_rgb经特征剪裁操作获得表面特征区域，表面特征区域再经过注意力池化操作后和物体几何特征F_p按特征通道拼接获得拼接特征，最后将拼接特征经过多层感知机MLP网络后获得局部模态融合特征F_m。

局部模态融合模块主要用于网络的特征提取阶段。该模块将卷积网络提取的物体表面特征融入到点云网络提取的物体几何特征中，增强物体几何特征对物体全局信息的感知能力，同时减弱网络对物体表面纹理信息的依赖。本发明中的局部模态融合模块是独立模块，可嵌入到姿态估计网络的任意位置，且可多次重复使用。

所述的全局模态融合模块包括三个多层感知机和平均池化操作，最终物体表面特征和最终物体几何特征分别经过各自的一个多层感知机MLP(256)后获得第一特征F1和第三特征F3，将最终物体表面特征和最终物体几何特征直接按通道拼接后获得特征F2，将第二特征F2依次经过另一多层感知机MLP (512,1024)和平均池化操作后获得全局特征F4，最后将特征F1、F2、F3和F4按通道拼接后获得全局模态融合特征。

全局模态融合模块应用于姿态估计网络后端，全局融合物体表面特征和物体几何特征。

本发明的有益效果是：

本发明方法能够同时利用物体的RGB信息和深度信息，在深度信息中融合RGB信息，增强了物体几何特征对物体局部空间信息的捕获能力，增强网络对遮挡、复杂物体形状等姿态估计环境的适应能力。

同时，两种模态信息的相互补充融合能有效提高网络对相似物体的姿态判别能力，并对噪声、低纹理等复杂环境具有较强的适应性，提高了网络的6D姿态估计精度。

附图说明

图1是本发明方法示意图；

图2是物体6D姿态估计网络示意图；

图3是局部模态融合模块示意图；

图4是全局模态融合模块示意图。

具体实施方式

下面结合附图和具体实施对本发明作进一步说明。

需要理解的是，本发明所描述的实施例是示例性的，实施例描述中所使用的具体参数仅是为了便于描述本发明，并不用于限定本发明。

如图1所示，本发明的具体实施例及其实施情况过程如下：

1）构建局部模态融合模块。

构建的局部模态融合模块的结构如图3所示。该模块以卷积操作模块提取的物体表面特征F_rgb和由多层感知机提取的物体几何特征F_p为输入，最后输出局部模态融合特征F_m。

首先在物体表面特征F_rgb中心周围截取二分之一的表面特征区域；裁剪后的表面特征区域经过注意力池化操作获得n×64的注意力池化特征；接着将该注意力池化特征与物体几何特征F_p按特征通道拼接，获得n×128的拼接特征；该拼接特征经过多层感知机(MLP)网络后获得局部模态融合特征F_m。其中MLP为多层感知机，跟在其后的括号中的数字表示当前层的节点数量，n表示物体点云中点的个数。

本实施例构建如图3所示的局部模态融合模块，其中，点云中点的个数n设置为12288。特征裁剪操作按物体表面特征F_rgb中心周围二分之一的表面特征区域裁剪。

且图3中局部模态融合模块为图2中物体6D姿态估计网络的第一个局部模态融合模块。其余三个局部模态融合模块构造相同。

2）构建全局模态融合模块。

如图4所示，最终物体表面特征和最终物体几何特征分别经过多层感知机MLP(256)后获得n×256的特征F1和F3。同时，最终物体表面特征和最终物体几何特征按通道拼接后获得n×256的特征F2。特征F2经过MLP和平均池化操作后获得全局特征F4。特征F1、F2、F3和F4按通道拼接后获得n×1792的全局模态融合特征。

构建如图4所示的全局模态融合模块。用于构建全局模态融合模块的物体表面特征维度为12288×128，物体几何特征维度为12288×128。全局模态融合特征维度为12288×1792。

3）构建物体6D姿态估计网络。

根据局部模态融合模块和全局模态融合模块构建物体6D姿态估计网络，如图2所示。图中，Conv1、Conv2、Conv3、Conv4、Conv5表示不同阶段的卷积操作，R和T分别表示预测的物体旋转变换和平移变换，k表示用于求解物体姿态变换的关键点个数，C表示物体类别数。

物体6D姿态估计网络以物体RGB图像和物体点云为输入，物体RGB图像经过连续多个卷积操作模块的卷积操作Conv1、Conv2、Conv3、Conv4、Conv5从RGB图像中提取物体表面特征，物体点云同时通过连续多个多层感知机从点云中提取物体几何特征。在卷积操作模块和多层感知机提取物体特征时，通过多个局部模态融合模块将物体表面特征融合到物体几何特征中。

连续多个多层感知机在图2中所示，其中MLP表示多层感知机，MLP之后的括号内的数字数量表示多层感知机MLP中的层数，每个数字表示当前层中的节点数量。

RGB图像经过卷积操作Conv5后，再经过上采样操作获得n×128的最终物体表面特征。点云经过最后一个多层感知机MLP(512,128)后获得n×128的最终物体几何特征。物体表面特征和物体几何特征经过全局模态融合模块获得n×1792的全局模态融合特征。

在获得全局模态融合特征的基础上，经过实例分割模块的多层感知机获得物体的语义分割信息，经关键点生成模块的多层感知机获得物体上的姿态关键点，经中心点生成模块的多层感知机获得物体的中心点。具体实施中，实例分割模块的多层感知机设置为四层，各层的节点数量分别为1024、512、128、C，其中C表示物体类别数量。关键点生成模块的多层感知机设置为四层，各层的节点数量分别为1024、512、256、3*k。中心点生成模块的多层感知机设置为四层，各层的节点数量分别为1024、512、128、3。

根据生成的物体中心点，识别不同的物体位置。根据物体上每个点的语义信息，聚类操作将具有相同语义信息的点聚类为同一个物体类别。若同一物体类别存在多个物体实例，则结合物体中心点判断每个实例的位置。属于同一个物体类别的关键点用来投票该物体类别的目标关键点。通过聚类和投票操作获得的目标关键点即为物体在相机坐标系下的目标关键点k×3。

同时，使用最远点采样算法获得物体坐标系下的采用关键点k×3。

两种坐标系下的关键点通过奇异值分解（SVD）获得物体的旋转变换R和平移变换T。

具体实施中，点云中点的个数n设置为12288。RGB图像高h为480，宽w为640。使用ResNet34残差网络提取物体表面特征。Conv1~Conv5对应的操作为卷积操作，包括卷积块和卷积块数量。以Conv2为例，Conv2对应的操作为(3×3,64 3×3,64) ×3，其中括号里面的表示卷积块，括号外面的数字表示卷积块堆叠数量为3。卷积块里面的3×3表示卷积核大小，64表示卷积核数量。Conv1对应的操作为(7×7, 64) ×1，Conv3对应的操作为(3×3,128 3×3,128) ×4，Conv4对应的操作为(3×3,256 3×3,256) ×6，Conv5对应的操作为(3×3,512 3×3,512) ×3。

4）训练构建的物体6D姿态估计网络。

采用LineMOD数据集训练构建的物体6D姿态估计网络。该数据集包含13个视频，拥有13个低纹理物体。初始学习率设置为0.001，训练批次大小为8，最大迭代次数为500个epoch。

5）训练后的姿态估计网络直接预测物体的旋转变换和平移变换参数。

与现有技术相比，本发明将RGB物体表面信息融合到物体点云特征中，提升了网络对物体局部空间信息的捕获能力，增强了网络对弱纹理物体和遮挡环境的适应性。从局部和全局两个角度融合多模态信息，能够充分利用两种模态之间的互补关系，有利于提升网络的姿态估计精度。在LineMOD数据集上，本发明获得了88.38%的姿态估计精度。与经典的PointFusion网络相比，姿态估计精度提升了14.7%。

由此实施可见，本发明方法构建了基于RGB物体表面特征和物体几何特征的局部模态融合模块和全局模态融合模块。本发明所提方法能够充分利用物体的表面特征信息和几何形状信息，增强姿态估计网络对物体局部空间信息的利用能力，对噪声、遮挡、弱纹理等复杂环境具有较强的适应能力。

以上所述，仅为本发明较佳的具体实施方案，但本发明的保护范围并不局限于上述实施方案，任何本技术领域的技术人员在本发明描述的技术范围内，根据本发明的技术方案及其发明构思所做的等同替换或改变，都应包含在本发明的保护范围之内。

Claims

1.一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：

步骤1：构建物体6D姿态估计网络；

所述的物体6D姿态估计网络包括连续多个卷积操作模块、连续多个多层感知机以及局部模态融合模块、全局模态融合模块、实例分割关键点处理模块；将输入的RGB图像依次经连续多个卷积操作模块处理后获得最终物体表面特征，连续多个多层感知机和连续多个卷积操作模块之间通过局部模态融合模块传递特征数据获得物体几何特征，将输入的点云经连续多个多层感知机处理后获得最终物体几何特征，将最终物体表面特征和最终物体几何特征经全局模态融合模块处理融合为全局模态融合特征，将全局模态融合特征经实例分割关键点处理模块后获得目标关键点；同时针对输入的点云经最远点采样处理获得采样关键点，最后将目标关键点和采样关键点经过奇异值分解SVD处理后获得旋转变换参数R和平移变换参数t；

2.根据权利要求1所述的一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：所述的物体的RGB图像和点云是采用外部的三维深度相机针对同一物体在同一时刻获得的RGB图像和点云。

3.根据权利要求1所述的一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：连续多个多层感知机和连续多个卷积操作模块之间通过局部模态融合模块传递特征数据获得物体几何特征，具体是在第i个卷积操作模块和第i个多层感知机之间连接设置一个局部模态融合模块，将第i个卷积操作模块输出的物体表面特征和第i个多层感知机输出的物体几何特征均输入到局部模态融合模块中，通过局部模态融合模块将物体表面特征融合到物体几何特征中，处理获得局部模态融合特征，再将局部模态融合特征输入到第i+1个多层感知机中。

4.根据权利要求1所述的一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：所述的实例分割关键点处理模块包括实例分割模块、关键点生成模块、中心点生成模块以及聚类操作、投票操作；将全局模态融合特征分别经实例分割模块、关键点生成模块、中心点生成模块处理获得语义分割信息、姿态关键点、物体中心点，根据不同物体类别的物体中心点作为不同物体的位置，针对物体的语义分割信息通过聚类操作将具有相同语义信息的姿态关键点聚类为同一个物体类别，属于同一个物体类别的姿态关键点通过投票方法提取该物体类别的物体中心点和目标关键点。

5.根据权利要求4所述的一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：所述的实例分割模块、关键点生成模块、中心点生成模块均采用多层感知机。

6.根据权利要求1所述的一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：所述的局部模态融合模块包括特征剪裁操作和注意力池化操作；物体表面特征F_rgb经特征剪裁操作获得表面特征区域，表面特征区域再经过注意力池化操作后和物体几何特征F_p按特征通道拼接获得拼接特征，最后将拼接特征经过多层感知机MLP网络后获得局部模态融合特征F_m。

7.根据权利要求1所述的一种基于多模态稠密融合网络的物体6D姿态估计方法，其特征在于：所述的全局模态融合模块包括三个多层感知机和平均池化操作，最终物体表面特征和最终物体几何特征分别经过各自的一个多层感知机后获得第一特征F1和第三特征F3，将最终物体表面特征和最终物体几何特征直接按通道拼接后获得特征F2，将第二特征F2依次经过另一多层感知机和平均池化操作后获得全局特征F4，最后将特征F1、F2、F3和F4按通道拼接后获得全局模态融合特征。