CN114170312A

CN114170312A - 一种基于特征融合的目标物体位姿估计方法及装置

Info

Publication number: CN114170312A
Application number: CN202111485996.6A
Authority: CN
Inventors: 陈皓; 赖嘉骏; 张晓晔; 郑培文; 陈禹明; 吴勇; 黎佩馨
Original assignee: China Southern Power Grid Power Technology Co Ltd
Current assignee: China Southern Power Grid Power Technology Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-11

Abstract

本申请公开了一种基于特征融合的目标物体位姿估计方法及装置，方法包括：采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图，预设目标掩模根据RGB图像提取得到；根据目标点云图和目标特征图进行特征叠加融合，得到全局特征图；根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量；基于平移预测量和旋转预测量对目标物体进行位姿估计，得到位姿估计结果。本申请能解决现有位姿估计方法针对弱纹理物体的估计效果欠佳，导致结果偏差较大的技术问题。

Description

一种基于特征融合的目标物体位姿估计方法及装置

技术领域

本申请涉及机器人视觉技术领域，尤其涉及一种基于特征融合的目标物体位姿估计方法及装置。

背景技术

六自由度位姿估计是许多实际应用中的一个重要组成部分，例如机器人抓取，在生产车间或者物品分拣领域，针对弱纹理塑料瓶的抓取需要机器人对其进行精确的6D位姿估计。物体的6D位姿估计是机器视觉技术中的一大关键问题，六自由度位姿是指物体坐标系与相机坐标系之间的坐标变换，即物体的3D旋转变换和3D平移变换。在六自由度位姿估计任务中，最基本的需求就是确定所检测物体相对于其参考坐标系下的具体位置，这也是视觉感知的主要挑战之一。

虽然随着深度学习算法的发展，越来越多的位姿估计方法可以利用神经网络的强大的学习能力来提升位姿估计的精度。然而，通常的六自由度位姿估计算法对于弱纹理物体的位姿估计效果并不理想，估计结果偏差较大。

发明内容

本申请提供了一种基于特征融合的目标物体位姿估计方法及装置，用于解决现有位姿估计方法针对弱纹理物体的估计效果欠佳，导致结果偏差较大的技术问题。

有鉴于此，本申请第一方面提供了方法，包括：

采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图；

根据所述目标点云图和所述目标特征图进行特征叠加融合，得到全局特征图；

根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量；

基于所述平移预测量和所述旋转预测量对所述目标物体进行位姿估计，得到位姿估计结果。

优选地，所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图，之前还包括：

将RGB图像输入至预设MaskRCNN中进行掩模提取操作，得到预设目标掩模。

优选地，所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图，包括：

采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像；

对所述初始点云图像进行栅格采样处理，得到目标点云图；

采用预设目标掩模根据RGB图像进行图像裁剪处理，得到目标块图像；

将所述目标块图像输入预设CNN模型中进行特征提取操作，得到目标特征图，所述预设CNN模型中包括金字塔池化模块。

优选地，所述根据所述目标点云图和所述目标特征图进行特征叠加融合，得到全局特征图，包括：

对所述目标点云图和所述目标特征图依次执行卷积、求和和特征叠加操作，得到第一特征图和第二特征图；

将所述第一特征图和所述第二特征图进行特征维度方向的拼接，得到全局特征图。

优选地，所述根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量，包括：

将所述全局特征图输入预设平移偏移量预测分支中进行平移偏移预测，得到平移偏移预测值；

求取预设平移基准值与所述平移偏移预测值之和，得到平移预测量；

将所述全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测，得到旋转偏移预测值；

计算预设旋转基准值与所述旋转偏移预测值的乘积，得到旋转预测量。

本申请第二方面提供了一种基于特征融合的目标物体位姿估计装置，包括：

图像获取模块，用于采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图；

特征融合模块，用于根据所述目标点云图和所述目标特征图进行特征叠加融合，得到全局特征图；

位置预测模块，用于根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量；

位姿估计模块，用于基于所述平移预测量和所述旋转预测量对所述目标物体进行位姿估计，得到位姿估计结果。

优选地，还包括：

掩模提取模块，用于将RGB图像输入至预设MaskRCNN中进行掩模提取操作，得到预设目标掩模。

优选地，所述图像获取模块，包括：

点云获取子模块，用于采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像；

点云采样子模块，用于对所述初始点云图像进行栅格采样处理，得到目标点云图；

图像裁剪子模块，用于采用预设目标掩模根据RGB图像进行图像裁剪处理，得到目标块图像；

特征提取子模块，用于将所述目标块图像输入预设CNN模型中进行特征提取操作，得到目标特征图，所述预设CNN模型中包括金字塔池化模块。

优选地，所述特征融合模块，包括：

特征处理子模块，用于对所述目标点云图和所述目标特征图依次执行卷积、求和和特征叠加操作，得到第一特征图和第二特征图；

特征拼接子模块，用于将所述第一特征图和所述第二特征图进行特征维度方向的拼接，得到全局特征图。

优选地，所述位置预测模块，包括：

平移偏移预测子模块，用于将所述全局特征图输入预设平移偏移量预测分支中进行平移偏移预测，得到平移偏移预测值；

平移量预测子模块，用于求取预设平移基准值与所述平移偏移预测值之和，得到平移预测量；

旋转偏移预测子模块，用于将所述全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测，得到旋转偏移预测值；

旋转量预测子模块，用于计算预设旋转基准值与所述旋转偏移预测值的乘积，得到旋转预测量。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种基于特征融合的目标物体位姿估计方法，包括：采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图；根据目标点云图和目标特征图进行特征叠加融合，得到全局特征图；根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量；基于平移预测量和旋转预测量对目标物体进行位姿估计，得到位姿估计结果。

本申请提供的基于特征融合的目标物体位姿估计方法，基于特征融合的方式从不同角度获取目标物体的特征信息，从信息源确保估计结果的可靠性；另外在进行平移预测和旋转预测的过程中，加入基准值对预测量进行调整，确保预测量的准确性，在对弱纹理目标物体进行估计时能有效提升估计结果的精确度。因此，本申请能够解决现有位姿估计方法针对弱纹理物体的估计效果欠佳，导致结果偏差较大的技术问题。

附图说明

图1为本申请实施例提供的一种基于特征融合的目标物体位姿估计方法的流程示意图一；

图2为本申请实施例提供的一种基于特征融合的目标物体位姿估计方法的流程示意图二；

图3为本申请实施例提供的一种基于特征融合的目标物体位姿估计装置的结构示意图；

图4为本申请实施例提供的目标点云图和目标特征图的获取过程示意图；

图5为本申请实施例提供的平移偏移量预测网络处理过程示意图；

图6为本申请实施例提供的旋转偏移量预测网络处理过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种基于特征融合的目标物体位姿估计方法的实施例一，包括：

步骤101、采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图。

目标物体的深度图像和RGB图像均可以提前获取得到；而预设目标掩模则是根据RGB图像提取得到的，主要包括目标物体的轮廓框。采用预设目标掩模可以在深度图像中框出目标点云图，在RGB图像中框出目标区域图后在进行特定的图像特征提取，就可以得到目标特征图，具体的特征提取方式可以根据需要选择，在此不作限制。

步骤102、根据目标点云图和目标特征图进行特征叠加融合，得到全局特征图。

目标点云图与目标特征图之间可能存在尺寸偏差，因此，在特征融合之前还需要对两种图像进行基本的处理，使得两种图的尺寸表达一致，而且还可以根据需要设定叠加流程，将点云图和特征图处理后叠加，还是将处理后的图与点云图或者特征图叠加都可以，只要能够增加全局特征图的特征表达能力均可，在此不作具体限定。全局特征图能够描述目标物体的多种属性，能够加强弱纹理目标物体的特征表达能力。

步骤103、根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量。

本实施例将基准值与预测操作结合的方式提升预测准确度，保证估计效果的可靠性。预设平移基准值和预设旋转基准值都可以根据实际情况设定，本实施例中将目标点云图中的三维坐标信息取得的平均值作为预设平移基准值，将预先选取的旋转候选空间中不确定度最小位置的旋转量作为预设旋转基准值。

步骤104、基于平移预测量和旋转预测量对目标物体进行位姿估计，得到位姿估计结果。

平移预测量和旋转预测量可以组成堆叠场景中单个目标物体的6D位姿预测结果，即Pose＝[R|T]，其中，R为旋转预测量，T为平移预测量。

本申请实施例提供的基于特征融合的目标物体位姿估计方法，基于特征融合的方式从不同角度获取目标物体的特征信息，从信息源确保估计结果的可靠性；另外在进行平移预测和旋转预测的过程中，加入基准值对预测量进行调整，确保预测量的准确性，在对弱纹理目标物体进行估计时能有效提升估计结果的精确度。因此，本申请实施例能够解决现有位姿估计方法针对弱纹理物体的估计效果欠佳，导致结果偏差较大的技术问题。

为了便于理解，请参阅图2，本申请提供了一种基于特征融合的目标物体位姿估计方法的实施例二，包括：

步骤201、将RGB图像输入至预设MaskRCNN中进行掩模提取操作，得到预设目标掩模。

MaskRCNN是用于进行实例分割的神经网络模型，可以用于目标检测和目标分割，本实施例中通过配置符合要求的MaskRCNN，用于对RGB图像进行掩模提取，获取逐像素的预设目标掩模。

步骤202、采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像。

步骤203、对初始点云图像进行栅格采样处理，得到目标点云图。

请参阅图4，预置相机参数即为获取深度图像的相机对应的参数信息，得到初始点云图像后，进行栅格采样处理，保留N个点，记作P，尺寸为[6,N]；其中，点云的三维坐标和法向量信息构成点云的6维特征；即目标点云图。

步骤204、采用预设目标掩模根据RGB图像进行图像裁剪处理，得到目标块图像。

步骤205、将目标块图像输入预设CNN模型中进行特征提取操作，得到目标特征图，预设CNN模型中包括金字塔池化模块。

请参阅图4，掩模用于RGB图像的目的即为裁剪图像信息，保留目标物体所在区域信息，即目标块图像，然后通过预设CNN模型提取图像块特征，由于图像块特征大小可能不一致，因此需要通过金字塔池化模块对特征进行尺寸统一处理，得到[C,H,W]统一大小的目标特征图，其中，C为特征图的通道数，H为特征图的高度，W为特征图的宽度，且为了便于后续的特征融合，在本实施例中设定C＝N，目标特征图记作F_p-rgb。

步骤206、对目标点云图和目标特征图依次执行卷积、求和和特征叠加操作，得到第一特征图和第二特征图。

步骤207、将第一特征图和第二特征图进行特征维度方向的拼接，得到全局特征图。

特征图融合过程可以根据实际情况设定，本实施例给出一种叠加融合过程的示例：对目标特征图F_p-rgb进行形状变换，从尺寸[C,H,W]变换为[H×W,C]，随后将变换尺寸后的特征图输入连续四个一维卷积进一步提取特征，四个一维卷积的输出通道数分别为[64,256,256,512]，前两个卷积操作中得到的特征图分别记为F_rgb-1、F_rgb-2；然后，对目标点云图P进行一次一维卷积操作得到点云特征图F_pc-1，再将F_pc-1通过特征变换矩阵A进行变换得到F_t，并再次通过一维卷积操作得到点云特征图F_pc-2；接着，将F_rgb-2和F_pc-2进行求和操作进行第一次融合得到耦合特征F_mix；再对F_rgb-2和F_pc-2分别进行一维卷积，得到的结果和耦合特征F_mix叠加，再次进行交叉融合并统一处理激活，分别得到特征图F_rgb-3和点云特征图F_pc-3；并再次进行一维卷积得到特征图F_rgb-4和点云特征图F_pc-4；最后，对F_rgb-4和F_pc-4进行特征维度方向的拼接操作，经过一个一维卷积得到最终的全局特征图。可以理解的是，激活函数可以选取LeakyReLU激活函数，从而保证提取的特征的非线性。

步骤208、将全局特征图输入预设平移偏移量预测分支中进行平移偏移预测，得到平移偏移预测值。

步骤209、求取预设平移基准值与平移偏移预测值之和，得到平移预测量。

请参阅图5，输入预设平移偏移量分支的除了全局特征图，还可以包括点云特征图变换的中间量F_t；用于提升预测准确度。输入图像经过三个输出维度为[512,256,128]的一维卷积，然后通过全局平均池化压缩特征信息，最后经过一个四层全连接神经网络得到最终网络输出的平移偏移量预测结果Δt＝[Δx,Δy,Δz]。预设平移基准值是目标点云图中三维坐标信息的平均值，即

那么平移预测量可以表达为：

步骤210、将全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测，得到旋转偏移预测值。

步骤211、计算预设旋转基准值与旋转偏移预测值的乘积，得到旋转预测量。

请参阅图6，全局特征图输入预设旋转偏移量预测分支中可以得到旋转偏移量预测值，具体的为：对全局特征图进行一个通道注意力机制模块和全局加权平均池化压缩特征信息，然后网络再一次分支，上分支使用四个输出维度为[512,256,128,N_R×4]的一维卷积输出每个基准值对应的旋转偏移量四元数表示形式ΔR；下分支使用四个输出维度为[512,256,128,N_R]的一维卷积输出每个偏移量对应的不确定度σ∈[0,1]。

本实施例从SO(3)空间中均匀采样选取N_R个基准旋转量候选值，记作

且选取N_R＝12，它们的旋转矩阵分别为：

采用最小不确定度选取最小位置的旋转量作为预设旋转基准值

那么旋转预测量可以表达为：

步骤212、基于平移预测量和旋转预测量对目标物体进行位姿估计，得到位姿估计结果。

将平移预测量与旋转预测量进行组合，即可得到堆叠场景中目标物体的6D位姿估计结果Pose＝[R|T]。

为了便于理解，请参阅图3，本申请还提供了一种基于特征融合的目标物体位姿估计装置的实施例，包括：

图像获取模块301，用于采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图；

特征融合模块302，用于根据目标点云图和目标特征图进行特征叠加融合，得到全局特征图；

位置预测模块303，用于根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量；

位姿估计模块304，用于基于平移预测量和旋转预测量对目标物体进行位姿估计，得到位姿估计结果。

进一步地，还包括：

掩模提取模块305，用于将RGB图像输入至预设MaskRCNN中进行掩模提取操作，得到预设目标掩模。

进一步地，图像获取模块301，包括：

点云获取子模块3011，用于采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像；

点云采样子模块3012，用于对初始点云图像进行栅格采样处理，得到目标点云图；

图像裁剪子模块3013，用于采用预设目标掩模根据RGB图像进行图像裁剪处理，得到目标块图像；

特征提取子模块3014，用于将目标块图像输入预设CNN模型中进行特征提取操作，得到目标特征图，预设CNN模型中包括金字塔池化模块。

进一步地，特征融合模块302，包括：

特征处理子模块3021，用于对目标点云图和目标特征图依次执行卷积、求和和特征叠加操作，得到第一特征图和第二特征图；

特征拼接子模块3022，用于将第一特征图和第二特征图进行特征维度方向的拼接，得到全局特征图。

进一步地，位置预测模块303，包括：

平移偏移预测子模块3031，用于将全局特征图输入预设平移偏移量预测分支中进行平移偏移预测，得到平移偏移预测值；

平移量预测子模块3032，用于求取预设平移基准值与平移偏移预测值之和，得到平移预测量；

旋转偏移预测子模块3033，用于将全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测，得到旋转偏移预测值；

旋转量预测子模块3034，用于计算预设旋转基准值与旋转偏移预测值的乘积，得到旋转预测量。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于特征融合的目标物体位姿估计方法，其特征在于，包括：

2.根据权利要求1所述的基于特征融合的目标物体位姿估计方法，其特征在于，所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图，之前还包括：

3.根据权利要求1所述的基于特征融合的目标物体位姿估计方法，其特征在于，所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图，包括：

对所述初始点云图像进行栅格采样处理，得到目标点云图；

4.根据权利要求1所述的基于特征融合的目标物体位姿估计方法，其特征在于，所述根据所述目标点云图和所述目标特征图进行特征叠加融合，得到全局特征图，包括：

5.根据权利要求1所述的基于特征融合的目标物体位姿估计方法，其特征在于，所述根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作，得到平移预测量和旋转预测量，包括：

6.一种基于特征融合的目标物体位姿估计装置，其特征在于，包括：

7.根据权利要求6所述的基于特征融合的目标物体位姿估计装置，其特征在于，还包括：

8.根据权利要求6所述的基于特征融合的目标物体位姿估计装置，其特征在于，所述图像获取模块，包括：

9.根据权利要求6所述的基于特征融合的目标物体位姿估计装置，其特征在于，所述特征融合模块，包括：

10.根据权利要求6所述的基于特征融合的目标物体位姿估计装置，其特征在于，所述位置预测模块，包括：