CN113223181A

CN113223181A - 一种弱纹理物体位姿估计方法

Info

Publication number: CN113223181A
Application number: CN202110615380.XA
Authority: CN
Inventors: 王涛; 黄榕彬; 李耀; 程良伦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-06
Anticipated expiration: 2041-06-02
Also published as: CN113223181B

Abstract

本申请公开了一种弱纹理物体位姿估计方法，包括：通过彩色图像获取物体的彩色嵌入特征图；通过深度图像获取物体的几何嵌入特征图；利用自注意力机制模块从彩色嵌入特征图和几何嵌入特征图中提取位置依赖特征图；并利用通道注意力机制模块获取彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图的权重向量；将三个特征图的权重向量分别与对应的特征图相乘；再将三个特征图逐像素融合，然后逐像素预测位姿和置信度，选择置信度最高的预测结果作为最终预测结果。本申请通过获取像素间的位置关系，丰富每个像素特征的信息，并自适应调整不同特征的权重，提高每个像素的识别精度。

Description

一种弱纹理物体位姿估计方法

技术领域

本申请涉及位姿估计技术领域，尤其涉及一种弱纹理物体位姿估计方法。

背景技术

目标物体的6D位姿估计，就是指恢复相机坐标系下目标物体的6D位姿，即目标物体的3D位置和3D姿态。物体的6D位姿估计目前主要针对由于复杂场景中的遮挡情况、目标对象的弱纹理、弱对比度、对称性导致的估计精度不足的问题。目前主要有基于RGB的方法和基于RGBD的方法。基于RGBD的物体6D位姿估计的一个关键问题是如何更好的利用RGB和深度信息的互补性质，进一步提高识别精度。

现有方法中，PointFusion对RGB信息和深度信息是进行全局融合，忽略了局部特征；DenseFusion对RGB信息和深度信息是进行逐像素融合，主要关注物体的局部特征，但仅通过多层感知机获取像素的全局信息，而忽略了像素之间的位置关系。

PointFusion采用直接融合RGB特征和深度特征，获得全局特征图，进而基于全局特征回归得到物体的位姿。由于是基于全局特征回归得到位姿，当物体存在遮挡时，被遮挡部分将直接影响识别精度。DenseFusion采用逐像素密集融合的方法，通过每个融合的像素特征分别回归得到位姿，再通过投票得到置信度最高的位姿。然而DenseFusion主要关注的是局部特征，和通过多层感知机获取的全局特征，但没有利用到像素之间的位置关系。

发明内容

本申请实施例提供了一种弱纹理物体位姿估计方法，通过逐像素融合物体像素之间的位置关系，进一步丰富每个像素特征的信息，同时考虑每个像素中不同特征对于识别任务的贡献，进而提高每个像素的识别精度。

有鉴于此，本申请第一方面提供了一种物体姿态估计的方法，所述方法包括：

对彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸；

根据所述掩摸获取物体对应的图像块和深度信息，并通过相机的内参数矩阵，将所述深度信息转换为点云数据；

提取所述图像块的特征信息，得到物体的彩色嵌入特征图；

提取所述点云数据的特征信息，得到物体的几何嵌入特征图；

将所述彩色嵌入特征图与所述几何嵌入特征图进行通道叠加，得到第一叠加特征图；

将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图，所述自注意力机制模块用于获取像素间的位置关系；

将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加，得到第二叠加特征图；

将所述第二叠加特征图输入通道注意力机制模块，得到三个特征图的权重向量，所述通道注意力机制模块用于获取通道的全局特征，并学习通道之间的非线性关系；

将三个特征图的权重向量分别与对应的所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图相乘；

将与权重相乘后的所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图进行逐像素融合，得到融合特征图；

将所述融合特征图输入位姿预测器中，得到每个像素预测的位姿和置信度，选择所述置信度最高的像素预测结果作为最终预测的结果。

可选的，所述将彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸，包括：

采用Mask RCNN对深度图像进行实例分割，获取深度图像中每个物体的类别和掩摸。

可选的，所述将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图，包括：

将所述第一叠加特征图[C，H，W]分别通过3个1x1的卷积层θ，φ，g，得到特征图F_θ，F_φ，F_g，大小均为[C/2，H，W]；

将特征图F_θ，F_φ，F_g分别重构成大小为[HW，C/2]，[C/2，HW]，[HW，C/2]的特征图；

将重构后的特征图F_θ和F_φ进行矩阵相乘，再进行Softmax操作，得到大小为[HW，HW]的特征图；

将特征图[HW，HW]与重构后的特征图F_g进行矩阵相乘，并将矩阵相乘后的结果重构成大小为[C/2，H，W]的特征图；

将重构后的大小为[C/2，H，W]的特征图通过1x1的卷积层得到大小为[C，H，W]的特征图；

将大小为[C，H，W]的特征图与所述第一叠加特征图进行逐像素相加得到所述位置依赖特征图，大小为[C,H,W]。

可选的，所述自注意力机制模块用于获取像素间的位置关系，具体公式为：

式中，x为输入，y为输出；i，j为像素的位置索引；C(x)为归一化因子；函数f用于计算位置i和j之间的相似性，从而获取像素之间的依赖关系。

可选的，在所述将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加，得到第二叠加特征图，之前还包括：

将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图调整为通道数相同的特征图，通道数取三个特征图通道数的中位数。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种弱纹理物体位姿估计方法，包括：对彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸；根据掩摸获取物体对应的图像块和深度信息，并通过相机的内参数矩阵，将深度信息转换为点云数据；提取图像块的特征信息，得到物体的彩色嵌入特征图；提取点云数据的特征信息，得到物体的几何嵌入特征图；将彩色嵌入特征图与几何嵌入特征图进行通道叠加，得到第一叠加特征图；将第一叠加特征图输入自注意力机制模块得到位置依赖特征图，自注意力机制模块用于获取像素间的位置关系；将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加，得到第二叠加特征图；将第二叠加特征图输入通道注意力机制模块，得到三个特征图的权重向量，通道注意力机制模块用于获取通道的全局特征，并学习通道之间的非线性关系；将三个特征图的权重向量分别与对应的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图相乘；将与权重相乘后的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图进行逐像素融合，得到融合特征图；将融合特征图输入位姿预测器中，得到每个像素预测的位姿和置信度，选择置信度最高的像素预测结果作为最终预测的结果。

本申请提出了一种弱纹理物体位姿估计方法，通过自注意力机制获取像素间的位置关系，得到位置依赖特征图，以丰富每个像素的特征信息；通过通道注意力机制获取不同通道的权重，以衡量不同特征图的贡献。将三个特征图以不同的权重进行逐像素融合，进而利用每个像素预测目标对象的位姿，以提高位姿估计的精度。

附图说明

图1为本申请一种弱纹理物体位姿估计方法的一个实施例的方法流程图；

图2为本申请一种弱纹理物体位姿估计方法的另一个实施例的方法流程图；

图3为本申请实施例中自注意力机制模块的示意图；

图4为本申请实施例中将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加的示意图；

图5为本申请实施例中通道注意力机制模块的示意图；

图6为本申请实施例中位姿预测器的网络结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一种弱纹理物体位姿估计方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、对彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸；

需要说明的是，本申请可以采用Mask RCNN对彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸。实例分割是指机器自动从图像中用目标检测方法框出不同实例，再用语义分割方法在不同实例区域内进行逐像素标记，从而可以获取彩色图像中的各物体的类别以及掩摸。

102、根据掩摸获取物体对应的图像块和深度信息，并通过相机的内参，将深度信息转换为点云数据；

需要说明的是，根据掩摸可以从彩色图像中获取物体掩摸部分的图像块，从深度图像中可以获取物体的深度信息，结合深度相机的内参数矩阵，可以将深度信息转换成点云图。

103、提取图像块的特征信息，得到物体的彩色嵌入特征图；

需要说明的是，可以将图像块输入到编码器-解码器结构(Encoder-Decoder)的PPM模块(Pyramid Pooling Module)中，通过PPM模块将彩色图像映射到嵌入空间，即将高维的图像数据映射到低维空间中，以方便处理和计算，得到彩色嵌入特征图。

104、提取点云数据的特征信息，得到物体的几何嵌入特征图；

需要说明的是，可以将点云数据输入至PointNet中，利用PointNet的网络结构将点云数据映射到低维的嵌入空间中，以方便处理和计算，以获取物体的几何嵌入特征图。

105、将彩色嵌入特征图与几何嵌入特征图进行通道叠加，得到第一叠加特征图；

需要说明的是，可以将彩色嵌入特征图与所述几何嵌入特征图进行通道叠加，得到第一叠加特征图；例如，当得到的彩色嵌入特征图的大小为[C1，H，W]，几何嵌入特征图的大小为[C2，H，W]，则通道叠加后得到的第一叠加特征图的大小为：[C1+C2，H，W]。

106、将第一叠加特征图输入自注意力机制模块得到位置依赖特征图，自注意力机制模块用于获取像素间的位置关系；

需要说明的是，自注意力机制模块是将输入的特征图假设为[C，H，W]，分别通过三个1x1的卷积层θ，φ，g，得到三个大小均为[C/2，H，W]特征图F_θ，F_φ，F_g；然后分别重构成大小为[HW，C/2]、[C/2，HW]、[HW，C/2]的特征图，将重构后的特征图F_θ，F_φ进行矩阵相乘，然后进行Softmax操作，得到大小为[HW，HW]的特征图；再将大小为[HW，HW]的特征图与重构后的特征图F_g进行矩阵相乘，并将结果重构成[C/2，H，W]，然后通过1x1的卷积层得到大小为[C，H，W]的特征图；最后将得到的大小为[C，H，W]特征图与原始输入的第一叠加特征图进行逐像素相加，得到位置依赖特征图，大小为[C，H，W]，具体的，自注意力机制模块的示意图可以参考如图3所示。

上述自注意力机制模块的处理过程是计算每个像素与其他像素的相似性，建立每个像素与其他像素的依赖关系，即：

其中，x为输入，y为输出；i，j为像素的位置索引，函数f用于计算位置i和j之间的相似性，从而获取像素之间的依赖关系，C为归一化因子，定义为：

相似性函数f在此采用嵌入空间下的高斯函数，定义如下：

其中，θ(x_i)＝W_θx_i,φ(x_j)＝W_φx_j，具体可以实现为1x1卷积。

根据：

即相当于在j维度求Softmax。

因此，可以通过将求解过程转换成矩阵相乘再求Softmax的方式来捕获位置依赖特征图，具体如图3所示。

107、将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加，得到第二叠加特征图；

需要说明的是，可以将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加，得到第二叠加特征图。具体的可以参考图4，例如，当彩色嵌入特征图为[C1，H，W]，几何嵌入特征图为[C2，H，W]，位置依赖特征图为[C3，H，W]时，首先将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图分别通过1x1卷积得到三个大小均为[C，H，W]的特征图F’_rgb，F’_geo，F’_atten，然后将卷积得到的三个特征图按通道叠加，获得通道数为3C的特征图，即特征图的大小为[3C，H，W]。

108、将第二叠加特征图输入通道注意力机制模块，得到三个特征图的权重向量，通道注意力机制模块用于获取通道的全局特征，并学习通道之间的非线性关系；

需要说明的是，可以将第二叠加特征图输入通道注意力机制模块，通过挤压操作获取通道的全局特征，再对全局特征进行提取操作，学习通道之间的非线性关系，进而获取第二叠加特征图所有通道的权重，假设步骤107得到的第二叠加特征图的大小为[3C,H,W]，那么通过通道注意力机制模块获取的权重数量是3C，每个通道对应一个权重。然后根据步骤107中三个特征图叠加的顺序，将权重分为三个权重向量w_rgb，w_geo，w_atten，分别对应三个特征图的权重。其中，通道注意力机制模块用于获取通道的全局特征，并学习通道之间的非线性关系，在此利用通道注意力机制获取不同特征图的权重，以衡量三种特征图对于位姿估计任务的贡献。由于不同特征图对于网络的识别有不同的贡献，因此，可以通过通道注意力机制模块有选择性的强调三个特征图中有用的特征，抑制无用的特征，以提高网络的精度，具体的通道注意力机制模块处理过程的示意图可以参考图5，图中将输入的特征图通过平均池化进行压缩操作，以获取全局上下文信息，进而通过全连接层捕获通道之间的非线性关系，从而获取通道的权重。

109、将三个通道的权重向量分别与对应的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图相乘；

需要说明的是，可以将求得的三个权重向量w_rgb，w_geo，w_atten分别与步骤107中经过卷积处理得到的彩色嵌入特征图F’_rgb、几何嵌入特征图F’_geo和位置依赖特征图F’_atten相乘，即w_rgbF’_rgb，w_geoF’_geo，w_attenF’_atten。

110、将与权重相乘后的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图进行逐像素融合，得到融合特征图；

需要说明的是，可以将与权重相乘后的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图进行逐像素融合，得到融合特征图，具体的融合方法是按通道进行叠加。例如，假设经过步骤107中的卷积处理得到的彩色嵌入特征图F’_rgb、几何嵌入特征图F’_geo和位置依赖特征图F’_atten的大小均为[C，H，W]，则融合特征图的大小为：[3C，H，W]。

111、将融合特征图输入位姿预测器中，得到每个像素预测的位姿和置信度，选择置信度最高的像素预测结果作为最终预测的结果。

需要说明的是，将融合特征图输入位姿预测器中，通过位姿预测器可以得到融合特征图中每个像素预测的位姿和置信度，可以选择置信度最高的像素预测结果作为最终预测的结果。具体的，位姿预测器可以是四层的卷积神经网络，其结构示意图可参考图6。

本申请提出了一种弱纹理物体的位姿估计方法，通过自注意力机制获取像素间的位置关系，得到位置依赖特征图，以丰富每个像素的特征信息；通过通道注意力机制获取不同特征图的权重向量，以衡量不同特征图的贡献。将三个特征图以不同的权重进行逐像素融合，进而利用每个像素预测目标对象的位姿，以提高位姿估计的精度。

本申请还提供了一种弱纹理物体位姿估计方法的另一个实施例的方法流程图，如图2所示，图2中在实施例1中的步骤107之前还包括：

207、将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图调整为通道数相同的特征图，通道数取三个特征图通道数的中位数。

需要说明的是，本申请中为了方便计算，可以将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图调整为通道数相同的特征图，然后将三个特征图按通道进行叠加，例如，若得到的三个彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图，大小均为[C，H，W]，叠加后的特征图大小为[3C，H，W]。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种弱纹理物体位姿估计方法，其特征在于，包括：

提取所述图像块的特征信息，得到物体的彩色嵌入特征图；

2.根据权利要求1所述的弱纹理物体位姿估计方法，其特征在于，所述对彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸，包括：

采用Mask RCNN对彩色图像进行实例分割，获取彩色图像中每个物体的类别和掩摸。

3.根据权利要求1所述的弱纹理物体位姿估计方法，其特征在于，所述将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图，包括：

4.根据权利要求1所述的弱纹理物体位姿估计方法，其特征在于，所述自注意力机制模块用于获取像素间的位置关系，具体公式为：

5.根据权利要求1所述的弱纹理物体位姿估计方法，其特征在于，在所述将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加，得到第二叠加特征图，之前还包括：