CN117689990B

CN117689990B - 一种基于6d姿态估计的三支流双向融合网络方法

Info

Publication number: CN117689990B
Application number: CN202410148631.1A
Authority: CN
Inventors: 严杰; 缪君; 吴皓杰; 王佳勋
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-05-31
Anticipated expiration: 2044-02-02
Also published as: CN117689990A

Abstract

本发明公开了一种基于6D姿态估计的三支流双向融合网络方法，属于图像处理领域，包括：对RGB图像进行语义分割，从RGB图像进行输入，裁剪需要预测的目标对象，获取目标对象的彩色图像和深度图像，并将深度图像转换为点云；对S1中的彩色图像和深度图像进行特征提取和融合，构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合；将S2中提取的特征输入到姿态估计网络，估计每个中心点的特征的3D平移姿态和3D旋转姿态，并输出最高置信度的姿态。本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法，不仅可以保留原始RGB和深度分支的特征信息，还可以充分利用融合分支的特征，尽可能减小RGB和深度图像之间的特征差异。

Description

一种基于6D姿态估计的三支流双向融合网络方法

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于6D姿态估计的三支流双向融合网络方法。

背景技术

物体的姿态估计是许多计算机视觉应用的核心任务，如机器人自动化操作、增强现实和自动驾驶。它已经成为许多研究机构的热门研究课题。物体姿态估计的主要目的是计算目标物体在相机坐标系中的旋转矩阵和平移矢量。早期的方法仅使用RGB图像进行物体姿态估计。这限制了这些方法在具有遮挡、照明差、背景对比度低和无纹理对象的场景中的性能。最近，廉价RGBD相机的出现促使一些研究人员使用RGBD图像来准确估计无纹理物体的姿态。然而，这些方法不仅参数多、实时性低，而且没有充分利用深度信息，导致这些方法在遮挡和照明差条件下的性能较差。因此，充分利用颜色和深度信息进行姿态估计是当前研究工作的核心问题。

传统的姿态估计方法通常分为两类：基于对应关系的方法和基于模板的方法；基于对应关系的方法首先从RGB图像中提取2D关键点，然后建立2D-3D关键点之间的对应关系，最后通过PnP算法估计物体姿态。然而，对于缺乏纹理的对象，不能准确地提取2D关键点。因此，这些方法在缺乏纹理的物体上表现不佳。基于模板的方法比较真实图像和模板图像的梯度信息，可以找到与真实图像最相似的模板图像，将与模板图像相对应的6D姿势作为当前目标对象的6D姿态。这类方法主要针对缺乏纹理的物体的姿态估计，弥补了基于对应关系的方法的不足。然而，在遮挡的情况下，这些方法会显著降低模板匹配的性能。

随着深度学习技术的快速发展。卷积神经网络（CNN）广泛用于图像处理任务，如对象检测和图像分类。因此，它也促使一些研究人员使用CNN来解决物体6D姿态估计问题。基于CNN的方法主要分为两类。其中一类使用CNN检测RGB图像中的2D关键点，解决了传统方法不适用于无纹理对象的关键点检测问题。然而，在遮挡的情况下，它不能准确地估计对象姿态。另一类方法是直接使用RGB图像来回归物体的6D姿态，如PoseNet、PoseCNN和SSD-6D。这些方法估计的物体姿态通常是不准确的，并且稍后需要耗时的迭代算法（如ICP）来进行姿态优化。以上三种类型的方法只是使用RGB图像来估计对象姿态。它们不使用深度信息或将颜色和深度信息组合用于位置估计。关于遮挡问题，Fractal Markers通过检测关键点来估计遮挡下的标记姿势，Body PointNet直接处理点云数据来估计衣服下的3D体型和姿势。这些方法可以更好地解决遮挡条件下的姿态估计问题。最近，Densefusion首次结合颜色和深度信息来估计物体6D姿态，在遮挡和低照度下具有更好的性能。它分别通过CNN和PointNet提取RGB和点云特征。然后对图像特征和点云特征进行像素级融合，对目标姿态进行回归。然而，该方法使用单独的网络来分别提取RGB和点云信息。在特征提取过程中，CNN网络单独很难从RGB图像中提取相似对象的独特特征，同样点云网络也是如此，并没有完全利用这两种特征潜在的有用信息。

发明内容

本发明的目的是提供一种基于6D姿态估计的三支流双向融合网络方法，不仅可以保留原始RGB和深度分支的特征信息，还可以充分利用融合分支的特征，尽可能减小RGB和深度图像之间的特征差异。

为实现上述目的，本发明提供了一种基于6D姿态估计的三支流双向融合网络方法，包括以下步骤：

S1、对RGB图像进行语义分割，从RGB图像进行输入，裁剪需要预测的目标对象，获取目标对象的彩色图像和深度图像，并将深度图像转换为点云；

S2、对S1中的彩色图像和深度图像进行特征提取和融合，构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合；

S3、将S2中提取的特征输入到姿态估计网络，估计每个中心点的特征的3D平移姿态和3D旋转姿态，并输出最高置信度的姿态。

优选的，所述步骤S2中基于通道注意力模块构建两种类型特征处理模块，分别为RGB-D融合模块和上下文聚合模块。

优选的，所述RGB-D融合模块，包括两个通道注意力模块，分别来处理RGB分支和深度分支的特征信息，设RGB图像输入特征图为和深度图像输入特征图为，RGB-D融合模块的操作描述为：

；

其中，表示RGB-D融合模块，/>表示对于RGB和深度分支每一层的输出；/>表示输入特征映射元素属于实数域，C表示通道数，H表示特征图的高度，W表示特征图的宽度，对于RGB分支和深度分支的每一层，输出来细化编码器中该层的原始输出；

；

融合结果减少到原来的一半。

优选的，所述上下文聚合模块包括两个具有不同池化方法的通道注意力模块，分别是具有全局平均池化层的通道注意力模块和具有最大池化层的通道注意力模块。

优选的，所述步骤S3通过步骤S2的特征提取和特征融合，得到一组中心点的特征，将中心点的特征输入到姿态估计网络进行估计，并对每个中心点通过回归网络进行回归旋转、平移和置信度。

优选的，所述回归网络由三个相同的小网络组成，每个小网络由四层一维卷积组成，为每个中心点设置网络损耗函数，对于非对称对象的网络损耗函数：

；

对于对称对象网络损耗函数：

；

其中表示采样点的数量，/>表示第/>个采样点，/>表示对象的真实姿态，/>表示通过第/>个中心点特征回归的姿态。

优选的，使用迭代姿态优化网络，根据姿态估计网络的输出，对点云进行逆变换，将变换后的点云和原始颜色特征作为输入，在获得迭代姿态优化网络输出的残差姿态后，再次对输入点云进行逆变换，并将获得的点云用作下一次迭代的输入，经过几次迭代后，将预测的残差姿态与原始姿态连接，获得最终的姿态估计结果。

因此，本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法，构建具有三个并行的分支的架构，并提出两个互补的注意力模块，分别从RGB、深度和融合图提取不同的特征信息，经过融合模块后的融合特征不仅会被传播到RGB和深度分支的下一阶段，而且也会作为新的一个分支进行特征输出。进一步引入双向多步传播策略，不仅可以保留原始RGB和深度分支的特征信息，还可以充分利用融合分支的特征，尽可能减小RGB和深度图像之间的特征差异。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的整体网络结构；

图2是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的通道注意力模块结构图；

图3是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的两种类型的特征处理模块，其中(a)是RGB-D融合模块的结构图，(b)是上下文聚合模块的结构图；

图4是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的迭代姿态优化网络图；

图5是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的姿态迭代网络示意图。

具体实施方式

实施例

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明公开了一种基于6D姿态估计的三支流双向融合网络方法，包括以下内容：

S1、对RGB图像进行语义分割，从RGB图像进行输入，裁剪需要预测的目标对象，获取目标对象的彩色图像和深度图像，并将深度图像转换为点云。

分割图像中感兴趣的对象，从RGB图像作为输入，裁剪想要预测的目标对象，然后生成仅包含目标对象的彩色图像和深度图像。如今，语义分割研究发展逐渐成熟，语义分割框架一般由编码器和解码器组成，彩色图像进入编解码器后生成N+1通道的语义分割图，每个通道都是二进制掩码，其中语义像素描绘了N个可能的已知类中的每个类的对象。因此，直接使用了现成的语义分割Segnet网络架构。

S2、对S1中的彩色图像和深度图像进行特征提取和融合，构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合。

为了能够更好的充分融合RGB图像和深度图像的特征，提出了一个双向特征融合网络来解决这个问题，如图2和图3所示。具体来说，提出了构建具有三个并行的分支的架构，这种结构不仅可以保留原始RGB和深度分支的特征，还可以充分利用融合分支的特征。然而，由于RGB图像主要是颜色和纹理，可以突出对象视觉轮廓边界，深度图像主要是空间三维消息，可以突出几何边界，因此不适合简单地直接合并RGB和深度特征数据。通道注意力机制可以聚合全局信息以捕获更重要的信息，为此，基于通道注意力模块构建两种类型特征处理模块，分别为RGB-D融合模块和上下文聚合模块。

通道注意力模块，该模块可以显式地对待特征的通道之间的相互依赖进行建模，以提高网络产生的表示的质量，并使网络使用全局信息来选择性地强调信息性特征和抑制不太有用的特征。如图2所示，假设输入特征映射，首先应用全局平均化，输出/>公式(1)如下：

(1)

其中表示与第c个通道相关联的输出，/>表示输入特征映射元素属于实数域，C表示通道数，H表示特征图的高度，W表示特征图的宽度。该操作可以使网络收集全局信息。接下来，以下操作可以表示为：

(2)

其中，表示按通道相乘，/>是Sigmod函数，/>表示最终输出结果，/>是由变换运算生成的最终注意力向量结果，表示如下：

(3)

这里，和/>是两个不同的1×1卷积层，可以捕获通道之间的相关性。通过第一次卷积，可以得到一个中间注意张量/>，Z表示每个通道相关的特征的输出,Z中的每个元素可以被看作是对应通道的全局表示，可以用于计算通道权重，以便在后续的加权和操作中调整每个通道的重要性。注意，r是用于控制块大小的缩减率，r对模型的效果有重要影响。将r设置为8，并将讨论不同归约率对性能的影响。然后通过第二次卷积，可以得到最终的注意力张量g。

RGB-D融合模块：RGB和深度图像中所包含的类别对象的信息在室内场景的不同区域中不同，换句话说，RGB和深度图像具有不同的特征分布。然而，通道注意力机制可以使网络更多地关注目标对象特征丰富的区域，并过滤掉一些不需要的特征。因此，设计了一组RGB-D融合模块，如图3中（a）所示。具体来说，嵌入了两个通道注意力模块，以便分别来处理RGB和深度分支的特征信息。假设RGB输入特征图为和深度图像输入特征图为/>，融合模块的操作可以描述为：

(4)

其中，表示RGB-D融合模块，/>表示对于RGB和深度分支每一层的输出。对于RGB和深度分支的每一层，输出来细化编码器中该层的原始输出。

(5)

(6)

这种操作就是所说的双向多步传播（BMP）策略，精细化的结果将传播到编码器中的下一层，以便对颜色特征和几何特征信息进行更准确和高效的编码。在这里，选择将融合结果减少到原来的一半，而不是直接添加元素，这可以降低模型的复杂性，也可以使融合结果更加精细。

上下文聚合模块：当编码器的输出被发送到解码器时，特征信息经常会出现丢失的情况。为了保留更多的特征信息，嵌入了一个上下文聚合模块，如图3中（b）所示。对于这个模块，仍然使用通道注意力模块来构建，但是与前面融合模块结构不太一样，添加两个具有不同池化方法的通道注意力模块。对于两个注意力模块，一个是全局平均池化层，另一个最大池化层。平均池化主要作用倾向于平滑整个通道的特征；然而最大池化更倾向于聚焦在通道中最显著的特征，在特征整合部分，这种设置可以平衡对整体信息和局部显著特征的关注，从而增强网络对重要特征的关注，允许网络聚合更多的信息特征。

将输出与原始输入特征信息连接起来，最后通过1x1卷积层校准通道。这种信息处理方法提高了特征信息的准确性，补充了类别对象因遮挡以及纹理不足丢失的特征信息和重要特征。最后，输出的三种不同特征将整合被输入到下一个阶段。

通过上一阶段特征提取和特征融合，得到一组中心点的特征。然后，将这组中心点的特征输入到姿态估计网络进行姿态估计，并且还对每个中心点进行回归旋转、平移和置信度。回归网络由三个相同的小网络组成，每个小网络由四层一维卷积组成。为每个中心点设置网络损耗函数。对于非对称对象的网络损耗函数：

(7)

对于对称对象网络损耗函数：

(8)

表示采样点的数量，/>表示第/>个采样点，/>表示对象的真实姿态，/>表示通过第/>个中心点特征回归的姿态。

姿态优化过程中常用的ICP优化方法耗时且不能满足实时性要求。因此，使用了一种基于CNN的优化方法，可以快速稳定地优化姿态。迭代姿态优化网络在结构上类似于姿态估计网络。它将融合后的特征通过最大池化层，形成全局特征用于姿态估计，迭代姿态优化网络每次输出一个残差姿态。迭代姿态优化网络过程如图4所示。根据姿态估计网络的输出，对点云进行逆变换。然后将变换后的点云和原始颜色特征作为输入。在获得迭代网络输出的残差姿态后，再次对输入点云进行逆变换，并将获得的点云用作下一次迭代的输入。经过几次迭代后，将预测的残差姿态与原始姿态连接，以获得最终的姿态估计结果。

姿态优化的原理如图5所示，物体在相机坐标系中的真实姿态为，预测姿态为/>，并且姿态间差异被设置为/>。经过n次迭代估计网络的最终预测姿态：

(9)

其中表示物体对象真实的姿态，/>表示是姿态估计网络输出的初始姿态，/>到/>表示是迭代网络输出的残差姿态。假设初始物体坐标系和相机坐标系重合，物体的真实姿态为/>，则/>；其中，/>和/>分别表示点云在相机坐标系和物体坐标系的坐标。根据姿态估计网络输出的初始姿态/>，对点云进行逆变换来获得：

(10)

通过逆变换得到的点云作为迭代网络的输入，此时网络预测残差姿态/>。然后，再次将对点云/>进行逆变换得到：

(11)

使用逆变换点云作为迭代网络的输入，该网络预测残差姿态/>。经过多次迭代后得到：

(12)

经过n次迭代网络迭代后，物体姿态估计网络输出的最终姿态为；在点云的变换过程中，由于点云与颜色特征之间的像素对应关系保持不变，所以每次使用相同的颜色特征与变换后的点云进行特征融合。

因此，本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法，不仅可以保留原始RGB和深度分支的特征信息，还可以充分利用融合分支的特征，尽可能减小RGB和深度图像之间的特征差异。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于6D姿态估计的三支流双向融合网络方法，其特征在于，包括以下步骤：

S2、对S1中的彩色图像和深度图像进行特征提取和融合，构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合；融合分支的融合模块之间层层连接，经过融合模块后的融合特征不仅会被传播到RGB分支和深度分支的下一阶段，而且也会作为新的一个分支进行特征输出；

基于通道注意力模块构建两种类型特征处理模块，分别为RGB-D融合模块和上下文聚合模块，输出的三种不同特征将整合被输入到下一个阶段；

所述RGB-D融合模块，包括两个通道注意力模块，分别来处理RGB分支和深度分支的特征信息，设RGB图像输入特征图为和深度图像输入特征图为/>，RGB-D融合模块的操作描述为：

；

其中，表示RGB-D融合模块，/>表示对于RGB和深度分支每一层的输出；/>表示输入特征映射元素属于实数域，C表示通道数，H表示特征图的高度，W表示特征图的宽度，对于RGB分支和深度分支的每一层，使用输出来细化编码器中该层的原始输出；

；

融合结果减少到原来的一半；

所述上下文聚合模块包括两个具有不同池化方法的通道注意力模块，分别是具有全局平均池化层的通道注意力模块和具有最大池化层的通道注意力模块；

2.根据权利要求1所述的一种基于6D姿态估计的三支流双向融合网络方法，其特征在于：所述步骤S3通过步骤S2的特征提取和特征融合，得到一组中心点的特征，将中心点的特征输入到姿态估计网络进行估计，并对每个中心点通过回归网络进行回归旋转、平移和置信度。

3.根据权利要求2所述的一种基于6D姿态估计的三支流双向融合网络方法，其特征在于，所述回归网络由三个相同的小网络组成，每个小网络由四层一维卷积组成，为每个中心点设置网络损耗函数，对于中心点为非对称对象的网络损耗函数：

；

对于中心点为对称对象的网络损耗函数：

；

4.根据权利要求2所述的一种基于6D姿态估计的三支流双向融合网络方法，其特征在于：根据姿态估计网络的输出，使用迭代姿态优化网络，对点云进行逆变换，将变换后的点云和原始颜色特征作为输入，在获得迭代姿态优化网络输出的残差姿态后，再次对输入点云进行逆变换，并将获得的点云用作下一次迭代的输入，经过几次迭代后，将预测的残差姿态与原始姿态连接，获得最终的姿态估计结果。