CN115578461A

CN115578461A - 基于双向rgb-d特征融合的物体姿态估计方法及装置

Info

Publication number: CN115578461A
Application number: CN202211419607.4A
Authority: CN
Inventors: 孟启炜; 宋伟; 朱世强; 金天磊; 郭方泰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-01-06
Anticipated expiration: 2042-11-14
Also published as: CN115578461B

Abstract

本发明公开了一种基于双向RGB‑D特征融合的物体姿态估计方法及装置，该方法的核心创新点为特征双向融合模块，通过将RGB与点云特征投影到标准空间以实现对齐，互补和相互增强的作用，提升了最终RGB‑D特征的显著性与代表性。此外，本发明还创新性地引入了感兴趣区域检测，特征恒等映射与残差融合，多任务协同训练，关键点投票与聚类，最小二乘法姿态解算等关键方法，极大改善了传统物体六自由度姿态估计中存在的抗干扰能力弱，精度不足等痛点问题。经多个实际场景测试，本发明可在杂乱环境下，高鲁棒性和高精度地实现对遮挡物体的六自由度姿态估计。

Description

基于双向RGB-D特征融合的物体姿态估计方法及装置

技术领域

本发明属于计算机视觉领域，具体涉及一种基于双向RGB-D特征融合的物体姿态估计方法及装置。

背景技术

物体姿态估计目标为解算物体在三维空间的六自由度姿态，即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度。该技术是计算机视觉的前沿研究方向之一，对环境理解，场景重建，自动驾驶，机器人决策操控等实际应用具有重要意义。同时，物体姿态估计研究也被认为是极具挑战的，不同于二维空间下的物体检测与分割任务，其涉及物体在高维空间的状态计算，因此更易受光照，遮挡，背景噪声等环境因素的影响，这也对姿态估计算法的鲁棒性和精确度提出了更高的要求。

目前，物体姿态估计主要是基于关键点投票的方法实现的，即先利用神经网络对RGB-D图像提取特征，然后基于像素点特征进行物体的关键点投票和聚类，最后通过图像关键点与物体先验模型关键点的对应关系实现六自由度姿态的解算。这种方法对图像RGB-D特征有较高的依赖，而现有的特征提取存在两个主要不足：一是忽略了RGB-D特征的互补性和协同性；二是特征提取由关键点投票单任务牵引。这些缺点降低了提取特征的鲁棒性和显著性，进而影响姿态估计算法精度和实际场景下的应用效果。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于双向RGB-D特征融合的物体姿态估计方法及装置。本发明能够高鲁棒性、高精度地提取图像显著性特征，进而应用于目标物体的关键点投票与姿态解算，对场景物体状态估计以及机器人操控作业具有重要意义。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种基于双向RGB-D特征融合的物体姿态估计方法，包括以下步骤：

（1）对场景RGB-D图像进行预处理，获得对齐后的RGB图像以及场景点云，再通过深度神经网络提取RGB图像的浅层特征用于物体检测和感兴趣区域定位；

（2）根据步骤（1）中定位的感兴趣区域，首先将感兴趣区域与原始RGB图像以及场景点云对齐，分割原始RGB图像和场景点云，得到原始RGB图像和场景点云中的感兴趣区域；然后采用ResNet-PSP网络和RandLA网络逐层将RGB特征与点云特征投影到标准空间实现双向特征融合得到RGB融合特征与点云融合特征，进而通过特征纯化网络对融合特征进行纯化，分别得到当前层级的RGB特征与点云特征，通过ResNet-PSP网络和RandLA网络逐层推理，以获得最终的纯化后的RGB特征与点云特征；最后将最终的纯化后的RGB特征与点云特征通过多层感知机进行融合，得到感兴趣区域的RGB-D融合特征；

（3）根据步骤（2）获得的RGB-D融合特征，通过多任务协同学习的网络结构将RGB-D融合特征用于物体语义分割、物体中心点以及关键点投票三项任务的协同训练，并将投票得到的物体中心点与关键点聚类；

（4）基于所述步骤（3）中获得的聚类后相机坐标系下的物体中心点与关键点，将实际场景的物体与其CAD模型相对应，并通过最小二乘法解算物体模型到相机坐标系下的转换关系，即为物体的六自由度姿态。

进一步地，所述步骤（1）包括以下子步骤：

（1.1）根据RGB-D相机获取RGB图像，将所述RGB图像与深度图像进行对齐，以获取对齐的深度图像；

（1.2）结合标定好的RGB-D相机内部参数，将对齐的深度图像转换为场景点云；

（1.3）通过深度神经网络提取所述RGB图像的浅层特征，进而基于提取的浅层特征得到若干个检测框，根据非极大抑制算法剔除无效检测框，得到有效检测框，所述有效检测框用于物体检测和感兴趣区域定位。

进一步地，所述ResNet-PSP网络包括第一特征编码器和第一特征解码器，所述第一特征编码器包含四层二维卷积网络，所述第一特征解码器包含三层二维卷积网络；

所述RandLA网络包括第二特征编码器和第二特征解码器，所述第二特征编码器包含四层连续的空洞卷积结构，所述第二特征解码器包含三层二维卷积网络。

进一步地，所述步骤（2）中获得最终的纯化后的RGB特征与点云特征的方法具体为：得到当前层级的RGB特征与点云特征后，将当前层级的RGB特征与点云特征用于下一层级的特征计算；重复步骤获取当前层级的RGB特征与点云特征，直至完成第一特征编码器和第二特征编码器的所有层以及到达第一特征解码器和第二特征解码器的最后一层，获得最终的纯化后的RGB特征与点云特征。

进一步地，所述步骤（2）中得到当前层级的RGB特征与点云特征的方法具体包括以下步骤：

（2.1）根据获得的原始RGB图像和场景点云中的感兴趣区域，采用第一特征编码器逐层对RGB图像进行下采样并提取RGB特征，采用第二特征编码器逐层对场景点云进行下采样并提取点云特征；

（2.2）逐层将RGB特征投影到点云的标准空间，得到点云空间RGB特征，与原点云特征连接得到点云空间融合特征；逐层将点云特征投影到RGB的标准空间，得到RGB空间点云特征，与原RGB特征连接得到RGB空间融合特征；

（2.3）通过特征纯化网络对点云空间融合特征和RGB空间融合特征进行纯化，以得到当前层级的点云特征与RGB特征，并用于下一层级的特征计算。

进一步地，所述步骤（2.3）包括以下子步骤：

（2.3.1）将本层的点云空间融合特征和上一层的点云空间融合特征输入特征纯化网络，采用残差特征融合及恒等映射的方式进行纯化，以获得本层的点云特征；将本层的RGB空间融合特征和上一层的RGB空间融合特征输入特征纯化网络，采用残差特征融合及恒等映射的方式进行纯化，以获得本层的RGB特征；并用于下一层级的特征计算；

（2.3.2）对于第一特征编码器和第二特征编码器以及第一特征解码器和第二特征解码器的除第一层之外的所有层，重复所述步骤（2.3.1）。

进一步地，所述步骤（3）中协同学习的网络结构为：选用三个共享浅层特征的多层感知机以实现三任务的推理计算；

所述步骤（3）中聚类具体为：首先，基于语义分割结果，筛除非物体上的点的投票结果；其次，基于各有效点的投票，随机生成一个圆形窗格，并计算圆心到窗格内各点的距离向量，相加后作为偏移补偿；然后，圆形窗格将沿着偏移补偿移动到新的位置，并迭代上述步骤，直至偏移补偿小于预设阈值或达到最大迭代次数，以得到聚类后的最终结果。

进一步地，所述步骤（4）包括以下子步骤：

（4.1）基于物体的CAD模型，将物体的CAD模型的质心作为物体中心点；

（4.2）通过最远点采样的方法在物体的CAD模型上生成m个关键点；

（4.3）由物体中心点指向各个关键点，生成物体的CAD模型上的m条“中心点→关键点” 指向向量；

（4.4）对于步骤（3）中获得的聚类后的实际场景下的物体的物体中心点与关键点，将物体中心点指向各个关键点，生成实际场景下的物体的m条“中心点→关键点”指向向量；

（4.5）根据CAD模型上的“中心点→关键点”指向向量和实际场景下的“中心点→关键点”指向向量之间的对应关系，通过最小二乘法迭代优化目标函数，解算对应关系以获得最终的物体六自由度姿态；

其中，所述目标函数为实际场景的指向向量与物体CAD模型的指向向量之间的绝对误差，其计算方法为：基于当前估计的六自由度姿态矩阵，遍历并累加各条指向向量之间的偏差，再通过不断迭代优化六自由度姿态矩阵，使目标函数值尽可能小，并以此时的六自由度姿态矩阵作为最终的六自由度姿态。

本发明实施例第二方面提供了一种基于双向RGB-D特征融合的物体姿态估计装置，包括一个或多个处理器，用于实现上述的基于双向RGB-D特征融合的物体姿态估计方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于双向RGB-D特征融合的物体姿态估计方法。

本发明的有益效果是，本发明通过双向RGB-D特征融合，特征恒等映射与残差融合，多任务协同训练等方式，可以高鲁棒性、高精度地提取图像显著性特征，具有高精度、高稳定性以及易部署使用的优点，进而应用于目标物体的关键点投票与姿态解算，对场景物体状态估计以及机器人操控作业具有重要意义。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的双向特征融合流程图；

图3为本发明实施例的残差融合和特征纯化流程图；

图4为本发明实施例的特征融合与多任务协同训练流程图；

图5为本发明实施例的基于双向RGB-D特征融合的物体姿态估计装置的一种结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明白清楚，结合实施例，对本发明进一步的详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明保护范围。

本发明中的基于双向RGB-D特征融合的物体姿态估计方法，具有高精度、高稳定性以及易部署使用的优点，如图1所示，包括以下步骤：

（1）对场景RGB-D图像进行预处理，获得对齐后的RGB图像以及场景点云，再通过深度神经网络提取RGB图像的浅层特征用于物体检测和感兴趣区域定位。

（1.1）根据RGB-D相机获取RGB图像，将RGB图像与深度图像进行对齐，获取对齐的深度图像。

具体地，采用RGB-D相机获得拍照数据，从而获取到对应的RGB图像。然后根据RGB图像进行RGB图像与深度图像的对齐，即找到每个RGB图像像素点的对应深度信息，从而获得对齐后的深度图像。

（1.2）结合标定好的RGB-D相机内部参数，将对齐的深度图像转换为场景点云。

具体地，结合标定好的RGB-D相机内部参数，通过下列公式将对齐的深度图像转换为场景点云：

其中，camera.fx，camera.fy，camera.cx，camera.cy为相机内部参数，通过张氏标定法得到；camera.scale为量纲系数，可将深度数据转换以米为单位；xmapi，ymapi分别表示深度图像中第i个像素点在图像坐标系下的x，y值；depthi表示第i个像素点的深度值；pointsxi，pointsyi，pointszi表示经转换后原深度图像中的第i个像素点在相机坐标系下的坐标，经遍历深度图像中的所有像素点后，即可获得对应的场景点云point_cloud。

（1.3）通过深度神经网络提取RGB图像的浅层特征，进而基于提取的浅层特征得到若干个检测框，根据非极大抑制算法（NMS）剔除无效检测框，得到有效检测框，有效检测框用于物体检测和感兴趣区域定位。

其中，有效检测框是置信度最高的检测框，可以用于物体检测和感兴趣区域定位。非极大抑制是计算机视觉领域较为普遍的方式，对于同一物体的多个检测框，非极大抑制算法可以基于其相互间的重合度计算各个检测框置信度，进而筛选得到置信度最高的检测框作为该物体检测的最终结果。

具体地，图像预处理还包括浅层特征提取与感兴趣区域检测。对于RGB图像，先将其输入卷积神经网络进行浅层特征提取，再将提取到的二维图像特征依次通过特征最大池化与归一化得到一维特征向量。随后，通过区域候选网络，一维特征向量可以进一步推理计算得到若干原图像中物体区域的检测框，但此时每个物体都对应有多个检测框，且大多检测框只包含了物体的一部分，无法直接用于后续的物体特征提取与姿态估计。为解决此问题，我们引入了非极大值抑制算法来剔除无效检测框，保留置信度最高的检测框作为最终的物体检测的结果，后续可根据物体检测框实现物体特征的提取。此时每个检测框都有且仅对应了一种物体，具体可根据实际场景需要选择目标物体检测框作为感兴趣区域进行六自由度姿态估计。

（2）根据步骤（1）中定位的感兴趣区域，首先将感兴趣区域与原始RGB图像以及场景点云对齐，分割原始RGB图像和场景点云，得到原始RGB图像和场景点云中的感兴趣区域；然后采用ResNet-PSP网络和RandLA网络逐层将RGB特征与点云特征投影到标准空间实现双向特征融合得到RGB融合特征与点云融合特征，进而通过特征纯化网络对融合特征进行纯化，分别得到当前层级的RGB特征与点云特征，通过ResNet-PSP网络和RandLA网络逐层推理，以获得最终的纯化后的RGB特征与点云特征；最后将最终的纯化后的RGB特征与点云特征通过多层感知机进行融合，得到感兴趣区域的RGB-D融合特征。

其中，ResNet-PSP网络包括第一特征编码器和第一特征解码器，第一特征编码器包含四层二维卷积网络，第一特征解码器包含三层二维卷积网络；RandLA网络包括第二特征编码器和第二特征解码器，第二特征编码器包含四层连续的空洞卷积结构，第二特征解码器包含三层二维卷积网络。

本实施例中，第一特征编码器选用ResNet34为基础的卷积神经网络，第一特征编码器包含四层二维卷积网络，可以连续地对感兴趣区域的物体的RGB图像进行下采样并提取特征。最后一层处通过特征最大池化和归一化将特征投影到一维空间。第一特征解码器是以PSPNet为基础的金字塔池化网络，由三层二维卷积网络组成，将被作用于下采样后的一维物体特征，通过多尺度特征融合的方式将一维特征上采样重新扩展到二维空间，如此即可得到最终的物体的RGB特征，可用于后续的计算推理。这种特征先编码再解码的结构设计首先将图像下采样抽象为一维易计算的特征向量，再上采样映射回二维空间用于各类任务，因而可以在一定程度上赋予神经网络可解释性与多任务推理的通用性。

与ResNet-PSP网络类似，点云特征提取网络RandLA网络也是基于这种编码再解码的方式构建的。对于分割后的场景点云的感兴趣区域，本实施例中，先使用了第二特征编码器对其进行特征下采样，随后将下采样后的特征将通过第二特征解码器来实现特征上采样与解码，最终得到感兴趣区域的点云特征，之后再使用点云特征用于后续任务。

本实施例中，根据步骤（1）中确定的感兴趣区域，将感兴趣区域与原始RGB图像以及场景点云对齐，定位并分割原始RGB图像和场景点云，可以得到RGB图像和场景点云中的感兴趣区域。

本实施例中，根据ResNet-PSP网络和RandLA网络，逐层将RGB特征与点云特征投影到标准空间实现双向特征融合，再通过特征纯化网络对融合特征进行纯化以得到当前层级最终的RGB特征与点云特征，并用于下一层级的特征计算。

（2.1）基于获得的RGB图像和场景点云中的感兴趣区域，采用第一特征编码器逐层对RGB图像进行下采样并提取RGB特征，采用第二特征编码器逐层对场景点云进行下采样并提取点云特征。

根据感兴趣区域的RGB特征以及点云特征，传统方法为将其映射一维空间，再相互连接以得到该区域的RGB-D融合特征。但是，这样的方法不仅忽视了RGB特征与点云特征之间的互补性和协同性，导致两者的特征提取过程是相互独立的，而且通过简单粗暴的投影方式将特征映射到一维空间，加剧了融合特征显著性和有效性的损失。

为解决此问题，本实施例提出了一种双向RGB-D特征融合的算法，可在RGB特征与点云特征编码与解码过程中，逐层将RGB特征与点云特征映射到标准空间进行双向融合以获得该层级的融合特征，再基于融合特征进一步纯化得到补全和增强后的RGB特征与点云特征，并输入下一编码或解码层进行后续的计算，直至解码的最后一层，此时纯化得到的RGB与点云特征将通过一个多层感知机进行对齐与融合，最终得到感兴趣区域的RGB-D融合特征。这种方法的核心优点为，对于特征下采样抽象以及上采样具化的每一层，RGB特征与点云特征都能得到充分的交互和增强，因而提升了最终融合特征的显著性和有效性。

（2.2）逐层将RGB特征投影到点云的标准空间，得到点云空间RGB特征，与原点云特征连接得到点云空间融合特征；逐层将点云特征投影到RGB的标准空间，得到RGB空间点云特征，与原RGB特征连接得到RGB空间融合特征。

（2.3）通过特征纯化网络对点云空间融合特征和RGB空间融合特征进行纯化，可以分别得到当前层级最终的点云特征与RGB特征，并用于下一层级的特征计算。

应当理解的是，特征纯化网络可以采用两个不同的多层感知机分别对点云空间融合特征和RGB空间融合特征进行特征纯化。

相较于传统的RGB-D融合特征提取方法，双向融合的过程在提升融合特征的显著性和代表性的同时，也会在一定程度上增加网络深度和复杂度，从而提升梯度消失与爆炸的风险。因此，本实施例在双向融合的过程中引入了残差特征融合以及特征恒等映射的模块，以确保深度神经网络在训练末期可以有效收敛。

所以，在步骤（2.3）的融合特征纯化过程中，引入残差特征融合，即将上一层级的融合特征通过恒等映射的方式加入到特征纯化网络中。

（2.3.1）将本层的点云空间融合特征和上一层的点云空间融合特征输入特征纯化网络，采用残差特征融合及恒等映射的方式进行纯化，以获得本层的点云特征；将本层的RGB空间融合特征和上一层的RGB空间融合特征输入特征纯化网络，采用残差特征融合及恒等映射的方式进行纯化，以获得本层的RGB特征；并用于下一层级的特征计算。

（2.3.2）对于第一特征编码器和第二特征编码器以及第一特征解码器和第二特征解码器的除第一层之外的所有层，重复步骤（2.3.1）。

具体地，残差特征融合与恒等映射的方法将被应用于特征下采样编码与上采样解码过程的除第一层之外的所有层。其中需要注意的是，在特征下采样过程中，插值法将被用于特征尺寸的缩小，而在特征上采样过程中，插值法则用于特征尺寸的放大。通过引入残差特征融合与恒等映射模块，使深度神经网络在训练末期仍能保持明显的特征梯度，避免由梯度爆炸或消失问题而导致模型陷入局部最优。

本实施例中，通过ResNet-PSP网络和RandLA网络逐层推理，依次完成第一特征编码器和第二特征编码器、第一特征解码器和第二特征解码器，直至到达最后一层，获得最终的纯化后的RGB特征与点云特征。

本实施例中，将最终的纯化后的RGB特征与点云特征通过多层感知机进行融合，输出最终的感兴趣区域的RGB-D融合特征。

本实施例中，采用ResNet-PSP网络和RandLA网络获取感兴趣区域的RGB-D融合特征，具体地，①假定感兴趣区域的RGB图像输入为n*3*h*w，其中n为单帧图像中感兴趣区域的个数；3为RGB三通道的原始特征；h和w分别表示感兴趣区域检测框的高和宽。同理，感兴趣区域的场景点云输入为n*3*npts，其中n为单帧图像中感兴趣区域的个数；3为点云原始特征通道数，代表xyz三轴坐标；npts为感兴趣区域点云簇中选取点的个数。

②将原始RGB与点云分别输入ResNet34-PSP以及RandLA中，则下采样编码第一层的RGB特征输出为n*c_r1*h₁*w₁，点云特征输出为n*c_d1*npts₁，如图2所示，其中c_r1和 c_d1分别为RGB与点云的特征通道数；h₁，w₁为下采样后特征区域大小；npts₁则为下采样后点云采样点的数量。可以发现下采样后RGB特征与点云特征的维度不同，无法直接融合。因此，先需将两者特征区域进行对齐，即定位npts₁个点云点与RGB特征区域h₁*w₁的对应关系。随后，基于对应关系，将RGB特征投影到点云空间，得到n*c_r1*npts₁的点云空间RGB特征，与原点云特征n*c_d1*npts₁连接得到最终的点云空间融合特征n*（c_r1+ c_d1）*npts₁。相似的，点云空间特征也将通过最近邻插值扩展的方法与RGB特征对齐，得到n*c_d1*h₁*w₁的RGB空间点云特征，并进一步与原RGB特征连接得到RGB空间融合特征n*（c_r1+ c_d1）*h₁*w₁。所述的这种方法通过定位与对齐特征区域，将RGB特征与点云特征分别投影到点云与RGB的标准空间，达到对原RGB与点云特征的补全与增强作用。

③基于步骤②中获得的RGB空间以及点云空间的融合特征，将其输入两个不同的多层感知机进行特征纯化，最终分别输出n*c_r1*h₁*w₁的RGB特征以及n*c_d1*npts₁的点云特征，其特征通道数与原RGB特征以及点云特征一致，避免了双向融合过程对后续网络结构与推理的影响。

④对于下采样编码的第一至第四层以及上采样解码的第一至第三层，重复步骤②和③，实现层级双向特征融合与特征纯化，达到令RGB特征与点云特征在提取过程中充分交互与相互增强的目的。此外，在上采样解码的最后一层，纯化后的RGB特征与点云特征将通过一个多层感知机进行融合，输出最终的感兴趣区域的RGB-D融合特征n*c_rd* npts，其中c_rd为RGB-D融合特征的特征通道数，npts为最初感兴趣区域点云簇中选取点的个数。

更进一步地，基于步骤③中的融合特征纯化过程，多层感知机的输入除本层的融合特征之外，还会加入上一层的融合特征以保证特征梯度。以下采样编码的第一层和第二层为例，其RGB空间融合特征分别为n*（c_r1+ c_d1）*h₁*w₁与n*（c_r2+ c_d2）*h₂*w₂。先通过最近邻插值法将第一层RGB融合特征转换为n*（c_r1+ c_d1）*h₂*w₂，再将其与第二层的RGB融合特征相连接，得到恒等映射后的第二层RGB融合特征n*（c_r1+ c_d1+ c_r2+ c_d2）*h₂*w₂，而第二层RGB特征的纯化是基于这个恒等映射后的融合特征计算的，即在步骤③中，用于RGB特征纯化的多层感知机的全部输入包含了第一层插值计算后的RGB融合特征以及第二层本身的RGB融合特征，然后最终的输出为第二层纯化后的RGB特征，如图3所示。相似的，点云空间融合特征的纯化也使用了残差特征融合的方法，在第二层的最终点云特征纯化过程中，也通过恒等映射的方式引入了插值后的第一层的点云空间融合特征。

（3）根据步骤（2）获得的RGB-D融合特征，通过多任务协同学习的网络结构将RGB-D融合特征用于物体语义分割、物体中心点以及关键点投票三项任务的协同训练，并将投票得到的物体中心点与关键点聚类。

具体地，根据步骤（2）最终可以得到具有较高显著性的感兴趣区域RGB-D融合特征。随后，参见图4，通过多任务协同学习的网络结构， RGB-D融合特征将被同时用于物体语义分割、物体中心点以及关键点投票三项任务。这三个任务之间是相互关联的，比如物体语义分割模型的训练将通过全局特征与局部特征的对比来区分不同物体，同时这一过程也将有助于选择物体表面信息丰度较高的点进行中心点/关键点投票，提升投票有效性。另一方面，物体中心点/关键点投票过程可以监督点云簇的区域特征提取，这也对物体与背景的分割有正向作用。因此，多任务协同学习和训练的方式可以极大提升RGB-D融合特征的鲁棒性。

协同学习的网络结构为：本实施方案中选用了三个共享浅层特征的多层感知机来实现三任务的推理计算。三个多层感知机均以感兴趣区域的RGB-D融合特征n*c_rd* npts为输入，通过两层的一维卷积进行特征降维与逐点的浅层特征提取，注意三任务的多层感知机在该两层一维卷积中是共享权重的。随后，基于所述逐点的浅层特征，三任务多层感知机将再通过两层独立权重的一维卷积计算逐点的语义分割、中心点以及关键点投票。

最终，逐点的投票结果将被聚类以得到最终的物体中心点与关键点，用于后续的六自由度姿态结算。

其中，物体中心点与关键点聚类过程是基于均值漂移（MeanShift）算法实现的，首先，基于语义分割结果，筛除非物体上的点的投票结果。其次，基于各有效点的投票，随机生成一个圆形窗格，并计算圆心到窗格内各点的距离向量，相加后作为偏移补偿。然后，圆形窗格将沿着偏移补偿移动到新的位置，并迭代上述步骤，直至偏移补偿小于预设阈值或达到最大迭代次数，此时的圆心就是聚类后的最终结果。对于逐点的物体中心点与关键点投票，均采用此方法进行聚类。

（4）基于步骤（3）中获得的聚类后相机坐标系下的物体中心点与关键点，将实际场景的物体与其CAD模型相对应，通过最小二乘法解算物体模型到相机坐标系下的转换关系，即为物体的六自由度姿态。

基于步骤（3）中获得的聚类后的物体中心点与关键点，可以将实际场景下的物体与物体的CAD模型相对应，进而通过最小二乘法解算对应关系来获得最终的物体六自由度姿态。

（4.1）基于物体的CAD模型，将物体的CAD模型的质心作为物体中心点。

（4.2）通过最远点采样的方法在物体的CAD模型上生成m个关键点，在本实施例中m取值为8。

（4.3）由物体中心点指向各个关键点，生成物体的CAD模型上的m条“中心点→关键点” 指向向量，本实施例中生成8条物体的CAD模型上的“中心点→关键点”指向向量。

（4.4）对于步骤（3）中获得的聚类后的实际场景下的物体的物体中心点与关键点，将物体中心点指向各个关键点，生成实际场景下的物体的m条“中心点→关键点”指向向量。

本实施例中同上述步骤（4.3）类似，同样生成8条实际场景下的“中心点→关键点”指向向量。需要说明的是，上述两组的8条向量之间是相互对应的。

（4.5）根据CAD模型上的“中心点→关键点”指向向量和实际场景下的“中心点→关键点”指向向量之间的对应关系，通过最小二乘法迭代优化目标函数，解算对应关系以获得最终的物体六自由度姿态。

其中，六自由度姿态计算实质就是超定方程求最优解，可以通过最小二乘法迭代优化目标函数的方法实现，目标函数为实际场景的指向向量与物体CAD模型的指向向量之间的绝对误差，其计算方法为：基于当前估计的六自由度姿态矩阵，遍历并累加各条指向向量之间的偏差，再通过不断迭代优化六自由度姿态矩阵，使目标函数值尽可能小，并以此时的六自由度姿态矩阵作为最终的六自由度姿态。故目标函数的表达式为：

其中，Objective Function表示实际场景的指向向量与物体CAD模型的指向向量之间的绝对误差，Vecscenei和Vecobji分别为实际场景与物体CAD模型的第i条“中心点→关键点”指向向量，R和t则为六自由度姿态中的旋转矩阵以及平移向量。

遍历所有指向向量，在本实施例中，是为遍历8条指向向量，累加其在当前Rt姿态下的误差，进而不断迭代和优化Rt矩阵，使目标函数的累加误差尽可能小，直至超过预设的最大迭代次数或两次迭代间Rt变化量小于某一阈值。最终迭代后的Rt矩阵就是目标物体的六自由度姿态。

本实施例为对发明内容的进一步解释以及在实际场景下具体应用方法的说明，核心体现了基于RGB与点云特征双向融合的方法以提升物体六自由度姿态估计的鲁棒性和准确性，包含了感兴趣区域检测，双向特征融合，特征恒等映射与残差融合，多任务协同训练，关键点投票与聚类，最小二乘法姿态解算等核心创新点，改善了传统物体六自由度姿态估计中长期存在的抗干扰能力弱，精度不足等痛点问题，进而提升了该技术在真实场景中的可应用性。

注意本实施例并非对工程实现方法的限定，基于不同的实际场景，本领域的技术人员可围绕上述核心创新点进行工程方案设计，实现高精度和高稳定性的物体六自由度姿态估计任务。

与前述基于双向RGB-D特征融合的物体姿态估计方法的实施例相对应，本发明还提供了基于双向RGB-D特征融合的物体姿态估计装置的实施例。

参见图5，本发明实施例提供的一种基于双向RGB-D特征融合的物体姿态估计装置，包括一个或多个处理器，用于实现上述实施例中的基于双向RGB-D特征融合的物体姿态估计方法。

本发明基于双向RGB-D特征融合的物体姿态估计装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于双向RGB-D特征融合的物体姿态估计装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于双向RGB-D特征融合的物体姿态估计方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述步骤（1）包括以下子步骤：

3.根据权利要求1所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述ResNet-PSP网络包括第一特征编码器和第一特征解码器，所述第一特征编码器包含四层二维卷积网络，所述第一特征解码器包含三层二维卷积网络；

4.根据权利要求3所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述步骤（2）中获得最终的纯化后的RGB特征与点云特征的方法具体为：得到当前层级的RGB特征与点云特征后，将当前层级的RGB特征与点云特征用于下一层级的特征计算；重复步骤获取当前层级的RGB特征与点云特征，直至完成第一特征编码器和第二特征编码器的所有层以及到达第一特征解码器和第二特征解码器的最后一层，获得最终的纯化后的RGB特征与点云特征。

5.根据权利要求4所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述步骤（2）中得到当前层级的RGB特征与点云特征的方法具体包括以下步骤：

6.根据权利要求5所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述步骤（2.3）包括以下子步骤：

7.根据权利要求1所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述步骤（3）中协同学习的网络结构为：选用三个共享浅层特征的多层感知机以实现三任务的推理计算；

8.根据权利要求1所述的基于双向RGB-D特征融合的物体姿态估计方法，其特征在于，所述步骤（4）包括以下子步骤：

（4.3）由物体中心点指向各个关键点，生成物体的CAD模型上的m条“中心点→关键点”指向向量；

9.一种基于双向RGB-D特征融合的物体姿态估计装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-8中任一项所述的基于双向RGB-D特征融合的物体姿态估计方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的基于双向RGB-D特征融合的物体姿态估计方法。