CN112562001A

CN112562001A - 一种物体6d位姿估计方法、装置、设备及介质

Info

Publication number: CN112562001A
Application number: CN202011581215.9A
Authority: CN
Inventors: 方译权; 文永明; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-26
Anticipated expiration: 2040-12-28
Also published as: CN112562001B

Abstract

本发明公开了一种物体6D位姿估计方法、装置、设备及介质，方法包括：对包含目标物体的RGB图像和深度图进行特征提取，得到颜色特征和几何特征；对目标物体的模型信息进行特征提取，得到模型的颜色特征和几何特征；将每个特征点的颜色特征和几何特征进行关联，得到场景的几何特征和模型的几何特征；根据场景的几何特征和模型的几何特征，确定相关图，并确定注意力响应图；根据颜色特征、几何特征、场景的几何特征和模型的几何特征，构建第一融合特征和第二融合特征；进而构建得到总体特征；根据总体特征，通过位姿估计网络确定目标物体的6D位姿。本发明提高了实时性和鲁棒性，可广泛应用于机器人环境感知技术领域。

Description

一种物体6D位姿估计方法、装置、设备及介质

技术领域

本发明涉及机器人环境感知技术领域，尤其是一种物体6D位姿估计方法、装置、设备及介质。

背景技术

散乱场景的三维物体拾取是机器人操作领域中的一类经典问题，即是利用机械臂将在箱子中无序摆放、堆叠的物体取出。而识别物体6D位姿是其中的重点和难点。物体6D位姿估计的目标是获取待测物体在相机坐标系下的三维笛卡尔坐标以及三维旋转向量信息，是许多实际场景的核心。例如在智能机器人的相关任务中，识别物体的6D位姿，可以为抓取和运动规划提供有用的信息；在虚拟现实应用中，物体的6D位姿是支持任何对象之间虚拟交互的关键。

根据输入数据的不同可以将位姿估计的方法分类为：基于RGB的方法和基于RGB-D的方法。

现有基于RGB的方法：传统方法依赖于关键点的检测和与已知物体模型的匹配。较新的方法是通过学习预测2D关键点并通过PnP预测物体位姿，这些方法都能满足实时性的要求，但是当目标物体的纹理或几何细节较少时，他们取得的效果都很差。因为深度学习在计算机视觉领域的成功，许多方法使用卷积神经网络从RGB图像中提取有代表性的特征。

现有基于RGB-D的方法：传统方法从RGB-D数据中提取三维特征，并进行对应分组和假设验证。该方法可以直接从图像数据中估算6D位姿，但是需要依靠昂贵的后处理步骤来充分利用深度信息。

发明内容

有鉴于此，本发明实施例提供一种实时性高且鲁棒性好的物体6D位姿估计方法、装置、设备及介质。

本发明的一方面提供了一种物体6D位姿估计方法，包括：

对包含目标物体的RGB图像和深度图进行特征提取，得到不同特征点的颜色特征和几何特征；

对所述目标物体的模型信息进行特征提取，得到不同特征点的模型的颜色特征和模型的几何特征；

将每个所述特征点的颜色特征和几何特征进行关联，得到场景的几何特征和模型的几何特征；

根据所述场景的几何特征和所述模型的几何特征，确定所述目标物体的相关图；

根据所述相关图确定注意力响应图；

根据所述颜色特征、所述几何特征和所述场景的几何特征，构建第一融合特征；所述第一融合特征包含所述场景中的颜色信息和深度信息；

根据所述颜色特征、所述几何特征和所述模型的几何特征，构建第二融合特征；所述第二融合特征包含所述模型中的颜色信息和深度信息；

根据所述第一融合特征和所述第二融合特征，构建得到总体特征；

根据所述总体特征，通过位姿估计网络确定所述目标物体的6D位姿。

优选地，所述对包含目标物体的RGB图像和深度图进行特征提取，得到不同特征点的颜色特征和几何特征，包括：

获取包含目标物体的RBG图像以及包含目标物体的深度图；

通过相机内参矩阵将所述深度图转化为场景点云；

从所述RBG图像和所述场景点云中提取像素级别的第一特征点；

对若干个所述第一特征点进行随机采样，确定所述场景的颜色特征和几何特征；

通过PointNet从物体模型的颜色信息集合和位置信息集合中提取第二特征点；

对若干个所述第二特征点进行随机采样，确定所述模型的颜色特征和几何特征。

优选地，所述将每个所述特征点的颜色特征和几何特征进行关联，得到场景的几何特征和模型的几何特征，包括：

通过相机内参矩阵，根据所述特征点在图像平面上的投影，将所述特征点的几何特征与对应的颜色特征相关联，得到特征对；

对所述特征对进行连接，并且通过对称函数生成全局特征向量；

其中，所述全局特征向量包括场景的几何特征和模型的几何特征。

优选地，所述根据所述场景的几何特征和所述模型的几何特征，确定所述目标物体的相关图，包括：

对所述场景的几何特征和所述模型的几何特征进行点积运算，得到所述目标物体的相关图；

其中，所述点积运算的计算公式为：

E＝ψ_m(P_m)·ψ_s(I_d)^T

其中，

代表所述目标物体的相关图；ψ_m(P_m)代表模型的几何特征；ψ_s(I_d)代表场景的几何特征。

优选地，所述根据所述相关图确定注意力响应图，包括：

将softmax函数应用于所述相关图的每一列来计算得到所述注意力响应图；

其中，所述注意力响应图的计算公式为：

其中，A中的每一列代表概率密度；A_ij表示物体模型中的第i个几何特征与场景信息中的第j个几何特征之间的相似度；E_k,j代表所述目标物体的相关图。

优选地，所述根据所述相关图确定注意力响应图之后，还包括：

将颜色特征确定为显式软约束；

根据所述显式软约束，通过所述注意力响应图维持颜色特征与几何特征之间的注意力一致性；

其中，所述注意力一致性的数学表达式为：

其中，H_j代表重构的场景的颜色特征；A_ij物体模型中的第i个几何特征与场景信息中的第j个几何特征之间的相似度；φ_m(C_m)代表模型的颜色特征。

优选地，所述根据所述总体特征，通过位姿估计网络确定所述目标物体的6D位姿，包括：

对所述总体特征进行编码；

计算位姿估计损失；

根据所述位姿估计损失，确定损失函数；

构建自监督置信度；

根据所述损失函数和所述自监督置信度，计算得到总损失函数；

根据所述总损失函数，从编码后的总体特征中确定所述目标物体的6D位姿。

本发明实施例还提供了一种物体6D位姿估计装置，包括：

第一特征提取模块，用于对包含目标物体的RGB图像和深度图进行特征提取，得到不同特征点的颜色特征和几何特征；

第二特征提取模块，用于对所述目标物体的模型信息进行特征提取，得到不同特征点的模型的颜色特征和模型的几何特征；

关联模块，用于将每个所述特征点的颜色特征和几何特征进行关联，得到场景的几何特征和模型的几何特征；

第一确定模块，用于根据所述场景的几何特征和所述模型的几何特征，确定所述目标物体的相关图；

第二确定模块，用于根据所述相关图确定注意力响应图；

第一构建模块，用于根据所述颜色特征、所述几何特征和所述场景的几何特征，构建第一融合特征；所述第一融合特征包含所述场景中的颜色信息和深度信息；

第二构建模块，用于根据所述颜色特征、所述几何特征和所述模型的几何特征，构建第二融合特征；所述第二融合特征包含所述模型中的颜色信息和深度信息；

第三构建模块，用于根据所述第一融合特征和所述第二融合特征，构建得到总体特征；

第三确定模块，用于根据所述总体特征，通过位姿估计网络确定所述目标物体的6D位姿。

本发明实施例还提供了一种电子设备，，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例对包含目标物体的RGB图像和深度图进行特征提取，得到不同特征点的颜色特征和几何特征；将每个所述特征点的颜色特征和几何特征进行关联，得到场景的几何特征和模型的几何特征；根据所述场景的几何特征和所述模型的几何特征，确定所述目标物体的相关图；根据所述相关图确定注意力响应图；根据所述颜色特征、所述几何特征和所述场景的几何特征，构建第一融合特征；所述第一融合特征包含所述场景中的颜色信息和深度信息；根据所述颜色特征、所述几何特征和所述模型的几何特征，构建第二融合特征；所述第二融合特征包含所述模型中的颜色信息和深度信息；根据所述第一融合特征和所述第二融合特征，构建得到总体特征；根据所述总体特征，通过位姿估计网络确定所述目标物体的6D位姿。本发明在位姿估计任务中引入了物体的深度图，能避免由于投影而丢失刚性物体的部分几何约束信息所造成的网络性能下降；在位姿估计任务中引入了物体模型的先验信息，能避免网络由于物体外观的歧义性所造成的网络性能下降，提高了实时性和鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图；

图2为本发明实施例提供的整体框架示意图；

图3为本发明实施例提供的注意力一致性损失的计算过程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例提供了一种基于注意力一致性网络的6D物体位姿估计方法，旨在显式有效地利用物体模型的先验信息。其中，物体模型是一个密集的点云模型，每个顶点都包含三维位置信息和RGB信息。并引入注意力一致性损失来指导网络训练，保持场景RGB-D图像的颜色信息和深度信息与物体模型的先验信息之间的注意力一致性。从而可以实时地对目标物体进行6D位姿估计，同时对遮挡有良好的鲁棒性。

参考图1，本发明的物体6D位姿估计方法包括以下步骤：

根据所述相关图确定注意力响应图；

获取包含目标物体的RBG图像以及包含目标物体的深度图；

通过相机内参矩阵将所述深度图转化为场景点云；

其中，所述点积运算的计算公式为：

E＝ψ_m(P_m)·ψ_s(I_d)^T

其中，

优选地，所述根据所述相关图确定注意力响应图，包括：

其中，所述注意力响应图的计算公式为：

将颜色特征确定为显式软约束；

其中，所述注意力一致性的数学表达式为：

对所述总体特征进行编码；

计算位姿估计损失；

根据所述位姿估计损失，确定损失函数；

构建自监督置信度；

下面结合说明书附图，以散乱场景下机器人进行三维物体拾取的过程为例，对本发明的物体6D位姿估计方法进行详细描述：

本发明的目的是为了克服现有技术存在的缺陷而提出了一种基于注意力一致性网络的6D物体位姿估计方法，旨在显式有效地利用物体模型先验信息，实现遮挡、杂乱等复杂场景下物体位姿的快速而准确的实时估计。

图2是本发明的整体框架结构示意图。具体来说，网络输入数据可以分为场景信息和物体模型信息。场景信息包括RGB图像和深度图像，而物体模型信息是一个密集的点云集合，其中每个顶点都包含三维位置信息和RGB信息。进一步可将点云集合划分为位置信息集合P_m和颜色信息集合C_m，以便网络可以分别提取单个模态特征。给定场景信息和物体模型先验信息，目标是估计目标物体从其世界坐标系到相机世界坐标系的刚性变换，即求解出相应的3D位置信息

和3D方向信息R∈SO(3)。该网络结构主要分为三个部分，分别是密度特征融合模块，注意力匹配模块，位姿估计模块。

1)密度特征融合模块

本发明可以通过语义分割模块提取包含目标物体的RGB图像I_rgb和深度图I_d。同时，利用已知的相机内参矩阵，将深度图I_d转化为场景点云。然后，可以使用PSPNet和PointNet分别从I_rgb和场景点云提取像素级别的特征。为了保持不同场景和物体模型的一致性，随机采样N个特征点，即得到场景的颜色特征

和几何特征

类似地，使用PointNet从物体模型的颜色信息集合C_m和位置信息集合P_m提取特征，随机采样N个特征点，即得到模型的颜色特征

和几何特征

为了获得全局特征，使用已知的相机内参矩阵，根据在图像平面上的投影，将每个点的几何特征与其对应的颜色特征像素相关联。然后，将获得的特征对进行连接并使用对称函数ζ(·,·)生成固定大小的全局特征向量。即可分别得到场景的全局特征

和模型的全局特征

2)注意力匹配模块

(a)、本发明采用共注意机制，通过使用几何特征来构造场景与物体模型的响应。具体地，利用上述密度特征融合模块得到的场景几何特征ψ_s(I_d)和模型的几何特征ψ_m(P_m)，对相应位置上的几何特征进行点积运算，得到相关图

数学表达式如下：

E＝ψ_m(P_m)·ψ_s(I_d)^T

接着，将softmax应用于相关图的每一列，获得注意力响应图

数学表达式如下：

其中，A中的每一列代表概率密度，而A_ij则表示物体模型中的第i个几何特征与场景信息中的第j个几何特征之间的相似度。

(b)、如图3所示，本发明将颜色特征设计为显式的软约束，并隐式地利用注意力响应图A以维持颜色特征和几何特征之间的注意力一致性。

理想情况下，注意力响应图A描述场景点云和先验对象模型之间的几何相似性。在一定程度上，几何相似性也反映了物体模型和场景之间的颜色相似性。为了使用物体模型颜色特征来构造场景颜色特征，特征与场景越相似，其相应的权重就越大。因此，可通过物体模型的颜色特征和注意力响应图A重构场景的颜色特征H，其数学表达式为：

其中，

反映场景中特定区域的特征与反映物体模型中相同区域的特征具有相同的表征。在这种情况下，对于颜色和几何信息，特征之间的相关图都应具有较大的响应。因此，上述重构的场景颜色特征H主要由物体模型中与场景相关的具有较大权重的特征所贡献。

也就是说，重构的场景颜色特征H应该与原始场景的颜色特征φ_s趋于一致，这可以隐式地引导注意力响应图A在颜色通道中保持相同的注意力。因此，本发明采用场景的颜色特征φ_s和构造的场景颜色特征H之间的均方误差(MSE)作为注意力一致性网络训练的损失，其数学表达式为：

(c)、为了构建包含场景中颜色和深度信息的融合特征

本发明将场景的颜色特征φ_s(I_rgB)、几何特征ψ_s(I_d)和全局特征ζ(ψ_s(I_d),φ_s(I_rgb))进行连接，其中D＝d_glob+d_rgb+d_geo。同样的，对于物体模型，通过连接物体模型的颜色特征φ_m(C_m)、几何特征ψ_m(P_m)和全局特征ζ(ψ_m(P_m),φ_m(C_m))可构造出物体模型的融合特征

类似于(b)，可通过注意力响应图A和物体模型的融合特征来重构在物体模型中与场景相关的融合特征

其数学表达式为：

其中，

最后，将场景的融合特征F_s与重构的物体模型的融合特征

连接起来，得到总体特征

3)位姿估计模块：

在对总体特征

进行编码后，使用位姿估计网络中预测物体的6D位姿。

本发明将位姿估计损失定义为在地面真实位姿中的物体模型上采样的点与由预测位姿转换的同一模型上的对应点之间的距离。数学表达式如下：

其中，x_j表示从物体的3D模型中随机采样的N个点的第j个点，p＝[R^*,t^*]代表地面真实位姿，p_i＝[R_i,t_i]代表从第i个点生成的预测位姿。但是，对称物体有多个规范框架，从而导致多次正确的3D旋转。因此，对于对称物体，上述损失函数应修改为：

为了能选择出最佳的预测位姿，网络除了输出估计的位姿之外，对于每一个像素点，还添加了自监督置信度c。将

乘以相应的置信度c_i并求和，数学表达式为：

最终，本发明的神经网络的总损失函数的数学表达式如下：

其中λ₁＝0.01和λ₂＝1.0是网络训练的超参数。

综上所述，本发明提出了一种用于新颖的6D位姿估计的注意力一致性网络。其一，在位姿估计任务中，引入了包含几何信息和颜色信息的物体模型先验信息。其二，通过使用共注意力机制，开发一种新的注意力一致性损失来指导网络训练，保持颜色和几何信息之间的注意力一致性。

相较于现有技术，本发明具有以下突出的优点：

1)、相比于基于RGB的方法，该方法在位姿估计任务中引入了物体的深度图，能避免由于投影而丢失刚性物体的部分几何约束信息所造成的网络性能下降。

2)、相比于基于RGB-D的方法，该方法在位姿估计任务中引入了物体模型的先验信息，能避免网络由于物体外观的歧义性所造成的网络性能下降。

本发明实施例还提供了一种物体6D位姿估计装置，包括：

特征提取模块，用于对包含目标物体的RGB图像和深度图进行特征提取，得到不同特征点的颜色特征和几何特征；

关联模块，用于将每个所述特征点的颜色特征和几何特征进行关联，得到场景的场景的几何特征和模型的模型的几何特征；

第二确定模块，用于根据所述相关图确定注意力响应图；

本发明实施例还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种物体6D位姿估计方法，其特征在于，包括：

根据所述相关图确定注意力响应图；

2.根据权利要求1所述的一种物体6D位姿估计方法，其特征在于，所述对包含目标物体的RGB图像和深度图进行特征提取，得到不同特征点的颜色特征和几何特征，包括：

获取包含目标物体的RBG图像以及包含目标物体的深度图；

通过相机内参矩阵将所述深度图转化为场景点云；

3.根据权利要求1所述的一种物体6D位姿估计方法，其特征在于，所述将每个所述特征点的颜色特征和几何特征进行关联，得到场景的几何特征和模型的几何特征，包括：

4.根据权利要求1所述的一种物体6D位姿估计方法，其特征在于，所述根据所述场景的几何特征和所述模型的几何特征，确定所述目标物体的相关图，包括：

其中，所述点积运算的计算公式为：

E＝ψ_m(P_m)·_s(I_d)^T

其中，

5.根据权利要求1所述的一种物体6D位姿估计方法，其特征在于，所述根据所述相关图确定注意力响应图，包括：

其中，所述注意力响应图的计算公式为：

6.根据权利要求5所述的一种物体6D位姿估计方法，其特征在于，所述根据所述相关图确定注意力响应图之后，还包括：

将颜色特征确定为显式软约束；

其中，所述注意力一致性的数学表达式为：

7.根据权利要求1所述的一种物体6D位姿估计方法，其特征在于，所述根据所述总体特征，通过位姿估计网络确定所述目标物体的6D位姿，包括：

对所述总体特征进行编码；

计算位姿估计损失；

根据所述位姿估计损失，确定损失函数；

构建自监督置信度；

8.一种物体6D位姿估计装置，其特征在于，包括：

第二确定模块，用于根据所述相关图确定注意力响应图；

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。