CN113269830B

CN113269830B - 基于几何约束协同注意力网络的6d位姿估计方法和装置

Info

Publication number: CN113269830B
Application number: CN202110535277.4A
Authority: CN
Inventors: 文永明; 方译权; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2023-04-07
Anticipated expiration: 2041-05-17
Also published as: CN113269830A

Abstract

本发明公开了基于几何约束协同注意力网络的6D位姿估计方法和装置，方法包括：从场景图像中提取第一图像块和第二图像块；从第一图像块中提取第一稠密特征，以及从第二图像块中提取第二稠密特征；对第一稠密特征进行采样处理得到第一采样特征，并对第二稠密特征进行采样处理得到第二采样特征；将第一采样特征和第二采样特征进行连接，得到场景全局特征；确定模型几何特征；根据场景全局特征和模型几何特征，确定协同注意力响应图；根据协同注意力响应图确定总体多模态特征；将总体多模态特征输入位姿估计网络中，预测得到对象的6D位姿。本发明能够提高位姿估计的性能，可广泛应用于机器人视觉技术领域。

Description

基于几何约束协同注意力网络的6D位姿估计方法和装置

技术领域

本发明涉及机器人视觉技术领域，尤其是基于几何约束协同注意力网络的6D位姿估计方法和装置。

背景技术

在位姿估计的过程中，经典方法对从RGB-D数据中提取的手工特征进行相应的分组和假设验证，这些特征很容易受到遮挡和照明变化的影响。随着深度学习的最新发展，许多新方法使用神经网络对RGB-D数据中的特征进行编码，并直接对姿势进行分类或回归。

注意机制广泛用于视觉问题解答，检测，语义分割，实例抓取等。注意机制有很多变体，其中协同注意力机制非常流行。协同注意机制使网络可以专注于多个输入中最相关的区域，并且共同注意图可以描述多个输入之间的关系。

目前基于RGBD的物体位姿估计方法的达到了较好的性能，但是大多数这些方法仅使用场景的RGB-D图像，并且通过相应的真实的姿态隐式告知网络中物体模型的3D形状应该是什么。即上述技术没有显式地使用物体模型先验中的重要信息，这些物体模型先验信息通常可用于位姿估计的基准数据集，并且很容易在工业界里通过3D扫描仪快速获得。而需要说明的是，6D是指三维旋转和三维平移。

发明内容

有鉴于此，本发明实施例提供基于几何约束协同注意力网络的6D位姿估计方法和装置，以提高位姿估计的性能。

本发明的一方面提供了一种基于几何约束协同注意力网络的6D位姿估计方法，包括：

从场景图像中提取第一图像块和第二图像块；

从所述第一图像块中提取第一稠密特征，以及从所述第二图像块中提取第二稠密特征；

对所述第一稠密特征进行采样处理得到第一采样特征，并对所述第二稠密特征进行采样处理得到第二采样特征；

将所述第一采样特征和所述第二采样特征进行连接，得到场景全局特征；

确定模型几何特征；

根据场景几何特征和所述模型几何特征，确定协同注意力响应图；

根据所述协同注意力响应图确定总体多模态特征；

将所述总体多模态特征输入位姿估计网络中，预测得到对象的6D位姿。

可选地，所述从所述第一图像块中提取第一稠密特征，以及从所述第二图像块中提取第二稠密特征，包括：

通过卷积神经网络从所述第一图像块中提取第一稠密特征；

通过三维点云网络从所述第二图像块中提取第二稠密特征。

可选地，所述将所述第一采样特征和所述第二采样特征进行连接，得到场景全局特征，包括：

对所述第一图像块和所述第二图像块进行裁剪处理，得到裁剪后的图像块；

确定所述第一采样特征和所述第二采样特征进行连接后得到的连接结果；

根据多层感知器和最大池化函数，对所述连接结果进行处理，得到所述裁剪后的图像块的场景全局特征。

可选地，所述确定模型几何特征，包括：

采用最远点采样算法进行特征采样，得到模型几何特征；

根据所述模型几何特征，通过多层感知器和最大池化函数，生成模型全局特征。

可选地，所述方法还包括构建所述协同注意力响应图的几何约束条件的步骤，该步骤包括：

通过真实姿态将场景点云中的点转换为对象模型的点云所在的标准姿态中；

计算转换后的点与对象模型中所有点之间的距离；

计算转换后的点的法线与对象模型中的点的法线之间的角度；

根据所述距离和角度，计算权重；

根据所述权重计算几何约束的损失；

根据所述几何约束的损失进行引导，训练协同注意力模块。

可选地，所述根据场景几何特征和所述模型几何特征，确定协同注意力响应图，包括：

在每个位置计算场景几何特征和模型几何特征之间的点积；

根据所述点积，将softmax函数应用于相关图的每一列中，计算得到协同注意力响应图。

可选地，所述将所述总体多模态特征输入位姿估计网络中，预测得到对象的6D位姿，包括：

根据真实位姿与预测位姿转换在同一模型上的最近对应点的距离，确定6D位姿估计损失；

根据自监督置信度和所述6D位姿估计损失，计算总损失函数；

根据所述总损失函数，训练得到位姿估计网络；

根据所述位姿估计网络，预测得到对象的6D位姿。

本发明实施例的另一方面提供了一种基于几何约束协同注意力网络的6D位姿估计装置，包括：

第一模块，用于从场景图像中提取第一图像块和第二图像块；

第二模块，用于从所述第一图像块中提取第一稠密特征，以及从所述第二图像块中提取第二稠密特征；

第三模块，用于对所述第一稠密特征进行采样处理得到第一采样特征，并对所述第二稠密特征进行采样处理得到第二采样特征；

第四模块，用于将所述第一采样特征和所述第二采样特征进行连接，得到场景全局特征；

第五模块，用于确定模型几何特征；

第六模块，用于根据场景几何特征和所述模型几何特征，确定协同注意力响应图；

第七模块，用于根据所述协同注意力响应图确定总体多模态特征；

第八模块，用于将所述总体多模态特征输入位姿估计网络中，预测得到对象的6D位姿。

本发明实施例的另一方面提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例从场景图像中提取第一图像块和第二图像块；从所述第一图像块中提取第一稠密特征，以及从所述第二图像块中提取第二稠密特征；对所述第一稠密特征进行采样处理得到第一采样特征，并对所述第二稠密特征进行采样处理得到第二采样特征；将所述第一采样特征和所述第二采样特征进行连接，得到场景全局特征；确定模型几何特征；根据场景几何特征和所述模型几何特征，确定协同注意力响应图；根据所述协同注意力响应图确定总体多模态特征；将所述总体多模态特征输入位姿估计网络中，预测得到对象的6D位姿。本发明能够提高位姿估计的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤示意

图2为本发明实施例提供的几何约束损失的计算过程示意图；

图3为本发明实施例提供的几何约束的一个实例的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例提供了一种基于几何约束协同注意力网络的6D位姿估计方法，包括：

从场景图像中提取第一图像块和第二图像块；

确定模型几何特征；

根据所述协同注意力响应图确定总体多模态特征；

通过卷积神经网络从所述第一图像块中提取第一稠密特征；

通过三维点云网络从所述第二图像块中提取第二稠密特征。

可选地，所述确定模型几何特征，包括：

采用最远点采样算法进行特征采样，得到模型几何特征；

计算转换后的点与对象模型中所有点之间的距离；

根据所述距离和角度，计算权重；

根据所述权重计算几何约束的损失；

根据所述几何约束的损失进行引导，训练协同注意力模块。

在每个位置计算场景几何特征和模型几何特征之间的点积；

根据所述总损失函数，训练得到位姿估计网络；

根据所述位姿估计网络，预测得到对象的6D位姿。

本发明实施例还提供了一种基于几何约束协同注意力网络的6D位姿估计装置，包括：

第五模块，用于确定模型几何特征；

本发明实施例还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

下面结合说明书附图，对本申请的具体实现方法进行详细描述：

如图1所示，图1是本发明的整体框架结构，本发明提供了基于几何约束的协同注意力机制的6D位姿估计方法，其中6D指的是六自由度包括三维的旋转和三维的平移。

1)特征提取：

要从场景图像中定位目标对象，使用语义分割模型从场景图像RGB-D(其中，RGB-D可从深度相机获取而来)中提取一对仅包含对象的图像块I_rgb和I_d。然后，本发明使用CNNφ_s(·)和PointNetψ_s(·)分别从I_rgb场景中提取稠密的第一稠密特征，并从使用相机内参与I_d生成的点云中提取稠密的第二稠密特征。为了保持不同场景和对象的一致性，本发明随机采样用于下游模块的N个特征对，这些采样后的特征对被表示为ψ_s(Id)和φ_s(I_rgb)。为了获得场景全局特征，本发明将场景颜色和几何特征连接起来，并使用多层感知器(MLP，一种人工神经网络，能够提取相关的特征)和最大池化函数来生成裁剪后的RGB-D图像块的场景全局特征，并重复N次以获取ζ(ψ_s(I_d)，φ_s(I_rgb))。同样，本发明使用PointNetψ_m(·)从模型点云P_m中提取特征，并使用最远点采样算法分别对N个特征进行采样，以获得模型几何特征ψ_m(P_m)。为了获得模型的全局特征描述符(需要说明的是，模型的全局特征描述符，与场景全局特征描述符的区别在于提取到的特征的数据源不同，场景全局特征描述符来自于场景信息，模型的全局特征描述符来自于模型信息)，本发明还使用MLP和最大池化函数来生成对象模型先验的模型全局特征，表示为F_m。

2)协同注意力：

首先，使用点向特征提取模块中的场景几何特征ψ_s(I_d)和对象模型几何特征ψ_m(P_m)，本发明在每个对应位置计算两个几何特征之间的点积，以获得相关图E如下：

E＝ψ_m(P_m)·ψ_s(I_d)^T

接着，将softmax应用于相关图的每一列，获得协同注意力响应图A(需要说明的是，本发明的协同注意力响应图用于描述场景几何特征与模型几何特征的相似性)：

其中，A中的每一列都可以视为概率密度，而A_ij衡量第i个场景几何特征与第j个模型几何特征之间的相似度。

为了提供清晰的信息来指导共同注意模块的训练，本发明引入了明确的几何约束条件来指示协同注意图应满足的几何约束，图2展示了几何约束是怎样被引入的，具体地：

第一步：本发明通过真实姿态将场景点云中的点转换为模型点云所在的标准姿态中。

第二步：计算转换后的点

与模型中所有点之间的距离d。计算变换后的点的法线与对象模型中的点的法线之间的角度θ，如图3所示。

具体计算公式为：

其中，

为场景点云中的第i点，

为模型点云中的第j点，

为第i点的法向量

的向量模，而

为第j点的法向量

的向量模。

第三步：计算权重w，将本发明设计的函数f(·)应用到d和θ，计算公式如下：

其中α和β为实验调整的正参数。

最后，几何约束的损失

计算如下：

通过几何约束的损失

进行引导，训练协同注意力模块。多模态拼接方式是，先将上述提到的特征ψ_s(I_d)、φ_s(I_rgb)和ζ(ψ_s(I_d)，φ_s(I_rgb))进行拼接得到场景多模态特征F_s，再将F_s、A以及F_m进行拼接得到总体多模态特征F。

3)六自由度位姿估计：

再将总体多模态特征F投入使用位姿估计网络中预测物体的6D位姿。

6D位姿估计损失是真实位姿与预测位姿转换的同一模型上的最近对应点的距离：

其中，x_j表示从物体的物体模型中随机采样的N个点的第j个点，p＝[R^*，t^*]代表地面真实位姿，p_i＝[R_i，t_i]代表从第i个点生成的预测位姿。而对于对称物体，6D位姿估计损失损失函数为：

为了能选择出最佳的预测位姿，网络除了输出估计的位姿之外，对于每一个像素点，还添加了自监督置信度c。将

乘以相应的置信度c_i并求和，数学表达式为：

最终，总损失函数为：

其中，λ₁和λ₂是网络训练的超参数。

综上所述，相较于现有技术，本发明提出一种有效的方法来明确介绍对象的先验知识(即对象模型点云)以估计6D对象姿势。并且提出了一种新颖的方法来事先提取场景中的点与对象模型之间的对应关系，它提供了清晰的信息来指导共同注意模块的训练。可以有效地消除在网络之前直接引入物体模型的副作用，从而取得显着的改进。

相较于现有技术，本发明在位姿估计任务中使用协同注意力机制显式的引入了物理几何约束信息。本发明还利用几何约束信息，开发了一种新的几何约束损失来指导网络训练，保持了物体模型点云和场景点云之间的显式约束。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。