CN117522990A

CN117522990A - 基于多头注意力机制和迭代细化的类别级位姿估计方法

Info

Publication number: CN117522990A
Application number: CN202410010438.1A
Authority: CN
Inventors: 包永堂; 李豪杰; 苏春健
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-02-06
Anticipated expiration: 2044-01-04
Also published as: CN117522990B

Abstract

本发明公开了一种基于多头注意力机制和迭代细化的类别级位姿估计方法，属于计算机视觉领域，包括以下步骤：步骤1、获取现有公开数据集的RGB‑D图像；步骤2、构建基于多头注意力机制和迭代细化的类别级位姿估计模型；步骤3、构建整体损失函数来约束估计模型，得到粗粒度的初始位姿估计结果，在此基础上进行不断细化，得到训练完成的类别级位姿估计模型；步骤4、获取当前待预测物体的RGB‑D图像，基于已经训练完成的位姿估计模型直接预测当前图像中目标物体的6D位姿。本发明通过残差预测迭代精化和多头注意力特征融合模块提高了位姿估计的准确率。

Description

基于多头注意力机制和迭代细化的类别级位姿估计方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多头注意力机制和迭代细化的类别级位姿估计方法。

背景技术

随着VR/AR技术的飞速发展，类别级位姿估计任务受到研究者越来越多的关注，并且在机器人操纵、虚拟现实和自动驾驶等许多现实应用中发挥着重要作用。类别级位姿估计的目标是为了准确地估计出特定类别下新物体在三维空间中的位置与朝向。实例级方法需要已知物体的几何与纹理信息，还需要借助该物体精确的CAD模型，因此此类模型的应用场景十分有限。与之相反，类别级位姿估计任务可以捕捉到该类物体更一般的属性，因此可以在不借助CAD模型的情况下，估计出同一类别下所有物体的位姿。

由于同类物体之间存在着巨大的类内差异，类别级位姿估计仍然面临着精度低、泛化性差等诸多挑战。许多研究人员从改善网络结构，增加输入数据等方法入手，对位姿估计任务中存在的物体间遮挡、缺少纹理信息和光照变化等问题进行研究，取得了许多有价值的成果。由于光照变化、模糊失真等原因，RGB信息存在纹理复杂、噪声多等问题。许多方法只将物体的深度信息用于位姿估计，这虽然一定程度上避免了噪声的干扰，但同时也丢失了图像中有用的纹理信息。其他工作尝试将上述模型已估计的位姿作为初始位姿，设计特殊的输出头隐式地预测位姿残差，以便对初始结果进行精化。但由于需要设计额外的网络来优化位姿，无法端到端的获取结果，应用场景有限。

发明内容

为了解决上述问题，本发明提出了一种基于多头注意力机制和迭代细化的类别级位姿估计方法，设计了新的坐标变换注意力模块，使用多头注意力机制处理RGB特征以及相机、世界坐标系下的点云特征，计算颜色信息对点云坐标变换全局特征的注意力情况，来更好的提取位姿敏感信息；与此同时，本发明采用显式与隐式变换相结合的方法，通过构建物体实例在相机与世界坐标系之间的关联关系获取位姿敏感特征，设计端到端的估计和迭代精化网络来获取鲁棒的位姿估计结果。

本发明的技术方案如下：

一种基于多头注意力机制和迭代细化的类别级位姿估计方法，包括如下步骤：

步骤1、获取现有公开数据集的RGB-D图像；

步骤2、构建基于多头注意力机制和迭代细化的类别级位姿估计模型；

步骤3、构建整体损失函数来约束估计模型，得到粗粒度的初始位姿估计结果，在此基础上进行不断细化，得到训练完成的类别级位姿估计模型；

步骤4、获取当前待预测物体的RGB-D图像，基于已经训练完成的位姿估计模型直接预测当前图像中目标物体的6D位姿。

进一步地，步骤1中，公开数据集包括合成数据集CAMERA25和真实数据集REAL275；其中，合成数据集CAMERA25包含300K张由真实背景和虚拟对象合成的RGB-D图像；真实数据集REAL275包含8K张18个不同的真实场景下的RGB-D图像；两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品；RGB-D图像为RGB颜色与深度图像。

进一步地，步骤2中，类别级位姿估计模型包括特征编码器模块、坐标变换注意力模块、初始位姿估计模块和位姿迭代精化模块；

类别级位姿估计模型的工作过程为：

步骤2.1、采用特征编码模块对RGB-D图像进行特征提取；

步骤2.2、基于多头注意力机制的坐标变换注意力模块，获取世界坐标系下的RGB图像特征；

步骤2.3、基于初始位姿估计模块，预测获得粗粒度的位姿估计结果；

步骤2.4、基于位姿迭代精化模块完成对位姿的迭代精化。

进一步地，步骤2.1的具体过程为：

步骤2.1.1、采用Mask-Rcnn算法对RGB图像中的物体进行实例分割，获得物体的掩码图，并通过金字塔场景解析网络进行特征提取，获得相机坐标系下的RGB图像特征；Mask-Rcnn算法为一种实例分割算法；

步骤2.1.2、将深度图像映射为三维点云，并通过PointNet++对三维点云进行特征提取，得到相机坐标系下的位置编码和几何特征；PointNet++是一个点云特征提取与分类网络；

步骤2.1.3、将提取的相机坐标系下的RGB图像特征、位置编码和几何特征/>进行拼接，并利用神经网络对点云进行隐式坐标变换，得到世界坐标系下的点云及其点云特征/>。

进一步地，步骤2.2的具体过程为：

步骤2.2.1、将、/>和/>分别设为多头注意力的查询/>、键/>与值/>，使用点积运算的方式计算查询/>与键/>之间的相似度，并与值/>相乘获得RGB图像在世界坐标系下的RGB图像特征/>；多头注意力计算中第/>个头的输出公式为：

(1)；

其中，为第/>个头的输出；/>为softmax归一化操作；/>为转置符号；/>为头的数量；/>为第/>个头的查询，/>为第/>个头的键，/>为第/>个头的值，计算公式分别如下：

(2)；

(3)；

(4)；

其中，、/>、/>分别为第/>个头的查询、键、值可学习的投影矩阵；

步骤2.2.2、每个头分别对点云在不同世界坐标系中的特征关联度进行单独计算；将每个头的输出结果进行拼接，最终结果表示为：

(5)；

其中，为多头注意力机制最终的输出结果，/>为第1个头的输出，/>为第/>个头的输出，/>为拼接操作；

步骤2.2.3、将传入基于位置的前馈神经网络，获取世界坐标系下的RGB图像特征/>；前馈神经网络由多个全连接层和激活函数组成，全连接层进行线性变换，具体计算公式为：

(6)；

其中，为前馈神经网络计算。

进一步地，步骤2.3的具体过程为：

将相机坐标系下的RGB图像特征、位置编码和几何特征/>以及世界坐标系下的RGB图像特征/>进行特征拼接，通过初始位姿解码器进行预测，得到物体粗粒度的初始位姿；将初始位姿解码器与多头位姿残差解码器的参数进行共享，初始位姿解码器与位姿迭代精化模块中多头位姿残差解码器的计算方式相同。

进一步地，步骤2.4的具体过程如下：

步骤2.4.1、将步骤2.3得到的物体粗粒度的初始位姿设置为4×4的坐标变换矩阵，通过矩阵相乘将三维点云从相机坐标系显式坐标变换到世界坐标系下，并使用pointnet++再次提取世界坐标系下的三维点云特征来优化点云的几何特征；

步骤2.4.2、将不同坐标系下的RGB图像特征、点云特征和位置编码进行特征拼接，传入多头位姿残差解码器；

步骤2.4.3、多头位姿残差解码器部分采用多层感知机与转置操作利用物体的局部几何特征预测旋转残差，采用多层感知机与全局平均池化操作提取全局特征预测位移残差，并将预测的初始位姿的旋转残差和位移残差添加到粗粒度的初始位姿中对其进行优化，将优化后的位姿重新设为初始位姿，循环步骤2.4.3，直到达到设定的最大迭代次数，循环结束，此时得到最终的位姿估计结果。

进一步地，步骤2.4.3中，多头位姿残差解码器中采用旋转和位移两个独立的分支输出头分别进行预测；

在位移输出头中，使用全连接层将输入特征映射到256维，并使用全局平均池化操作获取全局特征，将其与池化前的特征向量进行拼接，最后预测位移，位移包括位置与大小；位移输出头表示为：

(7)；

(8)；

其中，为位移预测特征向量；/>为位置；/>为大小；/>表示特征拼接；/>为多层感知器；/>为平均池化操作；/>表示将特征向量复制/>次；

在旋转输出头中，使用全连接层对物体旋转进行预测，旋转输出头表示为：

(9)；

其中，为旋转向量。

进一步地，步骤3中，整体损失函数由初始位姿估计损失与迭代位姿估计损失两部分组成；整体损失函数如下：

(10)；

其中，为初始位姿估计损失；/>为当前迭代次数；/>为最大迭代次数；/>为第/>次的特征损失超参数；/>为第/>次的特征估计损失；/>为第/>次的点损失超参数；/>为第次的点损失；/>为第/>次的位姿估计损失。

本发明所带来的有益技术效果如下：本发明提出一个新颖的基于多头注意力机制和迭代细化的类别级位姿估计方法，采用显式与隐式变换相结合的方式，实现初始位姿的估计与结果的迭代细化；提出了基于多头注意力机制的坐标变换注意力模块，提取RGB信息中有助于坐标变换的特征，促进不同模态特征之间的融合；本发明为旋转与位移残差估计设计了单独的解码器，有效利用物体的局部几何信息与全局特征，进一步提升最终的预测结果。

附图说明

图1为本发明基于多头注意力机制和迭代细化的类别级位姿估计方法的流程图。

图2为本发明基于多头注意力机制和迭代细化的类别级位姿估计模型的网络结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

首先给出如下术语的解释：

深度图：深度图指存储单视图所有像素的深度值的二维图像。深度图每个位置保存的是该位置像素的深度值，也就是相机坐标系下的Z坐标值。

位姿估计：位姿表示可以视为刚体在三维空间中位置和运动的描述。位姿估计即找到现实世界和传感器投影之间的对应点，然后根据这些点对的类型(2D-2D，2D-3D，3D-3D)，采取相应的方法来估计出传感器的位置和姿态。

多头注意力机制：多头注意力机制是注意力机制的一种扩展形式，可以在处理序列数据时更有效地提取信息。在多头注意力中，使用多组注意力权重计算加权的上下文向量来表示输入序列的信息，每组权重可以学习到不同的语义信息，并且每组权重都会产生一个上下文向量。最后，这些上下文向量会被拼接起来，再通过一个线性变换得到最终的输出。多头注意力机制是Transformer模型中的一个重要组成部分，被广泛用于各种自然语言处理任务，如机器翻译、文本分类等。

NOCS数据集：该数据集包括合成数据集CAMERA25和真实数据集REAL275。其中CAMERA25包含300K张由真实背景和虚拟对象合成的RGB-D图像，真实数据集REAL275包含8K张18个不同的真实场景下的RGB-D图像，这两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品。

RGB-D图像：即RGB颜色与深度图像，由两幅图像组成：一个是普通的RGB三通道彩色图像，另一个是Depth图像。Depth图像即深度图像，类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系。

多层感知机：多层感知机，是一种基于前馈神经网络的深度学习模型，由多个神经元层组成，其中每个神经元层与前一层全连接。多层感知机可以用于解决分类、回归和聚类等各种机器学习问题。多层感知机的的输入层接收输入特征，输出层给出最终的预测结果，中间的隐藏层用于提取特征和进行非线性变换。每个神经元接收前一层的输出，进行加权和与激活函数运算，得到当前层的输出。通过不断迭代训练，多层感知机可以自动学习到输入特征之间的复杂关系，并对新的数据进行预测。

点云：即将3D模型表示为离散的点云数据，每个点包含其三维坐标和可能的其他属性（例如颜色、法向量等）。点云描述在激光扫描和三维重建中被广泛使用。

3D IOU：即3D交并比，是指在预测的3D包围框与真值包围框之间交集与并集的比值，表示有多少重叠部分。

Umeyama算法：Umeyama算法是为了计算两组数据之间的位置关系，例如两组位于不同坐标系下的点云数据，若事先已经知道点云之间的对应关系，则利用Umeyama算法可以计算出两组数据间的旋转与平移矩阵。

Encoder-decoder架构：即编码器-解码器架构，深度学习的编码器与解码器是指一种用于自动学习特征表示的模型结构。编码器将输入数据转换为低维度的表示，解码器则将该低维度表示转换回原始数据空间。

如图1所示，基于多头注意力机制和迭代细化的类别级位姿估计方法具体包括步骤如下：

步骤1、获取现有公开数据集的RGB-D图像，构建训练数据集。

本发明采用的公开数据集包括合成数据集CAMERA25和真实数据集REAL275。其中，合成数据集CAMERA25包含300K张由真实背景和虚拟对象合成的RGB-D图像。真实数据集REAL275包含8K张18个不同的真实场景下的RGB-D图像这两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品。

步骤2、构建基于多头注意力机制和迭代细化的类别级位姿估计模型。

如图2所示，所述类别级位姿估计模型的网络架构包括特征编码器模块、坐标变换注意力模块、初始位姿估计模块和位姿迭代精化模块；特征编码器模块分别从RGB图像与深度图像中获取物体位置编码、几何特征和图像特征；点云分为相机坐标系下和世界坐标系下两种，相机坐标系下的点云由深度图映射所得，世界坐标系下的点云由神经网络隐式坐标变换所得；坐标变换注意力模块利用多头注意力机制融合多模态特征，对相机、世界坐标系下的点云特征进行点积运算，通过坐标变换注意力计算提取图像中的位姿敏感特征；初始位姿估计模块包括多个分支的位姿解码器，预测目标的初始位姿，即初始旋转和初始位移；位姿迭代精化模块包括由全连接层组成的多层感知机、以及为旋转和位移单独设计的多头位姿残差解码器，通过预测位姿残差优化初始位姿，迭代该模块可以显著提高位姿估计结果的精度。

类别级位姿估计模型的工作过程为：

步骤2.1、采用特征编码模块对RGB-D图像进行特征提取。具体过程为：

步骤2.1.1、采用Mask-Rcnn算法对RGB图像中的物体进行实例分割，获得物体的掩码图，并通过金字塔场景解析网络PSPNet进行特征提取，获得相机坐标系下的RGB图像特征；Mask-Rcnn算法是一种实例分割算法，可以进行物体检测和实例分割；

步骤2.1.2、将深度图像映射为三维点云，并通过PointNet++对三维点云进行特征提取，得到相机坐标系下的位置编码和几何特征；PointNet++是一个点云特征提取与分类网络，分层处理空间中的三维点云；

步骤2.1.3、将相机坐标系下的RGB图像特征、位置编码和几何特征/>进行拼接，并利用神经网络对点云进行隐式坐标变换，得到世界坐标系下的点云及其点云特征/>。

步骤2.2、基于多头注意力机制的坐标变换注意力模块，获取世界坐标系下的RGB图像特征。由于不同坐标系下的点云特征不存在几何上的差别，所以坐标变换注意力模块能很好的捕获两组特征中位姿的关联关系。具体过程为：

步骤2.2.1、将、/>和/>分别设为多头注意力的查询/>、键/>与值/>，使用点积运算的方式计算查询/>与键/>之间的相似度，并与值/>相乘获得RGB图像在世界坐标系下的RGB图像特征/>。语义特征结合了更多的上下文信息，帮助网络更好的预测物体在相机空间中的位置和大小。多头注意力计算中第/>个头的输出公式为：

(1)；

(2)；

(3)；

(4)；

(5)；

步骤2.2.3、为了进一步提取局部特征，增强模型的表达能力，将传入基于位置的前馈神经网络，获取世界坐标系下的RGB图像特征/>。其中前馈神经网络由多个全连接层和激活函数组成，全连接层进行线性变换，具体计算公式为：

(6)；

其中，为前馈神经网络计算；

步骤2.3、基于初始位姿估计模块，预测获得粗粒度的位姿估计结果。具体过程为：

将相机坐标系下的RGB图像特征、位置编码和几何特征/>以及世界坐标系下的RGB图像特征/>进行特征拼接，通过初始位姿解码器进行预测，得到物体粗粒度的初始位姿，为了减少参数量，提升模型泛化能力，将初始位姿解码器与多头位姿残差解码器进行参数共享，初始位姿解码器与位姿迭代精化模块中多头位姿残差解码器的计算方式相同。

步骤2.4、基于位姿迭代精化模块完成对位姿的迭代精化。具体过程如下：

步骤2.4.1、将步骤2.3得到的物体粗粒度的初始位姿设置为4×4的坐标变换矩阵，用来调整相机坐标系下的三维点云坐标；通过矩阵相乘将三维点云从相机坐标系显式坐标变换到世界坐标系下，并使用pointnet++再次提取世界坐标系下更精确的三维点云特征来优化点云的几何特征，提高点云特征与位姿关联关系的准确性；

步骤2.4.2、将不同坐标系下的RGB图像特征、点云特征和位置编码进行特征拼接，传入多头位姿残差解码器，获取初始位姿的旋转残差和位移残差；

步骤2.4.3、多头位姿残差解码器部分采用多层感知机与转置操作充分利用物体的局部几何特征预测初始位姿的旋转残差，采用多层感知机与全局平均池化操作提取全局特征预测初始位姿的位移残差，并将预测的初始位姿的旋转残差和位移残差添加到粗粒度的初始位姿中对初始位姿进行优化，将优化后的位姿重新设为初始位姿，循环步骤2.4.3实现对位姿的迭代精化，直到达到设定的最大迭代次数，循环结束，此时得到最终的位姿估计结果。

旋转估计的关键在于物体局部几何信息的利用，尤其是作为物体根本属性的几何特征。例如马克杯的把手占杯身一小部分，却对杯子的朝向预测起着至关重要的作用，而位移则依赖马克杯整体包含的上下文信息。为了解决不同输出之间的差异性问题，多头位姿残差解码器部分为旋转和位移设计了两个独立的分支头分别进行预测。

在位移输出头中，使用全连接层将输入特征映射到256维，并使用全局平均池化操作获取全局特征，将其与池化前的特征向量进行拼接，最后预测位移；位移输出头表示为：

(7)；

(8)；

其中，为位移预测特征向量；/>为位置；/>为大小；/>表示特征拼接；/>为多层感知器；/>为平均池化操作；/>将特征向量复制/>次；

使用两个垂直向量来表示旋转，由于池化操作会导致局部几何特征的丢失，因此在旋转输出头中，使用全连接层对物体旋转进行预测，旋转输出头表示为：

(9)；

其中，为旋转向量。

特别的，本发明的初始位姿解码器与多头位姿残差解码器都采用多头的方式实现。

步骤3、构建整体损失函数来约束估计模型，得到粗粒度的初始位姿估计结果，在此基础上进行不断细化，得到训练完成的类别级位姿估计模型。

本发明的整体损失函数由初始位姿估计损失与迭代位姿估计损失两部分组成，都由点损失项、特征损失项以及位姿损失项三类损失项构成。特别的，为了提升位姿估计结果的精度，对迭代位姿估计模块的每一层中间结果都进行监督，整体损失函数如下：

(10)；

其中，为初始位姿估计损失；/>为当前迭代次数；/>为最大迭代次数；/>为第/>次的特征损失超参数；/>为第/>次的特征估计损失；/>为第/>次的点损失超参数；/>为第/>次的点损失；/>为第/>次的位姿估计损失。

本发明类别级位姿估计模型在合成数据集CAMERA25和真实数据集REAL275上进行训练，在真实数据集REAL275上进行评估。选取真实数据集REAL275中7个场景约4300张图片进行训练，5个场景约950张图片进行验证，剩余6个场景约2750张图片用于测试。

为了验证本发明的可行性与优越性，进行了如下对比实验。对比实验在REAL275数据集上进行测试，使用3D交并比和a°b cm指标进行评价。

实验步骤1的输入数据为640×480大小的RGB-D图像，对输入图像进行实例分割，生成RGB图像与深度图像的掩码图。设置本次实验中对象点云个数为1024，分割后的RGB图像块大小为192×192。特征损失超参数和点损失超参数/>的超参数分别设置为10和1。实验的批量大小设置为24，训练时将真实数据集与合成数据集进行混合，比例为1：3。

对比实验结果：REAL275数据评估。

选取NOCS、FS-Net、SPD、SGPA、CATRE、DPDN、GPV-Pose、DualPosenet、Hs-Pose(2023)、IST-Net(2023)、V1-Net(2023)十一个方法在合成数据集CAMERA25和真实数据集REAL275上进行训练，在真实数据集REAL275上进行评估。其中，NOCS方法第一个提出将输入映射到标准的归一化坐标空间，通过点匹配的方法预测物体位姿。FS-Net方法提出利用3D图卷积自编码器进行观测点云的重建和分割，将旋转信息从潜在特征中解码为两个垂直向量。SPD方法利用形状先验模型来进行位姿估计，通过将ShapeNet上模型采样结果进行编码，输出类别平均潜在向量，构造了规范空间中的先验形状模型。在训练过程中对形状先验进行几何变形，并变换到归一化物体坐标空间中，通过Umeyama算法将其与观测点云进行配准来估计目标位姿。SGPA方法利用结构化的低秩Transformer对先验和实例之间的相似度进行建模，动态的为各个实例调整类别先验来进行位姿估计。CATRE方法使用其他网络的预测结果作为初始位姿，通过将观测点云与形状先验点云映射到共同的特征空间，来保持点云之间的关联特征，便于进行刚性变换。DPDN方法采用了自监督的方法减轻了输入数据之间的差距，并且在特征空间中对先验和实例进行匹配，通过建立深层对应关系来直接回归物体位姿。GPV-Pose方法包含直接位姿回归，对称感知重建和包围盒投票三个分支的类别级姿态估计框架，有效利用位姿与点云的几何关系提取位姿敏感特征。DualPosenet方法搭建了基于球面卷积的编码器，并设计球面融合模块处理颜色与形状特征，同时利用显式和隐式两个分支进行预测，并利用分支间位姿的一致性对结果进行细化。Hs-Pose(2023)方法对3D图卷积网络进行扩展，使之能从点云数据中感知局部和全局几何结构，编码位置和大小信息。IST-Net(2023) 在世界空间3D模型的监督下将相机与世界坐标系进行对齐，提出无需先验模型的隐式空间变换网络。V1-Net方法(2023)通过将旋转解耦为视点旋转和面内旋转的组合，使估计任务变得更容易。

表1 本发明方法与其他方法在REAL275数据集上的比较结果；

。

表1中，×表示没有采用先验，√表示采用先验。

3D交并比用来测量预测物体3D包围盒的准确性。物体包围盒由物体的旋转、位置与大小共同决定，通过比较预测包围盒与真值包围盒交集与并集之比是否大于阈值来判断预测结果是否准确，数值越大表示预测结果越接近真实值。实验中，使用3D₂₅、3D₅₀和3D₇₅作为测量标准，他们分别表示为25%、50%和75%的3D交并比阈值。本发明方法在3D₇₅指标上达到了79.6%，实现了最好的预测效果。

a°b cm度量标准用来精确测量预测位姿的误差。只有当旋转误差小于a°，位置误差小于b cm的时候才判断预测位姿准确，数值越大表示预测结果越接近真实值。实验中，使用了五组判断位姿准确性的标准，分别为5°2cm，5°5cm，10°2cm，10°5cm以及10°10cm。特别的，对于对称的物体类别(瓶、碗、罐)，由于不存在明确的正方向，因此忽略垂直轴上的旋转误差。本发明方法在5°2cm，10°2cm，10°5cm以及10°10cm指标上分别达到了50.2%、75.1%、83.6%和85.5%，高于其他方法，更贴近真实值。

由以上结果可知，本发明方法在多项指标上实现了最佳的预测效果，证明了本发明方法的先进性和有效性。

本发明提出了一种用于单目RGB-D图像物体位姿估计与优化的方法，可以对未曾见过的物体的位姿进行精确估计。本发明提出的坐标变换注意力模块可以从RGB图像中提取坐标变换敏感特征，减轻了图像的纹理噪声对位置估计的影响，使多头位姿残差解码器获取更准确的全局特征。本发明为旋转估计设计了单独的预测头，避免了解码过程中物体局部几何信息的丢失。最后，本发明的网络同时对位姿进行估计与迭代精化，这使得它可以更好地从输入中提取位姿敏感特征，更准确地对复杂形状的物体进行预测，面对噪声更加鲁棒。通过实验证明了网络各个模块的有效性。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，包括如下步骤：

步骤1、获取现有公开数据集的RGB-D图像；

2.根据权利要求1所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤1中，公开数据集包括合成数据集CAMERA25和真实数据集REAL275；其中，合成数据集CAMERA25包含300K张由真实背景和虚拟对象合成的RGB-D图像；真实数据集REAL275包含8K张18个不同的真实场景下的RGB-D图像；两个数据集都包含瓶子、碗、相机、罐头、笔记本电脑和马克杯六类物品；RGB-D图像为RGB颜色与深度图像。

3.根据权利要求2所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2中，类别级位姿估计模型包括特征编码器模块、坐标变换注意力模块、初始位姿估计模块和位姿迭代精化模块；

类别级位姿估计模型的工作过程为：

步骤2.1、采用特征编码模块对RGB-D图像进行特征提取；

步骤2.4、基于位姿迭代精化模块完成对位姿的迭代精化。

4.根据权利要求3所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.1的具体过程为：

5.根据权利要求4所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.2的具体过程为：

(1)；

(2)；

(3)；

(4)；

(5)；

(6)；

其中，为前馈神经网络计算。

6.根据权利要求5所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.3的具体过程为：

7.根据权利要求6所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.4的具体过程如下：

8.根据权利要求7所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤2.4.3中，多头位姿残差解码器中采用旋转和位移两个独立的分支输出头分别进行预测；

(7)；

(8)；

(9)；

其中，为旋转向量。

9.根据权利要求1所述基于多头注意力机制和迭代细化的类别级位姿估计方法，其特征在于，所述步骤3中，整体损失函数由初始位姿估计损失与迭代位姿估计损失两部分组成；整体损失函数如下：

(10)；