CN114119999B

CN114119999B - 基于深度学习的迭代6d位姿估计方法及装置

Info

Publication number: CN114119999B
Application number: CN202111456493.6A
Authority: CN
Inventors: 陈鹏; 郑逐隧
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2024-05-14
Anticipated expiration: 2041-12-02
Also published as: CN114119999A

Abstract

本发明为基于深度学习的迭代6D位姿估计方法及装置，该方法对3D‑2D关键点对应关系提取网络的输出进行编码处理，将3D‑2D关键点对应关系提取网络的输出编码为位姿粗估计网络的输入格式；然后输入到利用MLP、池化层、全连接层搭建的位姿粗估计网络中，从而结合为一个整体网络，能直接输出物体6D姿态，形成了端到端的6D物体位姿估计网络，6D物体位姿估计网络的损失函数为能够直接反映解算物体6D位姿参数的函数；利用正交迭代算法用于对6D物体位姿估计网络输出的6D姿态参数进行优化。本发明解决了当存在许多异常值时基于PnP算法计算目标姿态耗时长、可重复性差的问题，提高了位姿估计的效率及位姿估计的鲁棒性和准确性。

Description

基于深度学习的迭代6D位姿估计方法及装置

技术领域

本发明属于基于单目视觉的物体6D位姿估计领域，具体涉及一种基于深度学习的迭代6D位姿估计方法及装置。

背景技术

物体6D位姿估计是指估计相机坐标系下物体的6D姿态，包括旋转和平移，即得到物体本身坐标系到相机坐标系的旋转和平移变换。从单目RGB图像估计物体的6D姿态是计算机视觉中的一个基本问题。它有许多重要的应用，例如机器人抓取，自主导航，增强现实等。随着深度相机的发展，最近的许多解决方案都基于深度图。然而深度相机在帧速率、视野、分辨率和深度范围方面存在局限性，并且很难检测小、薄、透明或快速移动的物体，所以并非任何场景下都可以使用深度相机。因此，从单目RGB图像中恢复物体的6D姿态是必要的。

最近，随着机器学习和深度学习技术的快速发展，基于深度神经网络的方法已被引入到物体6D位姿估计任务中。在6D位姿估计中应用深度神经网络的最直接方法是从图像回归物体6D位姿参数。然而，由于旋转空间奇异性，往往导致目标函数不可微，从而无法进行反向传播。此外，与另外一种首先建立2D-3D对应关系然后利用PnP(Perspective-n-Point)算法估计物体6D姿态的方法相比，直接回归物体6D姿态的方法通常缺乏准确性。另外一种基于深度神经网络的解决方案由两个阶段组成。第一阶段使用深度网络建立物体的3D关键点与其在图像投影的2D关键点之间的对应关系，第二阶段是通过基于RANSAC的PnP(Perspective-n-Point)算法计算6D位姿参数。这类方法的主要问题是：首先，用于训练深度网络的损失函数侧重于寻找物体3D关键点在图像中投影的2D关键点，而没有反映位姿估计的真正目的；其次，求解物体6D姿态的PnP算法不属于网络的一部分，这使得整个网络不是端到端可训练的；第三，RANSAC算法非常耗时，尤其是存在大量异常值的情况下。而且，3D-2D关键点对应关系的顺序不同也可能导致基于RANSAC的PnP算法给出不同的位姿估计结果。因此，同时满足精确和快速鲁棒要求的位姿估计是一个具有挑战性的问题。

发明内容

本发明提出了一种基于深度学习的迭代6D位姿参数估计框架，该框架由三部分组成。在第一部分中，使用3D-2D关键点对应关系提取网络由图像中提取3D-2D关键点的对应关系。为将其与位姿粗估计网络结合，将其输出编码为位姿粗估计网络的输入格式，并且将其损失函数改进为能够直接反映解算物体6D位姿参数的函数。在第二部分中，使用位姿粗估计网络来代替基于RANSAC的PnP算法，由3D-2D关键点的对应关系解算出物体的6D位姿参数。在第三部分中，应用正交迭代算法，在位姿参数粗估计的基础上，进一步优化6D位姿参数。在所提出的框架中，前两部分可以被视作一个端到端的可训练网络，能够直接由单目图像计算出目标的6D位姿，前两部分结合为了一个整体网络可以实现端到端的物体6D位姿估计。第三部分为优化模块可以对前两部分估计出的6D姿态参数进行进一步的优化，从而得到更加准确和鲁棒的6D姿态参数，第二部分和第三部分结合可以被视作一个由粗到细的6D位姿参数求解过程，能够明显提高物体6D位姿参数估计的准确性和鲁棒性。

本发明的技术方案为：

第一方面，本发明提供一种基于深度学习的迭代6D位姿估计方法，该方法包括3D-2D关键点对应关系提取网络、位姿粗估计网络和正交迭代算法，

对3D-2D关键点对应关系提取网络的输出进行编码处理，将3D-2D关键点对应关系提取网络的输出编码为位姿粗估计网络的输入格式；然后输入到利用MLP、池化层、全连接层搭建的位姿粗估计网络中，从而结合为一个整体网络，能直接输出物体6D姿态，形成了端到端的6D物体位姿估计网络，6D物体位姿估计网络的损失函数为能够直接反映解算物体6D位姿参数的函数；

利用正交迭代算法用于对6D物体位姿估计网络输出的6D姿态参数进行优化。

所述位姿粗估计网络由三层MLP以及一层最大池化层、三层全连接层组成，三层MLP的参数分别设置为(4,128,1),(128,128,1),(128,128,1)。

所述编码处理的过程是：3D-2D关键点对应关系提取网络输出的语义分割以及单位向量的格式分别为[H,W]和[H,W,16]，H,W代表输入网络的图像的宽和高；

读取语义分割结果，选取语义分割中的E个前景点，同时记录前景点在图像中的坐标，从而将前景点格式改为[E,2]；然后根据前景点寻找对应的单位向量，格式为[E,16]，将得到的单位向量格式拆分为[E×8,2]；为将前景点及对应的单位向量结合为整体输入到位姿粗估计网络，将前景点格式通过复制改为[E×8,2]，从而前景点及对应单位向量结合的整体格式为[E×8,4]，即位姿粗估计网络的输入格式。

第二方面，本发明提供一种基于深度学习的迭代6D位姿估计装置，包括：

3D-2D关键点对应关系提取模块，用于响应针对单目RGB图像的物体6D位姿估计请求，获取单张RGB图像中目标物体的3D-2D关键点对应关系信息；

位姿参数粗估计模块，用于根据3D-2D关键点对应关系进行推理，得出目标物体的6D位姿参数；

位姿参数优化模块，通过正交迭代算法，在位姿参数粗估计结果的基础上，寻找全局最优位姿估计参数，从而得到更加准确、更具鲁棒性的物体6D位姿估计结果。

与现有技术相比，本发明具有以下优点：

1.本发明搭建了位姿粗估计网络，该网络结构简单、运行速度快。解决了当存在许多异常值时基于RANSAC的PnP算法计算目标姿态耗时长，以及解决方案的可重复性差的问题。本发明中搭建的位姿估计网络通过回归计算来代替RANSAC繁琐的随机采样过程，既提高了位姿估计的效率，又提高了位姿估计的鲁棒性和准确性，位姿粗估计网络运行时间相较于基于RANSAC的PnP算法减少约5％。

2.本发明将3D-2D关键点对应关系提取网络的输出进行编码调整，然后与位姿粗估计网络连接，形成了位姿参数解算的端到端可训练的6D物体位姿估计网络。在网络训练过程中，本发明使用了改进的损失函数，能够直接反映解算物体的6D位姿参数的目标，表达式为：

其中loss_3D-2D为3D-2D关键点对应关系提取网络的损失函数，R表示目标真实旋转矩阵，t表示目标真实平移向量，和/>分别表示位姿粗估计网络预测的旋转矩阵和平移向量，n为目标关键点的数量。

3.本发明利用正交迭代算法在有初始6D位姿参数的情况下做优化，用来提高姿态参数的准确性，正交迭代算法充分利用透视投影模型的结构，可以得到接近全局最优的位姿解算结果，具有抗噪声能力强、迭代次数少、计算速度快、精度高等优点，可以进一步优化由位姿粗估计网络得到的物体位姿参数，从而提高了位姿估计的准确性与鲁棒性。

4.本发明方法在3D-2D关键点对应关系提取网络基础上与位姿粗估计网络结合，将对应关系提取网络的输出做了相应编码，使得位姿粗估计网络与对应关系提取网络结合为端到端的整体网络，然后再将正交迭代算法用于对网络估计出的6D姿态参数进行优化。在ADD评价指标下，本申请的方法位姿估计精度比原两阶段方法(3D-2D关键点对应关系提取网络+PnP算法)提升了约2％。

附图说明

图1是本发明实施例所提供的基于深度学习的迭代6D位姿估计方法的流程示意图。

图2是3D-2D关键点对应关系提取网络训练步骤。

图3是位姿粗估计网络示意图。

图4是本发明实施例的基于深度学习的迭代6D位姿估计装置的结构框图。

具体实施方式

为了使本发明的技术方案更加清楚，以下结合本发明中的实施例附图对本发明的具体实施方案进行更完整地描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有任何创造性劳动前提下所获得的所有其他实施例，都属于本发明的范畴。

下面参考附图描述本发明实施例的基于深度学习的迭代6D位姿估计方法以及装置。图1为本发明实施例所提供的一种基于深度学习的迭代6D位姿估计方法的流程示意图。本发明实施例的基于深度学习的迭代6D位姿估计方法可应用于本发明实施例的基于深度学习的迭代6D位姿估计装置，该基于深度学习的迭代6D位姿估计装置配置于计算机中。

如图1所示，基于深度学习的迭代6D位姿估计方法可以包括如下步骤。

在步骤101中，将待检测的单张RGB图像输入至3D-2D关键点对应关系提取网络(PVNet)中，利用其提取3D-2D关键点对应关系。

在步骤102中，利用训练完成的3D-2D关键点对应关系提取网络模型文件提取RGB图像中物体的对应关系信息。上述3D-2D关键点对应关系提取网络可以是使用PVNet网络来提取用于物体2D关键点定位的单位向量。需要说明的是，3D-2D关键点对应关系提取网络PVNet可以预先训练得到。在本发明的一些实施例中，该3D-2D关键点对应关系提取网络可以通过如图2训练步骤预先训练得到：

1.将单张RGB图像输入到PVNet网络中，回归得到物体语义分割结果和单位向量。对于得到的物体语义分割中的一个像素u，像素u到物体2D关键点的单位向量v_k(u)定义为：

其中u_k为物体2D关键点的坐标。

2.根据物体语义分割结果得到物体的像素，在物体像素中随机选择两个像素，在得到的单位向量中找到与选择的两个像素相对应的单位向量的交点作为关键点u_k的假设h_k,i。重复这个操作N次(N设置为十次以上，优选15-30)，可得到一组假设{h_k,i|i＝1,2,...,N}，该假设用来表示可能的2D关键点位置。

3.所有属于物体的像素u对这些假设进行投票，假设h_k,i的投票得分w_k,i定义为：

其中表示指示函数，θ是预定义的阈值。选择投票得分最高的假设作为3D-2D关键点对应关系提取网络预测的物体2D关键点的坐标/>给定物体3D关键点坐标p_k，真实物体2D关键点的坐标u_k相应的可以计算为：

u_k＝K(Rp_k+t)，

其中，K为相机内参，R表示目标真实旋转矩阵，t表示目标真实平移向量。

4.根据预测的物体语义分割结果、单位向量以及物体2D关键点坐标和训练集中对应的已知真实值计算损失值loss_3D-2D。根据损失值loss_3D-2D训练3D-2D关键点对应关系提取网络PVNet，当损失值满足目标条件，或者达到预设模型迭代次数(本实施例中迭代次数设置为200)时网络训练完成，得到训练完成的对应关系提取网络模型文件。

在步骤103中，将3D-2D关键点对应关系提取网络得到的3D-2D关键点对应关系信息输入到位姿粗估计网络中。为了将得到的3D-2D关键点对应关系信息输入到位姿粗估计网络，本申请将得到的3D-2D关键点对应关系信息进行编码。3D-2D关键点对应关系提取网络输出的语义分割以及单位向量分别为[H,W]和[H,W,16]的格式，H,W代表输入网络的图像的宽和高。首先读取语义分割结果，选取语义分割中的前景点，同时记录前景点在图像中的坐标，从而将前景点格式改为[E,2]，E为前景点的个数；然后根据前景点寻找对应的单位向量，格式为[E,16]，将得到的单位向量格式拆分为[E×8,2]。为将前景点及对应的单位向量结合为整体输入到位姿粗估计网络，将前景点格式通过复制改为[E×8,2]，从而前景点及对应单位向量结合的整体格式为[E×8,4]，即位姿粗估计网络的输入，本申请实施例中选取的前景点个数E＝100(E的数量80-200)。该位姿粗估计网络是由三层MLP以及一层最大池化层、三层全连接层组成。MLP是多层感知机是简单的神经网络，可以用来提取特征等任务。首先使用三层MLP(Multilayer Perceptron)从3D-2D关键点对应关系信息中提取得到128维的局部特征。三层MLP应用权重共享结构，来聚合3D-2D关键点对应关系之间的信息，权重共享可以减小网络中的参数量。这些局部特征可以通过一个简单的最大池化操作连接起来，可以表示为：

其中，8表示关键点的数量，e为第e个前景点，CAT表示连接、拼接，f表示3D-2D关键点对应关系函数。

本实施例中目标关键点数n取值为8，所以有8组3D-2D关键点对应关系，经过最大池化操作后，得到一个8×128的特征向量。通过使用三层全连接层，可以获得物体的6D位姿估计参数，即预测的旋转四元数和预测的平移向量通过预测的旋转四元数可获得预测的旋转矩阵/>由位姿粗估计网络通过非线性回归来代替RANSAC算法中繁琐的随机采样过程既提高了位姿参数估计的效率，又保证了位姿估计的鲁棒性。位姿粗估计网络三层MLP参数分别设置为(4,128,1),(128,128,1),(128,128,1)，三层全连接层参数设置为(1024,512),(512,256),(256,7)，位姿粗估计网络示意图如图3所示。

结合后整体网络在训练过程中，损失函数定义为：

根据损失值loss训练位姿粗估计网络，当损失值loss满足目标条件(损失值稳定于0.007-0.01)，或者达到预设整体网络迭代次数(最大迭代次数为200)时网络训练完成。需要说明的是对应关系提取网络和位姿粗估计网络作为一个整体可以结合为一个端到端的6D物体位姿估计网络。

在步骤104中，将位姿粗估计网络中得到的物体6D位姿参数输入到正交迭代算法中进行优化。根据透视投影模型，物体3D关键点的世界坐标及其在归一化图像平面的投影坐标存在线性关系。正交迭代算法基于最小化物体空间共线性误差而设计，其中物体空间共线性误差E(R,t)定义为：

式中，p_i为3D关键点坐标，I为单位矩阵，视线投影矩阵定义为：

式中，为p_i归一化到图像平面的坐标，若已知旋转矩阵R，则可以求得平移向量t为：

正交迭代算法求取绝对定向问题的最优解来更新R，再根据更新的旋转矩阵R迭代得到相应的平移向量t(R)及物体空间共线性误差E(R,t)。当物体空间共线性误差小于设置的共线性误差阈值时停止迭代，得到最优的旋转矩阵R和平移向量t(R)。通过正交迭代算法优化物体6D位姿参数，可以进一步提高了6D位姿估计的准确性与鲁棒性。

根据本发明实施例的基于深度学习的迭代6D位姿估计方法，通过输入待检测的单目RGB图像，并利用3D-2D关键点对应关系提取网络提取3D-2D关键点对应关系信息，将对应关系信息输入到位姿粗估计网络可以初步得到物体的6D位姿参数，由此实现了端到端的物体6D位姿估计，提高了位姿估计对于异常值、噪声的鲁棒性。利用正交迭代算法优化由位姿粗估计网络初步得到的物体6D位姿参数，提高了物体6D位姿估计的准确性。

为了实现上述实施例，本发明还提出了一种基于深度学习的迭代6D位姿估计装置。图4是本发明实施例的基于深度学习的迭代6D位姿估计装置的结构框图。如图4所示，该基于深度学习的迭代6D位姿估计装置可以包括：3D-2D关键点对应关系提取模块201、位姿粗估计模块202、位姿参数优化模块203。

具体地，3D-2D关键点对应关系提取模块，用于响应针对RGB图像的物体6D位姿估计请求，获取单张RGB图像中目标物体的3D-2D关键点对应关系信息。在一些实施例中3D-2D关键点对应关系提取模块可将单张RGB图像输入至预先训练好的3D-2D关键点对应关系提取网络，获得目标物体关键点的对应关系信息，然后将对应关系信息编码为位姿粗估计网络的输入格式。

位姿粗估计模块，用于根据所述对应关系提取模块得到的编码后的对应关系信息进行推理，预测出物体的6D姿态。在一些实施例中将目标物体关键点的对应关系信息输入至位姿粗估计模块，预测目标物体的6D位姿参数。

位姿参数优化模块，通过采用正交迭代算法，优化位姿参数估计结果，寻找最接近全局最优的位姿估计结果，得到更加准确、更具鲁棒性的物体6D位姿。

根据本发明实施例的基于深度学习的迭代6D位姿估计装置，通过从单张RGB图像中提取目标物体3D-2D关键点对应关系信息，并利用位姿粗估计模块对提取的关键点对应关系信息进行推理初步得到物体的6D位姿参数，并利用位姿参数优化模块对该物体6D位姿参数进行优化求解。

本发明是利用神经网络搭建了位姿粗估计网络，与PVNet结合形成了端到端的姿态估计网络，并且对PVNet的输出进行编码操作，将编码后的输出作为位姿粗估计网络的输入，并改进了整体网络的训练损失函数，进行6D姿态估计，解决了PnP算法对噪声鲁棒性表现不好的问题，且本发明运行时间较短，加入位姿参数优化模块对估计出的6D姿态参数进行优化，具有抗噪声能力强、迭代次数少、计算速度快、精度高等优点，进一步提高了6D姿态估计的准确性。

本发明未述及之处适用于现有技术。

Claims

1.一种基于深度学习的迭代6D位姿估计方法，其特征在于，该方法包括3D-2D关键点对应关系提取网络、位姿粗估计网络和正交迭代算法，

利用正交迭代算法用于对6D物体位姿估计网络输出的6D姿态参数进行优化；

读取语义分割结果，选取语义分割中的E个前景点，同时记录前景点在图像中的坐标，从而将前景点格式改为[E,2]；然后根据前景点寻找对应的单位向量，格式为[E,16]，将得到的单位向量格式拆分为[E×8,2]；为将前景点及对应的单位向量结合为整体输入到位姿粗估计网络，将前景点格式通过复制改为[E×8,2]，从而前景点及对应单位向量结合的整体格式为[E×8,4]，即位姿粗估计网络的输入格式；

6D姿态参数进行优化的过程是：根据透视投影模型，物体3D关键点的世界坐标及其在归一化图像平面的投影坐标存在线性关系，正交迭代算法基于最小化物体空间共线性误差而设计，其中物体空间共线性误差E(R,t)定义为：

式中，p_i为3D关键点坐标，n为目标关键点的数量，I为单位矩阵，视线投影矩阵定义为：

式中，为p_i归一化到图像平面的坐标，若已知旋转矩阵R，则求得平移向量t为：

正交迭代算法求取绝对定向问题的最优解来更新R，再根据更新的旋转矩阵R迭代得到相应的平移向量t(R)及物体空间共线性误差E(R,t)；当物体空间共线性误差小于设置的共线性误差阈值时停止迭代，得到最优的旋转矩阵R和平移向量t(R)。

2.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法，其特征在于，6D物体位姿估计网络的损失函数loss为：

其中，loss_3D-2D为3D-2D关键点对应关系提取网络的损失函数，R表示目标真实旋转矩阵，t表示目标真实平移向量，和/>分别表示位姿粗估计网络预测的旋转矩阵和平移向量，n为目标关键点的数量，p_i为3D关键点坐标。

3.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法，其特征在于，所述位姿粗估计网络由三层MLP以及一层最大池化层、三层全连接层组成，三层MLP的参数分别设置为(4,128,1),(128,128,1),(128,128,1)。

4.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法，其特征在于，所述前景点个数E＝80～200，目标关键点数n取值为8，使用MLP从3D-2D关键点对应关系信息中提取得到128维的局部特征，通过使用三层全连接层，获得物体的6D位姿估计参数，即预测的旋转四元数和预测的平移向量通过预测的旋转四元数获得预测的旋转矩阵/>三层全连接层参数设置为(1024,512),(512,256),(256,7)。

5.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法，其特征在于，E＝100。

6.一种基于深度学习的迭代6D位姿估计装置，其特征在于，该装置采用权利要求1所述的基于深度学习的迭代6D位姿估计方法，包括：

7.根据权利要求6所述的基于深度学习的迭代6D位姿估计装置，其特征在于，所述3D-2D关键点对应关系提取模块将单张RGB图像输入至预先训练好的3D-2D关键点对应关系提取网络，获得目标物体关键点的对应关系信息，然后将对应关系信息编码为位姿粗估计网络的输入格式。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-5中任一所述的基于深度学习的迭代6D位姿估计方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的基于深度学习的迭代6D位姿估计方法。