CN112767478A

CN112767478A - 一种基于表观指导的六自由度位姿估计方法

Info

Publication number: CN112767478A
Application number: CN202110023599.0A
Authority: CN
Inventors: 姜志国; 张鑫; 张浩鹏; 赵丹培; 谢凤英
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-07
Anticipated expiration: 2041-01-08
Also published as: CN112767478B

Abstract

本发明公开了一种基于表观指导的六自由度位姿估计方法，其特征在于，包括以下步骤：将目标物体的RGB图像输入至训练后的关键点定位网络；关键点定位网络对RGB图像进行特征提取，获取特征图；根据特征图计算出关键点在图像上的二维坐标，得到关键点预测表示；根据二维坐标与三维坐标之间的对应关系，计算目标物体相对于相机的六自由度位姿的估计；通过表观预测网络对关键点预测表示的准确性进行验证；本发明综合考虑表观预测质量和关键点损失来减小位姿歧义性在训练时的负面影响，相比于现有技术有更强的通用性，推理计算量小，且考虑了关键点的空间连接关系，利用图卷积实现相邻关键点之间的特征融合，有利于提高位姿估计精度。

Description

一种基于表观指导的六自由度位姿估计方法

技术领域

本发明涉及数字图像处理技术领域，更具体的说是涉及一种基于表观指导的六自由度位姿估计方法。

背景技术

六自由度位姿估计，即恢复图像中物体相对于相机的三维平移和旋转变换参数(共六个自由度)，是计算机视觉领域的经典问题，也是多种新兴视觉应用任务(如增强现实、自动驾驶以及视觉机器人等)的关键技术之一，因此重新引起了学术界的高度关注。由于3D传感器获取深度信息需要消耗大量的能量，并且目前的商用级别的深度相机所获取的深度信息通常会包含大量噪声和孔洞。因此，基于RGB图像的位姿估计算法在移动端和实时应用领域具有更加广泛的实际应用价值。

但是，基于单目视觉图像估计六自由度相对位姿是一个典型的不适定问题，具体体现在由于物体结构的对称性和表面纹理的相似性导致在不同视角下所呈现的图像表观是十分相近的，从而使得位姿估计具有多个解，这一现象也被称为位姿歧义性。实际上，常见的大多数人造物体往往都具有近似对称的结构和重复的表面纹理，因此位姿歧义性是普遍存在的。然而，现有的位姿估计数据集在标注时大多没有考虑位姿歧义性，即对每一个物体实例的位姿标注是唯一的，这会给位姿估计算法在训练优化时造成困难，因为相同的图像表观输入却分别对应了差距很大的位姿真值。

现有技术中提出了一种位姿规范化(pose normalization)方法将多个歧义性视角下的位姿标注转化为相同的某一参考位姿，并通过并行地预测两个位姿假设解决位姿规范化后的不连续问题，从而减小位姿歧义性对位姿估计算法在训练时的负面影响，然而首先该方法预测多个并行的位姿假设，会增加算法的推理计算量，导致位姿估计处理效率降低；其次该方法需要根据物体对称性先验人工设计歧义性消除方式，因此通用性较差；另外，该方法中相对独立地定位各个关键点，没有考虑关键点之间的关联性。

因此，如何提出一种能够计算量小、通用性强且各个关键点之间的关联性强的基于表观指导的六自由度位姿估计方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于表观指导的六自由度位姿估计方法，目的在于解决现有技术中六自由度位姿估计方法计算量大、通用性差且关键点之间的关联性差的问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于表观指导的六自由度位姿估计方法，包括以下步骤：

S1.将目标物体的RGB图像输入至训练后的关键点定位网络；

S2.所述关键点定位网络对所述RGB图像进行特征提取，获取特征图；

S3.将所述特征图分别通过第一卷积层和第二卷积层后获取到预测结果CLS和预测结果OFFSET，根据所述预测结果CLS对关键点进行最近角点分类，选取最近角点，同时根据所述预测结果OFFSET获取当前关键点相对于最近角点的偏移量，根据最近焦点及偏移量计算出关键点在图像上的二维坐标，得到关键点预测表示；

S4.根据三维模型获取目标物体的顶点在物体坐标系下的三维坐标，结合所述二维坐标的回归结果，获取二维坐标与三维坐标之间的对应关系，计算目标物体相对于相机的六自由度位姿的估计；

S5.通过表观预测网络对关键点预测表示的准确性进行验证；

所述关键点定位网络和所述表观预测网络的训练方法为：

所述关键点定位网络训练时，固定所述表现观测网络的模型参数，对所述关键点定位网络的模型参数进行迭代更新；所述表观预测网络训练时，固定所述关键点定位网络的模型参数，对所述表观预测网络的模型参数进行迭代更新。

优选的，S1的具体内容包括：

将目标物体的RGB图像块的宽高被调整为112像素，输入关键点定位网络。

优选的，S2中所述关键点定位网络对所述RGB图像进行特征提取具体包括五个阶段：

阶段一：将所述RGB图像输入一个卷积核大小为7×7、步长为2、64通道的卷积层；

阶段二：将阶段一得到的输出输入至前后相连的两个残差块中，阶段二中的每个残差块包括两个3×3、64通道的卷积层；

阶段三：将阶段二得到的输出输入至前后相连的两个残差块中，阶段三中的每个残差块包括两个3×3、128通道的卷积层，其中第一个残差块的步长为2，第二个残差块的步长均为1；

阶段四：将阶段三得到的输出输入至前后相连的两个残差块中，阶段四中的每个残差块包括两个3×3、256通道的卷积层，其中第一个残差块的步长为2，第二个残差块的步长均为1；

阶段五：将阶段四得到的输出输入至前后相连的两个残差块中，阶段五中的每个残差块包括两个3×3、512通道的卷积层，其中第一个残差块的步长为2，第二个残差块的步长均为1；阶段五输出一个维度为512×7×7的特征图。

优选的，S2中的获取特征图的具体过程包括：

经过五个阶段之后的输出结果输入一个3×3、步长为2、288通道的卷积层，得到维度为288×4×4的特征图；

采用图卷积层进行相邻接关键点之间的特征融合，将288个通道平均分为8组作为8个关键点的特征，图卷积层的邻接矩阵为：

经过两个图卷积层后，再将特征转换为288×4×4的维度；之后再经过一个3×3、步长为2、288通道的卷积层，得到维度为288×2×2的特征图，完成特征融合。

优选的，S3中所述第一卷积层包含一个1×1、8通道的卷积层，将S2中得到的维度为288×2×2的特征图输入所述第一卷积层后，得到维度为8×2×2的预测结果CLS，代表对8个关键点做最近角点分类；

所述第二卷积层包含一个1×1、16通道的卷积层，将S2中得到的维度为288×2×2的特征图输入所述第二卷积层后，得到维度为16×2×2的预测结果OFFSET，代表对8个关键点相对于角点的偏移量回归。

优选的，S3的具体内容包括：

对于第i个关键点，所述预测结果CLS的第i个通道的4维向量用于最近角点分类，取分类得分最高的类别所对应的边界框角点作为最近角点closest_corner；同时取所述预测结果OFFSET的第2i-1和第2i通道对应位置的二维向量作为关键点相对于最近角点的偏移量，并计算出关键点在图像上的二维坐标，得到关键点预测表示为：

优选的，S4的具体内容为：

根据目标物体三维模型在长宽高三个维度上的尺寸信息，计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标，结合S3得到的8个投影点坐标回归结果，获取8组二维坐标与三维坐标之间的对应关系，通过EPnP算法采用所述对应关系计算目标物体相对于相机的六自由度位姿。

优选的，S5的具体方法为：将通过所述关键点定位网络得到的关键点预测表示和关键点表示真值分别输入至训练后的表观预测网络中，分别输出预测目标掩码和目标掩码真值，通过预测目标掩码和目标掩码真值验证关键点预测表示的正确性。

优选的，所述表观预测网络中包括第三卷积层和第四卷积层，并均为128通道的1×1卷积层，所述第三卷积层作用于最近角点分类部分，所述第四卷积层作用于相对角点偏移部分，所述第三卷积层和所述第四卷积层相加进行融合，关键点预测表示和关键点表示真值分别输入至融合后的卷积层，再经过两个4个128通道、步长为2、补边为1的反卷积层，其中第二个反卷积层的卷积核大小为3×3，其余反卷积层的卷积核大小为4×4，并且每一个反卷积层后使用组归一化层和非线性激活层，得到维度为128×28×28的特征图；最后使用通道数为1的1×1卷积层和sigmoid激活函数得到预测目标掩码和目标掩码真值。

优选的，所述关键点定位网络和所述表观预测网络的训练方法的具体内容包括：

用于训练所述表观预测网络的输入样本包括：由所述关键点定位网络预测得到的所述关键点预测表示和对应的所述关键点表示真值；

对于所述关键点表示真值，所述表观预测网络的目标是输出逐像素概率为1的目标掩码真值；

对于由所述关键点预测表示，所述表观预测网络的目标是输出逐像素概率为p的目标掩码，p的计算方式为：

其中threshold为关键点误差阈值；kpt_err_std为关键点的误差标准差，kpt_err_mean为关键点的误差均值，x为关键点中第三高的误差值；损失函数采用依概率衰减的FocalLoss：

其中

为概率真值，

为概率预测值，m为掩码边长；

训练所述表观预测网络的损失函数为：

L_D＝L_mask(D(kpt_gt),M_gt)+L_mask(D(G(I)),M_p)

训练所述关键点定位网络的损失函数包括对抗损失和关键点损失，其中对抗损失函数为：

L_GAN＝L_mask(D(G(I),M_gt)

所述关键点损失函数由最近角点分类损失L_cls和相对角点偏移量回归损失L_offset组成，L_cls采用依概率衰减的FocalLoss，L_offset采用L1 norm损失函数，

因此训练所述关键点定位网络的损失函数为：

L_G＝miou·L_GAN+L_cls+L_offset

其中miou为所述关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值的交并比。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于表观指导的六自由度位姿估计方法，该方法结合了增强自编码器结构和对抗训练策略，即关键点定位网络和表观预测网络交替迭代更新参数进行训练，综合考虑表观预测质量和关键点损失来减小位姿歧义性在训练时的负面影响，相比于现有技术有更强的通用性，不需要借助物体对称性先验信息，并且不会增加算法的推理计算量。而且本方法在关键点定位时考虑了关键点的空间连接关系，利用图卷积实现相邻关键点之间的特征融合，有利于提高位姿估计精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于表观指导的六自由度位姿估计方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于表观指导的六自由度位姿估计方法，如图1所示，包括以下步骤：

S1.将目标物体的RGB图像输入至训练后的关键点定位网络；

S2.关键点定位网络对RGB图像进行特征提取，获取特征图；

S3.将特征图分别通过第一卷积层和第二卷积层后获取到预测结果CLS和预测结果OFFSET，根据预测结果CLS对关键点进行最近角点分类，选取最近角点，同时根据预测结果OFFSET获取当前关键点相对于最近角点的偏移量，根据最近焦点及偏移量计算出关键点在图像上的二维坐标，得到关键点预测表示；

S4.根据三维模型获取目标物体的顶点在物体坐标系下的三维坐标，结合二维坐标的回归结果，获取二维坐标与三维坐标之间的对应关系，计算目标物体相对于相机的六自由度位姿的估计；

S5.通过表观预测网络对关键点预测表示的准确性进行验证；

关键点定位网络和表观预测网络的训练方法为：

关键点定位网络训练时，固定表现观测网络的模型参数，对关键点定位网络的模型参数进行迭代更新；表观预测网络训练时，固定关键点定位网络的模型参数，对表观预测网络的模型参数进行迭代更新。

为了进一步实施上述技术方案，S1的具体内容包括：

为了进一步实施上述技术方案，S2中关键点定位网络对RGB图像进行特征提取具体包括五个阶段：

阶段一：将RGB图像输入一个卷积核大小为7×7、步长为2、64通道的卷积层；

为了进一步实施上述技术方案，S2中的获取特征图的具体过程包括：

为了进一步实施上述技术方案，S3中第一卷积层包含一个1×1、8通道的卷积层，将S2中得到的维度为288×2×2的特征图输入第一卷积层后，得到维度为8×2×2的预测结果CLS，代表对8个关键点做最近角点分类；

第二卷积层包含一个1×1、16通道的卷积层，将S2中得到的维度为288×2×2的特征图输入第二卷积层后，得到维度为16×2×2的预测结果OFFSET，代表对8个关键点相对于角点的偏移量回归。

为了进一步实施上述技术方案，S3的具体内容包括：

对于第i个关键点，预测结果CLS的第i个通道的4维向量用于最近角点分类，取分类得分最高的类别所对应的边界框角点作为最近角点closest_corner；同时取预测结果OFFSET的第2i-1和第2i通道对应位置的二维向量作为关键点相对于最近角点的偏移量，并计算出关键点在图像上的二维坐标，得到关键点预测表示为：

为了进一步实施上述技术方案，S4的具体内容为：

根据目标物体三维模型在长宽高三个维度上的尺寸信息，计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标，结合S3得到的8个投影点坐标回归结果即上文所述的关键点预测表示结果，获取8组二维坐标与三维坐标之间的对应关系，通过EPnP算法采用对应关系计算目标物体相对于相机的六自由度位姿。

为了进一步实施上述技术方案，S5的具体方法为：将通过关键点定位网络得到的关键点预测表示和关键点表示真值分别输入至训练后的表观预测网络中，分别输出预测目标掩码和目标掩码真值，通过预测目标掩码和目标掩码真值验证关键点预测表示的正确性。

为了进一步实施上述技术方案，表观预测网络中包括第三卷积层和第四卷积层，并均为128通道的1×1卷积层，第三卷积层作用于最近角点分类部分，第四卷积层作用于相对角点偏移部分，第三卷积层和第四卷积层相加进行融合，关键点预测表示和关键点表示真值分别输入至融合后的卷积层，再经过两个4个128通道、步长为2、补边为1的反卷积层，其中第二个反卷积层的卷积核大小为3×3，其余反卷积层的卷积核大小为4×4，并且每一个反卷积层后使用组归一化层和非线性激活层，得到维度为128×28×28的特征图；最后使用通道数为1的1×1卷积层和sigmoid激活函数得到预测目标掩码和目标掩码真值。

为了进一步实施上述技术方案，关键点定位网络和表观预测网络的训练方法的具体内容包括：

用于训练表观预测网络的输入样本包括：由关键点定位网络预测得到的关键点预测表示和对应的关键点表示真值；

对于关键点表示真值，表观预测网络的目标是输出逐像素概率为1的目标掩码真值；

对于由关键点预测表示，表观预测网络的目标是输出逐像素概率为p的目标掩码，p的计算方式为：

其中threshold为关键点误差阈值，设置为2像素；kpt_err_std为8个关键点的误差标准差，kpt_err_mean为8个关键点的误差均值，x为8个关键点中第三高的误差值；

首先p是0到1之间的概率值，当x小于误差阈值时，可以认为该位姿是正确的，所以将p设置为1；当x大于误差阈值时，按照公式计算p值。exp部分的值是关于x单调递减的，也就是误差x越大，exp部分的值越小，同时对概率p设置下界为0.1；取第三高误差是因为它能更好地反映8个关键点的整体误差水平，类似于误差中值的想法。

损失函数采用依概率衰减的FocalLoss：

其中

为概率真值，

为概率预测值，m为掩码边长，设置为28像素；训练表观预测网络的损失函数为：

L_D＝L_mask(D(kpt_gt),M_gt)+L_mask(D(G(I)),M_p)

训练关键点定位网络的损失函数包含两部分，第一部分是对抗损失，即希望关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值M_gt尽可能接近：

L_GAN＝L_mask(D(G(I),M_gt)

第二部分是关键点损失，由最近角点分类损失L_cls和相对角点偏移量回归损失L_offset组成，L_cls采用依概率衰减的FocalLoss，L_offset采用L1 norm损失函数。综上，训练关键点定位网络的损失函数为：

L_G＝miou·L_GAN+L_cls+L_offset

其中miou为关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值的交并比。

将本方法与现有技术在TLESS数据集obj_05上的位姿估计精度对比，对比结果如表1所示。

表1中数值为VSD指标下的位姿估计精度，该数值越高表示位姿估计精度越高。

表1

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于表观指导的六自由度位姿估计方法，其特征在于，包括以下步骤：

S1.将目标物体的RGB图像输入至训练后的关键点定位网络；

S5.通过表观预测网络对关键点预测表示的准确性进行验证；

所述关键点定位网络和所述表观预测网络的训练方法为：

2.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S1的具体内容包括：

3.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S2中所述关键点定位网络对所述RGB图像进行特征提取具体包括五个阶段：

4.根据权利要求3所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S2中的获取特征图的具体过程包括：

5.根据权利要求4所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S3中所述第一卷积层包含一个1×1、8通道的卷积层，将S2中得到的维度为288×2×2的特征图输入所述第一卷积层后，得到维度为8×2×2的预测结果CLS，代表对8个关键点做最近角点分类；

6.根据权利要求5所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S3的具体内容包括：

7.根据权利要求6所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S4的具体内容为：

8.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，S5的具体方法为：将通过所述关键点定位网络得到的关键点预测表示和关键点表示真值分别输入至训练后的表观预测网络中，分别输出预测目标掩码和目标掩码真值，通过预测目标掩码和目标掩码真值验证关键点预测表示的正确性。

9.根据权利要求8所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，所述表观预测网络中包括第三卷积层和第四卷积层，并均为128通道的1×1卷积层，所述第三卷积层作用于最近角点分类部分，所述第四卷积层作用于相对角点偏移部分，所述第三卷积层和所述第四卷积层相加进行融合，关键点预测表示和关键点表示真值分别输入至融合后的卷积层，再经过两个4个128通道、步长为2、补边为1的反卷积层，其中第二个反卷积层的卷积核大小为3×3，其余反卷积层的卷积核大小为4×4，并且每一个反卷积层后使用组归一化层和非线性激活层，得到维度为128×28×28的特征图；最后使用通道数为1的1×1卷积层和sigmoid激活函数得到预测目标掩码和目标掩码真值。

10.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法，其特征在于，所述关键点定位网络和所述表观预测网络的训练方法的具体内容包括：

其中

为概率真值，

为概率预测值，m为掩码边长；

训练所述表观预测网络的损失函数为：

L_D＝L_mask(D(kpt_gt),M_gt)+L_mask(D(G(I)),M_p)

L_GAN＝L_mask(D(G(I),M_gt)

因此训练所述关键点定位网络的损失函数为：

L_G＝miou·L_GAN+L_cls+L_offset