CN110930454A

CN110930454A - 一种基于边界框外关键点定位的六自由度位姿估计算法

Info

Publication number: CN110930454A
Application number: CN201911060533.8A
Authority: CN
Inventors: 姜志国; 张鑫; 张浩鹏; 赵丹培; 谢凤英
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-03-27
Anticipated expiration: 2039-11-01
Also published as: CN110930454B

Abstract

本发明公开了一种基于边界框外关键点定位的六自由度位姿估计算法，包括输入三维模型和RGB图像，得到图像中目标在三个维度上的尺寸信息，确定目标三维边界框的8个顶点坐标；通过卷积神经网络对RGB图像进行检测，得到五个不同尺度的特征图以及每个位置的目标类别、二维边界框预测结果；进行非极大抑制操作，得到去冗余后图像中目标实例的类别以及二维边界框预测结果；对关键点在图像中进行定位，得到8个关键点的位置和定位置信度；利用EPnP算法计算目标相对于相机的六自由度位姿。本发明能够有效提高边界框外的关键点的定位精度，在保证实时处理能力的同时提升了位姿估计精度。

Description

一种基于边界框外关键点定位的六自由度位姿估计算法

技术领域

本发明属于数字图像处理技术领域，更具体的说是涉及一种基于边界框外关键点定位的六自由度位姿估计算法。

背景技术

六自由度相对位姿估计是计算机视觉领域的经典问题，但目前仍然吸引了大量研究人员的关注。有效的获取感兴趣物体的相对位置和朝向是实现多种高层视觉任务(例如增强现实、自动驾驶和机器人技术)的重要基础。尽管基于 RGB-D数据源的六自由度位姿估计方法能够取得高精度，但基于RGB图像的位姿估计方法具有更好的效率和可用性，因此成为当前的研究热点。传统的基于 RGB图像的六自由度位姿估计算法往往只适用于具有丰富纹理的物体，并且对遮挡和光照条件变化的鲁棒性有限。近年来以卷积神经网络(CNN)为代表的深度学习技术的引入显著提升了位姿估计方法对弱纹理物体的适用性，以及对复杂场景条件的鲁棒性。研究人员提出了多种应用深度网络解决六自由度位姿估计问题的策略，其中一种流行的策略是将位姿估计问题转化为关键点定位问题。具体地，通过在物体的三维模型上预先定义若干关键控制点，利用深度网络预测这些关键控制点在图像上的坐标位置，由此建立图像坐标系到物体坐标系之间的2D-3D对应关系，再使用N点透视问题解法(PnP)求解物体和相机之间的六自由度相对位姿。

现有技术以YOLO6D算法为代表，其流程图如图1所示。YOLO6D算法以目标检测算法YOLO的网络结构为基础，对每一个物体实例预测其三维边界框的八个顶点以及中心点，共九个关键控制点在图像中的位置坐标。输入图像经过一系列卷积层后，在输出层被划分为13×13的网格，然后基于每一个网格进行预测，预测该网格中物体的类别、九个关键点相对于网格左上角点的偏移、以及预测结果的置信度。最后根据得到的2D-3D对应关系，利用EPnP算法计算六自由度相对位姿。

现有技术YOLO6D算法基于网格左上角点回归关键点的偏移，对于不同位置的关键点，偏移量的长度变化较大，不利于卷积神经网络的准确预测；并且物体的大部分三维边界框顶点位于网格外部，YOLO6D算法对于网格外部的关键点的定位精度有限；不同关键点的定位精度有所差异，而YOLO6D算法在采用EPnP算法计算位姿时没有考虑关键点之间的差异性，导致位姿精度可能受到少数定位误差较大的关键点的影响而降低。

因此，如何提供一种基于边界框外关键点定位的六自由度位姿估计算法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于边界框外关键点定位的六自由度位姿估计算法，能够有效提高边界框外的关键点的定位精度；同时基于所提出的关键点表示开发了一个端到端的卷积神经网络用于六自由度位姿估计，在保证实时处理能力的同时提升了位姿估计精度，相比于现有技术YOLO6D算法，在位姿估计的精度上有较大幅度的提升。

为了实现上述目的，本发明采用如下技术方案：

一种基于边界框外关键点定位的六自由度位姿估计算法，包括如下步骤：

S1：输入目标的三维模型和RGB三通道图像，根据三维模型，得到图像中目标物体在三个维度上的尺寸信息，确定目标物体三维边界框的8个顶点的坐标；

S2：通过卷积神经网络对RGB三通道图像进行检测，得到五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果；

S3：对目标类别和二维边界框预测结果进行非极大抑制操作，得到去冗余后图像中目标实例的类别以及二维边界框预测结果；

S4：基于步骤S3得到的检测结果和步骤S2得到的特征图，对关键点在图像中进行定位，得到每一个候选区域中的8个关键点的位置和定位置信度；

S5：每一个候选区域的8个关键点位置，利用EPnP算法计算目标相对于相机的六自由度位姿。

优选的，所述步骤S2中得到的是五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果的方法为：

S21：将RGB图像的尺寸调整为512×512×3像素，输入卷积神经网络；

S22：采用基于残差50层网络的特征金字塔网络作为特征提取器，得到的是五个具有不同尺度的特征图；

S23：在得到的五个不同尺度的特征图上进行目标检测，预设锚框，得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果。

优选的，所述步骤S22中，采用基于残差50层网络的特征金字塔网络作为特征提取器，得到的是五个具有不同尺度的特征图的方法为：

S221：构建特征金字塔，输出特征图C2、C3、C4、C5，其维度分别为 128×128×256、64×64×512、32×32×1024、16×16×2048；

S222：C5经过256个1×1×2048的卷积得到维度为16×16×256的P5特征图；

S223：C4经过256个1×1×1024的卷积后，加上上采样两倍的P5得到维度为32×32×256的P4特征图；

S224：C3经过256个1×1×512的卷积后，加上上采样两倍的P4得到维度为64×64×256的P3特征图；

S225：C2经过256个1×1×256的卷积后，加上上采样两倍的P3得到维度为128×128×256的P2特征图；

S226：对P5做步长为2的3×3最大池化操作得到维度为8×8×256的P6特征图；

S227：再对P2、P3、P4和P5分别使用256个3×3×256的卷积核进行卷积操作，得到最终的特征图P2、P3、P4和P5，维度均保持不变。

优选的，所述步骤23中在得到的五个不同尺度的特征图上进行目标检测，预设锚框，得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果的方法为：

S231：在步骤S22得到的五个不同尺度的特征图上通过若干个维度为 3×3×256的卷积核进行目标检测，预测二维边界框；

S232：对于特征图P_i，i∈{2,3,4,5,6}，其维度为w_i×h_i×256，经过一组卷积核的个数为N_anchor×(4+C+1)的卷积运算后得到的预测结果的维度为 w_i×h_i×[N_anchor×(4+C+1)]；其中N_anchor是特征图上每一点的预设锚框数，4代表二维边界框的修正值个数，C代表目标类别数，1是背景类别；

S233：网络在特征图上每一个位置处预测出的结果向量中包含有对该位置处4个预设锚框的预测结果；每一个预设锚框的预测结果是一个长度为4+C+1的向；假设该锚框的中心点为(anchor_centerx,anchor_centery)，宽和高分别为anchor_width和 anchor_height，预测结果中的前4个数(pred_{bbox_centerx},pred_{bbox_centery},pred_{bbox_width},pred_{bbox_height}) 是预测出的二维边界框相对于预设锚框的中心点以及宽高的修正值，根据这4 个数可以计算预测出的二维边界框的中心点以及宽高：

其中，pred_{bbox_centerx}，pred_{bbox_centery}是预测出的二维边界框中心点坐标相对于预设锚框的中心点坐标的修正值；pred_{bbox_width}，pred_{bbox_height}是预测出的二维边界框宽高相对于预设锚框宽高的修正值；anchor_centerx，anchor_centery是预设锚框的中心点坐标，anchor_width和anchor_height是预设锚框的宽高；bbox_centerx，bbox_centery是预测出的二维边界框的中心点坐标，bbox_width，bbox_height是预测出的二维边界框的宽高；

最后的C+1个数(x₀,x₁,…,x_C)是对当前锚框中目标所属类别的预测，其中x₀代表对背景类别的预测值，利用Softmax函数将网络输出的类别预测结果转化为归一化的概率：

其中，C是类别数，x_i是网络对目标属于第i类的预测值，p_i是目标属于第 i类的概率值；锚框属于概率最高的类别，同时将该类别的概率作为类别得分。

优选的，所述步骤S3对目标类别和二维边界框预测结果进行非极大抑制操作，得到去冗余后图像中目标实例的类别以及二维边界框预测结果的方法为：对于网络预测出的每一个非背景的目标实例，计算与其同类别的其他预测的二维边界框的交并比，当交并比大于0.7时，只保留类别得分较高的预测，去除类别得分较低的预测；最后选取类别得分最高的2000个二维边界框作为候选区域进行边界框定位，得到去冗余后图像中目标实例的类别以及二维边界框预测结果。

优选的，所述步骤S4中得到每一个候选区域中的8个关键点的位置和定位置信度的方法为：对每一个目标实例，在特征图上使用ROIAlign操作从二维边界框中提取7×7区域特征并拉伸成一维向量(长度为256×7×7)，经过两个含有1024个节点的全连接层后，输出8×4维向量用于对8个关键点做最近角点分类，同时输出两个8×4×2维向量用于回归8个关键点相对于4个角点的偏移和定位置信度；对于每一个关键点，有4维向量用于最近角点分类，取分类得分最高的类别所对应的边界框角点作为最近角点；假设最近角点分类得分最高的类别为i(＝1,2,3,4),则从用于回归偏移的4×2维向量offset中选出对应的2维向量 (offset_2i-1,offset_2i)作为关键点相对于最近角点的偏移向量，并计算出关键点在图像上的位置：

同时从用于预测定位置信度的4×2维向量conf中选出对应的2维向量 (conf_2i-1,conf_2i)作为关键点定位的置信度；

closestcorner_x，closestcorner_y是最近角点的x，y坐标，offset_2i-1，offset_2i是网络预测出关键点相对于最近角点的x，y坐标偏移量，keypoint_x，keypoint_y是计算出的关键点x，y坐标。

优选的，在步骤S4之后还包括获得基于置信度投票之后的关键点位置，采用的方法为：

对于每一个候选区域，计算其与其他候选区域的基于关键点的交并比，计算方式如下：

其中k₁,k₂分别代表任意两个候选区域的关键点集合，w和h分别代表候选区域的宽和高；w₁，h₁代表第一个候选区域的宽高，w₂，h₂代表第二个候选区域的宽高，k_1ix，k_1iy代表第一个候选区域的第i个关键点的x，y坐标，k_2ix，k_2iy代表第二个候选区域的第i个关键点的x，y坐标；

选取与当前候选区域的kpt_IoU大于0.55的候选区域集合K_voting来进行关键点位置投票；具体投票方式如下：

其中k_current代表当前候选区域的关键点集合，c_i代表定位置信度集合，k_i是第i个候选区域的关键点集合，p_i是第i个候选区域的投票权重。

优选的，得到的是五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果时，通过计算预设锚框与每一个目标实例的真值二维边界框之间的交并比分配正负样本，交并比大于0.5的预设锚框认为是正样本，交并比小于0.4的预设锚框认为是负样本；对于正样本锚框，网络的训练目标值包括边界框类别和二维边界框偏移量；二维边界框偏移量计算按照下式：

其中gt_centerx，gt_centery，gt_width，gt_height分别表示边界框真值的中心点的x，y坐标以及宽度、高度，anchor_centerx，anchor_centery，anchor_width，anchor_height分别表示预设锚框的中心点的x，y坐标以及宽度、高度；对于负样本锚框，网络的训练目标值只有类别；训练时通过在线难样本挖掘的方法使得正负样本的比例为1:3，在线难样本挖掘方法为：在迭代训练过程中，执行前向传播后得到网络对所有预设锚框的类别和二维边界框的预测，对于所有非正样本的锚框，按照网络预测出的属于背景的概率升序排序，取排序后排名靠前的一部分作为负样本；

给定一组正样本预设锚框Pos和负样本预设锚框Neg，检测模块训练网络采用的损失函数为：

其中L_cls代表针对分类问题的分量，采用softmax cross entropy损失函数；L_bbox代表针对边界框回归的分量，采用smooth L1 norm损失函数。

优选的，在关键点定位中，网络的训练目标包括关键点最近角点分类以及关键点相对于最近角点的偏移量；最近角点分类的概率真值计算如下：

其中d_i是关键点到第i个角点的像素坐标距离。投影点坐标偏移量计算方式按照下式：

其中gt_coordinatex，gt_coordinatey分别代表关键点x，y坐标的真值。proposal_width，proposal_height分别代表候选区域的宽和高。关键点定位模块采用的损失函数为：

L_keypoint＝L_ccc+L_reg&conf (10)

其中L_ccc代表最近角点分类的分量，采用softmax cross entropy损失函数；L_reg&conf代表关键点坐标回归和定位置信度预测的分量，采用smooth KL散度损失函数：

其中var是网络预测出的坐标定位方差，target_reg是回归的目标值，pred_reg是网络的预测值，相应的定位置信度为conf＝e^-var；总的损失函数由检测模块的损失函数和关键点定位模块的损失函数组成：

L＝L_detection+αL_keypoint (12)

其中α是为了平衡损失函数中各个分量而使用的权重系数。

本发明的有益效果在于：

本发明提出了一种基于候选区域边界框的关键点表示方式，结合了神经网络的分类和回归能力，显著减小了回归空间，同时适用于定位边界框内和边界框外的关键点，并且能够预测关键点的定位置信度；

本发明提出了一种基于置信度的关键点位置投票算法，可以减少误差较大的关键点对于位姿估计精度的影响，使得算法对于遮挡具有较强的鲁棒性；

本发明基于所提出的关键点表示方法开发了一种端到端的卷积神经网络用于六自由度位姿估计，具备高位姿估计精度和实时处理能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为现有技术的方法流程图。

图2附图为本发明的方法流程图。

图3附图本发明单目标场景下的位姿估计算法效果图。

图4附图本发明多目标场景下的位姿估计算法效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明首先使用检测模块定位目标的二维边界框，再基于二维检测框预测关键点的位置偏移。在第二步中，本专利算法提出了一种新的基于边界框的关键点定位方式，结合了卷积神经网络的分类和回归能力，适用于定位边界框外的关键点，并且能够显著减小关键点偏移的长度变化。同时本专利算法提出的关键点定位方式能够给出每一个关键点的定位置信度，用于指导EPnP算法计算位姿，可以降低误差较大的关键点对位姿精度的影响。

请参阅附图2，本发明提供了一种基于边界框外关键点定位的六自由度位姿估计算法，包括如下步骤：

S1：输入目标的三维模型和RGB三通道图像，根据三维模型，得到图像中目标物体在三个维度上的尺寸信息，包括长宽高，确定目标物体三维边界框的8 个顶点的坐标；

具体包括如下步骤：

S22：本专利算法采用基于残差50层网络的特征金字塔网络作为检测模块的特征提取器，采用多尺度预测结构。残差50层网络包含50个卷积层，由5 个阶段构成(Stage 1～5)，得到的是五个具有不同尺度的特征图；构建特征金字塔时本算法使用Stage 2、3、4、5的输出特征图(分别记为C2、C3、C4、C5)，其维度分别为128×128×256、64×64×512、32×32×1024、16×16×2048。构建特征金字塔的具体过程如下：C5经过256个1×1×2048的卷积得到维度为 16×16×256的P5特征图；C4经过256个1×1×1024的卷积后，加上上采样两倍的P5得到维度为32×32×256的P4特征图；C3经过256个1×1×512的卷积后，加上上采样两倍的P4得到维度为64×64×256的P3特征图；C2经过256个 1×1×256的卷积后，加上上采样两倍的P3得到维度为128×128×256的P2特征图；对P5做步长为2的3×3最大池化操作得到维度为8×8×256的P6特征图；再对P2、P3、P4和P5分别使用256个3×3×256的卷积核进行卷积操作，得到最终的特征图P2、P3、P4和P5，维度均保持不变，得到的是五个具有不同尺度的特征图P2～P6。

S23：在得到的五个不同尺度的特征图上进行目标检测，预设锚框，得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果，具体为：五个不同尺度的特征图上通过若干个维度为3×3×256的卷积核进行目标检测，预测感兴趣物体的二维边界框。对于特征图P_i，i∈{2,3,4,5,6}，其维度为w_i×h_i×256，经过一组卷积核的个数为N_anchor×(4+C+1)的卷积运算后得到的预测结果的维度为w_i×h_i×[N_anchor×(4+C+1)]，即在该特征图的w_i×h_i中的每一个二维空间位置上，对应一个长度为N_anchor×(4+C+1)的预测结果向量，其中N_anchor＝4是特征图上每一点的预设锚框数，括号中4代表二维边界框的修正值个数，C代表目标类别数，最后的1是背景类别。预设锚框是以特征图上每一点为中心、按照一定的尺寸和长宽比例设置的默认二维边界框，用于回归目标真值二维边界框。在本专利算法实现中，五个不同尺度的特征图上的预设锚框的尺寸分别为[0.05，0.07]， [0.1，0.15]，[0.23，0.29]，[0.36，0.42]，[0.49，0.55](均为相对于特征图短边的比例)，长宽比例均为[1,2,0.5]。具体地，首先固定一个比例r1，采样2个不同的尺寸s1和s2；然后固定尺寸s1，采样2个长宽比r2和r3，由此在每个特征图的每个位置上生成4个预设锚框。网络在特征图上每一个位置处预测出的结果向量中包含有对该位置处4个预设锚框的预测结果。每一个预设锚框的预测结果是一个长度为4+C+1的向量。假设该锚框的中心点为(anchor_centerx,anchor_centery)，宽和高分别为anchor_width和anchor_height，预测结果中的前4个数(pred_{bbox_centerx},pred_{bbox_centery},pred_{bbox_width},pred_{bbox_height})是预测出的二维边界框相对于预设锚框的中心点以及宽高的修正值，根据这4个数可以计算预测出的二维边界框的中心点以及宽高：

其中，pred_{bbox_centerx}，pred_{bbox_centery}是预测出的二维边界框中心点坐标相对于预设锚框的中心点坐标的修正值；pred_{bbox_width}，pred_{bbox_height}是预测出的二维边界框宽高相对于预设锚框宽高的修正值；anchor_centerx，anchor_centery是预设锚框的中心点坐标，anchor_width和anchor_height是预设锚框的宽高；bbox_centerx，bbox_centery是预测出的二维边界框的中心点坐标，bbox_width，bbox_height是预测出的二维边界框的宽高。

其中，C是类别数，x_i是网络对目标属于第i类的预测值，p_i是目标属于第 i类的概率值。

哪一类别的概率最高，就认为该锚框属于这一类别，同时将该类别的概率作为类别得分。步骤3得到的是五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果。

S3：对目标类别和二维边界框预测结果进行非极大抑制操作，得到去冗余后图像中目标实例的类别以及二维边界框预测结果。对于网络预测出的每一个非背景的目标实例，计算与其同类别的其他预测的二维边界框的交并比，当交并比大于0.7时，只保留类别得分较高的预测，去除类别得分较低的预测。非极大抑制的目的是去除大量冗余的、相互重叠的预测，只保留置信度最高的一部分预测。最后选取类别得分最高的2000个二维边界框作为候选区域输入边界框定位模块。步骤4得到的是去冗余后检测模块对图像中目标实例的类别以及二维边界框预测结果。

S4：基于步骤3得到的检测结果和步骤2得到的特征图P2，对关键点在图像中进行定位。对每一个目标实例，在P2特征图上使用ROIAlign操作从二维边界框中提取7×7区域特征并拉伸成一维向量(长度为256×7×7)，经过两个含有1024个节点的全连接层后，输出8×4维向量用于对8个关键点做最近角点分类，同时输出两个8×4×2维向量用于回归8个关键点相对于4个角点的偏移和定位置信度。具体地，对于每一个关键点，有4维向量用于最近角点分类，取分类得分最高的类别所对应的边界框角点作为最近角点；假设最近角点分类得分最高的类别为i(＝1,2,3,4),则从用于回归偏移的4×2维向量offset中选出对应的2维向量(offset_2i-1,offset_2i)作为关键点相对于最近角点的偏移向量，并计算出关键点在图像上的位置：

同时从用于预测定位置信度的4×2维向量conf中选出对应的2维向量 (conf_2i-1,conf_2i)作为关键点定位的置信度。步骤5得到的是每一个候选区域中的8 个关键点的位置和定位置信度。

S5：基于置信度的关键点位置投票。对于每一个候选区域，计算其与其他候选区域的基于关键点的交并比，计算方式如下：

其中k₁,k₂分别代表任意两个候选区域的关键点集合，w和h分别代表候选区域的宽和高；w₁，h₁代表第一个候选区域的宽高，w₂，h₂代表第二个候选区域的宽高，k_1ix，k_1iy代表第一个候选区域的第i个关键点的x，y坐标，k_2ix，k_2iy代表第二个候选区域的第i个关键点的x，y坐标。

我们选取与当前候选区域的kpt_IoU大于0.55的候选区域集合K_voting来进行关键点位置投票。具体投票方式如下：

其中k_current代表当前候选区域的关键点集合，c_i代表定位置信度集合，k_i是第i个候选区域的关键点集合，p_i是第i个候选区域的投票权重。步骤6得到的是基于置信度投票之后的关键点位置。

S6：每一个候选区域的8个关键点位置，利用EPnP算法计算目标相对于相机的六自由度位姿。根据步骤S1中的目标物体在三个维度上的尺寸信息，可以计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标，结合步骤S4得到的8个投影点坐标回归结果，就得到了8组二维点与三维点之间的对应关系。EPnP算法利用这8组对应关系计算每一个目标实例相对于相机的六自由度位姿。

训练过程：在检测过程中，通过计算预设锚框与每一个目标实例的真值二维边界框之间的交并比分配正负样本，交并比大于0.5的预设锚框认为是正样本，交并比小于0.4的预设锚框认为是负样本。对于正样本锚框，网络的训练目标值包括边界框类别和二维边界框偏移量。二维边界框偏移量计算按照下式：

其中gt_centerx，gt_centery，gt_width，gt_height分别表示边界框真值的中心点的x，y坐标以及宽高，anchor_centerx，anchor_centery，anchor_width，anchor_height分别表示预设锚框的中心点的 x，y坐标以及宽高。对于负样本锚框，网络的训练目标值只有类别。训练时通过在线难样本挖掘的方法使得正负样本的比例为1：3。具体地，在线难样本挖掘方法是指在迭代训练过程中，执行前向传播(RGB图像到步骤2再到步骤3) 后得到网络对所有预设锚框的类别和二维边界框的预测，对于所有非正样本的锚框，按照网络预测出的属于背景的概率升序排序，取排序后排名靠前的一部分作为负样本。

在关键点定位过程中，网络的训练目标包括关键点最近角点分类以及关键点相对于最近角点的偏移量。最近角点分类的概率真值计算如下：

L_keypoint＝L_ccc+L_reg&conf (10)

其中var是网络预测出的坐标定位方差，target_reg是回归的目标值，pred_reg是网络的预测值，相应的定位置信度为conf＝e^-var。总的损失函数由检测模块的损失函数和关键点定位模块的损失函数组成：

L＝L_detection+αL_keypoint (12)

其中α是为了平衡损失函数中各个分量而使用的权重系数，在本专利算法中将α设置为10。

训练时采用的优化方法为带动量的随机梯度下降法，初始学习率为0.001，动量为0.9，权重衰减为0.0005，批量大小为8，共迭代更新网络参数90000次，并在第60000次更新和第80000次更新后将学习率降低至原来的十分之一。

具体地，训练的流程为：先执行一次前向传播(RGB图像到步骤2)，得到网络对于图像中目标实例的类别、二维边界框以及关键点坐标的预测值，然后利用公式(5)、(8)、(10)计算网络预测值与训练目标值之间的误差，再通过带动量的随机梯度下降法对网络中的权重参数进行更新，使得误差减小；接下来进行下一次迭代，即使用更新后的网络参数执行前向传播，计算预测值与目标值的误差，继续更新网络权重参数…。本算法共迭代更新90000次。

本发明提出了一种基于边界框的关键点表示方法，能够有效提高边界框外的关键点的定位精度；同时基于所提出的关键点表示开发了一个端到端的卷积神经网络用于六自由度位姿估计，在保证实时处理能力的同时提升了位姿估计精度。相比于现有技术YOLO6D算法的关键点定位方式，本专利提出的基于边界框的关键点表示方法结合了神经网络的分类和回归能力，显著减小了回归空间，同时适用于边界框内和边界框外的关键点；并且能够预测关键点的定位置信度，结合本专利提出的基于置信度的关键点位置投票算法能够进一步提高关键点定位精度。本专利算法与现有技术YOLO6D的位姿估计精度对比结果见表1。本专利开发的卷积神经网络能够达到较高的推理运行速度，在GTX1080TiGPU上每秒约可处理33张640×480的RGB图像，具备实时处理能力。图3 与图4展示了本专利算法在单目标场景(LINEMOD数据集)和多目标场景 (OCCLUSION数据集)下的位姿估计结果。可以看到本专利算法对于物体之间的遮挡情况以及场景的光照变化都具有一定的鲁棒性。

表1.

物体\方法	本专利算法	YOLO6D
			Ape	98.8	92.1
Benchvise	94.6	95.1
			Cam	98.1	93.2
Can	97.3	97.4
			Cat	99.2	97.4
Driller	91.9	79.4
			Duck	98.2	94.7
Eggbox	97.9	90.3
			Glue	97.3	96.5
Holepuncher	99.0	92.9
			iron	92.7	82.9
Lamp	94.1	76.9
			Phone	96.3	86.1
平均	96.6	90.4

表1为本专利算法与现有技术在LINEMOD数据集上的位姿估计精度对比表。表中数值为位姿估计重投影误差小于5像素的图像数目占测试集中图像总数的百分比。该数值越高表示位姿估计精度越高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，所述步骤S2中得到的是五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果的方法为：

3.根据权利要求2所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，所述步骤S22中，采用基于残差50层网络的特征金字塔网络作为特征提取器，得到的是五个具有不同尺度的特征图的方法为：

S221：构建特征金字塔，输出特征图C2、C3、C4、C5，其维度分别为128×128×256、64×64×512、32×32×1024、16×16×2048；

4.根据权利要求3所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，所述步骤23中在得到的五个不同尺度的特征图上进行目标检测，预设锚框，得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果的方法为：

S231：在步骤S22得到的五个不同尺度的特征图上通过若干个维度为3×3×256的卷积核进行目标检测，预测二维边界框；

S232：对于特征图P_i，i∈{2,3,4,5,6}，其维度为w_i×h_i×256，经过一组卷积核的个数为N_anchor×(4+C+1)的卷积运算后得到的预测结果的维度为w_i×h_i×[N_anchor×(4+C+1)]；其中N_anchor是特征图上每一点的预设锚框数，4代表二维边界框的修正值个数，C代表目标类别数，1是背景类别；

S233：网络在特征图上每一个位置处预测出的结果向量中包含有对该位置处4个预设锚框的预测结果；每一个预设锚框的预测结果是一个长度为4+C+1的向；假设该锚框的中心点为(anchor_centerx,anchor_centery)，宽和高分别为anchor_width和anchor_height，预测结果中的前4个数(pred_{bbox_centerx},pred_{bbox_centery},pred_{bbox_width},pred_{bbox_height})是预测出的二维边界框相对于预设锚框的中心点以及宽高的修正值，根据这4个数可以计算预测出的二维边界框的中心点以及宽高：

其中，C是类别数，x_i是网络对目标属于第i类的预测值，p_i是目标属于第i类的概率值；锚框属于概率最高的类别，同时将该类别的概率作为类别得分。

5.根据权利要求1或4所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，所述步骤S3对目标类别和二维边界框预测结果进行非极大抑制操作，得到去冗余后图像中目标实例的类别以及二维边界框预测结果的方法为：对于网络预测出的每一个非背景的目标实例，计算与其同类别的其他预测的二维边界框的交并比，当交并比大于0.7时，只保留类别得分较高的预测，去除类别得分较低的预测；最后选取类别得分最高的2000个二维边界框作为候选区域进行边界框定位，得到去冗余后图像中目标实例的类别以及二维边界框预测结果。

6.根据权利要求5所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，所述步骤S4中得到每一个候选区域中的8个关键点的位置和定位置信度的方法为：对每一个目标实例，在特征图上使用ROIAlign操作从二维边界框中提取7×7区域特征并拉伸成一维向量(长度为256×7×7)，经过两个含有1024个节点的全连接层后，输出8×4维向量用于对8个关键点做最近角点分类，同时输出两个8×4×2维向量用于回归8个关键点相对于4个角点的偏移和定位置信度；对于每一个关键点，有4维向量用于最近角点分类，取分类得分最高的类别所对应的边界框角点作为最近角点；假设最近角点分类得分最高的类别为i(＝1,2,3,4),则从用于回归偏移的4×2维向量offset中选出对应的2维向量(offset_2i-1,offset_2i)作为关键点相对于最近角点的偏移向量，并计算出关键点在图像上的位置：

同时从用于预测定位置信度的4×2维向量conf中选出对应的2维向量(conf_2i-1,conf_2i)作为关键点定位的置信度；

7.根据权利要求6所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，在步骤S4之后还包括获得基于置信度投票之后的关键点位置，采用的方法为：

8.根据权利要求7所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，得到的是五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果时，通过计算预设锚框与每一个目标实例的真值二维边界框之间的交并比分配正负样本，交并比大于0.5的预设锚框认为是正样本，交并比小于0.4的预设锚框认为是负样本；对于正样本锚框，网络的训练目标值包括边界框类别和二维边界框偏移量；二维边界框偏移量计算按照下式：

9.根据权利要求8所述的一种基于边界框外关键点定位的六自由度位姿估计算法，其特征在于，在关键点定位中，网络的训练目标包括关键点最近角点分类以及关键点相对于最近角点的偏移量；最近角点分类的概率真值计算如下：

其中d_i是关键点到第i个角点的像素坐标距离；投影点坐标偏移量计算方式按照下式：

其中gt_coordinatex，gt_coordinatey分别代表关键点x，y坐标的真值；proposal_width，proposal_height分别代表候选区域的宽和高；关键点定位模块采用的损失函数为：

L_keypoint＝L_ccc+L_reg&conf (10)

L＝L_detection+αL_keypoint (12)

其中α是为了平衡损失函数中各个分量而使用的权重系数。