CN111667535A

CN111667535A - 一种针对遮挡场景下的六自由度位姿估计方法

Info

Publication number: CN111667535A
Application number: CN202010497562.7A
Authority: CN
Inventors: 杨路; 刘文俊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-15
Anticipated expiration: 2040-06-04
Also published as: CN111667535B

Abstract

本发明提供了一种针对遮挡场景下的六自由度位姿估计方法，通过位姿估计网络中的粗预测模块和遮挡纠正模块，对待检测的RGB图片进行预测，得到关键点向量场，通过随机抽样一致算法投票得到目标物体的三维关键点投影坐标，再利用通过EPnP算法计算目标物体相对于相机的六自由度位姿。本发明所提出的位姿估计网络，可针对目标进行端到端训练和预测且不需要位姿修正后处理步骤，提高了算法的运行效率，在遮挡情况下能快速准确地检测出目标物体的六自由度位姿。

Description

一种针对遮挡场景下的六自由度位姿估计方法

技术领域

本发明属于计算机视觉领域，具体为一种针对遮挡场景下的六自由度位姿估计方法。

背景技术

检测图像中目标物体的三维位置和三维旋转角(六自由度)是计算机视觉领域的研究热点。由于常见的2D目标检测仅仅只能提供目标类别和位置信息，而在实际应用中往往还需要目标在三维空间的位置和方向，例如只有准确的估计目标的六自由度位姿才可以帮助机器确定目标物体的位置和方向，并用于机器下一步的操作和决策。准确的估计目标物体的六自由度位姿是许多实际应用的技术关键，例如智能机器人，自动驾驶和增强现实等。

智能机器人的关键技术之一就是要能感知周围的环境，也就是对所处场景中的目标物体三维位置和方向的估计。这种技术对于机器人的抓取尤为重要，特别是在工业机械臂操作中，只有高效精准地检测物体的六自由度位姿，机器才可以利用物体的位姿信息规划运动路径并调整机械臂姿态来移动目标物体，可靠地保证机械臂操作的高效性和安全性。在自动驾驶技术中，精确的位姿估计能够帮助车辆知道周围物体的方向和距离等信息，这些信息将对自动驾驶系统里的碰撞预警系统是十分重要的。

近年来，随着深度学习算法的高速发展，越来越多的位姿估计方法利用神经网络强大的学习能力来提升精度，尤其是通过引入卷积神经网络的提高了特征提取能力。这些位姿估计方法运用于工件等物体检测，提高了流水线生产的效率和算法的可靠性，极大地提升实际生产效能。然而，现有技术在位姿估计任务上受实际环境影响较大，特别是在遮挡环境下，准确估计出目标物体六自由度位姿是具有很大挑战以及意义的。因此如何提供一种针对遮挡环境下的六自由度位姿估计算法是本领域技术人员亟需解决的问题。

发明内容

本发明所要解决的技术问题是提供一种针对遮挡场景下的六自由度位姿估计方法，以克服现有技术在遮挡情况下检测精度较差的不足。

为解决上述技术问题，本发明采用的技术方案是：

一种针对遮挡场景下的六自由度位姿估计方法，包括以下步骤：

S1：输入待检测的RGB图片，并计算待检测目标的三维模型九个关键点的三维坐标；

S2：通过位姿估计网络对待检测的RGB图片进行预测，获得二维关键点向量场和语义分割预测结果，具体为：

S21：基于卷积神经网络构建位姿估计网络，包含粗预测模块和遮挡纠正模块；

S22：将训练样本中RGB图片进行数据增强，输入到粗预测模块中，得到二维关键点向量场和语义分割粗预测结果，并通过向量场预测损失函数和语义分割损失函数计算与训练标签值之间的误差，通过自适应矩估计优化法对粗预测模块中权重参数进行更新，直至误差收敛，完成粗预测模块的训练；

S23：渲染并合成遮挡图片样本；

S24：将合成的遮挡图片样本通过训练完成的粗预测模块，得到二维关键点向量场和语义分割粗预测结果，再通过遮挡纠正模块，得到二维关键点向量场和语义分割预测结果，计算与标签值之间的误差，通过自适应矩估计优化法对遮挡纠正模块中权重参数进行更新，直至误差收敛，完成对遮挡纠正模块的训练；

S25：将带检测的RGB图片输入到训练完成的位姿估计网络，分别通过粗预测模块与遮挡纠正模块，获得二维关键点向量场和语义分割预测结果；

S3：利用步骤S2的得到的语义分割预测结果，对属于目标物体像素预测的向量，基于随机抽样一致算法进行投票得到九个二维关键点的坐标；

S4：利用步骤S1的目标物体三维模型上的九个关键点的坐标以及步骤S3中图片目标物体的二维关键点坐标得到二维点与三维点的对应关系，通过EPnP算法计算目标物体相对于相机的六自由度位姿。

进一步地，所述步骤S1具体为：利用最远点采样算法计算得到待检测目标的三维模型八个关键点的三维坐标，加入待检测目标的三维模型中心点，共构成九个关键点。

进一步地，所述步骤S2中，二维关键点向量场具体为：对于图像上的每一个像素p，位姿估计网络对二维关键点x_k输出一个单位向量x_k(p)，代表从像素p指向二维关键点xk的方向，所有单位向量v_k(p)组成二维关键点x_k的向量场。

进一步地，所述步骤S21具体为：粗预测模块和遮挡纠正模块基于卷积神经网络组成，均为编码-解码结构；位姿估计网络粗预测模块和遮挡纠正模块均输出两个张量：输出代表向量场预测的张量大小为H×W×(9×2×C)，输出代表语义分割预测的张量大小为H×W×(C+1)，其中H，W代表输入图像的高和宽，C代表预测类别数目。

进一步地，所述步骤S22中：

向量场预测误差损失函数为：

其中l₁为smooth L1函数，

为预测向量，v_k(p)为标签值，Δv_k(p)|_x,Δv_k(p)|_y分别为Δv_k(p)沿图像宽高方向的分量，m为图像中属于目标物体的像素总数；

语义分割损失函数为：

其中

为预测像素为目标物体的概率，p为标签值；

训练损失函数为：L＝λ_vecL_vec+λ_semL_sem；

其中，L_vec,L_sem分别为向量场预测损失函数和语义分割损失函数，λ_vec,λ_sem分别为向量场预测损失函数的权重系数和语义分割损失函数的权重系数，通过训练损失函数计算输出预测值与标签值的误差，再通过自适应矩估计优化法对粗预测模块中的参数进行更新。

进一步地，所述步骤S3具体为：首先，使用预测的语义标签查找目标对象的像素，然后，随机选取目标对象上的两个像素点，取其预测向量的交点作为对关键点x_k的假设点h_k，i，重复进行N次，生成一组假设点集合{h_k，i|i＝1，2，…，N}，假设点集合表示关键点x_k可能的位置；最后，目标对象上的所有像素为这些假设点投票，若像素到假设点h_k，i的方向与像素预测向量x_k(p)方向夹角的余弦值小于设定阈值，则该假设点的权重加一，最后取权重值最高的h_k，i作为关键点x_k的预测值。

进一步地，所述步骤S4的EPnP算法中，关键点的三维坐标被表示为一组控制点的加权和，首先由关键点计算得到控制点，再通过求解控制点在相机坐标下的坐标，进一步求得位姿中的旋转R和平移t。

与现有技术相比，本发明的有益效果是：在模型训练阶段，通过渲染并合成遮挡图片样本，模拟遮挡环境，提升网络在遮挡情况下的泛化能力；同时网络中遮挡纠正模块进一步得到更准确的向量场预测；从而在不需要位姿修正后处理步骤的情况下，在目标物体被遮挡时，本发明方法对目标物体位姿估计快速且精确，可以实时地对目标物体进行六自由度位姿处理。

附图说明

图1是本发明的流程示意图。

图2是网络结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的一种针对遮挡场景下的六自由度位姿估计方法，包括以下步骤：

S1：输入待检测的RGB图片，并计算待检测目标的三维模型九个关键点的三维坐标；如利用最远点采样算法(Farthest Point Sampling，FPS)计算得到待检测目标的三维模型八个关键点的三维坐标，加入待检测目标的三维模型中心点，共构成九个关键点。

S21：基于卷积神经网络构建位姿估计网络，包含两个模块：粗预测模块，遮挡纠正模块；

位姿估计网络由粗预测模块和遮挡纠正模块组成。粗预测模块和遮挡纠正模块基于卷积神经网络构建，均为编码-解码结构(Encoder-Decoder)，其中粗预测模块的编码结构部分由去掉了最后一层全连接层的Resnet18网络构成，解码结构由五层卷积层和三层上采样层构成。遮挡纠正模块的编码结构由七层卷积层和三层最大池化层构成，解码结构由三层卷积层和三层上采样层构成。

位姿估计网络粗预测模块和遮挡纠正模块均输出两个张量：输出代表向量场预测的张量大小为H×W×(9×2×C)，输出代表语义分割预测的张量大小为H×W×(C+1)，其中H，W代表输入图像的高和宽，C代表预测类别数目。

S22：将训练样本中RGB图片进行数据增强，输入到粗预测模块中，得到二维关键点向量场和语义分割粗预测结果，并通过向量场预测损失函数和语义分割损失函数计算与训练标签值之间的误差，通过自适应矩估计优化法(Adaptive Moment Estimation)对粗预测模块中权重参数进行更新，直至误差收敛，完成粗预测模块的训练；

所述S22可采用以下方式：

将训练样本中RGB图片调整为480×640像素。进行数据增强，包括随机裁剪，调整大小，旋转和颜色，更改目标背景。随后输入位姿估计网络粗预测模块中，得到二维关键点向量场和语义分割粗预测结果。向量场预测误差损失函数为：

其中l₁为smooth L1函数，

为预测向量，v_k(p)为标签值，Δv_k(p)|_x,Δv_k(p)|_y分别为Δv_k(p)沿图像宽高方向的分量，m为图像中属于目标物体的像素总数。

语义分割损失函数为：

其中

为预测像素为目标物体的概率，p为标签值。

训练损失函数为：L＝λ_vecL_vec+λ_semL_sem

其中L_vec,L_sem分别为向量场预测损失函数和语义分割损失函数，λ_vec,λ_sem分别为向量场预测损失函数的权重系数和语义分割损失函数的权重系数，通过训练损失函数计算输出预测值与标签值的误差，再通过自适应矩估计优化法对粗预测模块中的参数进行更新。

S23：渲染并合成遮挡图片样本；将遮挡物体的CAD渲染得到RGB图片和掩码图片，再将渲染的图片与未被遮挡的图片进行合成，将遮挡物体盖住目标物体，得到遮挡图片样本。

例如：首先固定粗预测模块中网络参数，将合成的遮挡图片输入粗预测模块中，得到二维关键点向量场和语义分割粗预测结果。然后将粗预测结果输入到遮挡纠正模块，获得纠正后的向量场和语义分割预测结果。通过训练损失函数计算输出预测值与标签值的误差，训练函数中，λ_vec,λ_sem均取1。随后通过自适应矩估计优化法对粗预测模块中的参数进行训练，初始学习率为0.001，batch size为4，每50个epoch更新后将学习率将至一半。若训练轮数<800个epoch，则利用更新后的权重参数继续迭代更新。若训练轮数>800个epoch，则训练完成，停止更新。

S25：将带检测的RGB图片输入到训练完成的位姿估计网络，分别通过粗预测模块与遮挡纠正模块，获得二维关键点向量场和语义分割预测结果。

首先，使用预测的语义标签查找目标对象的像素，然后，随机选取目标对象上的两个像素点，取其预测向量的交点作为对关键点x_k的假设点h_k，i，重复进行N次，生成一组假设点集合{h_k，i|i＝1，2，…，N}，假设点集合表示关键点x_k可能的位置。最后，目标对象上的所有像素为这些假设点投票，若像素到假设点h_k，i的方向与像素预测向量x_k(p)方向夹角的余弦值小于设定阈值，则该假设点的权重加一，最后取权重值最高的h_k，i作为关键点x_k的预测值。

S4：利用步骤S1的目标物体三维模型上的九个关键点的坐标以及步骤S3中图片目标物体的二维关键点坐标得到二维点与三维点的对应关系，通过EPnP算法计算目标物体相对于相机的六自由度位姿。在EPnP算法中，关键点的三维坐标被表示为一组控制点的加权和，首先由关键点计算得到控制点，再通过求解控制点在相机坐标下的坐标，进一步求得位姿中的旋转R和平移t。

Claims

1.一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，包括以下步骤：

S23：渲染并合成遮挡图片样本；

2.如权利要求1所述的一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，所述步骤S1具体为：利用最远点采样算法计算得到待检测目标的三维模型八个关键点的三维坐标，加入待检测目标的三维模型中心点，共构成九个关键点。

3.如权利要求1所述的一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，所述步骤S2中，二维关键点向量场具体为：对于图像上的每一个像素p，位姿估计网络对二维关键点x_k输出一个单位向量x_k(p)，代表从像素p指向二维关键点x_k的方向，所有单位向量v_k(p)组成二维关键点x_k的向量场。

4.如权利要求1所述的一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，所述步骤S21具体为：粗预测模块和遮挡纠正模块基于卷积神经网络组成，均为编码-解码结构；位姿估计网络粗预测模块和遮挡纠正模块均输出两个张量：输出代表向量场预测的张量大小为H×W×(9×2×C)，输出代表语义分割预测的张量大小为H×W×(C+1)，其中H，W代表输入图像的高和宽，C代表预测类别数目。

5.如权利要求1所述的一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，所述步骤S22中：

向量场预测损失函数为：

其中l₁为smooth L1函数，

语义分割损失函数为：

其中

为预测像素为目标物体的概率，p为标签值；

训练损失函数为：L＝λ_vecL_vec+λ_semL_sem；

6.如权利要求1所述的一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，所述步骤S3具体为：首先，使用预测的语义标签查找目标对象的像素，然后，随机选取目标对象上的两个像素点，取其预测向量的交点作为对关键点x_k的假设点h_k，i，重复进行N次，生成一组假设点集合{h_k，i|i＝1，2，…，N}，假设点集合表示关键点x_k可能的位置；最后，目标对象上的所有像素为这些假设点投票，若像素到假设点h_k，i的方向与像素预测向量x_k(p)方向夹角的余弦值小于设定阈值，则该假设点的权重加一，最后取权重值最高的h_k，i作为关键点x_k的预测值。

7.如权利要求1所述的一种针对遮挡场景下的六自由度位姿估计方法，其特征在于，所述步骤S4的EPnP算法中，关键点的三维坐标被表示为一组控制点的加权和，首先由关键点计算得到控制点，再通过求解控制点在相机坐标下的坐标，进一步求得位姿中的旋转R和平移t。