CN110322510A

CN110322510A - 一种利用轮廓信息的6d位姿估计方法

Info

Publication number: CN110322510A
Application number: CN201910569209.2A
Authority: CN
Inventors: 杨路; 康甲; 刘文俊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-11
Anticipated expiration: 2039-06-27
Also published as: CN110322510B

Abstract

本发明提供了一种利用轮廓信息的6D位姿估计方法，包括：基于卷积神经网络设计目标物体6D位姿估计网络；采集和标注不同背景、角度和姿态的目标物体训练样本图片构建数据集，并对训练样本进行数据增强；对目标物体6D位姿估计网络进行训练，得到网络参数模型；调用目标物体6D位姿估计网络参数模型对目标物体图片进行预测，得到目标物体关键点二维投影坐标；由目标物体关键点二维投影坐标，利用EPnP计算出目标物体6D位姿。本发明方法在不需要位姿修正后处理的情况下，通过所设计的6D位姿估计网络，利用目标物体的轮廓信息快速准确地检测出目标物体的6D位姿。

Description

一种利用轮廓信息的6D位姿估计方法

技术领域

本发明涉及物体定位和姿态估计领域，具体涉及一种利用轮廓信息的6D位姿估计方法。

背景技术

近年来深度学习在目标检测领域取得的巨大突破，机器人等领域对目标检测提出了更高的要求，即检测物体的6D位姿(三维位置和三维旋转角)，以更高效地进行社会生产活动。工业机器人是面向工业领域的多关节机械手和多自由度的机器装置，它是靠自身动力系统和控制能力来实现工业生产任务的一种机器人。它可以按照预先设定的程序运行，现代工业机器人可以根据人工智能算法制定的决策规则工作。服务机器人是一种半自主或全自主工作的机器人，现已进入半商业化应用。

在机器人等实际应用中，其对周围环境的目标物体检测是非常重要的。在机器人日常的抓取操作任务中，高效精准地检测物体的6D位姿，机器人才可以利用物体的位姿信息规划运动路径并调整机械臂姿态来移动目标物体，可靠地保证机器人操作的高效性和安全性。

随着VGG、Faster R-CNN、YOLO深度学习算法在目标检测领域取得突出进展，越来越多的制造业公司开始利用深度学习方法运用于工件等物体检测，来提高流水线生产的效率和算法的可靠性，极大地提升实际生产效能。然而，面对位姿变化的物体和某些位姿检测精度要求较高的操作任务，现有技术在物体位姿估计任务上不仅存在检测精度较差的问题，而且很难平衡算法在物体位姿检测精确度和检测速度，从而限制了机器人的自动化程度。

发明内容

本发明所要解决的技术问题是提供一种利用轮廓信息的6D位姿估计方法，实时地对目标物体进行6D位姿处理，检测精度高且检测速度快。

为解决上述技术问题，本发明采用的技术方案是：

一种利用轮廓信息的6D位姿估计方法，包括以下步骤：

S1：基于卷积神经网络设计目标物体6D位姿估计网络，包含网络共享层、轮廓预测分支和边界框预测分支；

网络共享层由卷积层和池化层组成，用于提取图片中目标物体特征，得到特征图；

轮廓预测分支由上采样层和卷积层组成，每次上采样之后得到的特征图和网络共享层中相同尺度的特征图拼接得到新的特征图，并作为下一个卷积层的输入；

边界框预测分支由一系列全卷积网络以及一个直连层组成，此分支将输入图片划分为S×S个网格，每个网格对应图片中32×32的区域，每个网格输出包含代表3D边界框的9个关键点投影坐标、类别概率，预测框的置信度；边界框预测分支输出维度大小为S×S×D的张量，其中D＝(9×2+N+1)，N代表目标物体的类别个数，9个关键点为3D边界框的顶点和边界框的中心；

S2：采用不同背景、角度和姿态的目标物体图片作为训练样本以构建训练集，对训练样本进行数据增强，以及轮廓信息标注、分类信息标注和位姿信息标注；

S3：使用步骤S2构建的训练集对目标物体6D位姿估计网络进行训练，通过最小化设计的损失函数优化网络参数，当训练次数达到预设次数时，停止训练并得到6D位姿估计网络模型；

S4：调用S3得到的6D位姿估计网络模型对目标物体图片进行预测，得到目标物体关键点的二维投影坐标；

S5：利用S4中目标物体预测关键点的投影坐标和目标物体的CAD模型关键点三维坐标，通过EPnP算法计算目标物体相对于相机的位姿。

进一步的，目标物体6D位姿估计网络中轮廓预测分支最后一层采用Sigmoid函数，其余非线性激活函均使用Relu函数，每个卷积层均合并了批归一化层。

进一步的，在步骤2中，轮廓信息以二维张量标注，以区分目标物体和背景，轮廓信息张量的维度与网络输入图片相同；分类信息以数字标注，不同类别的物体以不同大小的整数标注；位姿信息以目标物体的3D边界框的8个顶点和1个中心点标注。

进一步的，步骤S3中所设计的损失函数包括几何约束损失函数、轮廓预测损失函数、关键点坐标误差函数、置信度损失函数和类别预测损失函数，具体是：

几何约束损失函数公式：

其中λ_edge为几何约束损失函数的权值，l_ij为预测边界框的边长，为预测框第i组的四个对应边的平均长度；

轮廓预测损失函数：

其中λ_mask为轮廓预测损失函数的权值，w为输入图片的宽度像素值，h为输入图片的高度像素值，p为预测像素为目标物体的概率，为标注值，；

关键点坐标误差函数：

其中λ_pc为关键点坐标误差函数的权值，s²为输入图片划分的网格的数目，x,y为预测坐标值，为标注坐标值，表示目标物体的中心落在第i个网格中；

置信度损失函数：

其中λ_obj为置信度损失函数的权值，C为预测置信度，为预测边界框与标注边界框计算得到的置信度，表示目标物体的中心落在第i个网格中，表示目标物体的中心未落在第i个网格中；

类别预测损失函数：

其中λ_id为类别预测损失函数的权值，p(c)为网络预测类别概率，为标注类别；

整体损失函数：L＝L_edge+L_mask+L_pc+L_conf+L_id。

与现有技术相比，本发明的有益效果是：设计了能利用物体轮廓信息提升位姿检测精度的网络，在模型训练阶段，利用目标物体轮廓信息加强网络特征对目标物体边缘的学习，使获得的目标物体特征信息更鲁棒；同时，所设计的训练损失函数包含的几何约束损失函数约束了预测框投影后的形状，防止了预测框的形变；在不需要位姿修正后处理的情况下，本方法对目标物体位姿估计快速且精确，可以实时地对目标物体进行6D位姿处理。

附图说明

图1是本发明方法的流程示意图；

图2是本发明中目标物体6D位姿估计网络结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。如图1所示，本发明一种利用轮廓信息的6D位姿估计方法，包括以下步骤：

S1：基于卷积神经网络设计目标物体6D位姿估计网络，包括在网络中增加语义分割分支，利用轮廓特权信息约束网络底层特征的学习；

如图2所示，目标物体6D位姿估计网络是基于卷积神经网络进行设计的，其结构一共包括三个部分：网络共享层、轮廓预测分支、边界框预测分支。含目标物体的图片在经过网络共享层后得到特征图，再进入轮廓预测分支和边界框预测分支。其中网络共享层由一系列卷积层和池化层组成，卷积层中使用大小为3×3卷积核，池化层采用最大池化方式压缩特征图。

轮廓预测分支由上采样层和卷积层组成，每次经上采样之后得到的特征图将和共享层中相同尺度的特征图在通道维度上拼接得到新的特征图，前三次拼接的特征图依次通过卷积核为3×3和1×1的卷积层，最后一次的拼接的特征图通过卷积核为3×3的卷积层，再经过Sigmoid层输出目标物体预测轮廓，轮廓预测分支通过和真实轮廓计算交叉熵损失来加强网络底层特征对物体轮廓信息的学习能力。

边界框预测分支由一系列全卷积网络以及一个直连层组成，此分支将输入图片划分为S×S个网格，每个网格对应图片中32×32的区域，每个网格输出包含代表3D边界框的9个关键点投影坐标、类别概率，预测框的置信度。边界框预测分支输出维度大小为S×S×D的张量，其中D＝(9×2+N+1)，N代表目标物体的类别个数，9个关键点为3D边界框的顶点和边界框的中心。边界预测分支用于计算目标物体分类与位姿信息。

S2：采用不同背景、角度和姿态的目标物体图片作为训练样本，对训练样本进行数据增强，以及轮廓信息标注、分类信息标注和位姿信息标注以构建训练集；

对训练集不同背景、角度和姿态的目标物体图片进行数据增强，可以减少网络过拟合现象，得到泛化能力更强的网络，更好的适应应用场景，具体可对训练样本作如下变换：

1)随机改变训练图片的饱和度和曝光度为原图的1至1.5倍，以及将色调改变为原图的1至1.1倍；

2)随机裁剪训练图片，裁剪尺寸不超过图片大小的10％；

3)以50％的概率将图片水平翻转；

4)随机将训练图片的背景替换成从VOC2012数据集中随机选取出的图片。

训练样本的轮廓信息以二维张量标注，以区分目标物体和背景，轮廓信息张量的维度与网络输入图片相同。目标物体的轮廓张量由其CAD模型计算得出。轮廓张量对应于输入图片背景的区域标注为0，对应于图片中目标物体的区域标注为1。分类信息以不同大小的整数标注，不同类别的物体以不同数字标注。位姿信息以目标物体的3D边界框的8个顶点和1个中心点标注。

S3：使用步骤S2构建的训练集对所述的目标物体6D位姿估计网络进行训练，通过最小化所设计的损失函数优化网络参数，当训练次数达到预设次数时，停止训练并得到6D位姿估计网络模型；

训练过程中模型损失函数包括几何约束损失函数、轮廓预测损失函数、关键点坐标误差函数、置信度损失函数、类别预测损失函数，即：

几何约束损失函数公式：

轮廓预测损失函数：

关键点坐标误差函数：

置信度损失函数：

类别预测损失函数：

整体损失函数：L＝L_edge+L_mask+L_pc+L_conf+L_id。

训练过程中采用多尺度输入训练策略，在训练过程中每100个周期之后增大输入网络图片的尺寸。初始学习率0.001，并且在第250个周期后降低为10^-4，在第500个周期后降低为10^-5，训练800个周期后结束，batch size为16，采用自适应矩估计优化器优化变量。

通过所述已经训练完成的6D位姿估计的网络，对目标物体图片进行检测；由网络中边界框预测分支的输出得到目标物体9个关键点投影坐标。由于网络中参数已经在训练阶段学习到目标轮廓预测信息，在检测过程中，剪去网络中轮廓预测分支，提升了网络对目标物体的检测速度。

S5：利用S4中目标物体预测关键点的投影坐标和目标物体的CAD模型关键点三维坐标，通过EPnP算法计算目标物体相对于相机的位姿；

在EPnP算法中，世界坐标系中参考点的3D坐标被表示为一组控制点的加权和，首先由3D参考点计算出控制点，再通过高斯-牛顿优化算法确定控制点在相机坐标下的坐标，最后经位姿变换得到目标物体的位姿信息。

Claims

1.一种利用轮廓信息的6D位姿估计方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种利用轮廓信息的6D位姿估计方法，其特征在于，目标物体6D位姿估计网络中轮廓预测分支最后一层采用Sigmoid函数，其余非线性激活函均使用Relu函数，每个卷积层均合并了批归一化层。

3.如权利要求1所述的一种利用轮廓信息的6D位姿估计方法，其特征在于，在步骤2中，轮廓信息以二维张量标注，以区分目标物体和背景，轮廓信息张量的维度与网络输入图片相同；分类信息以数字标注，不同类别的物体以不同大小的整数标注；位姿信息以目标物体的3D边界框的8个顶点和1个中心点标注。

4.如权利要求1所述的一种利用轮廓信息的6D位姿估计方法，其特征在于，步骤S3中所设计的损失函数包括几何约束损失函数、轮廓预测损失函数、关键点坐标误差函数、置信度损失函数和类别预测损失函数，具体是：

几何约束损失函数公式：

轮廓预测损失函数：

关键点坐标误差函数：

置信度损失函数：

类别预测损失函数：

整体损失函数：L＝L_edge+L_mask+L_pc+L_conf+L_id。