CN109063301B

CN109063301B - 一种基于热力图的单幅图像室内物体姿态估计方法

Info

Publication number: CN109063301B
Application number: CN201810819204.6A
Authority: CN
Inventors: 刘复昌; 白玉; 孟凡胜
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2023-06-16
Anticipated expiration: 2038-07-24
Also published as: CN109063301A

Abstract

本发明属于目标姿态估计领域，公开了一种基于热力图的单幅图像室内物体姿态估计方法，所述基于热力图的物体姿态估计方法通过RPN网络提取多个目标物体的候选框；通过全卷积(FCN)网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，然后再通过使用PnP的方法计算目标物体的6D姿态估计；通过使用ShapeNet作为CAD模型库来合成大量的训练数据。本发明采用的基于热力图的物体姿态估计检测技术，具有很强的鲁棒性，可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态，适用范围较广，对光照不敏感而且不要求物体具有明显的纹理外观。

Description

一种基于热力图的单幅图像室内物体姿态估计方法

技术领域

本发明涉及姿态估计技术领域，特别是涉及一种基于热力图的单幅图像室内物体姿态估计方法。

背景技术

室内场景下物体的姿态估计对于社交机器人的运动规划和虚拟现实、增强现实中的人机交互都起着重要的作用。目前在姿态估计的研究中，主要分为特征点匹配、模版匹配、稠密特征匹配和基于卷积网络端到端的方法。这些方法都存在一定的问题，在复杂的实际环境应用中表现不是十分稳定。例如基于特征点匹配的传统方法依赖于纹理来提取特征点，然后根据二维特征点计算与三维物体对应点之间的旋转与平移，因此无法处理表面光滑、纹理较少的物体；基于模版匹配的方法虽然改进了基于特征点匹配的方法，可以处理纹理较少的物体，但是对于光照和遮挡非常敏感，因此姿态估计结果时常不稳定；基于稠密特征匹配的方法直接对目标物体提取稠密特征点，再进行二维和三维对应姿态计算，由于稠密特征点的抽取需要学习样本空间的统计特性，所以比较耗时，而且通常还需要后处理(如ICP点匹配)来优化姿态估计的结果；基于卷积网络端到端的方法是最近比较流行的方法，但是该方法需要大量的训练数据，目前不管是基于分类还是直接回归的此类算法大都针对单个物体目标比较准确，对于多个目标而且在背景比较杂乱和遮挡较多的场景准确度有待提高；虽然也有学者结合端到端和传统的算法，先用CNNs预测特征点，然后用PnP方法计算姿态，但是这些方法大多是针对单个目标，因此没有考虑目标之间的遮挡情况。

综上所述，现有技术存在的问题是：传统的基于特征点匹配的方法不能处理光滑无纹理的物体；基于模板匹配的方法对光照和遮挡比较敏感；基于稠密特征匹配的方法需要通过学习样本空间来抽取特征因此耗时而且姿态一般还需要后续优化；基于卷积网络端到端的方法对多目标和复杂场景及物体间遮挡情况还解决不好，无法满足较高准确度的应用需求。

发明内容

针对现有技术存在的问题，本发明提供了一种基于热力图的单幅图像室内物体姿态估计方法。

为实现上述目的，本发明的技术方案为一种基于热力图的单幅图像室内物体姿态估计方法,首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取；再基于RPN网络提取室内场景下目标物体的候选框；然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图；最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量，获得物体的6D姿态。该方法中使用ShapeNet作为CAD模型库合成大量训练数据。

具体包括以下步骤：

(1)将单幅RGB图像输入到conv5卷积神经网络中；利用三个3*3的卷积核进行特征提取，每个卷积核使用步长3，填充为1，将得到的结果即特征图送入RPN神经网络进行目标侯选框预测；

(2)RPN神经网络使用9个锚点，大小为128*128,256*256,单位是像素，3个长宽比为1:1的锚点,3个长宽比为1:2的锚点,3个长宽比为2:1的锚点，每个图像生成200个候选框，再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测；

(3)FCN神经网络在每个图像的候选框中，随机选取16个图片块，确保每个图片块的所有部分都在候选框中，每个图片块的大小为7*7，如果候选框太小，就舍弃该候选框；预测每个图片块的热力图，叠加形成完整图像的热力图，包含物体三维包围盒的8个顶点在二维图像的投影；

(4)使用EPnP计算出物体的6D姿态。

上述技术方案中，步骤(3)中FCN神经网络预测每个图片块的热力图，是使用5个卷积层进行预测，最终得到目标物体顶点的8个热力图，具体包括：

(1)第一个卷积层为512个3*3的卷积核，步长为1，将卷积层输出的特征图送入ReLU激活函数，将第一层卷积层的填充设为100；以确保最后结果对可以对齐；

(2)第二个卷积层为512个3*3的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；

(3)第三层卷积层为512个3*3的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；

(4)第四层卷积层为256个1*1的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；

(5)第五层卷积层为8个1*1的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；获得每个图片块的热力图；根据每个图像块的热力图，叠加起来形成一个完整的图像热力图，这个热力图包含物体三维包围盒的8个顶点在二维图像的投影。

步骤(4)中EPnP预测物体的6D姿态，具体包括以下步骤：

1)对于物体三维包围盒8个顶点在二维图像中的投影坐标，选取这8个点当做三维图像的坐标，在三维空间，对于每个物体默认的三维包围盒，都有一个长、宽、高为1∶1∶1的三维包围盒，通过网络训练，回归出一个新的长、宽、高的比例；

2)然后再使用训练出来的新的长、宽、高的比例，求得物体三维包围盒顶点对应的三维坐标，获取8个三维的点，从而获得8个二维到三维的点对，使用opencv的solvePnP函数，计算出从物体坐标到相机做的旋转和平移向量，从而得到目标物体的姿态。

其中，网络训练回归出一个新的长宽高的比例，采用如下公式：

L_pose＝L_proj+αL_dim+βL_reg 公式(1)

公式(1)中L_pose是网络预测的姿态和真实值的姿态之间的损失函数，L_dim用来测量三维度的真实值和网络预测值之间的损失函数，L_reg是正则项，用来防止训练时候过拟合，α、β为权重，控制不同损失的影响，公式(2)中Proj_R，t(M_i)是用训练时候的真实旋转矩阵R和平移矩阵T的投影，L_proj是Proj_R，t(M_i)的期望，smooth_L1为损失函数，M_i为第i个三维模型的8个顶点集合，

为FCN的预测值，公式(4)E表示概率中的期望值，d_i是真实的第i个维度，/>

是预测的第i个维度。

因为没有足够的训练数据，所以采用对二维图像数据集进行渲染的方法生成训练数据，渲染步骤如下：

(1)ShapeNet渲染：使用Blender的Python渲染RGB图像、深度图像，生成相机到物体的旋转矩阵和平移向量；

(2)渲染RGB图像：使用Cycles引擎，随机选取一张SUN_VOC数据集图像当做背景，根据PASCAL 3D数据集每类物体的视角，用概率核密度函数估计算出对应该类物体的仰角和方位角，然后进行摄像机坐标的定位，采用的灯光类型为点光源；

(3)渲染深度图像：使用Cycles引擎，用Z缓冲区算法生成从物体到影像面距离的深度图，将Blender摄像机的裁剪距离设为0.5-4m；在这个范围内的所有距离将会被线性映射到0-255的区间内。

本发明提供的技术方案的有益效果为：

本发明首次提出采用基于热力图的物体姿态估计检测技术，首先通过Conv5对输入的单幅RGB图像进行特征提取，得到热力图，再用RPN预测出目标物体的候选框(候选区域)，然后通过FCN卷积得到每个目标物体的8个顶点对应的热力图；最后通过PnP来计算每个目标物体和对应CAD模型之间的姿态变换矩阵(旋转矩阵和平移向量)。同时通过使用ShapeNet作为CAD模型库来合成大量的不同角度训练图像，从而得到在复杂环境下识别率较高的姿态估计模型。热力图的带来的优点是：直接预测关键点的坐标很难回归(因为预测范围很大，监督信息较少)，网络收敛速度较慢；热力图直接回归每一类关键点的概率，每一点的监督信息较多，因此网络能够较快的收敛，同时对每一个像素位置进行预测能够提高关键点的定位精度，另外全卷积网络架构可以同时使用多个尺度处理输入的特征和响应，二者结合可以提高预测的准确度,而且对于遮挡情况更加鲁棒。

综上所述，本发明基于热力图的物体姿态估计检测技术，具有很强的鲁棒性，可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态，适用范围较广，对光照不敏感而且不要求物体具有明显的纹理外观。

附图说明

图1是本发明方法的流程示意图。

图2是本发明实施例提供的基于热力图的单幅图像室内物体姿态估计方法的整体流程图。

图3是热力图的可视化结果。

图4是最后预测出的目标物体姿态与真实姿态的可视化对比。

具体实施方式

为了使本发明的技术方案更加清楚明白，以下结合实施例，对发明内容做更加详细地说明，但发明的保护范围不限于下述的实例。

给定单幅RGB图像，以及ShapeNet作为CAD模型库合成的数据，完成单幅室内场景图片中目标物体的姿态估计。总体流程图如图2所示：

S10：通过CONV5卷积神经网络提取目标物体特征；

S11：然后通过利用RPN神经网络预测目标候选框(室内场景的物体)；

S12：通过利用FCN根据前面获得的目标物体特征和目标候选框预测出目标物体8个顶点对应的热力图；

S13：通过利用EPnP根据FCN得到的热力图，计算出物体的6D姿态；

所述室内物体姿态估计模型可以表示为：

(R,T)＝姿态_estimation(image)

＝Conv5(image)+rpn(Featuremap5)+FCN(Featuremap5，region_proposal)+PnP(region_proposal)

具体描述上述步骤：

(1)利用conv5卷积神经网络提取图像特征：

下面公式中

表示第j个卷积层中第i个卷积核与输入图像卷积的结果，函数

表示输入图像I和卷积核K进行卷积：

其中

为卷积核k对应的偏置，sizek表示卷积核的大小，/>

表示卷积时的滑动步长；/>

表示第j个卷积层得到的第i个特征图，ReLu(x)为激活函数；ReLu(x)＝max(0，x)；/>

表示第j个池化层对第j个卷积层中的第i个特征图的池化结果，

表示利用size×size大小的滑动窗口对输入图像I进行最大化下采样；/>

其中/>

表示第j个池化层中第i个特征图对应的偏置，/>

表示第j个池化层中滑动窗口的滑动步长；/>

表示第j个池化层得到的池化特征图。

卷积层C1：

其中i＝1，2，3，....，64；j＝1；

卷积层C2：

其中i＝1，2，3，....，64；j＝1；

卷积层C3：

其中i＝1，2，3，....，64；j＝3；

(2)RPN网络进行前景候选框提取：

其中proposal表示通过RPN网络得到的前景候选区域的数据结构，该数据结构包括某个区域是前景的得分rpnscore、区域的位置rpn_bbox；rpn(feature，src，gt_bboxs])表示RPN，该网络输入第三个卷积层得到的64个特征图Feature³、源图像srC、源图像中所有目标物体的具体坐标gt_bboxs(训练用)。

(3)使用FCN进行热力图的生成：

根据RPN输入的包围盒，在包围盒内，随机选取16个小图像块，对每个小图像块做如下操作：

卷积层C1：

其中i＝1，2，3，....，512；j＝1；

卷积层C2：

其中i＝1，2，3，....，512；j＝2；

卷积层C3：

其中i＝1，2，3，....，512；j＝3；

卷积层C4：

其中i＝1，2，3，....，256；j＝3；

卷积层C5：

其中i＝1，2，3，....，8；j＝5；

经过上面所述，FCN使用了5个卷积层进行预测得到目标物体顶点的8个热力图；

将结果累加得到8通道的热力图，然后提取8个三维在热力图中的二维投影。

再使用EPnP计算出物体的6D姿态，通过每个热力图中的物体都对应了8个三维包围盒顶点在二维图像中的投影坐标，选取这8个点当做二维图像的坐标，对于三维空间的点，对于每个物体默认的三维包围盒，都会有一个长、宽、高为1∶1∶1的三维包围盒，通过网络训练，回归出一个长、宽、高的合适比例，可参考如下公式：

L_pose＝L_proj+αL_dim+βL_reg

姿态的loss是一个投影损失，维度损失和正则化的线性组合，这里使用的是smooth_L1损失函数。M_i为第i个三维模型的8个顶点集合，

为FCN的预测值，在训练的过程中，热力图的真实值为一个高斯模板生成的图像。

然后再使用训练出来的新的比例，去求得三维包围盒顶点对应的三维坐标，从而获取8个二维的点，有了8个二维到三维的点对以后，使用opencv的solvePnP函数，去计算出从物体坐标到相机做的旋转和平移向量，从而得到目标物体的姿态。

对于EPnP计算姿态的理论基础如下；

Efficient PnP(EPnP)是用来解决pnp问题中(n＞＝3)的情况的，总共有n个点(被称为引用点)，这些引用点可以被表示为控制点的加权和，这些控制点是未知的，我们就通过解这些控制点来计算最终姿态。

是对于每个在世界坐标的引用点，/>

它们对应的图像坐标系中的点，/>

是控制点和的加权和，权重相加为1，公式如下：

化简后得：

化简后的如下两个方程：

其中，上面的方程中，四个控制点总共12个未知变量，M为2n×12的矩阵。因此，x属于M的右零空间，v_i为矩阵M的右奇异向量，可以通过求解MTM的零空间特征值得到

β_i求解后，可以通过高斯牛顿法去改善它；

计算R，t：选择误差最小维数对应的β，从而得到x，恢复出控制点在相机坐标系中的坐标并根据质心坐标系数得到参考点在相机坐标系的坐标。剩下的工作就是已知一组点云在两个坐标系中的坐标，求两个坐标系的位姿变换。

另外因为没有足够的训练数据，所以采用将二维图像数据集进行渲染，自己生成训练数据，二维图像数据集的渲染步骤如下：

ShapeNet渲染。使用Blender的Python脚本渲染RGB图像，深度图像，生成从相机到物体的旋转平移向量。

其中，渲染RGB：使用Cycles引擎，随机选取一张SUN_VOC数据集图像当做背景，根据PASCAL 3D数据集每类物体的视角，用核密度函数估计算出来对应该类物体的仰角和方位角，灯光类型为点光源。

在将仰角和方位角转化成欧拉角时，是将四元数参数转换成旋转矩阵，之后，再将结果写入文本文件中存储起来。

渲染depth：使用Cycles引擎，用Z缓冲区算法生成从物体到影像面的深度图，将blender摄像机的裁剪距离设为0.5-4米。在这个范围内的所有距离将会被线性映射到0-255的区间内。

本发明采用的基于热力图的物体姿态估计检测技术，热力图带来很多优点：直接预测关键点的坐标很难回归(因为预测范围很大，监督信息较少)，网络收敛速度较慢；热力图直接回归每一类关键点的概率，每一点的监督信息较多，因此网络能够较快的收敛，同时对每一个像素位置进行预测能够提高关键点的定位精度，另外全卷积网络架构可以同时使用多个尺度处理输入的特征和响应，二者结合可以提高预测的准确度，而且对于遮挡情况更加鲁棒。

本发明可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态，适用范围较广，对光照不敏感而且不要求物体具有明显的纹理外观。

以上所述仅为本发明的较好实施例，并不用以限制本发明的条件，在不脱离本发明的基本前提下，可以做若干修改，这些改进也应视为本发明的保护范围内。

Claims

1.一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，首先通过VGG卷积神经网络的第五层卷积层conv5对输入的单幅RGB图像进行特征提取；再基于RPN网络提取室内场景下目标物体的候选框；然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图；最后通过EPnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量，获得物体的6D姿态；该方法中使用ShapeNet作为CAD模型库合成训练数据；方法具体步骤如下：

(2)RPN神经网络使用9个锚点，其输入图像的大小为128*128或256*256,单位是像素，3个长宽比为1:1的锚点,3个长宽比为1:2的锚点,3个长宽比为2:1的锚点，每个图像生成200个候选框，再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测；

(4)使用EPnP计算出物体的6D姿态。

2.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，所述的步骤(3)中FCN神经网络预测每个图片块的热力图，是使用5个卷积层进行预测，最终得到目标物体顶点的8个热力图，具体包括：

(1)第一个卷积层为512个3*3的卷积核，步长为1，将卷积层输出的特征图送入ReLU激活函数，将第一层卷积层的填充设为100；

3.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，所述步骤(4)中EPnP预测物体的6D姿态，具体包括以下步骤：

1)对于物体三维包围盒8个顶点在二维图像中的投影坐标，选取这8个点当做三维图像的坐标，在三维空间，对于每个物体默认的三维包围盒，都有一个长、宽、高为1:1:1的三维包围盒，通过网络训练，回归出一个新的长、宽、高的比例；

4.根据权利要求3所述的一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，所述的步骤1)中，网络训练回归出一个新的长宽高的比例，采用如下公式：

L_pose＝L_proj+αL_dim+βL_reg 公式(1)

公式(1)中L_pose是网络预测的姿态和真实值的姿态之间的损失函数，L_dim用来测量三维度的真实值和网络预测值之间的损失函数，L_reg是正则项，用来防止训练时候过拟合，α、β为权重，控制不同损失的影响,公式(2)中Proj_R,t(M_i)是用训练时候的真实旋转矩阵R和平移矩阵T的投影，L_proj是Proj_R,t(M_i)的期望，smooth_L1为损失函数，M_i为第i个三维模型的8个顶点集合，

是预测的第i个维度。

5.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，使用ShapeNet作为CAD模型库合成训练数据，具体是采用对二维图像数据集进行渲染的方法生成训练数据，渲染步骤如下：

(2)渲染RGB图像：使用Cycles引擎，随机选取一张SUN_VOC数据集图像当做背景，根据PASCAL 3D数据集每类物体的视角，用概率核密度函数估算出对应该类物体的仰角和方位角，然后进行摄像机坐标的定位，采用的灯光类型为点光源；

6.一种利用权利要求1～4任意一项所述基于热力图的单幅图像室内物体姿态估计方法的室内物体姿态估计方法。

7.一种利用权利要求1～4任意一项所述基于热力图的单幅图像室内物体姿态估计方法的室内物体三维恢复方法。