CN109035327B

CN109035327B - 基于深度学习的全景相机姿态估计方法

Info

Publication number: CN109035327B
Application number: CN201810658881.4A
Authority: CN
Inventors: 英向华; 张单枫; 石永杰; 佟新; 文敬司; 查红彬
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2021-10-29
Anticipated expiration: 2038-06-25
Also published as: CN109035327A

Abstract

本发明公布了一种基于深度学习的全景相机姿态估计方法，基于深度卷积网络和消失点，对全景相机的三维朝向进行估计，只需给定单张全景图片即能较快地估计得到相机相对于世界的旋转矩阵；包括：图像数据采集、图像数据处理、建立用于全景相机姿态估计的新的网络结构PanoNet、训练PanoNet并预测估计全景相机姿态。本发明使用单张全景图片，能够在有遮挡，有空洞，弱纹理等场景下，估计全景相机相对于世界坐标系的旋转。方法的鲁棒性高。

Description

基于深度学习的全景相机姿态估计方法

技术领域

本发明涉及全景相机姿态估计方法，尤其涉及一种新的基于深度学习的全景相机姿态估计方法，该方法能够从单张全景图片中准确地估计出相机相对于世界坐标系的旋转矩阵即全景相机姿态。

背景技术

相机姿态估计一直是计算机视觉中热门的研究方向，也是计算机视觉中的一个基本问题，它在我们的生活中具有广泛的应用，比如无人机，自动驾驶，虚拟现实等方面。现有的相机姿态估计主要有三种方法。

第一种方法主要是基于多视点几何，给定多张图片，首先提取每张图片的特征点，主要有SIFT，SURF，ORB等特征点提取方法，然后将每帧的特征点匹配起来，然后根据视觉几何的方法，计算相机的旋转。这种方法主要有两个较大的问题，首先，对于弱纹理或无纹理的场景很难得到鲁棒的结果。其次，采用这种方法，只能得到摄像机相对于初始帧的旋转，无法得到相对于世界坐标系的旋转再者，该方法需要同一个场景的多张图片，对于数据的数量有要求。因此，该方法的局限性比较大。

第二种方法是利用消失点，消失点即空间中的平行直线在图像中的交点。如果能辨识出消失点的平面坐标，也能够估计相机的旋转，但是对于全景相机来说，空间中的直线基本都发生较大的畸变，变成曲线，很难检测到曲线的交点，因此该方法并不直接适用于全景图像。

第三种方法就是当前流行的基于深度学习的方法。利用大量的有标记的图片数据训练神经网络，输出相机的旋转。但是该方法也存在问题，一个是大量标记的数据很难得到，其次是，预测的标签的选择，如果直接输出欧拉角的话，欧拉角具有奇异性，周期性，效果会比较差，而如果输出四元数的话，四元数的语义性比较弱，难以得到较好的结果。

因此，上述现有的三种方法都存在较大的问题，很难应用到实际中去。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于深度学习的全景相机姿态估计方法，将现在流行的深度卷积网络与利用消失点估计相机姿态的方法结合起来，估计全景相机相对于世界坐标系的旋转，从而得到全景相机姿态估计。本发明尽量使用单张全景图片，能够在有遮挡，有空洞，弱纹理等场景下，估计全景相机相对于世界坐标系的旋转，方法的鲁棒性高。

本发明的技术方案如下：

一种基于深度学习的全景相机姿态估计方法，基于深度卷积网络和消失点对全景相机的三维朝向进行估计，使用本发明方法，只需给定单张全景图片就能够较快的估计相机相对于世界的旋转矩阵，在有遮挡，光线较差的条件下仍然能够取得较好的效果；包括如下步骤：

1)图像数据采集：获取区域的全景图片；

具体实施时，在谷歌街景中选取各个大城市，在每个城市中随机选取城市的内部区域，模拟相机采集全景图片；

2)图像数据处理：将全景图片转换为透视投影下的图片，在透视投影图片下，标记相机相对世界坐标系的三维旋转矩阵。然后利用OpenGL的渲染技术以及纹理贴图技术模拟相机的不同旋转，生成新视角的图片以及旋转矩阵。

将全景图片转换为透视投影下的图片，具体地：首先将全景图片纹理映射在单位球的表面，然后在单位球的内部放置同心立方体，在球心处放置虚拟针孔模型相机，得到六张透视投影图片，球心到立方体表面的距离为焦距f。

标记旋转矩阵具体是：在六张透视图片中标记消失点，作为旋转矩阵的三个列向量；标记方法为：选取垂直于地面的多条直线，在图像平面上的这些直线并不平行，求直线簇的交点，同时选取水平两个方向的多条直线，分别计算其交点，得到空间中三个垂直方向的消失点。

在图片中标记空间中两个垂直方向的直线的交点(x₁,y₁)，(x₂,y₂)，然后将焦距作为第三维向量，叉乘，得到第三个方向的点的坐标。

3)网络结构设计：设计具有两个并行输出的网络结构，该网络结构的两个输出分支分别输出两个方向的消失点，该消失点同时是旋转矩阵的两个方向向量。

具体实施时，采用pytorch框架，基于当前流行的卷积网络，包括：Vgg19,GoogLenet,Resnet50，本发明建立了新型的网络结构PanoNet，来进行相机旋转的预测。该网络的输出包含两个并行的分支，分别输出旋转矩阵的两个列向量。

4)训练网络：采用小批量随机梯度下降的方法，利用已采集的和预处理之后的图片训练网络。

具体实施时，采用minibatch SGD，即小批量随机梯度下降的方法，采用从谷歌街景中获取的数据，以及半自动生成的数据，训练本发明建立的网络PanoNet；

再测试网络的输出，可利用测试数据，测试网络的性能，性能包括网络的泛化能力，以及网络的输出的准确性。

5)预测过程：给定单张全景图片，输入到训练好的网络，网络输出两个三维单位列向量，将其作为旋转矩阵的前两列，叉积得到第三列，这样就得到相机相对于世界的旋转矩阵，即全景相机姿态。

旋转矩阵是一个3x3的矩阵R，具体形式如下：

且满足：

RR^T＝I

det(R)＝1

其中，I是三行三列的单位矩阵，det()表示对矩阵求行列式。即旋转矩阵与自身的转置的乘积单位矩阵，旋转矩阵的行列式是1。

通过上述步骤，实现基于深度学习的全景相机姿态估计。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于深度学习的全景相机姿态估计方法，针对现在流行的深度卷积网络，利用消失点估计相机姿态的方法，估计全景相机相对于世界坐标系的旋转矩阵。

本发明方法能够从单张全景图片中准确地估计出相机相对于世界坐标系的旋转矩阵，由于使用了半自动数据生成的方法，因此实际需要标记的数据并不多，而且再用深度卷积网络和消失点结合的方法，既使得网络的预测具有较强的语义性，又使得旋转矩阵估计的鲁棒性比较好，对于一些弱纹理，有遮挡的场景，依然能够得到准确的结果。

附图说明

图1为本发明实施例提供方法的流程框图。

图2为本发明实施例进行数据预处理中的投影变换示意图。

图3为从谷歌街景中采集的实际的数据图片。

图4为本发明实施例采用本发明方法得到的结果图；

其中，实线箭头代表相机坐标系的三个坐标轴向量在世界坐标系下的朝向的真值，虚线代表估计的结果。

具体实施方式

为了更好的理解本发明的技术方案，以下结合附图做进一步的详细说明。

本发明提供一种基于深度学习的全景相机姿态估计方法，将现在流行的深度卷积网络与利用消失点估计相机姿态的方法结合起来，估计全景相机相对于世界坐标系的旋转矩阵。

采用本发明提供方法，利用一台全景相机拍出来的一张图片，估计出相机相对于世界坐标系的旋转矩阵R；估计方法如下：

A.数据采集阶段，包括一个步骤：

1)编写数据采集程序，从谷歌街景采集全景图片；

B.数据预处理阶段，包括三个阶段：

2)将全景图片投影为透视投影图片；

3)编写程序，在透视投影图片下标记相机旋转矩阵；

4)模拟相机的不同旋转，生成新的图片以及旋转矩阵；

C.设计深度卷积网络阶段，包括一个步骤：

5)设计适合于相机姿态估计的网络结构；

D.训练卷积网络，包括两个步骤：

6)采用优化方法训练；

7)测试网络的输出，获得误差为4度的结果。

以下实施例采集谷歌街景图像数据，利用本发明提供的基于深度学习的全景相机姿态估计方法，对全景相机姿态进行估计。图1为本发明实施例提供方法的流程框图。由图1可以看出，基于深度学习的全景相机姿态估计的整个处理过程由四个阶段组成：数据采集，数据预处理，网络结构设计，训练网络。

1、阶段一：图像采集

该阶段包括图像数据采集一个步骤，主要在谷歌街景中选取前十个大城市，然后在这些城市随机选择地点，利用模拟相机拍摄图片数据，图3为从谷歌街景中采集的实际数据。

2、阶段二：数据预处理

此阶段由三个部分组成：透视投影图片转换，标记旋转矩阵生成新的图片以此扩大训练的数据量使旋转矩阵估计更准确。

将阶段一中采集的数据转换为透视投影图片，即普通的针孔相机拍摄的图片，然后在透视图片中标记旋转矩阵，具体标记过程为：分别选取在三维中三个垂直方向的平行直线束，由于采用针孔模型，平行直线束在图像中存在交点，手工标记直线束，并求取三个方向的交点。图2为本发明实施例进行数据预处理中的投影变换示意，为两个同心的立方体和单位球，首先利用OpenGL的纹理贴图，将原始的全景图贴在单位球的表面上，然后从球心引出射线该涉嫌与球面和立方体表面的分别有一个交点，这样可以将球面纹理投影到立方体的表面上，得到六张透视图片，之后在透视图片上进行消失点标记。

为了增大训练数据的数量，利用OpenGL的渲染技术以及纹理贴图技术，模拟摄像机的不同旋转，产生新的视角的全景图片，以及对应的旋转矩阵。

采用这种半自动生成数据的方法，能够在极大的节省手工标注的工作量的同时，生成大量有标记的数据。

3、阶段三：设计深度卷积网络结构

本阶段基于现有的效果较好的基本网络结构Vgg19,Resnet50,GoogLenet,进行改进，建立新的网络结构PanoNet，具体地，输入原始的全景图片，去掉网络已有的全连接层，增加两个并行的全连接分支，分别输出两个三维的列向量，对应于旋转矩阵的前两列。

4、阶段四：利用阶段二构造的数据训练深度卷积网络PanoNet，得到网络的参数，即神经网络的权重以及偏置量；

5、预测阶段：给定一张全景图片，输入到训练好的网络PanoNet，网络输出两个三维的列向量，通过叉积得到第三个列向量，三个列向量分别是旋转矩阵的三列，这样就得到了相机相对于世界坐标系的旋转矩阵。

图4为本发明实施例采用本发明方法进行全景相机姿态估计得到的结果图。实线箭头为相机坐标系在世界坐标系中的真实朝向，虚线箭头是通过本发明的方法估计的结果，可以看到误差基本在度以内，本发明方法的精度超过现有的方法。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于深度学习的全景相机姿态估计方法，基于深度卷积网络和消失点，对全景相机的三维朝向进行估计，只需给定单张全景图片即能估计得到相机相对于世界的旋转矩阵；包括如下步骤：

1)图像数据采集：获取区域的全景图片；

2)图像数据处理，执行如下操作：

21)将全景图片转换为透视投影下的图片；具体地：首先将全景图片纹理映射在单位球的表面，然后在单位球的内部放置同心立方体，在球心处放置虚拟针孔模型相机，球心到立方体表面的距离为焦距f，得到六张透视投影图片；

22)在透视投影图片下，标记相机相对世界坐标系的三维旋转矩阵；

23)利用渲染技术及纹理贴图技术模拟相机的不同旋转，生成新视角的图片及旋转矩阵；标记旋转矩阵；

标记旋转矩阵具体是：在六张透视图片中标记消失点，作为旋转矩阵的三个列向量，即得到三维旋转矩阵；

3)建立用于全景相机姿态估计的新的网络结构PanoNet：设计具有两个并行输出的网络结构，两个并行输出分支分别输出两个方向的消失点，输出的消失点同时是旋转矩阵的两个方向向量；

4)训练步骤3)新建的网络结构，具体是采用小批量随机梯度下降的方法，利用步骤1)和步骤2)得到的图片训练网络；

5)预测估计全景相机姿态：给定单张全景图片，输入到训练好的网络，网络输出两个三维单位列向量，作为旋转矩阵的前两列向量，叉积得到第三列向量，即得到相机相对于世界的旋转矩阵，即全景相机姿态；

所述旋转矩阵是一个3×3的矩阵R；且满足：

RR^T＝I

det(R)＝1

其中，I是三行三列的单位矩阵；det()表示对矩阵求行列式；

通过上述步骤，实现基于深度学习的全景相机姿态估计。

2.如权利要求1所述基于深度学习的全景相机姿态估计方法，其特征是，步骤1)图像数据采集，具体是通过在谷歌街景中选取各个大城市，在每个城市中随机选取城市的内部区域，模拟相机采集全景图片。

3.如权利要求1所述基于深度学习的全景相机姿态估计方法，其特征是，步骤23)具体是利用OpenGL的渲染技术及纹理贴图技术模拟相机的不同旋转，生成新视角的图片以及旋转矩阵。

4.如权利要求1所述基于深度学习的全景相机姿态估计方法，其特征是，步骤23)中，标记消失点的方法具体是：在六张透视图片中，选取垂直于地面的多条直线，在图像平面上的这些直线并不平行，求直线簇的交点；同时选取水平两个方向的多条直线，分别计算交点，得到空间中三个垂直方向的消失点。

5.如权利要求4所述基于深度学习的全景相机姿态估计方法，其特征是，在图片中标记空间中两个垂直方向的直线的交点(x₁,y₁)，(x₂,y₂)，然后将焦距作为第三维向量，进行叉乘，得到第三个方向的点的坐标。

6.如权利要求1所述基于深度学习的全景相机姿态估计方法，其特征是，步骤3)建立用于全景相机姿态估计的新的网络结构，具体采用pytorch框架，基于卷积网络建立新型的网络结构PanoNet，来进行相机旋转的预测；网络结构PanoNet的输出包含两个并行的分支，分别输出两个方向的消失点，输出的消失点同时是旋转矩阵的两个列向量。

7.如权利要求6所述基于深度学习的全景相机姿态估计方法，其特征是，卷积网络包括：Vgg19、GoogLenet、Resnet50。