CN114125269B

CN114125269B - 一种基于深度学习的手机实时全景拍摄方法

Info

Publication number: CN114125269B
Application number: CN202111269335.XA
Authority: CN
Inventors: 于莉; 常文帅; 魏俊锋; 蒙塞夫加布依
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-05-23
Anticipated expiration: 2041-10-29
Also published as: CN114125269A

Abstract

本发明公开了一种基于深度学习的手机实时全景拍摄方法，包括：手机前后摄像头同时拍摄得到一组前后摄图像；手机旋转一定角度后再次同时拍摄；利用基于Brisk和SIFT的拼接算法，将手机旋转前后拍摄的图像进行拼接，得到全景拼接图；利用手机前后摄像头拍摄一组前后摄图像；利用深度单应性网络将手机前后摄图像进行拼接处理，得到带有孔洞的全景拼接图；利用深度图像增强网络将带有孔洞的全景拼接图去模糊处理，得到增强图像；利用深度生成对抗网络和全景拼接图将增强图像的内容补全，得到重构全景图。本发明利用端侧神经网络模型，对手机前后摄广角镜头视角的图像拼接、缺失的全景内容补全，实现了VR实时拍摄的自由化和简单化。

Description

一种基于深度学习的手机实时全景拍摄方法

技术领域

本发明属于虚拟现实技术领域，具体涉及一种基于深度学习的手机实时全景拍摄方法。

背景技术

虚拟现实(VR)发展到今天，其主要是指360°视频，也称为全景视频。VR与拍摄相结合，是未来VR的发展趋势。随着VR虚拟现实技术的不断进步和5G网络的普及，VR全景视频的应用将会进入我们生活的各个领域，VR虚拟现实技术具体地说就是模拟人类的视觉、听觉等可感知器官的特性，给人沉浸性、身临其境般的虚拟场景。同时通过网络VR拍摄也会产生巨大的商业应用价值。但是我们都知道，在拍摄VR全景视频内容时，要使用到专业的全景相机进行拍摄，这导致拍摄全景视频的成本很高。

使用手机进行拍摄全景视频可以简化复杂的拍摄工作。采用手机前后摄像头进行全景视频拍摄时，由于前后两个摄像头在同一时间所能覆盖的场景角度是无法达到360°，所以在拼接过程中，有部分角度的内容区域是缺失的，并且前后摄像头之间的参数不同也会导致所合成的全景图像缺乏视觉一致性。因此如何降低全景视频对拍摄设备的要求，又能获得完美的视觉感受和体验，也就成为了本领域内亟待解决的问题。

发明内容

发明目的：针对以上问题，本发明提出一种基于深度学习的手机实时全景拍摄方法，利用端侧神经网络模型，对手机的前后摄广角镜头视角的图像进行拼接并对缺失的全景内容进行补全，实现了VR实时拍摄的自由化和简单化。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于深度学习的手机实时全景拍摄方法，具体包括如下步骤：

步骤1，针对某一场景，手机前后摄像头同时拍摄得到一组前后摄图像；手机旋转一定角度后再次同时拍摄得到一组前后摄图像；利用基于Brisk和SIFT的拼接算法，将手机旋转前后拍摄的图像进行拼接，得到全景拼接图Image_360；

步骤2，针对步骤1所述场景，利用手机前后摄像头拍摄一组前后摄图像；

步骤3，利用深度单应性网络将步骤2得到的前后摄图像进行拼接处理，得到带有孔洞的全景拼接图Image_360_hole；

步骤4，利用深度图像增强网络将步骤3所述带有孔洞的全景拼接图Image_360_hole进行去模糊处理，得到带有孔洞的增强图像Image_360_hole_enhance；

步骤5，利用深度生成对抗网络以及步骤1所述全景拼接图Image_360将步骤4中带有孔洞的增强图像Image_360_hole_enhance的内容进行补全处理，得到重构全景图Image_360_hole_recontrust。

进一步地，所述步骤1的方法具体如下：

步骤1.1，针对某一场景，手机前后摄像头同时拍摄一组前后摄图像，得到前摄图像Image_front和后摄图像Image_back；手机旋转一定角度后再次同时拍摄一组前后摄图像，得到前摄图像Image_front_spin和后摄图像Image_back_spin；

步骤1.2，利用均值滤波对步骤1.1拍摄的两组前后摄图像进行平滑处理，得到平滑处理后的图像Image_front′、Image_back′以及Image_front_spin′、Image_back_spin′；

步骤1.3，利用Brisk算法对步骤1.2所述图像Image_front′、Image_back′以及Image_front_spin′、Image_back_spin′进行特征检测与特征描述，得到重叠区域C₁和C₂；

步骤1.4，使用SIFT算法对重叠区域C₁和C₂进行特征检测，得到不同图像中相同内容的特征点坐标，并将特征点坐标定位到步骤1.1图像Image_front、Image_back、Image_front_spin和Image_back_spin中；

计算出拼接图像，即得到全景拼接图Image_360。

进一步地，所述步骤3的方法具体如下：

将步骤2得到的前后摄图像作为深度单应性网络的输入，输出单应性矩阵；所述单应性矩阵反映了前后摄图像画面与拼接画面的映射关系；

根据单应性矩阵对步骤2得到的前后摄图像进行拼接，得到带有孔洞的全景拼接图Image_360_hole。

进一步地，在步骤3之前还包括，对深度单应性网络进行训练，具体方法如下：

输入：手机前后摄像头同时拍摄得到的若干组前后摄图像，每一组前后摄图像各自对应的拼接部分图像；

输出：单应性矩阵；

构建深度单应性网络，利用手机前后摄像头同时拍摄得到的若干组前后摄图像以及每一组前后摄图像各自对应的拼接部分图像对构建的深度单应性网络进行迭代训练，直至网络损失函数收敛，得到训练好的深度单应性网络；所述网络损失函数为：

式中，L₁为网络损失函数；N为共有N组前后摄图像，i为第i组前后摄图像；Image_front、Image_back为手机前后摄拍摄的图像；Image_front″、Image_back″为手机前后摄拍摄的图像Image_front、Image_back各自对应的拼接部分图像，

表示L2范数损失函数。

进一步地，步骤5所述深度生成对抗网络包括内容编码网络、补全网络和判别器网络；所述补全网络包括编码器和解码器。

进一步地，所述步骤5的方法具体如下：

步骤5.1，对步骤4所述带有孔洞的增强图像Image_360_hole_enhance生成图像对应的孔洞Mask；

步骤5.2，将步骤4所述带有孔洞的增强图像Image_360_hole_enhance以及图像对应的孔洞Mask作为补全网络中编码器的输入，提取得到图像特征；

步骤5.3，将步骤1所述全景拼接图Image_360输入内容编码网络，得到内容特征；

步骤5.4，将步骤5.2得到的图像特征以及步骤5.3得到的内容特征进行融合后，输入补全网络中的解码器，生成重构全景图Image_360_hole_recontrust。

本发明还提出一种基于深度学习的手机实时全景拍摄方法的装置，包括：

预处理模块，用于将获取的不同角度的手机前后摄图像进行拼接，得到全景拼接图；

全景拼接模块，用于将获取的手机前后摄图像进行拼接处理，得到带有孔洞的全景拼接图；

全景增强模块，用于将全景拼接模块得到的带有孔洞的全景拼接图去模糊处理，得到带有孔洞的增强图像；

全景补全模块，用于对预处理模块得到的全景拼接图进行内容特征提取，对全景增强模块得到的带有孔洞的增强图像进行图像特征提取，并根据全景拼接图的内容特征以及带有孔洞的增强图像的图像特征，对带有孔洞的增强图像进行补全，生成重构全景图。

有益效果：与现有技术相比，本发明技术方案具有以下有益技术效果：

本发明提出的一种基于深度学习的手机实时全景拍摄方法，降低了VR拍摄的门槛，每个用户使用手机即可进行VR全景拍摄；本发明利用深度神经网络模型对手机前后摄拍摄内容进行图像拼接、图像增强以及图像内容补全，还原最真实的三维空间的拍摄场景，不仅能够扩大拍摄的视野范围，观察视角也能改变，给用户一种临场感，并且无需任何专业的全景拍摄设备，随时随地打开手机就可以进行拍摄。

附图说明

图1是一种实施例下本发明所述一种基于深度学习的手机实时全景拍摄方法流程图；

图2是一种实施例下本发明所述一种基于深度学习的手机实时全景拍摄装置框架图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于深度学习的手机实时全景拍摄方法，参考图1，具体包括步骤：

步骤一：手机前后摄像头同时拍摄，通过前摄得到图像Image_front，后摄得到Image_back，手机旋转一定角度，再拍摄一组前后摄画面Image_front_spin和Image_back_spin，利用基于Brisk和SIFT的拼接算法，得到全景拼接图Image_360；具体方法如下：

输入第一组拍摄图像Image_front、Image_back和第二组拍摄图像Image_front_spin、Image_back_spin，使用均值滤波对上述图像进行平滑处理，得到Image_front′、Image_back′以及Image_front_spin′、Image_back_spin′；

使用Brisk算法对Image_front′、Image_front_spin′和Image_back′、Image_back_spin′进行特征检测；Brisk算法是一种二进制特征描述算子，算法主要包含特征点检测、特征描述2步：

首先，构建尺度空间，提取尺度空间中亚像素级精度的稳定极值点。

然后，利用局部图像邻域内均匀采样点对的距离关系进行二进制编码，建立局部图像的二值特征描述子。每两个采样点之间的梯度计算公式如下所示：

式中，θ表示梯度，tan^-1指正切函数的倒数，x表示横坐标，y表示纵坐标，L()表示一组(x,y)坐标；

计算图像大致重叠区C₁C₂；

使用SIFT算法对C₁C₂进行特征检测；SIFT算法是一种局部性特征描述子，其在空间尺度中寻找极值点，并提取出位置、尺度、旋转不变量。高斯平滑图像在点I(x,y)处梯度的方向θ(x,y)，梯度方向的计算公式如下所示:

式中，g(p_i,p_j)表示特征点p_i，p_j的局部梯度集合；I(p,σ)表示特征点的坐标。

检测出的特征点坐标定位到Image_front、Image_back和Image_front_spin、Image_back_spin；

计算出拼接图像Image_360。

步骤二：在步骤一相同拍摄场景，利用手机前后摄超广角镜头拍摄一组前后摄图像；

步骤三：用深度单应性网络将步骤二得到的前后摄画面拼接处理，得到带有孔洞的全景拼接图Image_360_hole；

深度单应性网络通过四个卷积层和两个完全连接层连接；每个卷积层卷积核的个数依次为6，6，16，16，卷积核的大小为3x3，步长为1，填充方式为按0填充，激活函数采用ReLU函数。以两幅堆叠的灰度图像作为输入，产生一个8自由度的单应性，用于将像素从第一幅图像映射到第二幅图像；

构造数据集训练深度单应性网络，训练的损失函数为：

式中，Image_fron+，mage_back为手机前后摄拍摄的图像，Image_front″和Imafe_back″为构造相应数据集中对应拼接图像中的部分；

(32)在图像拼接时，通过深度单应性网络，输出对应单应性矩阵，单应性矩阵为前后摄画面与拼接画面的映射关系；

(33)根据单应性矩阵提供的映射关系进行前后摄画面拼接，生成初始全景拼接画面Image_360_hole。

步骤四：用深度图像增强网络将拼接后的全景图像去模糊；

深度图像增强网络通过8个卷积层和1个完全连接层连接。每个卷积层卷积核的个数依次为8，8，36，36，卷积核的大小为3x3，步长为2，填充方式为按0填充，激活函数采用ReLU函数。

输入初始全景拼接画面，通过深度图像增强网络，输出一个6x6的滤波器；构造相应数据集进行训练训练深度图像增强网络，训练的损失函数为：

式中，Image_360_hole″为构造数据集中传统方法增强后的图像，Image_360_hole′为深度图像增强网络输出的图像；

在图像去模糊时，通过深度图像增强网络，输出一个3x3的滤波器。

对初始全景拼接画面进行滤波，得到增强的全景拼接画面Image_360_hole_enhance。

步骤五：经过步骤4得到带有孔洞的增强后的图像Image_360_hole_enhance，并生成对应的孔洞Mask,Image_360_hole_enhance与孔洞mask作为补全网络编码器部分的输入。

全景拼接图Image_360经过内容编码网络，得到的内容特征与补全网络中的编码器部分融合输入后续解码器网络生成最后的重构全景图Image_360_hole_recontrust。

其中，深度生成对抗网络的损失函数有三部分构成，即重构损失L₃、对抗网络损失L_adv和感知损失L_C。

训练过程中，首先以Image_360与Image_360_hole_enhance中对应区域之间的L₃损失训练补全网络，经过反复迭代至网络收敛得到初步补全图，损失函数为：

式中，

表示L2范数损失函数；

为使训练过程更好的收敛，采用的是WGAN-GP中的对抗网络损失，对每个样本独立的施加梯度惩罚，损失函数为：

式中，λ固定取值为10，z为输入的噪声，x为专业全景相机拍摄出的图像，θ为在z和x之间随机插值取样，G()为生成器、D()为判别器、Pz(z)表示噪声z的数据分布，Pdata(x)表示图像x的数据分布。

其中θ为在z和x之间随机插值取样；λ取值为10；

采用感知损失来帮助恢复图像内容，感知损失是基于生成和目标图像特征映射的差异。定义为

先使用ImageNet进行预训练VGG19，其中

是在VGG19网络中第t个最大池化层之前的第j个卷积获得的特征图，W_t,j是在VGG19网络中第t个最大池化层之前的第j个卷积获得的特征图的宽，H_t,j是在VGG19网络中第t个最大池化层之前的第j个卷积获得的特征图的高。Image_360_hole_enhance是增强后有孔洞的全景拼接图像，Image_360是预处理模块生成的全景图像。

模型的总体损失函数为

L_moss＝w₁L₃+w₂L_adO+w₃L_C

内容编码其网络包括4个卷积层。每个卷积层卷积核的个数依次为8，8，36，36，卷积核的大小为3x3，步长为2，填充方式为按0填充，激活函数采用ReLU函数。输入全景拼接图Image_360，输出其内容特征。

补全网络的网络结构包含10个卷积层、两个反卷积层和一个输出层。除了第一个卷积层使用5*5的卷积核之外，所有的卷积层均使用3*3的卷积核，反卷积层使用4*4的卷积核，步长为2，填充方式为按0填充，激活函数采用ReLU函数。补全网络采用的是编码器-解码器结构，允许在进一步处理图像之前降低图像的分辨率，从而达到节约存储空间和运行时间的目的。在图像经过编码器的卷积运算提取图像特征后，需要使用反卷积层将图像恢复至原分辨率。

判别器网络的网络结构包含六个卷积层和一个完全连接层，所有的卷积层均采用2*2像素的步幅来降低图像分辨率。每个卷积层卷积核的个数依次为8，8，36，36，卷积核的大小为3x3，步长为2，填充方式为按0填充，激活函数采用ReLU函数。

参考图2，一种基于深度学习的手机实时全景拍摄装置，包括：

全景补全模块，用于对预处理模块得到的全景拼接图进行内容特征提取，对全景增强模块得到的带有孔洞的增强图像进行图像特征提取，并根据全景拼接图的内容特征以及带有孔洞的增强图像的图像特征，对进行补全，生成重构全景图。

Claims

1.一种基于深度学习的手机实时全景拍摄方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的手机实时全景拍摄方法，其特征在于，所述步骤1的方法具体如下：

步骤1.3，利用Brisk算法对步骤1.2所述图像Image_front′、Image_back′以及Image_front_spin′Image_back_spin′进行特征检测与特征描述，得到重叠区域C₁和C₂；

计算出拼接图像，即得到全景拼接图Image_360。

3.根据权利要求1所述的一种基于深度学习的手机实时全景拍摄方法，其特征在于，所述步骤3的方法具体如下：

4.根据权利要求1所述的一种基于深度学习的手机实时全景拍摄方法，其特征在于，在步骤3之前还包括，对深度单应性网络进行训练，具体方法如下：

输出：单应性矩阵；

表示L2范数损失函数。

5.根据权利要求1所述的一种基于深度学习的手机实时全景拍摄方法，其特征在于，步骤5所述深度生成对抗网络包括内容编码网络、补全网络和判别器网络；所述补全网络包括编码器和解码器。

6.根据权利要求5所述的一种基于深度学习的手机实时全景拍摄方法，其特征在于，所述步骤5的方法具体如下：

7.根据权利要求1-6任一项所述的一种基于深度学习的手机实时全景拍摄方法的装置，其特征在于，包括：