CN113808022A - 一种基于端侧深度学习的手机全景拍摄与合成方法 - Google Patents
一种基于端侧深度学习的手机全景拍摄与合成方法 Download PDFInfo
- Publication number
- CN113808022A CN113808022A CN202111105966.8A CN202111105966A CN113808022A CN 113808022 A CN113808022 A CN 113808022A CN 202111105966 A CN202111105966 A CN 202111105966A CN 113808022 A CN113808022 A CN 113808022A
- Authority
- CN
- China
- Prior art keywords
- network
- mobile phone
- image
- panoramic
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 23
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000003062 neural network model Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Studio Devices (AREA)
- Image Processing (AREA)
- Stereoscopic And Panoramic Photography (AREA)
Abstract
本发明公开了一种基于端侧深度学习的手机全景拍摄与合成方法,主要利用基于端侧推理框架与深度神经网络模型对手机前、后摄拍摄内容进行图像拼接、图像增强去模糊以及图像内容补全,还原最真实的拍摄与合成场景,不仅能够扩大拍摄的视野范围,观察视角也能改变,给用户一种临场感,并且无需任何专业的全景拍摄设备,随时随地打开手机就可以进行拍摄。降低了VR拍摄与合成的门槛,每个用户使用手机即可进行VR全景拍摄。
Description
技术领域
本发明涉及虚拟现实技术领域,更确切地说,涉及一种基于端侧深度学习的手机全景拍摄与合成方法。
背景技术
虚拟现实(VR)发展到今天,其主要是指360°视频,也称为全景视频。VR相结合,是未来VR的发展趋势。其应用很广泛,比如体育赛事、综艺节目、新闻现场、教育医疗、游戏电竞等。与此同时,端测推理引擎的出现能够让深度学习模型直接部署在手机上,使得通过手机来进行实时全景拍摄与合成成为可能,那么将VR带来的沉浸式体验与手机拍摄的低成本、低门槛相结合则成为目前研究的重点。
《一种用于VR全景直播的动态图像融合方法及系统》中提到,就目前而言,全景视频采集所用的都是专业的全景摄像机。不仅需要固定的架设位置且专业全景摄像机价格昂贵,导致全景拍摄的门槛较高。手机作为一种普及的电子产品,可以随时随地进行拍摄。然而手机前后摄像头参数不同,因此采集的图像数据会存在亮度不同,分辨率不同,色彩饱和度不同等问题导致拍摄的两幅图像具有一定的差异性,从而在拼接过程中将会引起伪影现象,而伪影的存在将极大的破坏用户视觉上的体验感。并且手机端镜头虽然有超广角模式,但目前手机前后摄拼接后拍摄范围仍然不足以覆盖360°全景,拼接画面中存在内容缺失。因此如何降低用户对拍摄设备的要求,又能获得完美的视觉感受和体验,也就成为了本领域内技术人员亟待解决的问题。
发明内容
本发明正是为了解决上述技术问题而设计的一种基于端侧深度学习的手机全景拍摄与合成方法,利用端侧神经网络模型,对手机的前、后摄像头拍摄的图像进行拼接并对缺失的全景内容进行补全,实现了VR实时拍摄与合成的自由化和简单化。
本发明解决其技术问题所采用的技术方案是:
一种基于端侧深度学习的手机全景拍摄与合成方法,基于手机前后摄像头同时实时拍摄的视频图像,将各时间点下手机前、后摄像头同时拍摄的两原始图像按如下步骤执行,实现手机拍摄全景视频的获得:
步骤1:读取手机前、后摄像头同时拍摄的两原始图像,进入步骤2;
步骤2:使用深度单应性网络对手机前、后摄像头同时拍摄的两原始图像以两幅图像之间对应全景场景所缺失的部分作为孔洞区域,实现两原始图像彼此尺寸对应的拼接处理,得到带有孔洞的全景拼接图像,进入步骤3;
步骤3:使用深度图像增强网络对带有孔洞的全景拼接图像进行去模糊处理,得到带有孔洞的去模糊全景拼接图像,进入步骤4;
步骤4:使用深度生成对抗网络将带有孔洞的去模糊全景拼接图像中孔洞部分进行补全,获得该时间点下手机拍摄的全景图像,进入步骤5;
步骤5:将获得的各时间点下手机拍摄的全景图像进行图像拼接,实现手机拍摄全景视频的获得。
作为本发明的一种优选技术方案,所述步骤2中得到带有孔洞的全景拼接图像,执行的步骤如下:
步骤2.1:训练深度单应性网络;
步骤2.2:以手机前、后摄像头同时拍摄的两原始图像分别对应的两灰度图像作为输入,经训练好的深度单应性网络,输出表示两原始图像拼接前后映射关系的单应性矩阵;
步骤2.3:根据单应性矩阵提供的映射关系对手机前、后摄像头同时拍摄的两原始图像以两幅图像之间对应全景场景所缺失的部分作为孔洞区域,实现两原始图像彼此尺寸对应的拼接处理,得到带有孔洞的全景拼接图像。
作为本发明的一种优选技术方案,所述深度单应性网络为通过4个卷积层和2个完全连接层连接,每个卷积层卷积核的个数依次为6、6、16、16,卷积核的大小为3x3,步长为1,填充方式为按0填充,激活函数采用ReLU函数。
作为本发明的一种优选技术方案,训练深度单应性网络的损失函数L1为:
式中,fs为待对比拼接方法后带有孔洞的全景拼接图像,fl为同一时间点下手机前摄像头拍摄的原始图像,fr为同一时间点下手机后摄像头拍摄的原始图像,N为训练深度单应性网络的数据集的样本总数,n为训练深度单应性网络的数据集的样本中第n个样本。
作为本发明的一种优选技术方案,所述步骤3中得到带有孔洞的去模糊全景拼接图像,执行的步骤如下:
步骤3.1:训练深度图像增强网络;
步骤3.2:以带有孔洞的全景拼接图像作为输入,经训练好的深度单应性网络,输出一个3*3的滤波器;
步骤3.3:使用3*3的滤波器对带有孔洞的全景拼接图像进行滤波去模糊,得到带有孔洞的去模糊全景拼接图像。
作为本发明的一种优选技术方案,所述深度图像增强网络为通过8个卷积层和1个完全连接层连接,每个卷积层卷积核的个数依次为8、8、36、36,卷积核的大小为3x3,步长为2,填充方式为按0填充,激活函数采用ReLU函数。
作为本发明的一种优选技术方案,训练深度图像增强网络的损失函数L2为:
式中,f为待对比方法增强后的图像,f′为深度图像网络增强后的图像,T为训练深度图像增强网络的数据集的样本总数,t为训练深度图像增强网络的数据集的样本中第t个样本。
作为本发明的一种优选技术方案,所述步骤4中获得该时间点下手机拍摄的全景图像,执行步骤如下:
步骤4.1:训练深度生成对抗网络;
步骤4.2:以带有孔洞的去模糊全景拼接图像作为输入,经训练好的深度单应性网络,将带有孔洞的去模糊全景拼接图像中孔洞部分进行补全,获得该时间点下手机拍摄的全景图像。
作为本发明的一种优选技术方案,所述深度生成对抗网络包括生成对抗网络、判别器网络,所述生成对抗网络为通过4个卷积层进行连接,第一个卷积层由1024个4x4大小的卷积核构成,第二个卷积层由512个8x8大小的卷积核构成,第三个卷积层由256个16x16大小的卷积核构成,第四个卷积层由3个64x64大小的卷积核构成,卷积填充方式为按0填充,激活函数采用ReLU函数;
判别器网络为通过4个卷积层和1个完全连接层连接,每个卷积层卷积核的个数依次为8、8、36、36,卷积核的大小为3x3,步长为2,填充方式为按0填充,激活函数采用ReLU函数。
作为本发明的一种优选技术方案,训练深度生成对抗网络的损失函数Lloss有两部分构成,即对抗网络损失函数Ladv和感知损失函数LC,
对抗网络损失函数Ladv为:
式中,λ固定取值为10,z为输入的噪声,x为专业全景相机拍摄出的图像,为在z和x之间随机插值取样,G()为生成器、D()为判别器、Pz(z)表示噪声z的数据分布,Pdata(x)表示图像x的数据分布;
感知损失函数LC为:
式中,使用ImageNet进行预训练VGG19,是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图,Wi,j是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图的宽,Hi,j是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图的高,IB是有孔洞的全景拼接图像,IS是由专业的全景相机获取的清晰图像,a指代VGG19网络中第i个最大池化层之前的第j个卷积获得的各个特征图对应的各个宽,b指代VGG19网络中第i个最大池化层之前的第j个卷积获得的各个特征图对应的各个高;
深度生成对抗网络的损失函数Lloss为:
Lloss=Ladv+βLC
式中,β为超参数,取1*10-3。
本发明的有益效果是:本发明提出的一种基于端侧深度学习的手机全景拍摄与合成方法,降低了VR拍摄与合成的门槛,每个用户使用手机即可进行VR全景拍摄。本发明主要利用基于端侧推理框架与深度神经网络模型对手机前后摄拍摄内容进行图像拼接、图像增强去模糊以及图像内容补全,还原最真实的拍摄与合成场景,不仅能够扩大拍摄的视野范围,观察视角也能改变,给用户一种临场感,并且无需任何专业的全景拍摄设备,随时随地打开手机就可以进行拍摄。
附图说明
图1为本发明的全景拍摄与合成流程图;
图2为本发明的全景拍摄与合成框架图。
具体实施方式
以下结合附图对本发明进行进一步说明。
一种基于端侧深度学习的手机全景拍摄与合成方法,基于手机前后摄像头同时实时拍摄的视频图像,将各时间点下手机前、后摄像头同时拍摄的两原始图像按如下步骤执行,如需要可采用安装鱼眼镜头协助拍摄,如图1所示,实现手机拍摄全景视频的获得的过程如下:
步骤1:读取手机前、后摄像头同时拍摄的两原始图像,进入步骤2;
当前、后摄像头拍摄两组视频图像存在帧数不同时,将帧数少的一组视频图像相对于另一组视频图像缺少的帧数平均分配在现有的各帧数之间,由该缺少帧数前面的一帧或者后面的一帧作为该帧进行替补,继续完成以下操作。
步骤2:使用深度单应性网络对手机前、后摄像头同时拍摄的两原始图像以两幅图像之间对应全景场景所缺失的部分作为孔洞区域,实现两原始图像彼此尺寸对应的拼接处理,得到带有孔洞的全景拼接图像,进入步骤3;
所述步骤2中得到带有孔洞的全景拼接图像,确定各组能反映两图像间拼接前后映射关系对应的的各样本构成的数据集,执行的步骤如下:
步骤2.1:训练深度单应性网络;
步骤2.2:以手机前、后摄像头同时拍摄的两原始图像分别对应的两灰度图像作为输入,经训练好的深度单应性网络,输出表示两原始图像拼接前后映射关系的单应性矩阵;
将原始图像的RGB图像三通道的值进行平均,3个通道(RGB)转换成1个通道,得到该图像的灰度图像。
步骤2.3:根据单应性矩阵提供的映射关系对手机前、后摄像头同时拍摄的两原始图像以两幅图像之间对应全景场景所缺失的部分作为孔洞区域,实现两原始图像彼此尺寸对应的拼接处理,得到带有孔洞的全景拼接图像。
所述深度单应性网络为通过4个卷积层和2个完全连接层连接,每个卷积层卷积核的个数依次为6、6、16、16,卷积核的大小为3x3,步长为1,填充方式为按0填充,激活函数采用ReLU函数。以两幅堆叠的灰度图像作为输入,产生一个8自由度的单应性,用于将像素从第一幅图像映射到第二幅图像。在图像拼接时,通过深度单应性网络,输出对应单应性矩阵,单应性矩阵为前后摄画面与拼接画面的映射关系。
根据单应性矩阵提供的映射关系进行前后摄画面拼接,生成初始全景拼接画面。
作为本发明的一种优选技术方案,训练深度单应性网络的损失函数L1为:
式中,fs为待对比拼接方法后带有孔洞的全景拼接图像,fl为同一时间点下手机前摄像头拍摄的原始图像,fr为同一时间点下手机后摄像头拍摄的原始图像,N为训练深度单应性网络的数据集的样本总数,n为训练深度单应性网络的数据集的样本中第n个样本。
步骤3:使用深度图像增强网络对带有孔洞的全景拼接图像进行去模糊处理,得到带有孔洞的去模糊全景拼接图像,进入步骤4;
所述步骤3中得到带有孔洞的去模糊全景拼接图像,确定图像去模糊增强对应的的深度图像增强网络的数据集,执行的步骤如下:
步骤3.1:训练深度图像增强网络;
步骤3.2:以带有孔洞的全景拼接图像作为输入,经训练好的深度单应性网络,输出一个3*3的滤波器;
步骤3.3:使用3*3的滤波器对带有孔洞的全景拼接图像进行滤波去模糊,得到带有孔洞的去模糊全景拼接图像。使去模糊全景拼接图像画面增强。
所述深度图像增强网络为通过8个卷积层和1个完全连接层连接,每个卷积层卷积核的个数依次为8、8、36、36,卷积核的大小为3x3,步长为2,填充方式为按0填充,激活函数采用ReLU函数。
训练深度图像增强网络的损失函数L2为:
式中,f为待对比方法增强后的图像,f′为深度图像网络增强后的图像,T为训练深度图像增强网络的数据集的样本总数,t为训练深度图像增强网络的数据集的样本中第t个样本。
步骤4:使用深度生成对抗网络将带有孔洞的去模糊全景拼接图像中孔洞部分进行补全,获得该时间点下手机拍摄的全景图像,进入步骤5;
所述步骤4中获得该时间点下手机拍摄的全景图像,确定图像恢复补全对应的的深度生成对抗网络的数据集,执行步骤如下:
步骤4.1:训练深度生成对抗网络;
步骤4.2:以带有孔洞的去模糊全景拼接图像作为输入,经训练好的深度单应性网络,将带有孔洞的去模糊全景拼接图像中孔洞部分进行补全,获得该时间点下手机拍摄的全景图像。
该方法通过训练完毕的生成器模型对图像的缺失区域进行补全,生成器利用孔洞周围像素对缺失部分进行填充。使得补全后的全景图像呈现自然。如以下两文献所涉及该技术。
(1)Junbo Zhao,Michael Mathieu,Ross Goroshin,etal.Stacke What-WhereAuto-encoders[J].Computer Science,2015,15(1):3563-3593.
(2)Chao Yang,Xin Lu,Zhe Lin,et al.High Resolution Image Inpaintingusing Multi-ScaleNeural Patch Synthesis[C].Proceedings of IEEE Conference onComputer Vision and Pattern Recognition,Honolulu,Jul 21-26,2017.Piscataway:IEEE Press,2017:6721-6729.
所述深度生成对抗网络包括生成对抗网络、判别器网络,所述生成对抗网络为通过4个卷积层进行连接,第一个卷积层由1024个4x4大小的卷积核构成,第二个卷积层由512个8x8大小的卷积核构成,第三个卷积层由256个16x16大小的卷积核构成,第四个卷积层由3个64x64大小的卷积核构成,卷积填充方式为按0填充,激活函数采用ReLU函数;
判别器网络为通过4个卷积层和1个完全连接层连接,每个卷积层卷积核的个数依次为8、8、36、36,卷积核的大小为3x3,步长为2,填充方式为按0填充,激活函数采用ReLU函数。
训练深度生成对抗网络的损失函数Lloss有两部分构成,即对抗网络损失函数Ladv和感知损失函数LC,
为使训练过程更好的收敛,采用的是WGAN-GP中的对抗网络损失,对每个样本独立的施加梯度惩罚,对抗网络损失函数Ladv为:
式中,λ固定取值为10,z为输入的噪声,x为专业全景相机拍摄出的图像,为在z和x之间随机插值取样,G()为生成器、D()为判别器、Pz(z)表示噪声z的数据分布,Pdata(x)表示图像x的数据分布;
感知损失函数LC为:
采用感知损失来帮助恢复图像内容,感知损失是基于生成和目标图像特征映射的差异。
式中,使用ImageNet进行预训练VGG19,是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图,Wi,j是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图的宽,Hi,j是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图的高,IB是有孔洞的全景拼接图像,IS是由专业的全景相机获取的清晰图像,a指代VGG19网络中第i个最大池化层之前的第j个卷积获得的各个特征图对应的各个宽,b指代VGG19网络中第i个最大池化层之前的第j个卷积获得的各个特征图对应的各个高;
深度生成对抗网络的损失函数Lloss为:
Lloss=Ladv+βLC
式中,β为超参数,取1*10-3。
步骤5:将获得的各时间点下手机拍摄的全景图像进行图像拼接,实现手机拍摄全景视频的获得。
如图2所示为本发明的全景拍摄与合成框架图。
上述技术方案所设计的一种基于端侧深度学习的手机全景拍摄与合成方法,降低了VR拍摄与合成的门槛,每个用户使用手机即可进行VR全景拍摄。本发明主要利用基于端侧推理框架与深度神经网络模型对手机前后摄拍摄内容进行图像拼接、图像增强去模糊以及图像内容补全,还原最真实的拍摄与合成场景,不仅能够扩大拍摄的视野范围,观察视角也能改变,给用户一种临场感,并且无需任何专业的全景拍摄设备,随时随地打开手机就可以进行拍摄。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (10)
1.一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:基于手机前后摄像头同时实时拍摄的视频图像,将各时间点下手机前、后摄像头同时拍摄的两原始图像按如下步骤执行,实现手机拍摄全景视频的获得:
步骤1:读取手机前、后摄像头同时拍摄的两原始图像,进入步骤2;
步骤2:使用深度单应性网络对手机前、后摄像头同时拍摄的两原始图像以两幅图像之间对应全景场景所缺失的部分作为孔洞区域,实现两原始图像彼此尺寸对应的拼接处理,得到带有孔洞的全景拼接图像,进入步骤3;
步骤3:使用深度图像增强网络对带有孔洞的全景拼接图像进行去模糊处理,得到带有孔洞的去模糊全景拼接图像,进入步骤4;
步骤4:使用深度生成对抗网络将带有孔洞的去模糊全景拼接图像中孔洞部分进行补全,获得该时间点下手机拍摄的全景图像,进入步骤5;
步骤5:将获得的各时间点下手机拍摄的全景图像进行图像拼接,实现手机拍摄全景视频的获得。
2.根据权利要求1所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:所述步骤2中得到带有孔洞的全景拼接图像,执行的步骤如下:
步骤2.1:训练深度单应性网络;
步骤2.2:以手机前、后摄像头同时拍摄的两原始图像分别对应的两灰度图像作为输入,经训练好的深度单应性网络,输出表示两原始图像拼接前后映射关系的单应性矩阵;
步骤2.3:根据单应性矩阵提供的映射关系对手机前、后摄像头同时拍摄的两原始图像以两幅图像之间对应全景场景所缺失的部分作为孔洞区域,实现两原始图像彼此尺寸对应的拼接处理,得到带有孔洞的全景拼接图像。
3.根据权利要求2所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:所述深度单应性网络为通过4个卷积层和2个完全连接层连接,每个卷积层卷积核的个数依次为6、6、16、16,卷积核的大小为3x3,步长为1,填充方式为按0填充,激活函数采用ReLU函数。
5.根据权利要求1所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:所述步骤3中得到带有孔洞的去模糊全景拼接图像,执行的步骤如下:
步骤3.1:训练深度图像增强网络;
步骤3.2:以带有孔洞的全景拼接图像作为输入,经训练好的深度单应性网络,输出一个3*3的滤波器;
步骤3.3:使用3*3的滤波器对带有孔洞的全景拼接图像进行滤波去模糊,得到带有孔洞的去模糊全景拼接图像。
6.根据权利要求5所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:所述深度图像增强网络为通过8个卷积层和1个完全连接层连接,每个卷积层卷积核的个数依次为8、8、36、36,卷积核的大小为3x3,步长为2,填充方式为按0填充,激活函数采用ReLU函数。
8.根据权利要求1所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:所述步骤4中获得该时间点下手机拍摄的全景图像,执行步骤如下:
步骤4.1:训练深度生成对抗网络;
步骤4.2:以带有孔洞的去模糊全景拼接图像作为输入,经训练好的深度单应性网络,将带有孔洞的去模糊全景拼接图像中孔洞部分进行补全,获得该时间点下手机拍摄的全景图像。
9.根据权利要求8所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:所述深度生成对抗网络包括生成对抗网络、判别器网络,所述生成对抗网络为通过4个卷积层进行连接,第一个卷积层由1024个4x4大小的卷积核构成,第二个卷积层由512个8x8大小的卷积核构成,第三个卷积层由256个16x16大小的卷积核构成,第四个卷积层由3个64x64大小的卷积核构成,卷积填充方式为按0填充,激活函数采用ReLU函数;
判别器网络为通过4个卷积层和1个完全连接层连接,每个卷积层卷积核的个数依次为8、8、36、36,卷积核的大小为3x3,步长为2,填充方式为按0填充,激活函数采用ReLU函数。
10.根据权利要求8所述的一种基于端侧深度学习的手机全景拍摄与合成方法,其特征在于:训练深度生成对抗网络的损失函数Lloss有两部分构成,即对抗网络损失函数Ladv和感知损失函数LC,
对抗网络损失函数Ladv为:
式中,λ固定取值为10,z为输入的噪声,x为专业全景相机拍摄出的图像,为在z和x之间随机插值取样,G()为生成器、D()为判别器、Pz(z)表示噪声z的数据分布,Pdata(x)表示图像x的数据分布;
感知损失函数LC为:
式中,使用ImageNet进行预训练VGG19,是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图,Wi,j是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图的宽,Hi,j是在VGG19网络中第i个最大池化层之前的第j个卷积获得的特征图的高,IB是有孔洞的全景拼接图像,IS是由专业的全景相机获取的清晰图像,a指代VGG19网络中第i个最大池化层之前的第j个卷积获得的各个特征图对应的各个宽,b指代VGG19网络中第i个最大池化层之前的第j个卷积获得的各个特征图对应的各个高;
深度生成对抗网络的损失函数Lloss为:
Lloss=Ladv+βLC
式中,β为超参数,取1*10-3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111105966.8A CN113808022B (zh) | 2021-09-22 | 2021-09-22 | 一种基于端侧深度学习的手机全景拍摄与合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111105966.8A CN113808022B (zh) | 2021-09-22 | 2021-09-22 | 一种基于端侧深度学习的手机全景拍摄与合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808022A true CN113808022A (zh) | 2021-12-17 |
CN113808022B CN113808022B (zh) | 2023-05-30 |
Family
ID=78939803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111105966.8A Active CN113808022B (zh) | 2021-09-22 | 2021-09-22 | 一种基于端侧深度学习的手机全景拍摄与合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808022B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114745516A (zh) * | 2022-04-11 | 2022-07-12 | Oppo广东移动通信有限公司 | 全景视频的生成方法、装置、存储介质及电子设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006089417A1 (en) * | 2005-02-23 | 2006-08-31 | Craig Summers | Automatic scene modeling for the 3d camera and 3d video |
CN102645837A (zh) * | 2012-04-09 | 2012-08-22 | 广东步步高电子工业有限公司 | 一种应用于安装有前、后摄像头的移动手持设备的全景图像拍摄和处理方法 |
US20140043436A1 (en) * | 2012-02-24 | 2014-02-13 | Matterport, Inc. | Capturing and Aligning Three-Dimensional Scenes |
WO2018133849A1 (zh) * | 2017-01-21 | 2018-07-26 | 盯盯拍(东莞)视觉设备有限公司 | 全景图像拍摄方法、全景图像显示方法、全景图像拍摄装置以及全景图像显示装置 |
CN109255375A (zh) * | 2018-08-29 | 2019-01-22 | 长春博立电子科技有限公司 | 基于深度学习的全景图像对象检测方法 |
CN110287800A (zh) * | 2019-05-29 | 2019-09-27 | 河海大学 | 一种基于sgse-gan的遥感图像场景分类方法 |
CN110769240A (zh) * | 2019-08-23 | 2020-02-07 | 上海亦我信息技术有限公司 | 基于拍照的3d建模系统及方法、自动3d建模装置及方法 |
US20210004933A1 (en) * | 2019-07-01 | 2021-01-07 | Geomagical Labs, Inc. | Method and system for image generation |
CN112365407A (zh) * | 2021-01-13 | 2021-02-12 | 西南交通大学 | 视角可配置的摄像机全景拼接方法 |
WO2021098567A1 (zh) * | 2019-11-19 | 2021-05-27 | 贝壳找房(北京)科技有限公司 | 生成带深度信息的全景图的方法、装置及存储介质 |
CN113066003A (zh) * | 2021-03-12 | 2021-07-02 | 深圳市唯特视科技有限公司 | 环视全景图像生成方法、装置、电子设备及存储介质 |
CN113096271A (zh) * | 2021-03-09 | 2021-07-09 | 惠州Tcl移动通信有限公司 | 一种移动终端的摄影方法及其摄影装置 |
CN114125269A (zh) * | 2021-10-29 | 2022-03-01 | 南京信息工程大学 | 一种基于深度学习的手机实时全景拍摄方法 |
-
2021
- 2021-09-22 CN CN202111105966.8A patent/CN113808022B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006089417A1 (en) * | 2005-02-23 | 2006-08-31 | Craig Summers | Automatic scene modeling for the 3d camera and 3d video |
US20080246759A1 (en) * | 2005-02-23 | 2008-10-09 | Craig Summers | Automatic Scene Modeling for the 3D Camera and 3D Video |
US20140043436A1 (en) * | 2012-02-24 | 2014-02-13 | Matterport, Inc. | Capturing and Aligning Three-Dimensional Scenes |
CN102645837A (zh) * | 2012-04-09 | 2012-08-22 | 广东步步高电子工业有限公司 | 一种应用于安装有前、后摄像头的移动手持设备的全景图像拍摄和处理方法 |
WO2018133849A1 (zh) * | 2017-01-21 | 2018-07-26 | 盯盯拍(东莞)视觉设备有限公司 | 全景图像拍摄方法、全景图像显示方法、全景图像拍摄装置以及全景图像显示装置 |
CN109255375A (zh) * | 2018-08-29 | 2019-01-22 | 长春博立电子科技有限公司 | 基于深度学习的全景图像对象检测方法 |
CN110287800A (zh) * | 2019-05-29 | 2019-09-27 | 河海大学 | 一种基于sgse-gan的遥感图像场景分类方法 |
US20210004933A1 (en) * | 2019-07-01 | 2021-01-07 | Geomagical Labs, Inc. | Method and system for image generation |
CN110769240A (zh) * | 2019-08-23 | 2020-02-07 | 上海亦我信息技术有限公司 | 基于拍照的3d建模系统及方法、自动3d建模装置及方法 |
WO2021098567A1 (zh) * | 2019-11-19 | 2021-05-27 | 贝壳找房(北京)科技有限公司 | 生成带深度信息的全景图的方法、装置及存储介质 |
CN112365407A (zh) * | 2021-01-13 | 2021-02-12 | 西南交通大学 | 视角可配置的摄像机全景拼接方法 |
CN113096271A (zh) * | 2021-03-09 | 2021-07-09 | 惠州Tcl移动通信有限公司 | 一种移动终端的摄影方法及其摄影装置 |
CN113066003A (zh) * | 2021-03-12 | 2021-07-02 | 深圳市唯特视科技有限公司 | 环视全景图像生成方法、装置、电子设备及存储介质 |
CN114125269A (zh) * | 2021-10-29 | 2022-03-01 | 南京信息工程大学 | 一种基于深度学习的手机实时全景拍摄方法 |
Non-Patent Citations (4)
Title |
---|
HANG ZHANG等: "Panoramic Image Stitching Using Double Encoder–Decoders", SN COMPUTER SCIENCE * |
卢官明;陈浩;肖鲁宁;苏昊;钟锐;: "全景视图泊车辅助系统中的多视点视频拼接", 南京邮电大学学报(自然科学版) * |
唐松奇: "基于卷积神经网络的水下图像增强与拼接方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑 * |
李剑;曾丹;张之江;朱沁怡;: "基于双目鱼眼相机的柱状投影全景行车记录仪", 电子测量技术 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114745516A (zh) * | 2022-04-11 | 2022-07-12 | Oppo广东移动通信有限公司 | 全景视频的生成方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113808022B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055827B2 (en) | Image processing apparatus and method | |
Claus et al. | Videnn: Deep blind video denoising | |
CN109671023B (zh) | 一种人脸图像超分辨率二次重建方法 | |
JP6929047B2 (ja) | 画像処理装置、情報処理方法及びプログラム | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
Xu et al. | Performance evaluation of color correction approaches for automatic multi-view image and video stitching | |
CN103826033B (zh) | 图像处理方法、图像处理设备、图像拾取设备和存储介质 | |
CN103517046B (zh) | 用于捕获视频内容的方法、装置和计算机程序产品 | |
CN110827200A (zh) | 一种图像超分重建方法、图像超分重建装置及移动终端 | |
CN108055452A (zh) | 图像处理方法、装置及设备 | |
CN113850367B (zh) | 网络模型的训练方法、图像处理方法及其相关设备 | |
CN114125269B (zh) | 一种基于深度学习的手机实时全景拍摄方法 | |
CN111835983B (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统 | |
CN108024054A (zh) | 图像处理方法、装置及设备 | |
CN109146799B (zh) | 基于多张图的摩尔纹去除方法 | |
CN110009573B (zh) | 模型训练、图像处理方法、装置、电子设备及存储介质 | |
CN110958469A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN107169926A (zh) | 图像处理方法和装置 | |
Lo et al. | Image stitching for dual fisheye cameras | |
CN111724317A (zh) | Raw域视频去噪监督数据集构造方法 | |
CN112308803A (zh) | 一种基于深度学习的自监督低照度图像增强及去噪方法 | |
CN113297937A (zh) | 一种图像处理方法、装置、设备及介质 | |
CN113808022B (zh) | 一种基于端侧深度学习的手机全景拍摄与合成方法 | |
CN116385305A (zh) | 基于跨区域Transformer的神经辐射场的图像去阴影方法及系统 | |
CN108122218B (zh) | 基于颜色空间的图像融合方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |