CN117173012A - 无监督的多视角图像生成方法、装置、设备及存储介质 - Google Patents
无监督的多视角图像生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117173012A CN117173012A CN202310876548.1A CN202310876548A CN117173012A CN 117173012 A CN117173012 A CN 117173012A CN 202310876548 A CN202310876548 A CN 202310876548A CN 117173012 A CN117173012 A CN 117173012A
- Authority
- CN
- China
- Prior art keywords
- image
- unsupervised
- resolution
- images
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000009466 transformation Effects 0.000 claims abstract description 47
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000002679 ablation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 19
- 230000000007 visual effect Effects 0.000 abstract description 16
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 18
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000009958 sewing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
本发明提供了无监督的多视角图像生成方法、装置、设备及存储介质,搭建一种无监督的深度学习图像拼接框架,包括粗对齐阶段和重建阶段;在粗对齐阶段,构建适合大基线场景的无监督单应性网络;在重建阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;基于无监督的深度学习图像拼接框架对各待拼接图像进行图像拼接,得到重构后的图像;对重构后的图像进行视角变换,得到多视角的全景图像。本发明将图像拼接和视角变换二者相结合,构建出全景摄像效果;且基于这两种传统的技术原理与神经网络相结合,得到一种无监督的多视角图像生成方法,使得全景监控画面更加清晰、准确。
Description
技术领域
本发明涉及计算机视觉和图像处理领域中的图像合成技术领域,特别涉及一种无监督的多视角图像生成方法、装置、设备及存储介质。
背景技术
随着虚拟现实、增强现实、三维建模等技术的逐渐成熟,对于真实感和沉浸感的要求越来越高。传统的图像合成技术只能在一定程度上实现图像拼接和视角变换,无法达到高质量的多视角图像生成。因此,在此背景下,研究人员开始探索新的多视角图像生成技术,以满足用户对真实感和沉浸感的需求。该技术的发明正是在这个背景下应运而生,通过结合图像拼接和视角变换等技术,能够更加准确、高效地生成多视角图像,大大提升了虚拟现实、增强现实、三维建模等领域的应用效果。
图像拼接是一个日益流行的研究领域,已经成为照相绘图学、计算机视觉、图像处理和计算机图形学研究中的热点。图像拼接解决的问题一般式,通过对齐一系列空间重叠的图像,构成一个无缝的、高清晰的图像,具有比单个图像更高的分辨率和更大的视野。早期的图像拼接研究一直用于照相绘图学,主要是对大量航拍或卫星的图像的整合。近年来随着图像拼接技术的研究和发展,它使基于图像的绘制成为结合两个互补领域——计算机视觉和计算机图形学的坚决焦点,在计算机视觉领域中,图像拼接成为对可视化场景描述的主要研究方法:在计算机形学中,现实世界的图像过去一直用于环境贴图,即合成静态的背景和增加合成物体真实感的贴图,图像拼接可以使图像绘制从一系列真是图像中快速绘制具有真实感的新视图。
图像的视角变换作为计算机视觉、计算机图形学、人工智能领域的关键技术,视角变换作为一种图像处理方法,可以帮助计算机更好的理解图像,“看”懂图像和视频,从而实现自动化分析和理解,视角变换可以帮助计算机生成具有多种视角的图像,从而实现丰富的视觉效果,也可以帮助计算机从多个视角理解和分析图像,实现更智能的图像处理。
然而,在实际监控时,多个摄像头显示各种角度地方的画面,对工厂之类的重复出现率较高的环境会出现难以分辨的情况,仅仅将各个摄像头所摄得画面相拼接并不能很好的实现将整体的一个实时环境分辨并拼接的效果。且在需要构建上帝视角的全景效果时,会存在同一物体多个角度的图像难以结合的效果。
发明内容
为了解决上述技术问题,本发明采取的技术方案如下:将图像拼接技术和视角变换技术二者相结合,构建出全景摄像效果;以拼接技术为主,视角变换技术为辅,且基于这两种传统的技术原理与神经网络相结合,设计得到一种无监督的多视角图像生成方法,使得全景监控画面更加准确清晰,且方便检测。
根据本发明的第一方面,提供了一种无监督的多视角图像生成方法,包括以下步骤:
搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;
在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;
获取两张待拼接的高分辨率图像;
基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;
对所述重构后的图像进行视角变换,得到多视角的全景图像。
进一步地,所述基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像的步骤,包括:
将两张待拼接的高分辨率图像输入基于无监督的深度学习图像拼接框架;
首先进入图像粗对齐阶段,具体步骤如下;
通过一个无监督单应性网络估计其单应性;
通过缝合结构变化层,使得两张待拼接的高分辨率图像完全贴合,进而得到两张粗对齐后的高分辨率图像;
然后进入图像重建阶段,具体步骤如下;
将粗对齐后的高分辨率图像下采样成256*256的低分辨图像;
通过低分辨率变形分支得到的图像,将其上采样和原高分辨率图像一起作为高分辨率细化分支的输入,输出高分辨率的图像;
采用跳跃式链接将相同分辨率的低级特征和高级特征连接起来,输出重构后的图像。
进一步地,在第一阶段,采用基于消融的方式来约束大基线场景的单应性估计,包括:
将完整的图像作为输入,确保所有重叠的区域都包含在输入图像中;当将扭曲的目标图像靠近参考图像时,不再填充扭曲的目标图像中的无效像素;相反,将参考图像中扭曲的目标图像中无效像素所在的内容清除,无监督单应性网络的目标函数表示为:
其中IA、IB分别为参考图像和目标图像的全像,使用估计的单应性将一幅图像扭曲以与另一幅图像对齐;⊙是逐一像素的乘法,E是一个与IA大小相同的单位矩阵。
进一步地,在无监督单应性网络的架构上,采用了多尺度深度模型,将特征金字塔和特征关联统一在一个框架中,实现了从粗到精的单应性预测,处理相对大基线的场景。
进一步地,所述通过缝合结构变化层,使得两张待拼接的高分辨率图像完全贴合的步骤,具体包括:
通过下述公式计算扭曲的目标图像4个顶点的坐标:
其中分别是扭曲的目标图像和目标图像的第k个顶点坐标;(Δxk,Δyk)给出了上述无监督单应性网络估计的第k个顶点的偏移量;
然后,通过下式可以得到扭曲的目标图像的大小:
式中为与/>具有相同值的参考图像的顶点坐标;
为输入图像(IA,IB)的低分辨率扭曲的目标图像(IAW,IBW)的像素分配特定的值,表示为:
其中I和H分别是单位矩阵和估计的单应矩阵;而给出了使用3×3变换矩阵对图像进行翘曲的操作,其拼接域集为H*×W*。
进一步地,在低分辨率变形分支中,采用一个内容掩码和一个缝隙掩码来引导重建过程的学习方式;
通过在输入图像(IA,IB)的扭曲的目标图像(IAW,IBW)的像素分配特定的值的表达式中,将全一矩阵EH×W替换IA,IB,获得两个低分辨率图像的内容掩码MAC,MBC;缝隙掩码MAS,MBS可以由下式来表示:
其中(i,j)表示坐标位置,*表示卷积操作,将所有元素剪辑到0到1之间,E3×3表示全一矩阵,/>表示用于计算缝隙掩码MAS、MBS的中间变量,/> 表示坐标(i,j)对应的内容掩码,/>表示坐标(i-1,j)对应的内容掩码;
将低分辨率下的内容损失和接缝损失/>设为下式:
其中SLR是指低分辨率拼接图像,和/>分别表示L1损失和感知损失;然后,低分辨率变形分支的总损失函数可表示为:
其中λs和λc为内容约束和接缝约束的贡献权重。
进一步地,高分辨率细化分支完全由卷积层组成,能处理任意分辨率的图片;将低分辨率拼接图像SLR上采样到扭曲的目标图像的分辨率,并将它们连接在一起作为高分辨率细化分支的输入,输出是高分辨率拼接图像SHR;根据低分辨率变形分支的总损失函数得到高分辨率细化分支LHR的损失函数为下式:
其中和/>是高分辨率下的内容损失和接缝损失,通过将低分辨率下的内容损失和接缝损失中的SLR和低分辨率掩码换替换成SHR和高分辨率掩码计算得到。
根据本发明的第二方面,提供了一种无监督的多视角图像生成装置,用于实现所述的多视角图像生成方法,包括以下模块:
框架搭建模块,用于搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;
图像获取模块,用于获取两张待拼接的高分辨率图像;
图像拼接模块,用于通过无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;
视角变换模块,用于对所述重构后的图像进行视角变换,得到多视角的全景图像。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的多视角图像生成方法的步骤。
根据本发明的第四方面,提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述的多视角图像生成方法的步骤。
传统的基于特征的图像拼接技术严重依赖于特征检测质量,也就是角点检测来提取特征,往往不能拼接特征少或分辨率低的图像。由于缺乏标记数据,对基于学习的图像拼接解决方案的研究很少,使得监督方法不可靠。而本发明采用了一个无监督的深度图像拼接框架,包括两个阶段:无监督的粗图像对齐和无监督的图像重建。在第一阶段,设计了一个更适合于大基线场景的无监督单应性网络。在第二阶段,由于像素级的错位可以在一定程度上被消除,设计了一个无监督的图像重建网络来消除从特征到像素的伪影。具体来说,重建网络可以通过低分辨率变形分支和高分辨率细化分支来实现,学习图像拼接的变形规律,同时提高分辨率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例中一种无监督的多视角图像生成方法的总体流程图;
图2为本发明实施例中无监督的深度学习图像拼接框架图;
图3为本发明实施例中两种使用掩码学习变形规则在低分辨率变形分支的效果;
图4为本发明实施例中使用的原始图像;
图5为本发明实施例中通过图像粗对齐后的两张效果图;
图6为本发明实施例中重构后的效果图;
图7为本发明实施例中透射变换原理图;
图8为本发明实施例中多视角图像拼接转换工具软件;
图9为本发明实施例中通过图像拼接将多角度摄像头的照片拼接成的全景图像;
图10为本发明实施例中通过视角变换将预先拍照得到的平视图转为侧视的效果图;
图11为本发明实施例中一种基于无监督的多视角图像生成装置的结构示意图;
图12为本发明实施例中一种电子设备的结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参考图1,本发明提供了一种无监督的多视角图像生成方法,包括以下步骤:
S1:搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;
S2:获取两张待拼接的高分辨率图像;
S3:基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;
S4:对所述重构后的图像进行视角变换,得到多视角的全景图像。
首先对图像拼接技术的主要流程进行描述:
图像拼接技术,图像拼接的输出是两个或多个输入图像的并集,通常需要五个步骤:
Step1:输入图像;
Step2:在所有的输入图像中检测特征点,即特征提取;
Step3:对提取到的特征点做图像配准,建立图像之间的几何对应关系,使它们可以在一个共同的参照系中进行变换、比较和分析。大致可以分为以下几个类:
①直接使用图像的像素值的算法,例如correlation methods;
②在频域处理的算法,例如,基于快速傅里叶变换(FFT-based)方法;
③低水平特征的算法low level features;通常用到边缘和角点,例如,基于特征的方法;
④高水平特征的算法high-level features;通常用到图像物体重叠部分,特征关系,例如,图论方法(Graph-theoretic methods);
Step4:将其中一幅图像的图像重投影,并将图像放置在更大的画布上。即图像变形。
Step5:图像融合,通过改变边界附近的图像灰度级,去除这些缝隙,创建混合图像,从而在图像之间实现平滑过渡。混合模式(Blend modes)用于将两层融合到一起。
Step6:输出图像。
具体地,本发明实施例中,采用了一种新型的无监督图像拼接方法,结合上述图像拼接技术,将其融合并加上神经网络框架更加优化此种技术。
传统的基于特征的图像拼接技术严重依赖于特征检测质量,也就是角点检测来提取特征,往往不能拼接特征少或分辨率低的图像。由于缺乏标记数据,对基于学习的图像拼接解决方案的研究很少,使得监督方法不可靠。为了解决上述局限性,采用了一个无监督的深度图像拼接框架,包括两个阶段:无监督的粗图像对齐和无监督的图像重建。在第一阶段,设计了一个更适合于大基线场景的无监督单应性网络。在第二阶段,由于像素级的错位可以在一定程度上被消除,设计了一个无监督的图像重建网络来消除从特征到像素的伪影。具体来说,重建网络可以通过低分辨率变形分支和高分辨率细化分支来实现,学习图像拼接的变形规律,同时提高图像的分辨率。
如图2所示,整个无监督图像拼接流程如下:
将两张待拼接的高分辨率图像输入基于无监督的深度学习图像拼接框架;
首先进入图像粗对齐阶段,具体步骤如下;
通过一个无监督单应性网络估计其单应性;
通过缝合结构变化层,使得两张待拼接的高分辨率图像完全贴合,进而得到两张粗对齐后的高分辨率图像;
然后进入图像重建阶段,具体步骤如下;
将粗对齐后的高分辨率图像下采样成256*256的低分辨图像;
通过低分辨率变形分支得到的图像,将其上采样和原高分辨率图像一起作为高分辨率细化分支的输入,输出高分辨率的图像;
采用跳跃式链接将相同分辨率的低级特征和高级特征连接起来,输出重构后的图像。
(1)无监督图像粗对齐
将待拼接的两个高分辨图像输入进网络后,第一个无监督深度单应性网络的设计是通过无监督方法,以图像块为输入,一个图像作为参考图像,另一个则作为目标图像,以参考图像作为拼接的主体,将其目标对应的图像块扭曲对应参考图像进行拼接。这些方法的目标函数可以表示为:
其中IA、IB分别为参考图像和目标图像的全像。P(·)是从完整图像中提取图像补丁的操作,使用估计的单应性将一幅图像扭曲以与另一幅图像对齐。由上式可知,为了使得扭曲变化之后的目标图像块接近参考图像块,利用目标图像块周围多余的内容填充扭曲变换后的目标图像块中的无效像素,也就是基于填充的约束策略。这种策略在小基线和中基线的单应性估计中效果良好,但是大基线情况下比较一般,特别是当基线太大时,可能会导致输入图像块之间没有重叠区域,从而导致这些图像块的单应性估计毫无意义。
所以为了解决这个问题,本发明采用的基于消融的方式来约束大基线单应性估计。具体来说,将完整的图像作为输入,确保所有重叠的区域都包含在输入中。当将扭曲的目标图像靠近参考图像时,不再填充扭曲的目标图像中的无效像素。相反,将参考图像中扭曲的目标图像中无效像素所在的内容清除,无监督单应性网络的目标函数表示为:
其中⊙是逐一像素的乘法,E是一个与IA大小相同的单位矩阵,在无监督单应性网络的架构上,采用了多尺度深度模型,将特征金字塔和特征关联统一在一个框架中,实现了从粗到精的单应性预测,处理相对大基线的场景。
为了使得拼接的图片更好的贴合,保证图像的梯度反向传播,本发明还设计一个缝合结构变化层来解决在图像拼接中,相同分辨率的输入图像可以根据不同的重叠率输出不同分辨率的拼接图像的问题。
首先通过下述公式计算扭曲的目标图像4个顶点的坐标:
其中分别是扭曲的目标图像和目标图像的第k个顶点坐标;(Δxk,Δyk)给出了上述无监督单应性网络估计的第k个顶点的偏移量;
然后,通过下式可以得到扭曲的目标图像的大小:
式中为与/>具有相同值的参考图像的顶点坐标。最后,为输入图像(IA,IB)的扭曲的目标图像(IAW,IBW)的像素分配特定的值,可以表示为
其中I和H分别是单位矩阵和估计的单应矩阵;而给出了使用3×3变换矩阵对图像进行翘曲的操作,其拼接域集为H*×W*。这样,在缝合域空间中对输入图像进行变换,有效地减少了特征映射在后续重建网络中所占的空间。可以帮助拼接更大分辨率的图像。
(2)无监督图像重建
完成第一阶段的粗对齐之后需要进行无监督图像重建,在第一阶段,输入图像无法在真实数据集中完全对齐。为了打破单一单应性的瓶颈,采用了从特征到像素重构拼接图像的方法。重建网络可以通过低分辨率变形分支和高分辨率细化分支两个分支来实现,分别学习图像的变形规律和增强分辨率。
为了解决在重建图像中因为高分辨率下接受图像随分辨率增加而相对减少的问题,保证网络接受的图像块能够完全感知不对齐的区域,设计了一个低分辨率变形分支,学习图片拼接的变形规律,然后通过网络对拼接后的图像重构。此外,采用跳跃式链接将相同分辨率的低级特征和高级特征连接起来。
在低分辨率变形分支中,约束重建拼接图的特征应该尽可能接近扭曲过后的图像特征。由此,提出了一个内容掩码(content masks)和一个缝隙掩码(seam masks)来引导重建过程的学习方式。对于内容约束,约束拼接图的内容掩码部分需要尽可能接近扭曲后图像的特征;对于缝隙掩码,要求拼接图的缝隙约束部分需要尽可能接近warped images的像素值。如图3所示,采用内容掩码重构图像的特征与变形图像的特征接近,采用缝隙掩码重叠区域的边缘更加自然连续。
使用上述的式(5)通过全一矩阵EH×W替换IA,IB来获得内容掩码(content masks)MAC,MBC。其中,缝隙掩码(seam masks)可以由下式来表示:
其中(i,j)表示坐标位置,*表示卷积操作,将所有元素剪辑到0到1之间,E3×3表示全一矩阵,/>表示用于计算缝隙掩码MAS、MBS的中间变量,/> 表示坐标(i,j)对应的内容掩码,/>表示坐标(i-1,j)对应的内容掩码;然后将低分辨率下的内容损失(content loss)和接缝损失(seam loss)设为下式:
其中SLR是指低分辨率拼接图像,和/>分别表示L1 LOSS和perceptual loss(感知loss)。然后,低分辨率变形分支的总损失函数可表示为:
其中λs和λc为内容约束和接缝约束的贡献权重。
在低分辨率变形分支中初始化变形后,设计了高分辨率细化分支,以提高分辨率并细化拼接图像。高分辨率是指第一级输出的分辨率。该分支完全由卷积层组成,这意味着它可以处理任意分辨率的图片。将SLR上采样到扭曲的目标图像的分辨率,并将它们连接在一起作为该分支的输入。输出是高分辨率拼接图像SHR。将模拟上面的低分辨率变形分支的损失函数公式来总结高分辨率细化分支的损失函数为下式:
其中和/>是高分辨率下的内容损失和接缝损失,通过式(8)、(9)将SLR和低分辨率掩码换替换成SHR和高分辨率掩码计算得到。
本实施例中,输入的原始的待拼接图像如图4所示,其中有三张待拼接图像分别为图4(a)、图4(b)和图4(c),通过上述的第一阶段的无监督图像粗对齐后得到的效果图如图5所示,然后通过第二阶段的无监督图像重建后得到的效果图如图6所示。根据图4-6可知,实现了良好的图像拼接效果。
(3)图像视角变换技术
图像的透视变化大概可以分为两种:仿射变换和透视变换,可以认为,仿射变换是透视变换的一种特例。
仿射变换是一种二维坐标到二维坐标之间的线性变换,也就是只涉及一个平面内二维图形的线性变换。图形的平移、旋转、错切、放缩都可以用仿射变换的变换矩阵表示。
任意的仿射变换都能表示为一个坐标向量乘以一个矩阵的形式,下面是几种仿射变换的矩阵形式。
放缩:
旋转:
错切:
上面几种变换都可以直接只用2x2矩阵变换,但是平移无法做到,因为在2x2矩阵中无论怎么相乘都无法变换出一个常数量。因此需要将原本的2维坐标向量变成齐次坐标,也就是用3维向量来表示2维向量。
平移:
故仿射变换可以用以下通式来表示:
此时仿射变化的变换矩阵
因此坐标变化方程为
可以看到有6个未知的系数,需要3对映射点才能求解。这不难理解,6个变量自然需要至少列6个等式才可计算,而1对映射点可以提供2个等式。同时3个点唯一确定一个平面,另外的3个映射点由于是线性变换也必然在同一个平面内,所以可以说仿射变换是平面内的图形变换。
透视变换是将图片投影到一个新的视平面,也称作投影映射。它是二维(x,y)到三维(X,Y,Z),再到另一个二维空间(x',y')的映射。相对于仿射变换,它不仅仅是线性变换。它提供了更大的灵活性,可以将一个四边形区域映射到另一个四边形区域。透视变换可以通过齐次坐标来表示二维向量:
再将(x',y',z')做一次转换
所得到的才是最后的坐标。
如图7所示,对照投射变换原理图可以理解透视变化的原理:
Step1:置观察点位于原点(0,0,0)。
Step2:然往z轴的正方向看去,投影面上(x',y',1)就是在显示屏看到物体的位置。
Step3:经过透视变换,原本的(x',y',1)变成(x',y',z'),此时的坐标已经不仅仅在Z=1平面上,而是在整个三维空间中。
Step4:将该图形各个点与视点(即原点)连线,在Z=1投影面上投影形成图形(x”,y”)。数值上的表现是三个坐标值都除以z',这么做的原因其实是几何上的等比例的缩放。
了解到透视变化的原理之后,可以发现,透视变化的原理就是从另一个角度看原像得到的一个在某一平面上的投影,而非将原像移动到需要观测的位置,由此就可以用这个视角变换方法来解决在不同方位将多个图像拼接之后得到的多个长图像。想将多个方位的拍摄并拼接得到的多个长图像再度拼接这一问题。由于在不同方位对同一事物观测得到的图像在边缘处于另一方位所观测到的同一边缘处一定存在不方便对齐,需要利用到视角变换的地方。此处视角变换技术就可以将拼接后的图片进行变化,再将其拼接。
Step1:输入多个摄像头拍摄得到的图像,按摄像头分类输入。
Step2:将每个摄像头所拍摄到的多个图像进行拼接。
Step3:将拼接后的图像进行视角变换,转换为俯视效果。
Step4:再将拼接后并且转换为俯视后的多个长图像拼接起来。
Step5:得到一个上帝视角的全方位全景图。
本实施例中,根据所提供技术方案,设计能够直接方便用户使用的软件工具以及具有同种功能相对应的web端。方便直接导入所需要进行操作的图片进行直接操作。
如图8所示,用户可以直接将需要拼接的图片按照顺序导入在打开的文件夹中,执行后即通过图像拼接技术可得到如图9所示的效果。除此之外,当需要拼接的图像特征不够明显,或者是摄像机所拍得角度出现偏差,不利于图像拼接,也可以通过图像视角变换技术,通过透射变换,得到如图10所示的期望的视角效果图。使得在图像视角拼接的时候让整个拼接起来的效果更加好。同样也可以对视频流进行操作,这样就可以通过多个摄像头得到全景摄像的效果,在接受视频流的时候,通过预留栈将视频逐帧接受,再输出在视角变换后的图像框中,并且在视频流逐帧播放的同时也可以对视频输出的图像进行手动变换,只需通过点击输出图像上的四个角拖拽即可随意变更出想得到的图像视角。
下面对本发明提供的一种基于无监督的多视角图像生成装置进行描述,下文描述的基于无监督的多视角图像生成装置与上文描述的基于无监督的多视角图像生成方法可相互对应参照。
如图11所示,一种基于无监督的多视角图像生成装置,包括以下模块:
框架搭建模块001,用于搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;
图像获取模块002,用于获取两张待拼接的高分辨率图像;
图像拼接模块003,用于通过无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;
视角变换模块004,用于对所述重构后的图像进行视角变换,得到多视角的全景图像。
如图12所示,示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述无监督的多视角图像生成方法的步骤,具体包括:搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;获取两张待拼接的高分辨率图像;基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;对所述重构后的图像进行视角变换,得到多视角的全景图像。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述无监督的多视角图像生成方法的步骤,具体包括:搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;获取两张待拼接的高分辨率图像;基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;对所述重构后的图像进行视角变换,得到多视角的全景图像。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种无监督的多视角图像生成方法,其特征在于,包括以下步骤:
搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;
在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;
获取两张待拼接的高分辨率图像;
基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;
对所述重构后的图像进行视角变换,得到多视角的全景图像。
2.根据权利要求1所述的多视角图像生成方法,其特征在于,所述基于无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像的步骤,包括:
将两张待拼接的高分辨率图像输入基于无监督的深度学习图像拼接框架;
首先进入图像粗对齐阶段,具体步骤如下;
通过一个无监督单应性网络估计其单应性;
通过缝合结构变化层,使得两张待拼接的高分辨率图像完全贴合,进而得到两张粗对齐后的高分辨率图像;
然后进入图像重建阶段,具体步骤如下;
将粗对齐后的高分辨率图像下采样成256*256的低分辨图像;
通过低分辨率变形分支得到的图像,将其上采样和原高分辨率图像一起作为高分辨率细化分支的输入,输出高分辨率的图像;
采用跳跃式链接将相同分辨率的低级特征和高级特征连接起来,输出重构后的图像。
3.根据权利要求1所述的多视角图像生成方法,其特征在于,在第一阶段,采用基于消融的方式来约束大基线场景的单应性估计,包括:
将完整的图像作为输入,确保所有重叠的区域都包含在输入图像中;当将扭曲的目标图像靠近参考图像时,不再填充扭曲的目标图像中的无效像素;相反,将参考图像中扭曲的目标图像中无效像素所在的内容清除,无监督单应性网络的目标函数表示为:
其中IA、IB分别为参考图像和目标图像的全像,使用估计的单应性将一幅图像扭曲以与另一幅图像对齐;⊙是逐一像素的乘法,E是一个与IA大小相同的单位矩阵。
4.根据权利要求1所述的多视角图像生成方法,其特征在于,在无监督单应性网络的架构上,采用了多尺度深度模型,将特征金字塔和特征关联统一在一个框架中,实现了从粗到精的单应性预测,处理相对大基线的场景。
5.根据权利要求2所述的多视角图像生成方法,所述通过缝合结构变化层,使得两张待拼接的高分辨率图像完全贴合的步骤,具体包括:
通过下述公式计算扭曲的目标图像4个顶点的坐标:
其中分别是扭曲的目标图像和目标图像的第k个顶点坐标;(Δxk,Δyk)给出了上述无监督单应性网络估计的第k个顶点的偏移量;
然后,通过下式可以得到扭曲的目标图像的大小:
式中为与/>具有相同值的参考图像的顶点坐标;
为输入图像(IA,IB)的低分辨率扭曲的目标图像(IAW,IBW)的像素分配特定的值,表示为:
其中I和H分别是单位矩阵和估计的单应矩阵;而给出了使用3×3变换矩阵对图像进行翘曲的操作,其拼接域集为H*×W*。
6.根据权利要求5所述的多视角图像生成方法,其特征在于,在低分辨率变形分支中,采用一个内容掩码和一个缝隙掩码来引导重建过程的学习方式;
通过在输入图像(IA,IB)的扭曲的目标图像(IAW,IBW)的像素分配特定的值的表达式中,将全一矩阵EH×W替换IA,IB,获得两个低分辨率图像的内容掩码MAC,MBC;缝隙掩码MAS,MBS可以由下式来表示:
其中(i,j)表示坐标位置,*表示卷积操作,将所有元素剪辑到0到1之间,E3×3表示全一矩阵,/>表示用于计算缝隙掩码MAS、MBS的中间变量,/> 表示坐标(i,j)对应的内容掩码,/>表示坐标(i-1,j)对应的内容掩码;
将低分辨率下的内容损失和接缝损失/>设为下式:
其中SLR是指低分辨率拼接图像,和/>分别表示L1损失和感知损失;然后,低分辨率变形分支的总损失函数可表示为:
其中λs和λc为内容约束和接缝约束的贡献权重。
7.根据权利要求6所述的多视角图像生成方法,其特征在于,高分辨率细化分支完全由卷积层组成,能处理任意分辨率的图片;将低分辨率拼接图像SLR上采样到扭曲的目标图像的分辨率,并将它们连接在一起作为高分辨率细化分支的输入,输出是高分辨率拼接图像SHR;根据低分辨率变形分支的总损失函数得到高分辨率细化分支LHR的损失函数为下式:
其中和/>是高分辨率下的内容损失和接缝损失,通过将低分辨率下的内容损失和接缝损失中的SLR和低分辨率掩码换替换成SHR和高分辨率掩码计算得到。
8.一种无监督的多视角图像生成装置,用于实现任一项如权利要求1-7所述的多视角图像生成方法,其特征在于,包括以下模块:
框架搭建模块,用于搭建一种无监督的深度学习图像拼接框架,包括两个阶段:无监督的图像粗对齐和无监督的图像重建;在第一阶段,构建一个适合于大基线场景的无监督单应性网络;在第二阶段,构建一个无监督的图像重建网络来消除从特征到像素的伪影,所述图像重建网络通过低分辨率变形分支和高分辨率细化分支来实现;
图像获取模块,用于获取两张待拼接的高分辨率图像;
图像拼接模块,用于通过无监督的深度学习图像拼接框架对各所述待拼接图像进行图像拼接,得到重构后的图像;
视角变换模块,用于对所述重构后的图像进行视角变换,得到多视角的全景图像。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多视角图像生成方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的多视角图像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310876548.1A CN117173012A (zh) | 2023-07-17 | 2023-07-17 | 无监督的多视角图像生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310876548.1A CN117173012A (zh) | 2023-07-17 | 2023-07-17 | 无监督的多视角图像生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117173012A true CN117173012A (zh) | 2023-12-05 |
Family
ID=88943785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310876548.1A Pending CN117173012A (zh) | 2023-07-17 | 2023-07-17 | 无监督的多视角图像生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173012A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876647A (zh) * | 2024-03-13 | 2024-04-12 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
CN118485570A (zh) * | 2024-05-28 | 2024-08-13 | 中国矿业大学 | 一种基于无监督深度学习的巷道多图像高分辨率拼接方法 |
-
2023
- 2023-07-17 CN CN202310876548.1A patent/CN117173012A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876647A (zh) * | 2024-03-13 | 2024-04-12 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
CN117876647B (zh) * | 2024-03-13 | 2024-05-28 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
CN118485570A (zh) * | 2024-05-28 | 2024-08-13 | 中国矿业大学 | 一种基于无监督深度学习的巷道多图像高分辨率拼接方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | A survey on image and video stitching | |
Ji et al. | Deep view morphing | |
CN109076172B (zh) | 从中间视图生成有效画布视图的方法和系统 | |
Patwardhan et al. | Video inpainting under constrained camera motion | |
Snavely et al. | Finding paths through the world's photos | |
Pandey et al. | Image mosaicing: A deeper insight | |
Zhang et al. | Framebreak: Dramatic image extrapolation by guided shift-maps | |
US9824486B2 (en) | High resolution free-view interpolation of planar structure | |
Liu et al. | Multi-angular epipolar geometry based light field angular reconstruction network | |
CN117173012A (zh) | 无监督的多视角图像生成方法、装置、设备及存储介质 | |
Mistry et al. | Image stitching using Harris feature detection | |
JP2005100407A (ja) | 複数のソース画像からパノラマ画像を作成するシステム及び方法 | |
CN105678687A (zh) | 基于图像内容的立体图像拼接方法 | |
CN111553841B (zh) | 一种基于最佳缝合线更新的实时视频拼接方法 | |
CN112734914A (zh) | 一种增强现实视觉的图像立体重建方法及装置 | |
Wan et al. | Drone image stitching using local mesh-based bundle adjustment and shape-preserving transform | |
Fu et al. | Image stitching techniques applied to plane or 3-D models: a review | |
Kim et al. | Implicit Neural Image Stitching With Enhanced and Blended Feature Reconstruction | |
Park et al. | Virtual object placement in video for augmented reality | |
Manda et al. | Image stitching using ransac and bayesian refinement | |
Bello et al. | Deep 3D-zoom net: Unsupervised learning of photo-realistic 3D-zoom | |
Wahsh et al. | Optimizing Image Rectangular Boundaries with Precision: A Genetic Algorithm Based Approach with Deep Stitching. | |
Sharma | Image mosaicing and producing a panoramic visibility | |
Chand et al. | Implementation of Panoramic Image Stitching using Python | |
Guo et al. | Efficient view manipulation for cuboid-structured images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |