CN113450274A

CN113450274A - 一种基于深度学习的自适应视点融合方法及系统

Info

Publication number: CN113450274A
Application number: CN202110698713.XA
Authority: CN
Inventors: 李帅; 王开心; 高艳博; 元辉; 蔡珣
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-28
Anticipated expiration: 2041-06-23
Also published as: CN113450274B

Abstract

本公开公开的一种基于深度学习的自适应视点融合方法及系统，包括：获取左参考视点深度图和彩色图、右参考视点深度图和彩色图；将左参考视点深度图和彩色图、右参考视点深度图和彩色图分别经过三维映射，获得左合成图像、右合成图像、左几何位置偏差、右几何位置偏差和合成深度图；用左合成图像的信息填补右合成图像的空洞，获取校正后右合成图像，用右合成图像的信息填补左合成图像的空洞，获取校正后左合成图像；将校正后右合成图像、校正后左合成图像、左几何位置偏差、右几何位置偏差和合成深度图输入训练好的神经网络模型中，获得合成彩色图。获得了高质量的合成彩色图。

Description

一种基于深度学习的自适应视点融合方法及系统

技术领域

本发明涉及视点合成技术领域，尤其涉及一种基于深度学习的自适应视点融合方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

基于深度图像的渲染(Depth-image-based rendering,DIBR)是3D视频应用中生成新视图的主要基本技术之一。不同视点下的图像存在三维几何映射关系，利用DIBR技术可以将虚拟视点的彩色图映射到其他视点下的彩色图。然而在映射过程中，根据深度图计算出的映射位置并不是整数，整数点位置目前只能通过取整或插值得到，这就导致了合成图像出现几何失真，严重降低了合成图像的图像质量。而且，由于遮挡问题，即在参考图像中被遮挡的物体由于视角转化会在新视角下变得可见，这就导致了合成图像中经常会出现空洞，进一步降低了合成图像的图片质量。

故发明人认为，现有的视点融合技术，均不能获得高质量的合成图像。

发明内容

本公开为了解决上述问题，提出了一种基于深度学习的自适应视点融合方法及系统，通过对合成图像进行失真校正，获得了高质量的合成图像。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于深度学习的自适应视点融合方法，包括：

获取左参考视点深度图和彩色图、右参考视点深度图和彩色图；

将左参考视点深度图和彩色图、右参考视点深度图和彩色图分别经过三维映射，获得左合成图像、右合成图像、左几何位置偏差、右几何位置偏差和合成深度图；

用左合成图像的信息填补右合成图像的空洞，获取校正后右合成图像，用右合成图像的信息填补左合成图像的空洞，获取校正后左合成图像；

将校正后右合成图像、校正后左合成图像、左几何位置偏差、右几何位置偏差和合成深度图输入训练好的神经网络模型中，获得合成彩色图。

第二方面，提出了一种基于深度学习的自适应视点融合系统，包括：

参考视图获取模块，用于获取左参考视点深度图和彩色图、右参考视点深度图和彩色图；

合成图像及位置偏差获取模块，用于将左参考视点深度图和彩色图、右参考视点深度图和彩色图分别经过三维映射，获得左合成图像、右合成图像、左几何位置偏差、右几何位置偏差和合成深度图；

校正图像获取模块，用于用左合成图像的信息填补右合成图像的空洞，获取校正后右合成图像，用右合成图像的信息填补左合成图像的空洞，获取校正后左合成图像；

合成彩色图像获取模块，用于将校正后右合成图像、校正后左合成图像、左几何位置偏差、右几何位置偏差和合成深度图输入训练好的神经网络模型中，获得合成彩色图。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于深度学习的自适应视点融合方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于深度学习的自适应视点融合方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开针对三维映射后的合成图像失真问题，通过神经网络模型，利用几何位置偏差进行了几何失真校正，从而能够获得高质量的合成彩色图。

2、本公开对三维映射后的合成图像中的空洞进行了填补，进一步保证了合成彩色图的图片质量。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开方法的原理框图；

图2为本公开实施例1公开的UNet网络结构图；

图3为本公开实施例1公开的DIBR原理图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

在该实施例中，公开了一种基于深度学习的自适应视点融合方法，包括：

进一步的，将参考视点深度图代入三维映射公式中，根据参考视点深度图、参考视点相机投影矩阵、合成视点相机投影矩阵计算出参考视点到合成视点的精确投影位置坐标，对精确投影位置坐标进行取整，获取取整后映射坐标，根据取整后映射坐标和参考视点彩色图获得合成图像。

进一步的，通过精确投影位置坐标和取整后映射坐标，获得几何位置偏差信息。

进一步的，通过逻辑融合操作，用左合成图像的信息填补右合成图像的空洞，获取校正后右合成图像，用右合成图像的信息填补左合成图像的空洞，获取校正后左合成图像。

进一步的，将校正后右合成图像、校正后左合成图像输入训练好的神经网络模型前，分别进行中值滤波和闭运算，获得初始空洞填充后右合成图像和初始空洞填充后左合成图像，将初始空洞填充后右合成图像和初始空洞填充后左合成图像输入训练好的神经网络模型中。

进一步的，神经网络模型采用UNet网络，UNet网络中使用残差网络的结构。

进一步的，采用梯度下降法对神经网络模型进行训练，获得训练后的神经网络模型。

对本实施例公开的一种基于深度学习的自适应视点融合方法进行详细说明。

术语解释：

View Synthsis：视点合成技术，是指通过一个或多个视点下的摄像机所拍摄的同一场景的图像，计算出其他视点下的该场景的图像。

参考图像：在参考视点下的场景的图像称为参考图像

虚拟图像：在虚拟视点下的场景的图像称为虚拟图像

DIBR：基于深度图像的虚拟视点绘制技术(depth image based rendering)，是指根据虚拟视点的RGB图和深度图合成任意视点的RGB图。

近年来，多视点视频(Multi-View video,MVV)、自由视点视频(FVV)和虚拟现实(VR)等三维视频技术给人们带来最真切的观影体验和身临其境的感觉，受到越来越多人的喜爱。基于深度图像的渲染(Depth-image-based rendering,DIBR)是3D视频应用中生成新视图的主要基本技术之一。DIBR原理如图3所示，已知三维空间的点Q投影到图像上的p点。Q在相机坐标系下的坐标为(X_c,Y_c,Z_c)，在世界坐标系下的坐标为(X,Y,Z)。则：

相机坐标系与世界坐标系的转换：

X_c＝RX+T

其中：R是3×3的旋转矩阵，T为3×1的平移矩阵

相机坐标和图像坐标的转换：

图像坐标与世界坐标系的转换：

设P为投影矩阵：

P＝AC

其中，C＝(R,T)为4×4的相机的外参矩阵；A为4×4的相机内参矩阵。

设P₁为参考相机的投影矩阵，P₂为虚拟相机的投影矩阵，参考相机和虚拟相机的图像坐标和世界坐标的关系为：

消去中间变量得DIBR原理公式：

其中，P₁指参考视点相机的投影矩阵，P₂指合成视点相机的投影矩阵。

目前已知的基于卷积神经网络和深度学习的新视点合成方法没有考虑用几何位置偏差反映合成视点的像素质量，进而进行自适应视点融合。其中一种方法为将参考图像分别输入到空间特征网络和深度预测网络，输出图片的特征图和深度，再根据视角变换向量T，将特征值映射到目标视角；然后将目标视角的特征图经过一个细化网络生成新视点的图像；在另一种方法中直接使用深层卷积神经网络预测外观流而不是像素，不需要学习如何从零开始生成像素，只需要学习在哪里复制像素，然后根据训练得到的外观流结合输入彩色图进行三维映射得到合成视点的彩色图，对于视点融合问题，直接在神经网络新加入一个输出通道输出合成图像的置信度，多个结果分别与置信度相乘，累加后得到最终的视点融合结果。第三种方法为一种改进的基于DIBR的虚拟视图合成算法，首先深度图进行预处理，只对深度图中发生突变的局部区域进行非对称滤波预处理。然后结合正向和反向的三维映射来合成虚拟视图，首先将左参考视点图像映射到合成视点，然后将合成图像中的空洞区域反向映射到右参考视点，得到空洞丢失的信息，然而该方法没有实现视点的自适应融合，合成图像的质量不能在像素级达到最优。

而本实施例公开的一种基于深度学习的自适应视点融合方法，利用两个参考视点合成图像并进行图像融合能有效的减少空洞的数量，自适应视点融合即根据映射位置偏差信息用神经网络判断出两个合成图像的像素质量，然后利用神经网络自适应的选择质量高的像素点进行像素级视点融合，并将融合后的剩余空洞进行填补，合成最终的合成彩色图，该过程可大幅提高合成彩色图的质量。

本实施例公开的一种基于深度学习的自适应视点融合方法，如图1所示，包括：

S1：获取左参考视点深度图和彩色图、右参考视点深度图和彩色图。

由于单个视点的参考图像会由于信息不足造成在合成图像上出现较多的空洞，利用两个参考视点合成图像并进行图像融合能有效的减少空洞的数量。故本申请获取了左参考视点深度图和彩色图、右参考视点深度图和彩色图，通过对左参考视点深度图和彩色图、右参考视点深度图和彩色图进行分析，获得左右合成图像，进而对左右合成图像进行融合获得合成彩色图像。

S2：将左参考视点深度图和彩色图、右参考视点深度图和彩色图分别经过三维映射，获得左合成图像、右合成图像、左几何位置偏差、右几何位置偏差和合成深度图。

在具体实施时，将左参考视点深度图、右参考视点深度图分别进行三维映射，得到两个合成视点的深度图，对两个合成视点的深度图进行初始空洞填充(中值滤波，闭运算)，再进行逻辑融合，可得到合成深度图。

将参考视点深度图代入三维映射公式中，获得参考视点深度图在合成图像的精确投影位置坐标，对精确投影位置坐标进行取整，获取取整后映射坐标，根据取整后映射坐标和参考视点彩色图获得合成图像。

通过精确投影位置坐标和取整后映射坐标，获得几何位置偏差信息。

三维映射公式为：

其中Z₁为参考视点深度值，P₁为参考视点相机投影矩阵，P₂为合成视点相机投影矩阵，(u₁,v₁)为参考图像的图像坐标。

根据该公式可计算出参考视点到合成视点的精确投影位置坐标(u₂,v₂)。然而精确投影位置坐标(u₂,v₂)并不完全对应合成图像的整数像素位置，因此需要对精确投影位置坐标(u₂,v₂)进行取整，得取整后映射坐标(u′₂,v′₂)。然后根据取整后映射坐标(u′₂,v′₂)和参考视点彩色图生成合成图像。

由于对精确投影位置坐标的取整，使得合成图像产生了几何失真，故计算了几何位置偏差用于后续的合成图像的几何失真校正。

几何位置偏差为精确投影位置坐标与取整后映射坐标之差，即(u₂-u′₂,v₂-v′₂)

则左参考视点深度图和彩色图获得左合成图像picture_L和左几何位置偏差dplace_L，右参考视点深度图和彩色图获得右合成图像dplace_R和右几何位置偏差picture_R。

S3：通过逻辑融合操作，用左合成图像的信息picture_L初步填补右合成图像picture_R的空洞，获取校正后右合成图像picture′_R，用右合成图像picture_R的信息填补左合成图像picture_L的空洞，获取校正后左合成图像picture′_L。

S4：将校正后右合成图像picture′_R、校正后左合成图像picture′_L、左几何位置偏差dplace_L、右几何位置偏差dplace_R和合成深度图输入训练好的神经网络模型中，获得合成彩色图。

神经网络模型采用UNet网络，且UNet网络中采用残差网络(ResNet)结构，如图2所示。该网络以生成融合图像为主，提升像素级的视点融合效果，提高合成彩色图像的质量。传统的视点融合方法无法自适应选择两个合成视点图像中的质量最好的像素，该过程可以克服该缺陷使得融合后的图像可以达到像素级最优。

UNet不仅可以保留原始输入图像的全局信息，还能在输出图像上得到更多的局部信息，而且可以处理不同尺寸的输入图像。另一方面，残差网络能够在很大程度上解决网络梯度消失和梯度爆炸问题，当网络的层数比较多时，残差网络能够加速训练，因此，本实施例的神经网络模型在UNet网络的基础上采用残差网络(ResNet)模型的结构。

采用梯度下降法对神经网络模型进行训练，获得训练好的神经网络模型，将校正后右合成图像picture′_R、校正后左合成图像picture′_L、左几何位置偏差dplace_L、右几何位置偏差dplace_R和合成深度图在维度上进行拼接输入到训练好的神经网络模型中，合成图像可以提供图像全局信息，合成深度图在物体边界处像素值变化比较大，可以提供前景物体的边界信息，几何位置偏差可以在一定程度上反映合成彩色图像像素的质量，利用全局图像信息和几何位置偏差进行自适应的视点融合，增强合成视点的彩色图质量，获得几何失真校正后的合成彩色图。

在三维映射过程中，合成图像会产生空洞，导致图片质量下降。产生空洞的原因主要有去遮挡、采样不足和场外区等。三维映射过程中视角的变化会导致场景中物体之间的遮挡关系也发生变化。被前景对象遮挡的背景区域可能在合成图像中变得可见，从而没有像素映射到这些区域，这类空洞称为去遮挡。去遮挡造成的空洞由于该区域图像信息在参考图像中不存在，该类空洞一般比较大，填充也比较困难，采用深度学习的方法填充此类去遮挡造成的空洞；采样不足造成的空洞一般比较小，采用中值滤波和闭运算进行初始空洞填充；场外区类型的空洞也就是合成图像中的边界区没有信息，这是因为虚拟视点的边界区超出了参考视点可见范围，而多个参考视点的融合可以减小空洞的尺寸，左参考视点的遮挡区域在右参考视点中可见，视点融合可以填补该类型的空洞。

针对由于去遮挡造成的空洞，假设空洞内部纹理与其邻域纹理相关性一致，本实施例采用深度学习网络，利用周围像素的图像信息来填补空洞区域。该类空洞由于是被前景物体遮挡形成的，故而属于背景信息，因此需要考虑合成视点的深度图。所以，将合成图像、深度图及空洞掩模在纬度上拼接作为神经网络模型的输入。

为了简化网络及训练过程，本实施例将几何失真校正、视点融合、空洞填补网络结合起来。将校正后右合成图像picture′_R、校正后左合成图像picture′_L进行中值滤波和闭运算进行初始空洞填充得到初始空洞填充后右合成图像picture″_R和初始空洞填充后左合成图像picture″_L把picture″_L、picture″_R、合成深度图、几何位置偏差dplace_L、dplace_R在维度上拼接输入到UNet网络中，获得合成彩色图。

在对本实施例公开的网络进行训练时，获取训练用的数据集，将80％的视点用于训练，20％的视点用作测试，左参考视点为合成视点减1，右参考视点为合成视点加1，每个数据集详细信息如下表：

在测试集上的实验结果如下表：

数据集	Shark	Rena	Akko and Kayo
				PSNR(dB)	37.62338	22.42273	23.76953
SSIM(dB)	0.97744	0.87146	0.85059

在Shark数据集上对本实施例公开方法与未融合几何位置偏差信息的图像合成方法进行消融实验对比，实验结果如下表所示。实验结果表明，本实施例公开的在神经网络的输入加上几何位置偏差信息能够使得合成图像的PSNR值提高约0.89dB，提升了约2.42％，提高了合成图像的质量。

	PSNR(dB)	SSIM(dB)
			无几何位置偏差信息	36.73086	0.93192
本实施例公开算法	37.62338	0.97744

本实施例针对三维映射图像的几何失真问题，采用UNet网络进行几何失真校正。针对传统的视点融合方法无法自适应选择质量高的像素的缺陷，构建UNet网络，用几何位置偏差信息反映三维映射后的像素质量，进行自适应视点融合。对不同种类的空洞采用不同的填洞方法进行填洞，尤其是针对去遮挡造成的空洞使用UNet网络填补。从而获得了高质量的合成图像。

实施例2

在该实施例中，公开了一种基于深度学习的自适应视点融合系统，包括：

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于深度学习的自适应视点融合方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于深度学习的自适应视点融合方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的自适应视点融合方法，其特征在于，包括：

2.如权利要求1所述的一种基于深度学习的自适应视点融合方法，其特征在于，根据参考视点深度图、参考视点相机投影矩阵、合成视点相机投影矩阵计算出参考视点到合成视点的精确投影位置坐标，对精确投影位置坐标进行取整，获取取整后映射坐标，根据取整后映射坐标和参考视点彩色图获得合成图像。

3.如权利要求2所述的一种基于深度学习的自适应视点融合方法，其特征在于，通过精确投影位置坐标和取整后映射坐标，获得几何位置偏差信息。

4.如权利要求1所述的一种基于深度学习的自适应视点融合方法，其特征在于，通过逻辑融合操作，用左合成图像的信息填补右合成图像的空洞，获取校正后右合成图像，用右合成图像的信息填补左合成图像的空洞，获取校正后左合成图像。

5.如权利要求1所述的一种基于深度学习的自适应视点融合方法，其特征在于，将校正后右合成图像、校正后左合成图像输入训练好的神经网络模型前，分别进行中值滤波和闭运算，获得初始空洞填充后右合成图像和初始空洞填充后左合成图像，将初始空洞填充后右合成图像和初始空洞填充后左合成图像输入训练好的神经网络模型中。

6.如权利要求1所述的一种基于深度学习的自适应视点融合方法，其特征在于，神经网络模型采用UNet网络，UNet网络中使用残差网络模型的结构。

7.如权利要求1所述的一种基于深度学习的自适应视点融合方法，其特征在于，采用梯度下降法对神经网络模型进行训练，获得训练后的神经网络模型。

8.一种基于深度学习的自适应视点融合系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种基于深度学习的自适应视点融合方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种基于深度学习的自适应视点融合方法的步骤。