CN112233165A

CN112233165A - 一种基于多平面图像学习视角合成的基线扩展实现方法

Info

Publication number: CN112233165A
Application number: CN202011105754.5A
Authority: CN
Inventors: 张淼; 朴永日; 孙小飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-15
Anticipated expiration: 2040-10-15
Also published as: CN112233165B

Abstract

本发明公开了一种基于多平面图像学习视角合成的基线扩展实现方法，用于从窄基线立体摄像机捕获的图像中推断出基线之外的视图。包括：基于视频剪辑获取包括由第一相机采集的第一幅图像和由第二相机采集的第二幅图像的立体图像对；将第二幅图像投影到第一相机坐标系下的一组深度平面上，计算平面扫描量，得到重新投影的图像；将重新投影的图像沿着颜色通道级联，再将张量与第一幅图像级联，得到输入张量；将输入张量输入训练好的基于深度神经网络的MPI学习网络，得到多平面图像MPI的RGBA分层表示；基于MPI的RGBA分层表示，合成同一场景的输入视图之外的视图。本发明在扩展窄基线立体图像方面具有良好的应用前景，并能对许多具有挑战性的场景获得准确的推理结果。

Description

一种基于多平面图像学习视角合成的基线扩展实现方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于多平面图像学习视角合成的基线扩展实现方法。

背景技术

随着立体摄像机的广泛应用，大量立体图像数据的产生促进了立体视觉技术的进步。然而，大部分立体摄相机，如虚拟现实(VR)摄像机和当前广泛使用的双镜头摄像机，都属于窄基线立体摄相机，这类立体摄相机的基线比人眼的距离要窄，所以拍摄出的立体图像不能与人类视觉系统相匹配，不能到达引人注目的3D立体效果，或者不能到达沉浸式的虚拟体验。

因此，亟需一种从这样窄基线的参考图像合成基线之外的新视图的方法。

发明内容

从成对的输入图像到基线放大数倍的新视角，称之为视图的基线扩展。基线扩展在摄影中有许多应用，例如，可以在手机上拍摄一对窄基线(约1厘米)的立体图像，并通过基线扩展实现适合人类视觉系统(约6.3厘米)的立体图像对，以创建具有引人注目的3D立体效果的照片；或者，可以使用VR180°摄像机拍摄瞳距(IPD)分离的立体图像对，并沿一条半米长的线外插值至整个视角的图像集，以便在较小的头部运动范围内实现全视差。

本发明提供了一种基于多平面图像学习视角合成的基线扩展实现方法，该方法是一个实用而强大的深度学习解决方案，用于捕捉和渲染复杂现实场景的基线外视图，以进行虚拟探索。

本发明提供了以下技术方案：

一种基于多平面图像学习视角合成的基线扩展实现方法，包括以下步骤：

步骤1、基于视频剪辑获取立体图像对；所述立体图像对包括由第一相机采集的第一幅图像I₁和由第二相机采集的第二幅图像I₂；

步骤2、将所述第二幅图像I₂重新投影到所述第一相机的坐标系下的一组固定深度平面上，计算平面扫描量，得到重新投影的图像

表示I₂重新投影到I₁视角下深度为D的平面上的图像；

步骤3、将所述重新投影的图像

沿着颜色通道级联，得到维度为H×W×3D的张量

再将所述张量

与所述第一幅图像级联，得到维度为H×W×3(D+1)的输入张量；其中，H和W表示投影图像的长和宽，D表示深度；

步骤4、将所述输入张量输入训练好的基于深度神经网络的MPI学习网络，得到多平面图像MPI的RGBA分层表示；

步骤5、基于MPI的RGBA分层表示，合成同一场景的输入视图之外的视图。

进一步地，获取立体图像对包括：

基于视频剪辑选取连续N帧视频子序列；其中，N为大于2的正整数；

从所述视频子序列中随机选取立体图像对。

进一步地，得到多平面图像MPI的RGBA分层表示，包括：

获取所述MPI学习网络的网络输出；所述网络输出包括每一个平面的α通道、全局RGB背景图像

和每个平面的混合权重图像W_d，

基于所述网络输出得到多平面图像MPI的RGBA分层表示。

进一步地，用于训练所述MPI学习网络的训练集由元组I₁,I₂,I_t,c₁,c₂,c_t组成，其中I_t和c_t＝(p_t,k_t)分别表示目标真值图像和其对应的相机参数，其中p_t和k_t分别表示针对目标视图的相机外参和内参。

进一步地，基于所述MPI的RGBA分层表示，合成同一场景的输入视图之外的视图，包括：

对每个平面的RGBA图像进行平面变换；

将变换后的图像进行alpha合成，以从后到前的顺序合成视图。

进一步地，训练所述MPI学习网络包括：优化网络参数；

对于所述训练集，通过以下方式优化网络参数：

其中，f_θ(I₁,I₂,c₁,c₂)为学习得到的MPI，R(·)表示渲染流程，所述渲染流程使用学习得到的MPI合成目标相机c_t的新视图，L(·)是合成图像和目标图像之间的损失函数；

使用深度特征匹配损失。

进一步地，使用深度特征匹配损失包括：使用归一化的VGG-19中的特征层进行深度特征匹配损失，匹配如下：

其中，{φ_l}是VGG-19中的一组层，权重超参数{λ_l}设置为每一层中神经元数量的倒数。

进一步地，所述深度平面与MPI的深度平面一致。

进一步地，所述D取32。

进一步地，固定深度平面中最近平面和最远平面分别为1m和100m。

本发明公开了一种基于多平面图像学习视角合成的基线扩展方法，该方法中，用视频剪辑作为训练数据来训练神经网络，以从窄基线立体图像对生成MPI(多平面图像)场景表示。然后，从神经网络得到的多视点图像可以用来合成新的场景视图，即那些超出输入立体图像对基线的视图。该方法能够表示包括遮挡元素在内的几何和纹理，因为使用α通道可以使它们捕捉部分反射或透明的对象并处理软边缘。本发明在扩展窄基线立体图像方面具有良好的应用前景，并能对许多具有挑战性的场景获得准确的推理结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基线外插值结果图；

图2是本发明实施例中一种基于多平面图像学习视角合成的基线扩展实现方法流程图；

图3是本发明实施例中获取立体图像对的示意图；

图4是本发明实施例中基线扩展示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明提出了一种从不规则视频剪辑中合成基线外部视图的方法，该方法首先通过扫描算法将第二幅图像视角投影到第一幅图像，生成平面扫描量。然后，通过深度学习来推断遮挡像素，从而获得真实场景中的MPI表示。最后，MPIs在输入视图基线之外合成新的视图，从而实现基线扩展。本发明中只有两个视图作为输入，这与考虑多个视图的常见视图插值方案不同(如图1所示)，本发明能够通过反射和透明度处理具有挑战性的场景，以及具备渲染被遮挡并因此在任一输入视图中都不可见的像素的能力。

参见图2，其示出了本发明实施例中一种基于多平面图像学习视角合成的基线扩展实现方法，该方法可以从一对输入视图中预测多平面的场景表示，然后再用于合成很多基线外新视图；该方法包括以下步骤：

A、基于视频剪辑临近选取已知参数的立体图像对I₁和I₂。

其中，步骤A可以按照如下方式实现：

A1、基于视频剪辑选取连续十帧视频子序列Seqⁱ。

A2、从Seqⁱ中随机选取立体图像对I₁和I₂。如图3所示，其示出了本发明实施例中选取立体图像对的示意图。

B、将I₂重新投影到第一相机坐标系下的一组D个固定深度平面上获得平面扫描量(plane-sweeping volume，PSV)。

通过平面扫描算法生成的一系列平面扫描量作为我们网络的输入。平面扫描量是一组由I₂视角映射到I₁视角的不同深度下d∈{d₁,d₂,...d_D}的切片V_C∈{P₁,P₂,...P_D}。P_i表示由I₂视角映射到I₁视角的d_i的深度下的平面。将输入图像I₂视角重新投影到目标视角I₁中仅需要基本的纹理映射能力，并且可以在GPU上执行。

C、将

沿着颜色通道级联起来，从而得到H×W×3D的张量

进一步将

和I₁级联起来，以获得网络的输入张量H×W×3(D+1)。

该输入张量为基于深度神经网络的MPI学习网络的网络输入。

为了对来自第二幅输入图像I₂的姿态信息进行编码，计算平面扫描量(PSV)，该平面扫描量将I₂重新投影到一组D个固定深度平面上的参考相机(采集第一幅图像I₁的第一相机)中。优选地，这些深度平面与输出MPI的深度平面一致。这种平面扫描计算会产生一堆重新投影的图像

将它们沿着颜色通道级联起来，从而得到大小为H×W×3D的张量。进一步将I₂与I₁级联起来，以获得网络的输入张量大小为H×W×3(D+1)。PSV表示使网络可以通过简单地将I₁与I₂的每个平面重投影进行比较来推断场景的几何形状-任何给定像素处的场景深度通常位于I₁和重投影的I₂一致的深度平面上。许多算法都遵循此原理，但是在这里，本发明中让网络通过视图综合目标自动学习这种关系，以实现遮挡元素的恢复。

鉴于MPI推理和渲染流程，可以训练基于深度神经网络的MPI学习网络来预测满足目标视图合成的MPI。用于训练该网络的训练集由大量元组I₁,I₂,I_t,c₁,c₂,c_t组成，其中I_t和c_t＝(p_t,k_t)分别表示目标真值图像和其对应的相机参数，其中p_i和k_i分别表示相机外参和内参。进一步地，对于I₁,I₂,I_t,c₁,c₂,c_t元组的训练集，可以通过以下方式优化网络参数：

其中R(·)表示渲染流程，该流程使用学习得到的MPI f_θ(I₁,I₂,c₁,c₂)合成目标相机c_t的新视图，而L(·)是合成图像和目标图像之间的损失函数。

本发明实施例中使用深度特征匹配损失(也称为“感知损失”)，并专门使用归一化的VGG-19中的特征层匹配如下：

其中{φ_l}是VGG-19中的一组层(conv1_2，conv2_2，conv3_2，conv4_2和conv5_2)，而权重超参数{λ_l}设置为每一层中神经元数量的倒数。

D、将输入张量输入训练好的基于深度神经网络的MPI学习网络，得到多平面图像MPI的RGBA分层表示。

最直接的网络输出方法是为每个深度平面生成单独的RGBA图像。彩色图像捕获场景的外观，alpha通道对可见性和透明度进行编码。但是，这种输出被过度参数化，可以用更简单的输出来实现。尤其是，假设场景内的颜色信息只能对两个图像(前景图像和背景图像)正常地建模。其中，前景图像仅是I₁，背景图像通过网络预测，旨在捕捉隐藏的表面的外观表现。因此，RGB图像C_d可以由前景图像I₁和预测背景图像

的每个深度平面的加权平均来算出，公式如下：

其中⊙表示哈达玛积，并且混合权重w_d是由网络预测。直观地理解，由于前景图像在浅景深中占主导地位，因此I₁在浅景深平面中获得高权重，

是为了捕获参考视场角中遮挡的表面像素。请注意，背景图像本身不必是自然的图像。因为网络可以利用alpha和混合的权重灵活地选择其不同深度的不同区域。事实上，某些背景影像中可能有未在新视图中使用过的区域。总而言之，网络的输出包括：1)每个平面的alpha通道α_d。2)全局RGB背景图像

。3)表示每个像素位于前景和背景的混合权重图w_d。如果预测每个深度为W×H的D个深度平面，则输出参数的总数为WH(2D+3)。

E、基于MPI的RGBA分层表示，合成同一场景的输入视图之外的视图。

如图4所示，给定相对于I₂的MPI表示，可以通过对每个平面的RGBA图像进行平面变换，然后将变换后的图像进行alpha合成，从而以从后到前的顺序合成一个新颖的视图。平面变换和alpha合成都是可微的，并且可以轻松地合并到学习流程的其余部分中。

下面对平面变换进行具体说明。本发明中，将每个MPI RGBA平面逆向映射到目标视点上的平面变换。假设要转换的MPI平面的3D点满足n·x+a＝0，其中n表示平面法线，x＝[u_s,v_s,1]^T源图像I₁像素坐标系下的齐次坐标表示，并且a表示平面偏移。由于MPI平面与源图像I₁平面正面平行，因此我们有n＝[0，0，1]和a＝-d_s，其中d_s是MPI平面的深度。从源相机到目标相机的刚性3D变换矩阵映射由3D旋转R和平移t定义，并且源相机和目标相机内参分别表示为k_s和k_t。然后，对于目标MPI平面中的每个像素(u_t,v_t)，我们使用标准逆向单应性映射获得：

因此，可以通过在源图像中查找对应的[u_s,v_s]来获得每个目标像素[u_t,v_t]的颜色值和alpha值。由于[u_s,v_s]可能不是精确的像素坐标，因此本发明实施例中在4网格邻域之间使用双线性插值来获取重采样值。

在将平面变换应用于每个MPI平面之后，本发明实施例中通过使用标准over操作以从后到前的顺序对彩色图像进行alpha合成来获得预测的目标视图。

F、优化

本发明实施例在TensorFlow框架下实现，使用ADAM求解器，学习率为0.0002进行600K次迭代，β₁＝0.9,β₂＝0.999，并且批处理大小1.在训练期间，图像和MPI的空间分辨率为1024×576，但是模型可以是在测试时以全卷积方式应用于任意分辨率。在Tesla P100GPU上的训练大约需要一周。

本发明实施例中的基于多平面图像学习视角合成的基线扩展方法，用视频剪辑作为训练数据来训练神经网络，以从窄基线立体图像对生成MPI场景表示。然后，从神经网络得到的多视点图像可以用来合成新的场景视图，即那些超出输入立体图像对基线的视图。该方法能够表示包括遮挡元素在内的几何和纹理，因为使用α通道可以使它们捕捉部分反射或透明的对象并处理软边缘。本发明在扩展窄基线立体图像方面具有良好的应用前景，并能对许多具有挑战性的场景获得准确的推理结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。