CN114663543A

CN114663543A - 一种基于深度学习和多视图几何的虚拟视图合成方法

Info

Publication number: CN114663543A
Application number: CN202210332808.4A
Authority: CN
Inventors: 张雪涛; 邓旺; 郭宇; 王飞
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-24

Abstract

本发明公开了一种基于深度学习和多视图几何的虚拟视图合成方法，1、选取包含不同场景的视图合成公开数据集，并对场景中的图像做预处理，然后划分训练集、验证集和测试集；2、基于多视图几何，搭建用于虚拟视图合成的神经网络模型，网络最终的输出为图像中任意像素的像素值；3、使用训练集和验证集对虚拟视图合成神经网络模型进行训练，得到虚拟视图合成模型；4、为了合成虚拟视图，对该虚拟视图对应的虚拟视角进行重投影；然后对于投影之后的坐标点，使用虚拟视图合成模型来获取其对应的像素值，将所有坐标点的像素值进行组合，合成得到虚拟视图图像。本发明保证了合成的虚拟视图具有多视图几何一致性，并且可以直接将其应用于未知场景。

Description

一种基于深度学习和多视图几何的虚拟视图合成方法

技术领域

本发明属于计算机视觉和图形学的应用领域，具体涉及一种基于深度学习和多视图几何的虚拟视图合成方法。

背景技术

虚拟视图合成技术是计算机视觉和图像学的一个经典课题，其在现实生活的很多领域都有很广泛的应用。在医学领域，可以通过虚拟视图合成技术，对手术器官进行实时高精度的合成，帮助医生从任意角度观察手术器官，从而对手术器官进行精准的操作；在军事领域，可以通过虚拟视图合成技术合成完整的作战场景，提高应急和战备能力；在体育方面，通过虚拟视图合成技术，可以让观众从任意视角观看比赛，提供更佳的观赛体验；在娱乐方面，虚拟现实VR的主要技术就是虚拟视图合成技术。由于虚拟视图合成技术在许多场景都有不可或缺的作用，因此，探索一种高质量的虚拟视图合成算法具有重要的理论意义和使用价值。

随着深度学习的快速发展，涌现出许多基于深度学习的虚拟视图合成方法，并取得了不错的效果。但是这些方法都有共同的缺点，即需要事先采集大量的源图像几何以及对每个场景单独进行长时间的训练优化。这导致这些方法很难应用在现实场景中，并实现对不同场景进行快速的虚拟视图合成。因此，针对这些缺点，构建高质量且快速的虚拟视图合成网络模型是一个很重要的方向。

发明内容

本发明的目的在于，针对现有算法需要采集大量的源图像以及需要单独对每个场景进行长时间训练优化的缺点，提出了一种基于深度学习和多视图几何的虚拟视图合成方法。本发明通过结合多视图几何，充分利用多视图几何全局和局部信息，构造有效的场景特征，实现高质量且快速的虚拟视图合成。

为了达到上述目的，本发明采用如下技术方案：

一种基于深度学习和多视图几何的虚拟视图合成方法，包括如下步骤：

步骤A：选取包含不同场景的视图合成公开数据集，对数据集中的每个场景，获取其所有图像的相机内外参，然后将数据集划分训练集、验证集和测试集；

步骤B：基于多视图几何，搭建用于虚拟视图合成的虚拟视图合成神经网络模型，网络最终输出为图像中任意像素的像素值；

步骤C：使用步骤A得到的训练集和验证集训练虚拟视图合成神经网络模型，得到适用于不同复杂场景的虚拟视图合成模型；

步骤D：为了合成虚拟视图，首先对该虚拟视图对应的虚拟视角进行反投影，然后将反投影之后的所有坐标点输入到步骤C中得到的虚拟视图合成模型中，得到所有坐标点对应的像素值，将这些像素值进行组合并调整尺寸，即得到合成的虚拟视图图像。

所述步骤B的具体步骤如下：

步骤B01：虚拟视图合成神经网络模型使用特征金字塔网络作为源视角图像的特征提取网络；对M张源视角图像

进行特征提取，在特征金字塔网络的第二层、第五层和第八层分别加上自注意力层，并将对应的输出作为图像的多尺度特征，表示为

其中

和

具有不同的尺寸，相对源视角图像分别进行了1倍、2倍和4倍下采样；

步骤B02：使用平均分组相关性指标，分别在M个源视角下对步骤B01中的图像多尺度特征

进行聚合，得到M个代价立方体

然后，使用三维卷积网络对代价立方体进行卷积，得到M个包含丰富的多视图几何信息的多视图几何编码特征体，记为

其中，三维卷积网络的网络结构包括下采样层和上采样层，网络输出的尺寸和输入的尺寸保持一致；

步骤B03：对于场景三维空间中的任意位置点P，假设其坐标为x_P＝(x,y,z)，对应的相机视角方向为d_P＝(d_x,d_y,d_z)；将点P分别投影到M个源视角对应的相机坐标系和像素坐标系下，得到投影之后的坐标分别为

和

根据投影之后的坐标，首先，通过对源视角图像

进行线性插值，得到多视图聚合颜色特征，记为：

c_P＝concat(I₁(p₁),…,I_M(p_M))

式中，concat表示连接操作；然后，通过对步骤B01中得到图像多尺度特征

以及多视图几何编码特征体

进行线性插值，得到多视图视角相关特征为：

最后，通过对点P在不同视角下的二维和三维特征求取平均值和方差，得到多视图视角无关全局特征为：

f_P＝[mean_2D,var_2D,mean_3D,var_3D]

式中：

式中，mean表示求平均值操作，var表示求方差操作；上述特征是每个场景独有的，即为每个场景都单独进行特征构造；

步骤B04：将步骤B03中获取的关于任意位置P的坐标特征x_P、相机视角特征d_P、多视图聚合颜色特征c_P、多视图视角相关特征f_p ^′和多视图视角无关全局特征f_P进行连接，得到一个输入特征input_P，然后，将其输入到一个多层感知机网络中，网络的输出为点P对应的体密度σ和RGB颜色值c；即(σ,c)＝MLP(input_P)，其中MLP表示多层感知机网络，该网络只有若干全连接层，没有任何卷积层；

步骤B05：为了对图像进行合成，需要合成图像中每一个像素的像素值；对于任意像素，为了渲染出对应的像素值，通过对经过该像素位置的一条射线进行采样，然后使用步骤B04中所述的多层感知机网络来获取每个采样点的体密度和RGB颜色值；最后，使用体渲染技术对射线上采样点的RGB颜色值进行累积，从而得到对应像素的像素值。

所述步骤C的具体步骤如下：

步骤C01：对步骤B中搭建的虚拟视图合成神经网络模型进行训练时，使用L2范数作为网络的损失函数，即损失函数为

其中N表示每次训练选取的像素个数，

表示网络输出的第i个像素对应的像素值预测值，

表示第i个像素对应的像素值真值；

步骤C02：使用经过预处理之后的训练集和验证集，将其输入到搭建的虚拟视图合成神经网络模型中，通过反向传播算法最小化步骤C01中的损失函数，不断优化虚拟视图合成神经网络模型参数，得到最优的虚拟视图合成模型。

步骤A中将数据集划分为80％的训练集、10％的验证集和10％的测试集。

与现有技术相比，本发明具有以下优点：

第一，由于本发明在合成虚拟视图时构造了大量与该虚拟视角相关的特征，所以本发明不需要事先采集大量的源图像，只需要少量的源图像(最少只需要3张)就可以合成高质量的虚拟视图；

第二，由于本发明结合了多视图几何，充分利用了多视图图像特征，所以本发明合成的虚拟视图保持了多视图几何一致性，更加符合人眼视觉感受；

第三，由于本发明为每个场景都构造单独的特征，所以可以同时使用若干场景对模型进行训练。因此本发明可以直接将训练好的模型应用于其他未知场景，而不用对每个场景都单独进行长时间的训练优化，从而实现快速的跨场景虚拟视图合成。

第四，本发明可以很方便的对每个场景进行快速的微调训练，从而进一步提高合成虚拟视图的质量。

附图说明

图1是本发明方法的整体流程图。

图2是本发明搭建的虚拟视图合成神经网络模型架构图。

具体实施方式

下面结合附图详细介绍本发明各步骤中的具体细节。

本发明提出了一种基于深度学习和多视图几何的虚拟视图合成方法，该方法的整个流程如图1所示。

该方法主要包括以下步骤：

步骤A：选取包含不同场景的视图合成公开数据集，对数据集中的每个场景，获取其所有图像的相机内外参，然后将数据集划分训练集、验证集和测试集。

步骤B：基于多视图几何，搭建用于虚拟视图合成的虚拟视图合成神经网络模型，网络最终输出为图像中任意像素的像素值。其中，虚拟视图合成神经网络模型架构如图2所示。

所述步骤B的具体步骤如下：

其中

和

具有不同的尺寸，相对源视角图像分别进行了1倍、2倍和4倍下采样。

进行聚合，得到M个代价立方体

其中，三维卷积网络的网络结构包括下采样层和上采样层，网络输出的尺寸和输入的尺寸保持一致。

和

根据投影之后的坐标，首先，通过对源视角图像

进行线性插值，得到多视图聚合颜色特征，记为：

c_P＝concat(I₁(p₁),…,I_M(p_M))

以及多视图几何编码特征体

进行线性插值，得到多视图视角相关特征为：

f_P＝[mean_2D,var_2D,mean_3D,var_3D]

式中：

式中，mean表示求平均值操作，var表示求方差操作；上述特征是每个场景独有的，即为每个场景都单独进行特征构造。步骤B04：将步骤B03中获取的关于任意位置P的坐标特征x_P、相机视角特征d_P、多视图聚合颜色特征c_P、多视图视角相关特征f′_p和多视图视角无关全局特征f_P进行连接，得到一个输入特征input_P。然后，将其输入到一个多层感知机网络中，网络的输出为点P对应的体密度σ和RGB颜色值c。即(σ,c)＝MLP(input_P)，其中MLP表示多层感知机网络，该网络只有若干全连接层，没有任何卷积层。

步骤B05：为了对图像进行合成，需要合成图像中每一个像素的像素值。对于任意像素，为了渲染出对应的像素值，通过对经过该像素位置的一条射线进行采样，然后使用步骤B04中所述的多层感知机网络来获取每个采样点的体密度和RGB颜色值。最后，使用体渲染技术对射线上采样点的RGB颜色值进行累积，从而得到对应像素的像素值。

步骤C：使用步骤A得到的训练集和验证集训练虚拟视图合成神经网络模型，得到适用于不同复杂场景的虚拟视图合成模型。

所述步骤C的具体步骤如下：

步骤C01：对步骤B中搭建的虚拟视图合成神经网络模型进行训练时，使用L2范数作为网络的损失函数。即损失函数为

其中N表示每次训练选取的像素个数，

表示网络输出的第i个像素对应的像素值预测值，

表示第i个像素对应的像素值真值。

步骤C02：使用经过预处理之后的训练集和验证集，将其输入到搭建的虚拟视图合成神经网络模型中。通过反向传播算法最小化步骤C01中的损失函数，不断优化虚拟视图合成神经网络模型参数，得到最优的虚拟视图合成模型。

步骤D：为了合成虚拟视图，首先对该虚拟视图对应的虚拟视角进行反投影，然后将反投影之后的所有坐标点输入到步骤C中得到的虚拟视图合成模型中，得到所有坐标点对应的像素值，将这些像素值进行组合并调整尺寸，即可得到合成的虚拟视图图像。

在步骤A中得到的训练集上，对目前使用较广泛的虚拟视图合成方法以及本发明的方法进行训练，训练完成后再使用不同测试集对不同的方法进行测试。结果如下表1所示，表中符号↑表示对应数值越大越好，符号↓表示对应数值越小越好。其中，将最好的结果用斜体加粗标注，将第二好的结果用下划线标注。从表1可以看出，本发明方法在不同数据集上，与其他方法相比，各种指标均有一定程度的提升，说明本发明方法的有效性。

表1

。

Claims

1.一种基于深度学习和多视图几何的虚拟视图合成方法，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习和多视图几何的虚拟视图合成方法，其特征在于：所述步骤B的具体步骤如下：

其中

和

进行聚合，得到M个代价立方体

和

根据投影之后的坐标，首先，通过对源视角图像

进行线性插值，得到多视图聚合颜色特征，记为：

c_P＝concat(I₁(p₁),…,I_M(p_M))

以及多视图几何编码特征体

进行线性插值，得到多视图视角相关特征为：

f_P＝[mean_2D,var_2D,mean_3D,var_3D]

式中：

步骤B04：将步骤B03中获取的关于任意位置P的坐标特征x_P、相机视角特征d_P、多视图聚合颜色特征c_P、多视图视角相关特征f′_p和多视图视角无关全局特征f_P进行连接，得到一个输入特征input_P，然后，将其输入到一个多层感知机网络中，网络的输出为点P对应的体密度σ和RGB颜色值c；即(σ,c)＝MLP(input_P)，其中MLP表示多层感知机网络，该网络只有若干全连接层，没有任何卷积层；

3.根据权利要求1所述的一种基于深度学习和多视图几何的虚拟视图合成方法，其特征在于：所述步骤C的具体步骤如下：

其中N表示每次训练选取的像素个数，

表示网络输出的第i个像素对应的像素值预测值，

表示第i个像素对应的像素值真值；

4.根据权利要求1所述的一种基于深度学习和多视图几何的虚拟视图合成方法，其特征在于：步骤A中将数据集划分为80％的训练集、10％的验证集和10％的测试集。