CN114666564A

CN114666564A - 一种基于隐式神经场景表示进行虚拟视点图像合成的方法

Info

Publication number: CN114666564A
Application number: CN202210288938.2A
Authority: CN
Inventors: 霍智勇; 郭权
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-24
Anticipated expiration: 2042-03-23
Also published as: CN114666564B

Abstract

本发明公开了一种在多视图立体跨视图损失的基础上利用隐式神经场景表示进行虚拟视点图像合成的方法，适用于计算机视觉领域。本方法包括：获取需产生虚拟视点的图像数据集；对训练图像数据集进行预处理，在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点提取和匹配；将获得的训练图像数据和所提取特征点信息经处理后输入多层感知器网络中进行训练；将测试图像数据输入训练好的多层感知器网络，后通过体渲染得到测试的渲染图像；基于训练好的多层感知器网络生成虚拟视点图像。由此通过减少神经网络在训练拟合场景表示时的数据量，及结合图像深度信息进行集中采样，能提高神经场景表示的运算速度与性能，生成高质量虚拟视点图像。

Description

一种基于隐式神经场景表示进行虚拟视点图像合成的方法

技术领域

本发明涉及一种在多视图立体跨视图损失的基础上利用隐式神经场景表示来实现虚拟视点图像的合成和漫游的方法，适用于计算机视觉领域。

背景技术

随着科技的发展和生活水平的不断提高，全景视频、交互式视频、自由视点视频等不同于传统二维视频的新视频方式逐渐进入大众的视野。目前所谓的自由视点视频生成方式大多是在场景内设置多台摄像机同时进行拍摄工作，效率较低。并且在一般的环境下，大范围的场景里不可能在任意视点都放置摄像机进行拍摄，因此通过少量的输入视点图像来合成任意位置的虚拟视点图像是图像处理的一个研究热点。

虚拟视点的图像合成是指使用一组给定的输入图像从新的视点来渲染一个场景的问题。目前进行虚拟视点图像合成的主要方法有：基于光场表示、基于多平面场景表示的虚拟视点图像合成技术和基于隐式函数的神经场景表示的虚拟视点图像合成技术。在基于光场表示的虚拟视点图像合成方法中，光场是使用摄像机阵列对场景进行采样，利用全光函数来描述场景中的光场，然后再进行新视点的渲染，其中光场的生成需要密集的摄像机阵列，成本较高，并且所能生成的虚拟视点范围也有限；基于多平面场景表示的虚拟视点图像合成技术则是利用多层平面图像MPI，按照神经网络所估计的图像深度信息对图像进行分层，将该分层表示通过仿射变换到虚拟视点，最后使用α合成来合成虚拟视点的图像，其中MPI只能在窄基线的视点条件下产生虚拟视点，实用性不强，并且如果虚拟视点的很大一部分没有被观测的数据所覆盖，那该方法可能会出现伪影和孔洞；在基于隐式函数的神经场景表示的虚拟视点图像合成技术中，隐式表示是使用网络的权重来存储场景的信息，之后利用体渲染对虚拟视点的图像进行渲染，其在合成效率上明显优于基于光场和MPI的图像合成方法，并且可适应摄像机架设的宽窄基线的情况。但隐式神经场景表示在训练和渲染方面速度很慢，有必要对网络的训练速度加快做进一步地改进。

发明内容

针对上述存在的问题，本发明提供了一种在多视图立体跨视图损失的基础上基于隐式神经场景表示进行虚拟视点图像合成的方法，通过利用多视图之间的特征点匹配关系减少神经网络在训练拟合场景表示时所需要的数据量，同时利用图像的深度信息优化三维空间中的采样点分布，从而加快网络的训练速度，生成高质量的虚拟视点图像。

本发明为解决上述技术问题采用的技术方案如下：

一种基于隐式神经场景表示进行虚拟视点图像合成的方法，包括如下步骤：

步骤1：获取需要产生虚拟视点的训练图像数据集和测试图像数据集；

步骤2：利用colmap工具将步骤1中得到的训练图像数据集进行预处理，在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点的提取和匹配；

步骤3：将步骤1获得的训练图像数据和步骤2所提取的特征点信息经过处理后输入多层感知器网络中进行训练，并通过体渲染计算训练图像数据的渲染颜色值；

步骤4：将测试图像数据输入训练好的多层感知器网络，得到网络的输出值后，通过体渲染得到测试的渲染图像；

步骤5：基于训练好的多层感知器网络生成虚拟视点的图像。

进一步的，步骤1所述训练图像数据集为摄像机拍摄的大型场景数据集或只拥有单一对象的场景；所述测试图像数据集是不参与网络训练的一部分训练图像数据集，用于对训练完成的网络进行测试。为实现隐式的神经场景表示，承担表示结构的神经网络需要多次训练来迭代，并且需要针对不同的场景来实现虚拟视点图像的合成。

进一步的，步骤2中所述预处理操作是指通过Colmap工具从输入的训练图像数据集中计算每张图像对应的摄像机的内外参数以及场景的最大、最小边界；基于特征匹配算法Sift提取图像之间的特征点，同时Colmap工具将计算场景的稀疏点云，上述基于特征匹配算法Sift所提取的图像之间的特征点对应于稀疏点云中的点。

进一步的，所述步骤2还包括利用MiDas深度估计算法估计每张训练图像对应的深度值。

进一步的，所述步骤3中对所获取的训练图像数据和提取的特征点信息的处理过程具体如下：

步骤3-1：计算从摄像机位置向二维成像平面投射到三维空间的射线；

步骤3-2：结合深度估计值在步骤3-1所获取的射线上进行集中采样来获取多层感知器网络的输入值。通过结合已处理好的数据集中的深度信息，可将采样点集中于场景中对象的表面附近，减少对空的空间中的采样点数量；

步骤3-3：对已获取的多层感知器网络的输入值进行位置编码，然后将编码后的采样点和深度值连接后送入多层感知器中进行学习；同时射线的方向向量d也需要进行位置编码。

步骤3中所述多层感知器包括两部分的全连接层，每部分包含四层全连接层，每个连接层包括256个通道和一个ReLU激活函数；当数据送入多层感知器经过四层的全连接层后，然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层，最终多层感知器的输出值与编码完的方向向量连接，最后输出一维的体积密度σ；所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层后，输出颜色值c。

所述步骤4中体渲染的公式如下：

其中

其中c表示每个采样点的颜色值，σ表示每个采样点的体积密度值，t_n和t_f分别表示射线上采样的最近点和最远点，r(t)表示射线，d表示射线的方向向量，T(t)表示所有采样点累积的透射率，即采样点的权重值。

进一步的，利用MSE损失来计算相邻图像的特征点之间的颜色均方误差：

其中

与

分别为第i张图和第i+1张图的特征点经过网络后再进行体渲染的颜色值；

除了图像的特征点匹配之外，还需要对图像中原有的像素点计算MSE损失，将采样的像素点经过计算射线采样以及位置编码后送入多层感知器，经过体渲染后得到的颜色值与真实颜色值之间计算均方误差：

其中C(r)为采样点的真实颜色值。

因此，最终的损失函数为

其中特征点损失函数相对于真实颜色损失函数的权重为0.1。

一种运行上述基于隐式神经场景表示进行虚拟视点图像合成方法的装置，包括：

图像获取模块，用于获取需要产生虚拟视点的训练图像数据集；

预处理模块，用于进行特征点的提取和匹配以及计算摄像机参数；

继续处理模块，用于获取多层感知器网络的输入值；

训练模块，用于利用渲染图像得到的颜色值训练多层感知器网络；

虚拟视点合成模块，用于通过训练好的多层感知器网络生成指定虚拟视点的图像。

本发明的技术方案能产生以下的技术效果：

本发明通过利用多视图之间的特征点匹配关系减少神经网络在训练拟合场景表示时所需要的数据量，以及结合图像的深度信息进行集中采样的方法，可以优化三维空间采样点的分布，达到提高神经场景表示的运算速度与性能的目的；通过利用位置编码对采样点的深度信息进行高维映射，可以合成已有视点间的任意位置的虚拟视点的高质量图像；同时本发明提供的多图像对的特征点损失函数，能有效的对网络进行监督学习。

附图说明

图1为本发明的基于隐式神经场景表示进行虚拟视点图像合成方法示意图；

图2为本发明实施的多层感知器网络结构的框图；

图3为本发明的依据图像的深度进行射线采样的采样点分布示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及对应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例中，基于隐式神经场景表示进行虚拟视点图像合成的方法包括如下步骤：

S1、获取用作训练图像和测试图像的数据集。

本例中数据集包括摄像机拍摄的大型场景数据集，该大型场景数据集需拍摄30张左右的图像以满足构建神经场景表示的需求，拍摄视觉需覆盖场景各个角落；对摄像机的拍摄轨迹形式不限，包括线形，弧形、方形、圆形、椭圆形，蝶形等，优先考虑相机处于同一水平线。

本例中数据集还可包括只拥有单一对象的场景，该场景拍摄的图像需处于同一集线水平，需要摄像15张左右的图像以满足构建神经场景表示的需求。

测试图像的获取则是从训练图像数据集中，每隔8张抽取一张图像作为测试图像，组成测试图像数据集。

S2、利用Colmap工具将S1中得到的训练图像数据集进行预处理，在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点的提取和匹配。

本实施例通过Colmap工具从输入的数据集中计算每张图像对应的摄像机的内外参数以及场景的最大和最小边界，摄像机外参包括摄像机的旋转矩阵和平移向量，内参包括摄像机的焦距以及成像平面的主点。基于特征匹配算法Sift提取图像之间的特征点，同时Colmap会计算场景的稀疏点云，所述基于特征匹配算法Sift提取的图像之间的特征点对应于上述稀疏点云中的点，因此本实施例在预处理阶段需要计算每张图像与旁边图像的共同特征点，通过其在点云中的共同映射来查找并存储特征点的像素坐标。

另外地，在对训练图像数据集进行预处理阶段，使用MiDaS深度估计的Transformer网络方法提取每张输入图像的深度信息，即每张图像对应的深度图。

S3、处理所获取的训练图像数据和已提取的特征点信息后，将其输入到多层感知器网络中进行训练，并通过体渲染计算训练图像数据的渲染颜色值。

其中，对所述所获取的训练图像数据和已提取的特征点信息的处理过程如下：

S3-1、计算从摄像机位置向二维成像平面投射到三维空间的射线。

随机选择输入数据集中的一张图像，从该图像随机采样1024个像素点(包括512个特征点和512个随机采样的像素点)，利用空间仿射变换将二维平面的像素点进行空间映射到三维空间，映射的过程是像素坐标(u,v)到相机空间坐标系(X_c,Y_c,Z_c)，再由相机坐标系经过3D旋转和平移转换到世界坐标系(X_w,Y_w,Z_w)，该坐标即为射线的方向向量ray_d，摄像机位置即摄像机外参中的平移向量则为射线的起始点ray_o:

式中，C为摄像机的内参矩阵，R为外参矩阵，(T_x,T_y,T_z)为摄像机的平移向量，f_x和f_y为摄像机的焦距。

S3-2、结合步骤S2获取的深度估计值在步骤S3-1所获取的射线上进行集中采样以获取多层感知器网络的输入值。

获取步骤S3-1中所述1024个像素点所对应的深度值dep，将其归一化到区间[0,1]，对于每一个像素点的深度值，利用高斯分布函数，以dep为均值，取0.1～0.5为方差，计算基于像素点深度值的高斯分布函数，定义如下：

N(μ,σ²)＝N(dep,σ²)

在高斯分布函数中取128个值，得到每个值的分布概率，计算128个值的概率分布函数pdf，通过pdf计算其累积分布函数CDF，再通过CDF在[0,1]区间内采样128个一维点zvals，此时的128个采样点的分布趋近于像素点的深度值，如图3所示。以ray_o为起点，ray_d为方向向量，将上述的128个一维点zvals带入，以点向式的方法计算每个像素点对应的射线上的128个三维采样点，定义如下：

p＝ray_o+ray_d*zvals

S3-3、对获取的三维采样点和一维的深度信息进行位置编码，然后将编码后的采样点和深度值连接后送入多层感知器中进行学习。

所述位置编码的定义如下：

γ(p)＝[sin(2⁰p),cos(2⁰p),…,sin(2^L-1p),cos(2^L-1p)]^T

其中L为编码的到高维空间的维数；编码后的采样点和深度值分别为γ(p)，γ(dep)，然后将其连接后送入多层感知器中进行学习，同时射线的方向向量也需要进行位置编码，即γ(d)。

本实施例中多层感知器网络的网络结构如图2所示，包括两部分的全连接层，每部分包含四层全连接层，每个连接层包括256个通道和一个ReLU激活函数；多层感知器网络的输入经过四层的全连接层后，然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层，最终多层感知器的输出值与编码完的方向向量连接，最后输出一维的体积密度σ；所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层后，输出颜色值c。

本实施例中利用体渲染来对射线上采样点的颜色值和体积密度进行积分，以计算每条射线上的最终颜色值。

本实施例中所述体渲染的公式如下：

其中

式中c表示每个采样点的颜色值，σ表示每个采样点的体积密度值，t_n和t_f分别表示射线上采样的最近点和最远点，r(t)表示射线，d表示射线的方向向量，T(t)表示所有采样点累积的透射率，即采样点的权重值。

本实施例提出的在基于多视图立体的跨视图特征点匹配损失，利用了图像之间匹配的特征点在空间中对应的相同点的特性，将相邻图像的特征点经过射线采样以及位置编码后送入多层感知器，最终经过体渲染所得到的颜色值相同，利用MSE损失来计算两幅图像的特征点之间的颜色均方误差：

式中

与

除了图像的特征点匹配之外，还需要对图像中原有的像素点计算MSE损失，将采样的像素点经过计算射线采样以及位置编码后送入多层感知器，经过体渲染后得到的颜色值，与真实颜色值之间计算均方误差：

式中C(r)为采样点的真实颜色值。

最终的loss为

与

的和：

其中特征点损失函数相对于真实颜色损失函数的权重为0.1。

S4、将测试图像数据集输入训练好的多层感知器网络，得到网络的输出值后，通过体渲染得到测试的渲染图像。

S5、基于训练好的多层感知器网络生成虚拟视点的图像。

首先在已有视点的基础上，利用摄像机的内外参数，计算视点之间的虚拟视点的摄像机参数。然后将虚拟视点位置图的图像的所有像素点计算其对应的射线，并在射线上进行采样，将采样点经过位置编码后送入网络，得到每个采样点的颜色值和体积密度。最后利用体渲染方法来渲染每条射线的最终颜色，即每个像素点的颜色，也就得到虚拟视点位置的最终图像。

本实施例还提供一种基于隐式神经场景表示进行虚拟视点图像合成的装置，包括图像获取模块、预处理模块、继续处理模块、训练模块和虚拟视点合成模块。

其中图像获取模块用于获取需要产生虚拟视点的训练图像数据集；预处理模块用于进行特征点的提取和匹配以及计算摄像机参数；继续处理模块用于获取多层感知器网络的输入值；训练模块用于利用渲染图像得到的颜色值训练多层感知器网络；虚拟视点合成模块用于通过训练好的多层感知器网络生成指定虚拟视点的图像。

综上，本发明提出了一种在多视图立体跨视图损失的基础上利用隐式神经场景表示来实现虚拟视点图像的合成和漫游的方法，以稀疏的输入视点图像进行虚拟视点图像合成为目标，利用图像之间的特征点匹配以及图像的深度信息，经过隐式的神经场景表示来对场景内容进行拟合，本发明提出的视图损失函数能有效的对网络进行监督学习，并且在虚拟视点图像的合成效率以及结构大小上要明显优于传统的网格模型、点云等显示场景表示。

上述仅为本发明的优选实施例，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，包括如下步骤：

步骤5：基于训练好的多层感知器网络生成虚拟视点的图像。

2.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，步骤1所述训练图像数据集为摄像机拍摄的大型场景数据集或只拥有单一对象的场景。

3.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，步骤2中所述预处理操作是指通过Colmap工具从输入的训练图像数据集中计算每张图像对应的摄像机的内外参数以及场景的最大、最小边界；同时Colmap工具将计算场景的稀疏点云，基于特征匹配算法Sift提取图像之间的特征点，该特征点对应于稀疏点云中的点。

4.根据权利要求3所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，所述步骤2还包括利用MiDas深度估计算法估计每张训练图像对应的深度值。

5.根据权利要求4所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，步骤3中所述对已获取的训练图像数据和提取的特征点信息的具体处理过程如下：

步骤3-2：结合步骤2所获取的深度估计值在步骤3-1所获取的射线上进行集中采样来获取多层感知器网络的输入值；

步骤3-3：对已获取的多层感知器网络的输入值进行位置编码，然后将编码后的采样点和深度值连接后送入多层感知器中进行学习；同时射线的方向向量d也需进行位置编码。

6.根据权利要求1-5任一项所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，步骤3中所述多层感知器包括两部分的全连接层，每部分包含四层全连接层，每个连接层包括256个通道和一个ReLU激活函数；当数据送入多层感知器经过四层的全连接层后，然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层，最终多层感知器的输出值与编码完的方向向量连接，最后输出一维的体积密度σ；所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层，输出颜色值c。

7.根据权利要求6所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法，其特征在于，所述体渲染的公式如下：