CN112734915A

CN112734915A - 一种基于深度学习的多视角立体视觉三维场景重建方法

Info

Publication number: CN112734915A
Application number: CN202110072362.1A
Authority: CN
Inventors: 孔德慧; 林瑞; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-04-30

Abstract

本发明涉及一种基于深度学习的多视角立体视觉三维场景重建方法，现有的基于深度学习的重建方法，通过提取图像最后一层的特征以生成3D代价体，没有很好地利用浅层特征，这将丢失不同尺度的信息。而且，这些方法在深度图细化时，只考虑了参考图像本身对深度细化的效果，忽略了相邻图像的深度对深度图预测的贡献。为了解决上述问题，我们提出了多尺度特征提取与融合网络以及基于帧间相关性的深度图细化网络，来提升场景的预测精度和完整性。与现有的基于深度学习的方法相比，我们的方法能够更好地学习输入图像的上下文特征，重建出目标场景被遮挡和缺失的区域，能够更完整地恢复场景的三维信息，实现高精度的三维场景重建。

Description

一种基于深度学习的多视角立体视觉三维场景重建方法

技术领域

本发明属于计算机视觉和三维重建领域，研究了一种新的三维重建方法。

背景技术

高精度的三维场景重建对于许多应用至关重要，如城市三维地图、古迹复现、自动驾驶和增强现实等。基于多视角立体视觉的三维重建方法也是计算机视觉的核心研究问题之一。传统的多视角立体匹配重建方法使用主观设计的相似性度量和工程化的正则化(例如归一化互相关和半全局匹配)来计算稠密对应并恢复3D点。虽然这些方法在理想的Lambertian(朗伯)情形下显示出了很好的重建效果，但它们也有一些共同的局限性。例如，场景的低纹理、高光和镜面反射区域等问题的存在使密集匹配变得难以处理，从而导致重建结果不完整。这些缺陷导致传统方法的重建结果质量较低，难以满足实践应用需求，因此，基于视觉的高精度三维重建研究仍面临很多具有挑战性的问题。

近年来，深度学习的快速发展和大量多视角立体匹配数据集的发布，为高精度三维重建方法带来了新思路。目前较为多见的基于深度学习的方法是利用深度图融合，从多视角图像进行三维重建。该方法的基本结构是首先通过深度估计网络生成每一幅图像所对应的深度图，然后再使用传统的深度图融合算法将所有的单幅深度图融合成一个完整的场景点云。基于深度图的学习方法的一个重要步骤是构造一个像素级匹配的置信度或代价卷。其基本思想是先将深度空间进行离散化，即均匀采样多个深度平面，从输入图像集合中选取一幅图像作为参考图像，根据平面扫描算法建立一个平面扫描体素，然后计算在每个采样深度假设下，参考图像中的每个像素与其他相邻图像中对应像素的匹配代价来构建3D代价卷，最后通过CNNs来推断参考图像的深度图。其优点是基于代价卷的方法迫使网络通过立体匹配来学习深度估计，而不只是学习单一的视图线索，有利于泛化。然而，现有的基于深度学习的多视角深度估计方法也存在一些问题：首先，从概念上讲，通过提取图像最后一层的特征以生成3D代价卷，没有很好的利用浅层特征，这将丢失不同尺度的信息以供进一步处理。其次，这些方法在深度图细化时，只考虑了参考图像本身对深度细化的效果，忽略了相邻图像的深度对深度图预测的贡献。

发明内容

为了解决上述这些问题，本发明提出了一种基于深度学习的多视角立体视觉三维场景重建方法，实现多视角图像的三维重建。与现有的基于学习的三维重建方法相比，该方法能够学习到不同尺度的特征，增强基于不同区域的不同信息间上下文信息的聚合，有利于神经网络提取更具有表现力的特征，此外，通过使用帧间相关性度量，能够进一步细化网络预测的初始深度图。

为了能够提高三维重建的精度与质量，本发明提通过多尺度特征提取与融合以及帧间相关性，提升场景的预测精度和完整性。为此，需要解决的关键技术问题包括：利用深度神经网络进行高性能多尺度特征的提取与融合、避免人工设计的多环节误差积累；多视点深度信息融合优化，通过多视点获取的同一场景的图像，一般具有相近的深度，利用相邻图像的深度信息来细化预测的初始深度图。

本发明框架如图2，主要分为三大模块：1)多尺度特征提取与融合；2)匹配代价体的构建与正则化；3)基于帧间相关性的深度图细化。本发明将待估计深度图的图像称为参考图像，其他输入的图像称为源图像，参考图像和任意数量的源图像作为输入图像首先通过多尺度特征提取网络进行特征提取，并借助可微单应性变换将源图像的特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体，然后使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体；接着使用基于方差的度量构建匹配代价体，并使用3D-Unet网络对代价体进行正则化，再使用softArgmin操作生成初始的深度图；最后使用帧相关深度图细化网络对初始深度图进行优化，生成细化后的深度图。我们只在网络的训练阶段使用帧间相关性模块进行深度图细化，测试时不使用。

有益效果

实验表明，本发明提出的方法能够很好的学习图像的上下文特征，实现高精度的三维场景重建。

附图说明

图1、本发明整体流程图；

图2、本发明网络算法框架示意图；

图3多尺度特征提取与融合模块结构示意图；

图4特征提取的网络结构图(MSFNet)；

图5代价体的构建与正则化模块结构示意图；

图6基于帧间相关性的深度图细化模块结构示意图；

图7(a)DTU数据集scan09场景上点云重建效果；

图7(b)DTU数据集scan77场景上点云重建效果；

图7(c)DTU数据集scan114场景上点云重建效果。

具体实施方式

以下将详细介绍本发明的具体过程：

1.多尺度特征提取和融合

该部分主要是提取图像的多尺度特征以及多尺度特征体的聚合。其创新点是提出了多尺度特征体聚合网络，即MFVA-Net(Multi-scale Feature Volume AggregationNet)，该网络能够学习到不同尺度特征体中的上下文信息，增强了神经网络对深度预测的能力，进一步提高三维重建的精度和完整性。

多尺度特征提取和融合部分主要由三个阶段组成：1)多尺度特征提取；2)特征体的构建；3)多尺度特征体的聚合。其框架如图2。

1)多尺度特征提取

网络的输入为N张已知相机参数的RGB图像

将I₁记做参考图像，

记做源图像。多尺度特征提取网络MSFE-Net(Multi-Scale Feature Extractor Net)由12个卷积层组成，每个卷积层后都进行BN批量归一化操作和ReLU操作来加速训练。我们在第6、8、10、12个卷积层处分别提取不同尺度的特征，最终得到通道数都为32的feature_0、feature_1、feature_2、feature_3四个不同尺度的特征图，组成特征金字塔。网络结构图如图3。

2)特征体的构建

相同场景的任何两张图像都可以通过单应性变换来互相映射，相同场景的任何两张图像都可以通过单应性变换来互相映射，我们使用可微单应性变换这一操作将特征提取网路提取的源图像的四个不同尺度的32通道特征图feature_0、feature_1、feature_2、feature_3变换到参考图像的视锥中，得到多尺度下的特征体f^0,0、f^1,0、f^2,0、f^3,0。具体地，我们先将参考图像的视锥体进行离散化，等距离采样D(D＝192)个深度平面，然后通过可微单应性变换操作将源图像的每个通道的特征图分别变换到参考图像视锥体中每个采样深度平面上，组成大小为W·H·D·Fc特征体，其中，W,H,D,Fc分别为输入图像的宽、高、深度采样的数目和特征图的通道数。

其可微单应性变化的公式为：

其中，H_i(d)是从第i个特征图变换到参考图像在深度为d时的单应性变换矩阵，

分别为对应特征图的相机内参，旋转和平移，参考图像对应的单应性变换矩阵为单位阵I，n为参考图像光轴的法向量。

3)多尺度特征体的聚合

接下来，为了学习更多的上下文信息，增强神经网络对图像的深度预测能力，本发明提出了多尺度特征体聚合网络MFVA-Net。其主要思想是首先将特征体构建阶段生成的四种不同尺度的特征体f^0,0、f^1,0、f^2,0、f^3,0分别经过一次卷积得到尺度从大到小表示的特征体金字塔F^3,0、F^2,0、F^1,0、F^0,0；然后我们使用自底向上的方式将四种不同尺度特征体从最小尺度进行卷积和上采样到下一级尺度，然后和同一尺度的相邻特征体进行拼接，直到上采样到与最高尺度的特征体相同尺寸为止，最终得到最大尺度的特征体F^3,3。

我们将F^i,j表示为第i个尺度下的第j个特征体，则F^i,j用公式可以表示为：

其中，H(·)是一个3x3的卷积操作，后面跟一个ReLU激活函数，U(·)表示上采样，C_n表示拼接操作。经过多次卷积、上采样和拼接操作，我们的多尺度特征体聚合网络通过使用多个平行金字塔路径，使网络能够学习到具有强语义信息的精细分辨率特征。

具体地，我们首先对特征体构建中得到的四个不同的特征体f^0,0,f^1,0,f²⁰f^3,0进行一次卷积操作分别得到四个不同的特征体得到F^0,0、F^1,0、F^2,0、F^3,0。将最小尺度的特征体F^0,0进行3x3的卷积，接着用两倍缩放比例的最近邻插值将特征体上采样至更高一级尺度，然后将上采样后的特征体与构建的特征体F^1,0进行拼接得到融合后的特征体F^1,1；紧接着将特征体F^1,0进行3x3卷积并上采样到更高一级尺度，然后与特征体F^2,0进行拼接得到特征体F^2,1，同时，我们将融合得到的特征体F^1,1也进行3x3卷积并上采样到更高一级尺度，并与融合得到的特征体F^2,1进行拼接得到特征体F^2,2；接下来使用与上面相同的方式分别得到最高尺度下的特征体F^3,1、F^3,2、F^3,3。则特征体F^3,3最终融合了多尺度特征体之间的上下文信息。我们的多尺度特征体聚合网络通过使用多个平行金字塔路径，使网络能够学习到具有强语义信息的精细分辨率特征。

经过多尺度特征体融合后，对于每一幅图像都会得到一个32通道的特征体F(F＝F^3,3)，则N张图像最终得到N个32通道的特征体

2.匹配代价体的构建与正则化

为了得到参考图像中每个像素的深度值，我们需要计算参考图像特征与经过单应性变换后的源图像特征的逐像素匹配损失，具体地，我们在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值，在同一个像素点会计算得到D个匹配损失值。我们认为匹配损失最小的平面就是该像素的深度值。

接下来由这N个32通道的特征体构造一个四维的匹配代价体C，其尺寸与一个特征体的尺寸相同，通过基于方差的度量定义四维代价体：

其中

是所有特征体的像素值的平均值。通过使用方差的度量，可以处理任意数量的输入图像。

由图像特征计算出的原始代价体可能受到噪声污染(例如，存在非朗伯面或物体遮挡)，因此应该加入平滑性约束来推断深度图，我们的正则化网络旨在细化构建的代价体C，以生成用于深度估计的概率体P，具体地，我们使用U-Net网络(如图5)进行代价体正则化。它使用编码器-解码器结构以相对较低的内存和计算成本来聚合更大感受野的相邻信息。为了进一步减少计算需求，我们在第一个3D卷积层之后将32通道的代价体减少到8通道，每个尺度下使用两层卷积层，最后的卷积输出一个1通道的代价体，接着，通过softmax操作对采样深度方向上每个深度值计算相应的概率，得到概率体P。最后，我们使用SoftArgmin操作来生成初始深度图，具体地，计算每个像素对应所有深度值的期望，对所有深度假设值进行加权求和：

其中，d_min、d_max分别表示最小和最大深度采样值，d表示采样深度值，p(d)表示每个像素在采样深度为d时的概率。

3.基于帧间相关性的深度图细化

通过上述过程已经得到了初始的深度图，但由于代价体正则化涉及到较大的感受野，最终得到的初始深度中对象的边界可能变得过度平滑。因此，我们使用基于帧间相关性的深度图细化模块(如图6)对初始深度图进行细化。对于参考图像和它的相邻(帧间)图像具有相同的场景，我们假设“具有相同场景的图像，其深度也具有相似性”，由于各近邻图像对初始深度图细化的贡献不同，可以通过设置权重的大小，使得相似度高的深度图贡献大，相似度低的深度图贡献小。

首先，通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数，具体地，我们使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征；然后对于参考图像中的每个特征点，均在源图像中计算并找到与其距离最近和次最近的两个特征点；当最近距离与次距离的比值小于0.6时，认为具有最近距离的特征点是参考图像中特征点的配对点，则这两个特征点成为一个匹配对。当得到所有匹配对的个数N_m时，即可计算其与参考图像中SIFT特征点总数的比值，该值作为参考图像与源图像的相似性分数w_i。公式如下所示：

其中，N_m表示SIFT特征匹配对的个数、N_r表示参考图像中SIFT特征的个数。

然后根据相似性分数对源图像的深度图进行加权求和，得到加权后的深度图，相邻图像的深度图加权公式：

其中，d_i(p)表示像素p源图像中的深度，w_i表示相邻图像的深度的相似性分数。

而且参考图像包含了边界信息，有助于细化深度图的边界，因此，我们将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入，然后经过六个32通道带有组标准化和ReLU的2D卷积层，卷积核大小为3x 3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图，并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。

整体网络训练的损失函数综合考虑了初始深度图和优化后的深度图，并使用L1损失来衡量预测得到的深度图和ground truth深度图之间的差距。其公式为：

其中d(p)表示groundtruth深度图，d_i(p)表示初始的深度图对应的深度值，d_r(p)表示优化后的深度图对应的深度值。

最后，我们将输入的N张图像分别当做参考图像进行深度图预测，得到N张同一场景下的深度图，然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。

本发明使用公开的DTU数据集进行训练和测试。该数据集包含119个场景，由49个精确的相机位置获得，所有图像都是在7个不同的照明条件下拍摄得到。我们将数据集划分为训练集、验证集和测试集，其中训练集包含79个场景(27097个训练样本)，测试集包含22个场景(7546个对象)，其余用于验证。

本发明使用了精度、完整性和Overall来评估三维重建的性能。精度用来衡量重建场景点云到groundtruth点云之间的距离，表示重建点云的质量；完整性用来衡量groundtruth点云到重建点云的距离，表示有多少表面被捕捉到。Overall定义为精度和完整性的均值。三个度量值越小重建效果越好。

本发明做了相关实验，将提出的基于学习的多视角立体视觉三维场景重建方法与经典的传统方法Gipuma和colmap，以及基于学习的方法surfaceNet和MVSNet进行了比较，对比结果如表1、图7(a)-(c)所示：

表1在场景scan09上的评估

Mean：均值

Acc：重建精度(重建的点云到groundtruth点云的距离，单位：mm)

Comp：重建完整性(groundtruth点云到重建点云的距离，单位：mm)

Overall:(Acc+Comp)/2

综上分析，本发明提出的基于深度学习的多视角立体视觉三维场景重建方法优于传统的重建方法和基于深度学习的重建方法，即它能够更好地学习输入图像的多尺度特征，增强了神经网络对深度预测的能力，重建出目标场景被遮挡和缺失的区域，从而能够更完整地恢复场景的三维信息。

Claims

1.一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于包括以下步骤：

步骤1)通过多尺度特征提取网络提取同一场景不同视角下的N张图像的多尺度特征图，其中，任选一张图像称为参考图像，其他输入的图像称为源图像；

步骤2)借助可微单应性变换将源图像的多尺度特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体；

步骤3)使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体，经过多尺度特征体融合后，对于每一幅图像都会得到一个32通道的特征体F(F＝F^3,3)，则N张图像最终得到N个32通道的特征体

步骤4)使用基于方差的度量构建匹配代价体，并使用3D-Unet网络对代价体进行正则化，再使用softArgmin操作生成参考图像的初始深度图；

步骤5)使用帧相关深度图细化网络对初始深度图进行优化，生成细化后的深度图；其中，只在网络的训练阶段使用帧间相关性模块进行深度图细化，实际应用时不使用；

步骤6)将输入的N张图像分别当做参考图像进行深度图预测，得到N张同一场景下的深度图，然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。

2.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于：步骤1)具体如下：

首先使用相机获取同一场景不同视角下的N张RGB图像，记为

并计算每幅图像的相机内外参数；通过多尺度特征提取网络对所有输入图像进行不同尺度的特征提取，并将这些不同尺度的特征组成特征金字塔；其中，所述的多尺度特征提取网络由12个卷积层串联组成，所述的不同尺度特征分别指第6、8、10、12个卷积层处的不同尺度特征，即feature_0、feature_1、feature_2、feature_3。

3.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于步骤2)，具体如下：

首先将参考图像的视锥体进行离散化，等距离采样D(D＝192)个深度平面，然后通过可微单应性变换将源图像的多尺度特征图分别变换到每个采样深度平面上，组成四种不同尺度的特征体f^0,0、f^1,0、f^2,0、f^3,0。

4.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于步骤3)中所述特征体的计算过程具体如下：

首先将特征体构建阶段生成的四种不同尺度的特征体f^0,0、f^1,0、f^2,0、f^3,0分别经过一次卷积得到尺度从大到小表示的特征体金字塔F^3,0、F^2,0、F^1,0、F^0,0；然后使用自底向上的方式将四种不同尺度特征体从最小尺度进行卷积和上采样到下一级尺度，然后和同一尺度的相邻特征体进行拼接，直到上采样到与最高尺度的特征体相同尺寸为止，最终得到最大尺度的特征体F^3,3，其中，将F^i,j表示为第i个尺度下的第j个特征体，则F^i,j用公式可以表示为：

其中，H(·)是一个3x3的卷积操作，后面跟一个ReLU激活函数，U(·)表示上采样，C_n表示拼接操作，经过多次卷积、上采样和拼接操作，多尺度特征体聚合网络通过使用多个平行金字塔路径，学习到具有强语义信息的精细分辨率特征。

5.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于步骤4)具体如下：

首先在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值，在同一个像素点计算得到D个匹配损失值，匹配损失最小的平面就是该像素的深度值；

其中

是所有特征体的像素值的平均值，通过使用方差的度量，可以处理任意数量的输入图像；

然后，使用3D-Unet网络进行代价体正则化，用于细化构建的代价体C，以生成用于深度估计的概率体P；所述的概率体P是由3D-Unet网络中softmax操作对采样深度方向上每个深度值计算相应的概率构成的；

最后，计算每个像素对应所有深度值的期望，对所有深度假设值进行加权求和，得到初始的深度图，具体如下：

6.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于步骤5)中所述帧间相关性模块工作过程如下：

首先，通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数，具体地，使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征；然后对于参考图像中的每个特征点，均在源图像中计算并找到与其距离最近和次最近的两个特征点；当最近距离与次近距离的比值小于阈值时，认为具有最近距离的特征点是参考图像中特征点的配对点，则这两个特征点成为一个匹配对；当得到所有匹配对的个数N_m时，即可计算其与参考图像中SIFT特征点总数N_r的比值，该值作为参考图像与源图像的相似性分数w_i，公式如下所示：

其中，N_m表示SIFT特征匹配对的个数、N_r表示参考图像中SIFT特征的个数；

然后根据相似性分数对源图像的深度图进行加权求和，得到加权后的深度图，源图像的深度图加权公式：

其中，d_i(p)表示像素p源图像中的深度，w_i表示源图像的深度的相似性分数。

而且参考图像包含了边界信息，有助于细化深度图的边界，因此，将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入，然后依次经过六个32通道带有组标准化和ReLU的2D卷积层，卷积核大小为3x3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图，并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。

7.根据权利要求6所述的一种基于深度学习的多视角立体视觉三维场景重建方法，其特征在于整体网络训练的损失函数综合考虑了初始深度图和优化后的深度图，并使用L1损失来衡量预测得到的深度图和ground truth深度图之间的差距，其公式为：