CN111127538A

CN111127538A - 一种基于卷积循环编码-解码结构的多视影像三维重建方法

Info

Publication number: CN111127538A
Application number: CN201911301740.8A
Authority: CN
Inventors: 季顺平; 刘瑾
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-08
Anticipated expiration: 2039-12-17
Also published as: CN111127538B

Abstract

本发明公开了一种基于卷积循环编码‑解码结构的多视影像三维重建方法，包括如下步骤：构建用于训练网络的多视航空影像数据库，数据库中包括多视航空影像、影像对应的内外方位元素，以及每张影像对应的真实深度图；构建多视密集匹配网络RED‑Net，利用步骤1构建的训练数据库训练网络，学习影像匹配中的底层特征；利用训练完成后的网络对多视航空影像进行预测，得到参考影像视角下的预测深度图；根据提供的相机的内参和位置姿态参数，结合预测的深度图，将影像中的每个像素点反投影至三维物方空间，得到点云构成的三维模型。本发明具有如下优点：可用于从多视影像到深度图的端到端的密集匹配；可用于大尺度影像的匹配；可迁移性强、精度好、效率高。

Description

一种基于卷积循环编码-解码结构的多视影像三维重建方法

技术领域

本发明涉及一种用于多视航空遥感影像的多视密集匹配的深度学习方法，可实现基于遥感影像的地形地物三维重建。

背景技术

从立体或多视航空航天遥感影像重建地面三维场景一直是摄影测量与遥感中的核心问题。从遥感影像中获取高精度的三维地形信息的一个核心关键问题是影像的密集匹配。密集匹配是一种由计算机代替人眼进行立体观察，自动获取影像中同名像点的视差值或深度值的过程。是由二维图像到三维场景转换过程中不可或缺的一部分。传统的多视密集匹配方法多是基于影像间的几何关系，通过复杂的几何运算得到，计算量大。例如基于面片的全局匹配算法是在全局范围内执行最优化，其计算量大，运行所需时间过长，对资源的消耗多，不适合实时的匹配操作。目前由多视航空影像进行大尺度、高精度的地表三维重建主要通过商用软件SURE、Smart3D等完成，这些软件均基于传统的密集匹配方法。

近年来逐渐发展并应用在各个方面的深度学习方法，节省了大量的时间消耗和人工特征提取的工作，引起了广泛的研究。一些基于深度学习的密集匹配方法如LSM、DeepMVS、MVSNet等被陆续提出。然而这些方法具有很大局限性，只能处理较小的影像或较小的深度范围，使得这些方法只能进行一些实验室内近景物体的重建，并不适合大尺度大范围(如城市级)地形表面的重建。因此针对多视航空遥感影像的快速、自动、高分辨率的多视密集匹配方法的研究至关重要。

发明内容

本发明针对现有技术的不足，提供了一种适合于大尺度高分辨率遥感影像多视匹配的深度神经网络。以多张不同视角下的遥感影像和相机参数作为输入，以深度图作为训练标签，得到神经元网络模型。利用该模型，输入新的多视影像时，可估计影像上每个点对应的深度和空间三维坐标，从而恢复三维场景。该网络可以使用模拟的多视匹配数据集进行自我训练，解决了缺乏与真实影像对应的完整且可靠的地面深度真值作为训练数据的问题。实现本发明目的采用的技术方案是，一种基于卷积循环编码-解码结构的多视影像三维重建方法，包括如下步骤：

步骤1，构建用于训练网络的多视航空影像数据库，数据库中包括多视航空影像、影像对应的内外方位元素，以及每张影像对应的真实深度图；

步骤2，构建多视密集匹配网络RED-Net，利用步骤1构建的数据库训练网络，学习影像匹配中的底层特征；

所述多视密集匹配网络RED-Net包括：特征检测部分，构建代价图部分，循环编码-解码规则化部分，计算损失函数值部分共四个部分；其中特征检测部分用于利用卷积神经网络分支提取遥感影像二维层面的特征，获得特征图；代价图构建部分用于将特征图投影至三维空间的特定深度平面上，将不同视角下的特征图融合为代价图；循环编码-解码规则化部分由循环编码-解码结构组成，包括4个卷积层和4个上卷积层，以及4个门控循环单元，用于对代价图进行规则化处理；计算损失函数值部分采用交叉熵损失值，当交叉熵损失值收敛时，网络模型训练完成；

步骤3，利用训练好的网络模型对真实的多视航空影像进行预测，得到参考影像视角下的预测深度图；

步骤4，根据提供的相机的内参和位置姿态参数，结合预测的深度图，利用已有的共线条件方程将影像中的每个像素点反投影至三维物方空间，得到点云构成的三维模型。

进一步的，步骤1的具体实现包括如下子步骤，

步骤1.1，选取多视影像数据；以一张航空影像为参考影像，与其航向相邻与旁向相邻的上下左右四张影像为源影像，这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元，真实深度图由激光扫描获得，或利用高精度的地表三维模型通过虚拟投影的方式生成虚拟影像和对应的深度图；

步骤1.2，训练样本分割；在一组五视数据单元影像所共有的重叠区域内，将五张影像分别裁剪为M*N的样本数据，并用同样的方式将对应的深度图裁剪为同样大小的样本作为训练真值；

步骤1.3，构建训练样本库；选取一组裁剪为M*N像素大小的五视数据切片，与对应的五视切片深度图和相机参数文件构成一组五视训练样本，将多组多视航空影像数据分别裁剪为多组数据切片，构成训练样本库。

进一步的，所述特征检测部分对于N张输入影像设置了N个2D卷积神经元网络分支，每一分支包括5个卷积层，通道数分别为8,8,16,16,16；其中前四层均由卷积层和修正线性单元ReLU构成，第五层仅由卷积层构成；前两层的卷积核大小为3×3，卷积步长为1.第三层的卷积核大小为5×5，卷积步长为2，后两层的卷积核大小为3×3，步长为1，每个网络分支之间共享权重，最终特征检测部分对每一张输入影像得到16个通道的特征图，特征图的宽和高分别为输入原始影像的1/2。

进一步的，所述构建代价图部分输入为特征检测部分得到的N组16通道的特征图，利用差分形式的平面扫描法将一组2D特征图反投影至参考影像视角下的3D空间中某个特定深度的平面上，采用方差运算将同一个深度位置的多个视角下的特征图融合为一张代价图，将深度范围以一定的间隔采样为D个深度层，得到D个代价图。

进一步的，所述循环编码-解码规则化部分包括卷积编码部分、卷积解码部分以及循环门控单元，其中卷积编码部分由四个卷积层组成，每个卷积层后紧接着一个修正线性单元，卷积核大小均为3×3，第一层步长为1，后三层的步长为2，特征通道数分别为8,16,32,64；解码部分由四个上卷积层组成，除最后一层外，每个上卷积层后紧接着一个修正线性单元，四个卷积层的卷积核大小均为3×3，步长为2，特征通道数分别为32,16,8,1；

卷积编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化，其中，第4个卷积层产生的特征图在卷积门控循环单元规则化后通过解码部分第1个上卷积层进行上采样，第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后，分别与解码部分第3,2,1个上卷积层产生的特征图相加，相加后的特征图作为下一个上卷积层的输入，通过解码部分后，得到通道数为1、上采样为原始影像大小的特征图；

其中4个尺度上的卷积门控循环单元共包括4个状态转换参量，记录当前时刻的代价图的信息并作为初值传递给下一时刻输入代价图的状态参量，用于记录代价图在深度方向上的上下文信息。

进一步的，所述计算损失函数值部分将每个深度层面上规则化后的代价图堆叠为一个代价体，然后在深度方向上应用softmax函数将代价体转换为概率体，概率体中的每个值表示当前像素点在当前深度层D_i上的概率值；真实深度值通过独热编码后变成与上述概率体同样大小的二分体；计算上述二分体和概率体之间的交叉熵损失值，利用该损失值指导网络的训练，直到训练该损失值不再下降，网络模型达到最优。

进一步的，步骤3的具体实现方式如下，

利用训练好的网络模型对一组多视航空影像进行预测，输入为一组多视航空影像和对应的每张影像的相机参数，输出为对应于参考影像的、由softmax转换而得的概率体，在概率体上沿深度方向上采用赢者通吃策略，获得每个像素点对应的深度估计值。

本发明具有如下优点：

(1)提出了一个基于卷积神经元和循环编码-解码结构的多视密集匹配模型，用于从多视影像到深度图的端到端的密集匹配，而无需核线重采样等预处理步骤。

(2)多尺度循环编码-解码结构使得密集匹配网络在预测深度图时不受深度采样数量的限制，可以进行基于航空影像的大尺度场景的重建。

(3)可迁移性强，在虚拟样本数据上训练的模型，无需重训练也能在真实航空影像上得到很好的匹配结果。

(4)重建效率高。由提出的密集匹配网络模型进行三维重建，在相同大小的场景下，比商业软件SURE快16倍，比开源软件COLMAP快65倍。

附图说明

图1是本发明的整体流程图。

图2是本发明的多视密集匹配网络RED-Net结构示意图。

图3是本发明实施例的RED-Net和其他方法及软件得到的深度结果对比图。

图4是本发明实施例的大尺度场景的点云重建结果示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

本发明提供的一种基于卷积循环编码-解码结构的多视影像三维重建方法，包括如下步骤：

步骤1，构建用于训练网络的多视航空影像数据库，数据库中包括多视航空影像、影像对应的内外方位元素，以及每张影像对应的真实深度图。如有数据库，该步骤可省略。

步骤2，构建多视密集匹配网络RED-Net，利用步骤1构建的多视航空影像数据库训练网络，训练RED-Net模型。

步骤3，利用训练好的网络对一组多视航空影像数据进行预测，得到参考影像视角下的预测深度图。

进一步地，步骤1的具体实现包括如下子步骤：

步骤1.1，选取多视影像数据；以一张航空影像为参考影像，与其航向相邻与旁向相邻的上下左右四张影像为源影像，这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元，真实深度图可由激光扫描获得，或利用高精度的地表三维模型通过虚拟投影的方式生成虚拟影像和对应的深度图。

步骤1.2，训练样本分割；在一组五视数据单元影像所共有的重叠区域内将五张影像分别裁剪为一定大小的样本数据(768×384像素)，并用同样的方式将对应的深度图裁剪为同样大小的样本作为训练真值。

步骤1.3，构建训练样本库；选取一组裁剪为768×384像素大小的五视数据切片，与对应的五视切片深度图和相机参数文件构成一组五视训练样本，将多组多视航空影像数据分别裁剪为多组数据切片，构成训练样本库。

进一步地，步骤2中所述的多视密集匹配网络RED-Net包括：

特征检测部分(Feature Extraction)，构建代价图部分(Cost Maps)，循环编码-解码规则化(Recurrent Encoder-Decoder Regularization)，计算损失函数值(Loss)共四个部分。其中特征检测部分对每张输入影像分别有一个卷积神经网络分支用于提取二维层面的特征；代价图构建部分将特征图投影至三维空间的特定深度平面上，并通过方差算子(Variance Operation)将不同视角下的特征图融合为代价图；循环编码-解码规则化部分由循环编码-解码结构(Recurrent Encoder-Decoder Structure)组成，包括4个卷积层(Convolution Layer)和4个上卷积层(Upconvolution Layer)，以及4个门控循环单元(Gated Recurrent Unit)。

上述的特征检测部分对于N张输入影像设置了N个2D卷积神经元网络分支，每一分支包括5个卷积层，通道数分别为8,8,16,16,16。其中前四层均由卷积层和修正线性单元(Rectified Linear Unit,ReLU)构成，第五层仅由卷积层构成。前两层的卷积核大小为3×3，卷积步长为1.第三层的卷积核大小为5×5，卷积步长为2.后两层的卷积核大小为3×3，步长为1.每个网络分支之间共享权重(Shared Weight)，最终特征检测部分对每一张输入影像得到16个通道的特征图，特征图的宽和高分别为输入原始影像的1/2.

上述的构建代价体部分输入为特征检测部分得到的N组16通道的特征图。利用差分形式的平面扫描法(Differentiable Plane Sweep Method)将一组2D特征图反投影至参考影像视角下的3D空间中某个特定深度的平面上，采用方差运算将同一个深度位置的多个视角下的特征图融合为一张代价图。将深度范围以一定的间隔采样为D+1个深度层，可得到D+1个代价图。

上述的循环编码-解码规则化部分包括卷积编码部分、卷积解码部分以及循环门控单元。其中卷积编码部分由四个卷积层组成，每个卷积层后紧接着一个修正线性单元，卷积核大小均为3×3，第一层步长为1，后三层的步长为2，特征通道数分别为8,16,32,64。解码部分由四个上卷积层组成，除最后一层外，每个上卷积层后紧接着一个修正线性单元，四个卷积层的卷积核大小均为3×3，步长为2，特征通道数分别为32,16,8,1。

上述编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化。其中，第4个卷积层产生的特征图在卷积门控循环单元规则化后通过解码部分第1个上卷积层进行上采样，第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后，分别与解码部分第3,2,1个上卷积层产生的特征图相加，相加后的特征图作为下一个上卷积层的输入。通过解码部分后，得到通道数为1，上采样为原始影像大小的特征图。

上述四个尺度上的卷积门控循环单元共包括四个状态转换参量，记录当前时刻的代价图的信息并作为初值传递给下一时刻输入代价图的状态参量，用于记录代价图在深度方向上的上下文信息。

上述计算损失函数值部分将每个深度层面上规则化后的代价图堆叠为一个代价体(Cost Volume)，然后在深度方向上应用softmax函数将代价体转换为概率体，概率体中的每个值表示当前像素点在当前深度层D_i上的概率值。真实深度值通过独热(one-hot)编码后变成与上述概率体同样大小的二分体(Binary Occupancy Volume)。计算上述二分体和概率体之间的交叉熵损失值，利用损失值指导网络的训练，直到训练损失不再下降，模型达到最优。

进一步地，步骤3的具体实现方式如下：利用步骤1构建的数据库训练步骤2构建的网络模型，利用训练好的模型对一组多视航空影像进行预测，输入为一组多视航空影像和对应的每张影像的相机参数，输出为对应于参考影像的、由softmax转换而得的概率体。在概率体上沿深度方向上采用赢者通吃(Winner-take-all)策略，获得每个像素点对应的深度估计值。

进一步地，步骤4的具体实现方式如下：根据步骤3的深度估计值和已知的参考影像的相机参数，将参考影像上每个像素点利用共线条件方程反投影至三维物方空间，得到点云构成的三维模型。

实施例：

为了训练深度学习网络，首先需要获取训练样本数据。为了确保训练样本的可靠性，我们使用已有的虚拟多视航空影像(WHU数据集)作为训练样本，对应的深度图作为训练真值。

选取其中一张影像作为参考影像，与其航向相邻与旁向相邻的周围四张影像作为搜索影像，这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元。将一组五视数据单元的所有影像共有的重叠区域分别裁剪为768×384像素大小的样本。这样一组五视数据切片与对应的深度图切片和相机参数文件构成一组五视训练样本。将多组多视航空数据分别裁剪多组数据切片，构成五视数据样本库。其中3/4的数据用作训练样本，1/4的数据用作测试样本。五视样本集表示为WHU-5，选取其中在同一条航带上的三视数据作为三视样本集，表示为WHU-3。

构建多视密集匹配网络RED-Net，附图2为多视密集匹配网络模型的结构示意图。以三视样本集为例，网络训练的输入为三张不同视角下的影像和对应的相机参数、真实深度图。输入影像首先分别通过3个2D卷积神经元网络分支(包括5个卷积层)进行特征检测，得到3组具有16个通道、大小为输入影像1/2的特征图。利用差分形式的平面扫描法将搜索影像对应的特征图反投影至参考影像视角下的特定深度平面上，采用方差运算将同一个深度位置的特征图融合为一张代价图C_i，在D+1个深度层上可得到D+1个代价图。

每一个代价图C_i顺次通过循环编码-解码部分RED_i进行规则化得到C_ir。在规则化模块里，代价图通过多个卷积层和上卷积层进行编码-解码。在编码阶段，首先通过一个步长为1、卷积核大小为3×3的卷积层和修正线性单元(ReLU)进行编码，随后通过3个步长为2、卷积核大小为3×3的卷积层进行下采样，通道数加倍。在解码阶段，特征图通过4个连续的上卷积层进行上采样，除最后一层外，每个上卷积层将特征图的通道数减半，并附加一个修正线性单元。

上述编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化。其中，第4个卷积层产生的特征图在规则化后通过解码部分第1个上卷积层进行上采样，第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后，分别与解码部分第3,2,1个上卷积层产生的特征图相加，相加后的特征图作为下一个上卷积层的输入。通过解码部分后，得到通道数为1、上采样为原始影像大小的特征图。

每一个卷积门控循环单元产生一个状态转换参量

记录当前输入的代价图信息。四个状态转换参量State_i ^{1,2,3,4}将作为初值参与下一个代价图的规则化过程。

将所有规则化后的代价图堆叠为一个代价体，然后在深度方向上应用softmax函数将代价体转换为概率体，概率体中的每个值表示当前像素点在当前深度层D_i上的概率值。真实深度值通过独热(one-hot)编码后变成与上述概率体同样大小的二分体(BinaryOccupancy Volume)。计算上述二分体和概率体之间的交叉熵损失值，利用损失值指导网络的训练，直到训练损失不再下降，模型达到最优。

模型训练完成后，将一组多视影像和对应的相机参数作为网络输入，利用训练好的模型预测参考影像，网络输出为对应于参考影像的、由softmax转换而得的概率体。在概率体上沿深度方向采用赢者通吃(Winner-take-all)策略，获得每个像素点对应的深度估计值，由每个像素点的深度值构成一幅深度估计图。

我们选择训练集和测试集的数据量比例为3:1，在测试集上验证模型的精度，并与基于传统方法的开源软件COLMAP、商业软件SURE和其他基于深度学习的密集匹配方法MVSNet、R-MVSNet进行比较。其中COLMAP和SURE软件的输入为93张5376×5376大小的图像，输出为深度图或密集点云。深度学习方法的训练时的输入为上述虚拟训练集，包括758×384大小的共3600组五视单元，影像数量为(N＝3或N＝5)，深度采样数量D＝200，测试时固定深度间隔为0.15m，深度采样数量可变。表1是五种方法的定量评价结果，评价标准为平均绝对误差(Mean Absolute Error，MAE)；L1误差小于0.6m的像素百分比(<0.6m)；小于三个采样间隔的像素百分比(<3-interval)；以及深度图的完整度(Completeness)。在四个指标上，RED-Net方法的结果均优于其他方法。附图3是五种方法得到的深度图的比较。RED-Net方法得到的深度图准确率最高且地物边缘最清晰。

表1五种方法在构建的训练、测试集上的定量结果比较

利用影像的相机参数信息和得到的深度图结果，将每个像素点根据共线条件方程反投影至物方空间，得到三维点云模型。图4是RED-Net方法和三维重建软件COLMAP由航空影像得到的三维重建结果图。可以看出，我们的方法产生的模型最为完整，空洞区域最少，且地物边缘清晰，误差点最少。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于：步骤1的具体实现包括如下子步骤，

3.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于：所述特征检测部分对于N张输入影像设置了N个2D卷积神经元网络分支，每一分支包括5个卷积层，通道数分别为8,8,16,16,16；其中前四层均由卷积层和修正线性单元ReLU构成，第五层仅由卷积层构成；前两层的卷积核大小为3×3，卷积步长为1.第三层的卷积核大小为5×5，卷积步长为2，后两层的卷积核大小为3×3，步长为1，每个网络分支之间共享权重，最终特征检测部分对每一张输入影像得到16个通道的特征图，特征图的宽和高分别为输入原始影像的1/2。

4.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于：所述构建代价图部分输入为特征检测部分得到的N组16通道的特征图，利用差分形式的平面扫描法将一组2D特征图反投影至参考影像视角下的3D空间中某个特定深度的平面上，采用方差运算将同一个深度位置的多个视角下的特征图融合为一张代价图，将深度范围以一定的间隔采样为D个深度层，得到D个代价图。

5.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于：所述循环编码-解码规则化部分包括卷积编码部分、卷积解码部分以及循环门控单元，其中卷积编码部分由四个卷积层组成，每个卷积层后紧接着一个修正线性单元，卷积核大小均为3×3，第一层步长为1，后三层的步长为2，特征通道数分别为8,16,32,64；解码部分由四个上卷积层组成，除最后一层外，每个上卷积层后紧接着一个修正线性单元，四个卷积层的卷积核大小均为3×3，步长为2，特征通道数分别为32,16,8,1；

6.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于：所述计算损失函数值部分将每个深度层面上规则化后的代价图堆叠为一个代价体，然后在深度方向上应用softmax函数将代价体转换为概率体，概率体中的每个值表示当前像素点在当前深度层D_i上的概率值；真实深度值通过独热编码后变成与上述概率体同样大小的二分体；计算上述二分体和概率体之间的交叉熵损失值，利用该损失值指导网络的训练，直到训练该损失值不再下降，网络模型达到最优。

7.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法，其特征在于：步骤3的具体实现方式如下，