CN114359509A

CN114359509A - 一种基于深度学习的多视图自然场景重建方法

Info

Publication number: CN114359509A
Application number: CN202111470312.5A
Authority: CN
Inventors: 任东; 杨义乾; 任顺
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-15
Anticipated expiration: 2041-12-03
Also published as: CN114359509B

Abstract

一种基于深度学习的多视图自然场景重建方法，包括以下步骤：根据相机在不同角度拍摄的场景图片序列，首先对所有场景图像进行预处理，计算每幅图像的相机参数；根据提出的基于光度一致性度量图像相似度方法和视图选择算法，将其分为参考图像与源图像并在视图间进行支持域特征匹配。在卷积网络提取特征时根据匹配视图结果，构建图像特征金字塔；将所有原始图像以及参数文件经过改进的多视图立体重建神经网络,得到参考图像深度图，并在此深度图的基础之上融合成三维点云；运用表面重建算法生成场景网格模型，完成三维场景的重建工作。提高了基于图像的三维场景重建效率，实现特征图像块在跨视图中映射，使得提取的特征更加完善。

Description

一种基于深度学习的多视图自然场景重建方法

技术领域

本发明涉及实景建模技术领域，具体涉及一种基于深度学习的多视图自然场景重建方法。

背景技术

近年来，自然图像三维场景重建技术受到越来越多的重视，相关研究人员对计算机视觉领域中的三维场景重建产生了浓厚的兴趣。同时随着全球民用无人机产业如火如荼的发展，面向工业方面的无人机踏勘，环境资源部门、水利部门、规划部门设计机构等利用无人机能快速完成踏勘任务，降低劳动强度，提高勘测效率。通过无人机踏勘获取的图像数据信息进行三维重建，就能让踏勘获取到更多的细节信息，同时对地形、地势、山川、河流的走势和树木的分布情况会有更清晰的了解和认识。在日常生活中，三维重建技术逐渐应用于各大行业，比如:医学三维重建，从二维平面图片向立体三维成像发展，医务工作者能更好的研究人体相关生理、病理信息，将提取到的这些信息转换为相应的治疗方案，在确定治疗方式上起到毋庸置疑的重要性，从而提高了治愈的可能性，对人类的健康发挥了举足轻重的作用。在关于城市建模中，通过三维重建技术，对未来城市形态进行预演，并且能够根据实际规划成果进行修改，从而使得城市规划方案更加具有科学性。

基于图像的立体化三维重建，能够帮助人类提取更多视觉之外的广义信息。比如恢复残缺的重要古文物原貌，帮助考古学者探索更深层次的人类文明。而又随着人工智能、机器学习等科研技术的飞速发展和广泛应用，虚拟现实技术(VirtualReality)、增强现实技术(Augmented Reality)、自动驾驶技术等新型科学技术产业在日常生活中随处可见。随着智能工厂、智慧城市的不断涌现，人工智能逐渐成为目前推动国内科学技术发展的中坚力量。将机器学习技术应用到计算机视觉领域中的三维场景重建之上，将简化三维场景重建的步骤、提高重建的效率、精度和完整度。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的多视图自然场景重建方法，将跨视图的图像块特征映射融合到改进的神经网络中，最后输出参考图像的深度图，在估算深度时，还进行了视图选择的步骤，进一步提高了深度图的精确度和重建三维场景的细节信息。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于深度学习的多视图自然场景重建方法，方法包括:

Step1、根据相机在不同角度拍摄的场景图片序列，对所有场景图像进行预处理，计算每幅图像的相机参数；

Step2、根据光度一致性度量图像相似度方法和视图选择算法，将图像序列分为参考图像与源图像并在视图间进行支持域特征匹配；

Step3、利用卷积网络提取视图特征，并根据匹配视图结果，构建图像特征金字塔；

Step4、将所有原始图像以及参数文件代入多视图立体重建神经网络IMVSNet，即Improved-Multi-View Stereo Net，得到参考图像深度图，并在此深度图的基础之上融合成三维点云；

Step5、运用表面重建算法生成场景网格模型，完成三维场景的重建工作。

上述的Step2中，图像相似度方法选择的支持域大小为15×15，选择场景图像中完整的标准设定颜色的建筑作为参考区域，例如通过场景图像中完整的红色建筑作为参考区域计算支持域的像素对在相邻图像中的相似性，以此判断两幅图像的相似程度，并通过能量公式区分当前视图与参考视图的相似性。

上述的能量公式为：

其中

表示图像梯度，该图像梯度是相对于图像像素x_i相适应颜色计算出的导数。对于投影P_j的导数，该导数是将梯度转换为正确的坐标系。

上述的Step2中，视图选择算法方法为：

定义：P、图像视图中的像素点,初始采样8个像素点，分别为最靠近中心点4个像素与最远四个像素；N、图像视图的数量；M、图像块映射代价；t、迭代次数；T、图像块映射边界值；

输入:随机选择的8个像素点；

算法：1)计算初始点与N-1个视图的映射代价M_ij，记做代价矩阵M；

2)表示图像块映射迭代的边界值τ₁；

3)代价矩阵每一列映射代价值m_ij最多只能有两个大于τ；

4)设置匹配置信度C(M_ij)；

5)为选定视图设置选择权重w；

约束：光度一致性；

输出：最适合的若干映射实体图；

结合光度一致性约束和图像块与视图间匹配代价在视图中寻找匹配度最高的若干视图；并且选择大小为15×15的支持域，选择重建的自然场景是DTU数据集上的49张建筑物图片，定位匹配场景中的设定颜色建筑作为特征块在图像中进行映射匹配。

上述的Step3中，神经网络特征提取匹配从N张输入图像中提取深度特征F进行密集匹配，特征提取采用八个二维的CNN神经网络卷积层，在第三层和第六层的步长设置为2，将特征塔划分为3个不同的尺度，在每个相同的尺度内，再应用两个卷积层以提取更高级别的图像表示，第1个至第7个卷积层后面都紧接着一个归一化层和修正线性单元，第8个卷积层后面无其他结构，参数在所有的特征塔之间共享，供神经网络进行学习，通过不同步长的卷积层之后，输出为N张32通道的特征图，与原始输入图像相比，每个维度空间的尺寸都缩小4倍。

上述的Step4中，立体化重建中使用在参考相机视锥上构建代价体将I₁作为参考图像，{I_i}^N _i＝2表示源图像,{K_i,R_i,T_i}^N _i＝1表示与特征图相对应的相机内部参数矩阵、旋转矩阵、平移矩阵；

提取的特征图都需要糅合到参考相机的不同前端平行面中，因此会形成N个特征体

深度d处从变形特征FV_i(d)到F_i的坐标映射由平面变换f′～H_i(d)·f，其中～表示在深度d出第i^th个特征图和参考特征图之间的投影相等性和Hi(d)的单一映射性。假设n1为参考相机的主轴,单一性映射由3×3的矩阵表示为：

其中，H_i(d)是从第i个特征图变换到参考图像在深度为d时的单应性变换矩阵，{K_i,R_i,T_i}^N _i＝1表示与特征图相对应的相机内部参数矩阵、旋转矩阵、平移矩阵分别为对应特征图的相机内参，旋转和平移，参考图像对应的单应性变换矩阵，n为参考图像光轴的法向量；

不考虑损失函数，参考特征图F₁的单一映射性本身为3×3的单位矩阵，单一性映射的过程中微分双线性插值用于从特征图

上述的代价体采用多视图相似性度量的基于方差的代价体：

令W、H、D、F代表输入特征图像的宽度、高度、深度样本数和通道数，则：

图像图整体的大小表示为：

代价矩阵定义的映射公式表示为：

式中，

是在所有元素对操作上的关于所有特征体的平均值。

从概率量P中检索深度图D的最直接简单的方法是逐个像素选取，但是argmax操作无法产生子像素估计，并且由于其不可区分性而无法通过反向传播进行训练。上述的Step4中深度图采取沿着深度方向计算期望值，即加权的概率，所有概率假设的总和为Dep：

其中，dmin、dmax分别表示最小和最大深度采样值，d表示采样深度值，Pro(d)表示每个像素在采样深度为d时的概率。

上述的Step4中神经网络训练的损失函数，使用地表真实情况，即ground truth的深度图和网络估算输出的深度图之间的平均绝对差作为训练损失，所述的深度图损失函数定义为：

其中P_valid表示真实地面像素集合，d(p)表示真的地面像素点p的深度值，d_i(p)表示初始深度估计值，使用地表真实情况的深度图和网络估算输出的深度图之间的平均绝对差作为训练损失。

本发明提供的一种基于深度学习的多视图自然场景重建方法，通过多视图之间的特征匹配，以及选取最优的视图进行匹配。通过像素与不同视图的匹配代价，来选择与当前参考图像匹配度最高的若干视图。采用交替迭代的选择参考视图与匹配视图，促使每一幅图像都能找到相似度高的图像，提高最后参考图像深度图精度。

其带来的有益效果有：跨图像映射特征支持域时，根据图像中存在的能量公式，结合相机不同视角下拍摄图像时的光度一致性因素，随机选择像素点和初始化像素所在平面，利用视差和相邻像素间的传播代价进行传播，完成了多视图之间的图像块映射。端对端的网络相较于传统的图像图形学方法而言，省略了繁琐的计算过程。神经网络训练所需的相机参数，根据转换程序提取相应的格式，每幅图像和各自的参数文件对应。并且将相机参数编码为可微分的单一性映射，在相机视锥平面上构建代价体，从而将二维特征提取和三维代价归一化网络联系起来。为了测试本文算法的鲁棒性与稳定性，最终也完成了相应的场景的创建工作。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1、本发明整体流程图；

图2、特征块映射；

图3、特征提取的网络结构图(MSFNet)；

图4、本发明深度结果图

图5、本发明重建点云图

图6、本发明点云重建效果；

图7、鲁棒性测试场景重建结果图。

具体实施方式

为使本发明的目的、技术方案以及优点更加清楚，以下内容将结合根据本发明提供的附图，对本发明具体技术方案进行系统、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图7中所示，一种基于深度学习的多视图自然场景重建方法，方法包括:

上述的能量公式为：

其中

上述的Step2中，视图选择算法方法为：

输入:随机选择的8个像素点；

2)表示图像块映射迭代的边界值τ₁；

3)代价矩阵每一列映射代价值m_ij最多只能有两个大于τ；

4)设置匹配置信度C(M_ij)；

5)为选定视图设置选择权重w；

约束：光度一致性；

输出：最适合的若干映射实体图；

结合光度一致性约束和图像块与视图间匹配代价在视图中寻找匹配度最高的若干视图；选择重建的自然场景是DTU数据集上的49张建筑物图片，定位匹配场景中的设定颜色建筑作为特征块在图像中进行映射匹配。通过计算支持域的像素对在相邻图像中的相似性，来判断两幅图像的相似程度，在不同的视图中进行支持域图像块映射。通过选出确定的视图与参考视图之间的特征准确定位，然后运用多层卷积进行图像特征的提取，将能更好的构建代价体，根据视图选择结果，可以明显看到视图选择算法的优越性，根据选择出的视图可以在每一幅图像中进行较好的映射。

上述的Step3中，神经网络特征提取匹配从N张输入图像中提取深度特征F进行密集匹配，特征提取采用八个二维的CNN神经网络卷积层，在第三层和第六层的步长设置为2，将特征塔划分为3个不同的尺度，在每个相同的尺度内，再应用两个卷积层以提取更高级别的图像表示，第1个至第7个卷积层后面都紧接着一个归一化层batch-normalization和修正线性单元ReLU，第8个卷积层后面无其他结构，似于场景的匹配任务一般,参数在所有的特征塔之间共享，供神经网络进行学习，通过不同步长的卷积层之后，输出为N张32通道的特征图，与原始输入图像相比，每个维度空间的尺寸都缩小4倍，尽管在特征提取步骤以后缩小了图像帧的尺寸，但是每个剩余像素的原始相邻信息已经被编码到32通道像素的描述符中，这样能有效防止因密集匹配而丢失有用的邻里信息。

深度d处从变形特征FV_i(d)到F_i的坐标映射由平面变换f′～H_i(d)·f，其中～表示在深度d出第i^th个特征图和参考特征图之间的投影相等性和H_i(d)的单一映射性。假设n1为参考相机的主轴,单一性映射由3×3的矩阵表示为：

除了一点：可微分双线性插值用于从特征图{FV_i}N_i＝1,而不是图像

上采样像素点；作为连接二维特征提取和三维正则化网络的核心步骤，单一性映射变形操作以可区分的方式实现，从而可以进行端对端的深度图估算训练。

上述的代价体采用多视图相似性度量的基于方差的代价体：

图像图整体的大小表示为：

代价矩阵定义的映射公式表示为：

式中，

是在所有元素对操作上的关于所有特征体的平均值。

上述的Step4中深度图采取沿着深度方向计算期望值，即加权的概率，所有概率假设的总和为：

沿着深度方向的概率分布可以反映深度估计的质量，多尺度3D CNN具有将概率归一化为单一模态分布的强大能力，但是对于那些错误匹配的像素，它们的概率分布是分散的，不能集中到一个峰值。

Claims

1.一种基于深度学习的多视图自然场景重建方法，其特征在于，方法包括:

Step4、将所有原始图像以及参数文件代入多视图立体重建神经网络IMVSNet，得到参考图像深度图，并在此深度图的基础之上融合成三维点云；

2.根据权利要求1所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的Step2中，图像相似度方法选择的支持域大小为15×15，选择场景图像中完整的标准设定颜色的建筑作为参考区域，计算支持域的像素对在相邻图像中的相似性，以此判断两幅图像的相似程度，并通过能量公式区分当前视图与参考视图的相似性。

3.根据权利要求2所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的能量公式为：

其中

4.根据权利要求2所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的Step2中，视图选择算法方法为：

输入:随机选择的8个像素点；

2)表示图像块映射迭代的边界值τ₁；

3)代价矩阵每一列映射代价值m_ij最多只能有两个大于τ；

4)设置匹配置信度C(M_ij)；

5)为选定视图设置选择权重w；

约束：光度一致性；

输出：最适合的若干映射实体图；

结合光度一致性约束和图像块与视图间匹配代价在视图中寻找匹配度最高的若干视图；并且选择大小为15×15的支持域，定位匹配场景中的设定颜色建筑作为特征块在多张图像中进行映射匹配。

5.根据权利要求4所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的Step3中，神经网络特征提取匹配从N张输入图像中提取深度特征F进行密集匹配，特征提取采用八个二维的CNN神经网络卷积层，在第三层和第六层的步长设置为2，将特征塔划分为3个不同的尺度，在每个相同的尺度内，再应用两个卷积层以提取更高级别的图像表示，第1个至第7个卷积层后面都紧接着一个归一化层和修正线性单元，第8个卷积层后面无其他结构，参数在所有的特征塔之间共享，供神经网络进行学习，通过不同步长的卷积层之后，输出为N张32通道的特征图，与原始输入图像相比，每个维度空间的尺寸都缩小4倍。

6.根据权利要求5所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的Step4中，立体化重建中使用在参考相机视锥上构建代价体将I₁作为参考图像，{I_i}^N _i＝2表示源图像,{K_i,R_i,T_i}^N _i＝1表示与特征图相对应的相机内部参数矩阵、旋转矩阵、平移矩阵；

7.根据权利要求6所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的代价体采用多视图相似性度量的基于方差的代价体：

图像图整体的大小表示为：

代价矩阵定义的映射公式表示为：

式中，

是在所有元素对操作上的关于所有特征体的平均值。

8.根据权利要求6所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的Step4中深度图采取沿着深度方向计算期望值，即加权的概率，所有概率假设的总和为Dep：

9.根据权利要求8所述的一种基于深度学习的多视图自然场景重建方法，其特征在于，所述的Step4中神经网络训练的损失函数，使用地表真实情况，即ground truth的深度图和网络估算输出的深度图之间的平均绝对差作为训练损失，所述的深度图损失函数定义为：