CN114937073A

CN114937073A - 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法

Info

Publication number: CN114937073A
Application number: CN202210369641.9A
Authority: CN
Inventors: 李良福; 张晰; 黎光耀
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-08-23
Anticipated expiration: 2042-04-08
Also published as: CN114937073B

Abstract

本发明提供了一种基于多分辨率自适应性的多视角立体重建网络模型MA‑MVSNet的图像处理方法，网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化；该MA‑MVSNet网络模型通过提取像素的卷积特征，使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试，准确度和完整性实验验证了该网络能处理大尺寸图像，并且重建效果也有所提升。此外，本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性，生成深度图速度较快，内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。

Description

一种基于多分辨率自适应性的多视角立体重建网络模型MA- MVSNet的图像处理方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法。

背景技术

随着三维传感器迭代发展和虚拟信息实体化等原因，使用三维数据用于对现实世界的理解和交互显然变得越来越重要。与二维数据相比，三维数据由于带有深度信息，在数据表达上拥有天然优势，因此它也成为了实现高精度识别、定位、重建、场景理解等研究的关键。三维重建技术可以将实体几何信息较为完整的保存下来，为深入数据分析提供极大便利。

多视角立体视觉MVS(Multiple View Stereo)是指从多个视角观察和获取场景的图像，利用图像和对应的相机参数恢复场景的三维表达，完成立体匹配和深度估计。传统的多视角立体重建方法使用的是几何或者光学一致性构造匹配代价，进行代价累积，再估计深度值。虽然传统方法在理想的实验环境下效果很好，有较高的深度估计精度，但在缺少纹理或者光照条件剧烈变化的场景中，完整性还有待提高。

近年来，随着深度学习技术不断成熟，在计算机视觉领域取得突破性进展。基于深度学习的多视角立体匹配方法通过学习全局语义信息，可以较好地提升模型在弱纹理和非朗伯区域的重建完整性，并且利用大规模数据训练，效率更高，具有良好的泛化性。因此基于深度学习的多视角立体重建技术被越来越多的学者研究。

2017年提出的SurfaceNet和Learned Stereo Machine(LSM)网络都是基于三维数据的表现形式之一：体积像素进行重建，内存的高消耗在很大程度限制了重建精度，无法进行大规模的重建。MVSNet是Yao等人在2018年提出的一种基于深度学习的端到端深度估计框架。该算法以一张参考图像和多张源图像为输入，得到参考图像深度图，以固定的分辨率构建代价体，导致处理高分辨率图像的高内存需求。R-MVSNet是将MVSNet网络正则化所使用的 3D卷积换成循环神经网络GRU(Gate Recurrent Unit)来降低模型大小。减少了内存需求但增加了运行时间。Point-MVSNet通过粗糙到精细的结构，首先预测一个粗糙深度图，转成点云后再进行深度优化。该算法节约卷积正则化操作，内存消耗更少，结果更平滑。Fast-MVSNet提出从稀疏代价体得到稀疏深度图，使用高斯牛顿层对深度图进行优化，算法的运行速度快。P-MVSNet 采用Patch-Wise进行代价聚合，考虑邻域像素匹配代价值，提高匹配精度，使用3D U-Net推断出深度图，重建后点云完整性更好。CVP-MVSNet是目前深度学习精度最高的网络，以图像金字塔构建代价体金字塔，估计初始深度图，与每一层的深度残差估计叠加得到最终深度图。该算法网络模型复杂导致冗余问题，重建速度较慢，内存消耗大，计算昂贵。

发明内容

为了解决深度图在精度和完整性方面的冲突，本发明提出一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet，网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题。

一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法，包括如下步骤：

步骤1、输入多视角图像，对图像进行降采样得到不同的训练输入图；

步骤2、将不同的训练输入图输入到特征提取网络中对每幅图像进行特征提取，将最粗分辨率图像的特征图变换到参考相机的特征视锥体空间中，形成代价体；

步骤3、使用三维卷积对代价体正则化操作，得到沿深度方向的概率体，进一步处理后得到粗糙的深度估计图；

步骤4、迭代的采样深度估计图，进行重投影视锥体操作，以更高的图像分辨率确定每个像素当前深度残差的局部搜索范围，用从粗糙到精细的方式构建不同分辨率的代价体金字塔，进行剩余图像的深度残差估计；

步骤5、叠加计算出参考图像的完整深度图。

进一步的，所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。

进一步的，所述特征提取网络是由二维卷积网络上融合CBAM注意力机制的卷积网络组成。

进一步的，所述CBAM注意力机制包括空间注意力和通道注意力两个模块。

进一步的，所述代价体是由多视角立体重建网络模型MA-MVSNet通过可微分的单应性变换将像素点之间坐标关系映射到深度方向构建而成，具体过程是：以相机主光轴n为扫描方向，将参考图像按深度间隔从最小深度d_min一直映射到最大深度d_max，得到含有N个不同深度间隔的相机视锥体；将提取的 N张特征图投影到相机视锥体得到N个特征体

即特征体是参考特征图 f₀上像素p在深度d处所对应源特征图

上的特征向量，将多个特征体聚合为一个代价体。

本发明的优点是：本发明提供这种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet，网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题，在特征提取阶段使用融合了CBAM(Convolutional BlockAttention Module)注意力机制的改进卷积网络替换原有的普通二维卷积网络，获取图像特征的全局信息。在代价体正则化阶段，提出自适应卷积网络，针对不同分辨率图像能自适应调整卷积参数，提升正则化网络的感受野，在减少内存消耗的同时提升模型性能；该 MA-MVSNet网络模型通过提取像素的卷积特征，使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试，准确度和完整性实验验证了该网络能处理大尺寸图像，并且重建效果也有所提升。此外，本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性，生成深度图速度较快，内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。

附图说明

图1是本A-MVSNet网络结构示意图。

图2是基于图像金字塔的特征提取网络示意图。

图3是构造匹配代价示意图。

图4a是对CBAM的消融实验示意图一。

图4b是对CBAM的消融实验示意图二。

图4c是对CBAM的消融实验示意图三。

图5a是自适应卷积的消融实验示意图一。

图5b是自适应卷积的消融实验示意图二。

图5c是自适应卷积的消融实验示意图三。

图6a是不同重建算法的比较示意图一。

图6b是不同重建算法的比较示意图二。

图7a是不同算法重建的点云示意图一。

图7b是不同算法重建的点云示意图二。

图7c是不同算法重建的点云示意图三。

具体实施方式

为进一步阐述本发明达成预定目的所采取的技术手段及功效，以下结合实施例对本发明的具体实施方式、结构特征的功效，详细说明如下。

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

为了解决深度图在精度和完整性方面的冲突，本实施例提出一种如图吧所示的基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet，网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题。该基于多分辨率自适应性的多视角立体重建网络模型 MA-MVSNet的图像处理方法，包括如下步骤：

步骤1、输入多视角图像

对图像进行双线性插值降采样得到不同的训练输入图

L表示采样层数；

步骤2、将不同的训练输入图输入到特征提取神经网络中对每幅图像进行特征提取，利用卷积运算提取图像的关键特征，包括颜色、纹理、形状等特征信息，将最粗分辨率的图像

提取得到的特征图

变换到参考相机的特征视锥体空间中，形成代价体

来表示深度d处所有像素点i的匹配代价；

步骤3、使用自适应三维卷积对代价体进行降采样，提取不同尺度中的上下文信息，利用SoftArgMax函数回归每个像素p在深度d处的概率，得到图中每个像素点沿深度方向的置信度的概率体

进一步用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图：

得到L层的粗糙的深度估计图D^L(p)；

步骤4、双三次插值上采样深度估计图，进行重投影视锥体操作，以当前图像分辨率确定每个像素当前深度残差r_p的局部搜索范围，基于当前层的深度估计和深度残差细化深度估计，下一层图像

的更新深度为：

步骤5、迭代的上采样深度估计图像D^L-1(p)，D^L-2(p)，…，D⁰(p)，重复执行重投影特征图、正则化代价体、细化深度估计操作，计算出每一层的更新深度，最终得到参考图像的完整深度图D⁰。

在特征提取阶段提取的特征将影响后续代价体正则化中的匹配结果，这将进一步影响估计深度估计的质量。二维卷积网络提取的特征更多地关注局部信息，忽略了全局特征，从而使得特征提取的精度较低。为了提高特征提取的精度，MA-MVSNet首先通过降采样构建图像金字塔来存储参考图I₀和源图像

然后在二维卷积网络上融合CBAM提取图像特征，关注重要的特征，忽视不必要的特征。

CBAM分为空间注意力和通道注意力两个模块。通道注意力关注什么样的特征是有意义的，提取相对全局化的特征。空间注意力模块关注哪里的特征是有意义的，提取相对局部的特征。通过全局平均池化和最大池化，使用 Sigmoid函数作为激活函数，在较前层中使用CBAM让网络更关注图像的全局特征。CBAM与卷积共同使用在不增加额外的开销的同时显著提升了特征提取的效果。改进后特征提取网络输出图像的大小为

所述代价体是由多视角立体重建网络模型MA-MVSNet通过可微分的单应性变换将像素点之间坐标关系映射到深度方向构建而成，具体过程是：以相机主光轴n为扫描方向，将参考图像按深度间隔从最小深度d_min一直映射到最大深度d_max，得到含有N个不同深度间隔的相机视锥体；将提取的N张特征图投影到相机视锥体得到N个特征体

即特征体是参考特征图f₀上像素p在深度d处所对应源特征图

上的特征向量，将多个特征体聚合为一个代价体。，可以降低异常像素点的影响，提高信噪比，进而提高匹配精度。深度d 处所有像素的匹配代价

用来自N+1个视图的特征体方差来表示，公式 (1)来衡量不同视图间像素投影点的相似性。式中，

代表所有特征体的均值,L代表当前位于金字塔的层数。

由于从特征图计算产生的代价体只考虑了局部特征相关性，存在噪声污染，进而导致了弱纹理、反光区域无法建立完整的匹配关系，因此我们提出了多尺度3D卷积对卷积结果进行平滑处理，为深度估计提供有用的上下文信息，构建更加平滑的密集匹配关系。

在卷积神经网络中，更大的卷积核会导致更大的感受野，在一次卷积中可以看见更多的图像信息，但更大的感受野也会造成干扰信息增多、计算量增加和计算性能降低。普通的卷积网络使用同一个卷积核对输入图像进行过滤，核的参数固定，导致提取的特征单一化，不利于像素间的区分。而由于图像相邻像素的深度位移是相关的，规则的多尺度3D卷积可以为深度残差估计提供有用的上下文信息。因此，本发明提出了采样多尺度卷积核对输入图像进行卷积。

MA-MVSNet提出的网络模型平衡了内存消耗和重建精度，通过卷积网络金字塔结构，提取出多尺度的图像特征，赋予每个像素点更大的感受野和上下文信息，对不同分辨率的图像使用不同的卷积参数进行处理。卷积核的大小根据图像金字塔的采样层数进行调整，与输入图像尺寸大小相关，同时改变填充大小，具体公式如下，

k_size＝log₂(H/100)+3， (2)

上式中，H代表输入图像高度，若参考图像经过上采样形成五层图像金字塔且图像高度为200像素时，卷积核大小为3；若图像高度为800像素，则卷积核大小调整为6，填充大小根据公式(3)计算得出，

p＝(H×(stride-1)+k_size)/2， (3)

stride指卷积核移动步长，针对不同规模图像进行自适应卷积用于代价体过滤，过滤得到单通道代价体

表1自适应卷积正则化基本结构构造

Tab.1 Construction of basic structure of MACNN regularization

基于代价体获得深度方向的概率体，可以计算出图像的初始深度图。概率体是利用SoftArgMax函数回归每个像素在深度d处的概率，得到参考图中每个像素点沿深度方向的置信度，即在每个深度下，每个像素的可能性大小。为了避免沿深度方向出现空缺、不平滑情况，用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图。

其中，D^L(p)代表深度估计值，

代表像素点p在深度d处的置信度，L表示采样层数。利用公式(4)获得最粗分辨率图像的初始深度图，然后基于粗略估计和深度残差假设迭代地上采样图像、重投影特征图、正则化代价体，细化深度估计，从而实现具有更高分辨率和精度的深度图。下一层的更新深度为：

本发明采用监督学习策略，由于真值深度图在整幅图像中并不总是完整的，所以我们只考虑有效像素点，Ω代表深度图中有效点的集合，D^L(p)表示像素p在第L层深度估计值。使用L1范数来对深度真值和深度估计值做差值运算。对于每个训练样本，其深度图的损失函数是：

综上所述，该种基于多分辨率自适应性的多视角立体重建网络模型 MA-MVSNet，网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题，在特征提取阶段使用融合了CBAM (Convolutional Block Attention Module)注意力机制的改进卷积网络替换原有的普通二维卷积网络，获取图像特征的全局信息。在代价体正则化阶段，提出自适应卷积网络，针对不同分辨率图像能自适应调整卷积参数，提升正则化网络的感受野，在减少内存消耗的同时提升模型性能；该MA-MVSNet 网络模型通过提取像素的卷积特征，使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试，准确度和完整性实验验证了该网络能处理大尺寸图像，并且重建效果也有所提升。此外，本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性，生成深度图速度较快，内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。

实施例2

消融实验

为了验证CBAM注意力机制和自适应3D卷积在网络中的有效性，我们分别单独使用CBAM和自适应卷积，并与联合使用两者的MA-MVSNet对输入图像生成的深度图结果进行对比。CBAM模块可以捕获图像中更多的全局上下文信息，融合多层次特征进行重建。自适应3D卷积模块可以捕获更多的局部信息，提高重建的准确性。定量结果如表2所示，定性结果如图4所示。

表2消融实验结果

Tab.2 Ablation study results

在图4a和图4b中(a)是使用普通卷积进行特征提取生成的深度图，由图可以看出，普通卷积进行特征提取存在明显的错误深度估计和深度突变现象。(b)是使用融合CBAM注意力机制的特征提取卷积生成的深度图，结果证明使用CBAM进行卷积后，生成的深度图更关注图像原本的全局特征信息，完整性有较大程度的提升。(c)是本发明提出的方法MA-MVSNet，利用CBAM 注意力机制提高重建完整性的同时关注图像细节特征。

图5a、5b、5c中(a)是使用普通3D卷积网络生成的深度图，在深度图边缘区域存在较大误差，物体细节信息较模糊。(b)是使用了自适应3D卷积进行代价体正则化，生成的深度图更关注细节信息，边缘区域更加平滑，但是在弱纹理区域容易出现错误深度值。(c)是本发明提出的方法，利用不同分辨率图像的信息特征提高重建精度的同时完整性较好。

与其他算法对比实验

在DTU公共数据集上与已有的基于传统算法和基于深度学习的多视角立体重建方法作比较，结果如图6a、图6b所示，其中，图6a内存消耗和整体误差的关系；图6b运行时间和整体误差的关系。在DTU数据集上训练MA-MVSNet，对于可以处理高分辨率图像的MVSNet、CVP-MVSNet等网络，输入图像为不同视角的二维图像，图像大小为1600×1184。为了构建图像金字塔，设置金字塔采样层数为5层，在最粗分辨率图像上设置整个深度范围内共有96个深度假设，和Point-MVSNet网络设置相同。经过端到端网络，结果输出的是160×128大小的深度图，来匹配地面真实深度图。对所有算法使用相同的深度融合方法获得点云可视化结果。

与其他算法相比，本发明提出的网络模型在内存消耗、运行时间方面和重建精度完整性等整体误差方面处于较为平衡的状态。在整体误差较低的情况下减少网络参数，提升资源利用率。

首先将我们的结果与传统的基于几何的三维重建方法和其他基于深度学习的三维重建方法进行比较。定量分析如表3所示，我们的方法在准确性、完整性和总分方面优于现有的其他基于深度学习的方法，与基于几何的方法相比，仅Galliani等人提出的Gipuma方法在平均精度方面提供了稍好的结果。综合点云重建精度和像素点完整性的总体得分较MVSNet网络提升24.9％，较CVP-MVSNet网络提升7.9％。

表3精度结果

Tab.3 Precision results

为验证本算法的稳健性，选取DTU数据集中的三组标准图像scan9、 scan11、scan75分别用不同算法Gipuma、SurfaceNet、MVSNet、CVP-MVSNet 和MA-MVSNet进行对比实验，结果如图7a、图7b、图7c所示。可以发现，本算法在多尺度空间下采用可变卷积进行代价体过滤，充分利用了多分辨率图像的全局信息和细节信息，获得的深度图质量较高，重建后点云图像能更好地保留图像信息。同时，与传统重建算法相比，本算法在反光、弱纹理等区域更平滑，效果较好。

在实际应用中，我们更关注网络模型在测试阶段的空间复杂度，GPU使用情况和算法运行时间如表4所示，可以看出，本发明提出的正则化网络MACNN 的效果更明显，在内存使用和运行速度上都较CVP-MVSNet有很大提升。

表4效率结果

在RTX 3090上对图像进行对比实验，可以看出，虽然我们的模型 MA-MVSNet添加了注意力机制增加了内存消耗，但使用的自适应3D卷积在处理高分辨率图像时可以显著地减少计算量，提高运行时间，并且在测试阶段更节省内存，内存消耗为6.1GB，较MVSNet网络节省了43.5％，较CVP-MVSNet 节省6.2％。

本发明提出的MA-MVSNet网络模型通过提取像素的卷积特征，使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试，准确度和完整性实验验证了该网络能处理大尺寸图像，并且重建效果也有所提升。此外，本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性，生成深度图速度较快，内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法，其特征在于，包括如下步骤：

步骤2、将不同的训练输入图输入到特征提取神经网络中对每幅图像进行特征提取，将最粗分辨率图像的特征图变换到参考相机的特征视锥体空间中，形成代价体；

步骤3、使用三维卷积对代价体正则化操作，得到沿深度方向的概率体，用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图；

步骤5、叠加计算出参考图像的完整深度图。

2.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法，其特征在于：所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。

3.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法，其特征在于：所述特征提取网络是由二维卷积网络上融合CBAM注意力机制的卷积网络组成。

4.如权利要求3所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法，其特征在于：所述CBAM注意力机制包括空间注意力和通道注意力两个模块。

5.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法，其特征在于：所述代价体是由多视角立体重建网络模型MA-MVSNet通过可微分的单应性变换将像素点之间坐标关系映射到深度方向构建而成，具体过程是：以相机主光轴n为扫描方向，将参考图像按深度间隔从最小深度d_min一直映射到最大深度d_max，得到含有N个不同深度间隔的相机视锥体；将提取的N张特征图投影到相机视锥体得到N个特征体

即特征体是参考特征图f₀上像素p在深度d处所对应源特征图

上的特征向量，将多个特征体聚合为一个代价体。