CN114463492A

CN114463492A - 一种基于深度学习的自适应通道注意力三维重建方法

Info

Publication number: CN114463492A
Application number: CN202210034030.9A
Authority: CN
Inventors: 辛月兰; 谢琪琦
Original assignee: Qinghai Normal University
Current assignee: Qinghai Normal University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-10
Anticipated expiration: 2042-01-12
Also published as: CN114463492B

Abstract

本发明是一种基于深度学习的自适应通道注意力三维重建方法，该方法通过卷积神经网络对图片进行特征提取，利用SE模块优化三维代价体正则化过程，并对网络进行训练。在DTU数据集上的实验结果表明，相比于传统方法和其他基于深度学习的方法，此网络在Comp和Overall两个方面都有了一定幅度的提升，同时，点云模型的可视化结果也有了明显改善。

Description

一种基于深度学习的自适应通道注意力三维重建方法

技术领域

本发明属于日常用品的技术领域，特别涉及一种基于深度学习的自适应通道注意力三维重建方法。

背景技术

多视图立体视觉(Muti-view stereo,MVS)从重叠图像中估计物体的稠密表示，是计算机视觉领域近年来广泛研究的核心问题。传统方法使用手工提取的相似性度量和代价空间正则化(如归一化互相关和半全局匹配)计算密集对应和恢复三维点。如pmvs，colmap等通过提取手工特征，利用几何学方法得到每个像素的深度估计，虽然这些方法在理想的场景下取得了很好的结果，但它们都有共同的局限性，比如在一些弱纹理、镜面和反射区域等场景使密集匹配难以实现，且三维重建出来的效果较差，在完整性和综合表现方面还有待进一步的提升。

近年来，随着深度学习在各个领域的迅速发展，越来越多的研究者开始使用其代替传统方法，并且在三维重建方面取得了不错的效果。2018年，Yao等人[4]提出了一种基于深度学习的神经网络估计深度，网络在重建的完整性和整体准确度上都有了较大的提升，并且能在弱纹理的条件上获得较好的结果。基于深度学习的多视图三维重建主要问题是在三维代价体的正则化上，此前大多的网络利用三维卷积神经网络去正则化三维代价体，会消耗巨大的内存空间，立体视觉网络(multi-view stereo network,MVSNet)在参考相机上构建三维代价体，将其重建解耦成单视图深度估计的问题。但是当三维重建的物体图片分辨率增加后，MVSNet就会出现失败或耗费很长时间的问题。2019年，Luo等人提出了点立体视觉网络(point multi-view stereo network,P-MVSNet)，该网络提出了基于区域匹配置信的代价体，通过学习的方式将每个假想面上的特征匹配置信聚合变为一个向量而非常量，从而提高了立体匹配的准确度。同年，Yao等人在其提出的MVSNet基础上提出了循环立体视觉网络(recurrent multi-view stereo network,R-MVSNet)，该网络引入循环神经网络架构，依序在深度方向通过GRU单元正则化2D代价图(cost map)，以达到减小内存消耗、提升模型完整性的效果。2020年，Yu等人考虑到除了重建质量，效率也是现实场景中重建的一个重要因素，提出了快速立体视觉网络(fast multi-view stereo network,Fast-MVSNet)进行三维重建，这种方法是一种新的由稀疏到稠密、由粗糙到精细的框架，适用于快速和准确的多视图深度估计。Yi等人在基于深度学习的MVS问题上，针对代价体和深度图优化方式进行了改进，提出了金字塔与视图聚合立体视觉网络(pyramid viewaggregation multi-view stereo network,PVA-MVSNet)，该网络减少了代价体运算所消耗的运算内存，同时大大提升了重建模型的完整度。Gu等人提出了级联立体视觉网络(cascade multi-view stereo network,CasMVSNet)，CasMVSNet使用级联的代价体来实现稀疏到稠密的深度估计，通过串行操作逐渐得到高精度深度图，在减少运行内存的同时，提升了三维重建的完整性。2021年，Ma等人针对深度假设的设置问题，提出了一种高精高效稠密重建的对极线立体视觉网络(epipolar-assembling multi-view stereo network,EEP-MVSNet)。

综上所述，尽管目前的方法对MVSNet已经做了很大的改进，但网络在多视图三维重建的效果上还需进一步提升。在代价体的特征学习过程中，MVSNet未考虑到通道之间的关联性，即简单的认为每个通道是独立的，这与实际情况不符，不利于网络学习更丰富的通道之间交叉特征。

发明内容

为解决上述问题，本发明的首要目的在于提供一种基于深度学习的自适应通道注意力三维重建方法，该方法在MVSNet的每两个相同尺度的代价体和概率体之间引入自适应通道注意力SE模块，学习通道之间的相关性，筛选出针对通道的注意力。通过自适应学习通道注意力权重，强化重要的通道特征，将不重要的特征弱化，提升深度估计的准确率，从而改善三维重建的效果。

本发明的另一目的在于提供一种基于深度学习的自适应通道注意力三维重建方法，该方法具有很强的拓展性，能够处理更高分辨率的图像。

为实现上述目的，本发明的技术方案如下。

一种基于深度学习的自适应通道注意力三维重建方法，该方法的步骤具有四个部分：特征提取、可微单应性变换、代价体正则化以及深度图优化，其中：

步骤一，特征提取，

输入1张参考图像和N-1张邻近图像，通过二维卷积神经网络将输入图片的大小变为原来的1/4，并得到N个特征图；

其中，二维卷积神经网络共有8层，其中第3层、第6层的步长为2，以此得到3个尺度的特征图。

步骤二，可微单应性变换，

将上一步骤得到的N张特征图投影至参考图像下的若干平行平面构成N个特征体，将特征体进行平面可微的单应性变换得到代价体；平面可微单应性变换决定了从特征图到位于深度d处代价体的坐标变换；

步骤三，代价体正则化，

通过步骤二的特征体计算得到代价体后，代价体经过多尺度三维注意力卷积神经网络输出概率体。

本发明网络结构加入了自适应通道注意力，通过学习每个通道权重的方式，抑制无关特征提升卷积特征的表示性能，从而得到更准确的概率体。

代价体正则化的主要功能是将代价体转换为概率体，在这一步中，考虑到通道之间的关联性，在每两个相同尺度的代价体和概率体之间引入注意力SE模块，以学习通道之间的相关性，筛选出针对通道的注意力。

注意力SE模块，模块主要包含压缩(Squeeze)和激励(Excitation)两个部分：

(1)压缩(Squeeze)：通过在特征图层上执行全局平均池化，得到当前特征图的全局压缩特征量；

(2)激励(Excitation)：通过两层全连接的bottleneck结构得到特征图中每个通道的权值，并将加权后的特征图作为下一层网络的输入。

注意力SE模块的主要操作流程分为三步：

(1)压缩(Squeeze)，

第一步是压缩(Squeeze)操作。

经过压缩操作后，大小为W×H×C的特征图会被压缩为1×1×C的向量。

(2)激励(Excitation)，

第二步是激励操作。此操作由两个全连接层组成，其中S是一个缩放参数。图中的第一个全连接层FC有C×S个神经元，其输入为1×1×C，输出1×1×C×S；第一个激活函数选用Relu函数，输入为1×1×C×S，输出为1×1×C×S；第二个全连接层FC有C个神经元，输入为1×1×C×S，输出为1×1×C；第二个激活函数选用Sigmoid，输入为1×1×C，输出为1×1×C。

(3)Scale操作，

第三步是Scale操作。激励操作之后，得到输出为1×1×C的向量，最后对其进行Scale操作。原本特征向量为W×H×C，将SE模块计算出来的各通道权重值分别与原特征图对应通道的二维矩阵相乘，得到1×1×C的结果输出。

由此得出参数量和计算量的计算公式如下：

Q＝2×C×C×S

E＝2×C×C×S

其中，Q为参数量，E为计算量，C为通道数，S为缩放参数。

步骤四，深度图优化，

通过概率体恢复深度图，采用Soft argmin的操作估计深度，得到初始深度估计，然后通过一个深度残差学习模块，得到优化后的深度图。

考虑到初始和优化后深度图的损失，采用损失函数进行弥补。

损失函数的设计同时考虑了初始和优化后深度图的损失。网络使用真实深度图和估计深度图之间的平均绝对误差作为训练损失。由于真值(ground truth,GT)深度图大多都不完整，因此，只考虑有效GT标签的像素：

其中，P_valid为真值中有效像素的集合，d(p)为像素p的真实深度值，

为初始深度图像素p的深度，

为优化后深度图像素p的深度。实验中将参数λ设置为1。Loss₁表示真值与初始深度图间的损失，Loss₂表示真值与优化后深度图间的损失。

本发明的有益效果在于：

本发明在MVSNet的每两个相同尺度的代价体和概率体之间引入自适应通道注意力SE模块，SE模块通过自适应学习通道注意力权重，强化重要的通道特征，将不重要的特征弱化，提升深度估计的准确率，从而改善三维重建的效果，提高匹配精度。

实验结果表明，与许多现有的基于深度学习或传统方法相比，本发明明显提升了多视图三维重建的效果。。

附图说明

图1是本发明所实现的网络结构示意图。

图2是本发明所实现的SE模块的示意图。

图3是本发明所实现的压缩操作示意图。

图4是本发明所实现的激励操作示意图。

图5是本发明所实现的Loss曲线图。

图6是DTU数据集中scan9深度图、概率图估计比较图。

图7是DTU数据集上稠密重建点云部分模型对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1-4，为本发明所实现的基于深度学习的自适应通道注意力三维重建方法，该方法的步骤具有四个部分：特征提取、可微单应性变换、代价体正则化以及深度图优化，如图1所示，其中：

步骤一，特征提取，

步骤二，可微单应性变换，

步骤三，代价体正则化，

如图2所示，图中的网络结构为一个SE模块。该模块主要包含压缩和激励两部分。该模块主要包含压缩和激励两部分。W、H分别表示特征图宽、高，Z表示特征图个数，C表示通道数，输入特征图大小为W×H×C。

注意力SE模块的主要操作流程分为三步：

(1)压缩(Squeeze)

第一步是压缩(Squeeze)操作。

如图3所示，图为SE模块中的压缩操作。经过压缩操作后，大小为W×H×C的特征图会被压缩为1×1×C的向量。

(2)激励(Excitation)

第二步是激励操作。

如图4所示，图为SE模块中的激励操作。此操作由两个全连接层组成，其中S是一个缩放参数。图中的第一个全连接层FC有C×S个神经元，其输入为1×1×C，输出1×1×C×S；第一个激活函数选用Relu函数，输入为1×1×C×S，输出为1×1×C×S；第二个全连接层FC有C个神经元，输入为1×1×C×S，输出为1×1×C；第二个激活函数选用Sigmoid，输入为1×1×C，输出为1×1×C。

(3)Scale操作

由此得出参数量和计算量的计算公式(1)和(2)：

Q＝2×C×C×S (1)

E＝2×C×C×S (2)

其中，Q为参数量，E为计算量，C为通道数，S为缩放参数。

步骤四，深度图优化，

为初始深度图像素p的深度，

为了验证上述方法，进行实验如下：

实验数据集：

实验的主要数据集来源于DTU数据集[12]，该数据集是一个室内场景MVS数据集，除包含相机影像的相机位姿外，额外提供了参考影像的深度真值，它由7个不同光照强度下的124个扫描场景数据以及基准点和法向量信息组成。此数据集提供的标签为点云格式，可以进行泊松表面重建(SPSR)[13]来生成网状表面(mesh)，然后基于mesh得到训练中给定视角下的深度图，作为训练数据。在SPSR中将参数的深度设置为11，获得高质量的网格结果，并且将网格修整因子设置为9.5，缓解表面边缘区域网格的虚影。

深度范围的选择根据生成的深度图设定。由DTU数据集的结果得出，设置的先验深度范围[dmin,dmax]为[425mm,937mm]，精度为2.5mm，设置采样D＝192。

另外的数据集为室外场景数据集Tanks and Temples[14]，包含了更复杂的场景和光照情况，测试的数据集包括游乐场、雕塑、坦克、操场和火车等八大场景。实验所用的数据集信息如表1所示。

表1数据集信息

实验环境：

实验所使用的计算平台的主要参数：32G内存、NVIDIA Tesla V100显卡。实验运行系统环境：Ubuntu16.04，编程语言：Python，深度学习框架：Tensorflow。

实验过程及结果分析：

模型的训练与测试。在训练阶段，设置输入的图像数量N＝3(一个参考图像、两个参考图像的邻近图像)，并选用较低的分辨率设置W＝640，H＝512。根据DTU数据集的结果，设置的先验深度范围[dmin,dmax]为[425mm,937mm]，精度为2.5mm，设置采样D＝192，共训练100k(101417)次，实验使用Adam优化器，初始学习率为0.001，每次以0.9的速率衰减。在测试阶段，将图像的分辨率放大为W＝1600，H＝1200，设置输入的图像数量为N＝5，深度采样次数为D＝192。

在选择视角图输入时，按照公式(4)为每个参考图像和邻近图像计算得到的分值，根据分值的结果选择视角图的输入。

s(i,j)＝Σ_pG(θ_ij(p)) (4)

其中，p是图像i和图像j的公共轨迹，θ_ij(p)表示的是p偏移基线的角度，θ_ij(p)的计算见公式(5)。G是一个高斯分段函数，根据θ的不同，计算方式不一样，高斯分段函数的计算见公式(6)。

θ_ij(p)＝(180/π)arccos((c_i-p)(c_j-p)) (5)

其中，p是图像i和图像j的公共轨迹，c是摄像头的中心。

其中，在实验中，将参数θ，σ₁，σ₂分别设置为5，1和10。

最后，将本方法和MVSNet在相同的环境下训练100k(101417)次。如图5所示，观察网络训练后的Loss曲线可以发现，与MVSNet相比，Loss曲线前期下降速度较为相似，但本方法的Loss曲线整体下降是最低的，说明通过在MVSNet中添加自适应通道注意力，能够提高整个网络的训练精度，并训练出效果更好的网络模型。

在训练完成后，实验使用训练100k(10147)次之后的模型，在DTU上的22组测试集(scan1、scan4、scan9等)上进行测试，并对测试集中所有的图像进行深度估计，得到深度图融合及三维点云模型。

深度图融合。得到概率图后，本发明进行深度图融合，通过提出的自适应通道注意力，在代价体正则化部分进行优化，得到了更准确的概率图，从而预测出更精确、更精细和更完整的深度图。实验结果如图6所示。

从图中可得，相比MVSNet生成的深度图，本发明生成的深度图在图中标出的红框部分更加平滑、精确和完整，生成的概率图同样比MVSNet中的更精确。因此，由于深度图估计更准确、平滑、完整，本发明可以生成更密集、更完整、更精细的点云。

点云质量评估。采用Galliani的方法对DTU测试集中所有的深度图像进行融合，并生成三维点云模型。为了验证所提方法的有效性，采用传统方法及基于深度学习的方法在相同的测试集上，分别生成了对应的三维点云模型，部分模型的实验结果对比如图7所示。

从图7可以观察到，SurfaceNet的方法在弱纹理等区域的重建效果较差，比如测试集Scan9、Scan11和Scan75的红框部分都出现了空洞，而基于深度学习的方法MVSNet、P-MVSNet虽然能很大程度的改善这些部分的重建效果，但在红框部分都出现了不同程度的空洞。相比之下，本发明在完整性和整体质量方面显著优于这些方法，并生成了最完整的点云，尤其是在那些无纹理和反射等这些通常被认为是多视图三维重建中最难恢复部分的区域。

为了定量的分析各个方法之间的差异，采用DTU Benchmark中所提供的对点云模型质量评估的方法，计算两个模型相互投影后点云之间的距离，评价三维重建模型的准确度(Acc)和完整度(Comp)，并用Overall表示综合评分，计算方式为准确度和完整度的平均值，通过Overall来评价整体重建质量。实验将Camp、Furu、Tola等传统方法，MVSNet、P-MVSNet等基于深度学习的方法，与本发明在DTU数据集上进行对比，定量结果如表2所示(得分越低越好)。

表2对比实验

由表2得出，在传统的方法中，Gipuma在重建模型的准确度方面是最好的，但在完整性上还有很大的不足，并且综合评分也较差。本发明虽然在模型的精确度方面还有待提升，但完整度方面是最好的，并且整体质量的综合评分也是最高的。综合分析可得，本发明得分最高，证明了其有效性和先进性。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的自适应通道注意力三维重建方法，其特征在于该方法的步骤具有四个部分：特征提取、可微单应性变换、代价体正则化以及深度图优化，其中：

步骤一，特征提取，

步骤二，可微单应性变换，

将上一步骤得到的N张特征图投影至参考图像下的若干平行平面构成N个特征体，将特征体进行平面可微的单应性变换得到代价体；

步骤三，代价体正则化，

通过步骤二的特征体计算得到代价体后，代价体经过多尺度三维注意力卷积神经网络输出概率体；代价体正则化的主要功能是将代价体转换为概率体，在这一步中，考虑到通道之间的关联性，在每两个相同尺度的代价体和概率体之间引入注意力SE模块，以学习通道之间的相关性，筛选出针对通道的注意力；

注意力SE模块，模块主要包含压缩和激励两个部分：

(2)激励(Excitation)：通过两层全连接的bottleneck结构得到特征图中每个通道的权值，并将加权后的特征图作为下一层网络的输入；

步骤四，深度图优化，

2.如权利要求1所述的基于深度学习的自适应通道注意力三维重建方法，其特征在于步骤一中，其中，二维卷积神经网络共有8层，其中第3层、第6层的步长为2，以此得到3个尺度的特征图。

3.如权利要求1所述的基于深度学习的自适应通道注意力三维重建方法，其特征在于步骤三中，注意力SE模块的主要操作流程分为三步：

(1)压缩，

第一步是压缩操作，经过压缩操作后，大小为W×H×C的特征图会被压缩为1×1×C的向量；

(2)激励，

第二步是激励操作，此操作由两个全连接层组成，其中S是一个缩放参数。图中的第一个全连接层FC有C×S个神经元，其输入为1×1×C，输出1×1×C×S；第一个激活函数选用Relu函数，输入为1×1×C×S，输出为1×1×C×S；第二个全连接层FC有C个神经元，输入为1×1×C×S，输出为1×1×C；第二个激活函数选用Sigmoid，输入为1×1×C，输出为1×1×C；

(3)Scale操作，

第三步是Scale操作，激励操作之后，得到输出为1×1×C的向量，最后对其进行Scale操作；原本特征向量为W×H×C，将SE模块计算出来的各通道权重值分别与原特征图对应通道的二维矩阵相乘，得到1×1×C的结果输出；

由此得出参数量和计算量的计算公式如下：

Q＝2×C×C×S

E＝2×C×C×S

其中，Q为参数量，E为计算量，C为通道数，S为缩放参数。

4.如权利要求1所述的基于深度学习的自适应通道注意力三维重建方法，其特征在于步骤四中，考虑到初始和优化后深度图的损失，采用损失函数进行弥补；网络使用真实深度图和估计深度图之间的平均绝对误差作为训练损失；由于真值深度图大多都不完整，因此，只考虑有效GT标签的像素：

为初始深度图像素p的深度，

为优化后深度图像素p的深度，实验中将参数λ设置为1；Loss₁表示真值与初始深度图间的损失，Loss₂表示真值与优化后深度图间的损失。