CN115239870A

CN115239870A - 基于注意力代价体金字塔的多视图立体网络三维重建方法

Info

Publication number: CN115239870A
Application number: CN202210530222.9A
Authority: CN
Inventors: 邓新财; 陈文通; 张波; 申涛; 林振; 陈波; 杜挺; 舒展; 郭天翔; 王培波; 吴顺军
Original assignee: Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-12-31
Filing date: 2022-05-16
Publication date: 2022-10-25
Also published as: CN115239871A

Abstract

本发明公开了基于注意力代价体金字塔的多视图立体网络三维重建方法，包括如下步骤：S1、结构光摄像机拍摄获取不同室内场景的图像，对获取图像数据进行预处理；S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型，将训练集作为三维重建网络模型的输入，训练得到权重系数得到初步三维重建网络模型；S3、对训练完成的初步三维重建网络模型进行评估，得到最优三维重建网络模型并生成深度估计图；S4、将得到的所有深度估计图融合成一个完整的深度图。本方案通过引入自注意层并建立基于相似性的特征聚合方法来提高MVS网络的性能，采用金字塔结构对深度图进行推断，使得该网络模型能够处理高分辨率的图像。

Description

基于注意力代价体金字塔的多视图立体网络三维重建方法

技术领域

本发明涉及图像处理领域，具体的，涉及基于注意力代价体金字塔的多视图立体网络三维重建方法。

背景技术

多视点立体成像(Multi-view stereo,MVS)的目标是从多视点图像和相应的相机参数中以密集表示的方式重建观测到的三维场景，这一方法已经被广泛研究了几十年，涵盖了广泛的应用，如影像娱乐、智能家居、文物重建、AR旅游、自动驾驶、机器人导航等，已经逐渐成为摄影测量和计算机视觉任务的核心问题。

传统的MVS方法通常遵循稀疏点云生成过程来实现。为了重建稠密的三维点云，需要获取每幅图像恢复的摄像机内、外参数和稀疏点。例如聚类多视图立体(CMVS)和基于补丁的多视图立体(PMVS)是非常流行的密集三维重建方法。CMVS采用SfM滤波器对提取的特征点进行合并，将输入图像分解成一组大小可控的图像簇，然后利用MVS软件进行三维重建。PMVS以CMVS的聚类图像为输入，通过匹配、扩展和滤波生成稠密的三维点云。半全局匹配(SGM)也是一种流行的三维重建方法，它被提出从校正后的立体图像对中估计稠密的视差图，并引入不一致性惩罚。由于SGM算法在计算时间和结果质量之间进行了权衡，它比PMVS更快，并在实时立体视觉应用中得到了广泛采用。尽管这些方法在高纹理区域的理想lambert场景下表现良好，但在一些低纹理、反射区域存在重构不完全的问题，稠密匹配的准确性和鲁棒性降低。同时，传统的方法通常是按顺序进行的，通常需要经过摄像机标定、摄像机运动估计、密集图像匹配等步骤才能实现，这是一个耗时和内存消耗严重的过程，限制了对效率要求比较高的场景的应用。因此，传统的MVS方法仍然需要改进，以获得更稳健和完整的重建结果。

随着深度学习的发展，近年来基于深度学习的MVS模型也被不断提出，Yao等针对MVS问题提出了MVSNet，引入可微单应性来构建特征聚合的代价量，并使用3D正则化进行深度推理。为了减少内存负担，Yao等提出了R-MVSNet，该方法通过门控循环单元(GRU)沿深度方向依次正则化2D成本映射。Chen等人提出了Point-MVSNet，该算法在预定义的局部空间范围内对粗重构进行密集化，从而通过基于学习的细化实现更好的重构，其性能优于MVSNet和R-MVSNet。Gu等人设计了CasMVSNet，在从粗到细的深度推断过程中，通过建立金字塔结构，在给定参数的情况下缩小深度搜索范围，可以高分辨率估计深度图，提高了三维重建的整体精度。Yi等人提出了PVA-MVSNet，该方法可以自适应加权3D成本量，在总体精度上优于MVSNet和Point-MVSnet。Yang等人提出了一种紧凑、轻量级的基于学习的MVS方法，该方法采用从粗到细的策略迭代地推理深度映射，并提出了一种自适应深度范围确定方法。

特征提取是学习MVS算法的关键问题，另一个关键问题是成本量的生成，上述文献虽然引入了CNN块进行特征提取，但在粗细策略中很难捕捉到深度推理任务的重要信息，无法捕捉到深度推理任务的重要信息，并且现有的MVS网络都使用了最初在MVSNet中使用的基于方差的特征聚合。而且Tulyakov等人指出在保证精度不变的情况下可以减少通道的成本量，这意味着具有大量通道的基于方差的成本量可能是冗余的，内存消耗和计算要求可能被减少。与此同时，guo等人在立体图像匹配过程中引入了相似度测量，它为测量特征相似度和减少特征通道找到了一种有效表示的新方法。然而，所提出的测量仅适用于立体图像，不能直接用于MVS网络中的特征聚合。

发明内容

本发明的目的是提供基于注意力代价体金字塔的多视图立体网络三维重建方法，解决当前电力行业中MVS方法中特征提取无法捕捉到深度推理任务的重要信息和功能聚合成本高，资源消耗大的问题；通过引入自注意层来获取深度估计任务的重要信息，在原始自注意力机制的基础上插入相对位置信息，并建立基于相似性的特征聚合方法来提高MVS网络的性能，采用金字塔结构对深度图进行推断，并采用从粗到细的策略，使得该网络模型能够处理高分辨率的图像。

为实现上述技术目的，本发明提供的一种技术方案是基于注意力代价体金字塔的多视图立体网络三维重建方法，包括如下步骤：

S1、结构光摄像机拍摄获取不同室内场景的图像，对获取图像数据进行预处理；预处理后的图像构建训练数据集和测试数据集；

S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型，将训练集作为三维重建网络模型的输入，训练得到权重系数，通过损失函数对权重系数进行优化调整后得到初步三维重建网络模型；

S3、通过测试数据集对训练完成的初步三维重建网络模型进行评估，评估完成后得到最优三维重建网络模型；根据最优三维重建网络模型生成深度估计图；

S4、将得到的所有深度估计图融合成一个完整深度图，包括：通过光度滤波去除离群点，通过几何一致性滤波进行深度一致性测量，将不同视角的深度图整合成统一的点云进行表示。

本方案中，技术方案从粗到细的深度推断策略来实现高分辨率的深度；首先对多视图图像进行下采样，形成图像金字塔，然后建立权重共享的特征提取块进行每一层的特征提取；深度推断从粗级(L级)开始，通过使用相似度度量来构建成本量C^l，即使用基于相似性度量而非基于方差度量的成本量相关性；利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图。将估计的深度图D^l升级到下一层(level L)的图像大小，然后通过深度假设平面估计和代价体积关联建立代价体积C^(l-1)。利用三维卷积块和softmax运算估计出深度残差图R^(l-1)，并将深度图D^(l-1)提升到L-2层的图像大小，进行L-2层深度推断；因此，通过代价体积金字塔{Cⁱ}(i＝L,L-1,...0)形成迭代深度图估计过程。假设参考图像记为I₀∈R^H×W，其中H和W分别为输入图像的高度和宽度。设

为用于重建的输入N幅源图像。对于MVS问题，对于所有输入视图，已知相机固有矩阵，旋转矩阵，平移向量为

方案的目标是在给定

的情况下，从

估计参考图像的深度图D⁰；该技术首先估计最粗层的深度图，然后将较细层的深度图作为前一层的上采样深度图，具有逐像素的深度残差。因此，充分利用前一层的先验信息缩小深度搜索范围，并利用像素深度残差构造新的代价量来进行深度图的细化。由于所有的参数在不同的层次之间是共享的，因此可以迭代地得到最终的深度图。在每个层次上，在特征提取块中引入自注意层，并在自注意力机制中插入相对位置信息，用于捕获深度推理任务中的重要信息，并采用相似度度量方法生成代价量，而不是以往基于方差的方法，提高了模型训练的效率和可靠度。

作为优选，S1包括如下步骤：

结构光摄像机拍摄124室内不同场景的物体图像，首先获取场景中物体的RGB图像数据，然后根据结构光摄像机轨迹扫描各种物体，场景拍摄范围从49到64个不同的视点，所述视点与场景中的RGB图像相对应。

作为优选，所述训练数据集包括有RGB图像数据、相机参数数据、以及图像深度信息数据，所述测试训练集中包括有相机参数数据、RGB图像数据以及对应的测试图片中的像素点坐标信息数据。

作为优选，S2包括如下步骤：

S21、对多视图图像数据进行下采样，形成图像金字塔；

S22、建立权重共享的特征提取块进行每一层的特征提取；

S23、深度推断从粗级开始，通过使用相似度度量来构建成本量C^l，利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图；将估计的深度图D^l升级到下一层的图像大小，通过深度假设平面估计和代价体积关联建立代价体积C^(l-1)；利用三维卷积块和softmax运算估计出深度残差图R^(l-1)，并将深度图D^(l-1)提升到L-2层的图像大小，进行L-2层深度推断，进行迭代深度图估计。

作为优选，S22包括如下步骤：

特征提取模块的构建：特征提取模块包括有8个卷积层、具有16个输出通道的自注意层以及设置在每个自注意层后的激活层；

特征提取模块中引入自注意机制，并在自注意力机制中插入相对位置信息，

给定学习权重矩阵

由输入图像I与权重矩阵的线性乘积之和定义卷积在像素(i，j)处的输出

其中q_ij＝W_Qx_ij，k_ab＝W_kx_ab，v_ab＝W_vx_ab分别表示查询值、键值和预估值，权重学习矩阵

由学习到的参数矩阵组成，

是卷积模块中d_in通道提取的特征图中的一个像素，向量

是通过连接行偏移量

和列偏移量

形成的；B为核大小相同的卷积计算图像块。

作为优选，S23包括如下步骤：

采用成本体积金字塔进行最粗分辨率的深度图推断和较细尺度的深度残差估计；粗分辨率下，给定参考图像的深度范围(d_min,d_max)，均匀采样M个正平行平面构造代价体积，公式为：

d_m＝d_min+m(d_max-d_min)/M

其中m＝0,1,...M-1为假设的深度面，引入可微单应矩阵

用于从第i个源视图到第L层参考图像的代价体积转换，即：

其中大写L表示图像级别，E表示单位矩阵；

引入平均群相关，通过相似性度量来构建图像匹配任务的代价量，计算公式为：

其中，

表示对任意源图像在深度d_m处的特征图进行包裹后插值的特征图，分为G组，形成张量

下标i表示组数；

采用所有视图相似度的平均值表示合计成本量，公式如下所示：

得到每个像素P在粗糙水平上的深度图可表示为：

在更精细的层次上细化D^L(p)，并直观地实现残差图估计，其数学模型表示为：

M是假设的深度平面的数量，r_p＝mΔd_p表示深度残差，Δd_p＝l_p/M表示深度间隔，

是从第L层放大的深度图，l_p表示在p处的深度搜索范围；其中Δd_p和l_p决定了每个像素p出的深度估计结果。

作为优选，迭代深度图估计包括如下步骤：

将图像金字塔

输入到特征提取块进行分层特征图提取，进行深度假设估计，并生成成本量；

剩余深度R^l随深度图D^l通过三维卷积块和softmax运算生成；

将D^l作为L-1层的输入，形成了一个迭代的深度图估计过程；最终的深度图D⁰为到达顶层时的深度图；

构建损失函数公式如下：

其中GT为本地图片的深度映射，Ω为有效像素级；训练过程中通过反向传播来计算模型权重，利用训练完成后的模型的前向传播，得到估计的深度图。

作为优选，S3中，将测试数据集作为初步三维重建网络模型的输入，通过消融试验，在全尺寸图像上通过步骤S2对训练权重进行评估；

评估完成后得到最优三维重建网络模型；根据最优三维重建网络模型生成深度估计图。

本发明的有益效果：本发明设计基于注意力代价体金字塔的多视图立体网络三维重建方法，解决当前电力行业中MVS方法中特征提取无法捕捉到深度推理任务的重要信息和功能聚合成本高，资源消耗大的问题；通过引入自注意层来获取深度估计任务的重要信息，考虑到原始自注意力机制存在排列等边的问题，为充分利用器视觉任务的表达性，取得更好的效果，在原始自注意力机制的基础上插入相对位置信息，并建立基于相似性的特征聚合方法来提高MVS网络的性能，采用金字塔结构对深度图进行推断，并采用从粗到细的策略，使得该网络模型能够处理高分辨率的图像。

附图说明

图1为本发明基于注意力代价体金字塔的多视图立体网络三维重建方法流程图。

具体实施方式

为使本发明的目的、技术方案以及优点更加清楚明白，下面结合附图和实施例对本发明作进一步详细说明，应当理解的是，此处所描述的具体实施方式仅是本发明的一种最佳实施例，仅用以解释本发明，并不限定本发明的保护范围，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

实施例：如图1所示，基于注意力代价体金字塔的多视图立体网络三维重建方法，包括如下步骤：

S1、结构光摄像机拍摄获取不同室内场景的图像，对获取图像数据进行预处理；预处理后的图像构建训练数据集和测试数据集。

S1包括如下步骤：

训练数据集包括有RGB图像数据、相机参数数据、以及图像深度信息数据，所述测试训练集中包括有相机参数数据、RGB图像数据以及对应的测试图片中的像素点坐标信息数据。

S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型，将训练集作为三维重建网络模型的输入，训练得到权重系数，通过损失函数对权重系数进行优化调整后得到初步三维重建网络模型。

S2包括如下步骤：

S21、对多视图图像数据进行下采样，形成图像金字塔；

S22、建立权重共享的特征提取块进行每一层的特征提取；

S22包括如下步骤：

给定学习权重矩阵

由学习到的参数矩阵组成，

是卷积模块中d_in通道提取的特征图中的一个像素，向量

是通过连接行偏移量

和列偏移量

形成的；B为核大小相同的卷积计算图像块。

S23包括如下步骤：

d_m＝d_min+m(d_max-d_min)/M

其中m＝0,1,...M-1为假设的深度面，引入可微单应矩阵

用于从第i个源视图到第L层参考图像的代价体积转换，即：

其中大写L表示图像级别，E表示单位矩阵；

其中，

下标i表示组数；

得到每个像素P在粗糙水平上的深度图可表示为：

迭代深度图估计包括如下步骤：

将图像金字塔

剩余深度R^l随深度图D^l通过三维卷积块和softmax运算生成；

构建损失函数公式如下：

S3、通过测试数据集对训练完成的初步三维重建网络模型进行评估，评估完成后得到最优三维重建网络模型；根据最优三维重建网络模型生成深度估计图。

S3中，将测试数据集作为初步三维重建网络模型的输入，通过消融试验，在全尺寸图像上通过步骤S2对训练权重进行评估；

本实施例中，技术方案从粗到细的深度推断策略来实现高分辨率的深度；首先对多视图图像进行下采样，形成图像金字塔，然后建立权重共享的特征提取块进行每一层的特征提取；深度推断从粗级(L级)开始，通过使用相似度度量来构建成本量C^l，即使用基于相似性度量而非基于方差度量的成本量相关性；利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图。将估计的深度图D^l升级到下一层(level L)的图像大小，然后通过深度假设平面估计和代价体积关联建立代价体积C^(l-1)。利用三维卷积块和softmax运算估计出深度残差图R^(l-1)，并将深度图D^(l-1)提升到L-2层的图像大小，进行L-2层深度推断；因此，通过代价体积金字塔{Cⁱ}(i＝L,L-1,...0)形成迭代深度图估计过程。假设参考图像记为I₀∈R^H×W，其中H和W分别为输入图像的高度和宽度。设

方案的目标是在给定

的情况下，从

适用于本实施例的基于DTU数据集的一个具体事例为：

对图像进行缩放预处理，使得输入图像大小为160*128，选取同一个图像的三个视图作为训练，同时输入到网络中；

提取相机的参数，包括相机的固有矩阵、旋转矩阵和平移向量；

选取图像金字塔和地面真值金字塔的层数为2层，最粗糙的图像分辨率为80×64像素；基于(3)的结果进行特征提取，特征映射，在粗糙平面上得到48个初始深度假设平面，精细平面上得到8个初始深度假设平面，然后计算代价体积金字塔，之后进入3D卷积模块，通过深度残差映射得到重建的三维图像，最后通过loss值动态监督重建的质量。其中特征提取块和3D卷积块在所有层次之间都有权重共享。首先构建图像金字塔，从最粗糙的层次开始迭代深度估计。将每一层估计的深度图作为下一层的输入，进行深度残差估计；

每次训练40个后破坏，批大小设置为36，选用adam作为优化器对网络进行优化，初始学习率设为1*10^-3；

通过对网络参数权重进行调整、优化和确认，生成最终的网络模型，得到图像的深度估计图。

以上所述之具体实施方式为本发明基于注意力代价体金字塔的多视图立体网络三维重建方法的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。

Claims

1.基于注意力代价体金字塔的多视图立体网络三维重建方法，其特征在于：包括如下步骤：

S4、将得到的所有深度估计图融合成一个完整深度图。

2.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法，其特征在于：S1包括如下步骤：

3.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法，其特征在于：

所述训练数据集包括有RGB图像数据、相机参数数据、以及图像深度信息数据，所述测试训练集中包括有相机参数数据、RGB图像数据以及对应的测试图片中的像素点坐标信息数据。

4.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法，其特征在于：S2包括如下步骤：

S21、对多视图图像数据进行下采样，形成图像金字塔；

S22、建立权重共享的特征提取块进行每一层的特征提取；

S23、深度推断从粗级开始，通过使用相似度度量来构建成本量C^l，利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图；将估计的深度图D^l升级到下一层的图像大小，通过深度假设平面估计和代价体积关联建立代价体积C^(l-1)；利用三维卷积块和softmax运算估计出深度残差图R^(l-1)，并将深度图D^(l-1)提升到L-2层的图像大小，进行L-2层深度推断，并进行迭代深度图估计。

5.根据权利要求4所述的基于注意力代价体金字塔的多视图立体网络三维重建方法，其特征在于：S22包括如下步骤：

构建特征提取模块：在特征提取模块中引入自注意机制，并在自注意力机制中插入相对位置信息；

给定学习权重矩阵