CN116778091A

CN116778091A - 基于路径聚合的深度学习多视角立体三维重建算法

Info

Publication number: CN116778091A
Application number: CN202310792243.2A
Authority: CN
Inventors: 张斌; 胡竞予
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-19

Abstract

本发明提出了一种利用路径聚合策略的特征金字塔来提取图像多尺度特征，并将特征图经过可变形卷积层和CBAM卷积块注意力模块增强特征的表现能力。采用路径聚合策略特征提取网络，在常规特征金字塔网络的基础上添加了一条自底向上的路径，加强了低级特征在最终特征图中的表达能力，更有利于三维重建任务。采用了级联的代价体构建方式，在三个尺度下构建不同深度假设平面量的代价体，以此达到提升深度预测效率的目的。各尺度的源视图特征图借助可微的单应变换，得到多个特征体，并将多个特征体基于方差聚合得到代价体。对代价体通过3D‑Unet代价体正则化网络得到初步深度图，并通过深度图细化网络进行细化得到深度图，最后通过深度图融合生成最终的三维点云。

Description

基于路径聚合的深度学习多视角立体三维重建算法

技术领域

本发明涉及计算机图形学和图像处理技术领域，具体涉及一种基于路径聚合策略的深度学习网络方法的多视角立体三维重建算法。

背景技术

多视角立体三维重建主要任务是由多视角图像重建出场景的三维模型，随着自动驾驶、虚拟现实、医学影像等领域对于场景或物体的三维模型应用需求增加，三维重建技术也在飞速发展。

三维重建方法根据采集传感器的不同可分为主动式以及被动式。主动式三维重建是指需要借助对应传感器对目标进行指定的动作或扫描，例如结构光、激光雷达等等。主动式三维重建方法通常需要主动向目标发送脉冲激光或光线，并接受反射或者回波的信息来获取目标的三维结构信息。主动式三维重建有精度高、速度快的特点，但又因其依赖采集设备，故也有成本高昂、泛用性差的特点。被动式三维重建是利用已采集的图像序列来完成三维重建，借助计算机图形学、多视角几何等领域的知识，利用图像中的二维信息，恢复出图像的深度信息以达到完成最终三维重建的目的。

被动式三维重建因其不借助特殊的采集设备，故有其数据易获取、泛用性强的特点，但精度常受限于数据本身。因为获取图像序列与通过深度传感器相比，采集场景或目标的三维结构信息更经济和可靠，那么对于实时性低的任务，被动式三维重建是更好的选择。

多视角立体(Multi-View stereo,MVS)借助单摄像机或多摄像机在多个视角下采集的图像来恢复场景或目标的三维模型，目前的多视角立体算法多以基于深度图的方法为主。多视角立体任务是指给定一系列图像以及其对应的矫正后相机参数，对图像进行深度预测，由预测出的深度图融合重建出场景的密集点云模型。

因此多视角立体算法主要研究重点是生成每幅图像精确的深度图，以进行深度图融合生成稠密三维点云模型。传统多视角立体算法依赖手工设计的特征算子提取特征，在理想朗伯体反射模型下可以有较好的重建效果，但是在非朗伯体区域以及低纹理、重复纹理区域表现较差，重建不完整。而随着深度学习在计算机视觉领域的诸多任务展现出优秀的成绩，以卷积神经网络为代表的网络结构被证明可以提取图像多尺度、多维度特征的能力，研究人员开始将深度学习引入多视角立体任务。

发明内容

针对现有技术的不足，本发明提出了一种以路径聚合策略为主的深度学习多视角立体三维重建算法，针对若纹理、重复纹理区域表现较好，且重建速度块，实施方便，完整度以及精准度高。

技术方案：本发明公开了一种基于路径聚合的深度学习多视角立体三维重建算法。所述三维重建算法具体如下：

步骤1：对照相机进行标定以获得相机参数，并借助设备对场景各个角度采集图像，以此确定各个视图的内外参数。

步骤2：对于拍摄得到的序列图像，对每一张图像求深度图。具体来说：

步骤2.1：将该视图设为参考视图，另选n张源视图，并确定他们的内外参数。

步骤2.2：将n+1张视图经过路径聚合特征提取网络，得到多尺度的特征图。

路径聚合特征提取网络，由两个自底向上、一个自顶向下的卷积神经网络，以及三个可变形卷积层，三个卷积块注意力模块构成。输入图像依次经过自底向上、自顶向下、路径聚合的自底向上网络，每条路径由三个残差卷积块分为三个阶段，两条路径之间通过卷积核尺寸为1x1的横向链接连在一起。为方便阐述，以最上层的输出命名为1阶段，自顶向下，和路径聚合的自底向上路径1阶段的输出与前一路径2阶段的输出经过横向链接加在一起，经过本路径的2阶段，本路径的2阶段输出与前一阶段经过横向链接的3阶段输出加在一起，作为输入给本路径的3阶段。最后由路径聚合自底向上路径三个阶段的输出，再分别经过一层可变形卷积层、卷积块注意力模块得到最终的特征图。三个阶段输出的特征图分辨率分别为输入参考视图的1/4，1/2，1倍。

步骤2.3：命名参考图像特征图为F₀，源图像特征图为F_i(i＝1，...，n)。根据单应变换，借助参考视图与源视图的相机内外参数，通过公式(1)求得源视图特征图F_i到参考视图特征图F₀的单应矩阵H_i(·)。

由于采用的是级联式的由粗到细的代价体构建方式，各个阶段的单应矩阵公式需考虑到深度采样偏移。故由第二阶段开始，采用公式(2)。

其中代表在第k阶段，第m个像素点的预测深度。/>表示第k+1阶段要学习的第m个像素的残余视差。/>由各阶段的深度采样平面数和采样间隔、采样间隔衰减系数决定。

具体为，预先设定三个阶段对应分辨率从低到高，深度假设平面为48，32，8。对于第一阶段，深度采样平面选取为在给定深度范围下，48个深度平面均匀采样。在第一阶段深度预测结束后，在第一阶段深度预测基础上，进行上下16个深度平面采样，满足32个采样平面；在第二阶段深度预测结束后，第三阶段的深度采样平面确定同第二阶段，在第二阶段深度预测值基础上，上下采样4个深度平面，满足8个深度采样平面。级联式的代价体构建，大大减少了在代价体正则化阶段的内存占用，使本发明可用于高分辨率视图三维重建。

步骤2.4：在根据公式(2)求得各F_i(i＝1，...，n)到F₀的单应矩阵后，借助公式(3)将Fi投影到参考视图的各个深度假设平面得到n个特征体F′_i。

F_i′＝H_i(d)F_i (3)

得到各个特征体F′_i后，将n个特征体采用公式(4)，基于方差的方法聚合为一个代价体C。这个过程在三个阶段都会进行。

步骤2.5：在三个阶段中完成对代价体的构建后，分别将代价体通过3D-Unet完成对代价体的正则化。代价体C，首先依次经过conv0，conv1，conv2，conv3，conv4，conv5，conv6分别为3D卷积模块，每个模块中包含一个3D卷积层和批量归一化层、Relu层。再将conv6层的输出经过conv7；conv7的输出与conv4的输出相加输入到conv8；conv8的输出与conv2的输出相加输入到conv9，conv9的输出与conv0的输出相加，再经过一层outlay即得到最终的概率体P。其中conv7，conv8，conv9为3d反卷积模块，其中包含一个反卷积层和批量归一化层、Relu层。三阶阶段的代价体正则化网络参数不共享。

步骤2.6：在经过代价体正则化之后得到当前阶段分辨率的概率体P，对概率体P做softmax运算，并对各个像素点在各个深度下的概率求期望，得到一张初步的深度图。

步骤2.7：对得到的初步深度图通过深度图细化网络进行进一步的细化。首先将输入图像和深度信息沿着通道维度进行拼接，然后，将拼接后的结果传递给一系列的卷积层RefineNet_conv1、RefineNet_conv2和RefineNet_conv3进行特征提取和学习。接下来，通过RefineNet_res进行深度残差预测，得到一个表示深度改进的残差图。最后，将初始深度估计与残差图相加，得到最终的深度估计结果depth_refined，并将其返回，以得到更精确的深度估计结果，完成对参考视图的深度估计。

步骤3：根据经由步骤2完成对所有视图的深度估计得到深度图，进行深度图融合生成场景的空间点云三维表达。

有益效果

本发明利用基于路径聚合的深度学习方法，提取图像的多尺度特征，充分利用图像在各个尺度的高级与低级语义特征，实现对场景的端对端三维重建，部署实施简单。

本发明通过采用路径聚合的特征提取网络，通过路径聚合策略加强了网络对低级语义特征的传播，并通过可变形卷积层和卷积块注意力模块对特征进一步加强。提高了在弱纹理、重复纹理区域的重建精度。且借助深度学习进行特征提取与代价体正则化，相较于传统多视角立体三维重建技术，重建效率更高。

附图说明

为了更清楚地说明本发明的技术说明，以及实现效果，下面将对附图进行详细说明。

参见图1，其为本发明三维重建算法的总体流程图。

参见图2，其为本发明三维重建方法中多视角深度估计的网络结构示意图。

参见图3，其为本发明三维重建算法的重建样例。

具体实施方式

下面根据附图与公式详细描述本发明，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

参见图1，其为本发明提供的基于路径聚合的深度学习多视角三维重建方法流程示意图，在通过相机拍摄多视角图像之后，步骤分别为：

对相机进行标定以获得相机参数，并借助设备对场景各个角度采集图像，以此确定各个视图的内外参数。对于拍摄得到的序列图像，对每一张图像求深度图。具体来说：

步骤1：将该视图设为参考视图I0，另选n张源视图I_i(i＝1，...，n)，并确定他们的内外参数。更详细的是，在源视图的选择上，应根据外参数选择对于参考视图最接近的视图，其次n应该大于等于2(n≥2)。

步骤2：将参考视图与源视图，共计n+1张视图分别经过路径聚合特征提取网络，得到多尺度的特征图，并分别命名参考图像特征图为F₀，源图像特征图为F_i(i＝1，...，n)。。

路径聚合特征提取网络，由两个自底向上、一个自顶向下的卷积神经网络，以及三个可变形卷积层，三个卷积块注意力模块构成。输入图像依次经过自底向上、自顶向下、路径聚合的自底向上网络，每条路径由三个残差卷积块分为三个阶段，两条路径之间通过卷积核尺寸为1x1的横向链接连在一起。

为方便阐述，以最上层的输出命名为1阶段，自顶向下，和路径聚合的自底向上路径1阶段的输出与前一路径2阶段的输出经过横向链接加在一起，经过本路径的2阶段，本路径的2阶段输出与前一阶段经过横向链接的3阶段输出加在一起，作为输入给本路径的3阶段。最后由路径聚合自底向上路径三个阶段的输出，再分别经过一层可变形卷积层、卷积块注意力模块得到最终的特征图。

每个阶段之间，最后一层残差卷积核步长为2，故最终输出特征图分辨率分别为输入参考视图的1/4，1/2，1倍。

步骤3：根据单应变换，借助参考视图与源视图的相机内外参数，通过公式(1)求得源视图特征图F_i投影到参考视图特征图F₀的单应矩阵H_i(·)。

由于采用的是级联式的由粗到细的代价体构建方式，各个阶段的单应矩阵公式需考虑到深度采样偏移。故第二阶段开始，采用公式(2)。

步骤4：在根据公式(2)求得各F_i(i＝1，...，n)到F₀的单应矩阵后，借助公式(3)将Fi投影到参考视图的各个深度假设平面得到n个特征体F′_i。

F_i′＝H_i(d)F_i (3)

步骤5：在三个阶段中完成对代价体的构建后，分别将代价体通过3D-Unet完成对代价体的正则化。代价体C，首先依次经过conv0，conv1，conv2，conv3，conv4，conv5，conv6分别为3D卷积模块，每个模块中包含一个3D卷积层和批量归一化层、Relu层。再将conv6层的输出经过conv7；conv7的输出与conv4的输出相加输入到conv8；conv8的输出与conv2的输出相加输入到conv9，conv9的输出与conv0的输出相加，再经过一层outlay即得到最终的概率体P。其中conv7，conv8，conv9为3d反卷积模块，其中包含一个反卷积层和批量归一化层、Relu层。三阶阶段的代价体正则化网络参数不共享。

步骤6：在经过代价体正则化之后得到当前阶段分辨率的概率体P，对概率体P做softmax运算，并对各个像素点在各个深度下的概率求期望，得到一张初步的深度图。

步骤7：对得到的初步深度图通过深度图细化网络进行进一步的细化。首先将输入图像和深度信息沿着通道维度进行拼接，然后，将拼接后的结果传递给一系列的卷积层RefineNet_conv1、RefineNet_conv2和RefineNet_conv3进行特征提取和学习。接下来，通过RefineNet_res进行深度残差预测，得到一个表示深度改进的残差图。最后，将初始深度估计与残差图相加，得到最终的深度估计结果depth_refined，并将其返回，以得到更精确的深度估计结果，完成对参考视图的深度估计。

通过以上步骤完成对所有视图的深度估计得到深度图，进行深度图融合生成场景的空间点云三维表达。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均包含在发明保护范围之内。

Claims

1.一种基于路径聚合深度学习的多视角立体三维重建方法，其特征在于，所述多视角立体三维重建方法包括以下步骤：

步骤1：设所求深度图视图为参考图像并选取n张源图像，确定对应的相机内外参数。

步骤2：将参考图像和若干源图像分别经过同一路径聚合特征提取网络，以获得各个图像的多次度特征图。

所述特征提取网络由两个自底向上、一个自顶向下的卷积神经网络，以及三个可变形卷积层，三个卷积块注意力模块构成。输入图像先经过一个自底向上的结构，该结构分别由三个残差卷积块构成；再经过一个自顶向下的结构，该结构由三个残差块构成，与前一个自底向上结构通过卷积核为1x1的卷积神经网络作为横向连接进行高级特征与低级特征融合；后续跟进最后一个自底向上的网络结构，体现路径聚合作用，三个层次的由底到高分别命名为P1、P2、P3。P1直接由前一个自顶向下的路径最后一层得到，先有P1经过两个步长为2和1残差块，并将其得到的特征图加上之前自顶向下路径中同层特征图实现横向链接，再经过一个步长为1的残差块得到P2。P3同理。由此得到三个不同尺度的特征图，并将其分别通过不同的可变形卷积块和卷积块注意力模块提取最终的多尺度特征图。

步骤3：根据基于特征图的单应性变换算法，由参考图像和源图像的特征图分别得到n组特征体。将特征体基于方差的方法构建代价体。

步骤4：将构建得到的代价体，经过3D-UNet网络结构进行代价体正则化得到概率体。对概率体沿第一维做softmax运算，并进行期望运算，得到最终参考图像的深度图，并对深度图通过细化网络进行细化。

步骤5：对所有多视角图像重复步骤1-4，求得每张图像的深度图，并经过深度图融合得到三维模型的点云表达，实现对目标场景的三维重建。

2.根据权利要求1所述的基于路径聚合深度学习的多视角立体三维重建方法，其特征在于，由步骤1得到的特征图为三个尺度下的多尺度特征图，步骤3-4在三个尺度下分别进行，以此实现由粗到细的级联代价体构建。对于级联结构的代价体构建方式，具体如下：

预先设定各个阶段的深度采样平面数为48,32,8。对于第一阶段，深度采样平面选取为在给定深度范围下，48个深度平面均匀采样。在第一阶段深度预测结束后，在第一阶段深度预测基础上，进行上下16个深度平面采样，满足32个采样平面；在第二阶段深度预测结束后，第三阶段的深度采样平面确定同第二阶段，在第二阶段深度预测值基础上，上下采样4个深度平面，满足8个深度采样平面。

采样级联式的代价体构建，在第一阶段预测深度图分辨率为输入视图的1/4,第二阶段为1/2，在第三阶段分辨率与参考视图相同。且每次都进行代价体回归的深度假设平面数较小，大大减少了在代价体正则化阶段的内存占用，使本发明可用于高分辨率视图三维重建。

3.根据权利要求1所述的基于路径聚合深度学习的多视角立体三维重建方法，其特征在于，所述步骤3中的对特征图的单应变换，是根据输入参考图像、源图像对应的相机内外参数，以及预设的深度间隔进行，公式如下：

其中K_i,R_i,t_i,分别是第i个视图的相机内参、旋转和平移，I为单位矩阵，i等于0时指代参考视图，n₁代表参考相机的主轴。而将其应用于本网络的级联结构，则第k+1阶段的单应变换公式:

代表在第k阶段,第m个像素点的预测深度。/>表示第k+1阶段要学习的第m个像素的残余视差。

4.根据权利要求1所述的基于路径聚合深度学习的多视角立体三维重建方法，其特征在于，对于所述步骤3对特征图的单应变换，具体为：

步骤4.1：预设每一阶段深度采样数为48、32、8。

步骤4.2：根据公式(2)求参考视图和每一张源视图的单应矩阵H。

步骤4.3：将由权利要求1步骤2所得源视图特征图F_i(i＝1,…,n)借助步骤4.2得到的单应矩阵，通过单应变换，投影到预设的每一个深度平面得到视角转换特征体F′_i。

F_i′＝H_i(d)F_i (3)

步骤4.4：将若干特征体F′_i聚合成一个代价体，通过如下基于方差的公式，其中表示特征体的平均值：

步骤4.5：在级联结构的三个阶段分别执行步骤4.1-步骤4.2。

5.根据权利要求1所述的基于路径聚合深度学习的多视角立体三维重建方法，其特征在于，对于所述步骤4中代价体正则化模块具体如下：

对于级联结构的三个阶段，其代价体正则化模块不共享，彼此独立。每一个代价体正则化模块都为一个3D-Unet结构，具体来说：

输入代价体，首先依次经过conv0，conv1，conv2，conv3，conv4，conv5，conv6分别为3D卷积模块，每个模块中包含一个3D卷积层和批量归一化层、Relu层。再将conv6层的输出经过conv7；conv7的输出与conv4的输出相加输入到conv8；conv8的输出与conv2的输出相加输入到conv9，conv9的输出与conv0的输出相加，再经过一层outlay即得到最终的概率体P。其中conv7，conv8，conv9为3d反卷积模块，其中包含一个反卷积层和批量归一化层、Relu层。

6.根据权利要求1所述的基于路径聚合深度学习的多视角立体三维重建方法，其特征在于，对于其中所述步骤4中的深度图细化网络，具体为：

首先将输入图像和深度信息沿着通道维度进行拼接，然后，将拼接后的结果传递给一系列的卷积层RefineNet_conv1、RefineNet_conv2和RefineNet_conv3进行特征提取和学习。接下来，通过RefineNet_res进行深度残差预测，得到一个表示深度改进的残差图。最后，将初始深度估计与残差图相加，得到最终的深度估计结果depth_refined，并将其返回，以得到更精确的深度估计结果。