CN115830240A

CN115830240A - 一种基于图像融合视角的无监督深度学习三维重建方法

Info

Publication number: CN115830240A
Application number: CN202211618155.2A
Authority: CN
Inventors: 闫涛; 盖彦辛
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-21

Abstract

本发明公开了一种基于图像融合视角的无监督深度学习三维形貌重建方法。包括以下步骤：首先，采集图像的焦点堆栈与对应的焦点位置；其次，迭代通过聚焦区域检测和降采样聚焦区域检测模块得到不同尺度的聚焦体积；然后将多尺度聚焦体积通过四层hourglass网络输出注意力，进而获得场景的预测深度图与全聚焦图像；最后预测深度图与全聚焦图像经过引导滤波函数得到场景最终的三维形貌重建结果。本发明方法从无监督视角解决了场景的三维形貌重建问题，可有效缓解三维形貌重建过程中真实深度标注困难的问题。

Description

一种基于图像融合视角的无监督深度学习三维重建方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于图像融合视角的无监督深度学习三维重建方法。

背景技术

基于视觉的三维重建具有速度快、实时性好、分析直观化等特点,广泛应用于机器人领域的自动导航、计算机视觉中的障碍物识别、建筑学中的三维建模、考古学中的文物修复等领域。因此多领域普适的需求推动三维重建技术向易实现与高精度的方向发展。

在计算机视觉中，额外的深度线索是利用二维图像恢复场景三维结构信息的关键，传统的三维重建方法从散焦、阴影、形状等深度线索出发，往往通过最大锐度的焦点位置来恢复每个像素处的深度。例如聚焦形貌重建方法利用多景深图像序列中焦点信息变化作为线索来估计场景的深度图，是一种典型的被动光学方法。相比其它方法而言，聚焦形貌重建方法不需要依赖高精度的深度探测设备，且在重建过程中可有效保留场景纹理信息。但是聚焦测量算子会受到噪声水平、对比度、场景纹理和其他因素的影响，导致聚焦体积包含错误的聚焦值，进而影响深度图的精确度。此外，基于每个像素的锐度计算深度是很耗时的，而且对于无纹理的对象效果不佳。

神经网络的一大优势是有效提取图像的语义信息，并通过卷积来关联像素信息，因此将深度学习引入深度估计领域预测焦点堆栈的深度可有效解决传统方法存在的缺陷。例如，由于场景深度和散焦模糊量之间存在强关联关系，利用散焦信息恢复深度的深度学习方法通过学习直接回归深度值，可以得到比传统方法更为精确的深度值，但此类深度学习模型需要大量具有真值的数据集，而实际中场景的真值通过难以获取，因此导致深度学习类模型在多焦点三维形貌重建领域的广泛应用。

通过上述研究现状分析，我们认为现有方法存在以下不足：深度信息获取设备通常需要专门的硬件，诸如结构光的投影仪与激光共聚焦的激光发射器等；被动式重建的传统特征评价方法由于需要先验知识介入而缺乏场景适用性与方法鲁棒性；深度学习技术有助于克服这些问题，但典型的深度学习模型需要真实场景的深度标注数据，难以进行实际应用。因此，如何实现领域自适应、有效利用散焦信息且无需真实场景深度图的三维重建是一个重要难题。

因此，本发明在图像融合过程中获取深度信息以实现无监督的三维形貌重建，进而有效解决了真实场景的三维形貌重建标注困难的问题。

发明内容

为克服现有解决方案中不足之处，本发明的目的是提供一种基于图像融合视角的无监督深度学习三维重建方法，包括以下步骤：

步骤1，给定焦点堆栈FS∈R^H×W×N×C和对应的焦点位置P∈R^H×W×N×C，其中H,W分别表示焦点切片的高和宽，N为焦点切片数量，C为通道数，R表示实数域；

步骤2，对步骤1中的焦点堆栈FS∈R^H×W×N×C根据式(1)至式(3)的聚焦区域检测模块得到聚焦体积FV₁∈R^H×W×N×C，

F₁＝dilated(FS) (1)

F₂＝RELU(ResNet(F₁)+FS) (2)

FV₁＝RELU(conv(RELU(conv(F₂))))+F₂ (3)

其中dilated()表示扩张卷积，F₁为初始特征，ResNet()表示残差模块，RELU()表示激活函数,F₂为语义特征，conv()表示3D卷积模块；

步骤3，对步骤2得到的聚焦体积FV₁根据式(4)的降采样聚焦检测模块，输出有效下采样特征F₃，对特征F₃根据式(5)和式(6)进行特征提取得到第二个尺度的聚焦体积

F₃＝RELU(stride_conv(FV₁)+conv(Maxpooling(FV₁))) (4)

F₄＝RELU(ResNet(F₃)+FS) (5)

FV₂＝RELU(conv(RELU(conv(F₄))))+F₄ (6)

其中stride_conv()表示跨步卷积，Maxpooling()表示3D最大池化操作，F₄为语义特征；

步骤4，对步骤3得到的聚焦体积FV₂输入式(7)的降采样聚焦检测模块得到下采样输出特征F₅，然后对特征F₅根据式(8)和式(9)得到第三个尺度的聚焦体积

F₅＝RELU(stride_conv(FV₂)+conv(Maxpooling(FV₂))) (7)

F₆＝RELU(ResNet(F₅)+FS) (8)

FV₃＝RELU(conv(RELU(conv(F₆))))+F₆ (9)

其中F₆为语义特征；

步骤5，将步骤2、步骤3和步骤4分别获得的聚焦体积FV₁,FV₂,FV₃根据式(10)输入四层hourglass网络进行不同尺寸特征的结合与细化，输出每个焦点位置最大锐度概率的中间注意力M∈R^H×W×N；

M＝hourglass(FV₁,FV₂,FV₃) (10)

步骤6，将步骤5得到的中间注意力M根据式(11)进行归一化获得深度图注意力M^depth，并根据式(12)与焦点位置P进行点乘获得预测深度图D，

其中F表示焦点堆栈的图片数量，M_i,j,t表示焦点堆栈中第t幅图像中位于像素点(i,j)处的中间注意力值，

表示第t切片中位于像素点(i,j)处的深度图注意力值，像素点(i,j)的取值范围为1≤i≤H,1≤j≤W，t为堆栈下标其范围为1≤t≤N，D_i,j表示深度图中像素点(i,j)的深度信息，exp()表示指数函数，ln()表示对数函数；

步骤7，将步骤5得到的中间注意力M根据式(13)进行归一化获得全聚焦图像注意力M^AiF，并根据式(14)与焦点堆栈FS进行点乘获得全聚焦图像I，

其中

表示第t切片中位于像素点(i,j)处的全聚焦图像注意力值，I_i,j表示深度图中像素点(i,j)的灰度信息；

步骤8，将步骤6得到的深度图D与步骤7得到的全聚焦图像I根据式(15)的引导滤波函数得到场景最终的三维重建结果D_depth，

D_depth＝GT(I,D) (15)

其中GT()表示引导滤波函数。

与现有技术相比，本发明具有以下优点：

(1)本发明提出的三维重建方法充分利用了深度与全聚焦图像估计的关系，实现了场景无监督的深度信息估计；

(2)本发明提出的三维重建方法具有良好的场景普适性，通过全聚焦图像估计过程中提取具有不变性的聚焦信息实现深度估计，具有良好的场景泛化性。

附图说明

图1为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的流程图；

图2为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的示意图；

图3为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的聚焦区域检测模块示意图；

图4为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的降采样聚焦检测模块示意图；

图5为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的四层

hourglass网络示意图。

具体实施方式

如图1、图2所示，一种基于图像融合视角的无监督深度学习三维形貌重建方法，包括以下步骤：

步骤2，对步骤1中的焦点堆栈FS∈R^H×W×N×C根据式(1)至式(3)的聚焦区域检测模块得到聚焦体积FV₁∈R^H×W×N×C，如图3所示，

F₁＝dilated(FS) (1)

F₂＝RELU(ResNet(F₁)+FS) (2)

FV₁＝RELU(conv(RELU(conv(F₂))))+F₂ (3)

步骤3，对步骤2得到的聚焦体积FV₁根据式(4)的降采样聚焦检测模块(如图4所示)，输出有效下采样特征F₃，对特征F₃根据式(5)和式(6)进行特征提取得到第二个尺度的聚焦体积

F₃＝RELU(stride_conv(FV₁)+conv(Maxpooling(FV₁))) (4)

F₄＝RELU(ResNet(F₃)+FS) (5)

FV₂＝RELU(conv(RELU(conv(F₄))))+F₄ (6)

步骤4，对步骤3得到的聚焦体积FV₂输入式(7)的降采样聚焦检测模块(如图4所示)得到下采样输出特征F₅，然后对特征F₅根据式(8)和式(9)得到第三个尺度的聚焦体积

F₅＝RELU(stride_conv(FV₂)+conv(Maxpooling(FV₂))) (7)

F₆＝RELU(ResNet(F₅)+FS) (8)

FV₃＝RELU(conv(RELU(conv(F₆))))+F₆ (9)

其中F₆为语义特征；

步骤5，将步骤2、步骤3和步骤4分别获得的聚焦体积FV₁,FV₂,FV₃根据式(10)输入四层hourglass网络(如图5所示)进行不同尺寸特征的结合与细化，输出每个焦点位置最大锐度概率的中间注意力M∈R^H×W×N；

M＝hourglass(FV₁,FV₂,FV₃) (10)

其中

D_depth＝GT(I,D) (15)

其中GT()表示引导滤波函数。

Claims

1.一种基于图像融合视角的无监督深度学习三维形貌重建方法，其特征在于，包括以下步骤：

F₁＝dilated(FS) (1)

F₂＝RELU(ResNet(F₁)+FS) (2)

FV₁＝RELU(conv(RELU(conv(F₂))))+F₂ (3)

F₃＝RELU(stride_conv(FV₁)+conv(Maxpooling(FV₁))) (4)

F₄＝RELU(ResNet(F₃)+FS) (5)

FV₂＝RELU(conv(RELU(conv(F₄))))+F₄ (6)

F₅＝RELU(stride_conv(FV₂)+conv(Maxpooling(FV₂))) (7)

F₆＝RELU(ResNet(F₅)+FS) (8)

FV₃＝RELU(conv(RELU(conv(F₆))))+F₆ (9)

其中F₆为语义特征；

M＝hourglass(FV₁,FV₂,FV₃) (10)

其中

D_depth＝GT(I,D) (15)

其中GT()表示引导滤波函数。