CN116168067A

CN116168067A - 基于深度学习的有监督多模态光场深度估计方法

Info

Publication number: CN116168067A
Application number: CN202211646623.7A
Authority: CN
Inventors: 周树波; 周文杰; 蒋学芹; 潘峰
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-05-26
Anticipated expiration: 2042-12-21
Also published as: CN116168067B

Abstract

本发明公开了一种基于深度学习的有监督多模态光场深度估计方法，本发明首先利用光场相机获取焦点堆栈图像和对应的中心视图，得到预处理后的图像；然后将预处理后的焦点堆栈图像和对应的中心视图分别输入到两个不同的特征提取层；解码器通过交叉融合模块融合信息并依次上采样得到深度图；然后利用真值深度图作为监督信号，利用代价损失函数进行迭代训练，不断优化参数，直到模型参数收敛，保存模型参数文件；最后利用训练好的深度神经网络在测试集上进行测试，对于测试集的输出结果，利用RMSE作为深度估计性能的优劣指标。本发明在特征提取层中引入了自注意力机制，可以在光场数据集上实现更加准确的深度估计，提高深度估计的精度。

Description

基于深度学习的有监督多模态光场深度估计方法

技术领域

本发明属于光场深度估计领域，具体来说涉及一种基于深度学习的有监督多模态光场深度估计方法。

背景技术

深度估计就是获取图像中场景里的每个点到相机主点的距离信息。场景的深度信息可以帮助人们更好地理解场景的几何结构，同时为其他视觉任务提供了支持，因而在三维重建、目标识别、图像合成等领域有着广泛的应用。

目前基于深度学习的光场深度估计方法主要有：基于立体匹配的深度估计方法、基于重聚焦的深度估计方法、基于EPI的深度估计方法。基于立体匹配的深度估计方法利用光场图像多视角的特点，根据立体匹配的方法来估计场景中目标物体的深度信息；基于重聚焦的深度估计方法通过比较单个像素在不同焦栈图片处的模糊程度来得到该像素点处对应的深度；基于EPI的深度估计方法利用了极平面图中极线斜率与深度信息之间的对应关系来计算目标场景的深度图。

随着计算机硬件的发展，计算机的计算能力越来越强，深度学习成为了深度估计中的一个热门方向。和传统的方法相比，深度学习的模型经过预训练之后就可以快速的预测出场景的深度，准确性也更好。虽然基于深度学习的深度估计方法可以有效地预测出光场的深度信息，但是受限于目前的硬件算力的制约，如何提取有效的光场特征信息以应对光场数据冗余仍是一个需要面对的问题。

发明内容

本发明的目的在于解决现有卷积神经网络光场深度估计方法在提取输入图像特征信息过程中容易丢失特征的问题，提出一种新型的有监督多模态光场深度估计方法，在特征提取层引入了自注意力机制，实现了更加准确的深度估计。

为实现上述发明目的，本发明提供一种基于深度学习的有监督多模态光场深度估计方法，包括以下步骤：

步骤S1：获取光场的焦点堆栈图像和对应的中心视图；

步骤S2：焦点堆栈图像和对应的中心视图的预处理；

步骤S3：训练时，每次从数据集中获取N×H×W×3的焦点堆栈图像I_focal和H×W×3的中心视图I_rgb作为输入，其中，H和W表示图像的长和宽，N表示焦点堆栈中的切片的个数；

步骤S4：构建基于编码-解码的深度卷积神经网络，其中编码器捕捉图像对之间的内部空间相关性信息，解码器将来自编码器的信息进行融合并进行解码；

步骤S5：训练构建的深度卷积神经网络，以真值深度图作为监督信号，利用代价损失函数训练模型，直至网络模型参数收敛，保存模型文件；

步骤S6：利用训练好的深度卷积神经网络在测试集上进行测试。对于测试集的输出结果，利用RMSE(均方根误差)作为深度估计性能的优劣指标。

优选的是，本发明步骤S4中的基于编码-解码的深度卷积神经网络是一个双流的深度卷积神经网络，其中，双流深度卷积神经网络的每一流都分为编码器和解码器两部分；所述编码器由特征提取层和上下文推理单元组成，其中，焦点堆栈图像I_focal的特征提取层采用VGG-16作为主干网络，且丢弃了VGG-16最后的池化层和全连接层，中心视图I_rgb的特征提取层首先将输入的中心视角I_rgb嵌入成向量，然后经过六个串联的Encoder模块来捕捉图像的上下文之间的信息，最后通过空间变换输入到上下文推理单元中；所述解码器部分包括若干个注意力引导的交叉融合模块和解码层；

优选的是，为了更好的提取输入中心视角I_rgb的特征信息，引入了自注意力机制，将提取的特征信息送入到解码器中，解码器通过交叉融合模块融合信息并依次上采样得到卷积神经网络的输出；

优选的是，本发明步骤S5中的代价函数为L＝λl_depth+μl_grad+vl_normal；其中l_depth为深度误差的对数，

d_i为像素i处的预测深度值，g_i为像素i处的真值深度值，n表示真值深度图中像素不为0的有效像素点的个数，In为取对数操作，α为超参数；l_grad为深度梯度损失函数，/>

为在x方向上的第i个元素处||d_i-g_i||₁的空间导数；/>

为在y方向上第i个元素处||d_i-g_i||₁的空间导数；l_normal为表面法线损失函数，/>

其取决于预测深度值和真值深度值之间的表面法线精度，其中，*，*表示向量的内积，

表示真值深度值的表面法线；/>

表示预测深度值的表面法线，λ，μ，ν为加权系数。

优选的是，本发明步骤S6中的均方根误差表达式为：

其中d_i为像素i处的预测深度值，g_i为像素i处的真值深度值。

本发明涉及一种基于深度学习的有监督多模态光场深度估计方法，是一种以深度学习为理论基础的实现方法。本发明对于深度卷积神经网络的特征提取层的设计可以有效的提高光场深度估计的精度，同时并没有大幅度的提升网络的复杂度，保证了训练时的收敛速度以及推理测试时的时间要求。

现有技术方案中基于编码-解码的深度卷积神经网络对于中心视图的特征提取层采用了VGG-16，且丢弃了VGG-16最后的池化层和全连接层用来提取特征信息。本发明在卷积神经网络中的中心视图特征提取层引入了自注意力机制，可以有效的聚焦重点信息，提取到更好的特征，实现了光场深度估计准确性的提升。

附图说明

图1为本发明实例的整体流程图。

图2为本发明实例的网络结构图。

图3为本发明实例中编码模块的结构示意图。

图4为本发明实例中重组模块的结构示意图。

具体实施方案

本发明实例提供了一种基于深度学习的有监督多模态光场深度估计方法，下面结合附图和实施例对本发明的技术方案作进一步说明。

图1展现了本发明的流程，具体来说包括以下步骤：

步骤S1：获取光场的焦点堆栈图像和对应的中心视图；

本发明使用的数据集采用公开的光场数据集DUT-LFDD，此数据集包括1260组焦点堆栈图像和对应的中心视图，其中，每一组焦点堆栈由12张焦点切片组成。焦点堆栈图像和中心视图的分辨率都是256*256。

步骤S2：焦点堆栈图像和对应的中心视图的预处理；

为了避免过拟合的问题，焦点堆栈图像和对应的中心视图采用相同的变换操作。

1：选择处于取值范围[1，1.5]的尺度缩放因子对焦点堆栈图像和中心视图进行缩放；

2：选择处于取值范围[-5，5]的旋转角度对焦点堆栈图像和中心视图进行随机旋转；

3：在范围[0.6，1.4]内通过均匀采样实现亮度，对比度和饱和度的随机变化，以对焦点堆栈图像和中心视图进行色彩变换。

本发明实例中，焦点堆栈图像的尺寸为12*256*256*3，中心视图的尺寸为256*256*3。

步骤S4：构建基于编码-解码的深度卷积神经网络，将焦点堆栈图像I_focal与中心视图I_rgb作为图像对作为输入；

参照图2，焦点堆栈图像和中心视图输入构建的基于编码-解码的深度卷积神经网络。所述的基于编码-解码的深度卷积神经网络由编码器和解码器两部分组成；所述编码器由特征提取层和上下文推理单元组成，其中，焦点堆栈图像I_focal的特征提取层采用VGG-16作为主干网络，且丢弃了VGG-16最后的池化层和全连接层，中心视图I_rgb的特征提取层首先将输入的中心视角I_rgb嵌入成向量，然后经过六个串联的Encoder模块来捕捉图像的上下文之间的信息，最后通过空间变换输入到上下文推理单元中；所述解码器部分包括若干个注意力引导的交叉融合模块和解码层；

为了更好的提取输入中心视角I_rgb的特征信息，本实例在特征提取层引入了自注意力机制，首先将中心视图嵌入成向量序列，使用Transformer架构提取向量序列之间的相关信息，Transformer架构使得模型可以在关注局部信息的同时更好的捕获各个图像块之间的关系，从而提升模型的性能，增加结果的精度；然后将特征提取层提取的特征信息送入到解码器中，解码器通过交叉融合模块融合信息并依次上采样得到深度卷积神经网络的输出；

本实施例在Pytorch框架下实现，参考图2，焦点堆栈的特征提取层由VGG-16实现，且丢弃了VGG-16最后的池化层和全连接层，其中包含模块1，模块2，模块3，模块4和模块5这5个卷积块，每个卷积块中包含一个池化核为2的二维平均池化，之后接上三个重复的模块，每个模块包含一个卷积核的大小为3*3,步长为1的二维卷积，后接一个Relu激活函数；通过VGG-16的特征提取层可以得到不同分辨率的输出，其中模块3,模块4,模块5的输出尺寸分别为64*64*256，32*32*512，16*16*512；中心视图的特征提取层首先将输入的图像嵌入成256*1024的向量序列，然后拼接一个全零的1*1024的位置向量之后得到257*1024的向量序列，之后经过六个串联的Encoder模块提取特征信息，参考图3，每个编码模块有一个通道方向上的归一化层,之后接上一个多头注意力机制层，然后做一个残差连接，之后再接上一个通道方向上的归一化层，后接上一个三层的多层感知机模块，多层的感知机模块的输入层的维度是1024，隐层的维度为4096，输出层的维度为1024，最后做一个残差连接；通过六个串联的编码模块之后，再经过重组模块将二维的向量序列变换为三维的张量，参考图4，重组模块首先移除输入向量序列中的位置向量，然后将所有的向量进行拼接，之后分别通过一个卷积核大小为3*3，膨胀因子为2*2的膨胀卷积，后接一个采样倍率为2的上采样得到64*64*256的输出，通过一个卷积核大小为3*3，膨胀因子为2*2的膨胀卷积得到32*32*512的输出，通过一个卷积核大小为3*3，膨胀因子为2*2的膨胀卷积，后接一个自适应的最大池化层得到16*16*512的输出；

编码器的上下文推理单元基于空洞卷积和图卷积实现，上下文推理单元将特征提取层输出的焦点堆栈特征或中心视图特征作为输入。该模块顶部是一个短连接操作，由一个1×1的卷积运算实现；中间分支是多重空洞卷积操作，由跨通道学习器和空洞空间卷积池化金字塔组成，其通过1×1卷积运算学习复杂的通道交互，并通过膨胀率为r₁＝3、r₂＝5、r₃＝7的空洞卷积来捕捉不同的图像上下文信息；底部分支是多重图卷积操作。

解码器中的交叉融合模块基于多级注意力机制实现；此模块主要关注焦点信息和中心视图信息在输出深度图时所占的比重；此模块分为两步：首先使用3D卷积和2D卷积实现跨模态的残差连接，然后使用一个权重参数来提取得到细化特征；最后将输出的细化特征进行解码，依次经过上采样、级联和卷积得到深度估计图。

焦点堆栈流的特征提取层使用在ImageNet数据集训练的参数进行初始化，其他模块采用随机初始化，训练过程学习率初始化为10^-4，迭代80个周期后调整为3*10^-4，再迭代20个周期。考虑到输入数据的尺寸，Batchsize设为1。代价损失函数为L＝λl_depth+μl_grad+vl_normal；其中l_depth为深度误差的对数，

为在x方向上的第i个元素处||d_i-g_i||₁的空间导数；/>

表示真值深度值的表面法线；/>

表示预测深度值的表面法线，其中α＝0.5，λ＝1，μ＝0.5，ν＝1。

利用训练好的深度卷积神经网络在测试集上进行测试，测试集一共有337组焦点堆栈图像和对应的中心视图。依次选取一组图像作为输入，计算输出的深度图与真值深度图之间的RMSE(均方根误差)的数值，RMSE(均方根误差)表达式为：

其中d_i为像素i处的预测深度值，g_i为像素i处的真值深度值。将测试集的337组图像的均方根误差值累加并求平均得到平均的RMSE(均方根误差)作为深度估计性能的优劣指标。

综上所述，本发明涉及一种基于深度学习的有监督多模态光场深度估计方法，是一种以深度学习为理论基础的实现方法。本发明对于深度卷积神经网络的特征提取层的设计可以有效的提高光场深度估计的精度，同时并没有大幅度的提升网络的复杂度，保证了训练时的收敛速度以及推理时的时间要求。

本发明并不局限于上述实例，凡是在权力要求范围内做出的任何形式的变形或者修改，均属于本发明的保护范围。

Claims

1.一种基于深度学习的有监督多模态光场深度估计方法，其特征在于包括以下步骤：

步骤S1：获取光场的焦点堆栈图像和对应的中心视图；

步骤S2：焦点堆栈图像和对应的中心视图的预处理；

步骤S6：利用训练好的深度卷积神经网络在测试集上进行测试。对于测试集的输出结果，利用均方根误差作为深度估计性能的优劣指标。

2.根据权利要求1所述的基于深度学习的有监督多模态光场深度估计方法，其特征在于上述步骤S4：构建基于编码-解码的深度卷积神经网络；其中的基于编码-解码的深度卷积神经网络是一个双流的深度卷积神经网络，神经网络的每一流都分为编码器和解码器两部分；所述编码器由特征提取层和上下文推理单元组成，其中，焦点堆栈图像I_focal的特征提取层采用VGG-16作为主干网络，且丢弃了VGG-16最后的池化层和全连接层，中心视图I_rgb的特征提取层首先将输入的中心视角I_rgb嵌入成向量，然后经过六个串联的编码模块来捕捉图像的上下文之间的信息，最后通过空间变换输入到上下文推理单元中；所述解码器部分包括若干个注意力引导的交叉融合模块和解码层。

3.根据权利要求2所述的基于深度学习的有监督多模态光场深度估计方法，其特征在于为了更好的提取输入中心视角I_rgb的特征信息，引入了自注意力机制，将提取的特征信息送入到解码器中，解码器通过交叉融合模块融合信息并依次上采样得到卷积神经网络的输出。

4.根据权利要求3所述的基于深度学习的有监督多模态光场深度估计方法，其特征在于上述步骤S5：深度卷积神经网络通过代价损失函数训练模型进行训练；所述代价函数为L＝λl_depth+μl_grad+vl_normal；其中l_depth为深度误差的对数，

d_i为像素i处的预测深度值，g_i为像素i处的真值深度值，n表示真值深度图中像素不为0的有效像素点的个数，In为取对数操作，α为超参数；l_grad为深度梯度损失函数，

为在x方向上的第i个元素处||d_i-g_i||₁的空间导数；/>

其取决于预测深度值和真值深度值之间的表面法线精度，其中，<*，*>表示向量的内积，/>

表示真值深度值的表面法线；/>

表示预测深度值的表面法线，λ，μ，ν为加权系数。/>

5.根据权利要求4所述的基于深度学习的有监督多模态光场深度估计方法，其特征在于上述步骤S6：深度卷积神经网络进行迭代训练；对于训练好的模型，利用均方根误差作为深度估计性能的优劣指标；其中的均方根误差，表达式为：

其中d_i为像素i处的预测深度值，g_i为像素i处的真值深度。/>