CN114092540A

CN114092540A - 基于注意力机制的光场深度估计方法及计算机可读介质

Info

Publication number: CN114092540A
Application number: CN202111269665.9A
Authority: CN
Inventors: 张倩; 花定康; 张芳; 杜昀璋; 刘敬怀; 王斌; 朱苏磊
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-25

Abstract

本发明涉及一种基于注意力机制的光场深度估计方法及计算机可读介质，其中光场深度估计方法包括：采集光场数据并对其进行预处理，生成光场图像数据集；搭建光场深度估计模型，该模型包括基于EPI特性的视角选择模块、基于通道注意力的ECA_block模块和基于卷积神经网络的ECC_Net网络模块；将光场数据集输入基于EPI特性的视角选择模块，获得选择后的光场图像视角数据；将图像视角数据输入基于通道注意力的ECA_block模块，提取图像的浅层特征，得到加权后的图像特征图；将加权特征图输入到基于卷积神经网络的ECC_Net网络模块，进一步提取图像的深层特征，输出一个精准的深度图。与现有技术相比，本发明具有预测精度高、实用性好等优点。

Description

基于注意力机制的光场深度估计方法及计算机可读介质

技术领域

本发明涉及光场深度估计技术领域，尤其是涉及一种基于注意力机制的光场深度估计方法及计算机可读介质。

背景技术

光场深度信息反映了目标物体的精确空间位置信息。能否快速准确的获得场景的深度是决定光场图像能否得到广泛应用的关键，也是计算机视觉等领域的研究热点之一。它在超分辨率重建，显著性检测，图像识别，智能汽车驾驶等领域发挥着重要作用。

目前，光场深度估计算法主要分为传统建模方法和基于学习的方法。传统建模方法主要包括基于多视角匹配方法、基于重聚焦方法和基于极平面图像方法。

基于多视角匹配方法由二维图像立体匹配演变而来，通过几何关系计算视差，加上使用量化深度标签，在实际场景中会产生一定的误差。基于重聚焦的方法利用了光场图像多视角的特性，将多视角子图像按照规律进行平移叠加，从而呈现不同的聚焦效果，这种方法在图像纹理和抗噪声上有着良好的表现，但需要牺牲大量的时间成本。基于极平面图像方法是对光场四维坐标重组，利用不同视图之间的极线几何关系实现场景重建，在稳定情况下表现出色，受遮挡或噪声影响时表现不佳。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种预测精度高、实用性好的基于注意力机制的光场深度估计方法及计算机可读介质。

本发明的目的可以通过以下技术方案来实现：

一种基于注意力机制的光场深度估计方法，用于从给定图像中获取物体到视角所在平面的距离，所述的光场深度估计方法包括：

步骤1：采集光场数据并对其进行预处理，生成光场图像数据集；

步骤2：搭建光场深度估计模型，该模型包括基于EPI特性的视角选择模块、基于通道注意力的ECA_block模块和基于卷积神经网络的ECC_Net网络模块；

步骤3：将步骤1生成的光场数据集输入基于EPI特性的视角选择模块，获得选择后的光场图像视角数据；

步骤4：将步骤3得到的图像视角数据输入基于通道注意力的ECA_block模块，提取图像的浅层特征，得到加权后的图像特征图；

步骤5：经过步骤4获取的加权特征图输入到基于卷积神经网络的ECC_Net网络模块，进一步提取图像的深层特征，输出一个精准的深度图。

优选地，所述步骤1中对光场图像的预处理具体为：通过一系列旋转、缩放、翻转等方式对原光场图像数据集扩大。

优选地，所述步骤3中EPI特性的视角选择模块具体为：

光场图像为多视角阵列，选择水平、竖直和四个对角块6个区域的若干张视图，设置损失函数，将水平和竖直方向的视图以及四个对角块的部分视图按次序各自堆叠在一起，依次输入3层结构为卷积Conv层、激活函数Relu层、卷积Conv层、批归一化BatchNormalization层和激活函数Relu层的卷积块中。

更加优选地，所述的损失函数为：

其中，L代表损失值，N是样本容量，P的值域是[1,N]，x和y分别代表预测值和实际值。

更加优选地，所述的Relu激活函数为：

f(x)＝max(0,x)。

优选地，所述步骤4中基于通道注意力的ECA_block模块具体为：

将各通道的特征图经拼接后，使用全局平均池化将特征图变为一维数值并映射到权值数值上，权值经Sigmoid激活函数归一化到[0,1]内，并与原特征图相乘得到带权值的特征图。

更加优选地，所述的Sigmoid激活函数为：

优选地，所述步骤5中基于卷积神经网络的ECC_Net网络模块具体为：

将带权值的特征图与经过2个结构为卷积Conv层、激活函数Relu层、卷积Conv层、批归一化Batch Normalization层和激活函数Relu层的卷积块卷积后的特征图相加，在经过Relu激活函数送入下一层，如此反复5次后送入最后一个结构为Conv层、激活函数Relu层、卷积Conv层的卷积块从而得到亚像素精度的深度图。

优选地，所述的步骤5中还设有对光场深度估计模型的验证方法，具体方法为：

首先，计算ground truth与模型所得深度图结果的均方误差MSE：

其中，N代表图像中的像素总数；GT和D分别代表ground truth和模型所得深度图结果；i代表图像中的每个像素点；MSE的值越接近0，代表模型的表现越好；

然后计算峰值信噪比PSNR：

其中，MSE代表均方误差；n代表像素点所占位数；PSNR的值越大，模型失真越小；

最后，计算结构相似性指标SSIM：

其中，x和y分别代表模型所得深度图结果和ground truth；μ代表平均值；σ²代表方差；σ_xy代表x与y的协方差；c₁和c₂是用来维持稳定的常数；SSIM衡量两幅图像之间的相似度，值越接近1，相似度越高。

一种计算机可读介质，所述的计算机可读介质内存储有上述任一项光场深度估计方法。

与现有技术相比，本发明具有以下有益效果：

一、精确度高：本发明中的光场深度估计方法充分考虑了光场视图间的联系，提取特征时通道间的联系，运用残差网络的优点，在加深模型深度的同时，避免了模型的退化，提供了可靠而精确的结果。

二、适应性好：本发明中的光场深度估计方法能适用于多种光场数据集，普适性强，有较高的实用性。

附图说明

图1为本发明中估计光场深度方法的流程示意图；

图2为本发明中估计光场深度模型的结构示意图；

图3为本发明中视角选择模块的运作方式示意图；

图4为本发明中ECA_block模块的运作方式示意图；

图5为本发明中ECC_Net网络模块的运作方式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

随着深度学习在图像分类、分割和识别等高级计算机视觉任务中的广泛应用，基于学习的光场深度估计方法也应运而生。从使用编码器-解码器用于对视图的中心十字线进行深度估计，到定向关系网络从局部EPI分析中学习深度。基于学习的方法在短短数年内快速发展，并在大量数据集上都取得了令人喜悦的效果，其凭借着优良的网络架构，依托计算机硬件的不断发展，从而完成人类难以完成的复杂且精确的计算，势必引领深度估计领域新的潮流。

本发明涉及深度学习网络并从光场图像中估计深度的相关问题，具体是指在充分考虑光场图像特性的基础上，基于注意力机制的光场深度估计模型，以获得精细且可靠的深度图。模型具体包括以下三部分：基于EPI特性的视角选择模块以进行数据预处理；基于通道注意力的ECA_block模块以进行浅层特征提取及通道权重加权；基于卷积神经网络的ECC_Net网络以进行深层特征提取输出最终的深度图。与学术界已存在的光场图像深度估计方法相比，本发明具有能较准确估计出图片的深度信息，精确度高；有效加强了视角间的相互联系，关联性强；适用于多种光场数据集，适应性好的优点。

下面进行详细描述：

一种基于注意力机制的光场深度估计方法，其流程如图1所示，包括：

光场的发展：光是人们感知世界最重要的媒介，让从三维环境获得丰富的信息。与传统方法将图像每个像素点的光线进行角度积分从而记录下光线2D投影不同的是，光场将光线在空间中的所有位置、角度的信息全部记录下来，这保留了光线的大量信息。最早的光场模型概念由Gershun在1936年提出，随后大量的专家和学者对光场的模型进行了深入的研究，直到1991年，Adelson和Bergen将其发展和总结为一个7维的模型，即全光函数。该全光函数包含的7个维度信息分别为空间位置(x,y,z)，光线的方向

波长λ以及时间t。

虽然该模型非常系统而全面的概述了光场信息，然而在实际应用中，获取如此多维度的信息仍是具有较大的挑战性的。因此，简化光场模型成为大势所趋，其中波长维度和时间维度易用RGB通道和不同的帧所替代。现代光场也顺应这种趋势，将注意力聚焦在光线的空间和角度的信息上。这种通过减少维度数来简化光场的方法，再加上软硬件的不断进步，使得如今的光场捕捉设备变得更加的简单便携，商用光场相机的出现更让人们感受到光场图像未来广阔的前景。

目前主流的商用光场相机为Lytro，其工作原理是通过在主透镜和图像传感器间插入一组微透镜阵列从而让照相机可以同时记录到入射光线的空间和角度信息，一次成像便可以获得丰富的光场信息。加上其便携性好和成本低的特点，引起了人们对光场成像前景的广泛期待。四维光场包含了场景的多个视图，利用这些光场数据，可以进行一个深度图的估计。

光场相机相比于传统光学相机，能在一次摄影中采集场景的空间、角度信息，这种特性为光场的深度估计提供了大量稳定可靠的数据。然而，在获取大量信息的同时，光场成像也包含了大量的冗余信息。传统的算法通过对场景中的物体、背景等方面进行精准的建模，这些冗余的信息会对算法产生干扰甚至误判，人们需要花大量的时间去剔除、修正这些信息。

由于光场图像的获取需要借助一定的专业设备，同一场景下图片数据量大多只有9*9*512*512*3，而深度学习的模型往往需要大量的数据进行初期的训练，且目前的光场的公共数据集用于训练的场景数都较为稀少，为加强对模型的训练力度，扩充数据集大小是很有必要的。

本实施例中的扩充数据集的方法包括：

1、图像旋转扩充

由于光场极平面图像独特的方向特性，其本身便包含了角度信息，为保留这种光场属性，需采取不同于一般方式的图像旋转方式：首先，在空间维度上旋转图像后重新排列视点间的连接，并改变其输入的角度通道，以旋转90°为例，原先的水平方向的视图经旋转后，需以垂直视角方向的通道输入模型提取特征。本实验对原数据集分别旋转90°、180°和270°进行扩充。

2、图像缩放、翻转扩充

除了图像旋转扩充数据集能有效提升模型训练精确度外，图像的缩放和翻转也能达到不错的推升。在图像缩放的同时，视差值也同样需要被缩放，本实验对原数据集的图像和视差值缩放为1、1/2、1/3/和1/4倍。

采用以上方法对原数据集进行扩充，增大了训练集的大小，有效提升模型训练效果。

步骤2：搭建光场深度估计模型如图2所示，该模型包括基于EPI特性的视角选择模块、基于通道注意力的ECA_block模块和基于卷积神经网络的ECC_Net网络模块；

首先将扩充后的光场数据集输入到作为处理层的视角选择模块，该模块不仅能减少整体模型运行时间，还能减少数据冗余提升结果精度，并对图像进行一个浅层的特征提取。将处理层得到的浅层特征图继续输入到作为连接层的ECA_block模块，该模型不仅能加强通道间的相互联系，还能对特征图进行权重的赋值，从而让后续网络提取不同图像不同区域的深度特征时有所侧重。将连接层得到的带有权重的特征图输入到主网络ECC_Net中进行深度特征提取，得到精细的深度图。

步骤3：将步骤1生成的光场数据集输入基于EPI特性的视角选择模块，获得选择后的光场图像视角数据。其模块结构如图3所示。

视角选择模块的构建方法为：

由于光场图像为9*9*512*512的多视角阵列，选择水平、竖直和四个对角块6个区域共82张视图，设置好损失函数后，将水平、竖直方向的9张视图和四个对角块的16张视图按次序各自堆叠在一起，依次送入3层结构为卷积Conv层、激活函数Relu层、卷积Conv层、批归一化Batch Normalization层和激活函数Relu层的卷积块中。其中损失函数为：

其中，L代表损失值，N是样本容量，P的值域是[1,N]，x和y分别代表预测值和实际值；使用损失函数来衡量模型预测的好坏，表现预测与实际数据的差距程度。

其中卷积Conv为大小2*2，步长为1的卷积核。使用卷积层用于提取光场图像各种特征。

Relu激活函数为：

f(x)＝max(0,x)。

其中批归一化Batch Normalization层的计算流程依次为计算样本均值、计算样本方差、样本数据标准化处理、进行平移和缩放处理。本质就是对不同样本的同一特征做归一化。其优点为加快网络训练和收敛速度、控制梯度爆炸防止梯度消失和防止过拟合。

步骤4：将步骤3得到的图像视角数据输入基于通道注意力的ECA_block模块，提取图像的浅层特征，得到加权后的图像特征图。其模块结构如图4所示。

ECA_block模块的构建方法为：

首先，将经过三层卷积块卷积后得到的特征块的通道进行压缩，使用1*1的卷积核将六组不等通道数的特征块压缩成1通道并连接起来，经全局平均池化后变得到一个1*1*6的特征图L，通过自适应确定值k与相邻块进行交互并映射到权值向量V上，接着使用Sigmoid函数将权值归一化到[0,1]内。将得到的4个权值扩展为360个，与处理层得到的通道数为360的特征块相乘，最终得到一个带有权值的特征块。

Sigmoid激活函数为：

引入通道注意力机制ECA_block模块对的任务网络框架进行优化加权，提升了深度估计模型的学习效率。

步骤5：经过步骤4获取的加权特征图输入到基于卷积神经网络的ECC_Net网络模块，进一步提取图像的深层特征，输出一个精准的深度图。其模块结构如图5所示。

ECC_Net网络模块的构建方法为：

网络包含11个卷积块，除了最后一个卷积块之外，其余的卷积块全部相同。前10个卷积块设计为Conv-Relu-Conv-BN-Relu结构，其目的是寻找经加权后的特征图之间的相关性。为了推断得到亚像素精度的视差图，最后一个卷积块设计为Conv-ReLU-Conv结构。

因为加深了网络的深度，虽然能获得更精细的效果，但也同样可能出现训练的准确率趋于平缓甚至下降的情况，为避免模型退化，引入残差网络的特性。将上一层特征图与经过2个卷积块卷积后的特征图相加，在经过Relu激活函数送入下一层，如此反复5次后送入最后一个卷积块。残差网络与普通网络不同的地方就是引入了这样的跳跃连接,这可以使上一个残差块的信息没有阻碍的流入到下一个残差块,提高了信息流通,避免了网络过深引起的梯度消失问题和退化问题。

步骤5还包括对光场深度估计模型所得结果进行验证，具体为：

首先，计算ground truth与模型所得深度图结果的均方误差MSE：

然后计算峰值信噪比PSNR：

最后，计算结构相似性指标SSIM：

其中，x和y分别代表模型所得深度图结果和ground truth；μ代表平均值；σ²代表方差；σ_xy代表x与y的协方差；c₁和c₂是用来维持稳定的常数，c₁＝(k₁L)²，c₂＝(k₂L)²，k₁＝0.01，k₂＝0.03，L＝255；SSIM衡量两幅图像之间的相似度，值越接近1，相似度越高；

本实施例还涉及一种计算机可读介质，该介质内存储有上述任一项光场深度估计方法。

综上所述，本发明涉及深度学习网络并从光场图像中估计深度的相关问题，具体是指在充分考虑光场图像特性的基础上，基于深度学习的方法并引进通道注意力机制搭建一种卷积神经网络的模型，以获得精细且可靠的深度图。本发明针对以往方法对光场图像信息中视角选择无序，通道间关联性不强，学习网络精细度不足的问题，充分学习利用视角、通道间联系，加强深度特征提取，避免模型退化，取得精确良好的深度图。对未来便携式摄像技术，智能汽车的发展具有重要意义。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。