CN113705796B

CN113705796B - 基于epi特征强化的光场深度获取卷积神经网络

Info

Publication number: CN113705796B
Application number: CN202111144388.9A
Authority: CN
Inventors: 李晋红; 赵志浩; 武迎春; 程星; 程卫东
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-01-02
Anticipated expiration: 2041-09-28
Also published as: CN113705796A

Abstract

基于EPI特征强化的光场深度获取卷积神经网络，属于光场图像深度获取领域，该网络由数据预处理模块、初级特征提取模块、高级特征提取模块、视差回归模块组成，在数据预处理模块，本专利基于视角差异对子孔径图像进行分类，形成了6组视差大小和方向确定的EPI图像，将其作为网络的输入进行特征学习；在初级特征提取模块，采用4个卷积块组成的多路编码网络来实现EPI初级特征提取，保证网络结构简单的同时有效提取特征；在高级特征提取模块，采用5个稠密残差连接的卷积块对合并后的特征信息进行处理，减少模型参数量的同时强化特征传播且支持特征重用；在视差回归模块，利用两个卷积层回归得到连续视差，实现深度重建。

Description

基于EPI特征强化的光场深度获取卷积神经网络

技术领域

本发明属于光场图像深度获取领域，具体涉及了一种基于EPI特征强化的光场深度获取卷积神经网络。

背景技术

深度信息在目标检测与识别、自动驾驶、人脸识别系统等领域有着广泛的应用价值，传统相机拍摄照片时将3D场景映射到2D平面，这一过程损失了场景的深度信息，因此利用图像处理技术获取准确的场景深度信息具有实际意义。光场相机捕获的4D光场数据可以提取出多张子孔径图像，使得光场相机可以通过一次曝光得到不同位置观察场景的多视点图像，利用该多视点图像可实现深度估计。相比于传统利用多相机拍摄多视点图像进行深度估计的技术，基于光场成像的深度获取技术可有效节约硬件成本，且可基于相机单次曝光完成深度重建，在基于立体匹配的深度估计技术中具有显著优势。

目前，基于光场图像深度获取方法大致可分为两类：迭代优化算法和深度学习方法。迭代优化算法的典型代表包括：张硕等人提出的旋转平行四边形算子获取光场深度图，该方法通过求解平行四边形两部分直方图距离最大的直线斜率来得到水平EPI图像和垂直EPI图像的斜率，最后通过优化两个方向EPI图像深度图来获取最终的深度图，其在遮挡区域深度重建效果较好。Tao等人提出的散焦评价结合相关性评价获取光场深度图，该方法分析了散焦函数在图像纹理重复区域和噪声区域具有较好的效果，相关性函数在明亮区域和遮挡区域具有很好的鲁棒性，然后对两个函数获得的初始深度图进行马尔科夫融合来获取全局最优的深度图。Jeon等人则提出基于亚像素位移的多视角立体匹配算法，利用相移定理获得移动后的子孔径图并与中心子孔径图像作差来寻找精确的亚像素位移量，建立绝对误差和与梯度误差的代价函数来获取深度图，最后通过迭代优化算法获取全局最优深度图。该类方法的普遍问题在于时间复杂度较高。

随着计算机硬件的发展以及机器学习理论的不断成熟，出现了众多利用深度学习进行深度估计的研究成果。包括Heber提出的一种结合CNN和变分优化的方法，该方法通过建立三层卷积神经网络来预测EPI斜线的方向，并制定了一个具有高阶正则化的全局优化对初始深度图优化得到高质量深度图。Shin等人提出了EPI-Net，该网络针对光场图像的子孔径图像建立多支路网络，获取四种不同方向的子孔径图像的卷积特征并进行多支路特征融合，再通过全卷积块来获取高级别的特征，最后通过一个卷积块来获取光场图像的深度图。该算法充分利用全卷积网络可以逐像素密集预测的特点来获取最优的视差信息从而获取全局高质量的深度图。Tsai提出的LFattNet对所有的子孔径图像提取初级特征，再对特征图作多次平移构造五维代价体，并利用多个三维卷积模块进行代价聚合，最后通过SoftArgmin函数回归得到连续的视差图。以上基于深度学习的算法在进行深度估计时，其核心在于视差的准确估计，传统EPI图像的定义被再次引入到深度学习网络中，以更好的表达视差特征。Heber提出的CNN网络通过预测EPI斜率来实现深度估计，受限于光场相机的角度分辨率，其EPI图像分辨率有限，故深度估计精度不高。Shin将多张子孔径图像的堆栈定义为广义EPI图像，其设计深度学习网络以多张子孔径图像堆栈为输入，区别在于EPI-Net选定四个特性方向的子孔径图像为网络输入，来降低输入数据复杂度，该网络结构简单，但子孔径图像的视差特征没有被充分利用，后期特征提取通过加深网络来实现，限制了该网络的深度估计精度。LFattNet将所有光场子孔径图像为网络输入，光场子孔径图像的视差特征被充分利用，但后期由于信息冗余，需加入注意力机制来选择对深度估计更有效的子孔径图像，增加了网络的复杂度。因此，设计网络结构简单、且子孔径图像的视差信息能够被充分利用的网络，对提高深度获取精度具有重要意义。

发明内容

本发明从降低深度学习复杂度出发，注重光场子孔径图像视差信息的有效合理利用，提出了基于EPI特征强化的光场深度获取卷积神经网络，用于提高光场深度估计的精度。

本发明包括以下实施步骤：基于EPI特征强化的光场深度获取卷积神经网络，该网络由数据预处理模块、初级特征提取模块、高级特征提取模块以及视差回归模块组成；

数据预处理模块：通过对4D光场数据进行解码，可以得到N×N幅不同视点的光场子孔径图像，解码得到N×N幅不同视点的子孔径图像存在微小视差，可用于场景深度获取；

基于子孔径图像的视角差异，选择存在水平视差、垂直视差、水平、垂直等值视差及环形视差的子孔径图像用于深度估计，根据视点位置，将每一子孔径图像的位置索引定义为(m,n)，m∈[1,N],n∈[1,N]，基于以上子孔径图像索引规则，中心孔径图像的索引可表示为：基于每一子孔径图像与中心孔径图像位置索引的差异，建立的子孔径图像分类规则如下：

基于上式得到的6组子孔径图像堆栈形成6路视差不同的EPI图像，作为基于EPI特征强化的深度图获取网络的输入进行学习，获得深度图像；

初级特征提取模块：获得6路不同视差信息的EPI图像后，通过多路编码网络来提取不同EPI图像的初级特征；

高级特征提取模块：经过多路网络提取到6路不同特征图后，合并所有的特征图，经过5个稠密残差块来提取高级别的特征图，每个残差块采用稠密连接的方式，即每一层输入都是前面输入的总和，该层学习到所有的特征图也会被直接传递到其后面层作为输入，其表达式为：

x_l+1＝H([x₀,x₁,,,x_l]) (2)

其中，H表示非线性操作，x₀,x₁,…,x_l为第0,1,…,l层的特征拼接；

视差回归模块：利用两个卷积层回归得到连续视差，实现深度重建。

进一步的，每个稠密残差块包含非线性变换组合为批量标准化+激活+卷积，且卷积核大小为2×2，步长为1。

本发明基于EPI特征强化的光场深度获取卷积神经网络由数据预处理模块(EPI图像生成模型)、初级特征提取模块(多路编码网络)、高级特征提取模块(稠密残差网络)、视差回归模块组成。在数据预处理模块，本专利基于视角差异对子孔径图像进行分类，形成了6组视差大小和方向确定的EPI图像，将其作为网络的输入进行特征学习；在初级特征提取模块，采用4个卷积块组成的多路编码网络来实现EPI初级特征提取，保证网络结构简单的同时有效提取特征；在高级特征提取模块，采用5个稠密残差连接的卷积块对合并后的特征信息进行处理，减少模型参数量的同时强化特征传播且支持特征重用；在视差回归模块，利用两个卷积层回归得到连续视差，实现深度重建。

此外，本发明提出的基于EPI特征强化的光场深度获取卷积神经网络在所有卷积层增加了零填充和映射填充，以保证输出的深度图尺寸与输入图像尺寸一致，克服了网络获取深度图尺寸与纹理尺寸不匹配带来的后期应用限制。实验论证了所提网络的正确性和有效性，且预测的深度图在复杂场景具有更高的精度。

附图说明

图1为本发明的网络结构示意图；

图2为子孔径图像选择与位置索引定义；

图3为多路编码网络分支结构；

图4为稠密残差网络的结构示意图；

图5为本发明实例中实验场景图，其中(a)“dino”场景，(b)“boxes”场景，(c)“table”场景，(d)“town”场景；

图6为本发明实例中“dino”实验结果对比图，其中(a)为真实深度值，(b)为SPO算法的结果，(c)为EPI-Net算法结果，(d)为本发明算法结果；

图7为本发明实例中“boxes”实验结果对比图，其中(a)为真实深度值，(b)为SPO算法的结果，(c)为EPI-Net算法结果，(d)为本发明算法结果；

图8为本发明实例中“table”实验结果对比图，其中(a)为真实深度值，(b)为SPO算法的结果，(c)为EPI-Net算法结果，(d)为本发明算法结果；

图9为本发明实例中“town”实验结果对比图，其中(a)为真实深度值，(b)为SPO算法的结果，(c)为EPI-Net算法结果，(d)为本发明算法结果；

具体实施方式

下面结合附图对本发明实施例做进一步说明：

基于EPI特征强化的光场深度获取卷积神经网络，该网络由数据预处理模块(EPI图像生成模型)、初级特征提取模块(多路编码网络)、高级特征提取模块(稠密残差网络)、视差回归模块组成，网络结构如图1所示。下面根据网络结构对本发明的网络分模块进行具体描述：

1)数据预处理模块-基于视角差异的光场EPI图像生成过程：

通过对4D光场数据进行解码，可以得到N×N幅不同视点的光场子孔径图像，其中N×N代表光场相机的角度分辨率，即每一个微透镜单元下有效的传感器单元数。解码得到N×N幅不同视点的子孔径图像存在微小视差，可用于场景深度获取。由于该类子孔径图像基线距离较短，且有些图像存在局部遮挡，因此建立合理的算法对子孔径图像进行选择和分类，可有效提高深度重建精度。

本发明基于子孔径图像的视角差异，选择了存在水平视差、垂直视差、水平、垂直等值视差及环形视差的子孔径图像用于深度估计，根据视点位置，将每一子孔径图像的位置索引定义为(m,n)，m∈[1,N],n∈[1,N]，如图2所示，本专利选择的子孔径图像为图2中高亮的部分。基于以上子孔径图像索引规则，中心孔径图像的索引可表示为：本专利基于每一子孔径图像与中心孔径图像位置索引的差异，建立的子孔径图像分类规则如下：

基于上式得到的6组子孔径图像堆栈形成6路视差不同的EPI图像，作为本发明基于EPI特征强化的深度图获取网络的输入进行学习，获得深度图像。

2)初级特征提取模块-基于多路编码网络的初级特征提取过程

获得6路不同视差信息的EPI图像后，通过多路编码网络来提取不同EPI图像的特征，多路编码网络都是由四个卷积块组成，其分支结构如图3所示。因为全卷积网络是一种用于像素级密集预测的有效结构，因此，定义了一个基本的卷积块(ConvolutionalBlock)，其中包含一系列非线性操作：卷积+激活+批量标准化+卷积+激活(Conv-ReLU-BN-Conv-ReLU)来测量图像中的每像素视差，由于池化层会减小最终深度图的尺寸，故这里的卷积块没有采用池化层。为了处理光场图像基线短的问题，所有的卷积核尺寸为2×2步长为1。

3)高级特征提取模块-基于稠密残差的EPI图像高级特征提取

经过多路网络提取到6路不同特征图后，合并所有的特征图，经过5个稠密残差块来提取高级别的特征图，每个残差块采用稠密连接的方式，即每一层输入都是前面输入的总和，该层学习到所有的特征图也会被直接传递到其后面层作为输入，如图4所示，其表达式为：

x_l+1＝H([x₀,x₁,,,x_l]) (2)

其中，H表示非线性操作，x₀,x₁,…,x_l为第0,1,…,l层的特征拼接。

不同于普通网络的非线性变换，本发明用于高级特征提取的稠密集连接网络的非线性变换需要考虑子孔径图像基线短的特点以及深度图的完整性，没有采用池化(Pooling)来避免深度图尺寸的减小。采用的非线性变换组合为批量标准化+激活+卷积(BN-ReLU-Conv)，由于光场图像基线短，造成子孔径图像间视差较小，卷积核的尺寸和卷积步长过大会使学习过程中无法找到两幅图像的同源点，因此，本发明高级特征提取模块选用的卷积核大小为2×2，步长为1。

每个非线性变换H_l(·)产生k张特征图，则第l+1层的网络输入特征图为k₀+l×k，其中k₀代表原始图像的通道数。本模块的特点为每一层都可以访问所有前面的特征图，k设置过大会降低网络训练速度，这里设置为k＝24。但由于每一个稠密残差块的输入是前边每一个块的输出之和，因此引入一个1×1的卷积来减少输入特征图的数量，从而提高计算效率。

4)视差回归模块-深度图的获取

在视差回归模块，利用两个卷积层回归得到连续视差，实现深度重建。此外，为了保证整个网络输出和输入的特征大小一致，使得后期深度图与纹理图的图像尺寸匹配，本发明在多路编码网络提取EPI图像初级特征时，采用映射填充的方式来避免图像卷积过程中产生的特征图尺寸变小。在稠密残差模块中，采用零填充来保证特征图的尺寸不变。

上面对本发明的网络结构进行了详细描述，下面在对本网络结构的网络训练过程进行描述。

本发明采用HCI 4D光场数据集进行训练和测试，该数据集包含24个场景，每个场景包含9×9张子孔径图像，每张子孔径图像的大小为512×512。本发明选择16个场景用于训练，8个场景用于测试，实验前进行了有效的数据增强。在训练阶段，为了加快网络的训练速度，网络将输入图像随机裁剪为25×25大小的子图像，并针对图像中的若纹理区域进行删除，避免引起非同源点的错误匹配关系。在测试阶段，输入图像大小为512×512，多路编码网络提取6路不同初级特征时，采用4次映射填充来避免卷积过程中特征图的变小；将6路初级特征进行合并，之后采用零填充的密集块来提取更高级别的特征，进一步保证特征图的尺寸不变。所以，网络最终输出深度图的大小为512×512。

网络训练采用的损失函数为平均绝对误差，即网络输出图像的深度值和标准图像的深度值之间的误差的绝对值，具体表达式如下式：

其中，y_i表示图像真实深度值，表示图像的预估深度值，m表示是图像的像素总数。

训练使用的优化器为小批量随机下降，批次大小(batch-size)为16，训练使用的迭代优化函数为RMSprop，训练的学习率从最开始的1×10^-5下降到1×10^-6，GPU为NVIDIATITAN2080，采用Tensorflow为训练后端，Kears搭建网络，训练时间为1到2天。

训练完成后，采用大小为512×512图像作为验证集来验证训练效果，评价方式采用具有标准深度值的评价指标，具体的评价指标为均方误差(Mean Squared Error，MSE)和坏像素率(Bad Pixel，BP)。均方误差测量整幅深度图与标准深度值的之间的误差，值越小，表明结果越好，具体公式如下：

坏像素率的含义为：当一个像素点预估的深度值与标准深度值之间的差值超过一定的阈值时，代表该像素点的预估的深度值不正确，该像素为不良像素。不良像素占总像素的比例称为不良像素率，其值越小，代表结果越好，具体表达式如下：

其中，y_i表示图像真实深度值，表示图像的预估深度值，m为图像的像素总数，t为阈值，最常用的值为0.07。

为了验证本发明所提网络的有效性，选择4幅图像验证所提算法的有效性，如图5所示。图5(a)是一幅具有三角形状轮廓的物体场景“dino”，需要精确的估算其三角形状的深度；图5(b)是一幅具有网格箱子的场景图“boxes”，场景深度的估计主要难度在于网格内外部存在深度值的跳变，且需要准确估算出网络的形状，其深度图的获取比轮廓简单的物体深度图获取更为困难；图5(c)是一书房课桌场景图“table”，其场景中包括有轮廓清晰的台灯结构、复杂轮廓的花盆结构及具有深度值跳跃的方格，需要准确的估算出它们的深度值；图5(d)是一幅城镇的场景图“town”，是所选场景中最为复杂的，场景中存在许多具有多边结构的房屋场景，且存在多个具有深度值跳跃的窗户结构，深度图的获取难度在于需要精确估算出具有深度跳跃的窗户结构。

实验结果如图6-9所示。从图6中可以看出，在“dino”场景中，在所选的白色方框区域，相比于SPO算法和EPI-Net算法，本发明算法在左下角的积木区域估计的锯齿轮廓更为清晰；图7“boxes”场景中，在所选具有深度跳跃的网格区域，本发明算法相比于SPO算法和EPI-Net算法具有更清晰的网格结构；在图8“table”场景中，SPO算法和EPI-Net算法无法估算出具有深度值跳跃的方格，而本发明算法能够清晰的看到方格后面具有深度的跳跃；图9“town”场景中，本发明算法在具有深度值跳跃的窗户区域，相比于SPO算法和EPI-Net算法具有更清晰的纹理特征和轮廓结构。综上，本发明算法在人眼视觉效果上更好。

人眼视觉效果只能定性分析体现本文算法的优越性，不能客观反映算法的准确性。因此，本发明进行定量分析，采用的定量评价指标为均方误差(Mean Squared Error，MSE)和坏像素率(Bad Pixel，BP)。评价结果如表1所示，本发明算法相比SPO算法和EPI-Net算法，具有更小的均方误差和最低的坏像素率，进一步证明了本发明算法的有效性。

表1 实验结果定量评价

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于EPI特征强化的光场深度获取卷积神经网络，其特征在于：该网络由数据预处理模块、初级特征提取模块、高级特征提取模块以及视差回归模块组成；

初级特征提取模块：获得6路不同视差信息的EPI图像后，通过多路编码网络来提取不同EPI图像的初级特征，多路编码网路的每路分支结构相同，其分支结构包括由四个卷积块组成，卷积块包含一系列非线性操作：卷积+激活+批量标准化+卷积+激活来测量图像中的每像素视差；

x_l+1＝H([x₀,x₁,,,x_l]) (2)

2.根据权利要求1所述基于EPI特征强化的光场深度获取卷积神经网络，其特征在于：每个稠密残差块包含非线性变换组合为批量标准化+激活+卷积，且卷积核大小为2×2，步长为1。