CN108846473A

CN108846473A - 基于方向和尺度自适应卷积神经网络的光场深度估计方法

Info

Publication number: CN108846473A
Application number: CN201810317425.3A
Authority: CN
Inventors: 周文晖; 梁麟开; 魏兴明; 周恩慈
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-11-20
Anticipated expiration: 2038-04-10
Also published as: CN108846473B

Abstract

本发明公开了一种基于方向和尺度自适应卷积神经网络的光场深度估计方法。本发明包括如下步骤：步骤1.准备光场数据集，制作训练集和测试集；步骤2.搭建方向和尺度自适应的卷积神经网络SOA‑EPN；步骤3.使用训练集训练搭建好的SOA‑EPN网络；步骤4.使用练好的SOA‑EPN网络在测试集上进行测试；本发明借助于尺度和方向感知卷积神经网络来预测光场深度，不仅利用了多方向，而且很好的处理了遮挡等问题，得到准确的深度估计结果。

Description

基于方向和尺度自适应卷积神经网络的光场深度估计方法

技术领域

本发明是关于深度学习与光场深度估计领域，特别涉及基于方向和尺度自适应卷积神经网络的光场深度估计方法。

背景技术

深度学习是近年来人工智能领域中的一项重要突破，已在图像识别、语音识别、自然语言处理等多个方向取得了突破性进展。相比于传统机器学习方法，深度学习方法的主要过程为：构建数据集；使用卷积层、全连接层、激活层等定义深度神经网络，定义损失函数；利用数据集训练定义好的深度网络模型，即使用反向传播技术和梯度下降等优化方法更新神经网络的参数。训练完成的深度网络模型可以拟合出某个高维复杂函数，该函数实现网络输入到输出的映射；利用训练好的深度模型在测试数据集上进行预测。卷积神经网络是人工神经网络发展最成功的网络结构之一，它擅长利用卷积层提取输入图像从低维到高维的深度特征，然后利用这些特征完成分类、回归等任务。

与此同时，光场成像与计算是近年来计算机视觉领域中的一门新兴技术，通过在相机镜头和图像传感器之间增加一个微透镜阵列，光场相机可以记录下汇聚在传感器像素上的光线的亮度与角度，形成4D光场，为突破传统成像模型和成像机制的维度局限提供了新思路和新方法[]。鉴于4D光场提供的丰富信息，利用光场图像进行场景结构(深度)恢复的研究获得了越来越多的关注，一批基于EPI(Epipolar Plane Image)图像分析的深度估计方法涌现出来，这些方法本质上是一种立体匹配方法。EPI图像是4D光场的一个切片，它由极线(Epipolar Lines)组成，通过计算极线的斜率，可以间接获得深度图，完成深度估计。但是这种方法也面临着难以计算图像无纹理区域、遮挡区域的深度等问题。如何选择大小合适的匹配窗口是解决这些问题的一个关键，例如在计算图像无纹理区域的深度时，需要一个较大的窗口将更多的邻域像素纳入到匹配代价的计算中，增强邻域约束。相反，在计算图像遮挡区域的深度时，需要一个较小的窗口避免纳入过多的遮挡点影响匹配代价的计算。另一方面，多方向EPI图像为深度估计提供了更多的约束和深度线索。综上，我们设计了一种具备EPI图像方向自适应、EPI图像尺度自适应能力的卷积神经网络来解决上述深度估计面临的无纹理和遮挡问题。

发明内容

本发明的目的是针对现有技术的不足，设计了一种以0°、45°、90°、135°四个方向的EPI图像块作为输入，输出视差图，具备EPI图像方向自适应、EPI图像尺度自适应能力的卷积神经网络(SOA-EPN)，并利用SOA-EPN提出了一种光场深度估计方法。

本发明解决其技术问题采取的技术方案包括如下步骤：

步骤1.准备光场数据集，制作训练集和测试集；

步骤2.搭建方向和尺度自适应的卷积神经网络SOA-EPN；

步骤3.使用训练集训练搭建好的SOA-EPN网络；

步骤4.使用练好的SOA-EPN网络在测试集上进行测试；

步骤1具体包括下述步骤：

步骤1-1：使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluationmethodology for depth estimation on 4d light fields,”in Asian Conference onComputer Vision,2016.)作为实验数据集，该数据集包含28个场景，并提供了高精度的视差和性能评估指标。每一个场景包含9行9列共81张大小为512×512的子光圈图像。将上述28个场景分为两部分，利用其中16个场景制作训练集，12个场景制作测试集。

步骤1-2：将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系，(s,t)是角度坐标系。对于中心子光圈图像LF(4,4,x,y)上的任一点P，提取P点的0°、45°、90°、135°四个方向大小为9×21×3(高×宽×通道)的EPI图像块，这四个EPI图像块构成了数据集的一个样本，输入到卷积神经网络。

所述步骤2具体实现如下：

步骤2-1：搭建方向和尺度自适应的卷积神经网络SOA-EPN。

所述的SOA-EPN由4个尺度感知网络(Scale-Aware network简称：SAN)构成。训练集和测试集的每一个样本包含四个EPI图像块，每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入，预测输出是该图像块中心点P的视差预测向量logit_i，其中i＝0,1,2,3，因此会得到4个视差预测向量，使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差；

为了减少SOA-EPN的隐含层数量，减少网络参数量，降低卷积神经网络过拟合的风险，将4个尺度感知网络SAN进行权值共享，达到深度压缩的目的。

设定视差预测范围是-4到4(单位：像素)，将视差预测定义为一个分类任务，预测精度是0.035个像素，则可分为229类。

所述尺度感知网络SAN一共18层，分为3个子网络，具体参看表1：

表1：

所述的3个子网络，具体如下：

(1)深度特征表征网络(第1到第8个卷积层)

该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征，对每个卷积层的输出进行批归一化(BN，batch normalization)处理，再使用ReLU函数对批归一化的输出结果进行激活；所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x₀，x₀其大小为512×1×13(特征图数量×高×宽)，即512个大小为1×13的特征图(特征向量)。

(2)尺度自适应选择网络(第9到第16个卷积层)

尺度自适应选择网络(Scale-Adaptive-Selection-Network,SASN)是一个具有长跳跃和短跳跃连接(skip connection：跳跃式连接)的多层前馈网络，包含了四个尺度选择单元(Scale-Selection-Unit,SSU)，每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层，一个切片操作和一个跳跃式连接组成。尺度自适应选择网络SASN的作用是改变SOA-EPN网络的输入EPI图像块的尺寸大小。实现原理是：SOA-EPN在第8个卷积层的感知域大小为9×9，而x₀是尺寸为9×21的EPI图像块的深度特征，通过改变x₀的尺度可以间接地改变输入EPI图像块的尺寸，进而实现尺度自适应选择功能(利用感知域的概念，通过切片操作改变特征向量的尺寸，进而间接改变输入图像的尺寸，达到尺度自适应选择的目的，是本专利的核心思想)。可以通过四次切片操作s(·)改变x₀的尺寸，进而获得尺寸为9×19、9×17、9×15、9×13的输入EPI图像块的深度特征x₁、x₂、x₃、x₄，尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合，选择的策略是在训练SOA-EPN的过程学习得到的。值得注意的是，SASN只以一张尺寸为9×21的EPI图像块作为输入，通过尺度选择单元SSU实现尺度自适应选择，而不是输入多张不同尺寸的EPI图像块。

第i个尺度选择单元的输出hi定义为：

其中，x₀是尺寸为9×21的EPI图像块的深度特征，x_i代表x₁、x₂、x₃、x₄。F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作。值得注意的是，x_i的特征图数量可能会小于F(h_i-1)的特征图数量，采用补0的方式使得x_i和F(h_i-1)的特征图数量相等。s(·)是切片操作。

所述的切片操作s(·)是指沿宽度通道切除x_i-1中每一个特征图(特征向量)的两端各一个神经元，进而得到x_i-1的中心区域，也就是x_i。具体来说，是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图；x₀进行一次切片操作后得到x₁，x₁是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图；同理，x₁进行一次切片操作后得到x₂，x₂是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图。以此类推，x₁、x₂、x₃、x₄分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图，尺寸依次是512×1×11、576×1×11、576×1×9、640×1×7、640×1×5。

第9层和第10层是卷积核为1×2、步长为1×1的卷积层，它是第一个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理，再使用斜率为0.01的LeakyReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(576,576)，第10个卷积层输出576个大小为1×11的特征图。

第11层和第12层是卷积核为1×2、步长为1×1的卷积层，它是第二个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理，再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(576,576)，第12个卷积层输出576个大小为1×9的特征图。

第13层和第14层是卷积核为1×2、步长为1×1的卷积层，它是第三个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理，再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(640,640)，第14个卷积层输出640个大小为1×7的特征图。

第15层和第16层是卷积核为1×2、步长为1×1的卷积层，它是第四个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理，再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(640,640)，第16个卷积层输出640个大小为1×5的特征图。

(3)预测网络(第17、第18个全连接层)

第17层是拥有1024个神经元的全连接层(Fully Connected Layer，简称FC)，使用ReLU函数对该全连接层的输出进行激活，使用Dropout技术处理ReLU函数的输出，每一个神经元只有50％的概率参与计算。第17层的最终输出是一个大小为1×1024的特征向量。

第18层是拥有229个神经元的全连接层，从而得到大小为1×229的视差预测向量logit_i。

步骤2-2：为了增强了训练过程的可控性，减少深度学习的黑箱效应，使用多层交叉熵损失函数对SOA-EPN进行训练，多层交叉熵损失函数如下：

其中，N是训练集的一个批大小，w_i是权重，||·||计算向量的L1距离，是真实视差概率向量。

所述步骤3具体实现如下：

从训练集中随机选取256个样本作为一个批次输入到SOA-EPN网络，网络预测输出logit_i，利用前面定义的多层交叉熵损失函数计算预测值logit_i和真实值之间的误差，进而使用反向传播算法和梯度优化算法更新SOA-EPN网络的参数。当Loss达到稳定值则完成训练。

所述步骤4具体包括下述步骤：

从测试集中任取一个场景，提取该场景中心子光圈图像上任一点P四个方向的EPI图像块，输入到训练好的SOA-EPN网络，网络输出一个大小为229的概率向量logit₄，将logit₄中概率最大的类记为z，其概率记为a，比较z-1和z+1两个类的概率并取概率较大的类记为s，其概率记为b。则P点的视差disp计算如下：

disp＝[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset，其中，offset为偏移参数，取值4。

则P点的深度depth＝Bf/disp，其中f是相机焦距，B是两个相邻子光圈的距离。

与现有技术相比，本发明主要贡献是：

(1).尺度感知结构.它将切片操作应用于多尺度特征提取，然后通过多层前馈网络进行长跳和短跳连接的自适应尺度选择。

(2).多方向图像块共享权重网络。它在多尺度感知结构中共享参数，实现多方位特征融合。

(3).一种用于深度估计的图像块学习模型。为了达到规模和方向感知，它包含上述两种网络结构，并以多方向图像块作为输入。

附图说明

图1：多方向EPI patch截取效果图。

图2：SOA-EPN的网络结构图。

图3：SAN网络结构详细展示图。

图4：SAN网络各层详细参数介绍。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

如图1-4所示，一种新的基于方向和尺度自适应卷积神经网络的光场深度估计方法，用于对多方向和尺度的光场数据，包括下列过程：

本发明方法的具体包括下述过程：

本发明解决其技术问题采取的技术方案包括如下步骤：

步骤1.准备光场数据集，制作训练集和测试集；

步骤2.搭建方向和尺度自适应的卷积神经网络SOA-EPN；

步骤3.使用训练集训练搭建好的SOA-EPN网络；

步骤4.使用练好的SOA-EPN网络在测试集上进行测试；

步骤1具体包括下述步骤：

步骤1-2：如图1所示将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系，(s,t)是角度坐标系。对于中心子光圈图像LF(4,4,x,y)上的任一点P，提取P点的0°、45°、90°、135°四个方向大小为9×21×3(高×宽×通道)的EPI图像块，这四个EPI图像块构成了数据集的一个样本，输入到卷积神经网络。

所述步骤2具体实现如下：

步骤2-1：搭建方向和尺度自适应的卷积神经网络SOA-EPN。

如图2所示，所述的SOA-EPN由4个尺度感知网络(Scale-Aware network简称：SAN)构成。训练集和测试集的每一个样本包含四个EPI图像块，每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入，预测输出是该图像块中心点P的视差预测向量logit_i，其中i＝0,1,2,3，因此会得到4个视差预测向量，使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差；

如图3和4所示，所述尺度感知网络SAN一共18层，分为3个子网络，具体参看表1：

表1：

所述的3个子网络，具体如下：

(1)深度特征表征网络(第1到第8个卷积层)

(2)尺度自适应选择网络(第9到第16个卷积层)

第i个尺度选择单元的输出hi定义为：

(3)预测网络(第17、第18个全连接层)

所述步骤3具体实现如下：

所述步骤4具体包括下述步骤：

Claims

1.基于方向和尺度自适应卷积神经网络的光场深度估计方法，其特征在于包括如下步骤：

步骤1.准备光场数据集，制作训练集和测试集；

步骤2.搭建方向和尺度自适应的卷积神经网络SOA-EPN；

步骤3.使用训练集训练搭建好的SOA-EPN网络；

步骤4.使用练好的SOA-EPN网络在测试集上进行测试；

步骤1具体包括下述步骤：

步骤1-1：使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集，该数据集包含28个场景，并提供了高精度的视差和性能评估指标；每一个场景包含9行9列共81张大小为512×512的子光圈图像；将上述28个场景分为两部分，利用其中16个场景制作训练集，12个场景制作测试集；

步骤1-2：将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系，(s,t)是角度坐标系；对于中心子光圈图像LF(4,4,x,y)上的任一点P，提取P点的0°、45°、90°、135°四个方向的EPI图像块，EPI图像块高×宽×通道的大小为9×21×3，这四个EPI图像块构成了数据集的一个样本，输入到卷积神经网络；

所述步骤2具体实现如下：

步骤2-1：搭建方向和尺度自适应的卷积神经网络SOA-EPN；

所述的SOA-EPN由4个尺度感知网络SAN构成；训练集和测试集的每一个样本包含四个EPI图像块，每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入，预测输出是该图像块中心点P的视差预测向量logit_i，其中i＝0,1,2,3，因此会得到4个视差预测向量，使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差；

将4个尺度感知网络SAN进行权值共享，设定视差预测范围是-4到4，将视差预测定义为一个分类任务，预测精度是0.035个像素，则可分为229类；

所述尺度感知网络SAN一共18层，分为3个子网络，具体如下：

(1)深度特征表征网络，即第1到第8个卷积层：

该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征，对每个卷积层的输出进行批归一化处理，再使用ReLU函数对批归一化的输出结果进行激活；所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x₀，x₀其大小为512×1×13，即512个大小为1×13的特征图；

(2)尺度自适应选择网络，即第9到第16个卷积层：

尺度自适应选择网络SASN包含四个尺度选择单元SSU，每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层，一个切片操作和一个跳跃式连接组成；尺度自适应选择网络SASN的作用是改变SOA-EPN网络的输入EPI图像块的尺寸大小；SOA-EPN在第8个卷积层的感知域大小为9×9，而x₀是尺寸为9×21的EPI图像块的深度特征，通过改变x₀的尺度间接地改变输入EPI图像块的尺寸，进而实现尺度自适应选择功能；通过四次切片操作s(·)改变x₀的尺寸，进而获得尺寸为9×19、9×17、9×15、9×13的输入EPI图像块的深度特征x₁、x₂、x₃、x₄，尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合，选择的策略是在训练SOA-EPN的过程学习得到的；其中SASN只以一张尺寸为9×21的EPI图像块作为输入，通过尺度选择单元SSU实现尺度自适应选择，而不是输入多张不同尺寸的EPI图像块；

第i个尺度选择单元的输出hi定义为：

其中，x₀是尺寸为9×21的EPI图像块的深度特征，x_i代表x₁、x₂、x₃、x₄；F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作；值得注意的是，x_i的特征图数量可能会小于F(h_i-1)的特征图数量，采用补0的方式使得x_i和F(h_i-1)的特征图数量相等；s(·)是切片操作；

第9层和第10层是卷积核为1×2、步长为1×1的卷积层，它是第一个尺度选择单元SSU的卷积操作；对每个卷积层的输出进行批归一化处理，再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(576,576)，第10个卷积层输出576个大小为1×11的特征图；

第11层和第12层是卷积核为1×2、步长为1×1的卷积层，它是第二个尺度选择单元SSU的卷积操作；对每个卷积层的输出进行批归一化(BN)处理，再使用斜率为0.01的LeakyReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(576,576)，第12个卷积层输出576个大小为1×9的特征图；

第13层和第14层是卷积核为1×2、步长为1×1的卷积层，它是第三个尺度选择单元SSU的卷积操作；对每个卷积层的输出进行批归一化处理，再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(640,640)，第14个卷积层输出640个大小为1×7的特征图；

第15层和第16层是卷积核为1×2、步长为1×1的卷积层，它是第四个尺度选择单元SSU的卷积操作；对每个卷积层的输出进行批归一化处理，再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活；所述的2个卷积层的输出特征图的数量依次是(640,640)，第16个卷积层输出640个大小为1×5的特征图；

(3)预测网络，即第17、第18个全连接层：

第17层是拥有1024个神经元的全连接层，使用ReLU函数对该全连接层的输出进行激活，使用Dropout技术处理ReLU函数的输出，每一个神经元只有50％的概率参与计算；第17层的最终输出是一个大小为1×1024的特征向量；

第18层是拥有229个神经元的全连接层，从而得到大小为1×229的视差预测向量logit_i；

步骤2-2：使用多层交叉熵损失函数对SOA-EPN进行训练，多层交叉熵损失函数如下：

其中，N是训练集的一个批大小，w_i是权重，||·||计算向量的L1距离，是真实视差概率向量；

所述步骤3具体实现如下：

从训练集中随机选取256个样本作为一个批次输入到SOA-EPN网络，网络预测输出logit_i，利用前面定义的多层交叉熵损失函数计算预测值logit_i和真实值之间的误差，进而使用反向传播算法和梯度优化算法更新SOA-EPN网络的参数；当Loss达到稳定值则完成训练；

所述步骤4具体包括下述步骤：

从测试集中任取一个场景，提取该场景中心子光圈图像上任一点P四个方向的EPI图像块，输入到训练好的SOA-EPN网络，网络输出一个大小为229的概率向量logit₄，将logit₄中概率最大的类记为z，其概率记为a，比较z-1和z+1两个类的概率并取概率较大的类记为s，其概率记为b；则P点的视差disp计算如下：

disp＝[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset，其中，offset为偏移参数，取值4；则P点的深度depth＝Bf/disp，其中f是相机焦距，B是两个相邻子光圈的距离。

2.根据权利要求1所述的基于方向和尺度自适应卷积神经网络的光场深度估计方法，其特征在于所述的切片操作s(·)是指沿宽度通道切除x_i-1中每一个特征图的两端各一个神经元，进而得到x_i-1的中心区域，也就是x_i；具体来说，是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图；x₀进行一次切片操作后得到x₁，x₁是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图；同理，x₁进行一次切片操作后得到x₂，x₂是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图；以此类推，x₁、x₂、x₃、x₄分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图，尺寸依次是512×1×11、576×1×11、576×1×9、640×1×7、640×1×5。