CN108846473A - 基于方向和尺度自适应卷积神经网络的光场深度估计方法 - Google Patents
基于方向和尺度自适应卷积神经网络的光场深度估计方法 Download PDFInfo
- Publication number
- CN108846473A CN108846473A CN201810317425.3A CN201810317425A CN108846473A CN 108846473 A CN108846473 A CN 108846473A CN 201810317425 A CN201810317425 A CN 201810317425A CN 108846473 A CN108846473 A CN 108846473A
- Authority
- CN
- China
- Prior art keywords
- layer
- size
- network
- output
- characteristic pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于方向和尺度自适应卷积神经网络的光场深度估计方法。本发明包括如下步骤:步骤1.准备光场数据集,制作训练集和测试集;步骤2.搭建方向和尺度自适应的卷积神经网络SOA‑EPN;步骤3.使用训练集训练搭建好的SOA‑EPN网络;步骤4.使用练好的SOA‑EPN网络在测试集上进行测试;本发明借助于尺度和方向感知卷积神经网络来预测光场深度,不仅利用了多方向,而且很好的处理了遮挡等问题,得到准确的深度估计结果。
Description
技术领域
本发明是关于深度学习与光场深度估计领域,特别涉及基于方向和尺度自适应卷积神经网络的光场深度估计方法。
背景技术
深度学习是近年来人工智能领域中的一项重要突破,已在图像识别、语音识别、自然语言处理等多个方向取得了突破性进展。相比于传统机器学习方法,深度学习方法的主要过程为:构建数据集;使用卷积层、全连接层、激活层等定义深度神经网络,定义损失函数;利用数据集训练定义好的深度网络模型,即使用反向传播技术和梯度下降等优化方法更新神经网络的参数。训练完成的深度网络模型可以拟合出某个高维复杂函数,该函数实现网络输入到输出的映射;利用训练好的深度模型在测试数据集上进行预测。卷积神经网络是人工神经网络发展最成功的网络结构之一,它擅长利用卷积层提取输入图像从低维到高维的深度特征,然后利用这些特征完成分类、回归等任务。
与此同时,光场成像与计算是近年来计算机视觉领域中的一门新兴技术,通过在相机镜头和图像传感器之间增加一个微透镜阵列,光场相机可以记录下汇聚在传感器像素上的光线的亮度与角度,形成4D光场,为突破传统成像模型和成像机制的维度局限提供了新思路和新方法[]。鉴于4D光场提供的丰富信息,利用光场图像进行场景结构(深度)恢复的研究获得了越来越多的关注,一批基于EPI(Epipolar Plane Image)图像分析的深度估计方法涌现出来,这些方法本质上是一种立体匹配方法。EPI图像是4D光场的一个切片,它由极线(Epipolar Lines)组成,通过计算极线的斜率,可以间接获得深度图,完成深度估计。但是这种方法也面临着难以计算图像无纹理区域、遮挡区域的深度等问题。如何选择大小合适的匹配窗口是解决这些问题的一个关键,例如在计算图像无纹理区域的深度时,需要一个较大的窗口将更多的邻域像素纳入到匹配代价的计算中,增强邻域约束。相反,在计算图像遮挡区域的深度时,需要一个较小的窗口避免纳入过多的遮挡点影响匹配代价的计算。另一方面,多方向EPI图像为深度估计提供了更多的约束和深度线索。综上,我们设计了一种具备EPI图像方向自适应、EPI图像尺度自适应能力的卷积神经网络来解决上述深度估计面临的无纹理和遮挡问题。
发明内容
本发明的目的是针对现有技术的不足,设计了一种以0°、45°、90°、135°四个方向的EPI图像块作为输入,输出视差图,具备EPI图像方向自适应、EPI图像尺度自适应能力的卷积神经网络(SOA-EPN),并利用SOA-EPN提出了一种光场深度估计方法。
本发明解决其技术问题采取的技术方案包括如下步骤:
步骤1.准备光场数据集,制作训练集和测试集;
步骤2.搭建方向和尺度自适应的卷积神经网络SOA-EPN;
步骤3.使用训练集训练搭建好的SOA-EPN网络;
步骤4.使用练好的SOA-EPN网络在测试集上进行测试;
步骤1具体包括下述步骤:
步骤1-1:使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluationmethodology for depth estimation on 4d light fields,”in Asian Conference onComputer Vision,2016.)作为实验数据集,该数据集包含28个场景,并提供了高精度的视差和性能评估指标。每一个场景包含9行9列共81张大小为512×512的子光圈图像。将上述28个场景分为两部分,利用其中16个场景制作训练集,12个场景制作测试集。
步骤1-2:将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系,(s,t)是角度坐标系。对于中心子光圈图像LF(4,4,x,y)上的任一点P,提取P点的0°、45°、90°、135°四个方向大小为9×21×3(高×宽×通道)的EPI图像块,这四个EPI图像块构成了数据集的一个样本,输入到卷积神经网络。
所述步骤2具体实现如下:
步骤2-1:搭建方向和尺度自适应的卷积神经网络SOA-EPN。
所述的SOA-EPN由4个尺度感知网络(Scale-Aware network简称:SAN)构成。训练集和测试集的每一个样本包含四个EPI图像块,每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入,预测输出是该图像块中心点P的视差预测向量logiti,其中i=0,1,2,3,因此会得到4个视差预测向量,使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差;
为了减少SOA-EPN的隐含层数量,减少网络参数量,降低卷积神经网络过拟合的风险,将4个尺度感知网络SAN进行权值共享,达到深度压缩的目的。
设定视差预测范围是-4到4(单位:像素),将视差预测定义为一个分类任务,预测精度是0.035个像素,则可分为229类。
所述尺度感知网络SAN一共18层,分为3个子网络,具体参看表1:
表1:
所述的3个子网络,具体如下:
(1)深度特征表征网络(第1到第8个卷积层)
该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征,对每个卷积层的输出进行批归一化(BN,batch normalization)处理,再使用ReLU函数对批归一化的输出结果进行激活;所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x0,x0其大小为512×1×13(特征图数量×高×宽),即512个大小为1×13的特征图(特征向量)。
(2)尺度自适应选择网络(第9到第16个卷积层)
尺度自适应选择网络(Scale-Adaptive-Selection-Network,SASN)是一个具有长跳跃和短跳跃连接(skip connection:跳跃式连接)的多层前馈网络,包含了四个尺度选择单元(Scale-Selection-Unit,SSU),每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层,一个切片操作和一个跳跃式连接组成。尺度自适应选择网络SASN的作用是改变SOA-EPN网络的输入EPI图像块的尺寸大小。实现原理是:SOA-EPN在第8个卷积层的感知域大小为9×9,而x0是尺寸为9×21的EPI图像块的深度特征,通过改变x0的尺度可以间接地改变输入EPI图像块的尺寸,进而实现尺度自适应选择功能(利用感知域的概念,通过切片操作改变特征向量的尺寸,进而间接改变输入图像的尺寸,达到尺度自适应选择的目的,是本专利的核心思想)。可以通过四次切片操作s(·)改变x0的尺寸,进而获得尺寸为9×19、9×17、9×15、9×13的输入EPI图像块的深度特征x1、x2、x3、x4,尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合,选择的策略是在训练SOA-EPN的过程学习得到的。值得注意的是,SASN只以一张尺寸为9×21的EPI图像块作为输入,通过尺度选择单元SSU实现尺度自适应选择,而不是输入多张不同尺寸的EPI图像块。
第i个尺度选择单元的输出hi定义为:
其中,x0是尺寸为9×21的EPI图像块的深度特征,xi代表x1、x2、x3、x4。F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作。值得注意的是,xi的特征图数量可能会小于F(hi-1)的特征图数量,采用补0的方式使得xi和F(hi-1)的特征图数量相等。s(·)是切片操作。
所述的切片操作s(·)是指沿宽度通道切除xi-1中每一个特征图(特征向量)的两端各一个神经元,进而得到xi-1的中心区域,也就是xi。具体来说,是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图;x0进行一次切片操作后得到x1,x1是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图;同理,x1进行一次切片操作后得到x2,x2是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图。以此类推,x1、x2、x3、x4分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图,尺寸依次是512×1×11、576×1×11、576×1×9、640×1×7、640×1×5。
第9层和第10层是卷积核为1×2、步长为1×1的卷积层,它是第一个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的LeakyReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第10个卷积层输出576个大小为1×11的特征图。
第11层和第12层是卷积核为1×2、步长为1×1的卷积层,它是第二个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第12个卷积层输出576个大小为1×9的特征图。
第13层和第14层是卷积核为1×2、步长为1×1的卷积层,它是第三个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第14个卷积层输出640个大小为1×7的特征图。
第15层和第16层是卷积核为1×2、步长为1×1的卷积层,它是第四个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第16个卷积层输出640个大小为1×5的特征图。
(3)预测网络(第17、第18个全连接层)
第17层是拥有1024个神经元的全连接层(Fully Connected Layer,简称FC),使用ReLU函数对该全连接层的输出进行激活,使用Dropout技术处理ReLU函数的输出,每一个神经元只有50%的概率参与计算。第17层的最终输出是一个大小为1×1024的特征向量。
第18层是拥有229个神经元的全连接层,从而得到大小为1×229的视差预测向量logiti。
步骤2-2:为了增强了训练过程的可控性,减少深度学习的黑箱效应,使用多层交叉熵损失函数对SOA-EPN进行训练,多层交叉熵损失函数如下:
其中,N是训练集的一个批大小,wi是权重,||·||计算向量的L1距离,是真实视差概率向量。
所述步骤3具体实现如下:
从训练集中随机选取256个样本作为一个批次输入到SOA-EPN网络,网络预测输出logiti,利用前面定义的多层交叉熵损失函数计算预测值logiti和真实值之间的误差,进而使用反向传播算法和梯度优化算法更新SOA-EPN网络的参数。当Loss达到稳定值则完成训练。
所述步骤4具体包括下述步骤:
从测试集中任取一个场景,提取该场景中心子光圈图像上任一点P四个方向的EPI图像块,输入到训练好的SOA-EPN网络,网络输出一个大小为229的概率向量logit4,将logit4中概率最大的类记为z,其概率记为a,比较z-1和z+1两个类的概率并取概率较大的类记为s,其概率记为b。则P点的视差disp计算如下:
disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset为偏移参数,取值4。
则P点的深度depth=Bf/disp,其中f是相机焦距,B是两个相邻子光圈的距离。
与现有技术相比,本发明主要贡献是:
(1).尺度感知结构.它将切片操作应用于多尺度特征提取,然后通过多层前馈网络进行长跳和短跳连接的自适应尺度选择。
(2).多方向图像块共享权重网络。它在多尺度感知结构中共享参数,实现多方位特征融合。
(3).一种用于深度估计的图像块学习模型。为了达到规模和方向感知,它包含上述两种网络结构,并以多方向图像块作为输入。
附图说明
图1:多方向EPI patch截取效果图。
图2:SOA-EPN的网络结构图。
图3:SAN网络结构详细展示图。
图4:SAN网络各层详细参数介绍。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1-4所示,一种新的基于方向和尺度自适应卷积神经网络的光场深度估计方法,用于对多方向和尺度的光场数据,包括下列过程:
本发明方法的具体包括下述过程:
本发明解决其技术问题采取的技术方案包括如下步骤:
步骤1.准备光场数据集,制作训练集和测试集;
步骤2.搭建方向和尺度自适应的卷积神经网络SOA-EPN;
步骤3.使用训练集训练搭建好的SOA-EPN网络;
步骤4.使用练好的SOA-EPN网络在测试集上进行测试;
步骤1具体包括下述步骤:
步骤1-1:使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluationmethodology for depth estimation on 4d light fields,”in Asian Conference onComputer Vision,2016.)作为实验数据集,该数据集包含28个场景,并提供了高精度的视差和性能评估指标。每一个场景包含9行9列共81张大小为512×512的子光圈图像。将上述28个场景分为两部分,利用其中16个场景制作训练集,12个场景制作测试集。
步骤1-2:如图1所示将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系,(s,t)是角度坐标系。对于中心子光圈图像LF(4,4,x,y)上的任一点P,提取P点的0°、45°、90°、135°四个方向大小为9×21×3(高×宽×通道)的EPI图像块,这四个EPI图像块构成了数据集的一个样本,输入到卷积神经网络。
所述步骤2具体实现如下:
步骤2-1:搭建方向和尺度自适应的卷积神经网络SOA-EPN。
如图2所示,所述的SOA-EPN由4个尺度感知网络(Scale-Aware network简称:SAN)构成。训练集和测试集的每一个样本包含四个EPI图像块,每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入,预测输出是该图像块中心点P的视差预测向量logiti,其中i=0,1,2,3,因此会得到4个视差预测向量,使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差;
为了减少SOA-EPN的隐含层数量,减少网络参数量,降低卷积神经网络过拟合的风险,将4个尺度感知网络SAN进行权值共享,达到深度压缩的目的。
设定视差预测范围是-4到4(单位:像素),将视差预测定义为一个分类任务,预测精度是0.035个像素,则可分为229类。
如图3和4所示,所述尺度感知网络SAN一共18层,分为3个子网络,具体参看表1:
表1:
所述的3个子网络,具体如下:
(1)深度特征表征网络(第1到第8个卷积层)
该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征,对每个卷积层的输出进行批归一化(BN,batch normalization)处理,再使用ReLU函数对批归一化的输出结果进行激活;所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x0,x0其大小为512×1×13(特征图数量×高×宽),即512个大小为1×13的特征图(特征向量)。
(2)尺度自适应选择网络(第9到第16个卷积层)
尺度自适应选择网络(Scale-Adaptive-Selection-Network,SASN)是一个具有长跳跃和短跳跃连接(skip connection:跳跃式连接)的多层前馈网络,包含了四个尺度选择单元(Scale-Selection-Unit,SSU),每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层,一个切片操作和一个跳跃式连接组成。尺度自适应选择网络SASN的作用是改变SOA-EPN网络的输入EPI图像块的尺寸大小。实现原理是:SOA-EPN在第8个卷积层的感知域大小为9×9,而x0是尺寸为9×21的EPI图像块的深度特征,通过改变x0的尺度可以间接地改变输入EPI图像块的尺寸,进而实现尺度自适应选择功能(利用感知域的概念,通过切片操作改变特征向量的尺寸,进而间接改变输入图像的尺寸,达到尺度自适应选择的目的,是本专利的核心思想)。可以通过四次切片操作s(·)改变x0的尺寸,进而获得尺寸为9×19、9×17、9×15、9×13的输入EPI图像块的深度特征x1、x2、x3、x4,尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合,选择的策略是在训练SOA-EPN的过程学习得到的。值得注意的是,SASN只以一张尺寸为9×21的EPI图像块作为输入,通过尺度选择单元SSU实现尺度自适应选择,而不是输入多张不同尺寸的EPI图像块。
第i个尺度选择单元的输出hi定义为:
其中,x0是尺寸为9×21的EPI图像块的深度特征,xi代表x1、x2、x3、x4。F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作。值得注意的是,xi的特征图数量可能会小于F(hi-1)的特征图数量,采用补0的方式使得xi和F(hi-1)的特征图数量相等。s(·)是切片操作。
所述的切片操作s(·)是指沿宽度通道切除xi-1中每一个特征图(特征向量)的两端各一个神经元,进而得到xi-1的中心区域,也就是xi。具体来说,是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图;x0进行一次切片操作后得到x1,x1是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图;同理,x1进行一次切片操作后得到x2,x2是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图。以此类推,x1、x2、x3、x4分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图,尺寸依次是512×1×11、576×1×11、576×1×9、640×1×7、640×1×5。
第9层和第10层是卷积核为1×2、步长为1×1的卷积层,它是第一个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的LeakyReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第10个卷积层输出576个大小为1×11的特征图。
第11层和第12层是卷积核为1×2、步长为1×1的卷积层,它是第二个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第12个卷积层输出576个大小为1×9的特征图。
第13层和第14层是卷积核为1×2、步长为1×1的卷积层,它是第三个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第14个卷积层输出640个大小为1×7的特征图。
第15层和第16层是卷积核为1×2、步长为1×1的卷积层,它是第四个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第16个卷积层输出640个大小为1×5的特征图。
(3)预测网络(第17、第18个全连接层)
第17层是拥有1024个神经元的全连接层(Fully Connected Layer,简称FC),使用ReLU函数对该全连接层的输出进行激活,使用Dropout技术处理ReLU函数的输出,每一个神经元只有50%的概率参与计算。第17层的最终输出是一个大小为1×1024的特征向量。
第18层是拥有229个神经元的全连接层,从而得到大小为1×229的视差预测向量logiti。
步骤2-2:为了增强了训练过程的可控性,减少深度学习的黑箱效应,使用多层交叉熵损失函数对SOA-EPN进行训练,多层交叉熵损失函数如下:
其中,N是训练集的一个批大小,wi是权重,||·||计算向量的L1距离,是真实视差概率向量。
所述步骤3具体实现如下:
从训练集中随机选取256个样本作为一个批次输入到SOA-EPN网络,网络预测输出logiti,利用前面定义的多层交叉熵损失函数计算预测值logiti和真实值之间的误差,进而使用反向传播算法和梯度优化算法更新SOA-EPN网络的参数。当Loss达到稳定值则完成训练。
所述步骤4具体包括下述步骤:
从测试集中任取一个场景,提取该场景中心子光圈图像上任一点P四个方向的EPI图像块,输入到训练好的SOA-EPN网络,网络输出一个大小为229的概率向量logit4,将logit4中概率最大的类记为z,其概率记为a,比较z-1和z+1两个类的概率并取概率较大的类记为s,其概率记为b。则P点的视差disp计算如下:
disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset为偏移参数,取值4。
则P点的深度depth=Bf/disp,其中f是相机焦距,B是两个相邻子光圈的距离。
Claims (2)
1.基于方向和尺度自适应卷积神经网络的光场深度估计方法,其特征在于包括如下步骤:
步骤1.准备光场数据集,制作训练集和测试集;
步骤2.搭建方向和尺度自适应的卷积神经网络SOA-EPN;
步骤3.使用训练集训练搭建好的SOA-EPN网络;
步骤4.使用练好的SOA-EPN网络在测试集上进行测试;
步骤1具体包括下述步骤:
步骤1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了高精度的视差和性能评估指标;每一个场景包含9行9列共81张大小为512×512的子光圈图像;将上述28个场景分为两部分,利用其中16个场景制作训练集,12个场景制作测试集;
步骤1-2:将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系,(s,t)是角度坐标系;对于中心子光圈图像LF(4,4,x,y)上的任一点P,提取P点的0°、45°、90°、135°四个方向的EPI图像块,EPI图像块高×宽×通道的大小为9×21×3,这四个EPI图像块构成了数据集的一个样本,输入到卷积神经网络;
所述步骤2具体实现如下:
步骤2-1:搭建方向和尺度自适应的卷积神经网络SOA-EPN;
所述的SOA-EPN由4个尺度感知网络SAN构成;训练集和测试集的每一个样本包含四个EPI图像块,每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入,预测输出是该图像块中心点P的视差预测向量logiti,其中i=0,1,2,3,因此会得到4个视差预测向量,使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差;
将4个尺度感知网络SAN进行权值共享,设定视差预测范围是-4到4,将视差预测定义为一个分类任务,预测精度是0.035个像素,则可分为229类;
所述尺度感知网络SAN一共18层,分为3个子网络,具体如下:
(1)深度特征表征网络,即第1到第8个卷积层:
该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征,对每个卷积层的输出进行批归一化处理,再使用ReLU函数对批归一化的输出结果进行激活;所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x0,x0其大小为512×1×13,即512个大小为1×13的特征图;
(2)尺度自适应选择网络,即第9到第16个卷积层:
尺度自适应选择网络SASN包含四个尺度选择单元SSU,每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层,一个切片操作和一个跳跃式连接组成;尺度自适应选择网络SASN的作用是改变SOA-EPN网络的输入EPI图像块的尺寸大小;SOA-EPN在第8个卷积层的感知域大小为9×9,而x0是尺寸为9×21的EPI图像块的深度特征,通过改变x0的尺度间接地改变输入EPI图像块的尺寸,进而实现尺度自适应选择功能;通过四次切片操作s(·)改变x0的尺寸,进而获得尺寸为9×19、9×17、9×15、9×13的输入EPI图像块的深度特征x1、x2、x3、x4,尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合,选择的策略是在训练SOA-EPN的过程学习得到的;其中SASN只以一张尺寸为9×21的EPI图像块作为输入,通过尺度选择单元SSU实现尺度自适应选择,而不是输入多张不同尺寸的EPI图像块;
第i个尺度选择单元的输出hi定义为:
其中,x0是尺寸为9×21的EPI图像块的深度特征,xi代表x1、x2、x3、x4;F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作;值得注意的是,xi的特征图数量可能会小于F(hi-1)的特征图数量,采用补0的方式使得xi和F(hi-1)的特征图数量相等;s(·)是切片操作;
第9层和第10层是卷积核为1×2、步长为1×1的卷积层,它是第一个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第10个卷积层输出576个大小为1×11的特征图;
第11层和第12层是卷积核为1×2、步长为1×1的卷积层,它是第二个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的LeakyReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第12个卷积层输出576个大小为1×9的特征图;
第13层和第14层是卷积核为1×2、步长为1×1的卷积层,它是第三个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第14个卷积层输出640个大小为1×7的特征图;
第15层和第16层是卷积核为1×2、步长为1×1的卷积层,它是第四个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第16个卷积层输出640个大小为1×5的特征图;
(3)预测网络,即第17、第18个全连接层:
第17层是拥有1024个神经元的全连接层,使用ReLU函数对该全连接层的输出进行激活,使用Dropout技术处理ReLU函数的输出,每一个神经元只有50%的概率参与计算;第17层的最终输出是一个大小为1×1024的特征向量;
第18层是拥有229个神经元的全连接层,从而得到大小为1×229的视差预测向量logiti;
步骤2-2:使用多层交叉熵损失函数对SOA-EPN进行训练,多层交叉熵损失函数如下:
其中,N是训练集的一个批大小,wi是权重,||·||计算向量的L1距离,是真实视差概率向量;
所述步骤3具体实现如下:
从训练集中随机选取256个样本作为一个批次输入到SOA-EPN网络,网络预测输出logiti,利用前面定义的多层交叉熵损失函数计算预测值logiti和真实值之间的误差,进而使用反向传播算法和梯度优化算法更新SOA-EPN网络的参数;当Loss达到稳定值则完成训练;
所述步骤4具体包括下述步骤:
从测试集中任取一个场景,提取该场景中心子光圈图像上任一点P四个方向的EPI图像块,输入到训练好的SOA-EPN网络,网络输出一个大小为229的概率向量logit4,将logit4中概率最大的类记为z,其概率记为a,比较z-1和z+1两个类的概率并取概率较大的类记为s,其概率记为b;则P点的视差disp计算如下:
disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset为偏移参数,取值4;则P点的深度depth=Bf/disp,其中f是相机焦距,B是两个相邻子光圈的距离。
2.根据权利要求1所述的基于方向和尺度自适应卷积神经网络的光场深度估计方法,其特征在于所述的切片操作s(·)是指沿宽度通道切除xi-1中每一个特征图的两端各一个神经元,进而得到xi-1的中心区域,也就是xi;具体来说,是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图;x0进行一次切片操作后得到x1,x1是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图;同理,x1进行一次切片操作后得到x2,x2是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图;以此类推,x1、x2、x3、x4分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图,尺寸依次是512×1×11、576×1×11、576×1×9、640×1×7、640×1×5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810317425.3A CN108846473B (zh) | 2018-04-10 | 2018-04-10 | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810317425.3A CN108846473B (zh) | 2018-04-10 | 2018-04-10 | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846473A true CN108846473A (zh) | 2018-11-20 |
CN108846473B CN108846473B (zh) | 2022-03-01 |
Family
ID=64212025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810317425.3A Active CN108846473B (zh) | 2018-04-10 | 2018-04-10 | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846473B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544621A (zh) * | 2018-11-21 | 2019-03-29 | 马浩鑫 | 基于卷积神经网络的光场深度估计方法、系统及介质 |
CN109934863A (zh) * | 2019-03-13 | 2019-06-25 | 北京信息科技大学 | 一种基于密集连接型卷积神经网络的光场深度信息估计方法 |
CN109949354A (zh) * | 2019-03-13 | 2019-06-28 | 北京信息科技大学 | 一种基于全卷积神经网络的光场深度信息估计方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110853011A (zh) * | 2019-11-11 | 2020-02-28 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
CN111028273A (zh) * | 2019-11-27 | 2020-04-17 | 山东大学 | 一种基于多流卷积神经网络的光场深度估计方法及其实现系统 |
CN111260707A (zh) * | 2020-02-21 | 2020-06-09 | 合肥工业大学 | 一种基于光场epi图像的深度估计方法 |
CN111553873A (zh) * | 2020-01-17 | 2020-08-18 | 西安理工大学 | 基于多尺度卷积神经网络的脑神经元自动检测方法 |
CN111833390A (zh) * | 2020-06-23 | 2020-10-27 | 杭州电子科技大学 | 一种基于无监督深度学习的光场深度估计方法 |
CN112116646A (zh) * | 2020-09-23 | 2020-12-22 | 南京工程学院 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
CN113506336A (zh) * | 2021-06-30 | 2021-10-15 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN114897952A (zh) * | 2022-05-30 | 2022-08-12 | 中国测绘科学研究院 | 一种自适应遮挡的单张光场影像准确深度估计方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793911A (zh) * | 2014-01-24 | 2014-05-14 | 北京科技大学 | 一种基于集成图像技术的场景深度获取方法 |
EP2806396A1 (en) * | 2013-05-06 | 2014-11-26 | Disney Enterprises, Inc. | Sparse light field representation |
CN104598744A (zh) * | 2015-01-27 | 2015-05-06 | 北京工业大学 | 一种基于光场的深度估计方法 |
CN104966289A (zh) * | 2015-06-12 | 2015-10-07 | 北京工业大学 | 一种基于4d光场的深度估计方法 |
CN105357515A (zh) * | 2015-12-18 | 2016-02-24 | 天津中科智能识别产业技术研究院有限公司 | 一种基于结构光和光场成像的彩色深度成像方法及其装置 |
CN105931190A (zh) * | 2016-06-14 | 2016-09-07 | 西北工业大学 | 高角度分辨率光场获取装置与图像生成方法 |
US20160350930A1 (en) * | 2015-05-28 | 2016-12-01 | Adobe Systems Incorporated | Joint Depth Estimation and Semantic Segmentation from a Single Image |
CN106257537A (zh) * | 2016-07-18 | 2016-12-28 | 浙江大学 | 一种基于光场信息的空间深度提取方法 |
CN106340041A (zh) * | 2016-09-18 | 2017-01-18 | 杭州电子科技大学 | 一种基于级联遮挡滤除滤波器的光场相机深度估计方法 |
CN106651943A (zh) * | 2016-12-30 | 2017-05-10 | 杭州电子科技大学 | 一种基于遮挡几何互补模型的光场相机深度估计方法 |
CN107146248A (zh) * | 2017-04-27 | 2017-09-08 | 杭州电子科技大学 | 一种基于双流卷积神经网络的立体匹配方法 |
CN107545586A (zh) * | 2017-08-04 | 2018-01-05 | 中国科学院自动化研究所 | 基于光场极限平面图像局部的深度获取方法及系统 |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
-
2018
- 2018-04-10 CN CN201810317425.3A patent/CN108846473B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2806396A1 (en) * | 2013-05-06 | 2014-11-26 | Disney Enterprises, Inc. | Sparse light field representation |
CN103793911A (zh) * | 2014-01-24 | 2014-05-14 | 北京科技大学 | 一种基于集成图像技术的场景深度获取方法 |
CN104598744A (zh) * | 2015-01-27 | 2015-05-06 | 北京工业大学 | 一种基于光场的深度估计方法 |
US20160350930A1 (en) * | 2015-05-28 | 2016-12-01 | Adobe Systems Incorporated | Joint Depth Estimation and Semantic Segmentation from a Single Image |
CN104966289A (zh) * | 2015-06-12 | 2015-10-07 | 北京工业大学 | 一种基于4d光场的深度估计方法 |
CN105357515A (zh) * | 2015-12-18 | 2016-02-24 | 天津中科智能识别产业技术研究院有限公司 | 一种基于结构光和光场成像的彩色深度成像方法及其装置 |
CN105931190A (zh) * | 2016-06-14 | 2016-09-07 | 西北工业大学 | 高角度分辨率光场获取装置与图像生成方法 |
CN106257537A (zh) * | 2016-07-18 | 2016-12-28 | 浙江大学 | 一种基于光场信息的空间深度提取方法 |
CN106340041A (zh) * | 2016-09-18 | 2017-01-18 | 杭州电子科技大学 | 一种基于级联遮挡滤除滤波器的光场相机深度估计方法 |
CN106651943A (zh) * | 2016-12-30 | 2017-05-10 | 杭州电子科技大学 | 一种基于遮挡几何互补模型的光场相机深度估计方法 |
CN107146248A (zh) * | 2017-04-27 | 2017-09-08 | 杭州电子科技大学 | 一种基于双流卷积神经网络的立体匹配方法 |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107545586A (zh) * | 2017-08-04 | 2018-01-05 | 中国科学院自动化研究所 | 基于光场极限平面图像局部的深度获取方法及系统 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
Non-Patent Citations (9)
Title |
---|
D.SOUKUP等: ""Depth Estimation within a Multi-Line-Scan Light-Field framework"", 《INTERNATIONAL SYMPOSIUM ON VISUAL COMPUTING》 * |
HAO SHENG等: ""Occlusion-aware depth estimation for light field using multi-orientation EPIs"", 《PATTERN RECOGNITION》 * |
LIN L等: ""A confidence-aware depth estimation method for light-field cameras based on multiple cues"", 《JOURNAL OF COMPUTATIONAL METHODS IN SCIENCE & ENGINEERING》 * |
LU ZHANG等: ""Crowd Counting via Scale-Adaptive Convolutional Neural Network"", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 * |
YAOXIANG LUO等: ""EPI-Patch Based Convolutional Neural Network for Depth Estimation on 4D Light Field"", 《INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING》 * |
丁伟利等: ""基于先验似然的高分辨光场图像深度重建算法研究"", 《光学学报》 * |
刘畅等: ""基于四维光场数据的深度估计算法"", 《中北大学学报(自然科学版)》 * |
肖照林等: ""针对光场图像的多尺度抗混叠绘制方法"", 《计算机辅助设计与图形学学报》 * |
赵翔等: ""基于交叉熵和空间分割的全局可靠性灵敏度分析"", 《航空学报》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544621A (zh) * | 2018-11-21 | 2019-03-29 | 马浩鑫 | 基于卷积神经网络的光场深度估计方法、系统及介质 |
CN109934863A (zh) * | 2019-03-13 | 2019-06-25 | 北京信息科技大学 | 一种基于密集连接型卷积神经网络的光场深度信息估计方法 |
CN109949354A (zh) * | 2019-03-13 | 2019-06-28 | 北京信息科技大学 | 一种基于全卷积神经网络的光场深度信息估计方法 |
CN109934863B (zh) * | 2019-03-13 | 2023-11-14 | 北京信息科技大学 | 一种基于密集连接型卷积神经网络的光场深度信息估计方法 |
CN109949354B (zh) * | 2019-03-13 | 2023-11-14 | 北京信息科技大学 | 一种基于全卷积神经网络的光场深度信息估计方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110163246B (zh) * | 2019-04-08 | 2021-03-30 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110853011B (zh) * | 2019-11-11 | 2022-05-27 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
CN110853011A (zh) * | 2019-11-11 | 2020-02-28 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
CN111028273A (zh) * | 2019-11-27 | 2020-04-17 | 山东大学 | 一种基于多流卷积神经网络的光场深度估计方法及其实现系统 |
CN111028273B (zh) * | 2019-11-27 | 2023-04-07 | 山东大学 | 一种基于多流卷积神经网络的光场深度估计方法及其实现系统 |
CN111553873B (zh) * | 2020-01-17 | 2023-03-14 | 西安理工大学 | 基于多尺度卷积神经网络的脑神经元自动检测方法 |
CN111553873A (zh) * | 2020-01-17 | 2020-08-18 | 西安理工大学 | 基于多尺度卷积神经网络的脑神经元自动检测方法 |
CN111260707A (zh) * | 2020-02-21 | 2020-06-09 | 合肥工业大学 | 一种基于光场epi图像的深度估计方法 |
CN111833390A (zh) * | 2020-06-23 | 2020-10-27 | 杭州电子科技大学 | 一种基于无监督深度学习的光场深度估计方法 |
CN112116646A (zh) * | 2020-09-23 | 2020-12-22 | 南京工程学院 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
CN112116646B (zh) * | 2020-09-23 | 2023-11-24 | 南京工程学院 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
CN113506336A (zh) * | 2021-06-30 | 2021-10-15 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113506336B (zh) * | 2021-06-30 | 2024-04-26 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN114897952A (zh) * | 2022-05-30 | 2022-08-12 | 中国测绘科学研究院 | 一种自适应遮挡的单张光场影像准确深度估计方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108846473B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846473A (zh) | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 | |
CN109522966B (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN107633513B (zh) | 基于深度学习的3d图像质量的度量方法 | |
CN108182441B (zh) | 平行多通道卷积神经网络、构建方法及图像特征提取方法 | |
Que et al. | Automatic classification of asphalt pavement cracks using a novel integrated generative adversarial networks and improved VGG model | |
CN108090472B (zh) | 基于多通道一致性特征的行人重识别方法及其系统 | |
CN107180248A (zh) | 基于联合损失增强网络的高光谱图像分类方法 | |
CN108288035A (zh) | 基于深度学习的多通道图像特征融合的人体动作识别方法 | |
CN109583340A (zh) | 一种基于深度学习的视频目标检测方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN108090447A (zh) | 双分支深层结构下的高光谱图像分类方法及装置 | |
CN107909008A (zh) | 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法 | |
CN112070768B (zh) | 基于Anchor-Free的实时实例分割方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN109919246A (zh) | 基于自适应特征聚类和多重损失融合的行人重识别方法 | |
CN107590427A (zh) | 基于时空兴趣点降噪的监控视频异常事件检测方法 | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
CN114820579A (zh) | 一种基于语义分割的图像复合缺陷的检测方法及系统 | |
CN111666852A (zh) | 一种基于卷积神经网络的微表情双流网络识别方法 | |
CN111414931A (zh) | 一种基于图像深度的多分支多尺度小目标检测方法 | |
CN111179272B (zh) | 一种面向道路场景的快速语义分割方法 | |
CN113469119A (zh) | 基于视觉转换器和图卷积网络的宫颈细胞图像分类方法 | |
Al-Amaren et al. | RHN: A residual holistic neural network for edge detection | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
Feng et al. | Hyperspectral band selection based on ternary weight convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |