CN109934863B - 一种基于密集连接型卷积神经网络的光场深度信息估计方法 - Google Patents

一种基于密集连接型卷积神经网络的光场深度信息估计方法 Download PDF

Info

Publication number
CN109934863B
CN109934863B CN201910187567.7A CN201910187567A CN109934863B CN 109934863 B CN109934863 B CN 109934863B CN 201910187567 A CN201910187567 A CN 201910187567A CN 109934863 B CN109934863 B CN 109934863B
Authority
CN
China
Prior art keywords
light field
convolutional neural
neural network
depth information
epi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910187567.7A
Other languages
English (en)
Other versions
CN109934863A (zh
Inventor
李学华
王亚飞
苏钰生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910187567.7A priority Critical patent/CN109934863B/zh
Publication of CN109934863A publication Critical patent/CN109934863A/zh
Application granted granted Critical
Publication of CN109934863B publication Critical patent/CN109934863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于密集连接型卷积神经网络的光场深度信息估计方法,该方法设计了一种端到端的全卷积神经网络结构的模型,模型的输入为包含整个场景点信息的光场的EPI Volume结构,模型通过对输入的特征提取输出估计的差异图。对于模型的训练,本发明提出了特定的数据增强方式来提高数据量。本发明提出的方法具有高精度、高效率、低计算代价的特点。

Description

一种基于密集连接型卷积神经网络的光场深度信息估计方法
技术领域
本发明涉及一种光场图像的深度信息估计方法,主要是设计了一种基于密 集连接型卷积神经网络的模型对光场图像进行深度信息估计。
背景技术
传统的成像设备与系统只能记录场景的二维平面信息,丢失了场景深度信 息,光场成像技术通过相机阵列或微透镜阵列记录不同方向的光线,因此,光 场相机通过单次曝光可以记录3维场景的空间、视角等4维光场信息,突破了传统呈现技术的局限,具有“先拍摄,后对焦”的独有特点,可通过后期算法 实现视角变换、重聚焦等光场应用技术。
目前,成熟的光场设备为Ng等人开发的消费级单镜头光场相机Lytro和 LytroIllum,该设备基于微透镜阵列以集成成像为基础,其模型见附图1。微透 镜阵列中每个透镜可以接收到同一场景点的不同光线并在感光板上形成一个 “宏像素”,由这些“宏像素”构成的图像称为光场子视图(Light Field subview), 通过对光场子视图的重排编码可以得到我们最终需要的光场子孔径图像(Light Field sub-aperture images),其过程见附图2。
光场子孔径图像表示了不同视角的场景图像,但基于微透镜阵列的光场相机 具有基线短的特点,这使得场景在不同视点的差异值(disparity)是连续的,可 以通过构建对极线平面图(epipolar plane image,EPI)来进行深度信息的估计, EPI的结构如附图3所示,EPI中直线的斜率和深度信息成正比关系。
当前,深度信息的估计方法分为两大类:基于优化的估计算法以及基于深 度学习的估计算法。基于优化的算法典型代表为Jeon等人根据相移理论提出了 一种达到亚像素精度的多视角立体匹配方法,该算法克服了微透镜镜头畸变, 且改善了传统匹配算法的准确度,但是基于立体匹配的算法复杂度高,计算代 价大。基于EPI的估计算法利用了EPI中直线斜率和深度的关系,可以有效降低计算代价,并且估计精度更高,其中较为优秀的算法是Wanner等人采用了 结构化张量来计算EPI中的斜率,得到初始视差图,并且使用全变差去噪滤波 器来精细化视差图。但该算法对于镜面反射、高光或缺少纹理的表面无法估计精确的深度信息。
基于EPI的估计算法近年来与深度学习相结合取得了不错的成绩,Luo等 人于2017年在CVPR中提出了一种基于EPI的卷积神经网络的深度信息提取 算法,该算法以水平及垂直EPI作为输入,网络模型对EPI进行特征分析,并 得出场景点的深度信息估计值,其模型见附图4,该模型将输出的估计值作为分 类任务输出(量化后的结果),因此模型的估计精度有限,对此,该算法还提出了基于能量函数的后优化处理,对最终生成的深度图作平滑优化。总体上基于 深度学习的估计算法在精度以及计算代价上优于非深度学习的方式,但是仍然 存在需要多次执行模型前向传播得到整体的深度图以及需要作后处理的缺点。
发明内容
本发明立足于深度学习技术以及基于EPI的光场的深度信息估计方式,采 用全卷积网络以及Highway Networks中shortcuts的思想,提出一种可以高精度、高效率、低计算代价完成深度信息估计的算法。
为了实现上述发明的目的,本发明提供以下技术方案:
首先,算法提出多个方向上的EPI Volume作为网络模型的输入,EPI Volume包含了所有像素点的信息,补正了传统EPI只包含部分像素点信息的缺 点。
其次,算法提出基于密集连接型卷积神经网络的网络模型,对EPI Volume 进行像素级的特征学习,输出深度图。
最后,模型的训练需要大量数据,对此,提出了一种针对光场数据的特化 的数据增强方案。
根据以上技术方案思想,本发明提供一种基于密集连接型卷积神经网络的 光场深度信息估计方法,该方法应用于基于微透镜阵列的光场深度信息估计, 其特征在于,该方法包括以下过程:
a)使用基于微透镜阵列的光场相机采集光场图像数据,然后使用随机灰度 化,随机旋转,随机裁剪,随机缩放的方式进行数据扩容;
b)将数据扩容后的光场图像数据合成为多个方向上的EPI(epipolar planeimage)Volume结构;
c)构建卷积神经网络的网络模型,把多个方向上的EPI Volume作为网络模 型的输入,学习其特征;
d)使用Dense Block结构减少网络参数,加快网络训练;
e)以平均绝对误差作为代价函数训练网络模型,直到模型参数收敛,输出 差异图。
其中,数据扩容使用的随机灰度化方式,其计算式为: Gray=wR*R+wG*G+wB*B,其中wR,wG,wB分别为RGB三通道的权重,权重 为随机值,且满足三个条件:wR+wG+wB=1;max{wR,wG,wB}=1;min{wR,wG,wB}=0。
其中,数据扩容方式中使用的随机旋转是根据旋转角度改变合成为EPI Volume结构前的视角方向,当顺时针旋转角度为时,同时改变水平及垂直方 向的视角提取顺序;当顺时针旋转角度为时,改变水平方向的视角提取顺序; 当顺时针旋转角度为时,改变垂直方向的视角提取顺序;
其中,EPI Volume结构,其特征是,EPI Volume结构是三维结构,其对 应的是不同视角的照片按照一定次序进行通道拼接而形成的;
其中,多方向的EPI Volume,其特征是:将(9×9)的图片阵列以中心视 角图像为原点,以水平方向,竖直方向以及斜对角线方向的所有图像拼接形成 EPI Volume;
其中,卷积神经网络的网络模型,其特征是,该模型由多个 “Conv-ReLU-Conv-BN-ReLU”基本单元,Dense Block单元以及Transition 单元构成,模型的输入分别为4个方向的EPI Volume,这4部分输入对应到模 型的4个支路中。其中,每条支路中都包含有6个基本单元,基本单元中所有 卷积层都是(2×2)大小的卷积核,卷积核数量为90;
其中,卷积神经网络的网络模型,其特征是,该模型中4个支路合成为一 个主路,主路包含4个Dense Block单元和Transition单元,Dense Block单元 的所有卷积层都是(2×2)大小的卷积核,卷积核数量为36,且采用通道拼接的方式将每一层的输出与同一个Dense Block中的其它层相连接,其中, Transition单元第一个卷积层的卷积核大小为(1×1),卷积核数量为90,第二 个卷积层的卷积核大小为(1×1),卷积核数量为1。
附图说明:
图1为背景中提到的单镜头微透镜阵列光场相机模型;
图2为背景中提到的子孔径图像的提取过程;
图3为背景中提到的EPI结构示意图;
图4为背景中提到的Luo等人提出的光场深度信息估计算法模型;
图5本发明基于密集连接型卷积神经网络的深度信息估计算法模型;
图6是本发明EPI Volume结构的形成过程;
图7是本发明针对光场结构的数据增强处理方法
具体实施方式
整个算法的流程图见图5,下面结合具体实施方式对本发明作进一步的详细 描述。
具体的算法模型如图5所示,可以看到整体模型以卷积层为基础,不包含 有全连接层,实现了全卷积的形式,并且没有后处理,输出为整个差异图,实 现了端到端的形式。下面依次从模型参数、输入预处理来对图5模型进行详细描述。
图5中模型前半部分采用多流的形式,4部分的输入分别输入到4流中, 但是每一条支路的参数数量一致(不代表参数相同,每条支路的参数在训练过 程中是单独更新的),网络的层次结构以“Conv-ReLU-Conv-BN-ReLU”为基 本单元,前半部分的多流结构都是包含3个基本单元,其中所有卷积层的卷积 核大小为(2×2),卷积核的数量为90;4部分输入经过多流以后将它们进行级 联(按通道方向)输入到网络的后半部分,网络后半部分包含4个Dense Block 基本单元和一个Transition输出部分,Dense Block基本单元中所有卷积层的卷积核大小为(2×2),卷积核数量为36,输出部分包含的层级为“BN-ReLU- 卷积层”,其中卷积的卷积核大小为(1×1),数量为1(输出的差异图通道数 为1)。对于网络中层级结构的设计以及参数的选择理由如下:
①由于EPI结构中的场景点在不视角上的移位量相当小,一般是像素级甚 至是亚像素级的,因此将卷积核的大小设置为(2×2),卷积时的步长为1,这 样可以感知4个像素点内的位移。
②基本单元选择“卷积层-规范层-ReLU”,卷积层不作其他说明,规范层的 功能是将卷积层输出的分布重新规范化,解除不同卷积层之间的强耦合,起到 正则化的作用;ReLU作为激活函数是实现整个网络函数的非线性化,而ReLU 激活函数很接近线性函数,因此选择该激活函数可以使网络函数具有部分线性 函数的优良属性。
③特别的,网络中不含有padding(填充),目的是不对输入增加无用信息, 影响估计精度;网络中同样不具有pooling(池化),因为pooling会造成信息损 失,影响估计精度。
模型输入包含有4个部分:水平、竖直、两条对角线方向的EPI Volume。 首先介绍本发明对EPI结构的预处理:与图3的一般EPI结构不同,一般的EPI 是将某一场景点按照视角顺序投影后形成,形成的EPI结构只包含有部分场景 点信息,而不包含整个场景点信息,而本发明使用EPI Volume包含整个场景, 目的是为了实现端到端的估计,下面介绍本发明EPI Volume的形成过程。EPI Volume的形成见图6,具体为以下几个步骤:
①选取以中心视角图像为中心的水平方向所有视角的图片,并且将其灰度 化,得到的图像大小为(高,宽,1),如图6中所示。
②将灰度化的图像按照水平从左到右的顺序在图像的通道维度上进行合 并,得到的水平EPI输入大小为(高,宽,9)(以(9×9)视角分辨率为例)
③对其他方向的图像作类似于步骤1,2的处理,可以得到其他方向的EPI Volume输入。
对上述步骤的解释:首先对于步骤1,本发明期望网络学习同一场景点在不 同视角下的位置关系,因此图像的色彩信息是不必要的冗余信息,所以将图像 进行灰度化。其次对于步骤2,由于CNN网络的关键计算为卷积计算,为了让 卷积操作可以实现对与不同视角图像的特征提取,本发明将不同视角下的图片 按照视角顺序在图片的通道方向上进行合并,。这里着重强调按照视角顺序合并,在图3所示的一般EPI结构中可以看到,只有按照视角顺序对图像进行提 取重构才可以得到正确的EPI结构。经上述步骤构成的EPI结构包含了整个场景的信息,可以实现端到端的估计。
传统方法仅使用1个或2个方向上的EPI信息,使得估计结果精度有限, 为了充分利用数据集中的图像信息,采用4个方向上的EPI Volume,提高估计 结果的准确度。
对于本发明模型的训练数据,本发明采用了HCI开源光场数据集,由于该 数据集光场图像数量少,本发明提出了针对光场结构特定的数据增强方式。以 上提及的数据集不属于本发明的技术范围,在数据方面,本发明的核心思想在 于数据增强方式上的处理。
数据增强有许多成熟的方法,但不是所有方式都能直接应用到本发明中, 这里只介绍了本发明针对光场结构处理后的数据增强方法。
本发明针对图像的旋转和随机灰度化两种增强方式作处理,因为这两种增 强方式改变了光场子孔径图像的视角顺序和位置关系,并且在图像中加入了噪 声,用于提高模型鲁棒性。对于旋转增强方式(默认顺时针旋转),其后处理分两种情况,若是旋转180°,其后处理与翻转一致,只完成视角顺序变换;但对于 旋转90°或270°,不仅要改变提取EPI结构时的视角顺序,提取的EPI结构在水 平及垂直方向的关系也要互换,以旋转90°为例,提取水平方向的子孔径图像合 成的EPI结构为实际为垂直EPI结构,所以对应的要给到网络的垂直EPI输入 中,如图7所示。随机灰度化采用公式:Gray=wR*R+wG*G+wB*B,其中wR,wG,wB分别为RGB三通道的权重,权重为随机值,且满足三个条件:wR+wG+wB=1; max{wR,wG,wB}=1;min{wR,wG,wB}=0。
对于训练模型选择的代价函数和优化器,本发明选择平均绝对误差代价函 数以及Rmsprop优化器,这里只作了简单阐述。
本发明的特点在于设计的网络模型是端到端、全卷积的形式,并且使用EPIVolume作为输入使输入具备整体的场景点信息,这样可以使得模型只经过一次 前向传播来得到整体的差异图,其次,本算法根据光场的特点提出了特定的数 据增强的处理方式。综上,本发明提出了一种高精度、高效率的光场深度信息 估计方法。
以上对本发明提供的卷积神经网络的光场深度信息估计方法作了详细阐 述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,同时, 对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围 上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种基于密集连接型卷积神经网络的光场深度信息估计方法,该方法应用于基于光场图像的深度信息估计,其特征在于,该方法包括以下过程:
a)使用基于微透镜阵列的光场相机采集光场图像数据,然后使用随机灰度化,随机旋转,随机裁剪,随机缩放的方式进行数据扩容;
b)将数据扩容后的光场图像数据合成为多个方向上的EPI(epipolarplane image)Volume结构;
c)构建卷积神经网络的网络模型,把多个方向上的EPIVolume作为网络模型的输入,学习其特征;
d)使用DenseBlock结构减少网络参数,加快网络训练;
e)以平均绝对误差作为代价函数训练网络模型,直到模型参数收敛,输出差异图;
f)利用卷积神经网络的网络模型对EPIVolume进行像素级的特征学习,输出深度图;
其中,步骤b)具体包括:
①选取以中心视角图像为中心的水平方向所有视角的图片,并且将所述图片灰度化,得到的图像大小为(高,宽,1);②将灰度化的图像按照水平从左到右的顺序在图像的通道维度上进行合并,得到的水平EPI输入大小为(高,宽,9);③选取以中心视角图像为中心的竖直方向所有视角的图片,并且将所述图片灰度化,得到的图像大小为(高,宽,1),将灰度化的图像按照竖直从左到右的顺序在图像的通道维度上进行合并,得到的竖直EPI输入大小为(高,宽,9);选取以中心视角图像为中心的两条对角线方向所有视角的图片,并且将所述图片灰度化,得到的图像大小为(高,宽,1),将灰度化的图像按照两条对角线从左到右的顺序在图像的通道维度上进行合并,得到的两条对角线EPI输入大小为(高,宽,9)。
2.根据权利要求1所述的基于密集连接型卷积神经网络的光场深度信息估计方法,其特征是,该方式使用的随机灰度化,其计算公式为:Gray=wR*R+wG*G+wB*B,其中wR,wG,wB分别为RGB三通道的权重,权重为随机值,且满足三个条件:wR+wG+wB=1;max{wR,wG,wB}=1;min{wR,wG,wB}=0。
3.根据权利要求1所述的基于密集连接型卷积神经网络的光场深度信息估计方法,其特征是,该方式使用的随机旋转是根据旋转角度改变合成为EPI Volume结构前的视角方向,当顺时针旋转角度为180°时,同时改变水平及垂直方向的视角提取顺序;当顺时针旋转角度为90°时,改变水平方向的视角提取顺序;当顺时针旋转角度为270°时,改变垂直方向的视角提取顺序。
4.根据权利要求1所述的基于密集连接型卷积神经网络的光场深度信息估计方法,其特征是,EPIVolume是三维结构,其对应的是不同视角的照片按照一定次序进行通道拼接而形成的。
5.根据权利要求1所述的基于密集连接型卷积神经网络的光场深度信息估计方法,其特征是,将(9×9)的图片阵列以中心视角图像为原点,以水平方向,竖直方向以及斜对角线方向的所有图像拼接形成EPIVolume。
6.根据权利要求1所述的基于密集连接型卷积神经网络的光场深度信息估计方法,其特征是,该模型由多个“Conv-ReLU-Conv-BN-ReLU”基本单元,DenseBlock单元以及Transition单元构成,模型的输入分别为4个方向的EPI Volume,这4部分输入对应到模型的4个支路中。
7.根据权利要求1所述的基于密集连接型卷积神经网络的光场深度信息估计方法,其特征是,该模型中4个支路合成为一个主路,主路包含4个DenseBlock单元和Transition单元,DenseBlock单元的所有卷积层都是(2×2)大小的卷积核,卷积核数量为36,且采用通道拼接的方式将每一层的输出与同一个Dense Block中的其它层相连接,其中,Transition单元第一个卷积层的卷积核大小为(1×1),卷积核数量为90,第二个卷积层的卷积核大小为(1×1),卷积核数量为1。
CN201910187567.7A 2019-03-13 2019-03-13 一种基于密集连接型卷积神经网络的光场深度信息估计方法 Active CN109934863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910187567.7A CN109934863B (zh) 2019-03-13 2019-03-13 一种基于密集连接型卷积神经网络的光场深度信息估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910187567.7A CN109934863B (zh) 2019-03-13 2019-03-13 一种基于密集连接型卷积神经网络的光场深度信息估计方法

Publications (2)

Publication Number Publication Date
CN109934863A CN109934863A (zh) 2019-06-25
CN109934863B true CN109934863B (zh) 2023-11-14

Family

ID=66987059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910187567.7A Active CN109934863B (zh) 2019-03-13 2019-03-13 一种基于密集连接型卷积神经网络的光场深度信息估计方法

Country Status (1)

Country Link
CN (1) CN109934863B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496521B (zh) * 2020-04-08 2022-10-18 复旦大学 利用多张彩色图片生成深度图像与相机外参的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993260A (zh) * 2017-12-14 2018-05-04 浙江工商大学 一种基于混合型卷积神经网络的光场图像深度估计方法
CN108846473A (zh) * 2018-04-10 2018-11-20 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993260A (zh) * 2017-12-14 2018-05-04 浙江工商大学 一种基于混合型卷积神经网络的光场图像深度估计方法
CN108846473A (zh) * 2018-04-10 2018-11-20 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于卷积神经网络的光场图像深度估计";潘志伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615;第2章-第5章 *
Xing Sun 等."Data-driven light field depth estimation using deep convolutional neural networks".《IEEE Xplore》.2016,第367-374页. *

Also Published As

Publication number Publication date
CN109934863A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109949354B (zh) 一种基于全卷积神经网络的光场深度信息估计方法
Hua et al. Holopix50k: A large-scale in-the-wild stereo image dataset
KR102658359B1 (ko) 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법
CN113592026A (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN114511609B (zh) 基于遮挡感知的无监督光场视差估计系统及方法
CN112509021B (zh) 一种基于注意力机制的视差优化方法
CN104506872A (zh) 一种平面视频转立体视频的方法及装置
CN109801323A (zh) 具有自我提升能力的金字塔双目深度估计模型
CN102263957A (zh) 一种基于搜索窗口自适应的视差估计方法
JP6128748B2 (ja) 画像処理装置及び方法
CN113705796A (zh) 基于epi特征强化的光场深度获取卷积神经网络
CN116563459A (zh) 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法
CN113436254B (zh) 一种级联解耦的位姿估计方法
CN109934863B (zh) 一种基于密集连接型卷积神经网络的光场深度信息估计方法
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN113887568A (zh) 一种各向异性卷积的双目图像立体匹配方法
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN114092540A (zh) 基于注意力机制的光场深度估计方法及计算机可读介质
CN111368882B (zh) 一种基于简化独立成分分析和局部相似性的立体匹配方法
CN115170921A (zh) 一种基于双边网格学习和边缘损失的双目立体匹配方法
KR20230117034A (ko) 깊이 이미지 완성 방법 및 장치
CN114119704A (zh) 一种基于空间金字塔池化的光场图像深度估计方法
CN114663599A (zh) 一种基于多视图的人体表面重建方法及系统
CN111951159B (zh) 一种强噪声条件下光场epi图像超分辨率的处理方法
Sabae et al. NoPose-NeuS: Jointly Optimizing Camera Poses with Neural Implicit Surfaces for Multi-view Reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant