CN107492122A - 一种基于多层深度平面的深度学习视差估计方法 - Google Patents

一种基于多层深度平面的深度学习视差估计方法 Download PDF

Info

Publication number
CN107492122A
CN107492122A CN201710597329.4A CN201710597329A CN107492122A CN 107492122 A CN107492122 A CN 107492122A CN 201710597329 A CN201710597329 A CN 201710597329A CN 107492122 A CN107492122 A CN 107492122A
Authority
CN
China
Prior art keywords
deep learning
estimation method
layer
method based
depth plane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710597329.4A
Other languages
English (en)
Inventor
胡勇
陈鹏
严柯
王鹏
桑新柱
陈铎
荆路友
李超
李永瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Advanced Video Info-Tech Co Ltd
Original Assignee
Shenzhen Advanced Video Info-Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Advanced Video Info-Tech Co Ltd filed Critical Shenzhen Advanced Video Info-Tech Co Ltd
Priority to CN201710597329.4A priority Critical patent/CN107492122A/zh
Publication of CN107492122A publication Critical patent/CN107492122A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明提供一种基于多层深度平面的深度学习视差估计方法,包括如下步骤:通过N层像素平移构建N层深度平面,所述N为大于1的自然数;通过网络搭建,得到每一层的视差图像的概率;每一层的视差图像概率求和。采用了深度学习网络求解视差,可以从数学上可以求解,以保证求取深度的结果最优。

Description

一种基于多层深度平面的深度学习视差估计方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于多层深度平面的深度学习视差估计方法。
背景技术
深度检测是计算机视觉中一个重要问题,利用两个摄像头得到左右图像,通过SAD等算法以检测出相关场景图像深度。两个内参相同的相机拍摄同一个三维物点P,矫正后,P分别成像在xleft和xright上。将两相机光轴重叠,可以得到以下计算公式:
其中,d为视差,f为焦距,Z为深度,S为两光轴之间的距离。根据上式视差与深度成反比,视差越大,深度越小,物点越靠近摄像机。根据视差可以得到三维物点的深度,而按照深度反投影,就可以得到原始的三维场景。可见,视差的精确程度决定了三维深度的好坏。为了提高视差的精度,研究者们创建了一系列的方法,这些统称为视差估计方法。
对于传统的视差估计方法,如果采用最基本的SAD匹配,目前这些传统方法依旧存在较大的不准确性。目前,仍然没有一种精度较高的视差估计方法。
发明内容
本发明为了解决现有技术中视差估计方法精度不高问题,提供一种基于多层深度平面的深度学习视差估计方法。
为了解决上述问题,本发明采用的技术方案如下所述:
一种基于多层深度平面的深度学习视差估计方法,包括如下步骤:S1:通过N层像素平移构建N层深度平面,所述N为大于1的自然数;S2:通过网络搭建,得到每一层的视差图像的概率;S3:每一层的视差图像概率求和。
优选地,所述步骤S1中N的取值不大于图像宽度大小的25%。
优选地,所述步骤S2中网络搭建采用卷积层,所述卷积层为2-10个。
优选地,所述步骤S2中网络搭建输入6个特征,输出1个特征,每个卷积层的特征不超过128个,每个卷积核的大小不超过16*16。
优选地,所述步骤S3中视差图像概率求和的公式为:其中i是层数,pi是第i层对应的视差图像的概率。
优选地,还包括采用ADAM对视差图像的概率进行梯度优化。
优选地,学习率的步长不大于0.01。
本发明的有益效果为:提供一种基于多层深度平面的深度学习视差估计方法,采用了深度学习网络求解视差,可以从数学上可以求解,以保证求取深度的结果最优。
附图说明
图1是本发明实施例1中基于多层深度平面的深度学习视差估计方法示意图。
图2是本发明实施例1中构建深度平面示意图。
图3是本发明实施例1的网络搭建示意图。
图4是本发明实施例1的又一个网络搭建示意图。
图5是本发明实施例1的再一个网络搭建示意图。
图6是本发明实施例1的第三个网络搭建示意图。
图7是本发明实施例1的迭代收敛效果示意图。
图8是本发明实施例1的又一个迭代收敛效果示意图。
图9是本发明实施例1的在一个迭代收敛效果示意图。
具体实施方式
下面结合附图通过具体实施例对本发明进行详细的介绍,以使更好的理解本发明,但下述实施例并不限制本发明范围。另外,需要说明的是,下述实施例中所提供的图示仅以示意方式说明本发明的基本构思,附图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的形状、数量及比例可为一种随意的改变,且其组件布局形态也可能更为复杂。
实施例1
如图1所示,本发明一种基于多层深度平面的深度学习视差估计方法,包括如下步骤:
(1)通过N层像素平移构建N层深度平面,N为大于1的自然数;
如图2所示,采用左右两个内参相同的相机拍摄同一个场景,右图内容相对于左图内容比较偏向于左边,所以将右图向左移动可以与左图相匹配。将左图堆叠为N层。右图每一个像素成为一张新图像并与其余图像堆叠,可以得到N层具有N个像素视差深度平面。
在本发明的一种变通实施例中,图像宽度大小为1920时,N的取值最大为480;当图像宽度为1080时,N的取值最大为270,N的取值不大于图像宽度大小的25%。
S2:通过网络搭建,得到每一层的视差图像的概率;
如图3所示,基于CNN原理搭建了一个学习深度的网络,里面主要采用卷积层,可以采用4个卷积层,每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联,具有6个特征的图像作为输入,第一个卷积层是6个特征变64个特征,卷积核为5*5;第二个卷积层为64个特征变32个特征,卷积核为3*3;第三个卷积层为32个特征变24个特征,卷积核为3*3;第四个卷积层为24个特征变1个特征,卷积核为3*3。
如图4所示,在本发明的又一个变通实施例中,搭建一个学习深度的网络,里面主要采用卷积层,可以采用2个卷积层,每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联,具有6个特征的图像作为输入,第一个卷积层是6个特征变128个特征,卷积核为5*5;第二个卷积层为128个特征变1个特征,卷积核为3*3。
如图5所示,在本发明的再一个变通实施例中,搭建一个学习深度的网络,里面主要采用卷积层,可以采用2个卷积层,每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联,具有6个特征的图像作为输入,第一个卷积层是6个特征变128个特征,卷积核为16*16;第二个卷积层为128个特征变1个特征,卷积核为9*9;作为一种变通,具有6个特征的图像作为输入,第一个卷积层是6个特征变128个特征,卷积核为5*5;第二个卷积层为128个特征变1个特征,卷积核为3*3。
如图6所示,在本发明的第三个变通实施例中,搭建一个学习深度的网络,里面主要采用卷积层,可以采用10个卷积层,每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联,具有6个特征的图像作为输入,第一个卷积层是6个特征变64个特征,卷积核为16*16;第二个卷积层为64个特征变56个特征,卷积核为12*12;第三个卷积层为56个特征变48个特征,卷积核为8*8;第四个卷积层为48个特征变40个特征,卷积核为5*5;第五个卷积层是40个特征变32个特征,卷积核为5*5;第六个卷积层为32个特征变24个特征,卷积核为5*5;第七个卷积层为24个特征变24个特征,卷积核为3*3;第八个卷积层为24个特征变16个特征,卷积核为3*3;第九个卷积层为16个特征变8个特征,卷积核为3*3;第十个卷积层为8个特征变1个特征,卷积核为3*3。
网络搭建输入6个特征,输出1个特征,每个卷积层的特征不超过128个,每个卷积核的大小不超过16*16。
(3)每一层的视差图像概率求和,视差图像概率求和的公式为:其中i是层数,pi是第i层对应的视差图像的概率。每一个深度学习网络都可以处理一个深度平面得到相应概率。那么多层深度平面分别乘以当前视差并求和,则可以得到最终目标视差图像
(4)为了保证效果,本发明的方法还包括采用ADAM对视差图像的概率进行梯度优化。
在深度学习中,可以采用ADAM进行梯度优化,beta1为0.9,beta2为0.999。
如图7所示,学习率的步长为0.01时,收敛抖动过大,不易拟合。
如图8所示,学习率的步长为0.005是,收敛效果较好。
如图9所示,学习率的步长为0.0001时,收敛速度过慢。
本发明采用第一个深度学习网络计算的视差结果与标准视差图进行比较,错误率为17%,正确率83%;采用第二个深度学习网络,错误率为23%,正确率77%;采用第三个深度学习网络,错误率为25%,正确率75%;采用第四个深度学习网络,错误率为24%,正确率76%;相比而言,传统算法的错误率为75%,正确率为25%。视差求解的正确率提升明显。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于多层深度平面的深度学习视差估计方法,其特征在于,包括如下步骤:
S1:通过N层像素平移构建N层深度平面,所述N为大于1的自然数;
S2:通过网络搭建,得到每一层的视差图像的概率;
S3:每一层的视差图像概率求和。
2.如权利要求1所述的基于多层深度平面的深度学习视差估计方法,其特征在于,所述步骤S1中N的取值不大于图像宽度大小的25%。
3.如权利要求1所述的基于多层深度平面的深度学习视差估计方法,其特征在于,所述步骤S2中网络搭建采用卷积层,所述卷积层为2-10个。
4.如权利要求3所述的基于多层深度平面的深度学习视差估计方法,其特征在于,所述步骤S2中网络搭建输入6个特征,输出1个特征,每个卷积层的特征不超过128个,每个卷积核的大小不超过16*16。
5.如权利要求1所述的基于多层深度平面的深度学习视差估计方法,其特征在于,所述步骤S3中视差图像概率求和的公式为:其中i是层数,pi是第i层对应的视差图像的概率。
6.如权利要求1所述的基于多层深度平面的深度学习视差估计方法,其特征在于,还包括采用ADAM对视差图像的概率进行梯度优化。
7.如权利要求5所述的基于多层深度平面的深度学习视差估计方法,其特征在于,学习率的步长不大于0.01。
CN201710597329.4A 2017-07-20 2017-07-20 一种基于多层深度平面的深度学习视差估计方法 Withdrawn CN107492122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710597329.4A CN107492122A (zh) 2017-07-20 2017-07-20 一种基于多层深度平面的深度学习视差估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710597329.4A CN107492122A (zh) 2017-07-20 2017-07-20 一种基于多层深度平面的深度学习视差估计方法

Publications (1)

Publication Number Publication Date
CN107492122A true CN107492122A (zh) 2017-12-19

Family

ID=60644595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710597329.4A Withdrawn CN107492122A (zh) 2017-07-20 2017-07-20 一种基于多层深度平面的深度学习视差估计方法

Country Status (1)

Country Link
CN (1) CN107492122A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110150101A1 (en) * 2008-09-02 2011-06-23 Yuan Liu 3d video communication method, sending device and system, image reconstruction method and system
CN104219516A (zh) * 2014-09-01 2014-12-17 北京邮电大学 一种数字分层的三维显示方法及装置
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
CN106384080A (zh) * 2016-08-31 2017-02-08 广州精点计算机科技有限公司 一种基于卷积神经网络的表观年龄估计方法及装置
CN106600583A (zh) * 2016-12-07 2017-04-26 西安电子科技大学 基于端到端神经网络的视差图获取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110150101A1 (en) * 2008-09-02 2011-06-23 Yuan Liu 3d video communication method, sending device and system, image reconstruction method and system
CN104219516A (zh) * 2014-09-01 2014-12-17 北京邮电大学 一种数字分层的三维显示方法及装置
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
CN106384080A (zh) * 2016-08-31 2017-02-08 广州精点计算机科技有限公司 一种基于卷积神经网络的表观年龄估计方法及装置
CN106600583A (zh) * 2016-12-07 2017-04-26 西安电子科技大学 基于端到端神经网络的视差图获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. KINGMA 等: "Adam: A Method for Stochastic Optimization", 《INTERNATIONAL CONFERENCE FOR LEARNING REPRESENTATIONS 2015》 *
JOHN FLYNN 等: "DeepStereo: Learning to Predict New Views from theWorld’s Imagery", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Similar Documents

Publication Publication Date Title
CN107666606B (zh) 双目全景图像获取方法及装置
TWI435287B (zh) 影片轉換系統之景深圖產生
Sapiro Inpainting the colors
CN110070598B (zh) 用于3d扫描重建的移动终端及其进行3d扫描重建方法
US10778955B2 (en) Methods for controlling scene, camera and viewing parameters for altering perception of 3D imagery
CN108376392A (zh) 一种基于卷积神经网络的图像运动模糊去除方法
CN106952222A (zh) 一种交互式图像虚化方法及装置
CN108648264B (zh) 基于运动恢复的水下场景重建方法及存储介质
CN111047709B (zh) 一种双目视觉裸眼3d图像生成方法
JP5533529B2 (ja) 画像処理装置及び画像処理システム
CN109584340A (zh) 基于深度卷积神经网络的新视角合成方法
CN109544621A (zh) 基于卷积神经网络的光场深度估计方法、系统及介质
CN109147036A (zh) 一种基于深度学习的集成成像微图像阵列快速生成方法
CN107680164A (zh) 一种虚拟对象大小调整方法和装置
CN106952247A (zh) 一种双摄像头终端及其图像处理方法和系统
CN107067452A (zh) 一种基于全卷积神经网络的电影2d转3d方法
CN103761766A (zh) 基于色调映射和图像平滑的三维物体模型纹理映射算法
CN106887043A (zh) 三维建模外点去除的方法、装置及三维建模的方法
CN107633497A (zh) 一种图像景深渲染方法、系统及终端
CN109685750A (zh) 图像增强方法及计算设备
CN105657268A (zh) 一种基于多分辨率的多视点视频拼接融合算法
CN106875359A (zh) 一种基于分层引导策略的样本块图像修复方法
Dong et al. Cycle-CNN for colorization towards real monochrome-color camera systems
CN107492122A (zh) 一种基于多层深度平面的深度学习视差估计方法
CN111062900B (zh) 一种基于置信度融合的双目视差图增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171219