CN109472819B - 一种基于级联几何上下文神经网络的双目视差估计方法 - Google Patents
一种基于级联几何上下文神经网络的双目视差估计方法 Download PDFInfo
- Publication number
- CN109472819B CN109472819B CN201811038173.7A CN201811038173A CN109472819B CN 109472819 B CN109472819 B CN 109472819B CN 201811038173 A CN201811038173 A CN 201811038173A CN 109472819 B CN109472819 B CN 109472819B
- Authority
- CN
- China
- Prior art keywords
- network
- training
- image
- disparity map
- gcnet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于级联几何上下文神经网络的双目视差估计方法;本发明设计了一种新的级联卷积神经网络Cascaded GCNet(CGCNet),该网络主要通过改进GCNet,通过将3d卷积和原有的2d卷积操作结合,得到了较好的视差图特征表述,有利于后续网络训练;并且利用RefineNet对GCnet网络输出的粗糙视差图进行优化,迭代求精,提高了视差图的预测精度;RefineNet优化过程中,利用难例挖掘使得网络模型专注于难得样本学习,以此提高本网络对于不同复杂度图像对的视差估计精度。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于级联几何上下文神经网络的双目视差估计方法。
背景技术
深度图是三维重建和三维场景理解中不可或缺的部分。通过给定一对校正后的双目相机生成的图,就可以利用两张图同一行对应的像素去估计它的深度,例如,对于左图的像素(x,y),假设在右图上所对应的像素是(x+d,y),我们就可以通过f*l/d去计算它的深度,其中f是相机的焦距,l是双目相机的两个中心点的距离,d是左右图的视差。深度与视差成反比关系,只要计算出了视差,我们就可以直接通过上述计算公式得到深度。目前有利用三维传感器来得到深度图的方法,但是计算非常耗时。传统算法通常把双目视差估计分为多个阶段去优化。直到近几年,才有一些学者使用卷积神经网络计算视差,将其转换成了一个学习任务。在使用了大量的可用的数据后,使用卷积神经网络在计算视差无论是在速度还是精度上,都超越了传统算法。
然而,在一些复杂场景中,比如低纹理,目标遮挡,纹理重复等,这仍然是一个很难解决的问题。在低纹理区域,将非常容易得到许多候选的像素点;另外,如果目标在一张图出现而在另一张图被遮挡,那么这个目标将非常难找到。
发明内容
本发明针对现有技术所存在的上述问题,本发明提出了一种基于级联几何上下文神经网络的双目视差估计方法。主要设计了一种新的级联卷积神经网络Cascaded GCNet(CGCNet),该网络由两部分组成几何上下文网络GCNet和RefineNet,且采用端到端的训练模式。由于该网络不需要分别计算匹配代价,代价聚合,视差优化等,大大提升了网络训练的效率,同时在精度上也有所提高。
一种基于级联几何上下文神经网络的双目视差估计方法,包括如下步骤:
步骤(1)图像预处理。对带有参考实参图的双目图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;
步骤(2)构造级联卷积神经网络CGCNet。包括以下网络层:
2-1.构造粗略视差图像估计层。该网络层由GCNet(Geometry and ContextNetwork)网络构成。
2-2.构造视差求精层。该网络层为RefineNet,将步骤2-1中生成的粗糙视差图输入构造视差求精层,输出的结果便是精确的视差图。
步骤(3)网络训练。收集数据集,对网络进行有监督的反向传播算法训练,包含以下步骤:
3-1.对训练数据进行预处理;
3-2.将数据输入GCNet进行训练得到粗糙视差图;
3-3.将粗糙视差图输入RefineNet进行训练,并利用难例挖掘进行有监督的反向传播训练;
3-4.通过3-1和3-2的各自网络训练得到该两个网络的权重,利用这些权重将网络级联进行端到端的训练。
步骤(4)求视差图。从Kitti2015测试数据集中取双目图像对进行测试,对测试图像对进行步骤(1)的预处理,接着将预处理后的图像对输入到步骤(3)中训练完成的网络,最终得到相应的视差图。
所述的步骤(2)中,构造级联卷积神经网络CGCNet。包括以下网络层:
2-1.GCnet网络结合二维和三维卷积神经网络学习图像的特征,计算匹配代价,输出视差图。其首先利用5*5的卷积核减小特征图的大小,即对特征图进行降采样,降采样层的步长为2,即将特征图的大小缩小了32倍;再用6个残差模块去学习特征,且用3d卷积进行上下文学习;接着利用这些左右图的特征计算匹配代价,计算匹配代价的具体方法为:左图固定,将右图做偏移,再与左图对应像素相乘得到匹配代价量,该量的维度为高*宽*(最大视差值+1)*特征图通道;并且通过softargmin输出视差图;2-2.RefineNet网络为沙漏形状。该网络使用反卷积将特征图放大,使得其输出图像的大小与输入图像的大小保持一致,其网络结构如图1所示。RefineNet的输入是左图IL和右图IR,通过GCNet输出的视差值,构建了一个表示合成的左图,即对输入的右图IR的x坐标与视差图值进行相加得到其数学表达式如下:
并将Error输入网络中,辅助网络更好地学习,Error的计算公式如下:
RefineNet在5个尺度上使用了残差结构,该五个尺度分别为原图大小的1/16,1/8,1/4,1/2,1/1。网络在每个尺度上都学习了一个残差,用数学表示如下:
其中,N为该网络中总尺度数量;当n=0时,为当前结构的输出,当n>0时,只辅助网络学习,是GCNet输出的视差图,r2 (n)是每层上的残差。对于不同尺度的监督信息,利用双线性差值方法将不同的标准视差图进行下采样到相应的尺度。
所述的步骤(3)中,收集的数据集来源于两个开源数据库,Sceneflow和KITTI,网络训练在TensorFlow框架下进行,且利用L1 loss进行训练监督,L1 loss收敛时说明网络训练完成,其数学表达式如下:
3-1.预处理包括图像数据填充和随机裁剪。先对Kitti数据集中的图像进行填充达到分辨率一致的效果,填充后的图像分辨率为1248*384;接着对高分辨率图像进行随机裁剪处理,得到512*256的子图像作为网络训练学习的样本,以此来加快网络训练速度;
3-2.GCNet网络的训练过程由两部分组成,先使用Sceneflow数据集对网络进行预训练,得到一个预训练模型,然后使用Kitti数据集对预训练模型进行微调训练,以此完成GCNet网络的训练;
3-3.难例挖掘的操作方式是对RefineNet输出的loss进行降序排,并只对排序后的前三分之一求和作为新的loss进行反向传播训练。
本发明有益效果如下:
本发明提出了一种基于级联几何上下文神经网络的双目视差估计方法。该网络主要通过改进GCNet,通过将3d卷积和原有的2d卷积操作结合,得到了较好的视差图特征表述,有利于后续网络训练;并且利用RefineNet对GCnet网络输出的粗糙视差图进行优化,迭代求精,提高了视差图的预测精度;RefineNet优化过程中,利用难例挖掘使得网络模型专注于难得样本学习,以此提高本网络对于不同复杂度图像对的视差估计精度。
附图说明
图1为RefineNet结构图。
具体实施方式
一种基于级联几何上下文神经网络的双目视差估计方法,包括如下步骤:
步骤(1)图像预处理。对带有参考实参图的双目图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;
步骤(2)构造联级卷积神经网络CGCNet。包括以下网络层:
2-1.构造粗略视差图像估计层。该网络层主要由GCNet(Geometry and ContextNetwork)网络构成。
2-2.构造视差求精层。该网络层为RefineNet,将步骤2-1中生成的粗糙视差图输入该网络层,输出的结果便是精确的视差图。
构造联级卷积神经网络CGCNet。包括以下网络层:
2-1.GCnet网络主要结合二维和三维卷积神经网络学习图像的特征,输出匹配代价。其首先利用5*5的卷积核减小特征图的大小,即对特征图进行降采样,降采样层的步长为2,即将特征图的大小缩小了32倍;再用6个残差模块去学习特征,且用3d卷积进行上下文学习;接着利用这些左右图的特征计算匹配代价,计算匹配代价的具体方法为:左图固定,将右图做偏移,再与左图对应像素相乘得到匹配代价量,该量的维度为高*宽*(最大视差值+1)*特征图通道;
2-2.RefineNet网络为沙漏形状。该网络使用反卷积将特征图放大,使得其输出图像的大小与输入图像的大小保持一致,其网络结构如图1所示。RefineNet的输入是左图IL和右图IR,通过GCNet输出的视差值,构建了一个其数学表达式如下:
Error的计算公式如下:
RefineNet在5个尺度上使用了残差结构,该五个尺度分别为原图大小的1/16,1/8,1/4,1/2,1/1。网络在每个尺度上都学习了一个残差,用数学表示如下:
步骤(3)网络训练。收集数据集,对网络进行有监督的反向传播算法训练,包含以下步骤:
3-1.对训练数据进行预处理;
3-2.将数据输入GCNet进行训练得到粗糙视差图;
3-3.将粗糙视差图输入RefineNet进行训练,并利用难例挖掘进行有监督的反向传播训练;
3-4.通过3-1和3-2的各自网络训练得到该两个网络的权重,利用这些权重将网络级联进行端到端的训练。
收集的数据集来源于两个开源数据库,Sceneflow和KITTI,网络训练在TensorFlow框架下进行,且利用L1 loss进行训练监督,L1 loss收敛时说明网络训练完成,其数学表达式如下:
3-1.预处理包括图像数据填充和随机裁剪。先对Kitti数据集中的图像进行填充达到分辨率一致的效果,填充后的图像分辨率为1248*384;接着对高分辨率图像进行随机裁剪处理,得到512*256的子图像作为网络训练学习的样本,以此来加快网络训练速度;
3-2.GCNet网络的训练过程主要有两部分组成,先使用Sceneflow数据集对网络进行预训练,得到一个预训练模型,然后使用Kitti数据集对预训练模型进行微调训练,以此完成GCNet网络的训练;
3-3.难例挖掘的操作方式是对RefineNet输出的loss进行排序,选择一些较大的loss进行反向传播训练。
步骤(4)求视差图。从Kitti2015测试数据集中取双目图像对进行测试,对测试图像对进行步骤(1)的预处理,接着将预处理后的图像对其输入步骤(3)中训练完成的网络,最终得到相应的视差图。
Claims (3)
1.一种基于级联几何上下文神经网络的双目视差估计方法,其特征在于,该方法具体包括以下步骤:
步骤(1):图像预处理;对带有参考实参图的双目图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;
步骤(2):构造级联卷积神经网络CGCNet;包括以下网络层:
2-1.构造粗略视差图像估计层;该网络层由几何上下文网络GCNet网络构成;
2-2.构造视差求精层;该网络层为RefineNet,将步骤2-1中生成的粗糙视差图输入构造视差求精层,输出的结果便是精确的视差图;
其中RefineNet网络为沙漏形状;该网络使用反卷积将特征图放大,使得其输出图像的大小与输入图像的大小保持一致;RefineNet的输入是左图IL和右图IR,通过GCNet输出的视差值,构建了一个表示合成的左图,即对输入的右图IR的x坐标与视差图值进行相加得到其数学表达式如下:
并将Error输入网络中,辅助网络更好地学习,Error的计算公式如下:
RefineNet在5个尺度上使用了残差结构,该五个尺度分别为原图大小的1/16,1/8,1/4,1/2,1/1;网络在每个尺度上都学习了一个残差,用数学表示如下:
其中,N为该网络中总尺度数量;当n=0时,为当前结构的输出,当n>0时,只辅助网络学习,是GCNet输出的视差图,r2 (n)是每层上的残差;对于不同尺度的监督信息,利用双线性差值方法将不同的标准视差图进行下采样到相应的尺度;
步骤(3):网络训练;收集数据集,对网络进行有监督的反向传播算法训练,包含以下步骤:
3-1.对训练数据进行预处理;
3-2.将数据输入GCNet进行训练得到粗糙视差图;
3-3.将粗糙视差图输入RefineNet进行训练,并利用难例挖掘进行有监督的反向传播训练;
3-4.通过3-1和3-2的各自网络训练得到该两个网络的权重,利用这些权重将网络级联进行端到端的训练;
步骤(4):求视差图;
从Kitti2015测试数据集中取双目图像对进行测试,对测试图像对进行步骤(1)的预处理,接着将预处理后的图像对输入到步骤(3)中训练完成的网络,最终得到相应的视差图。
2.根据权利要求1所述的一种基于级联几何上下文神经网络的双目视差估计方法,其特征在于:
所述的步骤(2)中,构造级联卷积神经网络CGCNet;具体为:
2-1.GCnet网络结合二维和三维卷积神经网络学习图像的特征,计算匹配代价,输出视差图;其首先利用5*5的卷积核减小特征图的大小,即对特征图进行降采样,降采样层的步长为2,即将特征图的大小缩小了32倍;再用6个残差模块去学习特征,且用3d卷积进行上下文学习;接着利用这些左右图的特征计算匹配代价,计算匹配代价的具体方法为:左图固定,将右图做偏移,再与左图对应像素相乘得到匹配代价量,该量的维度为高*宽*(最大视差值+1)*特征图通道;并且通过softargmin输出视差图。
3.根据权利要求1所述的一种基于级联几何上下文神经网络的双目视差估计方法,其特征在于:
所述的步骤(3)中,收集的数据集来源于两个开源数据库,Sceneflow和KITTI,网络训练在TensorFlow框架下进行,且利用L1 loss进行训练监督,L1 loss收敛时说明网络训练完成,其数学表达式如下:
3-1.预处理包括图像数据填充和随机裁剪;先对Kitti数据集中的图像进行填充达到分辨率一致的效果,填充后的图像分辨率为1248*384;接着对高分辨率图像进行随机裁剪处理,得到512*256的子图像作为网络训练学习的样本,以此来加快网络训练速度;
3-2.GCNet网络的训练过程由两部分组成,先使用Sceneflow数据集对网络进行预训练,得到一个预训练模型,然后使用Kitti数据集对预训练模型进行微调训练,以此完成GCNet网络的训练;
3-3.难例挖掘的操作方式是对RefineNet输出的loss进行降序排,并只对排序后的前三分之一求和作为新的loss进行反向传播训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811038173.7A CN109472819B (zh) | 2018-09-06 | 2018-09-06 | 一种基于级联几何上下文神经网络的双目视差估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811038173.7A CN109472819B (zh) | 2018-09-06 | 2018-09-06 | 一种基于级联几何上下文神经网络的双目视差估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109472819A CN109472819A (zh) | 2019-03-15 |
CN109472819B true CN109472819B (zh) | 2021-12-28 |
Family
ID=65663037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811038173.7A Active CN109472819B (zh) | 2018-09-06 | 2018-09-06 | 一种基于级联几何上下文神经网络的双目视差估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472819B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862321B (zh) * | 2019-04-30 | 2024-05-03 | 北京四维图新科技股份有限公司 | 视差图的获取方法、装置、系统及存储介质 |
CN110427968B (zh) * | 2019-06-28 | 2021-11-02 | 武汉大学 | 一种基于细节增强的双目立体匹配方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN111105451B (zh) * | 2019-10-31 | 2022-08-05 | 武汉大学 | 一种克服遮挡效应的驾驶场景双目深度估计方法 |
CN112991254A (zh) * | 2019-12-13 | 2021-06-18 | 上海肇观电子科技有限公司 | 视差估计系统、方法、电子设备及计算机可读存储介质 |
US11127115B2 (en) | 2019-12-13 | 2021-09-21 | NextVPU (Shanghai) Co., Ltd. | Determination of disparity |
CN112991404A (zh) * | 2019-12-13 | 2021-06-18 | 上海肇观电子科技有限公司 | 视差确定方法、电子设备及计算机可读存储介质 |
CN111242999B (zh) * | 2020-01-10 | 2022-09-20 | 大连理工大学 | 基于上采样及精确重匹配的视差估计优化方法 |
CN111402311B (zh) * | 2020-03-09 | 2023-04-14 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的轻量级立体视差估计方法 |
CN112435282B (zh) * | 2020-10-28 | 2023-09-12 | 西安交通大学 | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 |
CN112509021B (zh) * | 2020-12-11 | 2023-08-22 | 华南理工大学 | 一种基于注意力机制的视差优化方法 |
CN112489097B (zh) * | 2020-12-11 | 2024-05-17 | 深圳先进技术研究院 | 基于混合2d卷积和伪3d卷积的立体匹配方法 |
CN113762358B (zh) * | 2021-08-18 | 2024-05-14 | 江苏大学 | 一种基于相对深度训练的半监督学习三维重建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
-
2018
- 2018-09-06 CN CN201811038173.7A patent/CN109472819B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
Non-Patent Citations (3)
Title |
---|
End-to-End Learning of Geometry and Context for Deep Stereo Regression;Alex Kendall 等;《arXiv》;20170313;第1-10页 * |
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation;Guosheng Lin 等;《arXiv》;20161125;第1-11页 * |
基于深度卷积神经网络的双目立体视觉匹配算法;肖进胜 等;《光学学报》;20180831;第38卷(第8期);第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109472819A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
CN110533712B (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN109598754B (zh) | 一种基于深度卷积网络的双目深度估计方法 | |
CN112861729B (zh) | 一种基于伪深度图引导的实时深度补全方法 | |
CN109005398B (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN111127538B (zh) | 一种基于卷积循环编码-解码结构的多视影像三维重建方法 | |
CN111260707B (zh) | 一种基于光场epi图像的深度估计方法 | |
CN110197505B (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN111402311B (zh) | 一种基于知识蒸馏的轻量级立体视差估计方法 | |
CN113762358B (zh) | 一种基于相对深度训练的半监督学习三维重建方法 | |
CN111985551B (zh) | 一种基于多重注意力网络的立体匹配算法 | |
CN113592026A (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN111583313A (zh) | 一种基于PSMNet改进的双目立体匹配方法 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN113762267A (zh) | 一种基于语义关联的多尺度双目立体匹配方法及装置 | |
CN116109689A (zh) | 基于引导优化聚合的边缘保持立体匹配方法 | |
CN112116646B (zh) | 一种基于深度卷积神经网络的光场图像深度估计方法 | |
CN115908992B (zh) | 双目立体匹配的方法、装置、设备以及存储介质 | |
CN116258758A (zh) | 基于注意力机制和多级代价体的双目深度估计方法及系统 | |
Hyun et al. | Hardware-friendly architecture for a pseudo 2D weighted median filter based on sparse-window approach | |
CN111968168B (zh) | 多分支可调节瓶颈卷积模块以及端对端的立体匹配网络 | |
CN115631223A (zh) | 基于自适应学习和聚合的多视图立体重建方法 | |
CN115170636A (zh) | 混合代价体的双目立体匹配方法、设备及存储介质 | |
CN115375746A (zh) | 基于双重空间池化金字塔的立体匹配方法 | |
CN114119704A (zh) | 一种基于空间金字塔池化的光场图像深度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |