CN109005398B - 一种基于卷积神经网络的立体图像视差匹配方法 - Google Patents
一种基于卷积神经网络的立体图像视差匹配方法 Download PDFInfo
- Publication number
- CN109005398B CN109005398B CN201810844767.0A CN201810844767A CN109005398B CN 109005398 B CN109005398 B CN 109005398B CN 201810844767 A CN201810844767 A CN 201810844767A CN 109005398 B CN109005398 B CN 109005398B
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- image
- training
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于卷积神经网络的立体图像视差匹配方法,本发明基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法,通过改进其所用的几何上下文卷积神经网络,利用LSTM神经网络作为网络层替代原本网络模型中的soft‑argmin网络层操作。相比于原有的依靠人工定义规则的soft‑argmin网络操作,LSMT通过网络学习出一个规则,以此来提高网络性能,提高亚像素的准确性,得到更加精确的视差估计图,而且LSTM网络擅长处理成本序列,加快了网络的处理速度,提高匹配效率。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于卷积神经网络的立体图像视差匹配方法。
背景技术
从立体图像对中准确地估计出三维几何信息是许多计算机视觉应用场景中的核心问题,比如自动驾驶和无人机等。其中较为关键的一步便是计算已校正的图像对中相应像素的视差,而在实际场景下,要实现较为精确的视差估计是一个极具挑战性的问题。现有的一些视差估计方法,在某些情况下无法对立体图像对进行良好的视差估计,例如无纹理区域,反射表面,薄结构和重复图案等。也有一些视差估计方法通过池化或者基于梯度的归一化方法来减少估计失败率,这就导致算法需要在平滑表面和检测细节结构之间做出平衡。
相比较而言,深度卷积神经网络在理解语义上非常有效,由于大量训练数据集的监督,它们优于分类任务。针对视差估计算法中的一些问题,获取全局语义上下文信息而不是只依赖于局部几何信息能够良好地解决它。当前利用深度学习表示的立体算法主要关注于用它们生成一元项等,传统的正则化和后续处理步骤仍然被需要,例如半全局块匹配,左右一致性检查等,这些正则化步骤的效果十分有限,因为这些步骤都是通过人工操作,浅层功能,也容易受到上述问题的影响。
发明内容
针对现有技术所存在的上述技术缺陷,本发明提出了一种基于卷积神经网络的立体图像视差匹配方法。基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法,改进其所用的几何上下文卷积神经网络,利用LSTM(Long Short Term Memorynetwork)神经网络作为网络层替代原本网络模型中的soft-argmin网络层操作。不仅提高了网络模型的良好性能,平滑了视差估计,提高匹配精度,还提高了匹配效率。
一种基于卷积神经网络的立体图像视差匹配方法,包括如下步骤:
步骤(1):图像预处理。对带有参考实参图的立体图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;
步骤(2)构造用于端到端学习的卷积神经网络。
包括以下网络层:
2-1.构造一个2D卷积操作层,由降采样层和残差块构成,每层网络后面跟随一个批量归一化层和一个已校正的线性非线性层;
利用5*5的卷积核对输入图像先进行一次降采样操作,降采样因子为2,随后利用残差块对图像进行操作,该残差块总共有8个,且每个残差块由两个3*3的卷积核组成,输出为图像的一元特征;
2-2.构造计算立体匹配代价层。
利用深度一元特征生成的成本量计算立体匹配的代价,并将步骤2-1中2D卷积操作层的输出级中的每个一元特征与对应的立体图像元组进行连接,并将其打包进一个4D量中;
其中深度一元特征生成的成本量的维度为H*W*(D+1)*F,其中H、W分别为图像的高和宽,D为最大的视差值,F表示图像特征。
2-3.构造学习上下文层。
先有四层降采样组成3D正则化网络层,每层降采样因子为2,在编码级别中应用两个3*3*3的卷积,使得3D成本量的尺寸减少1/8;接着利用3D反卷积操作对解码器中的向量进行上采样操作,上采样因子为2,在解码级别中应用一个3*3*3的卷积,并在每个上采样层之前添加一个残差层,以此来保留图像中的高频率信息;最后由一个单3D反卷积层输出正则化的成本量,成本量维度为H*W*D;
2-4.构造视差估计层。
该网络层由LSMT神经网络构成,LSTM神经网络由包含四个交互层的重复模块构成,每个模块里由三个门来控制细胞单元状态信息,该三个门分别是输入门,遗忘门和输出门,每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成;将步骤2-3中生成的成本量输入该网络层,输出的结果便是视差图;
每个模块具体交互步骤如下:
2-4-1.利用遗忘门决定从细胞状态中去除信息或对其增加信息,其中sigmoid层输出0-1之间的数值来描述每个部分多少量可通过,0表示不许任何量通过,1表示允许任意量通过;
2-4-2.确定何种新信息将被存放在细胞状态中。首先利用输入门确定什么值需要更新,接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新;
2-4-3.确定输出值。通过sigmoid层确定细胞状态的某部分将输出,接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值,并将其和sigmoid门的输出相乘,最终得到确定的输出值。
步骤(3)网络训练。
收集数据集,在训练集数据输入网络进行训练之前,对数据进行归一化处理,并设置网络模型的相关参数,接着对网络进行有监督的反向传播算法训练,直到监督回归损失收敛,得到训练网络;
收集的数据集来源于两个开源数据库,sceneflow和KITTI,网络参数设置包括选择RMSProp为优化方式,设置学习率为1e-3,并设定F,D相应的值为32,192,网络训练在TensorFlow框架下进行。训练过程有两部分组成,先使用包含大量图像数据的sceneflow数据集对网络进行预训练,得到一个预训练模型,然后在这个预训练模型上进行微调,接着训练包含图像数量较少的KITTI数据集。回归损失的计算公式如下:
步骤(4)求视差图。
从测试集中取几组立体图像对,进行步骤(1)的预处理。将其输入步骤(3)中训练完成的网络,得到相应的视差图。
本发明有益效果如下:
本发明提出了一种基于卷积神经网络的双目立体匹配方法,基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法,通过改进其所用的几何上下文卷积神经网络,利用LSTM(Long Short Term Memory network)神经网络作为网络层替代原本网络模型中的soft-argmin网络层操作。相比于原有的依靠人工定义规则的soft-argmin网络操作,LSMT通过网络学习出一个规则,以此来提高网络性能,提高亚像素的准确性,得到更加精确的视差估计图,而且LSTM网络擅长处理成本序列,加快了网络的处理速度,提高匹配效率。
具体实施方式
一种基于卷积神经网络的双目立体匹配方法,包括如下步骤:
步骤(1)图像预处理。对带有参考实参图的立体图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;
步骤(2)构造用于端到端学习的卷积神经网络。包括以下网络层:
2-1.构造一个2D卷积操作层,由降采样层和残差块构成,每层网络后面跟随一个批量归一化层和一个已校正的线性非线性层。
2-2.构造计算立体匹配代价层。利用深度一元特征生成成本量计算立体匹配的代价,并将步骤2-1中左右图像的输出级通过简单连接来约束模型,从而保留立体视觉的几何信息。
2-3.构造学习上下文层。先有四层降采样组成3D正则化网络层,每层降采样因子为2,使得3D成本量的尺寸减少1/8;接着利用3D反卷积操作对解码器中的向量进行上采样操作,并在每个上采样层之前添加一个残差层,以此来保留图像中的高频率信息;最后由一个单3D反卷积层输出正则化的成本量;
2-4.构造视差估计层。该网络层由LSMT神经网络构成,将步骤2-3中生成的成本量输入该网络层,输出的结果便是视差图。
构造的卷积神经网络能够实现端到端学习训练,包括以下步骤:
2-1.利用5*5的卷积核对输入图像先进行一次降采样操作,降采样因子为2,随后利用残差块对图像进行操作,该残差块总共有8个,且每个残差块由两个3*3的卷积核组成,输出为图像的一元特征;
2-2.利用深度一元特征生成的成本量的维度为H*W*(D+1)*F,其中H、W分别为图像的高和宽,D为最大的视差值,F表示图像特征。在每个视差水平上将每个一元特征与对应的立体图像元组进行简单连接,并将其打包进一个4D量中;
2-3.3D正则化网络层中的每层降采样操作的降采样因子为2,接着在编码级别中应用两个3*3*3的卷积;3D反卷积层中的上采样因子为2,在解码级别中应用一个3*3*3的卷积;最后通过单步3D反卷积得到的正则化的成本量维度为H*W*D;
2-4.LSTM神经网络由包含四个交互层的重复模块构成,每个模块里由三个门来控制细胞单元状态信息,该三个门分别是输入门,遗忘门和输出门,每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成。具体交互步骤如下:
2-4-1.利用遗忘门决定从细胞状态中去除信息或对其增加信息,其中sigmoid层输出0-1之间的数值来描述每个部分多少量可通过,0表示不许任何量通过,1表示允许任意量通过;
2-4-2.确定何种新信息将被存放在细胞状态中。首先利用输入门确定什么值需要更新,接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新;
2-4-3.确定输出值。通过sigmoid层确定细胞状态的某部分将输出,接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值,并将其和sigmoid门的输出相乘,最终得到确定的输出值。
步骤(3)网络训练。收集数据集,在训练集数据输入网络进行训练之前,对数据进行归一化处理,并设置网络模型的相关参数,接着对网络进行有监督的反向传播算法训练,直到监督回归损失收敛,得到训练网络;
收集的数据集来源于两个开源数据库,sceneflow和KITTI,网络参数设置包括选择RMSProp为优化方式,设置学习率为1e-3,并设定F,D相应的值为32,192,网络训练在TensorFlow框架下进行。训练过程有两部分组成,先使用包含大量图像数据的sceneflow数据集对网络进行预训练,得到一个预训练模型,然后在这个预训练模型上进行微调,接着训练包含图像数量较少的KITTI数据集。回归损失的计算公式如下:
步骤(4)求视差图。从测试集中取几组立体图像对,进行步骤(1)的预处理。将其输入步骤(3)中训练完成的网络,得到相应的视差图。
Claims (1)
1.一种基于卷积神经网络的立体图像视差匹配方法,其特征在于,包括如下步骤:
步骤(1):图像预处理;对带有参考实参图的立体图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;
步骤(2)构造用于端到端学习的卷积神经网络;
包括以下网络层:
2-1.构造一个2D卷积操作层,由降采样层和残差块构成,每层网络后面跟随一个批量归一化层和一个已校正的非线性层;
利用5*5的卷积核对输入图像先进行一次降采样操作,降采样因子为2,随后利用残差块对图像进行操作,该残差块总共有8个,且每个残差块由两个3*3的卷积核组成,输出为图像的一元特征;
2-2.构造计算立体匹配代价层;
利用深度一元特征生成的成本量计算立体匹配的代价,并将步骤2-1中2D卷积操作层的输出级中的每个一元特征与对应的立体图像元组进行连接,并将其打包进一个4D量中;
其中深度一元特征生成的成本量的维度为H*W*(D+1)*F,其中H、W分别为图像的高和宽,D为最大的视差值,F表示图像特征;
2-3.构造学习上下文层;
先由四层降采样组成3D正则化网络层,每层降采样因子为2,在编码级别中应用两个3*3*3的卷积,使得3D成本量的尺寸减少1/8;接着利用3D反卷积操作对解码器中的向量进行上采样操作,上采样因子为2,在解码级别中应用一个3*3*3的卷积,并在每个上采样层之前添加一个残差层,以此来保留图像中的高频率信息;最后由一个单3D反卷积层输出正则化的成本量,成本量维度为H*W*D;
2-4.构造视差估计层;
该网络层由LSMT神经网络构成,LSTM神经网络由包含四个交互层的重复模块构成,每个模块里由三个门来控制细胞单元状态信息,该三个门分别是输入门,遗忘门和输出门,每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成;将步骤2-3中生成的成本量输入该网络层,输出的结果便是视差图;
每个模块具体交互步骤如下:
2-4-1.利用遗忘门决定从细胞状态中去除信息或对其增加信息,其中sigmoid层输出0-1之间的数值来描述每个部分多少量可通过,0表示不许任何量通过,1表示允许任意量通过;
2-4-2.确定何种新信息将被存放在细胞状态中;首先利用输入门确定什么值需要更新,接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新;
2-4-3.确定输出值;通过sigmoid层确定细胞状态的某部分将输出,接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值,并将其和sigmoid门的输出相乘,最终得到确定的输出值;
步骤(3)网络训练;
收集数据集,在训练集数据输入网络进行训练之前,对数据进行归一化处理,并设置网络模型的相关参数,接着对网络进行有监督的反向传播算法训练,直到监督回归损失收敛,得到训练网络;
收集的数据集来源于两个开源数据库,sceneflow和KITTI,网络参数设置包括选择RMSProp为优化方式,设置学习率为1e-3,并设定F,D相应的值为32,192,网络训练在TensorFlow框架下进行;训练过程有两部分组成,先使用包含大量图像数据的sceneflow数据集对网络进行预训练,得到一个预训练模型,然后在这个预训练模型上进行微调,接着训练包含图像数量较少的KITTI数据集;回归损失的计算公式如下:
步骤(4)求视差图;
从测试集中取几组立体图像对,进行步骤(1)的预处理;将其输入步骤(3)中训练完成的网络,得到相应的视差图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844767.0A CN109005398B (zh) | 2018-07-27 | 2018-07-27 | 一种基于卷积神经网络的立体图像视差匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844767.0A CN109005398B (zh) | 2018-07-27 | 2018-07-27 | 一种基于卷积神经网络的立体图像视差匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109005398A CN109005398A (zh) | 2018-12-14 |
CN109005398B true CN109005398B (zh) | 2020-08-04 |
Family
ID=64598399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844767.0A Active CN109005398B (zh) | 2018-07-27 | 2018-07-27 | 一种基于卷积神经网络的立体图像视差匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109005398B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354032B (zh) * | 2018-12-24 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 一种生成视差图的方法及装置 |
CN110349209A (zh) * | 2019-04-28 | 2019-10-18 | 西安交通大学 | 基于双目视觉的振捣棒定位方法 |
CN110287964B (zh) * | 2019-06-13 | 2021-08-03 | 浙江大华技术股份有限公司 | 一种立体匹配方法及装置 |
CN111488938B (zh) * | 2020-04-15 | 2022-05-13 | 闽江学院 | 一种基于两步可切换归一化深度神经网络的图像匹配方法 |
CN111696148A (zh) * | 2020-06-17 | 2020-09-22 | 中国科学技术大学 | 基于卷积神经网络的端到端立体匹配方法 |
CN111951319A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学深圳国际研究生院 | 一种图像立体匹配方法 |
CN112509124B (zh) * | 2020-12-14 | 2023-09-22 | 成都数之联科技股份有限公司 | 深度图获得方法及系统及无人机正射图生成方法及介质 |
CN114418211A (zh) * | 2022-01-17 | 2022-04-29 | 宁波市电力设计院有限公司 | 降水量的修正方法以及修正装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN109964237B (zh) * | 2016-09-15 | 2020-07-17 | 谷歌有限责任公司 | 图像深度预测神经网络 |
KR101854048B1 (ko) * | 2016-11-25 | 2018-05-02 | 연세대학교 산학협력단 | 스테레오 매칭 깊이맵의 신뢰도 측정 방법 및 장치 |
CN107146248A (zh) * | 2017-04-27 | 2017-09-08 | 杭州电子科技大学 | 一种基于双流卷积神经网络的立体匹配方法 |
-
2018
- 2018-07-27 CN CN201810844767.0A patent/CN109005398B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109005398A (zh) | 2018-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109005398B (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN107358626B (zh) | 一种利用条件生成对抗网络计算视差的方法 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
Zhang et al. | Ga-net: Guided aggregation net for end-to-end stereo matching | |
CN112927357B (zh) | 一种基于动态图网络的3d物体重建方法 | |
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN110533712A (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN111402311B (zh) | 一种基于知识蒸馏的轻量级立体视差估计方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN111931787A (zh) | 一种基于特征聚合的rgbd显著性检测方法 | |
CN113592026B (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN113822284B (zh) | 一种基于边界注意力的rgbd图像语义分割方法 | |
CN112365514A (zh) | 基于改进PSPNet的语义分割方法 | |
CN112233129A (zh) | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 | |
Zhao et al. | Eai-stereo: Error aware iterative network for stereo matching | |
CN113222033A (zh) | 基于多分类回归模型与自注意力机制的单目图像估计方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN115511759A (zh) | 一种基于级联特征交互的点云图像深度补全方法 | |
Wang et al. | Improved surface reconstruction using high-frequency details | |
CN117495935A (zh) | 一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法 | |
CN116485864A (zh) | 基于重参数化的三阶段双目深度估计的方法及装置 | |
CN113592021B (zh) | 一种基于可变形和深度可分离卷积的立体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |