CN109191511B - 一种基于卷积神经网络的双目立体匹配方法 - Google Patents
一种基于卷积神经网络的双目立体匹配方法 Download PDFInfo
- Publication number
- CN109191511B CN109191511B CN201810842268.8A CN201810842268A CN109191511B CN 109191511 B CN109191511 B CN 109191511B CN 201810842268 A CN201810842268 A CN 201810842268A CN 109191511 B CN109191511 B CN 109191511B
- Authority
- CN
- China
- Prior art keywords
- network
- data
- training
- image
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于卷积神经网络的双目立体匹配方法,通过改进现有的用于视差估计的DispNet网络模型,利用亚像素卷积来替代原本网络模型中的上采样层。相比于原上采样操作在较高的分辨率图像上进行,亚像素卷积直接在低分辨率图像上进行卷积计算,这不仅提高了计算效率,对于整个网络而言则加快了匹配速度,同时它还提高了网络模型的良好性能,增加了丰富的细节信息,解决了病态区域无法正确匹配的问题。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于卷积神经网络的双目立体匹配方法。
背景技术
立体匹配通常被描述为一个可分成几个阶段优化的问题。直到近些年来,随着卷积神经网络的发展,它可以被描述为一个学习任务。利用大量已有的数据进行训练,卷积神经网络实现匹配的速度和精度都要比传统方法好。目前,关于通过卷积神经网络的立体匹配方法也有不少,主要分为三类:匹配代价学习,正则化学习和端到端视差学习。匹配代价学习利用不同的训练样本集进行训练,但没有关注样本集之间的不平衡性。尽管数据驱动的相似性测量要比手工测量好,但是为了得到满意的匹配结果,该方法存在一系列必要的后期处理。正则化学习则是在学习过程中引入了正则项以确保视差图像分段性光滑的特征。端到端的视差学习主要通过设计和监督网络来得到一个较好的视差估计结果,从而实现立体匹配。
然而,尽管基于卷积神经网络的方法具有良好的性能,它仍存在如何在病态区域得到精确的视差估计的问题,这些病态区域包括对象遮挡区域,图案重复区域和无纹理区域。例如在对象遮挡区域,图像中的一个像素挡住了另外一个像素,它就很难进行正确匹配;另外,图案重复区域和无纹理区域则存在很多潜在的对应关系。这些问题都将会导致匹配失败。
发明内容
针对现有技术所存在的上述技术缺陷,本发明提出了一种基于卷积神经网络的双目立体匹配方法,属于第三类方法。主要改进现有的用于视差估计的DispNet网络模型,利用亚像素卷积来替代原本网络模型中的上采样层。亚像素卷积的引入不仅提高了网络模型的良好性能,提高了匹配精度,还提高了匹配效率。
一种基于卷积神经网络的双目立体匹配方法,包括如下步骤:
步骤(1)根据原有的DispNet网络模型,通过引入亚像素卷积,设计出新的网络学习模型SDNet;
所述的步骤(1)中,引入亚像素卷积操作包括以下步骤:
1‐1.将上一层网络中的输出图直接输入隐藏卷积层,得到与输入图像大小一样的特征图,特征通道数为22,每层亚像素卷积操作所得的图像为输入图像的22倍;
1‐2.将每个像素的22个通道重新排列成一个2*2的区域,对应于高分辨率图像中的一个2*2大小的子块,排列方式为将各通道同一位置的像素按通道排列顺序依次插入,从而大小为22*H*W的特征图像被重新排列成1*(2H)*(2W)大小的高分辨率图像,其中H,W分别为低分辨率图像的高和宽。
步骤(2)收集数据集,所述的数据集来源于两个开源数据库,sceneflow和KITTI,前者包括训练集和验证集,后者包括训练集、验证集和测试集,网络训练在TensorFlow框架下进行。
利用训练集和验证集中的数据对SDNet网络进行训练,包括以下步骤:
2-1.对训练集和验证集中的数据进行一系列处理以扩充数据量;其中一系列处理包括颜色抖动、随机裁剪、水平翻转;。
2-2.将扩充后的数据进行归一化处理;
2-3.设置相关网络模型的参数,将训练集数据输入网络中,对网络进行不断地训练,直到L1loss收敛;
网络模型的参数设置包括选择Adam为优化方式,设置学习率为1e‐4,最大训练轮次为300。训练过程首先利用步骤2‐2得到的sceneflow中的训练集数据对SDnet网络进行预训,至L1loss收敛,得到一个预训练模型,接着利用步骤2‐2得到的KITTI训练集数据对预训练模型训练,至L1loss收敛;L1loss的计算公式如下:
2-4.将验证集数据输入训练好的网络中进行验证,若连续三轮L1loss没有下降,则完成网络训练;否则,回到步骤2-3,重新进行网络训练;
步骤(3)对训练完成的SDNet进行测试,包括以下步骤:
3-1.处理测试集数据;处理测试集数据包括对数据进行颜色抖动,随机裁剪,水平移动,随后对其进行归一化处理。其中测试集数据是KITTI中的测试集数据和从sceneflow的验证集中选出的部分数据;
3-2.将数据集输入至步骤(2)得到的网络中进行验证,得到视差图;
3-3.将网络模型产生的视差图与已有的标准ground truth进行对比,通过逐像素计算(预测值-真实值)的绝对值是否小于3来判断是否预测成功。若该图像的误差小于3,则说明该像素预测成功,否则失败。最后将预测错的像素总数除以预测图像的像素总数,就是该预测图像的3‐pixel error。
本发明有益效果如下:
本发明提出了一种基于卷积神经网络的双目立体匹配方法,通过改进现有的用于视差估计的DispNet网络模型,利用亚像素卷积来替代原本网络模型中的上采样层。相比于原上采样操作在较高的分辨率图像上进行,亚像素卷积直接在低分辨率图像上进行卷积计算,这不仅提高了计算效率,对于整个网络而言则加快了匹配速度,同时它还提高了网络模型的良好性能,增加了丰富的细节信息,解决了病态区域无法正确匹配的问题。
附图说明
图1为本发明SDNet网络结构图。
具体实施方式
一种基于卷积神经网络的双目立体匹配方法,包括如下步骤:
步骤(1)根据原有的DispNet网络模型,通过引入亚像素卷积,设计出新的网络学习模型SDNet(S:Sub-pixel,表示亚像素,D:Disparity,表示视差)。SDNet网络模型如图1所示,网络主要分为两部分,收缩部分和扩大部分,收缩部分包括conv1‐conv6b,扩大部分包括亚像素卷积(sub‐pixel convN),卷积(iconvN,prN)和loss层交替进行,最后的预测视差图由pr1输出;
亚像素卷积操作包括以下步骤:
1‐1.将上一层网络中的输出图直接输入Hidden layers(隐藏卷积层),得到与输入图像大小一样的特征图,但特征通道数为22(这里每层亚像素卷积操作所得的图像为输入图像的22倍);
1‐2.将每个像素的22个通道重新排列成一个2*2的区域,对应于高分辨率图像中的一个2*2大小的子块,按照特定位置,周期性地插入到高分辨率图像中,从而大小为22*H*W(H,W分别为低分辨率图像的高和宽)的特征图像被重新排列成1*(2H)*(2W)大小的高分辨率图像;
步骤(2)收集数据集,包括训练集,测试集,验证集。利用训练集和验证集中的大量数据对SDNet网络进行训练,包括以下步骤:
2-1.对训练集和验证集中的数据进行一系列处理以扩充数据量;
2-2.将数据进行归一化处理;
2-3.设置相关网络模型的参数,将训练集数据输入网络中,对网络进行不断地训练,直到L1loss收敛;
2-4.将验证集数据输入训练好的网络中进行验证,若L1loss小,则完成网络训练;否则,回到步骤2-3,重新进行网络训练;
数据集主要来源于两个开源数据库,sceneflow和KITTI,前者主要有训练集和验证集,后者有训练集,验证集和测试集,网络训练在TensorFlow框架下进行。
2‐1对训练集和验证集的数据进行一系列处理包括颜色抖动,随机裁剪,水平翻转等,以扩充数据量。
2‐3网络参数设置包括选择Adam为优化方式,设置学习率为1e‐4等,训练过程首先利用处理过的sceneflow中的训练集数据对SDnet网络进行预训,得到一个预训练模型,然后在这个预训练模型上进行微调,接着训练KITTI数据。L1loss的计算公式如下:
步骤(3)对训练完成的SDNet进行验证,包括以下步骤:
3-1.处理验证集数据;
3-2.将数据集输入网络中进行验证,得到视差图;
3-3.将网络模型产生的视差图与已有的标准ground truth进行对比,通过计算3-pixel error来判断是否匹配成功。若该图像的误差小于3-pixel error,则匹配成功,否则失败。
测试集中的数据主要是KITTI中的测试集数据和从sceneflow的验证集中选出的部分数据。
3‐1.处理测试数据包括对数据进行颜色抖动,随机裁剪,水平移动等,随后对其进行归一化处理。
3‐3.3‐pixel error指的是视差值相差3,其计算方式如下:将预测出的视差图与已有的标准视差图ground truth按对应像素逐个进行视差值差值的计算,若该数小于3,则说明该像素预测错误,反之正确,最后将预测错的像素总数除以预测图像的像素总数,就是该预测图像的3‐pixel error。
Claims (1)
1.一种基于卷积神经网络的双目立体匹配方法,其特征在于,该方法具体包括如下步骤:
步骤(1)根据原有的DispNet网络模型,通过引入亚像素卷积,设计出新的网络学习模型SDNet;
所述的步骤(1)中,引入亚像素卷积操作包括以下步骤:
1-1.将上一层网络中的输出图直接输入隐藏卷积层,得到与输入图像大小一样的特征图,特征通道数为22,每层亚像素卷积操作所得的图像为输入图像的22倍;
1-2.将每个像素的22个通道重新排列成一个2*2的区域,对应于高分辨率图像中的一个2*2大小的子块,排列方式为将各通道同一位置的像素按通道排列顺序依次插入,从而大小为22*H*W的特征图像被重新排列成1*(2H)*(2W)大小的高分辨率图像,其中H,W分别为低分辨率图像的高和宽;
步骤(2)收集数据集,所述的数据集来源于两个开源数据库,sceneflow和KITTI,前者包括训练集和验证集,后者包括训练集、验证集和测试集,网络训练在TensorFlow框架下进行;
利用训练集和验证集中的数据对SDNet网络进行训练,包括以下步骤:
2-1.对训练集和验证集中的数据进行一系列处理以扩充数据量;其中一系列处理包括颜色抖动、随机裁剪、水平翻转;
2-2.将扩充后的数据进行归一化处理;
2-3.设置相关网络模型的参数,将训练集数据输入网络中,对网络进行不断地训练,直到L1 loss收敛;
网络模型的参数设置包括选择Adam为优化方式,设置学习率为1e-4,最大训练轮次为300;训练过程首先利用步骤2-2得到的sceneflow中的训练集数据对SDnet网络进行预训,至L1loss收敛,得到一个预训练模型,接着利用步骤2-2得到的KITTI训练集数据对预训练模型训练,至L1 loss收敛;L1 loss的计算公式如下:
2-4.将验证集数据输入训练好的网络中进行验证,若连续三轮L1 loss没有下降,则完成网络训练;否则,回到步骤2-3,重新进行网络训练;
步骤(3)对训练完成的SDNet进行测试,包括以下步骤:
3-1.处理测试集数据;处理测试集数据包括对数据进行颜色抖动,随机裁剪,水平移动,随后对其进行归一化处理;其中测试集数据是KITTI中的测试集数据和从sceneflow的验证集中选出的部分数据;
3-2.将数据集输入至步骤(2)得到的网络中进行验证,得到视差图;
3-3.将网络模型产生的视差图与已有的标准ground truth进行对比,通过逐像素计算的绝对值是否小于3来判断是否预测成功;若该图像的误差小于3,则说明该像素预测成功,否则失败;最后将预测错的像素总数除以预测图像的像素总数,就是该预测图像的3-pixelerror。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810842268.8A CN109191511B (zh) | 2018-07-27 | 2018-07-27 | 一种基于卷积神经网络的双目立体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810842268.8A CN109191511B (zh) | 2018-07-27 | 2018-07-27 | 一种基于卷积神经网络的双目立体匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109191511A CN109191511A (zh) | 2019-01-11 |
CN109191511B true CN109191511B (zh) | 2021-04-13 |
Family
ID=64937299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810842268.8A Active CN109191511B (zh) | 2018-07-27 | 2018-07-27 | 一种基于卷积神经网络的双目立体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109191511B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110793B (zh) * | 2019-05-10 | 2021-10-26 | 中山大学 | 基于双流卷积神经网络的双目图像快速目标检测方法 |
CN110533712B (zh) * | 2019-08-26 | 2022-11-04 | 北京工业大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN111402129B (zh) * | 2020-02-21 | 2022-03-01 | 西安交通大学 | 一种基于联合上采样卷积神经网络的双目立体匹配方法 |
CN111612731B (zh) * | 2020-04-01 | 2021-04-02 | 中国科学院上海微系统与信息技术研究所 | 基于双目显微视觉的测量方法、装置、系统及介质 |
CN113284123B (zh) * | 2021-06-01 | 2022-07-12 | 浙江工商大学 | 基于旋转目标和改进注意力机制的薄膜划痕瑕疵检测方法 |
US11619593B2 (en) | 2021-06-01 | 2023-04-04 | Zhejiang Gongshang University | Methods and systems for detecting a defect of a film |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
US10067513B2 (en) * | 2017-01-23 | 2018-09-04 | Hangzhou Zero Zero Technology Co., Ltd | Multi-camera system and method of use |
CN108846858A (zh) * | 2018-06-01 | 2018-11-20 | 南京邮电大学 | 一种计算机视觉的立体匹配算法 |
-
2018
- 2018-07-27 CN CN201810842268.8A patent/CN109191511B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
US10067513B2 (en) * | 2017-01-23 | 2018-09-04 | Hangzhou Zero Zero Technology Co., Ltd | Multi-camera system and method of use |
CN108846858A (zh) * | 2018-06-01 | 2018-11-20 | 南京邮电大学 | 一种计算机视觉的立体匹配算法 |
Non-Patent Citations (2)
Title |
---|
"Variational Stereo Matching with Left Right Consistency Constraint";Wenqiao Zhu etc.;《International Conference of Soft Computing and Pattern Recognition》;20111201;第222-226页 * |
"基于变分原理的亚像素级立体匹配方法";边继龙等;《计算机应用研究》;20140930;第31卷(第9期);第2846-2849页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109191511A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191511B (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
Liang et al. | Details or artifacts: A locally discriminative learning approach to realistic image super-resolution | |
CN109523470B (zh) | 一种深度图像超分辨率重建方法及系统 | |
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
CN112419242B (zh) | 基于自注意力机制gan网络的无参考图像质量评价方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN110163213B (zh) | 基于视差图和多尺度深度网络模型的遥感图像分割方法 | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
CN109949221B (zh) | 一种图像处理方法及电子设备 | |
CN104992403B (zh) | 一种基于视觉相似度度量的混合操作算子图像重定向方法 | |
CN111062895B (zh) | 一种基于多视场分割的显微图像复原方法 | |
CN105354795A (zh) | 一种基于相位相关的自学习超分辨率图像获取方法及系统 | |
CN111626927A (zh) | 采用视差约束的双目图像超分辨率方法、系统及装置 | |
CN109005398A (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN107343196A (zh) | 一种混合失真无参考图像质量评价方法 | |
CN103189715A (zh) | 立体图像处理装置及立体图像处理方法 | |
CN109657538B (zh) | 基于上下文信息指导的场景分割方法和系统 | |
CN105513033A (zh) | 一种非局部联合稀疏表示的超分辨率重建方法 | |
CN112541926A (zh) | 一种基于改进FCN和DenseNet的歧义像素优化分割方法 | |
CN103914807A (zh) | 一种缩放尺度补偿的非局部性图像超分辨率方法及系统 | |
CN115578260B (zh) | 针对图像超分辨率的方向解耦的注意力方法和系统 | |
CN113538484B (zh) | 一种深度细化的多重信息嵌套边缘检测方法 | |
CN115294182A (zh) | 一种基于双交叉注意力机制的高精度立体匹配方法 | |
CN114677329A (zh) | 基于移动边缘计算的坑洞边缘图像目标检测系统 | |
CN113361662A (zh) | 一种城市轨道交通遥感图像数据的处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |