CN108681753A - 一种基于语义分割及神经网络的图像立体匹配方法及系统 - Google Patents
一种基于语义分割及神经网络的图像立体匹配方法及系统 Download PDFInfo
- Publication number
- CN108681753A CN108681753A CN201810529435.3A CN201810529435A CN108681753A CN 108681753 A CN108681753 A CN 108681753A CN 201810529435 A CN201810529435 A CN 201810529435A CN 108681753 A CN108681753 A CN 108681753A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- image
- disparity map
- neural network
- parallax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于语义分割及神经网络的图像立体匹配方法及系统,其中方法包括:首先获取场景图像的初始视差图;利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。本发明中的语义分割图为网络提供了丰富的信息,且只对图像中感兴趣的区域进行了处理,又由于采用了残差网络,使得本发明在匹配精度与速度上,都得到了提升。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于语义分割及神经网络的图像立体匹配方法及系统。
背景技术
图像的立体匹配是场景三维重建等应用的关键步骤,传统的立体匹配算法包括4个步骤:cost computation(匹配代价计算),cost aggregation(代价汇总),disparitycomputation(视差计算),and refinement(视差细化)。cost computation主要计算每个像素在所有可能的视差值上的计算代价;在cost aggregation步骤中,将一定区域内所有像素的计算代价进行聚合;在disparity computation步骤中,使用全局或局部算法计算视差值;最后,在后续处理步骤中对视差进行校正,选择合适的视差。传统的立体匹配算法在计算速度和精度上已经不能满足目前场景三维重建的需要。
发明内容
本发明的目的在于克服上述技术不足,提出一种基于语义分割及神经网络的图像立体匹配方法及系统,解决现有技术中的上述技术问题。
为达到上述技术目的,本发明的技术方案提供一种基于语义分割及神经网络的图像立体匹配方法,包括:
S1、获取场景图像的初始视差图;
S2、利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;
S3、利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。
本发明还提供一种基于语义分割及神经网络的图像立体匹配系统,包括:
初始视差图获取模块:用于获取场景图像的初始视差图;
残差网络输入模块:用于利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;
精确视差图获取模块:用于利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。
与现有技术相比,本发明的有益效果包括:获取场景图像的初始视差图;利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。本发明中的语义分割图为网络提供了丰富的信息,且只对图像中感兴趣的区域进行了处理,又由于采用了残差网络,使得本发明在匹配精度与速度上,都得到了提升。
附图说明
图1是本发明提供的一种基于语义分割及神经网络的图像立体匹配方法流程图;
图2是本发明提供的一种基于语义分割及神经网络的图像立体匹配系统结构框图。
附图中:1、基于语义分割及神经网络的图像立体匹配系统,11、初始视差图获取模块,12、残差网络输入模块,13、精确视差图获取模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于语义分割及神经网络的图像立体匹配方法,包括:
S1、获取场景图像的初始视差图;
S2、利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;
S3、利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。
本发明所述的基于语义分割及神经网络的图像立体匹配方法,步骤S3中获取场景图像的精确视差图之后,还包括:
检测精确视差图中像素点的异常值,采取左右一致性检查来减少异常值,并使用双边滤波器对精确视差图进行平滑处理,使得其边缘的模糊程度降低;
具体的,由于精确视差图仍然会存在深度不连续等问题,所以采取检测精确视差图中像素点的异常值,采取左右一致性检查来减少异常值并对精确视差图进行平滑处理,以进一步获取更加精确的视差图。
本发明所述的基于语义分割及神经网络的图像立体匹配方法,步骤S1中获取场景图像的初始视差图的方法为:
将场景图像输入卷积神经网络,卷积神经网络计算场景图像的匹配代价,并输出场景图像的初始视差图;该卷积神经网络包括3x3滤波器、1x1填充层,以及ReLU非线性层。
本发明所述的基于语义分割及神经网络的图像立体匹配方法,残差网络输出精确视差图采用WTA(winner take al l)策略,即残差网络选取像素点匹配代价最小的视差作为最终视差,各像素点的最终视差形成精确视差图。由于残差网络可以训练很深,因此训练并利用残差网络输出的精确视差图的精度较为优异。
本发明所述的基于语义分割及神经网络的图像立体匹配方法,步骤S2中场景图像的语义分割图是基于PSPNet获取的语义分割图。
本发明还提供一种基于语义分割及神经网络的图像立体匹配系统1,包括:
初始视差图获取模块11:用于获取场景图像的初始视差图;
残差网络输入模块12:用于利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;
精确视差图获取模块13:用于利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。
本发明所述的基于语义分割及神经网络的图像立体匹配系统1,还包括矫正模块:用于检测精确视差图中像素点的异常值,采取左右一致性检查来减少异常值,并使用双边滤波器对精确视差图进行平滑处理,使得其边缘的模糊程度降低。
本发明所述的基于语义分割及神经网络的图像立体匹配系统1,初始视差图获取模块11用于将场景图像输入卷积神经网络,卷积神经网络计算场景图像的匹配代价,并输出场景图像的初始视差图。
本发明所述的基于语义分割及神经网络的图像立体匹配系统1,精确视差图获取模块13用于利用残差网络选取像素点匹配代价最小的视差作为最终视差,并将各像素点的最终视差形成精确视差图。
本发明所述的基于语义分割及神经网络的图像立体匹配系统1,残差网络输入模块12中场景图像的语义分割图是基于PSPNet获取的语义分割图。
与现有技术相比,本发明的有益效果包括:获取场景图像的初始视差图;利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。本发明中的语义分割图为网络提供了丰富的信息,且只对图像中感兴趣的区域进行了处理,又由于采用了残差网络,使得本发明在匹配精度与速度上,都得到了提升。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (10)
1.一种基于语义分割及神经网络的图像立体匹配方法,其特征在于,包括:
S1、获取场景图像的初始视差图;
S2、利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;
S3、利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。
2.如权利要求1所述的基于语义分割及神经网络的图像立体匹配方法,其特征在于,步骤S3中获取场景图像的精确视差图之后,还包括:
检测所述精确视差图中像素点的异常值,采取左右一致性检查来减少异常值,并使用双边滤波器对所述精确视差图进行平滑处理,使得其边缘的模糊程度降低。
3.如权利要求1所述的基于语义分割及神经网络的图像立体匹配方法,其特征在于,步骤S1中获取场景图像的初始视差图的方法为:
将所述场景图像输入卷积神经网络,所述卷积神经网络计算场景图像的匹配代价,并输出场景图像的所述初始视差图。
4.如权利要求3所述的基于语义分割及神经网络的图像立体匹配方法,其特征在于,步骤S3中选取像素点匹配代价最小的视差作为最终视差,各像素点的最终视差形成所述精确视差图。
5.如权利要求1所述的基于语义分割及神经网络的图像立体匹配方法,其特征在于,步骤S2中所述语义分割图是基于PSPNet获取的语义分割图。
6.一种基于语义分割及神经网络的图像立体匹配系统,其特征在于,包括:
初始视差图获取模块:用于获取场景图像的初始视差图;
残差网络输入模块:用于利用语义分割图获取场景图像的感兴趣区域,将感兴趣区域和初始视差图一起输入残差网络中;
精确视差图获取模块:用于利用反卷积模块将感兴趣区域映射到视差图中得到精确视差图。
7.如权利要求6所述的基于语义分割及神经网络的图像立体匹配系统,其特征在于,还包括校正模块:用于检测所述精确视差图中像素点的异常值,采取左右一致性检查来减少异常值,并使用双边滤波器对所述精确视差图进行平滑处理,使得其边缘的模糊程度降低。
8.如权利要求6所述的基于语义分割及神经网络的图像立体匹配系统,其特征在于,初始视差图获取模块用于将场景图像输入卷积神经网络,所述卷积神经网络计算场景图像的匹配代价,并输出场景图像的所述初始视差图。
9.如权利要求8所述的基于语义分割及神经网络的图像立体匹配系统,其特征在于,精确视差图获取模块用于选取像素点匹配代价最小的视差作为最终视差,并将各像素点的最终视差形成所述精确视差图。
10.如权利要求6所述的基于语义分割及神经网络的图像立体匹配系统,其特征在于,残差网络输入模块中所述语义分割图是基于PSPNet获取的语义分割图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810529435.3A CN108681753B (zh) | 2018-05-29 | 2018-05-29 | 一种基于语义分割及神经网络的图像立体匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810529435.3A CN108681753B (zh) | 2018-05-29 | 2018-05-29 | 一种基于语义分割及神经网络的图像立体匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108681753A true CN108681753A (zh) | 2018-10-19 |
CN108681753B CN108681753B (zh) | 2021-03-30 |
Family
ID=63808579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810529435.3A Active CN108681753B (zh) | 2018-05-29 | 2018-05-29 | 一种基于语义分割及神经网络的图像立体匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108681753B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919993A (zh) * | 2019-03-12 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 视差图获取方法、装置和设备及控制系统 |
CN110245553A (zh) * | 2019-04-29 | 2019-09-17 | 清华大学 | 路面测距方法及装置 |
CN110287964A (zh) * | 2019-06-13 | 2019-09-27 | 浙江大华技术股份有限公司 | 一种立体匹配方法及装置 |
US11556784B2 (en) | 2019-11-22 | 2023-01-17 | Samsung Electronics Co., Ltd. | Multi-task fusion neural network architecture |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013100790A1 (en) * | 2011-12-30 | 2013-07-04 | Intel Corporation | Coarse-to-fine multple disparity candidate stereo matching |
CN103226821A (zh) * | 2013-04-27 | 2013-07-31 | 山西大学 | 基于视差图像素分类校正优化的立体匹配方法 |
CN103236053A (zh) * | 2013-04-07 | 2013-08-07 | 南京理工大学 | 一种移动平台下运动目标检测的mof方法 |
CN104835175A (zh) * | 2015-05-26 | 2015-08-12 | 西南科技大学 | 一种基于视觉注意机制的核环境中目标检测方法 |
CN105005988A (zh) * | 2015-06-30 | 2015-10-28 | 陕西师范大学 | 一种基于交互式图像分割的立体匹配方法 |
CN105550675A (zh) * | 2016-02-02 | 2016-05-04 | 天津大学 | 一种基于优化聚合积分通道的双目行人检测方法 |
CN106355570A (zh) * | 2016-10-21 | 2017-01-25 | 昆明理工大学 | 一种结合深度特征的双目立体视觉匹配方法 |
CN107832764A (zh) * | 2017-11-27 | 2018-03-23 | 山东鲁能智能技术有限公司 | 一种电力设备状态检测方法及装置 |
CN107886477A (zh) * | 2017-09-20 | 2018-04-06 | 武汉环宇智行科技有限公司 | 无人驾驶中立体视觉与低线束激光雷达的融合矫正方法 |
-
2018
- 2018-05-29 CN CN201810529435.3A patent/CN108681753B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013100790A1 (en) * | 2011-12-30 | 2013-07-04 | Intel Corporation | Coarse-to-fine multple disparity candidate stereo matching |
CN103236053A (zh) * | 2013-04-07 | 2013-08-07 | 南京理工大学 | 一种移动平台下运动目标检测的mof方法 |
CN103226821A (zh) * | 2013-04-27 | 2013-07-31 | 山西大学 | 基于视差图像素分类校正优化的立体匹配方法 |
CN104835175A (zh) * | 2015-05-26 | 2015-08-12 | 西南科技大学 | 一种基于视觉注意机制的核环境中目标检测方法 |
CN105005988A (zh) * | 2015-06-30 | 2015-10-28 | 陕西师范大学 | 一种基于交互式图像分割的立体匹配方法 |
CN105550675A (zh) * | 2016-02-02 | 2016-05-04 | 天津大学 | 一种基于优化聚合积分通道的双目行人检测方法 |
CN106355570A (zh) * | 2016-10-21 | 2017-01-25 | 昆明理工大学 | 一种结合深度特征的双目立体视觉匹配方法 |
CN107886477A (zh) * | 2017-09-20 | 2018-04-06 | 武汉环宇智行科技有限公司 | 无人驾驶中立体视觉与低线束激光雷达的融合矫正方法 |
CN107832764A (zh) * | 2017-11-27 | 2018-03-23 | 山东鲁能智能技术有限公司 | 一种电力设备状态检测方法及装置 |
Non-Patent Citations (4)
Title |
---|
AMIT SHAKED等: "Improved Stereo Matching with Constant Highway Networks and Reflective Confidence Learning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
SPYROS GIDARIS等: "Detect, Replace, Refine: Deep Structured Prediction For Pixel Wise Labeling", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
胡旻昊等: "基于双目视觉图像的电力设备状态识别算法", 《电子世界》 * |
马波涛: "基于双目立体视觉的心脏软组织三维重构技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919993A (zh) * | 2019-03-12 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 视差图获取方法、装置和设备及控制系统 |
WO2020182117A1 (zh) * | 2019-03-12 | 2020-09-17 | 腾讯科技(深圳)有限公司 | 视差图获取方法、装置和设备及控制系统和存储介质 |
CN109919993B (zh) * | 2019-03-12 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 视差图获取方法、装置和设备及控制系统 |
US11830211B2 (en) | 2019-03-12 | 2023-11-28 | Tencent Technology (Shenzhen) Company Limited | Disparity map acquisition method and apparatus, device, control system and storage medium |
CN110245553A (zh) * | 2019-04-29 | 2019-09-17 | 清华大学 | 路面测距方法及装置 |
CN110245553B (zh) * | 2019-04-29 | 2022-02-22 | 清华大学 | 路面测距方法及装置 |
CN110287964A (zh) * | 2019-06-13 | 2019-09-27 | 浙江大华技术股份有限公司 | 一种立体匹配方法及装置 |
CN110287964B (zh) * | 2019-06-13 | 2021-08-03 | 浙江大华技术股份有限公司 | 一种立体匹配方法及装置 |
US11556784B2 (en) | 2019-11-22 | 2023-01-17 | Samsung Electronics Co., Ltd. | Multi-task fusion neural network architecture |
Also Published As
Publication number | Publication date |
---|---|
CN108681753B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681753A (zh) | 一种基于语义分割及神经网络的图像立体匹配方法及系统 | |
CN112634341B (zh) | 多视觉任务协同的深度估计模型的构建方法 | |
CN105956597A (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN106355570A (zh) | 一种结合深度特征的双目立体视觉匹配方法 | |
CN101729911B (zh) | 一种基于视觉感知的多视点图像颜色校正方法 | |
CN111402311B (zh) | 一种基于知识蒸馏的轻量级立体视差估计方法 | |
CN103236082A (zh) | 面向捕获静止场景的二维视频的准三维重建方法 | |
CN103440653A (zh) | 双目视觉立体匹配方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN107170008A (zh) | 一种深度图创建方法、系统以及图像虚化方法、系统 | |
CN113592026A (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN107622480A (zh) | 一种Kinect深度图像增强方法 | |
CN104200453A (zh) | 基于图像分割和可信度的视差图像校正方法 | |
CN108010075A (zh) | 一种基于多特征联合的局部立体匹配方法 | |
CN116206133A (zh) | 一种rgb-d显著性目标检测方法 | |
CN111462211A (zh) | 一种基于卷积神经网络的双目视差计算方法 | |
Jang et al. | Deep color transfer for color-plus-mono dual cameras | |
CN109598695A (zh) | 一种基于深度学习网络的无参考图像模糊程度估计方法 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN112489097A (zh) | 基于混合2d卷积和伪3d卷积的立体匹配方法 | |
CN113887568A (zh) | 一种各向异性卷积的双目图像立体匹配方法 | |
CN110599534B (zh) | 适用于2d卷积神经网络的可学习引导滤波模块和方法 | |
CN111369435B (zh) | 基于自适应稳定模型的彩色图像深度上采样方法及系统 | |
CN102802020B (zh) | 监测双目立体视频视差信息的方法和装置 | |
CN109816710B (zh) | 一种双目视觉系统高精度且无拖影的视差计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |