CN112270701A - 基于分组距离网络的视差预测方法、系统及存储介质 - Google Patents

基于分组距离网络的视差预测方法、系统及存储介质 Download PDF

Info

Publication number
CN112270701A
CN112270701A CN202011156502.5A CN202011156502A CN112270701A CN 112270701 A CN112270701 A CN 112270701A CN 202011156502 A CN202011156502 A CN 202011156502A CN 112270701 A CN112270701 A CN 112270701A
Authority
CN
China
Prior art keywords
disparity
feature
cost body
map
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011156502.5A
Other languages
English (en)
Other versions
CN112270701B (zh
Inventor
吴文欢
汤飞
吴岳敏
魏本昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Automotive Technology
Original Assignee
Hubei University of Automotive Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Automotive Technology filed Critical Hubei University of Automotive Technology
Priority to CN202011156502.5A priority Critical patent/CN112270701B/zh
Publication of CN112270701A publication Critical patent/CN112270701A/zh
Application granted granted Critical
Publication of CN112270701B publication Critical patent/CN112270701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/02Picture taking arrangements specially adapted for photogrammetry or photographic surveying, e.g. controlling overlapping of pictures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Electromagnetism (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视觉测距技术领域,公开了一种基于分组距离网络的视差预测方法、系统及存储介质,通过级联多个残差网络模块提取左右视图上每个像素的特征向量,并且对不同深度残差模块生成的特征向量进行拼接,由此融合不同属性的特征信息;对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;采用三个级联的沙漏网络对4D代价体进行3D卷积,并通过视差回归生成最终视差图。本发明能够有效应对场景中诸多干扰因素。通过将分组距离网络在某个场景数据集上进行端到端的训练学习,并可直接利用训练好的网络模型准确地预测出该场景下立体图像的视差图。

Description

基于分组距离网络的视差预测方法、系统及存储介质
技术领域
本发明属于视觉测距技术领域,尤其涉及一种基于分组距离网络的视差预测方法、系统及存储介质。
背景技术
目前,立体视觉是一种非接触式的被动深度感知方法,它无需额外的信号发射器,仅仅通过摄像机在不同视点采集同一场景的一对立体图像,然后利用立体匹配技术在立体图像之间搜寻出所有彼此对应的匹配点对,并通过求解对应像素之间的视差就能恢复场景稠密的深度信息,因此,立体视觉及其匹配技术在汽车自动驾驶、机器人导航与测距、三维测量、三维重构、虚拟现实等领域有着广泛的应用。
同一场景立体图像之间的成像差异与内在联系是由场景光照条件、物体表面纹理特征与反射特性、景物之间遮挡关系、摄像机参数设置等诸多综合因素导致的,但是传统非学习的立体匹配方法不能有效描述拍摄场景特有的成像属性,无法对所有引起成像差异的因素综合起来建模,使其在求解复杂场景(如道路交通场景)下立体图像之间视差时出现非常严重的退化。为此,本发明给出了一种端到端的分组距离网络模型,通过将其在某个特定场景的数据集进行训练学习,即可利用它来准确地预测该场景下输入立体图像的视差。
通过上述分析,现有技术存在的问题及缺陷为:难以准确求解复杂场景下立体图像之间的视差问题。
(1)在采集同一场景的一对立体图像时,由于受光照变化、摄像机曝光设置不同以及物体表面光反射等因素的影响,使得立体图像之间对应像素的成像差异较大;
(2)现实场景中经常出现大面积、无规则的弱纹理或重复纹理区域,由于这些区域的像素纹理特征极其相似,导致在这些区域中寻找匹配点时,很容易出现一对多的匹配歧义。
(3)由于采集立体图像的摄像机视点位置不同,必定存在一些区域在一幅图像中可见,而在另一幅图像中不可见的遮挡问题。
解决以上问题及缺陷的难度为:
立体图像的成像不仅受摄像机设置影响,而且与场景特性密切相关,因此,需要为每个像素点提取出与摄像机以及场景特性相适应的鲁棒特征向量。另外,为了消除匹配二义性,需要设计一种有效度量策略来计算像素特征向量之间的相似度,以此拉大真实匹配像素与其他候选像素的类间距离。最后,对于被遮挡区域中的像素点,实际上是找不出与之匹配的像素点,因此,如何正确估计被遮挡像素点的视差也是极具挑战性。
解决以上问题及缺陷的意义为:通过解决上述难点问题,视差的计算能够自适应摄像机特性和场景特性,匹配歧义能得到有效消除,被遮挡区域的视差能得到正确估计,视差图的精度也能得到极大提升,从而使得由立体图像感知深度并进行三维重构的问题能得到更好的解决,同时对于立体视觉技术更加广泛而成熟的应用起到极大的推动作用。
发明内容
针对现有技术存在的问题,本发明提供了一种基于分组距离网络的视差预测方法、系统及存储介质。
本发明是这样实现的,一种基于分组距离网络的视差预测方法,所述基于分组距离网络的视差预测方法包括:
首先,通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;其次,对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;最后,采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
进一步,所述基于分组距离网络的视差预测方法包括以下步骤:
步骤一,通过提取左右视图对应的特征图、构建代价体、进行代价体滤波自己视差回归构建分组距离网络模型;
步骤二,利用训练集对构建的分组距离网络模型进行训练;并利用
Figure RE-GDA0002833936280000033
函数度量每个预测出的视差图与真实视差图之间的误差,直至训练模型收敛则保存相应的参数;
步骤三,将立体图像输入到训练号的分组距离网络模型中,利用保存的模型参数作为分组距离网络模型的预测参数,分组距离网络第四个通道输出的视差图
Figure RE-GDA0002833936280000032
即为预测生成出的视差图结果。
进一步,步骤一中,所述代价体构建方法包括:
通过不断改变视差值d,并且在每个视差值d下,将左视图中每个像素的特征向量与右视图中对应像素的特征向量进行对齐,计算特征向量之间的分组距离向量,即可构建4D代价体CGD;所述4D代价体尺寸为Ng×W/4×H/4×L/4;L 为视差总数;
CGD(x,y,d)=GD(vl(x,y),vr(x-d,y));
其中,CGD(x,y,d)表示左视图上像素点pl(x,y)在视差值d下的匹配代价; GD(vl(x,y),vr(x-d,y))表示特征向量vl(x,y)和vr(x-d,y)的分组距离;
所述GD(vl(x,y),vr(x-d,y)):
Figure RE-GDA0002833936280000031
进一步,步骤一中,所述分组距离网络模型包括:
深度特征提取模块,用于提取得到左右视图对应的特征图;
基于分组距离的代价体构建模块,用于基于提取得到的特征图进行代价体构建;
代价体滤波模块,用于对生成的代价体进行滤波,并生成3D代价体C;
视差回归模块,用于对生成的代价体C中每个像素p在视差为d代价值实施softmax映射得到其视差为d的概率δ(p,d)以及用于通过soft argmin函数计算得到素p的最终视差
Figure RE-GDA0002833936280000041
进一步,所述深度特征提取模块包括:卷积层、归一化处理和ReLU激活层、残差块以及后处理卷积层;
所述卷积层大小为3×3,级联三个滤波器,用于对输入图像进行预处理;其中,第一个卷积层步长为2,用于将输出特征图像的大小变为输入图像的1/2;
所述归一化处理和ReLU激活层位于每个卷积层后;
所述残差块级联三种不同类型,用于对预处理后的特征图像进行处理;其中,所述残差块总数为25,每个残差块包含2个卷积层,第四个残差块的第一个卷积层步长设置为2,用于将输出特征图像的大小变为输入图像的1/4;同时所述残差块用于将生成的特征图在通道方向上进行拼接,生成通道数为384的特征图;
所述后处理卷积层大小为3×3,用于利用级联两个滤波器对融合特征图进行后处理,生成通道数为128的特征图,并且将输入的融合特征图与输出的特征图进行拼接得到最终通道数为512的特征图。
进一步,所述代价体滤波模块包括:
一个3D卷积残差块,用于对4D代价体CGD进行预滤波处理;
三个级联的3D沙漏网络,用于对预处理结果进行滤波、将前一个滤波结果通过跳跃连接添加到紧随其后的滤波结果上;
输出模块,用于输出最终的滤波结果以及三个中间滤波结果;同时用于利用两个级联的3D卷积层进行后处理,令通道数变为1,生成一个3D代价体C,并对生成的代价体进行双线性插值上采样,转换尺寸为W×H×L。
进一步,所述每个沙漏网络采用相同的3D编码器-解码器结构,即先对代价体进行从上至下的3D卷积和下采样,然后对编码器结果进行从下到上的3D 反卷积和上采样;所述单个3D沙漏网络,通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上,用于融合编码器与解码器中的特征图信息。
进一步,所述视差回归模块包括:
对生成的代价体C中每个像素p在视差为d代价值C(p,d)实施softmax映射得到其视差为d的概率δ(p,d),即:
Figure RE-GDA0002833936280000051
通过soft argmin函数计算得到像素p的最终视差
Figure RE-GDA0002833936280000052
即:
Figure RE-GDA0002833936280000053
进一步,步骤二中,所述利用
Figure RE-GDA00028339362800000513
函数度量每个预测出的视差图与真实视差图之间的误差即:
Figure RE-GDA0002833936280000054
其中,
Figure RE-GDA0002833936280000055
表示提供了真实视差值的像素集合,
Figure RE-GDA0002833936280000056
是视差图
Figure RE-GDA0002833936280000057
中像素p的视差估计,
Figure RE-GDA0002833936280000058
是像素p的真实视差值,
Figure RE-GDA0002833936280000059
函数定义如下:
Figure RE-GDA00028339362800000510
将所有预测视差图损失的加权和作为分组距离网络的损失函数Loss,即:
Figure RE-GDA00028339362800000511
其中,λk表示视差图
Figure RE-GDA00028339362800000512
的损失权重。
本发明另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;
对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;
采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
本发明另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;
对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;
采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
本发明另一目的在于提供一种所述基于分组距离网络的视差预测方法在汽车自动驾驶、机器人导航与测距、三维测量、三维重构、虚拟现实等领域上的应用。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:直接效果是本发明通过将分组距离网络在某个场景数据集上进行端到端的训练学习,并可直接利用训练好的网络模型准确地预测出该场景下立体图像的视差图;整体效果是本发明鲁棒性较强,视差计算精度较高,能够自适应摄像机与场景特性,能有效克服场景中光照变化大、光反射、阴影、运动模糊、景物遮挡关系复杂、物体表面纹理单一等诸多干扰因素;从权效果是本发明能够提升双目立体视觉测距、三维测量和三维重构的精度,能够更好地服务于汽车辅助驾驶和机器人的自主导航领域。
对比的技术效果或者实验效果。如图7实验结果在KITTI 2012测试集预测出的视差图所示,图7(a)图像000000_10;(b)图像000000_10的视差图(平均视差误差为0.4px);(c)图像000001_10;(d)图像000001_10的视差图(平均视差误差为0.5px);(e)图像000002_10;(f)图像000002_10的视差图(平均视差误差为0.3px)。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于分组距离网络的视差预测方法流程图。
图2是本发明实施例提供的分组距离网络模型架构图。
图3是本发明实施例提供的分组距离网络模型结构示意图;
图中:1、深度特征提取模块;2、基于分组距离的代价体构建模块;3、代价体滤波模块;4、视差回归模块。
图4是本发明实施例提供的代价体构建模块示意图。
图5是本发明实施例提供的特征提取模块示意图。
图6是本发明实施例提供的代价体滤波模块示意图。
图7是本发明实施例提供的预测视差的实验结果效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于分组距离网络的视差预测方法,下面结合附图对本发明作详细的描述。
本发明实施例提供的基于分组距离网络的视差预测方法包括:
首先,通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;其次,对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;最后,采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
如图1所示,本发明实施例提供的基于分组距离网络的视差预测方法包括以下步骤:
S101,通过提取左右视图对应的特征图、构建代价体、进行代价体滤波以及视差回归构建分组距离网络模型;
S102,利用训练集对构建的分组距离网络模型进行训练;并利用
Figure RE-GDA0002833936280000083
函数度量每个预测出的视差图与真实视差图之间的误差,直至训练模型收敛则保存相应的参数;
S103,将立体图像输入到训练好的分组距离网络模型中,利用保存的模型参数作为分组距离网络模型的预测参数,分组距离网络第四个通道输出的视差图
Figure RE-GDA0002833936280000082
即为预测生成出的视差图结果。
步骤S101中,本发明实施例提供的代价体构建方法包括:
通过不断改变视差值d,并且在每个视差值d下,将左视图中每个像素的特征向量与右视图中对应像素的特征向量进行对齐,计算特征向量之间的分组距离向量,即可构建4D代价体CGD;所述4D代价体尺寸为Ng×W/4×H/4×L/4;L 为视差总数;
CGD(x,y,d)=GD(vl(x,y),vr(x-d,y));
其中,CGD(x,y,d)表示左视图上的像素点pl(x,y)在视差值d下的匹配代价; GD(vl(x,y),vr(x-d,y))表示特征向量vl(x,y)和vr(x-d,y)的分组距离;
所述GD(vl(x,y),vr(x-d,y)):
Figure RE-GDA0002833936280000081
如图2至图4所示,步骤S101中,本发明实施例提供的分组距离网络模型包括:
深度特征提取模块1,用于提取得到左右视图对应的特征图;
基于分组距离的代价体构建模块2,用于基于提取得到的特征图进行代价体构建;
代价体滤波模块3,用于对生成的代价体进行滤波,并生成3D代价体C;
视差回归模块4,用于对生成的代价体C中每个像素p在视差为d代价值实施softmax映射得到其视差为d的概率δ(p,d)以及用于通过soft argmin函数计算得到素p的最终视差
Figure RE-GDA0002833936280000091
如图5所示,本发明实施例提供的深度特征提取模块1包括:卷积层、归一化处理和ReLU激活层、残差块以及后处理卷积层;
所述卷积层大小为3×3,级联三个滤波器,用于对输入图像进行预处理;其中,第一个卷积层步长为2,用于将输出特征图像的大小变为输入图像的1/2;
所述归一化处理和ReLU激活层位于每个卷积层后;
所述残差块级联三种不同类型,用于对预处理后的特征图像进行处理;其中,所述残差块总数为25,每个残差块包含2个卷积层,第四个残差块的第一个卷积层步长设置为2,用于将输出特征图像的大小变为输入图像的1/4;同时所述残差块用于将生成的特征图在通道方向上进行拼接,生成通道数为384的特征图;
所述后处理卷积层大小为3×3,用于利用级联两个滤波器对融合特征图进行后处理,生成通道数为128的特征图,并且将输入的融合特征图与输出的特征图进行拼接得到最终通道数为512的特征图。
如图6所示,本发明实施例提供的代价体滤波模块包括:
一个3D卷积残差块,用于对4D代价体CGD进行预滤波处理;
三个级联的3D沙漏网络,用于对预处理结果进行滤波、将前一个滤波结果通过跳跃连接添加到紧随其后的滤波结果上;
输出模块,用于输出最终的滤波结果以及三个中间滤波结果;同时用于利用两个级联的3D卷积层进行后处理,令通道数变为1,生成一个3D代价体C,并对生成的代价体进行双线性插值上采样,转换尺寸为W×H×L。
本发明实施例提供的每个沙漏网络采用相同的3D编码器-解码器结构,即先对代价体进行从上至下的3D卷积和下采样,然后对编码器结果进行从下到上的 3D反卷积和上采样;所述单个3D沙漏网络,通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上,用于融合编码器与解码器中的特征图信息。
如图5所示,本发明实施例提供的视差回归模块包括:
对生成的代价体C中每个像素p在视差为d代价值C(p,d)实施softmax映射得到其视差为d的概率δ(p,d),即:
Figure RE-GDA0002833936280000101
通过soft argmin函数计算得到像素p的最终视差
Figure RE-GDA0002833936280000102
即:
Figure RE-GDA0002833936280000103
步骤S102中,本发明实施例提供的利用
Figure RE-GDA00028339362800001013
函数度量每个预测出的视差图与真实视差图之间的误差即:
Figure RE-GDA0002833936280000104
其中,
Figure RE-GDA0002833936280000105
表示提供了真实视差值的像素集合,
Figure RE-GDA0002833936280000106
是视差图
Figure RE-GDA0002833936280000107
中像素p的视差估计,
Figure RE-GDA0002833936280000108
是像素p的真实视差值,
Figure RE-GDA0002833936280000109
函数定义如下:
Figure RE-GDA00028339362800001010
将所有预测视差图损失的加权和作为分组距离网络的损失函数Loss,即:
Figure RE-GDA00028339362800001011
其中,λk表示视差图
Figure RE-GDA00028339362800001012
的损失权重。
下面结合具体实施例对本发明的技术效果作进一步描述。
实施例1:
本发明的分组距离网络视差预测方法,具体按照以下步骤实施:
步骤1:分组距离网络的构建
本发明提供的分组距离网络总体架构如附图2所示,下面将结合附图对其各个网络子模块的构建进行描述。
(1)特征提取
像素的深度特征提取模块如附图5所示。首先,级联三个滤波器大小为3×3 的卷积层对输入图像进行预处理,每个卷积层后面依次紧跟批归一化(Batch Normlization)处理和ReLU激活层,其中第一个卷积层的步长为2,即将输出特征图像的大小变为输入图像的1/2,以便降低网络复杂度,增加感受野大小。然后,级联三种不同类型的残差块对预处理后的特征图像进行处理,残差块总数为25,每个残差块包含2个卷积层,并且将第四个残差块的第一个卷积层步长设置为2,即将输出特征图像的大小变为输入图像的1/4,以进一步减少网络参数。为了融合这些不同深度的特征图信息,输出并保存一些由中间残差块得到的特征图,并且将这些特征图在通道方向上进行拼接,生成通道数为384的特征图。最后,通过级联两个滤波器大小为3×3的卷积层对这个融合特征图进行后处理,生成通道数为128的特征图,并且将输入的融合特征图与输出的特征图进行拼接即可得到最终通道数为512的特征图。
通过分别将立体图像的左右视图输入到权重相同的特征提取模块就可得到左右视图对应的特征图,相应地,立体图像中每个像素都可用一个512维的一元深度特征向量进行描述。
(2)基于分组距离的代价体构建模块
代价体构建模块如附图4所示。假设特征提取模块为左右视图生成的特征图分别为FMl和FMr,令输入图像的高度和宽度分别为W和H,则这两个特征图的尺寸都为W/4×H/4×NC,其中NC=512表示特征图的通道数。对于左视图上的像素点pl(x,y),假设其在左特征图像FMl上的特征向量为vl(x,y),那么在视差值d下,在右视图中与点pl(x,y)对应的像素点为pr(x-d,y),相应地,点 pr(x-d,y)在右特征图像FMr上的特征向量为vr(x-d,y)。显然,向量vl(x,y)和向量vr(x-d,y)的维度等于特征图像的通道数NC
将vl(x,y)和vr(x-d,y)这两个对应特征向量都分成Ng组,则每组中特征子向量包含的通道数为Nc/Ng,设vl(x,y)和vr(x-d,y)的第k组特征子向量分别为
Figure RE-GDA0002833936280000121
Figure RE-GDA0002833936280000122
则这两个子向量包含对应特征向量的通道序列为 <kNC/Ng,kNC/Ng+1,…,(k+1)NC/Ng-1>,这里通道索引从0开始计数。通过分别求解每个组中左右对应子向量的欧式距离,然后将所有组的欧式距离拼接起来并可构成分组距离向量,因此,在视差值d下,特征向量vl(x,y)和vr(x-d,y)的分组距离GD(vl(x,y),vr(x-d,y))可表示为:
Figure RE-GDA0002833936280000123
相应地,左视图上的像素点pl(x,y)在视差值d下的匹配代价CGD(x,y,d)可用特征向量vl(x,y)和vr(x-d,y)的分组距离来表示:
CGD(x,y,d)=GD(vl(x,y),vr(x-d,y)) (2)
因此,通过不断改变视差值d,并且在每个视差值d下,将左视图中每个像素的特征向量与右视图中对应像素的特征向量进行对齐,求解它们之间的分组距离向量,即可生成一个4D代价体CGD,其尺寸为Ng×W/4×H/4×L/4,其中L 为视差总数。
(3)代价体滤波模块
代价体滤波模块如附图6所示。首先,采用一个3D卷积残差块对4D代价体CGD进行预滤波处理。然后,级联三个3D沙漏(hourglass)网络(沙漏网络是本发明的从属技术,可参考相关的技术文献实现)对预处理结果进行滤波。每个沙漏网络采用相同的3D编码器-解码器结构,即先对代价体进行从上至下的3D卷积和下采样,然后对编码器结果进行从下到上的3D反卷积和上采样。另外,对于单个 3D沙漏网络,通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上,以此来融合编码器与解码器中的特征图信息。在不同滤波结果之间,需将前面的滤波结果通过跳跃连接加到紧随其后的滤波结果上,以便于残差学习。最后,除了输出最终的滤波结果外,还输出三个中间的滤波结果。对于每个输出模块,使用两个级联的3D卷积层进行后处理,使得通道数变为1,进而生成一个 3D代价体C,紧接着对该代价体进行双线性插值上采样,使其尺寸变为W×H×L 。
(4)视差回归模块
在由代价体滤波模块经过双线性插值后生成的代价体C中,对于每个像素p ,其视差为d的概率δ(p,d)可通过对该视差的代价值实施softmax映射得到,即
Figure RE-GDA0002833936280000131
相应地,像素p的最终视差
Figure RE-GDA0002833936280000132
可通过如下soft argmin函数计算得到,即:
Figure RE-GDA0002833936280000133
步骤2:网络模型的训练
让分组距离网络在某个场景的训练集上进行训练学习。对于训练集中的每对立体图像,假设分组距离网络的四个输出通道预测出的视差图分别为
Figure RE-GDA0002833936280000134
而真实视差图为
Figure RE-GDA0002833936280000135
则使用
Figure RE-GDA00028339362800001312
函数来度量每个预测出的视差图与真实视差图之间的误差,即:
Figure RE-GDA0002833936280000136
其中,
Figure RE-GDA0002833936280000137
表示提供了真实视差值的像素集合,
Figure RE-GDA0002833936280000138
是视差图
Figure RE-GDA0002833936280000139
中像素p的视差估计,
Figure RE-GDA00028339362800001310
是像素p的真实视差值,而
Figure RE-GDA00028339362800001313
函数定义如下:
Figure RE-GDA00028339362800001311
相应地,分组距离网络的损失函数Loss是所有预测视差图损失的加权和,即:
Figure RE-GDA0002833936280000141
其中,λk表示视差图
Figure RE-GDA0002833936280000142
的损失权重,k=1,2,3,4这四个权重值依次为 0.5,0.5,0.7,1.0。
在网络训练过程中,一旦网络模型收敛,并可用此网络模型为该场景的立体图像预测视差。
步骤3:预测视差
将与训练集场景相同的任一立体图像输入到分组距离网络中,其参数使用步骤2中已学习出的网络模型参数值,分组距离网络第四个通道输出的视差图
Figure RE-GDA0002833936280000143
即为预测生成出的视差图结果。
图7实验结果为:在KITTI 2012测试集预测出的视差中,图7(a)图像 000000_10;(b)图像000000_10的视差图(平均视差误差为0.4px);(c)图像 000001_10;(d)图像000001_10的视差图(平均视差误差为0.5px);(e)图像 000002_10;(f)图像000002_10的视差图(平均视差误差为0.3px)。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于分组距离网络的视差预测方法,其特征在于,所述基于分组距离网络的视差预测方法包括:
通过级联多个残差网络模块提取左右视图上每个像素的特征向量,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;
对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;
采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
2.如权利要求1所述基于分组距离网络的视差预测方法,其特征在于,所述基于分组距离网络的视差预测方法具体包括以下步骤:
步骤一,通过提取左右视图对应的特征图、构建代价体、进行代价体滤波以及视差回归构建分组距离网络模型;
步骤二,利用训练集对构建的分组距离网络模型进行训练;并利用
Figure FDA0002742963690000012
损失函数度量每个预测出的视差图与真实视差图之间的误差,直至训练模型收敛则保存相应的参数;
步骤三,将立体图像输入到训练好的分组距离网络模型中,利用保存的模型参数作为分组距离网络模型的预测参数,分组距离网络第四个通道输出的视差图
Figure FDA0002742963690000011
即为预测生成出的视差图结果。
3.如权利要求2所述基于分组距离网络的视差预测方法,其特征在于,步骤一中,所述代价体构建方法包括:
通过不断改变视差值d,并且在每个视差值d下,将左视图中每个像素的特征向量与右视图中对应像素的特征向量进行对齐,计算特征向量之间的分组距离向量,即可构建4D代价体CGD;所述4D代价体尺寸为Ng×W/4×H/4×L/4;L为视差总数;
CGD(x,y,d)=GD(vl(x,y),vr(x-d,y));
其中,CGD(x,y,d)表示左视图上的像素点pl(x,y)在视差值d下的匹配代价;GD(vl(x,y),vr(x-d,y))表示特征向量vl(x,y)和vr(x-d,y)的分组距离;
所述GD(vl(x,y),vr(x-d,y)):
Figure FDA0002742963690000021
4.如权利要求2所述基于分组距离网络的视差预测方法,其特征在于,步骤一中,所述分组距离网络模型包括:
深度特征提取模块,用于提取得到左右视图对应的特征图;
基于分组距离的代价体构建模块,用于基于提取得到的特征图进行代价体构建;
代价体滤波模块,用于对生成的4D代价体进行滤波,并生成3D代价体C;
视差回归模块,用于对生成的代价体C中每个像素p在视差为d代价值C(p,d)实施softmax映射得到其视差为d的概率δ(p,d)以及用于通过soft argmin函数计算得到像素p的最终视差
Figure FDA0002742963690000022
所述深度特征提取模块包括:卷积层、归一化处理和ReLU激活层、残差块以及后处理卷积层;
所述卷积层大小为3×3,级联三个滤波器,用于对输入图像进行预处理;其中,第一个卷积层步长为2,用于将输出特征图像的大小变为输入图像的1/2;
所述归一化处理和ReLU激活层位于每个卷积层后;
所述残差块级联三种不同类型,用于对预处理后的特征图像进行处理;其中,所述残差块总数为25,每个残差块包含2个卷积层,第四个残差块的第一个卷积层步长设置为2,用于将输出特征图像的大小变为输入图像的1/4;同时将所述残差块生成的特征图在通道方向上进行拼接,生成通道数为384的特征图;
所述后处理卷积层大小为3×3,用于利用级联两个滤波器对融合特征图进行后处理,生成通道数为128的特征图,并且将输入的融合特征图与输出的特征图进行拼接得到最终通道数为512的特征图。
5.如权利要求4所述基于分组距离网络的视差预测方法,其特征在于,所述代价体滤波模块包括:
一个3D卷积残差块,用于对4D代价体CGD进行预滤波处理;
三个级联的3D沙漏网络,用于对预处理结果进行滤波、将前一个滤波结果通过跳跃连接添加到紧随其后的滤波结果上;
输出模块,用于输出最终的滤波结果以及三个中间滤波结果;同时用于利用两个级联的3D卷积层进行后处理,令通道数变为1,生成一个3D代价体C,并对生成的代价体进行双线性插值上采样,转换尺寸为W×H×L;
所述每个沙漏网络采用相同的3D编码器-解码器结构,即先对代价体进行从上至下的3D卷积和下采样,然后对编码器结果进行从下到上的3D反卷积和上采样;所述单个3D沙漏网络,通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上,用于融合编码器与解码器中的特征图信息。
6.如权利要求4所述基于分组距离网络的视差预测方法,其特征在于,所述视差回归模块包括:
对生成的代价体C中每个像素p在视差为d代价值C(p,d)实施softmax映射得到其视差为d的概率δ(p,d),即:
Figure FDA0002742963690000031
通过soft argmin函数计算得到像素p的最终视差
Figure FDA0002742963690000032
即:
Figure FDA0002742963690000033
7.如权利要求2所述基于分组距离网络的视差预测方法,其特征在于,步骤二中,所述利用
Figure FDA0002742963690000034
函数度量每个预测出的视差图与真实视差图之间的误差即:
Figure FDA0002742963690000041
其中,
Figure FDA0002742963690000042
表示提供了真实视差值的像素集合,
Figure FDA0002742963690000043
是视差图
Figure FDA0002742963690000044
中像素p的视差估计,
Figure FDA0002742963690000045
是像素p的真实视差值,
Figure FDA0002742963690000046
函数定义如下:
Figure FDA0002742963690000047
将所有预测视差图损失的加权和作为分组距离网络的损失函数Loss,即:
Figure FDA0002742963690000048
其中,λk表示视差图
Figure FDA0002742963690000049
的损失权重。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;
对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;
采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取,并且对不同深度残差模块生成的特征向量进行拼接,融合不同属性的特征信息;
对左右视图之间对应像素的特征向量进行分组,并计算对应特征向量的分组距离向量,同时构建4D代价体;
采用三个级联的沙漏网络进行3D卷积,并通过视差回归生成最终视差图。
10.一种如权利要求1~7任意一项所述基于分组距离网络的视差预测方法在汽车自动驾驶、机器人导航与测距、三维测量、三维重构、虚拟现实等领域上的应用。
CN202011156502.5A 2020-10-26 2020-10-26 基于分组距离网络的视差预测方法、系统及存储介质 Active CN112270701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011156502.5A CN112270701B (zh) 2020-10-26 2020-10-26 基于分组距离网络的视差预测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011156502.5A CN112270701B (zh) 2020-10-26 2020-10-26 基于分组距离网络的视差预测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112270701A true CN112270701A (zh) 2021-01-26
CN112270701B CN112270701B (zh) 2023-09-12

Family

ID=74341093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011156502.5A Active CN112270701B (zh) 2020-10-26 2020-10-26 基于分组距离网络的视差预测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112270701B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949504A (zh) * 2021-03-05 2021-06-11 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN113160114A (zh) * 2021-01-29 2021-07-23 珠海迪沃航空工程有限公司 一种用于螺栓检测的动态图像识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230338A (zh) * 2018-01-11 2018-06-29 温州大学 一种基于卷积神经网络的立体图像分割方法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
US20200160533A1 (en) * 2018-11-15 2020-05-21 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation
CN111242999A (zh) * 2020-01-10 2020-06-05 大连理工大学 基于上采样及精确重匹配的视差估计优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230338A (zh) * 2018-01-11 2018-06-29 温州大学 一种基于卷积神经网络的立体图像分割方法
US20200160533A1 (en) * 2018-11-15 2020-05-21 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN111242999A (zh) * 2020-01-10 2020-06-05 大连理工大学 基于上采样及精确重匹配的视差估计优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘建国;冯云剑;纪郭;颜伏伍;朱仕卓;: "一种基于PSMNet改进的立体匹配算法", 华南理工大学学报(自然科学版), no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160114A (zh) * 2021-01-29 2021-07-23 珠海迪沃航空工程有限公司 一种用于螺栓检测的动态图像识别方法及系统
CN112949504A (zh) * 2021-03-05 2021-06-11 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN112949504B (zh) * 2021-03-05 2024-03-19 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112270701B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN111696148A (zh) 基于卷积神经网络的端到端立体匹配方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN104539928A (zh) 一种光栅立体印刷图像合成方法
CN111127522B (zh) 基于单目相机的深度光流预测方法、装置、设备及介质
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN113160068A (zh) 基于图像的点云补全方法及系统
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN115035235A (zh) 三维重建方法及装置
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN113222033A (zh) 基于多分类回归模型与自注意力机制的单目图像估计方法
CN110033483A (zh) 基于dcnn深度图生成方法及系统
CN115239870A (zh) 基于注意力代价体金字塔的多视图立体网络三维重建方法
CN111105451B (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN113705796A (zh) 基于epi特征强化的光场深度获取卷积神经网络
Kallwies et al. Triple-SGM: stereo processing using semi-global matching with cost fusion
Cho et al. Event-image fusion stereo using cross-modality feature propagation
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN112489097B (zh) 基于混合2d卷积和伪3d卷积的立体匹配方法
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN116258756B (zh) 一种自监督单目深度估计方法及系统
CN115908992B (zh) 双目立体匹配的方法、装置、设备以及存储介质
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
CN116486038A (zh) 一种三维构建网络训练方法、三维模型生成方法以及装置
CN115239559A (zh) 一种融合视图合成的深度图超分辨率方法及系统
CN111223136B (zh) 稀疏2d点集的深度特征提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant