CN111105451B - 一种克服遮挡效应的驾驶场景双目深度估计方法 - Google Patents

一种克服遮挡效应的驾驶场景双目深度估计方法 Download PDF

Info

Publication number
CN111105451B
CN111105451B CN201911053032.7A CN201911053032A CN111105451B CN 111105451 B CN111105451 B CN 111105451B CN 201911053032 A CN201911053032 A CN 201911053032A CN 111105451 B CN111105451 B CN 111105451B
Authority
CN
China
Prior art keywords
convolution
feature
multiplied
cost
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911053032.7A
Other languages
English (en)
Other versions
CN111105451A (zh
Inventor
邹勤
黄立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911053032.7A priority Critical patent/CN111105451B/zh
Publication of CN111105451A publication Critical patent/CN111105451A/zh
Application granted granted Critical
Publication of CN111105451B publication Critical patent/CN111105451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种克服遮挡效应的驾驶场景双目深度估计方法。本方法构建了一种端到端的自监督深度神经网络模型,输入驾驶场景的左右视图的图像,输出左右视图对应的视差图。本方法利用深度神经网络模型输入和输出之间的几何约束关系训练模型,无需获取带有标注信息的数据样本,仅需使用双目摄像系统获取左右视图的图像对,极大地简化了工作流程,节省了经济成本,可以使模型训练更多类型场景的影像。本发明设计的双目估计方法能有效克服场景中重复图案纹理、前后物体遮挡等问题,可以获取较高精度的深度图像。

Description

一种克服遮挡效应的驾驶场景双目深度估计方法
技术领域
本发明涉及机器视觉和自动驾驶领域,具体涉及一种克服遮挡效应利用自监督深度学习技术的驾驶场景双目深度估计方法。
背景技术
随着人工智能技术的进步,自动驾驶得到了学术界和工业界的广泛研究,双目深度估计作为自动驾驶技术中一个重要部分,一直是研究热点。双目深度估计基于双目相机,拍摄左右两幅视图,从左右两幅视图得到对应的视差图,然后根据双目相机参数计算深度图像。
传统的双目深度估计采用立体匹配的方法,在左右两幅视图中寻找匹配的对应点。但是由于遮挡效应的存在,即左视图中出现的区域在右视图中被其它区域遮挡(或者右视图中出现的区域在左视图中被其它区域遮挡),会导致左右视图中出现无对应匹配的区域,也就是遮挡区域。这些遮挡区域无法估计深度,导致对应的深度图像出现空洞。并且遮挡区域还会影响非遮挡区域的估计精度。因此立体匹配的方法难以在驾驶场景下使用。
近年来,深度神经网络与立体匹配的结合使得双目深度估计的精度得到的极大提高。但是深度神经网络是一种有监督学习技术,需要大量带有标注的数据训练网络。然而,获取大量真实场景下的深度信息是极为困难的,并且成本高昂。现阶段可以利用双目相机系统的几何约束,通过神经网络输入的左(右)视图和输出的右(左)视差图,重建右(左)视图,将输入的左(右)视图和重建的左(右)视图的差异作为自监督信号,以此来训练网络模型。这种自监督训练机制虽然可以免去采集真实场景深度信息的麻烦,但是由于遮挡效应的存在,重建的视图是不可能和原始视图完全一致的,这会导致全局的精度下降。采取自监督方式训练的网络模型比有监督方式训练的网络模型精度会差很多。
发明内容
为解决上述背景技术中存在的问题,本发明实例提出一种克服遮挡效应利用自监督深度学习技术的驾驶场景双目深度估计方法。该实例包含一种具有灵活的特征交互能力的神经网络设计架构,和一种能克服遮挡效应的自监督神经网络训练机制。
本发明在利用神经网络输入的左(右)视图和输出的右(左)视差图重建右(左)视图的同时,生成左(右)遮挡掩码图。遮挡掩码图每一点的取值为0或1,Mi,j∈{0,1}。若左(右) 遮挡掩码图中,某一点Mi,j=0,表示左(右)视图中(i,j)该点在右(左)视图中存在对应的匹配点;若左(右)遮挡掩码图中,某一点Mi,j≠0,表示左(右)视图中(i,j)该点在右(左) 视图中不存在对应的匹配点。遮挡掩码图M中取值为0的部分即为被遮挡的区域,在训练网络优化损失函数时,去除遮挡区域的影响。
本发明的技术方案包含以下步骤:
步骤S1,构建图像数据集,所述数据集中的每一个样本包含一对,即左右2幅驾驶场景图像,不需要采集场景深度信息作为标注数据;
步骤S2,构建神经网络模型,该模型包括特征提取模块、代价创建模块、代价计算模块和视差回归模块;
步骤S3,构建一种克服遮挡效应的自监督训练方法:使用S1构建的图像数据集对步骤 S2构建的神经网络模型进行自监督训练,具体为:
利用双目相机的左(右)片估计右(左)片视差图,并结合基线距离计算得到右片和左片视图,同时预测遮挡区域,利用原始的左片和右片图像作为真值,结合遮挡区域掩码图构建损失函数,对网络进行训练;
步骤S4,利用步骤S3训练好的模型进行深度估计。
进一步地,上述步骤S1所述数据集中的每一个样本包含一对(左右两幅)驾驶场景视图。构建图像数据集的步骤具体如下:
步骤S1-1,将2台摄像机固定在车辆上方组成双目摄像系统,保证2台摄像机镜头处于同一平面水平对齐,且镜头光心基线距离为b,焦距为f。
步骤S1-2,在车辆行驶时,使用步骤S1-1所述双目摄像系统以均匀时间间隔同时拍摄场景,在城市道路、乡村道路、居住区域、郊野区域等多种场景下拍摄,采集得到2M幅驾驶场景图像;
步骤S1-3,通过S1-2采集得到M个图像对,每个图像对包含左视图和右视图2幅图像,将每对图像对的左视图和右视图校准,保证水平对齐,减少垂直方向偏差。
步骤S1-4,经过上面三步的处理,得到M个数据样本,每个数据样本包含2幅图像(左视图和右视图),本方法不需要额外采集深度信息作为标注;将M个数据样本作为图像数据集。
进一步地,上述步骤S2所述神经网络模型包括特征提取模块、代价创建模块、代价计算模块和视差回归模块4个组成部分。本发明所设计的神经网络架构如图1所示。
特征提取模块是2D全卷积网络,输入左右视图(H×W×3),输出左右视图的特征图Fr1和Fl1
Figure GDA0003623256940000031
代价创建模块将特征提取模块输出的左右视图的特征图
Figure GDA0003623256940000032
进行融合交互和升维扩展得到左右视图的特征体
Figure GDA0003623256940000033
具体过程如下。
将左右特征图
Figure GDA0003623256940000034
沿特征维拼接(concatenate),得到融合特征图
Figure GDA0003623256940000035
将融合特征图
Figure GDA0003623256940000036
输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA0003623256940000037
使用Relu激活)得到特征图A1
Figure GDA0003623256940000038
将特征图A1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA0003623256940000039
使用Relu激活)得到特征图A2
Figure GDA00036232569400000310
将融合特征图
Figure GDA00036232569400000311
输入一个卷积层(卷积核大小为5×1,卷积核个数为
Figure GDA00036232569400000312
使用Relu激活)得到特征图B1
Figure GDA00036232569400000313
将特征图B1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000314
使用Relu激活)得到特征图B2
Figure GDA00036232569400000315
将融合特征图
Figure GDA00036232569400000316
输入一个卷积层(卷积核大小为7×1,卷积核个数为
Figure GDA00036232569400000317
使用Relu激活)得到特征图C1
Figure GDA00036232569400000318
将特征图C1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000319
使用Relu激活)得到特征图C2
Figure GDA00036232569400000320
将融合特征图
Figure GDA00036232569400000321
输入一个卷积层(卷积核大小为9×1,卷积核个数为
Figure GDA00036232569400000322
使用Relu激活)得到特征图D1
Figure GDA00036232569400000323
将特征图D1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000324
使用Relu激活)得到特征图D2
Figure GDA00036232569400000325
将特征图A2
Figure GDA00036232569400000326
B2
Figure GDA00036232569400000327
C2
Figure GDA00036232569400000328
D2
Figure GDA00036232569400000329
升维得到特征体A3
Figure GDA00036232569400000330
B3
Figure GDA00036232569400000331
C3
Figure GDA00036232569400000332
D3
Figure GDA00036232569400000333
将左特征图Fl1
Figure GDA00036232569400000334
通过一个卷积层(卷积核大小为1×1,卷积核个数为
Figure GDA00036232569400000335
不使用激活函数)得到Fl2
Figure GDA0003623256940000041
将Fl2
Figure GDA0003623256940000042
扩展升维得到特征体Fl3
Figure GDA0003623256940000043
将Fl3、A3、B3、C3、D3拼接在一起得到左代价特征体 CostVolume(left)
Figure GDA0003623256940000044
将右特征图Fr1
Figure GDA0003623256940000045
通过一个卷积层(卷积核大小为1×1,卷积核个数为
Figure GDA0003623256940000046
不使用激活函数)得到Fr2
Figure GDA0003623256940000047
将Fr2
Figure GDA0003623256940000048
扩展升维得到特征体Fr3
Figure GDA0003623256940000049
将Fr3、A3、B3、C3、D3拼接在一起得到右代价特征体 CostVolume(right)
Figure GDA00036232569400000410
代价计算模块是多尺度3D全卷积网络,包括3D卷积层和3D反卷积层,它输入左右特征体Cost Volume
Figure GDA00036232569400000411
输出左右代价特征计算结果Cost Result(left)和 Cost Result(right)(D×H×W×1)。
视差回归模块输入左右代价特征计算结果Cost Result(D×H×W×1,降维到 D×H×W),输出左右视图对应的视差图(H×W)。计算方式如下:
Figure GDA00036232569400000412
这里,σ(·)表示二维softmax函数,Cd表示三维特征体(D×H×W)上D维索引为d的二维数据(H×W)。
进一步地,使用S1构建的图像数据集对步骤S2构建的神经网络模型进行自监督训练方法如下:如图2所示,神经网络模型输入左右两幅图像IL和IR,输出左右视差图DL和DR,使用DL和IR得到重建出的左视差图
Figure GDA00036232569400000416
和右视差图遮挡掩码图MR,使用DR和IL得到重建的右视差图
Figure GDA00036232569400000413
和左视差图遮挡掩码图ML。得到重建视差图和视差遮挡掩码图算法如下:
Figure GDA00036232569400000417
Figure GDA0003623256940000057
使用IL
Figure GDA0003623256940000053
ML和IR
Figure GDA0003623256940000054
MR构造自监督信号,使用如下损失函数:
loss=CL+CR
Figure GDA0003623256940000055
Figure GDA0003623256940000056
其中,α表示平衡系数。
上述步骤4通过步骤3获得的神经网络模型工作,输入左右视图,输出左右视差图,最终通过双目相机系统参数将左右视差图转换为左右深度图像。
本发明还设计了一种电子设备,其特殊之处在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的方法。
基于同一个设计理念,本发明还设计了一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述任一所述的方法。
本发明的优点:
1.本发明设计了一种新型的端到端的神经网络模型,它由特征提取模块、代价创建模块、代价计算模块和视差回归模块组成。其中代价创建模块我们使用了多尺度n×1卷积,具有很强的水平方向先验性和灵活的自适应性,能更加准确的处理左右视图信息的融合交互。
2.本发明创新地提出一种能有效克服遮挡效应的自监督神经网络训练机制。先前的自监督训练方法无法处理视图中出现的遮挡情况,导致估计的深度图像模糊不准。本实例所提出的自监督训练机制,无需人工标注场景深度信息,能有效处理遮挡效应,提高场景深度的估计精度。并且,利用所提出的训练方法,可以在线学习,增强网络在不同驾驶场景条件的鲁棒性。
附图说明
图1是本发明实例的神经网络模型架构图。
图2是本发明实例的自监督训练神经网络模型的示意图。
图3是本发明的工作流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和和特点说明更加清楚,下面结合本发明的附图,对本发明实施方式中的技术方案进行清晰、完整地描述。显然,所描述的实施方式是本发明实施方法中的一部分,而不是全部。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施方式,都属于本发明保护的范围。因此,以下对在本发明附图中所提供的消息描述并非旨在限制要求本发明的保护范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施方式,都属于本发明保护的范围。
本发明提供的方法设计了一种新型的神经网络模型,并提出了一种克服遮挡效应的的自监督训练机制。神经网络模型总体架构参见图1,自监督训练方法参见图2。其具体实施流程图参见图3,包含以下步骤。
步骤S1,构建图像数据集,所述数据集中的每一个样本包含一对(左右2幅)驾驶场景图像。具体实施过程说明如下。
步骤S1-1,将2台摄像机固定在车辆上方组成双目摄像系统,保证2台摄像机镜头处于同一平面,且镜头光心基线距离为b,焦距为f。
步骤S1-2,在车辆行驶时,使用步骤S1-1所述双目摄像系统以均匀时间间隔同时拍摄场景,在城市道路、乡村道路、居住区域、郊野区域等多种场景下拍摄,采集得到2M幅驾驶场景图像;
步骤S1-3,通过S1-2采集得到M个图像对,每个图像对包含左视图和右视图2幅图像,将每对图像对的左视图和右视图校准,保证水平对齐,减少垂直方向偏差。
步骤S1-4,经过上面三步的处理,得到M个数据样本,每个数据样本包含2幅图像(左视图和右视图),本方法不需要额外采集深度信息作为标注;将M个数据样本作为图像数据集。
优选地,取M=50000,则每个样本为{IL,IR},数据集为
Figure GDA0003623256940000061
步骤S2,构建深度学习网络模型,如附图1。该模型包括特征提取模块、代价创建模块、代价计算模块和视差回归模块。具体实施过程说明如下。
S2-1,特征提取模块是2D全卷积网络,输入左右视图(H×W×3),输出左右视图的特征图Fr1和Fl1
Figure GDA0003623256940000071
特征提取模块具体结构为:第1层为卷积层,输入左右视图2幅图像(H×W×3),卷积核大小为5×5,步长为2,卷积核个数是32;第2到17层为残差结构卷积块构成,每个残差块有2个卷积层,每层卷积核大小为3×3,步长为1,卷积核个数是32,每个残差块的输入经过跳层连接到残差块的输出,总共8个相同的残差块;第18层为卷积层,没有激活函数和Batch Norm,卷积核大小为3×3,步长为1,卷积核个数是32,得到左右视图对应的特征图Fr1和Fl1
Figure GDA0003623256940000072
S2-2,将上一步得到的左右视图的特征图Fr1和Fl1
Figure GDA0003623256940000073
输入代价创建模块,输出左右视图对应的代价特征体Cost Volume(
Figure GDA0003623256940000074
D表示支持的最大视差)。具体过程如下。
将左右特征图
Figure GDA0003623256940000075
沿特征维拼接(concatenate),得到融合特征图
Figure GDA0003623256940000076
将融合特征图
Figure GDA0003623256940000077
输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA0003623256940000078
使用Relu激活)得到特征图A1
Figure GDA0003623256940000079
将特征图A1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000710
使用Relu激活)得到特征图A2
Figure GDA00036232569400000711
将融合特征图
Figure GDA00036232569400000712
输入一个卷积层(卷积核大小为5×1,卷积核个数为
Figure GDA00036232569400000713
使用Relu激活)得到特征图B1
Figure GDA00036232569400000714
将特征图B1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000715
使用Relu激活)得到特征图B2
Figure GDA00036232569400000716
将融合特征图
Figure GDA00036232569400000717
输入一个卷积层(卷积核大小为7×1,卷积核个数为
Figure GDA00036232569400000718
使用Relu激活)得到特征图C1
Figure GDA00036232569400000719
将特征图C1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000720
使用Relu激活)得到特征图C2
Figure GDA00036232569400000721
将融合特征图
Figure GDA00036232569400000722
输入一个卷积层(卷积核大小为9×1,卷积核个数为
Figure GDA00036232569400000723
使用Relu激活)得到特征图D1
Figure GDA00036232569400000724
将特征图D1输入一个卷积层(卷积核大小为3×1,卷积核个数为
Figure GDA00036232569400000725
使用Relu激活)得到特征图D2
Figure GDA00036232569400000726
将特征图A2
Figure GDA0003623256940000081
B2
Figure GDA0003623256940000082
C2
Figure GDA0003623256940000083
D2
Figure GDA0003623256940000084
升维得到特征体A3
Figure GDA0003623256940000085
B3
Figure GDA0003623256940000086
C3
Figure GDA0003623256940000087
D3
Figure GDA0003623256940000088
将左特征图Fl1
Figure GDA0003623256940000089
通过一个卷积层(卷积核大小为1×1,卷积核个数为
Figure GDA00036232569400000810
不使用激活函数)得到Fl2
Figure GDA00036232569400000811
将Fl2
Figure GDA00036232569400000812
扩展升维得到特征体Fl3
Figure GDA00036232569400000813
将Fl3、A3、B3、C3、D3拼接在一起得到左代价特征体 CostVolume(left)
Figure GDA00036232569400000814
将右特征图Fr1
Figure GDA00036232569400000815
通过一个卷积层(卷积核大小为1×1,卷积核个数为
Figure GDA00036232569400000816
不使用激活函数)得到Fr2
Figure GDA00036232569400000817
将Fr2
Figure GDA00036232569400000818
扩展升维得到特征体Fr3
Figure GDA00036232569400000819
将Fr3、A3、B3、C3、D3拼接在一起得到右代价特征体 CostVolume(right)
Figure GDA00036232569400000820
S2-3,将上一步得到的代价特征体Cost Volume
Figure GDA00036232569400000821
输入代价计算模块,代价计算模块为3D全卷积网络,包含3D卷积和3D反卷积,得到左右视图对应的代价特征计算结果Cost Result(D×H×W×1);
代价计算模块包含19层:第1层为3D卷积,输入代价特征体,卷积核大小为3×3×3,步长为1,卷积核个数为32;第2层为3D卷积层,输入第2层输出,卷积核大小为3×3×3,步长为1,卷积核个数为32;第3层为3D卷积层,输入代价特征体,卷积核大小为3×3×3,步长为2,卷积核个数为64;第4层为3D卷积层,输入第3层输出,卷积核大小为3×3×3,步长为1,卷积核个数为64;第5层为3D卷积层,输入第4层输出,卷积核个数为3×3×3,步长为1,卷积核个数为64;第6层为3D卷积层,输入为第3层输出,卷积核大小为3×3×3,步长为2,卷积核个数为64;第7层为3D卷积层,输入为第6层输出,卷积核大小为3×3×3,步长为1,卷积核个数为64;第8层为3D卷积层,输入为第7层输出,卷积核大小为3×3×3,步长为1,卷积核个数为64;第9层为3D卷积层,输入为第6层输出,卷积核大小为3×3×3,步长为2,卷积核个数为64;第10层为3D卷积层,输入为第9层输出,卷积核大小为3×3×3,步长为1,卷积核个数为64;第11层为3D卷积层,输入为第10层的输出,卷积核大小为3×3×3,步长为1,卷积核个数为64;第12层为3D卷积层,输入为第9层的输入,卷积核大小为3×3×3,步长为2,卷积核个数为128;第13层为3D卷积层,输入为第12层的输出,卷积核大小为3×3×3步长为1,卷积核个数为128;第14层为3D卷积层,输入为第13层的输出,卷积核大小为3×3×3,步长为1,卷积核个数为128;第15层为3D反卷积层,输入为第14层的输出,卷积核大小为3×3×3,步长为2,卷积核个数为64;第16层为3D 反卷积层,输入为第15层和第11层的输出的残差和,卷积核大小为3×3×3,步长为2,卷积核个数为64;第17层为3D反卷积,输入为第16层和第8层输出的残差和,卷积核大小为3×3×3,步长为2,卷积核个数为64;第18层为3D反卷积,输入为第17层和第5 层输出的残差和,卷积核大小为3×3×3,步长为2,卷积核个数为32;第19层为3D反卷积层,输入为第18层和第2层输出的残差和,卷积核大小为3×3×3,步长为2,卷积核个数为1,输出左右视图对应的代价特征计算结果Cost Result(D×H×W×1)。
优选地,代价计算模块第1层至第18层使用激活函数和BatchNorm,第19层不使用激活函数和Batch Norm。
S2-4,将上一步得到的左右视图对应的代价特征计算结果Cost Result(D×H×W×1,降维到D×H×W)输入视差回归模块,得到左右视图对应的视差图(H×W)。计算方式如下:
Figure GDA0003623256940000091
这里,σ(·)表示二维softmax函数,Cd表示三维特征体(D×H×W)上D维索引为d的二维数据(H×W)。
步骤S3,所述使用S1构建的图像数据集对步骤S2构建的神经网络模型进行自监督训练方法,详细说明如下。
神经网络模型输入左右两幅图像IL和IR,输出左右视差图DL和DR,使用DL和IR得到重建出的左视差图
Figure GDA0003623256940000092
和右视差图遮挡掩码图MR,使用DR和IL得到重建的右视差图
Figure GDA0003623256940000093
和左视差图遮挡掩码图ML。得到重建视差图和视差遮挡掩码图算法如下:
Figure GDA0003623256940000096
Figure GDA0003623256940000109
使用IL
Figure GDA0003623256940000103
ML和IR
Figure GDA0003623256940000104
MR构造自监督信号,使用如下损失函数:
loss=CL+CR
Figure GDA0003623256940000105
Figure GDA0003623256940000106
其中,α表示平衡系数。
步骤S4,利用步骤S3训练好的深度学习模型,输入的左右两视图的驾驶场景图像,得到左右两视图对应的视差图。通过如下公式,可以得到左右视图像素点到摄像机平面的距离z:
Figure GDA0003623256940000107
这里,b表示双目摄像系统的基线距离,f表示双目摄像系统的焦距。
本发明还设计了一种电子设备,其特殊之处在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的方法。
基于同一个设计理念,本发明还设计了一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述任一所述的方法。
本发明的优点:
1.本发明设计了一种新型的端到端的神经网络模型,它由特征提取模块、代价创建模块、代价计算模块和视差回归模块组成。其中代价创建模块我们使用了多尺度n×1卷积,具有很强的水平方向先验性和灵活的自适应性,能更加准确的处理左右视图信息的融合交互。
2.本发明创新地提出一种能有效克服遮挡效应的自监督神经网络训练机制。先前的自监督训练方法无法处理视图中出现的遮挡情况,导致估计的深度图像模糊不准。本实例所提出的自监督训练机制,无需人工标注场景深度信息,能有效处理遮挡效应,提高场景深度的估计精度。并且,利用所提出的训练方法,可以在线学习,增强网络在不同驾驶场景条件的鲁棒性。

Claims (6)

1.一种克服遮挡效应的驾驶场景双目深度估计方法,包含以下步骤:
步骤S1,构建图像数据集,所述数据集中的每一个样本包含一对,即左右2幅驾驶场景图像,不需要采集场景深度信息作为标注数据;
步骤S2,构建神经网络模型,该模型包括特征提取模块、代价创建模块、代价计算模块和视差回归模块;
其中,所述代价创建模块将特征提取模块输出的左右视图的特征图进行融合交互和升维扩展得到左右视图的代价特征体;
代价计算模块是多尺度3D全卷积网络,包括3D卷积层和3D反卷积层,其输入为代价创建模块的左右代价特征体,输出左右代价特征计算结果;
步骤S3,构建一种克服遮挡效应的自监督训练方法:使用S1构建的图像数据集对步骤S2构建的神经网络模型进行自监督训练,具体为:
利用双目相机的左片估计右片视差图,并利用双目相机的右片估计左片视差图,并结合基线距离计算得到右片和左片视图深度值,同时预测遮挡区域,利用原始的左片和右片图像作为真值,结合遮挡区域掩码图构建损失函数,对网络进行训练;
构建的损失函数为:
loss=CL+CR
Figure FDA0003702667380000011
Figure FDA0003702667380000012
其中,α表示平衡系数,神经网络模型输入左右两幅图像IL和IR,输出左右视差图DL和DR,使用DL和IR得到重建出的左视差图
Figure FDA0003702667380000013
和右视差图遮挡掩码图MR,使用DR和IL得到重建的右视差图
Figure FDA0003702667380000014
和左视差图遮挡掩码图ML
步骤S4,利用步骤S3训练好的模型进行深度估计。
2.根据权利要求1所述的克服遮挡效应的驾驶场景双目深度估计方法,其特征在于:所述步骤S1具体为:
步骤S1-1,将2台摄像机固定在车辆上方组成双目摄像系统,保证2台摄像机镜头处于同一平面,且镜头光心基线距离为b,焦距为f;
步骤S1-2,在车辆行驶时,使用步骤S1-1所述双目摄像系统以均匀时间间隔同时拍摄场景,在包括城市道路、乡村道路、居住区域、郊野区域的多种场景下拍摄,采集得到2M幅驾驶场景图像;
步骤S1-3,通过S1-2采集得到M个图像对,每个图像对包含左视图和右视图2幅图像,将每对图像对的左视图和右视图校准,保证水平对齐,减少垂直方向偏差;
步骤S1-4,经过上面三步的处理,得到M个数据样本,每个数据样本包含2幅图像,左视图和右视图;不需要额外采集深度信息作为标注;将M个数据样本作为图像数据集。
3.根据权利要求1所述的克服遮挡效应的驾驶场景双目深度估计方法,其特征在于:所述构建的神经网络结构如下:
特征提取模块是2D全卷积网络,输入左右视图H×W×3,输出左右视图的特征图Fr1和Fl1,Fl1为
Figure FDA0003702667380000021
代价创建模块将特征提取模块输出的左右视图的特征图
Figure FDA0003702667380000022
进行融合交互和升维扩展得到左右视图的代价特征体
Figure FDA0003702667380000023
具体过程如下:
将左右特征图
Figure FDA0003702667380000024
沿特征维拼接,得到融合特征图
Figure FDA0003702667380000025
将融合特征图
Figure FDA0003702667380000026
输入一个卷积层得到特征图A1,A1为
Figure FDA0003702667380000027
该卷积层卷积核大小为3×1,卷积核个数为
Figure FDA0003702667380000028
使用Relu激活;将特征图A1输入一个卷积层得到特征图A2,A2为
Figure FDA0003702667380000029
该处卷积层卷积核大小为3×1,卷积核个数为
Figure FDA00037026673800000210
使用Relu激活;
将融合特征图
Figure FDA00037026673800000211
输入一个卷积层得到特征图B1,B1为
Figure FDA00037026673800000212
该处卷积层卷积核大小为5×1,卷积核个数为
Figure FDA00037026673800000213
使用Relu激活;将特征图B1输入一个卷积层得到特征图B2,B2为
Figure FDA00037026673800000214
该处卷积层卷积核大小为3×1,卷积核个数为
Figure FDA00037026673800000215
使用Relu激活;
将融合特征图
Figure FDA00037026673800000216
输入一个卷积层得到特征图C1,C1为
Figure FDA00037026673800000217
该处卷积层卷积核大小为7×1,卷积核个数为
Figure FDA00037026673800000218
使用Relu激活;将特征图C1输入一个卷积层得到特征图C2,C2为
Figure FDA00037026673800000219
该处卷积层卷积核大小为3×1,卷积核个数为
Figure FDA00037026673800000220
使用Relu激活;
将融合特征图
Figure FDA0003702667380000031
输入一个卷积层得到特征图D1,D1为
Figure FDA0003702667380000032
该处卷积层卷积核大小为9×1,卷积核个数为
Figure FDA0003702667380000033
使用Relu激活;将特征图D1输入一个卷积层得到特征图D2,D2为
Figure FDA0003702667380000034
该处卷积层卷积核大小为3×1,卷积核个数为
Figure FDA0003702667380000035
使用Relu激活;
将特征图A2、B2、C2、D2升维得到特征体A3、B3、C3、D3,其中A3为
Figure FDA0003702667380000036
Figure FDA0003702667380000037
B3为
Figure FDA0003702667380000038
C3为
Figure FDA0003702667380000039
D3为
Figure FDA00037026673800000310
将左特征图Fl1通过一个卷积层得到Fl2,Fl2为
Figure FDA00037026673800000311
该处卷积层卷积核大小为1×1,卷积核个数为
Figure FDA00037026673800000312
不使用激活函数;将Fl2扩展升维得到特征体Fl3,Fl3为
Figure FDA00037026673800000313
将Fl3、A3、B3、C3、D3拼接在一起得到左代价特征体
Figure FDA00037026673800000314
将右特征图Fr1通过一个卷积层得到Fr2,右特征图Fr1为
Figure FDA00037026673800000315
得到的Fr2为
Figure FDA00037026673800000316
该处卷积层卷积核大小为1×1,卷积核个数为
Figure FDA00037026673800000317
不使用激活函数;将Fr2扩展升维得到特征体Fr3,Fr3为
Figure FDA00037026673800000318
将Fr3、A3、B3、C3、D3拼接在一起得到右代价特征体
Figure FDA00037026673800000319
代价计算模块是多尺度3D全卷积网络,包括3D卷积层和3D反卷积层,它输入左右代价特征体
Figure FDA00037026673800000320
输出左右代价特征计算结果;
视差回归模块输入左右代价特征计算结果D×H×W×1,降维到D×H×W,输出左右视图对应的视差图H×W,计算方式如下:
Figure FDA00037026673800000321
这里,σ(·)表示二维softmax函数,Cd表示三维特征体D×H×W上D维索引为d的二维数据H×W。
4.根据权利要求1所述的克服遮挡效应的驾驶场景双目深度估计方法,其特征在于:重建视差图和视差遮挡掩码图算法具体为:
输入:参考视图的图像Ireference,目标视图的视差图Dtarget
输出:目标视图的重建图像
Figure FDA00037026673800000322
参考视图的遮挡掩码图Mreference
初始值:Mreference=0
循环图像的每列i:
循环图像的每行j:
通过Dtarget得到与
Figure FDA0003702667380000041
像素点水平坐标j对应的Ireference的水平坐标jwarp
如果0<jwarp≤图像宽度:
将Ireference在(jwarp,i)处的像素值赋给
Figure FDA0003702667380000042
的(j,i)处
Mreference在(jwarp,i)处的像素值增加1
否则:
Figure FDA0003702667380000043
的(j,i)处像素值赋值为0。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
6.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201911053032.7A 2019-10-31 2019-10-31 一种克服遮挡效应的驾驶场景双目深度估计方法 Active CN111105451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911053032.7A CN111105451B (zh) 2019-10-31 2019-10-31 一种克服遮挡效应的驾驶场景双目深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911053032.7A CN111105451B (zh) 2019-10-31 2019-10-31 一种克服遮挡效应的驾驶场景双目深度估计方法

Publications (2)

Publication Number Publication Date
CN111105451A CN111105451A (zh) 2020-05-05
CN111105451B true CN111105451B (zh) 2022-08-05

Family

ID=70420589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911053032.7A Active CN111105451B (zh) 2019-10-31 2019-10-31 一种克服遮挡效应的驾驶场景双目深度估计方法

Country Status (1)

Country Link
CN (1) CN111105451B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160294B (zh) * 2021-03-31 2022-12-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113313740B (zh) * 2021-05-17 2023-01-31 北京航空航天大学 一种基于平面连续性的视差图和表面法向量联合学习方法
CN113344997B (zh) * 2021-06-11 2022-07-26 方天圣华(北京)数字科技有限公司 快速获取只含有目标对象的高清前景图的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523464A (zh) * 2011-12-12 2012-06-27 上海大学 一种双目立体视频的深度图像估计方法
CN103702103A (zh) * 2014-01-10 2014-04-02 武汉大学 基于双目相机的光栅立体印刷图像合成方法
KR20160130629A (ko) * 2015-05-04 2016-11-14 삼성전자주식회사 양안 시차 영상에 대한 렌더링 방법 및 장치
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108961327A (zh) * 2018-05-22 2018-12-07 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN109087346A (zh) * 2018-09-21 2018-12-25 北京地平线机器人技术研发有限公司 单目深度模型的训练方法、训练装置和电子设备
CN109472819A (zh) * 2018-09-06 2019-03-15 杭州电子科技大学 一种基于级联几何上下文神经网络的双目视差估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523464A (zh) * 2011-12-12 2012-06-27 上海大学 一种双目立体视频的深度图像估计方法
CN103702103A (zh) * 2014-01-10 2014-04-02 武汉大学 基于双目相机的光栅立体印刷图像合成方法
KR20160130629A (ko) * 2015-05-04 2016-11-14 삼성전자주식회사 양안 시차 영상에 대한 렌더링 방법 및 장치
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108961327A (zh) * 2018-05-22 2018-12-07 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN109472819A (zh) * 2018-09-06 2019-03-15 杭州电子科技大学 一种基于级联几何上下文神经网络的双目视差估计方法
CN109087346A (zh) * 2018-09-21 2018-12-25 北京地平线机器人技术研发有限公司 单目深度模型的训练方法、训练装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DeepStereo: Learning to Predict New Views from the World’s Imagery;John Flynn etAl.;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161231;第5515-5524页 *
End-to-End Learning of Geometry and Context for Deep Stereo Regression;Alex Kendall et al;《2017 IEEE International Conference on Computer Vision》;20171231;第66-75页 *
基于深度卷积神经网络的双目立体视觉匹配算法;肖进胜 等;《光学学报》;20180831;第38卷(第8期);第0815017-1—0815017-7页 *

Also Published As

Publication number Publication date
CN111105451A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
US11100401B2 (en) Predicting depth from image data using a statistical model
CA3121440C (en) Assembly body change detection method, device and medium based on attention mechanism
Vaudrey et al. Differences between stereo and motion behaviour on synthetic and real-world stereo sequences
Liu et al. Continuous depth estimation for multi-view stereo
CN111105451B (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN109472828B (zh) 一种定位方法、装置、电子设备及计算机可读存储介质
Wedel et al. Detection and segmentation of independently moving objects from dense scene flow
CN111524233B (zh) 一种静态场景动态目标的三维重建方法
CN106447661A (zh) 一种深度图快速生成方法
Kumari et al. A survey on stereo matching techniques for 3D vision in image processing
Ji et al. SurfaceNet+: An end-to-end 3D neural network for very sparse multi-view stereopsis
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN101765019A (zh) 一种用于运动模糊和光照变化图像的立体匹配方法
CN103927787A (zh) 一种基于矩阵恢复的提高三维重建精度的方法及其装置
Ramirez et al. Open challenges in deep stereo: the booster dataset
Chen et al. Shape prior guided instance disparity estimation for 3d object detection
CN116468769A (zh) 一种基于图像的深度信息估计方法
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN115482268A (zh) 一种基于散斑匹配网络的高精度三维形貌测量方法与系统
Huang et al. ES-Net: An efficient stereo matching network
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
CN102567992B (zh) 遮挡区域的图像匹配方法
Mathew et al. Monocular depth estimation with SPN loss
Harisankar et al. Unsupervised depth estimation from monocular images for autonomous vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant