CN113936139A

CN113936139A - 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统

Info

Publication number: CN113936139A
Application number: CN202111271617.3A
Authority: CN
Inventors: 蔡英凤; 饶中钰; 滕成龙; 刘泽; 罗彤; 刘擎超; 李祎承; 孙晓强; 陈龙; 王海
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-14
Anticipated expiration: 2041-10-29
Also published as: CN113936139B

Abstract

本发明公开了一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统,首先通过立体匹配模型得到深度图，随后采用语义分割模型得到前置语义分割图，将深度图与语义分割图坐标变换，得到具有类别信息的伪点云，并保留其鸟瞰图视角的类别信息，最后通过深度对抗模型对于图像中的空洞区域进行填充，得到最终语义鸟瞰图。本发明利用双目摄像头，能够有效进行前方区域鸟瞰图重建，为指导后续规划控制提供有效信息；在提取语义分割信息时，采用RGB‑D语义分割算法，充分利用RGB信息与前端深度估计模型的深度信息，进一步完善语义分割信息，选用生成对抗网络进行空洞及遮挡部分的信息修复和填充，丰富鸟瞰图图像的信息，提升重构鸟瞰图图像的精度。

Description

一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统

技术领域

本发明属于智能车自动驾驶领域，涉及一种立体匹配与语义分割的摄像头重构鸟瞰图方法及系统。

背景技术

随着深度学习与人工智能的快速发展，自动驾驶成为目前热门的研究方向。自动驾驶系统大致由环境感知模块，决策规划模块以及控制模块等组成。其中作为上游的环境感知模块需要快速高效的获取周边环境有效信息，包括障碍物、车辆、道路以及车道线等，并将提取到的信息输出到下游规划决策模块。因此，如何准确详细的获取周边有效信息，并选取有效的表征方式是自动驾驶环境感知领域的一个重要研究方向。

语义鸟瞰图是一种从上帝视角获取周边环境信息，并针对每个像素点进行分类得到的表征方式。相较于传统的前置摄像头，语义鸟瞰简洁高效的突出周围障碍物、道路以及车道线的位置以及类别信息。目前，语义鸟瞰图常常作为轨迹预测、行为规划等任务的模型输入。然而，目前的语义鸟瞰图大都采用人为标定的方式，成本过高，无法满足任意场景自动驾驶的需求。目前部分学者尝试利用激光雷达构建鸟瞰图，激光雷达可以很好的获得距离信息，然而其成本昂贵，且其具有分辨率低无法检测车道线，红绿灯状况等缺点。

发明内容

鉴于上述问题，本发明提出一种基于视觉结合深度信息与语义信息的语义鸟瞰图重构方法及系统，通过立体匹配算法构建深度图，采用语义分割算法得到前置语义分割图，将深度图与对应语义分割图进行坐标变换，得到具有类别信息的伪点云，并保留其鸟瞰图视角的类别信息，最后通过深度对抗模型对于图像中的空洞区域进行填充，得到最终的语义鸟瞰图。

一种基于前置摄像头结合立体匹配、语义分割算法的语义鸟瞰图重构系统主要包括四部分：1、立体匹配模型模块：用于得到深度图。2、RGB-D语义分割模型模块：用于得到语义分割图。3、获取伪点云及初步鸟瞰图的模块：结合深度图与语义分割图得到带有类别信息的伪点云，并利用坐标变换得到初步鸟瞰图信息。4、初步鸟瞰图填充模块：利用深度对抗学习模型对鸟瞰图空洞部分进行填充得到最终的鸟瞰图。

具体包括以下内容：

所述立体匹配模型采用自适应立体匹配网络作为基本模型，将前置摄像头的左右视图采集的RGB图像I_L,I_R作为模型输入，模型输出为左视图输入对应的视差预测值D_L。整体模型主要包括特征提取、匹配代价计算，代价聚合以及视差优化四个部分。

进一步的为提高模型准确率，采用多层堆叠、密集连接的上采样下采样层对输入左右视图进行特征提取，同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图，得到F_L1,F_L2,F_L3,F_R1,F_R2,F_R3。所述匹配代价计算采用基于相关性的三维的代价匹配，所述的代价聚合模块为自适应聚合模块，通过稀疏点采样的方式进行高效聚合，主要包括同尺度聚合方法和跨尺度聚合方法。

进一步，所述的RGB-D语义分割模型为基于分离以及聚合的网络模型架构，首先利用上述预测得到的深度图转化为水平差异，对地高度以及表面法向量角度的三通道图像HHA，再将左视图RGB图像I_L以及重构的三通道深度图HHA输入到模型中，本发明采用的模型其编码器结构主要为四个跨模态引导的特征提取模块，采用的解码器结构为Deeplabv3模型中的编码网络模块。

进一步的本发明利用得到的深度图以及语义分割图像得到伪语义点云图像，即对于每一个输入图像像素点都可以得到三维空间中对应的坐标以及其类别信息{xⁱ,yⁱ,zⁱ,vⁱ}，随后依据所选取范围以及最终生成鸟瞰图大小，去除三维信息的高度信息得到初步鸟瞰图，本发明选取范围为40m,鸟瞰图大小为512，依据公式P(xⁱ*40/512,zⁱ*40/512)＝vⁱ得到所有点的类别信息，同时受限于深度图分辨率以及遮挡区域，鸟瞰图中会有一些无法观察到的点，对这类点取值为0。

进一步的为填充上述空洞信息，本发明初步鸟瞰图填充模块采用基于生成对抗的图像修复算法进行空洞填充。首先将伪鸟瞰图中的空洞区域提取出，作为掩膜M_ask，结合鸟瞰图标签B_EV构造图像修复模型的数据集，其次构造对抗的图像修复模型，并将鸟瞰图标签与掩膜结合后的图像输入到基于生成对抗的图像修复模型进行模型训练，从而得到最终的鸟瞰图预测结果。

本发明提出的场景鸟瞰图重构方法将在下面具体实施例部分作详细描述。

本发明的有益效果为：

1、本发明通过采用前置双目摄像头作为输入，结合立体匹配、语义分割以及生成对抗网络算法，对前方区域进行语义鸟瞰图重建。通过摄像头取代激光雷达，极大的降低了重构鸟瞰图的成本，同时利用网络得到的语义信息与深度信息，能够详细的提取出前方道路、车道线、障碍物以及红绿灯等信息，为后续决策规划提供有效信息。

2、本发明在提取语义分割信息时，采用RGB-D语义分割算法，充分利用RGB信息与前端深度估计模型的深度信息，能够进一步完善语义分割信息，加强网络模块之间的联系，提高语义分割的精度。

3、本发明在初步得到语义鸟瞰图图像时，选用生成对抗网络进行空洞以及遮挡部分的信息修复和填充，丰富鸟瞰图图像的信息，提升重构鸟瞰图图像的精度。

附图说明

图1为基于立体匹配与语义分割结合的摄像头重构语义鸟瞰图方法流程图；

图2为自适应立体匹配网络结构图；

图3为RGB-D网络流程图。

图4为生成对抗网络结构图。

具体实施方式

下面结合附图对本发明作进一步说明。

图1为基于立体匹配与语义分割结合的摄像头重构语义鸟瞰图方法流程图，主要包括如下步骤：

(1)制作数据集：鉴于传统语义鸟瞰图不易于获得，借助CARLA仿真模拟器，设置同一竖直方向，水平方向基线偏差50cm的左右两摄像头,采集对应的RGB图像I_L,I_R，深度图标签D_L,D_R，语义分割图标签s_L,s_R以及鸟瞰图标签B_EV。其中数据集基本信息如下表所示

(2)搭建立体匹配模型，本发明采用自适应立体匹配网络作为基本模型，具体网络结构如附图2所示。其中，模型的输入为步骤(1)中数据集的左右前置摄像头RGB图像I_L,I_R，模型的输出为I_L对应的视差预测值D_sL，进一步根据下列公式：求得最终的深度图D_pL：

其中B代表摄像头基线的距离，F_O代表摄像头在图片像素上的焦距。

本发明采用的立体匹配网络主要包括特征提取、匹配代价计算，代价聚合以及视差优化四个部分。其中特征提取模块采用堆叠沙漏的网络架构，通过多层堆叠、密集连接的上采样下采样层对输入左右图像进行特征提取，同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图，从而得到左右视图对应的特征图F_L1,F_L2,F_L3,F_R1,F_R2,F_R3，其中左右视图采用权重共享的方式进行训练，随后将得到的特征图采用基于相关性的方法构造出三维的代价匹配模块其计算公式如下：

其中<·,·>代表两个元素之间求点积，C(d,p)代表在像素点p处的关于视差d的匹配代价，F_Ls(p),F_Rs(p)分别为在像素点周围第s层特征图。

对于代价聚合模块，本发明采用自适应聚合模块,通过稀疏点采样的方式进行高效聚合主要包括同尺度聚合和跨尺度聚合。

同尺度聚合，即只针对相同分辨率的特征图进行代价聚合计算，公式如下所示：

其中

代表在像素p处的代价聚合，k²代表在像素点p周围的采样个数，w_k是第k个像素点的聚合权重，p_k是像素点的固定偏置，m_k,Δp_k是通过可变性卷积学习到的位置权重以及固定偏置，C(·)代表公式(1)中的匹配代价函数。

跨尺度聚合，则是用于聚合不同尺度特征图，通过不同尺度的自适应聚合模块，能够有效详细的弥补不同尺度之间的聚合误差。其具体公式如下：

其中

代表第S层跨尺度聚合之后的聚合代价，

代表第k个尺度经过同尺度聚合之后的匹配代价，式(4)中第一项代表恒等映射，第二项代表经过s-k个步长为2的3*3卷积操作，第三项代表先经过一个双线性插值以及一个上采样操作后接1*1卷积操作。

对于立体匹配整体的损失函数采用多尺度的L1损失函数定义为：

其中λ_i代表不同尺度下预测的权重，

代表第i个尺度下视差预测值以及真值,N代表所有像素点个数。

(3)搭建RGB-D语义分割模型,为提高语义分割模型预测的准确性，本发明进一步利用(2)中得到的深度信息，搭建了基于RGB-D的语义分割模型。本发明选用一种基于分离以及聚合的模型架构(SA-Net)，模型结构如附图3所示。为提高模型预测精度，首先利用(3)中获得的深度图D_pL转化为水平差异，对地高度以及表面法向量的角度的三通道图像HHA，模型的输入为左视图RGB图像I_L以及重构的三通道深度图HHA，输出为对应的语义分割图S_pL。

本发明采用的模型其编码器结构主要为四个跨模态引导的特征提取模块，采用的解码器结构为Deeplabv3模型中的编码网络模块。

其中跨模态引导部分采用SA-GATE，其具体结构如附图3所示，主要包括特征分离以及特征聚合两个部分。特征分离部分主要完成对于深度信息以及RGB图像进行校准，具体操作为首先通拼接两种模态得到全局信息，随后通过全局平均池化以及多层感知机得到整体的注意力向量，具体计算公式如下：

WWA＝σ(F_MLP(F_GP(RGB_in,HHA_in)) (7)

WWA代表最终得到的注意力向量，σ代表sigmoid激活函数，F_GP(·)代表全局平均池化，F_MLP(·)代表多层感知机，随后将得到的注意力向量与深度特征图进行通道相乘得到矫正后的深度特征图D_fileter,以及矫正后的RGB特征图RGB_rec：

RGB_rec＝D_fileter+I_L (9)

代表通道相乘，特征聚合模块首先将重新矫正后的D_fileter以及RGB_rec进行重新拼接，随后通过1*1卷积进行映射得到两个不同的门控注意力G_rgb,G_depth，并将其输入到一个softmax层得到软注意力权重A_rgb，A_depth，将其分别与原始RGB特征层输入和深度特征层输入做点乘，得到最终的输出M，计算公式如下：

M＝RGB_in·A_rgb+HHA_in·A_dep (11)

在得到特征图M之后，将其与原始特征图取平均并将其输入下一个特征提取模块，经过四个特征提取模块后输出到解码器即可得到最终的预测语义分割图S_pL。

(4)通过坐标变换得到伪语义点云图像：根据上述步骤(2)(3)得到左视图I_L对应的模型预测的深度图D_pL以及语义分割图S_pL，首先得到左视图I_L每一个点(u,v)对应的深度信息d以及语义信息v,因此可以得到一系列点的组合

其中N代表像素点的个素,随后采用坐标变换得到在卡迪尔坐标下一系列伪语义点云信息

计算公式如下：

zⁱ＝dⁱ (12)

其中f_U,f_V分别代表横向、纵向的焦距长度(坐标为像素)，C_U,C_V代表图像中心点的坐标。

在得到伪语义点云信息后，根据设定鸟瞰图观察距离，选取距离内所有的点，构造新的鸟瞰图图像并设置每像素点值代表其类别信息，本发明选取纵向范围为[0,40],横向范围为[-20,20],鸟瞰图大小为(512*512)，因此对鸟瞰图P_SL中每个点其类别计算公式如下，

P(xⁱ*40/512,zⁱ*40/512)＝vⁱ (15)

P(othres)＝0 (16)

即对于鸟瞰图范围内存在的点，其像素点信息为其类别信息，对于其他点(遮挡区域以及受深度图分辨率设置的区域)其类别信息为0，重复上述操作，遍历范围内所有的点，从而得到最终的伪语义点云图像P_SL。

(5)对于(4)中生成的伪语义点云图像P_SL常常存在许多空洞的情况，本发明选用基于生成对抗的图像修复算法进行空洞填充。具体步骤如下：首先将伪语义点云图像P_SL中的空洞区域提取出，作为掩膜M_ask，结合鸟瞰图标签B_EV构造图像修复模型的数据集，其次将鸟瞰图标签与掩膜结合后的图像用Canny边缘检测得到边缘图；随后构造基于生成对抗的图像修复模型，本发明采用基于EdgeConnect模型作为图像修复的主干网络，其网络结构如附图4所示，主要包括两个生成器以及两个判别器，第一生成器将灰图像，掩膜以及边缘图作为输入，用于生成完整的边缘图，可由下列公式表示：

C^pred＝G₁(B_gray,C_gt,M_ask) (17)

其中G₁代表第一生成器，B_gray代表输入鸟瞰图的灰度图像,C^pred代表生成的边缘图，C_gt代表正式的边缘图，M_ask代表掩膜图像。

第一判别器则用于判别生成边缘图是否真实，其判断依据为对抗损失L_adv和特征损失L_FM，计算公式如下：

其中G₁为第一生成器，D₁为第一判别器，γ_adv,1代表对抗损失的权重，γ_FM表示特征损失权重，对抗损失与特征损失的计算公式如下

表示真实数据的概率，

表示生成数据的概率，其中L特征层的个数，N_i代表在第i个特征层的像素点个数。

第二生成器将生成的边缘图与带掩膜的原始图像输入到生成器中，用于生成最终的预测结果,可由下式来表示：

BEV^pred＝G₂(B_EV,C^pred) (20)

其中G₂表示第二生成器，B_EV代表鸟瞰图标签，C^pred代表第一个生成器的生成结果，再将其结果用于第二判别器进行判别训练，其损失函数为：

经过上述模型处理，最终可得到完整的鸟瞰图图像BEV^pred。上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，包括：用于获得深度图的立体匹配模型模块、用于获得语义分割图的语义分割模型模块、伪点云获取模块、初步鸟瞰图获取模块、初步鸟瞰图填充模块；

所述立体匹配模型：采用自适应立体匹配网络作为基本模型，将前置摄像头的左右视图采集的RGB图像I_L，I_R作为模型输入，模型输出为左视图对应的视差图D_sL，进一步的可以由视差图得到深度图D_pL；

所述语义分割模型：采用基于分离以及聚合的SA-Net网络模型架构，首先将立体匹配模型预测得到的深度图D_pL转化为水平差异、对地高度以及表面法向量角度的三通道图像HHA，再将左视图RGB图像I_L以及重构的三通道深度图HHA输入到该模型中，获取预测语义分割图S_pL；

所述伪点云获取模块：对于每一个输入图像像素点都得到三维空间中对应的坐标以及其类别信息{xⁱ，yⁱ，zⁱ，vⁱ}，得到伪语义点云信息；

所述初步鸟瞰图获取模块：根据获取的伪语义点云信息，依据选取范围以及最终生成鸟瞰图大小，去除三维信息的高度信息得到伪语义点云图像P_SL，即为初步鸟瞰图；

所述初步鸟瞰图填充模块：基于生成对抗的图像修复算法对初步鸟瞰图进行空洞填充，获取完整的鸟瞰图结果。

2.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述立体匹配模型包括特征提取、匹配代价计算，代价聚合以及视差优化四个部分；

所述特征提取部分采用堆叠沙漏的网络架构，通过多层堆叠、密集连接的上采样下采样层对输入左右视图进行特征提取，同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图，得到左右视图对应的特征图F_L1，F_L2，F_L3，F_R1，F_R2，F_R3；其中左右视图采用权重共享的方式进行训练；

所述匹配代价计算部分采用基于相关性的三维的代价匹配；计算公式如下：

其中<·，·>代表两个元素之间求点积，C(d，h，w)代表在(h，w)处的关于视差d的匹配代价，F_Ls(h，w)，F_Rs(h，w)分别为在(h，w)周围第s层特征图；

所述代价聚合部分为自适应聚合模块，通过稀疏点采样的方式进行高效聚合，主要包括同尺度聚合和跨尺度聚合。

3.根据权利要求2所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述同尺度聚合，是指只针对相同分辨率的特征图进行代价聚合计算，公式如下所示：

其中

代表在像素p处的代价聚合，k²代表在像素点p周围的采样个数，w_k是第k个像素点的聚合权重，p_k是像素点的固定偏置，m_k，Δp_k是通过可变性卷积学习到的位置权重以及固定偏置，C(·)代表公式(1)中的匹配代价函数；

所述跨尺度聚合，是指用于聚合不同尺度的特征图，通过不同尺度的自适应聚合，弥补不同尺度之间的聚合误差，具体公式如下：

其中

代表跨尺度聚合之后的聚合代价，

4.根据权利要求2或3所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述立体匹配模型的损失函数采用多尺度的L1损失函数，具体为：

其中λ_i代表不同尺度下预测的权重，

代表第i个尺度下视差预测值以及真值。

5.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述语义分割模型，采用的编码器结构为四个跨模态引导的特征提取模块，采用的解码器结构为Deeplabv3模型中的编码网络模块；具体如下：

所述跨模态引导的特征提取模块采用SA-GATE，包括特征分离以及特征聚合两个部分；

特征分离部分：用于完成对于深度信息以及RGB图像进行校准，具体操作为：

首先通拼接两种模态得到全局信息，随后通过全局平均池化以及多层感知机得到整体的注意力向量，具体计算公式如下：

WWA＝σ(F_MLP(F_GP(RGB_in，HHA_in)) (5)

WWA代表最终得到的注意力向量，σ代表sigmoid激活函数，P_GP(·)代表全局平均池化，F_MLP(·)代表多层感知机；

随后将得到的注意力向量与深度特征图进行通道相乘得到矫正后的深度特征图D_fileter，以及矫正后的RGB特征图RGB_rec：

RGB_rec＝D_fileter+I_L (7)

特征聚合部分：首先将重新矫正后的D_fileter以及RGB_rec进行重新拼接，随后通过1*1卷积进行映射得到两个不同的门控注意力G_rgb，G_depth，并将其输入到一个softmax层得到软注意力权重A_rgb，A_depth，将其分别与原始RGB特征层输入和深度特征层输入做点乘，得到最终的输出M，计算公式如下：

M＝RGB_in·A_rgb+HHA_in·A_depth (9)

在得到特征图之后将其与原始特征图取平均并将其输入下一个特征提取模块，经过四个特征提取模块后输出到解码器即可得到最终的预测语义分割图S_pL。

6.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述伪点云获取模块：根据左视图I_L对应的模型预测深度图D_pL以及语义分割预测图S_pL，首先得到左视图I_L每一个点(u，v)对应的深度信息d以及语义信息v，因此可以得到一系列点的组合

其中N代表像素点的个素，随后采用坐标变换得到在卡迪尔坐标下一系列伪语义点云信息

计算公式如下：

zⁱ＝dⁱ (9)

其中f_U，f_V分别代表横纵方向的焦距长度(坐标为像素)，C_U，C_V代表图像中心点的坐标。

7.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述初步鸟瞰图获取模块：根据得到的伪语义点云信息，设定鸟瞰图观察距离，选取距离内所有的点，构造新的鸟瞰图图像并设置每像素点值代表其类别信息，具体选取纵向范围为[0，40]，横向范围为[-20，20]，鸟瞰图大小为(512*512)，对鸟瞰图中每个点其类别计算公式如下，

P(xⁱ*40/512，zⁱ*40/512)＝vⁱ (12)

P(others)＝0 (13)

即对于鸟瞰图范围内存在的点，其像素点信息为其类别信息，对于其他点(遮挡区域以及受深度图分辨率设置的区域)其类别信息为0，

重复上述操作，遍历范围内所有的点，得到最终的伪语义点云图像P_SL。

8.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统，其特征在于，所述初步鸟瞰图填充模块，首先将伪语义点云图像P_SL中的空洞区域提取出，作为掩膜M_ask，结合鸟瞰图标签B_EV构造图像修复模型的数据集，

其次将鸟瞰图标签与掩膜结合后的图像用Canny边缘检测得到边缘图；

随后构造基于生成对抗的图像修复模型，采用基于EdgeConnect模型作为图像修复的主干网络，包括两个生成器以及两个判别器，第一生成器将灰图像，掩膜以及边缘图作为输入，用于生成完整的边缘图，由下列公式表示：

C^pred＝G₁(B_gray，C_gt，M_ask)

其中G₁代表生成器，B_gray代表输入鸟瞰图的灰度图像，C^pred代表生成的边缘图，C_gt代表正式的边缘图，M_ask代表掩膜图像；

其中G₁为第一生成器，D₁为第一判别器，γ_adv，1代表对抗损失的权重，γ_FM表示特征损失权重，对抗损失与特征损失的计算公式如下

其中L代表最后一层特征层N_i表示第i层的激活结果；

第二生成器将生成的边缘图与带掩膜的原始图像作为输入，用于生成最终的预测结果，由下式来表示：

BEV^pred＝G₂(B_EV，C^pred)

其中G₂表示第二生成器，B_EV代表鸟瞰图标签，C^pred代表第一个生成器的生成结果，再将其结果输入第二判别器进行判别训练，其损失函数为：

经过上述处理，最终可得到生成的鸟瞰图图像BEV^pred。

9.一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法，其特征在于，包括如下步骤：

S1、制作数据集：借助CARLA仿真模拟器，设置同一竖直方向、水平方向基线偏差50cm的左右两摄像头，采集对应的RGB图像I_L，I_R，深度图标签D_L，D_R，语义分割图标签s_L，s_R以及鸟瞰图标签B_EV，完成数据集的制作；

S2、搭建立体匹配模型：采用自适应立体匹配网络作为基本模型，模型的输入为S1中数据集的左右前置摄像头RGB图像I_L，I_R，模型的输出为I_L对应的视差预测图D_sL，进一步可以通过视差图与深度图转换公式求得深度图D_pL；

所述立体匹配网络包括特征提取、匹配代价计算，代价聚合以及视差优化四个部分；其中特征提取部分采用堆叠沙漏的网络架构，通过多层堆叠、密集连接的上采样下采样层对输入左右图像进行特征提取，同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图，从而得到左右视图对应的特征图F_L1，P_L2，F_L3，F_R1，F_R2，F_R3；其中左右视图采用权重共享的方式进行训练，随后将得到的特征图采用基于相关性的方法构造出三维的代价匹配，其计算公式如下：