CN111402311A

CN111402311A - 一种基于知识蒸馏的轻量级立体视差估计方法

Info

Publication number: CN111402311A
Application number: CN202010156347.0A
Authority: CN
Inventors: 周远波; 李�根; 童同; 罗鸣; 高钦泉
Original assignee: Fujian Imperial Vision Information Technology Co ltd
Current assignee: Fujian Imperial Vision Information Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-07-10
Anticipated expiration: 2040-03-09
Also published as: CN111402311B

Abstract

本发明涉及一种基于知识蒸馏的轻量级立体视差估计方法，利用基于知识蒸馏原理，将知识蒸馏引入到视差回归中，解决了知识蒸馏应用在视差回归中的难点。通过高精度但计算复杂的网络来指导学生网络的学习，从而提升学生网络的性能。本发明在算力和存储资源一定的情况下，拥有更高的精度，并且还可以部署在资源受限的嵌入式平台上。

Description

一种基于知识蒸馏的轻量级立体视差估计方法

技术领域

本发明涉及属于计算机视觉中的立体视觉领域，具体涉及一种基于知识蒸馏的轻量级立体视差估计方法。

背景技术

立体视差估计是一种利用双目摄像头(或者多目摄像头)采集经过矫正后的左右图像，通过左右图像自然存在的约束来估计图像视差的技术。图像视差可以经过简单的线性映射获取三维空间中物体的深度信息，从而将二维图像重建出其对应的三维真实世界。

立体视差估计一直以来都是研究者们研究的热点，立体视差估计技术在自动驾驶、VR(virtual reality)、AR(augmented reality)和机器人领域中有着广泛的用途和价值。

由于立体视差估计是一个病态问题，将把二维图像中重建出其对应的三维信息是一件十分具有挑战性的任务，尤其是在二维图像丢失了过多真实三维信息的场景中，重建过程会导致很多问题，如遮挡问题，弱纹理区域、反射区域等。这使得恢复出来三维信息存在较大的失真。

为了尽可能减少失真，传统的立体视差估计方法主要包括以下四个步骤：(1)匹配代价计算(2)匹配代价聚合(3)视差优化(4)视差后处理。中国公开专利“一种立体图像视差估计方法”(公开号CN201310566038.0，公开日为2016.8.17)就是典型的传统算法，其通过移动窗口计算图像像素点灰度的隶属度差异来进行视差估计。但由于其依靠计算像素灰度值的隶属度，是基于单个像素的方法，这样的算法在实际场景对天气，光照特别敏感。除此之外中国公开专利”一种图像视差估计方法及装置、存储介质”(公开号CN109191515A，公开日为20190111)通过融合左右图像的特征和语义分割的信息来进行视差估计。但由于该方法在匹配代价计算中需要进行特征提取，而人工设计的特征通常具有局限性。导致了立体视差估计的性能对特征提取的方法比较敏感，因此该方法鲁棒性不高。

近来卷积神经网络的普及，给立体视差估计带来了重大突破。基于深度学习的方法给立体视差估计提供了另一种新的思路，一方面二维卷积神经网络利用数据驱动可以提取到有效且鲁棒的特征，另一方面三维卷积神经网络能有效地融合三维的语义和空间信息，能够对病态区域如遮挡区域，弱纹理区域、反射区域处理地较好，因此可以使得估计的视差失真变小，视差估计的精度带来极大的提升。利用卷积神经网络来进行视差估计的方法要追溯到2016年，Zbontar和LeCun利用二维卷积神经网络先去提取左右图像的特征，进一步再计算语义层面的匹配代价。该方法的性能虽然超过了传统的算法，但是其并不是端到端的算法，因此学术界有很多研究者开始去解决此问题。

近年来，虽然大量的端到端算法不断涌现，但很多算法都采用3D卷积去进行视差聚合，这导致了存储和计算资源的重大负担。Kendall等人提出的GC-Net,首次采用3D卷积去融合空间和时间信息并且进行了端到端训练。进一步地Chang等人提出的PSMNet,该网络采用了大量堆叠型3D卷积去聚合视差，虽然精度进一步上升，但复杂度越来越高，导致需要花费大量的推断时间。另外中国公开专利“一种基于三维卷积的双目视差估计方法”(公开号CN109308719A，公开日为20190205)就是典型地采用大量3D卷积去提升精度的方法，其采用3D卷积融合帧序列的特征图，虽然利用了时间维度上的信息提升了视差图预测的精度，但其由于其采用了大量的3D卷积去聚合视差，导致了时间和存储资源极重的负担。因此如何去平衡精度与计算资源和存储之间的关系十分有必要。

于是有学者开始去研究如何减少3D卷积的使用，Zhang等人通过结合传统算法和深度学习的方法，利用SGA和LGA层去替代部分的3D卷积，虽然可以减少部分的计算，但其任然有极高的计算量和存储负担。进一步地谷歌公司提出了StereoNet通过下采样与精细化网络的结合使得其在TitanX GPU上可以实时运行，但其任然不能部署在资源受限的平台上，例如嵌入式平台。

发明内容

有鉴于此，本发明的目的在于提供一种基于知识蒸馏的轻量级立体视差估计方法

为实现上述目的，本发明采用如下技术方案：

一种基于知识蒸馏的轻量级立体视差估计方法，包括以下步骤：

步骤S1:构建教师网络；

步骤S2:将I_left和I_right图像输入到教师网络中，进行特征提取并进行特征融合，得到4维特征图(B,C,H,W)；

步骤S3:将不同视差位置对应的4维特征图(B,C,H,W)相减构建5维的CostVolume(B,C,D,H,W)，并将其表示成A_T；

步骤S4:将A_T通过3D卷积模块，融合不同视差下的特征相匹配的代价,得到融合后的CostVolume；

步骤S5:根据步骤S2的特征融合，指导SGA层的参数；

步骤S6:将融合后的CostVolume通过SGA层，精细化CostVolume；

步骤S7：根据步骤S2的特征融合，指导LGA层的参数；

步骤S8:将步骤S6中精细化后的CostVolume，通过LGA层得到最终的CostVolume，并表示为X_T；

步骤S9:将X_T通过视差回归层，得到最终的视差图；

步骤S10:构建学生网络；

步骤11：将I_left和I_right图像输入到学生网络中，进行特征提取并进行特征融合，得到4维特征图(B,C,H,W)；

步骤S12:将不同视差位置对应的4维特征图(B,C,H,W)相减构建5维的CostVolume(B,C,D,H,W)，并将其表示成A_S并将教师网络和学生网络的，CostVolume归一化后构建A_T和A_S做SmoothL1-Loss；

步骤S13:将A_S经过3D卷积信息融合得到X_S,并将教师网络的输出X_T和学生网络的输出X_S归一化后做SmoothL1-Loss；

步骤S14:将X_S经过视差回归层，得到最终的视差图；

步骤S15:将学生网络生成的视差图I_dis与真实值I_GT做SmoothL1-Loss；

步骤S16：考虑到每个Loss的贡献程度，将步骤S12、S13、S15中的Loss进行加权构建最终的总体Loss；

步骤S17:将教师网络和学生网络根据步骤16中的总Loss选择Adam优化算法进行优化，直到收敛停止，最终输出估计的视差图I_dis。

进一步的，所述教师网络由2D卷积模块、3D卷积模块、CostVolume模块、LGA层、SGA层和视差回归层组成。

进一步的，所述2D卷积模块包括2D卷积、2D批量归一化层以及ReLU激活函数；所述3D卷积模块包括3D卷积、3D批量归一化层以及ReLU激活函数。

进一步的，所述视差回归层的计算公式如下：

其中σ(·)表示softmax运算。

进一步的，所述学生网络由2D卷积模块、3D卷积模块、CostVolume模块和视差回归层组成。

进一步的，所述步骤S12将教师网络和学生网络的CostVolume归一化后，构建A_T和A_S的L1损失函数，其表达式为：

Loss₁＝Loss(A′_T,A′_S)＝||A′_T-A′_S||₁ (2)

其中A'_T和A'_S是A_T和A_S经过归一化后的CostVolume；

归一化的公式为：

进一步的，所述将教师网络的输出X_T和学生网络的输出X_S归一化后做SmoothL1-Loss,其表达式为：

进一步的，所述步骤S15具体为：将学生网络生成的视差图I_dis与真实值I_GT做SmoothL1-Loss.其表达式为

进一步的，所述步骤S16具体为：考虑到每个Loss的贡献程度，将步骤S12、S13和S15中的Loss进行加权构建最终的总体Loss,其公式为(6)。

Loss＝0.1Loss₁+0.1Loss₂+Loss₃ (6)。

本发明与现有技术相比具有以下有益效果：

1、本发明采用知识蒸馏原理利用目前存在的庞大但精确的网络去指导小型网络学习，显著提升小型网络的性能

2、本发明将知识蒸馏和视差回归结合，使得知识蒸馏在视差回归上发挥出较高的性能；在算力和存储资源一定的情况下，拥有更高的精度

附图说明

图1是本发明一实施例中构建五维CostVolume其中一个通道的示意图；

图2是本发明一种基于知识蒸馏的轻量级立体视差估计方法的原理示意图；

图3是本发明一实施例与现有技术在SceneFlow数据集下，复杂场景的视差估计比较图：

图4是本发明一实施例与现有技术在SceneFlow数据集下，简单场景的视差估计比较图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图2，本实施例首先构建了一个轻量级网络，该网络仅有0.6M参数量以及0.079GFlops，该网络能够在数据集Scene Flow上实现EPE 2.688的精度。其次为了进一步挖掘小型网络的性能，提升其精度，本发明采用知识蒸馏原理利用目前存在的庞大但精确的网络——GA-Net去指导小型网络学习，显著提升小型网络的性能。

本实施例中，提供一种基于知识蒸馏的轻量级立体视差估计方法，其包括如下步骤：

步骤S1：搭建一个教师网络。该教师网络，主要由2D卷积模块、3D卷积模块、CostVolume模块、LGA层、SGA层和视差回归层组成。2D卷积模块中包括了2D卷积、2D批量归一化层以及ReLU激活函数组成。3D卷积模块主要由3D卷积、3D批量归一化层以及ReLU激活函数组成。

步骤S2：将I_left和I_right图像输入到教师网络中，首先经过特征提取，特征提取采用的是漏斗形的特征提取网络，将提取到的浅层特征和深层特征融合。

步骤S3：将步骤S2融合后的4维特征图(B,C,H,W)通过不同视差位置的对应特征图相减构建5维的CostVolume(B,C,D,H,W)，将表示成A_T,其中D的范围是0-192，其中的一个通道相减示例图1所示。

步骤S4：将步骤S3中构建好的A_T通过3D卷积模块，融合不同视差下的特征相匹配的代价。

步骤S5：通过步骤S2中提取到的浅层和深层特征融合，来指导SGA层的参数。

步骤S6：将步骤S4中经过3D卷积融合后的CostVolume通过SGA层，精细化CostVolume。

步骤S7：通过步骤S2中提取到的浅层和深层特征融合，来指导LGA层的参数.

步骤S8：将经过步骤S6中的CostVolume在经过3D卷积模块之后再通过LGA层得到最终的CostVolume X_T。

步骤S9：将步骤8中的X_T通过视差回归层，得到最终的视差图。视差回归层的计算公式如下：

其中σ(·)表示softmax运算。

步骤S10：训练好教师网络以后，搭建学生网络，学生网络由2D卷积模块、3D卷积模块、CostVolume模块和视差回归层组成。

步骤S11：将左右图像输入特征提取网络中提取特征。

步骤S12：将提取到的特征构建CostVolume A_S。构建的方式如同步骤3。其中为了能够让教师网络指导学生网络学习，本实施例将教师网络和学生网络的CostVolume(A_T和A_S)归一化后构建A_T和A_S的L1损失函数。其表达式为公式(2)

Loss₁＝Loss(A′_T,A′_S)＝||A′_T-A′_S||₁ (2)

其中A'_T和A'_S是A_T和A_S经过归一化后的CostVolume。归一化的公式为(3)

步骤S13：将步骤S12中构建好的A_S经过3D卷积信息融合得到X_S。同样地为了让教师网络指导学生网络学习，将教师网络的输出X_T和学生网络的输出X_S归一化后做SmoothL1-Loss,其表达式为(4)：

步骤14：将步骤13中得到的X_S经过视差回归层，得到最终的视差图。视差图的回归计算公式为式(1)。

步骤15：最后将学生网络生成的视差图I_dis与真实值I_GT做SmoothL1-Loss.其表达式为公式(5)。

步骤16：考虑到每个Loss的贡献程度，将步骤S12、S13和S15中的Loss进行加权构建最终的总体Loss,其公式为(6)。

Loss＝0.1Loss₁+0.1Loss₂+Loss₃ (6)

步骤17：将教师网络和学生网络根据步骤16中的总Loss选择Adam优化算法进行优化，直到收敛停止，最终输出估计的视差图I_dis。

为了验证本发明的方法的有效性，采用公开数据集进行评测。公开数据集SceneFlow是一个大型的视差评估数据集，分辨率为960*540。他包含4370组测试数据。最后将本发明得到的视差图效果与现有的方法进行比较。例如StereoNet，公开评测指标采用EPE(数值越低性能越好)。表1-1显示了实验结果。

表1-1本发明和现有其他方法的对比

从表1-1中可以看出本发明的方法，在参数量是StereoNet的1/10,计算复杂度是StereoNet一半的情况下，其性能还能超过StereoNet。降低错误率约9.8％。由此可见，本发明的方法与现有的技术相比，在一定参数量和计算复杂度的情况下，得到了更高的性能。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于，包括以下步骤：

步骤S1:构建教师网络；

步骤S5:根据步骤S2的特征融合，指导SGA层的参数；

步骤S6:将融合后的CostVolume通过SGA层，精细化CostVolume；

步骤S7：根据步骤S2的特征融合，指导LGA层的参数；

步骤S9:将X_T通过视差回归层，得到最终的视差图；

步骤S10:构建学生网络

步骤S12:将不同视差位置对应的4维特征图(B,C,H,W)相减构建5维的CostVolume(B,C,D,H,W)，并将其表示成A_S，并将教师网络和学生网络的CostVolume归一化后构建A_T和A_S做SmoothL1-Loss；

步骤S14:将X_S经过视差回归层，得到最终的视差图；

2.根据权利要求1所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于：所述教师网络由2D卷积模块、3D卷积模块、CostVolume模块、LGA层、SGA层和视差回归层组成。

3.根据权利要求2所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于：所述2D卷积模块包括2D卷积、2D批量归一化层以及ReLU激活函数；所述3D卷积模块包括3D卷积、3D批量归一化层以及ReLU激活函数。

4.根据权利要求1所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于：所述视差回归层的计算公式如下：

其中σ(·)表示softmax运算。

5.根据权利要求1所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于：所述学生网络由2D卷积模块、3D卷积模块、CostVolume模块和视差回归层组成。

6.根据权利要求1所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于：所述步骤S12将教师网络和学生网络的CostVolume归一化后，构建A_T和A_S的L1损失函数，其表达式为：

Loss₁＝Loss(A′_T,A′_S)＝||A′_T-A′_S||₁ (2)

其中A'_T和A'_S是A_T和A_S经过归一化后的CostVolume；

归一化的公式为：

7.根据权利要求6所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于：所述将教师网络的输出X_T和学生网络的输出X_S归一化后做SmoothL1-Loss,其表达式为：

8.根据权利要求7所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于，所述步骤S15具体为：将学生网络生成的视差图I_dis与真实值I_GT做SmoothL1-Loss.其表达式为

9.根据权利要求8所述的一种基于知识蒸馏的轻量级立体视差估计方法，其特征在于，所述步骤S16具体为：虑到每个Loss的贡献程度，将步骤S12、S13和S15中的Loss进行加权构建最终的总体Loss,其公式为(6)。

Loss＝0.1Loss₁+0.1Loss₂+Loss₃ (6)。