CN111508013A

CN111508013A - 立体匹配方法

Info

Publication number: CN111508013A
Application number: CN202010316524.7A
Authority: CN
Inventors: 张举勇; 徐豪飞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-07
Anticipated expiration: 2040-04-21
Also published as: CN111508013B

Abstract

本发明公开了一种立体匹配方法，包括：构建立体匹配模型，以及收集双目数据集来训练立体匹配模型；训练过程中，对于输入的双目图像对的左图和右图，首先提取N个尺度的特征，构成N尺度特征金字塔，并通过相关操作来构建N尺度代价体，对于N尺度代价体，通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合，得到N尺度的代价聚合结果，再通过回归与上采样得到视差预测值，基于视差预测值与双目数据集中对应的视差真值误差构建损失函数；训练完毕后，对于任意校正好的双目图像对，利用训练好的立体匹配模型预测视差值，从而完成立体匹配。该方法不仅具有明显的速度提升，同时保持较高的精度，而且对物体边缘区域十分有效。

Description

立体匹配方法

技术领域

本发明涉及双目深度估计领域，尤其涉及一种高效的立体匹配方法。

背景技术

深度信息在三维场景的理解中起着十分重要的作用，如对机器人或自动驾驶汽车，知道周围物体距自己的远近至关重要，这有助于他们避开障碍，并能够及时调整下一步的行为。相比于自动驾驶环境下相当昂贵的LiDAR传感器，传统的RGB相机可以为室外场景下的深度估计提供一种更为廉价的替代方案。其中，双目深度估计作为一项关键技术，因其本身的重要性及广泛的应用范围已在计算机视觉领域有相当长的研究历史，并在不断吸引越来越多的研究者投身这一领域。双目深度估计的关键任务就是立体匹配，即寻找双目图像中像素点之间的对应关系，之后便可以通过三角化计算得到深度值。高效且精确的立体匹配算法在许多现实世界中的应用中具有相当重要的意义，尤其是那些需要快速以及可靠响应的场景，如机器人导航、增强现实和自动驾驶等。

传统的立体匹配算法一般可以分为四个步骤：1)匹配代价计算；2)代价聚合；3)视差计算；4)视差精细化。其中代价聚合是一个成功的立体匹配算法中的关键步骤。传统算法可以大致分为全局法和局部法。全局法通常优化一个全局的目标函数，而局部法往往只考虑邻域信息，因此使得局部法要比全局法具有更快的速度。尽管传统算法已经取得了很多进展，但在光照变化、无纹理、重复纹理及细小结构等挑战性情形下仍然会存在问题。

近年来，基于深度学习的立体匹配算法得益于深度学习强大的表示学习能力，在上述挑战性情形下也能取得不错的结果。基于深度学习的方法大致可以分为两类：基于2D卷积和3D卷积的方法。它们的主要区别在于构建代价体(cost volume)的方式有所不同。从性能来讲，基于3D卷积的方法往往能够大大超越基于2D卷积的方法，但是速度却要慢一个量级以上。3D卷积的三次计算复杂度和相当高的内存消耗使得他们很难在实际中应用。比如，要产生KITTI数据集大小(384x1248)的视差图，目前比较流行的PSMNet模型需要4G左右的内存消耗，而且即便在高端的GPU上还需要410ms左右的时间。因此，如何显著地提升现有立体匹配算法的速度，同时保持相当的精度，展现出了极高的应用价值，是目前亟需解决的问题。

发明内容

本发明的目的是提供一种高效的立体匹配方法，不仅具有明显的速度提升，同时保持较高的精度，而且对物体边缘区域十分有效。

本发明的目的是通过以下技术方案实现的：

一种立体匹配方法，包括：

构建立体匹配模型，以及收集双目数据集来训练立体匹配模型；

训练过程中，对于输入的双目图像对的左图和右图，首先提取N个尺度的特征，构成N尺度特征金字塔，并通过相关操作来构建N尺度代价体，对于N尺度代价体，通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合，得到N尺度的代价聚合结果，再通过回归与上采样得到视差预测值，基于视差预测值与双目数据集中对应的视差真值误差构建损失函数；

训练完毕后，对于任意校正好的双目图像对，利用训练好的立体匹配模型预测视差值，从而完成立体匹配。

由上述本发明提供的技术方案可以看出，1)通过基于稀疏点的代价聚合方式能够很好地克服基于窗口的方法的缺陷，从而产生比较尖锐的物体边缘，并且更好地保持物体的整体结构；2)跨尺度代价聚合方式通过对传统算法的近似，能够使得模型结构可以端到端训练，而且具有明显的几何意义以及产生更好的预测结果；3)由于所提出的同尺度代价聚合和跨尺度代价聚合模块都非常地轻量，而且不依赖于任何的3D卷积，从根本上克服了3D卷积计算量大的缺陷，因此发明能够得到多达40倍的速度提升，同时保持较高的精度，具有极高的实用潜力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种高效的立体匹配方法的流程图；

图2为本发明实施例提供的立体匹配模型的框架图；

图3为本发明实施例提供的基于稀疏点的代价聚合方式示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种高效的立体匹配算法，该方法主要解决传统的立体匹配算法所存在的各项缺陷，之前背景技术中所介绍的：立体匹配的主要目的是寻找双目图像对像素点之间的对应关系。传统的立体匹配算法一般可以分为四个步骤：1)匹配代价计算；2)代价聚合；3)视差计算；4)视差精细化。其中，代价聚合作为立体匹配算法中的一个关键步骤，能够减少点与点之间匹配的歧义性，从而产生更加精确的视差估计结果，因此也是本发明的重点关注部分。传统算法可以大致分为全局法和局部法。全局法的通常优化一个全局的目标函数，代表性算法有Graph Cut和Belief Propagation等。由于全局优化的解空间很大，需要考虑所有像素点之间的关系，因此速度较慢。局部法往往只考虑邻域信息，采用滤波的方式来减少点与点之间匹配的噪声，如双边滤波和引导滤波等。因此局部法通常具有更快的速度。传统算法虽然已经取得了很多进展，但由于只依赖于图像本身的信息来计算匹配代价，使得它们在光照变化、无纹理、重复纹理或者细小结构的情况下仍存在问题。基于深度学习的方法得益于大数据以及深度学习强大的表示学习能力，在上述情况下也能取得不错的结果。但现有的高性能立体匹配算法大多基于计算代价昂贵的3D卷积，由此带来的三次计算量和相当高的内存消耗使得他们很难在实际中应用。为此，本发明实施例提供一种基于深度学习的高效立体匹配算法。

基于上述技术背景知识，下面针对本发明所提供的方法进行介绍，图1为该方法的流程图，主要包括如下步骤：

步骤1、构建立体匹配模型，以及收集双目数据集来训练立体匹配模型。

本发明实施例中，所述双目数据集包括：合成数据集和真实数据集。例如，SceneFlow是一个大规模的合成数据集，包含三个子集：FlyingThings3D、Monkaa和Driving。一共有35435个训练数据对，3470个测试数据对，并且提供稠密的视差真值。KITTI和Middlebury是两个真实场景下的双目数据集(真实数据集)，但数据较少，并且KITTI所提供的视差真值较为稀疏。

通常情况下，首先利用合成数据集进行模型预训练，再利用真实数据集对模型进行微调。当然，对于实际应用场景，也可先使用双目相机采集得到相应数据，再利用应数据对预训练后的模型进行微调。值得注意的是，对实际采集的数据，需进行必要的极线校正，以使得对应点位于同一水平线。而目前的公开数据集均已校正完毕，故无需进行这一预处理。

本领域技术人员可以理解，模型微调实际上与正常训练过程类似，区别主要在于微调时仅小幅度调整模型参数。

为增加数据的多样性，通过随机上下翻转及随机颜色变换的方式对进行数据增强，同时相应的视差真值也进行对应的变换操作。具体地，随机上下翻转指对双目左右图同时进行上下翻转，相应地，视差真值也进行上下翻转。随机颜色变换包含随机对比度变换、随机伽马变换、随机亮度变换、随机色调变换以及随机饱和度变换。同时，我们考虑这几种变换的随机组合，以进一步增加样本的多样性。

步骤2、训练过程中，对于输入的双目图像对的左图和右图，首先提取N个尺度的特征，构成N尺度特征金字塔，并通过相关操作来构建N尺度代价体，对于N尺度代价体，通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合，得到N尺度的代价聚合结果，再通过回归与上采样得到视差预测值，基于视差预测值与双目数据集中对应的视差真值误差构建损失函数。

如图2所示，所述立体匹配模型主要包括：特征金字塔提取模块、代价体构建模块、自适应代价聚合模块、视差估计模块以及精细化模块。

1、特征金字塔提取模块。

本发明实施例中，特征金字塔提取模块，基于共享的特征提取器，来提取双目图像对的左图和右图的N个尺度的图像特征，构成左图和右图的N尺度特征金字塔(FeaturePyramid)。

示例性的，特征提取器使用了一种类似于ResNet的结构，一共包含40层卷积。N尺度特征金字塔可以为三个尺度的特征金字塔，分辨率分别为原始分辨率的1/3，1/6和1/12，特征的通道数为256。

2、代价体构建模块。

本发明实施例中，代价体构建模块，对左图和右图的N尺度特征金字塔中，相同尺度的特征进行相关操作(correlation，即两个向量的点乘)，来构建N尺度代价体。

3、自适应代价聚合模块。

自适应代价聚合模块(AAModule)，通过对N尺度代价体进行基于稀疏点的同尺度内代价聚合以及跨尺度代价聚合，得到N尺度的代价聚合结果。

如图2所示，自适应代价聚合模块分为同尺度内代价聚合(Intra-ScaleAggregation，ISA)和跨尺度代价聚合(Cross-Scale Aggregation，CSA)两部分。

1)同尺度内代价聚合。

同尺度内代价聚合采用基于稀疏点的代价聚合方式，该方式与广泛使用的基于窗口的代价聚合方式有本质区别，即本发明不再使用窗口的概念，而是使用一种基于稀疏点的表示来进行代价聚合。如图3所示，本发明所提出的基于稀疏点的代价聚合方式能够自适应地将采样点分布在视差相似的区域，从而克服了基于窗口的方法的缺陷，进而能够在边缘部分产生更好的结果。图3中(a)部分标记的点1、点2是指所要聚合的位置点；(b)部分表示传统的采用窗口的代价聚合方式；(c)部分表示本发明提出的基于稀疏点的代价聚合方式。

相比于传统的基于窗口的代价聚合方法，本发明提供的基于稀疏点的代价聚合方式，额外估计了偏移量来自适应地调整采样点的位置。此外，由于传统卷积的卷积核在空间上是共享的，从而使得它们不能感知具体的内容信息。因此本发明进一步学习了额外的权值使得卷积核对每一个不同的位置都能自适应地调整，从而达到内容自适应的效果。本发明实施例中，基于稀疏点的同尺度内代价聚合采用可变形卷积(deformable convolution)来实现，即偏移量和与权值通过一个额外的作用在输入代价体上的3x3常规卷积得到，然后通过偏移量得到稀疏点再进行聚合操作；具体来说：本发明所提出的基于稀疏点的代价聚合方法包含以下几个步骤：

第一步：对输入代价体，首先利用第一个1x1卷积对设定的视差候选值之间的信息进行融合；

第二步：利用一个3x3的可变形卷积对第一个1x1卷积的输出结果进行基于稀疏点的代价聚合操作；

第三步：再利用第二个1x1卷积对3x3可变形卷积输出的结果进行视差候选值之间的信息融合操作；

第四步：对输入代价体和第三步得到的结果做残差链接，得到代价聚合结果。

这一过程主要包含三个卷积层和一个残差链接，这三个卷积层的通道个数始终等于视差候选值的个数，即对输入维度为D×H×W的代价体，D,H,W分别表示视差候选值个数、代价体的高和宽，经过同尺度代价聚合之后得到的代价体维度仍为D×H×W，三个卷积层的通道数均为D。示例性的，可以设置D＝192，则视差候选值为0～191。

2)跨尺度代价聚合。

本发明实施例中，跨尺度代价聚合方式是传统跨尺度代价聚合算法【Kang Zhang,Yuqiang Fang,Dongbo Min,Lifeng Sun,Shiqiang Yang,Shuicheng Yan,and QiTian.Cross-scalecost aggregation for stereo matching.In Proceedings oftheIEEEConference on Computer Vision and Pattern Recognition,pages 1590–1597,2014.】的近似，即利用神经网络层来实现不同尺度之间代价体的信息融合，从而使得我们的模型可以端到端训练。

具体地，传统跨尺度代价聚合算法从优化的角度分析得出，跨尺度聚合的结果是各个尺度代价聚合结果的加权平均。因此，本发明提出利用神经网络层来近似这一结论。如图2所示，所述跨尺度代价聚合中，包含了N个尺度的跨尺度代价聚合操作，每一个尺度的跨尺度代价聚合操作中，均聚合了N个尺度的同尺度内代价聚合结果，从而利用网络层使其充分融合其他尺度的信息：对于相同尺度的同尺度内代价聚合结果进行恒等变换，对于低尺度到高尺度使用双线性插值使得分辨率相同，再通过一个1x1卷积使得通道数相同，从高尺度到低尺度，使用步长为2的3x3卷积。通过上述方式，不仅使得该跨尺度聚合结构具有明显的几何意义，同时保证了本发明所提出的整体框架可以端到端训练。

4、视差估计模块。

本发明实施例中，视差估计模块，根据N尺度的代价聚合结果进行回归，预测得到N尺度的视差值。

5、精细化模块。

本发明实施例中，精细化模块，将最高尺度的视差预测值进行上采样恢复到原始分辨率得到了最终视差预测值，而其他低尺度视差预测值不再参与运算。

本发明实施例中，视差回归采用soft argmin方式，即首先利用softmax函数作用于最终经过聚合之后的每一尺度的代价体，对于每一尺度的代价体，相当于得到了视差为相应视差候选值的概率，再利用该概率与视差候选值的加权平均得到相应尺度的视差值。最终，最高尺度的视差预测值(例如，1/3分辨率的视差预测值)通过两个精细化模块上采样到原始分辨率(两个精细化模块依次上采样到1/2和原始分辨率)，即得到了最终的视差预测结果。精细化模块采用了StereoDRNet中的结构，它的输入是左图，右图以及预测的视差图。它包含六个残差块，一个残差块包含两个3x3卷积以及一个残差连接。

以上详细介绍了模型的组成结构及相关的工作原理，下面针对训练过程的一些参数设定值进行举例。

模型的训练采用smooth L1损失函数，所有尺度(1/12,1/6,1/3,1/2和原始分辨率)的视差预测值都使用视差真值作为监督，最终的损失函数是所有尺度损失的加权平均。对于低分辨率的视差预测图，首先将其双线性插值到原始分辨率。从高尺度到低尺度，对应的损失函数权值依次为1.0,1.0,1.0,2/3和1/3。

本发明基于PyTorch框架实现，优化器为Adam。首先在Scene Flow合成数据集上训练。Scene Flow数据集的原始分辨率为540x960，本发明使用288x576随机裁剪大小作为输入。所提出的立体匹配模型使用4张NVIDIAV100GPU进行训练，批大小为64，一共训练64轮。初始的学习率为0.001，从20轮以后，每隔10轮学习率减半。对于KITTI数据集，使用SceneFlow预训练的模型进行微调，随机裁剪的大小为336x960。首先使用混合的KITTI 2012和KITTI2015训练集训练1000轮，初始的学习率为0.001，在第400,600,800和900轮学习率依次减半。为了提交到KITTI排行榜，在单独的KITTI 2012和KITTI 2015训练集上继续训练1000轮，其中使用了与上述相同的学习率调整策略。对于所有的数据集，输入图片使用ImageNet的均值和方差统计量进行了规范化。最大的视差设置为191个像素。

需要说明的是，以上所涉及训练数据集的内容、各项参数数值均为举例说明，并非构成限制；在实际应用中，用户可以基于现有技术来调整训练数据集的内容、以及各项参数数值。

步骤3、训练完毕后，对于任意校正好的双目图像对，利用训练好的立体匹配模型预测视差值，从而完成立体匹配。

本步骤所涉及的工作流程与前述步骤2介绍的相同，故不再赘述。

相比于传统优化方法和现有的学习方法，本发明方案主要具有以下优点：

1)由深度神经网络训练得到端到端立体匹配模型，既能够提高算法的精度与鲁棒性，还避免了传统算法复杂的优化过程，同时具有非常快的推理速度。

2)由于本发明未依赖于任何的3D卷积，相比于现有的深度学习方法，本发明具有相当明显的速度提升，如比GC-Net快41倍，比PSMNet快4倍，比GA-Net快38倍。对于KITTI大小(384x1248)的数据，本发明的运行速度可达62ms。

3)由于代价聚合的重要性及通用性，本发明所提出的技术还能用来提高快速立体匹配算法的性能，如StereoNet，它们往往基于低分辨率的代价体，但是会明显地降低精度。

4)本发明所提出的基于稀疏点的代价聚合算法从根本上克服了基于窗口的方法的缺陷，能够产生更加尖锐的边缘，同时保持物体的整体结构。

5)由于本发明所提出的网络结构设计中充分利用了几何关系，使得本发明具有较好的泛化能力，如利用KITTI上训练好的模型，在Middlebury数据集上也能产生不错的结果，体现了本发明的实用潜力。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种立体匹配方法，其特征在于，包括：

2.根据权利要求1所述的一种立体匹配方法，其特征在于，所述双目数据集包括：合成数据集、以及真实数据集或者实际采集的数据，并且，通过随机上下翻转及随机颜色变换的方式对进行数据增强，同时相应的视差真值也进行对应的变换操作；

在训练过程中，首先利用合成数据集进行模型预训练，再利用真实数据集或者实际采集的数据对模型进行微调；

其中，实际采集的数据需要进行极线校正。

3.根据权利要求1所述的一种立体匹配方法，其特征在于，所述立体匹配模型包括：特征金字塔提取模块、代价体构建模块、自适应代价聚合模块、视差估计模块以及精细化模块；其中：

特征金字塔提取模块，基于共享的特征提取器，来提取双目图像对的左图和右图的N个尺度的图像特征，构成左图和右图的N尺度特征金字塔；

代价体构建模块，对左图和右图的N尺度特征金字塔中，相同尺度的特征进行相关操作，也即向量点乘操作，来构建N尺度代价体；

自适应代价聚合模块，通过对N尺度代价体进行基于稀疏点的同尺度内代价聚合以及跨尺度代价聚合，得到N尺度的代价聚合结果；

视差估计模块，根据N尺度的代价聚合结果进行回归，预测得到N尺度的视差值；

精细化模块，将最高尺度的视差值进行上采样恢复到原始分辨率得到了最终视差预测值。

4.根据权利要求1或3所述的一种立体匹配方法，其特征在于，所述基于稀疏点的同尺度内代价聚合通过三个卷积层和一个残差链接实现，三个卷积层为依次设置的1x1卷积、3x3卷积和1x1卷积，其中3x3卷积是一个可变形卷积。

5.根据权利要求4所述的一种立体匹配方法，其特征在于，基于稀疏点的同尺度内代价聚合过程包括：

对输入代价体，利用第一个1x1卷积对设定的视差候选值之间的信息进行融合；

利用3x3的可变形卷积对第一个1x1卷积的输出结果进行基于稀疏点的代价聚合操作；

利用第二个1x1卷积对3x3可变形卷积输出的结果进行视差候选值之间的信息融合操作；

对输入代价体和第二个1x1卷积输出的结果做残差链接，得到代价聚合结果。

6.根据权利要求1或3所述的一种立体匹配方法，其特征在于，所述跨尺度代价聚合中，包含了N个尺度的跨尺度代价聚合操作，每一个尺度的跨尺度代价聚合操作中，均聚合了N个尺度的同尺度内代价聚合结果：对于相同尺度的同尺度内代价聚合结果进行恒等变换，对于低尺度到高尺度使用双线性插值使得分辨率相同，再通过一个1x1卷积使得通道数相同，从高尺度到低尺度，使用步长为2的3x3卷积。