CN110427968A

CN110427968A - 一种基于细节增强的双目立体匹配方法

Info

Publication number: CN110427968A
Application number: CN201910580140.3A
Authority: CN
Inventors: 姚剑; 谈彬; 陈凯; 涂静敏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-08
Anticipated expiration: 2039-06-28
Also published as: CN110427968B

Abstract

本发明公开了一种基于细节增强的双目立体匹配方法，首先，利用视差初始化子网络来获取低分辨率下的初始视差估计结果；然后，通过带引导模块的优化子网络，结合多尺度优化策略，逐步上采样并优化低分辨率初始视差，并输出全分辨率下的稠密视差估计结果；接着，使用多尺度损失函数，将低分辨率下的视差估计结果作为中间监督，以提高网络的收敛精度，促进全分辨率下的视差估计结果；再将待匹配的双目立体像对输入训练好的网络，得到视差估计结果。该方法通过对具有真实视差的训练数据集进行学习与训练，在极大提高了立体匹配所得到的视差结果的精度与鲁棒性的同时，还显著提升了视差图中对小目标以及边缘等细节信息的估计结果。

Description

一种基于细节增强的双目立体匹配方法

技术领域

本发明涉及图像处理中的立体匹配技术领域，具体涉及一种基于细节增强的双目立体匹配方法。

背景技术

立体匹配是图像处理领域中的一个经典问题，它的主要目标是估计一对已经经过核线校正的立体像对(两幅图中的匹配点在同一行上)之间的视差(匹配点的列坐标之差)。通过立体匹配所得到的视差图在许多领域中都有着广泛的应用，比如自动驾驶、室内定位以及三维重建等。因此，立体匹配具有着重要的研究价值。

在绝大多数的传统方法中，通常将立体匹配分为四个步骤，分别是：计算匹配代价、代价聚合、视差估计以及视差优化。但是，通过传统的手工设计的特征计算得到的匹配代价在面对具有挑战性的复杂场景时往往鲁棒性不佳，并因此限制了传统立体匹配方法的表现。

近年来的一些研究表明，基于卷积神经网络的深度学习技术可以被应用在立体匹配任务中。早期的一些方法通过利用卷积神经网络强大的特征表征能力来计算图像块之间的匹配代价，来代替基于手工设计的特征的方法。然而，这种方法只利用了局部的图像块，却忽略了图像的全局信息，因此严重限制了视差精度的提升。在这之后，一些利用图像全局信息的端到端的被提出并极大极大地提升了视差估计得精度。但是，这些端到端端到端的方法仍然无法捕获图像中的细节信息，导致视差图中的微小结构和边缘经常丢失或者产生模糊。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

最近，一些利用引导信息的网络展现了它们在细节保持方面的优势。将引导信息应用到立体匹配工作中的一种典型方法就是引入一个子任务的网络，比如，通过额外训练一个边缘提取的网络，然后将边缘检测的结果作为引导信息与视差估计网络中的匹配代价相结合，从而得到具有高精度和丰富细节的视差图。但是这种方法在训练网络的过程中引入了一个额外任务的子网络，使得网络的复杂度大大上升，让网络变得难以训练。另外一种方案是，直接将原图像与初始视差图相结合，用原图中的色彩信息作为引导，来恢复初始视差图中的细节。这种方法虽然避免了引入额外任务的网络所带来的复杂度上升问题，但是来自原图像中的噪声也会影响引导信息的准确性，为细节视差的恢复带来不确定性。

由此可知，现有技术中的方法存在匹配精度不高的技术问题。

发明内容

有鉴于此，本发明提供了一种基于细节增强的双目立体匹配方法，用以解决或者至少部分解决现有技术中的方法存在的匹配精度不高的技术问题。

本发明提供了一种基于细节增强的双目立体匹配方法，包括：

步骤S1：设置能够获取低分辨率下的初始视差估计结果的初始化子网络；

步骤S2：设置带引导模块的优化子网络，初始化子网络与优化子网络构成视差估计网络模型，其中，优化子网络用以结合多尺度优化策略，逐步上采样并优化步骤S1中产生的低分辨率初始视差，输出全分辨率下的稠密视差估计结果；

步骤S3：将立体像对中的左右图像作为训练样本集，采用多尺度损失函数，基于训练样本集，分别对初始化子网络、优化子网络以及整个视差估计网络模型进行训练；

步骤S4：将待匹配的双目立体像对输入训练好的网络模型，得到预测的视差估计结果。

在一种实施方式中，步骤S1中，初始化子网络获取低分辨率初始视差的过程，具体包括：

步骤S1.1：将一对立体像对作为输入，通过权重共享的卷积和降采样操作，分别获取立体像对中左右图像的低分辨率特征矩阵；

步骤S1.2：基于左右图像的低分辨率特征矩阵，采用空间金字塔池化模块，进行多尺度信息融合，获得左右图像的多尺度特征矩阵；

步骤S1.3：对步骤S1.2中的左右图像的多尺度特征矩阵进行融合，得到初始代价矩阵，然后通过卷积，得到三维代价聚合矩阵，通过对三维代价聚合矩阵在视差D的维度上进行回归运算，得到低分辨率初始视差图。

在一种实施方式中，步骤S2中优化子网络获取稠密视差估计结果的过程，具体包括：

步骤S2.1：将已优化的视差结果进行两倍上采样，作为新一轮优化时所需的初始视差图d⁰；

步骤S2.2：将待优化的初始视差图输入引导模块，采用若干个卷积层对其进行卷积预处理；

步骤S2.3：将原始输入图像下采样到与初始视差同样的分辨率，并输入引导模块，对下采样的左右图进行卷积操作，并得到左右图的引导信息矩阵F^l和F^r；

步骤S2.4：利用初始视差结果d⁰,将右图的引导信息矩阵F^r往左图进行映射，得到映射后的信息矩阵将F^l与进行相减，得到误差矩阵

步骤S2.5：将步骤S2.2中得到的卷积预处理后的初始视差图、步骤2.3中得到的左图的引导信息矩阵F^l以及步骤S2.4中计算的误差矩阵e在特征通道的维度上进行结合，从而得到综合引导矩阵F_g；

步骤S2.6：将步骤S2.5中得到的综合引导矩阵F_g输入一个编码-解码模块中，通过卷积操作，将F_g中的引导信息与视差信息进行融合并输出视差残差图，最后通过将视差残差图与初始视差图d⁰进行相加，从而得到优化后的视差图；

步骤S2.7：重复步骤S2.1到步骤S2.6，得到一张大小为全分辨率下的优化后的视差图为止，其中，在优化的最初阶段，直接将步骤S1中得到的初始视差作为已优化的视差图，输入到步骤2.1中。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：定义多尺度损失函数如下：

其中，d_k为尺度k下得到的优化后的视差图，当k＝3时，表示初始化子网络得到视差图；则表示视差的真值；

步骤S3.2：将立体像对中的左右图像作为训练样本，单独训练初始化子网络，保留使得初始化子网络收敛的第一子网络参数；

步骤S3.3：将步骤S3.2中训练得到的初始子网络的输出作为优化子网络的输入，单独训练优化子网络，保留使得优化子网络收敛第二子网络参数；

步骤S3.4：以步骤S3.2得到的第一子网络参数和步骤S3.3得到的第二子网络参数为初始值，联合训练视差估计网络模型，直到整个网络收敛到最优精度为止，得到训练后的视差估计网络模型。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供一种基于细节增强的双目立体匹配方法，首先，设置能够获取低分辨率下的初始视差估计结果的初始化子网络；设置带引导模块的优化子网络，初始化子网络与优化子网络构成视差估计网络模型，其中，优化子网络用以结合多尺度优化策略，逐步上采样并优化步骤S1中产生的低分辨率初始视差，输出全分辨率下的稠密视差估计结果；接着，将立体像对中的左右图像作为训练样本集，采用多尺度损失函数，基于训练样本集，分别对初始化子网络、优化子网络以及整个视差估计网络模型进行训练；最后，将待匹配的双目立体像对输入训练好的网络模型，得到预测的视差估计结果。

相对于通过额外的子任务网络来提供引导信息的方法，本发明直接将原始彩色图像作为引导信息，大大的降低了网络的复杂度。而与那些直接将原始图像与初始视差结合的方法，本发明设计了一种内嵌式的引导模块，先分别对初始视差图与原始彩色图像进行基于卷积操作的预处理，再进行结合的方式，大大的降低了图像噪声对细节视差估计的影响。之后，引导模块的输出被送入一个编码-解码模块来融和并学习视差与引导信息的关系，并最终得到一幅具有更多细节信息的，精度更高的优化后的视差图。此外，本发明采用了一种多尺度的优化策略，通过先在较低的分辨率下优化初始视差，然后逐步上采样，再在较高的分辨率上进行优化的方式，极大地简化网络的训练难度，并进一步提升视差估计的精度与细节恢复的程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种基于细节增强的双目立体匹配方法的流程图；

图2为本发明提出的基于细节增强的高精度立体匹配网络的网络结构图；

图3为本发明在Scene Flow数据集上的实验结果示意图；

图4为本发明在KITTI 2015数据集上的实验结果示意图。

具体实施方式

本发明的目的在于针对现有技术中的方法存在的匹配精度不高的技术问题，提供的一种基于细节增强的高精度双目立体匹配方法。该方法通过对已标注真实视差的立体像对数据进行有监督学习与训练，最终得到一个能够稳定地进行立体匹配的网络，并输出两幅立体图像之间高精度的具有丰富细节的稠密视差图，从而达到提高匹配精度的效果。

为了达到上述技术效果，本发明的发明构思如下：

首先，利用视差初始化子网络来获取低分辨率下的初始视差估计结果；然后，通过本发明设计的带引导模块的优化子网络，结合多尺度优化策略，逐步上采样并优化步骤1中产生的低分辨率初始视差，并最终输出全分辨率下的稠密视差估计结果；接着，使用多尺度损失函数，将低分辨率下的视差估计结果作为中间监督，以提高网络的收敛精度，促进全分辨率下的视差估计结果；最后，将待匹配的双目立体像对输入训练好的网络，得到视差估计结果。

本发明的上述方法，通过对具有真实视差的训练数据集进行学习与训练，通过引入引导信息，并结合多尺度优化策略，在极大提高了立体匹配所得到的视差结果的精度与鲁棒性的同时，还显著地得提升了视差图中对小目标以及边缘等细节信息的估计结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种新的基于细节增强的高精度双目立体匹配方法，整个网络结构如图2所示，其主要包含两个子网络，分别是视差初始化子网络和视差优化子网络，立体匹配的具体步骤如图1所示，包括：

步骤S1：设置能够获取低分辨率下的初始视差估计结果的初始化子网络。

具体来说，其中，初始化子网络的结构如图2所示，其包括一系列的权重共享卷积操作和降采样操作。

步骤S2：设置带引导模块的优化子网络，初始化子网络与优化子网络构成视差估计网络模型，其中，优化子网络用以结合多尺度优化策略，逐步上采样并优化步骤S1中产生的低分辨率初始视差，输出全分辨率下的稠密视差估计结果。

本发明与现有技术相比，具有以下三个优点：

1)特征学习，泛化能力强

本发明使用基于卷积神经网络的深度学习方法，通过训练一个端到端的网络，输入一幅立体像对，输出一幅与输入图像同分辨率的稠密视差图。该过程不需要人工设计的特征来进行干预，网络本身可以从训练数据中学习得到所需要的特征，并加以合理的利用，因此具有更好地泛化能力，即便是在面对复杂场景的时候，也能有稳定的表现。

2)网络复杂度低，易于训练

本发明设计的网络没有引入来自其它任务的子网络(比如边缘提取网络)来提供所需要的引导信息，而是通过一个简单的引导模块来结合原始彩色图像与初始视差结果，并采用多尺度优化策略来逐步地优化视差结果。因此，本发明设计的网络结构简单，复杂度低，并且易于训练。

3)视差估计精度高，细节保持好

有用本发明采用了多尺度优化策略，并有效利用了彩色图像中的引导信息，在避免了图像噪声影响的同时，极大地提高了最终得到的视差估计结果的精度，并且恢复了更多的细节信息。

具体来说，步骤S1.1是图像特征的提取步骤。将一对立体像对作为输入，通过一系列权重共享的卷积和降采样操作，来分别获取立体像对中左右图像的大小为的低分辨率特征矩阵，其中W代表原图像的宽度，H代表原图像的高度。

步骤S1.2是采用空间金字塔池化模块(SPP模块)进行多尺度信息的融合。以输入图像中的左图为例子，对步骤S1.1中得到的低分辨率特征矩阵分别进行2倍、4倍、8倍以及16倍的下采样，再分别进行若干卷积操作。然后将卷积过后的下采样特征矩阵全部上采样到原分辨率下，并与原特征矩阵在特征通道维度上进行结合，从而得到一个大小为的多尺度信息融合的特征矩阵。最后再通过若干个卷积层，以降低特征矩阵的通道数量，最终得到一个大小为的多尺度特征矩阵。对输入图像中的右图进行同样的操作，便可得到右图的多尺度特征矩阵。

步骤S1.3是计算匹配代价。将步骤S1.2中得到的左右图像的多尺度特征矩阵进行融合。在不同的视差取值下，将左右图像的多尺度特征矩阵进行连接操作，从而得到一个大小为的4维初始代价聚合矩阵，其中D为在全分辨率上进行视差搜索的最大范围。然后通过一系列三维卷积操作，对代价聚合矩阵进行计算，并最终输出一个大小为的三维代价聚合矩阵。最后，通过对三维代价聚合矩阵在视差D的维度上进行回归运算，从而得到一幅大小为的低分辨率初始视差图。

具体来说，通过步骤S2.2，将待优化的初始视差图输入引导模块，采用若干个卷积层对其进行卷积预处理，可以消除初始视差图与引导信息图中的不一致结构，从而得到卷积预处理后的初始视差图。

步骤S2.3，将原始输入图像下采样到与初始视差同样的分辨率，并输入引导模块后，一系列卷积操作被分别应用到下采样的左右图上，可以得到左右图的大小为W_k×H_k×16的引导信息矩阵F^l和F^r，其中，W_k为对应尺度下的图像宽度，H_k为相应的图像高度。

步骤S2.4中，由于预测的左图上的视差结果，所以需要将右图信息引导矩阵向左图映射。在其他实施方式中，如果要预测右图的视差，则需要将左图引导信息矩阵向右图进行映射。

步骤S2.5中可以得到一个大小为W_k×H_k×33的综合引导矩阵F_g。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：定义多尺度损失函数如下：

具体来说，步骤S3.2是单独训练初始化子网络的过程，将立体像对中的左右图像作为训练样本输入初始化子网络，从而可以得到低分辨率视差估计结果，多尺度损失函数在步骤S3.1～步骤S3.3中均需要用到，损失函数可以根据训练的网络的特点进行调整。例如，在步骤S3.1中，单独训练初始子网络时，由于只有一个尺度的输出，所以此时的多尺度损失函数中只有一项。通过单独训练初始化子网络，可以得到较好的初始视差。

步骤S3.3是单独训练优化子网络的过程，在该过程中，本发明固定初始化子网络的第一网络参数，训练优化子网络。首先，仍是输入立体像对中的左右图像，通过初始化子网络估计出低分辨率视差估计结果，然后送入优化子网络进行训练。

步骤S3.4是联合训练整个视差估计网络模型的过程，在该过程中，本发明固定初始化子网络的第一网络参数以及优化子网络的第二网络参数，训练整个网络模型。

在步骤S3.3和步骤S34中，由于存在多个尺度(分辨率)，因此，这两步中的多尺度损失函数中具有多项。

本发明对部分实验数据进行立体匹配得到的视差结果示例如图3和图4所示，可以看出，本发明能稳定、精确地对不同场景下的立体像对进行立体匹配，得到的视差估计结果具备了丰富了细节信息。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于细节增强的双目立体匹配方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1中，初始化子网络获取低分辨率初始视差的过程，具体包括：

3.如权利要求1所述的方法，其特征在于，步骤S2中优化子网络获取稠密视差估计结果的过程，具体包括：

4.如权利要求1所述的方法，其特征在于，步骤S3具体包括：

步骤S3.1：定义多尺度损失函数如下：