CN112270701A

CN112270701A - 基于分组距离网络的视差预测方法、系统及存储介质

Info

Publication number: CN112270701A
Application number: CN202011156502.5A
Authority: CN
Inventors: 吴文欢; 汤飞; 吴岳敏; 魏本昌
Original assignee: Hubei University of Automotive Technology
Current assignee: Hubei University of Automotive Technology
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-26
Anticipated expiration: 2040-10-26
Also published as: CN112270701B

Abstract

本发明属于视觉测距技术领域，公开了一种基于分组距离网络的视差预测方法、系统及存储介质，通过级联多个残差网络模块提取左右视图上每个像素的特征向量，并且对不同深度残差模块生成的特征向量进行拼接，由此融合不同属性的特征信息；对左右视图之间对应像素的特征向量进行分组，并计算对应特征向量的分组距离向量，同时构建4D代价体；采用三个级联的沙漏网络对4D代价体进行3D卷积，并通过视差回归生成最终视差图。本发明能够有效应对场景中诸多干扰因素。通过将分组距离网络在某个场景数据集上进行端到端的训练学习，并可直接利用训练好的网络模型准确地预测出该场景下立体图像的视差图。

Description

基于分组距离网络的视差预测方法、系统及存储介质

技术领域

本发明属于视觉测距技术领域，尤其涉及一种基于分组距离网络的视差预测方法、系统及存储介质。

背景技术

目前，立体视觉是一种非接触式的被动深度感知方法，它无需额外的信号发射器，仅仅通过摄像机在不同视点采集同一场景的一对立体图像，然后利用立体匹配技术在立体图像之间搜寻出所有彼此对应的匹配点对，并通过求解对应像素之间的视差就能恢复场景稠密的深度信息，因此，立体视觉及其匹配技术在汽车自动驾驶、机器人导航与测距、三维测量、三维重构、虚拟现实等领域有着广泛的应用。

同一场景立体图像之间的成像差异与内在联系是由场景光照条件、物体表面纹理特征与反射特性、景物之间遮挡关系、摄像机参数设置等诸多综合因素导致的，但是传统非学习的立体匹配方法不能有效描述拍摄场景特有的成像属性，无法对所有引起成像差异的因素综合起来建模，使其在求解复杂场景(如道路交通场景)下立体图像之间视差时出现非常严重的退化。为此，本发明给出了一种端到端的分组距离网络模型，通过将其在某个特定场景的数据集进行训练学习，即可利用它来准确地预测该场景下输入立体图像的视差。

通过上述分析，现有技术存在的问题及缺陷为：难以准确求解复杂场景下立体图像之间的视差问题。

(1)在采集同一场景的一对立体图像时，由于受光照变化、摄像机曝光设置不同以及物体表面光反射等因素的影响，使得立体图像之间对应像素的成像差异较大；

(2)现实场景中经常出现大面积、无规则的弱纹理或重复纹理区域，由于这些区域的像素纹理特征极其相似，导致在这些区域中寻找匹配点时，很容易出现一对多的匹配歧义。

(3)由于采集立体图像的摄像机视点位置不同，必定存在一些区域在一幅图像中可见，而在另一幅图像中不可见的遮挡问题。

解决以上问题及缺陷的难度为：

立体图像的成像不仅受摄像机设置影响，而且与场景特性密切相关，因此，需要为每个像素点提取出与摄像机以及场景特性相适应的鲁棒特征向量。另外，为了消除匹配二义性，需要设计一种有效度量策略来计算像素特征向量之间的相似度，以此拉大真实匹配像素与其他候选像素的类间距离。最后，对于被遮挡区域中的像素点，实际上是找不出与之匹配的像素点，因此，如何正确估计被遮挡像素点的视差也是极具挑战性。

解决以上问题及缺陷的意义为：通过解决上述难点问题，视差的计算能够自适应摄像机特性和场景特性，匹配歧义能得到有效消除，被遮挡区域的视差能得到正确估计，视差图的精度也能得到极大提升，从而使得由立体图像感知深度并进行三维重构的问题能得到更好的解决，同时对于立体视觉技术更加广泛而成熟的应用起到极大的推动作用。

发明内容

针对现有技术存在的问题，本发明提供了一种基于分组距离网络的视差预测方法、系统及存储介质。

本发明是这样实现的，一种基于分组距离网络的视差预测方法，所述基于分组距离网络的视差预测方法包括：

首先，通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取，并且对不同深度残差模块生成的特征向量进行拼接，融合不同属性的特征信息；其次，对左右视图之间对应像素的特征向量进行分组，并计算对应特征向量的分组距离向量，同时构建4D代价体；最后，采用三个级联的沙漏网络进行3D卷积，并通过视差回归生成最终视差图。

进一步，所述基于分组距离网络的视差预测方法包括以下步骤：

步骤一，通过提取左右视图对应的特征图、构建代价体、进行代价体滤波自己视差回归构建分组距离网络模型；

步骤二，利用训练集对构建的分组距离网络模型进行训练；并利用

函数度量每个预测出的视差图与真实视差图之间的误差，直至训练模型收敛则保存相应的参数；

步骤三，将立体图像输入到训练号的分组距离网络模型中，利用保存的模型参数作为分组距离网络模型的预测参数，分组距离网络第四个通道输出的视差图

即为预测生成出的视差图结果。

进一步，步骤一中，所述代价体构建方法包括：

通过不断改变视差值d，并且在每个视差值d下，将左视图中每个像素的特征向量与右视图中对应像素的特征向量进行对齐，计算特征向量之间的分组距离向量，即可构建4D代价体C_GD；所述4D代价体尺寸为N_g×W/4×H/4×L/4；L 为视差总数；

C_GD(x,y,d)＝GD(v_l(x,y),v_r(x-d,y))；

其中，C_GD(x,y,d)表示左视图上像素点p_l(x,y)在视差值d下的匹配代价； GD(v_l(x,y),v_r(x-d,y))表示特征向量v_l(x,y)和v_r(x-d,y)的分组距离；

所述GD(v_l(x,y),v_r(x-d,y))：

进一步，步骤一中，所述分组距离网络模型包括：

深度特征提取模块，用于提取得到左右视图对应的特征图；

基于分组距离的代价体构建模块，用于基于提取得到的特征图进行代价体构建；

代价体滤波模块，用于对生成的代价体进行滤波，并生成3D代价体C；

视差回归模块，用于对生成的代价体C中每个像素p在视差为d代价值实施softmax映射得到其视差为d的概率δ(p,d)以及用于通过soft argmin函数计算得到素p的最终视差

进一步，所述深度特征提取模块包括：卷积层、归一化处理和ReLU激活层、残差块以及后处理卷积层；

所述卷积层大小为3×3，级联三个滤波器，用于对输入图像进行预处理；其中，第一个卷积层步长为2，用于将输出特征图像的大小变为输入图像的1/2；

所述归一化处理和ReLU激活层位于每个卷积层后；

所述残差块级联三种不同类型，用于对预处理后的特征图像进行处理；其中，所述残差块总数为25，每个残差块包含2个卷积层，第四个残差块的第一个卷积层步长设置为2，用于将输出特征图像的大小变为输入图像的1/4；同时所述残差块用于将生成的特征图在通道方向上进行拼接，生成通道数为384的特征图；

所述后处理卷积层大小为3×3，用于利用级联两个滤波器对融合特征图进行后处理，生成通道数为128的特征图，并且将输入的融合特征图与输出的特征图进行拼接得到最终通道数为512的特征图。

进一步，所述代价体滤波模块包括：

一个3D卷积残差块，用于对4D代价体C_GD进行预滤波处理；

三个级联的3D沙漏网络，用于对预处理结果进行滤波、将前一个滤波结果通过跳跃连接添加到紧随其后的滤波结果上；

输出模块，用于输出最终的滤波结果以及三个中间滤波结果；同时用于利用两个级联的3D卷积层进行后处理，令通道数变为1，生成一个3D代价体C，并对生成的代价体进行双线性插值上采样，转换尺寸为W×H×L。

进一步，所述每个沙漏网络采用相同的3D编码器-解码器结构，即先对代价体进行从上至下的3D卷积和下采样，然后对编码器结果进行从下到上的3D 反卷积和上采样；所述单个3D沙漏网络，通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上，用于融合编码器与解码器中的特征图信息。

进一步，所述视差回归模块包括：

对生成的代价体C中每个像素p在视差为d代价值C(p,d)实施softmax映射得到其视差为d的概率δ(p,d)，即：

通过soft argmin函数计算得到像素p的最终视差

即：

进一步，步骤二中，所述利用

函数度量每个预测出的视差图与真实视差图之间的误差即：

其中，

表示提供了真实视差值的像素集合，

是视差图

中像素p的视差估计，

是像素p的真实视差值，

函数定义如下：

将所有预测视差图损失的加权和作为分组距离网络的损失函数Loss，即：

其中，λ_k表示视差图

的损失权重。

本发明另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

通过级联多个残差网络模块进行左右视图上每个像素的特征向量的提取，并且对不同深度残差模块生成的特征向量进行拼接，融合不同属性的特征信息；

对左右视图之间对应像素的特征向量进行分组，并计算对应特征向量的分组距离向量，同时构建4D代价体；

采用三个级联的沙漏网络进行3D卷积，并通过视差回归生成最终视差图。

本发明另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明另一目的在于提供一种所述基于分组距离网络的视差预测方法在汽车自动驾驶、机器人导航与测距、三维测量、三维重构、虚拟现实等领域上的应用。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：直接效果是本发明通过将分组距离网络在某个场景数据集上进行端到端的训练学习，并可直接利用训练好的网络模型准确地预测出该场景下立体图像的视差图；整体效果是本发明鲁棒性较强，视差计算精度较高，能够自适应摄像机与场景特性，能有效克服场景中光照变化大、光反射、阴影、运动模糊、景物遮挡关系复杂、物体表面纹理单一等诸多干扰因素；从权效果是本发明能够提升双目立体视觉测距、三维测量和三维重构的精度，能够更好地服务于汽车辅助驾驶和机器人的自主导航领域。

对比的技术效果或者实验效果。如图7实验结果在KITTI 2012测试集预测出的视差图所示，图7(a)图像000000_10；(b)图像000000_10的视差图(平均视差误差为0.4px)；(c)图像000001_10；(d)图像000001_10的视差图(平均视差误差为0.5px)；(e)图像000002_10；(f)图像000002_10的视差图(平均视差误差为0.3px)。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于分组距离网络的视差预测方法流程图。

图2是本发明实施例提供的分组距离网络模型架构图。

图3是本发明实施例提供的分组距离网络模型结构示意图；

图中：1、深度特征提取模块；2、基于分组距离的代价体构建模块；3、代价体滤波模块；4、视差回归模块。

图4是本发明实施例提供的代价体构建模块示意图。

图5是本发明实施例提供的特征提取模块示意图。

图6是本发明实施例提供的代价体滤波模块示意图。

图7是本发明实施例提供的预测视差的实验结果效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于分组距离网络的视差预测方法，下面结合附图对本发明作详细的描述。

本发明实施例提供的基于分组距离网络的视差预测方法包括：

如图1所示，本发明实施例提供的基于分组距离网络的视差预测方法包括以下步骤：

S101，通过提取左右视图对应的特征图、构建代价体、进行代价体滤波以及视差回归构建分组距离网络模型；

S102，利用训练集对构建的分组距离网络模型进行训练；并利用

S103，将立体图像输入到训练好的分组距离网络模型中，利用保存的模型参数作为分组距离网络模型的预测参数，分组距离网络第四个通道输出的视差图

即为预测生成出的视差图结果。

步骤S101中，本发明实施例提供的代价体构建方法包括：

C_GD(x,y,d)＝GD(v_l(x,y),v_r(x-d,y))；

其中，C_GD(x,y,d)表示左视图上的像素点p_l(x,y)在视差值d下的匹配代价； GD(v_l(x,y),v_r(x-d,y))表示特征向量v_l(x,y)和v_r(x-d,y)的分组距离；

所述GD(v_l(x,y),v_r(x-d,y))：

如图2至图4所示，步骤S101中，本发明实施例提供的分组距离网络模型包括：

深度特征提取模块1，用于提取得到左右视图对应的特征图；

基于分组距离的代价体构建模块2，用于基于提取得到的特征图进行代价体构建；

代价体滤波模块3，用于对生成的代价体进行滤波，并生成3D代价体C；

视差回归模块4，用于对生成的代价体C中每个像素p在视差为d代价值实施softmax映射得到其视差为d的概率δ(p,d)以及用于通过soft argmin函数计算得到素p的最终视差

如图5所示，本发明实施例提供的深度特征提取模块1包括：卷积层、归一化处理和ReLU激活层、残差块以及后处理卷积层；

所述归一化处理和ReLU激活层位于每个卷积层后；

如图6所示，本发明实施例提供的代价体滤波模块包括：

一个3D卷积残差块，用于对4D代价体C_GD进行预滤波处理；

本发明实施例提供的每个沙漏网络采用相同的3D编码器-解码器结构，即先对代价体进行从上至下的3D卷积和下采样，然后对编码器结果进行从下到上的 3D反卷积和上采样；所述单个3D沙漏网络，通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上，用于融合编码器与解码器中的特征图信息。

如图5所示，本发明实施例提供的视差回归模块包括：

通过soft argmin函数计算得到像素p的最终视差

即：

步骤S102中，本发明实施例提供的利用

函数度量每个预测出的视差图与真实视差图之间的误差即：

其中，

表示提供了真实视差值的像素集合，

是视差图

中像素p的视差估计，

是像素p的真实视差值，

函数定义如下：

其中，λ_k表示视差图

的损失权重。

下面结合具体实施例对本发明的技术效果作进一步描述。

实施例1：

本发明的分组距离网络视差预测方法，具体按照以下步骤实施：

步骤1：分组距离网络的构建

本发明提供的分组距离网络总体架构如附图2所示，下面将结合附图对其各个网络子模块的构建进行描述。

(1)特征提取

像素的深度特征提取模块如附图5所示。首先，级联三个滤波器大小为3×3 的卷积层对输入图像进行预处理，每个卷积层后面依次紧跟批归一化(Batch Normlization)处理和ReLU激活层，其中第一个卷积层的步长为2，即将输出特征图像的大小变为输入图像的1/2，以便降低网络复杂度，增加感受野大小。然后，级联三种不同类型的残差块对预处理后的特征图像进行处理，残差块总数为25，每个残差块包含2个卷积层，并且将第四个残差块的第一个卷积层步长设置为2，即将输出特征图像的大小变为输入图像的1/4，以进一步减少网络参数。为了融合这些不同深度的特征图信息，输出并保存一些由中间残差块得到的特征图，并且将这些特征图在通道方向上进行拼接，生成通道数为384的特征图。最后，通过级联两个滤波器大小为3×3的卷积层对这个融合特征图进行后处理，生成通道数为128的特征图，并且将输入的融合特征图与输出的特征图进行拼接即可得到最终通道数为512的特征图。

通过分别将立体图像的左右视图输入到权重相同的特征提取模块就可得到左右视图对应的特征图，相应地，立体图像中每个像素都可用一个512维的一元深度特征向量进行描述。

(2)基于分组距离的代价体构建模块

代价体构建模块如附图4所示。假设特征提取模块为左右视图生成的特征图分别为FM_l和FM_r，令输入图像的高度和宽度分别为W和H，则这两个特征图的尺寸都为W/4×H/4×N_C，其中N_C＝512表示特征图的通道数。对于左视图上的像素点p_l(x,y)，假设其在左特征图像FM_l上的特征向量为v_l(x,y)，那么在视差值d下，在右视图中与点p_l(x,y)对应的像素点为p_r(x-d,y)，相应地，点 p_r(x-d,y)在右特征图像FM_r上的特征向量为v_r(x-d,y)。显然，向量v_l(x,y)和向量v_r(x-d,y)的维度等于特征图像的通道数N_C。

将v_l(x,y)和v_r(x-d,y)这两个对应特征向量都分成N_g组，则每组中特征子向量包含的通道数为N_c/N_g，设v_l(x,y)和v_r(x-d,y)的第k组特征子向量分别为

和

则这两个子向量包含对应特征向量的通道序列为 <kN_C/N_g,kN_C/N_g+1,…,(k+1)N_C/N_g-1>，这里通道索引从0开始计数。通过分别求解每个组中左右对应子向量的欧式距离，然后将所有组的欧式距离拼接起来并可构成分组距离向量，因此，在视差值d下，特征向量v_l(x,y)和v_r(x-d,y)的分组距离GD(v_l(x,y),v_r(x-d,y))可表示为：

相应地，左视图上的像素点p_l(x,y)在视差值d下的匹配代价C_GD(x,y,d)可用特征向量v_l(x,y)和v_r(x-d,y)的分组距离来表示：

C_GD(x,y,d)＝GD(v_l(x,y),v_r(x-d,y)) (2)

因此，通过不断改变视差值d，并且在每个视差值d下，将左视图中每个像素的特征向量与右视图中对应像素的特征向量进行对齐，求解它们之间的分组距离向量，即可生成一个4D代价体C_GD，其尺寸为N_g×W/4×H/4×L/4，其中L 为视差总数。

(3)代价体滤波模块

代价体滤波模块如附图6所示。首先，采用一个3D卷积残差块对4D代价体C_GD进行预滤波处理。然后，级联三个3D沙漏(hourglass)网络(沙漏网络是本发明的从属技术，可参考相关的技术文献实现)对预处理结果进行滤波。每个沙漏网络采用相同的3D编码器-解码器结构，即先对代价体进行从上至下的3D卷积和下采样，然后对编码器结果进行从下到上的3D反卷积和上采样。另外，对于单个 3D沙漏网络，通过跳跃连接将编码器中的特征图加到解码器中对应的特征图上，以此来融合编码器与解码器中的特征图信息。在不同滤波结果之间，需将前面的滤波结果通过跳跃连接加到紧随其后的滤波结果上，以便于残差学习。最后，除了输出最终的滤波结果外，还输出三个中间的滤波结果。对于每个输出模块，使用两个级联的3D卷积层进行后处理，使得通道数变为1，进而生成一个 3D代价体C，紧接着对该代价体进行双线性插值上采样，使其尺寸变为W×H×L 。

(4)视差回归模块

在由代价体滤波模块经过双线性插值后生成的代价体C中，对于每个像素p ，其视差为d的概率δ(p,d)可通过对该视差的代价值实施softmax映射得到，即

相应地，像素p的最终视差

可通过如下soft argmin函数计算得到，即：

步骤2：网络模型的训练

让分组距离网络在某个场景的训练集上进行训练学习。对于训练集中的每对立体图像，假设分组距离网络的四个输出通道预测出的视差图分别为

而真实视差图为

则使用

函数来度量每个预测出的视差图与真实视差图之间的误差，即：

其中，

表示提供了真实视差值的像素集合，

是视差图

中像素p的视差估计，

是像素p的真实视差值，而

函数定义如下：

相应地，分组距离网络的损失函数Loss是所有预测视差图损失的加权和，即：

其中，λ_k表示视差图

的损失权重，k＝1,2,3,4这四个权重值依次为 0.5,0.5,0.7,1.0。

在网络训练过程中，一旦网络模型收敛，并可用此网络模型为该场景的立体图像预测视差。

步骤3：预测视差

将与训练集场景相同的任一立体图像输入到分组距离网络中，其参数使用步骤2中已学习出的网络模型参数值，分组距离网络第四个通道输出的视差图

即为预测生成出的视差图结果。

图7实验结果为：在KITTI 2012测试集预测出的视差中，图7(a)图像 000000_10；(b)图像000000_10的视差图(平均视差误差为0.4px)；(c)图像 000001_10；(d)图像000001_10的视差图(平均视差误差为0.5px)；(e)图像 000002_10；(f)图像000002_10的视差图(平均视差误差为0.3px)。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。