CN111915660A

CN111915660A - 基于共享特征和注意力上采样的双目视差匹配方法及系统

Info

Publication number: CN111915660A
Application number: CN202010594237.2A
Authority: CN
Inventors: 谢云; 李巍华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-11-10
Anticipated expiration: 2040-06-28
Also published as: CN111915660B

Abstract

本发明公开了一种基于共享特征和注意力上采样的双目视差匹配方法及系统，该方法步骤包括：将左、右图像预处理后提取1/2尺度、1/4尺度、1/8尺度、1/16尺度特征图；左、右图像1/16尺度特征图构建匹配代价矩阵，生成1/16尺度的初始视差图；使用1/16尺度初始视差图和1/16尺度图像特征图估计出1/16尺度的视差残差图，利用注意力机制实现上采样，生成1/8尺度的视差图；分别使用1/8尺度、1/4尺度、1/2尺度视差图和对应的图像特征图，分别生成1/4尺度、1/2尺度和原尺度视差图；进行模型训练并保存最优模型参数；载入预训练参数，输入图像帧，获取不同尺度视差图。本发明采用共享特征设计和注意力机制上采样，有效提升了视差匹配的精度和速度，能够实时地生成高精度视差图。

Description

基于共享特征和注意力上采样的双目视差匹配方法及系统

技术领域

本发明涉及双目视差匹配技术领域，具体涉及基于共享特征和注意力上采样的双目视差匹配方法及系统。

背景技术

深度估计是很多实际应用的核心问题，比如自动驾驶、三维重建、虚拟现实等。目前，获取深度值的方法有激光雷达，结构光，双目视觉等。其中，双目视觉方法因为成本低，部署方便，被广泛使用。双目视觉方法基于双目相机，双目相机同时拍摄左右两幅视图，从左右两幅视图得到对应的视差图，然后根据双目相机参数计算深度图像。

传统的视差匹配方法可以分为四步：匹配代价计算，代价聚合，视差计算和视差精化。然而，传统的视差匹配方法多是基于人为设计的特征，以及启发式的能量函数，且只能串行计算。因此，精度上和速度上都很难满足实际需求。

近年来，随着深度神经网络网络技术的发展，基于深度卷积神经网络的视差匹配技术在速度和精度上都超过了传统视差匹配方法。由于深度卷积神经网络强大的特征表征能力，使得视差匹配的精度有了大幅度的提高。而且，卷积神经网络能够在GPU上进行快速的并行计算，因此比传统方法要快很多。

然而，目前基于深度卷积神经网络的视差匹配计算仍存在一定局限性，具体表现为：1)参数过多，导致占用显存过大；2)计算量过大，难以支撑高实时的应用；3)无法根据需求实时地调整计算量和精度。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于共享特征和注意力上采样的双目视差匹配方法，以实际应用场景的视差匹配网络作为研究目标，综合考虑视差匹配的准确性与实时性，能够更加鲁棒地、灵活地应对实际应用场景的挑战。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于共享特征和注意力上采样的双目视差匹配方法，包括下述步骤：

对获取的图像进行归一化处理，将双目视觉采集到的左、右图像经预处理后输入卷积神经网络，提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图；

采用左、右图像的1/16尺度特征图构建匹配代价矩阵，采用三维卷积神经网络计算匹配代价矩阵，生成视差可能性特征图，采用Soft-Argmin函数计算视差可能性特征图，生成1/16尺度的初始视差图；

分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层，进行特征提取，采用提取得到的特征估计出1/16尺度的视差残差图，采用提取的特征为每个像素估计出自适应权重，应用注意力机制，将自适应权重与视差图相对应的邻域视差值进行加权求和，实现上采样，生成1/8尺度的视差图；

分别输入1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图，分别生成1/4尺度、1/2尺度、原尺度的视差图；

构建损失函数，根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值，求和取得总的损失值，然后进行反向传播，更新模型参数，当总的损失值不再下降时，保存模型参数；

将预处理后的图像输入模型中，获取不同尺度的视差图。

作为优选的技术方案，所述卷积神经网络由二维卷积层堆叠而成，其中包括用于下采样的二维卷积层，用于输出多种尺度的特征图。

作为优选的技术方案，所述Soft-Argmin函数具体表示为：

其中，Disp_i表示第i个像素的视差值，σ(·)表示一维的softmax函数，P_i表示视差可能性特征图上第i个像素的特征向量，d_max表示网络训练时指定的最大视差值。

作为优选的技术方案，所述生成1/8尺度的视差图，具体步骤包括：

分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入卷积神经网络，分别提取特征，生成特征图，然后将两者的特征图沿着特征图通道拼接起来，形成融合特征图；

将融合特征图输入卷积神经网络，生成1/16尺度的视差残差图，将视差残差图与初始视差图相加，得到优化后的视差图；

将融合特征图输入卷积神经网络，利用卷积神经网络，生成1/8尺度的自适应权重图，权重图中每个像素的权重向量，代表了上采样后1/8尺度视差图对上采样前1/16尺度视差图的注意力依赖；

取1/16尺度视差图每个像素邻域像素的视差值，与权重图中对应的权重向量进行加权求和，生成1/8尺度视差图。

作为优选的技术方案，所述加权求和具体公式如下：

其中，U(p_u)代表了1/8分辨率视差图的某个像素，p_u的坐标为(x,y)，W(p_w)代表了权重图上对应的像素，p_w的坐标为(i,j)，R_d(p_d,2r+1)为1/16分辨率视差图上对应像素的邻域，p_d的坐标为(k,j)，邻域大小为(2r+1)×(2r+1)，

表示逐元素相乘操作，各坐标的对应关系为i＝k＝ceil(x/2)，j＝l＝ceil(y/2)。

作为优选的技术方案，所述损失函数采用Smooth L₁函数，具体表示为：

将预测的视差值与标签值的差输入Smooth L₁函数即可获得损失值。

作为优选的技术方案，所述将预处理后的图像输入模型中，获取不同大小尺度的视差图，具体步骤包括：

在计算平台上加载模型及其参数，判断需要生成的视差图的尺度；

开启双目摄像头，左摄像头和右摄像头同时曝光，获取图像；

对获取的图像进行归一化处理，其图像像素值在-1到1之间；

将预处理后的图像输入模型，生成1/16尺度的视差图；

判断是否满足输出尺度需求，如果不满足，则执行上采样模块，如果满足，则直接返回视差图。

本发明还提供一种基于共享特征和注意力上采样的双目视差匹配系统，包括：归一化处理模块、特征提取模块、初始视差图生成模块、视差图生成模块、模型训练模块和测试模块；

所述归一化处理模块用于对获取的图像进行归一化处理；

所述特征提取模块用于将双目视觉采集到的左、右图像经预处理后输入卷积神经网络，提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图；

所述初始视差图生成模块用于采用左、右图像的1/16尺度特征图构建匹配代价矩阵，采用三维卷积神经网络计算匹配代价矩阵，生成视差可能性特征图，采用Soft-Argmin函数计算视差可能性特征图，生成1/16尺度的初始视差图；

所述视差图生成模块分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层，进行特征提取，采用提取得到的特征估计出1/16尺度的视差残差图，采用提取的特征为每个像素估计出自适应权重，应用注意力机制，将自适应权重与视差图相对应的邻域视差值进行加权求和，实现上采样，生成1/8尺度的视差图；

所述模型训练模块用于构建损失函数，根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值，求和取得总的损失值，然后进行反向传播，更新模型参数，当总的损失值不再下降时，保存模型参数；

所述测试模块用于将预处理后的图像输入模型中，获取不同尺度的视差图。

作为优选的技术方案，所述特征提取模块由残差卷积模块、空洞卷积模块和下采样卷积层组成。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用了创新性的网络架构，先生成低分辨率的视差图，然后再采用注意力上采样机制，逐步把低分辨率视差图上采样，解决了双目视差匹配网络参数过多、推理速度慢的技术问题，达到了在高端GPU上66Fps的实时运行效果，满足了实时的应用需求。

(2)本发明能够通过调整注意力上采样模块的数量，来进行速度和精度的权衡，推理速度范围为66～175Fps，从而尽可能地适应多种实施场景。

附图说明

图1为本实施例基于共享特征和注意力上采样的双目视差匹配方法的流程示意图；

图2为本实施例基于共享特征和注意力上采样的双目视差匹配系统的总体结构示意图；

图3为本实施例基于共享特征和注意力上采样的双目视差匹配系统的残差卷积示意图；

图4为本实施例基于共享特征和注意力上采样的双目视差匹配系统的注意力上采样模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于共享特征和注意力机制上采样的双目视差匹配方法，包括下述步骤：

S1：对训练的图像进行归一化预处理，使其图像像素值在-1到1之间，将归一化预处理后的左、右图像输入卷积神经网络，提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图；

在本实施例中，卷积神经网络由二维卷积层堆叠而成，其中包括用于下采样的二维卷积，来输出多种尺度的特征图。

如图2所示，本实施例将图像送入二维卷积层中，卷积神经网络具备4个步长为2的下采样层，这些下采样层把原始图片转化为1/2尺度、1/4尺度、1/8尺度和1/16尺度的特征图，并将这些特征图与注意力上采样模块进行特征共享，从而提高网络的效率。

结合图2和图3所示，特征提取模块由残差卷积模块、空洞卷积模块和下采样卷积层组成。残差卷积模块如图3所示，本实施例优选卷积核大小为3×3。空洞卷积模块是把残差卷积模块中的普通卷积层替换为空洞卷积层，空洞卷积层能够在不增加计算量的情况下显著地增加感受野。下采样卷积层是指步长大于1的二维卷积层，用于缩小特征尺度，本实施例优选步长为2。在每个下采样卷积后，均接着残差卷积模块或者空洞卷积模块，来增强特征提取能力。具体而言，在第一个、第二个和第三个下采样卷积层后，各自有1个残差卷积模块；在第四个下采样卷积层后，有5个空洞卷积模块，卷积核为3×3，空洞参数dilation分别为1、2、4、8、1。

S2：使用左、右图像的1/16尺度特征图构建匹配代价矩阵，采用三维卷积神经网络计算匹配代价矩阵，生成视差可能性特征图，采用Soft-Argmin函数计算视差可能性特征图，生成1/16尺度的初始视差图；

Soft-Argmin函数如下：

其中，Disp_i表示第i个像素的视差值，σ(·)表示一维的softmax函数，P_i表示视差可能性特征图上第i个像素的特征向量，d_max表示网络训练时指定的最大视差值；

在本实施例中，代价矩阵是一个四维的数组。若假设1/16尺度特征图的维度是C×H×W，那么代价矩阵的维度是2C×D×H×W，其中D＝ceil(d_max/16)。代价矩阵实际上拼接了所有可能匹配到像素的特征向量。本实施例的三维卷积神经网络仅由5个三维卷积层组成，三维卷积层的数量极少，仅为其他双目视差匹配网络的几分之一。由于三维卷积层消耗的计算量相对较大，因此本实施例相比于现有其他双目视差匹配网络速度提升了许多。

S3：分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层，进行特征提取，使用提取得到的特征估计出1/16尺度的视差残差图，同样地，使用提取的特征为每个像素估计出自适应权重，应用注意力机制，将自适应权重与视差图相对应的邻域视差值进行加权求和，从而实现上采样，生成1/8尺度的视差图；

S31、分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入卷积神经网络，分别提取特征，生成特征图，然后将两者的特征图沿着特征图通道拼接起来，形成融合特征图；

S32、将融合特征图输入卷积神经网络，生成1/16尺度的视差残差图，将视差残差图与初始视差图相加，得到优化后的视差图；

S33、将融合特征图输入卷积神经网络，利用卷积神经网络，生成1/8尺度的自适应权重图，权重图中每个像素的权重向量，代表了上采样后1/8尺度视差图对上采样前1/16尺度视差图的注意力依赖；

S34、取1/16尺度视差图每个像素邻域像素的视差值，与权重图中对应的权重向量进行加权求和，生成1/8尺度视差图，完成注意力机制上采样操作，具体公式如下：

是逐元素相乘操作，以上各坐标的对应关系为i＝k＝ceil(x/2)，j＝l＝ceil(y/2)。

具体而言，步骤S33可参阅图4上分支。步骤S33中的卷积神经网络，将融合特征图作为输出，输出通道数为μ²×k_d ²的特征图，然后该特征图进行了特征重组，从而形成所述权重图W。注意此时权重图W的长度和宽度均为1/8尺度的。步骤S34可参阅图4的下分支。步骤S34首先对残差优化后的视差图的每个像素的领域进行集成，注意领域大小为(2r+1)×(2r+1)，且(2r+1)×(2r+1)＝k_d ²。对每个像素的领域进行集成后，形成一个通道数为k_d ²的特征图。对该特征图进行最近邻上采样，这样每个该特征图变为1/8尺度的。最近邻上采样保证了步骤S34公式的快速实施。最后，如图4所示，将权重图W与步骤S34的特征图逐元素相乘，然后沿通道求和，即可获取1/8分辨率的视差图。注意力上采样机制的益处在于：能够通过特征图辨识低分辨视差图中不同视差区域从而生成不同的权重进行上采样，对于视差平滑的区域，生成均值权重，进行离群值的剔除，对于视差不连续的区域，可以根据边缘的信息，生成对应的权重值，因此，上采样后的视差图相比于其他上采样方法，减少了边缘模糊的现象，同时也剔除了离群值。

S4：分别使用1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图，生成1/4尺度、1/2尺度、原尺度的视差图；

S5：构建损失函数，根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失，求和取得总的损失，然后进行反向传播，更新模型参数，当总的损失不再下降时，保存模型参数；

步骤S5中的损失函数为Smooth L₁函数，将预测的视差值与标签值的差输入Smooth L₁函数即可获得损失值，所述Smooth L₁函数为：

具体而言，步骤S5的训练过程使用的优化器为Adam，学习率为0.001，使用的数据集是虚拟数据集SceneFlow，网络输出的不同尺度的视差图，均需要用插值上采样到和标签视差图一样的分辨率，然后再计算损失函数。网络在虚拟数据集上达到较好效果后，需要在真实数据集上进行迁移学习。

S6：实际应用场景中，模型载入预训练参数，开启双目摄像头，左摄像头和右摄像头同时曝光，获取图像，对获取的图像进行归一化处理，使其图像像素值在-1到1之间，将预处理后的图像输入模型中，根据实际需求，获取不同大小尺度的视差图，具体步骤包括：

S61、在计算平台上加载模型及其参数，判断需要生成的视差图的尺度；

S62、开启双目摄像头，左摄像头和右摄像头同时曝光，获取图像；

S63、对获取的图像进行归一化处理，其图像像素值在-1到1之间；

S64、将预处理后的图像输入模型，生成1/16分辨率的视差图；

S65、判断是否满足输出尺度需求，如果不满足，则执行上采样模块，如果满足，则直接返回视差图；

S66、重复S65步骤。

综上，本发明针对实际应用场景提出了一种基于共享特征和注意力上采样的双目视差匹配方法。该方法采用了创新性的网络架构，先生成低分辨率的视差图，然后再采用注意力上采样机制，逐步把低分辨率视差图上采样。该方法能在高端GPU上以66Fps的帧率实时运行，满足了实时的应用需求。该方法能够通过调整注意力上采样模块的数量，来进行速度和精度的权衡，推理速度范围为66～175Fps，从而尽可能地适应多种实施场景。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，包括下述步骤：

将预处理后的图像输入模型中，获取不同尺度的视差图。

2.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，所述卷积神经网络由二维卷积层堆叠而成，其中包括用于下采样的二维卷积层，用于输出多种尺度的特征图。

3.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，所述Soft-Argmin函数具体表示为：

4.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，所述生成1/8尺度的视差图，具体步骤包括：

5.根据权利要求4所述的基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，所述加权求和具体公式如下：

6.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，所述损失函数采用Smooth L₁函数，具体表示为：

7.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法，其特征在于，所述将预处理后的图像输入模型中，获取不同尺度的视差图，具体步骤包括：

对获取的图像进行归一化处理，其图像像素值在-1到1之间；

将预处理后的图像输入模型，生成1/16尺度的视差图；

8.一种基于共享特征和注意力上采样的双目视差匹配系统，其特征在于，包括：归一化处理模块、特征提取模块、初始视差图生成模块、视差图生成模块、模型训练模块和测试模块；

所述归一化处理模块用于对获取的图像进行归一化处理；

所述模型训练模块用于构建损失函数，根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值，求和取得总的损失值，然后进行反向传播，更新模型参数，当总的损失不再下降时，保存模型参数；

9.根据权利要求8所述的基于共享特征和注意力上采样的双目视差匹配系统，其特征在于，所述特征提取模块由残差卷积模块、空洞卷积模块和下采样卷积层组成。