CN112200853A

CN112200853A - 一种基于三维卷积神经网络的渐进式实时立体匹配方法

Info

Publication number: CN112200853A
Application number: CN202011111082.9A
Authority: CN
Inventors: 王巍
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-08

Abstract

一种基于三维卷积神经网络的渐进式实时立体匹配方法，包括特征提取(FEM)、视差初始化(DIM)以及视差细化(DIM)，其中，FEM为DIM和DRM提供稳健的多尺度特征，在低分辨率层级中DIM使用三维卷积神经网络对视差进行初始化处理，DRM在多个尺度上使用多分支融合(MBF)模块来渐进地恢复视差图细节，本算法采用轻量的骨干神经网络提取特征，在保证算法实时性的同时，为其他模块提供多尺度特征；并且在视差图渐进细化过程中，通过对比左右特征来恢复视差图的结构细节和修正视差值偏差；对不同特点区域进性自动聚类，并分别处理再融合输出结果，使模型具有自适应处理能力。

Description

一种基于三维卷积神经网络的渐进式实时立体匹配方法

技术领域

本发明涉及三维物体识别领域，特别是一种基于三维卷积神经网络的渐进式实时立体匹配方法。

背景技术

三维物体识别技术能提取目标物体的三维特征信息，进而对场景中一个或多个目标进行识别或分类，相较于传统二维图像识别更能准确全面地丰富物体的三维信息，从而进行更高维的特征提取以便处理更复杂的任务，三维物体识别技术成为近年来计算机视觉领域的研究热点之一，被广泛应用于智能机器人、维修检测、无人驾驶、军事侦察等领域。

双目立体视觉技术模拟人眼获取相同点产生的视差从而进行目标三维重建，获取三维图像。与结构光传感器、TOF(time-of-flight)相机等获取深度图像方式相比，双目立体视觉技术对硬件、成本要求更低，所获取的深度图像更加密集、精确；与单目视觉深度估计相比，双目立体视觉技术计算复杂度更小，系统实时性更高。双目立体视觉技术更加适用于实际生产生活中的三维物体信息采集，有着巨大的发展空间和良好的应用前景。

请参阅附图2所示，双目立体视觉系统主要分为双目图像获取、双目相机系统标定、立体校正、立体匹配和三维重建五大环节，该系统实现的最终结果是对三维空间的物体进行立体重建，立体匹配的目的是从左、右两张图像中寻找同名点，进而根据其视差计算出该点的深度信息。因此，立体匹配算法通常分为四个过程实现：匹配代价计算、匹配代价聚合、视差计算和视差优化。这里，匹配代价是利用相似性函数计算左右图中像素点的代价；代价聚合是指通过邻接像素间的联系，用一定的方法，对代价矩阵进性优化，以处理图像在弱、无纹理区域中的代价值无法准确配对的问题，从而降低异常点的影响，提高信噪比；视差计算/优化是指在视差搜索范围内选择代价值最小的点作为对应匹配点，并确定该点视差；视差校正是指对匹配好的视差图进行后期处理，以解决遮挡点视差不准确、噪声点、误匹配点等问题。根据是否采用匹配代价和代价聚合，可以将传统的立体匹配算法分为全局、半全局和局部立体匹配算法。全局立体匹配算法通常跳过匹配代价和代价聚合步骤，直接进性视差计算和优化，该算法虽然精度高，但计算效率低、实时性差；半全局立体匹配算法是使用互信息作为匹配代价，使用能量函数进行代价聚合，并使用动态规划来最小化能量函数以寻找最佳视差，进而提升计算精度，加快计算速度，但受动态规划算法的影响，该算法会出现扫描线效应；局部立体匹配算法一般利用匹配点的局部信息计算匹配代价，采用代价聚合方法来改善匹配代价，然后利用WTA算法得到视差图，该算法虽然计算效率高、实时性好，但精度较低。

近年来，随着深度学习的兴起和FPGA或GPU硬件加速平台的普及，以深度学习为代表的机器学习被用于解决立体匹配问题，并且取得了非常好的效果。这里的机器学习主要是将卷积神经网络(CNN)应用在立体匹配中。基于CNN解决立体匹配的方法大致分为三类：

1)利用CNN学习匹配代价，然后再利用传统方法进行视差后处理；

2)从端到端训练CNN，直接从图像对估计视差；

3)利用多个网络得到视差图。

基于CNN网络的方法取得了非常好的效果，但也有局限性：

1)遮挡区域的像素点不能用来训练，这意味着很难在这些区域获得可靠的视差估计；

2)训练神经网络需要大量的数据，在某些特定场合，无法得到训练网络所需要的数据。

此外，上述算法均采用人工设计的优化方法来分配视差值，需要后期处理步骤进一步滤除异常值并填充遮挡区域，从而使得算法整体性能的提升被限制。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于三维卷积神经网络的渐进式实时立体匹配方法，以解决上述技术背景中所提出的技术问题。

本发明的目的是通过以下技术方案来实现的：

一种基于三维卷积神经网络的渐进式实时立体匹配方法，包括特征提取(FEM)、视差初始化(DIM)以及视差细化(DIM)，其中，FEM为DIM和DRM提供稳健的多尺度特征，在低分辨率层级中DIM使用三维卷积神经网络对视差进行初始化处理，DRM在多个尺度上使用多分支融合(MBF)模块来渐进地恢复视差图细节。

上述发明内容中，FEM采用多组卷积神经网络来降低空间分辨率，得到每个分辨率层级输出的图像特征，并第3组开始引入SPP(spatial pyramid pooling)层，在所有层级中对邻域尺度的特征进性反向融合，将低分辨率的特征进性线性上采样，再将两个尺度的特征聚合后使用一个卷积层进行融合。

上述发明内容中，DIM为模型提供全局的粗略视差图，在候选范围内对比左右特征向量，使用三维卷积神经网络学习匹配代价，再将其转换为视差概率分布，从而对视差值进行亚像素估计。

上述发明内容中，MBF使模型分别对具有不同特点的区域进行视差图残差预测，最后再融合输出结果。

本发明的有益效果是：首先，本算法采用轻量的骨干神经网络提取特征，在保证算法实时性的同时，为其他模块提供多尺度特征；并且在视差图渐进细化过程中，通过对比左右特征来恢复视差图的结构细节和修正视差值偏差；对不同特点区域进性自动聚类，并分别处理再融合输出结果，使模型具有自适应处理能力；其次，本算法实现了先粗略再精细的渐进式预测密集视差图，并且算法含有较少的模型参数，具有较高的运行效率，能够满足大多数应用的实时性需求，在视差细化阶段，提出了一种MBF模块，该模块可以对具有不同特性的区域进行自动聚类，并分别处理后再融合输出结果，在基本不影响算法运行效率的情况下，使得算法精度进一步提高。此外，在硬件方面，由于神经网络的并行性特点，使得该算法更适合利用FPGA或GPU硬件加速平台，可对大规模数据流进行并行处理。

附图说明

图1为本发明的计算流程图；

图2为现有技术中三维物体识别的流程图；

图3为本发明中FEM的结构框图；

图4为本发明中DIM的结构框图；

图5为本发明中MBF的流程图；

图6为本发明中MBF的结构框图；

图7为本发明DIM和DRM的作用分析图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例：

一种基于三维卷积神经网络的渐进式实时立体匹配方法，请参阅附图1所示，包括特征提取(FEM)、视差初始化(DIM)以及视差细化(DIM)，其中，FEM为DIM和DRM提供稳健的多尺度特征，在低分辨率层级中DIM使用三维卷积神经网络对视差进行初始化处理，DRM在多个尺度上使用多分支融合(MBF)模块来渐进地恢复视差图细节。

进一步的，FEM采用L组卷积来降低空间分辨率，其结构如图3所示，L组卷积分别记为FEM-l(l＝1,2,…,L)，均包含2个核大小为3的卷积层，卷积的步长分别为2和1，Fl表示FEM在多个分辨率层级输出的图像特征。为保证算法的运行效率，同时融合多尺度特征，从第3组开始引入SPP(spatial pyramid pooling)层，在所有层级中对邻域尺度的特征进性反向融合，如图所示，先将低分辨率的特征进性线性上采样，再将两个尺度的特征聚合后使用一个卷积层进行融合。其中，conv(3,2)表示核大小为3、步长为2的卷积层，avgpool(4)表示核大小、核步长均为4的平均池化层，每个卷积层都跟随一个正则化层和Leaky ReLU激活函数(负值斜率取0.1)。

由于FEM采用了轻量的主干网络并对多尺度特征进行融合，计算量小，具有两个主要优点：为DIM提供的特征具有较小的空间分辨率和较宽的感受野，大大减少了DIM的计算负载；为DRM提供的特征反向融合了邻域尺度的特征，不仅具有高空间分辨率特征的结构细节，而且具有低空间分辨率特征的宽感受野，可以降低无纹理区域的匹配模糊性。

进一步的，DIM的主要目的是为模型提供全局的粗略视差图，在候选范围内对比左右特征向量，使用三维卷积神经网络学习匹配代价，再将其转换为视差概率分布，从而对视差值进行亚像素估计。DIM的结构如附图4所示，如图所示，D、H、W、C分别表示设定的最大视差值、图像特征的高度、图像特征的宽度和特征通道数，其中三维卷积神经网络共6层，卷积核大小为3，除最后的输出层，每个卷积层都跟随一个正则化层和Leaky ReLU激活函数(负值斜率取0.1)，且对第1、3、5层的输出增加2个残差连接，第1、2、3、4、5层的输出特征数均为32，第6层的输出特征数为1。对于尺寸为H×W的输入图片，在最大视差为D的范围内，匹配代价张量的尺寸仅为(D/k)×(H/k)×(W/k)，k＝2^l，模型具有较小的计算量。同时，DIM使用可差分的视差回归函数对视差值进行亚像素估计，任意像素的视差预测值为：

式中：N_d为视差维度上的采样数；n为视差维度上的索引；d_n＝n×D/N_d；σ(·)为Softmax函数；C为三维神经网络输出的匹配代价。

进一步的，在较低的分辨率层级使用图像特征对视差图进行初始化处理后，需要逐层进行渐进细化，考虑到视差图中的不同区域具有不同的特性(如被遮挡区域无法满足左右特征的一致性要求，视差边缘区域往往存在较大的误差值)，如附图5所示，提出MBF来实现神经网络的功能，使模型分别对具有不同特点的区域进行视差图残差预测，最后再融合输出结果。

其中MBF先对多模式进行聚类，分别处理后再融合，并输出预测的视差图残差，从而对不同区域进行分情况处理，MBF结构的细节如附图6所示，图中，6×conv(3，1)表示堆叠6层conv(3,1)，其膨胀因子分别取1、2、4、8、16，w_i、Δd_i分别为对应分支的权重和视差调整值，i∈[1，b]，b为分支数。通过学习权重，模型对不同模式进行自动聚类，再通过加权的方式进行融合并输出最终结果。当b＝1时，模型不再需要预测权重值，MBF则退化为一般的神经网络模块。

进一步的，F_l包含左右视角特征，在每个尺度上均有预测的视差图，分别记为

所提算法对各个中间层进行监督训练，使用平均池化方法处理标签数据(d_gt)，生成(L+1)个分辨率层级的标签值，分辨率每降一级则视差值减半，记为

且

按照中间层的输出顺序进行渐进式训练，只有当误差均值满足一定阈值(记为T)后再训练后续的中间层。基于视差值的损失C_d为：

式中，C_smoothL1[·]为平滑的绝对值损失函数，且当

时停止累加，实验中T取1。

为提高模型在无视差值标签的区域中的稳定性，增加满足视角特征一致性要求的自相关损失。对任意尺度层级l，将使用右视图特征图

和预测视差图

构建的左视角特征图记为F_l ^wraped，F_l ^wraped为任一元素，左右视角的不一致性可用特征的差值来表示，记为

同时考虑到被遮挡区域不可能满足左右一致性要求，将无遮挡的区域记为M_i，则基于视角特征一致性的自相关损失C_F的表达式为：

式中：mean(·)为对矩阵平均值；M_l＝float[F_l ^wraped＞0]，其中＞表示矩阵中的元素值与数值的逐元素比较，float[·]表示将矩阵中的布尔值转为浮点值。

训练模型权重的最终损失函数为：

C′_d＝C_d+αFC_F

式中：αF为特征一致性损失的重要性权重。

实验例：

通过算法中各个模块的中间结果，对DIM和DRM的作用进行直观分析，取l＝5,b＝5下训练的模型，各个模块的中间结果如附图7所示，其中图7(a)为左图像，图7(b)～(f)为模型中间层输出的视差图。从附图6可以看出，DIM仅提供了非常粗略的初始视差图，但该初始视差图对模型的最终输出至关重要，如果没有粗略视差图的引导，一旦视差值超过DRM的调整范围，将输出严重错误的视差值。而DRM能够很好的恢复视差图的结构细节和视差值偏差，且中间层输出已经比较精细。MBF具有明显的剧集模式，大部分聚类权重分布在视差平滑的区域，对被遮挡区域均具有较明显的聚类效果。

综上，本算法实现了先粗略再精细的渐进式预测密集视差图，并且算法含有较少的模型参数，具有较高的运行效率，能够满足大多数应用的实时性需求。在视差细化阶段，提出了一种MBF模块，该模块可以对具有不同特性的区域进行自动聚类，并分别处理后再融合输出结果，在基本不影响算法运行效率的情况下，使得算法精度进一步提高。此外，在硬件方面，由于神经网络的并行性特点，使得该算法更适合利用FPGA或GPU硬件加速平台，可对大规模数据流进行并行处理。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于三维卷积神经网络的渐进式实时立体匹配方法，包括特征提取(FEM)、视差初始化(DIM)以及视差细化(DIM)，其特征在于，所述FEM为DIM和DRM提供稳健的多尺度特征，在低分辨率层级中DIM使用三维卷积神经网络对视差进行初始化处理，DRM在多个尺度上使用多分支融合(MBF)模块来渐进地恢复视差图细节。

2.根据权利要求1所述的一种基于三维卷积神经网络的渐进式实时立体匹配方法，其特征在于，FEM采用多组卷积神经网络来降低空间分辨率，得到每个分辨率层级输出的图像特征，并第3组开始引入SPP(spatial pyramid pooling)层，在所有层级中对邻域尺度的特征进性反向融合，将低分辨率的特征进性线性上采样，再将两个尺度的特征聚合后使用一个卷积层进行融合。

3.根据权利要求1所述的一种基于三维卷积神经网络的渐进式实时立体匹配方法，其特征在于，DIM为模型提供全局的粗略视差图，在候选范围内对比左右特征向量，使用三维卷积神经网络学习匹配代价，再将其转换为视差概率分布，从而对视差值进行亚像素估计。

4.根据权利要求1所述的一种基于三维卷积神经网络的渐进式实时立体匹配方法，其特征在于，MBF使模型分别对具有不同特点的区域进行视差图残差预测，最后再融合输出结果。