CN115984349A

CN115984349A - 一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法

Info

Publication number: CN115984349A
Application number: CN202211660335.7A
Authority: CN
Inventors: 陶洋; 欧双江
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-04-18

Abstract

本发明属于计算机视觉领域，主要是一种基于中心像素梯度融合和全局代价聚合的深度学习立体匹配算法。虽然目前主流基于深度学习的立体匹配算法精度较高，但是这些算法往往使用常规卷积提取特征，并且因为代价聚合的有限感受野，所以在左右光照不一致、大面积无纹理、弱纹理等病态区域效果较差。本发明提出了一种新的深度学习立体匹配算法，首先，设计了差分卷积残差组，显式编码结构信息提高特征表达。然后，设计了全局代价聚合模块，使得有效聚合代价体并捕获全局上下文，最后，采用加窗视差回归降低了视差标签不平衡的影响。本发明可以在提高模型在病态区域的性能的同时，约束模型的多峰分布，从而获得更加准确的视差估计。

Description

一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法

技术领域

本发明属于计算机视觉领域，主要是一种基于中心像素梯度融合和全局代价聚合的深度学习立体匹配算法。

背景技术

深度估计是计算机视觉中最基本的问题之一，在机器人、虚拟现实和自动驾驶等领域有着广泛的应用。常规的深度估计方式主要基于单目、双目深度估计以及RGBD相机三种。对于单目深度估计来说，因为其测量原理是通过物体尺寸进行估计，所以存在尺度模糊的致命缺陷，在实际使用中非常受限；而RGBD相机主要是通过物理方式进行测距，依据结构光，或使用发射器和接收器来进行飞行时间的测量等方法得到深度，虽然精度较高，但是光信号易受到物体反射性质的影响，所以其不适合室外使用。而对于双目深度估计来说，其固有的测量原理自然而然的避免了单目深度估计的尺度模糊问题，采用视觉被动测量的方式在户外也可以很好的工作，成本低、分辨率高、工作范围长等优点使其成为了目前深度测量的主流技术。

双目深度估计的核心是立体匹配技术，根据发展主要分为全局、半全局、局部和基于深度学习的立体匹配算法四种类型。虽然目前主流基于深度学习的立体匹配算法发展迅速、精度较高，但是这些算法往往使用常规卷积提取特征，并且因为代价聚合的有限感受野，现有基于深度学习的方法在左右光照不一致、大面积无纹理、弱纹理等病态区域效果较差，算法鲁棒性较低。并且现有深度学习方法主要基于视差空间建模，使用4D视差代价体，先将其视为一个分类问题，在通过类别期望进行回归得到视差，这样的方式往往会使得模型受到视差空间中多峰分布的影响。

针对上述问题，本发明提出了一种新的深度学习立体匹配算法，在提高模型在病态区域的性能的同时，约束模型的多峰分布。

发明内容

有鉴于此，本发明的目的在于提供一种融合中心像素梯度和进行全局代价聚合的深度立体匹配算法，使得模型能够有效获取输入图像的结构信息，并且能在视差空间中充分融合不同视差之间的特征，建立鲁棒且全面的特征映射，并且通过回归约束降低视差代价体的多峰约束，从而获得更加准确的视差。

为了达到上述目的，本发明提供如下技术方案：

基于中心像素梯度融合和全局代价聚合的深度立体匹配算法，该算法具体包含以下步骤：

步骤1)提出一种对输入左右图像进行结构和强度信息有效融合提取的特征主干。引入中心差分卷积，结合残差网络形成像素差分卷积残差组对输入的左右图像结构信息和强度信息的进行提取，从而充分获得其的二维特征信息用于构建4D的视差代价体。

步骤2)提出一种新型的3DCNN代价聚合模块。引入Transfomer和动态位置编码，建立全视差空间的依赖关系，进行信息聚合，有效的为无纹理或弱纹理区域的像素提供信息支撑。

步骤3)提出一种加窗视差回归和交叉熵协同约束。对优选视差进行加窗，促进正确的视差的概率，降低错误视差的概率，约束了视差空间的多峰分布，获得更加准确的视差。

进一步，所述步骤1)具体包括以下步骤：

步骤1.1)数据预处理。导入两张已经进行对极约束的左右目图片X_i∈R^3×H×W，H和W分别表示图像的高和宽，使用ImgNet数据集的期望和方差数值对输出图片进行标准化，这使得所有输入都能基于此分布。

步骤1.2)将预处理后的左右目图像送入到特征提取网络进行特征提取。采用一种融合像素差分卷积的残差组构成特征提取部分的前段，每个差分卷积残差首先通过一个差分卷积，以此来充分提取对应图像的结构特征，像素差分卷积其对应的数学表述如下：

公式中，y(p₀)为对应像素的卷积输出；R为以像素p₀为中心的3×3的像素范围；w(p_n)为卷积对应的可学习权重；θ∈[0,1]为平衡梯度信息和强度信息的超参数，当为0时差分卷积退化为普通卷积，本发明设定其为0.7。而通过对强度信息的融合，在通过后面的残差结构后得到充分融合结构和强度混合编码的底层语义信息，构成图像的特征图。

步骤1.3)为了进一步获得较大的感受野而提取更丰富的特征信息，在特征提取后段，使用RFB模块进一步进行局部特征信息聚合。

步骤1.4)对左右图像都进行步骤1.1、1.2获得其对应的特征图，最后对左图特征f_l∈R^32×H/4×W/4和右图特征f_r∈R^32×H/4×W/4进行差分比较，组建成视差代价体C∈R⁶⁴ ^{×D/4×H/4×W/4},其中D为设定的视差空间的最大视差值。

进一步，所述步骤2)具体包括以下步骤：

步骤2.1)对步骤1.3后的视差代价体进行3D卷积正则化。本发明采用类似Unet结构的3DCNN网络，对视差体进行下采样，不断编码浅层的局部信息，滤出冗余信息，最后得到C∈R^{256×D/32×H/32×W/32}的代价体。

步骤2.2)动态位置编码。在将步骤2.1中的视差代价体送入到Transformer的模块进行全局建模之前需要对特征图的位置信息进行编码，为了充分利用卷积的旋转不变性以及适应图像数据的不固定尺寸，本发明使用条件位置编码的方式，使用一个三维卷积来进行隐式的地位置编码。其数据表达式为：

PE(X_in)＝3DWConv(X_in)

公式中，X_in∈R^d×N是输入的Token序列；3DWConv是一个可学习的3×3×3深度3D卷积。

步骤2.3)将经过位置编码的4D代价体送入到Transfomer模块中，将其拉长并使用多头自注意力机制进行全局建模，随后通过全连接层输出最后的结果，经过维度变换后送入3D反卷积中不断的恢复代价体中的底层细节信息，对于步骤2.1、步骤2.2、步骤2.3三者可以用数学表述为：

X＝PE(X_in)+X_in,

Y＝MHA(Norm(X))+X,

Z＝FFN(Norm(Y))+Y

公式中，X_in∈R^d×N，N＝D×H×W表示输入的Token序列；Norm(g)表示层归一化，而FFN则由两个具有GELU激活函数的线性层组成。

进一步，所述步骤3)具体包括以下步骤：

步骤3.1)经过步骤2得到聚合后的视差代价体C∈R^{1×D/4×H/4×W/4}，随后对其进行维度压缩转换成3D的视差体C∈R^{D/4×H/4×W/4}，然后对其进行上采样，恢复到视差体。

步骤3.2)对3D视差体进行视差回归。一般的视差回归使用192的视差值进行回归，而正确的视差却只接近其中的一个，这是一个严重的类别不平衡的分类问题，为了减轻对应视差回归中类别不平衡造成的多峰分布等情况，本发明使用加窗视差回归对视差计算进行约束。

步骤3.3)因为可以将视差回归粗略看成是一个分类问题，所以在常用的SmoothL1损失的基础上使用交叉熵对视差预测进行协同监督。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供以下附图进行说明：

图1为本发明所提算法的模型架构图；

图2为本发明所提融合差分卷积残差组的特征提取网络；

图3为本发明所提出的全局代价聚合模块；

图4为本发明在Senceflow数据集上的可视化结果对比图；

图5为本发明在KITTI 2015数据集上的可视化结果对比图；

具体实施方式

下面将结合附图，对本发明的优选实例进行详细的描述。

本发明提供一种基于中心像素梯度和全局代价聚合的立体匹配算法，如图1所示为本发明的整体框架图，该方法主要包括以下步骤：

步骤1)结合中心差分卷积形成残差组对图像特征进行强度和结构信息融合提取，并建立4D代价体；

步骤2)使用带有Transformer的3D CNN对代价体进行全局代价聚合，使其正则化。建立全视差空间的依赖关系，进行信息聚合，有效的为无纹理或弱纹理区域的像素提供信息支撑。

步骤3)加窗视差回归和交叉熵进行协同约束。对优选视差进行加窗，促进正确的视差的概率，降低错误视差的概率，约束了视差空间的多峰分布，获得更加准确的视差。

进一步，所述步骤1)具体包括以下几个步骤：

步骤1.1)输入经过极线矫正后的左右图片，根据数据集场景设定最大视差D。

步骤1.2)将图片通过特征提取网络，其具体结构如图2所示。具体来讲，前三层均采用具体来说，前三层均采用3×3的CDC-Conv，设置其卷积步长分别为2，1，1而对原始图像进行下采样，然后跟随4个步长分别为1，2，1，1的卷积差分残差组，进一步提取原始图像信息并进行下采样，最后生成尺寸为原始输入图像1/4大小的特征图，本发明在每个残差组的初始阶段使用差分卷积，随后使用残差主干生成具有大范围和高密集采样的特征，从而增强特征提取。每个差分卷积的计算过程的数学表达如下：

公式中，y(p₀)为对应像素的卷积输出；R为以像素p₀为中心的3×3的像素范围；w(p_n)为卷积对应的可学习权重；θ∈[0,1]为平衡梯度信息和强度信息的超参数，当为0时差分卷积退化为普通卷积，本发明设定其为0.7。而通过对强度信息的融合，在通过后面的残差结构后得到充分融合结构和强度混合编码的底层语义信息，构成图像的特征图。为了进一步获得较大的感受野而提取更丰富的特征信息，在特征提取后段，使用RFB模块进一步进行局部特征信息聚合。

步骤1.3)为了进一步获得较大的感受野从而获得更加丰富的特征信息，本发明将学习到的局部信息特征通过RBF模块来进行聚合，如图2使用4分支的轻量级RBF模块，每一个分支由一个1×1的卷积，S×S的等宽卷积和一个3×3而dilated为S的空洞卷积组成(这里S表示卷积核大小，本发明设定为3或者5两种，从图2中可以观察得到)，进行一次局部信息扩展，最后将所有的分支进行拼接，通过RBF模块的每个分支输出的特征图尺寸和输入的相同。

步骤1.4)本发明使用带有视差维度的4D代价体对图像的视差空间进行建模形成4D代价体。其中对于对左图特征f_l∈R^32×H/4×W/4和右图特征f_r∈R^32×H/4×W/4，本发明通过差分的方式构建代价体C∈R^{64×D/4×H/4×W/4}，其对于视差等级为d_i的代价体来说，具体建立过程可以用下式表达：

C(d_i,f_li,f_ri)＝<f_l(x_i,y_i)-f_r(x_i,y_i)>

公式中，(x_i,y_i)表示左图的像素坐标。

进一步，所述步骤2)具体为以下步骤：

步骤2.2)动态位置编码。在将步骤2.1中的视差代价体送入到Transformer的模块进行全局建模之前需要对特征图的位置信息进行编码，为了充分利用卷积的旋转不变性以及适应图像数据的不固定尺寸，本发明使用条件位置编码的方式，使用一个三维卷积来进行隐式的地位置编码。

X＝PE(X_in)+X_in,

Y＝MHA(Norm(X))+X,

Z＝FFN(Norm(Y))+Y

进一步，所述步骤2.1)具体包含以下步骤：

步骤2.1.1)本发明所提出的全局代价聚合组件的结构图如图3所示，使用基本的Transformer的结构构件，但由于其计算复杂度是Token数量的二次型，因此将输入的4D代价体直接序列化后作为Transformer的输入是不切实际的，而如果采用类似VIT算法直接将4D数据分割成一个一个3D块，这种策略将阻碍Transformer跨空间、深度维度对代价体的相邻区域建模。因此本发明结合卷积和Transformer的特点，具体来说，先使用6个3×3×3的三维卷积对4D代价体进行下采样，逐步将原始代价体编码为256×D/32×H/32×W/32的4D代价体，这样使得在输入Transformer前代价体已经有效的嵌入了丰富的局部3D上下文信息，并且大大节省了Token比较的计算量，然后再将其输入到Transformer中，进一步学习具有全局上下文的长程相关性。其中对于每个下采样的3D卷积来说，本发明在其后面随着接入一个等宽的3D卷积来增加拟合能力。

进一步，所述步骤2.3)具体包含以下步骤：

步骤2.3.1)在Transformer中将4D代价体展开为通道为256维的Token序列，通过动态位置编码后，再送入MHA进行全局区域相关性建模，最后通过一个FFN，将整体特征还原到输入Transformer层前的维度。

MHA子层由Head_Nums个(本发明算法使用2个)并行的自注意力SA模块组成，具体来说，SA模块可以看成是一个参数化学习的函数，它学习Token序列X中查询q与对应的键k和值v表示之间的映射，通过度量X中的两个元素及其键k和值v之间的相似性来计算注意力权重：

[q,k,v]＝[W_q,W_k,W_v]X,

MHA(X)＝[SA₁(v₁),SA₂(v₂),…,SA_{head_nums}(v_{head_nums})]W_linear

公式中，X∈R^d×N是Transformer中对MHA的输入；head_nums为MHA的头部数量，本发明算法中设置为8；W_q,W_k,W_v∈R^d×dh是MHA需要学习的将X进行线性变化得到q、k、v的权重矩阵，d_h＝d/head_nums；W_linear∈R^d×d是MHA需要学习的多头可训练权重。

进一步，所述步骤3)具体包括以下步骤：

步骤3.2)对3D视差体进行视差回归。一般的视差回归使用192的视差值进行回归，而正确的视差却只接近其中的一个，这是一个严重的类别不平衡的分类问题，为了减轻对应视差回归中类别不平衡造成的多峰分布等情况，本发明使用加窗视差回归对视差计算进行约束，具体来说，定义一个半径R，对于每一个像素点，选择其最后预测出的192个视差分布中的最大分布所在视差为中心，将其乘以R为半径的矩形窗口，在此窗口中为其进行最终的视差求解，得到其最后的亚像素值预测：

公式中，

表示当前像素点预测的视差值；d_max表示在0～192候选视差区间中概率最大的索引；C_d表示该点对应于视差d下的匹配代价；σ(·)表示softmax(·)操作用于归一化；

表示对应视差d下的匹配概率；r是大于0小于最大视差范围的整数，表示设定的窗口半径。

步骤3.3)因为可以将视差回归粗略看成是一个分类问题，所以在常用的SmoothL1损失的基础上使用交叉熵对视差预测进行协同监督。具体来说，SmoothL1损失为(L_SM)和交叉熵损失(L_CE)分别监督最后的视差结果和视差分布：

公式中，I表示输入图片的全部像素集合；D_i表示像素点i的真实视差；

表示像素点i的预测视差。

结合两个部分的损失计算，整体损失函数如下：

L＝λ₁(L_CE1+L_SM1)+λ₁(L_CE1+L_SM1)+λ₁L_SM1

对于本发明来说，整个损失函数监督代价聚合阶段进入全局代价聚合的前、全局代价聚合后及最后输出共三个部分的输出结果。

本实施例中，Senceflow数据集与KITTI 2015数据集作为流行的视差基准，具有合成域中的环境和现实中复杂的街道环境，能全面的评估算法的整体性能。本发明算法给出两个数据集的可视化结果，测试环境采用Pytorch深度学习框架，操作系统为Windows 10。硬件平台为Intel Core i9-9800K，内存大小为64GB DDR4，本算法使用3块型号为NvidiaGTX 2080Ti 11G的GPU，Batch size设置为6。实验结果表明，本发明提出的基于中心像素梯度融合和全局代价聚合的深度立体匹配算法在光照不一致和无纹理、弱纹理、重复纹理区域表现优异，具有一定的优势。

选取了近几年优秀的基于深度学习的立体匹配算法在数据集Senceflow与KITTI2015上进行了对比实验，包含PSMNet、GwcNet，图4展示了两种算法在Senceflow上的视差图可视化结果，图5展示了两种算法在KITTI2015上的视差图可视化结果。

最后需要说明的是，以上实施实例仅用以说明本发明的技术方案而非限制，虽然通过上述实例已对本发明进行了详细的描述，但本领域技术人员应当明白，可以在形式上和细节上对其作出各种各样的改变，而不会偏离本发明权利要求书所限定的范围。

Claims

1.一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法，其特征在于，该方法包括以下步骤：

步骤1：结合中心差分卷积形成残差组对图像特征进行强度和结构信息融合提取，并建立4D代价体。

步骤2：使用带有Transformer的3D CNN对代价体进行全局代价聚合，使其正则化。建立全视差空间的依赖关系，进行信息聚合，有效的为无纹理或弱纹理区域的像素提供信息支撑。

步骤3：加窗视差回归和交叉熵进行协同约束。对优选视差进行加窗，促进正确的视差的概率，降低错误视差的概率，约束了视差空间的多峰分布，获得准确的视差。

2.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法，其特征在于，所述步骤1中，具体过程如下:

步骤1.1：输入经过极线矫正后的左右图片，根据数据集场景设定最大视差。

步骤1.2：将图片通过特征提取网络，前三层均采用3×3的CDC-Conv，设置其卷积步长分别为2，1，1而对原始图像进行下采样，然后跟随4个步长分别为1，2，1，1的卷积差分残差组，进一步提取原始图像信息并进行下采样，最后生成尺寸为原始输入图像1/4大小的特征图，本发明在每个残差组的初始阶段使用差分卷积，随后使用残差主干生成具有大范围和高密集采样的特征，从而增强特征提取。每个差分卷积的计算过程的数学表达如下：

步骤1.3：为了进一步获得较大的感受野从而获得更加丰富的特征信息，本发明将学习到的局部信息特征通过RBF模块来进行聚合，如图2使用4分支的轻量级RBF模块，每一个分支由一个1×1的卷积，S×S的等宽卷积和一个3×3而dilated为S的空洞卷积组成(这里S表示卷积核大小，本发明设定为3或者5两种，从图2中可以观察得到)，进行一次局部信息扩展，最后将所有的分支进行拼接，通过RBF模块的每个分支输出的特征图尺寸和输入的相同。步骤1.4：使用带有视差维度的4D代价体对图像的视差空间进行建模形成4D代价体。其中对于对左图特征f_l∈R^32×H/4×W/4和右图特征f_r∈R^32×H/4×W/4，通过差分的方式构建代价体C∈R^{64×D/4×H/4×W/4}，其对于视差等级为d_i的代价体来说，具体建立过程可以用下式表达：

C(d_i,f_li,f_ri)＝<f_l(x_i,y_i)-f_r(x_i,y_i)>

公式中，(x_i,y_i)表示左图的像素坐标。

3.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法，其特征在于，所述步骤2中，具体过程如下：

步骤2.1：对步骤1.3后的视差代价体进行3D卷积正则化，采用类似Unet结构的3DCNN网络，对视差体进行下采样，不断编码浅层的局部信息，滤出冗余信息，最后得到C∈R²⁵⁶ ^{×D/32×H/32×W/32}的代价体。

步骤2.2：进行动态位置编码，具体来说：在将步骤2.1中的视差代价体送入到Transformer的模块进行全局建模之前需要对特征图的位置信息进行编码，为了充分利用卷积的旋转不变性以及适应图像数据的不固定尺寸，使用条件位置编码的方式，使用一个三维卷积来进行隐式的地位置编码。

步骤2.3：将经过位置编码的4D代价体送入到Transfomer模块中，将其拉长并使用多头自注意力机制进行全局建模，随后通过全连接层输出最后的结果，经过维度变换后送入3D反卷积中不断的恢复代价体中的底层细节信息，对于步骤2.1、步骤2.2、步骤2.3三者可以用数学表述为：

X＝PE(X_in)+X_in,

Y＝MHA(Norm(X))+X,

Z＝FFN(Norm(Y))+Y

进一步，所述步骤2.1具体包含以下步骤：

步骤2.1.1：使用全局代价聚合组件进行聚合，其主要依赖于基本的Transformer的结构件，但由于其计算复杂度是Token数量的二次型，因此将输入的4D代价体直接序列化后作为Transformer的输入是不切实际的，而如果采用类似VIT算法直接将4D数据分割成一个一个3D块，这种策略将阻碍Transformer跨空间、深度维度对代价体的相邻区域建模；因此结合卷积和Transformer的特点，具体来说，先使用6个3×3×3的三维卷积对4D代价体进行下采样，逐步将原始代价体编码为256×D/32×H/32×W/32的4D代价体，这样使得在输入Transformer前代价体已经有效的嵌入了丰富的局部3D上下文信息，并且大大节省了Token比较的计算量，然后再将其输入到Transformer中，进一步学习具有全局上下文的长程相关性。其中对于每个下采样的3D卷积来说，本发明在其后面随着接入一个等宽的3D卷积来增加拟合能力。

进一步，所述步骤2.3具体包含以下步骤：

步骤2.3.1：在Transformer中将4D代价体展开为通道为256维的Token序列，通过动态位置编码后，再送入MHA进行全局区域相关性建模，最后通过一个FFN，将整体特征还原到输入Transformer层前的维度。

MHA子层由2个并行的自注意力SA模块组成，具体来说，SA模块可以看成是一个参数化学习的函数，它学习Token序列X中查询q与对应的键k和值v表示之间的映射，通过度量X中的两个元素及其键k和值v之间的相似性来计算注意力权重：

[q,k,v]＝[W_q,W_k,W_v]X,

公式中，X∈R^d×N是Transformer中对MHA的输入；head_nums为MHA的头部数量，本发明算法中设置为8；

是MHA需要学习的将X进行线性变化得到q、k、v的权重矩阵，d_h＝d/head_nums；W_linear∈R^d×d是MHA需要学习的多头可训练权重。

4.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法，其特征在于，所述步骤3中，具体过程如下：

步骤3.1：经过步骤2得到聚合后的视差代价体C∈R^{1×D/4×H/4×W/4}，随后对其进行维度压缩转换成3D的视差体C∈R^{D/4×H/4×W/4}，然后对其进行上采样，恢复到视差体。

步骤3.2：对3D视差体进行视差回归，一般的视差回归使用192的视差值进行回归，而正确的视差却只接近其中的一个，这是一个严重的类别不平衡的分类问题，为了减轻对应视差回归中类别不平衡造成的多峰分布等情况，本发明使用加窗视差回归对视差计算进行约束，具体来说，定义一个半径R，对于每一个像素点，选择其最后预测出的192个视差分布中的最大分布所在视差为中心，将其乘以R为半径的矩形窗口，在此窗口中为其进行最终的视差求解，得到其最后的亚像素值预测：

公式中，

步骤3.3)因为可以将视差回归粗略看成是一个分类问题，所以在常用的SmoothL1损失的基础上使用交叉熵对视差预测进行协同监督，具体来说，SmoothL1损失为(L_SM)和交叉熵损失(L_CE)分别监督最后的视差结果和视差分布：

表示像素点i的预测视差；

结合两个部分的损失计算，整体损失函数如下：

L＝λ₁(L_CE1+L_SM1)+λ₁(L_CE1+L_SM1)+λ₁L_SM1

对于本发明来说，整个损失函数监督代价聚合阶段进入全局代价聚合的前、全局代价聚合后及最后输出共三个部分的输出结果，对应三个系数为0.5、0.7、1。

通过执行以上步骤，可以提高深度学习立体匹配算法在病态区域下的立体匹配精度，具体来说对于光亮不一致的区域可以表现出较好的抗干扰性，对于细小物体和薄结构的边缘保留较好，在重复纹理和弱纹理区域等病态区域的视差预测有较大的性能提升。