CN116109689A

CN116109689A - 基于引导优化聚合的边缘保持立体匹配方法

Info

Publication number: CN116109689A
Application number: CN202211543200.2A
Authority: CN
Inventors: 李�杰; 昌明源; 都双丽; 王仁民; 王燕玲; 梁敏
Original assignee: Shanxi University of Finance and Economics
Current assignee: Shanxi University of Finance and Economics
Priority date: 2022-12-03
Filing date: 2022-12-03
Publication date: 2023-05-12

Abstract

本发明涉及立体匹配算法；基于低分辨率的3D卷积的立体匹配得到高精度视差图，但是损失了细节信息；基于2D卷积的立体匹配补充细节信息并在全分辨率上进行聚合，但是精度不如3D聚合。本发明提供一种基于引导优化聚合的边缘保持立体匹配方法，基于引导可变形卷积结构构建引导优化聚合模块，引导粗略的代价体在全分辨率上进行细化计算，迭代学习后，实现原始图像的高精度、高度边缘保持、细节区域清晰的立体匹配，且已在KITTI等公开数据集上取得出色的结果。

Description

基于引导优化聚合的边缘保持立体匹配方法

技术领域

本发明涉及立体匹配算法，更具体的说，涉及一种基于引导优化聚合的边缘保持立体匹配方法。

背景技术

立体匹配，也称为视差估计，通过匹配两个摄像头捕获的图像对中的像素来估计深度。在许多计算机视觉应用中起着至关重要的作用，包括三维模型重建，自动驾驶，增强现实等。近年来，随着卷积神经网络的不断发展，基于学习的方法已经取得了许多高质量的成果，但是细节区域的立体匹配仍是一个未解决的问题。

从MC-CNN开始，大量卷积神经网络架构被用来解决立体匹配问题，而这些立体匹配网络的结构通常包括特征提取、代价体构建、代价聚合、视差回归及视差优化五个步骤。代价聚合在提升算法精度上有着重要的作用，根据近年来的立体匹配研究，代价聚合大致可以分为两类：一类是2D代价聚合；一类是3D代价聚合。

最初基于学习的立体匹配架构采用2D聚合的方式，通常结构简单、快速高效，甚至在不考虑立体匹配中的几何约束的情况下也可以回归视差。在大多数情况下，基于2D卷积的代价聚合一般采用大型U形编码器-解码器网络来实现的，将多层特征图通过卷积压缩到一层得到视差图。采用2D卷积的方法简单快速、较低内存消耗就可以回归全分辨率的视差图，其次一个重要优点是它可以将对回归视差图有帮助的相关特征层直接进行叠加，如EdgeStereo中将相关代价体、左图像特征、边缘特征进行叠加来进行聚合。

为了进一步提升算法的精度，3D卷积逐渐被应用到代价聚合中来。Alex Kendall提出了第一个基于3D卷积的立体匹配网络GC-Net，该结构根据对极几何原理直接对左右特征进行连结构建一个4D代价体，并使用3D卷积来聚合得到最终的代价体。此后大部分研究主要围绕3D卷积展开，PSMNet中提出了沙漏聚合网络，该结构在提升立体匹配精度上有着出色的表现，在GwcNet中对沙漏结构进行优化，进一步提高了沙漏结构的性能，该结构在今天一直被高精度立体匹配算法沿用。虽然3D代价聚合在提升算法精度上有着明显的效果，但是伴随而来的是极大的计算量和内存消耗，需要强大的GPU资源才能运行。大部分的立体匹配算法为了解决该问题，采用低分辨率的特征进行匹配，如PSMNet采用原图像1/4的宽高，GANet采用原图像1/3的宽高，最终基于低分辨率的代价体直接上采样得到全分辨率的代价体回归视差。采用降低分辨率的方法对于提升算法的精度发挥了出色的表现，但是同时也带来了细节区域匹配混乱、边缘区域匹配误差较大等问题。基于3D聚合的另一个缺点是必须维持代价体的结构，不具备和2D聚合一样将相关信息添加到聚合中去的能力。基于低分辨率的3D卷积的立体匹配可以有效得到高精度视差图，但是损失了细节信息；基于2D卷积的立体匹配可以补充细节信息，并在全分辨率上进行聚合，但是精度不如3D聚合。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于引导优化聚合的边缘保持立体匹配方法，该发明提出基于引导可变形卷积的引导优化聚合模块，能够将额外的信息添加到基于深度学习的代价聚合中并且实现代价体的精细化聚合，利用基于引导优化聚合的立体匹配网络GRNet能够同时实现高精度、高度边缘保持、细节区域清晰的立体匹配。

为实现上述目的，本发明提供了如下技术方案：

一种建立用于神经网络的引导可变形卷积GDCN的方法，对于引导特征进行额外的卷积得到通道数为3N的偏移量和调制标量，N表示卷积核的大小，其中，前2N个通道为卷积核的偏移量，包括采样点x方向与y方向的偏移，其他N个通道馈入sigmoid层得到调制标量，将偏移量和调制标量应用于卷积结构的卷积核上。

进一步，引导可变形卷积GDCN计算公式如下：

其中，x(p)与y(p)分别为p点卷积前与卷积后的值，K为卷积核的采样点数，p+p_k为规则窗口内的采样点，ω_k为采样点的权重，Δp_k、Δm_k为分别对引导特征进行卷积学习到的偏移量和调制标量，p+p_k+Δp_k为添加偏移后的采样点。

一种基于引导可变形卷积的引导优化聚合模块，引导可变形卷积利用上述的方法建立，包括两个连续的引导可变形卷积结构，根据引导特征信息，学习出采样点进行优化聚合，引导代价体进行细化计算

进一步，优化聚合包括对于颜色引导的优化聚合和对于基于误差引导的优化聚合，其中，对于颜色引导的优化聚合通过卷积层和残差块对原图像进行特征提取作为引导特征输入；对于基于误差引导的优化聚合通过将误差图作为引导输入，针对存在匹配误差的区域进行代价聚合。

一种基于引导优化的边缘保持立体匹配的方法，基于上述的引导优化聚合模块，构建立体匹配网络GRNet，迭代学习后，实现原始图像的高精度、高度边缘保持、细节区域清晰的立体匹配，具体步骤如下：

步骤1.特征提取：针对原始图像，采用多个步长大于1的卷积降低原始图像分辨率，获得原始图像低分辨率的特征；采用不同扩张率的扩张卷积作为分支结构，对低分辨率特征进一步提取不同感受野的特征；

步骤2.代价体构建：代价体通过对提取得到的左右图像特征构建，用于反映左右图像中像素间的匹配关系；基于步骤1所得的多组特征构建多组相关体；对步骤1获得的不同感受野的多组特征串联应用两次卷积得到用于构建连结代价体的特征；最终的代价体为组相关代价体与连结代价体串联组成；

步骤3.代价聚合：首先进行3D代价聚合提升代价体整体精度，获得粗略的代价体，然后进行两次2D引导优化聚合对粗略的代价体进行细化计算，获得精细的代价体；

步骤4.视差回归：采用soft argmin操作回归视差图，对于步骤3中的3D聚合后的代价体和2D聚合后的代价体进行线性差值还原到D×H×W的全分辨率全视差搜索范围的代价体，其中，D表示代价体的视差搜索范围，H表示代价体的高，W表示代价体的宽；

步骤5.针对立体匹配网络GRNet计算损失L。

进一步，步骤2中，代价体构建公式如下：

V_concat(d,x,y,f)＝f_L(x,y)||f_R(x-d,y)

V_combine＝V_concat(d,x,y,f)||V_gwc(d,x,y,g)

其中，N_c为提取的特征层数，N_g为划分的组数，<f_l ^g(),f_r ^g()>为点乘操作，用于计算左右图像中像素之间的相似性；

获取(N_g+2f)×D/4×H/4×W/4的代价体，f为构建连结代价体的特征层数，D为最大视差搜索范围，H和W为提取到的特征的高和宽。

进一步，步骤3中，3D代价聚合采用一个预处理结构和两个沙漏结构，并在预处理结构和两个沙漏结构后分别连接一个输出单元，每个输出单元得到1×D/4×H/4×W/4的代价体，来自输出单元的代价体直接回归视差图作为中间监督，使网络在浅层学习到准确的代价体，提高整体算法整体精度；第二个沙漏结构的输出单元的代价体作为2D代价聚合的输入；

2D代价聚合通过两个连续的引导可变形卷积结构作为引导优化聚合模块，在3D代价聚合的基础上，根据引导特征信息，学习出卷积核进行优化聚合，引导优化聚合模块结构。

进一步，步骤4中，Softargmin操作通过如下公式产生亚像素精度的视差：

其中，

为预测的视差值，D_max为最大视差，σ(c)为softmax函数，c_d为视差候选对象d的代价值，σ(c_d)为视差为d的概率。

进一步，步骤5中，损失L计算公式如下：

其中，d^gt为真实视差图，d_i为3D代价聚合输出的视差图，λ_i为3D代价聚合输出的视差图权重，d_i ^ref为2D优化聚合输出的视差图，η_i为2D优化聚合输出的视差图权重。

综上所述，发明具有以下有益效果：

本发明提出一种基于引导优化聚合的立体匹配方法，基于引导可变形卷积结构构建引导优化聚合模块，能够将额外的信息添加到代价聚合当中去，引导粗略的代价体在全分辨率上进行细化计算，实现边缘区域完整保持，像素级细节区域匹配清晰。基于引导优化聚合的立体匹配方法在精度上能够达到目前先进的水平，在边缘保持、细节区域匹配上达到优于现有立体匹配方法的效果，且已在KITTI等公开数据集上取得出色的结果。

附图说明

图1为本发明的流程示意图；

图2为引导可变形卷积示意图；

图3为GRNet总体架构图；

图4为多特征提取模块架构图；

图5为Scene Flow测试结果可视化与对比。

具体实施方式

下面结合附图对本发明作进一步详细说明。

需要说明的是，为表述方便，下文中关于方向的表述与附图本身的方向一致，但并不对本发明的结构起限定作用。

如图1～4所示，本发明公开了一种新的神经网络层——引导可变形卷积，该网络层提高了可变形卷积的建模能力，加强了可变形卷积中偏移量与调制标量的学习能力，更适用于指定的视觉任务。基于引导可变形卷积，本发明设计了引导优化聚合结构，能够有效引导粗略代价体进行细化。

引导可变形卷积步骤如下：

首先，对于引导特征进行额外的卷积得到通道数为3N(N取决于卷积核的大小)的偏移量和调制标量，其中前2N通道为卷积核的偏移量，包括采样点x方向与y方向的偏移，后N通道进一步馈入sigmoid层得到调制标量。随后，将学习到的偏移量和调制标量应用到卷积结构的卷积核上。

引导可变形卷积GDCN计算公式如下：

本发明公开了一种基于引导可变形卷积的引导优化聚合模块，引导可变形卷积利用上述的方法建立，引导优化聚合模块包括两个连续的引导可变形卷积结构，根据引导特征信息，学习采样点进行优化聚合，引导代价体进行细化。

本发明还公开了一种基于引导优化的边缘保持立体匹配的方法，基于上述引导优化聚合模块，本发明采用3D聚合与2D聚合相结合的代价聚合方案构建立体匹配网络GRNet，训练网络后，实现高精度、高度边缘保持、细节区域清晰的立体匹配，具体步骤如下：

步骤1.特征提取：针对原始图像，采用多个步长为大于1的卷积降低原始图像分辨率，获得原始图像的低尺度特征；为了实现不同区域的匹配，本发明采用多特征提取结构，通过不同扩张率的扩张卷积作为分支结构，对低尺度特征进一步提取不同感受野的特征。多感受野特征相结合对图像中不同尺寸的区域进行区别匹配，使得不同感受野的匹配结果进行互补，实现更全面进行匹配。如图4所示，在本实施例中，采用两个步长为2的卷积减小分辨率得到原图像1/4的特征图，分别进行了两次分支，其中第一次分支结构为一个三分支结构，扩张率分别为1、2、3，第二次分支为一个二分支结构，扩张率分别为2、4。低扩张率的扩张卷积有着较小的感受野，用于提取细节区域的特征，较高的扩张率提取大尺度的特征。采用不同感受野的特征相结合的方式，针对不同尺度区域的匹配，同时有效处理单一尺度特征带来的匹配误差较大的问题。

步骤2.代价体构建：

代价体构建采用组相关代价体与连结代价体相结合的方式。采用组相关代价体能够避免构建单个代价体的信息损失，连结代价体能够提高算法匹配精度。代价体通过对提取得到的左右图像特征构建，用于反映左右图像中像素间的匹配关系；基于步骤1所得的不同感受野的多组特征构建多组相关体；对步骤1获得的多组特征串联应用两次卷积得到用于构建连结代价体的特征，最终的代价体为最相关代价体与连结代价体串联组成。

代价体构建公式如下：

V_concat(d,x,y,f)＝f_L(x,y)||f_R(x-d,y)

V_combine＝V_concat(d,x,y,f)||V_gwc(d,x,y,g)

其中，V_combine为最终的代价体，V_gwc为组相关代价体，V_concat为连结代价挨踢，N_c为提取的特征层数，N_g为划分的组数，<f_l ^g,f_r ^g>为点乘操作，用于计算左右图像中像素之间的相似性；

获取到(N_g+2f)×D/4×H/4×W/4的代价体，f为构建连结代价体的特征层数，D为最大视差搜索范围，H和W为提取到的特征的高和宽。

步骤3.代价聚合：首先进行3D代价聚合提升代价体整体精度，获得粗略的代价体，然后进行两次2D引导优化聚合引导粗略的代价体进行细化计算。

3D代价聚合采用一个预处理结构和两个沙漏结构，并在预处理结构和两个沙漏结构后分别连接一个输出单元，每个输出单元得到1×D/4×H/4×W/4的代价体，该代价体直接回归视差图作为中间监督，使网络在浅层学习到准确的代价体，提高整体算法整体精度；第二个沙漏结构的输出单元的代价体作为2D代价聚合的输入；

2D代价聚合通过两个连续的引导可变形卷积结构作为引导优化聚合模块，在3D代价聚合的基础上，根据引导特征信息，学习出卷积核进行优化聚合，引导优化聚合模块结构。2D代价聚合包括基于颜色引导的优化聚合和基于误差引导的优化聚合。

对于基于颜色引导的优化聚合：首先对低分辨率代价体进行线性插值，使其还原到全分辨率。考虑到低的视差搜索范围同样可以回归到精确的视差值，同时可以减少计算量，所以不在视差维度进行线性插值，最终得到D/4×H×W的代价体作为输入。根据颜色相同的区域有着接近的代价值的假设，将左图像通过卷积层和残差块进行特征提取，作为该引导优化聚合模块的引导特征输入。相对于直接运用可变形卷积，引导可变形卷积添加额外的信息对代价体进行优化，有效解决细节损失的问题。对于第一层引导可变形卷积采用扩张率为4，在较大范围内寻找到颜色相近的点进行聚合，有效解决视差连续区域的匹配断裂问题；对于第二次引导可变形卷积采用扩张率为2，使得每个点在附近颜色相近的区域进行聚合，进一步优化代价体。

对于基于误差引导的优化聚合：首先通过颜色引导聚合回归，得到的视差图对原始右图像进行warp操作使右图像转换到左图像视角，将warp后的右图像与左图像做差得到误差图。误差图反映匹配得到的视差图的质量，在视差误差较小的像素位置上误差图的数值较小，反之较大。随后将误差图、原始左图像、颜色引导聚合回归得到的视差图进行串联提取引导特征作为基于误差的引导优化聚合模块的引导特征输入，通过将误差图作为引导输入有效针对匹配误差较大的区域进行代价聚合。同样地，分别对两次引导可变形卷积的扩张率采用4和2。通过该优化聚合模块得到代价体的残差代价体，最后将残差代价体与上一阶段细化后的代价体相加为最终的代价体。

步骤4.视差回归：采用soft argmin操作回归视差图，对于步骤3中的3D聚合后的代价体和2D聚合后的代价体进行线性差值还原到D×H×W(视差搜索范围×高×宽)的全分辨率全视差搜索范围的代价体。

Soft argmin操作通过如下公式产生亚像素精度的视差：

其中，

步骤5.针对立体匹配网络GRNet计算损失L。

损失L计算公式如下：

其中，d^gt为真实视差图，d_i为3D代价聚合输出的视差图，λ_i为3D代价聚合输出的视差图权重，

为2D优化聚合输出的视差图，η_i为2D优化聚合输出的视差图权重。

为验证本发明的有效性，本发明使用Pytorch实现，在2个NVIDIA GeForceRTX3090GPU进行了实验。对于此次实验，采用Adam优化器，设置参数β₁＝0.9，β₂＝0.999，并且分别设置5个预测视差图的权重分别为λ₀＝0.5，λ₁＝0.7，λ₂＝0.8，η₁＝0.8，η₂＝1.0。

实验在Scene Flow数据集上进行预训练，迭代次数为50次，初始学习率为0.001，并且分别在迭代次数为20、32、40、44、47次后将学习率降低一半。预训练的训练批次为12，测试批次为8。经过在Scene Flow数据集上的训练得到预训练模型后，在KITTI数据集上进行微调，来对真实场景进行立体匹配。

为了验证GRNet的细节区域的匹配效果，将GRNet图像测试结果与目前高精度网络ACVNet、边缘保持网络AANet的测试结果进行定性对比。如图5所示，第一行展示了测试图像全局效果对比，第二、三、四行展示了第一行中细小叶片、自行车把手、像素级细小结构等具有挑战性的局部细节匹配效果。实验结果显示：ACVNet在边缘区域误差较大，难以实现细节区域的匹配；AANet可以实现一定的边缘保持效果，但在边缘区域精度误差较大，细节区域同样难以实现匹配；GRNet则能够在细节区域达到完整的边缘保持效果，且细节区域清晰，实现像素级的匹配。

在定量对比上GRNet也能够达到先进的匹配精度。将GRNet在Scene Flow上的测试结果与近年来先进立体匹配算法进行对比，如表1所示。实验数据显示：GRNet在Scene Flow上的EPE误差达到0.48，能够取得与ACVNet一致的精度；GRNet在细节区域、边缘区域等具有挑战性区域的匹配效果取得了远优于ACVNet的效果。此外，GRNet在可学习参数上比ACVNet要少1.54M，证明了GRNet高效的学习能力。

表1GRNet在Scene Flow上的精度对比

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种建立用于神经网络的引导可变形卷积GDCN的方法，其特征在于：对于引导特征进行额外的卷积得到通道数为3N的偏移量和调制标量，N表示卷积核的大小，其中，前2N个通道为卷积核的偏移量，包括采样点在x方向与y方向的偏移，其他N个通道馈入sigmoid层得到调制标量，将偏移量和调制标量应用于卷积结构的卷积核上。

2.根据权利要求1所述的建立用于神经网络的引导可变形卷积GDCN的方法，其特征在于：所述引导可变形卷积GDCN计算公式如下：

3.一种基于引导可变形卷积的引导优化聚合模块，引导可变形卷积利用权利要求1所述的方法建立，其特征在于：包括两个连续的引导可变形卷积结构，根据引导特征信息，学习出采样点进行优化聚合，引导代价体进行细化计算。

4.根据权利要求3所述的基于引导可变形卷积的引导优化聚合模块，其特征在于：所述优化聚合包括对于颜色引导的优化聚合和对于基于误差引导的优化聚合，其中，对于颜色引导的优化聚合通过卷积层和残差块对原图像进行特征提取作为引导特征输入；对于基于误差引导的优化聚合通过将误差图作为引导输入，针对存在匹配误差的区域进行代价聚合。

5.一种基于引导优化的边缘保持立体匹配的方法，基于权利要求3所述的引导优化聚合模块，其特征在于：基于引导优化聚合模块，构建立体匹配网络GRNet，迭代学习后，实现原始图像的高精度、高度边缘保持、细节区域清晰的立体匹配，具体步骤如下：

步骤2.代价体构建：代价体通过对提取得到的左右图像特征构建，用于反映左右图像中像素间的匹配关系；基于步骤1所得的不同感受野的多组特征构建多组相关体；对步骤1获得的多组特征串联应用两次卷积得到用于构建连结代价体的特征；最终的代价体为组相关代价体与连结代价体串联组成；

步骤5.针对立体匹配网络GRNet计算损失L。

6.根据权利要求5所述的基于引导可变形卷积优化的边缘保持立体匹配的方法，其特征在于：所述步骤2中，代价体构建公式如下：

V_concat(d,x,y,f)＝f_L(x,y)||f_R(x-d,y)

V_combine＝V_concat(d,x,y,f)||V_gwc(d,x,y,g)

7.根据权利要求5所述的基于引导可变形卷积优化的边缘保持立体匹配的方法，其特征在于：所述步骤3中，3D代价聚合采用一个预处理结构和两个沙漏结构，并在预处理结构和两个沙漏结构后分别连接一个输出单元，每个输出单元得到1×D/4×H/4×W/4的代价体，来自输出单元的代价体直接回归视差图作为中间监督，使网络在浅层学习到准确的代价体，提高整体算法整体精度；第二个沙漏结构的输出单元的代价体作为2D代价聚合的输入；

8.根据权利要求5所述的基于引导可变形卷积优化的边缘保持立体匹配的方法，其特征在于：所述步骤4中，Softargmin操作通过如下公式产生亚像素精度的视差：

其中，

9.根据权利要求5所述的基于引导可变形卷积优化的边缘保持立体匹配的方法，其特征在于：所述步骤5中，损失L计算公式如下：