CN115830094A

CN115830094A - 一种基于无监督的立体匹配方法

Info

Publication number: CN115830094A
Application number: CN202211646528.7A
Authority: CN
Inventors: 魏东; 李昌恺; 刘欢; 张潇瀚; 孙天翼
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-03-21

Abstract

本发明一种基于无监督的立体匹配方法，涉及计算机视觉领域、深度学习技术领域，其特征在于：该方法按照以下步骤进行：图像输入：输入两幅左右相机视图，两幅图像进行裁剪并在通道维度上合并；视差计算：视差计算采用的是自编码器模块，自编码器模块包含编码器，结构感知模块，解码器三部分组成；重建图像：得到的视差图和原图像通过扭曲操作计算重建图像；损失计算：计算图像重建损失、左右一致性损失以及视差图平滑度损失；训练模型：用图像重建损失、左右一致性损失以及视差图平滑度损失引导网络模型学习。本发明的目的是为了获得较多高精度的视差信息，提高无监督立体匹配的精度。

Description

一种基于无监督的立体匹配方法

技术领域：

本发明涉及计算机视觉领域、深度学习技术领域，具体涉及一种基于无监督的立体匹配方法。

背景技术：

双目立体视觉是计算机视觉的重要组成部分，在自动驾驶、机器人等领域具有着重要意义。双目立体视觉系统基于左右两幅图像，通过模拟人眼的视觉方式，由两个不同的视点对同一个物体进行观察，具体是由两个参数相同的摄像机在不同位置进行拍摄，或由一台相机经过旋转和移动进行拍摄，并计算视差，根据视差来还原物体的深度信息，最终根据深度信息来进行三维重建。其中立体匹配是近些年来研究的热点问题。立体匹配算法可以实现两幅图像之间的像素匹配并计算视差。近年来由于深度学习的飞速发展，深度学习的方法广泛应用在立体匹配当中。深度学习能通过卷积、池化、全连接等操作，对图像进行非线性变换，可以提取图像的多层特征用于代价计算，对提取的图像特征进行上采样过程中设置代价聚合和图像增强方法，从而实现图像匹配。深度学习的方法通过训练获得模型参数，提高算法的鲁棒性。

目前卷积神经网络已经广泛应用于立体匹配中，与传统方法不同的是，卷积神经网络能够学习到更为复杂的非线性关系，同时卷积神经网络可以减少人为设计特征的工作量，并且对于立体匹配中存在的遮挡，反射和弱纹理等易发生误匹配的难点区域也有较好的效果。卷积神经网络已经展示了在立体匹配方面的能力。训练用于立体匹配的卷积神经网络往往使用大量带有标签的数据集进行参数学习。由于标注标签的工作非常困难，就导致了很难获取足够多的带有标签的数据，尤其是在室外的情况下，网络更加依赖于高精度且大量的数据，所以有监督学习很难应用于实际情况中，这样就导致了无法获得较多的高精度视差信息。

发明内容：

发明目的：

为了获得较多高精度的视差信息，解决深度学习立体匹配方法需要大量带标签样本的问题，同时提高无监督立体匹配的精度。本发明提供了一种基于无监督的立体匹配方法。

技术方案：

一种基于无监督的立体匹配方法，其特征在于：该方法按照以下步骤进行：

步骤1：图像输入：输入两幅左右相机视图，两幅图像进行裁剪并在通道维度上合并，传入的两幅3通道的RGB彩色图像，合并之后输入变为6通道；

步骤2：视差计算：视差计算采用的是自编码器模块，自编码器模块包含编码器，结构感知模块，解码器三部分组成；

步骤3：重建图像：步骤2中得到的视差图和原图像通过扭曲操作计算重建图像；

步骤4：损失计算：计算图像重建损失、左右一致性损失以及视差图平滑度损失；

步骤5：训练模型：用图像重建损失、左右一致性损失以及视差图平滑度损失引导网络模型学习；

三种损失通过Adam优化方法进行梯度更新，从而引导整个网络模型的训练。

所述的步骤2视差计算中，按如下步骤进行：

步骤2.1：将处理好的图像输入到编码器当中进行特征提取；编码器有6层，编码器将6通道的输入进行下采样操作，从而得到通道数为2048的特征图；

步骤2.2：编码器6次下采样后得到的特征图输入到结构感知模块中，得到包含全局信息的特征图，结构感知模块通过计算通道间的相似度，对不同通道进行加权，并进行特征融合；

步骤2.3：解码器包含上采样和细节强调模块，下采样结束后得到的特征图进行上采样还原回原始图像分辨率，最终生成两幅通道数为1的视差图；

其中将来自跳跃连接包含丰富空间信息的特征和来自深层经过上采样得到的包含语义信息的特征输入到细节强调模块，细节强调模块采用通道注意力机制对不同通道标注重要程度并进行特征融合得到效果更好的特征图，最后输出视差图；

在步骤2.2中，对特征图的最深层的特征层F^C×H×W通过转置相乘的方法变成C×C大小的相似度图S^C×C，再将相似性图S^C×^C通过使用m_ax函数得到矩阵的最大值再相减的操作转变为区分性图D^C×C，此时区分性图D^C×^C反应的是两个通道之间的差异性，

1≤i，j≤2048，表示的是第j个通道对第i个通道的影响程度，越不相似的两个通道得分越高，经过_softm_ax层之后转换为注意力图A^C×C，注意力图A^C×C与输入的特征图F^C×H×W进行矩阵相乘变为C×H×W大小的特征图并与特征层F^C×H×W通过矩阵相加的方法进行特征融合，得到输出的特征层E^C×H×W，此时特征层大小没有变化，却融合到了更多其他区域的响应。

所述的步骤2中，编码器和解码器对应模块之间为跳跃连接，通过跳跃连接来实现特征找回，特征找回的方法是将编码器富含空间信息的低级特征和解码器富含上下文信息的高级特征在通道维度上进行拼接；拼接的方法是编码器的低级特征L^C×H×W和解码器经过上采样的高级特征H^C×H×W在通道维度上拼接得到特征层C^2C×H×W，特征层C^2C×H×W经过3x3的卷积对特征进行归一化得到U^2C×H×W，接下来U^2C×H×W通过全局平均池化、1×1卷积、R_eL_u激活函数、1×1卷积和sigmoid激活函数压缩到一维向量得到V^2C×1×1，V^2C×1×1得到全局上下文信息并计算权重向量；此时V^2C×1×1中的权重分数表示对应通道的重要性，包含关键信息的通道将获得更高的分数；V^2C×1×1与U^2C×H×W通过逐个元素乘法得到加权的特征层D ^2C×H×W；特征层U^2C×H×W和特征层D ^2C×H×W通过特征相加的方式融合特征得到O^2C×H×W。

所述的步骤4中损失计算中，引入图像质量评价中的图像相似度指标SSIM来综合的计算重构图像和原始图像在光度上的误差，图像重建损失函数如公式(1)；

其中，N表示的像素数目，原来的左图为

i，j表示像素点的位置坐标，根据预测的视差d以及原有的右图

通过扭曲操作得到重构后的左图

α是基本重构误差和相似度误差的权重，α取0.85，相似度误差占据更大的比重；

使用视差图平滑度损失对视差梯度

进行L1惩罚，平滑度损失如公式(2)：

其中，N表示像素数目，

表示以左图为参考图像的视差图，i，j表示像素点的位置坐标，

表示左图像，

是对视差图的x方向求导，

是对视差图的_y方向求导。

左右一致性损失也应用在双目图像视差估计上，输入左右视图，输出的是以左图为参考图像的视差图dl，和以右图为参考图像的视差图dr，并且将以右图为参考图像的dr作为扭曲操作的输入图像，再以左图为参考图像的dl作为输入的视差图，经过扭曲操作W就会得到dl的重构视差图；这里得到的是重构的视差图，左视差图和重构的左视差图计算左右一致性损失；

左右一致性损失如公式(3)：

其中，N表示像素数目，d ^l是左视差图，dr是右视差图，W表示扭曲操作。

优点及效果：

本发明具有以下优点和有益效果：

大量没有标签的数据是非常容易获取的，同时这些数据也能提供一定的信息。具体来讲，基于无监督双目立体匹配方法是只将双目相机采集到的左右两幅图像作为输入信息传入到卷积神经网络中，而不传入带有深度标签的数据，再利用计算机视觉的算法，生成视差图。

本发明将传统立体匹配方法中四个步骤合为一个步骤，同时采用了无监督的方法解决了有监督立体匹配算法带来的依赖大量有标签数据的问题。相比以往的自编码器结构，由于在编码器的最深层采用了结构感知模块，融合了不同区域的响应，增强了网络对场景结构的感知能力从而得到效果更好的深度图像。对于自编码器，使用了细节强调模块，细节强调模块使用通道注意力的方法，让网络关注某些特定的通道，从而融合到更为重要的特征，以生成更加清晰且效果好的深度图。

本发明采用了无监督生成视差图来完成预测视差的任务，在提升一定精确度且减少误差率的情况下，降低了计算成本，简化了立体匹配算法的实现过程。

附图说明：

图1为本发明一种基于无监督的立体匹配方法网络结构图；

图2为本发明提供的自编码器模块网络结构示意图；

图3为本发明提供的结构感知模块网络结构示意图；

图4为本发明提供的细节强调模块网络结构示意图。

具体实施方式：

下面结合附图对本发明做进一步的说明：

如图1所示，一种基于无监督的立体匹配方法，具体包括如下步骤：

步骤1：图像输入：输入两幅左右相机图像，两幅图像输入到自编码器之前要进行尺寸为256*512的裁剪操作，并在通道维度上叠加成6通道变为一个输入；

步骤2：视差计算：两幅左右相机图像变为6通道后输入进自编码器模块中并生成视差图像。自编码器模块包括编码器(E)，结构感知模块(S)和解码器(D)，自编码器模块的结构如图2所示；

自编码器模块通过卷积层提取出更有分辨力的高层特征，来替代原始的图像像素输入。编码器处理轮廓、颜色、边缘、纹理和形状等低层特征，不断提取特征、缩小图片和增加感受野大小，结构感知模块用来融合全局特征，解码器还原图像，处理利于理解和具有复杂语义的高层特征。

步骤2.1：编码器进行特征提取：

网络将裁剪成尺寸大小为256*512的左右相机视图，作为输入的6通道图像会进行6次下采样，下采样所使用的卷积模块是由大小为3*3、步长为2和填充为1的卷积层、BN层与ReLu激活函数层组成。下采样的过程中输入的图像长和宽每经过一个卷积模块都会缩小一半，从最初的256*512的大小在下采样过程结束时变为4*8。经过6次下采样后得到通道数为2048，大小为4*8的特征图。

BN层是调用了批量归一化(BatchNormalization)正则化方法，可以加快模型的训练和防止模型训练过拟合。由于每次处理的图片分布规律在数值的表现方式上有所差异，这样不利于网络模型进行学习，所以可以利用深度学习中常见的批量归一化方法来统一输入数据的取值范围到区间[-1，1]内。除了解决网络模型学习困难这个问题，还有利于反向传播的梯度更新。

步骤2.2：结构感知模块(SPM)融合全局特征：将最深层的特征图输入到结构感知模块中，然后融合当前尺度下其他通道的区域响应。结构感知模块的网络结构图如图3所示。

深层的特征图可以看作是某个区域的响应，不同的区域响应之间彼此关联，如果当前通道特征图能从其他通道特征图中融合到更多的区域响应，那么就能获得更多的相对深度信息，可以增强网络对场景结构的感知能力。将最深层的特征层F^C×H×W通过转置相乘的方法变成C×C大小的相似度图S^C×C，相似度图S^C×C反映的是任意两个通道之间的相似性，由于想要得到的是当前区域与其他不同区域的响应，所以将相似性图S^C×C通过使用m_ax函数得到矩阵的最大值再相减的操作转变为区分性图D^C×C，此时区分性图D^C×C反应的是两个通道之间的差异性，

(1≤i，j≤2048)表示的是第j个通道对第i个通道的影响程度，越不相似的两个通道得分越高，经过_softm_ax层之后转换为注意力图A^C×C，注意力图A^C×^C与输入的特征图F^C×H×W进行矩阵相乘变为C×H×W大小的特征图并与特征层F^C×H×W通过矩阵相加的方法进行特征融合，得到输出的特征层E^C×H×W，此时特征层大小没有变化，但是融合到了更多其他区域的响应。

步骤2.3：解码器对特征图进行上采样操作后经过细节强调模块(DEM)得到特征图，经过6次上采样得到两幅通道数为1的视差图像。解码器结构如图2所示。

最深层的特征图会进行6次上采样操作。上采样时所使用的是解码模块，解码模块使用最近邻插值的方法进行上采样，上采样的过程中图像的长和宽每经过一个解码模块会变为原来的两倍，从尺寸4*8逐渐调整为输出视差图时所需要的256*512大小，进行这样的处理是为了和步骤1中输入图像的尺寸保持一致。上采样的最后一层也就是输出层会将激活函数替换成T_anh函数，该函数的数学表达式如下：

其中细节强调模块使用通道注意力机制挑选重要通道进行特征融合；细节强调模块结构如图4所示。

特征提取在下采样的过程中空间信息会有所损失，所以通过跳跃连接的方法实现特征找回，特征找回的方法是将编码器富含空间信息的低级特征和解码器富含上下文信息的高级特征在通道维度上进行拼接，然而，简单的融合操作缺乏对局部细节的进一步处理，导致深度图像模糊。因此使用通道注意力的方法能够关注特定通道，在不同的尺度上有效的融合特征。

编码器的低级特征L^C×H×W和解码器经过上采样的高级特征H^C×H×W在通道维度上拼接得到特征层c^2C×H×W，特征层C^2C×H×W经过3x3的卷积对特征进行归一化得到U^2C×H×W，接下来U^2C×H×W通过全局平均池化、1×1卷积、R_eL_u激活函数、1×1卷积和sigmoid激活函数压缩到一维向量得到V^2C×1×1，V^2C×1×1得到全局上下文信息并计算权重向量。此时V^2C×1×1中的权重分数表示对应通道的重要性，包含关键信息的通道将获得更高的分数。V^2C×1×1与U^2C×H×W通过逐个元素乘法得到加权的特征层D^2C×H×W。特征层U^2C×H×W和特征层D^2C×H×W通过特征相加的方式融合特征得到O^2C×H×W。

步骤3：生成原图像的重建图像

和

视差图和原图像通过扭曲操作得到重建图像；

对于无监督，由于在传入样本的同时不传入标签数据，所以需要跟自身进行对比学习并计算损失，视差图像反应的是同一像素点在左右图像上的位置关系，通过视差图D l和左图Il可以计算出重建图像

视差图Dr和左图Ir可以计算出重建图像

步骤4：损失计算：计算图像重建损失、左右一致性损失以及视差图平滑度损失。

图像重建损失是计算原图像和重建图像的L1损失。通常经过重构的图像可能具有很大的失真情况，所以引入图像质量评价中的图像相似度指标SSIM来综合的计算重构图像和原始图像在光度上的误差。图像重建损失函数如公式(1)；

其中，N表示的像素数目，原来的左图为

(i，j表示像素点的位置坐标)，根据预测的视差d以及原有的右图

通过扭曲操作得到重构后的左图

α是基本重构误差和相似度误差的权重，α一般取0.85，相似度误差占据更大的比重。

由于需要密集的视差图，为了使视差在局部上保持平滑，使用视差图平滑度损失对视差梯度

进行L1惩罚，由于深度不连续性通常出现在图像的梯度上，因此图像的梯度也被考虑进来。平滑度损失如公式(2)：

其中，N表示像素数目，

表示以左图为参考图像的视差图(i，j表示像素点的位置坐标)，

表示左图像，

是对视差图的x方向求导，

是对视差图的y方向求导。

左右一致性损失同样应用在双目图像视差估计上。增强左右视差图的一致性可以让结果更准确。输入的是左右视图，输出的是以左图为参考图像的视差图dl，和以右图为参考图像的视差图dr。并且可以将以右图为参考图像的dr作为扭曲操作的输入图像，再以左图为参考图像的d ^l作为输入的视差图，经过扭曲操作W就会得到d ^l的重构视差图。这里得到的是重构的视差图，而非重构的左图。左视差图和重构的左视差图计算左右一致性损失。

左右一致性损失如公式(3)：

步骤5：训练模型：用图像重建损失、左右一致性损失以及视差图平滑度损失来引导网络模型学习。

训练时分别计算三种损失，并将三种损失相加作为网络的总损失，而关于训练的详细过程，就是通过损失函数来引导整个网络模型的训练，即依靠优化方法对梯度进行更新，梯度不断下降从而去接近最优解来更新权重参数。而关于权重参数，涉及权值初始化和优化方法两方面。

权值初始化是为了让网络模型在数值空间中去寻求全局最优解的时候有一个较好的初始位置，这样有利于网络模型学习时候更好更快的收敛。卷积层的权值初始化时采用均值为0，方差为0.02的随机正态分布。

网络模型搜索最优解的过程可以称作优化。优化时采用的方法是对梯度下降法改进的Ad_am方法，使用Ad_am方法的原因在于只要设置好初始的一些相关超参数的数值，它会自动调节学习率来帮助网络模型学习时更好更快的收敛。

Claims

1.一种基于无监督的立体匹配方法，其特征在于：该方法按照以下步骤进行：

2.根据权利要求1所述的一种基于无监督的立体匹配方法，其特征在于：所述的步骤2视差计算中，按如下步骤进行：

其中将来自跳跃连接包含丰富空间信息的特征和来自深层经过上采样得到的包含语义信息的特征输入到细节强调模块，细节强调模块采用通道注意力机制对不同通道标注重要程度并进行特征融合得到效果更好的特征图，最后输出视差图。

3.根据权利要求2所述的一种基于无监督的立体匹配方法，其特征在于：在步骤2.2中，对特征图的最深层的特征层F^C×H×W通过转置相乘的方法变成C×C大小的相似度图S^C×C，再将相似性图S^C×C通过使用max函数得到矩阵的最大值再相减的操作转变为区分性图D^C×C，此时区分性图D^C×C反应的是两个通道之间的差异性，

表示的是第j个通道对第i个通道的影响程度，越不相似的两个通道得分越高，经过softmax层之后转换为注意力图A^C×C，注意力图A^C×C与输入的特征图F^C×H×W进行矩阵相乘变为C×H×W大小的特征图并与特征层F^C×H×W通过矩阵相加的方法进行特征融合，得到输出的特征层E^C×H×W，此时特征层大小没有变化，却融合到了更多其他区域的响应。

4.根据权利要求1所述的一种基于无监督的立体匹配方法，其特征在于：所述的步骤2中，编码器和解码器对应模块之间为跳跃连接，通过跳跃连接来实现特征找回，特征找回的方法是将编码器富含空间信息的低级特征和解码器富含上下文信息的高级特征在通道维度上进行拼接；拼接的方法是编码器的低级特征L^C×H×W和解码器经过上采样的高级特征H^C ^×H×W在通道维度上拼接得到特征层C^2C×H×W，特征层C^2C×H×W经过3x3的卷积对特征进行归一化得到U^2C×H×W，接下来U^2C×H×W通过全局平均池化、1×1卷积、ReLu激活函数、1×1卷积和sigmoid激活函数压缩到一维向量得到V^2C×1×1，V^2C×1×1得到全局上下文信息并计算权重向量；此时V^2C×1×1中的权重分数表示对应通道的重要性，包含关键信息的通道将获得更高的分数；V^2C×1×1与U^2C×H×W通过逐个元素乘法得到加权的特征层D^2C×H×W；特征层U^2C×H×W和特征层D^2C×H×W通过特征相加的方式融合特征得到O^2C×H×W。

5.根据权利要求1所述的一种基于无监督的立体匹配方法，其特征在于：所述的步骤4中损失计算中，引入图像质量评价中的图像相似度指标SSIM来综合的计算重构图像和原始图像在光度上的误差，图像重建损失函数如公式(1)；

其中，N表示的像素数目，原来的左图为

通过扭曲操作得到重构后的左图

使用视差图平滑度损失对视差梯度

进行L1惩罚，平滑度损失如公式(2)：

其中，N表示像素数目，

表示左图像，

是对视差图的x方向求导，

是对视差图的y方向求导；

左右一致性损失也应用在双目图像视差估计上，输入左右视图，输出的是以左图为参考图像的视差图d^l，和以右图为参考图像的视差图d^r，并且将以右图为参考图像的d^r作为扭曲操作的输入图像，再以左图为参考图像的d^l作为输入的视差图，经过扭曲操作W就会得到d^l的重构视差图；这里得到的是重构的视差图，左视差图和重构的左视差图计算左右一致性损失；

左右一致性损失如公式(3)：

其中，N表示像素数目，d^l是左视差图，d^r是右视差图，W表示扭曲操作。