CN114742875A

CN114742875A - 基于多尺度特征提取和自适应聚合的双目立体匹配方法

Info

Publication number: CN114742875A
Application number: CN202210375366.1A
Authority: CN
Inventors: 陈刚; 赵埔田; 孟海涛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-12

Abstract

本发明公开了基于多尺度特征提取和自适应聚合的双目立体匹配方法，包括：获取双目相机的左图和右图；对所述左图和所述右图进行多尺度特征提取，得到所述左图和所述右图在多个分辨率上的特征矩阵；计算所述特征矩阵对应的代价矩阵；将不同的所述代价矩阵进行代价聚合，融合不同尺度下和局部区域内的信息得到代价聚合值；根据所述相邻像素的代价聚合值，获取粗视差图；对所述粗视差图进行优化，得到双目立体匹配的目标视差图。本发明提高了效率和精度，可广泛应用于图像处理技术领域。

Description

基于多尺度特征提取和自适应聚合的双目立体匹配方法

技术领域

本发明涉及图像处理技术领域，尤其是基于多尺度特征提取和自适应聚合的双目立体匹配方法。

背景技术

立体匹配算法是利用双目相机对同一场景成像获取物体三维几何信息，让本身只有二维平面信息的相机拥有如人眼般立体视觉感知能力的技术。双目相机在获取同一场景的图像后，立体匹配算法通过找到两张图(也称为“左右图”)中的对应点来计算对应点在两张图之间的位置偏差(也称为视差)。通过视差，可以经由几何方法获得像素点的深度值。离相机越近，对应位置的视差越大。

立体匹配算法的目的就是找到由双目相机获取的左右图中对应点的位置，从而获取一个视差图，对视差图进行进一步计算即可获得深度图。算法需要经过特征提取、代价计算、代价聚合、视差计算和后处理等几个步骤。

特征提取是图像处理中的一个初级运算，卷积神经网络在图像特征提取中优越性使之被广泛应用于如图片分类，目标识别，语义分割等图像任务中。传统的不基于神经网络的双目立体匹配算法往往通过手动定义来提取低维特征，卷积神经网络的发展使之成为当今立体匹配算法的重要组成部分。

现有的基于神经网络的双目深度估计算法存在运算速度慢的问题，无法达到实时性的要求。其中大量算法采用了基于3D卷积的代价计算和代价聚合模块，这些模块存在计算量大的问题，阻碍了这些算法提高计算速度。

发明内容

有鉴于此，本发明实施例提供一种效率高且精度高的，基于多尺度特征提取和自适应聚合的双目立体匹配方法。

本发明实施例的一方面提供了一种基于多尺度特征提取和自适应聚合的双目立体匹配方法，包括：

获取双目相机的左图和右图；

对所述左图和所述右图进行多尺度特征提取，得到所述左图和所述右图在多个分辨率上的特征矩阵；

计算所述特征矩阵对应的代价矩阵；

将不同的所述代价矩阵进行代价聚合，融合不同尺度下和局部区域内的信息得到代价聚合值；

根据所述相邻像素的代价聚合值，获取粗视差图；

对所述粗视差图进行优化，得到双目立体匹配的目标视差图。

可选地，所述对所述左图和所述右图进行多尺度特征提取，得到所述左图和所述右图在多个分辨率上的特征矩阵，包括：

将所述左图和所述右图输入特征提取网络进行特征提取，得到多个分辨率上的特征矩阵；

其中，所述特征提取网络包括8层卷积层；不同卷积层的尺寸不同。

可选地，所述计算所述特征矩阵对应的代价矩阵，包括：

对所有潜在匹配的像素对进行匹配代价计算；其中，若像素对匹配，则所述像素对处于同一水平线上，将匹配像素对在水平方向的差距的像素数量作为视差；

所述对所有潜在匹配的像素对进行匹配代价计算，具体为：

对左图中每一个像素的每个合理视差值计算一个匹配代价；

其中，所述匹配代价的计算公式为：

其中，

代表两像素p_l和p_r的匹配代价；p_l和p_r分别代表左右图的像素；

代表像素p的描述子向量；·代表向量内积；||·||₂代表向量的二范数。

可选地，所述代价聚合包含跨尺度代价聚合以及所述将不同的所述代价矩阵进行代价聚合，融合不同尺度下和局部区域内的信息得到代价聚合值，包括：

将多个分辨率下的代价矩阵上采样到同一分辨率下，并对上采样的结果进行取平均处理，得到在多个分辨率下的匹配信息，完成跨尺度代价聚合；

在跨尺度代价聚合之后，以每个像素为中心，在预设矩形区域内按照权重将每个像素点对应的聚合值进行求和，同时根据所述权重，将聚合中心像素的特征描述子与每个聚合点的特征描述子进行计算，得到基于多尺度和局部区域信息的代价聚合值；

其中，所述权重的计算公式为：

其中，w代表聚合权重；p_c代表区域内聚合中心像素点；p_s代表聚合的周围像素点；

代表像素p的描述子向量；·代表向量内积；||·||₂代表向量的二范数；

所述代价聚合的聚合公式为：

其中，C^A代表聚合后的代价；k_i是与聚合的视差有关的惩罚值；p_j(j＝1,...,n)代表区域内的所有像素点；w代表聚合权重。

可选地，所述根据所述相邻像素的代价聚合值，获取粗视差图这一步骤，具体为：

根据所述代价矩阵的集合，采用Soft-argmax算法计算每个像素点的预测视差，进而确定粗视差图；

其中，所述预测视差的计算公式为：

其中，D_max代表视差搜索范围，

代表像素p的预测视差值；C^A代表聚合后的代价；d代表两个像素之间的横坐标之差。

可选地，所述对所述粗视差图进行优化，得到双目立体匹配的目标视差图，包括：

将粗视差图进行上采样处理，恢复所述粗视差图的全分辨率；

将所述粗视差图的全分辨率特征、左图以及右图输入微调网络，得到高精度的目标视差图。

可选地，所述对所述粗视差图进行优化，得到双目立体匹配的目标视差图，还包括以下步骤：

将左图和右图输入微调模块后，将会通过投影计算投影误差；

根据粗视差图，可以将左图中的像素投影到右图预测的对应点上，并计算投影点和左图中对应位置原像素在每个通道上的误差，由此不直接通过非监督方法来评估粗视差图的精确度；

将投影误差与左图、左图特征及粗视差图进行拼接后输出微调网络，对粗视差图进行修复。

本发明实施例的另一方面还提供了一种基于多尺度特征提取和自适应聚合的双目立体匹配装置，包括：

第一模块，用于获取双目相机的左图和右图；

第二模块，用于对所述左图和所述右图进行多尺度特征提取，得到所述左图和所述右图在多个分辨率上的特征矩阵；

第三模块，用于计算所述特征矩阵对应的代价矩阵；

第四模块，用于将不同的所述代价矩阵进行代价聚合，融合不同尺度下和局部区域内的信息得到代价聚合值；

第五模块，用于根据所述相邻像素的代价聚合值，获取粗视差图；

第六模块，用于对所述粗视差图进行优化，得到双目立体匹配的目标视差图

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取双目相机的左图和右图；对所述左图和所述右图进行多尺度特征提取，得到所述左图和所述右图在多个分辨率上的特征矩阵；计算所述特征矩阵对应的代价矩阵；将不同的所述代价矩阵进行代价聚合，融合不同尺度下和局部区域内的信息得到代价聚合值；根据所述相邻像素的代价聚合值，获取粗视差图；对所述粗视差图进行优化，得到双目立体匹配的目标视差图。本发明提高了效率和精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图；

图2为本发明实施例提供的特征提取网络的结构示意图；

图3为本发明实施例提供的微调网络流程图；

图4为本发明实施例提供的微调网络的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

由于现有的基于神经网络的双目深度估计算法存在运算速度慢的问题，无法达到实时性的要求。其中大量算法采用了基于3D卷积的代价计算和代价聚合模块，这些模块存在计算量大的问题，阻碍了这些算法提高计算速度。为了解决现有技术的问题，本发明设计了一种高效立体匹配算法，并引入多尺度特征，以更高速度和更少存储需求获取更高精度的视差图。具体地，本发明实施例的一方面提供了一种基于多尺度特征提取和自适应聚合的双目立体匹配方法，包括：

获取双目相机的左图和右图；

计算所述特征矩阵对应的代价矩阵；

根据所述相邻像素的代价聚合值，获取粗视差图；

可选地，所述计算所述特征矩阵对应的代价矩阵，包括：

所述对所有潜在匹配的像素对进行匹配代价计算，具体为：

对左图中每一个像素的每个合理视差值计算一个匹配代价；

其中，所述匹配代价的计算公式为：

其中，

其中，所述权重的计算公式为：

所述代价聚合的聚合公式为：

其中，所述预测视差的计算公式为：

其中，D_max代表视差搜索范围，

第一模块，用于获取双目相机的左图和右图；

第三模块，用于计算所述特征矩阵对应的代价矩阵；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现过程和实施原理进行详细说明：

如图1所示，首先以双目相机的左右图作为输入，左右图将进入共享的多尺度特征提取网络进行特征提取。本方法提出了一个由少量2D卷积层构建的多分辨率特征提取网络，其中包含3个步长大于一的下采样层以提取多尺度特征，左右两张图将经过相同结构相同权重的特征提取网络之中，可以获得左右两图在多个分辨率上的特征矩阵，之后每个分辨率的左右图特征均会通过类余弦相似度的方法计算代价矩阵；在代价聚合阶段，低分辨率的代价矩阵会通过上采样至与最大的代价矩阵相同的尺寸进行聚合；之后最大分辨率的代价矩阵将会通过局部聚合算法，获取基于自适应权重过的代价聚合值，同时聚合权重将会通过类余弦相似度的方法通过左右图的特征获取，聚合权重将引导局部聚合算法，获得更好的边缘保持特性，得到更高质量的聚合结果。在聚合之后，本方法采用Soft-argmax算法获取粗视差图，获取的粗视差图将首先通过上采样回复原分辨率，并通过微调网络进行视差值的优化。

具体地，左右图输入模型后，首先经过的是特征提取阶段，特征提取网络一共包含8层卷积，特征提取网络的结构如图2所示。

接着，特征经过代价计算阶段，代价计算阶段将会对所有潜在匹配的像素对进行匹配代价计算，以用于后续的聚合和视差计算。由于双目相机已经经过矫正，匹配的像素对(如果存在)一定处于同一水平线上，而匹配像素对在水平方向的差距的像素数量即被称为视差，代价计算阶段将对左图中每一个像素的每个合理视差值计算一个匹配代价。匹配代价计算公式为：

其中，C代表两像素的匹配代价，p_l,p_r分别代表左右图的像素，

代表像素p的描述子向量，·表示向量内积，||·||₂代表向量的二范数。设p_l,p_r的横坐标之差为d，则

也可以表示为

即左图中像素p_l视差为d的匹配代价。

代价计算阶段之后进入代价聚合阶段，代价聚合阶段包含两步，跨尺度代价聚合以及自适应局部聚合。在跨尺度代价聚合阶段，上一个步骤得到的多个分辨率下的代价矩阵将会上采样到同一分辨率并取平均，用于让代价聚合矩阵获取在多个分辨率下的匹配信息。聚合后的代价矩阵将会继续进行局部聚合计算，局部聚合将以每个像素为中心，在给定矩形区域内按权重加和每个像素点对应的聚合值，同时权重将通过聚合中心像素的特征描述子与每个聚合点的特征描述子计算，权重计算公式为：

其中，w代表聚合权重，p_c代表区域内聚合中心像素点(即被聚合的像素点)，p_s代表聚合的周围像素点(即参与聚合的像素点)。

聚合公式为：

其中，C^A代表聚合后的代价；k_i是与聚合的视差有关的惩罚值，目的在于进行区域内当前视差值下及相邻视差值下的代价聚合值通信，p_j(j＝1,...,n)代表区域内的所有像素点。

代价聚合阶段后，粗视差图将经由代价集合矩阵通过Soft-argmax算法计算而来，计算每个像素点的预测视差的公式为：

其中，D_max代表视差搜索范围，

代表像素p的预测视差值。

此时获取的粗视差图分辨率低于全分辨率，为了获得高精度全分辨率视差图，首先要将粗视差图进行上采样回恢复全分辨率，之后粗视差图将于全分辨率特征和左右图同时输入微调网络，并最终输出高精度视差图，微调网络流程图如图3所示，微调网络的结构如图4所示。

综上所述，本发明提出了一种高效的双目立体匹配方法，引入了多尺度特征，能够以更高速度和更少存储需求获取更高精度的视差图。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。