CN114119777A

CN114119777A - 基于深度学习的立体匹配方法和系统

Info

Publication number: CN114119777A
Application number: CN202210098583.0A
Authority: CN
Inventors: 刘永才; 朱海涛; 杨超; 葛方海; 王鹏
Original assignee: Beijing Smarter Eye Technology Co Ltd
Current assignee: Beijing Smarter Eye Technology Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-03-01
Anticipated expiration: 2042-01-27
Also published as: CN114119777B

Abstract

本发明公开了一种基于深度学习的立体匹配方法和系统，所述方法包括：采集目标区域内的左目图像和右目图像；利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图；计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点；基于预存的图像检测网络，通过所述代价值得到视差图。解决了现有技术中立体匹配泛化能力差，计算资源要求较高的技术问题。

Description

基于深度学习的立体匹配方法和系统

技术领域

本发明涉及智能驾驶技术领域，具体涉及一种基于深度学习的立体匹配方法和系统。

背景技术

随着智能驾驶的需求越来越高，准确的获取驾驶场景中的多样信息，也显得越来越重要。双目传感器系统作为同时能获取场景空间和图像信息的多用途和低成本传感器，在智能驾驶系统的作用也显得越发重要。另外目前深度学习算法被广泛应用到智能驾驶的目标检测和识别中，其高检测率和准确度，使其成为单目传感器系统中主要的落地算法。也正是由于深度学习算法的广泛应用，促使各个硬件厂商针对深度学习算法模型开发了一系列特定的硬件加速模块，并且市场的需求量逐年增加，进而促使针对深度学习算力的硬件成本也在逐年降低。将双目传感器中的立体匹配算法移植到硬件加速模块中，俨然成为了一个重要的市场趋势。

将立体匹配算法移植到深度学习硬件加速模块的方案主要有传统方案的直接移植和直接利用深度学习思路实现立体匹配算法两种。传统方案直接移植，开发难度比较大，所以目前主要的研究方向是直接利用深度学习思路实现立体匹配算法。

直接利用深度学习思路实现立体匹配的思路主要有直接端对端和包含仿传统算法的3D卷积层的两种思路。但是，直接利用端对端的思路，在实际应用中，发现其泛化能力差，而且真值获取难，而包含3D卷积层的神经网络，需要的计算资源比较大，计算难度较高。

发明内容

为此，本发明实施例提供一种基于深度学习的立体匹配方法和系统，以解决现有技术中立体匹配泛化能力差，计算资源要求较高的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

一种基于深度学习的立体匹配方法，所述方法包括：

采集目标区域内的左目图像和右目图像；

利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图；

计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点；

基于预存的图像检测网络，通过所述代价值得到视差图。

进一步地，所述特征提取网络层包括平均池化算子和双线性差值算子。

进一步地，所述利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图，具体包括：

利用所述平均池化算子和所述双线性差值算子经过多次采样和卷积得到所述特征图。

进一步地，利用所述平均池化算子和所述双线性差值算子经过多次采样和卷积得到所述特征图，具体包括：

对所述左目图像和右目图像进行卷积操作，以得到第一卷积结果；

利用所述平均池化算子对所述第一卷积结果进行多次降采样操作，以得到第一降采样结果；

利用卷积算子对所述第一降采样结果进行降采样操作，以得到第二降采样结果；

利用所述双线性插值算子所述第二降采样结果进行上采样操作，以得到第一上采样结果；

对所述第一降采样结果和所述第一上采样结果进行加和操作，并对该加和进行卷积操作，以得到第二卷积结果；

利用所述双线性插值算子对所述第二卷积结果进行上采样操作，以得到第二上采样结果；

对所述第一降采样结果和所述第二上采样结果进行加和操作，并对该加和进行卷积操作，以得到第三卷积结果；

使用双线性插值算子对第三卷积结果进行上采样操作，以得到第三上采样结果；

对所述第三上采样结果和所述第一卷积结果进行加和操作，并将该加和进行卷积操作，以得到所述特征图。

进一步地，利用所述平均池化算子对所述第一卷积结果进行多次降采样操作，以得到第一降采样结果，具体包括：

使用平均池化算子对第一卷积结果进行一次降采样操作，以得到初级降采样结果；

使用平均池化算子对所述初级降采样结果进行二次降采样操作，以得到中级降采样结果；

使用平均池化算子对中级降采样结果进行三次降采样操作，以得到所述第一降采样结果。

进一步地，利用以下公式，计算所述特征图中每个对应像素点的余弦相似度

：

其中，

为像素点A对应的任意特征向量点，

为像素点B对应的任意特征向量点。

本发明还提供一种基于深度学习的立体匹配系统，所述系统包括：

图像采集单元，用于采集目标区域内的左目图像和右目图像；

特征图生成单元，用于利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图；

代价计算单元，用于计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点；

视差图获取单元，用于基于预存的图像检测网络，通过所述代价值得到视差图。

本发明还提供一种智能终端，所述智能终端包括：数据采集装置、处理器和存储器；

所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如上所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如上所述的方法。

本发明所提供的基于深度学习的立体匹配方法和系统，通过利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图，计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点，基于预存的图像检测网络，通过所述代价值得到视差图。简化了深度学习立体匹配算法的资源消耗，可成功应用到多个硬件厂商的板卡中。从而简化了深度学习立体匹配算法的算力需求，在实际应用中保证了实时性，并保证了深度学习立体匹配算法的泛化能力，在实际应用中保证了应用场景的需求。解决了现有技术中立体匹配泛化能力差，计算资源要求较高的技术问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明所提供的基于深度学习的立体匹配方法一种具体实施方式的流程图；

图2为一个实施例中的原始图像；

图3为图2所示实施例中的真值图；

图4为图3所示实施例得到的训练结果图；

图5为作为对比例的训练结果图；

图6为本发明所提供的基于深度学习的立体匹配系统一种具体实施方式的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

立体匹配算法的基本原理是左目图像中某一特定的像素点在右目图像中找到相应的特征点，考虑到极线约束，两个特征点的横坐标差，即为左目图像此点的视差。传统方案中将特征点的特征匹配度定义为代价值。而某一个点的多个代价值可能相同，因此传统方案在提取代价值后，再用动态规划等思路实现代价聚合。代价聚合后左目图像的每个像素点都从右目图像中找到唯一的最匹配的特征点，即完成视差图的提取。

在一种具体实施方式中，如图1所示，本发明所提供的基于深度学习的立体匹配方法包括以下步骤：

S1：采集目标区域内的左目图像和右目图像；

S2：利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图。

具体地，所述特征提取网络层包括平均池化算子和双线性差值算子。深度学习中包含3D卷积层的网络中，将代价值计算过程利用卷积层实现，即相比通用网络，多了一层左目图像某一特征点对应右目图像多个特征点进行卷积的操作。本发明通过设计代价层，实现了对3D卷积的替代，其中代价层包含了特征图提取和向量的余弦相似度计算两部分。

考虑到计算两个图像像素点的匹配度时，为了让提取的特征能表征一定的语义特征，需要比较大感受野。因此参考通用的堆叠沙漏层，设计了一种符合立体匹配的特征提取网络层。而且设计此网络时，也考虑了减少对算力和计算资源的依赖。

其具体包括以下步骤：

S21：对所述左目图像和右目图像进行卷积操作，以得到第一卷积结果；

S22：利用所述平均池化算子对所述第一卷积结果进行多次降采样操作，以得到第一降采样结果；

S23：利用卷积算子对所述第一降采样结果进行降采样操作，以得到第二降采样结果；

S24：利用所述双线性插值算子所述第二降采样结果进行上采样操作，以得到第一上采样结果；

S25：对所述第一降采样结果和所述第一上采样结果进行加和操作，并对该加和进行卷积操作，以得到第二卷积结果；

S26：利用所述双线性插值算子对所述第二卷积结果进行上采样操作，以得到第二上采样结果；

S27：对所述第一降采样结果和所述第二上采样结果进行加和操作，并对该加和进行卷积操作，以得到第三卷积结果；

S28：使用双线性插值算子对第三卷积结果进行上采样操作，以得到第三上采样结果；

S29：对所述第三上采样结果和所述第一卷积结果进行加和操作，并将该加和进行卷积操作，以得到所述特征图。

在一个具体使用场景中，上述特征图的生成过程包括以下步骤：

1）对原始图像（即左目图像和右目图像）进行3×3卷积操作，以得到第一卷积结果；

2）使用平均池化算子对1)中得到的第一卷积结果进行降采样操作，以得到初级降采样结果；

3）使用平均池化算子对2)中得到的初级降采样结果进行降采样操作，以得到中级降采样结果；

4）使用平均池化算子对3)中得到的中级降采样结果进行降采样操作，以得到所述第一降采样结果；

5）使用3×3卷积算子对4)中得到的第一降采样结果进行降采样操作，以得到第二降采样结果；

6）使用双线性插值算子对5)中得到的第二降采样结果进行上采样操作，以得到第一上采样结果；

7）对6)中得到的第一上采样结果和4)中得到的第一降采样结果的加和进行3×3卷积操作，以得到第二卷积结果；

8）使用双线性插值算子对7)中得到的第二卷积结果进行上采样操作，以得到第二上采样结果；

9）对8)中得到的第二上采样结果和3)中得到的中级降采样结果的加和进行3×3卷积操作；

10）使用双线性插值算子对9)结果进行上采样操作；

11）对10)和2)的加和进行3×3卷积操作；

12）使用双线性插值算子对11)结果进行上采样操作；

13）对11)和1)的加和进行3×3卷积操作，得到特征图。

该方法应用了平均池化算子和双线性插值算子替代了卷积操作和转置卷积操作，不仅节省了运算资源的需求，还能在一定程度上减少算力的需求。

S3：计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点。

本发明利用特征向量的余弦相似度表征图像上两个像素点的相似度，相似度的数值大小表示两个像素的代价值。选用此方案不仅符合代价值的数学意义，而且在实际实验中也得到了很好的效果。

假定有像素点A和B的特征向量分别为：

利用以下公式，计算所述特征图中每个对应像素点的余弦相似度

：

其中，

为像素点A对应的任意特征向量点，

为像素点B对应的任意特征向量点。

S4：基于预存的图像检测网络，通过所述代价值得到视差图。

计算出左目图像相对右目图像的代价值后，选择已有的通用图像检测网络结构，作为传统立体匹配代价聚合的替代，即可实现对视差图的计算。本发明中选用有逻辑意义的代价计算方法替代深度学习的卷积操作，在真值样本较少时，可以很好的体现出泛化能力。如图2所示原始图、图3所示真值时，在训练迭代在176次时，含有代价值层的网络效果（如图4），明显好于含有3D卷积层的网络效果（如图5）。

在上述具体实施方式中，本发明所提供的基于深度学习的立体匹配方法，通过利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图，计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点，基于预存的图像检测网络，通过所述代价值得到视差图。简化了深度学习立体匹配算法的资源消耗，可成功应用到多个硬件厂商的板卡中。从而简化了深度学习立体匹配算法的算力需求，在实际应用中保证了实时性，并保证了深度学习立体匹配算法的泛化能力，在实际应用中保证了应用场景的需求。解决了现有技术中立体匹配泛化能力差，计算资源要求较高的技术问题。

除了上述方法，本发明还提供一种基于深度学习的立体匹配系统，如图6所示，所述系统包括：

图像采集单元100，用于采集目标区域内的左目图像和右目图像；

特征图生成单元200，用于利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图；

代价计算单元300，用于计算所述特征图中每个对应像素点的余弦相似度，并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点；

视差图获取单元400，用于基于预存的图像检测网络，通过所述代价值得到视差图。

在上述具体实施方式中，本发明所提供的基于深度学习的立体匹配系统，通过利用预存的特征提取网络层提取所述左目图像和右目图像中每个像素点的特征值，并生成特征图，计算所述特征图中每个对应像素点的余弦相似度，

并以所述余弦相似度的数值作为代价值，对应像素点包括左目图像的目标像素点和右目图像上与该目标像素点对应的像素点，基于预存的图像检测网络，通过所述代价值得到视差图。简化了深度学习立体匹配算法的资源消耗，可成功应用到多个硬件厂商的板卡中。从而简化了深度学习立体匹配算法的算力需求，在实际应用中保证了实时性，并保证了深度学习立体匹配算法的泛化能力，在实际应用中保证了应用场景的需求。解决了现有技术中立体匹配泛化能力差，计算资源要求较高的技术问题。

与上述实施例相对应的，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中包含一个或多个程序指令。其中，所述一个或多个程序指令用于被一种双目相机深度标定系统执行如上所述的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器（DigitalSignalProcessor，简称DSP）、专用集成电路（ApplicationSpecific工ntegratedCircuit，简称ASIC）、现场可编程门阵列（FieldProgrammableGateArray，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器（Read-OnlyMemory，简称ROM）、可编程只读存储器（ProgrammableROM，简称PROM）、可擦除可编程只读存储器（ErasablePROM，简称EPROM）、电可擦除可编程只读存储器（ElectricallyEPROM，简称EEPROM）或闪存。

易失性存储器可以是随机存取存储器（RandomAccessMemory，简称RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（StaticRAM，简称SRAM）、动态随机存取存储器（DynamicRAM，简称DRAM）、同步动态随机存取存储器（SynchronousDRAM，简称SDRAM）、双倍数据速率同步动态随机存取存储器（DoubleDataRateSDRAM，简称DDRSDRAM）、增强型同步动态随机存取存储器（EnhancedSDRAM，简称ESDRAM）、同步连接动态随机存取存储器（SynchlinkDRAM，简称SLDRAM）和直接内存总线随机存取存储器（DirectRambusRAM，简称DRRAM）。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。