CN115908992B

CN115908992B - 双目立体匹配的方法、装置、设备以及存储介质

Info

Publication number: CN115908992B
Application number: CN202211297482.2A
Authority: CN
Inventors: 沈哲伦; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-22
Filing date: 2022-10-22
Publication date: 2023-12-05
Anticipated expiration: 2042-10-22
Also published as: CN115908992A

Abstract

本公开提供了一种双目立体匹配的方法、装置、设备以及存储介质。涉及人工智能技术领域，尤其涉及深度学习、计算机视觉技术等领域。具体实现方案为：对通过双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征；对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷；根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图。采用本公开，提高了双目立体匹配的精度和泛化性。

Description

双目立体匹配的方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉技术等领域。

背景技术

随着技术的发展，可以通过人工智能改善硬件性能，所适用的应用场景多种多样，比如涉及双目立体匹配、单目标深度估计、单目标跟踪、图像处理、视频处理等与计算机视觉相关的应用场景的硬件设计中，都可以采用人工智能技术，即：将训练好的模型部署于硬件中，以提高硬件的处理速度及处理准确率。

其中，双目立体匹配作为计算机视觉领域的一项核心任务，由于真实环境的复杂性、目标对象本身的不稳定性以及目标对象本身分辨率等原因导致双目立体匹配的精度不高，即便可以在特定数据集上满足精度要求，但是对于除特定数据集之外的其他数据集而言，泛化性差，因此，在实际应用中如何提高双目立体匹配的精度和泛化性是要解决的问题。

发明内容

本公开提供了一种双目立体匹配的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种双目立体匹配的方法，包括：

对通过双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征；

对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷；

根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图。

根据本公开的另一方面，提供了一种双目立体匹配的装置，包括：

提取模块，用于对通过双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征；

构建模块，用于对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷；

双目立体匹配模块，用于根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

采用本公开，提高了双目立体匹配的精度和泛化性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的双目摄像头采集场景得到视差的示意图；

图2是根据本公开实施例的卷积核的滑窗方式提取图像特征的示意图；

图3是根据本公开实施例的一自动驾驶车辆与云端通信的应用场景示意图；

图4是根据本公开实施例的双目立体匹配的方法的流程示意图；

图5是根据本公开实施例的双目立体匹配中特征提取的流程示意图；

图6是根据本公开实施例的双目立体匹配中代价卷构建的流程示意图；

图7是根据本公开实施例的应用示例中基于金字塔型代价卷融合的双目立体匹配的示意图；

图8是根据本公开实施例的应用示例中多尺度代价卷融合模块的示意图；

图9是根据本公开实施例的应用示例中基于翘曲代价卷的视差补偿网络的示意图；

图10是根据本公开实施例的应用示例中双目立体匹配的应用场景示意图；

图11是根据本公开实施例的双目立体匹配装置的组成结构示意图；

图12是用来实现本公开实施例的双目立体匹配/目标跟踪方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

对本申请实施例所涉及到的基本概念进行简单说明。应理解，下文所介绍的基本概念并不对本申请实施例产生限定。

1、双目立体匹配，是指在通过双目摄像头采集的一对待校正立体图像(图像对)中匹配对应位置的相应像素点，从而预测视差信息，进一步可以优化该视差信息(如视差图)，以最终求得准确的深度信息(如深度图)。换言之，旨在从一对待校正的立体图像中估计视差图/深度图，在自动驾驶、机器人导航、同时定位与地图构建(SLAM，SimultaneousLocalization and Mapping)等技术中都具有极高的应用价值。

2、单目深度估计，是指直接从单目摄像头采集的图像来预测深度信息(如深度图)。

3、单目摄像头和双目摄像头的区别，是指在测距原理上，两种摄像头完全不同。单目摄像头需要对采集图像中的目标对象(如车辆、车道线、交通信号设备、行走的人等)进行识别，也就是说在测距前先识别目标对象是车、人还是其他对象，在此基础上再进行测距，比如，识别出目标对象的目标类别后，根据该目标对象在图像中的大小来估算距离，越大则距离该单目摄像头越近；而双目摄像头则更加像人类的双眼，主要通过作为图像对的两幅图像之间的视差计算来确定距离，也就是说，双目摄像头不需要知道目标对象是什么，只要通过视差计算就可以实现测距，比如，从视差的大小得出物体的距离，视差越大，物体距离该双目摄像头越近。

4、视差，是指从两个不同位置观察同一个目标对象，可以得到该目标对象在视野中的位置变化与差异。从两个观察点看该目标对象，形成两条视线之间的夹角叫做这两个点的视差角，两个观察点之间的距离称作视差基线，如图1所示，比如采用双目摄像头采集同一场景中的同一个目标对象时，双目摄像头101采集同一场景中的同一个目标对象时，左侧的摄像头1011和右侧的摄像头1012分别进行采集，形成视差角102及视差基线103，对应位置的像素点x_L和x_R在视差图104中进行匹配，从而得到视差。

5、四维代价卷和三维代价卷的区别，是指：在构建代价卷的运算中，是否在常规的批(batch)，长和宽维度外保留视差维度的信息，通常来说，四维代价卷由于比三维代价卷保留了视差维度信息，因此会包含更多层级且更精确的语义信息，但计算复杂度会相对高。

6、卷积核，也称为特征提取算子，在进行卷积运算的时候，卷积核就相当于图像处理中各种特征提取的算子，通俗的说，可以将卷积核理解为滑窗方式中的滑块202，如图2所示，一张采集图像201中的图像特征，可以是：将该采集图像201输入神经网络203，神经网络203可以是卷积神经网络结构，利用卷积核进行运算从而实现特征提取。

根据本公开的实施例，图3是根据本公开实施例的一自动驾驶车辆与云端通信的应用场景示意图，包括：分布式集群系统300、多个车辆(如车辆307-车辆309)，以及用于该分布式集群系统与该多个车辆间通信的“云”306。分布式集群系统300为集群系统的一个示例，示例性的描述了可以利用该分布式集群系统300进行数据处理(本公开不限于单机或多机上的双目立体匹配任务及其相关处理任务)，采用分布式的处理可以进一步提高数据处理的精度。其中，该分布式集群系统可以接收多个车辆上报的自动驾驶数据(如定位数据、导航请求数据、任务调度数据等)进行与自动驾驶相关场景的数据处理任务(包括但不限于双目立体匹配及其相关处理任务)。在该分布式集群系统中包括多个节点(如服务器集群301、服务器302、服务器集群303、服务器304、服务器305)，多个节点间可以共同执行一个或多个数据处理任务。可选地，该分布式集群系统中的多个节点可以基于相同方式执行该数据处理任务，该多个节点也可以基于不同方式执行该数据处理任务。可选地，在每一轮数据处理任务完成后，多个节点之间都可以进行数据交换(如数据同步)。

图4是根据本公开一实施例的双目立体匹配的方法的流程示意图。该双目立体匹配的方法可以包括：

S401、对通过双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征；

S402、对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷；

S403、根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图。

S401-S403的一示例中，第一图像可以是左图像(左图像可以是双目摄像头的左图像传感器采集到的图像，第二图像可以是右图像(右图像可以是双目摄像头右图像传感器采集到的图像。其中，左图像传感器/右图像传感器，可以包括兼容不同类型的图像传感器，如摄像机、红外设备、激光设备等；其数量也可以依据需求随意设定，在多目场景中，如三目匹配场景中，也可以采用其他数量的图像传感器，不限于本示例中的两个图像传感器。对同一场景得到的第一图像和/或第二图像进行多尺度特征提取，可以得到多个第一子图像(如多尺度的左图像特征)和第二子图像(如多尺度的右图像特征)。将获取到的多个第一图像的子图像与第二图像的子图像采用预设维度(如四维和/或三维，代价卷的维度可以依据需求随意设定)的代价卷进行多尺度特征融合，从而构建出金字塔型代价卷。根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图(如初始左视差图)，其中，基于金字塔型代价卷实现的双目立体匹配处理，最终可以达到对左图和右图对应位置像素点的视差估计，以得到初始的第一视差图。

采用本公开，通过对双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征，这些图像特征包括了对域不敏感的特征(如目标对象的边缘、轮廓特征、区域特征等)，从而提高了泛化性。对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷，由于多尺度的特征融合不仅保留了原始图像的细节信息，也保留了对域不敏感的特征，从而，最终根据该金字塔型代价卷进行双目立体匹配处理，可以得到更为精确的视差图，换言之，采用本公开，不仅提高了泛化性，也能提高了精度。

一些示例中，有别于相关技术中是将左图像以及根据视差搜索范围翘曲后的右图像直接连接到一起来构建代价卷(如四维代价卷)，基于四维代价卷虽然得到的视差图精度高，但是泛化性差，而采用本公开，针对左图像和右图像，结合四维代价卷和三维代价卷(金字塔型代价卷)各自的优势，通过四维代价卷实现多尺度特征的融合处理和立体匹配处理以得到初始的第一视差图，通过三维代价卷对初始的第一视差图进行优化(视觉补偿的优化)以得到优化后的第二视差图，既能确保双目立体匹配的精度，也能确保泛化性，且三维代价运算比四维代价运算的计算复杂度更低，还降低了运算成本。

本公开示例的适用场景包括但不限于如下内容：

1、自动驾驶：也可以称为无人驾驶，是指交通工具在没有驾驶员操作的情况下，也能够完成环境的感知与导航，顺利到达目的地。比如，采用在自动驾驶车辆上安装双目摄像头进行图像采集，利用在自动驾驶车辆芯片中实现本公开双目立体匹配的处理逻辑，达到测距、定位等作用，以提高自动驾驶的安全性。

2、辅助驾驶：是指通过驾驶环境对方向盘和加减速中的一项操作提供驾驶支持，其他的驾驶动作都由驾驶员操作。比如，也可以采用在辅助驾驶车辆上安装双目摄像头进行图像采集，利用在辅助驾驶车辆芯片中实现本公开双目立体匹配的处理逻辑，达到测距、定位等作用，以提高自动驾驶的安全性。

3、智能机器人：智能机器人实际上是具备人类外形的计算机，智能机器人可以跟操作它的用户建立直接的联系，以根据与用户之间的信息交互及操控处理进行符合用户需求且有目的安排的响应动作。比如，智能机器人上可以安装双目摄像头作为眼睛并进行图像采集，利用在智能机器人芯片中实现本公开双目立体匹配的处理逻辑，达到测距、监控等作用，以提升机器人的感知能力，更精准的响应用户的操控处理，此外，除了与用户建立直接的联系，智能机器人也可以根据芯片上预装的实现本公开双目立体匹配的处理逻辑进行自主的操控处理及自主学习。

在一种实施方式中，如图5所示，该S401对通过双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征，包括：

S501、将该第一图像和该第二图像构成的图像对输入多尺度特征提取网络；

S502、在该多尺度特征提取网络中，对该图像对进行不同图像分辨率的多尺度特征提取，得到该多尺度的第一子图像特征和该多尺度的第二子图像特征。

一些示例中，图像对可以为左/右图像对，即在同一位置同一时刻的情况下，第一图像传感器(如双目摄像头的左图像传感器)和第二图像传感器(如双目摄像头的右图像传感器)获得的两两成对的图像组。其中，图像对中的第一图像可以为左图像，即双目摄像头的左图像传感器采集到的图像，图像对中的第二图像可以是右图像，及双目摄像头右图像传感器采集到的图像。

一些示例中，可以将该图像对输入多尺度特征提取网络，从而获得不同图像分辨率的多尺度特征(多尺度的左图像特征和多尺度的右图像特征)，比如，第一图像的1/4特征图像、第一图像的1/8特征图像、第一图像的1/16特征图像以及第一图像的1/32的特征图像；第二图像的1/4特征图像、第二图像的1/8特征图像、第二图像的1/16特征图像以及第二图像的1/32的特征图像等。

需要指出的是，生成特征图像的个数可以是任意个，可以依据需求随意设定。1/4特征图像，表示的是特征图像的分辨率为原始图像的四分之一，1/8、1/16以及1/32同理。特征图像分辨率可以是任意大小，也可以依据需求随意设定。不同图像分辨率的图像携带的语义信息不同(主要是不同层级的语义信息不同)，比如1/4特征图像主要关注原始图像的细节信息；1/8特征图像主要关注原始图像的边缘等结构性信息；1/16特征图像和1/32的特征图像主要关注原始图像的区域性信息，而该结构化信息和区域性信息，相对细节信息对域来说属于更不敏感的特征(即对域不敏感的特征)，利用这些对域不敏感的特征可以提高泛化性。

采用本公开，可以通过多尺度特征提取网络快速地对原始的图像对进行处理，进行不同图像分辨率的多尺度特征提取后获得特征融合处理中的待处理数据，为特征融合处理提供了数据支持。

在一种实施方式中，该多尺度特征提取网络包括多个卷积层；其中，该多个卷积层中不同卷积层的尺寸不同，采用不同卷积层的不同尺寸，可以对原始图像进行多种分辨率的特征提取。

在一种实施方式中，如图6所示，该S402对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷，包括：

S601、根据该多尺度的第一子图像特征和该多尺度的第二子图像特征，得到特征金字塔；

S602、根据该特征金字塔，构建预设维度的金字塔型代价卷。

一些示例中，金字塔型代价卷的层数与特征图像对的个数可以一致，每层金字塔，对应的是不同分辨率下的特征提取数据。例如，有一组原始的图像对，包括左图像和右图像；经过多尺度特征提取网络的处理后，得到了原始分辨率的特征图像、1/4特征图像、1/8特征图像、1/16特征图像以及1/32特征图像共计五个尺度特征下的特征图像对，即左原始特征图像、左1/4特征图像、左1/8特征图像、左1/16特征图像以及左1/32特征图像；右原始特征图像，右1/4特征图像、右1/8特征图像、右1/16特征图像以及右1/32特征图像，每个分辨率下两两成对。将上述图像依据特征金字塔的要求进行处理后，可以得到5层的金字塔型代价卷，使用预设维度(可以是四维、三维或者多种维度的结合)，可以依据需求随意设定，本公开的示例中以四维代价卷和三维代价卷的结合作为金字塔型代价卷。

采用本公开，获取到多尺度特征提取网络进行不同图像分辨率的多尺度特征提取所得到的待处理数据，根据待处理数据(第一子图像特征和该多尺度的第二子图像特征)得到特征金字塔，以构建预设维度的金字塔型代价卷，从而基于该金字塔型代价卷可以更好的实现特征融合及对融合后得到的初始的第一视差图进行进一步的视图优化，提高了双目立体匹配的精度。

需要指出的是，金字塔型代价卷用于多尺度特征融合的四维代价运算及第一视差图补偿的三维代价运算，如下具体阐述。

一些示例中，基于特征金字塔可以为5层的特征金字塔，将5层的特征金字塔的最后一层输入如下的视差补偿网络(视差补偿网络用于实现对初始的第一视差图的微调，也称为微调网络，从而构建出3D翘曲代价卷；将5层的特征金字塔的其他四层输入多尺度特征融合网络(用于实现特征融合，融合以实现双目立体匹配)，从而构建出多尺度4D融合代价卷，金字塔型代价卷包括多尺度的四维(4D)融合代价卷和三维(3D)翘曲代价卷。

1、针对多尺度4D融合代价卷而言，根据特征金字塔构建预设维度的金字塔型代价卷包括：将该特征金字塔中非原始图像分辨率的多个特征图输入多尺度特征融合网络，在该多尺度特征融合网络中对该多个特征图进行该多尺度特征融合的四维代价卷构建，从而得到该多尺度的四维融合代价卷。其中，该金字塔型代价卷包括该多尺度的4D融合代价卷。

2、针对3D翘曲代价卷而言，还包括：将特征金字塔中原始图像分辨率的一个或多个特征图输入视差补偿网络，在该视差补偿网络中，结合该一个或多个特征图对该初始的第一视差图进行三维代价卷构建，从而得到该3D翘曲代价卷三维翘曲代价卷。其中，该金字塔型代价卷除了包括该多尺度的4D融合代价卷，还可以包括该三维翘曲代价卷，由于4D代价运算的精度更高，3D代价运算可以降低计算复杂度，从而结合4D代价运算和3D代价运算，可以利用到4D和3D代价运算各自的优势。

一些示例中，根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图，包括：根据该金字塔型代价卷中的多尺度四维融合代价卷进行多尺度代价卷融合，得到该初始的第一视差图。

以上述的1/4、1/8/、1/16以及1/32特征图像对得到的四维融合代价卷为例，将其进一步进行多尺度代价卷融合，即通过将所有尺度的代价卷融合到一起来得到初始的第一视差图。进而，通过该视差补偿网络对该初始的第一视差图进行优化，可以得到优化后的第二视差图；其中，该优化后的第二视差图的图像分辨率高于该初始的第一视差图的图像分辨率。

采用本公开，使用了采用原始特征图像生成的三维翘曲代价卷对初始的第一视差图进行优化后，生成的优化后的第二视差图分辨率要高于初始的第一视差图，提高了图像的分辨率，据此能得到更精确的双目立体匹配效果。

在一种实施方式中，该多尺度特征融合网络包括：k个编码块、k个融合块及k个解码块；其中，该k个编码块中第i个编码块的输入为第i个四维融合代价卷，第j个编码块的输入为第j-1个融合块的输出；其中，该i为等于1的整数，该j为大于1的整数。该k个融合块中第j-1个融合块的输入为第j-1个编码块的输出和第j-1个四维融合代价卷。该k个解码块中第k个解码块的输入为第k个融合块，第m个解码块的输入为第m个融合块的输出和第m+1个解码块的输出；其中，1≤m＜k，m和k皆为整数(该k个解码块为该k个解码块中最后一级的解码块，比如4级解码块，此时k为等于4的整数；该m为小于4的整数，m个解码块为除了最后一级，即4级解码块的其他级解码块)。

一些示例中，以上文的1/4、1/8/、1/16以及1/32特征图像对得到的四维融合代价卷为例，即可以得到V₁、V₂、V₃以及V₄四个融合代价卷。其中，V₁对应的是1/4特征图像对的四维融合代价卷、V₂对应的是1/8特征图像对的四维融合代价卷、V₃对应的是1/16特征图像对的四维融合代价卷、V₄对应的是1/32特征图像对的四维融合代价卷。将V₁输入编码器E²，得到融合块F²；随后，将F²与V₃输入编码器E³，得到融合块F³；接下来，将F³与V₄输入编码器E³，得到融合块F⁴。将融合块F⁴输入解码器D⁴，将解码结果发送至解码器D³；解码器D³对解码器D⁴的解码结果和融合块F³进行解码，得到解码结果，将解码结果发送至解码器D²；解码器D²对解码器D³的解码结果和融合块F²进行解码，得到解码结果，将解码结果发送至解码器D¹；解码器D¹对解码器D²的解码结果和V₁进行解码，得到解码结果，将解码结果通过一个堆叠沙漏(stacked hourglass)得到最终的输出结果，即初始的第一视差图。

采用本公开，通过多个编码块、多个融合块及多个解码块构成的该多尺度特征融合网络，可以端到端的实现多尺度特征的编码、融合及解码处理，直接得到初始的第一视差图，而不是如相关技术中通过像素点位置的比对来得到初始的第一视差图，提高了处理效率，且精确度更高。

在一种实施方式中，所述视差补偿网络的输入为多模态数据，多模态数据包括：第一图像特征、三维翘曲代价卷、初始的第一视差图及重建错误参数。其中，该第一图像特征为特征金字塔中一个或多个用于表征第一图像的特征。该第二图像特征为特征金字塔中一个或多个用于表征第二图像的特征。该三维翘曲代价卷为由特征金字塔中一个或多个第一图像特征和第二图像特征进行代价运算得到的代价卷。该初始的第一视差图为由多尺度特征融合网络输出的视差图。该重建错误参数为特征金字塔中一个或多个第一图像特征和第二图像特征进行误差比对所得到的参数。

需要指出的是，上述第一图像特征，实际上是用于表征第一图像特征的特征图，也可以称为“第一图像对应的特征图”，比如，第一图像特征实际上为特征金字塔中一个或多个用于表征第一图像特征的特征图。类似的，第二图像特征实际上为特征金字塔中一个或多个用于表征第二图像特征的特征图。

采用本公开，获取输入的多模态数据，结合多模态数据进行运算，可以对初始的第一视差图进行视觉补偿的优化，以得到优化后的第二视差图，由于该优化后的第二视差图的图像分辨率高于该初始的第一视差图的图像分辨率，从而提高了双目匹配的精度。

考虑到目前基于深度学习的立体匹配方法大都关注在目标数据集(某一个业务场景)上提高立体匹配的精度，而忽略了在其他数据集(多个业务场景)上的泛化性，很难目标数据集上的精度以及其他数据集上的泛化性达到平衡，换言之，难以兼顾精度和泛化性。如果基于四维代价卷(4D cost volume)的深度学习方法，是通过将左图像和根据视差搜索范围翘曲后的右图像直接连接(concat)到一起去构建代价卷，由于需要使用3D的卷积神经网络(CNN，Convolutional Neural Network)对构造的四维代价卷进行处理，虽然保证了精度，但是会提高计算复杂度，比如大大提升网络的推理时间和GPU占用量；如果基于三维代价卷(3D cost volume)的深度学习方法，是通过将左图像和根据视差搜索范围翘曲后的右图像直接进行向量点积去构建代价卷，会导致该3D代价卷直接损失特征(feature)维度的信息，3D代价卷相比于4D代价卷虽然大大降低了计算复杂度，但是在精度上会有很大的损失。

本应用示例中，结合四维代价卷和三维代价卷上述的各自优势，结合四维代价卷和三维代价卷得到金字塔型代价卷，并基于金字塔型代价卷实现多尺度特征融合的双目立体匹配方法，可以在跨域泛化性和以及目标数据集匹配精度上都取得很好的性能，从而兼具精度和泛化性。

图7是根据本公开实施例的应用示例中基于金字塔型代价卷融合的双目立体匹配的示意图，如图7所示，基于金字塔型代价卷融合的双目立体匹配方法，主要由三部分组成，第一部分是多尺度特征提取(通过多尺度特征提取网络701来实现特征提取)；第二部分是基于多尺度融合代价卷(combination volume)的成本聚合(通过多尺度特征融合网络702来实现特征融合)；第三部分是基于翘曲代价卷(warping volume)的视差优化(通过视差补偿网络703来实现视差优化)。简言之，首先，使用了一个多尺度特征提取网络来提取输入图像多尺度的特征表达，其次，使用提取出来的多尺度特征构建了一个金字塔型代价卷，该金字塔型代价卷将用于两个方面。一方面，在金字塔的上层构建了多尺度4D融合代价卷(combination volume)，并设计了一个多尺度代价卷融合模块(cost volume fusionmodule)以整合多尺度融合的特征，从而实现初始视差图(即上述实施例中的初始的第一视差图)的估计。另一方面，还在金字塔的最后一层构建了3D翘曲代价卷(warping volume)，来对初始视差图进行进一步的优化，得到最终的视差图(即上述实施例中对初始的第一视差图优化后得到的第二视差图)。通过构建的3D翘曲代价卷(warping volume)，还可以大大缩小残差搜索范围，从而显著减轻网络在无约束残差搜索空间中找到正确残差的难度。

第一部分：多尺度特征提取多尺度特征提取

给定待校正的立体图像对，如图7所示，首先使用一个类似残差网络(Resnet)的卷积神经网络作为多尺度特征提取网络701，通过多尺度特征提取网络701来提取图像对的多尺度特征，具体的，通过多尺度特征提取网络701中多个残差块的级联，可以提取原始输入图像对的不同分辨率的特征。

第二部分：基于多尺度融合代价卷的成本聚合

在金字塔的上层构建了多尺度4D融合代价卷，并设计了一个多尺度代价卷融合模块以整合多尺度融合的特征，从而通过多尺度特征融合网络702实现初始视差图的估计。以下将依次进行一个介绍。

针对多尺度4D融合代价卷的构建，该多尺度4D融合代价卷共分为四个层级，每个层级的融合代价卷都由连接代价卷(concatenation volume)和组代价卷(group-wisecorrelation volume)组成，具体计算公式如公式(1)-公式(3)所示：

其中，为多尺度融合代价卷，通过连接代价卷和组代价卷得到，为连接代价卷，/>为组代价卷，||表示在特征维度的连接操作，/>和/>是左/右图提取出来的特征，d表示在视差搜索范围/>中所有视差索引值，N_c是左右图像提取出来的特征的通道数。<,>表示是点积操作。δ表示卷积层。

图8是根据本公开实施例的应用示例中多尺度代价卷融合模块的示意图，该模块由编码块Eⁱ，解码块Dⁱ，融合块Fⁱ和融合代价卷Vⁱ四部分构成，以下将依次进行一个介绍。

融合块Fⁱ：该融合块Fⁱ的输入主要包括：1)编码块Eⁱ，它主要用于表征高分辨率代价卷的信息；2)融合代价卷Vⁱ，它会在当前的尺度下直接根据预设的视差搜索范围去衡量左图特征与对应右图特征的相似度。具体计算公式如公式(4)所示：

Fⁱ＝Conv(Vⁱ||Eⁱ) (4)

其中，||表示连接操作，Conv表示三维卷积，Vⁱ是融合代价卷，Eⁱ是编码块。

需要指出的是，编码块Eⁱ，大都直接通过3D卷积从前一个尺度融合块中下采样得到，除了E¹，它是直接由第一个尺度的代价卷下采样得到的。

解码块Dⁱ:解码块主要包括主数据流和捷径连接得到的数据流这两部分数据流，其中，主数据流，不断地将不同尺度的解码进行上采样；而捷径连接得到的数据流，通过元素相加平衡了解码块和对应融合块之间的信息流。具体计算公式如公式(5)所示：

其中，Conv^T表示3D转置卷积(3D transposed convolution)。S表示捷径连接，它通过3D卷积来实现。

第三部分：基于翘曲代价卷的视差优化

如图7所示，在特征金字塔的最后一层提出了一个基于翘曲代价卷(warpingvolume)的视差补偿网络703，视差补偿网络703用于对初始的第一视差图做进一步的优化。图9是根据本公开实施例的应用示例中基于翘曲代价卷的视差补偿网络的示意图，显示了视差补偿网络703的具体结构，有别于通过网络直接学习残差的立体匹配方法，引入了多模态数据的输入，以帮助网络更有目的地学习残差。

如图9所示，多模态输入包括3D翘曲代价卷、初始视差图、左图特征和重建错误参数，以下将依次进行介绍。

3D翘曲代价卷：3D翘曲代价卷由左图特征和翘曲后的右图特征组成，通过构建的3D翘曲代价卷，可以大大缩小残差搜索范围，从而显著减轻网络在无约束残差搜索空间中找到正确残差的难度，它的具体计算公式如公式(6)-公式(7)所示：

f_wr＝warping(f_r,D_i) (7)

其中，V_w是3D翘曲代价卷，fl_l和f_r是左右图像提取出来的特征，d表示在残差搜索范围(D_i-d_res,D_i+d_res)中所有的残差索引值，<,>表示点积操作，x和y是输入图像的横坐标和纵坐标，D_i是初始视差图，f_wr是根据初始视差图反投影后的右图特征。

重建错误参数：引入了重建错误来寻找初始视差估计结果中估计不够准确的点，具体公式如公式(8)所示：

ε_rec＝f_l(x,y)-f_wr(x,y) (8)

其中，ε_rec为重建错误参数，f_l是左图像提取出来的特征，f_wr是根据初始视差图反投影后的右图特征，x和y是输入图像的横坐标和纵坐标。

需要指出的是，针对f_l和D_i而言，f_l作为左图特征，主要起到一个提供信息的作用，它可以提供足够的信息让网络去挑出翘曲代价卷中遍历的残差中最有可能的那一个；D_i作为初始视差图，为视差补偿网络做进一步优化提供了一个基线结果。

图10是根据本公开实施例的应用示例中双目立体匹配的应用场景示意图，如图10所示，双目立体匹配模型1003可以经预训练得到，该双目立体匹配模型1003可以部署在网络侧的服务器，也可以部署在车载终端，以将该双目立体匹配模型1003部署在网络侧的服务器1002为例，该服务器1002可以存在于管理平台，在该管理平台中可以部署该双目立体匹配模型1003，还可以部署高精地图1004(通过高精地图可以更好的进行定位和测距)，该管理平台可以与数据库1001进行数据交换，该管理平台还可以通过多个车载终端(如车载终端1006-车载终端1008)获取多个车载终端通过双目摄像头采集并上报的图像数据，将图像数据(图像对)输入该双目立体匹配模型1003中(还可以从图像数据中提取相应的地理位置编码信息，以更好的进行定位和测距)，从而基于多尺度特征提取网络从图像数据中提取的多尺度图像特征，对多尺度图像特征基于多尺度融合网络进行特征融合以实现双目立体匹配，得到初始的第一视差图，对初始的第一视差图基于视差补偿网络进行优化，从而得到优化后的第二视差图，从而提高了双目匹配的精度。

图11是根据本公开一实施例的双目立体匹配的装置的结构示意图。该双目立体匹配的装置可以包括：

提取模块1101，用于对通过双目摄像头采集同一场景得到的第一图像(如左图像)和第二图像(如右图像)进行多尺度特征提取，得到多尺度的第一子图像特征(如左图像特征)和多尺度的第二子图像特征(如右图像特征)；

构建模块1102，用于对该多尺度的第一子图像特征和该多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷；

双目立体匹配模块1103，用于根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图(如初始左视差图)。

在一种实施方式中，该第一图像，为双目摄像头的第一图像传感器(如左图像传感器)采集到的图像；该第二图像，为该双目摄像头的第二图像传感器(如右图像传感器)采集到的图像。

在一种实施方式中，该提取模块1101，包括：输入子模块，用于将该第一图像和该第二图像构成的图像对(如左/右图像对)输入多尺度特征提取网络；提取子模块，用于在该多尺度特征提取网络中，对该图像对进行不同图像分辨率的多尺度特征提取，得到该多尺度的第一子图像特征和该多尺度的第二子图像特征(如多尺度的左图像特征和多尺度的右图像特征)。

在一种实施方式中，该多尺度特征提取网络包括多个卷积层；其中，该多个卷积层中不同卷积层的尺寸不同。

在一种实施方式中，该构建模块1102，包括：处理子模块，用于根据该多尺度的第一子图像特征和该多尺度的第二子图像特征，得到特征金字塔；构建子模块，用于根据该特征金字塔，构建预设维度的金字塔型代价卷。

在一种实施方式中，该构建子模块，还用于：将该特征金字塔中非原始图像分辨率的多个特征图输入多尺度特征融合网络；在该多尺度特征融合网络中对该多个特征图进行该多尺度特征融合的四维代价卷构建，得到多尺度的四维融合代价卷；其中，该金字塔型代价卷包括该多尺度的四维融合代价卷。

在一种实施方式中，该装置还包括：特征输入模块，用于将该特征金字塔中原始图像分辨率的一个或多个特征图输入视差补偿网络；代价卷构建模块，用于在该视差补偿网络中，结合该一个或多个特征图对该初始的第一视差图进行三维代价卷构建，得到三维翘曲代价卷；其中，该金字塔型代价卷还包括该三维翘曲代价卷。

在一种实施方式中，该根据该金字塔型代价卷进行双目立体匹配处理，得到初始的第一视差图，包括：根据该金字塔型代价卷中的多尺度四维融合代价卷进行多尺度代价卷融合，得到该初始的第一视差图。

在一种实施方式中，该装置还包括：优化模块，用于通过该视差补偿网络对该初始的第一视差图进行优化，得到优化后的第二视差图；其中，该优化后的第二视差图的图像分辨率高于该初始的第一视差图的图像分辨率。

在一种实施方式中，该多尺度特征融合网络包括：k个编码块、k个融合块及k个解码块；其中，所述k个编码块中第i个编码块的输入为第i个四维融合代价卷，第j个编码块的输入为第j-1个融合块的输出；其中i为等于1的整数，j为大于1的整数；所述k个融合块中第j-1个融合块的输入为第j-1个编码块的输出和第j-1个四维融合代价卷；所述k个解码块中第k个解码块的输入为第k个融合块，第m个解码块的输入为第m个融合块的输出和第m-1个解码块的输出；其中，m是范围在1≤m＜k中的整数。

在一种实施方式中，该视差补偿网络的输入为多模态数据，该多模态数据包括：第一图像特征、三维翘曲代价卷、初始的第一视差图及重建错误参数；其中，该第一图像特征为该特征金字塔中一个或多个用于表征该第一图像的特征；该第二图像特征为该特征金字塔中一个或多个用于表征该第二图像的特征；该三维翘曲代价卷为由该特征金字塔中一个或多个该第一图像特征和该第二图像特征进行代价运算得到的代价卷；该初始的第一视差图为由该多尺度特征融合网络输出的视差图；该重建错误参数，为该特征金字塔中一个或多个该第一图像特征和该第二图像特征进行误差比对所得到的参数。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如双目立体匹配的方法。例如，在一些实施例中，双目立体匹配的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的双目立体匹配的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行双目立体匹配的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种双目立体匹配的方法，包括：

对所述多尺度的第一子图像特征和所述多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷，其中，所述金字塔型代价卷包括多尺度的四维融合代价卷，所述四维融合代价卷是对非原始图像分辩率的特征图像对进行特征融合得到的代价卷，所述特征图像对包括同一所述非原始图像分辩率的尺度下的所述第一子图像特征对应的特征图和所述第二子图像特征对应的特征图；

利用多尺度特征融合网络，对所述金字塔型代价卷中的多尺度的四维融合代价卷进行多尺度代价卷融合，得到初始的第一视差图；

其中，所述多尺度特征融合网络包括：k个编码块、k个融合块及k个解码块；

所述k个编码块中第1个编码块的输入为第1个尺度的四维融合代价卷，第j个编码块的输入为第j-1个融合块的输出；其中，所述j为大于1的整数；

所述k个融合块中第j-1个融合块的输入为第j-1个编码块的输出和第j-1个尺度的四维融合代价卷；

所述k个解码块中第k个解码块的输入为第k个融合块，第m个解码块的输入为第m个融合块的输出和第m+1个解码块的输出，第1个解码块的输入为第2个解码块的输出和第1个尺度的四维融合代价卷，第1个解码块输出的解码结果用于生成所述第一视差图；其中，m和k为整数且1＜m＜k。

2.根据权利要求1所述的方法，其中，所述第一图像，为双目摄像头的第一图像传感器采集到的图像；

所述第二图像，为所述双目摄像头的第二图像传感器采集到的图像。

3.根据权利要求1所述的方法，其中，所述对通过双目摄像头采集同一场景得到的第一图像和第二图像进行多尺度特征提取，得到多尺度的第一子图像特征和多尺度的第二子图像特征，包括：

将所述第一图像和所述第二图像构成的图像对输入多尺度特征提取网络；

在所述多尺度特征提取网络中，对所述图像对进行不同图像分辨率的多尺度特征提取，得到所述多尺度的第一子图像特征和所述多尺度的第二子图像特征。

4.根据权利要求3所述的方法，其中，所述多尺度特征提取网络包括多个卷积层；其中，所述多个卷积层中不同卷积层的尺寸不同。

5.根据权利要求3所述的方法，其中，所述对所述多尺度的第一子图像特征和所述多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷，包括：

根据所述多尺度的第一子图像特征和所述多尺度的第二子图像特征，得到特征金字塔；

根据所述特征金字塔，构建预设维度的金字塔型代价卷。

6.根据权利要求5所述的方法，其中，所述根据所述特征金字塔，构建预设维度的金字塔型代价卷，包括：

将所述特征金字塔中非原始图像分辨率的多个特征图输入多尺度特征融合网络；

在所述多尺度特征融合网络中对所述多个特征图进行所述多尺度特征融合的四维代价卷构建，得到多尺度的四维融合代价卷；

其中，所述金字塔型代价卷包括所述多尺度的四维融合代价卷。

7.根据权利要求6所述的方法，还包括：

将所述特征金字塔中原始图像分辨率的一个或多个特征图输入视差补偿网络；

在所述视差补偿网络中，结合所述一个或多个特征图对所述初始的第一视差图进行三维代价卷构建，得到三维翘曲代价卷；

其中，所述金字塔型代价卷还包括所述三维翘曲代价卷。

8.根据权利要求7所述的方法，还包括：通过所述视差补偿网络对所述初始的第一视差图进行优化，得到优化后的第二视差图；其中，所述优化后的第二视差图的图像分辨率高于所述初始的第一视差图的图像分辨率。

9.根据权利要求7或8所述的方法，其中，所述视差补偿网络的输入为多模态数据，所述多模态数据包括：第一图像特征、三维翘曲代价卷、初始的第一视差图及重建错误参数；

其中，所述第一图像特征，为所述特征金字塔中一个或多个用于表征所述第一图像的特征；

所述第二图像特征，为所述特征金字塔中一个或多个用于表征所述第二图像的特征；

所述三维翘曲代价卷，为由所述特征金字塔中一个或多个所述第一图像特征和所述第二图像特征进行代价运算得到的代价卷；

所述初始的第一视差图，为由所述多尺度特征融合网络输出的视差图；

所述重建错误参数，为所述特征金字塔中一个或多个所述第一图像特征和所述第二图像特征进行误差比对所得到的参数。

10.一种双目立体匹配的装置，包括：

构建模块，用于对所述多尺度的第一子图像特征和所述多尺度的第二子图像特征采用预设维度的代价卷进行多尺度特征融合，以构建金字塔型代价卷，其中，所述金字塔型代价卷包括多尺度的四维融合代价卷，所述四维融合代价卷是对非原始图像分辩率的特征图像对进行特征融合得到的代价卷，所述特征图像对包括同一所述非原始图像分辩率的尺度下的所述第一子图像特征对应的特征图和所述第二子图像特征对应的特征图；

双目立体匹配模块，用于利用多尺度特征融合网络，对所述金字塔型代价卷中的多尺度的四维融合代价卷进行多尺度代价卷融合，得到初始的第一视差图；

11.根据权利要求10所述的装置，其中，所述第一图像，为双目摄像头的第一图像传感器采集到的图像；

12.根据权利要求10所述的装置，其中，所述提取模块，包括：

输入子模块，用于将所述第一图像和所述第二图像构成的图像对输入多尺度特征提取网络；

提取子模块，用于在所述多尺度特征提取网络中，对所述图像对进行不同图像分辨率的多尺度特征提取，得到所述多尺度的第一子图像特征和所述多尺度的第二子图像特征。

13.根据权利要求12所述的装置，其中，所述多尺度特征提取网络包括多个卷积层；其中，所述多个卷积层中不同卷积层的尺寸不同。

14.根据权利要求12所述的装置，其中，所述构建模块，包括：

处理子模块，用于根据所述多尺度的第一子图像特征和所述多尺度的第二子图像特征，得到特征金字塔；

构建子模块，用于根据所述特征金字塔，构建预设维度的金字塔型代价卷。

15.根据权利要求14所述的装置，其中，所述构建子模块，还用于：

16.根据权利要求15所述的装置，还包括：

特征输入模块，用于将所述特征金字塔中原始图像分辨率的一个或多个特征图输入视差补偿网络；

代价卷构建模块，用于在所述视差补偿网络中，结合所述一个或多个特征图对所述初始的第一视差图进行三维代价卷构建，得到三维翘曲代价卷；

其中，所述金字塔型代价卷还包括所述三维翘曲代价卷。

17.根据权利要求16所述的装置，还包括：优化模块，用于通过所述视差补偿网络对所述初始的第一视差图进行优化，得到优化后的第二视差图；其中，所述优化后的第二视差图的图像分辨率高于所述初始的第一视差图的图像分辨率。

18.根据权利要求16或17所述的装置，其中，所述视差补偿网络的输入为多模态数据，所述多模态数据包括：第一图像特征、三维翘曲代价卷、初始的第一视差图及重建错误参数；

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。