CN115830408B

CN115830408B - 伪标签生成方法、装置、设备以及存储介质

Info

Publication number: CN115830408B
Application number: CN202211297492.6A
Authority: CN
Inventors: 沈哲伦; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-22
Filing date: 2022-10-22
Publication date: 2024-03-08
Anticipated expiration: 2042-10-22
Also published as: CN115830408A

Abstract

本公开提供了一种伪标签生成方法、装置、设备以及存储介质。涉及人工智能技术领域，尤其涉及深度学习、计算机视觉技术等领域。具体实现方案为：从第一数据集中获取第一图像对；其中，第一数据集为目标域真实数据集，第一图像对为双目摄像头采集目标域真实数据集得到的图像对；根据该第一图像对及训练好的第一双目立体匹配模型，预测出对应该第一图像对的预测视差图；根据用于表征估计视差图置信度的不确定性估计方式，过滤掉该预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图。采用本公开，可以降低真值标签的获取成本。

Description

伪标签生成方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉技术等领域。

背景技术

随着技术的发展，可以通过人工智能改善硬件性能，所适用的应用场景多种多样，比如涉及双目立体匹配、单目标深度估计、单目标跟踪、图像处理、视频处理等与计算机视觉相关的应用场景的硬件设计中，都可以采用人工智能技术，即：将训练好的模型部署于硬件中，以提高硬件的处理速度及处理准确率。

其中，标签作为模型训练过程中的一项核心数据，具有获取难度高，成本大的特点。目前使用在特定数据集上搜集的标签进行有监督训练的双目立体匹配方法已经可以满足一些特定业务场景精度要求，但是对于除特定业务场景之外的其他场景而言，泛化性差，要想获取满足泛化性的通用真值标签，需要很高的成本，在实际应用中如何降低真值标签的获取成本，是要解决的技术问题。

发明内容

本公开提供了一种伪标签生成方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种伪标签生成方法，包括：

从第一数据集中获取第一图像对；其中，该第一数据集为目标域真实数据集，该第一图像对为双目摄像头采集目标域真实数据集得到的图像对；

根据该第一图像对及训练好的第一双目立体匹配模型，预测出对应该第一图像对的预测视差图；

根据用于表征估计视差图置信度的不确定性估计方式，过滤掉该预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图。

根据本公开的另一方面，提供了一种模型训练方法，包括：

根据上述实施例得到的伪标签和通过双目摄像头采集的图像对，对用于双目立体匹配的第一预训练模型进行有监督学习，得到训练好的第一微调模型。

根据本公开的另一方面，提供了一种模型训练方法，包括：

根据上述实施例得到的伪标签和通过单目摄像头采集的图像，对用于单目深度估计的第二预训练模型进行训练，得到训练好的第二微调模型。

根据本公开的另一方面，提供了一种伪标签生成装置，包括：

采集模块，用于从第一数据集中获取第一图像对；其中，该第一数据集为目标域真实数据集，该第一图像对为双目摄像头采集目标域真实数据集得到的图像对；

预测模块，用于根据该第一图像对及训练好的第一双目立体匹配模型，预测出对应该第一图像对的预测视差图；

标签生成模块，用于根据用于表征估计视差图置信度的不确定性估计方式，过滤掉该预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第一训练模块，用于根据上述任一项得到的伪标签和通过双目摄像头采集的图像对，对用于双目立体匹配的第一预训练模型进行有监督学习，得到训练好的第一微调模型。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第二训练模块，用于根据上述任一项得到的伪标签和通过单目摄像头采集的图像，对用于单目深度估计的第二预训练模型进行训练，得到训练好的第二微调模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

采用本公开，可以降低真值标签的获取成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的双目摄像头采集场景得到视差的示意图；

图2是根据本公开实施例的卷积核的滑窗方式提取图像特征的示意图；

图3是根据本公开实施例的一自动驾驶车辆与云端通信的应用场景示意图；

图4是根据本公开实施例的伪标签生成方法的流程示意图；

图5是根据本公开实施例的伪标签生成方法中视图优化的流程示意图；

图6是根据本公开实施例的伪标签生成方法中实现视图优化的编解码处理的流程示意图；

图7是根据本公开实施例的伪标签生成方法中基于不确定性估计方式得到伪标签的流程示意图；

图8是根据本公开实施例的一模型训练方法的流程示意图；

图9是根据本公开实施例的另一模型训练方法的流程示意图；

图10是根据本公开实施例的双目立体匹配方法的流程示意图；

图11是根据本公开实施例的应用示例中双目立体匹配的应用场景示意图；

图12是根据本公开实施例的单目深度估计方法的流程示意图；

图13是根据本公开实施例的应用示例中单目深度估计的应用场景示意图；

图14是根据本公开实施例的应用示例中基于不确定估计及伪标签生成的双目立体匹配的示意图；

图15是根据本公开实施例的应用示例中视差补偿网络的示意图；

图16是根据本公开实施例的应用示例中区域级不确定性估计的示意图；

图17是根据本公开实施例的伪标签生成装置的组成结构示意图；

图18是根据本公开实施例的一模型训练装置的组成结构示意图；

图19是根据本公开实施例的另一模型训练装置的组成结构示意图；

图20是根据本公开实施例的双目立体匹配装置的组成结构示意图；

图21是根据本公开实施例的单目深度估计装置的组成结构示意图；

图22是用来实现本公开实施例的伪标签生成方法/模型训练方法/双目立体匹配方法/单目深度估计方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

对本申请实施例所涉及到的基本概念进行简单说明。应理解，下文所介绍的基本概念并不对本申请实施例产生限定。

1、双目立体匹配，是指在通过双目摄像头采集的一对待校正立体图像(图像对)中匹配对应位置的相应像素点，从而预测视差信息，进一步可以优化该视差信息(如视差图)，以最终求得准确的深度信息(如深度图)。换言之，旨在从一对待校正的立体图像中估计视差图/深度图，在自动驾驶、机器人导航、同时定位与地图构建(SLAM，SimultaneousLocalization and Mapping)等技术中都具有极高的应用价值。

2、单目深度估计，是指直接从单目摄像头采集的图像来预测深度信息(如深度图)。

3、单目摄像头和双目摄像头的区别，是指在测距原理上，两种摄像头完全不同。单目摄像头需要对采集图像中的目标对象(如车辆、车道线、交通信号设备、行走的人等)进行识别，也就是说在测距前先识别目标对象是车、人还是其他对象，在此基础上再进行测距，比如，识别出目标对象的目标类别后，根据该目标对象在图像中的大小来估算距离，越大则距离该单目摄像头越近；而双目摄像头则更加像人类的双眼，主要通过作为图像对的两幅图像之间的视差计算来确定距离，也就是说，双目摄像头不需要知道目标对象是什么，只要通过视差计算就可以实现测距，比如，从视差的大小得出物体的距离，视差越大，物体距离该双目摄像头越近。

4、视差，是指从两个不同位置观察同一个目标对象，可以得到该目标对象在视野中的位置变化与差异。从两个观察点看该目标对象，形成两条视线之间的夹角叫做这两个点的视差角，两个观察点之间的距离称作视差基线，如图1所示，比如采用双目摄像头采集同一场景中的同一个目标对象时，双目摄像头101采集同一场景中的同一个目标对象时，左侧的摄像头1011和右侧的摄像头1012分别进行采集，形成视差角102及视差基线103，对应位置的像素点xL和xR在视差图104中进行匹配，从而得到视差。

5、卷积核，也称为特征提取算子，在进行卷积运算的时候，卷积核就相当于图像处理中各种特征提取的算子，通俗的说，可以将卷积核理解为滑窗方式中的滑块202，如图2所示，一张采集图像201中的图像特征，可以是：将该采集图像201输入神经网络203，神经网络203可以是卷积神经网络结构，利用卷积核进行运算从而实现特征提取。

根据本公开的实施例，图3是根据本公开实施例的一自动驾驶车辆与云端通信的应用场景示意图，包括：分布式集群系统300、多个车辆(如车辆307-车辆309)，以及用于该分布式集群系统与该多个车辆间通信的“云”306。分布式集群系统300为集群系统的一个示例，示例性的描述了可以利用该分布式集群系统300进行数据处理(本公开不限于单机或多机上的单目深度估计/双目立体匹配任务及其相关处理任务)，采用分布式的处理可以进一步提高数据处理的精度。其中，该分布式集群系统可以接收多个车辆上报的自动驾驶数据(如定位数据、导航请求数据、任务调度数据等)进行与自动驾驶相关场景的数据处理任务(包括但不限于单目深度估计/双目立体匹配及其相关处理任务)。在该分布式集群系统中包括多个节点(如服务器集群301、服务器302、服务器集群303、服务器304、服务器305)，多个节点间可以共同执行一个或多个数据处理任务。可选地，该分布式集群系统中的多个节点可以基于相同方式执行该数据处理任务，该多个节点也可以基于不同方式执行该数据处理任务。可选地，在每一轮数据处理任务完成后，多个节点之间都可以进行数据交换(如数据同步)。

图4是根据本公开一实施例的伪标签生成方法的流程示意图，如图4所示，该伪标签生成方法可以包括：

S401、从第一数据集中获取第一图像对；其中，该第一数据集为目标域真实数据集，该第一图像对为双目摄像头采集目标域真实数据集得到的图像对；

S402、根据该第一图像对及训练好的第一双目立体匹配模型，预测出对应该第一图像对的预测视差图；

S403、根据用于表征估计视差图置信度的不确定性估计方式，过滤掉该预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图。

S401-S403的一示例中，第一数据集为目标域真实数据集，即在目标域“特定业务场景”下真实数据所构成的数据集合，第一图像对为给定该目标域的真实图像对，真实数据集可以来自于在业务场景下实时采集的图像，也可以是历史图像。该第一图像对为双目摄像头采集同一场景得到的图像对，为左图像和右图像构成的左/右图像对(该左/右图像对可以是在同一位置同一时刻的情况下获得的两两成对的图像组)。其中，该左图像可以是双目摄像头的左图像传感器采集到的图像，该右图像可以是双目摄像头右图像传感器采集到的图像。其中，左图像传感器/右图像传感器，可以包括兼容不同类型的图像传感器，如摄像机、红外设备、激光设备等；其数量也可以依据需求随意设定，在多目场景中，如三目匹配场景中，也可以采用其他数量的图像传感器，不限于本示例中的两个图像传感器。将获取到的第一图像对输入训练好的第一双目立体匹配模型，通过第一双目立体匹配模型对该第一图像对进行处理，以预测出对应该第一图像对的预测视差图。由于该预测视差图中可能包含有多个不准确的像素点，因此，需要使用不确定性估计的方法(如像素级不确定性估计方式和区域级不确定性估计方式)来对不准确的像素点进行处理，以过滤掉该预测视差图中预测不准确的像素点，从而得到目标视差图，将该目标视差图作为伪标签，该伪标签可以用于与计算机视觉相关的业务场景中。

采用本公开，根据从真实数据集中获取的第一图像对及训练好的第一双目立体匹配模型可以预测出对应该第一图像对的预测视差图，然后通过过滤掉该预测视差图中预测不准确的像素点，可以得到可作为伪标签的目标视差图，该伪标签可用于与计算机视觉相关的多种业务场景中，从而提高网络的泛化性，且相比于真值标签，伪标签的获取难度更低，这会大大降低标签的获取成本。

本公开示例的适用场景包括但不限于如下内容：

1、自动驾驶：也可以称为无人驾驶，是指交通工具在没有驾驶员操作的情况下，也能够完成环境的感知与导航，顺利到达目的地。比如，采用在自动驾驶车辆上安装双目摄像头进行图像采集，利用在自动驾驶车辆芯片中实现本公开双目立体匹配/单目深度估计的处理逻辑，达到测距、定位等作用，以提高自动驾驶的安全性。

2、辅助驾驶：是指通过驾驶环境对方向盘和加减速中的一项操作提供驾驶支持，其他的驾驶动作都由驾驶员操作。比如，也可以采用在辅助驾驶车辆上安装双目摄像头进行图像采集，利用在辅助驾驶车辆芯片中实现本公开双目立体匹配/单目深度估计的处理逻辑，达到测距、定位等作用，以提高自动驾驶的安全性。

3、智能机器人：智能机器人实际上是具备人类外形的计算机，智能机器人可以跟操作它的用户建立直接的联系，以根据与用户之间的信息交互及操控处理进行符合用户需求且有目的安排的响应动作。比如，智能机器人上可以安装双目摄像头作为眼睛并进行图像采集，利用在智能机器人芯片中实现本公开双目立体匹配/单目深度估计的处理逻辑，达到测距、监控等作用，以提升机器人的感知能力，更精准的响应用户的操控处理，此外，除了与用户建立直接的联系，智能机器人也可以根据芯片上预装的实现本公开双目立体匹配/单目深度估计的处理逻辑进行自主的操控处理及自主学习。

在一种实施方式中，该训练好的第一双目立体匹配模型，为根据第二数据集中获取的第二图像对及真值标签进行监督学习所训练出的神经网络模型。

一些示例中，第二数据集为非目标域的数据集，包括：合成数据集及其他非目标域(“非特定业务场景”)的真实数据集。其中，可以从该合成数据集中获取由第一图像和第二图像构成的第二图像对(即为对双目摄像头采集同一场景得到的左右图像对，且对左右图像对进行了校准，第一图像为校准后得到的左图像，第二图像为校准后得到的右图像)。根据真值标签和该第二图像对进行初始第一双目立体匹配模型的模型训练，得到该训练好的第一双目立体匹配模型。

本公开中，第二图像对的来源不限于合成数据集，还可以是其他非目标域“非特定业务场景”的真实数据集，适用的业务场景多，泛化性好。其中，针对合成数据集而言，它相较于真实数据集，获取成本更低。真实数据集来自于实地的采集，无论是人力、资金还是时间的成本都较高，而合成数据集则是包含有公开的素材库、计算机合成图像等的数据集，可以降低获取成本。

在一种实施方式中，如图5所示，S402根据该第一图像对及训练好的第一双目立体匹配模型，预测出对应该第一图像对的预测视差图，包括：

S501、在训练好的第一双目立体匹配模型中包括视差补偿模块的情况下，获取输入该视差补偿模块的初始视差图，该初始视差图是训练好的第一双目立体匹配模型根据第一图像对计算得到的视差图进行上采样后得到的视差图；

S502、根据该视差补偿模块，对该初始视差图损失的图像细节进行恢复，得到预测视差图(该预测视差图为对该初始视差图优化后得到的优化后视差图，即对应第一图像对的预测视差图)。

本公开中，考虑到输入的初始视差图是在原始图像的一半分辨率下经过上采样得到的，损失了很多图像细节，因此，需要对初始视差图进行优化，以恢复损失的细节，从而得到预测视差图。在获取到第一图像对的预测视差图后，还可以通过不确定性估计方式生成伪标签的目标视差图。其中，预测视差图是通过将获取到第一图像对的初始视差图输入视差补偿模块，经过细节恢复后得到的，之后将预测视差图通过不确定性估计方式生成作为伪标签的目标视差图。由于初始视差图相较于预测视差图，其清晰度和精度有所损失，图像也有形变，不利于最终生成的伪标签的精度，通过细节恢复得到预测视差图后可以保证最终生成的伪标签的精度。

在一种实施方式中，如图6所示，S502根据该视差补偿模块，对该初始视差图损失的图像细节进行恢复，得到预测视差图，包括：

S601、将该初始视差图输入该视差补偿模块；

S602、该视差补偿模块包括第一编码块，第二编码块、第三编码块及第四编码块，通过该第一编码块对该初始视差图进行特征提取得到第一特征图；

S603、将该第一特征图输入该第二编码块，第三编码块及第四编码块进行编码处理，得到第二特征图、第三特征图及第四特征图；

S604、将该第二特征图和该第三特征图进行相乘运算得到的第一运算结果执行逻辑回归操作，得到注意力权重；

S605、根据该注意力权重和该第四特征图进行相乘运算，得到第二运算结果；

S606、根据该第二运算结果和第一特征图相加运算，得到第五特征图；

S607、将该第五特征图通过一个或多个卷积层进行处理并和该初始视差图相加，得到预测视差图。

一些示例中，通过该第一编码块对该上采样后图像进行特征提取得到第一特征图(记为f_input)，将该第一特征图输入该第二编码块，第三编码块及第四编码块进行编码处理，得到第二特征图(记为f_Q)、第三特征图(记为f_V)及第四特征图(记为f_P)，将该第二特征图和该第三特征图进行相乘运算得到的第一运算结果执行逻辑回归操作，逻辑回归操作可以是利用激活函数(softmax)以得到注意力权重。得到第二运算结果后将第二运算结果和第一特征图相加运算以得到第五特征图(记为f_output)，最终将该第五特征图通过一个或多个卷积层进行处理，并和该初始视差图相加得到预测视差图。

在一种实施方式中，如图7所示，S403根据用于表征估计视差图置信度的不确定性估计方式，过滤掉该预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图，包括：

S701、根据像素级不确定性估计方式，得到像素级不确定性估计结果；

S702、根据区域级不确定性估计方式对该像素级不确定性估计结果进行优化，得到区域级不确定性估计结果；

S703、根据该区域级不确定性估计结果过滤掉该预测视差图中预测不准确的像素点，得到该目标视差图。

本公开中，使用的不确定性估计方式，包括像素级不确定性估计方式以及区域级不确定性估计方式；其中，将预测视差图输入像素级不确定性估计方式，可以从像素层面评估预测视差图的置信度，但由于像素级不确定性估计方式关注的是单个像素的置信度，没有有效利用邻域信息或全局信息，所以，引入区域级不确定性估计方式，进一步对像素级不确定性估计结果进行优化，以提高置信度估计的精度。

在一种实施方式中，该根据像素级不确定性估计方式，得到像素级不确定性估计结果，包括：根据该预测视差图中像素级别视差可能性分布的结果，评估视差图像素级别的置信度，以得到像素级不确定性估计结果。

在一种实施方式中，该根据区域级不确定性估计方式对该像素级不确定性估计结果进行优化，得到区域级不确定性估计结果，包括；通过区域级优化模块对该像素级不确定性估计结果进行优化，得到区域级不确定性估计结果。其中，该区域级优化模块的输入为：输入的像素级不确定性估计结果，通过双目摄像头采集同一场景得到的第一图像(左图像)和该预测视差图(预测的左图像)；该区域级优化模块的输出为：经过区域级优化模块的编码处理、融合处理、基于门限机制的解码处理所得到的区域级不确定性估计结果。

本公开中，对预测视差图中的每个像素，通过不确定性估计结果来确定是否保留，而不是被过滤掉。不确定估计的阈值可以依据需要来进行设置，从而得到较为可信的伪标签(目标视差图)。

采用本公开，考虑到像素级不确定性估计方式只根据视差可能性分布来评估当前像素的置信度，没有有效利用邻域信息或全局信息，通过区域级不确定性估计方式可以更有效的利用邻域信息或全局信息，从而提高精度。

此外采用像素级不确定性估计方式，是使用代价卷提供的视差可能性分布作为输入，忽略了多模态信息的使用，比如说参考图像和预测视差图。而通过区域级不确定性估计采用了多模态信息，可以对不确定性估计的结果做进一步的优化，以下具体阐述。

在一种实施方式中，该区域级优化模块包括：p个第一类编码块(如参考图像的编码块)、p个第二类编码块(如不确定性编码块)、p个融合块、p个带门限机制的第一类解码块(如主要解码块)、p个带门限机制的第二类解码块(如残差解码块)；其中，该p个第一类编码块中第i个第一类编码块的输入为左图特征，第j个第一类编码块的输入为第j-1个第一类编码块的输出；其中，该i为等于1的整数，该j为大于1的整数。该p个第二类编码块中第i个第二类编码块的输入为预测视差图和像素级不确定性估计结果，第j个第二类编码块的输入为第j-1个编码块的输出。该p个融合块中第k个融合的输入为第k个第一类编码块的输出和第k个第二类编码块的输出；其中，该k为大于等于1的整数。该p个第一类解码块中第p个第一类解码块的输入为第p个融合块的输入经门限处理后的输出，第m个第一类解码块的输入为第m个融合块的输入经门限处理后的输出和第m+1个第一类解码块的输出；其中，m和p皆为整数且1≤m＜p；所述p个第二类解码块中第p个第二类解码块的输入为第p个融合块的输入经门限处理后的输出，第m个第二类解码块的输入为第m个融合块的输入经门限处理后的输出和第m+1个第二类解码块的输出；其中，m和p皆为整数且1≤m＜p。

一些示例中，可以将左图像输入第一类编码块E_l ¹，得到编码结果；将预测视差图和像素级不确定性估计结果输入第二类编码块E_U ¹，得到编码结果；将第一类编码块E_l ¹的编码结果与第二类编码块E_U ¹的编码结果输入融合块F¹，进行融合处理，得到融合结果。将第一类编码块E_l ¹的编码结果输入第一类编码块E₁ ²，得到编码结果；将第二类编码块E_U ¹的编码结果输入第二类编码块E_U ²，得到编码结果；将第一类编码块E₁ ²的编码结果与第二类编码块E_U ²的编码结果输入融合块F²，进行融合处理，得到融合结果，剩余的E₁ ³、E₁ ⁴以及E₁ ⁵，E_U ³、E_U ⁴以及E_U ⁵，F³、F⁴以及F⁵进行相似处理。将融合块F⁵的结果输入带门限机制的第一类解码块D_m ⁵，得到解码结果；同时，融合块F5的结果也会输入到第二类解码块D_r ⁵，得到解码结果。将第一类解码块D_m ⁵的解码结果与经过门限机制的融合块F4的结果输入到输入第一类解码块D_m ⁴，得到解码结果。其次第一类解码块D_m ⁴的解码结果与经过门限机制的融合块F3的结果输入到输入第一类解码块D_m ³，得到解码结果；随后，对D_m ³、D_m ²的解码结果都进行类似处理。对于第二类解码块，将第二类解码块D_r ⁵的解码结果与经过门限机制的融合块F4的结果输入到输入第二类解码块D_m ⁵，得到解码结果。其次第二类解码块D_r ⁴的解码结果与经过门限机制的融合块F3的结果输入到输入第二类解码块D_r ³，得到解码结果。随后对D_r ³、D_r ²的解码结果都进行相似处理。最后将第一类解码块D_m ¹的解码结果和第二类解码块D_r ¹的解码结果相加到一起并通过一个或多个卷积层然后与第一类解码块D_m ¹的解码结果相加并通过sigmoid激活函数得到区域级不确定性估计结果。

图8是根据本公开一实施例的模型训练方法的流程示意图。该模型训练方法可以包括：

S801、根据上述任一项得到的伪标签和通过双目摄像头采集的图像对，对用于双目立体匹配的第一预训练模型进行有监督学习，得到训练好的第一微调模型。

本公开中，该训练好的第一微调模型也可称为双目立体匹配模型，采用该模型训练方法得到的双目立体匹配模型，可以部署于硬件中，以提高双目立体匹配的精度和泛化性。

图9是根据本公开一实施例的模型训练方法的流程示意图。该模型训练方法可以包括：

S901、根据上述任一项得到的伪标签和通过单目摄像头采集的图像，对用于单目深度估计的第二预训练模型进行训练，得到训练好的第二微调模型。

本公开中，第二微调模型也可称为单目深度估计模型，采用该模型训练方法得到的单目深度估计模型，可以部署于硬件中，以提高单目深度估计的精度和泛化性。

图10是根据本公开一实施例的双目立体匹配方法的流程示意图。该双目立体匹配方法可以包括：

S1001、获取待处理的图像对；

S1002、将该待处理的图像对输入至训练好的第一微调模型(如双目立体匹配模型)；

S1003、根据该训练好的第一微调模型进行双目立体匹配处理，得到立体匹配处理结果(如立体匹配的视差图)。

图11是根据本公开实施例的应用示例中双目立体匹配的应用场景示意图，如图11所示，双目立体匹配模型1103可以经预训练得到，该双目立体匹配模型1103可以部署在网络侧的服务器，也可以部署在车载终端，以将该双目立体匹配模型1103部署在网络侧的服务器1102为例，该服务器1102可以存在于管理平台，在该管理平台中可以部署该双目立体匹配模型1103，还可以部署高精地图1104(通过高精地图可以更好的进行定位和测距)，该管理平台可以与数据库1101进行数据交换，该管理平台还可以通过多个车载终端(如车载终端1106-车载终端1108)获取多个车载终端通过双目摄像头采集并上报的图像数据，将图像数据(图像对)输入该双目立体匹配模型1103中(还可以从图像数据中提取相应的地理位置编码信息，以更好的进行定位和测距)，以精准的预测出对应该图像数据的视差图，从而提高了双目匹配的精度。

图12是根据本公开一实施例的单目深度估计方法的流程示意图。该单目深度估计方法可以包括：

S1201、获取待处理的图像；

S1202、将该待处理的图像输入至训练好的第二微调模型(如单目深度估计模型)；

S1203、根据该训练好的第二微调模型进行单目深度估计处理，得到深度估计处理结果(如深度图)。

图13是根据本公开实施例的应用示例中单目深度估计的应用场景示意图，如图13所示，单目深度估计模型1303可以经预训练得到，该单目深度估计模型1303可以部署在网络侧的服务器，也可以部署在车载终端，以将该单目深度估计模型1303部署在网络侧的服务器1302为例，该服务器1302可以存在于管理平台，在该管理平台中可以部署该单目深度估计模型1303，还可以部署高精地图1304(通过高精地图可以更好的进行定位和测距)，该管理平台可以与数据库1301进行数据交换，该管理平台还可以通过多个车载终端(如车载终端1306-车载终端1308)获取多个车载终端通过摄像头采集并上报的图像数据，通过将收集到的图像数据和生成的伪标签输入该单目深度估计模型1303中(还可以从图像数据中提取相应的地理位置编码信息，以更好的进行定位和测距)，从而提高了单目深度估计的精度。

考虑到目前基于深度学习的立体匹配方法大都关注在目标数据集(某一个业务场景)上提高立体匹配的精度，而忽略了在其他数据集(多个业务场景)上的泛化性，很难目标数据集上的精度以及其他数据集上的泛化性达到平衡，换言之，难以兼顾精度和泛化性。针对跨域无法兼容多个业务场景的问题，一种解决方案是使用目标数据集的真值(groundtruth)标签对神经网络模型进行微调，但是目标数据集的真值标签在实际应用场景中是需要付出很昂贵的代价才能收集的，导致获取成本高，也大大增加了双目立体匹配技术在真实场景中的应用范围。通常来说现有的双目立体匹配方法分为基于有监督，基于无监督以及基于跨域的双目立体匹配方法三种，其中基于有监督的深度学习方法一般使用一对立体图像作为输入，并使用深度信息采集设备(比如激光雷达)采集到的真值标签作为监督信号，以对神经网络模型进行训练。该类方法通常需要大量的真值来对网络进行监督，且获得的真值需要经过仔细校准，这极大的限制了基于有监督的深度学习方法在实际环境中的适用性，也很难在其他数据集上取得很好的泛化性；基于无监督的深度学习方法，是通过构造左右目之间的光度误差(warping loss)来对网络进行监督，这种方法对于无遮挡的区域有很好的效果，但是无法对遮挡区域的视差进行很好的估计，在技术效果上距离有监督的方法还有比较大的差距；基于跨域的深度学习方法大多通过使用将目标域和源域的图像风格转换为一致，或者统一构建代价卷的数据分布的方法来解决跨域的问题，但是这些方法在效果上距离有监督的方法还有比较大的差距。

图14是根据本公开实施例的应用示例中基于不确定估计及伪标签生成的双目立体匹配的示意图，如图14所示，包括如下步骤：

S1401、在源域(合成数据集)上训练一个鲁棒的第一立体匹配模型。

一些示例中，考虑到合成数据集不需要使用昂贵的传感器在实地采集真值，在本步骤中可以使用合成数据集提供的校准后立体图像以及真值来训练该鲁棒的第一立体匹配模型，以用于后续的伪标签生成的处理。

S1402、基于第一立体匹配模型在目标域(真实数据集)上生成伪标签。

一些示例中，伪标签生成方法可以包括：1)基于给定目标域的立体图像对，使用该第一立体匹配模型来预测相应的预测视差图；2)使用像素级和区域级不确定性估计方式，过滤掉生成的预测视差图中不确定性比较高的像素，从而生成稀疏但是可靠的目标视差图，该目标视差图可以作为伪标签使用。

S1403、基于生成伪标签的域适应处理。

一些示例中，在得到伪标签后可以将该伪标签作为监督信号，以对该第一立体匹配模型进行训练，从而使得该第一立体匹配模型可以在目标域上拥有更好的泛化性，适配多种与计算机视觉相关的业务场景，比如适用于双目立体匹配的业务场景，此外，生成的伪标签也可以用作监督信号，以无监督的方式训练单目深度估计网络，也适用于单目深度估计的业务场景，由于可以适配多个业务场景，因此，提高了泛化性。

图15是根据本公开实施例的应用示例中视差补偿网络的示意图，由于源域不需要使用昂贵的传感器在实地采集真值标签，可以使用合成数据集提供的校准后的立体图像以及真值标签来训练一个鲁棒的预训练模型(即上述实施例中的第一双目立体匹配模型)，以将该预训练模型用于伪标签的生成。在该预训练模型中设计了用于视差微调(disparityrefinement module)的模块(即上述实施例中的视差补偿模块)，以对最后通过双线性插值进行上采样的视差图进行恢复，如图15所示，该视差补偿模块的输入是CFNet输出的经过双线性插值上采样后的初始视差图之后使用一系列的卷积层对输入的该初始视差图/>进行处理，从而提取更鲁棒的特征表达f_input。接下来，可以使用三个编码器Q，P，V分别对f_input进行处理，得到相应的多个特征图，具体公式如公式(1)-公式(4)所示：

f_p＝P(f_input) (2)

f_Q＝reshape(Q(f_input)) (3)

f_v＝reshape(V(f_input)) (4)

其中，conv表示卷积操作，P(f_input)是对输入的特征图f_input通过编码器P进行特征提取，reshape(Q(f_input))是对输入特征图f_input首先通过编码器Q进行特征提取，后通过reshape操作来进行矩阵维度变换；reshape(V(f_input))是对输入特征图f_input首先通过编码器V进行特征提取，后通过reshape操作来进行矩阵维度变换。然后通过矩阵乘和softmax操作，可以得到输入的特征图f_input每个特征通道之间的相似性，即注意力权重(weight)，之后，可以将该注意力权重和f_p相乘到一起得到想要学习的残差视差，并通过它来弥补初始视差图中由于双线性插值损失的细节，具体公式如公式(5)-公式(6)所示：

/>

其中，conv表示卷积的操作，是初始视差图，/>是学习到的残差视差(即预测视差图和初始视差图的差值)，/>是预测视差图。

针对使用两种类型的不确定估计方法(像素级不确定性估计和区域级不确定性估计)来滤除生成的视差图中不确定性比较高的像素，以下将依次进行一个介绍：

一、像素级不确定性估计：

考虑到视差可能性分布反映了候选的像素匹配对之间的相似性，最终的视差预测值应该是所有视差的索引值以它们的可能性作为权重的一个加权求和，因此，理想的视差可能性分布应该是一个单峰分布，并且峰顶的视差索引值正好等于真值标签，然而实际上的视差分布不可能这么理想化，一般会表现为主要的单峰分布，甚至多模态分布。一般来说，当视差分布趋向于多模态分布时，预测出来的视差和真值标签之间的差距是非常大的，也就是说视差的可能性分布趋向于多模态分布的程度和视差图的错误率是高度相关的。因此，定义了一个不确定性估计来衡量视差的可能性分布趋向于多模态分布的程度，从而来衡量目前视差图像素级别的置信度，具体公式如公式(7)-公式(8)所示：

其中，Uⁱ是像素级不确定性估计结果，是视差图，σ表示softmax的操作，/>表示代价卷(cost volume)第i个尺度下第d个视差索引值的输出。通过像素级不确定性估计，虽然可以较好的衡量目前视差图像素级别的置信度。但是，像素级不确定性估计仍然存在以下两个缺点：1)它只根据视差可能性分布来评估当前像素的置信度，没有有效利用邻域信息或全局信息。2)它只使用代价卷提供的视差可能性分布作为输入忽略了多模态信息的使用，比如说参考图像和预测的视差图。因此，需要通过区域级不确定性估计对不确定性估计的结果做进一步的优化。

二、区域级不确定性估计：

使用区域级不确定性估计，可以对初始不确定性估计的结果做进一步优化，它由参考图像的编码块，不确定性编码块，融合块，门限机制，主要解码块以及残差解码块这六个部分组成，图16是根据本公开实施例的应用示例中区域级不确定性估计的示意图，如图16所示，以下将依次进行一个介绍:

1、编码块(Encoder blocks)：编码块由参考图像编码器块和不确定性编码块两部分组成，其中参考图像编码器块表征了参考图像的信息而不确定性编码块则表征了像素级不确定图和预测视差图的信息。具体来说，可以使用ResNet-34来构建编码块，在具体实现中可以删除所用骨干网络ResNet-34的最后一个全连接层和池化层。

2、融合块(Fusion Blocks):融合块有两个主要输入：1)参考图像编码块2)不确定性编码块。通过融合块可以将参考图像编码器块和不确定性编码块的信息融合到一起，从而提取多模态的表征。具体来说，融合过程可以采用公式(9)得到：

其中||表示特征维度的连接操作，δ表示卷积层，是参考图像编码器块，/>是不确定性编码块，Fⁱ是融合块。

3、基于门限机制的解码块：基于门限机制的解码块可以控制融合块和解码块之间的消息传递。具体来说，门限机制(Gate Unit)可以采用公式(10)得到：

其中，AvgPool表示全局池化操作，S是sigmoid激活函数，||表示特征维度的连接操作，FASPP表示Fold-ASPP操作，δ表示卷积层。

需要指出的是，δ的输出通道为2，所提出的门单元Gⁱ有和/>两个输出，它们将分别用于控制主要解码器块/>和残差解码器/>中的信息流动，整个过程可以表示为公式(11)-公式(12)：

其中，为主要解码器块，/>为残差解码器，Up表示通过双线性插值实现的上采样操作，然后可以通过将两种解码块的信息融合到一起得到最终区域级的不确定性图，具体公式如公式(13)所示：

其中，U_area是区域级不确定性估计结果，S表示sigmoid激活函数。区域级不确定性估计U_area的输出在(0,1)范围内，值越高表示预测错误的可能性越大，从而可以很容易的通过区域性不确定性估计滤除当前视差估计结果中不确定性比较高的点，从而生成对应的伪标签，具体公式如公式(14)所示：

D_area＝{d∈D_pre:U_area<t} (14)

其中，D_area是伪标签，U_area是区域级不确定性估计结果，t表示阈值，通过调整t可以控制得到的伪标签D_area的稠密度和置信度。

损失函数：采用交叉熵损失函数来训练区域级不确定性估计网络，具体定义如公式(15)所示：

l＝U_gtlogU_area+(1-U_gt)log(1-U_area) (15)

其中，U_area和U_gt分别表示预测的区域级不确定性图和真值不确定性图。其中，真值不确定性图是根据网络预测的视差图和真值视差图生成的，具体公式如公式(16)所示：

其中δ是阈值，它控制着区域性不确定估计的严格程度。

在得到生成的伪标签后，还可以将伪标签作为监督信号来训练上述第一立体匹配模型，从而使得上述第一立体匹配模型可以在目标域上拥有更好的泛化性，具体的损失函数定义如公式(17)-公式(18)：

其中N_area表示生成的伪标签D_area中可用像素的数量，表示预测的视差值。此外，生成的伪标签也可以用作监督信号，以无监督的方式训练单目深度估计网络，具体的损失函数定义如公式(19)-公式(20)所示：

其中N_area表示生成的伪标签D_area中可用像素的数量，表示通过单目深度估计网络预测的视差图，平衡因子λ设置为0.85，然后可以通过下式将视差图转换为深度，通过公式(21)得到：

其中f表示相机的焦距，B表示基线。

图17是根据本公开实施例的伪标签生成装置的组成结构示意图，如图17所示，伪标签生成装置可以包括：采集模块1701，用于从第一数据集中获取第一图像对；其中，该第一数据集为目标域真实数据集，该第一图像对为双目摄像头采集目标域真实数据集得到的图像对；预测模块1702，用于根据第一图像对及训练好的第一双目立体匹配模型，预测出对应该第一图像对的预测视差图；标签生成模块1703，用于根据用于表征估计视差图置信度的不确定性估计方式，过滤掉该预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图。

在一种实施方式中，该训练好的第一双目立体匹配模型，为根据第二数据集中获取的第二图像对及真值标签进行监督学习所训练出的神经网络模型；其中，第二数据集为非目标域的数据集。

在一种实施方式中，所述预测模块，用于：

在训练好的第一双目立体匹配模型中包括视差补偿模块的情况下，获取输入视差补偿模块的初始视差图，该初始视差图是训练好的第一双目立体匹配模型根据输入图像对计算得到的视差图进行上采样后得到的视差图；

根据该视差补偿模块，对初始视差图损失的图像细节进行恢复，得到预测视差图。

在一种实施方式中，预测模块，包括：

输入子模块，用于将该初始视差图输入该视差补偿模块；

提取子模块，用于该视差补偿模块包括第一编码块，第二编码块、第三编码块及第四编码块的情况下，通过该第一编码块对该初始视差图进行特征提取得到第一特征图；

编码子模块，用于将该第一特征图输入该第二编码块，第三编码块及第四编码块进行编码处理，得到第二特征图、第三特征图及第四特征图；

回归子模块，用于将该第二特征图和该第三特征图进行相乘运算得到的第一运算结果执行逻辑回归操作，得到注意力权重；

相乘子模块，用于根据该注意力权重和该第四特征图进行相乘运算，得到第二运算结果；

相加子模块，用于根据该第二运算结果和第一特征图相加运算，得到第五特征图。

处理子模块，用于将该第五特征图通过一个或多个卷积层进行处理并和该初始视差图相加，得到预测视差图。

在一种实施方式中，该标签生成模块包括：

估计子模块，用于根据像素级不确定性估计方式，得到像素级不确定性估计结果；

优化子模块，用于根据区域级不确定性估计方式对该像素级不确定性估计结果进行优化，得到区域级不确定性估计结果；

过滤子模块，用于根据该区域级不确定性估计结果过滤掉该预测视差图中预测不准确的像素点，得到该目标视差图。

在一种实施方式中，该估计子模块，还用于：

根据该预测视差图中像素级别视差可能性分布的结果，评估视差图像素级别的置信度，以得到像素级不确定性估计结果。

在一种实施方式中，该优化子模块，还用于；

通过区域级优化模块对该像素级不确定性估计结果进行优化，得到区域级不确定性估计结果；

其中，该区域级优化模块的输入为：输入的像素级不确定性估计结果，通过双目摄像头采集同一场景得到的第一图像(左图像)和该预测视差图(预测的左图像)；

该区域级优化模块的输出为：经过区域级优化模块的编码处理、融合处理、基于门限机制的解码处理所得到的区域级不确定性估计结果。

在一种实施方式中，该区域级优化模块包括：p个第一类编码块、p个第二类编码块、p个融合块、p个带门限机制的第一类解码块、p个带门限机制的第二类解码块；其中，

所述p个第一类编码块中第i个第一类编码块的输入为左图特征，第j个第一类编码块的输入为第j-1个第一类编码块的输出；其中，所述i为等于1的整数，所述j为大于1的整数；

所述p个第二类编码块中第i个第二类编码块的输入为预测视差图和像素级不确定性估计结果，第j个第二类编码块的输入为第j-1个编码块的输出；

所述p个融合块中第j个融合块的输入为第j个第一类编码块的输出和第j个第二类编码块的输出；其中，所述j为大于等于1的整数；

所述p个第一类解码块中第p个第一类解码块的输入为第p个融合块的输入经门限处理后的输出，第m个第一类解码块的输入为第m个融合块的输入经门限处理后的输出和第m+1个第一类解码块的输出；其中，m和p皆为整数且1≤m＜p；

所述p个第二类解码块中第p个第二类解码块的输入为第p个融合块的输入经门限处理后的输出，第m个第二类解码块的输入为第m个融合块的输入经门限处理后的输出和第m+1个第二类解码块的输出；其中，m和p皆为整数且1≤m＜p。

图18是根据本公开实施例的一模型训练装置的组成结构示意图，如图18所示，第一训练模块1801，用于根据上述实施例得到的伪标签和通过双目摄像头采集的图像对，对用于双目立体匹配的第一预训练模型进行有监督学习，得到训练好的第一微调模型。

图19是根据本公开实施例的另一模型训练装置的组成结构示意图，如图19所示，该模型训练装置可以包括：第二训练模块1901，用于根据上述实施例得到的伪标签和通过单目摄像头采集的图像，对用于单目深度估计的第二预训练模型进行训练，得到训练好的第二微调模型。

图20是根据本公开一实施例的双目立体匹配装置的结构示意图。该双目立体匹配装置可以包括：

第一获取模块2001，用于获取待处理的图像对；

第一输入模块2002，用于将该待处理的图像对输入至训练好的第一微调模型(如双目立体匹配模型)；

双目立体匹配模块2003，用于根据该训练好的第一微调模型进行双目立体匹配处理，得到立体匹配处理结果。

图21是根据本公开一实施例的单目深度估计装置的结构示意图。该单目深度估计装置可以包括：

第二获取模块2101，用于获取待处理的图像；

第二输入模块2102，用于将该待处理的图像输入至训练好的第二微调模型(如单目深度估计模型)；

单目深度估计模块2103，用于根据该训练好的第二微调模型进行单目深度估计处理，得到深度估计处理结果。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图22示出了可以用来实施本公开的实施例的示例电子设备2200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图22所示，设备2200包括计算单元2201，其可以根据存储在只读存储器(ROM)2202中的计算机程序或者从存储单元2208加载到随机访问存储器(RAM)2203中的计算机程序，来执行各种适当的动作和处理。在RAM 2203中，还可存储设备2200操作所需的各种程序和数据。计算单元2201、ROM 2202以及RAM 2203通过总线2204彼此相连。输入/输出(I/O)接口2205也连接至总线2204。

设备2200中的多个部件连接至I/O接口2205，包括：输入单元2206，例如键盘、鼠标等；输出单元2207，例如各种类型的显示器、扬声器等；存储单元2208，例如磁盘、光盘等；以及通信单元2209，例如网卡、调制解调器、无线通信收发机等。通信单元2209允许设备2200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元2201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元2201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元2201执行上文所描述的各个方法和处理，例如伪标签生成方法。例如，在一些实施例中，伪标签生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元2208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 2202和/或通信单元2209而被载入和/或安装到设备2200上。当计算机程序加载到RAM 2203并由计算单元2201执行时，可以执行上文描述的伪标签生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元2201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行伪标签生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种伪标签生成方法，包括：

从第一数据集中获取第一图像对；其中，所述第一数据集为目标域真实数据集，所述第一图像对为双目摄像头采集目标域真实数据集得到的图像对；

根据所述第一图像对及训练好的第一双目立体匹配模型，预测出对应所述第一图像对的预测视差图；

根据用于表征估计视差图置信度的不确定性估计方式，过滤掉所述预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图。

其中，所述根据所述第一图像对及训练好的第一双目立体匹配模型，预测出对应所述第一图像对的预测视差图，包括：

在所述训练好的第一双目立体匹配模型中包括视差补偿模块的情况下，获取输入所述视差补偿模块的初始视差图，所述初始视差图是所述训练好的第一双目立体匹配模型根据所述第一图像对计算得到的视差图进行上采样后得到的视差图；

根据所述视差补偿模块，对所述初始视差图损失的图像细节进行恢复，得到所述预测视差图。

2.根据权利要求1所述的方法，所述训练好的第一双目立体匹配模型，为根据第二数据集中获取的第二图像对及真值标签进行监督学习所训练出的神经网络模型；其中，所述第二数据集为非目标域的数据集。

3.根据权利要求1所述的方法，其中，所述根据视差补偿模块，对所述初始视差图损失的图像细节进行恢复，得到所述预测视差图，包括：

将所述初始视差图输入所述视差补偿模块；

所述视差补偿模块包括第一编码块，第二编码块、第三编码块及第四编码块，通过所述第一编码块对所述初始视差图进行特征提取得到第一特征图；

将所述第一特征图输入所述第二编码块，第三编码块及第四编码块进行编码处理，得到第二特征图、第三特征图及第四特征图；

将所述第二特征图和所述第三特征图进行相乘运算得到的第一运算结果执行逻辑回归操作，得到注意力权重；

根据所述注意力权重和所述第四特征图进行相乘运算，得到第二运算结果；

根据所述第二运算结果和第一特征图相加运算，得到第五特征图；

将所述第五特征图通过一个或多个卷积层进行处理并和所述初始视差图相加，得到所述预测视差图。

4.根据权利要求2所述的方法，其中，所述根据用于表征估计视差图置信度的不确定性估计方式，过滤掉所述预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图，包括：

根据像素级不确定性估计方式，得到像素级不确定性估计结果；

根据区域级不确定性估计方式对所述像素级不确定性估计结果进行优化，得到区域级不确定性估计结果；

根据所述区域级不确定性估计结果过滤掉所述预测视差图中预测不准确的像素点，得到所述目标视差图。

5.根据权利要求4所述的方法，其中，所述根据像素级不确定性估计方式，得到像素级不确定性估计结果，包括：

根据所述预测视差图中像素级别视差可能性分布的结果，评估视差图像素级别的置信度，以得到像素级不确定性估计结果。

6.根据权利要求4所述的方法，其中，所述根据区域级不确定性估计方式对所述像素级不确定性估计结果进行优化，得到区域级不确定性估计结果，包括；

通过区域级优化模块对所述像素级不确定性估计结果进行优化，得到区域级不确定性估计结果；

其中，所述区域级优化模块的输入为：输入的像素级不确定性估计结果，通过双目摄像头采集同一场景得到的第一图像和所述预测视差图；

所述区域级优化模块的输出为：经过区域级优化模块的编码处理、融合处理、基于门限机制的解码处理所得到的区域级不确定性估计结果。

7.根据权利要求6所述的方法，其中，所述区域级优化模块包括：p个第一类编码块、p个第二类编码块、p个融合块、p个带门限机制的第一类解码块、p个带门限机制的第二类解码块；其中，

所述p个第二类编码块中第i个第二类编码块的输入为所述预测视差图和所述像素级不确定性估计结果，第j个第二类编码块的输入为第j-1个编码块的输出；

8.一种模型训练方法，包括：

根据权利要求1-7中任一项得到的伪标签和通过双目摄像头采集的图像对，对用于双目立体匹配的第一预训练模型进行有监督学习，得到训练好的第一微调模型。

9.根据权利要求8所述的方法，还包括：

获取待处理的图像对；

将所述待处理的图像对输入至训练好的第一微调模型；

根据所述训练好的第一微调模型进行双目立体匹配处理，得到立体匹配处理结果。

10.一种模型训练方法，包括：

根据权利要求1-7中任一项得到的伪标签和通过单目摄像头采集的图像，对用于单目深度估计的第二预训练模型进行训练，得到训练好的第二微调模型。

11.根据权利要求10所述的方法，包括：

获取待处理的图像；

将所述待处理的图像输入至训练好的第二微调模型；

根据所述训练好的第二微调模型进行单目深度估计处理，得到深度估计处理结果。

12.一种伪标签生成装置，包括：

采集模块，用于从第一数据集中获取第一图像对；其中，所述第一数据集为目标域真实数据集，所述第一图像对为双目摄像头采集目标域真实数据集得到的图像对；

预测模块，用于根据所述第一图像对及训练好的第一双目立体匹配模型，预测出对应所述第一图像对的预测视差图；

标签生成模块，用于根据用于表征估计视差图置信度的不确定性估计方式，过滤掉所述预测视差图中预测不准确的像素点，得到作为伪标签的目标视差图；

其中，所述预测模块，用于：

13.根据权利要求12所述的装置，其中，所述训练好的第一双目立体匹配模型，为根据第二数据集中获取的第二图像对及真值标签进行监督学习所训练出的神经网络模型；其中，所述第二数据集为非目标域的数据集。

14.根据权利要求12所述的装置，其中，所述预测模块，包括：

输入子模块，用于将所述初始视差图输入所述视差补偿模块；

提取子模块，用于所述视差补偿模块包括第一编码块，第二编码块、第三编码块及第四编码块的情况下，通过所述第一编码块对所述初始视差图进行特征提取得到第一特征图；

编码子模块，用于将所述第一特征图输入所述第二编码块，第三编码块及第四编码块进行编码处理，得到第二特征图、第三特征图及第四特征图；

回归子模块，用于将所述第二特征图和所述第三特征图进行相乘运算得到的第一运算结果执行逻辑回归操作，得到注意力权重；

相乘子模块，用于根据所述注意力权重和所述第四特征图进行相乘运算，得到第二运算结果；

相加子模块，用于根据所述第二运算结果和第一特征图相加运算，得到第五特征图；

处理子模块，用于将所述第五特征图通过一个或多个卷积层进行处理并和所述初始视差图相加，得到预测视差图。

15.根据权利要求13所述的装置，其中，所述标签生成模块，包括：

优化子模块，用于根据区域级不确定性估计方式对所述像素级不确定性估计结果进行优化，得到区域级不确定性估计结果；

过滤子模块，用于根据所述区域级不确定性估计结果过滤掉所述预测视差图中预测不准确的像素点，得到所述目标视差图。

16.根据权利要求15所述的装置，其中，所述估计子模块，还用于：

17.根据权利要求15所述的装置，其中，所述优化子模块，还用于；

18.根据权利要求17所述的装置, 其中，所述区域级优化模块包括：p个第一类编码块、p个第二类编码块、p个融合块、p个带门限机制的第一类解码块、p个带门限机制的第二类解码块；其中，

19.一种模型训练装置，包括：

第一训练模块，用于根据权利要求1-7中任一项得到的伪标签和通过双目摄像头采集的图像对，对用于双目立体匹配的第一预训练模型进行有监督学习，得到训练好的第一微调模型。

20.根据权利要求19所述的装置，还包括：

第一获取模块，用于获取待处理的图像对；

第一输入模块，用于将所述待处理的图像对输入至训练好的第一微调模型；

双目立体匹配模块，用于根据所述训练好的第一微调模型进行双目立体匹配处理，得到立体匹配处理结果。

21.一种模型训练装置，包括：

第二训练模块，用于根据权利要求1-7中任一项得到的伪标签和通过单目摄像头采集的图像，对用于单目深度估计的第二预训练模型进行训练，得到训练好的第二微调模型。

22.根据权利要求21所述的装置，还包括：

第二获取模块，用于获取待处理的图像；

第二输入模块，用于将所述待处理的图像输入至训练好的第二微调模型；

单目深度估计模块，用于根据所述训练好的第二微调模型进行单目深度估计处理，得到深度估计处理结果。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。