CN117522937A

CN117522937A - 面向全天候场景的自监督单目深度估计方法及装置

Info

Publication number: CN117522937A
Application number: CN202311278096.3A
Authority: CN
Inventors: 高跃; 别林
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-02-06

Abstract

本申请涉及图像深度估计技术领域，特别涉及一种面向全天候场景的自监督单目深度估计方法及装置，其中，方法包括：模型输入预先构建的白天‑夜间图像正样本对，利用共享的图像编码器提取隐特征，以利用分布投影头将每个图像样本表示为高维度的离散高斯分布；利用对比学习来显式地约束正负样本之间分布的距离，使得夜间图像的特征分布逐步趋近于白天图像；使用深度解码器和位姿解码器同时估计图像的位姿和深度值，再利用该信息将图像投影到另一个视图下，采用光度损失和变分对比损失来联合监督模型的训练。由此，解决了难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。

Description

面向全天候场景的自监督单目深度估计方法及装置

技术领域

本申请涉及图像深度估计技术领域，特别涉及一种面向全天候场景的自监督单目深度估计方法及装置。

背景技术

目前，在增强现实、3D重建、自动驾驶汽车、位置识别等领域从2D(TwoDimensional，二维)的RGB图像中估计深度技术得到广泛应用。其中，自监督单目深度估计引起了越来越多研究人员的关注，尤其是基于深度卷积神经网络的自监督单目深度估计。

相关技术中，主要利用白天图像进行自监督单目深度估计，即基于白天图像的基准进行自监督单目深度估计，以解决白天图像的自监督单目深度估计问题。

然而，相关技术中，由于白天图像和夜间图像之间存在较大的域差异，阻碍了自监督单目深度估计在真实场景中的部署和应用，即使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同场景下数据域的一致性特征，模型域自适应能力低下，亟需改进。

发明内容

本申请提供一种面向全天候场景的自监督单目深度估计方法及装置，以解决相关技术中，使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。

本申请第一方面实施例提供一种面向全天候场景的自监督单目深度估计方法，包括以下步骤：将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，利用共享的图像编码器提取所述白天图像和夜间图像的隐特征，以利用分布投影头将每个样本表示为预设高维度的离散高斯分布；基于所述多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得所述夜间图像的离散高斯分布逐步趋近于所述白天图像的离散高斯分布；以及利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果。

可选地，在本申请的一个实施例中，所述将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，包括：利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像；将所有的训练数据构建为白天-夜间样本对，得到所述多组正样本对，并将所述多组正样本对输入至所述目标模型。

可选地，在本申请的一个实施例中，所述基于所述多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得所述夜间图像的离散高斯分布逐步趋近于所述白天图像的离散高斯分布，包括：利用两层的第一全连接神经网络将每个样本的特征投影到均值空间中，获取每个维度高斯分布的均值；利用两层的第二全连接神经网络将所述每个样本的特征投影到与所述均值空间维度相同的标准差空间中，获取每个维度高斯分布的标准差；基于所述均值和所述标准差，利用每个样本所对应的均值向量和方差向量将所述每个样本表示为一个固定的高斯分布，得到一个训练样本分布组。

可选地，在本申请的一个实施例中，所述利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果，包括：基于所训练样本分布组，计算其中每一对正样本分布的JS散度的相反数，作为正样本分布的相似程度；基于SimCLR的思想，将训练中的一个批次中其他样本作为负样本，将所述相似程度带入到SimCLR预设的对比损失中，以作为域自适应任务的优化目标。

可选地，在本申请的一个实施例中，所述利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果，还包括：利用基于深度卷积神经网络的位姿解码器估计所述训练样本特征组中辅助样本映射到主样本的相对位姿；基于深度值和所述相对位姿，将所述训练样本组中的辅助样本重投影到主图像中，得到重投影样本组，其中，所述重投影样本组中包含与原训练样本组中主样本对相对应的重投影样本对；基于所述重投影样本组与所述训练样本组中的主样本对，计算两者之间的光度损失，作为自监督单目深度估计任务的优化目标。

本申请第二方面实施例提供一种面向全天候场景的自监督单目深度估计装置，包括：输入模块，用于将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，利用共享的图像编码器提取所述白天图像和夜间图像的隐特征，以利用分布投影头将每个样本表示为预设高维度的离散高斯分布；处理模块，用于基于所述多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得所述夜间图像的离散高斯分布逐步趋近于所述白天图像的离散高斯分布；以及估计模块，用于利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果。

可选地，在本申请的一个实施例中，所述输入模块，包括：生成单元，用于利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像；构建单元，用于将所有的训练数据构建为白天-夜间样本对，得到所述多组正样本对，并将所述多组正样本对输入至所述目标模型。

可选地，在本申请的一个实施例中，所述处理模块，包括：第一获取单元，用于利用两层的第一全连接神经网络将每个样本的特征投影到均值空间中，获取每个维度高斯分布的均值；第二获取单元，用于利用两层的第二全连接神经网络将所述每个样本的特征投影到与所述均值空间维度相同的标准差空间中，获取每个维度高斯分布的标准差；第三获取单元，用于基于所述均值和所述标准差，利用每个样本所对应的均值向量和方差向量将所述每个样本表示为一个固定的高斯分布，得到一个训练样本分布组。

可选地，在本申请的一个实施例中，所述估计模块，包括：计算单元，用于基于所训练样本分布组，计算其中每一对正样本分布的JS散度的相反数，作为正样本分布的相似程度；优化单元，用于基于SimCLR的思想，将训练中的一个批次中其他样本作为负样本，将所述相似程度带入到SimCLR预设的对比损失中，以作为域自适应任务的优化目标。

可选地，在本申请的一个实施例中，所述估计模块，还包括：估计单元，用于利用基于深度卷积神经网络的位姿解码器估计所述训练样本特征组中辅助样本映射到主样本的相对位姿；投影单元，用于基于深度值和所述相对位姿，将所述训练样本组中的辅助样本重投影到主图像中，得到重投影样本组，其中，所述重投影样本组中包含与原训练样本组中主样本对相对应的重投影样本对；计算单元，用于基于所述重投影样本组与所述训练样本组中的主样本对，计算两者之间的光度损失，作为自监督单目深度估计任务的优化目标。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的面向全天候场景的自监督单目深度估计方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的面向全天候场景的自监督单目深度估计方法。

本申请实施例通过利用对比学习对白天-夜间图像样本对特征分布的显式约束和自监督深度估计目标的联合优化，实现了模型域自适应能力的提高以及对夜间图像深度特征的有效提取，提高了模型在全天候场景下的深度估计能力。由此，解决了相关技术中，使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种面向全天候场景的自监督单目深度估计方法的流程图；

图2为根据本申请一个实施例的面向全天候场景的自监督单目深度估计方法的模型架构示意图；

图3为根据本申请一个实施例的面向全天候场景的自监督单目深度估计方法的原理示意图；

图4为根据本申请实施例的面向全天候场景的自监督单目深度估计装置的方框示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的面向全天候场景的自监督单目深度估计方法及装置。针对上述背景技术中心提到的使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下的问题，本申请提供了一种面向全天候场景的自监督单目深度估计方法，在该方法中，通过利用对比学习对白天-夜间图像样本对特征分布的显式约束和自监督深度估计目标的联合优化，实现了模型域自适应能力的提高以及对夜间图像深度特征的有效提取，提高了模型在全天候场景下的深度估计能力。由此，解决了相关技术中，使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。

具体而言，图1为本申请实施例所提供的一种面向全天候场景的自监督单目深度估计方法的流程示意图。

如图1所示，该面向全天候场景的自监督单目深度估计方法包括以下步骤：

在步骤S101中，将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，利用共享的图像编码器提取白天图像和夜间图像的隐特征，以利用分布投影头将每个样本表示为预设高维度的离散高斯分布。

可以理解的是，图像编码器可以将图像数据转换为精简的二进制格式，在保证图像质量的同时减少数据量，有效减少图像中的冗余信息，对图像进行优化和增强，提高图像的清晰度、对比度和颜色饱和度。

作为一种可能实现的方式，本申请实施例能够利用共享的图像编码器提取预先构建好的白天-夜间图像正样本对的特征，并利用分布投影头获取当前样本所属的离散高斯分布。

举例而言，如图2所示，本申请实施例可以利用深度卷积神经网络ResNet18实现对白天-夜间图像样本对的特征提取，进而能够利用分布投影头获取当前样本所属的离散高斯分布。

本申请实施例能够利用共享的图像编码器提取图像的特征，并为分布投影头获取样本所属的离散高斯分布作铺垫，提高了不同数据域的一致性。

可选地，在本申请的一个实施例中，将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，包括：利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像；将所有的训练数据构建为白天-夜间样本对，得到多组正样本对，并将多组正样本对输入至目标模型。

可以理解的是，CycleGAN(Cycle Generative Adversarial Network，循环对抗生成网络)能够实现图像的互相转换，且不需要数据配对，简单来说就是CycleGAN能够实现不同域之间的图像转换，而本身的形状保持不变，如可以将斑马变成马，既保留了马的状态，但又改变了马的颜色。

在实际执行过程中，本申请实施例能够利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像，将所有的训练数据构建成为白天-夜间图像正样本对，并将多组正样本对输入至目标模型得到白天-夜间图像样本对的特征，其中，目标模型可以为但不限于为深度卷积神经网络ResNet18，本申请不作具体限制。

举例而言，本申请实施例可以将白天图像样本看作是白天训练数据样本将其输入到CycleGAN中，得到该图像对应的夜间图像样本/>将白天图像样本/>和夜间图像样本/>构建样本对/>该样本对在后续步骤中将作为自监督训练中的一对正样本。其中，t表示训练数据中第t个样本，t为正整数。

本申请实施例能够利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像，并将每张白天图像样本与对应的夜间图像样本组成样本对输入指目标模型中，提高自监督单目深度估计的使用场景，有效从夜间图像中有效地提取深度特征，实现全天候场景的自监督单目深度估计。

在步骤S102中，基于多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得夜间图像的离散高斯分布逐步趋近于白天图像的离散高斯分布。

可以理解的是，对比学习是一种特殊的无监督学习方法，能够最大化相关样本之间的相似性并最小化不相关样本之间的相似性，在模型预训练中可以使用一种高自由度、自定义的规则生成正负样本。即本申请实施例利用对比学习约束正负样本之间分布的距离，其中，约束正负样本之间分布距离的方式可以由本领域技术人员根据实际情况设置，本申请不作具体限制。

在一些实施例中，通过对比学习的训练约束正负样本之间的距离，最大化相关样本之间的相似性，最小化不相关样本之间的相似性，实现夜间图像样本的离散高斯分布与对应的白天图像样本的离散高斯分布高度相似。

本申请实施例能够利用对比学习使白天图像样本与对应生成的夜间图像样本在语义相近时在表示空间更接近，语义不相近时表示距离更远，充分还原夜间图像的特征，进而扩大自监督单目深度估计的使用场景，提高了模型在全天候场景下的深度估计能力。

可选地，在本申请的一个实施例中，基于多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得夜间图像的离散高斯分布逐步趋近于白天图像的离散高斯分布，包括：利用两层的第一全连接神经网络将每个样本的特征投影到均值空间中，获取每个维度高斯分布的均值；利用两层的第二全连接神经网络将每个样本的特征投影到与均值空间维度相同的标准差空间中，获取每个维度高斯分布的标准差；基于均值和标准差，利用每个样本所对应的均值向量和方差向量将每个样本表示为一个固定的高斯分布，得到一个训练样本分布组。

可以理解的是，本申请实施例可以利用两层的全连接神经网络获得每个维度的高斯分布值，也可以利用其他的神经网络方式，还可以使用非深度学习方式，本申请不作具体限制。

在一些实施例中，能够将预先构建的白天-夜间图像样本对按照时间序列构建训练样本组，并获取每个维度高斯分布的均值投影，获取每个维度高斯分布的标准差投影。

举例而言，本申请实施例将每一组正样本对I_t(t>1且为正整数)与其时间序列上的前一组正样本I_t-1对构建成为一组训练样本组。其中，I_t为主样本，I_t-1为辅助样本。即一组训练样本组包含两个连续的正样本对，每个正样本对包含一张白天图像以及相对应的一张夜间图像/>

进一步地，如图2所示，本申请实施例可以利用一个共享参数的ResNet18实现对和/>的特征提取，得到/>和/>

以白天图像样本为例，利用第一全连接神经网络fc_μ(.)将训练样本特征组中每个样本特征f_t ^d投影到均值空间中，获取每个维度高斯分布的均值利用第二全连接神经网络fc_σ(.)将训练样本特征组中每个样本特征/>投影到标准差空间中，获取每个维度高斯分布的标准差/>则每个白天图像样本的特征分布可以被表示/>

本申请实施例能够全连接神经网络获取每个维度高斯分布的均值投影，获取每个维度高斯分布的标准差投影，即将每个图像样本表示成为高维度的离散高斯分布，提高了图像编码器对夜间图像深度信息的捕捉能力。

在步骤S103中，利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果。

可以理解的是，解码器可以将低维度表示转换回原始数据空间，能够实现各种任务并提高模型性能。本申请实施例可以使用深度解码器和位姿解码器获得图像的位姿和深度信息，其中，深度解码器和位姿解码器的构造与实现方式，可以是深度学习方式，也可以是传统的方式，本申请不作具体限制。

作为一种可能实现的方式，本申请实施例能够使用深度解码器和位姿解码器同时估计图像的位姿和深度值，再利用位姿和深度信息将图像投影到另一个视图下，采用光度损失和变分对比损失来联合监督模型的训练。

本申请实施例通过获取白天-夜间图像样本的位姿和深度信息，实现了白天-夜间图像样本对之间的特征分布一致性与对深度估计有利特征的挖掘，并有效地从夜间图像中提取深度特征，进一步地，利用光度损失和变分对比损失的联合优化，提高正样本对之间特征分布的一致性，提高模型域自适应能力的提高，提升模型对夜间图像深度特征的提取能力，实现模型在全天候场景下的深度估计能力。

可选地，在本申请的一个实施例中，利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果，包括：基于所训练样本分布组，计算其中每一对正样本分布的JS散度的相反数，作为正样本分布的相似程度；基于SimCLR的思想，将训练中的一个批次中其他样本作为负样本，将相似程度带入到SimCLR预设的对比损失中，以作为域自适应任务的优化目标。

可以理解的是，本申请实施例利用JS散度衡量白天-夜间图像样本分布的相似度，可以为但不限于JS散度、KL散度等，本申请不作具体限制。

在一些实施例中，能够基于所训练的样本分布组，利用JS散度计算每对正样本之间的分布距离，并基于SimCLR算法约束正负样本之间的特征分布距离，即将SimCLR预设的对比损失作为域自适应任务的优化目标。其中，本申请实施例采用SimCLR，也可以利用其他的自监督学习框架，还可以利用其他方式，本申请不作具体限制。

举例而言，如图2所示，本申请实施例对于一对正样本白天图像样本的特征分布与夜间图像样本的特征分布/>利用JS散度计算两者的分布距离，其中JS散度计算公式可以表示为：

其中，D^d(x)和Dⁿ(x)服从多维高斯分布的白天和夜间样本特征，KL(*)表示服从KL散度约束。

因此，上述公式的第一项可以表示为：

本申请实施例由高斯分布的变分近似可以得到：

其中，N表示向量μ和σ的维数。

进一步地，对于两个相互独立的高斯分布D^d(x)和Dⁿ(x)，可以证明，D^d(x)和Dⁿ(x)的线性组合仍然服从高斯分布，其线性组合可以表示为：

即JS散度计算公式可以表示为：

即：

由于距离与相似度成反比，因此，本申请实施例利用-JS描述样本分布之间的相似度，结合SimCLR，域自适应任务的损失函数L_ada可以表示为：

其中，BS(Batch Size，批尺寸)表示训练的大小，τ表示温度超参数，和/>分别表示服从多维高斯分布的白天和夜间样本特征。

本申请实施例通过利用SimCLR算法约束正负样本之间的特征分布距离，提高正样本对之间特征分布的一致性，实现一个共享编码器提取不同的数据域的一致性特征，提高模型域自适应的能力。

可选地，在本申请的一个实施例中，利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果，还包括：利用基于深度卷积神经网络的位姿解码器估计训练样本特征组中辅助样本映射到主样本的相对位姿；基于深度值和相对位姿，将训练样本组中的辅助样本重投影到主图像中，得到重投影样本组，其中，重投影样本组中包含与原训练样本组中主样本对相对应的重投影样本对；基于重投影样本组与训练样本组中的主样本对，计算两者之间的光度损失，作为自监督单目深度估计任务的优化目标。

作为一种可能实现的方式，本申请实施例能够基于深度卷积神经网络的解码器，从图像特征中回归每个像素对应的深度信息，并利用基于重投影的自监督深度估计算法来优化模型，进而联合域自适应任务和自监督深度估计任务的目标函数。

举例而言，如图2所示，本申请实施例可以采用MonoDepth2的重投影自监督深度估计算法，利用光度损失来同时优化位姿解码器和深度解码器。其中，重投影自监督深度估计算法可以为但不限于MonoDepth2，本申请不作具体限制。

具体地，以白天数据为例，对于t时刻的白天图像训练样本本申请实施例在前向传播阶段，首先利用深度解码器生成对应的深度图/>接着利用位姿解码器生成t-1到t时刻之间的位姿变换矩阵/>最后利用t时刻前一时刻的图像/>样本根据位姿变换矩阵以及深度图将图像重投影到得到/>则重投影图像/>可以表示为：

其中，P表示重投影过程。

进一步地，本申请实施例在反向传播阶段，可以利用光度损失来训练模型，则重投影得到的图像与真值图像/>之间的光度损失L_pm可以表示为：

其中，α为超参数，设定为0.85，SSIM是一种常用的图像相似性衡量指标。

其损失函数可以表示为：

L_total＝L_ada+L_pm

本申请实施例通过对自监督深度估计目标的优化，实现了模型域自适应能力的提高以及对夜间图像深度特征的有效提取，提高了模型在全天候场景下的深度估计能力。

结合图3所示，以一个实施例对本申请实施例的面向全天候场景的自监督单目深度估计方法的工作原理进行详细阐述。

实施例一：

如图3所示，以一个实施例对本申请实施例的面向全天候场景的自监督单目深度估计方法的工作原理进行详细阐述，其步骤如下：

步骤S1：本申请实施例利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像，将所有的训练数据构建成为白天-夜间样本对，作为正样本对。

步骤S2：本申请实施例利用深度卷积神经网络对其中的每一个样本进行编码，得到样本特征，并利用分布投影头获取当前样本所属的离散高斯分布。

步骤S3：本申请实施例基于所构建的每个样本所属的特征分布，利用JS散度计算每对正样本之间的分布距离，并应用预设的自监督对比学习算法来约束正负样本之间的特征分布距离，作为域自适应任务的优化目标。

步骤S4：本申请实施例基于深度卷积神经网络的解码器，从图像特征中回归每个像素对应的深度信息，并利用预设的基于重投影的自监督深度估计算法来优化模型。

步骤S5：本申请实施例联合优化域自适应任务和自监督深度估计任务的目标函数。

根据本申请实施例提出的面向全天候场景的自监督单目深度估计方法，可以将构建好的白天-夜间图像作为正样本对，利用共享的图像编码器提取两者的隐特征，并利用分布投影头将每个图像样本表示成为高维度的离散高斯分布，通过对比学习来显式地约束正负样本之间分布的距离，使得夜间图像的特征分布逐步趋近于白天图像，提高对夜间图像深度特征的提取，实现模型在全天候场景下的深度估计能力，进一步采用光度损失和变分对比损失来联合监督模型的训练，提高模型域自适应的能力。由此，解决了相关技术中，使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。

其次参照附图描述根据本申请实施例提出的面向全天候场景的自监督单目深度估计装置。

图4是本申请实施例的面向全天候场景的自监督单目深度估计装置的方框示意图。

如图4所示，该面向全天候场景的自监督单目深度估计装置10包括：输入模块100、处理模块200和估计模块300。

具体地，输入模块100，用于将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，利用共享的图像编码器提取白天图像和夜间图像的隐特征，以利用分布投影头将每个样本表示为预设高维度的离散高斯分布。

处理模块200，用于基于多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得夜间图像的离散高斯分布逐步趋近于白天图像的离散高斯分布。

估计模块300，用于利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果。

可选地，在本申请的一个实施例中，输入模块100，包括：生成单元和构建单元。

其中，生成单元，用于利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像。

构建单元，用于将所有的训练数据构建为白天-夜间样本对，得到多组正样本对，并将多组正样本对输入至目标模型。

可选地，在本申请的一个实施例中，处理模块200，包括：第一获取单元、第二获取单元和第三获取单元。

其中，第一获取单元，用于利用两层的第一全连接神经网络将每个样本的特征投影到均值空间中，获取每个维度高斯分布的均值。

第二获取单元，用于利用两层的第二全连接神经网络将每个样本的特征投影到与均值空间维度相同的标准差空间中，获取每个维度高斯分布的标准差。

第三获取单元，用于基于均值和标准差，利用每个样本所对应的均值向量和方差向量将每个样本表示为一个固定的高斯分布，得到一个训练样本分布组。

可选地，在本申请的一个实施例中，估计模块300，包括：计算单元和优化单元。

其中，计算单元，用于基于所训练样本分布组，计算其中每一对正样本分布的JS散度的相反数，作为正样本分布的相似程度。

优化单元，用于基于SimCLR的思想，将训练中的一个批次中其他样本作为负样本，将相似程度带入到SimCLR预设的对比损失中，以作为域自适应任务的优化目标。

可选地，在本申请的一个实施例中，估计模块300，还包括：估计单元、投影单元和计算单元。

其中，估计单元，用于利用基于深度卷积神经网络的位姿解码器估计训练样本特征组中辅助样本映射到主样本的相对位姿。

投影单元，用于基于深度值和相对位姿，将训练样本组中的辅助样本重投影到主图像中，得到重投影样本组，其中，重投影样本组中包含与原训练样本组中主样本对相对应的重投影样本对。

计算单元，用于基于重投影样本组与训练样本组中的主样本对，计算两者之间的光度损失，作为自监督单目深度估计任务的优化目标。

需要说明的是，前述对面向全天候场景的自监督单目深度估计方法实施例的解释说明也适用于该实施例的面向全天候场景的自监督单目深度估计装置，此处不再赘述。

根据本申请实施例提出的面向全天候场景的自监督单目深度估计装置，可以将构建好的白天-夜间图像作为正样本对，利用共享的图像编码器提取两者的隐特征，并利用分布投影头将每个图像样本表示成为高维度的离散高斯分布，通过对比学习来显式地约束正负样本之间分布的距离，使得夜间图像的特征分布逐步趋近于白天图像，提高对夜间图像深度特征的提取，实现模型在全天候场景下的深度估计能力，进一步采用光度损失和变分对比损失来联合监督模型的训练，提高模型域自适应的能力。由此，解决了相关技术中，使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。由此，解决了相关技术中，使用场景过于单一，难以从夜间图像中有效地提取深度特征，难以利用一个共享编码器提取不同的数据域的一致性特征，模型域自适应能力低下等问题。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的面向全天候场景的自监督单目深度估计方法。

进一步地，电子设备还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的面向全天候场景的自监督单目深度估计方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向全天候场景的自监督单目深度估计方法，其特征在于，包括以下步骤：

将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，利用共享的图像编码器提取所述白天图像和夜间图像的隐特征，以利用分布投影头将每个样本表示为预设高维度的离散高斯分布；

基于所述多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得所述夜间图像的离散高斯分布逐步趋近于所述白天图像的离散高斯分布；以及

利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果。

2.根据权利要求1所述的方法，其特征在于，所述将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，包括：

利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像；

将所有的训练数据构建为白天-夜间样本对，得到所述多组正样本对，并将所述多组正样本对输入至所述目标模型。

3.根据权利要求1所述的方法，其特征在于，所述基于所述多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得所述夜间图像的离散高斯分布逐步趋近于所述白天图像的离散高斯分布，包括：

利用两层的第一全连接神经网络将每个样本的特征投影到均值空间中，获取每个维度高斯分布的均值；

利用两层的第二全连接神经网络将所述每个样本的特征投影到与所述均值空间维度相同的标准差空间中，获取每个维度高斯分布的标准差；

基于所述均值和所述标准差，利用每个样本所对应的均值向量和方差向量将所述每个样本表示为一个固定的高斯分布，得到一个训练样本分布组。

4.根据权利要求3所述的方法，其特征在于，所述利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果，包括：

基于所训练样本分布组，计算其中每一对正样本分布的JS散度的相反数，作为正样本分布的相似程度；

基于SimCLR的思想，将训练中的一个批次中其他样本作为负样本，将所述相似程度带入到SimCLR预设的对比损失中，以作为域自适应任务的优化目标。

5.根据权利要求4所述的方法，其特征在于，所述利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果，还包括：

利用基于深度卷积神经网络的位姿解码器估计所述训练样本特征组中辅助样本映射到主样本的相对位姿；

基于深度值和所述相对位姿，将所述训练样本组中的辅助样本重投影到主图像中，得到重投影样本组，其中，所述重投影样本组中包含与原训练样本组中主样本对相对应的重投影样本对；

基于所述重投影样本组与所述训练样本组中的主样本对，计算两者之间的光度损失，作为自监督单目深度估计任务的优化目标。

6.一种面向全天候场景的自监督单目深度估计装置，其特征在于，包括：

输入模块，用于将基于预先构建的白天-夜间图像生成的多组正样本对输入至目标模型，利用共享的图像编码器提取所述白天图像和夜间图像的隐特征，以利用分布投影头头将每个样本表示为预设高维度的离散高斯分布；

处理模块，用于基于所述多组正样本对，利用对比学习显式地约束正负样本之间分布的距离，使得所述夜间图像的离散高斯分布逐步趋近于所述白天图像的离散高斯分布；以及

估计模块，用于利用深度解码器和位姿解码器同时估计图像的位姿和深度值，并利用位姿和深度信息将所述图像投影到另一个预设视图下，采用光度损失和变分对比损失来联合监督模型训练，得到自监督单目深度估计结果。

7.根据权利要求6所述的装置，其特征在于，所述输入模块，包括：

生成单元，用于利用CycleGAN生成与训练数据中每张白天图像相对应的夜间图像；

构建单元，用于将所有的训练数据构建为白天-夜间样本对，得到所述多组正样本对，并将所述多组正样本对输入至所述目标模型。

8.根据权利要求6所述的装置，其特征在于，所述处理模块，包括：

第一获取单元，用于利用两层的第一全连接神经网络将每个样本的特征投影到均值空间中，获取每个维度高斯分布的均值；

第二获取单元，用于利用两层的第二全连接神经网络将所述每个样本的特征投影到与所述均值空间维度相同的标准差空间中，获取每个维度高斯分布的标准差；

第三获取单元，用于基于所述均值和所述标准差，利用每个样本所对应的均值向量和方差向量将所述每个样本表示为一个固定的高斯分布，得到一个训练样本分布组。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的面向全天候场景的自监督单目深度估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的面向全天候场景的自监督单目深度估计方法。