CN116503461B

CN116503461B - 单目图像深度估计方法、装置、电子设备及存储介质

Info

Publication number: CN116503461B
Application number: CN202310770403.3A
Authority: CN
Inventors: 张伊丹; 陈展; 王磊; 刘晓暄; 贾婕; 刘世雄; 齐析屿
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-31
Anticipated expiration: 2043-06-28
Also published as: CN116503461A

Abstract

本发明提供一种单目图像深度估计方法、装置、电子设备及存储介质，属于计算机视觉技术领域，所述方法包括：将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图；所述深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，所述目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型信息标签；所述第一分辨率低于所述第二分辨率。本发明可以对输入的低分辨率的遥感单目图像进行高质量的深度估计，获取高分辨率的预测深度图，可以大幅优化单目高分辨率遥感深度估计性能。

Description

单目图像深度估计方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种单目图像深度估计方法、装置、电子设备及存储介质。

背景技术

在计算机视觉领域，深度估计是一项基础技术，它从摄像头采集的图像中估计出物体的深度信息，为下游三维重建、目标检测等任务提供数据支撑。近年来，随着深度学习技术的快速发展，研究人员开始将深度学习应用于单目图像深度估计任务中。特别是卷积神经网络（Convolutional Neural Networks，CNN）和Transformer架构在计算机视觉领域的成功应用，为遥感深度估计提供了新的方法。与此同时，遥感领域摄像头精度也不断提高，星载摄像设备采集的RGB图像与数字地表模型（Digital Surface Model，DSM）信息分辨率已经接近分米量级。

然而，在单目图像深度估计任务中，即使使用大规模的单骨干Transformer模型，面对遥感分辨率过高、目标尺度变化大等问题时，受限于多头自注意力机制，局部建模能力低下，深度估计效果较差。

因此，如何更好地进行单目图像深度估计已成为业界亟待解决的技术问题。

发明内容

本发明提供一种单目图像深度估计方法、装置、电子设备及存储介质，用以更好地进行单目图像深度估计。

本发明提供一种单目图像深度估计方法，包括：

将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图；

所述深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，所述目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型信息标签；所述第一分辨率低于所述第二分辨率。

根据本发明提供的一种单目图像深度估计方法，所述深度估计联合模型包括语义分割子模型、深度估计子模型和超分辨率子模型；所述语义分割子模型是根据所述单目图像样本以及对应的语义分割信息标签对目标神经网络进行训练得到的；所述深度估计子模型是根据所述单目图像样本和对应的数字地表模型信息标签对所述目标神经网络进行训练得到的；所述超分辨率子模型是根据所述单目图像样本和对应的第二分辨率图像标签对所述目标神经网络进行训练得到的；

所述目标神经网络包括编码器和解码器；

所述深度估计联合模型包括编码融合模块和解码融合模块；

所述深度估计子模型的编码器的相邻层与所述超分辨率子模型的编码器对应的相邻层中设置有所述编码融合模块；所述深度估计子模型的解码器的相邻层与所述语义分割子模型的解码器对应的相邻层中设置有所述解码融合模块；

所述编码融合模块用于将所述深度估计子模型的编码器中除第一目标层以外的每一层输出的特征图与所述超分辨率子模型的编码器中对应层输出的特征图进行融合，并将融合得到的特征图作为所述深度估计子模型的编码器中除第一目标层以外的每一层的下一层与所述超分辨率子模型的编码器中对应层的输入特征图；所述第一目标层包括所述深度估计子模型的编码器中的输入层、输出层及输出层的前一层；

所述解码融合模块用于将所述深度估计子模型的解码器中除第二目标层以外的每一层输出的特征图与所述语义分割子模型的解码器中对应层输出的特征图进行融合，并将融合得到的特征图作为所述深度估计子模型的解码器中除第二目标层以外的每一层的下一层与所述语义分割子模型的解码器中对应层的输入特征图；所述第二目标层包括所述深度估计子模型的解码器中的输入层、输出层及输出层的前一层；

所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自编码器中输入层的输入均为所述单目图像；所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自解码器中输入层的输入分别为各自编码器的输出层输出的特征图。

根据本发明提供的一种单目图像深度估计方法，所述编码器中的每一层网络用于：

基于自注意力机制，将输入的特征图中的每个token与其他所有token进行交互处理，输出交互处理后的特征图；

所述解码器中的每一层网络用于：

基于通道注意力机制，对输入的特征图在通道维度上进行加权处理，输出加权处理后的特征图。

根据本发明提供的一种单目图像深度估计方法，所述将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图，包括：

将所述单目图像分别输入至所述深度估计联合模型中所述语义分割子模型的编码器、所述深度估计子模型的编码器和所述超分辨率子模型的编码器中，得到所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自编码器输出的特征图；

所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自编码器输出的特征图分别输入至各自的解码器中，得到所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自解码器输出的特征图；

根据所述深度估计子模型的解码器输出的特征图，得到所述预测深度图。

根据本发明提供的一种单目图像深度估计方法，在所述将第一分辨率的单目图像输入至深度估计联合模型之前，所述方法还包括：

采用多阶段的训练方式，分别将所述单目图像样本以及对应的语义分割信息标签输入至深度估计联合模型中的语义分割子模型，将所述单目图像样本和对应的数字地表模型信息标签输入至深度估计联合模型中的深度估计子模型，将所述单目图像样本和对应的第二分辨率图像标签输入至深度估计联合模型中的超分辨率子模型，进行模型训练；

在每一次训练过程中，根据所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自输出的预测特征图和各自的标签，基于各自的预设损失函数，计算所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自的损失值，并基于各自的损失值，调整所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自的模型参数；

在确定训练次数达到预设次数的情况下，将所述训练次数达到预设次数时所得到的模型参数作为训练好的深度估计联合模型的模型参数。

根据本发明提供的一种单目图像深度估计方法，所述多阶段包括第一阶段和第二阶段；在所述第一阶段中，冻结所述深度估计子模型的模型参数，所述语义分割子模型采用第一学习率，所述超分辨率子模型采用第二学习率；在所述第二阶段中，所述深度估计子模型采用所述第一学习率，所述语义分割子模型和所述超分辨率子模型均采用第三学习率；

所述第二学习率大于所述第一学习率，所述第一学习率大于所述第三学习率。

本发明还提供一种单目图像深度估计装置，包括：

预测模块，用于将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图；

根据本发明提供的一种单目图像深度估计装置，所述深度估计联合模型包括语义分割子模型、深度估计子模型和超分辨率子模型；所述语义分割子模型是根据所述单目图像样本以及对应的语义分割信息标签对目标神经网络进行训练得到的；所述深度估计子模型是根据所述单目图像样本和对应的数字地表模型信息标签对所述目标神经网络进行训练得到的；所述超分辨率子模型是根据所述单目图像样本和对应的第二分辨率图像标签对所述目标神经网络进行训练得到的；

所述目标神经网络包括编码器和解码器；

所述深度估计联合模型包括编码融合模块和解码融合模块；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述单目图像深度估计方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述单目图像深度估计方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述单目图像深度估计方法。

本发明提供的单目图像深度估计方法、装置、电子设备及存储介质，通过针对Transformer架构模型局部建模能力差的问题，利用低分辨率单目图像样本以及对应的高分辨率图像标签辅助训练深度估计联合模型，提升模型局部信息特征的学习能力；而针对遥感分辨率过高、目标尺度变化大等问题，利用低分辨率单目图像样本以及对应的语义分割信息标签辅助训练深度估计联合模型，提升全局区域间信息特征的学习能力，由此在利用低分辨率单目图像样本以及对应的数字地表模型信息标签训练模型深度估计能力的过程中，可以融合局部信息特征和全局区域间信息特征，提高深度估计联合模型对密集局部特征的关联能力和跨区域级信息的理解能力，使得训练好的深度估计联合模型可以对输入的低分辨率的遥感单目图像进行高质量的深度估计，获取高分辨率的预测深度图，可以大幅优化单目高分辨率遥感深度估计性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的单目图像深度估计方法的流程示意图；

图2是本发明提供的单目图像深度估计方法中模型结构示意图；

图3是本发明提供的单目图像深度估计方法中模型训练流程示意图之一；

图4是本发明提供的单目图像深度估计方法中模型训练流程示意图之二；

图5是本发明提供的单目图像深度估计装置的结构示意图；

图6是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的单目图像深度估计方法、装置、电子设备及存储介质。

图1是本发明提供的单目图像深度估计方法的流程示意图，如图1所示，包括：步骤110。

步骤110，将第一分辨率的单目图像输入至深度估计联合模型，得到深度估计联合模型输出的预测深度图；

深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型（Digital SurfaceModel，DSM）信息标签；第一分辨率低于第二分辨率。

具体地，本发明实施例所描述的第一分辨率为输入的单目图像的分辨率，其可以表征为低分辨率。

本发明实施例所描述的第二分辨率为模型训练过程中低分辨率的单目图像样本对应的高分辨率图像标签的分辨率。

本发明实施例所描述的单目图像指的是单个摄像头拍摄的图像。例如遥感卫星上搭载的单个视觉传感器采集的低分辨率的RGB图像遥感数据，可以描述其为星载RGB数据。

可以理解的是，本发明实施例所描述预测深度图指的是通过训练好的深度估计联合模型对输入的低分辨率单目图像进行图像深度估计，得到的该单目图像对应的预测深度图。

在本发明的实施例中，单目图像样本的分辨率为第一分辨率，即单目图像样本为低分辨率的单目图像样本。

本发明实施例所描述的深度估计联合模型是根据低分辨率的单目图像样本以及对应的目标标签集训练得到的，目标标签集包括第二分辨率图像标签、语义分割信息标签和DSM信息标签。其中，在本发明的实施例中，可以利用单目图像样本以及对应的高分辨率图像标签训练深度估计联合模型的密集局部特征关联能力；利用单目图像样本以及对应的语义分割信息标签训练深度估计联合模型的跨区域级信息理解能力；利用单目图像样本以及对应的高分辨率DSM信息标签训练深度估计联合模型的深度估计能力。

在本发明的实施例中，模型训练样本是由多组携带有目标标签集的单目图像样本组成的，也就是说，每组模型训练样本包括一个第一分辨率的单目图像样本以及对应的第二分辨率图像标签、语义分割信息标签和高分辨率的DSM信息标签。

其中，本发明所描述的第二分辨率图像标签、语义分割信息标签和高分辨率的DSM信息标签均是根据第一分辨率的单目图像样本预先确定的，并与第一分辨率的单目图像样本是一一对应的。也就是说，模型训练样本中的每一个样本，都包括一个第一分辨率的单目图像样本以及预先设定好的一个与之对应的第二分辨率图像标签，一个第一分辨率的单目图像样本以及预先设定好的与之对应的语义分割信息标签，和一个第一分辨率的单目图像样本以及预先设定好的与之对应的DSM信息标签。

进一步地，在本发明的实施例中，根据第一分辨率的单目图像样本以及对应的第二分辨率图像标签、语义分割信息标签和DSM信息标签进行神经网络模型训练，得到训练好的深度估计联合模型，该深度估计联合模型在深度估计的能力基础上，融合了局部信息特征关联能力和全局区域间信息特征理解能力，可以对单目图像实现高质量的深度估计。

进一步地，在本发明的实施例中，将第一分辨率的单目图像输入至深度估计联合模型进行单目深度估计，可以得到该单目图像对应的高分辨率预测深度图。

本发明实施例的单目图像深度估计方法，通过针对Transformer架构模型局部建模能力差的问题，利用低分辨率单目图像样本以及对应的高分辨率图像标签辅助训练深度估计联合模型，提升模型局部信息特征的学习能力；而针对遥感分辨率过高、目标尺度变化大等问题，利用低分辨率单目图像样本以及对应的语义分割信息标签辅助训练深度估计联合模型，提升全局区域间信息特征的学习能力，由此在利用低分辨率单目图像样本以及对应的DSM信息标签训练模型深度估计能力的过程中，可以融合局部信息特征和全局区域间信息特征，提高深度估计联合模型对密集局部特征的关联能力和跨区域级信息的理解能力，使得训练好的深度估计联合模型可以对输入的低分辨率的遥感单目图像进行高质量的深度估计，获取高分辨率的预测深度图，可以大幅优化单目高分辨率遥感深度估计性能。

图2是本发明提供的单目图像深度估计方法中模型结构示意图，如图2所示，深度估计联合模型1包括语义分割子模型11、深度估计子模型12和超分辨率子模型13；语义分割子模型11是根据单目图像样本以及对应的语义分割信息标签对目标神经网络进行训练得到的；深度估计子模型12是根据单目图像样本和对应的DSM信息标签对目标神经网络进行训练得到的；超分辨率子模型13是根据单目图像样本和对应的第二分辨率图像标签对目标神经网络进行训练得到的；

目标神经网络包括编码器和解码器；

深度估计联合模型1包括编码融合模块14和解码融合模块15；

深度估计子模型12的编码器121的相邻层与超分辨率子模型13的编码器131对应的相邻层中设置有编码融合模块14；深度估计子模型12的解码器122的相邻层与语义分割子模型11的解码器112对应的相邻层中设置有解码融合模块15；

编码融合模块14用于将深度估计子模型12的编码器121中除第一目标层以外的每一层输出的特征图与超分辨率子模型13的编码器131中对应层输出的特征图进行融合，并将融合得到的特征图作为深度估计子模型12的编码器121中除第一目标层以外的每一层的下一层与超分辨率子模型13的编码器131中对应层的输入特征图；第一目标层包括深度估计子模型12的编码器121中的输入层、输出层及输出层的前一层；

解码融合模块15用于将深度估计子模型12的解码器122中除第二目标层以外的每一层输出的特征图与语义分割子模型11的解码器112中对应层输出的特征图进行融合，并将融合得到的特征图作为深度估计子模型12的解码器122中除第二目标层以外的每一层的下一层与语义分割子模型11的解码器112中对应层的输入特征图；第二目标层包括深度估计子模型12的解码器122中的输入层、输出层及输出层的前一层；

语义分割子模型11、深度估计子模型12和超分辨率子模型13各自编码器中输入层的输入均为单目图像；语义分割子模型11、深度估计子模型12和超分辨率子模型13各自解码器中输入层的输入分别为各自编码器的输出层输出的特征图。

可以理解的是，语义分割子模型11包括编码器111和解码器112、深度估计子模型12包括编码器121和解码器122，超分辨率子模型13包括编码器131和解码器132。

具体地，本发明实施例所描述的深度估计联合模型包括语义分割子模型、深度估计子模型和超分辨率子模型三个模型，其中，语义分割子模型和超分辨率子模型用于辅助深度估计子模型进行训练。

在本发明的实施例中，设计了多种抽象程度的语义辅助任务，具体表现为：

对于Transformer架构模型局部建模能力差的问题，增添语义抽象程度更低的超分辨率辅助任务，由超分辨率子模型辅助完成。对于高分辨率遥感图像尺度变化大，区域间语义关联复杂的问题，增添语义抽象程度更高的语义分割任务，由语义分割子模型辅助完成。

本发明实施例所描述的目标神经网络用于根据单目图像样本和对应的DSM信息标签进行训练得到深度估计子模型，根据单目图像样本和对应的第二分辨率图像标签进行训练得到超分辨率子模型，根据单目图像样本以及对应的语义分割信息标签进行训练得到语义分割子模型。

如图2所示，在本发明的实施例中，目标神经网络可以采用编码器-解码器神经网络架构，其中，编码器的网络结构包括输入层（Input）、第一层（Layer：1）、第二层（Layer：2）、…、第M层（Layer：N-1）、以及输出层（Output）；解码器的网络结构包括输入层（Input）、第一层（Layer：1）、…、第N层（Layer：N）以及输出层（Output），其中M、N可以根据实际设计需求进行设定。具体地，编码器采用的网络层可以为40至80层，解码器采用的网络层小于20层。如，编码器可以采用60层的网络结构，即M=58；解码器可以采用16层网络层的网络结构，即N=14。

在本发明的实施例中，编码器可以选用如Swin Transformer、视觉Transformer（Vision Transformer，ViT）等结构来构建，解码器可以采用浅层注意力机制结构加上全连接层等结构形式来构建。

基于上述实施例的内容，作为一种可选的实施例，编码器中的每一层网络用于：

解码器中的每一层网络用于：

具体地，本发明实施例所描述的自注意力机制也可以描述为跨token注意力机制，用于将输入的特征图中的每个token与其他所有token进行交互，计算它们之间的关系。

本发明实施例所描述的通道注意力机制也可以描述为跨channel注意力机制，用于对输入的特征图在通道维度上进行自适应加权。

在本发明的实施例中，语义分割子模型、深度估计子模型和超分辨率子模型各自中的编码器中的每一层网络均用于：

基于跨token注意力机制，将输入的特征图中的每个token与其他所有token进行交互处理，输出交互处理后的特征图。

在本发明的实施例中，token为输入的低分辨率单目图像经过切割后的图像patch或特征。

更具体地，在本发明的实施例中，跨token注意力机制的计算过程如下：

首先，将输入的特征图的每个token分别映射到三个不同的向量空间，得到查询向量Q（Query）、键向量K（Key）和值向量V（Value）。这个映射通过矩阵相乘操作实现，分别使用不同的权重矩阵W_Q, W_K, 和W_V。

Q = X * W_Q；

K = X * W_K；

V = X * W_V；

其中，X表示编码器中每一层网络层输入的特征图，可以理解的是，其可以为单目图像，也可以是第一目标特征图。

可以理解的是，编码器的输入层输入的图像为第一分辨率的单目图像。

其次，计算注意力权重W：计算Query和Key之间的点积，然后除以缩放因子（Key向量的维度的平方根），最后应用softmax函数将结果归一化到0-1之间，即：

；

其中，是Key向量的维度。

接着，计算编码器中的每一层网络的输出特征图Y₁：将注意力权重W与Value相乘，得到Y₁，即：

。

更具体地，在本发明的实施例中，跨channel注意力机制的计算过程如下：

首先，进行通道池化：对输入的特征图进行全局平均池化（Global AveragePooling，GAP）和全局最大池化（Global Max Pooling，GMP），以得到两个1×1×C的特征向量，其中，C表示通道数。其中，输入的特征图可以是第二目标特征图，也可以是语义分割子模型、深度估计子模型和超分辨率子模型各自编码器的输出层输出的特征图。

其次，计算通道权重：将全局平均池化和全局最大池化得到的特征向量分别通过一个共享的全连接层（Fully Connected layer ，FC）映射到一个新的1×1×C的特征向量。然后，将两个新的特征向量相加，并应用激活函数（如sigmoid或者ReLU）得到最终的通道权重S，即：

S= σ[FC(Avg_Pool(F))+FC(Max_Pool(F))]；

接着，加权特征图：将计算得到的通道权重应用于输入特征图（F）的每个通道，得到加权后的特征图Y₂，即：

；

最后，得到输出解码器中的每一层网络的输出特征图Y₂，即：

。

本发明实施例的方法，通过编码器的跨token注意力机制，对输入的特征图中的每个token与其他所有token进行交互处理，以便更好地捕捉局部特征之间的关联；通过解码器的跨channel注意力机制，对输入的特征图在通道维度上进行加权处理，以便更好地捕捉不同通道之间的关系和上下文信息。

进一步地，在本发明的实施例中，深度估计联合模型还包括编码融合模块和解码融合模块，其中，编码融合模块设置在深度估计子模型的编码器的相邻层与超分辨率子模型的编码器对应的相邻层中，例如，深度估计子模型的编码器的第一层、第二层之间与超分辨率子模型的编码器的第一层、第二层之间共布置有一个编码融合模块，深度估计子模型的编码器的第二层与第三层之间与超分辨率子模型的编码器的第二层与第三层之间共布置有一个编码融合模块，以此类推。

其中，解码融合模块设置在深度估计子模型的解码器的相邻层与语义分割子模型的解码器对应的相邻层中，例如，深度估计子模型的解码器的第一层、第二层之间与语义分割子模型的解码器的第一层、第二层之间共布置有一个编码融合模块，深度估计子模型的解码器的第二层与第三层之间与语义分割子模型的解码器的第二层与第三层之间共布置有一个编码融合模块，以此类推。

在本发明的实施例中，编码融合模块用于根据融合函数F₁，将深度估计子模型的编码器中除第一目标层以外的每一层输出的特征图Y₁₁与超分辨率子模型的编码器中对应层输出的特征图Y₁₂进行叠加融合，由此，融合后输出的特征图Output_1可以表示为：

；

同时，将融合得到的特征图作为深度估计子模型的编码器中除第一目标层以外的每一层的下一层与超分辨率子模型的编码器中对应层的输入特征图。也就是说，深度估计子模型的编码器中除输入层、输出层及输出层的前一层以外的每一层输出的特征图与超分辨率子模型的编码器中对应层输出的特征图融合后的特征图均会作为下一层输入的特征图。

在本发明的实施例中，解码融合模块用于根据融合函数F₂，将深度估计子模型的解码器中除第二目标层以外的每一层输出的特征图Y₂₁与语义分割子模型的解码器中对应层输出的特征图Y₂₂进行融合，由此，融合后输出的特征图Output_2可以表示为：

;

同时，将融合得到的特征图作为深度估计子模型的解码器中除第二目标层以外的每一层的下一层与语义分割子模型的解码器中对应层的输入特征图。也就是说，深度估计子模型的解码器中除输入层、输出层及输出层的前一层以外的每一层输出的特征图与语义分割子模型的解码器中对应层输出的特征图进行融合后的特征图均会作为下一层输入的特征图。

可以理解的是，在本实施例中，语义分割子模型在编码阶段单独进行自己模型中图像的处理，不涉及特征融合操作。同样地，超分辨率子模型在解码阶段也可以是单独进行图像的处理，当然，在实际处理过程中，该过程也可以进行忽略。

本发明实施例的方法，通过采用语义分割子模型、深度估计子模型和超分辨率子模型训练得到深度估计联合模型，在深度估计子模型编码器结构中融合超分辨率任务特征，形成密集的局部特征关联，在深度估计子模型解码器结构中融合语义分割任务特征，解码器处于模型较后位置，信息抽象层级较高，形成跨区域级信息理解能力，可以有效对低分辨率的单目图像进行高质量的深度估计，获得高分辨率的深度估计结果。

基于上述实施例的内容，作为一种可选的实施例，将第一分辨率的单目图像输入至深度估计联合模型，得到深度估计联合模型输出的预测深度图，包括：

将单目图像分别输入至深度估计联合模型中语义分割子模型的编码器、深度估计子模型的编码器和超分辨率子模型的编码器中，得到语义分割子模型、深度估计子模型和超分辨率子模型各自编码器输出的特征图；

所述语义分割子模型、所述深度估计子模型和所述超分辨率子模型各自编码器输出的特征图分别输入至各自的解码器中，得到语义分割子模型、深度估计子模型和超分辨率子模型各自解码器输出的特征图；

根据深度估计子模型的解码器输出的特征图，得到预测深度图。

具体地，在本发明的实施例中，将低分辨率的单目图像输入至训练好的深度估计联合模型中语义分割子模型的编码器、深度估计子模型的编码器和超分辨率子模型的编码器中，通过编码器各层网络以及编码融合模块的联合处理，可以将深度估计子模型的编码器中除输入层、输出层及输出层的前一层以外的每一层输出的特征图与超分辨率子模型的编码器中对应层输出的特征图进行融合，而语义分割子模型的编码器按照编码器常规流程逐层进行图像处理，不涉及融合的操作，以此实现在深度估计模型编码器结构中融合超分辨率任务特征，这样可以得到语义分割子模型、深度估计子模型和超分辨率子模型各自编码器的输出层输出的特征图。

进一步地，将语义分割子模型、深度估计子模型和超分辨率子模型各自编码器输出的特征图分别输入至各自的解码器中，通过解码器各层网络以及解码融合模块的联合处理，可以将深度估计子模型的解码器中除输入层、输出层及输出层的前一层以外的每一层输出的特征图与语义分割子模型的解码器中对应层输出的特征图进行融合，而超分辨率子模型的解码器按照解码器常规流程逐层进行图像处理，不涉及融合的操作，以此在深度估计模型解码器结构中融合语义分割任务特征，这样可以得到语义分割子模型、深度估计子模型和超分辨率子模型各自解码器的输出层输出的特征图。进而，可以将深度估计子模型的解码器输出层的特征图作为最终的预测深度图。

本发明实施例的方法，通过在模型的编码阶段中增添语义抽象程度更低的超分辨率辅助任务，在解码阶段中增添语义抽象程度更高的语义分割辅助任务，可以有效解决现有深度估计技术中面对遥感分辨率过高、目标尺度变化大等问题时，局部建模能力低下的缺陷，大幅提升了单目图像深度估计的效果。

在本发明的实施例中，如图3、图4所示，在将第一分辨率的单目图像输入至深度估计联合模型之前，该方法还包括：

采用多阶段的训练方式，分别将单目图像样本以及对应的语义分割信息标签输入至深度估计联合模型中的语义分割子模型，将单目图像样本和对应的DSM信息标签输入至深度估计联合模型中的深度估计子模型，将单目图像样本和对应的第二分辨率图像标签输入至深度估计联合模型中的超分辨率子模型，进行模型训练；

在每一次训练过程中，根据语义分割子模型、深度估计子模型和超分辨率子模型各自输出的预测特征图和各自的标签，基于各自的预设损失函数，计算语义分割子模型、深度估计子模型和超分辨率子模型各自的损失值，并基于各自的损失值，调整语义分割子模型、深度估计子模型和超分辨率子模型各自的模型参数；

在确定训练次数达到预设次数的情况下，将训练次数达到预设次数时所得到的模型参数作为训练好的深度估计联合模型的模型参数。

具体地，在本发明的实施例中，在将第一分辨率的单目图像输入至深度估计联合模型之前，还需对深度估计联合模型进行模型训练。

在本发明的实施例中，采用横跨不同抽象程度任务的样本数据对深度估计联合模型进行模型训练，样本数据包括单目图像样本以及对应的语义分割信息标签、对应的DSM信息标签以及对应的第二分辨率图像标签，具体包括较低分辨率的星载单目RGB数据以及对应同区域语义分割标签、同区域较高分辨率机载多传感器获取的DSM信息标签以及同区域较高分辨率的机载RGB数据标签，具体表现为：

针对超分辨率子模型的超分辨率任务，采集较低分辨率的星载单目RGB数据以及对应的较高分辨率的机载RGB数据标签；针对语义分割子模型的语义分割任务，采集较低分辨率的星载单目RGB数据并标注其语义分割信息标签；针对深度估计子模型的深度估计任务，采集较低分辨率的星载单目RGB数据以及对应的较高分辨率机载多传感器获取的DSM信息标签。以上三个任务单次训练迭代均选用同一较低分辨率的星载单目RGB数据样本。

在本发明的实施例中，采用多阶段的训练方式，对深度估计联合模型进行模型训练。

继续参照图3和图4，基于上述实施例的内容，作为一种可选的实施例，多阶段包括第一阶段和第二阶段；如图3所示，在第一阶段中，冻结深度估计子模型的模型参数，语义分割子模型采用第一学习率，超分辨率子模型采用第二学习率；如图4所示，在第二阶段中，深度估计子模型采用第一学习率，语义分割子模型和超分辨率子模型均采用第三学习率；

第二学习率大于第一学习率，第一学习率大于第三学习率。

具体地，在本发明的实施例中，第一学习率表征常规设定的学习率数值，可以设定为1*10^-5；第二学习率表征高学习率，可以采用十倍的第一学习率，即1*10^-4；第三学习率表征低学习率，可以采用十1/10的第一学习率，即1*10^-6。

在本发明的实施例中，可以采用两个学习阶段，即分别经过第一阶段和第二阶段进行模型训练。如图3所示，在第一阶段中，冻结深度估计子模型的模型参数，使得深度估计子模型的模型参数不会进行学习，语义分割子模型采用第一学习率，如1*10^-5，超分辨率子模型采用第二学习率，如1*10^-4。进而，基于前述图2所示的深度估计联合模型的融合数据处理过程，按照图3所示的第一阶段的网络参数设置，利用单目图像样本以及对应的目标标签集进行第一阶段的模型训练。

进一步地，在本发明的实施例中，在获得完成第一阶段训练的深度估计联合模型的模型参数后，在此基础上，继续利用单目图像样本以及对应的目标标签集进行图4所示的第二阶段的模型训练。在第二阶段中，深度估计子模型采用第一学习率，如1*10^-5，语义分割子模型和超分辨率子模型均采用第三学习率，如1*10^-6。通过第二阶段的模型训练后，可以最终获得训练好的深度估计联合模型。

本发明的实施例的方法，通过采用两个学习阶段进行模型训练，第一阶段冻结深度估计子模型，只训练超分辨率子模型和语义分割子模型，对于超分辨率子模型，使用更高的学习率，可以快速形成基本的局部特征提取能力；第二阶段超分辨率子模型和语义分割子模型使用低学习率进行微调，可以有效解决复杂架构模型训练不稳定，出现易梯度消失/梯度爆炸等问题，保证模型提取特征的稳定性。

在本发明的实施例中，预设损失函数指的是预先设置在各个任务模型里的损失函数，用于模型评估；预设次数指的是预先设置的深度估计联合模型训练的最大迭代次数。

进一步地，在每一次训练过程中，根据语义分割子模型、深度估计子模型和超分辨率子模型各自输出的预测特征图和各自的图像数据标签，基于各自的预设损失函数，计算语义分割子模型、深度估计子模型和超分辨率子模型各自的损失值，根据各自的损失值，调整语义分割子模型、深度估计子模型和超分辨率子模型各自的模型参数，完成一次迭代训练。

在本发明的实施例中，在确定当前的训练次数达到预设次数的情况下，将训练次数达到预设次数时所得到的模型参数作为训练好的深度估计联合模型的模型参数，深度估计联合模型训练完成。

本发明实施例的方法，一方面，通过多次模型迭代训练，将深度估计联合模型的损失值控制在预设的范围内，有利于提高模型精度；另一方面，通过多阶段训练方式，有利于提升模型训练的稳定性。

下面对本发明提供的单目图像深度估计装置进行描述，下文描述的单目图像深度估计装置与上文描述的单目图像深度估计方法可相互对应参照。

图5是本发明提供的单目图像深度估计装置的结构示意图，如图5所示，包括：

预测模块510，用于将第一分辨率的单目图像输入至深度估计联合模型，得到深度估计联合模型输出的预测深度图；

深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，目标标签集包括第二分辨率图像标签、语义分割信息标签和DSM信息标签；第一分辨率低于第二分辨率。

本实施例所述的单目图像深度估计装置可以用于执行上述单目图像深度估计方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例的单目图像深度估计装置，通过针对Transformer架构模型局部建模能力差的问题，利用低分辨率单目图像样本以及对应的高分辨率图像标签辅助训练深度估计联合模型，提升模型局部信息特征的学习能力；而针对遥感分辨率过高、目标尺度变化大等问题，利用低分辨率单目图像样本以及对应的语义分割信息标签辅助训练深度估计联合模型，提升全局区域间信息特征的学习能力，由此在利用低分辨率单目图像样本以及对应的数字地表模型信息标签训练模型深度估计能力的过程中，可以融合局部信息特征和全局区域间信息特征，提高深度估计联合模型对密集局部特征的关联能力和跨区域级信息的理解能力，使得训练好的深度估计联合模型可以对输入的低分辨率的遥感单目图像进行高质量的深度估计，获取高分辨率的预测深度图，可以大幅优化单目高分辨率遥感深度估计性能。

可选地，深度估计联合模型包括语义分割子模型、深度估计子模型和超分辨率子模型；语义分割子模型是根据单目图像样本以及对应的语义分割信息标签对目标神经网络进行训练得到的；深度估计子模型是根据单目图像样本和对应的数字地表模型信息标签对目标神经网络进行训练得到的；超分辨率子模型是根据单目图像样本和对应的第二分辨率图像标签对目标神经网络进行训练得到的；

目标神经网络包括编码器和解码器；

深度估计联合模型包括编码融合模块和解码融合模块；

深度估计子模型的编码器的相邻层与超分辨率子模型的编码器对应的相邻层中设置有编码融合模块；深度估计子模型的解码器的相邻层与语义分割子模型的解码器对应的相邻层中设置有解码融合模块；

编码融合模块用于将深度估计子模型的编码器中除第一目标层以外的每一层输出的特征图与超分辨率子模型的编码器中对应层输出的特征图进行融合，并将融合得到的特征图作为深度估计子模型的编码器中除第一目标层以外的每一层的下一层与超分辨率子模型的编码器中对应层的输入特征图；第一目标层包括深度估计子模型的编码器中的输入层、输出层及输出层的前一层；

解码融合模块用于将深度估计子模型的解码器中除第二目标层以外的每一层输出的特征图与语义分割子模型的解码器中对应层输出的特征图进行融合，并将融合得到的特征图作为深度估计子模型的解码器中除第二目标层以外的每一层的下一层与语义分割子模型的解码器中对应层的输入特征图；第二目标层包括深度估计子模型的解码器中的输入层、输出层及输出层的前一层；

语义分割子模型、深度估计子模型和超分辨率子模型各自编码器中输入层的输入均为单目图像；语义分割子模型、深度估计子模型和超分辨率子模型各自解码器中输入层的输入分别为各自编码器的输出层输出的特征图。

图6是本发明提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器（processor）610、通信接口（Communications Interface）620、存储器（memory）630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各方法所提供的单目图像深度估计方法，该方法包括：将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图；所述深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，所述目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型信息标签；所述第一分辨率低于所述第二分辨率。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的单目图像深度估计方法，该方法包括：将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图；所述深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，所述目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型信息标签；所述第一分辨率低于所述第二分辨率。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的单目图像深度估计方法，该方法包括：将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图；所述深度估计联合模型是根据单目图像样本以及对应的目标标签集训练得到的，所述目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型信息标签；所述第一分辨率低于所述第二分辨率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种单目图像深度估计方法，其特征在于，包括：

所述深度估计联合模型是根据所述第一分辨率的单目图像样本以及对应的目标标签集训练得到的，所述目标标签集包括第二分辨率图像标签、语义分割信息标签和数字地表模型信息标签；所述第一分辨率低于所述第二分辨率；

其中，所述深度估计联合模型包括语义分割子模型、深度估计子模型和超分辨率子模型；所述语义分割子模型是根据所述单目图像样本以及对应的语义分割信息标签对目标神经网络进行训练得到的；所述深度估计子模型是根据所述单目图像样本和对应的数字地表模型信息标签对所述目标神经网络进行训练得到的；所述超分辨率子模型是根据所述单目图像样本和对应的第二分辨率图像标签对所述目标神经网络进行训练得到的；

所述目标神经网络包括编码器和解码器；

所述深度估计联合模型包括编码融合模块和解码融合模块；

2.根据权利要求1所述的单目图像深度估计方法，其特征在于，所述编码器中的每一层网络用于：

所述解码器中的每一层网络用于：

3.根据权利要求1所述的单目图像深度估计方法，其特征在于，所述将第一分辨率的单目图像输入至深度估计联合模型，得到所述深度估计联合模型输出的预测深度图，包括：

4.根据权利要求1-3任一项所述的单目图像深度估计方法，其特征在于，在所述将第一分辨率的单目图像输入至深度估计联合模型之前，所述方法还包括：

5.根据权利要求4所述的单目图像深度估计方法，其特征在于，所述多阶段包括第一阶段和第二阶段；在所述第一阶段中，冻结所述深度估计子模型的模型参数，所述语义分割子模型采用第一学习率，所述超分辨率子模型采用第二学习率；在所述第二阶段中，所述深度估计子模型采用所述第一学习率，所述语义分割子模型和所述超分辨率子模型均采用第三学习率；

6.一种单目图像深度估计装置，其特征在于，包括：

所述目标神经网络包括编码器和解码器；

所述深度估计联合模型包括编码融合模块和解码融合模块；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述单目图像深度估计方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述单目图像深度估计方法。