CN117726666B

CN117726666B - 跨相机单目图片度量深度估计方法、装置、设备及介质

Info

Publication number: CN117726666B
Application number: CN202410175840.5A
Authority: CN
Inventors: 明安龙; 刘一好; 薛峰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2024-02-08
Filing date: 2024-02-08
Publication date: 2024-06-04
Anticipated expiration: 2044-02-08
Also published as: CN117726666A

Abstract

本申请提供跨相机单目图片度量深度估计方法、装置、设备及介质，属于计算机视觉技术领域。方法包括：将单目图片输入视场角对齐模块，得到待输入图片，将待输入图片输入神经网络编码器，得到第一特征图和特征信息；将第一特征图和多个预存嵌入特征向量输入多尺度场景信息提取器；将特征信息和第二特征图输入神经网络解码器；将多个特征向量中的一个特征向量输入场景分类器，其它特征向量输入域感知尺度估计器；根据多个中间度量尺度和分类概率，将每个待细化深度图和目标度量尺度输入深度细化模块，将预测深度图进行放大处理，得到目标深度图。本申请能在不同单目图片拍摄设备的配置和不同场景下，得到更精准的度量深度估计结果。

Description

跨相机单目图片度量深度估计方法、装置、设备及介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及跨相机单目图片度量深度估计方法、装置、设备及介质。

背景技术

深度估计指的是获取图片中的场景里的每个点到拍摄该图片的相机的距离，这种距离信息组成的图称为深度图。随着人工智能技术的发展，深度信息成为了多项计算机视觉技术重要的组成部分。因此跨相机单目图片度量深度估计已逐渐成为计算机视觉领域中一个重要的研究任务。

目前，现有技术中，常见的跨相机单目图片度量深度估计通过利用多样化的场景信息和三维的空间规则，如图片本身的特征和深度线索计算图像的深度值，这些深度线索包括线性透视、聚焦、相对高度和图片中的参照物等，得到深度图。

然而，发明人发现，现有技术至少存在以下技术问题：使用现有技术中的跨相机单目图片度量深度估计方法在进行新的相机类型拍摄的跨相机单目图片度量深度估计时，得到的结果仍存在较大误差，并且将训练好的算法应用不同场景时，深度估计结果存在较大整体范围误差的问题。

发明内容

本申请提供跨相机单目图片度量深度估计方法、装置、设备及介质，用于解决使用现有技术中的跨相机单目图片度量深度估计方法在进行新的相机类型拍摄的跨相机单目图片度量深度估计时，得到的结果仍存在较大误差，以及将训练好的算法应用不同场景时，深度估计结果存在较大整体范围误差的问题。

第一方面，本申请提供一种跨相机单目图片度量深度估计方法，包括：

获取单目图片和预训练度量深度估计模型，其中所述预训练度量深度估计模型包括视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块；

将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，并将所述待输入图片输入所述神经网络编码器，得到第一特征图和所述神经网络编码器每个阶层输出的特征信息；

将所述第一特征图和多个预存嵌入特征向量输入所述多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量；

将所述特征信息和所述第二特征图输入所述神经网络解码器，得到一个待细化深度图，其中所述待细化深度图对应所述神经网络解码器中的一个阶层的输出尺度；

将所述多个特征向量中的一个特征向量输入所述场景分类器，得到分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；

根据所述多个中间度量尺度和所述分类概率，确定一个目标度量尺度；

依次将每个待细化深度图和所述目标度量尺度输入所述深度细化模块，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图。

在一种可能的实现方式中，所述将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，包括：根据所述单目图片，确定所述单目图片的内参、第一宽度和第一高度；根据所述单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度；根据所述第二宽度和第二高度对所述单目图片进行裁剪和拼接处理，得到统一视场角图片；将所述统一视场角图片进行缩放处理，得到统一视场角且统一大小的待输入图片。

在一种可能的实现方式中，所述根据所述单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度，的计算公式为：

式中，为统一视场角下的第二宽度，/>为统一视场角下的第二高度，/>，/>均为图片的内参，其中/>为所述单目图片的图片坐标系上的x方向上的焦距，/>为所述单目图片的图片坐标系上y方向上的焦距，/>为预设水平视场角，/>为预设垂直视场角。

在一种可能的实现方式中，所述获取预训练度量深度估计模型，包括：将预设深度范围划分为多个深度范围域，其中每个深度范围域对应一个场景类别；根据所述场景类别获取训练集，其中所述训练集包括多个样本单目图像、每个样本图片的样本内参和每个样本图片的度量深度图真值，并根据每个预设场景中的最小场景深度值和最大场景深度值，确定每个样本图片所属的深度范围域；将所述每个样本图片的样本内参和预设参数对所述样本图片进行初步处理，得到一个统一视场角且统一大小的待输入样本图片，并将所述待输入样本图片输入所述神经网络编码器，得到第一样本特征图和所述神经网络编码器每个阶层输出的样本特征信息；将所述第一样本特征图和多个预存嵌入特征向量输入所述多尺度场景信息提取器，得到学习过多尺度信息的第二样本特征图和多个样本特征向量；将所述样本特征信息和所述第二样本特征图输入所述神经网络解码器，得到一个待细化样本深度图，其中所述待细化样本深度图对应所述神经网络解码器中的一个阶层的输出尺度；根据所述多个样本特征向量中的一个特征向量、所述度量深度图真值、每个样本图片所述的深度范围域和预设第一损失方式对所述场景分类器进行训练，得到样本分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；根据所述多个中间度量尺度、所述样本分类概率、所述度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度；依次根据每个待细化深度图、所述目标样本度量尺度、所述度量深度图真值、预设第三损失方式和预设第四损失方式对所述深度细化模块进行训练，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图；根据所述度量深度图真值和预设第五损失方式对所述神经网络解码器的最后一个阶层输出的预测深度图进行训练，得到目标样本深度图；当检测到所述目标样本深度图与所述度量深度图真值之间的差值小于预设阈值，则最后一次训练后的视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块确定为预训练度量深度估计模型。

在一种可能的实现方式中，所述将预设深度范围划分为多个深度范围域，包括：根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域。

在一种可能的实现方式中，所述根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域，的计算公式为：

式中，为第i个深度范围域，其中i为大于0的自然数，/>为预设深度范围中的最小深度值，/>为预设深度范围中的最大深度值，K为深度范围域的数量，即K个深度范围域。

在一种可能的实现方式中，所述将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度，的计算公式为：

式中，为每个特征向量输入所述域感知尺度估计器后得到的一个深度分箱中第n维的数值，其中所述特征向量的长度为1*n，每一维上都有一个对应的数值，/>为一个度量尺度第n维的数值，/>为所述深度分箱中第j维的数值，其中j小于n，/>为一个0至1之间的预设数值；

所述根据所述多个样本特征向量中的一个特征向量、所述度量深度图真值和预设第一损失方式对所述场景分类器进行训练，得到样本分类概率，的计算公式为：

式中，Q为所述一个特征向量的维度值，为所述样本图片属于第i个深度范围域的样本分类概率值，/>为所述一个特征向量第i维度的值；

所述预设第一损失方式，的损失函数为：

式中，为所述样本图片属于第i个深度范围域的样本分类概率值，/>为所述样本图片属于第i个场景的概率的真值，/>为交叉熵损失，K为深度范围域的总数；

所述根据所述多个中间度量尺度、所述样本分类概率、所述度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度，的计算公式为：

式中，为目标样本度量尺度、U为中间度量尺度的数量，/>为第i个中间度量尺度，为样本分类概率，其中i为1至U之间的任一自然数。

在一种可能的实现方式中，所述预设第二损失方式，的损失函数为：

式中，为双向倒角损失，/>为目标样本度量尺度，GT为所述样本图片的度量深度图真值，d为度量深度图真值中每个像素点的深度值，/>为度量尺度第n维的数值。

在一种可能的实现方式中，所述将所述样本特征信息和所述第二样本特征图输入所述神经网络解码器，得到一个待细化样本深度图，的计算公式为：

式中，为所述神经网络解码器中的第s个阶层输出的解码层样本特征信息，c为训练度量尺度，/>为神经网络输入图片宽度，/>为神经网络输入图片高度，/>为全体实数空间，/>为神经网络解码器中的第s个阶层输出的深度图。

在一种可能的实现方式中，所述预设第三损失方式，的损失函数为：

式中，为超参数，T为样本图片中有效的像素数量，GT为度量深度图真值，D为深度图，/>为尺度无关对数损失；

所述预设第四损失方式，的损失函数为：

式中，

，其中为超参数，T为样本图片中有效的像素数量，M为梯度损失采用的尺度数量，GT为度量深度图真值，/>为样本图片中第/>个像素的/>坐标值，/>表示样本图片中第/>个像素的/>坐标值，/>为深度图，/>为多尺度梯度损失；

所述预设第五损失方式，的损失函数为：

式中，V为虚拟平面的采样数量，为深度图D虚拟平面的第i条法线，/>为度量深度图真值GT虚拟平面的第i条法线，/>为虚拟平面法线损失。

在一种可能的实现方式中，所述将预测深度图进行放大处理，得到目标深度图之后，还包括：

根据所述目标深度图，确定预测深度分布图。

第二方面，本申请实施例提供了一种跨相机单目图片度量深度估计装置，包括：

获取模块，用于获取单目图片和预训练度量深度估计模型，其中所述预训练度量深度估计模型包括视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块；

第一神经网络处理模块，用于将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，并将所述待输入图片输入所述神经网络编码器，得到第一特征图和所述神经网络编码器每个阶层输出的特征信息；

多尺度处理模块，用于将所述第一特征图和多个预存嵌入特征向量输入所述多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量；

第二神经网络处理模块，还用于将所述特征信息和所述第二特征图输入所述神经网络解码器，得到一个待细化深度图，其中所述待细化深度图对应所述神经网络解码器中的一个阶层的输出尺度；

度量尺度生成模块，用于将所述多个特征向量中的一个特征向量输入所述场景分类器，得到分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；

所述度量尺度生成模块，用于根据所述多个中间度量尺度和所述分类概率，确定一个目标度量尺度；

目标输出模块，用于依次将每个待细化深度图和所述目标度量尺度输入所述深度细化模块，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图。

第三方面，本申请实施例提供了一种跨相机单目图片度量深度估计设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面描述的跨相机单目图片度量深度估计方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面描述的跨相机单目图片度量深度估计方法。

本申请提供的跨相机单目图片度量深度估计方法、装置、设备及介质，先通过预训练度量深度估计模型的视场角对齐模块将获取的单目图片变为统一视场角且统一大小的待输入图片，这样能避免因不同图片拍摄设备的配置带来的学习歧义，进而解决现有技术中度量深度估计算法模型在进行跨相机单目图片度量深度估计时由于新的相机类型引起的结果误差。再通过神经网络编码器提取包含特征信息和结构信息的第一特征图和每个阶层输出的特征信息，提高全局注意力的高性能和卷积方法的效率。然后再通过多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量，使整个方法能泛化到多种场景和提高不同场景的准确度一致性。再通过域感知尺度估计器和场景分类器学习不同深度范围域的度量尺度，以得到一个唯一的目标度量尺度，使整个方法能泛化到多种场景并且提高深度估计模型在不同场景的准确度一致性。最后通过深度细化模块在多个尺度上细化深度图，并将神经网络解码器最后一个阶层输出的预测深度图进行放大处理，得到目标深度图作为结果。达到了在不同单目图片拍摄设备的配置和不同场景下，得到更精准的度量深度估计结果的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的跨相机单目图片度量深度估计方法的应用场景示意图；

图2为本申请实施例提供的跨相机单目图片度量深度估计方法的流程示意图；

图3为本申请实施例提供的使用跨相机单目图片度量深度估计方法的对输入的图片进行度量深度估计和预训练度量深度估计模型的训练过程的综合流程示意图；

图4为本申请实施例提供的跨相机单目图片度量深度估计方法对室内场景下的单目图片进行度量深度估计的效果示意图；

图5为本申请实施例提供的跨相机单目图片度量深度估计方法对室外场景下的单目图片进行度量深度估计的效果示意图；

图6为本申请实施例提供的跨相机单目图片度量深度估计装置的结构示意图一；

图7为本申请实施例提供的跨相机单目图片度量深度估计装置的结构示意图二；

图8为本申请实施例提供的跨相机单目图片度量深度估计设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，现有技术中还存在一些通过结合相对深度预训练和度量深度微调，或者在相同焦距下对海量数据进行训练，实现了更高的泛化能力，得到缩小深度估计结果误差的模型，并使用模型对新的单目图片进行度量深度估计。但发明人在实践过程中发现，上述现有技术中的方法仍然受限于以下三个方面：1）相机方面：现有的工作都对相机的配置敏感，无法适用于所有相机。即使部分方法将所有图像对齐在相同的焦距上，对于被裁剪过的图像仍然会存在度量歧义。这会导致对裁剪过的图像深度预测不准确。（2）场景级别：现实世界场景存在截然不同的深度范围，使得现有方法难以泛化到场景并且不同场景的准确度不一致。（3）数据级别：由于从自然场景的巨大解空间中确定唯一的度量尺度复杂性较高，现有方法通常使用百万量级的数据进行学习，仍然存在对大量数据的依赖。因此，亟需一种跨相机单目图片度量深度估计方法改善上述情况。

为解决上述技术问题，本申请实施例提供了以下解决问题的技术构思：在统一视场角的前提下，学习多尺度场景特征并预测场景类别，并在多个尺度上细化深度图，以得到最终的深度预测结果。避免不同相机配置带来的学习歧义，学习多尺度场景特征并预测场景类别，能使该方法不受限于相机种类和场景类别，得到误差更小的新的单目图片度量深度估计结果。

图1为本申请实施例提供的跨相机单目图片度量深度估计方法的应用场景示意图，如图1所示，包括：终端101和服务器102。

其中，终端101，用于供工作人员选择要进行度量深度估计的单目图片和显示结果。服务器102，用于接收从云端、其他服务器或移动端传输的单目图片和训练模型，并执行跨相机单目图片度量深度估计方法的相关操作，生成度量深度估计结果。

图2为本申请实施例提供的跨相机单目图片度量深度估计方法的流程示意图，本实施例的执行主体可以为图1所示实施例中的服务器102，也可以是其他的计算机的相关设备，对此实施例不作特别限制。

如图2所示，该跨相机单目图片度量深度估计方法包括：

S201：获取单目图片和预训练度量深度估计模型，其中预训练度量深度估计模型包括视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块。

本实施例中，单目图片指的是一个拍摄设备在单一视角下拍摄的单个图片。预训练度量深度模型为使用少量数据经过多轮训练后得到的模型，该预训练度量深度模型能对输入的单目图片进行度量深度估计，得到一个深度图。

S202：将单目图片输入视场角对齐模块，得到统一视场角且统一大小的待输入图片，并将待输入图片输入神经网络编码器，得到第一特征图和神经网络编码器神经网络解码器每个阶层输出的特征信息。

图3为本申请实施例提供的使用跨相机单目图片度量深度估计方法的对输入的图片进行度量深度估计和预训练度量深度估计模型的训练过程的综合流程示意图。如图3所示，实线表示流程走向，虚线表示添加的损失，圆角矩形表示各步骤的输入或输出，直角矩形表示预训练度量深度估计模型中各组成结构名称。

本实施例中，视场角对齐模块能用于调整输入的单目图片的视场角。神经网络编码器可采用经过预训练的骨干网络滑动窗口转换器（Swin-Transformer），其中滑动窗口转换器是一种通用的骨干网络，它通过基于滑动窗口的注意力机制提取图片特征，兼顾了全局注意力的高性能和卷积方法的高效率。

具体的，在本申请一可选的实施例中，步骤S202中将单目图片输入视场角对齐模块，得到统一视场角且统一大小的待输入图片，包括：

步骤S202a：根据单目图片，确定单目图片的内参、第一宽度和第一高度。

步骤S202b：根据单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度。

本实施例中，单目图片的内参可以是焦距、镜头畸变参数和光轴中心坐标。第一高度指的是单目图片的像素尺寸中的高度值，第一宽度指的是单目图片的像素尺寸中的宽度值。视场角指的是显示设备所形成像中，人眼可观察到部分的边缘与人眼瞳孔中心连线的夹角，包括水平视场角、垂直视场角和对角线视场角。本实施例中，视场角可以是预先设定的统一视场角。

在本申请一可选的实施例中，步骤S202b的计算公式为：

式中，为统一视场角下的第二宽度，/>为统一视场角下的第二高度，/>，/>均为图片的内参，其中/>为单目图片的图片坐标系上的x方向上的焦距，/>为单目图片的图片坐标系上y方向上的焦距，/>为预设水平视场角，/>为预设垂直视场角。

步骤S202c：根据第二宽度和第二高度对单目图片进行裁剪和拼接处理，得到统一视场角图片。

本实施例中，裁剪和拼接处理指的是将原来的单目图片通过图片裁剪和平均处理，得到宽为第二宽度、高为第二高度的图片的过程。

步骤S202d：将统一视场角图片进行缩放处理，得到统一视场角且统一大小的待输入图片。

本实施例中，缩放处理可以是将宽为第二宽度、高为第二高度的统一视场角图片缩放至能输入神经网络的图片的尺寸过程。通过上述步骤S204a至S204d的流程，能够避免因不同图片拍摄设备的配置带来的学习歧义，进而解决现有技术中度量深度估计算法模型在进行跨相机单目图片度量深度估计时由于新的相机类型引起的结果误差。例如：通过对单目图片进行一次裁剪和拼接处理，得到统一视场角图片的宽为、高为/>，再将统一视场角图片缩放至统一的宽/>和高/>的待输入图片。

以上为本申请实施例提供的跨相机单目图片度量深度估计方法的步骤中输入神经网络之前所需要做的准备工作，在预训练度量深度模型的训练过程中也需要做上述的准备工作。接下来针对步骤S201中的预训练度量深度模型的训练过程将结合附图3进行描述。

如图3所示，具体的，在本申请一可选的实施例中，步骤S201中获取预训练度量深度模型，包括：

步骤a：将预设深度范围划分为多个深度范围域，其中每个深度范围域对应一个场景类别；根据场景类别获取训练集，其中训练集包括多个样本单目图像、每个样本图片的样本内参和每个样本图片的度量深度图真值，并根据每个预设场景中的最小场景深度值和最大场景深度值，确定每个样本图片所属的深度范围域。

本实施例中，预设深度范围指的是人为预先设定的一个表示深度值的数值范围。例如：雷达的感知距离，通常将预设深度范围中最小值设定为0米，深度范围中最大值设定为80米，则需将0至80米这一深度范围划分为多个深度范围域。

在本申请一可选的实施例中，步骤a中将预设深度范围划分为多个深度范围域，包括：

a1：根据预设深度范围，确定预设深度范围的最小深度值和最大深度值之间的多个深度范围域。

本实施例中，可通过使用计算公式计算得到每个深度范围域的方法，将预设深度范围划分为多个深度范围域。

以上述实施例为基础，在本申请一可选的实施例中，步骤a1的计算公式为：

本实施例中，将整个预设深度范围为[]的数值范围，划分为K个深度范围域。每个深度范围域对应一个场景类别，这样能确保每轮训练的过程中令输入的样本图片之间保持类别平衡，提高训练精度和模型的适应性。通过划分多个深度范围域，为每个深度范围域预测一个中间度量尺度，提升度量深度估计模型应用于不同场景（此处不同场景的图片对应不同深度范围域的图片）时预测结果的精度。

在本申请一可选的实施例中，对每个样本图片而言，通过使用步骤a1的计算公式，也可以根据样本图片的最小深度值和最大深度值，确定样本图片属于的深度范围域，此处样本图片所属于的深度范围域对应后文中第一损失函数中的。

步骤b：将每个样本图片的样本内参和预设参数对样本图片进行初步处理，得到一个统一视场角且统一大小的待输入样本图片，并将待输入样本图片输入神经网络编码器，得到第一样本特征图和神经网络编码器每个阶层输出的样本特征信息；将第一样本特征图和多个预存嵌入特征向量输入多尺度场景信息提取器，得到学习过多尺度信息的第二样本特征图和多个样本特征向量。

本实施例中，得到统一视场角且统一大小的待输入样本图片的方式和上述实施例中得到统一视场角且统一大小的待输入图片的原理类似，故本实施例此处不再赘述。

本实施例中，神经网络编码器能基于滑动窗口的注意力机制提取待输入样本图片中的图片特征和结构信息，根据这些图片特征及结构信息，能得到第一样本特征图和样本特征信息。神经网络编码器可以包括多个阶层，每个阶层会输出一个尺度的样本特征信息，最后一个阶层输出的样本特征信息为第一样本特征图。

本实施例中，多尺度场景信息提取器指的是提取图像多尺度特征的一种方法，多尺度场景信息提取器能将神经网络解码器输出的特征图通过三个并行的不同尺度转换器结构得到新的特征图。例如：多尺度场景信息提取器的结构可采用DANet神经网络模型的结构，其中DANet神经网络模型的输入参数为特征向量，输出为学习过多尺度信息的特征向量。

步骤c：将样本特征信息和第二样本特征图输入神经网络解码器，得到一个待细化样本深度图，其中待细化样本深度图对应神经网络解码器中的一个阶层的输出尺度。

本实施例中，步骤b中的神经网络编码器从第一个阶层到最后一个阶层输出的多个样本特征信息，依次与第二样本特征图一起输入神经网络解码器，每次输入都会得到一个待细化深度图，每个待细化深度图对应一个阶层的输出尺度，该输出尺度指的是该阶层输出的深度图的图片的宽和高。

步骤d：根据多个样本特征向量中的一个特征向量、度量深度图真值、每个样本图片的深度范围域和预设第一损失方式对场景分类器进行训练，得到样本分类概率，并将多个样本特征向量中的其它样本特征向量输入域感知尺度估计器，得到多个中间度量尺度。

本实施例中，假设样本特征向量的数量为U+1个，对应的预存嵌入特征向量的数量则为U+1个。将U+1个预存嵌入特征向量和第一样本特征图输入多尺度场景信息提取器，能得到新的学习过多尺度的第二样本特征图和U+1个样本特征向量。则输入域感知尺度估计器的样本特征向量为U个，另外一个样本特征向量则输入场景分类器中，该个样本特征向量的维度值也可以是U。

本实施例中，域感知尺度估计器可以是三层二维卷积构成，其输入为特征向量，输出为与输入的样本特征向量数量相同的深度分箱，再将深度分箱线性结合即可得与输入的样本特征向量数量相同的中间度量尺度。

在本申请一可选的实施例中，步骤d中将多个特征向量中的其它特征向量输入域感知尺度估计器，得到多个中间度量尺度，的计算公式为：

式中，为每个特征向量输入域感知尺度估计器后得到的一个深度分箱中第n维的数值，其中特征向量的长度为1*n，每一维上都有一个对应的数值，/>为一个度量尺度第n维的数值，/>为深度分箱中第j维的数值，其中j小于n，/>为一个0至1之间的预设数值。

本实施例中，假设输入域感知尺度估计器的样本特征向量为K个，每个特征向量的维度值为256，对应一个度量尺度，则每一维上都有一个对应的数值，第n维的数值则为，该度量尺度第n维的数值则为/>，/>可以是一个人为设定的数值例如0.001或0.01，该预设数值是为了保证度量尺度的每一维的数值均为正值而人为设定的。

在本申请一可选的实施例中，步骤d中根据多个样本特征向量中的一个特征向量、度量深度图真值、每个样本图片的深度范围域和预设第一损失方式对场景分类器进行训练，得到样本分类概率，的计算公式为：

式中，Q为一个特征向量的纬度值，为样本图片属于第i个深度范围域的样本分类概率值，/>为一个特征向量第i维度的值。

本实施例中，场景分类器可以是三层二维卷积的结构，当场景分类器的输入为1个特征向量时，输出为一个用于表达分类概率的特征向量，该用于表达分类概率的特征向量为Q维向量，本实施例中，U=K=Q。具体的，当1个特征向量输入三层二维卷积结构后，得到用于表达输入图片分属于K个场景的分类概率的向量，再将向量/>通过归一化函数Softmax计算得到输入的样本图片分别属于K个场景的概率值为分类概率，并将分类概率输出。

本实施例中，为了提高训练精度，需要在步骤d中根据多个样本特征向量中的一个特征向量、度量深度图真值和预设第一损失方式对场景分类器进行训练时，添加损失。

在本申请一可选的实施例中，预设第一损失方式的损失函数为：

式中，为样本图片属于第i个深度范围域的样本分类概率值，/>为样本图片属于第i个深度范围域的概率的真值，/>为交叉熵损失，K为深度范围域的总数。

本实施例中，样本图片属于第i个场景的概率的真值可以是包含在每个样本图片的度量深度图真值中的信息。

在本申请一可选的实施例中，第一损失函数是对进行约束，根据样本分类概率的公式中，/>中的i是处于[1,Q]的一个值，这里对于p_i进行约束时i也应该是一个[1,Q]的数值。根据模型的处理过程来说，在计算样本分类概率前特征向量的维度为Q，此时对分类概率计算损失时，第一损失方式的损失函数中的K也可以是U。

步骤e：根据多个中间度量尺度、样本分类概率、度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度。

确定一个目标样本度量尺度的过程可以是将多个中间度量尺度和样本分类概率分布相乘后再求和得到。

在本申请一可选的实施例中，步骤e中根据多个中间度量尺度、样本分类概率、度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度，的计算公式为：

本实施例中，通过将多个中间度量尺度同相应样本分类概率相乘的方式，避免样本处于两个深度范围值域之间的决策边缘情况。通过这样的方式能够提升度量深度估计模型进行场景切换时的预测结果的精度。

在本申请一可选的实施例中，第二损失方式的损失函数为：

式中，为双向倒角损失，/>为目标样本度量尺度，GT为样本图片的度量深度图真值，d为度量深度图真值中每个像素点的深度值，/>为度量尺度第n维的数值。

步骤f：依次根据每个待细化深度图、目标样本度量尺度、度量深度图真值、预设第三损失方式和预设第四损失方式对深度细化模块进行训练，直至得到神经网络解码器的最后一个阶层输出的样本预测深度图。

本实施例中，由于神经网络解码器有多个阶层，每个阶层会输出一种度量尺度的深度图，因此每得到一个阶层的深度图，都可以添加损失的方式进行监察。

在本申请一可选的实施例中，步骤f中将样本特征信息和第二样本特征图输入神经网络解码器，得到一个待细化样本深度图，的计算公式为：

式中，为神经网络解码器中的第s个阶层输出的解码层样本特征信息，c为训练度量尺度，/>为神经网络输入图片宽度，/>为神经网络输入图片高度，/>为全体实数空间，为神经网络解码器中的第s个阶层输出的深度图。

为便于理解，举例说明，例如神经网络解码器第一阶层的输出记为，训练度量尺度（或度量深度分箱）为/>。首先，通过一个3×3的卷积核将/>的通道数调整为256。接着将/>通过Softmax函数后与/>进行点积操作得到神经网络解码器第一层的预测深度图/>。记神经网络解码器第/>阶层的输出为：

同样地记度量深度分箱为。首先，将上一个预测深度图/>放大至和第/>层的输出一样的大小。接着，将放大后的/>和/>拼接后送入通用的残差卷积模块得到/>，通用的残差卷积模块与基于Transformer的图像分割模型SARPN的一致。然后，通过3×3的卷积核将/>的通道数调整为/>。最后，将/>通过Softmax函数后与/>进行点积操作得到神经网络解码器第/>层的深度图/>

记神经网络解码器第4阶层的输出为，记度量深度分箱为/>。首先，将放大至/>后通过一个3×3的卷积核。接着，将深度图/>放大到/>。同样地，将放大后的/>和/>拼接后送入通用的残差卷积模块得到/>。然后，通过3×3的卷积核将/>的通道数调整为256，再将/>通过Softmax函数后与/>进行点积操作得到神经网络解码器第5阶层的预测深度图/>。依次类推，直至得到神经网络解码器的最后一个阶层输出的预测深度图。

本实施例中，上述过程中，得到每一个阶层输出的预测深度图的过程中需要使用预设第三损失方式和预设第四损失方式进行训练。

在本申请一可选的实施例中，预设第三损失方式的损失函数为：

式中，为超参数，T为样本图片中有效的像素数量，GT为度量深度图真值，D为深度图，/>为尺度无关对数损失。

预设第四损失方式的损失函数为：

式中，

， />为超参数，T为样本图片中有效的像素数量，M为梯度损失采用的尺度数量，GT为度量深度图真值，/>为样本图片中第/>个像素的/>坐标值，/>表示样本图片中第/>个像素的/>坐标值，/>为深度图，/>为多尺度梯度损失。

上述过程中，得到每一个阶层输出的预测深度图的过程中需要使用预设第三损失方式和预设第四损失方式进行训练。

由上述过程可知，神经网络解码器每输出一次预测深度图后，会将这次预测深度图作为下一次神经网络解码器输入预测深度图前的参数调整依据。这个过程可通过设计一个深度细化模块完成，深度细化模块能用于预测并细化多尺度下的深度图。其输入为神经网络解码器的各个阶层的输出结果和目标样本度量尺度，输出为经过细化的深度预测图。

步骤g：根据度量深度图真值和预设第五损失方式对神经网络解码器的最后一个阶层输出的样本预测深度图进行训练，得到目标样本深度图。

本实施例中，样本预测深度图经过训练后可提高输入样本图片后得到的结果的准确度。

在本申请一可选的实施例中，预设第五损失方式，的损失函数为：

步骤h：当检测到目标样本深度图与度量深度图真值之间的差值小于预设阈值或达到预设训练次数，则最后一次训练后的视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块确定为预训练度量深度估计模型。

本实施例中，度量深度图真值可以是在拍摄样本图片时通过人工标注的方法得到的结果。预设阈值可以是人为设定的结果偏差数值的下限值，预设训练次数可以是工作人员根据样本图片的数量和场景种类设定的一个数值。

整个训练过程中，通过添加不同的损失，达到提升整个预训练度量深度估计模型的逐像素精度、整体场景尺度准确度和三维结果合理性的目的。综上，总的损失函数可表示为：

至此，本实施例中关于预训练度量深度估计模型的训练过程已阐述完毕，使用训练好的预训练度量深度估计模型即可将步骤S201获取的单目图片进行度量深度估计，具体步骤如下：

S203：将第一特征图和多个预存嵌入特征向量输入多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量。

本实施例中，第一特征图为样本图片输入网络神经编码器得到的，多尺度场景信息提取器输出学习过多尺度信息的第二特征图和多个特征向量的过程与上述实施例中步骤中得到学习过多尺度信息的第二样本特征图和多个样本特征向量的原理类似，故本实施例此处不再赘述。

S204：将特征信息和第二特征图输入神经网络解码器，得到一个待细化深度图，其中待细化深度图对应神经网络解码器中的一个阶层的输出尺度。

本实施例中，得到待细化深度图和上述实施例的步骤c中的得到待细化样本深度图的原理类似，故本实施例此处不再赘述。

S205：将多个特征向量中的一个特征向量输入场景分类器，得到分类概率，并将多个特征向量中的其它特征向量输入域感知尺度估计器，得到多个中间度量尺度。

本实施例中，得到分类概率和得到多个中间度量尺度的原理与上述实施例中的步骤d中得到样本分类概率和样本中间度量尺度的原理类型，不同之处在于本实施例中得到分类概率时没有使用预设第一损失方式添加损失。

S206：根据多个中间度量尺度和分类概率，确定一个目标度量尺度。

本实施例中，确定目标度量尺度的过程与上述实施例的步骤e中确定目标样本度量尺度的原理类似，故本实施例此处不再赘述。不同之处在于，本实施例中确定目标度量尺度时没有使用预设第二损失方式添加损失。

S207：依次将每个待细化深度图和目标度量尺度输入深度细化模块，直至得到神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图。

本实施例中，深度细化模块的工作原理与上述实施例中步骤f中的深度细化模块的工作原理类似，故本实施例此处不再赘述。

本实施例中，预存深度图为预训练度量深度估计模型输出的结果，为了得到和步骤S201获取的单目图片相同分辨率的深度图，此时还需对预存深度图进行放大处理，因为只有在相同分辨率的条件下，深度图每个像素的深度值才能最准确的表示该单目图片相同像素的深度。经过放大处理后得到的深度图为目标深度图，即为整个跨相机单目图片度量深度估计方法的结果。

图4为本申请实施例提供的跨相机单目图片度量深度估计方法对室内场景下的单目图片进行度量深度估计的效果示意图。如图4所示，图4中从左至右的三列图片依次为输入图片、深度预测图和预测深度分布图。

图5为本申请实施例提供的跨相机单目图片度量深度估计方法对室外场景下的单目图片进行度量深度估计的效果示意图。如图5所示，图5中从左至右的三列图片依次为输入图片、深度预测图和预测深度分布图。

以上述实施例为基础结合图4和图5的内容可知，本实施例提供的跨相机单目图片度量深度估计方法能在不同图片拍摄设备的配置和不同场景下，能得到更精准的度量深度估计结果。

综上，本申请实施例提供的跨相机单目图片度量深度估计方法，先通过预训练度量深度估计模型的视场角对齐模块将获取的单目图片变为统一视场角且统一大小的待输入图片，这样能避免因不同图片拍摄设备的配置带来的学习歧义，进而解决现有技术中度量深度估计算法模型在进行跨相机单目图片度量深度估计时由于新的相机类型引起的结果误差。再通过神经网络编码器提取包含特征信息和结构信息的第一特征图和每个阶层输出的特征信息，提高全局注意力的高性能和卷积方法的效率。然后再通过多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量。再通过域感知尺度估计器和场景分类器学习不同深度范围域的度量尺度，以得到一个唯一的目标度量尺度，使整个方法能泛化到多种场景并且提高深度估计模型在不同场景的准确度一致性。最后通过深度细化模块在多个尺度上细化深度图，并将神经网络解码器最后一个阶层输出的预测深度图进行放大处理，得到目标深度图作为结果。达到了在不同单目图片拍摄设备的配置和不同场景下，得到更精准的度量深度估计结果的目的。

以上述实施例为基础，在本申请一可选的实施例中提供的跨相机单目图片度量深度估计方法，还包括：

S208：根据目标深度图，确定预测深度分布图。

本实施例中，预存深度分布图可以是根据模型输出的结果统计得到的信息并进行图像可视化后得到的示意图。

综上，本实施例提供的跨相机单目图片度量深度估计方法，还通过根据目标深度图，确定预测深度分布图，使预测深度分布结果更直观，便于工作人员查看度量深度估计结果。

图6为本申请实施例提供的跨相机单目图片度量深度估计装置的结构示意图一，该装置包括：获取模块61、第一神经网络处理模块62、多尺度处理模块63、第二神经网络处理模块64、度量尺度生成模块65和目标输出模块66。

获取模块61，用于获取单目图片和预训练度量深度估计模型，其中预训练度量深度估计模型包括视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块。

第一神经网络处理模块62，用于将单目图片输入视场角对齐模块，得到统一视场角且统一大小的待输入图片，并将待输入图片输入神经网络编码器，得到第一特征图和神经网络编码器每个阶层输出的特征信息。

多尺度处理模块63，用于将第一特征图和多个预存嵌入特征向量输入多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量。

第二神经网络处理模块64，还用于将特征信息和第二特征图输入神经网络解码器，得到一个待细化深度图，其中待细化深度图对应神经网络解码器中的一个阶层的输出尺度。

度量尺度生成模块65，用于将多个特征向量中的一个特征向量输入场景分类器，得到分类概率，并将多个特征向量中的其它特征向量输入域感知尺度估计器，得到多个中间度量尺度。

度量尺度生成模块65，还用于根据多个中间度量尺度和分类概率，确定一个目标度量尺度。

目标输出模块66，用于依次将每个待细化深度图和目标度量尺度输入深度细化模块，直至得到神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图。

在本申请一可选的实施例中，第一神经网络处理模块62，具体用于：根据单目图片，确定单目图片的内参、第一宽度和第一高度；根据单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度；根据第二宽度和第二高度对单目图片进行裁剪和拼接处理，得到统一视场角图片；将统一视场角图片进行缩放处理，得到统一视场角且统一大小的待输入图片。

在本申请一可选的实施例中，第一神经网络处理模块62，用于根据单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度，的计算公式为：

图7为本申请实施例提供的跨相机单目图片度量深度估计装置的结构示意图二，如图7所示，在本申请一可选的实施例中，该装置还包括：模型训练模块67，用于获取预训练度量深度估计模型时，具体用于：将预设深度范围划分为多个深度范围域，其中每个深度范围域对应一个场景类别，并根据场景类别获取训练集，训练集包括多个样本单目图像、每个样本图片的样本内参和每个样本图片的度量深度图真值；将每个样本图片的样本内参和预设参数对样本图片进行初步处理，得到一个统一视场角且统一大小的待输入样本图片，并将待输入样本图片输入神经网络编码器，得到第一样本特征图和神经网络编码器每个阶层输出的样本特征信息；将第一样本特征图和多个预存嵌入特征向量输入多尺度场景信息提取器，得到学习过多尺度信息的第二样本特征图和多个样本特征向量；将样本特征信息和第二样本特征图输入神经网络解码器，得到一个待细化样本深度图，其中待细化样本深度图对应神经网络解码器中的一个阶层的输出尺度；根据多个样本特征向量中的一个特征向量、度量深度图真值和预设第一损失方式对场景分类器进行训练，得到样本分类概率，并将多个特征向量中的其它特征向量输入域感知尺度估计器，得到多个中间度量尺度；根据多个中间度量尺度、样本分类概率、度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度；依次根据每个待细化深度图、目标样本度量尺度、度量深度图真值、预设第三损失方式和预设第四损失方式对深度细化模块进行训练，直至得到神经网络解码器的最后一个阶层输出的预测深度图；根据度量深度图真值和预设第五损失方式对神经网络解码器的最后一个阶层输出的预测深度图进行训练，得到目标样本深度图；当检测到目标样本深度图与度量深度图真值之间的差值小于预设阈值，则最后一次训练后的视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块确定为预训练度量深度估计模型。

在本申请一可选的实施例中，模型训练模块67，还具体用于：根据预设深度范围，确定预设深度范围的最小深度值和最大深度值之间的多个深度范围域。

在本申请一可选的实施例中，模型训练模块67，还具体用于根据

根据预设深度范围，确定预设深度范围的最小深度值和最大深度值之间的多个深度范围域，的计算公式为：

在本申请一可选的实施例中，模型训练模块67，还具体用于将多个特征向量中的其它特征向量输入域感知尺度估计器，得到多个中间度量尺度，的计算公式为：

根据多个样本特征向量中的一个特征向量、度量深度图真值、每个样本图片所属的深度范围域和预设第一损失方式对场景分类器进行训练，得到样本分类概率，的计算公式为：

式中，Q为一个特征向量的维度值，为样本图片属于第i个深度范围域的样本分类概率值，/>为一个特征向量第i维度的值。

预设第一损失方式，的损失函数为：

用于根据多个中间度量尺度、样本分类概率、度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度，的计算公式为：

在本申请一可选的实施例中，模型训练模块6，还具体用于预设第二损失方式，的损失函数为：

在本申请一可选的实施例中，模型训练模块67，还具体用于将样本特征信息和第二样本特征图输入神经网络解码器，得到一个待细化样本深度图，的计算公式为：

在本申请一可选的实施例中，模型训练模块67，还具体用于：预设第三损失方式，的损失函数为：

预设第四损失方式，的损失函数为：

式中，，其中，/>为超参数，T为样本图片中有效的像素数量，M为梯度损失采用的尺度数量，GT为度量深度图真值，/>为样本图片中第/>个像素的/>坐标值，/>表示样本图片中第/>个像素的/>坐标值，D为深度图，/>为多尺度梯度损失；

预设第五损失方式，的损失函数为：

在本申请一可选的实施例中，目标输出模块，还用于：根据目标深度图，确定预测深度分布图。

本实施例提供的跨相机单目图片度量深度估计装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请实施例提供的跨相机单目图片度量深度估计设备的硬件结构示意图，如图8所示，该设备包括：至少一个处理器801以及存储器802。

其中，存储器802，用于存储计算机执行指令。

处理器801，用于执行存储器802存储的计算机执行指令，以实现上述方法实施例中所涉及的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选的，存储器802既可以是独立的，也可以跟处理器801集成在一起。

当存储器802独立设置时，该设备还包括总线803，用于连接存储器802和处理器801。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上的跨相机单目图片度量深度估计方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上的跨相机单目图片度量深度估计方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块组成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行本申请各个实施例的方法的部分步骤。

应理解，上述处理器可以是中央处理单元（Central Processing Unit，简称CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构（Industry Standard Architecture，简称ISA）总线、外部设备互连（Peripheral Component Interconnect，简称PCI）总线或扩展工业标准体系结构（Extended Industry Standard Architecture，简称EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种跨相机单目图片度量深度估计方法，其特征在于，包括：

将所述多个特征向量中的一个特征向量输入所述场景分类器，得到分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；所述域感知尺度估计器由三层二维卷积构成，其输入为特征向量，输出为与输入的特征向量数量相同的深度分箱，再将深度分箱线性结合得到与输入的特征向量数量相同的中间度量尺度；

依次将每个待细化深度图和所述目标度量尺度输入所述深度细化模块，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图；

所述将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度的计算公式为：式中，/>为每个特征向量输入所述域感知尺度估计器后得到的一个深度分箱中第n维的数值，其中所述特征向量的长度为1/>n，每一维上都有一个对应的数值，/>为一个度量尺度第n维的数值，/>为所述深度分箱中第j维的数值，其中j小于n，/>为一个0至1之间的预设数值。

2.根据权利要求1所述的方法，其特征在于，所述将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，包括：

根据所述单目图片，确定所述单目图片的内参、第一宽度和第一高度；

根据所述单目图片的内参、预设水平视场角、预设垂直视场角，确定统一视场角下的第二宽度和第二高度；

根据所述第二宽度和第二高度对所述单目图片进行裁剪和拼接处理，得到统一视场角图片；

将所述统一视场角图片进行缩放处理，得到统一视场角且统一大小的待输入图片。

3.根据权利要求2所述的方法，其特征在于，所述根据所述单目图片的内参、预设水平视场角、预设垂直视场角，确定统一视场角下的第二宽度和第二高度的计算公式为：式中，/>为统一视场角下的第二宽度，/>为统一视场角下的第二高度，/>，/>均为图片的内参，其中/>为所述单目图片的图片坐标系上的x方向上的焦距，为所述单目图片的图片坐标系上y方向上的焦距，/>为预设水平视场角，/>为预设垂直视场角。

4.根据权利要求1所述的方法，其特征在于，所述获取预训练度量深度估计模型，包括：

将预设深度范围划分为多个深度范围域，其中每个深度范围域对应一个场景类别；根据所述场景类别获取训练集，其中所述训练集包括多个样本单目图像、每个样本图片的样本内参和每个样本图片的度量深度图真值，并根据每个预设场景中的最小场景深度值和最大场景深度值，确定每个样本图片所属的深度范围域；

将所述每个样本图片的样本内参和预设参数对所述样本图片进行初步处理，得到一个统一视场角且统一大小的待输入样本图片，并将所述待输入样本图片输入所述神经网络编码器，得到第一样本特征图和所述神经网络编码器每个阶层输出的样本特征信息；将所述第一样本特征图和多个预存嵌入特征向量输入所述多尺度场景信息提取器，得到学习过多尺度信息的第二样本特征图和多个样本特征向量；

将所述样本特征信息和所述第二样本特征图输入所述神经网络解码器，得到一个待细化样本深度图，其中所述待细化样本深度图对应所述神经网络解码器中的一个阶层的输出尺度；

根据所述多个样本特征向量中的一个特征向量、所述度量深度图真值、每个样本图片所属的深度范围域和预设第一损失方式对所述场景分类器进行训练，得到样本分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；

根据所述多个中间度量尺度、所述样本分类概率、所述度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度；

依次根据每个待细化深度图、所述目标样本度量尺度、所述度量深度图真值、预设第三损失方式和预设第四损失方式对所述深度细化模块进行训练，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图；

根据所述度量深度图真值和预设第五损失方式对所述神经网络解码器的最后一个阶层输出的预测深度图进行训练，得到目标样本深度图；

当检测到所述目标样本深度图与所述度量深度图真值之间的差值小于预设阈值，则最后一次训练后的视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块确定为预训练度量深度估计模型。

5.根据权利要求4所述的方法，其特征在于，所述将预设深度范围划分为多个深度范围域，包括：

根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域。

6.根据权利要求5所述的方法，其特征在于，所述根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域的计算公式为：式中，/>为第i个深度范围域，其中i为大于0的自然数，/>为预设深度范围中的最小深度值，/>为预设深度范围中的最大深度值，K为深度范围域的数量，即K个深度范围域。

7.根据权利要求4所述的方法，其特征在于，

所述根据所述多个样本特征向量中的一个特征向量、所述度量深度图真值、每个样本图片所属的深度范围域和预设第一损失方式对所述场景分类器进行训练，得到样本分类概率的计算公式为：式中，Q为所述一个特征向量的维度值，/>为所述样本图片属于第i个深度范围域的样本分类概率值，/>为所述一个特征向量第i维度的值；

所述预设第一损失方式的损失函数为：式中，/>为所述样本图片属于第i个深度范围域的样本分类概率值，/>为所述样本图片属于第i个深度范围域的概率的真值，/>为交叉熵损失，K为深度范围域的总数；

所述根据所述多个中间度量尺度、所述样本分类概率、所述度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度的计算公式为：式中，/>为目标样本度量尺度、U为中间度量尺度的数量，/>为第i个中间度量尺度，/>为样本分类概率，其中i为1至U之间的任一自然数。

8.根据权利要求7所述的方法，其特征在于，所述预设第二损失方式的损失函数为：式中，/>为双向倒角损失，c为目标样本度量尺度，GT为所述样本图片的度量深度图真值，d为度量深度图真值中每个像素点的深度值，/>为度量尺度第n维的数值。

9.根据权利要求8所述的方法，其特征在于，所述将所述样本特征信息和所述第二样本特征图输入所述神经网络解码器，得到一个待细化样本深度图的计算公式为：式中，/>为所述神经网络解码器中的第s个阶层输出的解码层样本特征信息，c为训练度量尺度，/>为神经网络输入图片宽度，/>为神经网络输入图片高度，/>为全体实数空间，/>为神经网络解码器中的第s个阶层输出的深度图。

10.根据权利要求9所述的方法，其特征在于，所述预设第三损失方式的损失函数为：式中，/>为超参数，T为样本图片中有效的像素数量，GT为度量深度图真值，D为深度图，/>为尺度无关对数损失；

所述预设第四损失方式的损失函数为：式中，，其中/>为样本图片中第/>个像素的x坐标值，/>表示样本图片中第/>个像素的/>坐标值，/>为超参数，T为样本图片中有效的像素数量，M为梯度损失采用的尺度数量，GT为度量深度图真值，/>为深度图，/>为多尺度梯度损失；

所述第五损失方式的损失函数为：式中，V为虚拟平面的采样数量，/>为深度图D虚拟平面的第i条法线，/>为度量深度图真值GT虚拟平面的第i条法线，/>为虚拟平面法线损失。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述将预测深度图进行放大处理，得到目标深度图之后，还包括：

根据所述目标深度图，确定预测深度分布图。

12.一种跨相机单目图片度量深度估计装置，其特征在于，包括：

度量尺度生成模块，用于将所述多个特征向量中的一个特征向量输入所述场景分类器，得到分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；所述域感知尺度估计器由三层二维卷积构成，其输入为特征向量，输出为与输入的特征向量数量相同的深度分箱，再将深度分箱线性结合得到与输入的特征向量数量相同的中间度量尺度；

目标输出模块，用于依次将每个待细化深度图和所述目标度量尺度输入所述深度细化模块，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图；

所述度量尺度生成模块，用于将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度的计算公式为：式中，/>为每个特征向量输入所述域感知尺度估计器后得到的一个深度分箱中第n维的数值，其中所述特征向量的长度为1/>n，每一维上都有一个对应的数值，/>为一个度量尺度第n维的数值，为所述深度分箱中第j维的数值，其中j小于n，/>为一个0至1之间的预设数值。

13.一种跨相机单目图片度量深度估计设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至11任一项所述的跨相机单目图片度量深度估计方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至11任一项所述的跨相机单目图片度量深度估计方法。