CN114821228A

CN114821228A - 深度图像输出模型训练方法、深度图像获取方法及装置

Info

Publication number: CN114821228A
Application number: CN202210381423.7A
Authority: CN
Inventors: 王啸峰; 叶云; 黄冠
Original assignee: Beijing Jianzhi Technology Co ltd
Current assignee: Beijing Jianzhi Technology Co ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-29
Anticipated expiration: 2042-04-12
Also published as: CN114821228B

Abstract

本申请提供了一种深度图像输出模型训练方法、深度图像获取方法及装置。所述方法包括：获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征；调用深度特征提取网络层对二维图像特征进行特征提取，得到与深度估计关联的二维预测深度特征；调用极线Transformer网络层根据二维预测深度特征对三维代价体特征进行融合处理，生成三维融合代价体特征；基于二维预测深度特征和三维融合代价体特征，计算深度图像输出模型的损失值；在损失值处于预设范围内的情况下，将训练后的不包含深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。本申请可以提高深度图像的输出效率，及模型输出深度图像的精度。

Description

深度图像输出模型训练方法、深度图像获取方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种深度图像输出模型训练方法、深度图像获取方法、装置、电子设备及存储介质。

背景技术

MVS(多目立体几何)是将多幅图像(拍摄同一个场景或物体)和相机的内外参数作为输入，其中多幅图像中一幅图像为参考图像以及多幅源图像，最终得到参考图像的深度图像以及场景的3D(Three Dimensions，三维)重建点云。

为了达到上述效果，现有的基于网络学习(learning-based)的方法主要包括以下步骤：

1、特征提取：将参考图像和多幅源图像分别输入模型中的神经网络(2DCNNblock，2D神经网络层)，得到2D的图像特征；

2、可微分的单应性变换：利用相机的内参和外参将多张源图像特征投影到参考相机视角下，经过投影操作之后，可以将源图像的2D特征变成了参考图像视角下的3D特征(即代价体特征)；

3、代价体的特征提取：将不同源图像得到的代价体特征融合在一起得到一个总的3D代价体特征；经过融合之后的代价体特征，我们利用3DCNN进一步进行特征提取，此时代价体特征的尺寸为H，W，D。

4、深度图的提取：从上述步骤中提取的代价体特征中取第三个维度(深度维度)值最大的位置作为该像素的深度值。

在上述第3步骤中，进行代价体特征融合的方法通常是采用基于方差的融合方法或基于加权求和的融合方法，其中，基于方差的融合方法是取每个特征点位置的方差作为融合之后的值，基于加权求和的融合方法是利用额外的2DCNN(2D卷积)或者DCN(可变性卷积)学习出权重值，然后对不同代价体特征进行加权求和。

但是，基于方差的融合方法是即针对多个代价体特征取它们的方差值作为融合之后的特征，没有考虑到2D邻域以及3D空间信息，导致模型输出的深度图像的精度较低。而基于加权求和的融合方法由于引入了额外的网络模块，导致模型输出深度图像的速度较慢。

发明内容

本申请实施例提供一种深度图像输出模型训练方法、深度图像获取方法、装置、电子设备及存储介质，以解决相关技术中代价体特征的融合方法导致模型输出的深度图像的精度较低，或模型输出深度图像的速度较慢的问题。

为了解决上述技术问题，本申请实施例是这样实现的：

第一方面，本申请实施例提供了一种深度图像输出模型训练方法，所述深度图像输出模型包括：深度特征提取网络层和极线Transformer网络层，所述方法包括：

获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征；N为大于等于2的正整数，N幅所述样本源图像是与所述样本参考图像对应的图像；

调用所述深度特征提取网络层对所述二维图像特征进行特征提取，得到所述样本参考图像的与深度估计关联的二维预测深度特征；

调用所述极线Transformer网络层根据所述二维预测深度特征对所述三维代价体特征进行融合处理，生成所述样本源图像对应的三维融合代价体特征；

基于所述二维预测深度特征和所述三维融合代价体特征，计算得到所述深度图像输出模型的损失值；

在所述损失值处于预设范围内的情况下，将训练后的不包含所述深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。

可选地，所述深度图像输出模型包括：特征提取层和特征转换层，

所述获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征，包括：

将所述样本参考图像和N幅所述样本源图像输入至所述深度图像输出模型；

调用所述特征提取层，提取所述样本参考图像的二维图像特征，及N幅所述样本源图像的二维样本图像特征；

调用所述特征转换层，基于可微分单应性变换矩阵和所述二维图像特征，将所述二维样本图像特征转换为样本参考图像视角下的三维代价体特征。

可选地，所述调用所述特征转换层，基于可微分单应性变换矩阵和所述二维图像特征，将所述二维样本图像特征转换为样本参考图像视角下的三维代价体特征，包括：

调用所述特征转换层，利用所述样本参考图像对应的相机参数、所述样本源图像对应的相机参数，将所述二维样本图像特征投影至所述样本参考图像视角下，得到所述样本源图像在所述样本参考图像视角下的三维代价体特征。

可选地，所述调用所述极线Transformer网络层根据所述二维预测深度特征对所述三维代价体特征进行融合处理，生成所述样本源图像对应的三维融合代价体特征，包括：

将所述三维代价体特征和二维预测深度特征输入至所述极线Transformer网络层；

根据所述二维预测深度特征在所述样本参考图像上的位置，将所述二维预测深度特征投影至所述样本源图像上，得到所述三维代价体特征在深度方向上的特征权重；

基于组间关系构建方法，构建得到不同所述样本源图像的三维代价体特征之间的代价体特征关联参数；

基于所述二维预测深度特征、所述特征权重和所述代价体特征关联参数，对所述三维代价体特征进行融合处理，得到所述三维融合代价体特征。

可选地，所述样本参考图像对应于真实深度特征，所述样本源图像标注有融合代价体特征的真实位置和真实概率值，所述三维融合代价体特征包括：预测概率值和预测位置，

所述基于所述二维预测深度特征和所述三维融合代价体特征，计算得到所述深度图像输出模型的损失值，包括：

基于所述二维预测深度特征和所述真实深度特征，计算得到所述深度特征提取网络层的第一损失值；

基于所述预测概率值、预测位置、真实概率值和真实位置，计算得到所述极线Transformer网络层的第二损失值；

根据所述第一损失值、所述第一损失值对应的权重、所述第二损失值和所述第二损失值对应的权重，计算得到所述深度图像输出模型的损失值。

第二方面，本申请实施例提供了一种深度图像获取方法，包括：

获取参考图像和M幅源图像；M为大于等于2的正整数，M幅所述源图像是与所述参考图像对应的图像；

将所述参考图像和M幅所述源图像输入至目标深度图像输出模型；所述目标深度图像输出模型包括：极线Transformer网络层和深度图预测网络层；

调用所述极线Transformer网络层根据所述参考图像的二维图像特征对M幅所述源图像的三维代价体特征进行融合处理，得到M幅所述源图像对应的三维融合代价体特征；

调用所述深度图预测网络层对所述三维融合代价体特征进行处理，得到所述参考图像的深度图像。

第三方面，本申请实施例提供了一种深度图像输出模型训练装置，所述深度图像输出模型包括：深度特征提取网络层和极线Transformer网络层，所述装置包括：

代价体特征获取模块，用于获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征；N为大于等于2的正整数，N幅所述样本源图像是与所述样本参考图像对应的图像；

预测深度特征获取模块，用于调用所述深度特征提取网络层对所述二维图像特征进行特征提取，得到所述样本参考图像的与深度估计关联的二维预测深度特征；

融合代价体特征生成模块，用于调用所述极线Transformer网络层根据所述二维预测深度特征对所述三维代价体特征进行融合处理，生成所述样本源图像对应的三维融合代价体特征；

损失值计算模块，用于基于所述二维预测深度特征和所述三维融合代价体特征，计算得到所述深度图像输出模型的损失值；

深度图像输出模型获取模块，用于在所述损失值处于预设范围内的情况下，将训练后的不包含所述深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。

所述代价体特征获取模块包括：

样本图像输入单元，用于将所述样本参考图像和N幅所述样本源图像输入至所述深度图像输出模型；

二维特征提取单元，用于调用所述特征提取层，提取所述样本参考图像的二维图像特征，及N幅所述样本源图像的二维样本图像特征；

代价体特征转换单元，用于调用所述特征转换层，基于可微分单应性变换矩阵和所述二维图像特征，将所述二维样本图像特征转换为样本参考图像视角下的三维代价体特征。

可选地，所述代价体特征转换单元包括：

代价体特征获取子单元，用于调用所述特征转换层，利用所述样本参考图像对应的相机参数、所述样本源图像对应的相机参数，将所述二维样本图像特征投影至所述样本参考图像视角下，得到所述样本源图像在所述样本参考图像视角下的三维代价体特征。

可选地，所述融合代价体特征生成模块包括：

代价体特征输入单元，用于将所述三维代价体特征和二维预测深度特征输入至所述极线Transformer网络层；

特征权重获取单元，用于根据所述二维预测深度特征在所述样本参考图像上的位置，将所述二维预测深度特征投影至所述样本源图像上，得到所述三维代价体特征在深度方向上的特征权重；

特征关联参数构建单元，用于基于组间关系构建方法，构建得到不同所述样本源图像的三维代价体特征之间的代价体特征关联参数；

融合代价体特征获取单元，用于基于所述二维预测深度特征、所述特征权重和所述代价体特征关联参数，对所述三维代价体特征进行融合处理，得到所述三维融合代价体特征。

所述损失值计算模块包括：

第一损失值计算单元，用于基于所述二维预测深度特征和所述真实深度特征，计算得到所述深度特征提取网络层的第一损失值；

第二损失值计算单元，用于基于所述预测概率值、所述预测位置、所述真实概率值和所述真实位置，计算得到所述极线Transformer网络层的第二损失值；

损失值计算单元，用于根据所述第一损失值、所述第一损失值对应的权重、所述第二损失值和所述第二损失值对应的权重，计算得到所述深度图像输出模型的损失值。

第四方面，本申请实施例提供了一种深度图像预测装置，包括：

参考图像获取模块，用于获取参考图像和M幅源图像；M为大于等于2的正整数，M幅所述源图像是与所述参考图像对应的图像；

参考图像输入模块，用于将所述参考图像和M幅所述源图像输入至目标深度图像输出模型；所述目标深度图像输出模型包括：极线Transformer网络层和深度图预测网络层；

融合特征获取模块，用于调用所述极线Transformer网络层根据所述参考图像的二维图像特征对M幅所述源图像的三维代价体特征进行融合处理，得到M幅所述源图像对应的三维融合代价体特征；

深度图像获取模块，用于调用所述深度图预测网络层对所述三维融合代价体特征进行处理，得到所述参考图像的深度图像。

第五方面，本申请实施例提供了一种电子设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的深度图像输出模型训练方法，或上述深度图像获取方法。

第六方面，本申请实施例提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的深度图像输出模型训练方法，或上述深度图像获取方法。

在本申请实施例中，通过获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征，N为大于等于2的正整数，N幅样本源图像是与样本参考图像对应的图像。调用深度特征提取网络层对二维图像特征进行特征提取，得到样本参考图像的与深度估计关联的二维预测深度特征。调用极线Transformer网络层根据二维预测深度特征对三维代价体特征进行融合处理，生成样本源图像对应的三维融合代价体特征。基于二维预测深度特征和三维融合代价体特征，计算得到深度图像输出模型的损失值，在损失值处于预设范围内的情况下，将训练后的不包含深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。本申请实施例利用深度特征提取网络层提取进行深度估计的图像特征，并由极线Transformer网络层根据该进行深度估计的图像特征对三维代价体特征进行融合，从而可以提高训练完成的模型输出深度图像的精度。同时，深度特征提取网络层仅在训练阶段使用，也并未引入额外的融合代价体特征的网络层，相较于引入DCN(可变性卷积)或者2D CNN进行代价体特征融合的方法，可以提高模型输出深度图像的速度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种深度图像输出模型训练方法的步骤流程图；

图2为本申请实施例提供的一种三维代价体特征获取方法的步骤流程图；

图3为本申请实施例提供的一种融合代价体特征生成方法的步骤流程图；

图4为本申请实施例提供的一种损失值计算方法的步骤流程图；

图5为本申请实施例提供的一种深度图像输出模型的示意图；

图6为本申请实施例提供的一种深度图像获取方法的步骤流程图；

图7为本申请实施例提供的一种深度图像输出模型训练装置的结构示意图；

图8为本申请实施例提供的一种深度图像获取装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请实施例提供的一种深度图像输出模型训练方法的步骤流程图，所述深度图像输出模型包括：深度特征提取网络层和极线Transformer网络层，如图1所示，该深度图像输出模型训练方法可以包括以下步骤：

步骤101：获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征。

本申请实施例可以应用于结合二维图像特征对三维代价体特征进行融合以训练深度图像输出模型的场景中。

样本参考图像和N幅(N为大于等于2的正整数)样本源图像是对应的，具体地，样本参考图像和N幅样本源图像是针对相同的拍摄对象拍摄得到的，如样本参考图像和N幅样本源图像所拍摄的为同一街道上同一建筑物等。

本示例中，在进行深度图像输出模型的训练时，可以获取多幅样本参考图像，且每幅样本参考图像均与N幅样本源图像相对应，当然，每幅样本参考图像对应的样本源图像的数量可以是相同的，也可以是不相同的，例如，样本参考图像的数量为3幅，分别为：参考图像1、参考图像2和参考图像3，其中，参考图像1对应的样本源图像为：源图像1和源图像2，参考图像2对应的样本源图像为：源图像4、源图像5、源图像6和源图像7，参考图像3对应的样本源图像为：源图像8和源图像9等。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

二维图像特征是指从样本参考图像内提取的图像特征。

三维代价体特征是指将提取的样本源图像的二维特征转换为样本参考图像视角下的三维特征。

在进行深度图像输出模型的训练时，可以获取样本参考图像和样本参考图像对应的N幅样本源图像，并将样本参考图像和N幅样本源图像输入至深度图像输出模型，以通过深度图像输出模型的特征提取层提取样本参考图像的二维图像特征和样本源图像的二维特征，然后对样本源图像的二维特征进行转换，以得到样本源图像的三维代价体特征。

对于上述获取二维图像特征和三维代价体特征的过程可以结合图2进行如下详细描述。

参照图2，示出了本申请实施例提供的一种三维代价体特征获取方法的步骤流程图，如图2所示，该三维代价体特征获取方法可以包括：步骤201、步骤202和步骤203。

步骤201：将所述样本参考图像和N幅所述样本源图像输入至所述深度图像输出模型。

在本实施例中，深度图像输出模型可以包括：特征提取层和特征转换层，其中，特征提取层可以用于提取输入的图像中的图像特征，特征转换层可以用于将提取的二维图像特征转换为三维代价体特征。

在获取到样本参考图像和N幅样本源图像之后，可以将样本参考图像和N幅样本源图像输入至深度图像输出模型，如图5所示，在获取到样本参考图像和样本源图像之后，则可以将样本参考图像和样本源图像输入至模型，即图5所示Input Images(即输入图像)。

在将样本参考图像和N幅样本源图像输入至深度图像输出模型之后，执行步骤202。

步骤202：调用所述特征提取层，提取所述样本参考图像的二维图像特征，及N幅所述样本源图像的二维样本图像特征。

在将样本参考图像和N幅样本源图像输入至深度图像输出模型之后，可以调用特征提取层提取样本参考图像的二维图像特征，并调用特征提取层提取N幅样本源图像的二维样本图像特征，如图5所示，特征提取层为FPN(特征金字塔网络)，该FPN可以提取样本参考图像和样本源图像的多尺度的二维图像特征。

在具体实现中，提取的二维图像特征和二维样本图像特征均为多尺度的图像特征，例如，样本参考图像和样本源图像的原尺寸大小为800*800，在本示例中，可以提取样本参考图像和样本源图像的500*500、800*800、1000*1000等多个尺寸的图像特征，以分别作为二维图像特征和二维样本图像特征。

在调用特征提取层提取到样本参考图像的二维图像特征及N幅样本源图像的二维样本图像特征之后，执行步骤203。

步骤203：调用所述特征转换层，基于可微分单应性变换矩阵和所述二维图像特征，将所述二维样本图像特征转换为样本参考图像视角下的三维代价体特征。

在提取到样本参考图像的二维图像特征及N幅样本源图像的二维样本图像特征之后，可以调用特征转换层基于可微分单应性变换矩阵和样本参考图像的二维图像特征，将样本源图像的二维样本图像特征转换为样本参考图像视角下的三维图像特征，该三维图像特征即为样本源图像对应的三维代价体特征。在该过程中，可以利用样本参考图像对应的相机参数、样本源图像对应的相机参数，将二维样本图像特征投影至样本参考图像视角下，得到样本源图像在样本参考图像视角下的三维代价体特征，及利用相机的内参和外参将N幅样本源图像的图像特征投影到参考相机视角下，投影的公式如下述公式(1)所示：

P_si,j＝Ki*(R_0,i*(K₀ ^-1*Pr*d_j)+t_0,i) (1)

上述公式(1)中，P_si,j和Pr分别是第i个源图像(样本源图像)的二维样本图像特征以及参考图像(样本参考图像)的二维图像特征。K_i是第i个源图像对应的内参，K₀是参考图像对应的内参。R_0,i是参考图像到第i个源图像的外参旋转矩阵，t_0,i是参考图像到第i个源图像的外参平移矩阵。d_j是假设的第j个深度值。

在经过投影操作之后，可以将样本源图像的二维样本图像特征转换为参考图像视角下的3D特征(其中，第三个维度是假设的深度)，这个3D特征即为三维代价体特征。

在获取到样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征之后，执行步骤102。

步骤102：调用所述深度特征提取网络层对所述二维图像特征进行特征提取，得到所述样本参考图像的与深度估计关联的二维预测深度特征。

在本示例中，深度图像输出模型还可以包括：深度特征提取网络层，如图5所示，深度特征提取网络层即为图5所示Monocular Depth Estimator。

在获取到样本参考图像的二维图像特征之后，可以调用深度特征提取网络层对样本参考图像的二维图像特征进行特征提取，以提取出样本参考图像的与深度估计关联的二维预测深度特征。

该深度特征提取网络层只在训练阶段生效，可以视为一个辅助任务，该辅助任务可以引导深度图像输出模型提取与深度估计相关的图像特征，以得到更加鲁棒的二维图像特征，在模型进行预测时，该深度特征提取网络层可以去掉，并不会增加深度图像输出模型的运行速度。

可以理解地，深度特征提取网络层为现有的网络(如单目深度估计网络层等)，本实施例对于深度特征提取网络层的特征提取过程不再加以详细描述。

在调用深度特征提取网络层对二维图像特征进行特征提取，得到样本参考图像的与深度估计关联的二维预测深度特征之后，执行步骤103。

步骤103：调用所述极线Transformer网络层根据所述二维预测深度特征对所述三维代价体特征进行融合处理，生成所述样本源图像对应的三维融合代价体特征。

在本示例中，深度图像输出模型还可以包括极线Transformer网络层(即图5所示Epipolar Transformer)，该Epipolar Transformer可以学习图像的二维特征信息和三维特征信息，进行多个视角的代价体特征的融合。

在得到样本参考图像的与深度估计关联的二维预测深度特征之后，可以调用极线Transformer网络层根据二维预测深度特征对三维代价体特征进行融合处理，生成样本源图像对应的三维融合代价体特征。

在该过程中，可以在不引入额外的2DCNN(2D卷积)或者DCN(可变性卷积)的基础上即可实现二维特征和三维代价体特征的融合，能够得到更精确的融合效果，从而可以提高模型输出的深度图像的精度。

对于融合过程可以结合图3进行如下详细描述。

参照图3，示出了本申请实施例提供的一种三维融合代价体特征获取方法的步骤流程图，如图3所示，该三维融合代价体特征获取方法可以包括：步骤301、步骤302、步骤303和步骤304。

步骤301：将所述三维代价体特征和二维预测深度特征输入至所述极线Transformer网络层。

在本实施例中，在得到N幅样本源图像对应的三维代价体特征和样本参考图像的二维预测深度特征之后，可以将三维代价体特征和二维预测深度特征输入至极线Transformer网络层，进而，执行步骤302、步骤303和步骤304。

步骤302：根据所述二维预测深度特征在所述样本参考图像上的位置，将所述二维预测深度特征投影至所述样本源图像上，得到所述三维代价体特征在深度方向上的特征权重。

在将三维代价体特征和二维预测深度特征输入至极线Transformer网络层之后，可以通过极线Transformer网络层根据二维预测深度特征在样本参考图像上的位置，将二维预测深度特征投影至样本源图像上，以得到三维代价体特征在深度方向上的特征权重，即二维预测深度特征投影至不同的样本源图像上。然后将投影的二维预测深度特征与三维代价体特征在样本源图像上的位置进行匹配，根据匹配结果可以得到每幅样本源图像上不同三维代价体特征的特征权重。该特征权重即可以用于表示二维预测深度特征与三维代价体特征的距离关系。

步骤303：基于组间关系构建方法，构建得到不同所述样本源图像的三维代价体特征之间的代价体特征关联参数。

代价体特征关联参数可以用于表示N幅样本源图像的三维代价体特征之间的关联关系。

在将样本源图像的三维代价体特征输入至极线Transformer网络层之后，可以由极线Transformer网络层根据组间关系构建方法，构建得到不同样本源图像的三维代价体特征之间的关联关系，并将该关联关系用于一个指数表示，即得到代价体特征关联参数。

在实际应用中，组间关系构建方法可以采用group-correlation(即组间关系的构建)等现有的组间构建方法，对于构建不同样本源图像的三维代价体特征之间的代价体特征关联参数的过程，本实施例在此不再加以赘述。

步骤304：基于所述二维预测深度特征、所述特征权重和所述代价体特征关联参数，对所述三维代价体特征进行融合处理，得到所述三维融合代价体特征。

三维融合代价体特征是指将N幅样本源图像的三维代价体特征进行融合之后得到的一个融合特征。

在通过上述步骤得到三维代价体特征的特征权重、代价体特征关联参数之后，可以基于二维预测深度特征、特征权重和代价体特征关联参数对三维代价体特征进行融合处理，以得到融合后的三维融合代价体特征。

可以理解地，极线Transformer网络层尤其适合构建三维空间中的特征关系，在采用极线Transformer网络层构建三维代价体特征之间的特征关系时，需要使用QKV参数，其中，QKV分别为：query、key和value，在本示例中，可以将样本参考图像的二维预测深度特征作为query，将特征权重作为key，并将代价体特征关联参数作为value，在得到query、key和value之后，则可以利用Transform先用的技术进行特征融合，以得到一个融合后的三维融合代价体特征。

本申请实施例通过在模型训练过程中高效学习二维图像特征和三维图像特征并进行三维代价体特征的融合，在此过程中无需引入额外的网络层，可以在提高获取深度图像的精度的同时，提高模型运行速度。

在调用极线Transformer网络层根据二维预测深度特征对三维代价体特征进行融合处理，生成样本源图像对应的三维融合代价体特征之后，执行步骤104。

步骤104：基于所述二维预测深度特征和所述三维融合代价体特征，计算得到所述深度图像输出模型的损失值。

在融合得到三维融合代价体特征之后，可以基于二维预测深度特征和三维融合代价体特征计算得到深度图像输出模型的损失值，具体地，可以根据二维预设深度特征计算得到深度特征提取网络层的损失值，根据三维融合代价体特征计算得到极线Transformer网络层的损失值，通过这两个损失值可以计算得到深度图像深度模型的损失值。

对于损失值的计算过程可以结合图4进行如下详细描述。

参照图4，示出了本申请实施例提供的一种损失值计算方法的步骤流程图，如图4所示，该损失值计算方法可以包括：步骤401、步骤402和步骤403。

步骤401：基于所述二维预测深度特征和所述真实深度特征，计算得到所述深度特征提取网络层的第一损失值。

在本实施例中，在样本参考图像上标注有每个像素的真实深度特征，在样本源图像上标注有融合代价体特征的真实位置和真实概率值。

在通过深度特征提取网络层提取到样本参考图像的二维预测深度特征之后，可以结合二维预测深度特征和真实深度特征计算得到深度特征提取网络层的第一损失值，具体地，可以计算二维预测深度特征和真实深度特征的差值，并将该差值的绝对值作为第一损失值。

步骤402：基于所述预测概率值、预测位置、真实概率值和真实位置，计算得到所述极线Transformer网络层的第二损失值。

在本示例中，通过极线Transformer网络层输出N幅样本源图像的三维融合代价体特征之后，该三维融合代价体特征即包含了预测位置和预测概率值。

进而，可以结合预测概率值、预测位置、真实概率值和真实位置计算得到极线Transformer网络层的第二损失值。

步骤403：根据所述第一损失值、所述第一损失值对应的权重、所述第二损失值和所述第二损失值对应的权重，计算得到所述深度图像输出模型的损失值。

在得到深度特征提取网络层和极线Transformer网络层的损失值之后，可以将这两个损失值加权求和，以得到深度图像输出模型的损失值，即根据第一损失值、第一损失值对应的权重、第二损失值和第二损失值对应的权重，共同计算得到深度图像输出模型的损失值。

在基于二维预测深度特征和三维融合代价体特征计算得到深度图像输出模型的损失值之后，执行步骤105。

步骤105：在所述损失值处于预设范围内的情况下，将训练后的不包含所述深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。

在基于二维预测深度特征和三维融合代价体特征计算得到深度图像输出模型的损失值之后，可以判断该损失值是否处于预设范围内。

若该损失值未处于预设范围内，则可以结合损失值的大小调整深度图像输出模型的模型参数，并继续执行如上所述的模型训练过程，直至模型收敛。

若该损失值处于预设范围内，则表示模型已经收敛，此时，可以去掉训练过程中引入的深度特征提取网络层，将训练后的不包含深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。

本申请实施例提供的深度图像输出模型训练方法，通过获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征，N为大于等于2的正整数，N幅样本源图像是与样本参考图像对应的图像，调用深度特征提取网络层对二维图像特征进行特征提取，得到样本参考图像的与深度估计关联的二维预测深度特征。调用极线Transformer网络层根据二维预测深度特征对三维代价体特征进行融合处理，生成样本源图像对应的三维融合代价体特征。基于二维预测深度特征和三维融合代价体特征，计算得到深度图像输出模型的损失值。在损失值处于预设范围内的情况下，将训练后的不包含深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。本申请实施例利用深度特征提取网络层提取进行深度估计的图像特征，并由极线Transformer网络层根据该进行深度估计的图像特征对三维代价体特征进行融合，从而可以提高训练完成的模型输出深度图像的精度。同时，深度特征提取网络层仅在训练阶段使用，也并未引入额外的融合代价体特征的网络层，相较于引入DCN(可变性卷积)或者2D CNN进行代价体特征融合的方法，可以提高模型输出深度图像的速度。

参照图6，示出了本申请实施例提供的一种深度图像获取方法的步骤流程图，如图6所示，该深度图像获取方法可以包括以下步骤：

步骤601：获取参考图像和M幅源图像；M为大于等于2的正整数，M幅所述源图像是与所述参考图像对应的图像。

本申请实施例可以应用于结合目标深度图像输出模型预测参考图像的深度图像的场景中。

参考图像和M(M为大于等于2的正整数)幅源图像是对应的，具体地，参考图像和M幅源图像是针对相同的拍摄对象拍摄得到的，如参考图像和M幅源图像所拍摄的为同一街道上同一建筑物等。

在进行深度图像预测时，可以获取参考图像，并获取参考图像对应的M幅源图像，参考图像和M幅源图像共同作为目标深度图像输出模型的输入。

在获取到参考图像和M幅源图像之后，执行步骤602。

步骤602：将所述参考图像和M幅所述源图像输入至目标深度图像输出模型；所述目标深度图像输出模型包括：极线Transformer网络层和深度图预测网络层。

目标深度图像输出模型为通过上述实施例一的方案训练得到的用于进行深度图像预测的模型。

在获取到参考图像和M幅源图像之后，可以将参考图像和M幅源图像输入至目标深度图像输出模型，该目标深度图像输出模型可以包括：极线Transformer网络层和深度图预测网络层，该极线Transformer网络层可以学习图像的二维特征信息和三维特征信息，进行多个视角的代价体特征的融合。该深度图预测网络层可以对极线Transformer网络层输出的融合代价体特征进行处理，以生成参考图像对应的深度图像。

在将参考图像和M幅源图像输入至目标深度图像输出模型之后，执行步骤603。

步骤603：调用所述极线Transformer网络层根据所述参考图像的二维图像特征对M幅所述源图像的三维代价体特征进行融合处理，得到M幅所述源图像对应的三维融合代价体特征。

在将参考图像和M幅源图像输入至目标深度图像输出模型之后，可以调用极线Transformer网络层根据参考图像的二维图像特征对M幅源图像的三维代价体特征进行融合处理，得到M幅源图像对应的三维融合代价体特征，具体地，在调用极线Transformer网络层进行三维代价体特征的融合之前，还需要通过特征提取层提取参考图像和源图像的二维图像特征，并由特征转换层将源图像的二维图像特征转换为三维代价体特征，然后调用极线Transformer网络层对M幅源图像的三维代价体特征进行融合处理，生成M幅源图像对应的三维融合代价体特征。对于该过程可以参照上述实施例一的描述部分，本实施例在此不再加以赘述。

本实施例中通过极线Transformer网络层根据二维图像特征对三维代价体特征进行融合，可以提高训练完成的模型输出深度图像的精度，同时无需引入额外的融合网络，相较于现有技术中需要引入额外的融合网络的方式，可以提高模型的运行速度。

在得到M幅源图像对应的三维融合代价体特征之后，执行步骤604。

步骤604：调用所述深度图预测网络层对所述三维融合代价体特征进行处理，得到所述参考图像的深度图像。

在得到M幅源图像对应的三维融合代价体特征之后，可以由极线Transformer网络层将三维融合代价体特征传输给深度图预测网络层，该深度图预测网络层可以对三维融合代价体特征进行处理，以预测得到参考图像对应的深度图像。

本申请实施例提供的深度图像获取方法，通过获取参考图像和M幅源图像，M为大于等于2的正整数，M幅源图像是与所述参考图像对应的图像，将参考图像和M幅源图像输入至目标深度图像输出模型，目标深度图像输出模型包括：极线Transformer网络层和深度图预测网络层。调用极线Transformer网络层对M幅源图像的三维代价体特征和参考图像的二维图像特征进行融合处理，得到M幅源图像对应的三维融合代价体特征，调用深度图预测网络层对三维融合代价体特征进行处理，得到参考图像的深度图像。本申请实施例通过深度图像输出模型中的极线Transformer网络层根据二维图像特征对三维代价体特征进行融合，可以提高训练完成的模型输出深度图像的精度。同时无需引入额外的融合网络，相较于现有技术中需要引入额外的融合网络的方式，可以提高模型的运行速度。

参照图7，示出了本申请实施例提供的一种深度图像输出模型训练装置的结构示意图，所述深度图像输出模型包括：深度特征提取网络层和极线Transformer网络层，如图7所示，该深度图像输出模型700可以包括以下模块：

代价体特征获取模块710，用于获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征；N为大于等于2的正整数，N幅所述样本源图像是与所述样本参考图像对应的图像；

预测深度特征获取模块720，用于调用所述深度特征提取网络层对所述二维图像特征进行特征提取，得到所述样本参考图像的与深度估计关联的二维预测深度特征；

融合代价体特征生成模块730，用于调用所述极线Transformer网络层根据所述二维预测深度特征对所述三维代价体特征进行融合处理，生成所述样本源图像对应的三维融合代价体特征；

损失值计算模块740，用于基于所述二维预测深度特征和所述三维融合代价体特征，计算得到所述深度图像输出模型的损失值；

深度图像输出模型获取模块750，用于在所述损失值处于预设范围内的情况下，将训练后的不包含所述深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。

所述代价体特征获取模块包括：

可选地，所述代价体特征转换单元包括：

可选地，所述融合代价体特征生成模块包括：

所述损失值计算模块包括：

本申请实施例提供的深度图像输出模型训练装置，通过获取样本参考图像的二维图像特征和N幅样本源图像的三维代价体特征，N为大于等于2的正整数，N幅样本源图像是与样本参考图像对应的图像。调用深度特征提取网络层对二维图像特征进行特征提取，得到样本参考图像的与深度估计关联的二维预测深度特征。调用极线Transformer网络层根据二维预测深度特征对三维代价体特征进行融合处理，生成样本源图像对应的三维融合代价体特征。基于二维预测深度特征和三维融合代价体特征，计算得到深度图像输出模型的损失值，在损失值处于预设范围内的情况下，将训练后的不包含深度特征提取网络层的深度图像输出模型作为最终的目标深度图像输出模型。本申请实施例利用深度特征提取网络层提取进行深度估计的图像特征，并由极线Transformer网络层根据该进行深度估计的图像特征对三维代价体特征进行融合，从而可以提高训练完成的模型输出深度图像的精度。同时，深度特征提取网络层仅在训练阶段使用，也并未引入额外的融合代价体特征的网络层，相较于引入DCN(可变性卷积)或者2D CNN进行代价体特征融合的方法，可以提高模型输出深度图像的速度。

参照图8，示出了本申请实施例提供的一种深度图像获取装置的结构示意图，如图8所示，该深度图像获取装置800可以包括以下模块：

参考图像获取模块810，用于获取参考图像和M幅源图像；M为大于等于2的正整数，M幅所述源图像是与所述参考图像对应的图像；

参考图像输入模块820，用于将所述参考图像和M幅所述源图像输入至目标深度图像输出模型；所述目标深度图像输出模型包括：极线Transformer网络层和深度图预测网络层；

融合特征获取模块830，用于调用所述极线Transformer网络层根据所述参考图像的二维图像特征对M幅所述源图像的三维代价体特征进行融合处理，得到M幅所述源图像对应的三维融合代价体特征；

深度图像获取模块840，用于调用所述深度图预测网络层对所述三维融合代价体特征进行处理，得到所述参考图像的深度图像。

本申请实施例提供的深度图像获取装置，通过获取参考图像和M幅源图像，M为大于等于2的正整数，M幅源图像是与所述参考图像对应的图像，将参考图像和M幅源图像输入至目标深度图像输出模型，目标深度图像输出模型包括：极线Transformer网络层和深度图预测网络层。调用极线Transformer网络层对M幅源图像的三维代价体特征和参考图像的二维图像特征进行融合处理，得到M幅源图像对应的三维融合代价体特征。调用深度图预测网络层对三维融合代价体特征进行处理，得到参考图像的深度图像。本申请实施例通过深度图像输出模型中的极线Transformer网络层根据二维图像特征对三维代价体特征进行融合，可以提高训练完成的模型输出深度图像的精度。同时无需引入额外的融合网络，相较于现有技术中需要引入额外的融合网络的方式，可以提高模型的运行速度。

本申请实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述深度图像输出模型训练方法，或深度图像获取方法。

图9示出了本发明实施例的一种电子设备900的结构示意图。如图9所示，电子设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储电子设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标、麦克风等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，可由处理单元901执行。例如，上述任一实施例的方法可被实现为计算机软件程序，其被有形地包含于计算机可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序被加载到RAM903并由CPU901执行时，可以执行上文描述的方法中的一个或多个动作。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述深度图像输出模型训练方法或深度图像获取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

本领域普通技术人员可以意识到，结合本申请实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组间可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种深度图像输出模型训练方法，其特征在于，所述深度图像输出模型包括：深度特征提取网络层和极线Transformer网络层，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述深度图像输出模型包括：特征提取层和特征转换层，

3.根据权利要求2所述的方法，其特征在于，所述调用所述特征转换层，基于可微分单应性变换矩阵和所述二维图像特征，将所述二维样本图像特征转换为样本参考图像视角下的三维代价体特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述调用所述极线Transformer网络层根据所述二维预测深度特征对所述三维代价体特征进行融合处理，生成所述样本源图像对应的三维融合代价体特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述样本参考图像对应于真实深度特征，所述样本源图像标注有融合代价体特征的真实位置和真实概率值，所述三维融合代价体特征包括：预测概率值和预测位置，

6.一种深度图像获取方法，其特征在于，包括：

7.一种深度图像输出模型训练装置，其特征在于，所述深度图像输出模型包括：深度特征提取网络层和极线Transformer网络层，所述装置包括：

8.一种深度图像预测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现权利要求1至5中任一项所述的深度图像输出模型训练方法，或权利要求6所述的深度图像获取方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1至5中任一项所述的深度图像输出模型训练方法，或权利要求6所述的深度图像获取方法。