CN111753961B

CN111753961B - 模型训练方法和装置、预测方法和装置

Info

Publication number: CN111753961B
Application number: CN202010593221.XA
Authority: CN
Inventors: 宋希彬; 周定富; 方进; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-26
Filing date: 2020-06-26
Publication date: 2023-07-28
Anticipated expiration: 2040-06-26
Also published as: FR3112007A1; GB2596370B; US11841921B2; CN111753961A; GB202019743D0; GB2596370A; US20210406599A1

Abstract

本申请公开了模型训练方法和装置、预测方法和装置，涉及人工智能、深度学习、图像处理、自动驾驶领域。具体方案为：将样本图像中第一样本图像输入深度信息预测模型，得到第一样本图像的深度信息；基于样本图像中第二样本图像以及第一样本图像，得到图像间姿态信息；至少根据图像间姿态信息和深度信息，得到第一样本图像对应的投影图像；确定计算第二样本图像与投影图像的相似度的函数，得到损失函数，利用损失函数训练深度信息预测模型。

Description

模型训练方法和装置、预测方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能、深度学习、图像处理、自动驾驶领域。

背景技术

现有基于监督的深度信息估计的方案，以彩色图像作为输入，通过机器学习，如卷积神经网络等方式，估计彩色图像的深度信息。该方案在训练过程中，通过激光雷达或其它深度传感器采集真实的深度信息来作为监督信号，但高精度且密集的深度信息往往难以获得，导致训练受限。

发明内容

本申请提供了一种模型训练方法和装置、预测方法和装置。

第一方面，本申请提供了一种模型训练方法，包括：

将样本图像中第一样本图像输入深度信息预测模型，得到第一样本图像的深度信息；

基于样本图像中第二样本图像以及第一样本图像，得到图像间姿态信息；

至少根据图像间姿态信息和深度信息，得到第一样本图像对应的投影图像；

确定计算第二样本图像与投影图像的相似度的函数，得到损失函数，利用损失函数训练深度信息预测模型。

第二方面，本申请提供了一种预测方法，包括：

获取待预测图像；

将待预测图像输入深度信息预测模型，得到深度信息预测模型输出的待预测图像的深度信息；

其中，深度信息预测模型采用本申请所提供的模型训练方法训练所得。

第三方面，本申请提供了一种模型训练装置，包括：

第四方面，本申请提供了一种预测装置，包括：

待预测图像获取模块，用于获取待预测图像；

预测模块，用于将待预测图像输入深度信息预测模型，得到深度信息预测模型输出的待预测图像的深度信息；

其中，深度信息预测模型采用本申请所提供的模型训练装置训练所得。

第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上的方法。

第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如上的方法。

第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

根据本申请的技术解决了现有通过激光雷达或其它深度传感器采集真实的深度信息来作为监督信号，导致深度信息预测模型训练受限的问题。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提供的模型训练方法的流程图一；

图2是根据本申请实施例提供的模型训练方法的流程图二；

图3是根据本申请实施例提供的模型训练方法的流程图三；

图4是根据本申请实施例提供的模型训练方法的流程图四；

图5是根据本申请实施例提供的模型训练方法的流程图五；

图6是根据本申请实施例提供的深度信息预测模型的示例图；

图7是根据本申请实施例提供的模型训练方法的流程图六；

图8是根据本申请实施例提供的预测方法的流程图；

图9是根据本申请实施例提供的模型训练装置的结构图；

图10是根据本申请实施例提供的预测装置的结构图；

图11是用来实现本申请实施例的模型训练方法或预测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例提供一种模型训练方法，可应用于自动驾驶系统中，如自动驾驶汽车和无人驾驶挖掘机，还可应用于增强现实(Augmented Reality，AR)和虚拟现实技术(Virtual Reality，VR)。参见图1，该方法包括：

S101、将样本图像中第一样本图像输入深度信息预测模型，得到第一样本图像的深度信息；

S102、基于样本图像中第二样本图像以及第一样本图像，得到图像间姿态信息；

S103、至少根据图像间姿态信息和深度信息，得到第一样本图像对应的投影图像；

S104、确定计算第二样本图像与投影图像的相似度的函数，得到损失函数，利用损失函数训练深度信息预测模型。

可见，本申请以图像为输入，可以以自监督的方式有效估计图像对应的深度信息，不需要通过激光雷达或其它深度传感器采集的高精度深度信息的支持，限制较少。

在一示例中，本申请以彩色图像作为输入进行自监督的深度信息估计，整个方法可分为两部分，包括：图像间姿态信息估计以及图像深度信息估计。例如给定两帧图像I_t和I_t+1，通过获得的图像间姿态信息P_t以及图像I_t对应的深度信息D_t，可以将图像It投影至I_t+1的视角下产生虚拟的图像I_t’，如果图像间姿态信息Pt及深度信息Dt估计足够准确，则图像I_t’与图像I_t+1会足够接近，因此确定计算图像I_t’与图像I_t+1的相似度的函数，得到损失函数loss(I_t+1,I_t’)，利用损失函数训练深度信息预测模型。可选地，步骤S101中，样本图像可以为视频帧，例如，第一样本图像和第二样本图像为相隔预设帧的两帧视频帧。或者，第一样本图像和第二样本图像为连续两帧视频图像(如I_t,和I_t+1)。除此之外，也可以采用其它方式选取第一样本图像和第二样本图像，使得第一样本图像和第二样本图像的内容相似即可。例如，样本图像包括两个拍摄设备(如双目相机)拍摄同一方位得到的多帧图像，第一样本图像和第二样本图像为两个拍摄设备在同一时刻拍摄的图像。

可选地，样本图像为彩色图像。

在一种实施方式中，参见图2，步骤S101中，得到第一样本图像的深度信息，包括：

S201、对第一样本图像进行尺寸处理，得到与第一样本图像的尺寸不同的第一图像；

可选地，存在多个第一图像，每个第一图像的尺寸不同。

可选地，对第一样本图像进行的尺寸处理可以为对第一样本图像进行降采样操作。例如，对于一幅图像尺寸为M×N，对其进行s倍的降采样操作后，可以得到(M/s)×(N/s)尺寸的图像。

S202、对第一图像进行特征提取，得到图像特征；

S203、根据图像特征，确定第一样本图像的深度信息。

可选地，当包含多个第一图像时，对于每个第一图像均进行特征提取最后结合多个第一图像的图像特征，确定第一样本图像的深度信息。

这样处理的好处是，对第一样本图像进行尺寸处理，以获取不同尺寸的第一图像，有利于获取不同尺寸下的图像的特征信息，从而可以提取更全面的信息，既有全局的整体信息，又有局部的详细信息。

在一种实施方式中，参加图3，步骤S101得到第一样本图像的深度信息，包括：

S301、利用深度信息预测模型的卷积层对第一样本图像进行特征提取，得到卷积特征；

可选地，深度信息预测模型中包括一特征提取网络，特征提取网络包括多层卷积层，不同层的卷积层提取的特征大小不同。利用特征提取网络直接对第一样本图像进行特征提取，从而获取各层卷积层提取的卷积特征，得到多层卷积层的卷积特征；

S302、根据卷积特征，确定第一样本图像的深度信息。

可选地，当获取到多层卷积层的卷积特征，可以结合多层卷积层的卷积特征，确定第一样本图像的深度信息。

这样处理的好处是，从各层卷积层获取提取的第一样本图像的特征，从而可以提取更全面的特征信息，既有全局的整体信息，又有局部的详细信息。

在一种实施方式中，参见图4，步骤S101中，得到第一样本图像的深度信息，包括：

S401、获取第一样本图像的图像特征和卷积特征，图像特征是对第一图像进行特征提取后得到的，第一图像为与第一样本图像的尺度不同的图像，卷积特征是利用深度信息预测模型中卷积层对第一样本图像进行特征提取后得到的；

S402、根据图像特征和卷积特征，确定第一样本图像的深度信息。

可选地，将图像特征和卷积特征进行连接(concat)，根据连接后的特征确定第一样本图像的深度信息；

举例来说，若存在多个尺寸的第一图像的图像特征和多层卷积层得到的卷积特征，步骤S402可以包括：

(1)将同一特征大小的图像特征和卷积特征进行连接，得到连接后的多尺度特征；

(2)基于连接后的多尺度特征确定中间深度信息；

(3)基于中间深度信息，确定第一样本图像的深度信息。

上述实施方式结合不同尺寸的第一图像所确定的图像特征和不同卷积层所提取的卷积特征，得到新的表达能力更强的特征信息，进而有利于得到更高精度的深度信息。

可选地，步骤S402中的(2)可以采用图像重建技术来得到中间深度信息。具体的，对连接后的多尺度特征进行多层卷积操作和激活函数(比如sigmoid)操作，获得连接后的多尺度特征对应的多个深度图像D＝{D1，…，Dn}。同理，步骤S203和步骤S302基于图像特征或卷积特征得到深度信息的方式可以参考此处实施方式。

可选地，在获取连接后的多尺度特征之后，对连接后的多尺度特征进行通道增强处理，得到增强处理后的多尺度特征。通过通道增强，可以有效增强获取的多尺度特征中的有效信息。

参考图5，给定一个特征F(c×w×h)，其中，c表示特征的通道数，w和h分别表示特征的宽和高，通道增强的过程如下：

(1)对特征F进行卷积(conv)操作和reshape函数操作，获得特征Q(c×(h×w))和特征H((h×w)×c)；

(2)通过将特征Q(c×(h×w))和特征H((h×w)×c)进行矩阵乘法操作后获得矩阵M(c×c)，然后对矩阵M(c×c)进行逻辑回归softmax操作获得矩阵M’(c×c)。

(3)通过对特征F进行卷积操作获得新的特征F’(c×h×w)；

(4)通过M’(c×c)作为权重和特征F’(c×h×w)进行矩阵乘法操作，获得增强后的特征Fh(c×h×w)；通过特征Fh与特征F’进行像素级加法，获得最终的增强后的特征Fo。

参见图6，图6为深度信息预测模型的一种示例图。

第一步，对第一样本图像进行降采样操作，得到多个尺寸的第一图像，如第一图像A、第一图像B和第一图像C。对每一第一图像均进行特征提取，得到图像特征。

另外，将第一样本图像直接输入深度信息预测模型中的特征提取网络，特征提取网络包括多层卷积层，如图示的卷积层C1、卷积层C2和卷积层C3。从各层卷积层中获取特征，得到卷积特征。

将同一特征大小的图像特征和卷积特征进行连接(concat)，得到连接后的多尺度特征。

第二步，在获取连接后的多尺度特征之后，对连接后的多尺度特征进行通道增强处理，得到增强处理后的多尺度特征。通过通道增强，可以有效增强获取的多尺度特征中的有效信息。

第三步，在获得通道增强后的多尺度特征后，对增强后的多尺度特征进行图像重建，得到多个深度图像D＝{D1，…，Dn}。

第四步，根据多个深度图像D＝{D1，…，Dn}，确定最后输出的深度信息。

在一种实施方式中，步骤S102基于样本图像中第二样本图像以及第一样本图像，得到图像间姿态信息，包括：

(1)对第二样本图像和第一样本图像进行特征提取；

(2)对提取的第二样本图像和第一样本图像的特征进行回归处理，得到图像间姿态信息。可选地，图像间姿态信息P_t包括多个旋转参数和多个平移参数，例如建立空间直角坐标系xyz，那么对应可以得到3个旋转参数和3个平移参数。

这样处理的好处是，通过对图像进行特征提取以及对提取的特征回归处理的方式，来确定图像间姿态信息，计算结果更加准确。

图7为实现步骤S102的一种流程示例图。参考图7，第一样本图像和第二样本图像(如I_t,和I_t+1)输入卷积神经网络backbone，通过backbone进行特征提取，使用全连接网络对提取的特征进行回归处理，得到最终的帧间姿态结果P_t。此处的backbone可以是目前常用的特征提取网络，如resnet18或resnet50等。

在一种实施方式中，步骤S103至少根据图像间姿态信息和深度信息，得到第一样本图像对应的投影图像，包括：

(1)获取第一样本图像对应的第一采集参数以及第二样本图像对应的第二采集参数；

(2)根据第一样本图像的深度信息和第一采集参数，确定第一样本图像的第一点云数据；

其中，点云数据指的是在某一坐标系下的点的数据集。每一个点可以包含了多种信息，例如三维坐标、颜色、分类值、强度值和时间等等。

(3)根据图像间姿态信息，将第一点云数据转换为第二点云数据；

(4)根据第二采集参数对第二点云数据进行投影，得到投影图像。

具体的，假设第一样本图像I_t对应的第一采集参数为K_t，第二样本图像I_t+1对应的第二采集参数为K_t+1，K_t与K_t+1为矩阵。根据I_t对应的深度信息D_t，得到第一点云数据为P_dt＝K_t ^-1×D_t。根据图像间姿态信息P_t可将第一点云数据P_dt转换到第二样本图像I_t+1对应的视角下的第二点云数据P_dt+1：P_dt+1＝P_t×P_dt。最后，根据第二采集参数K_t+1投影获得投影图像I_t’：I_t’＝K_t+1×P_dt+1。

这样处理的好处是，通过上述步骤，利用图像采集时的采集参数、图像间姿态信息和深度信息，则可得到第一样本图像在第二样本图像视角下的投影图像，利用该投影图像和第二样本图像的相似度则可验证深度信息的准确性。该方法计算简单且容易实现，无需其它硬件来采集信息，大大降低成本。

在一种实施方式中，步骤S104所确定的损失函数可以为第二样本图像和投影图像之间的结构相似度(Structural SIMilarity，SSIM)，SSIM是一种衡量两幅图像相似度的指标。

下述为损失函数的一种示例：

loss(I_t+1，I′_t)＝SSIM(I_t+1，I′_t)

在其它实施方式中，也可以采用其它计算相似度的方式，例如余弦相似度、基于直方图、基于互信息或基于图像指纹信息等相似度计算方法。

在另一种实施方式中，针对步骤S402中的(2)可以获得与多尺度特征对应的多个深度图像D＝{D1，…，Dn}的情况，对应的，步骤S102可以根据图像间姿态信息和多个深度图像，得到第一样本图像对应的多个投影图像。

步骤S104中确定的损失函数还可以包括：计算第二样本图像分别和多个深度图像的相似度，以及对多个相似度进行加权求和，相似度与深度图像的尺寸正相关。损失函数的示例如下：

其中，相似度的权重Wi＝1/2^k，其中，k与深度图像的尺寸相关，例如可以用获得当前深度图像时的下采样倍数来确定k的值。

对应的，参见图8，本申请实施例提供一种预测方法，该方法包括：

S801、获取待预测图像；

S802、将待预测图像输入深度信息预测模型，得到深度信息预测模型输出的待预测图像的深度信息；

其中，深度信息预测模型采用本申请实施例所提供的模型训练方法训练所得。另外，深度信息预测模型的具体实现方式也可以参考上述实施，此处不再赘述。

对应的，参见图9，本申请实施例提供一种模型训练装置900，包括：

深度信息获得模块901，用于将样本图像中第一样本图像输入深度信息预测模型，得到第一样本图像的深度信息；

图像间姿态信息获得模块902，用于基于样本图像中第二样本图像以及第一样本图像，得到图像间姿态信息；

投影图像获得模块903，用于至少根据图像间姿态信息和深度信息，得到第一样本图像对应的投影图像；

损失函数获得模块904，用于确定计算第二样本图像与投影图像的相似度的函数，得到损失函数，利用损失函数训练深度信息预测模型。

在一种实施方式中，深度信息获得模块901，包括：

图像尺寸处理子模块，用于对第一样本图像进行尺寸处理，得到与第一样本图像的尺寸不同的第一图像；

图像特征获得子模块，用于对第一图像进行特征提取，得到图像特征；

第一深度信息获得子模块，用于根据图像特征，确定第一样本图像的深度信息。

在一种实施方式中，深度信息获得模块901，包括：

卷积特征获得子模块，用于利用深度信息预测模型中的卷积层对第一样本图像进行特征提取，得到卷积特征；

第二深度信息获得子模块，用于根据卷积特征，确定第一样本图像的深度信息。

在一种实施方式中，深度信息获得模块901，包括：

特征获得子模块，用于获取第一样本图像的图像特征和卷积特征，图像特征是对第一图像进行特征提取后得到的，第一图像为与第一样本图像的尺寸不同的图像，卷积特征是利用深度信息预测模型中卷积层对第一样本图像进行特征提取后得到的；

第三深度信息获得子模块，用于根据图像特征和卷积特征，确定第一样本图像的深度信息。

在一种实施方式中，图像间姿态信息获得模块902，包括：

特征提取子模块，用于对第二样本图像和第一样本图像进行特征提取；

图像间姿态信息子模块，用于对提取得到的第二样本图像和第一样本图像的特征进行回归处理，得到图像间姿态信息。

在一种实施方式中，投影图像获得模块903，包括：

采集参数获取子模块，用于获取第一样本图像对应的第一采集参数以及第二样本图像对应的第二采集参数；

第一点云数据获取子模块，用于根据第一样本图像的深度信息和第一采集参数，确定第一样本图像的第一点云数据；

第二点云数据获取子模块，用于根据图像间姿态信息，将第一点云数据转换为第二点云数据；

投影子模块，用于根据第二采集参数对第二点云数据进行投影，得到投影图像。

对应的，参见图10，本申请实施例还提供一种预测装置1000，包括：

待预测图像获取模块1001，用于获取待预测图像；

预测模块1002，用于将待预测图像输入深度信息预测模型，得到深度信息预测模型输出的待预测图像的深度信息；

其中，深度信息预测模型采用本申请实施例提供的模型训练装置训练所得。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图11所示，是根据本申请实施例的模型训练方法或预测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。

存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的模型训练方法或预测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的模型训练方法或预测方法。

存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的模型训练方法对应的程序指令/模块(例如，附图9所示的深度信息获得模块901、图像间姿态信息获得模块902、投影图像获得模块903和损失函数获得模块904)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的模型训练方法。

存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据模型训练电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至模型训练电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

模型训练方法或预测方法的电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图11中以通过总线连接为例。

输入装置1103可接收输入的数字或字符信息，以及产生与模型训练电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，包括：

将样本图像中第一样本图像输入深度信息预测模型，得到所述第一样本图像的深度信息；

基于所述样本图像中第二样本图像以及所述第一样本图像，得到图像间姿态信息；

至少根据所述图像间姿态信息和所述深度信息，得到所述第一样本图像对应的投影图像；

确定计算所述第二样本图像与所述投影图像的相似度的函数，得到损失函数，利用所述损失函数训练所述深度信息预测模型；

所述得到所述第一样本图像的深度信息，包括：

将同一特征大小的图像特征和卷积特征进行连接，得到连接后的多尺度特征；所述图像特征是对第一图像进行特征提取后得到的，所述第一图像为与所述第一样本图像的尺寸不同的图像，所述卷积特征是将所述第一样本图像输入至所述深度信息预测模型得到的特征；

基于所述连接后的多尺度特征确定中间深度信息；

基于所述中间深度信息，确定所述第一样本图像的深度信息；

所述至少根据所述图像间姿态信息和所述深度信息，得到所述第一样本图像对应的投影图像，包括：

根据所述图像间姿态信息，将第一点云数据转换为第二点云数据；所述第一点云数据为所述第一样本图像的点云数据；

根据所述第二样本图像的第二采集参数对所述第二点云数据进行投影，得到所述投影图像。

2.根据权利要求1所述的方法，其中，所述得到所述第一样本图像的深度信息，包括：

对第一样本图像进行尺寸处理，得到与第一样本图像的尺寸不同的第一图像；

对所述第一图像进行特征提取，得到图像特征；

根据所述图像特征，确定所述第一样本图像的深度信息。

3.根据权利要求1或2所述的方法，其中，所述得到所述第一样本图像的深度信息，包括：

利用所述深度信息预测模型中的卷积层对第一样本图像进行特征提取，得到卷积特征；

根据所述卷积特征，确定所述第一样本图像的深度信息。

4.根据权利要求1所述的方法，其中，所述得到所述第一样本图像的深度信息，包括：

获取所述第一样本图像的图像特征和卷积特征，所述图像特征是对第一图像进行特征提取后得到的，所述第一图像为与所述第一样本图像的尺寸不同的图像，所述卷积特征是利用所述深度信息预测模型中卷积层对所述第一样本图像进行特征提取后得到的；

根据所述图像特征和所述卷积特征，确定所述第一样本图像的深度信息。

5.根据权利要求1或4所述的方法，其中，所述基于所述样本图像中第二样本图像以及所述第一样本图像，得到图像间姿态信息，包括：

对所述第二样本图像和所述第一样本图像进行特征提取；

对提取得到的所述第二样本图像和所述第一样本图像的特征进行回归处理，得到图像间姿态信息。

6.根据权利要求1或4所述的方法，其中，

获取所述第一样本图像对应的第一采集参数以及所述第二样本图像对应的第二采集参数；

根据所述第一样本图像的深度信息和所述第一采集参数，确定所述第一样本图像的第一点云数据；

根据所述图像间姿态信息，将所述第一点云数据转换为第二点云数据；

根据所述第二采集参数对所述第二点云数据进行投影，得到所述投影图像。

7.一种预测方法，包括：

获取待预测图像；

将所述待预测图像输入深度信息预测模型，得到所述深度信息预测模型输出的所述待预测图像的深度信息；

其中，所述深度信息预测模型采用权利要求1-6任一项所述的模型训练方法训练所得。

8.一种模型训练装置，包括：

深度信息获得模块，用于将样本图像中第一样本图像输入深度信息预测模型，得到所述第一样本图像的深度信息；

图像间姿态信息获得模块，用于基于所述样本图像中第二样本图像以及所述第一样本图像，得到图像间姿态信息；

投影图像获得模块，用于至少根据所述图像间姿态信息和所述深度信息，得到所述第一样本图像对应的投影图像；

损失函数获得模块，用于确定计算所述第二样本图像与所述投影图像的相似度的函数，得到损失函数，利用所述损失函数训练所述深度信息预测模型；

所述深度信息获得模块，包括：

第三深度信息获得子模块，用于根据图像特征和卷积特征，确定所述第一样本图像的深度信息；所述图像特征是对第一图像进行特征提取后得到的，所述第一图像为与所述第一样本图像的尺寸不同的图像，所述卷积特征是将所述第一样本图像输入至所述深度信息预测模型得到的特征；

所述第三深度信息获得子模块，具体用于将同一特征大小的所述图像特征和所述卷积特征进行连接，得到连接后的多尺度特征；

基于所述连接后的多尺度特征确定中间深度信息；

所述投影图像获得模块，包括：

第二点云数据获取子模块，用于根据所述图像间姿态信息，将第一点云数据转换为第二点云数据；所述第一点云数据为所述第一样本图像的点云数据；

投影子模块，用于根据所述第二样本图像的第二采集参数对所述第二点云数据进行投影，得到所述投影图像。

9.根据权利要求8所述的装置，其中，所述深度信息获得模块，包括：

图像特征获得子模块，用于对所述第一图像进行特征提取，得到图像特征；

第一深度信息获得子模块，用于根据所述图像特征，确定所述第一样本图像的深度信息。

10.根据权利要求8或9所述的装置，其中，所述深度信息获得模块，包括：

卷积特征获得子模块，用于利用所述深度信息预测模型中的卷积层对第一样本图像进行特征提取，得到卷积特征；

第二深度信息获得子模块，用于根据所述卷积特征，确定所述第一样本图像的深度信息。

11.根据权利要求8所述的装置，其中，所述深度信息获得模块，包括：

特征获得子模块，用于获取所述第一样本图像的图像特征和卷积特征，所述图像特征是对第一图像进行特征提取后得到的，所述第一图像为与所述第一样本图像的尺寸不同的图像，所述卷积特征是利用所述深度信息预测模型中卷积层对所述第一样本图像进行特征提取后得到的；

第三深度信息获得子模块，用于根据所述图像特征和所述卷积特征，确定所述第一样本图像的深度信息。

12.根据权利要求8或11所述的装置，其中，所述图像间姿态信息获得模块，包括：

特征提取子模块，用于对所述第二样本图像和所述第一样本图像进行特征提取；

图像间姿态信息子模块，用于对提取得到的所述第二样本图像和所述第一样本图像的特征进行回归处理，得到图像间姿态信息。

13.根据权利要求8或11所述的装置，其中，

所述投影图像获得模块，包括：

采集参数获取子模块，用于获取所述第一样本图像对应的第一采集参数以及所述第二样本图像对应的第二采集参数；

第一点云数据获取子模块，用于根据所述第一样本图像的深度信息和所述第一采集参数，确定所述第一样本图像的第一点云数据；

第二点云数据获取子模块，用于根据所述图像间姿态信息，将所述第一点云数据转换为第二点云数据；

投影子模块，用于根据所述第二采集参数对所述第二点云数据进行投影，得到所述投影图像。

14.一种预测装置，包括：

待预测图像获取模块，用于获取待预测图像；

预测模块，用于将所述待预测图像输入深度信息预测模型，得到所述深度信息预测模型输出的所述待预测图像的深度信息；

其中，所述深度信息预测模型采用权利要求9-13任一项所述的模型训练装置训练所得。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。