CN114758068A

CN114758068A - 空间几何信息估计模型的训练方法及装置

Info

Publication number: CN114758068A
Application number: CN202210345349.3A
Authority: CN
Inventors: 谢佳锋; 隋伟; 陈腾; 任伟强; 张骞
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-15

Abstract

本公开实施例公开了一种空间几何信息估计模型的训练方法及装置、一种空间几何信息估计方法及装置、计算机可读存储介质、电子设备，其中，该模型的训练方法包括：对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据；基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息；基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值；基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。本公开实施例充分利用了多帧图像之间的视差来进行空间几何信息预测，其预测准确性和泛化能力大大提高，预测效率大大提升。

Description

空间几何信息估计模型的训练方法及装置

技术领域

本公开涉及计算机技术领域，尤其是一种空间几何信息估计模型的训练方法及装置、一种空间几何信息估计方法及装置、计算机可读存储介质、电子设备。

背景技术

路平面视差估计是应用在辅助驾驶和自动驾驶场景中来帮助车辆感知路面3D信息的技术。在辅助驾驶和自动驾驶应用中，路平面视差估计能通过摄像头提供的单帧或者相邻两帧图像并结合3D几何信息来获得路面的3D感知信息(包括物体的高度和深度信息)。为了获得路面的3D感知信息，目前常用的方法主要包括以下三种：

1、通过深度估计和提前标定好的地平面方程信息，将深度信息转化为3D点云并且通过地平面方程与点云的公式来恢复地面的3D感知信息(地面上物体深度及高度信息)；

2、通过单目多帧图像序列的地平面方程及帧间姿态耦合的信息来得到空间几何信息(通常用gamma表示，即物体的深度值与高度值之比)，再通过地平面方程信息解析gamma，得到图像中物体的深度和高度信息。

3、通过利用单目单帧图像和标注的实际gamma，以有监督的方式训练神经网络模型，使用神经网络模型来预测gamma，再通过平面方程解析gamma得到图像中物体的深度和高度信息。

发明内容

本公开的实施例提供了一种空间几何信息估计模型的训练方法及装置、一种空间几何信息估计方法及装置、计算机可读存储介质、电子设备。

本公开的实施例提供了一种空间几何信息估计模型的训练方法，该方法包括：对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据，其中，第二样本图像位于第一样本图像之后；基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息；基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值；基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

根据本公开实施例的另一个方面，提供了一种空间几何信息估计方法，该方法包括：对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，其中，第二图像位于第一图像之后；基于特征数据，由空间几何信息估计模型进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。

根据本公开实施例的另一个方面，提供了一种空间几何信息估计模型的训练装置，该装置包括：第一提取模块，用于对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据，其中，第二样本图像位于第一样本图像之后；第一生成模块，用于基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息；第一确定模块，用于基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值；训练模块，用于基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

根据本公开实施例的另一个方面，提供了一种空间几何信息估计装置，该装置包括：第三提取模块，用于对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，其中，第二图像位于第一图像之后；第一预测模块，用于基于特征数据，由空间几何信息估计模型进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述空间几何信息估计模型的训练方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述空间几何信息估计模型的训练方法。

基于本公开上述实施例提供的空间几何信息估计模型的训练方法及装置、一种空间几何信息估计方法及装置、计算机可读存储介质、电子设备，通过对样本图像序列中的第一样本图像和第二样本图像进行特征提取，再基于提取的特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息，然后基于预测空间几何信息和有监督的空间几何损失函数，训练待训练模型，得到空间几何信息估计模型。实现了基于单目多帧图像以有监督训练的方式训练空间几何信息估计模型，训练后的空间几何信息估计模型，可以对单目相机拍摄的图像序列进行空间几何信息预测，相比于目前的对单目单帧图像进行空间几何信息预测，本公开实施例充分利用了多帧图像之间的视差来进行空间几何信息预测，其预测准确性和泛化能力大大提高。并且本公开实施例在进行空间几何信息预测时，无需利用地面方程、帧间姿态等信息，其预测效率大大提升。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的空间几何信息估计模型的训练方法的流程示意图。

图3是本公开另一示例性实施例提供的空间几何信息估计模型的训练方法的流程示意图。

图4是本公开另一示例性实施例提供的空间几何信息估计模型的训练方法的流程示意图。

图5是本公开另一示例性实施例提供的空间几何信息估计模型的训练方法的流程示意图。

图6是本公开一示例性实施例提供的空间几何信息估计方法的流程示意图。

图7是本公开另一示例性实施例提供的空间几何信息估计方法的流程示意图。

图8是本公开一示例性实施例提供的空间几何信息估计模型的训练装置的结构示意图。

图9是本公开另一示例性实施例提供的空间几何信息估计模型的训练装置的结构示意图。

图10是本公开一示例性实施例提供的空间几何信息估计装置的结构示意图。

图11是本公开另一示例性实施例提供的空间几何信息估计装置的结构示意图。

图12是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

上述背景技术部分描述的现有的获得3D感知信息的方法主要存在如下缺陷：

1、通过深度估计模型直接获得像素的深度信息，接着通过地平面方程直接转换得到对应像素的高度信息，这种方法并没有将高度和深度信息耦合在一起，而是通过深度估计模型先获得深度信息，再利用地平面方程直接转换得到像素的高度信息，这种方式得到的高度精度会有所降低。

2、通过单目多帧图像序列预测空间几何信息的方案，在运行阶段需要在图像输入模型之前获取准确的帧间姿态变化，如果通过多传感器融合的方式来获取较为准确的帧间姿态，需要耗费不少计算资源且增加系统延时。

3、通过单目单帧有监督地训练模型，进而利用模型预测空间几何信息的方案则是简单地通过有监督的训练方法去强行优化模型来学习空间几何信息，这种方案相对于多帧利用几何信息优化的方案，泛化能力较差。

示例性系统

图1示出了可以应用本公开的实施例的空间几何信息估计模型的训练方法或空间几何信息估计模型的训练装置，以及空间几何信息估计方法或空间几何信息估计装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如图像处理应用、视频处理应用、导航类应用、网页浏览器应用等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如利用终端设备101上传的图像序列进行处理的后台图像处理服务器。后台图像处理服务器可以利用接收的图像序列进行模型训练，或利用训练后的模型对图像序列进行空间几何信息估计等。

需要说明的是，本公开的实施例所提供的空间几何信息估计模型的训练方法或空间几何信息估计方法可以由服务器103执行，也可以由终端设备101执行，相应地，空间几何信息估计模型的训练装置或空间几何信息估计装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在图像不需要从远程获取或图像处理不需要远程进行的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的空间几何信息估计模型的训练方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据。

在本实施例中，电子设备可以对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据。其中，第二样本图像位于第一样本图像之后。例如，第二样本图像是在t时刻拍摄的，则第一样本图像可以是在t时刻之前(用t-1表示)拍摄的。需要说明的是，上述图像序列可以是相机拍摄的原始图像序列，也可以是从原始图像序列包括的图像中提取的多个图像组成的序列。

通常，上述图像序列是单目相机拍摄的，且上述图像序列可以是相机在运动状态下拍摄的，也可以是相机在静止状态下对运动物体拍摄的。例如，车辆在行驶过程中，其上安装的相机对车辆的周边环境进行拍摄，得到图像序列。

特征数据可以是待训练模型包括的特征提取网络提取的，特征提取网络可以为各种结构的深度神经网络。例如，待训练模型可以包括Resnet(残差网络)、VarGnet(可变组网络)等网络，利用这些网络，可以对输入的图像进行特征提取。特征提取时，可以将第一样本图像和第二样本图像分别在RGB三个通道上合并，再从合并后的图像中提取特征数据。

在提取特征数据时，可以采用诸如Unet的网络结构提取不同尺度的特征数据。例如，Unet的下采样次数是5次，每次特征图的尺度就会是下采样前的1/2，得到的特征尺度就分别是原图像尺度的1/2，1/4，1/8，1/16，1/32。

步骤202，基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息。

在本实施例中，电子设备可以基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息。其中，预测空间几何信息可以为上述第二样本图像包括的每个像素对应的高度信息(height)与深度信息(depth)之比，即gamma＝height/depth，或者，预测空间几何信息也可以是depth/height。高度信息用于表征像素对应的三维空间点距离地面的高度，深度信息用于表征像素对应的三维空间点与相机的距离。

待训练模型可以包括空间几何信息预测网络，空间几何信息预测网络可以对输入其中的多尺度的特征数据进行特征融合，得到融合特征数据。例如，上述Unet下采样5次后的特征数据，再经过若干次2倍上采样之后再与大尺度的特征进行融合，依次类推得到多个尺度的融合特征数据。通常，空间几何信息预测所采用的融合特征数据可以是从多个尺度的融合特征数据中选择的。例如，可以选择原图像大小的1/2或1/4尺度的融合特征数据进行空间几何信息预测。

空间几何信息预测网络可以进一步利用融合特征数据，基于现有的视差估计方法，计算得到预测空间几何信息。

步骤203，基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值。

在本实施例中，电子设备可以基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值。

其中，空间几何损失函数用于定量计算预测空间几何信息和标注空间几何信息之间的误差，空间几何损失值即可表示预测空间几何信息和标注空间几何信息之间的误差。上述标注空间几何信息可以是预先对第一样本图像和第二样本图像拍摄的实际场景进行测量而设置的信息。

作为示例，上述空间几何损失函数如下式(1)所示：

Ls_gamma＝||g_pre-g_gt||² (1)

其中，Ls_gamma表示空间几何损失值，g_pre表示预测空间几何信息，g_gt表示标注空间几何信息。

步骤204，基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

在本实施例中，电子设备可以基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

其中，模型的训练方法可以采用机器学习的方法，即在对待训练模型进行训练时，电子设备可以采用梯度下降法和反向传播法，调整初始模型的参数，使空间几何损失值逐渐减小，并将每次调整参数后的模型作为下次训练的待训练模型，在满足预设训练结束条件的情况下，结束训练，从而得到空间几何信息估计模型。上述预设训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长，训练次数超过预设次数，空间几何损失值收敛。

本公开的上述实施例提供的方法，通过对样本图像序列中的第一样本图像和第二样本图像进行特征提取，再基于提取的特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息，然后基于预测空间几何信息和有监督的空间几何损失函数，训练待训练模型，得到空间几何信息估计模型。实现了基于单目多帧图像以有监督训练的方式训练空间几何信息估计模型，训练后的空间几何信息估计模型，可以对单目相机拍摄的图像序列进行空间几何信息预测，相比于目前的对单目单帧图像进行空间几何信息预测，本公开实施例充分利用了多帧图像之间的视差来进行空间几何信息预测，其预测准确性和泛化能力大大提高。并且使用模型进行空间几何信息预测时，无需利用地面方程、帧间姿态等信息，预测效率大大提升。

在一些可选的实现方式中，如图3所示，在步骤204之前，该方法还可以包括如下步骤：

步骤205，基于特征数据，由待训练模型进行运动流预测，生成表示运动物体在第一样本图像和第二样本图像内的运动状态的运动流数据。

其中，运动流数据是一种光流，表示空间运动物体在成像平面上的对应像素的瞬时运动速度，也就是一个图像中的像素点A表示的实际空间点对应到另一图像上的像素点A’的相对位移特征。运动流数据表示运动物体在第一样本图像和第二样本图像中的相对位置的变化。

本实施例中，待训练模型可以包括运动流预测，运动流预测网络可以对输入其中的多尺度的特征数据进行特征融合，得到融合特征数据。特征融合的方法可以采用上述步骤202的说明中描述的特征融合方法。运动流预测网络可以进一步利用融合特征数据，从第一样本图像和第二样本图像中分别确定表示空间中同一运动物体的图像区域，并确定两个图像区域包括的相对应的像素在图像中的位置变化情况，从而得到运动流数据。

步骤206，基于运动流数据和预设的无监督的光流损失函数，确定光流损失值。

具体地，电子设备可以按照如下公式(2)所示的无监督的光流损失函数确定光流损失值Lu_HF：

其中，α为设置的权重，SSIM()表示计算两个图像之间的相似度，i_t表示第二样本图像，i_t-1表示第一样本图像，HF_pre表示运动流数据，warp(i_t-1,HF_pre)表示图像映射方法，即利用运动流数据表示的第一样本图像和第二样本图像的映射关系，将第一样本图像包括的像素映射到第二样本图像的像平面，得到映射图像。i_t-warp(i_t-1,HF_pre)表示第二样本图像和映射图像相对应的像素值相减(可以为RGB值相减，或灰度值相减)。

如图3所示，步骤204可以进一步包括：

步骤2041，基于空间几何损失值和光流损失值，调整待训练模型的参数。

具体地，可以将该无监督的光流损失函数与上述有监督的空间几何损失函数相加，得到的计算结果即为光流损失值和空间几何损失值之和，在训练时，电子设备可以调整待训练模型的参数，使光流损失值和空间几何损失值之和逐渐减小，并将每次调整参数后的模型作为下次训练的待训练模型，在满足预设训练结束条件的情况下，结束训练，从而训练得到空间几何信息估计模型。训练后的空间几何信息估计模型除了可以输出预测空间几何信息外，还可以输出预测运动流数据。

本实施例通过待训练模型进行运动流预测，生成运动流数据，再基于运动流数据和无监督的光流损失函数确定光流损失值，可以在模型训练过程中引入运动流数据，由于运动流数据表示图像之间的物体位置变动情况，因此，将运动流预测与空间几何信息预测相结合进行训练，训练后的模型可以适应对运动物体的预测，使对运动物体的空间几何信息预测更准确。

在一些可选的实现方式中，如图4所示，上述步骤206可以包括如下子步骤：

步骤2061，基于预测空间几何信息，生成表示第一样本图像和第二样本图像之间的视差流数据。

其中，视差流(或称残差流)表示根据以下两项得出的两个图像之间的差异：(a)由于相机运动或相机拍摄的物体运动而在图像序列包括的各图像之间产生的物体(例如道路)表面外观的变化；(b)图像序列包括的各图像之间的特定区域的差异，例如道路轮廓、道路上的凸起、凹陷等部位的差异等。

作为示例，可以根据如下式(3)计算得到视差流数据u：

其中，γ为预测空间几何信息，例如每个像素高度与深度的比值(即gamma)，T_Z为帧间平移矩阵t的z轴(即相机光轴的延伸方向)分量，表示相机在第一样本图像和第二样本图像之间的时间段内的位移，h_c为相机高度，p为像素点在图像中的坐标(u,v)，e为极点像素坐标(极点是基线与成像平面的交点)。

步骤2062，将视差流数据和运动流数据进行融合，得到融合流数据。

其中，将视差流数据和运动流数据进行融合的方法可以任意设置，例如将视差流数据和运动流数据直接相加，或基于预设的权重进行加权平均等等。

步骤2063，基于融合流数据和预设的无监督的光流损失函数，确定光流损失值。

具体地，上述公式(2)所示的光流损失函数中，可以将HF_pre替换为融合流数据，从而计算得到光流损失值。

本实施例通过将视差流数据和运动流数据融合，基于融合流数据和无监督的光流损失函数确定光流损失值，由于运动流数据与视差流数据相结合可以更准确地表示图像之间的物体位置变动情况，因此，训练后的模型可以更准确地对运动物体的空间几何信息进行预测。

在一些可选的实现方式中，如图5所示，在步骤201之前，该方法还包括：

步骤501，从预设的初始图像序列中提取第一初始样本图像和第二初始样本图像。

其中，初始图像序列可以是单目相机连续拍摄的多个图像组成的图像序列。第一初始样本图像和第二初始样本图像在初始图像序列中可以是相邻的，也可以是不相邻的。

步骤502，确定第二初始样本图像相对于第一初始样本图像的旋转矩阵和平移矩阵。

旋转矩阵和平移矩阵可以通过现有的方法得到。例如，通过LOAM(Lidar Odometryand Mapping in Real-time，实时激光雷达里程计和地图绘制)建图得到，或通过基于神经网络的方法得到。

步骤503，获取第二初始样本图像对应的预先标定的地面法向量、用于拍摄图像序列的相机的高度和相机的内参。

其中，地面法向量的标定方法和相机内参的标定方法是现有技术，这里不再赘述。

步骤504，基于地面法向量、内参、高度、旋转矩阵和平移矩阵，确定单应性矩阵。

具体地，可以根据如下式(4)确定单应性矩阵H：

其中，K表示相机的内参，R表示旋转矩阵，t表示平移矩阵、d_c表示相机高度，N^T表示地面法向量的转置。

步骤505，利用单应性矩阵，对第一初始样本图像和第二初始样本图像进行地面对齐处理，得到第一样本图像和第二样本图像。

其中，地面对齐是指通过基于地面的单应性变换，使得两帧图像中属于地平面区域的像素位置一一对应，即以地面为基准，将一帧图像映射到另一帧图像的像平面。这里，可以将第一初始样本图像映射到第二初始样本图像的像平面，得到的映射图像即为第一样本图像，第二初始样本图像即为第二样本图像。

本实施例通过在对模型进行训练前，通过地面对齐操作得到第一样本图像和第二样本图像，由于第一样本图像和第二样本图像是经过地面对齐的图像，因此，模型在进行预测运算时，相对于使用不经过地面对齐的图像，可以降低模型预测的误差，提高了模型预测的精度。

图6是本公开一示例性实施例提供的空间几何信息估计方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图6所示，该方法包括如下步骤：

步骤601，对图像序列中的第一图像和第二图像进行特征提取，得到特征数据。

在本实施例中，电子设备可以对图像序列中的第一图像和第二图像进行特征提取，得到特征数据。其中，第二图像位于第一图像之后。例如，第二样本图像是当前时刻(例如t时刻)拍摄的，则第一图像可以是在当前时刻之前(用t-1表示)拍摄的。

通常，上述图像序列是单目相机拍摄的，且上述图像序列可以是相机在运动状态下拍摄的，也可以是相机在静止状态下对运动物体拍摄的。例如，车辆在行驶过程中，其上安装的相机对车辆的周边环境进行拍摄，得到图像序列。基于实时得到的图像序列，电子设备可以实时地利用当前拍摄的第二图像和当前时刻之间拍摄的第一图像进行空间几何信息估计，得到当前拍摄的第二图像对应的空间几何信息。

特征数据可以是空间几何信息估计模型包括的特征提取网络提取的，特征提取网络可以为各种结构的深度神经网络。例如，空间几何信息估计模型可以包括Resnet(残差网络)、VarGnet(可变组网络)等网络，利用这些网络，可以对输入的图像进行特征提取。特征提取时，可以将第一图像和第二图像分别在RGB三个通道上合并，再从合并后的图像中提取特征数据。

步骤602，基于特征数据，由空间几何信息估计模型进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。

在本实施例中，电子设备可以基于特征数据，由空间几何信息估计模型中的空间几何信息预测网络进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。

其中，空间几何信息估计模型是预先根据上述图2对应实施例描述的方法训练得到的。空间几何信息估计模型可以包括空间几何信息预测网络，空间几何信息预测网络可以对输入其中的多尺度的特征数据进行特征融合，得到融合特征数据，进一步利用融合特征数据，基于现有的视差估计方法，计算得到预测空间几何信息。

应当理解，本实施例所使用的空间几何信息估计模型与上述图2对应实施例中训练得到的空间几何信息估计模型相同，对于空间几何信息估计模型的结构和预测流程的说明，可以参考上述图2对应实施例描述的内容，这里不再赘述。

本公开的上述实施例提供的方法，通过对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，再基于特征数据，由空间几何信息估计模型进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。实现了对单目相机拍摄的图像序列进行空间几何信息预测，相比于目前的对单目单帧图像进行空间几何信息预测，本公开实施例充分利用了多帧图像之间的视差来进行空间几何信息预测，其预测准确性和泛化能力大大提高。并且使用模型进行空间几何信息预测时，无需利用地面方程、帧间姿态等信息，预测效率大大提升。

在一些可选的实现方式中，如图7所示，在步骤601之后，该方法还包括：

步骤603，基于特征数据，由空间几何信息估计模型进行运动流预测，生成表示运动物体在第一图像和第二图像内的运动状态的运动流数据。

其中，空间几何信息估计模型可以包括运动流预测网络，运动流预测网络可以对输入其中的多尺度的特征数据进行特征融合，得到融合特征数据。运动流预测网络可以进一步利用融合特征数据，从第一图像和第二图像中分别确定表示空间中同一运动物体的图像区域，并确定两个图像区域包括的相对应的像素在图像中的位置变化情况，从而得到运动流数据。

本实施例通过空间几何信息估计模型包括的运动流预测网络对输入的图像进行运动流预测，通过输出的运动流数据可以对相机拍摄的运动物体的运动状态进行更准确地评估，从而丰富了空间几何信息估计模型的功能，提高了空间几何信息估计模型的使用范围。

可选的，在步骤602之后，电子设备还可以基于第二图像包括的像素分别对应的空间几何信息，确定第二图像包括的像素分别对应的深度信息和高度信息。

具体地，设空间几何信息为gamma，且gamma＝height/depth，其中，height为高度信息，depth为深度信息。基于如下gamma转化公式(5)，可以得到深度信息：

其中，N^T表示相机坐标系下的地面法向量N的转置，camH为相机坐标系下相机相对地面的高度，p为图象坐标系下的像素坐标[u,v]构造的三维坐标[u,v,1]，K^-1为相机内参的逆矩阵，用于将图象坐标系下的坐标转化到相机坐标系下。接着，可以计算得到高度信息height＝gamma*depth。上述地面法向量N可以基于现有的目标检测方法，在第二图像中将地面分割出来，然后进行平面方程拟合，得到地平面方程。

通过模型输出的空间几何信息，可以得到场景图像中的各像素分别对应的高度信息和深度信息，从而利用了空间几何信息估计模型预测空间几何信息高效、准确的特点，进一步提高确定深度信息和高度信息的效率和准确性。

可选的，在步骤601之前，该方法还可以包括：

步骤一，获取对目标场景拍摄的具有排列次序的第一初始图像和第二初始图像。

其中，目标场景可以是任意场景，例如可以是车辆行驶的道路。通常，第一初始图像和第二初始图像的排列次序是按时间排序的。例如在时间上，第二初始图像排在第一初始图像之后。

步骤二，确定第二初始图像相对于第一初始图像的旋转矩阵和平移矩阵。

其中，旋转矩阵和平移矩阵可以通过现有的方法得到。例如，通过LOAM建图得到，或通过基于神经网络的方法得到。

步骤三，确定第二初始图像对应的地面法向量和对目标场景进行拍摄的相机的高度。

具体地，电子设备可以基于现有的目标检测方法，在场景图像中将地面分割出来，然后进行平面方程拟合，得到地平面方程。通常，地平面方程的表示形式可以为法线式，可以直接从地平面方程中确定法向量作为地面法向量。相机坐标系的坐标原点通常为相机的位置，因此，可以根据地平面方程确定相机相对地面的高度。

步骤四，基于地面法向量、相机的内参、高度、旋转矩阵和平移矩阵，确定单应性矩阵。

步骤五，利用单应性矩阵，对第一初始图像和第二初始图像进行地面对齐操作，得到第一图像和第二图像。

其中，步骤四和步骤五中确定单应性矩阵和地面对齐操作的方法，与上述步骤504和步骤505基本相同，这里不再赘述。

通过在使用空间几何信息估计模型之前，预先经过地面对齐操作得到第一图像和第二图像，由于第一图像和第二图像是经过地面对齐的图像，因此，模型在进行预测运算时，相对于使用不经过地面对齐的图像，可以降低模型预测的误差，提高了模型预测的精度。

示例性装置

图8是本公开一示例性实施例提供的空间几何信息估计模型的训练装置的结构示意图。本实施例可应用在电子设备上，如图8所示，空间几何信息估计模型的训练装置包括：第一提取模块801，用于对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据，其中，第二样本图像位于第一样本图像之后；第一生成模块802，用于基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息；第一确定模块803，用于基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值；训练模块804，用于基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

在本实施例中，第一提取模块801可以对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据。其中，第二样本图像位于第一样本图像之后。例如，第二样本图像是在t时刻拍摄的，则第一样本图像可以是在t时刻之前(用t-1表示)拍摄的。需要说明的是，上述图像序列可以是相机拍摄的原始图像序列，也可以是从原始图像序列包括的图像中提取的多个图像组成的序列。

在本实施例中，第一生成模块802可以基于特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息。其中，预测空间几何信息可以为上述第二样本图像包括的每个像素对应的高度信息(height)与深度信息(depth)之比，即gamma＝height/depth，或者，预测空间几何信息也可以是depth/height。高度信息用于表征像素对应的三维空间点距离地面的高度，深度信息用于表征像素对应的三维空间点与相机的距离。

在本实施例中，第一确定模块803可以基于预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值。

在本实施例中，训练模块804可以基于空间几何损失值，调整待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

其中，模型的训练方法可以采用机器学习的方法，即在对待训练模型进行训练时，训练模块804可以采用梯度下降法和反向传播法，调整初始模型的参数，使空间几何损失值逐渐减小，并将每次调整参数后的模型作为下次训练的待训练模型，在满足预设训练结束条件的情况下，结束训练，从而得到空间几何信息估计模型。上述预设训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长，训练次数超过预设次数，空间几何损失值收敛。

参照图9，图9是本公开另一示例性实施例提供的空间几何信息估计模型的训练装置的结构示意图。

在一些可选的实现方式中，该装置还包括：第二生成模块805，用于基于特征数据，由待训练模型进行运动流预测，生成表示运动物体在第一样本图像和第二样本图像内的运动状态的运动流数据；第二确定模块806，用于基于运动流数据和预设的无监督的光流损失函数，确定光流损失值；训练模块804进一步用于：基于空间几何损失值和光流损失值，调整待训练模型的参数。

在一些可选的实现方式中，第二确定模块806包括：生成单元8061，用于基于预测空间几何信息，生成表示第一样本图像和第二样本图像之间的视差流数据；融合单元8062，用于将视差流数据和运动流数据进行融合，得到融合流数据；确定单元8063，用于基于融合流数据和预设的无监督的光流损失函数，确定光流损失值。

在一些可选的实现方式中，装置还包括：第二提取模块807，用于从预设的初始图像序列中提取第一初始样本图像和第二初始样本图像；第三确定模块808，用于确定第二初始样本图像相对于第一初始样本图像的旋转矩阵和平移矩阵；获取模块809，用于获取第二初始样本图像对应的预先标定的地面法向量、用于拍摄图像序列的相机的高度和相机的内参；第四确定模块810，用于基于地面法向量、内参、高度、旋转矩阵和平移矩阵，确定单应性矩阵；地面对齐模块811，用于利用单应性矩阵，对第一初始样本图像和第二初始样本图像进行地面对齐处理，得到第一样本图像和第二样本图像。

本公开上述实施例提供的空间几何信息估计模型的训练装置，通过对样本图像序列中的第一样本图像和第二样本图像进行特征提取，再基于提取的特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息，然后基于预测空间几何信息和有监督的空间几何损失函数，训练待训练模型，得到空间几何信息估计模型。实现了基于单目多帧图像以有监督训练的方式训练空间几何信息估计模型，训练后的空间几何信息估计模型，可以对单目相机拍摄的图像序列进行空间几何信息预测，相比于目前的对单目单帧图像进行空间几何信息预测，本公开实施例充分利用了多帧图像之间的视差来进行空间几何信息预测，其预测准确性和泛化能力大大提高。并且使用模型进行空间几何信息预测时，无需利用地面方程、帧间姿态等信息，预测效率大大提升。

图10是本公开一示例性实施例提供的空间几何信息估计装置的结构示意图。本实施例可应用在电子设备上，如图10所示，空间几何信息估计装置包括：第三提取模块1001，用于对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，其中，第二图像位于第一图像之后；第一预测模块1002，用于基于特征数据，由空间几何信息估计模型进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。

在本实施例中，第三提取模块1001可以对图像序列中的第一图像和第二图像进行特征提取，得到特征数据。其中，第二图像位于第一图像之后。例如，第二样本图像是当前时刻(例如t时刻)拍摄的，则第一图像可以是在当前时刻之前(用t-1表示)拍摄的。

通常，上述图像序列是单目相机拍摄的，且上述图像序列可以是相机在运动状态下拍摄的，也可以是相机在静止状态下对运动物体拍摄的。例如，车辆在行驶过程中，其上安装的相机对车辆的周边环境进行拍摄，得到图像序列。基于实时得到的图像序列，该装置可以实时地利用当前拍摄的第二图像和当前时刻之间拍摄的第一图像进行空间几何信息估计，得到当前拍摄的第二图像对应的空间几何信息。

在本实施例中，第一预测模块1002可以基于特征数据，由空间几何信息估计模型进行空间几何信息预测网络，生成第二图像中各像素分别对应的空间几何信息。

参照图11，图11是本公开另一示例性实施例提供的空间几何信息估计装置的结构示意图。

在一些可选的实现方式中，该装置还包括：第二预测模块1003，用于基于特征数据，由空间几何信息估计模型进行运动流预测，生成表示运动物体在第一图像和第二图像内的运动状态的运动流数据。

本公开上述实施例提供的空间几何信息估计模型的训练装置，通过对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，再基于特征数据，由空间几何信息估计模型进行空间几何信息预测，生成第二图像中各像素分别对应的空间几何信息。实现了对单目相机拍摄的图像序列进行空间几何信息预测，相比于目前的对单目单帧图像进行空间几何信息预测，本公开实施例充分利用了多帧图像之间的视差来进行空间几何信息预测，其预测准确性和泛化能力大大提高。并且使用模型进行空间几何信息预测时，无需利用地面方程、帧间姿态等信息，预测效率大大提升。

示例性电子设备

下面，参考图12来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图12图示了根据本公开实施例的电子设备的框图。

如图12所示，电子设备1200包括一个或多个处理器1201和存储器1202。

处理器1201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1200中的其他组件以执行期望的功能。

存储器1202可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1201可以运行程序指令，以实现上文的本公开的各个实施例的空间几何信息估计模型的训练方法或空间几何信息估计方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如图像、空间几何信息估计模型等各种内容。

在一个示例中，电子设备1200还可以包括：输入装置1203和输出装置1204，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置1203可以是相机、鼠标、键盘等设备，用于输入图像、执行上述方法的命令等内容。在该电子设备是单机设备时，该输入装置1203可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的图像、执行上述方法的命令等内容。

该输出装置1204可以向外部输出各种信息，包括空间几何信息。该输出设备1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备1200中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1200还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的空间几何信息估计模型的训练方法或空间几何信息估计方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的空间几何信息估计模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种空间几何信息估计模型的训练方法，包括：

对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据，其中，所述第二样本图像位于所述第一样本图像之后；

基于所述特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息；

基于所述预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值；

基于所述空间几何损失值，调整所述待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

2.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述特征数据，由所述待训练模型进行运动流预测，生成表示运动物体在所述第一样本图像和所述第二样本图像内的运动状态的运动流数据；

基于所述运动流数据和预设的无监督的光流损失函数，确定光流损失值；

所述基于所述空间几何损失值，调整所述待训练模型的参数，包括：

基于所述空间几何损失值和所述光流损失值，调整所述待训练模型的参数。

3.根据权利要求2所述的方法，其中，所述基于所述运动流数据和预设的无监督的光流损失函数，确定光流损失值，包括：

基于所述预测空间几何信息，生成表示所述第一样本图像和所述第二样本图像之间的视差流数据；

将所述视差流数据和所述运动流数据进行融合，得到融合流数据；

基于所述融合流数据和预设的无监督的光流损失函数，确定光流损失值。

4.根据权利要求1所述的方法，其中，在所述对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据之前，所述方法还包括：

从预设的初始图像序列中提取第一初始样本图像和第二初始样本图像；

确定所述第二初始样本图像相对于所述第一初始样本图像的旋转矩阵和平移矩阵；

获取所述第二初始样本图像对应的预先标定的地面法向量、用于拍摄所述图像序列的相机的高度和所述相机的内参；

基于所述地面法向量、所述内参、所述高度、所述旋转矩阵和所述平移矩阵，确定单应性矩阵；

利用所述单应性矩阵，对所述第一初始样本图像和所述第二初始样本图像进行地面对齐处理，得到所述第一样本图像和所述第二样本图像。

5.一种空间几何信息估计方法，包括：

对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，其中，所述第二图像位于所述第一图像之后；

基于所述特征数据，由空间几何信息估计模型进行空间几何信息预测，生成所述第二图像中各像素分别对应的空间几何信息。

6.根据权利要求5所述的方法，其中，在所述对图像序列中的第一图像和第二图像进行特征提取，得到特征数据之后，所述方法还包括：

基于所述特征数据，由所述空间几何信息估计模型进行运动流预测，生成表示运动物体在所述第一图像和所述第二图像内的运动状态的运动流数据。

7.一种空间几何信息估计模型的训练装置，包括：

第一提取模块，用于对样本图像序列中的第一样本图像和第二样本图像进行特征提取，得到特征数据，其中，所述第二样本图像位于所述第一样本图像之后；

第一生成模块，用于基于所述特征数据，由待训练模型进行空间几何信息预测，生成预测空间几何信息；

第一确定模块，用于基于所述预测空间几何信息、预设的标注空间几何信息和预设的有监督的空间几何损失函数，确定空间几何损失值；

训练模块，用于基于所述空间几何损失值，调整所述待训练模型的参数，直至满足预设训练结束条件，得到空间几何信息估计模型。

8.一种空间几何信息估计装置，包括：

第三提取模块，用于对图像序列中的第一图像和第二图像进行特征提取，得到特征数据，其中，所述第二图像位于所述第一图像之后；

第一预测模块，用于基于所述特征数据，由空间几何信息估计模型进行空间几何信息预测，生成所述第二图像中各像素分别对应的空间几何信息。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的方法。