CN116469079A

CN116469079A - 一种自动驾驶bev任务学习方法及相关装置

Info

Publication number: CN116469079A
Application number: CN202310440925.7A
Authority: CN
Inventors: 郝坤坤; 黄浴; 潘余曦; 杨子江
Original assignee: Xi'an Xinxin Information Technology Co ltd
Current assignee: Xi'an Xinxin Information Technology Co ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-21

Abstract

本申请提供一种自动驾驶BEV任务学习方法及相关装置，该方法主要通过获得的鸟瞰图BEV特征来表征几何深度信息特征，由于该BEV特征是对时序立体匹配的点云数据和深度估计出的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据，并对多视角图像的图像特征中提取的上下文特征与对齐后的点云数据进行外积操作和体素池化操作获得的，因此，该BEV特征是能够表征感知世界的视角或坐标系的特征，所以该BEV特征也能够表征几何深度信息特征，从而通过使用BEV特征对机器视觉任务进行学习，能够有效地避免自动驾驶汽车在行驶时的安全隐患。

Description

一种自动驾驶BEV任务学习方法及相关装置

技术领域

本申请涉及自动驾驶、仿真测试、任务学习和模型训练的技术领域，具体而言，涉及一种自动驾驶BEV任务学习方法及相关装置。

背景技术

目前，在自动驾驶的应用场景中，通常是使用单相机或者多相机采集图像中提取的特征来进行机器视觉任务学习和推理，具体例如：获取多相机采集的环境图像，并提取出环境图像中的图像特征，然后，使用机器视觉任务学习后的模型对该图像特征进行目标对象(例如障碍物或行人等等)检测等等。在具体的实践过程中发现，虽然能够利用这种图像特征预测出目标对象在相机视野内的相对位置，但是很难精确地预测出目标对象与该相机之间的距离(即几何深度信息)，可能导致自动驾驶汽车在行驶时存在安全隐患。

发明内容

本申请实施例的目的在于提供一种自动驾驶BEV任务学习方法及相关装置，用于改善自动驾驶汽车在行驶时存在安全隐患的问题。

本申请实施例提供了一种自动驾驶BEV任务学习方法，包括：获取自动驾驶场景中的当前时刻的第一多视角图像，并提取出第一多视角图像的图像特征，多视角图像是同一时刻从自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像；获取上一时刻的第二多视角图像的图像特征，并对第一多视角图像的图像特征与第二多视角图像的图像特征进行时序立体匹配，获得匹配的点云数据，第一多视角图像的拍摄视角与第二多视角图像的拍摄视角是相同的；对第一多视角图像的图像特征进行深度估计，获得估计出的点云数据，并对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据；根据第一多视角图像的相机参数从第一多视角图像的图像特征中提取出上下文特征，并对上下文特征和对齐后的点云数据进行外积操作和体素池化操作，获得鸟瞰图BEV特征，BEV特征用于对至少一个机器视觉任务进行学习。在上述方案的实现过程中，通过获得的鸟瞰图BEV特征来表征几何深度信息特征，由于该BEV特征是对时序立体匹配的点云数据和深度估计出的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据，并对多视角图像的图像特征中提取的上下文特征与对齐后的点云数据进行外积操作和体素池化操作获得的，因此，该BEV特征是能够表征感知世界的视角或坐标系的特征，所以该BEV特征也能够表征几何深度信息特征，从而通过使用BEV特征对机器视觉任务进行学习，能够有效地避免自动驾驶汽车在行驶时的安全隐患。

可选地，在本申请实施例中，对第一多视角图像的图像特征与第二多视角图像的图像特征进行时序立体匹配，包括：计算第一多视角图像的图像特征与第二多视角图像的图像特征之间的单应性矩阵；获取上一时刻的深度信息，使用单应性矩阵对上一时刻的深度信息进行深度估计，获得当前时刻的深度信息；对当前时刻的深度信息和第一多视角图像的图像特征进行网格采样，获得特征体；对特征体和第一多视角图像的图像特征进行组相关相似度计算，获得代价体；对代价体进行正则化，获得匹配的点云数据。在上述方案的实现过程中，通过使用单应性矩阵对上一时刻的深度信息进行深度估计，从而获得深度感知更精确匹配的点云数据，提高了最终获得的BEV特征精度。

可选地，在本申请实施例中，对第一多视角图像的图像特征进行深度估计，包括：使用单目深度估计网络对第一多视角图像的图像特征进行点云预测估计，获得估计出的点云数据，单目深度估计网络是使用激光雷达获取的点云数据训练获得的。在上述方案的实现过程中，通过使用单目深度估计网络来进行深度估计的方式，对多视时序立体匹配的计算结果进行补偿，从而使得深度信息的估计更加准确，提高了点云数据的估计精度。

可选地，在本申请实施例中，对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐，包括：对估计出的点云数据和匹配的点云数据进行融合，获得融合的点云数据；对融合的点云数据进行归一化，获得归一化后的点云数据；对归一化的点云数据进行对齐，获得对齐后的点云数据。在上述方案的实现过程中，通过对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐，从而增加了点云数据在时域和空域上对齐的鲁棒性。

可选地，在本申请实施例中，相机参数包括：内部参数和外部参数；根据第一多视角图像的相机参数从第一多视角图像的图像特征中提取出上下文特征，包括：将内部参数和外部参数进行展平和拼接，获得参数输入向量，并将参数输入向量扩展为多维向量；使用多维向量对图像特征进行加权融合，获得上下文特征。在上述方案的实现过程中，通过将内部参数和外部参数进行展平和拼接后的参数输入向量作为加权融合的一部分，从而进一步地高了深度估计的质量。

可选地，在本申请实施例中，对上下文特征和对齐后的点云数据进行外积操作和体素池化操作，包括：对上下文特征和对齐后的点云数据进行外积操作，获得点云特征；对点云特征进行体素池化操作，获得BEV特征。在上述方案的实现过程中，通过：对上下文特征和对齐后的点云数据进行外积操作，获得点云特征，并对点云特征进行体素池化操作，从而增加点云数据在时域上对齐的鲁棒性。

可选地，在本申请实施例中，至少一个机器视觉任务包括：自动驾驶场景中的目标检测任务、地图语义分割任务和/或运动轨迹预测任务；在获得鸟瞰图BEV特征之后，还包括：获取多个时刻的BEV特征，多个时刻的BEV特征包括：当前时刻对应的BEV特征；对多个时刻的BEV特征进行拼接融合，获得BEV融合特征；使用BEV融合特征对目标检测任务、地图语义分割任务和/或运动轨迹预测任务进行学习。在上述方案的实现过程中，通过使用BEV融合特征同时对目标检测任务、地图语义分割任务和运动轨迹预测任务进行学习，从而实现端到端的多任务学习，且在不同任务之间的相互促进及提升性能，避免了每个任务单独割裂学习训练的情况，有效地节约了多个任务训练的计算资源。

本申请实施例还提供了一种自动驾驶BEV任务学习装置，包括：图像特征提取模块，用于获取自动驾驶场景中的当前时刻的第一多视角图像，并提取出第一多视角图像的图像特征，多视角图像是同一时刻从自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像；时序立体匹配模块，用于获取上一时刻的第二多视角图像的图像特征，并对第一多视角图像的图像特征与第二多视角图像的图像特征进行时序立体匹配，获得匹配的点云数据，第一多视角图像的拍摄视角与第二多视角图像的拍摄视角是相同的；图像深度估计模块，用于对第一多视角图像的图像特征进行深度估计，获得估计出的点云数据，并对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据；BEV特征获得模块，用于根据第一多视角图像的相机参数从第一多视角图像的图像特征中提取出上下文特征，并对上下文特征和对齐后的点云数据进行外积操作和体素池化操作，获得鸟瞰图BEV特征，BEV特征用于对至少一个机器视觉任务进行学习。

可选地，在本申请实施例中，时序立体匹配模块，包括：单应矩阵计算子模块，用于计算第一多视角图像的图像特征与第二多视角图像的图像特征之间的单应性矩阵；深度信息获得子模块，用于获取上一时刻的深度信息，使用单应性矩阵对上一时刻的深度信息进行深度估计，获得当前时刻的深度信息；特征网格采样子模块，用于对当前时刻的深度信息和第一多视角图像的图像特征进行网格采样，获得特征体；相关相似计算子模块，用于对特征体和第一多视角图像的图像特征进行组相关相似度计算，获得代价体；代价体正则化子模块，用于对代价体进行正则化，获得匹配的点云数据。

可选地，在本申请实施例中，图像深度估计模块，包括：点云预测估计子模块，用于点云数据使用单目深度估计网络对第一多视角图像的图像特征进行点云预测估计，获得估计出的点云数据，单目深度估计网络是使用激光雷达获取的点云数据训练获得的。

可选地，在本申请实施例中，图像深度估计模块，包括：点云数据融合子模块，用于对估计出的点云数据和匹配的点云数据进行融合，获得融合的点云数据；点云数据归一化模块，用于对融合的点云数据进行归一化，获得归一化后的点云数据；点云数据对齐子模块，用于对归一化的点云数据进行对齐，获得对齐后的点云数据。

可选地，在本申请实施例中，相机参数包括：内部参数和外部参数；BEV特征获得模块，包括：向量获得扩展子模块，用于将内部参数和外部参数进行展平和拼接，获得参数输入向量，并将参数输入向量扩展为多维向量；特征加权融合子模块，用于使用多维向量对图像特征进行加权融合，获得上下文特征。

可选地，在本申请实施例中，BEV特征获得模块，包括：数据特征外积子模块，用于对上下文特征和对齐后的点云数据进行外积操作，获得点云特征；体素池化操作子模块，用于对点云特征进行体素池化操作，获得BEV特征。

可选地，在本申请实施例中，至少一个机器视觉任务包括：自动驾驶场景中的目标检测任务、地图语义分割任务和/或运动轨迹预测任务；自动驾驶BEV任务学习装置，还包括：BEV特征获取模块，用于获取多个时刻的BEV特征，多个时刻的BEV特征包括：当前时刻对应的BEV特征；BEV特征融合模块，用于对多个时刻的BEV特征进行拼接融合，获得BEV融合特征；BEV任务学习模块，用于使用BEV融合特征对目标检测任务、地图语义分割任务和/或运动轨迹预测任务进行学习。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

本申请实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请实施例中的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的自动驾驶BEV任务学习方法的流程示意图；

图2示出的本申请实施例提供的鸟瞰图BEV特征的提取过程示意图；

图3示出的本申请实施例提供的使用BEV特征进行多任务学习的流程示意图；

图4示出的本申请实施例提供的自动驾驶BEV任务学习装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请实施例中的附图仅起到说明和描述的目的，并不用于限定本申请实施例的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请实施例中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请实施例内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请实施例的一部分，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围，而是仅仅表示本申请实施例的选定实施例。

可以理解的是，本申请实施例中的“第一”“第二”用于区别类似的对象。本领域技术人员可以理解“第一”“第二”等字样并不对数量和执行次序进行限定，并且“第一”“第二”等字样也并不限定一定不同。在本申请实施例的描述中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。术语“多个”指的是两个以上(包括两个)，同理，“多组”指的是两组以上(包括两组)。

在介绍本申请实施例提供的自动驾驶BEV任务学习方法之前，先介绍本申请实施例中所涉及的一些概念：

鸟瞰图(Bird’s Eye View，BEV)，是一种用于描述感知世界的视角或坐标系(3D)。

多任务学习(Multi-Task Learning，MTL)是一种推导迁移学习方法，多任务学习能够实现不同任务之间的相互促进及提升性能，多任务学习与各个任务学习单独计算相比，能够节约计算成本。

需要说明的是，本申请实施例提供的自动驾驶BEV任务学习方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。该电子设备上可以运行的操作系统包括：Centos7.6系统或者ubuntu系统等等。

下面介绍该自动驾驶BEV任务学习方法适用的应用场景，这里的应用场景包括但不限于：自动驾驶汽车、行走机器人、无人机或特殊环境仿真等，此处的特殊环境仿真包括但不限于：太空仿真、海底仿真、航空仿真或危险环境仿真等等。可以使用该自动驾驶BEV任务学习方法完善或升级自动驾驶汽车、行走机器人和/或无人机上执行的目标检测任务、地图语义分割任务和/或运动轨迹预测任务等等机器视觉任务进行学习等。可以理解的是，为了便于理解和说明，下面均以自动驾驶汽车的应用场景为例进行详细说明。

请参见图1示出的本申请实施例提供的自动驾驶BEV任务学习方法的流程示意图；该自动驾驶BEV任务学习方法的主要思路是，基于多个对齐的连续视频帧，同时利用多视角图像进行时序立体匹配后，获得能够表征感知世界的视角或坐标系的BEV特征，所以该BEV特征也能够表征几何深度信息特征，从而通过使用BEV特征对机器视觉任务进行学习，能够有效地避免自动驾驶汽车在行驶时的安全隐患。上述自动驾驶BEV任务学习方法的实施方式可以包括：

步骤S110：获取自动驾驶场景中的当前时刻的第一多视角图像，并提取出第一多视角图像的图像特征，多视角图像是同一时刻从自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像。

多视角图像，是指从多个视角拍摄的图像，该多视角图像可以是多个相机在多个不同视角下的同一时刻拍摄的图像，此处的多个视角包括但不限于：前面视角、左前视角、右前视角、后面视角、左后视角和右后视角。

上述步骤S110中的当前时刻的第一多视角图像的获取方式可以包括：第一种获取方式，从多个不同相机中获取当前时刻的第一多视角图像，具体例如：从自动驾驶汽车、行走机器人和/或无人机上安装的多个不同相机中获取当前时刻的第一多视角图像，自动驾驶汽车、行走机器人和/或无人机还可以向电子设备发送第一多视角图像，然后电子设备接收终端设备发送的第一多视角图像，电子设备可以将第一多视角图像存储至文件系统、数据库或移动存储设备中。第二种获取方式，获取预先存储的第一多视角图像，具体例如：从文件系统、数据库或移动存储设备中获取第一多视角图像；第三种获取方式，使用浏览器等软件获取互联网上的第一多视角图像，或者使用其它应用程序访问互联网获取第一多视角图像。

请参见图2示出的本申请实施例提供的鸟瞰图BEV特征的提取过程示意图；假设当前时刻是第t时刻，那么上一时刻就是第t-1时刻，上述步骤S110中的提取出第一多视角图像的图像特征的实施方式例如：使用图像特征提取器提取出第一多视角图像的图像特征，多视角图像是同一时刻从自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像，该图像特征可以表示为F^2d，其中，N为相机个数，C为特征通道维度，H和W分别表示图像特征的高度和宽度。此处的图像特征提取器又被称为图像特征提取网络，该图像特征提取器可以采用ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等残差网络。

步骤S120：获取上一时刻的第二多视角图像的图像特征，并对第一多视角图像的图像特征与第二多视角图像的图像特征进行时序立体匹配，获得匹配的点云数据，第一多视角图像的拍摄视角与第二多视角图像的拍摄视角是相同的。

步骤S130：对第一多视角图像的图像特征进行深度估计，获得估计出的点云数据，并对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据。

步骤S140：根据第一多视角图像的相机参数从第一多视角图像的图像特征中提取出上下文特征，并对上下文特征和对齐后的点云数据进行外积操作和体素池化操作，获得鸟瞰图BEV特征，BEV特征用于对至少一个机器视觉任务进行学习。

可以理解的是，相机参数可以包括内部参数(又被简称为内参K)和外部参数(又被简称为外参E)，其中，K是相机参数的内部参数，内部参数的作用是将相机坐标系转换到像素坐标系，E是相机参数的外部参数(即旋转平移矩阵)，外部参数的作用是将世界坐标系转换到相机坐标系。可以理解的是，上述的上下文(Context)特征又被称为上下文感知特征。上述步骤S120至步骤S140的实施方式有很多种，因此，将在下面详细地介绍上述步骤S120至步骤S140的实施方式。

在上述的实现过程中，通过获得的鸟瞰图BEV特征来表征几何深度信息特征，由于该BEV特征是对时序立体匹配的点云数据和深度估计出的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据，并对多视角图像的图像特征中提取的上下文特征与对齐后的点云数据进行外积操作和体素池化操作获得的，因此，该BEV特征是能够表征感知世界的视角或坐标系的特征，所以该BEV特征也能够表征几何深度信息特征，从而通过使用BEV特征对机器视觉任务进行学习，能够有效地避免自动驾驶汽车在行驶时的安全隐患。

作为上述步骤S120的一种可选实施方式，在对第一多视角图像的图像特征与第二多视角图像的图像特征进行时序立体匹配时，可以根据单应性矩阵来进行匹配。该实施方式可以包括：

步骤S121：计算第一多视角图像的图像特征与第二多视角图像的图像特征之间的单应性矩阵。

可以理解的是，假设当前时刻是第t时刻，那么上一时刻就是第t-1时刻，第一多视角图像的图像特征就是第t时刻的多视角图像的图像特征，同理地，第二多视角图像的图像特征就是第t-1时刻的多视角图像的图像特征。参照图2中的多视时序立体匹配的操作，此处的多视时序立体匹配的作用是根据第t-1时刻的多视角图像的图像特征和深度信息来估计出第t时刻的多视角图像的深度信息。

上述步骤S121的实施方式具体例如：可以理解的是，，可以使用公式来计算第一多视角图像的图像特征与第二多视角图像的图像特征之间的单应性矩阵；其中，d代表采样深度，H_ij(d)表示第t-1时刻的第j个视角图像的图像特征与(采样深度为d的)第t时刻的第i个视角图像的图像特征之间的单应性矩阵，K_j表示第j个视角图像的相机参数的内部参数矩阵，K_i表示第i个视角图像的相机参数的内部参数矩阵，R_j表示第j个视角图像的相机坐标到自动驾驶汽车的旋转矩阵，R_i表示第i个视角图像的相机坐标到自动驾驶汽车的旋转矩阵，T_j表示第j个视角图像的相机坐标到自动驾驶汽车的平移矩阵，T_i表示第i个视角图像的相机坐标到自动驾驶汽车的平移矩阵，I表示单位矩阵，n₁表示参考相机的主光轴方向。

步骤S122：获取上一时刻的深度信息，使用单应性矩阵对上一时刻的深度信息进行深度估计，获得当前时刻的深度信息。

上述步骤S122的实施方式例如：假设当前时刻是第t时刻，且上一时刻就是第t-1时刻，可以将第t-1时刻的多视角图像作为源图像，且将第t时刻的多视角图像作为参考图像，那么获取的第t-1时刻的第j个视角图像相对于第t时刻的第i个视角图像的对应采样位置的深度信息，该深度信息可以表示为其中，D表示深度的划分个数(例如单目检测的深度信息或双目检测的深度信息)，H和W分别表示特征的高度和宽度。然后，可以使用公式/>对单应性矩阵和上一时刻的深度信息进行计算，获得当前时刻的深度信息；其中，/>表示第t时刻的第i个视角图像的对应采样位置的深度信息，H_ij(d)表示第t-1时刻的第j个视角图像的图像特征与(采样深度为d的)第t时刻的第i个视角图像的图像特征之间的单应性矩阵，/>表示第t-1时刻(即上一时刻)的第i个视角图像的深度信息。

步骤S123：对当前时刻的深度信息和第一多视角图像的图像特征进行网格采样，获得特征体。

上述步骤S123的实施方式例如：可以理解的是，由于第t时刻的多视角图像作为参考图像中的一个像素点可能只会部分出现在第t-1时刻的多视角图像作为源图像中，因此，第t时刻的第i个视角图像的对应采样位置的深度信息中的一部分像素点的深度信息是无效的，所以，需要采样出有效像素点的深度信息，最终，使用网格采样(grid sample)技术对当前时刻的深度信息(可以表示为)和第一多视角图像的图像特征(可以表示为F^2d)进行网格采样，获得的特征体可以表示为/>C为特征通道维度，D表示深度的划分个数(例如单目检测的深度信息或双目检测的深度信息)，H和W分别表示特征体的高度和宽度。

步骤S124：对特征体和第一多视角图像的图像特征进行组相关相似度计算，获得代价体。

上述步骤S124的实施方式例如：可以利用组相关相似度度量(group-wisecorrelation similarity measure)来计算出代价体，具体来说，可以使用公式对特征体和第一多视角图像的图像特征进行组相关相似度计算，获得代价体；其中，/>表示第i个视角图像的第g组代价体，G为分组个数，C表示预设常数，/>表示第i个视角图像中的第g组的图像特征，⊙为内积操作，/>表示第v个视角图像的第g组特征体。

步骤S125：对代价体进行正则化，获得匹配的点云数据。

上述步骤S125的实施方式例如：即基于编码器-解码器的原理，利用3D卷积神经网络对代价体进行正则化，将代价体的G通道维度降为1通道，得到基于多视时序立体匹配生成的匹配点云数据，上述的的3D卷积神经网络可以采用3D Unet网络模型。

作为上述步骤S130的一种可选实施方式，在对第一多视角图像的图像特征进行深度估计时，为了对图像中的无纹理区域和运动物体进行更加精确地深度估计，可以使用单目深度估计网络来进行深度估计的方式，对多视时序立体匹配的计算结果进行补偿，该实施方式可以包括：

步骤S131：使用单目深度估计网络对第一多视角图像的图像特征进行点云预测估计，获得估计出的点云数据，单目深度估计网络是使用激光雷达获取的点云数据训练获得的。

上述步骤S131的实施方式例如：使用单目深度估计网络对第一多视角图像的图像特征进行点云预测估计，获得估计出的点云数据，其中，此处的单目深度估计网络可以采用ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等残差网络(Residual Network，ResNet)模型。由于该单目深度估计网络是使用雷达采集目标对象的三维点云数据，并可以使用公式P^img′＝KTP对目标对象的三维点云数据进行最小池化(min-pooling)、独热(one-hot)编码和对齐操作处理后的真值点云训练获得的，其中，P表示原始的三维点云数据，T表示将三维点云数据转换到像素坐标系下的数据，K表示转换成2.5D图像坐标系下的点云数据，点云数据中的点云可以表示为P^img(u，v，d)；其中，u和v表示像素坐标系下的像素位置，d表示点云的深度信息。因此，在将第一多视角图像的图像特征输入到单目深度估计网络之后，能够获得预测估计出的点云数据，此处的预测估计出的点云数据可以表示为其中，N为相机个数，，D代表深度的划分个数(例如：单目深度或双目深度等等)，H和W分别表示点云数据的高度和宽度。

作为上述步骤S130的一种可选实施方式，对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐的实施方式可以包括：

步骤S132：对估计出的点云数据和匹配的点云数据进行融合，获得融合的点云数据。

步骤S133：对融合的点云数据进行归一化，获得归一化后的点云数据。

上述步骤S132至步骤S133的实施方式例如：对估计出的点云数据(可以表示为D^mono)和匹配的点云数据进行相加融合，获得融合的点云数据。然后，使用Softmax操作对融合的点云数据进行归一化，获得归一化后的点云数据。

步骤S134：对归一化的点云数据进行对齐，获得对齐后的点云数据。

上述步骤S134的实施方式具体例如：可以理解的是，可以使用公式P^cur＝T^global2cur·T^post2global·P^post对归一化的点云数据进行对齐，获得对齐后的点云数据。其中，P^cur表示对齐后的点云数据，T^global2cur表示由全局坐标系转换为点云数据的坐标系，T^post2global表示将过去时刻的点云数据的坐标系转换为全局坐标系。

作为上述步骤S140的一种可选实施方式，上述的相机参数可以包括：内部参数和外部参数；在根据第一多视角图像的相机参数从第一多视角图像的图像特征中提取出上下文特征时，可以根据内部参数和外部参数展平和拼接的向量来加权融合获得，该实施方式可以包括：

步骤S141：将内部参数和外部参数进行展平和拼接，获得参数输入向量，并将参数输入向量扩展为多维向量。

上述步骤S141的实施方式例如：对于相机参数的内部参数(又被简称为内参K)和外部参数(又被简称为外参E)，先将内部参数和外部参数进行展平和拼接，获得参数输入向量，并利用多层感知器(Multi-Layer Perceptron，MLP)将参数输入向量扩展到C维，从而获得C维的多维向量。

步骤S142：使用多维向量对图像特征进行加权融合，获得上下文特征。

上述步骤S142的实施方式例如：通过挤压激振网络(Squeeze-and-ExcitationNetworks，SENet)利用C维的多维向量对图像特征(该图像特征可以表示为F^2d)进行加权融合，获得上下文特征(又被称为上下文感知特征)。

可以理解的是，上述步骤S141至步骤S142的处理过程可以使用公式表示为F^ctx＝SE(F^2d，MLP(concat(flatten(E)，flatten(K))))，其中，K表示相机参数的内部参数，E表示相机参数的外部参数，flatten为展平操作，concat为拼接操作，MLP表示多层感知器的处理操作，F^2d表示多视角图像的图像特征，SE表示挤压激振网络的处理操作，F^ctx是获得的上下文特征(又被称为上下文感知特征)，上下文特征的尺寸大小与F^2d相同。在上述的实现过程中，通过将内部参数和外部参数进行展平和拼接后的参数输入向量作为加权融合的一部分，从而进一步地高了深度估计的质量和目标检测的准确率。

作为上述步骤S140的一种可选实施方式，在对上下文特征和对齐后的点云数据进行外积操作和体素池化操作时，可以根据外积操作的点云特征来获得，该实施方式可以包括：

步骤S143：对上下文特征和对齐后的点云数据进行外积操作，获得点云特征。

步骤S144：对点云特征进行体素池化操作，获得BEV特征。

上述步骤S143至步骤S144的实施方式例如：使用预设编程语言编译或者解释的可执行程序获取对齐点云数据，并使用公式对上下文特征和对齐点云数据进行外积操作，获得点云特征，该点云特征可以表示为/>其中，F^pc表示点云特征，F^ctx表示上下文特征，P^cur表示对齐点云数据，/>表示外积操作，N为相机个数，C为特征通道维度，H和W分别表示特征的高度和宽度。然后，使用PointPillars方法对点云特征进行处理，即将每个点分配到其最近的柱体，进一步地，对点云特征进行求和体素池化操作，获得当前时刻的鸟瞰图特征(即BEV特征)，该BEV特征可以表示为其中，N为相机个数，C为特征通道维度，X和Y分别表示BEV特征的长度和宽度。

请参见图3示出的本申请实施例提供的使用BEV特征进行多任务学习的流程示意图；作为上述自动驾驶BEV任务学习方法的一种可选实施方式，上述的至少一个机器视觉任务可以包括：自动驾驶场景中的目标检测任务、地图语义分割任务和/或运动轨迹预测任务等等；在获得鸟瞰图BEV特征之后，还可以使用BEV特征进行多任务学习，该实施方式可以包括：

步骤S210：获取多个时刻的BEV特征，多个时刻的BEV特征包括：当前时刻对应的BEV特征。

上述步骤S210的实施方式例如：可以理解的是，对于过去的每个时刻，都可以使用上述的步骤S110至步骤S140来生成BEV特征，从而获得过去多个时刻的BEV特征，所以过去多个时刻的BEV特征包括当前时刻对应的BEV特征。

步骤S220：对多个时刻的BEV特征进行拼接融合，获得BEV融合特征。

上述步骤S220的实施方式具体例如：可以理解的是，在获得过去多个时刻的BEV特征(例如T个时刻的BEV特征)之后，还可以对T个时刻的BEV特征进行拼接融合，获得融合后的BEV融合特征。可以使用公式对多个时刻的BEV特征进行拼接融合，获得BEV融合特征。其中，F^bev-ts表示融合后的鸟瞰图特征，表示对齐后的第t时刻的鸟瞰图特征，/>表示对齐后的第t-1时刻的鸟瞰图特征，concat表示拼接融合操作。

步骤S230：使用BEV融合特征对目标检测任务、地图语义分割任务和/或运动轨迹预测任务进行学习。

上述步骤S230的实施方式例如：在获得基于时空融合后的BEV融合特征之后，还可以使用BEV融合特征对目标检测任务、地图语义分割任务和/或运动轨迹预测任务等等一个任务或者多任务进行学习训练。

可以理解的是，在使用BEV融合特征对目标检测任务、地图语义分割任务和运动轨迹预测任务的多任务学习训练时，可以采用多任务学习的损失函数来对目标检测任务、地图语义分割任务和运动轨迹预测任务进行同时训练，其中，/>表示总损失值，/>表示目标检测任务的损失值，/>表示地图语义分割任务的损失值，/>表示运动轨迹预测任务的损失值，α、β、γ分别表示目标检测任务、地图语义分割任务和运动轨迹预测任务的。

请参见图4示出的本申请实施例提供的自动驾驶BEV任务学习装置的结构示意图；本申请实施例提供了一种自动驾驶BEV任务学习装置300，包括：

图像特征提取模块310，用于获取自动驾驶场景中的当前时刻的第一多视角图像，并提取出第一多视角图像的图像特征，多视角图像是同一时刻从自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像。

时序立体匹配模块320，用于获取上一时刻的第二多视角图像的图像特征，并对第一多视角图像的图像特征与第二多视角图像的图像特征进行时序立体匹配，获得匹配的点云数据，第一多视角图像的拍摄视角与第二多视角图像的拍摄视角是相同的。

图像深度估计模块330，用于对第一多视角图像的图像特征进行深度估计，获得估计出的点云数据，并对估计出的点云数据和匹配的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据。

BEV特征获得模块340，用于根据第一多视角图像的相机参数从第一多视角图像的图像特征中提取出上下文特征，并对上下文特征和对齐后的点云数据进行外积操作和体素池化操作，获得鸟瞰图BEV特征，BEV特征用于对至少一个机器视觉任务进行学习。

可选地，在本申请实施例中，时序立体匹配模块，包括：

单应矩阵计算子模块，用于计算第一多视角图像的图像特征与第二多视角图像的图像特征之间的单应性矩阵。

深度信息获得子模块，用于获取上一时刻的深度信息，使用单应性矩阵对上一时刻的深度信息进行深度估计，获得当前时刻的深度信息。

特征网格采样子模块，用于对当前时刻的深度信息和第一多视角图像的图像特征进行网格采样，获得特征体。

相关相似计算子模块，用于对特征体和第一多视角图像的图像特征进行组相关相似度计算，获得代价体。

代价体正则化子模块，用于对代价体进行正则化，获得匹配的点云数据。

可选地，在本申请实施例中，图像深度估计模块，包括：

点云预测估计子模块，用于点云数据使用单目深度估计网络对第一多视角图像的图像特征进行点云预测估计，获得估计出的点云数据，单目深度估计网络是使用激光雷达获取的点云数据训练获得的。

可选地，在本申请实施例中，图像深度估计模块，包括：

点云数据融合子模块，用于对估计出的点云数据和匹配的点云数据进行融合，获得融合的点云数据。

点云数据归一化模块，用于对融合的点云数据进行归一化，获得归一化后的点云数据。

点云数据对齐子模块，用于对归一化的点云数据进行对齐，获得对齐后的点云数据。

可选地，在本申请实施例中，相机参数包括：内部参数和外部参数；BEV特征获得模块，包括：

向量获得扩展子模块，用于将内部参数和外部参数进行展平和拼接，获得参数输入向量，并将参数输入向量扩展为多维向量。

特征加权融合子模块，用于使用多维向量对图像特征进行加权融合，获得上下文特征。

可选地，在本申请实施例中，BEV特征获得模块，包括：

数据特征外积子模块，用于对上下文特征和对齐后的点云数据进行外积操作，获得点云特征。

体素池化操作子模块，用于对点云特征进行体素池化操作，获得BEV特征。

可选地，在本申请实施例中，至少一个机器视觉任务包括：自动驾驶场景中的目标检测任务、地图语义分割任务和/或运动轨迹预测任务；自动驾驶BEV任务学习装置，还包括：

BEV特征获取模块，用于获取多个时刻的BEV特征，多个时刻的BEV特征包括：当前时刻对应的BEV特征。

BEV特征融合模块，用于对多个时刻的BEV特征进行拼接融合，获得BEV融合特征。

BEV任务学习模块，用于使用BEV融合特征对目标检测任务、地图语义分割任务和/或运动轨迹预测任务进行学习。

应理解的是，该装置与上述的自动驾驶BEV任务学习方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质430，该计算机可读存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。其中，计算机可读存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。此外，在本说明书的描述中，参考术语“一个实施例”“一些实施例”“示例”“具体示例”“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种自动驾驶BEV任务学习方法，其特征在于，包括：

获取自动驾驶场景中的当前时刻的第一多视角图像，并提取出所述第一多视角图像的图像特征，所述多视角图像是同一时刻从所述自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像；

获取上一时刻的第二多视角图像的图像特征，并对所述第一多视角图像的图像特征与所述第二多视角图像的图像特征进行时序立体匹配，获得匹配的点云数据，所述第一多视角图像的拍摄视角与所述第二多视角图像的拍摄视角是相同的；

对所述第一多视角图像的图像特征进行深度估计，获得估计出的点云数据，并对所述估计出的点云数据和所述匹配的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据；

根据所述第一多视角图像的相机参数从所述第一多视角图像的图像特征中提取出上下文特征，并对所述上下文特征和所述对齐后的点云数据进行外积操作和体素池化操作，获得鸟瞰图BEV特征，所述BEV特征用于对至少一个机器视觉任务进行学习。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一多视角图像的图像特征与所述第二多视角图像的图像特征进行时序立体匹配，包括：

计算所述第一多视角图像的图像特征与所述第二多视角图像的图像特征之间的单应性矩阵；

获取所述上一时刻的深度信息，使用所述单应性矩阵对所述上一时刻的深度信息进行深度估计，获得当前时刻的深度信息；

对所述当前时刻的深度信息和所述第一多视角图像的图像特征进行网格采样，获得特征体；

对所述特征体和所述第一多视角图像的图像特征进行组相关相似度计算，获得代价体；

对所述代价体进行正则化，获得所述匹配的点云数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一多视角图像的图像特征进行深度估计，包括：

使用单目深度估计网络对所述第一多视角图像的图像特征进行点云预测估计，获得估计出的点云数据，所述单目深度估计网络是使用激光雷达获取的点云数据训练获得的。

4.根据权利要求1所述的方法，其特征在于，所述对所述估计出的点云数据和所述匹配的点云数据进行融合、归一化处理和对齐，包括：

对所述估计出的点云数据和所述匹配的点云数据进行融合，获得融合的点云数据；

对所述融合的点云数据进行归一化，获得归一化后的点云数据；

对所述归一化的点云数据进行对齐，获得所述对齐后的点云数据。

5.根据权利要求1所述的方法，其特征在于，所述相机参数包括：内部参数和外部参数；所述根据所述第一多视角图像的相机参数从所述第一多视角图像的图像特征中提取出上下文特征，包括：

将所述内部参数和所述外部参数进行展平和拼接，获得参数输入向量，并将所述参数输入向量扩展为多维向量；

使用所述多维向量对所述图像特征进行加权融合，获得所述上下文特征。

6.根据权利要求1所述的方法，其特征在于，所述对所述上下文特征和所述对齐后的点云数据进行外积操作和体素池化操作，包括：

对所述上下文特征和所述对齐后的点云数据进行外积操作，获得点云特征；

对所述点云特征进行体素池化操作，获得所述BEV特征。

7.根据权利要求1-6任一所述的方法，其特征在于，所述至少一个机器视觉任务包括：自动驾驶场景中的目标检测任务、地图语义分割任务和/或运动轨迹预测任务；在所述获得鸟瞰图BEV特征之后，还包括：

获取多个时刻的BEV特征，所述多个时刻的BEV特征包括：所述当前时刻对应的BEV特征；

对所述多个时刻的BEV特征进行拼接融合，获得BEV融合特征；

使用所述BEV融合特征对目标检测任务、地图语义分割任务和/或运动轨迹预测任务进行学习。

8.一种自动驾驶BEV任务学习装置，其特征在于，包括：

图像特征提取模块，用于获取自动驾驶场景中的当前时刻的第一多视角图像，并提取出所述第一多视角图像的图像特征，所述多视角图像是同一时刻从所述自动驾驶场景中的自动驾驶车辆的多个视角拍摄的图像；

时序立体匹配模块，用于获取上一时刻的第二多视角图像的图像特征，并对所述第一多视角图像的图像特征与所述第二多视角图像的图像特征进行时序立体匹配，获得匹配的点云数据，所述第一多视角图像的拍摄视角与所述第二多视角图像的拍摄视角是相同的；

图像深度估计模块，用于对所述第一多视角图像的图像特征进行深度估计，获得估计出的点云数据，并对所述估计出的点云数据和所述匹配的点云数据进行融合、归一化处理和对齐，获得对齐后的点云数据；

BEV特征获得模块，用于根据所述第一多视角图像的相机参数从所述第一多视角图像的图像特征中提取出上下文特征，并对所述上下文特征和所述对齐后的点云数据进行外积操作和体素池化操作，获得鸟瞰图BEV特征，所述BEV特征用于对至少一个机器视觉任务进行学习。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。