CN116168362A

CN116168362A - 车辆感知模型的预训练方法、装置、电子设备及车辆

Info

Publication number: CN116168362A
Application number: CN202310212445.5A
Authority: CN
Inventors: 林蕾; 熊安斌; 杨奎元
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-26

Abstract

本公开是关于一种车辆感知模型的预训练方法、装置、电子设备及车辆，该感知模型包括编码器层和解码器层，该方法包括：获取车辆周围环境的多个样本周视图像，其中，每个样本周视图像对应一个时刻；将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV空间下的时间序列特征向量；通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像；基于预测图像对待训练感知模型进行训练，以得到目标感知模型。本公开降低了感知模型在训练过程中所需的成本，提高了感知模型训练的效率。

Description

车辆感知模型的预训练方法、装置、电子设备及车辆

技术领域

本公开涉及自动驾驶技术领域，尤其涉及智能感知、规划控制技术领域。

背景技术

随着科学技术的不断发展，自动驾驶技术越来越多的应用到车辆中。其中，感知模型在车辆实现自动驾驶的路径规划和车辆行为控制的过程中起着重要的作用。具体地，车辆自动驾驶需要依据车辆周围环境的感知数据完成。感知数据是通过感知模型执行障碍物目标检测、障碍物追踪、障碍物轨迹预测、可行驶区域识别、车道线识别、交通标志识别、红绿灯识别等任务而得。

相关技术中，对感知模型进行训练的过程时，需要先对大量的样本数据进行针对性的标注，且还要确保数据标注的质量，再利用标注后的样本数据对感知模型进行训练。但是，在对大量样本数据进行标注的过程需要耗费较多时间和人工，从而使得感知模型的训练过程的成本较高，耗费时间较长。

发明内容

为克服相关技术中存在的问题，本公开提供一种车辆感知模型的预训练方法、装置及车辆。

根据本公开实施例的第一方面，提供一种车辆感知模型的预训练方法，所述感知模型包括编码器层和解码器层，所述方法包括：

获取车辆周围环境的多个样本周视图像，其中，每个样本周视图像对应一个时刻；

将所述多个样本周视图像输入至待训练感知模型，通过所述编码器层得到所述多个样本周视图像在鸟瞰视角BEV空间下的时间序列特征向量；

通过所述解码器层对所述BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到所述样本周视图像在目标时刻的预测图像，其中，N为正整数，所述目标时刻为预测样本周视图像的时刻，N个时刻与所述目标时刻形成连续的多个时刻；

基于所述预测图像对所述待训练感知模型进行训练，以得到目标感知模型。

根据本公开实施例的第二方面，提供一种车辆感知模型的预训练装置，所述感知模型包括编码器层和解码器层，所述装置包括：

获取模块，用于获取车辆周围环境的多个样本周视图像，其中，每个样本周视图像对应一个时刻；

第一处理模块，用于将所述多个样本周视图像输入至待训练感知模型，通过所述编码器层得到所述多个样本周视图像在鸟瞰视角BEV空间下的时间序列特征向量；

第二处理模块，用于通过所述解码器层对所述BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到所述样本周视图像在目标时刻的预测图像，其中，N为正整数，所述目标时刻为预测所述样本周视图像的时刻，N个时刻与所述目标时刻形成连续的多个时刻；

训练模块，用于基于所述预测图像对所述待训练感知模型进行训练，以得到目标感知模型。

根据本公开实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现前述一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供了一种车辆，包括上述电子设备或与上述电子设备连接

根据本公开实施例的第五方面，提供了一种非临时性计算机可读存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现前述一方面中任一项所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开提出的一种车辆感知模型的预训练方法、装置、电子设备及车辆中，其中，感知模型包括编码器层和解码器层，该方法包括：获取车辆周围环境的多个样本周视图像，其中，每个样本周视图像对应一个时刻；将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV空间下的时间序列特征向量；通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像，其中，N为正整数，目标时刻为预测样本周视图像的时刻，N个时刻与目标时刻形成连续的多个时刻；基于预测图像对待训练感知模型进行训练，以得到目标感知模型。由此，本公开在感知模型进行训练的过程中，直接将多个样本周视图像在BEV空间下的时间序列特征向量输入至解码器层，通过解码器层得到样本周视图像在目标时刻的预测图像，无需对输入解码器层中的向量进行标注，从而降低了感知模型在训练过程中所需的成本，提高了感知模型训练的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程示意图；

图2是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程示意图；

图3是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程示意图；

图4是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程示意图；

图5是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程示意图；

图6是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程示意图；

图7是根据本公开的一些实施例示出的一种感知模型的举例示意图；

图8是根据本公开的一些实施例示出的一种车辆感知模型的预训练装置的结构示意图；

图9是根据本公开的一些实施例示出的一种车辆的功能框图示意图。

具体实施方式

这里将详细地对本公开一些实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。本文所描述的方法、装置和/或系统的各种改变、变型及等同物将在理解本公开之后变得显而易见。例如，本文所描述的操作的顺序仅仅为示例，且并非受限于本文中所阐述的那些顺序，而是除了必须以特定顺序进行的操作之外，如在理解本公开之后变得显而易见的那样可进行改变。另外，为提升清楚性和简洁性，对本领域中已知的特征的描述可被省略。

以下本公开的一些实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程图，如图1所示，该方法可以包括以下步骤：

在步骤101中，获取车辆周围环境的多个样本周视图像。

其中，需要说明的是，上述车辆感知模型的预训练方法的执行主体为车辆感知模型的训练装置，该车辆感知模型的预训练装置可以由软件和/或硬件的方式实现，该实施例中的车辆感知模型的训练装置可以配置在电子设备中。

其中，本示例实施例中电子设备可以包括终端设备和服务器等设备，该实施例对电子设备不作限定。

本公开实施例中，上述每个样本周视图像对应一个时刻。

以及，在本公开一个实施例中，可以通过设置于车辆上的多视角相机获取车辆周围环境的多个相机图像(如6幅图像)，并将获取的每个时刻的多个相机图像作为样本周视图像。

进一步地，在本公开的另一个实施例中，可以获取车辆周围环境的路采数据，其中路采数据可以为车辆周围环境在一段时间内的视频数据，并将路采数据进行解析得到每个时刻对应帧的图像，从而获取车辆周围环境的多个样本周视图像，每个样本周视图像对应一个时刻。

以及，本公开实施例中，上述感知模型可以包括编码器层和解码器层。

在步骤102中，将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV(Birds Eye View，鸟瞰视角)空间下的时间序列特征向量。

在本公开实施例中，将多个样本周视图像输入待训练感知模型之后，可以通过编码器层中训练完成的深度卷积网络提取每个样本周视图像的图像特征，得到每个样本周视图像的图像特征向量，并通过视角变换算法将每个图像特征向量进行空间特征变换处理，得到每个样本周视图像在BEV空间下的鸟瞰图特征向量，然后提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量，得到样本周视图像在BEV空间下的时间序列特征向量，使得后续可以基于BEV空间下的时间序列特征向量进行预测得到预测图像。关于这部分内容会在后续实施例中进行详细介绍。

在步骤103中，通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像。

其中，在本公开实施例中，上述N为正整数，以及，上述目标时刻为预测样本周视图像的时刻，N个时刻与目标时刻形成连续的多个时刻。以及，在本公开实施例中，相连时刻的时间间隔可以为获取图像的时间间隔。

示例的，在本公开一个实施例中，假设目标时刻为10：00，每个样本周视图像对应的时刻间隔为1分钟，且N＝3时，则可以通过解码器层对BEV空间下的时间序列特征向量中位于10：00之前的3个时刻，也即是对9：59，9：58，9：57这3个时刻对应的时间序列特征向量进行处理，得到样本周视图像在10：00的预测图像。

示例的，在本公开另一个实施例之中，假设目标时刻为10：00，每个样本周视图像对应的时刻间隔为2分钟，且N＝4时，则可以通过解码器层对BEV空间下的时间序列特征向量中位于10：00之前的4个时刻，也即是对9：58，9：56，9：54，9：52这4个时刻对应的时间序列特征向量进行处理，得到样本周视图像在10：00的预测图像。

以及，在本公开实施例中，上述多个样本周视图像中，可以将每个样本周视图像对应的时刻作为目标时刻，并通过上述步骤103得到目标时刻对应的预测图像。

进一步地，在本公开实施例中，上述解码器层可以包括多个transformer decoder层，并利用多个transformer decoder层基于BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量，对目标时刻预设位置的周视图像进行预测，得到样本周视图像在目标时刻的预测图像。关于这部分内容会在后续实施例中进行详细介绍。

在步骤104中，基于预测图像对待训练感知模型进行训练，以得到目标感知模型。

其中，本公开实施例中，上述通过步骤103得到预测图像后，可以基于预测图像，得到待训练感知模型的损失值，并基于损失值更新上述解码器层的参数，直至解码器层收敛，以得到目标感知模型。关于这部分内容会在后续实施例中进行详细介绍。

以及，本公开实施例中，得到目标感知模型之后，可以根据具体感知任务对目标感知模型进行监督训练，以对目标感知模型进行模型微调，从而提高目标感知模型的泛化能力和下游任务的性能。

在本公开一个或多个实施例中，感知模型包括编码器层和解码器层，在感知模型进行训练的过程中，直接将多个样本周视图像在BEV空间下的时间序列特征向量输入至解码器层，通过解码器层得到样本周视图像在目标时刻的预测图像，无需对输入解码器层中的向量进行标注，从而降低了感知模型在训练过程中所需的成本，提高了感知模型训练的效率。

图2是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程图，如图2所示，该方法可以包括以下步骤：

在步骤201中、获取车辆周围环境的多个样本周视图像。

关于步骤201的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在步骤202中、通过训练完成的深度卷积网络提取每个样本周视图像的图像特征，得到每个样本周视图像的图像特征向量。

其中，本公开实施例中，上述深度卷积网络可以为ResNet(Residual Network，残差网络)模型。以及，上述ResNet模型与现有技术中的结构相同，关于ResNet模型的介绍可以参考现有技术中的相关介绍。

本公开实施例中，上述每个样本周视图像可以包括多个图像。其中，当每个样本周视图像中包括多个图像时，上述每个样本周视图像的图像特征向量可以包括每个图像对应的图像特征向量。

在步骤203中、通过视角变换算法将每个样本周视图像的图像特征向量进行空间特征变换处理，得到每个样本周视图像在BEV空间下的鸟瞰图特征向量。

在本公开实施例中，上述视角变换算法可以为IPM(Inverse PerspectiveMapping，逆透视变换)算法。以及，上述IPM算法与现有技术中的应用相同，关IPM算法的介绍可以参考现有技术中的相关介绍。

以及，在本公开实施例中，当上述每个样本周视图像的图像特征向量中包括多个图像中每个图像对应的图像特征向量时，通过上述步骤203可以将上述样本周视图像的多个多个图像特征向量合并到同个BEV空间下的鸟瞰图特征向量，以即是，每个样本周视图像对应合并后的一个鸟瞰图特征向量。

示例的，在本公开实施例中，通过步骤203得到的每个样本周视图像在BEV空间下的鸟瞰图特征向量可以为[W，H，C]，其中W为鸟瞰图特征向量的宽度，H为鸟瞰图特征向量的高度，C为鸟瞰图特征向量的维度。

在步骤204中，提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量，得到多个样本周视图像在BEV空间下的时间序列特征向量。

其中，在本公开实施例中，上述预设位置可以根据需要进行设置。

示例的，在本公开实施例中，可以根据样本周视图像获取障碍物的坐标，并将该坐标转成对应鸟瞰图特征向量中的预设位置(如第2行第2列)，并根据预设位置提取提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量，得到样本周视图像在BEV空间下的时间序列特征向量，并将该时间序列特征向量输入后续的解码器层以预测目标时刻障碍物的轨迹。

以及，在本公开实施例中，上述BEV空间下的时间序列特征向量可以为[T，C]，其中，T为历史帧的个数。其中，当上述鸟瞰图特征向量为[W，H，C]时，可以可以获取W*H条时间序列特征向量。

需要说明的是，在本公开实施例中，上述同一样本周围图像中邻近的像素可能会很相似，基于此，在提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量中可以过滤到相似向量，以减少后续训练过程中的计算量。

在步骤205中，通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像。

在步骤206中，基于预测图像对待训练感知模型进行训练，以得到目标感知模型。

关于步骤205～步骤206的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在本公开一个或多个实施例中，通过训练完成的深度卷积网络提取每个样本周视图像的图像特征，得到每个样本周视图像的图像特征向量，通过视角变换算法将每个样本周视图像的图像特征向量进行空间特征变换处理，得到每个样本周视图像在BEV空间下的鸟瞰图特征向量，提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量，得到样本周视图像在BEV空间下的时间序列特征向量。其中，本公开利用样本周视图像的图像在BEV空间下的时间序列特征向量得到样本周视图像的预测图像，使得后续得到的预测图像更加准确。

图3是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程图，如图3所示，该方法可以包括以下步骤：

在步骤301中，获取车辆周围环境的多个样本周视图像。

在步骤302中，将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV空间下的时间序列特征向量。

关于步骤301～步骤302的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在步骤303中，利用多个transformer decoder层基于BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量，对目标时刻预设位置的图像进行预测，得到样本周视图像在目标时刻的预测图像。

其中，在本公开实施例中，上述样本周视图像在目标时刻的预测图像的图像个数与样本周视图像中的图像个数相同。示例的，假设上述样本周视图像包括6幅图像，则通过上述步骤303得到的该样本周视图像在目标时刻的预测图像可以为预设位置对应的6幅图像。

需要说明的是，在本公开实施例中，上述样本周视图像在目标时刻的预测图像为预设位置在目标时刻的预测图像。具体地，假设上述预设位置为障碍物所在的位置，则目标时刻的预测图像，则是障碍物在目标时刻的预测图像，以便根据障碍物在目标时刻的预测图像，提前规划车辆的驾驶轨迹。

在本公开实施例中，上述解码器层的结构与GPT(Generative Pre-Train model，生成预训练模型)结构相同，且均可以包括多个transformer decoder层，以及，关于上述解码器层的结构可以参考现有技术的相关介绍，本公开实施例在此不做赘述。

在步骤304中，基于预测图像对待训练感知模型进行训练，以得到目标感知模型。

关于步骤304的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在本公开一个或多个实施例中，解码器层包括多个transformer decoder层，在感知模型进行训练的过程中，直接利用多个transformer decoder层基于BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量，对目标时刻预设位置的图像进行预测，得到样本周视图像在目标时刻的预测图像，无需对输入解码器层中的向量进行标注，从而降低了感知模型在训练过程中所需的成本，提高了感知模型训练的效率。

图4是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程图，如图4所示，该方法可以包括以下步骤：

在步骤401中，获取车辆周围环境的多个样本周视图像。

在步骤402中，将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV空间下的时间序列特征向量。

在步骤403中，通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像。

关于步骤401～步骤403的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在步骤404中，基于预测图像，得到待训练感知模型的损失值。

在本公开实施例中，通过上述步骤403得到目标时刻的预测图像后，获取需要进行损失计算的目标像素点对应的真实像素值，并获取预测图像中目标像素点对应的预测像素值，将真实像素值和预测像素值输入值损失函数中，得到待训练感知模型的损失值。关于这部分内容会在后续实施例中进行详细介绍。

在步骤405中，基于损失值更新解码器层的参数，直至解码器层收敛，以得到目标感知模型。

图5是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程图，如图5所示，该方法可以包括以下步骤：

在步骤501中，获取车辆周围环境的多个样本周视图像。

在步骤502中，将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV空间下的时间序列特征向量。

在步骤503中，通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像。

关于步骤501～步骤503的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在步骤504中，获取需要进行损失计算的目标像素点对应的真实像素值。

其中，在本公开实施例中，上述获取需要进行损失计算的目标像素点对应的真实像素值的方法可以包括以下步骤：

在步骤5041中，获取目标像素点在BEV空间下对应的目标向量位置；

在本公开实施例中，在BEV空间下对应的1个向量位置对应的像素值可以对应图像中的多个像素值，基于此，需要根据获取目标像素点在BEV空间下对应的目标向量位置，其中目标像素点可以为预测图像中的像素点，预测图像是样本周视图像在目标时刻预设位置的预测图像，基于此，获取目标像素点在BEV空间下对应的目标向量位置为上述预设位置。

在步骤5042中，基于目标向量位置，获取目标像素点在真实周视图像对应的像素值；

在本公开实施例中，可以基于参考点和投影函数反向推出目标向量位置在真实周视图像中对应的像素值。

以及，在本公开实施例中，目标向量位置映射到真实周视图像时，可能只存在真实图像中的部分图像中(比如只在后视图像、左视图像)，对于没有出现映射点的真实周视图像的其他图像，对应的像素值可以取-1进行填充。

示例的，在本公开实施例中，假设目标向量位置在真实周视图像上对应映射点2x2的像素值，则目标像素点在真实周视图像对应的像素大小为[6，4，3]，其中6为真实周视图像对应的图像个数，4为对应的每个图像对应的像素点个数，3为本公开采用GRB三色颜色系统。

在步骤5043中，将目标像素点在真实周视图像对应的像素值作为目标像素点对应的真实像素值。

在步骤505中，获取预测图像中目标像素点对应的预测像素值。

其中，在本公开实施例中，上述获取预测图像中目标像素点对应的预测像素值可以为上述解码器层输出的预测图像对应的像素值。

在步骤506中，将真实像素值和预测像素值输入至损失函数中，得到待训练感知模型的损失值。

其中，在本公开实施例中，上述损失函数可以为MAELoss(平均绝对误差损失函数)。

以及，在本公开实施例中，上述真实像素值中为-1的像素值不参与损失函数计算。

在步骤507中，基于损失值更新解码器层的参数，直至解码器层收敛，以得到目标感知模型。

图6是根据本公开的一些实施例示出的一种车辆感知模型的预训练方法的流程图，如图6所示，该方法可以包括以下步骤：

在步骤601中，获取车辆周围环境的多个样本周视图像。

在步骤602中，将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在BEV空间下的时间序列特征向量。

在步骤603中，通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像。

在步骤604中，基于预测图像对待训练感知模型进行训练，以得到目标感知模型。

关于步骤601～步骤604的相关介绍可以参考上述实施例中的详细介绍，本公开实施例在此不做赘述。

在步骤605中，获取车辆周围环境的待分析周视图像。

在步骤606中，将获取到的待分析周视图像输入至目标感知模型中，得到待分析周视图像对应的目标图像。

图7是根据一示例性实施例示出的一种感知模型GPT4D(Generative Pre-Train4-Dimensional model，生成式四维预训练模型)的举例示意图。参照图7所示，每个样本周视图像包括车辆周围环境的6幅图，并且获取t-1，...，t-N，N个时刻的样本周视图像，以对t时刻的图像进行预测。其中，解码器层中输出的预测图像为t时刻预设位置的预测图像。

图8是根据本公开的一些实施例示出的一种车辆感知模型的预训练装置的结构示意图，如图8所示，该装置包括获取模块801、第一处理模块802、第二处理模块803、训练模块804。

获取模块801，用于获取车辆周围环境的多个样本周视图像，其中，每个样本周视图像对应一个时刻；

第一处理模块802，用于将多个样本周视图像输入至待训练感知模型，通过编码器层得到多个样本周视图像在鸟瞰视角BEV空间下的时间序列特征向量；

第二处理模块803，用于通过解码器层对BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到样本周视图像在目标时刻的预测图像，其中，N为正整数，目标时刻为预测样本周视图像的时刻，N个时刻与目标时刻形成连续的多个时刻；

训练模块804，用于基于预测图像对待训练感知模型进行训练，以得到目标感知模型。

可选的，在本公开的一个实施例中，上述第一处理模块，具体用于：

通过训练完成的深度卷积网络提取每个样本周视图像的图像特征，得到每个样本周视图像的图像特征向量；

通过视角变换算法将每个样本周视图像的图像特征向量进行空间特征变换处理，得到每个样本周视图像在BEV空间下的鸟瞰图特征向量；

提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量，得到样本周视图像在BEV空间下的时间序列特征向量。

可选的，在本公开的一个实施例中，解码器层包括多个transformer decoder层；上述第二处理模块，具体用于：

利用多个transformer decoder层基于BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量，对目标时刻预设位置的周视图像进行预测，得到所述样本周视图像在目标时刻的预测图像。

可选的，在本公开的一个实施例中，上述训练模块，具体用于：

基于预测图像，得到待训练感知模型的损失值；

基于损失值更新所述解码器层的参数，直至解码器层收敛，以得到目标感知模型。

可选的，在本公开的一个实施例中，上述训练模块，还用于：

获取需要进行损失计算的目标像素点对应的真实像素值；

获取预测图像中所述目标像素点对应的预测像素值；

将真实像素值和预测像素值输入至损失函数中，得到待训练感知模型的损失值。

获取目标像素点在BEV空间下对应的目标向量位置；

基于目标向量位置，获取目标像素点在真实周视图像对应的像素值；

将目标像素点在真实周视图像对应的像素值作为目标像素点对应的真实像素值。

可选的，在本公开的一个实施例中，上述装置，还用于：

获取车辆周围环境的待分析周视图像；

将获取到的待分析周视图像输入至目标感知模型中，得到待分析周视图像对应的目标图像。

图9是根据一示例性实施例示出的一种车辆900的框图。例如，车辆900可以是混合动力车辆，也可以是非混合动力车辆、电动车辆、燃料电池车辆或者其他类型的车辆。车辆900可以是自动驾驶车辆、半自动驾驶车辆或者非自动驾驶车辆。

参照图9，车辆900可包括各种子系统，例如，信息娱乐系统910、感知系统920、决策控制系统930、驱动系统940以及计算平台950。其中，车辆900还可以包括更多或更少的子系统，并且每个子系统都可包括多个部件。另外，车辆900的每个子系统之间和每个部件之间可以通过有线或者无线的方式实现互连。

在一些实施例中，信息娱乐系统910可以包括通信系统，娱乐系统以及导航系统等。

感知系统920可以包括若干种传感器，用于感测车辆900周边的环境的信息。例如，感知系统920可包括全球定位系统(全球定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)、激光雷达、毫米波雷达、超声雷达以及摄像装置。

决策控制系统930可以包括计算系统、整车控制器、转向系统、油门以及制动系统。

驱动系统940可以包括为车辆900提供动力运动的组件。在一个实施例中，驱动系统940可以包括引擎、能量源、传动系统和车轮。引擎可以是内燃机、电动机、空气压缩引擎中的一种或者多种的组合。引擎能够将能量源提供的能量转换成机械能量。

车辆900的部分或所有功能受计算平台950控制。计算平台950可包括至少一个处理器951和存储器952，处理器951可以执行存储在存储器952中的指令959。

处理器951可以是任何常规的处理器，诸如商业可获得的CPU。处理器还可以包括诸如图像处理器(Graphic Process Unit，GPU)，现场可编程门阵列(Field ProgrammableGate Array，FPGA)、片上系统(System on Chip，SOC)、专用集成芯片(ApplicationSpecific Integrated Circuit，ASIC)或它们的组合。

存储器952可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

除了指令959以外，存储器952还可存储数据，例如道路地图，路线信息，车辆的位置、方向、速度等数据。存储器952存储的数据可以被计算平台950使用。

在本公开实施例中，处理器951可以执行指令959，以完成上述车辆感知模型的预训练方法的全部或部分步骤。

此外，在本文中使用词语“示例性的”以表示充当示例、实例、示图。在本文中被描述为“示例性的”任何方面或设计都不一定理解为与其他方面或设计相比是有利的。相反，使用词语示例性的旨在以具体的方式呈现概念。如在本文中所使用的，术语“或”旨在表示包括性的“或”而不是排他性的“或”。即，除非另外指定，或者从上下文中清楚，否则“X应用A或B”旨在表示自然的包括性排列中的任何一种排列。即，如果X应用A；X应用B；或者X应用A和B两者，则“X应用A或B”在前述实例中的任何一个实例下都满足。另外，除非另外指定或者从上下文中清楚指向单数形式，否则如在该申请和所附权利要求中所使用的冠词“一”和“一个”通常被理解为表示“一个或多个”。

同样，尽管已经关于一个或多个实现示出并描述了本公开，但是在阅读并理解了该说明书和附图之后，本领域技术人员将想到等同的变型和修改。本公开包括所有这样的修改和变型，并且仅由权利要求的范围来限制。特别关于由上文所描述的组件(例如，元件、资源等)执行的各种功能，除非另外指出，否则用于描述这样的组件的术语旨在对应于执行所描述的组件的具体功能的任何组件(功能上等价的)，即使结构上不等价于所公开的结构。另外，尽管可以已经关于几个实现中的仅仅一个而公开了本公开的特定的特征，但是如可以是期望的并且有利于任何给定的或特定的应用的那样，这样的特征可以与其它实现的一个或多个其它特征相结合。此外，就在具体实施方式或者权利要求中所使用的“包括”、“拥有”、“具有”、“有”、或其变型而言，这样的术语旨在作为类似于术语“包含”的方式是包括性的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

在上述详细描述中，参考了附图，其中通过图示的方式示出了可以实践本公开的特定方面。在这点上，可以参考所描述的图的取向来使用诸如“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示方向或表示位置关系的术语。由于所描述的器件的部件可以以多个不同的取向定位，所以方向术语可以用于说明的目的，而不是限制性的。应当理解，在不脱离本公开的概念的情况下，可以利用其它方面并且可以进行结构或逻辑改变。因此，以下详细描述不应被视为限制意义。

应当理解，除非另外特别指出，否则本文描述的各种本公开的一些实施例的特征可以彼此组合。如在本文中使用的，术语“和/或”包括相关所列项中的任一者以及任何两者或更多者的任何组合；类似地，“.......中的至少一个”包括相关所列项中的任一者以及任何两者或更多者的任何组合。

应当理解，除非另有明确的规定和限定，本公开的实施例中所采用的，术语“接合”、“附接”、“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

此外，关于在表面“之上”形成或位于表面“之上”的部件、元件或材料层中所使用的词语“之上”在本文中可用于表示部件、元件或材料层“间接”定位(例如，放置、形成、沉积等)在该表面上而使得一个或多个附加部件、元件或层布置在该表面与所述部件、元件或材料层之间。然而，关于在表面“之上”形成或位于表面“之上”的部件、元件或材料层中所使用的词语“之上”还可以可选地具有特定含义：部件、元件或材料层“直接”定位(例如，放置、形成、沉积等)在该表面上、例如与该表面直接接触。

尽管本文中可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、部件、区域、层或区段，但是这些构件、部件、区域、层或区段并不受限于这些术语。相反地，这些术语仅用于将一个构件、部件、区域、层或区段与另一个构件、部件、区域、层或区段区分开。因此，在不脱离各示例的教导的情况下，本文所描述的示例中所提到的第一构件、部件、区域、层或区段也可以被称作第二构件、部件、区域、层或区段。另外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本文描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

应当理解，在本文中使用空间相对术语，诸如“上方”、“上部”、“下方”和“下部”等来描述图中所示的一个元件与另一元件的关系。除了附图中描绘的定向之外，这种空间相对术语还旨在包含装置在使用或操作中的不同定向。例如，如果附图中的装置被翻转，则描述为在相对于另一元件的“上方”或“上部”的元件则将处于相对于该另一元件的“下方”或“下部”。因此，根据装置的空间定向，术语“上方”包含上方和下方两种定向。装置可具有其他方式的定向(例如，旋转90度或处于其他定向)，并且本文中使用的空间相对术语应相应地进行解释。

Claims

1.一种车辆感知模型的预训练方法，其特征在于，所述感知模型包括编码器层和解码器层，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述通过所述编码器层得到所述多个样本周视图像在鸟瞰视角BEV空间下的时间序列特征向量，包括：

通过训练完成的深度卷积网络提取每个样本周视图像的图像特征，得到所述每个样本周视图像的图像特征向量；

通过视角变换算法将所述每个样本周视图像的图像特征向量进行空间特征变换处理，得到所述每个样本周视图像在BEV空间下的鸟瞰图特征向量；

提取每个鸟瞰图特征向量中预设位置的鸟瞰图特征向量，得到所述多个样本周视图像在BEV空间下的时间序列特征向量。

3.如权利要求1所述的方法，其特征在于，所述解码器层包括多个transformerdecoder层；

所述通过所述解码器层对所述BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量进行处理，得到所述样本周视图像在目标时刻的预测图像，包括：

利用多个transformer decoder层基于所述BEV空间下的时间序列特征向量中位于目标时刻之前的N个时刻的时间序列特征向量，对目标时刻预设位置的图像进行预测，得到所述样本周视图像在目标时刻的预测图像。

4.如权利要求1所述的方法，其特征在于，所述基于所述预测图像对所述待训练感知模型进行训练，以得到目标感知模型，包括：

基于所述预测图像，得到所述待训练感知模型的损失值；

基于所述损失值更新所述解码器层的参数，直至所述解码器层收敛，以得到目标感知模型。

5.如权利要求4所述的方法，其特征在于，所述基于所述预测图像，得到所述待训练感知模型的损失值，包括：

获取需要进行损失计算的目标像素点对应的真实像素值；

获取所述预测图像中所述目标像素点对应的预测像素值；

将所述真实像素值和所述预测像素值输入至损失函数中，得到所述待训练感知模型的损失值。

6.如权利要求5所述的方法，其特征在于，所述获取需要进行损失计算的目标像素点对应的真实像素值，包括：

获取所述目标像素点在BEV空间下对应的目标向量位置；

基于所述目标向量位置，获取所述目标像素点在真实周视图像对应的像素值；

将所述目标像素点在真实周视图像对应的像素值作为所述目标像素点对应的真实像素值。

7.如权利要求1所述的方法，其特征在于，还包括：

获取车辆周围环境的待分析周视图像；

将获取到的所述待分析周视图像输入至所述目标感知模型中，得到所述待分析周视图像对应的目标图像。

8.一种车辆感知模型的预训练装置，其特征在于，所述感知模型包括编码器层和解码器层，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现权利要求1～7中任一项所述方法的步骤。

10.一种车辆，其特征在于，包括如权利要求9所述的电子设备或与权利要求9所述的电子设备连接。

11.一种非临时性计算机可读存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现权利要求1～7中任一项所述的方法。