CN115565154A

CN115565154A - 可行域预测方法、装置、系统和存储介质

Info

Publication number: CN115565154A
Application number: CN202211153320.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Jiuzhi Suzhou Intelligent Technology Co ltd
Current assignee: Jiuzhi Suzhou Intelligent Technology Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-01-03
Also published as: WO2024060558A1

Abstract

本申请提供一种可行域预测方法、装置、系统和存储介质，应用于车辆自动驾驶或者辅助驾驶，方法包括：获取当前时刻的环视图像，并根据环视图像得到鸟瞰图特征；环视图像包括由车辆上多个摄像头采集的多个视角的图像；对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出可行域预测图。本申请实现了对未来场景的分析和预测，可以为车辆自动驾驶或辅助驾驶的行为决策提供依据，通过将场景感知和行为预测结合，避免了将可行域分割和障碍物预测划分为两个模块所造成的重复计算和信息累计误差，无需再独立进行行为预测。

Description

可行域预测方法、装置、系统和存储介质

技术领域

本申请涉及辅助/自动驾驶技术领域，更具体地涉及一种可行域预测方法、装置、系统和存储介质。

背景技术

在辅助驾驶、自动驾驶等应用中，对可以行驶区域的分割是重要的技术环节。可行驶区域的分割一般是基于摄像头或者激光雷达等传感器反馈回的信息进行的。其中摄像头主要反馈的是图像信息，图像信息的优点在于可视距离远、分辨率高、场景的色彩和纹理特征表达清晰，缺陷在于距离信息缺失、图像坐标系向世界坐标系转换困难。激光雷达主要反馈回的是点云信息，点云信息的优点在于距离准确、不用坐标系转换，缺点在于分辨率较低、色彩纹理信息缺失。目前，一般将可行域的提取问题认为是静态场景的分割问题。

摄像头在价格方面相比激光雷达存在优势。相关技术中，以基于环视相机鸟瞰图特征的目标检测算法为例，利用卷积神经网络(CNN，Convolutional Neural Network)编码器对每一个相机的输入图像进行编码，利用转换器(Transformer)等模型将每个相机编码后的特征从图像坐标系转换到车辆坐标系，形成鸟瞰图特征(BEVFeature，Bird’s-Eye-View Feature)，从BEVFeature中对目标进行检测，输出鸟瞰视角的检测结果。

但是，上述相关技术专注于通过BEVFeature对当前时刻的环境进行描述，目标检测和可行域分割均是对当前环境的刻画，缺乏对未来场景的分析。

鉴于上述问题的存在，本申请提出一种新的可行域预测方法、装置、系统和存储介质，以至少部分地解决上述问题。

发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

本申请一方面提供了一种可行域预测方法，所述方法应用于车辆自动驾驶或者辅助驾驶，包括：获取当前时刻的环视图像，并根据所述环视图像得到鸟瞰图特征；所述环视图像包括由车辆上多个摄像头采集的多个视角的图像；对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

在一个示例中，所述根据所述环视图像得到鸟瞰图特征，包括：对所述多个视角的图像进行特征提取，得到多个视角图像高维图像特征；对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征。

在一个示例中，所述对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征，包括：将所述多个视角图像高维图像特征从各自视角的图像所在坐标系转换到车辆坐标系，根据所述转换的结果得到所述鸟瞰图特征。

在一个示例中，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：根据所述时序队列生成未来的多个时刻的鸟瞰图高维图像特征；对所述未来的多个时刻的鸟瞰图高维图像特征中的每个时刻的鸟瞰图高维图像特征进行上采样处理，以生成所述每个时刻的可行域预测图，以得到未来的所述多个时刻的可行域预测图。

在一个示例中，所述方法是由训练好的一个神经网络来实施的，所述神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：所述第一子网络用于获取当前时刻的所述多个视角的图像，并对所述多个视角的图像进行特征提取，得到多个视角图像高维图像特征；所述第二子网络用于对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征；所述第三子网络用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；所述第四子网络用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

在一个示例中，所述对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征，包括：将所述视角图像高维图像特征作为键、所述鸟瞰图特征中的像素位置坐标作为查询输入到所述第二子网络，并根据所述第二子网络的输出结果得到所述鸟瞰图特征。

在一个示例中，所述第三子网络包括多个卷积层，所述对所述鸟瞰图特征进行提取，得到鸟瞰图高维图像特征，包括：通过其中一个所述卷积层对所述鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到所述鸟瞰图高维图像特征。

在一个示例中，所述第四子网络包括与所述时序队列中鸟瞰图高维图像特征的数量相同的分网络，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：分别基于相应的所述分网络根据所述时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对所述未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。

在一个示例中，所述方法是由训练好的多个神经网络来实施的，所述多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：所述第一神经网络用于获取当前时刻的所述多个视角的图像，并对所述多个视角的图像进行特征提取，得到多个视角图像高维图像特征；所述第二神经网络用于对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征；所述第三神经网络用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；所述第四神经网络用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

在一个示例中，所述对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征，包括：将所述视角图像高维图像特征作为键、所述鸟瞰图特征中的像素位置坐标作为查询输入到所述第二神经网络，并根据所述第二神经网络的输出结果得到所述鸟瞰图特征。

在一个示例中，所述第三神经网络包括多个卷积层，所述对所述鸟瞰图特征进行提取，得到鸟瞰图高维图像特征，包括：通过其中一个所述卷积层对所述鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到所述鸟瞰图高维图像特征。

在一个示例中，所述第四神经网络包括与所述时序队列中鸟瞰图高维图像特征的数量相同的子网络，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：分别基于相应的所述子网络根据所述时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对所述未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。

在一个示例中，所述可行域预测图是以概率化方式呈现的概率图，所述概率图用于表征未来时刻的环视图像中的像素点属于可行驶区域的概率。

在一个示例中，当所述概率图中像素点的像素值不大于设定阈值时，所述像素点所对应的未来时刻的环视图像中的像素点不属于可行驶区域，当所述概率图中像素点的像素值大于所述设定阈值时，所述像素点所对应的未来时刻的环视图像中的像素点属于可行驶区域。

本申请又一方面提供了一种可行域预测装置，应用于车辆自动驾驶或者辅助驾驶，包括：鸟瞰图特征模块，用于获取当前时刻的环视图像，并根据所述环视图像得到鸟瞰图特征；所述环视图像包括由车辆上多个摄像头采集的多个视角的图像；鸟瞰图高维图像特征模块，用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；可行域预测图模块，用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

本申请又一方面提供了一种可行域预测装置，应用于车辆自动驾驶或者辅助驾驶，包括：多个设置于车辆上的摄像头，用于采集当前时刻的环视图像；所述环视图像包括多个视角的图像；一个或多个处理器，用于：获取所述环视图像，并根据所述环视图像得到鸟瞰图特征；对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

本申请又一方面提供了一种可行域预测装置，包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在由所述处理器运行时，使得所述处理器执行上述中任意一项所述的可行域预测方法。

本申请又一方面提供了一种用于车辆自动驾驶或辅助驾驶的系统，所述系统包括上述中的任意一项所述的可行域预测装置。

本申请又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在由处理器运行时使得所述处理器执行上述中任意一项所述的可行域预测方法。

根据本申请实施例的可行域预测方法、装置、系统和存储介质，通过当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征得到未来的可行域预测图，实现了对未来场景的分析和预测，从而可以为车辆自动驾驶或辅助驾驶的行为决策提供依据；且可行域预测图基于所获取的当前时刻的环视图像而生成，可行域预测图通过将场景感知和行为预测结合在一起，能够直接给出障碍物未来的行动轨迹，从而划分出可行驶区域和不可行驶区域，避免了相关技术中需要将可行域分割和障碍物预测划分为两个模块所造成的重复计算和信息累计误差，无需再独立进行行为预测。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出根据本申请实施例的电子设备的示意性框图；

图2示出根据本申请一实施例的可行域预测方法的示意性流程图；

图3示出根据本申请一实施例的根据环视图像得到鸟瞰图特征的流程框图；

图4示出根据本申请一实施例的多个视角图像高维图像特征从各自视角的图像所在坐标系转换到车辆坐标系的示意图；

图5示出根据本申请一实施例的对鸟瞰图特征进行提取得到鸟瞰图高维图像特征的流程框图；

图6示出了根据本申请一实施例的根据时序队列生成未来的可行域预测图的流程框图；

图7示出了根据本申请实施例的可行域预测装置的示意性框图；

图8示出了根据本申请实施例的另一可行域预测装置的示意性框图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本申请更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本申请可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本申请发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本申请能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本申请的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本申请的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本申请，将在下列的描述中提出详细的结构，以便阐释本申请提出的技术方案。本申请的可选实施例详细描述如下，然而除了这些详细描述外，本申请还可以具有其他实施方式。

首先，参照图1来描述用于实现本发明实施例的可行域预测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106和输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本发明实施例的可行域预测方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑等终端。

下面，将参考图2描述根据本发明实施例的可行域预测方法。图2是本申请实施例的可行域预测方法200的一个示意性流程图。本申请实施例的可行域预测方法用于可行域预测装置，可行域预测装置包括处理器、存储器、输入装置和输出装置等，该可行域预测装置可以实现为如上的电子设备100。具体地，本申请实施例的可行域预测方法200可以应用于车辆自动驾驶或者辅助驾驶，包括如下步骤：

在步骤S210中，获取当前时刻的环视图像，并根据所述环视图像得到鸟瞰图特征；所述环视图像包括由车辆上多个摄像头采集的多个视角的图像；

在步骤S220中，对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；

在步骤S230中，根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

根据本发明实施例的可行域预测方法200，通过当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征得到未来的可行域预测图，实现了对未来场景的分析和预测，从而可以为车辆自动驾驶或辅助驾驶的行为决策提供依据；且可行域预测图基于所获取的当前时刻的环视图像而生成，可行域预测图通过将场景感知和行为预测结合在一起，能够直接给出障碍物未来的行动轨迹，从而划分出可行驶区域和不可行驶区域，避免了相关技术中需要将可行域分割和障碍物预测划分为两个模块所造成的重复计算和信息累计误差，无需再独立进行行为预测。

在本发明的实施例中，步骤S210中在获取当前时刻的环视图像时，可以通过车辆上设置的多个摄像头同时曝光，从而采集到多个视角的图像，多个视角的图像共同构成环视图像。

而后，通过图像处理技术对环视图像进行处理，从而得到鸟瞰图特征。在一个示例中，可以首先对所采集的多个视角的图像进行特征提取，得到多个视角图像高维图像特征。此处的高维图像特征是指对视角图像进行提取后得到的多个维度的图像特征，通常情况下，应该是高于三个维度的。例如，可以通过Resnet50(残差网络50)对视角图像进行处理，输出的结果即是视角图像高维图像特征。然后可以对多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征。当然，除上述方式以外，也可以采取其他图像处理方式得到鸟瞰图特征，对此不进行限定。例如，如附图3所示，可以通过特征提取器1对摄像头1采集的图像进行特征提取，特征提取器2对摄像头2采集的图像进行特征提取，特征提取器3对摄像头3采集的图像进行特征提取……以此类推，得到n个视角图像高维图像特征，然后通过转换器网络对n个视角图像高维图像特征进行融合，得到特征维度为batchsize*H*W*C(其中，batchsize代表批量大小，H代表特征的高、W代表特征的宽、C代表特征的通道)的鸟瞰图特征。

值得注意的是，对多个视角图像高维图像特征进行融合得到所述鸟瞰图特征的这一过程的本质是在进行坐标转换，即将多个视角图像高维图像特征从各自视角的图像所在坐标系转换到车辆坐标系，从而根据转换的结果得到鸟瞰图特征。所得到的鸟瞰图特征可以看作是车辆坐标系下的鸟瞰图像。例如，如附图4所示，右侧的图4(a)、图4(b)、图4(c)、图4(d)、图4(e)和图4(f)是不同视角的摄像头在同一时刻拍摄到的图像，每张图像在自身的图像坐标系下，左侧的图4(g)是一个BEVFeature的示例图，融合了右侧所有视角下的图像信息，投影到了车辆坐标系下。

在本发明的实施例中，步骤S220中由鸟瞰图特征得到鸟瞰图高维图像特征的过程可以参考步骤S210中由视角图像得到视角图像高维图像特征的过程，或者也可以采取其他图像处理方法实现。

在本发明的实施例中，步骤S230中通过对当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征进行时序化编码得到时序队列，再根据时序队列来生成未来的可行域预测图。例如，以F_t作为当前时刻的鸟瞰图高维图像特征，F_t-n，F_t-(n-1)……F_t-1作为多个历史时刻的鸟瞰图高维图像特征，则生成的时序队列可以表达为{F_t-n，F_t-(n-1)……F_t}。

在另一个示例中，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图可以包括：根据所述时序队列生成未来的多个时刻的鸟瞰图高维图像特征；对所述未来的多个时刻的鸟瞰图高维图像特征中的每个时刻的鸟瞰图高维图像特征进行上采样处理，以生成所述每个时刻的可行域预测图，以得到未来的所述多个时刻的可行域预测图。在该示例中，生成与当前时刻和历史时刻数目相同的未来时刻的可行域预测图，从而对环视图像中未来一段时间内的可行驶区域和不可行驶区域做出预测。

在本发明的实施例中，前述的对视角图像进行特征提取得到视角图像高维图像特征、对视角图像高维图像特征进行融合得到鸟瞰图特征、对鸟瞰图特征进行提取得到鸟瞰图高维图像特征以及生成可行域预测图等的计算可以通过同一个训练好的神经网络的不同部分来实施。例如，一个神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：例如，第一子网络获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第一子网络的输出输入到第二子网络，第二子网络对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第二子网络的输出输入到第三子网络，第三子网络对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第三子网络的输出输入到第四子网络，第四子网络根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。神经网络可以是卷积神经网络、深度神经网络等，例如可以是MoblieNet(移动网络)、Resnet(残差网络)等基于CNN的网络，也可以是VisionTransformer(视觉转换器)等基于Transformer的网络，对神经网络的具体类型不进行限定。

进一步地，第二子网络可以采取如下的方式对多个视角图像高维图像特征进行融合以得到鸟瞰图特征：将视角图像高维图像特征作为Key(键)、鸟瞰图特征中的像素位置坐标作为Query(查询)输入到第二子网络，并根据第二子网络的输出结果得到鸟瞰图特征。

进一步地，第三子网络可以包括多个卷积层，第三子网络可以采取如下的方式对鸟瞰图特征进行提取得到鸟瞰图高维图像特征：通过其中一个卷积层对鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到鸟瞰图高维图像特征。例如，如附图5所示，首先将鸟瞰图特征输入到第一卷积层(CONV₁)进行特征提取，然后再将第一卷积层(CONV₁)提取的结果输入到下一卷积层，以此类推，直至经过第n卷积层(CONV_n)后实现n次特征提取，从而得到鸟瞰图高维图像特征F。

进一步地，第四子网络可以包括与时序队列中鸟瞰图高维图像特征的数量相同的分网络，第四子网络可以采取如下的方式根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图：分别基于相应的分网络根据时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。例如，如附图6所示，以第四子网络包括多个Transformer的分网络为例，分网络Transformer₁根据F_t-n、F_t-(…)、F_t所组成的时序队列生成未来的t+1时刻的鸟瞰图高维图像特征F_t+1，通过对F_t+1进行上采样(Upsample)处理得到未来的t+1时刻的可行域预测图；其他的分网络实现类似的过程，最终可以得到未来的t+1、t+(…)、t+q等多个时刻的可行域预测图。

在本发明的另一个实施例中，前述的对视角图像进行特征提取得到视角图像高维图像特征、对视角图像高维图像特征进行融合得到鸟瞰图特征、对鸟瞰图特征进行提取得到鸟瞰图高维图像特征以及生成可行域预测图等的计算也可以通过多个不同的神经网络来实施。例如，多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：例如，第一神经网络获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第一神经网络的输出输入到第二神经网络，第二神经网络对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第二神经网络的输出输入到第三神经网络，第三神经网络对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第三神经网络的输出输入到第四神经网络，第四神经网络根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。其中，神经网络可以是卷积神经网络、深度神经网络等，例如第一神经网络可以是MoblieNet、Resnet等基于CNN的网络，也可以VisionTransformer等基于Transformer的网络，第二神经网络可以是Transformer网络，第三神经网络可以是卷积神经网络、Transformer网络等，第四神经网络可以是Transformer网络，对神经网络的具体类型不进行限定。

进一步地，第二神经网络可以采取如下的方式对多个视角图像高维图像特征进行融合以得到鸟瞰图特征：将视角图像高维图像特征作为Key(键)、鸟瞰图特征中的像素位置坐标作为Query(查询)输入到第二神经网络，并根据第二神经网络的输出结果得到鸟瞰图特征。

进一步地，第三神经网络可以包括多个卷积层，第三神经网络可以采取如下的方式对鸟瞰图特征进行提取得到鸟瞰图高维图像特征：通过其中一个卷积层对鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到鸟瞰图高维图像特征。例如，如附图5所示，首先将鸟瞰图特征输入到第一卷积层进行特征提取，然后再将第一卷积层提取的结果输入到下一卷积层，以此类推，直至经过第n卷积层后实现n次特征提取，从而得到鸟瞰图高维图像特征F。

进一步地，第四神经网络可以包括与时序队列中鸟瞰图高维图像特征的数量相同的子网络，第四神经网络可以采取如下的方式根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图：分别基于相应的子网络根据时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。例如，如附图6所示，以第四神经网络包括多个Transformer的子网络为例，子网络Transformer₁根据F_t-n、F_t-(…)、F_t所组成的时序队列生成未来的t+1时刻的鸟瞰图高维图像特征F_t+1，通过对F_t+1进行上采样处理得到未来的t+1时刻的可行域预测图；其他的子网络实现类似的过程，最终可以得到未来的t+1、t+(…)、t+q等多个时刻的可行域预测图。

在本发明的实施例中，所得到的可行域预测图可以是以概率化方式呈现的概率图，通过所述概率图可以表征未来时刻的环视图像中的像素点属于可行驶区域的概率，从而对未来时间段内道路的可行驶情况进行概率化表达。

进一步地，可行域预测图可以采取如下的方式进行概率化表达：当概率图中像素点的像素值不大于设定阈值时，像素点所对应的未来时刻的环视图像中的像素点不属于可行驶区域，当概率图中像素点的像素值大于设定阈值时，像素点所对应的未来时刻的环视图像中的像素点属于可行驶区域。例如，概率图中每一个像素点的像素值是一个浮点数，浮点数的值位于[0，1]区间，假设坐标为(x，y)的像素点所对应的像素值为k，则若未来Q时刻该像素点为不可行驶区域，则k→0(k趋于0)；若未来Q时刻该像素点为可行驶区域，则k→1(k趋于1)。

基于上述的描述，根据本发明实施例的可行域预测方法，通过当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征得到未来的可行域预测图，实现了对未来场景的分析和预测，从而可以为车辆自动驾驶或辅助驾驶的行为决策提供依据；且可行域预测图基于所获取的当前时刻的环视图像而生成，可行域预测图通过将场景感知和行为预测结合在一起，能够直接给出障碍物未来的行动轨迹，从而划分出可行驶区域和不可行驶区域，避免了相关技术中需要将可行域分割和障碍物预测划分为两个模块所造成的重复计算和信息累计误差，无需再独立进行行为预测。

以上示例性地描述了根据本发明实施例的可行域预测方法。示例性地，根据本发明实施例的可行域预测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的可行域预测方法可以方便地部署到智能手机、平板电脑等本地终端上。替代地，根据本发明实施条例的可行域预测方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的可行域预测方法还可以分布地部署在服务器端(或云端)和本地终端处。

图7示出了根据本发明实施例的可行域预测装置的示意性框图。如图7所示，根据本发明实施例的可行域预测装置700可以应用于车辆自动驾驶或者辅助驾驶，包括鸟瞰图特征模块710、鸟瞰图高维图像特征模块720和可行域预测图模块730。其中，鸟瞰图特征模块710用于获取当前时刻的环视图像，并根据所述环视图像得到鸟瞰图特征；所述环视图像包括由车辆上多个摄像头采集的多个视角的图像；鸟瞰图高维图像特征模块720用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；可行域预测图模块730用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

其中，鸟瞰图特征模块710、鸟瞰图高维图像特征模块720和可行域预测图模块730可以由图1所示的电子设备100中的处理器102运行存储器104中存储的程序指令来实现，并且可以执行根据本发明实施例的可行域预测方法200中相应的步骤。以下仅对可行域预测装置的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

在本发明的实施例中，鸟瞰图特征模块710在获取当前时刻的环视图像时，可以通过车辆上设置的多个摄像头同时曝光，从而采集到多个视角的图像，多个视角的图像共同构成环视图像。

而后，通过图像处理技术对环视图像进行处理，从而得到鸟瞰图特征。在一个示例中，可以首先对所采集的多个视角的图像进行特征提取，得到多个视角图像高维图像特征。此处的高维图像特征是指对视角图像进行提取后得到的多个维度的图像特征，通常情况下，应该是高于三个维度的。例如，可以通过Resnet50对视角图像进行处理，输出的结果即是视角图像高维图像特征。然后可以对多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征。当然，除上述方式以外，也可以采取其他图像处理方式得到鸟瞰图特征，对此不进行限定。例如，如附图3所示，可以通过特征提取器1对摄像头1采集的图像进行特征提取，特征提取器2对摄像头2采集的图像进行特征提取，特征提取器3对摄像头3采集的图像进行特征提取……以此类推，得到n个视角图像高维图像特征，然后通过Transformer网络对n个视角图像高维图像特征进行融合，得到特征维度为batchsize*H*W*C的鸟瞰图特征。

在本发明的实施例中，鸟瞰图高维图像特征模块720由鸟瞰图特征得到鸟瞰图高维图像特征的过程可以参考鸟瞰图特征模块710由视角图像得到视角图像高维图像特征的过程，或者也可以采取其他图像处理方法实现。

在本发明的实施例中，可行域预测图模块730通过对当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征进行时序化编码得到时序队列，再根据时序队列来生成未来的可行域预测图。例如，以F_t作为当前时刻的鸟瞰图高维图像特征，F_t-n，F_t-(n-1)……F_t-1作为多个历史时刻的鸟瞰图高维图像特征，则生成的时序队列可以表达为{F_t-n，F_t-(n-1)……F_t}。

在本发明的实施例中，鸟瞰图特征模块710、鸟瞰图高维图像特征模块720和可行域预测图模块730可以通过同一个训练好的神经网络的不同部分来实施。例如，一个神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：例如，第一子网络获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第一子网络的输出输入到第二子网络，第二子网络对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第二子网络的输出输入到第三子网络，第三子网络对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第三子网络的输出输入到第四子网络，第四子网络根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。神经网络可以是卷积神经网络、深度神经网络等，例如可以是MoblieNet、Resnet等基于CNN的网络，也可以是VisionTransformer等基于Transformer的网络，对神经网络的具体类型不进行限定。

进一步地，第三子网络可以包括多个卷积层，第三子网络可以采取如下的方式对鸟瞰图特征进行提取得到鸟瞰图高维图像特征：通过其中一个卷积层对鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到鸟瞰图高维图像特征。例如，如附图5所示，首先将鸟瞰图特征输入到第一卷积层进行特征提取，然后再将第一卷积层提取的结果输入到下一卷积层，以此类推，直至经过第n卷积层后实现n次特征提取，从而得到鸟瞰图高维图像特征F。

进一步地，第四子网络可以包括与时序队列中鸟瞰图高维图像特征的数量相同的分网络，第四子网络可以采取如下的方式根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图：分别基于相应的分网络根据时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。例如，如附图6所示，以第四子网络包括多个Transformer的分网络为例，分网络Transformer₁根据F_t-n、F_t-(…)、F_t所组成的时序队列生成未来的t+1时刻的鸟瞰图高维图像特征F_t+1，通过对F_t+1进行上采样处理得到未来的t+1时刻的可行域预测图；其他的分网络实现类似的过程，最终可以得到未来的t+1、t+(…)、t+q等多个时刻的可行域预测图。

在本发明的另一个实施例中，鸟瞰图特征模块710、鸟瞰图高维图像特征模块720和可行域预测图模块730也可以通过多个不同的神经网络来实施。例如，多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：例如，第一神经网络获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第一神经网络的输出输入到第二神经网络，第二神经网络对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第二神经网络的输出输入到第三神经网络，第三神经网络对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第三神经网络的输出输入到第四神经网络，第四神经网络根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。其中，神经网络可以是卷积神经网络、深度神经网络等，例如第一神经网络可以是MoblieNet、Resnet等基于CNN的网络，也可以VisionTransformer等基于Transformer的网络，第二神经网络可以是Transformer网络，第三神经网络可以是卷积神经网络、Transformer网络等，第四神经网络可以是Transformer网络，对神经网络的具体类型不进行限定。

基于上述的描述，根据本发明实施例的可行域预测装置700，通过当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征得到未来的可行域预测图，实现了对未来场景的分析和预测，从而可以为车辆自动驾驶或辅助驾驶的行为决策提供依据；且可行域预测图基于所获取的当前时刻的环视图像而生成，可行域预测图通过将场景感知和行为预测结合在一起，能够直接给出障碍物未来的行动轨迹，从而划分出可行驶区域和不可行驶区域，避免了相关技术中需要将可行域分割和障碍物预测划分为两个模块所造成的重复计算和信息累计误差，无需再独立进行行为预测。

此外，本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

根据本发明实施例，还提供了一种可行域预测装置，所述装置应用于车辆自动驾驶或者辅助驾驶，包括：多个设置于车辆上的摄像头，用于采集当前时刻的环视图像；所述环视图像包括多个视角的图像；一个或多个处理器，用于：获取所述环视图像，并根据所述环视图像得到鸟瞰图特征；对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

在一个示例中，根据环视图像得到鸟瞰图特征，包括：对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；对多个视角图像高维图像特征进行融合，得到鸟瞰图特征。

在一个实施例中，对多个视角图像高维图像特征进行融合，得到鸟瞰图特征，包括：将多个视角图像高维图像特征从各自视角的图像所在坐标系转换到车辆坐标系，根据转换的结果得到鸟瞰图特征。

在一个实施例中，根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：根据时序队列生成未来的多个时刻的鸟瞰图高维图像特征；对未来的多个时刻的鸟瞰图高维图像特征中的每个时刻的鸟瞰图高维图像特征进行上采样处理，以生成每个时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。

在一个实施例中，处理器执行的步骤是由训练好的一个神经网络来实施的，神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：第一子网络用于获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第二子网络用于对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第三子网络用于对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第四子网络用于根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

在一个实施例中，对多个视角图像高维图像特征进行融合，得到鸟瞰图特征，包括：将视角图像高维图像特征作为键、鸟瞰图特征中的像素位置坐标作为查询输入到第二子网络，并根据第二子网络的输出结果得到鸟瞰图特征。

在一个实施例中，第三子网络包括多个卷积层，对鸟瞰图特征进行提取，得到鸟瞰图高维图像特征，包括：通过其中一个卷积层对鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到鸟瞰图高维图像特征。

在一个实施例中，第四子网络包括与时序队列中鸟瞰图高维图像特征的数量相同的分网络，根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：分别基于相应的分网络根据时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。

在一个实施例中，处理器执行的步骤是由训练好的多个神经网络来实施的，多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：第一神经网络用于获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第二神经网络用于对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第三神经网络用于对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第四神经网络用于根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

在一个实施例中，对多个视角图像高维图像特征进行融合，得到鸟瞰图特征，包括：将视角图像高维图像特征作为键、鸟瞰图特征中的像素位置坐标作为查询输入到第二神经网络，并根据第二神经网络的输出结果得到鸟瞰图特征。

在一个实施例中，第三神经网络包括多个卷积层，对鸟瞰图特征进行提取，得到鸟瞰图高维图像特征，包括：通过其中一个卷积层对鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到鸟瞰图高维图像特征。

在一个实施例中，第四神经网络包括与时序队列中鸟瞰图高维图像特征的数量相同的子网络，根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：分别基于相应的子网络根据时序队列生成未来的相应时刻的鸟瞰图高维图像特征；分别对未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。

在一个实施例中，可行域预测图是以概率化方式呈现的概率图，概率图用于表征未来时刻的环视图像中的像素点属于可行驶区域的概率。

在一个实施例中，当概率图中像素点的像素值不大于设定阈值时，像素点所对应的未来时刻的环视图像中的像素点不属于可行驶区域，当概率图中像素点的像素值大于设定阈值时，像素点所对应的未来时刻的环视图像中的像素点属于可行驶区域。

图8示出了根据本发明实施例的可行域预测装置的示意性框图。可行域预测装置800包括存储器810和处理器820。

其中，存储器810存储用于实现根据本发明实施例的可行域预测方法中的相应步骤的计算机程序。处理器820用于运行存储器810中存储的计算机程序，以执行根据本发明实施例的可行域预测方法的相应步骤，并且用于实现根据本发明实施例的可行域预测装置中的相应模块。

在一个实施例中，在计算机程序被处理器820运行时使得可行域预测装置800执行以下步骤：获取当前时刻的环视图像，并根据环视图像得到鸟瞰图特征；环视图像包括由车辆上多个摄像头采集的多个视角的图像；对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出可行域预测图。

在一个实施例中，根据环视图像得到鸟瞰图特征，包括：对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；对多个视角图像高维图像特征进行融合，得到鸟瞰图特征。

在一个实施例中，在计算机程序被处理器820运行时使得可行域预测装置800执行的步骤是由训练好的一个神经网络来实施的，神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：第一子网络用于获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第二子网络用于对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第三子网络用于对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第四子网络用于根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

在一个实施例中，在计算机程序被处理器820运行时使得可行域预测装置800执行的步骤是由训练好的多个神经网络来实施的，多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：第一神经网络用于获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第二神经网络用于对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第三神经网络用于对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第四神经网络用于根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

根据本发明实施例，还提供了一种用于车辆自动驾驶或辅助驾驶的系统，所述系统包括上述中的任意一项所述的可行域预测装置。其中，有关可行域预测装置的描述可以参考前文，在此不再重复。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了计算机程序，在所述计算机程序被计算机或处理器运行时用于执行本发明实施例的可行域预测方法，并且用于实现根据本发明实施例的可行域预测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含用于根据环视图像得到鸟瞰图特征的计算机可读的程序代码，另一个计算机可读存储介质包含用于对鸟瞰图特征进行提取得到当前时刻的鸟瞰图高维图像特征的计算机可读的程序代码。

在一个实施例中，所述计算机程序在被计算机运行时可以实现根据本发明实施例的可行域预测装置的各个功能模块，并且/或者可以执行根据本发明实施例的可行域预测方法。

在一个实施例中，所述计算机程序在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取当前时刻的环视图像，并根据环视图像得到鸟瞰图特征；环视图像包括由车辆上多个摄像头采集的多个视角的图像；对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出可行域预测图。

在一个实施例中，所述计算机程序在被计算机或处理器运行时使计算机或处理器执行的步骤是由训练好的一个神经网络来实施的，神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：第一子网络用于获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第二子网络用于对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第三子网络用于对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第四子网络用于根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

在一个实施例中，所述计算机程序在被计算机或处理器运行时使计算机或处理器执行的步骤是由训练好的多个神经网络来实施的，多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：第一神经网络用于获取当前时刻的多个视角的图像，并对多个视角的图像进行特征提取，得到多个视角图像高维图像特征；第二神经网络用于对多个视角图像高维图像特征进行融合，得到鸟瞰图特征；第三神经网络用于对鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；第四神经网络用于根据当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

根据本发明实施例的可行域预测装置中的各模块可以通过根据本发明实施例的电子设备的处理器运行在存储器中存储的计算机程序来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机程序被计算机运行时实现。

此外，根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的可行域预测方法的相应步骤，并且用于实现根据本发明实施例的可行域预测装置中的相应模块。

基于上面的描述，根据本发明实施例的可行域预测方法、装置、系统和存储介质，通过当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征得到未来的可行域预测图，实现了对未来场景的分析和预测，从而可以为车辆自动驾驶或辅助驾驶的行为决策提供依据；且可行域预测图基于所获取的当前时刻的环视图像而生成，可行域预测图通过将场景感知和行为预测结合在一起，能够直接给出障碍物未来的行动轨迹，从而划分出可行驶区域和不可行驶区域，避免了相关技术中需要将可行域分割和障碍物预测划分为两个模块所造成的重复计算和信息累计误差，无需再独立进行行为预测。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种可行域预测方法，所述方法应用于车辆自动驾驶或者辅助驾驶，其特征在于，包括：

获取当前时刻的环视图像，并根据所述环视图像得到鸟瞰图特征；所述环视图像包括由车辆上多个摄像头采集的多个视角的图像；

对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；

根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

2.如权利要求1所述的可行域预测方法，其特征在于，所述根据所述环视图像得到鸟瞰图特征，包括：

对所述多个视角的图像进行特征提取，得到多个视角图像高维图像特征；

对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征。

3.如权利要求2所述的可行域预测方法，其特征在于，所述对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征，包括：

将所述多个视角图像高维图像特征从各自视角的图像所在坐标系转换到车辆坐标系，根据所述转换的结果得到所述鸟瞰图特征。

4.如权利要求1所述的可行域预测方法，其特征在于，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：

根据所述时序队列生成未来的多个时刻的鸟瞰图高维图像特征；

对所述未来的多个时刻的鸟瞰图高维图像特征中的每个时刻的鸟瞰图高维图像特征进行上采样处理，以生成所述每个时刻的可行域预测图，以得到未来的所述多个时刻的可行域预测图。

5.如权利要求2所述的可行域预测方法，其特征在于，所述方法是由训练好的一个神经网络来实施的，所述神经网络包括第一子网络、第二子网络、第三子网络和第四子网络，其中：

所述第一子网络用于获取当前时刻的所述多个视角的图像，并对所述多个视角的图像进行特征提取，得到多个视角图像高维图像特征；

所述第二子网络用于对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征；

所述第三子网络用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；

所述第四子网络用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

6.如权利要求5所述的可行域预测方法，其特征在于，所述对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征，包括：

将所述视角图像高维图像特征作为键、所述鸟瞰图特征中的像素位置坐标作为查询输入到所述第二子网络，并根据所述第二子网络的输出结果得到所述鸟瞰图特征。

7.如权利要求5所述的可行域预测方法，其特征在于，所述第三子网络包括多个卷积层，所述对所述鸟瞰图特征进行提取，得到鸟瞰图高维图像特征，包括：

通过其中一个所述卷积层对所述鸟瞰图特征进行特征提取，并依次通过后一卷积层对前一卷积层提取的结果进行再次特征提取，以得到所述鸟瞰图高维图像特征。

8.如权利要求5所述的可行域预测方法，其特征在于，所述第四子网络包括与所述时序队列中鸟瞰图高维图像特征的数量相同的分网络，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：

分别基于相应的所述分网络根据所述时序队列生成未来的相应时刻的鸟瞰图高维图像特征；

分别对所述未来的相应时刻的鸟瞰图高维图像特征进行上采样处理以生成未来的相应时刻的可行域预测图，以得到未来的多个时刻的可行域预测图。

9.如权利要求2所述的可行域预测方法，其特征在于，所述方法是由训练好的多个神经网络来实施的，所述多个神经网络包括第一神经网络、第二神经网络、第三神经网络和第四神经网络，其中：

所述第一神经网络用于获取当前时刻的所述多个视角的图像，并对所述多个视角的图像进行特征提取，得到多个视角图像高维图像特征；

所述第二神经网络用于对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征；

所述第三神经网络用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；

所述第四神经网络用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图。

10.如权利要求9所述的可行域预测方法，其特征在于，所述对所述多个视角图像高维图像特征进行融合，得到所述鸟瞰图特征，包括：

将所述视角图像高维图像特征作为键、所述鸟瞰图特征中的像素位置坐标作为查询输入到所述第二神经网络，并根据所述第二神经网络的输出结果得到所述鸟瞰图特征。

11.如权利要求9所述的可行域预测方法，其特征在于，所述第三神经网络包括多个卷积层，所述对所述鸟瞰图特征进行提取，得到鸟瞰图高维图像特征，包括：

12.如权利要求9所述的可行域预测方法，其特征在于，所述第四神经网络包括与所述时序队列中鸟瞰图高维图像特征的数量相同的子网络，所述根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，包括：

分别基于相应的所述子网络根据所述时序队列生成未来的相应时刻的鸟瞰图高维图像特征；

13.如权利要求1所述的可行域预测方法，其特征在于，所述可行域预测图是以概率化方式呈现的概率图，所述概率图用于表征未来时刻的环视图像中的像素点属于可行驶区域的概率。

14.如权利要求13所述的可行域预测方法，其特征在于，当所述概率图中像素点的像素值不大于设定阈值时，所述像素点所对应的未来时刻的环视图像中的像素点不属于可行驶区域，当所述概率图中像素点的像素值大于所述设定阈值时，所述像素点所对应的未来时刻的环视图像中的像素点属于可行驶区域。

15.一种可行域预测装置，应用于车辆自动驾驶或者辅助驾驶，其特征在于，包括：

鸟瞰图特征模块，用于获取当前时刻的环视图像，并根据所述环视图像得到鸟瞰图特征；所述环视图像包括由车辆上多个摄像头采集的多个视角的图像；

鸟瞰图高维图像特征模块，用于对所述鸟瞰图特征进行提取，得到当前时刻的鸟瞰图高维图像特征；

可行域预测图模块，用于根据所述当前时刻的鸟瞰图高维图像特征和多个历史时刻的鸟瞰图高维图像特征所构成的时序队列生成未来的可行域预测图，并输出所述可行域预测图。

16.一种可行域预测装置，应用于车辆自动驾驶或者辅助驾驶，其特征在于，包括：

多个设置于车辆上的摄像头，用于采集当前时刻的环视图像；所述环视图像包括多个视角的图像；

一个或多个处理器，用于：

获取所述环视图像，并根据所述环视图像得到鸟瞰图特征；

17.一种可行域预测装置，其特征在于，包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在由所述处理器运行时，使得所述处理器执行权利要求1至14中任意一项所述的可行域预测方法。

18.一种用于车辆自动驾驶或辅助驾驶的系统，其特征在于，所述系统包括权利要求15至17中任意一项所述的可行域预测装置。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在由处理器运行时使得所述处理器执行权利要求1至14中任意一项所述的可行域预测方法。