CN115273022A

CN115273022A - 车辆的鸟瞰图生成方法、装置、车辆及存储介质

Info

Publication number: CN115273022A
Application number: CN202210745119.6A
Authority: CN
Inventors: 詹东旭; 单玉梅
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-01

Abstract

本申请涉及自动驾驶技术领域，特别涉及一种车辆的鸟瞰图生成方法、装置、车辆及存储介质，其中，方法包括：获取车辆周围的多个感知信息并提取对应的二维特征图；按预设变换策略对每个二维特征图进行几何变换，得到第一特征图并进行特征融合和空间转换，得到不同时刻的单帧特征图；在当前时刻车辆坐标系下进行空间维度和时序维度的融合，生成第二特征图；根据第二特征图获取车辆周围的动态和静态障碍物特征，并基于动态和静态障碍物特征生成车辆周围的鸟瞰图。由此，本申请可以接收环绕车身360度的多个摄像头原始二维图像输入和/或激光雷达输入，并直接输出鸟瞰图视角下的感知信息，减少后处理的工作量，提高整个系统的鲁棒性。

Description

车辆的鸟瞰图生成方法、装置、车辆及存储介质

技术领域

本申请涉及自动驾驶技术领域，特别涉及一种车辆的鸟瞰图生成方法、装置、车辆及存储介质。

背景技术

自动驾驶系统是智能汽车的核心系统之一，其中的感知模块作为整个系统的上游，其感知质量的好坏直接影响整个自动驾驶系统的性能。

相关技术中，多数主机厂和自动驾驶解决方案供应商的感知模块架构基于感知后融合，即分别对单个摄像头的图像进行感知，然后利用基于逻辑的后处理对感知结果进行后融合。

然而，上述框架存在诸多的问题，其中，最突出的一点是：由于需要基于规则进行后处理，且视觉模块的后处理较为繁杂，因此方案鲁棒性差，无法处理一些重要的工况，特别是对于十字路口和环岛这样的复杂道路结构，方案的后融合处理的精度不高。同时，对于动态障碍物cut-in(插入)的场景，使用后融合的鲁棒性也较差。

发明内容

本申请提供一种车辆的鸟瞰图生成方法、装置、车辆及存储介质，可以接收环绕车身360度的多个摄像头原始二维图像输入和/或激光雷达输入，并直接输出鸟瞰图视角下的感知信息，减少后处理的工作量，提高整个系统的鲁棒性。

本申请第一方面实施例提供一种车辆的鸟瞰图生成方法，包括以下步骤：获取车辆周围的多个感知信息；提取每个感知信息的二维特征图，按照预设变换策略对每个二维特征图进行几何变换，得到第一特征图；对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，并在当前时刻车辆坐标系下对所述不同时刻的单帧特征图进行空间维度和时序维度的融合，生成第二特征图；根据所述第二特征图获取所述车辆周围的动态障碍物特征和静态障碍物特征，并基于所述动态障碍物特征和所述静态障碍物特征生成所述车辆周围的鸟瞰图。

根据上述技术手段，本申请实施例可以接收环绕车身360度的多个摄像头原始二维图像输入和/或激光雷达输入，并直接输出鸟瞰图视角下的感知信息，减少后处理的工作量，提高整个系统的鲁棒性。

进一步地，所述按照预设变换策略对每个二维特征图进行几何变换得到第一特征图，包括：获取所述第一特征图与每个二维特征图上的对应点；根据预先构造完成的逆透视变换矩阵将所述对应点用于在所述每个二维特征图上，得到所述第一特征图。

根据上述技术手段，本申请实施例可以利用相机的内参和外参构造逆透视变换矩阵，获得鸟瞰图特征图上每一点在二维特征图上的对应点，根据逆透视变换矩阵得到鸟瞰图的第一特征图，由此可以将空间单应性变换作用于二维特征图上，有效利用原始图像信息，特征图生成结果更准确和稳定。

进一步地，所述对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，包括：提取每个第一特征图之间的特征关系，基于所述特征关系进行特征融合，得到当前时刻单帧特征图；将所述当前时刻单帧特征图和历史多个时刻的单帧特征图转换至所述当前时刻车辆坐标系下，得到不同时刻的单帧特征图。

根据上述技术手段，本申请实施例可以引入时序信息，使得所有不同时刻的特征都在同一个统一的坐标系下(即当前时刻车体坐标系)，由此可以通过一种更简便的融合方式准确有效地获取特征融合后的单帧特征图，使得特征信息能够有效重叠而不至于错位，操作更简单快捷，提升融合效率和融合结果准确性。

进一步地，所述根据所述第二特征图获取所述车辆周围的动态障碍物特征和静态障碍物特征，包括：将所述第二特征图输入至预先建立的第一解码器，对所述第二特征图进行动态障碍物语义信息的解码，得到所述动态障碍物特征；将所述第二特征图输入至预先建立的第二解码器，对所述第二特征图进行静态障碍物语义信息的解码，得到所述静态障碍物特征。

根据上述技术手段，本申请实施例可以通过动态解码和静态解码实现在鸟瞰图视角下的旋转框检测，并基于点检测和点实例聚类，输出每个点的切线方向，通过简单的后处理将道路静态信息进行向量化，由此可以有效解决后处理复杂的问题，减少感知后处理的工作量，直接在鸟瞰图视角输出规划控制需要的所有必要信息，解码过程更完善和准确，提升整个感知系统的鲁棒性。

进一步地，所述基于所述动态障碍物特征和所述静态障碍物特征生成所述车辆周围的鸟瞰图，包括：获取所述车辆的激光雷达的点云数据；将所述点云数据输入至预先建立完成的点云特征提取模型，输出所述点云数据的点云特征；将所述点云特征、所述动态障碍物特征和所述静态障碍物特征融合，得到所述车辆周围的鸟瞰图。

根据上述技术手段，本申请实施例可以将激光雷达输入作为一个选择分支，在实现多视角融合外，还能同时融合激光雷达和视觉，处理多模态信息，提升综合信息处理能力，对于鸟瞰图生成的特征考虑更全面，提高生成结果准确性和全面性。

本申请第二方面实施例提供一种车辆的鸟瞰图生成装置，包括：获取模块，用于获取车辆周围的多个感知信息；第一变换模块，用于提取每个感知信息的二维特征图，按照预设变换策略对每个二维特征图进行几何变换，得到第一特征图；第二变换模块，用于对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，并在当前时刻车辆坐标系下对所述不同时刻的单帧特征图进行空间维度和时序维度的融合，生成第二特征图；生成模块，用于根据所述第二特征图获取所述车辆周围的动态障碍物特征和静态障碍物特征，并基于所述动态障碍物特征和所述静态障碍物特征生成所述车辆周围的鸟瞰图。

进一步地，所述第一变换模块用于：获取所述第一特征图与每个二维特征图上的对应点；根据预先构造完成的逆透视变换矩阵将所述对应点用于在所述每个二维特征图上，得到所述第一特征图。

进一步地，所述第二变换模块用于：提取每个第一特征图之间的特征关系，基于所述特征关系进行特征融合，得到当前时刻单帧特征图；将所述当前时刻单帧特征图和历史多个时刻的单帧特征图转换至所述当前时刻车辆坐标系下，得到不同时刻的单帧特征图。

进一步地，所述生成模块用于：将所述第二特征图输入至预先建立的第一解码器，对所述第二特征图进行动态障碍物语义信息的解码，得到所述动态障碍物特征；将所述第二特征图输入至预先建立的第二解码器，对所述第二特征图进行静态障碍物语义信息的解码，得到所述静态障碍物特征。

进一步地，所述生成模块进一步用于：获取所述车辆的激光雷达的点云数据；将所述点云数据输入至预先建立完成的点云特征提取模型，输出所述点云数据的点云特征；将所述点云特征、所述动态障碍物特征和所述静态障碍物特征融合，得到所述车辆周围的鸟瞰图。

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的车辆的鸟瞰图生成方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的车辆的鸟瞰图生成方法。

由此，本申请至少具有如下有益效果：

(1)本申请实施例可以接收环绕车身360度的多个摄像头原始二维图像输入和/或激光雷达输入，并直接输出鸟瞰图视角下的感知信息，减少后处理的工作量，提高整个系统的鲁棒性。

(2)本申请实施例可以利用相机的内参和外参构造逆透视变换矩阵，获得鸟瞰图特征图上每一点在二维特征图上的对应点，根据逆透视变换矩阵得到鸟瞰图的第一特征图，由此可以将空间单应性变换作用于二维特征图上，有效利用原始图像信息，特征图生成结果更准确和稳定。

(3)本申请实施例可以引入时序信息，使得所有不同时刻的特征都在同一个统一的坐标系下(即当前时刻车体坐标系)，由此可以通过一种更简便的融合方式准确有效地获取特征融合后的单帧特征图，使得特征信息能够有效重叠而不至于错位，操作更简单快捷，提升融合效率和融合结果准确性。

(4)本申请实施例可以通过动态解码和静态解码实现在鸟瞰图视角下的旋转框检测，并基于点检测和点实例聚类，输出每个点的切线方向，通过简单的后处理将道路静态信息进行向量化，由此可以有效解决后处理复杂的问题，减少感知后处理的工作量，直接在鸟瞰图视角输出规划控制需要的所有必要信息，解码过程更完善和准确，提升整个感知系统的鲁棒性。

(5)本申请实施例可以将激光雷达输入作为一个选择分支，在实现多视角融合外，还能同时融合激光雷达和视觉，处理多模态信息，提升综合信息处理能力，对于鸟瞰图生成的特征考虑更全面，提高生成结果准确性和全面性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的多视角多模态常规后融合处理架构图；

图2为根据本申请实施例提供的多视角多模态前融合处理架构图；

图3为根据本申请实施例提供的一种车辆的鸟瞰图生成方法的流程图；

图4为根据本申请实施例提供的在2D＝>BEV条件下的几何变换模块示意图；

图5为根据本申请实施例提供的变压器编码器模块示意图；

图6为根据本申请实施例提供的在t-1帧＝>t帧条件下的几何变换模块示意图；

图7为根据本申请实施例提供的三维卷积模块示意图；

图8为根据本申请实施例提供的动态障碍物分支示意图；

图9为根据本申请实施例提供的动态障碍物后处理流程图；

图10为根据本申请实施例提供的预测效果图；

图11为根据本申请实施例提供的静态路面信息检测后处理流程图；

图12为根据本申请实施例提供的静态路面信息检测分支示意图；

图13为根据本申请实施例提供的激光雷达附加输入模块的示意图；

图14为根据本申请实施例提供的整体模型架构示意图；

图15为根据本申请实施例提供的多视角多模态前融合鸟瞰图软件架构图；

图16为根据本申请实施例的车辆的鸟瞰图生成装置的示例图；

图17为根据本申请实施例的车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

相关技术中，多数主机厂和自动驾驶解决方案供应商的感知模块架构基于感知后融合，如图1所示，多视角多模态前融合方案作为一种新的趋势，可以有效解决上述相关技术对于复杂道路结构的感知能力差、视野遮挡、后处理鲁棒性差和感知完全信息下游缺失等诸多问题，其中，多视角多模态前融合BEV的主要几个途径如下：

(1)基于spatial transformer(几何变换)：提出了利用spatial transformer对2D(2-dimension，二维)图像上的特征进行几何变换，目标空间为BEV(Bird Eye View，鸟瞰图视角)空间，然后将多个变换后的BEV特征图按Channel(通道)进行拼接操，达到多视角融合目的。但此方式的输出只是原始语义分割图，需要进行较为复杂的后处理。

(2)基于视觉点云：此融合方式首先要生成每个2D特征图上的深度图，利用深度图将每个特征图上的特征点转换到3D(3-dimension，三维)空间中，使每个图都生成对应的视觉伪点云，然后利用相机外参数将每一簇伪点云转换到统一的车体坐标系，达到多视角融合目的，最后利用点云处理算子将点云特征转换到鸟瞰图特征。此方式融合自然，但由于其先验地依存于深度估计的精度，因此误差容易累计传播，且伪点云会存在跳动，使得感知结果不够稳定。

(3)基于MLP(Multilayer Perceptron，多层感知器)：此种方式直接利用MLP来替代(1)中的spatial transformer，利用MLP将perspective feature(透视的特征)转换为BEV的特征，然后利用相机外参将所有相机BEV特征进行聚合到统一车体坐标系上，获得BEV特征。此融合方式同样无需进行深度估计，多视角融合更直接简单，但由于没有输入相机内参作为先验，因此一旦相机内参变化，其检测效果容易受到影响。

(4)BEV解码器：当前多数方案都是输出的BEV视角下的语义分割图，但是语义分割结果容易出现噪点，且后处理基于逻辑，稳定性不强。

上述相关技术中的多视角多模态前融合BEV模型，其融合策略基于空间变换，视觉点云或MLP；然而，基于空间变换的融合方式仅仅是简单地将多个特征进行级联，其解码策略多为语义分割，仍存在后处理繁杂的问题。

为此，本申请实施例提出了一种车辆的鸟瞰图生成方法、装置、车辆及存储介质，下面将参考附图描述本申请实施例的车辆的鸟瞰图生成方法、装置、车辆及存储介质。

具体而言，图3为本申请实施例所提供的一种车辆的鸟瞰图生成方法的流程示意图。

如图3所示，该车辆的鸟瞰图生成方法包括以下步骤：

在步骤S101中，获取车辆周围的多个感知信息。

其中，本申请实施例可以通过至少一种方式获取车辆周围的感知信息，对此不做具体限定。

可以理解的是，本申请实施例可以获取车辆周围的多个感知信息，以用于后续步骤对车辆的鸟瞰图的生成。

在步骤S102中，提取每个感知信息的二维特征图，按照预设变换策略对每个二维特征图进行几何变换，得到第一特征图。

其中，预设变换策略可以根据实际情况进行具体设置，对此不做具体限定；比如本申请实施例可以利用几何变换首先生成samplegrid(透视变换矩阵)，再将gridsample(逆透视变换矩阵)操作作用在2D特征图上，从而获得了BEV上的特征图等。

可以理解的是，本申请实施例可以参考基于spatial transformer的部分方案，将2D图像进行转换，以得到第一特征图；比如，本申请实施例可以设计一个STN(SpatialTransform Network，几何变换)模块，用于实现上述对第一特征图的生成。其中，本申请实施例的几何变换可以包括两个步骤：首先利用相机的内参和外参构造逆透视变换矩阵，获得BEV特征图上每一点在2D特征图上的对应点，即生成了samplegrid；然后利用获得的samplegrid将gridsample操作作用在2D特征图上，从而获得了BEV上的特征图。

需要说明的是，对于某一视角的单目相机，其成像面为一个2D透视平面，成像面的每一个像素，都是世界坐标系下的一个点经过投影变换形成；而本申请实施例的前融合BEV模型，最终的感知结果并非是在如上述的2D透视平面，而是在BEV，因此本申请实施例采用STN模块，将2D透视平面坐标系的特征点几何变换到BEV。下面将对本申请实施例的几何变换过程进行具体阐述。

在本申请实施例中，按照预设变换策略对每个二维特征图进行几何变换得到第一特征图，包括：获取第一特征图与每个二维特征图上的对应点；根据预先构造完成的逆透视变换矩阵将对应点用于在每个二维特征图上，得到第一特征图。

其中，逆透视变换矩阵可以根据实际情况进行具体设置得到，对此不做具体限定。

需要说明的是，STN模块的输入并不是原始的2D图像，而是经过特征提取模块抽取特征后的2D特征图。本申请的STN模块主要有两个子模块，如图4所示，第一个模块为affinegrid模块，第二个模块为gridsample模块；Affinegrid模块通过affine(仿射)变换，获取BEV视角下每一个点在原透视图的对应坐标点。

1、Affine grid(图像仿射)模块：对于BEV特征图上的一个点(u_{feat_bev},v_{feat_bev})∈W_{feat_bev}×H_{feat_bev}，其在2D特征图W_{feat_img}×H_{feat_img}上对应的点(u_{feat_img},v_{feat_img})计算过程如下：

对于式(1)，Z_c为某一点的深度，ratio_downsample为特征提取模块的下采样倍数，K、R、T均可以由相机内外参标定给出，分别为单目相机的内参矩阵、外参旋转矩阵、外参平移矩阵，三者合并记作P矩阵，为相机投影矩阵。

对于式(2)(3)，

而W_bev和H_bev为最终输出的BEV画布的宽高，ppx_bev和ppy_bev为BEV画布的分辨率，M矩阵联系了BEV像素坐标和BEV世界坐标的关系。由公式(1)(2)(3)导出式(4)：

因此，由式(4)可知，BEV特征图上点(u_{feat_bev},v_{feat_bev})∈W_{feat_bev}×H_{feat_bev}，可以经过PM矩阵得到相应2D特征图上的对应点(u_{feat_img},v_{feat_img})。并且，对于BEV特征图上的每一个特征点u_{feat_bev}＝0,1,2,...,W_{feat_bev}，v_{feat_bev}＝0,1,2,...,H_{feat_bev}，可以获取相应的特征点，因此，所有这样的对应关系就生成了一个samplegrid矩阵，其维度为[H_{feat_bev},W_{feat_bev},2]，记作TENSOR_GRID。

2、Gridsample模块：此模块利用上述计算得到的TENSOR_GRID，在2D特征图上进行gridsample，具体而言，对于bev特征图上的一个点(u_{feat_bev},v_{feat_bev})∈W_{feat_bev}×H_{feat_bev}，可以对应到输入2D特征图的4个坐标值x₀,y₀,x₁,y₁，其计算如下：

x_base,y_base＝TENSOR_GRID[u_{feat_bev},v_{feat_bev},:] (5)

x₀,y₀＝(int(pt_base[0]),int(pt_base[1])) (6)

x₁,y₁＝(int(pt_base[0])+1,int(pt_base[1])+1) (7)

然后根据这四个点，对每个特征向量进行bilinear插值，插值公式如下：

其中，FeatOnImg维度为(C_feat,H_{feat_img},W_{feat_img})，FeatOnBEV为输出的BEV特征图，维度为(C_feat,H_{feat_bev},W_{feat_bev})。

根据上述两个模块的计算过程，本申请实施例提出的STN模块，首先利用公式(4)获得BEV特征图上每一点在2D特征图上的对应点，即生成了samplegrid；然后利用公式(8)将gridsample操作作用在2D特征图上，从而获得了BEV上的特征图。

在步骤S103中，对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，并在当前时刻车辆坐标系下对不同时刻的单帧特征图进行空间维度和时序维度的融合，生成第二特征图。

可以理解的是，本申请实施例可以使用一种多视角融合变压器编码的方式对非遗特征图进行特征融合，且使用一种几何变换的方式进行空间转换并得到不同时刻的单针特征图；本申请实施例还可以使用一种时序融合的三维卷积方式，以实现在当前时刻车辆坐标系下对不同时刻的单帧特征图进行空间维度和时序维度的融合。下面将结合具体实施例对本申请实施例的多视角融合方式和时序融合方式进行具体阐述。

1、多视角融合的Transformer Encoder模块：

在本申请实施例中，对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，包括：提取每个第一特征图之间的特征关系，基于特征关系进行特征融合，得到当前时刻单帧特征图；将当前时刻单帧特征图和历史多个时刻的单帧特征图转换至当前时刻车辆坐标系下，得到不同时刻的单帧特征图。

其中，本申请实施例可以使用至少一种方式提取每个第一特征图之间的特征关系，比如，本申请实施例可以利用一种自注意力模块，有效提取每个BEV图之间的关联关系。

可以理解的是，STN变换的是单个2D特征图，每个视角经过STN变换后都会产生一个BEV特征图，因此本申请实施例可以设置一个多视角融合的Transformer Encoder模块，此模块的作用是对所有单个BEV图进行一次特征级的深度融合，并最终输出memory作为深度融合的最终单帧特征图，送入到后续的时序模块。

具体而言，经过如上述步骤S101的STN变换，获取的是单个视角下的bev特征图，由此可知，N个视角变换后就会产生N在bev坐标系下的FeatOnBEVi(i＝1,2,…,N)。此多视角融合的Transformer Encoder模块的作用是对所有FeatOnBEVi进行一次特征级的深度融合，可以利用Transformer作为深度融合的结构；由于该种方式只关注特征融合，而不利用Transformer进行信息解码，因此本申请的特征融合模块只取标准TransformerEncoder部分，获取融合后的memory作为最终单帧BEV特征。

本申请的TransformerEncoder包含PositionEmbedding模块和多个TransformerLayer(变压器层)，其中，每个TransformerLayer进行实际的特征融合，包含Multi-headSelf-Attention(多头机制、自注意力机制)模块和Feedforward(正向馈电传送)模块。其中，TransformerEncoder模型的输入构造如下：

(1)将N个FeatOnBEVi按照Channel进行Concat(concat()函数，连接两个或多个数组)操作，获得Concat后的特征图FeatBEVConcat，其维度为(C_feat×N,H_{feat_bev},W_{feat_bev})；

(2)将FeatBEVConcat在宽高维度进行展开，获得FeatBEVExpand，其维度为(C_feat×N,H_{feat_bev}×W_{feat_bev})；

(3)将其进行维度变换，获得可以输入Transformer Encoder的标准形式FeatBEVin，其维度为(H_{feat_bev}×W_{feat_bev},1,C_feat×N)；

(4)然后利用BEV特征图维度(C_feat,H_{feat_bev},W_{feat_bev})，通过Embedding模块计算出EmbedVector，其维度为(H_{feat_bev}×W_{feat_bev},1,C_feat×N)。

通过如上步骤，就获取了TransformerEncoder的所需输入向量，整个TransformerEncode模块示意图可以如图5所示。输入张量经过了多层的TransformerLayer后，最终获得了一个融合的bev特征，记作BEVMemory，其空间维度和输入空间维度是一样的，Channel数扩增N倍，为(C_feat×N,H_{feat_bev},W_{feat_bev})。

2、时序融合之STN模块：

为了改善模型感知性能，本申请可以进一步引入时序信息。具体地，如图6所示，对前M时刻的每一帧Frame1，Frame2，…，FrameM(注：每一帧包含多个视角，这里FrameM表示当前时刻帧)，都能经过上述步骤提取出聚合后的特征，即BEVMemory1，BEVMemory2，…，BEVMemoryM。但由于BEVMemoryi是相对于i时刻的车体坐标系Coord的Coordi，为了将所有的BEVMemory都转换到当前时刻(也就是M时刻)的车体坐标系CoordM，需要对BEVMemoryi做STN变换。此STN变换和第一步的STN相比，转换空间为Coordi到CoordM(而不是2D到BEV)。

具体而言，设i时刻自车的位置为(R_i,T_i),则对于世界坐标系的某一点p,其在第i时刻的车体坐标系Coordi的坐标p_i和第i+1的车体坐标系Coord(i+1)的坐标p_i+1的关系为：

R_ip_i+T_i＝R_i+1p_i+1+T_i+1 (9)

整理后得到：

式(10)描述了同一个点在Coordi和Coord(i+1)坐标系下的的转换关系；将式(10)写成齐次坐标系形式进行简化，有：

对于BEVMemoryi，利用STN将其转化为在坐标系CoordM下的BEV特征，其转换矩阵T_M,i有如下的连乘形式：

T_M,i＝T_M,M-1...T_i+2,i+1T_i+1,i (12)

利用(11)，对于BEVMemoryM的每一个点(u_{feat_bevM},v_{feat_bevM}),都可以计算出其在Coordi下的坐标(u_{feat_bevi},v_{feat_bevi})，也即计算出了TENSOR_GRID，后续计算同第一步的STN模块进行bilineargridsample。最终第1、2…、M-1时刻的BEVMemory都转换到了第M时刻的坐标系下。为了将显示的位姿信息也作为特征的其中一部分，为此将

等价转换为一个6维向量VectorT_M,i＝[yaw,pitch,roll,transX,transY,transZ]，然后concat到原C_feat×N维向量上，即最后每一个转换后的维度最终为C_feat×N+6维。

对所有经过STN和位姿concat后的BEVMemory在时间维度进行concat，获得一个4维特征张量TENSOR_FRAMES(C_feat×N+6,M,H_{feat_bev},W_{feat_bev})，其中，第一维度为特征通道，第二维度为时序，最后两维为空间宽高维度。

3、时序融合之3D卷积模块：

为了聚合时序方向的特征，本申请实施例可以引入3D卷积模块，以对上述生成的TENSOR_FRAMES进行时序特征融合。具体而言，整个3D卷积时序融合模块类似残差网络，网络中有多个3D的1x1x1卷积，但最后只输出一个聚合后的4D特征向量，本申请实施例可以取出当前时刻对应的特征层作为最终融合后的特征图TENSOR_SPACETIME_FUSION。整个3D模块的示意图可以如图7所示，右侧子图表示一个第一个3D残差模块，输入维度为C，而后续残差模块输入维度均变为C-6；其中，所有卷积操作均为1x1x1卷积，以减小3D操作的计算量。

在步骤S104中，根据第二特征图获取车辆周围的动态障碍物特征和静态障碍物特征，并基于动态障碍物特征和静态障碍物特征生成车辆周围的鸟瞰图。

可以理解的是，经过上述步骤S101至步骤S103，本申请实施例的模型可以抽取出多个视角和时序的融合信息TENSOR_SPACETIME_FUSION，此融合信息的维度为(C_fusion,H_{feat_bev},W_{feat_bev})，其中有C_fusion＝C_feat×N+6，因此，本申请实施例可以从动态和静态两方面对障碍物特征进行获取，以生成车辆周围的鸟瞰图。

在本申请实施例中，根据第二特征图获取车辆周围的动态障碍物特征和静态障碍物特征，包括：将第二特征图输入至预先建立的第一解码器，对第二特征图进行动态障碍物语义信息的解码，得到动态障碍物特征；将第二特征图输入至预先建立的第二解码器，对第二特征图进行静态障碍物语义信息的解码，得到静态障碍物特征。

1、第一解码器之动态障碍物检测分支：

对于动态障碍物检测，本申请可以采用类似centernet的anchor-free(无锚节点)检测方式。由于是在BEV做目标检测，为了回归出检测框的旋转角度，本申请将centernet改进为4个输出分支，如图8所示，分别为heatmap分支、offset分支、宽高分支和旋转角度分支。

具体而言，如图9所示，TENSOR_SPACETIME_FUSION分别输入4分支，进行了几次卷积操作，最后输出4个最终的TENSOR。其中，TENSOR_heatmap用于预测每个动态障碍物的中心点，形状为(1,H_{feat_bev},W_{feat_bev})；TENSOR_offset用于预测障碍物实际点和像素坐标点的偏差，包含u方向偏差和v方向偏差，形状为(2,H_{feat_bev},W_{feat_bev})；TENSOR_wh用于预测每个动态障碍物的相对宽w和高h，其形状为(2,H_{feat_bev},W_{feat_bev})；TENSOR_rotation用于预测每个动态障碍物的偏航角theta，其形状为(1,H_{feat_bev},W_{feat_bev})。模型预测出的4个TENSOR，经过类似centernet的后处理，最终获得BEV视角下的每个动态障碍物的中心点的位置、偏航角、宽和高，如图10所示。

2、第二解码器之静态路面信息检测分支：

此模块可以解码上述动态分支中生成的TENSOR_SPACETIME_FUSION。不同于常规的语义分割，本申请实施例可以利用关键点检测和关键点实例分割思想进行静态路面信息感知，并且利用点切线方向分类给出关键点所在线处的切向方向；由此，本申请实施例可以采用一种如图11所示的解码器，对静态路沿、车道线和人行横道等进行实时目标检测。

具体而言，如图12所示，静态路面检测有5个分支，分别为关键点heatmap分支、关键点offset分支、关键点聚类特征分支、关键点类别分支和关键点方向分类分支。TENSOR_SPACETIME_FUSION分别输入5分支，进行几次卷积操作，最后输出5个最终的TENSOR。其中，TENSOR_heatmap用于预测关键点位置；TENSOR_offset用于预测关键点的小数偏移量；TENSOR_cluster用于回归每个关键点的聚类特征；TENSOR_class用于确定关键点的类型(路沿、人行横道和车道线等)；TENSOR_direct用于确定关键点的一个切线方向。

TENSOR_heatmap和TENSOR_offset，经过类似centernet的后处理，可以获得每个关键点的精确位置；TENSOR_cluster经过cluster算法，可以对每个关键点进行实例化，即将所有关键点划分为多个实例(PointSet1，PointSet2，PointSet3……)；而对于每一个PointSet，可以通过TENSOR_class分支获取每个点的类别。

由于一个PointSet对应一条实例线，因而理想情况要求PointSet每一个点预测出的类型相同(例如组成路沿线的每一个点的类别预测结果均应该是路沿)，但实际预测时候，PointSet每一个点类别会存在不一致的情况，这时本申请实施例可以对PointSet中所有点的类别进行计数，计数最多的那个类别maxClass，被选为是此PointSet的类别。最后本申请利用TENSOR_direct，对PointSet中的点进行有序化和稀疏采样，获得了最终的结构化的静态路面线，即PointSet＝{p_start,p₁,p₂,...,p_N,p_end}，其对应的线即为结构化的线Line＝p_start-p₁-p₂-...-p_N-p_end，类别为maxClass；其中，预测效果图可以如图10所示。

在本申请实施例中，基于动态障碍物特征和静态障碍物特征生成车辆周围的鸟瞰图，包括：获取车辆的激光雷达的点云数据；将点云数据输入至预先建立完成的点云特征提取模型，输出点云数据的点云特征；将点云特征、动态障碍物特征和静态障碍物特征融合，得到车辆周围的鸟瞰图。

可以理解的是，由于本申请实施例的上述解码过程是通过解码BEV视角下的TENSOR_SPACETIME_FUSION获取感知信息，因此本申请实施例是一个天然的多模态融合框架，由此，本申请实施例可以使用一种激光雷达作为一个可选择的输入模态，再综合上述步骤中得到的所有特征，生成车辆周围的鸟瞰图。下面将结合具体实施例对上述激光雷达输入和整体特征融合进行阐述。

1、激光雷达输入分支：

可以理解的是，激光雷达天然就含有3D信息，因此很容易向BEV视角进行投影，因此本申请实施例可以将激光雷达作为一个可选择的输入模态。

具体而言，如图13所示，本申请实施例可以首先通过点云特征提取模型和点云pillarpooling，以获得点云在BEV视角下地特征；其次将点云获取的BEV特征记作TENSOR_LIDAR，其中，其宽高维度可以通过调整卷积参数使得和视觉BEV特征一致，其维度可表示为(C_lidar,H_{feat_bev},W_{feat_bev})；接着将TENSOR_SPACETIME_FUSION和TENSOR_LIDAR在特征维度上进行Concat，以获得多模态的最终特征，其维度为(C_lidar+C_fusion,H_{feat_bev},W_{feat_bev})；后面的解码模块，除卷积操作的输入通道维度相应改变外，其余均可保持不变。

2、整体模型架构：

可以理解的是，本申请实施例可以将以上所有步骤后获取的各障碍物特征融合，生成如图14所示的多视角多模态融合架构；其中，由于本申请实施例主要以视觉信息为主，因此上述激光雷达作为一个可以选择的补充模态。

具体而言，整个模型的训练为监督训练，标签为BEV视角上的动态障碍物真值和静态路面真值，损失函数为两个解码分支的损失函数之和。其中，下表1为序列长度和评测指标表，本申请实施例整个模型在不同的序列长度上的评价指标可参见表1，在不同的序列长度上的整个模型的前向推理时间也可以参照表1；由此可以看出，时序越长，可利用的信息越多，整个指标就越高。

表1

本申请实施例的整个框架的实际可视化可以如图10所示，其中，图10的结果只是视觉融合结果，没有涉及到激光雷达；本申请实施例所提出的多视角多模态融合框架，需要配合一个特定的软件架构，其中，备选的软件架构可以如图15所示。

综上所述，本申请实施例可以提出一种车辆的鸟瞰图生成方法，同时对多视角前融合方式和感知信息编码器进行了创新，并且为了减少感知结果的跳动，具体如下：

1、本申请实施例可以将空间单应性变换作用于2D特征图上，将其转化为了鸟瞰图上的特征图，并将不同特征图按Channel进行拼接，然后送入一个Transformer encoder融合模块，使得不同视角的特征可以进行深度融合。

2、本申请实施例设计了两个解码器，分别用于动态障碍物和静态路面语义信息的解码，其中，动态障碍物解码器基于centernet的heatmap方式，在BEV视角下进行旋转框的检测；静态障碍物解码器则基于点检测和点实例聚类，并且输出每个点的切线方向，最后用简单的后处理将道路静态信息进行向量化。

3、本申请实施例引入了时序信息，对历史前N帧同时进行特征提取，生成每一帧的BEV特征，并将所有时序帧，利用空间几何变换变到当前帧车体坐标系下，然后利用3D卷积将时序帧融合成了最终特征图用于解码。

根据本申请实施例提出的车辆的鸟瞰图生成方法，可以接收环绕车身360度的多个摄像头原始二维图像输入和/或激光雷达输入，并直接输出鸟瞰图视角下的感知信息，减少后处理的工作量，提高整个系统的鲁棒性；可以利用相机的内参和外参构造逆透视变换矩阵，获得鸟瞰图特征图上每一点在二维特征图上的对应点，根据逆透视变换矩阵得到鸟瞰图的第一特征图，由此可以将空间单应性变换作用于二维特征图上，有效利用原始图像信息，特征图生成结果更准确和稳定；可以引入时序信息，使得所有不同时刻的特征都在同一个统一的坐标系下(即当前时刻车体坐标系)，由此可以通过一种更简便的融合方式准确有效地获取特征融合后的单帧特征图，使得特征信息能够有效重叠而不至于错位，操作更简单快捷，提升融合效率和融合结果准确性；可以通过动态解码和静态解码实现在鸟瞰图视角下的旋转框检测，并基于点检测和点实例聚类，输出每个点的切线方向，通过简单的后处理将道路静态信息进行向量化，由此可以有效解决后处理复杂的问题，减少感知后处理的工作量，直接在鸟瞰图视角输出规划控制需要的所有必要信息，解码过程更完善和准确，提升整个感知系统的鲁棒性；可以将激光雷达输入作为一个选择分支，在实现多视角融合外，还能同时融合激光雷达和视觉，处理多模态信息，提升综合信息处理能力，对于鸟瞰图生成的特征考虑更全面，提高生成结果准确性和全面性。

其次参照附图描述根据本申请实施例提出的车辆的鸟瞰图生成装置。

图16是本申请实施例的车辆的鸟瞰图生成装置的方框示意图。

如图16所示，该车辆的鸟瞰图生成装置10包括：获取模块100、第一变换模块200、第二变换模块300和生成模块400。

其中，获取模块100用于获取车辆周围的多个感知信息；第一变换模块200用于提取每个感知信息的二维特征图，按照预设变换策略对每个二维特征图进行几何变换，得到第一特征图；第二变换模块300用于对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，并在当前时刻车辆坐标系下对不同时刻的单帧特征图进行空间维度和时序维度的融合，生成第二特征图；生成模块400用于根据第二特征图获取车辆周围的动态障碍物特征和静态障碍物特征，并基于动态障碍物特征和静态障碍物特征生成车辆周围的鸟瞰图。

在本申请实施例中，第一变换模块200用于：获取第一特征图与每个二维特征图上的对应点；根据预先构造完成的逆透视变换矩阵将对应点用于在每个二维特征图上，得到第一特征图。

在本申请实施例中，第二变换模块300用于：提取每个第一特征图之间的特征关系，基于特征关系进行特征融合，得到当前时刻单帧特征图；将当前时刻单帧特征图和历史多个时刻的单帧特征图转换至当前时刻车辆坐标系下，得到不同时刻的单帧特征图。

在本申请实施例中，生成模块400用于：将第二特征图输入至预先建立的第一解码器，对第二特征图进行动态障碍物语义信息的解码，得到动态障碍物特征；将第二特征图输入至预先建立的第二解码器，对第二特征图进行静态障碍物语义信息的解码，得到静态障碍物特征。

在本申请实施例中，生成模块400进一步用于：获取车辆的激光雷达的点云数据；将点云数据输入至预先建立完成的点云特征提取模型，输出点云数据的点云特征；将点云特征、动态障碍物特征和静态障碍物特征融合，得到车辆周围的鸟瞰图。

需要说明的是，前述对车辆的鸟瞰图生成方法实施例的解释说明也适用于该实施例的车辆的鸟瞰图生成装置，此处不再赘述。

根据本申请实施例提出的车辆的鸟瞰图生成装置，可以接收环绕车身360度的多个摄像头原始二维图像输入和/或激光雷达输入，并直接输出鸟瞰图视角下的感知信息，减少后处理的工作量，提高整个系统的鲁棒性；可以利用相机的内参和外参构造逆透视变换矩阵，获得鸟瞰图特征图上每一点在二维特征图上的对应点，根据逆透视变换矩阵得到鸟瞰图的第一特征图，由此可以将空间单应性变换作用于二维特征图上，有效利用原始图像信息，特征图生成结果更准确和稳定；可以引入时序信息，使得所有不同时刻的特征都在同一个统一的坐标系下(即当前时刻车体坐标系)，由此可以通过一种更简便的融合方式准确有效地获取特征融合后的单帧特征图，使得特征信息能够有效重叠而不至于错位，操作更简单快捷，提升融合效率和融合结果准确性；可以通过动态解码和静态解码实现在鸟瞰图视角下的旋转框检测，并基于点检测和点实例聚类，输出每个点的切线方向，通过简单的后处理将道路静态信息进行向量化，由此可以有效解决后处理复杂的问题，减少感知后处理的工作量，直接在鸟瞰图视角输出规划控制需要的所有必要信息，解码过程更完善和准确，提升整个感知系统的鲁棒性；可以将激光雷达输入作为一个选择分支，在实现多视角融合外，还能同时融合激光雷达和视觉，处理多模态信息，提升综合信息处理能力，对于鸟瞰图生成的特征考虑更全面，提高生成结果准确性和全面性。

图17为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器1701、处理器1702及存储在存储器1701上并可在处理器1702上运行的计算机程序。

处理器1702执行程序时实现上述实施例中提供的车辆的鸟瞰图生成方法。

进一步地，车辆还包括：

通信接口1703，用于存储器1701和处理器1702之间的通信。

存储器1701，用于存放可在处理器1702上运行的计算机程序。

存储器1701可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器1701、处理器1702和通信接口1703独立实现，则通信接口1703、存储器1701和处理器1702可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1701、处理器1702及通信接口1703，集成在一块芯片上实现，则存储器1701、处理器1702及通信接口1703可以通过内部接口完成相互间的通信。

处理器1702可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的车辆的鸟瞰图生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车辆的鸟瞰图生成方法，其特征在于，包括以下步骤：

获取车辆周围的多个感知信息；

提取每个感知信息的二维特征图，按照预设变换策略对每个二维特征图进行几何变换，得到第一特征图；

对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，并在当前时刻车辆坐标系下对所述不同时刻的单帧特征图进行空间维度和时序维度的融合，生成第二特征图；

根据所述第二特征图获取所述车辆周围的动态障碍物特征和静态障碍物特征，并基于所述动态障碍物特征和所述静态障碍物特征生成所述车辆周围的鸟瞰图。

2.根据权利要求1所述的方法，其特征在于，所述按照预设变换策略对每个二维特征图进行几何变换得到第一特征图，包括：

获取所述第一特征图与每个二维特征图上的对应点；

根据预先构造完成的逆透视变换矩阵将所述对应点用于在所述每个二维特征图上，得到所述第一特征图。

3.根据权利要求1所述的方法，其特征在于，所述对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，包括：

提取每个第一特征图之间的特征关系，基于所述特征关系进行特征融合，得到当前时刻单帧特征图；

将所述当前时刻单帧特征图和历史多个时刻的单帧特征图转换至所述当前时刻车辆坐标系下，得到不同时刻的单帧特征图。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二特征图获取所述车辆周围的动态障碍物特征和静态障碍物特征，包括：

将所述第二特征图输入至预先建立的第一解码器，对所述第二特征图进行动态障碍物语义信息的解码，得到所述动态障碍物特征；

将所述第二特征图输入至预先建立的第二解码器，对所述第二特征图进行静态障碍物语义信息的解码，得到所述静态障碍物特征。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述基于所述动态障碍物特征和所述静态障碍物特征生成所述车辆周围的鸟瞰图，包括：

获取所述车辆的激光雷达的点云数据；

将所述点云数据输入至预先建立完成的点云特征提取模型，输出所述点云数据的点云特征；

将所述点云特征、所述动态障碍物特征和所述静态障碍物特征融合，得到所述车辆周围的鸟瞰图。

6.一种车辆的鸟瞰图生成装置，其特征在于，包括：

获取模块，用于获取车辆周围的多个感知信息；

第一变换模块，用于提取每个感知信息的二维特征图，按照预设变换策略对每个二维特征图进行几何变换，得到第一特征图；

第二变换模块，用于对所有第一特征图进行特征融合和空间转换，得到不同时刻的单帧特征图，并在当前时刻车辆坐标系下对所述不同时刻的单帧特征图进行空间维度和时序维度的融合，生成第二特征图；

生成模块，用于根据所述第二特征图获取所述车辆周围的动态障碍物特征和静态障碍物特征，并基于所述动态障碍物特征和所述静态障碍物特征生成所述车辆周围的鸟瞰图。

7.根据权利要求6所述的装置，其特征在于，

所述第一变换模块用于：获取所述第一特征图与每个二维特征图上的对应点；根据预先构造完成的逆透视变换矩阵将所述对应点用于在所述每个二维特征图上，得到所述第一特征图；

所述第二变换模块用于：提取每个第一特征图之间的特征关系，基于所述特征关系进行特征融合，得到当前时刻单帧特征图；将所述当前时刻单帧特征图和历史多个时刻的单帧特征图转换至所述当前时刻车辆坐标系下，得到不同时刻的单帧特征图；

所述生成模块用于：将所述第二特征图输入至预先建立的第一解码器，对所述第二特征图进行动态障碍物语义信息的解码，得到所述动态障碍物特征；将所述第二特征图输入至预先建立的第二解码器，对所述第二特征图进行静态障碍物语义信息的解码，得到所述静态障碍物特征。

8.根据权利要求6-7任意一项所述的装置，其特征在于，所述生成模块进一步用于：

获取所述车辆的激光雷达的点云数据；

9.一种车辆，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任意一项所述的车辆的鸟瞰图生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任意一项所述的车辆的鸟瞰图生成方法。