CN118172560B

CN118172560B - 一种融合多模态传感器的鸟瞰图语义分割预测系统及方法

Info

Publication number: CN118172560B
Application number: CN202410603131.2A
Authority: CN
Inventors: 赵洋; 杜菁禹; 詹惠琴; 程洪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2024-05-15
Filing date: 2024-05-15
Publication date: 2024-07-12
Anticipated expiration: 2044-05-15
Also published as: CN118172560A

Abstract

本发明属于自动驾驶鸟瞰图感知领域，具体为一种融合多模态传感器的鸟瞰图语义分割预测系统及方法，包括多视觉图图像处理模块、语义查询图生成模块、改进3D位置编码器、多层Transformer解码器、以及语义分割头；通过多视觉图图像处理模块生成3D图像特征，通过语义查询图生成模块生成语义分割查询图，通过多层Transformer解码器对3D图像特征和语义分割查询图进行融合，得到BEV感知特征；通过语义分割头对BEV感知特征进行分割，完成鸟瞰图语义分割预测，得到表示路况特征的语义分割地图。本发明通过将激光雷达点云作为语义查询信息，引入至鸟瞰图语义分割预测任务中，实现了环境感知探测的准确性提升。

Description

一种融合多模态传感器的鸟瞰图语义分割预测系统及方法

技术领域

本发明属于自动驾驶鸟瞰图感知领域，尤其涉及一种融合多模态传感器的鸟瞰图语义分割预测系统及方法。

背景技术

感知算法是自动驾驶的核心和关键部分，与传统的基于透视图的感知任务相比，鸟瞰图语义分割地图预测任务具有几个固有的优点：（1）通过将多传感器的特征在鸟瞰图视角下统一，有助于实现多传感器特征的融合；（2）鸟瞰图语义分割网络能够同时执行车道线检测、障碍物检测、道路检测等多个自动驾驶感知任务，效率更高；（3）以鸟瞰图形式建模智能车周围环境有助于后续决策规划算法进行智能车轨迹规划。这些优点将有利于进一步降低自动驾驶算法对高精地图的依赖，实现无图自动驾驶导航。

纯视觉的鸟瞰图感知算法由于深度信息的不确定性，其感知结果受到严重限制，而激光雷达作为智能车又一常用传感器，能够提高可靠的深度信息。因此，探索融合激光雷达与多摄像头的鸟瞰图感知算法对于提升鸟瞰感知的准确性具有积极意义。

发明内容

有鉴于此，本发明提出了一种融合多模态传感器的鸟瞰图语义分割预测系统及方法，利用同一视图下，沿Z轴展平后的激光雷达点云各点坐标与鸟瞰图语义分割地图完全一致的特性，将激光雷达点云作为语义查询信息引入鸟瞰图语义分割地图预测任务中，能够有效的保留点云的几何信息，从而提升环境感知探测的准确性。

本发明采用的具体技术方案如下：

一种融合多模态传感器的鸟瞰图语义分割预测系统, 包括：多视觉图图像处理模块、语义查询图生成模块、改进3D位置编码器、多层Transformer解码器、以及语义分割头；

所述多视觉图图像处理模块包括多尺度图像特征提取网络、3D坐标生成器、以及改进3D位置编码器；多尺度图像特征提取网络的输入为采集的多视图图像，用于对多视图图像进行特征提取，得到2D多视图图像特征输出；3D坐标生成器的输入为多视图图像，用于通过相机的内参与外参矩阵将多视觉图像的相机视锥体空间转变为三维空间坐标；改进3D位置编码器输入为2D多视图图像特征和三维空间坐标，用于融合2D多视图图像特征和三维空间坐标，生成3D图像特征；

所述语义查询图生成模块包括点云特征提取网络和语义分割查询器；点云特征提取网络的输入为激光雷达捕获的点云数据，用于提取点云特征；语义分割查询器输入为点云特征，基于点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图；

所述多层Transformer解码器为含有自注意力模块和交叉注意力模块的多层Transformer解码器，其输入为3D图像特征和语义分割查询图，基于自注意力机制和交叉注意力机制对3D图像特征和语义分割查询图进行融合，得到BEV感知特征；

所述语义分割头输入为BEV感知特征，根据BEV感知特征完成鸟瞰图语义分割预测，从而得到表示路况特征的语义分割地图。

进一步的，所述多尺度图像特征提取网络采用VoVNet网络; VoVNet网络包括C1-C5共五个阶段，C2-C5的每个阶段均包含OSA模块，其中，C1阶段接收采集的多视图图像，并进行卷积操作，C1阶段包含3个[3×3，2]的卷积网络，其中3×3为卷积核大小，步长为2；

C2-C5阶段分别由所述OSA模块构成，每个阶段采用一个步长为2的3x3最大池化层进行降采样；

抽取VoVNet网络C4-C5阶段的特征层进行融合，得到2D多视图图像特征。

进一步的，所述改进3D位置编码器包括两个结构相同的前馈神经网络、注意力模块、乘法器和加法器；

两个前馈神经网络分别为第一前馈神经网络和第二前馈神经网络；两个前馈神经网络均由依次连接的1x1卷积层、ReLU激活函数、1x1卷积层构成，其中，第一前馈神经网络输入为2D多视图图像特征，用于进一步提取2D多视图图像特征；第二前馈神经网络输入为三维空间坐标，用于提取三维空间坐标特征。

两个前馈神经网络分别为第一前馈神经网络和第二前馈神经网络；两个前馈神经网络均由依次连接的1x1卷积层、ReLU激活函数、1x1卷积层构成，其中，第一前馈神经网络输入为2D多视图图像特征，用于进一步提取2D多视图图像特征；第二前馈神经网络输入为三维空间坐标，用于提取三维空间坐标特征；

注意力模块由依次连接的1x1卷积层、ReLU激活函数、1x1卷积层和Sigmoid函数构成，其输入为2D多视图图像特征，用于生成注意力权重；

乘法器的输入为三维空间坐标特征和注意力权重，用于对三维空间坐标特征和注意力权重进行乘法运算；

加法器的输入为2D多视图图像特征和乘法器输出的乘法运算结果，用于对2D多视图图像特征和乘法运算结果进行加法运算，得到3D图像特征。

进一步的，所述点云特征提取网络包括三个特征提取模块，每个特征提取模块后都连接一个特征上采样模块；

三个特征提取模块用于输入的2D点云伪图像自上而下进行特征提取，得到不同尺度特征图；每个特征上采样模块用于将各自连接的特征提取模块输出的特征图进行上采样至相同尺度后，融合生成最终的点云特征。

更进一步的，所述特征提取模块均由L个堆叠的子网络构成，每个子网络工作步长为S，由依次连接的一个3×3的卷积层、一个批归一化层、以及ReLU激活函数组成；所述特征上采样模块由依次连接的一个逆卷积层、一个批归一化层、以及ReLU激活函数构成。

一种融合多模态传感器的鸟瞰图语义分割预测方法，包括以下步骤：

步骤1、生成3D图像特征和语义分割查询图；

生成3D图像特征：将VoVNet网络作为多尺度图像特征提取网络，用于提取对多视图图像进行特征提取，得到2D多视图图像特征；使用3D坐标生成器将多视图图像的相机视锥体空间转变为三维空间坐标；使用3D位置编码器融合2D多视图图像特征与三维空间坐标，得到3D图像特征；

生成语义分割查询图：对采集的点云数据进行预处理，使用点云特征提取网络从预处理后的点云数据中提取出点云特征，基于点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图；

步骤2、使用包含有自注意力模块和交叉注意力模块的多层Transformer解码器，融合3D图像特征与语义分割查询图，得到BEV感知特征；

步骤3：使用语义分割头对BEV感知特征进行语义分割，以获得表示路况特征的语义分割地图。

进一步的，所述VoVNet网络得到2D多视图图像特征的方法包括步骤如下：

使用VoVNet网络C1-C5阶段自上而下提取五个不同尺度特征图；

抽取VoVNet网络C4-C5阶段的特征图按如下方法进行融合：

对C5阶段输出特征图进行上采样操作，使C5阶段输出的图像与C4阶段输出的特征图具有相同尺度；

使用1×1的卷积层，对C4阶段输出的特征图进行降维操作，使C4阶段输出的特征图维度与C5阶段输出的特征图维度相匹配；

将上采样后的C5阶段输出特征图和降维后的C4阶段输出特征图进行逐元素相加，得到融合后的特征图，作为最终2D多视图图像特征。

进一步的，使用3D坐标生成器将多视图图像的相机视锥体空间转变为三维空间坐标的方法包括：沿相机视锥体空间对采集的多视图图像进行离散化处理，生成大小为的3D网格，网格元素为其中，为所得到的2D图像特征的宽度与高度，D为各个像素所生成的3D坐标数量；为所采样的视锥体空间坐标，分别对应宽度、长度与深度；

通过相机的内参与外参矩阵将网格元素转变为3D空间的坐标，即可得到多视图图像的三维空间坐标。

进一步的，对采集的激光雷达点云数据进行预处理得到2D点云伪图像，使用点云特征提取网络从预处理后的激光雷达点云数据中提取出点云特征，基于雷达点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图的方法包括：

对采集的点云数据进行预处理：根据待预测鸟瞰图语义分割地图大小从采集的雷达点云数据中筛选出所需点云数据；对所需点云数据的分辨率进行栅格化处理，使其转化为的向量，其中P为栅格化后的点云支柱数量，N为每个点云点云支柱所包含的最大点云数量；依次使用线性层、批归一化层以及ReLU激活函数对的向量进行处理，得到2D点云伪图像；

将通过预处理得到的2D点云伪图像输入至点云特征提取网络提取出点云特征；

基于雷达点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图。

传统融合激光雷达与多摄像头的鸟瞰图感知算法，是将图像特征与点云特征在通道维度下拼接完成特征融合。本发明通过大量实验发现在鸟瞰图语义分割地图预测这一任务中：同一视图下，沿Z轴展平后的激光雷达点云各点坐标与鸟瞰图语义分割地图完全一致，且障碍物等类别在点云数据中也能很好的体现出来，即激光雷达点云各点坐标与鸟瞰图语义分割地图之间具有一致性和相似性。基于这种一致性与相似性，将激光雷达点云作为语义查询信息引入鸟瞰图语义分割地图预测任务中，并利用Transformer完成点云特征与图像特征的融合，实现了更高的质量的鸟瞰图语义分割地图预测。

现有技术相比，本发明的鸟瞰图语义分割预测系统及方法各项指标上均有提升。

附图说明

图1为实施例提供的融合多模态传感器的鸟瞰图语义分割预测系统结构图；

图2为实施例使用的多尺度图像特征提取网络结构图；

图3为实施例使用的3D位置编码器结构示意图；

图4为实施例使用的点云特征提取网络结构图；

图5为实施例使用的Transformer解码器结构图；

图6为实施例的鸟瞰图语义分割地图生成流程图。

具体实施方式

下面结合实施例和附图对本发明进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示，本实施例提供的一种融合多模态传感器的鸟瞰图语义分割预测系统，包括：多视觉图图像处理模块、语义查询图生成模块、改进3D位置编码器、多层Transformer解码器、以及语义分割头。

所述多视觉图图像处理模块包括多尺度图像特征提取网络、3D坐标生成器、以及改进3D位置编码器；多尺度图像特征提取网络的输入为采集的多视图图像，用于对多视图图像进行特征提取，得到2D多视图图像特征输出。3D坐标生成器的输入为多视图图像，用于通过相机的内参与外参矩阵将多视觉图像的相机视锥体空间转变为三维空间坐标；改进3D位置编码器输入为2D多视图图像特征和三维空间坐标，用于融合2D多视图图像特征和三维空间坐标，生成3D图像特征。

所述语义查询图生成模块包括点云特征提取网络和语义分割查询器；点云特征提取网络的输入为激光雷达捕获的点云数据，用于提取点云特征；语义分割查询器输入为点云特征，基于雷达点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图。

所述多层Transformer解码器为含有自注意力模块和交叉注意力模块的多层Transformer解码器，其输入为3D图像特征和语义分割查询图，基于自注意力机制和交叉注意力机制融合3D图像特征和语义分割查询图，从而得到BEV感知特征。

所述语义分割头输入为BEV感知特征，根据BEV感知特征完成鸟瞰图语义分割预测，从而得到表示路况特征的语义分割地图，本实施例路况特征包括道路、车道线、以及其他交通车辆信息。

本实施例的鸟瞰图语义分割预测系统，是利用激光雷达点云与语义分割地图具有一致性与相似性这一特点，将激光雷达点云作为语义查询信息引入鸟瞰图语义分割地图预测任务中，并利用Transformer完成点云特征与图像特征的融合，实现更高的质量的鸟瞰图语义分割地图预测。系统的网络基采用加权交叉熵损失函数进行监督训练，交叉熵损失函数如下式所示：

其中是语义分割地图所包含的像素点数量，是类别数量，为真值，为预测值，为正样本的权重，由训练集中负样本与正样本之间的比例进行计算。

基于上述系统，本实施例还提供了一种融合多模态传感器的鸟瞰图语义分割预测方法，包括步骤如下：

步骤1、生成3D图像特征和语义分割查询图；

生成3D图像特征：(1)将VoVNet网络作为多尺度图像特征提取网络，用于提取对多视图图像进行特征提取，得到2D多视图图像特征。

本实施采集的多视图图像包括前、左前、右前、后、左后、右后共6个摄像头获取的图像，并将图像下采样到800×320大小，即特征维度。

所述多尺度图像特征提取网络结构如图2所示，包括C1-C5共五个阶段，C2-C5的每个阶段均包含OSA模块；其中，C1阶段接收采集的多视图图像，并进行卷积操作。C1阶段包含3个[3×3，2]的卷积网络，其中3×3为卷积核大小，步长为2。C2-C5阶段分别由所述OSA模块构成，每个阶段采用一个步长为2的3x3最大池化层进行降采样。抽取VoVNet网络C4-C5阶段的特征层进行融合，从而对输出特征图的语义信息和空间信息进行增强。融合C4-C5阶段输出的特征图的具体操作步骤如下：

对C5阶段输出特征图进行上采样操作，使C5阶段输出的图像与C4阶段输出的特征图具有相同尺度；使用1×1的卷积层，对C4阶段输出的特征图进行降维操作，使C4阶段输出的特征图维度与C5阶段输出的特征图维度相匹配；将上采样后的C5阶段输出特征图和降维后的C4阶段输出特征图进行逐元素相加，得到融合后的特征图，作为2D多视图图像特征。

（2）使用3D坐标生成器将多视图图像的相机视锥体空间转变为三维空间坐标；本实施例使用的3D坐标生成器长度和宽度离散范围为[-61.2m,61.2m]，深度离散范围为[-50m,50m]。

沿相机视锥体空间对采集的多视图图像进行离散化处理，生成大小为的3D网格，网格元素为。其中，为所采样的视锥体空间坐标，分别对应宽度、长度与深度。本实施例中通过对宽度、长度方向采用平均离散化，对深度方向采用线性递增离散化，得到视锥体空间坐标，长度、宽度以及深度离散化的公式如下：

其中，分别为宽度索引、长度索引。

对深度方向采用线性递增离散化，线性递增离散化定义如下式所示:

其中，为采样的深度值，为离散化的深度范围，为深度索引，D为所需采样的数量。

得到视锥体空间坐标后，本文即可通过相机的内参与外参矩阵将其转化为3D空间的坐标。可用下式定义：

其中，为对应的3D空间坐标点，为相机内参矩阵，为相机的外参矩阵。

然后，对3D坐标进行归一化，得到最终的3D坐标。对3D坐标进行归一化采用公式如下：

（3）使用3D位置编码器完成2D多视图图像特征与三维空间坐标的融合，得到3D图像特征。本实施例3D位置编码器结构如图4所示，包括两个结构相同的前馈神经网络、注意力模块、乘法器和加法器。

两个前馈神经网络分别为第一前馈神经网络和第二前馈神经网络；两个前馈神经网络均由依次连接的1x1卷积层、ReLU激活函数、1x1卷积层构成；其中，第一前馈神经网络输入为2D多视图图像特征，用于进一步提取2D多视图图像特征；第二前馈神经网络输入为三维空间坐标，用于提取三维空间坐标特征；注意力模块由依次连接的1x1卷积层、ReLU激活函数、1x1卷积层和Sigmoid函数构成，其输入为2D多视图图像特征，用于生成注意力权重；乘法器的输入为三维空间坐标特征和注意力权重，用于对三维空间坐标特征和注意力权重进行乘法运算；加法器的输入为2D多视图图像特征和乘法器输出的乘法运算结果，用于对2D多视图图像特征和乘法运算结果进行加法运算。

将2D图像特征输入至第一前馈神经网络做进一步特征提取，得到图像特征；将3D坐标输入至第二前馈神经网络中提取出3D坐标特征；提取的图像特征被送入至注意力模块中生成注意力权重；将注意力权重与3D坐标特征相乘后再与图像特征相加，即可得到3D图像特征。

生成语义分割查询图，具体操作步骤如下：

（1）设点云数据其中为该点云数据的真实三维空间坐标，为该点云数据的反射强度。根据待预测的鸟瞰图语义分割地图的大小确定点云数据筛选范围，随后对其以的分辨率进行栅格化，得到P个点云支柱；点云支柱中的每个点云数据以9维的向量表示，即，其中，为该点云数据在点云支柱的几何中心；，代表点云数据与栅格的相对位置。将每个点云支柱内的点云数据数量限制为N个，当点云数据数量大于N时，随机采样到N个，点云数据数量少于N个时，则使用全0的向量填充至N个点云，从而将点云数据V转化为的向量。

本实施例点云数据筛选范围为；栅格分辨率，点云数据数量限制N=64。

依次使用线性层、批归一化层以及ReLU激活函数对的向量进行处理，将其转换为维度为的向量；然后沿维度进行最大池化操作，得到维度为的向量，最后根据每个点云支柱原始位置将维度为的向量还原为伪图像，其中,为伪图像的大小，。

（2）将通过预处理得到的2D点云伪图像输入至点云特征提取网络提取出点云特征。本实施例点云特征提取网络结构如图5所示，所述点云特征提取网络由三个特征提取模块组成，每个特征模块后连接一个特征上采样模块。每个特征提取模块由个堆叠的子网络组成，每个子网络工作步长为，由依次连接的一个3×3的卷积层、一个批归一化层、以及ReLU激活函数组成；所述特征上采样模块由依次连接的一个逆卷积层、一个批归一化层、以及ReLU激活函数组成。三个特征提取模块用于对输入的2D点云伪图像自上而下进行特征提取，得到不同尺度特征图；每个特征上采样模块用于将各自连接的特征提取模块输出的特征图进行上采样至相同尺度后，融合生成最终的点云特征。

（3）基于雷达点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征征生成语义分割查询图。本实施例使用语义分割查询生成器来生成语义分割查询图，所述语义分割查询生成器由4×4卷积层、ReLU激活函数与2×2卷积层连接而成。

实施时，在高分辨率的待预测鸟瞰图语义分割地图中，为降低计算量。需要将待预测鸟瞰图语义分割地图划分为多个小区域。因此，本实施例在生成语义分割查询图后，将语义分割查询图划分为多个小区域，以此对应待预测鸟瞰语义分割地图。即使用语义分割查询来对应不同的鸟瞰语义地图块。例如图6所示，待预测鸟瞰语义分割地图分辨率为200×200，将其划分为64个25×25的小区域，则需要将生成的语义分割图被划分为64个语义分割查询区域，来对应64个待预测鸟瞰语义分割地图的小区域。

步骤2、使用包含有自注意力模块和交叉注意力模块的多层Transformer解码器，融合3D图像特征与语义分割查询图，得到BEV感知特征。

本实施例Transformer解码器结构如图5所示，共有6层，每层包含8个注意力头。多层Transformer解码器的输入为3D图像特征

与语义分割查询图；利用多层Transformer解码器进行融合的过程采用下式进行描述：

其中为第层Transfomer解码器，为第层所更新的语义分割查询。

在上述过程中，自注意力模块通过下式生成键向量K、值向量V、查询向量Q，并进行自注意力的计算。

其中为权重矩阵，为3D位置嵌入，由下式定义，用于嵌入语义分割查询之间的位置信息。为展平操作。

交叉注意力模块通过式下式生成键向量K、值向量V、查询向量Q，并进行交叉注意力的计算。

其中，为权重矩阵。

Transformer解码器结构中的前馈神经网络则由全连接层、ReLU激活函数与全连接层串联组成。

在鸟瞰图语义分割地图中，一个像素点可能对应多个类别（如车道线同样也是道路），因此，每个类别都有各自的预测器。本实施例针对道路、车道线与其他交通车辆3种类别进行预测，使用的语义分割头由4层前馈神经网络组成，每层前馈神经网络由一个3×3的卷积层、ReLU激活函数与一个1×1的卷积层组成，并使用残差结构来提高网络的收敛性，前3层前馈神经网络在3×3的卷积层之前还进行了一次上采样操作。

对本实施例的鸟瞰图语义分割预测系统及方法进行效果验证。验证时，选取了5个对比例，5个对比例分别为：

对比例1（LSS）：英伟达所提出的一种融合多摄像头的鸟瞰图感知算法，其核心思想是将每张图片的特征提升到特征视锥体中，随后将所有的特征视锥体飞溅到栅格化的鸟瞰图网格中，用于后续的鸟瞰图感知。

对比例2（BEVFormer）：南京大学所提出的一种融合多摄像头时序特征的鸟瞰图感知算法，使用Temporal Self-Attention 模块和Spatial Cross-Attention模块完成环视图像特征向BEV特征的建模，用于后续的鸟瞰图感知。

对比例3（PETR）：旷视所提出的一种融合多摄像头的鸟瞰图感知算法，其通过相机视锥空间得到3D空间，并将3D特征嵌入到图像特征中以得到3D图像特征，用于后续的鸟瞰图感知。

对比例4（BEVFusion）：麻省理工大学所提出的一种融合多摄像头与激光雷达的鸟瞰图感知算法，对于图像使用LSS进行处理，将图像特征转化为鸟瞰图特征，对于激光雷达点云使用VoxelNet进行特征提取，随后将图像特征与点云特征在通道维度进行拼接后进行后续的鸟瞰图感知。

对比例5（HDMapNet）：清华大学所提出的一种融合多摄像头与激光雷达的鸟瞰图感知算法，对于图像使用多层感知机来完成透视图到相机坐标系的建模，随后使用视图变换器得到图像的鸟瞰图特征，对于激光雷达点云使用PointPillar进行特征提取，随后将图像特征与点云特征在通道维度进行拼接后进行后续的鸟瞰图感知。

本实施例与5个对比例均采用nuScenes数据集，通过交并比（IoU）进行评价。交并比定义如下式所示：

其中与分别为所预测的鸟瞰图语义地图与实际鸟瞰图语义地图，、分别为地图长宽。本实施例与对比例预测方法的预测效果对比如表1所示：

表1 ：本实施例与对比例预测方法的预测效果对比表

比较结果参阅表1。表1中对比例1、对比例2和对比例3为纯视觉方法，对比例4、对比例5以及本实施例为融合摄像头与激光雷达方法。由于纯视觉方法在深度信息上的不准确性，对比1至对比例3的方法在车辆预测精准度上均与融合摄像头与激光雷达的方法存在明显差距。但由于对比例3在图像中嵌入了3D特征，使得其在道路预测与车道线预测上都显著优于对比例1和对比例2的方法。与对比例4和对比例6的方法相比，本实施例预测出的的道路IoU指标提高了2.5%，车道线IoU指标提高了2.8%，车辆IoU指标提高了3.5%，表明本实施例系统及方法借助于PETR 3D位置编码思路的基础上，能够更加有效的融合多摄像头与激光雷达，同时，使得预测出更加准确鸟瞰图语义分割地图。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种融合多模态传感器的鸟瞰图语义分割预测系统，其特征在于，包括：多视觉图图像处理模块、语义查询图生成模块、改进3D位置编码器、多层Transformer解码器、以及语义分割头；

2.根据权利要求1所述的一种融合多模态传感器的鸟瞰图语义分割预测系统，其特征在于：所述多尺度图像特征提取网络采用VoVNet网络; VoVNet网络包括C1-C5共五个阶段，C2-C5的每个阶段均包含OSA模块，其中，C1阶段接收采集的多视图图像，并进行卷积操作，C1阶段包含3个[3×3，2]的卷积网络，其中3×3为卷积核大小，步长为2；

3.根据权利要求1所述的一种融合多模态传感器的鸟瞰图语义分割预测系统，其特征在于：所述改进3D位置编码器包括两个结构相同的前馈神经网络、注意力模块、乘法器和加法器；

4.根据权利要求3所述的一种融合多模态传感器的鸟瞰图语义分割预测系统，其特征在于：所述点云特征提取网络包括三个特征提取模块，每个特征提取模块后都连接一个特征上采样模块；

5.根据权利要求4所述的一种融合多模态传感器的鸟瞰图语义分割预测系统，其特征在于：所述特征提取模块均由L个堆叠的子网络构成，每个子网络工作步长为S，由依次连接的一个3×3的卷积层、一个批归一化层、以及ReLU激活函数组成；所述特征上采样模块由依次连接的一个逆卷积层、一个批归一化层、以及ReLU激活函数构成。

6.一种融合多模态传感器的鸟瞰图语义分割预测方法，其特征在于，包括以下步骤：

步骤1、生成3D图像特征和语义分割查询图；

生成3D图像特征：

将VoVNet网络作为多尺度图像特征提取网络，用于提取对多视图图像进行特征提取，得到2D多视图图像特征；使用3D坐标生成器将多视图图像的相机视锥体空间转变为三维空间坐标；使用3D位置编码器融合2D多视图图像特征与三维空间坐标，得到3D图像特征；

生成语义分割查询图：

对采集的点云数据进行预处理，使用点云特征提取网络从预处理后的点云数据中提取出点云特征，基于点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图；

7.根据权利要求6所述的一种融合多模态传感器的鸟瞰图语义分割预测方法，其特征在于，所述VoVNet网络得到2D多视图图像特征的方法包括步骤如下：

使用VoVNett网络C1-C5阶段自上而下提取五个不同尺度特征图；

抽取VoVNet网络C4-C5阶段的特征图按如下方法进行融合：

使用的卷积层，对C4阶段输出的特征图进行降维操作，使C4阶段输出的特征图维度与C5阶段输出的特征图维度相匹配；

8.根据权利要求6所述的一种融合多模态传感器的鸟瞰图语义分割预测方法，其特征在于，使用3D坐标生成器将多视图图像的相机视锥体空间转变为三维空间坐标的方法包括：

对相机视锥体空间进行离散化处理，生成大小为的3D网格，网格元素为；其中，W _F ,H _F为所得到的2D图像特征的宽度与高度，D为各个像素所生成的3D坐标数量；为所采样的视锥体空间坐标，分别对应宽度、长度与深度；

9.根据权利要求6所述的一种融合多模态传感器的鸟瞰图语义分割预测方法，其特征在于，对采集的点云数据进行预处理得到2D点云伪图像，使用点云特征提取网络从预处理后的点云数据中提取出点云特征，基于点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图的方法包括：

对采集的点云数据进行预处理：根据待预测鸟瞰图语义分割地图大小从采集的点云数据中筛选出所需点云数据V；对所需点云数据V的分辨率进行栅格化处理，使其转化为的向量，其中P为栅格化后的点云支柱数量，N为每个点云点云支柱所包含的最大点云数量；依次使用线性层、批归一化层以及ReLU激活函数对的向量进行处理，得到2D点云伪图像；

将预处理得到的2D点云伪图像输入至点云特征提取网络提取出点云特征；

基于点云数据中各点坐标与鸟瞰图语义分割地图完全一致的特性，利用点云特征生成语义分割查询图。