CN116416586B

CN116416586B - 基于rgb点云的地图元素感知方法、终端及存储介质

Info

Publication number: CN116416586B
Application number: CN202211632013.1A
Authority: CN
Inventors: 陈勇全; 许振兴; 曾祥容; 黄锐; 许龙; 徐旦
Original assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2024-04-02
Anticipated expiration: 2042-12-19
Also published as: CN116416586A

Abstract

本发明公开了基于RGB点云的地图元素感知方法、终端及存储介质，方法包括：对RGB点云进行体素化处理，得到体素化RGB点云；将所述体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息；其中，所述地图元素感知模型为具有多种不同扩张倍率感受野的模型；输出所述RGB点云中各地图元素的语义标注信息。本发明提出扩张注意力模块进行更有效的卷积计算，构建更为复杂的多尺度空间感知模块，用于地图元素的语义标注，解决稀疏性BEV中的地图元素感知问题，提高感知精度。

Description

基于RGB点云的地图元素感知方法、终端及存储介质

技术领域

本发明涉及自动驾驶技术领域，尤其涉及的是基于RGB点云的地图元素感知方法、终端及存储介质。

背景技术

传统地图生产需要大量的人工标注，随着自动驾驶技术的迅速发展，需要大量不同类别的标注，因此人工生产效率显得越来越不足，自动化的标注系统越来越重要。目前，地图自动标注系统通常在BEV(Bird Eye View，鸟瞰图)空间实现标注的自动化，其自动化的重要前提是BEV空间地图中实现语义感知，目前存在的主流BEV语义感知模型类型及其缺点如下：

基于透视变换的BEV感知模型；将传统逆透视变换引入到神经网络中，将前视图像的语义分割映射到BEV空间，这种方法对于局部平坦道路效果较好，但对于地平面上方的车辆和行人无效。该类网络模型只能应对简单的输入场景，输入的前视图像平坦道路，无法应对真实自动驾驶场景中交通参与者众多和道路环境工况复杂的情况。

基于隐式变换的端对端BEV感知模型；建立从前视图像到BEV语义图的端到端神经网络。这类方法由于两个视角的正交性导致的信息缺失，以及前视图像中的深度歧义性等问题，存在不可避免的畸变、拖尾效应以及纹理信息错误。

基于场景深度估计的BEV感知模型。利用相机内参来完成坐标转换过程，并且利用不同网络层的输出，估计不同深度下的BEV特征，通过显式视角变换来实现前视图像到BEV语义图转换的方法。但其深度估计存在误差较大，未有效解决精度低的问题。

因此，现有技术还有待改进。

发明内容

本发明要解决的技术问题在于，针对现有技术缺陷，本发明提供基于RGB点云的地图元素感知方法、终端及存储介质，以解决传统的BEV感知方法精度低的技术问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种基于RGB点云的地图元素感知方法，包括：

对RGB点云进行体素化处理，得到体素化RGB点云；

将所述体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息；其中，所述地图元素感知模型为具有多种不同扩张倍率感受野的模型；

输出所述RGB点云中各地图元素的语义标注信息。

在一种实现方式中，所述对RGB点云进行体素化处理，得到体素化RGB点云，包括：

对环视相机的数据和激光雷达的点云进行标定，得到所述环视相机与所述激光雷达之间的标定矩阵；

根据所述标定矩阵生成所述RGB点云。

对所述RGB点云进行体素化处理，得到所述体素化RGB点云；

确定所述体素化RGB点云中的特定点云，根据所述特定点云的输入高度信息构建对应的特征通道；

将所述体素化RGB点云作为所述地图元素感知模型的输入。

在一种实现方式中，所述地图元素感知模型包括：多尺度空间感知输入模块、编码模块、多尺度空间感知输出模块以及解码层与语义分割头模块。

在一种实现方式中，所述多尺度空间感知输入模块包括：多个不同扩张倍率的卷积注意力模块。

在一种实现方式中，所述将所述体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息，包括：

将所述体素化RGB点云输入所述多尺度空间感知输入模块，通过所述多尺度空间感知输入模块中不同扩张倍率的卷积注意力模块进行卷积及拼接操作，得到第一拼接特征；

将所述第一拼接特征输入所述编码层，通过所述编码层对所述第一拼接特征进行编码，得到编码后的特征；

将所述编码后的特征输入所述多尺度空间感知输出模块，通过所述多尺度空间感知输出模块对所述编码后的特征进行卷积、池化以及拼接操作，得到第二拼接特征；

将所述第二拼接特征输入所述解码层与语义分割头模块，通过解码层对所述第二拼接特征进行解码，并通过语义分割头对所述解码层输出特征进行语义标注，得到所述语义标注信息。

在一种实现方式中，所述通过所述多尺度空间感知输入模块中不同扩张倍率的卷积注意力模块进行卷积及拼接操作，得到第一拼接特征，包括：

通过所述多尺度空间感知输入模块中不同扩张倍率的卷积层进行卷积操作，得到不同扩张倍率的特征；

根据注意力机制对得到的不同扩张倍率的特征进行权重赋值；

根据赋值的权重对不同扩张倍率的特征进行拼接操作，得到所述第一拼接特征。

在一种实现方式中，所述拼接操作为增加指定维度方向的通道长度的操作。

第二方面，本发明还提供一种终端，包括：处理器以及存储器，所述存储器存储有基于RGB点云的地图元素感知程序，所述基于RGB点云的地图元素感知程序被所述处理器执行时用于实现如第一方面所述的基于RGB点云的地图元素感知方法的操作。

第三方面，本发明还提供一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有基于RGB点云的地图元素感知程序，所述基于RGB点云的地图元素感知程序被处理器执行时用于实现如第一方面所述的基于RGB点云的地图元素感知方法的操作。

本发明采用上述技术方案具有以下效果：

本发明通过对RGB点云进行体素化处理，得到体素化RGB点云，可以将体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息，并且输出RGB点云中各地图元素的语义标注信息；本发明通过构建具有多种不同扩张倍率感受野的地图元素感知模型，可利用其中的扩张注意力模块进行更有效的卷积计算，并通过更为复杂的多尺度空间感知模块进行不同倍率的感知，可以解决稀疏性BEV中的地图元素感知问题，提高感知精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明的一种实现方式中基于RGB点云的地图元素感知方法的流程图。

图2是本发明的一种实现方式中数据处理流程图。

图3是本发明的一种实现方式中卷积注意力模块(DAM模块)的结构示意图。

图4是本发明的一种实现方式中不同扩张率DAM构成的多尺度空间感知输入模块(MSS输入模块)的结构示意图。

图5是本发明的一种实现方式中不同扩张率DAM构成的多尺度空间感知输出模块(MSS输出模块)的结构示意图。

图6是本发明的一种实现方式中地图元素感知模型的结构示意图。

图7是本发明的一种实现方式中终端的功能原理图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

示例性方法

目前存在的主流BEV语义感知模型类型及其缺点如下：

针对上述技术问题，本发明实施例提供一种基于RGB点云的地图元素感知方法，本发明实施例通过构建具有多种不同扩张倍率感受野的地图元素感知模型，可利用其中的扩张注意力模块进行更有效的卷积计算，并通过更为复杂的多尺度空间感知模块进行不同倍率的感知，可以解决稀疏性BEV中的地图元素感知问题，提高感知精度。

如图1所示，本发明实施例提供一种基于RGB点云的地图元素感知方法，包括以下步骤：

步骤S100，对RGB点云进行体素化处理，得到体素化RGB点云。

在本实施例中，所述基于RGB点云的地图元素感知方法应用于终端中，所述终端包括但不限于：计算机以及移动终端等设备。

本实施例中着重解决BEV空间中地图元素的感知精度问题。由于BEV空间是RGB点云空间的一个视角下(自顶向下)的投影，因此，RGB点云空间包含比BEV空间更多的信息同时感知空间向下兼容；本实施例中以RGB点云为基础，通过对RGB点云进行体素化处理，利用具有多种不同扩张倍率感受野的地图元素感知模型对其进行元素感知及语义标注，从而输出更为精确的地图元素的感知结果。

具体地，本实施例的一种实现方式中，步骤S100之前包括以下步骤：

步骤S010，对环视相机的数据和激光雷达的点云进行标定，得到所述环视相机与所述激光雷达之间的标定矩阵；

步骤S020，根据所述标定矩阵生成所述RGB点云。

在本实施例中，RGB点云由相机的像素点和激光雷达相互关联生成的，在生成RGB点云之前，需要对环视相机的数据和激光雷达的点云进行标定，得到标定矩阵；其中，该标定矩阵能够代表环视相机的数据和激光雷达的点云之间的关联关系(例如，坐标系的坐标关系)；通过上述标定的过程，在获取环视相机的数据以及激光雷达的点云数据后，根据该标定矩阵即可生成环视相机拍摄范围及激光雷达监测范围内的RGB点云。

具体地，本实施例的一种实现方式中，步骤S100包括以下步骤：

步骤S101，对所述RGB点云进行体素化处理，得到所述体素化RGB点云；

步骤S102，确定所述体素化RGB点云中的特定点云，根据所述特定点云的输入高度信息构建对应的特征通道；

步骤S103，将所述体素化RGB点云作为所述地图元素感知模型的输入。

在本实施例中，在生成RGB点云后，还需要对RGB点云进行体素化处理，从而得到体素化RGB点云；在体素化处理的过程中，可使用常规体素网格从输入点云创建统一下采样的点云，具体为：可将RGB点云中的点存储到体素中，然后将每个占用的体素通过平均内部的所有点来生成精确的一个点，得到体素化RGB点云。

在本实施例中，对于特别的体素化RGB点云，将这些特别的体素化RGB点云的输入高度信息作为不同特征通道来处理。

在本实施例中，得到体素化RGB点云后，将体素化RGB点云输入提出的构建地图元素的感知模型进行RGB点云中地图元素的语义标注，其中，语义标注则由深度学习中的语义分割头构成。

如图1所示，在本发明实施例的一种实现方式中，基于RGB点云的地图元素感知方法还包括以下步骤：

步骤S200，将所述体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息。

在本实施例中，由于激光雷达的角分辨率有限，因此其角分辨很大程度上影响了BEV空间的分辨率，即BEV空间的分辨率可能不足以推断出正确的地图元素。随着激光雷达探测距离的增加，点云空间投影到BEV时将变得更加稀疏。

本实施例中为了解决稀疏性BEV中的地图元素的感知问题，提高感知精度，本实施例中提出扩张注意力模块(Dilated Attention Module，即DAM模块，以下简称DAM模块)进行更有效的卷积计算，然后采用DAM模块作为基本单元构建更为复杂的多尺度空间感知模块(Multi-Scale Spatial Perception，即MSS模块)，最后由MSS模块、编码和解码层构建地图元素的感知模型，用于地图元素的语义标注。所述感知模型至少包括输入MSS模块、编码和解码模块以及输出MSS模块。

具体地，本实施例的一种实现方式中，步骤S200包括以下步骤：

步骤S201，将所述体素化RGB点云输入所述多尺度空间感知输入模块，通过所述多尺度空间感知输入模块中不同扩张倍率的卷积注意力模块进行卷积及拼接操作，得到第一拼接特征；

步骤S202，将所述第一拼接特征输入所述编码层，通过所述编码层对所述第一拼接特征进行编码，得到编码后的特征；

步骤S203，将所述编码后的特征输入所述多尺度空间感知输出模块，通过所述多尺度空间感知输出模块对所述编码后的特征进行卷积、池化以及拼接操作，得到第二拼接特征；

步骤S204，将所述第二拼接特征输入所述解码层与语义分割头模块，通过解码层对所述第二拼接特征进行解码，并通过语义分割头对所述解码层输出特征进行语义标注，得到所述语义标注信息。

在本实施例中，如图6所示，地图元素感知模型包括：多尺度空间感知输入模块(即MSS输入模块)、编码模块、多尺度空间感知输出模块(即MSS输出模块)以及解码层与语义分割头模块。

如图2所示，体素化RGB点云分别经过MSS输入模块、编码模块、MSS输出模块以及解码层与语义分割头处理，最后输出RGB点云中各地图元素的语义标注信息。

在本实施例中，MSS输入模块和MSS输出模块中均包含多个不同扩张倍率的卷积注意力模块(即DAM模块)；因此，本实施例中将DAM模块作为地图元素感知模型中的基本单元模块。

在本实施例中，MSS输入模块的结构如图4所示，在MSS输入模块的数据处理过程中，该模块的输入数据为体素化的RGB点云。输入MSS模块由不同扩张倍率的卷积DAM模块构成，包含1到N的扩张率。不同的扩张率DAM输出的特征，最后由拼接操作将不同扩张率DAM模块输出的不同特征进行拼接，其中，拼接操作不增加特征张量的维度，只增加某个维度方向的长度，如开源库Pytorch的torch.cat()操作。

在本实施例中，MSS输入模块输出的数据经由编码模块处理，在编码模块的数据处理过程中，将数据处理结果(即第一拼接特征)输入编码层，编码层由通用特征提取网络构成，通过编码模块处理后，输出编码后的特征。

在本实施例中，编码后的特征经过MSS输出模块处理，MSS输出模块的结构如图5所示，该模块的输入数据由编码模块的输出提供，如图5所示。输出MSS模块由不同扩张倍率的卷积DAM模块和池化DAM模块构成，包含1到N的扩张率。DAM模块输出的特征，最后由拼接操作将不同特征进行拼接，其中，拼接操作与输入MSS模块的拼接操作相同。

在本实施例中，MSS输出模块输出的数据(即第二拼接特征)通过解码层和语义分割头得到语义标注信息，其中，解码层由4倍上采样层和1*1卷积构成；在解码层和语义分割头的数据处理过程中，将MSS输出模块输出的特征进行4倍上采样，然后通过特征通道调整输出语义标注信息。

具体地，本实施例的一种实现方式中，步骤S201包括以下步骤：

步骤S201a，通过所述多尺度空间感知输入模块中不同扩张倍率的卷积层进行卷积操作，得到不同扩张倍率的特征；

步骤S201b，根据注意力机制对得到的不同扩张倍率的特征进行权重赋值；

步骤S201c，根据赋值的权重对不同扩张倍率的特征进行拼接操作，得到所述第一拼接特征。

在本实施例中，基本单元DAM模块的结构如图3所示。

DAM模块作为本实施例中的基础构建单元，DAM模块由不同倍率的扩张卷积、自注意力机制(SE)模块构成，不同倍率扩张卷积核提供了不同的感受野，使得RGB点云体素在稀疏情况下，其卷积核的计算更有效，提升了特征提取能力。小倍率可以提供更为细节的感知，大倍率扩张卷积核可以提供全局的感知，因此，不同倍率的DAM模块，可以大大提升感知性能。

SE实现注意力机制，首先对特征层C*H*W进行全局平均池化，得到1*1*C大小的特征图，该特征图具有全局感受野。然后使用一个全连接神经网络，对1*1*C大小的特征图进行非线性变换，得到的结果对每个通道(即RGB点云的高度信息)赋予权重，可以有效的提取的点云高度方向的信息，与此同时提高了网络运行时间，减少了网络参数计算。

步骤S300，输出所述RGB点云中各地图元素的语义标注信息。

在本实施例中，以RGB点云为感知架构，可以获取比BEV空间更多的信息，从而可以避免空间转换过程中出现信息丢失的现象；并且，以不同倍率的扩张卷积、自注意力机制(SE)模块对RGB点云中的信息进行感知，可以有效的提取的点云高度方向的信息。

通过本实施例中的地图元素感知模型进行语义标注，可以精确地得到各地图元素的语义标注信息，从而实现地图元素自动标注的过程；自动化标注后的包含语义标注信息的RGB点云，可以作为自动驾驶中的地图，为自动驾驶过程提供更多的地图数据及导航数据。

在本实施例中，基础构建单元DAM模块由不同倍率的扩张卷积、自注意力机制(SE)模块构成。基础感知单元DAM模块使得点云稀疏情况下的卷积核的计算更有效。SE实现的注意力机制，对高度信息赋予权重，可以有效的提取的点云高度方向的信息。

在本实施例中，MSS输入模块、MSS输出模块由不同扩张倍率的卷积DAM模块构成，包含1到N的扩张率，然后对不同的扩张率DAM输出的特征进行拼接。其拼接操作不增加特征张量的维度，只增加某个维度方向的长度，如开源库Pytorch的torch.cat()操作，提高了感知精度。

本实施例通过上述技术方案达到以下技术效果：

本实施例通过对RGB点云进行体素化处理，得到体素化RGB点云，可以将体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息，并且输出RGB点云中各地图元素的语义标注信息；本实施例通过构建具有多种不同扩张倍率感受野的地图元素感知模型，可利用其中的扩张注意力模块进行更有效的卷积计算，并通过更为复杂的多尺度空间感知模块进行不同倍率的感知，可以解决稀疏性BEV中的地图元素感知问题，提高感知精度。

示例性设备

基于上述实施例，本发明还提供一种终端，包括：通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块；其中，所述处理器用于提供计算和控制能力；所述存储器包括存储介质以及内存储器；所述存储介质存储有操作系统和计算机程序；所述内存储器为所述存储介质中的操作系统和计算机程序的运行提供环境；所述接口用于连接外部设备，例如，移动终端以及计算机等设备；所述显示屏用于显示相应的信息；所述通讯模块用于与云端服务器或移动终端进行通讯。

所述计算机程序被所述处理器执行时用以实现一种基于RGB点云的地图元素感知方法的操作。

本领域技术人员可以理解的是，图7中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端，其中，包括：处理器和存储器，所述存储器存储有基于RGB点云的地图元素感知程序，所述基于RGB点云的地图元素感知程序被所述处理器执行时用于实现如上所述的基于RGB点云的地图元素感知方法的操作。

在一个实施例中，提供了一种存储介质，其中，所述存储介质存储有基于RGB点云的地图元素感知程序，所述基于RGB点云的地图元素感知程序被所述处理器执行时用于实现如上所述的基于RGB点云的地图元素感知方法的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

综上，本发明提供了一种基于RGB点云的地图元素感知方法、终端及存储介质，方法包括：对RGB点云进行体素化处理，得到体素化RGB点云；将所述体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息；其中，所述地图元素感知模型为具有多种不同扩张倍率感受野的模型；输出所述RGB点云中各地图元素的语义标注信息。本发明提出扩张注意力模块进行更有效的卷积计算，构建更为复杂的多尺度空间感知模块，用于地图元素的语义标注，解决稀疏性BEV中的地图元素感知问题，提高感知精度。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于RGB点云的地图元素感知方法，其特征在于，包括：

对RGB点云进行体素化处理，得到体素化RGB点云；

输出所述RGB点云中各地图元素的语义标注信息；

所述地图元素感知模型包括：多尺度空间感知输入模块、编码模块、多尺度空间感知输出模块以及解码层与语义分割头模块；

所述多尺度空间感知输入模块包括：多个不同扩张倍率的卷积注意力模块；

所述将所述体素化RGB点云输入地图元素感知模型进行语义标注，得到各地图元素的语义标注信息，包括：

将所述第一拼接特征输入所述编码模块，通过所述编码模块对所述第一拼接特征进行编码，得到编码后的特征；

将所述第二拼接特征输入所述解码层与语义分割头模块，通过解码层对所述第二拼接特征进行解码，并通过语义分割头对所述解码层输出特征进行语义标注，得到所述语义标注信息；所述通过所述多尺度空间感知输入模块中不同扩张倍率的卷积注意力模块进行卷积及拼接操作，得到第一拼接特征，包括：

2.根据权利要求1所述的基于RGB点云的地图元素感知方法，其特征在于，所述对RGB点云进行体素化处理，得到体素化RGB点云，包括：

根据所述标定矩阵生成所述RGB点云。

3.根据权利要求1所述的基于RGB点云的地图元素感知方法，其特征在于，所述对RGB点云进行体素化处理，得到体素化RGB点云，包括：

对所述RGB点云进行体素化处理，得到所述体素化RGB点云；

将所述体素化RGB点云作为所述地图元素感知模型的输入。

4.根据权利要求1所述的基于RGB点云的地图元素感知方法，其特征在于，所述拼接操作为增加指定维度方向的通道长度的操作。

5.一种终端，其特征在于，包括：处理器以及存储器，所述存储器存储有基于RGB点云的地图元素感知程序，所述基于RGB点云的地图元素感知程序被所述处理器执行时用于实现如权利要求1-4中任意一项所述的基于RGB点云的地图元素感知方法的操作。

6.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，所述存储介质存储有基于RGB点云的地图元素感知程序，所述基于RGB点云的地图元素感知程序被处理器执行时用于实现如权利要求1-4中任意一项所述的基于RGB点云的地图元素感知方法的操作。