CN116229057A

CN116229057A - 一种基于深度学习的三维激光雷达点云语义分割的方法和装置

Info

Publication number: CN116229057A
Application number: CN202211659267.2A
Authority: CN
Inventors: 陈红阳; 何嘉华; 李朝
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-06-06
Anticipated expiration: 2042-12-22
Also published as: CN116229057B; WO2024130776A1

Abstract

一种基于深度学习的三维激光雷达点云语义分割的方法，包括：轻量级深度全卷积神经网络构建；激光雷达原始点云预处理；三维空间特征转换为二维空间特征；训练轻量级深度全卷积神经网络；二维点云语义分割；二维语义标签后处理优化；三维语义标签恢复。本发明还包括一种基于深度学习的三维激光雷达点云语义分割装置。本发明使用了极坐标系变换的方式实现特征降维，利用基于深度学习的轻量级全卷积神经网络CSPRangeNet跨阶段特征融合的特点，不仅保证了分割结果的精确性，还降低了空间消耗，减少了网络特征提取阶段的运算量，大幅提升了分割速率。本发明适用于对实时性要求较高的三维激光雷达点云语义分割。

Description

一种基于深度学习的三维激光雷达点云语义分割的方法和装置

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种基于深度学习与激光雷达点云语义分割方法和装置、设备及介质，用于室外大规模场景下的三维点云高精度实时语义分割。

背景技术

在无人驾驶车辆环境的感知技术中，车载激光雷达凭借着极高的角度和距离分辨率，在大规模场景下，实现360度全覆盖地捕获环境中的物体信息，产生大量的高精度三维点云。作为三维点云处理中的基础技术，语义分割技术是三维场景重建、场景理解和目标检测等各项应用的基础，是智能体环境感知领域的研究热点，受到广大研究者的关注。

近年来，深度学习在目标识别、检测、语义分割等计算机视觉领域取得了巨大成功，许多基于深度学习的室外大规模场景三维点云语义分割算法不断被提出。

基于原始点云的语义分割法如PointNet、SPGraph，是基于原始点集进行运算，能够保留完整的特征信息，但由于运算过程中的无序性导致的内存不规则访问以及邻域搜索等问题，运算效率极低，仅适用于精度要求较高和实时性要求较低的室内场景，不适用于实时性要求较高的大规模道路场景。

基于体素表示的语义分割法如Kd-Net、MSNet利用原始点云的平均特征来转换成单个体素特征，从而构建与二维像素图相似的三维体素网格，通过构建计算图，根据点云的稠密程度自适应地分配计算和内存资源，并对点云空间进行有效划分,而划分结果是自下而上地逐层提取特征。由于通道之间较低的相关性，分割精度不高。同时，这类方法受体素分辨率影响较大，高分辨率体素虽然保留了较多的信息，但其计算成本与内存消耗非常高，难以基于其进行模型训练；而低分辨率的体素会丢失较多的信息，造成量化误差。

综上，这些方法在实际应用过程中仍存在运算速度慢和估计精度低等问题；同时大部分车载计算设备的存储和性能无法支撑其复杂结构和庞大运算量，因此不能满足室外大规模场景实时语义分割的要求。

发明内容

本发明要克服现有技术的不足和缺陷，提出一种基于深度学习的三维激光雷达点云语义分割方法和装置，可以实现对室外大规模场景的更加高效准确的语义分割；

本发明提供了一种基于深度学习的三维激光雷达点云语义分割的方法，包括有以下步骤：

步骤1：构建轻量级深度全卷积神经网络；构建由三部分组成的用于训练的全卷积神经网络，即编码器、解码器、分类器；

步骤2：对激光雷达原始点云进行特征变换；从激光雷达中获取原始三维点云数据集，经过特征变换和拼接后降维成四个特征维度；

步骤3：将三维空间特征转换为二维空间特征，并进行预处理；通过球面投影方式将无序特征生成结构化的四通道距离特征图，将序列标签生成单通道二维语义图像，并转换为与预处理数据所需格式相匹配的格式，对数据进行预处理，将预处理后数据样本分为训练集、测试集；

步骤4：训练轻量级深度全卷积神经网络；将训练集中的点云特征图作为训练样本，点云语义图作为真实值标签，使用反向传播和随机梯度下降法，训练深度全卷积语义分割神经网络，通过最小化损失函数，最终得到优化之后的模型参数；

步骤5：对二维点云做语义分割；将原始点云输入到二维语义分割框架中，得到二维空间语义标签；

步骤6：对二维语义标签后处理优化；使用一种基于二维矩阵的滑动窗口投票机制，利用单个物体内部点云密度一致性以及旋转和平移不变性的特点，对由于单一类别的点云帧数据量较少、远距离采样导致点云稀疏、语义边界模糊而造成的错误标注进行全局纠正；

步骤7：恢复三维语义标签；将二维语义分割后的标签结果，反映射回原始三维点云语义空间，得到完整的带有三维语义标签的点云帧。

进一步，步骤1所述的轻量级深度全卷积网络，即，包括输入层、1个采用基于跨阶段特征融合策略(Cross Stage Partial,简称CSP)和残差结构组成的CSPD arknet编码器、1个基于反卷积结构的解码器、1个用于逐像素分类的分类器，构成点云分割网络，简称CSPRangeNet；输入为预处理后的多通道二维点云距离图像，输出为该距离图像每个像素对应的二维语义标签。

所述的输入层由卷积层-批标准化层-Mish激活函数层(Conv-BN-M)组成。M ish激活函数如下公式(1-3)所示：

Mish(x)＝x×tanh(ξ(x)) (1)

ξ(x)＝log(1+e^x) (3)

其中x为输入的特征图，tanh(x)为双曲正切函数，ξ(x)为底数为e的指数函数。卷积层中的卷积核的大小为1×1，个数为32，步长为1×1。输入数据为经过特征变换、预处理后的大小为C×H×W的距离特征图，其中C为特征通道数，此处为4，H为激光雷达竖直方向激光线束的数目，W为距离特征图的水平角分辨率大小。

所述的编码器为CSPDarknet，由跨阶段特征融合层和残差网络组成，分为5个子编码器，每一个编码器都由下采样层(DS)、跨阶段特征融合残差层(CSP-Res)和随机失活层(D)组成，其中，每个下采样层是由卷积层-批标准化层-Mish激活函数层(C(3*3/2)-BN-M)构成，卷积核大小都为3×3，步长都为1×2，在五个子编码器中的个数依次是[64,128,256,512,1024]，经过该层后距离特征图在H维度上保持不变，W维度减少一半，C的维度上升1倍，以此加快后续特征提取运算速度；每个子编码器的特征提取结构都由跨阶段特征融合残差层(CSP-Res)构成，其区别是残差块的个数有所不同，在五个子编码器中的个数依次为[1,2,8,8,4]，组成的跨阶段特征融合残差层依次为[CSP-Res1,CSP-Res2,CSP-Res8,CSP-Res8,CSP-Res4]，经过该层可以对下采样后的特征图进行深层特征的提取；随机失活层(D)以概率P对提取后的深层特征图进行随机失活。

所述的CSPDarknet编码器，包含了5个CSP-Res模块结构示意图，是一个跨阶段特征融合层(Partial Transition Layer)，是一种层级特征融合机制，采用了前融合与后融合的思想，使用了梯度流截断的策略，最大化梯度组合的差异，以防止残差网络和其他卷积层学到重复的梯度信息，网络的学习能力在理论上会得到提升。具体步骤如下：

(11)输入2C*H*W的特征图，经过左分支的卷积层(c(C*1*1))，其中，卷积核大小为1×1，步长为1×1，个数为C，得到C*H*W的特征图；

(12)输入2C*H*W的特征图，经过右分支的深度特征提取层，包括2个卷积层(c(c*1*1))和1个堆叠的残差网络(Res*N)，具体流程如下：

(2a)输入2C*H*W的特征图输入到第一层卷积层c(c*1*1))，其中，卷积核大小为1×1，步长为1×1，个数为C。

(2b)将步骤(2a)的结果输入到第二层残差网络结构(Res*N)，其中，由该层有N个残差块堆叠而成。每个残差块的具体计算流程如下：

(2b-1)将步骤(2a)的结果输入到残差块的第一个卷积层(c(C*1*1))，其中，卷积核大小为1×1，步长为1×1，个数为C。

(2b-2)将步骤(2b-1)的结果输入到残差块的第二个卷积层(c(C*3*3))，其中，卷积核大小为3×3，步长为1×1，个数为C。

(2b-3)将步骤(2b-2)的结果与步骤(2a)的结果相加。

(2b-4)将(2b-3)的结果输入到后续N-1个残差块中进行连续运算。

(13)将(2b-4)的结果与步骤(11)的结果在第一个通道上进行拼接(Cat)；

(14)将步骤(13)的结果输入到最后一个卷积层(c(2C*1*1))做特征融合，其中，卷积核大小为1×1，步长为1×1，个数为2C，最终输出的特征图尺寸为2C*H*W

所述的解码器，由五个子解码器组成，每个子解码器由上采样模块(US)和残差块(Res)构成。其中，上采样模块为反卷积结构(ConvTransposed2d(4*4/2)),卷积核大小为4×4，步长为2，在五个子解码器中的个数依次为[1024,512,256,128,64]，它将骨干编码器提取到的特征进行上采样，即在W维度上升32倍来还原到原始特征图分辨率H×W，并紧跟一个残差块(Res)来改善结果；同时，每次上采样之后，在编码器不同分辨率的输出之间添加跳跃连接，即将解码器的输出与相对应的编码器的输出相加，以恢复在下采样过程中丢失的一些高频边缘信息；在最后一个子解码器中，加入随机失活层(D)，以概率P对经过五次解码后的浅层特征图进行随机失活，此处P为0.05。

所述的分类器部，由卷积层(Conv(N*3*3/1))和指数归一化层(Softmax)组成。其中，卷积层中的卷积核大小为3×3，步长为1,个数为N，其中N为二维语义标签数量；指数归一化层(Softmax)中dim＝0，即对第一维度进行归一化处理，在每个像素点上输出二维语义类别的概率分布。

步骤2所述的原始点云特征变换，通过坐标系变换的方式生成四维特征(Ψ，θ，d，r)来作为新的特征，具体操作步骤如下：

(21)解析激光雷达数据，获得原始激光雷达点云帧，每一帧大小为N×4，其中N为每一帧中点云的数量，4为每个点的特征维度，即[x,y,z,r]，其中(x,y,z)为点云在三维笛卡尔坐标系下的空间位置表示，r为点云所在物体表面材料的反射强度。

(22)将原始激光雷达点云帧中的(x,y,z)经过极坐标系变换得到极坐标系下的空间位置表示(Ψ，θ，d)，其中Ψ为极坐标系下的水平偏转角，θ为极坐标系下的竖直偏转角，d为点到坐标系原点的距离。极坐标系变换如下公式(4-6)所示：

将得到的(Ψ，θ，d)与r组合并替换原有的四维特征，得到新的四维特征(Ψ，θ，d，r)；

其中Ψ为点云在极坐标系下的俯仰角，θ为点云在极坐标系下的偏转角，d为点云到雷达坐标系原点的距离特征，经过特征变换后组成四重特征，即(Ψ,θ,d,r),r为点云所在物体表面材料的反射强度。

步骤3所述的三维空间特征转换为二维空间特征，生成结构化的四通道距离特征图，主要步骤如下：

(31)使用球面投影的方式，利用每个点的笛卡尔坐标系空间位置特征(x,y,z)，结合车载激光雷达自身参数，得到每个点的(h,w)索引对，h为距离图像的列索引，w为距离图像行索引；球面投影如下公式(7-9)：

f＝f_down+f_up (7)

其中，f为激光雷达垂直视场角上的范围，f_down为激光雷达垂直视场角下限，f_up为激光雷达垂直视场角上限，H为距离特征图的垂直分辨率，一般为激光雷达线束，W为距离特征图的水平分辨率，

为向下取整函数；根据特征d的大小对步骤2得到的单帧所有点云的四重特征以及(h,w)进行降序排列；通过(h,w)对重排列后的四重特征分别映射到对应的二维距离特征图，并将这些特征图进行拼接和标准化处理，从而得到尺寸为[4×H×W]距离特征图，其中H为距离特征图的垂直分辨率，W为距离特征图的水平分辨率；

(32)对尺寸为4×H×W距离特征图采用标准化处理方式来得到最终的特征图。标准化处理过程如下公式(10)所示：

其中，x_i为特征图在每个特征通道上的特征值，μ_i为对应特征通道上特征均值，σ_i为对应特征通道上的特征方差；该方法即对每个特征通道分别进行标准化处理，得到标准化处理后的四通道距离特征图。

(33)应用(1)得到的(h,w)索引对，对原始的非连续三维语义标签，使用标签映射表，先经过标签映射生成连续性标签，再通过(h,w)映射到二维图像，从而得到尺寸为H×W的单通道二维语义图像。由于在数据标注过程中为了区别各个大类，真实标签索引是不连续的，后续语义推理阶段需要连续的真实标签；同时，对于某些场景，个别语义类别场景并不会出现，如果模型学习这一类标签的特征，容易对模型造成干扰，必须防止模型过度学习干扰类别信息。因此，需要将这类标签与已有标签进行映射以实现标签合并和连续化；标签合并的过程表示如下：

label_mapped←index[label_origin]

其中，label_mapped为映射后的标签，label_origin为原始标签，index为映射关系字典。在该过程中输入如下：1×N原始点云标签label_origin，其中N为点云的数量；类别数量n_class；映射关系字典，其形式如下：

map_dict:key∈(0,max(origin_label),value∈(0,n_class)

其中，map_dict为映射字典，key为字典的键，value为字典的值，origin_label为原始标签索引值，max()为取最大值函数。得到最后的输出结果为映射后的单通道二维语义图label_mapped。

步骤4所述的轻量级全卷积神经网络训练的过程，损失函数采用的是权重交叉熵损失结合模型结构损失；随机梯度下降中采用预热学习率机制来动态调整学习率，提高收敛效率和收敛精度。损失函数如下公式(11-14):

其中，

为权重交叉熵损失，C为类别标签，w_c为类别为C的权重，N为样本数量，/>

为训练集样本经过模型推理后标签的C的概率估计值，y_c为上述样本标签为C的概率真实值；f_c为类别为C的样本所占总样本的比例，∈为一个偏置量；/>

位模型的结构损失，α为该损失的比例系数，w为模型所有参数组成的一维向量，/>

为二范数；loss为模型的总损失。

步骤5所述的二维点云语义分割，其过程是：原始点云经过步骤2、3和4的预处理后，输入到轻量级深度全卷积神经网络进行逐点推理，从而得到二维空间语义标签。

步骤6所述的一种基于二维矩阵的滑动窗口投票机制，对步骤5得到的二维语义标签图中的每个像素点，根据距离阈值确定领域范围内的像素点，并根据标签进行投票，对二维语义标签进行全局纠正；由于对二维矩阵中的每个点的操作都具备独立性，可以使用图形处理单元(Graphics Processing Unit,简称GPU)进行并行计算来加速该操作过程。

步骤7所述的三维语义标签恢复，使用标签反映射表，将步骤6得到的优化后的二维语义标签反映射回三维语义空间，最终得到完整的带有三维语义标签的点云帧。

一种基于深度学习的三维激光雷达点云语义分割装置，包括：

获取模块，用于获取原始点云数据；

输入模块，用于将原始点云数据进行预处理，并通过第一卷积层提取所述点云数据中每个点预处理后的特征；

编码模块，用于采用预设数量的编码层对输入点云特征进行特征提取以及下采样，得到每层所述编码层对应的中间特征映射；所述编码层包括下采样模块、跨阶段特征融合残差模块和随机失活模块；

解码模块，用于采用预设数量的解码层对所述中间特征映射进行特征解码及上采样，得到每层所述解码层对应的上采样特征映射；所述解码层包括上采样模块和残差模块；

分类模块，用于将所述解码层生成的中间特征映射进行全局汇总，并且利用全局特征进行逐点二维语义分类；

映射模块，用于将分类模块生成的二维语义标签映射回三维空间，生成三维语义标签；

输出模块，用于将映射模块输出的逐点三维语义标签根据帧进行汇总，输出三维语义帧；

一种电子设备及介质，包括：激光雷达、处理器、可拆卸存储介质、通信部分、车载计算集群、存储器及存储在存储器上运行的计算机程序，其特征在于，所述激光雷达为旋转式激光雷达，水平视场角范围为360°；所述处理器执行所述程序时实现如权利要求1-9中任一所述的基于深度学习的三维激光雷达点云语义分割方法；所述车载计算集群为图形处理器(GPU)集群,实现如权利要求6-9中任一所述的训练和推理过程。

以下外部电子设备及介质连接至输入/输出(I/O)接口：包括固态、半固态、机械式旋转激光雷达，其可以捕获环境中的信息生成原始的点云数据，作为后续的模型输入；包括诸如LAN卡、调制解调器等的网络接口卡的通信部分，其可以经由诸如因特网的网络执行通信处理；包括诸如磁盘、光盘、磁光盘、半导体存储器等等可拆卸存储介质，根据需要计算机从I/O口读取其内部存储的计算机程序或向其写入待持久化存储的语义分割结果数据帧；

以下内部电子设备及介质包括：中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的程序加载到随机访问存储器(RAM)中而执行各种指令和动作；在RAM中，还存储有该设备操作所需的各种程序和数据；车载计算集群负责接收来自CPU的指令和来自ROM的数据，进行大规模的数据并行计算，特别地，本实施例中为车载图形处理单元集群(GPU)，其通过计算机内部高速总线(PCI-E)进行连接；CPU、车载计算集群、ROM、RAM通过总线彼此相连。I/O接口也连接至总线。

本发明还包括一种存储介质可以是前文所述的一种电子设备及介质中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本发明的基于深度学习的三维激光雷达点云语义分割方法。其包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机指令、程序的模块或原始数据、结果数据等其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、或其他光学存储、磁性存储，可用于存储可以被计算设备访问的信息。

与现有技术相比，本发明具有以下优点：

(1)特征降维：在数据预处理阶段，通过将三维笛卡尔坐标系替换为球面坐标系，以实现三维到二维的特征空间转换，使输入特征降维，以提高后续深度神经网络输入层的计算速度。同时，新的特征也极大保留了原始特征的信息，从而保证分割精度。

(2)构建轻量化语义分割网络CSPRangeNet：使用了分支结构和跨阶段特征融合的策略，提出了基于二维距离图像的轻量化全卷积语义分割网络CSPRangeNet，使得模型相较于同类型的模型(RangeNet)参数量减少35％，模型存储代价更小，也降低了训练和推理过程中的计算量，实现在激光雷达运行帧率下(10HZ以上)点云语义分割。

(3)推理加速：由于分割网络采用的是全卷积结构，同时，优化阶段采用基于二维矩阵的滑动窗口投票机制，这些计算方式都具备独立性，因此可采用GPU对其进行并行计算来实现推理加速，进一步提升该方法的运行速率。

附图说明

图1是本发明的基于深度学习的三维激光雷达点云语义分割方法的整体流程图；

图2是本发明方法的轻量级深度全卷积神经网络CSPRangeNet网络结构模型示意图；

图3是本发明方法提供的编码器中的CSP-Res模块结构示意图；

图4是本发明提供的数据预处理部分的整体流程图；

图5是本发明提供的点云语义分割装置结构示意图；

图6是本发明提供的电子设备及介质结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

下面结合附图和实例对本发明详细说明。

如图1所示为本发明实施例提供的基于深度学习的三维激光雷达点云语义分割方法的整体流程图，该方法包括有以下步骤：

步骤1：轻量级深度全卷积神经网络构建；构建由三部分组成的用于训练的全卷积神经网络，即编码器、解码器、分类器；

步骤2：激光雷达原始点云特征变换；从激光雷达中获取原始三维点云数据集，经过特征变换和拼接后降维成四个特征维度；

步骤3：三维空间特征转换为二维空间特征，并进行预处理；通过球面投影方式将无序特征生成结构化的四通道距离特征图，将序列标签生成单通道二维语义图像，并转换为与预处理数据所需格式相匹配的格式，对数据进行预处理，将预处理后数据样本分为训练集、测试集；

步骤5：二维点云语义分割；将原始点云输入到二维语义分割框架中，得到二维空间语义标签；

步骤6：二维语义标签后处理优化；使用一种基于二维矩阵的滑动窗口投票机制，利用单个物体内部点云密度一致性以及旋转和平移不变性的特点，对由于单一类别的点云帧数据量较少、远距离采样导致点云稀疏、语义边界模糊而造成的错误标注进行全局纠正。

步骤7：三维语义标签恢复；将二维语义分割后的标签结果，反映射回原始三维点云语义空间，得到完整的带有三维语义标签的点云帧。

所述步骤1中对于所构建的轻量级深度全卷积网络，即，包括输入层、1个采用基于跨阶段特征融合策略和残差结构组成的CSPDarknet编码器、1个基于反卷积结构的解码器、1个用于逐像素分类的分类器，构成点云分割网络，简称CSPRangeNet；输入为预处理后的多通道二维点云距离图像，输出为该距离图像每个像素对应的二维语义标签。

所述步骤2对于原始点云特征变换，通过极坐标系将原始笛卡尔坐标系空间位置特征(x,y,z)变换为(Ψ,θ,d)，其中Ψ为点云在极坐标系下的俯仰角，θ为点云在极坐标系下的偏转角，d为点云到雷达坐标系原点的距离特征，经过特征变换后组成四重特征，即(Ψ,θ,d,r),r为点云所在物体表面材料的反射强度。

所述步骤3对于三维空间特征转换为二维空间特征，使用球面投影的方式，利用每个点的笛卡尔坐标系空间位置特征(x,y,z)，结合车载激光雷达自身参数，得到每个点的(h,w)索引对，h为距离图像的列索引，w为距离图像行索引。根据特征d的大小对步骤二得到的单帧所有点云的四重特征以及(h,w)进行降序排列。通过(h,w)对重排列后的四重特征分别映射到对应的二维距离特征图，并将这些特征图进行拼接和标准化处理，从而得到尺寸为4×H×W距离特征图，其中H为距离特征图的垂直分辨率，W为距离特征图的水平分辨率；原始的非连续三维语义标签，使用标签映射表，先经过标签映射生成连续性标签，再通过(h,w)映射到二维图像，从而得到尺寸为H×W的单通道二维语义图像。

所述步骤4对于轻量级全卷积神经网络训练的过程，损失函数采用的是权重交叉熵损失结合模型结构损失；随机梯度下降中采用预热学习率机制来动态调整学习率，提高收敛效率和收敛精度。

所述步骤5对于二维点云语义分割，原始点云经过步骤2、3和4的预处理后，输入到轻量级深度全卷积神经网络进行逐点推理，从而得到二维空间语义标签。

所述步骤6对于一种基于二维矩阵的滑动窗口投票机制，对步骤5得到的二维语义标签图中的每个像素点，根据距离阈值确定领域范围内的像素点，并根据标签进行投票，对二维语义标签进行全局纠正；由于对二维矩阵中的每个点的操作都具备独立性，可以使用图形处理单元(Graphics Processing Unit,简称GPU)进行并行计算来加速该操作过程。

所述步骤7对于三维语义标签恢复，使用标签反映射表，将步骤6得到的优化后的二维语义标签反映射回三维语义空间，最终得到完整的带有三维语义标签的点云帧。

如图2所示为本发明实施例提供的轻量级深度全卷积神经网络CSPRangeNet网络结构模型示意图。包括1个采用基于跨阶段特征融合策略和残差结构组成的CSPDarknet编码器、1个基于反卷积结构的解码器、1个用于逐像素分类的分类器。具体组成如下：

1.输入层由卷积层-批标准化层-Mish激活函数层(Conv-BN-M)组成。Mish激活函数如下公式(1-3)所示：

Mish(x)＝x×tanh(ξ(x)) (1)

ξ(x)＝log(1+e^x) (3)

2.编码器为CSPDarknet。该结构由跨阶段特征融合层和残差网络组成，分为5个子编码器，每一个编码器都由下采样层(DS)、跨阶段特征融合残差层(CSP-Res)和随机失活层(D)组成。其中，每个下采样层是由卷积层-批标准化层-Mish激活函数层(C(3*3/2)-BN-M)构成，卷积核大小都为3×3，步长都为1×2，在五个子编码器中的个数依次是[64,128,256,512,1024]，经过该层后距离特征图在H维度上保持不变，W维度减少一半，C的维度上升1倍，以此加快后续特征提取运算速度；每个子编码器的特征提取结构都由跨阶段特征融合残差层(CSP-Res)构成，其区别是残差块的个数有所不同，在五个子编码器中的个数依次为[1,2,8,8,4]，组成的跨阶段特征融合残差层依次为[CSP-Res1,CSP-Res2,CSP-Res8,CSP-Res8,CSP-Res4]，经过该层可以对下采样后的特征图进行深层特征的提取；随机失活层(D)以概率P对提取后的深层特征图进行随机失活，此处P为0.05。

3.解码器由五个子解码器组成，每个子解码器由上采样模块(US)和残差块(Res)构成。其中，上采样模块为反卷积结构(ConvTransposed2d(4*4/2)),卷积核大小为4×4，步长为2，在五个子解码器中的个数依次为[1024,512,256,128,64]，它将骨干编码器提取到的特征进行上采样，即在W维度上升32倍来还原到原始特征图分辨率H×W，并紧跟一个残差块(Res)来改善结果；同时，每次上采样之后，在编码器不同分辨率的输出之间添加跳跃连接，即将解码器的输出与相对应的编码器的输出相加，以恢复在下采样过程中丢失的一些高频边缘信息；在最后一个子解码器中，加入随机失活层(D)，以概率P对经过五次解码后的浅层特征图进行随机失活，此处P为0.05。

4.分类器部分由卷积层(Conv(N*3*3/1))和指数归一化层(Softmax)组成。其中，卷积层中的卷积核大小为3×3，步长为1,个数为N，其中N为二维语义标签数量；指数归一化层(Softmax)中dim＝0，即对第一维度进行归一化处理，在每个像素点上输出二维语义类别的概率分布。

如图3所示为本发明实施例提供的编码器中CSP-Res模块结构示意图。它是一个跨阶段特征融合层(Partial Transition Layer)，是一种层级特征融合机制，采用了前融合与后融合的思想，使用了梯度流截断的策略，最大化梯度组合的差异，以防止残差网络和其他卷积层学到重复的梯度信息，网络的学习能力在理论上会得到提升。具体步骤如下：

(11)输入2C*H*W的特征图，经过左分支的卷积层(c(C*1*1))，其中，卷积核大小为1×1，步长为1×1，个数为C，得到C*H*W的特征图

(2b-3)将步骤(2b-2)的结果与步骤(2a)的结果相加。

(2b-4)将步骤(2b-3)的结果输入到后续N-1个残差块中进行连续运算。

(13)将(2b-4)的结果与(1)的结果在第一个通道上进行拼接(Cat)

如图4所示为本发明实施例提供的数据预处理部分的整体流程图，其特征在于，所述流程图中的步骤串联了上述具体实施例中的步骤2和步骤3。具体操作步骤包括：

将得到的(Ψ，θ，d)与r组合并替换原有的四维特征，得到新的四维特征(Ψ，θ，d，r)；其中Ψ为点云在极坐标系下的俯仰角，θ为点云在极坐标系下的偏转角，d为点云到雷达坐标系原点的距离特征，经过特征变换后组成四重特征，即(Ψ,θ,d,r),r为点云所在物体表面材料的反射强度。

(23)使用球面投影的方式，利用每个点的笛卡尔坐标系空间位置特征(x,y,z)，结合车载激光雷达自身参数，得到每个点的(h,w)索引对，h为距离图像的列索引，w为距离图像行索引。球面投影如下公式(7-9)：

f＝f_down+f_up (7)

为向下取整函数；根据特征d的大小对步骤2得到的单帧所有点云四重特征以及(h,w)进行降序排列。通过(h,w)对重排列后的四重特征分别映射到对应的二维距离特征图，并将这些特征图进行拼接和标准化处理，从而得到尺寸为4×H×W距离特征图，其中H为距离特征图的垂直分辨率，W为距离特征图的水平分辨率；

(24)对尺寸为4×H×W距离特征图采用标准化处理方式来得到最终的特征图。标准化处理过程如下公式(10)所示：

其中，x_i为特征图在每个特征通道上的特征值，μ_i为对应特征通道上特征均值，σ_i为对应特征通道上的特征方差，i为0～3；该方法即对每个特征通道分别进行标准化处理，得到最终标准化处理后的四通道距离特征图。

(25)应用步骤(23)得到的(h,w)索引对，对原始的非连续三维语义标签，使用标签映射表，先经过标签映射生成连续性标签，再通过(h,w)映射到二维图像，从而得到尺寸为H×W的单通道二维语义图像。由于在数据标注过程中为了区别各个大类，真实标签索引是不连续的，后续语义推理阶段需要连续的真实标签；同时，对于某些场景，个别语义类别场景并不会出现，如果模型学习这一类标签的特征，容易对模型造成干扰，必须防止模型过度学习干扰类别信息。因此，需要将这类标签与已有标签进行映射以实现标签合并和连续化；标签合并的过程表示如下：

label_mapped←index[label_origin]

其中，label_mapped为映射后的标签，label_origin为原始标签，index为映射关系字典，作为具体实施例，如下表(1)所示：

表(1)

本例中，将原始标签索引0～49的三大类标签映射为连续的索引0～12；在该过程中输入如下：1×N原始点云标签label_origin，其中N为点云的数量；类别数量n_class；映射关系字典，其形式如下：

map_dict:key∈(0,max(origin_label),value∈(0,n_class)

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

其中，

为权重交叉熵损失，C为类别标签，w_c为类别为C的权重，N为类别标签数量，作为具体实施例，本例中取20；/>

为训练集样本经过模型推理后标签的C的概率估计值，y_c为上述样本标签为C的概率真实值；f_c为类别为C的样本所占总样本的比例，∈为一个偏置量，作为具体实施例，本例中曲0.001；/>

位模型的结构损失，α为该损失的比例系数，作为具体实施例，本例中取0.5；w为模型所有参数组成的一维向量，/>

为二范数；loss为模型的总损失。

如图5所示为本发明实施例提供的点云语义分割装置结构示意图。具体包括：

获取模块，用于获取原始点云数据；

输出模块，用于将映射模块输出的逐点三维语义标签根据场景帧进行汇总，输出三维语义场景帧。

如图6所示为本发明实施例提供的电子设备及介质结构示意图。其具体包括：激光雷达、处理器、可拆卸存储介质、通信部分、车载计算集群、存储器及存储在存储器上运行的计算机程序，其特征在于，所述激光雷达为旋转式激光雷达，水平视场角范围为360°；所述处理器执行所述程序时实现如权利要求1-9中任一所述的基于深度学习的三维激光雷达点云语义分割方法；所述车载计算集群为图形处理器(GPU)集群,实现如权利要求6-9中任一所述的训练和推理过程。

以下内部电子设备及介质包括：中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的程序加载到随机访问存储器(RAM)中而执行各种指令和动作；在RAM中，还存储有该设备操作所需的各种程序和数据；车载计算集群负责接收来自CPU的指令和来自ROM的数据，进行大规模的数据并行计算，特别地，本实施例中为车载图形处理单元集群(GPU)，其通过计算机内部高速总线(PCI-E)进行连接；CPU、车载计算集群、ROM、RAM通过总线彼此相连。I/O接口也连接至总线；

特别地，根据本公开的实施例，上文参考图一描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种基于深度学习与激光雷达点云语义分割方法计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述语义分割方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸存储介质被安装。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为车载计算机。具体的，车载计算机例如可以为个人计算机、笔记本电脑、平板计算机、工作站或者这些设备中的任何设备的组合。

作为另一方面，本申请还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本发明的基于深度学习的三维激光雷达点云语义分割方法。其包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机指令、程序的模块或原始数据、结果数据等其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、或其他光学存储、磁性存储，可用于存储可以被计算设备访问的信息。

Claims

1.一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤1所述的轻量级深度全卷积网络包括输入层、1个采用基于跨阶段特征融合策略(Cross Stage Partial,简称CSP)和残差结构组成的CSPD arknet编码器、1个基于反卷积结构的解码器、1个用于逐像素分类的分类器，构成点云分割网络，简称CSPRangeNet；输入为预处理后的多通道二维点云距离图像，输出为该距离图像每个像素对应的二维语义标签。

所述的输入层由卷积层-批标准化层-Mish激活函数层(Conv-BN-M)组成。Mish激活函数如下公式(1-3)所示：

Mish(x)＝x×tanh(ξ(x)) (1)

ξ(x)＝log(1+e^x) (3)

其中x为输入的特征图，tanh(x)为双曲正切函数，ξ(x)为底数为e的指数函数。卷积层中的卷积核的大小为1×1，个数为32，步长为1×1。输入数据为经过特征变换、预处理后的大小为C×H×W的距离特征图，其中C为特征通道数，此处为4，H为激光雷达竖直方向激光线束的数目，W为距离特征图的水平角分辨率大小；

所述的编码器为CSPDarknet，由跨阶段特征融合层和残差网络组成，分为5个子编码器，每一个编码器都由下采样层(DS)、跨阶段特征融合残差层(CSP-Res)和随机失活层(D)组成，其中，每个下采样层是由卷积层-批标准化层-Mish激活函数层(C(3*3/2)-BN-M)构成，卷积核大小都为3×3，步长都为1×2，在五个子编码器中的个数依次是[64,128,256,512,1024]，经过该层后距离特征图在H维度上保持不变，W维度减少一半，C的维度上升1倍，以此加快后续特征提取运算速度；每个子编码器的特征提取结构都由跨阶段特征融合残差层(CSP-Res)构成，其区别是残差块的个数有所不同，在五个子编码器中的个数依次为[1,2,8,8,4]，组成的跨阶段特征融合残差层依次为[CSP-Res1,CSP-Res2,CSP-Res8,CSP-Res8,CSP-Res4]，经过该层可以对下采样后的特征图进行深层特征的提取；随机失活层(D)以概率P对提取后的深层特征图进行随机失活；

所述的CSPDarknet编码器，包含了5个CSP-Res模块结构示意图，是一个跨阶段特征融合层(Partial Transition Layer)，是一种层级特征融合机制，采用了前融合与后融合的思想，使用了梯度流截断的策略，最大化梯度组合的差异，以防止残差网络和其他卷积层学到重复的梯度信息，网络的学习能力在理论上会得到提升，具体包括：

(2b-3)将步骤(2b-2)的结果与步骤(2a)的结果相加。

(13)将步骤(2b-4)的结果与步骤(11)的结果在第一个通道上进行拼接(Cat)；

(14)将步骤(13)的结果输入到最后一个卷积层(c(2C*1*1))做特征融合，其中，卷积核大小为1×1，步长为1×1，个数为2C，最终输出的特征图尺寸为2C*H*W；

所述的解码器由五个子解码器组成，每个子解码器由上采样模块(US)和残差块(Res)构成；其中，上采样模块为反卷积结构(ConvTransposed2d(4*4/2)),卷积核大小为4×4，步长为2，在五个子解码器中的个数依次为[1024,512,256,128,64]，它将骨干编码器提取到的特征进行上采样，即在W维度上升32倍来还原到原始特征图分辨率H×W，并紧跟一个残差块(Res)来改善结果；同时，每次上采样之后，在编码器不同分辨率的输出之间添加跳跃连接，即将解码器的输出与相对应的编码器的输出相加，以恢复在下采样过程中丢失的一些高频边缘信息；在最后一个子解码器中，加入随机失活层(D)，以概率P对经过五次解码后的浅层特征图进行随机失活，此处P为0.05。

所述的分类器部，由卷积层(Conv(N*3*3/1))和指数归一化层(Softmax)组成；其中，卷积层中的卷积核大小为3×3，步长为1,个数为N，其中N为二维语义标签数量；指数归一化层(Softmax)中dim＝0，即对第一维度进行归一化处理，在每个像素点上输出二维语义类别的概率分布。

3.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤2所述的原始点云特征变换，通过坐标系变换的方式生成四维特征(Ψ，θ，d，r)来作为新的特征，包括：

(21)解析激光雷达数据，获得原始激光雷达点云帧，每一帧大小为N×4，其中N为每一帧中点云的数量，4为每个点的特征维度，即[x,y,z,r]，其中(x,y,z)为点云在三维笛卡尔坐标系下的空间位置表示，r为点云所在物体表面材料的反射强度；

(22)将原始激光雷达点云帧中的(x,y,z)经过极坐标系变换得到极坐标系下的空间位置表示(Ψ，θ，d)，其中Ψ为极坐标系下的水平偏转角，θ为极坐标系下的竖直偏转角，d为点到坐标系原点的距离，极坐标系变换如下公式(4-6)所示：

4.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤3所述的三维空间特征转换为二维空间特征，生成结构化的四通道距离特征图，包括：

f＝f_down+f_up (7)

(32)对尺寸为4×H×W距离特征图采用标准化处理方式来得到最终的特征图，标准化处理过程如下公式(10)所示：

/>

其中，x_i为特征图在每个特征通道上的特征值，μ_i为对应特征通道上特征均值，σ_i为对应特征通道上的特征方差；该方法即对每个特征通道分别进行标准化处理，得到标准化处理后的四通道距离特征图；

(33)应用步骤(31)得到的(h,w)索引对，对原始的非连续三维语义标签，使用标签映射表，先经过标签映射生成连续性标签，再通过(h,w)映射到二维图像，从而得到尺寸为H×W的单通道二维语义图像。由于在数据标注过程中为了区别各个大类，真实标签索引是不连续的，后续语义推理阶段需要连续的真实标签；同时，对于某些场景，个别语义类别场景并不会出现，如果模型学习这一类标签的特征，容易对模型造成干扰，必须防止模型过度学习干扰类别信息。因此，需要将这类标签与已有标签进行映射以实现标签合并和连续化；标签合并的过程表示如下：

label_mapped←index[label_origin]

map_dict:key∈(0,max(origin_label),value∈(0,n_class)

5.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤4所述的轻量级全卷积神经网络训练的过程，损失函数采用的是权重交叉熵损失结合模型结构损失；随机梯度下降中采用预热学习率机制来动态调整学习率，提高收敛效率和收敛精度，损失函数如下公式(11-14):

其中，

位模型的结构损失，α为该损失的比例系数，w为模型所有参数组成的一维向量，‖·‖² ₂为二范数；loss为模型的总损失。

6.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤5所述的二维点云语义分割，其过程是：原始点云经过步骤2、3和4的预处理后，输入到轻量级深度全卷积神经网络进行逐点推理，从而得到二维空间语义标签。

7.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤6所述的一种基于二维矩阵的滑动窗口投票机制，对步骤5得到的二维语义标签图中的每个像素点，根据距离阈值确定领域范围内的像素点，并根据标签进行投票，对二维语义标签进行全局纠正；由于对二维矩阵中的每个点的操作都具备独立性，可以使用图形处理单元(Graphics Processing Unit,简称GPU)进行并行计算来加速该操作过程。

8.根据权利要求1所述的一种基于深度学习的三维激光雷达点云语义分割的方法，其特征在于，步骤7所述的三维语义标签恢复，使用标签反映射表，将步骤6得到的优化后的二维语义标签反映射回三维语义空间，最终得到完整的带有三维语义标签的点云帧。

9.一种基于深度学习的三维激光雷达点云语义分割装置，其特征在于，包括：

获取模块，用于获取原始点云数据；

输出模块，用于将映射模块输出的逐点三维语义标签根据帧进行汇总，输出三维语义帧。

10.一种电子设备及介质，其特征在于，包括：激光雷达、处理器、可拆卸存储介质、通信部分、车载计算集群、存储器及存储在存储器上运行的计算机程序；所述激光雷达为旋转式激光雷达，水平视场角范围为360°；所述处理器执行所述程序时实现如权利要求1-4中任一所述的基于深度学习的三维激光雷达点云语义分割方法；所述车载计算集群为图形处理器(GPU)集群,实现如权利要求2-4中任一所述的训练和推理过程；

11.根据权利要求10所述的一种存储介质，其特征在于，该存储介质可以是权利要求10所述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本发明的基于深度学习的三维激光雷达点云语义分割方法；其包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机指令、程序的模块或原始数据、结果数据等其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、或其他光学存储、磁性存储，可用于存储可以被计算设备访问的信息。