CN116071661B

CN116071661B - 一种基于激光点云的城市道路场景语义分割方法

Info

Publication number: CN116071661B
Application number: CN202310359928.8A
Authority: CN
Inventors: 陈一平; 陈钧; 王程; 程明
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-23
Anticipated expiration: 2043-04-06
Also published as: CN116071661A

Abstract

本发明公开了一种基于激光点云的城市道路场景语义分割方法，包括以下步骤：S1、对原始城市街道点云

进行体素下采样得到点云

；S2、为点云

的所有点随机分配概率值，构建基于图卷积和注意力融合的神经网络的输入点集；S3、训练基于图卷积和注意力融合的神经网络；S4、通过基于图卷积和注意力融合的神经网络进行语义分割预测；该方法使用图卷积和注意力融合的神经网络，提高了城市街道点云的语义分割准确性和效率。

Description

一种基于激光点云的城市道路场景语义分割方法

技术领域

本发明涉及计算机图形学领域，具体涉及一种基于激光点云的城市道路场景语义分割方法。

背景技术

在智慧交通和智慧城市建设的背景下，点云作为一种新兴的三维图像数据，受到了越来越多的关注。例如，在智慧交通技术中，通过对传感器获取的道路点云数据进行目标检测与分析，可以辅助汽车测算距离和速度等数据，以实现识别和躲避障碍物的功能。在智慧城市研究中，通过对扫描街道场景获得的点云分析，可以为街道布局、信息化管理以及后期维护等措施打下基础。而语义分割作为点云数据在上述应用的前序操作，也受到了越来越多研究。但是城市街道场景的点云具有规模庞大、密度不均匀和存在遮挡等特点，实现准确和高效的语义分割具有较大挑战。

传统的点云语义分割技术主要通过手动地提取特征实现类别划分。如计算点的法向量、密度和纹理等信息，用于边缘轮廓检测、隔离区划分和区域生长等方法。然而，这些方法难以实现城市街道等大规模场景点云的有效分割。一方面，这些方法高度依赖于对原始点云的先验知识，街道场景规模巨大且复杂，手动设计有效的特征极其困难。另一方面，这些方法还严重受异常点和点分布的影响，传感器扫描到的点分布不均和存在遮挡的情况，不利于特征的提取。

目前，基于深度学习的方法已经被广泛应用于点云的语义分割，这些方法主要分为基于投影和基于点两种形式。前者将点云转化为体素、网格等结构化数据，然后应用二维图像中成熟的卷积方法实现有效的语义分割，但网络的内存消耗随分辨率的提高成指数级增加。后者则直接处理原始点数据，可以充分利用点云的三维结构，但点云的不规则性和稀疏性导致网络难以有效的特征提取和语义分割。在基于点的方法中，图卷积网络可以较好地组织非结构化数据，然后利用邻域信息进行特征提取与语义分割，并且具有较好的泛化能力。但是，在处理城市街道这样的大场景时仍然存在较多局限性，如场景点数和构建邻域导致计算复杂度过大，不同级别语义特征的融合过于简单导致特征表征能力不强等。

发明内容

本发明提供了一种基于激光点云的城市道路场景语义分割方法，该方法使用图卷积和注意力融合等技术，提高了城市街道点云的语义分割准确性和效率。

一种基于激光点云的城市道路场景语义分割方法，包括以下步骤：

S1、对原始城市街道点云

进行体素下采样得到点云/>

；

S2、为点云

的所有点随机分配概率值，构建基于图卷积和注意力融合的神经网络的输入点集；

S3、训练基于图卷积和注意力融合的神经网络；

S4、通过基于图卷积和注意力融合的神经网络进行语义分割预测。

优选地，步骤S1的具体过程为：

S11、计算原始城市街道点云

坐标的每个维度的最小值/>

，设置下采样体素网格的大小为/>

；

S12、计算点

的坐标/>

在每个维度上的划分：

其中，

对应原始城市街道点云/>

中的一个点，则/>

对应的体素网格为/>

；

S13、选择网格

的中心作为新的点，训练数据统计每个非空网格内点的索引值，选取点数最多的类别作为采样后中心点的标签；测试数据则只需要使用中心替代网格内的点，而无需赋予其标签；

S14、对场景中所有的点和网格采取步骤S11-S13，得到下采样结果点云

；

S15、使用数据结构KD-Tree，将下采样后的点云

组织为树/>

，将原始城市街道点云/>

中的每个点，使用树/>

按欧式距离进行邻近查询，保存最邻近点的索引为投影/>

。

优选地，步骤S2的具体过程为：

S21、对点云

中的每个点/>

随机赋予0-1之间的值/>

，作为选取输入的中心点的概率值，将所有点的概率值表示为/>

；

S22、选取

中最小值/>

对应的点作为中心点，使用树/>

查询一组邻近点的点集

；训练时，额外对该组点采用随机抖动进行数据增强，即在每个坐标维度上随机添加一个偏移量；

S23、归一化并使用多层感知机将三维坐标特征进行升维映射得到新的点特征

，归一化公式如下：

其中，

和/>

分别表示点集/>

中的对应坐标维度的最大值和最小值，再计算和更新每一点/>

的坐标/>

。

优选地，步骤S3的具体过程为：

S31、将一组新的点特征

输入到网络编码器，其中图卷积模块用于多分辨率的局部特征提取，局部注意力融合模块用于融合多分辨率特征，随机下采样用于减少点数，通过多层次聚合特征，得到编码特征/>

；

S32、将编码特征

经过多层感知机同维转换后输入到解码器进行解码，利用多层残差注意力融合模块融合多尺度特征，得到解码特征/>

；

S33、将解码特征

经过全连接网络和Softmax分类器实现对每个点的类别预测；

S34、对点集

的初始值，根据与中心点的距离增加一定数值，以减少下次作为中心点的概率。

优选地，步骤S31的具体过程为：

S311、使用树

查询当前输入的每个点的/>

个邻近点，并获取坐标和特征信息；

S312、对于中心点

及其邻近点集/>

，将三维坐标信息嵌入到坐标特征内：

= LBR(/>

, />

, />

,/>

)

其中，

是坐标特征，/>

是点/>

的坐标，/>

是点/>

的坐标，/>

是中心点与邻近点的偏移量，/>

是点/>

和点/>

的欧式距离，LBR表示特征向量依次经过Linear层、BatchNorm层和ReLU层，将嵌入的坐标特征映射成与点特征相同的维度；

S313、将第l次输入到图卷积模块的一组点特征表示为

，连接邻域中每个点的坐标特征/>

与点特征/>

进行一次图卷积运算，计算中心点/>

和其邻近点/>

的边特征/>

为：

= ReLU(g(/>

))

其中，g表示卷积卷积核；

S314、使用最大池化max-pooling逐通道聚合边特征

为新的点特征/>

，一个图卷积模块中进行两次特征计算，第二次使用/>

，并嵌入与其相同维度的坐标特征计算得到卷积结果/>

；

S315、将

和/>

使用局部注意力池化模块实现多分辨率特征聚合，其中，注意力分数计算公式为：

则输出特征

表示为：

其中，

表示多层感知机，/>

表示按通道连接，则/>

是连接的结果，/>

表示局部注意力分数，/>

和/>

分别表示按元素相乘和按元素相加，/>

表示随机下采样，/>

时需分别记录采样点的索引以及丢弃点的索引，/>

表示该层的输出，即为下层的输入；

S316、将特征

作为下层图卷积的输入，重复S311-S315步骤t次，得到输出

，即编码特征/>

，其中/>

。

优选地，步骤S32的具体过程为：

S321、将解码器中与编码器同点数的层表示为第ld层，将

使用多层感知机同维映射成解码特征/>

，下层解码特征为/>

；

S322、将编码特征

和/>

，以及解码特征/>

输入到残差注意力融合模块进行特征融合，下层解码特征计算为：

其中，

表示残差注意力分数；/>

表示最邻近上采样，/>

使用/>

时记录的丢弃点的索引找对应点，再寻找与下采样中的最邻近点作为自身的特征；/>

表示残差连接特征；/>

表示残差注意力融合模块的输出，即为下层的输入特征；

S323、将特征

作为下层残差注意力融合模块的输入，重复t次步骤S321-S322，最终得到/>

，其中ld -t = 0，即为解码特征/>

。

优选地，步骤S33的具体过程为：使用全连接网络将解码特征

的维度映射变换为分类的类别数，再使用Softmax分类器实现对每个点的类别概率预测。

优选地，步骤S34的具体过程为：对点集

中每个点/>

的初始值概率值增加/>

为：

其中，

表示点/>

与中心点的距离，/>

表示这些距离中的最大值。

优选地，步骤S4的具体过程为：

S41、根据条件阈值判断网络是否结束推理，未结束推理则返回至步骤S22，其中，训练网络时，采用固定选取中心点次数作为停止条件；测试网络时，选择点云

中所有点概率的最小值是否超过预设阈值作为停止条件；

S42、网络推理结束后使用投影

，查询/>

中每一个点对应于/>

中的索引，利用索引找到并使用该点的预测结果作为最终的结果。

采用上述技术方案后，本发明具有如下有益效果：

1、本发明使用计算机图形学对城市街道场景点云进行预处理，充分利用街道场景的分布特性。使用采样-投影的方式预测类别，减少网络推理数据量；使用KD-Tree这一数据结构有效查询邻近点，加快网络推理速度。

2、本发明采用构建局部邻域的图关系组织非结构化的点云，在网络训练中进行数据增强，从而提高网络的泛化能力和鲁棒性。通过多分辨率和多层次的语义特征学习实现分割精度上的提高，同时嵌入坐标信息减少网络对相同语义特征的长距离依赖，能够适用于各种复杂的街道场景数据。

3、本发明设计了双注意力融合机制，用于不同级别的语义特征的融合。一个局部注意力融合用于聚合不同分辨率的特征，另一个残差注意力融合用于聚合不同层次的特征。从而使点特征获取更强的表征能力，进一步提高最终的语义分割精度。

附图说明

图1为本发明的流程框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例

本实施例的流程示意图可见图1，具体操作过程如下：

1.实验城市道路点云下采样

利用移动激光扫描仪系统获取长约1000米的城市道路场景数据集。该数据集约包含80000000个点。通过手工标注的方式，将这些点划分为城市道路中常见的八种类别：地面、路标、植被、房屋、缆线、杆塔、汽车和栅栏。已知原始所有点为

，先进行体素下采样减少点的数据量。本实施例中的移动激光扫描仪系统，由32线激光雷达传感器、Ladybug5全景相机、GNSS和SLAM组成。该系统每秒可在垂直视野-10°至+30°的范围内捕获约700000个点，精度优于3厘米。因此，将下采样的体素网格的大小/>

设置为0.06米，并以体素网格中心代替网格内的点。根据以下公式可以得到每个点的网格划分：

使用体素下采样可以使点密度分布更加均匀，以及减少点数降低网络推理计算量，采样后的点云记为

。然后，对点集/>

根据空间坐标使用KD-Tree规则建立树/>

用于邻近查询。对/>

中的每个点使用树/>

查询在/>

中的最邻近点，并统一保存索引为投影文件/>

。KD-Tree的建树和查询时间复杂度分别为O(nlogn)和O(n^1/2)，相比于直接排序的暴力搜索时间复杂度O(nlogn)速度更快。

2.构建网络输入

根据上述操作，对

中每个点赋予0-0.5的随机值，构建网络的输入每次都选取概率最小值对应的点作为一个中心点，然后使用树/>

寻找一组邻近点的点集/>

作为输入，在本实施例中一组点数设为65536。

为了提高网络泛化能力和鲁棒性，在训练数据构建时额外增加噪声，对每个点随机增加或减少该点到中心点距离值的5%范围内的抖动。公式如下：

其中，

表示输入点集/>

中的一点/>

到中心点的距离。/>

表示范围内的随机取一个数值。通过计算，更新点/>

的坐标/>

。

同时，对读入的训练和测试数据进行归一化操作，以减少数值范围变化过大对网络收敛情况的影响。归一化的计算公式如下：

其中，

和/>

分别表示点集/>

中的对应坐标维度的最大值和最小值，再次更新每一点/>

的坐标/>

。

在预测完成后，对该组输入点集

增加/>

：

其中，

表示点/>

与中心点的距离，/>

表示这些距离中的最大值。

3.训练网络与测试网络的停止条件设定

根据上述操作，采样后

的点数约为40000000，并设置划分训练集和测试集的比例为3:1。训练集数据约30000000个点，每次读取65536个点，为了保证所有点被使用到，设置选取中心点数为500个。而测试集，需要对每个点多次预测来提高鲁棒性和准确性，停止条件设置为/>

中最小的概率大于阈值2.5，即每个点至少预测3次。

4.训练基于图卷积和注意力融合的神经网络

将点集

输入到编码器中，先使用多层感知机将三维坐标特征进行升维变换，本实施例中将输入的(65536,3)维张量映射成(65536,8)维。后续图卷积模块中，选取的邻近点数/>

设为16。图卷积模块个数设为4次，依次变换维度[32, 128, 256, 512]。第一次图卷积运算的点特征维度为前一模块输出的特征维度，第二次图卷积运算的点特征维度为当前模块输出维度的1/2。两个点特征分别嵌入与自身相同维度的坐标特征，接着利用卷积核输出为与自身相同的新特征，并利用局部注意力融合模块聚合特征。接着，使用随机采样减少点数，下采样比例为[1/4, 1/4, 1/4, 1/4]。在本实施例中，卷积核选取为1D-CNN。通过计算得到编码特征/>

，其维度为(256, 512)。

将

使用多层感知机同维映射，然后输入到解码器中。利用编码器下层特征上采样学习注意力权重，按权重加成上层特征后，与解码器同层建立残差连接。最终，经过4次解码得到输出特征/>

，其维度为(65536, 8)。

最后，经过一组维度变换为[64, 32, 32, 8]的全连接网络，并使用Softmax分类器实现分类。Softmax公式如下：

其中，

表示样本向量，/>

表示标签，i表示类别，e是自然底数，则/>

表示样本x预测为类别i的概率值，/>

表示归一化后，实际预测正确的概率值。

根据误差值计算损失，并使用梯度下降法优化网络。具体的网络超参数设置：网络训练100轮；每轮使用的中心点个数为500个；设置批次大小为4；学习率设为0.01，并采用指数衰减，每轮训练衰减5%；采用Adam优化方法；构建邻域个数设为16；损失函数设为交叉熵。

5、通过基于图卷积和注意力融合的神经网络进行语义分割预测

根据上述操作，将已经训练好的神经网络用于最终的测试。在测试集中，根据预设阈值决定推理的结束，阈值设为2.5，所以将对下采样的每个点进行最少三次的预测，为了更好利用多次预测结果，对所有点分别开辟一个(1, 8)维的张量记录预测结果。第i次预测与第i-1次预测表示为：

即第i次的预测结果为本次预测结果加上前一次的10%。最终，预测的标签结果为(1, 8)维张量中最大值对应的维度数值。

再根据投影

将下采样的预测值映射回原始点云，实现对所有点的语义分割。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于激光点云的城市道路场景语义分割方法，其特征在于，包括以下步骤：

S1、对原始城市街道点云

进行体素下采样得到点云/>

；

步骤S1的具体过程为：

S11、计算原始城市街道点云

坐标的每个维度的最小值/>

，设置下采样体素网格的大小为/>

；

S12、计算点

的坐标/>

在每个维度上的划分：

其中，/>

对应原始城市街道点云/>

中的一个点，则/>

对应的体素网格为/>

；

S13、选择网格

；

S15、使用数据结构KD-Tree，将下采样后的点云

组织为树/>

，将原始城市街道点云/>

中的每个点，使用树/>

按欧式距离进行邻近查询，保存最邻近点的索引为投影/>

；

S2、为点云

步骤S2的具体过程为：S21、对点云

中的每个点/>

随机赋予0-1之间的值/>

；

S22、选取

中最小值/>

对应的点作为中心点，使用树/>

查询一组邻近点的点集/>

；训练时，额外对该组点集/>

采用随机抖动进行数据增强，即在每个坐标维度上随机添加一个偏移量；

，归一化公式如下：/>

其中，

和/>

分别表示点集/>

的坐标/>

；

S3、训练基于图卷积和注意力融合的神经网络；

步骤S3的具体过程为：

S31、将一组新的点特征

；

S32、将编码特征

；

S33、将解码特征

经过全连接网络和Softmax分类器实现对每个点的类别预测；

S34、对点集

的初始值，根据与中心点的距离增加一定数值，以减少下次作为中心点的概率；

2.如权利要求1所述的一种基于激光点云的城市道路场景语义分割方法，其特征在于，步骤S31的具体过程为：

S311、使用树

查询当前输入的每个点的/>

个邻近点，并获取坐标和特征信息；

S312、对于中心点

及其邻近点集/>

，将三维坐标信息嵌入到坐标特征内：/>

= LBR(/>

, />

, />

,/>

)其中，/>

是坐标特征，/>

是点/>

的坐标，/>

是点/>

的坐标，/>

是中心点与邻近点的偏移量，/>

是点/>

和点/>

S313、将第

次输入到图卷积模块的一组点特征表示为/>

，连接邻域中每个点的坐标特征/>

与点特征/>

进行一次图卷积运算，计算中心点/>

和其邻近点/>

的边特征/>

为：

= ReLU(g(/>

))其中，g表示卷积卷积核；

S314、使用最大池化max-pooling逐通道聚合边特征

为新的点特征/>

，一个图卷积模块中进行两次特征计算，第二次使用/>

，并嵌入与其相同维度的坐标特征计算得到卷积结果/>

；

S315、将

和/>

使用局部注意力池化模块实现多分辨率特征聚合，其中，注意力分数计算公式为：/>

则输出特征/>

表示为：/>

其中，/>

表示多层感知机，/>

表示按通道连接，则/>

是连接的结果，/>

表示局部注意力分数，/>

和/>

分别表示按元素相乘和按元素相加，/>

表示随机下采样，/>

时需分别记录采样点的索引以及丢弃点的索引，/>

表示该层的输出，即为下层的输入；

S316、将特征

作为下层图卷积的输入，重复S311-S315步骤t次，得到输出/>

，即编码特征/>

，其中/>

。

3.如权利要求2所述的一种基于激光点云的城市道路场景语义分割方法，其特征在于，步骤S32的具体过程为：

S321、将解码器中与编码器同点数的层表示为第ld层，将

使用多层感知机同维映射成解码特征/>

；

S322、将编码特征

和/>

，以及解码特征/>

输入到残差注意力融合模块进行特征融合，下层解码特征计算为：/>

其中，/>

表示残差注意力分数；/>

表示最邻近上采样，/>

使用/>

表示残差连接特征；/>

表示残差注意力融合模块的输出，即为下层的输入特征；

S323、将特征

，其中ld -t= 0，即为解码特征/>

。

4.如权利要求3所述的一种基于激光点云的城市道路场景语义分割方法，其特征在于，步骤S33的具体过程为：使用全连接网络将解码特征

5.如权利要求4所述的一种基于激光点云的城市道路场景语义分割方法，其特征在于，步骤S34的具体过程为：对点集

中每个点/>

的初始值概率值增加/>

为：

其中，/>

表示点/>

与中心点的距离，/>

表示这些距离中的最大值。

6.如权利要求5所述的一种基于激光点云的城市道路场景语义分割方法，其特征在于，步骤S4的具体过程为：

S41、根据条件阈值判断基于图卷积和注意力融合的神经网络是否结束推理，未结束推理则返回至步骤S22，其中，训练基于图卷积和注意力融合的神经网络时，采用固定选取中心点次数作为停止条件；测试基于图卷积和注意力融合的神经网络时，选择点云

中所有点概率的最小值是否超过预设阈值作为停止条件；

S42、基于图卷积和注意力融合的神经网络推理结束后使用投影

，查询/>

中每一个点对应于/>