CN116071661B - 一种基于激光点云的城市道路场景语义分割方法 - Google Patents

一种基于激光点云的城市道路场景语义分割方法 Download PDF

Info

Publication number
CN116071661B
CN116071661B CN202310359928.8A CN202310359928A CN116071661B CN 116071661 B CN116071661 B CN 116071661B CN 202310359928 A CN202310359928 A CN 202310359928A CN 116071661 B CN116071661 B CN 116071661B
Authority
CN
China
Prior art keywords
point
features
points
point cloud
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310359928.8A
Other languages
English (en)
Other versions
CN116071661A (zh
Inventor
陈一平
陈钧
王程
程明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310359928.8A priority Critical patent/CN116071661B/zh
Publication of CN116071661A publication Critical patent/CN116071661A/zh
Application granted granted Critical
Publication of CN116071661B publication Critical patent/CN116071661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于激光点云的城市道路场景语义分割方法,包括以下步骤:S1、对原始城市街道点云
Figure ZY_1
进行体素下采样得到点云
Figure ZY_2
;S2、为点云
Figure ZY_3
的所有点随机分配概率值,构建基于图卷积和注意力融合的神经网络的输入点集;S3、训练基于图卷积和注意力融合的神经网络;S4、通过基于图卷积和注意力融合的神经网络进行语义分割预测;该方法使用图卷积和注意力融合的神经网络,提高了城市街道点云的语义分割准确性和效率。

Description

一种基于激光点云的城市道路场景语义分割方法
技术领域
本发明涉及计算机图形学领域,具体涉及一种基于激光点云的城市道路场景语义分割方法。
背景技术
在智慧交通和智慧城市建设的背景下,点云作为一种新兴的三维图像数据,受到了越来越多的关注。例如,在智慧交通技术中,通过对传感器获取的道路点云数据进行目标检测与分析,可以辅助汽车测算距离和速度等数据,以实现识别和躲避障碍物的功能。在智慧城市研究中,通过对扫描街道场景获得的点云分析,可以为街道布局、信息化管理以及后期维护等措施打下基础。而语义分割作为点云数据在上述应用的前序操作,也受到了越来越多研究。但是城市街道场景的点云具有规模庞大、密度不均匀和存在遮挡等特点,实现准确和高效的语义分割具有较大挑战。
传统的点云语义分割技术主要通过手动地提取特征实现类别划分。如计算点的法向量、密度和纹理等信息,用于边缘轮廓检测、隔离区划分和区域生长等方法。然而,这些方法难以实现城市街道等大规模场景点云的有效分割。一方面,这些方法高度依赖于对原始点云的先验知识,街道场景规模巨大且复杂,手动设计有效的特征极其困难。另一方面,这些方法还严重受异常点和点分布的影响,传感器扫描到的点分布不均和存在遮挡的情况,不利于特征的提取。
目前,基于深度学习的方法已经被广泛应用于点云的语义分割,这些方法主要分为基于投影和基于点两种形式。前者将点云转化为体素、网格等结构化数据,然后应用二维图像中成熟的卷积方法实现有效的语义分割,但网络的内存消耗随分辨率的提高成指数级增加。后者则直接处理原始点数据,可以充分利用点云的三维结构,但点云的不规则性和稀疏性导致网络难以有效的特征提取和语义分割。在基于点的方法中,图卷积网络可以较好地组织非结构化数据,然后利用邻域信息进行特征提取与语义分割,并且具有较好的泛化能力。但是,在处理城市街道这样的大场景时仍然存在较多局限性,如场景点数和构建邻域导致计算复杂度过大,不同级别语义特征的融合过于简单导致特征表征能力不强等。
发明内容
本发明提供了一种基于激光点云的城市道路场景语义分割方法,该方法使用图卷积和注意力融合等技术,提高了城市街道点云的语义分割准确性和效率。
一种基于激光点云的城市道路场景语义分割方法,包括以下步骤:
S1、对原始城市街道点云
Figure SMS_1
进行体素下采样得到点云/>
Figure SMS_2
S2、为点云
Figure SMS_3
的所有点随机分配概率值,构建基于图卷积和注意力融合的神经网络的输入点集;
S3、训练基于图卷积和注意力融合的神经网络;
S4、通过基于图卷积和注意力融合的神经网络进行语义分割预测。
优选地,步骤S1的具体过程为:
S11、计算原始城市街道点云
Figure SMS_4
坐标的每个维度的最小值/>
Figure SMS_5
,设置下采样体素网格的大小为/>
Figure SMS_6
S12、计算点
Figure SMS_7
的坐标/>
Figure SMS_8
在每个维度上的划分:
Figure SMS_9
Figure SMS_10
Figure SMS_11
其中,
Figure SMS_12
对应原始城市街道点云/>
Figure SMS_13
中的一个点,则/>
Figure SMS_14
对应的体素网格为/>
Figure SMS_15
S13、选择网格
Figure SMS_16
的中心作为新的点,训练数据统计每个非空网格内点的索引值,选取点数最多的类别作为采样后中心点的标签;测试数据则只需要使用中心替代网格内的点,而无需赋予其标签;
S14、对场景中所有的点和网格采取步骤S11-S13,得到下采样结果点云
Figure SMS_17
S15、使用数据结构KD-Tree,将下采样后的点云
Figure SMS_18
组织为树/>
Figure SMS_19
,将原始城市街道点云/>
Figure SMS_20
中的每个点,使用树/>
Figure SMS_21
按欧式距离进行邻近查询,保存最邻近点的索引为投影/>
Figure SMS_22
优选地,步骤S2的具体过程为:
S21、对点云
Figure SMS_23
中的每个点/>
Figure SMS_24
随机赋予0-1之间的值/>
Figure SMS_25
,作为选取输入的中心点的概率值,将所有点的概率值表示为/>
Figure SMS_26
S22、选取
Figure SMS_27
中最小值/>
Figure SMS_28
对应的点作为中心点,使用树/>
Figure SMS_29
查询一组邻近点的点集
Figure SMS_30
;训练时,额外对该组点采用随机抖动进行数据增强,即在每个坐标维度上随机添加一个偏移量;
S23、归一化并使用多层感知机将三维坐标特征进行升维映射得到新的点特征
Figure SMS_31
,归一化公式如下:
Figure SMS_32
Figure SMS_33
Figure SMS_34
其中,
Figure SMS_35
和/>
Figure SMS_36
分别表示点集/>
Figure SMS_37
中的对应坐标维度的最大值和最小值,再计算和更新每一点/>
Figure SMS_38
的坐标/>
Figure SMS_39
优选地,步骤S3的具体过程为:
S31、将一组新的点特征
Figure SMS_40
输入到网络编码器,其中图卷积模块用于多分辨率的局部特征提取,局部注意力融合模块用于融合多分辨率特征,随机下采样用于减少点数,通过多层次聚合特征,得到编码特征/>
Figure SMS_41
S32、将编码特征
Figure SMS_42
经过多层感知机同维转换后输入到解码器进行解码,利用多层残差注意力融合模块融合多尺度特征,得到解码特征/>
Figure SMS_43
S33、将解码特征
Figure SMS_44
经过全连接网络和Softmax分类器实现对每个点的类别预测;
S34、对点集
Figure SMS_45
的初始值,根据与中心点的距离增加一定数值,以减少下次作为中心点的概率。
优选地,步骤S31的具体过程为:
S311、使用树
Figure SMS_46
查询当前输入的每个点的/>
Figure SMS_47
个邻近点,并获取坐标和特征信息;
S312、对于中心点
Figure SMS_48
及其邻近点集/>
Figure SMS_49
,将三维坐标信息嵌入到坐标特征内:
Figure SMS_50
= LBR(/>
Figure SMS_51
, />
Figure SMS_52
, />
Figure SMS_53
,/>
Figure SMS_54
)
其中,
Figure SMS_56
是坐标特征,/>
Figure SMS_59
是点/>
Figure SMS_61
的坐标,/>
Figure SMS_57
是点/>
Figure SMS_58
的坐标,/>
Figure SMS_62
是中心点与邻近点的偏移量,/>
Figure SMS_63
是点/>
Figure SMS_55
和点/>
Figure SMS_60
的欧式距离,LBR表示特征向量依次经过Linear层、BatchNorm层和ReLU层,将嵌入的坐标特征映射成与点特征相同的维度;
S313、将第l次输入到图卷积模块的一组点特征表示为
Figure SMS_64
,连接邻域中每个点的坐标特征/>
Figure SMS_65
与点特征/>
Figure SMS_66
进行一次图卷积运算,计算中心点/>
Figure SMS_67
和其邻近点/>
Figure SMS_68
的边特征/>
Figure SMS_69
为:
Figure SMS_70
= ReLU(g(/>
Figure SMS_71
))
其中,g表示卷积卷积核;
S314、使用最大池化max-pooling逐通道聚合边特征
Figure SMS_72
为新的点特征/>
Figure SMS_73
,一个图卷积模块中进行两次特征计算,第二次使用/>
Figure SMS_74
,并嵌入与其相同维度的坐标特征计算得到卷积结果/>
Figure SMS_75
S315、将
Figure SMS_76
和/>
Figure SMS_77
使用局部注意力池化模块实现多分辨率特征聚合,其中,注意力分数计算公式为:
Figure SMS_78
则输出特征
Figure SMS_79
表示为:
Figure SMS_80
Figure SMS_81
Figure SMS_82
其中,
Figure SMS_84
表示多层感知机,/>
Figure SMS_86
表示按通道连接,则/>
Figure SMS_91
是连接的结果,/>
Figure SMS_85
表示局部注意力分数,/>
Figure SMS_88
和/>
Figure SMS_89
分别表示按元素相乘和按元素相加,/>
Figure SMS_90
表示随机下采样,/>
Figure SMS_83
时需分别记录采样点的索引以及丢弃点的索引,/>
Figure SMS_87
表示该层的输出,即为下层的输入;
S316、将特征
Figure SMS_92
作为下层图卷积的输入,重复S311-S315步骤t次,得到输出
Figure SMS_93
,即编码特征/>
Figure SMS_94
,其中/>
Figure SMS_95
优选地,步骤S32的具体过程为:
S321、将解码器中与编码器同点数的层表示为第ld层,将
Figure SMS_96
使用多层感知机同维映射成解码特征/>
Figure SMS_97
,下层解码特征为/>
Figure SMS_98
S322、将编码特征
Figure SMS_99
和/>
Figure SMS_100
,以及解码特征/>
Figure SMS_101
输入到残差注意力融合模块进行特征融合,下层解码特征计算为:
Figure SMS_102
Figure SMS_103
Figure SMS_104
其中,
Figure SMS_105
表示残差注意力分数;/>
Figure SMS_106
表示最邻近上采样,/>
Figure SMS_107
使用/>
Figure SMS_108
时记录的丢弃点的索引找对应点,再寻找与下采样中的最邻近点作为自身的特征;/>
Figure SMS_109
表示残差连接特征;/>
Figure SMS_110
表示残差注意力融合模块的输出,即为下层的输入特征;
S323、将特征
Figure SMS_111
作为下层残差注意力融合模块的输入,重复t次步骤S321-S322,最终得到/>
Figure SMS_112
,其中ld -t = 0,即为解码特征/>
Figure SMS_113
优选地,步骤S33的具体过程为:使用全连接网络将解码特征
Figure SMS_114
的维度映射变换为分类的类别数,再使用Softmax分类器实现对每个点的类别概率预测。
优选地,步骤S34的具体过程为:对点集
Figure SMS_115
中每个点/>
Figure SMS_116
的初始值概率值增加/>
Figure SMS_117
为:
Figure SMS_118
其中,
Figure SMS_119
表示点/>
Figure SMS_120
与中心点的距离,/>
Figure SMS_121
表示这些距离中的最大值。
优选地,步骤S4的具体过程为:
S41、根据条件阈值判断网络是否结束推理,未结束推理则返回至步骤S22,其中,训练网络时,采用固定选取中心点次数作为停止条件;测试网络时,选择点云
Figure SMS_122
中所有点概率的最小值是否超过预设阈值作为停止条件;
S42、网络推理结束后使用投影
Figure SMS_123
,查询/>
Figure SMS_124
中每一个点对应于/>
Figure SMS_125
中的索引,利用索引找到并使用该点的预测结果作为最终的结果。
采用上述技术方案后,本发明具有如下有益效果:
1、本发明使用计算机图形学对城市街道场景点云进行预处理,充分利用街道场景的分布特性。使用采样-投影的方式预测类别,减少网络推理数据量;使用KD-Tree这一数据结构有效查询邻近点,加快网络推理速度。
2、本发明采用构建局部邻域的图关系组织非结构化的点云,在网络训练中进行数据增强,从而提高网络的泛化能力和鲁棒性。通过多分辨率和多层次的语义特征学习实现分割精度上的提高,同时嵌入坐标信息减少网络对相同语义特征的长距离依赖,能够适用于各种复杂的街道场景数据。
3、本发明设计了双注意力融合机制,用于不同级别的语义特征的融合。一个局部注意力融合用于聚合不同分辨率的特征,另一个残差注意力融合用于聚合不同层次的特征。从而使点特征获取更强的表征能力,进一步提高最终的语义分割精度。
附图说明
图1为本发明的流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例
本实施例的流程示意图可见图1,具体操作过程如下:
1.实验城市道路点云下采样
利用移动激光扫描仪系统获取长约1000米的城市道路场景数据集。该数据集约包含80000000个点。通过手工标注的方式,将这些点划分为城市道路中常见的八种类别:地面、路标、植被、房屋、缆线、杆塔、汽车和栅栏。已知原始所有点为
Figure SMS_126
,先进行体素下采样减少点的数据量。本实施例中的移动激光扫描仪系统,由32线激光雷达传感器、Ladybug5全景相机、GNSS和SLAM组成。该系统每秒可在垂直视野-10°至+30°的范围内捕获约700000个点,精度优于3厘米。因此,将下采样的体素网格的大小/>
Figure SMS_127
设置为0.06米,并以体素网格中心代替网格内的点。根据以下公式可以得到每个点的网格划分:
Figure SMS_128
Figure SMS_129
Figure SMS_130
使用体素下采样可以使点密度分布更加均匀,以及减少点数降低网络推理计算量,采样后的点云记为
Figure SMS_131
。然后,对点集/>
Figure SMS_132
根据空间坐标使用KD-Tree规则建立树/>
Figure SMS_133
用于邻近查询。对/>
Figure SMS_134
中的每个点使用树/>
Figure SMS_135
查询在/>
Figure SMS_136
中的最邻近点,并统一保存索引为投影文件/>
Figure SMS_137
。KD-Tree的建树和查询时间复杂度分别为O(nlogn)和O(n1/2),相比于直接排序的暴力搜索时间复杂度O(nlogn)速度更快。
2.构建网络输入
根据上述操作,对
Figure SMS_138
中每个点赋予0-0.5的随机值,构建网络的输入每次都选取概率最小值对应的点作为一个中心点,然后使用树/>
Figure SMS_139
寻找一组邻近点的点集/>
Figure SMS_140
作为输入,在本实施例中一组点数设为65536。
为了提高网络泛化能力和鲁棒性,在训练数据构建时额外增加噪声,对每个点随机增加或减少该点到中心点距离值的5%范围内的抖动。公式如下:
Figure SMS_141
Figure SMS_142
Figure SMS_143
其中,
Figure SMS_144
表示输入点集/>
Figure SMS_145
中的一点/>
Figure SMS_146
到中心点的距离。/>
Figure SMS_147
表示范围内的随机取一个数值。通过计算,更新点/>
Figure SMS_148
的坐标/>
Figure SMS_149
同时,对读入的训练和测试数据进行归一化操作,以减少数值范围变化过大对网络收敛情况的影响。归一化的计算公式如下:
Figure SMS_150
Figure SMS_151
Figure SMS_152
其中,
Figure SMS_153
和/>
Figure SMS_154
分别表示点集/>
Figure SMS_155
中的对应坐标维度的最大值和最小值,再次更新每一点/>
Figure SMS_156
的坐标/>
Figure SMS_157
在预测完成后,对该组输入点集
Figure SMS_158
增加/>
Figure SMS_159
Figure SMS_160
其中,
Figure SMS_161
表示点/>
Figure SMS_162
与中心点的距离,/>
Figure SMS_163
表示这些距离中的最大值。
3.训练网络与测试网络的停止条件设定
根据上述操作,采样后
Figure SMS_164
的点数约为40000000,并设置划分训练集和测试集的比例为3:1。训练集数据约30000000个点,每次读取65536个点,为了保证所有点被使用到,设置选取中心点数为500个。而测试集,需要对每个点多次预测来提高鲁棒性和准确性,停止条件设置为/>
Figure SMS_165
中最小的概率大于阈值2.5,即每个点至少预测3次。
4.训练基于图卷积和注意力融合的神经网络
将点集
Figure SMS_166
输入到编码器中,先使用多层感知机将三维坐标特征进行升维变换,本实施例中将输入的(65536,3)维张量映射成(65536,8)维。后续图卷积模块中,选取的邻近点数/>
Figure SMS_167
设为16。图卷积模块个数设为4次,依次变换维度[32, 128, 256, 512]。第一次图卷积运算的点特征维度为前一模块输出的特征维度,第二次图卷积运算的点特征维度为当前模块输出维度的1/2。两个点特征分别嵌入与自身相同维度的坐标特征,接着利用卷积核输出为与自身相同的新特征,并利用局部注意力融合模块聚合特征。接着,使用随机采样减少点数,下采样比例为[1/4, 1/4, 1/4, 1/4]。在本实施例中,卷积核选取为1D-CNN。通过计算得到编码特征/>
Figure SMS_168
,其维度为(256, 512)。
Figure SMS_169
使用多层感知机同维映射,然后输入到解码器中。利用编码器下层特征上采样学习注意力权重,按权重加成上层特征后,与解码器同层建立残差连接。最终,经过4次解码得到输出特征/>
Figure SMS_170
,其维度为(65536, 8)。
最后,经过一组维度变换为[64, 32, 32, 8]的全连接网络,并使用Softmax分类器实现分类。Softmax公式如下:
Figure SMS_171
其中,
Figure SMS_172
表示样本向量,/>
Figure SMS_173
表示标签,i表示类别,e是自然底数,则/>
Figure SMS_174
表示样本x预测为类别i的概率值,/>
Figure SMS_175
表示归一化后,实际预测正确的概率值。
根据误差值计算损失,并使用梯度下降法优化网络。具体的网络超参数设置:网络训练100轮;每轮使用的中心点个数为500个;设置批次大小为4;学习率设为0.01,并采用指数衰减,每轮训练衰减5%;采用Adam优化方法;构建邻域个数设为16;损失函数设为交叉熵。
5、通过基于图卷积和注意力融合的神经网络进行语义分割预测
根据上述操作,将已经训练好的神经网络用于最终的测试。在测试集中,根据预设阈值决定推理的结束,阈值设为2.5,所以将对下采样的每个点进行最少三次的预测,为了更好利用多次预测结果,对所有点分别开辟一个(1, 8)维的张量记录预测结果。第i次预测与第i-1次预测表示为:
Figure SMS_176
即第i次的预测结果为本次预测结果加上前一次的10%。最终,预测的标签结果为(1, 8)维张量中最大值对应的维度数值。
再根据投影
Figure SMS_177
将下采样的预测值映射回原始点云,实现对所有点的语义分割。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于激光点云的城市道路场景语义分割方法,其特征在于,包括以下步骤:
S1、对原始城市街道点云
Figure QLYQS_1
进行体素下采样得到点云/>
Figure QLYQS_2
步骤S1的具体过程为:
S11、计算原始城市街道点云
Figure QLYQS_3
坐标的每个维度的最小值/>
Figure QLYQS_4
,设置下采样体素网格的大小为/>
Figure QLYQS_5
S12、计算点
Figure QLYQS_7
的坐标/>
Figure QLYQS_10
在每个维度上的划分:
Figure QLYQS_13
Figure QLYQS_6
Figure QLYQS_9
其中,/>
Figure QLYQS_12
对应原始城市街道点云/>
Figure QLYQS_14
中的一个点,则/>
Figure QLYQS_8
对应的体素网格为/>
Figure QLYQS_11
S13、选择网格
Figure QLYQS_15
的中心作为新的点,训练数据统计每个非空网格内点的索引值,选取点数最多的类别作为采样后中心点的标签;测试数据则只需要使用中心替代网格内的点,而无需赋予其标签;
S14、对场景中所有的点和网格采取步骤S11-S13,得到下采样结果点云
Figure QLYQS_16
S15、使用数据结构KD-Tree,将下采样后的点云
Figure QLYQS_17
组织为树/>
Figure QLYQS_18
,将原始城市街道点云/>
Figure QLYQS_19
中的每个点,使用树/>
Figure QLYQS_20
按欧式距离进行邻近查询,保存最邻近点的索引为投影/>
Figure QLYQS_21
S2、为点云
Figure QLYQS_22
的所有点随机分配概率值,构建基于图卷积和注意力融合的神经网络的输入点集;
步骤S2的具体过程为:S21、对点云
Figure QLYQS_23
中的每个点/>
Figure QLYQS_24
随机赋予0-1之间的值/>
Figure QLYQS_25
,作为选取输入的中心点的概率值,将所有点的概率值表示为/>
Figure QLYQS_26
S22、选取
Figure QLYQS_27
中最小值/>
Figure QLYQS_28
对应的点作为中心点,使用树/>
Figure QLYQS_29
查询一组邻近点的点集/>
Figure QLYQS_30
;训练时,额外对该组点集/>
Figure QLYQS_31
采用随机抖动进行数据增强,即在每个坐标维度上随机添加一个偏移量;
S23、归一化并使用多层感知机将三维坐标特征进行升维映射得到新的点特征
Figure QLYQS_32
,归一化公式如下:/>
Figure QLYQS_37
Figure QLYQS_39
Figure QLYQS_33
其中,
Figure QLYQS_36
和/>
Figure QLYQS_38
分别表示点集/>
Figure QLYQS_40
中的对应坐标维度的最大值和最小值,再计算和更新每一点/>
Figure QLYQS_34
的坐标/>
Figure QLYQS_35
S3、训练基于图卷积和注意力融合的神经网络;
步骤S3的具体过程为:
S31、将一组新的点特征
Figure QLYQS_41
输入到网络编码器,其中图卷积模块用于多分辨率的局部特征提取,局部注意力融合模块用于融合多分辨率特征,随机下采样用于减少点数,通过多层次聚合特征,得到编码特征/>
Figure QLYQS_42
S32、将编码特征
Figure QLYQS_43
经过多层感知机同维转换后输入到解码器进行解码,利用多层残差注意力融合模块融合多尺度特征,得到解码特征/>
Figure QLYQS_44
S33、将解码特征
Figure QLYQS_45
经过全连接网络和Softmax分类器实现对每个点的类别预测;
S34、对点集
Figure QLYQS_46
的初始值,根据与中心点的距离增加一定数值,以减少下次作为中心点的概率;
S4、通过基于图卷积和注意力融合的神经网络进行语义分割预测。
2.如权利要求1所述的一种基于激光点云的城市道路场景语义分割方法,其特征在于,步骤S31的具体过程为:
S311、使用树
Figure QLYQS_47
查询当前输入的每个点的/>
Figure QLYQS_48
个邻近点,并获取坐标和特征信息;
S312、对于中心点
Figure QLYQS_60
及其邻近点集/>
Figure QLYQS_52
,将三维坐标信息嵌入到坐标特征内:/>
Figure QLYQS_56
= LBR(/>
Figure QLYQS_58
, />
Figure QLYQS_62
, />
Figure QLYQS_63
,/>
Figure QLYQS_64
)其中,/>
Figure QLYQS_57
是坐标特征,/>
Figure QLYQS_61
是点/>
Figure QLYQS_51
的坐标,/>
Figure QLYQS_53
是点/>
Figure QLYQS_49
的坐标,/>
Figure QLYQS_55
是中心点与邻近点的偏移量,/>
Figure QLYQS_54
是点/>
Figure QLYQS_59
和点/>
Figure QLYQS_50
的欧式距离,LBR表示特征向量依次经过Linear层、BatchNorm层和ReLU层,将嵌入的坐标特征映射成与点特征相同的维度;
S313、将第
Figure QLYQS_66
次输入到图卷积模块的一组点特征表示为/>
Figure QLYQS_69
,连接邻域中每个点的坐标特征/>
Figure QLYQS_71
与点特征/>
Figure QLYQS_67
进行一次图卷积运算,计算中心点/>
Figure QLYQS_70
和其邻近点/>
Figure QLYQS_72
的边特征/>
Figure QLYQS_73
为:
Figure QLYQS_65
= ReLU(g(/>
Figure QLYQS_68
))其中,g表示卷积卷积核;
S314、使用最大池化max-pooling逐通道聚合边特征
Figure QLYQS_74
为新的点特征/>
Figure QLYQS_75
,一个图卷积模块中进行两次特征计算,第二次使用/>
Figure QLYQS_76
,并嵌入与其相同维度的坐标特征计算得到卷积结果/>
Figure QLYQS_77
S315、将
Figure QLYQS_86
和/>
Figure QLYQS_81
使用局部注意力池化模块实现多分辨率特征聚合,其中,注意力分数计算公式为:/>
Figure QLYQS_82
则输出特征/>
Figure QLYQS_79
表示为:/>
Figure QLYQS_85
Figure QLYQS_89
Figure QLYQS_92
其中,/>
Figure QLYQS_87
表示多层感知机,/>
Figure QLYQS_91
表示按通道连接,则/>
Figure QLYQS_78
是连接的结果,/>
Figure QLYQS_83
表示局部注意力分数,/>
Figure QLYQS_84
和/>
Figure QLYQS_88
分别表示按元素相乘和按元素相加,/>
Figure QLYQS_90
表示随机下采样,/>
Figure QLYQS_93
时需分别记录采样点的索引以及丢弃点的索引,/>
Figure QLYQS_80
表示该层的输出,即为下层的输入;
S316、将特征
Figure QLYQS_94
作为下层图卷积的输入,重复S311-S315步骤t次,得到输出/>
Figure QLYQS_95
,即编码特征/>
Figure QLYQS_96
,其中/>
Figure QLYQS_97
3.如权利要求2所述的一种基于激光点云的城市道路场景语义分割方法,其特征在于,步骤S32的具体过程为:
S321、将解码器中与编码器同点数的层表示为第ld层,将
Figure QLYQS_98
使用多层感知机同维映射成解码特征/>
Figure QLYQS_99
S322、将编码特征
Figure QLYQS_101
和/>
Figure QLYQS_106
,以及解码特征/>
Figure QLYQS_109
输入到残差注意力融合模块进行特征融合,下层解码特征计算为:/>
Figure QLYQS_103
Figure QLYQS_105
Figure QLYQS_108
其中,/>
Figure QLYQS_111
表示残差注意力分数;/>
Figure QLYQS_100
表示最邻近上采样,/>
Figure QLYQS_104
使用/>
Figure QLYQS_107
时记录的丢弃点的索引找对应点,再寻找与下采样中的最邻近点作为自身的特征;/>
Figure QLYQS_110
表示残差连接特征;/>
Figure QLYQS_102
表示残差注意力融合模块的输出,即为下层的输入特征;
S323、将特征
Figure QLYQS_112
作为下层残差注意力融合模块的输入,重复t次步骤S321-S322,最终得到/>
Figure QLYQS_113
,其中ld -t= 0,即为解码特征/>
Figure QLYQS_114
4.如权利要求3所述的一种基于激光点云的城市道路场景语义分割方法,其特征在于,步骤S33的具体过程为:使用全连接网络将解码特征
Figure QLYQS_115
的维度映射变换为分类的类别数,再使用Softmax分类器实现对每个点的类别概率预测。
5.如权利要求4所述的一种基于激光点云的城市道路场景语义分割方法,其特征在于,步骤S34的具体过程为:对点集
Figure QLYQS_116
中每个点/>
Figure QLYQS_117
的初始值概率值增加/>
Figure QLYQS_118
为:
Figure QLYQS_119
其中,/>
Figure QLYQS_120
表示点/>
Figure QLYQS_121
与中心点的距离,/>
Figure QLYQS_122
表示这些距离中的最大值。
6.如权利要求5所述的一种基于激光点云的城市道路场景语义分割方法,其特征在于,步骤S4的具体过程为:
S41、根据条件阈值判断基于图卷积和注意力融合的神经网络是否结束推理,未结束推理则返回至步骤S22,其中,训练基于图卷积和注意力融合的神经网络时,采用固定选取中心点次数作为停止条件;测试基于图卷积和注意力融合的神经网络时,选择点云
Figure QLYQS_123
中所有点概率的最小值是否超过预设阈值作为停止条件;
S42、基于图卷积和注意力融合的神经网络推理结束后使用投影
Figure QLYQS_124
,查询/>
Figure QLYQS_125
中每一个点对应于/>
Figure QLYQS_126
中的索引,利用索引找到并使用该点的预测结果作为最终的结果。
CN202310359928.8A 2023-04-06 2023-04-06 一种基于激光点云的城市道路场景语义分割方法 Active CN116071661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310359928.8A CN116071661B (zh) 2023-04-06 2023-04-06 一种基于激光点云的城市道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310359928.8A CN116071661B (zh) 2023-04-06 2023-04-06 一种基于激光点云的城市道路场景语义分割方法

Publications (2)

Publication Number Publication Date
CN116071661A CN116071661A (zh) 2023-05-05
CN116071661B true CN116071661B (zh) 2023-06-23

Family

ID=86182316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310359928.8A Active CN116071661B (zh) 2023-04-06 2023-04-06 一种基于激光点云的城市道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN116071661B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449736A (zh) * 2021-01-14 2021-09-28 浙江工业大学 一种基于深度学习的摄影测量点云语义分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110345952A (zh) * 2019-07-09 2019-10-18 同济人工智能研究院(苏州)有限公司 一种序列化车道线地图构建方法及构建系统
US20220222824A1 (en) * 2020-09-15 2022-07-14 Sri International Fully automated multimodal system architecture for semantic segmentation of large-scale 3d outdoor point cloud data
CN115170950A (zh) * 2022-06-21 2022-10-11 西安理工大学 基于多特征约束的室外场景建筑物提取方法
CN115424223A (zh) * 2022-07-27 2022-12-02 浙江大华技术股份有限公司 图神经网络训练方法、点云特征提取方法、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449736A (zh) * 2021-01-14 2021-09-28 浙江工业大学 一种基于深度学习的摄影测量点云语义分割方法

Also Published As

Publication number Publication date
CN116071661A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN112766188B (zh) 一种基于改进yolo算法的小目标行人检测方法
CN111553201B (zh) 一种基于YOLOv3优化算法的交通灯检测方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN113516124B (zh) 基于计算机视觉技术的电能表用电信息识别算法
CN108986453A (zh) 一种基于情境信息的交通状况预测方法、系统及装置
CN112949338A (zh) 深度学习与Hough变换结合的二维条码精确定位方法
CN115223063B (zh) 基于深度学习的无人机遥感小麦新品种倒伏面积提取方法及系统
CN114283162A (zh) 基于对比自监督学习的现实场景图像分割方法
CN115424059A (zh) 一种基于像素级对比学习的遥感土地利用分类方法
CN115761735A (zh) 一种基于自适应伪标签纠正的半监督语义分割方法
CN112766136A (zh) 一种基于深度学习的空间车位检测方法
CN116824585A (zh) 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置
CN116310350A (zh) 基于图卷积和半监督学习网络的城市场景语义分割方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
Wang et al. R2-trans: Fine-grained visual categorization with redundancy reduction
Zeng et al. Multi-level context feature fusion for semantic segmentation of ALS point cloud
CN117523401A (zh) 一种多模态遥感数据变化检测方法
CN116071661B (zh) 一种基于激光点云的城市道路场景语义分割方法
CN115456238A (zh) 一种基于动态多视图耦合图卷积的城市出行需求预测方法
CN114332715A (zh) 气象自动观测积雪识别方法、装置、设备及存储介质
Xiwei et al. Complex traffic scene image classification based on sparse optimization boundary semantics deep learning
Huang et al. Improved small-object detection using YOLOv8: A comparative study
CN115050028B (zh) 一种恶劣天气下小样本车牌检测方法
CN118135405A (zh) 基于自注意力机制的光学遥感影像道路提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant