CN116206306A - 一种类间表征对比驱动的图卷积点云语义标注方法 - Google Patents
一种类间表征对比驱动的图卷积点云语义标注方法 Download PDFInfo
- Publication number
- CN116206306A CN116206306A CN202211672129.8A CN202211672129A CN116206306A CN 116206306 A CN116206306 A CN 116206306A CN 202211672129 A CN202211672129 A CN 202211672129A CN 116206306 A CN116206306 A CN 116206306A
- Authority
- CN
- China
- Prior art keywords
- point
- semantic
- point cloud
- neighborhood
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012512 characterization method Methods 0.000 title claims abstract description 18
- 238000012546 transfer Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 77
- 239000013598 vector Substances 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 208000001848 dysentery Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种类间表征对比驱动的图卷积点云语义标注方法,属于摄影测量技术领域,用于进行点云的语义标注,本发明设计了一种几何结构编码模块,以此来描述各点邻域范围内的几何特征;利用一种几何结构与语义特征融合图卷积模块,在层间依靠堆叠的传递边卷积提取中心点与邻域各点间特征关系,并依靠自注意力机制将边特征信息聚合至对应中心节点内;与此同时将各编码层中几何结构编码信息进行多层间传递,从而为邻近点语义关系的挖掘提供更丰富的空间基础;采用一种类间表征对比和交叉熵损失协同驱动的多任务优化策略,使得在高维度语义特征空间中相同类别点特征距离更近,而不同类别点特征距离更远,从而得到具有更丰富语义表达能力的点特征。
Description
技术领域
本发明公开一种类间表征对比驱动的图卷积点云语义标注方法,属于摄影测量技术领域。
背景技术
随着三维数据采集技术的高速发展,三维激光雷达系统以其快速、直接、高精度获取地表三维空间信息的优势,成为当前不可或缺的三维数据获取手段,目前已被广泛应用于自动驾驶、计算机视觉、机器人等前沿领域。离散三维点云数据是三维激光雷达系统获取的应用最为广泛的数据形式,鉴于其只包含三维空间的位置信息而不承载语义信息,因此离散三维点云语义标注是其后续应用的基础性工作。其语义标注的基本原理是利用计算机对不同地物在三维点云数据中所反映的不同特征进行定量分析,把每个点划归为若干个类别中的某一种,从而建立离散三维点云与其语义标签的关联机制。
由于离散三维点云数据具有无序性和非结构化的特性,难以利用传统的卷积神经网络处理,最初通过将离散三维点云数据离散化处理为规则的数据格式,如体素、多视图等。基于体素化的方法是在将点云体素化表达的基础上对其进行三维(3D)卷积运算,体素化虽解决了点云的无序性和非结构化等问题,但在体素化表达过程中会造成信息损失,并且体素格式会占用大量内存;基于多视图的方法则是将3D点云投影至多个视图中,在此基础上进行二维(2D)卷积,最后将2D语义分割结果再投影回3D空间,在信息转换过程中同样会造成严重的几何结构等信息损失,难以获得满意的语义标注结果。PointNet作为首个直接对点处理的语义分割模型,它开创性的使用T-Net、最大池化结构分别解决了点云旋转不变性以及点云的无序性,此外,还通过堆叠权重共享的多层感知器(MLP)将点云三维坐标信息提取、表达至更高维度的语义信息。然而,该网络仅在每个点上独立应用对称函数来提取点云的逐点特征,忽略了三维点间语义相关性,导致语义标注质量较低。
发明内容
本发明的目的在于公开一种类间表征对比驱动的图卷积点云语义标注方法,解决现有技术中语义标注结果精度低的问题。
一种类间表征对比驱动的图卷积点云语义标注方法,包括:
S1.利用几何结构编码描述点云邻域结构;
S2.将各编码层中几何结构编码信息进行多层间传递,依据不同感受野下的几何结构信息为邻近点语义关系的挖掘提供更丰富的空间基础;
S3.结合结构信息与语义特征融合图卷积模块,以邻域图结构为基础,在局部邻域范围内,通过传递边卷积以及注意力池化实现邻域信息的层内提取与传递,利用几何结构信息充分挖掘相邻点间的语义相关性,不断丰富语义特征信息;
S4.以类间表征对比作为驱动,利用对比损失函数使相同类别高维度语义特征在特征空间中聚集,使不同类别点语义特征尽可能远离,使用类间表征对比损失和交叉熵损失熵协同驱动优化策略对分类结果利用梯度反向传播进行训练;
S5.构建点云语义标注网络模型,利用点云语义标注网络模型进行三维点云数据的语义标注测试实验。
S1包括:定义一个张量P=[p1,p2,…,pi]T来表示空间中的点云,其中pi表示第i个点,为每一个中心点建立局部邻域,构建K邻近算法搜寻距离每个中心点最近的K个点,采用欧氏距离为距离度量方式,得到第i个点的局部邻域[p1,p2,…,pn],空间位置编码ri为:其中表示每个中心点所对应的K个邻域点,‖‖表示中心点与其邻域点的欧氏距离,[…]表示在特征维度上进行级联操作,获取到的点云几何结构信息r,该张量大小可表示为其中表示特定形状大小的张量,N表示点云数量,10表示由空间位置编码所描述的特征维度,其表述的特征是邻域范围内的,通过注意力池化操作实现点云特征信息在邻域内的聚合,得到各个点对应几何结构编码g,该张量大小可表示为
设gm为第m层中得到几何结构编码信息,经过前层几何结构编码传递后得到包含不同感受野点云几何结构编码gm′:gm′=[g1,DS(gm-1),…,DS(gm)],其中,DS表示下采样操作;
点云语义特征表示为F=[f1,f2,…,fn],将第m层gm′与语义特征D在特征维度上进行级联后,输入结构信息与语义特征融合图卷积模块,结果表示为:G=[gm′,F]。
结构信息与语义特征融合图卷积模块包括传递边卷积层、注意力池化层和残差堆叠图卷积。
所述传递边卷积层进行信息传递的过程包括:
S2.1.构建图模型,以KNN获取每个点最邻近的K个点的索引,并建立中心点与邻域点间的有向边;
S2.2.获取边向量,在建立有向边时使用富有语义信息的特征向量和具有邻域结构的几何编码信,边向量表示为:其中Gi表示第i个点对应的几何结构编码,表示第i个点对应邻域下第j个点的几何结构编码,则表示第i个点与对应邻域下第j个点间有向边信息;
S2.3.提取边特征,将边向量通过三层连续堆叠的多层感知机MLP提取边属性特征;
S2.4.聚合边属性特征,使用自注意力机制自主的学习重要的邻域特征,最大程度上表征其所蕴含的邻域信息,最终结果表示为:Fi=hΘ(AttPool(Ei)),其中,AttPool表示注意力池化操作,Ei表示第i个点与其邻域点所对应的边属性特征,Fi表示边特征聚合后第i个点富有语义信息的特征向量。
所述注意力池化层包括:
给定邻域边属性特征Ei,在邻域维度下同时具有归一化特性的注意力得分score通过下式计算:score=δ(w,Ei),其中,w表示一组权重共享的权重,δ表示用以归一化注意力得分权重的softmax激活函数以及单层MLP;
所述残差堆叠图卷积包括:
利用堆叠连续的传递边卷积层,通过邻域间特征聚合与传递,在不改变邻域点数量下,不断扩大点云感受野;并利用残差连接,共同组成残差堆叠图卷积。
点云语义标注网络模型包含4层下采样层,模型输入原始点云数量为45056,其对应语义特征维度为8,每次下采样后得到点的数量分别为11264、2816、704、176,而与之对应的语义特征维度分别为16、64、128、256;
下采样过程中,直接在原始点云内随机选取部分,设第i层采样前的点云为εi,采样后的点云为εi+1,首先以εi+1为中心点在εi中寻求局部邻域,得到用邻域特征来表征中心点特征,使用最大池化聚合邻域特征信息,将未采样点的特征信息充分挖掘并整合至采样点中,减少点云在下采样过程中造成的信息丢失。
上采样使用较为轻便的最近邻插值方法,并借助于跳跃连接结构将高层次中丰富的语义特征信息与低层次中丰富的空间结构信息融合;
上采样也经过4层,其各层对应的点云数量分别为704、2816、11264、45056,其对应语义特征维度分别为256、128、32、32,通过上采样获得的原始点的语义特征信息,随后经过多个全连接层得到每个点在各个类别上的得分。
所述以类间表征对比作为驱动的对比损失函数为:
其中μv表示网络末层提取的对应于特定类别v的高维度语义特征向量,δi则表示不断更新的在第i个类别上的平均特征向量,D(·)这里选用欧式距离作为距离量测的标准,Δ表示特征向量之间相似程度;最终损失函数为:Ltotal=λ×Lcont+Lcro,λ为3.0,其中Lcro表示交叉熵损失函数。
相对比现有技术,本发明具有以下有益效果:采用一种类间表征对比和交叉熵损失协同驱动的多任务优化策略,以实现点云空间上下文语义信息的汇聚融合,以生成区分能力强的高层次语义特征表达。同时使得同类语义特征在高维空间中距离更近而不同类语义特征距离更远,进而提升语义特征的描述能力和判别能力。本发明有效地改善了三维点云语义标注的质量和效率,也为后续三维点云数据语义特征表达的深入探索提供理论支撑。
附图说明
图1是本发明的技术流程图。
图2为点云语义标注网络模型结构图。
图3为几何结构与语义特征融合图卷积模块结构图。
图4为残差-堆叠膨胀卷积模块感受野增大示意图。
图5为不同感受野下几何结构编码信息所造成差异示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明技术流程如图1。本发明主要针对无人车大场景下的语义标注算法的研究。在具体实施过程中,选用了采集于德国卡尔斯鲁厄周围的高速公路场景和乡村道路的SemanticKITTI数据集。该数据集提供23201个完整的3D扫描帧用于训练和20351帧用于测试,且每一帧点云数量超过105,是目前公开可用的最大数据集。该数据集使用汽车激光雷达Velodyne HDL64E扫描生成360度视野提供密集点云序列,对于验证点云语义标注网络(网络如图2所示)性能有着明显的优势。并且数据集分为22个序列,其中00-07,09-10场景为训练集,08场景数据为验证集,11-20场景为测试集。并且该3D点云数据包括X-Y-Z三维坐标和反射强度信息,不包含RGB信息,使得对于该数据集的点云语义标注任务更加具有挑战性。
点云是一系列无序的点集合,一个含有N个点的点云集合可以由两部分表征:由3D传感器所获取的三维空间中所固有的坐标由卷积网络(CNN)获取到的蕴含语义信息的特征向量其中C表示特征维度。虽然坐标信息P相较于语义特征向量F缺乏语义信息,无法对最终分类任务提供语义支撑,但坐标信息是语义信息提取的基础,并且随着网络层数的加深,语义特征会因为映射至高维度而缺乏点云几何坐标信息,从而造成分类精度下降。因此,充分利用点云坐标信息以及语义特征,提取到蕴含信息更为丰富的点云特征图,是提升语义分割精度的关键。
首先将点云坐标信息通过单层的多层感知器(MLP)以初步提取语义信息,其中包括一层1x1的卷积层、一层批标准化以及一层激活函数ReLU。通过K邻近点法搜寻各个点的邻域信息。接着将点云三维坐标信息经过空间位置编码以得到具有中心点与邻域各点间空间位置关系编码r,其张量大小可表示为其中10表示由空间位置编码所描述的特征维度。
为充分捕捉点云细粒度特征,通过注意力池化实现邻域内位置编码信息的聚合,将位置编码信息r通过一层全连接层自主学习有用潜在特征掩模,即注意力得分,随后将注意力得分与局部邻域特征进行对应元素相乘,从而得到由局部代表性的特征,从而避免信息聚合过程中邻域重要几何信息的丢失,最终得到几何结构编码g,其张量大小可表示为
与此同时,考虑到在编码层中,由于下采样的进行,会导致采样点的邻域点信息会随之改变(如图5所示)。并且随着采样层数的加深,对应中心点的感受野不断增大。而在深层次中,由于其感受野要远大于第一层,虽然蕴含着语义层次更高且更为丰富的特征信息,但不可避免地会导致局部细节、几何结构的丢失。因此,通过将不同层次的空间位置编码信息进行多层间的传递,从而使得编码层中邻域几何信息更为丰富,同时包含不同感受野下的邻域几何结构信息,从而为离散三维点云相邻点之间的语义相关性的挖掘提供了空间基础。
此时将来自于几何结构编码信息多层间传递的几何信息与当前g以及对应点的语义特征信息f在特征维度上进行级联,得到G以输入GSAGCN模块中。
图卷积首先把数据构造成带有顶点和边的图结构,以图结构数据为基础,对节点信息、边信息或整个图结构进行特征提取。由于每个节点会受到其邻居节点状态的影响,因此点云在图卷积过程中更有利于局部邻域信息的提取与表达。
本发明以邻域图结构为基础,在局部邻域范围内,通过传递边卷积以及注意力池化实现邻域信息的层内提取与传递,利用几何结构信息充分挖掘相邻点间的语义相关性,不断丰富语义特征信息。不同于二维栅格图像,在某一特定场景下的三维点云是离散的、无序的,点与点之间没有明确的拓扑关系。而对于在欧氏空间中相邻近的点,通常具有相互作用关系。并且对于某一点而言,与其数个相邻近点所形成的几何结构便是点云邻近点语义信息挖掘的基础。基于此,本发明以KNN获取每个点最邻近的K个点的索引,并建立中心点与邻域点间的有向边。
GSAGCN中的一层传递边卷积层为:将级联后的特征信息G输入至几何结构与语义特征融合图卷积模块(结构如图3),根据点云邻域索引扩展邻域信息,建立中心点与邻域点间的有向边,从而完成邻域图结构的构建,选用中心节点与邻域各节点特征的差值作为边向量,最终可以表示为其中Gi表示第i各点对应的几何结构编码,表示第i个点对应邻域下第j个点的几何结构编码,则表示第i个点与对应邻域下第j个点间有向边信息。目前常见的特征提取模块如多层感知器(MLP)能够灵活的表征高维度特征向量,通过一层1×1的卷积层、一层批标准化以及激活函数如ReLU或Sigmoid能够拟合复杂的非线性问题。但是由于其所包含的神经元数量有限,难以在短时间内从庞大的点云数据中挖掘想获取到的信息,从而导致拟合效果不理想。本发明堆叠了三层连续的MLP提取边属性特征,从而得到E。为了将边属性特征聚合至对应中心节点内,这里同样采用了自注意力机制自主的为各边向量特征分配注意力权重,最终通过对边属性特征按照注意力权重进行加权融合,以得到饱含细粒度、以及具有邻域代表性的节点特征。最终将聚合后的信息经过2层堆叠的MLP,对图节点信息进行提取得到特征其中每一层MLP包括1×1的1D卷积层、批处理层以及激活函数ReLU。
在计算机视觉领域,膨胀卷积通过提升卷积核尺度以实现在不降低分辨率前提下来扩大感受野。而在本文中,利用堆叠连续的传递边卷积层,通过邻域间特征聚合与传递,在不改变邻域点数量下,不断扩大点云感受野。
当对输入特征G进行第一次传递边卷积时,此时各点感受野为对应的邻域范围数量,即为K。而当经过第二次传递边卷积时,虽此时中心点邻域数量不变,但由于其领域中的点在上一传递边卷积层中聚合了各自邻域内K个点的特征,从而使得此时各点感受野为K2(如图4所示)。
从理论上来讲,堆叠的层数越多,点云的感受野应越大,相应的各点所蕴含的语义信息也更为丰富。但感受野的不断增大同样意味着存在更多潜在的噪声点,并且感受野随着传递边卷积层堆叠的扩大速率达到了此外,还综合考虑了大场景下语义分割任务运算效率以及内存问题。最终,本发明堆叠了两层传递边卷积层,并借助于残差连接,一同组成了残差-堆叠膨胀卷积网络。
关于下采样方法的选择,最远点采样方法虽然可以对点云有更好的覆盖面,但是对于105-106级数的点云而言,最远点采样时间复杂度为O(N2),在单个GPU上需要花费20秒左右的时间。而随机采样虽可以在时间复杂度为O(1)的情况下,实现高速采样,但易造成点云几何结构的缺失。因此,针对于大场景下的点云语义标注任务,本发明设计了一种轻便的逆密度采样方法。利用点云邻域重心与中心点距离的倒数来表征各点的密度。此外,本发明在下采样后,并没有直接舍弃掉未采样的点,因为这些点中同样也蕴含着丰富的几何及语义特征。设第i层采样前的点云为εi,而采样后的点云为εi+1,首先以εi+1为中心点在εi中寻求局部邻域,用邻域特征来表征中心点特征。最后使用最大池化聚合邻域特征信息,从而实现将未采样点的特征信息充分挖掘并整合至采样点中,以此来减少点云在下采样过程中造成的信息丢失。
本发明所使用的模型共包含4层下采样层,模型输入原始点云数量为45056,其对应语义特征维度为8。每次下采样后得到点的数量分别为11264、2816、704、176,而与之对应的语义特征维度分别为16、64、128、256。
上采样使用较为轻便的最近邻插值方法,并借助于跳跃连接结构将高层次中丰富的语义特征信息与低层次中丰富的空间结构信息融合。上采样同样经过4层,其各层对应的点云数量分别为704、2816、11264、45056,其对应语义特征维度分别为256、128、32、32。最终通过上采样获得的原始点的语义特征信息,随后经过多个全连接层得到每个点在各个类别上的得分,从而实现点云的语义分割任务。
经过上述的网络结构,点云语义特征首先经三维坐标提取变换后,又利用下采样的多层次结构,将不同感受野下的位置编码蕴含的几何结构信息与语义特征进行融合。因此,同类别间的点云语义特征向量较不同类别应更为相似。便以此为基础,利用网络末层特征向量构建对比损失函数,同时协同于交叉熵损失函数建立对比聚类与多任务交叉熵双驱动优化模型。在每次训练迭代过程中,都会将点根据类别分别存储至对应列表L内。其中,列表的每一项表示该类别最新的S个特征向量。并且每经过特定的迭代次数,会根据列表内容计算并更新各类别的平均特征向量。因此利用网络末层各点特征向量与平均特征向量作对比,二者若属于同一类别,则二者特征空间的欧式距离应更小,反之则更大。为了使得同类别间的特征向量间欧式距离不断减小,不同类间欧式距离不断增大。
对于点云的多任务分类而言,交叉熵损失函数最为常用,其具体公式如下:
交叉熵损失仅能缩小模型预测结果与真实类别间的差距,无法有效的利用点与点、类别与类别间语义特征联系。相同类别的点经过网络编码-解码结构生成的具有丰富语义信息的特征向量在特征空间中应距离的更近,因为它们具有相似的语义信息。而相反,不同类别点应距离的更远。
因此,该问题便可以抽象为一个对比聚类问题。本发明便以网络末层语义信息特征向量为基础,度量各个类别特征向量间的距离,通过将点云高维度语义特征空间中相同类别点特征距离更近,而使得不同类别点特征距离更远,即以类间表征作为驱动,构建了一种对比损失函数。
在具体的实现中,本发明首先定义了一个队列L,用于存储相应类别点的特征向量,每个类别i对应一个特征向量βi,其张量大小可表示为D表示点中间层特征维度,S表示单个类别中只会存储最新的S个点。其中,在每次迭代过程中,考虑到输入点云数量众多,这里会随机选取固定数量的点用于更新队列,接着根据类别将各点特征向量拼接至对应类别β内,随后截取特征向量β的后S个以实现更新。每经过固定的Ip次迭代后,会根据队列L计算并更新各个类别平均激活特征向量而为了防止各类别特征向量中心点在特征空间内震荡过快,在更新平均激活特征向量时,本发明还设置了动量m,从而结果可表示为:
定义了如下对比损失函数:
其中μv表示网络末层提取的对应于类别v的高维度语义特征向量,δi则表示不断更新的在i类别上的平均特征向量,l(·,·)函数可表示为:
D(·)这里选用欧式距离作为距离量测的标准,Δ表示特征向量之间相似程度。
最终损失函数可以表示为:Ltotal=λ×Lcont+Lcro,这里令λ为3.0。
本发明设计的网络模型所预测出的结果已非常接近其真值,并且网络对于道路、房屋建筑、植被以及车等类别分类精度较高。虽行人、自行车等小类别物体分布较为离散,点云结构比较稀疏,但由于几何结构编码多层间传递模块以及残差堆叠图卷积使得网络通过点云不同大小感受野下特征信息的融合,对于较为稀疏、离散点云依然可以挖掘到较为完整的局部邻域结构信息。综上说明本发明提出的点云语义标注算法适用于无人车车载激光雷达室外场景的语义理解任务。
本发明选用了平均交并比以及总体精度来评价该网络模型在SemanticKITTI数据集上的性能。平均交并比计算公式如下:
其中,pij表示将i类别预测为j类别,pji表示将j类别预测为i类别,pii表示将i类别预测为i类别,k表示类别数量。经验证该模型平均交并比达到了59.2%,总体精度达到了91.4%,超越了传统的PointNet(14.6%)、PointNet++(20.1%),以及现有的适用于大场景点云语义标注网络Point ASNL(46.8%)、RandLA-Net(53.9%)、PolarNet(54.3%),其中括号中均表示平均交并比大小。从而证明了本发明设计的图卷积神经网络以及一种类间表征对比和交叉熵损失熵协同驱动优化策略的有效性。
以上实施例仅用于说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,包括:
S1.利用几何结构编码描述点云邻域结构;
S2.将各编码层中几何结构编码信息进行多层间传递,依据不同感受野下的几何结构信息为邻近点语义关系的挖掘提供更丰富的空间基础;
S3.结合结构信息与语义特征融合图卷积模块,以邻域图结构为基础,在局部邻域范围内,通过传递边卷积以及注意力池化实现邻域信息的层内提取与传递,利用几何结构信息充分挖掘相邻点间的语义相关性,不断丰富语义特征信息;
S4.以类间表征对比作为驱动,利用对比损失函数使相同类别高维度语义特征在特征空间中聚集,使不同类别点语义特征尽可能远离,使用类间表征对比损失和交叉熵损失熵协同驱动优化策略对分类结果利用梯度反向传播进行训练;
S5.构建点云语义标注网络模型,利用点云语义标注网络模型进行三维点云数据的语义标注测试实验。
2.根据权利要求1所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,S1包括:定义一个张量P=[p1,p2,…,pi]T来表示空间中的点云,其中pi表示第i个点,为每一个中心点建立局部邻域,构建K邻近算法搜寻距离每个中心点最近的K个点,采用欧氏距离为距离度量方式,得到第i个点的局部邻域[p1,p2,…,pn],空间位置编码ri为:其中表示每个中心点所对应的K个邻域点,‖‖表示中心点与其邻域点的欧氏距离,[…]表示在特征维度上进行级联操作,获取到的点云几何结构信息r,该张量大小可表示为其中表示特定形状大小的张量,N表示点云数量,10表示由空间位置编码所描述的特征维度,其表述的特征是邻域范围内的,通过注意力池化操作实现点云特征信息在邻域内的聚合,得到各个点对应几何结构编码g,该张量大小可表示为
3.根据权利要求2所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,设gm为第m层中得到几何结构编码信息,经过前层几何结构编码传递后得到包含不同感受野点云几何结构编码gm′:gm′=[g1,DS(gm-1),…,DS(gm)],其中,DS表示下采样操作;
点云语义特征表示为F=[f1,f2,…,fn],将第m层gm′与语义特征F在特征维度上进行级联后,输入结构信息与语义特征融合图卷积模块,结果表示为:G=[gm′,F]。
4.根据权利要求3所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,结构信息与语义特征融合图卷积模块包括传递边卷积层、注意力池化层和残差堆叠图卷积。
5.根据权利要求4所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,所述传递边卷积层进行信息传递的过程包括:
S2.1.构建图模型,以KNN获取每个点最邻近的K个点的索引,并建立中心点与邻域点间的有向边;
S2.2.获取边向量,在建立有向边时使用富有语义信息的特征向量和具有邻域结构的几何编码信,边向量表示为:其中Gi表示第i个点对应的几何结构编码,表示第i个点对应邻域下第j个点的几何结构编码,则表示第i个点与对应邻域下第j个点间有向边信息;
S2.3.提取边特征,将边向量通过三层连续堆叠的多层感知机MLP提取边属性特征;
S2.4.聚合边属性特征,使用自注意力机制自主的学习重要的邻域特征,最大程度上表征其所蕴含的邻域信息,最终结果表示为:Fi=hΘ(AttPool(Ei)),其中,AttPool表示注意力池化操作,Ei表示第i个点与其邻域点所对应的边属性特征,Fi表示边特征聚合后第i个点富有语义信息的特征向量。
7.根据权利要求6所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,利用堆叠连续的传递边卷积层,通过邻域间特征聚合与传递,在不改变邻域点数量下,不断扩大点云感受野;并利用残差连接,共同组成残差堆叠图卷积。
9.根据权利要求8所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,上采样使用较为轻便的最近邻插值方法,并借助于跳跃连接结构将高层次中丰富的语义特征信息与低层次中丰富的空间结构信息融合;
上采样也经过4层,其各层对应的点云数量分别为704、2816、11264、45056,其对应语义特征维度分别为256、128、32、32,通过上采样获得的原始点的语义特征信息,随后经过多个全连接层得到每个点在各个类别上的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672129.8A CN116206306A (zh) | 2022-12-26 | 2022-12-26 | 一种类间表征对比驱动的图卷积点云语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672129.8A CN116206306A (zh) | 2022-12-26 | 2022-12-26 | 一种类间表征对比驱动的图卷积点云语义标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116206306A true CN116206306A (zh) | 2023-06-02 |
Family
ID=86513839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211672129.8A Pending CN116206306A (zh) | 2022-12-26 | 2022-12-26 | 一种类间表征对比驱动的图卷积点云语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206306A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881430A (zh) * | 2023-09-07 | 2023-10-13 | 北京上奇数字科技有限公司 | 一种产业链识别方法、装置、电子设备及可读存储介质 |
CN116993748A (zh) * | 2023-07-31 | 2023-11-03 | 西安邮电大学 | 基于并行特征提取的点云语义分割方法 |
CN117288094A (zh) * | 2023-11-24 | 2023-12-26 | 太原理工大学 | 基于激光传感器的掘进机实时定位系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393474A (zh) * | 2021-06-10 | 2021-09-14 | 北京邮电大学 | 一种基于特征融合的三维点云的分类和分割方法 |
CN113516663A (zh) * | 2021-06-30 | 2021-10-19 | 同济大学 | 点云语义分割方法及装置、电子设备及存储介质 |
WO2022088676A1 (zh) * | 2020-10-29 | 2022-05-05 | 平安科技(深圳)有限公司 | 三维点云语义分割方法、装置、设备及介质 |
CN114926636A (zh) * | 2022-05-12 | 2022-08-19 | 合众新能源汽车有限公司 | 一种点云语义分割方法、装置、设备及存储介质 |
-
2022
- 2022-12-26 CN CN202211672129.8A patent/CN116206306A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022088676A1 (zh) * | 2020-10-29 | 2022-05-05 | 平安科技(深圳)有限公司 | 三维点云语义分割方法、装置、设备及介质 |
CN113393474A (zh) * | 2021-06-10 | 2021-09-14 | 北京邮电大学 | 一种基于特征融合的三维点云的分类和分割方法 |
CN113516663A (zh) * | 2021-06-30 | 2021-10-19 | 同济大学 | 点云语义分割方法及装置、电子设备及存储介质 |
CN114926636A (zh) * | 2022-05-12 | 2022-08-19 | 合众新能源汽车有限公司 | 一种点云语义分割方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨军;党吉圣;: "采用深度级联卷积神经网络的三维点云识别与分割", 光学精密工程, no. 05, 13 May 2020 (2020-05-13) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993748A (zh) * | 2023-07-31 | 2023-11-03 | 西安邮电大学 | 基于并行特征提取的点云语义分割方法 |
CN116881430A (zh) * | 2023-09-07 | 2023-10-13 | 北京上奇数字科技有限公司 | 一种产业链识别方法、装置、电子设备及可读存储介质 |
CN116881430B (zh) * | 2023-09-07 | 2023-12-12 | 北京上奇数字科技有限公司 | 一种产业链识别方法、装置、电子设备及可读存储介质 |
CN117288094A (zh) * | 2023-11-24 | 2023-12-26 | 太原理工大学 | 基于激光传感器的掘进机实时定位系统 |
CN117288094B (zh) * | 2023-11-24 | 2024-01-26 | 太原理工大学 | 基于激光传感器的掘进机实时定位系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230184927A1 (en) | Contextual visual-based sar target detection method and apparatus, and storage medium | |
Li et al. | A survey on semantic segmentation | |
CN116206306A (zh) | 一种类间表征对比驱动的图卷积点云语义标注方法 | |
Huo et al. | Vehicle type classification and attribute prediction using multi-task RCNN | |
CN113449736B (zh) | 一种基于深度学习的摄影测量点云语义分割方法 | |
CN114120115B (zh) | 一种融合点特征和网格特征的点云目标检测方法 | |
Xiong et al. | Contrastive learning for automotive mmWave radar detection points based instance segmentation | |
Mereu et al. | Learning sequential descriptors for sequence-based visual place recognition | |
Hakim et al. | Survey: Convolution neural networks in object detection | |
Bai et al. | A survey on deep learning-based single image crowd counting: Network design, loss function and supervisory signal | |
CN114187506B (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN117727069A (zh) | 基于多尺度信息交互网络的文本-图像行人重识别方法 | |
CN116129234A (zh) | 一种基于注意力的4d毫米波雷达与视觉的融合方法 | |
Saffari et al. | Sparse adversarial unsupervised domain adaptation with deep dictionary learning for traffic scene classification | |
Fan et al. | GRC-net: Fusing GAT-based 4D radar and camera for 3D object detection | |
CN114359902A (zh) | 基于多尺度特征融合的三维点云语义分割方法 | |
Guo et al. | Varied channels region proposal and classification network for wildlife image classification under complex environment | |
Chaturvedi et al. | Small object detection using retinanet with hybrid anchor box hyper tuning using interface of Bayesian mathematics | |
CN117312594A (zh) | 一种融合双尺度特征的草图化机械零件库检索方法 | |
He et al. | Automatic detection and mapping of solar photovoltaic arrays with deep convolutional neural networks in high resolution satellite images | |
CN116503602A (zh) | 基于多层级边缘增强的非结构化环境三维点云语义分割方法 | |
Yin et al. | M2F2-RCNN: Multi-functional faster RCNN based on multi-scale feature fusion for region search in remote sensing images | |
Wencan et al. | Segmentation of points in the future: Joint segmentation and prediction of a point cloud | |
Pei et al. | Improved YOLOv5 for Dense Wildlife Object Detection | |
Pu et al. | Sdf-gan: Semi-supervised depth fusion with multi-scale adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |