CN116229079A - 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统 - Google Patents

一种基于视觉辅助和特征增强的三维点云语义分割方法及系统 Download PDF

Info

Publication number
CN116229079A
CN116229079A CN202310324023.7A CN202310324023A CN116229079A CN 116229079 A CN116229079 A CN 116229079A CN 202310324023 A CN202310324023 A CN 202310324023A CN 116229079 A CN116229079 A CN 116229079A
Authority
CN
China
Prior art keywords
point
point cloud
network
feature
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310324023.7A
Other languages
English (en)
Inventor
舒禹程
王青松
肖斌
李伟生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310324023.7A priority Critical patent/CN116229079A/zh
Publication of CN116229079A publication Critical patent/CN116229079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明属于计算机视觉图形学领域,具体涉及一种基于视觉辅助和特征增强的三维点云语义分割方法及系统,所述方法包括构建三维点云语义分割深度学习模型并训练,将待分割三维点云数据输入训练好的点云语义分割模型,通过设计一个重建辅助网络来显式地提取视觉颜色特征,并在主干分割网络中引入通道注意力机制以充分地加以利用,同时在解码层中构建点特征增强模块,以进一步提高模型在不同语义类边界处的点的分割能力;本发明能够对点的局部邻域进行有效的聚合,提升深度学习模型对三维点云语义分割的效果,促进了相关技术领域的发展。

Description

一种基于视觉辅助和特征增强的三维点云语义分割方法及 系统
技术领域
本发明数据计算机视觉图形学领域,具体涉及一种基于视觉辅助和特征增强的三维点云语义分割方法及系统。
背景技术
三维点云语义分割的目标是根据点的语义将点云分成若干子集。三维点云语义分割是计算机视觉邻域中重要的研究课题,许多技术都建立在此基础上,例如基于三维点云的目标检测、分类、识别等当前解决场景理解的主要技术。传统的点云分割方法利用了点云的位置、形状等信息来分割出不同的区域边界,其分割结果需要手动对结果进行语义标注,无法达到可接受的精度,且不能推广到大规模数据。因此,有必要开发高效的点云语义分割算法,自动得到大规模点云的语义标注。
随着深度学习技术在2D计算机视觉的巨大成功的推动下,它也成为3D分割任务的首选工具。在此基础上,出现了基于投影的、基于离散化的和基于点的三种类型的语义分割方法。由于一些共性问题,基于投影和基于离散化的方法对于实际应用并不是最佳的,一方面是它们需要几个耗时的前后处理步骤来进行预测,另一方面是所生成的中间表示可能会部分丢失周围环境的上下文信息。基于点的方法逐渐成为主流方法,因为这类方法可以直接对不规则的点云进行处理,然而通过MLP提取的逐点特征不能捕获点的局部几何和点与点之间的相互作用。尽管一些研究者也提出了相关的解决办法,例如在PointNet++中使用分层采样机制得到采样后的点融合了局部邻域点的特征信息。但是这些方法没有充分利用点云数据已有的信息来提升语义分割效果,并且在分割不同语义类边界点方面的能力有限。
发明内容
有鉴于此,本发明提供一种基于视觉辅助和特征增强的三维点云语义分割方法,包括构建三维点云语义分割深度学习模型并训练,将待分割三维点云数据输入训练好的点云语义分割模型,引入视觉辅助任务和特征增强模块来增强语义分割性能,计算分割结果;三维点云语义分割模型的训练过程具体包括以下步骤:
S1、获取待分割的三维点云并进行预处理;
S2、将预处理后的点云数据分别输入到分割网络和重建网络中,其中输入到分割网络中的数据包括XYZ空间坐标和RGB颜色信息,输入到重建网络的数据包括RGB颜色信息;
S3、分割网络和重建网络均获取每个点的特征,在分割网络中,获取点云中每个点的邻域索引及其特征;重建网络共享分割网络中计算得到的邻域索引;
S4、对于分割网络的编码器,对每个局部邻域进行几何编码和特征编码;重建网络的编码器进行视觉颜色特征提取;
S5、分割网络将几何编码和特征编码得到的特征拼接起来,通过自注意力机制加权聚合得到精确的逐点特征;重建网络将从其邻域中提取视觉颜色最显著的特征以及其邻域的加权平均拼接起来作为重建网络的逐点特征;
S6、在分割网络每一编码层中,利用空间位置和体积比来学习三维点云的全局上下文;
S7、在分割网络中使用通道注意力机制融合来自分割网络和重建网络的金字塔顶层特征,将融合后的特征作为分割网络中解码器的输入;重建网络将重建网络的金字塔顶层特征输入到重建网络中的解码器;
S8、在解码器中,分割网络对上采样后的点云进行特征增强;重建网络则进行最近邻插值上采样以及MLP提取逐点特征的操作;
S9、对于分割网络使用交叉熵损失函数进行监督,重建网络则使用均方误差进行监督;
S10、启动梯度反向传播机制,优化损失函数,更新网络参数,当模型收敛后或达到设置的epoch次数,保存模型。
进一步的,分割网络和重建网络获取每个点的特征的过程包括使用一个全连接层对输入点云的特征进行升维,再使用MLP提取整个三维点云中每个点的特征。
进一步的,在分割网络中,获取点云中每个点的邻域的过程包括:以点云中的每个点为中心点使用最近邻算法找到其K个邻居点的索引,根据索引得到每个邻居点的xyz三维坐标和对应的点特征。
进一步的,分割网络的编码器对每个局部邻域进行几何和特征编码的过程包括:
计算每个邻居点与中心点的相对坐标,将得到的相对坐标、中心点坐标和邻居点坐标拼接起来作为整个邻域的几何上下文信息;
使用MLP提取整个局部的几何上下文特征;
计算中心点与邻居点特征差的绝对平均值,将邻居点特征与特征距离的负指数拼接起来作为新的邻居点特征。
进一步的,利用空间位置和体积比来学习三维点云的全局上下文包括:在点云邻域中使用中心点与其最远邻域的距离计算得到局部体积,使用点云中与坐标原点的最远距离计算得到全局体积,基于局部体积与全局体积之比利用MLP学习得到三维点云的全局上下文。
进一步的,分割网络对上采样后的点云进行特征增强的过程包括以下步骤:使用最近邻算法得到每个点的K个邻居点,以邻居点特征减去对应中心点特征的方式得到绝对特征差,对所有邻居点的绝对特征差进行求和;经MLP提取特征后与中心点特征逐元素相加得到增强后的特征作为下一个解码层的输入。
进一步的,在三维点云语义分割模型中引入视觉辅助和特征增强模块包括:以输入到分割网络三维点云数据中的每一个点为中心点,使用K最近邻算法找到其对应的K个邻居点,在局部几何上下文方面,对邻居点进行几何编码得到
Figure BDA0004152683860000041
在特征空间方面,对局部邻域进行特征编码得到/>
Figure BDA0004152683860000042
与/>
Figure BDA0004152683860000043
拼接起来,通过自注意力机制计算邻居点的注意力权重,然后加权求和得到蕴含空间几何信息和特征距离信息的精确局部上下文表示
Figure BDA0004152683860000044
/>
进一步的,分割网络对上采样后的点云进行特征增强,解码层逐点特征增强后表示为:
Figure BDA0004152683860000045
其中,fi u为上采样后第i个点的特征;
Figure BDA0004152683860000046
为对fi u逐点增强后的特征;/>
Figure BDA0004152683860000047
为对应的邻居点特征;K是邻域中点的数量;|·|表示取绝对值。
进一步的,整个端到端模型训练阶段的损失函数表示为:
Ltotal=Lce+Lmse
其中,Lce表示语义分割结果的交叉熵损失,Lmse表示颜色重建的均方误差损失。
本发明还提供一种基于视觉辅助和特征增强的三维点云语义分割系统,用于实现一种基于视觉辅助和特征增强的三维点云语义分割方法,包括数据预处理模块、共享采样模块、局部邻域搜索模块、局部上下文编码模块、共享MLP模块、拼接模块、自注意力聚合模块、池化模块、全局特征获取模块、通道注意力模块、上采样模块以及特征增强模块,其中:
数据预处理模块,用于对三维点云进行预处理,降低输入三维点云点的数量;
共享采样模块,采用最远点采样算法筛选出均匀的样本点输入到下一层;
局部邻域搜索模块,用于搜索点的邻域点,构建点的局部邻域;
局部上下文编码模块,用与对点的局部邻域进行几何编码和特征编码;
共享MLP模块,用于提取点的局部上下文特征,以及对整个三维点云进行逐点特征提取;
拼接模块,用于点的特征信息融合,把点的局部几何上下文与语义上下文拼接在一起;
自注意力聚合模块,用于将每个点的局部上下文聚集起来得到每个点的精确局部上下文表示;
池化模块,用于对重建网络中的局部特征进行最大池化和平均池化得到具有代表性的视觉特征;
全局特征获取模块,用于分割网络中提取点的全局特征表示;
通道注意力模块,用于融合来自重建网络的视觉特征;
上采样模块,采用最近邻三线性差值对高维特征进行上采样。
特征增强模块,用于对解码层特征进行增强,使不同语义类的特征差距加大,提升了在语义类边界点的分割精度。
本发明通过对点云的局部邻域进行几何和特征编码,利用自注意力机制来收集点的精确局部上下文表示,并采用空间位置和体积比来提取全局特征。此外,本方法使用通道注意力机制融合来自重建网络的视觉信息,并在解码层对逐点特征进行增强。这样可以增大点的局部邻域点与中心点属于不同语义类的特征差距,从而提高三维点云语义分割的精度。
附图说明
图1为本发明的基于视觉辅助和特征增强的三维点云语义分割整体结构图;
图2为为本发明的点特征增强模块图;
图3为本发明一实施例的语义分割结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于视觉辅助和特征增强的三维点云语义分割方法,包括构建三维点云语义分割深度学习模型并训练,将待分割三维点云数据输入训练好的点云语义分割模型,引入视觉辅助任务和特征增强模块来增强语义分割性能,计算分割结果;三维点云语义分割模型的训练过程具体包括以下步骤:
S1、获取待分割的三维点云并进行预处理;
S2、将预处理后的点云数据分别输入到分割网络和重建网络中,其中输入到分割网络中的数据包括XYZ空间坐标和RGB颜色信息,输入到重建网络的数据包括RGB颜色信息;
S3、分割网络和重建网络均获取每个点的特征,在分割网络中,获取点云中每个点的邻域索引及其特征;重建网络共享分割网络中计算得到的邻域索引;
S4、对于分割网络的编码器,对每个局部邻域进行几何编码和特征编码;重建网络的编码器进行视觉颜色特征提取;
S5、分割网络将几何编码和特征编码得到的特征拼接起来,通过自注意力机制加权聚合得到精确的逐点特征;重建网络将从其邻域中提取视觉颜色最显著的特征以及其邻域的加权平均拼接起来作为重建网络的逐点特征;
S6、在分割网络每一编码层中,利用空间位置和体积比来学习三维点云的全局上下文;
S7、在分割网络中使用通道注意力机制融合来自分割网络和重建网络的金字塔顶层特征,将融合后的特征作为分割网络中解码器的输入;重建网络将金字塔顶层特征输入到重建网络中的解码器;
S8、在解码器中,分割网络对上采样后的点云进行特征增强;重建网络则进行最近邻插值上采样以及MLP提取逐点特征的操作;
S9、对于分割网络使用交叉熵损失函数进行监督,重建网络则使用均方误差进行监督;
S10、启动梯度反向传播机制,优化损失函数,更新网络参数,当模型收敛后或达到设置的epoch次数,保存模型。
本实施例提出了一种基于混合局部聚集的三维点云语义分割方法具体实施方法,如图1所示,包括:
S1.为了快速获取点云数据,首先对整个点云场景进行网格采样,采样的思路是将整个场景均匀划分成多个小立方体,对每个立方体内的点进行采样,将占比最大的类别作为采样后的类别。之后,为了快速地查找近邻,再分别对每一个场景的subxyz建立一个KDTree和一个采样点云到原点云的映射文件。本实例设置立方体长度为0.04米,最大epoch次数为100,初始学习率为0.01;
S2.将预处理后的点云数据分别输入到分割网络和重建网络中,其中输入到分割网络中的数据包含XYZ空间坐标和RGB颜色信息,而重建网络仅包含RGB颜色信息。
S3.两个网络都使用一个全连接层将初始特征从6通道升到8通道,再使用MLP提取整个三维点云中每个点的特征。此外,在分割网络中,根居点的三维坐标,在空间上依据欧几里得距离使用最近邻算法找到每个点的K个邻居点的索引,再根据索引得到每个点对应的所有邻居点的坐标和点特征,如第i个点的坐标和特征分别为pi和fi,则对应邻域
Figure BDA0004152683860000071
中的第j个邻域点坐标和特征分别为pj和fj。重建网络共享这些邻域索引,同样以索引获取邻居点特征。
S4.对于分割网络,为了同时捕获关于点局部邻域的全局和局部信息,对每个局部邻域进行几何和特征编码。首先对每个点和其邻居点的空间坐标进行几何编码。计算每个邻居点与中心点的相对坐标,将得到的相对坐标、中心点坐标和邻居点坐标拼接起来作为整个局部的几何上下文,使得对应的点特征总是知道它们的相对空间位置。
具体地,对于中心点pi和和其对应的K个邻居点
Figure BDA0004152683860000072
中的每一个点,进行空间几何编码,公式可表示为:
Figure BDA0004152683860000073
其中,pi表示第i个点的xyz三维坐标,
Figure BDA0004152683860000074
表示第i个点邻域中第j个点的xyz三维坐标,[,,]表示一个拼接操作;MLP为多层感知机,用来提取逐点特征;/>
Figure BDA0004152683860000075
表示对点进行几何编码后得到的局部几何特征。看起来/>
Figure BDA0004152683860000076
是从多余的点进行位置编码的,但是在实践中,这往往有助于深度学习网络模型学习局部几何特征,并获得良好的性能。
特征编码仅计算中心点与邻居点特征差的绝对平均值,将邻居点特征与特征距离的负指数拼接起来作为新的邻居点特征,具体表示如下:
Figure BDA0004152683860000081
这里,由于特征是由网络自动学习的,所以特征差是一个不稳定的特征,为此我们引入一个超参数λ来调整特征差所占的权重。
重建网络不包含几何编码,仅包含在特征空间中的特征编码操作。
S5.分割网络将两个编码后的特征拼接起来,通过自注意力机制加权合并得到精确的逐点特征。重建网络则一方面直接从K个邻居中收集最显著(最大)特征用于表示整个邻域的视觉概览,另一方面,通过学习整个邻域的加权平均来提炼和获得更多的邻域细节。
具体地,分割网络使用自注意力机制聚合局部上下文特征可表示为:
Figure BDA0004152683860000085
Figure BDA0004152683860000082
/>
重建网络聚合局部上下文特征可表示为:
Figure BDA0004152683860000083
其中,maxK(f′j)表示取K个局部邻域点中的特征最大值,θi是K个邻居的一组可学习权重,
Figure BDA0004152683860000084
表示对K个局部邻域点特征加权平均(即使用softmax函数计算局部邻域中每个点的得分,该得到在0到1之间,然后加权求和得到的值即为加权平均)。
S6.在分割网络每一编码层中,利用空间位置和体积比来学习三维点云的全局上下文:
vi=max(||pj-pi||3)
vg=max(‖P-O‖3)
Figure BDA0004152683860000091
fiG=MLP([pi,ri])
其中,局部体积vi是通过邻居点于中心点最大距离的三次方求得的,全局体积vi是通过点云P所有点中与原点O最大距离三次方求得的。值得注意的是,不同场景中的同一类物体(例如椅子,桌子)通常具有不同的样式,并且它们的几何结构不完全相同。因此,考虑到体积比对局部和全局边界球内的内部点的位置不敏感,使用它以便表示可以容忍相同类别的对象的轻微几何变形。
之后,分割网络每一编码层的输出为:
Figure BDA0004152683860000092
S7.对于两个网络编码后的金字塔顶层特征,通过concatenate操作将它们拼接起来,再在分割网络中使用通道注意力机制融合来自重建网络的视觉特征信息,再输入到解码器。重建网络无融合机制,仅将原始顶层视觉特征输入到解码器。
S8.在解码层,分割网络对上采样后的点云进行特征增强,首先使用最近邻算法(KNN)得到每个点的K个邻居点,以邻居点特征减去对应中心点特征的方式得到绝对特征差,然后进行求和,最后经MLP提取特征后与中心点特征逐元素相加得到增强后的特征作为下一个解码层的输入。重建网络仅包含最近邻插值上采样以及MLP提取逐点特征的操作。具体过程如图2所示,包括:
针对第i个点fi u,通过最近邻算法找到其k个邻居点,k为包括第i个点及其邻居点在内的点数量之和,d为每个点的维度;
计算每个点与第i个点之间特征值之差的绝对值,将所有绝对值相加并利用多层感知机提取逐点特征后与第i个点特征特征值相加,得到第i个点在解码层逐点特征增强后的特征值。
S9.对于分割网络使用交叉熵损失函数进行监督,重建网络则使用均方误差进行监督。
S10.启动梯度反向传播机制,优化损失函数,更新网络参数,当模型收敛后或达到设置的epoch次数,保存模型。
本发明中三维点云语义分割模型为一个端到端模型,即模型输入的是原始的三维点云数据,模型的输出就是我们想要的语义分割结果。
三维点云语义分割过程中,逐点特征表示对于语义分割任务是至关重要的。虽然非参数对称函数可以有效地总结点的局部信息,但它们不能明确地显示局部的独特性,尤其是对于共享相似局部上下文的邻近点。为了解决这个问题,本文基于注意力机制来收集精确的邻域表示,引入视觉重建辅助任务充分利用点云已有的颜色信息,同时对解码层多尺度的特征进行增强,提升语义分割效果,包括:
以输入到分割网络三维点云数据中的每一个点为中心点,使用K最近邻算法找到其对应的K个邻居点,在局部几何上下文方面,对邻居点进行几何编码得到G(pi),在特征空间方面,对局部邻域进行特征编码得到G(fi);
G(pi)与G(fi)拼接起来,通过自注意力机制计算邻居点的注意力权重,然后加权求和得到蕴含空间几何信息和特征距离信息的精确局部上下文表示G(i)。
在分割网络解码层对逐点特征进行增强,使不同语义类边界点的特征差距增大,提升了在语义类边界点的分割精度,解码层逐点特征增强后表示为:
Figure BDA0004152683860000101
其中,fi u为上采样后第i个点的特征;
Figure BDA0004152683860000102
为对fi u逐点增强后的特征;fj u为对应的邻居点特征;K是邻域中点的数量;|·|是绝对值运算。
进一步的,整个端到端模型训练阶段的损失函数表示为:
Ltotal=Lce+Lmse
其中,Lce表示语义分割结果的交叉熵损失,Lmse表示颜色重建的均方误差损失。
在本实施例中,采用数据集(S3DIS)进行实验,数据集(S3DIS)是从室内工作环境中收集的,被广泛用来做语义分割任务。该数据集中有六个子区域,每个子区域包含50个不同的房间。大多数房间的点数从50万到250万不等,取决于房间的大小。所有的点都具有三维坐标和颜色信息,并被标记为13个语义类别之一。在实验中,使用区域五进行测试,其他区域进行训练,按照惯例,首先对每个房间进行以网格大小为4厘米进行网格采样,用于训练和测试。通过从一个房间中获取最多40960个点来形成输入点云,且使用3D坐标和颜色信息作为输入特征。使用平均交并比(mIou)、全局准确率(OA)和平均准确率(mAcc)来衡量语义分割的好坏,表1给出了三维点云语义分割得到实验结果。
表1S3DIS数据集Area 5上的测试结果
Figure BDA0004152683860000111
/>
从表1中可以看出,通过不同算法进行测试,本专利得到的全局准确率(OA)、平均准确率(mAcc)和平均交并比(mIou)的都比其他算法要好,此外,如图3所示,第一行是输入的室内场景三维点云,第二行是真实的语义分割标签(简称真实标签),第三方是大规模点云(简称RandLA-Net)方法预测结果,第四行是本发明基于视觉辅助和特征增强的三维点云语义分割方法预测结果,该结果说明,本发明能够基于视觉辅助和特征增强有效地提升语义分割效果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,构建三维点云语义分割深度学习模型并训练,将待分割三维点云数据输入训练好的点云语义分割模型,引入视觉辅助任务和特征增强模块来增强语义分割性能,计算分割结果;三维点云语义分割模型的训练过程具体包括以下步骤:
S1、获取待分割的三维点云并进行预处理;
S2、将预处理后的点云数据分别输入到分割网络和重建网络中,其中输入到分割网络中的数据包括XYZ空间坐标和RGB颜色信息,输入到重建网络的数据包括RGB颜色信息;
S3、分割网络和重建网络均获取每个点的特征,在分割网络中,获取点云中每个点的邻域索引及其特征;重建网络共享分割网络中计算得到的邻域索引;
S4、对于分割网络的编码器,对每个局部邻域进行几何编码和特征编码;重建网络的编码器进行视觉颜色特征提取;
S5、分割网络将几何编码和特征编码得到的特征拼接起来,通过自注意力机制加权聚合得到精确的逐点特征;重建网络将从其邻域中提取视觉颜色最显著的特征以及其邻域的加权平均拼接起来作为重建网络的逐点特征;
S6、在分割网络每一编码层中,利用空间位置和体积比来学习三维点云的全局上下文;
S7、在分割网络中使用通道注意力机制融合来自分割网络和重建网络的金字塔顶层特征,将融合后的特征作为分割网络中解码器的输入;重建网络将重建网络的金字塔顶层特征输入到重建网络中的解码器;
S8、在解码器中,分割网络对上采样后的点云进行特征增强;重建网络则进行最近邻插值上采样以及MLP提取逐点特征的操作;
S9、对于分割网络使用交叉熵损失函数进行监督,重建网络则使用均方误差进行监督;
S10、启动梯度反向传播机制,优化损失函数,更新网络参数,当模型收敛后或达到设置的epoch次数,保存模型。
2.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,分割网络和重建网络获取每个点的特征的过程包括使用一个全连接层对输入点云的特征进行升维,再使用MLP提取整个三维点云中每个点的特征。
3.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,在分割网络中,获取点云中每个点的邻域的过程包括:以点云中的每个点为中心点使用最近邻算法找到其K个邻居点的索引,根据索引得到每个邻居点的xyz三维坐标和对应的点特征。
4.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,分割网络的编码器对每个局部邻域进行几何和特征编码的过程包括:
计算每个邻居点与中心点的相对坐标,将得到的相对坐标、中心点坐标和邻居点坐标拼接起来作为整个邻域的几何上下文;
使用MLP提取整个局部的几何上下文特征;
计算中心点与邻居点特征差的绝对平均值,将邻居点特征与特征距离的负指数拼接起来作为新的邻居点特征。
5.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,利用空间位置和体积比来学习三维点云的全局上下文包括:在点云邻域中使用中心点与其最远邻域的距离计算得到局部体积,使用点云中与坐标原点的最远距离计算得到全局体积,基于局部体积与全局体积之比利用MLP学习得到三维点云的全局上下文。
6.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,分割网络对上采样后的点云进行特征增强的过程包括以下步骤:使用最近邻算法得到每个点的K个邻居点,以邻居点特征减去对应中心点特征的方式得到绝对特征差,对所有邻居点的绝对特征差进行求和;经MLP提取特征后与中心点特征逐元素相加得到增强后的特征作为下一个解码层的输入。
7.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,在三维点云语义分割模型中引入视觉辅助和特征增强模块包括:以输入到分割网络三维点云数据中的每一个点为中心点,使用K最近邻算法找到其对应的K个邻居点,在局部几何上下文方面,对邻居点进行几何编码得到
Figure FDA0004152683850000034
在特征空间方面,对局部邻域进行特征编码得到/>
Figure FDA0004152683850000037
与/>
Figure FDA0004152683850000035
拼接起来,通过自注意力机制计算邻居点的注意力权重,然后加权求和得到蕴含空间几何信息和特征距离信息的精确局部上下文表示/>
Figure FDA0004152683850000036
8.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,分割网络对上采样后的点云进行特征增强,解码层逐点特征增强后表示为:
Figure FDA0004152683850000031
其中,fi u为解码后第i个点的特征;
Figure FDA0004152683850000032
为对fi u逐点增强后的特征;/>
Figure FDA0004152683850000033
为对应的邻居点特征;K是邻域中点的数量;|·|表示取绝对值。
9.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,其特征在于,整个端到端模型训练阶段的损失函数表示为:
Ltotal=Lce+Lmse
其中,Lce表示语义分割结果的交叉熵损失,Lmse表示颜色重建的均方误差损失。
10.一种基于视觉辅助和特征增强的三维点云语义分割系统,其特征在于,用于实现权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法,包括数据预处理模块、共享采样模块、局部邻域搜索模块、局部上下文编码模块、共享MLP模块、拼接模块、自注意力聚合模块、池化模块、全局特征获取模块、通道注意力模块、上采样模块以及特征增强模块,其中:
数据预处理模块,用于对三维点云进行预处理,降低输入三维点云点的数量;
共享采样模块,采用最远点采样算法筛选出均匀的样本点输入到下一层;
局部邻域搜索模块,用于搜索点的邻域点,构建点的局部邻域;
局部上下文编码模块,用与对点的局部邻域进行几何编码和特征编码;
共享MLP模块,用于提取点的局部上下文特征,以及对整个三维点云进行逐点特征提取;
拼接模块,用于点的特征信息融合,把点的局部几何上下文与语义上下文拼接在一起;
自注意力聚合模块,用于将每个点的局部上下文聚集起来得到每个点的精确局部上下文表示;
池化模块,用于对重建网络中的局部特征进行最大池化和平均池化得到具有代表性的视觉特征;
全局特征获取模块,用于分割网络中提取点的全局特征表示;
通道注意力模块,用于融合来自重建网络的视觉特征;
上采样模块,采用最近邻三线性差值对高维特征进行上采样。
特征增强模块,用于对解码层特征进行增强,使不同语义类的特征差距加大,提升了在语义类边界点的分割精度。
CN202310324023.7A 2023-03-30 2023-03-30 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统 Pending CN116229079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310324023.7A CN116229079A (zh) 2023-03-30 2023-03-30 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310324023.7A CN116229079A (zh) 2023-03-30 2023-03-30 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统

Publications (1)

Publication Number Publication Date
CN116229079A true CN116229079A (zh) 2023-06-06

Family

ID=86585709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310324023.7A Pending CN116229079A (zh) 2023-03-30 2023-03-30 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN116229079A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912488A (zh) * 2023-06-14 2023-10-20 中国科学院自动化研究所 基于多目相机的三维全景分割方法及装置
CN117058366A (zh) * 2023-07-04 2023-11-14 南京航空航天大学 基于预训练大模型的大型飞机大部件点云语义分割方法
CN117274764A (zh) * 2023-11-22 2023-12-22 南京邮电大学 一种多模态特征融合的三维点云补全方法
CN117351212A (zh) * 2023-11-30 2024-01-05 湘潭大学 一种基于双向多尺度注意力的水利环境下的点云分割方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912488A (zh) * 2023-06-14 2023-10-20 中国科学院自动化研究所 基于多目相机的三维全景分割方法及装置
CN116912488B (zh) * 2023-06-14 2024-02-13 中国科学院自动化研究所 基于多目相机的三维全景分割方法及装置
CN117058366A (zh) * 2023-07-04 2023-11-14 南京航空航天大学 基于预训练大模型的大型飞机大部件点云语义分割方法
CN117058366B (zh) * 2023-07-04 2024-03-01 南京航空航天大学 基于预训练大模型的大型飞机大部件点云语义分割方法
CN117274764A (zh) * 2023-11-22 2023-12-22 南京邮电大学 一种多模态特征融合的三维点云补全方法
CN117274764B (zh) * 2023-11-22 2024-02-13 南京邮电大学 一种多模态特征融合的三维点云补全方法
CN117351212A (zh) * 2023-11-30 2024-01-05 湘潭大学 一种基于双向多尺度注意力的水利环境下的点云分割方法
CN117351212B (zh) * 2023-11-30 2024-03-01 湘潭大学 一种基于双向多尺度注意力的水利环境下的点云分割方法

Similar Documents

Publication Publication Date Title
CN116229079A (zh) 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统
CN109410321B (zh) 基于卷积神经网络的三维重建方法
CN112907602B (zh) 一种基于改进k-近邻算法的三维场景点云分割方法
EP1586020A2 (en) Methods, systems, and data structures for performing searches on three dimensional objects
US20230206603A1 (en) High-precision point cloud completion method based on deep learning and device thereof
CN114092697B (zh) 注意力融合全局和局部深度特征的建筑立面语义分割方法
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN111127538A (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN112819080B (zh) 一种高精度通用的三维点云识别方法
WO2024060395A1 (zh) 一种基于深度学习的高精度点云补全方法及装置
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN114926469A (zh) 语义分割模型训练方法、语义分割方法、存储介质及终端
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN114565738A (zh) 一种基于局部几何一致性与特征一致性的点云补全方法
CN114758129A (zh) 一种基于局部特征增强的RandLA-Net室外场景语义分割方法
CN113569788A (zh) 一种建筑物语义分割网络模型训练方法、系统及应用方法
CN112330825A (zh) 一种基于二维图像信息的三维模型检索方法
Nousias et al. A saliency aware CNN-based 3D model simplification and compression framework for remote inspection of heritage sites
CN113628329B (zh) 一种零样本草图三维点云检索方法
CN116704137B (zh) 一种海上石油钻井平台点云深度学习逆向建模方法
CN116524197B (zh) 一种结合边缘点和深度网络的点云分割方法、装置及设备
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
Cao et al. Label-efficient deep learning-based semantic segmentation of building point clouds at LOD3 level
CN111860668B (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
CN117911662B (zh) 基于深度霍夫投票的数字孪生场景语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination