CN115496910A - 基于全连接图编码及双重扩张残差的点云语义分割方法 - Google Patents

基于全连接图编码及双重扩张残差的点云语义分割方法 Download PDF

Info

Publication number
CN115496910A
CN115496910A CN202211384104.8A CN202211384104A CN115496910A CN 115496910 A CN115496910 A CN 115496910A CN 202211384104 A CN202211384104 A CN 202211384104A CN 115496910 A CN115496910 A CN 115496910A
Authority
CN
China
Prior art keywords
feature
point cloud
point
neighborhood
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211384104.8A
Other languages
English (en)
Other versions
CN115496910B (zh
Inventor
王庆栋
王腾飞
孙钰珊
艾海滨
张力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202211384104.8A priority Critical patent/CN115496910B/zh
Publication of CN115496910A publication Critical patent/CN115496910A/zh
Application granted granted Critical
Publication of CN115496910B publication Critical patent/CN115496910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

基于全连接图编码及双重扩张残差的点云语义分割方法,首先输入原始点云,然后进行编码,首先进行逐层下采样,使用递进的双重扩张残差模块不断扩大感受野获得更好的局部上下文信息,提取点云高维特征,使用局部全连接图特征聚合的方法确保局部邻域特征能够获得完整编码;在解码阶段,通过上采样模块逐层恢复原始点云密度,并在最后一层编码层使用全连接层进行特征维度转换,最后输出语义分割结果点云。本发明使得点云的语义分割更为快速准确,分割性能优于相关网络;使得网络能够更完整的学习局部上下文特征,对于规则分布目标以及大目标具有很好的分割效果;增强小样本物体点云语义分割精度。

Description

基于全连接图编码及双重扩张残差的点云语义分割方法
技术领域
本发明涉及点云语义分割,具体的,涉及一种基于全连接图编码及双重扩张残差的点云语义分割方法,特别适用于室内点云的语义分割。
背景技术
现有技术的点云语义分割方法主要是基于深度学习的点云语义分割方法。
基于深度学习的点云语义分割主要分为基于体素、基于点卷积与基于图神经网络的方法。
基于体素方法:受到2D卷积网络影响,一些方法尝试将点云体素化,再采用3D卷积核进行处理。3DCNN被提出并进行体素分割,同一体素内的点被赋予同一个语义标签。为了更精细化语义分割,SEGCloud网络被提出,该方法结合了3D-FCNN、三线性插值(TI)和全连通条件随机场(FC-CRF)的优点。虽然诸多学者提出针对体素化方法存在的不足进行了多方面的改进,但其导致的信息损失、显存占用大、计算量大的问题始终难以适用于各种大型复杂场景。
基于点卷积方法:由于点云的无序以及不规则特性,不经过体素化,难以应用标准CNNs。针对这一难点, PointNet网络框架被提出,该框架通过共享的多层感知器与对称池化技术学习点特征与全局特征,PointNet作为开创性的工作,解决了点云稀疏性、置换与旋转不变性问题。为了改进pointnet在局部特征方面学习能力的不足,Pointnet++,pointsift,pointcnn等重要的工作被提出。但是这种方法语义分割准确率仍然较低,且只能输入固定少数点,无法对整体室内场景进行语义分割。
基于图神经网络的方法:GNN专注于非结构数据,很多学者尝试将图卷积技术GCN引入点云语义分割中,与基于单点卷积的方法不同,图卷积方法不仅考虑到单点还顾及到点与邻域点的边,所以,其能够好的学习点云特征。相关的研究有DGCNN、SPG等,但是这些方法往往需要较高内存,计算速度慢。
因此,上述的点云语义分割方法普遍存在高噪声和不完整点云场景下准确率低、鲁棒性差;仅关注与中心点有关联的边特征和点特征,忽略了邻域点间的关系特征,局部上下文特征并未得到全面描述;对于点的分割网络,随着网络的加深,会出现梯度消失和过平滑问题,造成网络难以训练等问题。
如何解决现有技术中存在的点云语义分割的缺点,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于全连接图编码及双重扩张残差的点云语义分割方法,提升低质量点云场景下分割鲁棒性与准确率,提升语义分割网络上下文特征学习能力,缓解深层图网络导致的梯度消失与过平滑问题
为达此目的,本发明采用以下技术方案:
一种基于全连接图编码及双重扩张残差的点云语义分割方法,其特征在于,包括如下步骤:
原始点云数据输入步骤S110:
输入室内三维点云数据的原始点云数据,每个室内点云包括数百万个点,每个点包括XYZRGB六个通道,前三维为空间特征,后三维为颜色特征,在训练与测试过程中,每次迭代计算过程中,输入点云F_initial,其维度为[B,N,6],其中B为批次(batch),N为点数目,6为XYZRGB特征,输入特征总数为B*N*6;
点云编码步骤S120:
对于输入点云F_initial首先进行全连接层操作,进行特征变换,得到点云特征F_full,维度为[B,N,8],对于全连接层得到的点云特征F_full进行逐层下采样获得采样后特征F_sample,对于每层下采样得到的点云特征F_sample,都进行一次双重扩张残差处理,然后输出编码后的特征F_encode;
其中,所述双重扩张残差处理具体为:
输入特征F_sample,经过扩张率为1的扩张聚合处理,得到扩张聚合特征F1,与此同时, F_sample通过共享MLP进行特征变换得到特征F2,将特征F1与特征F2进行加和,得到第一次残差连接后特征F3,然后对于特征F3再进行扩张率为2的扩张聚合处理得到特征F4,并对于第一次残差连接后特征F3同样进行共享MLP操作得到特征F5,然后将F4和F5加和,得到二次残差连接后特征F6,然后将该特征与由F_sample经过共享MLP处理的输入特征F7再进行加和得到特征F8,最后经过激活函数LeakyReLU,LeakyReLU的公式如下:
Figure 391842DEST_PATH_IMAGE001
(1)
经过激活函数后得到的特征即为F_encode;
点云解码步骤S130:
对于步骤S120编码的高维点云特征进行逐层上采样,恢复原始点云密度;
点云分割结果输出步骤S140:
对于步骤S130中最后一层的解码结果F_decode,进行全连接层处理,通过全连接层将F_decode变换为F_class,其中,F_decode的维度为[N,8],F_class的维度为[N,13],F_class中每个点的13个通道值代表每个点属于13个类别的概率值,将最大概率值对应的标签作为该点的结果标签,并对每种标签赋予一种颜色,最后按照N个点的顺序,将F_initial每个点的XYZ值与计算得到的标签值,以及标签值对应的RGB值(颜色)进行一一对应组合得到分割结果点云F_final,其中F_initial的维度为[N,6],F_final的维度为[N,7],F_final包括7个通道,分别是空间特征XYZ,与标签对应的颜色特征RGB,以及标签值。
可选的,在步骤S130中,所述扩张聚合处理具体为:
设定扩张率为k,输入颜色特征P_feature,输入特征的维度为[N,d_in],然后对P_ feature进行扩张卷积处理得到扩张后的颜色特征P1,P1的维度为[N,d_in],P1中的点为
Figure 604255DEST_PATH_IMAGE002
,其中i<N;
同时对点坐标P_xyz进行局部全连接图特征聚合处理,得到P2,然后将P1,P2进行颜色特征及高维特征增强融合,融合方法如公式(5)所示:
Figure 164419DEST_PATH_IMAGE003
(5)
其中
Figure 887524DEST_PATH_IMAGE004
为融合后强化特征,
Figure 905158DEST_PATH_IMAGE002
为扩张后的颜色特征,
Figure 806249DEST_PATH_IMAGE002
∈P1,
Figure 135600DEST_PATH_IMAGE005
为空间编码特征,
Figure 917523DEST_PATH_IMAGE005
∈P2,
Figure 914298DEST_PATH_IMAGE006
代表将向量按照最后一维拼接,通过上述公式,将
Figure 110924DEST_PATH_IMAGE004
按照
Figure 209461DEST_PATH_IMAGE002
在P1的顺序组合成 增强特征P3,维度为[N,2*d_in];
对于增强特征P3,进行注意力池化操作,得到注意力池化后的点特征
Figure 274369DEST_PATH_IMAGE007
,然后将
Figure 266596DEST_PATH_IMAGE007
按照
Figure 273604DEST_PATH_IMAGE004
在P3的顺序组合成特征P4,维度为[N,d_out/2],对于注意力池化后的特征P4,将再 次进行扩张卷积操作,得到特征P5,维度为[N,d_out/2],对于点坐标P_xyz进行局部全连接 图特征聚合得到特征P6,维度为[N,d_out/2],然后将P5,P6利用公式(5)进行色彩特征及高 维特征增强融合得到P7,维度为[N,d_out],再对P7进行注意力池化从而得到输出特征P_ out,P_out维度为[N,d_out]。
可选的,在所述扩张聚合处理中,局部全连接图特征聚合具体为:
首先使用KNN算法对P_xyz中每个点
Figure 984071DEST_PATH_IMAGE008
的邻域进行分析,其中i<N,将每个点作为 中心点并获得中心点的邻域点信息,邻域点获取方法根据扩张率变化而变化;
将每个邻域点到其他邻域点的向量,欧氏距离以及目标点坐标进行串联,如公式(1),(2),(3)所示
Figure 587090DEST_PATH_IMAGE009
(1)
Figure 574769DEST_PATH_IMAGE011
(2)
Figure 113198DEST_PATH_IMAGE012
(3)
Figure 435595DEST_PATH_IMAGE013
(4)
其中
Figure 983251DEST_PATH_IMAGE008
是中心点空间信息,
Figure 58392DEST_PATH_IMAGE014
是第K个邻域点空间信息,K = 1,2,3…K,K代表邻 域点的个数,
Figure 423514DEST_PATH_IMAGE015
代表将向量按照最后一维拼接,
Figure 577415DEST_PATH_IMAGE016
代表求取欧氏距离,MLP代表多层感知 器,
Figure 538549DEST_PATH_IMAGE017
代表邻域点向量信息编码,
Figure 484508DEST_PATH_IMAGE018
代表邻域点欧氏距离信息编码,
Figure 630319DEST_PATH_IMAGE019
代表第k个邻域点 空间信息编码结果,
Figure 910996DEST_PATH_IMAGE020
代表中心点空间信息编码结果;
通过上述公式,由
Figure 800455DEST_PATH_IMAGE008
得到邻域空间信息编码结果
Figure 866500DEST_PATH_IMAGE020
,然后将
Figure 58578DEST_PATH_IMAGE020
按照
Figure 452650DEST_PATH_IMAGE008
在P_xyz的 顺序组合成新的特征,维度为[N,d_in]。
可选的,在所述扩展聚合处理中,注意力池化的具体为:
对于输入点中每个点特征
Figure 4854DEST_PATH_IMAGE021
,都由K个邻域特征组成,如下列公式所示
Figure 535193DEST_PATH_IMAGE022
K = 1,2,3…K,K代表邻域点的个数
对于每个邻域特征
Figure 679865DEST_PATH_IMAGE023
,使用MLP以及softmax函数组合成的函数
Figure 561233DEST_PATH_IMAGE024
对其进行评 价,从而获得其注意力权重
Figure 917128DEST_PATH_IMAGE025
,如公式(6)所示:
Figure 442918DEST_PATH_IMAGE026
(6)
最后将每个邻域强化特征与其对应的注意力权重加权求和,即得到使用注意力池 化方法聚合的特征
Figure 835853DEST_PATH_IMAGE027
,如公式(7)所示:
Figure 329152DEST_PATH_IMAGE028
(7)
K = 1,2,3…K,K代表邻域点的个数,
通过上述公式,得到注意力池化后的点特征
Figure 364104DEST_PATH_IMAGE027
,然后将
Figure 242936DEST_PATH_IMAGE027
按照
Figure 196985DEST_PATH_IMAGE021
在输入点的顺序 组合成输出特征,维度为[N,d_out/2]。
可选的,在步骤S120中,下采样的层数为5层。
可选的,在步骤S120中,所述下采样为随机下采样,和/或,
Figure 52946DEST_PATH_IMAGE029
的值为0.01。
可选的,在步骤S130中,上采样的层数为5层。
可选的,所述上采样为最邻近点采样方法。
可选的,在步骤S140中,为每个标签赋予特征的RGB值。
综上,本发明具有如下的优点:
(1)提出了一种高效准确的室内点云语义分割网络。使得点云的语义分割更为快速准确,分割性能优于相关网络;
(2)提出局部全连接图编码方法,使得网络能够更完整的学习局部上下文特征,对于规则分布目标以及大目标具有很好的分割效果;
(3)使用双重扩张残差模块,在进一步扩大感受野的同时,有效缓解网络传播过程中的过度平滑以及梯度消失问题,有效缓解数据集样本不平衡问题,增强小样本物体点云语义分割精度。
附图说明
图1 是根据本发明具体实施例的基于全连接图编码及双重扩张残差的点云语义分割方法的流程图;
图2是根据本发明具体实施例的基于全连接图编码及双重扩张残差的点云语义分割的处理流程图;
图3是根据本发明具体实施例的双重扩张残差模块的处理示意图;
图4是根据本发明具体实施例的扩展聚合块的处理示意图;
图5是根据本发明具体实施例的局部全连接图的示意图;
图6是根据本发明具体实施例的定性分割后的处理示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明对于适用的术语进行如下解释:
共享MLP:通过卷积方法实现,具体参见Charles R. Qi的论文《PointNet:DeepLearning on Point Sets for 3D Classification and Segmentation》中关于sharedMLP(共享MLP)的实现过程。
扩张卷积(Dilated Convolution):也被称为空洞卷积或者膨胀卷积,是在标准的卷积核中注入空洞,以此来增加模型的感受野。相比原来的正常卷积操作,扩张卷积多了一个参数:扩张率,指的是卷积核的点的间隔数量。在三维中则是邻域点的间隔,三维的扩张卷积引用自文献DeepGCNs:Making GCNs Go as Deep as CNNs。
MLP代表多层感知器,为本领域现有技术,即输入的特征会连接到隐层的神经元,隐层的神经元再连接到输入层的神经元。在多层感知器层与层之间是全连接的。
残差处理,通过跳层连接,减少网络平滑和过拟合,具体参见Kaiming He提出的《Deep Residual Learning for Image Recognition》。
本发明主要在于:首先输入原始点云,然后进行编码,在编码阶段,首先进行逐层下采样,针对局部点云语义信息描述不完整问题,使用递进的双重扩张残差模块不断扩大感受野获得更好的局部上下文信息,提取点云高维特征,在双重扩张残差模块之中,使用局部全连接图特征聚合的方法确保局部邻域特征能够获得完整编码。随着网络递进,每层网络使用下采样模块对点云进行相应尺度的采样;在解码阶段,通过上采样模块逐层恢复原始点云密度,并在最后一层编码层使用全连接层进行特征维度转换。最后输出语义分割结果点云,结果点云包括七个维度XYZRGB以及标签。其中每个类别的点RGB相同,且具有相同的标签。
参见图1、图2分别示出了根据本发明具体实施例的基于全连接图编码及双重扩张残差的点云语义分割方法的流程图以及处理示例;
该方法包括如下步骤:
原始点云数据输入步骤S110:
输入室内三维点云数据的原始点云数据,每个室内点云包括数百万个点,每个点包括XYZRGB六个通道,前三维为空间特征,后三维为颜色特征,在训练与测试过程中,每次迭代计算过程中,输入点云F_initial,其维度为[B,N,6],其中B为批次(batch),N为点数目,6为XYZRGB特征,输入特征总数为B*N*6。
点云编码步骤S120:
对于输入点云F_initial首先进行全连接层操作,进行特征变换,得到点云特征F_full,维度为[B,N,8],对于全连接层得到的点云特征F_full进行逐层下采样获得采样后特征F_sample,对于每层下采样得到的点云特征F_sample,都进行一次双重扩张残差处理,然后输出编码后的特征F_encode。
所述双重扩张残差处理能够通过诸如双重扩张残差处理模块来实现,具体步骤如图3所示:
输入特征F_sample,经过扩张率为1的扩张聚合处理,得到扩张聚合特征F1,与此同时, F_sample通过共享MLP进行特征变换得到特征F2,将特征F1与特征F2进行加和,得到第一次残差连接后特征F3,然后对于特征F3再进行扩张率为2的扩张聚合处理得到特征F4,并对于第一次残差连接后特征F3同样进行共享MLP操作得到特征F5,然后将F4和F5加和,得到二次残差连接后特征F6,然后将该特征与由F_sample经过共享MLP处理的输入特征F7再进行加和得到特征F8,最后经过激活函数LeakyReLU,LeakyReLU的公式如下:
Figure 501376DEST_PATH_IMAGE030
(1)
通常
Figure 719868DEST_PATH_IMAGE031
的值为0.01左右,
经过激活函数后得到的特征即为F_encode。
在该步骤中,共享MLP的操作可以通过卷积方法实现,具体为:对于输入的特征F_sample,首先扩充维度为[N,d_in,1],然后执行卷积,卷积核大小为[1, d_in, 1, d_out],得到F1’,F1’特征维度为 [N, 1, d_out],再执行卷积,卷积核大小为[1,1,d_out, d_out],得到最终变换特征F2,这样做的好处是大大减少了参数的使用。
在本发明中,所述下采样为随机下采样以减少点云特征密度,提高编码维度。
该步骤中的,所述全连接层为深度学习中的操作,相当于矩阵运算,在本发明中,矩阵维度为[B,N,6,8]。
输入特征F_sample维度为[B,N,d_in],F1,F2,F3,F4,F5,F6,F7,F8,F_encode维度均为[B,N,d_out]。
进一步的,参见图4,示出了根据本发明具体实施例的扩展聚合处理的过程,能够通过诸如扩展聚合模块来实现。
对于扩张率为k的扩张聚合处理,具体包括:输入颜色特征P_feature,输入特征的 维度为[N,d_in], 然后对P_feature进行扩张卷积处理得到扩张后的颜色特征P1,P1的维 度为[N,d_in],P1中的点为
Figure 720185DEST_PATH_IMAGE032
,其中i<N。本发明中扩张卷积的作用为改变获取邻域点的方 法,即搜索不同范围的邻域。比如将要搜索的邻域点数设定为5,按照距离从近到远给邻域 点编号为x1,x2,x3,x4,x5,x6,x7,x8,x9,x10.一阶邻域点则为x1,x2,x3,x4,x5。二阶邻域 点为x2,x4,x6,x8,x10,依此类推。
同时对点坐标P_xyz(即点数为N,只包含原始xyz三个坐标维度)进行局部全连接图特征聚合(local fully connect graph encoding)处理,得到P2,然后将P1,P2进行颜色特征及高维特征增强, RGB信息能为分割提供重要线索,本发明将局部全连接图编码特征P2与扩张后的颜色特征信息P1融合,以组成新的强化特征,从而进一步增强不同类别点云区分度,融合方法如公式(5)所示:
Figure 906184DEST_PATH_IMAGE033
(5)
其中
Figure 673152DEST_PATH_IMAGE021
为融合后强化特征,
Figure 887096DEST_PATH_IMAGE032
为扩张后的颜色特征,
Figure 199259DEST_PATH_IMAGE032
∈P1,
Figure 623287DEST_PATH_IMAGE020
为空间编码特征,
Figure 646476DEST_PATH_IMAGE020
∈P2,
Figure 714926DEST_PATH_IMAGE034
代表将向量按照最后一维拼接,通过上述公式,将
Figure 447259DEST_PATH_IMAGE021
按照
Figure 109315DEST_PATH_IMAGE032
在P1的顺序组合成 增强特征P3,维度为[N,2*d_in];
对于增强特征P3,进行注意力池化操作,得到注意力池化后的点特征
Figure 827873DEST_PATH_IMAGE027
,然后将
Figure 141042DEST_PATH_IMAGE027
按照
Figure 919643DEST_PATH_IMAGE021
在P3的顺序组合成特征P4,维度为[N,d_out/2],对于注意力池化后的特征P4,将再 次进行扩张卷积操作,得到特征P5,维度为[N,d_out/2],对于点坐标P_xyz进行局部全连接 图特征聚合得到特征P6,维度为[N,d_out/2],然后将P5,P6利用公式(5)进行色彩特征及高 维特征增强融合得到P7,维度为[N,d_out],再对P7进行注意力池化从而得到输出特征P_ out,P_out维度为[N,d_out]。
其中,在本步骤中,局部全连接图特征聚合(local fully connect graphencoding)参见图5,具体步骤如下:
首先使用KNN算法对P_xyz中每个点
Figure 573390DEST_PATH_IMAGE008
的邻域进行分析,其中i<N,将每个点作为 中心点并获得中心点的邻域点信息,邻域点获取方法根据扩张率变化而变化。KNN算法作为 最常用的聚类算法,可以获得在欧氏距离上距离目标点最近的K个点的特征信息。对于目标 点的每个邻域点,为了获得更加全面的编码信息,本发明赋予其相等的重要性以构建图结 构编码,如图5所示,图中黑色填充点为中心点,斜线填充点为邻域内的点,无色填充点为邻 域外的点,除了将中心点与邻域点相对位置考虑在内,还将邻域点间的相对位置考虑在内。
将每个邻域点到其他邻域点的向量,欧氏距离以及目标点坐标进行串联,如公式(1),(2),(3)所示
Figure 954693DEST_PATH_IMAGE036
(1)
Figure 263314DEST_PATH_IMAGE038
(2)
Figure 822603DEST_PATH_IMAGE039
(3)
Figure 708519DEST_PATH_IMAGE040
(4)
其中
Figure 768879DEST_PATH_IMAGE008
是中心点空间信息,
Figure 305908DEST_PATH_IMAGE014
是第K个邻域点空间信息,K = 1,2,3…K,K代表邻 域点的个数,
Figure 19786DEST_PATH_IMAGE034
代表将向量按照最后一维拼接,
Figure 143731DEST_PATH_IMAGE016
代表求取欧氏距离,MLP代表多层感 知器,
Figure 742203DEST_PATH_IMAGE017
代表邻域点向量信息编码,
Figure 884471DEST_PATH_IMAGE018
代表邻域点欧氏距离信息编码,
Figure 441355DEST_PATH_IMAGE019
代表第k个邻域 点空间信息编码结果,
Figure 285552DEST_PATH_IMAGE020
代表中心点空间信息编码结果。
通过上述公式,由
Figure 77927DEST_PATH_IMAGE008
得到邻域空间信息编码结果
Figure 684489DEST_PATH_IMAGE020
,然后将
Figure 22061DEST_PATH_IMAGE020
按照
Figure 369865DEST_PATH_IMAGE008
在P_xyz的 顺序组合成特征,例如P2或者P6,维度为[N,d_in]。
在本步骤中,注意力池化的具体为:
以输入点P3为例,对于输入点P3中每个点特征
Figure 310139DEST_PATH_IMAGE021
,都由K个邻域特征组成,如下列 公式所示
Figure 676268DEST_PATH_IMAGE041
K = 1,2,3…K,K代表邻域点的个数
对于每个邻域特征
Figure 434008DEST_PATH_IMAGE023
,使用MLP以及softmax函数组合成的函数
Figure 613317DEST_PATH_IMAGE024
对其进行评 价,从而获得其注意力权重
Figure 498227DEST_PATH_IMAGE025
,如公式(6)所示:
Figure 610540DEST_PATH_IMAGE042
(6)
最后将每个邻域强化特征与其对应的注意力权重加权求和,即得到使用注意力池 化方法聚合的特征
Figure 539181DEST_PATH_IMAGE027
,如公式(7)所示。
Figure 777090DEST_PATH_IMAGE043
(7)
K = 1,2,3…K,K代表邻域点的个数,
通过上述公式,得到注意力池化后的点特征
Figure 324746DEST_PATH_IMAGE027
,然后将
Figure 399888DEST_PATH_IMAGE027
按照
Figure 374797DEST_PATH_IMAGE021
在输入点P3的顺 序组合成输出特征P4,维度为[N,d_out/2]。
点云解码步骤S130:
对于步骤S120编码的高维点云特征进行逐层上采样,恢复原始点云密度。
具体的,上采样方法使用的是最邻近点采样方法。
以5层采样为例,输入最后一层下采样的F_encode,维度为[N/512,512],后总共经过五层上采样,采样比率分别为[2,4,4,4,4],点数由N/512逐级恢复至N,通过MLP将每个点维度逐级从512降至8,得到最后一层的解码结果F_decode,维度为[N,8]。
点云分割结果输出步骤S140:
对于步骤S130中最后一层的解码结果F_decode,根据要分割的类别数量,进行一次全连接层(fully connected layers)处理,通过全连接层将F_decode(维度为[N,8])变换为F_class(维度为[N,13]),F_class中每个点的13个通道值代表每个点属于13个类别的概率值,将最大概率值对应的标签(即类别)作为该点的结果标签,并为了方便可视化,对每种标签赋予一种颜色,最后按照N个点的顺序,将F_initial每个点的XYZ值与计算得到的标签值,以及标签值对应的RGB值进行一一对应组合得到分割结果点云F_final。
原始的F_initial(维度为[N,6])输出分割结果点云F_final(维度为[N,7]),F_final包括7个通道,分别是空间特征XYZ,与标签对应的颜色特征RGB,以及标签值。
实施例:
ScanNet是一个RGB-D视频数据集,包含1500多次扫描,并带有3D相机姿势、表面重建和实例级语义分割的注释,发明使用其中的点云数据进行实验,在Scannet数据集中本发明和Pointnet++类似,使用1503个场景中的后1201个场景作为训练集,余下的前302个场景作为测试集。
表1:定性分割结果
Figure 184490DEST_PATH_IMAGE045
参见表1,Scannet数据集上收集了本发明所提出的室内语义分割方法性能指标,并与Pointnet++网络以及RandLA-Net网络进行了比较,可以看出本发明的平均mIoU相较于Pointnet++提升了30.2%,相较于RandLA-Net提升了2.2%。图6则显示了本发明的方法在Scannet上的语义分割可视化结果,其中Input代表实际场景点云,Ground_Truth代表真值,即完全分割正确的结果,不同类别的点赋予不同颜色,Ours代表本发明公开的方法的分割结果。
可以看出本发明公开的方法对于室内结构化物体的分割结果准确度非常高,接近于真实值。
通过表1以及图6的定量定性结果表明,本发明的点云语义分割方法显著提高了分割精度。
综上,本发明具有如下的优点:
(1)提出了一种高效准确的室内点云语义分割网络。使得点云的语义分割更为快速准确,分割性能优于相关网络;
(2)提出局部全连接图编码方法,使得网络能够更完整的学习局部上下文特征,对于规则分布目标以及大目标具有很好的分割效果;
(3)使用双重扩张残差模块,在进一步扩大感受野的同时,有效缓解网络传播过程中的过度平滑以及梯度消失问题,有效缓解数据集样本不平衡问题,增强小样本物体点云语义分割精度。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (9)

1.基于全连接图编码及双重扩张残差的点云语义分割方法,其特征在于,包括如下步骤:
原始点云数据输入步骤S110:
输入室内三维点云数据的原始点云数据,每个室内点云包括数百万个点,每个点包括XYZRGB六个通道,前三维为空间特征,后三维为颜色特征,在训练与测试过程中,每次迭代计算过程中,输入点云F_initial,其维度为[B,N,6],其中B为批次,N为点数目,6为XYZRGB特征,输入特征总数为B*N*6;
点云编码步骤S120:
对于输入点云F_initial首先进行全连接层操作,进行特征变换,得到点云特征F_full,维度为[B,N,8],对于全连接层得到的点云特征F_full进行逐层下采样获得采样后特征F_sample,对于每层下采样得到的点云特征F_sample,都进行一次双重扩张残差处理,然后输出编码后的特征F_encode;
其中,所述双重扩张残差处理具体为:
输入特征F_sample,经过扩张率为1的扩张聚合处理,得到扩张聚合特征F1,与此同时,F_sample通过共享MLP进行特征变换得到特征F2,将特征F1与特征F2进行加和,得到第一次残差连接后特征F3,然后对于特征F3再进行扩张率为2的扩张聚合处理得到特征F4,并对于第一次残差连接后特征F3同样进行共享MLP操作得到特征F5,然后将F4和F5加和,得到二次残差连接后特征F6,然后将该特征与由F_sample经过共享MLP处理的输入特征F7再进行加和得到特征F8,最后经过激活函数LeakyReLU,LeakyReLU的公式如下:
Figure DEST_PATH_IMAGE001
(1)
经过激活函数后得到的特征即为F_encode;
点云解码步骤S130:
对于步骤S120编码的高维点云特征进行逐层上采样,恢复原始点云密度;
点云分割结果输出步骤S140:
对于步骤S130中最后一层的解码结果F_decode,进行全连接层处理,通过全连接层将F_decode变换为F_class,其中,F_decode的维度为[N,8],F_class的维度为[N,13],F_class中每个点的13个通道值代表每个点属于13个类别的概率值,将最大概率值对应的标签作为该点的结果标签,并对每种标签赋予一种颜色,最后按照N个点的顺序,将F_initial每个点的XYZ值与计算得到的标签值,以及标签值对应的RGB值进行一一对应组合得到分割结果点云F_final,其中F_initial的维度为[N,6],F_final的维度为[N,7],F_final包括7个通道,分别是空间特征XYZ,与标签对应的颜色特征RGB,以及标签值。
2.根据权利要求1所述的点云语义分割方法,其特征在于,
在步骤S130中,所述扩张聚合处理具体为:
设定扩张率为k,输入颜色特征P_feature,输入特征的维度为[N,d_in],然后对P_ feature进行扩张卷积处理得到扩张后的颜色特征P1,P1的维度为[N,d_in],P1中的点为
Figure 779415DEST_PATH_IMAGE002
,其中i<N;
同时对点坐标P_xyz进行局部全连接图特征聚合处理,得到P2,然后将P1,P2进行颜色特征及高维特征增强融合,融合方法如公式(5)所示:
Figure DEST_PATH_IMAGE003
(5)
其中
Figure 165397DEST_PATH_IMAGE004
为融合后强化特征,
Figure 148397DEST_PATH_IMAGE002
为扩张后的颜色特征,
Figure 809185DEST_PATH_IMAGE002
∈P1,
Figure DEST_PATH_IMAGE005
为空间编码特征,
Figure 92399DEST_PATH_IMAGE005
∈ P2,
Figure 118124DEST_PATH_IMAGE006
代表将向量按照最后一维拼接,通过上述公式,将
Figure 650736DEST_PATH_IMAGE004
按照
Figure 52899DEST_PATH_IMAGE002
在P1的顺序组合成增强特 征P3,维度为[N,2*d_in];
对于增强特征P3,进行注意力池化操作,得到注意力池化后的点特征
Figure DEST_PATH_IMAGE007
,然后将
Figure 190619DEST_PATH_IMAGE007
按照
Figure 449562DEST_PATH_IMAGE004
在P3的顺序组合成特征P4,维度为[N,d_out/2],对于注意力池化后的特征P4,将再次进 行扩张卷积操作,得到特征P5,维度为[N,d_out/2],对于点坐标P_xyz进行局部全连接图特 征聚合得到特征P6,维度为[N,d_out/2],然后将P5,P6利用公式(5)进行色彩特征及高维特 征增强融合得到P7,维度为[N,d_out],再对P7进行注意力池化从而得到输出特征P_out,P_ out维度为[N,d_out]。
3.根据权利要求2所述的点云语义分割方法,其特征在于,
在所述扩张聚合处理中,局部全连接图特征聚合具体为:
首先使用KNN算法对P_xyz中每个点
Figure 905689DEST_PATH_IMAGE008
的邻域进行分析,其中i<N,将每个点作为中心 点并获得中心点的邻域点信息,邻域点获取方法根据扩张率变化而变化;
将每个邻域点到其他邻域点的向量,欧氏距离以及目标点坐标进行串联,如公式(1),(2),(3)所示
Figure DEST_PATH_IMAGE009
(1)
Figure 111542DEST_PATH_IMAGE010
(2)
Figure DEST_PATH_IMAGE011
(3)
Figure 103769DEST_PATH_IMAGE012
(4)
其中
Figure 799193DEST_PATH_IMAGE008
是中心点空间信息,
Figure DEST_PATH_IMAGE013
是第
Figure 509660DEST_PATH_IMAGE014
个邻域点空间信息,
Figure 784783DEST_PATH_IMAGE014
= 1,2,3…K,K代表邻域点 的个数,
Figure DEST_PATH_IMAGE015
代表将向量按照最后一维拼接,
Figure 897096DEST_PATH_IMAGE016
代表求取欧氏距离,MLP代表多层感知器,
Figure DEST_PATH_IMAGE017
代表邻域点向量信息编码,
Figure 701104DEST_PATH_IMAGE018
代表邻域点欧氏距离信息编码,
Figure DEST_PATH_IMAGE019
代表第k个邻域点空间 信息编码结果,
Figure 102129DEST_PATH_IMAGE020
代表中心点空间信息编码结果;
通过上述公式,由
Figure DEST_PATH_IMAGE021
得到邻域空间信息编码结果
Figure 148320DEST_PATH_IMAGE020
,然后将
Figure 911877DEST_PATH_IMAGE020
按照
Figure 886786DEST_PATH_IMAGE021
在P_xyz的顺序组 合成新的特征,维度为[N,d_in]。
4.根据权利要求2所述的点云语义分割方法,其特征在于,
在所述扩展聚合处理中,注意力池化的具体为:
对于输入点中每个点特征
Figure 103004DEST_PATH_IMAGE022
,都由K个邻域特征组成,如下列公式所示
Figure DEST_PATH_IMAGE023
Figure 188772DEST_PATH_IMAGE024
= 1,2,3…K,K代表邻域点的个数
对于每个邻域特征
Figure DEST_PATH_IMAGE025
,使用MLP以及softmax函数组合成的函数
Figure 10097DEST_PATH_IMAGE026
对其进行评价,从 而获得其注意力权重
Figure DEST_PATH_IMAGE027
,如公式(6)所示:
Figure 421487DEST_PATH_IMAGE028
(6)
最后将每个邻域强化特征与其对应的注意力权重加权求和,即得到使用注意力池化方 法聚合的特征
Figure 125001DEST_PATH_IMAGE007
,如公式(7)所示:
Figure DEST_PATH_IMAGE029
(7)
Figure 14459DEST_PATH_IMAGE030
= 1,2,3…K,K代表邻域点的个数,
通过上述公式,得到注意力池化后的点特征
Figure DEST_PATH_IMAGE031
,然后将
Figure 955871DEST_PATH_IMAGE031
按照
Figure 272582DEST_PATH_IMAGE032
在输入点的顺序组合成 输出特征,维度为[N,d_out/2]。
5.根据权利要求3或4所述的点云语义分割方法,其特征在于,
在步骤S120中,下采样的层数为5层。
6.根据权利要求5所述的点云语义分割方法,其特征在于,
在步骤S120中,所述下采样为随机下采样,和/或,
Figure DEST_PATH_IMAGE033
的值为0.01。
7.根据权利要求5所述的点云语义分割方法,其特征在于,
在步骤S130中,上采样的层数为5层。
8.根据权利要求7所述的点云语义分割方法,其特征在于,
所述上采样为最邻近点采样方法。
9.根据权利要求5所述的点云语义分割方法,其特征在于,
在步骤S140中,为每个标签赋予特征的RGB值。
CN202211384104.8A 2022-11-07 2022-11-07 基于全连接图编码及双重扩张残差的点云语义分割方法 Active CN115496910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211384104.8A CN115496910B (zh) 2022-11-07 2022-11-07 基于全连接图编码及双重扩张残差的点云语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211384104.8A CN115496910B (zh) 2022-11-07 2022-11-07 基于全连接图编码及双重扩张残差的点云语义分割方法

Publications (2)

Publication Number Publication Date
CN115496910A true CN115496910A (zh) 2022-12-20
CN115496910B CN115496910B (zh) 2023-04-07

Family

ID=85116045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211384104.8A Active CN115496910B (zh) 2022-11-07 2022-11-07 基于全连接图编码及双重扩张残差的点云语义分割方法

Country Status (1)

Country Link
CN (1) CN115496910B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027559A (zh) * 2019-10-31 2020-04-17 湖南大学 一种基于扩张点卷积空间金字塔池化的点云语义分割方法
CN113392841A (zh) * 2021-06-03 2021-09-14 电子科技大学 一种基于多特征信息增强编码的三维点云语义分割方法
WO2021203807A1 (zh) * 2020-04-09 2021-10-14 中山大学 一种基于多源数据知识迁移的三维物体检测框架
CN114463677A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种基于全局注意力的安全帽配戴检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027559A (zh) * 2019-10-31 2020-04-17 湖南大学 一种基于扩张点卷积空间金字塔池化的点云语义分割方法
WO2021203807A1 (zh) * 2020-04-09 2021-10-14 中山大学 一种基于多源数据知识迁移的三维物体检测框架
CN113392841A (zh) * 2021-06-03 2021-09-14 电子科技大学 一种基于多特征信息增强编码的三维点云语义分割方法
CN114463677A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种基于全局注意力的安全帽配戴检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHARLES R.1I ET AL.: "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation", 《30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017)》 *
ROHAN CHABRA ET AL.: "StereoDRNet:Dilated Residual Stereo Net", 《ARXIV》 *
曲长波等: "空洞卷积的多尺度语义分割网络", 《计算机工程与应用》 *
石壮 等: "虚拟格网分类支持下的密集匹配点云布料模拟滤波", 《测绘通报》 *

Also Published As

Publication number Publication date
CN115496910B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN110738697A (zh) 基于深度学习的单目深度估计方法
CN111259904B (zh) 一种基于深度学习和聚类的语义图像分割方法及系统
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN113362242B (zh) 基于多特征融合网络的图像修复方法
CN115482382A (zh) 一种基于Transformer架构的图像语义分割方法
CN114862731B (zh) 低秩先验与空谱信息引导的多-高光谱影像融合方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
CN113076947A (zh) 一种交叉引导融合的rgb-t图像显著性检测系统
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
Cheng et al. A survey on image semantic segmentation using deep learning techniques
CN116188435B (zh) 一种基于模糊逻辑的医学图像深度分割方法
CN115496910B (zh) 基于全连接图编码及双重扩张残差的点云语义分割方法
CN115330601A (zh) 一种多尺度文物点云超分辨率方法及系统
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络
CN114022521A (zh) 一种非刚性多模医学图像的配准方法及系统
CN114494284A (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115909045B (zh) 一种基于对比学习的two-stage滑坡图谱特征智能识别方法
Zhang et al. Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection
CN116188451A (zh) 一种具有混合编码器的高效皮肤病变分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant