CN115512100A - 基于多尺度特征提取与融合的点云分割方法、装置及介质 - Google Patents

基于多尺度特征提取与融合的点云分割方法、装置及介质 Download PDF

Info

Publication number
CN115512100A
CN115512100A CN202210698555.2A CN202210698555A CN115512100A CN 115512100 A CN115512100 A CN 115512100A CN 202210698555 A CN202210698555 A CN 202210698555A CN 115512100 A CN115512100 A CN 115512100A
Authority
CN
China
Prior art keywords
scale
feature
features
fusion
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210698555.2A
Other languages
English (en)
Inventor
曹杰
姜磊
郝群
王盈淇
黄雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210698555.2A priority Critical patent/CN115512100A/zh
Publication of CN115512100A publication Critical patent/CN115512100A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于多尺度特征提取与融合的点云分割方法、装置及介质,所述方法包括对获取的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,得到四个不同尺度的特征图输出,并进行融合得到输出特征,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图;对原始的特征图和自适应特征选择后的特征图进行一次加权相加,根据预设的加权系数,将加权相加结果作为最终输出。本发明通过改进传统语义分割与深度学习方法,可以快速准确地完成多目标复杂场景下的物体点云分割问题。

Description

基于多尺度特征提取与融合的点云分割方法、装置及介质
技术领域
本发明属于三维点云领域,涉及一种对于三维点云进行语义分割处理的解决方案,尤其涉及一种基于多尺度特征提取与融合的点云分割方法、装置及介质。
背景技术
随着三维传感器的迭代与三维数据处理算法的发展进步,在室内外获取高质量点云数据变得快捷高效。点云数据在各种现实应用中扮演着重要的角色,从自动驾驶到增强现实(AR),通过对点云数据进行处理,可以更好的感知环境信息。处理点云数据的关键任务之一是对点云进行语义分割,它可以促进自动驾驶汽车或AR应用与现实物理世界的交互,研究三维点云语义分割对于智慧城市、建立高精地图、自动驾驶、机器人等研究方向都有着重大意义。
目前的点云语义分割方法主要可以分为四大类:基于点的方法、基于体素的方法、基于投影的方法以及基于混合表示的方法。基于点的方法大多可以看作是PointNet和PointNet++的扩展,在处理大规模的室外点云时,为减少计算成本,通常采用最远采样法对一些关键点进行采样,然后对给定邻域内的点进行一系列变式点卷积操作,根据PointNet架构提取全局和局部上下文信息。然而,这种方法有两个主要缺点。首先,这些工作的性能在一定程度上受到最远采样程序的限制;其次,这些方法大多依赖于k近邻搜索来维持每帧点之间的局部关系,提高了时间复杂度。基于体素的方法最大的优点之一是可以保持点云的物理性质,并应用标准的卷积层,然而体素化后的点云本身就具有稀疏性,非空栅格只占据很少的一部分,使用稠密卷积对离散化后的点云数据进行处理效率低下。基于投影的方法主要包括深度图像和球面投影在内的前视图表示。这种数据组织规则、结构化的表示方式,可以直接应用一系列标准的卷积层和二维分割骨干来实现效率和精度的平衡。但是,这些方法的性能与投影分辨率和复杂的后处理阶段密切相关,增加了额外的计算成本。为了提高点云分割质量,出现了学习多模态特征的点云分割方法,基于混合表示的方法都强调了表示集成和融合的重要性,同时利用体素特征学习和点特征学习的方法在非常高的运行效率下提高分割性能。
发明内容
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种基于多尺度特征提取与融合的点云分割方法、装置及介质,应用多尺度稀疏卷积的特征提取和基于通道注意力的特征选择,基于两个模块构建一个点云分割网络框架。所述的语义分割方法通过引入多尺度特征提取稀疏卷积,应用不同大小的卷积核来捕获点云的特征信息,因而具有计算效率高、计算量小、可解释性高、分割精度高等优点。
根据本发明的第一方案,提供了一种基于多尺度特征提取与融合的点云分割方法,所述方法包括:
对获取的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,得到四个不同尺度的特征图输出,分别为x0,x1,x2,x3
将小尺度、中尺度、大尺度的特征图输出拼接在一起,送入Softmax激活函数,得到拼接后的特征图为:
Ucat=cat(U1,U2,U3) (2)
式中,Ucat∈RN×3,R代表域,N代表点数,3为特征维数,其中获得的不同尺度代表的注意力权重表示为:
S=softmax(Ucat) (3)
将不同尺度的特征根据S∈RN×3进行元素相加,从而获取融合后的多尺度特征;将融合后的多尺度特征与经点级别的卷积核所捕获到的特征进行元素相加,得到一个新的拼接特征,再将新的拼接特征进行一次卷积操作,得到不同尺度特征提取后根据权重自选择融合输出特征O:
O=Conv{x0+x1×S[:,0]+x2×S[:,1]+x3×S[:,2]} (4)
基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图;
对原始的特征图和自适应特征选择后的特征图进行一次加权相加,根据预设的加权系数,将加权相加结果作为最终输出。
进一步,所述小尺度卷积核设置为1*1*1,中尺度卷积核设置为2*2*2,大尺度卷积核设置为4*4*4,所述点级别的卷积核设置为子流形卷积,所述子流形卷积的卷积核大小为1,设置卷积步长为1。
进一步,所述方法还包括:
将小、中、大尺度的特征图输出x1,x2,x3作为多尺度特征提取模块的输出传递给后续的特征融合模块,为避免将不同尺度特征采用相同权重,将大尺度、中尺度、小尺度的特征进行相加得到中间特征图X,然后使用三个不同的多层感知器对中间特征图X进行变换:
fi:X→U∈RN×4(i=1,2,3) (1)
式中的每一个fi为不同的Convolutional layer(卷积层)、Activation Functionlayer(激活函数层)以及BatchNormalization layer(批归一化层)的结合。
进一步,所述基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图,包括:
对所述输出特征O进行全局平均池化(Global Average Pooling),然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid激活函数限制到 [0,1]的范围,再将该值作为scale乘到O的C个通道上,作为下一级的输入特征;
通过控制scale的大小,把重要的特征增强,自适应地选择对最终的结果有贡献的特征,将不重要的特征减弱,从而增强提取的特征指向性。
进一步,所述对所述输出特征O进行全局平均池化(Global Average Pooling),然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid 激活函数限制到[0,1]的范围的计算过程如下:
Figure BDA0003703068330000031
式中,δ代表ReLU激活函数,σ代表SigMoid激活函数,uc(i,j)代表输入特征图在任一点的特征,H、L代表特征图的高度与宽度,W代表线性变换,
Figure BDA0003703068330000041
代表两次线性变换,通过第一次线性变换,将特征通道数目从C压缩至
Figure BDA0003703068330000042
得到降低模型复杂度的结果,其中r为降维比例系数;为将第一步中压缩的通道数恢复到原始通道数目,需要再进行第二次线性变换,最后控制scale,对于不同通道的特征根据公式(3)计算得到的注意力权重来自适应融合。
进一步,所述加权系数设为0.4。
根据本发明的第二技术方案,提供一种基于多尺度特征提取与融合的点云分割装置,其特征在于,所述装置包括:获取模块,被配置为对获取的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,得到四个不同尺度的特征图输出,分别为 x0,x1,x2,x3
融合模块,被配置为将小尺度、中尺度、大尺度的特征图输出拼接在一起,送入Softmax激活函数,得到拼接后的特征图为:
Ucat=cat(U1,U2,U3) (2)
式中,Ucat∈RN×3,R代表域,N代表点数,3为特征维数,其中获得的不同尺度代表的注意力权重表示为:
S=softmax(Ucat) (3)
将不同尺度的特征根据S∈RN×3进行元素相加,从而获取融合后的多尺度特征;将融合后的多尺度特征与经点级别的卷积核所捕获到的特征进行元素相加,得到一个新的拼接特征,再将新的拼接特征进行一次卷积操作,得到不同尺度特征提取后根据权重自选择融合输出特征O:
O=Conv{x0+x1×S[:,0]+x2×S[:,1]+x3×S[:,2]} (4)
自适应融合模块,被配置为基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图;
计算模块,被配置为对原始的特征图和自适应特征选择后的特征图进行一次加权相加,根据预设的加权系数,将加权相加结果作为最终输出。
进一步,所述获取模块被进一步配置为:
将小、中、大尺度的特征图输出x1,x2,x3作为多尺度特征提取模块的输出传递给后续的特征融合模块,为避免将不同尺度特征采用相同权重,将大尺度、中尺度、小尺度的特征进行相加得到中间特征图X,然后使用三个不同的多层感知器对中间特征图X进行变换:
fi:X→U∈RN×4(i=1,2,3) (1)
式中的每一个fi为不同的Convolutional layer(卷积层)、Activation Functionlayer(激活函数层)以及BatchNormalization layer(批归一化层)的结合。
进一步,所述自适应融合模块被进一步配置:
对所述输出特征O进行全局平均池化(Global Average Pooling),然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid激活函数限制到 [0,1]的范围,再将该值作为scale乘到O的C个通道上,作为下一级的输入特征;
通过控制scale的大小,把重要的特征增强,自适应地选择对最终的结果有贡献的特征,将不重要的特征减弱,从而增强提取的特征指向性。
根据本发明的第三方案,提供了一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据本发明各个实施例所述的方法。
根据本发明各个方案的基于多尺度特征提取与融合的点云分割方法、装置及介质,其至少具有以下技术效果:
1、本发明通过改进传统语义分割与深度学习方法,可以快速准确地完成多目标复杂场景下的物体点云分割问题。
2、本发明应用多尺度稀疏卷积的特征提取和基于通道注意力的特征选择,减少了后续处理的数据量,通过增强点云的感兴趣特征,提高了网络的效率和分割精度。
3、本发明减少了执行卷积操作的过程中通道关系与卷积核捕获的空间关系之间纠缠,增强了不同特征向量之间的差异性和分割算法的鲁棒性,提高了运算效率。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出了根据本发明实施例的一种基于多尺度特征提取与融合的点云分割方法中输入点云多尺度特征提取流程图。
图2示出了根据本发明实施例的一种基于多尺度特征提取与融合的点云分割方法中针对不同尺度点云特征融合流程图。
图3示出了根据本发明实施例的室外输入点云图可视化示意图。
图4示出了根据本发明实施例的一种基于多尺度特征提取与融合的点云分割方法的流程图。
图5示出了根据本发明实施例的室外点云地面分割示意图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
本发明实施例提供一种基于多尺度特征提取与融合的点云分割方法,请如图1和图2所示,该方法包括如下步骤:
步骤一:对读入的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,其中小尺度卷积核设置为(1*1*1),中尺度卷积核设置为(2*2*2),大尺度卷积核设置为(4*4*4),而点级别的卷积设置为子流形卷积,即卷积核大小为1,设置卷积步长为1,将这四种不同尺度卷积核由点级从小到大输出分别记为 x0,x1,x2,x3
将小、中、大尺度特征图输出x1,x2,x3作为多尺度特征提取模块的输出传递给后续的特征融合模块,为避免将不同尺度特征采用相同权重,将大尺度、中尺度、小尺度的特征进行相加得到中间特征图X,然后使用三个不同的MLP 对中间特征图X进行变换:
fi:X→U∈RN×4(i=1,2,3) (1)
公式1中的每一个fi为不同的Convolutional layer(卷积层)、ActivationFunction layer(激活函数层)以及BatchNormalization layer(批归一化层)的结合。
步骤二:将步骤一中获得的不同尺度的输出特征拼接在一起,送入 Softmax激活函数,从而得到拼接后的特征图为:
Ucat=cat(U1,U2,U3) (2)
Ucat∈RN×3(N代表点数),其中获得的不同尺度代表的注意力权重表示为:
S=softmax(Ucat) (3)
然后将不同尺度的特征根据S∈RN×3进行元素相加,从而获取融合后的多尺度特征。将融合后的多尺度特征与步骤一中点云经过子流形稀疏卷积获得的特征进行元素相加,得到一个新的拼接特征,再将这个相加结果进行一次卷积操作,最后得到不同尺度特征提取后根据权重自选择融合输出O:
O=Conv{x0+x1×S[:,0]+x2×S[:,1]+x3×S[:,2]} (4)
公式(4)中,x1x2x3x0,分别代表不同大小卷积核的输出以及点级子流形稀疏卷积的输出。
步骤三:为避免多次多层应用卷积操作造成高维度信息丢失,在步骤三中应用Squeeze-and-Excitation Networks(SENet)提出的SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合。为将SE模块扩展到3D稀疏卷积,对步骤二中输出特征O先做一个Global Average Pooling(即Squeeze过程),然后对输出的1×1×C数据再进行两级全连接操作(即Excitation过程),最后用Sigmoid激活函数(即self-gating mechanism)限制到[0,1]的范围,再将该值作为scale乘到O的C个通道上,作为下一级的输入特征。通过以上操作控制scale的大小,把重要的特征增强,自适应地选择对最终的结果有贡献的特征,将不重要的特征减弱,从而增强提取的特征指向性。其中Squeez-Excitation计算如下:
Figure BDA0003703068330000081
在公式(5)中,δ代表ReLU激活函数,σ代表SigMoid激活函数。uc(i,j) 代表输入特征图在任一点的特征,H、L代表特征图的高度与宽度,W代表线性变换,
Figure BDA0003703068330000082
代表两次线性变换,通过第一次线性变换,将特征通道数目从C压缩至
Figure BDA0003703068330000083
得到降低模型复杂度的结果,其中r为降维比例系数;为将第一步中压缩的通道数恢复到原始通道数目,需要再进行第二次线性变换,最后控制scale,对于不同通道的特征根据公式(3)计算得到的注意力权重来自适应融合。
步骤四:在经过步骤三对不同通道下的特征和权重自适应选择融合之后,得到拓展后SE模块的输出,为了让最终的输出结果保留初始的通道特征,对原始的特征图和自适应特征选择后的特征图进行一次加权相加,设置加权系数α为0.4,将加权相加结果作为最终输出。
为了验证本发明实施例所描述方法的可行性,选择Semantic Kitti数据集以及室内点云数据作为输入数据,室外点云的数据范围为x轴:105.988m, y轴:110.284m,z轴30.528m。数据集包括22个序列,共计43551帧激光雷达数据,其中序列00到10为训练集,提供每一帧的标注文件,11-21为测试集。在本章的实验中,将01到09以及00序列作为训练集训练模型,10 序列作为验证集验证模型的分割效果。图3为输入测试集点云场景可视化图。基于如上数据,具体通过如下步骤来实施对本方法的验证:
步骤一:对读入的点云数据根据体素的点云分割模型,使用基于Hash table的下采样模块进行体素化。将每个批次的点云样本个数设置为3,最大迭代次数为170000,初始学习率为0.01,优化器选择带动量的SGD下降,将ExponentialLR作为学习率调整策略。所采用的数据增强方法包括1)翻转Flip;2)旋转Rotation;3)平移Translations;4)随机抖动;5)加噪声(高斯噪声等);6)放射变换。需要说明的是,上述数据增强方法仅仅只是示例,当然也可以采用其他方法来实现数据的增强,本实施例对此不作具体限制。
对读取的点云数据按照采用基于哈希表的邻域检索、构建算法,构建时间复杂度为O(1)的分层网络结构,将本方法提出的多尺度特征提取与融合组合到网络中,将体素化的分辨率设置为0.04m。如图1所示,对输入的训练集点云数据由(1*1*1)、(2*2*2)、(4*4*4)三个不同尺度的voxel以及(1*1*1) 子流形卷积核进行初步提取特征,得到特征x0,x1,x2,x3,对x1,x2,x3进行一次 sum元素相加,之后对三个不同尺度特征进行一次相同的conv卷积操作,对所得结果进行拼接,完成第一步的初步特征提取处理。
步骤二:对初步特征提取后的点云数据与第一步提取特征进行相乘,对提取结果进行优化,然后同子流形卷积提取特征进行元素相加,实现特征增强,再用一次(2*2*2)的卷积操作提取压缩特征。为了提升预测标签的分辨率,使用体素级别的点云预测类别转换为点级别的点云预测类别,并且使用最邻近插值策略,将每一个体素的核心类别标签代表整个体素内所有离散的点类别。
步骤三:对提取后的点云特征数据进行自适应融合,如图2特征融合流程图所示,对三种尺度特征经过卷积后分别乘以权重系数,进行拼接操作,对得到的融合特征采用Squeez-Excitation强化我们感兴趣特征,进行特征增强。滤除分割地面后测试分类点云图如图4所示。
步骤四:对采用特征增强后的网络分割效果进行测试,如图5所示,分割对象不同的颜色代表拥有不同语义信息的不同类别,可见分割准确度和语义信息表征能力提高。
步骤五:对室内点云场景进行测试,更改网络设置初始学习率参数为0.1,采用Warmup进行学习率预热,在初期的前500个迭代中,使用预热的 Adagrad学习率调整策略,并且对室内场景限制输入的体素数量为50000。得到测试场景图。
步骤六:定量分析所提方法的语义分割精度。
对初始点云数据使用所提方法,对输入点云数据按照汽车、卡车、自行车、树、杆等其他地面类别的语义进行分割,通过以下公式计算mIOU:
Figure BDA0003703068330000101
式中,mIOU代表平均交并比,K代表总的类别数目,FN代表预测为负样本的正样本数,TP代表预测为正样本的正样本数,FP代表预测为正样本的负样本数。
从而对所提方法的语义分割结果进行定性分析。语义分割精度如下表1 所示。
Figure BDA0003703068330000102
表1
本发明实施例还提供一种基于多尺度特征提取与融合的点云分割装置,所述装置包括:
获取模块701,被配置为对获取的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,得到四个不同尺度的特征图输出,分别为x0,x1,x2,x3
融合模块702,被配置为将小尺度、中尺度、大尺度的特征图输出拼接在一起,送入Softmax激活函数,得到拼接后的特征图为:
Ucat=cat(U1,U2,U3) (2)
式中,Ucat∈RN×3,R代表域,N代表点数,3为特征维数,其中获得的不同尺度代表的注意力权重表示为:
S=softmax(Ucat) (3)
将不同尺度的特征根据S∈RN×3进行元素相加,从而获取融合后的多尺度特征;将融合后的多尺度特征与经点级别的卷积核所捕获到的特征进行元素相加,得到一个新的拼接特征,再将新的拼接特征进行一次卷积操作,得到不同尺度特征提取后根据权重自选择融合输出特征O:
O=Conv{x0+x1×S[:,0]+x2×S[:,1]+x3×S[:,2]} (4)
自适应融合模块703,被配置为基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图;
计算模块704,被配置为对原始的特征图和自适应特征选择后的特征图进行一次加权相加,根据预设的加权系数,将加权相加结果作为最终输出。
在一些实施例中,所述获取模块701被进一步配置为:
将小、中、大尺度的特征图输出x1,x2,x3作为多尺度特征提取模块的输出传递给后续的特征融合模块,为避免将不同尺度特征采用相同权重,将大尺度、中尺度、小尺度的特征进行相加得到中间特征图X,然后使用三个不同的多层感知器对中间特征图X进行变换:
fi:X→U∈RN×4(i=1,2,3) (1)
式中的每一个fi为不同的Convolutional layer(卷积层)、Activation Functionlayer(激活函数层)以及BatchNormalization layer(批归一化层)的结合。
在一些实施例中,所述自适应融合模块703被进一步配置:
对所述输出特征O进行全局平均池化(Global Average Pooling),然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid激活函数限制到 [0,1]的范围,再将该值作为scale乘到O的C个通道上,作为下一级的输入特征;通过控制scale的大小,把重要的特征增强,自适应地选择对最终的结果有贡献的特征,将不重要的特征减弱,从而增强提取的特征指向性。
需要注意,描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块也可以设置在处理器中。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
本发明实施例所提到的基于多尺度特征提取与融合的点云分割装置与在先阐述的方法属于同一技术构思,其起到的技术效果基本一致,此处不赘述。
本发明实施例还提供了一种存储有指令的非暂时性计算机可读介质,当指令由处理器执行时,执行根据本发明任一实施例所述的方法。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims (10)

1.一种基于多尺度特征提取与融合的点云分割方法,其特征在于,所述方法包括:
对获取的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,得到四个不同尺度的特征图输出,分别为x0,x1,x2,x3
将小尺度、中尺度、大尺度的特征图输出拼接在一起,送入Softmax激活函数,得到拼接后的特征图为:
Ucat=cat(U1,U2,U3) (2)
式中,Ucat∈RN×3,R代表域,N代表点数,3为特征维度,其中获得的不同尺度代表的注意力权重表示为:
S=softmax(Ucat) (3)
将不同尺度的特征根据S∈RN×3进行元素相加,从而获取融合后的多尺度特征;将融合后的多尺度特征与经点级别的卷积核所捕获到的特征进行元素相加,得到一个新的拼接特征,再将新的拼接特征进行一次卷积操作,得到不同尺度特征提取后根据权重自选择融合输出特征O:
O=Conv{x0+x1×S[:,0]+x2×S[:,1]+x3×S[:,2]} (4)
基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图;
对原始的特征图和自适应特征选择后的特征图进行一次加权相加,根据预设的加权系数,将加权相加结果作为最终输出。
2.根据权利要求1所述的方法,其特征在于,所述小尺度卷积核设置为1*1*1,中尺度卷积核设置为2*2*2,大尺度卷积核设置为4*4*4,所述点级别的卷积核设置为子流形卷积,所述子流形卷积的卷积核大小为1,设置卷积步长为1。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将小、中、大尺度的特征图输出x1,x2,x3作为多尺度特征提取模块的输出传递给后续的特征融合模块,为避免将不同尺度特征采用相同权重,将大尺度、中尺度、小尺度的特征进行相加得到中间特征图X,然后使用三个不同的多层感知器对中间特征图X进行变换:
fi:X→U∈RN×4(i=1,2,3) (1)
式中的每一个fi为不同的卷积层、激活函数层以及批归一化层的结合。
4.根据权利要求1所述的方法,其特征在于,所述基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图,包括:
对所述输出特征O进行全局平均池化,然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid激活函数限制到[0,1]的范围,再将该值作为scale乘到O的C个通道上,作为下一级的输入特征;
通过控制scale的大小,把重要的特征增强,自适应地选择对最终的结果有贡献的特征,将不重要的特征减弱,从而增强提取的特征指向性。
5.根据权利要求4所述的方法,其特征在于,所述对所述输出特征O进行全局平均池化(Global Average Pooling),然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid激活函数限制到[0,1]的范围的计算过程如下:
Figure FDA0003703068320000021
式中,δ代表ReLU激活函数,σ代表SigMoid激活函数,uc(i,j)代表输入特征图在任一点的特征,H、L代表特征图的高度与宽度,W代表线性变换,其中
Figure FDA0003703068320000022
代表两次线性变换,通过第一次线性变换,将特征通道数目从C压缩至
Figure FDA0003703068320000023
得到降低模型复杂度的结果,其中r为降维比例系数;为将第一步中压缩的通道数恢复到原始通道数目,再进行第二次线性变换,最后控制scale,对于不同通道的特征根据公式(3)计算得到的注意力权重来自适应融合。
6.根据权利要求5所述的方法,其特征在于,所述加权系数设为0.4。
7.一种基于多尺度特征提取与融合的点云分割装置,其特征在于,所述装置包括:
获取模块,被配置为对获取的点云数据根据不同尺度特征,分别采用点级别、小尺度、中尺度、大尺度这四种尺度的卷积核对特征进行捕获,得到四个不同尺度的特征图输出,分别为x0,x1,x2,x3
融合模块,被配置为将小尺度、中尺度、大尺度的特征图输出拼接在一起,送入Softmax激活函数,得到拼接后的特征图为:
Ucat=cat(U1,U2,U3) (2)
式中,Ucat∈RN×3,R代表域,N代表点数,3为特征维度,其中获得的不同尺度代表的注意力权重表示为:
S=softmax(Ucat) (3)
将不同尺度的特征根据S∈RN×3进行元素相加,从而获取融合后的多尺度特征;将融合后的多尺度特征与经点级别的卷积核所捕获到的特征进行元素相加,得到一个新的拼接特征,再将新的拼接特征进行一次卷积操作,得到不同尺度特征提取后根据权重自选择融合输出特征O:
O=Conv{x0+x1×S[:,0]+x2×S[:,1]+x3×S[:,2]} (4)
自适应融合模块,被配置为基于所述输出特征O,通过SE模块在通道维度上对提取到的不同特征进行自适应融合,扩大感受野,进行三维空间特征融合,得到自适应特征选择后的特征图;
计算模块,被配置为对原始的特征图和自适应特征选择后的特征图进行一次加权相加,根据预设的加权系数,将加权相加结果作为最终输出。
8.根据权利要求7所述的装置,其特征在于,所述获取模块被进一步配置为:
将小、中、大尺度的特征图输出x1,x2,x3作为多尺度特征提取模块的输出传递给后续的特征融合模块,为避免将不同尺度特征采用相同权重,将大尺度、中尺度、小尺度的特征进行相加得到中间特征图X,然后使用三个不同的多层感知器对中间特征图X进行变换:
fi:X→U∈RN×4(i=1,2,3) (1)
式中的每一个fi为不同的卷积层、激活函数层以及批归一化层的结合。
9.根据权利要求8所述的装置,其特征在于,所述自适应融合模块被进一步配置:
对所述输出特征O进行全局平均池化(Global Average Pooling),然后对输出的1×1×C数据再进行两级全连接操作,最后用Sigmoid激活函数限制到[0,1]的范围,再将该值作为scale乘到O的C个通道上,作为下一级的输入特征;
通过控制scale的大小,把重要的特征增强,自适应地选择对最终的结果有贡献的特征,将不重要的特征减弱,从而增强提取的特征指向性。
10.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至6中任一项所述的方法。
CN202210698555.2A 2022-06-20 2022-06-20 基于多尺度特征提取与融合的点云分割方法、装置及介质 Pending CN115512100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210698555.2A CN115512100A (zh) 2022-06-20 2022-06-20 基于多尺度特征提取与融合的点云分割方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210698555.2A CN115512100A (zh) 2022-06-20 2022-06-20 基于多尺度特征提取与融合的点云分割方法、装置及介质

Publications (1)

Publication Number Publication Date
CN115512100A true CN115512100A (zh) 2022-12-23

Family

ID=84500670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210698555.2A Pending CN115512100A (zh) 2022-06-20 2022-06-20 基于多尺度特征提取与融合的点云分割方法、装置及介质

Country Status (1)

Country Link
CN (1) CN115512100A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496517A (zh) * 2024-01-03 2024-02-02 广东工业大学 一种城市级实景三维建设中激光雷达智慧管控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496517A (zh) * 2024-01-03 2024-02-02 广东工业大学 一种城市级实景三维建设中激光雷达智慧管控方法及系统
CN117496517B (zh) * 2024-01-03 2024-04-05 广东工业大学 一种城市级实景三维建设中激光雷达智慧管控方法及系统

Similar Documents

Publication Publication Date Title
CN108510535B (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
US10740897B2 (en) Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
Vitoria et al. Semantic image inpainting through improved wasserstein generative adversarial networks
CN111401436A (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN112884668A (zh) 基于多尺度的轻量级低光图像增强方法
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
CN114037640A (zh) 图像生成方法及装置
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN112884648A (zh) 多类模糊图像超分辨率重建的方法和系统
CN117671509B (zh) 遥感目标检测方法、装置、电子设备及存储介质
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN115512100A (zh) 基于多尺度特征提取与融合的点云分割方法、装置及介质
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
CN117197438A (zh) 一种基于视觉显著性的目标检测方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN115861595B (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
KR20230083212A (ko) 객체 자세 추정 장치 및 방법
CN115311152A (zh) 图像处理方法、装置、电子设备以及存储介质
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination