CN111814874A - 一种用于点云深度学习的多尺度特征提取增强方法及模块 - Google Patents
一种用于点云深度学习的多尺度特征提取增强方法及模块 Download PDFInfo
- Publication number
- CN111814874A CN111814874A CN202010650114.6A CN202010650114A CN111814874A CN 111814874 A CN111814874 A CN 111814874A CN 202010650114 A CN202010650114 A CN 202010650114A CN 111814874 A CN111814874 A CN 111814874A
- Authority
- CN
- China
- Prior art keywords
- point
- points
- scale
- feature
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 238000011176 pooling Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 39
- 238000010586 diagram Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 17
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 26
- 238000012360 testing method Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于点云深度学习的多尺度特征提取增强方法及模块,本发明首先在世界坐标系上寻找每个点在三个不同尺度上的邻近点。再分别通过多层感知机和最大池化提取该尺度下的最大特征,并将不同尺度下的最大特征拼接在一起作为该点的多尺度特征。然后将多尺度信息融合到多尺度局部特征空间并在该空间中再次寻找每个点的邻近点,将每个点的局部和全局信息进行融合。为了进一步约束和加强特征学习,引入了一个损失函数,让不同类别的点相互远离,相同类别的点相互聚集。本发明能够有效地增强多种深度学习网络对三维点云的特征特征提取性能及学习能力,从根本上提升网络的性能和分割分类精度。
Description
技术领域
本发明涉及一种用于点云深度学习的多尺度特征提取增强方法及模块,尤其是一种应用于点云深度学习网络的基于多尺度邻近点信息的多尺度特征提取增强模块及增强方法。
背景技术
当前通过激光雷达、Kinect与Matterport scanner等三维传感器获得的三维场景越来越快速化和精确。三维空间相较于二维空间包含更加丰富的语义信息。因此基于深度学习的三维环境感知,已经引起了极大关注,被广泛的应用于无人驾驶汽车和机器人技术。虽然近年来基于卷积神经元网络(Convolutional Neural Networks,简称CNNs)的图像深度学习方法在二维图像分类、分割等方面都取得了较大成就,但是对于非结构化的数据(例如三维点云和三维网格)的分类、语义分割和实例分割依然是十分艰巨的挑战。
早先的研究主要基于多视角卷积神经元网络(Multi-view ConvolutionalNeural Networks,简称Multi-view CNNs),希望通过加强二维和三维空间之间的联系,从而用图像的分割方法实现对三维数据的理解。这种方法存在的主要问题是如何选择从三维投影到二维的角度和数量以及如何将二维分割结果映射回三维点云。此外,为了将非结构化数据变换成类似于二维图像的规则结构,提出了基于体素化的卷积神经元网络(Voxel-Based 3D Convolutional Neural Networks,简称Voxel-Based 3D CNNs)方法。通过将点云划分为若干个体素然后利用三维卷积实现对点云的分割。同一个体素中的点都被赋予了相同的语义,所以为了提高分割精度必须减小体素的尺寸,会直接导致计算量显著提升。另一方面,由于存在较多数量的体素为空,导致该方法的分割效率较低。近年来,业界提出了直接对点进行操作的网络,实现了端对端的在点尺度上的点云分类和分割,比如PointNet与PointNet++。由于点云数据具有无序性、密度不均和数据量大等特点。如何有效地提取点的特征,是此类方法成功的关键所在。目前在点云的深度学习网络特征提取方法上还有较大的提升空间。
发明内容
本发明要解决的技术问题是:进一步提升点云深度学习分割网络的性能。
为了解决上述问题,本发明的技术方案是提供了一种用于点云深度学习的多尺度特征提取增强方法,其特征在于,包括如下步骤:
步骤1、输入B×N×F维度大小的点云数据,其中B为训练批量大小,N为输入的每个点云中点的数量,F为每个点所包含的特征维度;
步骤2、寻找输入点云数据中的每个点在三个不同空间半径尺度上的k1个邻近点,再分别通过多层感知机和最大池化操作提取每个尺度下的最大特征,并将不同尺度下的最大特征拼接在一起作为该点的多尺度特征,得到多尺度特征图F1;
步骤3、对步骤2输出的特征图F1进行最大池化操作,得到全局特征向量vg;
步骤4、将多尺度特征图F1进行降维,通过两层大小分别为C5和M的多层感知机,将F1融合到张量为B×N×M的多尺度局部特征空间F2;
步骤5、对多尺度局部特征空间F2,用Lfeature损失函数进一步约束点在该空间中的分布,使得不同类别的点相互远离,相同类别的点相互聚集;
步骤6、在多尺度局部特征空间F2中为每个点寻找k2个邻近点,经过特征融合与最大池化操作,并与全局特征向量vg进行融合,最终得到每个点的特征向量所组成的特征空间F3。
优选地,所述步骤2中得到多尺度特征的具体步骤包括:
步骤2.1、对输入点云中的每个点,寻找以该点为圆心,分别以r1,r2和r3为半径的球体范围内的所有邻近点集合,分别用P1,P2和P3表示,其中r1<r2<r3;
步骤2.2、将邻近点数量固定为k1,对于点集P1,P2和P3,其中包含的点数n存在三种可能的情况:n=k1,n>k1和n<k1;对于n=k1,直接将所有点作为最终邻近点;对于n>k1,随机从n个点中选择k1个点作为最终邻近点;对于n<k1,先从n个点中随机选择k1-n个点,再与原始的n个点组成k1个点,作为最终的邻近点,不同尺度下的固定点数的邻近点集合分别为P′1,P′2和P′3,张量为k1×F;
步骤2.3、将多尺度邻近点集合P′1,P′2和P′3分别通过两层大小为C1和C2的多层感知机进行特征提取,得到张量为k1×C2的特征图;再通过最大池化操作,得到该点1×C2的最大特征向量,其中,三个尺度卷积核的参数共享;
步骤2.4、将每个点的原始特征与三个尺度上得到的最大特征向量进行拼接,得到大小为1×(F+3×C2)的特征向量v1;
步骤2.5、将特征向量v1依次通过两层大小为C3和C4的多层感知机,进行特征融合,得到张量大小为1×C4的多尺度特征向量v2;
所述步骤2为输入点云中的一个点的操作流程,输入点云中其余N-1个点的操作流程同上,参数共享,最终得到张量大小为B×N×C4的特征图F1。
优选地,所述步骤5中,损失函数Lfeature的具体形式如下:
Lfeature=α·Lsame+β·Ldiff+γ·Lreg
其中,Lsame是为了将属于同一类别的点拉向聚类中心定义的类内损失;Ldiff让不同类别的点相互远离,即为了增加不同聚类中心点之间距离的类间损失;Lreg为正则化项,是为了让所有聚类中心尽可能靠近点云中心原点;α,β和γ是三种类型损失函数的权重,三种损失函数的表达式如下:
其中T是点云中实例的个数,Nt是第t个实例包含的点的个数;μt是第t个实例的聚类中心位置;||·||1是L1距离;ei是第i个点的坐标位置;δv是允许同一个实例中的点聚集的范围;2δd是允许不同实例中心点之间最近的距离;[x]+=max(0,x)。
优选地,所述步骤6中,得到特征空间F3的具体步骤为:
步骤6.1、对多尺度局部特征空间F2中的每个点x=(x1,x2,...,xM)在多尺度局部特征空间F2中寻找k2个邻近点,其中,每个点有M个维度,xi为该点在第i个维度上的值,通过计算该点到点云中其余点的距离,寻找最近的k2个点组成点集φ1,距离定义如下:
其中,pi为p(p1,p2,...,pM)在第i个维度上的值,l为点p到x的L1距离;
步骤6.2、所述步骤6.1得到每个点的邻近点点集φ1的张量为k2×M,将步骤3中得到的全局特征向量vg复制k2次并拼接到φ1后,得到全局与局部信息融合特征图φ2,其张量大小为k2×(M+C4);
步骤6.3、对特征图φ2经过两层大小分别为C6和S的MLP,进一步进行特征融合提取,得到大小为k2×S的特征图,并经过最大池化操作,得到大小为1×S的特征向量;
所述步骤6为输入点云中的一个点的操作流程,输入点云中其余N-1个点的操作流程同上,并参数共享,最终模块输出大小为B×N×S的特征图F3。
本发明的另外一个技术方案是提供了一种用于点云深度学习的多尺度特征提取增强模块,其特征在于,应用上述的一种用于点云深度学习的多尺度特征提取增强方法,包括:
多尺度特征提取子模块,用于对每个输入点在原始世界空间中搜索多尺度邻近点,形成多尺度特征向量;
特征空间局部相似度聚合子模块,将所有输入点的多尺度特征融合到多尺度局部特征空间中,并引入损失函数来约束局部特征空间中点的分布,将局部特征空间中的每个点及其邻近点集合起来,再与多尺度特征提取子模块的全局特征向量进行连接,形成新的特征空间,对每个点进行特征融合,进一步提取新的特征向量。
本发明首先在世界坐标系上寻找每个点在三个不同尺度上的邻近点。空间上的邻近能够代表该点所在局部区域的基本语义特征。再分别通过多层感知机(MultilayerPerceptron,简称MLP)和最大池化(Max pooling)提取该尺度下的最大特征,并将不同尺度下的最大特征拼接在一起作为该点的多尺度特征。然后将多尺度信息融合到多尺度局部特征空间(Multi-scale Locality Feature Space,简称MLFS)并在该空间中再次寻找每个点的邻近点。点在局部特征空间上的分布特性代表了不同类别的类间和类内的中尺度语义信息。此外,将每个点的局部和全局信息进行融合。为了进一步约束和加强特征学习,方法中引入了一个损失函数,让不同类别的点相互远离,相同类别的点相互聚集。
与现有技术相比,本发明的有益效果是:
1)提出了一种基于多尺度邻近点信息的特征提取增强模块(Multi-scaleNeighborhood Feature Extraction and Aggregation Model,简称MNFEAM)及增强方法,该模块通过识别原始输入特征空间和多尺度局部特征空间上邻近点的邻近信息来提取有效特征,大大提高了网络对特征学习的能力和准确性。
2)在MNFEAM的两个主要部分:多尺度特征提取子模块(Multi-scale FeatureExtraction Module,简称MFEM)和特征空间局部相似度聚合子模块(Locality FeatureAggregation Module,简称LFAM)之间引入损失函数约束多尺度局部特征空间,既避免了过拟合,又有利于局部特征空间的特征提取。
3)本发明可以作为当前众多端到端点云深度学习网络的特征提取前处理模块或预处理步骤,使用本发明后,众多网络在语义分割和实例分割两方面都有较明显的性能提升。
4)本发明能够有效地增强多种深度学习网络对三维点云的特征特征提取性能及学习能力,从根本上提升网络的性能和分割分类精度。本发明增强模块可作为当前直接在点尺度上进行分割的深度学习网络的前特征处理模块,广泛适用于人工智能、机器视觉及机器人环境感知、无人驾驶等技术领域。
附图说明
图1为本发明一种用于点云深度学习网络的多尺度特征提取增强模块示意图;
图2为本发明一种用于点云深度学习网络的多尺度特征提取增强方法融合到PointNet网络中的结构图。结构中前半部分为特征增强模块,后半部分为PointNet的部分结构;
图3为本发明对PointNet网络进行改进后在斯坦福大型室内数据集(StanfordLarge-Scale 3D Indoor Spaces,简称S3DIS)上的定性对比结果图;
图4为本发明对PointNet网络进行改进后在vKITTI数据集上的定性分析对比结果。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本实施例公开了一种用于点云深度学习网络的多尺度特征提取增强方法及模块,该模块主要由两部分组成,分别为多尺度特征提取子模块(MFEM)和特征空间局部相似度聚合子模块(LFAM)。首先,对于每个输入点,使用MFEM在原始世界空间中搜索多尺度邻近点,形成多尺度特征向量。其次,将所有点的多尺度特征融合到多尺度局部特征空间中,并引入损失函数来约束局部特征空间中点的分布。然后将局部特征空间中的每个点及其邻近点集合起来,再与MFEM的全局特征向量进行连接,形成新的特征空间。所有N个点特征在LFAM中形成特征群。最后,LFAM对每个点进行特征融合,进一步提取新的特征向量。在MNFEAM的6个步骤中,其中步骤1到步骤3为MFEM,步骤4到步骤6为LFAM。该模块能够替换或增强现有网络的特征提取部分,从根本上提升网络的分类分割性能。
本实施例将本发明模块融合到基本的PointNet网络前部,并在斯坦福大型室内数据集(Stanford Large-Scale 3D Indoor Spaces,简称S3DIS)和虚拟户外道路点云数据集(Virtual KITTI,简称vKITTI)上进行对比测试实验。其步骤为:
数据的预处理与实验设计。斯坦福大型室内数据集包含有6个大型室内区域共有271个房间(如:会议室,办公室和走廊等)。数据集被标注为13个语义类别(如:地板,桌子,窗户等)。数据预处理阶段,将每个房间切分为1m×1m×h大小的区域块,其中h为房间的高度。通过随机向下采样每个区域块,将输入点的数量固定到4096,以减少计算复杂度和标准化所有的训练数据。对于点数小于4096的区域块,随机复制块中已有的点,使点数固定到4096。数据集中的每个点都拥有9维特征,包括XYZ坐标、RGB和法向量。在定量分析中,采用两种不同的测试方式的结果。首先,只将区域5(A5)作为测试集,其余区域为训练集。其次,我们进行6次交叉验证,计算在S3DIS数据集上的平均指标。
虚拟户外道路点云数据集vKITTI是一个大型的室外道路场景的点云数据集,被广泛用来评价无人驾驶算法性能。该数据集相较于S3DIS数据集更稀疏,包含有13个语义类别(如:汽车,道路和树木等)。本实施例中将vKITTI数据集中的90个场景分成了6个区域,每个区域包含有15个场景。对于每个场景,被分割成为3m×3m×h的区域块,其中h为场景的高度。对于每个区域块,随机向下采样到256个点,操作方法与S3DIS数据集相同。数据集中每个点有6维度特征,包括XYZ坐标和RGB颜色信息。在定量分析中,采用两种不同的测试方式的结果。两种方式都采用6次交叉验证,计算在vKITTI数据集上的平均指标。方式一不使用颜色信息,只有XYZ三维特征,方式二使用包含颜色信息在内的6维特征。
如图2所示,将本发明所提特征增强模块融入到点云深度学习网络PointNet中的结构图。其步骤为:
步骤1、训练过程中每批次输入B×N×F维度大小的点云数据;对于斯坦福大型室内数据集S3DIS为8×4096×9,对于虚拟户外道路点云数据集vKITTI为16×256×3(无颜色信息)和16×256×6(有颜色信息)。其中B为训练批量大小(Batch Size);N为输入的每个点云中点的数量;F为每个点所包含的特征维度(例如,如果只含有坐标信息XYZ则F=3;如果含有坐标和颜色信息XYZRGB则F=6)。
步骤2、寻找输入点云中的每个点在三个不同空间半径尺度上的k1=32个邻近点。再分别通过多层感知机(Multilayer Perceptron,简称MLP)和最大池化(Max pooling)操作提取每个尺度下的最大特征,并将不同尺度下的最大特征拼接在一起作为该点的多尺度特征。
步骤2中得到多尺度特征的具体步骤为:
步骤2.1、对输入点云中的每个点,寻找以该点为圆心,分别以r1=0.2m,r2=0.4m和r3=0.6m为半径的球体范围内的所有邻近点集合,分别用P1,P2和P3表示,其中r1<r2<r3。
步骤2.2、将邻近点固定为数量k1=32。对于点集P1,P2和P3,其中包含的点数n存在三种可能的情况:n=k1,n>k1和n<k1。对于n=k1,直接将所有点作为最终邻近点;对于n>k1,随机从n个点中选择k1个点作为最终邻近点;对于n<k1,先从n个点中随机选择k1-n个点,再与原始的n个点组成k1个点,作为最终的邻近点。不同尺度下的固定点数的邻近点集合分别为P′1,P′2和P′3,张量为k1×F,即32×9(S3DIS),32×6(vKITTI有颜色)和32×3(vKITTI无颜色)。在不加说明的情况下,本实施例中涉及到的字符F,依据其在不同数据集及情况下的大小分别为9(S3DIS),6(vKITTI有颜色)和3(vKITTI无颜色),后续不再赘述和细分,并只用F代表上述的三种情况。
步骤2.3、将多尺度邻近点集合分别通过两层大小为C1=32和C2=64的MLP,进行特征提取,得到张量为k1×C2,即32×32的特征图。再通过最大池化操作,得到该点1×C2,即1×32的最大特征向量。其中,三个尺度卷积核的参数共享。
步骤2.4、将每个点的原始特征与在三个尺度上得到的最大特征向量进行拼接,得到大小为1×(F+3×C2),即1×(F+3×32)的特征向量v1。
步骤2.5、将特征向量v1依次通过两层大小为C3=128和C4=128的MLP,进行特征融合,得到张量大小为1×C4,即1×128的多尺度特征向量v2。
上述步骤2中所述为输入点云中的一个点的操作流程,输入点云中其余N-1个点的操作流程同上,参数共享。最终得到张量大小为B×N×C4,即8×4096×128(S3DIS),16×256×128(vKITTI)的特征图F1。
步骤3:对特征图F1进行最大池化操作,得到张量为B×1×C4,即8×1×128(S3DIS),16×1×128(vKITTI)的全局特征向量(Global Feature)vg。
步骤4:将多尺度特征图F1进行降维。通过两层大小分别为C5=64和M=6的MLP,将F2融合到张量为B×N×M,即8×4096×6(S3DIS),16×256×6(vKITTI)的多尺度局部特征空间F2(Multi-scale Locality Feature Space,简称MLFS)。
步骤5中,对多尺度局部特征空间F2,用Lfeature损失函数进一步约束点在该空间中的分布,使得不同类别的点相互远离,相同类别的点相互聚集。损失函数Lfeature的定义如下:
Lfeature=α·Lsame+β·Ldiff+γ·Lreg
其中,Lsame是为了将属于同一类别的点拉向聚类中心定义的类内损失。Ldiff让不同类别的点相互远离,即为了增加不同聚类中心点之间距离的类间损失。Lreg为正则化项,是为了让所有聚类中心尽可能靠近点云中心原点,为特征空间限定有效的边界范围,防止网络注意力偏离。α=1,β=1和γ=0.001是三种类型损失函数的权重。三种损失函数的表达式如下:
其中T是点云中实例的个数,Nt是第t个实例中包含点的个数;μt是第t个实例的聚类中心位置;||·||1是L1距离;ei是第i个点的坐标位置;δv是允许同一个实例中的点聚集的范围;2δd是允许不同实例中心点之间最近的距离;[x]+=max(0,x)。
步骤6、在多尺度局部特征空间F2中为每个点寻找k2=32个邻近点。经过特征融合与最大池化操作,并与全局特征进行融合,最终得到每个点的特征向量所组成的特征空间F3。
步骤6中得到特征空间F3的具体步骤为:
步骤6.1、对多尺度局部特征空间F2中的每个点x=(x1,x2,...,x6)在多尺度局部特征空间F2中寻找k2=32个邻近点。其中,每个点有M=6个维度,xi为该点在第i个维度上的值。通过计算该点到点云中其余点的距离,寻找最近的k2个点组成点集φ1。距离定义如下:
其中,pi为点p(p1,p2,...,pM)在第i个维度上的值,l为点p到x的L1距离。
步骤6.2、上述步骤得到每个点的邻近点点集φ1的张量为k2×M,即32×6,将步骤3中得到的全局特征向量vg复制k2=32次并拼接到φ1后,得到全局与局部信息融合特征图φ2,其张量大小为k2×(M+C4),即32×(6+128)。
步骤6.3:对特征图φ2经过两层大小分别为C6=128和S=128的MLP,进一步进行特征融合提取,得到大小为k2×S,即32×128的特征图。并经过最大池化操作,得到大小为1×S,即1×128的特征向量。
步骤6中所述为输入点云中的一个点的操作流程,输入点云中其余N-1个点的操作流程同上,并参数共享。最终模块输出大小为B×N×S,即8×4096×128(S3DIS),16×256×128(vKITTI)的特征图F3。
上述过程即为本发明所提出的一种用于点云深度学习的多尺度特征提取增强方法实施过程。本发明作为一种点云深度学习网络特征提取增强方法,需要进一步的融入到现有的点云深度学习网络中,从而提升点云的分类分割任务。为了增强本方法的可实施性,接下来以融合PointNet为例,进一步说明其实施细节。
步骤7:将特征图F3通过三层大小分别为C7=256,C8=512和C9=1024的MLP,进一步进行特征融合提取,得到大小为B×N×C8,即8×4096×1024(S3DIS),16×256×1024(vKITTI)的特征图F4。
步骤8:对特征图F4进行最大池化操作,得到张量为B×1×C8,即8×1×1024(S3DIS),16×1×1024(vKITTI)的全局特征向量(Global Feature)v′g。并将v′g复制N次,与步骤6中得到的特征图F3进行拼接,得到大小为B×N×(S+C8)的特征图F5,即两种数据集上8×4096×(128+1024)(S3DIS),16×256×(128+1024)(vKITTI)。
步骤9:对特征图F5分别通过大小为512,256,128和C=13的MLP,得到最终的语义特征图F6,大小为B×N×C即8×4096×13(S3DIS),16×256×13(vKITTI)。其中C为该数据集语义类别数。
步骤10:对语义特征图F6计算交叉熵得到每个点的最终分类预测标签。分类损失函数为Lpred。网络总的损失函数为:
L=Lpred+Lfeature
上述过程即为将本发明模块融合到PointNet网络中的实施细节。融入到其他点云分割网络的过程与此类似,但需要注意两个方面:第一,本发明需要加载到网络的最前端即输入接口之后;其次,对于原网络中前部基础的特征提取部分要进行适当的删除,可减少网络的冗余性,也防止网络过深带来过拟合问题。
表1为S3DIS数据集上的定量比较结果。前两行以Area5为测试集,后两行为6次交叉验证的平均结果。
表1
表2为vKITTI数据集上的定量比较结果。前两行是仅使用XYZ坐标特征的分割结果。最后两行是同时使用了XYZ和颜色特征RGB的分割结果。
表2
从定量结果看,本发明对PointNet网络在斯坦福大型室内数据集和虚拟室外道路点云数据集上的分割效果都有了明显提升,其中oAcc为总体准确率,mAcc为是平均准确率,mIoU是平均分割交并比,三个指标都是越高越好。如表1和表2所示,其中表1为在S3DIS数据集上的定量比较结果。表1的前两行以Area5为测试集,后两行为6次交叉验证的平均结果。表2为在vKITTI数据集上的定量比较结果。前两行是仅使用XYZ坐标特征的分割结果。最后两行是使用了XYZ和颜色特性的分割结果。
图3和图4分别是在两个数据集上的定性对比展示。在测试集中选取了5个房间进行展示,图3中每列代表不同的房间。第一行为输入的原始点云;第二行为每个房间的真实标签值;第三行为PointNet原始网络的分割结果图;第四行为提升网络的分割结果图。
在测试集中选取了四个场景,图4中每一行代表一个场景。其中,第一列为输入的原始点云;第二列为真实标签值;第三列为改进网络在输入特征包含颜色信息下的分割结果;第四列为原始网络在输入特征包含颜色信息下的分割结果。
以上所述仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
Claims (5)
1.一种用于点云深度学习的多尺度特征提取增强方法,其特征在于,包括如下步骤:
步骤1、输入B×N×F维度大小的点云数据,其中B为训练批量大小,N为输入的每个点云中点的数量,F为每个点所包含的特征维度;
步骤2、寻找输入点云数据中的每个点在三个不同空间半径尺度上的k1个邻近点,再分别通过多层感知机和最大池化操作提取每个尺度下的最大特征,并将不同尺度下的最大特征拼接在一起作为该点的多尺度特征,得到多尺度特征图F1;
步骤3、对步骤2输出的特征图F1进行最大池化操作,得到全局特征向量vg;
步骤4、将多尺度特征图F1进行降维,通过两层大小分别为C5和M的多层感知机,将F1融合到张量为B×N×M的多尺度局部特征空间F2;
步骤5、对多尺度局部特征空间F2,用Lfeature损失函数进一步约束点在该空间中的分布,使得不同类别的点相互远离,相同类别的点相互聚集;
步骤6、在多尺度局部特征空间F2中为每个点寻找k2个邻近点,经过特征融合与最大池化操作,并与全局特征向量vg进行融合,最终得到每个点的特征向量所组成的特征空间F3。
2.如权利要求1所述的一种用于点云深度学习的多尺度特征提取增强方法,其特征在于,所述步骤2中得到多尺度特征的具体步骤包括:
步骤2.1、对输入点云中的每个点,寻找以该点为圆心,分别以r1,r2和r3为半径的球体范围内的所有邻近点集合,分别用P1,P2和P3表示,其中r1<r2<r3;
步骤2.2、将邻近点数量固定为k1,对于点集P1,P2和P3,其中包含的点数n存在三种可能的情况:n=k1,n>k1和n<k1;对于n=k1,直接将所有点作为最终邻近点;对于n>k1,随机从n个点中选择k1个点作为最终邻近点;对于n<k1,先从n个点中随机选择k1-n个点,再与原始的n个点组成k1个点,作为最终的邻近点,不同尺度下的固定点数的邻近点集合分别为P′1,P′2和P′3,张量为k1×F;
步骤2.3、将多尺度邻近点集合P′1,P′2和P′3分别通过两层大小为C1和C2的多层感知机进行特征提取,得到张量为k1×C2的特征图;再通过最大池化操作,得到该点1×C2的最大特征向量,其中,三个尺度卷积核的参数共享;
步骤2.4、将每个点的原始特征与三个尺度上得到的最大特征向量进行拼接,得到大小为1×(F+3×C2)的特征向量v1;
步骤2.5、将特征向量v1依次通过两层大小为C3和C4的多层感知机,进行特征融合,得到张量大小为1×C4的多尺度特征向量v2;
所述步骤2为输入点云中的一个点的操作流程,输入点云中其余N-1个点的操作流程同上,参数共享,最终得到张量大小为B×N×C4的特征图F1。
3.如权利要求1所述的一种用于点云深度学习的多尺度特征提取增强方法,其特征在于,所述步骤5中,损失函数Lfeature的具体形式如下:
Lfeature=α·Lsame+β·Ldiff+γ·Lreg
其中,Lsame是为了将属于同一类别的点拉向聚类中心定义的类内损失;Ldiff让不同类别的点相互远离,即为了增加不同聚类中心点之间距离的类间损失;Lreg为正则化项,是为了让所有聚类中心尽可能靠近点云中心原点;α,β和γ是三种类型损失函数的权重,三种损失函数的表达式如下:
其中T是点云中实例的个数,Nt是第t个实例包含的点的个数;μt是第t个实例的聚类中心位置;||·||1是L1距离;ei是第i个点的坐标位置;δv是允许同一个实例中的点聚集的范围;2δd是允许不同实例中心点之间最近的距离;[x]+=max(0,x)。
4.如权利要求1所述的一种用于点云深度学习的多尺度特征提取增强方法,其特征在于,所述步骤6中,得到特征空间F3的具体步骤为:
步骤6.1、对多尺度局部特征空间F2中的每个点x=(x1,x2,...,xM)在多尺度局部特征空间F2中寻找k2个邻近点,其中,每个点有M个维度,xi为该点在第i个维度上的值,通过计算该点到点云中其余点的距离,寻找最近的k2个点组成点集φ1,距离定义如下:
其中,pi为p(p1,p2,...,pM)在第i个维度上的值,l为点p到x的L1距离;
步骤6.2、所述步骤6.1得到每个点的邻近点点集φ1的张量为k2×M,将步骤3中得到的全局特征向量vg复制k2次并拼接到φ1后,得到全局与局部信息融合特征图φ2,其张量大小为k2×(M+C4);
步骤6.3、对特征图φ2经过两层大小分别为C6和S的MLP,进一步进行特征融合提取,得到大小为k2×S的特征图,并经过最大池化操作,得到大小为1×S的特征向量;
所述步骤6为输入点云中的一个点的操作流程,输入点云中其余N-1个点的操作流程同上,并参数共享,最终模块输出大小为B×N×S的特征图F3。
5.一种用于点云深度学习的多尺度特征提取增强模块,其特征在于,应用如权利要求1至4任意一项所述的一种用于点云深度学习的多尺度特征提取增强方法,包括:
多尺度特征提取子模块,用于对每个输入点在原始世界空间中搜索多尺度邻近点,形成多尺度特征向量;
特征空间局部相似度聚合子模块,将所有输入点的多尺度特征融合到多尺度局部特征空间中,并引入损失函数来约束局部特征空间中点的分布,将局部特征空间中的每个点及其邻近点集合起来,再与多尺度特征提取子模块的全局特征向量进行连接,形成新的特征空间,对每个点进行特征融合,进一步提取新的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650114.6A CN111814874B (zh) | 2020-07-08 | 2020-07-08 | 一种用于点云深度学习的多尺度特征提取增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650114.6A CN111814874B (zh) | 2020-07-08 | 2020-07-08 | 一种用于点云深度学习的多尺度特征提取增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814874A true CN111814874A (zh) | 2020-10-23 |
CN111814874B CN111814874B (zh) | 2024-04-02 |
Family
ID=72841949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650114.6A Active CN111814874B (zh) | 2020-07-08 | 2020-07-08 | 一种用于点云深度学习的多尺度特征提取增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814874B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712089A (zh) * | 2020-12-31 | 2021-04-27 | 的卢技术有限公司 | 障碍物检测方法、装置、计算机设备和存储介质 |
CN113392841A (zh) * | 2021-06-03 | 2021-09-14 | 电子科技大学 | 一种基于多特征信息增强编码的三维点云语义分割方法 |
CN113506376A (zh) * | 2021-07-27 | 2021-10-15 | 刘秀萍 | 地面三维点云多尺度闭合差校验拼接方法 |
CN114299243A (zh) * | 2021-12-14 | 2022-04-08 | 中科视语(北京)科技有限公司 | 基于多尺度融合的点云特征增强方法和装置 |
CN115830471A (zh) * | 2023-01-04 | 2023-03-21 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
CN116011107A (zh) * | 2023-01-10 | 2023-04-25 | 南京航空航天大学 | 大型复合材料构件孔特征提取方法、装置及系统 |
CN116401567A (zh) * | 2023-06-02 | 2023-07-07 | 支付宝(杭州)信息技术有限公司 | 一种聚类模型训练、用户聚类、信息推送方法及装置 |
CN117649530A (zh) * | 2024-01-30 | 2024-03-05 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013109773A (ja) * | 2013-01-07 | 2013-06-06 | Olympus Corp | 特徴マッチング方法及び商品認識システム |
CN104091321A (zh) * | 2014-04-14 | 2014-10-08 | 北京师范大学 | 适用于地面激光雷达点云分类的多层次点集特征的提取方法 |
CN107833241A (zh) * | 2017-10-20 | 2018-03-23 | 东华大学 | 对环境光照变化具有鲁棒性的实时视觉目标检测方法 |
CN109034077A (zh) * | 2018-08-01 | 2018-12-18 | 湖南拓视觉信息技术有限公司 | 一种基于多尺度特征学习的三维点云标记方法和装置 |
WO2019080488A1 (zh) * | 2017-10-27 | 2019-05-02 | 东南大学 | 一种基于多尺度协方差描述子与局部敏感黎曼核稀疏分类的三维人脸识别方法 |
CN109932730A (zh) * | 2019-02-22 | 2019-06-25 | 东华大学 | 基于多尺度单极三维检测网络的激光雷达目标检测方法 |
CN110197223A (zh) * | 2019-05-29 | 2019-09-03 | 北方民族大学 | 基于深度学习的点云数据分类方法 |
CN110363178A (zh) * | 2019-07-23 | 2019-10-22 | 上海黑塞智能科技有限公司 | 基于局部和全局深度特征嵌入的机载激光点云分类方法 |
CN110443842A (zh) * | 2019-07-24 | 2019-11-12 | 大连理工大学 | 基于视角融合的深度图预测方法 |
CN111192270A (zh) * | 2020-01-03 | 2020-05-22 | 中山大学 | 一种基于点全局上下文关系推理的点云语义分割方法 |
-
2020
- 2020-07-08 CN CN202010650114.6A patent/CN111814874B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013109773A (ja) * | 2013-01-07 | 2013-06-06 | Olympus Corp | 特徴マッチング方法及び商品認識システム |
CN104091321A (zh) * | 2014-04-14 | 2014-10-08 | 北京师范大学 | 适用于地面激光雷达点云分类的多层次点集特征的提取方法 |
CN107833241A (zh) * | 2017-10-20 | 2018-03-23 | 东华大学 | 对环境光照变化具有鲁棒性的实时视觉目标检测方法 |
WO2019080488A1 (zh) * | 2017-10-27 | 2019-05-02 | 东南大学 | 一种基于多尺度协方差描述子与局部敏感黎曼核稀疏分类的三维人脸识别方法 |
CN109034077A (zh) * | 2018-08-01 | 2018-12-18 | 湖南拓视觉信息技术有限公司 | 一种基于多尺度特征学习的三维点云标记方法和装置 |
CN109932730A (zh) * | 2019-02-22 | 2019-06-25 | 东华大学 | 基于多尺度单极三维检测网络的激光雷达目标检测方法 |
CN110197223A (zh) * | 2019-05-29 | 2019-09-03 | 北方民族大学 | 基于深度学习的点云数据分类方法 |
CN110363178A (zh) * | 2019-07-23 | 2019-10-22 | 上海黑塞智能科技有限公司 | 基于局部和全局深度特征嵌入的机载激光点云分类方法 |
CN110443842A (zh) * | 2019-07-24 | 2019-11-12 | 大连理工大学 | 基于视角融合的深度图预测方法 |
CN111192270A (zh) * | 2020-01-03 | 2020-05-22 | 中山大学 | 一种基于点全局上下文关系推理的点云语义分割方法 |
Non-Patent Citations (2)
Title |
---|
成敏;吴;李大威;: "基于压缩感知的鲁棒性目标跟踪", 电视技术, no. 03 * |
赵传;郭海涛;卢俊;余东行;张保明;: "基于深度残差网络的机载LiDAR点云分类", 测绘学报, no. 02 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712089A (zh) * | 2020-12-31 | 2021-04-27 | 的卢技术有限公司 | 障碍物检测方法、装置、计算机设备和存储介质 |
CN113392841A (zh) * | 2021-06-03 | 2021-09-14 | 电子科技大学 | 一种基于多特征信息增强编码的三维点云语义分割方法 |
CN113506376A (zh) * | 2021-07-27 | 2021-10-15 | 刘秀萍 | 地面三维点云多尺度闭合差校验拼接方法 |
CN114299243A (zh) * | 2021-12-14 | 2022-04-08 | 中科视语(北京)科技有限公司 | 基于多尺度融合的点云特征增强方法和装置 |
CN115830471A (zh) * | 2023-01-04 | 2023-03-21 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
CN115830471B (zh) * | 2023-01-04 | 2023-06-13 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
CN116011107A (zh) * | 2023-01-10 | 2023-04-25 | 南京航空航天大学 | 大型复合材料构件孔特征提取方法、装置及系统 |
CN116401567A (zh) * | 2023-06-02 | 2023-07-07 | 支付宝(杭州)信息技术有限公司 | 一种聚类模型训练、用户聚类、信息推送方法及装置 |
CN116401567B (zh) * | 2023-06-02 | 2023-09-08 | 支付宝(杭州)信息技术有限公司 | 一种聚类模型训练、用户聚类、信息推送方法及装置 |
CN117649530A (zh) * | 2024-01-30 | 2024-03-05 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
CN117649530B (zh) * | 2024-01-30 | 2024-04-23 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111814874B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814874A (zh) | 一种用于点云深度学习的多尺度特征提取增强方法及模块 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Engelmann et al. | Know what your neighbors do: 3D semantic segmentation of point clouds | |
WO2021022970A1 (zh) | 一种基于多层随机森林的零部件识别方法及系统 | |
CN108389251B (zh) | 基于融合多视角特征的投影全卷积网络三维模型分割方法 | |
US11328172B2 (en) | Method for fine-grained sketch-based scene image retrieval | |
CN111798475A (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
Zhang et al. | Long-range terrain perception using convolutional neural networks | |
Li et al. | Multi-scale neighborhood feature extraction and aggregation for point cloud segmentation | |
Melotti et al. | Multimodal CNN pedestrian classification: a study on combining LIDAR and camera data | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN111723829B (zh) | 一种基于注意力掩模融合的全卷积目标检测方法 | |
Wang et al. | GKFC-CNN: Modified Gaussian kernel fuzzy C-means and convolutional neural network for apple segmentation and recognition | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
Hu et al. | RGB-D semantic segmentation: a review | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN113269089A (zh) | 基于深度学习的实时手势识别方法及系统 | |
CN112348056A (zh) | 点云数据分类方法、装置、设备及可读存储介质 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN114782979A (zh) | 一种行人重识别模型的训练方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |