CN117058402B - 一种基于3d稀疏卷积的实时点云分割方法及装置 - Google Patents

一种基于3d稀疏卷积的实时点云分割方法及装置 Download PDF

Info

Publication number
CN117058402B
CN117058402B CN202311022466.7A CN202311022466A CN117058402B CN 117058402 B CN117058402 B CN 117058402B CN 202311022466 A CN202311022466 A CN 202311022466A CN 117058402 B CN117058402 B CN 117058402B
Authority
CN
China
Prior art keywords
voxel
features
point
processing
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311022466.7A
Other languages
English (en)
Other versions
CN117058402A (zh
Inventor
张新钰
谢涛
王力
戴崑
蒋志强
赵虚左
徐大中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xuetuling Education Technology Co ltd
Original Assignee
Beijing Xuetuling Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xuetuling Education Technology Co ltd filed Critical Beijing Xuetuling Education Technology Co ltd
Priority to CN202311022466.7A priority Critical patent/CN117058402B/zh
Publication of CN117058402A publication Critical patent/CN117058402A/zh
Application granted granted Critical
Publication of CN117058402B publication Critical patent/CN117058402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请提供一种基于3D稀疏卷积的实时点云分割方法及装置,涉及自动驾驶技术领域,所述方法包括:对含有N个点的原始点云数据进行体素化处理,得到多个体素;对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征;对N个点的融合特征进行处理,得到语义分割结果。本申请能够实现高精度的实时点云分割。

Description

一种基于3D稀疏卷积的实时点云分割方法及装置
技术领域
本申请涉及自动驾驶技术领域,尤其是涉及一种基于3D稀疏卷积的实时点云分割方法及装置。
背景技术
当前,常用的点云语义分割方法之一是将点云划分为体素,随后使用Poi ntNet提取每个体素中点的高维特征,最后使用3D卷积预测每个体素的类别作为体素中所有点的类别。然而,为保证点云分割的准确率,体素的数量往往十分庞大。此外,传统的3D卷积消耗较大的计算量,因此无法完成实时的点云语义分割任务。此外,Poi ntNet使用较少的多层感知器(MLP)去提取并整合一个体素中所有点的特征,无法实现体素间的信息交互,因此无法提取点云的全局信息。
发明内容
有鉴于此,本申请提供了一种基于3D稀疏卷积的实时点云分割方法及装置,以解决上述技术问题。
第一方面,本申请实施例提供一种基于3D稀疏卷积的实时点云分割方法,包括:
对含有N个点的原始点云数据进行体素化处理,得到多个体素;
对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;
对每个体素的局部特征进行拼接得到所有体素的局部特征,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;
从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;
将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到N个点的融合特征;
对N个点的融合特征进行处理,得到语义分割结果。
进一步地,对含有N个点的原始点云数据进行体素化处理,得到多个体素;包括:
使用预设尺寸的正方体对原始点云数据进行体素化处理,得到V个体素:V=L×H×W,其中,L、H和W为长、宽和高方向上的体素数量。
进一步地,对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;包括:
利用预先训练完成的连接的第一多层感知器和第二多层感知器对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征;
利用全局最大池化层对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征。
进一步地,对所有体素的局部特征进行处理,得到所有体素的全局特征;包括:
利用预先训练完成的体素全局特征提取网络对所有体素的局部特征进行处理,得到所有体素的全局特征;所述体素全局特征提取网络包括依次连接的卷积核尺寸为3×3×3的第一稀疏卷积层、卷积核尺寸为3×3×3的第二稀疏卷积层、卷积核尺寸为3×3×3的第三稀疏卷积层、第一反稀疏卷积层、第一加法器、第二反稀疏卷积层、第二加法器、第三反稀疏卷积层、第三加法器以及卷积核尺寸为1×1×1的第四稀疏卷积层。
进一步地,利用预先训练完成的体素全局特征提取网络对所有体素的局部特征进行处理,得到所有体素的全局特征;包括:
利用卷积核尺寸为3×3×3的第一稀疏卷积层对所有体素的局部特征Fvl进行处理,得到特征F1vl
利用卷积核尺寸为3×3×3的第二稀疏卷积层对特征F1vl进行处理,得到特征F2vl
利用卷积核尺寸为3×3×3的第三稀疏卷积层对特征F2vl进行处理,得到特征F3vl
利用第一反稀疏卷积层对特征F3vl进行处理,得到特征F4vl
利用第一加法器对特征F2vl和特征F4vl进行相加,得到特征F5vl
利用第二反稀疏卷积层对特征F5vl进行处理,得到特征F6vl
利用第二加法器对特征F1vl和特征F6vl进行相加,得到特征F7vl
利用第三反稀疏卷积层对特征F7vl进行处理,得到特征F8vl
利用第三加法器对特征Fvl和特征F8vl进行相加,得到特征F9vl
利用卷积核尺寸为1×1×1的第四稀疏卷积层对特征F9vl进行处理,得到所有体素的全局特征Fvg
进一步地,对N个点的融合特征进行处理,得到语义分割结果;包括:
利用预先训练完成的连接的第三多层感知器和第四多层感知器,对N个点的融合特征进行处理,得到语义分割结果。
进一步地,所述方法还包括:对第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器进行联合训练的步骤。
进一步地,对第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器进行联合训练的步骤;包括:
获取训练数据集,包括多个标注语义分割结果的点云数据样本;
对点云数据样本进行体素化处理,得到多个体素样本;
利用第一多层感知器和第二多层感知器对含有点的每个体素样本进行处理,得到每个体素样本中各点的局部高维特征;利用全局最大池化层对每个体素样本中各点的局部高维特征进行处理,得到每个体素样本的局部特征;
将每个体素样本的局部特征进行拼接得到所有体素样本的局部特征,利用体素全局特征提取网络对所有体素样本的局部特征进行处理,得到所有体素样本的全局特征;
从所有体素样本的全局特征中提取出每个体素样本的全局特征,将每个体素样本中各点的全局特征设置为所在体素样本的全局特征;
将点云数据样本中的每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到所有点的融合特征;
利用第三多层感知器和第四多层感知器对所有点的融合特征进行处理,得到语义分割的预测结果;
基于预测结果和真实结果,计算损失函数L:
其中,Fgt(i,j)为点云数据样本中第i个点属于第j个类别的真值,取值为0或1,Fpred(i,j)为预测结果中第i个点属于第j个类别的概率,Ndiff为权重,K为类别总数,M为点云数据样本的点的个数;
基于损失函数,更新第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器的参数。
第二方面,本申请实施例提供一种基于3D稀疏卷积的实时点云分割装置,包括:
体素处理单元,用于对含有N个点的原始点云数据进行体素化处理,得到多个体素;
第一处理单元,用于对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;
第二处理单元,用于对每个体素的局部特征进行拼接得到所有体素的局部特征,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;
第三处理单元,用于从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;
拼接单元,用于将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到N个点的融合特征;
语义分割单元,用于对N个点的融合特征进行处理,得到语义分割结果。
第三方面,本申请实施例提供一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本申请实施例的方法。
本申请能够实现高精度的实时点云分割。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于3D稀疏卷积的实时点云分割方法的流程图;
图2为本申请实施例提供的整体网络结构图;
图3为本申请实施例提供的体素全局特征提取网络的结构图;
图4为本申请实施例提供的基于3D稀疏卷积的实时点云分割装置的功能结构图;
图5为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例的设计思想进行简单介绍。
随着深度学习技术的不断应用,自动驾驶技术也获得了飞速的发展。当前,快速且精确的识别场景环境是自动驾驶的关键技术之一。自动驾驶的感知系统必须实时识别物体的类别与位置,从而获得安全驾驶的区域。点云作为描述3D场景最常用的数据类型,保留了足够多的细节信息,包括物体准确的位置和形状等。因此,针对点云的语义分割任务是自动驾驶领域的热门研究方向之一。
当前,常用的点云语义分割方法之一是将点云划分为体素,随后使用Poi ntNet提取每个体素中点的高维特征,最后使用3D卷积预测每个体素的类别作为体素中所有点的类别。然而,为保证点云分割的准确率,体素的数量往往十分庞大。此外,传统的3D卷积消耗较大的计算量,因此无法完成实时的点云语义分割任务。此外,Poi ntNet使用较少的多层感知器(MLP)去提取并整合一个体素中所有点的特征,无法实现体素间的信息交互,因此无法提取点云的全局信息。
为此,本申请提供了一种基于3D稀疏卷积的实时点云分割方法,该方法能够有效地整合点云的长距离信息并减少计算量,以实现高精度的实时点云语义分割。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行说明。
如图1所示,本申请实施提供一种基于3D稀疏卷积的实时点云分割方法,包括:
步骤101:对含有N个点的原始点云数据进行体素化处理,得到多个体素;
对于原始点云数据,使用尺寸为0.1m的正方体进行体素化处理。假设点云数据处理后,长宽高方向上的体素数量为L、H和W,体素总数量为V=L×H×W,点云中点的数量为N。
步骤102:对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;
如图2所示,对于第i个体素,假设体素中包含n个点,将该体素中所有点的特征视为初始特征,因此该体素的初始特征可表示为Fo,包括3个特征维度:点云的X,Y,Z坐标。随后,使用两个多层感知器(MLP)和一个全局最大池化层提取每个点的局部高维特征Fp以及该体素的局部特征Fv,该过程可表示为:
Fp=MLP(MLP(Fo))
Fv=Pmax(Fp)
其中,MLP(·)指多层感知器,Pmax(·)指全局最大池化操作。
对于没有点的空体素,使用维度为的0表示。该操作提取的体素级特征的感受野只在一个体素之内,无法捕获体素间的长距离关联信息,不利于提取具有全局表述力的特征。
步骤103:对每个体素的局部特征进行拼接得到所有体素的局部特征,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;
为每个体素提取了体素级特征并定义该体素中n个点的特征为因此,所有体素的体素级特征可表示为/> 所有点特征表示为/>所有体素中存在大量的空体素,即内部不存在点的体素。这些体素不包含有用的信息,因此,我们无需使用卷积提取其内部特征。然而,传统的3D卷积对所有体素进行处理,增加计算量的同时占用了大量的显存。为解决这一问题,本申请使用稀疏3D卷积提取体素长距离特征。
稀疏3D卷积不对空体素进行处理,因此极大地减少了计算量。对于输入特征Fvl,使用类似于U-Net的结构提取体素全局特征,如图3所示。所述体素全局特征提取网络包括依次连接的卷积核尺寸为3×3×3的第一稀疏卷积层、卷积核尺寸为3×3×3的第二稀疏卷积层、卷积核尺寸为3×3×3的第三稀疏卷积层、第一反稀疏卷积层、第一加法器、第二反稀疏卷积层、第二加法器、第三反稀疏卷积层、第三加法器以及卷积核尺寸为1×1×1的第四稀疏卷积层。
其中,利用预先训练完成的体素全局特征提取网络对所有体素的局部特征进行处理,得到所有体素的全局特征;包括:
利用卷积核尺寸为3×3×3的第一稀疏卷积层对所有体素的局部特征Fvl进行处理,得到特征F1vl
利用卷积核尺寸为3×3×3的第二稀疏卷积层对特征F1vl进行处理,得到特征F2vl
利用卷积核尺寸为3×3×3的第三稀疏卷积层对特征F2vl进行处理,得到特征F3vl
利用第一反稀疏卷积层对特征F3vl进行处理,得到特征F4vl
利用第一加法器对特征F2vl和特征F4vl进行相加,得到特征F5vl
利用第二反稀疏卷积层对特征F5vl进行处理,得到特征F6vl
利用第二加法器对特征F1vl和特征F6vl进行相加,得到特征F7vl
利用第三反稀疏卷积层对特征F7vl进行处理,得到特征F8vl
利用第三加法器对特征Fvl和特征F8vl进行相加,得到特征F9vl
利用卷积核尺寸为1×1×1的第四稀疏卷积层对特征F9vl进行处理,得到所有体素的全局特征Fvg
步骤104:从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;
所有体素的全局特征从中提取出第i个体素的全局特征将其视为体素中每个点的全局特征。因此,定义所有点的全局特征为
步骤105:将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到N个点的融合特征;
Fpl提取了每个点的局部高维特征,Fpg提取了每个点的全局特征;两者对于实现精确的场景解析都至关重要。因此,在通道维度对以上两个特征进行拼接,得到N个点的融合特征。
步骤106:对N个点的融合特征进行处理,得到语义分割结果。
具体的,利用预先训练完成的连接的第三多层感知器和第四多层感知器,对N个点的融合特征进行处理,得到语义分割结果。
此外,所述方法还包括:对第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器进行联合训练的步骤;具体包括:
获取训练数据集,包括多个标注语义分割结果的点云数据样本;
对点云数据样本进行体素化处理,得到多个体素样本;
利用第一多层感知器和第二多层感知器对含有点的每个体素样本进行处理,得到每个体素样本中各点的局部高维特征;利用全局最大池化层对每个体素样本中各点的局部高维特征进行处理,得到每个体素样本的局部特征;
将每个体素样本的局部特征进行拼接得到所有体素样本的局部特征,利用体素全局特征提取网络对所有体素样本的局部特征进行处理,得到所有体素样本的全局特征;
从所有体素样本的全局特征中提取出每个体素样本的全局特征,将每个体素样本中各点的全局特征设置为所在体素样本的全局特征;
将点云数据样本中的每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到所有点的融合特征;
利用第三多层感知器和第四多层感知器对所有点的融合特征进行处理,得到语义分割的预测结果;
基于预测结果和真实结果,计算损失函数L:
其中,Fgt(i,j)为点云数据样本中第i个点属于第j个类别的真值,取值为0或1,Fpred(i,j)为预测结果中第i个点属于第j个类别的概率,Ndiff为权重,K为类别总数,M为点云数据样本的点的个数;
基于损失函数,更新第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器的参数。
基于上述实施例,本申请实施例提供了一种基于3D稀疏卷积的实时点云分割装置,参阅图4所示,本申请实施例提供的基于3D稀疏卷积的实时点云分割装置200至少包括:
体素处理单元201,用于对含有N个点的原始点云数据进行体素化处理,得到多个体素;
第一处理单元202,用于对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;
第二处理单元203,用于对每个体素的局部特征进行拼接得到所有体素的局部特征,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;
第三处理单元204,用于从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;
拼接单元205,用于将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到N个点的融合特征;
语义分割单元206,用于对N个点的融合特征进行处理,得到语义分割结果。
需要说明的是,本申请实施例提供的基于3D稀疏卷积的实时点云分割装置200解决技术问题的原理与本申请实施例提供的方法相似,因此,本申请实施例提供的基于3D稀疏卷积的实时点云分割装置200的实施可以参见本申请实施例提供的方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图5所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的基于3D稀疏卷积的实时点云分割方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025,程序模块3024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图5中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图5所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于3D稀疏卷积的实时点云分割方法。具体地,该可执行程序可以内置或者安装在电子设备300中,这样,电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于3D稀疏卷积的实时点云分割方法。
本申请实施例提供的基于3D稀疏卷积的实时点云分割方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备300上运行时,该程序代码用于使电子设备300执行本申请实施例提供的基于3D稀疏卷积的实时点云分割方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,对本申请的技术方案进行修改或者等同替换,都不脱离本申请技术方案的精神和范围,其均应涵盖在本申请的权利要求范围当中。

Claims (10)

1.一种基于3D稀疏卷积的实时点云分割方法,其特征在于,包括:
对含有N个点的原始点云数据进行体素化处理,得到多个体素;
对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;
对每个体素的局部特征进行拼接得到所有体素的局部特征,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;
从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;
将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到N个点的融合特征;
对N个点的融合特征进行处理,得到语义分割结果。
2.根据权利要求1所述的方法,其特征在于,对含有N个点的原始点云数据进行体素化处理,得到多个体素;包括:
使用预设尺寸的正方体对原始点云数据进行体素化处理,得到V个体素:V=L×H×W,其中,L、H和W为长、宽和高方向上的体素数量。
3.根据权利要求2所述的方法,其特征在于,对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;包括:
利用预先训练完成的连接的第一多层感知器和第二多层感知器对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征;
利用全局最大池化层对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征。
4.根据权利要求3所述的方法,其特征在于,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;包括:
利用预先训练完成的体素全局特征提取网络对所有体素的局部特征进行处理,得到所有体素的全局特征;所述体素全局特征提取网络包括依次连接的卷积核尺寸为3×3×3的第一稀疏卷积层、卷积核尺寸为3×3×3的第二稀疏卷积层、卷积核尺寸为3×3×3的第三稀疏卷积层、第一反稀疏卷积层、第一加法器、第二反稀疏卷积层、第二加法器、第三反稀疏卷积层、第三加法器以及卷积核尺寸为1×1×1的第四稀疏卷积层。
5.根据权利要求4所述的方法,其特征在于,利用预先训练完成的体素全局特征提取网络对所有体素的局部特征进行处理,得到所有体素的全局特征;包括:
利用卷积核尺寸为3×3×3的第一稀疏卷积层对所有体素的局部特征Fvl进行处理,得到特征F1vl
利用卷积核尺寸为3×3×3的第二稀疏卷积层对特征F1vl进行处理,得到特征F2vl
利用卷积核尺寸为3×3×3的第三稀疏卷积层对特征F2vl进行处理,得到特征F3vl
利用第一反稀疏卷积层对特征F3vl进行处理,得到特征F4vl
利用第一加法器对特征F2vl和特征F4vl进行相加,得到特征F5vl
利用第二反稀疏卷积层对特征F5vl进行处理,得到特征F6vl
利用第二加法器对特征F1vl和特征F6vl进行相加,得到特征F7vl
利用第三反稀疏卷积层对特征F7vl进行处理,得到特征F8vl
利用第三加法器对特征Fvl和特征F8vl进行相加,得到特征F9vl
利用卷积核尺寸为1×1×1的第四稀疏卷积层对特征F9vl进行处理,得到所有体素的全局特征Fvg
6.根据权利要求5所述的方法,其特征在于,对N个点的融合特征进行处理,得到语义分割结果;包括:
利用预先训练完成的连接的第三多层感知器和第四多层感知器,对N个点的融合特征进行处理,得到语义分割结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:对第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器进行联合训练的步骤。
8.根据权利要求7所述的方法,其特征在于,对第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器进行联合训练的步骤;包括:
获取训练数据集,包括多个标注语义分割结果的点云数据样本;
对点云数据样本进行体素化处理,得到多个体素样本;
利用第一多层感知器和第二多层感知器对含有点的每个体素样本进行处理,得到每个体素样本中各点的局部高维特征;利用全局最大池化层对每个体素样本中各点的局部高维特征进行处理,得到每个体素样本的局部特征;
将每个体素样本的局部特征进行拼接得到所有体素样本的局部特征,利用体素全局特征提取网络对所有体素样本的局部特征进行处理,得到所有体素样本的全局特征;
从所有体素样本的全局特征中提取出每个体素样本的全局特征,将每个体素样本中各点的全局特征设置为所在体素样本的全局特征;
将点云数据样本中的每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到所有点的融合特征;
利用第三多层感知器和第四多层感知器对所有点的融合特征进行处理,得到语义分割的预测结果;
基于预测结果和真实结果,计算损失函数L:
其中,Fgt(i,j)为点云数据样本中第i个点属于第j个类别的真值,取值为0或1,Fpred(i,j)为预测结果中第i个点属于第j个类别的概率,Ndiff为权重,K为类别总数,M为点云数据样本的点的个数;
基于损失函数,更新第一多层感知器、第二多层感知器、体素全局特征提取网络、第三多层感知器和第四多层感知器的参数。
9.一种基于3D稀疏卷积的实时点云分割装置,其特征在于,包括:
体素处理单元,用于对含有N个点的原始点云数据进行体素化处理,得到多个体素;
第一处理单元,用于对含有点的每个体素进行处理,得到每个体素中各点的局部高维特征,对每个体素中各点的局部高维特征进行处理,得到每个体素的局部特征;
第二处理单元,用于对每个体素的局部特征进行拼接得到所有体素的局部特征,基于稀疏3D卷积对所有体素的局部特征进行处理,得到所有体素的全局特征;
第三处理单元,用于从所有体素的全局特征中提取出每个体素的全局特征,将每个体素中各点的全局特征设置为所在体素的全局特征;
拼接单元,用于将每个点的局部高维特征和全局特征进行拼接,得到每个点的融合特征,将每个点的融合特征进行拼接,得到N个点的融合特征;
语义分割单元,用于对N个点的融合特征进行处理,得到语义分割结果。
10.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的方法。
CN202311022466.7A 2023-08-15 2023-08-15 一种基于3d稀疏卷积的实时点云分割方法及装置 Active CN117058402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311022466.7A CN117058402B (zh) 2023-08-15 2023-08-15 一种基于3d稀疏卷积的实时点云分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311022466.7A CN117058402B (zh) 2023-08-15 2023-08-15 一种基于3d稀疏卷积的实时点云分割方法及装置

Publications (2)

Publication Number Publication Date
CN117058402A CN117058402A (zh) 2023-11-14
CN117058402B true CN117058402B (zh) 2024-03-12

Family

ID=88662005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311022466.7A Active CN117058402B (zh) 2023-08-15 2023-08-15 一种基于3d稀疏卷积的实时点云分割方法及装置

Country Status (1)

Country Link
CN (1) CN117058402B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378854A (zh) * 2021-06-11 2021-09-10 武汉大学 一种融合原始点云和体素划分的点云目标检测方法
CN115861632A (zh) * 2022-12-20 2023-03-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN115984564A (zh) * 2023-01-09 2023-04-18 北京数字绿土科技股份有限公司 一种基于体素聚类和稀疏卷积的点云语义分割方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378854A (zh) * 2021-06-11 2021-09-10 武汉大学 一种融合原始点云和体素划分的点云目标检测方法
CN115861632A (zh) * 2022-12-20 2023-03-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN115984564A (zh) * 2023-01-09 2023-04-18 北京数字绿土科技股份有限公司 一种基于体素聚类和稀疏卷积的点云语义分割方法和系统

Also Published As

Publication number Publication date
CN117058402A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN110532571B (zh) 文本处理方法及相关装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN111368993A (zh) 一种数据处理方法及相关设备
EP4206957A1 (en) Model training method and related device
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
JP2022135991A (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
WO2022253074A1 (zh) 一种数据处理方法及相关设备
US20240020541A1 (en) Model training method and apparatus
CN112163601A (zh) 图像分类方法、系统、计算机设备及存储介质
CN113449859A (zh) 一种数据处理方法及其装置
CN113240079A (zh) 一种模型训练方法及装置
CN115221846A (zh) 一种数据处理方法及相关设备
CN111898636A (zh) 一种数据处理方法及装置
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
JP2023531759A (ja) 車線境界線検出モデルの訓練方法、車線境界線検出モデルの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
CN117058402B (zh) 一种基于3d稀疏卷积的实时点云分割方法及装置
CN114792097B (zh) 预训练模型提示向量的确定方法、装置及电子设备
WO2021129410A1 (zh) 文本处理方法及装置
CN116051633B (zh) 一种基于加权关系感知的3d点云目标检测方法及装置
CN116977820B (zh) 一种基于自注意力的轻量化三维目标实时检测方法及装置
CN117372983B (zh) 一种低算力的自动驾驶实时多任务感知方法及装置
JP7495543B2 (ja) 事前トレーニングモデルのプロンプトベクトルの決定方法、装置及び電子機器
CN117743413A (zh) 电网自动化系统的运行状态确定方法、装置和计算机设备
CN116933859A (zh) 一种视觉Transformer的动态剪枝方法
CN117350331A (zh) 一种模型训练方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Xie Tao

Inventor after: Wang Li

Inventor after: Dai Kun

Inventor after: Jiang Zhiqiang

Inventor after: Zhao Xuzuo

Inventor after: Xu Dazhong

Inventor before: Zhang Xinyu

Inventor before: Xie Tao

Inventor before: Wang Li

Inventor before: Dai Kun

Inventor before: Jiang Zhiqiang

Inventor before: Zhao Xuzuo

Inventor before: Xu Dazhong