CN114972763A - 激光雷达点云分割方法、装置、设备及存储介质 - Google Patents

激光雷达点云分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114972763A
CN114972763A CN202210894615.8A CN202210894615A CN114972763A CN 114972763 A CN114972763 A CN 114972763A CN 202210894615 A CN202210894615 A CN 202210894615A CN 114972763 A CN114972763 A CN 114972763A
Authority
CN
China
Prior art keywords
dimensional
point cloud
scale
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210894615.8A
Other languages
English (en)
Other versions
CN114972763B (zh
Inventor
李镇
颜旭
高建焘
郑超达
崔曙光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Original Assignee
Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute filed Critical Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Priority to CN202210894615.8A priority Critical patent/CN114972763B/zh
Priority to PCT/CN2022/113162 priority patent/WO2024021194A1/zh
Publication of CN114972763A publication Critical patent/CN114972763A/zh
Application granted granted Critical
Publication of CN114972763B publication Critical patent/CN114972763B/zh
Priority to US18/602,007 priority patent/US20240212374A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种激光雷达点云分割方法、装置、设备及存储介质,用于解决现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。该方法通过获取目标场景的三维点云和二维图像,并对二维图像进行图块化处理,得到多个图像块,从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征,利用预设的三维特征提取网络,基于三维点云进行特征提取,生成多尺度三维特征,根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征,对融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;基于单模态语义分割模型以三维点云作为输入进行判别,得到语义分割标签对目标场景进行分割。

Description

激光雷达点云分割方法、装置、设备及存储介质
技术领域
本发明涉及图像技术领域,尤其涉及一种激光雷达点云分割方法、装置、设备及存储介质。
背景技术
语义分割算法在大规模户外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用。在过去的几年里,科研学者投入了大量精力来使用相机图像或激光雷达(LiDAR)点云作为输入来理解自然场景。然而,由于所使用的传感器固有的限制,这些单模态方法不可避免地在复杂环境中面临挑战。具体来说,相机提供了密集的颜色信息和细粒度的纹理,但它们在深度感应方面不明确,在弱光条件下也不可靠。相比之下,无论光照变化如何,LiDAR 都能可靠地提供准确和广泛的深度信息,但只能捕获稀疏和无纹理的数据。
目前,通过提供融合策略的方式来对相机和激光雷达这两个互补的传感器的信息进行改进,但是基于融合策略提高分割准确度的方法具有以下不可避免的局限性:
1)由于相机和 LiDAR 之间的视野(field of views,FOV)不同,无法为图像平面外的点建立点到像素的映射。通常,LiDAR和相机的FOV仅在一小部分区域重叠,这极大地限制了基于融合的方法的应用。
2)基于融合的方法消耗更多的计算资源,因为它们在运行时同时处理图像和点云,这给实时应用带来了很大的负担。
发明内容
本发明的主要目的在于提供了一种激光雷达点云分割方法、装置、设备及存储介质,以解决现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。
本发明第一方面提供了一种激光雷达点云分割方法,所述激光雷达点云分割方法包括:
获取目标场景的三维点云和二维图像,并对所述二维图像进行图块化处理,得到多个图像块;
从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征;
利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征;
根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征;
对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
获取待分割的场景三维点云,将其输入至所述单模态语义分割模型中进行语义判别,得到语义分割标签,并基于所述语义分割标签对所述目标场景进行分割。
可选的,所述预设的二维特征提取网络至少包括二维卷积编码器;所述从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中进行特征提取,生成多尺度二维特征,包括:
利用随机算法从多个所述图像块中确定目标图像块,并基于所述目标图像块构建二维特征图;
通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征。
可选的,所述预设的二维特征提取网络还包括全卷积解码器;在所述通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征之后,还包括:
提取多尺度二维特征中属于所述二维卷积编码器中最后一层卷积层的二维特征;
通过所述全卷积解码器,采用向上采样策略对最后一层卷积层的二维特征进行逐步采样,得到解码特征图;
利用所述二维卷积编码器中的最后一层卷积层,对所述解码特征图进行卷积计算,得到新的多尺度二维特征。
可选的,所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器;所述利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征,包括:
利用所述三维卷积编码器,提取所述三维点云中的非空体素,并对所述非空体素进行卷积计算,得到三维卷积特征;
利用向上采样策略对所述三维卷积特征进行上采样操作,得到解码特征;
若采样到的特征的尺寸与原始特征的尺寸相同时,将所述三维卷积特征与所述解码特征进行拼接,得到多尺度三维特征。
可选的,在所述利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征之后,在所述根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征之前,还包括:
利用返卷积操作,将多尺度二维特征的分辨率调整至所述二维图像的分辨率;
基于调整后的多尺度二维特征,利用透视投影法计算其与对应的点云之间的映射关系,生成点到像素映射关系;
基于所述点到像素映射关系确定对应的二维真值标签;
利用预设的体素化函数,构建所述三维点云中各点云点体素映射关系;
根据所述点体素映射关系对多尺度三维特征进行随机线性插值,得到各点云的三维特征。
可选的,所述根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征,包括:
利用基于GRU启发的融合,将所述点云的三维特征转换为二维特征;
利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特,并计算两者之间的差距,以及将所述二维特征与在解码特征图中对应的二维特征进行拼接;
基于所述差距和拼接的结果,得到融合特征。
可选的,所述对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型,包括:
将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数;
基于所述语义分数确定蒸馏损失;
根据所述蒸馏损失,对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型。
本发明第二方面提供了激光雷达点云分割装置,包括:
采集模块,用于获取目标场景的三维点云和二维图像,并对所述二维图像进行图块化处理,得到多个图像块;
二维提取模块,用于从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征;
三维提取模块,用于利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征;
融合模块,用于根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征;
模型生成模块,用于对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
分割模块,用于获取待分割的场景三维点云,将其输入至所述单模态语义分割模型中进行语义判别,得到语义分割标签,并基于所述语义分割标签对所述目标场景进行分割。
可选的,所述预设的二维特征提取网络至少包括二维卷积编码器;所述二维提取模块包括:
构建单元,用于利用随机算法从多个所述图像块中确定目标图像块,并基于所述目标图像块构建二维特征图;
第一卷积单元,用于通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征。
可选的,所述预设的二维特征提取网络还包括全卷积解码器;所述二维提取模块还包括第一解码单元,其具体用于:
提取多尺度二维特征中属于所述二维卷积编码器中最后一层卷积层的二维特征;
通过所述全卷积解码器,采用向上采样策略对最后一层卷积层的二维特征进行逐步采样,得到解码特征图;
利用所述二维卷积编码器中的最后一层卷积层,对所述解码特征图进行卷积计算,得到新的多尺度二维特征。
可选的,所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器;所述三维提取模块包括:
第二卷积单元,用于利用所述三维卷积编码器,提取所述三维点云中的非空体素,并对所述非空体素进行卷积计算,得到三维卷积特征;
第二解码单元,用于利用向上采样策略对所述三维卷积特征进行上采样操作,得到解码特征;
拼接单元,用于在采样到的特征的尺寸与原始特征的尺寸相同时,将所述三维卷积特征与所述解码特征进行拼接,得到多尺度三维特征。
可选的,所述激光雷达点云分割装置还包括:插值模块,其具体用于:
利用返卷积操作,将多尺度二维特征的分辨率调整至所述二维图像的分辨率;
基于调整后的多尺度二维特征,利用透视投影法计算其与对应的点云之间的映射关系,生成点到像素映射关系;
基于所述点到像素映射关系确定对应的二维真值标签;
利用预设的体素化函数,构建所述三维点云中各点云点体素映射关系;
根据所述点体素映射关系对多尺度三维特征进行随机线性插值,得到各点云的三维特征。
可选的,所述融合模块包括:
转换单元,用于利用基于GRU启发的融合,将所述点云的三维特征转换为二维特征;
计算拼接单元,用于利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特,并计算两者之间的差距,以及将所述二维特征与在解码特征图中对应的二维特征进行拼接;
融合单元,用于基于所述差距和拼接的结果,得到融合特征。
可选的,所述模型生成模块包括:
语义获取单元,用于将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数;
确定单元,用于基于所述语义分数确定蒸馏损失;
蒸馏单元,用于根据所述蒸馏损失,对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型。
本发明第三方面提供了一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面提供的激光雷达点云分割方法中的各个步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面提供的激光雷达点云分割方法中的各个步骤。
有益效果:
本发明的技术方案中,通过获取目标场景的三维点云和二维图像,并对二维图像进行图块化处理,得到多个图像块,从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征,利用预设的三维特征提取网络,基于三维点云进行特征提取,生成多尺度三维特征,根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征,对融合特征进行单向模态保持的蒸馏,得到语义分割标签,并基于语义分割标签对目标场景进行分割;通过对二维图像和三维点云的独立编码后进行融合,基于融合特征采用单向模态蒸馏,以得到单模态语义分割模型;基于单模态语义分割模型以三维点云作为输入进行判别,得到语义分割标签,这样得到的语义分割标签融合的二维和三维,充分利用了二维特征辅助三维点云进行语义分割,与基于融合的方法相比,这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。
附图说明
图1为本发明提供的激光雷达点云分割方法的原理图;
图2为本发明提供的激光雷达点云分割方法的第一个实施例示意图;
图3为本发明提供的激光雷达点云分割方法的第二个实施例示意图;
图4(a)为本发明提供的2D特征生成的原理图;
图4(b)为本发明提供的3D特征生成的原理图;
图5为本发明提供的融合与蒸馏的原理图;
图6为本发明提供的激光雷达点云分割装置的一个实施例示意图;
图7为本发明提供的激光雷达点云分割装置的另一个实施例示意图;
图8为本发明提供的电子设备的一个实施例示意图。
具体实施方式
针对现有的通过摄像头和激光雷达传感器捕获的信息进行融合,以实现多模态数据融合进行语义分割的方案中,因为摄像机图像非常大(例如,像素分辨率为1242×512),所以将原始图像发送到多模态管道是很难的。对此本申请提出了一种基于二维先验辅助的激光雷达点云分割方案 (2DPASS,2D Priors Assisted Semantic Segmentation)。这是一种通用的训练方案,以促进点云上的表示学习。所提出的2DPASS算法在训练过程中充分利用了具有丰富外观的2D图像,但在推理阶段却不需要成对的数据作为输入。具体而言,2DPASS算法通过利用一个辅助模态融合模块和多尺度fusion-to-single知识蒸馏(MSFSKD)模块,从多模态数据中获取更丰富的语义和结构信息,然后将其提炼到纯3D网络。因此,在2DPASS的帮助下, 仅使用点云输入,模型都能获得显着的改进。
具体的如图1所示,从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入,在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器,并行提取两个主干的多尺度特征。然后,通过多尺度融合到单一知识蒸馏(MSFSKD)方法以多模态特征增强三维网络,即充分利用纹理和颜色感知的二维先验,同时保留原始的三维特定知识。最后,利用每个尺度的2D和3D特征生成语义分割预测,由纯3D标签进行监督。在推理过程中,可以丢弃与2D相关的分支,与基于融合的方法相比,这有效地避免了在实际应用中额外的计算负担。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1和2所示,本发明实施例中激光雷达点云分割方法的第一个实施例,该方法包括以下步骤:
101、获取目标场景的三维点云和二维图像,并对二维图像进行图块化处理,得到多个图像块;
本实施例中,对于三维点云和二维图像的获取具体可以通过设置于自动驾驶车辆或终端上的激光雷达采集以及图像采集设备进行采集得到。
进一步的,对于将二维图像进行图块化处理,具体的通过图像识别模型对二维图像中的内容进行识别,其中可以通过景深度来识别二维图像中的环境信息和非环境信息,并基于识别结果在二维图像对应的区域上进行标记,基于标记利用图像切分算法进行切分提取,得到多个图像块。
进一步的,还可以按照预先设定的像素大小对二维图像等分划分为多个块,得到图像块。
102、从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征;
该步骤中,该二维特征提取网络为二维多尺度特征编码器,通过随机算法从多个图像块中选择一个输入至二维多尺度特征编码器中,有二维多尺度特征编码器从不同的尺度上对图像块进行特征提取,得到多尺度二维特征。
在本实施例中,所述预设的二维特征提取网络至少包括二维卷积编码器;利用随机算法从多个所述图像块中确定目标图像块,并基于所述目标图像块构建二维特征图;
通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征。
103、利用预设的三维特征提取网络,基于三维点云进行特征提取,生成多尺度三维特征;
该步骤中,所述三维特征提取网络为单位卷积编码器,在进行特征提取时,具体是通过利用所述三维卷积编码器,提取所述三维点云中的非空体素,并对所述非空体素进行卷积计算,得到三维卷积特征;
利用向上采样策略对所述三维卷积特征进行上采样操作,得到解码特征;
若采样到的特征的尺寸与原始特征的尺寸相同时,将所述三维卷积特征与所述解码特征进行拼接,得到多尺度三维特征。
104、根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征;
在本实施例中,该融合处理具体可以通过百分比来进行叠加融合,也可以是通过提取不同通道的特征进行叠加融合。
在实际应用中,通过将三维特征降维处理后,通过多层感知机制分别采用向上感知三维特征和向下感知二维特征,并确定降维后的三维特征与感知的特征之间的相似关系来选择拼接。
105、对融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
106、获取待分割的场景三维点云,将其输入至单模态语义分割模型中进行语义判别,得到语义分割标签,并基于语义分割标签对目标场景进行分割。
本实施例中,对于确定语义分割标签具体是通过将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数;基于所述语义分数确定蒸馏损失;根据所述蒸馏损失,对所述融合特征进行单向模态保持的蒸馏,得到语义分割标签;然后基于所述语义分割标签对所述目标场景进行分割。
本发明实施例中,获取目标场景的三维点云和二维图像,并对二维图像进行图块化处理,得到多个图像块,从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征,利用预设的三维特征提取网络,基于三维点云进行特征提取,生成多尺度三维特征,根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征,对融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;基于单模态语义分割模型以三维点云作为输入进行判别,得到语义分割标签,并基于语义分割标签对目标场景进行分割;解决了现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。
请参阅图1和3,本发明实施例中激光雷达点云分割方法的第二个实施例,该实施例以自动驾驶汽车为例,具体包括以下步骤:
201、通过汽车的前置摄像头采集当前环境的图像和利用激光雷达获取三维点云,并从图像中提取一小块作为二维图像;
该步骤中,由于汽车的摄像机图像非常大(例如,像素分辨率为1242×512),所以将原始图像发送到多模态管道是很难的。因此,从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入,在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器,并行提取两个主干的多尺度特征。
202、利用2D/3D多尺度特征编码器分别对二维图像和三维点云的多尺度特征进行独立编码,得到二维和三维特征;
具体的,采用二维卷积ResNet34编码器作为二维特征提取网络。对于三维特征提取网络,采用稀疏卷积来构造三维网络。稀疏卷积的一个优点是稀疏性,卷积运算只考虑非空体素。具体来说,设计了一个分级编码器SPVCNN,在每个尺度上采用ResNet backbone的设计,同时用Leaky ReLU激活函数替代ReLU激活函数. 在这两个网络中,分别从不同的尺度提取特征图L,得到二维和三维特征,即
Figure 137205DEST_PATH_IMAGE001
Figure 299196DEST_PATH_IMAGE002
在本实施例中,所述预设的二维特征提取网络至少包括二维卷积编码器;所述从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中进行特征提取,生成多尺度二维特征,包括:
利用随机算法从多个所述图像块中确定目标图像块,并基于所述目标图像块构建二维特征图;
通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征。
进一步的,所述预设的二维特征提取网络还包括全卷积解码器;在所述通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征之后,还包括:
提取多尺度二维特征中属于所述二维卷积编码器中最后一层卷积层的二维特征;
通过所述全卷积解码器,采用向上采样策略对最后一层卷积层的二维特征进行逐步采样,得到解码特征图;
利用所述二维卷积编码器中的最后一层卷积层,对所述解码特征图进行卷积计算,得到新的多尺度二维特征。
进一步的,所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器;所述利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征,包括:
利用所述三维卷积编码器,提取所述三维点云中的非空体素,并对所述非空体素进行卷积计算,得到三维卷积特征;
利用向上采样策略对所述三维卷积特征进行上采样操作,得到解码特征;
若采样到的特征的尺寸与原始特征的尺寸相同时,将所述三维卷积特征与所述解码特征进行拼接,得到多尺度三维特征。
在实际应用中,上述的解码器具体可以采用2D/3D预测解码器(2D/3D PredictionDecoders)实现,在处理每个尺度的图像和点云的特征后,分别使用两个特定模态预测解码器将下采样的特征映射恢复到原始大小。
对于二维网络,我们采用FCN解码器对2D多尺度特征编码器中最后一层的特征进行逐步上采样。具体来说,通过下式,可以得到第L层的特征图
Figure 360693DEST_PATH_IMAGE003
Figure 645044DEST_PATH_IMAGE004
其中,ConvBlock(·)和DeConv(·)分别为核大小为3的卷积块和反卷积操作。将第一个解码器的特征图跳跃连接到最后一个编码器层,即:
Figure 57571DEST_PATH_IMAGE005
. 最后,通过线性分类器从解码器传递特征图,得到二维图像块的语义分割结果。
对于三维网络,我们没有采用以往方法中使用的U-Net解码器。相反,我们将不同尺度的特征向上采样到原始大小,并将它们连接在一起,然后将它们输入分类器。我们发现这种结构可以更好地学习层次信息,同时更有效地获得预测。
203、利用返卷积操作,将多尺度二维特征的分辨率调整至二维图像的分辨率;
204、基于调整后的多尺度二维特征,利用透视投影法计算其与对应的点云之间的映射关系,生成点到像素映射关系;
205、基于点到像素映射关系确定对应的二维真值标签;
206、利用预设的体素化函数,构建三维点云中各点云点体素映射关系;
207、根据点体素映射关系对多尺度三维特征进行随机线性插值,得到各点云的三维特征;
在本实施例中,由于二维特征和三维特征通常分别表示为像素和点,因此难以在两种模式之间直接传递信息。在本节中,该方法的目标是利用点到像素的对应关系,生成两种模式的成对特征,以进一步进行知识蒸馏。以往的多传感器方法以整个图像或调整大小的图像作为输入,因为全局上下文通常可以得到更好的分割结果。在本文中,通过裁剪小块图像应用一种更有效的方法。证明,这种方法可以大大加快训练阶段,并表现出与拍摄整个图像同等的效果。在两种模式下成对特征生成的细节如图4(a)和图4(b)所示。其中,图4(a)演示了2D特征生成,首先将点云投影到图像块上,并生成点-像素(point-to-pixel, P2P)映射。然后,根据P2P映射将二维特征图转换为逐点二维特征。图4(b)展示了3D特征的生成。点-体素(P2V)映射容易获得,体素特征将被插值到点云上。
在实际应用中,二维特征生成过程如图图4(a)所示。从原始图像中裁剪出小块
Figure 85570DEST_PATH_IMAGE006
,通过二维网络,可以在不同分辨率的隐藏层中提取出多尺度特征。以第l层的特征图
Figure 267152DEST_PATH_IMAGE007
为例,首先进行一个反卷积操作,将其分辨率提升到原始的
Figure 394508DEST_PATH_IMAGE008
。与最近的多传感器方法类似,采用透视投影并计算点云和图像之间的点-像素映射。具体来说,给定一个激光雷达点云
Figure 294331DEST_PATH_IMAGE009
, 将3D点云的每个点
Figure 860442DEST_PATH_IMAGE010
投影到图像平面的点
Figure 162110DEST_PATH_IMAGE011
,公式如下:
Figure 522684DEST_PATH_IMAGE012
其中
Figure 909803DEST_PATH_IMAGE013
,
Figure 217288DEST_PATH_IMAGE014
分别为相机内参矩阵和外参矩阵。K和T在KITTI数据集中直接提供。由于在NuScenes中激光雷达和摄像机的工作频率不同,通过全局坐标系将时间戳
Figure 107883DEST_PATH_IMAGE015
的激光雷达帧转换为时间戳
Figure 904938DEST_PATH_IMAGE016
的摄像机帧。NuScenes数据集给出了的外参矩阵T为:
Figure 513774DEST_PATH_IMAGE017
投影后的点-像素映射由下式表示:
Figure 687266DEST_PATH_IMAGE018
其中,
Figure 697948DEST_PATH_IMAGE019
表示层运算操作。根据点与像素的映射,如果
Figure 603587DEST_PATH_IMAGE020
中包含了特征图上的任何一个像素,则从原始特征图
Figure 699719DEST_PATH_IMAGE021
中提取一个逐点2D特征
Figure 411323DEST_PATH_IMAGE022
这里
Figure 276511DEST_PATH_IMAGE023
表示包含在
Figure 415368DEST_PATH_IMAGE024
中点的个数。
对于三维特征的处理过程比较简单,如图图4(b)所示。具体来说,对于点云
Figure 998796DEST_PATH_IMAGE025
,得到第l层(
Figure 186195DEST_PATH_IMAGE026
-th layer)的点-体素映射,通过下式:
Figure 171468DEST_PATH_IMAGE027
其中
Figure 481227DEST_PATH_IMAGE028
是第l层的体素化的分辨率。然后,给定来自一个稀疏卷积层的3D特征
Figure 551951DEST_PATH_IMAGE029
,根据
Figure 605358DEST_PATH_IMAGE030
对原始特征图
Figure 445138DEST_PATH_IMAGE031
进行3-NN插值,获得逐点3D特征
Figure 863481DEST_PATH_IMAGE032
。最后,通过丢弃图像视野外的点来过滤这些点:
Figure 155922DEST_PATH_IMAGE033
2D真值标签 (ground-truths):由于只提供2D图像,通过使用上述点与像素映射,将三维点标签投影到相应的图像平面上,得到2D ground-truths。之后,投影得的2Dground truths可以作为2D分支的监督。
特征对应关系(Features Correspondence):由于2D和3D特征都使用相同的点与像素映射,所以在任意第l层的2D特征
Figure 13020DEST_PATH_IMAGE034
和3D特征
Figure 707306DEST_PATH_IMAGE035
都具有数量相同的点
Figure 358867DEST_PATH_IMAGE036
以及相同的点与像素对应关系。
208、利用基于GRU启发的融合,将点云的三维特征转换为二维特征;
该步骤中,基于GRU启发的融合(GRU-inspired Fusion). 对于每个尺度,考虑到由于不同的神经网络骨干(backbones)而产生的2D和3D特征差距,直接将原始的3D特征
Figure 404184DEST_PATH_IMAGE037
融合为对应的2D特征
Figure 737076DEST_PATH_IMAGE038
是无效的。因此,受到门控循环单元(Gate RecurrentUnit, GRU)内部“重置门reset gate”的启发,先将
Figure 285869DEST_PATH_IMAGE039
转换为
Figure 373911DEST_PATH_IMAGE040
,定义为2Dlearner,通过一个多层感知机 (MLP),努力缩小两个特征的差距。随后,
Figure 640944DEST_PATH_IMAGE041
不仅一边进入另一个MLP(感知),一边进入与2D特征
Figure 839844DEST_PATH_IMAGE042
的后续拼接,以获得融合特征
Figure 243144DEST_PATH_IMAGE043
,而且可以通过跳跃连接回到原始的3D特征,从而产生增强的3D特征
Figure 436840DEST_PATH_IMAGE044
。此外,类似于GRU中使用的“更新门update gate”设计,最后增强融合特征
Figure 191170DEST_PATH_IMAGE045
由下式获得:
Figure 928181DEST_PATH_IMAGE046
这里,σ为Sigmoid激活函数。
209、利用多层感知机制感知二维特征对应的其他卷积层得到的点云的三维特,并计算两者之间的差距,以及将二维特征与在解码特征图中对应的二维特征进行拼接;
210、基于差距和拼接的结果,得到融合特征;
在本实施例中,上述融合特征实质上是基于3.多尺度融合-单一知识蒸馏(MSFSKD)的方式得到,具体的:MSFSKD是2DPASS的关键,其目的是利用辅助的二维先验,通过融合再蒸馏的方式,提高每个尺度的三维表示。MSFSKD的知识蒸馏(KD)设计部分受到了XMUDA的启发。然而,XMUDA以一种朴素的跨模态方式处理KD,即简单地将两组单模态特征(即2D或3D)的输出对齐,这不可避免地将两组模态特征推入它们的重叠空间。因此,这种方式实际上丢弃了特定模态的信息,这是多传感器分割的关键。虽然这个问题可以通过引入额外的分割预测层来缓解,但它是跨模态蒸馏固有的,导致预测有偏差。为此,提出了多尺度融合到单一知识蒸馏(MSFSKD)模块,如图5所示。该算法首先将图像和点云的特征进行融合,然后将融合后的和点云的特征进行单向对齐。先融合后蒸馏方法中,融合很好地保留了来自多模态数据的完整信息。此外,单向对齐保证了融合后增强的点云的特征不丢失任何模态特征信息。
211、对融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
212、获取待分割的场景三维点云,将其输入至单模态语义分割模型中进行语义判别,得到语义分割标签,并基于语义分割标签对目标场景进行分割。
在本实施例中,将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数;
基于所述语义分数确定蒸馏损失;
根据所述蒸馏损失,对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型。
进一步的,获取待分割的场景三维点云,将其输入至所述单模态语义分割模型中进行语义判别,得到语义分割标签;基于所述语义分割标签对所述目标场景进行分割。
在实际应用中,模态保持的蒸馏(Modality-Preserving KD). 虽然
Figure 451567DEST_PATH_IMAGE047
是由纯3D特征生成的,但它也会受到2D解码器分割损失的影响,该解码器以增强的融合特征
Figure 881411DEST_PATH_IMAGE048
作为输入。就像融合和点特征之间的残差,2D learner
Figure 857457DEST_PATH_IMAGE049
可以很好地防止蒸馏污染
Figure 335843DEST_PATH_IMAGE050
中的特定模态信息,实现Modality-Preserving KD。最后,在
Figure 979314DEST_PATH_IMAGE051
Figure 314480DEST_PATH_IMAGE052
分别应用两个独立的分类器(全连接层) 获取语义分数
Figure 43402DEST_PATH_IMAGE053
Figure 122216DEST_PATH_IMAGE054
,我们选择KL散度作为蒸馏损失
Figure 620194DEST_PATH_IMAGE055
,如下所示:
Figure 63945DEST_PATH_IMAGE056
Figure 280162DEST_PATH_IMAGE057
在实现中,在计算
Figure 162668DEST_PATH_IMAGE058
时,将
Figure 515152DEST_PATH_IMAGE059
从计算图中分离出来,只将
Figure 457700DEST_PATH_IMAGE060
Figure 895634DEST_PATH_IMAGE061
推近,加强单向蒸馏。
综上,采用这样的知识蒸馏方案,有以下几个优点:
1) 2D leaner和融合与单一蒸馏提供了丰富的纹理信息和结构正则化,以增强3D特征学习,同时不丢失3D中任何模态特定信息。
2)融合分支仅在训练阶段采用。因此,增强的模型在推理过程中几乎不需要额外的计算开销。
本实施例中,从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入,在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器,并行提取两个主干的多尺度特征。然后,通过多尺度融合到单一知识蒸馏(MSFSKD)方法以多模态特征增强三维网络,即充分利用纹理和颜色感知的二维先验,同时保留原始的三维特定知识。最后,利用每个尺度的2D和3D特征生成语义分割预测,由纯3D标签进行监督。在推理过程中,可以丢弃与2D相关的分支,与基于融合的方法相比,这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。
上面对本发明实施例中激光雷达点云分割方法进行了描述,下面对本发明实施例中激光雷达点云分割装置进行描述,请参阅图6,本发明实施例中激光雷达点云分割装置一个实施例包括:
采集模块610,用于获取目标场景的三维点云和二维图像,并对所述二维图像进行图块化处理,得到多个图像块;
二维提取模块620,用于从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征;
三维提取模块630,用于利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征;
融合模块640,用于根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征;
模型生成模块650,用于对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
分割模块660,用于获取待分割的场景三维点云,将其输入至所述单模态语义分割模型中进行语义判别,得到语义分割标签,并基于所述语义分割标签对所述目标场景进行分割。
本实施例提供的装置,通过对二维图像和三维点云的独立编码后进行融合,基于融合特征采用单向模态蒸馏,以得到单模态语义分割模型;基于单模态语义分割模型以三维点云作为输入进行判别,得到语义分割标签,这样得到的语义分割标签融合的二维和三维,充分利用了二维特征辅助三维点云进行语义分割,与基于融合的方法相比,这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。
进一步地,请参阅图7,图7为激光雷达点云分割装置各个模块的细化示意图。
在本实施例另一实施例中,所述预设的二维特征提取网络至少包括二维卷积编码器;所述二维提取模块620包括:
构建单元621,用于利用随机算法从多个所述图像块中确定目标图像块,并基于所述目标图像块构建二维特征图;
第一卷积单元622,用于通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征。
在本实施例另一实施例中,所述预设的二维特征提取网络还包括全卷积解码器;所述二维提取模块还包括第一解码单元623,其具体用于:
提取多尺度二维特征中属于所述二维卷积编码器中最后一层卷积层的二维特征;
通过所述全卷积解码器,采用向上采样策略对最后一层卷积层的二维特征进行逐步采样,得到解码特征图;
利用所述二维卷积编码器中的最后一层卷积层,对所述解码特征图进行卷积计算,得到新的多尺度二维特征。
在本实施例另一实施例中,所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器;所述三维提取模块630包括:
第二卷积单元631,用于利用所述三维卷积编码器,提取所述三维点云中的非空体素,并对所述非空体素进行卷积计算,得到三维卷积特征;
第二解码单元623,用于利用向上采样策略对所述三维卷积特征进行上采样操作,得到解码特征;
拼接单元633,用于在采样到的特征的尺寸与原始特征的尺寸相同时,将所述三维卷积特征与所述解码特征进行拼接,得到多尺度三维特征。
在本实施例另一实施例中,所述激光雷达点云分割装置还包括:插值模块660,其具体用于:
利用返卷积操作,将多尺度二维特征的分辨率调整至所述二维图像的分辨率;
基于调整后的多尺度二维特征,利用透视投影法计算其与对应的点云之间的映射关系,生成点到像素映射关系;
基于所述点到像素映射关系确定对应的二维真值标签;
利用预设的体素化函数,构建所述三维点云中各点云点体素映射关系;
根据所述点体素映射关系对多尺度三维特征进行随机线性插值,得到各点云的三维特征。
在本实施例另一实施例中,所述融合模块640包括:
转换单元641,用于利用基于GRU启发的融合,将所述点云的三维特征转换为二维特征;
计算拼接单元642,用于利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特,并计算两者之间的差距,以及将所述二维特征与在解码特征图中对应的二维特征进行拼接;
融合单元643,用于基于所述差距和拼接的结果,得到融合特征。
在本实施例另一实施例中,所述分割模块650包括:
语义获取单元651,用于将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数;
确定单元652,用于基于所述语义分数确定蒸馏损失;
蒸馏单元653,用于根据所述蒸馏损失,对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型。
通过上述装置的实施,从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入,在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器,并行提取两个主干的多尺度特征。然后,通过多尺度融合到单一知识蒸馏(MSFSKD)方法以多模态特征增强三维网络,即充分利用纹理和颜色感知的二维先验,同时保留原始的三维特定知识。最后,利用每个尺度的2D和3D特征生成语义分割预测,由纯3D标签进行监督。在推理过程中,可以丢弃与2D相关的分支,与基于融合的方法相比,这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大,且分割准确度较低的技术问题。
上面图6和图7从模块化功能实体的角度对本发明实施例中的激光雷达点云分割装置进行详细描述,下面从硬件处理的角度对本发明实施例中电子设备进行详细描述。
图8是本发明实施例提供了一种电子设备的结构示意图,该电子设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对电子设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在电子设备800上执行存储介质830中的一系列指令操作。
电子设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如:WindowsServe,MacOSX,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的电子设备结构还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的激光雷达点云分割方法中的各个步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令或计算机程序,当所述指令或计算机程序被运行时,使得计算机执行上述实施例提供的激光雷达点云分割方法的各个步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种激光雷达点云分割方法,其特征在于,所述激光雷达点云分割方法包括:
获取目标场景的三维点云和二维图像,并对所述二维图像进行图块化处理,得到多个图像块;
从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征;
利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征;
根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征;
对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
获取待分割的场景三维点云,将其输入至所述单模态语义分割模型中进行语义判别,得到语义分割标签,并基于所述语义分割标签对所述目标场景进行分割。
2.根据权利要求1所述的激光雷达点云分割方法,其特征在于,所述预设的二维特征提取网络至少包括二维卷积编码器;所述从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中进行特征提取,生成多尺度二维特征,包括:
利用随机算法从多个所述图像块中确定目标图像块,并基于所述目标图像块构建二维特征图;
通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征。
3.根据权利要求2所述的激光雷达点云分割方法,其特征在于,所述预设的二维特征提取网络还包括全卷积解码器;在所述通过所述二维卷积编码器,基于不同尺度对所述二维特征图进行二维卷积计算,得到多尺度二维特征之后,还包括:
提取多尺度二维特征中属于所述二维卷积编码器中最后一层卷积层的二维特征;
通过所述全卷积解码器,采用向上采样策略对最后一层卷积层的二维特征进行逐步采样,得到解码特征图;
利用所述二维卷积编码器中的最后一层卷积层,对所述解码特征图进行卷积计算,得到新的多尺度二维特征。
4.根据权利要求1所述的激光雷达点云分割方法,其特征在于,所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器;所述利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征,包括:
利用所述三维卷积编码器,提取所述三维点云中的非空体素,并对所述非空体素进行卷积计算,得到三维卷积特征;
利用向上采样策略对所述三维卷积特征进行上采样操作,得到解码特征;
若采样到的特征的尺寸与原始特征的尺寸相同时,将所述三维卷积特征与所述解码特征进行拼接,得到多尺度三维特征。
5.根据权利要求1-4中任一项所述的激光雷达点云分割方法,其特征在于,在所述利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征之后,在所述根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征之前,还包括:
利用返卷积操作,将多尺度二维特征的分辨率调整至所述二维图像的分辨率;
基于调整后的多尺度二维特征,利用透视投影法计算其与对应的点云之间的映射关系,生成点到像素映射关系;
基于所述点到像素映射关系确定对应的二维真值标签;
利用预设的体素化函数,构建所述三维点云中各点云点体素映射关系;
根据所述点体素映射关系对多尺度三维特征进行随机线性插值,得到各点云的三维特征。
6.根据权利要求5所述的激光雷达点云分割方法,其特征在于,所述根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征,包括:
利用基于GRU启发的融合,将所述点云的三维特征转换为二维特征;
利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特,并计算两者之间的差距,以及将所述二维特征与在解码特征图中对应的二维特征进行拼接;
基于所述差距和拼接的结果,得到融合特征。
7.根据权利要求6所述的激光雷达点云分割方法,其特征在于,所述对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型,包括:
将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数;
基于所述语义分数确定蒸馏损失;
根据所述蒸馏损失,对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型。
8.一种激光雷达点云分割装置,其特征在于,所述激光雷达点云分割装置包括:
采集模块,用于获取目标场景的三维点云和二维图像,并对所述二维图像进行图块化处理,得到多个图像块;
二维提取模块,用于从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取,生成多尺度二维特征;
三维提取模块,用于利用预设的三维特征提取网络,基于所述三维点云进行特征提取,生成多尺度三维特征;
融合模块,用于根据多尺度二维特征和多尺度三维特征进行融合处理,得到融合特征;
模型生成模块,用于对所述融合特征进行单向模态保持的蒸馏,得到单模态语义分割模型;
分割模块,用于获取待分割的场景三维点云,将其输入至所述单模态语义分割模型中进行语义判别,得到语义分割标签,并基于所述语义分割标签对所述目标场景进行分割。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的激光雷达点云分割方法中的各个步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的激光雷达点云分割方法中的各个步骤。
CN202210894615.8A 2022-07-28 2022-07-28 激光雷达点云分割方法、装置、设备及存储介质 Active CN114972763B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210894615.8A CN114972763B (zh) 2022-07-28 2022-07-28 激光雷达点云分割方法、装置、设备及存储介质
PCT/CN2022/113162 WO2024021194A1 (zh) 2022-07-28 2022-08-17 激光雷达点云分割方法、装置、设备及存储介质
US18/602,007 US20240212374A1 (en) 2022-07-28 2024-03-11 Lidar point cloud segmentation method, device, apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210894615.8A CN114972763B (zh) 2022-07-28 2022-07-28 激光雷达点云分割方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114972763A true CN114972763A (zh) 2022-08-30
CN114972763B CN114972763B (zh) 2022-11-04

Family

ID=82970022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210894615.8A Active CN114972763B (zh) 2022-07-28 2022-07-28 激光雷达点云分割方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20240212374A1 (zh)
CN (1) CN114972763B (zh)
WO (1) WO2024021194A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953586A (zh) * 2022-10-11 2023-04-11 香港中文大学(深圳)未来智联网络研究院 跨模态知识蒸馏的方法、系统、电子装置和存储介质
CN116091778A (zh) * 2023-03-28 2023-05-09 北京五一视界数字孪生科技股份有限公司 一种数据的语义分割处理方法、装置及设备
CN116229057A (zh) * 2022-12-22 2023-06-06 之江实验室 一种基于深度学习的三维激光雷达点云语义分割的方法和装置
CN116416586A (zh) * 2022-12-19 2023-07-11 香港中文大学(深圳) 基于rgb点云的地图元素感知方法、终端及存储介质
CN116612129A (zh) * 2023-06-02 2023-08-18 清华大学 适用于恶劣环境的低功耗自动驾驶点云分割方法及装置
CN117422848A (zh) * 2023-10-27 2024-01-19 神力视界(深圳)文化科技有限公司 三维模型的分割方法及装置
CN117953335A (zh) * 2024-03-27 2024-04-30 中国兵器装备集团自动化研究所有限公司 一种跨域迁移持续学习方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117706942B (zh) * 2024-02-05 2024-04-26 四川大学 一种环境感知与自适应驾驶辅助电子控制方法及系统

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345510A (zh) * 2018-09-07 2019-02-15 百度在线网络技术(北京)有限公司 物体检测方法、装置、设备、存储介质及车辆
US20190080455A1 (en) * 2017-09-12 2019-03-14 Beihang University Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
CN111462137A (zh) * 2020-04-02 2020-07-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于知识蒸馏和语义融合的点云场景分割方法
CN111862101A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种鸟瞰图编码视角下的3d点云语义分割方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
US20210146952A1 (en) * 2019-11-14 2021-05-20 Motional Ad Llc Sequential fusion for 3d object detection
CN113359810A (zh) * 2021-07-29 2021-09-07 东北大学 一种基于多传感器的无人机着陆区域识别方法
CN113361499A (zh) * 2021-08-09 2021-09-07 南京邮电大学 基于二维纹理和三维姿态融合的局部对象提取方法、装置
CN113378756A (zh) * 2021-06-24 2021-09-10 深圳市赛维网络科技有限公司 一种三维人体语义分割方法、终端设备及存储介质
CN113850270A (zh) * 2021-04-15 2021-12-28 北京大学 基于点云-体素聚合网络模型的语义场景补全方法及系统
CN113989797A (zh) * 2021-10-26 2022-01-28 清华大学苏州汽车研究院(相城) 一种基于体素点云融合的三维动态目标检测方法及装置
CN114004972A (zh) * 2021-12-03 2022-02-01 京东鲲鹏(江苏)科技有限公司 一种图像语义分割方法、装置、设备和存储介质
CN114140672A (zh) * 2021-11-19 2022-03-04 江苏大学 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法
CN114255238A (zh) * 2021-11-26 2022-03-29 电子科技大学长三角研究院(湖州) 一种融合图像特征的三维点云场景分割方法及系统
CN114359902A (zh) * 2021-12-03 2022-04-15 武汉大学 基于多尺度特征融合的三维点云语义分割方法
CN114494276A (zh) * 2022-04-18 2022-05-13 成都理工大学 一种两阶段多模态三维实例分割方法
CN114494708A (zh) * 2022-01-25 2022-05-13 中山大学 基于多模态特征融合点云数据分类方法及装置
CN114549537A (zh) * 2022-02-18 2022-05-27 东南大学 基于跨模态语义增强的非结构化环境点云语义分割方法
CN114742888A (zh) * 2022-03-12 2022-07-12 北京工业大学 一种基于深度学习的6d姿态估计方法
CN114743014A (zh) * 2022-03-28 2022-07-12 西安电子科技大学 基于多头自注意力的激光点云特征提取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110622213B (zh) * 2018-02-09 2022-11-15 百度时代网络技术(北京)有限公司 利用3d语义地图进行深度定位和分段的系统和方法
CN113487664B (zh) * 2021-07-23 2023-08-04 深圳市人工智能与机器人研究院 三维场景感知方法、装置、电子设备、机器人及介质

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080455A1 (en) * 2017-09-12 2019-03-14 Beihang University Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
CN109345510A (zh) * 2018-09-07 2019-02-15 百度在线网络技术(北京)有限公司 物体检测方法、装置、设备、存储介质及车辆
US20210146952A1 (en) * 2019-11-14 2021-05-20 Motional Ad Llc Sequential fusion for 3d object detection
CN111462137A (zh) * 2020-04-02 2020-07-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于知识蒸馏和语义融合的点云场景分割方法
CN111862101A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种鸟瞰图编码视角下的3d点云语义分割方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113850270A (zh) * 2021-04-15 2021-12-28 北京大学 基于点云-体素聚合网络模型的语义场景补全方法及系统
CN113378756A (zh) * 2021-06-24 2021-09-10 深圳市赛维网络科技有限公司 一种三维人体语义分割方法、终端设备及存储介质
CN113359810A (zh) * 2021-07-29 2021-09-07 东北大学 一种基于多传感器的无人机着陆区域识别方法
CN113361499A (zh) * 2021-08-09 2021-09-07 南京邮电大学 基于二维纹理和三维姿态融合的局部对象提取方法、装置
CN113989797A (zh) * 2021-10-26 2022-01-28 清华大学苏州汽车研究院(相城) 一种基于体素点云融合的三维动态目标检测方法及装置
CN114140672A (zh) * 2021-11-19 2022-03-04 江苏大学 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法
CN114255238A (zh) * 2021-11-26 2022-03-29 电子科技大学长三角研究院(湖州) 一种融合图像特征的三维点云场景分割方法及系统
CN114004972A (zh) * 2021-12-03 2022-02-01 京东鲲鹏(江苏)科技有限公司 一种图像语义分割方法、装置、设备和存储介质
CN114359902A (zh) * 2021-12-03 2022-04-15 武汉大学 基于多尺度特征融合的三维点云语义分割方法
CN114494708A (zh) * 2022-01-25 2022-05-13 中山大学 基于多模态特征融合点云数据分类方法及装置
CN114549537A (zh) * 2022-02-18 2022-05-27 东南大学 基于跨模态语义增强的非结构化环境点云语义分割方法
CN114742888A (zh) * 2022-03-12 2022-07-12 北京工业大学 一种基于深度学习的6d姿态估计方法
CN114743014A (zh) * 2022-03-28 2022-07-12 西安电子科技大学 基于多头自注意力的激光点云特征提取方法及装置
CN114494276A (zh) * 2022-04-18 2022-05-13 成都理工大学 一种两阶段多模态三维实例分割方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JIANGHONG ZHAO等: "The Fusion Strategy of 2D and 3D Information Based on Deep Learning: A Review", 《REMOTE SENSING》 *
XU YAN等: "2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds", 《ARXIV:2207.04397V1》 *
ZHENGZHE LIU等: "3D-to-2D Distillation for Indoor Scene Parsing", 《ARXIV:2104.02243V2》 *
吴开阳: "基于激光雷达传感器的三维多目标检测与跟踪技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李松松: "基于RGB-D数据的室内场景分割技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李艾瑾: "基于注意力机制和深度多尺度融合网络的语义分割研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *
杨佳辉: "旋翼无人机狭窄通道穿越与受困人员姿态估计", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *
石甜: "基于2D/3D复合机器视觉的三维钢轨表面缺陷检测技术研究", 《中国博士学位论文全文数据库 工程科技II辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953586A (zh) * 2022-10-11 2023-04-11 香港中文大学(深圳)未来智联网络研究院 跨模态知识蒸馏的方法、系统、电子装置和存储介质
CN116416586A (zh) * 2022-12-19 2023-07-11 香港中文大学(深圳) 基于rgb点云的地图元素感知方法、终端及存储介质
CN116416586B (zh) * 2022-12-19 2024-04-02 香港中文大学(深圳) 基于rgb点云的地图元素感知方法、终端及存储介质
CN116229057A (zh) * 2022-12-22 2023-06-06 之江实验室 一种基于深度学习的三维激光雷达点云语义分割的方法和装置
CN116229057B (zh) * 2022-12-22 2023-10-27 之江实验室 一种基于深度学习的三维激光雷达点云语义分割的方法和装置
CN116091778A (zh) * 2023-03-28 2023-05-09 北京五一视界数字孪生科技股份有限公司 一种数据的语义分割处理方法、装置及设备
CN116612129A (zh) * 2023-06-02 2023-08-18 清华大学 适用于恶劣环境的低功耗自动驾驶点云分割方法及装置
CN117422848A (zh) * 2023-10-27 2024-01-19 神力视界(深圳)文化科技有限公司 三维模型的分割方法及装置
CN117953335A (zh) * 2024-03-27 2024-04-30 中国兵器装备集团自动化研究所有限公司 一种跨域迁移持续学习方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114972763B (zh) 2022-11-04
US20240212374A1 (en) 2024-06-27
WO2024021194A1 (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
CN114972763B (zh) 激光雷达点云分割方法、装置、设备及存储介质
Milioto et al. Rangenet++: Fast and accurate lidar semantic segmentation
Ma et al. Multi-scale point-wise convolutional neural networks for 3D object segmentation from LiDAR point clouds in large-scale environments
Yang et al. Pixor: Real-time 3d object detection from point clouds
US11482014B2 (en) 3D auto-labeling with structural and physical constraints
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
Germain et al. Sparse-to-dense hypercolumn matching for long-term visual localization
Fan et al. Multi-level contextual rnns with attention model for scene labeling
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
Meyer et al. Laserflow: Efficient and probabilistic object detection and motion forecasting
Cheng et al. S3Net: 3D LiDAR sparse semantic segmentation network
JP2023549036A (ja) 点群からの効率的な三次元物体検出
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
US20230099521A1 (en) 3d map and method for generating a 3d map via temporal and unified panoptic segmentation
Berwo et al. Deep learning techniques for vehicle detection and classification from images/videos: A survey
He et al. Learning scene dynamics from point cloud sequences
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
Arruda et al. Cross-domain object detection using unsupervised image translation
CN114802261A (zh) 泊车控制方法、障碍物识别模型训练方法、装置
Shao et al. Semantic segmentation for free space and lane based on grid-based interest point detection
CN113255779B (zh) 多源感知数据融合识别方法、系统及计算机可读存储介质
Zhang et al. Learning adjustable reduced downsampling network for small object detection in urban Environments
Acun et al. D3NET (divide and detect drivable area net): deep learning based drivable area detection and its embedded application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant