CN114708475A - 一种用于3d场景理解的点云多模态特征融合网络方法 - Google Patents

一种用于3d场景理解的点云多模态特征融合网络方法 Download PDF

Info

Publication number
CN114708475A
CN114708475A CN202210323717.4A CN202210323717A CN114708475A CN 114708475 A CN114708475 A CN 114708475A CN 202210323717 A CN202210323717 A CN 202210323717A CN 114708475 A CN114708475 A CN 114708475A
Authority
CN
China
Prior art keywords
point cloud
features
view
image
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210323717.4A
Other languages
English (en)
Inventor
郭延文
赵志伟
吴政亿
任大勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210323717.4A priority Critical patent/CN114708475A/zh
Publication of CN114708475A publication Critical patent/CN114708475A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于3D场景理解的点云多模态特征融合网络方法,包括以下步骤:步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;步骤3:使用PointNet++提取点云的全局特征和部分局部特征;步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;步骤5:将点云分支和图像分支的特征进行拼接合并;步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;步骤7:将步骤6得到的融合特征特征进行逐位加操作;步骤8:将图像特征和步骤7得到的特征进行拼接合并;步骤9:重复步骤6、7、8两次后得到最后的融合特征;步骤10:对于步骤9的输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;步骤11:对于步骤9的输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;步骤12:点云语义分割和类别的显示,本发明是一个精度更高且更加鲁棒的点云语义分割模型,可用于绝大多数的室内场景理解任务中。

Description

一种用于3D场景理解的点云多模态特征融合网络方法
技术领域
本发明属于人工智能领域,涉及一种用于3D场景理解的点云多模态特征融合网络方法。
背景技术
近些年来,语义分割和场景理解在自动驾驶、无人机、定位与建图(SLAM)、机器人等相关的人工智能领域得到广泛的应用。同时,3D点云数据正在迅速增长,无论是源于CAD模型还是来自LiDAR传感器或RGBD相机的扫描点云,无处不在。 另外,大多数系统直接获取3D点云而不是拍摄图像并进行处理。因此,点云的场景理解逐步变得至关重要。然而,由于实际环境的复杂性和深度图像的不准确性,点云数据的场景理解仍然存在许多挑战。点云的模型可以初步提取全局特征和部分局部特征,而二维图像可以很好的提取多尺度的不同视图中的特征。图像作为点云的二维表现形式,因此,采用一种新颖的互补的特征融合方式至关重要。
发明内容:
由于利用图像相关信息可以帮助提升点云语义分割精度与效果,目前的大多数的语义分割方法都使用了图像进行提取特征或有监督训练。
本方法提出了一种用于3D场景理解的点云多模态特征融合网络方法,旨在处理点云特征和图像特征的多模态融合进行监督训练,最终得到一个精度更高且更加鲁棒的点云语义分割模型。
本发明提出一种用于3D场景理解的点云多模态特征融合网络方法,包括以下步骤:
步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;
步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;
步骤3:使用PointNet++提取点云的全局特征和部分局部特征;
步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;
步骤5:将点云分支和图像分支的特征进行拼接合并;
步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;
步骤7:将步骤6得到的融合特征和拼接特征进行逐位加操作;
步骤8:将图像特征和步骤7得到的特征进行拼接合并;
步骤9:重复步骤6、7、8两次后得到最后的融合特征;
步骤10:对于步骤9输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;
步骤11:对于步骤9输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;
步骤12:显示点云的3D场景理解效果图。
进一步地,步骤1包括如下步骤:
步骤1-1:下载现有的S3DIS数据集和ModelNet40数据集;
步骤1-2:处理获取点云数据。
进一步地,步骤2包括如下步骤:
步骤2-1:从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据;
步骤2-2:生成其对应的多视图图像。
进一步地,步骤3包括以下步骤:
步骤3-1:构造PointNet++图像特征提取网络并输入原始点云数据提取点云特征,并加载在预训练模型参数;
步骤3-2:PointNet++网络首部主要分为sample&grouping和pointnet组成的setabstraction对点云进行局部的全局特征提取。
进一步地,步骤4包括以下步骤:
步骤4-1:构造VGG16图像特征提取网络并加载在预训练模型参数,输入不同的视图图像提取特征;
步骤4-2:VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层,在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。
进一步地,步骤5方法如下:
将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。
进一步地,步骤6方法包括:
将拼接点云特征和图像特征通过两个1x1的卷积层进行融合,再通过Relu激活层。
进一步地,步骤7方法包括以下步骤:
将融合特征和拼接得到的特征进行逐位加操作。
进一步地,步骤8方法包括:
再将图像特征和步骤7得到的特征进行拼接合并。
进一步地,步骤9方法如下:
在重复步骤6、步骤7和步骤8两次后,经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。
进一步地,步骤10方法包含:
将步骤9得到的特征使用语义分割网络预测点云的语义信息,使用标注信息进行监督训练。
进一步地,步骤11方法如下:
步骤11-1:将步骤9得到的特征使用分类网络预测点云的类别信息,使用标注信息进行监督训练;
步骤11-2:分类网络由若各干个全连接层组成。
进一步地,步骤12方法如下:
最后将得到的点云语义分割和语义类别进行显示。
本发明的有益效果:
探索了室内场景下多任务之间的关联性和互补性;提出一种3D场景理解的点云多模态特征融合网络方法,可以处理融合点云特征和图像特征并互补语义信息进行监督训练;最终可以得到一个精度更高且更加鲁棒的点云语义分割模型,可用于绝大多数的室内场景理解任务中。
本方法在室内场景理解任务上取得了极高的精度,而且适用性广泛,可适配多种不同任务组合。
附图说明:
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为本算法的整体流程图,对应步骤3到步骤11;
图2为3D场景理解的点云多模态特征融合网络方法框架图;
图3为最终的语义分割效果示意图。
具体实施方式:
下面将结合附图和实施例对本发明作详细说明。
本算法总体包括以下步骤:
如图1-2所示,一种用于3D场景理解的点云多模态特征融合网络方法,包括以下步骤:
步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;
步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;
步骤3:使用PointNet++提取点云的全局特征和部分局部特征;
步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;
步骤5:将点云分支和图像分支的特征进行拼接合并;
步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;
步骤7:将步骤6得到的融合特征和拼接特征进行逐位加操作;
步骤8:将图像特征和步骤7得到的特征进行拼接合并;
步骤9:重复步骤6、7、8两次后得到最后的融合特征;
步骤10:对于步骤9输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;
步骤11:对于步骤9输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;
步骤12:显示点云的3D场景理解效果图。
进一步地,步骤1包括如下步骤:
步骤1-1:下载现有的S3DIS数据集和ModelNet40数据集;
步骤1-2:处理获取点云数据。
进一步地,步骤2包括如下步骤:
步骤2-1:从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据;
步骤2-2:生成其对应的多视图图像。
进一步地,步骤3包括以下步骤:
步骤3-1:构造PointNet++图像特征提取网络并输入原始点云数据提取点云特征,并加载在预训练模型参数;
步骤3-2:PointNet++网络首部主要分为sample&grouping和pointnet组成的setabstraction对点云进行局部的全局特征提取。
进一步地,步骤4包括以下步骤:
步骤4-1:构造VGG16图像特征提取网络并加载在预训练模型参数,输入不同的视图图像提取特征;
步骤4-2:VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层,在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。
进一步地,步骤5方法如下:
将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。
进一步地,步骤6方法包括:
将拼接点云特征和图像特征通过两个1x1的卷积层进行融合,再通过Relu激活层。
进一步地,步骤7方法包括以下步骤:
将融合特征和拼接得到的特征进行逐位加操作。
进一步地,步骤8方法包括:
再将图像特征和步骤7得到的特征进行拼接合并。
进一步地,步骤9方法如下:
在重复步骤6、步骤7和步骤8两次后,经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。
进一步地,步骤10方法包含:
将步骤9得到的特征使用语义分割网络预测点云的语义信息,使用标注信息进行监督训练。
进一步地,步骤11方法如下:
步骤11-1:将步骤9得到的特征使用分类网络预测点云的类别信息,使用标注信息进行监督训练;
步骤11-2:分类网络由若各干个全连接层组成。
进一步地,步骤12方法如下:
最后将得到的点云语义分割和语义类别进行显示。
图3为最终的语义分割效果示意图,左边一列代表原始点云,中间一列代表语义分割的真实值,右边一列为我们的最终语义分割效果。
本发明具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (13)

1.一种用于3D场景理解的点云多模态特征融合网络方法,其特征在于,包括以下步骤:
步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;
步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;
步骤3:使用PointNet++提取点云的全局特征和部分局部特征;
步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;
步骤5:将点云分支和图像分支的特征进行拼接合并;
步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;
步骤7:将步骤6得到的融合特征和拼接特征进行逐位加操作;
步骤8:将图像特征和步骤7得到的特征进行拼接合并;
步骤9:重复步骤6、7、8两次后得到最后的融合特征;
步骤10:对于步骤9输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;
步骤11:对于步骤9输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;
步骤12:显示点云的3D场景理解效果图。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1:下载现有的S3DIS数据集和ModelNet40数据集;
步骤1-2:处理获取点云数据。
3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1:从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据;
步骤2-2:生成其对应的多视图图像。
4.根据权利要求3所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1:构造PointNet++图像特征提取网络并输入原始点云数据提取点云特征,并加载在预训练模型参数;
步骤3-2:PointNet++网络首部主要分为sample&grouping和pointnet组成的setabstraction对点云进行局部的全局特征提取。
5.根据权利要求4所述方法,其特征在于,步骤4包括以下步骤:
步骤4-1:构造VGG16图像特征提取网络并加载在预训练模型参数,输入不同的视图图像提取特征;
步骤4-2:VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层,在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。
6.根据权利要求5所述方法,其特征在于,步骤5方法如下:
将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。
7.根据权利要求6所述方法,其特征在于,步骤6方法包括:
将拼接点云特征和图像特征通过两个1x1的卷积层进行融合,再通过Relu激活层。
8.根据权利要求7所述方法,其特征在于,步骤7方法包括以下步骤:
将融合特征和拼接得到的特征进行逐位加操作。
9.根据权利要求8所述方法,其特征在于,步骤8方法包括:
再将图像特征和步骤7得到的特征进行拼接合并。
10.根据权利要求9所述方法,其特征在于,步骤9方法如下:
在重复步骤6、步骤7和步骤8两次后,经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。
11.根据权利要求10所述方法,其特征在于,步骤10方法包含:
将步骤9得到的特征使用语义分割网络预测点云的语义信息,使用标注信息进行监督训练。
12.根据权利要求11所述方法,其特征在于,步骤11方法如下:
步骤11-1:将步骤9得到的特征使用分类网络预测点云的类别信息,使用标注信息进行监督训练;
步骤11-2:分类网络由若各干个全连接层组成。
13.根据权利要求12所述方法,其特征在于,步骤12方法如下:
最后将得到的点云语义分割和语义类别进行显示。
CN202210323717.4A 2022-03-30 2022-03-30 一种用于3d场景理解的点云多模态特征融合网络方法 Pending CN114708475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210323717.4A CN114708475A (zh) 2022-03-30 2022-03-30 一种用于3d场景理解的点云多模态特征融合网络方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210323717.4A CN114708475A (zh) 2022-03-30 2022-03-30 一种用于3d场景理解的点云多模态特征融合网络方法

Publications (1)

Publication Number Publication Date
CN114708475A true CN114708475A (zh) 2022-07-05

Family

ID=82171242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210323717.4A Pending CN114708475A (zh) 2022-03-30 2022-03-30 一种用于3d场景理解的点云多模态特征融合网络方法

Country Status (1)

Country Link
CN (1) CN114708475A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131619A (zh) * 2022-08-26 2022-09-30 北京江河惠远科技有限公司 基于点云和图像融合的特高压零件分拣方法和系统
CN115953586A (zh) * 2022-10-11 2023-04-11 香港中文大学(深圳)未来智联网络研究院 跨模态知识蒸馏的方法、系统、电子装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131619A (zh) * 2022-08-26 2022-09-30 北京江河惠远科技有限公司 基于点云和图像融合的特高压零件分拣方法和系统
CN115953586A (zh) * 2022-10-11 2023-04-11 香港中文大学(深圳)未来智联网络研究院 跨模态知识蒸馏的方法、系统、电子装置和存储介质

Similar Documents

Publication Publication Date Title
Alonso et al. 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation
CN108230337B (zh) 一种基于移动端的语义slam系统实现的方法
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN110379020B (zh) 一种基于生成对抗网络的激光点云上色方法和装置
Tian et al. Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint
EP4164761A1 (en) Computing images of dynamic scenes
CA3121440A1 (en) Assembly body change detection method, device and medium based on attention mechanism
CN114708475A (zh) 一种用于3d场景理解的点云多模态特征融合网络方法
CN110706269B (zh) 一种基于双目视觉slam的动态场景密集建模方法
EP4451231A1 (en) Vehicle autonomous driving perception self-learning method and apparatus, and electronic device
CN110942512B (zh) 基于元学习的室内场景重建方法
CN110866936A (zh) 视频标注方法、跟踪方法、装置、计算机设备及存储介质
CN110738200A (zh) 车道线3d点云地图构建方法、电子设备及存储介质
CN114519853B (zh) 一种基于多模态融合的三维目标检测方法及系统
Liu et al. Deep representation learning for road detection using Siamese network
CN115147545A (zh) 一种基于bim和深度学习的场景三维智能重建系统及方法
CN113724388B (zh) 高精地图的生成方法、装置、设备以及存储介质
CN111105451A (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN116843754A (zh) 一种基于多特征融合的视觉定位方法及系统
CN118230323A (zh) 一种融合空间细节上下文与多尺度交互图像语义分割方法
CN113763447A (zh) 深度图的补全方法、电子设备及存储介质
CN112529917A (zh) 一种三维目标分割方法、装置、设备和存储介质
CN111951319A (zh) 一种图像立体匹配方法
CN115359067A (zh) 一种基于连续卷积网络的逐点融合点云语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication