CN114708475A - 一种用于3d场景理解的点云多模态特征融合网络方法 - Google Patents
一种用于3d场景理解的点云多模态特征融合网络方法 Download PDFInfo
- Publication number
- CN114708475A CN114708475A CN202210323717.4A CN202210323717A CN114708475A CN 114708475 A CN114708475 A CN 114708475A CN 202210323717 A CN202210323717 A CN 202210323717A CN 114708475 A CN114708475 A CN 114708475A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- features
- view
- image
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种用于3D场景理解的点云多模态特征融合网络方法,包括以下步骤:步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;步骤3:使用PointNet++提取点云的全局特征和部分局部特征;步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;步骤5:将点云分支和图像分支的特征进行拼接合并;步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;步骤7:将步骤6得到的融合特征特征进行逐位加操作;步骤8:将图像特征和步骤7得到的特征进行拼接合并;步骤9:重复步骤6、7、8两次后得到最后的融合特征;步骤10:对于步骤9的输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;步骤11:对于步骤9的输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;步骤12:点云语义分割和类别的显示,本发明是一个精度更高且更加鲁棒的点云语义分割模型,可用于绝大多数的室内场景理解任务中。
Description
技术领域
本发明属于人工智能领域,涉及一种用于3D场景理解的点云多模态特征融合网络方法。
背景技术
近些年来,语义分割和场景理解在自动驾驶、无人机、定位与建图(SLAM)、机器人等相关的人工智能领域得到广泛的应用。同时,3D点云数据正在迅速增长,无论是源于CAD模型还是来自LiDAR传感器或RGBD相机的扫描点云,无处不在。 另外,大多数系统直接获取3D点云而不是拍摄图像并进行处理。因此,点云的场景理解逐步变得至关重要。然而,由于实际环境的复杂性和深度图像的不准确性,点云数据的场景理解仍然存在许多挑战。点云的模型可以初步提取全局特征和部分局部特征,而二维图像可以很好的提取多尺度的不同视图中的特征。图像作为点云的二维表现形式,因此,采用一种新颖的互补的特征融合方式至关重要。
发明内容:
由于利用图像相关信息可以帮助提升点云语义分割精度与效果,目前的大多数的语义分割方法都使用了图像进行提取特征或有监督训练。
本方法提出了一种用于3D场景理解的点云多模态特征融合网络方法,旨在处理点云特征和图像特征的多模态融合进行监督训练,最终得到一个精度更高且更加鲁棒的点云语义分割模型。
本发明提出一种用于3D场景理解的点云多模态特征融合网络方法,包括以下步骤:
步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;
步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;
步骤3:使用PointNet++提取点云的全局特征和部分局部特征;
步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;
步骤5:将点云分支和图像分支的特征进行拼接合并;
步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;
步骤7:将步骤6得到的融合特征和拼接特征进行逐位加操作;
步骤8:将图像特征和步骤7得到的特征进行拼接合并;
步骤9:重复步骤6、7、8两次后得到最后的融合特征;
步骤10:对于步骤9输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;
步骤11:对于步骤9输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;
步骤12:显示点云的3D场景理解效果图。
进一步地,步骤1包括如下步骤:
步骤1-1:下载现有的S3DIS数据集和ModelNet40数据集;
步骤1-2:处理获取点云数据。
进一步地,步骤2包括如下步骤:
步骤2-1:从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据;
步骤2-2:生成其对应的多视图图像。
进一步地,步骤3包括以下步骤:
步骤3-1:构造PointNet++图像特征提取网络并输入原始点云数据提取点云特征,并加载在预训练模型参数;
步骤3-2:PointNet++网络首部主要分为sample&grouping和pointnet组成的setabstraction对点云进行局部的全局特征提取。
进一步地,步骤4包括以下步骤:
步骤4-1:构造VGG16图像特征提取网络并加载在预训练模型参数,输入不同的视图图像提取特征;
步骤4-2:VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层,在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。
进一步地,步骤5方法如下:
将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。
进一步地,步骤6方法包括:
将拼接点云特征和图像特征通过两个1x1的卷积层进行融合,再通过Relu激活层。
进一步地,步骤7方法包括以下步骤:
将融合特征和拼接得到的特征进行逐位加操作。
进一步地,步骤8方法包括:
再将图像特征和步骤7得到的特征进行拼接合并。
进一步地,步骤9方法如下:
在重复步骤6、步骤7和步骤8两次后,经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。
进一步地,步骤10方法包含:
将步骤9得到的特征使用语义分割网络预测点云的语义信息,使用标注信息进行监督训练。
进一步地,步骤11方法如下:
步骤11-1:将步骤9得到的特征使用分类网络预测点云的类别信息,使用标注信息进行监督训练;
步骤11-2:分类网络由若各干个全连接层组成。
进一步地,步骤12方法如下:
最后将得到的点云语义分割和语义类别进行显示。
本发明的有益效果:
探索了室内场景下多任务之间的关联性和互补性;提出一种3D场景理解的点云多模态特征融合网络方法,可以处理融合点云特征和图像特征并互补语义信息进行监督训练;最终可以得到一个精度更高且更加鲁棒的点云语义分割模型,可用于绝大多数的室内场景理解任务中。
本方法在室内场景理解任务上取得了极高的精度,而且适用性广泛,可适配多种不同任务组合。
附图说明:
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为本算法的整体流程图,对应步骤3到步骤11;
图2为3D场景理解的点云多模态特征融合网络方法框架图;
图3为最终的语义分割效果示意图。
具体实施方式:
下面将结合附图和实施例对本发明作详细说明。
本算法总体包括以下步骤:
如图1-2所示,一种用于3D场景理解的点云多模态特征融合网络方法,包括以下步骤:
步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;
步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;
步骤3:使用PointNet++提取点云的全局特征和部分局部特征;
步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;
步骤5:将点云分支和图像分支的特征进行拼接合并;
步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;
步骤7:将步骤6得到的融合特征和拼接特征进行逐位加操作;
步骤8:将图像特征和步骤7得到的特征进行拼接合并;
步骤9:重复步骤6、7、8两次后得到最后的融合特征;
步骤10:对于步骤9输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;
步骤11:对于步骤9输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;
步骤12:显示点云的3D场景理解效果图。
进一步地,步骤1包括如下步骤:
步骤1-1:下载现有的S3DIS数据集和ModelNet40数据集;
步骤1-2:处理获取点云数据。
进一步地,步骤2包括如下步骤:
步骤2-1:从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据;
步骤2-2:生成其对应的多视图图像。
进一步地,步骤3包括以下步骤:
步骤3-1:构造PointNet++图像特征提取网络并输入原始点云数据提取点云特征,并加载在预训练模型参数;
步骤3-2:PointNet++网络首部主要分为sample&grouping和pointnet组成的setabstraction对点云进行局部的全局特征提取。
进一步地,步骤4包括以下步骤:
步骤4-1:构造VGG16图像特征提取网络并加载在预训练模型参数,输入不同的视图图像提取特征;
步骤4-2:VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层,在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。
进一步地,步骤5方法如下:
将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。
进一步地,步骤6方法包括:
将拼接点云特征和图像特征通过两个1x1的卷积层进行融合,再通过Relu激活层。
进一步地,步骤7方法包括以下步骤:
将融合特征和拼接得到的特征进行逐位加操作。
进一步地,步骤8方法包括:
再将图像特征和步骤7得到的特征进行拼接合并。
进一步地,步骤9方法如下:
在重复步骤6、步骤7和步骤8两次后,经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。
进一步地,步骤10方法包含:
将步骤9得到的特征使用语义分割网络预测点云的语义信息,使用标注信息进行监督训练。
进一步地,步骤11方法如下:
步骤11-1:将步骤9得到的特征使用分类网络预测点云的类别信息,使用标注信息进行监督训练;
步骤11-2:分类网络由若各干个全连接层组成。
进一步地,步骤12方法如下:
最后将得到的点云语义分割和语义类别进行显示。
图3为最终的语义分割效果示意图,左边一列代表原始点云,中间一列代表语义分割的真实值,右边一列为我们的最终语义分割效果。
本发明具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (13)
1.一种用于3D场景理解的点云多模态特征融合网络方法,其特征在于,包括以下步骤:
步骤1:收集现有的点云数据集,其中数据集包括S3DIS数据集和ModelNet40数据集,数据集中的数据包括含颜色信息的点云数据;
步骤2:根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像;
步骤3:使用PointNet++提取点云的全局特征和部分局部特征;
步骤4:使用VGG16分别提取不同的视图图像特征并聚合成一个全局特征;
步骤5:将点云分支和图像分支的特征进行拼接合并;
步骤6:将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征;
步骤7:将步骤6得到的融合特征和拼接特征进行逐位加操作;
步骤8:将图像特征和步骤7得到的特征进行拼接合并;
步骤9:重复步骤6、7、8两次后得到最后的融合特征;
步骤10:对于步骤9输出的特征使用语义分割网络预测点云语义信息,使用标注信息进行监督训练;
步骤11:对于步骤9输出的特征使用分类预测点云类别信息,使用标注信息进行监督训练;
步骤12:显示点云的3D场景理解效果图。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1:下载现有的S3DIS数据集和ModelNet40数据集;
步骤1-2:处理获取点云数据。
3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1:从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据;
步骤2-2:生成其对应的多视图图像。
4.根据权利要求3所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1:构造PointNet++图像特征提取网络并输入原始点云数据提取点云特征,并加载在预训练模型参数;
步骤3-2:PointNet++网络首部主要分为sample&grouping和pointnet组成的setabstraction对点云进行局部的全局特征提取。
5.根据权利要求4所述方法,其特征在于,步骤4包括以下步骤:
步骤4-1:构造VGG16图像特征提取网络并加载在预训练模型参数,输入不同的视图图像提取特征;
步骤4-2:VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层,在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。
6.根据权利要求5所述方法,其特征在于,步骤5方法如下:
将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。
7.根据权利要求6所述方法,其特征在于,步骤6方法包括:
将拼接点云特征和图像特征通过两个1x1的卷积层进行融合,再通过Relu激活层。
8.根据权利要求7所述方法,其特征在于,步骤7方法包括以下步骤:
将融合特征和拼接得到的特征进行逐位加操作。
9.根据权利要求8所述方法,其特征在于,步骤8方法包括:
再将图像特征和步骤7得到的特征进行拼接合并。
10.根据权利要求9所述方法,其特征在于,步骤9方法如下:
在重复步骤6、步骤7和步骤8两次后,经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。
11.根据权利要求10所述方法,其特征在于,步骤10方法包含:
将步骤9得到的特征使用语义分割网络预测点云的语义信息,使用标注信息进行监督训练。
12.根据权利要求11所述方法,其特征在于,步骤11方法如下:
步骤11-1:将步骤9得到的特征使用分类网络预测点云的类别信息,使用标注信息进行监督训练;
步骤11-2:分类网络由若各干个全连接层组成。
13.根据权利要求12所述方法,其特征在于,步骤12方法如下:
最后将得到的点云语义分割和语义类别进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210323717.4A CN114708475A (zh) | 2022-03-30 | 2022-03-30 | 一种用于3d场景理解的点云多模态特征融合网络方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210323717.4A CN114708475A (zh) | 2022-03-30 | 2022-03-30 | 一种用于3d场景理解的点云多模态特征融合网络方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708475A true CN114708475A (zh) | 2022-07-05 |
Family
ID=82171242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210323717.4A Pending CN114708475A (zh) | 2022-03-30 | 2022-03-30 | 一种用于3d场景理解的点云多模态特征融合网络方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708475A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131619A (zh) * | 2022-08-26 | 2022-09-30 | 北京江河惠远科技有限公司 | 基于点云和图像融合的特高压零件分拣方法和系统 |
CN115953586A (zh) * | 2022-10-11 | 2023-04-11 | 香港中文大学(深圳)未来智联网络研究院 | 跨模态知识蒸馏的方法、系统、电子装置和存储介质 |
-
2022
- 2022-03-30 CN CN202210323717.4A patent/CN114708475A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131619A (zh) * | 2022-08-26 | 2022-09-30 | 北京江河惠远科技有限公司 | 基于点云和图像融合的特高压零件分拣方法和系统 |
CN115953586A (zh) * | 2022-10-11 | 2023-04-11 | 香港中文大学(深圳)未来智联网络研究院 | 跨模态知识蒸馏的方法、系统、电子装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alonso et al. | 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation | |
CN108230337B (zh) | 一种基于移动端的语义slam系统实现的方法 | |
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN110379020B (zh) | 一种基于生成对抗网络的激光点云上色方法和装置 | |
Tian et al. | Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint | |
EP4164761A1 (en) | Computing images of dynamic scenes | |
CA3121440A1 (en) | Assembly body change detection method, device and medium based on attention mechanism | |
CN114708475A (zh) | 一种用于3d场景理解的点云多模态特征融合网络方法 | |
CN110706269B (zh) | 一种基于双目视觉slam的动态场景密集建模方法 | |
EP4451231A1 (en) | Vehicle autonomous driving perception self-learning method and apparatus, and electronic device | |
CN110942512B (zh) | 基于元学习的室内场景重建方法 | |
CN110866936A (zh) | 视频标注方法、跟踪方法、装置、计算机设备及存储介质 | |
CN110738200A (zh) | 车道线3d点云地图构建方法、电子设备及存储介质 | |
CN114519853B (zh) | 一种基于多模态融合的三维目标检测方法及系统 | |
Liu et al. | Deep representation learning for road detection using Siamese network | |
CN115147545A (zh) | 一种基于bim和深度学习的场景三维智能重建系统及方法 | |
CN113724388B (zh) | 高精地图的生成方法、装置、设备以及存储介质 | |
CN111105451A (zh) | 一种克服遮挡效应的驾驶场景双目深度估计方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN116843754A (zh) | 一种基于多特征融合的视觉定位方法及系统 | |
CN118230323A (zh) | 一种融合空间细节上下文与多尺度交互图像语义分割方法 | |
CN113763447A (zh) | 深度图的补全方法、电子设备及存储介质 | |
CN112529917A (zh) | 一种三维目标分割方法、装置、设备和存储介质 | |
CN111951319A (zh) | 一种图像立体匹配方法 | |
CN115359067A (zh) | 一种基于连续卷积网络的逐点融合点云语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |