CN114494708A - 基于多模态特征融合点云数据分类方法及装置 - Google Patents
基于多模态特征融合点云数据分类方法及装置 Download PDFInfo
- Publication number
- CN114494708A CN114494708A CN202210085153.5A CN202210085153A CN114494708A CN 114494708 A CN114494708 A CN 114494708A CN 202210085153 A CN202210085153 A CN 202210085153A CN 114494708 A CN114494708 A CN 114494708A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- vector
- feature fusion
- feature
- cloud data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 160
- 238000000605 extraction Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 102100033620 Calponin-1 Human genes 0.000 description 2
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 102100033591 Calponin-2 Human genes 0.000 description 1
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态特征融合点云数据分类方法及装置,方法包括下述步骤:利用预先设立的多视角卷积神经网络模型进行图像特征提取;利用预先设立的点云Transformer模型对点云数据进行点云特征提取;将图像特征和点云特征利用特征融合模块进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。本发明通过设计的多模态特征融合模块将两个模型的优点缺点进行互补,从而提升分类效果。
Description
技术领域
本发明涉及计算机视觉3D点云数据的分类的技术领域,具体涉及一种基于多模态特征融合点云数据分类方法及装置。
背景技术
3D点云数据分类任务是点云数据处理的重要任务之一。随着3D点云数据获取渠道越来越多,对于3D点云数据的处理也逐渐热门。由于3D点云数据的无序性、噪声干扰以及遮挡关系,使得处理这类数据有很大的挑战。在之前提出的3D点云数据分类模型中,主要有三种方式:基于多视角、基于体素、基于点的方法。基于多视角的方法主要是通过多个视角的图像分别进行卷积提取特征来进行分类。基于体素的方法主要是用体积表示。但是体积数据可能增长很快,规模很大,处理时间很长。基于点的方法又可以分为逐点的全连接网络、基于卷积、基于图、基于高层数据结构以及其他典型的方法。最近,transformer方法的提出在自然语言处理取得了很好的效果。由于其关注了全局的信息,并且对输入顺序不敏感,因此用于处理点云数据有优势。
现有技术中,ICCV2015的论文《Multi-view Convolutional Neural Networksfor 3D Shape Recognition》提出了多视角的卷积神经网络,用于对3D点云数据进行分类。该模型将点云数据通过多个角度的投影得到多视角的2D图像,然后卷积神经网络提取特征。再经过将多个视图的每个元素的最大值保留作为view-pooling的输出。最后通过另一个卷积神经网络进行分类。另一篇出自(Computational Visual Media)的论文《PCT:PointCloud Transformer》则提出了直接处理3D点云数据的方法。论文使用Transformer模型对3D点云数据直接处理。由于Transformer的核心部分为自注意力机制,其对输入序列顺序不敏感,即无论以何种顺序输入,都能提取到有效信息。因此用于处理3D点云这种无序数据有很大的帮助。通过注意力机制的编码后,得到点云数据的隐空间表示。然后对这个隐空间的表示进行解码即可进行不同的任务,如点云分类、点云分割等。
但是,使用多视角卷积的方法由于使用了某个视角的特征的最大值进行保留,会造成一定的信息损失问题。对于一些其他未保留的视角的信息就难以兼顾。同时,卷积操作依赖于卷积核所提供的感受野,难以对全局的特征进行提取。而使用点云transformer的方法能够较好的关注全局关联,但是transformer对于底层信息的建模能力并不如传统的CNN网络。例如平移、旋转不变性等等。Transformer更多关注的是高层的语义信息,即关注如何合理地组合各个要素形成一个物体。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于多模态特征融合点云数据分类方法及装置,本发明通过点云数据和点云渲染生成的灰度图像数据提取多模态的特征,并且利用不同模态的特征进行融合,实现互补以达到更好的点云分类任务效果。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面提供了一种基于多模态特征融合点云数据分类方法,包括下述步骤:
利用预先设立的多视角卷积神经网络模型进行图像特征提取;
利用预先设立的点云Transformer模型对点云数据进行点云特征提取;
将图像特征和点云特征利用特征融合模块进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路为从所述多视角卷积神经网络模型获得的特征图进行输入,并在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。
作为优选的技术方案,在进行图像特征提取时,给定输入的K个不同位置的投影来模拟K个位置的照相机视角得到的图像利用共享权重的VGGNet分别提取K个视角图像的特征图,这个特征图通过视角池化操作,将每个位置的所有视角结果的最大值保留,得到基于图像输入的特征。
作为优选的技术方案,所述K选取为12,12个视角每个之间间隔30°,并从平面上方30°向下指向网格质心。
作为优选的技术方案,所述图像特征通过三个全连接层,将提取的特征图的维度降低到设定维度,这最后的三个全连接层的输出分别作为多模态特征融合模块多视角卷积输入的通路的对应尺寸的输入。
作为优选的技术方案,在进行点云特征提取时,具体步骤如下:
首先,将点云数据输入进入一个编码器,所述编码器由四层注意力机制组成;
然后,将四层注意力操作的结果进行拼接,再经过线性变换、批归一化、非线性激活以及Dropout层获得点的特征;
最后,通过最大值池化和平均值池化后进行拼接得到n*1的全局特征向量,所述全局特征向量会作为特征融合模块的第二个输入。
作为优选的技术方案,所述全局特征向量会按照原模型的后续操作,经过全连接层从n*1的向量变为n/2*1的向量然后是n/4*1的向量最后转化为设定维度的向量,这后续的三个全连接层也会分别输入给特征融合模块的点云Transformer输入通路的对应尺度的位置。
作为优选的技术方案,进行多模态特征融合的具体步骤为:
将所述多视角卷积神经网络模型提取的特征图通过第一编码器降维后形成n*1维度的第一向量,将所述多视角卷积神经网络模型提取的点云特征作为n*1维度的第二向量,将所述第一向量和第二向量拼接为2n*1维度第三向量;
所述第三向量经过第一解码器得到4n*1维度的第四向量和n/2*1维度的第五向量,所述第四向量作为第一通路的输入,所述第五向量作为第二通路的输入;在第一通路中,将第四向量与所述多视角卷积神经网络模型对应尺度的第一全连接层的输出进行第一次叠加,然后经过第二编码器变为n/2*1维度的向量;在第二通路中,将n/2*1维度的第五向量与点云Transformer模型对应尺度的第一全连接层的输出进行第一次叠加;
将两个通路第一次叠加后的向量进行拼接形成n*1维度的第六向量,所述第六向量经过第二解码器解码成4n*1维度的第七向量和n/4*1维度的第八向量;在第一通道中,将第七向量与多视角卷积神经网络模型的第二全连接层输出的向量进行叠加,叠加后得到的向量经过第三编码器得到n/4*1维度的第九向量;在第二通路中,将第八向量与点云Transformer模型相同维度的第二全连接层的输出进行叠加就,得到n/4*1维度的第十向量;
将第九向量和第十向量拼接形成n/2*1维度的第十一向量,所述第十一向量经过第三解码器形成两个设定维度的向量;将两个设定维度的向量分别与多视角卷积神经网络模型的第三全连接层和点云Transformer模型的第三全连接层的输出进行拼接,然后统一经过一个全连接层得到设定维度的向量;
将多视角卷积神经网络模型最后的设定维度的向量与点云Transformer模型最后的设定维度的向量以及上段获得的设定维度的向量进行分类任务。
本发明另一方面提供了一种基于多模态特征融合点云数据分类装置,应用于所述的基于多模态特征融合点云数据分类方法,包括图像特征提取模块、点云特征提取模块、多模态特征融合模块;
所述图像特征提取模块,用于通过预先设立的多视角卷积神经网络模型进行图像特征提取;
所述点云特征提取模块,用于通过预先设立的点云Transformer模型对点云数据进行点云特征提取;
所述多模态特征融合模块,用于将图像特征和点云特征进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路为从所述多视角卷积神经网络模型获得的特征图进行输入,并在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。
本发明又一方面提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于多模态特征融合点云数据分类方法。
本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于多模态特征融合点云数据分类方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明使用特征融合的思想对现有模型实现进行融合,将不同的模型提取到的信息进行结合。通过设计的多模态特征融合模块将两个模型的优点缺点进行互补:多视角卷积模型较多关注底层信息,点云Transformer模型较多关注高层语义信息,对最终的分类效果有提升。
本发明克服了现有技术各自的缺点,提高了3D点云数据分类的效果。通过多模态特征融合的方式将两个模型提取到的特征进行结合,从而将不同层次的特征都考虑,促进分类效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于多模态特征融合点云数据分类方法的流程图;
图2是本发明实施例提供的基于多模态特征融合点云数据分类系统的结构示意图;
图3是本发明实施例电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请中的实施例及附图,对本发明的技术方案进行清楚、完整地描述,应当理解,附图仅用于示例性说明,不能理解为对本专利的限制。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
与二维图像相比,三维形状通常具有更复杂的结构信息,这使得单一的模态难以完整地描述三维形状,虽然不同的模态有不同的表征,但它们的特征应该具有很强的相关性。本发明使用不同模态的特征融合,但是不同模态的特征之间维度差别很多,使用encoder将高纬度信息降维,融合之后再用deconder将维度还原,减少特征的信息减少。
多视角卷积神经网络模型MVCNN使用多视图CNN以端到端方式融合多个2D特征投影生成的特征。首先将三维形状投影到多个视图中,将多个视图放在基础的2D图像CNN之中,同一个3D形状的每一张视角图像各自独立地经过第一段的CNN1卷积网络,在一个叫做View-pooling层进行“聚合”。之后,再送入剩下的CNN2卷积网络,整张网络第一部分的所有分支,共享相同的CNN1里的参数,在View-pooling层中,逐元素取最大值操作。最后使用Softmax进行分类。
PCT主要是通过使用transformer固有的顺序不变性来避免定义点云数据的顺序和通过attention机制来进行特征学习。首先,self-attention将输入词嵌入和位置编码的总和作为输入,通过训练有素的线性层为每个单词计算三个向量:query,key和value。然后,可以通过匹配(点积)查询和key向量来获取任意两个word之间的attention权重。最后,attention feature定义为所有value向量与attention权重的加权和,得到attentionfeature之后使用卷积层以及softmax进行分类.
请参阅图1,为本发明实施例提供的一种基于多模态特征融合点云数据分类方法的流程示意图,该方法包括以下步骤:
S1、图像特征提取;
该步骤中,利用预先设立的多视角卷积神经网络模型进行图像特征提取,具体的,给定输入的12个不同位置的投影来模拟12个位置的照相机视角得到的图像(12个视角每个之间间隔30°,并从平面上方30°向下指向网格质心)利用共享权重的VGGNet分别提取12个视角图像的特征,这个特征图通过View Pooling(视角池化)操作,将每个位置的所有视角结果的最大值保留,得到基于图像输入的特征F1;对于这个特征图,会作为多模态特征融合模块的第一个输入。与此同时,这个特征通过三个全连接层,将维度从25088*1变为4096*1、4096*1最后40*1。这最后的三个全连接层的输出会分别作为多模态特征融合模块多视角卷积神经网络模型输入的通路的对应尺寸的输入。
S2、点云特征提取;
利用预先设立的点云Transformer模型对点云数据进行点云特征提取;具体的,包括下述步骤:
S21、将点云数据输入进入一个编码器,其由四层注意力机制组成;由于注意力操作是两两之间进行注意力打分操作,因此能忽略顺序来进行学习。
S22、将四层注意力操作的结果进行拼接,再经过线性变换(Linear)、批归一化(BatchNorm)、非线性激活(ReLU)以及Dropout层获得点的特征。
S33、通过最大值池化和平均值池化后进行拼接得到1024*1的全局特征向量F2。同样,这个向量会作为特征融合模块的第二个输入。与此同时,这个向量也会按照原模型的后续操作,经过全连接层从1024*1的向量变为512*1的向量然后是256*1的向量最后转化为40*1的向量。这后续的三个全连接层也会分别输入给特征融合模块的点云Transformer模块输入通路的对应尺度的位置。
S3、多模态特征融合;
本步骤中,是将上述的两个提取的特征进行多模态特征融合,共同促进最终分类的效果。请再次参阅图1,整体框架为两个通路,第一通路(多视角卷积神经网络模型输入的通路)为从上述多视角卷积模型获得的特征图进行输入,并在中间使用对应尺寸将原来模型的数据和特征融合模块的中间结果进行叠加。第二通路(点云Transformer模型输入的通路)是从上述的点云Transformer模型获得的特征。也在中间对应尺度的位置将原模型的输出和中间结果进行叠加。
更进一步的,进行特征融合的具体步骤为:
S31、将上述的多视角卷积神经网络模型提取到的特征图(维度512*7*7)通过一个编码器1形成1024*1的第一向量。本实施例中,解码器的构造和编码器一样都是多层全连接层,通过数据驱动自行学习参数。这里降维的目的是因为多视角卷积模型获得的特征维度较高,而且两个不同模态的特征维度差别较大,需要通过编码器进行降维。对于通过点云Transformer得到的特征也为一个1024*1的第二向量。
进一步的,将这两个通路获得的第一向量和第二向量拼接为一个2048*1的第三向量。所述第三向量经过解码器1得到4096*1维度的第四向量(多视角卷积神经网络模型输入的通路部分)以及512*1维度的第五向量(点云Transformer模型输入的通路部分)。
先看多视角卷积输入通路,这里将多视角卷积输入通路的向量维度升高的原因是为了减少信息的损失,同时也保证维度的一致。得到了4096*1的第四向量之后,将上述多视角卷积神经网络模型的对应尺度的第一全连接层的输出与这个向量进行第一次叠加;然后经过编码器2将维度变为512*1的向量。对于点云Transformer输入通路的512*1的第五向量,也将点云Transformer模型的对应尺度的第一全连接层的输出与这个第五向量进行第一次叠加。
S32、接下来与第一次两个通路的向量拼接一样,这里也将两个512*1的向量进行拼接,形成1024*1的第六向量。所述第六向量再经过一个解码器2形成一个4096*1维度的第七向量(多视角卷积输入的通路部分)以及一个256*1维度的第八向量(点云Transformer输入的通路部分)。多视角卷积输入通路部分仍然是将这个第七向量和对应维度的多视角卷积神经网络模型的第二全连接层输出向量叠加,经过编码器3得到256*1的第九向量。点云Transformer输入通路也将点云Transformer模型相同维度的第二全连接层的输出进行叠加,形成256*1维度的第十向量。
S33、将两个通路的256*1向量拼接形成512*1的第十一向量经过解码器3形成两个40*1的向量(分别给两个通路)。两个通路的向量分别与各自原模型对应尺度的全连接层的输出向量进行拼接,然后统一经过一个全连接层得到40*1的向量。
S44、将模型一最后的40*1的向量与模型二最后的40*1的向量以及上段获得的40*1的向量进行分类任务。整体的流程如图2所示。通过特征融合的方式,将两个原来模型的优缺点进行互补,从而能提高分类的准确率。
在本发明的另一个实施例中将对一种基于多模态特征融合点云数据分类装置进行介绍,相关内容请参见上述方法实施例。
参见图2,为本实施例提供的一种基于持续学习的图像分类装置的结构示意图,该装置包括:包括图像特征提取模块、点云特征提取模块、多模态特征融合模块;
所述图像特征提取模块,用于通过预先设立的多视角卷积神经网络模型进行图像特征提取;
所述点云特征提取模块,用于通过预先设立的点云Transformer模型对点云数据进行点云特征提取;
所述多模态特征融合模块,用于将图像特征和点云特征进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路为从所述多视角卷积神经网络模型获得的特征图进行输入,并在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。
在本实例的第一种可能的实现方式中,所述图像特征提取模块在提取特征时:
给定输入的K个不同位置的投影来模拟K个位置的照相机视角得到的图像利用共享权重的VGGNet分别提取K个视角图像的特征图,这个特征图通过视角池化操作,将每个位置的所有视角结果的最大值保留,得到基于图像输入的特征。
更进一步的,所述图像特征通过三个全连接层,将维度从25088*1变为4096*1、4096*1最后40*1,这最后的三个全连接层的输出分别作为多模态特征融合模块多视角卷积输入的通路的对应尺寸的输入。
在本实例的第二种可能的实现方式中,所述在进行点云特征提取模型在进行点云特征提取时:
首先,将点云数据输入进入一个编码器,其由四层注意力机制组成;
然后,将四层注意力操作的结果进行拼接,再经过线性变换、批归一化、非线性激活以及Dropout层获得点的特征;
最后,通过最大值池化和平均值池化后进行拼接得到1024*1的全局特征向量,所述全局特征向量会作为特征融合模块的第二个输入。
更进一步的,所述全局特征向量会按照原模型的后续操作,经过全连接层从1024*1的向量变为512*1的向量然后是256*1的向量最后转化为40*1的向量,这后续的三个全连接层也会分别输入给特征融合模块的点云Transformer输入通路的对应尺度的位置。
在本实例的第三种可能的实现方式中,所述多模态特征融合进行多模态特征融合的具体步骤为:
将所述多视角卷积神经网络模型提取的特征图通过第一编码器降维后形成1024*1维度的第一向量,将所述多视角卷积神经网络模型提取的点云特征作为1024*1维度的第二向量,将所述第一向量和第二向量拼接为2048*1维度第三向量;
所述第三向量经过第一解码器得到4096*1维度的第四向量和512*1维度的第五向量,所述第四向量作为第一通路的输入,所述第五向量作为第二通路的输入;在第一通路中,将第四向量与所述多视角卷积神经网络模型对应尺度全连接层的输出进行第一次叠加,然后经过第二编码器变为512*1维度的向量;在第二通路中,将512*1维度的第五向量与点云Transformer模型对应尺度的全连接层的输出进行第一次叠加;
将两个通路第一次叠加后的向量进行拼接形成1024*1维度的第六向量,所述第六向量经过第二解码器解码成4096*1维度的第七向量和256*1维度的第八向量;在第一通道中,将第七向量与多视角卷积神经网络模型的第二全连接层输出的向量进行叠加,叠加后得到的向量经过第三编码器得到256*1维度的第九向量;在第二通路中,将第八向量与点云Transformer模型相同维度的第二全连接层的输出进行叠加就,得到256*1维度的第十向量;
将第九向量和第十向量拼接形成512*1维度的第十一向量,所述第十一向量经过第三解码器形成两个40*1维度的向量;将两个40*1维度的向量分别与多视角卷积神经网络模型的第三全连接层和点云Transformer模型的第三全连接层的输出进行拼接,然后统一经过一个全连接层得到40*1维度的向量;
将多视角卷积神经网络模型最后的40*1维度的向量与点云Transformer模型最后的40*1维度的向量以及上段获得的40*1维度的向量进行分类任务。
需要说明的是,本发明的基于多模态特征融合点云数据分类装置与本发明的基于多模态特征融合点云数据分类方法一一对应,在上述基于多模态特征融合点云数据分类方法的实施例阐述的技术特征及其有益效果均适用于基于多模态特征融合点云数据分类装置的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于多模态特征融合点云数据分类装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于持续学习的图像分类装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
如图3所示,在一个实施例中,提供了一种基于多模态特征融合点云数据分类方法的电子设备,所述电子设备300可以包括第一处理器301、第一存储器302和总线,还可以包括存储在所述第一存储器302中并可在所述第一处理器301上运行的计算机程序,如基于多模态特征融合点云数据分类程序303。
其中,所述第一存储器302至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器302在一些实施例中可以是电子设备300的内部存储单元,例如该电子设备300的移动硬盘。所述第一存储器302在另一些实施例中也可以是电子设备300的外部存储设备,例如电子设备300上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器302还可以既包括电子设备300的内部存储单元也包括外部存储设备。所述第一存储器302不仅可以用于存储安装于电子设备300的应用软件及各类数据,例如基于多模态特征融合点云数据分类程序303的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器301在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器301是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器302内的程序或者模块(例如联邦学习防御程序等),以及调用存储在所述第一存储器302内的数据,以执行电子设备300的各种功能和处理数据。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备300的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备300中的所述第一存储器302存储的基于多模态特征融合点云数据分类程序303是多个指令的组合,在所述第一处理器301中运行时,可以实现:
利用预先设立的多视角卷积神经网络模型进行图像特征提取;
利用预先设立的点云Transformer模型对点云数据进行点云特征提取;
将图像特征和点云特征利用特征融合模块进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路为从所述多视角卷积神经网络模型获得的特征图进行输入,并在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。
进一步地,所述电子设备300集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于多模态特征融合点云数据分类方法,其特征在于,包括下述步骤:
利用预先设立的多视角卷积神经网络模型进行图像特征提取;
利用预先设立的点云Transformer模型对点云数据进行点云特征提取;
将图像特征和点云特征利用特征融合模块进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路为从所述多视角卷积神经网络模型获得的特征图进行输入,并在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。
2.根据权利要求1所述基于多模态特征融合点云数据分类方法,其特征在于,在进行图像特征提取时,给定输入的K个不同位置的投影来模拟K个位置的照相机视角得到的图像利用共享权重的VGGNet分别提取K个视角图像的特征图,这个特征图通过视角池化操作,将每个位置的所有视角结果的最大值保留,得到基于图像输入的特征。
3.根据权利要求2所述基于多模态特征融合点云数据分类方法,其特征在于,所述K选取为12,12个视角每个之间间隔30°,并从平面上方30°向下指向网格质心。
4.根据权利要求1所述基于多模态特征融合点云数据分类方法,其特征在于,所述图像特征通过三个全连接层,将提取的特征图的维度降低到设定维度,这最后的三个全连接层的输出分别作为多模态特征融合模块多视角卷积输入的通路的对应尺寸的输入。
5.根据权利要求1所述基于多模态特征融合点云数据分类方法,其特征在于,在进行点云特征提取时,具体步骤如下:
首先,将点云数据输入进入一个编码器,所述编码器由四层注意力机制组成;
然后,将四层注意力操作的结果进行拼接,再经过线性变换、批归一化、非线性激活以及Dropout层获得点的特征;
最后,通过最大值池化和平均值池化后进行拼接得到n*1的全局特征向量,所述全局特征向量会作为特征融合模块的第二个输入。
6.根据权利要求5所述基于多模态特征融合点云数据分类方法,其特征在于,所述全局特征向量会按照原模型的后续操作,经过全连接层从n*1的向量变为n/2*1的向量然后是n/4*1的向量最后转化为设定维度的向量,这后续的三个全连接层也会分别输入给特征融合模块的点云Transformer输入通路的对应尺度的位置。
7.根据权利要求1所述基于多模态特征融合点云数据分类方法,其特征在于,进行多模态特征融合的具体步骤为:
将所述多视角卷积神经网络模型提取的特征图通过第一编码器降维后形成n*1维度的第一向量,将所述多视角卷积神经网络模型提取的点云特征作为n*1维度的第二向量,将所述第一向量和第二向量拼接为2n*1维度第三向量;
所述第三向量经过第一解码器得到4n*1维度的第四向量和n/2*1维度的第五向量,所述第四向量作为第一通路的输入,所述第五向量作为第二通路的输入;在第一通路中,将第四向量与所述多视角卷积神经网络模型对应尺度的第一全连接层的输出进行第一次叠加,然后经过第二编码器变为n/2*1维度的向量;在第二通路中,将n/2*1维度的第五向量与点云Transformer模型对应尺度的第一全连接层的输出进行第一次叠加;
将两个通路第一次叠加后的向量进行拼接形成n*1维度的第六向量,所述第六向量经过第二解码器解码成4n*1维度的第七向量和n/4*1维度的第八向量;在第一通道中,将第七向量与多视角卷积神经网络模型的第二全连接层输出的向量进行叠加,叠加后得到的向量经过第三编码器得到n/4*1维度的第九向量;在第二通路中,将第八向量与点云Transformer模型相同维度的第二全连接层的输出进行叠加就,得到n/4*1维度的第十向量;
将第九向量和第十向量拼接形成n/2*1维度的第十一向量,所述第十一向量经过第三解码器形成两个设定维度的向量;将两个设定维度的向量分别与多视角卷积神经网络模型的第三全连接层和点云Transformer模型的第三全连接层的输出进行拼接,然后统一经过一个全连接层得到设定维度的向量;
将多视角卷积神经网络模型最后的设定维度的向量与点云Transformer模型最后的设定维度的向量以及上段获得的设定维度的向量进行分类任务。
8.基于多模态特征融合点云数据分类装置,其特征在于,应用于权利要求1-7中任一项所述的基于多模态特征融合点云数据分类方法,其特征在于,包括图像特征提取模块、点云特征提取模块、多模态特征融合模块;
所述图像特征提取模块,用于通过预先设立的多视角卷积神经网络模型进行图像特征提取;
所述点云特征提取模块,用于通过预先设立的点云Transformer模型对点云数据进行点云特征提取;
所述多模态特征融合模块,用于将图像特征和点云特征进行多模态特征融合,根据融合后的特征得到点云数据分类结果;所述特征融合模块包括第一通路和第二通路,所述第一通路为从所述多视角卷积神经网络模型获得的特征图进行输入,并在中间使用对应尺寸将原多视角卷积神经网络模型的数据和特征融合模块的中间结果进行叠加;所述第二通路是从所述点云Transformer模型获得的特征,也在中间对应尺度的位置将原点云Transformer模型的输出和中间结果进行叠加。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序
指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于多模态特征融合点云数据分类方法。
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于多模态特征融合点云数据分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210085153.5A CN114494708A (zh) | 2022-01-25 | 2022-01-25 | 基于多模态特征融合点云数据分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210085153.5A CN114494708A (zh) | 2022-01-25 | 2022-01-25 | 基于多模态特征融合点云数据分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114494708A true CN114494708A (zh) | 2022-05-13 |
Family
ID=81474191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210085153.5A Pending CN114494708A (zh) | 2022-01-25 | 2022-01-25 | 基于多模态特征融合点云数据分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494708A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972763A (zh) * | 2022-07-28 | 2022-08-30 | 香港中文大学(深圳)未来智联网络研究院 | 激光雷达点云分割方法、装置、设备及存储介质 |
CN115223067A (zh) * | 2022-09-19 | 2022-10-21 | 季华实验室 | 应用于无人机的点云融合方法、装置、设备及存储介质 |
CN117315001A (zh) * | 2023-11-27 | 2023-12-29 | 江苏房城建设工程质量检测有限公司 | 一种基于激光扫描的房建面积快速检测方法及系统 |
CN117909765A (zh) * | 2024-03-18 | 2024-04-19 | 中国民航大学 | 一种多模态数据处理方法、电子设备和存储介质 |
-
2022
- 2022-01-25 CN CN202210085153.5A patent/CN114494708A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972763A (zh) * | 2022-07-28 | 2022-08-30 | 香港中文大学(深圳)未来智联网络研究院 | 激光雷达点云分割方法、装置、设备及存储介质 |
CN114972763B (zh) * | 2022-07-28 | 2022-11-04 | 香港中文大学(深圳)未来智联网络研究院 | 激光雷达点云分割方法、装置、设备及存储介质 |
CN115223067A (zh) * | 2022-09-19 | 2022-10-21 | 季华实验室 | 应用于无人机的点云融合方法、装置、设备及存储介质 |
CN115223067B (zh) * | 2022-09-19 | 2022-12-09 | 季华实验室 | 应用于无人机的点云融合方法、装置、设备及存储介质 |
CN117315001A (zh) * | 2023-11-27 | 2023-12-29 | 江苏房城建设工程质量检测有限公司 | 一种基于激光扫描的房建面积快速检测方法及系统 |
CN117315001B (zh) * | 2023-11-27 | 2024-02-23 | 江苏房城建设工程质量检测有限公司 | 一种基于激光扫描的房建面积快速检测方法及系统 |
CN117909765A (zh) * | 2024-03-18 | 2024-04-19 | 中国民航大学 | 一种多模态数据处理方法、电子设备和存储介质 |
CN117909765B (zh) * | 2024-03-18 | 2024-05-31 | 中国民航大学 | 一种多模态数据处理方法、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Swformer: Sparse window transformer for 3d object detection in point clouds | |
CN114494708A (zh) | 基于多模态特征融合点云数据分类方法及装置 | |
CN111047548A (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
WO2023072067A1 (zh) | 人脸属性编辑模型的训练以及人脸属性编辑方法 | |
Lu et al. | Attention-based dense point cloud reconstruction from a single image | |
Denninger et al. | 3d scene reconstruction from a single viewport | |
CN111860138A (zh) | 基于全融合网络的三维点云语义分割方法及系统 | |
Samavati et al. | Deep learning-based 3D reconstruction: a survey | |
CN114091514B (zh) | 一种基于同异质Transformer的遥感场景分类方法及系统 | |
CN113781659A (zh) | 一种三维重建方法、装置、电子设备及可读存储介质 | |
CN112891945A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114863539A (zh) | 一种基于特征融合的人像关键点检测方法及系统 | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
Li et al. | Multi-view convolutional vision transformer for 3D object recognition | |
Chang et al. | Few-shot semantic segmentation: a review on recent approaches | |
Zhang et al. | Panoptic-level image-to-image translation for object recognition and visual odometry enhancement | |
Wang et al. | AVFP-MVX: Multimodal VoxelNet with attention mechanism and voxel feature pyramid | |
Xiao et al. | Multi-dimensional graph interactional network for progressive point cloud completion | |
CN114863000A (zh) | 发型生成的方法、装置、介质及设备 | |
Sun et al. | IV-Net: single-view 3D volume reconstruction by fusing features of image and recovered volume | |
Chen et al. | MoviNet: A novel network for cross-modal map extraction by vision transformer and CNN | |
Zhang et al. | A brief comparison of deep learning methods for semantic segmentation | |
Janda | A Contrastive Learning framework for Self-Supervised Pre-Training of 3D Point Cloud Networks with Visual Data | |
Zhuang et al. | A Survey of Point Cloud Completion | |
CN114331827B (zh) | 风格迁移方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |