CN111191729A - 一种基于多模态特征融合的三维对象融合特征表示方法 - Google Patents
一种基于多模态特征融合的三维对象融合特征表示方法 Download PDFInfo
- Publication number
- CN111191729A CN111191729A CN201911425234.XA CN201911425234A CN111191729A CN 111191729 A CN111191729 A CN 111191729A CN 201911425234 A CN201911425234 A CN 201911425234A CN 111191729 A CN111191729 A CN 111191729A
- Authority
- CN
- China
- Prior art keywords
- feature
- fusion
- view
- dimensional
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2453—Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Nonlinear Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种基于多模态特征融合的三维对象融合特征表示方法。本发明将三种模态的三维模型特征表示,都做了一个非常细致的实现和复现:三维模型的多视图特征表示、点云特征表示以及网格特征表示。对多模态三维数据进行了处理、增强和融合,并基于此提取出了三维对象的融合特征表示。本发明能实现非常优秀的多模态信息融合,实现更加鲁棒的三维模型特征表示,供给其他三维对象任务使用。
Description
技术领域
本发明属于计算机图像及人工智能技术领域,提供一种融合了三维多模态信息且更加高效的三维对象融合特征表示形式。
背景技术
3D数据识别和分析是多媒体和计算机视觉领域的一个基础和有趣的领域,涵盖了从环境理解到自动驾驶的广泛应用。如何理解3D数据,例如识别3D形状,近年来引起了很多关注。随着深度学习的发展,各种深度网络被用于处理不同类型的3D数据:点云(PointCloud),多视图(Multi-view)和体积(Volumetric)数据。虽然将2D卷积神经网络扩展到体积数据是自然而合理的,但这些方法具有较大的计算复杂性和数据稀疏性,使得难以处理高图像分辨率。相比之下,分析多视图数据或点云数据由于其更广泛的数据采集和存储来源,因此更加灵活并且报告了更好的性能。除了以上传统三维对象表示形式,另外有一种叫作“网格”(Mesh)的三维特征表示方法,在计算机图形设计及三维模型表示方面有重要的地位。3D形状的网格数据是顶点,边和面的集合,其主要用于计算机图形中以渲染和存储3D模型。网格数据具有复杂性和不规则性。复杂性问题是网格由多个元素组成,并且可以在它们之间定义不同类型的连接。不规则性是网格数据处理的另一个挑战,这表明网格中的元素数量可能在3D形状之间显着变化,并且它们的排列是任意的。尽管存在这些问题,但网格具有比其他类型数据更强的3D形状描述能力。在这种情况下,如何使用网格数据有效地表示3D形状是一项紧迫而具有挑战性的任务。
基于以上情况,即:1.三维模型的表示形式的多样化(多模态)。2.网格数据的特殊性。我们设计了一种融合了三维多模态信息且更加高效的三维对象融合特征表示形式,其中多视图“Multi-view”和网格“Mesh”是我们用于验证融合网络的核心的两类三维模态。
发明内容
针对现有技术的不足,本发明提供一种基于多模态特征融合的三维对象融合特征表示方法。本发明对多模态三维数据进行了处理、增强和融合,并基于此提取出了三维对象的融合特征表示。
一种基于多模态特征融合的三维对象融合特征表示方法,步骤如下:
步骤(1)、通过多视图神经网络处理多视图三维信息;
通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max-pooling,将多个CNN的输出统一到一个输出上,追加判别器(即基于全连接层的非线性分类器)进行模型的分类。
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示。然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切。将处理后的图像,分别输入多个CNN模型中,CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征。最后,多个CNN都输出相同尺寸的卷积特征,利用max-pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,本质上是一个多项式,但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性。
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:
设具有n个点的F维点云表示为通常F=3并且每个点都在3D坐标中。首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变。然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中。EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征。
步骤(3)、网格数据的表示方法;
网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面(face)视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接。将面部特征分为空间特征和结构特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示。进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取。所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征。获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接,然后将连接后的投入MLP中输出全局特征。
步骤(4)、融合特征计算与输出;
首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B。先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D。然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F。将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I。然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F做乘法输出最终融合特征表示K。
本发明有益效果如下:
本发明一方面将三种模态的三维模型特征表示(现有的理论方法),都做了一个非常细致的实现和复现,相较于现有方法,能够有效地提取出,能输入我们的算法模型的:三维模型的多视图特征表示、点云特征表示以及网格特征表示。另一方面,对于我们设计的全新的“融合特征”以及对应的“融合特征计算输出”算法流程,它能实现非常优秀的多模态信息融合,实现更加鲁棒的三维模型特征表示,供给其他三维对象任务使用。
附图说明
图1是本发明涉及的多视图数据的特征学习网络示意图;
图2是本发明涉及的点云数据的边卷积过程示意图;
图3是本发明涉及的网格数据的表示形式;
图4是两种模态之间的数据影响和融合方式的示意图。
具体实施方式
以下结合附图对本发明进行进一步描述;
一种基于多模态特征融合的三维对象融合特征表示方法,步骤如下:
步骤(1)、通过多视图神经网络处理多视图三维信息;
如图1所示,通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max-pooling,将多个CNN的输出统一到一个输出上,追加判别器(即基于全连接层的非线性分类器)进行模型的分类。
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放(即间隔30度角)12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示。然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切。将处理后的图像,分别输入多个CNN模型中(每个CNN的输入的内容相同),CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征。最后,多个CNN都输出相同尺寸的卷积特征,利用max-pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,本质上是一个多项式,但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性。
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:
设具有n个点的F维点云表示为通常F=3并且每个点都在3D坐标中。首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变。然后采用如图2所示的EdgeConv作为基本层进行堆叠或循环应用于网络中。EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征。
步骤(3)、网格数据的表示方法;
如图3所示,网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面(face)视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接。这种简化有几个优点。首先是一个三角形面可以连接不超过三个面,这使得连接关系规则且易于使用;可以通过每面处理和对称函数解决无序问题,类似于PointNet,具有每个面部过程和对称函数;面还包含比顶点和边缘更多的信息。
虽然上述简化使我们能够使用类似于基于点的方法的网格数据,但是在单元和面单元之间仍然存在一些差异,因为面包含的信息多于点。将面部特征分为空间特征和结构特征,有助于我们更明确地捕捉特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示。进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取。所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征。获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接(即堆叠起来),然后将连接后的投入MLP中输出全局特征。
步骤(4)、融合特征计算与输出;
如图4所示,首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B。先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D。然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F。将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I。然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F做乘法输出最终融合特征表示K。
Claims (1)
1.一种基于多模态特征融合的三维对象融合特征表示方法,其特征在于,步骤如下:
步骤(1)、通过多视图神经网络处理多视图三维信息;
通过多视图神经网络处理多视图三维信息;通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max-pooling,将多个CNN的输出统一到一个输出上,追加判别器(即基于全连接层的非线性分类器)进行模型的分类;
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示;然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切;将处理后的图像,分别输入多个CNN模型中,CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征;最后,多个CNN都输出相同尺寸的卷积特征,利用max-pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,本质上是一个多项式,但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性;
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:
设具有n个点的F维点云表示为通常F=3并且每个点都在3D坐标中;首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变;然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中;EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征;
步骤(3)、网格数据的表示方法;
网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面(face)视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接;将面部特征分为空间特征和结构特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示;进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取;所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征;获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接,然后将连接后的投入MLP中输出全局特征;
步骤(4)、融合特征计算与输出;
首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B;先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D;然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F;将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I;然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F做乘法输出最终融合特征表示K。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911425234.XA CN111191729B (zh) | 2019-12-31 | 2019-12-31 | 一种基于多模态特征融合的三维对象融合特征表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911425234.XA CN111191729B (zh) | 2019-12-31 | 2019-12-31 | 一种基于多模态特征融合的三维对象融合特征表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191729A true CN111191729A (zh) | 2020-05-22 |
CN111191729B CN111191729B (zh) | 2022-04-01 |
Family
ID=70709832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911425234.XA Active CN111191729B (zh) | 2019-12-31 | 2019-12-31 | 一种基于多模态特征融合的三维对象融合特征表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191729B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257637A (zh) * | 2020-10-30 | 2021-01-22 | 福州大学 | 一种融合点云和多视图的车载激光点云多目标识别方法 |
CN112347932A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254499A1 (en) * | 2014-03-07 | 2015-09-10 | Chevron U.S.A. Inc. | Multi-view 3d object recognition from a point cloud and change detection |
CN109118578A (zh) * | 2018-08-01 | 2019-01-01 | 浙江大学 | 一种层次化的多视图三维重建纹理映射方法 |
CN110543858A (zh) * | 2019-09-05 | 2019-12-06 | 西北工业大学 | 多模态自适应融合的三维目标检测方法 |
-
2019
- 2019-12-31 CN CN201911425234.XA patent/CN111191729B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254499A1 (en) * | 2014-03-07 | 2015-09-10 | Chevron U.S.A. Inc. | Multi-view 3d object recognition from a point cloud and change detection |
CN109118578A (zh) * | 2018-08-01 | 2019-01-01 | 浙江大学 | 一种层次化的多视图三维重建纹理映射方法 |
CN110543858A (zh) * | 2019-09-05 | 2019-12-06 | 西北工业大学 | 多模态自适应融合的三维目标检测方法 |
Non-Patent Citations (2)
Title |
---|
EONHO LEE等: "Development of Modified Spherical Signature Descriptor for Robust Object Recognition Using 3D Point Cloud Data via CNN", 《IEEE》 * |
姜翰青等: "基于多视图深度采样的自然场景三维重建", 《计算机辅助设计与图形学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257637A (zh) * | 2020-10-30 | 2021-01-22 | 福州大学 | 一种融合点云和多视图的车载激光点云多目标识别方法 |
CN112257637B (zh) * | 2020-10-30 | 2022-05-24 | 福州大学 | 一种融合点云和多视图的车载激光点云多目标识别方法 |
CN112347932A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
CN112347932B (zh) * | 2020-11-06 | 2023-01-17 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111191729B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tateno et al. | Distortion-aware convolutional filters for dense prediction in panoramic images | |
Wang et al. | High-resolution image synthesis and semantic manipulation with conditional gans | |
CN109410307B (zh) | 一种场景点云语义分割方法 | |
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
CN110443892B (zh) | 一种基于单张图像的三维网格模型生成方法及装置 | |
AU2020101435A4 (en) | A panoramic vision system based on the uav platform | |
CN110163974B (zh) | 一种基于无向图学习模型的单图像面片重建方法 | |
CN111753698B (zh) | 一种多模态三维点云分割系统和方法 | |
CN110457515B (zh) | 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法 | |
CN108921926A (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN111243093A (zh) | 三维人脸网格的生成方法、装置、设备及存储介质 | |
CN112598775B (zh) | 一种基于对比学习的多视图生成方法 | |
CN111951368B (zh) | 一种点云、体素和多视图融合的深度学习方法 | |
Pan et al. | Residual meshnet: Learning to deform meshes for single-view 3d reconstruction | |
CN111191729B (zh) | 一种基于多模态特征融合的三维对象融合特征表示方法 | |
Chen et al. | Autosweep: Recovering 3d editable objects from a single photograph | |
Hsu et al. | High-resolution image inpainting through multiple deep networks | |
Nousias et al. | A saliency aware CNN-based 3D model simplification and compression framework for remote inspection of heritage sites | |
Shan et al. | Discrete spherical image representation for cnn-based inclination estimation | |
Fan et al. | Sir: Self-supervised image rectification via seeing the same scene from multiple different lenses | |
Lalos et al. | Signal processing on static and dynamic 3d meshes: Sparse representations and applications | |
CN114638866A (zh) | 一种基于局部特征学习的点云配准方法及系统 | |
CN112802048B (zh) | 具有不对称结构的图层生成对抗网络生成方法及装置 | |
CN117994480A (zh) | 一种轻量化手部重建与驱动的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |