CN111191729B - 一种基于多模态特征融合的三维对象融合特征表示方法 - Google Patents

一种基于多模态特征融合的三维对象融合特征表示方法 Download PDF

Info

Publication number
CN111191729B
CN111191729B CN201911425234.XA CN201911425234A CN111191729B CN 111191729 B CN111191729 B CN 111191729B CN 201911425234 A CN201911425234 A CN 201911425234A CN 111191729 B CN111191729 B CN 111191729B
Authority
CN
China
Prior art keywords
feature
fusion
view
data
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911425234.XA
Other languages
English (en)
Other versions
CN111191729A (zh
Inventor
颜成钢
龚镖
白俊杰
孙垚棋
张继勇
张勇东
沈韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911425234.XA priority Critical patent/CN111191729B/zh
Publication of CN111191729A publication Critical patent/CN111191729A/zh
Application granted granted Critical
Publication of CN111191729B publication Critical patent/CN111191729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2453Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Nonlinear Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种基于多模态特征融合的三维对象融合特征表示方法。本发明将三种模态的三维模型特征表示,都做了一个非常细致的实现和复现:三维模型的多视图特征表示、点云特征表示以及网格特征表示。对多模态三维数据进行了处理、增强和融合,并基于此提取出了三维对象的融合特征表示。本发明能实现非常优秀的多模态信息融合,实现更加鲁棒的三维模型特征表示,供给其他三维对象任务使用。

Description

一种基于多模态特征融合的三维对象融合特征表示方法
技术领域
本发明属于计算机图像及人工智能技术领域,提供一种融合了三维多模态信息且更加高效的三维对象融合特征表示形式。
背景技术
3D数据识别和分析是多媒体和计算机视觉领域的一个基础和有趣的领域,涵盖了从环境理解到自动驾驶的广泛应用。如何理解3D数据,例如识别3D形状,近年来引起了很多关注。随着深度学习的发展,各种深度网络被用于处理不同类型的3D数据:点云(PointCloud),多视图(Multi-view)和体积(Volumetric)数据。虽然将2D卷积神经网络扩展到体积数据是自然而合理的,但这些方法具有较大的计算复杂性和数据稀疏性,使得难以处理高图像分辨率。相比之下,分析多视图数据或点云数据由于其更广泛的数据采集和存储来源,因此更加灵活并且报告了更好的性能。除了以上传统三维对象表示形式,另外有一种叫作“网格”(Mesh)的三维特征表示方法,在计算机图形设计及三维模型表示方面有重要的地位。3D形状的网格数据是顶点,边和面的集合,其主要用于计算机图形中以渲染和存储3D模型。网格数据具有复杂性和不规则性。复杂性问题是网格由多个元素组成,并且可以在它们之间定义不同类型的连接。不规则性是网格数据处理的另一个挑战,这表明网格中的元素数量可能在3D形状之间显着变化,并且它们的排列是任意的。尽管存在这些问题,但网格具有比其他类型数据更强的3D形状描述能力。在这种情况下,如何使用网格数据有效地表示3D形状是一项紧迫而具有挑战性的任务。
基于以上情况,即:1.三维模型的表示形式的多样化(多模态)。2.网格数据的特殊性。我们设计了一种融合了三维多模态信息且更加高效的三维对象融合特征表示形式,其中多视图“Multi-view”和网格“Mesh”是我们用于验证融合网络的核心的两类三维模态。
发明内容
针对现有技术的不足,本发明提供一种基于多模态特征融合的三维对象融合特征表示方法。本发明对多模态三维数据进行了处理、增强和融合,并基于此提取出了三维对象的融合特征表示。
一种基于多模态特征融合的三维对象融合特征表示方法,步骤如下:
步骤(1)、通过多视图神经网络处理多视图三维信息;
通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max-pooling,将多个CNN的输出统一到一个输出上,追加判别器(即基于全连接层的非线性分类器)进行模型的分类。
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示。然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切。将处理后的图像,分别输入多个CNN模型中,CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征。最后,多个CNN都输出相同尺寸的卷积特征,利用max-pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,本质上是一个多项式,但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性。
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:
设具有n个点的F维点云表示为
Figure BDA0002353362080000021
通常F=3并且每个点都在3D坐标中。首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变。然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中。EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征。
步骤(3)、网格数据的表示方法;
网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面(face)视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接。将面部特征分为空间特征和结构特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示。进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取。所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征。获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接,然后将连接后的投入MLP中输出全局特征。
步骤(4)、融合特征计算与输出;
首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B。先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D。然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F。将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I。然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F做乘法输出最终融合特征表示K。
本发明有益效果如下:
本发明一方面将三种模态的三维模型特征表示(现有的理论方法),都做了一个非常细致的实现和复现,相较于现有方法,能够有效地提取出,能输入我们的算法模型的:三维模型的多视图特征表示、点云特征表示以及网格特征表示。另一方面,对于我们设计的全新的“融合特征”以及对应的“融合特征计算输出”算法流程,它能实现非常优秀的多模态信息融合,实现更加鲁棒的三维模型特征表示,供给其他三维对象任务使用。
附图说明
图1是本发明涉及的多视图数据的特征学习网络示意图;
图2是本发明涉及的点云数据的边卷积过程示意图;
图3是本发明涉及的网格数据的表示形式;
图4是两种模态之间的数据影响和融合方式的示意图。
具体实施方式
以下结合附图对本发明进行进一步描述;
一种基于多模态特征融合的三维对象融合特征表示方法,步骤如下:
步骤(1)、通过多视图神经网络处理多视图三维信息;
如图1所示,通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max-pooling,将多个CNN的输出统一到一个输出上,追加判别器(即基于全连接层的非线性分类器)进行模型的分类。
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放(即间隔30度角)12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示。然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切。将处理后的图像,分别输入多个CNN模型中(每个CNN的输入的内容相同),CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征。最后,多个CNN都输出相同尺寸的卷积特征,利用max-pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,本质上是一个多项式,但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性。
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:
设具有n个点的F维点云表示为
Figure BDA0002353362080000051
通常F=3并且每个点都在3D坐标中。首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变。然后采用如图2所示的EdgeConv作为基本层进行堆叠或循环应用于网络中。EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征。
步骤(3)、网格数据的表示方法;
如图3所示,网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面(face)视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接。这种简化有几个优点。首先是一个三角形面可以连接不超过三个面,这使得连接关系规则且易于使用;可以通过每面处理和对称函数解决无序问题,类似于PointNet,具有每个面部过程和对称函数;面还包含比顶点和边缘更多的信息。
虽然上述简化使我们能够使用类似于基于点的方法的网格数据,但是在单元和面单元之间仍然存在一些差异,因为面包含的信息多于点。将面部特征分为空间特征和结构特征,有助于我们更明确地捕捉特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示。进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取。所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征。获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接(即堆叠起来),然后将连接后的投入MLP中输出全局特征。
步骤(4)、融合特征计算与输出;
如图4所示,首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B。先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D。然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F。将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I。然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F做乘法输出最终融合特征表示K。

Claims (1)

1.一种基于多模态特征融合的三维对象融合特征表示方法,其特征在于,步骤如下:
步骤(1)、通过多视图神经网络处理多视图三维信息;
通过多视图神经网络处理多视图三维信息;通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max-pooling,将多个CNN的输出统一到一个输出上,追加判别器进行模型的分类;
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示;然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切;将处理后的图像,分别输入多个CNN模型中,CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征;最后,多个CNN都输出相同尺寸的卷积特征,利用max-pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,是一个多项式,但是每一项中间会增加非线性函数实现分类器的非线性;
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:
设具有n个点的F维点云表示为
Figure FDA0003345095060000011
F=3并且每个点都在3D坐标中;首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变;然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中;EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征;
步骤(3)、网格数据的表示方法;
网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接;将面部特征分为空间特征和结构特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示;进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取;所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征;获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接,然后将连接后的投入MLP中输出全局特征;
步骤(4)、融合特征计算与输出;
首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B;先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D;然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F’;将融合特征表示F’和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I;然后将融合特征表示F’和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F’做乘法输出最终融合特征表示K。
CN201911425234.XA 2019-12-31 2019-12-31 一种基于多模态特征融合的三维对象融合特征表示方法 Active CN111191729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911425234.XA CN111191729B (zh) 2019-12-31 2019-12-31 一种基于多模态特征融合的三维对象融合特征表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911425234.XA CN111191729B (zh) 2019-12-31 2019-12-31 一种基于多模态特征融合的三维对象融合特征表示方法

Publications (2)

Publication Number Publication Date
CN111191729A CN111191729A (zh) 2020-05-22
CN111191729B true CN111191729B (zh) 2022-04-01

Family

ID=70709832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911425234.XA Active CN111191729B (zh) 2019-12-31 2019-12-31 一种基于多模态特征融合的三维对象融合特征表示方法

Country Status (1)

Country Link
CN (1) CN111191729B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257637B (zh) * 2020-10-30 2022-05-24 福州大学 一种融合点云和多视图的车载激光点云多目标识别方法
CN112347932B (zh) * 2020-11-06 2023-01-17 天津大学 一种点云-多视图融合的三维模型识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118578A (zh) * 2018-08-01 2019-01-01 浙江大学 一种层次化的多视图三维重建纹理映射方法
CN110543858A (zh) * 2019-09-05 2019-12-06 西北工业大学 多模态自适应融合的三维目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619691B2 (en) * 2014-03-07 2017-04-11 University Of Southern California Multi-view 3D object recognition from a point cloud and change detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118578A (zh) * 2018-08-01 2019-01-01 浙江大学 一种层次化的多视图三维重建纹理映射方法
CN110543858A (zh) * 2019-09-05 2019-12-06 西北工业大学 多模态自适应融合的三维目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Development of Modified Spherical Signature Descriptor for Robust Object Recognition Using 3D Point Cloud Data via CNN;Eonho Lee等;《IEEE》;20180827;第137-140页 *
基于多视图深度采样的自然场景三维重建;姜翰青等;《计算机辅助设计与图形学学报》;20151031;第27卷(第10期);第1805-1815页 *

Also Published As

Publication number Publication date
CN111191729A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
Tateno et al. Distortion-aware convolutional filters for dense prediction in panoramic images
Wang et al. High-resolution image synthesis and semantic manipulation with conditional gans
CN110458939B (zh) 基于视角生成的室内场景建模方法
Li et al. End-to-end learning local multi-view descriptors for 3d point clouds
CN109410307B (zh) 一种场景点云语义分割方法
CN111243093B (zh) 三维人脸网格的生成方法、装置、设备及存储介质
He et al. Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN110443892B (zh) 一种基于单张图像的三维网格模型生成方法及装置
AU2020101435A4 (en) A panoramic vision system based on the uav platform
CN110163974B (zh) 一种基于无向图学习模型的单图像面片重建方法
CN108921926A (zh) 一种基于单张图像的端到端三维人脸重建方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN112598775B (zh) 一种基于对比学习的多视图生成方法
CN111951368B (zh) 一种点云、体素和多视图融合的深度学习方法
CN111191729B (zh) 一种基于多模态特征融合的三维对象融合特征表示方法
Pan et al. Residual meshnet: Learning to deform meshes for single-view 3d reconstruction
CN113077554A (zh) 一种基于任意视角图片的三维结构化模型重建的方法
CN112381813B (zh) 一种基于图卷积神经网络的全景图视觉显著性检测方法
Chen et al. Autosweep: Recovering 3d editable objects from a single photograph
Nousias et al. A saliency aware CNN-based 3D model simplification and compression framework for remote inspection of heritage sites
CN114638866A (zh) 一种基于局部特征学习的点云配准方法及系统
CN112802048B (zh) 具有不对称结构的图层生成对抗网络生成方法及装置
CN104252715B (zh) 一种基于单幅线条图像的三维立体重建方法
CN117094895B (zh) 图像全景拼接方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant