CN111191729A

CN111191729A - 一种基于多模态特征融合的三维对象融合特征表示方法

Info

Publication number: CN111191729A
Application number: CN201911425234.XA
Authority: CN
Inventors: 颜成钢; 龚镖; 白俊杰; 孙垚棋; 张继勇; 张勇东; 沈韬
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-22
Anticipated expiration: 2039-12-31
Also published as: CN111191729B

Abstract

本发明提供一种基于多模态特征融合的三维对象融合特征表示方法。本发明将三种模态的三维模型特征表示，都做了一个非常细致的实现和复现：三维模型的多视图特征表示、点云特征表示以及网格特征表示。对多模态三维数据进行了处理、增强和融合，并基于此提取出了三维对象的融合特征表示。本发明能实现非常优秀的多模态信息融合，实现更加鲁棒的三维模型特征表示，供给其他三维对象任务使用。

Description

一种基于多模态特征融合的三维对象融合特征表示方法

技术领域

本发明属于计算机图像及人工智能技术领域，提供一种融合了三维多模态信息且更加高效的三维对象融合特征表示形式。

背景技术

3D数据识别和分析是多媒体和计算机视觉领域的一个基础和有趣的领域，涵盖了从环境理解到自动驾驶的广泛应用。如何理解3D数据，例如识别3D形状，近年来引起了很多关注。随着深度学习的发展，各种深度网络被用于处理不同类型的3D数据：点云(PointCloud)，多视图(Multi-view)和体积(Volumetric)数据。虽然将2D卷积神经网络扩展到体积数据是自然而合理的，但这些方法具有较大的计算复杂性和数据稀疏性，使得难以处理高图像分辨率。相比之下，分析多视图数据或点云数据由于其更广泛的数据采集和存储来源，因此更加灵活并且报告了更好的性能。除了以上传统三维对象表示形式，另外有一种叫作“网格”(Mesh)的三维特征表示方法，在计算机图形设计及三维模型表示方面有重要的地位。3D形状的网格数据是顶点，边和面的集合，其主要用于计算机图形中以渲染和存储3D模型。网格数据具有复杂性和不规则性。复杂性问题是网格由多个元素组成，并且可以在它们之间定义不同类型的连接。不规则性是网格数据处理的另一个挑战，这表明网格中的元素数量可能在3D形状之间显着变化，并且它们的排列是任意的。尽管存在这些问题，但网格具有比其他类型数据更强的3D形状描述能力。在这种情况下，如何使用网格数据有效地表示3D形状是一项紧迫而具有挑战性的任务。

基于以上情况，即：1.三维模型的表示形式的多样化(多模态)。2.网格数据的特殊性。我们设计了一种融合了三维多模态信息且更加高效的三维对象融合特征表示形式，其中多视图“Multi-view”和网格“Mesh”是我们用于验证融合网络的核心的两类三维模态。

发明内容

针对现有技术的不足，本发明提供一种基于多模态特征融合的三维对象融合特征表示方法。本发明对多模态三维数据进行了处理、增强和融合，并基于此提取出了三维对象的融合特征表示。

一种基于多模态特征融合的三维对象融合特征表示方法,步骤如下：

步骤(1)、通过多视图神经网络处理多视图三维信息；

通过多个不共享权重的独立的CNN，分别输入多视图信息，再通过Max-pooling，将多个CNN的输出统一到一个输出上，追加判别器(即基于全连接层的非线性分类器)进行模型的分类。

首先将三维模型数据转化成多视图数据，具体方式是在三维模型的中间水平面上，绕三维模型一周均匀摆放12个摄像头，拍摄一组共12张图片作为三维模型的多视图表示。然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小，再进行随机的224x224大小的区块的裁切。将处理后的图像，分别输入多个CNN模型中，CNN模型的输入层接收这些数据，随后进行多层的卷积操作，即通过卷积后再卷积的形式，不断抽取特征。最后，多个CNN都输出相同尺寸的卷积特征，利用max-pooling操作将这些特征进行统一，具体的方式是在多个CNN的输出结果上，滑动pooling窗口，每个窗口都取各自的最大值作为这个窗口的计算结果，获得最终的全局多视图特征，通过判别器实现三维模型的分类，判别器采用基于全连接层的非线性分类器，本质上是一个多项式，但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性。

步骤(2)、点云的特征提取网络；

基于经典的点云处理网络模型，对点云数据进行特征提，具体如下：

设具有n个点的F维点云表示为

通常F＝3并且每个点都在3D坐标中。首先通过3D空间变换网络计算仿射变换矩阵，仿射变换矩阵用于保持点云对几何变换不变。然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中。EdgeConv首先收集每个点的k近邻，然后通过卷积和最大池来提取每个点的局部边缘特征。

步骤(3)、网格数据的表示方法；

网格数据由多个元素组成，并且可以在它们之间定义连接,为简化网格数据组织，将面(face)视为唯一的单元，并在两个面共享共同边缘时定义两个面之间的连接。将面部特征分为空间特征和结构特征，首先将网格数据的每一个网格面表示为“中心”，“顶点”，“法向量”和“邻接网格”四个属性，每个属性分别由1x3,1x9,1x3和1x3的向量进行表示。进行空间描述子和结构描述子的抽取；空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征，结构描述子为通过“面旋转卷积”的形式进行特征抽取。所述的“面旋转卷积”，具体的计算方法是将“顶点”向量进行90度的旋转，旋转3次得到4个不同角度的表示，将4个不同角度的表示全部连接起来并乘以参数矩阵，然后通过pooling操作得到结构特征。获得空间描述子和结构描述子后，将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接，然后将连接后的投入MLP中输出全局特征。

步骤(4)、融合特征计算与输出；

首先取多视图和点云特征表示，他们分别记为分为原始模态特征A和用于融合的模态特征B。先将A和B做一个简单连接(concat)合成C，再将C投入MLP并结合归一化函数输出soft注意力掩模D。然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E，最后将E和原始模态特征A做乘法输出融合特征表示F。将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H，再将H投入MLP并结合归一化函数输出soft注意力掩模I。然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J，最后将J和融合特征表示F做乘法输出最终融合特征表示K。

本发明有益效果如下：

本发明一方面将三种模态的三维模型特征表示(现有的理论方法)，都做了一个非常细致的实现和复现，相较于现有方法，能够有效地提取出，能输入我们的算法模型的：三维模型的多视图特征表示、点云特征表示以及网格特征表示。另一方面，对于我们设计的全新的“融合特征”以及对应的“融合特征计算输出”算法流程，它能实现非常优秀的多模态信息融合，实现更加鲁棒的三维模型特征表示，供给其他三维对象任务使用。

附图说明

图1是本发明涉及的多视图数据的特征学习网络示意图；

图2是本发明涉及的点云数据的边卷积过程示意图；

图3是本发明涉及的网格数据的表示形式；

图4是两种模态之间的数据影响和融合方式的示意图。

具体实施方式

以下结合附图对本发明进行进一步描述；

步骤(1)、通过多视图神经网络处理多视图三维信息；

如图1所示，通过多个不共享权重的独立的CNN，分别输入多视图信息，再通过Max-pooling，将多个CNN的输出统一到一个输出上，追加判别器(即基于全连接层的非线性分类器)进行模型的分类。

首先将三维模型数据转化成多视图数据，具体方式是在三维模型的中间水平面上，绕三维模型一周均匀摆放(即间隔30度角)12个摄像头，拍摄一组共12张图片作为三维模型的多视图表示。然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小，再进行随机的224x224大小的区块的裁切。将处理后的图像，分别输入多个CNN模型中(每个CNN的输入的内容相同)，CNN模型的输入层接收这些数据，随后进行多层的卷积操作，即通过卷积后再卷积的形式，不断抽取特征。最后，多个CNN都输出相同尺寸的卷积特征，利用max-pooling操作将这些特征进行统一，具体的方式是在多个CNN的输出结果上，滑动pooling窗口，每个窗口都取各自的最大值作为这个窗口的计算结果，获得最终的全局多视图特征，通过判别器实现三维模型的分类，判别器采用基于全连接层的非线性分类器，本质上是一个多项式，但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性。

步骤(2)、点云的特征提取网络；

设具有n个点的F维点云表示为

通常F＝3并且每个点都在3D坐标中。首先通过3D空间变换网络计算仿射变换矩阵，仿射变换矩阵用于保持点云对几何变换不变。然后采用如图2所示的EdgeConv作为基本层进行堆叠或循环应用于网络中。EdgeConv首先收集每个点的k近邻，然后通过卷积和最大池来提取每个点的局部边缘特征。

步骤(3)、网格数据的表示方法；

如图3所示，网格数据由多个元素组成，并且可以在它们之间定义连接,为简化网格数据组织，将面(face)视为唯一的单元，并在两个面共享共同边缘时定义两个面之间的连接。这种简化有几个优点。首先是一个三角形面可以连接不超过三个面，这使得连接关系规则且易于使用；可以通过每面处理和对称函数解决无序问题，类似于PointNet，具有每个面部过程和对称函数；面还包含比顶点和边缘更多的信息。

虽然上述简化使我们能够使用类似于基于点的方法的网格数据，但是在单元和面单元之间仍然存在一些差异，因为面包含的信息多于点。将面部特征分为空间特征和结构特征，有助于我们更明确地捕捉特征，首先将网格数据的每一个网格面表示为“中心”，“顶点”，“法向量”和“邻接网格”四个属性，每个属性分别由1x3,1x9,1x3和1x3的向量进行表示。进行空间描述子和结构描述子的抽取；空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征，结构描述子为通过“面旋转卷积”的形式进行特征抽取。所述的“面旋转卷积”，具体的计算方法是将“顶点”向量进行90度的旋转，旋转3次得到4个不同角度的表示，将4个不同角度的表示全部连接起来并乘以参数矩阵，然后通过pooling操作得到结构特征。获得空间描述子和结构描述子后，将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接(即堆叠起来)，然后将连接后的投入MLP中输出全局特征。

步骤(4)、融合特征计算与输出；

如图4所示，首先取多视图和点云特征表示，他们分别记为分为原始模态特征A和用于融合的模态特征B。先将A和B做一个简单连接(concat)合成C，再将C投入MLP并结合归一化函数输出soft注意力掩模D。然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E，最后将E和原始模态特征A做乘法输出融合特征表示F。将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H，再将H投入MLP并结合归一化函数输出soft注意力掩模I。然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J，最后将J和融合特征表示F做乘法输出最终融合特征表示K。

Claims

1.一种基于多模态特征融合的三维对象融合特征表示方法,其特征在于，步骤如下：

步骤(1)、通过多视图神经网络处理多视图三维信息；

通过多视图神经网络处理多视图三维信息；通过多个不共享权重的独立的CNN，分别输入多视图信息，再通过Max-pooling，将多个CNN的输出统一到一个输出上，追加判别器(即基于全连接层的非线性分类器)进行模型的分类；

首先将三维模型数据转化成多视图数据，具体方式是在三维模型的中间水平面上，绕三维模型一周均匀摆放12个摄像头，拍摄一组共12张图片作为三维模型的多视图表示；然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小，再进行随机的224x224大小的区块的裁切；将处理后的图像，分别输入多个CNN模型中，CNN模型的输入层接收这些数据，随后进行多层的卷积操作，即通过卷积后再卷积的形式，不断抽取特征；最后，多个CNN都输出相同尺寸的卷积特征，利用max-pooling操作将这些特征进行统一，具体的方式是在多个CNN的输出结果上，滑动pooling窗口，每个窗口都取各自的最大值作为这个窗口的计算结果，获得最终的全局多视图特征，通过判别器实现三维模型的分类，判别器采用基于全连接层的非线性分类器，本质上是一个多项式，但是每一项中间会增加非线性函数(如Relu函数)实现分类器的非线性；

步骤(2)、点云的特征提取网络；

设具有n个点的F维点云表示为

通常F＝3并且每个点都在3D坐标中；首先通过3D空间变换网络计算仿射变换矩阵，仿射变换矩阵用于保持点云对几何变换不变；然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中；EdgeConv首先收集每个点的k近邻，然后通过卷积和最大池来提取每个点的局部边缘特征；

步骤(3)、网格数据的表示方法；

网格数据由多个元素组成，并且可以在它们之间定义连接,为简化网格数据组织，将面(face)视为唯一的单元，并在两个面共享共同边缘时定义两个面之间的连接；将面部特征分为空间特征和结构特征，首先将网格数据的每一个网格面表示为“中心”，“顶点”，“法向量”和“邻接网格”四个属性，每个属性分别由1x3,1x9,1x3和1x3的向量进行表示；进行空间描述子和结构描述子的抽取；空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征，结构描述子为通过“面旋转卷积”的形式进行特征抽取；所述的“面旋转卷积”，具体的计算方法是将“顶点”向量进行90度的旋转，旋转3次得到4个不同角度的表示，将4个不同角度的表示全部连接起来并乘以参数矩阵，然后通过pooling操作得到结构特征；获得空间描述子和结构描述子后，将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接，然后将连接后的投入MLP中输出全局特征；

步骤(4)、融合特征计算与输出；

首先取多视图和点云特征表示，他们分别记为分为原始模态特征A和用于融合的模态特征B；先将A和B做一个简单连接(concat)合成C，再将C投入MLP并结合归一化函数输出soft注意力掩模D；然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E，最后将E和原始模态特征A做乘法输出融合特征表示F；将融合特征表示F和网格特征表示G做一个简单连接(concat)合成H，再将H投入MLP并结合归一化函数输出soft注意力掩模I；然后将融合特征表示F和soft注意力掩模I做矩阵乘法输出中间特征J，最后将J和融合特征表示F做乘法输出最终融合特征表示K。