CN111460193A

CN111460193A - 一种基于多模态信息融合的三维模型分类方法

Info

Publication number: CN111460193A
Application number: CN202010129143.8A
Authority: CN
Inventors: 张静; 陈闯; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-28
Anticipated expiration: 2040-02-28
Also published as: CN111460193B

Abstract

本发明公开了一种基于多模态信息融合的三维模型分类方法(MIFN,Multi‑modal Information Fusion based on LSTM)，所述方法包括以下步骤：利用开放(OPENGL，Open Graphics Library)提取三维模型的视图信息和全景图信息，利用点云库(PCL,Point Cloud Library)提取三维模型的点云信息；通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型，利用多模态网络模型获取三维模型在不同模态下的预测得分；通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分，利用Softmax算法对最终的预测得分进行处理生成类标签。本发明通过融合三维模型三种模态的信息来表征三维模型，相比于仅仅使用单模态信息包含的信息更加全面，提升了三维模型分类的准确性。

Description

一种基于多模态信息融合的三维模型分类方法

技术领域

本发明涉及三维模型分类领域，尤其涉及一种基于多模态信息融合的三维模型分类方法。

背景技术

近年来，随着科学技术的高速发展，3D技术在工业设计、医疗器械、建筑设计、航空航天、汽车制造、影视动画等领域得到了广泛的应用，三维模型的种类和数量也随之增长，从计算机视图领域来看，三维模型分类已经成为发展的必然趋势。

三维模型的分类和检索已经在多媒体和计算机视图领域得到了广泛的应用，随着计算机图形学的发展，应用于三维模型表征的各种算法都取得了很好的性能，深度学习的快速发展衍生出许多表征三维模型的深度学习模型，深度学习模型在三维模型分类领域呈现出显著的性能。在三维模型分类领域，多视图、全景图、点云图、体素等都是三维模型的表征方法。多视图是多个二维视图的集合，可以通过将多个虚拟摄像机以固定距离摆放在三维模型周围拍摄得到。Su等人^[1]将多视图输入卷积神经网络进而得到三维模型的特征描述符，基于三维模型数据库利用该特征进行分类取得了很好的分类效果，但是该描述符仅包含三维模型的视图信息不能全面地诠释三维模型。点云是将三维模型转换为一系列带有三维坐标的点数据，将得到的原始点云数据输入点云网络进而对点云的空间特征进行最大化处理，即使获取到的点云的数据量较小，利用点云网络^[2]提取到的特征也能有效地对三维模型进行分类。Sfikas^[3]等人将三维模型全景图输入卷积神经网络进而实现三维模型的分类，全景图由一系列代表三维模型视图信息和结构信息的图像构成。三维模型的网格数据是三维模型网络中顶点、边和面的组合，由于三维模型可以表征成多个网格网络，因此网格数据具有复杂和不规则的特点。体素是三维模型分割的最小单元，类似于二维图像中像素的概念，体素非常复杂，因此不是三维模型表征的主流方法。

以上方法都仅仅使用了三维模型的单模态信息，对三维模型的表征并不全面，由于它们包含三维模型不同模态下的信息，因此可以借鉴以上方法获取既包含三维模型结构信息，又包含视图信息的特征描述符增强分类的准确性。

发明内容

本发明提供了一种基于多模态信息融合的三维模型分类方法，本方法利用点云和全景图表征三维模型的视图、结构和表面信息，然后利用MVCNN^[1]，PointNet^[2]和PANORAMA-MVCNN^[3]获取三维模型分类的预测得分，最后将不同网络得到的分类结果进行融合进而得到带有权重的最终分类结果。该方法通过融合三维模型三种模态的信息来表征三维模型，相比于仅仅使用单模态信息包含的信息更加全面，提升了三维模型分类的准确性，详见下文描述：

一种基于多模态信息融合的三维模型分类方法，所述方法包括以下步骤：

利用OPENGL提取三维模型的视图信息和全景图信息，利用PCL提取三维模型的点云信息；

通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型，利用多模态网络模型获取三维模型在不同模态下的预测得分；

通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分，利用 Softmax算法对最终的预测得分进行处理生成类标签。

本发明提供的技术方案的有益效果是：

1、本发明通过提取三维模型多视图、点云、全景图信息来表征三维模型，使得三维模型的特征描述更加全面；

2、本发明提出了一种多模态分类网络，该方法通过融合三维模型的多模态信息提升三维模型分类的准确度。

附图说明

图1为一种基于多模态信息融合的三维模型分类方法的框架图；

图2为三维模型的全景图；

图3为不同权重配比的分类性能图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

三维形状识别根据不同的方式主要分为四类：基于网格的方法、基于体积的方法、基于视图的方法和多模态融合方法。

基于网格的方法：三维模型的网格数据由顶点、边和面组成，网格具有比其他格式的数据更强大的三维形状描述能力。

基于体积的方法：首先利用体素和点云去表征三维模型，然后类比于二维图像的卷积运算对其进行卷积操作，将卷积操作后的结果作为三维模型的最终表示。

基于视图的方法：首先利用虚拟摄像机获取三维模型的多视角视图，通过提取多视角视图的特征来表征三维模型。

多模态融合方法：以上方法都仅仅使用了三维模型的单模态信息，由于它们包含不同模态下的信息，因此可以借鉴以上方法获取既包含三维模型结构信息，又包含视图信息的特征描述符进而增强分类的准确度，为了充分利用三维模型不同模态特征表示的优势，本发明设计了多模态信息融合网络(MIFN，Multi-modal Information Fusion basedon LSTM)，与传统的分类网络只应用三维模型单一模态信息相比，该网络在分类预测模块综合所有模态信息进行分类。

为了提高分类的精确度，本发明首先对模型进行预处理，每种模态根据不同的网络对三维模型进行分类，在对网络进行训练更新参数时，本发明对各模态网络单独训练以保证单模态网络可以获得最佳性能，然后设计一个一致性函数将不同模态下的预测得分聚合在一起生成最终的预测得分，最终的预测得分相比于单模态预测包含的信息量更大，预测的结果更准确。

实施例1

为了实现三维模型的精确分类，本发明实施例提出了一种基于多模态融合的三维模型分类方法，参见图1，详见下文描述：

101：利用OPENGL(开放库)提取三维模型的多视图信息和全景图信息，利用PCL(点云库)提取三维模型的点云信息；

102：通过对多模态网络进行独立的单模态网络训练获取多模态网络模型，利用多模态网络模型获取三维模型在不同模态下的预测得分；

103：通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分，利用Softmax算法对最终的预测得分进行处理生成类标签。

其中，步骤101中利用OPENGL提取三维模型的多视图信息和全景图信息，利用PCL提取三维模型的点云信息的具体步骤为：

1)由于三维模型的大小和角度不一致，首先使用NPCA^[4][5]对三维模型进行校准。接着利用OPENGL提供的接口实现三维模型的渲染，然后在OPENGL的渲染系统里围绕三维模型每隔30度放置一个虚拟摄像机，摄像机镜头以30度的俯角对准三维模型质心，通过连续拍摄获取三维模型的多视角视图(12张)。

2)全景图是一组包含三维模型表面信息的二维视图，在对三维模型进行校准、渲染操作后，以三维模型的质心为原点将三维模型的曲面投影到圆柱体曲面上，圆柱体的半径 R是三维模型表面到圆柱体轴线的最大距离的三倍，圆柱的高度是2R，若将z轴作为圆柱体的轴线，使用一组点集S(φ,z)表示投影数据，其中φ是三维模型中点的角度，z是点的高度。

3)由该点集针对每一个坐标轴依据四种不同的数据可以生成四种全景图：1、模型曲面在三维空间中的位置(SDM)；2、模型曲面的方向(NDM)；3、NDM的梯度图；4、由以上三种图形构成的三通道图。因此每一个三维模型选择坐标系中的不同轴作为轴线都可以生成如图2所视的12幅投影视图。

4)在对三维模型的表面进行网格化后，利用网格的质心来表示网格，由于三维模型的大小不同，在此根据三维模型的表面信息不同利用蝴蝶细分算法对三维模型进行细分进而获取更多的网格。最后，本方法获取到了表征三维模型的1024个点，三维模型也就转换为了点云数据。

其中，步骤102中构建多模态网络模型的具体步骤为：

1)多视图网络：多视图网络基于MVCNN架构构建，MVCNN架构中的视图池化层实现了对所有视图的最大池化；

2)点云网络：基于经典PointNet架构搭建点云网络，通过学习一个3×3矩阵对输入点云网络中的n个点的三维坐标进行均衡化，根据每个点的k近邻获取该点的局部图像片，通过对多通道应用一个1×1的卷积网络计算点云空间的边缘特征，最后对相邻的边缘特征进行池化操作后生成张量特征；

3)全景图网络：全景图网络同样利用MVCNN架构实现，但是MVCNN架构中的参数基于全景图数据进行了重置。

其中，步骤103中的构造聚合函数聚合多模态网络的预测得分的具体步骤为：

1)基于训练好的多模态网络模型获取每一个单模态网络对三维模型的预测得分；

2)利用线性平均加权法聚合各模态预测得分，聚合结果即为多模态网络模型对三维模型的最终预测得分；

3)利用Softmax算法将最终预测得分映射为0-1的实数进而得到三维模型的类标签。

实施例2

下面结合具体的计算公式、图1对实施例1中的方案进行进一步地介绍，详见下文描述：

对于一个三维模型M，经过预处理可以获取到K种模态的数据：P₁,P₂,...,P_K，然后将获取到的多模态数据分别输入各自训练好的网络M₁,M₂,...,M_K，最后利用多模态信息融合网络(MIFN)将不同模态下的预测得分聚合如下：

MIFN(P₁,P₂,...,P_K)＝H(G(M(P₁:W₁),M(P₂:W₂),...,M(P_K:W_K)))

其中，W_K表示网络M_K的参数，W_K基于输入网络M_K中的单模态数据P_K进行更新， M_K的输出是单模态预测得分，G是聚合函数，它将多个单模态网络输出数据聚合在一起。

在MIFN中，聚合函数是很重要的，在此本发明将介绍聚合函数的设计思想，将三维模型的多种模态的数据输入各自的网络可以得到基于不同模态的预测分数，这些预测分数表示单模态网络将三维模型预测为某类的概率。这些分数是基于单一模态学习到的特征，单一模态预测分数显然可靠性不高，因此可以对预测得分做一个简单的加法如下式：

但是按照以上的做法对预测得分进行处理将忽略不同模态之间的差异，由于不同的模态信息，并且针对不同的模态应该能够有不同的处理方式。因此本发明使用线性平均加权法聚合各模态预测分数，聚合公式如下式，本发明利用该公式融合了三种模态的预测分数。

其中，M(P_K:W_K)表示由MVCNN、PointNet和PANORAMA-MVCNN三种网络针对不同模态的数据得到的预测得分。α_i是为了平衡多视图、点云、全景图的占比而设置的不同模态预测得分权重。

基于这个聚合结果，利用Softmax函数将聚合结果映射为0-1的实数进而预测三维模型归属类别的概率。

实施例3

下面结合图3、表1和表2对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实例的实验验证基于ModelNet40数据库和ModelNet10数据库实现，ModelNet40数据库和ModelNet10数据库是著名的数据库ModelNet^[6]的子集，ModelNet10总共包含10个类别共计4899个CAD模型，其中训练集包含3991个模型，测试集包含908 个模型，ModelNet40总共包含40个类别共计12311个CAD模型，其中训练集包含9843 个模型，测试集包含2468个模型。

为了验证MIFN的性能本发明将单模态网络分类结果与多模态网络分类结果相比较，实验结果如表1所示，从表中可以看出，多模态网络组合的分类性能明显高于单模态分类网络，其中MV+PC比单独的MV和PC分别提升了4％和1.5％的性能。MV+PV比单独的 MV和PV相比分别提升了2％和6％的性能。PC+PV比单独的PC和PV相比分别提升了 0.25％和6.5％的性能，MV+PV+PC比单独的MV、PV和PC相比分别提升了5％，3％和 9％的性能。另外从表中还可以看出PC网络相比于另外两种单模态网络对多模态网络的提升最大，单模态网络PC的分类效果也优于两外两种单模态网络，由此可以看出点云数据包含更多的三维模型信息。

表1

为了让每一个单模态网络最大化其分类优势，对不同模态的网络分配不同的权重进行实验验证，先前的实验表明点云数据在三种模态数据中对最后的分类性能影响最大，图3 显示点云、多视图和全景图的预测得分的权重设置为α₁＝0.7、α₂＝0.2和α₃＝0.1时，分类性能最好，与直接平均法相比提升了0.54％的性能。实验结果证明了所提出方法的有效性。

为了验证MIFN框架的有效性，本发明基于ModelNet数据集按照对训练集和测试集进行划分。在实验中，本发明将MIFN与基于体积的特征描述符(3D ShapeNets^[6]、VoxNet^[7])、多视图深度学习模型(MVCNN-12^[1]、MVCNN-80^[1])、点云深度学习模型(PointCNN^[8]、DGCNN^[9])和全景图深度学习模型(PANORAMA-NN^[10]，表2提供了所有比较方法的分类结果，结果显示MIFN分类准确率最高，达到92.4％。

表2

参考文献：

[1]Su H,Maji S,Kalogerakis E,et al.Multi-view Convolutional NeuralNetworks for 3D Shape Recognition[J].2015.

[2]QiC R,SuH,Mo K,et al.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation[J].2016.

[3]Sfikas K,Pratikakis I,Theoharis T.Ensemble of PANORAMA-basedconvolutional neural networks for 3D model classification and retrieval[J].Computers&Graphics,2018, 71(APR.):208-218.

[4]Dyn N,Levine D,Gregory J A.A butterfly subdivision scheme forsurface interpolation with tension control[J].ACM Transactions on Graphics,1990,9(2):160-169.

[5]Papadakis P,Pratikakis I,Perantonis S,et al.Efficient 3D shapematching and retrieval using a concrete radialized spherical projectionrepresentation[J].Pattern Recognition,2007, 40(9):2437-2452.

[6]Wu,Zhirong,Song,Shuran,Khosla,Aditya,et al.3D ShapeNets:A DeepRepresentation for Volumetric Shapes[J].

[7]Krizhevsky A ,Sutskever I,Hinton G.ImageNet Classification withDeep Convolutional Neural Networks[C]//NIPS.Curran Associates Inc.2012.

[8]Klokov,Roman,Lempitsky,Victor.Escape from Cells:Deep Kd-Networksfor the Recognition of 3D Point Cloud Models[J].

[9]Wang Y,Sun Y,Liu Z,et al.Dynamic Graph CNN for Learning on PointClouds[J].2018. [10]Sfikas K,Theoharis T,Pratikakis I.Exploiting the PANORAMARepresentation for Convolutional Neural Network Classification and Retrieval[C]//Eurographics Workshop on 3D Object Retrieval2017.2017.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态信息融合的三维模型分类方法，其特征在于，所述方法包括以下步骤：

1)利用OPENGL提取三维模型的视图信息和全景图信息，利用PCL提取三维模型的点云信息；

2)通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型，利用多模态网络模型获取三维模型在不同模态下的预测得分；

3)通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分，利用Softmax算法对最终的预测得分进行处理生成类标签；

其中，上述步骤1)具体为：

利用OPENGL实现三维模型的渲染，其中OPENGL提供了一系列渲染三维矢量图形的接口；

通过对三维模型的多视角拍摄获取表征三维模型视图信息的多视角视图，通过对三维模型的曲面投影获取三维模型的全景图信息；

利用蝴蝶细分算法对三维模型的表面信息进行细分进而实现三维模型的网格化；

利用网格的质心表示三维模型中的网格，PCL提供了点云操作的一系列接口，通过调用PCL中的库函数获取表征三维模型的1024个点，1024个点构成了三维模型的点云信息。

2.根据权利要求1所述的一种基于多模态信息融合图像序列的三维模型分类方法，其特征在于，所述步骤2)具体为：

多视图网络基于MVCNN架构构建，MVCNN架构中的视图池化层实现了对所有视图的最大池化；

点云网络基于经典PointNet架构搭建，通过学习一个3×3矩阵对输入点云网络中的n个点的三维坐标进行均衡化，根据每个点的k近邻获取该点的局部图像片，通过对多通道应用一个1×1的卷积网络计算点云空间的边缘特征，最后对相邻的边缘特征进行池化操作后生成张量特征；

全景图网络利用MVCNN架构实现，架构中的参数基于全景图数据进行了重置；

将三种模态的数据输入训练好的多模态网络模型获取三维模型在不同模态下的预测得分。

3.根据权利要求1所述的一种基于多模态信息融合的三维模型分类方法，其特征在于，所述步骤3)具体为：

基于多模态网络模型输出的三维模型三种模态的预测得分进行统计实验进而确定不同模态预测得分的权重；

通过构建一致性函数将不同模态下的预测得分聚合在一起生成最终的预测得分，利用Softmax函数将聚合结果映射为0-1的实数进而预测三维模型归属类别的概率。