CN108596329B

CN108596329B - 基于端到端深度集成学习网络的三维模型分类方法

Info

Publication number: CN108596329B
Application number: CN201810446582.4A
Authority: CN
Inventors: 白静; 司庆龙; 刘振刚
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2020-08-07
Anticipated expiration: 2038-05-11
Also published as: CN108596329A

Abstract

本发明公开了一种基于端到端深度集成学习网络的三维模型分类方法，该方法是采用端到端的深度学习集成策略，输入一个三维网格模型，提取多视图表征，建立包含基学习器和集成学习器的集成深度学习网络，自动提取三维模型的复合特征，完成模型分类。实验表明，本发明方法在ModelNet10、ModelNet40、SHREC10、SHREC11、SHREC15数据集上分别取得了96.04％、92.79％、98.33％,98.44％and98.63％的分类精度。这一结果明显优于其它多视图分类算法，也初步验证了本方法的有效性。

Description

基于端到端深度集成学习网络的三维模型分类方法

技术领域

本发明涉及计算机图形学、计算机视觉与智能识别的技术领域，尤其是指一种基于端到端深度集成学习网络(EnsembleNet)的三维模型分类方法。

背景技术

当前，随着三维建模、扫描及计算机视觉等领域的不断发展，无人驾驶、三维场景漫游、智慧城市建设等相关技术的研究和应用受到了人们的广泛关注。其中，三维模型的有效识别正是其中的基础性研究问题。

特征的构造和分类模型的选取是决定分类优劣的关键。特别是对于三维模型这类复杂的数据类型，合适特征的建立更是相关领域研究人员的关注热点，也是业界的研究难点。深度学习技术能让机器自动学习客观对象的多层抽象和表示，从而理解复杂对象的内在含义，自动完成本质特征的提取，为三维模型的检索带来了新的研究方向。

由于深度学习要以结构化数据或有序数据为输入，而三维模型的网格表示无法满足需求。因此，学者们最初想到的方法就是首先提取三维模型的简单统计特征，将三维模型转化为一组向量，再以此为输入，构建深度学习网络以完成最终特征提取和分类。典型的工作有以Zernike矩和热核特征为输入的深度学习方法。由于深度学习的突出优点就是能够完成特征的自学习；而这类方法在输入向量数据时已经进行了一次初级特征的提取，难免丢失三维模型的原始信息，无法充分利用深度学习特征自学习的优点，影响深度学习效果。

针对以上方法存在的缺陷，学者们开始寻找新的三维模型原始表征方法.Wu等(WuZ,Song S,Khosla A,et al.3D shapenets:A deep representation for volumetricshapes[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.Washington DC:IEEE Computer Society Press.2015:1912‐1920)在2015年首次提出了基于体素的三维深度信念网络3DShapenets，在ModelNet10和ModelNet40标准数据集上分别取得了83.54％，77.32％的分类准确率，较传统方法高出3‐5个百分点.此后，D.Maturana等(Maturana D,Scherer S.Voxnet:A 3D convolutional neural networkfor real‐time object recognition[C]//Proceedings of Intelligent Robots andSystems.Washington DC:IEEE Computer Society Press,2015:922‐928)提出了基于三维体素的卷积神经网络VoxNet，将ModelNet10和ModelNet40标准数据集上的分类准确率提高到92％和83％.Andrew等(Brock A,Lim T,Ritchie J M,et al.Generative anddiscriminative voxel modeling with convolutional neural networks[J].arXivpreprint arXiv:1608.04236(2016))则于2016年提出了基于VAE的深度学习模型，将ModelNet10和ModelNet40上的分类精度提高到97.14％和95.54％的新高度.总体而言，基于体素的深度学习方法在近几年取得了突出的成绩.然而，由于体素数据维度高，信息较为稀疏，以体素为输入的深度学习网络在准确率和资源耗费方面很难做到平衡.

与此相对应的，有学者提出将三维模型表征为一组二维视图的集合.典型的工作有Su等(Su H,Maji S,Kalogerakis E,et al.Multi‐view convolutional neuralnetworks for 3d shape recognition[C]//Proceedings of the IEEE internationalconference on computer vision.Washington D C:IEEE Computer Society Press,2015:945‐953)提出的MVCNN，以一组二维视图为输入，通过CNN构造二维视图的初始特征，并通过视图池化层融合各个二维视图的特征，获取三维模型的特征，完成分类.该方法在ModelNet40上的分类精度为89.9％，高于同一时期提出的基于体素的深度学习分类方法.此后，出现了基于全景视图的DeepPano，基于几何图像的Geometry Image，基于多视图的Wang‐MVCNN、VS‐MVCNN，基于成对图像的Pairwise算法，以及华中科大研究人员所提出的利用GPU及倒排文件加速分类的实时三维物体识别算法.基于视图的这些方法能够一定程度的保留三维形状的原始信息，同时充分利用二维图像领域的海量数据库及性能优越的卷积神经网络，整体效果不错。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于端到端深度集成学习网络(EnsembleNet)的三维模型分类方法，该网络包括一个基学习器和一个集成学习器，前者负责形成初始决策，后者负责集成最终决策，相互结合，以改善深度学习泛化能力，进而提高三维模型的分类准确率。

为实现上述目的，本发明所提供的技术方案为：基于端到端深度集成学习网络的三维模型分类方法，该方法是采用端到端的深度学习集成策略，输入一个三维网格模型，提取多视图表征，建立包含基学习器和集成学习器的集成深度学习网络，自动提取三维模型的复合特征，完成模型分类；其包括以下步骤：

S1、选用普林斯顿刚性三维模型数据集Princeton ModelNet Dataset，分别针对ModelNet10和ModelNet40，从官网选取所需数量的模型作为训练数据和测试数据，生成训练集和数据集；

S2、对选取的三维模型进行二维视图渲染，构建给定mesh网格的多视图表征V＝{vi,1≤i≤N}，其中N为视图数目；

S3、构建深度集成学习网络，选择所需的基学习器，并构造集成学习器；其中，所述基学习器需要完成初始决策，综合考虑三维模型库及其对应二维视图的规模及复杂性，选择CaffeNet作为面向单个二维视图分类的深度学习模型；所述集成学习器需要完成最终决策，综合集成基于各个视图的初始决策，形成对三维模型分类的最终决策，集成学习器共包含三层，第一层为集成层，后两层为全连接层，为了避免深度学习网络训练中出现过拟合，每个全连接层后有一个Dropout层；

S4、建立一个级联损失函数，有效平衡基学习器和集成学习模块的学习能力，实现复杂三维模型复合信息的有效提取；

S5、扩充训练数据，减少网络的过拟合，提高预测的鲁棒性；

S6、针对深度集成学习网络EnsembleNet的网络架构，通过基学习器预训、整体网络初训、集成学习器调优的步骤进行层次迭代式训练；

S7、利用步骤S6中的层次迭代式训练方法，得到实验所需训练样本；

S8、将训练样本输入到深度集成网络EnsembleNet，得到最后的分类准确率。

在步骤S1中，选用Princeton ModelNet Dataset，采用官网数据，针对ModelNet10和ModelNet40分别选取3991、9843个模型作为训练数据，908、2468个模型作为测试数据，库内所有模型均按照Z轴方向正确摆放。

在步骤S3中，所述基学习器的CaffeNet共包含9层，第一层为输入层，第二至八层为隐藏层，第九层为输出层，各层结构如下：

第一层，输入层：将通过数据增广获得的增广视图作为训练样本输入到网络；

第二层，隐藏层：包含一个卷积层、一个激活函数层、一个池化层和一个局部相应归一化层；

第三层，隐藏层：包含一个卷积层、一个激活函数层、一个池化层和一个局部相应归一化层；

第四层，隐藏层：包含一个卷积层和一个激活函数层；

第五层，隐藏层：包含一个卷积层和一个激活函数层；

第六层，隐藏层：包含一个卷积层、一个激活函数层和一个池化层；

第七层，隐藏层：包含一个全连接层、一个激活函数层和一个DropOut层；

第八层，隐藏层：包含一个全连接层、一个激活函数层和一个DropOut层；

第九层，输出层：包含一个全连接层和一个Softmax层。

在步骤S3中，所述集成学习器包含3层，第一层为集成层，第二层为全连接层，第三层为输出层，各层具体操作如下：

第一层，集成层：形成对各个初始决策的基本集成，选取最大池化和拼接两种不同类型的操作，如公式(1)所示，池化操作旨在模拟集成学习中的投票行为，输出为k维向量，其在各个维度或各个类上的输出为所有视图在该维度或该类上的最大响应值；

其中，E_pooling为池化操作的最大响应值的集合，e_j为第j维的最大响应值，D_ij表示第i个分类器的第j维的信息，n为分类器数目的最大值，k为向量维数的最大值；

如公式(2)所示，拼接操作通过将基学习器的初始决策结果拼接起来，形成n×k维向量送入集成学习器.与最大池化操作相比较，拼接操作无降维作用，能够保留更加完整的初始决策信息；

E_concat＝(D₁₁,...,D_1k,D₂₁,...,D_ij,...,D_nk),

1≤i≤n,1≤j≤k(2)；

其中，E_concat为拼接操作的所有维度信息的集合；

第二层，全连接层：实现剧本集成结果至512为集成特征的映射；

第三层，输出层：对应一个512为至k维的全连接，完成集成特征至最终决策的映射。

在步骤S4中，在训练深度集成学习网络EnsembleNet时，分别计算基学习器和集成学习器的损失函数，整体上，基学习器的损失函数同集成学习器的损失函数是正相关的；但是另一方面，这两个损失函数的增长率并不完全一致，即，无法保证它们同时达到极致点，因此，深度集成学习网络EnsembleNet的损失函数须由基学习器和集成学习器的损失函数共同组成，如公式(3)所示；

Loss＝αL_base+βL_ensemble (3)

式中，Loss为整个深度集成学习网络EnsembleNet的损失函数，L_base和L_ensemble分别对应基学习器和集成学习器的损失函数，α和β则反映基学期器的损失和集成学习器的损失在整体损失函数中所占的比重，通常集成学习器的损失决定整个网络的性能，故α应小于β；

基学习器损失函数L_base的定义：基学习器的损失函数L_base等于n个基学习器损失函数之和，如公式(4)所示；

式中，α_i表示第i个基学习器的损失函数在整体基学习器损失中所占的比重，为保证公式(3)中基学习器和集成学习器的相对比重，要求各个基学习器比重之和为1，为减少网络参数，要求各个基学习器的CaffeNet之间共享参数，相应的，设置α₁＝α₂＝...＝α_n＝1/n；

针对各个基学习器，其损失函数通过交叉熵定义，由softmax Loss函数计算而来，如公式(5)所示；

式中，m为样本数目，k为分类数目；χ{l_m＝j}为指示函数，第m个样本的真实label为j，函数取值为1，否则取值为0；t_mj表示第m个样本在第j维上的预测值；

集成学习器损失函数L_ensemble的定义：一个全连接层加上一个hinge loss层等价于一个SVM，为模拟传统机器学习中的集成学习思想，在集成学习器的第三层，即全连接之后加入hinge loss层，并通过Hinge Loss定义集成学习器的损失函数，如公式(6)所示；

与公式(5)类似，式中，K为分类数目；δ{l_m＝j}为指示函数，第m个样本的真实label为j，函数取值为1，否则函数取值为‐1；P为范数，默认为L1范数，为防止过拟合，选用L2范数；t_mj表示第m个样本在第j维上的预测值。

在步骤S5中，针对三维模型的每一个视图，以256×256的原始视图为蓝本，构建1个尺寸为227×227的中心视图，并通过随机裁剪的方式构建4个尺寸为227×227边角视图，再通过镜像的方式，获得对应的5个视图，生成10个增广视图，作为样本输入网络。

在步骤S6中，针对深度集成学习网络EnsembleNet的网路架构，采用层次迭代式训练方法，具体实施步骤如下：

S6.1、基学习器预训：使用Caffe官方提供的在Imagenet上预训好的的CaffeNet网络作为基学习器，以保证基学习器具有良好的初始参数，从而加快网络的收敛速度，获得更好的网络泛化性能；

S6.2、整体网络初训：利用随机梯度下降SGD+牛顿动量法对EnsembleNet进行整体训练；

S6.3、集成学习器调优：在整体网络达到平稳后，固定基学习器内部参数，对集成学习器内部参数调优，若调优中，Loss趋于稳定或逐渐增大，提前终止，转入S6.4。

S6.4、基学习器调优：当集成学习器调优结束后，固定集成学习器内部参数，对基学习器内部参数调优，若调优中，Loss趋于稳定或逐渐增大，提前终止，转入S6.5。

S6.5、迭代或结束：当S6.3和S6.4中Loss均达不到要求时，训练结束；否则，固定学习率λ，转S6.3，再次进行调优。

本发明与现有技术相比，具有如下优点与有益效果：

1、提出一种端到端的深度集成学习网络，该网络由若干个面向视图的基学习器和一个负责特征融合、分类决策的集成学习器共同组成，模拟集成学习泛型，实现了决策层的特征融合。

2、建立一个级联损失函数，提出一种层次迭代式训练方法，有效平衡基学习器和集成学习模块的学习能力，实现了复杂三维模型复合信息的有效提取。

3、本发明所建立的端到端的深度学习网络进一步提升了三维模型分类算法的准确率，在ModelNet10、ModelNet40、SHREC10、SHREC11、SHREC15数据集上分别取得了96.04％、92.79％、98.33％、98.44％和98.63％的分类精度.与现有的其它多视图方法相比，本发明的方法取得了最好的分类准确率。

4、三维模型不同视角的特征彼此相异，多视图能够捕捉到更加丰富的模型特征信息，多视图算法捕捉的信息更为完整，分类准确率更高。

5、本发明使用深度学习框架Caffe实现了两种深度集成学习网络EnsembleNet：一种利用池化操作完成初始决策的基本集成，简写为EnsembleNet‐Pooling；一种利用拼接操作完成初始决策的集成，简写为EnsembleNet‐Concat。此两种网络的分类性能都优于现存的其他网络的分类性能。

6、深度集成学习网络在基于视图分类的决策层完成特征融合，具有明确的语义信息，且符合集成学习泛型，能够在一定程度的提高深度学习网络的泛化能力。

7、本发明相对于其它网络，用最少的视图数量，取得了最优的分类精度。

附图说明

图1为基于EnsembleNet的三维模型分类图。

图2为三维模型的二维视图渲染图。

图3为CaffeNet网路架构图。

图4为基于256×256的原始视图生成扩增数据。

图5为EnsembleNet‐Concat针对SHREC15内分属3个不同类的9个模型学习获得的特征图。

图6为不同视图数目对分类精度的影响(ModelNet10)示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，为了提高三维模型的分类准确率，本实施例提供了一种基于端到端深度集成学习网络(EnsembleNet)的三维模型分类方法，该方法是采用端到端的深度学习集成策略，输入一个三维网格模型，提取多视图表征，建立包含基学习器和集成学习器的集成深度学习网络，自动提取三维模型的复合特征，完成模型分类。

三维模型的视图获取方式多种多样，综合比较这些方法及其对应的分类结果可知，Su‐MVCNN所提出的12视图渲染方式是一种综合表现优秀的视图获取方式.因此，本发明沿用该方法构建给定mesh网格的多视图表征V＝{vi,1≤i≤N}，其中N为视图数目，以12个视图为例，图2给出了三维模型渲染的基本方法。

模型预处理：首先，缩放并平移模型，将模型限定在单位球内接立方体内部，如图2所示，其中，球内接立方体构成模型的AABB包围盒(Axis‐aligned bounding box)，通过此步可以将不同大小、不同位置的模型归一化至相同尺寸、相同位置。

视点的确定：如图2所示，在单位球斜向上30°圆周上水平、均匀的放置12个虚拟摄像机，并确保摄像机镜头垂直于球心同摄像机之间的连线。视图的渲染：为获取更接近真实模型的视图信息，在摄像机右上方放置一个光源，并利用冯氏光照模型(Phong LightingModel)和高洛德着色(Gouraud Shading)方案完成视图渲染。具体的，在本文中：冯氏光照模型中的环境光照参数设置为0.2，漫反射光照参数设置为0.6，镜面光照参数设置为0.0；渲染视图的分辨率为256×256。

如图3所示：基学习器CaffeNet共包含9层，第一层为输入层，第二至八层为隐藏层，第九层为输出层。各层结构如下：

第四层，隐藏层：包含一个卷积层和一个激活函数层；

第五层，隐藏层：包含一个卷积层和一个激活函数层；

第九层，输出层：包含一个全连接层和一个Softmax层。

最后一个全连接层由FC8和一个Softmax构成.若分类的数目为K，则FC8层的输出为一个K维向量，其值的大小反映了对应视图属于该分类的可能性；即，FC8层的输出为针对视图形成的初始分类决策。相应的，选取FC8的输出结果作为集成学习器的输入；则给定三维模型的多视图表征V＝{vi,1≤i≤N}，初始决策集合可表示为矩阵

其中D_ij为第i个基学习器的第j维决策信息。

给定基于三维模型多视图表征的初始决策，构造合适的集成学习器，综合集成基于各个视图的初始决策，形成对三维模型分类的最终决策.如图2所示，集成学习器共包含3层，第1层为集成层，后2层为全连接层.各层设置及作用分析如下：

第1层旨在形成对各个初始决策的基本集成，本发明选取了最大池化和拼接两种不同类型的操作.

如公式(1)所示，池化操作旨在模拟集成学习中的投票行为，输出为K维向量，其在各个维度(各个类)上的输出为所有视图在该维度(该类)上的最大响应值。

其中，E为最大响应值的集合，e为各个维度的最大响应值，D表示维度信息。

如公式(2)所示，拼接操作通过将基学习器的初始决策结果拼接起来，形成K×N维向量送入集成学习器.与最大池化操作相比较，拼接操作无降维作用，但是可以保留更加完整的初始决策信息.

第2层为全连接层，实现基本集成结果至512维集成特征的映射.

第3层为输出层，对应一个512维至K维的全连接，完成集成特征至最终决策的映射。

特别需要强调的是，为了避免深度学习网络训练中出现过拟合，发明人在每一个全连接之后添加了Dropout层，并设置Dropout率为0.5。

如图2所示，在训练深度集成学习网络EnsembleNet时，可以分别计算基学习器和集成学习器的损失函数.整体上，基学习器的损失函数同集成学习器的损失函数是正相关的；但是另一方面，这两个损失函数的增长率并不完全一致，即，无法保证它们同时达到极致点.因此，深度集成学习网络EnsembleNet的损失函数须由这两部分共同组成，如公式(3)所示。

Loss＝αL_base+βL_ensemble (3)

式中，Loss为整个深度集成学习网络EnsembleNet的损失函数，L_base和L_ensemble分别对应基学习器和集成学习器的损失函数，α和β则反映了基学期器的损失和集成学习器的损失在整体损失函数中所占的比重。一般而言，集成学习器的损失决定整个网络的性能，故α应小于β。本文中，我们设置α＝0.3，β＝1.0。

基学习器损失函数L_base的定义：基学习器的损失函数L_base等于N个基学习器损失函数之和，如公式(4)所示。

L_Base＝α₁Loss₁+α₂Loss₂+…+α_NLoss_N

式中，α_i表示第i个基学习器的损失函数在整体基学习器损失中所占的比重。为保证公式(3)中基学习器和集成学习器的相对比重，要求各个基学习器比重之和为1.为减少网络参数，本文中要求各个基学习器的CaffeNet之间共享参数，相应的，我们设置α₁＝α₂＝...＝α_n＝1/N。

针对各个基学习器，其损失函数通过交叉熵定义，由softmax Loss函数计算而来，如公式(5)所示。

式中，M为样本数目，K为分类数目；χ{l_m＝j}为指示函数，如果第m个样本的真实label为j，函数取值为1，否则取值为0；t_mj表示第m个样本在第j维上的预测值。

集成学习器损失函数L_ensemble的定义：一个全连接层加上一个hinge loss层等价于一个SVM。为此，本发明中，为模拟传统机器学习中的集成学习思想，在集成学习器的第三层，即全连接之后加入hinge loss层，并通过Hinge Loss定义集成学习器的损失函数，如公式(6)所示。

与公式(5)类似，式中，K为分类数目；δ{l_m＝j}为指示函数，第m个样本的真实label为j，函数取值为1，否则函数取值为‐1；P为范数，默认为L1范数，为防止过拟合，本文选用L2范数；t_mj表示第m个样本在第j维上的预测值.

为扩充训练数据，减小网络的过拟合，提高预测的鲁棒性，本发明对三维模型的多视图输入做了数据增广.如图4所示，针对三维模型的每一个视图，以256×256的原始视图为蓝本，构建1个尺寸为227×227的中心视图，并通过随机裁剪的方式构建4个尺寸为227×227边角视图，再通过镜像的方式，获得对应的5个视图，生成10个增广视图，作为样本输入网络。由于裁剪是随机的，本操作在增加训练样本数量的同时，也大大增加了训练样本的多样性。

针对深度集成学习网络EnsembleNet的网路架构，本发明提出了层次迭代式训练方法，包括以下5步：

Step 1、基学习器预训：使用Caffe官方提供的在Imagenet上预训好的的CaffeNet网络作为基学习器，以保证基学习器具有较好的初始参数，从而加快网络的收敛速度，获得更好的网络泛化性能。

Step 2、整体网络初训：利用随机梯度下降SGD+牛顿动量法对EnsembleNet进行整体训练。这里，SGD训练速度快，针对大数据集也能够以较快的速度收敛，但是存在不稳定的问题；而牛顿动量的引入可以在迭代前后梯度方向不一致时，抑制震荡，增强网络学习的稳定性。具体迭代公式如下所示：

θ_new＝θ-λ▽θ+εv_t-1 (7)

式中，θ_new和θ分别表示更新后的参数和原始参数，▽θ表示参数θ在当前位置的梯度，v_t-1表示之前所有步骤所累计的动量和，λ为学习率，ε为动量所占权重。本文中，在整体网络初训阶段，学习率λ设为0.0001，动量所占比重ε设为0.9；当训练迭代50000步此后，该网络基本稳定，停止训练。

Step 3、集成学习器调优：在整体网络达到平稳后，固定基学习器内部参数，对集成学习器内部参数调优。迭代公式见表达式(7)，此时，为确保网络的稳定性，将学习率λ在原基础上降低100倍，并设置最大迭代次数为20000.若调优中，Loss趋于稳定或逐渐增大，可提前终止，转入Step 4。

Step 4、基学习器调优：当集成学习器调优结束后，固定集成学习器内部参数，对基学习器内部参数调优.迭代公式见表达式(7)。此时，学习率λ在Step3的基础上再次降低10倍，并设置最大迭代次数为20000。若调优中，Loss趋于稳定或逐渐增大，可提前终止，转入Step 5。

Step 5、迭代或结束：当Step 3和Step 4中Loss均无明显改善时，训练结束；否则，固定学习率λ，转Step3，再次进行调优。

需要说明的是，为了增强网络的泛化能力，在生成训练集时我们随机打乱了训练数据的排列顺序，以防止在训练时单个批量中总是出现相同类别的训练样本。

本发明使用深度学习框架Caffe实现了两种深度集成学习网络EnsembleNet：一种利用池化操作完成初始决策的基本集成，简写为EnsembleNet‐Pooling；一种利用拼接操作完成初始决策的集成，简写为EnsembleNet‐Concat.

实验的硬件环境为Intel Core i7 2600k+GTX 1060 6G+8G RAM，软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Caffe+Python。

本实验旨在测试本发明所提出的深度集成学习网络模型对刚性三维模型的分类能力。

刚性三维模型数据集的选择：本发明选用Princeton ModelNet，并采用官网数据，针对ModelNet10和ModelNet40分别选取3991、9843个模型作为训练数据，908、2468个模型作为测试数据.由于该库内所有模型均已按照Z轴方向正确摆放，所需视图数目较少，实验中我们设视图数目N＝4.

与基于多视图的分类方法的比较：表1给出了本文所提出的深度集成学习网络算法和其他基于视图的分类算法在刚性三维模型数据集ModelNet的分类精度。

表1基于视图的分类算法分类准确率(％)

表中，其它算法的结果均来自Princeton ModelNet官方网站；同时，为保证公平性，与其它多视图算法的视图渲染方式保持一致算法，Wang‐MVCNN的实验数据以RGB视图渲染方式为基准，如表所示：

1、整体来看，基于多视图的分类算法优于基于单视图的分类算法.这是由于三维模型不同视角的特征彼此相异，多视角能够捕捉到更加丰富的模型特征信息，相比于单视图算法，多视图算法捕捉的信息更为完整，分类准确率自然更高。

2、本发明所提出的EnsembleNet‐Pooling在ModelNet10和ModelNet40上的分类准确率分别为96.04％和92.02％，EnsembleNet‐Concat在ModelNet10和ModelNet40上的分类准确率分别为95.93％和92.79％。与其它多视图方法相比较，在ModelNet10上，EnsembleNet‐Pooling取得了最高分类准确率，EnsembleNet‐Concat次之，且均高出其他方法2个以上的百分点.在ModelNet40上，EnsembleNet‐Concat取得了最高分类准确率，高出排名第二的Wang‐MVCNN方法0.5个百分点；EnsembleNet‐Pooling排名第三，低排名第二的Wang‐MVCNN方法0.2个百分点.综合来看，本发明的分类准确率最高；同时所需视图数目最少。

仔细分析，会发现这是由于其它的多视图方法往往利用视图融合完成最终的三维模型分类。而三维模型的多视图之间并不存在几何或物理层面的对应关系，这样的融合可能造成视图有益信息的混淆或淹没.本发明提出的深度集成学习网络在基于视图分类的决策层完成特征融合，具有明确的语义信息，且符合集成学习泛型，能够一定程度的提高深度学习网络的泛化能力.因而，在视图数目最少的情况下(与多视图方法比较)，本发明所提方法在ModelNet数据集上取得了最优异的分类性能。

与基于体素的分类方法的比较：表2给出了本发明的分类精度和基于体素表征的分类方法在刚性三维模型数据集ModelNet上的分类精度对比情况.如表2所示，在所有方法中，VRN Ensemble算法准确率最高，在ModelNet10和ModelNet40上的分类准确率分别为97.14％和95.54％；本文算法次之，两种方法在ModelNet10和ModelNet40上的最高分类准确率分别为96.04％和92.79％.该实验也再次验证了集成学习思想可以进一步提高基于视图深度学习算法的分类准确率；当然，该实验结果也说明了基于视图的算法，或者说本文方法还存在一定的增长空间。

表2基于体素的分类算法分类准确率(％)

Method	ModelNet10	ModelNet40
			3DShapeNets	83.54	77.32
VoxNet	92.00	83.00
			ORION	93.80	‐
LightNet	93.39	86.90
			PointNet	77.60	‐
VRN Ensemble	97.14	95.54
			EnsembleNet‐Pooling	96.04	92.02
EnsembleNet‐Concat	95.93	92.79

非刚性三维模型分类实验及对比：非刚性三维模型具有形状弯曲、姿态变换的特性，即等距变换不变性，如一个软管可以有不同的形状，人和动物可以有站、卧、坐、跑、跳等不同动作.这里，无论发生怎样的变化，就模型而言，物仍然是同一个物，人仍然是同一个人；可是从形状来看，由于各种变形，同类模型的形状差异可能比类间的形状差异更加明显.这为非刚性三维模型的正确分类带来了很多困难.本实验旨在测试本文所提出的深度集成学习网络模型对非刚性三维模型分类的能力。

非刚性三维模型数据集的选择：本文选用SHREC10,SHREC1,SHREC15，如表3所示，由于官网未给定训练数据和测试数据,本文中,以类内7:3的比例随机划分训练样本和测试样本,先后完成10次随机实验,并计算10次实验的平均准确率及标准差。由于非刚性三维模型数据集中的模型是任意姿态摆放的，4视图获取信息有限，实验中，我们设视图数目N＝12。

表3非刚性三维模型数据集

数据集	模型数目	类的数目	各类内模型数
				SHREC10	200	10	20
SHREC11	600	30	20
				SHREC15	1200	50	24

基准方法的选择：为客观评价本文方法对非刚性三维模型的分类能力，发明人特意选择了多个专门针对非刚性模型提出的分类方法作为基准进行比较.如表4所示，包括：Shape‐DNA，紧凑型Shape‐DNA(cShape‐DNA)，GPS嵌入(GPS‐embedding)，深度测地矩(DeepGM)。

表4非刚性三维模型的分类准确率(均值+方差，％)

Method	SHREC10	SHREC11	SHREC15
				Shape‐DNA	82.67±1.96	85.39±2.36	61.17±3.38
cShape‐DNA	78.50±5.58	88.77±1.77	74.80±1.41
				GPS‐embedding	87.17±3.60	83.22±1.88	63.40±1.73
GM	92.17±4.17	94.11±1.28	83.34±1.88
				DeepGM	96.33±1.05	97.89±0.57	93.03±0.64
EnsembleNet‐Pooling	98.33±1.05	98.33±0.70	98.54±0.56
				EnsembleNet‐Concat	98.33±1.05	98.44±0.78	98.63±0.41

如表可见：

1、本发明所提出的EnsembleNet网络，无论是基于池化集成的，还是基于拼接集成的，在非刚性三维模型数据集SHREC10,SHREC11,SHREC15上的分类精度均达到98％以上，在所有针对非刚性三维模型的分类算法中排名第一；

2、比较各个方法10次分类准确率的标准差可见，针对SHREC10和SHREC15的实验中，本发明10次实验的标准差最小；针对SHREC11的实验中，本发明算法的标准差也仅次于DeepGM方法0.2个百分点，这充分说明了本发明算法的稳定性。

为了更加直观的反应深度集成学习网络的特征学习能力，发明人以EnsembleNet‐Concat为例，通过可视化手段给出了来自SHREC15数据集Horse，Camel和Chick 3个类内9个不同非刚性三维模型所对应的512维特征，如图5所示：

1、来自同一类内的模型间特征高度相似，且相似模型间的特征吻合度更高，如来自Horse中的前两个模型，它们的形状、姿态极度相似，它们的特征也极为接近；

2、不同类间模型的特征相差明显，且特征间的相似程度反映了类间的相关度，如类Camel和Chick特征的分布相差较大，而类Horse和Camel特征的分布相差较小；

3、类内模型间的特征相似度远高于相关类模型间的特征相似度。由此可见，本文所提出的深度集成学习网络能够自动提取非刚性三维模型的本质特征，确保类内相似、类间相异，进而确保了该方法针对非刚性三维模型数据集的分类效果。

为了探究视图数目对分类性能的影响，本发明选用刚性三维模型数据集ModelNet10，基于以上步骤给出的视图获取方法，在圆周上均匀摆放4、8、12、16、...80个虚拟摄像机，由此获得三维模型不同视图数目的多视图表征，并以此为输入，进行分类测试.图6给出了本发明所提出的两种深度集成学习方法EnsembleNet‐Pooling和EnsembleNet‐Concat，以及VS‐MVCNN和Su‐MVCNN方法在不同视图数目下获得的分类准确率.由图可见：

1、从4‐80，以不同数目的视图为表征时，本发明所提出的两种方法均优于其他方法.在视图数目较少时，如N＝4时，本发明的分类准确率高出VS‐MVCNN和Su‐MVCNN约10个百分点；在视图数目较多时，如N≥20，本发明的分类准确率高出VS‐MVCNN和Su‐MVCNN约2个百分点.由于视图数目与模型的复杂度及资源消耗正相关，因而发明人总是期望在尽可能小的视图数目下，获得尽可能高的分类准确率，本发明具备这一良好特性.

2、随着视图数目的变化，本发明所提出的两种方法分类性能稳定；VS‐MVCNN和Su‐MVCNN方法在视图数目从80渐少至20时，分类性能平稳；在视图数目从20减少至16，12减少至8时，分类性能急剧下滑.考虑到视图数目与模型的复杂度及资源消耗的正相关性，20以下的视图数目变化对分类性能的影响更被大家关注.

3、整体来看，本发明所提出的两种方法分类准确率相差较小；仔细比较，会发现，在多数情况下，EnsembleNet‐Concat方法的分类准确率高于EnsembleNet‐Pooling.这也反映了在初步集成中，拼接操作可以保留更加完整的初始决策信息。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于端到端深度集成学习网络的三维模型分类方法，其特征在于：该方法是采用端到端的深度学习集成策略，输入一个三维网格模型，提取多视图表征，建立包含基学习器和集成学习器的集成深度学习网络，自动提取三维模型的复合特征，完成模型分类；其包括以下步骤：

S3、构建集成深度学习网络，选择所需的基学习器，并构造集成学习器；其中，所述基学习器需要完成初始决策，综合考虑三维模型库及其对应二维视图的规模及复杂性，选择CaffeNet作为面向单个二维视图分类的深度学习模型；所述集成学习器需要完成最终决策，综合集成基于各个视图的初始决策，形成对三维模型分类的最终决策，集成学习器共包含三层，第一层为集成层，后两层为全连接层，为了避免深度学习网络训练中出现过拟合，每个全连接层后有一个Dropout层；

S6、针对集成深度学习网络EnsembleNet的网络架构，通过基学习器预训、整体网络初训、集成学习器调优的步骤进行层次迭代式训练；

2.根据权利要求1所述的基于端到端深度集成学习网络的三维模型分类方法，其特征在于：在步骤S1中，选用Princeton ModelNet Dataset，采用官网数据，针对ModelNet10和ModelNet40分别选取3991、9843个模型作为训练数据，908、2468个模型作为测试数据，库内所有模型均按照Z轴方向正确摆放。

3.根据权利要求1所述的基于端到端深度集成学习网络的三维模型分类方法，其特征在于：在步骤S3中，所述基学习器的CaffeNet共包含9层，第一层为输入层，第二至八层为隐藏层，第九层为输出层，各层结构如下：

第四层，隐藏层：包含一个卷积层和一个激活函数层；

第五层，隐藏层：包含一个卷积层和一个激活函数层；

第九层，输出层：包含一个全连接层和一个Softmax层。

4.根据权利要求1所述的基于端到端深度集成学习网络的三维模型分类方法，其特征在于：在步骤S3中，所述集成学习器包含3层，第一层为集成层，第二层为全连接层，第三层为输出层，各层具体操作如下：

如公式(2)所示，拼接操作通过将基学习器的初始决策结果拼接起来，形成n×k维向量送入集成学习器.与最大池化操作相比较，拼接操作无降维作用，但是能够保留更加完整的初始决策信息；

E_concat＝(D₁₁,...,D_1k,D₂₁,...,D_ij,...,D_nk),

1≤i≤n,1≤j≤k (2)；

其中，E_concat为拼接操作的所有维度信息的集合；

5.根据权利要求1所述的基于端到端深度集成学习网络的三维模型分类方法，其特征在于：在步骤S4中，在训练深度集成学习网络EnsembleNet时，分别计算基学习器和集成学习器的损失函数，整体上，基学习器的损失函数同集成学习器的损失函数是正相关的；但是另一方面，这两个损失函数的增长率并不完全一致，即，无法保证它们同时达到极致点，因此，深度集成学习网络EnsembleNet的损失函数须由基学习器和集成学习器的损失函数共同组成，如公式(3)所示；

Loss＝αL_base+βL_ensemble (3)

与公式(5)类似，式中，k为分类数目；δ{l_m＝j}为指示函数，第m个样本的真实label为j，函数取值为1，否则函数取值为-1；P为范数，默认为L1范数，为防止过拟合，选用L2范数；t_mj表示第m个样本在第j维上的预测值。

6.根据权利要求1所述的基于端到端深度集成学习网络的三维模型分类方法，其特征在于：在步骤S5中，针对三维模型的每一个视图，以256×256的原始视图为蓝本，构建1个尺寸为227×227的中心视图，并通过随机裁剪的方式构建4个尺寸为227×227边角视图，再通过镜像的方式，获得对应的5个视图，生成10个增广视图，作为样本输入网络。

7.根据权利要求1所述的基于端到端深度集成学习网络的三维模型分类方法，其特征在于：在步骤S6中，针对深度集成学习网络EnsembleNet的网路架构，采用层次迭代式训练方法，具体实施步骤如下：

S6.3、集成学习器调优：在整体网络达到平稳后，固定基学习器内部参数，对集成学习器内部参数调优，若调优中，Loss趋于稳定或逐渐增大，提前终止，转入S6.4；

S6.4、基学习器调优：当集成学习器调优结束后，固定集成学习器内部参数，对基学习器内部参数调优，若调优中，Loss趋于稳定或逐渐增大，提前终止，转入S6.5；