CN109615005A

CN109615005A - 基于流形深度学习和极限学习机的图像集分类系统及方法

Info

Publication number: CN109615005A
Application number: CN201811503359.5A
Authority: CN
Inventors: 雷方元; 戴青云; 蔡君; 赵慧民; 刘勋
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-04-12

Abstract

本发明涉及一种基于流形深度学习和极限学习机的图像集分类系统及方法，其特征在于包括流形层，转换层，正交层，投影层，池化层，ELM层和输出层。其方法先用流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点，其次转换层通过线性映射将格拉斯曼流形中的正交矩阵转换为低维矩阵，第三正交层将低维矩阵形成格拉斯曼流形，第四通过投影层将格拉斯曼流形映射到欧氏空间，而后通过池化层融合不同训练分支的数据，同时降低数据特征映射的复杂性并控制训练的过拟合，最后通过ELM层训练并把训练的结果输出。本发明的网络结构相对简单并且更加有效，其不仅在精度上更加准确，而且在学习速度和测试速度上可实现实时在线。

Description

基于流形深度学习和极限学习机的图像集分类系统及方法

技术领域

本发明涉及本发明涉及一种基于流形深度学习和极限学习机的图像集分类系统及方法。

背景技术

近年来，随着移动互联网技术的发展，促进大数据时代的来临。海量数据的产生以及对这些数据的有效分析和挖掘成为急需解决的问题。以CNN为代表的深度学习技术在大规模样本数据为前提下，在的目标检测和识别方面取得了飞速发展。这些算法主要是将单幅图像作为基本分析单元。在实际的数据源中，存在大量的源于同一目标对象的视频图像序列或多视图图像集，图像集的图像能够从不同方面反映目标对象。

传统的单视图图像通常采用欧式距离来衡量图像之间的相似性，没有考虑图像集对象的相互关系。而来源于同一目标对象的多视图图像具有天然的联系，如摄像机对同一目标对象从空间中不同角度获得的6视图、12视图，同一目标对象的视频序列等，这些视图之间可以认为是某一给定流形下通过某种变换关系相互得到。在流形假设条件下，同一目标的视图集在可以认为是嵌入在某种特定流形中的点，多视图集之间的相似性采用非欧式距离来度量，如在黎曼度量，Log-Euclidean metric(LEM)，在Grassmann(格拉斯曼)流形中的测地距离，主角等。Grassmann流形是由线性子空间构成的流形，在图像集识别中具有天然的优势。因此，将在欧式空间中的深度学习推广到流形空间中，不仅充分利用深度学习的强大学习能力，同时还能够充分利用图像集之间的相关性，从而可以获得更好的图像集识别率。

发明内容

本发明针对现有技术的不足，提供一种基于流形深度学习(Deep Learning)和极限学习机(Extreme Learning Machine，ELM)的图像集分类系统及方法。

本发明在Grassmann流形上构建深度学习网络来提取视图集的特征，并利用ELM网络图像集进行快速识别与分类；其网络结构相对简单并且更加有效，不仅在精度上更加准确，而且在学习速度和测试速度上可实现实时在线。

为了达到上述目的，本发明一种基于流形深度学习和极限学习机的图像集分类系统，主要依次包括将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层，通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层，正交层，将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层，用于融合不同训练分支数据的池化层，用于加快网络训练并避免梯度下降迭代训练的ELM层，以及用于把训练结果输出的输出层；所述池化层还用于融合来自不同训练分支的数据，同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。

该系统利用ELM(Extreme Learning Machine)层实现快速分类，从而避免了深度学习的反复迭代的学习过程。

优选地，所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性，以及融合来自不同训练分支的数据。

基于流形深度学习和极限学习机的图像集分类方法，主要包括以下步骤：

第一，通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点，目的是将源于同一目标对象的多视图图像子集表示为格拉斯曼流形中点；不同的目标对象的多视图图像子集表示为格拉斯曼流形中的不同点；

第二，通过转换层将流形层中输入的格拉斯曼正交矩阵进行降维处理，得到新的低维矩阵；

第三，通过正交层将转换层得到的低维矩阵进行正交化处理，得到格拉斯曼流形；

第四，通过投影层将正交层得到的非欧氏空间中的格拉斯曼流形映射到欧氏空间，以为后续在欧氏空间中进行分类任务得以实施；

第五，通过池化层将不同训练分支的数据进行融合，以降低格拉斯曼数据特征映射的复杂性，同时防止网络训练的参数过拟合；

第六，通过ELM层避免梯度下降迭代训练，该层中包括隐含层、隐含层激活函数，其实现过程通过采用随机生成隐含层的权重和偏置，通过代数方式来计算隐含层的输出，避免了传统神经网络的梯度下降的迭代方式来更新网络权重，从而监控网络的训练速度；

最后，通过输出层把训练的结果进行输出。

优选地，所述第一步通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的过程是采用SVD分解多视图图像集矩阵来实现的。

优选地，所述第三步中是采用QR分解来将低维矩阵进行正交化处理的。

优选地，所述第七步中输出结果为多分类输出。

该系统的网络结构相对简单并且更加有效，其不仅在精度上更加准确，而且在学习速度和测试速度上可实现实时在线。

附图说明

图1为本发明的结构示意图。

其中，1为输入层，2为流形层，3为转化层，4为正交层，5为投影层，6为池化层，7为ELM层，8为输出层。

具体实施方式

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

参照图1，本发明实施例一种基于流形深度学习和极限学习机的图像集分类系统，主要依次包括通过输入层1将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层2，通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层3，正交层4，将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层5，用于融合不同训练分支数据的池化层6，用于加快网络训练并避免梯度下降迭代训练的ELM层7，以及用于把训练结果输出的输出层8；所述池化层6还用于融合来自不同训练分支的数据，同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。

该系统利用ELM(Extreme Learning Machine)层实现快速分类，从而避免了深度学习的反复迭代的学习过程。所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性，以及融合来自不同训练分支的数据。

第一，通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点，此过程是采用SVD分解多视图图像集矩阵来实现的；目的是将源于同一目标对象的多视图图像子集表示为格拉斯曼流形中点；不同的目标对象的多视图图像子集表示为格拉斯曼流形中的不同点；

第三，通过正交层将转换层得到的低维矩阵采用QR分解进行正交化处理，得到格拉斯曼流形；

最后，通过输出层把训练的结果进行输出，该输出结果为多分类输出。

在算法实现上，对于流形层，假设输入的图像集的每一目标对象有k副图像。整个图像集可以表示为X＝{x₁，…，x_k}，其中x_i表示第i个图像对象，用x_i＝{r₁₁，r₁₂，…，r_1n，r₂₁，…，r_2n，…，r_m1，…，r_mn}^T来将x_i表示为矢量形式。采用SVD分解来对图像集，即：[U，T，V]＝svd(X)。其中X是n×k的正交矩阵。从而得到图像集X的线性子空间S＝{u₁，u₂，…，u_k}，其中k是图像的数目，u_i是U的第i列。

转换层为网络的核心层，主要功能是通过线性映射将输入正交矩阵(Grassmann流形)转换为新的低维矩阵。转换公式为：

其中X_i∈G(n，D_i)是正交矩阵，是输入层的第i层。转变矩阵为第i层的权重。为第i层的输出。W_i为列满秩，为了防止在优化过程中发生衰减，给出了变换矩阵W正交约束，即其中是D_i为的单位矩阵。

方程(1)中给出的正交约束优化问题实际上是Stiefel流形上的一个不受限制的优化问题。由于正交变换矩阵W性质,它是在施蒂费尔流形几何。因此，Riemann优化方法可以用于求解Stiefel流形中W的梯度下降法。目标函数具有不变性的正交组O(n)，即，对于任意的H∈O(n)，有L(W)＝L(WH)，所以W的优化空间实际上是在Grassmann流形中。

在转化层之后通常需要立即遵循正交化的正交层。这是因为即使W为正交矩阵，也不能保证W^TX为Grassmann流形。(W^TX)^T(W^TX)＝X^TWW^TX，由于WW^T不一定是一个单位矩阵,因为只有线性子空间矩阵组成的正交基地可以形成Grassmann流形。也就是说，上述转换过程不一定在Grassmann流形上。为了确保转换在Grassmann流形上，对W^TX采用QR分解来获得其正交成分，即：

W^TX＝QR。

在正交层中，其中X_i为第i层的输入，是由正交矩阵的前n列组成的正交矩阵。R_i∈R^n×n为可逆上三角矩阵；X_i+1为第i层的输出。

对于投影层，投影嵌入允许定义良好的Grassmann核。这适用于欧氏空间结构的一些网络层，可以应用于所设计网络的分类任务。投影嵌入是从Grassmann流形到幂等对称矩阵的一种异态，即:

其中X_i是第i层的输入,X_i+1是第i层的输出。

池化层的作用是降低网络的复杂性，从而控制过拟合。通常使用的池层的函数是最大化、最小化或平均的。同样，在投影层之后，模型使用池化层来降低格拉斯曼数据特征映射的复杂性。池层的另一个功能是融合来自不同训练分支的数据。在系统模型中，采用均值函数来实现池处理。

对于ELM层，其作用是加快网络的训练。ELM最重要的特征是对于传统的神经网络，尤其是单隐层前馈神经网络，在保证学习精度的前提下，其速度要比传统的学习算法快。

H＝H(X_i+1)＝g(W·X_i+b)

其中，H(X_i+1)为ELM的输出，g(·)表示隐含层的激活函数，包含有L个隐含节点。W，为随机生成的权重矩阵，b为对应的偏置，初始化时对所有的X_i采用相同的偏置。H为ELM层的输出。

而输出层的输出结果为一个多分类的结果：

其中，在训练过程中，T为[0,0,..,1,..,0]形式，其中数字为1代表所属的分类，其余为零。参数C为正则化系数，是一个常量。I是大小为HH^T的单位矩阵。

以下为实验数据对比，在以下实验中，参考的文献如下：

[1]Wu,Z.,Song,S.,Khosla,A.Yu,F.2015.3D ShapeNets:A deeprepresentation for volumetric shapes.IEEE Conference on Computer Vision andPattern Recognition.pp.1912-1920.

[2]Su,H.,Maji,S.,Kalogerakis,E.Learned-Miller,E.2015.Multi-viewConvolutional Neural Networks for 3D Shape Recognition.IEEE InternationalConference on Computer Vision.pp.945-953.

[3]Xie,Z.,Xu,K.,Shan,W.,Liu,L.,Xiong,Y.Huang,H.2015.ProjectiveFeature Learning for 3D Shapes with Multi-View Depth Images.Computer GraphicsForum,34(7):pp.1-11.

[4]Huang,Z.,Wu,J.Gool,L.V.2016.Building Deep Networks on GrassmannManifolds.arXiv preprint arXiv:1611.05742.

[5]Huang,Z.Van Gool,L.2017.A Riemannian Network for SPD MatrixLearning.Thirty-First AAAI Conference on Artificial Intelligence:pp.7.

1.ModelNet数据集。

在普林斯顿ModelNet数据集上评估本申请的形状描述符，该数据集在ModelNet网站上提供。ModelNet目前包含来自662个类别的127,915个3D CAD模型。ModelNet40是一个40类的带注释的子集，包含来自40个常见类别的12,311个形状。在我们的实验中，我们使用了与文献[1]相同的ModelNet40的训练和测试分割，并且只使用了RGB图像。表1是基于3D模型的与典型的方法的识别结果对比。

Methods	识别精度	训练速度
			MVCNN[2]	90.01％	>1day
MVD-ELM[3]	81.39％	674s
			GrNet[4]	83.64％	>1day
本发明的方法	89.53％	48.9s

2.AFEW数据集。

在数据集AFEW上的测试对比结果如下表2所示。

从表1和表2中可以看出，与其他方法相比，我们的方法具有更好的识别精度。与SPDNet和GrNet相比，我们的方法性能提高了约1.39％。

运行速度比较如表2所示。跑的速度比其他的都快。在训练阶段，我们的方法比GrNet提高了6.4倍，比SPDNet提高了2.1倍。在测试阶段，我们的方法比GrNet提高了4.8倍，达到61.5data/s。与SPDNet相比，我们的方法慢了约0.96秒。

以上已将本发明做一详细说明，但显而易见，本领域的技术人员可以进行各种改变和改进，而不背离所附权利要求书所限定的本发明的范围。

Claims

1.基于流形深度学习和极限学习机的图像集分类系统，其特征在于：主要依次包括将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层，通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层，正交层，将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层，用于融合不同训练分支数据的池化层，用于加快网络训练并避免梯度下降迭代训练的ELM层，以及用于把训练结果输出的输出层；所述池化层还用于融合来自不同训练分支的数据，同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。

2.根据权利要求1所述的基于流形深度学习和极限学习机的图像集分类系统，其特征在于：所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性，以及融合来自不同训练分支的数据。

3.基于流形深度学习和极限学习机的图像集分类方法，其特征在于，主要包括以下步骤：

第一，通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点；

第六，通过ELM层避免梯度下降迭代训练；

最后，通过输出层把训练的结果进行输出。

4.根据权利要求3所述的基于流形深度学习和极限学习机的图像集分类方法，其特征在于：所述第一步通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的过程是采用SVD分解多视图图像集矩阵来实现的。

5.根据权利要求3所述的基于流形深度学习和极限学习机的图像集分类方法，其特征在于：所述第三步中是采用QR分解来将低维矩阵进行正交化处理的。

6.根据权利要求3所述的基于流形深度学习和极限学习机的图像集分类方法，其特征在于：所述第七步中输出结果为多分类输出。