CN107609637A

CN107609637A - 一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法

Info

Publication number: CN107609637A
Application number: CN201710885584.9A
Authority: CN
Inventors: 郭平; 徐冰心; 尹乾
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-01-19

Abstract

本发明涉及一种结合数据表示和伪逆学习自编码器的提高模式识别精度的方法。基于在低维空间中线性不可分的样本在高维空间中可能可分的模式识别理论，同时利用基于伪逆学习自编码器的快速学习优势，能够快速准确地对堆叠自编码器深度神经网络进行训练。本发明利用接受场对数据进行升维，包括四种具体的接受场函数来提升原始数据维数，分别是基于核函数的接受场，基于函数连接的接受场，基于非线性变换的接受场和基于随机映射的接受场。将经过接受场变换后的数据作为自编码器的输入，并利用伪逆学习方法快速的得到神经网络的权值矩阵。本发明在提高模式识别问题的精度上具有明显优势，适用于大多数回归和分类问题，所发明的方法不需要复杂的反向传播运算和耗时的超参数调优，有利于在移动端硬件实现。

Description

一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法

技术领域

本发明涉及模式识别，神经网络和机器学习技术领域，具体涉及一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法。

背景技术

人工神经网络是在人类对其大脑神经网络认识理解的基础上人工构造的能够实现某种功能的神经网络。实际上是一个由大量简单神经元相互连接而成的复杂网络，具有高度非线性，并行性，能够进行复杂的逻辑操作和非线性关系实现的系统。

自编码器是一种常用的深度神经网络基本单元，该单元本质上是单隐层前馈神经网络模型，其优点是学习过程中不需要标记数据，可以以无监督的方式直接从原始数据中进行特征学习。自编码器由编码器(encoder)和解码器(decdoer)构成，编码器将输入向量x编码为隐层特征向量y，通过线性映射和非线性激活函数实现：

Θ＝{W_e,θ}为编码器的参数集，包括连接权重矩阵和偏置，f(·)为隐层神经元的激活函数，通常为线性或非线性的分段连续函数。解码器将隐层特征y重构为输入空间的向量z：

z＝φ(y,Θ′)＝f′(W_dy+θ′),

Θ′＝{W_d,θ′}为解码器的参数集，包括连接权重矩阵和偏置，f′(·)为输出层神经元的激活函数。

目前的实际应用中，自编码器神经网络的训练算法都要依赖于基于梯度下降思想的学习算法，比如误差反向传播(Error Back Propagation，BP)算法。这些算法需要对训练数据集进行多次迭代以得到最优解，当数据量较大时，训练过程非常耗时。为了提高自编码器神经网络的学习效率，基于伪逆学习的自编码器算法被提出。伪逆学习算法(pseudoinverse learning，PIL)是郭平在1995年提出的一种用于训练单隐层前馈神经网络(Guo et al,“An Exact Supervised Learning for a Three-Layer SupervisedNeural Network”,ICONIP'95,pp.1041-1044,1995.)，在2001年扩展到多层神经网络的快速算法(Guo et al,“Pseudoinverse Learning Algorithm for Feedforward NeuralNetworks”,in Mastorakis Eds.,Advances in Neural Networks and Applications,WSES Press(Athens)，pp.321-326,2001.)。伪逆，或Moore-Penrose pseudoinverse，又称广义逆，是对逆矩阵的推广。伪逆学习的基本思想是找到一组正交向量基，并利用非线性激活函数使得隐层神经元的输出向量趋向正交，然后通过计算伪逆解近似求解网络的输出连接权重。PIL算法仅使用基本的矩阵运算，如矩阵内积和伪逆运算，直接计算优化目标的解析解，无需迭代优化的过程，因此效率较之于反向传播等其它基于梯度下降的算法更高。

在模式识别问题中，多元数据样本被视为有限维欧式空间中的向量或者点，样本之间的相似程度采用欧式距离进行判别，因此不同类别的样本之间的可分性由其所在的子空间决定。根据模式识别理论，在低维空间线性不可分的样本通过非线性映射到高维向量空间中则可能实现线性可分。支持向量机(SVM)的成功应用正是利用了这一理论基础。同样的，在伪逆学习自编码器方法中，当数据维数d远小于样本个数N时，伪逆学习自编码器得到的仅是网络权值的最优初始值，仍然需要进一步的学习才能得到满意的结果。故为了发挥伪逆学习算法的优势，本发明提出了一种数据表示方法，即通过能把输入空间变换到高维空间的接受场(Receptive field--RF)，将训练样本变换到新的特征空间，然后将经过重新表示的数据作为自编码器的输入，利用伪逆学习算法快速得到精确结果，以提高自编码器的学习性能,从而提高模式识别的精度。

发明内容

本发明的目的在于结合数据表示方法和伪逆学习自编码器的优势，快速精确的完成自编码神经网络的训练过程，以避免因使用基于梯度下降学习方法而产生的缺点。从而得到样本的有效特征表示，进而提高模式识别算法的精度。本发明为解决其技术问题采用的技术方案如下：

在伪逆学习自编码器的输入层之前增加一个数据预处理的过程，即经过接受场的变换将在低维空间中的样本映射到更高维特征空间中，以保证利用伪逆学习方法快速准确地得到自编码器的训练结果，从而提高样本分类的精度。具体流程如图1所示。

接受场的本质是一种数据表示方法，目的是将原始数据映射到更高维的数据空间中进行表示，从而提高样本类别之间的可分性。本发明采用四种方法实现接受场的变换，具体包括：

1)基于核函数的接受场

由于核函数方法(kernel method)在支持向量机中的成功应用，促进了传统的线性数据处理方法向非线性方法的转变。核函数方法可以将原始数据映射到高维的数据空间，同时又可以避免“维数灾难”的问题。因此，核函数可以看作是一种典型的接受场变换。具体地，设x,z∈X,X∈R^m，非线性函数Θ可以将输入空间X映射到高维空间F，其中F∈Rⁿ，m<<n。根据核函数方法可以得到：

K(x,z)＝<Θ(x),Θ(z)>.

其中<,>表示内积运算，K(x,z)为核函数。从上式可以看出,核函数将n维高维空间的内积运算转化为m维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题。经过核函数的映射，假设原始数据X∈R^N×m，其中N是样本个数，m是样本原始空间维数。利用核函数方法可以得到新的特征空间的数据F∈R^N×N。因此当原始数据的m<<N时，核函数方法可以起到升高原始数据维度的目的，进而利用伪逆学习自编码器得到更深层次的特征表示，以达到提高样本识别精度的目的。这种方法我们简称为KRF方法，图2形式化的解释了利用核函数方法提升原始数据维度的过程。

2)基于函数连接的接受场

函数连接的思想最初提出于单层函数连接神经网络中，即在网络的输入层和输出层之间增加加强型节点，加强型节点的产生方法则是函数连接的方法。具体地，设x＝[x₁,x₂,…x_i,…,x_m]是m维输入向量，其中x_i表示向量x的第i个分量。利用函数连接对原始数据进行升维，具体方法包括x_i ²，x_i*x_j，以及f(x_i)等，其中i＝1,2,…,m。升维后新的输入向量Θ(x)＝[x₁,x₂,…x_i,…,x_m,x₁ ²,…,xi²,…,x_i*x_j,…,f(x_i)]，升高后的向量维数依赖于具体问题和样本个数，根据具体情况进行设定。经过函数连接的接受场变换，样本维数进行了提升，进而再输入到伪逆学习自编码器中作为新的输入样本。这种方法我们简称为FLRF方法，图3对该过程进行了描述。

3)基于非线性变换的接受场

设变换函数为f(x,α_i)，其中x是原始输入数据，α_i是接受函数的参数。当参数设为不同值时，则可以产生多个不同的变换结果。例如，当取参数为α₁，α₂，α₃和α₄时，则可以得到对应的函数结果为f(x,α₁)，f(x,α₂)，f(x,α₃)和f(x,α₄)。多个函数结果的集合则构成了对样本x的集成编码。假设有N个一维空间的输入样本，经过h个变换函数的编码，则可以将原始特征空间变换到h维特征空间。其中，h的取值是依赖于原始训练数据和具体应用的。

变换函数的类型应该是非线性函数，经过非线性函数的变换可以更有效的提高原始数据的可分性。此外，对于参数α_i和α_j，当i≠j时，要保证α_i≠α_j。非线性函数可以是常用的sigmoid函数，f(x,α_i)＝1/(1+exp(-x-α_i))，其中α_i＝i/h，i＝1,2，…,N，也可以是其他类型的函数。这种方法我们简称为NTRF方法

4)基于随机映射的接受场

接受场的目的是将原始数据映射到更高维的数据空间中，以使在高维空间中同类样本距离更小，不同类样本距离更大。随机映射的思想是在比原始数据更高的数据空间中，随机的生成基向量，并将原始数据投影到这组基向量上。假设原始样本属于m维欧式空间，投影后希望映射到n(m<<n)维空间中，则需要随机产生一个n×m的矩阵R且R每列是一个单位向量。若有N个m维的原始数据，写成矩阵形式为：

经过上式的变换，原始的m维数据转换为n维数据，这种方法我们简称为RPRF方法。

通过上述数据表示方法，我们得到了高维的输入向量，这等价于增加了输入层神经元的个数，因此该方法是一种宽度学习的具体实现形式。结合数据表示与堆叠自编码器构建的神经网络结构，是一种宽度加深度的前馈神经网络结构。

本发明的特点是基于在低维空间线性不可分的样本在高维空间可能可分的原理，结合了数据表示和伪逆学习自编器，不但提高了堆叠自编码器深度神经网络的学习速率，而且还提高了模式识别的精度。本发明方法可以应用于基于神经网络的数据回归和分类问题。

附图说明

图1结合数据表示和伪逆学习自编码器的流程图；

图2基于核函数的接受场；

图3基于函数连接的接受场。

具体实施方式

本发明为提高模式识别精度，提供一种结合数据表示和伪逆学习自编码器方法。为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例及附图1对该方法作进一步详细描述。应当理解，此处具体实施例的描述仅用以解释本发明，并不用于限定本发明。

具体地，请参阅图1，是本发明实施例的一种结合数据表示和伪逆学习自编码器的特征学习方法。对于N个m维的样本组成训练样本集X∈R^m×N，表示为矩阵X＝[x₁,x₂,...,x_N],其中xⁱ＝[x⁽¹⁾,x⁽²⁾,...,x^(m)]^T代表第i个训练样本。设输入层到隐藏层的权重矩阵为W_e，隐藏层到输出层的权重矩阵为W_d。具体步骤如下：

步骤1)利用接受场变换得到变换后的样本矩阵X_g＝Receptor(X)

步骤2)对输入矩阵X_g进行奇异值分解得到

X_g＝UΣV^T.

通过统计Σ中非零奇异值的个数得到矩阵X_g的秩r。根据矩阵X_g的秩设置自编码器的隐层单元个数p。本发明将隐层单元个数p设置为r<p<m。

步骤3)根据伪逆学习算法的思想，计算X_g的伪逆矩阵容易由X_g＝UΣV^T得到其中，Σ′为Σ中非零元素的倒数组成的对角矩阵。通过将截断为其中，为V的前p行，并令再将矩阵X_g映射到p维的隐层特征空间：

H＝f(W_eX_g)，

其中，H代表自编码器的隐层神经元输出矩阵，作为自编码器的编码器连接权值W_e的初始值，实现将输入矩阵X_g映射到隐层特征空间。f(·)为一个非线性激活函数。不失一般性，本实施例中使用Sigmoid函数，

步骤4)通过伪逆学习算法求解自编码器的解码器权重W_d。根据伪逆学习算法的基本思想，由于W_dH＝X存在最优近似的解W_d＝XH⁺，因此需要计算H的伪逆H⁺。这里的伪逆矩阵H⁺通过公式H⁺＝(H^TH)^-1H^T计算。为了避免病态问题，引入权重衰减正则化项提高模型的泛化能力，伪逆矩阵的计算公式为H⁺＝(H^TH+kI)^-1H^T，其中，k>0是正则化项系数。因此，自编码器的解码器权重为W_d＝X(H^TH+kI)^-1H^T。

隐层矩阵H可以看作是对原始数据的一种特征表示，用于后续的回归或者分类的任务中。也可以作为下一层自编器的输入，从而构建堆叠的自编码深度神经网络结构。在构建堆叠的神经网络时，只需要重复步骤(2-4)即可。在最后输出增加一个线性分类器Z＝W_dH，在训练时Z是给定的期望输出，在测试时Z是网络输出的结果，或者用softmax函数进行分类或回归。

为了证明本发明切实可行，我们使用机器学习领域常见的图像识别任务进行对比实验。实验中使用CBCL人脸数据集。CBCL数据集包含了6977个训练样本和24045个测试样本。训练样本中包含了2430个人脸和4548个非人脸样本，测试样本中包含了472个人脸和23573个非人脸样本。每张图像都经过标准化，并被对齐到19×19＝361个像素的图像块上。对比实验中，我们分别使用本发明所述的结合数据表示的伪逆学习自编码器与未经数据表示的自编码器结果进行对比，结果如表1所示。

表1CBCL数据集上的对比实验结果

数据表示	训练耗时(毫秒)	训练精度	测试精度
				原始数据	70.5183	0.8701	0.9074
数据升维KRF	100.5736	0.8519	0.9804
				数据升维FLRF	72.6214	0.8184	0.9593
数据升维NTRF	71.9632	0.8836	0.9614
				数据升维RPRF	72.8416	0.9064	0.9745

从对比实验结果可以看出，经过新的数据表示后，基于伪逆学习自编码器可以得到更高的识别结果。

对所公开的实施例的上述说明，使熟悉本领域的专业技术人员能够实现或使用本发明。对实施例的修改对本领域的专业技术人员来说将是显而易见的。本专利中所定义的一般原理可以在不脱离本发明的基本思想或适用范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，凡是利用本发明的设计思路，做一些简单变化的方案，都应计入本发明的保护范围之内。

Claims

1.一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法，其特征在于：采用接受场提高原始训练样本的输入维度，采用基于伪逆学习的自编码器进行特征提取并结合线性分类器进行模式识别或函数回归。

2.根据权利要求1所述的一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法，其特征在于，所采用的接受场进行数据表示方法之一是利用核函数将原始数据映射到高维空间，其特点是利用了核函数技巧将原始数据空间映射到高维数据空间。

3.根据权利要求1所述的一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法，其特征在于，所采用的接受场进行数据表示再一种方法是利用数据维度之间的相关运算扩展原始数据的维度，其特点是对原始数据空间进行扩展，扩展方法是利用原始数据之间的相关运算得到新的特征，包括x_i ²，x_i×x_j，以及f(x_i)等。

4.根据权利要求1所述的一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法，其特征在于，所采用的接受场进行数据表示再一种方法是利用接受函数提升样本的维数，其特点是通过设定的接受函数和不同的函数参数，得到对原始数据的集成编码，其中接受函数为非线性函数，且任意两个不同的函数参数设为不同值，接受函数的一种形式是f(x,α_i)＝1/(1+exp(-x-α_i))，其中α_i＝i/h，i＝1,2，…,N。

5.根据权利要求1所述的一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法，其特征在于，所采用的接受场进行数据表示再一种方法是利用随机映射生成一组基向量，并将原始数据投影到这组基向量上。若原始样本属于m维欧氏空间，经投影后映射后到n(m<<n)维空间中。

6.根据权利要求1、2、3、4和5所述的一种结合数据表示与伪逆学习自编码器的提高模式识别精度的方法，其特征在于，通过接受场数据表示方法对数据升维后，馈入伪逆学习自编码器进一步进行特征学习来提高堆叠自编码器深度神经网络的学习速率和模式识别的精度。