CN104361337A - 计算和存储空间受限下的稀疏核主成分分析方法 - Google Patents

计算和存储空间受限下的稀疏核主成分分析方法 Download PDF

Info

Publication number
CN104361337A
CN104361337A CN201410458677.XA CN201410458677A CN104361337A CN 104361337 A CN104361337 A CN 104361337A CN 201410458677 A CN201410458677 A CN 201410458677A CN 104361337 A CN104361337 A CN 104361337A
Authority
CN
China
Prior art keywords
beta
alpha
sigma
gamma
phi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410458677.XA
Other languages
English (en)
Inventor
刘训非
凌璟
吴琦
张宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Vocational Institute of Industrial Technology
Original Assignee
Suzhou Vocational Institute of Industrial Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Vocational Institute of Industrial Technology filed Critical Suzhou Vocational Institute of Industrial Technology
Priority to CN201410458677.XA priority Critical patent/CN104361337A/zh
Publication of CN104361337A publication Critical patent/CN104361337A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

计算和存储空间受限下的稀疏核主成分分析方法,本发明首先分析了广泛应用的核主成分分析(KPCA)在实际应用中存在的存储空间和计算效率的问题,基于1类支持向量机理论提出了基于优化训练样本的稀疏核主成分分析(SKPCA)算法,该算法在有效解决了核主成分分析中面临的计算效率问题,算法在图像分类,面部识别,语音识别的应用前景广阔。

Description

计算和存储空间受限下的稀疏核主成分分析方法
技术领域
本发明涉及计算机领域,尤其涉及一种计算和存储空间受限下的稀疏核主成分分析方法。 
背景技术
维数约简特征提取在许多数据分析领域得到应用,如人脸识别,手写识别,面部表情分析,语音识别、元器件质量识别,文本分类等。在过去的研究中已经有很多许多特征提取方法。研究学者提出了多种基于核学习的分类算法。 
具有典型的算法有研究学者Peng等人在最近邻分类器中成功引入核方法来提升最近邻分类器的非线性分类能力,该算法在非线性映射空间设计最近邻分类算法,该算法成功解决线性不可分问题。 
最近研究人员也提出一些新的基于核学习的分类算法,Jiao等人提出的Kernel Matching Pursuit Classifier(KMPC)算法,还有Zhang等人提出了基于学习的最小距离分类器,并将优化核函数的参数的思想应用到算法设计中,算法可以自动调整核函数的参数,增强了在非线性分类问题上的能力。 
此外,Jiao等人提出了Kernel Matching Pursuit分类算法。降维方法是一种最流行的特征提取方法,如主成分分析(PCA)和线性判别分析(LDA)。LDA是根据样本类标签基于最佳Fisher准则的投影矩阵找到具有最大类区分力的低维子空间,PCA目的是最大限度地减少均方误差准则,已被广泛应用于许多领 域,例如人脸识别和字符识别。在大多数应用中表现出良好的性能。此后研究核学习方法用来解决PCA线性问题,1998年Scholkopf提出核主成分分析(KPCA),在各个领域获得良好的效果。 
在随后的研究工作中,Yang等人将KPCA算法应用于人脸图像的特征提取,提出了Combined Fisherface算法,其主要思想是分别利用PCA和KPCA提取同一个对象的两类不同特征,认为这两类特征对于图像识别是互补的,融合这两个特征进行图像的识别工作。Liu将多项式核函数扩展到为分数次幂多项式模型,并结合KPCA与Gabor小波用于人脸识别中。 
尽管如此,算法在使用过程中需要保存所有样本来进行核矩阵的计算,使算法的执行时间和存储空间大大提升。在实际应用中处理速度是一个至关重要的问题。 
发明内容
本发明要解决的技术问题是如何在计算和存储空间受限下实现更快更好地维数约简特征提取。 
为了解决这一技术问题,本发明提供了一种计算和存储空间受限下的稀疏核主成分分析算法,其特征在于:包括如下步骤: 
首先,采用最小二乘1类支持向量机原理对传统KPCA进行建模,从而实现1类目标函数的优化; 
其次,引入稀疏核主成分分析,其中输入数据的结构自适应改变关于输入数据的分布数据相关的内核; 
然后,得到目标函数,其可描述为: 
max w Σ i = 1 N [ 0 - w T ( φ ( x i ) - u φ ) ] 2 - - - ( 9 )
其中 u φ = 1 N Σ i = 1 N φ ( x i ) .
在实现1类目标函数的优化和引入稀疏核主成分分析的过程中: 
假定矩阵由Nz个膨胀向量组成,βi(i=1,2,...,Nz)(Nz<N)为膨胀系数,那么可将上述优化问题可转化为: 
max w , e J ( w , e ) = - 1 2 w T w + &gamma; 2 &Sigma; i = 1 N e i 2
subject to ei=wT(φ(xi)-uφ),i=1,2,...,N 
w = &Sigma; i = 1 N z &phi; ( z i ) &beta; i - - - ( 10 )
其中 &phi; ( Z ) = [ &phi; ( z 1 ) , &phi; ( z 2 ) , . . . , &phi; ( z N z ) ] ;
进而,将上述优化问题转化为如下两步: 
第一、求解找到可以代表最优的膨胀向量和系数; 
第二、求解最优映射矩阵; 
对于给定任意Z,上述优化问题进一步转化为 
W ( Z ) : = max &beta; , e - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2
subject to ei=βTg(xi),i=1,2,...,N    (11) 
其中 g ( x i ) = [ k ( z 1 , x i ) - 1 N &Sigma; q = 1 N k ( z 1 , x q ) . . . k ( z N z , x i ) - 1 N &Sigma; q = 1 N k ( z N z , x q ) ] T , &beta; = [ &beta; 1 , &beta; 2 , . . . , &beta; N z ] T ,
Kz=[k(zi,zj)]。上述优化问题的解可用拉格朗日方法进行求解。拉格朗日方程为 
L ( &beta; , e , &alpha; ) = - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2 - &Sigma; i = 1 N &alpha; i ( e i - &beta; T g ( x i ) ) - - - ( 12 )
其中参数为αi,i=1,2,...,N。用梯度下降法求解使函数L(β,e,α) 
&PartialD; L &PartialD; &beta; = 0 &RightArrow; K z &beta; = &Sigma; i = 1 N &alpha; i g ( x i ) &PartialD; L &PartialD; e i = 0 &RightArrow; &alpha; i = &gamma;e i &PartialD; L &PartialD; &alpha; i = 0 &RightArrow; e i - &beta; T g ( x i ) = 0 - - - ( 13 )
令α=[α12,...,αN]TN×1),E=[e1,e2,...,eN]T(EN×1),那么 
K z &beta; = G&alpha; &alpha; = &gamma;E E = D T &beta; - - - ( 14 )
因此,β=(Kz)-1Gα,那么E=GT(Kz)-1Gα; 
得到最优解αz,其为GT(Kz)-1G的特征向量,αz为GT(Kz)-1G的特征值时W(Z)获得最大,此时βz=(Kz)-1z; 
具体证明过程如下: 
当λ>0,那么 
- 1 2 &beta; T K z &beta; = - 1 2 [ &alpha; T G T ( ( K z ) - 1 ) T ] K z [ ( K z ) - 1 G&alpha; ]
= - 1 2 [ &alpha; T G T ( K z ) - 1 G&alpha; ]
= - 1 2 &lambda; &alpha; T &alpha; - - - ( 15 )
此外,由于E=GT(Kz)-1Gα,GT(Kz)-1Gα=λα,E=λα,那么 
&gamma; 2 &Sigma; i = 1 N e i 2 = &gamma; 2 E T E = &gamma; 2 &lambda; 2 &alpha; T &alpha; - - - ( 16 )
由于αTα=1,可得 
J ( &beta; , e ) = - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2 = - 1 2 &lambda; &alpha; T &alpha; + &gamma; 2 &lambda; 2 &alpha; T &alpha;
= 1 2 &lambda; 2 ( &gamma; - 1 &lambda; ) - - - ( 17 )
从上述证明可知,当λ达到最大时J(β,e)达到最大。 
此时,需要找到使得 W ( Z ) = - 1 2 ( &beta; z ) T K z ( &beta; z ) + &gamma; 2 ( &beta; z ) T G G T ( &beta; z ) 最大所对应的Z,采用循环迭代的方法求解使上述方程达到最大的最优训练样本集Z*。计算GT(Kz)-1G对应的特征向量A=[α12,...,αm],那么可以得到映射矩阵: 
B=(Kz)-1GA     (18) 
那么,对于输入向量x,其特征Yx可通过下式计算 
Yx=BKzx      (19) 
其中Kzx为输入样本与选定的训练集Z*计算得到的核矩阵。 
附图说明
图1是本发明一实施例中实验系统框架示意图。 
具体实施方式
以下将结合图1对本发明提供的计算和存储空间受限下的稀疏核主成分分析方法进行详细的描述,其为本发明一可选的实施例,可以认为,本领域的技术人员在不改变本发明精神和内容的范围内能够对其进行修改和润色。 
1.主成分分析算法 
首先,介绍传统PCA是一种常见的统计数据分析方法,对于N维数据,PCA 计算样本数据中最大方差的正交方向,其目的是通过提取几个有意义的成分,在最大限度地保留数据的现有结构前提下尽可能以较低的维数来描述数据。主成分分析算法描述如下: 
假定训练样本训练样本x1,x2,...,xn,其中那么协方差矩阵为 
C = 1 n &Sigma; i = 1 n ( x i - x &OverBar; ) ( x i - x &OverBar; ) T - - - ( 1 )
其中,表示全部样本的均值,即矩阵C的m个最大的特征值对应的正交特征向量w1,w2,…wm作为投影轴。一般地,这些正交特征向量可以直接直接计算得到,然而对于一些具体应用问题,如人脸识别问题,样本的向量(图像向量)维数非常大时,计算矩阵C的正交特征向量是非常耗时,因此研究学者利用SVD的方法进行求解。 
那么因此,R=QTQ为n×n的半正定矩阵,对于大多数图像特征提取问题,如人脸识别问题,样本的数量远远比样本的维数小的多,相应地,R的维数要远远小于C的维数。根据SVD原理,通过计算R的m个最大的特征值(λ1≥λ2≥...≥λm)对应的的正交特征向量v1,v2,...,vm来求解w1,w2,...,wm: 
w j = 1 &lambda; j Q v j , j = 1,2 , . . . , m - - - ( 2 )
对于任意样本x,分别在特征向量wj投影后可得到第j个特征: 
y j = w j T x = 1 &lambda; j v j T Q T x , j = 1,2 , . . . , m - - - ( 3 )
由这些特征组成的样本x的PCA变换的特征向量Y=[y1,...,ym]T。 
在引入核后,PCA算法扩展为核主成分分析(KPCA)算法,其推导过程如下。假定通过非线性映射将样本数据从原始数据空间映射到非线性映射空间,对非 线性映射空间的数据进行PCA变换,在该非线性映射空间内协方差矩阵表示为 
C = 1 n &Sigma; i = 1 n ( &Phi; ( x i ) - &Phi; &OverBar; ) ( &Phi; ( x i ) - &Phi; &OverBar; ) T - - - ( 4 )
其中为了推导方便,令 
令Q=[Φ(x1),...,Φ(xn)],那么同PCA算法,利用核函数可以将矩阵的元素表示为 
计算R的m个最大的特征值(λ1≥λ2≥...≥λm)对应的的正交特征向量u1,u2,...,um来求解的特征向量w1,w2,...,wm: 
w j = 1 &lambda; j Q u j , j = 1,2 , . . . , m - - - ( 7 )
相应地,通过求解R的特征值和特征向量求解矩阵C的特征向量,其中矩阵R为其中(1n)ij=1/n(i,j=1,2,...,n),具体推导过程见[32]。对于非线性映射空间任意样本(x)在在特征向量wj投影后可得到第j个特征: 
y j = w j T x = 1 &lambda; j u j T Q T &Phi; ( x ) = 1 &lambda; j u j T [ k ( x 1 , x ) , k ( x 2 , x ) , . . . , k ( x n , x ) ] - - - ( 2 - 8 )
其中j=1,2,...,m。样本x的KPCA特征向量可以表示为Y=[y1,y2,…,ym]T。 
2.稀疏核主成分分析算法 
核主成分分析(KPCA)的主要思路为利用核方法扩展主成分分析(PCA),从而利用非线性映射将数据从原始空间映射到另一空间。如果内核函数是正定的内核,那么存在一个映射到一个点的样本空间。空间具有一种所谓的再生核希尔伯特空间(RKHS)结构。在特征空间内的样本可以不进行明确的非线性映射函数计算,使得计算样本是在非常高维情况下进行的。常用的此类正定核函 数为多项式核和高斯内核,这意味着他们每个样本在不同的映射。基于PCA特征提取需要存储的系数矩阵。虽然基于特征提取的KPCA需要存储原始样本资料,计算核矩阵导致巨大的存储和高计算耗时。为了解决这个问题,首先用最小二乘支持向量机建立稀疏核主成分分析(SKPCA)。其次,核函数及其参数的选择严重影响算法的性能。在核映射空间数据的几何结构是由核函数完全确定的,若核函数选择不当,特征空间的数据点分布可能变得不利于分类。目前的方法是从一个离散数值集选择核参数,该方法不会改变在核映射空间数据的几何结构。采用数据依赖核可以通过改变其参数改变核的结构,从而改善SKPCA的性能是可行的。 
首先,采用最小二乘1类支持向量机原理对传统KPCA进行建模,其主要思想为实现1类目标函数的优化问题。其次,引入稀疏核主成分分析,其中输入数据的结构自适应改变关于输入数据的分布数据相关的内核。然后,目标函数可描述为 
max w &Sigma; i = 1 N [ 0 - w T ( &phi; ( x i ) - u &phi; ) ] 2 - - - ( 9 )
其中 u &phi; = 1 N &Sigma; i = 1 N &phi; ( x i ) .
下面用直接稀疏核学习方法对KPCA进行理论推导。我们用膨胀系数(Expansion Coefficients)和膨胀向量(Expansion Vectors)进行有关的有关描述。假定矩阵由Nz个膨胀向量组成,βi(i=1,2,...,Nz)(Nz<N)为膨胀系数,那么可将上述优化问题可转化为: 
max w , e J ( w , e ) = - 1 2 w T w + &gamma; 2 &Sigma; i = 1 N e i 2
subject to ei=wT(φ(xi)-uφ),i=1,2,...,N 
w = &Sigma; i = 1 N z &phi; ( z i ) &beta; i - - - ( 10 )
其中 &phi; ( Z ) = [ &phi; ( z 1 ) , &phi; ( z 2 ) , . . . , &phi; ( z N z ) ] .
可以将上述优化问题转化为如下两步:第一、求解找到可以代表最优的膨胀向量和系数;第二、求解最优映射矩阵。给定任意Z,上述优化问题转化为 
W ( Z ) : = max &beta; , e - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2
subject to ei=βTg(xi),i=1,2,...,N     (11) 
其中 g ( x i ) = [ k ( z 1 , x i ) - 1 N &Sigma; q = 1 N k ( z 1 , x q ) . . . k ( z N z , x i ) - 1 N &Sigma; q = 1 N k ( z N z , x q ) ] T , &beta; = [ &beta; 1 , &beta; 2 , . . . , &beta; N z ] T ,
Kz=[k(zi,zj)]。上述优化问题的解可用拉格朗日方法进行求解。拉格朗日方程为 
L ( &beta; , e , &alpha; ) = - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2 - &Sigma; i = 1 N &alpha; i ( e i - &beta; T g ( x i ) ) - - - ( 12 )
其中参数为αi,i=1,2,...,N。用梯度下降法求解使函数L(β,e,α) 
&PartialD; L &PartialD; &beta; = 0 &RightArrow; K z &beta; = &Sigma; i = 1 N &alpha; i g ( x i ) &PartialD; L &PartialD; e i = 0 &RightArrow; &alpha; i = &gamma;e i &PartialD; L &PartialD; &alpha; i = 0 &RightArrow; e i - &beta; T g ( x i ) = 0 - - - ( 13 )
令α=[α12,...,αN]TN×1),E=[e1,e2,...,eN]T(EN×1),那么 
K z &beta; = G&alpha; &alpha; = &gamma;E E = D T &beta; - - - ( 14 )
因此,β=(Kz)-1Gα,那么E=GT(Kz)-1Gα。易容易得到最优解αz,其为GT(Kz)-1G的特征向量。αz为GT(Kz)-1G的特征值时W(Z)获得最大,此时βz=(Kz)-1z。具体证明过程如下: 
当λ>0,那么 
- 1 2 &beta; T K z &beta; = - 1 2 [ &alpha; T G T ( ( K z ) - 1 ) T ] K z [ ( K z ) - 1 G&alpha; ]
= - 1 2 [ &alpha; T G T ( K z ) - 1 G&alpha; ]
= - 1 2 &lambda; &alpha; T &alpha; - - - ( 15 )
此外,由于E=GT(Kz)-1Gα,GT(Kz)-1Gα=λα,E=λα,那么 
&gamma; 2 &Sigma; i = 1 N e i 2 = &gamma; 2 E T E = &gamma; 2 &lambda; 2 &alpha; T &alpha; - - - ( 16 )
由于αTα=1,可得 
J ( &beta; , e ) = - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2 = - 1 2 &lambda; &alpha; T &alpha; + &gamma; 2 &lambda; 2 &alpha; T &alpha;
= 1 2 &lambda; 2 ( &gamma; - 1 &lambda; ) - - - ( 17 )
从上述证明可知,当λ达到最大时J(β,e)达到最大。 
此时,需要找到使得 W ( Z ) = - 1 2 ( &beta; z ) T K z ( &beta; z ) + &gamma; 2 ( &beta; z ) T G G T ( &beta; z ) 最大所对应的Z,采用循环迭代的方法求解使上述方程达到最大的“具有代表性”的最优训练样本集Z*。计算GT(Kz)-1G对应的特征向量A=[α12,...,αm],那么可以得到映射矩阵: 
B=(Kz)-1GA    (18) 
那么,对于输入向量x,其特征Yx可通过下式计算 
Yx=BKzx      (19) 
其中Kzx为输入样本与选定的训练集Z*计算得到的核矩阵。 
上述理论说明稀疏主成分分析(SKPCA)算法自适应地选择从训练样本集但对识别性能影响较小,从而节省了计算时间和核矩阵计算的存储空间和计算时间的消耗。因此,在实际应用中,SKPCA可以解决KPCA的在计算时间和存储空间的限制,在有效降低存储空间和时间消耗的前提下对SKPCA的特征提取能力影响有限。从理论角度来看,SKPCA是适应性与计算效率的严格要求而识别率不严格的应用场合。 
3.仿真实验 
利用仿真实验来验证和分析算法的性能,重点分析SKPCA算法可行性。实验系统框架如图1所示。在仿真实验中,首先利用机器学习领域国际上公开广泛应用的UCI数据集、ORL、YALE数据库、威斯康星乳腺癌数据库上进行算法的性能测试。 
第一组实验在UCI数据集上进行,对于KPCA算法使用全部训练样本,对于SKPCA使用训练样本最有代表性的样本,这些样本是通过算法自适应选择得到。实验中选择高斯核函数。实验结果见表1、表2。第一列为6个训练样本集的名称,第二列为算法在相应数据集上的错误率,第三列为该算法所使用的训练样本数量。表2第三列数据括号内为与传统KPCA所采用的训练样本总数的百分比。需要强调的是,两种方法SKPCA和KPCA所采用的测试样本集的完全相同。结果表明,该算法实现了类似的识别性能,但该算法只使用较少的训练集的大小。例如,只有8%的训练样本使用但错误率只有比普通方法高2.8%。由于算法只用少量的训练样本,可以节省存储空间并提升核主成分分析的计算效率。SKPCA节省计算内核矩阵的时间并有效节省训练样本矩阵存储空间,但获得与KPCA相近的识别准确率。 
表1 KPCA识别性能 
Table 1 Recognition Performance of KPCA 
表2 SKPCA的识别性能 
Table 2 Recognition Performance of SKPCA 
第二组实验在ORL和YALE数据库上评估算法性能。由英国剑桥大学Olivetti研究实验室开发的ORL脸人数据库,由40个人400幅灰度图像组成,每个人10幅图像。这些图像都反映着姿态、人脸表情的变化。而来自耶鲁大学计算视觉与控制中心的YALE人脸数据库来自15个人165幅灰度图像,这些图像也反映着光照、表情变化。为了降低计算复杂度,将原来图像112×92重新剪裁为48×48。同样地,将YALE数据库的图像剪裁为100×100的图像。算法性能如表3和表4所示,三种算法在同样的实验条件下进行比较,SKPCA和KPCA比较可以看出,在ORL数据库上SKPCA仅用60%的样本获得相差3%的识别率,而在Yale数据库上,也可以得到类似的结果。也就是说,算法在牺牲3%左右的识别率的情况下,可以节省40%的存储空间和计算时间。 
表3ORL人脸数据库上性能比较 
Table 3.Performance comparison on ORL face database 
表4Yale人脸数据库上性能比较 
Table 4.Performance comparison on Yale face database 
第三组实验在威斯康星乳腺癌数据库上进行,该数据包含569实例样本,其中包括357良性和212的恶性样本组成。对于这个数据集每个实例有32个属性,其中前两个属性对应一个唯一的识别号码和诊断状态(良性或恶性)。 
实验结果如表5所示,采用本文提出的方法,只用37%的训练样本便获得高于普通方法高1.6%的错误率。该方法可以大大节省存储空间,提高计算效率。Fig.4 Example images[14](a)Benign,(b)Malignant 
表5 KPCA和SKPCA性能比较 
Table 5Performance comparison on KPCA and SKPCA 
通过以上三组仿真实验,可以得到如下结论:KPCA具有一定的识别性能,但在训练过程时间消耗在实际模式识别领域应用中的优势。对于高维数据的ORL和Yale数据库识别中,计算效率是一个关键问题,KPCA的特征值问题需要大量训练样本与所有训练样本全部计算核矩阵。因此,从大量的训练样本中找到最有意义的少量训练样本来解决SKPCA的存储空间和时间消耗是可行的。 
4.结论 
首先分析了广泛应用的核主成分分析(KPCA)在实际应用中存在的存储空间和计算效率的问题,基于1类支持向量机理论提出了基于优化训练样本的稀疏核主成分分析(SKPCA)算法,该算法在有效解决了核主成分分析中面临的计算效率问题,算法在图像分类,面部识别,语音识别的应用前景广阔。 

Claims (2)

1.一种计算和存储空间受限下的稀疏核主成分分析方法,其特征在于:包括如下步骤:
首先,采用最小二乘1类支持向量机原理对传统KPCA进行建模,从而实现1类目标函数的优化;
其次,引入稀疏核主成分分析,其中输入数据的结构自适应改变关于输入数据的分布数据相关的内核;
然后,得到目标函数,其可描述为:
max w &Sigma; i = 1 N [ 0 - w T ( &phi; ( x i ) - u &phi; ) ] 2 - - - ( 9 )
其中 u &phi; = 1 N &Sigma; i = 1 N &phi; ( x i ) .
2.如权利要求1所述的计算和存储空间受限下的稀疏核主成分分析方法,其特征在于:在实现1类目标函数的优化和引入稀疏核主成分分析的过程中:
假定矩阵由Nz个膨胀向量组成,βi(i=1,2,...,Nz)(Nz<N)为膨胀系数,那么可将上述优化问题可转化为:
max w , e J ( w , e ) = - 1 2 w T w + &gamma; 2 &Sigma; i = 1 N e i 2
subject to ei=wT(φ(xi)-uφ),i=1,2,...,N
w = &Sigma; i = 1 N z &phi; ( z i ) &beta; i - - - ( 10 )
其中 &phi; ( Z ) = [ &phi; ( z 1 ) , &phi; ( z 2 ) , . . . , &phi; ( z N z ) ] ;
进而,将上述优化问题转化为如下两步:
第一、求解找到可以代表最优的膨胀向量和系数;
第二、求解最优映射矩阵;
对于给定任意Z,上述优化问题进一步转化为
W ( Z ) : = max &beta; , e - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2
subject to ei=βTg(xi),i=1,2,...,N(11)
其中 g ( x i ) = [ k ( z 1 , x i ) - 1 N &Sigma; q = 1 N k ( z 1 , x q ) . . . k ( z N z , x i ) - 1 N &Sigma; q = 1 N k ( z N z , x q ) ] T , &beta; = [ &beta; 1 , &beta; 2 , . . . , &beta; N z ] T ,
Kz=[k(zi,zj)]。上述优化问题的解可用拉格朗日方法进行求解。拉格朗日方程为
L ( &beta; , e , &alpha; ) = - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2 - &Sigma; i = 1 N &alpha; i ( e i - &beta; T g ( x i ) ) - - - ( 12 )
其中参数为αi,i=1,2,...,N。用梯度下降法求解使函数L(β,e,α)
&PartialD; L &PartialD; &beta; = 0 &RightArrow; K z &beta; = &Sigma; i = 1 N &alpha; i g ( x i ) &PartialD; L &PartialD; e i = 0 &RightArrow; &alpha; i = &gamma;e i &PartialD; L &PartialD; &alpha; i = 0 &RightArrow; e i - &beta; T g ( x i ) = 0 - - - ( 13 )
令α=[α12,...,αN]TN×1),E=[e1,e2,...,eN]T(EN×1),那么
K z &beta; = G&alpha; &alpha; = &gamma;E E = D T &beta; - - - ( 14 )
因此,β=(Kz)-1Gα,那么E=GT(Kz)-1Gα;
得到最优解αz,其为GT(Kz)-1G的特征向量,αz为GT(Kz)-1G的特征值时W(Z)获得最大,此时βz=(Kz)-1z
具体证明过程如下:
当λ>0,那么
- 1 2 &beta; T K z &beta; = - 1 2 [ &alpha; T G T ( ( K z ) - 1 ) T ] K z [ ( K z ) - 1 G&alpha; ]
= - 1 2 [ &alpha; T G T ( K z ) - 1 G&alpha; ]
= - 1 2 &lambda; &alpha; T &alpha; - - - ( 15 )
此外,由于E=GT(Kz)-1Gα,GT(Kz)-1Gα=λα,E=λα,那么
&gamma; 2 &Sigma; i = 1 N e i 2 = &gamma; 2 E T E = &gamma; 2 &lambda; 2 &alpha; T &alpha; - - - ( 16 )
由于αTα=1,可得
J ( &beta; , e ) = - 1 2 &beta; T K z &beta; + &gamma; 2 &Sigma; i = 1 N e i 2 = - 1 2 &lambda; &alpha; T &alpha; + &gamma; 2 &lambda; 2 &alpha; T &alpha;
= 1 2 &lambda; 2 ( &gamma; - 1 &lambda; ) - - - ( 17 )
从上述证明可知,当λ达到最大时J(β,e)达到最大。
此时,需要找到使得 W ( Z ) = - 1 2 ( &beta; z ) T K z ( &beta; z ) + &gamma; 2 ( &beta; z ) T G G T ( &beta; z ) 最大所对应的Z,采用循环迭代的方法求解使上述方程达到最大的最优训练样本集Z*。计算GT(Kz)-1G对应的特征向量A=[α12,...,αm],那么可以得到映射矩阵:
B=(Kz)-1GA(18)
那么,对于输入向量x,其特征Yx可通过下式计算
Yx=BKzx(19)
其中Kzx为输入样本与选定的训练集Z*计算得到的核矩阵。
CN201410458677.XA 2014-09-10 2014-09-10 计算和存储空间受限下的稀疏核主成分分析方法 Pending CN104361337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410458677.XA CN104361337A (zh) 2014-09-10 2014-09-10 计算和存储空间受限下的稀疏核主成分分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410458677.XA CN104361337A (zh) 2014-09-10 2014-09-10 计算和存储空间受限下的稀疏核主成分分析方法

Publications (1)

Publication Number Publication Date
CN104361337A true CN104361337A (zh) 2015-02-18

Family

ID=52528595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410458677.XA Pending CN104361337A (zh) 2014-09-10 2014-09-10 计算和存储空间受限下的稀疏核主成分分析方法

Country Status (1)

Country Link
CN (1) CN104361337A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092923A (zh) * 2017-03-22 2017-08-25 东北大学 基于改进监督核局部线性嵌入法的电熔镁炉过程监测方法
WO2018187951A1 (zh) * 2017-04-12 2018-10-18 邹霞 基于核主成分分析的人脸识别方法
CN109344201A (zh) * 2018-10-17 2019-02-15 国网江苏省电力有限公司信息通信分公司 一种基于机器学习的数据库性能负载评估系统和方法
CN109753887A (zh) * 2018-12-17 2019-05-14 南京师范大学 一种基于增强核稀疏表示的sar图像目标识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096843A (zh) * 2011-01-25 2011-06-15 南京信息工程大学 基于虚拟样本的kpca特征抽取方法及模式识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096843A (zh) * 2011-01-25 2011-06-15 南京信息工程大学 基于虚拟样本的kpca特征抽取方法及模式识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUN-BAO LI 等: "Sparse data-dependent kernel principal component analysis based on least squares support vector machine for feature extraction and recognition", 《NEURAL COMPUT & APPLIC》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092923A (zh) * 2017-03-22 2017-08-25 东北大学 基于改进监督核局部线性嵌入法的电熔镁炉过程监测方法
CN107092923B (zh) * 2017-03-22 2019-10-11 东北大学 基于改进监督核局部线性嵌入法的电熔镁炉过程监测方法
WO2018187951A1 (zh) * 2017-04-12 2018-10-18 邹霞 基于核主成分分析的人脸识别方法
CN109344201A (zh) * 2018-10-17 2019-02-15 国网江苏省电力有限公司信息通信分公司 一种基于机器学习的数据库性能负载评估系统和方法
CN109753887A (zh) * 2018-12-17 2019-05-14 南京师范大学 一种基于增强核稀疏表示的sar图像目标识别方法
CN109753887B (zh) * 2018-12-17 2022-09-23 南京师范大学 一种基于增强核稀疏表示的sar图像目标识别方法

Similar Documents

Publication Publication Date Title
Li et al. Using discriminant analysis for multi-class classification: an experimental investigation
Yang et al. Least squares recursive projection twin support vector machine for multi-class classification
Ramachandran et al. Evaluation of dimensionality reduction techniques for big data
CN104361337A (zh) 计算和存储空间受限下的稀疏核主成分分析方法
Ye et al. Fast orthogonal linear discriminant analysis with application to image classification
Sisodia et al. ISVM for face recognition
Yang et al. Sequential row–column 2DPCA for face recognition
Xu et al. Discriminative analysis for symmetric positive definite matrices on lie groups
Zilu et al. Facial expression recognition based on NMF and SVM
CN101877065A (zh) 小样本条件下的人脸图像非线性鉴别特征抽取和识别方法
Li et al. Sparse data-dependent kernel principal component analysis based on least squares support vector machine for feature extraction and recognition
CN110287973B (zh) 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
Adeena et al. Extraction of relevant dataset for support vector machine training: A comparison
Carter et al. Fine: Information embedding for document classification
Chen et al. Discriminant feature extraction for image recognition using complete robust maximum margin criterion
Tan et al. Regularized graph-embedded covariance discriminative learning for image set classification
CN106529594A (zh) 应用于大数据行为识别的监督降维算法
Zhang et al. Metric based on multi-order spaces for cross-modal retrieval
Wang et al. An efficient algorithm for generalized discriminant analysis using incomplete Cholesky decomposition
Sharma et al. Pose invariant face recognition based on hybrid-global linear regression
Zhao et al. A recursive divide-and-conquer approach for sparse principal component analysis
Wang et al. An Efficient Discriminant Analysis Algorithm for Document Classification.
CN102096843A (zh) 基于虚拟样本的kpca特征抽取方法及模式识别方法
Li et al. Kernel principal component analysis (kpca)-based face recognition
Liu et al. Non-negative matrix factorization with sparseness constraints for credit risk assessment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150218

WD01 Invention patent application deemed withdrawn after publication