CN110689049A

CN110689049A - 基于黎曼核字典学习算法的视觉分类方法

Info

Publication number: CN110689049A
Application number: CN201910830476.0A
Authority: CN
Inventors: 许淑华; 祝汉灿; 齐鸣鸣; 王会敏
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-01-14

Abstract

本发明涉及一种基于黎曼核字典学习算法的视觉分类方法，包括首先对视觉数据使用对称正定矩阵描述，并将其表示为黎曼流形上的点；其次借助于黎曼核，在黎曼流形中构建学习字典的图拉普拉斯矩阵，保留了该流形空间中字典原子的局部信息，而不是像常规算法一样在欧氏空间中保留字典原子的局部信息；接着，在黎曼流形空间中构建能够保留学习字典判别信息的字典原子的标签嵌入项，通过局部约束标签嵌入算法建立黎曼流形空间中的稀疏编码和字典学习数学模型；再次，结合凸优化方法，给出了局部约束标签嵌入黎曼核字典学习算法；最后，构造一个迭代更新算法优化目标，并利用线性分类器完成测试样本的分类。该视觉分类方法在分类精度上获得了较大的提升。

Description

基于黎曼核字典学习算法的视觉分类方法

技术领域

本发明涉及图像处理技术领域，尤其涉及视觉分类技术，具体是指一种基于黎曼核字典学习算法的视觉分类方法。

背景技术

最近，稀疏编码字典表示广泛应用于视觉分类。作为稀疏编码的基本问题，字典学习吸引广泛关注。关于稀疏编码和字典学习的一些综述论文详见文献(Z.Zhang,Y.Xu,J.Yang,X.Li,D.Zhang,A Survey of Sparse Representation:Algorithms andApplications,IEEE Access,3,490-530,2016,Mehrdad J.Gangeh,Ahmed K.Farahatc,AliGhodsid,Mohamed S.Kamel,“Supervised Dictionary Learning and SparseRepresentation-A Review,”arXiv:1502.05928v1[cs.CV],1-60,20Feb 2015)。通常来说，字典学习的主要目的是从训练样本中学习到字典原子。测试样本能够由学习到字典原子稀疏表示，视觉分类任务基于重构误差或稀疏系数进行分类。

以前的许多算法(如，Jingcheng Ke,Yali Peng,Shigang Liu,Zengguo Sun,XiliWang,“A novel grouped sparse representation for face recognition,”MultimediaTools and Applications,vol.78,no.6,pp.7667–7689,Mar.2019.Jianquan Gu,HaifengHu,Haoxi Li,Local Robust Sparse Representation for Face Recognition WithSingle Sample per Person,IEEE/CAA Journal of Automatica Sinica,,VOL.5,NO.2,547-554,MARCH 2018)使用原始的训练样本作为字典原子稀疏重构测试样本，相比许多知名的人脸识别算法，获得不错的分类结果。最近，许多工作表明从训练样本中学习字典在许多视觉应用例如图像恢复、图像分类中获得更好的性能。K-SVD(M.Aharon,M.Elad,andA.Bruckstein,“K-SVD:An algorithm for designing overcomplete dictionaries forsparse representation,”IEEE Trans.Signal Process.,vol.54,no.11,pp.4311–4322,Nov.2006.)算法是著名字典学习算法之一。实际上，K-SVD是广义的k-均值聚类算法(Z.Jiang,Z.Lin,and L.S.Davis,“Learning a discriminative dictionary for sparsecoding via label consistent K-SVD,”in Proc.IEEE Conf.CVPR,Providence,RI,USA,Jun.2011,pp.1697–1704.)。然而，由于KSVD的目标函数只包括重构误差项和稀疏项，学习到的字典判别能力弱，因而K-SVD不适合分类任务。为了进一步加强学习字典的判别能力，Zhang和Li(Q.Zhang and B.Li,“Discriminative K-SVD for dictionary learning inface recognition,”in Proc.IEEE Conf.CVPR,San Francisco,CA,USA,Jun.2010,pp.2691–2698)提出了判别K-SVD(D-KSVD)算法。虽然这些字典学习算法获得很好的视觉分类结果，但是由于数据样本可能位于嵌入高维空间的非线性流形中(Ying S,Wen Z,Shi J,Peng Y,Peng J,Qiao H.,Manifold Preserving:An Intrinsic Approach forSemisupervised Distance Metric Learning，IEEE Trans Neural Netw LearnSyst.2018Jul；29(7):2731-2742.doi:10.1109)，这些算法一般没有保留局部信息，他们不是最优的，分类性能有所下降。

在许多实际应用特别是稀疏编码和字典学习中，数据的局部信息取到关键作用。局部性具有比稀疏性更重要、更本质的特性，因为局部性必然导致稀疏性，反之则不成立(K.Yu,T.Zhang,and Y.Gong,“Nonlinear learning using local coordinate coding,”in Proc.Adv.NIPS,Vancouver,BC,Canada,2009,pp.2223–2231.)。所以，越来越多的研究者研究保留稀疏编码和字典学习中数据的局部信息。学习一个字典的基本思想是结合局部约束对训练样本进行编码，局部约束确保相似的训练样本具有相同的编码系数。根据流形假设，Yu等人(K.Yu,T.Zhang,and Y.Gong,“Nonlinear learning using localcoordinate coding,”in Proc.Adv.NIPS,Vancouver,BC,Canada,2009,pp.2223–2231.)提出了局部坐标编码(Local Coordinate Coding(LCC))算法，该算法利用训练样本的局部几何结构信息。虽然LCC算法使用线性分类器获得很好的视觉分类性能，但主要的缺点是计算量大，不适应大规模的分类任务。为了减少计算复杂度，Wang等人(J.Wang,J.Yang,K.Yu,F.Lv,T.Huang,and Y.Gong,“Locality constrained linear coding for imageclassification,”in Proc.IEEE Conf.CVPR,San Francisco,CA,USA,Jun.2010,pp.3360–3367.)提出了局部约束线性编码(LLC)算法，该算法利用字典原子与训练样本之间的距离挑选K个近邻原子进行编码，其他字典原子的编码系数设置为零。最近，通过增加一些约束条件或特别应用，提出了LLC算法的变体。例如图正则局部约束LLC算法(Tao Zhou,HarishBhaskar,Liu Fanghui,Jie Yang,Graph Regularized and Locality-ConstrainedCoding for Robust Visual Tracking,IEEE Transactions on Circuits and Systemsfor Video Technology,2153-2164,Volume:27Issue:10,June2016,DOI:10.1109/TCSVT.2016.2576941)，多层LLC算法(Xiangbo Shu，Jinhui Tang，Guo-Jun Qi.,ImageClassification With Tailored Fine-Grained Dictionaries,IEEE Transactions onCircuits and Systems for Video Technology,Volume:28,Issue:2,454-467,September2016)，非负约束LLC算法(Wei Jiang,Qian Lv,Chenggang Yan,Kewei Tang,and JieZhang.Robust Semisupervised Nonnegative Local Coordinate Factorization forData Representation,Complexity,2018,Volume2018,Article ID 7963210,1-17pages,https://doi.org/10.1155/2018/7963210)，低秩约束LLC算法(Guangwei Gao；Pu Huang；Quan Zhou；Zangyi Hu；Dong Yue.Low-Rank Representation and Locality-ConstrainedRegression for Robust Low-Resolution Face Recognition,Artificial Intelligenceand Robotics,2018,Vol.752,P17-26)。Liu等人(L Liu,SW Ma,L Rui,JR Wen.Localityconstrained dictionary learning for human behaviour recognition,Journal ofStatistical Computation and Simulation,2526-2537,Vol.87,No.13,2017)提出了局部约束字典学习算法，该算法选择一些训练样本作为几个潜在的基点，利用这些基点作为大规模学习问题的最近邻基。然而，在训练样本中选择最近邻基对噪声敏感，同类的两个训练样本如果其中一个受噪声污染可能选择了不同的最近邻基。于是，与同类训练样本有相似的编码系数相矛盾了。Jemel等人(Intidhar Jemel，Ridha Ejbali，MouradZaied.Multiresolution Laplacian Sparse Coding Technique for ImageClassification,Journal of Computer Science,2018,No.8,Vol.14,1097-1103)提出了拉普拉斯稀疏编码算法，该算法利用局部特征之间的依赖性。假设数据点分布在相同的流形上，Luo等人(Qixiang Luo，Zeming Zhou，Yong Meng.Ground-Based Cloud-TypeRecognition Using Manifold Kernel Sparse Coding and Dictionary Learning,ADVANCES IN METEOROLOGY,2018(5):1-10,Article ID 9684206,https://doi.org/10.1155/2018/9684206)提出了流形投影方法，改进稀疏编码的准确性。为了识别高维和非负数据的低维子空间的表示，Fu等人[23]([23]L.Jing,M.K.Ng,and T.Zeng,“Dictionarylearning-based subspace structure identification in spectral clustering,”IEEETrans.Neural Netw.Learn.Syst.,vol.24,no.8,pp.1188–1199,Aug.2013.)结合非负和稀疏约束提出了子空间聚类的字典学习算法。然而，由于这些算法的目标函数中增加了l1正则项，导致了计算量大，不适应于大规模训练样本。再说，这些算法没有使用训练样本的标签信息，分类性能也受限制。

为了改善学习字典的性能，许多研究聚焦于字典原子的属性。Abolghasemi等人(Vahid Abolghasemi,Mingyang Chen,Ali Alameer,Saideh Ferdowsi.IncoherentDictionary Pair Learning:Application to a Novel Open-Source Database ofChinese Numbers,IEEE Signal Processing Letters,January 2018,Vol.25,No.4,P472-476)利用字典原子的相关性提出了一些字典学习算法。这些算法表明字典原子的相关性越少，学习字典的重构能力越好。由于字典学习过程中没有考虑局部信息，提高学习字典的判别能力存在局限性。最近Shaban等人(A.Shaban,H.R.Rabiee,M.Najibi,From LocalSimilarities to Global Coding:A Framework for Coding Applications,IEEETransactions on Image Processing,2015,No.12,Vol.24,pp.2794–2801.)利用字典原子之间的局部相似性衡量训练样本的全局相似性，噪声的影响可以减少到某些程度。另外，Jiang等人(Z.Jiang,Z.Lin,and L.S.Davis,“Learning a discriminative dictionaryfor sparse coding via label consistent K-SVD,”in Proc.IEEE Conf.CVPR,Providence,RI,USA,Jun.2011,pp.1697–1704.)提出了标签一致K-SVD(LC-KSVD2)字典学习算法，该算法利用字典原子的标签信息改善分类性能。在字典学习过程中，这些算法没有同时考虑字典原子的局部和标签信息，导致训练样本的编码系数不稳定，降低了分类性能。最近，Lu等人(C.Lu,J.Shi,and J.Jia,“Scale adaptive dictionary learning,”IEEETrans.Image Process.,vol.23,no.2,pp.837–847,Feb.2014.)利用编码系数矩阵的行矢量决定在字典学习过程中使用到的字典原子。Sadeghi等人(M.Sadeghi,M.Babaie-Zadeh,and C.Jutten,“Learning overcomplete dictionaries based on atom-by-atomupdating,”IEEE Trans.Signal Process.,vol.62,no.4,pp.883–891,Feb.2014.)把编码系数矩阵的行矢量定义为轮廓(profile),该轮廓表明了使用哪些相应的字典原子对训练样本进行编码。受此启发，Li等人(Zhengming Li,Zhihui Lai,Yong Xu,Senior Member,IEEE,Jian Yang,and David Zhang,Fellow,IEEE.A Locality-Constrained and LabelEmbedding Dictionary Learning Algorithms for Image Classification.IEEETRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS,VOL.28,NO.2,FEBRUARY2017)提出了一个图像分类的局部约束标签嵌入字典学习算法(LCLE-DL)，提升了学习字典的判别能力。

然而，LCLE-DL算法是在欧几里德空间框架下，应用欧氏测度来执行字典学习。正如研究物理问题的时空不完全是欧氏空间一样，我们要处理的数据未必分布在欧氏空间。认知心理学研究表明：就感知数据而言，样本空间用弯曲的黎曼流形表达，能够对样本给出很好的解释。在计算机视觉领域中，对称正定(SPD)矩阵所诱导的结构非常有用，形成一个非欧弯曲的黎曼流形，提供了紧凑的目标模型表示方法，融合了图像多种特性，对目标大小、形状和光照变化等具有很强的鲁棒性，成功地应用在纹理分类(Ilea,I.；Bombrun,L.；Said,S.；Berthoumieu,Y.Fisher Vector Coding for Covariance Matrix DescriptorsBased on the Log-Euclidean and Affine Invariant Riemannian Metrics,Journal ofImaging,85-95,2018,Vol.4,No.7)、人脸识别(Pang Y,Yuan Y,Li X.Gabor-Based regioncovariance matrices for face recognition.IEEE Trans.on Circuits and Systemsfor Video Technology,2008,18(7):989-993.[doi:10.1109/TCSVT.2008.924108].)、行人检测(Harandi MT,Sanderson C,Wiliem A,Lovell BC.Kernel analysis overRiemannian manifolds for visual recognition of actions,pedestrians andtextures.In:Proc.of the 2012IEEE Workshop on the Applications of ComputerVision.Washington:IEEE Computer Society Press,2012.433-439.[doi:10.1109/WACV.2012.6163005])和动作识别(Tuzel O,Porikli F,Meer P.Pedestrian detectionvia classification on Riemannian manifolds.IEEE Trans.on Pattern Analysis andIntelligence,2008,30(10):1713-1727.[doi:10.1109/TPAMI.2008.75])等领域。

作为一种新型有效的特征表示模式，可以用矩阵在欧氏空间计算框架下处理SPD矩阵，最简单的方法是把n×n-维SPD矩阵看作是一个R^n(n+1)/2向量。这样，应用欧氏空间相似测度来评价SPD矩阵之间的相似度。向量化对称正定矩阵，欧氏距离忽略特征空间的结构信息，降低了特征的有效性。为此，Ilea等人(Ilea,I.；Bombrun,L.；Said,S.；Berthoumieu,Y.Fisher Vector Coding for Covariance Matrix Descriptors Based on the Log-Euclidean and Affine Invariant Riemannian Metrics,Journal of Imaging,85-95,2018,Vol.4,No.7)给SPD矩阵空间赋予一种仿射不变黎曼度量(affine invariantRiemannian metric，简称AIRM)，使SPD矩阵空间晋升为黎曼流形，但利用AIRM来度量两个SPD之间的距离是很耗时的。Tuzel等人(Tuzel O,Porikli F,Meer P.Pedestriandetection via classification on Riemannian manifolds.IEEE Trans.on PatternAnalysis and Intelligence,2008,30(10):1713-1727.[doi:10.1109/TPAMI.2008.75])提出了采用图像的区域协方差矩阵(即SPD)作为描述算子，在所有正例样本的均值处构建切空间，并把所有特征映射到切空间上，训练多个弱分类器，利用LogitBoosting算法将多个弱分类器整合为一个强分类器，实现两类分类问题。切空间的分类问题是基于流形在局部上与欧氏空间存在着同胚(diffeomorphism)映射，这导致指数与对数映射只在一个局部领域内是一一映射。因此，流形上的点没有全局坐标。针对以上问题，LI等人(Yangyang LI，Ruqian LU.Locality preserving projection on SPD matrix Lie group:algorithmand analysis,SCIENCE CHINA Information Sciences,2018,No 9,1-15.)通过在SPD空间上赋予Log-Euclidean测度代替AIRM，形成一种李群结构。这样Log-Euclidean框架定义了一个从黎曼流形到向量空间同构、同胚与等距映射。

基于黎曼流形理论，可先通过对数映射将SPD矩阵映射到切空间进行相应的计算，再通过指数算子映射回原空间获得最终分析结果。该思想可以非常方便地将欧氏空间的学习方法推广到黎曼空间，但此类方法存在两个局限性：第一，需要频繁使用对数映射与指数映射，使算法的效率低下；第二，切空间上的欧氏距离只是流形上测地距离的近似。为了克服这种局限性，借助于黎曼核，将黎曼流形上的点映射到一个更高维甚至是无限维的再生核希尔伯特空间，进而将欧氏空间的数据分析方法推广到黎曼流形(Harandi MT,Sanderson C,Hartley R,Lovel BC.Sparse coding and dictionary learning forsymmetric positive definite matrices:A kernel approach.In:Proc.of the 12thEuropean Conf.on Computer Vision.Heraklion:Eurographics Association Press,2012.216-229.[doi:10.1007/978-3-642-33709-3_16])。在许多情况下，这类方法比切空间方法具有更优的性能。受此启发，Li等人(Li PH,Wang QL,Zuo WM,Zhang L.Log-Euclidean kernels for sparse representation and dictionary learning.In:Proc.of the 2013IEEE Int’l Conf.on Computer Vision.Washington:IEEE ComputerSociety Press,2013.1601-1608.[doi:10.1109/ICCV.2013.202])提出了基于黎曼核的稀疏表示与字典学习方法，在学习过程中，考虑数据的几何结构，并在黎曼空间更新字典原子。Deng等人(X.Deng,F.Da,and H.Shao.Efficient 3d face recognition using localcovariance descriptor and riemannian kernel sparse coding.Computers&Electrical Engineering,Vol.62,81-91,2017.2)结合局部方差算子与黎曼核方法的思想，提出了黎曼核局部稀疏编码方法。然而，该方法并没有考虑训练样本标签信息。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于黎曼核字典学习算法的视觉分类方法，实现了在流形空间中利用局部约束项和标签嵌入项二项重构项进行字典学习，确保了局部约束的编码系数与标签嵌入的编码系数尽可能的相同，该学习好的字典具有好的重构能力和判别能力，提升了视觉分类的准确性。

为了实现上述目的，本发明具有如下构成：

本发明提供了一种基于黎曼核字典学习算法的视觉分类方法，所述方法包括如下步骤：

(1)对样本的视觉数据使用对称正定矩阵描述，并将其表示为黎曼流形上的点；

(2)基于黎曼核，在黎曼流形中构建学习字典的图拉普拉斯矩阵，保留流形空间中字典原子的局部信息；

(3)在黎曼流形空间中构建保留学习字典判别信息的字典原子的标签嵌入项，通过局部约束标签嵌入算法建立黎曼流形空间中的稀疏编码和字典学习数学目标函数模型；

(4)结合凸优化方法，构造一个迭代更新算法优化目标函数；

(5)利用线性分类器完成测试样本的分类。

可选地，步骤(1)中，所述对样本的视觉数据使用对称正定矩阵描述，包括如下步骤：

对样本的视觉数据中的每个像素点抽取坐标点(x,y)、该像素点的灰度值和该像素点的5个尺度8个方向共40个Gabor特征构成的43个特征，对该43个特征生成Gabor协方差矩阵，即对称正定矩阵。

可选地，步骤(2)中，所述在黎曼流形中构建学习字典的图拉普拉斯矩阵，包括如下步骤：

使用字典原子的局部信息继承训练样本的结构信息，通过非线性映射φ，将分布在黎曼流形M上的字典D映射到一个特征空间，在此特征空间中，满足如下公式：

其中δ是预设参数，KNN(φ(d_i))表示φ(d_i)的K近邻，G_i,j表示φ(d_i)与φ(d_j)之间的相似性，若φ(d_i)与φ(d_j)相关联，则φ(d_i)与φ(d_j)是相邻的，φ(d_i)表示字典原子d_i映射到黎曼流形空间，φ(d_j)表示字典原子d_j映射到黎曼流形空间，i表示序号，j表示序号；

基于最近邻图G，构建图拉普拉斯矩阵P公式如下：

其中，diag(g₁,...,g_K)表示的是对角线元素为g₁,...,g_K的对角矩阵，K表示字典原子的数量。

可选地，在步骤(2)中，所述在黎曼流形中构建学习字典的图拉普拉斯矩阵，还包括如下步骤：

将如下公式最小化处理以选择图拉普拉斯矩阵：

其中，A＝[a₁,a₂,...,a_N]∈R^K×N是编码系数矩阵，a_i＝[a_1i,a_2i,...,a_ki]^T(i＝1,...,N)是训练样本y_i在字典D上的编码矢量，

表示编码系数矩阵A的第i行向量，Tr()表示矩阵的迹。

可选地，步骤(3)中，所述在黎曼流形空间中构建保留学习字典判别信息的字典原子的标签嵌入项，包括如下步骤：

(3.1)利用黎曼核把第i类训练样本映射到一个特征空间，在此特征空间中，其中第i个元素是表明字典原子d_i属于第i类，使用字典学习算法KSVD学习第i类的子字典D_i，若字典原子d_i∈D_i，字典原子d_i的标签向量l_i＝[0,...,1,...,0]∈R^C，R^C表示由C个元素构成的行向量；

(3.2)对于每类训练样本，利用黎曼核将其映射到一个特征空间，在特征空间中学习各类字典D_i(i＝1,2,...,C)，令D＝[D₁,...,D_i,...,D_C]包含C类所有字典原子，D_i是第i类的子字典，字典D的标签矩阵L＝[l₁,...,l_k]^T∈R^k×C，R^kxC表示kxC的矩阵；

(3.3)利用字典D的标签矩阵L构建加权标签矩阵M，公式如下：

(3.4)为了使同类字典原子有相似轮廓，使用编码系数的轮廓矩阵和原子标签构建标签嵌入项，公式如下：

其中，V＝MM^T∈R^K×K是字典D的扩展标签矩阵，W^T是字典原子的编码系数的轮廓矩阵，Tr()表示矩阵的迹，M表示字典原子的加权标签矩阵，R^KxK表示KxK的矩阵，W表示字典原子的编码系数矩阵。

可选地，所述步骤(3)中，所述通过局部约束标签嵌入算法建立黎曼流形空间中的稀疏编码和字典学习数学目标函数模型，包括如下步骤：

(3.5)通过非线性映射φ将分布在d维黎曼流形M上的样本集Y＝[y₁,y₂,...,y_N]映射到再生核Hilbert空间H中，即φ(Y)＝[φ(y₁),...,φ(y_N)]，N表示样本的数量；

(3.6)在空间H中实现局部约束标签嵌入字典学习算法，该算法的数学目标函数模型可表示为：

其中A∈R^K×N和W∈R^K×N是编码系数矩阵，

和

表示重构误差项，

是正则化项，用于标签约束和局部约束之间的转换，α,β和γ是正则化参数，第一项

和第二项αTr(A^TPA)是在局部约束下对重构进行编码，第二项表示字典D局部信息，继承了训练样本的流形结构，第三项

和第四项βTr(W^TVW)是在标签嵌入下对重构进行编码，第四项表示标签嵌入W作为字典D的轮廓，迫使字典D同类原子具有相似轮廓，第五项

是两个编码系数的正则项，确保标签嵌入和局部约束之间可以互相转换。

可选地，步骤(4)中，所述构造一个迭代更新算法优化目标函数，包括如下步骤：

(4.1)利用K-SVD算法初始化字典D，求出相应编码系数矩阵A；

(4.2)构建图拉普拉斯矩阵P和扩展标签矩阵V；

(4.3)固定字典D和编码系数矩阵A，求出编码系数矩阵W；

(4.4)固定字典D，图拉普拉斯P和编码系数矩阵W，求出编码系数矩阵A；

(4.5)固定编码系数矩阵A和W，求出字典D；

(4.6)利用字典D构建图拉普拉斯矩阵P。

可选地，步骤(4.3)包括如下步骤：

为了获得编码系数矩阵W，保留数学目标函数模型中有关W的项，利用核函数重写目标函数如下：

将上述公式的一阶导数设为0：

K_R(D,D)W-K_R(Y,D)+βVW+γW-γA＝0

得到W的最优解如下：

W＝(K_R(D,D)+βV+γI)^-1(K_R(Y,D)+γA)

其中，K_R(D.D)＝exp(-γ||log(D)-log(D)||²表示黎曼正定核函数，exp()表示矩阵的指数运算，log()表示矩阵的对数运算，K_R(Y.D)＝exp(-γ||log(Y)-log(D)||²表示黎曼正定核函数，Tr()表示矩阵的迹，β和γ是正则化参数，I是单位矩阵；

步骤(4.4)包括如下步骤：

为了获得编码系数矩阵A，保留数学目标函数模型中有关A的项，利用核函数重写目标函数如下：

将上述公式的一阶导数设为0，得到A的最优解如下：

A＝(K_R(D,D)+αP+γI)^-1(K_R(Y,D)+γW)

其中，α和γ是正则化参数，I是单位矩阵。

可选地，步骤(4.5)包括如下步骤：

为了学到最优字典D，同样，保留数学目标函数模型中有关D的项，利用核函数重写目标函数如下：

获得字典更新的表达式，即：

其中，

表示在D_i点的矩阵对数与切矩阵U位移之差，并满足如下公式：

其中，D_i表示第i类的子字典，D_j表示第j类的子字典，K_R()表示黎曼正定核函数。

可选地，步骤(5)中，所述利用线性分类器完成测试样本的分类，包括如下步骤：

(5.1)使用编码系数矩阵A和训练样本标签矩阵H求出分类器参数S_a：

S_a＝HA^T(AA^T+I)^-1

(5.2)对每个测试样本

使用正交匹配追踪算法，求其在学习字典D中的稀疏表示系数向量

利用

求出标签向量l_a；

(5.3)测试样本

的标签就是标签向量l_a中对应的最大元素索引。

本发明的基于黎曼核字典学习算法的视觉分类方法，使用视觉数据像素及其位置和Gabor特征的区域协方差抽取视觉数据特征，使特征进一步加强空间位置，包含了更强的判别信息。该特征构成了对称正定矩阵(SPD)，通过对数映射把特征映射到再生核Hilbert空间(RKHS)，利用黎曼核进行稀疏学习，充分利用了对称正定矩阵空间即黎曼流形的几何特性，显著提高视觉数据特征的描述性。此外，本发明在Gabor特征中引入了类别标签信息，进而提高了视觉数据识别能力。

附图说明

图1为本发明一实施例的基于黎曼核字典学习算法的视觉分类方法的流程图；

图2为本发明的黎曼指数映射示意图；

图中：M表示d维黎曼流形，P,Q∈M表示d维黎曼流形的任意两点，T_pM表示点P所有切向量全体张成的线性空间称为M在点P处的切空间，u∈T_pM表示切空间矢量，表示切空间矢量u∈T_pM的范数，E_p:T_p→M表示黎曼指数映射，将切向量U映射到黎曼流形M上从点P出发等长同向测地线，L_p:M→T_pM表示E_p逆映射，将黎曼流形M上点P到点Q测地线映射为切空间T_p中等长同向矢量u，表示从P到Q测地线的切向量，Q＝E_p(u)表示将u通过指数映射到流形上的点；

图3为本发明字典学习基本模型的示意图；

图中：Y＝[Y₁,...,Y_C]＝[y₁,y₂,...,y_N]∈R^n×N表示N个训练样本，n表示训练样本的维数，C表示训练样本的类别数，D＝[d₁,..,d_K]∈R^n×K表示从训练样本Y中学习到的字典，K表示字典原子的数量，A＝[a₁,a₂,...,a_N]∈R^K×N表示编码系数矩阵，a_i＝[a_1i,a_2i,...,a_ki]^T(i＝1,...,N)表示训练样本y_i在字典D上的编码矢量；

图4为一组本实施例FERET人脸的示意图；

图5为一组本实施例LFW人脸的示意图；

图6为一组本实施例AR人脸的示意图；

图7a和图7b为本实施例在FERET人脸集中bg和bd人脸子集上与其他算法比较的结果图；

图中：n表示核函数的一个指数参数；

图8为本实施例在FERET人脸集上字典原子数为600的迭代收敛图；

图9为本实施例在LFW人脸集上字典原子数86，172，258，344,430，516时与其他算法比较的结果图；

图10为本实施例在LFW人脸集上字典原子数为688的迭代收敛图；

图11为本实施例在AR人脸集上字典原子数119，238，357，476，595，714时与其他算法比较的结果图；

图12为本实施例在AR人脸集上字典原子数为952的迭代收敛图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员应意识到，没有特定细节中的一个或更多，或者采用其它的方法、组元、材料等，也可以实践本发明的技术方案。在某些情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本发明。

为了解决现有技术的技术问题，本文结合局部约束标签嵌入信息与黎曼核方法的思想，提出了黎曼核局部约束标签嵌入字典学习算法(LCLERKDL)方法，基于黎曼核字典学习算法实现视觉分类。

如图1所示，本发明一实施例提出了一种视觉分类方法，包括如下步骤：

步骤1、获取来自黎曼流形上的训练样本集Y＝[y₁,y₂,...,y_N]∈R^n×N，y_i为对称正定矩阵，在子集y_i上使用K-SVD算法求出子字典D_i和编码系数矩阵A_i；在本实例中，对称正定矩阵采用视觉数据中的每个像素点抽取坐标点(x,y)，该像素点的灰度值和该点的5个尺度8个方向共40个Gabor特征构成的43个特征所生成Gabor协方差矩阵，稀疏度设为30，FERET图像大小为60╳60，LFW图像大小为32╳32，AR图像大小为30╳30。

步骤2、获得字典的初始值D°＝[D₁,D₂,...,D_C]和编码系数矩阵的初始值A°＝[A₁,A₂,...,A_C]。

步骤3、根据训练样本集的标签矩阵H构建字典D°的标签矩阵L。

步骤4、计算字典D₀的加权标签矩阵

再计算其扩展标签矩阵V＝MM^T。

步骤4的具体求解过程包括如下步骤：

步骤4.1、变量初始值的设置：i＝1，K＝1，δ＝4，在本实例中，对于FERET数据集来说，α＝0.001，β＝0.01，γ＝0.1，最大迭代次数T_max＝50，对于LFW数据集来说，α＝0.01，β＝0.01，γ＝0.1，最大迭代次数T_max＝30，对于AR数据集来说，α＝0.000001，β＝0.00001，γ＝0.0001，最大迭代次数T_max＝100。其中，各个数值可以根据需要进行调整，均属于本发明的保护范围之内。

步骤4.2、利用字典D_i通过公式(2)计算图拉普拉斯矩阵P：

其中G_i,j通过公式(3)计算：

其中字典原子d_i∈D_i，KNN(φ(d_i))表示φ(d_i)的K近邻。

步骤4.3、利用下列公式(4)计算编码系数矩阵Wⁱ：

Wⁱ＝(K_R(D^i-1,D^i-1)+βV+γI)^-1(K_R(Y,D^i-1)+γA^i-1) (4)

其中K_R(P.Q)＝exp(-γ||log(P)-log(Q)||²)是黎曼核。

步骤4.4、利用下列公式(5)计算编码系数矩阵Aⁱ

Aⁱ＝(K_R(D^i-1,D^i-1)+αP+γI)^-1(K_R(Y,D^i-1)+γWⁱ) (5)

其中K_R(P.Q)＝exp(-γ||log(P)-log(Q)||²)是黎曼核。

步骤4.5、利用下列公式(6)计算字典Dⁱ

Dⁱ＝(K_R(D^i-1,D^i-1)+αL+γI)^-1(K_R(Y,D^i-1)+γWⁱ) (6)

再利用下列公式(7)更新字典Dⁱ

其中，

表示在D_i点的矩阵对数与切矩阵U位移之差，

可利用下列公式(8)来计算。

步骤4.6、i＝i+1；

步骤4.7、若i未到达最大迭代次数T_max，返回步骤4.2，否则进入步骤5。

步骤5、计算字典D和编码系数矩阵W和编码系数矩阵A，通过公式(1)来计算:

其中A∈R^K×N和W∈R^K×N是编码系数矩阵。

和

表示重构误差项，

是正则化项，用于标签约束和局部约束之间的转换。α,β和γ是正则化参数，P是利用字典D的最近邻图计算出来的图拉普拉斯矩阵，φ是核函数。

通过步骤5获得

和

步骤6、使用线性分类器进行视觉分类，包括如下步骤：

步骤6.1、使用编码系数矩阵A和训练样本标签矩阵H求出分类器参数S_a，公式如下：

S_a＝HA^T(AA^T+I)^-1…. (9)

步骤6.2、对每个测试样本y～_i，使用正交匹配追踪算法(J.A.Tropp andA.C.Gilbert,“Signal recovery from random measurements via orthogonal matchingpursuit,”IEEE Trans.Inf.Theory,vol.53,no.12,pp.4655–4666,Dec.2007.)求其在学习字典D中的稀疏表示系数向量

利用

求出标签向量l_a。

步骤6.3、测试样本

的标签就是标签向量l_a中对应的最大元素索引。

在FERET图像集上，将本发明所述的一种视觉分类方法和GSRC、LDA+Gabor、logE-SR、RSR、GRCM3、Log-E kernel

等方法进行比较，实验发现，本发明方法得到的平均的识别率为96.3％，GSRC方法得到的平均的识别率为86.6％，LDA+Gabor方法得到的平均的识别率为85.9％，logE-SR方法得到的平均的识别率为63.3％，RSR方法得到的平均的识别率为89.9％，GRCM3方法得到的平均的识别率为81.35％，Log-E kernel

方法得到的平均的识别率为94.5％，本发明方法的平均识别率比GSRC方法提升了9.7％,比LDA+Gabor方法提升了10.4％,比logE-SR方法提升了33％，比RSR方法提升了6.4％，比GRCM3方法提升了14.95％，比Log-E kernel

方法提升了1.8％，图7a和图7b为本实施例在FERET人脸集中bg和bd人脸子集上与其他算法比较的结果图，可以看出本发明方法优于其余方法。

在LFW图像集上，将本发明所述的一种视觉分类方法和LRC、LLC、SRC、K-SVD、D-KSVD、LC-KSVD2、LCLE-DL等方法进行比较，实验发现，本发明方法得到的平均的识别率为39.7％，LRC方法得到的平均的识别率为37.1％，LLC方法得到的平均的识别率为34.8％，SRC方法得到的平均的识别率为38.1％，K-SVD方法得到的平均的识别率为32.4％，D-KSVD方法得到的平均的识别率为33.4％，LC-KSVD2方法得到的平均的识别率为32.2％，LCLE-DL方法得到的平均的识别率为38.8％，本发明方法的平均识别率比LRC方法提升了2.6％，比LLC方法提升了4.9％，比SRC方法提升了1.6％，比K-SVD方法提升了7.3％，比D-KSVD方法提升了6.3％，比LC-KSVD2方法提升了7.5％，比LCLE-DL方法提升了0.9％，图9为本实施例在LFW人脸集上与其他算法比较的结果图，可以看出本发明方法优于其余方法。

在AR图像集上，将本发明所述的一种视觉分类方法和LRC、LLC、SRC、K-SVD、D-KSVD、LC-KSVD2、LCLE-DL等方法进行比较，实验发现，本发明方法得到的平均的识别率为80.2％，LRC方法得到的平均的识别率为61.2％，LLC方法得到的平均的识别率为62.7％，SRC方法得到的平均的识别率为63.7％，K-SVD方法得到的平均的识别率为73.5％，D-KSVD方法得到的平均的识别率为65.6％，LC-KSVD2方法得到的平均的识别率为65.7％，LCLE-DL方法得到的平均的识别率为78.9％，本发明方法的平均识别率比LRC方法提升了19％，比LLC方法提升了17.5％，比SRC方法提升了16.5％，比K-SVD方法提升了9.8％，比D-KSVD方法提升了14.6％，比LC-KSVD2方法提升了14.5％，比LCLE-DL方法提升了1.3％，图11为本实施例在LFW人脸集上与其他算法比较的结果图，可以看出本发明方法优于其余方法。

综上所述，本发明提供的视觉分类方法，结合局部约束标签嵌入信息与黎曼核方法的思想，在特征空间中构建字典原子的标签嵌入，保留同类的字典原子有相似的轮廓，获得训练样本的最优表示。此外，在特征空间中构建字典原子的局部约束性，确保相似的字典原子有相似的轮廓，另外，由于使用字典原子最近邻图定义的拉普拉斯矩阵继承了训练样本的流形结构，借该拉普拉斯矩阵使学习到的字典更佳适应于训练样本。所以在特征空间中利用局部约束项和标签嵌入项二项重构项进行字典学习，确保局部约束的编码系数与标签嵌入的编码系数尽可能的相同。使学习到的字典具有好的重构能力和判别能力。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。