CN110781766A - 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 - Google Patents
基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 Download PDFInfo
- Publication number
- CN110781766A CN110781766A CN201910943071.8A CN201910943071A CN110781766A CN 110781766 A CN110781766 A CN 110781766A CN 201910943071 A CN201910943071 A CN 201910943071A CN 110781766 A CN110781766 A CN 110781766A
- Authority
- CN
- China
- Prior art keywords
- matrix
- characteristic
- local
- image
- grassmann
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 174
- 238000001228 spectrum Methods 0.000 title claims abstract description 116
- 238000004458 analytical method Methods 0.000 title claims abstract description 66
- 239000011159 matrix material Substances 0.000 claims abstract description 247
- 230000014759 maintenance of location Effects 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 70
- 230000009467 reduction Effects 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000009466 transformation Effects 0.000 claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 238000000354 decomposition reaction Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000012423 maintenance Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000005284 basis set Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 46
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,包括:将标准正交基集合组成的格拉斯曼流形映射到希尔伯特空间得到向量组;依据图嵌入理论框架建立局部保持矩阵并通过权重框架函数执行正则化操作得到变换矩阵,通过变换矩阵对向量组投影得到新的样本空间;对新的样本空间结合权重邻接矩阵求解方程得到降维投影矩阵,根据变换矩阵与其组合得到的最终矩阵提取训练视频图像集合与待识别视频图像集合的降维特征并进行相似度比较得到识别结果。本发明利用特征谱正则化技术解决了GDA方法在判别分析中因类内散度矩阵奇异而导致求逆不稳定、泛化能力差的问题;且加入图嵌入理论框架使得算法能更好地保持局部信息以获得更好的识别结果。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法。
背景技术
图像识别是人工智能的分支,属于模式识别范畴,且图像识别的相关研究已经广泛应用于人脸识别、车牌识别、文字识别等方面并取得了巨大的成功,但是在复杂光照、低分辨率、图像模糊等复杂情况下,图像识别仍然面临着巨大的挑战。随着计算机技术、视频监控技术、网络技术的快速发展,以及电子商务、社交网络、网络视频的普及,目前常常可以获得同一个物体的多幅图像组成的图像集合或视频,利用图像集合或视频进行图像识别能够有效获得更多的可判别信息,相较于传统单幅图像识别方法有较强的优势。单幅图像识别方法普遍以单幅图像作为分析研究对象,其显著特点在于识别阶段只采单幅图像的信息去进行图像匹配,而使用图像集合或视频的图像识别方法,无论在训练过程或者识别过程中都以图像集合或一段视频为单位进行匹配,其中,基于视频的图像识别方法(简称“视频图像识别方法”)也可以称之为图像集识别方法。
目前,大部分视频图像识别方法一般都是建立在欧氏空间中,例如:概率模型、线性子空间、稀疏表示、尺度学习、仿射/凸包模型等方法。其中,基于线性子空间进行图像匹配的视频图像识别方法(Mutual Subspace Method,MSM)是使用最为广泛的一种,其利用了两个线性子空间之间的相似度度量规则——典型相关角(canonical angles),进行相似度的度量,如图1所示,视频人脸图像帧可以组成不同的图像集合,X1和X2代表不同人的一个视频图像集合,然后分别将其各自表达成不同的线性子空间,通过它们之间的典型相关角θ可得到两个视频图像集合之间的相似性,从而进行识别。然而,大量相关研究表明,许多视觉特征(如图像的线性子空间、协方差矩阵、形状特征等)常常并不处于我们所熟知的欧氏空间中,而是存在于具有一定性质的扭曲的拓扑空间——黎曼流形(Riemannianmanifold)上,黎曼流形是局部具有欧氏空间性质的拓扑空间,从几何上看,其拓扑结构是一个扭曲的拓扑空间,且目前已经有大量方法使用图像的线性子空间、协方差矩阵、形状特征等视觉特征作为黎曼流形上的元素,并成功应用于视频图像识别任务。图像集合的线性子空间实际上属于视觉统计特征,研究认为,这些视觉统计特征可能存在于非欧空间格拉斯曼(Grassmann)流形上,格拉斯曼流形在视频图像识别上已经得到了广泛的应用,其被定义为一组子空间的集合,是黎曼流形的一种特殊形式,通过定义格拉斯曼流形上的距离即可实现图像集合与图像集合之间的相似度度量,如流形的测地距离,且除了流形的测地距离,也可根据典型相关角定义多种格拉斯曼流形距离。格拉斯曼流形判别分析(GrassmannDiscriminant Analysis,GDA)利用格拉斯曼核函数将流形上的视觉统计特征重新映射到欧氏空间中,并在此映射的空间中使用线性判别分析(Linear Discriminant Analysis,LDA)方法。众所周知,传统的线性判别分析(LDA)方法在求解最优投影矩阵的过程中,通常需要求类内散度矩阵的逆。但是实践发现,常常由于训练样本数量有限且特征维度较高,从而导致类内散度矩阵是奇异的,进而导致类内散度矩阵的逆并不存在的情况。可见,当前的GDA方法存在因类内散度矩阵奇异而导致的求逆不稳定及泛化能力差的问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于特征谱正则化的格拉斯曼流形判别分析图像识别(Regularized Grassmann Discriminant Analysis,RGDA)方法,能够无需求取类内散度矩阵的逆,利用基于特征谱的正则化技术解决了GDA方法在判别分析中因类内散度矩阵奇异而导致求逆不稳定、泛化能力差的问题。
为了解决上述技术问题,本发明实施例第一方面公开了基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,所述方法包括:
确定从训练视频集合的每个训练视频中提取的多个图像帧,得到每个所述训练视频对应的图像集合,所述训练视频集合包括N个所述训练视频,N为大于等于1的整数;
通过预先确定出的分析方法提取每个所述图像集合的线性子空间,将所有所述图像集合的线性子空间组成格拉斯曼流形,所述格拉斯曼流形由每个所述图像集合的线性子空间中的一个标准正交基所形成的标准正交基集合组成;
将所述格拉斯曼流形映射到希尔伯特空间,得到所述格拉斯曼流形在所述希尔伯特空间的向量组;
依据图嵌入理论框架,通过局部拉普拉斯矩阵和所述向量组建立局部保持矩阵;
根据所述局部保持矩阵的特征谱构建权重框架函数,并根据所述权重框架函数对所述局部保持矩阵的特征空间执行正则化操作,得到新的样本空间;
对所述新的样本空间结合以及预先定义的权重邻接矩阵,对特征分解方程执行求解操作,得到降维投影矩阵;
组合在执行所述正则化操作过程中得到的变换矩阵与所述降维投影矩阵,得到特征提取投影矩阵;
根据所述特征提取投影矩阵分别提取每个所述图像集合以及待识别视频的目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征,并通过预先定义的分类器对每个所述图像集合的降维特征与所述目标图像集合的降维特征进行相似度比较,得到针对所述待识别视频的识别结果。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述局部保持矩阵的特征谱构建权重框架函数,并根据所述权重框架函数对所述局部保持矩阵的特征空间执行正则化操作,得到新的样本空间,包括:
对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的特征谱以及所述局部保持矩阵的特征空间;
根据所述特征谱建立权重框架函数,并通过所述权重框架函数对格拉斯曼核特征空间执行加权操作,得到变换矩阵;
使用所述变换矩阵对所述向量组进行投影,得到新的样本空间。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的特征谱,包括:
对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值;
按照特征值由大到小的顺序对所有所述特征值执行排序操作,得到所述局部保持矩阵的特征谱。
作为一种可选的实施方式,在本发明实施例第一方面中,所述局部保持矩阵的计算公式为:
SΦ=ΦLlocΦT;
其中,SΦ为所述局部保持矩阵,Φ为所述格拉斯曼流形在所述希尔伯特空间的所述向量组且Φ=Φ(Y)=[φ(Y1),φ(Y2),......,φ(YN)],第i个所述图像集合的线性子空间中的一个标准正交基为Yi且D为所述图像集合中每个图像的特征维度,m为所述格拉斯曼流形的维度且等于所述标准正交基的基向量个数,ΦΤ为Φ的转置矩阵,Lloc为所述局部拉普拉斯矩阵且其表达式为:
其中,ωij是连接第i个所述图像集合和第j个所述图像集合之间的权重参数,Cc是所述训练视频集合中第c个类别的训练视频对应的图像集合,ωij等于所述训练视频集合中第c个类别的训练视频对应的图像集合个数的倒数;Xi为第i个所述训练视频对应的图像集合,Xj为第j个所述训练视频对应的图像集合。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值,包括:
根据格拉斯曼核特征空间对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值;
所述局部保持矩阵的所有特征值的计算公式为:
λ1=VΤΦLlocΦΤV=αΤΦΤΦLlocΦΤΦα=αΤKLlocKα,αΤα=1;
其中,V为用于表达所述格拉斯曼核特征空间的线性组合,且vi=Φαi,K为格拉斯曼核矩阵且K=ΦΤΦ且K是通过格拉斯曼核函数计算得到的;所述局部保持矩阵的特征谱λ2为对所述局部保持矩阵的所有特征值按照特征值由大到小排序之后得到的,且所述格拉斯曼核特征空间为满秩的特征空间。
作为一种可选的实施方式,在本发明实施例第一方面中,所述变换矩阵的计算公式为:
所述新的样本空间的计算公式为:
其中,为所述新的样本空间。
作为一种可选的实施方式,在本发明实施例第一方面中,所述特征分解方程为:
其中,U为所述降维投影矩阵,G为所述权重邻接矩阵,所述权重邻接矩阵第i行第j列的值为:
所述特征提取投影矩阵的计算公式为:
其中,Nc是所述训练视频集合中第c个类别的训练视频对应的图像集合的数量,Z为所述特征提取投影矩阵,且所述目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征为:
其中,F为所述目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征,Yte为所述目标图像集合的线性子空间中的一个标准正交基,φte为所述目标图像集合的线性子空间中的一个标准正交基映射到所述希尔伯特空间得到的目标特征向量,Y为所述标准正交基集合且Y={Y1,Y2,......,YN}。
作为一种可选的实施方式,在本发明实施例第一方面中,所述权重框架函数为:
其中,a和b的计算公式分别为:
作为一种可选的实施方式,在本发明实施例第一方面中,所述权重框架函数为:
作为一种可选的实施方式,在本发明实施例第一方面中,所述权重框架函数为:
其中,a和b的计算公式分别为:
本发明实施例第二方面公开了一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置,所述装置包括:
确定模块,用于确定从训练视频集合的每个训练视频中提取的多个图像帧,得到每个所述训练视频对应的图像集合,所述训练视频集合包括N个所述训练视频,N为大于等于1的整数;
子空间提取模块,用于通过预先确定出的分析方法提取每个所述图像集合的线性子空间,将所有所述图像集合的线性子空间组成格拉斯曼流形,所述格拉斯曼流形由每个所述图像集合的线性子空间中的一个标准正交基所形成的标准正交基集合组成;
格拉斯曼映射模块,用于将所述格拉斯曼流形映射到希尔伯特空间,得到所述格拉斯曼流形在所述希尔伯特空间的向量组;
建立模块,用于依据图嵌入理论框架,通过局部拉普拉斯矩阵和所述向量组建立局部保持矩阵;
正则化模块,用于根据所述局部保持矩阵的特征谱构建权重框架函数,并根据所述权重框架函数对所述局部保持矩阵的特征空间执行正则化操作,得到新的样本空间;
降维模块,用于对所述新的样本空间结合预先定义的权重邻接矩阵,对特征分解方程执行求解操作,得到降维投影矩阵;
整合模块,用于组合在执行所述正则化操作过程中得到的变换矩阵与所述降维投影矩阵,得到特征提取投影矩阵;
特征提取模块,用于根据所述特征提取投影矩阵分别提取每个所述图像集合以及待识别视频的目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征;
识别模块,用于通过预先定义的分类器对每个所述图像集合的降维特征与所述目标图像集合的降维特征进行相似度比较,得到针对所述待识别视频的识别结果。
作为一种可选的实施方式,在本发明实施例第二方面中,所述正则化模块包括:
分解子模块,用于对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的特征谱以及所述局部保持矩阵的特征空间;
建立子模块,用于根据所述特征谱建立权重框架函数;
加权子模块,用于通过所述权重框架函数对格拉斯曼核特征空间执行加权操作,得到变换矩阵;
变换子模块,用于使用所述变换矩阵对所述向量组进行投影,得到新的样本空间。
作为一种可选的实施方式,在本发明实施例第二方面中,所述分解子模块对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的特征谱的具体方式为:
对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值;
按照特征值由大到小的顺序对所有所述特征值执行排序操作,得到所述局部保持矩阵的特征谱。
本发明第三方面公开了另一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置,该装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法中的步骤。
本发明第四方面公开了一种计算机可存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法中的步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明改变了传统的格拉斯曼流形判别分析(Grassmann discriminantanalysis,GDA)的算法结构,不需要求类内散度矩阵的逆,利用基于特征谱的正则化技术保留了所有类内散度空间信息并对其正则化得到了泛化能力更好的特征,为进一步的特征提取提供了基础,解决了现有GDA方法中因类内散度矩阵奇异而导致的求逆不稳定、泛化能力差的技术问题,有利于提高图像识别的识别率,进一步的,使用核技巧(kernel trick)并结合格拉斯曼核函数(如Projection核函数等)将特征谱正则化技术推广到了格拉斯曼核空间上,解决了特征谱正则化在格拉斯曼核空间上的应用问题,还能够结合图嵌入理论算法框架实现基于特征谱正则化GDA(Regularized Grassmann Discriminant Analysis,RGDA)方法的整个算法框架,能够进一步保持局部邻域信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术公开的一种基于线性子空间的图像集合识别方法的框架示意图;
图2是本发明实施例公开的一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法的框架示意图;
图3是本发明实施例公开的一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法的流程示意图;
图4是本发明实施例公开的一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置的结构示意图;
图5是本发明实施例公开的另一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置的结构示意图;
图6是本发明实施例公开的又一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置的结构示意图;
图7是本发明实施例公开的三种数据集使用四种方法对应的识别率比较结果示意图;
图8是本发明实施例公开的三种数据集使用六种方法对应的ROC曲线比较结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,能够无需再求取类内散度矩阵的逆,利用基于特征谱的正则化技术保留了所有类内散度空间信息并对其正则化得到了泛化能力更好的特征,为进一步的特征提取提供了基础,解决了现有GDA方法中因类内散度矩阵奇异而导致的求逆不稳定、泛化能力差的技术问题,有利于提高图像识别的识别率,进一步的,使用核技巧(kernel trick)并结合格拉斯曼核函数(如Projection核函数等)将特征谱正则化技术推广到了格拉斯曼核空间上,解决了特征谱正则化在格拉斯曼核空间上的应用问题,还能够结合图嵌理论算法框架实现基于特征谱正则化GDA(Regularized Grassmann Discriminant Analysis,RGDA)方法的整个算法框架,能够进一步保持局部邻域信息。以下分别进行详细说明。
为了更好的理解本发明所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,首先对基于特征谱正则化的格拉斯曼流形判别分析图像识别方法的原理框架进行描述,具体的,基于特征谱正则化的格拉斯曼流形判别分析图像识别方法的原理框架可以如图2所示,图2是本发明实施例公开的一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法的框架示意图。如图2所示,首先构建针对不同图像集合的线性子空间,并由所有图像集合的线性子空间组合成格拉斯曼流形上的元素,然后将格拉斯曼流形上的元素映射到希尔伯特空间,并对映射到希尔伯特空间的数据进行基于特征谱的正则化操作,以下进行详细说明。
实施例一
请参阅图3,图3是本发明实施例公开的一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法的流程示意图。如图3所示,该基于特征谱正则化的格拉斯曼流形判别分析图像识别方法可以应用于图像识别设备中,本发明实施例不做限定。如图3所示,该基于特征谱正则化的格拉斯曼流形判别分析图像识别方法可以包括以下操作:
101、图像识别设备确定从训练视频集合的每个训练视频中提取的多个图像帧,得到每个训练视频对应的图像集合。
本发明实施例中,该训练视频集合可以包括N个训练视频,每个训练视频均对应一个图像集合,且N是大于等于1的整数。
需要说明的是,图像识别设备可以直接获取训练视频集合,并对训练视频集合所包括的所有训练视频执行图像提取操作,以确定每个训练视频对应的图像集合,也可以直接从其它图像提取装置、图像提取设备或相应的云服务器直接获取训练视频集合中每个训练视频对应的图像集合,作为确定出的每个训练视频对应的图像集合。需要说明的是,步骤101的最终目的是为了确定多个图像集合,该多个图像集合可以是从多个训练视频中提取的,也可以是从多个训练动图中提取的,本发明实施例不做限定。其中,该多个图像集合中,每个图像集合均可以描述为其中,Ni是该图像集合所包含的图像数量。
102、图像识别设备通过预先确定出的分析方法提取每个图像集合的线性子空间,将所有图像集合的线性子空间组成格拉斯曼流形。
本发明实施例中,每个图像集合的线性子空间均可以通过该图像集合的线性子空间中的一个标准正交基来表示,且将所有图像集合的线性子空间组成格拉斯曼流形,也即:用于表示每个图像集合的线性子空间的标准正交基组成标准正交基集合,该标准正交基集合组成格拉斯曼流形。可选的,该预先确定出的分析方法可以为主成分分析(PrincipalComponent Analysis,PCA)方法,也即:图像识别设备可以采用PCA方法提取每个图像集合的线性子空间,每个图像集合的线性子空间通过该图像集合的线性子空间中的一个标准正交基进行表达。
103、图像识别设备将格拉斯曼流形映射到希尔伯特空间,得到格拉斯曼流形在希尔伯特空间的向量组。
104、图像识别设备依据图嵌入理论框架,通过局部拉普拉斯矩阵和上述向量组建立局部保持矩阵。
105、图像识别设备根据局部保持矩阵的特征谱构建权重框架函数,并根据权重框架函数对局部保持矩阵的特征空间执行正则化操作,得到新的样本空间。
106、图像识别设备对新的样本空间结合预先定义的权重邻接矩阵,对特征分解方程执行求解操作,得到降维投影矩阵。
107、图像识别设备组合在执行正则化操作过程中得到的变换矩阵与上述降维投影矩阵,得到特征提取投影矩阵。
108、图像识别设备根据特征提取投影矩阵分别提取每个图像集合以及待识别视频的目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征。
109、图像识别设备通过预先定义的分类器对每个图像集合的降维特征与目标图像集合的降维特征进行相似度比较,得到针对待识别视频的识别结果。
本发明实施例中,可选的,该预先定义的分类器可以为最近邻分类器(NearestNeighborhood Classifier,NNC)。
本发明实施例中,需要说明的是,步骤101-步骤105可以概括为格拉斯曼流形判别分析的特征谱正则化过程,步骤106-步骤108可以概括为维度降维和特征提取的过程,步骤109为对待识别视频进行识别的识别过程。需要说明的是,步骤101-步骤108也可以概括为训练过程,本发明实施例不做限定。
在一个可选的实施例中,图像识别设备根据局部保持矩阵的特征谱构建权重框架函数,并根据权重框架函数对局部保持矩阵的特征空间执行正则化操作,得到新的样本空间,可以包括:
图像识别设备对局部保持矩阵执行特征分解操作,得到局部保持矩阵的特征谱以及局部保持矩阵的特征空间;
图像识别设备根据该特征谱建立权重框架函数,并通过该权重框架函数对格拉斯曼核特征空间执行加权操作,得到变换矩阵,其中,格拉斯曼核特征空间为满秩的特征空间;
图像识别设备使用变换矩阵对向量组进行投影,得到新的样本空间。
其中,格拉斯曼核特征空间等于上述向量组与局部保持矩阵的特征空间的组合。
在该可选的实施例中,进一步可选的,图像识别设备对局部保持矩阵执行特征分解操作,得到局部保持矩阵的特征谱,可以包括:
图像识别设备对局部保持矩阵执行特征分解操作,得到局部保持矩阵的所有特征值;
图像识别设备按照特征值由大到小的顺序对所有特征值执行排序操作,得到局部保持矩阵的特征谱。
可见,该可选的实施例能够通过对建立的局部保持矩阵进行分解得到局部保持矩阵的所有特征值并对得到的所有特征值按照由大到小的顺序进行排序操作,得到局部保持矩阵的特征谱,以便于实现特征谱正则化。
又进一步可选的,上述局部保持矩阵的计算公式或构建公式为:
SΦ=ΦLlocΦT; (1)
其中,SΦ为局部保持矩阵,Φ为上述格拉斯曼流形在希尔伯特空间的向量组且Φ=Φ(Y)=[φ(Y1),φ(Y2),......,φ(YN)],第i个图像集合的线性子空间中的一个标准正交基为Yi且D为图像集合中每个图像的特征维度,m为上述格拉斯曼流形的维度且等于标准正交基的基向量个数,ΦΤ为Φ的转置矩阵,Lloc为局部拉普拉斯矩阵且其表达式为:
其中,ωij是连接第i个图像集合和第j个图像集合之间的权重参数,Cc是训练视频集合中第c个类别的训练视频对应的图像集合,ωij等于训练视频集合中第c个类别的训练视频对应的图像集合个数的倒数;Xi为第i个训练视频对应的图像集合,Xj为第j个训练视频对应的图像集合。
需要说明的是,当局部拉普拉斯矩阵Lloc中的邻域权重使用相同的值时,局部保持矩阵SΦ实际上就是格拉斯曼核空间中的类内散度矩阵。
又进一步可选的,图像识别设备对局部保持矩阵执行特征分解操作,得到局部保持矩阵的所有特征值,可以包括:
图像识别设备根据格拉斯曼核特征空间对局部保持矩阵执行特征分解操作,得到局部保持矩阵的所有特征值。
其中,局部保持矩阵的所有特征值的计算公式为:
λ1=VΤΦLlocΦΤV=αΤΦΤΦLlocΦΤΦα=αΤKLlocKα,αΤα=1; (3)
其中,V为用于表达格拉斯曼核特征空间的线性组合,且vi=Φαi(也即V=Φα),K为格拉斯曼核矩阵且K=ΦΤΦ且K是通过格拉斯曼核函数计算得到的;局部保持矩阵的特征谱λ2为对局部保持矩阵的所有特征值按照特征值由大到小排序之后得到的,且格拉斯曼核特征空间为满秩的特征空间。优选的,该格拉斯曼核函数可以为Projection核,其定义为:
通过上述公式(3)即可求得上述局部保持矩阵的所有特征值λ1和特征向量α,且对应特征值小的特征向量能够更好的保持局部信息。
又进一步可选的,上述变换矩阵的计算公式为:
在该可选的实施例中,变换矩阵是一个全维度的变换矩阵,根据核方法,变换矩阵的矩阵维度与上述图像集合的数量有关且为N*N,由于格拉斯曼核矩阵K的矩阵维度也是N*N,因此,这种方式保留了所能够得到的所有特征,进而使得判别信息得到了最大程度的保留。此外,在局部拉普拉斯矩阵Lloc的作用下局部保持信息也得到了强化,且在特征谱正则化过程中构建的权重框架函数对新的样本空间起到了泛化作用。
又进一步可选的,上述特征分解方程为:
其中,U为降维投影矩阵,G为预先定义出的权重邻接矩阵,且该权重邻接矩阵第i行第j列的值为:
以及,上述特征提取投影矩阵的计算公式为:
其中,Nc是训练视频集合中第c个类别的训练视频对应的图像集合的数量,Z为特征提取投影矩阵,且待识别视频的降维特征为:
其中,F为待识别视频的目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征,Yte为待识别视频的目标图像集合的线性子空间中的一个标准正交基且用于表达目标图像集合的线性子空间,φte为目标图像集合的线性子空间中的一个标准正交基映射到希尔伯特空间得到的目标特征向量,Y为上述标准正交基集合且Y={Y1,Y2,......,YN}。
在该可选的实施例中,通过上述公式(7)和上述公式(8)可以求得降维投影矩阵U,通过保留特征值中前d个最大特征值所对应的特征向量组成降维投影矩阵U,也即U=[u1,u2,......,ud],其中,d可以根据实际需求进行设定。此外,在得到降维投影矩阵U之后,图像识别设备通过上述公式(9)进一步结合特征谱正则化过程中得到的变换矩阵得到最终的特征提取投影矩阵Z。由于变换矩阵包含了上述格拉斯曼流形在希尔伯特空间的向量组Φ,故其没有线性的表达,为了得到最终的降维特征,还需利用核方法进行推导,也即:对于给定的一个待识别视频(或待测试视频),图像识别设备可以先获取或提取该待识别视频的视频图像得到该待识别视频的目标图像集合Xte,使用PCA方法得到该目标图像集合Xte的线性子空间中的一个标准正交基Yte并将该标准正交基Yte映射至希尔伯特空间得到对应的目标特征向量φte,并通过上述公式(10)提取最终的降维特征,这样能够巧妙利用内积的核技巧将所提取的视频特征转化为一个线性的表达,即转化为一个可在线性空间操作的特征向量。在提取到待识别视频的目标图像集合的降维特征以及每个训练视频的图像集合的降维特征之后,利用最近邻分类器对每个训练视频的图像集合的降维特征和待识别视频的目标图像集合的降维特征进行相识度比较,得到针对待识别视频的识别结果。可见,该可选的实施例利用了局部正则化嵌入(Locality Regularization Embedding,LRE)方法中的特征提取和降维方法,且将其推广到了格拉斯曼核空间上实现。
又进一步的,上述权重框架函数为:
其中,a和b的计算公式分别为:
需要说明的是,上述公式(11)所示的权重框架函数是通过特征正则化抽取(Eigenfeature Regularization Extraction,ERE)方法中的特征谱正则化技术来定义的,利用中值定理作为启发点定义了上述公式(11)所示的权重框架函数。关于分割点m1对应的特征值可以通过以下公式求得:
或者,上述权重框架函数也可以为:
需要说明的是,上述公式(15)所示的权重框架函数引用了完全特征谱判别特征提取(Complete Discriminant Evaluation and Feature extraction,CDEFE)方法中的特征谱正则化技术,CDEFE方法将特征谱正则化技术推广到了核空间,其通过寻找一个最小特征比值作为特征谱上的一个分割点m2,δk是特征谱上两个邻近特征值的比值且δk=λk/λk+1。
或者,上述权重框架函数还可以为:
其中,a和b的计算公式分别为:
需要说明的是,上述公式(16)引用了利用预测特征值提取判别向量(ExtractingDiscriminative Vectors by applying Predicted Eigenvalues,DVPE)方法中的特征谱正则化技术,DVPE方法定义了特征谱上的两个分割点m1和m2,其中,第一分割点m1对应的特征值的计算方法可采用上述公式(14)中m1的计算方法,第二分割点m2是通过寻找一个最大的特征比值δk=λk+1/λk并满足作为特征谱上的一个分割点m2,该方法与CDEFE方法中寻找最小的特征比值λk/λk+1有相同的效果。故DVPE方法中的特征谱正则化技术实际上是ERE方法和CDEFE方法中特征谱正则化模型的融合版本。
可见,实施图3所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法改变了传统的格拉斯曼流形判别分析(GDA)的算法结构,不需要求类内散度矩阵的逆,利用基于特征谱的正则化技术保留了所有类内散度空间信息并对其正则化得到了泛化能力更好的特征,为进一步的特征提取提供了基础,解决了现有GDA方法中因类内散度矩阵奇异而导致的求逆不稳定、泛化能力差的技术问题,有利于提高图像识别的识别率,进一步的,使用核技巧(kernel trick)并结合格拉斯曼核函数(如Projection核函数等)将特征谱正则化技术推广到了格拉斯曼核空间上,解决了特征谱正则化在格拉斯曼核空间上的应用问题,还能够结合图嵌入理论算法框架实现RGDA方法的整个算法框架,能够进一步保持局部邻域信息。
为了验证本发明实施例一的有效性,以下通过两个人脸视频数据库和一个人脸图像集合数据库进行验证,分别是Honda人脸视频数据库、YTC人脸视频数据库以及ExtYaleB人脸图像集合数据库。其中,Honda数据库包含了20个不同人的59个视频序列,视频序列可提取成百上千张图像,每个序列可形成一个图像集合作为本发明的一个研究单位样本;ExtYaleB数据库包含28个人的16128幅图像,每个人的图像都有64种光照变化和9个姿态变化,本次实验以姿态为单位,相同姿态的图片建立一个图像集合;YTC数据库是一个大型Youtube网站视频数据库,包含了47个人的1910个视频序列,本发明在每个视频序列中提取视频帧组成各自的图像集合,分别组成了有50、100、200以及所有帧的图像集合的组合实验,即:四个实验中,第一个实验的每个图像集合包含大概50个图像帧,第二个实验的每个图像集合包含100个图像帧,以此类推。本发明使用一种层叠型的Adaboost人脸检测算法对每帧图像进行人脸检测,从而得到只包含人脸范围的人脸图像,图像大小统一为20*20像素的灰度图片,图像的特征维度D等于20*20,也即400。在实际验证过程中实验数据都会随机选择不同的10组训练集和测试集组合进行测试,取平均测试结果。
对于特征使用的稳定性验证,相比于原来的格拉斯曼流形判别分析方法(GDA方法),本发明所示的方法(RGDA方法)能够在最终的特征提取中,随着提取特征的维度增加而保持识别率的稳定性,而原来的GDA方法不能保持这种性质。不同特征维度下的识别率比较结果可以如图7所示,图7中的横坐标是所使用的最终特征维度,纵坐标是对应的识别率,本发明所提出的RGDA方法结合三种不同的特征谱正则化模型组成了RGDA-ERE、RGDA-CDEFE和RGDA-DVPE三种算法。图7中可以看到在三个不同数据集合上,本发明所提出的RGDA方法都能够随着特征维度的增多,识别率基本上保持着上升状态,但是原来的GDA方法在识别率上升到一定程度后就急速地下降。这充分说明了本发明的RGDA方法在特征使用中具有更好的稳定性,使得最终所提取的判别特征具有更好的泛化能力。其中,图7中的a1表示在Honda数据集上分别通过RGDA-ERE方法、RGDA-CDEFE方法、RGDA-DVPE方法以及传统的GDA方法使用不同数量的特征对应的识别率比较结果;图7中的a2表示在ExtYaleB数据集上分别通过RGDA-ERE方法、RGDA-CDEFE方法、RGDA-DVPE方法以及传统的GDA方法使用不同数量的特征对应的识别率比较结果;图7中的a3表示在YTC数据集上分别通过RGDA-ERE方法、RGDA-CDEFE方法、RGDA-DVPE方法以及传统的GDA方法使用不同数量的特征对应的识别率比较结果。
对于与其它基于GDA的方法在接收机操作特性曲线(Receiver OperationCharacteristic,ROC曲线)上的比较,本发明是在GDA方法的基础上分别结合特征谱正则化技术、图嵌入理论框架对其进行了改进,也即:本发明所提出的RGDA方法本质上也是一种基于GDA的方法。现有技术中,基于GDA方法的改进主要有核的格拉斯曼流形判别分析(KernelGrassmannian Distances and Discriminant Analysis,KGDA)方法;图嵌入格拉斯曼判别分析(Graph embedding Grassmann Discriminant Analysis,GGDA)方法。其中,KGDA方法认为原始图像数据往往并不一定是线性的数据,故KGDA方法首先采用了格拉斯曼核对原始数据进行了非线性映射,然后再求图像集合的线性子空间,最后做格拉斯曼流形判别分析;GGDA方法结合了图嵌入理论框架对GDA方法进行了改进。本发明同样也采用了图嵌入理论框架对GDA进行改进,但相比GGDA方法,本发明还引进了特征谱正则化技术解决判别分析方法中出现的因类内散度矩阵奇异而造成的求逆不稳定、泛化能力差等问题,且本发明在特征谱正则化的框架下实现,其算法和GGDA算法有一定的差别。本次实验比较了本发明所提出的RGDA-ERE方法、RGDA-CDEFE方法及RGDA-DVPE方法与KGDA方法、GGDA方法及原始GDA方法在最高识别率时的ROC曲线。如图8所示,本发明所提出的RGDA方法相比GDA方法、KGDA方法和GGDA方法有更好的平均性能。在YTC数据集上,虽然在较低的假正率(False PositiveRate)上相比其它方法性能较差,但在较高的假正率上,本发明的方法有较大领先范围。其中,图8中的b1表示在Honda数据集上分别使用6种方法的ROC曲线比较结果;图8中的b2表示在Honda数据集上分别通过分别使用6种方法的ROC曲线比较结果;图8中的b3表示在ExtYaleB数据集上分别使用6种方法的ROC曲线比较结果。
对于不同帧数的图像集合在YTC数据集上的识别率比较。每次实验使用包含不同图像数据的图像集合,以验证本发明所提的RGDA方法在识别率比较上具有一定的优越性和稳定性,在实验时将多种基于视频或图像集合的识别方法与本发明所提的RGDA方法进行比较,且多种基于视频或图像集合的识别方法除了基于GDA的KGDA方法、GGDA方法、原始GDA方法之外,本次实验还比较了增强典型相关分析(Extended Canonical CorrelationAnalysis,ECCA)方法、典型相关角的判别分析(DCC)方法以及使用协方差矩阵作为特征组成对称正定矩阵(Symmetric Positive Definite,SPD)流形的协方差鉴别学习(Covariance Discriminative Learning,CDL)方法。实验结果如下表1所示,实验结果以多次识别的平均识别率及其方差组成,最后再对所有帧数实验的平均识别率再做一次平均值。通过下表1的实验结果可知,本发明所提出的RGDA-ERE方法、RGDA-CDEFE方法及RGDA-DVPE方法相比基于GDA的方法(如原始的GDA方法、KGDA方法和GGDA方法)在不同帧数的识别实验中都有更好的识别率,并在50帧和100帧的实验中都得到了最好的识别率。虽然在200帧和所有帧的实验中DCC方法比本发明所提出的方法识别率更高,分别达到了80.7%和81.0%,但是在平均识别率上,本发明的RGDA-ERE方法及RGDA-CDEFE方法分别达到了79.3%和79.4%,比DCC方法的平均识别率79.0%要高。
表1不同帧数的图像集合在不同方法上的平均识别率及其方差(单位:%)
方法 | YTC(50) | YTC(100) | YTC(200) | YTC(所有) | 平均 |
KGDA | 75.3±1.3 | 76.7±1.6 | 78.1±1.3 | 78.2±1.3 | 77.1 |
GGDA | 63.9±4.8 | 70.4±3.3 | 72.7±1.8 | 72.9±2.2 | 70.0 |
GDA | 74.6±1.4 | 76.4±2.0 | 78.0±1.9 | 78.1±1.4 | 76.8 |
ECCA | 74.5±1.2 | 74.6±1.2 | 75.4±1.3 | 75.2±1.0 | 75.0 |
DCC | 76.9±6.1 | 77.4±4.3 | 80.7±1.4 | 81.0±1.3 | 79.0 |
CDL | 69.2±2.8 | 73.0±2.3 | 75.9±1.5 | 76.3±1.2 | 73.6 |
RGDA-ERE | 77.8±1.4 | 78.5±1.4 | 80.4±1.0 | 80.3±1.1 | 79.3 |
RGDA-CDEFE | 78.9±1.2 | 78.1±1.1 | 80.2±1.3 | 80.4±1.4 | 79.4 |
RGDA-DVPE | 77.6±1.4 | 77.8±1.9 | 80.2±1.1 | 79.5±0.8 | 78.8 |
综合上述的实验结果表明,本发明利用特征谱正则化技术解决了GDA方法在判别分析中遇到的因类内散度矩阵奇异而导致的求逆不稳定、泛化能力差的问题;同时,加入了图嵌入理论框架使得算法能够更好地保持局部信息,从而获得更好的识别结果,验证了本发明所提出的RGDA方法的有效性。
实施例二
请参阅图4,图4是本发明实施例公开的一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置的结构示意图。其中,图4所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别装置可以应用于图像识别设备中,且该图像识别设备用于实现图3所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法。如图4所示,该基于特征谱正则化的格拉斯曼流形判别分析图像识别装置可以包括:
确定模块201,用于确定从训练视频集合的每个训练视频中提取的多个图像帧,得到每个训练视频对应的图像集合,训练视频集合包括N个训练视频,N为大于等于1的整数。
子空间提取模块202,用于通过预先确定出的分析方法提取每个图像集合的线性子空间,将所有图像集合的线性子空间组成格拉斯曼流形,格拉斯曼流形由每个图像集合的线性子空间中的一个标准正交基所形成的标准正交基集合组成。
格拉斯曼映射模块203,用于将格拉斯曼流形映射到希尔伯特空间,得到格拉斯曼流形在希尔伯特空间的向量组。
建立模块204,用于依据图嵌入理论框架,通过局部拉普拉斯矩阵和向量组建立局部保持矩阵。
正则化模块205,用于根据局部保持矩阵的特征谱构建权重框架函数,并根据权重框架函数对局部保持矩阵的特征空间执行正则化操作,得到新的样本空间。
降维模块206,用于对新的样本空间结合预先定义的权重邻接矩阵,对特征分解方程执行求解操作,得到降维投影矩阵。
整合模块207,用于组合在执行正则化操作过程中得到的变换矩阵与降维投影矩阵,得到最终的特征提取投影矩阵。
特征提取模块208,用于根据特征提取投影矩阵分别提取每个图像集合以及待识别视频的目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征。
识别模块209,用于通过预先定义的分类器对每个图像集合的降维特征与目标图像集合的降维特征进行相似度比较,得到针对待识别视频的识别结果。
需要说明的是,确定模块201、子空间提取模块202、格拉斯曼映射模块203、建立模块204、正则化模块205、降维模块206、整合模块207、特征提取模块208中所有模块的功能可以通过一个模块来实现,也即这些模块可以替换为一个模块,例如训练模块,或者,这些模块可以作为一个大模块包括的小模块(又称子模块),也即这些模块也可以表述为一个大模块(例如训练模块)的子模块,本发明实施例不做限定。
在一个可选的实施例中,如图5所示,正则化模块205可以包括:
分解子模块2051,用于对局部保持矩阵执行特征分解操作,得到局部保持矩阵的特征谱以及局部保持矩阵的特征空间。
建立子模块2052,用于根据该特征谱建立权重框架函数。
加权子模块2053,用于通过权重框架函数对格拉斯曼核特征空间执行加权操作,得到变换矩阵。
变换子模块2054,用于使用变换矩阵对向量组进行投影,得到新的样本空间。
在该可选的实施例中,进一步可选的,分解子模块2051对局部保持矩阵执行特征分解操作,得到局部保持矩阵的特征谱的具体方式可以为:
对局部保持矩阵执行特征分解操作,得到局部保持矩阵的所有特征值;
按照特征值由大到小的顺序对所有特征值执行排序操作,得到局部保持矩阵的特征谱。
需要说明的是,本发明实施例中对于一些值或者矩阵的计算公式或构建公式等请参照实施例一中的详细描述,本发明实施例不再赘述。
可见,实施图4所描述的装置改变了传统的GDA方法的算法结构,不需要求类内散度矩阵的逆,利用基于特征谱的正则化技术保留了所有类内散度空间信息并对其正则化得到了泛化能力更好的特征,为进一步的特征提取提供了基础,解决了现有GDA方法中因类内散度矩阵奇异而导致的求逆不稳定、泛化能力差的技术问题,有利于提高图像识别的识别率,进一步的,使用核技巧(kernel trick)并结合格拉斯曼核函数(如Projection核函数等)将特征谱正则化技术推广到了格拉斯曼核空间上,解决了特征谱正则化在格拉斯曼核空间上的应用问题,还能够结合图嵌入理论算法框架实现本装置对应的整个算法框架,能够进一步保持局部邻域信息。
实施例三
请参阅图6,图6是本发明实施例公开的又一种基于特征谱正则化的格拉斯曼流形判别分析图像识别装置的结构示意图。其中,图6所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别装置可以应用于图像识别设备中,且该图像识别设备用于实现图3所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法。如图6所示,该基于特征谱正则化的格拉斯曼流形判别分析图像识别装置可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,用于执行实施例一中所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法中的步骤。
实施例四
本发明实施例公开了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一中所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法中的步骤。
实施例五
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一中所描述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法中的步骤。
最后应说明的是:上述实施例所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,其特征在于,所述方法包括:
确定从训练视频集合的每个训练视频中提取的多个图像帧,得到每个所述训练视频对应的图像集合,所述训练视频集合包括N个所述训练视频,N为大于等于1的整数;
通过预先确定出的分析方法提取每个所述图像集合的线性子空间,将所有所述图像集合的线性子空间组成格拉斯曼流形,所述格拉斯曼流形由每个所述图像集合的线性子空间中的一个标准正交基所形成的标准正交基集合组成;
将所述格拉斯曼流形映射到希尔伯特空间,得到所述格拉斯曼流形在所述希尔伯特空间的向量组;
依据图嵌入理论框架,通过局部拉普拉斯矩阵和所述向量组建立局部保持矩阵;
根据所述局部保持矩阵的特征谱构建权重框架函数,并根据所述权重框架函数对所述局部保持矩阵的特征空间执行正则化操作,得到新的样本空间;
对所述新的样本空间结合预先定义的权重邻接矩阵,对特征分解方程执行求解操作,得到降维投影矩阵;
组合在执行所述正则化操作过程中得到的变换矩阵与所述降维投影矩阵,得到特征提取投影矩阵;
根据所述特征提取投影矩阵分别提取每个所述图像集合以及待识别视频的目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征,并通过预先定义的分类器对每个所述图像集合的降维特征与所述目标图像集合的降维特征进行相似度比较,得到针对所述待识别视频的识别结果。
2.根据权利要求1所述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,其特征在于,所述根据所述局部保持矩阵的特征谱构建权重框架函数,并根据所述权重框架函数对所述局部保持矩阵的特征空间执行正则化操作,得到新的样本空间,包括:
对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的特征谱以及所述局部保持矩阵的特征空间;
根据所述特征谱建立权重框架函数,并通过所述权重框架函数对格拉斯曼核特征空间执行加权操作,得到变换矩阵;
使用所述变换矩阵对所述向量组进行投影,得到新的样本空间。
3.根据权利要求2所述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,其特征在于,所述对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的特征谱,包括:
对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值;
按照特征值由大到小的顺序对所有所述特征值执行排序操作,得到所述局部保持矩阵的特征谱。
4.根据权利要求3所述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,其特征在于,所述局部保持矩阵的计算公式为:
SΦ=ΦLlocΦT;
其中,SΦ为所述局部保持矩阵,Φ为所述格拉斯曼流形在所述希尔伯特空间的所述向量组且Φ=Φ(Y)=[φ(Y1),φ(Y2),......,φ(YN)],第i个所述图像集合的线性子空间中的一个标准正交基为Yi且D为所述图像集合中每个图像的特征维度,m为所述格拉斯曼流形的维度且等于所述标准正交基的基向量个数,ΦΤ为Φ的转置矩阵,Lloc为所述局部拉普拉斯矩阵且其表达式为:
其中,ωij是连接第i个所述图像集合和第j个所述图像集合之间的权重参数,Cc是所述训练视频集合中第c个类别的训练视频对应的图像集合,ωij等于所述训练视频集合中第c个类别的训练视频对应的图像集合个数的倒数;Xi为第i个所述训练视频对应的图像集合,Xj为第j个所述训练视频对应的图像集合。
5.根据权利要求4所述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,其特征在于,所述对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值,包括:
根据格拉斯曼核特征空间对所述局部保持矩阵执行特征分解操作,得到所述局部保持矩阵的所有特征值;
所述局部保持矩阵的所有特征值的计算公式为:
λ1=VΤΦLlocΦΤV=αΤΦΤΦLlocΦΤΦα=αΤKLlocKα,αΤα=1;
7.根据权利要求6所述的基于特征谱正则化的格拉斯曼流形判别分析图像识别方法,其特征在于,所述特征分解方程为:
其中,U为所述降维投影矩阵,G为所述权重邻接矩阵,所述权重邻接矩阵第i行第j列的值为:
所述特征提取投影矩阵的计算公式为:
其中,Nc是所述训练视频集合中第c个类别的训练视频对应的图像集合的数量,Z为所述特征提取投影矩阵,且所述目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征为:
其中,F为所述目标图像集合在经过格拉斯曼流形表达以及映射后的降维特征,Yte为所述目标图像集合的线性子空间中的一个标准正交基,φte为所述目标图像集合的线性子空间中的一个标准正交基映射到所述希尔伯特空间得到的目标特征向量,Y为所述标准正交基集合且Y={Y1,Y2,......,YN}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910943071.8A CN110781766B (zh) | 2019-09-30 | 2019-09-30 | 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910943071.8A CN110781766B (zh) | 2019-09-30 | 2019-09-30 | 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781766A true CN110781766A (zh) | 2020-02-11 |
CN110781766B CN110781766B (zh) | 2023-05-19 |
Family
ID=69385203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910943071.8A Active CN110781766B (zh) | 2019-09-30 | 2019-09-30 | 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781766B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507243A (zh) * | 2020-04-15 | 2020-08-07 | 桂林电子科技大学 | 一种基于格拉斯曼流形分析的人体行为识别方法 |
CN114025320A (zh) * | 2021-11-08 | 2022-02-08 | 易枭零部件科技(襄阳)有限公司 | 一种基于5g信号的室内定位方法 |
WO2022206092A1 (zh) * | 2021-03-29 | 2022-10-06 | 北京沃东天骏信息技术有限公司 | 基于量子核方法的图像分类方法、装置、服务器和系统 |
CN116051849A (zh) * | 2023-04-03 | 2023-05-02 | 之江实验室 | 一种脑网络数据特征提取方法及装置 |
CN116229089A (zh) * | 2023-05-10 | 2023-06-06 | 广州市易鸿智能装备有限公司 | 一种外观几何分析方法及系统 |
CN116359738A (zh) * | 2022-12-02 | 2023-06-30 | 清华大学 | 电池的健康状态监测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609580A (zh) * | 2017-08-29 | 2018-01-19 | 天津大学 | 一种直推式的低秩张量判别性分析方法 |
CN108171279A (zh) * | 2018-01-28 | 2018-06-15 | 北京工业大学 | 一种多视角视频自适应乘积Grassmann流形子空间聚类方法 |
CN109389217A (zh) * | 2017-08-04 | 2019-02-26 | 广东石油化工学院 | 基于格拉斯曼核的学习方法 |
-
2019
- 2019-09-30 CN CN201910943071.8A patent/CN110781766B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389217A (zh) * | 2017-08-04 | 2019-02-26 | 广东石油化工学院 | 基于格拉斯曼核的学习方法 |
CN107609580A (zh) * | 2017-08-29 | 2018-01-19 | 天津大学 | 一种直推式的低秩张量判别性分析方法 |
CN108171279A (zh) * | 2018-01-28 | 2018-06-15 | 北京工业大学 | 一种多视角视频自适应乘积Grassmann流形子空间聚类方法 |
Non-Patent Citations (1)
Title |
---|
LINCON SALES DE SOUZA ET AL.: "3D Object Recognition with Enhanced Grassmann Discriminant Analysis", 《ASIAN CONFERENCE ON COMPUTER VISION》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507243A (zh) * | 2020-04-15 | 2020-08-07 | 桂林电子科技大学 | 一种基于格拉斯曼流形分析的人体行为识别方法 |
CN111507243B (zh) * | 2020-04-15 | 2022-08-19 | 桂林电子科技大学 | 一种基于格拉斯曼流形分析的人体行为识别方法 |
WO2022206092A1 (zh) * | 2021-03-29 | 2022-10-06 | 北京沃东天骏信息技术有限公司 | 基于量子核方法的图像分类方法、装置、服务器和系统 |
CN114025320A (zh) * | 2021-11-08 | 2022-02-08 | 易枭零部件科技(襄阳)有限公司 | 一种基于5g信号的室内定位方法 |
CN116359738A (zh) * | 2022-12-02 | 2023-06-30 | 清华大学 | 电池的健康状态监测方法、装置、设备及存储介质 |
CN116051849A (zh) * | 2023-04-03 | 2023-05-02 | 之江实验室 | 一种脑网络数据特征提取方法及装置 |
CN116051849B (zh) * | 2023-04-03 | 2023-07-07 | 之江实验室 | 一种脑网络数据特征提取方法及装置 |
CN116229089A (zh) * | 2023-05-10 | 2023-06-06 | 广州市易鸿智能装备有限公司 | 一种外观几何分析方法及系统 |
CN116229089B (zh) * | 2023-05-10 | 2023-07-14 | 广州市易鸿智能装备有限公司 | 一种外观几何分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110781766B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781766B (zh) | 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 | |
JP6192010B2 (ja) | 重み設定装置および方法 | |
Zhou et al. | Large margin learning in set-to-set similarity comparison for person reidentification | |
Harandi et al. | Dictionary learning and sparse coding on Grassmann manifolds: An extrinsic solution | |
Huang et al. | Projection metric learning on Grassmann manifold with application to video based face recognition | |
CN109543602B (zh) | 一种基于多视角图像特征分解的行人再识别方法 | |
Li et al. | Overview of principal component analysis algorithm | |
Lee et al. | Collaborative expression representation using peak expression and intra class variation face images for practical subject-independent emotion recognition in videos | |
WO2016138838A1 (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
US9330332B2 (en) | Fast computation of kernel descriptors | |
Timotius et al. | Face recognition between two person using kernel principal component analysis and support vector machines | |
Qian et al. | Robust low-rank regularized regression for face recognition with occlusion | |
CN108021950B (zh) | 基于低秩稀疏表示的图像分类方法 | |
De la Torre et al. | Representational oriented component analysis (ROCA) for face recognition with one sample image per training class | |
Deng et al. | Nuclear norm-based matrix regression preserving embedding for face recognition | |
Wang et al. | Probabilistic nearest neighbor search for robust classification of face image sets | |
CN109886160A (zh) | 一种非限定条件下的人脸识别方法 | |
Yan et al. | A parameter-free framework for general supervised subspace learning | |
Huang et al. | Incremental kernel null foley-sammon transform for person re-identification | |
Zheng et al. | Heteroscedastic sparse representation based classification for face recognition | |
Jing et al. | Face recognition based on local uncorrelated and weighted global uncorrelated discriminant transforms | |
CN109919056B (zh) | 一种基于判别式主成分分析的人脸识别方法 | |
Yao | A compressed deep convolutional neural networks for face recognition | |
Mohan et al. | Fast face detection using boosted eigenfaces | |
Tan et al. | Eigenspectrum regularization on Grassmann discriminant analysis with image set classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |