CN111723759A

CN111723759A - 基于加权张量稀疏图映射的非约束人脸识别方法

Info

Publication number: CN111723759A
Application number: CN202010599329.XA
Authority: CN
Inventors: 童莹; 陈瑞; 曹雪虹; 芮雄丽; 齐宇霄
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-09-29
Anticipated expiration: 2040-06-28
Also published as: CN111723759B

Abstract

基于加权张量稀疏图映射的非约束人脸识别方法，涉及人脸识别方法的技术领域。在稀疏图构建阶段，将训练样本(图像)用二阶张量表示，构建监督超完备张量字典，优化求解样本的同类稀疏重构系数；自适应构建更准确的张量稀疏近邻图。在双边低维投影阶段，利用样本全局分布中隐含的鉴别信息获取的低维张量子空间分布。采用最优WTSGE双边投影矩阵U和V对待测样本y进行低维映射y_WTSGE＝U^TyV，用低维训练样本D_WTSGE＝U^TXV训练分类器，实现非约束人脸的准确身份鉴别。本发明充分考虑非约束人脸图像数据的复杂性，用稀疏表示技术自适应获取高维张量数据的近邻分布图，有效提取出高度扭曲的非约束人脸数据的低维流形本质结构，大大提高了非约束人脸识别的准确性。

Description

基于加权张量稀疏图映射的非约束人脸识别方法

技术领域

本发明涉及人脸识别方法的技术领域，尤其涉及基于加权张量稀疏图映射的非约束人脸识别方法的技术领域。

背景技术

随着移动互联网、电子传感技术、机器学习理论的飞速发展，实时采集人脸图像进行身份认证、视频监控和人机交互已成为人工智能在实际工作生活中的一个重要应用。由于真实环境中采集的人脸数据受光照、姿态、表情、遮挡、年龄、分辨率等多种因素混合干扰，导致人脸图像呈现多样性，在高维空间中呈现出高度复杂的非线性分布。因此，如何对高维海量的非约束人脸数据进行有效降维显得尤为重要。一方面，可减少数据维度，节约存储空间，提高系统的运行效率；另一方面，又可获取数据的准确判别特征，增强系统的判别能力。

以主成分分析(Principle Components Analysis，PCA)、线性鉴别分析(LinearDiscriminant Analysis，LDA)、边界Fisher分析(Marginal Fisher Analysis，MFA) 等为代表的经典降维方法，由于其数学描述性强、计算代价小等特点，一直受到学者们的广泛关注。但该类方法受全局线性可分条件的限制，不能有效处理高维空间中高度复杂分布的非线性数据。因此，广大学者提出采用基于核函数的方法和流形学习的方法进行数据非线性降维。核函数方法的本质是采用核函数映射原始数据到高维空间后再进行线性划分，这类方法中起关键作用的核函数的选择机制和意义并不明确，限制了其在数据降维中的发展。因此，以等距映射(Isometric Mapping，ISOMAP)、局部线性嵌入(Locally LinearEmbedding，LLE)、拉普拉斯特征映射(Laplacian Eigenmaps，LE)等为代表的非线性流形学习方法更受青睐。这类方法符合人眼视觉感知机制，可以有效挖掘出隐藏在错综复杂的高维数据中的低维流形本质结构。He等又针对LE和LLE的隐式映射问题进行改进，在不改变原有目标函数的基础上增加线性约束条件，提出具有显式映射函数的局部保持投影(Locality Preserving Projections,LPP)算法和近邻保持嵌入 (NeighborhoodPreserving Embedding，NPE)算法，有效克服了样本外扩展问题 (Out-of-SampleExtension Problem)，使得流形学习在高维、海量、复杂数据中的降维应用成为可能。大量有效的改进算法也被陆续提出，例如，指数判别局部保持投影 (ExponentialDiscriminant Locality Preserving Projection,EDLPP)、快速正交局部保持投影(Fastand Orthogonal LPP,FOLPP)、监督近邻保持嵌入(Supervised NPE, SNPE)、UDP等等。

分析发现，上述以PCA、LDA为代表的线性降维方法，以及以LPP、NPE为代表的非线性降维方法，它们的基本思想均是在最大程度保留高维数据内在本质结构的基础上，实现数据在向量空间的低维表示。虽然在消除数据冗余，提取判别特征方面取得了长足进步，但仍存在以下三个方面问题：

(1)在降维过程中，将本质上非向量表示数据(如图像、视频等)强制转换为一维向量表示，会破坏数据本身的内部空间结构，不利于获取数据的低维本质特征。

(2)将图像、视频等多维非向量数据转换为一维向量表示后，会形成高维向量空间。在求解该空间低维投影矩阵时，需计算高维矩阵特征值，导致算法计算复杂度增加，产生维数灾难问题。

(3)高维向量空间的样本数常常小于空间维数，求解低维投影矩阵时会出现奇异值问题。为解决这一问题，通常先用PCA方法降低向量空间维度，这在一定程度上又会丢失数据的某些有用判别信息。

发明内容

本发明目的是提供一种基于非约束人脸识别的加权张量稀疏图映射方法，充分考虑非约束人脸图像数据的复杂性，用稀疏表示技术自适应获取高维张量数据的近邻分布图，使稀疏近邻图更能准备描述真实数据的空间分布，可以有效提取出高度扭曲的非约束人脸数据的低维流形本质特征，大大提高了非约束人脸识别的准确性。

一种基于加权张量稀疏图映射(Weighted Tensor Sparse Graph Embedding,WTSGE) 的非约束人脸识别方法，首先，在稀疏图构建阶段，将训练样本(图像)用二阶张量表示，引入类别标签，构建监督超完备张量字典，优化求解样本的同类稀疏重构系数；并且，在此基础上，增加类内紧凑约束，用以增强同类非近邻样本间的重构(近邻)关系，并以距离权值进一步表征同类样本间的类内差异，自适应构建更准确的张量稀疏近邻图。其次，在双边低维投影阶段，又增加了全局约束因子，利用样本全局分布中隐含的鉴别信息使获取的低维张量子空间分布更判别、更紧致。最后，采用最优WTSGE双边投影矩阵U和V对待测样本y进行低维映射y_WTSGE＝U^TyV，用低维训练样本D_WTSGE＝U^TXV训练分类器，在低维张量子空间中实现非约束人脸的准确身份鉴别。

本发明采用上述技术方案，与现有技术相比具有如下优点：

(1)将数据用张量表示，克服了基于向量表示降维的维数灾难和小样本问题，并且也能保留数据的内部结构信息，使高维空间中样本更接近真实分布，更有利于获取准确的低维投影矩阵；

(2)用稀疏表示技术自适应获取高维张量数据的近邻分布图，克服了基于张量表示多维投影技术中预先定义近邻图的弊端；

(3)在WTSGE稀疏近邻图构建阶段，一方面，增加类内紧凑约束，用以增强同类非近邻块样本间的重构(近邻)关系，另一方面，又增加距离权值约束，用以进一步表征同类样本间的类内差异，使稀疏近邻图更能准备描述真实数据的空间分布。

(4)在WTSGE双边低维投影阶段，增加全局约束因子，利用样本全局分布中隐含的鉴别信息，进一步降低异类伪近邻块样本对投影矩阵的影响，使双边低维投影矩阵更准确。

(5)通过稀疏近邻图构建和双边低维投影的改进，WTSGE算法可以有效提取出高度扭曲的非约束人脸数据的低维流形本质特征，大大提高了非约束人脸识别的准确性。

附图说明

图1是本发明的流程示意图。

图2是分别采用线性函数、指数函数、logi st ic函数的曲线分布图。

图3是本发明LFW数据库中某一样本子集。

图4(a)是无类内紧凑度约束、无距离权值约束的样本重构权值示意图。

图4(b)是有类内紧凑度约束、无距离权值约束的样本重构权值示意图。

图4(c)是有类内紧凑度约束、有距离权值约束的样本重构权值示意图。

图5(a)是AR数据库部分样本图像。

图5(b)是Extended Yale B数据库部分样本图像。

图5(c)是LFW数据库部分样本图像。

图5(d)是PubFig数据库部分样本图像。

具体实施方式

本发明提出一种新的加权张量稀疏图映射(Weighted Tensor Sparse GraphEmbedding,WTSGE)算法，将稀疏表示、张量表示和多维投影技术相结合，实现流程如图1所示。首先，在稀疏图构建阶段，将训练样本(图像)用二阶张量表示，引入类别标签，构建监督超完备张量字典，优化求解样本的同类稀疏重构系数；并且，在此基础上，增加类内紧凑约束，用以增强同类非近邻样本间的重构(近邻)关系，并以距离权值进一步表征同类样本间的类内差异，自适应构建更准确的张量稀疏近邻图。其次，在双边低维投影阶段，又增加了全局约束因子，利用样本全局分布中隐含的鉴别信息使获取的低维张量子空间分布更判别、更紧致。最后，采用最优WTSGE双边投影矩阵U和V对待测样本y进行低维映射y_WTSGE＝U^TyV，用低维训练样本D_WTSGE＝U^TXV训练分类器，在低维张量子空间中实现非约束人脸的准确身份鉴别。

2.1 WTSGE稀疏图构建

给定二阶张量数据集

其中，

表示第k类样本子集的第i个样本。数据集共有C个类别，由N个人脸图像组成，n_k表示第k类子集的样本数，得到

引入类别标签和类内紧凑度约束，优化求解待测张量样本

的类内稀疏重构系数

目标函数如下：

上式中，第一部分

为类内样本重构误差项。定义类内超完备张量字典

表示除样本

外的剩余同类样本子集，最小化

旨在用同类样本尽可能近似逼近待测样本

第二部分

为类内重构系数紧致项。定义Φ_k为类内紧凑度约束因子，记为与

同类的所有样本的类内稀疏重构系数的平均值，最小化

可以使同类样本的稀疏重构系数接近中心值，增强待测样本与同类非近邻样本的重构关系。

第三部分

是具有距离权值约束的稀疏重构系数正则项。定义距离权值向量

由待测样本

与同类其它样本

间的距离权值

组成。当待测样本与同类其它样本差异度越大时，距离权值

越大，则稀疏约束正则项

得到的重构系数

越小，以此构建的稀疏近邻图能够更准确表征

与同类其它样本间的类内差异。

这里，定义三种距离权值公式：

式(2)为线性函数，式(3)为指数函数，式(4)为logistic函数，它们的函数曲线如图2 所示。从图中可以看出，线性函数和指数函数的权值随样本间欧式距离的增大而增大，权值分布无上界，这易导致算法稳定性差，而logistic函数的权值在[0,1]之间分布，物理意义明显，算法稳定性好。因此，本发明采用式(4)计算样本距离权值。

依据式(1)分别计算C个样本子集

中同类样本的类内稀疏重构系数

构建样本子集X^k的类内重构关系矩阵

由此得到样本集X＝[X¹,X²,...,X^C]的近邻权值矩阵W∈R^N×N，以及WTSGE的稀疏近邻图G＝{X,W}。

W＝diag(Θ¹,Θ²,...,Θ^C) (5)

以LFW数据库为例，依据式(1)计算某一待测张量样本的类内稀疏重构系数，分别考虑以下三种情况，分析它们的数值分布，由此进一步说明WTSGE稀疏近邻图的优越性。

(a)无类内紧凑度约束和无距离权值约束；

(b)有类内紧凑度约束和无距离权值约束；

(c)有类内紧凑度约束和有距离权值约束；

图3中第1张图像为待测样本，其余9张图像构建类内超完备张量字典，借助CVX 工具箱优化求解式(11)，得到上述三种情况下的类内稀疏重构系数，如图4所示。从图中可以看出，在不考虑类内紧凑度约束和距离权值约束情况下，样本的重构权值变化较大，且会出现负值的情况，不具有物理意义，如图4(a)所示；当增加类内紧凑度约束后，样本的重构权值分布较平稳，体现了同类样本间的相似性，如图4(b)所示；然而，考虑真实环境下采集的非约束人脸图像受光照、遮挡、姿态、表情等多种因素混合干扰，即使同类样本间也会存在差异，如图3所示，因此，在增加类内紧凑度约束的条件下，又增加距离权值约束，可以进一步表征同类样本间的差异性，如图4(c)所示。

2.2 WTSGE低维投影

自适应构建WTSGE的稀疏近邻图后，对高维张量数据进行低维投影，目标函数定义如下：

这里，通过对原始高维张量数据

进行双边投影

(

和

)，得到低维张量数据

约束其仍保持高维张量数据的局部稀疏近邻关系w_ij∈W，并在低维张量子空间中重构误差

最小。

同时，为了进一步利用样本全局分布中隐含的鉴别信息，式(6)中又引入全局类内、类间约束因子，使低维张量子空间分布更利于非约束人脸识别。这里，定义

为全局类内约束因子，表示低维张量子空间中第k类样本的平均矩阵，约束

最小，可以使得低维子空间中各类样本子集类内紧凑。同理，定义B^L为全局类间约束因子，表示低维张量子空间中所有样本的均值矩阵，约束

最大，可以使低维张量子空间中各类样本子集类间离散。

由于式(6)中

又等价于

因此，可将式(6) 转换为如下形式：

对式(7)进行化简，推导过程如下：

式(8)中，

其中，

表示原始高维样本X_i的重构值；

为原始高维张量数据空间中，第k类样本的平均值；B^H则为原始高维张量数据空间中，所有样本的平均值。由此得到WTSGE的目标函数如下：

同理，因为矩阵的Frobenius范数

所以式(7)又可以变换为式(14)的形式。

在式(14)中，

由此得到WTSGE的目标函数如下：

为了避免退化解，文中增加约束条件tr(U^TN_VU)＝1和tr(V^TN_UV)＝1，式(13)和式(19) 的最小化问题则被转换为最大化问题：

根据拉格朗日乘子法，式(20)和式(21)又可转换为求解广义特征值问题：

由式(22)和式(23)可知，投影矩阵U和V的优化求解是彼此相互依赖的，因此，需先初始化矩阵V，带入方程(22)，优化求解得到矩阵U；再将得到的矩阵U带入方程(23)，优化求解得到矩阵V；通过不断迭代更新，得到最优双边投影矩阵U_opt和V_opt。

本发明分别在AR、Extended Yale B、LFW和Pubfig四个数据库上进行实验仿真。

四个人脸数据库的介绍如下：

AR数据库(Aleix Martinez and Robert Benavente database)是在严格控制外界环境条件下采集的具有不同的面部表情、照明条件和遮挡(包括太阳镜和围巾)的人脸正视图。有120类人(65男55女)同时参加了间隔14天的两次采集拍摄，共1680张人脸图像。在两阶段中，每类人有13张图像，包括7张表情和光照有变化的无遮挡图像，以及6张有遮挡图像(3张太阳镜遮挡和3张围巾遮挡)。部分样本如图5(a)所示，图像大小为50×40pixels。

Extended Yale B数据库，包含38类人的2414张脸部正视图像。在实验室控制的照明条件下，每类人大约拍摄64张照片。部分样本如图5(b)所示，图像大小为32×32pixels。

LFW(Labeled Faces in the Wild database)数据库是从Internet上采集的真实人脸数据库，共有13233张5749类人脸图像，包含了光照、表情、姿态、遮挡、年龄、种族等多种混合干扰，对于准确人脸识别更具有挑战性。本发明从中选取包含10张以上图像的人进行辨识，得到158类人，供4324张图像。部分样本如图5(c)所示，图像尺寸为32×32pixels。

PubFig(Public Figures Face Database)数据库与LFW数据库类似，包括从互联网上采集到的200类知名人物的58797张图像。数据库中的人脸都是真实环境下拍摄的，包含部分遮挡(眼镜、帽子等饰物)、极端光照、较大的姿势变换(>45°)、不同种族、年龄等干扰因素。本发明从PubFig数据库中随机选取100类人，每类人20张图像进行实验仿真。部分样本如图5(d)所示，图像尺寸为64×64pixels。

1、本发明与经典降维算法的性能比较

为了验证WTSGE算法的有效性，本发明在上述四个人脸数据库上进行实验，与LDA、NPE、SPP、DSNPE、TSA等经典降维算法进行性能比较。在AR人脸库中，分别取每类人4、 6、8和12张人脸图像作为训练样本，剩余图像作为测试样本；在ExtendedYaleB人脸库中，分别取每类人中10、15、20和25张人脸图像作为训练样本，剩余图像作为测试样本；在LFW库中，分别取每类人中3张和5张人脸图像作为训练样本，剩余图像作为测试样本；在Pubfig库中，分别取每类人中5和10张人脸图像作为训练样本，剩余图像作为测试样本。采用SRC分类器进行识别，实验结果如表1～表4。

表1 AR数据库中不同训练样本下的识别率(％)

表2 Extended Yale B数据库中不同训练样本下的识别率(％)

表3 LFW数据库中不同训练样本下的识别率(％)

表4 PubFig数据库中不同训练样本下的识别率(％)

从上述表中可以看出，在四个人脸数据库上，本发明所提WTSGE算法的识别结果均高于LDA、NPE、SPP、DSNPE、TSA等经典降维算法。在AR人脸库中，当训练样本为12 时，WTSGE识别率为98.57％，较LDA、NPE、SPP、DSNPE和TSA分别提升了3.33％、2.56％、 0.71％、0.53％和0.30％；在Extended Yale B中，当训练样本为25时，WTSGE识别率达到98.84％，较LDA、NPE、SPP、DSNPE和TSA分别提升了4.51％、1.78％、5.40％、3.42％和0.60％。同理，在LFW和PubFig两个真实人脸数据库上，WTSGE的性能仍优于其他算法，尤其是小样本情况下，在LFW数据库中，任意取3张图像为训练样本，在PubFig数据库中，任意取5张图像为训练样本时，WTSGE识别率分别为52.11％和31.36％，比基于张量表示的TSA算法提升了4.01和1.83％，比基于向量表示的SPP、DSNPE等算法则提升更多。由此可见，分别经受控环境下采集的实验人脸数据库(如AR库和Extended Yale B 库)和非控环境下采集的真实人脸数据库(如LFW库和PubFig库)验证，本发明提出WTSGE 算法均可以有效提取这些高度扭曲的人脸数据的低维流形本质结构，大大提高了人脸识别准确性，尤其在LFW和PubFig这两个具有挑战性的非约束人脸库上，WTSGE算法在小样本情况下，性能表现更突出。

2、本发明在不同分类器上识别性能分析

为分析本发明提出的WTSGE算法采用不同分类器的识别效果，在AR、ExtendedYaleB、 LFW和PubFig四个人脸库中分别取每类人12张、25张、5张和10张人脸图像作为训练样本，剩余图像作为测试样本进行实验仿真。实验结果如表5～7所示，这里分别在1NN、SVM和 SRC三种分类器上进行人脸识别。

表5 AR库中不同分类器的识别率(％)

表6 Extended Yale B库中不同分类器的识别率(％)

表7 LFW库中不同分类器的识别率(％)

表8 PubFig库中不同分类器的识别率(％)

从表中可以看出，除了在Extended Yale B和PubFig数据库上，采用1NN分类器时，WTSGE算法的识别率略低于TSA，其余情况下，本发明提出的WTSGE算法均具有最佳识别性能。由此可见，本发明相比其他经典算法具有更好的分类器普适性和稳定性。

3、本发明的先进性分析

本发明与2018年权威期刊IEEE Transactions on Circuits and Systems forVideo Technology上提出的鲁棒稀疏线性判别分析(Robust Sparse LinearDiscriminant Analysis，RSLDA)算法进行性能比较。在AR数据库上，随机选取每类人的12张图像作为训练样本，剩下图像作为测试样本，在Extended Yale B上，随机选取每类人的25张图像作为训练样本，剩下图像作为测试样本，实验结果如表9所示

表9本发明和RSLDA算法结果比较

从实验结果可知，相比RSLDA算法，本发明提出的WTSGE算法在AR数据库和ExtendYale B数据库上均有提高，进一步说明了本发明的先进性。