CN107491739B

CN107491739B - 一种联合平滑矩阵多变量椭圆分布的鲁棒人脸识别方法

Info

Publication number: CN107491739B
Application number: CN201710623041.XA
Authority: CN
Inventors: 郑建炜; 邱虹; 鞠振宇; 李宏凯; 杨平; 陈婉君
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2020-04-24
Anticipated expiration: 2037-07-27
Also published as: CN107491739A

Abstract

一种联合平滑矩阵多变量椭圆分布的鲁棒人脸识别方法，以有效对光照变化、大面积遮挡、真实伪装等噪声的图像进行分类，并获得较高识别率为目的，分为以下步骤：a)随机选择图像样本进行分类，组成训练字典集，每一类有各自的样本标签，通过构建的模型对字典集进行训练；b)设置迭代次数t的值、初始化加权矩阵R＝T＝I，其中I为单位矩阵；c)迭代计算重构编码系数向量α、加权矩阵R和T的值，重复迭代直至达到收敛条件或最大迭代次数，输出最终的α值；d)通过α值得到重构误差值e，以e值最小对被测样本进行分类，得到识别结果，对被测样本进行分类。

Description

一种联合平滑矩阵多变量椭圆分布的鲁棒人脸识别方法

技术领域

本发明是一种人脸识别方法，其涉及模式识别领域，可用于人脸识别、目标识别等。

背景技术

在当今社会中，身份确认具有十分重要的价值。近年来，人类的生物特征越来越广泛地应用于个人的身份鉴认，相比于传统方法，利用人的生物特征做身份鉴别更安全、可靠、特征唯一、稳定性高，不易被盗窃和破解。对于人脸识别而言，它涉及的领域十分广泛，包括生物学、生理学、心理学、认知学、图形图像学、模式识别等领域，而且它与生物特性的识别鉴别方法有密切的联系，对于人脸识别的研究最早是源于19世纪末期发表在Nature杂志上的Calton写的文章，随着计算机的发展和模式识别的发展，人脸识别以它应用范围广的特点再次受到人们的重视，成为计算机视觉和模式识别领域的一个热门子领域。

人脸识别相比于其他的生物特征识别方法具有如下的强大优势：(1)无需用户过多参与，非接触式采集，无侵犯性；(2)对用户没有任何明显刺激，便于隐藏；(3)设备成本低廉，主要是采用摄像头来搜集人脸。因而人脸识别作为一种特殊的生物特征识别技术，拥有许多独特的应用环境，如罪犯搜捕、自动门禁系统、海关过境检查、信用卡确认等。

人脸识别已然成为模式识别和图像处理领域的研究热点，已有多种回归表示模型，如基于稀疏表示的分类器(Sparse representation-based classifier,SRC)、协作表示分类器(Collaborative representation-based classifier,CRC)、线性回归分类器(Linear regression classification，LRC)、强健的稀疏编码算法(Robust sparsecoding，RSC)等。本发明提出的方法属于回归表示的人脸识别，通过训练字典集对人脸图像进行回归表示，选取与被测图像残差值最小的一类，作为被测图像的类别。

经专利查询统计，国内外已有不少人脸识别方面的专利：例如，一种基于局部保持非负矩阵分解的增量学习人脸识别方法(201310301539.6)、基于约束的面向单个测试样本的人脸识别方法(201410359737.2)、一种人脸识别方法(201210590165.X)、基于核的判别随机近邻嵌入分析的人脸识别方法(201310125325.8)等。

发明内容

本发明要解决现有的人脸识别技术对人脸图像中一些光照变化、大面积遮挡、真实伪装等噪声的图像的分类识别率低，计算复杂度高等问题，提供一种联合平滑矩阵多变量椭圆分布的鲁棒人脸识别方法。

本发明解决技术问题采用的技术方案是：

一种联合平滑矩阵多变量椭圆分布的鲁棒人脸识别方法，包括字典集训练过程、初始值设置过程、重构编码系数的更新过程和图像分类过程：

a)字典集训练过程：随机选择图像样本进行分类，组成训练字典集，每一类有各自的样本标签，通过构建的模型对字典集进行训练；

a1 给定n个p×q维图像矩阵X₁ ¹,X₂ ¹,…,X_n1 ¹,X₁ ²,X₂ ²,…,X_n2 ²,…,X₁ ^C,X₂ ^C,…,X_nC ^C，将其作为训练样本X∈R^d×n，d＝p×q.其中，X_i ^c代表第c类的第i个样本矩阵，样本总类别数为C，n_i是第i类的样本个数，且n＝n₁+n₂+…+n_C是总样本数，测试样本表示为图像矩阵Y∈R^p ^×q；

a2 建立线性矩阵回归模型：

其中，λ>0，为模型参数。k>0，0<l≤2。当k＝1，l＝1或2时，上式右边第一项为核范数，第二项为l₁范数或l₂范数的平方，这两项均为非光滑凸函数.当0<k<1，0<l<1时，这两项为非光滑凹函数。当k>1，1<l<2时，这两项为非光滑凸函数；且上式中定义线性映射R^d→R^p ^×q，有：

其中α＝[α₁,α₂,…,α_n]∈Rⁿ是训练样本X所对应的重构编码系数，为n×1维列向量；

a3 由于模型具有非光滑性，不利于优化求解，因此通过引入辅助变量光滑模型来解决这一问题，则可将一般的平滑矩阵多变量椭圆分布模型归纳为如下优化问题：

其中，上式能处理的参数范围为μ>0，k>0，k≠2，0<l<2，I∈R^n×n是单位矩阵且1∈Rⁿ是元素值均为1的n×1维列向量。

b)初始值设置过程：设置迭代次数t＝1，初始化加权矩阵R＝T＝I，其中I为单位矩阵；

c)重构编码系数的更新过程：根据加权矩阵R和T的值对重构编码系数向量α进行迭代更新，重复迭代过程直至满足收敛条件或达到最大迭代次数，输出最终的α值；

具体来说步骤c)包括以下步骤：

c1 将步骤a3中的平滑矩阵多变量椭圆分布模型调整为

其中α_i代表向量α的第i个元素。

c2 令γ(α)＝tr((Y-Xα)^T(Y-Xα)+μ²I)^k/2，δ(α)＝∑_i＝1 ⁿ(|α_i|²+μ²)^l/2，则ξ(α,μ)＝γ(α)+λ/2*δ(α)，且

其中γ(α)针对α的梯度为：

其中令上式中γ(α)的加权矩阵R＝((Y-X(α))^T(Y-X(α))+μ²I)^(k-2)/2，则可将上式简化为：

c3δ(α)针对α的梯度为

其中令对应δ(α)的加权矩阵T为一个对称矩阵，且T_ii＝(|α_i|²+μ²)^(l-2)/2，则上式可简化为

c4通过

并令结果为0可得

则固定加权矩阵R_t、T_t，依照上式计算更新重构编码系数向量α_t+1，其中下标t+1代表迭代t+1次时的值；

c5固定α_t+1，依照下式更新加权矩阵R_t+1：

c6固定α_t+1，依照下式T_t+1：

c7若满足收敛条件(||α_t+1-α_t||_∞≤ε,ε是一个极小正标量)，或达到最大迭代次数(t_max＝50)，则输出最终的α值。否则跳转至步骤c4，重复步骤c4-c7过程。

d)图像分类过程：以最终α值所对应的最小重构误差值e对被测样本进行分类，得到分类识别结果。其中重构误差值

其中α^*代表重构编码系数的最优解，则Xα^*为Y的重构图像。δ_i(α^*)代表α^*向量中除关联第i类的元素含值外其他元素均为零，则Xδ_i(α^*)为关联第i类的Y的重构图像。而分类识别的原理是e_i(Y)＝min_ie_i(Y)，即第i类的重构误差值最小，则图像Y就归属于第i类。

本发明的技术构思：回归表示模型，如基于稀疏表示的分类器(Sparserepresentation-based classifier，SRC)、协作表示分类器(Collaborativerepresentation-based classifier，CRC)、线性回归分类器(Linear regressionclassification，LRC)、强健的稀疏编码算法(Robust sparse coding，RSC)等均属于多元分析的范畴。众所周知，多元分析是研究多个自变量与因变量相互关系的一组统计理论和方法.其应用的限制条件是，各个因素每一水平的样本必须是独立的随机样本，其重复观测的数据服从正态分布，且各总体方差相等。总体来说，上述这些算法均假设误差向量满足正态性或独立性，但这并不适用于现实场景，特别是在部分随机误差向量的分布呈现出重尾现象的情况下。对于这种情况，Kibria和Haq提出基于多元t误差的线性模型。Basu等人使用多元幂指数分布作为语音识别领域的重尾分布。Liu则假定观测的数据是相互依赖的，且将多元幂指数回归模型扩展为矩阵变量幂指数回归模型。这些研究意味着假定观测数据之间相互依赖且服从重尾分布对于描述一些实际观测具有现实意义。事实上，人脸图像中例如光照、遮挡或表情等噪声数据之间高度相关，并不完全服从于独立同分布。因此，找到一种合适的针对矩阵变量的分布来描述误差矩阵的特征至关重要。本发明旨在解决部分遮挡和受光照影响的图像的重构及分类问题。传统方法往往将图像以向量的形式进行存储分类，忽视了图像数据的内部结构信息，且它们依据最大似然估计的观点假设噪声数据服从独立同分布对误差进行处理，不适用于现实场景。本发明所提模型强调误差矩阵中各个像素间的依赖性并假定该误差矩阵作为一个随机矩阵变量服从于矩阵多变量椭圆分布。同时，假定模型中的编码重构系数服从拉普拉斯分布或高斯分布。由于通过假定所得的模型具有非光滑性，不利于问题的优化求解，本发明通过引入辅助变量光滑模型，随后采用迭代加权最小二乘法优化求解模型。

本发明的优点是：能提高对光照变化、大面积遮挡、真实伪装等噪声的图像识别的识别率。

附图说明

图1是ExYaleB库中不同图像遮挡程度下的各方法的识别率；

图2是本发明方法的流程图。

具体实施方式

下面结合附图，进一步说明本发明的技术方案。

a1 给定n个p×q维图像矩阵X₁ ¹,X₂ ¹,…,X_n1 ¹,X₁ ²,X₂ ²,…,X_n2 ²,…,X₁ ^C,X₂ ^C,…,X_nC ^C，将其作为训练样本X∈R^d×n，d＝p×q.其中，

代表第c类的第i个样本矩阵，样本总类别数为C，n_i是第i类的样本个数，且n＝n₁+n₂+…+n_C是总样本数，测试样本表示为图像矩阵Y∈R^p ^×q；

a2 建立线性矩阵回归模型：

具体来说步骤c)包括以下步骤：

c1 将步骤a3中的平滑矩阵多变量椭圆分布模型调整为

其中α_i代表向量α的第i个元素。

c2令γ(α)＝tr((Y-Xα)^T(Y-Xα)+μ²I)^k/2，δ(α)＝∑_i＝1 ⁿ(|α_i|²+μ²)^l/2，则ξ(α,μ)＝γ(α)+λ/2*δ(α)，且

其中γ(α)针对α的梯度为：

c3δ(α)针对α的梯度为

c4通过

并令结果为0可得

c5固定α_t+1，依照下式更新加权矩阵R_t+1：

c6固定α_t+1，依照下式T_t+1：

选用AR人脸数据库可视化所提算法并对比各算法的识别性能。AR人脸库包含126人(70位男性和56位女性)的4000多张彩色图像，图像通过两个不同时段拍摄获取，每个时段每人共拍摄13张包含在不同表情、光照条件和现实遮挡(墨镜和围巾)下的大小为768像素×576像素的彩色图像。与文献类似，本发明抽选其中一个子集(50位男性和50位女性)作为实验测试。选取每人每时段4张无遮挡正面人脸图像，即100人每人8张共800张图像作为训练样本。此外，构建三个测试样本：(1)选取每人每时段3张在不同光照条件下的人脸图像；(2)选取每人每时段3张在墨镜遮挡下的人脸图像；(3)选取每人每时段3张在围巾遮挡下的人脸图像.三个测试样本均包含600张图像(100人每人6张)。本发明将AR人脸库中的图像统一裁剪至83像素×60像素。对比算法选用经典的分类器SRC和CRC，抗噪性较强的RRC，能快速提取特征的FFS以及基于半二次相加框架的HQ_A和基于半二次相乘框架的HQ_M，实验中SRC、CRC、RRC、FFS、HQ_A和HQ_M的参数设置分别参考文献，且RRC算法采用识别率较高的l₁范数约束。

表1给出了所提算法和对比算法在真实影响下的识别率对比，其中加粗斜体数据值即为同等条件下的最优识别率。通过表1可以发现：除在围巾遮挡的测试实验中RRC算法共享了SMED_1/21/2的最优识别率外，其他情况下SMED都具有最优的测试值。而对于SMED来说，SMED_1/21/2在墨镜、围巾遮挡情形下的效果均优于SMED₁₁和SMED_3/23/2，在光照影响下，SMED₁₁表现更突出。值得注意的是，HQ_M在墨镜遮挡情形下效果较优却在围巾遮挡情形下效果较弱，而CRC则正处于相反的情况。总体而言，在光照影响的样本测试实验中，最优的SMED₁₁较SRC、CRC、RRC、FFS、HQ_A和HQ_M分别提升了5.33％、0.50％、7.66％、12.83％、8.00％、2.32％的识别率。在墨镜遮挡的样本测试实验中，最优的SMED_1/21/2较SRC、CRC、RRC、FFS、HQ_A和HQ_M分别提升了8.34％、7.50％、6.01％、11.67％、7.17％、1.34％的识别率。在围巾遮挡的样本测试实验中，最优的SMED_1/21/2较SRC、CRC、FFS、HQ_A和HQ_M分别提升了14.00％、6.33％、19.00％、25.33％、20.90％的识别率。

表1 AR人脸库真实影响下不同算法的识别率对比

采用ExYaleB数据库测试SMED在随机遮挡下的人脸识别应用中的算法性能。ExYaleB包含38人每人9种姿态形式、64种光照变化，总共21888张人脸图像。与文献一致，本发明抽选其中接近正面，与光照变化有关的2414张图像用于实验。每张图像大小都统一调整至32像素×32像素。任意选取其中每个人物20张图像共760张作为训练样本，其余为测试样本。对比算法选择在AR数据库中表现不错的CRC、RRC和HQ_M，此外，添加抗噪性较强的CESR算法。CRC、RRC和HQ_M的实验参数与上节一致，CESR的参数设置参考文献。

实验中，将测试样本做四种不同类型图像的随机遮挡处理：(1)不同尺寸大小方形白色图像随机遮挡；(2)不同尺寸大小方形黑色图像随机遮挡；(3)不同尺寸大小方形baboon图像随机遮挡；(4)不同尺寸大小非方形鲜花图像随机遮挡。遮挡图像的尺寸决定了测试样本图像被遮挡的程度。本节首先对四种经过遮挡处理的测试样本进行分类识别测验，然后通过图1比较不同遮挡程度下所提算法与对比算法的识别率，其中各子图上方显示的即为0％到60％遮挡程度下的测试样本图像。

由图1可知，方形白色图像遮挡对各算法识别率的影响较大，而非方形鲜花图像影响较小。此外，方形黑色及baboon图像对各算法识别率影响的程度相似。其中，SMED₁₂₁₂代表SMED_1/21/2算法，SMED₃₂₃₂代表SMED_3/23/2算法。具体来说，图1(a)中SMED₁₁表现最佳，虽然在20％遮挡程度时RRC的识别率高于SMED₁₁，但当遮挡程度大于30％，其识别性能均优于RRC，特别在60％遮挡程度时，SMED₁₁较RRC的识别率提升了4.3％。SMED_1/21/2和SMED_3/23/2虽然没有SMED₁₁表现突出，但当遮挡大于50％时，它们与RRC的识别率结果不分伯仲。此外，当遮挡低于20％时，HQ_M表现不错，识别率高于SMED_1/21/2和SMED_3/23/2，但随着遮挡程度的增加其优势不复存在；同样地，遮挡低于30％时，CESR的识别率随遮挡程度的增加递减平稳，基本保持在85～90％，此后其识别率急剧下降，特别当遮挡为60％时，识别率低至6.89％；而对于CRC，随着遮挡程度的增加识别率就开始快速递减，60％遮挡时，识别率为21.58％，高于CESR。综合图1(a)可得对方形白色图像遮挡表现最佳的SMED₁₁算法在60％遮挡程度下比CRC、RRC、CESR和HQ_M分别提升了22.56％、4.3％、37.25％、16.81％的识别率。对于方形黑色图像遮挡，图1(b)显示了各算法的识别率对比，可以看出各算法对方形黑色遮挡的处理性能优于方形白色遮挡。特别地，HQ_M表现突出，非常接近SMED₁₁的识别结果，其在10％～30％遮挡时，识别率略优于SMED₁₁，40％～50％时，两者识别率基本一致，到60％时，SMED₁₁显现出高于HQ_M的识别性能。对于SMED_1/21/2和SMED_3/23/2，虽然它们在低遮挡程度下表现并不突出，但随着遮挡程度的增加，逐渐体现出抗遮挡的能力，尤其在60％遮挡时，识别结果高于表现不错的SMED₁₁。此外，RRC并不像在图1(a)中表现的那么出色，反而与CRC、CESR的识别效果类似，表现平平。总体而言，对于方形黑色图像遮挡，在60％遮挡程度下，识别率最高的SMED_1/21/2比CRC、RRC、CESR和HQ_M分别提升了19.52％、12.92％、14.56％、10.22％的识别率。此外，对于方形baboon图像及非方形鲜花图像遮挡，图1(c)和图1(d)显示SMED₁₁、SMED_1/21/2和SMED_3/23/2均表现突出。60％遮挡下，在图1(c)中识别性能最优的SMED_1/21/2比CRC、RRC、CESR和HQ_M分别提升了33.12％、17.95％、28.02％、11.94％的识别率。图1(d)中表现最佳的SMED₁₁比CRC、RRC、CESR和HQ_M分别提升了8.76％、0.15％、10.44％、0.79％的识别率。

Claims

1.一种联合平滑矩阵多变量椭圆分布的鲁棒人脸识别方法，包括字典集训练过程、初始值设置过程、重构编码系数的更新过程和图像分类过程：

a1.给定n个p×q维图像矩阵X₁ ¹,X₂ ¹,…,X_n1 ¹,X₁ ²,X₂ ²,…,X_n2 ²,…,X₁ ^C,X₂ ^C,…,X_nC ^C，将其作为训练样本X∈R^d×n，d＝p×q.其中，X_i ^c代表第c类的第i个样本矩阵，样本总类别数为C，n_i是第i类的样本个数，且n＝n₁+n₂+…+n_C是总样本数，测试样本表示为图像矩阵Y∈R^p×q；

a2.建立线性矩阵回归模型：

其中，λ>0，为模型参数；k>0，0<l≤2；当0<k<1，0<l<1时，这两项为非光滑凹函数；当k≥1，1≤l≤2时，这两项为非光滑凸函数；且上式中定义线性映射R^d→R^p×q，有：

a3.由于模型具有非光滑性，不利于优化求解，因此通过引入辅助变量光滑模型来解决这一问题，则可将平滑矩阵多变量椭圆分布模型归纳为如下优化问题：

其中，上式能处理的参数范围为μ>0，k>0，k≠2，0<l<2，I∈R^n×n是单位矩阵且1∈Rⁿ是元素值均为1的n×1维列向量；

具体包括以下步骤：

c1.将步骤a3中的平滑矩阵多变量椭圆分布模型调整为

其中α_i代表向量α的第i个元素；

c2.令γ(α)＝tr((Y-Xα)^T(Y-Xα)+μ²I)^k/2，δ(α)＝∑_i＝1 ⁿ(|α_i|²+μ²)^l/2，则ξ(α,μ)＝γ(α)+λ/2*δ(α)，且

其中γ(α)针对α的梯度为：

c3.δ(α)针对α的梯度为

其中令对应δ(α)的加权矩阵T为一个对称矩阵，且T的第i个对角元素为T_ii＝(|α_i|²+μ²)^(l-2)/2，则上式可简化为

c4.通过

并令结果为0可得

c5.固定α_t+1，依照下式更新加权矩阵R_t+1：

c6.固定α_t+1，依照下式T_t+1：

c7.若满足收敛条件，即||α_t+1-α_t||_∞≤ε,ε是一个极小正标量，或达到最大迭代次数t_max＝50，则输出最终的α值；否则跳转至步骤c4，重复步骤c4-c7过程；

d)图像分类过程：以最终α值所对应的最小重构误差值e对被测样本进行分类，得到分类识别结果；其中重构误差值

其中

是由所有训练样本重构得到的图像，

是由第i类训练样本重构得到的图像，α^*代表重构编码系数的最优解，则Xα^*为Y的重构图像；δ_i(α^*)代表α^*向量中除关联第i类的元素含值外其他元素均为零，则Xδ_i(α^*)为关联第i类的Y的重构图像；而分类识别的原理是e_i(Y)＝min_ie_i(Y)，即第i类的重构误差值最小，则图像Y就归属于第i类。