CN109800719B

CN109800719B - 基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法

Info

Publication number: CN109800719B
Application number: CN201910062329.3A
Authority: CN
Inventors: 肖琼琳; 杨若瑜; 李俊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-08-18
Anticipated expiration: 2039-01-23
Also published as: CN109800719A

Abstract

本发明公开了基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法，属于信号处理、模式识别、机器学习、计算机视觉领域。本发明构造字典时挑选视频中能稀疏表示所有视频帧的图像作为代表帧，然后使用这些代表帧与其镜像的HOG特征构造部件字典。测试时，用字典线性表示测试视频的每一帧，并增加反馈机制更正异常的识别结果，最后投票获得视频分类的结果。发明将稀疏表示应用到视频人脸识别中，保持了稀疏表示对遮挡和噪声的鲁棒性，并加入其它步骤提高它在较大规模的低分辨率视频人脸识别中的效果和效率，弥补它在光照变化等条件下的不足。

Description

基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法

技术领域

本发明属于信号处理、模式识别、机器学习、计算机视觉领域，尤其涉及基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法。

背景技术

20世纪后期开始，硬件的发展迅速，数字图像成为当代社会的重要信息携带品。随着计算机视觉技术的不断发展，越来越多的技术成为了实际应用的产品。人脸识别是基于人的面部特征信息进行身份识别的一种生物识别技术，它具有非侵扰性，便捷性，非接触性等优点。人脸识别技术发展非常迅速，特别是深度神经网络的问世让机器人脸识别近似于甚至超过人眼的识别能力。但虽然在正常的环境中，如光照良好，人的姿势不变情况下人脸识别技术表现优异，在光照差、人体姿势偏转幅度大、遮挡等情况下，人脸识别技术还期待提高。

与图像相比，视频含有时序、动作等更多的信息，有助于提高人脸识别准确率，从而越来越受到关注。但是视频设备虽然变得普及，视频的获取也越来越容易，视频的分辨率却不如图像的分辨率高。尤其是监控视频中的人脸识别是一个很重要的应用场景，而它的分辨率又比一般的视频更低，光照、姿态等也更差。因此，视频人脸识别不止面临着和图像人脸识别同样的问题，还带有低分辨率的问题。

现有的视频人脸识别方法通常分为两种，一种方法对整段视频进行建模，然后通过度量两个模型之间的距离进行人脸识别。比如讲提取一段视频的统计属性，或者将视频建模为几个高斯分布的集合，又或者求视频的凸包，这种方法往往计算复杂，训练耗时，且对短视频的识别效果较差。另一种方法对每一帧图像进行识别，然后融合所有帧的识别结果。这种方法在长视频识别中效率较低但在短视频的人脸识别中具有优势，同时它能与最先进的图像人脸识别方法结合从而提高准确率，且在需要输出单帧的中间结果的场景下不可被替代。稀疏表示、协同表示方法都是单帧图像识别中表现优异的方法，结合到视频识别中也取得了不错的结果。

但容易发现稀疏表示的字典大小影响识别速度，字典内容影响识别准确性。所以近年来，人们常通过改进字典来提高稀疏表示方法的效果。为了让字典变得紧凑，可以使用两种方法。一种方法使用优化方法从全部的训练图像中构建一个字典，这一类方法每次加入新的训练样本都需要重新进行训练，使训练集更新困难。另一种让字典变得紧凑的方法是从原始的训练图像集中挑选能代表整个几集合的子集。相比字典学习方法，这一类方法仍然使用一张图像代表一个原子，当新的训练图像出现时可以直接插入到字典中，免去重新训练的繁琐步骤。针对图像中的识别难点，也有不同的使用稀疏表示方法的解决方案被提出。比如对不同姿势的测试集使用不同姿势的字典，提高了计算效率，但受限于姿势判断方法。

发明内容

针对现有技术的不足，本发明提供了基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法，包含以下步骤：

步骤1，用样本库为稀疏表示构造字典；

步骤2，基于字典进行人脸识别，得到分类结果。

步骤1包括：

步骤1-1，将人的任意段视频加入样本库；

步骤1-2，将样本库的视频按照每秒f(一般为30)帧的帧率拆分成图像，再使用seetaface算法检测所有图像的人脸位置，将人脸位置的图像截取出来，调整为统一的32*40像素大小，最后进行灰度化和Gamma校正(伽马校正)图像处理，seetaface算法具有检测速度快，人脸定位准确的优点，Gamma校正能调整图像质量，增强光照鲁棒性。

步骤1-3，若样本库中的人的数量大于n₁(一般为100)，则将样本库按照视频加入顺序均分为不超过n₁的小组，若人数少于n₁则不需要分组，每一个分组经过关键帧挑选形成分组小样本库G。因为稀疏表示方法的效率和结果受字典大小影响，若字典中的类别超过n₁，求解一次稀疏系数的时间将过长。

步骤1-4，将小样本库G中的图像进行镜像处理，即将图像水平翻转然后获得其镜像图像，然后将镜像图像也加入小样本库G中，直接提取小样本库G中所有图像的HOG特征(方向梯度直方图，Histogram of Oriented Gradient，HOG)，形成分组整体字典D′，然后小样本库G中的图像分为上下左右四个部件，每一个部件的横纵分别占图像横纵的2/3，计算每一个部件的HOG特征，将同位置部件的特征向量直接拼接起来，使用PCA算法(主成分分析，Principal Components Analysis，PCA)降维至120维，形成4个部件字典分别为sDic1，sDic2，sDic3，sDic4，每个分组拥有4个部件字典和一个整体字典。考虑到实际环境中有很多摄像机拍摄的图像自动进行了镜像，所以在样本库中加入镜像图像能解决这一问题。分部件是为了当某个部件出现遮挡时，将该部件的权重置为0，使之不参与帧的分类决策。

步骤1-2中，所述灰度化采用如下公式：

Gray＝0.299*R+0.587*G+0.114*B

其中Gray表示图像的灰度值，R表示红色通道像素值，G代表绿色通道像素值，B代表蓝色通道像素值。

图像灰度化后，进行Gamma校正，取Gamma系数为2.2。Gamma校正能帮助处理光照变化下的人脸识别。

步骤1-3包括：

步骤1-3a，从经过步骤1-1和1-2处理后的视频中随机选择n₂(一般取值为1～10)帧作为初始的帧，这些帧直接加入到小样本库G中，提取这些帧的HOG特征，每一帧的HOG特征是一个向量，将这些向量直接拼接，形成稀疏表示方法中的字典D₁。HOG特征具有很好的几何和光学转化不变性，对表情变化具有优势。

步骤1-3b，使用PCA主成分分析算法，将字典D₁中的每一个向量压缩成为120维的向量，形成一个压缩后的字典D₂；降维能大幅度减少稀疏表示求解的时间，提高识别的效率。

步骤1-3c，遍历未被选择的帧，使用稀疏表示分类方法处理每一帧图像，计算出步骤1-3b得到的字典D₂中的单独的每一类图像重建测试图像的重建误差，若重建误差大则把图像加入到小样本库G中，并提取图像的HOG特征插入到字典D₂，循环执行本步骤，直到所有帧都被处理。

步骤1-3c中的稀疏表示方法具体包括如下步骤：

步骤al，设定样本库中的视频的所有帧的集合为X，执行步骤1-2，1-3a，1-3b后得到一个压缩过的字典D₂；

步骤a2，遍历步骤1-3a未处理过的帧，将帧集合记为Y1，其中Y1＝[y₁，y₂，...，y_M]，M表示未处理过的帧的数量，y_m表示第m个未处理过的帧，m取值为1～M，Y1集合中的每一帧y_m满足关系：

y_m＝D₂·W+E，

其中，W为使用字典D₂线性表示帧y_m时的稀疏系数，E为残差项，约束W使表示y_rn的系数尽量稀疏，则问题写为：

min_W||W||₁ s.t.||y_m-D₂·W||₂≤ε

其中ε(一般取值为0.001)是预先定义的较小的常量，表示重建图像与真实图像之间的误差应小于这个常量；

步骤a3，使用dual-ALM(dual-Augmented Lagrangian Methods对偶问题的增广拉格朗日乘子法)算法求出W，用W_i表示W对应D₂中第i个类别的系数值，然后计算每一帧图像对每一个类别的重建误差，第m个未处理过的帧y_m对第i个类别的重建误差Res的计算公式为：

记r为第m个未处理过的帧y_m对应所有类别里最小的重建误差，即：

若r＞0.8，则将这一帧图像加入到小样本库G中，并将这一帧图像的HOG特征插入到字典D₂；

步骤a4，循环执行步骤a2和步骤a3，直到所有的帧被处理完。

步骤2包括：

步骤2-1，输入一段测试视频，使用步骤1-2中相同的方式对其进行预处理，即将测试视频按照每秒f(一般为30)帧的帧率拆分成图像，再使用seetaface算法检测所有图像的人脸位置，将人脸位置的图像截取出来，调整为统一的32*40像素大小，最后进行灰度化和Gamma校正图像处理，这一步的目的是将人脸对齐，并调节图像质量以应对不同光照环境下的人脸识别。

步骤2-2，分别提取每一个人的所有图像的整张人脸的整体HOG特征，再按照步骤1-4中的分部件方法，将所有图像分为4个部件并提取4个部件的HOG特征，整张人脸的特征和部件特征都使用PCA算法降维到120维，以列向量的形式存储；

步骤2-3，随机从测试帧中挑选n₃(一般为3～10)帧图像，根据步骤2-2计算这些帧的整体HOG特征，然后与步骤1-3构造的所有的分组整体字典D′进行稀疏表示分类，计算重建误差，选择重建误差小于阈值t(一般取值为0.85)的所有分类，将步骤1-4得到的四个部件字典sDicl，sDic2，sDic3，sDic4中这些分类对应的部分直接拼接成为四个新的部件字典，记为sDic5，sDic6，sDic7，sDic8；

步骤2-4，让测试视频的每一帧的4个部件与对应的部件字典sDic5，sDic6，sDic7，sDic8进行稀疏表示分类，统计每一帧的分类结果；

步骤2-5，设定连续的三帧图像必属于同一个人，平均三帧图像的重建误差，将重建误差最小的类作为这三帧最后的分类结果，然后统计所有帧的分类结果，将得票最多的分类结果作为整段视频的分类结果。

步骤2-3中所述的稀疏表示分类具体包括如下步骤：

步骤b1，步骤1-4构造得到的任意一个分组的整体字典记为D′，一段测试视频记为Y，执行步骤2-1后，Y＝[y₁，y₂，...，y_N]表示视频Y被拆分为N帧，y_n表示第n帧图像，n取值为1～N，每一帧进行步骤2-1和步骤2-2的预处理，随机从中挑选n₃帧图像，与整体字典D′进行稀疏表示，设定随机挑选的任意一帧图像为y，y满足公式：

y＝D′·W′+E′，

其中，

W′为使用字典D′线性表示图像y时的系数，E′为残差项，约束W′使用D′表示y的系数尽量稀疏，则问题写为：

min_W′||W′||₁ s.t.||y-D′·W′||₂≤ε，

步骤b2，使用dual-ALM算法求出W′，用W′_i表示W′对应D′中第i个类别的系数值，然后计算每一帧图像对每一个类别的重建误差，图像y对第i个类别的重建误差Res′的计算公式为：

记r′为图像y对应所有类别里最小的重建误差，即：

步骤b3，在所有的分组中，对随机选取的n₃帧图像执行步骤b1和步骤b2；

步骤b3，执行步骤1-4后得到4个部件字典为sDic1，sDic2，sDic3，sDic4，在步骤b2中，若求得某个类的r′＜0.85，则将对应的第i类图像在sDic1，sDic2，sDic3，sDic4中对应的列向量取出，重新拼接成4个新的部件字典sDic5，sDic6，sDic7，sDic8。

步骤2-4中所述的稀疏表示分类具体包括：

步骤cl，设定样本库的视频集合记为X′，按照步骤1-2～步骤1-4的方法处理视频集合X′，得到4个部件字典分别记为D¹，D²，D³，D⁴；

设定任意一段测试视频记为Y，执行步骤2-1后，Y＝[y₁，y₂，...，y_N]表示视频Y被拆分为N帧，每一帧用步骤2-1和步骤2-2的方法预处理，设其中任意一帧为y，它按照步骤1-4中的分部件方法，分为4个部件y¹、y²、y³和y⁴，，记为y＝[y¹；y²；y³；y⁴]；

每一帧图像的每一个部件满足公式：

y^s＝D^s·W^s+E^s，

其中，s＝1，2，3，4表示一共4个部件，

y^s表示第s个部件，D^s为第s个部件字典，W^s为使用部件字典D^s线性表示部件y^s时的系数，E^s为残差项，s＝1，2，3，4时E^s分别对应四个部件y¹、y²、y³和y⁴的残差项，约束W^s使用D^s表示y^s的系数尽量稀疏，则问题写为：

步骤c2，使用dual-ALM算法求解W^s，计算每个部件对于每一个分类的重建误差：

Res_s表示第s个部件对于每一个分类的重建误差，结合4个部件，用f(y)表示视频中一帧测试图像y的分类结果：

其中λ_s是第s个部件的权重系数，样本库中每个类别对测试图像有一个重建误差，用最小重建误差与次小重建误差的差值来衡量重建误差之间的差别，记为diff，对每个部件，当diff＜0.15时，将λ_s置为0；设定最后权重系数不为0的部件的个数为K，值为

K≠0；若K＝0，则使用残差最小的两个部件进行融合，即

步骤2-5的具体方法为：

设定y₁，y₂，y₃是连续的三帧图像，他们必须满足具有一样的分类结果，所以对这三帧结果进行统一，用f(y_j)表示这三帧统一过后的结果，它的计算公式为：

其中，j＝1，2，3，y_j表示3帧连续的图像，i对应样本库中的第i类，s对应4个部件，

表示第j帧图像的第s个部件，λ_s是第s个部件取的系数，

为第s个部件中第i类对应的部件字典，

为第s个部件中第i类对应的稀疏表示系数。

然后视频的分类结果由投票得到，选择具有最多的测试视频帧的分类作为最终分类。

求解稀疏表示的dual-ALM算法具体为：

在所有需要进行稀疏表示的场景中，假设进行一次稀疏表示时的字典为D，待表示的图像为y，用D表示y的稀疏系数为W，那么稀疏表示问题可写作公式：

min_W||W||₁ s.t.||y-D·W||₂≤ε

其中ε(一般取值0.001)表示一个很小的常量，上述问题的增广拉格朗日问题可写成：

上式中的λ和

都为拉格朗日乘子，上述公式的对偶问题应为：

上式中的

表示所有无穷范数小于1的向量；

对偶问题的拉格朗日展开为：

L_τ(λ，

，μ)表示一个与λ，

，μ相关的拉格朗日函数，λ，

，μ为拉格朗日乘子，τ为惩罚因子，τ的计算公式为

对偶问题的数值求解使用迭代的方法，迭代需要设定初始值，通常取值：λ＝0.01，ε＝0.001，μ＝0，并计算

迭代开始，首先固定λ、μ，更新

，假设已知第k步的拉格朗日因子λ、μ的值分别为λ_k，μ_k，那么第k+1步的拉格朗日因子

的值

为：

是邻近算子，将矩阵投影到

即所有无穷范数小于1的向量集合上，对任意变量u，用

算子处理后，结果为

然后固定朗格朗日乘子

，μ，更新λ，设定已经求得的第k+1步的拉格朗日乘子

的值为

，第k步的拉格朗日乘子μ的值为μ_k，则第k+1步的拉格朗日乘子λ的值λ_k+1由以下公式求得：

其中

表示函数

用

μ_k计算时的结果，上式相对于λ求导可以同时得到第k+1步的拉格朗日因子μ的值μ_k+1：

迭代的终止条件为

或k＞5000步，迭代停止后，将μ_k+1的值作为W的最终取值进行返回。

稀疏表示方法协同考虑所有样本，理论上，一张人脸图像，可以用数据库中同一个人所有的人脸图像的线性组合表示。而对于数据库中其它人的脸，其线性组合的系数理论上为零。由于数据库中一般有很多个不同的人脸的多张图像，如果把数据库中所有的图像的线性组合来表示这张给定的测试人脸，其系数向量是稀疏的。因为除了这张和同一个人的人脸的图像组合系数不为零外，其它的系数都为零。这样的稀疏表示同时协同考虑样本库中所有人，具有很好的噪声鲁棒性，利于遮挡下的人脸识别。

本发明结合稀疏表示的方法，提出一种基于分部件和压缩字典稀疏表示的低分辨率视频人脸识别系统。此系统将稀疏表示方法应用于视频人脸识别中，使用分部件的方法进一步增强稀疏表示对遮挡和表情变化的鲁棒性，使用具有几何和光学转化不变性的HOG(方向梯度直方图，Histogram ofOriented Gradient，HOG)特征代替像素的排列，增强稀疏表示在低分辨率下的人脸识别效果。使用纠错机制处理视频中的异常帧。使用压缩字典的方法提高稀疏表示的效率。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明的视频人脸识别系统流程示意图。

图2是本发明部件的划分方式示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

实施例

本发明在COX数据库上进行验证，COX数据集是一个较大型的人脸识别数据集，他一共有1000个人的3000段视频以及每人一张的高清人脸图像，每一个人的三段视频由三台不同的摄像机拍摄，三段视频两两之间互相构成一组实验。人在摄像机前以不同的路线移动。除了人本身在运动，三段视频内部和彼此之间还存在姿态、表情、光照、遮挡变化，此外还有视频本身是低分辨率的，为识别增加了困难。数据集为实验者划分了300个人作为训练集，700个人作为测试集。如图2所示是划分方式示意图。本发明使用的稀疏表示方法没有显示的训练过程，所以直接使用700个人进行测试。

如图1所示，首先为稀疏表示的字典构造的具体步骤：

步骤1，将测试集中的700人的一段视频(同一个摄像机拍摄的)加入样本库，视频按帧率30帧每秒拆分为图像集，使用seetaface算法检测所有图像的人脸，截取人脸图像，统一设置为32*40像素大小。

进行预处理，灰度化，使用灰度化公式为：

Gray＝0.299*R+0.587*G+0.114*B

其中Gray表示灰度值，R表示红色通道像素值，G代表绿色通道像素值，B代表蓝色通道像素值。

图像灰度化后，进行Gamma校正，取Gamma系数为2.2。

步骤2，将COX数据集中的700个人按照编号顺序分为10个小组，每个小组70人。在每个小组中做如下处理。如果是其他数据集，人数若少于100人，则不需要分组。若人数超过一百人，应将其分为50-100人每个小组。

步骤3，从每一个图像集中随机选择10帧图像作为初始字典，提取他们的HOG特征，每一帧图像形成一个向量，向量直接拼接成为一个初始的字典D₁。选用HOG特征是因为它具有几何和光学转化不变性，对表情变化鲁棒，也可以采用其他机器学习的方法进行字典学习。

步骤4，使用PCA算法将字典压缩至120维，则字典D₁经过降维后记为字典D₂。稀疏表示要求字典是过完备的，因此可以根据样本的数量，灵活调整特征向量的维度。

步骤5，遍历未被选择的帧，使用稀疏表示方法处理每一帧图像。稀疏表示方法给出用字典中每一类图像重建测试图像的重建误差，重建误差越小说明测试图像越接近这一个类，表示它没有带来新的信息，因此只需要将重建误差大于0.8的图像的HOG特征插入到字典D₂，重复地用字典D₂处理所有的帧。当有新的人加入人脸识别系统中时，直接将新人的样本的特征插入到字典中即可。

步骤6，将步骤5中重建误差大于0.8的帧选择出来，进行镜像处理，提取镜像的HOG特征并降维插入到字典D₃中，形成一个分组的整体字典D；

步骤7，步骤6最后得到10个分组字典，每个字典的一列向量为一帧图像的HOG特征。然后将图像分为上下左右四个部件，每一个部件的横纵分别占图像横纵的2/3。提取每一个部件的HOG特征，于是每个分组将拥有4个部件字典，记为sDic1，sDic2，sDic3，sDic4。

视频人脸识别的预测过程具体如下：

步骤1’，预处理包括人脸检测、灰度化、Gamma校正等和字典构造时步骤1使用的方法一致。

步骤2’，分别提取每一个人的所有图像的整张人脸的HOG特征，以及4个部件的HOG特征，并使用PCA算法降维。

步骤3’，随机从测试帧中挑选10帧图像，分别与字典构造过程后构造的10个分组整体字典进行稀疏表示分类。选择重建误差小于0.85的分类，将他们的部件字典重新拼接成为四个新的字典sDic5，sDic6，sDic7，sDic8。

步骤4’，让测试视频的每一帧的4个部件与对应的部件字典进行稀疏表示，记录每一帧的重建误差。

步骤5’，假设连续的三帧图像必属于同一个人，平均三帧图像的重建误差，将重建误差最小的类作为这三帧最后的分类结果。然后统计所有帧的分类结果，将得票最多的分类结果作为整段视频的分类结果。

表1本发明在COX数据集上的实验结果：

表1

V_a,b表示将一个人的第a段视频加入样本库，使用第b段视频与之匹配，其中a和b的取值范围都为1～3。

本发明可以在任意其他人脸数据库上进行实验，也可以进行在线的人脸识别，且不需要复杂的训练过程。因此本发明不会被限制于上述实施例，而是要符合本文所公开的原理和新颖投点相一致的最宽的范围。

本发明提供了基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法，其特征在于，包含以下步骤：

步骤1，用样本库为稀疏表示构造一个字典；

步骤2，基于字典进行人脸识别，得到分类结果；

步骤1包括：

步骤1-1，将需要识别的人的任意视频加入样本库；

步骤1-2，将样本库的视频按照每秒f帧的帧率拆分成图像，再使用seetaface算法检测所有图像的人脸位置，将人脸位置的图像截取出来，调整为统一的32*40像素大小，最后进行灰度化和Gamma校正图像处理；

步骤1-3，若样本库中的人的总数量大于n₁，则将样本库按照视频添加的顺序均分为不超过n₁的小组，若人数少于n₁则不需要分组，每一个分组经过关键帧挑选形成分组小样本库G；

步骤1-4，将每个分组的小样本库G中的图像进行镜像处理，即水平翻转图像获得其镜像图像，然后将镜像图像也加入小样本库G中，直接提取小样本库G中所有图像的HOG特征，形成分组整体字典D′，然后小样本库G中的图像分为上下左右四个部件，每一个部件的横纵分别占图像横纵的2/3，计算每一个部件的HOG特征，将同位置部件的特征向量直接拼接起来，使用PCA算法降维至120维，形成4个部件字典分别为sDic1，sDic2，sDic3，sDic4，最后每个分组拥有4个部件字典和一个整体字典；

步骤1-2中，所述灰度化采用如下公式：

Gray＝0.299*R+0.587*G+0.114*B

其中Gray表示图像的灰度值，R表示红色通道像素值，G代表绿色通道像素值，B代表蓝色通道像素值；

步骤1-3包括：

步骤1-3a，从经过步骤1-1和1-2处理后的视频中随机选择n₂帧作为初始的帧，这些帧直接加入到小样本库G中，提取这些帧的HOG特征，每一帧的HOG特征是一个向量，将这些向量直接拼接，形成稀疏表示方法中的字典D₁；

步骤1-3b，使用PCA主成分分析算法，将字典D₁中的每一个向量压缩成为120维的向量，形成一个压缩后的字典D₂；

步骤1-3c，遍历未被选择的帧，使用稀疏表示分类方法处理每一帧图像，计算出用字典D₂中的单独的每一类图像重建测试图像的重建误差，若重建误差大则把图像加入到小样本库G中，并提取图像的HOG特征插入到字典D₂，循环执行本步骤，直到所有帧都被处理；

步骤1-3c中所述的稀疏表示分类方法具体包括如下步骤：

步骤a1，设定样本库中的视频的所有帧的集合为X，执行步骤1-2，1-3a，1-3b后得到一个压缩过的字典D₂；

步骤a2，遍历步骤1-3a中未处理过的帧，将帧集合记为Y₁，其中Y₁＝[y₁，y₂，...，y_M]，M表示未处理过的帧的数量，y_m表示第m个未处理过的帧，m取值为1～M，Y₁集合中的每一帧y_m满足关系：

y_m＝D₂·W+E，

其中，W为使用字典D₂线性表示帧y_m时的稀疏系数，E为残差项，约束W使表示y_m的系数尽量稀疏，则问题写为：

min_W||W||₁ s.t.||y_m-D₂·W||₂≤ε

其中ε是预先定义的较小的常量，表示重建图像与真实图像之间的误差应小于这个常量；

步骤a3，使用dual-ALM算法求出W，用W_i表示W对应D₂中第i个类别的系数值，然后计算每一帧图像对每一个类别的重建误差，第m个未处理过的帧y_m对第i个类别的重建误差Res的计算公式为：

记r为第m个未处理过的帧y_m对应的所有类别里最小的重建误差，即：

所述dual-ALM算法具体为：在所有需要进行稀疏表示的场景中，假设进行一次稀疏表示时的字典为D，待表示的图像为y，用D表示y的稀疏系数为W，稀疏表示问题写作公式：

min_W||W||₁ s.t.||y-D·W||₂≤ε

其中ε表示一个很小的常量，上述问题的增广拉格朗日问题写成：

上式中的λ和ζ都为拉格朗日乘子，上述公式的对偶问题应为：

上式中的

表示所有无穷范数小于1的向量；

对偶问题的拉格朗日展开为：

L_τ(λ，ζ，μ)表示一个与λ，ζ，μ相关的拉格朗日函数，λ，ζ，μ为拉格朗日乘子，τ为惩罚因子，τ的计算公式为

对偶问题的数值求解使用迭代的方法，迭代需要设定初始值：λ＝0.01，ε＝0.001，μ＝0，并计算

迭代开始，首先固定λ、μ，更新ζ，假设已知第k步的拉格朗日因子λ、μ的值分别为λ_k，μ_k，第k+1步的拉格朗日因子ζ的值ζ_k+1为：

是邻近算子，将矩阵投影到

即所有无穷范数小于1的向量集合上，对任意变量u，用

算子处理后，结果为

然后固定朗格朗日乘子ζ，μ，更新λ，设定已经求得的第k+1步的拉格朗日乘子ζ的值为ζ_k+1，第k步的拉格朗日乘子μ的值为μ_k，则第k+1步的拉格朗日乘子λ的值λ_k+1由以下公式求得：

其中L_τ(λ，ζ_k+1，μ_k)表示函数L_τ(λ，ζ，μ)用ζ_k+1，μ_k计算时的结果，上式相对于λ求导同时得到第k+1步的拉格朗日因子μ的值μ_k+1：

λ_k+1＝(τ(D)^TD)^-1·(τDζ_k+1+y-Dμ_k)

μ_k+1＝μ_k-τ(ζ_k+1-D^Tλ_k+1)

迭代的终止条件为

或k＞5000步，迭代停止后，将μ_k+1的值作为W的最终取值进行返回；

步骤a4，循环执行步骤a2和步骤a3，直到所有的帧被处理完。

2.如权利要求1所述的方法，其特征在于，步骤2包括：

步骤2-1，输入一段测试视频，使用步骤1-2中相同的方式对其进行预处理，即将测试视频按照每秒f帧的帧率拆分成图像，再使用seetaface算法检测所有图像的人脸位置，将人脸位置的图像截取出来，调整为统一的32*40像素大小，最后进行灰度化和Gamma校正图像处理；

步骤2-3，随机从测试帧中挑选n₃帧图像，根据步骤2-2计算这些帧的整体HOG特征，然后与步骤1-3构造的所有的分组整体字典D′进行稀疏表示分类，计算重建误差，选择重建误差小于阈值t的所有分类，将步骤1-4得到的四个部件字典sDic1，sDic2，sDic3，sDic4中这些分类对应的部分直接拼接成为四个新的部件字典，记为sDic5，sDic6，sDic7，sDic8；

3.如权利要求2所述的方法，其特征在于，步骤2-3中所述的稀疏表示分类具体包括如下步骤：

步骤b1，将步骤1-4构造得到的任意一个分组的整体字典记为D′，任意一段测试视频记为Y，执行步骤2-1后，Y＝[y₁，y₂，...，y_N]表示视频Y被拆分为N帧，y_n表示第n帧图像，n取值为1～N，每一帧进行步骤2-1和步骤2-2的预处理，随机从中挑选n₃帧图像，与整体字典D′进行稀疏表示，设定随机挑选的任意一帧图像为y，y满足公式：

y＝D′·W′+E′，

其中，W′为使用字典D′线性表示图像y时的系数，E′为残差项，约束W′使用D′表示y的系数尽量稀疏，则问题写为：

min_W′||W′||₁ s.t.||y-D′·W′||₂≤ε，

步骤b2，使用dual-ALM算法求出W′，用W_i′表示W′对应D′中第i个类别的系数值，然后计算每一帧图像对每一个类别的重建误差，图像y对第i个类别的重建误差Res′的计算公式为：

记r′为图像y对应所有类别里最小的重建误差，即：

步骤b3，在所有的分组中，对随机选择的n₃帧图像执行步骤b1和步骤b2；

步骤b4，执行步骤1-4得到4个部件字典为sDic1，sDic2，sDic3，sDic4，在步骤b2中，若求得一个类的r′＜0.85，则将对应的第i类图像在sDic1，sDic2，sDic3，sDic4中对应的列向量取出，重新拼接成4个新的部件字典sDic5，sDic6，sDic7，sDic8。

4.如权利要求3所述的方法，其特征在于，步骤2-4中所述的稀疏表示分类具体包括：

步骤c1，设定样本库的视频集合记为X′，按照步骤1-2～步骤1-4的方法处理视频集合X′，得到4个部件字典分别记为D¹，D²，D³，D⁴；

设定任意一段测试视频记为Y，执行步骤2-1后，Y＝[y₁，y₂，...，y_N]表示视频Y被拆分为N帧，每一帧用步骤2-1和步骤2-2的方法预处理，设其中任意一帧为y，它按照步骤1-4中的分部件方法，分为4个部件y¹、y²、y³和y⁴，记为y＝[y¹；y²；y³；y⁴]；

每一帧图像的每一个部件满足公式：

y^s＝D^s·W^s+E^s，

其中，s＝1，2，3，4表示一共4个部件，y^s表示第s个部件，D^s为第s个部件字典，W^s为使用部件字典D^s线性表示部件y^s时的系数，E^s为残差项，s＝1，2，3，4时E^s分别对应四个部件y¹、y²、y³和y⁴的残差项，约束W^s使得用D^s表示y^s的系数尽量稀疏，则问题写为：

K≠0；若K＝0，则使用残差最小的两个部件进行融合，即

5.如权利要求4所述的方法，其特征在于，步骤2-5包括：

设定y₁，y₂，y₃是连续的三帧图像，他们必须满足具有一样的分类结果，所以对这三帧结果进行统一，用f(y_j)表示这三帧统一过后图像y_j的结果，它的计算公式为：

其中，j＝1，2，3，i对应样本库中的第i类，

表示第j帧图像的第s个部件，λ_s是第s个部件取的系数，

为第s个部件中第i类对应的部件字典，W_i ^s为第s个部件中第i类对应的稀疏表示系数；