CN109886149B

CN109886149B - 一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法

Info

Publication number: CN109886149B
Application number: CN201910088099.8A
Authority: CN
Inventors: 欧阳琰; 徐廷新; 邵银波; 鲁力; 黄晓斌; 石斌斌; 唐瑭
Original assignee: Air Force Early Warning Academy
Current assignee: Air Force Early Warning Academy
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-09-14
Anticipated expiration: 2039-01-29
Also published as: CN109886149A

Abstract

本发明公开了一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，首先对无表情人脸图像样本和特定表情人脸图像样本提取特征，根据特征构建标称字典和特性字典；针对待识别的图像，通过提取相应的特征，采用标称字典对其进行稀疏编码，然后将编码系数结果结合标称字典得到重构后的无表情图像特征，将重构前后的特征相减得到仅包含表情特性信息的特征，采用特性字典对该特征进行稀疏编码得到编码系数向量；以特性字典为基础对不同类的特征训练出辅助决策融合字典，并基于稀疏表示对不同类特征计算得出的编码系数向量进行分类判决，得到各类特征的判决结果；采用投票的方式得到最终的识别结果；本方法可有效克服人脸、光照、遮挡等变化对表情识别的影响。

Description

一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法

技术领域

本发明属于人脸表情识别技术领域，更具体地，涉及一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法。

背景技术

人脸表情识别技术在人机交互、在线教育、智能驾驶等领域具有很强的应用前景。在实际使用过程中，人脸表情识别易受到光照、噪声、遮挡的影响，为了克服这些因素的影响，基于稀疏表示理论的识别算法框架得到了广泛的应用。

当前，影响基于稀疏表示理论的人脸表情识别准确率最重要的特征是类内变化，对于人脸表情识别而言不同类表情间的特征差异有助于识别准确率，而类内变化则会干扰识别结果。对于同一类表情图像其类内变化主要是指人脸的变化、光照变化、遮挡的变化、图像噪声的变化。因此，如何消除类内变化成为基于稀疏表示理论人脸表情识别的研究难点。

Lee Seung Ho等人在IEEE Transactions on Affective computing(2014)上发表的“Intra-Class Variation Reduction Using Training Expression Images forSparse Representation Based Facial Expression Recognition”针对表情识别过程中的类内变化，提出了通过训练样本重构出类内变化特征图，并通过提取其与不同表情图像的差分信息来识别人脸表情；但是该技术方案在提取类内变化特征时，并没有区分无表情人脸和特定表情的特征。

Du Lingshuang等人在Electronics letters(2017)上发表的“Modifiedclassification and regression tree for facial expression recognition withusing difference expression images”提出了基于特定表情人脸与无表情人脸间的差分图像信息进行人脸表情识别；但该技术方案是直接采用图像差分进行识别会丢失大量的信息，尽管提取了类内变化特征，但是很容易丢失一些可用于识别的重要信息。

在真实世界中拍摄的表情图像往往会受到光照、遮挡、相机成像噪声的影响，不同的人脸也会对不同类型的表情识别带来一定程度的影响，因此研究一种能够克服人脸、光照、遮挡、噪声等表情类内变化的表情识别方法，对于现实场景中人脸表情识别有着非常重要的应用价值。

发明内容

针对现有技术的以上缺陷或改进需求中的至少一种，本发明提供了一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其目的在于克服遮挡、图像噪声、人脸、光照等类内变化对人脸表情识别的影响。

为实现上述目的，按照本发明的一个方面，提供了一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，包括如下步骤：

(1)分别针对无表情的人脸图像样本和预设特定表情的人脸图像样本提取特征，并根据特征构建标称字典和特性字典；

其中标称字典由无表情人脸图像样本的特征构成，特性字典由无表情人脸图像与特定表情人脸图像的特征差分信息构成；

在一个优选实施例中，使用了三种经典的特征：HOG、LBP和Haar特征；在一个优选实施例中，特定表情的图像样本分为惊讶、高兴、恐惧、愤怒、悲伤、厌恶表情样本；

(2)提出适用于双字典的基于稀疏表达的人脸表情识别框架，针对一幅待识别的人脸表情图像，首先对其提取相应的特征y_i，并采用标称字典对其进行稀疏编码，然后将编码系数结果结合标称字典得到重构后的无表情图像特征y_i′，接着用特征y_i减去特征y_i′，得到仅包含表情特性信息的特征y_i″；最后使用特性字典对特征y_i″进行稀疏编码，得到编码系数向量z_i；i表示特征编号；

在一个优选实施例中，i取值为1～3，分别对应HOG、LBP和Haar三种特征；

(3)以特性字典为基础，针对不同的特征训练出关联系数字典S_i，用于最后的决策融合；

(4)基于稀疏表达和关联系数字典S_i，对不同的编码系数向量z_i进行分类判决，得到不同特征的判决结果；并采用投票的方式，将得票数最多的人脸表情类别作为最终识别结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，通过标称字典和特性字典区分不同人脸表情的专有特性，并针对双字典提出了一种基于稀疏表示的识别方法，该方法通过标称字典去除表情识别过程中人脸这一类内特征的影响，并结合特性字典的使用，使得辨别过程中始终针对人脸表情的独有特性，从而达到提高分辨准确性的目的；针对多特征提出了一种决策融合的方法，通过对特性字典的训练得出辅助决策融合字典，使用该字典能够有效地发挥基于稀疏表示识别框架中利用重构进行分类的优势，有效减少错分的概率。由于基于稀疏表示的分类方法采用一种分解重构的方式进行识别，其识别方法框架本身对光照和遮挡具有一定的鲁棒性，另外，本发明提供的方法采用双字典有效地剔除人脸这一类内变化对识别的影响，而采用多特征决策融合的方式则进一步提升了基于稀疏表示识别框架的鲁棒性，因此采用该方法识别人脸表情，可以有效地抵御人脸、光照、遮挡等变化对表情分类的影响；另外本发明的优选方案中融合了三种经典特征的识别结果，通过不同类特征在进行表情识别过程中的互补性，达到提高最终判决正确率的目的；在实际识别过程中，还可以融合更多的特征。

附图说明

图1是本发明提供的人脸表情识别方法流程示意图；

图2为本发明的标称字典与特性字典构建示意图；

图3为HOG特征提取人脸表情区域区分策略；

图4为四种LBP算子示意图；

图5为提取Haar特征时眼睛和嘴巴区域划分示意图；

图6为提取Haar特征的三类矩形特征；

图7为本发明用于决策融合的稀疏编码系数字典构建示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在人脸表情识别过程中容易受到人脸、光照、遮挡等变化的影响，如果针对表情进行分类，则以上因素通常称为类内变化，如何消除上述类内变化是表情识别领域的难点问题。

参照图1，实施例提供的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，具体如下：

(1)构建标称字典

实施例中，构建标称字典和特性字典的方法参照2所示，首先针对无表情的人脸图像分别提取三类特征，即HOG、LBP和Haar特征；三类特征提取具体方法为：

(a)HOG特征提取步骤为：首先对无表情的人脸图像样本进行光照归一化后计算梯度信息；接着按照三种策略将图像分割成多个小区域；然后对于每个区域采用2×2的划窗，计算所有划窗内6个方向上的梯度信息直方图，最后将所有的直方图信息汇总成一幅无表情人脸图像的HOG特征。三种分割区域的HOG特征按照参照图3所示。

三种分割策略分别为：①将人脸图像区分为961个小区域，每个区域大小为图像大小的1/256，且每个区域存在50％的重叠；

②将人脸图像区分为225个小区域，每个区域大小为图像大小的1/64，且每个区域存在50％的重叠；

③将人脸图像区分为49个小区域，每个区域大小为图像大小的1/16，且每个区域存在50％的重叠。

(b)LBP特征提取步骤为：首先基于LBP算子对无表情的人脸表情图像计算LBP特征，接着将图像进行分区，并分别统计不同分区中的直方图特征；最后将所有的直方图特征汇总成一幅无表情人脸图像的LBP特征。参照图4是本发明实施例所采用的4种LBP算子。

实施例所采用的4种不同的图像分区策略如下：

①每个分区大小为4×4，且每个邻近的小区域有四分之一重叠；

②每个分区大小为4×4，且每个邻近的小区域有二分之一重叠；

③每个分区大小为8×8，且每个邻近的小区域有四分之一重叠；

④每个分区大小为8×8，且每个邻近的小区域有二分之一重叠。

(c)Haar特征提取步骤为：首先计算无表情人脸图像的梯度信息，根据人眼和嘴巴区域往往会有很明显梯度变化的特性，定位出人眼和嘴巴的水平的位置，并根据两者中心位置预估出鼻子的区域，参照图5所示；

接着根据预估出的位置信息，采用划窗的方式一共提取13个子区域，窗的大小为图像大小的1/64，窗的移动步长为图像边长的1/8；

最后对每个子区域采用如图6所示的三种类型的矩形特征计算无表情人脸图像的Haar特征，并将所有的特征值汇总成一幅无表情人脸图像的Haar特征。

提取完三类特征后，将不同类的特征分别汇总到一个特征向量中，就构成了无表情人脸图像的标称字典A_i。

(2)构建特性字典

参照图2所示，特性字典主要由特定表情的人脸图像特征与无表情的人脸表情图像特征间的差分信息组成。通过提取特定表情人脸图像的三类特征并与无表情人脸表情图像的三类特征相减构成三个特性字典D_i。

(3)基于标称字典、特性字典和稀疏表示进行人脸表情识别

对于一幅待识别的人脸表情图像y，首先根据第i类特征构建的标称字典A_i，求解l₁最小问题，得到稀疏编码系数结果x_i；如式(1)所示：

min||x_i||₁ s.t.A_ix_i＝y (1)

接着进行重构得到y′，如式(2)所示：

然后用y减去y′，得到去除人脸类内变化的y″；最后使用特性字典求解y″的稀疏编码系数结果z_i，如式(3)所示：

min||z_i||₁ s.t.D_iz_i＝y″ (3)

(4)多特征融合

对于不同类的特征得到不同的稀疏编码系数结果z_i，需要设计一种多特征融合的方法，由于基于稀疏表达的识别方法不是一种简单的二值分类框架，可以根据稀疏编码系数结果进行多决策结果的融合。

实施例中，首先针对特性字典D_i训练出用于支持决策融合的字典S_i，具体训练方法参照图7，以高兴表情的人脸图像样本为例，提取特性字典

中的一个样本，用剩下的样本对其进行稀疏编码，并将计算得到的稀疏编码关联系数结果

与该样本对应的判决向量一起作为字典S_i的一列。通过对所有的样本进行训练，得到一类特征对应的用于支持决策融合的字典S_i。

训练出字典S_i后，求解z_i的稀疏编码关联系数，如式(4)所示：

min||γ_i||₁ s.t.γ_iS_i＝z_i (4)

结合式(5)得到一类特征的最终判决结果：

identify(z_i)＝arg min||z_i-S_iγ_i||₂ i(5)

得到所有类特征的最终判决结果后，统计不同类特征的表情类别判决结果，将得票数最多的那一类表情作为最终判决结果。例如：采用HOG、LBP特征将待识别的人脸表情图像辨别为惊讶，而采用Haar特征将待识别的人脸表情图像辨别为恐惧，在融合过程中惊讶表情得票数最多，则最终判决结果为惊讶。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，包括如下步骤：

(1)分别针对无表情的人脸图像样本和特定表情的人脸图像样本提取HOG特征、LBP特征和Haar特征，并分别根据不同类的特征构建对应的标称字典和特性字典；

其中，标称字典由无表情人脸图像样本的特征构成，特性字典由无表情人脸图像与特定表情人脸图像的特征差分信息构成；

(2)对待识别的人脸表情图像进行HOG特征、LBP特征和Haar特征提取，并采用标称字典对提取后的特征进行稀疏编码，将编码系数结果结合标称字典得到重构的无表情图像特征，将重构前后的特征相减得到仅包含表情特性的特征；利用特性字典对仅包含表情特性的特征进行稀疏编码，得到不同类的特征对应的编码系数向量；

(3)以特性字典为基础，对不同类的特征训练出辅助决策融合字典；所述辅助决策融合字典的构建方法为：针对不同类特征的特性字典，首先提取其中的一个样本数据，用字典中剩余的其他样本数据对其进行稀疏编码，并将该样本数据对应的表情类别和编码结果系数保存到辅助决策融合字典，以此类推，直到特性字典中所有的样本数据全部完成编码；

(4)基于稀疏表达和辅助决策融合字典对不同类特征对应的编码系数向量进行分类判决，得到不同类特征的判决结果；并采用投票的方式，将得票数最多的人脸表情类别作为最终识别结果。

2.如权利要求1所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，对无表情的人脸图像和有表情的人脸图像分别提取HOG特征、LBP特征和Haar特征；将特定表情的人脸图像提取的这三类特征汇总到一个特征向量中构成无表情人脸图像的标称字典，将特定表情的人脸图像与无表情人脸图像的特征信息进行差分并汇总就构成了特性字典。

3.如权利要求2所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，HOG特征提取方法为：首先对无表情的人脸图像样本进行光照归一化后计算梯度信息，将图像分割成多个小区域；然后对每个区域采用2×2的划窗，计算所有划窗内6个方向上的梯度信息直方图，将所有的直方图信息汇总成一幅无表情人脸图像的HOG特征。

4.如权利要求3所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，图像分割的方法为：

将人脸图像区分为961个小区域，每个区域大小为图像大小的1/256，且每个区域存在50％的重叠；

或，将人脸图像区分为225个小区域，每个区域大小为图像大小的1/64，且每个区域存在50％的重叠；

或，将人脸图像区分为49个小区域，每个区域大小为图像大小的1/16，且每个区域存在50％的重叠。

5.如权利要求2所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，LBP特征提取方法为：基于LBP算子对无表情的人脸表情图像计算LBP特征，将图像进行分区，并分别统计不同分区中的直方图特征；将所有的直方图特征汇总成一幅无表情人脸图像的LBP特征。

6.如权利要求5所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，图像分区方法为：

每个分区大小为4×4，且每个邻近的小区域有四分之一重叠；

或，每个分区大小为4×4，且每个邻近的小区域有二分之一重叠；

或，每个分区大小为8×8，且每个邻近的小区域有四分之一重叠；

或，每个分区大小为8×8，且每个邻近的小区域有二分之一重叠。

7.如权利要求2所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，Haar特征提取方法为：计算无表情人脸图像的梯度信息，根据梯度信息定位出人眼、嘴巴的水平位置，并根据人眼、嘴巴的中心位置预估出鼻子的区域；根据预估出的位置信息采用划窗的方式提取13个子区域，窗的大小为图像大小的1/64，窗的移动步长为图像边长的1/8；对每个子区域采用3类矩形特征计算无表情人脸图像的Haar特征，并将所有的特征值汇总成一幅无表情人脸图像的Haar特征。

8.如权利要求1所述的基于稀疏表示的双字典和多特征融合决策人脸表情识别方法，其特征在于，基于辅助决策融合字典的判决方法为：使用辅助决策融合字典对待识别人脸表情图像根据特性字典得到的编码系数向量进行分类，得到不同类特征的表情分类结果，统计表情分类结果，得到票数最多的表情类别为最终识别结果。