CN104992170A

CN104992170A - 一种结合降维和认知引力模型的人脸表情识别方法

Info

Publication number: CN104992170A
Application number: CN201510467926.6A
Authority: CN
Inventors: 文贵华; 孙亚新
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2015-10-21
Anticipated expiration: 2035-07-31
Also published as: CN104992170B

Abstract

本发明公开了一种结合降维和认知引力模型的人脸表情识别方法，包含训练过程和识别过程。训练过程包含步骤：(1)使用基于金字塔的梯度方向直方图提取训练样本的特征；(2)训练增强型长程相关反馈维数约减方法，获得维数投影映射；并将训练数据从高维空间映射到低维空间；(3)计算训练样本的质量；测试过程包含步骤：(1)使用基于金字塔的梯度方向直方图提取训练样本的特征；(2)根据训练阶段获得的维数投影映射对测试数据降维；(3)计算测试数据的质量；(4)计算测试数据与训练数据之间的引力；(5)根据引力获得测试样本的类别。具有显著提高了性能等优点。

Description

一种结合降维和认知引力模型的人脸表情识别方法

技术领域

本发明涉及一种图像处理、维数约减、情感计算和模式识别技术，特别涉及一种结合降维和认知引力模型的人脸表情识别方法。

背景技术

随着信息技术的不断发展，社会发展对情感计算提出了更高的要求，有广泛的应用价值。例如在人机交互方面，一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，采用情感计算技术探测驾驶司机的精力是否集中，感受到的压力水平等，并做出相对反应。此外，情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况，情感计算的应用可以有效地帮助人们避免不良情绪，保持乐观健康的心理。

人的面部表情，语音，生理指标等都能在一定程度上反映人类的情感。本发明涉及人脸表情识别中的维数约减和分类。目前使用到人脸表情识别中的维数约减方法有很多，如主成分分析方法(Principal Component Analysis PCA)正交局部投影保持(Orthogonal Locality Preserving Projections OLPP)，以及偶子空间非负矩阵分解等。但是这些方法不能同时最小化类内距离，最大化类间距离，以及在低维空间中保持高维空间中的流形结构。近年来提出了较多的能同时实现上述3个目标的维数约减算法，其中一种称为长程相关反馈的维数约减算法RF(Long-term Relevance Feedback)对多媒体数据有较好的效果。但是该方法不能直接应用于人脸表情识别，因为抽取的特征不仅包括用于人脸识别的特征也包括表情识别的特征，而人脸差别很大的人却可能有相同的表情，这使得同一表情的人脸样本之间的距离较大，这样的距离对目标函数用于表情识别造成负面影响。为此本发明对最小化离得较远但属于同一类别的样本之间的距离进行一定的惩罚，并据此提出一种能克服上述缺点的维数约减方法，称之为增强型长程相关反馈ERF维数约减算法(Enhanced Long-term RelevanceFeedback)。

ERF除了能克服RF的缺点外，还能从训练数据中提取到样本的密度信息，而这个信息有利于分类。传统的分类器如支持向量机(Support Vector MachineSVM)，稀疏表示分类(Sparse Representation-based Classifier SRC)，K-近邻分类(KNN)等都不能很好的使用样本的密度信息。而一种基于认知引力模型的分类器能够利用样本的密度信息，但是该方法使用自信息估算引力模型的质量，而自信息既随着样本密度的变化而变化，又随着训练样本个数的变化而变化，使得样本之间的引力估算不准确。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种结合降维和认知引力模型的人脸表情识别方法，该人脸表情识别方法简单，易于实现，是一种认知引力模型提出了一种新的质量计算方法和认知引力计算方法。

本发明的目的通过下述技术方案实现：一种结合降维和认知引力模型的人脸表情识别方法，包括以下步骤：

(1)使用基于金字塔的方向梯度直方图(Pyramid of Histogram of OrientedGradients PHOG)提取测试样本x的特征，称为PHOG特征；

(2)采用增强型长程相关反馈维数约减算法ERF(Enhanced Long-termRelevance Feedback)的投影映射W，对提取的PHOG特征降维，将测试样本映射到低维空间y＝W^Tx,其中y是样本x映射到低维空间之后的结果；

(3)计算测试样本的质量m(y)；

(4)根据测试样本和训练样本的质量，按如下公式计算每个训练样本x_j,j＝1,2,…,n对测试样本x_i的引力，其中n是训练样本的个数；

F (x_{i}, x_{j}) = \exp (- w_{i j}), w_{i j} = \frac{| x_{i} - x_{j} |^{2}}{m (x_{i}) m (x_{j})}, - - - (10)

(5)从每个表情类别中，分别选出对测试样本引力最大的k个训练样本，并将每个类的这些引力求和，对测试样本引力最大的那个类别即为训练样本的表情类别。

在使用所述结合降维和认知引力模型的人脸表情识别方法之前，还需要训练，训练的过程包括如下步骤：

(1)提取每个训练样本的PHOG特征；

(2)使用训练数据训练维数约减方法ERF，获得投影映射W，将训练数据从高维空间转换到低维空间；

(3)计算每个训练样本的质量。

所述增强型长程相关反馈维数约减算法ER的包括如下步骤：

(1)定义增强长期相关反馈的维数约减方法的目标函数如下：

W * = \underset{W^{T} W = I}{\arg \max} \frac{W^{T} {XL}^{b} X W + a_{1} W^{T} {XL}^{f} X W}{W^{T} {XL}^{w} X W + a_{2} W^{T} {XL}^{m} X W}, - - - (1)

其中W^TXL^bXW，W^TXL^fXW，W^TXL^wXW，W^TXL^mXW是4个优化目标，a¹和a²为平衡参数。

W^TXL^bXW的目标是最大化类间距离，定义如Eq.2，式中表示不属于第c类的训练样本个数，C表示总类别个数，l_i，l_j表示第i、第j个样本的类别标签。

W^{T} {XL}^{b} X W = Σ_{c = 1}^{C} \underset{l_{i = c} a n d l_{j &NotEqual; c}}{Σ} \frac{{(W^{T} x_{i} - W^{T} x_{j})}^{T} (W^{T} x_{i} - W^{T} x_{j})}{N_{\tilde{c}}}, - - - (2)

W^TXL^wXW的目的是最小化类内距离，定义如Eq.3，式中N_c表示属于第c类的训练样本个数。

W^{T} {XL}^{w} X W = Σ_{c = 1}^{C} \underset{l_{i = c} a n d l_{j = c}}{Σ} \frac{{(W^{T} x_{i} - W^{T} x_{j})}^{T} (W^{T} x_{i} - W^{T} x_{j})}{N_{c}}, - - - (3)

W^TXL^fXW的目的是对最小化离得较远但属于同一类别的样本之间的距离进行一定的惩罚，定义如Eq.4，式中N_f表示与x_i属于同一类并且互相不为k邻域的样本的个数，N_k(x_j)表示x_j的k邻域。

W^{T} {XL}^{f} X W = Σ_{c = 1}^{C} \underset{a n d x j &NotElement; N_{k} (x i)}{\underset{a n d x i &NotElement; N_{k} (x j)}{\underset{l_{i = c} a n d l_{j = c}}{Σ}}} \frac{{(W^{T} x_{i} - W^{T} x_{j})}^{T} (W^{T} x_{i} - W^{T} x_{j})}{N_{f}}, - - - (4)

W^TXL^mXW的目的是在低维空间中保持高维空间中的流形结构，其中的L^m定义如Eq.5，式中1_k+1∈R^k+1为元素全为1的列向量，S_i∈R^n×(k+1)，S_i＝1当x_p为的第p个元素，(S_i)_pq＝0其它情况。

L^{m} = [S_{1}, S_{2}, ..., S_{n}] [\begin{matrix} L_{1} \\ ... \\ L_{n} \end{matrix}] {[S_{1}, S_{2}, ..., S_{n}]}^{T}

L_{i}^{m} = H - {HX}_{i}^{T} {(X_{i} {HX}_{i}^{T} + λ I)}^{- 1} X_{i} H - - - (5)

H = I - \frac{1}{k + 1} 1_{k + 1} 1_{k + 1}^{T} &Element; R^{(k + 1) \times (k + 1)},

(2)将Eq.1所示的优化问题转化为Eq.6所示的求广义特征值的问题，其中W由最大的q个广义特征值对应的广义特征向量组成，q为维数约简之后的维度。

X(L^b+a₁L^f)X^TW＝λX(L^w+a₂L^f)X^TW， (6)

(3)获得投影映射W，将训练数据从高维空间转换到低维空间Y＝W^TX

一种结合降维和认知引力模型的人脸表情识别方法中的质量计算方法的步骤如下：

(1)计算样本y的密度，其中是y_i的第K近邻。

f_{d} (y) = Σ_{i = 1}^{n} \exp (- | y_{j} - y_{i} |^{2} / γ^{2}), γ^{2} = Σ_{i = 1}^{n} | y_{i} - y_{i}^{K} |^{2} / n, - - - (7)

(2)计算样本的自信息I(y)：

\begin{matrix} I (y) = l o g (\frac{1}{P (y)}) = - l o g (P (y)) \\ P (y) = \frac{f_{d} (y)}{Σ_{i = 1}^{n} f_{d} (y_{i})} \end{matrix}, - - - (8)

(3)通过归一化自信息，计算样本的质量m(y)：

m (y) = (I (y) - \overset{&OverBar;}{I}) * δ (m) * 1.5 / δ (I) + \overset{&OverBar;}{m}

\overset{&OverBar;}{m} = \frac{1}{n} Σ_{i = 1}^{n} | y_{i} - y_{i}^{K} |, δ (m) = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(| y_{i} - y_{i}^{K} | - \overset{&OverBar;}{I})}^{2}} - - - (9)

\overset{&OverBar;}{I} = Σ_{i = 1}^{n} I (y_{i}) / n, δ (I) = Σ_{i = 1}^{n} {(I (y_{i}) - \overset{&OverBar;}{I})}^{2} / n,

其中，m(y)为样本的质量。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提出的ERF相对于RF在目标方程中增加了一项优化目标，该优化目标能对最小化距离较远属于同一类的样本之间的距离进行惩罚，能够避免最小化这些距离时对目标函数影响过大，导致其它的优化目标不能很好的实现。

2、本发明提出的ERF相对于RF对优化目标中的各项使用了更好的归一化方法，该归一化目标能够使得各优化目标的数量级在不同训练样本个数的情况下相对恒定，从而使得ERF中的平衡参数能够在较小的范围内选择。

3、本发明提出的ERF能够从训练样本中提取到样本的分布密度信息，该信息有利于分类。

4、本发明使用一种新的方法计算认知引力模型的质量，使得样本的质量几乎只与样本的分布密度相关，能够更好的利用样本的分布密度信息，从而使得新的认知引力模型更有利于分类。

5、本发明将一种新的基于认知引力模型的分类器用于人脸表情识别，相对支持向量机，K-近邻分类，稀疏表示分类，该分类能够更好的利用样本的分布密度信息。

附图说明

图1是一种结合降维和认知引力模型的人脸表情识别方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例所述的一种结合降维和认知引力模型的人脸表情识别方法，包括训练阶段和识别阶段两个部分，现结合图1的流程图分别详述如下。

一、训练阶段

在这一阶段的主要目的是训练得到ERF的映射矩阵，以及计算所有训练样本的分布密度和质量，具体过程如下：

第一步：使用基于金字塔的方向直方图提取特征。基于金字塔的方向直方图由方向直方图设置两组不同的参数得到，方向直方图的参数主要包含空间单元的尺寸，方向箱个数，空间单元的个数，对方向直方图设置不同的参数能够从人脸中提取到不同的特征。两组参数设置如下：(1)空间单元的尺寸为8×8，方向箱个数为32，空间单元的个数为256，各个单元互相不重叠。(2)空间单元的尺寸为16×16，方向箱个数为32，空间单元的个数为64，各个单元也互相不重叠。显然将第2组参数设置中的每个单元继续分成4个不重叠的单元即为第一组参数设置，这是一种典型的基于金字塔的特征提取方法。对训练数据的特征提取结果定义为{x₁,x₂,…,x_n}，对应的类别标签记为{l₁,l₂,…,l_n}，n为训练样本的个数。

第二步：训练ERF获得投影矩阵，并将训练数据映射到低维空间，步骤如下：

(1)定义ERF的目标函数如下：

W * = \underset{W^{T} W = I}{\arg \max} \frac{W^{T} {XL}^{b} X W + a_{1} W^{T} {XL}^{f} X W}{W^{T} {XL}^{w} X W + a_{2} W^{T} {XL}^{m} X W}, - - - (11)

其中，W^TXL^bXW，W^TXL^fXW，W^TXL^wXW，W^TXL^mXW是4个优化目标，a¹和a²为平衡参数。

其中，W^TXL^bXW的目标是最大化类间距离，定义如Eq.12，式中表示不属于第c类的训练样本个数，C表示总类别个数，l_i，l_j表示第i、第j个样本的类别标签。

W^{T} {XL}^{b} X W = Σ_{c = 1}^{C} \underset{l_{i = c} a n d l_{j &NotEqual; c}}{Σ} \frac{{(W^{T} x_{i} - W^{T} x_{j})}^{T} (W^{T} x_{i} - W^{T} x_{j})}{N_{\tilde{c}}}, - - - (12)

W^TXL^wXW的目的是最小化类内距离，定义如Eq.13，式中N_c表示属于第c类的训练样本个数。

W^{T} {XL}^{w} X W = Σ_{c = 1}^{C} \underset{l_{i = c} a n d l_{j = c}}{Σ} \frac{{(W^{T} x_{i} - W^{T} x_{j})}^{T} (W^{T} x_{i} - W^{T} x_{j})}{N_{c}}, - - - (13)

W^TXL^fXW的目的是对最小化离得较远但属于同一类别的样本之间的距离进行一定的惩罚，定义如Eq.14，式中N_f表示与x_i属于同一类并且互相不为k邻域的样本的个数，N_k(x_j)表示x_j的k近邻。

W^{T} {XL}^{f} X W = Σ_{c = 1}^{C} \underset{\underset{a n d x j &NotElement; N_{k} (x i)}{\underset{a n d x i &NotElement; N_{k} (x j)}{l_{i = c} a n d l_{j = c}}}}{Σ} \frac{{(W^{T} x_{i} - W^{T} x_{j})}^{T} (W^{T} x_{i} - W^{T} x_{j})}{N_{f}}, - - - (14)

W^TXL^mXW的目的是在低维空间中保持高维空间中的流形结构，其中L^m定义如Eq.15，式中1_k+1∈R^k+1为元素全为1的列向量，S_i∈R^n×(k+1)，S_i＝1当x_p为的第p个元素，(S_i)_pq＝0其它情况。

L^{m} = [S_{1}, S_{2}, ..., S_{n}] [\begin{matrix} L_{1}^{m} \\ ... \\ L_{n}^{m} \end{matrix}] {[S_{1}, S_{2}, ..., S_{n}]}^{T}

L_{i}^{m} = H - {HX}_{i}^{T} {(X_{i} {HX}_{i}^{T} + λ I)}^{- 1} X_{i} H - - - (15)

H = I - \frac{1}{k + 1} 1_{k + 1} 1_{k + 1}^{T} &Element; R^{(k + 1) \times (k + 1)},

(2)将Eq.11所示的优化问题转化为Eq.16所示的求广义特征值的问题，其中W由最大的q个广义特征值对应的广义特征向量组成，q为目标维数约简维度。

X(L^b+a₁L^f)X^TW＝λX(L^w+a₂L^f)X^TW， (16)

(3)将训练数据从高维空间转换到低维空间Y＝W^TX

第三步：使用一种新的质量计算方法计算训练样本的质量，步骤如下：

(1)计算所有训练样本的密度：

f_{d} (y) = Σ_{i = 1}^{n} \exp (- {|y}_{j} - y_{i} |^{2} / γ^{2}), γ^{2} = Σ_{i = 1}^{n} | y_{i} - y_{i}^{K} |^{2} / n, - - - (17)

(2)计算训练样本的自信息：

\begin{matrix} I (y) = l o g (\frac{1}{P (y)}) = - l o g (P (y)) \\ P (y) = \frac{f_{d} (y)}{Σ_{i = 1}^{n} f_{d} (y_{i})} \end{matrix}, - - - (18)

(3)通过归一化自信息，计算所有训练样本的质量：

m (y) = (I (y) - \overset{&OverBar;}{I}) * δ (m) * 1.5 / δ (I) + \overset{&OverBar;}{m}

\overset{&OverBar;}{m} = \frac{1}{n} Σ_{i = 1}^{n} | y_{i} - y_{i}^{K} |, δ (m) = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(| y_{i} - y_{i}^{K} | - \overset{&OverBar;}{I})}^{2}}, - - - (19)

\overset{&OverBar;}{I} = Σ_{i = 1}^{n} I (y_{i}) / n, δ (I) = Σ_{i = 1}^{n} {(I (y_{i}) - \overset{&OverBar;}{I})}^{2} / n

二、测试阶段：

第一步：使用基于金字塔的方向直方图提取特征。基于金字塔的方向直方图由方向直方图设置两组不同的参数得到，方向直方图的参数主要包含空间单元的尺寸，方向箱个数，空间单元的个数，对方向直方图设置不同的参数能够从人脸中提取到不同的特征。两组参数设置如下：(1)空间单元的尺寸为8×8，方向箱个数为32，空间单元的个数为256，各个单元互相不重叠。(2)空间单元的尺寸为16×16，方向箱个数为32，空间单元的个数为64，各个单元也互相不重叠。显然将第2组参数设置中的每个单元继续分成4个不重叠的单元即为第一组参数设置，这是一种典型的基于金字塔的特征提取方法。对训练数据的特征提取结果定义为x。

第二步：将测试样本从高维空间映射到低维空间y＝W^Tx

第三步：计算测试样本的质量，步骤如下：

(1)通过Eq.17计算测试样本的密度f_d(y)；

(2)通过Eq.18计算测试样本的自信息，其中，f_d(y_i),i＝1,2,…,n为训练样本的密度；

(3)通过Eq.19归一化I(y),获得测试数据的质量m(y)；

第四步：计算测试样本到所有训练样本之间的重力：

F (x_{i}, x_{j}) = \exp (- w_{i j}), w_{i j} = \frac{| x_{i} - x_{j} |^{2}}{m (x_{i}) m (x_{j})}, - - - (20)

第五步：按照下述步骤对测试样本分类：

(1)for i＝1到C//C是训练样本的总类别数，从第c类找出与测试数据重力最大的k个样本{y_c1,y_c2,…,y_ck}；并计算{y_c1,y_c2,…,y_ck}与测试数据之间的重力和：

F_{c} = Σ_{i = 1}^{k} F (y, y_{c i});

(2)获得测试数据的标签

本发明采用日本JAFFE和美国CK+数据库评价人脸表情识别效果，这两个数据库与人脸表情识别领域的标准数据库。发明中的参数：训练样本数量N和表情类别数量C与采用的数据集有关，参数：最近邻个数k在实验中通过交叉验证选择。

实验首先完成训练过程，然后进行测试过程。采用按人独立的方式进行实验，在JAFFE数据库上，使用Adaboost获得人脸时的识别精度为77.46％。CK+数据库上，使用人脸标注点对齐并获得人脸时的识别精度为97.66％，使用Adaboost获得人脸时的识别精度为95.31％。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种结合降维和认知引力模型的人脸表情识别方法，其特征在于，包括以下步骤：

步骤1、使用基于金字塔的方向梯度直方图提取测试样本的特征，称为PHOG特征；

步骤2、采用增强型长程相关反馈维数约减算法ERF的投影映射，对提取的测试样本的PHOG特征降维，将测试样本映射到低维空间；

步骤3、计算测试样本的质量；

步骤4、根据测试样本和训练样本的质量，计算每个训练样本对测试样本的引力；

步骤5、从每个表情类别中，分别选出对测试样本引力最大的k个训练样本，并将每个类的这些引力求和，对测试样本引力最大的那个类别即为测试样本的表情类别。

2.根据权利要求1所述的结合降维和认知引力模型的人脸表情识别方法，其特征在于，在步骤2中，所述ERF是长程相关反馈维数约减算法RF的改进，ERF在最小化类内距离时，对这类样本之间的距离再增加一个惩罚项，降低其对目标函数的影响。

3.根据权利要求1所述的结合降维和认知引力模型的人脸表情识别方法，其特征在于，在步骤1之前具有进行训练的过程，所述训练的过程包含如下步骤：

步骤11、提取每个训练样本的PHOG特征；

步骤12、采用训练数据训练ERF，获得ERF投影映射，并将训练样本映射到低维空间；

步骤13、在低维空间中，计算每个训练样本的质量。

4.根据权利要求1或3任意一项所述的结合降维和认知引力模型的人脸表情识别方法，其特征在于，计算测试样本的质量时对样本的自信息进行了归一化。