CN101620670A

CN101620670A - 一种应用于面部表情识别的模糊判别分析方法

Info

Publication number: CN101620670A
Application number: CN200810122807A
Authority: CN
Inventors: 邹采荣; 周晓彦; 赵力; 郑文明; 魏昕
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-07-01
Filing date: 2008-07-01
Publication date: 2010-01-06

Abstract

本发明提出了一种应用于面部表情识别的模糊判别分析方法，通过采用模糊K近邻方法(Fuzzy KNN)来设计每个训练样本的类隶属度。在此基础上运用典型相关分析(CCA)方法求解使得训练样本和其所对应的模糊类隶属度之间具有最大相关性的投影方向，并采用最小二乘回归(LSR)方法来建立输入数据和相应的类隶属度数据之间的关系式，然后根据类隶属度数据来建立类别索引。为了提高识别效果，可以通过核函数把上述方法推广到核空间中。该方法提供了一种有效的手段估计一个待测试样本的属于某一类别的可能性大小情况，解决了实际中许多面部表情图像样本并不能简单地归属于某一类别的问题。通过实验表明，本发明的方法相对传统的表情识别方法具有更好的识别性能。

Description

一种应用于面部表情识别的模糊判别分析方法

技术领域

本发明涉及一种模糊判别分析方法，特别涉及一种应用于面部表情识别的模糊判别分析方法。

背景技术

目前，线性判别分析(LDA)方法已被成功应用于许多模式识别问题中，如人脸识别、图像恢复、面部表情识别等。传统的判别分析方法要求每个训练样本唯一地隶属于某一类别的模式类型。然而，在实际中，有些模式样本并不能简单地归属于某一类别。在这种情况下，传统的判别分析方法就无法再被很好地应用。例如，在进行面部表情识别时，每幅面部图像可能包含所有的六种基本表情信息(高兴、悲伤、惊奇、生气、厌恶和害怕)。因此，简单地将每幅面部图像分类到六种基本表情中的一种是不合理的。近年来，Kwak和Pedrycz又提出了一种模糊Fisherfaces方法来进行人脸识别。模糊Fisherface方法本质上仍然限制在传统的LDA方法的框架中，并且它的公式表达也与Fisherface方法相似。与传统的Fisher脸方法相比较，主要差别就在于每一类样本均值的计算。由于Fisherface方法为每个训练样本建立相应的类模糊隶属度，因此在类均值计算方面也把类隶属度考虑在内。

典型相关分析(CCA)是一种用于刻画两个多维变量之间线性关系的方法，其基本思想为：假设{x，y}∈R^n×m是两个多维随机变量，则CCA的目标就在于寻找一对投影方向ω_x和ω_y，使得两个投影值ω_x ^Tx和ω_y ^Ty之间的相关性ρ(x，y)达到最大值。利用CCA进行判别分析，即通过对每个训练样本赋予一个二值模式的类隶属度来获得与LDA等价的判别分析方法。

如何合理的设计每个训练样本的类隶属度，并且结合CCA方法求解投影方向，建立输入数据和相应的类隶属度数据之间的关系，从而建立类别索引，对最终的系统的识别率影响很大。目前的一些方法没有有效地解决这些问题，将典型相关分析的模糊判别方法应用于表情识别的研究方法也不够成熟。此外，基于核函数的学习算法是近几年来在非线性特征提取或分类方面广泛采用的方法，其基本思想是将数据映射到一个高维的特征空间中，然后在高维的特征空间中进行线性特征提取问题。基于核函数的典型学习算法包括核主成分分析(KPCA)方法，广义判别分析(GDA)方法，和核典型相关分析(KCCA)方法等。如何将核函数和现有的典型方法相结合并用于表情识别，也是有待解决的问题。

发明内容

本发明的目的就在于解决现有技术的缺陷，设计、研究应用于面部表情识别的典型相关分析的模糊判别分析方法。

本发明的技术方案是：

一种应用于面部表情识别的模糊判别分析方法，其特征在于包括以下步骤：

(1)利用模糊K近邻指定类隶属度；

采用的是模糊K近邻(Fuzzy K-NN)方法为每一个训练样本x_i建立一个与之相关联系的类隶属度矢量s_i ^j(j＝1，2，...，c)；方法流程如下：

(a)计算任意两个训练点x_i和x_j之间的距离，用d_ij＝d(x_i，x_j)表示该距离；

(b)令D是一个N×N矩阵，其元素由d_ij组成，并设D的对角元素为无穷大；

(c)以升序方式来排列D的每列元素，并搜集与所选考虑的样本的最近邻的样本类别标识数；

(d)计算第j个样本对第i类的隶属度：如果i等于第j个训练样本的类别标识数，那么

s_{i}^{j} = 0.51 + 0.49 (n_{i}^{j} / k);

否则

s_{i}^{j} = 0.49 (n_{i}^{j} / k);

(2)运用典型相关分析(CCA)方法寻找训练样本和模糊类隶属度之间的最大相关性投影方向；

CCA的目标是寻找一对投影方向ω_x和ω_y，使得两个投影值ω_x ^Tx和ω_y ^Ty之间的相关性ρ(x，y)达到最大值，即：

{ω_{x}^{*}, ω_{y}^{*}} = \arg \max_{ω_{x}, ω_{y}} ρ (x, y; ω_{x}, ω_{y}) = = \arg \max_{ω_{x}, ω_{y}} {\frac{ω_{x}^{T} {XY}^{T} ω_{y}}{\sqrt{ω_{x}^{T} {XX}^{T} ω_{x}} \sqrt{ω_{y}^{T} {YY}^{T} ω_{y}}}}

这里采用拉格朗日乘子法进行求解上述优化问题；

(3)采用最小二乘回归(LSR)方法来建立输入数据和相应的类隶属度数据之间的关系式，并根据类隶属度数据建立类别索引；

设{(ω_x ⁱ，ω_y ⁱ)}_i＝1 ^t为利用CCA方法求得的t组投影方向，令：

P_{x} = [ω_{x}^{1} ω_{x}^{2} \cdot \cdot \cdot ω_{x}^{t}],

P_{y} = [ω_{y}^{1} ω_{y}^{2} \cdot \cdot \cdot ω_{y}^{t}]

设a_i和b_i(i＝1，2，…，N)分别为x_i和y_i(i＝1，2，…，N)在P_x和P_y上的投影值，则

a_{i} = P_{x}^{T} x_{i},

b_{i} = P_{y}^{T} y_{i}

设存在一个映射函数f(·)使得f(a)＝b，其中a和b分别为x和y到P_x和P_y上的投影；设定f是一个线性变换，则存在一个t×t的矩阵使得Pa≈b；

采用最小二乘回归方法(LSR)来求解矩阵P：

\hat{P} = R_{ba} R_{aa}^{- 1};

在对某个样本进行识别时，令x_test表示该测试样本，y_test表示其相应的类隶属度矢量。令a_test和b_test分别是x_test和y_test在P_x和P_y上的投影值，那么：

y_{test} = {(P_{y} P_{y}^{T})}^{- 1} P_{y} \hat{P} P_{x}^{T} x_{test}

设y_test ⁱ为y_test的第i个元素，则与测试样本最匹配表情类别为：

c^{*} = \arg \max_{i} y_{test}^{i}

在所述的应用于面部表情识别的典型相关分析的模糊判别分析方法中，可以将该方法推广到核空间中，即将输入数据x_i从输入空间Rⁿ映射到特征空间F中，即Φ：Rⁿ→F，x→Φ(x)，其中任意两个点Φ(x)和Φ(y)的内积可以通过核函数k(x，y)计算得到；建立基于核函数的典型相关分析的模糊判别分析方法。

在所述的应用于面部表情识别的典型相关分析的模糊判别分析方法中，所述的模糊K-NN方法需要定义距离度量来计算每个数据点的类隶属度，设两个点x和y之间的距离为，即：

d (x, y) = | | x - y | | = \sqrt{{(x - y)}^{T} (x - y)} .

在所述的应用于面部表情识别的典型相关分析的模糊判别分析方法中，所述的核函数k(x，y)可以选为单项式核或高斯核。

本发明的优点和效果在于：

1.利用模糊K近邻指定类隶属度，改变了传统的判别分析方法要求每个训练样本唯一地隶属于某一类别的模式类型，解决了实际中许多面部表情图像样本并不能简单地归属于某一类别的问题。

2.通过新颖的基于典型相关分析(CCA)的判别分析方法，使每个训练样本类隶属度同多个模式类别建立联系，从而后续使识别更加精确。

3.通过基于最小二乘的回归(LSR)的方法，根据方法建立的关系可以更加有效地预测给定的面部表情的类别，获得比传统方法更好的表情识别效果。

4.利用核主成分分析(KPCA)的特征融合方法，将数据映射到一个高维的特征空间中，在该空间中进行线性特征提取，使得输入的图像特征矢量具有更好的识别特性。

本发明的其他优点和效果将在下面继续描述。

附图说明

图1——样本图像说明

图2——基于JAFFE数据库的平均识别率的比较

图3——基于Ekman面部表情数据库的平均识别率的比较

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

1.利用模糊K近邻指定类隶属度

首先，需要为每一个训练样本x_i建立一个与之相关联系的类隶属度矢量s_i ^j(j＝1，2，…，c)。这里采用的是模糊K近邻(Fuzzy K-NN)方法来求解类隶属度矢量。由于模糊K-NN方法需要定义距离度量来计算每个数据点的类隶属度，设两个点x和y之间的距离为，即：

d (x, y) = | | x - y | | = \sqrt{{(x - y)}^{T} (x - y)}

(式1)

模糊K-NN方法流程如下：

(a)计算任意两个训练点x_i和x_j之间的距离，用d_ij＝d(x_i，x_j)表示该距离。

(b)令D是一个N×N矩阵，其元素由d_ij组成，并设D的对角元素为无穷大。

(c)以升序方式来排列D的每列元素，并搜集与所选考虑的样本的最近邻的样本类别标识数。

s_{i}^{j} = 0.51 + 0.49 (n_{i}^{j} / k);

否则

s_{i}^{j} = 0.49 (n_{i}^{j} / k) .

2.运用典型相关分析(CCA)方法寻找训练样本和模糊类隶属度之间的最大相关性投影方向

令{x_i，s_i ^j}_{i＝1，2，…，N；j＝1，2，…，c}是样本数为N，类别数为c的训练样本集，s_i ^j(j＝1，2，…，c)为该训练样本x_i∈Rⁿ的隶属度矢量，并满足约束条件

Σ_{j = 1}^{c} s_{i}^{j} = 1 .

令

y_{i} = {[s_{i}^{1}, s_{i}^{2}, \cdot \cdot \cdot, s_{i}^{c}]}^{T},

CCA的目标是寻找一对投影方向ω_x和ω_y，使得两个投影值ω_x ^Tx和ω_y ^Ty之间的相关性ρ(x，y)达到最大值，其中：

ρ (x, y; ω_{x}, ω_{y}) = \frac{E {ω_{x}^{T} {xy}^{T} ω_{y}}}{\sqrt{E {ω_{x}^{T} {xx}^{T} ω_{x}}} E {ω_{y}^{T} {yy}^{T} ω_{y}}} = \frac{ω_{x}^{T} E {{xy}^{T}} ω_{y}}{\sqrt{ω_{x}^{T} E {{xx}^{T}} ω_{x}} \sqrt{ω_{y}^{T} E {{yy}^{T}} ω_{y}}}

(式2)

那么在这里，CCA的目标是求解以下的优化问题：

{ω_{x}^{*}, ω_{y}^{*}} = \arg \max_{ω_{x} {, ω}_{y}} ρ (x, y; ω_{x}, ω_{y}) = = \arg \max_{ω_{x}, ω_{y}} {\frac{ω_{x}^{T} {XY}^{T} ω_{y}}{\sqrt{ω_{x}^{T} {XX}^{T} ω_{x}} \sqrt{ω_{y}^{T} {YY}^{T} ω_{y}}}}

(式3)

其中X＝[x₁ x₂…x_N]，Y＝[y₁y₂…y_N]。

采用拉格朗日乘子法进行求解上述问题，则与(式3)相对应的拉格朗日表达式为：

L (ω_{x}, ω_{y}, λ, μ) = ω_{x}^{T} {XY}^{T} ω_{y} - λ (ω_{x}^{T} {XX}^{T} ω_{x} - 1) / 2 - μ (ω_{y}^{T} {YY}^{T} ω_{y} - 1) / 2

(式4)

(式4)两边分别对ω_x和ω_y求偏导并令其为零，可得：

\frac{&PartialD; L}{&PartialD; ω_{x}} = {XY}^{T} ω_{y} - λ {XX}^{T} ω_{x} = 0

(式5)

\frac{&PartialD; L}{&PartialD; ω_{y}} = {YX}^{T} ω_{x} - μ {YY}^{T} ω_{y} = 0

(式6)

从(式5)和(式6)，可得：

μ = λ, ω_{y} = \frac{{({YY}^{T})}^{- 1}}{μ} ω_{x}

(式7)

XY^T(YY^T)^-1YX^Tω_x＝λ²XX^Tω_x (式8)

通过对矩阵XX^T应用完全Cholesky分解，则广义特征方程(式8)可归结为求解一对称矩阵的特征值问题，从而可以得出最优的投影方向ω_z和ω_y。

3. 采用最小二乘回归(LSR)方法来建立输入数据和相应的类隶属度数据之间的关系式，并根据类隶属度数据来建立类别索引。

设{(ω_x ⁱ，ω_y ⁱ)}_i＝1 ^t为利用CCA方法求得的t组投影方向，令

P_{x} = [ω_{x}^{1} ω_{x}^{2} \cdot \cdot \cdot ω_{x}^{t}],

P_{y} = [ω_{y}^{1} ω_{y}^{2} \cdot \cdot \cdot ω_{y}^{t}]

(式9)

假设a_i和b_i(i＝1，2，…，N)分别为x_i和y_i(i＝1，2，…，N)在P_x和P_y上的投影值，则：

a_{i} = P_{x}^{T} x_{i},

b_{i} = P_{y}^{T} y_{i}

(式10)

设存在一个映射函数f(·)使得f(a)＝b，其中a和b分别为x和y到P_x和P_y上的投影。设f是一个线性变换，则存在一个t×t的矩阵P，使得Pa≈b。

采用最小二乘回归方法(LSR)来求解矩阵P，令

ε(P)＝‖Pa-b‖²＝a^TP^TPa-a^TP^Tb-b^TPa+b^Tb (式11)

在(式11)两边分别对P求偏导，并令其值为零，则可得：

\frac{&PartialD; ϵ}{&PartialD; P} = 2 P {aa}^{T} - {2 ba}^{T} = 0

(式12)

由(式12)可得：

Paa^T＝ba^T (式13)

令

R_{aa} = E {{aa}^{T}} = \frac{1}{N} Σ_{i = 1}^{N} a_{i} a_{i}^{T}

(式14)

R_{ba} = E {{ba}^{T}} = \frac{1}{N} Σ_{i = 1}^{N} b_{i} a_{i}^{T}

(式15)

于是，变换矩阵P可以通过下式估计：

\hat{P} = R_{ba} R_{aa}^{- 1}

(式16)

在对某个样本进行识别时，令x_test表示该测试样本，y_test表示其相应的类隶属度矢量。令a_test和b_test分别是x_test和y_test在P_x和P_y上的投影值，则可得：

\hat{P} a_{test} = b_{test}

(式17)

a_{test} = P_{x}^{T} x_{test}

(式18)

b_{test} = P_{y}^{T} y_{test}

(式19)

联合(式17)、(式18)和(式19)，可得

\hat{P} P_{x}^{T} x_{test} = P_{y}^{T} y_{test}

(式20)

于是，(式20)中的投影y_test可以通过下式求解：

y_{test} = {(P_{y} P_{y}^{T})}^{- 1} P_{y} \hat{P} P_{x}^{T} x_{test}

(式21)

c^{*} = \arg \max_{i} y_{test}^{i}

(式22)

4.基于核函数的典型相关分析的模糊判别分析方法

由于核函数在表情识别上具有一定的优越性，在上述基本方法的基础上，可以通过核函数将其推广到核空间中，建立基于核函数的典型相关分析的模糊判别分析方法。

令Φ是一个非线性映射，它将输入数据从输入空间Rⁿ映射到特征空间F中，即Φ：Rⁿ→F，x→Φ(x)，其中任意两个点Φ(x)和Φ(y)的内积可以通过核函数k(x，y)计算得到：

k(x，y)＝(Φ(x))^TΦ(y)(式23)

于是，目标是求解一对投影方向ω_Ф(x)和ω_y，使得相关函数ρ(Ф(x)，y)达到最大值：

ρ (Φ (x), y; ω_{Φ (x)}, ω_{y}) = \frac{ω_{Φ (x)}^{T} Φ (X) Y^{T} ω_{y}}{\sqrt{ω_{Φ (x)}^{T} Φ (X) Φ {(X)}^{T} ω_{Φ (x)}} \sqrt{ω_{y}^{T} {YY}^{T} ω_{y}}}

(式24)

其中Φ(X)＝[Ф(x₁)Ф(x₂)…Φ(x_N)]。

(式24)的优化问题可以采用拉格朗日乘子法进行求解。设{(ω_Ф(x) ⁱ，ω_y ⁱ)}_i＝1 ^t是KCCA的t组投影方向。那么ω_Ф(x) ⁱ可表示为：

ω_{Φ (x)}^{i} = Φ (x) α_{i}

(式25)

其中，α_i是一个N维矢量。

令

P_{Φ (x)} = [ω_{Φ (x)}^{1} \cdot \cdot \cdot ω_{Φ (x)}^{t}],

P_{y} = [ω_{y}^{1} \cdot \cdot \cdot ω_{y}^{t}],

A＝[α₁…α_t]。从而可得P_Ф(x)＝Φ(x)A。设Φ(x_test)为特征空间中的某一测试样本，y_test是其所对应的类隶属度矢量。令a_test和b_test分别表示是Φ(x_test)和y_test在P_Ф(x)和P_y上的投影值，则：

a_{test} = P_{Φ (x)}^{T} Φ (x_{test}) = A^{T} K_{test} b_{test} = P_{y}^{T} y_{test}

(式26)

其中K_test＝(Ф(X)))^TΦ(x_test)能通过核函数计算得到。

根据(式21)，投影y_test可以由下式算得：

y_{test} = {(P_{y} P_{y}^{T})}^{- 1} P_{y} P P_{Φ (x)}^{T} Φ (x_{test}) P_{y}^{T} = {(P_{y} P_{y}^{T})}^{- 1} P_{y} {PA}^{T} K_{test}

(式27)

此外，(式1)中的距离公式可由下式替代：

d (x, y) = | | Φ (x) - Φ (y) | | = \sqrt{{(Φ (x) - Φ (y))}^{T} (Φ (x) - Φ (y))}

= \sqrt{k (x, x) - 2 k (x, y) + k (y, y)}

(式28)

5.性能评价

在两个常用的面部表情数据库进行相应的实验来测试本发明所提出的方法的性能。在基于核函数的典型相关分析的模糊判别分析方法中，分别采用了单项式核和高斯核作为核函数，其定义如下：

(1)单项式核：k(x，y)＝(x^Ty)^d，其中d是单项式核的度.

(2)高斯核：

k (x, y) = \exp {\frac{{| | x - y | |}^{2}}{σ}},

其中σ是高斯核的参数。

实验数据库分别取自日本女性面部表情(JAFFE)数据库和Ekman和Friesen的面部表情图像集。JAFFE数据库中包含213张面部图像，覆盖了由10位日本女性所显示的7种面部表情(高兴、悲伤、惊奇、生气、厌恶、害怕和中性)。对于7种表情中的每一种每个人有两到四张图像。原始图像的灰度级为256。Ekman和Friesen的数据库中包含6位男性和8位女性的共计110张图像。对于7种表情中的每一种每人至多有一到两张图像。每幅图像的灰度级为256。在预处理阶段，从每幅面部图像中手工定位出34个基准点。图1显示了34个基准点的一个示例。

在标定出34个基准点后，取每幅图像在基准点处的Gabor小波的幅值作为该点处的面部表情特征，其中，Gabor核的定义如下：

ψ_{u, v} = \frac{{| | k_{u, v} | |}^{2}}{σ^{2}} \exp (- \frac{{| | k_{u, v} | |}^{2} {| | z | |}^{2}}{2 σ^{2}}) [\exp ({ik}_{u, v} \cdot z) - \exp (- \frac{σ^{2}}{2})]

(式29)

其中u和v表示了Gabor核的方向和尺度，k_u，v的定义如下：

k_u，v＝k_vexp(iφ_u)(式30)

其中k_v＝π/2^v(v∈{1，2，…，5})，φ_u＝πu/6(u∈{0，1，2，…，5})。

因此，在34个基准点处的所有特征组成一个1020维的矢量。考虑到本实验采用的表情数据库的数据比较少，采用“leave-one-class-out”交叉验证实验策略来进行实验。在“leave-one-class-out”交叉验证实验中，取某一类别的所有图像都被作为测试数据，而剩余的图像作为训练数据。这种过程重复进行直到每一类数据都被用作一次测试数据。实验以平均识别率作为最终的表情识别率。为了对比分析，同时分别采用了GDA方法、LDA方法和KCCA方法进行了同样的实验。图2和图3分别显示了基于JAFFE数据库和Ekman和Friesen数据库上的各种系统的结果。从图2和图3可以看出，本文提出的方法获得了最好的性能。

Claims

1.一种应用于面部表情识别的模糊判别分析方法，其特征在于包括以下步骤：

(1)利用模糊K近邻指定类隶属度；

采用的是模糊K近邻(Fuzzy K-NN)方法为每一个训练样本x_i建立一个与之相关联系的类隶属度矢量s_i ^j(j＝1，2，…，c)；该方法流程如下：

s_{i}^{j} = 0.51 + 0.49 (n_{i}^{j} / k);

否则

s_{i}^{j} = 0.49 (n_{i}^{j} / k);

{ω_{x}^{*}, ω_{y}^{*}} = \arg \max_{ω_{x}, ω_{y}} ρ (x, y; ω_{x}, ω_{y}) = = \arg \max_{ω_{x}, ω_{y}} {\frac{ω_{x}^{T} {XY}^{T} ω_{y}}{\sqrt{ω_{x}^{T} {XX}^{T} ω_{x}} \sqrt{ω_{y}^{T} {YY}^{T} ω_{y}}}}

这里采用拉格朗日乘子法进行求解上述优化问题；

P_{x} = [ω_{x}^{1} ω_{x}^{2} . . . ω_{x}^{t}],

P_{y} = [ω_{y}^{1} ω_{y}^{2} . . . ω_{y}^{t}]

a_{i} = P_{x}^{T} x_{i},

b_{i} = P_{y}^{T} y_{i},

采用最小二乘回归方法(LSR)来求解矩阵P：

\hat{P} = R_{ba} R_{aa}^{- 1};

在对某个样本进行识别时，令x_test表示该测试样本，y_test表示其相应的类隶属度矢量；令a_test和b_test分别是x_test和y_test在P_x和P_y上的投影值，那么：

y_{test} = {(P_{y} P_{y}^{T})}^{- 1} P_{y} \hat{P} P_{x}^{T} x_{test}

c^{*} = \arg \max_{i} y_{test}^{i}

2.根据权利要求1所述的一种应用于面部表情识别的模糊判别分析方法，其特征在于，可以将该方法推广到核空间中，即将输入数据x_i从输入空间Rⁿ映射到特征空间F中，即Φ：Rⁿ→F，x→Φ(x)，其中任意两个点Φ(x)和Φ(y)的内积可以通过核函数k(x，y)计算得到；建立基于核函数的典型相关分析的模糊判别分析方法。

3.根据权利要求1所述的一种应用于面部表情识别的模糊判别分析方法，其特征在于，所述的模糊K-NN方法需要定义距离度量来计算每个数据点的类隶属度，设两个点x和y之间的距离为，即：

d (x, y) = | | x - y | | = \sqrt{{(x - y)}^{T} (x - y)} .

4.根据权利要求1所述的一种应用于面部表情识别的模糊判别分析方法，其特征在于，所述的核函数k(x，y)可以选为单项式核或高斯核。