CN104881639B

CN104881639B - 一种基于层次tdp模型的人脸检测、分割和表情识别方法

Info

Publication number: CN104881639B
Application number: CN201510245196.5A
Authority: CN
Inventors: 毛启容; 张飞飞; 于永斌; 罗新; 屈兴; 詹永照
Original assignee: Jiangsu University
Current assignee: JIANGSU START DIMA DATA PROCESSING Co.,Ltd.
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2018-06-26
Anticipated expiration: 2035-05-14
Also published as: CN104881639A

Abstract

本发明公开了一种基于层次TDP模型的自然人脸检测、分割和表情识别方法，首先对原始图像进行预处理，提取SIFT特征以及对应的位置信息，再采用一种有效的迁移狄利克雷过程将这两种特征组合得到的具有几何约束的特征向量输入到TDP模型，得到第一层的结果——人脸与非人脸。分割完成的人脸作为第二层的输入，经过相同的过程得到子区域的分割结果。最终将子区域作为第三层——人脸表情识别层的输入，经过同样的特征提取与组合，得到人脸图像的表情识别结果。本发明解决了传统多姿态表情识别中需要为每种姿态分别建立模型，以及由于姿态等因素造成模型识别率低的问题，能够有效地提高多姿态人脸图像表情识别的准确率。

Description

一种基于层次TDP模型的人脸检测、分割和表情识别方法

技术领域

本发明属于情感识别领域，具体涉及一种基于层次TDP模型的自然环境下人脸检测、分割和表情识别的方法。

背景技术

心理学家J.A.Russell提出，在人们日常的交流中，只有7％的信息是通过语言来传递的，而55％的信息则是通过面部表情来传递的。由此可见面部表情是一种非常重要的信息传递方式，它是人类行为的一种丰富的信息源，可以传达很多语言所不能传达的信息。近年来，随着一些应用的不断完善，促进了人脸表情识别技术的发展。

在A.S.Willsky等人，题为“Describing Visual Scenes Using TransformedObjects and Parts”的论文中，利用迁移狄利克雷过程TDP学到一个复杂场景中某一区域所属的类别，该方法通过组合几何特征和纹理特征来提高识别率，但只能应用于特定角度的情景图像，而不适用于多角度的自然人脸图像。除此之外，在P.Liu等人，题为“FacialExpression Recognition via a Boosted Deep Belief Network”的论文中，把传统学习中独立的特征提取，特征选择以及人脸表情识别过程在一个统一的级联的深度神经网络中完成，该方法通过利用上下文的语义信息来提高人脸表情的识别率，但特征提取仍然是基于一张完整的人脸，经过特征选择来选取对人脸表情识别贡献最大的特征，但由于特征选择方法的局限无法保证选出的特征是否是最能满足人脸表情识别的特征。目前还未出现一种统一的模型可以高效准确的识别自然环境下的情感。

发明内容

本发明的目的在于提供一种基于层次TDP模型的自然环境下人脸检测、分割和表情识别方法，使得训练得到的模型不受姿态，光照等因素的干扰，高准确率地识别各种姿态下的人脸表情图片的表情状态。

为了解决以上问题，本发明首先对原始图像进行预处理，提取SIFT特征以及对应的位置信息，再采用一种有效的迁移狄利克雷过程将这两种特征组合得到的具有几何约束的特征向量输入到TDP模型，得到第一层的结果——人脸与非人脸。分割完成的人脸作为第二层的输入，经过相同的过程得到子区域(眼睛，鼻子，嘴巴，眉毛，前额)的分割结果。最终将子区域作为第三层——人脸表情识别层的输入，经过同样的特征提取与组合，得到人脸图像的表情识别结果。另外，我们在TDP模型中加入姿态控制参数，使我们的方法可以在一个统一的模型中适应多姿态的人脸图像的表情识别。具体技术方案如下：

一种基于层次TDP模型的自然人脸检测、分割和表情识别方法，包括以下步骤：

S1，样本图片的特征提取：对输入的原始图像进行图像二值化得到灰度图像，通过寻找具有显著二阶导数的像素点得到感兴趣的角点，然后通过边缘检测器得到角点边缘信息，连接得到感兴趣椭圆区域；对每一个感兴趣的椭圆区域提取128维SIFT特征以及相应的二维位置信息，对128维的SIFT特征通过K-means进行降维，与位置信息组合得到具有几何约束的三维特征向量；

S2，人脸检测与分割层训练：步骤S1所得三维特征向量作为模型第一层的输入，通过加入姿态参数c，训练得到一个可以适应多姿态人脸检测与分割子模型，并将分割完成的人脸图像作为下一层的输入；

S3，子区域的检测与分割层的训练：对步骤S2所检测的人脸图片，采用步骤S1的方法进行特征提取，将提取的特征作为模型第二层子区域分割层的输入，训练得到子区域检测与分割子模型，将分割得到的与表情最相关的子区域作为模型第三层人脸表情识别层的输入，其余区域丢弃；

S4，人脸表情识别层的训练：将步骤S3检测得到的子区域采用步骤S1的方法进行特征提取，得到的具有几何约束的特征向量作为模型最后一层人脸表情识别层的输入，通过姿态信息的引入训练得到可以适应多姿态的人脸表情识别模型。

S5，人脸测试图片中人脸表情的识别：采用S1中的特征提取方法提取待识别人脸表情图像的特征，然后依次输入S2，S3，S4中训练得到的人脸检测与分割层，子区域的检测与分割层和人脸表情识别层，最终得到待识别人脸表情图像中人脸所表现的表情类别。

进一步，所述步骤S1中具有几何约束的三维特征向量形成的具体过程为：对得到的椭圆区域进行特征提取，得到椭圆区域的二维位置信息，以及128维SIFT特征信息。对128*n维SIFT特征通过k-means进行降维得到1*n维信息，结合二维坐标信息得到三维特征向量作为训练模型的输入信息。

进一步，所述步骤S2中适应多姿态人脸检测与分割子模型为：通过引入姿态参数c，使EIR的特征表情t不仅仅用类别标签m来标注，而是将t表示为t＝c·m来标注一张训练图片中的每一个EIR，从而得到一个可以多姿态的人脸检测与分割的统一的子模型。

进一步，所述步骤S3中分割得到与表情最相关的子区域的具体过程为：经过多次迭代循环之后得到多个子区域对应的不同分布，对一张测试图片，判断它所拥有的N个EIR属于每个子区域的概率，然后根据最大似然估计值得到每个EIR所属的类别，然后对其进行划分，即可将一张测试图片划分为多个子区域。

进一步，所述步骤S5学习得到待检测图片的人脸表情类别的具体过程如下：经过多次迭代循环之后学习得到每张人脸图像所属的人脸表情类别所对应的不同分布，对一张人脸表情图像，判断这张人脸表情图像属于每种表情类别的概率，取其最大似然估计值得到一张人脸表情图像所属的人脸表情类别。

本发明具有有益效果。本发明的基于层次TDP模型的自然环境下人脸检测、分割和表情识别统一框架，通过引入姿态参数到TDP模型中，使得不同姿态人脸图像的人脸检测、子区域分割以及表情识别可以在一个完整统一的模型中进行，而无需再为每一种姿态分别建立不同的识别模型。特点是通过姿态参数控制主题分布，通过联合几何特征与纹理特征形成一种几何约束来提高识别的准确率以及模型对姿态，光照等因素的鲁棒性。使得学习到的模型不受姿态，光照等因素的干扰，准确地识别各种姿态下的人脸表情图片的表情类别。本发明解决了传统多姿态表情识别中需要为每种姿态分别建立模型，以及由于姿态等因素造成模型识别率低的问题，能够有效地提高多姿态人脸图像表情识别的准确率。

附图说明

图1是基于TDP模型的多层次自然人脸检测、分割和表情识别流程图；

图2是特征提取流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1给出了本发明的总体思路。该方法分为三个层次，如图1中所示，在第一层中，首先对输入的图像进行预处理得到灰度图，然后对得到的灰度图像进行特征提取得到具有几何约束的特征向量送入模型第一层——人脸检测层，训练得到人脸检测子模型，检测得到人脸图像送入模型第二层——子区域检测层，训练得到子区域分割子模型，在第二层中，经过与第一层相同的过程得到子区域以及背景，对子区域进行特征提取送入模型第三层——人脸表情识别层，最终训练得到人脸表情识别子模型。对于一张测试图片经过同样的特征提取过程，送入第一个子模型人脸检测子模型检测得到人脸。然后将检测到的人脸区域送入第二个子模型子区域分割子模型分割得到关键子区域。最后送入人脸表情识别子模型进行人脸表情识别。

特征的详细提取过程如图2所示，对于预处理后的灰度图像，经过Harris-affine不变区域检测算法检测出图像中具有显著二阶导数的像素点作为角点，然后通过高斯拉普拉斯算子得到每个角点的特征尺度，最后利用最大稳定极值区域MSER算法得到具有仿射不变性的椭圆区域。基于这些仿射不变区域提取128维的SIFT特征以及每个仿射不变区域所对应的二维位置信息，对于128维的SIFT特征通过K-means算法降维，然后与二维的位置信息组合得到具有几何约束的特征向量。

本发明首先对图片进行二值化得到灰度图像，在灰度图像上提取具有仿射不变性的区域，基于此不变区域提取SIFT特征与位置信息，从而构成几何约束，然后利用多层次的迁移狄利克雷过程逐步地完成自然环境下人脸表情识别：第一步，人脸分割；第二部，子区域(眼睛，鼻子，嘴巴，眉毛，前额)的分割。第三步，人脸表情识别。

1模型训练过程：

1.1人脸检测子模型训练过程如下：

1.1.1样本图片的特征提取：首先对输入的原始图像进行图像二值化得到灰度图像，通过寻找具有显著二阶导数的像素点得到感兴趣的角点，然后通过边缘检测器得到角点边缘信息，连接得到感兴趣椭圆区域；通过变量scale——每个像素点所属角度，控制椭圆区域的密度，对得到的椭圆区域进行特征提取，产生133*n的特征信息，其中n表示椭圆区域的数量，前两行数据对应n个椭圆区域的(x，y)坐标信息，即每个椭圆区域的位置信息，第三行至第五行对应角度信息，最后为128维SIFT特征信息。

1.1.2图像表示：对128*n维SIFT特征通过k-means进行聚类、降维得到1*n维的特征信息，结合二维坐标信息得到具有几何约束的三维特征向量作为训练模型的第一层输入信息。由于此三维特征向量同时包含了几何特征以及纹理特征，因此在模型的学习过程中构成了几何约束，从而提高了模型对于姿态，光照等因素的鲁棒性。

1.1.3人脸检测与分割层训练：步骤1.1.1所得三维特征向量作为模型第一层的输入，通过加入姿态参数c，训练得到一个可以适应多姿态人脸检测与分割子模型，并将分割完成的人脸图像作为下一层的输入。适应多姿态人脸检测与分割子模型为：通过引入姿态参数c，使每个椭圆不变区域EIR的特征表情t不仅仅用类别标签m来标注，而是将t表示为t＝c·m来标注一张训练图片中的每一个EIR，从而得到一个可以适应多姿态的人脸检测与分割的统一的子模型。首先介绍迁移狄利克雷过程中涉及的几个基本定义：

(1).假设有J张实验图片，包含了C种姿态以及M种标签(第一层的标签为人脸与非人脸，第二层的标签为眼睛，鼻子，嘴巴，眉毛，前额与背景，第三层的标签为八种基本表情)，每个椭圆不变区域EIR是一张图片的最小表示单元，因此EIR可以表示如下：

EIR{i}＝(v，w，t) (1)

其中，v表示每个椭圆区域的位置信息，w表示纹理特征，t为类别标签，t＝c·m，且姿态参数c＝{1，…，C}，类别标签m＝{1，…，M}，其中c即为我们所加入的控制实验图片姿态的参数。

(2).建立位置信息与纹理特征之间的联系：通过二维特征向量ρ_j建立位置信息与纹理特征之间的联系，从而在训练过程中形成了不同的椭圆区域之间的联系，使它们具有几何约束，从而提高了模型对姿态、光照等因素的鲁棒性。ρ_j服从高斯分布，可以表示如下：

ρ_j～N(ζ_m，γ_m) (2)

其中，(ζ_m，γ_m)服从正态-逆Wishart先验分布。

(3).对于任意一张姿态为c的图像，通过参数π来决定主题分布，π服从多项分布π～p(π|c，α)。

其中，p(·)为多项分布，α为满足狄利克雷分布的超参数，它是一个由C×K得到的矩阵，其中K是主题的个数且由模型学习得到。

(4).对于一张姿态为c的任意原始图像j，它可由N个椭圆不变区域EIR组成，因此j可以表示为j＝(EIR{1}，EIR{2}，...，EIR{N}，然后对于每一个EIR由EIR_n～p(EIR_n|z_n，η)选取它所属的主题。

其中z_n～p(z_n|π)，p(·)表示主题的多项分布，z_n是一个K维的向量单元，且η是一个K×T的矩阵，T是由特征表中特征的数量决定的。

(5).由以上基本定义可得：

一张图片的特征分布可以表示为：

由此，一个不变椭圆区域以及它所属主题之间的关系可以通过一个无限混合模型得到，表示如下：

其中，

p(c|η)＝Mult(c|η) (5)

p(w_ji|z_ji，η_k)＝Mult(w_ji|z_ji，η_k) (7)

通过公式(4)得到了每一个椭圆不变区域EIR的表示，然后通过吉布斯采样学习进行人脸检测子模型的训练，采样方法采取马尔科夫链蒙特卡罗(MCMC)方法。

通过中国餐馆模型可以形象化的了解模型采样的过程，具体描述如下：假设有任意一个餐馆(每一个餐馆相当于一张任意姿态的图片)，所有的餐馆拥有共同的菜品(每种菜品相当于模型中的一种主题)，每个餐馆不断的进入的新的客人(每个客人相当于每张图片中的每个EIR)。每位客人进入可以选择一个已有的桌子或者是选择一张新的桌子(每张桌子对应于唯一一个潜在的物体类别，即每张桌子上的客人只可以点一道相同的菜品)，然后待所有客人进入完毕，为每张桌子上的客人选择一道菜品，所有的餐馆都经过相同的过程，这样就相当于将每张图片中具有相同属性的EIR划分在一起，然后送入模型进行迭代循环学习。但是我们的模型与传统的中国餐馆模型不同，对于进入的每位客人，我们不仅用传统的纹理特征去表示，还会记录每位客人的位置(即每个椭圆不变区域在一张图片中的位置)，通过几何信息形成几何约束，从而提高模型对姿态以及光照等因素的鲁棒性。

下面对此过程进行形式化的学习：

假设一张图片j中有N_j个特征属于人脸，设其中o表示不断进入的客人，z表示潜在的主题，t表示每个EIR位置信息所对应向量中的位置，且t～π。对{1，2，…，N_j}采取随机置换τ(·)，那么可有i∈{τ(1)，...，τ(N_j)}。那么对于特征(w_ji，v_ji)的一次分配过程可表示如下：

(1).将特征(w_ji，v_ji)从它当前所属的主题的移出：

其中，Mt表示属于某个主题的桌子的个数，E_kw表示某一主题下对应的纹理特征数量，表示某一主题下对应的几何特征，表示将此位置特征从当前主题中移出。

(2).确定主题的先验分布：

(3).通过学习对不同的EIR选取其新的所属主题：

(4).然后将特征重新加入它所属新的主题中：

(5).当所有特征向量均经历步骤(1)-(4)之后，固定更新特征向量之间所具有的几何约束：

几何约束满足高斯分布其中χ_j表示高斯分布的均值，Ξ_j表示方差。重复(1)-(5)，经过多次迭代循环之后，得到人脸检测子模型，人脸与非人脸对应不同分布

1.2子区域(眼睛，鼻子，嘴巴，眉毛，前额)分割子模型训练过程如下：

子区域的检测与分割层的训练：对步骤1.1.3所检测的人脸图片，采用步骤1.1.1的方法进行特征提取，将提取的特征作为模型第二层子区域分割层的输入，训练得到子区域检测与分割子模型，将分割得到的与表情最相关的子区域作为模型第三层人脸表情识别层的输入，其余区域丢弃。其中分割得到与表情最相关的子区域的具体过程为：经过多次迭代循环之后得到的多个子区域对应的不同分布，对一张测试图片，判断它所拥有的N个EIR属于每个子区域的概率，然后根据最大似然估计值得到每个EIR所属的类别，然后对其进行划分，即可将一张测试图片划分为多个子区域。

1.2.1采用1.1.1中的方法，对得到的人脸图像进行灰度化并提取特征。

1.2.2采用1.1.2中的方法，对提取到的特征通过K-means进行降维。

1.2.3采用1.1.3所述的方法，对每个EIR进行表示，然后对1.2.2中得到的每一个不变椭圆区域EIR通过吉布斯采样学习进行模型训练，采样方法仍然采取马尔科夫链蒙特卡罗(MCMC)方法。训练完成得到子区域分割子模型。

1.3.人脸表情识别子模型训练过程如下：

人脸表情识别层的训练：将步骤1.2检测得到的子区域采用步骤1.1.1的方法进行特征提取，得到的具有几何约束的特征向量作为模型最后一层人脸表情识别层的输入，通过姿态信息的引入训练得到可以适应多姿态的人脸表情识别模型。

1.3.1采用1.1.1中的方法，对得到的子区域(眼睛，鼻子，嘴巴，眉毛，前额)进行灰度化并提取特征。

1.3.2采用1.1.2中的方法，对提取到的特征通过K-means进行降维，然后对五个子区域(眼睛，鼻子，嘴巴，眉毛，前额)的特征进行有区分的组合。

1.3.3采用1.1.3所述的方法，对每个EIR进行表示。对1.3.2中得到的每一个不变椭圆区域EIR通过吉布斯采样学习进行模型训练，采样方法仍然采取马尔科夫链蒙特卡罗(MCMC)方法。通过姿态信息的引入训练得到可以适应多姿态的人脸表情识别子模型。

2待测人脸图像表情识别过程：

2.1人脸检测过程如下：

采用1.1.3经过多次迭代循环之后得到的人脸与非人脸对应的不同分布对一张未知测试图片j：

2.1.1假设它有N个椭圆不变区域，那么每个椭圆不变区域属于人脸或者非人脸的概率可

以表示为：

2.1.2取其最大似然估计值得到每个椭圆不变区域最终所属的类别：

m＝argmax_mp(j|m) (15)

2.1.3将N个椭圆不变区域划分为两类——人脸与非人脸。

2.2人脸关键子区域分割过程如下：

采用1.2.3经过多次迭代循环之后得到的多个子区域对应的不同分布，对一张由2.1得到的人脸图像：

2.2.1通过2.1.1中公式(14)得到每个椭圆不变区域属于每个子区域的概率。

2.2.2对2.2.1中得到的概率采用2.1.2中公式(15)，取其最大似然估计值得到每个椭圆不变区域所属的类别。

2.2.3将N个椭圆不变区域划分为六类——眼睛，鼻子，嘴巴，眉毛，前额以及背景。

2.3人脸表情识别过程如下：

采用步骤1.1.1中的特征提取方法提取待识别人脸表情图像的特征，然后依次输入步骤1.1.3，1.2，1.3中训练得到的人脸检测与分割层，子区域的检测与分割层和人脸表情识别层，最终得到待识别人脸表情图像中人脸所表现的表情类别。具体过程为：

采用1.3.3经过多次迭代循环之后学习到的每张人脸图像所属的人脸表情类别所对应的不同分布，对一张人脸表情图像：

2.3.1通过2.1.1中的公式(14)得到这张人脸表情图像属于每种表情类别的概率。

2.3.2对2.3.1中得到的概率采用2.1.2中公式(15)，取其最大似然估计值得到一张人脸表情图像所属的人脸表情类别。

综上所述，本发明公开了一种基于层次TDP模型的自然环境下人脸检测、分割和表情识别的统一框架，在该统一框架下，把人脸表情识别分为三个步骤：多姿态的人脸检测与分割，子区域(眼睛，鼻子，嘴巴，眉毛，前额)的分割，以及人脸表情识别，每一步均采用TDP模型。首先，对完整的图像进行预处理得到SIFT特征以及对应的位置信息，然后将这两种特征组合得到的特征向量输入模型第一层——人脸检测层，检测出人脸与非人脸，分割得到的人脸图像作为模型第二层——子区域检测层的输入，检测得到人脸关键子区域。最终提取到的子区域的特征输入到模型第三层——人脸表情识别层，最终得到人脸图像的表情类别。通过以上三个步骤得到一个多层次、统一的自然人脸表情识别方法。通过引入姿态控制参数使模型可以适应多姿态的人脸表情识别。因此本发明解决了多姿态人脸表情识别需要分别针对人脸检测、人脸分割和表情识别建立不同模型，以及由于多姿态因素导致人脸表情识别准确率不高的问题。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于层次TDP模型的自然人脸检测、分割和表情识别方法，其特征在于，包括以下步骤：

S4，人脸表情识别层的训练：将步骤S3检测得到的子区域采用步骤S1的方法进行特征提取，得到的具有几何约束的特征向量作为模型最后一层人脸表情识别层的输入，通过姿态信息的引入训练得到可以适应多姿态的人脸表情识别模型；

2.根据权利要求1所述的基于层次TDP模型的自然人脸检测、分割和表情识别方法，其特征在于，所述步骤S1中具有几何约束的三维特征向量形成的具体过程为：对得到的椭圆区域进行特征提取，得到椭圆区域的二维位置信息，以及128维SIFT特征信息；对128*n维SIFT特征通过k-means进行降维得到1*n维信息，其中，n为椭圆区域的数量，结合二维坐标信息得到三维特征向量作为训练模型的输入信息。

3.根据权利要求1所述的基于层次TDP模型的自然人脸检测、分割和表情识别方法，其特征在于，所述步骤S2中多姿态人脸检测与分割子模型为：通过引入姿态参数c，使一张图片的最小表示单元EIR的特征表情t不仅仅用类别标签m来标注，而是将t表示为t＝c·m来标注一张训练图片中的每一个EIR,从而得到一个可以适应多姿态的人脸检测与分割的统一的子模型。

4.根据权利要求1所述的基于层次TDP模型的自然人脸检测、分割和表情识别方法，其特征在于，所述步骤S3中分割得到与表情最相关的子区域的具体过程为：经过多次迭代循环之后得到多个子区域对应的不同分布，对一张测试图片，判断它所拥有的N个一张图片的最小表示单元EIR属于每个子区域的概率，然后根据最大似然估计值得到每个EIR所属的类别，然后对其进行划分，即可将一张测试图片划分为多个子区域。

5.根据权利要求1所述的基于层次TDP模型的自然人脸检测、分割和表情识别方法，其特征在于，所述步骤S5学习得到待检测图片的人脸表情类别的具体过程如下：经过多次迭代循环之后学习得到每张人脸图像所属的人脸表情类别所对应的不同分布，对一张人脸表情图像，判断这张人脸表情图像属于每种表情类别的概率，取其最大似然估计值得到一张人脸表情图像所属的人脸表情类别。