CN109344760A

CN109344760A - 一种自然场景下人脸表情数据集的构建方法

Info

Publication number: CN109344760A
Application number: CN201811122881.9A
Authority: CN
Inventors: 叶继华; 刘燕; 甘荧; 薛声军; 王明文; 李汉曦; 王仕民
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-02-15

Abstract

本发明公开了一种自然场景下人脸表情数据集的构建方法，包括对所有的图像进行裁剪，并灰度化为120×120的灰度图像；使用软件MATLAB中的GUI设计界面，对每组灰度图像继续标注，标注项目为人脸部件的状态标签和表情标签；并进行Kappa一致性检验，进而生成mat标签文件并存储该mat标签文件；并对建立的人脸表情数据库进行测试，且与Cohn‑Kanade表情数据库和JAFFE人脸表情数据库对比。本发明能准确地给出人脸表情的眉、眼、嘴和人脸角度的详细状态，以及表情。FELW数据库图像众多，表情分类丰富，为训练深度卷积神经网络提供了可靠的数据支撑，可用于人脸表情识别系统。

Description

一种自然场景下人脸表情数据集的构建方法

技术领域

本发明涉及人脸表情识别技术领域，具体指的是一种自然场景下人脸表情数据集的构建方法。

背景技术

人脸表情识别技术是涉及生物特征识别、图像处理、运动跟踪、机器视觉、模式识别、生理学、心理学等研究领域的一个富有挑战性的交叉课题，是多年以来模式识别与人工智能领域研究的一个热点问题。

目前在人脸表情识别研究中使用最广泛的是CMU的Cohn-Kanade数据库，在很多研究中被列为算法比较的标准。Cohn-Kanade数据库是基于AU编码的数据库，含有210个对象的大约2000个图像序列，每个人有一系列的脸部活动，包括单个AU或者AU组合。其次，日本ATR的女性表情数据库(JAFFE)也得到较多使用。JAFFE是以7种基本表情为基础的数据库，包括10位日本女性,每种表情有大约3、4幅图像,总共213幅图像。此外还有一些可以应用于人脸表情识别的数据库，如Lucey等人在2010改进的CK+表情数据集，Yale人脸数据库和CMU的PIE数据库等。

这些数据库都是在特定条件下采集的图像或图像序列，目标对象和表情分类都很单一，并且图像数量比较少。目前很多的人脸表情识别系统的报告成果都是在特定的数据库上实验进行的。随着人脸表情识别的研究深入，出现了具有较好泛化能力的人脸识别算法，对于多个人脸表情数据库都能适应，迫切需要一个自然场景下，图像数量大，表情分类更丰富(十种表情)且随机性较高的人脸数据库。

深度卷积神经网络是目前图像识别领域的前沿技术，在人脸表情识别上具有广泛的应用，具有较好的识别效果。其本质上是一种特征学习算法，采用监督学习策略，从表情数据库中提取表情特征，进而实现人脸表情分类。通常也用来测试人脸表情数据库的优越性，通过对不同的表情数据集进行相同的测试，然后对比测试结果，同时结合Fisher线性判别，两步分类和特征选择线性规划法等经典方法的结果进行横向对比。

发明内容

本发明为了解决现有技术的上述不足，提出了一种自然场景下人脸表情数据集的构建方法。以提供图像数量众多的，且能准确地给出人脸表情的眉，眼，嘴，人脸角度的详细状态和表情的数据库，并使用该方法建立一个自然场景下的人脸表情数据集(the FacialExpression Datasets in the wild，FELW)，为人脸表情识别技术中训练深度卷积神经网络提供数据支持。

为了解决上述技术问题，本发明采用以下技术方案：(1)在互联网上批量下载自然场景下的人脸图像，对所有的图像进行裁剪，并灰度化为120×120的灰度图像；

(2)使用软件MATLAB中的GUI设计界面，将上述灰度图像分为4个组，对每组灰度图像继续标注，标注项目为人脸部件的状态标签(Part_Label)和表情标签(Emotion_Label)；

(3)对标注完成的同一组的灰度图像的标签数据进行融合，并进行Kappa一致性检验，进而生成mat标签文件并存储该mat标签文件；

(4)给生成的mat标签文件建立人脸表情数据库(FELW)，并对建立的人脸表情数据库进行测试，且与Cohn-Kanade表情数据库和JAFFE人脸表情数据库对比。

进一步地，在步骤(1)中的互联网上批量下载的人脸图像的图像收集方案包括为通过互联网收集不同年龄、种族、性别的人脸表情图像，并使用自动人脸检测程序，裁剪得到人脸图像。

进一步地，在步骤(2)中所述的人脸部件的状态标签包含了人脸的角度、眉、眼、嘴4大类，共计16个状态的状态标签项目；所述的表情标签包含10类表情和置信度，表情分别为平(中性)、喜(高兴)、怒(生气)、哀(悲伤)、惊(惊讶)、恐(恐惧)、恶(厌恶)、羞(害羞)、傲(傲慢)、鄙视。

进一步地，在步骤(3)中进行的Kappa一致性检验的方法包括用Kappa系数来检验两种检验结果是否一致，对3组EmotionLabel两两进行Kappa一致性检验。Kappa检验的公式为其中，p_e是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。

与现有技术相比，本发明的有益效果如下：

1.能准确地给出训练深度卷积神经网络所需要的人脸状态标签和表情标签。本发明提出的人脸表情图像数据库的构建方法，针对图像并不全是正脸，添加各个角度方位的状态标签；然后对人脸部件的状态标签和表情标签进行标注；为了保证标签信息的准确性，每组图像都是由3位志愿者进行单独标注，然后进行Kappa一致性检验，融合为标签信息。

2.能提供图像数量众多的，人脸表情分类丰富的数据库，为训练良好性能的人脸表情识别算法提供数据支持。深度卷积神经网络的特征提取能力不仅仅取决于网络架构，还依赖于所使用的数据库。现有的人脸表情数据库都是在特定条件下采集的图像或图像序列，目标对象和表情分类都很单一，并且图像数量比较少，很难检验深度卷积神经网络的真实优越性和适应性。本发明提出的人脸表情图像数据库的构建方法，原始图像的来源都是互联网，数据集的图像数量众多，表情分类丰富。为训练良好性能的人脸表情识别算法提供数据支持。

附图说明

图1为本发明的实现流程图；图2为本发明的裁剪后的灰度图像样本图；

图3为本发明的标注界面；图4为本发明的人脸部分的状态示例图。

具体实施方式

下面结合附图和实施例对发明进行详细的说明。

如图1所示，本发明提出的自然场景下人脸表情数据集的构建方法，步骤一：在互联网上批量下载自然场景下的人脸图像，裁剪，灰度化为120x120的灰度图像

本实例以从互联网任意收集到的自然场景下的人脸图像为例，对图像进行人脸检测，裁剪，灰度化。收集的原始图像为任意自然场景下的人脸图像。本实例中，批量从互联网收集了300K张自然场景下的人脸图像。然后采用自动人脸检测程序，获得26848张人脸图像。为保证图片规格的一致性，对得到的人脸图像进行自动裁剪，灰度化成120x120的灰度图。灰度图样本如图2所示。

步骤二：用MATLAB中的GUI设计界面，对灰度图进行状态和表情标注

将灰度图分为4个组，每组由3个人标注。挑选12位志愿者(一年级到四年的本科生各为3人)对26848张灰度图像进行主观评测，标注人脸部件的状态标签(Part_Label)和表情标签(Emotion_Label)。

其中，在用MATLAB中的GUI设计界面中，标注界面如图3所示。状态标签(Part_Label)包括人脸的角度、眉、眼、嘴四个子类。其中人脸的角度有5个状态，眉的标签具有4个状态，眼的标签具有3个状态，嘴的标签具有4种状态。表情标签(Emotion_Label)包含10个状态，分别是平(中性)、喜(高兴)、怒(生气)、哀(悲伤)、惊(惊讶)、恐(恐惧)、恶(厌恶)、羞(害羞)、傲(傲慢)、鄙视。

由于图像并不全是正脸，首先添加人脸的角度标签。人脸的角度标签状态有，正脸、左侧脸、右侧脸、仰视、俯视。对眉毛的标签，设定4个状态，分别为弯眉、皱眉、眉毛上竖和平直。对眼睛标签设置3个状态，分别为睁眼、闭眼、瞪眼。对嘴巴标签设置了4个状态，分别为嘴角上扬(通过观察嘴巴是否上扬辅助判断)、嘴角下垂(通过观察嘴部形成的弧线是否朝下进行辅助判断)、张嘴(通过观察嘴巴是否张开或形成一个O形进行辅助判断)、咬牙(在能看到牙齿的情况下，观察待标注图像中的对象是否咬牙切齿)。

Emotion_Label是一组1x10的向量。右边是Emotion_Label部分，有十组表情，对表情进行主观判断勾选，勾选框为复选框。然后填写置信度，置信度是标注者自己对整张图像的判断打分，置信度区间为0～5，置信度越高表示判断确认度高，置信度为0表示看不出任何表情，用Cofficient表示置信度。

步骤三：同一组灰度图的3个标签数据进行融合，并进行Kappa一致性检验，生成mat标签文件进行存储

12位志愿者对4组灰度图像进行标注后，Part_Label和Emotion_Label信息存入.mat文件，.mat文件包括EmotionLabel、Name、value、Cofficient。EmotionLabel表示Emotion_Label标签；Name表示表情图像的命名，实验过程中可以通过Name索引到标签对应的表情图像；value表示Part_Label，是一个1x5的向量，每个向量元素对应的是Part_Label部分中每个部件勾选的位置；Cofficient是置信度。

每张表情图像由三个人独立标注，因此标注完成后的FELW包含了灰度表情图像和其对应的三组.mat文件，然后对三组数据的EmotionLabel标签信息两两进行Kappa一致性检验，计算公式如下式：

其中，p_e是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。假设每一类的真实样本个数分别是a₁,a₂,...,a_C，预测出来的每一类样本个数分别是b₁,b₂,...,b_C，样本个数为n，则有p_e计算公式如下式：

三组数据的EmotionLabel标签信息两两进行Kappa一致性检验，k_ij≥0.4(k_ij表示EmotionLabel(i)和EmotionLabel(j)进行Kappa一致性检验得到的Kappa值)时，EmotionLabel(i)和EmotionLabel(j)与其Cofficent值进行下一步计算，公式如下：

其中n表示经过Kappa一致性检验筛选下的EmotionLabel组个数，k表示筛选出下的EmotionLabel组标号，对向量中每个元素四舍五入取整。最后得到的EmotionLabel也是一个软标签，EmotionLabel的向量元素的值也在0～5之间。

由于Part_Label的标注是单选的，将三组数据的PartLabel标签的相同位置的向量元素值进行比较，若三组相同位置的向量元素都不相同，则随机选择一个元素作为最终元素；若三组相同位置的向量元素有任意两个元素相同，则选取这个元素作为最终元素。三组标签数据融合后生成mat标签文件进行存储。

步骤四：对建立的人脸表情数据库(FELW)进行测试，并与Cohn-Kanade数据库和JAFFE人脸表情数据库对比

本发明的表情数据集是大小为120x120像素的图像，表情分类是十类。所以模型输入是120x120的图像矩阵，输出是大小1*10的向量。本文使用了如图3所示的5个人脸表情识别模型，包括2个经典方法和3个深度卷积神经网络模型FERNet(Facial ExpressionRecognition Net)，与Cohn-Kanade数据库，JAFFE表情数据库进行实验对比。实验中随机选取360张图像作为实验样本，train/test＝2：1进行200次实验，取平均值。实验结果下表所示：

表1.5种识别模型在不同数据库中的性能如下表：

对这三组数据集分别用传统人脸表情识别方法和深度学习的人脸表情识别方法实验，本发明方法建立的数据库FELW相比Cohn-Kanade数据库和JAFFE数据库虽然识别率在大多模型的实验结果稍微低些，但是在模型2的算法中识别率也达到了72.22％。识别率低的原因是，本发明方法建立的FELW数据集图像是未经过图像配准的归一化操作，而且图像不是在实验室采集而是在网络上采集的自然场景下的各种类型图片，图像的质量远远比不上现在成熟的人脸表情数据集图像质量，但是在深度学习方法的识别率达到了70％以上的效果，后续还可以继续改进数据集以达到更好的识别率。本方法建立的FELW数据集图像数量众多的，人脸表情分类丰富，能准确提供表情和状态信息，能为深度卷积神经网络模型训练提供数据支持。

Claims

1.一种自然场景下人脸表情数据集的构建方法，其特征在于包括以下步骤：

(1)在互联网上批量下载自然场景下的人脸图像，对所有的图像进行裁剪，并灰度化为120×120的灰度图像；

(2)使用软件MATLAB中的GUI设计界面，将上述灰度图像分为4个组，对每组灰度图像继续标注，标注项目为人脸部件的状态标签和表情标签；

(4)给生成的mat标签文件建立人脸表情数据库，并对建立的人脸表情数据库进行测试，且与Cohn-Kanade表情数据库和JAFFE人脸表情数据库对比。

2.根据权利要求1所述的自然场景下人脸表情数据集的构建方法，其特征在于：在步骤(1)中的互联网上批量下载的人脸图像的图像收集方案包括为通过互联网收集不同年龄、种族、性别的人脸表情图像，并使用自动人脸检测程序，裁剪得到人脸图像。

3.根据权利要求1所述的自然场景下人脸表情数据集的构建方法，其特征在于：在步骤(2)中所述的人脸部件的状态标签包含了人脸的角度、眉、眼、嘴4大类，共计16个状态的状态标签项目；所述的表情标签包含10类表情和置信度，表情分别为平(中性)、喜(高兴)、怒(生气)、哀(悲伤)、惊(惊讶)、恐(恐惧)、恶(厌恶)、羞(害羞)、傲(傲慢)、鄙视。

4.根据权利要求1所述的自然场景下人脸表情数据集的构建方法，其特征在于：在步骤(3)中进行的Kappa一致性检验的方法包括用Kappa系数来检验两种检验结果是否一致，对3组EmotionLabel两两进行Kappa一致性检验。Kappa检验的公式为其中，p_e是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。