CN113936309A

CN113936309A - 一种基于面部分块的表情识别方法

Info

Publication number: CN113936309A
Application number: CN202010673108.2A
Authority: CN
Inventors: 武港山; 王丽
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-01-14

Abstract

一种基于面部分块的表情识别方法，包括以下步骤：1)使用面部分块构建全卷积表情识别网络：面部特征提取阶段采用两个互补型卷积网络，一个为基于图片时间信息的表情识别网络，用于提取整张人脸的整体特征，另一个是基于图片几何信息的表情识别网络，用于提取面部分块的局部特征；2)训练阶段：利用表情识别数据集训练网络，使用交叉熵函数作为损失函数，在过程中采用在线难例样本再训练策略；3)测试阶段：将测试图像输入网络，得到表情识别结果。本发明在特征提取阶段，充分利用图片信息和人脸关键点信息，构建两个互补型小型网络，提取人脸的整体特征和面部分块的局部特征，提高人脸表情识别的鲁棒性。

Description

一种基于面部分块的表情识别方法

技术领域

本发明属于计算机视觉的技术领域，涉及多媒体技术中的图像识别，为一种基于面部分块的表情识别方法。

技术背景

表情识别是对一个给定的静止人脸图像或者动态的人脸图像序列，系统能确定图像中的一个人或者多个人的面部表情。因此表情识别系统大体可以分为两类，一种是静态图片表情识别系统，另一种是动态序列表情识别系统。在静态图片表情识别系统中，网络只考虑单张图片的几何特征，然而动态序列表情识别系统，还要考虑相关帧的时间特征。面部表情识别系统具体研究内容包括人脸检测、面部表情特征提取和面部表情识别。

人脸检测：即从各种不同的场景中检测出人脸的存在并确定其位置。这一部分系统一般在数据预处理阶段完成，对于目前表情数据集都是单张人脸，不存在多人的任务。而人脸检测目前有非常成熟的算法，在表情识别任务中，还包括更细节化的任务人脸关键点检测。

面部表情特征提取：即确定表示检测出的人脸表情和数据库中的已有的人脸面部表情的描述方式。类似于计算机视觉的其他领域，基于传统方法的表情识别系统，利用的是手工特征。其中代表方法包括局部二值模式(LBP)，非负矩阵分解(NMP)。而到2013年以后，出现体量大的数据集，比如FER2013、EmotiW等，为深度网络训练提供足够的数据量。同时，卷积神经网络在图像识别任务的突出表现，使得越来越多的人将深度网络用于表情识别的任务。基于深度网络的表情识别系统相对于传统方法的系统，在识别的准确率方面取得优异的成绩。

面部表情识别：将待识别的人脸面部表情和数据库中已知人脸面部表情相比，得出相关信息。深度网络将面部表情特征提取与面部表情识别任务结合，共同完成，实现端到端。网络输入一张人脸图像，网络输出关于这张图片的表情标签。

虽然相对传统方法，深度网络在表情识别领域，取得了优异成绩，但是需要改进的地方还是很多。

首先，深度网络需要大量的数据集进行训练，用来解决过拟合的问题，但是目前存在的表情识别数据集，并不支撑深度网络训练通用的网络结构，这些网络往往在一个数据集上表现优异，而换一个数据集表现的结果就大打折扣。比如实验室数据集和野外数据集，网络并不能完美的平衡在这两种数据集上的性能。往往，实验室数据集因为体量小，数据干净，网络的表现结果优异，而对于具有挑战的野外数据集，网络的整体表现比较差。

再而，现存的表情识别数据集存在明显的个体差异，比如年龄、性格、人种以及表情等级等。尤其是野外数据集，这类数据集为了解决实验室数据集中人工采集数据耗费大、体量小、标注困难的问题，采用由影视剧截取视频帧的方法，数据标签则由剧情推理而来。这些差异都对表情识别网络的训练产生重大影响。最后，在现实数据集中还存在主体特征差异，比如角度、光照、遮挡等。而这些在实验室数据中，采集条件是可以控制的，而对于野外数据集这种问题比较突出。

这些问题的出现，都预设表情识别网络的特征提取部分需要精心设计，从而加强网络的泛化能力，使表情识别系统能应用于现实中。

发明内容

本发明要解决的问题是：现有的表情识别方法大都是基于正面人脸图像的，只考虑脸部图片的整体特征，忽略了与表情密切相关的脸部运动肌肉块之间的联系，因而识别结果不够准确。

本发明的技术方案为：一种基于面部分块的表情识别方法，构造主体网络和分支网络两个深度网络用于面部特征提取，主体网络为基于图片时间信息的表情识别网络，提取人脸的整体特征，分支网络为基于图片几何信息的表情识别网络，捕捉面部分块之间的联系，找出对网络识别贡献最大的区域，用于提取面部分块的局部特征，在进入分类器进行识别之前将两步部分特征进行融合，提高表情的识别准确率，最后由分类器给出表情识别结果；其中，面部分块是指根据表情动作将人脸根据分为N个运动块，分块方式是由点到面进行，首先确定每个分块的核心点，进而根据与核心点距离计算得到分块区域，核心点的坐标根据人脸关键点得到。

进一步的，本发明包括以下步骤：

1)构建全卷积面部表情识别网络：面部表情识别网络包括数据预处理、面部特征提取和表情分类三个阶段，数据预处理用于面部对齐与面部裁剪，得到面部归一化数据，面部特征提取包括面部整体特征提取和面部分块特征提取，得到人脸特征表示，表情分类阶段根据人脸特征进行分类预测，网络中的卷积层均经过批标准化处理，以PReLU作为激活函数；

2)训练阶段：利用面部表情识别数据集训练构建的全卷积神经网络，使用交叉熵函数作为损失函数；

3)测试阶段：将测试图像输入网络，得到表情分类结果。

进一步的，步骤1)中，数据预处理分为两个阶段，首先是人脸68个关键点检测，再而是面部裁剪，面部裁剪是根据人脸关键点坐标得到面部轮廓，裁剪出脸部图像。

作为优选方式，步骤1)中，面部特征提取阶段包括两个小型网络，即主体网络和分支网络，主体网络包括两层卷积层，两个最大池化层，以及两个全连接层，卷积层和最大池化层都是采用5*5卷积核，PReLU为激活函数，全连接层采用dropout防止过拟合；分支网络输入为面部图像的关键点坐标，分支网络首先选择面部分块的中心点，再而对分块提取特征，并对分块做注意力计算，得到分块的热点图heatmap，分支网络的卷积核采用3*3，步长为1。

作为优选方式，主体网络用3D卷积操作来同时从时间和空间维度捕捉特征，使用3个图像序列作为输入，主体网络的3D滤波器不对时间轴进行权重共享，从而让不同的滤波器产生适应性变化，主体网络两层卷积层的第一层的激活函数是

其中f_x,y,i是位置(x,y)的第i个特征激活图，R和S分别是滤波器的行数和列数，T_a是输入帧的总数，

是位置(x+r,y+s)在时间t的值，

是在t帧中(r,s)的第i个滤波器系数，b_i是第i个滤波器的偏置系数，δ(·)为激活函数，使用的是ReLU，主体网络卷积层的输出在池化层缩减为一半，最后的输出值通过两个全连接层，再输入softmax分类器进行分类。

作为优选方式，分支网络根据表情将人脸分为12个运动块，分支网络对每一张图片的面部分块，采用卷积网络对输入的面部分块图像计算其热点图，得到热点矩阵，对于靠近中心点的区域设置高权重，远离中心点区域设置低权重，然后将热点矩阵融入主体网络，热点矩阵和特征矩阵做求和，作为另一个特征维度带入计算。

步骤1)的表情分类阶段中，在主体网络的第二层加入分支网络的heatmap的特征，将分支网络提取的面部分块的热点图heatmap与主体网络卷积产生的特征图featuremap进行乘积，逐像素求和，得到融合的特征，最后由主体网络输出至softmax分类器进行分类。

本发明与现有技术相比有如下优点：

1)本发明使用两个小型互补网络，对人脸图像进行不同层面的特征提取，提高了表情识别网络的鲁棒性，不管是野外数据集还是实验室数据集都具有不错的性能，实施例也表明了本发明方案的准确性。

2)本发明将面部分块策略加入表情识别任务，并对分块进行注意力计算，网络能够学习出对表情识别结果贡献大的区域，从而提高表情识别额准确率。

附图说明

图1是本发明的基于面部分块的表情识别总体网络架构示意图。

图2是本发明的面部特征提取阶段的两个互补型网络的结构示意图。

图3是本发明的面部特征提取阶段与分类阶段处理示意图。

图4是本发明基于面部分块的表情识别网络的可视化，图(a)是面部分块的示意图，图(b)是面部分块经过卷积网络之后产生的热点图。

具体实施方式

本发明提出了一种基于面部分块的面部表情识别方法，通过构造两个小型互补网络，融合不同层面的面部特征，从而得到对6种基本表情进行分类的结果。

本发明包括以下步骤：1)使用面部分块构建全卷积表情识别网络：网络共包含数据预处理、面部特征提取阶段、综合预测阶段三个阶段，其中面部特征提取阶段采用两个互补型卷积，其中一个基于图片时间信息的表情识别网络，用于提取整张人脸的整体特征，另一个是基于图片几何信息的表情识别网络，用于提取面部分块的局部特征；2)训练阶段：利用表情识别数据集训练网络，使用交叉熵函数作为损失函数，在过程中采用在线难例样本再训练策略；3)测试阶段：将测试图像输入网络，得到表情识别结果。本发明在特征提取阶段，充分利用图片信息和人脸关键点信息，构建两个互补型小型网络，提取人脸的整体特征和面部分块的局部特征，提高人脸表情识别的鲁棒性。

本发明构建的全卷积表情识别网络相对于其他的面部表情识别网络，加入面部运动单元的特征，进行辅助网络的识别任务。本发明全卷积表情识别网络分为两个部分，一个是主体网络，基于时间信息的表情识别网络，这部分网络对连续图片进行处理，抽取脸部图片的整体特征，进行表情识别。考虑到一个表情的完成是一个动态的动作，连续几帧的对比产生表情的变化，所以本发明主体网络加入对时间信息的利用，进而有效捕捉表情随着时间的变化。本发明主体网络在时间轴上加入3D卷积网络的部分。本发明全卷积表情识别网络的第二个部分为分支网络，基于图片的几何信息去完成表情识别。首先，将输入的一张人脸图片进行68个人脸关键点标记，再而根据关键点依据距离规则进行人脸分块，即面部运动单元的划分，最后分支网络对各个面部运动单元块进行注意力计算。整体而言，主体网络注重的是高层语义的整体特征，而分支网络用于捕捉主体网络忽略的面部运动单元关系。

本发明具体实施步骤如下：

1)构建全卷积面部表情识别网络：包括数据预处理、面部特征提取和表情分类三个阶段。

数据预处理包括人脸关键点检测和数据裁剪。首先，将整个图片序列进行水平翻转。对于图片裁剪，根据人脸关键点计算出边界，最后输入网络的图片大小为96*96。

面部特征提取通过建立两个小型的互补网络实现，一个是主体网络，基于图片时间信息的表情识别网络，另一个是分支网络，基于图片几何信息的表情识别网络。本文的CNN网络包括两个卷积层，两个池化层，两个个全连接层，激活函数使用的是ReLU，dropout选择的参数是0.4。基于面部分块的表情识别网络的具体架构如图1，2。

主体网络，即基于时间信息的卷积神经网络，在CNN卷积操作阶段，用3D卷积操作来同时从时间和空间维度捕捉特征。3D卷积通过堆叠多个连续帧形成立方体与一个3D核进行卷积计算，从而卷积层上的特征图与前一层的连续帧进行连接，得到时间信息。现有技术中C3D沿着时间轴共享权重，捕捉时空特征。本发明使用3个图像序列作为输入，但是3D滤波器并没有对时间轴进行权重共享，这是为了让不同的滤波器产生适应性变化。主体网络第一层卷积层的激活函数是

其中f_x,y,i是位置(x,y)的第i个特征激活图，R和S分别是滤波器的行数和列数。T_a是输入帧的总数，

是位置(x+r,y+s)在时间t的值。

是在t帧中(r,s)的第i个滤波器系数，b_i是第i个滤波器的偏置系数。δ(·)为激活函数，我们使用的是ReLU。为了进行有效的计算，卷积层的输出在池化层缩减为一半。最后的输出值通过两个全连接层，使用softmax进行分类。在训练网络的过程中，使用的是随机梯度下降的方法进行优化，并使用的dropout和权重衰减的方法进行正则化。

分支网络，即基于图片几何信息的表情识别网络，用于捕捉脸部运动肌肉块之间的联系，分支网络的输入是单张图片。脸部肌肉运动的规律与人脸基本表情相对应，但是鉴于面部运动单元很难精准定位，目前通过面部动作编码进行人脸表情识别的效果并不尽如人意。由于精确的提取面部运动单元是非常困难的事，本发明提出对人脸进行局部分块的特征提取方法，辅助人脸表情识别。首先，本发明对人脸图片进行归一化处理，对人脸进行关键点检测。继而通过关键点位置，寻找中心点，依据距离方法，将人脸进行分块。最后网络对不同的运动块，赋予不同的参数，进行注意力计算。

面部解剖学发现，一些面部运动单元会成对出现，而另一些独立出现。人脸面部单元的划分是由脸部肌肉运动产生，那么同一个肌肉运动产生的面部运动单元之间必然存在联系。心理学研究表明，面部运动单元之间存在相关性，面部运动单元与表情类别之间存在相关性。可以将面部运动单元之间的关系分为正相关，和不相关。正相关代表这些面部单元可能会同时出现，而由解剖学发现，正相关的面部运动一般由同一个肌肉，或者相邻肌肉群控制。例如，AU1(内眉毛上升)和AU2(外眉毛上升)都是由枕额肌控制。枕额肌外侧收缩将出现AU2,中央部分收缩产生AU1。因为枕额肌的外侧与中间部分一般会同时收缩，因此AU2与AU1一般相伴出现，因此这两种运动单元是正相关。另一方面，负相关是代表一些面部运动单元很少甚至从未同时出现。由面部解剖学可知，面部的一些肌肉是无法同时激活。也就是说，一些面部单元的出现，意味着另一些面部运动单元出现的几率将大大减少，甚至是没有。AU与6种基本表情关系如表1。

表1六种基本表情与特定面部单元相关概率

表情	面部分块
		生气	AU4,AU7,AU24(>＝0.7),AU10(0.26),AU17(0.52)
厌恶	AU9,AU10,AU17(>＝0.7),AU2(0.57)AU26(0.33)
		恐惧	AU1,AU4,AU20,AU25(>＝0.7)
开心	AU12,AU25(>＝0.7)
		悲伤	AU4,AU15,AU17(>＝0.7)
惊讶	AU4,AU2,AU25,AU26(>＝0.7)

如果直接使用FACS中对人脸的分块，即面部运动单元，计算复杂度过大。根据心理学研究，发现与表情相关的部位包括眉毛、嘴唇等部位。因而本发明减少面部分块的个数，进行粗粒度划分。这样做的原因的是，一方面能减少计算复杂度，另一方面可以降低运动块的检测难度。目前面部运动单元的检测准确率还不尽人意，直接对68个AU检测，存在较大的误差。而由一个不是很准确的检测结果去辅助网络判断，将对网络产生负面作用。基于以上考虑，本发明的网络将人脸分为12个运动块，包括眉、眼、口和鼻区域的肌肉区域。具体实现是，首先将图片进行裁剪，尺寸为120*120。分块方式是由点到面进行，首先确定每个分块的最核心的点，再根据与核心点距离计算，得到分块区域。目前人脸关键点检测的准确率已经相当高，我们利用在数据预处理阶段检测标定的人脸68个关键点坐标，直接或间接得到中心点坐标，根据面部解剖学，确定而每个分块的核心点。对于有的分块，核心点与某个人脸关键点重合，则可以直接使用关键点坐标，而对于核心点与人脸关键点不重合的分块，则根据两眼之间的距离来确定中心点在面部中的位置。由于脸部的不同部分对每种表情的贡献力度不同，表情识别需要找出对表情贡献力度大的区域，赋予较高的权重，给与较高的响应，而舍弃不相关区域。本发明的分支网络，就是完成这个任务而设计，分支网络对每一张图片的分块产生不同的热点图，然后将热点图输入主体网络，作为另一个特征维度带入计算。分支网络对输入的面部分块图像计算其热点图，得到热点矩阵，对于靠近中心点位置设置高权重，远离中心点位置设置低权重。分支网络与主体网络特征融合时，在主体网络的第二层加入分支网络的heatmap的特征，与主体网络产生的featuremap逐像素求和，使主体网络更加关注有价值的信息，同时不丢失feature的信息。

由于人脸是对称结构，核心点也存在成对现象。而对于相邻肌肉群控制的面部分块，也可能存在两个分块共享中心点的现象。本发明实施例具体选择中心点的标准如表2：

表2面部分块中心点的选择

分块编号	分块名称	分块中心点
			1	内眉上扬	内眉毛上方1/2
2	外眉上扬	外眉毛上方1/3
			3	眉毛下压	中眉之下1/3
4	脸颊抬起	一个眼睑以下
			5	眼睑收紧	眼中间
6	上嘴唇提升	上唇中间
			7	嘴角收紧	唇角
8	嘟嘴	唇角
			9	嘴角向下	唇角
10	下巴抬高	唇下1/2
			11	嘴唇内收	唇中间
12	嘴唇外展	唇中间

基于面部分块的表情识别网络的可视化结果如图4所示。

表情分类阶段，采用1*1的卷积实现特征处理阶段输出特征中256通道之间的交流，随后使用3*3的卷积层得到小尺寸的分类结果，其中通道数n等于数据集的分类标签数，尺寸为原图大小的1/8。最后使用上采样层，经过线性插值将尺寸扩大到原图尺寸。

2)训练阶段：利用面部表情识别数据集训练构建的全卷积神经网络，使用交叉熵函数作为损失函数；其中，使用随机梯度下降的方法进行优化，并使用dropout和权重衰减的方法进行正则化，主体网络的全连接层采用dropout为0.4。

3)测试阶段：测试图像在零均值处理后输入网络，得到识别结果。

下面利用训练得到的网络做性能测试来说明本发明的效果。

CK+是Cohn-Kanda数据集扩张而来，是表情识别任务常用的数据集。CK只包括静态图片，CK+则包括动态视频。CK+包括123个人，593个视频序列。其中118个对象，有327个视频序列是包含7种基本表情的。表情标签有，愤怒、恐惧、开心、悲伤、惊讶、鄙视，还有一个中性表情。CK+中一般只标记视频序列的最后一帧。标签包括7种面部表情种类和面部编码。CK+数据集中的图片是正向人脸图，不存在遮挡与照明的问题，而单独基于整张图片的表情识别网络，识别率97.3，加入基于面部分块的表情识别网络，网络的表现提升0.5个百分点。与最新研究的结果如表3所示，由此可知，我们的发明的结果在CK数据集上是表现非常优异的。

表3 CK数据集表情识别网络的结果

名称	输入类型	准确率
			STM-ExpLte(基于时空信息的动态表情识别网络)	视频序列	94
DTGAN(联合微调的表情识别网络)	视频序列	97.25
			DTAN+(一种小型且鲁棒的表情识别网络)	静态图片	97.37
Ours-C3D(本发明)	视频序列	98
			Ours(本发明)	静态图片	97.3

AFEW数据集有接近真实环境的面部表情短视频片段组成，图片主体的年龄范围在1-70岁，包括大量的儿童和青少年的视频帧。数据集中的关照条件也具有差异，包括室内，室外和夜间三种情况，与实验数据集相比，这个数据集更接近自然场景。而SFEW是从AFEW选择难度更大的视频帧，这些因素也使得SFEW数据集成为表情识别数据集中最具困难的一个。SFEW包含95个实验对象，包含从电影中截取的700张图像。这些图像的难点包含不受约束的头部姿势、变化的照明条件、较大的年龄跨度、不同的图像分辨率等。SFEW数据集的标签分为6类基本表情和一类中性(NE)表情,其中6类基本表情包括愤怒(AN)、厌恶(DI)、恐惧(FE)、幸福(HA)、悲伤(SA)、惊讶(SU)。SFEW数据集在本发明的局部网络，即基于图片时间信息的表情识别网络的准确率为52.6，而在本发明的整体网络上的结果是53.4。

Claims

1.一种基于面部分块的表情识别方法，其特征是构造主体网络和分支网络两个深度网络用于面部特征提取，主体网络为基于图片时间信息的表情识别网络，提取人脸的整体特征，分支网络为基于图片几何信息的表情识别网络，捕捉面部分块之间的联系，找出对网络识别贡献最大的区域，用于提取面部分块的局部特征，在进入分类器进行识别之前将两步部分特征进行融合，提高表情的识别准确率，最后由分类器给出表情识别结果；其中，面部分块是指根据表情动作将人脸根据分为N个运动块，分块方式是由点到面进行，首先确定每个分块的核心点，进而根据与核心点距离计算得到分块区域，核心点的坐标根据人脸关键点得到。

2.根据权利要求1所述的一种基于面部分块的表情识别方法，其特征是包括以下步骤：

1)构建全卷积面部表情识别网络：面部表情识别网络包括数据预处理、面部特征提取和表情分类三个阶段，数据预处理用于面部对齐与面部裁剪，得到面部归一化数据，面部特征提取包括面部整体特征提取和面部分块特征提取，得到人脸特征表示，表情分类阶段根据人脸特征进行分类预测，网络中的卷积层均经过批标准化处理，以ReLU作为激活函数；

3)测试阶段：将测试图像输入网络，得到表情分类结果。

3.根据权利要求2所述的一种基于面部分块的表情识别方法，其特征是步骤1)中，数据预处理分为两个阶段，首先是人脸68个关键点检测，再而是面部裁剪，面部裁剪是根据人脸关键点坐标得到面部轮廓，裁剪出脸部图像。

4.根据权利要求2所述的一种基于面部分块的表情识别方法，其特征是步骤1)中，面部特征提取阶段包括两个小型网络，即主体网络和分支网络，主体网络包括两层卷积层，两个最大池化层，以及两个全连接层，卷积层和最大池化层都是采用5*5卷积核，ReLU为激活函数，全连接层采用dropout防止过拟合；分支网络输入为面部图像的关键点坐标，分支网络首先选择面部分块的中心点，再而对分块提取特征，并对分块做注意力计算，得到分块的热点图heatmap，分支网络的卷积核采用3*3，步长为1。

5.根据权利要求4所述的一种基于面部分块的表情识别方法，其特征是主体网络用3D卷积操作来同时从时间和空间维度捕捉特征，使用3个图像序列作为输入，主体网络的3D滤波器不对时间轴进行权重共享，从而让不同的滤波器产生适应性变化，主体网络两层卷积层的第一层的激活函数是

是位置(x+r,y+s)在时间t的值，

6.根据权利要求4所述的一种基于面部分块的表情识别方法，其特征是分支网络根据表情将人脸分为12个运动块，分支网络对每一张图片的面部分块，采用卷积网络对输入的面部分块图像计算其热点图，得到热点矩阵，对于靠近中心点的区域设置高权重，远离中心点区域设置低权重，然后将热点矩阵融入主体网络，热点矩阵和特征矩阵做求和，作为另一个特征维度带入计算。

7.根据权利要求4所述的一种基于面部分块的表情识别方法，其特征是步骤1)的表情分类阶段中，在主体网络的第二层加入分支网络的heatmap的特征，将分支网络提取的面部分块的热点图heatmap与主体网络卷积产生的特征图featuremap进行乘积，逐像素求和，得到融合的特征，最后由主体网络输出至softmax分类器进行分类。

8.根据权利要求2所述的一种基于面部分块的表情识别方法，其特征是在训练阶段，使用随机梯度下降的方法进行优化，并使用dropout和权重衰减的方法进行正则化，主体网络的全连接层采用dropout为0.4。