CN111414862B

CN111414862B - 基于神经网络融合关键点角度变化的表情识别方法

Info

Publication number: CN111414862B
Application number: CN202010204709.9A
Authority: CN
Inventors: 肖嵩; 陈志超; 张天翔; 闫永超; 杜建超
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-03-22
Filing date: 2020-03-22
Publication date: 2023-03-24
Anticipated expiration: 2040-03-22
Also published as: CN111414862A

Abstract

本发明公开了一种基于神经网络融合关键点角度变化的表情识别方法，主要解决现有人脸表情识别方法具有高类内变化和低类间变化的问题；其方案为：首先通过对数据进行预处理，检测人脸并定位人脸的关键点，裁剪人脸区域进行直方图均衡化与图像归一化处理；然后计算人脸关键点角度变化，得到辅助特征；再通过卷积神经网络提取表情特征，并将其与人脸关键点角度变化相结合构建网络模型，最后联合使用两种不同损失函数对网络进行优化；通过优化后网络得到最终的表情特征空间，根据特征空间利用分类器实现表情分类。本发明能够去除与表情无关的身份信息，有效降低类内方差并提高类间方差，增强模型的鲁棒性和泛化能力，准确判断人脸面部表情所属类别。

Description

基于神经网络融合关键点角度变化的表情识别方法

技术领域

本发明属于图像处理技术领域，涉及人脸识别技术，更进一步涉及基于神经网络融合关键点角度变化的表情识别方法，可用于人机交互、机器人制造、医疗及教学领域。

背景技术

人脸表情识别是在给定的图像中识别出特定的表情，从而确定被识别对象的心理情绪，进而更好地实现人机交互，对被识别对象进行相关处理和反映。该技术是目前人工智能中一个比较热门，同时具有重要价值的研究领域，目前主要的应用领域包括人机交互、安全、机器人制造、医疗、通信和汽车领域等，因此国内外有很多研究机构及学者致力于这方面的研究，并取得了一定的成果。

表情识别可分为三大模块：人脸区域的获取与预处理、表情特征提取和表情分类，其中表情可分为七类：生气(Angry)、蔑视(Contempt)、厌恶(Disgust)、恐惧(Fear)、高兴(Happy)、悲伤(Sad)和吃惊(Surprise)。传统的表情识别方法是十分繁琐复杂的，需要使用大量的手工表情特征，同时由于人们面目表情表达方法和强度不一致，人工设计的表情特征充满了大量的人工干扰因素，分类的效果缺少鲁棒性和准确性。

深度学习可以避免手工特征设计，深度学习是端到端模型，只需要将原始图像作为输入，通过大量数据训练，深层网络自动学习，对图像进行特征提取，最终得到正确的分类结果。但目前公开的人脸表情数据库并不大，模型过大或训练不当容易出现过拟合现象。另外身份信息非常影响模型效果，使得模型出现较大的类内变化和较高的类间相似。

在申请号为201510621774.0，公开号为CN105069447A的专利文件中公开了一种人脸表情的识别方法，通过将人脸区域分成5*5个非重叠的子块，再利用中心对称三值模式算法提取子块上的人脸表情纹理特征，最后对各个子块的特征进行加权融合，使用SVM实现分类。该方法不足之处在于：第一，只考虑了局部特征，并没有使用全局特征进行优化；第二，当不同人种出现时，需要设置不同的阈值参数；在应用中心对称三值模式算法时，由于人脸大小和表情明显程度的差异，如：有的人表情夸张、有的人表情委婉，也需要设置不同的半径和周围领域个数；这种方法的鲁棒性有待提升。

由桂林电子科技大学提出的申请号为201910806700.2，名称为“一种结合多级卷积特征金字塔的人脸表情识别算法”的专利申请文件中，提出了一种使用神经网络提取第一层特征和第二层特征，将两层特征构成金字塔网络，再进行分类的技术方案。该方法的不足之处在于不考虑类内方差和类间方差，在特征空间上，相同人不同表情的照片对应其特征空间会很近，同表情不同人的照片对应其特征空间会很远，因此该方法存在较高的类内方差和较低的类间方差问题。

发明内容

本发明目的在于针对上述现有技术的不足，提出一种基于神经网络融合关键点角度变化的表情识别方法，用于解决类内方差较高、类间方差较低的技术问题。首先，通过对数据进行预处理，检测人脸并定位人脸的关键点，裁剪人脸区域实现图像归一化；然后，计算人脸关键点角度变化，得到辅助特征；最后联合softmax损失和改进的island损失训练双分支网络，使得模型能够提取鉴别能力强的表情特征。本发明能够有效去除与表情无关的身份信息，降低类内方差并提高类间方差，从而增强模型的鲁棒性和泛化能力。

本发明实现上述目的具体步骤如下：

(1)收集FER2013和CK+人脸表情数据集；

(2)使用MTCNN模型实现人脸检测，从原始照片中将人脸区域裁剪下来，去除与表情无关的背景元素，并对该人脸区域进行直方图均衡化与图像归一化处理；

(3)通过Dlib库人脸对齐算法从原始照片中的人物面孔上提取人脸关键点；

(4)在峰值表情图像和中性表情图像上进行人脸关键点角度计算，分别生成峰值表情图像和中性表情图像的人脸关键点角度矩阵；

(5)将峰值表情图像的人脸关键点角度矩阵减去中性表情图像的人脸关键点角度矩阵，得到人脸关键点角度变化特征图；

(6)搭建浅层卷积神经网络，使用大小为3*3的卷积核检测表情细微的肌肉运动变化，通过该卷积网络提取表情特征；

(7)通过卷积神经网络对人脸关键点角度变化特征图进行卷积操作，生成角度变化向量，将该向量与浅层卷积神经网络提取的表情特征进行级联，再使用两层全连接网络，并在每个全连接层后添加dropout层，得到表情识别网络模型；

(8)计算模型损失函数L：

L＝L_S+λL_IL，

其中，L_S表示softmax损失函数，L_IL表示改进的island损失函数，λ为改进的island损失函数的权重；

(9)将FER2013数据集作为训练样本对构建的表情识别网络模型进行预训练，再使用CK+数据库对训练后模型进行微调，通过模型损失函数L优化模型参数，得到优化后的表情识别网络模型；

(10)通过优化后的表情识别网络模型获取最终的表情特征空间，使用Softmax分类器根据表情特征空间对人脸表情图片进行分类，得到表情种类的概率分布。

本发明与现有技术相比具有以下优点：

第一、由于本发明考虑到表情变化是由面部肌肉运动引起的，涉及面部器官的位置变化，而人脸关键点角度变化特征可以强调面部器官的变化，因此将该特征作为辅助信息，使用双分支网络模型提取表情特征，从而使得模型保持身份不变性，提取得到鉴别能力强的表情特征，有效提升了算法的辨别能力；

第二：由于本发明联合softmax损失和改进的island损失优化模型，将样本推向对应的中心，同时类中心相互远离，从而减小类内方差、增大类间方差；这种在island损失函数的基础上增加在线困难样本挖掘技术的方式，可加速模型的训练过程并提高结果准确率；

第三：本发明针对CK+数据库训练样本不足导致过拟合问题，使用预训练技术，同时采用数据扩增来增加样本的多样性和数量，从而减少过拟合情况的发生，10折平均准确率达到97.14％，所使用模型参数少、训练收敛速度快，大幅度提升了识别速度。

附图说明：

图1为本发明的实现流程图；

图2为本发明中构建表情识别网络模型示意图；

图3为本发明中训练集特征向量的可视化结果示意图；

图4为本发明中测试集特征向量的可视化结果示意图；

图5为本发明的表情识别效果仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照附图1，本发明提出的一种基于神经网络融合关键点角度变化的表情识别方法，包括如下步骤：

步骤1.准备阶段，收集FER2013和CK+人脸表情数据集：

CK+数据集只有327个序列带有表情标签，视频由中性表情到峰值表情，选择最后三张图片并标记为与最后一帧同样的表情，获得921张数据集(无中性)。使用10折交叉验证方法，将数据集划分为包含292*3张图片的训练集，包含35*3张照片的测试集。在训练过程中对其进行数据扩增，从而增加图片的多样性，扩增采用的方法包括旋转、水平翻转、缩放等。

FER2013人脸表情数据集由35886张人脸表情图片组成，其中，测试图(Training)28708张，公共验证图(PublicTest)和私有验证图(PrivateTest)各3589张，每张图片是由大小固定为48×48的灰度图像组成。

人脸表情图像通常分为峰值表情图像和中性表情图像两种；其中峰值表情共包括6种表情，分别对应于数字标签0-6，具体表情对应的标签和中英文如下：0anger生气；1disgust厌恶；2fear恐惧；3happy开心；4sad伤心；5surprised惊讶；6Contempt蔑视。中性表情对应的标签和中英文为7normal中性，是对除峰值表情之外不容易区分的其它表情的统称。

步骤2.获取人脸区域并对其进行预处理：

使用MTCNN模型实现人脸检测并从原始照片中将人脸区域裁剪下来，去除与表情无关的背景元素，再通过直方图均衡化和图像归一化处理，减少环境因素影响。

其中，MTCNN模型是一个利用多任务级联卷积神经网络进行联合人脸检测与对齐的有效模型，由提案网络、精炼网络和输出网络三个不同而轻量级的卷积网络级联组成，通过精心设计的卷积网络分为三个阶段，以从粗到细的方式实现人脸检测。

步骤3.提取人脸关键点：

通过Dlib库人脸对齐算法从原始照片中的人物面孔上提取68个或81个人脸关键点，本实施例以提取68个关键点为例进行后续步骤的描述。原始照片包括峰值表情图像和中性表情图像。

上述Dlib库人脸对齐算法，具体为一种基于梯度提升学习的回归树方法。通过建立一个级联的残差回归树来使人脸形状从当前形状一步一步回归到真实形状，从而实现人脸对齐。

步骤4.分别获取峰值表情图像和中性表情图像中的人脸关键点角度矩阵：

在峰值表情图像和中性表情图像上进行人脸关键点角度计算，分别生成峰值表情图像和中性表情图像的人脸关键点角度矩阵，具体计算步骤如下：

(4.1)以图像中68个关键点的其中一个作为中心点，计算相邻两个关键点与该中心点形成的夹角，即关键点角度θ，具体计算公式如下：

θ＝arctan((x₂-x₁)/(y₂-y₁))，

其中，(x₁，y₁)表示相邻两个关键点中的第一个人脸关键点位置坐标，(x₂，y₂)表示相邻两个关键点中的第二个人脸关键点位置坐标；

(4.2)分别以68个关键点作为中心点，逐个计算每个关键点的角度，生成68*67的人脸关键点角度矩阵。

步骤5.生成人脸关键点角度变化特征图：

将峰值表情图像的人脸关键点角度矩阵减去中性表情图像的人脸关键点角度矩阵，获得人脸关键点角度变化特征图；

由于人脸关键点角度变化矩阵只与表情变化有关，而表情变化是由面部肌肉运动引起的，面部肌肉运动可直接导致关键点位置发生偏移，使得点与点之间的角度产生变化。因此，通过将峰值表情图像的人脸关键点角度矩阵与中性表情图像的人脸关键点角度矩阵相减，即可得到人脸关键点角度变化特征图，从而给模型提供辅助信息，强化模型提取肌肉运动特征，并保持身份不变性。

步骤6.提取表情特征：

搭建浅层卷积神经网络，如图2中虚线部分所示，使用大小为3*3的卷积核检测表情细微的肌肉运动变化，通过该卷积网络提取表情特征；

步骤7.构建表情识别网络模型：

(7a)通过卷积神经网络对人脸关键点角度变化特征图进行卷积操作，如图2中实线部分所示，生成一个1*1024角度变化向量；

(7b)将浅层卷积神经网络提取的表情特征与卷积神经网络生成的角度变化向量进行级联，接着使用两层全连接网络，并在每个全连接层后添加dropout层，如图2中点断线所示部分，得到表情识别网络模型，整个网络架构如图2所示。

步骤8.计算模型损失函数：

(8.1)计算softmax损失函数L_S：

其中，N为训练批次样本数量，M为类别数量，y、m均为M个类别中的一种表情种类；z_y为标签为y样本的得分，z_m为预测为m样本的得分；

该损失函数用于惩罚分类错误的样本

(8.2)计算改进的island损失函数L_IL：

(a)计算样本与对应类中心距离L_C：

其中，yi是第i个样本的标签，c_yi为样本对应的类中心，xi是第i个样本决策层的前一层全连接的特征向量，τ为阈值；

(b)通过余弦相似度计算得到类中心之间的距离L_d：

其中，M为类别数量，j、m均为M个类别中的一种表情种类；c_j为表情类别j的中心，c_m为表情类别m的中心；通过使类中心尽量相互远离，可增加类间方差；

(c)计算改进的island损失函数L_IL：

L_IL＝L_C+λ₁L_d，

其中，λ₁为类间损失权重；损失函数L_IL的作用是将样本推向对应的类中心，以减少类内方差；

(8.3)按照下式得到模型损失函数L：

L＝L_S+λL_IL，

其中，λ为改进的island损失函数的权重。

步骤9.获取优化后的表情识别网络模型：

(9.1)将FER2013数据集作为训练样本对浅层卷积网络层进行预训练200个周期，从而缓解过拟合，得到训练后模型；

(9.2)使用CK+数据库对训练后模型进行微调；将CK+数据集分为10折交叉训练，其中1个子集为测试集，剩下的为训练集，迭代训练10次，进一步训练网络模型实现微调；

(9.3)通过模型损失函数L优化模型相关参数，即联合使用Softmax损失和改进的island损失对构建的整个网络进一步优化，得到优化后的表情识别网络模型。

步骤10.识别表情，获取分类结果：

通过优化后的表情识别网络模型得到最终的表情特征空间，再使用Softmax分类器根据表情特征空间对人脸表情图片进行分类，得到表情种类的概率分布softmax(z_j)：

其中，M为类别数量，j、m均为M个类别中的一种表情种类；z_j为表情种类j的得分，z_m为表情种类m的得分。

下面结合仿真实验对本发明的效果作进一步的说明。

1.仿真条件：

本发明的仿真实验在CPU主频3.3GHz、内存8G、显卡GTX960、windows10的硬件环境和pyhon3.6，tensorflow1.8.0的软件环境下进行的。

2.仿真内容：

使用FER2013数据集预先训练卷积网络层和EC分支的全连接层200个周期，在训练CK+训练集之前，加载FER2013预训练模型的参数，再用10折交叉训练方法，进行微调模型参数，训练100个周期。取出其中一个折的训练集和测试集的表情特征，利用tensorboard可视化高位特征向量，具体如图2和图3所示。

3.仿真结果：如图4所示，一些样本在模型的测试结果，从图中可以看出，模型能够准备识别表情，其中伤心表情样本和生气表情样本识别确信度高达0.98以上，蔑视表情样本和害怕表情样本的确信度分别为：0.95和0.92。由此可见，模型能够准确提取表情特征和分类。

为了突出本发明的有益效果，下面结合表一做进一步描述：

表一：CK+数据集上的混淆矩阵

混淆矩阵的每行为真实标签、每列代表预测标签，矩阵单元c[i][j]表示真实标签i的所有样本被预测为表情标签j的占比。通过混淆矩阵能够清楚看出每类表情的准确率以及分类错误情况。害怕表情样本有4％的样本误分为惊讶表情，生气表情样本和蔑视表情样本被分为伤心表情分别占据了3％、5％。在现实生活中，害怕和惊讶表情很难被区分；生气、蔑视和伤心表情经常容易混淆。

为了进一步突出本发明方法的有效性，对使用本发明方法进行人脸表情识别与采用现有技术进行识别的识别率进行统计，如下表：

表二：本发明与其他方法的识别率

通过将本发明与其他技术所达到的识别效果相比较，可以看出本发明方法的识别率比其他相关技术至少高出了1.77％。

上述仿真分析证明了本发明所提方法的正确性与有效性。本发明方法通过使用人脸关键点角度变化作为辅助信息，保持身份不变性，提取鉴别能力强的表情特征，同时，联合softmax损失和改进的island损失训练模型，使得模型类内方差减少、类间方差增大，提高了模型的鲁棒性和泛化能力，对于人脸表情的识别精准有效。

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。