CN110414371A

CN110414371A - 一种基于多尺度核卷积神经网络的实时人脸表情识别方法

Info

Publication number: CN110414371A
Application number: CN201910608079.9A
Authority: CN
Inventors: 李小霞; 秦昌辉; 李旻择
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-05

Abstract

针对人脸表情识别模型复杂、难以满足实时性的问题，提出一种基于多尺度核卷积神经网络的实时人脸表情识别方法。本方法包括如下步骤：步骤1，搭建轻量化MobileNet‑SSD(MSSD)人脸检测网络；步骤2，结合KCF跟踪器，形成快速稳定的人脸检测模型MSK‑Net；步骤3，搭建多尺度核人脸表情识别网络；步骤4，将本方法的检测识别结果与目前人脸表情识别的先进方法进行比较分析。本方法的识别精度和当前先进算法相当，检测识别速度具有明显优势，达到了78帧每秒，满足实时人脸表情识别要求。

Description

一种基于多尺度核卷积神经网络的实时人脸表情识别方法

技术领域

本发明属于机器视觉的目标检测和识别技术领域，特别涉及一种基于多尺度核卷积神经网络的实时人脸表情识别方法。

背景技术

人的脸部表情不仅可以传达人的情绪，而且还能够传递人丰富的情感信息。在当下的人工智能时代，人机交互在日常生活中越来越普及，想要让机器更好的理解人类，人脸表情识别是必不可少的途径。人脸表情识别(Facial Expression Recognition, FER)是计算机视觉和人工智能等领域的重要研究方向，它是一个有趣且具有挑战性的问题，在教育、医疗、心理分析和公共安全等领域有重要的研究价值与意义。

1971年，著名的心理学家Paul Ekman将人脸表情划分为基本的六类：愤怒、厌恶、恐惧、高兴、悲伤和惊讶，并提出表情可以通过观察面部信号来识别。此后的研究均是在这六种基本表情基础上展开的，用于人脸表情识别的各种特征提取算法和分类器被相继开发出来。典型的表情特征提取方法有局部二值模式(Local Binary Pattern, LBP)、梯度方向直方图(Histograms of Oriented Gradients, HOG)、Gabor小波变换、SIFT、AAM等，典型的表情分类方法有隐马尔可夫模型法(Hidden Markov Model, HMM)、支持向量机(SupportVector Machine, SVM)、局部线性嵌入(Local Linear Embedding, LLE)、K最近邻算法(K-Nearest Neighbor, KNN)等。这些研究大多是人工提取特征，因此效果优劣依赖于前期的特征提取，人为干扰因素较大，且其泛化能力不足。

2012年，Krizhevsky等在ILSVRC-2012中使用AlexNet卷积神经网络(Convolutional Neural Network, CNN)取得了惊人成绩，其识别率远超其它人工提取特征的传统方法。随后深度神经网络使得人脸表情识别得到了进一步的发展，用于人脸表情识别的各种数据集也日益增多，常见的有JAFFE、Extensive Cohn-Kanade (CK+)、FER-2013、SFEW2.0等。2013年，Tang提出将CNN与SVM相结合，并且他放弃了普通CNN所使用的交叉熵损失最小化方法，而是用标准的铰链损失来最小化基于边际的损失。他的方法在私人测试集上实现了71.2%的识别率，获得了FER-2013人脸表情识别挑战赛的冠军。2017年，Connie等通过合并CNN和SIFT特征，建立了一个混合CNN-SIFT分类器，使得小样本数据也能够有较好的识别效果，在CK+和FER-2013数据集上的识别率分别达到了99.4%和73.6%。人脸表情的识别率虽然在逐步升高，但识别速度却很低，想要实际应用还很难实现。2014年，Fang等提出了一种新的人脸表情自动分析框架，选择具有峰值表情的帧来提取突出信息，实现了3.5帧每秒的识别速度。2016年，Jeon等使用HOG特征来检测人脸，CNN来提取特征，在FER-2013数据集上实现了70.7%的识别率，6.5帧每秒的识别速度。2017年，Nehal等提出了一种智能层次支持向量机HSVM，用多级的SVM来减少混淆表情间的相互关系，取得了不错的识别率，并且获得了10.8帧每秒的识别速度。用深度神经网络来进行人脸表情识别，虽然能够减少人为干扰因素、提高鲁棒性，但是要拥有较高的识别率，网络模型一般都比较大，使得其难以达到实时性要求。

发明内容

针对实际应用中需要兼顾人脸表情识别的速度与精度的问题，本发明采用轻量化的MobileNet-SSD(MSSD)人脸检测深度学习网络，结合核相关滤波算法(KernelCorrelation Filter, KCF)来进行人脸跟踪，构建出一个检测加跟踪的快速稳定人脸检测模型MSK-Net，然后使用多尺度核卷积神经网络进行人脸表情特征提取与识别，构成了检测-跟踪-识别模式。获得了158帧每秒的人脸检测速度，并且对多角度和遮挡的人脸检测具有很好的鲁棒性，在CK+和FER-2013数据集上分别获得了99.5%和73.3%的识别率，实时人脸检测与表情识别系统整体速度可达78帧每秒。

本发明的技术方案如下：一种基于多尺度核卷积神经网络的实时人脸表情识别方法，主要包含以下步骤：

步骤1，搭建轻量化MobileNet-SSD(MSSD)人脸检测网络；

步骤2，结合KCF跟踪器，形成快速稳定的人脸检测模型MSK-Net；

步骤3，搭建多尺度核人脸表情识别网络；

步骤4，将本方法的检测识别结果与目前人脸表情识别的先进方法进行比较分析。

附图说明

图1 实时人脸表情识别系统总体流程图

图2 MSK-Net模型图

图3 Bottleneck_p和MKC_Block的结构

图4 WIDER FACE测试结果图

图5 速度与召回率的实验对比图

具体实施方式

以下对本发明的一种基于多尺度核卷积神经网络的实时人脸表情识别方法在理论和实验方面作详细描述。

一个完整的实时人脸表情识别系统包括：人脸检测与定位、表情特征提取和表情分类。针对实际应用中需要兼顾识别速度与精度的问题，本文先融合轻量化的MobileNet-SSD（MSSD）和KCF快速跟踪模型构成MSK-Net来进行人脸目标的快速稳定检测。然后使用多尺度核人脸表情识别网络进行人脸表情特征提取与识别。最后，将以上两个网络进行融合与优化，形成检测-跟踪-识别模式，构成一个完整的实时人脸表情识别系统。图1是实时人脸表情识别系统总体流程图。

步骤1，搭建MobileNet-SSD(MSSD)人脸检测网络。目标检测网络一般由基础网络进行特征提取，元结构进行分类回归和边界框回归。本方法以SSD目标检测网络为基础，将其中的基础网络VGG-16替换为轻量化网络MobileNet，搭建成MobileNet-SSD(MSSD)网络。MobileNet中最大的亮点是深度可分离卷积，它将标准卷积滤波器分解为深度卷积和点卷积。假设输入特征图尺寸为，通道数为M，卷积核大小为，卷积核个数为N标准卷积过程计算量为：，深度可分离卷积过程计算量为：。

通过上式可知深度可分离卷积方式与标准卷积的计算量之比为：

(1)

对于卷积核大小为的卷积过程，深度可分离卷积的计算量可减少9倍。这样的结构极大的减少了计算量，加快了训练与识别的速度。因此本方法的检测与识别网络均采用深度可分离卷积。

本方法的MSSD网络的输入通过一个卷积核大小为3x3、步长为2的标准卷积层，接着是13个深度可分离卷积层，再通过4个卷积核分别为1x1、3x3交替组合的标准卷积层。考虑到池化层会损失一部分有效特征，因此在网络的标准卷积层中使用了步长为2的卷积核替代。最后对第6个深度可分离卷积层、最后4个标准卷积层和1个全局平均池化层的输出特征图设置6个默认框，并使用卷积核大小为3×3的标准卷积对每个框进行类别和边界框位置的预测，然后将各层进行融合可得5532个框，再使用非极大值抑制进行迭代优化来找出最优的框进行最终的分类回归和边界框回归，实现多尺度人脸检测。

步骤2，结合KCF跟踪器，形成快速稳定的人脸检测模型MSK-Net。为了进一步加快检测速度，将人脸检测网络和跟踪模型相结合，形成检测-跟踪-检测的模式。这样的结合方式不仅有效的加快了人脸检测的速度，还使得多角度、有遮挡的人脸检测问题得以解决。跟踪模型是基于统计学习的跟踪算法KCF，该算法主要使用轮转矩阵对样本进行采集，然后使用快速傅里叶变换对其进行加速运算，这使得该算法的跟踪效果和速度都取得了不错的效果。本方法先利用MSSD模型对人脸进行检测，并进行KCF跟踪模型更新；然后，将检测到的人脸坐标信息输入跟踪模型KCF中，以此作为人脸基础样本框进行跟踪并预测下一帧人脸位置；最后，为了防止跟踪丢失，再次进行MSSD模型更新，重新对人脸进行检测。图2是MSK-Net模型图。

步骤3，搭建多尺度核人脸表情识别网络。本方法的多尺度核人脸表情识别网络主要以深度可分离卷积为基础，由改进的线性瓶颈模块（Bottleneck_p）和多尺度核卷积块（MKC_Block）组成。图3是Bottleneck_p和MKC_Block的结构，图3（a）、（b）是Bottleneck_p及改进结构，图3（c）是MKC_Block。在Bottleneck_p中使用了更有效的PReLU激活函数，深度卷积（Dw_Conv）作为特征提取部分，点卷积（Conv 1×1）作为瓶颈层进行通道数的缩放。输出端的点卷积是用于通道数的压缩，若再进行非线性操作，则会损失大量有用特征，因此输出端的点卷积采用了线性结构。在多尺度核卷积块的输入端采用通道分离（Channel Split）的方法可以有效的减少多分支网络的参数量，将输入的通道数进行三等分，再输入三个核大小分别为3x 3、7 x 7、11 x 11和步长为2的Bottleneck_p进行特征提取。通过三个不同尺度卷积核的分支并联形成的多尺度核卷积块，融合了不同卷积核提取的多样性特征，能够有效的提高人脸表情的识别率。

在本方法中，除了用于压缩通道数的点卷积不使用非线性激活函数外，其它卷积层均使用PReLU激活函数。式(2)、式(3)分别是激活函数ReLU和PReLU的表达式，i表示不同通道。

(2)

(3)

ReLU激活函数是将所有负值都设为0，其余保持不变。当训练过程中有较大梯度经过ReLU时，会引起输入数据产生巨大变化，出现大多数输入是负数的情况，这种情况下会导致神经元永久性失活，梯度永远为0，无法继续进行网络权重的更新。然而在PReLU中修正了数据的分布，使得一部分负值也能够得以保留，很好的解决了ReLU中存在的问题，并且式(3)中的参数可以进行训练得到，能够根据数据的变化而变化，灵活性与适应性更强。

多尺度核人脸表情识别网络结构如表1所示。表中Bottleneck_p、MKC_Block分别表示改进的线性瓶颈模块和多尺度核卷积块。在网络中用到了两个步长为1的标准卷积（Conv2d），输入端的3×3的卷积用于初步特征提取，提升通道数以便后面的多尺度核卷积块进行通道分离操作。输出端的1×1的卷积具有1280个滤波器，用来提取更高层次的特征。网络的最后用了一个全连接层作为分类器来进行分类回归。

表1 多尺度核人脸表情识别网络结构

步骤5，将本方法的检测识别结果与目前人脸表情识别的先进方法进行比较分析。实验在WIDER FACE、CK+、FER-2013三个数据集上进行，为了增加人脸表情识别模型对噪声和角度变换等干扰的鲁棒性，本方法对实验数据集进行了数据增强，对每张图像都使用了不同的线性变换方式进行增强。进行数据增强的变换有随机水平翻转、比例为0.1的水平和竖直方向偏移、比例为0.1的随机缩放、在（-10,10）之间进行随机转动角度、归一化为零均值和单位方差向量，并对变换过程中出现的空白区域按照最近像素点进行填充。

在MSK-Net人脸检测网络中，本方法先将它的基础网络MobileNet在大型图像数据库ImageNet上进行预训练。然后将预训练好的模型迁移到MSK-Net中，再用人脸检测基准数据库WIDER FACE进行微调；最后用WIDER FACE的测试集进行测试。图4是测试集中部分图片测试结果，可以看出MSK-Net对多尺寸、多角度和遮挡等均具有较好的检测效果，鲁棒性强。

在速度方面，本方法MSK-Net采用检测1帧同时跟踪10帧的策略，因此对视频的处理能更好的体现速度优势，这与实时人脸表情识别也更契合。在MSK-Net与主流的人脸检测网络模型进行对比实验中，本方法使用640×480的视频进行测试，取视频的前3000帧来计算平均处理速度。图5是速度与召回率的实验对比图，从图中可以看出本方法在召回率和检测速度上均具有明显的优势。本方法在WIDER FACE 测试集的三种难度等级中分别获得了93.1%、92.2%、82.9%的高召回率。同时人脸检测速度达到了63帧每秒，再结合KCF跟踪器，速度可再次提升2.5倍达到158帧每秒，是主流人脸检测网络MTCNN检测速度的6.3倍，优势非常明显。

表2是不同方法在FER-2013上的识别率对比结果。从表2中可看出，本文方法优于其他主流方法，达到了73.3%的识别率，同时识别速度达到了154帧每秒。

表2 FER-2013数据集上的识别率对比

在CK+数据集上的实验采用了迁移学习方法，将模型在FER-2013上训练得到的权重参数作为预训练结果，然后在CK+上进行微调，并采用10折交叉验证对模型性能进行评估。表3是不同方法在CK+数据集上的识别率对比，本方法取得了99.5%的最高识别率。最后，我们使用分辨率为640×480的视频进行了实时人脸表情识别测试，得到了78帧每秒的运行速度。

表3 CK+数据集上的识别率对比

Claims

1.一种基于多尺度核卷积神经网络的实时人脸表情识别方法，包括四个步骤：

步骤1，搭建轻量化MobileNet-SSD(MSSD)人脸检测网络；

步骤2，结合KCF跟踪器，形成快速稳定的人脸检测模型Mobile-SSD Net with KernelCorrelation Filter(MSK-Net)；

步骤3，搭建多尺度核人脸表情识别网络；

2.根据权利要求1所述的方法，其特征在于，步骤2采用MSK-Net作为人脸检测网络，该网络能够快速稳定的检测出图像序列中的人脸，保证人脸表情识别网络的数据输入速度。

3.根据权利要求1所述的方法，其特征在于，步骤3中的多尺度核人脸表情识别网络以深度可分离卷积为基础，改进MobileNetV2的线性瓶颈层结构为bottleneck_p，采用由三种不同尺度的卷积核构成三条支路，再将三种特征进行融合得到多尺度核卷积块MKC_Block。在多尺度核卷积网络中，用于压缩通道数的点卷积使用线性激活函数，其它卷积层使用PReLU激活函数，提高网络对分布变化数据的泛化能力。