CN111738178A

CN111738178A - 一种基于深度学习的戴口罩人脸表情识别方法

Info

Publication number: CN111738178A
Application number: CN202010595512.2A
Authority: CN
Inventors: 林丽媛; 韦赛远
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-02

Abstract

本发明公开一种基于深度学习的戴口罩人脸识别方法，主要解决当前戴口罩人脸表情识别技术数据集缺乏、准确率较低以及相关研究过少的问题。该方法首先基于Fer2013无遮挡表情数据集，结合Dlib库68个人脸关键点检测技术中的27个关键点建立3841张规格为48*48*1的有遮挡(戴口罩)4类表情类别数据集，随机分为训练集与测试集；将训练集输入一种基于卷积神经网络的专用于人脸表情识别领域的M‑Xception网络中进行训练，保存参数权重，可利用测试集测试模型准确率；利用OpenCV实时采集戴口罩人脸图像，将不同表情的戴口罩人脸图像输入模型，输出概率最大的表情即为识别结果。本发明使用卷积神经网络提高了识别准确率，降低了识别时间、运行成本低、方法简便，可以应用在商场购物体验、健康状态分析等场景。

Description

一种基于深度学习的戴口罩人脸表情识别方法

技术领域

本发明涉及深度学习与生物特征识别领域，具体是一种基于深度学习的戴口罩人脸表情识别方法。

背景技术

随着芯片处理能力的大幅提升(如GPU)和各种优秀神经网络结构(如卷积神经网络CNN)的不断涌现，人工智能领域许多研究方向开始转向深度学习方法，其中包括人脸表情识别。人脸表情是反映人类情感状态的最重要特征之一，可以向观察者传递大量的情感信息。作为一门涉及领域广泛的交叉性课题，人脸表情识别技术由于其高信息量、情感交互的作用，吸引更多研究者的关注。随着计算机技术的不断发展，基于深度学习的人脸表情识别技术正在得到充分挖掘和应用。但是由于口罩遮挡人脸表情的绝大部分信息，使得戴口罩的人脸表情识别具有高度复杂性，所以戴口罩的人脸表情识别技术的相关研究较少，识别的准确率一直偏低。通过戴口罩人脸表情的分析，可以提取有遮挡情况下，特征点受限的表情信息，进而分析其情感状态，从而掌握更多被观察者的情绪信息。

关于人脸表情识别的相关研究开始于20世纪，目前表情识别因为数据集数据不足、表情类别定义标准不一等问题仍然存在很大的技术限制。尤其当前普遍关于人脸表情识别的研究都集中在无遮挡情况，对于有遮挡的戴口罩表情识别的研究较少，并且缺乏相应数据集。

本发明利用深度学习的人机交互判断戴口罩的受试者表情，推测出该受试者对某一事件、某一物体的满意度。例如商场门店的顾客情绪分析，通过摄像头捕获商场或门店的顾客画面，分析其面部表情，再进一步解读出顾客的情绪信息，进而分析顾客在商场的消费满意度。相关研究成果，对于有遮挡的表情识别及应用具有积极的推动作用。

发明内容

本发明提出一种基于深度学习的戴口罩人脸表情识别方法，设计的M-Xception网络模型，能够使识别准确度、识别速度达到最优值。

本发明可以通过以下技术步骤进行实现：

1)在Fer2013开源人脸表情数据集的基础上，利用Dlib库68个人脸关键点检测技术完成数据集的人脸戴口罩操作，获得3841张48*48分辨率的单通道人脸表情数据集，共有4类表情类别，分别是中性、惊讶、悲伤和生气。再将数据集随机分为训练集与测试集两部分。

2)搭建M-Xception网络模型，该网络是本发明为戴口罩人脸表情识别而设计的一种基于深度学习的网络结构。将训练集输入M-Xception网络进行特征提取，得到最佳的网络分类器，保存模型权重。再输入测试集数据完成模型准确率的测试。

3)进行实时的戴口罩人脸图像采集，利用OpenCV技术对采集到的图像进行人脸检测及定位，并将其人脸图像缩放至分辨率为48*48的单通道图像，实现图像预处理。

4)将预处理后的实时采集序列图像输入训练好的网络模型，采用性能良好的网络权重完成对输入图像的表情分类。

本发明与现有技术相比具有以下优点：

一、现有人脸表情识别方法的相关研究基本上是在无遮挡人脸的条件下实现的。本发明另辟蹊径，完全建立在有遮挡(戴口罩)人脸表情的基础上进行研究的。

二、填补戴口罩人脸数据集的空白；

三、通过改进设计的M-Xception模型完成戴口罩人脸表情识别的训练和测试，准确度高、运行成本低、方法简便，可以应用于中等和低处理性能的设备中。与传统的Xception网络相比，M-Xception网络使用“深度可分离卷积”代替“极致‘Inception’”以减少网络参数，加快训练；舍弃部分网络层以降低网络复杂度，优化网络结构。同时还添加Dropout技术以防止过拟合现象。

附图说明

为更好的解释说明本发明的技术流程，下面使用一些附图对技术进行简单的介绍。

图1为本发明中基于深度学习的戴口罩人脸表情识别方法流程示意图；

图2为68个人脸关键点检测的示意图；

图3a为生成戴口罩人脸中性表情数据集的部分数据；

图3b为生成戴口罩人脸惊讶表情数据集的部分数据；

图3c为生成戴口罩人脸悲伤表情数据集的部分数据；

图3d为生成戴口罩人脸生气表情数据集的部分数据；

图4为M-Xception网络结构图。

具体实施方式

下面结合附图对本发明描述。

流程图如图1所示的基于深度学习的人脸表情识别方法，主要包括以下步骤：

步骤1：在现有开源数据集FER2013(7类表情类别)的基础上，除去相似表情类别中的三类以获得更加准确的识别效果，筛选出表情形态差异较大的中性、惊讶、悲伤和生气4类表情数据集，全部数据皆由全脸未遮挡人脸表情构成。结合Dlib库人脸关键点检测技术，依次给数据集中的无遮挡人脸佩戴口罩，其佩戴原理图由图2所示。去除非正脸、模糊等不合格图片，使用Fer+标签完成数据标注，得到4类分辨率为48*48的3841张戴口罩人脸表情数据作为实验数据集，其部分可视化中性、惊讶、悲伤和生气表情图像分别如图3(a)(b)(c)(d)所示。最后，随机选取数据集80％作为训练集，剩余的20％作为测试集。

步骤2：将训练数据集进行数据增强操作，设置图片随机转动角度为10°，图片随机水平、竖直偏移的幅度为0.1，并进行随机缩放和水平翻转，以扩大训练数据集规模和避免出现过拟合现象。将数据增强后的数据输入M-Xception网络进行分批、乱序处理以实现特征提取。M-Xception的网络结构如图4所示，由Entry flow、Middle flow和Exit flow三部分组成。

Step1，在M-Xception的第一层卷积层中，使用规模为3*3*1*8的滤波器对输入特征进行卷积操作，得到8张分辨率为46*46的特征图。

Step2，在M-Xception的第二层卷积层中，使用规模为3*3*8*16的滤波器对上述特征图进行卷积操作，得到16张分辨率为44*44的特征图。

Step3(a)，在M-Xception的Entry flow部分第一个可分离卷积模块中，使用规模为1*1*16*32、步长为2的滤波器对上述特征图进行卷积操作，得到32张分辨率为22*22的特征图。

Step3(b)，在M-Xception的Entry flow部分第一个可分离卷积模块中，使用规模分别为3*3*16*32和3*3*32*32的两个滤波器对Step2得到的特征图进行深度可分离卷积操作，得到32张分辨率为44*44的特征图。然后使用规模为3*3、步长为2的窗口进行下采样操作，得到32张分辨率为22*22的特征图。

Step4，将Step3(a)和Step3(b)得到的特征图进行融合得到32张分辨率为22*22的特征图。

Step5(a)，在M-Xception的Entry flow部分第二个可分离卷积模块中，使用规模为1*1*32*64、步长为2的滤波器对上述特征图进行卷积操作，得到64张分辨率为11*11的特征图。

Step5(b)，在M-Xception的Entry flow部分第二个可分离卷积模块中，使用规模分别为3*3*32*64和3*3*64*64的两个滤波器对Step4得到的特征图进行深度可分离卷积操作，得到64张分辨率为22*22的特征图。然后使用规模为3*3、步长为2的窗口进行下采样操作，得到64张分辨率为11*11的特征图。

Step6，将Step5(a)和Step5(b)得到的特征图进行融合得到64张分辨率为11*11的特征图。

Step7，在M-Xception的Middle flow部分，使用规模为3*3*64*64的三个滤波器对Step6得到的特征图进行深度可分离卷积操作，得到64张分辨率为11*11的特征图。

Step8，将Step6和Step7得到的特征图进行融合得到64张分辨率为11*11的特征图，重复Step7、Step8三次。

Step9(a)，在M-Xception的Exit flow可分离卷积模块中，使用规模为1*1*64*128、步长为2的滤波器对上述特征图进行卷积操作，得到128张分辨率为6*6的特征图。

Step9(b)，在M-Xception的Exit flow可分离卷积模块中，使用规模分别为3*3*64*128和3*3*128*128的两个滤波器对Step8得到的特征图进行深度可分离卷积操作，得到128张分辨率为11*11的特征图。然后使用规模为3*3、步长为2的窗口进行下采样操作，得到128张分辨率为6*6的特征图。

Step10，将Step9(a)和Step9(b)得到的特征图进行融合得到128张分辨率为6*6的特征图。

Step11，在M-Xception的Exit flow全域均值池化层中，然后使用规模为6*6窗口进行全连接操作操作，得到128个的特征点。

Step12，Softmax分类器作为最后分类处理组件，本层节点为4个，对应本实例中4种不同的人脸表情分类结果。

该网络与Xception相比，使用“深度可分离卷积”代替“极致‘Inception’”以减少网络参数，加快训练；舍弃部分网络层以降低网络复杂度；提前一个可分离卷积模块进行Middle flow操作以优化网络结构。同时还添加Dropout技术以防止过拟合现象。

具体学习过程为：输入神经网络的图片被转换为矩阵数据，通过卷积操作进行运算，在不断的迭代中，卷积核会逐渐对某类特征逐渐形成敏感性，即更新卷积核矩阵参数以期减少评价指标Loss值。评价指标对应的损失函数的公式为：

其中y_i是类别i的真实标签；p_i是Softmax函数计算出的类别i的概率值；k是类别数，N是样本总数。

步骤3：进行实时的戴口罩人脸图像采集，利用OpenCV对采集到的图像进行人脸检测及定位，并将其人脸图像缩放至分辨率为48*48的单通道图像，实现图像预处理。

步骤4：对训练好的模型进行测试，将预处理后的实时采集序列图像或者测试及数据输入到训练好的M-Xception网络模型中。根据准确率和损失函数Loss值来判断当前参数是否合适，网络是否对当前特征敏感，如准确率收敛水平达不到标准或收敛速度过慢，更改网络结构、网络参数重新进行步骤2的训练，直至达到标准，保存网络参数权重。经实践证明该方法明显优于Xception的分类效果。

总而言之，本发明提出一种基于深度学习的戴口罩人脸表情识别方法，主要解决了有遮挡表情识别相关研究过少、数据集缺乏以及准确度不高等问题。

最后说明的是，以上步骤仅用以说明本发明的技术方案而非限制，但本领域技术人员应当理解，可以在形式上和细节上对其做出相应的改变，但进行的改变，并不应使相应技术方案的本质脱离本发明的技术方案的精神和范围。

Claims

1.一种基于深度学习的戴口罩人脸表情识别方法，包括：

步骤A1，戴口罩表情数据集的建立；

步骤A2，深度学习网络M-Xception的搭建；

步骤A3，对戴口罩的人脸表情进行预处理；

步骤A4，利用训练权重完成表情分类和识别。

2.如权利要求1所述一种基于深度学习的戴口罩人脸表情识别方法，其中所述的戴口罩表情数据集的建立部分：定义4种不同的表情类别，分别是中性、惊讶、悲伤和生气，利用Dlib库68个人脸关键点检测技术完成人脸戴口罩操作，得到3841张分辨率为48*48的灰度表情图像，可分为训练集和测试集。

3.如权利要求1所述一种基于深度学习的戴口罩人脸表情识别方法，其中所述的深度学习网络M-Xception的搭建：M-Xception是在Xception网络的基础上，改进输入特征大小、卷积方式和网络层数，设计出来的一种专用于人脸表情识别的22层卷积神经网络，包括2个标准卷积层、15个深度可分离卷积层、4个池化层和1个Softmax分类层。

4.如权利要求1所述一种基于深度学习的戴口罩人脸表情识别方法，其中所述对戴口罩的人脸表情进行预处理部分：利用OpenCV技术对采集到的图像进行人脸检测及定位，并将其缩放至48*48的灰度图像。

5.如权利要求1所述一种基于深度学习的戴口罩人脸表情识别方法，其中所述的利用训练权重完成表情识别部分：将每类表情图像的训练集数据输入M-Xception网络，得到网络权重，并采用测试集数据检测网络的准确率，最后将采集的人脸表情图像输入到网络中即可完成表情分类。