CN112580458A

CN112580458A - 人脸表情识别方法、装置、设备及存储介质

Info

Publication number: CN112580458A
Application number: CN202011432845.XA
Authority: CN
Inventors: 刘峰; 吴中天; 胡乐; 黄书贤; 叶少强
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-30
Anticipated expiration: 2040-12-10
Also published as: CN112580458B

Abstract

本发明提供了一种人脸表情识别方法、装置、设备及存储介质，该方法包括以下步骤：从人脸表情图像中选取训练数据集和待识别数据集；构建基于残差神经网络的人脸表情识别模型；从训练数据集中选取部分人脸表情图像，输入人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型；从待识别数据集中选取部分人脸表情图像，输入训练后人脸表情识别模型，进行人脸表情识别，获得人脸表情分类结果。本发明不仅能够准确识别分类人脸表情，而且在复杂的现实情况下，使用训练出来的残差神经网络模型实时预测，可以减少计算时间，快速实现人脸表情识别。

Description

人脸表情识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种人脸表情识别方法、装置、设备及存储介质。

背景技术

近年来，随着科学的发展，数字图文信息处理开始逐步向图像的情感识别和计算等方向深入探索。而随着人工智能的兴起，人机交互领域的研究热点也逐渐增多。与计算机学、生物学、心理学等学科都有所相关的人脸表情识别问题，也成为研究热点之一，是一个有研究前景和研究价值的方向，其应用可以推广到舆情分析、人机交互、医疗、疲劳驾驶监督等领域。例如，在智能包装领域，通过摄像头捕获顾客表情，分析其面部表情解读出顾客的情绪信息，可以用于评测顾客对于商品包装的体验满意度；商品推荐系统可以参考人们在浏览各类商品时的表情进行分析并进而判断其喜爱程度，将喜爱程度值加入推荐系统以便向消费者推荐更受欢迎的商品。人机交互中机器人面部表情识别系统也可通过识别用户表情来综合判断用户的情绪和心理，做到更为人性化的服务等。并且，在辅助医疗领域、远程教育领域、智慧交通领域、视频推荐等领域，人脸表情识别也具有广阔的应用背景。

传统的人脸表情识别系统中，特征提取方法难以提取出人脸表情中隐藏较深的特征，而CNN等深度学习算法虽然可以提取出人工难以想到的特征，但训练复杂神经网络需要大量的计算成本与训练时间。表情识别研究中表情特征提取和分类识别是提高识别率的关键点也是难点，人脸表情识别系统的准确程度绝大部分受特征提取和分类两步骤所影响，应设计出端到端训练的网络用于系统整体准确率的提升。人脸表情图像亮度、背景和姿势会有所不同，在表情识别系统中应尽可能的过滤图像中的无关信息，对人脸进行提取，并进行一定的预处理，便于模型更好的分析人脸表情的特征。因此传统复杂神经网络人脸识别系统计算成本高、训练时间长且识别精度低是亟待解决的技术问题。

发明内容

鉴于传统复杂神经网络人脸识别系统计算成本高、训练时间长且识别精度低的问题，本发明提供了一种基于残差神经网络的人脸表情识别方法，以一种端到端的方式，提前训练好残差神经网络模型，利用下采样和池化等优化技巧减少参数、精简模型结构，得到了具有高精确率的表情分类模型。再结合人脸检测器，对视频中的人脸进行提取，加载表情识别模型，实现对视频中人脸的实时表情分类任务。

本发明一种人脸表情识别方法包括以下步骤：

从人脸表情图像中选取训练数据集、数据集和待识别数据集；

构建基于残差神经网络的人脸表情识别模型；

从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型

从待识别数据集中选取部分人脸表情图像，输入所述训练后人脸表情识别模型，进行人脸表情识别，获得人脸表情分类结果。

进一步地，在所述从人脸表情图像中选取训练数据集和待识别数据集之前，还包括：

选用Haar特征和Adaboost级联分类器的组合，筛掉人脸以外区域，获取人脸坐标，检测人脸关键点；

根据所述关键点对人脸区域进行截取，获得人脸区域图像；

对所述人脸区域图像进行亮度归一化和灰度归一化处理，获得所述人脸表情预处理图像。

进一步地，所述从训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型，具体包括：

对所述训练数据集进行数据增强处理，获得增强训练数据集；

对所述人脸表情识别模型进行权值初始化，获得初始化人脸表情识别模型；

通过所述增强训练数据集中的部分人脸表情图像对所述初始化人脸表情识别模型进行迭代训练；

当完成预先调整的迭代次数时，获得训练后人脸表情识别模型。

其中，所述迭代训练的具体步骤包括：

输入所述增强训练数据集中的部分人脸表情图像到所述初始化人脸表情识别模型，经过三个3x3、步距为1卷积核进行初步的特征提取，获得初步特征；

所述初步特征通过批归一化层，获得正态分布特征矩阵；

所述正态分布特征矩阵进入Relu激活函数层激活并通过最大池化层采样，获得浅层特征图；

所述浅层特征图进入4层残差模块，获得表情特征图；

所述表情特征图进入全局平均池化层、全连接层向前传播，输出表情分类值；

根据所述输出表情分类值与真实表情分类值之间的误差，计算分类交叉熵损失函数；

根据所述分类交叉熵损失函数，利用随机梯度下降法优化网络，更新残差网络模型权重参数，得到并保存分类效果最佳的模型权重参数。

进一步地，所述4层残差模块分为：两层基础残差模块和两层瓶颈残差模块，所述基础残差模块和所述瓶颈残差模块交替堆叠。

进一步地，所述基础残差模块的通道一，包括两个尺寸为3x3、步距为1卷积核，批归一化层，Relu激活函数层；

所述基础残差模块的通道二，输入即为输出，不对输入特征矩阵做任何处理。

输入特征矩阵经过所述基础残差模块通道一处理后与基础残差模块通道二输出的原始输入矩阵相加作为所述基础残差模块的特征矩阵输出；

所述瓶颈残差模块的通道一，包括尺寸为1x1、3x3、1x1的卷积核，3x3的卷积核设置步距为2，用于缩放特征矩阵；

所述瓶颈残差模块的通道二，采用步距为2的平均池化层，用于缩放特征矩阵，再经过1x1卷积核，并与所述瓶颈残差模块通道一的输出特征矩阵相加作为所述瓶颈残差模块的特征矩阵输出；

所述浅层特征图按照基础残差模块、瓶颈残差模块、基础残差模块、瓶颈残差模块的顺序，依次进入，进行特征提取，获得所述表情特征图。

进一步地，所述对训练数据集进行数据增强处理，不仅能增强训练的数据量，提高模型的泛化能力，还能增加噪声数据，提高模型的鲁棒性，数据增强处理具体包括：随机缩放、翻转、平移、旋转。

此外，为了实现上述目的，本发明还提出了一种人脸表情识别设备，所述人脸表情识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸表情识别程序，所述人脸表情识别程序被所述处理器执行时实现所述的人脸表情识别方法的步骤。

此外，为了实现上述目的，本发明还提出了一种存储介质，所述存储介质上存储有人脸表情识别程序，所述人脸表情识别程序被处理器执行时实现所述的人脸表情识别方法的步骤。

此外，为了实现上述目的，本发明还提出了一种人脸表情识别装置，所述人脸表情识别装置包括：数据读取模块、人脸截取模块、数据预处理模块、特征提取模块和表情分类模块；

所述数据读取模块，用于读取人脸表情图像，获取人脸关键点；所述数据读取模块不仅支持对本地图像、视频的读取，同时也能够快速捕获本地摄像头的实时视频数据进行处理；

所述人脸截取模块，用于根据所述人脸关键点快速删除不是人脸部分，截取人脸区域，获得人脸区域图像，提高了检测的效率；

所述数据预处理模块，用于对所述人脸区域图像进行亮度归一化和灰度归一化处理，获得预处理后人脸表情图像；

所述特征提取模块，用于通过多层的卷积层和残差模块对所述预处理后人脸表情图像进行特征提取，获得人脸表情图像特征；

所述表情分类模块，用于将所述人脸表情图像特征输出到全连接层进行表情分类，获得人脸表情分类结果。

本发明的有益效果：

(1)本发明设计出精简的残差卷积网络模型，可以降低模型的总参数量，减少训练时间和模型参数计算量。

(2)本发明舍弃了传统表情识别方法中耗时耗力的手工提取人脸特征的步骤，采用端到端的训练方法，将残差神经网络提取到的表情特征，直接用于促进网络对于表情识别率的提升。

(3)本发明利用人脸检测器和提前训练后残差神经网络模型，可以快速的实现实时人脸表情识别。

附图说明

图1是本发明具体实施例人脸表情识别流程框图；

图2是原始的Fer2103人脸表情图；

图3是本发明具体实施例Fer2103数据增强图；

图4是本发明具体实施例人脸表情识别模型结构图；

图5是本发明具体实施例残差模块结构图；

图6是本发明具体实施例人脸表情识别结果混淆图；

图7是本发明具体实施例人脸表情识别结果实时效果图；

图8是本发明具体实施例照片或视频人脸表情识别结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本发明具体实施例一种人脸表情识别方法实现方法是首先设计基于残差卷积神经网络人脸表情识别模型，与传统的表情识别流程基本类似，对于输入用于训练网络的表情图片，首先进行人脸检测与定位、归一化等预处理，把人脸从图片中分割出来，不同的是卷积神经网络的表情识别把特征提取和分类在同一个框架体系结构中进行，通过卷积操作对抽取图片表情特征，采用下采样操作对图片进行降维，减少计算量，通过多层的卷积和下采样抽取图片精准局部特征后利用全连接进行表情分类，整个过程一体化，不需要人为设置特征提取的参数，而是让机器自动从大量输入图片的大数据中自主学习表情特征并自动提取特征和分类。采用卷积神经网络，不仅减少了计算量，而且无须人工设定的特征为基准来提取，挖掘了原图像的很多细节特征。同时，本文利用残差学习加深卷积表情识别网络的深度，且跳层连接让梯度更好地在网络中传导，让深层网络的训练能够快速趋于收敛，为表情样本的多样性和高维性提供足够的参数空间。且针对表情识别任务设计了更为精简高效的判别模型。

请参考图1、图1是本发明具体实施例人脸表情识别流程框图；

本发明一种人脸表情识别方法包括以下步骤：

S1、从人脸表情图像中选取训练数据集、数据集和待识别数据集；

收集并分析人脸表情数据库Fer2013。Fer2013人脸表情数据集是人脸表情识别研究最常用的数据集，Fer2013数据集本身就已划分了训练集、验证集和测试集。该数据集共包含：35887张人脸图片，其中训练集28709张，验证集3589张，测试集3589张。数据集中的图片均为灰度图片，大小为48pixel×48pixel，样本被分为0＝anger(生气)、1＝disgust(厌恶)、2＝fear(恐惧)、3＝happy(开心)、4＝sad(伤心)、5＝surprised(惊讶)、6＝neutral(中性)7类。该数据集的测试集存在着许多标签的错误，导致在该数据集上测试精度不是很高，且人眼在该数据集上的识别率为65％。Fer2103人脸表情数据集对应的7种表情请参考图2。

S2、构建基于残差神经网络的人脸表情识别模型；

S3、从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型，具体为：

S31、对所述训练数据集进行数据增强处理，获得增强训练数据集；

一般而言，比较成功的神经网络需要大量的参数，很多的神经网络的参数都是数以百万计，而使这些参数正常工作需要大量的数据进行训练。实际情况中，并没有这么多的数据可用于训练。因此，深度学习中的数据增强就起到了很大的作用。它不仅能增强训练的数据量，提高模型的泛化能力，还能增加噪声数据，提高模型的鲁棒性。本文利用了随机缩放、翻转、平移、旋转数据增强技术对数据进行增强。请参考图3，图3展示了Fer2013数据集的数据增强后的数据样本分布情况。

S32、对所述人脸表情识别模型进行权值初始化，获得初始化人脸表情识别模型；

S33、通过所述增强训练数据集中的部分人脸表情图像对所述初始化人脸表情识别模型进行迭代训练；

S34、当完成预先调整的迭代次数时，获得训练后人脸表情识别模型。

数据增强后的图片数据输入初始化人脸表情识别模型用于训练。

请参考图4，图4是本发明具体实施例人脸表情识别模型结构图；从输入层(InputLayer)输入尺寸为(48,48,1)的图片，进入到表情识别网络模型中。首先通过卷积核大小为3x3，步距为1的Conv1、Conv2、Conv3。因为大的卷积核可以由多层小卷积核替代实现，这不仅可以减少参数，还能加深网络深度以实现网络容量和复杂度。因此我对残差网络做出改进，分别用三个3x3卷积的级联去替代7x7的卷积。同时减少网络参数量，进一步降低网络复杂度，减少训练成本。卷积操作得到初步特征矩阵，依次输入到Batch_Nomorlization层、ReLu激活函数层，保证网络稳定性，使损失函数快速稳定收敛。接着处理后的特征矩阵依次输入到四个残差模块。最终得到维度(6，6，512)的特征矩阵输入GlobalAvgPooling层和Dense层，并通过Sofatmax分类器输出对输入图片的表情识别类别，用于表情识别网络的训练与系统的预测。

请参考图5，图5是本发明具体实施例残差模块结构图。针对表情识别任务，由于输入图像较小，尺寸为48x48，在1x1的卷积层就做下采样是不明智的，因为这样会损失大量图像特征信息。更好的做法在所述通道一中，是把下采样过程挪到3x3的卷积上。由于卷积核宽度大于步长s因此卷积核在移动过程中能够遍历输入特征图上的所有信息，并且能够有一部分重叠，保证信息利用最大化。同样的，所述通道二中也采用步长s为2的平均池化AvgPool代替下采样工作，以避免信息丢失。

本文设计的残差神经网络框架针对表情识别任务，构建了更为精简的14层网络结构，实现了高准确率的表情识别任务，降低训练时间与成本，实现了快速的人脸表情检测识别。

S4、从待识别数据集中选取部分人脸表情图像，输入所述训练后人脸表情识别模型，进行人脸表情识别，获得识别结果。

当表情识别网络训练完成，即可用于测试，已验证模型表情分类的有效性。

请参考图6，图6是本发明具体实施例人脸表情识别结果混淆图；从图6可以看到，当程序加载所述训练后人脸表情识别模型对Fer2013数据集进行验证时，对于每个人脸表情类别都有极佳的识别精确率，经过统计，可以求得该模型在Fer2013数据集上的69.6％，已超过人类和一些先进网络在此数据集上的准确率。

此外，基于端到端训练的残差神经网络模型，本发明设计了实时人脸表情识别系统。系统实时效果请参考图7，首先将残差神经网络训练得到的人脸表情识别模型加载到人脸表情识别系统，以进行实时人脸表情检测，分类出表情类别并将其输出。同时该系统添加了emoji趣味功能，使用者可以选择程序执行，输出带有emoji标签的人脸表情实时检测。该人脸表情识别系统也能够实现对已保存单张照片或视频的识别与输出，识别结果请参考图8。

由图7、图8可知：基于残差神经网络设计的人脸表情识别方法，结合了深度学习强大的特征提取能力和残差神经网络的残差块跳跃连接策略，在保证精度的前提下，精简了残差网络结构和参数，实现了快速实时的人脸图像部分检测、人脸表情实现识别功能。系统在以端到端的方式训练好残差神经网络模型后，加载模型，从图像和视频中提取人脸，识别并输出高准确率的人脸表情预测结果。

本发明的创新点：

总之，本发明不仅能够准确识别分类人脸表情，而且最重要的是在复杂的现实情况下，使用训练出来的残差神经网络模型实时预测，可以减少计算时间，快速实现人脸表情识别。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸表情识别方法，其特征在于，所述人脸表情识别方法包括以下步骤：

从人脸表情图像中选取训练数据集和待识别数据集；

构建基于残差神经网络的人脸表情识别模型；

从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型；

2.如权利要求1所述的人脸表情识别方法，其特征在于，在所述从人脸表情图像中选取训练数据集和待识别数据集之前，还包括：

根据所述关键点对人脸区域进行截取，获得人脸区域图像；

对所述人脸区域图像进行亮度归一化和灰度归一化处理，获得人脸表情预处理图像。

3.如权利要求1所述的人脸表情识别方法，其特征在于，从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型，具体包括：

4.如权利要求3所述的人脸表情识别方法，其特征在于，所述迭代训练具体包括：

所述初步特征通过批归一化层，获得正态分布特征矩阵；

所述浅层特征图进入4层残差模块，获得表情特征图；

5.如权利要求4所述的人脸表情识别方法，所述4层残差模块分为：两层基础残差模块和两层瓶颈残差模块，所述基础残差模块和所述瓶颈残差模块呈交替堆叠结构。

6.如权利要求5所述的人脸表情识别方法，其特征在于，所述基础残差模块的通道一，包括两个尺寸为3x3、步距为1卷积核，批归一化层，Relu激活函数层；

所述基础残差模块的通道二，输入即为输出，不对输入特征矩阵做任何处理；

7.如权利要求1所述的人脸表情识别方法，其特征在于，对所述训练数据集进行数据增强处理，具体包括：随机缩放、翻转、平移、旋转。

8.一种人脸表情识别装置，其特征在于，所述人脸表情识别装置包括：数据读取模块、人脸截取模块、数据预处理模块、特征提取模块和表情分类模块；

所述数据读取模块，用于读取人脸表情图像，获取人脸关键点；

所述人脸截取模块，用于根据所述人脸关键点截取人脸区域，获得人脸区域图像；

9.一种人脸表情识别设备，其特征在于，所述人脸表情识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸表情识别程序，所述人脸表情识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的人脸表情识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有人脸表情识别程序，所述人脸表情识别程序被处理器执行时实现如权利要求1至7中任一项所述的人脸表情识别方法的步骤。