CN112101241A

CN112101241A - 一种基于深度学习的轻量级表情识别方法

Info

Publication number: CN112101241A
Application number: CN202010982821.5A
Authority: CN
Inventors: 张红英; 韩兴; 吴亚东
Original assignee: Southwest University of Science and Technology; Sichuan University of Science and Engineering
Current assignee: Southwest University of Science and Technology; Sichuan University of Science and Engineering
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-18

Abstract

本发明涉及轻量级表情识别方法相关技术领域，尤其为一种基于深度学习的轻量级表情识别方法，包括以下步骤，首先，通过MTCNN轻量级人脸检测网络实现快速高效的人脸检测；然后，改进MobileNetV3网络的基础结构，基于深度可分离卷积改进线性瓶减少网络复杂性和防止过拟合；最后，通过设计高效注意力模块将特征图的深度与空间信息结合，更着重于重要特征提取，并采用Centerloss损失函数减少相同表情的类内特征差异，Softmaxloss扩大不同表情类间特征间距，使网络具有更好的特征判别效果，最终完成实时的人脸表情识别。

Description

一种基于深度学习的轻量级表情识别方法

技术领域

本发明涉及轻量级表情识别方法相关技术领域，尤其涉及一种基于深度学习的轻量级表情识别方法。

背景技术

面部表情是一种常见的非语言交流形式，它能够有效的传达个人情感和意图；人类可以通过视觉获取他人的面部表情并通过大脑的分析了解他人的内心状态来达到交流的目的，随着科学繁荣和人工智能的发展，人们希望机器能够相对准确的识别面部表情达到人与机器间的交流，人脸表情自动识别在在改善人机交互、远程教育、辅助医疗、驾驶疲劳监测、营销辅助等方面都有着重要的研究价值和广泛的应用空间；

19世纪初，一些学者开始致力于人脸表情识别领域研究；1971年，心理学家EKman和他的伙伴深入研究了面部肌肉和不同表情之间的关系，将人脸表情化分为愤怒、厌恶、恐惧、高兴、悲伤和惊讶六类基本表情，并提出可以通过面部信号识别人脸表情；人脸表情识别过程可分为三个步骤：图像预处理，特征提取及人脸表情分类，如何有效的提取人脸表情特征是表情识别的关键步骤，此后研究的重点在就于人脸表情特征的提取，现如今主要分为两类特征提取方法；

一种是基于传统人工设计的表情特征提取方法，如局部二值模式(LocalBinaryPattern，LBP)、定向梯度直方图(HistogramofOrientedGradients，HOG)、尺度不变特征变换(ScaleInvariantFeatureTransform，SIFT)等，但这些方法可能会丢失一些原始图像的特征信息，还易受噪声干扰，对图像尺度和光照条件等不具有鲁棒性；

另一种是基于深度学习的表情特征提取方法，其能够自动的学习脸表情的特征，在人脸表情识别中达到较高的识别率；随着深度学习在图像识别领域的发展，卷积神经网络在计算机视觉领域展现出了优越的表现，同时涌现了越来越的卷积网络模型，例如AlexNet、VGG、GoogleNet和ResNet，这些网络模型被广泛应用于各个领域，其良好的识别性能和鲁棒性在人脸识别领域获得了巨大的进展；其在人脸表情识别方向也得到了大量的研究，并证实了卷积神经网络对于人脸表情识别任务的优越性能，相比传统识别方法具有更高的识别准确率和更好的稳定性；

但随着卷积神经网络模型在各个领域的迅速发展，在各个领域都取得非凡成果的同时，它的一些缺点也逐渐显露出来；其具有网络模型冗余复杂、模型参数数量庞大，训练时间漫长等缺点，因此其模型对配置要求较高且难以到达实时的要求，使得其只能在某些特定场所才能具有良好的应用，虽然采用卷积神经网络进行人脸表情识别能够提高识别的准确率且具有良好的稳定性，但其复杂的网络模型与难以实时性都影响其进一步的应用。

发明内容

本发明的目的在于提供一种基于深度学习的轻量级表情识别方法，以解决上述背景技术中提出的现有的基于深度学习的表情识别模型大，实时性差等问题。

为了实现以上目的，本发明采用的技术方案为：一种基于深度学习的轻量级表情识别方法，包括以下步骤，

S10、MTCNN人脸检测与定位，当得到摄像头采集的图像或输入一张图片后，先使用小模型生成有一定可能性的人脸候选框，然后再使用稍微复杂一些的网络对候选框筛选分类和更高精度的区域框回归，并且让这一步递归执行，以此思想构成三层网络，得到最终的人脸检测结果；

S20、通过S10得到人脸区域，然后进行图像的预处理操作，将人脸区域进行裁剪，去除部分与表情识别无关的背景以及头发等信息，只保留与表情相关的主要部分，然后判断图像是否为灰度图，不是则将其转化为灰度图，使得光照对人脸表情识别的影响降到最低，然后将其尺寸变换为96x96x1大小，便于后续卷积神经网络网络的训练与测试；

S30、设计与训练高效通道注意力网络，将S20预处理后的人脸表情图片输入到训练好的高效通道注意力网络进行表情特征提取；

S40、在得到S30高效通道注意力网络的输出后，本发明采用中心损失函数(Centerloss)完成表情的分类，Centerloss用于加强类内距，Softmaxloss用于改进类间的分离度，结合两种损失函数特点，提高人脸表情的识别效果。

进一步的，所述利用S10的轻量级人脸检测网络MTCNN网络从图像中检测出人脸，获得人脸区域。

进一步的，所述S20中将人脸区域进行裁剪与尺度变换，灰度化等图像预处理操作，得到96x96大小的人脸灰度图像。

进一步的，所述利用S30中高效通道注意力网络，其改进MobileNetV3网络的基础结构，基于深度可分离卷积改进线性瓶颈层，使用PReLU激活函数代替了ReLU激活函数，提高了表情识别的准确率，提升了算法的性能；引入高效通道注意力网络(ECA-Net)代替SE-Net模块，将特征图的深度与空间信息结合，更着重于重要特征提取，使网络具有更好的特征判别效果，并且加快了网络的收敛速度。

进一步的，所述S40中使用中心损失函数(Centerloss)完成表情的分类，设计的中心损失函数如下：

其中α是中心向量更新的参数，λ用于loss中占比的参数，公式参数选取为α＝0.5，λ＝0.1。

本发明的有益效果为：

本发明提出一种高效通道注意力的轻量级表情识别方法；该方法基于深度可分离卷积改进线性瓶颈结构减少网络复杂性和防止过拟合，通过设计高效注意力模块将特征图的深度与空间信息结合，更着重于重要特征提取，并采用Centerloss损失函数减少相同表情的类内特征差异，Softmaxloss扩大不同表情类间特征间距，使网络具有更好的特征判别效果，最终完成实时的人脸表情识别；稳定的识别出七种基本的表情，且能够更好的达到实时性要求，识别速度达到每秒90帧以上，处理效果较好，运行效率高，具有较好的鲁棒性。

附图说明

图1为一种基于深度学习的轻量级表情识别方法的具体实施整体框架结构示意图。

图2为一种基于深度学习的轻量级表情识别方法的改进线性瓶颈层结构示意图。

图3为一种基于深度学习的轻量级表情识别方法的高效通道注意力网络(ECA-Net)模型结构示意图。

图4为一种基于深度学习的轻量级表情识别方法的高效通道注意力网络结构示意图。

图5为一种基于深度学习的轻量级表情识别方法的网络的输入尺寸图。

具体实施方式

为了使本领域技术人员更好地理解本发明的技术方案，下面结合附图对本发明进行详细描述，本部分的描述仅是示范性和解释性，不应对本发明的保护范围有任何的限制作用。

如图1-图5所示，本发明的具体结构为：一种基于深度学习的轻量级表情识别方法，包括以下步骤，

优选的，所述利用S10的轻量级人脸检测网络MTCNN网络从图像中检测出人脸，获得人脸区域。

优选的，所述S20中将人脸区域进行裁剪与尺度变换，灰度化等图像预处理操作，得到96x96大小的人脸灰度图像。

优选的，所述利用S30中高效通道注意力网络，其改进MobileNetV3网络的基础结构，基于深度可分离卷积改进线性瓶颈层，使用PReLU激活函数代替了ReLU激活函数，提高了表情识别的准确率，提升了算法的性能；引入高效通道注意力网络(ECA-Net)代替SE-Net模块，将特征图的深度与空间信息结合，更着重于重要特征提取，使网络具有更好的特征判别效果，并且加快了网络的收敛速度。

优选的，所述S40中使用中心损失函数(Centerloss)完成表情的分类，设计的中心损失函数如下：

图1是本发明的一种具体实施方式的总体框图，具体包括如下4个步骤，按照以下步骤进行：

S10，MTCNN人脸检测；

MTCNN网络兼顾了性能和准确率，实现快速高效的人脸检测；MTCNN由三个轻量级卷积神经网络结构级联组成，分别是ProposalNetwork(P-Net)、RefineNetwork(R-Net)、OutputNetwork(O-Net)；

P-Net：基本结构是一个全卷积网络，负责获得人脸区域的候选窗口和人脸框的回归向量，根据人脸框回归向量对人脸候选窗口完成校正，并采用非极大值抑制(NMS)合并重叠过高的候选窗口。

R-Net：基本结构是一个卷积神经网络，增添了全连接层，对输入数据进行更严格的筛选，通过否决大量的非人脸窗口来精简人脸窗口。

O-Net：基本结构相较于R-Net增添了一层卷积层，是一个更为复杂的卷积神经网络；通过更多的监督来识别人脸区域，得到最终的人脸框，并且得到5个人脸特征点。

S20，人脸表情图片预处理；

收集人脸表情数据集，对高效通道注意力网络进行模型训练；FER-2013是Kaggle人脸表情识别挑战赛提供的一个人脸表情数据集；此数据集总共具有35887张表情图像，包括7类基本表情：愤怒、厌恶、高兴、悲伤、恐惧、惊讶和中性；FER2013数据集总共由三部分组成：其中训练集有28709张图片、公共测试集有3589张图片、私有测试集也为3589张图片；在训练时将公共测试集作为验证集，私有测试集作为最终指标判断的测试集，该数据集不仅包含了不同比例、不同姿势角度的人脸表情，很多图片有外界环境影响，包括手，头发，眼镜的遮挡，甚至有一些动漫卡通图片，挑战性非常大。

训练部分，由于人脸表情原始数据集数据量较小，难以满足深度学习对数据量的需求，为了避免人脸表情模型训练出现过拟合与模型泛化能力差的问题使用一系列随机变换对数据集图像进行扩增处理，扩充数据集的大小以更好的训练神经网络模型，使得训练的网络鲁棒性更强；在网络训练阶段为了防止网络出现过拟合，我们首先做一些列的随机变换，包括翻转，旋转，切割等，我们将数据图片尺寸变换为104x104大小，然后采用随机切割96*96的图像，然后将图片在0～15°之间进行随机旋转，并将图像随机进行水平镜像操作，然后送入高效通道注意力网络训练，得到高效通道注意力网络模型。

测试部分，我们分别在图像的左上，左下，右上，右下，中心进行切割为96x96的图像，然后再分别对其进行水平镜像操作，这样之后就相当于将数据扩增了10倍，之后我们将扩增后的图片输入得到的网络模型对其识别，将得到结果进行平均，最后得分最高的输出分类即为对应表情，这种方法能进一步提高识别的准确率。

S30，高效通道注意力网络表情特征提取；

改进的线性瓶颈层以深度可分离卷积为基础，分支中采用MobileNetV3的线性瓶颈层结构并对其进行了改进，将其中的非线性激活函数ReLU部分改为PReLU，使用h-swish新激活函数保持不变。

图2为本发明的改进线性瓶颈层图；在MobileNetV3的线性瓶颈网络结构中，在每一个卷积层之后都使用了BN层避免梯度消失和爆炸，防止网络过拟合，保证网络的稳定性；并且在网络的前几层为了增加网络非线性建模能力，防止梯度消失，使网络具有稀疏性，在瓶颈层与深度卷积层都采用了ReLU激活函数；但是RELU函数的使用也可能导致部分神经网络失活，在训练中如果一个非常大的梯度流经ReLU神经元，导致更新参数后此神经元的梯度输出永久的变为零，这时从此该神经元就会变为失活状态，这部分的权重就无法继续更新，网络得不到学习，就会导致信息丢失；所以我们采用了了PReLU函数替代ReLU函数，在负数区域有一个很小的斜率，该区域内会进行线性预算，避免了神经网络失活状态的发生，减少了可能的信息丢失，使得后续表情特征提取更加准确，提高了表情识别的准确率。

为了能够从人脸表情图像深层信息中筛选出有效的特征，我们引入超轻量级注意模块ECA-Net模块对改进的线性瓶颈结构的网络特征通道进行重新校准，它只涉及k(k＜＝9)参数，但带来了明显的性能增益。

图3为本发明的高效通道注意力网络(ECA-Net)模型图；该模块主要的作用是为每个通道生成权重并学习其相关性，就像加入注意力一样优先关注有用的信息，提升网络对主要特征的敏感度，同时降低模型的复杂度；对比原MobileNetV3中加入的SENet模块，ECA在不降低维度的情况下进行逐通道全局平均池化，再通过考虑每个通道及其k近邻来实现局部跨通道交互，并通过自适应选择一维卷积核大小确定局部通道交互的覆盖范围；

自适应确定内核大小k：

此处|t|_odd表示最近的奇数t。并且我们将γ和b分别设为2和1。显然，映射函数ψ使大的通道维度有更大的覆盖范围，反之亦然。

基于改进的线性瓶颈结构与高效注意力网络模型如图4所示，在线性瓶颈结构的深度卷积层后嵌入高效注意力机制，深度可分离卷积的深度卷积为表情特征提取部分，而在之后嵌入了高效通道注意力机制能够将深度卷积提取的特征权重重新加权，更着重提取重要的表情特征，接着在通过点卷积完成通道的缩放，并加入快捷连接层构成倒置残差结构，在减少网络结构的同时防止网络过拟合，最终基于线性瓶颈与倒置残差构成高效通道注意力网络。

本发明受到MobileNetV3网络结构启发，基于改进线性瓶颈层的高效通道注意力网络结构如图5所示，将网络的输入尺寸改为96x96x1，并将benck模型替换为改进的线性瓶颈与高效注意力网路模型，并减少两层卷积层以适应表情特征的提取，该网络结构在减少网络计算量的同时提升网络识别率。

S40，中心损失函数的表情分类；

采用Centerloss损失函数，Centerloss用于加强类内距，Softmaxloss用于改进类间的分离度，结合两种损失函数特点，提高人脸表情的识别效果。

我们通过Centerloss得到的类中心位置，Centerloss根据下式更新类中心：

γ是学习率，t是迭代次数，δ是一个条件函数，如果条件满足则δ＝1，如果条件不满足则δ＝0。

整个损失为Softmax损失加上Center损失，其公式如下：

在神经网络中，通过Centerloss损失函数学习步骤如下：输入数据为输入训练样本{f_i}，初始化的卷积层参数θ_C，最后的全连接层参数W，初始化的n类中心{c_j|j＝1，2，3...，n-1，n}，学习率μ^t，超参数α，类中心学习率λ和迭代次数t←1。输出为参数θ_C，对所有样本训练时会循环以下步骤：

(1)计算总损失：L＝L_S+αL_C

(2)对每个样本i计算反向传播误差：

(3)更新参数W：

(4)对每个中心j更新c_j：

(5)更新θ_C：

(6)t←t+1。

针对自然环境下的人脸表情识别；本发明给出了一种高效通道注意力的轻量级表情识别方法，首先；通过MTCNN轻量级人脸检测网络检测人脸与特征点，然后；以mobilenetv3网络为基础网络；基于深度可分离卷积与倒置残差与线性瓶颈结构采用注意力模块将特征图的深度与空间信息结合；联合Softmaxloss、Centerloss提高了网络对于人脸表情的识别准确率；实验结果表明；本文模型不仅能够更稳定的识别出七种基本的表情；且能够更好的达到实时性要求，识别速度达到每秒90帧以上，本发明算法简单；可操作性强；具有广泛的适用性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于深度学习的轻量级表情识别方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种基于深度学习的轻量级表情识别方法，其特征在于：所述利用S10的轻量级人脸检测网络MTCNN网络从图像中检测出人脸，获得人脸区域。

3.根据权利要求1所述的一种基于深度学习的轻量级表情识别方法，其特征在于：所述S20中将人脸区域进行裁剪与尺度变换，灰度化等图像预处理操作，得到96x96大小的人脸灰度图像。

4.根据权利要求1所述的一种基于深度学习的轻量级表情识别方法，其特征在于：所述利用S30中高效通道注意力网络，其改进MobileNetV3网络的基础结构，基于深度可分离卷积改进线性瓶颈层，使用PReLU激活函数代替了ReLU激活函数，提高了表情识别的准确率，提升了算法的性能；引入高效通道注意力网络(ECA-Net)代替SE-Net模块，将特征图的深度与空间信息结合，更着重于重要特征提取，使网络具有更好的特征判别效果，并且加快了网络的收敛速度。

5.根据权利要求1所述的一种基于深度学习的轻量级表情识别方法，其特征在于：所述S40中使用中心损失函数(Centerloss)完成表情的分类，设计的中心损失函数如下：