CN113011253A

CN113011253A - 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质

Info

Publication number: CN113011253A
Application number: CN202110158917.4A
Authority: CN
Inventors: 吴中天; 刘峰; 李志华; 黄书贤; 胡乐
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-22
Anticipated expiration: 2041-02-05
Also published as: CN113011253B

Abstract

本发明提供了一种基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质，该方法包括以下步骤：从人脸表情图像中选取训练数据集和待识别数据集；构建基于改进ResNeXt网络的人脸表情识别模型；从训练数据集中选取部分人脸表情图像，输入人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型；从待识别数据集中选取部分人脸表情图像，输入训练后人脸表情识别模型，进行人脸表情识别，获得人脸表情分类结果。本发明不仅能够准确识别分类人脸表情，而且在复杂的现实情况下，使用训练好的ResNeXt网络模型实时识别，可以节省计算时间，实现人脸表情的快速识别。

Description

基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质。

背景技术

在人与人之间的交往方式中，除了直接的语言沟通外，人脸表情是一个非常重要的传递个人想法以及感知他人行为信息的传输媒介。虽然面部在人类整体构造当中仅占据极小一部分，但是丰富的五官变化却能展现出人类极其丰富的内心世界，可谓是人类心理的显示屏。因此，表情是人类内心世界最直接的传递媒介，在人类的交往中占据着最重要的地位。理解人类的情感就需要从表情识别出发，人脸表情是人类情感最直接的表达。

人脸面部表情识别通过特定的算法提取静态图像或视频中人脸的表情特征，并利用分类器对所提取到的特征进行分类，得到最后的情感判断。现有技术中常采用复杂神经网络作为人脸识别的计算方法，但传统的复杂神经网络存在成本高、训练时间长且识别精度低。

发明内容

本发明提供了一种基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质，旨在解决传统复杂神经网络计算成本高、训练时间长且识别精度低的技术问题。

为了实现上述目的，本发明提供了一种基于ResNeXt网络的人脸表情识别方法，所述人脸表情识别方法包括以下步骤：

从人脸表情图像中选取训练数据集和待识别数据集；

构建基于改进ResNeXt网络的人脸表情识别模型；

从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型；

从所述待识别数据集中选取部分人脸表情图像，输入到加载了所述训练后人脸表情识别模型的系统中，进行人脸表情识别，并基于softmax分类器输出人脸表情分类结果。

优选地，在所述从人脸表情图像中选取训练数据集和待识别数据集之前，还包括：

选用Haar特征和Adaboost级联分类器的组合，筛掉人脸以外区域，获取人脸坐标，检测人脸关键点；

根据所述关键点对人脸区域进行截取，获得人脸区域图像；

对所述人脸区域图像进行亮度归一化和灰度归一化处理，获得人脸表情预处理图像。

优选地，从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型的步骤包括：

对所述训练数据集进行数据增强处理，获得增强训练数据集；

对所述人脸表情识别模型进行权值初始化，获得初始化人脸表情识别模型；

通过所述增强训练数据集中的部分人脸表情图像对所述初始化人脸表情识别模型进行迭代训练；

当完成预先调整的迭代次数时，获得训练后人脸表情识别模型。

优选地，所述迭代训练具体包括：

输入所述增强训练数据集中的部分人脸表情图像到所述初始化人脸表情识别模型，经过ZeroPadding处理层处理，保存边缘信息，并通过多个卷积核进行卷积处理，获得多个特征图；

所述多个特征图通过批归一化层，获得正态分布特征矩阵；

所述正态分布特征矩阵进入Relu激活函数层激活并通过最大池化层采样，获得浅层特征图；

所述浅层特征图进入所述改进ResNeXt网络，输出表情特征图；

所述表情特征图进入全局平均池化层、全连接层向前传播，输出表情分类值；

根据所述输出表情分类值与真实表情分类值之间的误差，计算得到分类交叉熵损失函数；

根据所述分类交叉熵损失函数，利用随机梯度下降法优化网络，更新所述改进ResNeXt网络的权重参数，得到并保存分类效果最佳的模型权重参数。

优选地，所述改进ResNeXt网络包括多个ResNeXt基本模块，所述多个ResNeXt基本模块依次堆叠，每个所述ResNeXt基本模块之间，加入AvgPooling平均池化层，所述AvgPooling平均池化层用于图像特征矩阵降维采样。

优选地，每个所述ResNeXt基本模块包括：

卷积核、批规范化层、Relu激活函数层、ZeroPadding处理层和分组卷积模块。

优选地，对所述训练数据集进行数据增强处理，具体包括：随机缩放、翻转、平移、旋转。

此外，为了实现上述目的，本发明还提出了一种人脸表情识别设备，所述人脸表情识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸表情识别程序，所述人脸表情识别程序被所述处理器执行时实现所述的人脸表情识别方法的步骤。

此外，为了实现上述目的，本发明还提出了一种存储介质，所述存储介质上存储有人脸表情识别程序，所述人脸表情识别程序被处理器执行时实现所述的人脸表情识别方法的步骤。

此外，为了实现上述目的，本发明还提出了一种人脸表情识别装置，所述人脸表情识别装置包括：

选取模块，用于从人脸表情图像中选取训练数据集和待识别数据集；

构建模块，用于构建基于改进ResNeXt网络的人脸表情识别模型；

训练模块，用于从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型；

识别模块，用于从所述待识别数据集中选取部分人脸表情图像，输入到加载了所述训练后人脸表情识别模型的系统中，进行人脸表情识别，并基于softmax分类器输出人脸表情分类结果。

本发明的有益效果：

(1)本发明针对表情分类任务对ResNeXt网络进行改进，改进后的ResNeXt网络降低了人脸表情识别模型的总参数量，减少了训练时间和模型参数的计算量。

(2)本发明舍弃了传统人脸表情识别方法中手工提取人脸特征的步骤，采用端到端的训练方法，运用ResNeXt网络模型提取人脸表情特征，提高了人脸表情识别速率。

(3)本发明利用人脸检测器和提前训练好的ResNeXt网络模型，实现了人脸表情的快速实时识别。

附图说明

图1是本发明具体实施例人脸表情识别流程框图；

图2是本发明具体实施例CK+原始及其数据增强后的人脸表情图；

图3是本发明具体实施例Fer2013标准数据集原始及其数据增强后的人脸表情图；

图4是本发明具体实施例人脸表情识别模型结构图；

图5是本发明具体实施例ResNeXt基本模块结构图；

图6是本发明具体实施例平均池化操作示例图；

图7是本发明具体实施例CK+数据集训练过程精度曲线图；

图8是本发明具体实施例CK+数据集训练过程损失曲线图；

图9是本发明具体实施例CK+数据集人脸表情识别结果混淆矩阵图；

图10是本发明具体实施例Fer2013标准数据集人脸表情识别结果混淆矩阵图；

图11是本发明具体实施例人脸表情识别模型准确率对比图；

图12是本发明具体实施例人脸表情识别结果实时效果图；

图13是本发明具体实施例照片或视频人脸表情识别结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本发明具体实施例一种基于ResNeXt网络的人脸表情识别方法，本实施例利用ResNeXt网络作为BackBone(主干网络)，并对ResNeXt网络进行优化改进，利用残差映射学习代替恒等映射学习，堆叠拓扑结构相同且高度模块化的基本单元，使得在训练深度神经网络时，能有效避免性能退化问题、减小网络复杂度，让深层网络的训练能够快速趋于收敛，为表情样本的多样性和高维性提供足够的参数空间。同时，针对表情分类任务，优化后的ResNeXt网络采用平均池化策略，取代了在传统ResNext基本模块中的下采样操作，减少了网络参数量；使不同阶段ResNeXt基本模块，尽可能提取同一尺寸下的输入特征图的信息用于表情分类，以满足本发明表情识别系统在训练效率和识别精确率方面的需求。

请参考图1、图1是本发明具体实施例人脸表情识别流程框图；

本发明一种人脸表情识别方法包括以下步骤：

S1、从人脸表情图像中选取训练数据集和待识别数据集；

收集并分析人脸表情数据库CK+和Fer2013。这个数据库是目前比较通用的人脸表情数据集，适合于人脸表情识别的研究。是2010年在Cohn-Kanda数据集的基础上扩展得来的，包含123名参与者、593个图片序列。CK+与CK数据集的区别为CK数据集只有静态图片，CK+数据集中还包括动态视频，两者都含有情绪标签，指出了参与者的表情。Fer2013人脸表情数据集是人脸表情识别研究常用的数据集之一，Fer2013数据集本身就已划分了训练集、验证集和测试集。该数据集共包含：35887张人脸图片，其中训练集28709张，验证集3589张，测试集3589张。数据集中的图片均为灰度图片，大小为48pixel×48pixel，样本被分为0＝anger(生气)、1＝disgust(厌恶)、2＝fear(恐惧)、3＝happy(开心)、4＝sad(伤心)、5＝surprised(惊讶)、6＝neutral(中性)7类。该数据集的测试集存在着许多标签的错误，导致在该数据集上测试精度不是很高，且人眼在该数据集上的识别率为65％。

S2、构建基于改进ResNeXt网络的人脸表情识别模型；

S3、从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型，具体为：

S31、对所述训练数据集进行数据增强处理，获得增强训练数据集；

本发明实施例采用了随机缩放、翻转、平移、旋转数据增强技术对数据进行增强。请参考图2、图3，图2、图3展示了CK+和标准Fer2013数据集的数据增强后的数据样本分布情况。

S32、对所述人脸表情识别模型进行权值初始化，获得初始化人脸表情识别模型；

S33、通过所述增强训练数据集中的部分人脸表情图像对所述初始化人脸表情识别模型进行迭代训练；

步骤S33中迭代训练的具体步骤为：

输入所述增强训练数据集中的部分人脸表情图像到所述初始化人脸表情识别模型，预处理后的尺寸为48×48的人脸灰度图片，对输入信息进行ZeroPadding处理层处理，保证图片的边缘信息得到保存；选取64个卷积核，卷积核像素为3×3，卷积处理之后得到大小为48×48像素的64个特征图；

所述64个特征图通过批归一化层，获得正态分布特征矩阵；

所述浅层特征图进入改进ResNeXt网络，获得输出表情特征图。

S34、当完成预先调整的迭代次数时，获得训练后人脸表情识别模型。

S4、从所述待识别数据集中选取部分人脸表情图像，输入到加载了所述训练后人脸表情识别模型的系统中，进行人脸表情识别，并基于softmax分类器输出人脸表情分类结果。

请参考图4，图4是本发明具体实施例人脸表情识别模型结构图；从输入层(InputLayer)输入尺寸为(48,48,1)的图片，进入到基于改进ResNeXt网络的人脸表情识别网络模型中。首先进行ZeroPadding处理，即对输入矩阵的边缘使用零值进行填充，保证图片的边缘信息得到保存，卷积操作得到初步特征矩阵，依次输入到Batch_Nomorlization层、ReLu激活函数层，保证网络稳定性，使损失函数快速稳定收敛。接着处理后的特征矩阵依次输入到4个ResNeXt基本模块。最终得到维度(6,6,1024)的特征矩阵输入GlobalAvgPooling层和Dense层，并通过Softmax分类器输出表情识别结果。

请参考图5，图5是本发明具体实施例ResNeXt基本模块结构图。

ResNeXt基本模块具有相同的拓扑结构，且遵循2个简单规则：①如果生成同样大小的空间映射，则ResNeXt基本模块中的拓扑结构共享相同的超参数(如宽度和滤波器大小等)；②每次当空间映射基于因子2下采样时，模块的宽度乘以2。第二个规则保证了计算的复杂度，对于浮点数运算(包括乘法和加法)，所有模块的计算量大致相同。在ResNeXt基本模块中，对于特征矩阵的拆分-转换-合并的特征提取操作可数学表示为：

其中，x为输入到ResNeXt基本模块的表情特征矩阵；Ti为相同的拓扑结构：C为一个模块中所具有的相同分支的数目，通常将C称为基数，用于模型复杂度的另外一个度量C的取值可以是任意数，本实施例中C取值为32。

表情特征矩阵数据输入到ResNeXt基本模块，可分发到每个低维嵌入中进行一系列变换，然后再将输出通过相加的方式与原始输入矩阵相聚合。ResNeXt基本模块的最终输出可表示为：

请参考图6，图6是本发明具体实施例平均池化操作示例图；在实施例中，AvgPooling平均池化层的步距为2、尺寸2*2。针对表情识别任务，由于输入图像较小，尺寸为48x48，在所述ResNeXt基本模块中卷积操作前中，加入步长s为2的AvgPooling平均池化层代替卷积层中的下采样工作，用于图像特征矩阵的降维采样，取代了传统ResNext基本模块中的下采样操作，使不同阶段ResNeXt基本模块，尽可能提取同一尺寸下的输入特征图的信息，保证在多个维度下，提取多尺度的图像特征信息用于表情分类。在保证人脸表情识别准确率的同时减少ResNeXt基本模块的参数量，简化模型结构，降低训练成本。

当表情识别网络训练完成，即可获得该模型的可视化训练过程曲线，以验证模型的稳定性。请参考图7、图8，其中图7是本发明具体实施例CK+数据集训练过程精度曲线图；图8是本发明具体实施例CK+数据集训练过程损失曲线图；随着训练次数的增加，验证精度和验证损失都随着训练精度和训练损失值变化，整个训练过程中并未出现欠拟合和过拟合现象，从评价参数的收敛情况可以得出，改进后ResNeXt网络具有良好的学习能力。

为了进一步说明改进ResNeXt网络的人脸表情识模型性能优势，还选用混淆矩阵作为性能的评判指标，本发明具体实施例中绘制了改进ResNeXt网络在CK+训练集和的Fer2013训练集上的验证结果混淆矩阵，已验证该网络的分类效果。具体请参考图9，本发明具体实施例选取CK+训练集对网络进行训练，改进ResNeXt网络在训练后，在CK+数据集上能够达到99.11％的分类准确率，说明本发明人脸表情识别方法的分类性能更好，拟合能力更强。请参考图10，具体实施例选取Fer2013训练集对网络进行训练和验证模型准确率，人眼在该数据集上的识别率为65％，但本发明人脸表情识别方法的分类效果达到69.4％，超过了人眼识别率，也超过了多种人脸表情识别方法的准确率，进一步验证了该网络优秀的学习能力和泛化能力。

请参考图11，具体实施例还将多个其他国际上先进的人脸表情识别方法与本发明改进ResNeXt网络的人脸表情识别方法进行了分析比较，结果证明了本发明对人脸表情识别的精确度更高。

此外，基于端到端训练的改进ResNeXt网络模型，本发明设计了实时人脸表情识别系统。系统实时效果请参考图12，首先将改进ResNeXt网络训练得到的人脸表情识别模型加载到人脸表情识别系统，以进行实时人脸表情检测，分类出表情类别并将其输出。同时该系统添加了emoji趣味功能，用户根据选择输出带有emoji标签的人脸表情实时检测。该人脸表情识别系统也能够实现对已保存单张照片或视频的识别与输出，识别结果请参考图13。

本发明提供的基于改进ResNeXt网络的人脸表情识别方法，利用残差映射学习代替恒等映射学习，堆叠拓扑结构相同且高度模块化的基本单元，使得在训练深度神经网络有效避免性能退化问题、减小网络复杂度。同时，针对表情分类任务，改进后的ResNeXt网络采用平均池化策略，取代了在传统ResNext基本模块中的下采样操作,减少了网络参数量，使不同阶段ResNeXt模块，尽可能提取同一尺寸下的输入特征图的信息用于表情分类，在保证模型的精度的前提下，精简了ResNeXt网络结构和参数，实现了快速实时的人脸图像部分检测、人脸表情识别功能。系统在以端到端的方式训练好ResNeXt网络后，加载模型，从图像和视频中提取人脸，识别并输出高准确率的人脸表情分类结果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于ResNeXt网络的人脸表情识别方法，其特征在于，所述人脸表情识别方法包括以下步骤：

从人脸表情图像中选取训练数据集和待识别数据集；

构建基于改进ResNeXt网络的人脸表情识别模型；

2.如权利要求1所述的人脸表情识别方法，其特征在于，在所述从人脸表情图像中选取训练数据集和待识别数据集的步骤之前，还包括：

根据所述人脸关键点对人脸区域进行截取，获得人脸区域图像；

3.如权利要求1所述的人脸表情识别方法，其特征在于，从所述训练数据集中选取部分人脸表情图像，输入所述人脸表情识别模型，进行迭代训练，获得训练后人脸表情识别模型的步骤包括：

4.如权利要求3所述的人脸表情识别方法，其特征在于，所述迭代训练具体包括：

所述多个特征图通过批归一化层，获得正态分布特征矩阵；

所述浅层特征图进入所述改进ResNeXt网络，输出表情特征图；

5.如权利要求1所述的人脸表情识别方法，其特征在于，所述改进ResNeXt网络包括多个ResNeXt基本模块，所述多个ResNeXt基本模块依次堆叠，每个所述ResNeXt基本模块之间，加入AvgPooling平均池化层，所述AvgPooling平均池化层用于图像特征矩阵降维采样。

6.如权利要求5所述的人脸表情识别方法，其特征在于，每个所述ResNeXt基本模块包括：

7.如权利要求1所述的人脸表情识别方法，其特征在于，对所述训练数据集进行数据增强处理，具体包括：随机缩放、翻转、平移、旋转。

8.一种基于ResNeXt网络的人脸表情识别装置，其特征在于，所述人脸表情识别装置包括：

9.一种基于ResNeXt网络的人脸表情识别设备，其特征在于，所述人脸表情识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸表情识别程序，所述人脸表情识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的人脸表情识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有人脸表情识别程序，所述人脸表情识别程序被处理器执行时实现如权利要求1至7中任一项所述的人脸表情识别方法的步骤。