CN116386102A

CN116386102A - 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法

Info

Publication number: CN116386102A
Application number: CN202310149159.9A
Authority: CN
Inventors: 胡鹤轩; 张鲁峰; 黄倩; 杨天金; 巫义锐; 胡强; 张晔
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-07-04

Abstract

本发明公开了一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，包括步骤：收集FER2013数据集并对FER2013数据集进行数据预处理，划分为80％训练集和20％测试集，得到用于模型训练与测试的图像集：搭建改进inception块结构的轻量级残差卷积网络，使用预处理后的训练集进行训练，使用恒等映射增强网络训练效果，拓展网络宽度与卷积深度；选取Softmax特征分类器作为模型特征分类器；使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别，输出人脸情绪识别结果。本发明可解决网络退化、网络参数量大和网络过拟合等问题，人脸情绪识别精度高。

Description

一种基于改进残差卷积网络inception块结构的人脸情绪识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于改进残差卷积网络inception块结构的人脸情绪识别方法。

背景技术

近年来，深度学习、人工智能、物联网以及大数据的快速发展，导致人机交互在人们的日常生活中扮演越来越重要的角色。对于机器来说，只有机器识别出人的情绪才能以人的思维，对被识别人的不同情绪做出相应的反馈。在人类日常生活中，面部表情是传递信息量高的方式，因此在人机交互中占据着重要地位。因此，人的面部表情相比于动作、语言更能表达情绪信息。研究表示，在人类的日常交流中，与情绪有关的信息中55％的信息来源于面部表情，而通过声音、语言传递的信息分别占信息总量的38％和7％。因此近年来对人脸情绪识别的研究愈发深入。

随着深度学习的不断发展，利用包含卷积神经网络、循环神经网络以及深度置信网络等深度学习技术逐渐被应用在人脸情绪识别方向。在人脸情绪识别方面，基于深度学习的方法极大地减少了对图像的预处理以及特征提取的任务量，并且对于环境变化拥有更好的鲁棒性。但是传统神经网络的网络参数大，网络训练难度大，识别准确率低以及梯度消失与梯度爆炸等问题，是当前人脸情绪识别面临的关键挑战。

基于深度学习的人脸情绪识别的三个主要步骤为：数据预处理、数据深度特征学习与数据深度特征分类。根据人脸情绪识别模型不同类型的输入数据，深度学习的人脸情绪识别网络可以分为识别静态图像的深度神经网络与识别动态图像序列的深度神经网络。

对于传统神经网络基础架构的改进，一些研究提出了添加良好的辅助块或层，来提高网络对于特征学习的相关能力。中国专利申请(CN115512422A)“基于注意力机制的卷积神经网络面部情绪识别方法及系统”采用多个卷积层和池化层从而提高人脸情绪识别准确率，但是由于改进神经网络架构依赖于增加神经元数量或增加层数，增加拓扑的深度和复杂性会导致许多问题，例如训练数据的过度拟合、网络退化以及计算需求的增加。同时仍然存在传统神经网络参数量大、训练成本高、模型落地难、模型梯度消失、梯度爆炸以及识别准确率低等问题。在变化环境的人脸情绪识别，比如野外环境的情绪识别，这些问题更为突出。

发明内容

本发明的目的是提供一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，针对目前改进网络的训练数据的过度拟合、网络退化以及传统神经网络参数量大、训练成本高、落地难、梯度消失、梯度爆炸以及识别准确率低问题做出改进，包括：收集FER2013数据集，进行数据预处理，划分为80％训练集和20％测试集，得到用于模型训练与测试的图像集；搭建改进inception块结构的残差卷积网络，并使用上述完成预处理的训练集进行训练，使用恒等映射增强网络训练效果，拓展网络宽度与卷积深度，缓解网络退化问题，减少网络参数量，提高网络识别准确率；选取合适特征分类器对最终特征进行分类；使用上述完成预处理的测试集进行测试，使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别，输出人脸情绪识别结果。

为解决上述技术问题，本发明采用以下技术方案。

一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，包括以下步骤：

步骤1、收集FER2013数据集并对FER2013数据集进行数据预处理：

步骤2、搭建改进inception块结构的轻量级残差卷积网络；

步骤3、选取Softmax特征分类器作为模型特征分类器；

步骤4、使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别，输出人脸情绪识别结果。

具体地，在步骤1中，所述的收集FER2013数据集并进行数据预处理，包括：

1-1.收集FER2013数据集，并对FER2013数据集中图像进行人脸关键点定位；人脸关键点定位采用人脸68个关键点定位；人脸关键点定位使用Dlib特征点定位模块；

1-2.旋转校正：通过人脸图像两眼倾斜角度对FER2013数据集图像进行旋转校正；获取关键点坐标后，计算眼睛几何中心连线水平夹角；计算公式为公式(1)：

其中θ为图像眼睛几何中心连线水平夹角，(x₁₁,y₁₁)…(x₁₆,y₁₆)、(x₂₁,y₂₁)…(x₂₆,y₂₆)为左右眼睛的关键点坐标；θ小于零时将图像逆时针旋转，θ大于零则将图像顺时针旋转；

1-3.FER2013数据集图像尺度归一化：规定人脸双目瞳孔间距为d，双目瞳孔连线中点为坐标原点，以坐标原点为基准左右各裁剪d大小，垂直连线方向向上截取0.8d，向下截取1.8d，裁剪完成后调整图片大小完成图像尺度归一化；

1-4.FER2013数据集图像灰度归一化：使用直方图均值化方法，提高图像对比度，完成图像灰度归一化；

1-5.FER2013数据集划分为训练集和测试集：经步骤1-1至步骤1-4处理后的FER2013数据集按照8:2的比例划分为训练集与测试集，其中80％为训练集，20％为训练集。

具体地，在步骤2中，所述的搭建改进inception块结构的轻量级残差卷积网络，包括：

2-1.搭建模型前处理层，为卷积层、池化层、卷积层结构；其中，卷积层卷积核大小为(3,3)，步长为1；池化层卷积核大小为(2,2)，步长为2；

2-2.搭建四通道inception网络；通道一包括两个卷积层：第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(3,3)，步长为1；通道二包括两个卷积层：第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(5,5)，步长为1；通道三为池化层、卷积层结构，池化层卷积核大小为(2,2)步长为2；卷积层卷积核大小为(1,1)，步长为1；通道四为一个卷积层和低层恒等映射组成，卷积层卷积核大小为(1,1)，步长为1，低层恒等映射学习残差特征，其残差网络公式定义为公式(2)：

y＝F(x)+x (2)

其中，x为残差块的输入，y为输出，F(x)为要学习的残差映射；

2-3.搭建特征降维层，为特征融合层、池化层结构，其中池化层卷积核大小为(2,2)，步长为2；特征融合层对四通道inception网络的输出特征进行特征降维；

2-4.搭建Block块结构并使用恒等映射，对特征降维层的输出特征进行处理；Block块包括组合级联形成的inception 1、特征融合层、inception 2；inception 1和inception 2各有结构相同的四个通道：通道一含两个卷积层，第一个卷积层卷积核大小为(1,1)步长为1，第二个卷积层卷积核大小为(3,3)，步长为1；通道二含两个卷积层，第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(5,5)，步长为1；通道三为池化层、卷积层结构，池化层卷积核大小为(2,2)步长为2；通道四由一个卷积层和低层恒等映射组成，卷积层卷积核大小为(1,1)，步长为1；经过inception 1的四个通道处理后的特征，经过特征融合层进入inception 2的四个通道的第四通道，与inception 2的第四通道处理后的特征进行特征空间相加，获取前层的残差特征，完成恒等映射；

2-5.搭建模型后处理层，为特征融合层、池化层、卷积层结构，其中池化层卷积核大小为(2,2)，步长为2；卷积层卷积核大小为(4,4)，步长为4；卷积层用来对特征进行特征展平，从而取代全连接层，减少模型参数；

2-6.对后处理层的输出特征使用Dropout方法，避免网络过拟合；

2-7.采用交叉熵损失函数计算损失，损失函数公式为：

其中，n是类别数，y_i为输入x下的真实值，

是对x的预测值L(x)为输入数据x下的损失；

2-8.使用由数据预处理后的FER2013数据集划分的训练集对改进inception块结构的轻量级残差卷积网络进行训练，初始化各个参数，学习率设置为0.01，Dropout为0.32，Batch Size为128，训练轮数为200。

具体地，在步骤3中所述的选取Softmax特征分类器作为模型特征分类器，其过程为：

经过Dropout方法处理后的输出特征最后经过Softmax特征分类器分类输出8种情绪的概率值，特征分类器函数形式如公式(4)：

所述的8种情绪为生气、厌恶、恐惧、开心、伤心、惊讶、轻蔑和中性；其中，

是输出情绪概率，z_j为第j个节点的输出值，K为输出节点的个数；Softmax特征分类器函数作用是把一个含任意实数的N维向量/>

映射到另一个N维实向量/>

中，并且使得向量中的任意元素都在(0,1)区间内，且全部元素的和为1；Softmax特征分类器将原来大于1的输出值映射成为在(0,1)区间内的值；可将/>

向量的数值理解为概率，因此，选取概率最大结点作为预测目标，即完成一次分类。

具体地，在步骤4中，所述的使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别并输出人脸情绪识别结果，包括：

4-1.将由数据预处理后的FER2013数据集划分的测试集输入步骤2-8训练完成的网络，即由数据预处理后的FER2013数据集划分的训练集训练完成的改进inception块结构的轻量级残差卷积网络中进行特征处理；

4-2.将步骤4-1特征处理后的输出特征经过Softmax分类器输出8维的情绪概率向量；

4-3.数据集为FER2013数据集，将改进inception块结构的轻量级残差卷积网络的识别准确率与模型参数量与CNN，VGG16模型进行对比，验证改进inception块结构的轻量级残差卷积网络为轻量级网络，且识别准确率较高。

与现有技术相比，本发明具有以下优点和有益效果：

1.本发明通过人脸关键点定位、图像旋转校正、图像尺度归一化以及灰度归一化，更加有效的利用人脸的情绪信息，有效减少了环境因素带来的图像信息损失，增强了图像的细节，使图像层次更为清晰；

2.本发明通过搭建四通道inception网络与Block结构，减少了网络层数，拓宽了网络宽度与卷积深度，利用多尺寸卷积核丰富了网络提取特征；

3.本发明通过使用恒等映射，将低层特征传播到高层，避免了网络退化问题，增强了网络训练效果。

4.本发明通过使用4*4的卷积层替代全连接层，有效减少网络参数，使用Dropout方法避免网络过拟合。

附图说明

图1为本发明的一种实施例的方法流程图。

图2为本发明的一种实施例的人脸关键点标定示意图。

图3为现有技术的残差块结构示意图。

图4为本发明的一种实施例的改进inception块结构的轻量级残差卷积网络结构图。

图5为本发明的一种实施例的Block块结构图。

具体实施方式

本发明的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，包括：收集FER2013数据集，进行数据预处理，划分为80％训练集和20％测试集，得到用于模型训练与测试的图像集；搭建改进inception块结构的残差卷积网络，并使用上述完成预处理的训练集进行训练，使用恒等映射增强网络训练效果，拓展网络宽度与卷积深度，缓解网络退化问题，减少网络参数量，提高网络识别准确率；选取合适特征分类器对最终特征进行分类；使用上述完成预处理的测试集进行测试，使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别，输出人脸情绪识别结果。

下面结合附图对本发明做进一步详细说明。

图1为本发明的一种实施例的方法流程图。如图1所示，本实施例方法包括以下步骤：

步骤1、收集FER2013数据集，并对FER2013数据集进行数据预处理：

1-1.FER2013数据集的收集与图像人脸关键点定位：收集FER2013数据集，并对FER2013数据集中图像进行人脸关键点定位。人脸关键点定位采用人脸68个关键点定位。人脸关键点定位使用Dlib特征点定位模块，效果如图2所示；

1-2.FER2013数据集图像旋转校正：通过人脸图像两眼倾斜角度进行旋转校正。获取关键点坐标后，计算眼睛几何中心连线水平夹角。计算公式如公式(1)：

其中θ为图像眼睛几何中心连线水平夹角，(x₁₁,y₁₁)…(x₁₆,y₁₆)、(x₂₁,y₂₁)…(x₂₆,y₂₆)为左右眼睛的关键点坐标。当θ小于零时将图像逆时针旋转，若θ大于零则将图像顺时针旋转；

步骤2、搭建改进inception块结构的轻量级残差卷积网络进行训练。2014年GoogLeNet提出inception概念并且在ImageNet识别中表现优异，使得体系结构可以做出更为复杂的决策。残差学习思想的提出，有效缓解了因网络深度增加而带来的网络退化的问题，残差块结构示意图如图3所示。本发明以GoogLeNet网络为基础，针对训练数据过拟合、网络参数量大、网络退化以及网络识别准确率低问题进行改进，改进inception块结构的轻量级残差卷积网络结构图如图4所示。

2-1.搭建模型前处理层，前处理层为卷积层、池化层、卷积层结构。其中，卷积层卷积核大小为(3,3)，步长为1；池化层卷积核大小为(2,2)，步长为2；

2-2.搭建四通道inception网络，减少层数，拓宽网络宽度与深度，采用多尺寸卷积核丰富网络提取的特征，通过学习残差特征缓解网络退化问题。inception网络有四个通道。通道一为两个卷积层组成，第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(3,3)，步长为1。通道二为两个卷积层组成，第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(5,5)，步长为1。通道三为池化层、卷积层结构，池化层卷积核大小为(2,2)步长为2；卷积层卷积核大小为(1,1)，步长为1。通道四为一个卷积层和低层恒等映射组成，卷积层卷积核大小为(1,1)，步长为1，低层恒等映射学习残差特征，有效缓解因网络深度增加而带来的网络退化问题。残差网络公式定义为公式(2)：

y＝F(x)+x (6)

2-3.搭建特征降维层，为特征融合层、池化层结构，其中池化层卷积核大小为(2,2)，步长为2。特征融合层对四通道inception网络的输出特征进行特征降维；

2-4.搭建Block块结构并使用恒等映射，对特征降维层的输出特征进行处理，Block块结构图如图5所示。Block块由两层inception块与特征融合层组合级联形成，具体结构为inception1、特征融合层、inception 2。inception 1和inception 2各有四个通道，其中inception 1和inception 2的四个通道结构相同：通道一为两个卷积层组成，第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(3,3)，步长为1。通道二为两个卷积层组成，第一个卷积层卷积核大小为(1,1)步长为1；第二个卷积层卷积核大小为(5,5)，步长为1。通道三为池化层、卷积层结构，池化层卷积核大小为(2,2)步长为2；通道四为一个卷积层和低层恒等映射组成，卷积层卷积核大小为(1,1)，步长为1。经过inception1的四个通道处理后的特征，经过特征融合层进入inception 2的四个通道。另外本发明在inception 1的第四通道使用恒等映射方法，inception 1的第四通道处理后的特征被送至inception 2的第四通道，与inception 2的第四通道处理后的特征进行特征空间相加，获取前层的残差特征，完成恒等映射；

2-5.搭建模型后处理层，为特征融合层、池化层、卷积层结构，其中池化层卷积核大小为(2,2)，步长为2；卷积层卷积核大小为(4,4)，步长为4。卷积层用来对特征进行特征展平，从而取代全连接层，减少模型参数；

2-7.采用交叉熵损失函数计算损失，损失函数如公式(3)所示：

其中，n是类别数，y_i为输入x下的真实值，

是对x的预测值L(x)为输入数据x下的损失；

步骤3、选取特征分类器；

3-1.选取Softmax特征分类器作为模型特征分类器。经过Dropout方法处理后的输出特征最后经过Softmax特征分类器分类输出8种情绪的概率值，特征分类器函数形式如公式(4)：

所述的8种情绪为生气、厌恶、恐惧、开心、伤心、惊讶、轻蔑和中性。其中，

是输出情绪概率，z_j为第j个节点的输出值，K为输出节点的个数。Softmax特征分类器函数作用是把一个含任意实数的N维向量/>

映射到另一个N维实向量/>

中，并且使得向量中的任意元素都在(0,1)区间内，且全部元素的和为1。Softmax特征分类器可将原来大于1的输出值映射成为在(0,1)区间内的值。可以将/>

向量的数值理解为概率，因此，可以选取概率最大结点，作为预测目标。这样就完成了一次分类。Softmax特征分类器面对类别互斥的分类问题有良好的效果。

步骤4、使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别，输出人脸情绪识别结果：

4-2.将步骤4-1特征处理后的输出特征经过Softmax分类器输出8维的情绪概率向量，网络每层输出参数详细信息如表1；

表1

4-3.根据表2，数据集为FER2013数据集，将改进inception块结构的轻量级残差卷积网络的识别准确率与模型参数量与CNN，VGG16模型进行对比，验证改进inception块结构的轻量级残差卷积网络为轻量级网络，且识别准确率较高。

表2

Claims

1.一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，其特征在于，包括以下步骤：

步骤1、收集FER2013数据集并对FER2013数据集进行数据预处理：

步骤2、搭建改进inception块结构的轻量级残差卷积网络；

步骤3、选取Softmax特征分类器作为模型特征分类器；

2.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，其特征在于，在步骤1中，所述的收集FER2013数据集并进行数据预处理，包括：

其中θ为图像眼睛几何中心连线水平夹角，(x₁₁，y₁₁)...(x₁₆，y₁₆)、(x₂₁，y₂₁)...(x₂₆，y₂₆)为左右眼睛的关键点坐标；θ小于零时将图像逆时针旋转，θ大于零则将图像顺时针旋转；

3.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，其特征在于，在步骤2中，所述的搭建改进inception块结构的轻量级残差卷积网络，包括：

y＝F(x)+x (2)

2-7.采用交叉熵损失函数计算损失，损失函数公式为：

其中，n是类别数，y_i为输入x下的真实值，

是对x的预测值L(x)为输入数据x下的损失；

4.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，其特征在于，在步骤3中所述的选取Softmax特征分类器作为模型特征分类器，其过程为：

映射到另一个N维实向量/>

5.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法，其特征在于，在步骤4中，所述的使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别并输出人脸情绪识别结果，包括：