CN113642467B

CN113642467B - 一种基于改进vgg网络模型的人脸表情识别方法

Info

Publication number: CN113642467B
Application number: CN202110934685.7A
Authority: CN
Inventors: 高莉; 肖雅萍; 李�真
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-12-01
Anticipated expiration: 2041-08-16
Also published as: CN113642467A

Abstract

本发明公开一种基于改进VGG网络模型的人脸表情识别方法，适用于图像识别领域中使用。首先对人脸图像灰度化，然后对灰度化处理后的人脸表情图像规则化分类；构建用以获取训练人脸表情图像的特征参数值以及模型权重的改进VGG网络模型，从而获得各人脸表情的属性特征，所述改进型VGG网络模型利用二步长的卷积加Relu函数替代常规VGG网络模型中的池化层，用GAP层替代常规VGG网络模型全连接层；使用训练好的改进VGG网络模型权重以及求取的属性特征进行人脸表情的识别工作。该方法提高了人脸表情识别的泛化性与鲁棒性，对科技、军事、治安、医疗、情感等方面的研究与推广有积极作用。

Description

一种基于改进VGG网络模型的人脸表情识别方法

技术领域

本发明设计一种人脸表情识别方法，尤其适用于图像识别领域中使用的一种基于改进VGG网络模型的人脸表情识别方法。

背景技术

近年来出现的阿里云技术、驾驶人员的疲劳表情检测、新生儿的痛苦表情判别、老年人心理健康检测等都体现了人脸表情识别技术在AI领域的不断进步、图像采集和运算硬件的不断更新以及网络模型的不断改进下得到了极快的发展。当前人脸表情识别多分为六大主流方向：(1)应用于科技方向：如仿真型智能机器人的研究，其离不开对人脸表情的研究，因为机器人外观的仿真不仅是从形体姿态方面而言的，面部表情也是仿真的关键(2)应用于交通方向：如驾驶员的疲劳表情检测，准确的疲劳表情检测可以一定程度降低交通事故的发生。(3)应用于医疗方向：如新生儿的痛苦表情判别、失语患者的表情识别等，医生通过对特殊群体的面部表情可以快速诊断病人病症，并及时了解病人心理和身体健康情况。(4)应用于军事方向，如通过远程敌军的表情识别判断战况，采用军事与人脸识别技术等高科技融合技术可以提高军队的战斗力。(5)应用于治安方向，如通过表情识别对罪犯进行审讯，表情识别技术可以帮助民警快速高效的判别嫌疑人的心理活动以及犯罪倾向指数。(6)应用于情感方向：如人机交互领域，独居老人的情感陪伴等依托于具有人脸表情识别功能的人机交互技术。由此可见人脸表情识别具有很广的应用前景，但是当前人脸表情识别技术存在1)人脸表情识别准确率不高；2)模型抗过拟合性不强，学习能力不强；3)鲁棒性和泛化性能不佳；4)占用硬件资源过多，运行时间过慢等问题。使用深度学习来实现人脸表情识别可以很好的解决上述问题，而根据研究可知深度学习内的卷积神经网络能更好的处理图像问题。因此本发明以原有VGG16网络模型为模板设计了一种基于改进VGG网络模型的人脸表情识别方法。

发明内容

本发明的目的在于提供一种基于改进VGG网络模型的人脸表情识别方法，提高人脸表情识别准确率，缩短运行时间，系统性价比更高，弥补了人眼不能实时、全方位、正确分辨面部表情的不足，为人脸表情识别技术提供参考。

为实现上述技术目的，本发明的基于改进VGG网络模型的人脸表情识别方法，其步骤如下：

步骤一、对采集到的人脸表情图像进行灰度化处理；

步骤二、对灰度化处理后的人脸表情图像规则化分类处理；

步骤三、构建用以获取训练人脸表情图像的特征参数值以及模型权重的改进VGG网络模型，从而获得各人脸表情的属性特征，所述改进型VGG网络模型利用二步长的卷积加Relu函数替代常规VGG网络模型中的池化层，用GAP层替代常规VGG网络模型全连接层；

步骤四、使用规则化表情图像集训练改进VGG网络模型，最后使用训练好的改进VGG网络模型权重以及求取的属性特征进行人脸表情的识别工作；

进一步，对灰度化处理后的人脸表情图像规则化分类处理具体步骤如下：

a1人脸表情图像分类和标签化处理，从而规范各表情图像的定位提高网络训练的准确度：人脸表情图像的正确分类与定位是实现识别准确的基础，因此数据集的样本容量、表情分类、标签定位准确度、数据集的划分等诸多因素都被纳入考虑范畴；人脸表情数据集被划分为开心、惊讶、愤怒、中性、伤心、厌恶、恐惧7类表情，7类表情所对应的标签为0到6；

a2人脸检测和裁剪：人脸表情图像分类和标签化处理后的表情图形需要利用cv2进行人脸表情的检测，系统会框选出检测到的人脸部分并进行裁剪，从而去除部分背景干扰问题，提高识别准确率。

a3图像归一化操作，用以保证不同类型表情图像能被识别，实现表情识别的初步处理，提高了信噪比，最终获得规则化的人脸表情图像集。

进一步，获得各人脸表情的属性特征模型：改进VGG网络模型包括7层级的网络结构，利用改进VGG网络模型能够获得训练的特征参数值以及模型权重，从而获取各人脸表情的属性特征；之后利用两步长的卷积操作替代网络原有VGG网络的池化层，同时使用Relu激活函数实现更好的非线性效果；网络中利用GAP取代原有VGG网络中的三层FC，从而克服VGG网络模型在训练与验证过程中损失值大幅度波动的问题。

进一步，所述改进VGG网络模型的7层级网络结构具体包括input层、block1层、block2层、block3层、GAP层、softmax层和output层，其中：block1层包括含64个核的conv1-1层、含64个核的conv1-2层；block2层包括含128个核的conv2-1层、含128个核的卷积层的conv2-1层；block3层包括含256个核的conv3-1、含256个核的conv3-2层，其中：

input层：用以将输入的人脸面部表情图像转化为数据矩阵输入；

含64个核的conv1-1层：用以对人脸表情图像进行粗略的特征提取操作；

含64个核的conv1-2层：类似于传统的池化层，用以压缩人脸表情图像特征参数以及降低维度的效果；

含128个核的卷积层的conv2-1层：用以进行较一层卷积稍细的二层特征提取，在conv1-2层的基础上提取更多的特征值；

含128个核的卷积层的conv2-2层：用以替代原始VGG模型中的池化层，对人脸表情图像进行特征参数压缩的操作；

含256个核的conv3-1层：用以对特征参数压缩后的人脸表情图像进行细致的特征参数处理；

含256个核的conv3-2层：结构为传统的池化层，用以再次压缩人脸表情图像特征参数以及降低维度的效果，用以减少人脸表情图像以外的信息；

GAP层：用以实现对网络的像素图像分类操作并能解决原有全连接层参数爆炸问题降低过度拟合概率；

softmax层：用以筛选出概率最大的表情类别；

output层：用以输出判定的表情类别结果。

进一步，改进的VGG网络模型工作步骤为：首先给定初始权重值，经过改进VGG网络模型的block1层、block2层、block3层构成的隐藏层运算后获得目标输出值，改进VGG网络模型系统会对输出的实际值与目标值的误差进行判别，若误差不小于固定阈值则进行数据的反向传播并完成权重值的更新工作；若误差满足条件则执行GAP层和Softmax层分类操作实现表情识别，其中block1层、block2层、block3层包括一步长卷积加Relu激活函数和两步长卷积加Relu激活函数。

进一步，首先定义初始权重值，之后给定人脸表情输入，先后输入block1层、block2层、block3层后目标输出，判断输出实际值与预设的目标值之间的误差，之后判断误差是否小于预设阈值，若不小于，则进行误差梯度计算，之后更新权重值重新作为给定输入block1层、block2层、block3重复以上判断步骤；若误差小于预设阈值，则将结果输入到GAP层进行全局平局池化GAP，之后利用公式：

进行表情分类判别，根据计算结果判断是否为七种表情之一，若是七种表情之一则输出表情分类判别结果，若不属于七种表情之一则输出错误结果；式中：z_i表示输出的样本属于该表情分类的概率值，e表示自然指数，c表示样本的编号。

进一步，block1层、block2层、block3层三者包括一步长卷积加Relu激活函数和两步长卷积加Relu激活函数；

block输入后利用公式：f_out＝H_in×W_in×D_in表示输出的特征图大小f_out，其中H_in和W_in分别为输入图片的长和宽，D_in为输入通道数，之后利用一步长滑动的卷积操作公式：Relu(z)＝max(0,z)，卷积核为大小3*3判断激活函数判定激活状态，若不激活则重新计算输出的特征图大小；若判断激活函数为激活状态，则再次利用公式：计算输出的特征图大小，之后再次利用一步长滑动的卷积操作公式：Relu(z)＝max(0,z)，卷积核为大小3*3进行两步长卷积，进行激活函数判定激活状态，若判断为激活，则直接输出结果；若判断不激活则重复/>计算输出的特征图大小。

有益效果：

1、基于改进VGG网络模型的人脸表情识别算法设计了一个7层级的网络结构，在提高人脸表情识别准确率的基础上保证更短的运行时间。该设计所需占用的硬件资源较小，神经网络性能良好。

2、用卷积加激活函数替代原有池化层的改进措施，在保持表情图像特征参数平移不变性的同时保证高层次特征感受野范围扩大效果。与原有的池化结构相比有效减少卷积运算量、缩减了网络层数，表情识别效果更好，检测精度更高。

3、非线性操作思想贯穿于网络模型的每一层，Relu激活函数的选用一定程度的增强了模型的鲁棒性，加快表情识别的速度和准确率。

4、用GAP层替代原有的全连接层实现参数量的有效缩减，降低出现过拟合情况的风险，程序简洁度高，硬件资源的占用大幅度减小。

5、改进的人脸表情识别方法可以协助亲友及医护人员保护特殊群体，常见于新生儿的痛苦表情判别、失语患者的表情识别、老年人心理与身体健康监护等方面。亲友及医生可以通过特殊群体的面部表情快速诊断病症，并及时了解病人心理和身体健康情况。

附图说明

图1为本发明改进VGG网络模型结构示意图；

图2为本发明基于改进VGG网络模型的人脸表情识别方法流程示意图；

图3为本发明改进VGG网络模型的结构示意图；

图4为本发明改进VGG网络模型中block1层、block2层、block3层的流程示意图；

图5为VGG网络模型中全连接层(a)与GAP层(b)的对比示意图。

具体实施方式：

下面结合附图对本发明的实施例做进一步说明：

如图2所示，本发明的一种基于改进VGG网络模型的人脸表情识别方法，其步骤如下：

步骤一、对采集到的人脸表情图像进行灰度化处理；

步骤二、对灰度化处理后的人脸表情图像规则化分类处理；

如图3多是，获得各人脸表情的属性特征模型：改进VGG网络模型包括7层级的网络结构，利用改进VGG网络模型能够获得训练的特征参数值以及模型权重，从而获取各人脸表情的属性特征；之后利用两步长的卷积操作替代网络原有VGG网络的池化层，同时使用Relu激活函数实现更好的非线性效果；网络中利用GAP取代原有VGG网络中的三层FC，从而克服VGG网络模型在训练与验证过程中损失值大幅度波动的问题。

获得各人脸表情的属性特征模型：改进VGG网络模型包括7层级的网络结构，利用改进VGG网络模型能够获得训练的特征参数值以及模型权重，从而获取各人脸表情的属性特征；之后利用两步长的卷积操作替代网络原有VGG网络的池化层，同时使用Relu激活函数实现更好的非线性效果；网络中利用GAP取代原有VGG网络中的三层FC，从而克服VGG网络模型在训练与验证过程中损失值大幅度波动的问题。

如图1所示，改进VGG网络模型的7层级网络结构具体包括input层、block1层、block2层、block3层、GAP层、softmax层和output层，其中：block1层包括含64个核的conv1-1层、含64个核的conv1-2层；block2层包括含128个核的conv2-1层、含128个核的卷积层的conv2-1层；block3层包括含256个核的conv3-1、含256个核的conv3-2层，其中：

GAP层：用以实现对网络的像素图像分类操作并能解决原有全连接层参数爆炸问题降低过度拟合概率，具体如图5所示；

softmax层：用以筛选出概率最大的表情类别；

output层：用以输出判定的表情类别结果。

改进的VGG网络模型工作步骤为：首先给定初始权重值，经过改进VGG网络模型的block1层、block2层、block3层构成的隐藏层运算后获得目标输出值，改进VGG网络模型系统会对输出的实际值与目标值的误差进行判别，若误差不小于固定阈值则进行数据的反向传播并完成权重值的更新工作；若误差满足条件则执行GAP层和Softmax层分类操作实现表情识别，其中block1层、block2层、block3层包括一步长卷积加Relu激活函数和两步长卷积加Relu激活函数；

首先定义初始权重值，之后给定人脸表情输入，先后输入block1层、block2层、block3层后目标输出，判断输出实际值与预设的目标值之间的误差，之后判断误差是否小于预设阈值，若不小于，则进行误差梯度计算，之后更新权重值重新作为给定输入block1层、block2层、block3重复以上判断步骤；若误差小于预设阈值，则将结果输入到GAP层进行全局平局池化GAP，之后利用公式：

进行表情分类判别，根据计算结果判断是否为七种表情之一，若是七种表情之一则输出表情分类判别结果，若不属于七种表情之一则输出错误结果；式中：z_i表示输出的样本属于该表情分类的概率值，e表示自然指数，c表示样本的编号；

如图4所示，block1层、block2层、block3层三者包括一步长卷积加Relu激活函数和两步长卷积加Relu激活函数；

实施例一、

步骤一：图像预处理

图像预处理是静态人脸表情识别的第一步，将获取的人脸表情图像进行灰度化处理，可以提高系统人脸表情识别的速度，降低硬件资源占用量，提高运行时间。

步骤二：人脸表情灰度图像规则化分类处理

(1)人脸表情图像分类和标签化处理

人脸表情图像的正确分类与定位是实现识别准确的基础，因此数据集的样本容量、表情分类、标签定位准确度、数据集的划分等诸多因素都被纳入考虑范畴。如图4所示人脸表情数据集被划分为开心、惊讶、愤怒、中性、伤心、厌恶、恐惧7类表情，所对应的标签为0到6。该操作可以规范各表情图像的定位提高网络训练的准确度。

(2)人脸检测和裁剪

人脸表情图像分类和标签化处理后的表情图形需要利用cv2进行人脸表情的检测，系统会框选出检测到的人脸部分并进行裁剪。该操作主要用来去除部分背景干扰问题，提高识别准确率。

(3)图像归一化操作

深度学习网络主要对已有的表情图像进行训练、验证、测试操作，表情图像的归一化处理是保证不同类型表情图像能被识别的关键。

该操作步骤是将获取的人脸表情灰度图像进行规则化分类处理。输入系统的表情图像首先进行人脸表情图像分类和标签化处理，定位好标签的表情图片会进行cv2人脸检测、人脸裁剪和图像归一化等操作。一定程度实现表情识别的初步处理，提高了信噪比，最终获得规则化表情图像集。

步骤三：特征提取

步骤二获得的规则化表情图像集需要代入本文设计的模型中进行训练，模型的选择十分关键。用于训练的改进VGG网络模型分为模型总体构图、去除池化层、激活函数的选用、GAP层替换FC层四部分，其可以很好的实现很好的网络训练效果，该步骤可获取训练的特征参数值以及模型权重。该操作步骤可以获取各人脸表情的属性特征。

(1)改进的VGG网络模型结构

系统设计了一个7层级的网络结构，结构主要分为七个模块分别为开始的输入，中间连续的三个双卷积层，GAP层、Softmax层以及输出层。该网络模型结构可以在运算不增加硬件资源需求的基础上提高了神经网络性能和表情识别的准确率。

(2)去除池化层

用2步长的卷积加激活函数替代池化层，一定程度减少了卷积运算量、缩减了网络层数。卷积替代池化进行信息丢弃操作时会避免重要特征参数误删的情况，网络会自动筛选出需要丢弃的信息。

(3)激活函数的选用

构建的网络层级间以Relu激活函数进行连接，改进的网络模型具有很好的非线性能力。

(4)GAP层替代全连接层

GAP层替代全连接层可以解决网络最后参数爆炸、运行时间过长、过拟合等问题。

步骤四：表情识别阶段，该步骤根据步骤三中训练好的模型、权重以及求取的属性特征进行人脸表情的识别工作。该步骤处理完将获得完整的训练、测试、验证过程。

Claims

1.一种基于改进VGG网络模型的人脸表情识别方法，其特征在于步骤如下：

步骤一、对采集到的人脸表情图像进行灰度化处理；

步骤二、对灰度化处理后的人脸表情图像规则化分类处理；

步骤三、构建用以获取训练人脸表情图像的特征参数值以及模型权重的改进VGG网络模型，从而获得各人脸表情的属性特征，所述改进VGG网络模型利用二步长的卷积加Relu函数替代常规VGG网络模型中的池化层，用GAP层替代常规VGG网络模型全连接层；

获得各人脸表情的属性特征模型：改进VGG网络模型包括7层级的网络结构，利用改进VGG网络模型能够获得训练的特征参数值以及模型权重，从而获取各人脸表情的属性特征；之后利用两步长的卷积操作替代网络原有VGG网络的池化层，同时使用Relu激活函数实现更好的非线性效果；网络中利用GAP取代原有VGG网络中的三层FC，从而克服VGG网络模型在训练与验证过程中损失值大幅度波动的问题；

所述改进VGG网络模型的7层级网络结构具体包括input层、block1层、block2层、block3层、GAP层、softmax层和output层，其中：block1层包括含64个核的conv1-1层、含64个核的conv1-2层；block2层包括含128个核的conv2-1层、含128个核的卷积层的conv2-1层；block3层包括含256个核的conv3-1、含256个核的conv3-2层，其中：

softmax层：用以筛选出概率最大的表情类别；

output层：用以输出判定的表情类别结果；

改进的VGG网络模型工作步骤为：首先给定初始权重值，经过改进VGG网络模型的block1层、block2层、block3层构成的隐藏层运算后获得目标输出值，改进VGG网络模型系统会对输出的实际值与目标值的误差进行判别，若误差不小于固定阈值则进行数据的反向传播并完成权重值的更新工作；若误差满足条件则执行GAP层和Softmax层分类操作实现表情识别，其中block1层、block2层、block3层包括一步长卷积加Relu激活函数和两步长卷积加Relu激活函数。

2.根据权利要求1所述的基于改进VGG网络模型的人脸表情识别方法，其特征在于对灰度化处理后的人脸表情图像规则化分类处理具体步骤如下：

a2人脸检测和裁剪：人脸表情图像分类和标签化处理后的表情图形需要利用cv2进行人脸表情的检测，系统会框选出检测到的人脸部分并进行裁剪，从而去除部分背景干扰问题，提高识别准确率；

3.根据权利要求1所述的基于改进VGG网络模型的人脸表情识别方法，其特征在于：首先定义初始权重值，之后给定人脸表情输入，先后输入block1层、block2层、block3层后目标输出，判断输出实际值与预设的目标值之间的误差，之后判断误差是否小于预设阈值，若不小于，则进行误差梯度计算，之后更新权重值重新作为给定输入block1层、block2层、block3重复以上判断步骤；若误差小于预设阈值，则将结果输入到GAP层进行全局平局池化GAP，之后利用公式：

4.根据权利要求1所述的基于改进VGG网络模型的人脸表情识别方法，其特征在于block1层、block2层、block3层三者包括一步长卷积加Relu激活函数和两步长卷积加Relu激活函数；