CN112966625A

CN112966625A - 一种基于改进的vgg-16网络模型的表情识别方法及装置

Info

Publication number: CN112966625A
Application number: CN202110282674.5A
Authority: CN
Inventors: 景晓军; 陈千千; 穆俊生; 张杨英; 魏思杰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-15

Abstract

本发明实施例提供了一种基于改进的VGG‑16网络模型的表情识别方法及装置，获取面部图像；利用预先训练得到的改进的VGG‑16网络模型，对所述面部图像进行识别，得到所述面部图像反映的表情类型；其中，所述改进的VGG‑16网络模型为利用经过预处理的多个样本图像，以及每个样本面部图像的表情标签训练得到的模型；所述预处理至少包括：对每个样本面部图像进行图像旋转，并将旋转后的图像与旋转前的图像均作为样本面部图像；所述改进的VGG‑16网络模型，包括：7个卷积层，2个全连接层，批量归一化层以及Dropout层。本方案可以兼顾识别效率和识别准确度。

Description

一种基于改进的VGG-16网络模型的表情识别方法及装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种基于改进的VGG-16网络模型的表情识别方法及装置。

背景技术

随着多媒体技术以及计算机的计算处理能力的发展，人们对于人机交互的需求越来越强烈，大量的研究着眼于实现面部表情分析的自动化。

相关技术中，可以对人脸图像进行特征提取，进而使用预先训练得到的识别模型对提取的特征进行识别，得到面部图像的表情识别结果。其中，识别模型可以利用包括样本人脸图像的训练数据以及训练数据对应的表情标签进行训练得到。

但是，表情识别的训练数据往往规模过小，容易导致识别结果过拟合，造成识别结果不够准确的问题。

发明内容

本发明实施例的目的在于提供一种基于改进的VGG-16网络模型的表情识别方法及装置，以实现提高表情识别准确度的效果。具体技术方案如下：

第一方面，本发明实施例提供一种基于改进的VGG-16网络模型的表情识别方法，所述方法包括：

获取面部图像；

利用预先训练得到的改进的VGG-16网络模型，对所述面部图像进行识别，得到所述面部图像反映的表情类型；

其中，所述改进的VGG-16网络模型为利用经过预处理的多个样本图像，以及每个样本面部图像的表情标签训练得到的模型；所述预处理至少包括：对每个样本面部图像进行图像旋转，并将旋转后的图像与旋转前的图像均作为样本面部图像；所述改进的VGG-16网络模型，包括：7个卷积层，2个全连接层，批量归一化层以及Dropout层。

第二方面，本发明实施例提供一种基于改进的VGG-16网络模型的表情识别装置，所述装置包括：

图像获取模块，用于获取面部图像；

识别模块，用于利用预先训练得到的改进的VGG-16网络模型，对所述面部图像进行识别，得到所述面部图像反映的表情类型；

本发明实施例有益效果：

本发明实施例提供的方案中，改进的VGG-16网络模型为利用经过预处理的多个样本面部图像，以及每个样本面部图像的表情标签训练得到的模型。并且，预处理至少包括：对每个样本面部图像进行图像旋转，并将旋转后的图像与旋转前的图像均作为样本面部图像，相当于实现面部图像数量的增强。因此，可以扩大样本面部图像的规模，减少样本面部图像的规模过小导致的过拟合所引起的识别不够准确的问题。并且，改进的VGG-16网络模型包括：7个卷积层和2个全连接层，批量归一化层以及Dropout层。其中，卷积层和全连接层的设置相较于未改进的VGG-16网络模型，更加适用于进行面部图像识别时的数据规模，批量归一化层可以提高模型识别性能，Dropout层可以按照随机概率丢弃与该概率对应的神经元的连接，因此，模型复杂度降低，计算量减少，可以提高识别效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明一实施例提供的一种基于改进的VGG-16网络模型的表情识别方法的流程示意图；

图2为本发明一实施例提供的一种基于改进的VGG-16网络模型的表情识别方法中，改进的VGG-16网络模型的结构示意图；

图3为本发明一实施例提供的一种基于改进的VGG-16网络模型的表情识别方法中，未改进的VGG-16网络模型的结构示意图；

图4为本发明一实施例提供的一种基于改进的VGG-16网络模型的表情识别装置的结构示意图；

图5为本发明一实施例提供的一种电子设备。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

随着多媒体技术的发展以及人们对于人机交互需求的日益增加，自动化分析并识别面部表情在社交机器人、心理学研究、驾驶员疲劳监测以及其他人机交互系统有着重要的应用，人们对其进行了大量的研究。早在20世纪，Ekman和Friesen在跨文化研究的基础上将表情定义为6种基本表情，即愤怒、厌恶、恐惧、快乐、悲伤以及惊讶，后来，将蔑视增加为一种基本表情。在日常生活中，自然表情是我们常常表现出来的，在对面部表情识别中，应将自然表情也作为一种基本表情。面部表情识别作为当前计算机视觉研究领域的一个研究热点，为了提升现有方法的识别性能，本发明提出了一种基于改进的VGG-16网络模型的表情识别方法，并应用于自动识别面部表情。在具体应用中，本发明实施例提供的基于改进的VGG-16网络模型的表情识别方法，可以应用于进行面部表情识别的电子设备，例如，台式计算机，便携式计算机，移动终端，可穿戴设备以及安防设备等等。

如图1所示，本发明实施例提供的一种基于改进的VGG-16网络模型的表情识别方法，所述方法包括：

S101，获取面部图像。

S102，利用预先训练得到的改进的VGG-16网络模型，对面部图像进行识别，得到面部图像反映的表情类型。

其中，改进的VGG-16网络模型为利用经过预处理的多个样本图像，以及每个样本面部图像的表情标签训练得到的模型；预处理至少包括：对每个样本面部图像进行图像旋转，并将旋转后的图像与旋转前的图像均作为样本面部图像；改进的VGG-16网络模型，包括：7个卷积层，2个全连接层，批量归一化层以及Dropout层。

在一种可选的实施方式中，上述任一卷积层，可以包括：

3×3的滤波器，以使得7个卷积层中的3×3的滤波器，堆叠进行5×5以及7×7的滤波器的卷积；

卷积层的特征图数目为：第一个卷积层和第二个卷积层为32，第三个卷积层和第四个卷积层为64，第五个卷积层、第六个卷积层以及第七个卷积层为128。

本可选实施例中，卷积层的特征图数目以成倍的数量增长。

在一种可选的实施方式中，所述改进的VGG-16网络模型，还包括三个池化层，其中，第三个池化层连接在第七个卷积层之后；

相应的，上述全连接层的配置，可以包括：

在第三个池化层之后连接第一个全连接层，在第一个全连接层之后连接第四个批量归一化层，在第四个批量归一化层之后连接第二个全连接层，在第一个全连接层以及第二个全连接层之后，分别连接第一个Dropout层以及第二个Dropout层，且两个全连接层的维度分别为1024与512；

在第五个卷积层之后，第六个卷积层之后，以及第七个卷积层之后，分别连接第一个批量归一化层，第二个批量归一化层以及第三个批量归一化层；

在第二个全连接层之后连接第五个批量归一化层。

在本可选实施例中，Dropout层连接在全连接层后，可以避免改进的VGG-16网络模型的过拟合，批量归一化层可以使改进的VGG-16网络模型的中间各层的数据实现归一化，加快模型的训练速度以及提高模型的识别性能。

为了便于理解，下面以示例性说明的形式对本发明实施例提供的改进的VGG-16网络模型的结构进行具体描述。

示例性的，如图2所示。本发明实施例提供的改进的VGG-16网络模型，具体可以包括：

卷积层：卷积层通过局部感知提取图像，例如尺寸为48×48的面部图像的特征。本发明提供的网络模型包括7个卷积层，每个卷积层使用了3×3大小的滤波器。使用3×3滤波器的卷积层可以使得7个卷积层以堆叠的形式实现使用尺寸为5×5以及7×7滤波器的卷积层的效果，并引入了非线性。卷积层的特征图数目分别为：第一个卷积层和第二个卷积层为32，第三个卷积层和第四个卷积层为64，第五个卷积层、第六个卷积层以及第七个卷积层为128。特征图数目成倍增长，较原始的VGG-16网络模型的卷积层特征图数目降低，从而降低模型的复杂度以及计算能力，并充分考虑训练数据的规模来提取表情特征。例如，原来的VGG-16架构如图3所示，包含13个卷积层、3个全连接层。卷积层的深度变化为：64、128、256、512、512，全连接层的维度分别为4096、4096、1000，明显比本发明实施例提供的改进的VGG-16网络模型复杂。

全连接层：全连接层将卷积层提取的特征进一步整合，提取图像的高级特征。本发明实施例提供的网络模型包括两个全连接层，全连接层的维度分别为1024与512。

池化层：池化层也可称为下采样层，池化层的作用是降低维度，使模型的复杂度降低，减少计算量，在一定程度上防止过拟合。池化层采用Max pooling，即在2×2大的窗口中选择最大的值作为当前位置的值，每像素占用的字节数stride为2。

网络模型的其他设置：模型中的激活函数采用线性整流函数(Rectified LinearUnit，ReLU)，又称修正线性单元，一种人工神经网络中常用的激活函数(activationfunction)，通常指代以斜坡函数及其变种为代表的非线性函数)引进非线性因素，在一定的卷积层和全连接层后增加Batch Normalization层，表示如下：

其中，批量归一化层(Batch Normalization层，BN层)要学习的参数即γ和β，也就是需要通过训练得到的参数，x表示当前输入的数据批次的值，E[x]、Var[x]分别表示当前批次数据的均值以及方差，∈为可自行设置一个极小的数，y即表示BN层的输出。引入BN层的作用是对网络模型的中间各层打乱的数据进行归一化处理，与输入数据归一化相似，加速网络模型的训练速度，并对识别率的提升有一定的促进作用。网络模型使用softmax作为输出层，模型的损失函数采用交叉熵损失L，即：

y_i、

分别表示第i类表情的真实标签以及softmax的第i个输出，标签可用one-hot编码(onehot编码又叫独热编码，其为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。Onehot编码是分类变量作为二进制向量的表示)，最终的预测输出为arg max_i

另外，分类器具体可以为Softmax。

在一种可选的实施方式中，上述改进的VGG-16网络模型采用如下步骤训练得到：

将多个样本面部图像划分为第一数量的训练集，以及第二数量的验证集；其中，第一数量和第二数量的和为多个样本面部图像的总数；

将训练集和验证集输入到改进的VGG-16网络模型中进行训练，并获取验证集的表情识别的损失结果；其中，训练利用Adam算法对进行模型参数的优化；

当达到预设训练次数，且损失上升时，停止训练，获取并保存进行训练的改进的VGG-16网络模型，作为训练得到的改进的VGG-16网络模型。

在一种可选的实施方式中，上述将旋转后的图像与旋转前的图像均作为样本面部图像，具体可以包括如下步骤：

分别将旋转后的图像与旋转前的图像输入归一化公式，得到样本面部图像：

其中，归一化公式为：

G′(x，y)表示归一化后的(x，y)处的像素值，G(x，y)表示输入归一化公式的图像G的(x，y)处的像素值，MaxG、MinG分别为图像G的像素最大值与像素最小值。

在一种可选的实施方式中，上述预处理还可以包括如下步骤：

当样本面部图像为三通道的图像时，将样本面部图像转换为单通道的灰度图像；

对灰度图像进行人脸检测，并移除与面部无关的背景。

若输入为RGB图像，将其转换为单通道的灰度图：

I＝0.299×R+0.589×G+0.114×B。其中，I表示预处理后的灰度图像，R、G、B分别为RGB图像的三通道像素值。依据上述公式计算图像的灰度值，并转换为0到255之间的整数值，由此将获取的RGB图像转换为灰度图。

检测人脸实则是二分类问题，即进行人脸以及非人脸的分类。本发明采用OpenCV(OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法)实现人脸检测。具体的，通过提取图像的Haar-like特征，利用Adaboost算法实现分类，以此区分人脸与非人脸部分。检测人脸作为表情识别的一项预处理工作，是非常必要的，检测人脸并裁剪脸部区域，移除与面部无关的背景区域的干扰，使表情识别提取的特征专注于人脸区域。

其中，哈尔特征(Haar-like features)，Haar特征是一种反映图像的灰度变化的，像素分模块求差值的一种特征。它分为三类：边缘特征、线性特征、中心特征和对角线特征。用黑白两种矩形框组合成特征模板，在特征模板内用黑色矩形像素和减去白色矩形像素和来表示这个模版的特征值。例如：脸部的一些特征能由矩形模块差值特征简单的描述，如：眼睛要比脸颊颜色要深，鼻梁两侧比鼻梁颜色要深，嘴巴比周围颜色要深等。但矩形特征只对一些简单的图形结构，如边缘、线段较敏感，所以只能描述在特定方向(水平、垂直、对角)上有明显像素模块梯度变化的图像结构。

在一种可选的实施方式中，上述对每个样本面部图像进行图像旋转，包括：

针对每个样本面部图像，对该样本面部图像分别进行水平翻转，以及按照预设角度的旋转。

示例性的，旋转的角度为：{-15°，-12°，-9，-6°，-3°，3°，6°，9°，12°，15°}。

相应于上述方法实施例，本发明实施例还提供一种基于改进的VGG-16网络模型的表情识别装置。

如图4所示，本发明实施例提供的一种基于改进的VGG-16网络模型的表情识别装置的结构，所述装置包括：

图像获取模块401，用于获取面部图像；

识别模块402，用于利用预先训练得到的改进的VGG-16网络模型，对所述面部图像进行识别，得到所述面部图像反映的表情类型；

可选的，任一卷积层，包括：

可选的，所述改进的VGG-16网络模型，还包括三个池化层，其中，第三个池化层连接在第七个卷积层之后；所述全连接层的配置，包括：

在所述第三个池化层之后连接第一个全连接层，在所述第一个全连接层之后连接第四个批量归一化层，在所述第四个批量归一化层之后连接第二个全连接层，在所述第一个全连接层以及所述第二个全连接层之后，分别连接第一个Dropout层以及第二个Dropout层，且两个全连接层的维度分别为1024与512。

在第五个卷积层之后，第六个卷积层之后，以及所述第七个卷积层之后，分别设置第一个批量归一化层，第二个批量归一化层以及第三个批量归一化层；

在所述第二个全连接层之后连接第五个批量归一化层。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

获取面部图像；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processor Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一基于改进的VGG-16网络模型的表情识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于改进的VGG-16网络模型的表情识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于改进的VGG-16网络模型的表情识别方法，其特征在于，所述方法包括：

获取面部图像；

2.根据权利要求1所述的方法，其特征在于，任一卷积层，包括：

3×3的滤波器，以使得所述7个卷积层中的3×3的滤波器，堆叠进行5×5以及7×7的滤波器的卷积；

3.根据权利要求1或2所述的方法，其特征在于，所述改进的VGG-16网络模型，还包括三个池化层，其中，第三个池化层连接在第七个卷积层之后；所述全连接层的配置，包括：

在所述第三个池化层之后连接第一个全连接层，在所述第一个全连接层之后连接第四个批量归一化层，在所述第四个批量归一化层之后连接第二个全连接层，在所述第一个全连接层以及所述第二个全连接层之后，分别连接第一个Dropout层以及第二个Dropout层，且两个全连接层的维度分别为1024与512；

在第五个卷积层之后，第六个卷积层之后，以及所述第七个卷积层之后，分别连接第一个批量归一化层，第二个批量归一化层以及第三个批量归一化层；

在所述第二个全连接层之后连接第五个批量归一化层。

4.根据权利要求1所述的方法，其特征在于，所述将旋转后的图像与旋转前的图像均作为样本面部图像，包括：

分别将所述旋转后的图像与所述旋转前的图像输入归一化公式，得到样本面部图像：

其中，所述归一化公式为：

所述G′(x,y)表示归一化后的(x,y)处的像素值，所述G(x,y)表示输入归一化公式的图像G的(x,y)处的像素值，MaxG、MinG分别为所述图像G的像素最大值与像素最小值。

5.根据权利要求1所述的方法，其特征在于，所述预处理还包括：

当所述样本面部图像为三通道的图像时，将所述样本面部图像转换为单通道的灰度图像；

对所述灰度图像进行人脸检测，并移除与面部无关的背景。

6.根据权利要求1所述的方法，其特征在于，所述对每个样本面部图像进行图像旋转，包括：

7.根据权利要求1所述的方法，其特征在于，所述改进的VGG-16网络模型采用如下步骤训练得到：

将所述多个样本面部图像划分为第一数量的训练集，以及第二数量的验证集；其中，所述第一数量和所述第二数量的和为所述多个样本面部图像的总数；

将所述训练集和所述验证集输入到改进的VGG-16网络模型中进行训练，并获取所述验证集的表情识别的损失结果；其中，所述训练利用Adam算法对进行模型参数的优化；

当达到预设训练次数，且所述损失上升时，停止训练，获取并保存进行训练的改进的VGG-16网络模型，作为所述训练得到的改进的VGG-16网络模型。

8.一种基于改进的VGG-16网络模型的表情识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取面部图像；

9.根据权利要求8所述的装置，其特征在于，任一卷积层，包括：

10.根据权利要求8或9所述的装置，其特征在于，所述改进的VGG-16网络模型，还包括三个池化层，其中，第三个池化层连接在第七个卷积层之后；所述全连接层的配置，包括：

在所述第二个全连接层之后连接第五个批量归一化层。