CN108108677A

CN108108677A - 一种基于改进的cnn人脸表情识别方法

Info

Publication number: CN108108677A
Application number: CN201711321258.1A
Authority: CN
Inventors: 张毅; 丁剑飞; 罗元
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-06-01

Abstract

本发明请求保护一种基于改进的CNN的人脸表情识别方法，涉及图像分类与识别领域，包括步骤：S1，使用一个集合了人脸检测和对齐功能的人脸检测对齐算法JDA算法，从视频流中获取人脸表情图像；S2，对步骤S1获得的人脸表情图像，使用人脸矫正在真实环境下的人脸姿态，并去除与表情信息无关的背景信息以及采用采用尺度归一化；S3，在对步骤S2获得的归一化的人脸表情图像进行特征之前，对卷积神经网络模型进行训练，得到最佳的网络参数并保存；S4，对步骤S3获得最佳网络参数，加载CNN模型以及S3得到的最佳的网络参数，并对S2获得的归一化的人脸表情图像进行特征提取；S5，对步骤S4获得的人脸表情特征，使用SVM分类器进行分类识别。本发明具有较强的鲁棒性以及良好的泛化性能。

Description

一种基于改进的CNN人脸表情识别方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种方法基于改进的CNN的人脸表情识别方法。

背景技术

人脸面部表情是表达情感和信息的主要非语言沟通方式之一，并且占据了55％的信息。由此可见人脸表情作为一种信息载体，在人们的日常交流中所占有重要意义。Ekman等人确定了六种人脸表情(即愤怒，厌恶，恐惧，幸福，悲伤和惊喜)作为人类普遍的基本情感表达。人脸表情识别已成为计算机视觉领域多年的研究的热点。其中人脸表情识别系统具有广泛的应用，如人机交互、发展心理学、生物学、医学、信息无障碍以及智慧城市等领域具有广泛的应用场景和重要的研究意义。

传统的人脸表情识别由两个主要的组成部分:人脸表情的特征提取和人脸表情的分类。其中从人脸表情图像中提取有效的特征在整个识别系统中发挥重要的作用，因为人脸表情分类器是基于提取特征的组合进行最后的分类决策。在获取人脸表情数据之后，再对数据进行特征提取。其中比较常见的人工特征算法如局部二值模式(Local binarypattern,LBP)、尺度不变特征变换(Scale-invariant feature transform,SIFT)、HOG、Gabor小波变换等已经得到广泛的应用。然后把提取到的特征数据传递到诸如支持向量机等分类器，进行最后的识别工作。然而这些方法通常需要严格的超参数设置，才能获得良好的识别效果，并且是在受控和实验室环境下。最重要的是人工特征提取方法具有不确定性，进而导致部分表情特征表述信息的丢失，其直接结果识别性能不理想。

近年来，随着计算机性能的提高，深度神经网络在图像识别领域越来越受到欢迎。在人脸表情识别领域，深层的卷积神经网络获得了良好的结果。相比于传统的特征提取算法，深度卷积神经网络具有自适应特征提取能力，进而得到的人脸表情特征更加接近于本质的特征，同时也具有更强的表征能力。卷积神经网络(CNN)由Lecun等人在1998年提出的,当使用更深层次的架构和新的训练技术时，证明在学习特征方面非常有效。然而训练性能优异的人脸表情识别深度卷积神经网络模型，需要大量的人脸表情样本以及合适的深度卷积神经网络结构。现有的人脸表情数据库如CK+、日本女性面部表情(JAFFE)数据库等，采集的面部表情图像样本在理想环境下采集的数据并且原始数量比较少，训练模型更容易达到过拟合。所以目前基于CK+人脸表情数据库训练的深度卷积神经网络模型，虽然获得测试结果有比较高的准确率(95％)并不意味着能够胜任在真实环境下的人脸表情识别任务。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种可在真实的复杂背景噪声的环境下提高识别率，对光照和复杂噪声具有较强的鲁棒性，以及较强泛化性能的基于改进的CNN人脸表情识别方法。本发明的技术方案如下：

一种基于改进的CNN人脸表情识别方法，其包括以下步骤：

S1、采用集合了人脸检测和对齐功能的人脸检测对齐算法JDA算法，从视频流中获取人脸表情图像；

S2、对步骤S1获得的人脸表情图像，采用图像预处理的算法对采样的图像进行包括人脸姿态的矫正、去除表情无关的背景信息、直方图均衡、尺度归一化在内的预处理；

S3、在对步骤S2获得的归一化的人脸表情图像进行特征提取之前，采用改进的CNN模型进行训练，得到最佳的网络参数并保存；改进的CNN模型改进点主要有三个关键点：

1、采用连续且较小的卷积核替代较大的卷积核，不仅可以有效地减少网络参数，而且增强网络的非线性表达能力。

2、在卷积神经网络模型中引入Inception模型，这样不仅增加网络的宽度、深度，同时增加了网络对输入特征图尺寸的适应性和减少了网络模型的参数。当训练卷积神经网络模型时可以最大程度的利用计算资源。

3、设计改进的CNN模型时引入点卷积(1×1卷积)，其中点卷积主要功能为数据的降维和升维，实现了跨通道的交互和信息融合。数据的降维与升维是通过控制卷积核数量实现的，通过这样的方式可以减少模型参数以及对不同特征进行尺寸的归一化操作。

网络结构主要采用1×1卷积、3×3卷积和Inception模型结果堆栈而成，其中Inception模块近似一个稀疏结构，具体结构是将1×1卷积，3×3卷积，5×5卷积和3×3最大池化层堆栈在一起，激活函数使用ReLU激活函数，然后将这些层连接在一起作为输出；最终提出的深度卷积神经网络架构包含传统的CNN层和Inception模块，网络包含五层卷积与两层Inception模块以两层最大池化层，最后两层为全连接层输出七种分类结果；

S4、对步骤S3获得的最佳网络参数，加载卷积神经网络模型以及S3得到的最佳的网络参数，并对S2获得的归一化的人脸表情图像进行特征提取；

S5、对步骤S4获得的人脸表情特征，使用SVM分类器进行分类识别。

进一步的，所述步骤S1的人脸检测对齐JDA算法，其核心主要采用随机森林的策略来训练一个分类与回归树(Classification and Regression Trees,CART)，并以一定的概率来选择是决策树或者分类树。树的顶部侧重于检测，底部侧重于回归，来训练分类与回归树。在采集训练样本使用滑动窗口的方式，进行判断一个窗口是否是人脸目标。当训练模型时，每个叶子节点的输出都是特征点的偏移，然后提取特征点附近的特征，作为人脸特征进行分类。其中叶子节点的输出，之后采用全局的回归优化，进而预测关键点的位置，进而辅助检测人脸目标。

进一步的，所述步骤S2对采样的图像进行人脸姿态的矫正包括步骤：

S21：对人脸图像包括眼睛、鼻子、嘴、眉毛在内的主要特征点进行定位，并确定特征点的中心在人脸图像的坐标位置；

S22：人脸姿态的矫正，依据步骤S21中的特征点定位，确定人脸图像与双眼中心坐标信息，旋转变换以使得双眼中心的线段与图像的水平轴对齐，即一个眼睛中心到另一个眼睛中心的线段与水平轴的角度为零。

进一步的，所述步骤S2对采样的图像进行人脸姿态的矫正包括步骤：在步骤S22基础上，图像裁剪使用半眼距离(b)进行空间归一化，裁剪区域的垂直系数为4.5，其中眼睛上方的区域为1.3，下方为区域为3.2，而水平裁剪区域的系数为2.4。

进一步的，所述步骤S22将直方图均衡化将灰度图中较为集中的灰度区间均衡分布到全局灰度区间以提高图像对比度，假如原始灰度图像的灰度用r表示，经直方图均衡化后的灰度图像灰度用s表示，其中0≤r,s≤1，则任意r在区间[0,1]范围内经过T(r)变换后都有一个s与之相对应，最后采用尺寸归一化，将所有的图像转换成尺寸为32×32像素；

尺寸归一化才能进入CNN模型进行特征提取，需要对采集的图像进行尺度的缩小或放大处理，对图像尺度归一化的处理过程如下：图像尺度缩小变换步骤、图像尺度放大变换步骤，上述尺度缩小变换步骤与放大变换的步骤将采集的面部图像均归一化为32×32像素的统一尺寸。

进一步的，所述图像尺度放大变换的步骤采用双线性插值的方法来增加像素点需要的灰度值，该插值方法的中心思想是在二维图像的X、Y方向上各做1次线性插值。

进一步的，所述标准卷积层与ReLU激活函数层之间引入了批标准化算法，层与层之间添加BN层，网络前向传播时BN层利用卷积层输出特征的均值与方差标准化每一层的特征分布，维护整体mini-batch数据的均值和方差，BN层是通过变量重构，引入两个可学习的缩放参数g和偏移参数b使模型自适应调整每层的特征分布。

进一步的，所述改进的CNN模型使用随机梯度下降法训练，不适用神经网络权值初始化不使用均匀分布，而是采用高斯分布初始化，标准差不是设置为0.01或者0.001，而是使用MSRA初始化。

进一步的，所述步骤S5使用SVM分类器进行分类，使用网格搜索的方式，来估计SVM的最佳内核，确定最佳C参数，用于对提取的人脸表情特征进行分类识别。

本发明的优点及有益效果如下：

本发明提供了一种基于改进的CNN的人脸表情识别方法，为了解决传统卷积神经网络训练参数繁多、计算机量大的缺点，在本方法的深度卷积神经网络中采用了Inception模块来达到稀疏的减少网络参数、降低计算量，并且这种结果利用了Network in Network结构中非线性变换的强大表达能力。相比传统人脸识别算法以及传统的标准卷积的神经网络，不仅训练速度快，而且具有较强的鲁棒性以及泛化性能，最够识别率达到98.02％，即使真实环境下，本发明依然能够保持93.45％的识别率。

附图说明

图1是人脸图像预处理流程；

图2去除与表情无关的图像信息；

图3双线性插值；

图4改进的深度卷积神经网络的结构；

图5Inception模块结构图；

图6标准卷积层和Batch Normalization层以及ReLU层；

图7人脸表情识别系统与训练、测试流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图7所示，本发明提供了一种基于改进的CNN的人脸表情识别方法，其特征在于，包括以下步骤：

S1：使用一个集合了人脸检测和对齐功能的人脸检测对齐算法JDA算法，从视频流中获取人脸表情图像；

S2：矫正在真实环境下的人脸姿态，并去除与表情信息无关的背景信息以及采用采用尺度归一化，在本实施方式中，具体方法为：

S21：对人脸图像样本中的主要特征点进行定位，如：眼睛、鼻子、嘴、眉毛等特征点定位，并确定特征点的中心在人脸图像的坐标位置；

S22：为了人脸姿态的矫正，依据步骤S21中的特征点定位，确定人脸图像与双眼中心坐标等信息，旋转变换以使得双眼中心的线段与图像的水平轴对齐，即一个眼睛中心到另一个眼睛中心的线段与水平轴的角度为零；

S23：由于原始人脸图像具有很多与表情分类无关的背景信息，该信息可能会降低分类的准确性，去除对表情无用的面部部分信息(例如耳朵、前额、头发等)。纯人脸区域基于眼睛间的距离的比例来定义的，因此可以处理不同的人物和图像大小。在步骤S22基础上，图像裁剪使用半眼距离(b)进行空间归一化，裁剪区域的垂直系数为4.5，其中眼睛上方的区域为1.3，下方为区域为3.2，而水平裁剪区域的系数为2.4。经验确定使用这些系数可以删除所有非表情区域，如头发和背景；

S24：将步骤S23获取的人脸图像样本采用直方图均衡算法以减弱因不同光照强度下对人脸图像的干扰进而提高人脸表情识别系统的精准度；

直方图均衡化将灰度图中较为集中的灰度区间均衡分布到全局灰度区间以提高图像对比度。假如原始灰度图像的灰度用r表示，经直方图均衡化后的灰度图像灰度用s表示，其中0≤r,s≤1，则任意r在区间[0,1]范围内经过T(r)变换后都有一个s与之相对应。

由概率论的知识可知，假如随机变量s可以作为随机变量r的函数，且r的概率密度表示为p_r(r)，那么可以通过p_r(r)求得s的概率密度p_s(s)。若随机变量s的分布函数表示为F_s(s)，F_s(s)可表示为：

对s求导可以得出s的概率密度函数：

由上式的推导能够看出，若想使灰度均衡分布，通过T^-1(s)这个变换函数能够调节原灰度图的概率密度函数，这即为直方图均衡化的中心思想。直方图均衡化处理即使s的概率密度函数p_s(s)＝k，这里归一化处理的k取1，如下式所示：

p_s(s)＝1

由可得：

d_s＝p_r(r)d_r

对其两边求s的积分可得：

至此，直方图均衡化所需的变换函数T(r)即为上式所得，要想完成直方图的均衡化处理，只需使T(r)为原始图像的直方图累积分布函数即可。

S25：最后采用尺寸归一化，将所有的图像转换成尺寸为32×32像素；

在步骤S24之后需要进行尺寸归一化才能进入CNN模型进行特征提取，需要对采集的图像进行尺度的缩小或放大处理，对图像尺度归一化的处理过程如下：

1.图像尺度缩小变换

假设采集的人脸灰度图像表示为t，其图像的高与宽分别表示为h和w，经过缩小变换的图像表示为t′，其高和宽分别表示为h′与w′，图像的缩小变换可表示为：

2.图像尺度放大变换

假如直接采用与缩小变换相反的方式进行尺度放大变换，则会因为对原始图像增加了一些本来不属于原图像的像素点而产生马赛克现象。为了尽可能地消除此种现象，采用双线性插值的方法来增加像素点需要的灰度值。

该插值方法的中心思想是在二维图像的X、Y方向上各做1次线性插值，该方法插值的示意图如图3所示。

假如Q点为需要插值的像素位置点，R₁(x,y₁)、R₂(x,y₂)用来表示Y方向上两个未知的中间像素位置点。图中P₁₁(x₁,y₁)、P₁₂(x₁,y₂)、P₂₁(x₂,y₁)与P₂₂(x₂,y₂)为二维图像中已知的4个像素点，假如像素点P_ij的灰度值以g(P_ij)表示，那么4个像素点的灰度值可分别表示为g(P₁₁)、g(P₁₂)、g(P₂₁)、g(P₂₂)。主要分为两个方向进行插值：

(1)在X方向上进行第1次线性插值，通过下面两个公式来分别计算R₁与R₂两个中间像素点的灰度值，其值表示为g(R₁)与g(R₂)：

(2)在Y方向上做第2次插值，通过下面公式来计算Q点的灰度值g(Q)：

经过上述X、Y方向的插值即可求得Q点的灰度值，最终即可实现尺度放大变换的操作。

通过尺度缩小与尺度放大两种变换方式可尽量消除图像尺度不一致对表情特征提取的影响，通过上述尺度缩小变换与放大变换的方法将采集的面部图像均归一化为32×32像素的统一尺寸。

S3：训练卷积神经网络模型，获得最佳的网络参数并保存，在本实施方式中，具体方法为：

S31：训练卷积神经网络模型需要大量带有标签的人脸表情数据库，在现有的公开的人脸表情数据库中选择了CK+表情数据库、FER2013表情数据库、JAFFE表情数据库。由于数据库样本不足，本方法采用了图像处理算法进行数据增强，扩展数据样本同时增加样本的多样性，避免卷积神经网络过拟合。在CK+数据库主要使用切割、翻转、不同比例的遮挡和噪声扰动等图像处理算法增强数据库，在FER2013数据库主要使用随机裁剪、垂直翻转的图像处理算法增强数据库，JAFEE表情数据库作为泛化性能的测试集，不做数据增强；

S32：本方法的重点是设计符合应用需求的卷积神经网络，本发明改进的卷积神经网络模型(如图4)主要有1×1卷积、3×3卷积和Inception模型(如图5)结果堆栈而成。其中Inception模块近似一个稀疏结构，具体结构是将1×1卷积，3×3卷积，5×5卷积和3×3最大池化堆栈在一起，激活函数使用ReLU函数，然后将这些层连接在一起作为输出。通过使用Inception模块的卷积神经网络主要有两个有点：①增加了网络的宽度、深度，②增加了网络对尺度的适应性，进而最大程度的提高了网络内部的计算资源的利用率。最终提出的深度卷积神经网络架构包含传统的CNN层和Inception模块，网络包含五层卷积与两层Inception模块以两层最大池化层，最后两层为全连接层输出七种分类结果。

为了加快训练深度卷积神经网络和减轻过拟合的问题，在标准卷积层与ReLU激活函数层之间引入了批标准化算法，如图6所示。BN算法的主要优势是设置比较大的初始学习率，因为使用BN算法网络具有快速训练收敛的优势。在层与层之间添加BN层，网络前向传播时BN层利用卷积层输出特征的均值与方差标准化每一层的特征分布，维护整体mini-batch数据的均值和方差。BN层是通过变量重构，引入两个可学习的缩放参数g和偏移参数b使模型自适应调整每层的特征分布；

S33：本发明整体网络使用随机梯度下降法(SGD)训练深度卷积神经网络，可以快速收敛。通常传统的神经网络权值初始化使用均匀分布：

或者采用标准初始化(Normalized Initialization):

其中m为输入维度，n为输出维度。本方法使用了高斯分布初始化，一般情况下，高斯分布的均值(mean)均设为0，因为使用的ReLU激活函数，所以标准差(stddev)不是设置为0.01或者0.001，而是使用MSRA初始化。其中m为输入维度。

因为使用了BN层，在训练中使用指数衰减法更加灵活的设置学习率，训练前期使用较大的学习率lr＝0.1，然后随着迭代轮数衰减学习率。同时使用交叉验证(cross-validation)和早停(Early stopping)来训练网络；

S34：经过步骤S33之后，训练整体网络，分别使用CK+、FER2013数据库训练。具体训练方案数据库分为三组：训练集、验证集和测试集，使用python函数库sklearn中的k-fold工具完成。使用验证集选择最佳的训练顺序和网络权值并保存网络结果和网络权值，然后使用测试集测试识别率和泛化性能，最后使用JAFFE数据库测试最终的泛化性能。

S4：将人脸表情图像经过CNN模型进行特征提取，在本实施方式中，具体方法为：

加载CNN模型以及网络参数，并将归一化后人脸表情图像输入到CNN模型进行特征提取；

S5：采用SVM分类器进行分类识别，在本实施方式中，具体方法为：

本发明采用网格搜索的方式，来估计SVM的最佳内核，确定最佳C参数，用于对提取的人脸表情特征进行分类识别。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于改进的CNN人脸表情识别方法，其特征在于，包括以下步骤：

1、采用连续且较小的卷积核替代较大的卷积核；

2、在卷积神经网络模型中引入Inception模型；

3、设计改进的CNN模型时引入点卷积(1×1卷积)，其中点卷积主要功能为数据的降维和升维，实现了跨通道的交互和信息融合；数据的降维与升维是通过控制卷积核数量实现的；

S4、对步骤S3获得的最佳网络参数，加载卷积神经网络CNN模型以及S3得到的最佳的网络参数，并对S2获得的归一化的人脸表情图像进行特征提取；

2.根据权利要求1所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述步骤S1的人脸检测对齐JDA算法，其核心主要采用随机森林的策略来训练一个分类与回归树(Classification and Regression Trees,CART)，并以一定的概率来选择是决策树或者分类树。树的顶部侧重于检测，底部侧重于回归，来训练分类与回归树。在采集训练样本使用滑动窗口的方式，进行判断一个窗口是否是人脸目标。当训练模型时，每个叶子节点的输出都是特征点的偏移，然后提取特征点附近的特征，作为人脸特征进行分类。其中叶子节点的输出，之后采用全局的回归优化，进而预测关键点的位置，进而辅助检测人脸目标。

3.根据权利要求1所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述步骤S2对采样的图像进行人脸姿态的矫正包括步骤：

4.根据权利要求3所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述步骤S2对采样的图像进行人脸姿态的矫正包括步骤：在步骤S22基础上，图像裁剪使用半眼距离(b)进行空间归一化，裁剪区域的垂直系数为4.5，其中眼睛上方的区域为1.3，下方为区域为3.2，而水平裁剪区域的系数为2.4。

5.根据权利要求4所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述步骤S22将直方图均衡化将灰度图中较为集中的灰度区间均衡分布到全局灰度区间以提高图像对比度，假如原始灰度图像的灰度用r表示，经直方图均衡化后的灰度图像灰度用s表示，其中0≤r,s≤1，则任意r在区间[0,1]范围内经过T(r)变换后都有一个s与之相对应，最后采用尺寸归一化，将所有的图像转换成尺寸为32×32像素；

6.根据权利要求5所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述图像尺度放大变换的步骤采用双线性插值的方法来增加像素点需要的灰度值，该插值方法的中心思想是在二维图像的X、Y方向上各做1次线性插值。

7.根据权利要求5所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述标准卷积层与ReLU激活函数层之间引入了批标准化(Batch Normalization，BN)算法，层与层之间添加BN层，网络前向传播时BN层利用卷积层输出特征的均值与方差标准化每一层的特征分布，维护整体mini-batch数据的均值和方差，BN层是通过变量重构，引入两个可学习的缩放参数g和偏移参数b使模型自适应调整每层的特征分布。

8.根据权利要求7所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述改进的CNN模型使用随机梯度下降法训练，不适用神经网络权值初始化不使用均匀分布，而是采用高斯分布初始化，标准差不是设置为0.01或者0.001，而是使用MSRA初始化。

9.根据权利要求7所述的一种基于改进的CNN人脸表情识别方法，其特征在于，所述步骤S5使用SVM分类器进行分类，使用网格搜索的方式，来估计SVM的最佳内核，确定最佳C参数，用于对提取的人脸表情特征进行分类识别。