CN110276248B

CN110276248B - 一种基于样本权值分配和深度学习的人脸表情识别方法

Info

Publication number: CN110276248B
Application number: CN201910388826.2A
Authority: CN
Inventors: 仇建; 胡焰焰; 沈方瑶; 商吉利; 张桦; 吴以凡; 戴国骏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2021-03-23
Anticipated expiration: 2039-05-10
Also published as: CN110276248A

Abstract

本发明公开了一种基于样本权值分配和深度学习的人脸表情识别方法。本发明首先通过裁剪和进行随机镜像方法，获得了预处理后的训练集，并使用VGG‑11网络模型对训练集进行k折交叉验证，获得每一个训练样本的权值参数，并且在识别模型建立过程中，设计了自适应Inception‑Resnet网络结构，并使用训练样本的权值参数作为训练参数设计损失函数，优化了识别模型。本发明通过提出一种基于交叉验证的数据权重分配方法，减少异常样本对网络的干扰，并且设计了一个自适应Inception‑Resnet网络，使网络中的分支能够自动调整权重，减少过拟合。

Description

一种基于样本权值分配和深度学习的人脸表情识别方法

技术领域

本发明属于计算机应用中的图像识别领域，尤其是涉及一种基于样本权值分配和深度学习的人脸表情识别方法。

背景技术

近年来，随着人工智能的不断发展，人们不仅仅只是关注计算机强大的数值计算能力和数据处理能力等问题，也愈发地关注人与计算机的交互问题。表情识别作为人脸识别中的一个重要分支，也在越来越多的学者关注下蓬勃发展。如今，表情识别大多应用于多媒体、监控、安全驾驶等人机交互的场景。面部表情可以对人类的情绪进行直观的反映，计算机能够通过面部表情识别出各种情感，这不仅对他人心理状态的了解和他人动作意图的理解将会有很大的帮助，也方便人类与机器之间的相互交流。传统的表情识别方法一般是先通过一些数学方法提取表情图像的几何特征，包括高波滤波器(Gabor filters)、局部二元模式(Local binary pattern，LBP)、定向梯度直方图(Histograms of orientedGradients，HOG)和尺度不变特征变换(Scale invariant feature transform，SIFT)等，再根据所提取的几何特征进行分类。但是，由于通过数学方法提取的几何特征往往属于低层次的特征，从数据中难以提取和组织对类别划分有区分性的信息，通常不具有较强的鲁棒性，对旋转、光照等干扰因素都比较敏感，所以传统的表情识别模型的性能都不能满足高表情识别准确率的要求。

目前面部表情识别工作仍具有很大的挑战，许多相关研究和工作着重于分类模型和特征提取方法的改进，往往很容易忽视面部表情7个基本类别之间的联系和数据集中样本间的关系。一些表情比如：Happy和Surprise属于辨识度很高的类别，很容易通过特征将它们区分开，而有一些表情比如：Fear和Sad，有些环境下是非常相似很难将它们有效的区分开。由于很难去确切地划分每个表情特征空间，不同的表情类别中样本的面部特征在特征空间中可能非常接近。而属于同一个表情中的某些样本的面部特征在特征空间可能离得比较远。此外，人脸图像容易受到种族、年龄、性别、毛发等不可控因素的影响，导致每个样本提取到用于表情分类的面部特征分布和特征复杂性是不同的。

发明内容

本发明的目的就是为了解决由于人们情绪的不同表达方式和不受控的环境因素的影响，导致情绪识别的复杂度具有不一致性和面部表情类别之间的存在干扰性等问题，提供了一种基于样本权值分配和深度学习的人脸表情识别方法。本发明首先提出一种基于交叉验证的数据权重分配方法，通过VGG-11网络为每一个样本分配一个权重系数，在自适应Inception-Resnet网络的损失函数中使用分配的权重参数，从而在网络训练时减少异常样本对网络的干扰，加快训练速度，在自适应Inception-Resnet网络中使用自适应权重结构，能够自动调整权重，减少过拟合。

本发明的目的可以通过如下技术方案实现：

一种基于样本权值分配和深度学习的人脸表情识别方法，所述方法包括：人脸表情图片预处理过程、样本权值参数的获取过程、自适应Inception-Resnet网络训练过程、人脸表情图片识别过程。

所述的过程具体步骤如下：

步骤(1)人脸表情图片预处理过程。

为了防止网络过拟合过快，对训练样本进行一些人工图像变换，如翻转、旋转、剪切等操作对人脸表情图片进行预处理。这些操作称为数据增强，可以使训练网络更加健壮。

步骤(2)训练样本权值参数的获取过程：

通过步骤(1)将每一张原始的人脸表情图片，通过VGG-11网络进行5折交叉验证方法，根据每张人脸表情图片的正确率来确定棋权重参数。

步骤(3)自适应Inception-Resnet网络设计与训练过程：

将步骤(2)中带权重参数的人脸表情图片输入到自适应Inception-Resnet网络进行训练。

步骤(4)人脸表情图片识别：

将测试数据进行数据增强处理后，输入到步骤(3)训练好的自适应Inception-Resnet网络进行决策，输出预测结果。

所述步骤(1)人脸表情图片预处理方法如下：

选用的数据库中的人脸表情图片的大小是48*48。通过多次随机裁剪大小为44*44的图像，并对这些图像进行镜像处理，获得预处理后的训练集。

所述步骤(2)训练样本权值参数的获取方法如下：

首先，将通过步骤(1)获得的训练集随机划分数量相近的k组训练数据，其中一组作为训练集对VGG-11网络进行训练，剩下的k-1组作为验证集，进行k折交叉验证，训练出k个VGG-11网络模型。

然后，将所有的训练集样本输入到k个VGG-11网络模型，计算出所有训练样本各自的分类准确率，计算公式如下：

式(1)中N为分类网络模型个数，K(x_i)为第i个训练样本分别在K个分类网络模型中的正确分类次数总和。

按照如下公式对每个训练样本分配权重：

W_i＝(1-α)*C(x_i)+α (式2)

W_i为第i个训练样本的权重，α为常数，0<α<1，C(x_i)为训练样本的分类准确率。

根据每个训练样本的分类准确率，正确率越高，对应的训练样本权重越大；正确率越低，对应的训练样本权重越低。这样，网络可以在初始阶段更快、更准确地训练网络。在网络训练的后期阶段，高权重的训练样本基本上属于正确的类别，然后网络对低于指定阈值的低权重、低准确率的复杂训练样本进行深度训练。

所述步骤(3)自适应Inception-Resnet网络设计与训练过程方法如下：

本发明的网络模型借鉴了Inception-Resnet结构，包括两个主要模块。一是Inception模块，即对输入图像并行执行多个卷积操作和池化操作，并将所有输出结果拼接成一个特征图。由于卷积核的大小不同，如1×1，3×3或5×5能够得到输入图像的不同信息，这些运算的并行处理和合并所有结果将得到更好的图像特征表示。二是残差结构的使用。传统的卷积网络或全连通网络在信息传输过程中或多或少会出现信息丢失等问题，同时也会导致梯度消失或梯度爆炸，使得深度网络无法进行训练。ResNet在一定程度上解决了这一问题，它直接将输入信息绕过输出，保护了信息的完整性。整个网络只需要学习输入和输出的区别，就可以简化学习目标和难度。本发明使用Inception-Resnet模块来获取关于输入图像的不同信息，并使用一个Reduction块来减小输入图像的大小并加深图像的深度。与Inception-Resnet网络不同的是，本发明将权重参数添加到这些模块中不同的分支和上一层的输入。这些参数由网络初始化，并在网络训练过程中进行自我调整，使网络能够选择最合适的卷积操作和池化操作。本发明在最后一个卷积层之后进行了Dropout操作，以减轻过度拟合，最后使用全连接层(FCN)和Softmax作为分类器。本发明尽量减少全连接层的使用，因为全连接层的参数往往占据整个CNN网络参数的很大一部分，所以使用全连接层可能导致出现过拟合现象。损失函数的设计一般遵循两个原则，即错误预测造成的损失大于正确预测造成的损失，严重错误预测造成的损失大于轻微错误预测造成的损失。本发明设计的Softmax损失方程如下:

式中L为损失值，s_j为Softmax输出向量S的第j个值，y_j为one-hot形式的样本标签，T是总类数，W_i是样本的权重。

所述步骤(4)首先将测试集的人脸表情图片进行数据增强。本发明将一张48×48的测试图片从中间、左上角、左下角、右上角和右下角的图像进行剪切和镜像，生成10张不同的44×44的测试图片，然后将这10张图像输入到步骤(3)训练好的Inception-Resnet中，对这10张图片进行表情分类，这10张图片中的每一张图片都有一个输出分类，统计10张图片的输出分类结果，输出最多的分类即为该48×48的人脸表情图片所对应的分类。

与现有技术相比，本发明的有益效果在于：

(1)本发明提出在模型训练阶段，随机裁剪44×44的图像，对图像进行镜像，然后再输入到神经网络模型中进行训练。在测试阶段，采用了一种扩大10倍测试样本的方法来增加分类器的鲁棒性。

(2)通过提出一种基于交叉验证的数据权重分配方法，减少异常样本对网络的干扰，并且设计了一个自适应Inception-Resnet网络，使网络中的分支能够自动调整权重，减少过拟合。

附图说明

图1为本发明的实现总体框图。

图2为Reduction block结构图

图3为自适应Inception-Resnet网络架构

具体实施方式

以下结合附图对本发明作进一步详细描述。

本发明提出一种基于样本权值分配和深度学习的人脸表情识别方法，其实现总体框图如图1所示，具体包括如下4个步骤：

步骤(1)人脸表情图片预处理过程。具体操作如下：

选用的人脸表情数据库为Fer2013。该数据库由28709张训练图像、3589张公共测试图像和3589张私有测试图像组成。每个图像都是48×48像素的灰度图像。Fer2013的数据集中有七种表情:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。该数据集是2013年Kaggle大赛的数据，由于主要是利用网络爬虫下载的，所以一些图片的类别存在错误。

本发明通过随机裁剪大小为44×44的图像，对这些图像进行镜像，获得了预处理后的训练集。

步骤(2)对预处理后的训练数据样本进行权值参数的计算。

本发明将通过步骤(1)获得的训练集随机划分数量相近的5组训练数据,其中一组作为训练集对VGG-11网络进行训练，剩下的4组作为验证集，进行5折交叉验证，训练出5个VGG-11网络模型。然后，将所有的训练集样本输入到5个VGG-11网络模型，计算出所有训练样本各自的分类准确率，计算公式如式(1)所示。其中N为分类网络模型个数即为5，K(x_i)为第i个训练样本在分别在K个分类网络模型中的正确分类次数总和。

本发明按照式(2)对每个样本分配权重W_i为第i个样本的权重，α为常数(0<α<1)，本发明取值为0.6。

根据每个样本的正确率，正确率越高，对应的样本权重越大，正确率越低，对应的样本权重越低。这样，我们可以在初始阶段更快、更准确地训练网络。在网络训练的后期阶段，高权重的样本基本上属于正确的类别，然后网络对低权重、低准确率的样本进行深度训练。

步骤(3)自适应Inception-Resnet网络设计与训练。

本发明的模型使用Inception-Resnet结构，它有两个主要模块。一是Inception模块，即对输入图像并行执行多个卷积操作和池化操作，并将所有输出结果拼接成一个特征图。由于卷积运算和池化运算的大小不同，如1×1，3×3或5×5可以得到输入图像的不同信息，这些运算的并行处理和合并所有结果将得到更好的图像特征表示。二是残差结构的使用。传统的卷积网络或全连通网络在信息传输过程中或多或少会出现信息丢失等问题，同时也会导致梯度消失或梯度爆炸，使得深度网络无法进行训练。ResNet在一定程度上解决了这一问题，它直接将输入信息绕过输出，保护了信息的完整性。整个网络只需要学习输入和输出的区别，就可以简化学习目标和难度。本发明使用Inception-Resnet模块来获取关于输入图像的不同信息，并使用一个Reduction block，其结构如图2所示来减小输入图像的大小并加深图像的深度。与传统Inception-Resnet网络不同的是，本发明将权重参数添加到这些模块中不同的分支和上一层的输入。这些参数由网络初始化，并在网络训练过程中进行自我调整，使网络能够选择最合适的卷积操作和池化操作。本发明在最后一个卷积层之后进行了Dropout操作，以减轻过度拟合，最后使用全连接层和Softmax作为分类器。本发明尽量减少全连接层的使用，因为全连接层的参数往往占据整个CNN网络参数的很大一部分，所以使用全连接层很可能出现过拟合现象。图3显示了自适应Inception-Resnet网络架构。损失函数的设计一般遵循两个原则，即错误预测造成的损失大于正确预测造成的损失，严重错误预测造成的损失大于轻微错误预测造成的损失。本发明设计的Softmax损失方程如下:

其中L为损失值，s_j为Softmax输出向量S的第j个值，y_j为one-hot形式的样本标签，T是总类数。

Claims

1.一种基于样本权值分配和深度学习的人脸表情识别方法，其特征在于包括如下步骤：

步骤(1)人脸表情图片预处理，对训练样本进行一些人工图像变换，实现数据增强；

步骤(2)训练样本权值参数的获取过程：将预处理后的每张原始的人脸表情图片，通过VGG-11网络进行5折交叉验证方法，根据每张人脸表情图片的正确率来确定其权重参数；

步骤(3)设计与训练自适应Inception-Resnet网络：将步骤(2)中带权重参数的人脸表情图片输入到自适应Inception-Resnet网络进行训练；

步骤(4)人脸表情图片识别：将测试数据进行数据增强处理后，输入到步骤(3)训练好的自适应Inception-Resnet网络进行决策，输出预测结果；

步骤(1)所述的人脸表情图片预处理，选用数据库中人脸表情图片的大小是48*48，通过多次随机裁剪大小为44*44的图像，并对裁剪后的图像进行镜像处理，获得预处理后的训练集；

所述步骤(2)训练样本权值参数的获取过程如下：

2-1.将通过步骤(1)获得的训练集随机划分数量相同的k组训练数据，其中一组作为训练集对VGG-11网络进行训练，剩下的k-1组作为验证集，进行5折交叉验证，训练出k个VGG-11网络模型；

2-2.将所有的训练集中的训练样本输入到k个VGG-11网络模型，计算出所有训练样本各自的分类准确率，计算公式如下：

式(1)中N为分类网络模型个数，K(x_i)为第i个训练样本分别在K个分类网络模型中的正确分类次数总和；

2-3.按照如下公式对每个训练样本分配权重：

W_i＝(1-α)*C(x_i)+α (式2)

2.根据权利要求1所述的一种基于样本权值分配和深度学习的人脸表情识别方法，其特征在于步骤(3)所述的设计与训练自适应Inception-Resnet网络的实现如下：

自适应Inception-Resnet网络借鉴了Inception-Resnet结构，包括两个模块：一是Inception模块，即对输入图像并行执行多个卷积操作和池化操作，并将所有输出结果拼接成一个特征图；二是ResNet模块，即残差结构的使用；ResNet直接将输入信息绕过输出，保护了信息的完整性，使得整个网络只需要学习输入和输出的区别；使用Inception-Resnet网络来获取关于输入图像的不同信息；将权重参数添加到Inception模块和ResNet模块中不同的分支和上一层的输入；将权重参数由网络初始化，并在网络训练过程中进行自我调整，使网络能够选择最合适的卷积操作和池化操作；在最后一个卷积层之后进行Dropout操作，最后使用全连接层(FCN)和Softmax作为分类器；

设计的Softmax损失方程如下:

式(3)中L为损失值，s_j为Softmax输出向量S的第j个值，y_j为one-hot形式的样本标签，T是总类数，W_i是样本的权重。

3.根据权利要求2所述的一种基于样本权值分配和深度学习的人脸表情识别方法，其特征在于步骤(4)所述的数据增强具体实现如下：将一张48×48的测试图片从中间、左上角、左下角、右上角和右下角的图像进行剪切和镜像，生成10张不同的44×44的测试图片，然后将这10张测试图片输入到步骤(3)训练好的Inception-Resnet中，对这10张测试图片进行表情分类，这10张测试图片中的每一张测试图片都有一个输出分类，统计10张测试图片的输出分类结果，输出最多的分类即为该48×48的人脸表情图片所对应的分类。