CN107330420B

CN107330420B - 基于深度学习带有旋转信息的人脸表情识别方法

Info

Publication number: CN107330420B
Application number: CN201710573387.3A
Authority: CN
Inventors: 彭玉青; 闫倩; 宋初柏; 刘璇; 王纬华
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2019-09-06
Anticipated expiration: 2037-07-14
Also published as: CN107330420A

Abstract

本发明基于深度学习带有旋转信息的人脸表情识别方法，该方法的步骤是：1)确定人脸表情识别的深度卷积神经网络模型与参数；2)将步骤1)中的深度卷积神经网络模型中的第一个卷积层，即数据输入层后面的Conv1层，改为带有角度信息的卷积层，并将带有角度信息的卷积层命名为NConv层；3)通过图像旋转对FER2013人脸表情数据库进行数据扩充，将扩充后的FER2013人脸表情数据库命名为FER2013II数据库，并对FER2013II数据库进行标签处理；4)使用步骤3)得到的FER2013II数据库对步骤2)处理后的深度卷积神经网络模型进行训练和测试，得到修正后的深度卷积神经网络模型；5)将需要进行识别的人脸表情图片经过预处理后，输入到修正后的深度卷积神经网络模型中，输出人脸表情识别结果。

Description

基于深度学习带有旋转信息的人脸表情识别方法

技术领域

本发明属于图像处理技术领域，涉及一种基于深度学习带有旋转信息的人脸表情识别方法。

背景技术

据研究表明，人类通过面部表情表达的信息量占总体信息量的半数之多，是表达人类感情信息的重要途径之一。在人机交互，情感分析以及相关的其它众多领域，面部表情识别都有着重要的研究和应用价值。通过高准确率的面部表情识别系统，可以更及时准确的掌握当事人的情绪变化。在人机交互方面，帮助机器及时调整接下来行为动作，而在情感分析方面，也可以作为分析当事人情绪的指标之一等用途。

在传统的人脸表情识别技术需要手工特征的提取并进行分类，但在分类过程中，能否根据良好特征形成的分类标准是区别人脸表情识别技术好坏的关键点之一。与此同时，传统技术仍存在着鲁棒性差的不足。随着计算机软硬件的发展，深度学习成为近几年的研究热点之一。在语音，图像，文本等众多领域的应用都取得了不错的成绩。基于深度卷积神经网络的人脸表情识别研究有着较大的突破，但也存在一定的问题。目前有关基于深度学习的人脸表情识别方法中，绝大多数人脸表情数据库中的表情样本均为正立的人脸图像，即便是在实验过程中加入有一定角度的图像也是一个较小的变化范围，而在实际应用过程中，由于照相机或者摄影机的摆放位置，拍摄角度不同或者其它意外状况的发生，采集到的人脸图像并非完全是正立的，或带有较大的旋转角度。经研究表明，深度卷积神经网络在图像的旋转不变性方面的能力较弱，仅仅是在深度卷积网络的训练样本中加入旋转后的人脸表情样本，由于目前现有卷积神经网络的卷积方式核心内容即对所有样本按照从左到右再从上到下的顺序进行卷积运算，并不能真正实现对旋转后人脸表情识别率的提升(孙晓,潘汀,任福继.基于ROI-KNN卷积神经网络的面部表情识别[J].自动化学报,2016,42(6):883-891.)，没能改善因图像旋转角度的不同而引起的识别率下降的技术问题。

发明内容

本发明的目的在于克服上述传统深度卷积神经网络在较大旋转角度的人脸表情识别方面的不足，提供一种基于深度学习带有旋转信息的人脸表情识别方法。该方法将图像旋转角度信息与传统卷积神经网络有机结合，在现有的人脸表情识别的卷积神经网络中加入旋转样本的角度信息，改变现有卷积方式，使得原本对所有样本相同的卷积方式变为针对不同旋转角度进行与其相适应的卷积方式，显著提高了深度卷积神经网络在图像旋转不变性方面的能力，从而提高其准确率。本发明中所述的较大旋转角度是指对人脸表情图像进行0°、90°、180°、270°的旋转。

本发明采用的技术方案是，提供一种基于深度学习带有旋转信息的人脸表情识别方法，该方法的步骤是：

1)确定人脸表情识别的深度卷积神经网络模型与参数；

2)将步骤1)中的深度卷积神经网络模型中的第一个卷积层，即数据输入层后面的Conv1层，改为带有角度信息的卷积层，并将带有角度信息的卷积层命名为NConv层；

3)通过图像旋转对FER2013人脸表情数据库进行数据扩充，将扩充后的FER2013人脸表情数据库命名为FER2013II数据库，并对FER2013II数据库进行标签处理；

4)使用步骤3)得到的FER2013II数据库对步骤2)处理后的深度卷积神经网络模型进行训练和测试，得到修正后的深度卷积神经网络模型；

5)将需要进行识别的人脸表情图片经过预处理后，输入到修正后的深度卷积神经网络模型中，输出人脸表情识别结果。

本发明与现有技术相比具有以下好处：

传统深度卷积神经网络在图像的旋转不变性方面的能力较弱，为了提高其对带有角度旋转信息的图像的识别能力，往往是单纯在原有训练样本中加入旋转后的图像，然而在一定程度上并不能提高神经网络对人脸表情的识别率，相反会降低识别率。这一点在孙晓的《基于ROI_KNN卷积神经网络的面部表情识别》一文中已有验证。另外，在本发明的步骤4中，实验1即是对只有正立的人脸表情样本通过深度卷积神经网络模型进行训练和测试，识别率在63％-65％之间，实验2是使用实验1的深度卷积神经网络模型，在正立的人脸表情样本中通过图像旋转进行数据扩充后对其进行训练和测试，识别率在58％-60％之间，在本发明中，将图像的旋转角度信息融合进图像的卷积过程中，根据不同的旋转角度采取相适应的卷积方式，从而在训练样本中加入带有旋转角度的样本后，改善网络在图像旋转不变性方面的不足，将其准确率提升至64％-66％之间，比单纯的在人脸表情样本中加入旋转样本即实验2提升4％-6％的准确率，和实验1即仅有正立的人脸表情样本结果不相上下，证明了本发明的有效性。

附图说明

图1是现有的深度卷积神经网络模型的结构示意图；

图2是人脸表情图片顺时针旋转90°前后的示意图；

图3是正立人脸表情图片卷积过程示意图；其中图3(a)为一张正立的人脸表情样本的像素矩阵，图3(b)为2*2的卷积核，图3(c)为图3(a)的人脸表情样本像素矩阵经过图3(b)的卷积核进行卷积后生成的特征图。

图4是人脸表情顺时针旋转90°的现有卷积过程示意图；其中图4(a)为图3(a)顺时针旋转90°后的像素矩阵，图4(b)为图4(a)的人脸表情样本像素矩阵经过图3(b)的卷积核进行卷积后生成的特征图。

图5是人脸表情图片顺时针旋转90°后的像素矩阵经图3(b)的卷积核按照本发明的卷积方式卷积后的结构示意图；

图6是原数据库图片通过旋转方式扩大数据集的示意图；

图7是实验1的准确率变化图；

图8是实验2的准确率变化图；

图9是实验3的准确率变化图。

图10为本发明步骤2)的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步的描述，但并不以此作为对本申请权利要求保护范围的限定。

本发明基于深度学习带有旋转信息的人脸表情识别方法，该方法的步骤是：

1)确定人脸表情识别的深度卷积神经网络模型与参数；

5)将需要进行识别的人脸表情图片经过预处理后，输入到修正后的深度卷积神经网络模型中，输出人脸表情识别结果。所述预处理是指检测出图片中的人脸，并获取到该人脸的角度信息(因为数据库中的图片都是正立的,所以图片的角度就是人脸的角度,但在应用的时候是以人脸角度为准)。并获取到该图片的角度信息，该预处理过程为现有技术。

所述步骤2)的具体过程是：在步骤1)的深度卷积神经网络模型中的数据输入层中获取图片的所有信息，然后在NConv层中根据获取的图片信息判断旋转角度，这里的旋转角度均是指相对图片正立时顺时针旋转的度数，若旋转角度为0°，则适用于旋转角度为0°的卷积方式，通过式(1)并按照从左到右，从上到下的顺序进行卷积操作；若旋转角度为90°，则适用于旋转角度为90°的卷积方式，通过式(2)并按照从上到下,从右到左的顺序进行卷积操作；若旋转角度为180°，则适用于旋转角度为180°的卷积方式，通过式(3)并按照从右到左,从下到上的顺序进行卷积操作；若旋转角度为270°，则适用于旋转角度为270°的卷积方式，通过式(4)并按照从下到上,从左到右的顺序进行卷积操作；在NConv层中进行卷积操作后，将计算结果输入到下一层，也就是第一个池化层；

在上述四个公式中F均代表卷积后生成的特征图；Mwidth表示数据输入层输入的图片矩阵M的大小；Kwidth表示卷积核的大小；m表示人脸表情矩阵按照以行为主的顺序存储的像素值，其下标表示顺序存储的第几个像素值；k表示卷积核以行为主的顺序存储的相应位置的数值，其下标表示卷积核中顺序存储的第几个数值；b₁,b₂,b₃,b₄分别代表四个公式中的偏置。

所述步骤3)中进行标签处理的过程是：十位数字表示旋转角度，个位数字表示表情分类，即分别用十位数字上的0、2、4、6表示旋转角度为顺时针方向的0°、90°、180°、270°；分别用个位数字上的0、1、2、3、4、5、6表示人脸表情为生气、厌恶、害怕、高兴、悲伤、吃惊、中性的7种表情。

本发明中人脸表情识别的对象是指照片类图片。

实施例1

本实施例基于深度学习带有旋转信息的人脸表情识别方法，该方法的步骤是：

1)确定人脸表情识别的深度卷积神经网络模型与参数，可以参考Jinwoo Jeon等(Jeon J,Park J C,Jo Y J,et al.A Real-time Facial Expression Recognizer usingDeep Neural Network[C]//International Conference on Ubiquitous InformationManagement and Communication.ACM,2016:94.)在《A Real-time Facial ExpressionRecognizer using Deep Neural Network》一文中提到的深度卷积神经网络模型及参数。参数值设定的大小对模型的效果有直接影响。具体如下：

参照图1，设计深度卷积神经网络模型。所述的深度卷积神经网络模型包括数据输入(Input)层、三个卷积层、三个池化层、两个全连接层和输出层；数据输入(Input)层为第一层，原始图像为48*48像素，在数据输入层随机裁剪为43*43像素进行输入；第二层为第一个卷积层，记为Conv1层，该层使用5*5大小的卷积核，共32个卷积核，步长设置为1；第三层为第一个池化层，记为Pool1层，该层采用最大池化方法，使用3*3的池化域，设置步长为2；第四层为第二个卷积层，记为Conv2层，该层使用32个4*4的卷积核，步长设置为1，并添加边缘扩充为1；第五层为第二个池化层，记为Pool2层，采用最大池化方法，使用3*3的池化域，设置步长为2；第六层为第三个卷积层，记为Conv3层，该层使用64个5*5的卷积核，设置步长为1，边缘扩充为2；第七层为第三个池化层，记为Pool3层，使用3*3的池化域，步长为2；第八层为第一个全连接层，输出(num-output)为2048个全连接，激活函数为ReLU函数，并连接dropout ratio为40％的dropout层；第九层为第二个全连接层，输出为1024个全连接，激活函数为ReLU函数，并连接dropout ratio为40％的dropout层；最后一层为输出层，输出层分别输出表示生气、厌恶、害怕、高兴、悲伤、吃惊、中性等七种表情分类。

对上述选定的深度卷积神经网络模型进行训练，寻找合适参数。训练时batch_size设置为64，基础学习率设定为0.01，动量设定为0.9，总共训练30000次，每训练400次进行一次测试，每次选取3000张图片进行测试，观察其准确率的变化过程，当准确率趋于平稳时，得到相应的模型参数。

2)将步骤1)中的深度卷积神经网络模型中的第一个卷积层，即数据输入层后面的Conv1层，改为带有角度信息的卷积层，并将带有角度信息的卷积层命名为NConv层；具体如下：

设数据输入层为Mwidth*Mwidth的矩阵M，卷积核为Kwidth*Kwidth的矩阵K，则生成特征图为(Mwidth-Kwidth+1)*(Mwidth-Kwidth+1)(此处设置每次卷积核移动步长默认为1)的矩阵F。m表示人脸表情矩阵按照以行为主的顺序存储的像素值，其下标表示顺序存储的第几个像素值；k表示卷积核以行为主的顺序存储的相应位置的数值，其下标表示卷积核中顺序存储的第几个数值。

对于一张经过旋转得到的图片而言，和原图片所携带的图像信息，几乎是完全一样的，只是由于角度的变化而使原来相同的图像信息所在的位置发生变化。图2为一张旋转角度为0°的图片在经过90°的顺时针方向旋转后得到的人脸图像，其中图中左边为正立0°人脸图像，右边为顺时针旋转90°的人脸图像。在传统的卷积过程中，忽略了旋转角度对图片的影响，对这两张图片均按照从左到右，从上到下的顺序卷积。从像素计算的角度，对同一个卷积核而言，对两张图片的卷积实质上是对两张图片在一定区域内的像素值做相同的运算。而较大差异的像素值信息必然会导致计算结果的较大差异，进而对特征提取产生一定的影响。随着旋转角度的增大，这种影响必然会增大，即在一定程度上降低了深度卷积神经网络模型在旋转不变性方面的性能。本申请根据旋转角度的不同使用不同的卷积方式，在一定程度上保证了相同图片信息相对于卷积过程在“相同位置”，能显著提高整个网络对旋转图片的适应能力。

将一张旋转角度为0°的人脸图像矩阵简化为由像素矩阵形式，图3(a)为5*5的一张人脸图片的像素矩阵。设置卷积核为2*2的矩阵，如图3(b)所示，则经过卷积之后，生成的特征图如图3(c)所示。将同一张图片向右顺时针方向旋转90°后的像素矩阵如图4(a)。在现有的卷积方式中，经过相同的卷积核卷积后生成的特征图如图4(b)。对比图3(c)可以明显看出，图4(b)的特征图中的“相同位置”数值和旋转角度为0°的时候存在明显的差别。

改进的方法如图5所示，对于顺时针方向旋转90°的图像而言，采用从上到下，从右到左的卷积顺序结合式(2)进行卷积，生成的特征图如图5所示。对比图5和图3(c)可以看出通过该方式进行卷积和旋转角度为0°时生成的特征图在相同位置的数值是大体上是一样的，保证了相同图片信息位于图片“相同位置”。所获得的特征图也是在原图的基础上将图片“正立”过来的。因此，在带有旋转图片的神经网络中，只需要保证第一个卷积层采用新的卷积方式，而接下来的第二个池化层、两个卷积层和池化层的重复结构即可按照传统方式，不需作任何修改。同理，在对旋转角度为顺时针方向的180°和270°图片进行卷积时，分别按照先从右到左再从下到上和先从下到上再从左到右的顺序结合式(3)和式(4)进行计算。

旋转角度为0°时的卷积公式如下：

旋转角度为90°时的卷积公式如下：

旋转角度为180°时的卷积公式如下：

旋转角度为270°时的卷积公式如下：

在上述4个公式中F均代表卷积后生成的特征图；Mwidth表示矩阵M的大小；Kwidth表示卷积核的大小；m表示人脸表情矩阵按照以行为主的顺序存储的像素值，公式中其下标表示顺序存储的第几个像素值；k表示卷积核以行为主的顺序存储的相应位置的数值，公式中其下标表示卷积核中顺序存储的第几个数值；b₁,b₂,b₃,b₄分别带表四个公式中的偏置。

本发明中图3-图5中的所有数字和字母都是泛化的代指，目的是为了更形象的说明现有卷积方式和本发明的卷积方式的区别。

3)通过图像旋转对FER2013人脸表情数据库进行数据扩充，将扩充后的FER2013人脸表情数据库命名为FER2013II数据库，并对FER2013II数据库进行标签处理；具体如下：

为满足深度学习对数据集大数据量的要求，以FER2013人脸表情数据库为基础数据，该数据库中一共有三万五千多张灰度图片，其中测试图片有三千多张，基本满足深度学习大数据量的要求。包含害怕，难过，快乐，惊讶，自然，生气，厌恶总共7种表情。

将原FER2013人脸表情数据库中的人脸表情图片进行0°、90°、180°和270°的图像旋转，则原FER2013人脸表情数据库扩大为原来的4倍，每张图片经过旋转后生成4张样本，如图6所示，从而得到扩充后的FER2013II数据库。

在对FER2013II数据库中样本的标签处理中，通常从0开始，用数字表示人脸的表情。例如用标签为0表示高兴，标签为1表示悲伤等。在此，为了将旋转角度信息引入神经网络，参与到卷积过程中，用类似的数字信息表示旋转角度。则原来的标签信息由一位升级到两位，分别用0，2，4，6表示旋转角度为顺时针方向的0°，90°，180°，270°。十位数字表示旋转角度，个位数字表示表情分类。则对于图6中的4张图片，其标签分别为00(旋转角度为0°，表情标签为0)，20(旋转角度为90°，表情标签为0)，40(旋转角度为180°，表情标签为0)，60(旋转角度为270°，表情标签为0)。

下面进行实验测试本发明方法的准确率。

实验1：原始数据集，即采用原始FER2013人脸表情数据库中的训练集和测试集，输入到步骤1)中的深度卷积神经网络模型中。随着迭代次数的增加，其准确率的变化情况如图7所示，图7中横坐标为迭代次数，纵坐标为测试准确率，可以看出在迭代次数增加的过程中，其准确率最后趋于稳定在63％-65％之间。

实验2：使用步骤3)得到的FER2013II数据库，每张图片的旋转角度分别为顺时针方向的0°，90°，180°和270°，同时在其标签信息中不加入带有旋转角度的信息，即标签仍为只含有表情分类的信息。将FER2013II数据库中的测试集和训练集输入到步骤1)中的深度卷积神经网络模型中。随着迭代次数的增加，其准确率的变化情况如图8所示，图8中横坐标为迭代次数，纵坐标为测试准确率，可以看出在迭代次数增加的过程中，其准确率最后趋于稳定在58％-60％之间。相比于实验1没有加入旋转样本的识别率有所下降。

实验3：本实验将步骤1)中原有深度卷积神经网络模型中的Conv1层设置为NConv层，并使用FER2013II数据库进行训练和测试。随着迭代次数的增加，其准确率的变化情况如图9所示，图9中横坐标为迭代次数，纵坐标为测试准确率，可以看出在迭代次数增加的过程中，其准确率最后趋于稳定在64％-66％之间。

通过实验1和实验2的对比可以看出，现有的深度卷积神经网络模型中，针对图片旋转不变性的效果并没有想象中理想。单纯的在样本中加入旋转图片并不能真正的提高网络模型的性能。甚至会由于旋转样本的加入，对原来的识别效率产生一定干扰，造成准确率反而降低的情况。

而通过实验2和实验3的对比可以看出，在将传统的卷积过程进行调整后，对带有旋转角度的图片识别有了明显的提升，由于是根据每张图片旋转角度不同进行恰当的卷积计算。这在一定程度上也就保证了在图片相对的“相同位置”得到的图片信息是一样的。同时将图片由于旋转角度的不同带来的差异减少，使得除第一个卷积层外剩下的卷积层均可以按照传统方式进行计算。

通过实验1和实验3的对比可以看出，两者在表情识别的准确率上几乎是不相上下，而实验1所识别的图片准确率仅限于保证均为正立图片，而实验3即本实施例能保证对有较大旋转角度的图片均有较高的准确率，从而说明本发明方法用于人脸表情识别的可靠性及实用性。

上述网络模型为本发明的实施方式之一，但本发明的实施方式并不受上述网络模型限制。其他任何在卷积神经网络方面对本发明的使用都在发明的保护范围内。

本发明未述及之处适用于现有技术。

Claims

1.一种基于深度学习带有旋转信息的人脸表情识别方法，该方法的步骤是：

1)确定人脸表情识别的深度卷积神经网络模型与参数；

5)将需要进行识别的人脸表情图片经过预处理后，输入到修正后的深度卷积神经网络模型中，输出人脸表情识别结果；

所述步骤2)的具体过程是：在步骤1)的深度卷积神经网络模型中的数据输入层中获取图片的所有信息，然后在NConv层中根据获取的图片信息判断旋转角度，这里的旋转角度均是指相对图片正立时顺时针旋转的度数，若旋转角度为0°，则适用于旋转角度为0°的卷积方式，通过式(1)并按照从左到右，从上到下的顺序进行卷积操作；若旋转角度为90°，则适用于旋转角度为90°的卷积方式，通过式(2)并按照从上到下,从右到左的顺序进行卷积操作；若旋转角度为180°，则适用于旋转角度为180°的卷积方式，通过式(3)并按照从右到左,从下到上的顺序进行卷积操作；若旋转角度为270°，则适用于旋转角度为270°的卷积方式，通过式(4)并按照从下到上，从左到右的顺序进行卷积操作；在NConv层中进行卷积操作后，将计算结果输入到下一层，也就是第一个池化层；

2.根据权利要求1所述的基于深度学习带有旋转信息的人脸表情识别方法，其特征在于所述步骤3)中进行标签处理的过程是：十位数字表示旋转角度，个位数字表示表情分类，即分别用十位数字上的0、2、4、6表示旋转角度为顺时针方向的0°、90°、180°、270°；分别用个位数字上的0、1、2、3、4、5、6表示人脸表情为生气、厌恶、害怕、高兴、悲伤、吃惊、中性的7种表情。