CN112084960B

CN112084960B - 一种基于稀疏图的人脸表情识别方法

Info

Publication number: CN112084960B
Application number: CN202010954012.3A
Authority: CN
Inventors: 靳晓芳; 徐颖; 沙子意
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2024-05-14
Anticipated expiration: 2040-09-11
Also published as: CN112084960A

Abstract

本发明涉及一种基于稀疏图的人脸表情识别方法，属于图像识别技术领域。该方法包括以下步骤：获取人脸表情的公开数据集，对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图；采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果；将所述人脸识别结果划分成训练集、测试集和验证集，并将所述训练集输入VGG神经网络进行人脸表情分类，得到训练后的VGG神经网络模型，再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证；将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。本发明解决了目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。

Description

一种基于稀疏图的人脸表情识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于稀疏图的人脸表情识别方法。

背景技术

计算机对人类情绪与情感的识别研究已经成为了一个研究的热点。基于图像情感分析的深度学习模型算法变得越来越重要。然而，随着对深度学习模型的深入研究，发现其结构和算法的发展很大程度上受限于GPU的有效性，主要原因是缺乏稀疏操作。稀疏运算可以减少计算量，并且使用较少的GPU来运行神经网络。稀疏性使得训练大型神经网络成为可能。在相同的参数和计算量的前提下，利用稀疏性可以训练出比其它神经网络更广、更深的神经网络。因此，稀疏表示在深度学习中的应用是非常重要的。目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。

发明内容

鉴于上述的分析，本发明旨在提供一种基于稀疏图的人脸表情识别方法，以解决目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。

本发明的目的主要是通过以下技术方案实现的：

本发明提供了一种基于稀疏图的人脸表情识别方法，包括以下步骤：

获取人脸表情的公开数据集，对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图；

采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果；

将所述人脸识别结果划分成训练集、测试集和验证集，并将所述训练集输入VGG神经网络进行人脸表情分类，得到训练后的VGG神经网络模型，再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证；

将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。

进一步地，对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图包括：

读取所述人脸表情的公开数据集后从中选取图片，根据图片尺寸大小和图片分别率一一读取图片的像素点，并逐一将像素点复制得到像素点数据；其中，所述图片尺寸大小包括图片的长和宽；

根据所述图片的长和宽建立int矩阵，并逐一将像素点对应的像素值存储在int矩阵，并对存储完成后的int矩阵进行奇异值分解得到奇异值int矩阵；

将所述奇异值int矩阵翻转为奇异值array矩阵，并根据从所述奇异值array矩阵中选择的前k个奇异值得到人脸表情稀疏图。

进一步地，将像素点对应的像素值存储在int矩阵A，并对存储完成后的int矩阵A进行奇异值分解得到奇异值int矩阵U和V，其公式如下：AU∑V^T；

其中，∑只在主对角线上有特征值，U和V为单位正交的奇异值矩阵，UU^T＝I和VV^T＝I。

进一步地，采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果，具体包括：

根据特征值对所述人脸表情稀疏图抽取出多层特征图，并在每层特征图的每个像素点生成默认边界框；

将每层特征图对应生成的所有默认边界框集合后进行非极大值抑制，并消除包括交叉重复在内的冗余边界框后，找到人脸识别预测到的最佳位置，得到人脸识别结果。

进一步地，根据特征值对所述人脸表情稀疏图抽取出多层特征图包括：通过SSD算法将VGG神经网络的最后两个全连接层合并后额外增加四层网络生成卷积层，所述卷积层根据特征值进行特征图提取，利用每个卷积层不同大小的特征图构建了一个特征金字塔结构模型；所述人脸表情稀疏图通过所述特征金字塔结构模型后提取出多层特征图。

进一步地，在每层特征图的每个像素点生成默认边界框包括：

在每层特征图中先设置多个像素点对应的多个先验框位置；

对所述多个先验框位置进行逐一检测得到一组检测值，所述检测值包括边界框类别的置信度和边界框位置的预测值；

将所述边界框位置的预测值和所述先验框位置转换为边界框的真实位置，生成默认边界框。

进一步地，所述边界框类别的置信度包括7个普通边界框类别的置信度值和1个特殊边界框类别的置信度值；

所述边界框类别置信度表示边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏；

所述普通边界框类别的置信度值表示该边界框中的目标属于7分类中某一类的可能性大小以及边界框匹配目标的好坏；

所述特殊边界框类别的置信度值表示该边界框中的目标属于背景的可能性大小以及边界框匹配目标的好坏。

进一步地，将所述边界框位置的预测值l和所述先验框位置d转换为边界框的真实位置b，其公式如下：

b^cx＝d^wl^cx+d^cx,b^cy＝d^yl^cy+d^cy；

b^w＝d^w.exp(l^w),b^h＝d^h.exp(l^h)；

其中，b＝(b^cx,b^cy,b^w,b^h)为边界框的真实位置，d＝(d^cx,d^cy,d^w,d^h)为先验框位置，l＝(l^cx,l^cy,l^w,l^h)为边界框位置的预测值，(cx,cy,w,h)表示边界框位置的变量，分别表示边界框的中心坐标以及宽和高。

进一步地，将所述人脸识别结果划分成训练集、测试集和验证集的拆分比例为8:1:1；其中，所述验证集为可选集，用于判断训练后的VGG神经网络模型是否过拟合；

当验证集输入到训练后的所述VGG神经网络模型得到的验证集的准确率和损失，与训练集的准确率和损失一致性超出预期，则判为过拟合。

进一步地，所述获取人脸表情的公开数据集取自fer2013面部表情数据库，该数据库包括7种表情：愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性，分别标记为0-6个数字；采用SSD算法进行识别预测时，所述7个边界框类别对应所述7种表情。

本技术方案有益效果如下：本发明公开了一种基于稀疏图的人脸表情识别方法，采用奇异值分解与SSD算法相结合的图像处理方式，将图像稀疏化，去掉部分图像噪声，有效解决了图像训练过程过拟合的问题；随后将稀疏化的图像放到VGG神经网络实现了人脸表情识别的目的，同时解决了图像在深度学习训练的时间过长的问题，该方法可运用到以后人脸表情识别的训练过程中。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的一种基于稀疏图的人脸表情识别方法流程图；

图2为本发明实施例的SSD结构图；

图3为本发明实施例的基于稀疏图的人脸表情识别实验流程图；

图4为本发明实施例的实验数据总分布图；

图5为本发明实施例的实验数据各种类分布图；

图6为本发明实施例的奇异值分解示例图；

图7为本发明实施例的奇异值的数值变化图；

图8为本发明实施例的奇异值之和的变化图；

图9为本发明实施例的实验结果统计图；

图10为本发明实施例的VGGNet的准确率和损失图；

图11为本发明实施例的L1-VGGNet的准确率和损失图；

图12为本发明实施例的SL-VGGNet的准确率和损失图；

图13为本发明实施例的SVGGNet的准确率和损失图；

图14为本发明实施例的原图分类结果图；

图15为本发明实施例的SVD_200分类结果图；

图16为本发明实施例的SVD_300分类结果图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，如图1所示，公开了一种基于稀疏图的人脸表情识别方法，包括以下步骤：

S1，获取人脸表情的公开数据集，对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图；

S2，采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果；

S3，将所述人脸识别结果划分成训练集、测试集和验证集，并将所述训练集输入VGG神经网络进行人脸表情分类，得到训练后的VGG神经网络模型，再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证；

S4，将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。

本发明技术方案采用奇异值分解与SSD算法相结合的图像处理方式，将图像稀疏化，去掉部分图像噪声，有效解决了图像训练过程过拟合的问题；随后将稀疏化的图像放到VGG神经网络实现了人脸表情识别的目的，同时解决了图像在深度学习训练的过长的问题，该方法可运用到以后人脸表情识别的训练过程中。

本发明的一个具体实施例，S1中对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图包括：

读取所述人脸表情的公开数据集后从中任取图片，根据图片尺寸大小和图片分别率一一读取所选取的图片的像素点，并逐一将像素点复制得到像素点数据；其中，所述图片尺寸大小包括图片的长和宽；

具体地，复制得到的int矩阵是图像的反转，因此在需先将其翻转到正常角度的int矩阵；

对int矩阵进行奇异值分解得到奇异值int矩阵U和V；

将奇异值int矩阵U和V分别转为array矩阵，以便于进行乘法运算，其转换函数为：

u＝np.array(u),v＝np.array(v)#转为array格式；

利用A＝U∑V^T公式选择前k个奇异值进行图像恢复得到人脸表情稀疏图(k不超过∑矩阵的长度)。

本发明的一个具体实施例，将像素点对应的像素值存储在int矩阵A，并对存储完成后的int矩阵A进行奇异值分解得到奇异值int矩阵U和V，其公式如下：A＝U∑V^T；

具体地，如果矩阵A是m×m(A＝AT)的实对称矩阵，则可将其分解为以下形式：

式中，Q为标准正交矩阵，即QQ^T＝I，∑为对角矩阵，上述矩阵的维数为m×m。λI称为特征值，其为Q的列向量。

奇异值分解SVD的定义如下：

如果A为一个m×n实数矩阵，分解成以下形式：

A＝U∑V^T (2)

U为左奇异值矩阵，V为右奇异值矩阵，∑只有在主对角线上有值，称之为特征值，与奇异值分解求解时得到的奇异值实际相等，其他元素为0。上述矩阵的维数为U∈Rm×n，∑∈R_m×n，V∈R_m×n。

一般来说，∑有以下几种形式：

奇异值分解的求解时，U、V、∑可由以下性质求解：

AA^T＝U∑V^TV∑^TU^T＝U∑∑^TU^T (4)

AA^T＝V∑U^TU∑^TV^T＝V∑∑^TV^T (5)

需要指出的是，∑∑^T和∑^T∑在矩阵上是不相等的，因为它们的维数不同(∑∑^T∈R_m×m，∑^T∑∈R_n×n)，但它们在主对角线上的奇异值是相等的。

可以看出，公式(1)和(4)的形式非常相似。进一步分析表明，AA^T和A^TA也是对称矩阵，可以用公式(1)进行特征值分解。用公式(4)的特征值分解得到奇异矩阵U，用公式(5)的特征值分解得到奇异矩阵V，所有奇异值可由∑^T∑或∑∑^T中特征值的平方根求得。

本发明的一个具体实施例，S2中采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果，具体包括：

根据特征值对所述人脸表情稀疏图抽取出多层特征图，并在每层特征图的每个像素点生成默认边界框；一层特征图对应一层卷积。

具体地，SSD全称Single Shot MultiBox Detector，是基于CNN网络的前向传播，CNN网络生成一系列固定大小的边界框，并且每个框可能包含一个对象实例，即score。然后，执行极大抑制以获得最终预测。

本发明的一个具体实施例，根据特征值对所述人脸表情稀疏图抽取出多层特征图包括：

通过SSD算法将VGG神经网络的最后两个全连接层合并后额外增加四层网络生成卷积层，，所述卷积层根据特征值进行特征图提取，利用每个卷积层不同大小的特征图构建了一个特征值金字塔结构模型；所述人脸表情稀疏图通过所述特征金字塔结构模型后提取出多层特征图。也就是说，SSD模型的构造将最后两个全连接层，额外增加四层网络后，变成6层卷积，6层卷积根据特征值提取出6层特征图。

具体地，SSD模型的第一部分是图像分类的标准体系结构。在基础网络之后，如图2所示，增加了一个附加的辅助网络结构。在基本网络结构之后，增加了额外的卷积层。这些卷积层的大小在逐层减小，可用于多尺度预测。每个添加的要素层(或底层网络结构中的要素层)可以使用一系列易失性过滤器来生成一系列固定大小的预测。

本发明的一个具体实施例，在每层特征图的每个像素点生成默认边界框包括：

在每层特征图中先设置多个像素点对应的多个先验框位置；具体的，如图2所示，SSD默认框从6层卷积层输出的特征图中产生，分别为conv4_3、conv7(FC7)、conv6_2、conv9_2、conv10_2、conv11_2。这6个特征层产生的特征图的大小分别为38*38、19*19、10*10、5*5、3*3、1*1。每个n*n大小的特征图中有n*n个中心点，每个中心点产生k个先验框，六层中每层的每个中心点产生的k分别为4、6、6、6、4、4。因此，6层中的每层取一个特征图共产生38*38*4+19*19*6+10*10*6+5*5*6+3*3*4+1*1*4＝8732个先验框。

具体地，SSD算法的核心：

a、在特征图上应用小卷积滤波器来预测固定默认边界框的类别分数和框偏移量。

b、从不同尺度的特征图中可以快速检测出不同尺度的预测精度，并通过纵横比对预测结果进行清晰区分。

c、即使在低分辨率的输入图像上，这些设计功能也可以实现简单的端到端训练和高精度，从而进一步提高速度和精度之间的权衡。

本发明的一个具体实施例，所述边界框类别的置信度包括7个普通边界框类别的置信度值和1个特殊边界框类别的置信度值；

本发明的一个具体实施例，将所述边界框位置的预测值l和所述先验框位置d转换为边界框的真实位置b，其公式如下：

b^cx＝d^wl^cx+d^cx,b^cy＝d^yl^cy+d^cy；

b^w＝d^w.exp(l^w),b^h＝d^h.exp(l^h)；

其中，b＝(b^cx,b^cy,b^w,b^h)为边界框的真实位置，b^cx,b^cy为边界框的真实位置中心坐标，b^w,b^h为边界框的真实宽和高，d＝(d^cx,d^cy,d^w,d^h)为先验框位置，d^cx,d^cy为先验框位置的中心坐标，d^w,d^h为先验框的宽和高，l＝(l^cx,l^cy,l^w,l^h)为边界框位置的预测值，l^cx,l^cy为边界框位置的预测中心坐标，l^w,l^h为边界框的预测宽和高，(cx,cy,w,h)表示边界框位置的变量，cx,cy分别表示边界框的中心x、y坐标，w,h分别表示边界框的宽和高。

本发明的一个具体实施例，将所述人脸识别结果划分成训练集、测试集和验证集的拆分比例为8:1:1；其中，所述验证集为可选集，用于判断训练后的VGG神经网络模型是否过拟合；

本发明的一个具体实施例，所述获取人脸表情的公开数据集取自fer2013面部表情数据库，该数据库包括7种表情：愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性，分别标记为0-6个数字；采用SSD算法进行识别预测时，所述7个边界框类别对应所述7种表情。

具体地，实验流程图如图3所示，实验数据先用奇异值算法进行稀疏处理，然后用SSD进行人脸识别，再用VGGNet进行表情分类。

使用公共数据集可以节省建立数据库的时间，并且可以更权威地评估模型，因此使用了fer2013面部表情数据库。数据库中有七种表情，愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性，被标记为0-6个数字，并分为训练集、测试集和验证集。训练集、测试集和验证集的比例为8:1:1，如图4、图5所示。

通过SVD数据处理，用更小的数据集来表示原始数据集，实际上就是去除噪声和冗余信息，从而优化数据，提高结果。图像的示例如图6所示。图中使用svd_K(n KB)，K表示奇异值的个数，n表示svd后图像的大小。与原始图像相比，奇异值分解后的图像尺寸变小。可以看出，当取前50个奇异值来重建图像时，图像基本上可以包含所有的特征；当取前150个奇异值重建图像时，原始图像与重建图像基本上没有区别。

从图7可以看出，奇异值可以作为矩阵的代表值，也可以用奇异值表示矩阵的信息。单数值越大，所代表的信息就越多。因此，基本上可以通过取最大的奇异值来恢复数据本身。从图8可以看出，奇异值下降很快，所以只取前几个奇异值，基本上可以表达原始矩阵的信息。从图7可以看出，当取前200个奇异值时，这200个奇异值之和已经占总数的95％左右。除取前300个奇异值外，还可以获得100％的图像信息

经过数据处理后，先建立VGGNet模型，模型中融入SDG算法和NIN算法，然后将训练数据集放入模型中进行训练。然后使用先前训练过的模型来预测情绪。将L1范数和奇异值分解引入VGGNet模型，实验结果如下表I：

表I：实验结果

从上表中可以看出，通过对所有模型的比较，表明SVD可以缩短VGGNet的训练时间。如图9所示实验结果统计图，可以看出，SVGGNet训练时间最短，模型精度最高，可达65.29％。但是L1 VGGNet训练时间最长。将VGGNet和SVGGNet相比，实验时间缩短了3300(GPU)，SVGGNet的时间下降到VGGNet的91％。SVGGNet的计算时间比SL-VGGNet短83.8s(GPU)，下降到97％，精度仅降低0.28％。如果将数据集转换为HD，可以大大减少时间开销。

为了更好地观察训练集和测试集的精度是如何随着迭代次数的增加而提高的，使用这四个模型绘制了模型精度图和模型损失图，如图10、11、12和13所示。

与图10和图11相比，L1 VGGNet验证损失和验证精度曲线比VGGNet平滑。从图12和图13可以看出，拟合精度和损失程度都比较高，可以减少过拟合现象。结果表明，奇异值分解可以使图像稀疏化，缩短训练时间。另外，奇异值分解可以降低图像的噪声，因此将奇异值分解与VGGNet相结合可以缩短时间，减少过拟合的可能性。

通过对上述四种模型的比较，神经网络与SVGGNet相结合可以缩短训练时间，且精度变化较小。从训练过程来看，奇异值分解可以减少过度拟合的可能性。L1范数对实验的影响较小。可能有两个原因：一是数据集不完整，有些数据相对较少，有些标签可能有误。其次，L1范数的加入使得训练过程中增加了一部分稀疏运算时间，导致了时间成本的增加。总之，网络的稀疏性可以缩短时间，提高效率。显然，与VGGNet和SVGGNet相比，实验时间缩短了3300(GPU)。SVGGNet的时间比SL VGGNet短83.8s(GPU)，准确率仅降低0.28％。如果使用高清数据集，时间成本的实验结果将更加显著。

为了验证SLVGGNet模型的有效性，本发明使用预训练模型输入情绪图片，并对情绪进行预测。举例来说，分别如图14，15，16中的前200个奇异值和前300个奇异值。与原版相比，SVD_200有四个不同之处，而SVD_300只有一个不同。可以看出，前300个奇异值基本上可以表达原始图像的特征，而经过奇异值分解后的图像能够有效地表达图像的情感。

综上所述，本发明公开了一种基于稀疏图的人脸表情识别方法，包括以下步骤：获取人脸表情的公开数据集，对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图；采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果；将所述人脸识别结果划分成训练集、测试集和验证集，并将所述训练集输入VGG神经网络进行人脸表情分类，得到训练后的VGG神经网络模型，再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证；将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。本发明技术方案利用奇异值分解与VGG神经网络相结合的人脸表情识别方法，通过奇异值分解生成图像特征值后得到稀疏图，采用SSD算法对稀疏图进行人脸识别，将识别过后的人脸放入到VGG神经网络中进行人脸表情分类，从而解决了目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。

本领域技术人员可以理解，实现上述实施例中方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于稀疏图的人脸表情识别方法，其特征在于，包括以下步骤：

将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别；

对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图包括：

将所述奇异值int矩阵翻转为奇异值array矩阵，并根据从所述奇异值array矩阵中选择的前k个奇异值得到人脸表情稀疏图；

采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果，具体包括：

2.根据权利要求1所述的方法，其特征在于，将像素点对应的像素值存储在int矩阵A，并对存储完成后的int矩阵A进行奇异值分解得到奇异值int矩阵U和V，其公式如下：A＝U∑V^T；

3.根据权利要求1所述的方法，其特征在于，根据特征值对所述人脸表情稀疏图抽取出多层特征图包括：

通过SSD算法将VGG神经网络的最后两个全连接层合并后额外增加四层网络生成卷积层，所述卷积层根据特征值进行特征图提取，利用每个卷积层不同大小的特征图构建了一个特征金字塔结构模型；所述人脸表情稀疏图通过所述特征金字塔结构模型后提取出多层特征图。

4.根据权利要求1所述的方法，其特征在于，在每层特征图的每个像素点生成默认边界框包括：

在每层特征图中先设置多个像素点对应的多个先验框位置；

5.根据权利要求4所述的方法，其特征在于，所述边界框类别的置信度包括7个普通边界框类别的置信度值和1个特殊边界框类别的置信度值；

6.根据权利要求4所述的方法，其特征在于，将所述边界框位置的预测值l和所述先验框位置d转换为边界框的真实位置b，其公式如下：

b^cx＝d^wl^cx+d^cx,b^cy＝d^yl^cy+d^cy；

b^w＝d^w.exp(l^w),b^h＝d^h.exp(l^h)；

7.根据权利要求1所述的方法，其特征在于，将所述人脸识别结果划分成训练集、测试集和验证集的拆分比例为8:1:1；其中，所述验证集为可选集，用于判断训练后的VGG神经网络模型是否过拟合；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取人脸表情的公开数据集取自fer2013面部表情数据库，该数据库包括7种表情：愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性，分别标记为0-6个数字；采用SSD算法进行识别预测时，7个普通边界框类别对应所述7种表情。