CN112084960B - 一种基于稀疏图的人脸表情识别方法 - Google Patents
一种基于稀疏图的人脸表情识别方法 Download PDFInfo
- Publication number
- CN112084960B CN112084960B CN202010954012.3A CN202010954012A CN112084960B CN 112084960 B CN112084960 B CN 112084960B CN 202010954012 A CN202010954012 A CN 202010954012A CN 112084960 B CN112084960 B CN 112084960B
- Authority
- CN
- China
- Prior art keywords
- facial expression
- neural network
- singular value
- box
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 33
- 238000012795 verification Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 49
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 206010063659 Aversion Diseases 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000008451 emotion Effects 0.000 abstract description 14
- 238000011160 research Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于稀疏图的人脸表情识别方法,属于图像识别技术领域。该方法包括以下步骤:获取人脸表情的公开数据集,对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图;采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果;将所述人脸识别结果划分成训练集、测试集和验证集,并将所述训练集输入VGG神经网络进行人脸表情分类,得到训练后的VGG神经网络模型,再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证;将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。本发明解决了目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于稀疏图的人脸表情识别方法。
背景技术
计算机对人类情绪与情感的识别研究已经成为了一个研究的热点。基于图像情感分析的深度学习模型算法变得越来越重要。然而,随着对深度学习模型的深入研究,发现其结构和算法的发展很大程度上受限于GPU的有效性,主要原因是缺乏稀疏操作。稀疏运算可以减少计算量,并且使用较少的GPU来运行神经网络。稀疏性使得训练大型神经网络成为可能。在相同的参数和计算量的前提下,利用稀疏性可以训练出比其它神经网络更广、更深的神经网络。因此,稀疏表示在深度学习中的应用是非常重要的。目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。
发明内容
鉴于上述的分析,本发明旨在提供一种基于稀疏图的人脸表情识别方法,以解决目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种基于稀疏图的人脸表情识别方法,包括以下步骤:
获取人脸表情的公开数据集,对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图;
采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果;
将所述人脸识别结果划分成训练集、测试集和验证集,并将所述训练集输入VGG神经网络进行人脸表情分类,得到训练后的VGG神经网络模型,再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证;
将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。
进一步地,对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图包括:
读取所述人脸表情的公开数据集后从中选取图片,根据图片尺寸大小和图片分别率一一读取图片的像素点,并逐一将像素点复制得到像素点数据;其中,所述图片尺寸大小包括图片的长和宽;
根据所述图片的长和宽建立int矩阵,并逐一将像素点对应的像素值存储在int矩阵,并对存储完成后的int矩阵进行奇异值分解得到奇异值int矩阵;
将所述奇异值int矩阵翻转为奇异值array矩阵,并根据从所述奇异值array矩阵中选择的前k个奇异值得到人脸表情稀疏图。
进一步地,将像素点对应的像素值存储在int矩阵A,并对存储完成后的int矩阵A进行奇异值分解得到奇异值int矩阵U和V,其公式如下:AU∑VT;
其中,∑只在主对角线上有特征值,U和V为单位正交的奇异值矩阵,UUT=I和VVT=I。
进一步地,采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果,具体包括:
根据特征值对所述人脸表情稀疏图抽取出多层特征图,并在每层特征图的每个像素点生成默认边界框;
将每层特征图对应生成的所有默认边界框集合后进行非极大值抑制,并消除包括交叉重复在内的冗余边界框后,找到人脸识别预测到的最佳位置,得到人脸识别结果。
进一步地,根据特征值对所述人脸表情稀疏图抽取出多层特征图包括:通过SSD算法将VGG神经网络的最后两个全连接层合并后额外增加四层网络生成卷积层,所述卷积层根据特征值进行特征图提取,利用每个卷积层不同大小的特征图构建了一个特征金字塔结构模型;所述人脸表情稀疏图通过所述特征金字塔结构模型后提取出多层特征图。
进一步地,在每层特征图的每个像素点生成默认边界框包括:
在每层特征图中先设置多个像素点对应的多个先验框位置;
对所述多个先验框位置进行逐一检测得到一组检测值,所述检测值包括边界框类别的置信度和边界框位置的预测值;
将所述边界框位置的预测值和所述先验框位置转换为边界框的真实位置,生成默认边界框。
进一步地,所述边界框类别的置信度包括7个普通边界框类别的置信度值和1个特殊边界框类别的置信度值;
所述边界框类别置信度表示边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏;
所述普通边界框类别的置信度值表示该边界框中的目标属于7分类中某一类的可能性大小以及边界框匹配目标的好坏;
所述特殊边界框类别的置信度值表示该边界框中的目标属于背景的可能性大小以及边界框匹配目标的好坏。
进一步地,将所述边界框位置的预测值l和所述先验框位置d转换为边界框的真实位置b,其公式如下:
bcx=dwlcx+dcx,bcy=dylcy+dcy;
bw=dw.exp(lw),bh=dh.exp(lh);
其中,b=(bcx,bcy,bw,bh)为边界框的真实位置,d=(dcx,dcy,dw,dh)为先验框位置,l=(lcx,lcy,lw,lh)为边界框位置的预测值,(cx,cy,w,h)表示边界框位置的变量,分别表示边界框的中心坐标以及宽和高。
进一步地,将所述人脸识别结果划分成训练集、测试集和验证集的拆分比例为8:1:1;其中,所述验证集为可选集,用于判断训练后的VGG神经网络模型是否过拟合;
当验证集输入到训练后的所述VGG神经网络模型得到的验证集的准确率和损失,与训练集的准确率和损失一致性超出预期,则判为过拟合。
进一步地,所述获取人脸表情的公开数据集取自fer2013面部表情数据库,该数据库包括7种表情:愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别标记为0-6个数字;采用SSD算法进行识别预测时,所述7个边界框类别对应所述7种表情。
本技术方案有益效果如下:本发明公开了一种基于稀疏图的人脸表情识别方法,采用奇异值分解与SSD算法相结合的图像处理方式,将图像稀疏化,去掉部分图像噪声,有效解决了图像训练过程过拟合的问题;随后将稀疏化的图像放到VGG神经网络实现了人脸表情识别的目的,同时解决了图像在深度学习训练的时间过长的问题,该方法可运用到以后人脸表情识别的训练过程中。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的一种基于稀疏图的人脸表情识别方法流程图;
图2为本发明实施例的SSD结构图;
图3为本发明实施例的基于稀疏图的人脸表情识别实验流程图;
图4为本发明实施例的实验数据总分布图;
图5为本发明实施例的实验数据各种类分布图;
图6为本发明实施例的奇异值分解示例图;
图7为本发明实施例的奇异值的数值变化图;
图8为本发明实施例的奇异值之和的变化图;
图9为本发明实施例的实验结果统计图;
图10为本发明实施例的VGGNet的准确率和损失图;
图11为本发明实施例的L1-VGGNet的准确率和损失图;
图12为本发明实施例的SL-VGGNet的准确率和损失图;
图13为本发明实施例的SVGGNet的准确率和损失图;
图14为本发明实施例的原图分类结果图;
图15为本发明实施例的SVD_200分类结果图;
图16为本发明实施例的SVD_300分类结果图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,如图1所示,公开了一种基于稀疏图的人脸表情识别方法,包括以下步骤:
S1,获取人脸表情的公开数据集,对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图;
S2,采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果;
S3,将所述人脸识别结果划分成训练集、测试集和验证集,并将所述训练集输入VGG神经网络进行人脸表情分类,得到训练后的VGG神经网络模型,再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证;
S4,将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。
本发明技术方案采用奇异值分解与SSD算法相结合的图像处理方式,将图像稀疏化,去掉部分图像噪声,有效解决了图像训练过程过拟合的问题;随后将稀疏化的图像放到VGG神经网络实现了人脸表情识别的目的,同时解决了图像在深度学习训练的过长的问题,该方法可运用到以后人脸表情识别的训练过程中。
本发明的一个具体实施例,S1中对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图包括:
读取所述人脸表情的公开数据集后从中任取图片,根据图片尺寸大小和图片分别率一一读取所选取的图片的像素点,并逐一将像素点复制得到像素点数据;其中,所述图片尺寸大小包括图片的长和宽;
根据所述图片的长和宽建立int矩阵,并逐一将像素点对应的像素值存储在int矩阵,并对存储完成后的int矩阵进行奇异值分解得到奇异值int矩阵;
将所述奇异值int矩阵翻转为奇异值array矩阵,并根据从所述奇异值array矩阵中选择的前k个奇异值得到人脸表情稀疏图。
具体地,复制得到的int矩阵是图像的反转,因此在需先将其翻转到正常角度的int矩阵;
对int矩阵进行奇异值分解得到奇异值int矩阵U和V;
将奇异值int矩阵U和V分别转为array矩阵,以便于进行乘法运算,其转换函数为:
u=np.array(u),v=np.array(v)#转为array格式;
利用A=U∑VT公式选择前k个奇异值进行图像恢复得到人脸表情稀疏图(k不超过∑矩阵的长度)。
本发明的一个具体实施例,将像素点对应的像素值存储在int矩阵A,并对存储完成后的int矩阵A进行奇异值分解得到奇异值int矩阵U和V,其公式如下:A=U∑VT;
其中,∑只在主对角线上有特征值,U和V为单位正交的奇异值矩阵,UUT=I和VVT=I。
具体地,如果矩阵A是m×m(A=AT)的实对称矩阵,则可将其分解为以下形式:
式中,Q为标准正交矩阵,即QQT=I,∑为对角矩阵,上述矩阵的维数为m×m。λI称为特征值,其为Q的列向量。
奇异值分解SVD的定义如下:
如果A为一个m×n实数矩阵,分解成以下形式:
A=U∑VT (2)
U为左奇异值矩阵,V为右奇异值矩阵,∑只有在主对角线上有值,称之为特征值,与奇异值分解求解时得到的奇异值实际相等,其他元素为0。上述矩阵的维数为U∈Rm×n,∑∈Rm×n,V∈Rm×n。
一般来说,∑有以下几种形式:
奇异值分解的求解时,U、V、∑可由以下性质求解:
AAT=U∑VTV∑TUT=U∑∑TUT (4)
AAT=V∑UTU∑TVT=V∑∑TVT (5)
需要指出的是,∑∑T和∑T∑在矩阵上是不相等的,因为它们的维数不同(∑∑T∈Rm×m,∑T∑∈Rn×n),但它们在主对角线上的奇异值是相等的。
可以看出,公式(1)和(4)的形式非常相似。进一步分析表明,AAT和ATA也是对称矩阵,可以用公式(1)进行特征值分解。用公式(4)的特征值分解得到奇异矩阵U,用公式(5)的特征值分解得到奇异矩阵V,所有奇异值可由∑T∑或∑∑T中特征值的平方根求得。
本发明的一个具体实施例,S2中采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果,具体包括:
根据特征值对所述人脸表情稀疏图抽取出多层特征图,并在每层特征图的每个像素点生成默认边界框;一层特征图对应一层卷积。
将每层特征图对应生成的所有默认边界框集合后进行非极大值抑制,并消除包括交叉重复在内的冗余边界框后,找到人脸识别预测到的最佳位置,得到人脸识别结果。
具体地,SSD全称Single Shot MultiBox Detector,是基于CNN网络的前向传播,CNN网络生成一系列固定大小的边界框,并且每个框可能包含一个对象实例,即score。然后,执行极大抑制以获得最终预测。
本发明的一个具体实施例,根据特征值对所述人脸表情稀疏图抽取出多层特征图包括:
通过SSD算法将VGG神经网络的最后两个全连接层合并后额外增加四层网络生成卷积层,,所述卷积层根据特征值进行特征图提取,利用每个卷积层不同大小的特征图构建了一个特征值金字塔结构模型;所述人脸表情稀疏图通过所述特征金字塔结构模型后提取出多层特征图。也就是说,SSD模型的构造将最后两个全连接层,额外增加四层网络后,变成6层卷积,6层卷积根据特征值提取出6层特征图。
具体地,SSD模型的第一部分是图像分类的标准体系结构。在基础网络之后,如图2所示,增加了一个附加的辅助网络结构。在基本网络结构之后,增加了额外的卷积层。这些卷积层的大小在逐层减小,可用于多尺度预测。每个添加的要素层(或底层网络结构中的要素层)可以使用一系列易失性过滤器来生成一系列固定大小的预测。
本发明的一个具体实施例,在每层特征图的每个像素点生成默认边界框包括:
在每层特征图中先设置多个像素点对应的多个先验框位置;具体的,如图2所示,SSD默认框从6层卷积层输出的特征图中产生,分别为conv4_3、conv7(FC7)、conv6_2、conv9_2、conv10_2、conv11_2。这6个特征层产生的特征图的大小分别为38*38、19*19、10*10、5*5、3*3、1*1。每个n*n大小的特征图中有n*n个中心点,每个中心点产生k个先验框,六层中每层的每个中心点产生的k分别为4、6、6、6、4、4。因此,6层中的每层取一个特征图共产生38*38*4+19*19*6+10*10*6+5*5*6+3*3*4+1*1*4=8732个先验框。
对所述多个先验框位置进行逐一检测得到一组检测值,所述检测值包括边界框类别的置信度和边界框位置的预测值;
将所述边界框位置的预测值和所述先验框位置转换为边界框的真实位置,生成默认边界框。
具体地,SSD算法的核心:
a、在特征图上应用小卷积滤波器来预测固定默认边界框的类别分数和框偏移量。
b、从不同尺度的特征图中可以快速检测出不同尺度的预测精度,并通过纵横比对预测结果进行清晰区分。
c、即使在低分辨率的输入图像上,这些设计功能也可以实现简单的端到端训练和高精度,从而进一步提高速度和精度之间的权衡。
本发明的一个具体实施例,所述边界框类别的置信度包括7个普通边界框类别的置信度值和1个特殊边界框类别的置信度值;
所述边界框类别置信度表示边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏;
所述普通边界框类别的置信度值表示该边界框中的目标属于7分类中某一类的可能性大小以及边界框匹配目标的好坏;
所述特殊边界框类别的置信度值表示该边界框中的目标属于背景的可能性大小以及边界框匹配目标的好坏。
本发明的一个具体实施例,将所述边界框位置的预测值l和所述先验框位置d转换为边界框的真实位置b,其公式如下:
bcx=dwlcx+dcx,bcy=dylcy+dcy;
bw=dw.exp(lw),bh=dh.exp(lh);
其中,b=(bcx,bcy,bw,bh)为边界框的真实位置,bcx,bcy为边界框的真实位置中心坐标,bw,bh为边界框的真实宽和高,d=(dcx,dcy,dw,dh)为先验框位置,dcx,dcy为先验框位置的中心坐标,dw,dh为先验框的宽和高,l=(lcx,lcy,lw,lh)为边界框位置的预测值,lcx,lcy为边界框位置的预测中心坐标,lw,lh为边界框的预测宽和高,(cx,cy,w,h)表示边界框位置的变量,cx,cy分别表示边界框的中心x、y坐标,w,h分别表示边界框的宽和高。
本发明的一个具体实施例,将所述人脸识别结果划分成训练集、测试集和验证集的拆分比例为8:1:1;其中,所述验证集为可选集,用于判断训练后的VGG神经网络模型是否过拟合;
当验证集输入到训练后的所述VGG神经网络模型得到的验证集的准确率和损失,与训练集的准确率和损失一致性超出预期,则判为过拟合。
本发明的一个具体实施例,所述获取人脸表情的公开数据集取自fer2013面部表情数据库,该数据库包括7种表情:愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别标记为0-6个数字;采用SSD算法进行识别预测时,所述7个边界框类别对应所述7种表情。
具体地,实验流程图如图3所示,实验数据先用奇异值算法进行稀疏处理,然后用SSD进行人脸识别,再用VGGNet进行表情分类。
使用公共数据集可以节省建立数据库的时间,并且可以更权威地评估模型,因此使用了fer2013面部表情数据库。数据库中有七种表情,愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性,被标记为0-6个数字,并分为训练集、测试集和验证集。训练集、测试集和验证集的比例为8:1:1,如图4、图5所示。
通过SVD数据处理,用更小的数据集来表示原始数据集,实际上就是去除噪声和冗余信息,从而优化数据,提高结果。图像的示例如图6所示。图中使用svd_K(n KB),K表示奇异值的个数,n表示svd后图像的大小。与原始图像相比,奇异值分解后的图像尺寸变小。可以看出,当取前50个奇异值来重建图像时,图像基本上可以包含所有的特征;当取前150个奇异值重建图像时,原始图像与重建图像基本上没有区别。
从图7可以看出,奇异值可以作为矩阵的代表值,也可以用奇异值表示矩阵的信息。单数值越大,所代表的信息就越多。因此,基本上可以通过取最大的奇异值来恢复数据本身。从图8可以看出,奇异值下降很快,所以只取前几个奇异值,基本上可以表达原始矩阵的信息。从图7可以看出,当取前200个奇异值时,这200个奇异值之和已经占总数的95%左右。除取前300个奇异值外,还可以获得100%的图像信息
经过数据处理后,先建立VGGNet模型,模型中融入SDG算法和NIN算法,然后将训练数据集放入模型中进行训练。然后使用先前训练过的模型来预测情绪。将L1范数和奇异值分解引入VGGNet模型,实验结果如下表I:
表I:实验结果
从上表中可以看出,通过对所有模型的比较,表明SVD可以缩短VGGNet的训练时间。如图9所示实验结果统计图,可以看出,SVGGNet训练时间最短,模型精度最高,可达65.29%。但是L1 VGGNet训练时间最长。将VGGNet和SVGGNet相比,实验时间缩短了3300(GPU),SVGGNet的时间下降到VGGNet的91%。SVGGNet的计算时间比SL-VGGNet短83.8s(GPU),下降到97%,精度仅降低0.28%。如果将数据集转换为HD,可以大大减少时间开销。
为了更好地观察训练集和测试集的精度是如何随着迭代次数的增加而提高的,使用这四个模型绘制了模型精度图和模型损失图,如图10、11、12和13所示。
与图10和图11相比,L1 VGGNet验证损失和验证精度曲线比VGGNet平滑。从图12和图13可以看出,拟合精度和损失程度都比较高,可以减少过拟合现象。结果表明,奇异值分解可以使图像稀疏化,缩短训练时间。另外,奇异值分解可以降低图像的噪声,因此将奇异值分解与VGGNet相结合可以缩短时间,减少过拟合的可能性。
通过对上述四种模型的比较,神经网络与SVGGNet相结合可以缩短训练时间,且精度变化较小。从训练过程来看,奇异值分解可以减少过度拟合的可能性。L1范数对实验的影响较小。可能有两个原因:一是数据集不完整,有些数据相对较少,有些标签可能有误。其次,L1范数的加入使得训练过程中增加了一部分稀疏运算时间,导致了时间成本的增加。总之,网络的稀疏性可以缩短时间,提高效率。显然,与VGGNet和SVGGNet相比,实验时间缩短了3300(GPU)。SVGGNet的时间比SL VGGNet短83.8s(GPU),准确率仅降低0.28%。如果使用高清数据集,时间成本的实验结果将更加显著。
为了验证SLVGGNet模型的有效性,本发明使用预训练模型输入情绪图片,并对情绪进行预测。举例来说,分别如图14,15,16中的前200个奇异值和前300个奇异值。与原版相比,SVD_200有四个不同之处,而SVD_300只有一个不同。可以看出,前300个奇异值基本上可以表达原始图像的特征,而经过奇异值分解后的图像能够有效地表达图像的情感。
综上所述,本发明公开了一种基于稀疏图的人脸表情识别方法,包括以下步骤:获取人脸表情的公开数据集,对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图;采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果;将所述人脸识别结果划分成训练集、测试集和验证集,并将所述训练集输入VGG神经网络进行人脸表情分类,得到训练后的VGG神经网络模型,再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证;将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别。本发明技术方案利用奇异值分解与VGG神经网络相结合的人脸表情识别方法,通过奇异值分解生成图像特征值后得到稀疏图,采用SSD算法对稀疏图进行人脸识别,将识别过后的人脸放入到VGG神经网络中进行人脸表情分类,从而解决了目前对人类情绪与情感的识别研究中存在实验效率低及时间成本高的问题。
本领域技术人员可以理解,实现上述实施例中方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于稀疏图的人脸表情识别方法,其特征在于,包括以下步骤:
获取人脸表情的公开数据集,对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图;
采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果;
将所述人脸识别结果划分成训练集、测试集和验证集,并将所述训练集输入VGG神经网络进行人脸表情分类,得到训练后的VGG神经网络模型,再将所述测试集输入训练后的所述VGG神经网络模型进行准确率验证;
将待识别人脸照片输入通过准确率验证的VGG神经网络模型进行在线人脸表情分类识别;
对所述人脸表情的公开数据集进行奇异值分解后得到人脸表情稀疏图包括:
读取所述人脸表情的公开数据集后从中选取图片,根据图片尺寸大小和图片分别率一一读取图片的像素点,并逐一将像素点复制得到像素点数据;其中,所述图片尺寸大小包括图片的长和宽;
根据所述图片的长和宽建立int矩阵,并逐一将像素点对应的像素值存储在int矩阵,并对存储完成后的int矩阵进行奇异值分解得到奇异值int矩阵;
将所述奇异值int矩阵翻转为奇异值array矩阵,并根据从所述奇异值array矩阵中选择的前k个奇异值得到人脸表情稀疏图;
采用SSD算法对所述人脸表情稀疏图进行识别得到人脸识别结果,具体包括:
根据特征值对所述人脸表情稀疏图抽取出多层特征图,并在每层特征图的每个像素点生成默认边界框;
将每层特征图对应生成的所有默认边界框集合后进行非极大值抑制,并消除包括交叉重复在内的冗余边界框后,找到人脸识别预测到的最佳位置,得到人脸识别结果。
2.根据权利要求1所述的方法,其特征在于,将像素点对应的像素值存储在int矩阵A,并对存储完成后的int矩阵A进行奇异值分解得到奇异值int矩阵U和V,其公式如下:A=U∑VT;
其中,∑只在主对角线上有特征值,U和V为单位正交的奇异值矩阵,UUT=I和VVT=I。
3.根据权利要求1所述的方法,其特征在于,根据特征值对所述人脸表情稀疏图抽取出多层特征图包括:
通过SSD算法将VGG神经网络的最后两个全连接层合并后额外增加四层网络生成卷积层,所述卷积层根据特征值进行特征图提取,利用每个卷积层不同大小的特征图构建了一个特征金字塔结构模型;所述人脸表情稀疏图通过所述特征金字塔结构模型后提取出多层特征图。
4.根据权利要求1所述的方法,其特征在于,在每层特征图的每个像素点生成默认边界框包括:
在每层特征图中先设置多个像素点对应的多个先验框位置;
对所述多个先验框位置进行逐一检测得到一组检测值,所述检测值包括边界框类别的置信度和边界框位置的预测值;
将所述边界框位置的预测值和所述先验框位置转换为边界框的真实位置,生成默认边界框。
5.根据权利要求4所述的方法,其特征在于,所述边界框类别的置信度包括7个普通边界框类别的置信度值和1个特殊边界框类别的置信度值;
所述边界框类别置信度表示边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏;
所述普通边界框类别的置信度值表示该边界框中的目标属于7分类中某一类的可能性大小以及边界框匹配目标的好坏;
所述特殊边界框类别的置信度值表示该边界框中的目标属于背景的可能性大小以及边界框匹配目标的好坏。
6.根据权利要求4所述的方法,其特征在于,将所述边界框位置的预测值l和所述先验框位置d转换为边界框的真实位置b,其公式如下:
bcx=dwlcx+dcx,bcy=dylcy+dcy;
bw=dw.exp(lw),bh=dh.exp(lh);
其中,b=(bcx,bcy,bw,bh)为边界框的真实位置,d=(dcx,dcy,dw,dh)为先验框位置,l=(lcx,lcy,lw,lh)为边界框位置的预测值,(cx,cy,w,h)表示边界框位置的变量,分别表示边界框的中心坐标以及宽和高。
7.根据权利要求1所述的方法,其特征在于,将所述人脸识别结果划分成训练集、测试集和验证集的拆分比例为8:1:1;其中,所述验证集为可选集,用于判断训练后的VGG神经网络模型是否过拟合;
当验证集输入到训练后的所述VGG神经网络模型得到的验证集的准确率和损失,与训练集的准确率和损失一致性超出预期,则判为过拟合。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述获取人脸表情的公开数据集取自fer2013面部表情数据库,该数据库包括7种表情:愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别标记为0-6个数字;采用SSD算法进行识别预测时,7个普通边界框类别对应所述7种表情。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010954012.3A CN112084960B (zh) | 2020-09-11 | 2020-09-11 | 一种基于稀疏图的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010954012.3A CN112084960B (zh) | 2020-09-11 | 2020-09-11 | 一种基于稀疏图的人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084960A CN112084960A (zh) | 2020-12-15 |
CN112084960B true CN112084960B (zh) | 2024-05-14 |
Family
ID=73738085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010954012.3A Active CN112084960B (zh) | 2020-09-11 | 2020-09-11 | 一种基于稀疏图的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084960B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718906A (zh) * | 2016-01-25 | 2016-06-29 | 宁波大学 | 基于svd-hmm活体人脸检测方法 |
WO2020015470A1 (zh) * | 2018-07-16 | 2020-01-23 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
CN111582059A (zh) * | 2020-04-20 | 2020-08-25 | 哈尔滨工程大学 | 一种基于变分自编码器的人脸表情识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
-
2020
- 2020-09-11 CN CN202010954012.3A patent/CN112084960B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718906A (zh) * | 2016-01-25 | 2016-06-29 | 宁波大学 | 基于svd-hmm活体人脸检测方法 |
WO2020015470A1 (zh) * | 2018-07-16 | 2020-01-23 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
CN111582059A (zh) * | 2020-04-20 | 2020-08-25 | 哈尔滨工程大学 | 一种基于变分自编码器的人脸表情识别方法 |
Non-Patent Citations (3)
Title |
---|
SSD神经网络的人脸检测方法;赵艳芹, 陈真朋;《黑龙江科技大学学报》;20200731;第30卷(第4期);第448-454页 * |
人脸识别技术的研究;刘向东, 陈兆乾;计算机研究与发展;20040716(07);全文 * |
基于SSD算法的人脸目标检测的研究;杨 璐, 吴 陈;《计算机技术与发展》;20191031;第29卷(第10期);第181-185页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084960A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
Cui et al. | Identifying materials of photographic images and photorealistic computer generated graphics based on deep CNNs. | |
Thai et al. | Image classification using support vector machine and artificial neural network | |
EP3399460B1 (en) | Captioning a region of an image | |
CN110837846B (zh) | 一种图像识别模型的构建方法、图像识别方法及装置 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN104517274B (zh) | 基于贪婪搜索的人脸画像合成方法 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN110807420A (zh) | 一种融合特征提取和深度学习的人脸表情识别方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
Tereikovskyi et al. | The method of semantic image segmentation using neural networks | |
Zhu et al. | A-pixelhop: A green, robust and explainable fake-image detector | |
CN111371611B (zh) | 一种基于深度学习的加权网络社区发现方法及装置 | |
Young et al. | Feature-align network with knowledge distillation for efficient denoising | |
Zhou | Video expression recognition method based on spatiotemporal recurrent neural network and feature fusion | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN110210562B (zh) | 基于深度网络和稀疏Fisher矢量的图像分类方法 | |
KR102178238B1 (ko) | 회전 커널을 이용한 머신러닝 기반 결함 분류 장치 및 방법 | |
CN112084960B (zh) | 一种基于稀疏图的人脸表情识别方法 | |
CN116884072A (zh) | 一种基于多层级和多尺度注意机制的面部表情识别方法 | |
CN114863132A (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
Ali et al. | A deep convolutional neural wavelet network for classification of medical images | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |