CN116386102A - 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 - Google Patents
一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 Download PDFInfo
- Publication number
- CN116386102A CN116386102A CN202310149159.9A CN202310149159A CN116386102A CN 116386102 A CN116386102 A CN 116386102A CN 202310149159 A CN202310149159 A CN 202310149159A CN 116386102 A CN116386102 A CN 116386102A
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- network
- block structure
- fer2013
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims description 31
- 230000008451 emotion Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 210000001747 pupil Anatomy 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 206010063659 Aversion Diseases 0.000 claims description 3
- 208000013875 Heart injury Diseases 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 abstract description 10
- 238000006731 degradation reaction Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,包括步骤:收集FER2013数据集并对FER2013数据集进行数据预处理,划分为80%训练集和20%测试集,得到用于模型训练与测试的图像集:搭建改进inception块结构的轻量级残差卷积网络,使用预处理后的训练集进行训练,使用恒等映射增强网络训练效果,拓展网络宽度与卷积深度;选取Softmax特征分类器作为模型特征分类器;使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别,输出人脸情绪识别结果。本发明可解决网络退化、网络参数量大和网络过拟合等问题,人脸情绪识别精度高。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于改进残差卷积网络inception块结构的人脸情绪识别方法。
背景技术
近年来,深度学习、人工智能、物联网以及大数据的快速发展,导致人机交互在人们的日常生活中扮演越来越重要的角色。对于机器来说,只有机器识别出人的情绪才能以人的思维,对被识别人的不同情绪做出相应的反馈。在人类日常生活中,面部表情是传递信息量高的方式,因此在人机交互中占据着重要地位。因此,人的面部表情相比于动作、语言更能表达情绪信息。研究表示,在人类的日常交流中,与情绪有关的信息中55%的信息来源于面部表情,而通过声音、语言传递的信息分别占信息总量的38%和7%。因此近年来对人脸情绪识别的研究愈发深入。
随着深度学习的不断发展,利用包含卷积神经网络、循环神经网络以及深度置信网络等深度学习技术逐渐被应用在人脸情绪识别方向。在人脸情绪识别方面,基于深度学习的方法极大地减少了对图像的预处理以及特征提取的任务量,并且对于环境变化拥有更好的鲁棒性。但是传统神经网络的网络参数大,网络训练难度大,识别准确率低以及梯度消失与梯度爆炸等问题,是当前人脸情绪识别面临的关键挑战。
基于深度学习的人脸情绪识别的三个主要步骤为:数据预处理、数据深度特征学习与数据深度特征分类。根据人脸情绪识别模型不同类型的输入数据,深度学习的人脸情绪识别网络可以分为识别静态图像的深度神经网络与识别动态图像序列的深度神经网络。
对于传统神经网络基础架构的改进,一些研究提出了添加良好的辅助块或层,来提高网络对于特征学习的相关能力。中国专利申请(CN115512422A)“基于注意力机制的卷积神经网络面部情绪识别方法及系统”采用多个卷积层和池化层从而提高人脸情绪识别准确率,但是由于改进神经网络架构依赖于增加神经元数量或增加层数,增加拓扑的深度和复杂性会导致许多问题,例如训练数据的过度拟合、网络退化以及计算需求的增加。同时仍然存在传统神经网络参数量大、训练成本高、模型落地难、模型梯度消失、梯度爆炸以及识别准确率低等问题。在变化环境的人脸情绪识别,比如野外环境的情绪识别,这些问题更为突出。
发明内容
本发明的目的是提供一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,针对目前改进网络的训练数据的过度拟合、网络退化以及传统神经网络参数量大、训练成本高、落地难、梯度消失、梯度爆炸以及识别准确率低问题做出改进,包括:收集FER2013数据集,进行数据预处理,划分为80%训练集和20%测试集,得到用于模型训练与测试的图像集;搭建改进inception块结构的残差卷积网络,并使用上述完成预处理的训练集进行训练,使用恒等映射增强网络训练效果,拓展网络宽度与卷积深度,缓解网络退化问题,减少网络参数量,提高网络识别准确率;选取合适特征分类器对最终特征进行分类;使用上述完成预处理的测试集进行测试,使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别,输出人脸情绪识别结果。
为解决上述技术问题,本发明采用以下技术方案。
一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,包括以下步骤:
步骤1、收集FER2013数据集并对FER2013数据集进行数据预处理:
步骤2、搭建改进inception块结构的轻量级残差卷积网络;
步骤3、选取Softmax特征分类器作为模型特征分类器;
步骤4、使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别,输出人脸情绪识别结果。
具体地,在步骤1中,所述的收集FER2013数据集并进行数据预处理,包括:
1-1.收集FER2013数据集,并对FER2013数据集中图像进行人脸关键点定位;人脸关键点定位采用人脸68个关键点定位;人脸关键点定位使用Dlib特征点定位模块;
1-2.旋转校正:通过人脸图像两眼倾斜角度对FER2013数据集图像进行旋转校正;获取关键点坐标后,计算眼睛几何中心连线水平夹角;计算公式为公式(1):
其中θ为图像眼睛几何中心连线水平夹角,(x11,y11)…(x16,y16)、(x21,y21)…(x26,y26)为左右眼睛的关键点坐标;θ小于零时将图像逆时针旋转,θ大于零则将图像顺时针旋转;
1-3.FER2013数据集图像尺度归一化:规定人脸双目瞳孔间距为d,双目瞳孔连线中点为坐标原点,以坐标原点为基准左右各裁剪d大小,垂直连线方向向上截取0.8d,向下截取1.8d,裁剪完成后调整图片大小完成图像尺度归一化;
1-4.FER2013数据集图像灰度归一化:使用直方图均值化方法,提高图像对比度,完成图像灰度归一化;
1-5.FER2013数据集划分为训练集和测试集:经步骤1-1至步骤1-4处理后的FER2013数据集按照8:2的比例划分为训练集与测试集,其中80%为训练集,20%为训练集。
具体地,在步骤2中,所述的搭建改进inception块结构的轻量级残差卷积网络,包括:
2-1.搭建模型前处理层,为卷积层、池化层、卷积层结构;其中,卷积层卷积核大小为(3,3),步长为1;池化层卷积核大小为(2,2),步长为2;
2-2.搭建四通道inception网络;通道一包括两个卷积层:第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(3,3),步长为1;通道二包括两个卷积层:第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(5,5),步长为1;通道三为池化层、卷积层结构,池化层卷积核大小为(2,2)步长为2;卷积层卷积核大小为(1,1),步长为1;通道四为一个卷积层和低层恒等映射组成,卷积层卷积核大小为(1,1),步长为1,低层恒等映射学习残差特征,其残差网络公式定义为公式(2):
y=F(x)+x (2)
其中,x为残差块的输入,y为输出,F(x)为要学习的残差映射;
2-3.搭建特征降维层,为特征融合层、池化层结构,其中池化层卷积核大小为(2,2),步长为2;特征融合层对四通道inception网络的输出特征进行特征降维;
2-4.搭建Block块结构并使用恒等映射,对特征降维层的输出特征进行处理;Block块包括组合级联形成的inception 1、特征融合层、inception 2;inception 1和inception 2各有结构相同的四个通道:通道一含两个卷积层,第一个卷积层卷积核大小为(1,1)步长为1,第二个卷积层卷积核大小为(3,3),步长为1;通道二含两个卷积层,第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(5,5),步长为1;通道三为池化层、卷积层结构,池化层卷积核大小为(2,2)步长为2;通道四由一个卷积层和低层恒等映射组成,卷积层卷积核大小为(1,1),步长为1;经过inception 1的四个通道处理后的特征,经过特征融合层进入inception 2的四个通道的第四通道,与inception 2的第四通道处理后的特征进行特征空间相加,获取前层的残差特征,完成恒等映射;
2-5.搭建模型后处理层,为特征融合层、池化层、卷积层结构,其中池化层卷积核大小为(2,2),步长为2;卷积层卷积核大小为(4,4),步长为4;卷积层用来对特征进行特征展平,从而取代全连接层,减少模型参数;
2-6.对后处理层的输出特征使用Dropout方法,避免网络过拟合;
2-7.采用交叉熵损失函数计算损失,损失函数公式为:
2-8.使用由数据预处理后的FER2013数据集划分的训练集对改进inception块结构的轻量级残差卷积网络进行训练,初始化各个参数,学习率设置为0.01,Dropout为0.32,Batch Size为128,训练轮数为200。
具体地,在步骤3中所述的选取Softmax特征分类器作为模型特征分类器,其过程为:
经过Dropout方法处理后的输出特征最后经过Softmax特征分类器分类输出8种情绪的概率值,特征分类器函数形式如公式(4):
所述的8种情绪为生气、厌恶、恐惧、开心、伤心、惊讶、轻蔑和中性;其中,是输出情绪概率,zj为第j个节点的输出值,K为输出节点的个数;Softmax特征分类器函数作用是把一个含任意实数的N维向量/>映射到另一个N维实向量/>中,并且使得向量中的任意元素都在(0,1)区间内,且全部元素的和为1;Softmax特征分类器将原来大于1的输出值映射成为在(0,1)区间内的值;可将/>向量的数值理解为概率,因此,选取概率最大结点作为预测目标,即完成一次分类。
具体地,在步骤4中,所述的使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别并输出人脸情绪识别结果,包括:
4-1.将由数据预处理后的FER2013数据集划分的测试集输入步骤2-8训练完成的网络,即由数据预处理后的FER2013数据集划分的训练集训练完成的改进inception块结构的轻量级残差卷积网络中进行特征处理;
4-2.将步骤4-1特征处理后的输出特征经过Softmax分类器输出8维的情绪概率向量;
4-3.数据集为FER2013数据集,将改进inception块结构的轻量级残差卷积网络的识别准确率与模型参数量与CNN,VGG16模型进行对比,验证改进inception块结构的轻量级残差卷积网络为轻量级网络,且识别准确率较高。
与现有技术相比,本发明具有以下优点和有益效果:
1.本发明通过人脸关键点定位、图像旋转校正、图像尺度归一化以及灰度归一化,更加有效的利用人脸的情绪信息,有效减少了环境因素带来的图像信息损失,增强了图像的细节,使图像层次更为清晰;
2.本发明通过搭建四通道inception网络与Block结构,减少了网络层数,拓宽了网络宽度与卷积深度,利用多尺寸卷积核丰富了网络提取特征;
3.本发明通过使用恒等映射,将低层特征传播到高层,避免了网络退化问题,增强了网络训练效果。
4.本发明通过使用4*4的卷积层替代全连接层,有效减少网络参数,使用Dropout方法避免网络过拟合。
附图说明
图1为本发明的一种实施例的方法流程图。
图2为本发明的一种实施例的人脸关键点标定示意图。
图3为现有技术的残差块结构示意图。
图4为本发明的一种实施例的改进inception块结构的轻量级残差卷积网络结构图。
图5为本发明的一种实施例的Block块结构图。
具体实施方式
本发明的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,包括:收集FER2013数据集,进行数据预处理,划分为80%训练集和20%测试集,得到用于模型训练与测试的图像集;搭建改进inception块结构的残差卷积网络,并使用上述完成预处理的训练集进行训练,使用恒等映射增强网络训练效果,拓展网络宽度与卷积深度,缓解网络退化问题,减少网络参数量,提高网络识别准确率;选取合适特征分类器对最终特征进行分类;使用上述完成预处理的测试集进行测试,使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别,输出人脸情绪识别结果。
下面结合附图对本发明做进一步详细说明。
图1为本发明的一种实施例的方法流程图。如图1所示,本实施例方法包括以下步骤:
步骤1、收集FER2013数据集,并对FER2013数据集进行数据预处理:
1-1.FER2013数据集的收集与图像人脸关键点定位:收集FER2013数据集,并对FER2013数据集中图像进行人脸关键点定位。人脸关键点定位采用人脸68个关键点定位。人脸关键点定位使用Dlib特征点定位模块,效果如图2所示;
1-2.FER2013数据集图像旋转校正:通过人脸图像两眼倾斜角度进行旋转校正。获取关键点坐标后,计算眼睛几何中心连线水平夹角。计算公式如公式(1):
其中θ为图像眼睛几何中心连线水平夹角,(x11,y11)…(x16,y16)、(x21,y21)…(x26,y26)为左右眼睛的关键点坐标。当θ小于零时将图像逆时针旋转,若θ大于零则将图像顺时针旋转;
1-3.FER2013数据集图像尺度归一化:规定人脸双目瞳孔间距为d,双目瞳孔连线中点为坐标原点,以坐标原点为基准左右各裁剪d大小,垂直连线方向向上截取0.8d,向下截取1.8d,裁剪完成后调整图片大小完成图像尺度归一化;
1-4.FER2013数据集图像灰度归一化:使用直方图均值化方法,提高图像对比度,完成图像灰度归一化;
1-5.FER2013数据集划分为训练集和测试集:经步骤1-1至步骤1-4处理后的FER2013数据集按照8:2的比例划分为训练集与测试集,其中80%为训练集,20%为训练集。
步骤2、搭建改进inception块结构的轻量级残差卷积网络进行训练。2014年GoogLeNet提出inception概念并且在ImageNet识别中表现优异,使得体系结构可以做出更为复杂的决策。残差学习思想的提出,有效缓解了因网络深度增加而带来的网络退化的问题,残差块结构示意图如图3所示。本发明以GoogLeNet网络为基础,针对训练数据过拟合、网络参数量大、网络退化以及网络识别准确率低问题进行改进,改进inception块结构的轻量级残差卷积网络结构图如图4所示。
2-1.搭建模型前处理层,前处理层为卷积层、池化层、卷积层结构。其中,卷积层卷积核大小为(3,3),步长为1;池化层卷积核大小为(2,2),步长为2;
2-2.搭建四通道inception网络,减少层数,拓宽网络宽度与深度,采用多尺寸卷积核丰富网络提取的特征,通过学习残差特征缓解网络退化问题。inception网络有四个通道。通道一为两个卷积层组成,第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(3,3),步长为1。通道二为两个卷积层组成,第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(5,5),步长为1。通道三为池化层、卷积层结构,池化层卷积核大小为(2,2)步长为2;卷积层卷积核大小为(1,1),步长为1。通道四为一个卷积层和低层恒等映射组成,卷积层卷积核大小为(1,1),步长为1,低层恒等映射学习残差特征,有效缓解因网络深度增加而带来的网络退化问题。残差网络公式定义为公式(2):
y=F(x)+x (6)
其中,x为残差块的输入,y为输出,F(x)为要学习的残差映射;
2-3.搭建特征降维层,为特征融合层、池化层结构,其中池化层卷积核大小为(2,2),步长为2。特征融合层对四通道inception网络的输出特征进行特征降维;
2-4.搭建Block块结构并使用恒等映射,对特征降维层的输出特征进行处理,Block块结构图如图5所示。Block块由两层inception块与特征融合层组合级联形成,具体结构为inception1、特征融合层、inception 2。inception 1和inception 2各有四个通道,其中inception 1和inception 2的四个通道结构相同:通道一为两个卷积层组成,第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(3,3),步长为1。通道二为两个卷积层组成,第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(5,5),步长为1。通道三为池化层、卷积层结构,池化层卷积核大小为(2,2)步长为2;通道四为一个卷积层和低层恒等映射组成,卷积层卷积核大小为(1,1),步长为1。经过inception1的四个通道处理后的特征,经过特征融合层进入inception 2的四个通道。另外本发明在inception 1的第四通道使用恒等映射方法,inception 1的第四通道处理后的特征被送至inception 2的第四通道,与inception 2的第四通道处理后的特征进行特征空间相加,获取前层的残差特征,完成恒等映射;
2-5.搭建模型后处理层,为特征融合层、池化层、卷积层结构,其中池化层卷积核大小为(2,2),步长为2;卷积层卷积核大小为(4,4),步长为4。卷积层用来对特征进行特征展平,从而取代全连接层,减少模型参数;
2-6.对后处理层的输出特征使用Dropout方法,避免网络过拟合;
2-7.采用交叉熵损失函数计算损失,损失函数如公式(3)所示:
2-8.使用由数据预处理后的FER2013数据集划分的训练集对改进inception块结构的轻量级残差卷积网络进行训练,初始化各个参数,学习率设置为0.01,Dropout为0.32,Batch Size为128,训练轮数为200。
步骤3、选取特征分类器;
3-1.选取Softmax特征分类器作为模型特征分类器。经过Dropout方法处理后的输出特征最后经过Softmax特征分类器分类输出8种情绪的概率值,特征分类器函数形式如公式(4):
所述的8种情绪为生气、厌恶、恐惧、开心、伤心、惊讶、轻蔑和中性。其中,是输出情绪概率,zj为第j个节点的输出值,K为输出节点的个数。Softmax特征分类器函数作用是把一个含任意实数的N维向量/>映射到另一个N维实向量/>中,并且使得向量中的任意元素都在(0,1)区间内,且全部元素的和为1。Softmax特征分类器可将原来大于1的输出值映射成为在(0,1)区间内的值。可以将/>向量的数值理解为概率,因此,可以选取概率最大结点,作为预测目标。这样就完成了一次分类。Softmax特征分类器面对类别互斥的分类问题有良好的效果。
步骤4、使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别,输出人脸情绪识别结果:
4-1.将由数据预处理后的FER2013数据集划分的测试集输入步骤2-8训练完成的网络,即由数据预处理后的FER2013数据集划分的训练集训练完成的改进inception块结构的轻量级残差卷积网络中进行特征处理;
4-2.将步骤4-1特征处理后的输出特征经过Softmax分类器输出8维的情绪概率向量,网络每层输出参数详细信息如表1;
表1
4-3.根据表2,数据集为FER2013数据集,将改进inception块结构的轻量级残差卷积网络的识别准确率与模型参数量与CNN,VGG16模型进行对比,验证改进inception块结构的轻量级残差卷积网络为轻量级网络,且识别准确率较高。
表2
Claims (5)
1.一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,其特征在于,包括以下步骤:
步骤1、收集FER2013数据集并对FER2013数据集进行数据预处理:
步骤2、搭建改进inception块结构的轻量级残差卷积网络;
步骤3、选取Softmax特征分类器作为模型特征分类器;
步骤4、使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别,输出人脸情绪识别结果。
2.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,其特征在于,在步骤1中,所述的收集FER2013数据集并进行数据预处理,包括:
1-1.收集FER2013数据集,并对FER2013数据集中图像进行人脸关键点定位;人脸关键点定位采用人脸68个关键点定位;人脸关键点定位使用Dlib特征点定位模块;
1-2.旋转校正:通过人脸图像两眼倾斜角度对FER2013数据集图像进行旋转校正;获取关键点坐标后,计算眼睛几何中心连线水平夹角;计算公式为公式(1):
其中θ为图像眼睛几何中心连线水平夹角,(x11,y11)...(x16,y16)、(x21,y21)...(x26,y26)为左右眼睛的关键点坐标;θ小于零时将图像逆时针旋转,θ大于零则将图像顺时针旋转;
1-3.FER2013数据集图像尺度归一化:规定人脸双目瞳孔间距为d,双目瞳孔连线中点为坐标原点,以坐标原点为基准左右各裁剪d大小,垂直连线方向向上截取0.8d,向下截取1.8d,裁剪完成后调整图片大小完成图像尺度归一化;
1-4.FER2013数据集图像灰度归一化:使用直方图均值化方法,提高图像对比度,完成图像灰度归一化;
1-5.FER2013数据集划分为训练集和测试集:经步骤1-1至步骤1-4处理后的FER2013数据集按照8:2的比例划分为训练集与测试集,其中80%为训练集,20%为训练集。
3.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,其特征在于,在步骤2中,所述的搭建改进inception块结构的轻量级残差卷积网络,包括:
2-1.搭建模型前处理层,为卷积层、池化层、卷积层结构;其中,卷积层卷积核大小为(3,3),步长为1;池化层卷积核大小为(2,2),步长为2;
2-2.搭建四通道inception网络;通道一包括两个卷积层:第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(3,3),步长为1;通道二包括两个卷积层:第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(5,5),步长为1;通道三为池化层、卷积层结构,池化层卷积核大小为(2,2)步长为2;卷积层卷积核大小为(1,1),步长为1;通道四为一个卷积层和低层恒等映射组成,卷积层卷积核大小为(1,1),步长为1,低层恒等映射学习残差特征,其残差网络公式定义为公式(2):
y=F(x)+x (2)
其中,x为残差块的输入,y为输出,F(x)为要学习的残差映射;
2-3.搭建特征降维层,为特征融合层、池化层结构,其中池化层卷积核大小为(2,2),步长为2;特征融合层对四通道inception网络的输出特征进行特征降维;
2-4.搭建Block块结构并使用恒等映射,对特征降维层的输出特征进行处理;Block块包括组合级联形成的inception 1、特征融合层、inception 2;inception 1和inception 2各有结构相同的四个通道:通道一含两个卷积层,第一个卷积层卷积核大小为(1,1)步长为1,第二个卷积层卷积核大小为(3,3),步长为1;通道二含两个卷积层,第一个卷积层卷积核大小为(1,1)步长为1;第二个卷积层卷积核大小为(5,5),步长为1;通道三为池化层、卷积层结构,池化层卷积核大小为(2,2)步长为2;通道四由一个卷积层和低层恒等映射组成,卷积层卷积核大小为(1,1),步长为1;经过inception 1的四个通道处理后的特征,经过特征融合层进入inception 2的四个通道的第四通道,与inception 2的第四通道处理后的特征进行特征空间相加,获取前层的残差特征,完成恒等映射;
2-5.搭建模型后处理层,为特征融合层、池化层、卷积层结构,其中池化层卷积核大小为(2,2),步长为2;卷积层卷积核大小为(4,4),步长为4;卷积层用来对特征进行特征展平,从而取代全连接层,减少模型参数;
2-6.对后处理层的输出特征使用Dropout方法,避免网络过拟合;
2-7.采用交叉熵损失函数计算损失,损失函数公式为:
2-8.使用由数据预处理后的FER2013数据集划分的训练集对改进inception块结构的轻量级残差卷积网络进行训练,初始化各个参数,学习率设置为0.01,Dropout为0.32,Batch Size为128,训练轮数为200。
4.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,其特征在于,在步骤3中所述的选取Softmax特征分类器作为模型特征分类器,其过程为:
经过Dropout方法处理后的输出特征最后经过Softmax特征分类器分类输出8种情绪的概率值,特征分类器函数形式如公式(4):
5.根据权利要求1所述的一种基于改进残差卷积网络inception块结构的人脸情绪识别方法,其特征在于,在步骤4中,所述的使用改进inception块结构的轻量级残差卷积网络进行人脸情绪识别并输出人脸情绪识别结果,包括:
4-1.将由数据预处理后的FER2013数据集划分的测试集输入步骤2-8训练完成的网络,即由数据预处理后的FER2013数据集划分的训练集训练完成的改进inception块结构的轻量级残差卷积网络中进行特征处理;
4-2.将步骤4-1特征处理后的输出特征经过Softmax分类器输出8维的情绪概率向量;
4-3.数据集为FER2013数据集,将改进inception块结构的轻量级残差卷积网络的识别准确率与模型参数量与CNN,VGG16模型进行对比,验证改进inception块结构的轻量级残差卷积网络为轻量级网络,且识别准确率较高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310149159.9A CN116386102A (zh) | 2023-02-22 | 2023-02-22 | 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310149159.9A CN116386102A (zh) | 2023-02-22 | 2023-02-22 | 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386102A true CN116386102A (zh) | 2023-07-04 |
Family
ID=86964569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310149159.9A Pending CN116386102A (zh) | 2023-02-22 | 2023-02-22 | 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386102A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558050A (zh) * | 2023-11-17 | 2024-02-13 | 西安理工大学 | 面向边缘计算端的实时人脸表情识别方法及人机交互系统 |
-
2023
- 2023-02-22 CN CN202310149159.9A patent/CN116386102A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558050A (zh) * | 2023-11-17 | 2024-02-13 | 西安理工大学 | 面向边缘计算端的实时人脸表情识别方法及人机交互系统 |
CN117558050B (zh) * | 2023-11-17 | 2024-05-28 | 西安理工大学 | 面向边缘计算端的实时人脸表情识别方法及人机交互系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Efficient facial expression recognition algorithm based on hierarchical deep neural network structure | |
CN108491835B (zh) | 面向面部表情识别的双通道卷积神经网络 | |
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
CN111414862B (zh) | 基于神经网络融合关键点角度变化的表情识别方法 | |
CN113221639B (zh) | 一种基于多任务学习的代表性au区域提取的微表情识别方法 | |
CN108629338B (zh) | 一种基于lbp和卷积神经网络的人脸美丽预测方法 | |
CN112766158A (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
CN109190566B (zh) | 一种融合局部编码与cnn模型手指静脉识别方法 | |
CN110263912A (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN112926396A (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN106096535A (zh) | 一种基于双线性联合cnn的人脸验证方法 | |
CN108520213B (zh) | 一种基于多尺度深度的人脸美丽预测方法 | |
CN112580590A (zh) | 一种基于多语义特征融合网络的指静脉识别方法 | |
CN107423727B (zh) | 基于神经网络的人脸复杂表情识别方法 | |
CN112232184B (zh) | 一种基于深度学习和空间转换网络的多角度人脸识别方法 | |
CN107491729B (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN109829414B (zh) | 一种基于标签不确定性和人体组件模型的行人再识别方法 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN111709266A (zh) | 基于时空融合网络的面部表情识别方法 | |
Yue et al. | Face recognition based on histogram equalization and convolution neural network | |
CN110175248A (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN111738178A (zh) | 一种基于深度学习的戴口罩人脸表情识别方法 | |
CN117011883A (zh) | 一种基于金字塔卷积和Transformer双分支的行人重识别方法 | |
CN116386102A (zh) | 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 | |
CN111079549A (zh) | 一种利用门控融合判别特征进行漫画人脸识别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |