CN110427867B - 基于残差注意力机制的面部表情识别方法及系统 - Google Patents
基于残差注意力机制的面部表情识别方法及系统 Download PDFInfo
- Publication number
- CN110427867B CN110427867B CN201910694449.5A CN201910694449A CN110427867B CN 110427867 B CN110427867 B CN 110427867B CN 201910694449 A CN201910694449 A CN 201910694449A CN 110427867 B CN110427867 B CN 110427867B
- Authority
- CN
- China
- Prior art keywords
- feature map
- facial expression
- residual
- expression recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 156
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000007246 mechanism Effects 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 238000005070 sampling Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 38
- 238000011176 pooling Methods 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 206010063659 Aversion Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 208000024798 heartburn Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于残差注意力机制的面部表情识别方法及系统,属于计算机视觉领域,包括:提取包含人脸区域的目标框并进行特征归一化处理,之后利用面部表情识别模型进行面部表情识别;面部表情识别模型包括:一个降采样特征提取结构,用于通过小卷积块对目标框进行特征提取;多个级联的残差注意力结构,分别用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,并将得到的特征图点乘后与精细特征图叠加为残差特征图;以及一个融合损失层,用于获取最后一个残差特征图的损失值,从而预测面部表情类别。本发明能够提高面部表情识别的识别精度和识别速度。
Description
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于残差注意力机制的面部表情识别方法及系统。
背景技术
面部表情在人类交流中起着非常重要的作用,尤其是在非语言交流中,人类认知情绪通常是通过识别面部表情来进行的。如果计算机能够通过用户的面部表情来感知和理解用户的意图,那么系统就可以根据感知到的情况提供建议和意见来帮助用户,因此,面部表情识别在计算机视觉领域和人工智能领域获得了广泛的关注。
虽然人类几乎可以不费任何力气或延迟就能识别面部表情,但机器对表情的可靠识别仍然是一个挑战。为了使计算机像人类那样具有理解和表达情感的能力,从而让机器能更好地服务人类日常生活,如何高计算机对表情识别的准确度,是表情识别系统中需要解决的关键问题。
随着大数据时代的到来,在并行计算领域,与以前使用的CPU相比,GPU使得计算性得到了极大的提升。当前GPU的计算性能已经超CPU 50倍并且在未来极有可能更高。计算机的运算能力极大地增强,侧面反映了利用大规模图像数据训练复杂深度网络的需求在快速增长。在相对较小的面部表情数据集上直接训练深度网络很容易导致过拟合,为了缓解这个问题,许多面部表情识别方法会在大数据集上先预训练网络,或者在已经训练好的网络,如AlexNet,VGG,VGG-face或GoogleNet等网络上进行微调。预训练模型一般采用分类网络或人脸识别网络,然后固定某些层训练其它层直接进行微调训练或者不同层采用不同的数据集对网络进行微调。微调训练网络对表情类别特征的分辨度是不够的,一定程度上限制了最后的识别精度,而且这些微调训练网络在训练好之后,所包含的参数可能多达数百兆,对需要实时运行的任务会带来相当大的压力。此外,现有的面部表情识别网络大多专注于单一任务,只学习对表达敏感的特征,并不考虑其他潜在因素(如头部姿势、光照、面部形态等)之间的相互作用,导致了这些面部表情识别方法的泛化能力较弱。有些卷积网络(如MSCNN网络)引入了多任务学习机制,可以从其他任务中学习额外的信息,这样能够提高面部表情识别网络的泛化能力,但是由于采用多层卷积提取特征,增加了最后得到的表情识别检测器的内存消耗和计算用时,也无法满足实时性的要求。总的来说,现有的面部表情识别方法的识别精度和识别速度仍然需要进一步提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于残差注意力机制的面部表情识别方法及系统,其目的在于,提高面部表情识别的识别精度和识别速度。
为实现上述目的,按照本发明的第一方面,提供了一种基于残差注意力机制的面部表情识别方法,包括:
(1)从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2。
本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,利用小卷积块对包含人脸区域的目标框进行特征提取,能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的;在面部表情识别模型的残差注意力结构中,一方面利用深度可分离卷积结构做进一步的面部表情特征提取,能够对卷积神经网络(CNN)进行压缩,从而降低模型大小,提高面部表情识别的识别速度;另一方面通过残差注意力机制,获取到了能够进行分类的表情关键信息,从而提高了面部表情识别的识别精度。总的来说,本发明所提供的基于残差注意力机制的面部表情识别方法,能够提高面部表情识别的识别精度和识别速度。
进一步地,降采样特征提取结构包括:一个或多个依次连接的小卷积块,以及一个全局最大池化层;
小卷积块用于进行特征提取,全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度,以得到粗糙特征图。
进一步地,残差注意力结构包括:主干分支、掩膜分支以及特征融合层;
主干分支包括:一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层;深度可分离卷积结构用于对输入的特征图进行特征提取,最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度,从而得到精细特征图;
掩膜分支包括:一个小卷积块、一个SE结构以及两个相连的全连接层;小卷积块用于对输入的特征图进行降采样,SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征,全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
特征融合层用于将主干分支所提取的精细特征图与掩膜分支所提取的关键特征图点乘后,与精细特征图叠加,从而得到残差特征图。
进一步地,深度可分离卷积结构为Xception。
进一步地,融合损失层所获取的损失值融合了L2-SVM损失与Center损失,其计算方式为:
L=LL2-SVM+λLCenter;
其中,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子。
本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,通过融合L2-SVM损失和Center损失计算损失值,能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点,使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合,提高模型的泛化能力。
进一步地,本发明第一方面提供的基于残差注意力机制的面部表情识别方法,还包括:
对于待处理的视频,在实时获取到每一帧图像后,将其作为待识别的目标图像,并执行步骤(1)~(2),以实时识别待处理的视频中各帧图像的面部表情类别。
由于本发明所使用的神经网络模型相对于其他面部表情识别网络得到了压缩,并且面部表情识别的识别速度得到了提高,因此,本发明能够对实时性要求较高的视频进行处理,实时识别出其中各帧图像的面部表情类别。
进一步地,面部表情识别模型的离线训练方法包括:
(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置;
(T2)根据双眼关键点的位置对所提取的人脸区域进行校正,以得到相应的正脸图像,由所有的正脸图像构成基础数据集;
(T3)对基础数据集进行数据集增强,以得到训练数据集;
(T4)建立面部表情识别模型,并利用训练数据集对面部表情识别模型进行训练,以得到训练好的面部表情识别模型;
其中,数据集增强包括旋转操作。
本发明所提供的基于残差注意力机制的面部表情识别方法,本发明在进行面部表情识别模型进行训练时,会先通过人脸区域校正以得到正脸图像,由此能够保证训练得到的模型具有较高的识别精度;在进行人脸区域校正后,通过旋转操作等进行数据集增强,保证了所得到的训练数据集中包含有不同头部姿势的人脸图像,从而能够提高训练得到的面部表情识别模型的泛化能力。
进一步地,步骤(T1)通过MTCNN算法在提取到人脸区域的同时,获取到双眼关键点的位置;使用MTCNN算法能够同时提取到人脸区域并获取到双眼关键点的位置,从而加快数据集的预处理过程。
按照本发明的第二方面,提供了一种基于残差注意力机制的面部表情识别系统,包括:目标框提取模块和面部表情识别模块;
目标框提取模块,用于从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
面部表情识别模块,用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2。
按照本发明的第三方面,还提供了一种系统,包括处理器和计算机可读存储介质;计算机可读存储介质存储有可执行程序代码;
处理器用于调用计算机可读存储介质中存储的可执行程序代码,执行本发明第一方面提供的基于残差注意力机制的面部表情识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,利用小卷积块对包含人脸区域的目标框进行特征提取,能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的;在面部表情识别模型的残差注意力结构中,一方面利用深度可分离卷积结构做进一步的面部表情特征提取,能够对卷积神经网络(CNN)进行压缩,从而降低模型大小,提高面部表情识别的识别速度;另一方面通过残差注意力机制,获取到了能够进行分类的表情关键信息,从而提高了面部表情识别的识别精度。总的来说,本发明所提供的基于残差注意力机制的面部表情识别方法,能够提高面部表情识别的识别精度和识别速度。
(2)本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,通过融合L2-SVM损失和Center损失计算损失值,能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点,使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合,提高模型的泛化能力。
(3)本发明所提供的基于残差注意力机制的面部表情识别方法,本发明在进行面部表情识别模型进行训练时,会先通过人脸区域校正以得到正脸图像,由此能够保证训练得到的模型具有较高的识别精度;在进行人脸区域校正后,通过旋转操作等进行数据集增强,保证了所得到的训练数据集中包含有不同头部姿势的人脸图像,从而能够提高训练得到的面部表情识别模型的泛化能力。
(4)本发明所提供的基于残差注意力机制的面部表情识别方法,面部表情识别的识别速度得到了极大的提高,能够满足实时性任务的要求,因此,本发明能够对实时性要求较高的视频进行处理,实时识别出其中各帧图像的面部表情类别。
附图说明
图1为本发明实施例提供的基于残差注意力机制的面部表情识别方法示意图;
图2为本发明实施例提供的面部表情识别模型结构示意图;
图3为本发明实施例提供的降采样特征提取结构示意图;
图4为本发明实施例提供的残差注意力结构示意图;
图5为本发明实施例提供的利用训练数据集训练面部表情识别模型的流程图;
图6为本发明实施例提供的不同面部表情识别方法的识别结果对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于残差注意力机制的面部表情识别方法,如图1所示,包括:
(1)从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
在一个可选的实施方式中,可利用MTCNN算法从目标图像中提取包含人脸区域的目标框;
(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层,具体如图2所示;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2。
上述基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,利用小卷积块对包含人脸区域的目标框进行特征提取,能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的;在面部表情识别模型的残差注意力结构中,一方面利用深度可分离卷积结构做进一步的面部表情特征提取,能够对卷积神经网络(CNN)进行压缩,从而降低模型大小,提高面部表情识别的识别速度;另一方面通过残差注意力机制,获取到了能够进行分类的表情关键信息,从而提高了面部表情识别的识别精度。总的来说,上述基于残差注意力机制的面部表情识别方法,能够提高面部表情识别的识别精度和识别速度。
在一个可选的实施方式中,如图1所示,降采样特征提取结构包括:一个或多个依次连接的小卷积块,以及一个全局最大池化层;
小卷积块用于进行特征提取,全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度,以得到粗糙特征图;
在本实施例中,降采样特征提取结构如图3所示,具体包括3个卷积块,第一个小卷积块由16个卷积层构成,各卷积层的卷积核大小均为3×3,步长为1;第二个小卷积块由32个卷积层构成,各卷积层的卷积核大小均为3×3,步长为1;第三个小卷积块由64个卷积层构成,各卷积层的卷积核大小均为3×3,步长为1;全局最大池化层(Max Pooling)具体为2×2最大池化层,步长为2;
应当理解的是,图3所示的具体结构仅为一种示例性的说明,不应理解为对本发明的唯一限定。
在一个可选的实施方式中,如图1所示,残差注意力结构包括:主干分支、掩膜分支以及特征融合层;
主干分支包括:一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层;深度可分离卷积结构用于对输入的特征图进行特征提取,最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度,从而得到精细特征图;作为优选地,可采用Xception作为主干分支中的深度可分离卷积结构;
掩膜分支包括:一个小卷积块、一个SE结构以及两个相连的全连接层(FC1和FC2);小卷积块用于对输入的特征图进行降采样,SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征,全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
特征融合层用于将主干分支所提取的精细特征图与掩膜分支所提取的关键特征图点乘后,与精细特征图叠加,从而得到残差特征图;
在本实施例中,如图4所示,主干分支包括两个Xception和一个全局最大池化层;掩膜分支对输入的特征图X进行一次前向卷积降采样操作,将s×s窗口内的矩阵图像变为一个像素,使得维数很大的特征图矩阵通过一个隐层映射到一个维数较小的特征图X′,之后使用SE(squeeze and excitation)结构块在通道域上提取特征图的感兴趣信息,并利用全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
应当理解的是,图4所示的具体结构仅为一种示例性的说明,不应理解为对本发明的唯一限定。
在一个可选的实施方式中,融合损失层所获取的损失值融合了L2-SVM损失与Center损失,其计算方式为:
L=LL2-SVM+λLCenter;
其中,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子,λ越大则区分度越大;
其中,
i表示训练数据集中的训练样本序号,N表示训练样本总数,xi表示人脸图像,yi表示对应的面部表情的真实类别标签;(xi,yi)为给出的训练数据与真实标签对;C0>0用来调节错分样本的错误比重;yi[wxi+b]>1-ξi,ξi≥0,ξi为松弛因子,代表错分样本的错误程度;W0表示超平面法向量的集合,w为最优超平面法向量;b为最优超平面阈值;cyi表示第i个样本对应的类别yi所属类中心。
本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,通过融合L2-SVM损失和Center损失计算损失值,能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点,使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合,提高模型的泛化能力。
由于模型得到了压缩,上述基于残差注意力机制的面部表情识别方法,为一种轻量级的方法,识别速度大为提高,可满足实时性任务的要求;在实时处理视频时,上述基于残差注意力机制的面部表情识别方法,还包括:
对于待处理的视频,在实时获取到每一帧图像后,将其作为待识别的目标图像,并执行步骤(1)~(2),以实时识别待处理的视频中各帧图像的面部表情类别。
由于本发明所使用的神经网络模型相对于其他面部表情识别网络得到了压缩,并且面部表情识别的识别速度得到了提高,因此,本发明能够对实时性要求较高的视频进行处理,实时识别出其中各帧图像的面部表情类别。
如图1所示,在一个可选的实施方式中,面部表情识别模型的离线训练方法包括:
(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置;
在本实施例中,所选用的面部表情数据集为FER2013,该数据集图像来源网络爬虫爬取网上有语义的图片,具体由35886张人脸表情图片组成,图像格式均为JPG;在该数据集中,具体的表情类别标签包括:生气(angry)、厌恶(disgust)、害怕(fear)、高兴(happy)、伤心(sad)、惊讶(surprise)以及自然(neutral);
作为优选地,步骤(T1)可通过MTCNN算法在提取到人脸区域的同时,获取到双眼关键点的位置,从而加快数据集的预处理过程;
(T2)根据双眼关键点的位置对所提取的人脸区域进行校正,以得到相应的正脸图像,由所有的正脸图像构成基础数据集;
在一个可选的实施方式中,步骤(2)具体包括:
对于任意一个样本获得人脸左眼中心位置(xl_i,yl_i)和右眼中心位置(xr_i,yr_i),使用反正切函数计算图片的倾斜度θ;以双眼的位置中心为中心对图片进行仿射变换,从而完成面部区域校正,得到对应的正脸图像;仿射变换公式如下所示:
通过人脸区域校正以得到正脸图像,由此能够保证训练得到的模型具有较高的识别精度;
(T3)对基础数据集进行数据集增强,以得到训练数据集;
其中,数据集增强包括旋转操作;
通过旋转操作等进行数据集增强,保证了所得到的训练数据集中包含有不同头部姿势的人脸图像,从而能够提高训练得到的面部表情识别模型的泛化能力;
(T4)建立面部表情识别模型,并利用训练数据集对面部表情识别模型进行训练,以得到训练好的面部表情识别模型;
在一个可选的实施方式中,如图5所示,利用训练数据集对面部表情识别模型进行训练,具体包括:
(T41)将训练数据集进一步划分为多组小样本集;
(T42)每次选择一组小样本集用来训练,设置基础学习率为1e-2并且训练过程中每25组小样本集损失函数不再提升则衰减为原来的0.1倍,训练的最大迭代次数为300;
(T43)将样本输入面部表情识别模型,前向传播计算面部表情识别模型各层的值,通过设计的融合损失函数得到网络的损失值;
(T44)若未达到预定的总迭代数300次,则继续步骤(T45),否则训练结束;
(T45)反向逐层采用梯度下降算法更新面部表情识别模型各层,根据如下公式计算融合损失函数的导数:
其中,
当yi=j时,δ(yi=j)为1,否则为0。
本发明还提供了一种基于残差注意力机制的面部表情识别系统,包括:目标框提取模块和面部表情识别模块;
目标框提取模块,用于从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
面部表情识别模块,用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2;
在本发明实施例中,各模块的具体实施方式可参考上述方法实施例中的描述,在此将不作复述。
按照本发明的第三方面,还提供了一种系统,包括处理器和计算机可读存储介质;计算机可读存储介质存储有可执行程序代码;
处理器用于调用计算机可读存储介质中存储的可执行程序代码,执行上述基于残差注意力机制的面部表情识别方法。
分别采用三种现有的面部表情识别方法(Multi-task convnet方法、TDNN方法、DNNRL方法)以及上述基于残差注意力机制的面部表情识别方法的对比FER2013数据集进行对比实验,数据集划分为训练集和测试集,其中训练集样本32297张,测试集样本3589张。相关的实验平台为:CPU Intel(R)CoreTMi5-7500CPU@3.40GHz,内存32G DDR4 2400MHz,GPUGeForce GTX 1080Ti,显存12G;操作系统Ubuntu 16.04LTS 64位,实验平台Keras、Visualstudio Code。
对于测试的结果,使用两种评价方式:
(1)准确率:用来度量分类器正确分类的性能。准确率的计算方式为:
(2)混淆矩阵(confusion matrix):每一列代表预测类别,每一列的总数表示为预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。
各方法的准确率如表1所示。其中,各表情均以相应英文名称的前两个字母代替;需要说明的是,由于在FER2013数据集中,厌恶类别所对应的样本数过少,因此,在利用本发明所提供的基于残差注意机制的面部表情识别方法进行识别时,将厌恶类别合并到了生气类别中。根据表1所示的测试结果,对比分析可知,本发明提出的表情识别方法既达到了本文所提出的轻量级的目的,又提高了一定得准确度。
表1各面部表情识别方法的识别准确度
各方法生成的混淆矩阵如图6所示,从图中可以看出,对于高兴、惊讶和自然这三种表情的识别准确率比较高,尤其是对高兴的表情识别准确度基本都有90%以上。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于残差注意力机制的面部表情识别方法,其特征在于,包括:
(1)从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出所述目标图像中人脸的面部表情类别;
所述面部表情识别模型包括一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;所述降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;所述残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为所述降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;所述融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,所述小卷积块中各卷积层的卷积核不大于3×3,m≥2;所述融合损失层所获取的损失值为:L=LL2-SVM+λLCenter,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子。
2.如权利要求1所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述降采样特征提取结构包括:一个或多个依次连接的小卷积块,以及一个全局最大池化层;
小卷积块用于进行特征提取,全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度,以得到所述粗糙特征图。
3.如权利要求1所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述残差注意力结构包括:主干分支、掩膜分支以及特征融合层;
所述主干分支包括:一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层;深度可分离卷积结构用于对输入的特征图进行特征提取,最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度,从而得到精细特征图;
所述掩膜分支包括:一个小卷积块、一个SE结构以及两个相连的全连接层;小卷积块用于对输入的特征图进行降采样,SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征,全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
所述特征融合层用于将所述主干分支所提取的精细特征图与所述掩膜分支所提取的关键特征图点乘后,与精细特征图叠加,从而得到残差特征图。
4.如权利要求3所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述深度可分离卷积结构为Xception。
5.如权利要求1所述的基于残差注意力机制的面部表情识别方法,其特征在于,还包括:
对于待处理的视频,在实时获取到每一帧图像后,将其作为待识别的目标图像,并执行步骤(1)~(2),以实时识别所述待处理的视频中各帧图像的面部表情类别。
6.如权利要求1-5任一项所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述面部表情识别模型的离线训练方法包括:
(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置;
(T2)根据双眼关键点的位置对所提取的人脸区域进行校正,以得到相应的正脸图像,由所有的正脸图像构成基础数据集;
(T3)对所述基础数据集进行数据集增强,以得到训练数据集;
(T4)建立所述面部表情识别模型,并利用所述训练数据集对所述面部表情识别模型进行训练,以得到训练好的面部表情识别模型;
其中,所述数据集增强包括旋转操作。
7.如权利要求6所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述步骤(T1)通过MTCNN算法在提取到人脸区域的同时,获取到双眼关键点的位置。
8.一种基于残差注意力机制的面部表情识别系统,其特征在于,包括:目标框提取模块和面部表情识别模块;
所述目标框提取模块,用于从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
所述面部表情识别模块,用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出所述目标图像中人脸的面部表情类别;
所述面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;所述降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;所述残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为所述降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;所述融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,所述小卷积块中各卷积层的卷积核不大于3×3,m≥2;所述融合损失层所获取的损失值为:L=LL2-SVM+λLCenter,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子。
9.一种系统,包括处理器和计算机可读存储介质;其特征在于,所述计算机可读存储介质存储有可执行程序代码;
所述处理器用于调用所述计算机可读存储介质中存储的所述可执行程序代码,执行权利要求1-7任一项所述的基于残差注意力机制的面部表情识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694449.5A CN110427867B (zh) | 2019-07-30 | 2019-07-30 | 基于残差注意力机制的面部表情识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694449.5A CN110427867B (zh) | 2019-07-30 | 2019-07-30 | 基于残差注意力机制的面部表情识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427867A CN110427867A (zh) | 2019-11-08 |
CN110427867B true CN110427867B (zh) | 2021-11-19 |
Family
ID=68413141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910694449.5A Active CN110427867B (zh) | 2019-07-30 | 2019-07-30 | 基于残差注意力机制的面部表情识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427867B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291670B (zh) * | 2020-01-23 | 2023-04-07 | 天津大学 | 基于注意力机制和网络集成的小目标人脸表情识别方法 |
CN111339832B (zh) * | 2020-02-03 | 2023-09-12 | 中国人民解放军国防科技大学 | 人脸合成图像的检测方法及装置 |
CN111461959B (zh) * | 2020-02-17 | 2023-04-25 | 浙江大学 | 人脸情绪合成方法及装置 |
CN111582044B (zh) * | 2020-04-15 | 2023-06-20 | 华南理工大学 | 基于卷积神经网络和注意力模型的人脸识别方法 |
CN111639537A (zh) * | 2020-04-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 人脸动作单元识别方法、装置、电子设备及存储介质 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
CN111787323B (zh) * | 2020-05-23 | 2021-09-03 | 清华大学 | 一种基于对抗学习的可变比特率生成式压缩方法 |
CN111652171B (zh) * | 2020-06-09 | 2022-08-05 | 电子科技大学 | 一种基于双分支网络的面部表情识别模型的构建方法 |
CN111881746B (zh) * | 2020-06-23 | 2024-04-02 | 安徽清新互联信息科技有限公司 | 一种基于信息融合的人脸特征点定位方法及系统 |
CN111783622A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 人脸表情识别的方法、装置、设备和计算机可读存储介质 |
CN111783681B (zh) * | 2020-07-02 | 2024-08-13 | 深圳市万睿智能科技有限公司 | 大规模人脸库识别方法、系统、计算机设备及存储介质 |
CN111950362B (zh) * | 2020-07-07 | 2024-04-16 | 西北大学 | 一种金丝猴面部图像识别方法、装置、设备及存储介质 |
CN112084911B (zh) * | 2020-08-28 | 2023-03-07 | 安徽清新互联信息科技有限公司 | 一种基于全局注意力的人脸特征点定位方法及系统 |
CN112101241A (zh) * | 2020-09-17 | 2020-12-18 | 西南科技大学 | 一种基于深度学习的轻量级表情识别方法 |
CN112149619B (zh) * | 2020-10-14 | 2024-03-15 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112418095B (zh) * | 2020-11-24 | 2023-06-30 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
CN112580458B (zh) * | 2020-12-10 | 2023-06-20 | 中国地质大学(武汉) | 人脸表情识别方法、装置、设备及存储介质 |
CN112668486A (zh) * | 2020-12-30 | 2021-04-16 | 长春理工大学 | 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体 |
CN112733672B (zh) * | 2020-12-31 | 2024-06-18 | 深圳一清创新科技有限公司 | 基于单目相机的三维目标检测方法、装置和计算机设备 |
CN112613479B (zh) * | 2021-01-04 | 2022-07-08 | 福州大学 | 基于轻量流式网络和注意力机制的表情识别方法 |
CN113128369B (zh) * | 2021-04-01 | 2022-07-01 | 重庆邮电大学 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
CN113343773B (zh) * | 2021-05-12 | 2022-11-08 | 上海大学 | 基于浅层卷积神经网络的人脸表情识别系统 |
CN113205510B (zh) * | 2021-05-25 | 2023-02-03 | 石家庄铁道大学 | 铁路侵限异物检测方法、装置及终端 |
CN114038037B (zh) * | 2021-11-09 | 2024-02-13 | 合肥工业大学 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
CN114943997B (zh) * | 2022-05-18 | 2024-09-17 | 上海大学 | 基于注意力和神经网络的脑卒中患者表情分类算法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11049018B2 (en) * | 2017-06-23 | 2021-06-29 | Nvidia Corporation | Transforming convolutional neural networks for visual sequence learning |
WO2019143962A1 (en) * | 2018-01-19 | 2019-07-25 | Board Of Regents, The University Of Texas System | Systems and methods for evaluating individual, group, and crowd emotion engagement and attention |
CN108388890A (zh) * | 2018-03-26 | 2018-08-10 | 南京邮电大学 | 一种基于面部表情识别的新生儿疼痛程度评估方法及系统 |
CN108985317B (zh) * | 2018-05-25 | 2022-03-01 | 西安电子科技大学 | 一种基于可分离卷积和注意力机制的图像分类方法 |
CN109002766B (zh) * | 2018-06-22 | 2021-07-09 | 北京邮电大学 | 一种表情识别方法及装置 |
CN109754015B (zh) * | 2019-01-02 | 2021-01-26 | 京东方科技集团股份有限公司 | 用于画作多标签识别的神经网络及相关方法、介质和设备 |
CN109829409A (zh) * | 2019-01-23 | 2019-05-31 | 深兰科技(上海)有限公司 | 驾驶员情绪状态检测方法及系统 |
CN109871777B (zh) * | 2019-01-23 | 2021-10-01 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
CN109858419A (zh) * | 2019-01-23 | 2019-06-07 | 广州智慧城市发展研究院 | 一种自下而上-自上而下的行为识别系统 |
CN109886946B (zh) * | 2019-02-18 | 2023-05-23 | 广州视源电子科技股份有限公司 | 基于深度学习的早期老年性黄斑病变弱监督分类方法 |
-
2019
- 2019-07-30 CN CN201910694449.5A patent/CN110427867B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110427867A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN108830237B (zh) | 一种人脸表情的识别方法 | |
Dandıl et al. | Real-time facial emotion classification using deep learning | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
Ali et al. | Facial emotion detection using neural network | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113221680B (zh) | 基于文本动态引导视觉特征提炼的文本行人检索方法 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
WO2021190433A1 (zh) | 更新物体识别模型的方法和装置 | |
Zhao et al. | Cbph-net: A small object detector for behavior recognition in classroom scenarios | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Salmam et al. | Fusing multi-stream deep neural networks for facial expression recognition | |
Abbassi et al. | A deep learning facial emotion classification system: a VGGNet-19 based approach | |
Chen et al. | A multi-scale fusion convolutional neural network for face detection | |
Zhang et al. | Multi-scale image recognition strategy based on convolutional neural network | |
CN116645694A (zh) | 基于动态自进化信息抽取和对齐的文本-目标检索方法 | |
Baffour et al. | A survey on deep learning algorithms in facial Emotion Detection and Recognition | |
Kumar et al. | Mediapipe and cnns for real-time asl gesture recognition | |
Kumar et al. | Facial emotion recognition and detection using cnn | |
WO2024093466A1 (zh) | 一种基于模型结构自主进化的行人图像重识别方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN113076916A (zh) | 基于几何特征加权融合的动态人脸表情识别方法及系统 | |
Cai et al. | Performance analysis of distance teaching classroom based on machine learning and virtual reality | |
Li et al. | Group-level emotion recognition based on faces, scenes, skeletons features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |