CN116434311A - 一种基于混合域一致性约束的面部表情识别方法及系统 - Google Patents
一种基于混合域一致性约束的面部表情识别方法及系统 Download PDFInfo
- Publication number
- CN116434311A CN116434311A CN202310443111.9A CN202310443111A CN116434311A CN 116434311 A CN116434311 A CN 116434311A CN 202310443111 A CN202310443111 A CN 202310443111A CN 116434311 A CN116434311 A CN 116434311A
- Authority
- CN
- China
- Prior art keywords
- face image
- channel
- consistency constraint
- constraint
- facial expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000010586 diagram Methods 0.000 claims abstract description 85
- 230000007306 turnover Effects 0.000 claims abstract description 56
- 238000009826 distribution Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000014509 gene expression Effects 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 29
- 238000012512 characterization method Methods 0.000 description 14
- 230000001815 facial effect Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 6
- 238000005286 illumination Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000000452 restraining effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于混合域一致性约束的面部表情识别方法及系统,方法包括:将待识别的人脸图像输入至面部表情识别模型,获得所述人脸图像的表情识别结果;所述面部表情识别模型是以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得的;所述空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;所述翻转人脸图像为水平翻转后的样本人脸图像。本发明提升了模型的分类性能,可以处理各种复杂的面部表情图像,解决了传统面部表情识别的准确率低的问题。
Description
技术领域
本发明属于面部表情识别技术领域,更具体地,涉及一种基于混合域一致性约束的面部表情识别方法及系统。
背景技术
面部表情识别是一种能够通过图像处理和机器学习技术对人脸图像进行分析,识别人脸表情的技术。随着智能设备的广泛应用,人脸表情识别技术正在逐渐成为一项重要的应用技术。例如,在安防领域,通过对人脸表情的识别,可以快速判断是否存在威胁行为,增强安全监管的效果;在医疗领域,面部表情识别技术可以辅助于判断精神疾病、疼痛等;在教育领域,面部表情识别技术可以用于评估学生的情感状态和学习状况,为教学提供数据支持等。
传统的面部表情识别方法主要采用图像处理技术,对人脸图像进行特征提取和分类。这种方法的缺点是需要大量手动提取特征,且对于光照不均匀、面部遮挡等因素的影响较为敏感,对于复杂的表情分析效果也不理想。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于混合域一致性约束的面部表情识别方法及系统,旨在解决现有面部表情识别方法的准确率低、鲁棒性差的问题。
为实现上述目的,第一方面,本发明提供了一种基于混合域一致性约束的面部表情识别方法,包括:
S101将待识别的人脸图像输入至面部表情识别模型,获得所述人脸图像的表情识别结果;
其中,所述面部表情识别模型是以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得的;所述空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;所述翻转人脸图像为水平翻转后的样本人脸图像。
在一个可选的示例中,所述空间域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第一全局平均池化层和第一全连接层,获得样本人脸图像在不同通道上的权重,并与样本人脸图像的多通道特征图进行逐通道相乘,获得样本人脸图像的热力图;
将翻转人脸图像的多通道特征图经过第二全局平均池化层和第二全连接层,获得翻转人脸图像在不同通道上的权重,并与翻转人脸图像的多通道特征图进行逐通道相乘,获得翻转人脸图像的热力图;
基于样本人脸图像的热力图与翻转人脸图像的热力图之间的均方差,确定所述空间域一致性约束。
在一个可选的示例中,所述通道域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第三全局平均池化层和第一softmax层,获得样本人脸图像在不同通道上的概率分布;
将翻转人脸图像的多通道特征图经过第四全局平均池化层和第二softmax层,获得翻转人脸图像在不同通道上的概率分布;
基于样本人脸图像与翻转人脸图像在不同通道上的概率分布之间的JS散度,确定所述通道域一致性约束。
第二方面,本发明提供一种基于混合域一致性约束的面部表情识别系统,包括:
模型训练模块,用于以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得面部表情识别模型;所述空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;所述翻转人脸图像为水平翻转后的样本人脸图像;
表情识别模块,用于将待识别的人脸图像输入至所述面部表情识别模型,获得所述人脸图像的表情识别结果。
在一个可选的示例中,所述模型训练模块中所采用的空间域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第一全局平均池化层和第一全连接层,获得样本人脸图像在不同通道上的权重,并与样本人脸图像的多通道特征图进行逐通道相乘,获得样本人脸图像的热力图;
将翻转人脸图像的多通道特征图经过第二全局平均池化层和第二全连接层,获得翻转人脸图像在不同通道上的权重,并与翻转人脸图像的多通道特征图进行逐通道相乘,获得翻转人脸图像的热力图;
基于样本人脸图像的热力图与翻转人脸图像的热力图之间的均方差,确定所述空间域一致性约束。
在一个可选的示例中,所述模型训练模块中所采用的通道域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第三全局平均池化层和第一softmax层,获得样本人脸图像在不同通道上的概率分布;
将翻转人脸图像的多通道特征图经过第四全局平均池化层和第二softmax层,获得翻转人脸图像在不同通道上的概率分布;
基于样本人脸图像与翻转人脸图像在不同通道上的概率分布之间的JS散度,确定所述通道域一致性约束。
第三方面,本发明提供一种电子设备,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行如第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种基于混合域一致性约束的面部表情识别方法及系统,通过在对面部表情识别模型进行训练时,在分类约束条件的基础上,新增空间域一致性约束和/或通道域一致性约束,从样本人脸图像本身出发,通过与翻转变换后的样本人脸图像对比的方法挖掘了潜在注意力一致性特征表达作为有效监督信息,从而提升了模型的分类性能,可以处理各种复杂的面部表情图像,解决了传统面部表情识别的准确率低的问题,并且训练过程中自动生成注意力的标签,无需额外的手工特征标签,提高了模型的收敛效率,另外,经过在公共数据集上的验证可知,本发明对于不同身份的人,在光照不均,面部遮挡,标注噪声等场景下均表现出较高的鲁棒性。
附图说明
图1是本发明提供的基于混合域一致性约束的面部表情识别方法的流程示意图;
图2是本发明提供的基于混合域一致性约束的面部表情识别方法的实施框图;
图3是本发明提供的面部表情识别模型的框架图;
图4是本发明提供的基于混合域一致性约束的面部表情识别系统的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
深度学习方法通过大量的训练数据,使用卷积神经网络、循环神经网络等深度学习模型对图像进行特征学习和表情分类。相比传统方法,深度学习方法具有更好的自适应性和鲁棒性,能够有效地应对不同光照、遮挡等因素的影响。
因此,本发明采用深度学习方法,提供一种基于混合域一致性约束的面部表情识别方法,其中,混合域一致性约束指的是融合空间域一致性约束与通道域一致性约束的特征约束方法,图1是本发明提供的基于混合域一致性约束的面部表情识别方法的流程示意图,如图1所示,该方法包括:
步骤S101,将待识别的人脸图像输入至面部表情识别模型,获得人脸图像的表情识别结果;
其中,面部表情识别模型是以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得的;空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;翻转人脸图像为水平翻转后的样本人脸图像。
此处,待识别的人脸图像可以是对人脸区域进行图像采集得到的图像,也可以是对人脸区域进行视频采集得到的视频帧,本发明实施例对此不作具体限定。进一步地,在输入到面部表情识别模型之前,还可以对人脸图像进行预处理操作,此处的预处理操作例如可以是人脸区域裁剪。
具体地,本发明预先收集大量样本人脸图像,及其对应的面部表情标签,对样本人脸图像进行人脸区域裁剪、随机擦除等预处理操作,随即采用这些样本和标签对面部表情识别模型进行训练,从而获得训练完成的面部表情识别模型,即可将其应用于面部表情识别任务中。将人脸图像输入到训练完成的面部表情识别模型中,从而获得该人脸图像的表情识别结果。
考虑到面部表情识别任务是分类任务,在对面部表情识别模型进行训练时,可以采用基于样本人脸图像对应的面部表情标签确定的分类约束作为约束条件,在此基础上,为了进一步提高模型的面部表情识别效果,还可以结合空间域一致性约束和/或通道域一致性约束进行训练。此处,空间域一致性约束是为了约束样本人脸图像的热力图与对应的翻转人脸图像的热力图在空间分布上的一致性,通道域一致性约束是为了约束样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性,翻转人脸图像为水平翻转后的样本人脸图像。
需要说明的是,此处的热力图可以是CAM(类激活映射)生成的热力图,即注意力热图。通常CAM热力图的合理性可以反映CNN分类器的性能,所以说如果注意力热图突出了与所考虑的标签在语义上相关的区域,那就意味着CNN具有更好的分类性能。但本发明经实验发现,部分水平翻转前后的图像CAM热力图所关注的区域并不对称,这就意味着虽然图像变换前后的语义信息没有改变,但是网络模型对于变换前后关注的区域并不是一致的,说明模型分类时并没有完全关注标签相关的区域,导致分类准确率低。因此,本发明可以采用空间域一致性约束通过观察人脸图像的特征图水平翻转前后的热力图关注的区域,迫使网络学习特征图中与标签相关的区域,从而通过将热力图翻转前后一致性作为监督信息,提高模型的鲁棒性和分类性能。
另外,考虑到水平翻转前后的人脸图像的语义信息没有改变,人脸图像的特征图的每个通道都包含其特定的特征响应,对最终分类的贡献度具有判别性,因此,本发明还可以采用通道域一致性约束,即样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束,通过最小化特征图水平翻转前后的通道表征的差异,使通道表征的概率分布趋于一致,从而辅助分类任务,提高模型的鲁棒性和分类性能。
本发明实施例提供的方法,通过在对面部表情识别模型进行训练时,在分类约束条件的基础上,新增空间域一致性约束和/或通道域一致性约束,从样本人脸图像本身出发,通过与翻转变换后的样本人脸图像对比的方法挖掘了潜在注意力一致性特征表达作为有效监督信息,从而提升了模型的分类性能,可以处理各种复杂的面部表情图像,解决了传统面部表情识别的准确率低的问题,并且训练过程中自动生成注意力的标签,无需额外的手工特征标签,提高了模型的收敛效率,另外,经过在公共数据集上的验证可知,本发明对于不同身份的人,在光照不均,面部遮挡,标注噪声等场景下均表现出较高的鲁棒性。
基于上述实施例,空间域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第一全局平均池化层和第一全连接层,获得样本人脸图像在不同通道上的权重,并与样本人脸图像的多通道特征图进行逐通道相乘,获得样本人脸图像的热力图;
将翻转人脸图像的多通道特征图经过第二全局平均池化层和第二全连接层,获得翻转人脸图像在不同通道上的权重,并与翻转人脸图像的多通道特征图进行逐通道相乘,获得翻转人脸图像的热力图;
基于样本人脸图像的热力图与翻转人脸图像的热力图之间的均方差,确定空间域一致性约束。
具体地,多通道特征图由不同通道的子特征图组成,是对样本人脸图像进行特征提取所得到的。为了比较样本人脸图像的热力图与对应的翻转人脸图像的热力图在空间分布上的一致性,面部表情识别模型可以设置分别针对样本人脸图像和翻转人脸图像进行处理的第一分支和第二分支,第一分支可以包括第一全局平均池化层和第一全连接层,第二分支可以包括第二全局平均池化层和第二全连接层。
在此基础上,将样本人脸图像的多通道特征图经过第一全局平均池化层和第一全连接层,获得样本人脸图像在不同通道上的权重,并与样本人脸图像的多通道特征图进行逐通道相乘,可以获得样本人脸图像的热力图;将翻转人脸图像的多通道特征图经过第二全局平均池化层和第二全连接层,获得翻转人脸图像在不同通道上的权重,并与翻转人脸图像的多通道特征图进行逐通道相乘,可以获得翻转人脸图像的热力图;最后,根据样本人脸图像的热力图与翻转人脸图像的热力图之间的均方差,即可确定出空间域一致性约束。
进一步地,空间域一致性约束的损失值具体可以用如下公式表示:
式中,是空间域一致性约束的损失值,Ml是标签l对应的样本人脸图像的热力图,M′l是标签l对应的翻转人脸图像的热力图,W(l,c)是标签l对应的样本人脸图像在第c个通道的权重,由第一全连接层获得,Fc是该样本人脸图像在第c个通道的子特征图,W′(l,c)是标签l对应的翻转人脸图像在第c个通道的权重,由第二全连接层获得,Fc′是该翻转人脸图像在第c个通道的子特征图,L,C,H,W分别是表情识别任务即分类任务的类别数,特征图的通道数,高度和宽度。通过加权公式将热力图信息添加到特征图里,再通过损失函数对网络进行优化。
本发明实施例提供的方法,通过权重加权整合全局的空间信息,得到水平翻转前后的注意力热图;通过观察特征图水平翻转前后的CAM热力图关注的区域,迫使网络学习特征图中与标签相关的区域,从而提高模型的鲁棒性。
基于上述任一实施例,可以采用基于预训练的ResNet50作为骨干网络,对样本人脸图像和翻转人脸图像分别进行特征提取,从而获得样本人脸图像的多通道特征图和翻转人脸图像的多通道特征图。ResNet50是一种深度残差网络,具有较强的特征提取和表达能力。通过采用预训练的ResNet50作为特征提取模块,本发明可以更好地处理各种复杂的面部表情图像,并具有更高的准确性和鲁棒性。
基于上述任一实施例,通道域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第三全局平均池化层和第一softmax层,获得样本人脸图像在不同通道上的概率分布;
将翻转人脸图像的多通道特征图经过第四全局平均池化层和第二softmax层,获得翻转人脸图像在不同通道上的概率分布;
基于样本人脸图像与翻转人脸图像在不同通道上的概率分布之间的JS(Jensen-Shannon)散度,确定通道域一致性约束。
作为优选,可以结合分类约束,空间域一致性约束和通道域一致性约束对面部表情识别模型进行训练。空间域一致性约束通过观察人脸图像的特征图水平翻转前后的热力图关注的区域,迫使网络学习特征图中与标签相关的区域,从而提高模型的鲁棒性;通道域一致性约束通过最小化特征图水平翻转前后的通道表征的差异,使通道表征的概率分布趋于一致,从而辅助空间域一致性约束;两个约束相互协作,能够极大提高模型的准确性和鲁棒性。下面以该优选方案为例进行详细说明。
在该优选方案下,第三全局平均池化层可以是第一全局平均池化层,第四全局平均池化层可以是第二全局平均池化层。第一分支还可以包括第一softmax层,第二分支还可以包括第二softmax层。在将样本人脸图像的多通道特征图经过第一全局平均池化层之后,可以获得第一全局平均池化层输出的结果即全局平均池化操作后获得的空间平均值,将该结果输入到第一softmax层,可以获得样本人脸图像在不同通道上的概率分布。类似地,将翻转人脸图像的多通道特征图经过第二全局平均池化层输出的结果输入到第二softmax层,可以获得翻转人脸图像在不同通道上的概率分布。
随即,考虑到KL(Kullback-Leibler)散度的不对称性使得训练过程中可能会导致训练效率降低,收敛速度变慢,为了解决这个问题,本发明实施例用JS散度来表示两个分布之间的差异,根据样本人脸图像与翻转人脸图像在不同通道上的概率分布之间的JS散度,确定通道域一致性约束。
进一步地,通道域一致性约束的损失值具体可以用如下公式表示:
P=softmax(GAP(F))
Q=softmax(GAP(F′))
其中分别代表样本人脸图像的多通道特征图F的通道特征概率分布,翻转人脸图像的多通道特征图F′的通道特征概率分布,此处的通道特征概率分布即特征图在不同通道上的概率分布,也表征人脸图像在不同通道上的概率分布。GAP即表示全局平均池化层。
本发明实施例提供的方法,对特征图在空间维度上进行压缩,推理出水平翻转前后对应的通道表征概率分布;通道域一致性约束通过最小化特征图水平翻转前后的通道表征的差异,使通道表征的概率分布趋于一致,进一步提高模型的准确性和鲁棒性。
基于上述任一实施例,面部表情识别模型的损失函数可以分为三部分:对于空间域一致性约束采用均方误差损失函数,对于通道域一致性约束采用JS散度损失函数,对于最终分类约束采用交叉熵损失函数。
分类约束的损失函数具体可以用如下公式表示:
表示是FC层(即第一全连接层)第yi个权重,其中yi表示第i个样本给定的标签,例如Surprise(惊讶)、Fear(恐惧)、Disgust(厌恶)、Happy(高兴)、Sad(悲伤)、Angry(生气)、Neutral(自然)。fi表示第i个样本的特征图F经过GAP层(即第一全局平均池化层)得到的特征。N表示样本容量。
本发明实施例提供的方法,利用优化的损失函数使面部表情识别整体呈现出强一致性,使得面部表情识别的准确度大大提升。
基于上述任一实施例,本发明提供了一种基于混合域一致性约束的面部表情识别方法,其具体实施步骤如下:
S1、将单张人物RGB图像,或是标准数据集中的图像,进行人脸裁剪,裁剪后的图片尺寸为224×224,并进行随机擦除;
S2、输入的图像在送入以ResNet50为骨干的网络之前,要进行水平翻转,将翻转前后的两张图像都送入骨干网络,输出的两路特征向量分别经过通道一致性约束模块与空间一致性约束模块处理。
S3、在S2步骤中的通道一致性约束模块对特征在空间维度上进行压缩,推理出水平翻转前后对应的通道表征概率分布。空间一致性约束模块通过权重加权整合全局的空间信息,得到水平翻转前后的注意力热图。
S4、将S3步骤中通过通道一致性约束模块得到的翻转前后的通道表征概率用JS损失函数进行约束,通过空间一致性约束模块得到的翻转前后的注意力热图用均方差损失函数进行约束,最后用交叉熵损失函数加以训练得到最终分类结果。
本发明各步骤涉及的思路总体介绍如下:
首先,通过裁剪得到人脸图像,降低了无关背景因素的干扰,图片尺寸的减小也减轻了模型的计算负担。其次,空间域一致性约束模块通过观察特征图水平翻转前后的CAM热力图关注的区域,迫使网络学习特征图中与标签相关的区域,从而提高模型的鲁棒性;通道域一致性约束模块通过最小化特征图水平翻转前后的通道表征的差异,使通道表征的概率分布趋于一致,从而辅助空间域一致性约束模块。该方法的两个部分相互协作,提高了模型的准确性和鲁棒性。最后,利用优化的损失函数使面部表情识别整体呈现出强一致性,使得面部表情识别的准确度大大提升。
经过上述四个步骤后,本发明所提出的面部表情识别方法,解决了传统面部表情识别过程中出现的由于翻转图像后识别的语义信息不一致所导致的识别准确率低的问题。
基于上述任一实施例,图2为本发明提供的基于混合域一致性约束的面部表情识别方法的实施框图,如图2所示,本发明所提出的面部表情识别方法整体包含以下几个模块:(1)图像输入模块;(2)特征提取模块;(3)空间域一致性约束模块;(4)通道域一致性约束模块;(5)全损失函数模块。各模块涉及的具体操作步骤如下:
一、图像输入模块:首先,获取待识别面部表情的人物图像或视频,进行预处理操作,具体的操作过程包括但不限于:进行人脸裁剪,得到去除背景后的人脸图片;将图片的尺寸调节为224x 224像素大小;将视频帧按帧序排列,将图片集中的图片按照顺序排列;对所有图片进行随机擦除处理。其中,随机擦除处理的目的是为了防止训练过程中模型过于关注局部特征而导致模型的通用性降低。该图像输入模块的输出是一批已经处理的人脸标准化图像,为后续的面部表情识别提供输入数据。
二、特征提取模块:图3为本发明提供的面部表情识别模型的框架图,如图3所示,特征提取模块采用基于预训练的ResNet50作为骨干网络(即图3中的CNN Backbone)。本发明的模块在MS-Celeb-1M数据集上进行了预训练,这使得本发明的模型可以从大规模数据集中学习到丰富的特征表达,具有更好的泛化能力和鲁棒性。
三、空间域一致性约束模块(即图3中的SDC模块):全局平均池化(GAP)层整合了全局的空间信息,GAP之后的均值通过全连接(FC)层的权重加权得到分类的概率,而CAM是把GAP之前的特征图进行加权得到了分类的解释。
其中,xi,j,k是输入特征图在第i个通道上,第j行k列的值;H和W分别是输入特征图的高和宽;yi是GAP输出特征图在第i个通道上的值。全局平均池化操作将每个通道上的所有像素值取平均作为该通道的特征值,因此可以将每个通道的整个特征图压缩为一个向量。
如图3所示,来自两个分支的最后一个卷积层的特征图分别为特征图通过GAP后得到相应的空间平均值/>作为特征图通道的权重,最后图像分类的全连接层的权重为/>改变特征图F,F′的形状为1×C×H×W,Wgap的形状为1×C×1×1,改变FC权重Wfc的形状为L×C×1×1,通过逐通道相乘的方式线性组合每个标签的特征图,并沿通道维度C求和,得到每个标签对应的CAM热力图/>形式化的有:
即,形状为LxCx1x1的权重Wfc与前面形状为1xCxHxW的特征图F线性组合为形状LxCxHxW,其原理就是全连接层中每个类别对应C个通道的权重,将这C个通道的权重与特征图F中每个通道的特征图相乘,最终将C个加权后的特征图沿着通道维度C相加,得到的形状为LxHxW的热力图,代表每个标签对应的热力图。
其中L,C,H,W分别是分类任务类别数,特征图的通道数,高度和宽度。其中Ml(i,j)表示标签l在空间位置(i,j)处的注意力热图,W(l,c)表示特征图通道c对应标签l的权重,为Wfc中的一个值,Fc(i,j)表示在空间位置(i,j)处从最后卷积层开始通道c的特征图。
上式表示的是对单个面部表情样本图像的空间域一致性距离。
四、通道域一致性约束模块(即图3中的CDC模块):鉴于每个通道都包含特定的特征响应,其对最终分类的贡献度具有判别性,因此在探究通道域的一致性问题时,本发明提出了一个先验假设:对于给定的来自两个分支从最后一个卷积层输出的一对特征图通道域一致性约束模块推理出对应的通道表征概率分布P与Q是一致的,/>
P=softmax(GAP(F))
Q=softmax(GAP(F′))
具体来说,通道表征概率分布是指输出的两路特征图形状1xCxHxW沿着通道维度C做softmax得到形状1xC的概率分布,这里C个概率值代表了本张图片在不同通道上的概率分布,因为翻转前后的图片只是在空间维度上翻转,所以翻转前后的图片沿着通道维度C做softmax得到的通道概率分布可以直接通过JS散度来计算概率分布差距,进而作为损失函数优化网络。
为了衡量两个概率分布之间的差异,本发明首先引入KL散度描述P到Q的差异:
当P和Q的相似度越高,KL散度越小。同理可得Q到P的差异:
但是由于KL散度的不对称性使得训练过程中可能会导致的训练效率降低,收敛速度变慢,为了解决这个问题,本发明用JS散度来表示两个分布之间的差异。
将上式化简可以得到:
五、全损失函数模块:对于空间域一致性约束模块采用均方误差损失函数,对于通道域一致性约束模块采用JS散度损失函数,对于最终分类采用交叉熵损失函数。
其中本发明用交叉熵函数作为分类损失函数(即图3中的CE损失),如下所示:
空间域一致性约束损失函数(即图3中的SDC损失)可表示为:
Mn,l表示第n个样本第l类标签的热力图,M′n,l则是Mn,l对应的人脸图像翻转后的热力图,其中N表示样本容量,L表示分类任务类别总数,H,W分别为人脸图像的高度和宽度。
通道域一致性约束损失函数(即图3中的CDC损失)可表示为
全目标函数的计算方法如下:
为了更好地对本发明提供的空间域一致性约束和通道域一致性约束做出进一步解释,以下结合示例进行具体说明。
示例:
本发明实施例从原图与水平翻转对应图在加入空间域一致性约束和通道域一致性约束的前后热力图的实验对比中,可以发现网络在单独使用CDC模块的情况下,模型的分类准确率提高了1.64%,并且热力图结果显示模型对于嘴部区域的关注明显增加。在单独使用SDC模块的情况下,模型的分类准确率提高了2.17%,同时热力图结果显示模型对于鼻部区域的关注明显增加。在同时使用SDC和CDC模块的情况下,模型的分类准确率提高了2.61%,同时热力图结果显示模型对于面部整体区域的关注均有所增加。
需要说明的是,单独使用某一个模块的时候虽然也能一定程度提高分类准确率,但网络的分类决策来源于面部区域对网络贡献的偏好不同,并没有完全利用到整个面部的信息。
相较于传统的面部表情识别方法,本发明取得了以下几点增益效果:
针对现有在线学习场景下面部表情识别算法的不足,本发明提出了一个改进的面部表情识别模型,称为混合域一致性模型。首先,从面部表情样本图像本身出发通过与图像变换后的面部表情样本图像对比的方法挖掘了潜在注意力一致性特征表达(不同于HOG、SIFT等手工特征)作为有效监督信息,从而提升了分类性能,并且基于注意力一致性约束的损失函数无需额外的标签,解决了现有面部表情识别方法因存在的问题(光照不均匀,面部遮挡,标记噪声)造成的性能下降,该方法具有易迁移性。
具体而言:首先分别在空间域和通道域上提取面部表情相关特征;其次,通过设计的混合域一致性损失函数来约束特征的一致性表达;最后,综合考虑空间域特征的注意力热力图一致性和通道域表征的概率分布一致性对于分类贡献的影响,通过混合域一致性约束的损失函数来学习网络权重优化分类网络。
基于上述任一实施例,本发明提供一种基于混合域一致性约束的面部表情识别系统,图4是本发明提供的基于混合域一致性约束的面部表情识别系统的架构图,如图4所示,该系统包括:
模型训练模块410,用于以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得面部表情识别模型;空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;翻转人脸图像为水平翻转后的样本人脸图像;
表情识别模块420,用于将待识别的人脸图像输入至面部表情识别模型,获得人脸图像的表情识别结果。
本发明实施例提供的系统,通过在对面部表情识别模型进行训练时,在分类约束条件的基础上,新增空间域一致性约束和/或通道域一致性约束,从样本人脸图像本身出发,通过与翻转变换后的样本人脸图像对比的方法挖掘了潜在注意力一致性特征表达作为有效监督信息,从而提升了模型的分类性能,可以处理各种复杂的面部表情图像,解决了传统面部表情识别的准确率低的问题,并且训练过程中自动生成注意力的标签,无需额外的手工特征标签,提高了模型的收敛效率,另外,经过在公共数据集上的验证可知,本发明对于不同身份的人,在光照不均,面部遮挡,标注噪声等场景下均表现出较高的鲁棒性。
可以理解的是,上述各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
基于上述实施例中的方法,本发明实施例提供了一种电子设备。该设备可以包括:至少一个用于存储程序的存储器和至少一个用于执行存储器存储的程序的处理器。其中,当存储器存储的程序被执行时,处理器用于执行上述实施例中所描述的方法。
基于上述实施例中的方法,本发明实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中所描述的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于混合域一致性约束的面部表情识别方法,其特征在于,包括:
S101将待识别的人脸图像输入至面部表情识别模型,获得所述人脸图像的表情识别结果;
其中,所述面部表情识别模型是以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得的;所述空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;所述翻转人脸图像为水平翻转后的样本人脸图像。
2.根据权利要求1所述的方法,其特征在于,所述空间域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第一全局平均池化层和第一全连接层,获得样本人脸图像在不同通道上的权重,并与样本人脸图像的多通道特征图进行逐通道相乘,获得样本人脸图像的热力图;
将翻转人脸图像的多通道特征图经过第二全局平均池化层和第二全连接层,获得翻转人脸图像在不同通道上的权重,并与翻转人脸图像的多通道特征图进行逐通道相乘,获得翻转人脸图像的热力图;
基于样本人脸图像的热力图与翻转人脸图像的热力图之间的均方差,确定所述空间域一致性约束。
3.根据权利要求1所述的方法,其特征在于,所述通道域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第三全局平均池化层和第一softmax层,获得样本人脸图像在不同通道上的概率分布;
将翻转人脸图像的多通道特征图经过第四全局平均池化层和第二softmax层,获得翻转人脸图像在不同通道上的概率分布;
基于样本人脸图像与翻转人脸图像在不同通道上的概率分布之间的JS散度,确定所述通道域一致性约束。
4.一种基于混合域一致性约束的面部表情识别系统,其特征在于,包括:
模型训练模块,用于以空间域一致性约束和/或通道域一致性约束为约束,基于样本人脸图像及其对应的面部表情标签训练获得面部表情识别模型;所述空间域一致性约束为样本人脸图像的热力图与翻转人脸图像的热力图之间的一致性约束;通道域一致性约束为样本人脸图像与翻转人脸图像在不同通道上的概率分布的一致性约束;所述翻转人脸图像为水平翻转后的样本人脸图像;
表情识别模块,用于将待识别的人脸图像输入至所述面部表情识别模型,获得所述人脸图像的表情识别结果。
5.根据权利要求4所述的系统,其特征在于,所述模型训练模块中所采用的空间域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第一全局平均池化层和第一全连接层,获得样本人脸图像在不同通道上的权重,并与样本人脸图像的多通道特征图进行逐通道相乘,获得样本人脸图像的热力图;
将翻转人脸图像的多通道特征图经过第二全局平均池化层和第二全连接层,获得翻转人脸图像在不同通道上的权重,并与翻转人脸图像的多通道特征图进行逐通道相乘,获得翻转人脸图像的热力图;
基于样本人脸图像的热力图与翻转人脸图像的热力图之间的均方差,确定所述空间域一致性约束。
6.根据权利要求4所述的系统,其特征在于,所述模型训练模块中所采用的通道域一致性约束基于如下步骤确定:
将样本人脸图像的多通道特征图经过第三全局平均池化层和第一softmax层,获得样本人脸图像在不同通道上的概率分布;
将翻转人脸图像的多通道特征图经过第四全局平均池化层和第二softmax层,获得翻转人脸图像在不同通道上的概率分布;
基于样本人脸图像与翻转人脸图像在不同通道上的概率分布之间的JS散度,确定所述通道域一致性约束。
7.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443111.9A CN116434311A (zh) | 2023-04-23 | 2023-04-23 | 一种基于混合域一致性约束的面部表情识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443111.9A CN116434311A (zh) | 2023-04-23 | 2023-04-23 | 一种基于混合域一致性约束的面部表情识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116434311A true CN116434311A (zh) | 2023-07-14 |
Family
ID=87088851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310443111.9A Pending CN116434311A (zh) | 2023-04-23 | 2023-04-23 | 一种基于混合域一致性约束的面部表情识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434311A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912923A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型训练方法和装置 |
CN117392731A (zh) * | 2023-12-08 | 2024-01-12 | 深圳须弥云图空间科技有限公司 | 表情识别模型的训练方法和装置 |
-
2023
- 2023-04-23 CN CN202310443111.9A patent/CN116434311A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912923A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型训练方法和装置 |
CN116912923B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型训练方法和装置 |
CN117392731A (zh) * | 2023-12-08 | 2024-01-12 | 深圳须弥云图空间科技有限公司 | 表情识别模型的训练方法和装置 |
CN117392731B (zh) * | 2023-12-08 | 2024-04-12 | 深圳须弥云图空间科技有限公司 | 表情识别模型的训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | In ictu oculi: Exposing ai generated fake face videos by detecting eye blinking | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
Han et al. | Fighting fake news: two stream network for deepfake detection via learnable SRM | |
CN116434311A (zh) | 一种基于混合域一致性约束的面部表情识别方法及系统 | |
Das et al. | SSERBC 2017: Sclera segmentation and eye recognition benchmarking competition | |
CN112434599B (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
Aydogdu et al. | Comparison of three different CNN architectures for age classification | |
CN115131880A (zh) | 一种多尺度注意力融合的双重监督人脸活体检测方法 | |
CN113205002B (zh) | 非受限视频监控的低清人脸识别方法、装置、设备及介质 | |
CN114511912A (zh) | 基于双流卷积神经网络的跨库微表情识别方法及装置 | |
Diyasa et al. | Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN | |
CN113591825A (zh) | 基于超分辨网络的目标搜索重建方法、装置及存储介质 | |
CN115393788A (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
CN111144220A (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
Saealal et al. | Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance | |
Ueki et al. | Perceived age estimation under lighting condition change by covariate shift adaptation | |
Kumar et al. | Facial emotion recognition and detection using cnn | |
Zhu et al. | Micro-expression recognition convolutional network based on dual-stream temporal-domain information interaction | |
CN115050075B (zh) | 一种跨粒度交互学习的微表情图像标注方法及装置 | |
Yamamoto et al. | Algorithm optimizations for low-complexity eye tracking | |
CN113887468B (zh) | 一种三阶段网络框架的单视角人-物交互的识别方法 | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 | |
CN111898473B (zh) | 一种基于深度学习的司机状态实时监测方法 | |
CN111160078B (zh) | 一种基于视频图像的人体交互行为识别方法、系统及装置 | |
Yang et al. | Combining attention mechanism and dual-stream 3d convolutional neural network for micro-expression recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |