CN116343287A - 面部表情识别、模型训练方法、装置、设备及存储介质 - Google Patents
面部表情识别、模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116343287A CN116343287A CN202310076531.8A CN202310076531A CN116343287A CN 116343287 A CN116343287 A CN 116343287A CN 202310076531 A CN202310076531 A CN 202310076531A CN 116343287 A CN116343287 A CN 116343287A
- Authority
- CN
- China
- Prior art keywords
- feature map
- facial expression
- feature
- module
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 161
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 86
- 230000004927 fusion Effects 0.000 claims abstract description 63
- 230000001815 facial effect Effects 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 45
- 238000011176 pooling Methods 0.000 claims description 47
- 238000010586 diagram Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 230000003213 activating effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 19
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 15
- 238000005286 illumination Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 230000036544 posture Effects 0.000 description 8
- 230000008451 emotion Effects 0.000 description 6
- 206010063659 Aversion Diseases 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000010409 thin film Substances 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种面部表情识别、模型训练方法、装置、设备及存储介质,该面部表情识别方法通过获取目标对象的面部图像数据,对面部图像数据进行局部纹理信息提取,得到局部纹理特征向量,对面部图像数据进行关键全局特征提取,得到关键全局特征向量,将局部纹理特征向量和关键全局特征向量进行特征融合,得到待分类特征,对待分类特征进行面部表情识别,得到目标对象的面部表情类别,引入注意力机制得到的关键全局特征提取可以使神经网络更加关注输入面部表情中的重要特征,抑制非重要特征,可以有效的解决遮挡和非正面姿态问题,局部纹理信息提取适用于提取不同尺寸的纹理信息,基于上述面部表情识别方法,能够有效的提升识别准确率。
Description
技术领域
本发明实施例涉及图像处理技术领域,特别是涉及一种面部表情识别、模型训练方法、装置、设备及存储介质。
背景技术
面部表情在人们的日常交流中是表达情绪状态和意图最重要的信号之一。自动面部表情识别(FER)在人机交互、智能安全、多媒体娱乐、自动驾驶、服务机器人、行为心理学、医疗保健和驾驶员疲劳检测等和面部表情相关的领域发挥着越来越重要的作用。因此,为了促进FER的发展,越来越多的研究人员参与自动面部表情识别研究。根据数据集收集的场景不同,可以分为两种FER:实验室受控条件下的FER和野外环境下的FER。在实验室受控环境下收集的数据集,例如CK+、JAFFE、MMI和Oulu-CASIA,由于这些人脸图像都是正面的,几乎没有任何遮挡,因此,FER已经取得了显著的效果。然而在野外面部表情数据集,例如RAF-DB、EmotioNet、FERPLUS和AffectNet等数据集上,FER还存在巨大挑战。野外数据集中的图像是从现实世界中收集的,由于遮挡、光照、姿态变化、年龄和低质量的面部图像等影响,识别准确率远远令人无法满意。
目前,FER的研究主要分为两个方向:基于传统方法和基于深度学习的方法。传统方法大多采用手工设计的特征,例如定向方向梯度直方图(HOG)、局部二进制模式(LBP)、尺度不变特征变换(SIFT)、非负矩阵分解(NMF)和稀疏表示等,是最常见的提取面部表情特征的方法。Niu等人提出了一种基于LBP特征和改进的ORB相结合的方法,有效的解决了特征提取过程中特征点重叠和冗余的问题,并在多个实验受控的数据集上取得了良好的效果,但其输出非常依赖于先验知识,在面对不受约束的真实环境下缺乏泛化能力,很难达到竞争认可的结果。随着芯片处理能力(如GPU单元)和数据驱动的发展,基于深度学习的方法获得了比基于传统的方法更好的识别效果。最近,注意力机制已被广泛用于基于深度学习的图像分类任务,例如机器翻译、森林物种分类、病理图像分类等。在表情识别邻域,注意力机制的使用是当前的一种趋势,用于应对诸如遮挡、姿态变化等FER在野外的挑战情况。Wang等人提出一种基于空间注意力机制的轻注意力嵌入网络(LAENet-SA),并在不用层级中使用所提出的空间注意(SA)模块,SA模块通过根据情感标签的监督自适应的重新校准空间特征图,以增强浅层和深层中与情感相关的重要局部特征。
基于传统面部表情识别方法虽然在实验室受控的面部数据集上取得了一定的进展,但其工作量较大,步骤繁琐,且在自然环境下面部识别准确率不高,在实际应用上存在一定局限性。基于深度学习的面部表情识别方法在实验室受控的数据集上表现良好,在自然环境下的FER准确率相对于传统方法已有较大提升,但其结构复杂,且由于遮挡、光照、姿态变化等影响,导致模型的泛化能力和鲁棒性较差。因此,面部表情识别的准确率仍有进一步的提升空间。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种面部表情识别、模型训练方法、装置、设备及存储介质,用于解决传统面部表情识别方法工作量较大,步骤繁琐,且在自然环境下面部识别准确率不高,在实际应用上存在一定局限性,基于深度学习的面部表情识别方法结构复杂,且由于遮挡、光照、姿态变化等影响,导致模型的泛化能力和鲁棒性较差,如何进一步提升面部表情识别的准确率的技术问题。
针对于上述问题,本发明提供了一种面部表情识别方法,所述方法包括:获取目标对象的面部图像数据;对所述面部图像数据进行局部纹理信息提取,得到局部纹理特征向量;对所述面部图像数据进行关键全局特征提取,得到关键全局特征向量;将所述局部纹理特征向量和所述关键全局特征向量进行特征融合,得到待分类特征;对所述待分类特征进行面部表情识别,得到所述目标对象的面部表情类别。
于本发明一实施例中,对所述面部图像数据进行关键全局特征提取,得到关键全局特征向量包括:通过卷积层对所述面部图像数据进行处理,得到输入特征图;将所述输入特征图输入预设通道注意力模块,得到一维通道注意力特征图;将所述一维通道注意力特征图与所述输入特征图相乘,得到融合特征图;将所述融合特征图输入预设空间注意力模块,得到二维空间注意力特征图;将所述二维空间注意力特征图与所述融合特征图进行逐个元素相乘,得到所述关键全局特征向量。
于本发明一实施例中,将所述输入特征图输入预设通道注意力模块,得到一维通道注意力特征图包括:对所述输入特征图进行全局最大池化和全局平均池化,得到第一一维特征图和第二一维特征图;将所述第一一维特征图和所述第二一维特征图输入具有两个隐藏层的共享多层感知机,得到多层感知输出特征;合并所述多层感知输出特征,并进行激活,得到所述一维通道注意力特征图。
于本发明一实施例中,所述一维通道注意力特征图的确定方式包括:
其中,Nc(M)为一维通道注意力特征图,σ是Sigmoid激活函数,MLP为共享多层感知机,MaxPool是最大池化,AvgPool是平均池化,W0∈RC/r×C是MLP中第一个隐藏层的权重,W1∈RC/r×C是MLP中的第二个隐藏层的权重,r为缩减比,M为输入特征图,M∈RC×H×W。
于本发明一实施例中,将所述融合特征图输入预设空间注意力模块,得到二维空间注意力特征图包括:对所述融合特征图进行全局最大池化和全局平均池化,得到第一中间特征图和第二中间特征图;将所述第一中间特征图和所述第二中间特征图进行连接,生成第三中间特征图;对所述第三中间特征图进行卷积,并进行激活,得到所述二维空间注意力特征图。
于本发明一实施例中,所述二维空间注意力特征图的确定方式包括:
其中,Ns(M')为二维空间注意力特征图,σ是Sigmoid激活函数,Conv表示卷积运算,MaxPool是最大池化,AvgPool是平均池化,M'为融合特征图,为第一中间特征图,/>为第二中间特征图。
于本发明一实施例中,对所述待分类特征进行面部表情识别包括:将所述待分类特征依次输入预设全连接层和归一化指数分类器,以对所述目标对象的面部表情进行识别
本发明实施例还提供了一种面部表情识别模型训练方法,所述方法包括:获取预设面部表情数据集,并对所述预设面部表情数据集中的面部表情数据进行预处理,得到包括多个处理后面部表情数据;将多个处理后面部表情数据和所述预设面部表情数据集中的各面部表情数据确定为样本数据,所述样本数据包括面部图像数据和所述面部图像数据的真实面部表情类别;构建初始模型,所述初始模型包括数据获取模块、局部纹理信息提取模块、关键全局特征提取模块、特征融合模块和识别模块;通过所述数据获取模块将所述样本数据分别输入所述局部纹理信息提取模块和关键全局特征提取模块,得到样本局部纹理特征向量和样本关键全局特征向量;通过所述特征融合模块对所述样本局部纹理特征向量和所述样本关键全局特征向量进行特征融合,得到样本待分类特征;通过所述识别模块对所述样本待分类特征进行样本面部表情识别,得到样本面部表情类别;基于所述样本面部表情类别和所述样本数据的真实面部表情类别对所述初始模型进行调整,直至所述初始模型收敛,得到面部表情识别模型。
本发明实施例还提供了一种面部表情识别装置,所述装置包括:数据获取模块,用于获取目标对象的面部图像数据;局部纹理信息提取模块,用于对所述面部图像数据进行局部纹理信息提取,得到局部纹理特征向量;关键全局特征提取模块,用于对所述面部图像数据进行关键全局特征提取,得到关键全局特征向量;特征融合模块,用于将所述局部纹理特征向量和所述关键全局特征向量进行特征融合,得到待分类特征;识别模块,用于对所述待分类特征进行面部表情识别,得到所述目标对象的面部表情类别。
于本发明一实施例中,所述特征融合模块包括第一全连接层、第二全连接层和特征融合子模块;所述第一全连接层用于将所述关键全局特征向量进行第一连接;所述第二全连接层用于将所述局部纹理特征向量进行第二连接;所述特征融合子模块用于将第一连接后的所述关键全局特征向量和第二连接后的所述局部纹理特征向量进行融合,得到所述待分类特征。
于本发明一实施例中,所述关键全局特征提取模块包括卷积层、通道注意力模块和空间注意力模块,其中,所述卷积层用于对所述面部图像数据进行处理,得到输入特征图;所述通道注意力模块用于对所述输入特征图进行全局最大池化得到第一一维特征图,以及对所述输入特征图进行全局平均池化得到第二一维特征图,将所述第一一维特征图和所述第二一维特征图输入具有两个隐藏层的共享多层感知机,得到第一多层感知输出子特征和第二多层感知输出子特征,合并所述多层感知输出特征,并进行激活,得到一维通道注意力特征图;所述空间注意力模块用于对融合特征图进行全局最大池化和全局平均池化,得到第一中间特征图和第二中间特征图,将所述第一中间特征图和所述第二中间特征图进行连接,生成第三中间特征图,对所述第三中间特征图进行卷积,并进行激活,得到二维空间注意力特征图,所述融合特征图基于所述一维通道注意力特征图和输入特征图得到,所述关键全局特征向量基于所述二维空间注意力特征图和所述融合特征图得到。
本发明实施例还提供了一种电子设备,包括处理器、存储器和通信总线;所述通信总线用于将所述处理器和存储器连接;所述处理器用于执行所述存储器中存储的计算机程序,以实现如上述实施例中任一项所述的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如上述实施例中任一项所述的方法。
如上所述,本发明提供的一种面部表情识别、模型训练方法、装置、设备及存储介质,具有以下有益效果:
该面部表情识别方法通过获取目标对象的面部图像数据,对面部图像数据进行局部纹理信息提取,得到局部纹理特征向量,对面部图像数据进行关键全局特征提取,得到关键全局特征向量,将局部纹理特征向量和关键全局特征向量进行特征融合,得到待分类特征,对待分类特征进行面部表情识别,得到目标对象的面部表情类别,引入注意力机制得到的关键全局特征提取可以使神经网络更加关注输入面部表情中的重要特征,抑制非重要特征,可以有效的解决遮挡和非正面姿态问题,局部纹理信息提取适用于提取不同尺寸的纹理信息,采用该方式所得到的局部纹理特征向量可以解决遮挡、旋转不平衡和光照变化等问题,基于上述面部表情识别方法,能够有效的提升识别准确率。
附图说明
图1是本申请的一示例性实施例示出的面部表情识别方法的流程图。
图2为一种通过LBP模型进行局部纹理信息提取的结果示意图。
图3是本发明一实施例中示出的一种卷积块注意力模块的结构示意图。
图4是本申请的一示例性实施例示出的ResNet-CBAM残差块的一种结构示意图。
图5是本申请的一示例性实施例示出的ResNet-CBAM分支的一种结构示意图。
图6是本申请的一示例性实施例示出的面部表情识别方法的一种具体的流程图。
图7是本申请的一示例性实施例示出的FER2013数据集对应的混淆矩阵。
图8是本申请的一示例性实施例示出的PERLUS数据集对应的混淆矩阵。
图9是本申请的一示例性实施例示出的CK+数据集对应的混淆矩阵。
图10是本申请的一示例性实施例示出的RAF-DB数据集对应的混淆矩阵。
图11是本申请的一示例性实施例示出的面部表情识别装置的框图。
图12为一实施例提供的电子设备的一种结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,图1是本申请的一示例性实施例示出的面部表情识别方法的流程图。如图1所示,该方法至少包括步骤S101至步骤S104,详细介绍如下:
步骤S101,获取目标对象的面部图像数据。
其中,一种示例性的目标对象的面部图像数据的获取方式为,通过本领域技术人员所知晓的方法采集目标对象的原始图像,对该原始图像进行人脸检测,若检测到人脸,基于所检测到人员的位置,裁剪出人脸图像,得到面部图像数据。
当然,面部图像数据的获取方式还可以是通过本领域技术人员所知晓的其他方式实现,在此不做限定。
步骤S102,对面部图像数据进行局部纹理信息提取,得到局部纹理特征向量。
在一实施例中,对面部图像数据进行局部纹理信息提取可以通过局部二值模式(LBP)实现,LBP是一种描述图像纹理的算法,对于光照引起的变化具有灰度不变性和旋转不变性等优点,因此适用于提取不同尺寸的纹理信息,可以解决遮挡、旋转不平衡和光照变化等问题。在FER中,LBP有助于识别面部表情的相关特征,例眼睛、眉毛、鼻子和嘴巴,使用LBP可以获取面部的微小变化并有效地提取图像的纹理信息,可以提高网络的性能,经过LBP特征提取之后的图像如图2所示。图2为一种通过LBP模型进行局部纹理信息提取的结果示意图。局部二值模式(LBP)是一种探索局部纹细节的最常用的纹理模式描述符,被认为是纹理处理的最佳方法之一,在图像处理中广泛应用。LBP算子定义3×3的邻域,以中心像素作为阈值,将中心像素与其相邻的8个像素的灰度值进行比较。如果相邻像素值大于或等于中心像素值,则代码值为1,否则为0,将生成的8位二进制数进行编码,并将二进制码转换成十进制值,并用其十进制值设置为中心像素值。由于原始的LBP算法只能覆盖一个很小的3×3邻域范围,不能适用于提取不同大小和频率纹理的特征的需求,在本实施例中,圆形LBP算法将3×3的邻域扩展到任意邻域,并且允许在半径为R的圆形邻域内存在任意对个像素点。一种局部纹理信息提取模型的定义如下:
其中,N是采样点个数,R为圆邻域采样半径,(xc,yc)为中心像素坐标,gc为中心像素点的像素值,gn为邻域像素点的像素值,s为符号函数,其定义如下:
通过将面部图像数据进行局部纹理信息提取,得到局部纹理图像数据,并转化得到局部纹理特征向量,能够捕获目标对象在面部图像中面部表情的微小运动并提取图像的局部纹理特征。能够提取不同尺寸的纹理信息,可以解决遮挡、旋转不平衡和光照变化等问题。
步骤S103,对面部图像数据进行关键全局特征提取,得到关键全局特征向量。
在一实施例中,对面部图像数据进行关键全局特征提取,得到关键全局特征向量包括:
通过卷积层对面部图像数据进行处理,得到输入特征图;
将输入特征图输入预设通道注意力模块,得到一维通道注意力特征图;
将一维通道注意力特征图与输入特征图相乘,得到融合特征图;
将融合特征图输入预设空间注意力模块,得到二维空间注意力特征图;
将二维空间注意力特征图与融合特征图进行逐个元素相乘,得到关键全局特征向量。
其中,将输入特征图输入预设通道注意力模块,得到一维通道注意力特征图包括:
对输入特征图进行全局最大池化和全局平均池化,得到第一一维特征图和第二一维特征图;
将第一一维特征图和第二一维特征图输入具有两个隐藏层的共享多层感知机,得到多层感知输出特征;
合并多层感知输出特征,并进行激活,得到一维通道注意力特征图。
一种示例性的一维通道注意力特征图的确定方式包括:
其中,Nc(M)为一维通道注意力特征图,σ是Sigmoid激活函数,MLP为共享多层感知机,MaxPool是最大池化,AvgPool是平均池化,W0∈RC/r×C是MLP中第一个隐藏层的权重,W1∈RC/r×C是MLP中的第二个隐藏层的权重,为了降低参数,将隐藏层数量压缩到r倍,r为缩减比,M为输入特征图,M∈RC×H×W。
在本实施例中,将融合特征图输入预设空间注意力模块,得到二维空间注意力特征图包括:
对融合特征图进行全局最大池化和全局平均池化,得到第一中间特征图和第二中间特征图;
将第一中间特征图和第二中间特征图进行连接,生成第三中间特征图;
对第三中间特征图进行卷积,并进行激活,得到二维空间注意力特征图。
一种示例性的二维空间注意力特征图的确定方式包括:
其中,Ns(M')为二维空间注意力特征图,σ是Sigmoid激活函数,Conv表示卷积运算,MaxPool是最大池化,AvgPool是平均池化,M'为融合特征图,为第一中间特征图,/>为第二中间特征图。
本实施例中,关键全局特征向量可以通过ResNet-CBAM注意力分支进行提取,在一示例中,ResNet-CBAM注意力分支以ResNet18为主干,将原始ResNet中的初始7×7的卷积核改为3×3大小并去除了最大池化层,以避免过度减少特征映射大小。在一示例中,注意力分支结构由卷积层、八个ResNet-CBAM残差块、池化层、全连接层和softmax组成。在所有的卷积层中,卷积核的大小为3×3,填充为1。将融合后的特征经过全连接层,全连接层将提取的特征映射到样本空间,并通过softmax函数对其进行分类以获得分类结果。
通过注意力机制可以使神经网络更加关注输入人脸表情图像中的重要特征,抑制非重要特征,可以有效的解决遮挡和非正面姿态问题。卷积块注意力模块(CBAM)可以独立学习每个通道和空间特征的重要信息,增加特征表达能力,将注意力机制融入到模型中可以起到提高模型的效率和分类准确率的作用。在一示例中,CBAM由两个子模块组成,通道注意力模块(CAM)和空间注意力模块(SAM)。参见图3,图3是本发明一实施例中示出的一种卷积块注意力模块的结构示意图,如图3所示,一种CBAM模型的整体架构如图3中A所示。对于给定的一个输入特征图M∈RC×H×W,通过CAM得到一维通道注意力特征图Nc∈RC×1×1,Nc(M)和输入特征图M相乘得到新的特征图M'∈RC×H×W(融合特征图)。通过SAM生成二维空间注意力图Ns∈R1×H×W,Ns(M)和M'进行逐个元素相乘,得到输出特征图M″∈RC×H×W,也即关键全局特征向量。
一种示例的整个注意力过程可以表示为:
其中,M为输入特征图,Nc(M)为一维通道注意力特征图,Ns(M)为一维空间注意力特征图,M'为融合特征图,M″为关键全局特征向量。
通道注意模块的详细信息如图3中B所示。通道注意力模块使网络更多地专注于图像中的关键信息而忽略其余信息。CAM模块首先对输入特征M∈RC×H×W进行全局最大池化(MaxPool)和全局平均池化(AvgPool)在通道维度上进行压缩得到两个一维特征图和/>然后将两者发送到具有两个隐藏层的共享多层感知机(MLP)以生成输出特征,将MLP输出的特征进行逐元素加和⊕来合并输出特征,再进行Sigmoid激活操作,以生成最终的一维通道注意力特征图:Nc∈RC×1×1。
一种示例的通道注意力模块计算过程可以表示为:
其中σ是Sigmoid激活函数,MaxPool是最大池化,AvgPool是平均池化W0∈RC/r×C是MLP中第一个隐藏层的权重,W1∈RC/r×C是MLP中的第二个隐藏层的权重,为了降低参数,将隐藏层数量压缩到r倍,r为缩减比,r值可以为16等本领域技术人员所设定的数值,Nc(M)为一维通道注意力特征图,M为输入特征图,M∈RC×H×W。
空间注意力模块的详细信息如图3中C所示。空间注意力模块是通道注意力模块的重要补充,其主要目的是发现CAM处理后面部表情最有意义的信息部分。SAM模块将CAM模块的输出特征图M'作为本模块的输入特征图,然后在通道维度上对输入特征图M'进行最大池化和平均池化连续处理,生成两个1×H×W特征(第一中间特征图)和(第二中间特征图),然后连接生成一个2×H×W特征图(第三中间特征图),然后使用7×7的卷积核操作将维度减少1×H×W,最后经过Sigmoid生成一个二维空间注意力特征图:Ns∈R1×H×W。
在一示例中,空间注意力模块计算过程可以表示为:
其中,Ns(M')为二维空间注意力特征图,σ是Sigmoid激活函数,Conv表示卷积运算,卷积核的大小为7×7,MaxPool是最大池化,AvgPool是平均池化,M'为融合特征图,为第一中间特征图,/>为第二中间特征图。
图4是本申请的一示例性实施例示出的ResNet-CBAM残差块的一种结构示意图,如图4所示,为了消除冗余信息并强调中间层的重要特征,将CBAM注意力机制应用于Residual结构中。通过使用CAM模块和SAM模块的顺序连接,将CBAM模块集成到ResNet网络中,如图5所示,图5是本申请的一示例性实施例示出的ResNet-CBAM分支的一种结构示意图。本实施例提供的方案中,基于CBAM模块的集成位置,进一步的提高了模型的分类性能,通过本实施例提供的方式所得到的关键全局特征向量,有效的提升了识别准确性。
需要说明的是,步骤S102与步骤S103之间并没有步序的限定,本领域技术人员可以根据需要进行选择,是否同时执行步骤S102与步骤S103,或者先执行其中一个步骤再执行另一个步骤。
步骤S104,将局部纹理特征向量和关键全局特征向量进行特征融合,得到待分类特征。
在一实施例中,待分类特征的一种生成方式为:
将关键全局特征向量进行第一连接,将局部纹理特征向量进行第二连接,将第一连接后的关键全局特征向量和第二连接后的局部纹理特征向量进行融合,得到待分类特征。
例如,将输入图片经过注意力分支(ResNet-CBAM分支)提取特征之后再经过自适应平均池化操作转化为特征向量,得到特征向量FA,再经过全连接层FC1和经过LBP分支提取特征之后转化的特征向量,得到特征向量FL,再经过全连接层FC2,将经过全连接层之后的特征进行特征融合,融合起来得到待分类特征FV(FV=concatenate(FC1(FA),FC2(FL)))。
步骤S105,对待分类特征进行面部表情识别,得到目标对象的面部表情类别。
在一实施例中,对待分类特征进行面部表情识别包括:
将待分类特征依次输入预设全连接层和归一化指数分类器,以对目标对象的面部表情进行识别。
例如,将融合后的特征(待分类特征)经过全连接层FC3进行特征操作,最后再经过softmax分类器对人脸面部表情进行识别,输出人脸表情类别,一种示例的过程公式如下所示:
F=σ(FC3(concatenate(FC1(FA),FC2(FL))))公式(8),
其中,F为人脸表情类别为7或8,FC1的输入参数为512,FC2的输入参数为256,FC3的输入参数为14,输出参数为7或8代表识别结果的种类,σ是Sigmoid激活函数。
上述实施例提供的面部表情识别方法,通过获取目标对象的面部图像数据,对面部图像数据进行局部纹理信息提取,得到局部纹理特征向量,对面部图像数据进行关键全局特征提取,得到关键全局特征向量,将局部纹理特征向量和关键全局特征向量进行特征融合,得到待分类特征,对待分类特征进行面部表情识别,得到目标对象的面部表情类别,引入注意力机制得到的关键全局特征提取可以使神经网络更加关注输入面部表情中的重要特征,抑制非重要特征,可以有效的解决遮挡和非正面姿态问题,局部纹理信息提取适用于提取不同尺寸的纹理信息,采用该方式所得到的局部纹理特征向量可以解决遮挡、旋转不平衡和光照变化等问题,基于上述面部表情识别方法,能够有效的提升识别准确率。
本发明实施例还提供了一种面部表情识别模型训练方法,该方法包括:
获取预设面部表情数据集,并对预设面部表情数据集中的面部表情数据进行预处理,得到包括多个处理后面部表情数据;
将多个处理后面部表情数据和预设面部表情数据集中的各面部表情数据确定为样本数据,样本数据包括面部图像数据和面部图像数据的真实面部表情类别;
构建初始模型,初始模型包括数据获取模块、局部纹理信息提取模块、关键全局特征提取模块、特征融合模块和识别模块;
通过数据获取模块将样本数据分别输入局部纹理信息提取模块和关键全局特征提取模块,得到样本局部纹理特征向量和样本关键全局特征向量;
通过特征融合模块对样本局部纹理特征向量和样本关键全局特征向量进行特征融合,得到样本待分类特征;
通过识别模块对样本待分类特征进行样本面部表情识别,得到样本面部表情类别;
基于样本面部表情类别和样本数据的真实面部表情类别对初始模型进行调整,直至初始模型收敛,得到面部表情识别模型。
初始模型收敛也即该初始模型所输出的样本面部表情类别的准确率达到预设准确率。
在一实施例中,基于训练后得到的面部表情识别模型,可以将目标对象的面部图像数据输入该面部标识事情模型,输出该目标对象的面部表情类别。
在一实施例中,预处理的方式包括但不限于,首先对面部表情数据进行人脸检测,然后裁剪感兴趣的面部区域,将裁剪后的人脸图像统一缩放为预设规格大小,如100×100像素。为了减少过拟合,对面部表情数据中的人脸图像采用了数据增强技术。主要包括从图像的中心和四个角随机选取裁剪出预设裁剪大小的图像如80×80大小的图像,然后进行以下至少一种操作:水平翻转、平移、旋转、对比度和颜色扰动以及对图像进行随机遮挡等操作。通过预处理的操作,能够减少过拟合,丰富样本的丰富度。
在一实施例中,对初始模型进行训练过程中使用随机梯度下降算法(SGD)作为优化器,网络权重的分类损失函数使用交叉熵损失函数。
下面以预设面部表情数据集为人脸表情数据集FER2013、FERPLUS、CK+和RAF-DB为例,对包含人脸图像的数据进行预处理的一种示例性的方式如下:
本发明中使用的为FER2013、FERPLUS、CK+和RAF-DB表情数据集中的图像。首先对输入图像使用Dlib库提供的面部关键点检测模型shape_predictor_68_face_landmarks.dat进行人脸检测,然后裁剪感兴趣的面部区域,将裁剪后的人脸图像统一缩放为100×100像素。为了减少过拟合,对数据集中的人脸图像采用了数据增强技术。主要包括从图像的中心和四个角随机选取裁剪出80×80大小的图像,然后水平翻转、平移、旋转、对比度和颜色扰动以及对图像进行随机遮挡等操作。
本发明实施例提出一种注意力机制和LBP特征融合的模型,以对面部表情进行分类,该模型结构主要由两个分支组成,即LBP特征提取分支和ResNet-CBAM注意力分支,LBP分支提取局部纹理特征,ResNet-CBAM分支突出关键全局特征。第一个分支(LBP特征提取分支)将输入的图片经过LBP特征捕获面部表情的微小运动并提取图像的局部纹理特征,第二个分支(ResNet-CBAM注意力分支)将输入的图片经过注意力分支使模型突出关键全局特征并关注面部表情的重要区域如眼睛和嘴巴,然后将经过两个分支提取的特征融合起来。
经过上述步骤,实现了在实验室受控环境下和自然环境下面部表情识别。在训练过程中使用随机梯度下降算法(SGD)作为优化器,初始学习率设置为0.9,动量设置为0.1,权重衰减为0.0001,随机失活层设置为0.5,网络权重的分类损失函数使用交叉熵损失函数。
为了验证本发明提供的模型的有效性,在FER2013、FERPLUS、CK+和RAF-DB四个数据集上进行了广泛的实验。使用Pytorch作为深度学习框架,Python3.8作为编程语言,在配置为Intel i7-10700 CPU和NVIDIA GTX3060的Windows10系统环境中进行了实验。
FER2013数据集:该数据集包含35887张48×48的灰度人脸图像组成,图像的分辨率比较低,并且包含了不同光照、姿态的人脸具有很多噪声。数据集由28709张训练图像(Training)、3589张私人测试图像(PrivateTest)和3589张公共测试图像(PublicTest)组成,共七种表情,分别是生气(anger)、厌恶(disgust)、恐惧(fear)、开心(happy)、伤心(sad)、惊讶(surprise、中立(neutral),PrivateTest用于验证,PublicTest用于测试。
FERPLUS数据集:FERLPUS数据集是从原始的FER2013数据集扩充而来的,除了FER2013的七种基本表情之外,还额外添加了蔑视(contempt),未知和非人脸。经过处理后的数据集由25060张训练图像、3153张私人测试图像和3199张公共测试图像组成。
CK+数据集:是一种在实验室控制条件下的基准数据集。该数据集由来自123名受试者的593个图像序列组成,每个图像序列显示面部表情从中性逐渐达到峰值的变化,其中327个图像序列具有面部表情标签包括六种基本表情(即愤怒、厌恶、恐惧、开心、悲伤、惊讶、)和蔑视。实验从被标记为七种基本面部表情的序列中提取具有峰值信息的最后三帧作为实验中使用的数据集,最后提取了981张图像。最后将CK+数据集按9:1的比例划分为训练集和测试集。
RAF-DB数据集:RAF-DB真实世界的情感面孔数据库,它包含29672张100×100张人脸RGB图像,数据集中的图像由于遮挡、照明条件、姿态变化、年龄、性别等因素具有很大的差异性。该数据集包含两个不同的子集:单标签子集,包含七种基本情绪(惊讶、恐惧、厌恶、快乐、悲伤、愤怒和中性);双标签子集,包含12类情绪;实验采用单标签子集,该子集由12271张训练图像和3068张测试图像。
实验采用准确率和混淆矩阵来作为面部表情识别的评价指标。混淆矩阵的行代表验证样本的真实类别,而混淆矩阵的列代表验证样本的预测类别,对角线上的准确率表示每个类别的正确预测百分比。
通过上述方式,能够得到更加关注输入面部表情中的重要特征,抑制非重要特征,可以有效的解决遮挡和非正面姿态问题,局部纹理信息提取适用于提取不同尺寸的纹理信息,基于该方法所训练得到的模型,能够有效的提升面部表情识别的识别准确率。
请参阅图6,图6是本申请的一示例性实施例示出的面部表情识别方法的一种具体的流程图。如图6所示,针对于相关技术中,基于传统人脸表情识别方法虽然在实验室受控的面部数据集上取得了一定的进展,但其工作量较大,步骤繁琐,且在自然环境下面部识别准确率不高,在实际应用上存在一定局限性。基于深度学习的人脸表情识别方法在实验室受控的数据集上表现良好,在自然环境下的FER准确率相对于传统方法已有较大提升,但其结构复杂,且由于遮挡、光照、姿态变化等影响,导致模型的泛化能力和鲁棒性较差。由于面部表情存在遮挡多样化、光照、姿态变化、年龄和低质量的面部图像等影响,不同数据集之间存在类别不平衡问题,导致面部表情识别较差准确率不高,不同类别的表情识别准确率相差较大,识别准确率远远令人无法满意。因此,面部表情识别的准确率仍有进一步的提升空间的不足之处,本申请实施例提供了一种识别效率高,识别准确率高的基于注意力机制和LBP特征融合的人脸表情识别方法,并且具有更好的泛化能力和鲁棒性。具体的,该方法通过获取人脸表情数据集,对包含人脸图像的数据进行预处理。将预处理后的人脸表情图像输入到注意力机制分支模块进行特征提取,注意力机制使神经网络更加关注面部表情最有用的特征,并转化为特征向量。将预处理后的人脸表情图像输入LBP分支进行局部纹理信息提取,并转化为特征向量。将注意力机制模块分支提取的特征和LBP分支提取的特征进行特征融合,然后经过全连接层和softmax分类器对人脸面部表情进行识别,输出人脸表情类别。注意力机制可以使神经网络更加关注输入面部表情中的重要特征,抑制非重要特征,可以有效的解决遮挡和非正面姿态问题。LBP特征适用于提取不同尺寸的纹理信息,可以解决遮挡、旋转不平衡和光照变化等问题。在四种公共数据集FER2013、FERPLUS、CK+和RAF-DB上验证可模型的性能,验证结果表明本实施例的方法在四种表情数据集上识别准确率比其他先进模型效果更好,与基线相比在四个数据集上分别提高了5.94%、2.69%、7.37%和5.28%。,具有更好的泛化能力和鲁棒性。
为了验证本发明实施例提供的方法的有效性,下面将本发明提供的面部表情识别模型在FER2013、FERPLUS、CK+和RAF-DB数据集上与当前最先进的几种方法进行面部表情识别的准确率对比,实验比较结果表1、表2、表3和表4所示。
由表1为本发明的方法在FER2013数据集上与其他最新技术的比较结果,由表1可以看出本发明实施例提供的方法相比与其他几种最先进的方法有着更好的识别效果,本发明实施例提供的方法相较与ResNet提高了1.83%,相比于最新的方法Landmark-guidedGCNN提高了0.97%,与基线网络ResNet18相比,本发明实施例提供的的方法提高了1.67%。参见图7,图7是FER2013数据集对应的混淆矩阵。由图7的混淆矩阵可以看出其中高兴和惊讶的识别率准确率效果最佳为91%和87%,中性表情识别准确率为72%,厌恶表情识别准确率为68%,愤怒、恐惧和悲伤的识别率相对较低分别为66%、57%和65%,这是由于这三种类别的情绪之间经常发生混乱。同时,由混淆矩阵还可以明显看出,厌恶的情绪很容易被错误的识别为愤怒,可能是由于在原始训练数据集中厌恶样本数较少导致的。总的来说,FER2013数据集总体识别率较低,主要是因为FER2013数据集图像的分辨率比较低,并且包含很多噪声。
表1
表2展示了本发明的方法在PERLUS数据集上与其他最新技术的比较结果,基于表2可以看出本发明实施例提供的方法识别效果更好。图8是本申请的一示例性实施例示出的PERLUS数据集对应的混淆矩阵。由图8的混淆矩阵可以看出。其中高兴的的识别准确率最高,为97%,其次是惊讶、中性和愤怒,分别为93%、91%和84%。蔑视的识别准确率最低,为38%,主要原因可能是用于训练的样本数较少,因此无法与中性区分开来,导致蔑视被错误的分类为中性的比例为54%。
表2
表3展示了本发明的方法在CK+数据集上与其他最新技术的比较结果,可以看出在CK+数据集上总体识别准确率较高,这主要是因为CK+数据集是在实验室控制条件下采集的具有较好标记的数据集,图像质量相对较好,但本发明的方法由于其他先进的方法。图9是本申请的一示例性实施例示出的CK+数据集对应的混淆矩阵,图9的混淆矩阵详细说明了七种别类的表情的分类结果,对角线项表示每种类别的平均识别率,从如图可以看出生气、蔑视、厌恶、恐惧、高兴、悲伤的准确率达到了100%,只有少部分的惊讶表情被错误的识别为蔑视表情。
表3
表4列出了本发明的方法与其他最先进方法在RAF-DB数据集上的性能比较,从表4可以看出本发明所提出的方法准确率为88.20%,优于大多数方法。图10是本申请的一示例性实施例示出的RAF-DB数据集对应的混淆矩阵,图10显示了本发明的方法在RAF-DB数据集上的混淆矩阵,其中识别高兴表情时性能最优,为95%,其次是中性、愤怒、惊讶和伤心,分别为89%、86%、84%和86%、厌恶和恐惧的识别效果较差,为57%和57%。主要原因可能是厌恶表情和恐惧表情的样本数量较少,对厌恶表情和恐惧表情不敏感。
表4
由表1、表2、表3和表4比较结果可以看出与目前最主流的深度学习方法相比,本发明所提出的模型在四个数据集上均获得了更高的准确率,实验结果表明,本发明的方法在实验室受控环境面部表情数据集上和自然环境面部表情数据集上具有更好的泛化能力和鲁棒性。
为了探索CBAM和LBP的作用,通过在FER2013、FERPLUS、CK+和RAF-DB数据集上进行了消融实验。表5为在不同数据集上的消融实验结果,如表5所示,将添加了注意力机制后的模型与基线进行对比可以看出模型的性能明显提升,这说明添加注意力机制有助于面部表情识别,注意力机制使模型更加专注于面部表情的重要特征。在添加了注意力机制的基础上添加了LBP特征提取,可以看出FER2013数据集上准确率提高了1.54%,在FERPLUS数据集上准确率提高了1.06%,在CK+数据集上2.52%,在RAF-DB数据集上准确率提高了2.38%。这说明LBP特征提取分支捕获面部表情的微小运动并提取图像的纹理信息可以提高网络的性能。总的来说相较于基线而言在四个数据集上分别提高了5.94%、2.69%、7.37%和5.28%。
表5
请参阅图11,图11是本申请的一示例性实施例示出的面部表情识别装置的框图,如图11所示,本实施例提供了一种面部表情识别装置1100,该装置包括:
数据获取模块1101,用于获取目标对象的面部图像数据;
局部纹理信息提取模块1102,用于对面部图像数据进行局部纹理信息提取,得到局部纹理特征向量;
关键全局特征提取模块1103,用于对面部图像数据进行关键全局特征提取,得到关键全局特征向量;
特征融合模块1104,用于将局部纹理特征向量和关键全局特征向量进行特征融合,得到待分类特征;
识别模块1105,用于对待分类特征进行面部表情识别,得到目标对象的面部表情类别。
在一实施例中,特征融合模块包括第一全连接层、第二全连接层和特征融合子模块;
第一全连接层用于将关键全局特征向量进行第一接;
第二全连接层用于将局部纹理特征向量进行第二连接;
特征融合子模块用于将第一连接后的关键全局特征向量和第二连接后的局部纹理特征向量进行融合,得到待分类特征。
在一实施例中,关键全局特征提取模块包括卷积层、通道注意力模块和空间注意力模块,其中,
卷积层用于对面部图像数据进行处理,得到输入特征图;
通道注意力模块用于对输入特征图进行全局最大池化得到第一一维特征图,以及对输入特征图进行全局平均池化得到第二一维特征图,将第一一维特征图和第二一维特征图输入具有两个隐藏层的共享多层感知机,得到第一多层感知输出子特征和第二多层感知输出子特征,合并多层感知输出特征,并进行激活,得到一维通道注意力特征图;
空间注意力模块用于对融合特征图进行全局最大池化和全局平均池化,得到第一中间特征图和第二中间特征图,将第一中间特征图和第二中间特征图进行连接,生成第三中间特征图,对第三中间特征图进行卷积,并进行激活,得到二维空间注意力特征图。其中,融合特征图基于一维通道注意力特征图和输入特征图得到,关键全局特征向量基于二维空间注意力特征图和融合特征图得到。
在本实施例中,该装置实质上是设置了多个模块用以执行上述任一实施例中的面部标识识别方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
参见图12,本发明实施例还提供了一种电子设备1200,包括处理器1201、存储器1202和通信总线1203;
通信总线1203用于将处理器1201和存储器连接1202;
处理器1201用于执行存储器1202中存储的计算机程序,以实现如上述实施例中的一个或多个的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序用于使计算机执行如上述实施例一中的任一项的方法。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (13)
1.一种面部表情识别方法,其特征在于,所述方法包括:
获取目标对象的面部图像数据;
对所述面部图像数据进行局部纹理信息提取,得到局部纹理特征向量;
对所述面部图像数据进行关键全局特征提取,得到关键全局特征向量;
将所述局部纹理特征向量和所述关键全局特征向量进行特征融合,得到待分类特征;
对所述待分类特征进行面部表情识别,得到所述目标对象的面部表情类别。
2.如权利要求1所述的面部表情识别方法,其特征在于,对所述面部图像数据进行关键全局特征提取,得到关键全局特征向量包括:
通过卷积层对所述面部图像数据进行处理,得到输入特征图;
将所述输入特征图输入预设通道注意力模块,得到一维通道注意力特征图;
将所述一维通道注意力特征图与所述输入特征图相乘,得到融合特征图;
将所述融合特征图输入预设空间注意力模块,得到二维空间注意力特征图;
将所述二维空间注意力特征图与所述融合特征图进行逐个元素相乘,得到所述关键全局特征向量。
3.如权利要求2所述的面部表情识别方法,其特征在于,将所述输入特征图输入预设通道注意力模块,得到一维通道注意力特征图包括:
对所述输入特征图进行全局最大池化和全局平均池化,得到第一一维特征图和第二一维特征图;
将所述第一一维特征图和所述第二一维特征图输入具有两个隐藏层的共享多层感知机,得到多层感知输出特征;
合并所述多层感知输出特征,并进行激活,得到所述一维通道注意力特征图。
5.如权利要求2所述的面部表情识别方法,其特征在于,将所述融合特征图输入预设空间注意力模块,得到二维空间注意力特征图包括:
对所述融合特征图进行全局最大池化和全局平均池化,得到第一中间特征图和第二中间特征图;
将所述第一中间特征图和所述第二中间特征图进行连接,生成第三中间特征图;
对所述第三中间特征图进行卷积,并进行激活,得到所述二维空间注意力特征图。
7.如权利要求1-6任一项所述的面部表情识别方法,其特征在于,对所述待分类特征进行面部表情识别包括:
将所述待分类特征依次输入预设全连接层和归一化指数分类器,以对所述目标对象的面部表情进行识别。
8.一种面部表情识别模型训练方法,其特征在于,所述方法包括:
获取预设面部表情数据集,并对所述预设面部表情数据集中的面部表情数据进行预处理,得到包括多个处理后面部表情数据;
将多个处理后面部表情数据和所述预设面部表情数据集中的各面部表情数据确定为样本数据,所述样本数据包括面部图像数据和所述面部图像数据的真实面部表情类别;
构建初始模型,所述初始模型包括数据获取模块、局部纹理信息提取模块、关键全局特征提取模块、特征融合模块和识别模块;
通过所述数据获取模块将所述样本数据分别输入所述局部纹理信息提取模块和关键全局特征提取模块,得到样本局部纹理特征向量和样本关键全局特征向量;
通过所述特征融合模块对所述样本局部纹理特征向量和所述样本关键全局特征向量进行特征融合,得到样本待分类特征;
通过所述识别模块对所述样本待分类特征进行样本面部表情识别,得到样本面部表情类别;
基于所述样本面部表情类别和所述样本数据的真实面部表情类别对所述初始模型进行调整,直至所述初始模型收敛,得到面部表情识别模型。
9.一种面部表情识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标对象的面部图像数据;
局部纹理信息提取模块,用于对所述面部图像数据进行局部纹理信息提取,得到局部纹理特征向量;
关键全局特征提取模块,用于对所述面部图像数据进行关键全局特征提取,得到关键全局特征向量;
特征融合模块,用于将所述局部纹理特征向量和所述关键全局特征向量进行特征融合,得到待分类特征;
识别模块,用于对所述待分类特征进行面部表情识别,得到所述目标对象的面部表情类别。
10.如权利要求9所述的面部表情识别装置,其特征在于,所述特征融合模块包括第一全连接层、第二全连接层和特征融合子模块;
所述第一全连接层用于将所述关键全局特征向量进行第一连接;
所述第二全连接层用于将所述局部纹理特征向量进行第二连接;
所述特征融合子模块用于将第一连接后的所述关键全局特征向量和第二连接后的所述局部纹理特征向量进行融合,得到所述待分类特征。
11.如权利要求9所述的面部表情识别装置,其特征在于,所述关键全局特征提取模块包括卷积层、通道注意力模块和空间注意力模块,其中,
所述卷积层用于对所述面部图像数据进行处理,得到输入特征图;
所述通道注意力模块用于对所述输入特征图进行全局最大池化得到第一一维特征图,以及对所述输入特征图进行全局平均池化得到第二一维特征图,将所述第一一维特征图和所述第二一维特征图输入具有两个隐藏层的共享多层感知机,得到第一多层感知输出子特征和第二多层感知输出子特征,合并所述多层感知输出特征,并进行激活,得到一维通道注意力特征图;
所述空间注意力模块用于对融合特征图进行全局最大池化和全局平均池化,得到第一中间特征图和第二中间特征图,将所述第一中间特征图和所述第二中间特征图进行连接,生成第三中间特征图,对所述第三中间特征图进行卷积,并进行激活,得到二维空间注意力特征图,所述融合特征图基于所述一维通道注意力特征图和输入特征图得到,所述关键全局特征向量基于所述二维空间注意力特征图和所述融合特征图得到。
12.一种电子设备,其特征在于,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-8中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,
所述计算机程序用于使所述计算机执行如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310076531.8A CN116343287A (zh) | 2023-01-18 | 2023-01-18 | 面部表情识别、模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310076531.8A CN116343287A (zh) | 2023-01-18 | 2023-01-18 | 面部表情识别、模型训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343287A true CN116343287A (zh) | 2023-06-27 |
Family
ID=86886561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310076531.8A Pending CN116343287A (zh) | 2023-01-18 | 2023-01-18 | 面部表情识别、模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343287A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333906A (zh) * | 2023-10-27 | 2024-01-02 | 石家庄铁道大学 | 一种多尺度遮挡抑制的遮挡行人重识别方法 |
CN117437684A (zh) * | 2023-12-14 | 2024-01-23 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
CN118135612A (zh) * | 2024-05-06 | 2024-06-04 | 浙江大学 | 一种耦合体表纹理特征和几何特征的鱼脸识别方法及系统 |
-
2023
- 2023-01-18 CN CN202310076531.8A patent/CN116343287A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333906A (zh) * | 2023-10-27 | 2024-01-02 | 石家庄铁道大学 | 一种多尺度遮挡抑制的遮挡行人重识别方法 |
CN117333906B (zh) * | 2023-10-27 | 2024-05-24 | 石家庄铁道大学 | 一种多尺度遮挡抑制的遮挡行人重识别方法 |
CN117437684A (zh) * | 2023-12-14 | 2024-01-23 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
CN117437684B (zh) * | 2023-12-14 | 2024-04-16 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
CN118135612A (zh) * | 2024-05-06 | 2024-06-04 | 浙江大学 | 一种耦合体表纹理特征和几何特征的鱼脸识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
Zhang et al. | Image-to-video person re-identification with temporally memorized similarity learning | |
Aung et al. | Face detection in real time live video using yolo algorithm based on Vgg16 convolutional neural network | |
CN116343287A (zh) | 面部表情识别、模型训练方法、装置、设备及存储介质 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
Abdallah et al. | Student behavior recognition in classroom using deep transfer learning with VGG-16 | |
CN109978077B (zh) | 视觉识别方法、装置和系统及存储介质 | |
CN109740681A (zh) | 一种水果分拣方法、装置、系统、终端及存储介质 | |
CN111860309A (zh) | 一种人脸识别方法及系统 | |
Cui et al. | Facial expression recognition based on ensemble of mulitple CNNs | |
CN115374304A (zh) | 数据处理方法、电子设备、存储介质及计算机程序产品 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
Zheng et al. | 3D texture-based face recognition system using fine-tuned deep residual networks | |
Sharma et al. | Deep learning for face mask detection: a survey | |
Elbatsh et al. | WikiFish: mobile app for fish species recognition using deep convolutional neural networks | |
Putro et al. | Fast eye detector using CPU based lightweight convolutional neural network | |
CN115841605A (zh) | 目标检测网络训练与目标检测方法、电子设备、存储介质 | |
Hao et al. | A lightweight attention-based network for micro-expression recognition | |
Jin et al. | Micro-expression recognition based on multi-scale 3D residual convolutional neural network | |
Chou et al. | Multi-task cascaded and densely connected convolutional networks applied to human face detection and facial expression recognition system | |
Suzuki et al. | Illumination-invariant face identification using edge-based feature vectors in pseudo-2D Hidden Markov Models | |
Caroppo et al. | Facial expression recognition in ageing adults: A comparative study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |