CN114283482A - 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 - Google Patents
基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 Download PDFInfo
- Publication number
- CN114283482A CN114283482A CN202111636106.7A CN202111636106A CN114283482A CN 114283482 A CN114283482 A CN 114283482A CN 202111636106 A CN202111636106 A CN 202111636106A CN 114283482 A CN114283482 A CN 114283482A
- Authority
- CN
- China
- Prior art keywords
- expression
- self
- feature filtering
- attention
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
现有面部表情识别方法提取的表情特征通常与其他的面部属性混在一起,这不利于面部表情的识别,提出基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型。本发明的目的是使用生成对抗网络,并结合注意力机制、特征过滤分类器,生成具有辨别性的表情表示。该发明提出基于自注意力机制的特征过滤分类器作为表情的分类模块,使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元,生成多级特征,使用自注意力机制的融合方法输出多级特征的预测结果,提高识别的准确率;提出基于滑动模块的双重图像一致性损失来监督模型学习具有辨别性的表情表示。
Description
技术领域
本发明属于计算机视觉领域,应用于面部表情识别任务。
背景技术
一、名词解释:1.面部表情识别(Facial Expression Recognition):是指利用机器学习和深度学习技术,对图像或视频中的人脸进行情感分析、处理和抽取的过程。
2.生成对抗网络(Generative Adversarial Network):2014年,Goodfellow团队提出生成对抗网络。生成对抗网络模型至少包括两个模块:捕获数据分布的生成器G和估计样本来自训练数据的概率的判别器D。G的训练程序是将D错误的概率最大化。最早被用于图像生成领域。
3.特征过滤分类器(Feature Filtering Classifier)是指由级联的LayerNorm和Relu单元组成。
4.自注意力机制(self-attention Mechanism):源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息;后来有人把这个思想运用到图像处理和自然语言处理当中,并取得了不错的效果,引入自注意力机制的目的是为了更好地关注那些对情感分类重要的单词。
二、现有技术:1.(1)基于手工特征的方法:Lanitis等提出利用人的眼睛、鼻子和嘴巴的关键位置点计算脸部的运动情况来分析面部所表达的表情。Tian等开发自动面部分析系统,提取面部特征的详细参数描述,识别面部动作编码系统(Facial Action CodingSystem,FACS)中的动作单元(Action Unit,AU)。2.(1)基于卷积神经网络的方法:Zhang等为减轻个人属性对面部表情识别结果的影响,提出一种身份感知卷积神经网络方法(identity-aware convolutional neural network,IACNN)实现身份不变的面部表情识别。Li Yong等针对真实环境中面部表情识别的遮挡问题,提出基于块的注意力卷积神经网络(pACNN)和基于全局-局部的注意力卷积神经网络方法(gACNN),在真实遮挡和合成遮挡数据集上的实验结果表明,提出的方法提高了遮挡人脸和非遮挡人脸识别的准确率。3.(1)基于生成对抗网络的方法:Xie等提出一种基于两分支分解的生成对抗网络的面部表情识别方法,该方法将表情表示从其他的面部属性中分离出来,学习具有辨别性的表情表示,实验验证由生成器学习的表情表示比基于CNN学习的表情表示更有辨别性。
三、技术问题:1.现有面部表情识别方法提取的表情特征通常与其他的面部属性混在一起,这不利于面部表情的识别,且双分支分离的生成对抗网络(Two-branchDisentangled Generative Adversarial,TDGAN)方法生成器使用CNN提取表情特征,特征值具有有限的感受野,CNN提取的特征容易混入噪声,提出的双重图像一致性损失在图像整体发生细微变化和局部巨大变化时计算出来的差值可能相差无几,将导致生成的图像发生局部表情崩塌现象。2、针对上述缺点,本发明的目的是使用生成对抗网络,并结合注意力机制、特征过滤分类器,生成具有辨别性的表情表示。通过滑动窗口计算双重图像一致性损,监督模型的训练,减少生成图像表情崩塌现象的发生,生成具有辨别性的表情表示;使用基于注意力机制的特征过滤分类器作为表情的分类模块,在一定程度上消除表情特征中混入的噪声对识别结果的影响,提高识别的准确率。
发明内容
1.引入生成对抗网络,构建基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型。本发明结合注意力机制和特征过滤分类器,构建基于自注意力机制的特征过滤分类器作为表情的分类模块,使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元,生成多级特征,使用自注意力机制的融合方法输出多级特征的预测结果,在一定程度上消除噪声对识别结果的影响;构建基于滑动模块的双重图像一致性损失来监督模型学习具有辨别性的表情表示。
2.本发明的技术创新点是:(1)构建了基于滑动模块的双重图像一致性损失,通过滑动窗口计算双重图像一致性损失,监督模型训练,学习具有辨别性的表情表示,更加关注面部局部区域的细节,生成保留细节信息多、正常的图像,减少生成图像表情崩塌现象的发生;(2)设计了基于自注意力机制的特征过滤分类器作为表情的分类模块,该模块使用级联的LayerNorm和ReLu将低激活单元归零并保留高激活单元,生成多级特征,使用自注意力机制的融合方法输出多级特征的预测结果,提高识别的准确率,在一定程度上消除表情特征中混入的噪声对识别结果的影响。
附图说明
说明书附图1是基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型图。说明书附图2是基于自注意力机制的特征过滤分类器模型图。
具体实施方式
说明书附图1为本发明的整体模型结构图,主要由三个模块构成:生成器、判别器和基于自注意力机制的特征过滤器组成。生成器G是编码器-解码器结构,由两个编码器和一个解码器组成,两个编码器分别为面部编码器Ef和表情编码器Ee,使用卷积神经网络进行构建,面部编码器Ef提取输入人脸图像If的面部特征df,表情编码器Ee提取输入表情图像Ie的表情特征de,提取的面部特征df、表情特征de和引入的噪声dn经过嵌入模块融合得到特征dfuse。融合后的特征dfuse送入解码器Dg中生成图像Ig。判别器有两个分支,分别是表情判别器De和面部判别器Df。表情判别器De用来评估生成图像的表情类别是否与输入的表情图像标签一致;面部判别器Df被训练来对不同的身份进行分类,同时判断输入图像是来自真实样本还是来自生成图像。表情判别器De和面部判别器Df具有相似的结构,包括一个特征提取网络和一个全连接层分类器。特征提取网络的结构和面部编码器的结构相同,具有同样的网络参数,但在训练过程中是相互独立的。在表情编码器后,引入基于自注意力机制的特征过滤分类器(AFFC),将该分类器的识别结果作为面部表情识别任务的结果。说明书附图2是基于自注意力机制的特征过滤分类器模型图。AFFC输入表情编码器提取的特征de,经过L个LayerNorm和ReLu组成的简单特征过滤分类器,将低激活单元归零并保留高激活单元,生成多级特征(F0,F1,...,FL),使用自注意力机制学习每个特征预测结果对最终表情预测结果的权重,更好的融合多级特征的预测结果。训练阶段的损失函数中,使用基于滑动模块的双重图像一致性损失,监督模型的训练,生成具有辨别性的表情表示。
Claims (5)
1.提出一种基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型,利用生成对抗网络生成具有辨别性的表情表示,提出基于自注意力机制的特征过滤分类器作为表情的分类模块,使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元,生成多级特征,使用自注意力机制的融合方法输出多级特征的预测结果,在一定程度上消除噪声对识别结果的影响。
2.根据权利要求1所述的基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型,使用的双分支生成对抗网络将面部表情从一张人脸迁移到另一张人脸,实现面部表情分离,生成具有辨别性的表情表示。
3.根据权利要求1所述的基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型,使用基于自注意力机制的特征过滤分类器作为表情的分类模块,该分类模块输入双分支生成对抗网络学习的具有辨别性的面部表示,使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元,生成多级特征,使用基于自注意力机制的融合方法融合多级特征,得到最终表情的预测结果。
4.根据权利要求1所述的基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型,提出基于滑动模块的双重图像一致性损失来监督模型的训练,减少表情崩塌图像的生成,增强模型的特征表达能力。
5.根据权利要求4所述的基于滑动模块的双重图像一致性损失,该损失通过在两张重构图片上进行窗口的滑动计算重构损失,更加关注两张重构图像局部区域的差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636106.7A CN114283482A (zh) | 2021-12-29 | 2021-12-29 | 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636106.7A CN114283482A (zh) | 2021-12-29 | 2021-12-29 | 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114283482A true CN114283482A (zh) | 2022-04-05 |
Family
ID=80877927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111636106.7A Pending CN114283482A (zh) | 2021-12-29 | 2021-12-29 | 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283482A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131852A (zh) * | 2022-06-06 | 2022-09-30 | 武汉大学 | 面部表情识别模型训练方法、装置、设备及可读存储介质 |
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117235244A (zh) * | 2023-11-16 | 2023-12-15 | 江西师范大学 | 一种基于弹幕情感词分类的在线课程学习情感体验评测系统 |
-
2021
- 2021-12-29 CN CN202111636106.7A patent/CN114283482A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131852A (zh) * | 2022-06-06 | 2022-09-30 | 武汉大学 | 面部表情识别模型训练方法、装置、设备及可读存储介质 |
CN115131852B (zh) * | 2022-06-06 | 2024-08-02 | 武汉大学 | 面部表情识别模型训练方法、装置、设备及可读存储介质 |
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117235244A (zh) * | 2023-11-16 | 2023-12-15 | 江西师范大学 | 一种基于弹幕情感词分类的在线课程学习情感体验评测系统 |
CN117235244B (zh) * | 2023-11-16 | 2024-02-20 | 江西师范大学 | 一种基于弹幕情感词分类的在线课程学习情感体验评测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114283482A (zh) | 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 | |
De Melo et al. | Encoding temporal information for automatic depression recognition from facial analysis | |
Liu et al. | Two-stream 3d convolutional neural network for skeleton-based action recognition | |
CN109829499B (zh) | 基于同一特征空间的图文数据融合情感分类方法和装置 | |
Sharma et al. | Vision-based sign language recognition system: A Comprehensive Review | |
Yang et al. | Human-centered emotion recognition in animated gifs | |
CN111523378A (zh) | 一种基于深度学习的人体行为预测方法 | |
CN110569823A (zh) | 一种基于rnn的手语识别与骨架生成方法 | |
Varsha et al. | Indian sign language gesture recognition using deep convolutional neural network | |
Ariesta et al. | Sentence level Indonesian sign language recognition using 3D convolutional neural network and bidirectional recurrent neural network | |
Kishore et al. | Continuous sign language recognition from tracking and shape features using fuzzy inference engine | |
Rwelli et al. | Gesture based Arabic sign language recognition for impaired people based on convolution neural network | |
CN116226715A (zh) | 一种基于多模态特征融合的作业人员在线多态识别系统 | |
CN112733764A (zh) | 一种基于多模态识别视频情感信息的方法 | |
CN116844095A (zh) | 基于多模态深度特征层级融合的视频情感极性分析方法 | |
Ahammad et al. | Recognizing Bengali sign language gestures for digits in real time using convolutional neural network | |
Bulzomi et al. | End-to-end neuromorphic lip-reading | |
Birhala et al. | Temporal aggregation of audio-visual modalities for emotion recognition | |
Vayadande et al. | Lipreadnet: A deep learning approach to lip reading | |
Tazalli et al. | Computer vision-based Bengali sign language to text generation | |
Rafiq et al. | Real-time vision-based bangla sign language detection using convolutional neural network | |
CN112634405A (zh) | 一种面向众测任务发布的图文生成方法 | |
CN112163605A (zh) | 一种基于生成注意力网络的多域图像翻译方法 | |
Hewahi et al. | Impact of ethnic group on human emotion recognition using backpropagation neural network | |
Youoku et al. | Multi-modal affect analysis using standardized data within subjects in the wild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |