CN114283482A

CN114283482A - 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型

Info

Publication number: CN114283482A
Application number: CN202111636106.7A
Authority: CN
Inventors: 程艳; 蔡壮; 陈豪迈; 项国雄
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-05

Abstract

现有面部表情识别方法提取的表情特征通常与其他的面部属性混在一起，这不利于面部表情的识别，提出基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型。本发明的目的是使用生成对抗网络，并结合注意力机制、特征过滤分类器，生成具有辨别性的表情表示。该发明提出基于自注意力机制的特征过滤分类器作为表情的分类模块，使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元，生成多级特征，使用自注意力机制的融合方法输出多级特征的预测结果，提高识别的准确率；提出基于滑动模块的双重图像一致性损失来监督模型学习具有辨别性的表情表示。

Description

基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型

技术领域

本发明属于计算机视觉领域，应用于面部表情识别任务。

背景技术

一、名词解释：1.面部表情识别(Facial Expression Recognition)：是指利用机器学习和深度学习技术，对图像或视频中的人脸进行情感分析、处理和抽取的过程。

2.生成对抗网络(Generative Adversarial Network)：2014年，Goodfellow团队提出生成对抗网络。生成对抗网络模型至少包括两个模块：捕获数据分布的生成器G和估计样本来自训练数据的概率的判别器D。G的训练程序是将D错误的概率最大化。最早被用于图像生成领域。

3.特征过滤分类器(Feature Filtering Classifier)是指由级联的LayerNorm和Relu单元组成。

4.自注意力机制(self-attention Mechanism)：源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息；后来有人把这个思想运用到图像处理和自然语言处理当中，并取得了不错的效果，引入自注意力机制的目的是为了更好地关注那些对情感分类重要的单词。

二、现有技术：1.(1)基于手工特征的方法：Lanitis等提出利用人的眼睛、鼻子和嘴巴的关键位置点计算脸部的运动情况来分析面部所表达的表情。Tian等开发自动面部分析系统，提取面部特征的详细参数描述，识别面部动作编码系统(Facial Action CodingSystem，FACS)中的动作单元(Action Unit，AU)。2.(1)基于卷积神经网络的方法：Zhang等为减轻个人属性对面部表情识别结果的影响，提出一种身份感知卷积神经网络方法(identity-aware convolutional neural network，IACNN)实现身份不变的面部表情识别。Li Yong等针对真实环境中面部表情识别的遮挡问题，提出基于块的注意力卷积神经网络(pACNN)和基于全局-局部的注意力卷积神经网络方法(gACNN)，在真实遮挡和合成遮挡数据集上的实验结果表明，提出的方法提高了遮挡人脸和非遮挡人脸识别的准确率。3.(1)基于生成对抗网络的方法:Xie等提出一种基于两分支分解的生成对抗网络的面部表情识别方法，该方法将表情表示从其他的面部属性中分离出来，学习具有辨别性的表情表示，实验验证由生成器学习的表情表示比基于CNN学习的表情表示更有辨别性。

三、技术问题：1.现有面部表情识别方法提取的表情特征通常与其他的面部属性混在一起，这不利于面部表情的识别，且双分支分离的生成对抗网络(Two-branchDisentangled Generative Adversarial，TDGAN)方法生成器使用CNN提取表情特征，特征值具有有限的感受野，CNN提取的特征容易混入噪声，提出的双重图像一致性损失在图像整体发生细微变化和局部巨大变化时计算出来的差值可能相差无几，将导致生成的图像发生局部表情崩塌现象。2、针对上述缺点，本发明的目的是使用生成对抗网络，并结合注意力机制、特征过滤分类器，生成具有辨别性的表情表示。通过滑动窗口计算双重图像一致性损，监督模型的训练，减少生成图像表情崩塌现象的发生，生成具有辨别性的表情表示；使用基于注意力机制的特征过滤分类器作为表情的分类模块，在一定程度上消除表情特征中混入的噪声对识别结果的影响，提高识别的准确率。

发明内容

1.引入生成对抗网络，构建基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型。本发明结合注意力机制和特征过滤分类器，构建基于自注意力机制的特征过滤分类器作为表情的分类模块，使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元，生成多级特征，使用自注意力机制的融合方法输出多级特征的预测结果，在一定程度上消除噪声对识别结果的影响；构建基于滑动模块的双重图像一致性损失来监督模型学习具有辨别性的表情表示。

2.本发明的技术创新点是：(1)构建了基于滑动模块的双重图像一致性损失，通过滑动窗口计算双重图像一致性损失，监督模型训练，学习具有辨别性的表情表示，更加关注面部局部区域的细节，生成保留细节信息多、正常的图像，减少生成图像表情崩塌现象的发生；(2)设计了基于自注意力机制的特征过滤分类器作为表情的分类模块，该模块使用级联的LayerNorm和ReLu将低激活单元归零并保留高激活单元，生成多级特征，使用自注意力机制的融合方法输出多级特征的预测结果，提高识别的准确率，在一定程度上消除表情特征中混入的噪声对识别结果的影响。

附图说明

说明书附图1是基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型图。说明书附图2是基于自注意力机制的特征过滤分类器模型图。

具体实施方式

说明书附图1为本发明的整体模型结构图，主要由三个模块构成：生成器、判别器和基于自注意力机制的特征过滤器组成。生成器G是编码器-解码器结构，由两个编码器和一个解码器组成，两个编码器分别为面部编码器E_f和表情编码器E_e，使用卷积神经网络进行构建，面部编码器E_f提取输入人脸图像I_f的面部特征d_f，表情编码器E_e提取输入表情图像I_e的表情特征d_e，提取的面部特征d_f、表情特征d_e和引入的噪声d_n经过嵌入模块融合得到特征d_fuse。融合后的特征d_fuse送入解码器D_g中生成图像I_g。判别器有两个分支，分别是表情判别器D_e和面部判别器D_f。表情判别器D_e用来评估生成图像的表情类别是否与输入的表情图像标签一致；面部判别器D_f被训练来对不同的身份进行分类，同时判断输入图像是来自真实样本还是来自生成图像。表情判别器D_e和面部判别器D_f具有相似的结构，包括一个特征提取网络和一个全连接层分类器。特征提取网络的结构和面部编码器的结构相同，具有同样的网络参数，但在训练过程中是相互独立的。在表情编码器后，引入基于自注意力机制的特征过滤分类器(AFFC)，将该分类器的识别结果作为面部表情识别任务的结果。说明书附图2是基于自注意力机制的特征过滤分类器模型图。AFFC输入表情编码器提取的特征d_e，经过L个LayerNorm和ReLu组成的简单特征过滤分类器，将低激活单元归零并保留高激活单元，生成多级特征(F₀，F₁，...，F_L)，使用自注意力机制学习每个特征预测结果对最终表情预测结果的权重，更好的融合多级特征的预测结果。训练阶段的损失函数中，使用基于滑动模块的双重图像一致性损失，监督模型的训练，生成具有辨别性的表情表示。

Claims

1.提出一种基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型，利用生成对抗网络生成具有辨别性的表情表示，提出基于自注意力机制的特征过滤分类器作为表情的分类模块，使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元，生成多级特征，使用自注意力机制的融合方法输出多级特征的预测结果，在一定程度上消除噪声对识别结果的影响。

2.根据权利要求1所述的基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型，使用的双分支生成对抗网络将面部表情从一张人脸迁移到另一张人脸，实现面部表情分离，生成具有辨别性的表情表示。

3.根据权利要求1所述的基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型，使用基于自注意力机制的特征过滤分类器作为表情的分类模块，该分类模块输入双分支生成对抗网络学习的具有辨别性的面部表示，使用级联的LayerNorm和Relu将低激活单元归零并保留高激活单元，生成多级特征，使用基于自注意力机制的融合方法融合多级特征，得到最终表情的预测结果。

4.根据权利要求1所述的基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型，提出基于滑动模块的双重图像一致性损失来监督模型的训练，减少表情崩塌图像的生成，增强模型的特征表达能力。

5.根据权利要求4所述的基于滑动模块的双重图像一致性损失，该损失通过在两张重构图片上进行窗口的滑动计算重构损失，更加关注两张重构图像局部区域的差异。