CN116386097A

CN116386097A - 基于人脸混合增强策略的遮挡人脸表情识别模型

Info

Publication number: CN116386097A
Application number: CN202211141476.8A
Authority: CN
Inventors: 彭俊杰; 李爱国; 李松
Original assignee: Xuzhou Daxi Energy Technology Co ltd
Current assignee: Xuzhou Daxi Energy Technology Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-07-04

Abstract

本发明公开了计算机视觉技术领域的基于人脸混合增强策略的遮挡人脸表情识别模型，包括：遮挡人脸表情识别模块；遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块、包含损失函数的计算与预测结果输出的预测模块，采用人脸混合增强策略FERMix和学习中级特征表示来提升人脸表情识别的遮挡鲁棒性，将主图像和混合图像同时输入网络中进行训练，增强模型对全局信息和局部信息的表征能力，从而提升模型的性能和对遮挡的鲁棒性，首次在人脸表情识别任务中使用中级特征表示层，在野外人脸表情数据集准确率分别为89.80％、89.58％和65.54％。

Description

基于人脸混合增强策略的遮挡人脸表情识别模型

技术领域

本发明涉及计算机视觉技术领域，具体为基于人脸混合增强策略的遮挡人脸表情识别模型。

背景技术

人脸表情是传达人类情感和意图最普遍和最重要的信号之一，因此能够正确地识别人脸表情对理解用户情感和意图有着十分重要的意义。人脸表情识别作为计算机视觉和情感分析领域的一项基本任务，被广泛用于在线教育、医疗保健、家庭陪护、商品推荐、视频推荐、在线监控等应用中，用于获取用户喜好和心理状态，以实现“人性化”的人机交互。

在深度学习十分流行的今天，基于大量数据的端到端的人脸表情识别技术已经愈发成熟，但是依然存在着很多问题需要解决和思考。在现实世界中，机器所获取的人脸图像不可能总是完整的正脸图像，而往往是存在着脸部遮挡，遮挡物可能是手机、眼镜、手、头发等等。这些情况会造成人脸关键信息的缺失，从而导致表情识别系统性能急剧下降。因此当今很多表情识别的研究致力于提升表情识别系统对人脸遮挡的鲁棒性。对于此问题有以下几种解决思路。

1)扩充数据集。增加更多的遮挡人脸图像在数据集中。这是最直接和有效的一种方式，但是难点就在于数据集收集耗时耗力，至今也没有直接可用于训练的大型遮挡的人脸表情数据集。

2)人脸补全。这种思路是采用生成的方法，补全被遮挡部分的人脸，再将补全的人脸送入表情识别网络中进行分类。但是此类方法也依赖于生成模型能学到良好的表情特征，训练难度较高，加上现有研究基本是用人为模拟的遮挡物来代替真实遮挡情况，因此这些方法很难泛化到现实场景中。

3)增强人脸局部区域表征信息的能力。心理学研究表明，人类可以有效地利用局部区域和整体面部感知不完整面部传递的语义。当面部某些部分被遮挡住了，人类可以根据其他局部非遮挡区域来判断表情。因此很多方法希望增强人脸局部区域表示表情特征的能力，这样即使人脸受到遮挡，也能利用局部非遮挡区域来识别出表情。当今此种解决思路取得了更好的效果。

对于如何增强局部区域表征信息的能力，现有研究工作证明了在模型输入中提供人脸局部信息可以增强模型对局部特征的学习，并且让全局信息与局部信息共同训练能够有效提升模型的泛化性和对遮挡的鲁棒性。但是上述工作使得模型在一次训练和推理中包含大量数据输入，在训练和推理过程中是比较低效的，而且局部区域的选取依赖于人脸关键点检测，然而在遮挡情况下，人脸关键点检测并不准确，因此该方法在实际应用中可能失效。

为了在增强模型遮挡鲁棒性的同时，还能拥有较好的训练和推理效率，本申请设计了一种简单高效，不需要任何额外信息的面向遮挡人脸表情识别的模型——FER(FacialExpression Recognition)MixNet。

为此，本申请提出基于人脸混合增强策略的遮挡人脸表情识别模型。

发明内容

本发明的目的在于提供基于人脸混合增强策略的遮挡人脸表情识别模型，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于人脸混合增强策略的遮挡人脸表情识别模型，包括：

遮挡人脸表情识别模块；

遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块、包含损失函数的计算与预测结果输出的预测模块；

进一步的，所述局部特征增强模块包括针对脸部上下遮挡的水平等分混合模块、针对脸部左右遮挡的垂直等分混合模块、针对单只眼镜遮挡的角落模块。

进一步的，所述高级/中级学习表示模块包括深度卷积网络模块，深度卷积网络模块中加入中级特征表示层，中级特征表示层中包含×卷积与最大池化层。

进一步的，基于人脸混合增强策略的遮挡人脸表情识别模型的识别方法，包括如下步骤：

S1：人脸混合增强：

将两张人脸图像混合，混合时尽可能保证眼部与嘴部区域的完整，经过人脸对齐后的人脸表情数据集具有很强的特殊性，利用这些特殊性质，方便的使用人脸混合增强策略(FERMix),而不需要额外信息；

水平等分混合：人脸图像中人的双眼一般位于上半部分，嘴巴一般位于下半部分，因此直接将图像按水平方向对半切分即可划分出双眼区域和嘴巴区域，该混合方式可以让模型更加关注人脸的上半部分或是下半部分区域，增加模型对上下遮挡的鲁棒性；

垂直等分混合：直接将图像按垂直方向对半切分即可划分出左右人脸区域，该混合方式可以让模型更加关注人脸的左半部分或右半部分，以增加模型对左右遮挡的鲁棒性；

角落混合：对应了左眼和右眼区域，计算混合交叉熵损失时，由于该区域只占原图大小的1/4，因此该区域被赋予的权重也较小，不会对模型造成太大负面影响；

S2：主图像随机混洗生成成对图像：

在模型(FERMixNet)中输入包含主图像与FERMix混合图像两部分，主图像选用一个正常训练批次中的样本，在模型训练的一个批次中，通过随机打乱该批次的图像来获取它们的成对图像，每一次迭代，模型会按照概率选取一种FERMix的组合来生成混合图像；

S3：特征表示：

学习高级表示的模型结构与标准的ResNet18一样，包含conv1、conv2_x、conv3_x、conv4_x、conv5_x、平均池化层和全连接层，主要用于学习输入样本的全局特征。为了增强模型对局部非遮挡特征的学习，本申请在标准的ResNet18中增加了中级特征表示层。本申请在conv4_x后增加了中级分类分支，该分支结构包括、1×1卷积，ReLU激活函数和最大池化层；

原始图像经过了conv1-conv4_x之后，可以得到一张C×H×W的特征图，在1×H×W大小的空间维度上，每一个点都对应着原图相应区域的感受野，这一块感受野反映了原图的一小块局部区域。为了更精确地定位最具判别力的局部区域，1×1卷积的步长设置为1，一个学习好的1×1卷积能够对重要的局部区域有较高的响应度，因此再通过全局最大池化(GMP)可以找到判别能力最强的局部区域。中级分类部分可以有效地学习输入样本的语义信息度最高的局部特征，当人脸受遮挡时，人脸非遮挡区域的局部信息能够在很大程度上帮助本申请分辨出表情，因此学习中级特征表示可以很好地补充表情信息，增强模型的遮挡鲁棒性，将人脸划分为多个区域，然后采用注意力的方法去定位未被遮挡的局部区域，本申请使用的中级特征表示层设计更加简单灵活，并且不需要任何额外信息；

S4：训练损失和模型决策：

主图像和混合图像在高级分类和中级分类中都是计算的标准的交叉熵损失；

模型训练时，高级表征和中级表征部分通过公式计算总损失，进而更新参数，模型推理时，本申请直接做决策融合，即将高级分类和中级分类经过全连接层得到的输出单元进行相加，作为模型最终的决策结构。

S5：实验：

A：RAF-DB(RAF-DB(Real-world Affective Faces DataBase)数据集包含了29672张真实世界人脸图像。所有图像都是从互联网上收集的，对象的年龄、性别、种族、光照、肤色等都有很大的差异。对于本专利的表情识别任务，使用了15339张面部表情图像，其中12271张图像用于训练，3068张图像用于测试。表情类别有7种：“高兴(Happy)”、“惊讶(Surprise)”、“悲伤(Sad)”、“愤怒(Anger)”、“厌恶(Disgust)”、“恐惧(Fear)”和“中性(Neutral)”；

B：FERPlus数据集是对标准的FER2013野外人脸表情数据集的一个扩展。数据集包含了35887张大小为48×48的灰度人脸表情图像，其中训练集有28709张，验证集3589张，测试集3589张。表情类别有8种，相比RAF-DB多了“轻蔑(Contempt)”。为了解决FER2013数据集标注质量差的问题，FERPlus让10个标注者为每张图片打标签，因此每张图片会有10个标注信息。本申请采用最大投票的方式决定每一张图片的真实标签；

C：AffectNet数据集是当今最大的野外人脸表情数据集，包含了440,000张人脸图片。该数据集包含两种基准：AffectNet-7和AffectNet-8。AffectNet-7包含7种表情类别，与RAF-DB一样，其中训练集283901张，测试集3500张。AffectNet-8包含8种表情类别，多了类别“轻蔑”，其中训练集287651张，测试集4000张。由于该数据集存在着很严重的样本不平衡问题，因此本申请采取了数据下采样的方式来缓解该问题；

D：遮挡人脸表情数据集，为了验证表情识别模型在现实世界遮挡情况下的性能，FED-RO(Facial Expression Dataset with Real Occlusion)收集和标注了400张现实场景中各种遮挡情况的人脸图片用于模型测试。本申请联合RAF-DB和AffectNet的训练集共同训练模型；

Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet是利用RAF-DB、FERPlus和AffectNet三个数据集构建了针对遮挡情况的子数据集。分别包含735、605、682张测试数据。这些子数据集从原数据集的测试集中选取了具有遮挡的人脸图像作为测试数据。数据的遮挡类型包括上下遮挡，左右遮挡，眼镜/口罩遮挡。

S6：数据对比：

a1：遮挡数据集上的比较：

主要是为了提升表情识别模型对面部遮挡的鲁棒性，在FED-RO、Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet这几个遮挡数据集上验证本方法的有效性，本申请与近年来表现优异的解决遮挡人脸表情识别的方法进行对比，包括gACNN、RAN、VTFF、EfficientFace和MAPNet；

a2：与SOTA方法的比较：

为了考察本方法在现实复杂场景中的通用性，本申请在三个大型的野外人脸表情数据集——RAF-DB、FERPlus和AffectNet上，与当今表情识别表现优异的一些工作进行对比，SCN、RUL和DMUE针对的是人脸表情数据集中的噪声标签问题，DACL和FDRL则是关注的表情高类内距，低类间距的问题。

与现有技术相比，本发明的有益效果是：

1、提出了一种针对遮挡人脸表情识别的模型——FERMixNet，该模型采用人脸混合增强策略FERMix和学习中级特征表示来提升人脸表情识别的遮挡鲁棒性。

2、为了加强人脸局部区域的学习，本申请提出了一种针对人脸表情的混合增强策略——FERMix，该方法通过混合两两人脸图像中最具语义信息的局部区域，模拟现实世界的遮挡情况，并生成包含人脸局部信息的样本，从而提升模型对于遮挡情况的鲁棒性，为了有效利用FERMix混合图像中的局部信息，本申请将主图像和混合图像同时输入网络中进行训练，两者相互促进，增强模型对全局信息和局部信息的表征能力，从而提升模型的性能和对遮挡的鲁棒性。

3、为了学习人脸非遮挡区域的特征表示，本申请在主干模型中引入中级特征表示层，进一步提升模型对人脸遮挡的鲁棒性，据本申请所知，本申请是首次在人脸表情识别任务中使用中级特征表示层。

4、提出的方法在人脸遮挡数据集Occlusion-RAF-DB、Occlusion-FERPlus和FED-RO上取得了当今最好的结果，准确率分别是86.67％、85.95％和72.97％，在野外人脸表情数据集RAF-DB，FERPlus，AffectNet-7上也取得了当今最好的结果，准确率分别为89.80％、89.58％和65.54％。

附图说明

图1为本发明遮挡人脸表情识别模块系统框图；

图2为本发明遮挡人脸表情识别模型；

图3为本发明人脸混合增强策略FERMix；

图4为本发明主图像随机混洗生成成对图像。

图中：1、局部特征增强模块；2、高级/中级学习表示模块；3、预测模块；4、水平等分混合模块；5、垂直等分混合模块；6、角落模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供一种技术方案：基于人脸混合增强策略的遮挡人脸表情识别模型，包括：

遮挡人脸表情识别模块；

遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块1、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块2、包含损失函数的计算与预测结果输出的预测模块3；

局部特征增强模块1包括针对脸部上下遮挡的水平等分混合模块4、针对脸部左右遮挡的垂直等分混合模块5、针对单只眼镜遮挡的角落模块6。

高级/中级学习表示模块2包括深度卷积网络模块，深度卷积网络模块中加入中级特征表示层，中级特征表示层中包含1×1卷积与最大池化层。

基于人脸混合增强策略的遮挡人脸表情识别模型的识别方法，包括如下步骤：

S1：人脸混合增强：

将两张人脸图像混合，混合时尽可能保证眼部与嘴部区域的完整，经过人脸对齐后的人脸表情数据集具有很强的特殊性，利用这些特殊性质，方便的使用人脸混合增强策略FERMix,而不需要额外信息；

水平等分混合：人脸图像中人的双眼一般位于上半部分，嘴巴一般位于下半部分，因此直接将图像按水平方向对半切分即可划分出双眼区域和嘴巴区域，用公式定义为：

表示混合区域为图像上半部分，即双眼区域；/>

表示混合区域为图像下半部分，即嘴巴区域。此种混合方式用于模拟人脸上下遮挡的情况。人脸的上下遮挡如戴口罩，会把人脸的下半部分遮挡住，只留出上半部分；如戴墨镜，遮挡住人脸的上半部分，主要留出下半部分。该混合方式可以让模型更加关注人脸的上半部分或是下半部分区域，增加模型对上下遮挡的鲁棒性；

垂直等分混合：直接将图像按垂直方向对半切分即可划分出左右人脸区域，该混合方式可以让模型更加关注人脸的左半部分或右半部分，以增加模型对左右遮挡的鲁棒性；用公式定义为：

表示混合区域为图像左半部分，即左脸；/>

表示混合区域为图像右半部分，即右脸。此种混合方式针对于人脸左右遮挡情况。如打电话可能会造成左右遮挡。

人脸的左偏转也会造成左脸遮挡，使得右半部分可见区域大；右偏转会造成右脸遮挡，使得左半部分可见区域大；

角落混合：对应了左眼和右眼区域，计算混合交叉熵损失时，由于该区域只占原图大小的1/4，因此该区域被赋予的权重也较小，不会对模型造成太大负面影响；用公式定义为：

表示混合区域为图像左上部分，即左眼；/>

表示混合区域为图像右上部分，即右眼。此种混合方式针对只遮挡住一只眼睛的情况，如戴着单眼罩，头发遮挡等。混合区域只包含一个眼部区域，似乎语义信息较少，但是本申请认为单个眼部区域依然能作为一个完整的区域，而且两个眼部区域之间也有着近似对称性，因此语义信息量是足够的，而且在计算混合交叉熵损失时，由于该区域只占原图大小的1/4；

令主图像为

y_A是其标签；成对图像为/>

y_B是其标签。FERMix混合图像/>

和其标签/>

可以表示为：

式子(4)中混合区域M∈{0,1}^W×H，是一个二值掩码，⊙是点积运算，主图像被裁剪区域的掩码为0，成对图像的对应混合区域的掩码为1，表示主图像被裁剪的部分将用成对图相应的部分进行填充。式子(5)中λ∈{0.5,0.75}，当采用水平等分混合(a)和垂直等分混合(b)时，主图像占混合图像一半大小，λ取值0.5。当采用角落混合(c)时，主图像占混合图像3/4大小，λ取值0.75；

如图2所示，FERMixNet的输入包含了主图像和FERMix混合图像两部分。主图像是一个正常训练批次里的样本，而它们成对图像的获取本申请采用(9)给出的方式，即在模型训练的一个批次中，通过随机打乱该批次的图像来获取它们的成对图像。如图3所示，假如一个训练批次有四个样本，原始样本作为主图像，随机混洗后的样本作为成对图像。每一次迭代，模型会按照概率选取一种FERMix的组合来生成混合图像。本申请定义采用水平等分混合(a)的概率为40％，其中混合区域M为

和/>

的概率同为20％；采用垂直等分混合(b)的概率为40％，其中M为/>

和/>

的概率同为20％；采用角落混合(c)的概率为20％，其中M为/>

和/>

的概率同为10％。本申请认为：对于(a)和(b)，混合图像保留了主图像和成对图像足够多的语义信息；而(c)会混合图像中成对图像的语义信息较少。因此本申请为(a)和(b)设置了更大的概率；

需要说明的是，FERMix混合图像的输入只存在于训练阶段，推理阶段只需要输入主图像即可。而且在训练阶段，本申请为混合图像的输入也设置了概率p_mix。从0-1均匀分布中生成一个随机值r，若r<p_mix，则模型输入包括主图像和混合图像；若r≥p_mix，则模型输入只有主图像，不包括混合图像。

S2：主图像随机混洗生成成对图像：

在模型FERMixNet中输入包含主图像与FERMix混合图像两部分，主图像选用一个正常训练批次中的样本，在模型训练的一个批次中，通过随机打乱该批次的图像来获取它们的成对图像，每一次迭代，模型会按照概率选取一种FERMix的组合来生成混合图像；

S3：特征表示：

学习高级表示的模型结构与标准的ResNet18一样，包含conv1、conv2_x、conv3_x、conv4_x、conv5_x、平均池化层和全连接层，主要用于学习输入样本的全局特征。为了增强模型对局部非遮挡特征的学习，本申请在标准的ResNet18中增加了中级特征表示层。本申请在conv4_x后增加了中级分类分支，该分支结构包括、1×1卷积，ReLU激活函数和最大池化层；记conv4_x后得到的特征图为

表达式可写作：

F_mid＝GMP(ReLU(Conv6(F)))#(6)

表示获取的中级特征，Conv6(·)表示1×1卷积操作，GMP(·)表示全局最大池化操作。1×1卷积可以认为是一个细小区域的检测器。

S4：训练损失和模型决策：

主图像和混合图像在高级分类和中级分类中都是计算的标准的交叉熵损失，具体表达式如下：

式子中，C表示表情类别总数，上标为h表示高级分类部分，m表示中级分类部分；下标为main表示主图像分类，为mix表示混合图像分类。y_i表示主图像的真实标签是否是i，如果是取1，不是则取0；

由(5)式所得，表示混合图像的真实标签是否是i，而混合图像包括了主图像和混合图像两部分，对于主图像类别取λ，对于成对图像类别取1-λ，其余情况取0。

表示模型预测一个样本属于类别i的概率。

前文提到混合图像的输入概率为p_mix，因此总的训练损失为：

α∈(0,1)用于控制混合图像和主图像的损失权重，β∈(0,1)用于控制高级分类和中级分类的损失权重。经过实验，本申请默认设置α＝0.5，β＝0.5；

模型训练时，高级表征和中级表征部分通过(9)公式计算总损失，进而更新参数，模型推理时，本申请直接做决策融合，即将高级分类和中级分类经过全连接层得到的输出单元进行相加，作为模型最终的决策结构。

S5：实验：为了验证本申请提出方法确实能够提升模型对环境遮挡的鲁棒性，本申请在Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet和FED-RO这几个现实环境表情遮挡和姿态变化数据集上进行方法测试。同时为了验证本申请方法的通用性和有效性，本申请在三个大型野外表情数据集——RAF-DB、FERPlus和AffectNet上进行测试。

实验细节：本申请所有的数据都是直接采用的官方人脸对齐后的样本，大小都缩放为224×224。本申请的主干模型是ResNet18，和多数工作一样，本申请在MS-Celeb-1M人脸识别数据集上对主干模型进行预训练；

RAF-DB和FERPlus数据集总共训练40个epoch，数据增强采用随机水平翻转和随机裁剪。Batch_size设置为32，初始学习率为0.1，每间隔10个epoch学习率缩减至

采用动量随机梯度进行优化，momentum设为0.9，weight_decay设为1e-4。

AffectNet数据集同样训练40个epcoh，数据增强采用随机水平翻转和随机仿射变换。为了应对样本不平衡问题，本申请采用了下采样的方式，即减少了训练数据中样本相对多的类别的样本数量。Batch_size设为16，初始学习率为0.0001，每个epoch都进行学习率指数衰减，指数设为0.8。选用Adam优化器进行优化，weight_decay设为1e-4。

对于本申请方法中的一些超参数，混合图像的输入概率P_mix设置为0.8。(8)式中的α设为0.5，β也为0.5。本申请会在后面的消融实验中进行详细阐述。

所有实验的评价指标都是准确率，实验结果的表格中上箭头表示该指标越大越好，下箭头表示越小越好。本申请使用Pytorch框架实现了本申请的方法，所有的实验都是用一块NVIDIA GTX 3060GPU完成的。

本申请在遮挡人脸表情数据集上的比较方法包括相关工作部分(2.1)介绍的gACNN、RAN、VTFF、EfficientFace和MAPNet。在RAF-DB、FERPlus和AffectNet三个野外人脸表情数据集上，除了上述方法，本申请还与SCN、DACL、RUL、DMUE、FDRL进行了对比。SCN是一种可以处理噪声标签的自修复网络，该方法使用注意力机制为噪声标签赋予较小权重，以消除噪声标签的影响。DACL为样本每一特征维度赋予注意力权重，让模型更加关注重要特征维度，再使用了能增大特征之间距离的Center Loss，增大类间距，从而提升表情识别模型性能。RUL在图像特征级，将成对图像特征进行Mixup操作，以学习不同图像的不确定程度，以确定该图像标签是否是噪声标签。DMUE在模型的训练中考虑进了样本标签的分布，通过学习标签分布来辅助表情识别任务，并消除噪声标签对模型训练的影响。FDRL通过将表情特征分解和重构，来寻找表情相似信息和差异信息，以更好地获取表情细粒度特征，从而区分各个表情。

S6：数据对比：

a1：遮挡数据集上的比较：

a2：与SOTA方法的比较：

表1在FED-RO上的对比结果

表1展示了在FER-RO实物遮挡表情数据集中的对比结果，由于VTFF没有在该数据集上进行测试，因此本申请没有对比该方法。Baseline是用标准的ResNet18训练得到的结果。本申请的方法在FER-RO上取得了最佳的性能。相较于gACNN和RAN，本申请的方法在准确率上分别提高了6.47％和4.99％，在提高了模型训练和推理效率，并且不使用任何额外信息的同时，进一步提升了模型对遮挡的鲁棒性。相较于EfficientFace，本申请的方法在准确率上提升了4.72％，具有更佳的性能。相较于MAPNet，本申请的方法在准确率上提升了1.47％，而且本申请不需要人脸关键点作为额外信息；

表2在Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet上的准确率对比

表2展示了在Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet三个遮挡数据集上的结果。Baseline同样是用标准的ResNet18训练得到的结果。由于gACNN和MAPNet并没有这几个数据集的实验结果，因此本申请没有对比这两个方法。综合来看，本申请的方法更具优势。相较于RAN，本申请的方法在Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet三个测试集上都取得了优势，准确率分别提升了3.95％，2.35％和4.16％。可见本申请的方法在减少模型输入，提高训练和推理效率的同时，还能进一步提升模型的性能。相较于EfficientFace，本申请的方法在Occlusion-RAF-DB、Occlusion-AffectNet上同样有着较大优势(EfficientFace没有提供Occlusion-FERPlus上的结果)，分别提升了3.43％和2.78％。而相较于VTFF，虽然在Occlusion-AffectNet数据集上，本申请的方法的准确率稍低0.32％，但在Occlusion-RAF-DB、Occlusion-FERPlus上本专利所提出的方法都取得了较大优势，准确率分别提升了2.72％，1.44％。本申请分析认为，AffectNet相较于另两个数据集数据量更大，而VTFF在模型中使用了Vision Transformer的模块来获取各局部区域之间的关系，因此对于学习这种大型数据集更有优势。本申请仅仅使用了ResNet18作为主干模型，在学习这种大型数据集的能力上会稍弱。但这使得本申请模型参数量会小很多(如表4所示，VTFF参数量为51.8M，FERMixNet参数量为11.25M)，训练和推理速度也会更快。并且FERMix作为一种数据增强策略更加灵活，可以应用于各种大型模型，而且本申请训练出来的模型进行推理时不需要任何额外信息，而VTFF需要额外提取人脸的LBP特征，这也是本申请方法的优势。

综上，本申请的方法在Occlusion-AffectNet上相比于具有Vision Transformer模块的VTFF会略显逊色。但是本申请的方法具有更高的灵活性，参数量更小，并且不需要任何额外信息，在Occlusion-RAF-DB、Occlusion-FERPlus和FEDRO数据集上也体现出最佳的性能。因此综合来看，本申请的方法具有更好的应用前景；

与SOTA方法的比较：为了考察本申请的方法在现实复杂场景中的通用性，本申请在三个大型的野外人脸表情数据集——RAF-DB、FERPlus和AffectNet上，与当今表情识别表现优异的一些工作进行对比。SCN、RUL和DMUE针对的是人脸表情数据集中的噪声标签问题，DACL和FDRL则是关注的表情高类内距，低类间距的问题；

表3RAF-DB、FERPlus、AffectNet-7和AffectNet-8上的准确率对比

表4 DMUE、VTFF和本申请的FERMixNet在参数量上的对比

除了AffectNet-8，本申请的方法在RAF-DB、FERPlus、AffectNet-7三个数据集上都取得了最佳的成绩，准确率分别是89.80％、89.58％和65.54％。可见本申请的方法在野外人脸表情数据集上也有着良好的泛化性，能有效应对现实场景中的人脸表情识别。虽然在AffectNet-8上，本申请方法的准确率不如DMUE，低了0.92％，但是在其余两个数据集上，本申请方法的准确率都领先于DMUE(DMUE没有给出在AffectNet-7上的结果)：在RAF-DB上，本申请方法的准确率高了1.04％；在FERPlus上，本申请方法的准确率高了0.94％。并且本申请的模型在参数量上远小于DMUE，如表7所示。由于DMUE提供了源码，本申请可以计算得到其模型参数量为78.4M，而本申请的模型参数量为11.25M(为了公平比较，本申请统一设置backbone为ResNet18)。DMUE的参数量几乎是本申请方法的7倍。与VTFF相比，本申请的方法在Occlusion-AffectNet测试集中准确率略低，但是在这几个野外数据集中本申请方法的准确率都更高，并且本申请方法的参数量更少。因此综合模型大小和几个数据集的评价指标，本申请的方法取得了更好的表现

实施例：首先本申请通过对人脸图像进行水平等分混合、垂直等分混合和角落混合，在保留人脸语义信息最丰富局部区域的前提下模拟现实人脸遮挡的情况。在模型的训练上，本申请采用主图像和混合图像共同训练的方式，使得模型在关注全局信息的同时增强对局部信息的关注。在模型的设计上，本申请引入了中级特征表示层，以学习人脸最具判别力的非遮挡局部特征。大量实验证明本申请的方法能够提升模型对人脸遮挡的鲁棒性，并且本申请的方法在RAF-DB、FERPlus和AffectNet三个公共野外人脸表情数据集上也有着最好的综合表。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于人脸混合增强策略的遮挡人脸表情识别模型，其特征在于，包括：

遮挡人脸表情识别模块；

遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块(1)、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块(2)、包含损失函数的计算与预测结果输出的预测模块(3)。

2.根据权利要求1所述的基于人脸混合增强策略的遮挡人脸表情识别模型，其特征在于：所述局部特征增强模块(1)包括针对脸部上下遮挡的水平等分混合模块(4)、针对脸部左右遮挡的垂直等分混合模块(5)、针对单只眼镜遮挡的角落模块(6)。

3.根据权利要求2所述的基于人脸混合增强策略的遮挡人脸表情识别模型，其特征在于：所述高级/中级学习表示模块(2)包括深度卷积网络模块，深度卷积网络模块中加入中级特征表示层，中级特征表示层中包含1×1卷积与最大池化层。

4.根据权利要求3所述的基于人脸混合增强策略的遮挡人脸表情识别模型的识别方法，包括如下步骤：

S1：人脸混合增强：

S2：主图像随机混洗生成成对图像：

S3：特征表示：

学习高级表示的模型结构与标准的ResNet18一样，包含conv1、conv2_x、conv3_x、conv4_x、conv5_x、平均池化层和全连接层，主要用于学习输入样本的全局特征，为了增强模型对局部非遮挡特征的学习，本申请在标准的ResNet18中增加了中级特征表示层，本申请在conv4_x后增加了中级分类分支，该分支结构包括、1×1卷积，ReLU激活函数和最大池化层；

原始图像经过了conv1-conv4_x之后，可以得到一张C×H×W的特征图，在1×H×W大小的空间维度上，每一个点都对应着原图相应区域的感受野，这一块感受野反映了原图的一小块局部区域，为了更精确地定位最具判别力的局部区域，1×1卷积的步长设置为1，一个学习好的1×1卷积能够对重要的局部区域有较高的响应度，因此再通过全局最大池化(GMP)可以找到判别能力最强的局部区域，中级分类部分可以有效地学习输入样本的语义信息度最高的局部特征，当人脸受遮挡时，人脸非遮挡区域的局部信息能够在很大程度上帮助本申请分辨出表情，因此学习中级特征表示可以很好地补充表情信息，增强模型的遮挡鲁棒性，将人脸划分为多个区域，然后采用注意力的方法去定位未被遮挡的局部区域，本申请使用的中级特征表示层设计更加简单灵活，并且不需要任何额外信息；

S4：训练损失和模型决策：

模型训练时，高级表征和中级表征部分通过公式计算总损失，进而更新参数，模型推理时，本申请直接做决策融合，即将高级分类和中级分类经过全连接层得到的输出单元进行相加，作为模型最终的决策结构；

S5：实验：

A：RAF-DB(RAF-DB(Real-world Affective Faces DataBase)数据集包含了29672张真实世界人脸图像，所有图像都是从互联网上收集的，对象的年龄、性别、种族、光照、肤色等都有很大的差异，对于本专利的表情识别任务，使用了15339张面部表情图像，其中12271张图像用于训练，3068张图像用于测试，表情类别有7种：“高兴(Happy)”、“惊讶(Surprise)”、“悲伤(Sad)”、“愤怒(Anger)”、“厌恶(Disgust)”、“恐惧(Fear)”和“中性(Neutral)”；

B：FERPlus数据集是对标准的FER2013野外人脸表情数据集的一个扩展，数据集包含了35887张大小为48×48的灰度人脸表情图像，其中训练集有28709张，验证集3589张，测试集3589张，表情类别有8种，相比RAF-DB多了“轻蔑(Contempt)”，为了解决FER2013数据集标注质量差的问题，FERPlus让10个标注者为每张图片打标签，因此每张图片会有10个标注信息，本申请采用最大投票的方式决定每一张图片的真实标签；

C：AffectNet数据集是当今最大的野外人脸表情数据集，包含了440,000张人脸图片，该数据集包含两种基准：AffectNet-7和AffectNet-8，AffectNet-7包含7种表情类别，与RAF-DB一样，其中训练集283901张，测试集3500张，AffectNet-8包含8种表情类别，多了类别“轻蔑”，其中训练集287651张，测试集4000张，由于该数据集存在着很严重的样本不平衡问题，因此本申请采取了数据下采样的方式来缓解该问题；

D：遮挡人脸表情数据集，为了验证表情识别模型在现实世界遮挡情况下的性能，FED-RO(Facial Expression Dataset with Real Occlusion)收集和标注了400张现实场景中各种遮挡情况的人脸图片用于模型测试，本申请联合RAF-DB和AffectNet的训练集共同训练模型；

Occlusion-RAF-DB、Occlusion-FERPlus、Occlusion-AffectNet是利用RAF-DB、FERPlus和AffectNet三个数据集构建了针对遮挡情况的子数据集，分别包含735、605、682张测试数据，这些子数据集从原数据集的测试集中选取了具有遮挡的人脸图像作为测试数据，数据的遮挡类型包括上下遮挡，左右遮挡，眼镜/口罩遮挡；

S6：数据对比：

a1：遮挡数据集上的比较：

a2：与SOTA方法的比较：