CN115631526A

CN115631526A - 基于自监督学习技术的被遮挡的人脸表情识别方法及应用

Info

Publication number: CN115631526A
Application number: CN202211334926.5A
Authority: CN
Inventors: 王上飞; 王佳禾; 丁赫彦
Original assignee: University of Science and Technology of China USTC; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: University of Science and Technology of China USTC; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-01-20

Abstract

本发明公开了一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用，该方法的步骤包括：1、对一个包含无标签人脸图像的数据库进行图像预处理；2、构建自监督学习的前置任务阶段网络模型；3、构造相似性损失和遮挡识别损失；4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化；5、对N类人脸表情图像的数据库进行图像预处理；6、构建自监督学习的下游任务阶段网络模型；7、构造分类损失；8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化；9、利用训练好的分类器对待测人脸图像进行人脸表情的分类识别。本发明能克服图像遮挡对人脸表情识别效果造成的负影响，从而能实现人脸表情的精准识别。

Description

基于自监督学习技术的被遮挡的人脸表情识别方法及应用

技术领域

本发明属于遮挡表情识别，情感计算，自监督学习领域，具体的说是一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用。

背景技术

被遮挡的人脸表情识别作为人脸表情识别的一种复杂情况，在真实生产、生活中有着广泛的应用。现有的被遮挡的人脸表情识别方法主要分为四类，分别是：基于鲁棒人脸特征的方法、基于无遮挡的人脸图像重建的方法、基于子区域分析的方法和基于无遮挡的人脸图像辅助的方法。基于鲁棒人脸特征的方法旨在找到一种对遮挡不敏感，但对不同表情具有可区分性的特征表示。但遮挡可能在人脸图像中的任意位置上出现，因此很难找到一种对遮挡具有鲁棒性的人脸特征表示；基于无遮挡的人脸图像重建的方法旨在使用生成模型重建待识别图像的无遮挡版本，然后根据重建后的图像进行表情分类。但是生成的图像的真实度通常都不高，这直接影响了面部表情识别的性能；基于子区域分析的方法将图像划分为若干区域，再从这些子区域和整个图像中进行面部表情识别。一般来说进行面部子区域分割会使用到面部关键点检测和注意力机制技术，但对被遮挡的面部图像进行面部关键点检测仍然是具有挑战性的，这也影响了该类方法对面部表情识别的精度；基于无遮挡的人脸图像辅助的方法通常采用无遮挡人脸图像作为特权信息来辅助被遮挡的人脸表情识别。在训练过程中，这些方法一般会构建两个网络：一个用于无遮挡的人脸表情识别，另一个用于被遮挡的人脸表情识别。在测试过程中，这些方法假设所有的人脸图像都被遮挡，只使用被遮挡的人脸表情识别网络进行识别。但是在现实场景中人们无法知道人脸图像是否是被遮挡的。此外，上述所有方法都需要完整的表情标注图像进行训练，但因为遮挡部分的类型和位置是无限的，为这些方法收集具有各种表情和遮挡的大规模图像数据集是十分困难的。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用，以期能使用无遮挡人脸和遮挡图案位置信息协助被遮挡人脸表情的识别，从而能提升被遮挡人脸表情识别的准确率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于自监督学习的被遮挡人脸表情识别方法的特点是按如下步骤进行：

步骤1、对包含无标签人脸图像的数据库进行图像预处理：

根据数据库中每张图像的人脸关键点信息，对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作，使得图像中的人脸处于在中间位置后，得到处理后的图像集，记作

其中，N_p表示训练样本的总数，

表示第i张无遮挡的人脸图像；H代表图像的高度，W代表图像的宽度；

从N_c种遮挡图案中随机选择的一种遮挡图案并随机添加到第i张无遮挡的人脸图像上，生成第i张有遮挡的人脸图像

且

对应的遮挡掩码记为M⁽ⁱ⁾∈{0,1}^H×W；

将处理后的图像集

经过合成后的被遮挡图像集及其对应的遮挡掩码集记作自监督学习的前置任务阶段数据集

步骤2、构建自监督学习的前置任务阶段网络模型，包括：前置特征提取器F_b，图像特征提取器F，遮挡识别器U_o和特征映射头R；

前置特征提取器F_b由输入卷积层、批归一化层和ReLU激活函数构成；

图像特征提取器F由最大池化层、Resnet特征提取层和均值池化层构成；

遮挡识别器U_o由输入卷积层、上采样卷积层和输出卷积层构成，输入卷积层和上采样卷积层后均接入批归一化层和ReLU激活函数，输出卷积层后接入批归一化层；

特征映射头R由输入线性层、ReLU激活函数和输出线性层构成；

遮挡识别器U_o和特征映射头R中的参数需要进行初始化；

步骤3、构造相似性损失和遮挡识别损失；

步骤3.1、相似性损失：

步骤3.1.1、将所述第i张无遮挡的人脸图像

输入所述前置特征提取器F_b中进行处理，得到第i个无遮挡前置特征

将所述第i张有遮挡的人脸图像

输入所述前置特征提取器F_b中进行处理，得到第i个有遮挡前置特征

步骤3.1.2、将所述无遮挡前置特征

输入所述图像特征提取器F中进行处理，得到无遮挡中间特征

将所述有遮挡前置特征

输入所述图像特征提取器F中进行处理，得到有遮挡中间特征

步骤3.1.3、将所述无遮挡中间特征

输入所述特征映射头R中进行处理，得到无遮挡面部表示

将所述有遮挡中间特征

输入所述特征映射头R中进行处理，得到有遮挡面部表示

步骤3.1.4利用式(1)构建相似性损失函数

式(1)中，

和

分别表示

和

的相似性损失，并由式(2)和式(3)得到：

式(2)和式(3)中，τ表示温度参数，sim()表示余弦相似度函数；z表示除

之外的所有面部表示的集合中的任意一个面部表示，z'表示除

之外的所有面部表示的集合中的任意一个面部表示；

步骤3.2、遮挡识别损失：

步骤3.2.1、将所述有遮挡前置特征

输入所述遮挡识别器U_o中进行处理，得到遮挡预测矩阵

步骤3.2.3、利用式(4)构建遮挡识别损失函数

式(4)中，M[g,k]表示遮挡掩码M⁽ⁱ⁾中第g行第k列的像素点是否属于遮挡图案，

表示遮挡预测矩阵

中第g行第k列的像素点属于遮挡图案的预测概率；

步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化；

步骤4.1、利用式(5)构建自监督学习的前置任务阶段网络模型的总损失函数函数

式(5)中，λ_ss和λ_mask分别是控制相似性损失和遮挡识别损失权重的权重因子；

步骤4.2、设置外部的总训练步数为K，外部的当前训练步数为k；设置内部的总训练步数为K_b，内部的当前训练步数为k_b；设置训练中每次采样的样本数为B；初始化k＝1，k_b＝1；

步骤4.3、从自监督学习的前置任务阶段数据集

中进行外部第k次内部第k_b次随机不放回的取出B组样本

并作为外部第k次内部第k_b次迭代的训练样本；其中，

表示所述第j张无遮挡的人脸图像，

表示所述第j张有遮挡的人脸图像，M^(j)表示所述第j张有遮挡图像对应的遮挡掩码；

步骤4.4、将外部第k次内部第k_b次迭代的训练样本

输入自监督学习的前置任务阶段网络模型中，并使用梯度下降法对所述自监督学习的前置任务阶段网络模型进行训练，同时计算总损失函数函数

以外部第k次内部第k_b次更新网络模型参数；

步骤4.5、将k_b+1赋值给k_b后，判断k_b*B≥N_p是否成立，若成立，则执行步骤4.6，否则返回步骤4.3继续执行；

步骤4.6、将k+1赋值给k后，判断k≥K是否成立，若成立，则表示自监督学习的前置任务阶段网络模型训练结束，并得到自监督学习的前置任务阶段训练后的前置特征提取器F'_b，图像特征提取器F'，遮挡识别器U'_o和特征映射头R'，执行步骤5，否则，初始化k_b＝1后，返回步骤4.3继续执行；

步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理；

对数据库中所有的人脸图像进行裁剪、缩放和旋转操作，得到归一化后的人脸图像数据集

共有N_fo+N_fc个训练样本，其中，

表示无遮挡的人脸图像，

是向

中添加遮挡之后的有遮挡的人脸图像，y^(i')∈{0,1,…,N_e-1}表示第i'个样本的表情标签；

步骤6、构建自监督学习的下游任务阶段网络模型，包括自监督学习的前置任务阶段训练后的前置特征提取器F'_b，自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C；

表情分类器C依次由一个线性层、一个批归一化层、一个ReLU激活函数、一个线性层、一个批归一化层、一个ReLU激活函数和一个线性层组成，其中线性层参数需要进行初始化；

步骤7、构造分类损失；

步骤7.1、从所述

中任意取一对样本与他们的真实标签

将样本

输入所述前置特征提取器F'_b，得到前置特征

将样本

输入所述前置特征提取器F'_b，得到前置特征

步骤7.2、将所述前置特征

分别输入所述图像特征提取器F'，得到中间特征

将所述前置特征

分别输入所述图像特征提取器F'，得到中间特征

步骤7.3、将所述中间特征

输入表情分类器C，得到分类概率向量

将所述中间特征

输入表情分类器C，得到分类概率向量

步骤7.4、利用式(6)构建分类损失

式(6)中，

表示交叉熵损失函数，softmax表示softmax函数；

步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化；

步骤8.1、设置总的训练步数为K'，当前总的训练步数为k'；设置内部的训练步数为K'_b，当前内部的训练步数为k'_b；设置训练中每次采样的样本数为B'；初始化k',k'_b为1；

步骤8.2、从所述

中进行外部第k'次内部第k'_b次随机不放回的取出B'组样本

并作为外部第k'次内部第k'_b次迭代的训练样本；

步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型，使用梯度下降法根据式(6)优化前置特征提取器F'_b，图像特征提取器F'和表情分类器C；

步骤8.4、将k'_b+1赋值给k'_b后，判断k'_b*B'≥N_fo是否成立，若成立，则执行步骤8.5，否则，返回步骤8.2继续执行；

步骤8.5、将k'+1赋值给k'后，判断k'≥K'是否成立，若成立，则表示自监督学习的下游任务阶段网络模型训练结束，并得到自监督学习的下游任务阶段训练后的前置特征提取器F”_b，图像特征提取器F”和表情分类器C'，执行步骤9，否则，将初始化k'_b＝1后，返回步骤8.2继续执行；

步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”_b，图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测，以实现人脸表情的分类识别。

本发明一种电子设备，包括存储器以及处理器，其特点在于，所述存储器用于存储支持处理器执行所述被遮挡人脸表情识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特点在于，所述计算机程序被处理器运行时执行所述被遮挡人脸表情识别方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明通过提出向无遮挡的人脸图像添加遮挡图案的方法生成被遮挡的人脸表情图像，并使用在这一过程中的无遮挡人脸图像和遮挡图案的位置信息来辅助进行被遮挡的人脸图像的表情识别。解决了现有的被遮挡表情识别方法受限于样本数量、多样性的问题，实现了效果更为优秀的被遮挡人脸表情识别。

2、本发明通过提出使用对比学习的技术，以相似性损失衡量无遮挡人脸图像特征与有遮挡人脸图像特征之间的差距，使得有遮挡人脸图像的特征表示更趋近与相同表情的无遮挡人脸图像的特征表示，指导了网络从有遮挡人脸图像中提取对遮挡更具有鲁棒性的特征表示，提升了在实际环境中的可用性。

3、本发明通过提出遮挡预测损失，使得网络能够预测出有遮挡图像上遮挡图案的位置，并更少的关注遮挡图案区域上的信息，以此降低遮挡带来的影响，提高所提取特征表示与表情的相关性，有效提升了被遮挡表情的识别准确率。

4、本发明通过提出使用自监督学习技术，通过在自监督学习的前置任务阶段中应用相似性损失和遮挡预测损失，为自监督学习的下游任务阶段提供一个具有更好初始参数的特征提取器，在提高被遮挡人脸表情识别率的同时也使得该方法能够更容易的迁移到其他数据集上，拥有更佳的泛化能力。

附图说明

图1为本发明模型自监督学习的前置任务阶段的框架图。

图2为本发明模型自监督学习的下游任务阶段的框架图。

具体实施方式

本实施例中，如图1所示，一种基于自监督学习的被遮挡人脸表情识别方法的前置任务阶段是按如下步骤进行：

步骤1、对包含无标签人脸图像的数据库进行图像预处理：

其中，N_p表示训练样本的总数，

表示第i张无遮挡的人脸图像；H代表图像的高度，W代表图像的宽度；本实施例中，经过归一化处理后的所有人脸图像的像素大小为224×224；即H＝224，W＝224。使用VGGFace2作为无标签人脸图像数据库，VGGFace2包含来自9131个人的3141890张图像，该数据库是从GoogleImage Search下载的，在种族、年龄和姿势方面有很大差异，在本实施例中作为自监督学习的前置任务阶段数据集使用，即N_p＝3141890；

且

对应的遮挡掩码记为M⁽ⁱ⁾∈{0,1}^H×W；本实施例中，N_c＝15，分别为5种手部遮挡图案，5种食物遮挡图案和5种饮品遮挡图案。

将处理后的图像集

本实施例中，前置特征提取器F_b依次由一个输入卷积层、一个批归一化层和一个ReLU激活函数构成；本实施例中，输入卷积层、批归一化层和ReLU激活函数均由resnet34预训练网络提供，分别为resnet34.conv1、resnet34.bn1和resnet34.relu；

图像特征提取器F依次由一个最大池化层、四个Resnet特征提取层和一个均值池化层构成；本实施例中，最大池化层和四个Resnet特征提取层均由resnet34预训练网络提供，分别为resnet34.maxpool和resnet34.layer1-4，均值池化层为尺寸为1×1的自适应均值池化层；

遮挡识别器U_o依次由一个输入卷积层(本实施例中该卷积层设置为输入通道数为64，输出通道数为32，卷积核尺寸为3×3，填充为1)、一个上采样卷积层(本实施例中该卷积层设置为尺度因子为2，采样模式为bilinear)和一个输出卷积层(本实施例中该卷积层设置为输入通道数为32，输出通道数为1，卷积核尺寸为3×3，填充为1)构成，输入卷积层和上采样卷积层后均接入一个批归一化层(本实施例中批归一化特征数为32)和ReLU激活函数，输出卷积层后接入一个批归一化层(本实施例中批归一化特征数为1)；

本实施例中，特征映射头R依次由一个输入线性层(本实施例中该线性层输入数量为512，输出数量为128)、一个ReLU激活函数和一个输出线性层(本实施例中该线性层输入数量为128，输出数量为128)构成；

遮挡识别器U_o和特征映射头R中的参数需要进行初始化；本实施例中所有的卷积层使用kaiming正态分布进行权值初始化，如果卷积层中存在偏移量则将偏移量初始化为常数0、所有批归一化层中的权重均初始化为常数1、所有批归一化层中的偏移量初始化为常数0、所有的线性层均使用正态分布初始化权值(均值为0，方差为0.005的正态分布)，线性层中的偏移量初始化为常数0；

步骤3、构造相似性损失和遮挡识别损失；

步骤3.1、相似性损失：

步骤3.1.1、将第i张无遮挡的人脸图像

输入前置特征提取器F_b中进行处理，得到第i个无遮挡前置特征

将第i张有遮挡的人脸图像

输入前置特征提取器F_b中进行处理，得到第i个有遮挡前置特征

步骤3.1.2、将无遮挡前置特征

输入图像特征提取器F中进行处理，得到无遮挡中间特征

将有遮挡前置特征

输入图像特征提取器F中进行处理，得到有遮挡中间特征

步骤3.1.3、将无遮挡中间特征

输入特征映射头R中进行处理，得到无遮挡面部表示

将有遮挡中间特征

输入特征映射头R中进行处理，得到有遮挡面部表示

步骤3.1.4本方法期望相同人脸的有遮挡面部表示和无遮挡面部表示是相似的，而对比学习最大化正对之间的相似性，最小化负对之间的相似性的特点满足了本方法的需要，所以本方法根据对比学习的思想利用式(1)构建相似性损失函数

由于

是从

变换得到的，其特征应当更为相似，因此本方法将

视为正对，将

和

视为负对，所以有式(1)中，

和

分别表示

和

的相似性损失，并由式(2)和式(3)得到：

式(2)和式(3)中，τ表示温度参数，sim()表示余弦相似度函数作为相似度度量方法；z表示除

之外的所有面部表示的集合中的任意一个面部表示；

步骤3.2、遮挡识别损失：

步骤3.2.1、在人脸图像中，被遮挡的区域通常仅包含较少的甚至不包含关于表情的信息，如果网络能够得知遮挡所在的位置，并更少的关注被遮挡区域上的信息，那么遮挡带来的影响就会更小，网络也能够获得与表情更相关的特征，因此本方法将有遮挡前置特征

输入遮挡识别器U_o中进行处理，得到遮挡预测矩阵

步骤3.2.3、利用类似交叉熵的思想监督网络预测遮挡位置的结果，因此有式(4)构建遮挡识别损失函数

表示遮挡预测矩阵

中第g行第k列的像素点属于遮挡图案的预测概率；

步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型的参数进行优化；

式(5)中，λ_ss和λ_mask分别是控制相似性损失和遮挡识别损失权重的权重因子(本实施例中λ_ss＝5，λ_mask＝1)；

步骤4.2、本实施例中，设置外部的总训练步数为K＝2，外部的当前训练步数为k；设置内部的总训练步数为K_b＝4910，内部的当前训练步数为k_b；设置训练中每次采样的样本数为B＝64；初始化k＝1，k_b＝1；

步骤4.3、从自监督学习的前置任务阶段数据集

中进行外部第k次内部第k_b次随机不放回的取出B组样本

并作为外部第k次内部第k_b次迭代的训练样本；其中，

表示第j张无遮挡的人脸图像，

表示第j张有遮挡的人脸图像，M^(j)表示第j张有遮挡图像对应的遮挡掩码；

步骤4.4、将外部第k次内部第k_b次迭代的训练样本

输入自监督学习的前置任务阶段网络模型中，并使用梯度下降法对自监督学习的前置任务阶段网络模型进行训练，同时计算总损失函数函数

以外部第k次内部第k_b次更新网络模型参数；

步骤4.5、将k_b+1赋值给k_b后，判断是否全部训练样本已经被取出，即判断k_b*B≥N_p是否成立，若成立，则执行步骤4.6，否则返回步骤4.3继续执行；

步骤4.6、将k+1赋值给k后，判断k≥K是否成立，若成立，则表示自监督学习的前置任务阶段网络模型训练结束，并得到自监督学习的前置任务阶段训练后的前置特征提取器F'_b，图像特征提取器F'，遮挡识别器U'_o和特征映射头R'，作为下一阶段的初始网络，执行步骤5，否则，初始化k_b＝1后，返回步骤4.3继续执行；

本实施例中，如图2所示，一种基于自监督学习的被遮挡人脸表情识别方法的下游任务阶段是按如下步骤进行：

共有N_fo+N_fc个训练样本，其中

表示无遮挡的人脸图像，

是向

中添加遮挡之后的有遮挡的人脸图像，y^(i')∈{0,1,…,N_e-1}表示第i'个样本的表情标签。本实施例中共在三个数据库进行了后续操作，分别为RAF-DB、AffectNet和CK+。在RAF-DB中本方法将所有人脸图像归一化处理为224×224的像素大小；即H＝224，W＝224，N_fo＝N_fc＝12271，N_e＝7；在AffectNet中本方法将所有人脸图像归一化处理为224×224的像素大小；即H＝224，W＝224，N_fo＝N_fc＝287651，N_e＝7；在AffectNet中本方法将所有人脸图像归一化处理为48×48的像素大小；即H＝48，W＝48，N_fo＝N_fc＝636，N_e＝7；

表情分类器C依次由一个线性层(本实施例中该线性层设置为输入数为512，输出数为256)、一个批归一化层(本实施例中批归一化特征数为256)、一个ReLU激活函数、一个线性层(本实施例中该线性层设置为输入数为256，输出数为128)、一个批归一化层(本实施例中批归一化特征数为128)、一个ReLU激活函数和一个线性层(本实施例中该线性层设置为输入数为128，输出数为128)组成，其中线性层参数需要进行初始化(本实施例中都使用正态分布初始化权值(均值为0，方差为0.003的正态分布)，偏移量初始化为常数0)；

步骤7、构造分类损失；

步骤7.1、从

中任意取一对样本与他们的真实标签

将样本

输入前置特征提取器F'_b，得到前置特征

将样本

输入前置特征提取器F'_b，得到前置特征

步骤7.2、将的前置特征

分别输入图像特征提取器F'，得到中间特征

将的前置特征

分别输入图像特征提取器F'，得到中间特征

步骤7.3、将中间特征

输入表情分类器C，得到分类概率向量

将中间特征

输入表情分类器C，得到分类概率向量

步骤7.4、使用交叉熵损失来优化该分类任务，即利用式(6)构建分类损失

其中，

表示交叉熵损失函数，softmax表示softmax函数。

步骤8.1、本实施例中，设置总的训练步数为K'＝20，当前总的训练步数为k'；设置内部的训练步数为K'_b(在RAF-DB上K'_b＝31；在AffectNet上K'_b＝411；在RAF-DB上K'_b＝8；)，当前内部的训练步数为k'_b；设置训练中每次采样的样本数为B'＝64；初始化k',k'_b为1；

步骤8.2、从

中进行外部第k'次内部第k'_b次随机不放回的取出B'组样本

并作为外部第k'次内部第k'_b次迭代的训练样本；

步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型，使用梯度下降法根据式(6)优化前置特征提取器F'_b，图像特征提取器F'和表情分类器C。

步骤8.4、将k'_b+1赋值给k'_b后，判断是否全部训练样本已经被取出，即判断k'_b*B'≥N_fo是否成立，若成立，则执行步骤8.5，否则返回步骤8.2继续执行；

步骤8.5、将k'+1赋值给k'后，判断k'≥K'是否成立，若成立，则表示自监督学习的下游任务阶段网络模型训练结束，并得到自监督学习的下游任务阶段训练后的前置特征提取器F”_b，图像特征提取器F”和表情分类器C'，执行步骤9，否则将1赋值给k'_b后返回步骤8.2继续执行；

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行该被遮挡人脸表情识别方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行该被遮挡人脸表情识别方法的步骤。