CN116386104A

CN116386104A - 对比学习结合掩码图像建模的自监督人脸表情识别方法

Info

Publication number: CN116386104A
Application number: CN202310194562.3A
Authority: CN
Inventors: 朱纤纤; 丁军娣
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-07-04

Abstract

本发明公开了一种对比学习结合掩码图像建模的自监督人脸表情识别方法，该方法为：构建对比学习结合掩码图像建模的自监督人脸表情识别模型；在模型上进行无监督的预训练；对预训练后的模型在带标签的验证集上进行线性探测评估和微调评估；采用微调评估后的模型，对输入的人脸图像进行表情识别；该方法通过一个无卷积的孪生网络学习人脸表情表征，利用对比损失和掩码图像建模损失对孪生网络进行预训练，从而同时理解高级视觉语义和图像内部结构，最大化学生网络和教师网络输出之间的一致性。本发明可以学习丰富的视觉信息，对于各种与面部表情无关的干扰具有鲁棒性，同时在人脸表情数据集的线性探测和微调评估上均取得了出色的效果。

Description

对比学习结合掩码图像建模的自监督人脸表情识别方法

技术领域

本发明属于图像分类技术领域，特别涉及一种对比学习结合掩码图像建模的自监督人脸表情识别方法。

背景技术

面部表情提供了丰富的情感信息，是人类表达情感和意图最强大、最普遍和最自然的方式之一，在人际交往中是不可忽视的重要信息载体。近年来，随着人工智能的不断发展，人脸表情识别(Facial Expression Recognition，FER)在智能设备、医疗服务、个人情绪管理、疲劳驾驶监测及其他人机交互系统等诸多领域广泛应用，是情感计算和计算机视觉(Computer Vision，CV)领域的研究热点之一。著名美国心理学家保罗·埃克曼(PaulEkman)提出了如今被视为普遍标准的人类6类基础表情：愤怒、厌恶、恐惧、高兴、悲伤和惊讶，后来又增加了蔑视(contempt)这一新的基础表情。

在深度学习兴起之前，传统的FER方法主要基于手工特征和浅层学习(例如，定向梯度直方图(HOGs)、局部二进制模式(LBP)和稀疏表示)。近年来，随着数据驱动技术的发展，基于深度学习的方法逐渐取代传统方法，实现了最先进的FER性能。深度学习虽然具备强大的表征能力，但应用于人脸表情识别任务上还存在以下几个问题：

1)依赖大规模的标注数据。目前基于深度学习的人脸表情识别方法的成功依靠有监督的训练方式，对数据量要求巨大。标注数据越多，标注质量越好，模型效果越显著，而缺乏足量训练数据会导致过拟合问题。然而，当前人脸表情数据的人工标注存在标注质量不一和成本高昂的问题。一方面，不同标注者对表情的理解和认知差异会导致标注结果具有主观性、低准确性，对网络训练过程有很大的干扰。另一方面，人工对人脸表情数据进行标注需要多个繁琐的步骤，效率较低且所需成本较高，获取高质量的有标注人脸表情数据具有较大的难度。

2)自然场景下与表情识别无关因素的干扰。人脸表情识别在自然场景下的表现会受到很多外部因素的影响，如光照条件不同、背景复杂、头部姿态不同、部分遮挡、面部扭曲、模糊等，因此是一项非常困难的任务。

监督学习(Supervised Learning,SL)方法极度依赖于大量的有标注数据，缺乏标注数据促使研究者们寻找替代方法，即如何利用大量的无标注数据，因此自监督学习(Self-Supervised Learning,SSL)得到了广泛关注。自监督学习属于无监督学习的一种，可以直接利用数据本身作为监督信息(伪标签)，而不需要人工标注的信息。自监督学习首先通过前置任务在预训练阶段学习图像的特征表示，此阶段无需标注数据。之后将学习到的参数作为预训练模型迁移到下游任务(downstream task)，使用部分标注数据进行微调，就可以达到很好的效果。自监督学习相比于监督学习具有以下优势：1)不需要大量的标注数据；2)更多地关注数据的内在信息，数据所能提供的信息比稀疏的标签更加丰富；3)能够学习到更多通用的知识，自监督学习得到的表示往往能够更好地迁移到下游任务中。

为了减少训练过程中对分类标签的依赖，可以利用自监督学习(Self-SupervisedLearning,SSL)方法预训练深度神经网络。SSL框架可分为对比学习(ContrastiveLearning,CL)和生成学习。对比学习将来自同一图像的不同增强视图的表示拉近，同时避免特征崩溃。它在线性探测方面表现良好。但是，对比学习主要集中在中心区域和高级语义上，在捕获局部特征方面较差，这与有监督的预训练类似。最近，掩码图像建模(MaskedImage Modeling,MIM)逐渐受到了广泛的关注，MIM通过训练模型来恢复被遮挡图像的原始内容，属于生成学习框架。MIM可以更好地理解图像内复杂的局部结构，从而在微调上有出色的表现，但在线性探测上表现不佳。CL和MIM方法各有优缺点。CL简单地学习整张图像的全局表示，因此无法描述图像内部结构。而MIM在每张图像中分别发挥作用，更多地关注低级信息，却不考虑图像之间的交互。MIM难以学习到高层语义相似的图像表征，导致线性探测性能较差。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提供一种对比学习结合掩码图像建模的自监督人脸表情识别方法。

实现本发明目的的技术解决方案为：一种对比学习结合掩码图像建模的自监督人脸表情识别方法，所述方法包括以下步骤：

步骤1，构建对比学习结合掩码图像建模的自监督人脸表情识别模型；

步骤2，在自监督人脸表情识别模型上进行无监督的预训练；

步骤3，对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估；

步骤4，采用微调评估后的自监督人脸表情识别模型，对输入的人脸图像进行表情识别。

一种对比学习结合掩码图像建模的自监督人脸表情识别装置，该装置包括以下模块：

模型构建模块，用于构建对比学习结合掩码图像建模的自监督人脸表情识别模型；

模型训练模块，用于在自监督人脸表情识别模型上进行无监督的预训练；

模型评估模块，用于对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估；

模型识别模块，用于采用微调评估后的自监督人脸表情识别模型，对输入的人脸图像进行表情识别；

所述装置在人脸表情识别的过程中，执行所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。

一种移动终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现对比学习结合掩码图像建模的自监督人脸表情识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。

本发明与现有技术相比，其显著优点为：(1)结合了对比学习和掩码图像建模各自的优势，可以同时考虑到图像间关系和图像内结构：一方面，通过促进同一图像的不同增强视图中的分类tokens的相似性来捕获高层视觉语义，从而实现语义对齐；另一方面，预测来自同一图像的不同增强视图的掩码图像的HOG特征，从而对每张图像内的局部结构进行建模；(2)在掩码图像建模损失中引入手工特征HOG，很好地拟合了随机掩码图像块的预测目标，可以在一定程度上使模型对于自然场景下的照明和对比度变化等干扰具有鲁棒性，而且可以防止模型过度拟合像素细节信息。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为对比学习结合掩码图像建模的自监督人脸表情识别方法的模型图。

图2为搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络主干网络f(ViT-S/16)的结构示意图。

图3为搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络的一个预训练模型可视化注意力图。

图4为搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络的另一个预训练模型可视化注意力图。

具体实施方式

本发明一种对比学习结合掩码图像建模的自监督人脸表情识别方法，所述方法包括以下步骤：

步骤2，在自监督人脸表情识别模型上进行无监督的预训练；

作为一种具体示例，步骤1所述构建对比学习结合掩码图像建模的自监督人脸表情识别模型，具体包括：

步骤1-1，计算输入图像x的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征z^hog；

步骤1-2，对输入图像进行处理，给定输入图像

首先分成N＝HW/P²个图像块/>

其中C是通道的数量，为3个通道(RGB)；(H,W)是输入图像的分辨率，即(224,224)；(P,P)是每个图像块的分辨率，大小为(16,16)，N为196；

步骤1-3，将输入图像x进行随机变换，产生两个相关增强视图表示为u和v，作为正样本对，分别送入学生网络g_s和教师网络g_t；

步骤1-4，通过线性投影，二维图像x的两个增强视图u和v被展平为图像块，分别表示为

和/>

均看作一个长度为N的图像块视觉词(tokens)序列；

步骤1-5，对于图像视觉词序列

掩码图像建模首先根据掩码预测比例r生成随机掩码m∈{0,1}^N，其中视觉词个数为N；然后用掩码视觉词[M]替换图像块视觉词u_i，生成一个经过掩码的图像/>

其中，m为1时表示u_i被掩码，即被掩码视觉词[M]替换；m为0时则表示未掩码；掩码图像建模旨在从经过掩码的图像

中恢复被掩码的视觉词；

步骤1-6，使用ViT-S/16(Vision Transformer-Small,视觉Transformer)的编码器作为自监督人脸表情识别模型的主干网络f，/16表示图像块大小为16，编码器(Encoder)层数为12；

步骤1-7，增强视图u和v通过一个线性层转换为一组嵌入序列，在序列中添加一个额外的可学习的token(视觉词)；该类别视觉词[CLS]的作用是聚合整个序列的信息，不附加任何标签或监督；视图u经过掩码后，图像块视觉词

和类别视觉词[CLS]的集合被送入到学生网络的Transformer编码器f_s；视图v未经掩码，图像块视觉词v和类别视觉词[CLS]直接送入教师网络的编码器f_t；

步骤1-8，自监督人脸表情识别模型的投影头h由一个3层的多层感知机(MLP)，一个l₂归一化层和一个权重归一化的K维的全连接层组成；

步骤1-9，自监督人脸表情识别模型的网络g由主干网络f和投影头h组成，学生网络和教师网络共享相同的架构g，且具有不同的参数集θ_s和θ_t；使用大小为224×224的图像对Transformer进行预训练和微调，图像块视觉词的总数N为196，共享投影头的输出维度设置为108，最终输出的向量维度K为21168。

作为一种具体示例，步骤2所述在自监督人脸表情识别模型上进行无监督的预训练，具体包括：

步骤2-1，初始化自监督人脸表情识别模型的网络参数及迭代次数；

步骤2-2，对原始图像x的增强视图u进行随机掩码，得到掩码视图

步骤2-3，学生网络为掩码视图

输出预测的HOG特征/>

教师网络为非掩码视图v输出特征/>

其中P(·)表示将输入转换为K维的概率分布，θ_s和θ_t分别表示学生网络和教师网络的参数集；

通过使用softmax函数对网络g的输出进行归一化得到

其中，τ_t>0是一个温度参数，对于温度为τ_s的

的公式也类似：

步骤2-4，掩码图像建模(Masked Image Modeling,MIM)的训练目标定义为：

其中，

为掩码图像建模损失，N为视觉词个数，i表示图像块视觉词序号，m_i为1表示该图像块被掩码，m_i为0表示该图像块未掩码，即只在掩码图像块上计算重建损失；z^hog作为自监督人脸表情识别模型的目标特征，是一个一维向量，首先在掩码视图的整张图像上提取HOG特征图，然后将其重塑为图像块，掩码图像块的直方图被展平并连接成z^hog；

步骤2-5，为了保持语义对齐，自监督人脸表情识别模型还对不同视图的类别视觉词[CLS]执行交叉熵损失，作为对比损失

通过最小化交叉熵损失来匹配语义相似的信息：

其中

表示教师网络为非掩码视图v输出的类别语义特征，/>

表示学生网络为掩码视图/>

输出的类别语义特征；

步骤2-6，在教师网络上应用一个停止梯度算子sg(stop-gradient)，只通过学生网络来传播梯度；教师网络的参数θ_t随学生网络的参数θ_s进行指数移动平均(ExponentialMoving Average,EMA)，更新规则为：

θ_t←λθ_t+(1-λ)θ_s

其中，λ为超参数，在训练期间遵循从0.996到1的余弦学习率调整；自监督人脸表情识别模型通过动量更新与掩码图像建模的目标共同优化，所以不需要额外的训练阶段作为预处理设置；

步骤2-7，自监督人脸表情识别模型通过随机梯度下降法最小化

和/>

来学习参数θ_s。

作为一种具体示例，步骤3所述对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估，具体包括：

步骤3-1，在无监督预训练之后，在去除投影头的教师网络的冻结特征上学习一个监督线性分类器，进行线性探测(Linear Probing)评估；

步骤3-2，对于微调(Fine-tune)评估，基于无监督预训练好的教师网络编码器的权值，在去除投影头的教师网络上学习一个监督线性分类器，使用有标签的验证集数据来更新教师网络和分类层的参数，即不冻结教师网络的参数；

步骤3-3，在有标签的验证集上线性探测和微调100个epochs(迭代次数)，以进行线性探测和微调评估。

本发明还提供一种对比学习结合掩码图像建模的自监督人脸表情识别装置，该装置包括以下模块：

本发明还提供一种移动终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现对比学习结合掩码图像建模的自监督人脸表情识别方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

实施例1

在本实施例中，提供一种对比学习结合掩码图像建模的自监督人脸表情识别方法，该方法包括以下步骤：

步骤2，在对比学习结合掩码图像建模的自监督人脸表情识别模型上进行无监督的预训练；

步骤3，对预训练后的模型在带标签的验证集上进行线性探测评估和微调评估。

进一步地，在其中一个实施例中，结合图1～图2，图1为实施例中对比学习结合掩码图像建模的自监督人脸表情识别方法模型图，图2为实施例中搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络主干网络f(ViT-S/16)的结构示意图，由多头自注意力网络、残差连接和层归一化、前馈(全连接)神经网络构成。

步骤1所述构建对比学习结合掩码图像建模的自监督人脸表情识别模型，具体包括：

步骤1-1，计算输入图像x的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征z^ho；

步骤1-2，将输入图像x进行随机变换，产生两个相关增强视图表示为u和v，作为正样本对；

步骤1-3，对输入图像进行处理，给定输入图像

首先分成N＝HW/P²个图像块(patches)：/>

i∈N，其中C是通道的数量，为3个通道(RGB)；(H,W)是输入图像的分辨率，即(224,224)；(P,P)是每个图像块的分辨率，大小为(16,16)，因此N为196。通过线性投影，二维图像x被展平为图像块：/>

可以看作一个图像视觉词(tokens)序列；

步骤1-4，对于图像视觉词序列

掩码图像建模首先根据掩码预测比例r生成随机掩码m∈{0,1}^N，其中N为视觉词个数。然后用掩码视觉词[M]替换图像块视觉词x_i，生成一个经过掩码的图像/>

其中，m为1时表示x_i被掩码，m为0时则表示未掩码。掩码图像建模旨在从经过掩码的图像

中恢复被掩码的视觉词；

步骤1-5，使用ViT-S/16作为模型的主干网络f，/16表示图像块大小为16，编码器(Encoder)层数为12。然后，这些图像块通过一个线性层转换为一组嵌入序列，并在序列中添加一个额外的可学习的token(视觉词)。这个类别token[CLS]的作用是聚合整个序列的信息，它不附加任何标签或监督。然后图像块tokens和[CLS]tokens的集合被送入到一个标准的Transformer网络。使用大小为224×224的图像对Transformer进行预训练和微调，相应的图像块tokens的总数为196，共享投影头的输出维度设置为108，因此最终输出的向量维度为21168；

步骤1-6，模型的投影头h由一个3层的多层感知机(MLP)，一个l₂归一化层和一个权重归一化的K维的全连接层组成；

步骤1-7，模型的网络g由主干网络f和投影头h组成：g＝h°f，学生和教师两个网络共享相同的架构g，但具有不同的参数集θ_s和θ_t。

优选地，在其中一个实施例中，步骤1-2中所述图像增强的方法依次应用：随机裁剪然后调整到224×224大小，随机水平翻转、随机颜色抖动、随机高斯模糊和过曝。

进一步地，在其中一个实施例中，步骤2所述在对比学习结合掩码图像建模的自监督人脸表情识别模型上进行无监督的预训练，具体包括：

步骤2-1，初始化模型网络参数及迭代次数；

步骤2-3，学生网络为掩码视图

输出其预测的HOG特征/>

教师网络为非掩码视图v输出特征/>

其中P(·)将输入转换为K维的概率分布，通过使用softmax函数对网络g的输出进行归一化得到：

其中，τ_t>0是一个温度参数，对于温度为τ_s的

的公式也类似；

步骤2-4，掩码图像建模的训练目标可定义为：

其中N为视觉词个数，m_i为1表示该图像块被掩码，即只在掩码图像块上计算重建损失；z^hog作为模型的目标特征，是一个一维向量，首先在掩码视图的整张图像上提取HOG特征图，然后将其重塑为图像块，掩码图像块的直方图被展平并连接成z^ho；

步骤2-5，为了保持语义对齐，模型还对不同视图的[CLS]tokens执行交叉熵损失，作为对比损失。通过最小化交叉熵损失来匹配语义相似的信息：

步骤2-6，在教师网络上应用一个sg(stop-gradient)算子停止梯度，只通过学生网络来传播梯度。教师网络的参数θ_t随学生网络的参数θ_s进行指数移动平均(EMA)，更新规则为：

θ_t←λθ_t+(1-λ)θ_s

其中，λ在训练期间遵循从0.996到1的余弦学习率调整。模型通过动量更新与掩码图像建模的目标共同优化，所以不需要额外的训练阶段作为预处理设置。

步骤2-7，模型通过随机梯度下降法最小化

和/>

来学习参数θ_s。

这里，优选地参数设置为：在FERplus训练集上用AdamW优化器进行预训练，批大小(batch size)为64。以ViT-S/16为主干网络进行300个epochs无标签预训练。在最初的10个epochs中，学习率线性上升到其基准值，该值由线性缩放规则决定：lr＝0.0005×batchsize/256，预热后采用余弦学习率衰减。权重的衰减也遵循从0.04到0.4的余弦调整。温度τ_s设置为0.1，在前30个epochs中对τ_t使用了从0.04到0.07的线性预热。随机掩码比例r为所有图像块的40％。所有数据集的图像都被调整为224×224大小。

进一步地，在其中一个实施例中，步骤3所述对预训练后的模型在带标签的验证集上进行线性探测评估和微调评估，具体包括：

步骤3-2，对于微调(Fine-tune)评估，基于无监督预训练好的权值来初始化网络，使用有标签的数据来更新包含分类层和特征提取部分的整个网络的参数；

步骤3-3，在有标签的验证集上线性探测和微调100个epochs，以进行评估。

实施例2

示例性地，在本实施例中，使用相同的人脸表情数据集进行实验，将本发明模型与最新的主流自监督学习方法(DINO、iBOT、MAE)进行对比，评估标准采用线性探测和微调；并将本发明模型与最先进的有监督学习方法在FERplus、RAF-DB、CK+数据集上进行对比。

对比实验结果如下表1至表2所示。

表1与自监督学习方法在FERplus数据集上的结果对比

表2与有监督学习方法的结果对比

从表1可以看出，本发明提出的对比学习结合掩码图像建模的自监督人脸表情识别方法以ViT-S/16为主干网络，达到了84.62％的线性探测精度，比DINO和iBOT分别高出2.53％和0.47％；微调精度为89.28％，相比于MAE提升了1.47％，较DINO和iBOT提高约0.2％。总的来说，本方法在线性探测和微调评估上均达到了最先进的性能，且在线性探测精度上的优势更为明显。

从表2可以看出，本方法使用更少的标记数据，在FERplus上优于其他监督训练方法，而在RAF-DB和CK+上取得了与监督方法相当的效果。与RAN和SCN相比，本方法在FERplus上的总改进分别为1.43％和1.27％。与基线方法DLP-CNN相比，本方法在RAF-DB上获得了3.53％的增益。本方法在RAF-DB和CK+上的结果仅略低于最先进的有监督方法，但本方法在没有标签的情况下进行预训练来学习特征，无疑通过减少对输出标签的依赖提供了优势。

图3～图4是在FERplus上预训练的模型可视化注意力图，不同的头部(heads)用不同的颜色来表示。不同头部可以处理图像的不同语义区域，即使被遮挡(如图4的嘴)；模型可以突出区分性区域，即与人脸表情信息相关的区域，忽略无关区域(如图3中人脸图像的背景和干扰)。因此模型可以学习到丰富的与人脸表情有关的面部信息，并且聚焦表情关键区域。

综上，本方法通过一个无卷积的孪生网络学习人脸表情表征，学生网络输入经过随机掩码的人脸图像，而教师网络输入未掩码的图像。为了最大化学生网络和教师网络输出之间的一致性，该方法利用对比损失和掩码图像建模损失对孪生网络进行预训练，可以同时理解高级视觉语义和图像内部结构。实验结果表明，该方法可以学习丰富的视觉信息，对于自然场景下的人脸表情识别中的各种与面部表情无关的干扰具有鲁棒性。在不使用额外的预训练权重或监督的情况下，该方法在人脸表情数据集的线性探测和微调评估上都取得了出色的效果。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。