CN117935340A

CN117935340A - 基于知识蒸馏的面部表情识别方法、系统、设备及介质

Info

Publication number: CN117935340A
Application number: CN202410322952.9A
Authority: CN
Inventors: 赵显�; 刘治; 吴静林; 陈丹阳; 任朝霞
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-26
Anticipated expiration: 2044-03-21
Also published as: CN117935340B

Abstract

本发明属于图像处理技术领域，为了解决现有模型参数规模较大、模型要求对目标数据集进行标记，限制了对数据集的理解的问题，提出了基于知识蒸馏的面部表情识别方法、系统、设备及介质，通过第一语言‑视觉对比学习模型生成伪标签，解决语言‑视觉对比学习模型的标签限制问题；通过生成的伪标签以及对应的训练样本图像对第二语言‑视觉对比学习模型的图像编码器进行训练，将学习得到的提示向量用于第二语言‑视觉对比学习模型的文本编辑器的训练，将训练好的教师模型中适用于面部表情识别的能力迁移至学生模型，使学生模型具备了语言和视觉表示之间的一致性的能力，降低了模型的参数规模。

Description

基于知识蒸馏的面部表情识别方法、系统、设备及介质

技术领域

本发明属于图像处理技术领域，尤其涉及基于知识蒸馏的面部表情识别方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前面部表情识别方法因深度学习的兴起已取得较大进展，但目前基于深度学习的面部表情识别方法存在只关注视觉表示，将类别名称转换为矢量标签以简化训练过程，从而忽略了类别名称的语义信息的问题，导致学习到的特征对训练数据类别的依赖性高、泛化性差。语言-视觉对比学习模型的出现给学习泛化性能更强的通用视觉表示带来了希望。这类模型在亿级甚至十亿级别的语言图像对上进行训练，以对比学习的方式提升了语言编码器和视觉编码器，使二者更具泛化能力。

然而，由于语言-视觉对比学习模型参数规模较大、模型要求对目标数据集进行标记，这限制了模型对数据集的理解，降低了模型用于面部表情识别的实用性。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于知识蒸馏的面部表情识别方法、系统、设备及介质，基于无监督学习的方式，通过第一语言-视觉对比学习模型生成伪标签，解决语言-视觉对比学习模型的标签限制问题；将训练好的教师模型中适用于面部表情识别的能力迁移至学生模型，不仅使得到的学生模型具备了语言和视觉表示之间的一致性的能力，还降低了模型的参数规模。

为实现上述目的，本发明的第一个方面提供一种基于知识蒸馏的面部表情识别方法，包括：

获取待识别的面部图像；

通过训练好的学生模型，识别得到所述待识别的面部图像对应的面部表情类别；

其中，所述学生模型通过训练好的教师模型知识蒸馏训练得到，所述教师模型包括第一语言-视觉对比学习模型和第二语言-视觉对比学习模型，在所述教师模型训练过程中，基于无监督学习的方式，通过第一语言-视觉对比学习模型生成伪标签，将所生成的伪标签以及对应的训练样本图像输入到第二语言-视觉对比学习模型的图像编码器中，以最小化第一交叉熵损失为目标，训练得到学习好的提示向量；将学习好的提示向量输入到第二语言-视觉对比学习模型的文本编辑器中，以最小化第二交叉熵损失为目标进行训练。

本发明的第二个方面提供一种基于知识蒸馏的面部表情识别系统，包括：

获取模块：获取待识别的面部图像；

识别模块：通过训练好的学生模型，识别得到所述待识别的面部图像对应的面部表情类别；

本发明的第三个方面提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行一种基于知识蒸馏的面部表情识别方法。

本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行一种基于知识蒸馏的面部表情识别方法。

以上一个或多个技术方案存在以下有益效果：

在本发明中，基于无监督学习的方式，通过第一语言-视觉对比学习模型生成伪标签，解决语言-视觉对比学习模型的标签限制问题；通过生成的伪标签以及对应的训练样本图像对第二语言-视觉对比学习模型的图像编码器进行训练，将学习得到的提示向量用于第二语言-视觉对比学习模型的文本编辑器的训练，将训练好的教师模型中适用于面部表情识别的能力迁移至学生模型，不仅使得到的学生模型具备了语言和视觉表示之间的一致性的能力，还降低了模型的参数规模，为提高应用服务的性能提供了条件。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施一中教师模型训练框架图；

图2为本发明实施一中面部表情识别流程；

图3为本发明实施一中整体模型框架图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于知识蒸馏的面部表情识别方法，包括：

获取待识别的面部图像；

其中，所述学生模型通过训练好的教师模型知识蒸馏训练得到，所述教师模型包括串联的第一语言-视觉对比学习模型和第二语言-视觉对比学习模型，在所述教师模型训练过程中，基于无监督学习的方式，通过第一语言-视觉对比学习模型生成伪标签，将所生成的伪标签以及对应的训练样本图像输入到第二语言-视觉对比学习模型的图像编码器中，以最小化第一交叉熵损失为目标，得到学习好的提示向量；将学习好的提示向量输入到第二语言-视觉对比学习模型的文本编辑器中，以最小化第二交叉熵损失为目标进行训练。

本实施例基于无监督学习的方式，通过第一语言-视觉对比学习模型生成伪标签，解决语言-视觉对比学习模型的标签限制问题；通过生成的伪标签以及对应的训练样本图像对第二语言-视觉对比学习模型的图像编码器进行训练，将学习得到的提示向量用于第二语言-视觉对比学习模型的文本编辑器的训练，将训练好的教师模型中适用于面部表情识别的能力迁移至学生模型，不仅使得到的学生模型具备了语言和视觉表示之间的一致性的能力，还降低了模型的参数规模，为提高应用服务的性能提供了条件。

下面结合图1-图3对本实施例的一种基于知识蒸馏的面部表情识别方法进行详细的说明，具体包括：

步骤1：通过RGB相机采集人脸图像数据。

步骤2：采用关键点对齐网络提取面部图像区域，对所有提取出来的面部区域进行区域校正，使最终提取出来的面部区域都趋向于正面，采用双线性插值法将图像统一放缩到224×224大小，采用翻转、加噪声的方法对采集到的图像进行数据增强，划分训练集和测试集的比例为7：3。

步骤3：如图3所示，构建的教师模型，采用两个串联的无监督语言-视觉对比学习模型。输入训练图像，将第一部分语言-视觉对比学习模型生成的简单提示用于伪标签生成，将伪标签中的每一类前K=16个置信样本以及伪标签一起输入第二部分图像编码器以进行图像特征提取。

步骤4：初始化提示向量，将初始化提示向量和伪标签输入到第二部分文本编码器中以生成类嵌入，计算第二交叉熵损失函数。

步骤5：将第二部分图像编码器提取的图像特征输入依次连接的两层Bottleneck网络中，通过ReLu函数进行提示向量的更新，直至获得最小的第一交叉熵损失函数，冻结学习到的提示向量，此时的提示向量即为模型学习到的适合数据集的最佳提示向量。

例如，初始化提示向量是“这是一张[类别]的照片”，最后学习到的可能是“一张表情是[类别]的照片”。因此，冻结之后，输入到第二部分文本编码器中进行训练得到[类别]。

步骤6：学生模型选择ResNet作为主干网络；将训练图像输入学生模型，得到与教师模型提取维度相同的图像特征，计算特征损失，即最小平方误差，通过改变学生模型参数降低学生模型与教师模型的特征损失/>，获得优化后的图像特征，冻结学生模型参数。

步骤7：将优化后的图像特征输入学生模型分类器，获得表情分类的软标签与硬标签，减小，/>、/>分别为对应软标签与硬标签的K-L散度损失，其中均为超参数，来更新分类器参数。

步骤8：冻结学生模型分类器参数。

步骤9：将测试集输入到训练好的学生模型中进行特征提取，通过全连接层和Softmax激活函数组成的分类器计算每个类别的概率，表情一共分为7类：中性、愤怒、厌恶、恐惧、喜悦、悲伤、惊讶，最终预测概率最大的那一类即为面部表情识别的结果，从而实现对面部表情的识别。

实施例二

本实施例的目的是提供一种基于知识蒸馏的面部表情识别系统，包括：

获取模块：获取待识别的面部图像；

其中，所述学生模型通过训练好的教师模型知识蒸馏训练得到，所述教师模型包括第一语言-视觉对比学习模型和第二语言-视觉对比学习模型，在所述教师模型训练过程中，基于无监督学习的方式，通过第一语言-视觉对比学习模型生成伪标签，将所生成的伪标签以及对应的训练样本图像输入到第二语言-视觉对比学习模型的图像编码器中，以最小化第一交叉熵损失为目标，得到学习好的提示向量；将学习好的提示向量输入到第二语言-视觉对比学习模型的文本编辑器中，以最小化第二交叉熵损失为目标进行训练。

实施例三

本实施例的目的是提供一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于知识蒸馏的面部表情识别方法，其特征在于，包括：

获取待识别的面部图像；

2.如权利要求1所述的一种基于知识蒸馏的面部表情识别方法，其特征在于，还包括对获取的待识别的面部图像进行预处理，所述预处理包括：采用关键点对齐网络提取面部区域，将所提取的面部区域进行矫正，将矫正后的面部区域采用双线性插值法进行放缩处理。

3.如权利要求1所述的一种基于知识蒸馏的面部表情识别方法，其特征在于，将所生成的伪标签以及对应的训练样本图像输入到第二语言-视觉对比学习模型的图像编码器中，以最小化第一交叉熵损失为目标，得到学习的提示向量，具体为：将所生成的伪标签以及对应的训练样本图像输入到第二语言-视觉对比学习模型的图像编码器中，提取图像特征，将所提取的图像特征输入到Bottleneck网络中，通过激活函数对学习的提示向量进行更新，直至获得最小的第一交叉熵损失，得到学习好的提示向量。

4.如权利要求1所述的一种基于知识蒸馏的面部表情识别方法，其特征在于，将训练样本图像输入到学生模型中，得到与所述教师模型相同维度的图像特征，以最小化所述学生模型与所述教师模型所提取的图像特征的特征损失为目标，对所学生模型进行训练。

5.如权利要求1所述的一种基于知识蒸馏的面部表情识别方法，其特征在于，将训练好的学生模型所输出的图像特征输入至分类器中，以最小化软标签和硬标签的K-L散度损失为目标，对所述分类器进行训练。

6.如权利要求1所述的一种基于知识蒸馏的面部表情识别方法，其特征在于，所述学生模型和所述教师模型的网络结构不同。

7.如权利要求3所述的一种基于知识蒸馏的面部表情识别方法，其特征在于，将所生成的伪标签中每一类别的前N个置信样本以及对应的伪标签输入到第二语言-视觉对比学习模型的图像编码器中进行图像特征提取；其中，N为整数。

8.一种基于知识蒸馏的面部表情识别系统，其特征在于，包括：

获取模块：获取待识别的面部图像；

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的一种基于知识蒸馏的面部表情识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的一种基于知识蒸馏的面部表情识别方法。