CN116012903A

CN116012903A - 一种人脸表情自动标注的方法及系统

Info

Publication number: CN116012903A
Application number: CN202210564154.8A
Authority: CN
Inventors: 王坤侠; 何瑞翔
Original assignee: Anhui Jianzhu University
Current assignee: Anhui Jianzhu University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2023-04-25

Abstract

本发明提供一种人脸表情自动标注的方法及系统，方法包括：获取人脸图像，选取峰表情的人脸图像作为表情图像数据集；选出数据集中五分之一人脸图像，对其表情的情感标签进行人工标注；构建基于自监督学习的模型框架。在辅助任务中，利用Efficient‑CapsNet模型作为人脸表情特征提取的编码器，将表情图像数据集中未标注的表情图像送入编码器中进行特征提取，对比学习特征表示，获得预训练模型；在自监督学习的下游任务当中，将预训练模型获得的有标注数据集上进行训练和微调，获得最终自动标注模型；将自动标注模型对同一场景获取到的人脸表情图像进行自动标注，获得标注结果。本发明解决了现有技术中依赖人工标注以及人工标注主观差异导致结果参差不齐的技术问题。

Description

一种人脸表情自动标注的方法及系统

技术领域

本发明涉及情感计算的人脸表情识别领域，尤其是涉及一种人脸表情自动标注的方法及系统。

背景技术

人脸表情自动标注是建立在人脸表情识别之上的研究，而人脸表情识别是情感识别领域非常重要的一环。人类通过多种方式来表达自己的情感，而表情是所有方式中最广泛的表达通道。当前基于人脸表情的识别与分析已经在医疗、教育、客户服务等很多领域中进行研究和应用。在计算机视觉和机器学习的研究中，各种面部表情识别(FER)系统已经从面部表征中编码表情信息。人脸表情识别技术虽然在不断的发展，但是促进人脸表情研究的数据集却不多，当前常见的人脸表情数据集有JAFFE数据集、CK+数据集、MMI数据集、Oulu-CASIA数据集等。要想对人脸表情识别进行更深入更广泛的研究，数据集的数量和广泛性就愈发重要。当前，获取人脸表情的渠道和方法数不胜数，但是获取有标注的人脸表情数据集就显得比较困难。

人脸表情识别的发展离不开好的数据集，而用于人脸表情识别的数据集的标注工作却一直没有得到很好的发展。当前对人脸表情数据集的标注工作大多依靠人力，自动标注技术随着深度学习技术的发展而不断的拓进。目前大多的图像数据标注方法存在标注效果参差不齐的问题。就人工标注而言，一方面，人与人之间的主观差异会导致标注结果的不一致性和低准确性。另一方面，人工数据标注需要人工获取数据集、人工标注、人工检查和人工校验等多方面的工作协同，这一系列繁琐的工作会大大降低标注的效率，使得用于情感识别研究的数据集一直处于低样本量的状态。当前公开的人脸表情数据集也有大样本量的，但这种数据集往往是利用网络爬虫技术利用关键字进行自动爬取的网络图像，存在大量的非标准的标记数据，标注质量非常差，这对网络训练过程具有很大的干扰性。于是，有些研究者利用机器学习的技术和方法对数据集进行半自动标注来提高标注效率。这几年，深度学习技术不断得到关注和发展，数据集的标注工作逐步从人工转移到全自动式。

公开号为CN114332136A的现有发明专利申请文献《一种人脸属性数据标注方法、计算机设备及存储介质》建立人脸彩色图像数据集；检测人脸彩色图像数据集中图像的人脸区域掩模；采用三维形变模型，对人脸彩色图像数据集中图像，随机初始化参数；对初始化参数进行渲染，得到渲染图像；对人脸彩色图像数据集中的所有图像数据都进行标注，得到标注后的光照数据集和头部姿态数据集；将人脸图像输入到人脸属性预测模型中训练；迭代优化模型；对待测人脸图像进行人脸检测，裁剪出人脸区域中的图像，输入到训练好的人脸属性预测模型中，预测出此时人脸的光照参数和头部姿态。由该现有文献的说明书内容可知，该现有文献披露的技术方案及逻辑实现与本申请存在显著区别，也无法达到本申请的技术效果。公开号为CN113780341A的现有发明专利申请文献《一种多维度情绪识别方法及其系统》基于带标签的第一样本集训练情绪识别模型和标签映射模型；将不带标签的第二样本集输入情绪识别模型，获取生理特征在各情感维度上的预测标签；将预测标签输入标签映射模型，获取对应生理特征在当前维度上的映射标签；判断预测标签和映射标签的一致性是否符合预设条件，选取一致性符合预设条件的情感维度进行自动标注，各情感维度自动标注值为对应维度预测标签和映射标签的加权平均值；根据新标注的数据继续对情绪识别模型进行训练，得到最终的情绪识别模型。由该现有文献中的实施方式内容可以得知，该现有文献披露的技术方案的具体应用场景与本申请不同，且该现有文献也未披露本申请利用Efficient-CapsNet模型进行自动标注的技术方案，也无法达到本申请的技术效果。

现有的自动标注的方法更多的是构建一个良好的基于深度学习的模型来对图像进行内容识别并标注。深度学习技术随着人工智能发展不断推陈出新，就传统的机器学习而言，深度学习网络具有强大的特征自学习能力，其模型的识别效果和鲁棒性都有天然的优势。人脸表情自动标注研究期望通过深度学习技术来大大节约人工标注时间，降低人工标注成本。但深度学习非常依赖大规模有标注数据，这使小样本在深度学习上的探索存在障碍，还需要充足的理论来改进深度学习的表达能力。

综上，现有技术中的表情识别标注存在依赖人工标注以及人工标注主观差异导致结果参差不齐的技术问题。

发明内容

本发明所要解决的技术问题在于如何解决现有技术中依赖人工标注以及人工标注主观差异导致结果参差不齐的技术问题。

本发明是采用以下技术方案解决上述技术问题的：一种人脸表情自动标注的方法包括：

S1、以预置图像采集设备获取人脸表情图像的图像帧，以所述图像帧形成数据集，剔除所述数据集中的人脸采集异常图像，选取所述数据集中的峰表情对应的人脸图像作为人脸表情图像数据集，预处理所述人脸表情图像数据集；

S2、按照预置划分比例划分所述人脸表情图像数据集，其中，前述划分操作得到的子集包括：待标注数据集及无标注数据集，人工感情标注所述待标注数据集，以得到有监督训练的数据集，以所述无标注数据集作为自监督学习的训练数据集；

S3、构建基于Efficient-CapsNet的自监督标注模型，利用Efficient-CapsNet编码器作为自监督学习辅助任务中的表征提取编码器，并进行对比学习，以获得最优预训练模型，所述步骤S3包括：

S31、数据增强处理所述人脸表情图像，以得到待编码图像、以Efficient-CapsNet编码器处理所述待编码图像，据以获取图像特征表示数据；

S32、根据所述图像特征表示数据进行对比学习，据以构建自监督标注模型的辅助任务，设置辅助训练参数，将所述自监督学习的训练数据集输入所述辅助任务，以进行迭代对比训练，据以获取并保存所述最优预训练模型；

S4、在自监督的下游任务中，将所述最优预训练模型结合预置分类器，在所述有监督训练的数据集上进行有监督训练及预置调节操作，以得到自动标注模型，所述步骤S4包括：

S41、构建所述自监督标注模型的下游任务，其中，所述下游任务包括：下游任务编码器及下游任务分类器；

S42、设置下游训练参数，将所述有监督训练的数据集输入所述下游任务，结合所述下游任务分类器及所述最优预训练模型，以进行有监督的迭代训练，据以获取并保存所述自动标注模型；

S5、以所述自动标注模型对所述人脸表情图像进行情感自动标注，以得到人脸表情自动标注结果。

本发明采用自监督方法训练出自动标注模型，克服了当前人脸表情数据集在纯粹的人工标注方面存在效率低、不同标注人员之间的主观差异性而导致结果参差不齐的缺陷。本发明使用的是一种自监督学习的方法，在面对大量的无标注数据时，自监督学习的辅助任务可以在无监督的数据中学习到数据内在的大量属性信息，充分利用数据资源，以在下游任务中充分利用预训练模型在少量有标注的数据上优越的性能。本发明提供的方法其应用具有普适性，不针对具体的硬件环境，满足基本的软件依赖包即可。并且本发明的方法具有良好的拓展性，不局限于具体的数据来源场景。

在更具体的技术方案中，所述步骤S1包括：

S11、剔除所述数据集中的非正脸图像和无人脸图像进行剔除，并在剩余的所述数据集中选取峰表情人脸图像作为最终人脸表情数据集；

S12、裁剪所述数据集中的人脸图像，并将所述人脸图像统一调整至预设尺寸；

S13、利用人脸检测器检测所述人脸图像中的人脸，对所述人脸见进行对齐操作，利用已对齐人脸生成所述人脸表情图像数据集。

在更具体的技术方案中，所述步骤S2包括：

S21、按照所述预置划分比例划分所述人脸表情数据集为小比例数据集及大比例数据集，其中，所述预置划分比例包括：4:1；

S22、以所述小比例数据集作为所述待标注数据集；

S23、以所述大比例数据集作为所述无标注数据集；

S24、人工感情标注所述待标注数据集，将所述无标注数据集作为所述自监督学习的训练数据集。

在更具体的技术方案中，所述步骤31包括：

S311、第一个部分是数据增强部分，对模型的输入图像将进行两倍的随机增强，并将增强后的两个输入图像同时输入预置网络中，以进行并行学习；

S312、利用所述Efficient-CapsNet编码器对所述输入图像进行特征提取，以得到两个两种图像的特征表示，其中，所述Efficient-CapsNet编码器包括：卷积层、深度卷积层、主胶囊层、FCCaps层，Efficient-CapsNet还包括自注意力机制路由，经所述FFCaps层后输出图像表征矩阵，所述图像表征矩阵大小为：类别数×16。

本发明的对比学习的数据输入阶段，要对输入的数据示例进行随机增强，得到同一示例的两个相关视图。本发明使用的自监督学习中，其辅助任务的编码器网络采用的是Efficient-CapsNet编码器。

在更具体的技术方案中，所述步骤S312包括：

S3121、输入图像进入Efficient-CapsNet编码器的卷积层中，灰度化所述输入图像送入四个预置卷积层进行处理，以得到编码器卷积输出特征图；

S3122、利用批量标准化方法归一化处理预置网络层中的每个神经元，利用下述变换重构算法处理得到归一化结果：

其中，

是k层归一化后的输入，γ、β是引入的一对参数，与模型参数一起学习；

S3123、利用下述逻辑恢复每一层学习到的特征分布：

在所述Efficient-CapsNet的卷积层间嵌入批量标准化层，以在卷积操作中在批量标准化层上采用权值共享方法，通过神经元的处理方式处理所述编码器卷积输出特征图，以均匀层内数据的分布；

S3124、对所述编码器卷积输出特征图进行深度可分离卷积操作，以构建主胶囊；

S3125、在所述FFCaps层采用所述自注意力机制路由，据以处理获取所述图像特征表示数据。

本发明的Efficient-CapsNet是在胶囊网络的基础上增加了注意机制路由和深度可分离卷积运算，在保证识别准确率的同时，大大降低了网络参数，提高了网络的训练效率。胶囊网络中的胶囊是一种特征的表现形式，它可以存储不同目标在不同视角下的属性信息，具有等变性。胶囊是利用向量形式存储目标的属性信息，如目标实体的大小、方向角度等，同时胶囊向量还可以表示目标的存在与否。

在更具体的技术方案中，所述步骤S3125中，采用下述逻辑处理获取所述特征表示：

其中，B^l是先验矩阵，利用下述逻辑计算出l+1层的所有胶囊

通过下述挤压函数将所述l+1层的所有胶囊向量的长度挤压到0到1之间，以得到

其中，C^l是通过自注意力机制算法生成的耦合系数矩阵，n^l表示第l层有n^l个胶囊，n^l+1表示第l层有n^l+6个胶囊，d¹是第l层胶囊的维度。

在更具体的技术方案中，所述步骤S32包括：

S321、将所述特征表示首先输入到预置非线性投影变换层进行非线性投影变换，以剔除所述特征表示中的冗余无关信息，据以获取样本表征属性数据；

S322、对比学习所述样本表征属性数据，通过对比反馈更新网络，以持续更新所述Efficient-CapsNet编码器的学习参数，据以得到所述最优预训练模型。

本发明将特征表示首先输入到非线性投影变换层，用来剔除特征中的冗余无关信息，以此来展露样本数据的本质属性；然后将经过非线性投影变换后的表征进行对比学习，通过对比反馈不断的更新编码器的学习参数。本发明的自监督学习方法采用判别式自监督学习方法，判别式自监督学习是期望数据表示包含足够多的信息，通过判别任务来寻找数据之间的差异性，进而寻找到分类界限。

在更具体的技术方案中，所述步骤S322包括：

S3221、将图像图像表征矩阵输入具有两层的非线性MLP(Dense->Relu->Dense)层，以将所述图像表征矩阵映射到对比损失的空间中；

S3222、采用滑动窗口来对矩阵进行分块，对每个分块单独计算窗口块的方差：

其中ω_i为高斯核权重，N为窗口块内的元素个数；

S3223、以下述逻辑计算两个所述图像表征矩阵对应的所述窗口块b及b′的协方差：

S3224、利用下述逻辑处理所述窗口块的方差及所述协方差，以得到SSIM值：

其中c₁＝(k₁L)²、c₂＝(k₂L)²为用以稳定除法的两个变量，c1和c2中的L是矩阵元素值的动态范围，k1和k2是超参数；

S3225、对所有所述窗口块的SSIM进行平均，据以获取平均值，以作为所述图像表征矩阵的整体相似度：

其中B为矩阵滑动窗口块的个数，z和z′为输入的表征矩阵，z_i和z′_i为两个表征矩阵对应的第i个窗口块的表征矩阵；

S3226、利用基于SSIM算法的可调温度-归一化交叉熵损失，以下述余弦相似性度量变换逻辑，对比损失计算所述整体相似度，以得到SSIM矩阵相似度量对比损失函数：

S3227、根据所述SSIM矩阵相似度量对比损失函数反馈所述更新网络，据以获取所述最优预训练模型。

本发明的SSIM利用矩阵元素的加权均值、方差来描述矩阵的结构性信息，利用协方差来描述两个矩阵元素分布的相互关系，根据NCE的思想，可以利用正负样本的数据分布关系来对正负样本进行正负分类。SSIM利用加权均值、方差和协方差来共同计算两个矩阵的相似度。

由于本发明矩阵与向量的差异性主要体现在矩阵元素的跨度很大，不能完全按照向量的形式来整体计算元素的均值和方差，因此在SSIM算法中，采用滑动窗口来对矩阵进行分块，对每个分块单独计算SSIM，最后对每个块的SSIM值进行平均，避免了均值和方差波动很大的现象。

在更具体的技术方案中，所述步骤S5包括：

S51、将经过预处理的所述人脸表情图像数据集输入网络的输入所述自动标注模型；

S52、对所述人脸表情数据集中的所述无标注数据集进行辅助任务学习，经迭代训练保存对比效果最优的编码器模型；

S53、在所述下游任务中，所述待标注数据集输入所述预训练模型，通过有监督学习策略进行迭代监督训练，以获取并保存最优的标注模型；

S54、结合所述编码器模型与所述标注模型，以得到最优的所述自动标注模型，据以获取所述人脸表情自动标注结果。

在更具体的技术方案中，一种人脸表情自动标注的系统包括：

表情数据集模块，用于以预置图像采集设备获取人脸表情图像的图像帧，以所述图像帧形成数据集，剔除所述数据集中的人脸采集异常图像，选取所述数据集中的峰表情对应的人脸图像作为人脸表情图像数据集，预处理所述人脸表情图像数据集；

数据集划分模块，用以按照预置划分比例划分所述人脸表情图像数据集，其中，前述划分操作得到的子集包括：待标注数据集及无标注数据集，人工感情标注所述待标注数据集，以得到有监督训练的数据集，以所述无标注数据集作为自监督学习的训练数据集，所述数据集划分模块与所述表情数据集模块连接；

最优预训练模型获取模块，用以构建基于Efficient-CapsNet的自监督标注模型，利用Efficient-CapsNet编码器作为自监督学习辅助任务中的表征提取编码器，并进行对比学习，以获得最优预训练模型，所述最优预训练模型获取模块与所述数据集划分模块连接，所述最优预训练模型获取模块包括：

特征表示模块，用以数据增强处理所述人脸表情图像，以得到待编码图像、以Efficient-CapsNet编码器处理所述待编码图像，据以获取图像特征表示数据；

自监督学习模块，用以根据所述图像特征表示数据进行对比学习，据以构建自监督标注模型的辅助任务，设置辅助训练参数，将所述自监督学习的训练数据集输入所述辅助任务，以进行迭代对比训练，据以获取并保存所述最优预训练模型，所述自监督学习模块与所述特征表示模块连接；

自动标注模型获取模块，用以在自监督的下游任务中，将所述最优预训练模型结合预置分类器，在所述有监督训练的数据集上进行有监督训练及预置调节操作，以得到自动标注模型，所述自动标注模型获取模块与所述数据集划分模块连接，所述自动标注模型获取模块包括：

下游任务构建模块，用以构建所述自监督标注模型的下游任务，其中，所述下游任务包括：下游任务编码器及下游任务分类器；

有监督迭代训练模块，用以设置下游训练参数，将所述有监督训练的数据集输入所述下游任务，结合所述下游任务分类器及所述最优预训练模型，以进行有监督的迭代训练，据以获取并保存所述自动标注模型，所述有监督迭代训练模块与所述下游任务构建模块连接；

自动标注模块，用于以所述自动标注模型对所述人脸表情图像进行情感自动标注，以得到人脸表情自动标注结果，所述自动标注模块与所述表情数据集模块、所述最优预训练模型获取模块及所述自动标注模型获取模块连接。

本发明相比现有技术具有以下优点：本发明采用自监督方法训练出自动标注模型，克服了当前人脸表情数据集在纯粹的人工标注方面存在效率低、不同标注人员之间的主观差异性而导致结果参差不齐的缺陷。本发明使用的是一种自监督学习的方法，在面对大量的无标注数据时，自监督学习的辅助任务可以在无监督的数据中学习到数据内在的大量属性信息，充分利用数据资源，以在下游任务中充分利用预训练模型在少量有标注的数据上优越的性能。本发明提供的方法其应用具有普适性，不针对具体的硬件环境，满足基本的软件依赖包即可。并且本发明的方法具有良好的拓展性，不局限于具体的数据来源场景。

由于本发明矩阵与向量的差异性主要体现在矩阵元素的跨度很大，不能完全按照向量的形式来整体计算元素的均值和方差，因此在SSIM算法中，采用滑动窗口来对矩阵进行分块，对每个分块单独计算SSIM，最后对每个块的SSIM值进行平均，避免了均值和方差波动很大的现象。本发明解决了现有技术中存在的依赖人工标注以及人工标注主观差异导致结果参差不齐的技术问题。

附图说明

图1为本发明实施例1的一种人脸表情自动标注的方法基本步骤示意图；

图2为本发明实施例1的人脸图像采集及预处理流程示意图；

图3为本发明实施例1的预训练模型获取流程示意图；

图4是本发明实施例2中提供的一种人脸表情自动标注方法整体步骤流程图；

图5是本实施例2中Efficient-CapsNet的架构示意图；

图6是本实施例2中自注意力机制路由结构示意图；

图7是本实施例2中辅助任务中对比学习的结构示意图；

图8是本实施例2中下游分类任务的架构示意图；

图9是本实施例3中对比训练过程的loss值变化曲线示意图；

图10是本实施例3中输出表征的余弦相似度和矩阵相似度变化曲线示意图；

图11是本实施例3中分类的训练损失和验证损失变化曲线示意图；

图12是本实施例3中分类的训练准确率和验证准确率变化曲线示意图；

图13是本实施例3中在新的无标注的人脸表情数据集上自动标注的混淆矩阵示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供的一种人脸表情自动标注的方法包括：

S1：在具体的应用场景中利用摄像机等设备采集人脸图像，将采集到的人脸表情图像数据集进行预处理。

进一步地，如图2所示，对步骤S1的人脸表情图像数据集进行预处理具体为：

S11：首先是对于数据集中的非正脸图像和无人脸图像进行剔除，并在剩余的数据集中选取峰表情人脸图像作为最终的人脸表情数据集。

S12：然后对数据集的人脸图像进行裁剪，并将图像的尺寸统一调整为64×64。

S13：利用人脸检测器对图像中的人脸进行检测，并进行人脸对齐操作，生成新的已对齐的人脸表情图像数据集。

S2：将步骤S1采集到的人脸表情图像数据集按比例选出一定量的人脸图像数据进行情感标签的人工标注。

进一步地，步骤S2的人脸表情图像数据集按比例选出一定量的人脸图像数据对其情感标签进行人工标注，具体为：首先将人脸表情数据集按4:1的比例进行随机划分，再将划分比例小的部分进行人工情感标注，作为有监督训练的训练数据集，将比例大的数据集用于自监督学习的训练数据集。

S3：构建基于Efficient-CapsNet的自监督标注模型，利用Efficient-CapsNet编码器作为自监督学习辅助任务中的表征提取编码器，并进行对比学习，获得预训练模型。

进一步地，在步骤S3中的自监督学习方法采用判别式自监督学习方法，判别式自监督学习是期望数据表示包含足够多的信息，通过判别任务来寻找数据之间的差异性，进而寻找到分类界限。自监督学习方法主要是由辅助任务和下游任务构成。其自监督标注模型的辅助任务构建分为三个部分。

如图3所示，步骤S3还包括以下步骤：

S31：第一个部分是数据增强部分，对模型的输入图像将进行两倍的随机增强，并将增强后的两个输入图像同时输入网络中，进行并行学习。

在本实施例中，步骤S31中的对比学习的数据输入阶段，要对输入的数据示例进行随机增强，得到同一示例的两个相关视图。采取随机裁剪、随机颜色失真和随机高斯模糊作为数据的三种增强方式。

S32：第二个部分是编码器部分，将步骤S31得到的两个输入图像利用编码器进行特征提取，得到两个两种图像的特征表示。

在本实施例中，步骤S32中的编码器采用Efficient-CapsNet模型的编码器。包括卷积层，深度卷积层、主胶囊层和FCCaps层，其输出表征是一个类别数×16大小的矩阵。

S33：第三个部分是对比学习部分，将步骤S32得到的特征表示首先输入到非线性投影变换层，用来剔除特征中的冗余无关信息，以此来展露样本数据的本质属性；然后将经过非线性投影变换后的表征进行对比学习，通过对比反馈不断的更新编码器的学习参数，得到自动标注的预训练模型。

在本实施例中，步骤S33中对比学习的对比阶段，对于两个输入的表征矩阵采用基于SSIM算法的矩阵相似性度量方法。

SSIM利用矩阵元素的加权均值、方差来描述矩阵的结构性信息，利用协方差来描述两个矩阵元素分布的相互关系，根据NCE的思想，可以利用正负样本的数据分布关系来对正负样本进行正负分类。SSIM利用加权均值、方差和协方差来共同计算两个矩阵的相似度。

矩阵与向量的差异性主要体现在矩阵元素的跨度很大，不能完全按照向量的形式来整体计算元素的均值和方差，否则会出现均值和方差波动很大的现象。因此在SSIM算法中，采用滑动窗口来对矩阵进行分块，对每个分块单独计算SSIM，最后对每个块的SSIM值进行平均。SSIM采用方差为1.5的高斯卷积核来计算每个窗口块的加权平均值，其计算如公式(1)，其中ω_i为高斯核权重，N为窗口块内的元素个数。对于窗口块的方差计算如公式(2)。

两个矩阵对应的窗口块b和b′的协方差计算如公式(3)所示。

最后，SSIM的计算如公式(4)所示，其中b和b′为两个矩阵的对应的滑动窗口块。

其中c₁＝(k₁L)²、c₂＝(k₂L)²用来稳定除法的两个变量，防止分母为0。c₁和c₂中的L是矩阵元素值的动态范围，k₁和k₂是超参数，分别取0.01和0.03。

公式(4)计算的是每个窗口块的SSIM，因此还需要对所有窗口块的SSIM进行平均，并以平均值作为矩阵的整体相似度。如公式(5)所示，其中B为矩阵滑动窗口块的个数，z和z′为输入的表征矩阵，z_i和z_i′为两个表征矩阵对应的第i个窗口块的表征矩阵。

在本实施例中，步骤S22中对比学习训练过程中的损失函数采用基于SSIM算法的可调温度-归一化交叉熵损失(NT-Xent)。

将通过编码器提取的两个增强图像的表征矩阵作为SSMI算法的输入，计算得到两个表征矩阵的相似度。根据NT-Xent损失函数的思想，对其中的余弦相似性度量进行变换，得到基于SSIM算法的矩阵相似性度量的对比损失函数，如公式(6)所示。

S4：在自监督的下游任务中，通过基于参数的迁移学习将步骤S33得到的预训练模型应用到下游任务中，将预训练的编码器模型和分类器连接，形成完整的人脸表情分类模型，利用有监督的方法在少量有标注数据上进行模型微调，得到最终的自动标注模型。

S5：将自动标注模型对同一场景获取到的人脸表情图像进行情感自动标注，获得标注结果。

实施例2

如图4所示本实施例提供一种人脸表情自动标注方法，该方法包括如下过程：

S1’、从具体的应用场景中通过摄像头获取图像帧形成数据集，并对其中的非正脸图像和无人脸图像进行剔除，选取峰表情的人脸图像作为人脸表情图像数据集；

在本实施例中，利用摄像机采集特定场景的人脸图像，通过抽取视频帧的方式，隔五帧抽取一张视频图像帧，并利用人脸检测器对图像中的人脸进行检测，获取人脸图像。然后将初步获得的人脸图像数据集中的非正脸图像和无人脸图像进行剔除，并在剩余的数据集中选取峰表情人脸图像作为最终的人脸表情数据集。

S2’、对人脸图像数据集进行预处理，包括尺寸归一化、人脸对齐；

在本实施例中，再将数据集中的人脸图像进行裁剪，利用双线性插值的方法将图像的尺寸统一调整为64×64大小，然后进行人脸对齐操作，生成新的已对齐的人脸表情图像数据集。

S3’、人脸表情图像数据集按4:1比例随机划分为两个部分，并对小比例的数据集进行人工情感标注；

在本实施例中，对上一步的人脸表情图像数据集按比例选出一定量的人脸图像数据对其情感标签进行人工标注。首先将人脸表情数据集按4:1的比例进行随机划分，再将划分比例小的部分进行人工情感标注，作为有监督训练的训练数据集，将比例大的数据集用于自监督学习的训练数据集。

S4’、自监督标注模型的辅助任务构建，包括数据增强模块、Efficient-CapsNet编码器、对比学习；

标注模型采用判别式自监督学习方法自监督学习方法，其主要由辅助任务和下游任务构成。

首先是自监督标注模型的辅助任务构建，流程分为三个部分，分别为数据增强、编码器、对比学习。其输入图像的处理流程步骤如下：

1、输入图像的数据增强采用随机裁剪、随机颜色失真和随机高斯模糊三种方式，对每张图像进行两次随机增强，并将两次随机增强后的图像同时输入编码器中。

2、如图5所示，编码器采用Efficient-CapsNet编码器。Efficient-CapsNet是在胶囊网络的基础上增加了注意机制路由和深度可分离卷积运算来提高其模型的训练效率。

Efficient-CapsNet主要分为三个部分，包括卷积层，主胶囊层，自注意力机制路由。在Efficient-CapsNet第一个部分，在卷积层通过多层的卷积操作和批量归一化操作将输入映射到更高维的空间，为胶囊的创建做准备工作。在第二部分，通过深度可分离卷积将高维的特征映射进一步创建所代表特征的矢量表示，得到主胶囊层。深度可分离卷积是由深度卷积和逐点卷积组成。在深度卷积中，不像原始卷积那样进行多通道卷积，而是首先将多通道特征图解拆为单个通道，然后对每个单通道进行单独的卷积操作，每个输入通道对应一个滤波器，再将得到的特征映射进行逐点卷积。逐点卷积是采用1×1的卷积核进行卷积的操作，可以为深层网络进行线性输出，这相对传统的卷积操作大大降低了网络所需的参数数量。在最后一个部分，利用自注意力机制路由将低级别的胶囊路由到它们所代表的整体。

其编码器包括卷积层，深度卷积层、主胶囊层和FCCaps层。对输入的人脸图像数据集的编码处理过程包括如下步骤：

1)首先输入图像进入编码器的卷积层中，经过灰度化后送入四个卷积层进行处理，第一个卷积层采用32个通道、7×7卷积核、步长为2，对于输入大小为64×64的人脸图像，输出32个29×29大小的特征图。第二个和第三个卷积层均采用64个通道、3×3卷积核、步长为1，输出64个25×25大小的特征图。第四个卷积层采用128个通道，3×3卷积核，步长为2，输出128个12×12大小的特征图。

在网络训练过程中，每层数据的微小变化在深层都会被放大，如果每次训练的数据分布不均匀，那么每次迭代学习都要去适应新的分布规律，这对网络的训练速度和收敛速度都会产生影响，同时还会导致网络的泛化能力大大降低。批量标准化(BatchNormalization)从训练数据分布不均匀的角度来提高网络训练效果。它对网络层中的每个神经元都进行归一化处理，并且为了解决因归一化操作使每层已学习到的特征被破坏掉的问题，提出了变换重构算法来得到新的归一化结果，变换计算见公式(7)，然后再通过公式(8)和公式(9)恢复每一层学习到的特征分布。

其中

是k层归一化后的输入，γ、β是引入的一对参数，与模型参数一起学习。

在卷积操作中，为了减少变换重构过程中产生的γ、β参数数量，在批量标准化层上采用了一种权值共享的方法，以神经元的处理方式来处理特征图。因此，Efficient-CapsNet在这四层卷积中，层与层之间都嵌入了一层批量标准化层，用来均匀层内数据的分布。

2)将上一步卷积层得到的特征图，对其采用深度可分离卷积操作，使用了128个通道，12×12卷积核，步长为1，输出128个神经元，并将这128个神经元按(16,8)形状组建成胶囊，输出16个胶囊，每个胶囊8个神经元。至此，主胶囊构建完成。

3)如图6所示，在FFCaps部分采用了自注意力机制路由，类似一个全连接网络，上层胶囊的输入是来自于下层胶囊所有“预测向量”的加权和，输出胶囊的个数等于分类的类别数。

其中，

表示第l层共有16个胶囊，每个胶囊有8个维度，

表示第l+1层共有7个胶囊，每个胶囊有16个维度，

表示权重矩阵，其维度大小为(16,7,8,16)，它也是对前后两层胶囊进行仿射变换的矩阵，根据当前胶囊的属性对下层胶囊属性做出预测。

是前层胶囊的所有预测，C^l是通过自注意力机制算法生成的耦合系数矩阵，见公式(10)和公式(11)。在公式(3-7)中，n^l表示第l层有n^l个胶囊，n^l+1表示第l层有n^l+1个胶囊，f^l是第l层胶囊的维度，

的作用是平衡耦合系数和对数优先级，以此来稳定训练过程。A^l是自注意力矩阵，每个胶囊对应一个自注意力矩阵，它包含预测的每个组合的一致性得分。

B^l是先验矩阵，它包含所有权重的判别信息，通过公式(12)计算出l+1层的所有胶囊

再通过挤压函数将l+1层所有胶囊向量的长度挤压到0到1之间，得到

该网络的挤压函数见公式(13)。

经过FFCaps层后输出图像的表征矩阵，表征矩阵大小为：类别数×16。

3、对比学习的框架如图7所示，处理过程包含如下步骤：

1)将上一步中的两表征矩阵输入具有两层的非线性MLP(Dense->Relu->Dense)层将表征矩阵映射到对比损失的空间中。

2)在对比任务中，其目标是最大化同一图像不同表征向量Z_i和Z_j之间的相似性，首先是计算两个输入表征矩阵间的相似性，采用基于SSIM算法的矩阵相似性度量方法。

矩阵与向量的差异性主要体现在矩阵元素的跨度很大，不能完全按照向量的形式来整体计算元素的均值和方差，否则会出现均值和方差波动很大的现象。因此在SSIM算法中，采用滑动窗口来对矩阵进行分块，对每个分块单独计算SSIM，最后对每个块的SSIM值进行平均。SSIM采用方差为1.5的高斯卷积核来计算每个窗口块的加权平均值，其计算如公式(14)，其中ω_i为高斯核权重，N为窗口块内的元素个数。对于窗口块的方差计算如公式(15)。

两个矩阵对应的窗口块b和b′的协方差计算如公式(16)所示。

最后，SSIM的计算如公式(17)所示，其中b和b′为两个矩阵的对应的滑动窗口块。

公式(4)计算的是每个窗口块的SSIM，因此还需要对所有窗口块的SSIM进行平均，并以平均值作为矩阵的整体相似度。如公式(18)所示，其中B为矩阵滑动窗口块的个数，z和z′为输入的表征矩阵，z_i和z′_i为两个表征矩阵对应的第i个窗口块的表征矩阵。

3)将两个输入表征的相似性进行对比损失计算，以此来反馈更新网络。损失函数采用基于SSIM算法的可调温度-归一化交叉熵损失(NT-Xent)。利用上一步计算得到两个表征矩阵的相似度，根据NT-Xent损失函数的思想，对其中的余弦相似性度量进行变换，得到基于SSIM算法的矩阵相似性度量的对比损失函数，如公式(19)所示。

经过辅助任务的以上步骤，预训练的网络模型构建完成。

S5’、自监督标注模型的下游任务构建，包括编码器和分类器；

在本实施例中，在自监督的下游任务中，通过基于参数的迁移学习将辅助任务得到的预训练模型应用到下游任务中，将预训练的编码器模型和分类器连接，形成完整的人脸表情分类模型，利用有监督的方法在少量有标注数据上进行模型微调，得到最终的自动标注模型，其模型的流程如图8所示。

S6’、辅助任务训练阶段，设置相关的训练参数，包括学习率、迭代次数、衰减策略、τ值、窗口大小等。将无标注数据集输入到辅助任务中，进行迭代对比训练，保存最优的预训练模型；

S7’、下游任务训练阶段，设置相关的训练参数，包括学习率、迭代次数、衰减策略、批次大小等。将有标注数据集输入到下游分类任务中，进行有监督的迭代训练，保存最优的标注模型；

S8’、将生成的自动标注模型对同一场景获取到的人脸表情图像进行自动标注，获得标注结果。

在本实施例中，在上一步已经构建好了辅助任务模型和下游任务模型，在该阶段需要对其进行训练以期获得标注率高的人脸表情自动标注模型。需要根据具体的训练指标要求设定训练阶段的相关参数，这些相关参数包括学习率、迭代次数和衰减策略等。本实施例中，将经过预处理的人脸表情数据集作为网络的输入。首先是对于人脸表情数据集中无标注数据集进行辅助任务学习，迭代训练完成后保存对比效果最好的编码器模型。在下游任务中，将少量有标注的人脸表情数据集作为预训练模型的输入，通过有监督学习的策略进行迭代监督训练，保存训练效果最优的标注模型。

实施例3

本实施例为实施例1的仿真试验，在其它实施例中，既可以不进行仿真实验，也可以采用其他实验方案进行试验以确定相关参数以及人脸表情自动标注的效果。

在本实施例中，配置相关运行环境，硬件支持为Intel(R)Core(TM)i7-6850K CPU@3.60GHz处理器、32GB内存和NVIDIA GeForce GTX 1070(8GB)显卡，cuda版本为10.1，cudnn版本为7.6.5；使用Tensorflow2.0深度学习框架。

模型训练的预备阶段，设置辅助任务中对比学习网络的训练学习率为0.01，下游任务的分类训练学习率为0.001，批次大小设置设为128。训练的迭代次数都设置为1000次。设置NT-Xent损失函数中的τ＝0.1。对于SSIM算法中的窗口大小设置为11×11。本实施例采集到人脸表情图像数据集大小为3450张。经过4:1的比例随机划分后，无标注的人脸表情数据集大小为2760张，有标注的人脸表情数据集大小为690张。

在辅助任务学习过程中，将对比学习的网络训练日志进行了可视化分析，其对比学习的损失变化如图9所示。

从对比损失变化可以看到，其损失值随着迭代而逐步降低。这说明在SSIM算法基础上，基于Efficient-CapsNet编码器对比学习是有效的。其对比损失在400次迭代左右开始收敛，直至在0.5到0.9之间波动。

进一步的，本实施例还对在对比训练过程中的矩阵相似度和将矩阵拉平后的向量余弦相似度进行了对比研究。输出表征的余弦相似度和矩阵相似度变化曲线如图10所示，相似度随着迭代次数的增加逐渐变大，说明基于SSIM算法的表征矩阵相似性度量是有效的。具体的实验结果如表1所示，表征矩阵的相似度在收敛时几乎维持在0.74左右，而将矩阵拉平后的余弦相似性度量远不及表征矩阵的相似性度量。

表1输出表征的余弦相似度和矩阵相似度

注：其中±表示在多次实验下，其平均值的浮动范围。

在下游的分类任务中，其分类的训练损失和验证损失变化如图11所示，模型的损失在二十多次时就收敛，说明在对比训练过程中，模型已经学习到了一定的目标属性特征，在当前的有监督训练的学习更多的是弥补和修正当前具体任务的属性特征。而在分类训练中，采用的是有监督训练方法，当分类训练的样本量不大时，就很难学习更多的目标特征，因此会出现在分类训练中，损失值会更早的收敛，也就是说，在有监督的模型微调训练中，当样本量不大时，更多的训练迭代次数并不能带来更优异的效果。

分类准确率变化如图12所示，准确率的变化与损失变化一致，在二十多迭代次就已经收敛，其验证准确率最高达到了70.4％。

同时未来更好的评估本发明的人脸表情自动标注模型的泛化能力，本实施例还将训练好的人脸表情自动标注模型应用到同一采集环境的无标注的人脸表情数据集上，以期实现70％的自动标注目标。新的无标注的人脸表情数据集上大小为600张，其中男女比例为1:1。经过实验，自动标注结果如下表2所示，为了更好地评估自动标注模型的效果，本文还组织了实验室成员在预标注的老人表情数据集上再次进行手工调整和纠错，得到人工调整后的标注数据集的类别分布如表3所示。将人工调整好的标注数据集与最初的自动标注结果进行比较，其比较结果的混淆矩阵如图13所示，其模型自动标注的准确率达到70.8％，符合自动标注任务的预期结果。

表2在新的无标注的人脸表情数据集上自动标注的类别数量分布

表3在新的无标注的人脸表情数据集上手工标注的类别数量分布

综上，本发明采用自监督方法训练出自动标注模型，克服了当前人脸表情数据集在纯粹的人工标注方面存在效率低、不同标注人员之间的主观差异性而导致结果参差不齐的缺陷。本发明使用的是一种自监督学习的方法，在面对大量的无标注数据时，自监督学习的辅助任务可以在无监督的数据中学习到数据内在的大量属性信息，充分利用数据资源，以在下游任务中充分利用预训练模型在少量有标注的数据上优越的性能。本发明提供的方法其应用具有普适性，不针对具体的硬件环境，满足基本的软件依赖包即可。并且本发明的方法具有良好的拓展性，不局限于具体的数据来源场景。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。