CN114973350B

CN114973350B - 一种源域数据无关的跨域人脸表情识别方法

Info

Publication number: CN114973350B
Application number: CN202210302610.1A
Authority: CN
Inventors: 郭哲; 刘雪文; 郭号洁; 周炜杰; 王毅; 齐敏; 樊养余
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2024-02-27
Anticipated expiration: 2042-03-24
Also published as: CN114973350A

Abstract

本发明公开了一种源域数据无关的跨域人脸表情识别方法，首先对数据集中的数据进行人脸检测及裁剪等预处理；然后，针对在跨域人脸表情识别模型训练时源域数据访问受限的问题，构建了源域数据无关的跨域人脸表情识别模型；在计算模型损失时，本发明构建了源域数据无关的自适应损失函数，通过最小化Tsallis熵增加预测标签的确信度，同时最大化预测标签种类，据此联合计算信息最大化损失，随后计算交叉熵损失，还使用虚拟对抗训练的方法最小化模型的局部分布平滑损失。本发明直接从训练好的源域模型出发，解决了源域数据访问受限时较难进行跨域人脸表情识别的问题；进一步提高了人脸表情识别的准确率，实现了对人脸表情的高效识别。

Description

一种源域数据无关的跨域人脸表情识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种跨域人脸表情识别方法。

背景技术

基于深度学习方法进行人脸表情识别，只有在训练集和测试集数据独立同分布时，才能在测试集上取得良好的识别结果。然而在实际应用中，经常会遇到训练时所用的人脸表情数据(源域)和测试时的人脸表情数据(目标域)来自于不同分布的领域，即跨域人脸表情识别问题。由于不同域之间的数据分布存在差异，这会导致直接使用源域数据训练得到的人脸表情识别模型在目标域数据上的识别准确率表现不佳。同时现在人们对隐私的关注和担忧越来越多，很多学者在公开自己算法的同时，选择不公开数据集，这就使得其他人较难直接获取大量的人脸表情数据，从而进一步增大了跨域人脸表情识别的难度。

文献“Chen T,Pu T,Wu H,et al.Cross-domain facial expressionrecognition:A unified evaluation benchmark and adversarial graph learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,doi:10.1109/TPAMI.2021.3131222.”公开了一种跨域人脸表情识别方法，该方法首先对输入图像提取整体特征和局部特征，并构建两个图网络分别关联同一领域内和不同领域之间的整体特征和局部特征。然后，使用不同种类人脸表情的特征统计分布来初始化相应的图节点。最后，采用两个堆叠的图卷积网络，一个在域内传播整体和局部特征，以此探索整体区域与局部区域的相互关系，另一个在不同域间传播整体和局部特征，从而进行整体和局部特征的协同适应。但是，该方法存在以下问题：该方法进行跨域人脸表情识别任务时，需要直接访问源域人脸表情数据集，并基于源域数据进行无监督领域的自适应训练，而当源域数据访问受限时该跨域人脸表情识别方法则无法使用。

发明内容

为了克服现有技术的不足，本发明提供了一种源域数据无关的跨域人脸表情识别方法，首先对数据集中的数据进行人脸检测及裁剪等预处理；然后，针对在跨域人脸表情识别模型训练时源域数据访问受限的问题，构建了源域数据无关的跨域人脸表情识别模型；在计算模型损失时，本发明构建了源域数据无关的自适应损失函数，通过最小化Tsallis熵增加预测标签的确信度，同时最大化预测标签种类，据此联合计算信息最大化损失，随后计算交叉熵损失，还使用虚拟对抗训练的方法最小化模型的局部分布平滑损失。本发明直接从训练好的源域模型出发，解决了源域数据访问受限时较难进行跨域人脸表情识别的问题；进一步提高了人脸表情识别的准确率，实现了对人脸表情的高效识别。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：数据预处理及扩充；

对源域图像集和目标域图像集中的图像进行人脸检测后，再进行人脸裁剪，得到人脸图像；

再对人脸图像进行镜面翻转变换、旋转变换、引入高斯噪声的数据增强方式，并将处理后的人脸图像作为源域样本和目标域样本分别放到源域图像训练集和目标域图像训练集中，起到扩充数据的目的；

步骤2：构建源域数据无关的跨域人脸表情识别模型；

构建源域模型：所述源域模型的骨干网络采用卷积神经网络IR-50；源域模型的特征提取器骨干部分由4个残差层组成，每个残差层由多个残差单元组成；将分类器中的单层全连接层替换为一个瓶颈层和一个任务相关的全连接层，所述瓶颈层包括一个单层全连接层、一个批量归一化层；所述任务相关的全连接层包括一个单层全连接层、一个权重归一化层；

构建目标域模型：采用源域图像训练集训练源域模型，将训练完成的源域模型作为目标域模型；

步骤3：基于源域数据无关自适应损失的表情类别判定；

步骤3-1：构建源域数据无关自适应损失函数，包括如下4部分；

步骤3-1-1：Tsallis熵损失；

定义Tsallis熵如式(1)：

其中α＞0，为熵指数；y_[i]表示预测标签，i为预测标签数量；根据Tsallis熵最小化的要求，Tsallis熵损失的表达式为：

其中f_t表示目标域模型；x_t表示来自目标域图像训练集中的样本；f_t(x_t)＝h_t(g_t(x_t)) 表示目标域样本的K维逻辑输出，g_t(x_t)表示x_t经过特征提取器g_t得到的输出；δ_k表示经过Softmax激活；

步骤3-1-2：标签多样化损失；

定义为：

其中为目标域样本预测标签的平均期望，δ(.)表示激活函数；

步骤3-1-3：伪标签交叉熵损失；

表达式为：

其中表示目标域模型f_t由特征提取器g_t和分类器h_t组成，/>表示指示函数，/>表示目标域样本x_t的伪标签；

步骤3-1-4：局部分布平滑损失；

表达式为：

其中r_vadv表示在目标域样本x_t加入的扰动，D[q，p]是一个非负函数，用于衡量p和q之间分布的差异，p(y|x_t，f_t)表示不加扰动时的预测标签分布，p(y|x_t+r_vadv，f_t)表示加入扰动后的预测标签分布；

步骤3-1-5：将Tsallis熵损失、标签多样化损失、伪标签交叉熵损失和局部分布平滑损失结合，构建源域数据无关自适应损失函数：

其中λ和β为超参数，用于平衡各损失；

步骤3-2：使用目标域图像训练集训练目标域模型，在训练时保持分类器参数不变，首先提取目标域样本的特征，并根据K-means聚类获得每个类别特征的聚类中心；随后，根据样本特征点与类别特征聚类中心的远近，得到目标域样本的伪标签，根据更新的伪标签重新更新聚类中心；然后再开始更新分类器参数，同时不断更新目标域样本的伪标签和每个类别的特征聚类中心，直到源域数据无关自适应损失函数最小；在训练时通过反向传播使用随机梯度下降法更新网络参数；

步骤3-3：使用训练完成的目标域模型实现人脸表情分类。

本发明的有益效果如下：

本发明通过计算交叉熵损失，可以提高识别模型的识别精度，而通过使用虚拟对抗训练的方法则可以进一步提高模型的鲁棒性。本发明将公共人脸表情数据集RAF- DB作为源域，EXPW作为目标域时的识别率为70.84％，相比于文献方法的识别率 68.50％具有显著的优越性。此外，本发明无需直接访问源域数据，只需访问源域模型，适合在源域数据访问受限的场景使用，能有效扩展跨域人脸表情识别算法的应用场景。

具体实施方式

现有的基于深度学习的跨域人脸表情识别方法都需要直接访问源域数据，而在源域数据访问受限时现有的跨域人脸表情识别方法失效，影响实际应用。针对以上问题，本发明提出了一种源域数据无关的跨域人脸表情识别方法。

一种源域数据无关的跨域人脸表情识别方法，包括如下步骤：

步骤1：数据预处理及扩充；

步骤2：构建源域数据无关的跨域人脸表情识别模型；

步骤3：基于源域数据无关自适应损失的表情类别判定；

步骤3-1-1：Tsallis熵损失；

定义Tsallis熵如式(1)：

其中f_t表示目标域模型；x_t表示来自目标域图像训练集中的样本；f_t(x_t)＝h_t(g_t(x)) 表示目标域样本的K维逻辑输出，δ_k表示经过Softmax激活；

步骤3-1-2：标签多样化损失；

定义为：

其中为目标域样本预测标签的平均期望；

步骤3-1-3：伪标签交叉熵损失；

表达式为：

其中表示目标域模型，/>为目标域模型的特征提取器，h_t为分类器，表示指示函数，/>表示目标域样本x_t的伪标签；

步骤3-1-4：局部分布平滑损失；

表达式为：

其中λ和β为超参数，用于平衡各损失；

步骤3-3：使用训练完成的目标域模型实现人脸表情分类。

具体实施例：

(a)将数据集中的数据进行预处理和扩充。首先对数据集中的数据进行人脸检测及人脸裁剪等预处理操作。为了进一步扩充训练数据，采取镜面翻转变换、旋转变换、引入高斯噪声等数据增强方式，对数据集中数据进行处理，并将处理后的数据放回到训练集中，起到扩充数据的目的。

(b)构建源域数据无关的跨域人脸表情识别模型。针对在跨域人脸表情识别模型训练时源域数据访问受限的问题，为了充分利用网络模型的先验知识，对源域和目标域训练模型的骨干网络都使用经典卷积神经网络IR-50，两个模型的特征提取器参数不同，分类器参数相同。为了模拟源域数据访问受限的情况，采用带标签的源域样本训练一个源域模型；训练结束后，将源域数据丢弃，只将源域模型保存，后续过程不再访问源域数据，此后使用源域模型参数完成对目标域模型参数的初始化。

(c)基于源域数据无关自适应损失对表情类别进行判定。通过最小化Tsallis熵增加预测标签的确信度，同时最大化预测标签种类，用于防止模型发生坍塌，据此联合计算信息最大化损失。随后，为了提高预测标签的准确度并充分挖掘伪标签中的信息，使用深度聚类方法获得伪标签，进而根据该伪标签计算交叉熵损失。为了进一步提升模型的鲁棒性，使用虚拟对抗训练的方法最小化模型的局部分布平滑损失。最后联合信息最大化损失、交叉熵损失和局部分布平滑损失构建源域数据无关自适应损失，作为网络训练的损失函数，优化网络性能，完成表情类别的判定。

具体如下：

1、数据预处理及扩充

基于人脸68个基准点，对输入的人脸图片进行人脸检测和人脸裁剪等预处理操作。

为了进一步扩充训练数据，本实施例采取镜面翻转变换、旋转变换、引入高斯噪声等数据增强方式，对数据集中数据进行处理，并将处理后的数据放回到训练集中，起到扩充数据的目的。

2、源域数据无关的跨域人脸表情识别模型构建

本实施例对源域和目标域训练模型的骨干网络都使用经典卷积神经网络IR-50，两个模型的特征提取器参数不同，分类器参数相同。特征提取器骨干部分是由4个大的残差层组成，每个大的残差层由一系列改进的残差单元组成。为了更好适配跨域人脸表情识别任务，将IR-50分类器模块中的单层全连接层替换为一个瓶颈层和一个任务相关的全连接层，瓶颈层包含一个单层全连接层，一个批量归一化层；而任务相关的全连接层包含一个单层全连接层，一个权重归一化层。

为了模拟真实源域数据访问受限的情况，本实施例首先用带标签的源域样本训练一个源域模型；训练结束后，将源域数据丢弃，只将源域模型保存，后续过程不再访问源域数据；然后，将训练好的源域模型参数拷贝到目标域模型中，并将目标域模型的中分类器参数进行冻结，完成对目标域模型参数的初始化。

3、基于源域数据无关自适应损失的表情类别判定

与普通跨域人脸表情识别不同，在源域数据访问受限的情况下，训练目标域模型时无法直接访问源域数据，亦无法获得源域数据的特征分布，因此无法直接将源域和目标域样本进行特征空间对齐。通过构建基于源域数据无关的自适应损失函数，将源域和目标域样本的特征空间对齐问题转化为源域模型的输出与目标域模型的预测输出格式需要尽可能保持一致的问题，并通过最小化目标域样本预测标签的Tsallis熵增加预测标签的预测确信度。对于使用Softmax激活的模型输出预测值为本实施例所使用的α-Tsallis熵可以表示为：

其中α＞0，为熵指数，y_[i]表示预测标签，根据Tsallis熵最小化的要求，Tsallis熵损失的表达式为：

其中f_t表示目标域模型，x_t表示来自目标域中的样本，f_t(x_t)＝h_t(g_t(x_t))表示目标域样本的K维逻辑输出，δ_k表示经过Softmax激活。

为了防止模型退化，本实施例使用了标签多样化损失，使得模型给出的预测类别尽可能多样。损失函数定义为：

其中其中/>为整个目标域样本预测标签的平均期望。标签多样化损失和Tsallis熵损失共同组成信息化最大损失，其表达式为：

为了消除只使用信息最大化损失约束模型训练时，部分目标域样本被聚集到错误的类别，从而出现确信偏差的问题，本实施例使用了伪标签交叉熵损失进一步约束模型的优化。在计算伪标签交叉熵损失时，首先提取目标域样本的特征，并根据K-means 聚类获得每个类别特征的聚类中心；随后，根据样本特征点与类别特征聚类中心的远近，得到目标域样本的伪标签，根据更新的伪标签重新更新聚类中心。在训练时，不断更新目标域样本的伪标签和每个类别的特征聚类中心。最后使用目标域的样本和伪标签计算分类交叉熵损失，其表达式为：

其中表示目标域模型，/>为目标域模型的特征提取器，h_t为分类器，表示指示函数，/>表示目标域中样本x_t的伪标签。

为了减弱噪声标签对模型训练的影响，本发明同时引入了虚拟对抗训练方式作为正则项进行模型训练，通过最小化局部分布平滑损失，可以使得整个模型在每个样本处的预测更加平滑。本发明中所使用的局部分布平滑损失函数为：

其中r_vadv表示在目标域样本x_t加入的扰动，D[q，p]是一个非负函数，用于衡量p和q之间分布的差异，p(y|x_t，f_t)表示不加扰动时的预测标签分布，p(y|x_t，f_t)表示加入扰动后的预测标签分布。

本实施例将信息最大化损失、局部分布平滑损失和伪标签交叉熵损失相结合，构建了源域数据无关的自适应损失，完成最终的表情类别判定。本发明所构建的源域数据无关自适应损失函数的表达式为：

其中λ和β为超参数，用于平衡信息最大化损失、局部分布平滑损失和伪标签交叉熵损失。本实施例的网络参数都通过反向传播使用随机梯度下降法进行更新。

Claims

1.一种源域数据无关的跨域人脸表情识别方法，其特征在于，包括如下步骤：

步骤1：数据预处理及扩充；

步骤2：构建源域数据无关的跨域人脸表情识别模型；

步骤3：基于源域数据无关自适应损失的表情类别判定；

步骤3-1-1：Tsallis熵损失；

定义Tsallis熵如式(1)：

其中α>0，为熵指数；y_[i]表示预测标签，i为预测标签数量；根据Tsallis熵最小化的要求，Tsallis熵损失的表达式为：

其中f_t表示目标域模型；x_t表示来自目标域图像训练集中的样本；f_t(x_t)＝h_t(g_t(x_t))表示目标域样本的K维逻辑输出，g_t(x_t)表示x_t经过特征提取器g_t得到的输出；δ_k表示经过Softmax激活；

步骤3-1-2：标签多样化损失；

定义为：

步骤3-1-3：伪标签交叉熵损失；

表达式为：

步骤3-1-4：局部分布平滑损失；

表达式为：

其中r_vadv表示在目标域样本x_t加入的扰动，D[q,p]是一个非负函数，用于衡量p和q之间分布的差异，p(y∣x_t,f_t)表示不加扰动时的预测标签分布，p(y∣x_t+r_vadv,f_t)表示加入扰动后的预测标签分布；

其中λ和β为超参数，用于平衡各损失；

步骤3-3：使用训练完成的目标域模型实现人脸表情分类。