CN116363733A

CN116363733A - 一种基于动态分布融合的人脸表情预测方法

Info

Publication number: CN116363733A
Application number: CN202310357220.9A
Authority: CN
Inventors: 刘姝; 许焱; 万通明; 王科选; 奎晓燕
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-30

Abstract

本发明公开了一种基于动态分布融合的人脸表情预测方法，包括获取人脸表情数据集，针对获取的数据集中的人脸图片进行预处理，获取预处理数据集；构造辅助枝干，并基于辅助枝干设计双分支神经网络模型；采用构造的辅助枝干针对获取的预处理数据集进行提取样本分布处理；构建类别分布，针对获取的样本分布进行挖掘情感信息处理；针对构建的类别分布和提取的样本分布进行动态分布融合处理；构建多任务学习框架，优化双分支神经网络模型；采用优化的双分支神经网络模型实现人脸表情预测；本发明引入标签分布学习，展现了相比单标签学习的优越性；提出动态分布融合，充分发挥了标签分布学习的效用；而且本发明的预测性能好、效率高、误差少。

Description

一种基于动态分布融合的人脸表情预测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于动态分布融合的人脸表情预测方法。

背景技术

人脸表情识别是计算机视觉领域的一个重要研究方向。作为情感识别的子领域，人脸表情识别可以通过对人脸图像的分析，判断出人脸的表情状态，为人机交互、情感计算、智能监控等领域提供了重要的支持。

人脸表情识别的流程主要包括人脸表情图像获取和预处理，人脸表情特征提取和人脸表情分类。人脸表情预处理是从获取的人脸表情图像，通过人脸检测和人脸对齐，得到人脸的精确位置，排除图片背景的干扰，预处理的成功率主要受图像质量、光线强弱和遮挡等因素的影响。常见的人脸表情特征提取包括几何特征、表观特征、混合特征和深度特征，前三者作为传统手工特征，在人脸表情识别研究的初期被广泛应用，但这些方法往往存在着精度不高、鲁棒性差等问题；近年来，随着深度学习技术的快速发展，通过深度卷积神经网络提取的深度特征在人脸表情识别任务上取得良好的表现。人脸表情分类是人脸表情识别的最后一步，对传统手工特征的分类常常使用K近邻法、支持向量机、随机森林、Adaboost算法、贝叶斯网络和单层感知机等；而在深度学习框架中，则可以采用端到端的形式进行表情识别，即深度神经网络在习得特征后直接对特征进行分类和优化。

人脸表达模型主要分为2D、2.5D和3D：2D人脸是通过普通相机拍摄的RGB人脸图像，或者通过红外相机拍摄的红外图像，是确定视角下表征颜色或纹理的图像，并不包含深度信息；2.5D人脸是某一视角下通过深度相机拍摄的人脸深度图像，曲面信息并不连续，没有被遮挡部分的深度信息；3D人脸是通过多个角度的人脸深度图像合成的点云或网格人脸图像，具有完整的曲面信息，包含深度信息。2D人脸表情识别的研究时间较长，软硬件技术较为完备，已经得广泛应用，但是由于2D人脸只反映二维平面信息而不包含深度信息，并不能完整地表达出真实人脸。相较2D人脸，3D人脸不受光照、遮挡或姿态等因素影响，具有更好的能力，可以更为真实地反映人脸信息，在人脸合成、人脸迁移等任务中得到应用。3D人脸一般通过专业设备获取人脸深度信息，主要包括双目相机、基于结构光原理的RGB-D相机和基于光飞行时间原理的TOF相机。出于2D人脸的易获得性，2D人脸表情识别仍占据主导地位。

目前针对人脸表情预测的大多数方法选择单标签学习方法实现人脸表情预测。尽管这些方法已经取得不错的预测性能，但是由于单标签所包含的情感信息不足，难以描述模糊或错误标记样本，容易造成神经网络的过拟合，导致进一步提升预测精度十分困难。

也有少数方法选择标签分布学习方法实现人脸表情预测。与单标签学习方法不同，这些方法使用标签分布权重代替单标签进行训练。相较单标签，标签分布蕴含更丰富的情感信息，能够在训练过程中有效地避免过拟合现象，因而拥有显著的优势。然而，标签分布标注往往难以获取，因此仅提供单标签标注的人脸表情数据集仍占据主流地位。近年来的标签分布学习方法着重从单标签构造标签分布，但是这些构造的标签分布普遍质量较低，无法完整发挥标签分布学习的优势。

发明内容

本发明的目的在于提供一种预测性能好、效率高、误差少的基于动态分布融合的人脸表情预测方法。

本发明提供的这种基于动态分布融合的人脸表情预测方法，包括如下步骤：

S1.获取人脸表情数据集，针对获取的数据集中的人脸图片进行预处理，获取预处理数据集；

S2.构造辅助枝干，并基于辅助枝干设计双分支神经网络模型；

S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理；

S4.构建类别分布，针对步骤S3获取的样本分布进行挖掘情感信息处理；

S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理；

S6.构建多任务学习框架，优化步骤S2设计的双分支神经网络模型；

S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测。

步骤S1所述的获取人脸表情数据集，针对获取的数据集中的人脸图片进行预处理，获取预处理数据集，具体包括：

设定人脸表情数据集为

且数据集中涵盖C类标签与N个样本，使用MTCNN算法进行人脸对齐处理，输出固定大小的人脸图片；将输出的人脸图片缩放到给定尺寸，并使用RandAugment技术进行数据增广；使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理。

步骤S2所述的构造辅助枝干，并基于辅助枝干设计双分支神经网络模型，具体包括：

采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分：冻结ResNet18网络模型中的第1层作为特征提取器，使用ResNet18网络模型中的后3层作为特征鉴别器，将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干，辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干，设计获得双分支神经网络模型。

步骤S3所述的采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理，具体包括：

将步骤S2构造的辅助枝干输出的概率分布作为样本分布，采用下述公式表示样本分布：

其中，

为样本x_i的样本分布，y_j为第j类标签，/>

为标签y_j对于样本x_i的描述程度，/>

为辅助枝干对样本x_i属于标签y_j的预测概率；

辅助枝干通过交叉熵损失进行训练，以提高并保持辅助枝干提取样本分布的能力，采用下述公式表示交叉熵损失函数：

其中，L_ce是交叉熵损失函数，

为样本x_i的逻辑标签y_i的第c个值，

是辅助枝干对样本x_i属于类别c的预测概率。

步骤S4所述的构建类别分布，针对步骤S3获取的样本分布进行挖掘情感信息处理，具体包括：

使用类别分布挖掘来找出样本分布中隐含的情感信息，消除样本分布误差对模型性能的影响，采用下述公式表示类别分布：

其中，

为类别c的类别分布，/>

为属于类别c的样本x_i的类别分布，N_c为属于类别c的样本数量；

设置阈值t来判断输出的类别分布是否满足设定的稳健性要求，如果标签y_j对于类别c的描述程度没有达到阈值t，使用阈值分布暂时替代类别分布训练模型，采用下述公式进行描述：

其中，

是类别c的类别分布，/>

是类别c的阈值分布，/>

为标签y_j对于类别c的描述程度。

步骤S5所述的针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理，具体包括：

动态分布融合以类别分布为基础，根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤：注意力权重提取和自适应分布融合；

1)注意力权重提取：

对于注意力权重提取，将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成，每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重，注意力权重值用于判断一个样本是否清晰或者模糊，并将该权重值用于自适应分布融合；每个枝干输出的特征与对应的注意力权重相乘后，再输入对应的分类器中；

注意力权重提取的流程如下：

a.对于一批样本，将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干；

b.对两个注意力模块输出的注意力权重进行求平均处理，以同时受益于两个枝干的样本模糊程度辨别能力，采用下述公式表示平均后的注意力权重：

其中，

和/>

分别为两个枝干的注意力模块输出的样本x_i的注意力权重；

c.对注意力权重进行排序正则化，以避免注意力模块的辨别能力退化：

L_RR＝max(0,δ-(w_H-w_L))

其中，w_H和w_L分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值，δ为一个固定差值，δ和M直接使用采用相同注意力模块的方法SCN中的值，L_RR是排序正则化的损失函数；

d.对注意力权重进行归一化处理，采用下述公式表示处理过程：

其中，w_min为注意力权重的下限，

是样本x_i经过排序正则化后的注意力权重，

是样本x_i经过归一化处理后的注意力权重；

2)自适应分布融合：

采用下述公示表示融合后的混合分布：

其中，

是样本x_i融合后的混合分布，/>

是样本x_i的类别分布，/>

是样本x_i的标签分布，/>

是样本x_i经过归一化处理后的注意力权重。

步骤S6所述的构建多任务学习框架，优化步骤S2设计的双分支神经网络模型，具体包括：

①目标枝干优化：

采用KL散度损失训练目标枝干，采用下述公式表示训练过程：

其中，L_kld为KL散度损失，

为类别c对样本x_i的描述程度，/>

为目标枝干对于样本x_i属于标签y_j的预测概率；

②多任务学习框架：

构建多任务学习框架，通过分布预测与表情识别的联合学习最小化联合损失L，从而优化模型的预测性能，采用下述公式表示联合损失函数：

L＝α₁·L_kld+α₂·L_ce+L_RR

其中，α₁和α₂为与训练轮次e有关的加权斜率函数，β为训练轮次的阈值，引入α₁和α₂优化训练过程。

步骤S7所述的采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测，具体包括：

采用步骤S6优化得到的双分支神经网络模型，通过目标枝干输出每个样本的概率分布进行人脸表情的预测，在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。

本发明提供的这种基于动态分布融合的人脸表情预测方法，通过引入标签分布学习，基于标签分布蕴含的丰富情感信息，在训练过程中有效地避免了过拟合，展现了相比单标签学习的优越性；同时提出动态分布融合，利用提取的样本分布与挖掘的类别分布生成与真实分布接近的高质量混合分布，充分发挥了标签分布学习的效用；而且本发明的预测性能好、效率高、误差少。

附图说明

图1为本发明方法的方法流程示意图；

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于动态分布融合的人脸表情预测方法，包括如下步骤：

S1.获取人脸表情数据集，针对获取的数据集中的人脸图片进行预处理，获取预处理数据集；具体包括：

假定人脸表情数据集为S＝{(x_i,y_i),i＝1,2,…,N}，且数据集中涵盖C类标签与N个样本，由于不同数据集中人脸图片的大小不同，使用MTCNN算法进行人脸对齐处理，输出固定大小的人脸图片，本发明输出100×100的人脸图片；将输出的人脸图片缩放到给定尺寸，本发明得到给定尺寸大小为224×224，并使用RandAugment技术进行数据增广；使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理；

S2.构造辅助枝干，并基于辅助枝干设计双分支神经网络模型，具体包括：

采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分：冻结ResNet18网络模型中的第1层作为特征提取器，使用ResNet18网络模型中的后3层作为特征鉴别器，将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干，辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干，设计获得双分支神经网络模型；

S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理，具体包括：

直接使用ResNet18网络模型输出的概率分布训练模型会导致模型性能的退化，将步骤S2构造的辅助枝干输出的概率分布作为样本分布，采用下述公式表示样本分布：

其中，

为样本x_i的样本分布，y_j为第j类标签，/>

为标签y_j对于样本x_i的描述程度，/>

为辅助枝干对样本x_i属于标签y_j的预测概率；

其中，L_ce是交叉熵损失函数，

为样本x_i的逻辑标签y_i的第c个值，

是辅助枝干对样本x_i属于类别c的预测概率；

S4.构建类别分布，针对步骤S3获取的样本分布进行挖掘情感信息处理，具体包括：

基于深度神经网络对模糊或错误标注样本的敏感性，使用类别分布挖掘来找出样本分布中隐含的情感信息，消除样本分布误差对模型性能的影响，采用下述公式表示类别分布：

其中，

为类别c的分布，/>

类别分布挖掘是通过对属于某一类别的所有样本的样本分布进行加和求平均，以获得对应类别的类别分布；由于训练初期辅助枝干的参数不稳定，无法输出满足设定的稳定性要求的类别分布，此时的类别分布不能准确描述每类表情，为了避免错误的类别分布劣化模型的预测性能，设置阈值t来判断输出的类别分布是否满足设定的稳定性要求，如果标签y_j对于类别c的描述程度没有达到阈值t，使用阈值分布暂时替代类别分布训练模型，阈值的设置在0～1之间，具体的值需要通过消融实验确定。阈值的设置是基于以下现象：模型提取特征的能力越强，在标签分布中对应的样本标签位置的值就越高。通过设定阈值可以判断模型的特征提取是否到位；采用下述公式进行描述：

其中，

是类别c的类别分布，/>

是类别c的阈值分布，/>

为标签y_j对于类别c的描述程度；

S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理，具体包括：

1)注意力权重提取：

对于注意力权重提取，将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成，每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重，注意力权重值可以判断一个样本是否清晰或者模糊，并将该权重值用于自适应分布融合；每个枝干输出的特征与对应的注意力权重相乘后，再输入对应的分类器中；

注意力权重提取的流程如下：

其中，

和/>

分别为两个枝干的注意力模块输出的样本x_i的注意力权重；

L_RR＝max(0,δ-(w_H-w_L))

其中，w_H和w_L分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值，δ为一个固定差值，为了避免重复实验，δ和M直接使用采用相同注意力模块的方法SCN中的值，在本发明中分别设置为0.07和0.7N，L_RR是排序正则化的损失函数；

其中，w_min为注意力权重的下限，

是样本x_i经过排序正则化后的注意力权重，

是样本x_i经过归一化处理后的注意力权重，设置超参数w_min是为了防止融合过程中低注意力权重样本的模糊性劣化模型性能，注意力权重越低，样本模糊程度越高。

2)自适应分布融合：

对于自适应分布融合，基于获取的注意力权重自适应地融合类别分布与样本分布，以兼顾类别分布的稳健性与样本分布的多样性，采用下述公示表示融合后的混合分布：

其中，