CN112990097A

CN112990097A - 一种基于对抗消除的人脸表情识别方法

Info

Publication number: CN112990097A
Application number: CN202110393430.4A
Authority: CN
Inventors: 杨峰; 宋永端; 李�瑞; 张祎文; 钟昊原; 张健; 潘盛涛; 李思雨; 余正涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-06-18
Anticipated expiration: 2041-04-13
Also published as: US20220327308A1; CN112990097B; US11804074B2

Abstract

本发明涉及一种基于对抗消除的人脸表情识别方法，涉及计算机视觉领域。首先以一个深度卷积神经网络为基础，搭建人脸表情识别网络，在自然人脸表情数据集上，通过损失函数对该人脸表情识别网络进行训练，使人脸表情特征更容易被区分开；然后利用改进的对抗消除方法来主动地消除掉输入图像的部分关键特征，生成新的数据集来训练新的具有不同权重分布和特征提取能力网络，迫使网络依据更多的特征进行表情分类判别，降低了遮挡等干扰因素对于网络识别准确率的影响，提升了人脸表情识别网络的鲁棒性；最后采用网络集成和相对多数投票法获得最终表情分类的预测结果。本发明不仅提高人脸表情识别网络的准确率，而且有效地减少遮挡因素对网络的干扰。

Description

一种基于对抗消除的人脸表情识别方法

技术领域

本发明涉及计算机视觉计算领域，尤其是一种基于对抗消除的人脸表情识别方法。

背景技术

随着深度学习的逐步发展和计算机视觉应用领域的不断扩大，基于实验室环境下的非自发人脸表情识别已经不再是一个挑战，学界研究的重点已经转向在自然条件下的人脸表情识别。自从第一届自然环境的人脸表情识别竞赛EMotiW举办以来，越来越多针对自然人脸表情识别的算法和高质量的自然人脸表情数据集被研究者提出。自然环境下的人脸表情会明显受到光照、遮挡以及任务自身姿态的变化的影响，在自然环境下提取有效的人脸面部表情特征已经成为目前人脸表情识别领域的主要难点之一。尽管自然人脸表情数据集更加贴近真实场景获取的人脸表情，但由于自然人脸表情数据集样本偏小，并且存在肤色、光照和遮挡等干扰因素，网络过拟合现象比较严重，对于一些关键特征不明显的图像，更易出现分类错误的情况。

目前，基于注意力机制的人脸表情识别网络在自然表情数据集上取得了不错的效果，但是基于注意力机制的人脸表情识别网络需要人为提供额外的输入图像，并且需要大量的注意力子网络对这些图像进行特征提取，在训练过程中，主干网络和子网络需要同时运行，因此对计算机资源占用较高。

发明内容

针对上述现有技术中存在的问题，本发明提供了一种基于对抗消除的人脸表情识别的方法，可以结合多种分类网络的互补性，提升网络识别的准确率，同时降低遮挡因素的影响。

为实现上述目的，本发明采用的技术方案是：一种基于对抗消除的人脸表情识别的方法，具有以下步骤：

步骤1：数据预处理

获取自然人脸表情数据集并且将数据集中图像分为训练集和测试集，先将输入图像进行数据归一化，并将图像大小放缩到固定尺寸，再对训练集图像进行数据归一化、水平翻转、图像旋转、图像裁剪等操作，得到预处理后的数据集。

步骤2：搭建人脸表情识别网络。

步骤2.1：在VGGNet、ResNet、MobileNet、DenseNet等卷积神经网络模型中，优选ResNet34模型作为人脸表情识别网络的主要网络结构。固定ResNet34模型除最后一层全连接层的所有层，把最后一层全连接层的输出个数改为人脸表情数据集的类别数n。

步骤2.2：对人脸表情识别网络进行预训练，导入Imagenet训练权重到修改过的ResNet34模型，记为人脸表情识别网络h_t。设初始人脸表情识别网络的序号t＝0。

步骤3：将数据集图像按照步骤1中方式进行预处理，将预处理后的图像输入到人脸表情识别网络，采用如下损失函数来训练人脸表情识别网络，当网络收敛后停止训练，得到对应的表情的类别预测输出；损失函数计算公式如下：

其中，批量大小和表情类别数分别为T和n，y_i表示第i个样本图像的类别标签，θ_j表示权重矩阵的第j列和特征之间的夹角，

表示权重矩阵的第y_i列和特征之间的夹角，s和m分别表示特征尺度和附加角度边缘惩罚；

步骤4：采用改进的对抗消除方法来生成多个具有不同权重分布的人脸表情识别子网络，使用改进的对抗消除方法可以让每个子网络的训练数据集不同，使子网络可以提取到不同的表情特征，从而使生成的网络具有多样性和互补性。改进的对抗消除方法具体步骤如下：

步骤4.1：使用如下方法对人脸表情识别网络h_t进行类激活映射，对训练集中任意一张输入图像x，生成其在对应目标类别c下的热力图

设最后的卷积层输出的第k张特征图为A^k，

表示特征图A^k上的点(i,j)，定义A^k对特定表情类别c的权重为

则

的获取方式如下：

其中权重

的计算公式为：

上述公式中，relu为激活函数，

为目标类别c和A^k的梯度权重；Y^c为目标类别c的得分；

步骤4.2：设置阈值G，G为

中最大值；保留

中值等于G的目标区域，其余区域置为0；将

上采样到输入图像大小，获取输入图像x所对应的目标区域R_x；

步骤4.3：计算训练集所有图像的平均像素，用平均像素替换训练集中图像x对应的目标区域R_x内的像素，从而将人脸表情识别网络做出分类判别的关键目标区域从训练图像中擦除，生成新的训练集；

步骤4.4：将人脸表情识别网络的序号t赋值为t+1，按照步骤2生成新的人脸表情识别网络h_t，将新生成的训练集和原有测试集按照步骤3的方法送到h_t中进行训练，当模型达到收敛后结束训练。

步骤4.5：比较子网络h_t和初始人脸表情识别网络h₀在测试集上的准确率，当准确率相差不大于5％时，重复步骤4.1至步骤4.5生成新的子网络；当准确率相差大于5％时，丢弃子网络h_t，并令z＝t-1，最终获得z个子网络：h₁,h₂,...,h_z-1,h_z。

步骤5：将z+1个人脸表情识别网络h₀,h₁,h₂,...,h_z-1,h_z进行网络集成，然后将网络h_β在输入图像x上的预测输出表示为一个n维向量

其中，网络h_β表示网络h₀到网络h_z的任意一个网络。然后采用相对多数投票方法对所有网络的输出向量进行分类判别，获得分类预测结果H(x)，即预测结果为得票分数最高的类别，若同时有多个类别获得最高分数，则从中随机选取一个类别。相对多数投票法的公式如下：

其中

是网络h_β在类别c_j上的输出。

本发明的有益效果：

本发明所使用的基于对抗消除的人脸表情识别方法能够很好地对自然状态下的人脸表情进行分类判别。引入本发明损失函数，缩小了同类别表情特征的间距，扩大了不同类别表情特征的间距，使人脸表情特征更容易被人脸表情识别网络区分开；相较于单个卷积神经网络获取特征的局限性，本发明所提出的改进的对抗消除方法能够主动地消除掉输入图像的部分关键特征，生成新的数据集来训练新的具有不同权重分布和特征提取能力网络，迫使网络依据更多的特征进行表情分类判别，降低了遮挡等干扰因素对于网络识别准确率的影响；采用网络集成的方式提升了人脸表情识别网络的判别能力，从而提升了网络的识别准确率；本发明提出的方法不需要在同一时刻并行运行多个网络，相较于基于注意力机制的人脸表情识别模型，大大降低了硬件设备的计算量。

附图说明

图1为本发明中基于对抗消除的人脸表情识别方法的流程图；

图2为本发明中改进的对抗消除方法的结构图；

图3为本发明中通过热力图获取目标区域的示意图；

图4为本发明中网络集成的结构图。

具体实施方式

为了使本领域的人员更好地理解和使用本发明，下面将结合附图和具体实施案例对本发明的技术方案进行详细描述，以下实施例仅用于说明本发明，不用来限制本发明的范围。

本发明涉及一种基于对抗消除的人脸表情识别的方法，其流程图见图1。该方法包括以下步骤：

步骤1：选择自然表情数据集RAF-DB作为训练集和测试集数据，并且将12271张训练集图像和3068张测试集图像作为输入图像，对输入图像进行预处理，首先将图像尺寸放缩到224×224，再对输入图像进行数据归一化。对训练集图像再做水平翻转、图像旋转、图像裁剪等操作进行数据增强，其中旋转的角度范围在45度以内。将图像进行如上所述操作后得到预处理后的数据集。

步骤2：训练平台采用NVIDIA GeForce RTX3090 GPU，深度学习框架采用Pytorch。训练的batch-size设为32，学习率为0.0001，优化方法采用Adam梯度下降法。

步骤3：在Pytorch框架下搭建ResNet34模型作为人脸表情识别网络的主要网络结构。

步骤3.1：固定ResNet34模型除最后一层全连接层的所有层，把最后一层全连接层的输出个数改为RAF-DB的人脸表情类别数7，基本表情类别包括惊讶、恐惧、愤怒、高兴、悲伤、厌恶、中性。利用Pytorch深度学习框架导入Imagenet训练权重到修改过的ResNet34模型，并将该模型记为人脸表情识别网络h_t。设初始人脸表情识别网络序号t＝0。其中微调后的ResNet34的结构如表1所示：

表1：微调后的ResNet34的结构表

步骤4：将数据集图像按照步骤1中方式进行预处理，将预处理后的图像输入到人脸表情识别网络，采用如下损失函数来训练人脸表情识别网络，当网络收敛后停止训练，得到对应的表情的类别预测输出；损失函数计算公式如下：

表示权重矩阵的第y_i列和特征之间的夹角，s和m分别表示特征尺度和附加角度边缘惩罚。

步骤5：采用改进的对抗消除方法来生成多个具有不同权重分布的人脸表情识别子网络，使用改进的对抗消除方法可以让每个子网络的训练数据集不同，使每个子网络可以提取到不同的表情特征，从而使生成的网络具有多样性和互补性。图2给出了改进的对抗消除方法的结构图。改进的对抗消除方法具体步骤如下：

步骤5.1：使用如下方法对人脸表情识别网络h_t进行类激活映射，对训练集中任意一张输入图像x，生成其在对应目标类别c下的热力图

设最后的卷积层输出的第k张特征图为A^k，

表示特征图A^k上的点(i,j)，定义第k张特征图对特定表情类别c的权重为

则

的获取方式如下：

其中权重

的计算公式为：

上述公式中，relu为激活函数，

为目标类别c和A^k的梯度权重；Y^c为目标类别c的得分。

步骤5.2：图3为通过热力图获取目标区域的示意图，图3(a)为输入图像x在对应目标类别c下的热力图

大小为7×7，设置阈值G，使其大小为

中最大值。图3(b)为输入图像x所对应的目标区域R_x，首先保留

值等于G的目标区域，并将其余区域置为0，再使用最近邻插值法将

上采样到原始输入图像大小，尺寸为100×100，获取目标区域R_x。

步骤5.3：分别计算训练集所有图像在R、G、B三个通道上的平均像素，用R、G、B三个通道平均像素替换训练集中图像x对应的目标区域R_x内相应通道的像素，从而将人脸表情识别网络做出分类判别的关键目标区域从训练图像中擦除，生成新的训练集。

步骤5.4：将人脸表情识别网络的序号t赋值为t+1，按照步骤3生成新的人脸表情识别网络h_t，将新生成的训练集和原有测试集按照步骤4的方法送到h_t中进行训练，当模型达到收敛后结束训练。

步骤5.5：比较子网络h_t和初始人脸表情识别网络h₀在测试集上的准确率，当准确率相差不大于5％时，重复步骤5.1至步骤5.5产生新的子网络生成新的子网络h_t；当准确率相差大于5％时，丢弃子网络h_t，最终生成10个人脸表情识别子网络。

步骤6：本发明的网络集成部分如附图4所示，该部分包含两个决策层。第一个决策层首先将这11个人脸表情识别网络h₀,h₁,h₂,...,h₉，h₁₀进行网络集成，然后将网络h_β在输入图像x上的预测输出表示为一个n维向量

其中，网络h_β表示网络h₀到网络h_z的任意一个网络；第二个决策层是采用相对多数投票方法对所有网络的输出向量进行分类判别，获得分类预测H(x)，即预测结果为得票分数最高的类别，若同时有多个类别获得最高分数，则从中随机选取一个类别。相对多数投票法的公式如下：

其中

是网络h_i在类别c_j上的输出。

以上所述仅用以说明本发明，并不用以限制本发明所描述的技术方案，凡在本发明的精神和原则之内，所做的任何修改、等同替换以及改进等，均应涵盖在本发明的保护范围之内。

Claims

1.一种基于对抗消除的人脸表情识别方法，其特征在于，包括以下步骤：

步骤1：数据预处理，获取自然人脸表情数据集并且将数据集中的图像作为输入图像，对输入图像进行预处理得到预处理后的数据集；

步骤2：搭建人脸表情识别网络；

步骤3：将数据集图像按照步骤1中方式进行预处理，将预处理后的图像输入到人脸表情识别网络，并采用损失函数对网络进行训练，当网络收敛后停止训练，得到对应的表情的类别预测输出；

步骤4：采用改进的对抗消除方法来生成多个具有不同权重分布的人脸表情识别子网络，使用改进的对抗消除方法可以让每个子网络的训练数据集不同，使子网络可以提取到不同的表情特征，从而使生成的网络具有多样性和互补性；

步骤5：将多个子网络进行网络集成，根据从多个子网络处获得的多个表情预测分类做出最终的分类判别。

2.根据权利要求1所述基于对抗消除进行人脸表情识别的方法，其特征在于：所述预处理具体指，先将输入图像进行数据归一化，并将图像大小放缩到固定尺寸，再对训练集图像进行数据归一化、水平翻转、图像旋转、图像裁剪操作，得到预处理后的数据集。

3.根据权利要求1所述基于对抗消除的人脸表情识别方法，其特征在于：所述搭建人脸表情识别网络，包括以下步骤：

步骤3.1：选择ResNet34模型作为人脸表情识别网络的主要网络结构；固定ResNet34模型除最后一层全连接层的所有层，把最后一层全连接层的输出个数改为人脸表情数据集的类别数n；

步骤3.2：对人脸表情识别网络进行预训练，导入Imagenet训练权重到修改过的ResNet34模型，记为人脸表情识别网络h_t；设初始人脸表情识别网络序号t＝0。

4.根据权利要求1所述基于对抗消除的人脸表情识别方法，其特征在于：所述的损失函数的计算公式如下：

5.根据权利要求1所述基于对抗消除的人脸表情识别方法，其特征在于：所述改进的对抗消除算法，包括以下步骤：

设最后的卷积层输出的第k张特征图为A^k，

表示特征图A^k上的点(i,j)，定义A^k对特定表情类别c的权重为

则

的获取方式如下：

其中权重

的计算公式为：

上述公式中，relu为激活函数，

为目标类别c和A^k的梯度权重；Y^c为目标类别c的得分；

步骤5.2：设置阈值G，G为

中的最大值；保留

中值等于G的目标区域，并将其余区域的值置为0；将

上采样到输入图像大小，获取输入图像x所对应的关键目标区域R_x；

步骤5.3：计算训练集所有图像的平均像素，用平均像素替换训练集中图像x对应的关键目标区域R_x内的像素，从而将人脸表情识别网络做出分类判别的关键目标区域从训练图像中擦除，生成新的训练集；

步骤5.4：将人脸表情识别网络的序号t赋值为t+1，按照步骤2生成新的人脸表情识别网络h_t，将新生成的训练集和原有测试集按照步骤3的方法送到h_t中进行训练，当模型达到收敛后结束训练；

步骤5.5：比较子网络h_t和初始人脸表情识别网络h₀在测试集上的准确率，当准确率相差不大于5％时，重复步骤5.1至步骤5.5生成新的子网络；当准确率相差大于5％时，丢弃子网络h_t，并令z＝t-1，最终得到z个生成的子网络：h₁,h₂,...,h_z-1,h_z。

6.根据权利要求1所述基于对抗消除的人脸表情识别方法，其特征在于：所述的网络集成方法为：将z+1个人脸表情识别网络h₀,h₁,h₂,...,h_z-1，h_z进行网络集成，然后将网络h_β在输入图像x上的预测输出表示为一个n维向量

其中，网络h_β表示网络h₀到网络h_z的任意一个网络；然后采用相对多数投票方法对所有网络的输出向量进行分类判别，获得分类预测结果H(x)，即预测结果为得票分数最高的类别，若同时有多个类别获得最高分数，则从中随机选取一个类别；相对多数投票法的公式如下：

其中

是网络h_β在类别c_j上的输出。