CN115631530B

CN115631530B - 一种基于人脸动作单元的公平人脸表情识别方法

Info

Publication number: CN115631530B
Application number: CN202211651570.8A
Authority: CN
Inventors: 古天龙; 李�浩; 罗义琴; 李龙; 李晶晶; 郝峰锐
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-03-28
Anticipated expiration: 2042-12-22
Also published as: CN115631530A

Abstract

本发明公开一种基于人脸动作单元的公平人脸表情识别方法，包括：获取训练图片及人脸动作单元所在局部区域；构建平衡特征融合网络；对所述平衡特征融合网络添加权重分配，根据训练图片及人脸单元所在局部区域，通过联合损失函数对所述平衡特征融合网络进行优化，通过优化后的网络以实现公平人脸表情识别方法。

Description

一种基于人脸动作单元的公平人脸表情识别方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于人脸动作单元的公平人脸表情识别方法。

背景技术

近年来，基于深度学习的人脸表情识别技术引起了越来越多的计算机视觉研究人员的关注并通过不断地探索已经取得了不小的成功。人脸表情是传播人类情感信息与协调人际关系的重要方式。因此，人脸表情识别技术在人机交互，安全驾驶和犯罪侦测等有着广泛的应用。然而，由数据驱使的深度学习存在偏见，人脸表情识别同样在人口统计学属性上存在偏见。已有研究在这些属性上提升人脸表情识别的公平性取得了一定的进展，但针对表情类别的偏见研究比较少。存在表情类别偏见的人脸表情识别技术应用在日常生活中将会带来不利的影响。例如，表情识别在安全驾驶领域中，作为提醒司机驾驶安全的辅助工具，实时拍摄司机的表情图像来判断其是否处于疲劳状态，以此来进行安全提醒。然而，人脸表情识别系统存在类别偏见，由此不能及时准确地判断司机的表情并做出安全提醒，那将大大提高交通事故发生的概率，这与应用人脸表情识别在实际应用中的初衷是背道而驰的。所以，提高人脸表情识别的类别公平性成为了当前的迫切需求。

有研究表明，人脸表情识别常用的数据集存在数据不平衡现象，消极类表情（害怕和厌恶等）的数据量远少于积极类表情（高兴和惊讶等）的数据量。然而，基于深度学习的方法往往容易受数据集的影响，数据集在消极类表情上存在偏见，模型训练在此类数据集上势必会学习到这种偏见。根据人脸动作编码系统，人脸表情可以被定量解析为多个人脸动作单元的组合。通过添加人脸动作单元信息作为表情特征的补充，可以丰富人脸表情特征。特征融合与注意力机制在计算机视觉中是近年来的研究热点。特征融合可以让模型在多种特征的结合下，学习到更多的可区分特征。注意力机制表明特征图上的不同区域对于预测结果的重要程度是不一样的，引入该机制，可以提高模型对重要特征的提取。但是，简单的将这两种技术引入人脸表情识别，不能在类别公平性和整体准确性之间有一个比较好的权衡，因此需要对其进一步改进与完善。

发明内容

为解决上述现有技术中所存在的问题，本发明提供一种基于人脸动作单元的公平人脸表情识别方法，能够有效提高消极类表情的性能，增强表情类别的公平性。

为了实现上述技术目的，本发明提供如下技术方案：

一种基于人脸动作单元的公平人脸表情识别方法，包括：

获取训练图片及人脸动作单元所在局部区域；构建平衡特征融合网络；对所述平衡特征融合网络添加权重分配，根据训练图片及人脸动作单元所在局部区域，通过联合损失函数对所述平衡特征融合网络进行优化，通过优化后的网络以实现公平人脸表情识别方法。

可选的，获取训练图片及人脸动作单元所在局部区域的过程包括：

获取人脸表情图片，对人脸表情图片进行标准化，得到训练图片，通过人脸关键点检测获取训练图片中的人脸动作单元所在局部区域。

可选的，所述平衡特征融合网络包括：残差网络、局部区域特征提取网络、特征融合模块和注意力机制模块；其中通过所述残差网络对训练图片进行特征提取得到表情特征；通过所述局部区域特征提取网络对人脸动作单元所在局部区域进行特征提取，得到局部区域特征；通过所述特征融合模块用于对局部区域特征融合，并将融合后的特征与表情特征进行拼接，生成表情相关特征；通过所述注意力机制模块生成跨空间维度及通道维度的注意力图，通过注意力图对表情相关特征进行分类，生成人脸表情识别结果。

可选的，局部区域特征提取网络内包含感兴趣池化层。

可选的，注意力机制模块包括第一分支、第二分支及第三分支，通过第一分支及第二分支捕获通道和空间之间的跨维度交互信息，通过第三分支捕获空间的交互信息。每个分支都包含最大池化层和平均池化层，一个卷积层和激活函数，其中卷积层中的卷积核大小为3×3，激活函数是Sigmoid。

可选的，对所述平衡特征融合网络添加权重分配的过程包括：

在所述平衡特征融合网络中的所述特征融合模块中，对局部区域特征融合的过程中，训练图片及人脸动作单元所在局部区域，建立表情类别与局部区域的关系映射，将损失值大于表情类别平均损失值的表情类别进行筛选，基于关系映射，统计筛选后的表情类别中存在的局部区域的出现个数，对所述出现个数进行归一化处理，得到融合过程中的权重，根据所述权重对局部区域特征进行融合。

可选的，所述联合损失函数为交叉熵损失函数及平衡均方误差损失函数的和。

可选的，所述交叉熵损失函数

为：

其中，

表示为样本数量，

表示为样本类别的数量，

样本

的真实类别取值，其中取值为0或1，

为真实类别，当样本

的真实类别为

则取1，否则取0，

表示样本

属于类别

的预测概率。

可选的，平衡均方误差损失函数

为：

式（2）中，

表示样本的预测标签，

表示样本的真实标签，

表示一个训练批次样本的所有真实标签，

为第N个训练批次样本的真实标签，其中

表示温度系数。

本发明具有如下技术效果：

1.本发明采用人脸动作单元来研究表情识别的类别偏见问题，利用了人脸动作单元的线性组合可以表示六类基本表情这一特点，提取其特征作为基础表情特征的补充，可以克服模型因表情类别数据量分布不平衡而产生准确性差异的问题，从而缓解表情识别中的类别偏见。

2.本发明搭建了一个平衡特征融合网络，该网络在把与人脸动作单元特征补充到基础表情特征上时，对消极类表情相关的人脸动作单元局部特征分配更高的权重，提高了网络对消极类表情的特征提取。同时注意力机制能够挑选出重要的特征进行分类。最后平衡特征融合网络在联合损失函数（交叉熵和平衡均方误差损失）的优化下，能够达到在提升公平性同时又确保整体准确性不下降的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的平衡特征融合网络的结构和流程示意图；

图2为本发明的人脸动作单元对应局部区域示意图。

图3为本发明的注意力机制的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于人脸动作单元和特征加权融合的公平人脸表情识别方法，包括：1对训练样本集中的图片进行标准化处理并获得人脸动作单元所在局部区域；2构建平衡特征融合网络，该网络包括ResNet50、局部区域特征提取网络、特征融合和注意力机制四个模块；3 构建人脸动作单元特征所在局部区域权重分配模块，以提高模型对消极类表情的特征提取能力；4 由注意力机制模块挑选中重要的特征用于分类，确保整体分类性能；5 构建联合损失函数对平衡特征融合网络进行优化训练，该损失函数由交叉熵损失函数和平衡均方误差损失函数组成。本发明采用人脸动作单元和特征加权融合的方式来提高模型对消极类表情的特征提取，从而避免人脸表情识别在消极类群体上做出的不公平决策。

如图1所示，为本实施例的基于人脸动作单元和特征加权融合的公平人脸表情识别方法的结构和流程图。本实施例的流程如下：

步骤一，对训练样本集中的人脸表情图像进行标准化处理，统一裁剪为224×224大小，并通过人脸关键点获取预定义的人脸动作单元所在的局部区域矩形框。根据人脸动作单元分布的区域，在人脸图像上划分7个局部区域，这里主要用到了13个人脸动作单元（AU），如图2所示，其中编号为1、2、5和7的人脸动作单元为同一个局部区域；编号为4、6、9和23的人脸动作单元分别为单独的局部区域；编号为12和15的人脸动作单元为同一个局部区域；编号为16、20和26的人脸动作单元为同一个局部区域，一共7个人脸动作单元所在的局部区域。

步骤二，搭建一个包含ResNet50、局部区域特征提取网络、特征融合和注意力机制的平衡特征融合网络。其具体实施流程如下：

S2.1：构建一个由多个残差块组成的50层残差网络（ResNet50）提取表情基础特征；每个残差块都包含三层卷积层和残差连接单元，这三层卷积层为1层卷积核大小为3×3的卷积层，2层卷积核大小为1×1的卷积层；

S2.2：构建一个人脸动作单元所在局部区域特征提取网络，该网络由感兴趣池化层组成（RoI Pooling）；

S2.3：构建特征融合模块，该模块主要包含两个操作，首先对各个人脸动作单元所在的局部区域特征进行相加得到组合的人脸动作单元所在局部区域，然后将组合后的人脸动作单元所在局部区域特征与表情特征进行在维度上的拼接；

S2.4：构建一个注意力机制模块用于生成跨空间维度和通道维度的注意力图；如图3所示，该注意力机制包括三个分支，前两个分支捕获通道C和空间H或W之间的跨维度交互信息，最后一个分支用于捕获空间H与W的交互信息。每个分支都包含最大池化层和平均池化层，一个卷积层和激活函数，其中卷积层中的卷积核大小为3×3，激活函数采用Sigmoid；

步骤三，在人脸动作单元所在局部区域融合过程中，添加权重分配，提高模型对消极类表情的特征提取能力；其具体实施流程如下：

S3.1：建立人脸表情与预定义人脸动作单元所在局部区域的关系映射；

S3.2：根据公式（1）计算出来的每个样本的损失值，按照其对应的表情类别标签进行统计，得到各类表情的训练损失值并计算基于表情类别的平均损失值。将损失值大于表情类别平均损失值的表情类别筛选出来，根据关系映射统计这些表情中，存在的局部区域出现的次数

,其中，

表示第

个局部区域出现的次数，

表示局部区域的个数；

S3.3：对

做归一化处理，即局部区域在融合过程中的权重；

步骤四，使用注意力机制挑选出重要的特征进行表情分类；

步骤五，建立联合损失函数

（交叉熵和平衡均方误差损失）用于整个网络的优化训练：

S5.1：建立如式（1）所示的交叉熵损失函数

：

其中，

表示为样本数量，

表示为样本类别的数量，

样本

的真实类别取值（0 或1），

为真实类别，如果样本

的真实类别为

则取1，否则取0，

表示样本

属于类别

的预测概率；

S5.2：建立如式（2）所示的交叉熵损失函数

：

其中，

表示样本的预测标签，

表示样本的真实标签，

表示一个训练批次样本的所有真实标签，

为第N个训练批次样本的真实标签，其中

表示温度系数；

S5.3：构建如式（3）联合损失（交叉熵和平衡均方误差损失）

：

整个网络通过反向传播算法进行优化。

所述步骤3中，我们通过训练损失值获得性能较差的表情类，进而获得这些表情类中出现较多的局部区域以提高模型对这些区域的特征提取能力

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于人脸动作单元的公平人脸表情识别方法，其特征在于，包括：

获取训练图片及人脸动作单元所在局部区域；构建平衡特征融合网络；对所述平衡特征融合网络添加权重分配，根据训练图片及人脸单元所在局部区域，通过联合损失函数对所述平衡特征融合网络进行优化，通过优化后的网络以实现公平人脸表情识别方法；

所述平衡特征融合网络包括：残差网络、局部区域特征提取网络、特征融合模块和注意力机制模块；其中通过所述残差网络对训练图片进行特征提取得到表情特征；通过所述局部区域特征提取网络对人脸动作单元所在局部区域进行特征提取，得到局部区域特征；通过所述特征融合模块用于对局部区域特征融合，并将融合后的特征与表情特征进行拼接，生成表情相关特征；通过所述注意力机制模块生成跨空间维度及通道维度的注意力图，通过注意力图对表情相关特征进行分类，生成人脸表情识别结果；

对所述平衡特征融合网络添加权重分配的过程包括：

在所述平衡特征融合网络中的所述特征融合模块中，对局部区域特征融合的过程中，训练图片及人脸动作单元所在局部区域，建立表情类别与局部区域的关系映射，将损失值大于表情类别平均损失值的表情类别进行筛选，基于关系映射，统计筛选后的表情类别中存在的局部区域的出现个数，对所述出现个数进行归一化处理，得到融合过程中的权重，根据所述权重对局部区域特征进行融合；

所述联合损失函数为交叉熵损失函数及平衡均方误差损失函数的和；

所述交叉熵损失函数