CN111783543A

CN111783543A - 一种基于多任务学习的面部活动单元检测方法

Info

Publication number: CN111783543A
Application number: CN202010489364.6A
Authority: CN
Inventors: 支瑞聪; 周才霞
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-10-16
Anticipated expiration: 2040-06-02
Also published as: CN111783543B

Abstract

本发明提供一种基于多任务学习的面部活动单元检测方法，包括：辅助任务学习：将全局平均池化层之前的AlexNet网络作为共享结构提取共享的面部全局特征，并将提取的共享的面部全局特征分别送入与任务相关的独立网络结构中得到辅助任务的输出；所述辅助任务的输出包括标志点检测、性别识别、头部姿势估计和表情识别的输出；主任务学习：将面部裁剪为上半脸和下半脸，分别输入修改后的Resnet50网络中学习与活动单元相关的特征，将辅助任务学习步骤提取的共享的面部全局特征融入并加入注意力机制；特征组合：将辅助任务的输出组合起来作为关系信息来修正活动单元相关特征的输出。本发明涉及人机交互及模式识别技术领域。

Description

一种基于多任务学习的面部活动单元检测方法

技术领域

本发明涉及人机交互及模式识别技术领域，特别涉及一种基于多任务学习的面部活动单元检测方法。

背景技术

国际著名心理学家Paul Ekman从解剖学角度提出面部表情编码系统，将面部肌肉划分成若干个相互独立又相互联系的活动单元(Action Unit，AU)，来对面部表情进行细分描述。用AU来描述表情从而进行表情识别有两个好处：①现有的表情识别工作大部分是基于六种基本表情(快乐，伤心，恐惧，愤怒，惊讶和厌恶)开展的，然而人脸表情很丰富，不止这六种基本表情，用AU描述表情可以组合出更多丰富的表情；②用AU来描述和组合表情，可以探索AU和表情之间的联系，这将同时促进AU检测和表情识别工作的发展。因此AU检测的探索非常具有实用价值。

AU检测任务即识别面部某个AU是否发生，面部表情编码系统中有40个以上的AU，但有些AU却很少在正常状况下发生，因此一般用作AU检测任务的AU种类在10个左右，也就是说，判断一张面部图片中这些种类AU是否发生，这是多个二分类的问题。现有的AU检测方法主要有基于传统的机器学习和基于深度学习的方法。其中基于传统机器学习的方法需要提取手工特征且每个模型只能完成一个二分类任务，需要多个模型完成，这样耗时耗力。基于深度学习的方法能够实现多个二分类结果的同时输出，卷积神经网络(CNN)的强大学习能力和对局部信息的提取能使其学到更多有效丰富和具有差异性的特征，使得模型效果更优。

现有的AU检测方法中，基于深度学习方法的性能较高，主要包括：Zhao等人在五个卷积层和三个池化层基础上增加了区域层，该层将一张特征图划分成很多子块并对每个子块进行卷积，然后组合卷积后的结果，通过此方式增强对局部信息的学习，在BP4D数据库上得到了56.0％的准确率和48.3％的F1得分。Shao等人同时实现面部对齐和AU检测任务，通过多任务之间的相互交互以及注意力机制对局部信息的增强，在BP4D数据上得到了78.4％的准确率和60％的F1得分。Ma等人在网络中加入先验知识，根据面部标志点将面部划分成更多更细的感兴趣区域(ROI)，将感兴趣区域与AU进行对应，使学到的信息更具差异性，从而在BP4D数据上得到了63.0％的F1得分。

通过以上分析，目前AU检测的不足主要有两个方面：

首先，现有的AU检测任务的实现大部分基于单任务学习，学到的面部特征特异性不够导致测试过程中泛化能力不够好。而研究已证明多任务学习的有效性，多任务学习可以通过辅助任务来增强主要任务的性能，同时辅助任务和主要任务可以通过交互相互促进来提高性能，因此多任务学习很值得在AU检测任务上尝试，让网络学到更丰富且具有特异性的特征；其次，AU检测是多个二分类任务，在自然状态下，部分AU正样本发生的比例更高，部分AU的样本比例非常不平衡，现有工作没有针对AU不平衡数据做过多处理或处理不够有效。

发明内容

本发明的目的在于提供一种基于多任务学习的面部活动单元检测方法，可用于实现活动单元(AU)检测任务，并解决以下问题：(1)采用卷积神经网络(CNN)学习面部特征信息，并利用多级融合策略将CNN低层、高层学到的特征进行组合，使网络尽可能少地丢失信息，学到的面部特征更加丰富；(2)通过头部姿势估计、标志点检测、性别识别和表情识别等辅助任务增强AU检测任务性能，其中标志点检测和AU检测任务之间存在交互，使得标志点检测任务和AU检测任务的性能都得以提升，训练辅助任务可以让网络学到更多特征，探索辅助任务和探索任务之间的关系可以使特征更具特异性；(3)采用在线复杂样本选择机制和带权重损失函数策略，以减轻数据不平衡造成的影响；根据训练结果为每个样本分配权重来调整训练过程以实现在线困难样本选择，并且根据AU正负样本比率为每个AU检测任务损失函数赋予权重来实现带有权重的损失函数；在基准数据库上进行广泛的实验，以证明与最先进的AU检测任务技术相比本发明的显著性能。

为解决上述技术问题，本发明的实施例提供如下方案：

辅助任务学习：将全局平均池化层之前的AlexNet网络作为共享结构提取共享的面部全局特征，并将提取的共享的面部全局特征分别送入与任务相关的独立网络结构中得到辅助任务的输出；所述辅助任务的输出包括标志点检测、性别识别、头部姿势估计和表情识别的输出；

主任务学习：将面部裁剪为上半脸和下半脸，分别输入修改后的Resnet50网络中学习与活动单元相关的特征，为了减少有效信息的丢失以及使提取的特征更关注局部，将辅助任务学习步骤提取的共享的面部全局特征融入并加入注意力机制；

特征组合：将辅助任务的输出组合起来作为关系信息来修正活动单元相关特征的输出。

优选地，所述辅助任务学习的步骤具体包括：

使用全局平均池化层之前的AlexNet网络作为共享网络结构提取共享的面部全局特征，输入224×224×3的裁剪后的人脸；其中224×224×3分别代表长、宽、通道数，全局平均池化层之前的AlexNet网络具有五个卷积层和三个池化层；

将提取的共享的面部全局共享特征记为X_features，将X_features输入与任务相关的特定的网络结构，分别得到标志点检测、性别识别、头部姿势估计和表情识别辅助任务的输出。

优选地，所述主任务学习的步骤具体包括：

将面部根据预测的标志点位置裁剪为上半脸和下半脸，上半脸和下半脸的尺寸都是112×112×3，上半脸以两眼之间的中心点为中心裁剪，下半脸以上唇的中心点为中心裁剪；

全局平均池化层之前的Resnet50网络包含一个卷积层和四个阶段，每个阶段由identity块和conv块组成；将卷积层以及每个阶段的输出与X_features结合，其中，卷积层和第一阶段的输出尺寸为56×56，第二阶段和第三阶段的输出尺寸分别为28×28和14×14，最后一个阶段的输出尺寸为7×7；

从全局平均池化层之前的Resnet50网络提取特征图，其中，对卷积层和前三个阶段的特征图进行下采样处理，以保证进行连接的特征图大小相同，最终得到的特征图记为AU_features。

优选地，所述主任务学习的步骤还包括：

从全局平均池化层之前的Resnet50网络中提取出7×7×64特征图AU_features后，以每个活动单元中心点为基准为每个活动单元生成7×7×64的注意力特征图，具体包括：

为每个活动单元设计两个7×7矩阵，矩阵的中心为活动单元中心点；

根据矩阵上各个点与中心点之间的曼哈顿距离d，计算矩阵中各个点的值v，如果点在图片范围内，则值v等于1-0.095×d，否则为0；

将每个矩阵重复32次并通过通道连接以形成7×7×64的注意力特征图；

将从全局平均池化层之前的Restnet50网络中提取的特征图与每个活动单元对应的注意力特征图分别相乘，以增强与每个活动单元相关的特征，最终得到的特征图记为AU_attention_features。

优选地，所述特征组合的步骤具体包括：

将活动单元相关特征输入全连接层得到尺寸为64的活动单元线性特征；

使用全连接层操作活动单元线性特征得到尺寸为1的活动单元初步输出；

将除每个活动单元检测任务外的所有任务的输出合并成为任务信息，任务信息的尺寸为120；

将任务信息通过全连接层和sigmoid函数提炼，提炼后的信息尺寸为64；

将提炼后的任务信息和各个特定活动单元线性特征按元素相加来获得组合特征；

将组合特征输入全连接层和sigmoid函数获得最终输出的面部活动单元特征。

优选地，所述面部活动单元检测方法还包括在线困难样本选择和损失函数设计；

所述在线困难样本选择用于在训练过程中统计正确预测的活动单元数目，据此给每个样本赋予权重；对于活动单元预测正确的数量越多的样本，在下次训练过程中得到的样本权重越小，以使得网络更加注重活动单元预测正确数量较少的样本；

所述损失函数设计用于统计每个训练批次中每个活动单元的正样本数量，并赋予正样本数量偏少的活动单元损失函数更大的权重。

优选地，所述在线困难样本选择包括：

计算训练过程中活动单元正确预测的个数，记为n_right，n_right∈[0,12]，将需要探索的活动单元任务的个数记为n_AU；

通过以下公式计算每个样本的样本权重：

其中s_i代表第i个样本的样本权重，s_i∈[0.6,1.4]。

优选地，所述损失函数设计包括回归任务的损失函数和分类任务的损失函数；

对于回归任务，包括头部姿势估计和标志点检测，选择smooth L1损失函数；对于分类任务，包括性别识别、表情识别和活动单元检测，选择交叉熵损失函数。

优选地，对于活动单元检测任务：

通过以下公式进行损失计算：

其中n_AU代表活动单元的种类数，n_b和b_s分别是批次序号和每个批次数目的缩写，n_b和b_s的乘积为样本总和，AU_ijm代表样本的活动单元标签，AU'_ijm是网络预测活动单元的输出结果；

通过以下公式计算每个批次中各活动单元损失函数的权重：

其中i代表批次序号，p_im代表的是第i批次中第m个活动单元正样本的数量，p_im被加上1以防止最后的除数为0；

对于标志点检测任务：

每个标志点由(x，y)坐标组成，坐标值处于(0-224)区间，选用smooth L1损失函数进行损失计算，具体公式如下：

其中S代表smooth L1损失函数，(x，y)是坐标点的标签，(x′，y′)是网络预测的标志点的值，n代表样本总数，n_l表示一个样本中标志点的总数，x_ij为第i个样本中第j个点的x坐标值；

对于头部姿势估计任务：

采用smooth L1损失函数进行损失计算，具体公式如下：

其中h是给定的标签，h′是估计的角度值，h_i1和h_i2分别代表第i个样本的pitch和yaw角度值；

对于性别识别任务：

采用交叉熵损失函数进行损失计算，具体公式如下：

其中g是给定的性别标签，g为0或者1，如果是女性为0，否则为1，p是预测为正样本的概率；

对于表情识别任务：

采用softmax损失函数进行损失计算，具体公式如下：

其中e_i是第i个样本的表情标签，output_i为网络预测值；

整个网络结构的损失函数表示为：

Loss_total＝Loss_L+Loss_p+Loss_G+Loss_AU+Loss_E。

本发明的上述方案至少包括以下有益效果：

本发明基于多任务学习实现活动单元(AU)检测，包含了头部姿势估计、标志点检测、性别识别和表情识别辅助任务。首先，使用了高低层特征图连接的方式，减少了网络学习过程中信息的丢失；其次，辅助面部属性任务的交互学习使得网络可提取更丰富的面部特征，该设计使得辅助任务和主要任务(AU检测)之间交互提升，从而提高主任务的检测性能；最后，对各任务之间联系的探索使得网络学习到的特征更具特异性，让网络更具泛化性。本发明能够在AU检测上取得较好结果，且可以同时得到面部其他属性信息，为面部分析工作提供便利。

附图说明

图1是本发明实施例提供的基于多任务学习的面部活动单元检测方法的流程图；

图2是本发明实施例中基于多任务学习的面部活动单元检测方法对应的系统实现过程示意图；

图3是本发明实施例中全局特征提取的过程示意图；

图4是本发明实施例中活动单元相关特征提取的过程示意图；

图5是本发明实施例中活动单元相关特征与辅助任务输出融合的过程示意图；

图6是全局平均池化层之前的Resnet50网络中特征图尺寸变化示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供了一种基于多任务学习的面部活动单元检测方法，如图1所示，该方法包括以下步骤：

特征组合模块：将辅助任务的输出组合起来作为关系信息来修正活动单元相关特征的输出。

具体地，图2是本发明实施例中基于多任务学习的面部活动单元检测方法对应的系统实现过程示意图。该系统使用端到端的训练方式实现多个任务的输出，包括辅助任务学习模块、主任务学习模块和特征组合模块。辅助任务学习模块使用全局平均最大池化层之前的AlexNet网络来提取面部全局共享特征，然后传入任务特定的网络结构中分别得到辅助任务的输出，主任务学习模块将面部裁剪为上半脸和下半脸并分别输入修改后的Resnet50网络，将学习到的特征和全局特征提取模块得到的全局共享特征结合来表示面部的AU特征，将原始AU输出和辅助任务输出融合得到关系信息来修正AU最终输出。其中包含的辅助任务有头部姿势估计、标志点检测、性别识别和表情识别任务。

进一步地，所述辅助任务学习的步骤具体包括：

将提取的面部全局共享特征记为X_features，将X_features输入与任务相关的特定的网络结构，分别得到标志点检测、性别识别、头部姿势估计和表情识别辅助任务的输出。

具体地，如图3所示，使用全局平均池化层之前的AlexNet网络作为共享网络结构提取器，网络的输入为224×224×3的裁剪后的人脸，全局平均池化层之前的AlexNet有五个卷积层和三个池化层。辅助任务学习模块提取出的全局面部共享特征记为X_features，X_features被输入任务相关的结构分别得到标志点检测、性别识别、头部姿势估计和表情识别任务的输出。其中，X_features将和第二个模块提取的特征进行结合，得到更丰富的与AU相关的特征；辅助任务的输出将在第三个模块被结合利用来使特征更具特异性，增强网络的泛化能力。

进一步地，所述主任务学习的步骤具体包括：

将面部裁剪为上半脸和下半脸，上半脸和下半脸的尺寸都是112×112×3，上半脸以两眼之间的中心点为中心裁剪，下半脸以上唇的中心点为中心裁剪；

具体地，如图4所示，全局平均池化层之前的Resnet50网络被用作骨干结构。在这个模块中有两个结构完全一致的子网络，两个子网络的输入分别是上半脸和下半脸，因为有些AU发生在上半脸而其他AU发生在下半脸。上下半脸是根据预测出的特征点从裁剪出的面部中进一步裁剪得到的。上下半脸的尺寸都是112×112×3，上半脸以两眼之间的中心点为中心裁剪，下半脸以上唇的中心点为中心裁剪。

两个子网络的操作几乎相同，因此以上半脸网络为例详细说明。全局平均池化层之前的Resnet50包含一个卷积层和四个阶段，每个阶段由identity块和conv块组成。Resnet50卷积层以及每个阶段的输出和X_features为结合以获得更丰富的特征。卷积层和第一阶段的输出尺寸为56×56，第二阶段和第三阶段的输出尺寸分别为28×28和14×14，最后一个阶段的输出尺寸是7×7。为了进行连接，被连接的特征图的大小必须相同，因此，对卷积层和特征图的前三个阶段进行了下采样处理，可从图6中获得特征图尺寸的变化。为了保证下采样过程中的信息损失不影响实验结果，池化层的最大步长设为4，因此将Resnet50卷积层的输出和Resnet50的前两个阶段结合在一起。然后对组合的特征进行下采样，并将其与Resnets50的最后两个阶段的输出和X_features连接。卷积过程中，有1个填充的3×3卷积核被使用，使得在减少通道数同时保持特征图的尺寸。

为了获得有关AU的更多局部特征并提高标志点检测任务的性能，在网络中添加了注意力机制。所述活动单元相关特征提取的步骤还包括：

从全局平均池化层之前的Resnet50网络中提取出7×7×64特征图AU_features后，以每个活动单元中心点为基准为每个活动单元生成7×7×64的注意力特征图；各个AU具有不同且对称的AU中心，因此每个AU的注意力特征图都是唯一的。生成注意力特征图的步骤如下：

由于AU中心是对称的，为每个活动单元设计两个7×7矩阵，矩阵的中心为活动单元中心点；

进一步地，特征组合的步骤具体包括：

具体地，如图5所示，经过辅助任务学习和主任务学习后，得到了辅助任务的输出和AU特征。将AU特征输入全连接层得到尺寸为64的AU线性特征，然后使用全连接层操作AU线性特征得到尺寸为1的AU初步输出。为了挖掘各任务的相关性，首先，将除每个AU检测任务外的所有任务的输出合并成为任务信息，任务信息的尺寸为120。将任务信息通过全连接层和sigmoid函数提炼，提炼后的信息尺寸为64，然后将提炼后的任务信息和各个特定AU的线性特征按元素相加来获得组合特征。最后，将组合特征输入全连接层和sigmoid函数以获得AU最终输出。

进一步地，所述面部活动单元检测方法还包括在线困难样本选择和损失函数设计；

在线困难样本选择用于在训练过程中统计正确预测的活动单元数目，据此给每个样本赋予权重；对于活动单元预测正确的数量越多的样本，在下次训练过程中得到的样本权重越小，以使得网络更加注重活动单元预测正确数量较少的样本；

损失函数设计用于统计每个训练批次中每个活动单元的正样本数量，并赋予正样本数量偏少的活动单元损失函数更大的权重。

其中，在线困难样本选择包括：

计算训练过程中活动单元正确预测的个数，记为n_right，n_right∈[0,12]，将需要探索的活动单元(AU)任务的个数记为n_AU；

通过以下公式计算每个样本的样本权重：

其中s_i代表第i个样本的样本权重，s_i∈[0.6,1.4]。通过上面公式可以知道，AU预测正确的数量越多，该样本下次训练过程中得到的样本权重就越小，网络将更多注意力放在AU预测表现不够好的样本上。

进一步地，损失函数设计包括回归任务的损失函数和分类任务的损失函数；

具体地，对于活动单元检测任务：

每个样本有多个AU待检测，每个AU任务是一个典型的二分类任务，因此选择交叉熵损失函数。在自然状态下，有些AU发生的比较少，正负样本比例失衡，为了减少数据不均衡带来的影响，给每个AU损失函数赋予一个权重。

通过以下公式进行损失计算：

通过以下公式计算每个批次中各活动单元损失函数的权重：

其中i代表批次序号，p_im代表的是第i批次中第m个活动单元正样本的数量，p_im被加上1以防止最后的除数为0；以上公式使得网络给正样本偏少的那些AU的损失函数一个更大的权重。

对于标志点检测任务：

每个标志点由(x，y)坐标组成，坐标值相对较大，处于(0-224)区间，选用smoothL1损失函数进行损失计算，以便加快收敛，具体公式如下：

对于头部姿势估计任务：

头部姿势由pitch，yaw和roll角度组成，其中roll由pitch和yaw组成，只选用pitch和yaw角度来做头部姿势估计；它属于回归任务，因此选用和标志点检测一致的损失函数。

采用smooth L1损失函数进行损失计算，具体公式如下：

对于性别识别任务：

性别只有男或者女两种标签，是一个二分类问题，采用交叉熵损失函数进行损失计算，具体公式如下：

对于表情识别任务：

表情识别是一个多分类问题，采用softmax损失函数进行损失计算，具体公式如下：

其中e_i是第i个样本的表情标签，output_i为网络预测值；

整个网络结构的损失函数表示为：

Loss_total＝Loss_L+Loss_p+Loss_G+Loss_AU+Loss_E。

本发明使用了一系列策略来增强AU检测的性能，从表1可以看出各个策略的有效性。表1中各实验采用的策略详细介绍如下：

A：仅使用初始的全局最大池化层之前的Resnet50结构；

B：结合了Resnet50的卷积层和每个阶段的特征；

C：增加了辅助任务，即头部姿势估计、标志点检测、性别识别和表情识别任务；

D：将注意力机制添加到C中；

E：将特征组合模块添加到C中；

F：将注意力机制和AU和特征组合模块添加到C中(D+E)；

G：在C中添加了在线复杂样本选择机制和带权重的损失函数；

H：融合前面所有的最终网络结构。

从实验结果中可以看出，最终在BP4D数据库上的实验结果为准确率78.7％，F1得分62.2％。从表中可以看出，增添的每个策略都是很有效的。

表1各策略结果展示

综上所述，本发明具有以下优势：

(1)高低层特征连接方式：深度学习网络中学习到的低层特征包含的更多的是边缘信息，比较适合标志点检测与头部姿势估计任务，而提取到的高层特征比较抽象更适合性别识别、表情识别、AU检测任务。若仅使用最后输出的高层特征，会造成信息的丢失。因此，采用了多层级特征连接策略，在增加少数网络训练参数的基础上将网络的高低层信息进行结合，尽量保证信息的完整性。

(2)使用头部姿势估计、标志点检测、性别识别和表情识别等任务作为AU检测的辅助任务：本发明将标志点检测、头部姿势估计、性别识别和表情识别任务作为AU检测的辅助任务，设计了单个网络结构同时实现多个任务，不仅可以让辅助任务提升主要任务的性能，而且这样的训练方式省时省力，同时输出了面部的多个属性，实用性很强。

(3)标志点检测任务和AU检测任务之间的交互：在本发明中，上下半脸的裁剪以及AU中心点的选定都是根据标志点检测任务输出的标志点坐标来实现。AU检测中输入的标志点信息即为标志点任务的输出，因此标志点检测任务和AU检测任务之间存在充分的交互提升。换句话说，如果标志点检测任务输出的结果不够精确，会导致AU检测任务学习不到有效区域，因此在AU检测任务的学习调整过程中，也会对标志点检测任务的结果进行校准，只有标志点检测的性能优越，才能让AU检测的效果提升。

(4)在线复杂样本选择和带权重损失函数来减弱数据不平衡带来的影响：各AU之间正负样本比例不均衡，导致网络学习过程中会有偏差。本发明采取两个策略来减小这方面的影响，其中在线复杂样本选择机制在训练过程中统计正确预测的AU数目，据此给每个样本赋予权重，使得网络将更多注意力放在训练的不够好的样本上；带权重损失函数策略统计每个训练批次中每个AU的正样本数量，赋予正样本数量偏少的AU损失函数更大的权重。

(5)各任务之间关系的应用：将辅助任务的输出以及除该AU以外的AU的初步输出进行组合得到附加有用信息，再将附加有用信息传入全连接层和sigmoid函数进行提炼，提炼后的结果和该AU线性特征逐元素相加得到组合特征，再将组合特征输入全连接层和sigmoid函数来得到该AU的最终输出。在此过程中将辅助任务的输出直接作用于AU的输出，对该AU来说，得到的特征更具特异性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。