CN114882578A

CN114882578A - 一种多域对抗学习的小样本条件下复合表情识别方法

Info

Publication number: CN114882578A
Application number: CN202210812089.6A
Authority: CN
Inventors: 喻莉; 何双江; 赵慧娟
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-08-09
Anticipated expiration: 2042-07-12
Also published as: CN114882578B; US11837021B1

Abstract

本发明公开了多域对抗学习的小样本条件下复合表情识别方法，属于计算机视觉人脸表情识别领域。为了在小样本条件下提取多样性和复杂性的复合表情特征，融合多个小样本数据集，并划分表情子域，利用多域对抗学习提高识别复合表情的性能。基于生成对抗网络框架，将人脸域、轮廓无关的复合表情域融合在生成网络中以增强多样性和复杂性，设计了两个鉴别器引导生成器。人脸鉴别器使用人脸域，引导并鉴别生成器生成表情无关的人脸身份属性，让生成器具有身份多样性；复合表情融合鉴别器分别将基础表情域和轮廓相关的复合表情域融合在一起，引导并鉴别生成器生成的表情具有复杂性。从而获得兼具多样性和复杂性的高性能鉴别器，提高复合表情的识别性能。

Description

一种多域对抗学习的小样本条件下复合表情识别方法

技术领域

本发明属于计算机视觉人脸表情识别技术领域，更具体地，涉及一种多域对抗学习的小样本条件下复合表情识别方法。

背景技术

自然条件下人类的表情往往具有多样性和复杂性的特点。目前大多数表情数据集都以六种基础表情分类为主，很难细腻的刻画人类的真实情感状态。而具有高精度标签的复合表情数据集样本很少，无法在现有深度学习方法中获得良好的性能。

复合表情识别目前可采用通用卷积神经网络方法，如：MobileNet、VGG16、Inception-ResNet等通用网络直接使用。虽然可以获得一定效果，但受两大制约。首先，需要大量的训练样本，否则模型的通用性较差。其次，有方法使用15个ResNet分别检测15种复合表情，6个ResNet分别检测6种基础表情，这样会导致网络参数过大效率低下的问题。

也可采用MSAU-Net，MSAU-Net是一种二阶段的细粒度面部表情识别方法。采用二阶段多标签分类，第一阶段使用DRML基于粗粒度AU检测识别出16个AU特征图，第二阶段将16个AU特征图精细化输出，最后通过多标签分类实现AU特征到多标签组合，根据多个AU的标签组合识别复合表情。训练和推理在一个二阶段网络中进行，因此导致其推理识别阶段的参数规模过大。

因此，需要研究一种适用于小样本条件，且对复合表情识别性能更强的网络结构和识别方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种多域对抗学习的小样本条件下复合表情识别方法，其目的在于实现适用于小样本、网络参数规模小且识别精度高的复合表情识别。

为实现上述目的，本发明提供了一种多域对抗学习的小样本条件下复合表情识别方法，包括：

S1.收集复合表情的小样本数据集；

S2.针对复合表情的小样本数据集，划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域；

其中，人脸子域指的是与表情无关的人脸身份；轮廓无关的复合表情子域指的是人脸复合表情中的不包含人脸轮廓的能够表征复合表情的五官部分；轮廓相关的复合表情子域指的包括人脸轮廓部分和复合表情五官部分；基础表情子域，指的是六种基础表情，包括高兴、悲伤、惊讶、生气、愤怒和厌恶；

S3.构建生成器、复合表情鉴别器和人脸身份鉴别器；

生成器，用于融合人脸子域和轮廓无关的复合表情子域，生成兼具身份多样性和复合表情复杂性的合成图像；

复合表情融合鉴别器，用于混合轮廓相关的复合表情子域和基础表情子域，计算交叉过渡空间，引导并判别生成器生成的复合表情图像具有表情复杂性；

人脸鉴别器，用于判断生成器输出的复合表情图像是否符合人脸子域中的人脸特征分布，引导并判别生成器生成的复合表情具有身份多样性；

S4.利用人脸子域、轮廓无关的复合表情子域训练生成器；利用人脸子域训练人脸鉴别器；利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器；

S5.将包括人脸的图片输入训练好的复合表情融合鉴别器，输出多种复合表情的分类向量，选择其中softmax值最高的分量向量，得到符合表情分类结果。

进一步地，生成器包括人脸编码器、轮廓无关的复合表情编码器、噪声混合模块、嵌入配对混合域编码模块和混合解码模块；

人脸编码器，用于编码与表情无关的人脸身份信息；

复合表情编码器，用于编码轮廓无关的复合表情特征；

噪声混合模块，用于将人脸特征编码

、轮廓无关的复合表情特征编码

与随机噪声

混合；

嵌入配对混合域编码模块，将人脸特征编码

、轮廓无关的复合表情特征编码

和随机噪声

嵌入融合构成配对混合域的特征编码

；

混合解码模块，用于对配对混合域的特征编码

解码生成图像

。

进一步地，生成器的处理过程为：

和

是控制参数，分别用于控制嵌入编码中的特征

和

强度，

，con表示channel-wise的连接操作，Emb表示嵌入编码。

进一步地，复合表情融合鉴别器包括复合表情识别模块、基础表情识别模块、复合表情全连接层、基础表情全连接层和交叉计算模块；

复合表情识别模块，用于提取轮廓相关的复合表情特征；

基础表情识别模块，用于提取基础表情特征；

复合表情全连接层，用于对轮廓相关的复合表情特征做全连接；

基础表情全连接层，用于对基础表情特征做全连接；

交叉计算模块，用于计算全连接后的复合表情特征向量和基础表情特征向量的交集，根据交集选择其中softmax值最高的分量作为分类结果。

进一步地，复合表情识别模块采用如下公式进行谱归一化；

表示基础表情识别模块的参数，

表示复合表情识别模块，

表示权重矩阵的标准谱范数。

进一步地，轮廓无关的复合表情子域利用AU先验知识、人脸地标68以及位于前额中心区域地标进行划分。

进一步地，生成器损失函数为：

表示人脸身份分类和复合表情分类损失，

表示双交集域损失函数，

和

是控制参数，

表示

服从

的分布下的信息熵,

表示人脸标签,

表示生成器生成假人脸图像，

复合表情输入图像，

表示复合表情输入图像的标签，

表示复合表情融合鉴别器，

表示复合表情识别模块，

表示基础表情识别模块。

进一步地，人脸鉴别器的损失函数

为：

表示人脸鉴别器，

表示生成图像的人脸和复合表情标签。

进一步地，复合表情融合鉴别器的损失函数

为：

表示复合表情的分布。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

本发明基于已知的AU先验知识，认为复合表情存在于基础表情的迁移过程；因此，复合表情是存在于两个基础表情之间的交叉空间中的；并且，AU的局部特征是能够和轮廓整体特征编码融合的，产生多样性的复合表情，实现对小样本数据集的数据增强；具体地，本发明为了获得身份多样性和表情复杂性的模型，在生成器中使用了人脸域和轮廓无关的复合表情域，分别提取特征并融合生成兼具多样性和复杂性的图像。

同时在复合表情的鉴别上，通过两个鉴别器分别鉴别身份和表情，从而减少两组特征的相互影响。本发明认为基础表情和复合表情的交集能够提高复合表情的鉴别能力，因此，采用了融合的方式，将轮廓相关的复合表情和基础表情特征进行融合并计算交叉空间，从而获得复合表情识别性能更强的鉴别器；具体地，在表情鉴别器中使用了复合表情识别模块提取复合表情子域的特征，基础表情识别模块提取基础表情子域的特征；分别对两组特征做全连接，通过将两组全连接结果构造并计算交集空间，从而获得复合表情的识别结果；本发明能够在小样本数据集上获得泛化性强的小尺寸识别模型。

附图说明

图1是训练网络框架示意图。

图2是轮廓无关的复合表情特征AU区域定义。

图3是推理识别流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种多域对抗学习的小样本条件下复合表情识别方法，包括以下步骤：

S1.收集复合表情的小样本数据集；

具体地，本发明使用的小样本复合表情数据集是为了解人类复合情绪的面部表情反应而创建的，具有22个分类，其中6个为基础表情（高兴、愤怒、悲伤、厌恶、惊讶、害怕），1个平静表情，15个复合表情。

数据集共有230个样本，22个表情类别，6670张表情图片，本发明根据多域学习的需求对其划分为四个子集。其中，1号子集是平静表情共计230个样本，被本发明用于构造人脸域。2号子集包括6个基础表情分类共计1610张图片，被文本定义为基础表情域。其余15个复合表情共计5060张图片，被文本定义为复合表情域。15个复合表情被复制为两个副本，一个副本不做预处理直接作为轮廓相关的复合表情子域，另一个副本划分并构造了轮廓无关的复合表情子域；

后续配对的目的是划分轮廓无关的AU（action unit）区域局部信息便于和包含轮廓的面部全局区域进行融合，从而扩大复合表情的数据多样性。为了生成多样性和复杂性的假脸图像，本发明预处理使用了AU区域的硬编码。使用硬编码会随机丢失一些局部信息，但由于可以在训练阶段将来自基础表情域和轮廓相关的复合表情域的交叉信息进行补充，防止了因为小样本下的单一特征过拟合。

因此，本发明预处理使用了基于AU先验知识的区域划分的硬编码方式。首先，本发明使用传统的人脸地标68定位人脸区域。然后，利用 AU 先验知识来划分 5 个 AU 区域，见图1所示，并在表1中进行了AU区域的说明。为了获得由额叶和皱眉肌肉块产生的AU 变化，本发明还定义了位于前额中心区域的第 69 号地标。 AU 区域 1 和 2 的定位和获取将取决于第 69 号地标。由于个体差异，个体的复合表情并不会都具有完全一致的AU编码组合，因此个体的AU区域会出现随机丢失局部信息的情况，这也是本发明产生多样性的前提因素，

本发明选择的宏表情数据集，主要涵盖6个基础表情分类，由123个样本组成，总共包含1236个表情序列，使用表情峰值帧作为基础表情，则可以使用1236张图像。

两个数据集中共有 353 个人脸身份信息作为人脸域，作为网络的配对输入人脸，其中所包含 2846 个基础表情符号都用作训练集和测试集。两个小样本数据集合计353个人脸身份，2846个基础表情，5060个复合表情，5060个轮廓无关的复合表情，总计7906张图片。

相比其他数十万级的大型表情数据集，本发明所选数据集样本空间极小，便于开展小样本条件下的多域对抗实验。本发明小样本处理特征为以上数据数值边界条件。

S3.构建生成器、复合表情鉴别器和人脸身份鉴别器；

不同于其他生成对抗网络，本发明在生成器中融合人脸子域和轮廓无关的复合表情子域生成身份多样性的复合表情图像；构造人脸鉴别器和复合表情鉴别器，并在复合表情鉴别器混合了轮廓相关的表情子域和基础表情子域计算交叉过渡空间，从而指导生成器生成的复合表情具有复杂性。最终，获得的复合表情鉴别器兼具多样性和复杂性的稳定鉴别能力。

网络的框架如图 2所示，其中，图2中的符号如表2所示;

生成器：生成器的目标是生成兼具身份多样性和复合表情复杂性的合成图像。生成器根据两组输入分别编码轮廓无关的复合表情

和人脸

。轮廓无关的复合表情特征编码模块

负责编码复合表情，人脸特征编码模块

编码与表情无关的人脸身份信息，例如：轮廓和纹理等。嵌入配对混合域编码模块将人脸特征编码

，轮廓无关的复合表情特征编码

和随机噪声

嵌入融合构成配对混合域的特征编码

。

公式（1）定义了生成器的整个计算过程，通过控制人脸和表情特征融入噪声，在Channel-wise上执行的连接操作，再被嵌入编码形成生成特征。然后，对生成特征进行解码还原，最后生成了包含了人脸特征和复合表情特征的合成图像，

通过混合解码模块

解码嵌入配对混合域的特征编码生成图像

，con 表示矩阵加法，Emb表示嵌入编码。其中

和

是控制参数，用于控制嵌入编码中的特征强度

和

。即

和

分别用于控制复合表情的假人脸的多样效果，如果

则生成的特征趋于

的人脸身份特征，反之则倾向于

复合表情特征。由于

需要控制了轮廓相关信息，并且为了通过鉴别器

确认身份一致性，

至少大于0.8；

更强调五官局部复合表情特征，用于控制生成多样性和复杂性，不建议低于1。因此，式（1）满足

且

的边界约束条件。

鉴别器：本发明方法与基础的生成对抗网络框架有所不同，本发明方法包含两个鉴别器，其中人脸鉴别器

负责鉴别与表情无关的身份特征，以帮助生成器生成多样性的身份信息；复合表情融合鉴别器

负责鉴别与表情相关的特征，其是将轮廓相关的复合表情特征

的特征与基础表情特征

融合到鉴别器中计算表情的交集特征，以引导生成器生成多样性和复杂性的复合表情。

的鉴别效果，也是本发明的最终目标，推理验证阶段主要使用

的识别能力，其性能决定了小样本条件下训练的复合表情识别效果。

复合表情融合鉴别器

的结果矩阵使用

输出的15个复合表情的分类结果进行初始化。然后，将6个基础表情填充到相应的位置。复合表情融合鉴别器合并两个鉴别模块，产生最终的复合表达分类结果，可表述为：

其中，i,j分别表示i和j的表情分类位置，即表情的两两组合。

表示复合表情融合鉴别器的分类结果，

表示复合表情识别模块的分类结果，

表示基础表情的分类结果，其中 init 表示复合表情矩阵的初始化值。其中θ和μ是可调节的参数，控制复合表情和基础分类对融合结果产生影响。式（2）中目标是在融合矩阵中计算最可能的表情交集，交集中既包含了复合表情本身的结果，也包含了基础表情的影响。由于基础表情不可能出现互斥的组合关系（例如：同时在脸上出现高兴和悲伤两组动作），因此也避免了不可能的表情交集组合。

生成器决定了样本的多样性，这是提高复合表达识别性能的关键因素。稳定的生成器将有助于稳定地生成样本，避免因样本较少而导致的多样性损失。本发明采用谱范数（Spectral Norm，SN）约束鉴别器，它控制生成器的边界以降低不稳定性。由于鉴别器融合了两个子鉴别器

和

，鉴别器的训练样本来自轮廓相关的复合表情域和基础表情域。因此，存在两组独立的网络。通常而言，标准的SN使用幂次迭代来估计网络每一层的激活矩阵的阈值范数，然后将网络的权重矩阵除以谱范数得到一个边界约束，近似约束为 Lipschitz常数，从而规避模块级别的不稳定性。

如果都是用标准普归一化，根据实验发现

比

更快地接近 Lipschitz 常数。并且实验证明，使用

的SN 范数作为标准谱归一化的乘数，有助于平衡两组参数的归一化速度，由式（3）定义。具体来说，本发明使用以下更新规则进行谱归一化，其中

表示权重矩阵的标准谱范数：

其中，

表示基础表情识别模块的参数，

表示复合表情识别模块，

和

有各自独立的参数和全连接（Fully Connected，FC）层，而SN主要控制FC层和上一层的参数，所以它们使用各自网络范围内的独立SN分别控制。

训练损失；训练鉴别器的总体目标是区分复合表情和人脸，同时通过一致性约束验证复合表情和人脸的特征是否正确分离。复合表情融合鉴别器

处理复合表情识别任务，其中复合表情共有15类，即

，

。人脸鉴别器处理人脸识别任务，

，

表示

个人脸和1个非集合人脸的类任务。人脸鉴别器的损失函数

考虑了真实人脸和假的人脸的联合情况。复合表情融合鉴别器的损失函数

则包含了复合表情鉴别、基础表情鉴别和两者的融合鉴别。可以定义为如下公式：

表示

服从

的分布下的信息熵，

表示人脸标签，

表示

服从

的分布下的信息熵，

表示生成图像的人脸和复合表情标签，

表示

服从

的分布下的信息熵，

表示复合表情输入图像，

表示复合表情输入图像的标签，

表示复合表情的分布，

表示

服从

的分布下的信息熵，

表示

服从

的分布下的信息熵，

表示

服从

的分布下的信息熵，

通过人脸域的分布指导生成器生成多样性的身份。

的训练主要引导生成器生成假人脸图像

，由于

从

获得真实标签，因此可以直接被鉴别。由于

包含

和

，因此

的训练是通过复合表情的轮廓相关域进行的，其中包含 15 个类，而

的训练是通过基础表情域进行训练的。虽然，基础表情域只包含6个基本标签但是可以通过式 (2) 可以计算出15个分类。因此，保持了与

的训练结果的尺寸一致。在

中包含了复合表情、基础表情和生成假表情的鉴别损失。式（4）用于

的训练，式（5）用于

的训练。

生成器的目标是为了欺骗两个鉴别器产生多样性和复杂性的结果。因此，需要尽可能多地提取与面部特征和轮廓无关的复合表情特征。它需要分类损失，分类由人脸身份分类和复合表情分类组成，定义见式（6）。损失函数公式定义如下：

（6）

其中

和

是控制参数，用于控制生成方向是倾向于面对特征还是倾向于复合表情特征，因为复合表情特征是硬编码的局部信息，所以鉴别器需要给予更多的支持，因为

还包含很多域的基础表情信息。因此，本发明推荐

。

由于

使用复合表情轮廓相关域和基础表情域，但生成器是使用面部域和复合表情轮廓无关域的配对生成的，因此，两组域之间存在一定的差异，本发明的目标是找到两组域的交集域作为训练目标，使用Wasserstein 距离作为生成对抗的交叉熵。为此，针对融合域的特点改进了 Wasserstein 距离，并设计了一个双交集域损失函数来帮助生成器达到其目标，如下所示：

表示

，

的样本分布，也就是样本中复合表情和基础表情的分布；

表示生成图像

的分布；

联合式（6）和式（7），可以定义为生成器的损失函数如下：

（8）

通过式（8），能够在生成器训练过程更新参数；

训练网络配置；网络的默认超参数：

,

,

,

,

,

。

本发明在推理的时候仅仅使用

鉴别器，模型大约2930万个参数，其优势在于推理时的网络参数复杂度小，同时复合表情的识别精度高。在完成网络训练后，获得

鉴别器模型后将用于推理识别流程见图3。输出的分类结果为softmax值最大的对应向量编号，向量编号转化为复合表情标签，通过分类结果与表情映射关系表进行映射，见表3，

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。