CN113221799B

CN113221799B - 一种多头部姿态人脸表情识别方法及其应用

Info

Publication number: CN113221799B
Application number: CN202110567612.9A
Authority: CN
Inventors: 陈靓影; 徐如意; 杨雷; 杨宗凯
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-08-16
Anticipated expiration: 2041-05-24
Also published as: CN113221799A

Abstract

本发明公开了一种多头部姿态人脸表情识别方法及其应用。该方法包括步骤：获取训练样本对，所述训练样本对中包括同一表情的正脸图片和非正脸图片；将所述训练样本对输入到预先构建的识别模型进行训练，所述识别模型包括正脸识别网络和非正脸识别网络，所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，所述非正脸识别网络包括特征提取主干网络、注意力模块和非正脸表情分类网络，所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。本发明能够消除头部姿态对表情识别的干扰，有效提高表情分类精度。

Description

一种多头部姿态人脸表情识别方法及其应用

技术领域

本发明属于表情识别技术领域，更具体地，涉及一种多头部姿态人脸表情识别方法及其应用。

背景技术

面部表情作为最重要的非语言交流手段之一，可以传达自己内心的情感。心理学研究发现，人类有能力破译各种面部表情的含义，并将面部表情归类为基本情绪之一。为了使计算机理解各种面部表情，人脸表情识别已经成为计算机视觉领域的研究热点之一。

现有的大多数深度学习方法主要集中在正脸或者近似正脸的人脸表情识别，当应用于非正脸的人脸表情识别时，现有方法的表现都会受到很大挑战。当头部姿态相较于正脸产生大范围变化时，人脸表情的类内距离也会相应增加。此外，随着头部姿态逐渐转向一侧，表情从三维空间投影到二维图像平面时，自遮挡区域增加导致更多的辨别信息丢失。这些问题导致现有的方法在应用时都存在局限性，识别精度低。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种多头部姿态人脸表情识别方法及其应用，消除头部姿态对表情识别的干扰，有效提高多头部姿态下的表情分类精度。

为实现上述目的，按照本发明的第一方面，提供了一种多头部姿态人脸表情识别方法，包括步骤：

获取训练样本对，所述训练样本对中包括同一表情的正脸图片和非正脸图片；

将所述训练样本对输入到预先构建的识别模型进行训练，所述识别模型包括正脸识别网络和非正脸识别网络，所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，所述非正脸识别网络包括特征提取主干网络、注意力模块和非正脸表情分类网络，所述注意力模块用于提取表情特征和头部姿态特征，所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出表情特征之间的表情差异损失。

优选的，所述注意力模块包括第一注意力模块和第二注意力模块，所述第一注意力模块用于提取输入非正脸图片的头部姿态特征，所述第二注意力模块用于提取输入非正脸图片的表情特征，训练时最小化所述第一注意力模块和所述第二主力模块的正交通道注意力损失。

优选的，所述分类模块包括第一分类模块和第二分类模块，所述第一分类模块用于接收所述第一注意力模块的输出，并输出头部姿态分类结果，所述第二分类模块用于接收所述第二注意力模块的输出，并输出表情分类结果，训练时，根据所述第一分类模块的预测损失、所述第二分类模块的预测损失、所述表情差异损失和所述正交通道注意力损失，计算所述识别模型的总损失。

优选的，所述第一分类模块、所述第二分类模块均包括依次连接的三个全连接层，所述正脸表情特征提取网络包括一个全连接层，所述表情差异损失是所述第二分类模块的任意一个全连接层输出的表情特征与所述正脸表情特征提取网络的全连接层输出的表情特征的差异损失。

优选的，所述注意力模块还包括全局平均池化层，所述全局平均池化层用于计算所述非正脸识别网络的特征提取主干网络的每个特征通道的平均值，并将它们连接成矢量。

优选的，所述正交通道注意力损失的计算公式为：

其中，

为所述正交通道注意力损失，A_h为所述第一注意力模块的注意力，A_e为所述第二注意力模块的注意力。

优选的，所述识别模型的总损失的计算公式为：

其中，

为所述识别模型的总损失，

为所述第一分类模块的预测损失和所述第二分类模块的预测损失之和，

为所述表情差异损失，

为正则项，λ₁，λ₂，和λ₃分别是

和

的权重参数。

按照本发明的第二方面，提供了一种多头部姿态人脸表情识别系统，包括：

样本获取模块，用于获取训练样本对，所述训练样本对中包括同一表情的正脸图片和非正脸图片；

训练模块，用于将所述训练样本对输入到预先构建的识别模型进行训练，所述识别模型包括正脸识别网络和非正脸识别网络，所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，所述非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络，所述注意力模块用于提取表情特征和头部姿态特征，所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。

按照本发明的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

按照本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法。

总体而言，本发明与现有技术相比，具有有益效果：

(1)本发明通过从同一表情的正脸图片和非正脸图片中学习头部姿态独立的特征，利于缩小两者之间的识别准确率差距；

(2)本发明还采用注意力模块，并将该模块嵌入到多任务学习分支中，有利于利用子任务之间的协同作用，在分支通道注意力模块之前学习好的共享特征，之后学习基于特征通道注意力的子任务特定特征；

(3)本发明还采用正交通道注意力损失，与传统的自注意机制相比，正交注意机制可以进一步有效地解耦头部姿态特征和人脸表情特征，大大提高了人脸表情识别任务的正确率和鲁棒性。

附图说明

图1是本发明实施例的多头部姿态人脸表情识别方法的流程图；

图2是本发明实施例的样本对示意图；

图3是本发明实施例的识别模型示意图；

图4是本发明实施例的注意力模块示意图；

图5是本发明实施例的AlexNet模型网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例的一种多头部姿态人脸表情识别方法，包括步骤：

S101，获取训练样本对，训练样本对中包括同一表情的正脸图片和非正脸图片。

进一步地，获取训练样本对的方法包括步骤：

(1)输入训练数据并且预处理，根据人脸特征点裁剪人脸区域并且做归一化；

进一步地，人脸裁剪与归一化的具体步骤为：首先通过人脸特征点来确定输入图像中可见的眼睛中心以及嘴巴中心的位置。然后通过指定输入图像和对齐图像点与点之间的对应关系来计算相似性变换T。

设

为对齐图像的水平中心，

为头部姿态角度。输入和对齐图像中的位置计算如下:

左眼和右眼中心的坐标分别由s_l.eye和s_r.eye来表示，当一只眼睛在不可见位置的时候，可见的眼睛的坐标用s_v.eye来表示，s_mouth表示嘴巴中心的坐标。在受试者只有一只眼睛可见的情况下，则使用可见的眼睛坐标s_v.eye替代

即当受试者只有一只眼睛可见的情况下，s₂＝s_v.eye。齐次变换矩阵T是通过由两点对应给出的线性方程组求解得到的。该对齐方法适用于头部姿势大范围变化下的人脸对齐。

(2)组建训练样本对。

对经过数据预处理的图像根据身份信息与头部姿态信息构建样本对。

优选地，采用同一身份同一表情的正脸图片和非正脸图片。

定义同一身份不同头部姿态的样本对为S_i和S_j，其中i表示正脸姿态的序号，j为所有头部姿态的对应序号且满足1≤j≤L，L表示头部姿态的总分类数。由(S_i,S_j)组成一对样本对，如图2所示，图2中每类表情包括角度从-90°到+90°的多张表情图片，其中角度为0°的图片为正脸表情图片，其他角度的图片为非正脸表情图片。

S102，将训练样本对输入到预先构建的识别模型进行训练，识别模型包括正脸识别网络和非正脸识别网络，正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络，注意力模块接收非正脸识别网络的特征提取主干网络的输出，并提取表情特征和头部姿态特征输出给非正脸表情分类网络，正脸识别网络和非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化非正脸表情分类网络与正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。

进一步地，注意力模块包括第一注意力模块和第二注意力模块，第一注意力模块用于提取输入非正脸图片的头部姿态特征，第二注意力模块用于提取输入非正脸图片的表情特征，训练时最小化第一注意力模块和第二主力模块的正交通道注意力损失。

进一步地，分类模块包括第一分类模块和第二分类模块，第一分类模块用于接收第一注意力模块的输出，并输出头部姿态分类结果，分类模块用于接收第二注意力模块的输出，并输出表情分类结果，识别模型训练时，根据第一分类模块的预测损失、第二分类模块的预测损失、表情差异损失和正交通道注意力损失，计算识别模型的总损失。

特别说明的是，上述“第一”“第二”仅用于区分两个注意力模块或两个分类网络，两者其他任何限定关系。

下面说明具体实现。

(1)识别模型

如图3所示，识别模型的输入为来自同一表情的一对正脸与非正脸的图片(S_i,S_j)，S_i输入到正脸识别网络，S_j输入到非正脸识别网络。正脸识别网络的前端和非正脸识别网络的前端均为特征提取主干网，采用AlexNet深度模型，包含多个卷积层和池化层，两者的特征提取主干网络共享参数，分别提取图片S_i和S_j的特征。特征提取主干网络也可以采用VGGNET、ResNet网络结构。

非正脸识别网络是一个多任务的CNN，其包括两个分支通道的注意力模块，一个用于学习表情特征，一个用于学习头部姿态特征，采用注意力模块来代替原CNN的最后一个卷积层，注意力模块可以有效提取表情特征F_e和头部姿态特征F_h，在每个分支通道的注意力模块后，均使用三个全连接层构造两个子任务分类器，分别对表情特征F_e和头部姿态特征F_h进行分类。该多任务学习分支的预测损失L_m可表述如下:

L_m＝L_e+L_h

其中L_e和L_h分别表示表情识别和头部姿态估计的交叉熵损失。交叉熵损失可以表示如下:

其中<·,·>代表内积的运算，Y_t是真实值的独热码标签，而

是多任务学习CNN预测的概率分布。正脸S_i的分支是原始的CNN网络，它使用AlexNet的主干网络和全连接层来提取面部表情特征。S_i分支所接的全连接层的输出为G_e，由于从正面人脸图像中提取的特征没有丢失信息和更好的辨别能力，通过学习正脸分支的表情特征，有助于提高多头部姿态人脸表情的识别精度，所以要使多任务分支中表情子任务的第一个全连通层的输出G′_e尽可能地类似于G_e。为此，最小化特征差异的L₂范数，以监督两个分支中的参数训练：

L_diff＝||G_e-G′_e||²

其中，||·||代表L₂范数。为了减少由训练数据的尺度变化引起的影响，在计算差异之前，G_e和G′_e要做L₂范数归一化。

图4为注意力模块的网络结构示意图，即图3识别模型中MTL-OCA的具体结构。input代表输入，Conv代表卷积层，Pool代表池化层，AvgPool代表平均池化层，Softmax代表Softmax激活函数，Scale代表Scale层，Fc代表全连接层，每个缩写之后的序号代表对应层的顺序或者通道。

图5为图3识别模型中AlexNet的具体结构。input表示输入，Conv代表卷积层，Maxpool代表最大池化层，Fc代表全连接层，Softmax代表经过Softmax函数输出，每个缩写之后的序号代表对应层的顺序或者通道。

(2)注意力模块

进一步地，在识别模型中还通过利用表情识别和头部姿态估计之间的协同作用，学习较低卷积层中的共享特征对性能改善具有积极的影响。然而，在更深层次上学习共享特性不利于提高每个子任务的性能。为了学习深层子任务特定的特征，提出了一种分支通道注意力模块来代替最后一层卷积层。

将参数共享的特征层

作为分支通道注意力模块输入，其中W，H和C分别表示参数的宽、高和通道数。分支通道注意力模块包含一个全局平均池化层和两个分支，每个分支由两个全连接层组成。全局平均池化层可以计算F_share中每个特征通道的平均值，并将它们连接成矢量

将这两个完全连接的层的参数表示为

其中r是缩减率；t∈{e，h}代表表情识别子任务或头部姿态估计子任务。然后，具有ReLU激活功能的第一完全连接层被用于将特征的维数减少到

随后，具有SoftMax激活功能的第二完全连接层被用于将特征的维数恢复到1×1×C。从形式上来说，分支的通道注意力可以表述为：

其中，δ(·)表示ReLU激活函数，σ(·)表示SoftMax激活函数。与Sigmoid激活函数相比，SoftMax激活函数将注意力得分转化为概率分布，因此注意力权重的模值不会太大。

注意力模块包含两个输出，即F_e和F_h.最终输出可表述为：

其中

是F_t的第i个通道，

是F_share的第i个通道，

则表示第i个通道的权重。

(3)正交通道注意力损失

尽管分支通道注意力模块很好地学习子任务的特征，但它还是不能解耦合两个子任务之间的依赖关系。为了解决这个问题，两个子任务的通道注意力权重被约束为正交的，其可以被公式化为：

其中|·|代表向量的模数。通过SoftMax激活，注意力权重被归一化。因此，正交信道注意力损失等于两个子任务单独注意力权重的内积。

通过最小化

如果表情注意力通道的权重

被赋为非零值，则相应的头部姿态注意力通道的权重

应该是零或接近零的值，反之亦然。因此，两个子任务将从共享特征中选择互斥的特征通道来分别表示面部表情和头部姿态。

(4)识别模型的优化

为了获得我们的多头部姿态人脸表情识别模型，通过优化模型的总损失来执行训练过程，模型的总损失可以表示为：

其中，右边第一项是正则项；λ₁，λ₂，和λ₃是平衡

和

的权重参数，根据经验，在一个实施例中，λ₁，λ₂，和λ₃被分别设置为1、1和10。训练后，将测试数据输入到识别模型中，进行面部表情预测。

在一个实施例中，采用卡耐基梅隆大学创建的Multi-Pie表情库，包含超过750，000张六种面部表情(中性、尖叫、微笑、惊讶、斜视和厌恶)的图像，这些图像是分四次记录，在15个视点和20种照明条件下，采集自337个不同的受试者。本发明从337个人中选择选取100个人，每人有6种表情，13种头部姿态，共计7800张人脸表情图像作为输入，采用五折交叉验证，将样本平均分成5份，每次选取4份共6240张人脸表情图像训练，剩余1份共1560张人脸表情图像作为测试集，重复实验5次计算平均识别精度。

应用上述步骤得到的表情识别模型对测试样本进行人脸表情分类，在Multi-Pie数据集上的识别精度为88.41％，优于现有其他深度学习方法的识别结果，表明本发明提供方法能有效的抑制头部姿态变化对人脸表情识别带来的干扰。

本发明实施例的一种多头部姿态人脸表情识别系统，包括样本获取模块和训练模块。

样本获取模块，用于获取训练样本对，训练样本对中包括同一表情的正脸图片和非正脸图片。

训练模块，将训练样本对输入到预先构建的识别模型进行训练，识别模型包括正脸识别网络和非正脸识别网络，正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络，注意力模块用于提取表情特征和头部姿态特征，正脸识别网络和非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化非正脸表情分类网络与正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。

系统的实现原理、技术效果与上述方法类似，此处不再赘述。

本实施例还提供了一种电子设备，其包括至少一个处理器、以及至少一个存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行上述实施例多头部姿态人脸表情识别方法的步骤，具体步骤参见上述实施例，此处不再赘述；本实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一多头部姿态人脸表情识别方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多头部姿态人脸表情识别方法，其特征在于，包括步骤：

将所述训练样本对输入到预先构建的识别模型进行训练，所述识别模型包括正脸识别网络和非正脸识别网络，所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，所述非正脸识别网络包括特征提取主干网络、注意力模块和非正脸表情分类网络，所述注意力模块用于提取表情特征和头部姿态特征，所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出表情特征之间的表情差异损失；

所述注意力模块包括第一注意力模块和第二注意力模块，所述第一注意力模块用于提取输入非正脸图片的头部姿态特征，所述第二注意力模块用于提取输入非正脸图片的表情特征，训练时最小化所述第一注意力模块和所述第二注意力模块的正交通道注意力损失；

所述分类网络包括第一分类模块和第二分类模块，所述第一分类模块用于接收所述第一注意力模块的输出，并输出头部姿态分类结果，所述第二分类模块用于接收所述第二注意力模块的输出，并输出表情分类结果，训练时，根据所述第一分类模块的预测损失、所述第二分类模块的预测损失、所述表情差异损失和所述正交通道注意力损失，计算所述识别模型的总损失。

2.如权利要求1所述的一种多头部姿态人脸表情识别方法，其特征在于，所述第一分类模块、所述第二分类模块均包括依次连接的三个全连接层，所述正脸表情特征提取网络包括一个全连接层，所述表情差异损失是所述第二分类模块的任意一个全连接层输出的表情特征与所述正脸表情特征提取网络的全连接层输出的表情特征的差异损失。

3.如权利要求1所述的一种多头部姿态人脸表情识别方法，其特征在于，所述注意力模块还包括全局平均池化层，所述全局平均池化层用于计算所述非正脸识别网络的特征提取主干网络的每个特征通道的平均值，并将它们连接成矢量。

4.如权利要求1所述的一种多头部姿态人脸表情识别方法，其特征在于，所述正交通道注意力损失的计算公式为：

其中，

5.如权利要求4所述的一种多头部姿态人脸表情识别方法，其特征在于，所述识别模型的总损失的计算公式为：

其中，

为所述识别模型的总损失，

为所述表情差异损失，

为正则项，λ₁,λ₂,和λ₃分别是

和

的权重参数。

6.一种多头部姿态人脸表情识别系统，其特征在于，包括：

训练模块，用于将所述训练样本对输入到预先构建的识别模型进行训练，所述识别模型包括正脸识别网络和非正脸识别网络，所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络，所述非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络，所述注意力模块用于提取表情特征和头部姿态特征，所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享，训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出的表情特征之间的表情差异损失；

7.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。