CN114582004A

CN114582004A - 人脸表情识别方法、系统、设备及存储介质

Info

Publication number: CN114582004A
Application number: CN202210459722.8A
Authority: CN
Inventors: 陈恩红; 徐童; 金日进; 赵思蕊
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-06-03

Abstract

本发明公开了一种人脸表情识别方法、系统、设备及存储介质，通过引入Transformer中的多头自注意力结构，能够有效解决人脸表情高的类间相似度的问题；通过引入人脸运动单元信息，能够有效解决人脸表情大的类内差异的问题，结合两者可提升人脸表情的识别准确率。

Description

人脸表情识别方法、系统、设备及存储介质

技术领域

本发明涉及人脸表情识别技术领域，尤其涉及一种人脸表情识别方法、系统、设备及存储介质。

背景技术

人脸表情是表达内心情感的最有影响力以及最直接的方式之一，是人际交流中必不可少的信息渠道，在社交机器人、安全驾驶和教育等领域都具有广泛的应用。自动人脸表情识别技术是使计算机能够理解人脸图像所表达的情感信息，通常是从图像中识别出人的情绪并分类到基于视觉信息的情感类别当中，比如愤怒、惊讶和高兴等。按照提取特征的不同，人脸表情识别方法可以分为传统手工特征方法和深度学习方法。

在传统手工特征方法中，通常是利用几何特征，获取与表情表达相关的关键面部组成部分，比如眼镜、鼻子和嘴巴等的形状和位置；或者表观特征，如LBP特征（局部二值模式特征），HOG特征（方向梯度直方图特征）等，然后利用分类器，例如SVM（支持向量机）等对其进行分类识别。但这类方法的缺点是手工特征的设计需要花费大量时间和精力，而且极依赖专家知识。

相比于传统手工特征方法，深度学习方法具有强大的学习能力和判别能力，可以学习到更深层次的表情特征。目前研究者们已经提出了各种基于卷积神经网络的人脸表情识别模型，在识别准确率上取得了一定的突破。但从面部表情方法实际使用精度和学术上非受控环境人脸表情识别精度来看，仍存在一定的不足，主要是受到表情的大的类内差异、高的类间相似度和自然场景中的遮挡和光照等因素影响。目前针对遮挡和光照等问题的工作较多，但针对人脸表情大的类内差异和高的类间相似度问题的研究较少，因此迫切需要提出针对这种人脸表情不确定性问题的研究方法，以提升表情识别的准确率。

发明内容

本发明的目的是提供一种人脸表情识别方法、系统、设备及存储介质，可以解决人脸表情的大的类内差异和高的类间相似度的问题，有效提升表情识别的准确率。

本发明的目的是通过以下技术方案实现的：

一种人脸表情识别方法，包括：

对输入的人脸表情图像中多个局部区域进行特征提取，获得包含所有局部区域特征的局部表情特征；

利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征；

对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合，获得融合特征；

利用所述融合特征进行表情识别。

一种人脸表情识别系统，包括：

局部特征提取模块，用于对输入的人脸表情图像中多个局部区域进行特征提取，获得包含所有局部区域特征的局部表情特征；

全局关系建模模块，其包含多层Transformer编码器，用于对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征；

人脸运动单元融合模块，用于对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合，获得融合特征；

分类识别模块，用于利用所述融合特征进行表情识别。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过引入Transformer中的多头自注意力结构，能够有效解决人脸表情高的类间相似度的问题；通过引入人脸运动单元信息，能够有效解决人脸表情大的类内差异的问题，结合两者可提升人脸表情的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种人脸表情识别方法的流程图；

图2为本发明实施例提供的一种人脸表情识别方法的模型示意图；

图3为本发明实施例提供的一种人脸表情识别系统的示意图；

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种人脸表情识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种人脸表情识别方法，用于解决现有人脸表情识别技术所无法解决的大的类内差异和高的类间相似度的问题，图1展示了本发明的主要流程，其主要包括如下步骤：

步骤1、对输入的人脸表情图像中多个局部区域进行特征提取，获得包含所有局部区域特征的局部表情特征。

本发明实施例中，可以通过卷积神经网络对局部区域进行特征提取，提取出所有局部区域的特征，并综合为局部表情特征。

本发明实施例中，所述的局部区域是指整个人脸表情图像中的一部分区域，局部区域可以包括但不限于包括：眼睛区域，鼻子区域，嘴巴区域等。

步骤2、利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征。

本领域技术人员可以理解，长程依赖（Long-Term Dependencies）为本领域专用术语，在本发明实施例中，长程依赖的建模主要用于获取不同局部区域特征之间（例如，眼睛区域特征与鼻子区域特征之间、鼻子区域特征与嘴巴区域特征之间等）存在的某种关联。

本发明实施例中，首先对步骤1获得的局部表情特征进行数据加工，再利用包含多层Transformer编码器的全局关系建模模块对局部表情特征之间的长程依赖进行捕捉，通过多层Transformer编码器中的多头自注意力结构，来有效解决人脸表情高的类间相似度的问题。

步骤3、对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合，获得融合特征。

本发明实施例中，引入人脸运动单元信息辅助人脸表情识别，以解决人脸表情大的类内差异的问题。

步骤4、利用所述融合特征进行表情识别。

本发明实施例中，通过对所述融合表情进行分类，完成表情识别。表情分类所涉及的分类模型（分类识别模块）可采用本领域已有的分类模型，故不做赘述。

为了便于理解，下面针对上述步骤1~步骤3的优选实施方式做详细的介绍。

图2展示了实现上述步骤1~步骤3的模型示意图，左侧LFE（Local FeatureExtraction）表示局部特征提取模块，用于执行上述步骤1；中间部分的GRM（GlobalRelationship Modeling）表示全局关系建模模块，用于执行上述步骤2；右侧的AFM（AUFusion Module）表示AU融合模块，用于执行上述步骤3，其中的AU（Action Unit）表示人脸运动单元。具体介绍如下：

一、局部表情特征提取模块。

本发明实施例中，局部表情特征提取模块的输入为人脸表情图像，输出为局部表情特征，即图2中的X _local，局部表情特征X _local左侧部分的每一个矩形框都可以理解为一个局部区域特征，也就是说，局部表情特征X _local包含所有局部区域特征。

图2展示了以卷积神经网络（CNN）作为局部表情特征提取模块骨干网络（backbone）的示例，其中，CNN可以使用具有26层卷积网络的ResNet网络。

二、全局关系建模模块。

为了解决人脸表情高的类间相似度的问题，本发明实施例引入多层Transformer编码器对局部表情特征之间的长程依赖进行捕捉。

如图2所示，通过局部表情特征提取模块获得局部表情特征后，需要进行数据加工，主要包括：将所述局部表情特征进行维度变换，再变换为序列形式，获得局部表情特征序列。图2展示了维度变换的示例，即采用1×1的卷积操作改变局部表情特征的维度，获得维度变换后的特征X _proj，之后，通过reshape函数获得局部表情特征序列。

所述局部表情特征序列将作为全局关系建模模块的输入，进行长程依赖建模；主要包括两个阶段：

第一个阶段，在所述全局关系建模模块入口处，为所述局部表情特征序列的开头位置添加类别特征，并进行位置表征，获得初始特征序列X _embed，表示为：

其中，

表示局部表情特征序列，

表示局部表情特征序列中的第i个特征向量，hw表示特征向量的总数，局部表情特征为特征图，此处的h与w分别为特征图的高度与宽度；x _class表示类别特征，X _pos表示位置表征（position Embeddings）。

本发明实施例中，添加在局部表情特征序列前端的类别特征（class token）用于后续的分类，初始阶段可以是全0或者随机化的一个数组；位置表征用于对整个局部表情特征序列进行位置编码，实际操作与类别特征类似，初始阶段也可以是随机化的一个数组。此处所述的初始阶段是指训练之前的阶段，本发明提供的三个模块会通过训练进行参数优化，并更新类别特征与位置表征；考虑到训练时可以采用常规的损失函数，训练过程也可参照现有方式实现，故不做赘述。

第二个阶段，将所述初始特征序列作为多层Transformer编码器的输入进行长程依赖的建模，获得表情特征X _e。

如图2所示，所述多层Transformer编码器的层数设为N，其数值可以由用户根据实际情况或者经验自行设定。多层Transformer编码器中的每一层均包括：一个多头自注意力模块（Multi-Head Self Attention）与多层感知机模块（MLP）。多头自注意力模块前端设有第一层标准化单元，多层感知机模块的前端设有第二层标准化单元，两个层标准化单元均表示为Norm；多头自注意力模块的后端采用残差连接将所述第一层标准化单元的输入与自身的输出相加，作为多头自注意力模块最终输出结果，并输入至所述第二层标准化单元；同样的，多层感知机模块的后端采用残差连接将所述第二层标准化单元的输入与自身的输出相加，作为多层感知机模块的最终输出结果。

多层Transformer编码器中的每一层的处理流程完全相同，以第l层为例，l=1,…,N， N为整数，处理表示为：

z _l’=MHSA(LN ₁(z _l-1))+z _l-1

z _l=MLP(LN ₂(z _l’))+z _l’

其中，LN ₁(.)与LN ₂(.)分别表示第一层标准化单元与第二层标准化单元执行层标准化操作后的输出，MHSA(.)表示多头自注意力模块的输出，z _l’表示第l层中多头自注意力模块的最终输出结果；MLP(.)表示多层感知机模块的输出，z _l表示第l层中多层感知机模块的最终输出结果，当l=1时，z _l-1表示所述初始特征序列。

下面针对多头自注意力模块与多层感知机模块的内部计算过程做详细的介绍。

1、多头自注意力模块的内部计算过程。

多头自注意力模块包含了多个单头自注意力模块，本发明设置单头自注意力模块的数目为H，H为正整数，具体数值可以由用户根据实际情况或者经验自行设定。

每一个多个单头自注意力模块各自计算单头注意力，计算过程包括：

对输入信息X ₁通过不同的线性变换获得查询向量Q、键向量K与值向量V，表示为：

Q=X ₁W^Q，K=X ₁W^K，V=X ₁W^V

其中，W^Q、W^K、W^V表示三种线性变换的权重参数，不同单头注意力模块的以上三种线性变换的权重参数都是不同的，X ₁表示多头自注意力模块的输入信息，也即多头自注意力模块前端的第一层标准化单元的输出LN ₁(.)。

根据三个向量计算单头注意力SA，表示为：

其中，T为转置符号，d _k表示键向量K的维度中的参数。键向量K维度为一个数组类型，表示为[S, d _k]，S为局部表情特征序列的长度+1（即hw+1），d _k=embed_dim / H，embed_dim为设定值，举例来说，在实验中设置embed_dim =384。

之后，将H个单头注意力堆叠，获得多头自注意力模块的输出，表示为：

MHSA(X ₁)=Concat(SA ₁,SA ₂,…,SA _H)W ^O

其中，SA表示单头自注意力模块计算的单头注意力，数字1,2,…, H均表示多头注意力模块的序号，W ^O表示多头自注意力模块的权重参数。

2、多层感知机模块的内部计算过程。

本发明实施例中，所述多层感知机模块包括两个全连接层，通过两个全连接层对输入信息X ₂进行特征映射，表示为：

MLP(X ₂)=GELU(W₁ X ₂+b₁)W₂+b₂

其中，W₁与b₁表示第一个全连接层的权重与偏置参数，W₂与b₂表示第二个全连接层的权重与偏置参数；GELU(.)为非线性激活函数，输入信息X ₂为多层感知机模块前端的第二层标准化单元的输出LN ₂(.)。

三、AU融合模块。

为了解决人脸表情大的类内差异的问题，本发明实施例引入人脸运动单元信息辅助人脸表情识别。

本发明实施例中，选择多个人脸运动单元，从所述输入的人脸表情图像中提取所选的所有人脸运动单元的人脸运动单元信息X _AU，并映射至与所述表情特征相同的维度，再与所述表情特征融合。

示例性的，此处提供17个人脸运动单元：AU1（眉毛内侧提起），AU2（眉毛外侧提起），AU4（眉毛降低），AU5（上眼睑提起），AU6（脸颊提起），AU7（眼睑缩紧），AU9（皱鼻），AU10（上嘴唇提起），AU12（嘴角提起），AU14（酒窝），AU15（嘴角降低），AU17（下巴提起），AU20（嘴唇拉紧），AU23（嘴唇缩紧），AU25（嘴巴张开），AU26（下巴降低）和AU45（眨眼）。

本发明实施例中，可以通过Openface（它是一种开源软件工具）提取人脸表情图像的上述17个人脸运动单元信息。需要说明的是，实际应用中人脸运动单元的具体位置以及数目可根据实际情况或者需要自行设定，本发明不做具体的限定。

如图2所示，可以通过全连接层（FC）将所有人脸运动单元的人脸运动单元信息X _AU映射至与所述表情特征相同的维度，之后，可以采用点乘的方式融合维度映射后的人脸运动单元信息与表情特征。

基于以上三个模型协同处理后，将获得的融合特征输入至分类模型（图2中未示出），用于后续的表情分类，获得表情识别结果，图2展示了若干表情类别的示例：Happy（高兴）、Sad（难过）、Angry（愤怒）、Surprise（惊讶）、Disgust（反感）、Fear（害怕）、Contempt（鄙视）。

为了直观的体现本发明上述方案的识别效果，在公开数据集RAF-DB和FERPlus数据集上进行了七分类实验，实验结果表明本发明的识别准确率高于目前的识别方案，实验结果如表1所示：

表1 实验结果。

实施例二

本发明还提供一种人脸表情识别系统，其主要基于前述实施例一提供的方法实现，如图3所示，该系统主要包括：

分类识别模块，用于利用所述融合特征进行表情分类识别。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

需要说明的是，上述系统各个部分的主要工作原理在之前的实施例一中已经做了详细的介绍，故不再赘述。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

利用所述融合特征进行表情识别。

2.根据权利要求1所述的一种人脸表情识别方法，其特征在于，所述利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情包括：

将所述局部表情特征进行维度变换，再变换为序列形式，获得局部表情特征序列；

全局关系建模模块以所述局部表情特征序列作为输入，在所述局部表情特征序列中添加类别特征，并进行位置表征，获得初始特征序列，表示为：

其中，

表示局部表情特征序列，

表示局部表情特征序列中的第i个特征向量，hw表示特征向量的总数；x _class表示类别特征，X _pos表示位置表征；

所述初始特征序列作为多层Transformer编码器的输入进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征。

3.根据权利要求2所述的一种人脸表情识别方法，其特征在于，所述多层Transformer编码器中的每一层均包括：一个多头自注意力模块与多层感知机模块；多头自注意力模块前端设有第一层标准化单元，多层感知机模块的前端设有第二层标准化单元；多头自注意力模块的后端采用残差连接将所述第一层标准化单元的输入与自身的输出相加，作为多头自注意力模块最终输出结果，并输入至所述第二层标准化单元；多层感知机模块的后端采用残差连接将所述第二层标准化单元的输入与自身的输出相加，作为多层感知机模块的最终输出结果。

4.根据权利要求3所述的一种人脸表情识别方法，其特征在于，将所述多层Transformer编码器的层数设为N，第l层的处理表示为：

z _l’=MHSA(LN ₁(z _l-1))+ z _l-1

z _l=MLP(LN ₂(z _l’))+z _l’

其中，LN ₁(.)与LN ₂(.)分别表示第一层标准化单元与第二层标准化单元执行层标准化操作后的输出，MHSA(.)表示多头自注意力模块的输出，z _l’表示第l层中多头自注意力模块的最终输出结果；MLP(.)表示多层感知机模块的输出，z _l表示第l层中多层感知机模块的最终输出结果；l=1,…,N，N为整数，当l=1时，z _l-1表示所述初始特征序列。

5.根据权利要求3或4所述的一种人脸表情识别方法，其特征在于，所述多头自注意力模块中包含H个单头自注意力模块，每一个单头自注意力模块各自计算相应的单头注意力，将H个单头注意力堆叠，获得多头自注意力模块的输出，表示为：

MHSA(X ₁)=Concat(SA ₁,SA ₂,…,SA _H)W ^O

其中，SA表示单头自注意力模块计算的单头注意力，数字1,2,…, H均表示多头注意力模块的序号，W ^O表示多头自注意力模块的权重参数；X ₁表示多头自注意力模块的输入信息；

其中，单头注意力SA的计算过程包括：

Q= X ₁W^Q，K= X ₁W^K，V= X ₁W^V

其中，W^Q、W^K、W^V表示三种线性变换的权重参数；

根据三个向量计算单头注意力SA，表示为：

其中，T为转置符号，d _k表示键向量K的维度中的参数。

6.根据权利要求3或4所述的一种人脸表情识别方法，其特征在于，所述多层感知机模块包括两个全连接层，通过两个全连接层对输入信息X ₂进行特征映射，表示为：

MLP(X ₂)=GELU(W₁ X ₂+b₁)W₂+b₂

其中，W₁与b₁分别表示第一个全连接层的权重与偏置参数，W₂与b₂分别表示第二个全连接层的权重与偏置参数；GELU(.)为非线性激活函数。

7.根据权利要求1所述的一种人脸表情识别方法，其特征在于，所述对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合包括：选择多个人脸运动单元，从所述输入的人脸表情图像中提取所选的所有人脸运动单元的人脸运动单元信息，并映射至与所述表情特征相同的维度，再与所述表情特征融合。

8.一种人脸表情识别系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：

分类识别模块，用于利用所述融合特征进行表情识别。

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。