CN114764941A

CN114764941A - 一种表情识别方法、装置以及电子设备

Info

Publication number: CN114764941A
Application number: CN202210444179.4A
Authority: CN
Inventors: 彭小江; 毛抒艺
Original assignee: Shenzhen Technology University
Current assignee: Shenzhen Technology University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-19

Abstract

本申请公开了表情识别方法、装置及电子设备，属于数据处理技术领域，所述方法包括：获取目标数据集；获取AU辅助数据集，所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU；基于AU感知的表情识别构建神经网络模型；通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型；将待检测表情图像输入所述目标模型中，得到表情识别结果。通过本申请公开的表情识别方案，在不增加标注成本的前提下，可提升所训练的目标模型的识别准确度。

Description

一种表情识别方法、装置以及电子设备

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种表情识别方法、装置以及电子设备。

背景技术

表情识别方法大致可分为两类，一种是非深度学习方法，另一种是基于深度学习方法。非深度学习方法，首先是通过人为的观察对表情的物理特征以及数学特征建立模型，经由模型提取出的特征信息再经过一定规则或者分类器对特征信息进行分类识别，从而识别表情的功能。非深度学习的表情识别方法受头部姿势、遮挡、背景的影响较大，不具备鲁棒性，在复杂的环境中对于表情识别的准确度低。

基于深度学习的表情识别方法大致可分为两类，一类为直接基于表情标签训练的方法，另一类为借助AU(Action Unit，脸部运动单元)标签训练的方法。基于表情标签训练的方法，通过建立神经网络模型，对带有表情标签的人脸数据集进行训练，从而令模型具备表情识别的能力。但人的表情十分复杂，普通的神经网络模型对面部的微小变化不敏感，识别结果准确度低。借助AU标签训练的方法，对表情数据集进行AU标注，然后再进行训练，但这种方法标注量非常大，标注成本高。

发明内容

本申请实施例的目的是提供一种表情识别方法、装置和电子设备，能够解决现有技术中存在的表情识别准确度低、表情数据集AU标注成本高的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种表情识别方法，包括：

获取目标数据集，其中，所述目标数据集为带有表情标签的人脸数据集；

获取AU辅助数据集，所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU；

基于AU感知的表情识别构建神经网络模型；

通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型；

将待检测表情图像输入所述目标模型中，得到表情识别结果。

可选地，所述获取目标数据集的步骤，包括：

从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据，作为目标数据集，其中，筛选出的目标数据集中包括多种基础表情图像。

可选地，所述获取AU辅助数据集的步骤，包括：

获取RAFAU或EmotioNet的AU数据集，并对所述AU数据集中的各条数据进行人工AU标注，其中，AU标注的标签仅包括：指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。

可选地，所述目标模型的总损失函数如下：

其中，，Z_FER为目标模型最终输出的分数对，Z_AU为AU-CRL模块的分数对，所述Z_FER输入Softmax函数ψ，所述Z_AU输入Sigmoid函数，α和β为常数系数用于平衡FER的交叉熵损失

和AU检测的二元交叉熵损失

所述Y_EFR、Y_AU分别为来自FER数据集和AU检测数据集的标签。

可选地，所述将待检测表情图像输入所述目标模型中，得到表情识别结果的步骤，包括：

将所述待检测表情图像输入所述目标模型中，基于所述目标模型中的卷积神经网络特征提取模块和表情分支结构的输出结果，确定表情识结果。

第二方面，本申请实施例提供了一种表情识别装置，所述装置包括：

第一获取模块，用于获取目标数据集，其中，所述目标数据集为带有表情标签的人脸数据集；

第二获取模块，用于获取AU辅助数据集，所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU；

构建模块，用于基于AU感知的表情识别构建神经网络模型；

训练模块，用于通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型；

识别模块，用于将待检测表情图像输入所述目标模型中，得到表情识别结果。

可选地，所述第一获取模块具体用于：

可选地，所述目标模型的总损失函数如下：

其中，z_FER为目标模型最终输出的分数对，z_AU为AU-CRL模块的分数对，所述z_FER输入Softmax函数ψ，所述z_AU输入Sigmoid函数，α和β为常数系数用于平衡FER的交叉熵损失

和AU检测的二元交叉熵损失

所述Y_FER、Y_AU分别为来自FER数据集和AU检测数据集的标签。

可选地，所述第二获取模块具体用于：

可选地，所述识别模块具体用于：

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

本申请实施例提供的表情识别方法，获取目标数据集，获取AU辅助数据集；基于AU感知的表情识别构建神经网络模型；通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型；将待检测表情图像输入所述目标模型中，得到表情识别结果。该方案在不需要额外地对目标数据集进行AU人工标注的情况下，直接利用与目标数据集不重合的辅助数据集进行联合训练，在不增加标注成本的前提下，可提升所训练的目标模型的识别准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是表示本申请实施例的一种表情识别方法的步骤流程图；

图2是表示本申请实施例的神经网络模型的结构示意图；

图3是表示本申请实施例的多级Transformer模块结构示意图；

图4是表示本申请实施例的一种表情识别装置的结构框图；

图5是表示本申请实施例的一种电子设备的结构框图；

图6是表示本申请实施例的又一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的设备检测方法进行详细地说明。

参照图1，示出了本申请实施例的一种表情识别方法的步骤流程图。

本申请实施例的表情识别方法包括以下步骤：

步骤101：获取目标数据集。

其中，目标数据集为带有表情标签的人脸数据集。

本申请实施例提供的表情识别方法，可以应用于电子设备，电子设备中设置有处理器，处理器中设置有执行表情识别方法流程的计算机程序。

一种可选地获取目标数据集的方式可以为：从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据，作为目标数据集，其中，筛选出的目标数据集中包括多种基础表情图像。其中，RAF-DB和/FERPlus是两个业内公知的人脸表情数据集。

本申请实施的表情识别方法，其可用于对不同场景中的人脸表情进行识别，所以需要选取真实应用场景的人脸表情数据，而非实验室环境下采集的人脸表情数据。因此选择RAF-DB或FERPlus公开人脸表情数据集作为目标表情数据集，此数据集包含7种。

步骤102：获取AU辅助数据集。

其中，AU(Action Unit，脸部运动单元)辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU。其中，表情与AU的关系对应表如图1所示：

表情	Actionunits
		Happiness	6+12
Sadness	1+4+15
		Surprise	1+2+5+26
Fear	1+2+4+5+7+20+26
		Anger	4+5+7+23
Disgust	9+15+17

一种可选地获取AU辅助数据集的方式可以为：获取RAFAU或EmotioNet的AU数据集，并对AU数据集中的各条数据进行人工AU标注，其中，AU标注的标签仅包括：指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。RAFAU、EmotioNet为两个业内公知的AU数据集。RAFAU为Real-worldAffective Faces Action Unit的缩写。

本申请实施例中，为了更好地利用带有AU标注的人脸数据集辅助模型训练，让模型更好地感知与表情相关的AU。因此选择RAFAU或EmotioNet的AU数据集，两者都是真实场景下收集人脸数据集，并对数据进行人工AU标注。为了识别开心、伤心、惊喜、害怕、生气、恶心、自然平静这7种基础表情，辅助数据集中的AU标签只保留AU1、AU2、AU4、AU5、AU6、AU7、AU8、AU9、AU12、AU14、AU15、AU17、AU20、AU23、AU26这16种AU标签。

步骤103：基于AU感知的表情识别构建神经网络模型。

图2是表示本申请实施例的神经网络模型的结构示意图。如图2所示，该神经网络模型包括CNN特征提取器、AU分支以及表情分支，AU分支中又包含特征块分组、全局平均池化、全连接层以及concat层。表情分支中又包括：特诊分块、为止信息嵌入层、多级Transformer模块、全局平均池化以及全连接层。

在实际实现过程中，神经网络模型可以通过如下流程创建完成，具体包括如下子步骤：

子步骤1041：人脸特征提取。

首先，本申请中使用ResNet50的前三个阶段作为主干网络来提取原始面部图像的特征图。因为在这个阶段只需要为后面的Transformer块提取浅层特征。对于给定大小为H*W*3的RGB人脸图像，特征提取器生成大小为

的多层特征图，其中R是ResNet50的下采样率，C为第3阶段输出的通道数，其中，H＝W＝112，R＝8。通过MS-Celeb-1M[15]人脸身份识别数据集上的预训练权重初始化骨干网络权重。该人脸身份识别数据集中包含一千万张人脸图片。

子步骤1042：构建多级Transformer模块。

Transformer模块首先通过分割模块将特征图分割为非重叠的块。每个块被视为一个“token”，其特征被设置为图像中某个区域的所有通道的串联。在实际应用中，可将特征图分割的块的大小设置为1*1像素，因此，第一级的Transformer模块中每个块的特征维度为256。为生成层级表征的特征，我们使用块融合层，随网络的加深，减少token的数量。在输入下一个Transformer模块前，每2*2个相邻的块会融合为一个token，与此同时新token的通道数右C增加到2C。即特征图的大小在第二级Transformer模块中为

H_f与W_f是由ResNet50输出的特征图的高和宽。

为了将位置信息合并到多层Transformer编码器中，和将1D可学习位置嵌入添加到特征token中：

会学习所块的位置索引，Z⁰是合并位置信息后的特征token组。

为了拟合块中的所有元素之间的复杂交互，本申请中将Z⁰输入到Transformer编码器中。Transformer编码器通过多头自注意力计算模块即MHSA模块，计算的Z⁰权重。如图2所示，Transformer编码器是通过可学习查询向量Q、键向量K和值向量V来完成的。计算第一层中SHSA的单头全局自注意力信息即SHSA信息，公式如下：

当中，

是线性投影的权重值。需要指出，多头的自注意力机制是为了把Z⁰投影到N个不同的特征空间。多头自注意力机制的公式表达如下：

MHSA(Z⁰)＝concat(head₁，...，head_N)^O

其中，N为不同自注意力头的数量，concat表示串联操作；W^O为线性投影的权重参数，每个自注意力头d的尺寸等于C_p＝N²，h₁是第一层的隐藏尺寸。每个Transformer编码器由N层MHSA块组成。

经MHSA模块输出之后，本申请将token序列重新排列为2D网格，并将其转换为2D特征图。然后，本申请中在Transformer的前馈网络中引入了深度卷积。首先增加这些特征映射的通道数量，然后对它们执行深度卷积，内核大小为3*3，目的是增强与它相邻8个token的表征相关性。最后，恢复特征图的通道，并将它们按顺序展平到初始维度。这些程序可记为：

所构建的多级Transformer模块的结构示意图如图3所示。

子步骤1043：构建AU分支辅助结构。

约束表示学习的目的是迫使模型在分类器层之前学习AU的特征。由表1中所示的AU分布情况可得出，AU在人脸上的出现呈上下分布。因此，我们从Transformer块的中间层获取块token，然后对这些token应用Seq2Img操作来生成2D特征图，实现中的尺寸为512*7*7。然后根据不同AU所属的区域，将二维特征地图分为上半部分和下半部分。上半部分的特征大小为512*3*7，它包含的7个AU，分别为AU1,AU2,AU4,AU5,AU6,AU7,AU9；而下半部分的特征大小为512*4*7，包含14个，分别为AU10,AU12,AU14,AU15,AU16,AU17,AU18,AU20,AU22,AU23,AU24,AU25,AU26,AU27。接着对两部分特征图执行全局平均池化，得到两个向量512*1。最后，本申请分别在两个向量上执行两个完全连接层，然后连接输出以获最终结果：

Z^u，Z^l＝split(Z)

C^u＝GAP(BN(Z^u))

C^l＝GAP(BN(Z^l))

Z_s＝Concat(C^u，C^l)

在构建完神经网络模型后，为该神经网络模型设置合适的损失函数和模型参数，在设置完成后，即可执行步骤104。

步骤104：通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型。

由于RVT[12]已经证明分类token(classification token，CLS)对ViT不重要，因此本申请尝试在块token上使用全局平均池化，以此替换CLS(如CPVT[13]和LeViT[14])。但与AU检测不同，发明人发现使用全局池化操作会降低测试集的准确度。因此本申请舍弃全局池化，采用展平2维特征的操作，并在模型末尾使用完全连接层。这是由于缝隙会破坏人脸的空间信息，对表情识别至关重要。其中，RVT[12]为阿里巴巴提出的鲁棒性高的Transformer；CPVT[13]为美团提出的一种Transformer；LeViT[14]为Facebook提出的一种Transformer。

训练得到的目标模型的总损失函数如下：

其中，Z_FER为目标模型最终输出的logit即分数对，Z_AU为AU-CRL模块的分数对，所述Z_FER输入Softmax函数ψ，Z_AU输入Sigmoid函数，α和β为常数系数用于平衡FER的交叉熵损失

和AU检测的二元交叉熵损失

Y_FER、Y_AU分别为来自FER数据集和AU检测数据集的标签。

在基于目标数据集和AU辅助数据集，对神经网络模型进行训练时，可将数据集中的各条数据输入神经网络模型中，基于神经网络模型的输出结果与预先标记进行比对，基于比对结果调整神经网络模型的参数，以缩小损失值。经过多次训练，使得神经网络模型的损失值降低至预设阈值后，确定神经网络模型训练完成。

步骤105：将待检测表情图像输入目标模型中，得到表情识别结果。

训练完成后，进行推理预测时不需要AU分支结构，只需要CNN特征提取模块和表情分支结构即可对人类表情的分类结果。

关于AU-CRL模块的消融实验,使用RAF-DB或FERPlus数据集辅助和不用额外AU数据集的效果对比如表2所示：

Model	AUData.	RAFDB％	FERPlus％
				ViT[5]	/	87.3	85.62
ViT+AU-CRL	RAFAU	88.8(+1.5)	88.4(+2.78)
				ViT+AU-CRL	EmotioNet	87.9(+0.5)	87.5(+1.88)

图4为实现本申请实施例的一种表情识别装置的结构框图。

本申请实施例的表情识别装置包括如下模块：

第一获取模块401，用于获取目标数据集，其中，所述目标数据集为带有表情标签的人脸数据集；

第二获取模块402，用于获取AU辅助数据集，所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU；

构建模块403，用于基于AU感知的表情识别构建神经网络模型；

训练模块404，用于通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型；

识别模块405，用于将待检测表情图像输入所述目标模型中，得到表情识别结果。

可选地，所述第一获取模块具体用于：

从RAFDB和/FERPlus公开的人脸表情数据集中筛选至少部分数据，作为目标数据集，其中，筛选出的目标数据集中包括多种基础表情图像。

可选地，所述第二获取模块具体用于：

可选地，所述目标模型的总损失函数如下：

和AU检测的二元交叉熵损失

所述Y_FER、Y_AU分别为来自FER数据集和AU检测数据集的标签。

可选地，所述识别模块具体用于：

本申请实施例提供的表情识别装置，获取目标数据集，获取AU辅助数据集；基于AU感知的表情识别构建神经网络模型；通过目标数据集和AU辅助数据集，对神经网络模型进行训练，得到目标模型；将待检测表情图像输入所述目标模型中，得到表情识别结果。该装置在不需要额外地对目标数据集进行AU人工标注的情况下，直接利用与目标数据集不重合的辅助数据集进行联合训练，在不增加标注成本的前提下，可提升所训练的目标模型的识别准确度。

本申请实施例中图4所示的表情识别装置可以是装置，也可以是服务器中的部件、集成电路、或芯片。本申请实施例中的图4所示的表情识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图4所示的表情识别装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种电子设备500，包括处理器501，存储器502，存储在存储器502上并可在所述处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述表情识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的服务器。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。本领域技术人员可以理解，电子设备600还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器610用于执行上述表情识别方法的流程。

应理解的是，本申请实施例中，输入单元604可以包括图形处理器(GraphicsProcessing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器609可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述表情识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述表情识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。