CN109815924A

CN109815924A - 表情识别方法、装置及系统

Info

Publication number: CN109815924A
Application number: CN201910090163.6A
Authority: CN
Inventors: 曾凡伟; 贾澜鹏; 刘帅成
Original assignee: Chengdu Wide-Sighted Jinzhi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Chengdu Wide-Sighted Jinzhi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-05-28
Anticipated expiration: 2039-01-29
Also published as: CN109815924B

Abstract

本发明提供了一种表情识别方法、装置及系统，涉及图像识别技术领域，该方法包括：获取待识别的人脸图像；提取人脸图像的全局特征，得到人脸图像的语义特征图；基于注意力机制对人脸图像进行特征提取，得到人脸图像的注意力特征图；对语义特征图和注意力特征图进行融合，得到融合特征图；对融合特征图进行表情识别，得到表情识别结果。本发明能够有效提升表情识别的准确性。

Description

表情识别方法、装置及系统

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种表情识别方法、装置及系统。

背景技术

人脸表情识别是计算机视觉领域的新挑战，主要希望从给定的人脸图像中准确识别出诸如惊讶、沮丧、开心等表情状态。现有的表情识别技术中，大多是从待识别的原始图像中截取多个重点区域(诸如眉毛、眼睛和嘴巴)，基于多个重点区域的特征信息进行表情识别。然而，这种方式不仅破坏了图像的空间信息，而且仅截取多个重点区域的方式会导致图像的其余信息丢失，以上问题都会使现有的表情识别方式可靠性较差，表情识别结果的准确性较低。

发明内容

有鉴于此，本发明的目的在于提供一种表情识别方法、装置及系统，能够有效提升表情识别的准确性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种表情识别方法，所述方法包括：获取待识别的人脸图像；提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图；基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图；对所述语义特征图和所述注意力特征图进行融合，得到融合特征图；对所述融合特征图进行表情识别，得到表情识别结果。

进一步，所述基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图的步骤，包括：对所述人脸图像执行注意力掩膜操作，得到所述人脸图像对应的增强图像；其中，所述人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在所述增强图像中增加；提取所述增强图像中的全局特征，得到所述人脸图像的注意力特征图。

进一步，所述对所述人脸图像执行注意力掩膜操作，得到所述人脸图像对应的增强图像的步骤，包括：将所述人脸图像切分为多个区域图像；基于相关系数法确定每个所述区域图像相对于所述人脸图像的第一权值；基于曼哈顿距离法确定所述人脸图像中的人脸关键点相对于所述人脸图像的第二权值；根据所述第一权值和所述第二权值确定注意力掩膜矩阵；对所述注意力掩膜矩阵与所述人脸图像执行点乘操作，得到所述人脸图像对应的增强图像。

进一步，所述基于相关系数法确定每个所述区域图像相对于所述人脸图像的第一权值的步骤，包括：获取所述人脸图像的像素点的第一概率分布图；其中，所述第一概率分布图中包含有人脸图像像素点在预设角度区间中的分布概率；获取每个所述区域图像的像素点的第二概率分布图；其中，所述第二概率分布图中包含有区域图像像素点在预设角度区间中的分布概率；基于所述第一概率分布图和所述第二概率分布图确定每个所述区域图像相对于所述人脸图像的第一权值。

进一步，所述获取所述人脸图像的像素点的第一概率分布图的步骤，包括：计算所述人脸图像的图像梯度值；根据所述图像梯度值获取所述人脸图像像素点的角度值；确定每个所述人脸图像像素点的角度值所在的角度区间；计算每个所述角度区间内的人脸图像像素点的分布概率，得到所述第一概率分布图。

进一步，所述基于所述第一概率分布图和所述第二概率分布图确定每个所述区域图像相对于所述人脸图像的第一权值的步骤，包括：基于所述第一概率分布图、所述第二概率分布图和权值计算公式，确定每个所述区域图像相对于所述人脸图像的第一权值；其中，所述权值计算公式为：

其中，i为区域图像的编号，γ_i为区域图像i的第二概率分布图中所包含的区域图像像素点在预设角度区间中的分布概率，y为所述第一概率分布图中所包含的人脸图像像素点在预设角度区间中的分布概率，ρ_i为区域图像i相对于所述人脸图像的第一权值，D₀为y的方差，D_i为γ_i的方差。

进一步，所述基于曼哈顿距离法确定所述人脸图像中的人脸关键点相对于所述人脸图像的第二权值的步骤包括：对于所述人脸图像上的每个人脸关键点均执行如下操作：获取以当前的人脸关键点为中心的指定邻域框；计算所述当前的人脸关键点与所述指定邻域框内的每个像素点之间的曼哈顿距离值；基于各所述人脸关键点对应的曼哈顿距离值，确定各所述人脸关键点相对于所述人脸图像的第二权值矩阵。

进一步，所述对所述语义特征图和所述注意力特征图进行融合，得到融合特征图的步骤，包括：按照以下公式对所述人脸图像、所述语义特征图和所述注意力特征图进行融合，得到融合特征图：

I_out＝A*M+(1-A)*img

其中，I_out为所述融合特征图，A为所述注意力特征图，M为所述语义特征图，img为所述人脸图像。

进一步，所述提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图的步骤，包括：通过第一特征提取网络提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图；所述基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图的步骤，包括：对所述人脸图像执行注意力掩膜操作，得到所述人脸图像对应的增强图像；其中，所述人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在所述增强图像中增加；通过第二特征提取网络提取所述增强图像中的全局特征，得到所述人脸图像的注意力特征图；所述对所述融合特征图进行表情识别，得到表情识别结果的步骤，包括：通过分类网络对所述融合特征图进行表情识别，得到各预设表情对应的概率值；将概率值最大的预设表情确定为所述人脸图像的表情。

进一步，所述方法还包括：基于预设的第一损失函数、第二损失函数和第三损失函数对所述第一特征提取网络、所述第二特征提取网络和所述分类网络进行联合训练，直至总损失函数值收敛至预设值时，训练结束；其中，所述总损失函数值为所述第一损失函数计算的损失值、所述第二损失函数计算的损失值和所述第三损失函数计算的损失值的加权值；所述第一损失函数对应所述第一特征提取网络，所述第二损失函数对应所述第二特征提取网络，所述第三损失函数对应所述分类网络。

进一步，所述第一损失函数为：

loss_c＝||Relu(layer_s)-Relu(layer_d)||₂

其中，loss_c为所述第一损失函数，Relu(layer_s)为所述第一特征提取网络的浅层网络的输出激活值，Relu(layer_d)为所述第一特征提取网络的深层网络的输出激活值；

所述第二损失函数为：

loss_a＝||x_m(i+1,j+1)-x_m(i,j)||₂

其中，loss_a为所述第二损失函数，(i,j)为所述第二特征提取网络输出的特征图的各像素点坐标，x_m(i,j)为像素点(i,j)的像素值。

第二方面，本发明实施例还提供一种表情识别装置，所述装置包括：图像获取模块，用于获取待识别的人脸图像；语义特征提取模块，用于提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图；注意力特征提取模块，用于基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图；特征图融合模块，用于对所述语义特征图和所述注意力特征图进行融合，得到融合特征图；表情识别模块，用于对所述融合特征图进行表情识别，得到表情识别结果。

第三方面，本发明实施例提供了一种表情识别系统，所述系统包括：图像采集装置、处理器和存储装置；所述图像采集装置，用于采集待识别的人脸图像；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种表情识别方法、装置及系统，在一方面可以提取人脸图像的全局特征，得到语义特征图，在另一方面可以基于注意力机制对人脸图像进行特征提取，得到注意力特征图；进而对语义特征图和注意力特征图相融合得到的融合特征图进行表情识别，得到表情识别结果。本实施例提供的上述方式能够充分利用体现出全局信息的语义特征图和体现出重点关注信息的注意力特征图，将语义特征图与注意力特征图进行融合的方式不仅可以使特征更丰富全面，而且也能够较好地保障图像的空间信息，能够有效提升表情识别的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种表情识别方法的流程图；

图3(a)示出了本发明实施例所提供的一种人脸图像的示意图；

图3(b)示出了本发明实施例所提供的一种人脸图像的注意力特征图的示意图；

图3(c)示出了本发明实施例所提供的一种融合特征图的示意图；

图4示出了本发明实施例所提供的一种人脸图像切分结果示意图；

图5示出了本发明实施例所提供的一种增强图像的示意图；

图6示出了本发明实施例所提供的一种伪孪生网络的结构示意图；

图7示出了本发明实施例所提供的一种表情识别装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

考虑到现有的表情识别技术的识别准确性不高，本发明实施例提供的一种表情识别方法、装置及系统，该技术可以应用于人机交互、机器人制造、安检等各种需要用到表情识别的领域，为便于理解，以下对本发明实施例进行详细介绍。

实施例一：

首先，参考图1来描述用于实现本发明实施例的表情识别方法、装置及系统的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其它组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的一种表情识别方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机、摄像头等智能终端上。

实施例二：

参考图2所示的一种表情识别方法的流程图，该方法可以包括如下步骤：

步骤S202，获取待识别的人脸图像。在本实施例中，待识别的人脸图像可以是图像采集装置拍摄的原始图像，也可以是由网络下载、本地存储或人工上传的图像。该人脸图像可以包括至少一张待表情识别的人脸；其中，待识别的表情类别诸如惊奇、恐惧、悲伤、高兴、生气、厌恶、平静等常用表情。

步骤S204，提取人脸图像的全局特征，得到人脸图像的语义特征图。

在本实施例中，可以通过具有图像高层语义特征提取能力的深度神经网络提取人脸图像的全局特征，得到语义特征图。该语义特征图包含有人脸图像全局的高层语义信息(诸如额头、眼睛和嘴等)。在实际应用中，上述的深度神经网络可以为ResNet34和VGGNet(Visual Geometry Group Network)等任何具有深层表达能力的网络结构，在此不进行限制。

步骤S206，基于注意力机制对人脸图像进行特征提取，得到人脸图像的注意力特征图。

在一些可能的实现方式中，可以通过设计并训练具有注意力机制的特征提取网络来对人脸图像进行特征提取。基于注意力机制可以快速关注到人脸图像中的人脸关键点(landmarks)，以提取出人脸图像中更加关键和重要的信息，得到人脸图像的注意力特征图。其中，人脸关键点是指人脸区域中能够体现表情状态的脸部位置，包括但不限于眼睛(如眼角、眼球中心、眼尾)、鼻子(如鼻尖、鼻翼)、嘴巴(如嘴角、唇角、唇边)、下巴和眉角等脸部位置。

为了强化注意力机制，突出注意力特征图中的人脸关键点特征，本实施例在获取人脸图像的注意力特征图的具体实现过程中，可以首先对人脸图像执行预处理操作，以增强对人脸图像中的人脸关键点的突显作用；上述预处理操作可以为注意力掩膜操作、亮度增强操作或饱和度增强操作等。然后对得到的增强图像进行全局特征提取，得到注意力特征图。在实际应用中，还可以将该注意力特征图所包含的人脸图像的特征信息按照不同关注程度分为人脸关键点特征信息和非人脸关键点区域特征信息。

步骤S208，对语义特征图和注意力特征图进行融合，得到融合特征图。

通过将语义特征图和注意力特征图进行融合的方式，可以使融合特征图有效承载语义特征图和注意力特征图中包含的所有有效信息，诸如，包含有人脸图像的高层语义信息、人脸关键点特征信息和非人脸关键点区域特征信息。

在对语义特征图和注意力特征图进行融合的过程中，为了避免语义特征图和注意力特征图之间的特征离散，导致丢失人脸关键点之间的空间联系，破坏融合特征图的空间结构信息，在一些实施方式中，可以采用如公式(1)所示的非线性互补的融合方式对人脸图像、语义特征图和注意力特征图进行特征融合，得到融合特征图：

I_out＝A*M+(1-A)*img (1)

其中，I_out为融合特征图，A为注意力特征图，M为语义特征图，img为人脸图像。

参照图3(a)所示的人脸图像的示意图，包括两张不同的人脸图像，图3(b)为基于注意力机制对两张人脸图像分别进行特征提取后得到的两张注意力特征图，图3(c)为通过公式(1)所得到的融合特征图。由图3(c)可以明显看到融合特征图对人脸图像的注意力增强效果是显著的，非线性互补的融合方式可以使得融合特征图在获取到人脸图像的全局信息的基础上突出局部信息(也即人脸关键点信息)，这样能够保证融合特征图所包含特征信息的完整性以及人脸图像的空间结构信息的完整性。

步骤S210，对融合特征图进行表情识别，得到表情识别结果。

在本实施例中，可以将融合特征图输入至经训练得到的表情识别模型，通过表情识别模型对融合特征图进行特征提取和表情识别，得到多个预设表情对应的预测值，如果多个预测值中的最大预测值大于预设阈值(诸如0.8)，则将该最大预测值所对应的预设表情确定为表情识别结果。在实际应用中，表情识别模型可以是通过基于监督学习的方法训练得到的深度神经网络模型，诸如CNN(Convolutional Neural Networks，卷积神经网络)网络、DBN(Deep Belief Nets，深度信念网络)网络等；当然，该表情识别模型也可以是其它具有表情识别功能的结构，诸如Adaboost分类器。

本发明实施例提供的表情识别方法，在一方面可以提取人脸图像的全局特征，得到语义特征图，在另一方面可以基于注意力机制对人脸图像进行特征提取，得到注意力特征图；进而对语义特征图和注意力特征图相融合得到的融合特征图进行表情识别，得到表情识别结果。本实施例提供的上述方式能够充分利用体现出全局信息的语义特征图和体现出重点关注信息的注意力特征图，将语义特征图与注意力特征图进行融合的方式不仅可以使特征更丰富全面，而且也能够较好地保障图像的空间信息，能够有效提升表情识别的准确性。

本实施例给出了一种得到人脸图像的注意力特征图的具体实现方式，可以参考如下步骤：

第一步，对人脸图像执行注意力掩膜操作(也即attention mask)，得到人脸图像对应的增强图像；其中，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中增加。

第二步，通过AlexNet网络、VGG网络等特征提取网络提取增强图像中的全局特征，得到人脸图像的注意力特征图。

具体而言，第一步中的注意力掩膜操作可以理解为：采用预先制作的掩膜图像对人脸图像进行像素过滤，以突出显示人脸图像上的感兴趣区域(也即人脸关键点)，得到人脸图像对应的增强图像。掩膜图像可以采用与人脸图像尺寸相等的注意力掩膜矩阵实现，注意力掩膜矩阵的本质为二维矩阵数组，在实际应用中可通过设置注意力掩膜矩阵中元素的不同数值制作不同的掩膜图像，从而得到人脸图像对应的不同的增强图像，在具体实现时可参考如下示例一至三：

示例一：首先将注意力掩膜矩阵(为便于描述，以下均用注意力掩膜矩阵表示掩膜图像)中与非人脸关键点区域相对应位置的元素数值设置为小于1(诸如0.5)的数值，将注意力掩膜矩阵中与人脸关键点相对应位置的元素数值设置为大于1的数值(诸如2)。然后人脸图像中的每个像素和上述注意力掩膜矩阵中的每个对应元素进行点乘运算，得到人脸图像对应的增强图像。该增强图像中的人脸关键点像素值增大，非人脸关键点区域像素值降低，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中明显增加。本示例所提供的增强图像相对于人脸图像，一方面在一定程度上遮蔽了人脸图像的非人脸关键点区域，另一方面还增强了对人脸关键点的突显作用。

示例二：首先将注意力掩膜矩阵中与非人脸关键点区域相对应位置的元素数值设置为小于1的数值，将注意力掩膜矩阵中与人脸关键点相对应位置的元素数值设置为等于1的数值。然后人脸图像中的每个像素和上述注意力掩膜矩阵中的每个对应元素进行点乘运算，得到人脸图像对应的增强图像。该增强图像中的人脸关键点像素值保持不变，增强图像中的非人脸关键点区域像素值降低，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中明显增加。本示例所提供的增强图像相对于人脸图像，通过在一定程度上遮蔽人脸图像的非人脸关键点区域来实现对人脸关键点的突显作用。

示例三：首先将注意力掩膜矩阵中与非人脸关键点区域相对应位置的元素数值设置为等于1的数值，将注意力掩膜矩阵中与人脸关键点相对应位置的元素数值设置为大于1的数值。然后人脸图像中的每个像素和上述注意力掩膜矩阵中的每个对应元素进行点乘运算，得到人脸图像对应的增强图像。该增强图像中的人脸关键点像素值增大，增强图像中的非人脸关键点区域像素值保持不变，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中明显增加。本示例所提供的增强图像相对于人脸图像，通过增大人脸关键点像素值直接实现对人脸关键点的突显作用。

通过以上三种示例均可增强对人脸关键点的突显作用。

为便于理解，在本实施例中对上述得到增强图像的过程作进一步的说明，可参考如下步骤(1)至(5)：

(1)将人脸图像切分为多个区域图像。切分方式可以为按照人脸关键点的分布将整个人脸图像均匀切分为多个区域，诸如：参照图4所示的人脸图像切分结果示意图，首先按照人脸关键点分布密度将人脸图像切分为人脸关键点分布密度较大的包含有眉眼鼻嘴的中间图像区域和人脸关键点分布密度较小的上、下图像区域；然后将中间图像区域均分为2个区域；图4左侧所示的人脸图像被均匀切分成4个区域图像。

(2)基于相关系数法确定每个区域图像相对于人脸图像的第一权值。

基于上述的人脸图像和切分的多个区域图像，本实施例首先获取人脸图像的像素点的第一概率分布图以及每个区域图像的像素点的第二概率分布图；其中，第一概率分布图中包含有人脸图像像素点在预设角度区间中的分布概率，第二概率分布图中包含有各个区域图像像素点在预设角度区间中的分布概率。第一概率分布图和第二概率分布图分别如图4右侧所示，以第一概率分布图为例，其横坐标为角度，且被均分为多个预设角度区间，纵坐标为各预设角度区间内人脸图像像素点的分布概率。然后基于第一概率分布图和第二概率分布图确定每个区域图像相对于人脸图像的第一权值。

其中，获取上述第一概率分布图的步骤，包括：计算人脸图像的图像梯度值；梯度值包含有人脸图像的梯度分布直方图，梯度值为一个具有方向和大小的量。根据梯度定义或者采用cvSobel函数对图像梯度值进行运算得到人脸图像每一个像素点的余弦值，通过余弦值计算人脸图像每一个像素点的角度值；假设人脸图像有N个像素点，则对应有N个角度值，该N个角度值分布于0至360°之间。将360°均分为多个(如10个)角度区间，确定每个人脸图像像素点的角度值所在的角度区间。计算每个角度区间内的人脸图像像素点的分布概率，也即统计每个角度区间内的人脸图像像素点的数量n，再用n除以人脸图像全部像素点的数量N，得到人脸图像像素点在预设角度区间中的分布概率，通过人脸图像像素点在每个预设角度区间中的分布概率得到第一概率分布图。

可以理解，获取第二概率分布图的步骤与上述获取第一概率分布图的步骤类似，不同之处在于：在获取第二概率分布图的过程中所处理的图像为人脸图像中的各个区域图像，分别获得各个区域图像的像素点的第二概率分布图，其具体实现过程在此不再赘述。

接下来，基于第一概率分布图、第二概率分布图和权值计算公式，确定每个区域图像相对于人脸图像的第一权值；其中，权值计算公式的表达式如下：

其中，i为区域图像的编号，γ_i为区域图像i的第二概率分布图中所包含的区域图像像素点在预设角度区间中的分布概率，y为第一概率分布图中所包含的人脸图像像素点在预设角度区间中的分布概率，ρ_i为区域图像i相对于人脸图像的第一权值，D₀为y的方差，D_i为γ_i的方差。

对于人脸关键点相对于人脸图像的第二权值可以通过曼哈顿距离法进行计算，也即：

(3)基于曼哈顿距离法确定人脸图像中的人脸关键点相对于人脸图像的第二权值。对于人脸图像上的每个人脸关键点均执行如下操作：

首先，获取以当前的人脸关键点为中心的指定邻域框，诸如可以取当前人脸关键点附近周围9*9的指定邻域框；然后，计算当前的人脸关键点与指定邻域框内的每个像素点之间的曼哈顿距离值；之后，基于各人脸关键点对应的曼哈顿距离值，确定各人脸关键点相对于人脸图像的第二权值矩阵。也可以理解为将曼哈顿距离值直接作为人脸关键点相对于人脸图像的第二权值，由多个第二权值构成的第二权值矩阵为与指定邻域框大小相等的9*9矩阵；第二权值矩阵的数量与人脸关键点的数量相同。

(4)根据第一权值和第二权值确定注意力掩膜矩阵。该注意力掩膜矩阵与人脸图像中人脸关键点相匹配位置的元素数值为第二权值，该注意力掩膜矩阵与人脸图像中非人脸关键点相匹配位置的元素数值为第一权值。

(5)对注意力掩膜矩阵与人脸图像执行点乘操作，得到人脸图像对应的增强图像。参照图5所示的增强图像的示意图，该增强图像的非人脸关键点区域在第一权值的作用下亮度值降低，该增强图像的人脸关键点在第二权值的作用下亮度值提高，从而增强对人脸关键点的突显效果。

进一步，本实施例提出了一种可执行前述表情识别方法的伪孪生网络，可以通过伪孪生网络对人脸图像进行处理，得到人脸图像的表情识别结果。参照如图6所示的伪孪生网络的结构示意图，该伪孪生网络包括第一特征提取网络、第二特征提取网络以及与第一特征提取网络、第二特征提取网络相连接的分类网络。其中，第一特征提取网络的输入为人脸图像，第一特征提取网络的输出为人脸图像的语义特征图。具体的，通过第一特征提取网络(诸如ResNet34网络)提取人脸图像的全局特征，得到人脸图像的语义特征图。

为了突出注意力特征图中的人脸关键点特征，对人脸图像执行注意力掩膜操作，得到人脸图像对应的增强图像；其中，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中增加。

第二特征提取网络的输入为该增强图像，第二特征提取网络的输出为人脸图像的注意力特征图。具体的，通过第二特征提取网络(诸如ResNet网络的identity block结构)提取增强图像中的全局特征，得到人脸图像的注意力特征图。

将语义特征图和注意力特征图输入至融合层，通过融合层采用非线性互补的融合方式对语义特征图和注意力特征图进行融合，得到融合特征图，并将融合特征图输入至分类网络。

分类网络的输入为融合特征图，分类网络的输出为表情识别结果。具体的，通过分类网络(诸如VGG16)对融合特征图进行表情识别，得到各预设表情对应的概率值；将概率值最大的预设表情确定为人脸图像的表情。

为了约束伪孪生网络的学习行为，使得伪孪生网络能够更好的获取人脸图像的语义特征图和注意力特征图，可以在伪孪生网络中加入三个不同的损失函数，这三个损失函数分别为预设的第一损失函数、第二损失函数和第三损失函数。基于预设的第一损失函数、第二损失函数和第三损失函数对第一特征提取网络、第二特征提取网络和分类网络进行联合训练，直至总损失函数值收敛至预设值时，训练结束。

其中，总损失函数值为第一损失函数计算的损失值、第二损失函数计算的损失值和第三损失函数计算的损失值的加权值；第一损失函数对应第一特征提取网络，第二损失函数对应第二特征提取网络，第三损失函数对应分类网络。

对于现有一般的卷积网络，其浅层网络学到的是人脸图像的轮廓等浅层信息，而人脸图像的高层语义信息是由卷积网络的深层网络学到的。为了能够使第一特征提取网络学习到足够多的图像语义信息，将浅层的图像轮廓特征信息和深层的图像语义特征信息区分开来，在第一特征提取网络中加入第一损失函数，第一损失函数的表达式如公式(3)所示：

loss_c＝||Relu(layer_s)-Relu(layer_d)||₂ (3)

其中，loss_c为第一损失函数，layer_s为第一特征提取网络中浅层网络输出值，对该输出值进行非线性激活，得到第一特征提取网络的浅层网络的输出激活值Relu(layer_s)；layer_d为第一特征提取网络中深层网络输出值，对该输出值进行非线性激活，得到第一特征提取网络的深层网络的输出激活值Relu(layer_d)。

一方面，由于网络学习到的特征会随着网络深度的增加而变化，更深层的网络所学到的是人脸图像更加高层的语义信息。但是对于基于注意力机制的第二特征提取网络而言，其目的是为了更多的关注到人脸图像中人脸关键点的局部信息。另一方面，由于基于注意力机制的第二特征提取网络会更快的趋于饱和，这样就使得第二特征提取网络的学习能力下降，为了约束第二特征提取网络的这一行为可以加入第二损失函数，第二损失函数的表达式如公式(4)所示：

loss_a＝||x_m(i+1,j+1)-x_m(i,j)||₂ (4)

其中，loss_a为第二损失函数，(i,j)为第二特征提取网络输出的特征图的各像素点坐标，x_m(i,j)为像素点(i,j)的像素值。

伪孪生网络最终的目的在于对人脸图像中的表情进行分类，基于此，为了约束整个伪孪生网络的学习行为，可以在分类网络的输出端加上第三函数作为约束，第三损失函数可以为交叉熵损失函数。

为了验证本发明实施例所提供的上述表情识别方法能够有效提升表情识别的准确性，发明人采用基于上述伪孪生网络执行的表情识别方法在目前最大的原生表情数据集AffectNet上进行训练，在其验证集上进行评测获得了在此数据集上如表1所示的测试结果。表1中的R表示真实表情，包括由数字0至6所表示的各个表情，分别为：0表示平静，1表示高兴，2表示悲伤，3表示惊奇，4表示恐惧，5表示厌恶，6表示生气。P表示各表情概率值。由表1展示的测试结果为：平静的最高概率值为0.820，高兴的最高概率值为0.92，悲伤的最高概率值为0.81，惊奇的最高概率值为0.521，恐惧的最高概率值为0.513，厌恶的最高概率值为0.415，生气的最高概率值为0.467，基于以上各表情测试得到的概率值确定采用本实施例所提供的表情识别方法进行表情识别可以达到63.8％的准确性。

同时发明人采用该表情识别方法在另一个公开的数据集RAF-DB的验证集合上进行测试，获得了在此数据集上如表2所示的测试结果，达到了87.6％的准确性。表2中各字母的表达含义与表1相同，在此不再赘述。

表1

表2

综上所述，本发明实施例提供的上述表情识别方法能够充分利用体现出全局信息的语义特征图和体现出重点关注信息的注意力特征图，将语义特征图与注意力特征图进行融合的方式不仅可以使特征更丰富全面，而且也能够较好地保障图像的空间信息，能够有效提升表情识别的准确性。

实施例三：

基于实施例二所提供的表情识别方法，本发明实施例提供了一种表情识别装置，参见图7所示的一种表情识别装置的结构框图，该装置包括：

图像获取模块702，用于获取待识别的人脸图像。

语义特征提取模块704，用于提取人脸图像的全局特征，得到人脸图像的语义特征图。

注意力特征提取模块706，用于基于注意力机制对人脸图像进行特征提取，得到人脸图像的注意力特征图。

特征图融合模块708，用于对语义特征图和注意力特征图进行融合，得到融合特征图。

表情识别模块710，用于对融合特征图进行表情识别，得到表情识别结果。

本发明实施例提供的上述表情识别装置，在一方面可以提取人脸图像的全局特征，得到语义特征图，在另一方面可以基于注意力机制对人脸图像进行特征提取，得到注意力特征图；进而对语义特征图和注意力特征图相融合得到的融合特征图进行表情识别，得到表情识别结果。本实施例提供的上述方式能够充分利用体现出全局信息的语义特征图和体现出重点关注信息的注意力特征图，将语义特征图与注意力特征图进行融合的方式不仅可以使特征更丰富全面，而且也能够较好地保障图像的空间信息，能够有效提升表情识别的准确性。

在一些实施方式中，上述注意力特征提取模块706还用于对人脸图像执行注意力掩膜操作，得到人脸图像对应的增强图像；其中，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中增加；提取增强图像中的全局特征，得到人脸图像的注意力特征图。

在一些实施方式中，上述注意力特征提取模块706还用于将人脸图像切分为多个区域图像；基于相关系数法确定每个区域图像相对于人脸图像的第一权值；基于曼哈顿距离法确定人脸图像中的人脸关键点相对于人脸图像的第二权值；根据第一权值和第二权值确定注意力掩膜矩阵；对注意力掩膜矩阵与人脸图像执行点乘操作，得到人脸图像对应的增强图像。

在一些实施方式中，上述注意力特征提取模块706还用于获取人脸图像的像素点的第一概率分布图；其中，第一概率分布图中包含有人脸图像像素点在预设角度区间中的分布概率；获取每个区域图像的像素点的第二概率分布图；其中，第二概率分布图中包含有区域图像像素点在预设角度区间中的分布概率；基于第一概率分布图和第二概率分布图确定每个区域图像相对于人脸图像的第一权值。

在一些实施方式中，上述注意力特征提取模块706还用于计算人脸图像的图像梯度值；根据图像梯度值获取人脸图像像素点的角度值；确定每个人脸图像像素点的角度值所在的角度区间；计算每个角度区间内的人脸图像像素点的分布概率，得到第一概率分布图。

在一些实施方式中，上述注意力特征提取模块706还用于基于第一概率分布图、第二概率分布图和权值计算公式，确定每个区域图像相对于人脸图像的第一权值；其中，权值计算公式为：

在一些实施方式中，上述注意力特征提取模块706还用于对于人脸图像上的每个人脸关键点均执行如下操作：获取以当前的人脸关键点为中心的指定邻域框；计算当前的人脸关键点与指定邻域框内的每个像素点之间的曼哈顿距离值；基于各人脸关键点对应的曼哈顿距离值，确定各人脸关键点相对于人脸图像的第二权值矩阵。

在一些实施方式中，上述特征图融合模块708还用于按照以下公式对人脸图像、语义特征图和注意力特征图进行融合，得到融合特征图：

I_out＝A*M+(1-A)*img

在一些实施方式中，上述语义特征提取模块704还用于通过第一特征提取网络提取人脸图像的全局特征，得到人脸图像的语义特征图；上述注意力特征提取模块706还用于对人脸图像执行注意力掩膜操作，得到人脸图像对应的增强图像；其中，人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在增强图像中增加；通过第二特征提取网络提取增强图像中的全局特征，得到人脸图像的注意力特征图；上述表情识别模块710还用于通过分类网络对融合特征图进行表情识别，得到各预设表情对应的概率值；将概率值最大的预设表情确定为人脸图像的表情。

在一些实施方式中，表情识别装置还包括训练模块(图中未示出)，用于基于预设的第一损失函数、第二损失函数和第三损失函数对第一特征提取网络、第二特征提取网络和分类网络进行联合训练，直至总损失函数值收敛至预设值时，训练结束；其中，总损失函数值为第一损失函数计算的损失值、第二损失函数计算的损失值和第三损失函数计算的损失值的加权值；第一损失函数对应第一特征提取网络，第二损失函数对应第二特征提取网络，第三损失函数对应分类网络。

在一些实施方式中，第一损失函数为：

loss_c＝||Relu(layer_s)-Relu(layer_d)||₂

其中，loss_c为第一损失函数，Relu(layer_s)为第一特征提取网络的浅层网络的输出激活值，Relu(layer_d)为第一特征提取网络的深层网络的输出激活值；

第二损失函数为：

loss_a＝||x_m(i+1,j+1)-x_m(i,j)||₂

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例二相同，为简要描述，本实施例部分未提及之处，可参考前述实施例二中相应内容。

实施例四：

基于前述实施例，本实施例给出了一种表情识别系统，该系统包括：图像采集装置、处理器和存储装置；图像采集装置，用于采集待识别的人脸图像；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行上述实施例二提供的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述实施例二提供的任一项方法的步骤，或者，计算机程序被处理设备运行时执行上述实施例二提供的任一项的方法的步骤。

本发明实施例所提供的一种表情识别方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参考前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种表情识别方法，其特征在于，包括：

获取待识别的人脸图像；

提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图；

基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图；

对所述语义特征图和所述注意力特征图进行融合，得到融合特征图；

对所述融合特征图进行表情识别，得到表情识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图的步骤，包括：

对所述人脸图像执行注意力掩膜操作，得到所述人脸图像对应的增强图像；其中，所述人脸图像中的人脸关键点与非人脸关键点之间的亮度差值在所述增强图像中增加；

提取所述增强图像中的全局特征，得到所述人脸图像的注意力特征图。

3.根据权利要求2所述的方法，其特征在于，所述对所述人脸图像执行注意力掩膜操作，得到所述人脸图像对应的增强图像的步骤，包括：

将所述人脸图像切分为多个区域图像；

基于相关系数法确定每个所述区域图像相对于所述人脸图像的第一权值；

基于曼哈顿距离法确定所述人脸图像中的人脸关键点相对于所述人脸图像的第二权值；

根据所述第一权值和所述第二权值确定注意力掩膜矩阵；

对所述注意力掩膜矩阵与所述人脸图像执行点乘操作，得到所述人脸图像对应的增强图像。

4.根据权利要求3所述的方法，其特征在于，所述基于相关系数法确定每个所述区域图像相对于所述人脸图像的第一权值的步骤，包括：

获取所述人脸图像的像素点的第一概率分布图；其中，所述第一概率分布图中包含有人脸图像像素点在预设角度区间中的分布概率；

获取每个所述区域图像的像素点的第二概率分布图；其中，所述第二概率分布图中包含有区域图像像素点在预设角度区间中的分布概率；基于所述第一概率分布图和所述第二概率分布图确定每个所述区域图像相对于所述人脸图像的第一权值。

5.根据权利要求3所述的方法，其特征在于，所述获取所述人脸图像的像素点的第一概率分布图的步骤，包括：

计算所述人脸图像的图像梯度值；

根据所述图像梯度值获取所述人脸图像像素点的角度值；确定每个所述人脸图像像素点的角度值所在的角度区间；

计算每个所述角度区间内的人脸图像像素点的分布概率，得到所述第一概率分布图。

6.根据权利要求3所述的方法，其特征在于，所述基于所述第一概率分布图和所述第二概率分布图确定每个所述区域图像相对于所述人脸图像的第一权值的步骤，包括：

基于所述第一概率分布图、所述第二概率分布图和权值计算公式，确定每个所述区域图像相对于所述人脸图像的第一权值；其中，所述权值计算公式为：

7.根据权利要求2所述的方法，其特征在于，所述基于曼哈顿距离法确定所述人脸图像中的人脸关键点相对于所述人脸图像的第二权值的步骤包括：

对于所述人脸图像上的每个人脸关键点均执行如下操作：获取以当前的人脸关键点为中心的指定邻域框；计算所述当前的人脸关键点与所述指定邻域框内的每个像素点之间的曼哈顿距离值；

基于各所述人脸关键点对应的曼哈顿距离值，确定各所述人脸关键点相对于所述人脸图像的第二权值矩阵。

8.根据权利要求1所述的方法，其特征在于，所述对所述语义特征图和所述注意力特征图进行融合，得到融合特征图的步骤，包括：

按照以下公式对所述人脸图像、所述语义特征图和所述注意力特征图进行融合，得到融合特征图：

I_out＝A*M+(1-A)*img

9.根据权利要求1所述的方法，其特征在于，所述提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图的步骤，包括：

通过第一特征提取网络提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图；

所述基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图的步骤，包括：

通过第二特征提取网络提取所述增强图像中的全局特征，得到所述人脸图像的注意力特征图；

所述对所述融合特征图进行表情识别，得到表情识别结果的步骤，包括：

通过分类网络对所述融合特征图进行表情识别，得到各预设表情对应的概率值；

将概率值最大的预设表情确定为所述人脸图像的表情。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

基于预设的第一损失函数、第二损失函数和第三损失函数对所述第一特征提取网络、所述第二特征提取网络和所述分类网络进行联合训练，直至总损失函数值收敛至预设值时，训练结束；

其中，所述总损失函数值为所述第一损失函数计算的损失值、所述第二损失函数计算的损失值和所述第三损失函数计算的损失值的加权值；所述第一损失函数对应所述第一特征提取网络，所述第二损失函数对应所述第二特征提取网络，所述第三损失函数对应所述分类网络。

11.根据权利要求10所述的方法，其特征在于，所述第一损失函数为：

loss_c＝||Relu(layer_s)-Relu(layer_d)||₂

所述第二损失函数为：

loss_a＝||x_m(i+1,j+1)-x_m(i,j)||₂

12.一种表情识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别的人脸图像；

语义特征提取模块，用于提取所述人脸图像的全局特征，得到所述人脸图像的语义特征图；

注意力特征提取模块，用于基于注意力机制对所述人脸图像进行特征提取，得到所述人脸图像的注意力特征图；

特征图融合模块，用于对所述语义特征图和所述注意力特征图进行融合，得到融合特征图；

表情识别模块，用于对所述融合特征图进行表情识别，得到表情识别结果。

13.一种表情识别系统，其特征在于，所述系统包括：图像采集装置、处理器和存储装置；

所述图像采集装置，用于采集待识别的人脸图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至11任一项所述的方法的步骤。