CN113920561A

CN113920561A - 一种基于零样本学习的人脸表情识别方法及装置

Info

Publication number: CN113920561A
Application number: CN202111111549.4A
Authority: CN
Inventors: 李辉辉; 肖湘玲; 郭建华; 刘晓勇
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2022-01-11

Abstract

本发明公开了一种基于零样本学习的人脸表情识别方法及装置，其中，所述方法包括：接收输入的人脸图像，并基于深度神经网络模型提取所述人脸图像的图像特征；将所述图像特征转化为图像语义向量；从数据库中提取多种人脸表情对应的属性文本信息，并将属性文本信息转化为属性语义向量；计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，获得相似度计算结果；基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。在本发明实施例中，能够稳定迅速识别出人脸图像所对应的人脸表情类型，减少重复性工作；并且无需进行相关的样本训练，解决人脸表情训练数据不足、训练数据质量差的问题。

Description

一种基于零样本学习的人脸表情识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于零样本学习的人脸表情识别方法及装置。

背景技术

在人类的日常交流中，表情是传递信息最多的方式，占比达到55％，远高于声音(38％)和语言(7％)。尽管大脑控制表情产生的内在机理尚未清楚，但表情是大脑状态表现出来的特征，其在诱发表情的刺激消失后还能持续一段时间，因此表情是可识别的。目前，人脸表情识别已是人机交互的核心，应用广泛，例如智能陪伴机器人，实现人机情感交流；智慧教室，判定学生的学习情绪状态；智能驾驶，判定驾驶员的情绪状态等，因此人脸表情识别是目前的研究热点。

人脸表情识别涉及人工智能、心理学、生物学、认知科学等多学科交叉，尽管已取得一定进展，但还存在很多困难。首先，表情识别缺乏大规模的高质量表情数据集，因为大规模表情样本的标注是很困难的，部分表情如厌恶、恐惧、伤心又难以激发，表情数据集的非平衡状态严重。其次，现有表情类别之间存在相互作用，如恐惧容易让人愤怒，但其抑制高兴，说明恐惧和愤怒、高兴之间有不同的相互作用，容易导致表情类别之间的定向误分问题。第三，人脸表情因采集个体人脸图像时可能受光照、遮挡、姿态等的影响，还与个体的年龄、性别、种族等不同而表现出较大差异，增加了准确识别表情的难度。

表情识别需要有丰富的专家知识，因此急需智能工具的辅助。目前智能工具研究存在以下问题：(1)很少有使用人脸图像进行自动表情识别的研究；(2)目前利用人脸图像识别表情的研究中，没有同时考虑专家知识和深度学习的表情识别相结合的方法；(3)现有的高质量人脸表情数据集不足。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于零样本学习的人脸表情识别方法及装置，能够稳定迅速识别出人脸图像所对应的人脸表情类型，减少重复性工作；并且无需进行相关的样本训练，解决人脸表情训练数据不足、训练数据质量差的问题。

为了解决上述技术问题，本发明实施例还提供了一种基于零样本学习的人脸表情识别方法，所述方法包括：

接收输入的人脸图像，并基于深度神经网络模型提取所述人脸图像的图像特征；

将所述图像特征转化为图像语义向量；

从数据库中提取多种人脸表情对应的属性文本信息，并将所述属性文本信息转化为属性语义向量；

计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，获得相似度计算结果；

基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。

可选的，所述接收输入的人脸图像，包括：

接收图像采集设备采集的采集图像，并将所述采集图像输入目标检测网络模型中进行人脸检测，并裁剪出采集图像中的人脸区域图像，所述人脸区域图像大小为224*224；

对所述人脸区域图像进行图像颜色归一化处理，并形成输入的人脸图像。

可选的，所述深度神经网络模型为以残差网络模型为主干网络搭建18层的网络模型；其中，所述深度神经网络模型的全连接层的输入维度为512，输出维度为512；所述深度神经网络模型的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。

可选的，所述将所述图像特征转化为图像语义向量，包括：

在所述深度神经网络模型中的原有连接层之后增设一个第二全连接层，其中，所述第二全连接层的输入维度为512，输出维度为15；

将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理，获得输出的图像语义向量。

可选的，所述将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理的公式如下：

其中，

表示图像语义向量；θ(x)表示所述深度神经网络模型输出的d维图像特征；θ(x)^T表示θ(x)的转置；W表示第二全连接层的参数。

可选的，所述多种人脸表情包括：生气、高兴、悲伤、害怕、惊奇、讨厌、中性；

所述属性文本信息包括眉毛是否上扬、下垂、并拢和紧锁，眼镜是否怒视、眯眼和瞪大，嘴唇是否紧锁、上嘴唇上扬和微微张开，嘴角是否翘起和微微下拉，皱纹是否印堂和眼尾，其他。

可选的，所述将所述属性文本信息转化为属性语义向量，包括：

在所述属性文本信息中存在对应的表情属性的用1表示，不存在的用0表示；

基于属性文本信息中对应的表情属性的表示转化为属性语义向量；

其中，所述属性语义向量与所述图像语义向量的维度相同。

可选的，所述计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，包括：

基于内积计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度；

计算公式如下：

其中，

表示图像语义向量，φ(y)表示每种人脸表情对应的所述属性语义向量；s^y(x)表示相似度计算结果。

可选的，所述基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型，包括：

基于所述相似度计算结果获得所述图像语义向量与每一个人脸表情类型对应的相似度；

取所述图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型；

具体公式如下：

其中，y^*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值；s^y(x)表示相似度计算结果；Y表示人脸表情类型。

另外，本发明实施例还提供了一种基于零样本学习的人脸表情识别装置，所述装置包括：

特征提取模块：用于接收输入的人脸图像，并基于深度神经网络模型提取所述人脸图像的图像特征；

第一转化模块：用于将所述图像特征转化为图像语义向量；

第二转化模块：用于从数据库中提取多种人脸表情对应的属性文本信息，并将所述属性文本信息转化为属性语义向量；

相似度计算模块：用于计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，获得相似度计算结果；

表情识别模块：用于基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。

在本发明实施例中，能够稳定迅速识别出人脸图像所对应的人脸表情类型，减少重复性工作；并且无需进行相关的样本训练，解决人脸表情训练数据不足、训练数据质量差的问题；并且提供了深度学习与专家领域知识结合的思路，提高了人脸表情识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于零样本学习的人脸表情识别方法的流程示意图；

图2是本发明实施例中的基于零样本学习的人脸表情识别装置的结构组成示意图；

图3是本发明实施例中的对抗网络模型的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，图1是本发明实施例中的基于零样本学习的人脸表情识别方法的流程示意图。

如图1所示，一种基于零样本学习的人脸表情识别方法，所述方法包括：

S11：接收输入的人脸图像，并基于深度神经网络模型提取所述人脸图像的图像特征；

在本发明具体实施过程中，所述接收输入的人脸图像，包括：接收图像采集设备采集的采集图像，并将所述采集图像输入目标检测网络模型中进行人脸检测，并裁剪出采集图像中的人脸区域图像，所述人脸区域图像大小为224*224；对所述人脸区域图像进行图像颜色归一化处理，并形成输入的人脸图像。

进一步的，所述深度神经网络模型为以残差网络模型为主干网络搭建18层的网络模型；其中，所述深度神经网络模型的全连接层的输入维度为512，输出维度为512；所述深度神经网络模型的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。

具体的，通过图像采集设备采集图像，让后将该采集图像输入，然后接收到图像采集设备采集的采集图像，并将该采集图像输入目标检测网络模型(Faster R-CNN)中进行人脸检测并裁剪出采集图像中的人脸区域图像，所述人脸区域图像大小为224*224，通过裁剪，可以得到采集图像中更加精确的人脸图像区域；然后需要对裁剪的人脸图像进行图像颜色归一化处理，即所有图像的每个颜色通道的各个像素减去该通道的像素平均值然后除以该通道的像素标准差；将归一化的人脸图像作为输入人脸图像。

该深度神经网络采用残差网络模型ResNet，它是2015年提出的深度卷积神经网络，获得过ILSVRC图像识别竞的赛冠军；在本申请中，使用ResNet模型作为模型的主干网络，搭建18层的残差网络ResNet18，θ(x)表示图片经过神经网络提取出的d维特征向量，位于图中的倒数第二层(FC，512)，表示全连接层，输出的特征向量为512，即d＝512。本发明搭建的深度神经网络按顺序排列每一层的参数配置如表1所示。

表1.深度神经网络结构参数表

其中“3x3 conv，64”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是64，具体参数如上表所示；其中“3x3 conv，128，/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是64，同时步长为2，具体参数如上表所示；其中“3x3 conv，128”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是128，具体参数如上表所示；其中“3x3 conv，256，/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是256，同时步长为2，具体参数如上表所示；其中“3x3 conv，256”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是256，具体参数如上表所示；其中“3x3 conv，512，/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是512，同时步长为2，具体参数如上表所示；其中“3x3 conv，512”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是512，具体参数如上表所示；其中“Avg pool'’表示的是平均池化层，具体的参数如上表所示；其中“FC，512”表示的是全连接层，输出的维度是512；其中“FC，15”表示的是全连接层，输出的维度是15。

然后将该人脸图像输入该于深度神经网络模型进行图像特征提取处理，输出该人脸图像的图像特征。

S12：将所述图像特征转化为图像语义向量；

在本发明具体实施过程中，所述将所述图像特征转化为图像语义向量，包括：在所述深度神经网络模型中的原有连接层之后增设一个第二全连接层，其中，所述第二全连接层的输入维度为512，输出维度为15；将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理，获得输出的图像语义向量。

进一步的，所述将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理的公式如下：

其中，

具体的，即在该深度神经网络的全连接层增设一个第二全连接层，该第二全连接层的输入维度为512，输出维度为15；即可实现将深度神经网络模型输出的图像特征经过该第二全连接层进行转化处理，获得输出的图像语义向量。

既有如下公式：

其中，

S13：从数据库中提取多种人脸表情对应的属性文本信息，并将所述属性文本信息转化为属性语义向量；

在本发明具体实施过程中，所述多种人脸表情包括：生气、高兴、悲伤、害怕、惊奇、讨厌、中性；所述属性文本信息包括眉毛是否上扬、下垂、并拢和紧锁，眼镜是否怒视、眯眼和瞪大，嘴唇是否紧锁、上嘴唇上扬和微微张开，嘴角是否翘起和微微下拉，皱纹是否印堂和眼尾，其他。

进一步的，所述将所述属性文本信息转化为属性语义向量，包括：在所述属性文本信息中存在对应的表情属性的用1表示，不存在的用0表示；基于属性文本信息中对应的表情属性的表示转化为属性语义向量；其中，所述属性语义向量与所述图像语义向量的维度相同。

具体的，心理学家P.Ekman和W.V.Friesen经过长期的实证研究发现，人脸表情具有共性和普适性，其具体表现形式不受种族、性别、年龄、文化背景等因素的影响，于1971年提出人类共有生气(Anger)、高兴(Joy)、悲伤(Sadness)、害怕(Fear)、惊奇(Surprise)、讨厌(Disgust)六种主要人脸表情。在实际应用中，通常包含中性(Neutral)或无情感构成常见的七种基本型情感。即：

Y＝{分别是：生气、高兴、悲伤、害怕、惊奇、讨厌、中性}。

根据专家知识，每种表情由15维的属性语义向量表示，该表情有的属性取1，否则取0，这些属性语义向量预先保存在数据库中。例如：φ(生气)＝(0 1 1 0 1 0 0 1 0 0 00 0 0 0)表示生气表情的属性语义向量。φ(高兴)＝(0 0 0 0 0 0 0 0 0 0 1 0 0 1 0)表示高兴表情的属性语义向量。具体如表2.

表2

S14：计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，获得相似度计算结果；

在本发明具体实施过程中，所述计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，包括：基于内积计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度；计算公式如下：

其中，

具体的，根据输入人脸图像的图像语义向量，本实施案例计算其与每个表情类型y的属性语义向量之间的相似度s^y，方法采用两者的内积：

其中，

S15：基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。

在本发明具体实施过程中，所述基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型，包括：基于所述相似度计算结果获得所述图像语义向量与每一个人脸表情类型对应的相似度；取所述图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型；

具体公式如下：

具体的，根据相似度计算结果得到述图像语义向量与每一个人脸表情类型对应的相似度；，然后取图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型；即如下：

在本发明中，还包括利用属性语义向量生成新的人脸图像最为输入人脸图像，用于对人脸表情识别方法进行训练数据的增强并提升后续的人脸表情识别的精度；即生成对抗网络(GAN)是由Ian Goodfellow于2014年首次提出的，其初衷即生成不存在于真实世界的数据，类似于AI具有创造力和想象力。GAN的结构主要包括生成器G(Generator)和判别器D(Discriminator)。生成器能够通过输入一个向量对应输出一张图像；而判别器是用来判别图片是来自数据集中的还是来源于生成器中生成的，其输入是图片，输出为判别图片的标签；对抗网络如图3所示，首先根据每个表情类型y，将其对应的属性语义向量Z作为生成器的输入来合成一张Fake图像。其次对合成的图像和训练数据一同输入判别器。接着通过判别器，鉴别真实图像和合成图像同时对图像进行分类。这个合成过程可以补足训练数据集，此外还可以提升分类器的质量。

实施例二

请参阅图2，图2是本发明实施例中的基于零样本学习的人脸表情识别装置的结构组成示意图。

如图2所示，一种基于零样本学习的人脸表情识别装置，所述装置包括：

特征提取模块21：用于接收输入的人脸图像，并基于深度神经网络模型提取所述人脸图像的图像特征；

表1.深度神经网络结构参数表

其中“3x3 conv,64”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是64，具体参数如上表所示；其中“3x3 conv,128,/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是64，同时步长为2，具体参数如上表所示；其中“3x3 conv,128”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是128，具体参数如上表所示；其中“3x3 conv,256,/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是256，同时步长为2，具体参数如上表所示；其中“3x3 conv,256”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是256，具体参数如上表所示；其中“3x3 conv,512,/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是512，同时步长为2，具体参数如上表所示；其中“3x3 conv,512”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是512，具体参数如上表所示；其中“Avg pool”表示的是平均池化层，具体的参数如上表所示；其中“FC，512”表示的是全连接层，输出的维度是512；其中“FC，15”表示的是全连接层，输出的维度是15。

第一转化模块22：用于将所述图像特征转化为图像语义向量；

其中，

既有如下公式：

其中，

第二转化模块23：用于从数据库中提取多种人脸表情对应的属性文本信息，并将所述属性文本信息转化为属性语义向量；

根据专家知识，每种表情由15维的属性语义向量表示，该表情有的属性取1，否则取0，这些属性语义向量预先保存在数据库中。例如：φ(生气)＝(0 1 1 0 1 0 0 1 0 0 00 0 0 0)表示生气表情的属性语义向量。φ(高兴)＝(0 0 0 0 0 0 0 0 00 1 0 0 1 0)表示高兴表情的属性语义向量。具体如表2.

表2

相似度计算模块24：用于计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度，获得相似度计算结果；

其中，

其中，

表情识别模块25：用于基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。

具体公式如下：

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于零样本学习的人脸表情识别方法及装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。