CN111325190A

CN111325190A - 一种表情识别方法、装置、计算机设备及可读存储介质

Info

Publication number: CN111325190A
Application number: CN202010248558.7A
Authority: CN
Inventors: 陈冠男
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-06-23
Anticipated expiration: 2040-04-01
Also published as: WO2021196928A1; CN111325190B; US20220343683A1

Abstract

本发明公开一种表情识别方法，包括：对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息；将人脸图像输入四个级联的卷积模块中，进行特征处理，得到第四个卷积模块所输出的特征响应图；将特征响应图输入至全局平均池化层模块中，得到第一维数的特征向量；对前三个卷积模块输出的特征响应图进行关键点特征提取，得到关键点特征信息；将第一维数的特征向量与关键点特征信息进行连接，得到第二维数的特征向量；将第二维数的特征向量输入至全连接层模块中，得到第三维数的特征向量；将第三维数的特征向量输入至已训练的神经网络分类器中，输出人脸图像的表情类别信息。本发明结构简单，且参数量小。

Description

一种表情识别方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及图形处理技术领域。更具体地，涉及一种表情识别方法、装置、计算机设备及可读存储介质。

背景技术

深度学习技术如今已取得了突飞猛进的发展，Google、facebook、百度等企业投入了巨大资本和人力进行深度学习的技术研究，不断推出其特有的产品和技术，其他诸如IBM、微软、亚马逊等企业也在不断进军深度学习领域，并取得了一定的成果。

深度学习技术在人类数据感知领域取得了突破性的进展，例如描述图像内容、识别图像中的复杂环境下的物体以及在嘈杂环境中进行语音识别，同时，深度学习技术还可以解决图像生成和融合的问题。

目前，人脸特征识别是近年来生物模式识别中的热点技术，该技术要求对人脸的面部特征点进行检测定位，并根据这些特征点进行人脸匹配，表情分析等应用，近些年来，很多研究机构和企业都在目标识别领域进行了大量的资源投入，并且获得了一系列的成果，这些成果在安防、金融、生活娱乐等行业也有了很多的应用，表情识别是人脸特征识别技术的延伸，也是该领域的一个难点，由于人类面部表情的复杂性，利用机器学习的方法对表情进行分类的准确率一直难以有实质性突破，深度学习的发展为图像模式识别的性能提升提供了更多的可能性，所以基于深度学习技术的表情识别研究也是近年来人脸特征识别领域的热门关注点。

现有技术中，目前的表情识别方法大多是利用人脸关键点对人脸图像进行截取，将截取出的眼睛和嘴部图像都放大成人脸图像大小，并一起输入深度学习网络中进行训练，得到表情识别的深度学习模型，但是这种方法模型结构复杂，且参数量较多。

发明内容

为了解决背景技术中所提出的技术问题，本发明第一方面提出了一种表情识别方法，包括以下步骤：

对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息；

将所述人脸图像输入四个级联的卷积模块中，对输入的人脸图像依次进行特征处理，得到第四个卷积模块所输出的特征响应图；

将所述第四个卷积模块所输出的特征响应图输入至全局平均池化层模块中，得到第一维数的特征向量；

利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息；

将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接，得到第二维数的特征向量；

将所述第二维数的特征向量输入至全连接层模块中进行处理，得到第三维数的特征向量；

将第三维数的特征向量输入至已训练的神经网络分类器中，以由所述神经网络分类器输出所述人脸图像的表情类别信息。

可选地，所述对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息包括：

基于Dlib库对所述人脸图像进行人脸关键点位置检测，获取人脸图像中的眼睛和嘴部的关键点来作为人脸关键点位置信息。

可选地，所述卷积模块包括：输入层、卷积层、归一化层、激活函数层、池化层以及输出层；

其中，所述卷积层的输入端与所述输入层连接，所述归一化层的输入端与所述卷积层的输出端连接，所述激活函数层的输入端与所述归一化层的输出端连接，所述池化层的输入端与所述激活函数层的输出端连接，所述输出层的输入端与所述池化层的输出端连接。

可选地，所述利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息包括：

利用所述人脸关键点位置信息，在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值；

将所述人脸关键点位置信息在各个特征响应图中相对应的响应值进行加权平均，得到各个卷积模块所分别输出的特征响应图的关键点特征信息。

可选地，所述关键点特征信息通过下式得到：

其中，K_i，j为关键点特征信息，

为人脸关键点位置信息在特征响应图中第n个通道的响应值，N为特征响应图的通道数量。

可选地，在所述利用所述人脸关键点位置信息，在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值之前的步骤还包括：

将各个卷积模块所输出的特征响应图的尺寸调整至与所述人脸图像的尺寸相同。

可选地，所述对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息之前的步骤还包括：

获取输入图像，对输入图像进行人脸检测，将检测到的人脸图像的尺寸调整至预设尺寸。

可选地，所述神经网络分类器通过随机梯度下降法训练得到。

本发明第二方面提出了一种表情识别装置，包括：

人脸关键点位置检测模块，用于对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息；

四个级联的卷积模块，用于输入所述人脸图像，对输入的人脸图像依次进行特征处理，得到第四个卷积模块所输出的特征响应图；

全局平均池化层模块，用于根据输入的第四个卷积模块所输出的特征响应图来得到第一维数的特征向量；

关键点特征信息模块，用于利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息；

特征向量连接模块，用于将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接，得到第二维数的特征向量；

全连接层模块，用于将输入的所述第二维数的特征向量进行处理，得到第三维数的特征向量；

神经网络分类器，用于将输入第三维数的特征向量输入至已训练的神经网络分类器中，以由所述神经网络分类器输出所述人脸图像的表情类别信息。

本发明第三方面提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面所述的方法。

本发明第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得所述计算机执行本发明第一方面所述的方法。

本发明的有益效果如下：

本发明所述技术方案具有原理明确、设计简单的优点，具体利用了人脸关键点位置信息对特征响应图进行关键点特征提取的机制，达到对输入的人脸图像进行相应的表情识别的目的，结构简单，且参数量小。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明的一个实施例提出的一种表情识别方法的流程图；

图2示出本实施例中表情识别方法的算法结构的示意图；

图3示出人脸关键点位置的示意图；

图4示出本实施例中卷积模块的结构示意图；

图5示出本实施例中对前三个卷积模块的特征响应图进行关键点特征提取的流程图；

图6示出本发明的另一个实施例提出的一种计算机设备的结构示意图。

具体实施方式

为使本发明的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1示出本发明的一个实施例提出的一种表情识别方法的步骤流程图，该表情识别方法可以应用于终端设备，该终端设备可以是智能手机、平板电脑、个人计算机或服务器等，为了便于理解，下面先简要地介绍一下该表情识别方法的算法结构。

如图2所示，本实施例中的表情识别方法的算法结构包括有人脸图像输入层、人脸关键点位置检测模块、4个级联的卷积层模块、全局平均化池化层模块、关键点特征信息模块、特征向量连接模块、全连接层以及分类器；

其中，

人脸关键点位置检测用于对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息；

四个级联的卷积模块用于输入所述人脸图像，对输入的人脸图像依次进行特征处理，得到第四个卷积模块所输出的特征响应图；

全局平均池化层模块用于根据输入的第四个卷积模块所输出的特征响应图来得到第一维数的特征向量；

关键点特征信息模块用于利用所述人脸关键点位置信息分别对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息；

特征向量连接模块用于将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接，得到第二维数的特征向量；

全连接层模块用于将输入的所述第二维数的特征向量进行处理，得到第三维数的特征向量；

分类器用于将输入第三维数的特征向量输入至已训练的神经网络分类器中，以由所述神经网络分类器输出所述人脸图像的表情类别信息。

在这里，表情类别信息可以为高兴、惊讶、平静、悲伤、生气、厌恶和恐惧，当然，也可以预设其他种类的表情。

以上介绍了表情识别方法的算法结构，下面详细的介绍表情识别方法，该表情识别方法如图1所示，包括：

S100、对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息；

S200、将所述人脸图像输入四个级联的卷积模块中，对输入的人脸图像依次进行特征处理，得到第四个卷积模块所输出的特征响应图；

S300、将所述第四个卷积模块所输出的特征响应图输入至全局平均池化层模块中，得到第一维数的特征向量；

S400、利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息；

S500、将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接，得到第二维数的特征向量；

S600、将所述第二维数的特征向量输入至全连接层模块中进行处理，得到第三维数的特征向量；

S700、将第三维数的特征向量输入至已训练的神经网络分类器中，以由所述神经网络分类器输出所述人脸图像的表情类别信息。

具体的，在S100中，还包括：基于Dlib库对所述人脸图像进行人脸关键点位置检测，获取人脸图像中的眼睛和嘴部的关键点来作为人脸关键点位置信息。

需要说明的是，Dlib库是一种类似OpenCV的图像处理算法综合应用库，属于现有技术，而人脸关键点识别是该库的一类亮点功能，Dlib库的人脸关键点位置检测是基于机器学习中的随机森林算法开发而成，可描述人脸内68个关键点位置，如图3所示，包括有眉、眼、鼻、口以及下颚，且运算速度较快，在本实施例中，为了能够使得深度学习网络对表情特征更聚焦，因此，从68个关键点中选取了与表情关联最大的眼睛和嘴巴共32个关键点来作为人脸关键点位置信息。

进一步的，在本实施例中，在S100之前的步骤还包括有：获取输入图像，对输入图像进行人脸检测，将检测到的人脸图像的尺寸调整至预设尺寸。

具体的，可通过Dlib库来对获取的输入图像中的人脸进行相应的检测，将检测到的人脸图像的尺寸统一变化为预设尺寸，在这里，预设尺寸的具体大小可由工作人员的实际需要自行进行设定，本实施例对此不做限定，示例性的，预设尺寸可为48×48。

在S200中，如图4所示，卷积模块具体可包括：输入层、卷积层、归一化层、激活函数层、池化层以及输出层。

具体的，所述卷积层的输入端与所述输入层连接，所述归一化层的输入端与所述卷积层的输出端连接，所述激活函数层的输入端与所述归一化层的输出端连接，所述池化层的输入端与所述激活函数层的输出端连接，所述输出层的输入端与所述池化层的输出端连接。

在本实施例中，四个级联卷积模块的作用就是在对输入的不同尺度的特征响应图进行特征提取，并输出处理后的特征响应图，为了便于理解，按照四个卷积模块由上至下的排列顺序，将四个卷积模块分别定义为第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块。

在具体实施中，人脸图像会首先输入至第一卷积模块内，如图4所示，第一卷积模块的尺度包括3×3卷积核、32通道，人脸图像经由第一卷积模块处理后得到尺度为24×24、通道数为32的特征响应图，第一卷积模块的输出作为第二卷积模块的输入，第二卷积模块包括3×3卷积核、64通道，将24×24、通道数为32的特征响应图输入至第二卷积模块进行处理后得到尺度为12×12、通道数为64的特征响应图，第二卷积模块的输出作为第三卷积模块的输入，第三卷积模块包括3×3卷积核、128通道，将12×12、通道数为64的特征响应图输入至第三卷积模块进行处理后得到尺度为6×6、通道数为128的特征响应图，第三卷积模块的输出作为第四卷积模块的输入，第四卷积模块包括3×3卷积核、256通道，将6×6、通道数128的特征响应图输入至第四卷积模块进行处理后得到尺度为3×3、通道数256的特征响应图。

在S300中，全局平均池化层模块的作用是将第四个卷积模块所输出的特征响应图以求均值的方式变成第一维数的特征向量，在这里，第一维数具体为1×256。

在S400中，如图5所示，通过关键点特征信息模块来利用人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，也就是对第一卷积模块、第二卷积模块以及第三卷积模块所分别输出的特征响应图进行关键点特征提取，从而得到第一卷积模块、第二卷积模块以及第三卷积模块所分别输出的特征响应图的关键点特征信息。

具体的，S400包括如下子步骤：

在本实施例中，根据前述步骤中所得到的人脸关键点位置信息，分别在第一卷积模块、第二卷积模块以及第三卷积模块所输出的特征响应图中提取与人脸关键点位置信息所相对应的响应值，也就是提取与眼睛和嘴巴共32个关键点所相对应的响应值，并将各个关键点在特征响应图中的响应值进行加权平均，最后获取的是各个卷积模块所输出的特征响应图所对应的一组32个响应值。

进一步的，所述关键点特征信息通过下式得到：

其中，K_i，j为关键点特征信息，

在本实施例中，在所述利用所述人脸关键点位置信息，在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值之前的步骤还包括：

具体的，可通过上采样的操作，来将各个卷积模块所分别输出的特征响应图的尺寸调整至与输入的人脸图像的尺寸一致。

在S500中，将S300中得到的第一维数的特征向量前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接，得到第二维数的特征向量，在这里，在提取了前三个卷积模块所输出的特征响应图的关键点特征信息后，将3个1×32维的特征向量与第一维数的特征向量进行连接，从而获得第二维数的特征向量，在这里，第二维数具体为1×352。

在S600中，全连接层模块的输出向量的每个元素均与输入向量的每个元素进行连接，可以为输入向量的所有特征进行融合，因此，经过全连接层模块后，全局平均池化层模块所输出的第一维数的特征向量与前三个卷积模块所输出的特征响应图的关键点特征信息进行融合，从而得到第三维数的特征向量，具体的，全连接层模块的输入第二维数的特征向量，输出第三维数的特征向量，第三维数为1×128。

在S700中，可通过将第三维数的特征向量输入至已训练的神经网络中的Softmax层中来计算每种预设的表情类别的置信度，其中，置信度可由下式得到：

其中，j为表情类别的序号，x为softmax层的输入向量(也就是本实施例中的第三维数的特征向量)，w为网络权重参数，P(y＝j|x)为Ssoftmax层的输入向量为x时，对应的表情类别为第j种表情类别的置信度。

在本实施例中，可根据每种表情类别的置信度确定待识别的人脸图像所对应的表情类别，具体可以将置信度最大的表情类别确定为人脸图像对应的表情类别。

需要说明的是，本实施例中的神经网络分类器可以通过随机梯度下降法训练得到，首先可以获取待训练的神经网络以及各种预设的表情类别的人脸图像样本，然后每次获取一定数量的人脸图像的样本并将其进行预处理，将预处理后的人脸图像样本输入至神经网络中进行梯度下降迭代训练，直至达到预设训练条件，获得训练好的神经网络分类器，其中，预设训练条件可以为：迭代次数达到预设次数，或者损伤函数的取值小于预设值，在本实施例中，可以采用交叉熵来作为损伤函数。

在本实施例中，预设的表情类别可以包括：高兴、惊讶、平静、悲伤、生气、厌恶和恐惧，当然，也可以预设其他数量，其他种类的表情类别。

综上所述，本发明所述技术方案具有原理明确、设计简单的优点，具体利用了人脸关键点位置信息对特征响应图进行关键点特征提取的机制，达到对输入的人脸图像进行相应的表情识别的目的，结构简单，且参数量小。

本发明的另一个实施例提出的一种表情识别装置，包括：

本发明的再一个实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述表情识别方法。如图6所示，适于用来实现本实施例提供的服务器的计算机系统，包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，提据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括人脸关键点位置检测模块、四个级联的卷积模块、全局平均池化层模块等。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明的表情识别方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的表情识别方法，其特征在于，

所述对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息包括：

3.根据权利要求1所述的表情识别方法，其特征在于，所述卷积模块包括：输入层、卷积层、归一化层、激活函数层、池化层以及输出层；

4.根据权利要求1所述的表情识别方法，其特征在于，

所述利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息包括：

5.根据权利要求4所述的表情识别方法，其特征在于，

所述关键点特征信息通过下式得到：

其中，K_i，j为关键点特征信息，

6.根据权利要求4所述的表情识别方法，其特征在于，

在所述利用所述人脸关键点位置信息，在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值之前的步骤还包括：

7.根据权利要求1所述的表情识别方法，其特征在于，

所述对人脸图像进行人脸关键点位置检测，得到人脸关键点位置信息之前的步骤还包括：

8.根据权利要求1-7中任一项所述的表情识别方法，其特征在于，

所述神经网络分类器通过随机梯度下降法训练得到。

9.一种表情识别装置，其特征在于，包括：

关键点特征信息模块，用于利用所述人脸关键点位置信息分别对前三个卷积模块所分别输出的特征响应图进行关键点特征提取，得到前三个卷积模块所分别输出的特征响应图的关键点特征信息；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得所述计算机执行权利要求1-8中任一项所述的方法。