CN111108508B

CN111108508B - 脸部情感识别方法、智能装置和计算机可读存储介质

Info

Publication number: CN111108508B
Application number: CN201980003175.9A
Authority: CN
Inventors: 丁万; 黄东延; 李柏; 邵池; 熊友军
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-10-13
Anticipated expiration: 2039-12-23
Also published as: CN111108508A; WO2021127916A1

Abstract

本发明实施例公开了一种脸部情感识别方法，包括：获取待识别人脸图像，对待识别人脸图像进行形态学特征提取，获取待识别人脸图像的形态学特征；将待识别人脸图像和待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取待识别人脸图像的脸部情感。本发明还提供了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确率。

Description

脸部情感识别方法、智能装置和计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及脸部情感识别方法、智能装置和计算机可读存储介质。

背景技术

脸部形态特征指的是脸部的形状如眼睛大小、鼻子形状、嘴唇厚薄、皱纹多少等。脸部形态特征映射指的是脸部形态能够反映人的文化背景和社会背景(如东方人或西方人、年龄大小、从事的行业等)，而不同背景的人的脸部情感表达方式也有所差异。例如西方人的情感表达会有相对明显的嘴部的动作，东方人的情感表达主要集中于眼部区域。现有的脸部情感识别技术主要考虑如何提取形态学不变(即特征值不随形态学变化而变化)的脸部情感识别特征，忽略了脸部形态学信息与情感识别的相关性，会导致情感识别结果的不准确。

发明内容

基于此，有必要针对上述问题，提出了脸部情感识别方法、智能装置和计算机可读存储介质。

一种脸部情感识别方法，所述方法包括：获取待识别人脸图像，对所述待识别人脸图像进行形态学特征提取，获取所述待识别人脸图像的形态学特征；将所述待识别人脸图像和所述待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取所述待识别人脸图像的脸部情感。

一种智能装置，包括：获取模块，用于获取待识别人脸图像，对所述待识别人脸图像进行形态学特征提取，获取所述待识别人脸图像的形态学特征；识别模块，用于将所述待识别人脸图像和所述待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取所述待识别人脸图像的脸部情感。

一种智能装置，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如上所述的方法。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。

采用本发明实施例，具有如下有益效果：

对待识别人脸图像进行形态学特征提取，获取待识别人脸图像的形态学特征，将待识别人脸图像及其形态学特征输入预训练的情感识别神经网络，获取该情感识别神经网络的输出作为待识别人脸图像的脸部情感，结合形态学特征对待识别人脸图像进行情感识别，可以有效提升情感识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明一个实施例中脸部情感识别方法应用环境图；

图2是本发明提供的脸部情感识别方法的第一实施例的流程示意图；

图3是本发明提供的脸部情感识别方法的第二实施例的流程示意图；

图4是本发明提供的脸部情感识别方法的第三实施例的流程示意图；

图5是本发明提供的智能装置的第一实施例的结构示意图；

图6是本发明提供的智能装置的第二实施例的结构示意图；

图7是本发明提供的计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中主要考虑如何提取形态学不变(即特征值不随形态学变化而变化)的脸部情感识别特征，忽略了脸部形态学信息与情感识别的相关性，会导致情感识别结果的不准确。

在本实施例中，为了解决上述问题，提供了一种脸部情感识别方法，可以有效提升脸部情感识别的准确性。

请参阅图1，图1是本发明一个实施例中脸部情感识别方法应用环境图。参照图1，该脸部情感识别方法应用于脸部情感识别系统。该脸部情感识别系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑、机器人等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取待识别人脸图像，服务器120用于对待识别人脸图像进行形态学特征提取，获取待识别人脸图像的形态学特征，以及将待识别人脸图像和待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取待识别人脸图像的脸部情感。

请参阅图2，图2是本发明提供的脸部情感识别方法的第一实施例的流程示意图。本发明提供的脸部情感识别方法包括如下步骤：

S101：获取待识别人脸图像，对待识别人脸图像进行形态学特征提取，获取待识别人脸图像的形态学特征。

在一个具体的实施场景中，首先获取待识别的人脸图像。例如，可以直接获取由用户提供的人脸图像，或者是通过图像分割方法获取图片中的待识别人脸图像，还可以是从图像集合中获取待识别人脸图像。

在获取到待识别人脸图像后，对该待识别人脸图像进行形态学特征提取。例如，该待识别人脸图像带有用户标注的形态学标识，可以通过读取该标识获取形态学特征。还可以通过将待识别人脸图像输入预训练的形态学特征提取网络，从而获取待识别人脸图像的形态学特征。

在本实施场景中，需要对形态学特征提取网络进行训练，例如，通过事先准备大量的训练人脸图像及其对应的形态学标识，将训练人脸图像及其对应的形态学标识输入形态学特征提取网络进行训练，定义该训练的算法和训练的网络结构、损失函数、终止条件后开始训练，训练完成后可获取预训练的形态学特征提取网络。

在本实施场景中，形态学特征包括胖瘦、人种、年龄、脸部类型中的至少一项数据，形态学特征与脸部情感的表达方式具有密切的关联，例如，不同的文化背景会影响其脸部情感的表达方式，东方人的情感表达主要集中于眼部，嘴部的情感表达不激烈，而西方人则相反。因此，在本实施例中，对待识别脸部图形进行脸部情感识别之前，先获取待识别脸部图像的形态学特征，将形态学特征作为脸部情感识别的依据之一，可以有效提升脸部情感识别的准确性。

S102：将待识别人脸图像和待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取待识别人脸图像的脸部情感。

在本实施场景中，将待识别人脸图像及其形态学特征输入预训练的情感识别神经网络，获取该待识别的人脸图像的脸部情感。

在本实施场景中，需要对情感识别神经网络进行训练，例如，事先准备大量的训练人脸图像，以及标注该训练人脸图像对应的脸部情感，获取该人脸图像的形态学特征，将训练人脸图像及其脸部情感输入情感识别神经网络，进行训练，定义该情感识别神经网络的结构损失函数和训练的终止条件后开始训练，训练完成后可获取预训练的情感识别神经网络。

通过上述描述可知，在本实施例中获取待识别人脸图像的形态学特征，结合待识别人脸图像的形态学特征进行情感识别，可以有效提升情感识别的准确率。

请参阅图3，图3是本发明提供的脸部情感识别方法的第二实施例的流程示意图。本发明提供的脸部情感识别方法包括如下步骤：

S201：获取待识别人脸图像，将待识别人脸图像输入预训练的形态学特征提取神经网络，获取待识别人脸图像的形态学特征。

在一个具体的实施场景中，将待识别人脸图像输入预训练的形态学特征提取网络。预训练的形态学特征提取网络输出的待识别人脸图像的形态学特征为m维形态学特征向量V，V＝(v₁,...,v_i,...,v_m)。

S202：将待识别人脸图像的形态学特征输入预训练的注意力神经网络，获取待识别人脸图像的注意力地图。

用深度神经网络处理计算图像时，步骤首先是对图像中的特征进行提取，这些特征在神经网络“眼里”没有差异，神经网络并不会过多关注某个“区域”。注意力机制从本质上讲和人类的选择性视觉注意力机制类似，目的也是从众多信息中选择出对当前任务目标更关键的信息。注意力神经网络用于学习权重分布，在深度学习的进程中，输入数据或特征图上的不同部分对应的专注度不同。通过迭代训练，注意力神经网络将会越来越注重具有细微差别的地方，则对应地，注意力地图中对应细微差别区域的权重将会越重。

在本实施场景中，将m维形态学特征向量V输入预训练的注意力神经网络，获取n×n维的脸部注意力地图A_n×n。具体地说，根据m维形态学特征向量V获取形态学特征序列U，其中，/>为m×n²维的矩阵，形态学特征向量V通过/>进行reshape变换，获取n×n维的形态学特征矩阵U_n×n，U_n×n＝U。形态学特征矩阵U_n×n经过softmax函数进行归一化就得到了符合概率分布取值区间的注意力分配概率的注意力地图A_n×n。

在其他实施场景中，还可以通过卷积转置的方法获取n×n维的脸部注意力地图A_n×n。

S203：将待识别人脸图像及其形态学特征输入预训练的特征识别神经网络，获取待识别人脸图像的特征地图。

在本实施场景中，将待识别人脸图像分为若干分区(x_i-k,...,x_i,...,x_i+k)。将m维形态学特征向量V(v₁,...,v_i,...,v_m)和若干分区(x_i-k,...,x_i,...,x_i+k)输入预训练的特征识别神经网络，获取每个区域的特征将每个区域的特征h_i按照对应的若干分区的相对位置进行组合，得到待识别人脸图像的特征地图。

需要说明的是，步骤S202和步骤S203可以同时或者先后进行。

S204：将注意力地图和特征地图相融合，获取训练人脸图像的特征识别结果。

在本实施场景中，注意力地图表示了待识别人脸图像各个区域的特征的权重，特征地图表示了待识别人脸图像的各个区域的形态学特征，两者融合可以获取待识别人脸图像各个区域形态学特征乘以其对应的权重的结果，这些结果组合即可获取待识别人脸图像的特征识别结果。

在本实施场景中，将注意力地图和特征地图相点乘，实现人脸图像各个区域的特征的权重信息的加入，在其他实施场景中，还可以基于注意力权值设计池化(pooling)，滤波器(filer)，ROI(regions of interest)detection等算法来实现人脸图像各个区域的特征的权重信息的加入。

S205：将特征识别结果输入预训练的情感分类神经网络，获取待识别人脸图像的脸部情感。

在本实施场景中，将上述步骤中获取的待识别人脸图像的特征识别结果输入预训练的情感分类神经网络，获取待识别人脸图像的脸部情感。

在本实施场景中，情感分类神经网络经过训练，可以根据待识别人脸图像的特征识别结果对待识别人脸图像的脸部情感进行分类，从而获取待识别人脸图像的脸部情感。

通过上述描述可知，在本实施例中获取待识别人脸图像的形态学特征，结合待识别人脸图像的形态学特征获取待识别人脸图像的注意力地图和特征地图，将二者融合，获取待识别人脸图像的特征识别结果，将特征识别结果输入预训练的情感分类神经网络，获取待识别人脸图像的脸部情感，充分考虑了形态学特征和脸部情感之间的联系，可以有效提升情感识别的准确率。

请参阅图4，图4是本发明提供的脸部情感识别方法的第三实施例的流程示意图。本发明提供的脸部情感识别方法包括如下步骤：

S301：获取待识别人脸图像，将待识别人脸图像输入预训练的形态学特征提取神经网络，获取待识别人脸图像的形态学特征。

在一个具体的实施场景中，本步骤与本发明提供的脸部情感识别方法的第二实施例中的步骤S201基本一致，此处不再进行赘述。

在本实施场景中，形态学特征提取神经网络为卷积神经网络，卷积神经网络可以降低网络模型的复杂度，同时对于平移、旋转、尺度缩放等形式的变有度的不变性。因此被广泛应用于图像分类、目标识别、语音识别等领域。基于图像的识别、分类等操作，具有无接触、高精度的特点，尤其在活体检测、识别、分类等过程中这种无接触的方式适用性极强。

S302：将形态学特征输入第一神经网络，获取形态学特征序列。

在本实施场景中，第一神经网络为全连接网络，在其他实施场景中，第一神经网络也可以是其他种类的神经网络。

由于本实施场景中，待识别人脸图像的形态学特征为m维形态学特征向量V，V＝(v₁,...,v_i,...,v_m)。因此，第一神经网络的尺寸为m×n²，以将m维的向量转为n²维的序列。第一神经网络输出形态学特征序列U，

S303：将形态学特征序列进行矩阵变化，生成形态学特征矩阵。

在本实施场景中，将形态学特征序列U进行矩阵变化(reshape)，将其由n²维的序列转换为n×n维的形态学特征矩阵U_n×n，U_n×n＝U。

S304：将形态学特征矩阵进行注意力运算，生成注意力地图。

在本实施场景中，通过softmax函数获取n×n维的脸部注意力地图A_n×n，A_n×n＝softmax(U_n×n)。

注意力地图A_n×n可以表示待识别图像n×n个分区的形态学特征的权重，例如对应眼部的分区的权重、对应嘴部的分区的权重等等，不同部分的分区的权重，由于形态学特征的不同而有所差距。例如东方人的情感表达主要集中于眼部，嘴部的情感表达不激烈，而西方人则相反。因此当形态学特征包括人种为东方人种时，对应眼部的分区的权重将会大于对应嘴部分区的权重。而当形态学特征包括人种为西方人种时，对应眼部的分区的权重将会小于对应嘴部分区的权重。

S305：将待识别人脸图像及其形态学特征输入第二神经网络，获取待识别人脸图像各分区的特征，将各分区的特征组合，获取训练人脸图像的特征地图。

在本实施场景中，第二神经网络为条件卷积网络，卷积网络在图像处理方面的优势较高，因此选择条件卷积网络。

将待识别人脸图像分为若干分区(x_i-k,...,x_i,...,x_i+k)。将m维形态学特征向量V(v₁,...,v_i,...,v_m)和若干分区(x_i-k,...,x_i,...,x_i+k)输入预训练的特征识别神经网络，获取每个分区的特征将每个分区的特征h_i按照对应的若干分区的相对位置进行组合，得到待识别人脸图像的特征地图。

在本实施场景中，分区的个数为n×n个，即，将将待识别人脸图像平均分为n×n个分区，以使得将每个分区的特征h_i按照对应的若干分区的相对位置进行组合时，获取到的待识别人脸图像的特征地图为n×n维。方便后续注意力地图与特征地图进行点乘。

需要说明的是，步骤S302和步骤S305可以同时或者先后进行。

S306：将注意力地图和特征地图相融合，获取训练人脸图像的特征识别结果。

S307：将特征识别结果输入预训练的情感分类神经网络，获取待识别人脸图像的脸部情感。

在本实施场景中，步骤S306-S307与本发明提供的脸部情感识别方法的第二实施例中的步骤S204-S205基本一致，此处不再进行赘述。

通过上述描述可知，在本实施例中通过待识别人脸图像的形态学特征生成注意力地图，可以根据形态学特征获取待识别人脸图像的不同部分的分区的权重，将各分区的权重与其对应的特征融合，对融合后的结果进行脸部情绪识别，充分考虑了形态学特征和脸部情感之间的联系，可以有效提升情感识别的准确率。

请参阅图5，图5是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括获取模块11和识别模块12。

获取模块11用于获取待识别人脸图像，对待识别人脸图像进行形态学特征提取，获取待识别人脸图像的形态学特征。识别模块12用于将待识别人脸图像和待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取待识别人脸图像的脸部情感。

获取模块11包括提取子模块111，提取子模块111用于将待识别人脸图像输入预训练的形态学特征提取神经网络，获取待识别人脸图像的形态学特征。

其中，形态学特征包括胖瘦、人种、年龄、脸部类型中的至少一项数据。

识别模块12包括注意力子模块121、特征地图子模块122、融合子模块123和输入子模块124。注意力子模块121用于将待识别人脸图像的形态学特征输入预训练的注意力神经网络，获取待识别人脸图像的注意力地图；特征地图子模块122用于将待识别人脸图像及其形态学特征输入预训练的特征识别神经网络，获取待识别人脸图像的特征地图；融合子模块123用于将注意力地图和特征地图相融合，获取训练人脸图像的特征识别结果；输入子模块124用于将特征识别结果输入预训练的情感分类神经网络，获取待识别人脸图像的脸部情感。

注意力子模块121包括序列单元1211、矩阵单元1212和权重单元1213。序列单元1211用于将形态学特征输入第一神经网络，获取形态学特征序列；矩阵单元1212用于将形态学特征序列进行矩阵变化，生成形态学特征矩阵；权重单元1213用于将形态学特征矩阵进行注意力运算，生成注意力地图。

权重单元1213用于对形态学矩阵进行注意力运算，获取形态学特征矩阵每个单元的权重。

特征地图子模块122包括分区单元1221，分区单元1221用于将待识别人脸图像及其形态学特征输入第二神经网络，获取待识别人脸图像各分区的特征，将各分区的特征组合，获取训练人脸图像的特征地图。

其中，情感分类神经网络可以为全连接神经网络；第一神经网络可以为全连接神经网络；第二神经网络可以为条件卷积神经网络。

智能装置10还包括训练模块13，训练模块13用于训练所述情感识别神经网络。训练模块13包括准备子模块131、形态学子模块132、定义子模块133和训练子模块134。准备子模块131用于准备多个训练人脸图像，标注每个训练人脸图像的脸部情感；形态学子模块132用于获取每个训练人脸图像的形态学特征；定义子模块133用于定义训练的情感识别神经网络的结构、损失函数和终止条件；训练子模块134用于将每个人脸图像的形态学特征及其对应的脸部情感输入情感识别神经网络进行训练。

通过上述描述可知，在本实施例中智能终端在识别待识别人脸图像的脸部情感时，充分考虑了形态学特征和脸部情感之间的联系，可以有效提升情感识别的准确率。

请参阅图6，图6是本发明提供的智能装置的第二实施例的结构示意图。本发明提供的智能装置20包括获取电路21、处理器22和存储器23。处理器22耦接获取电路21和存储器23。存储器23中存储有计算机程序，处理器22在工作时执行该计算机程序以实现如图2-图4所示的方法。详细的方法可参见上述，在此不再赘述。

请参阅图7，图7是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31，计算机程序31用于被处理器执行以实现如图2-图4所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，在本实施例中计算机可读存储介质中存储的计算机程序可以用于在识别待识别人脸图像的脸部情绪前，获取待识别人脸图像的形态学特征，将待识别人脸图像及其形态学特征输入预训练的情感识别神经网络，获取待识别人脸图像的脸部情感，考虑了形态学特征和脸部情感之间的联系，可以有效提升情感识别的准确率。

区别于现有技术，本发明在识别待识别人脸图像的脸部情绪时，充分考虑了形态学特征和脸部情感之间的联系，可以有效提升情感识别的准确率。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种脸部情感识别方法，其特征在于，包括：

获取待识别人脸图像，对所述待识别人脸图像进行形态学特征提取，获取所述待识别人脸图像的形态学特征；

将所述形态学特征输入第一神经网络，获取形态学特征序列，所述第一神经网络为全连接神经网络；将所述形态学特征序列进行矩阵变化，生成形态学特征矩阵；获取所述形态学特征矩阵每个单元的权重，生成注意力地图；

将所述待识别人脸图像及其所述形态学特征输入第二神经网络，获取所述待识别人脸图像各分区的特征，将所述各分区的特征组合，获取训练人脸图像的特征地图，所述第二神经网络为条件卷积神经网络；

将所述注意力地图和所述特征地图相融合，获取所述训练人脸图像的特征识别结果；

将所述特征识别结果输入预训练的情感分类神经网络，获取所述待识别人脸图像的脸部情感，所述情感分类神经网络为全连接神经网络。

2.根据权利要求1所述的脸部情感识别方法，其特征在于，所述对所述待识别人脸图像进行形态学特征提取的步骤，包括：

将所述待识别人脸图像输入预训练的形态学特征提取神经网络，获取所述待识别人脸图像的形态学特征。

3.根据权利要求2所述的脸部情感识别方法，其特征在于，所述形态学特征包括胖瘦、人种、年龄、脸部类型中的至少一项数据。

4.根据权利要求1所述的脸部情感识别方法，其特征在于，所述获取所述形态学特征矩阵每个单元的权重的步骤，包括：

对所述形态学特征矩阵进行注意力运算，获取所述形态学特征矩阵每个单元的权重。

5.根据权利要求1所述的脸部情感识别方法，其特征在于，所述将所述待识别人脸图像和所述待识别人脸图像的形态学特征输入预训练的情感识别神经网络的步骤之前，包括：

训练所述情感识别神经网络；

所述训练所述情感识别神经网络的步骤包括：

准备多个训练人脸图像，标注每个所述训练人脸图像的脸部情感；

获取每个所述训练人脸图像的形态学特征；

定义训练的所述情感识别神经网络的结构、损失函数和终止条件；

将每个人脸图像的形态学特征及其对应的脸部情感输入所述情感识别神经网络进行训练。

6.一种智能装置，其特征在于，包括：

获取模块，用于获取待识别人脸图像，对所述待识别人脸图像进行形态学特征提取，获取所述待识别人脸图像的形态学特征；

识别模块，所述识别模块包括：

注意力子模块，所述注意力子模块包括：序列单元，用于将所述形态学特征输入第一神经网络，获取形态学特征序列，所述第一神经网络为全连接神经网络；矩阵单元，用于将所述形态学特征序列进行矩阵变化，生成形态学特征矩阵；权重单元，用于获取所述形态学特征矩阵每个单元的权重，生成注意力地图；

特征地图子模块，所述特征地图子模块包括：分区单元，用于将所述待识别人脸图像及其所述形态学特征输入第二神经网络，获取所述待识别人脸图像各分区的特征，将所述各分区的特征组合，获取训练人脸图像的特征地图，所述第二神经网络为条件卷积神经网络；

融合子模块，用于将所述注意力地图和所述特征地图相融合，获取所述训练人脸图像的特征识别结果；

输入子模块，用于将所述特征识别结果输入预训练的情感分类神经网络，获取所述待识别人脸图像的脸部情感，所述情感分类神经网络为全连接神经网络。

7.根据权利要求6所述的智能装置，其特征在于，所述获取模块包括：

提取子模块，用于将所述待识别人脸图像输入预训练的形态学特征提取神经网络，获取所述待识别人脸图像的形态学特征。

8.根据权利要求6所述的智能装置，其特征在于，

所述权重单元用于对所述形态学特征矩阵进行注意力运算，获取所述形态学特征矩阵每个单元的权重。

9.一种智能装置，其特征在于，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-5任一项所述的方法。