CN113158788B

CN113158788B - 人脸表情识别方法、装置、终端设备及存储介质

Info

Publication number: CN113158788B
Application number: CN202110270308.8A
Authority: CN
Inventors: 张志远; 易苗
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2024-03-08
Anticipated expiration: 2041-03-12
Also published as: CN113158788A

Abstract

本申请适用于人工智能技术领域，提供了一种人脸表情识别方法、装置、终端设备及存储介质，其中，所述方法通过对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息；将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量；将所述第一特征向量输入表情识别模型，得到预测表情；确定与所述预测表情关联的相似表情；将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。以解决相似的对称表情识别准确度低的问题。另外，本申请还涉及区块链技术。

Description

人脸表情识别方法、装置、终端设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种人脸表情识别方法、装置、终端设备及计算机可读存储介质。

背景技术

人脸表情是最直接，最有效的情感模式。通过对拍摄得到的人脸图像进行表情识别，能够得到人脸呈现的表情。当前单表情识别主要有七种类型：生气，害怕，厌恶，开心，悲伤，惊讶以及中立。复合表情在这个基础上又分为主表情和辅助表情。

表情识别的难点在于有些表情属于同种表情的类内差异性较大，同时有些表情不属于同一表情的类但差异又很小(例如惊讶和害怕等)。在现有技术中，采用现有的表情识别算法对人脸图像进行表情识别得到的表情识别结果往往在易混淆的表情方面表现不佳，无法准确区分出差异小但属于不同类别的两种表情类或将同一表情类中差异较大的表情分错表情类别。

发明内容

有鉴于此，本申请实施例提供了一种人脸表情识别方法、装置、终端设备及计算机可读存储介质，以解决现有技术中相似的对称表情识别准确度低的问题。

本申请实施例的第一方面提供了一种人脸表情识别方法，包括：

对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息；

将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量；

将所述第一特征向量输入表情识别模型，得到预测表情；

确定与所述预测表情关联的相似表情；

将所述待识别人脸图像输入与所述预测表情关联和所述预测表情对应的所述相似表情的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。

在一个实施示例中，在将所述待识别人脸图像输入表情区分模型，得到表情识别结果之后，还包括：

若所述待识别人脸图像为人脸视频数据中任一帧图像，则将所述人脸视频数据中位于所述待识别人脸图像所在的预设时间范围内的N帧图像，作为所述待识别人脸图像的关联图像；

分别将每帧所述关联图像与所述待识别人脸图像进行相似性比对，将与所述待识别人脸图像相似的所述关联图像作为参考图像；

分别对每帧所述参考图像进行表情识别，得到每帧所述参考图像对应的表情类别；

分别统计各个所述表情类别在所述参考图像以及所述待识别人脸图像组成的图像组中对应的图像个数；所述待识别人脸图像的表情类别根据所述表情识别结果确定；

确定所述图像个数最多的表情类别为所述待识别人脸图像的人脸表情。

在一个实施示例中，所述分别将每帧所述关联图像与所述待识别人脸图像进行相似性比对，将与所述待识别人脸图像相似的所述关联图像作为参考图像，包括：

采用人脸关键点检测算法对每帧所述关联图像进行特征点提取，得到每帧所述关联图像对应的人脸特征点；

根据所述待识别人脸图像的特征点信息对所有所述关联图像对应的人脸特征点进行聚类，将与所述待识别人脸图像在同一集群的若干帧关联图像作为所述参考图像。

在一个实施示例中，所述分别对每帧所述参考图像进行表情识别，得到每帧所述参考图像对应的表情类别，包括：

对每帧所述参考图像进行人脸表观信息提取和人脸特征点检测，得到每帧所述参考图像的第二表观特征信息和第二特征点信息；

将每帧所述参考图像的所述第二表观特征信息和所述第二特征点信息融合，得到每帧所述参考图像的第二特征向量；

将各帧所述参考图像的所述第二特征向量输入表情识别模型，得到各帧所述参考图像的预测表情；

确定与各帧所述参考图像的所述预测表情关联的相似表情；

对于每帧所述参考图像，将所述参考图像输入与所述参考图像关联的表情区分模型，得到表情类别；与所述参考图像关联的表情区分模型用于区分所述参考图像的所述预测表情以及与所述参考图像的所述预测表情关联的相似表情。

在一个实施示例中，所述对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息，包括：

采用神经网络对待识别人脸图像进行人脸表观信息提取，得到所述第一表观特征信息；

采用人脸关键点检测算法对待识别人脸图像进行人脸特征点检测，得到所述第一特征点信息。

在一个实施示例中，在将所述第一特征向量输入表情识别模型，得到预测表情之前，还包括：

获取训练数据；所述训练数据包括具有表情标签的若干人脸图像；

将所述训练数据输入神经网络分类层进行训练，生成所述表情识别模型。

在一个实施示例中，在将所述待识别人脸图像输入表情区分模型，得到表情识别结果之后，包括：

将所述表情识别结果上传至区块链。

本申请实施例的第二方面提供了一种人脸表情识别装置，包括：

信息提取模块，用于对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息；

信息融合模块，用于将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量；

第一表情识别模块，用于将所述第一特征向量输入表情识别模型，得到预测表情；

相似表情确定模块，用于确定与所述预测表情关联的相似表情；

第二情识别模块，用于将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。

本申请实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的人脸表情识别方法的各步骤。

本申请实施例的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的人脸表情识别方法的各步骤。

实施本申请实施例提供的一种人脸表情识别方法、人脸表情识别装置、终端设备及计算机可读存储介质具有以下有益效果：

本申请实施例提供的一种人脸表情识别方法，通过对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，将待识别人脸图像的人脸表观信息提取出来以及对人脸特征点进行定位，得到第一表观特征信息和第一特征点信息；将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量，以加强待识别人脸图像的特征信息；将所述第一特征向量输入表情识别模型，得到预测表情；确定与所述预测表情关联的相似表情；将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。由于预测表情具有易混淆的相似表情，通过将待识别人脸图像输入用于区分预测表情以及与预测表情对应的相似表情的表情区分模型再次对待识别人脸图像进行表情识别，在预测表情以及预测表情对应的相似表情中进行精细识别，加强对与预测表情关联的相似表情的识别效果；避免表情识别结果出错，提高人脸图像的表情识别准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种人脸表情识别方法的实现流程图；

图2是本申请实施例二提供的一种人脸表情识别方法的实现流程图；

图3是本申请实施例三提供的一种人脸表情识别装置的结构框图；

图4是本申请实施例四提供的一种终端设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例所涉及的人脸表情识别方法，本实施例可适用于对地区或城市进行污染物管控的应用场景，可以由控制设备或终端平板、PC或服务器等(以下称“移动终端”)执行。

实施例一

本申请实施例涉及的人脸表情识别方法，应用于人脸图像的表情识别场景中。请参阅图1，图1示出了本申请实施例提供的一种人脸表情识别方法的实现流程图。该方法可以由人脸表情识别装置执行，该装置可为控制设备或终端平板、PC或服务器等；在本申请实施例中以人脸表情识别装置作为执行主体进行说明，本实施例提供的人脸表情识别方法具体包括如下步骤：

S110、对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息。

人脸的情感表达由脸部特征的形状变化或位置移动体现，而脸部特征又包括人脸五官、肌肉走势和骨骼位置等信息组成，因此为实现对人脸图像中的人脸表情进行识别需要从人脸图像中尽可能多的提取出脸部特征，以根据提取出的脸部特征进行表情识别。

为实现提取待识别人脸图像中人脸的脸部特征，可对待识别人脸图像进行人脸表观信息提取和人脸特征点检测。其中，人体的人脸被采集后得到待识别人脸图像，在待识别人脸图像中由各个像素点所携带的表观信息组成该人脸的脸部特征。通过对待识别人脸图像进行人脸表观信息提取，即为提取待识别人脸图像中每个像素点携带的表观信息得到第一表观特征信息，实现全面有效的对人脸的脸部特征进行提取。在进行人脸识别时通常需要将待识别人脸与平均脸对齐或定位，以提高人脸识别算法的有效性。而人脸上标志性的五官以及面部轮廓等特征可以作为人脸对齐时的定位特征点，因此可以通过对待识别人脸图像进行人脸特征点检测，对待识别人脸图像上的人脸特征点进行定位得到第一特征点信息，第一特征点信息包括各个人脸特征点在待识别人脸图像上的坐标信息。可选的，该人脸特征点可包括嘴角、眼角、脸部轮廓采样点等。

在一个实施示例中，为实现将待识别人脸图像的人脸表观信息提取出来以及对人脸特征点进行定位，对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息的具体过程包括步骤11和步骤12：

步骤11、采用神经网络对待识别人脸图像进行人脸表观信息提取，得到所述第一表观特征信息；

为实现提取待识别人脸图像中每个像素点携带的表观信息得到第一表观特征信息，可以将待识别人脸图像输入至预设的神经网络中，通过神经网络卷积提取出多维的第一表观特征信息；其中，第一表观特征信息的维度由神经网路的卷积核的大小确定。可选的，该预设的神经网络可选用restnet18网络结构，restnet18网络输出512维的特征向量，因此得到的第一表观特征信息可为512维的向量数据。

步骤12、采用人脸关键点检测算法对待识别人脸图像进行人脸特征点检测，得到所述第一特征点信息。

人脸特征点检测(Facial landmark detection)，即人脸特征点定位、人脸对齐，是在人脸检测的基础上进行的，对人类脸上的特征点(嘴角、眼角等)进行定位。具体的，预先训练一个能够对输入的人脸图像进行特征点定位的特征点检测模型，然后将待识别人脸图像输入训练好的特征点检测模型就能实现对待识别人脸图像进行人脸特征点检测，从而输出具有待识别人脸图像的特征点坐标信息的第一特征点信息。特征点检测模型训练时以具有特征点标记的若干人脸图像作为训练数据进行训练。可选的，该人脸关键点检测算法可为dlib人脸关键点检测算法，dlib是一个包含了大量的机器学习和复杂软件开发工具的现代C++工具箱；且训练数据包含的若干人脸图像上可具有68个特征点标记，从而使得到的第一特点信息包含68个特征点的坐标信息，组成136维特征向量。

S120、将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量。

在将待识别人脸图像的人脸表观信息提取出来以及对人脸特征点进行定位，得到第一表观特征信息和第一特征点信息后，为加强待识别人脸图像特征，将第一特征点信息融合进第一表观特征信息中得到第一特征向量。通过将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量，加强待识别人脸图像特征，提高根据第一特征向量对待识别人脸图像进行表情识别的准确率。具体的，两个特征信息进行融合的方式包括两个特征信息进行向量拼接或两个特征信息进行向量叠加等方式。详细举例说明，可以通过将第一表观特征信息与第一特征点信息输入全连接层进行向量拼接，得到第一特征向量，完成第一表观特征信息和第一特征点信息的融合。可选的，该全连接层可为两层。详细举例说明，若第一表观特征信息为512维的向量数据，第一特点信息包含68个特征点的坐标信息，则将第一表观特征信息与第一特征点信息输入全连接层进行向量拼接，得到648维的第一特征向量。

S130、将所述第一特征向量输入表情识别模型，得到预测表情。

得到具有待识别人脸图像的特征信息的第一特征向量后，可将该第一特征向量输入预设的表情识别模型中，以实现对待识别人脸图像中人脸表情的初步识别，得到预测表情。其中，预设的表情识别模型可为经过具有不同种表情标签的若干人脸图像的训练数据进行训练得到，该表情识别模型可为神经网络模型；且表情标签的种类包括表情分类规则中定义的7大类表情以及一个中立表情。

在一个实施示例中，为使得表情识别模型能够准确对人脸图像进行表情识别，还需在将所述第一特征向量输入表情识别模型之前，对表情识别模型进行训练。具体过程包括：

获取训练数据；所述训练数据包括具有表情标签的若干人脸图像；将所述训练数据输入神经网络分类层进行训练，生成所述表情识别模型。

具体的，将若干具有不同表情标签的人脸图像作为训练数据，输入神经网络分类层进行训练；每一次模型训练后，将训练数据中人脸图像的模型分类结果与对应的标签进行对比，查找分类不理想的表情类型，增大分类不理想的表情类型的人脸图像在训练数据中的比重，将调整后的训练数据重新输入至神经网络分类层进行迭代训练，直到分类层收敛，从而得到能够识别出输入的人脸图像的人脸表情的表情识别模型。

S140、确定与所述预测表情关联的相似表情。

得到待识别人脸图像对应的预测表情后，由于简单通过表情识别模型可能无法准确区分出差异小但属于不同类别的两种表情类或将同一表情类中差异较大的表情分错表情类别，因此还需再对待识别人脸图像进行预测表情与该预测表情易混淆的表情之间的甄别。为实现对待识别人脸图像进行预测表情与该预测表情易混淆的表情之间的甄别，需确定与待识别人脸图像对应的预测表情关联的相似表情，即与待识别人脸图像对应的预测表情差异小但属于不同类别的表情。可选的，与待识别人脸图像对应的预测表情关联的相似表情可为该预测表情的对称表情；其中，该对称表情可为经过统计得到的与每个表情最易混淆的一个表情类，根据传统的表情识别模型对表情分类规则中的各个表情对应的人脸图像进行测试，得到与各个表情最易混淆的一个表情类，从而根据测试结果确定表情分类规则中的各个表情对应的一个相似表情；当得到待识别人脸图像对应的预测表情后，可确定测试结果得到的该预测表情最易混淆的一个表情类为该预测表情关联的相似表情。详细的，根据表情分类规则中定义的7大类表情以及一个中立表情能够确定21对对称的微表情，例如happily-surprise(高兴-惊讶)和surprisely-happy(惊讶-高兴)等。

S150、将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。

确定与待识别人脸图像对应的预测表情关联的相似表情后，获取区分待识别人脸图像对应的预测表情情以及与该预测表情关联的相似表情的表情区分模型。通过将待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果，实现对待识别人脸图像进行预测表情与该预测表情易混淆的相似表情之间的甄别，排除出差异小但属于不同类别的两种表情类或将同一表情类中差异较大的表情分错表情类别的干扰，避免表情识别结果出错，提高人脸图像表情识别的准确性。

具体的，用于区分所述预测表情以及与所述预测表情对应的所述相似表情的表情区分模型可以是二分类器。将具有待识别人脸图像对应的预测表情标签的若干图像样本以及具有与该预测表情对应的相似表情标签的若干图像样本作为训练数据合集输入二分类器，得到用于区分预测表情以及与预测表情对应的相似表情的表情区分模型。可选的，表情区分模型由Resnet18网络和2个神经元构成的全连接层构成。详细举例说明，若待识别人脸图像的预测表情为高兴，则能够确定与待识别人脸图像的预测表情相关联的相似表情为惊讶；获取用于区分高兴与惊讶这两个表情的表情区分模型，将待识别人脸图像输入与预测表情关联的表情区分模型，得到待识别人脸图像的表情识别结果。

以上可以看出，本实施例提供的一种人脸表情识别方法，通过对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，将待识别人脸图像的人脸表观信息提取出来以及对人脸特征点进行定位，得到第一表观特征信息和第一特征点信息；将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量，以加强待识别人脸图像的特征信息；将所述第一特征向量输入表情识别模型，得到预测表情；确定与所述预测表情关联的相似表情；将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。由于预测表情具有易混淆的相似表情，通过将待识别人脸图像输入用于区分预测表情以及与预测表情对应的相似表情的表情区分模型再次对待识别人脸图像进行表情识别，在预测表情以及预测表情对应的相似表情中进行精细识别，加强对与预测表情关联的相似表情的识别效果；避免表情识别结果出错，提高人脸图像的表情识别准确度。

在本申请的所有实施例中，基于人脸表情识别方法得到对应的表情识别结果，具体来说，将表情识别结果上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得表情识别结果，以便查证表情识别结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例二

请参阅图2，图2是本申请实施例二提供的一种人脸表情识别方法的流程示意图。在实施例一的基础上，该方法可以人脸表情识别装置执行，该装置可为移动终端、平板、服务器等设备。在本申请实施例中人脸表情识别装置作为执行主体进行说明，本实施例还提供了结合待识别人脸图像的上下文信息进行表情识别，提高表情识别的准确性。该方法具体包括如下步骤：

S201、对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息；

通过对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，将待识别人脸图像的人脸表观信息提取出来以及对人脸特征点进行定位，得到第一表观特征信息和第一特征点信息

S202、将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量；

将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量，以加强待识别人脸图像的特征信息

S203、将所述第一特征向量输入表情识别模型，得到预测表情；

S204、确定与所述预测表情关联的相似表情；

S205、将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情；

由于预测表情具有易混淆的相似表情，通过将待识别人脸图像输入用于区分预测表情以及与预测表情对应的相似表情的表情区分模型再次对待识别人脸图像进行表情识别，在预测表情以及预测表情对应的相似表情中进行精细识别，加强对与预测表情关联的相似表情的识别效果；避免表情识别结果出错，提高人脸图像的表情识别准确度。

S206、若所述待识别人脸图像为人脸视频数据中任一帧图像，则将所述人脸视频数据中位于所述待识别人脸图像所在的预设时间范围内的N帧图像，作为所述待识别人脸图像的关联图像；

在现实中，人脸的微表情往往呈现时间短暂。为更精确的捕捉到人脸上表现的微表情，通常采用视频录制的方式持续对人脸进行信息采集，得到的视频数据中包含多帧时间上连续的人脸图像。由于人脸表情的呈现是一个连续变化的过程，且视频数据采集时以极高的拍摄频率进行采集，视频数据中多帧时间上连续的人脸图像之间相互关联并记录同一人脸表情。当待识别人脸图像为采集到的人脸视频数据中的任一帧时，可利用视频数据中多帧时间上连续的人脸图像之间的上下文信息对待识别人脸图像的表情识别结果的准确性进行验证和修正。

具体的，若所述待识别人脸图像为人脸视频数据中任一帧图像，则将该人脸视频数据中位于所述待识别人脸图像所在的预设时间范围内的N帧图像，作为待识别人脸图像的关联图像。可选的，该预设时间范围可设定为以待识别人脸图像对应的拍摄时间为中心的时间段，则人脸视频数据中位于待识别人脸图像所在的预设时间范围内的N帧图像即为在人脸视频数据中除待识别人脸图像以外处于该时间段内的多帧图像的前后m帧人脸图像或m毫秒，N与m均为大于0的正整数；该时间段的时间长度根据数据统计得到的表情维持时间确定，可为待识别人脸图像。由于人脸视频数据中多帧时间上连续的人脸图像之间相互关联并可能记录同一人脸表情，该人脸视频数据中位于所述待识别人脸图像所在的预设时间范围内的N帧图像记录的人脸表情可能与待识别人脸图像记录的人脸表情相同，因此将上述N帧图像作为待识别人脸图像的关联图像。

S207、分别将每帧所述关联图像与所述待识别人脸图像进行相似性比对，将与所述待识别人脸图像相似的所述关联图像作为参考图像；

为确保待识别人脸图像的关联图像记录的人脸表情可能与待识别人脸图像记录的人脸表情相同，避免无关数据对表情识别结果的影响，还需对待识别人脸图像的关联图像进行筛选。具体的，分别将每帧所述关联图像与所述待识别人脸图像进行相似性比对，从而将关联图像中不与待识别人脸图像相似的图像筛除，然后将与所述待识别人脸图像相似的所述关联图像作为参考图像，完成对待识别人脸图像的关联图像的筛选。

在一个实施示例中，分别将每帧所述关联图像与所述待识别人脸图像进行相似性比对，将与所述待识别人脸图像相似的所述关联图像作为参考图像的具体过程包括步骤21至步骤22：

步骤21、采用人脸关键点检测算法对每帧所述关联图像进行特征点提取，得到每帧所述关联图像对应的人脸特征点；

为实现将每帧关联图像与待识别人脸图像进行相似性比对，可以采用人脸对齐的方式。从而需采用人脸关键点检测算法对每帧关联图像进行特征点提取。人脸特征点检测(Facial landmark detection)，即人脸特征点定位、人脸对齐，是在人脸检测的基础上进行的，对人类脸上的特征点(嘴角、眼角等)进行定位。具体的，预先训练一个能够对输入的人脸图像进行特征点定位的特征点检测模型，然后将每帧关联图像分别输入训练好的特征点检测模型就能实现对每帧关联图像进行特征点提取，从而输出每帧关联图像对应的人脸特征点。可选的，该人脸关键点检测算法可为dlib人脸关键点检测算法，dlib是一个包含了大量的机器学习和复杂软件开发工具的现代C++工具箱；且训练数据包含的若干人脸图像上可具有68个特征点标记，从而使得到的每帧关联图像对应的人脸特征点包含68个特征点的坐标信息，组成136维特征向量。

步骤22、根据所述待识别人脸图像的特征点信息对所有所述关联图像对应的人脸特征点进行聚类，将与所述待识别人脸图像在同一集群的若干帧关联图像作为所述参考图像。

在得到各帧关联图像对应的人脸特征点后，可以通过将所有关联图像的人脸特征点与待识别人脸图像的特征点信息进行聚类的方式进行相似性判断。根据待识别人脸图像的特征点信息对所有关联图像对应的人脸特征点进行聚类具体为，以待识别人脸图像的特征点信息为聚类中心，若某一帧关联图像与待识别人脸图像相似，则该帧关联图像对应的人脸特征点与待识别人脸图像的特征点信息属于同一集群；若某一帧关联图像与待识别人脸图像不相似，则该帧关联图像对应的人脸特征点与待识别人脸图像的特征点信息不属于同一集群。因此，可得知与所述待识别人脸图像在同一集群的若干帧关联图像为与待识别人脸图像相似的图像，将与所述待识别人脸图像在同一集群的若干帧关联图像作为参考图像，以将关联图像中不与待识别人脸图像相似的图像筛除，提高表情识别的准确性。

S208、分别对每帧所述参考图像进行表情识别，得到每帧所述参考图像对应的表情类别；

为实现利用视频数据中多帧时间上连续的人脸图像之间的上下文信息(即参考图像的人脸表情)对待识别人脸图像的表情识别结果的准确性进行验证和修正，需分别对每帧参考图像进行表情识别，得到每帧参考图像对应的表情类别。具体的，可采用表情识别模型对每帧参考图像进行表情识别。

在一个实施示例中，为避免在验证和修正过程中引入新的误差因素，分别对每帧所述参考图像进行表情识别的方法步骤可采用得到待识别人脸图像的表情识别结果的方法。对每帧所述参考图像进行表情识别的具体过程包括步骤31至步骤35：

步骤31、对每帧所述参考图像进行人脸表观信息提取和人脸特征点检测，得到每帧所述参考图像的第二表观特征信息和第二特征点信息；

为实现提取每帧参考图像中人脸的脸部特征，可对每帧参考图像进行人脸表观信息提取和人脸特征点检测。其中，人体的人脸被采集后得到待识别人脸图像，在每帧参考图像中由各个像素点所携带的表观信息组成该人脸的脸部特征。通过对每帧参考图像进行人脸表观信息提取，即为提取每帧参考图像中每个像素点携带的表观信息得到每帧参考图像对应的第二表观特征信息，实现全面有效的对人脸的脸部特征进行提取。在进行人脸识别时通常需要将每帧参考图像的人脸与平均脸对齐或定位，以提高人脸识别算法的有效性。而人脸上标志性的五官以及面部轮廓等特征可以作为人脸对齐时的定位特征点，因此可以通过对每帧参考图像进行人脸特征点检测，对每帧参考图像上的人脸特征点进行定位得到每帧参考图像对应的第二特征点信息，第二特征点信息包括各个人脸特征点在对应的参考图像上的坐标信息。可选的，该人脸特征点可包括嘴角、眼角、脸部轮廓采样点等。

步骤32、将每帧所述参考图像的所述第二表观特征信息和所述第二特征点信息融合，得到每帧所述参考图像的第二特征向量；

在将每帧参考图像的人脸表观信息提取出来以及对人脸特征点进行定位，得到每帧参考图像对应的第二表观特征信息和第二特征点信息后，为加强待识别人脸图像特征，将每帧参考图像对应的第二特征点信息融合进每帧参考图像对应的第二表观特征信息中得到每帧参考图像的第二特征向量。通过将所述第二表观特征信息和所述第二特征点信息融合得到第二特征向量，加强每帧参考图像人脸特征，提高根据每帧参考图像的第二特征向量对每帧参考图像进行表情识别的准确率。具体的，可以通过将每帧参考图像对应的第二表观特征信息与第二特征点信息输入全连接层进行向量拼接，得到每帧参考图像的第二特征向量。可选的，该全连接层可为两层。详细举例说明，若第二表观特征信息为512维的向量数据，第二特点信息包含68个特征点的坐标信息，则将第二表观特征信息与第二特征点信息输入全连接层进行向量拼接，得到648维的第二特征向量。

步骤33、将各帧所述参考图像的所述第二特征向量输入表情识别模型，得到各帧所述参考图像的预测表情；

得到具有每帧参考图像的特征信息的第二特征向量后，可将每帧参考图像的第二特征向量分别输入预设的表情识别模型中，以实现对每帧参考图像中人脸表情的初步识别，得到每帧参考图像的预测表情。其中，预设的表情识别模型可为经过具有不同种表情标签的若干人脸图像的训练数据进行训练得到，该表情识别模型可为神经网络模型；且表情标签的种类包括表情分类规则中定义的7大类表情以及一个中立表情。

步骤34、确定与各帧所述参考图像的所述预测表情关联的相似表情；

得到每帧参考图像的预测表情后，由于简单通过表情识别模型可能无法准确区分出差异小但属于不同类别的两种表情类或将同一表情类中差异较大的表情分错表情类别，因此还需再对每帧参考图像进行预测表情与该预测表情易混淆的表情之间的甄别。为实现对每帧参考图像进行预测表情与该预测表情易混淆的表情之间的甄别，需确定与各帧参考图像对应的预测表情关联的相似表情，即与各帧参考图像对应的预测表情差异小但属于不同类别的表情。可选的，与各帧参考图像对应的预测表情关联的相似表情可为该帧参考图像的预测表情的对称表情；其中，该对称表情可为经过统计得到的与每个表情最易混淆的一个表情类。详细的，根据表情分类规则中定义的7大类表情以及一个中立表情能够确定21对对称的微表情，例如happily-surprise(高兴-惊讶)和surprisely-happy(惊讶-高兴)等。

步骤35、对于每帧所述参考图像，将所述参考图像输入与所述参考图像关联的表情区分模型，得到表情类别；与所述参考图像关联的表情区分模型用于区分所述参考图像的所述预测表情以及与所述参考图像的所述预测表情关联的相似表情。

确定与各帧参考图像对应的预测表情关联的相似表情后，获取区分各帧参考图像对应的预测表情以及与该预测表情关联的相似表情的表情区分模型。通过将各帧参考图像分别输入与各帧参考图像的预测表情关联的表情区分模型，得到各帧参考图像的表情类别，实现对各帧参考图像进行预测表情与该帧参考图像的预测表情易混淆的相似表情之间的甄别，排除出差异小但属于不同类别的两种表情类或将同一表情类中差异较大的表情分错表情类别的干扰，避免表情识别结果出错，提高人脸图像表情识别的准确性。

S209、分别统计各个所述表情类别在所述参考图像以及所述待识别人脸图像组成的图像组中对应的图像个数；所述待识别人脸图像的表情类别根据所述表情识别结果确定；

由于人脸表情的呈现是一个连续变化的过程，且视频数据采集时以极高的拍摄频率进行采集，视频数据中多帧时间上连续的人脸图像之间相互关联并记录同一人脸表情，人脸表情不可能在某一帧人脸图像中发生突变。因此与待识别人脸图像相似且连续的参考图像大概率记录着与待识别人脸图像相同的表情，能够利用参考图像的表情类别(上下文信息)对待识别人脸图像的表情识别结果的准确性进行验证和修正。根据待识别人脸图像的表情识别结果确定待识别人脸图像的表情类别，然后分别统计各帧参考图像的表情类别和待识别人脸图像的表情类别在所有参考图像以及待识别人脸图像组成的图像组中对应的图像个数，以实现各个表情类别在所有参考图像以及待识别人脸图像组成的图像组中的图像数量。

S210、确定所述图像个数最多的表情类别为所述待识别人脸图像的人脸表情。

若任一帧参考图像的表情类别或待识别人脸图像的表情类别在所有参考图像以及待识别人脸图像组成的图像组中对应的图像个数最多，则说明与待识别人脸图像相似且连续的参考图像以及待识别人脸图像记录的人脸表情可能是图像个数最多的表情类别，确定图像个数最多的表情类别为待识别人脸图像的人脸表情。若待识别人脸图像的表情识别结果为图像个数最多的表情类别，则验证执行步骤201至步骤205得到的待识别人脸图像的表情识别结果准确；若待识别人脸图像的表情识别结果不为图像个数最多的表情类别，则验证执行步骤201至步骤205得到的待识别人脸图像的表情识别结果有误，并通过重新确定图像个数最多的表情类别为待识别人脸图像的人脸表情，实现对待识别人脸图像的表情识别结果的修正，以提高表情识别的准确性，并增强识别的鲁棒性。

实施例三

请参阅图3，图3是本申请实施例三提供的一种人脸表情识别装置的结构框图。本实施例中该移动终端包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1以及图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图3，人脸表情识别装置30包括：

信息提取模块301，用于对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息；

信息融合模块302，用于将所述第一表观特征信息和所述第一特征点信息融合得到第一特征向量；

第一表情识别模块303，用于将所述第一特征向量输入表情识别模型，得到预测表情；

相似表情确定模块304，用于确定与所述预测表情关联的相似表情；

第二情识别模块305，用于将所述待识别人脸图像输入与所述预测表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情。

应当理解的是，图3示出的人脸表情识别装置的结构框图中，各单元用于执行图1对应的实施例中的各步骤，而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1以及图1所对应的实施例中的相关描述，此处不再赘述。

实施例四

图4是本申请实施例提供的一种终端设备的结构框图。如图4所示，该实施例的终端设备40包括：处理器41、存储器42以及存储在所述存储器42中并可在所述处理器41上运行的计算机程序43，例如人脸表情识别方法的程序。处理器41执行所述计算机程序73时实现上述各个人脸表情识别方法各实施例中的步骤，例如图1所示的S110至S150。或者，所述处理器41执行所述计算机程序43时实现上述图4对应的实施例中各单元的功能，例如，图3所示的模块301至305的功能，具体请参阅图4对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序43可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器42中，并由所述处理器41执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序43在所述终端40中的执行过程。例如，所述计算机程序43可以被分割成信息提取模块、信息融合模块、第一表情识别模块、相似表情确定模块以及第二情识别模块，各单元具体功能如上所述。

所述转台设备可包括，但不仅限于，处理器41、存储器42。本领域技术人员可以理解，图4仅仅是终端设备40的示例，并不构成对终端设备40的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器41可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器42可以是所述终端设备40的内部存储单元，例如终端设备40的硬盘或内存。所述存储器42也可以是所述终端设备40的外部存储设备，例如所述终端设备40上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器42还可以既包括所述终端设备40的内部存储单元也包括外部存储设备。所述存储器42用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器42还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

将所述第一特征向量输入表情识别模型，得到预测表情；

确定与所述预测表情关联的相似表情；

将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情；

在将所述待识别人脸图像输入表情区分模型，得到表情识别结果之后，还包括：

确定所述图像个数最多的表情类别为所述待识别人脸图像的人脸表情；

所述分别对每帧所述参考图像进行表情识别，得到每帧所述参考图像对应的表情类别，包括：

确定与各帧所述参考图像的所述预测表情关联的相似表情；

2.如权利要求1所述的人脸表情识别方法，其特征在于，所述分别将每帧所述关联图像与所述待识别人脸图像进行相似性比对，将与所述待识别人脸图像相似的所述关联图像作为参考图像，包括：

3.如权利要求1所述的人脸表情识别方法，其特征在于，所述对待识别人脸图像进行人脸表观信息提取和人脸特征点检测，得到第一表观特征信息和第一特征点信息，包括：

4.如权利要求1所述的人脸表情识别方法，其特征在于，在将所述第一特征向量输入表情识别模型，得到预测表情之前，还包括：

5.根据权利要求1-4任一项所述的人脸表情识别方法，其特征在于，在将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果之后，包括：

将所述表情识别结果上传至区块链。

6.一种人脸表情识别装置，其特征在于，包括：

第二情识别模块，用于将所述待识别人脸图像输入与所述预测表情和所述预测表情对应的所述相似表情关联的表情区分模型，得到表情识别结果；所述表情区分模型用于区分所述预测表情以及与所述预测表情对应的所述相似表情；

所述人脸表情识别装置还用于：

确定与各帧所述参考图像的所述预测表情关联的相似表情；

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。