CN113505750A

CN113505750A - 一种识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113505750A
Application number: CN202110856865.8A
Authority: CN
Inventors: 张茜; 杜新凯; 牛国扬
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-15
Anticipated expiration: 2041-07-28
Also published as: CN113505750B

Abstract

本申请提供了一种识别方法、装置、电子设备及计算机可读存储介质，该方法包括：将获取到的待识别人脸图像输入到卷积神经网络中，得到第一人脸特征向量；利用预先构建的包含有各种第一表情标签的第一人脸图像的第一数据集，根据获取到的待识别人脸图像的第一关键点特征向量，从第一数据集中选取出与该待识别人脸图像相似度高的第一预设个数的目标第一人脸图像，作为第二数据集。根据第二数据集中每个目标第一人脸图像对应的第一表情标签，构建用于表示每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量。将第一概率向量与第一人脸特征向量进行融合，利用融合后的向量进行表情识别，从而提高了监管用户状态的及时性。

Description

一种识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其是涉及一种识别方法、装置、电子设备及计算机可读存储介质。

背景技术

“停课不停教，停课不停学”是教育部基于新冠肺炎疫情严峻形势提出的教育、教学新举措。在此背景下，为了保证学生们的安全，线上教育应时而生。线上教育即网络远程教育，它是指跨越地理空间进行教育活动。远程教育涉及各种教育活动，包括授课、讨论和实习。它克服了传统教育在空间、时间、受教育者年龄和教育环境等方面的限制，带来了崭新的学习模式。

但是，在线教育在对学生们的监管上依然是一个难题，例如教师无法监督学生们的学习状态。具体地，在传统教育中，教师可以实时观察到学生的学习状态，从而及时调整授课模式，而在线上教育中，教师无法直接观察到学生的学习状态，导致教师的授课效果不理想。因此，现有技术中急需一种能够判断用户学习状态的方法。

发明内容

有鉴于此，本申请的目的在于提供一种识别方法、装置、电子设备及计算机可读存储介质，以提高监管用户状态的及时性和有效性。

第一方面，本申请实施例提供了一种识别方法，包括：

获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量；其中，所述第一关键点包括所述待识别人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种；

将所述待识别人脸图像输入到训练完成后的卷积神经网络中，得到用于表示所述待识别人脸图像的人脸特征的第一人脸特征向量；

根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集；其中，所述第一关键点特征向量与所述目标第一人脸图像对应的所述第二关键点特征向量之间的相似度高于所述第一关键点特征向量与其他所述第一人脸图像对应的所述第二关键点特征向量之间的相似度；所述第一数据集中包含有第二预设个数的所述第一人脸图像、每个所述第一人脸图像对应的第一表情标签以及每个所述第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的所述第二关键点特征向量；

根据所述第二数据集中的所述目标第一人脸图像以及每个所述目标第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第二数据集中的第一概率以及所述第一概率对应的第一概率向量；

将所述第一人脸特征向量和所述第一概率向量融合后，输入到包含有训练完成后的全连接层和归一化指数函数的分类模型中，确定所述待识别人脸图像所属的第一表情类别。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量之前，还包括：

获取第二人脸图像；

将所述第二人脸图像输入到人脸关键点检测模型中，得到该第二人脸图像对应的所述第一关键点，以及所述第一关键点对应的第二坐标；

根据所述第一关键点以及所述第二坐标，对所述第二人脸图像进行人脸对齐操作，得到所述待识别人脸图像；

基于所述第一关键点在所述待识别人脸图像中的位置，确定所述待识别人脸图像中所述第一关键点的第一坐标；

根据所述第一坐标，确定出用于表示所述待识别人脸图像对应的所述第一关键点的位置的第一关键点特征向量。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述获取第二人脸图像之前，还包括：

采集包含有人脸的第一原始图像；

使用检测算法对所述第一原始图像进行检测，得到所述第一原始图像上的第一人脸边界图像框；

使用预设缩放比例对所述第一人脸边界框进行调整，得到第二人脸边界框；其中，所述预设比例与所述人脸关键点检测模型为一一对应关系；

使用所述第二人脸边界框对所述第一原始图像进行截取，得到所述第二人脸图像。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集，包括：

针对预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量，计算出该第二关键点特征向量与所述第一关键点特征向量的相似度；

根据所述相似度由高到低的顺序，依次在所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述根据所述第二数据集中的所述目标第一人脸图像以及每个所述目标第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第二数据集中的第一概率以及所述第一概率对应的第一概率向量，包括：

根据所述目标第一人脸图像对应的所述第一表情标签，计算出第二数据集中每个所述第一表情标签对应的所述目标第一人脸图像的个数；

根据所述第二数据集中每个所述第一表情标签对应的所述目标第一人脸图像的个数，计算出每个所述第一表情标签在所述第二数据集中的第一概率，以及确定出所述第一概率对应的第一概率向量。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集之前，还包括：

获取第三数据集；其中，所述第三数据集中包括第二预设个数的第三人脸图像以及每个所述第三人脸图像对应的所述第一表情标签，所述第三数据集中每个所述第一表情标签对应的所述第三人脸图像的个数相同；

针对每个所述第三人脸图像，将该第三人脸图像输入到所述人脸关键点检测模型中，得到该第三人脸图像对应的所述第二关键点以及所述第二关键点对应的第三坐标；

针对每个所述第三人脸图像，根据该第三人脸图像对应的所述第二关键点以及所述第三坐标，对该第三人脸图像进行所述人脸对齐操作，得到所述第一人脸图像；

针对每个所述第一人脸图像，基于所述第二关键点在该第一人脸图像中的位置，确定该第一人脸图像中所述第二关键点的第四坐标；

针对每个所述第一人脸图像，根据该第一人脸图像对应的所述第四坐标，得到用于表示该第一人脸图像中所述第二关键点的位置的第二关键点特征向量，以将所述第二预设个数的所述第一人脸图像、每个所述第一人脸图像对应的所述第一表情标签以及每个所述第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量确定为预设的第一数据集。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述获取待识别人脸图像以及所述待识别人脸图像对应的第一关键点的第一坐标之前，还包括：

获取训练样本图像、所述训练样本图像对应的第二表情标签以及用于表示第三关键点的位置的第三关键点特征向量；其中，所述第三关键点包括所述训练样本图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种；

将所述训练样本图像输入到待训练的卷积神经网络中，得到用于表示所述训练样本图像的人脸特征的第三人脸特征向量；

根据所述第三关键点特征向量与所述第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出所述第一预设个数的样本第一人脸图像，以将选取出的样本第一人脸图像作为第四数据集；其中，所述第三关键点特征向量与所述样本第一人脸图像对应的所述第二关键点特征向量之间的相似度高于所述第三关键点特征向量与其他所述第一人脸图像对应的所述第二关键点特征向量之间的相似度；

根据所述第四数据集中的所述样本第一人脸图像以及每个所述样本第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第四数据集中的第二概率以及所述第二概率对应的第二概率向量；

将所述第三人脸特征向量和所述第二概率向量融合后，输入到包含有待训练的全连接层和归一化指数函数的待训练分类模型中，确定所述训练样本图像的所属的第二表情类别；

根据所述训练样本图像对应的所述第二表情标签和所述第二表情类别，计算交叉熵损失数值；

当所述交叉熵损失数值不小于预设损失数值时，使用所述交叉熵损失数值对所述待训练的卷积神经网络和所述待训练的全连接层进行本轮训练；

当所述交叉熵损失数值小于预设损失数值时，停止训练，得到所述训练完成后的卷积神经网络和所述训练完成后的全连接层。

第二方面，本申请实施例还提供一种识别装置，包括：

第一获取模块，用于获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量；其中，所述第一关键点包括所述待识别人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种；

第一输入模块，用于将所述待识别人脸图像输入到训练完成后的卷积神经网络中，得到用于表示所述待识别人脸图像的人脸特征的第一人脸特征向量；

第一选取模块，用于根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集；其中，所述第一关键点特征向量与所述目标第一人脸图像对应的所述第二关键点特征向量之间的相似度高于所述第一关键点特征向量与其他所述第一人脸图像对应的所述第二关键点特征向量之间的相似度；所述第一数据集中包含有第二预设个数的所述第一人脸图像、每个所述第一人脸图像对应的第一表情标签以及每个所述第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的所述第二关键点特征向量；

第一确定模块，用于根据所述第二数据集中的所述目标第一人脸图像以及每个所述目标第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第二数据集中的第一概率以及所述第一概率对应的第一概率向量；

第二输入模块，用于将所述第一人脸特征向量和所述第一概率向量融合后，输入到包含有训练完成后的全连接层和归一化指数函数的分类模型中，确定所述待识别人脸图像所属的第一表情类别。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，还包括：

第二获取模块，用于在所述第一获取模块获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量之前，获取第二人脸图像；

第三输入模块，用于将所述第二人脸图像输入到人脸关键点检测模型中，得到该第二人脸图像对应的所述第一关键点，以及所述第一关键点对应的第二坐标；

第一对齐模块，用于根据所述第一关键点以及所述第二坐标，对所述第二人脸图像进行人脸对齐操作，得到所述待识别人脸图像；

第二确定模块，用于基于所述第一关键点在所述待识别人脸图像中的位置，确定所述待识别人脸图像中所述第一关键点的第一坐标；

第三确定模块，用于根据所述第一坐标，确定出用于表示所述待识别人脸图像对应的所述第一关键点的位置的第一关键点特征向量。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，其中，还包括：

采集模块，用于在所述第二获取模块获取第二人脸图像之前，采集包含有人脸的第一原始图像；

检测模块，用于使用检测算法对所述第一原始图像进行检测，得到所述第一原始图像上的第一人脸边界框；

调整模块，用于使用预设缩放比例对所述第一人脸边界框进行调整，得到第二人脸边界框；其中，所述预设缩放比例与所述人脸关键点检测模型为一一对应关系；

截取模块，用于使用所述第二人脸边界框对所述第一原始图像进行截取，得到所述第二人脸图像。

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述第一选取模块在用于根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集时，具体用于：

结合第二方面，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述第一确定模块在用于根据所述第二数据集中的所述目标第一人脸图像以及每个所述目标第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第二数据集中的第一概率以及所述第一概率对应的第一概率向量时，具体用于：

结合第二方面，本申请实施例提供了第二方面的第五种可能的实施方式，其中，还包括：

第三获取模块，用于在所述第一选取模块根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集之前，获取第三数据集；其中，所述第三数据集中包括第二预设个数的第三人脸图像以及每个所述第三人脸图像对应的所述第一表情标签，所述第三数据集中每个所述第一表情标签对应的所述第三人脸图像的个数相同；

第四输入模块，用于针对每个所述第三人脸图像，将该第三人脸图像输入到所述人脸关键点检测模型中，得到该第三人脸图像对应的所述第二关键点以及所述第二关键点对应的第三坐标；

第二对齐模块，用于针对每个所述第三人脸图像，根据该第三人脸图像对应的所述第二关键点以及所述第三坐标，对该第三人脸图像进行所述人脸对齐操作，得到所述第一人脸图像；

第四确定模块，用于针对每个所述第一人脸图像，基于所述第二关键点在该第一人脸图像中的位置，确定该第一人脸图像中所述第二关键点的第四坐标；

第五确定模块，用于针对每个所述第一人脸图像，根据该第一人脸图像对应的所述第四坐标，得到用于表示该第一人脸图像中所述第二关键点的位置的第二关键点特征向量，以将所述第二预设个数的所述第一人脸图像、每个所述第一人脸图像对应的所述第一表情标签以及每个所述第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量确定为预设的第一数据集。

结合第二方面，本申请实施例提供了第二方面的第六种可能的实施方式，其中，还包括：

第四获取模块，用于在所述第一获取模块获取待识别人脸图像以及所述待识别人脸图像对应的第一关键点的第一坐标之前，获取训练样本图像、所述训练样本图像对应的第二表情标签以及用于表示第三关键点的位置的第三关键点特征向量；其中，所述第三关键点包括所述训练样本图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种；

第五输入模块，用于将所述训练样本图像输入到待训练的卷积神经网络中，得到用于表示所述训练样本图像的人脸特征的第三人脸特征向量；

第二选取模块，用于根据所述第三关键点特征向量与所述第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出所述第一预设个数的样本第一人脸图像，以将选取出的样本第一人脸图像作为第四数据集；其中，所述第三关键点特征向量与所述样本第一人脸图像对应的所述第二关键点特征向量之间的相似度高于所述第三关键点特征向量与其他所述第一人脸图像对应的所述第二关键点特征向量之间的相似度；

第六确定模块，用于根据所述第四数据集中的所述样本第一人脸图像以及每个所述样本第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第四数据集中的第二概率以及所述第二概率对应的第二概率向量；

第六输入模块，用于将所述第三人脸特征向量和所述第二概率向量融合后，输入到包含有待训练的全连接层和归一化指数函数的待训练分类模型中，确定所述训练样本图像的所属的第二表情类别；

计算模块，用于根据所述训练样本图像对应的所述第二表情标签和所述第二表情类别，计算交叉熵损失数值；

训练模块，用于当所述交叉熵损失数值不小于预设损失数值时，使用所述交叉熵损失数值对所述待训练的卷积神经网络和所述待训练的全连接层进行本轮训练；

停止模块，用于当所述交叉熵损失数值小于预设损失数值时，停止训练，得到所述训练完成后的卷积神经网络和所述训练完成后的全连接层。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。

在本申请中，利用预先构建的包含有各种表情类型(各种第一表情标签)的第一人脸图像的第一数据集，根据待识别人脸图像的第一关键点特征向量，从第一数据集中选取出与该待识别人脸图像对应的第二关键点特征向量相似度高的第一预设个数的目标第一人脸图像，作为第二数据集。根据第二数据集中每个目标第一人脸图像对应的第一表情标签，构建用于表示每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量。将第一概率向量与第一人脸特征向量进行融合，利用融合后的向量进行表情识别。本申请中，通过获取到的用户人脸图像(待识别人脸图像)，确定出该用户的人脸表情状态，从而判断该用户的情绪和状态，起到了提高监管用户状态的及时性和有效性的效果。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种识别方法的流程图；

图2示出了本申请实施例所提供的第一人脸边界框位置示意图；

图3示出了本申请实施例所提供的一种识别装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在传统教育中，教师可以实时观察到学生的学习状态，从而及时调整授课模式，而在线上教育中，教师无法直接观察到学生的学习状态，导致教师的授课效果不理想。因此，现有技术中急需一种能够判断用户学习状态的方法。

随着机器学习和深度学习的不断发展，人脸识别的准确率大大提高，在日常生活中的应用愈加广泛。表情识别是人脸识别领域的一个重要分支，具有巨大的商业价值和社会意义，表情识别主要应用在人机交互、教育、医疗、安全、通信和汽车等领域。表情识别指的是从给定的静态图像或动态视频序列中分离出特定的人脸表情状态，从而确定被识别对象的心理情绪。

例如，在进行线上教育时，如果用户出现困惑、厌恶等情绪，表明用户对于讲师的讲课内容有疑问或是讲师的课程不够吸引人，因此可以通过面部表情判断用户的情绪和心理，从而改进讲师的授课方法，针对课程中的难点做重点解析。

一般来讲，人的7种基本表情包括：开心(happiness)、生气(anger)、厌恶(disgust)、恐惧(fear)、悲伤(sadness)、惊讶(surprise)和蔑视(contempt)，表情识别中通常将人脸表情分为7种基本表情和中性(neutral)共8类。

人脸表情变化时，人脸关键点的位置也会随着器官做出相应变化，所以人脸关键点的位置能够在一定程度上反映出人脸表情。目前在进行表情识别时，通常根据用户的人脸关键点的相对位置确定出该用户的表情，或者根据用户的人脸关键点周围区域的特征确定该用户的表情。但是在同一个表情类型下，不同人脸姿态(人脸姿态即脸部朝向的角度信息，包括人脸上下旋转、左右旋转或平面内旋转)的关键点位置可能会有很大差异，会导致表情识别的准确率较低。

例如，两张人脸图像中的表情种类相同(都是开心)，其中一张人脸图像中的人脸姿态是在仰头笑，另一张人脸图像中的人脸姿态是侧脸笑，此时由于两张图像中的关键点位置有很大差异，所以如果仅仅根据人脸关键点的相对位置或人脸关键点的位置判断两张人脸图像中的人脸表情时，很容易认为两张图像不属于同一种表情类型，从而导致判断错误，使得表情识别的准确率较低。

考虑到上述问题，基于此，本申请实施例提供了一种识别方法、装置、电子设备和计算机可读存储介质，以提高人脸表情识别的准确率，下面通过实施例进行描述。

实施例一：

为便于对本实施例进行理解，首先对本申请实施例所公开的一种识别方法进行详细介绍。图1示出了本申请实施例所提供的一种识别方法的流程图，如图1所示，该方法包括以下步骤：

S101：获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量；其中，第一关键点包括待识别人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种。

在本申请的实施例中，每个待识别人脸图像对应一个第一关键点特征向量，其中，第一关键点特征向量用于表示第一关键点的位置，第一关键点包括待识别人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种。具体地，第一关键点可以有多个，第一关键点特征向量用于表示该待识别人脸图像所对应的所有的第一关键点的位置。

S102：将待识别人脸图像输入到训练完成后的卷积神经网络中，得到用于表示待识别人脸图像的人脸特征的第一人脸特征向量。

在本申请的实施例中，将待识别人脸图像输入到训练完成后的卷积神经网络(CNN，Convolutional Neural Networks)中，输出用于表示该待识别人脸图像的人脸特征的第一人脸特征向量，其中，在卷积神经网络中提取该待识别人脸图像的人脸特征。具体地，卷积神经网络可以是AlexNet、VGG(Visual Geometry Group)、ResNet(ResidualNetwork)、MobileNet-v2等卷积神经网络的提取特征部分。每个待识别人脸图像对应一个第一人脸特征向量。

S103：根据第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集；其中，第一关键点特征向量与目标第一人脸图像对应的第二关键点特征向量之间的相似度高于第一关键点特征向量与其他第一人脸图像对应的第二关键点特征向量之间的相似度；第一数据集中包含有第二预设个数的第一人脸图像、每个第一人脸图像对应的第一表情标签以及每个第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量。

在本申请的实施例中，预设的第一数据集中包含有第二预设个数的第一人脸图像、每个第一人脸图像对应的第一表情标签、每个第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量。其中，每个第一人脸图像对应一个第二关键点特征向量，第二关键点特征向量用于表示与其对应的第一人脸图像所对应的所有的第二关键点的位置，第二关键点包括与其对应的第一人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种。具体地，第一关键点与第二关键点包含的关键点种类相同，例如第一关键点中只包含待识别人脸图像的各器官轮廓点时，第二关键点中只包含第一人脸图像的各器官轮廓点。

在本申请的实施例中，第一表情标签表示与其对应的第一人脸图像中人脸的表情类型。表情类型可以包括中性以及7种基本表情即开心、生气、厌恶、恐惧、悲伤、惊讶和蔑视，也可以包括两个或多个基本表情之间融合后得到的更复杂的表情。在第一数据集中，每个第一表情标签所对应的第一人脸图像的个数相同。具体地，第一表情标签的种类可以根据表情类型的种类确定，当第一表情标签包括7种基本表情(即开心、生气、厌恶、恐惧、悲伤、惊讶和蔑视)以及中性表情时，则第一表情标签的种类共有8种，因此在第一数据集中，当每种第一表情标签所对应的第一人脸图像的个数均为K时，第一数据集中的第一人脸图像的个数为8K，即此时第一数据集中包括8K个第一人脸图像、8K个第二关键点特征向量以及8K个第一表情标签(8种第一表情标签类型)。

在本申请的实施例中，根据第一关键点特征向量与预设的第一数据集中的每个第二关键点特征向量之间的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集。其中，第一关键点特征向量与目标第一人脸图像对应的第二关键点特征向量之间的相似度高于第一关键点特征向量与第一数据集中除目标第一人脸图像之外的其他第一人脸图像对应的第二关键点特征向量之间的相似度，第一预设个数小于第二预设个数，目标第一人脸图像是从第一数据集中的第一人脸图像中选取出来的。

S104：根据第二数据集中的目标第一人脸图像以及每个目标第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量。

在本申请的实施例中，第二数据集中包括第一预设个数的目标第一人脸图像以及每个目标第一人脸图像对应的第一表情标签。根据第二数据集中每个目标第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量。其中，每个第一表情标签对应一个第一概率，第一概率向量中包括每个第一表情标签对应的第一概率，第一概率向量用于表示每个第一表情标签在第二数据集中的概率。

在一个具体的实施例中，假设第一表情标签的种类分别为开心、生气、厌恶、恐惧、悲伤、惊讶、蔑视和中性，其中开心表情标签对应的第一概率为0.68，生气表情标签对应的第一概率为0.17，悲伤表情标签对应的第一概率为0.09，惊讶表情标签对应的第一概率为0.06，则第一概率向量＝[开心，生气，厌恶，恐惧，悲伤，惊讶，蔑视，中性]＝[0.68，0.17，0，0，0.09，0.06，0，0]。

S105：将第一人脸特征向量和第一概率向量融合后，输入到包含有训练完成后的全连接层和归一化指数函数的分类模型中，确定待识别人脸图像所属的第一表情类别。

将第一人脸特征向量和第一概率向量进行融合，例如第一人脸特征向量为512维特征向量，第一概率向量为8维特征向量，则将第一人脸特征向量和第一概率向量进行融合后得到一个520(512+8＝520)维特征向量。将融合后的特征向量输入到包含有训练完成后的全连接层和归一化指数函数(softmax函数)的分类模型中，具体地，将融合后的特征向量输入到训练完成后的全连接层中，得到待识别人脸图像属于每个第一表情标签的分值，该分值表示待识别人脸图像属于每个第一表情标签的可能性的大小。再将全连接层输出的结果输入到归一化指数函数中，得到待识别人脸图像属于每个第一表情标签的概率。根据待识别人脸图像属于每个第一表情标签的概率，确定待识别人脸图像所属的第一表情类别。具体地，从待识别人脸图像属于每个第一表情标签的概率中选取出概率最大值所对应的第一表情标签，将该第一表情标签作为待识别人脸图像的第一表情类别。

在本申请中，通过获取到的用户人脸图像(待识别人脸图像)，确定出该用户的人脸表情状态，从而判断该用户的情绪和状态，起到了提高监管用户状态的及时性和有效性的效果。

目前，在根据用户人脸图像确定用户的人脸表情状态(即在进行表情识别)时，通常根据用户的人脸关键点的相对位置确定出该用户的表情，或者根据用户的人脸关键点周围区域的特征确定该用户的表情。但是在同一个表情类型下，不同人脸姿态(人脸姿态即脸部朝向的角度信息，包括人脸上下旋转、左右旋转或平面内旋转)的关键点位置可能会有很大差异，会导致表情识别的准确率较低。

在本申请中，根据同一表情和同一人脸姿态(人脸姿态表示脸部朝向的角度信息，包括人脸上下旋转、左右旋转或平面内旋转)下人脸关键点位置分布相似度高，不同表情和不同人脸姿态下人脸关键点位置分布相似度低的特点。该待识别人脸图像的表情类型，与具有相似关键点分布的第一人脸图像的表情类型相似的概率高，与具有不相似关键点分布的第一人脸图像的表情类型相似的概率低，所以本申请中根据第一关键点特征向量与第一数据集中的第二关键点特征向量的相似度，从第一数据集选取出与待识别人脸图像具有相似表情和相似姿态的目标第一人脸图像。再根据每个目标第一人脸图像对应的表情类型(第一表情标签)，确定出能够反应出待识别人脸图像的表情类型的第一概率向量。使用第一概率向量和第一人脸特征向量进行表情识别，从而提高了表情识别的准确率。

在一种可能的实施方式中，在执行步骤S101获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量之前，具体还可以按照以下步骤执行：

S1011：获取第二人脸图像。

在本申请的实施例中，第二人脸图像指的是使用第二人脸边界框对第一原始图像进行截取后得到的图像。

S1012：将第二人脸图像输入到人脸关键点检测模型中，得到该第二人脸图像对应的第一关键点，以及第一关键点对应的第二坐标。

在本申请的实施例中，具体可以将第二人脸图像输入到训练好的基于卷积神经网络的人脸关键点检测模型中，在人脸关键点检测模型中检测出该第二人脸图像中的第一关键点以及第一关键点对应的第二坐标。具体地，第一关键点可以是第二人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点等，每个第一关键点对应一个第二坐标。在一个具体的实施例中，检测得到了M个第一关键点，该M个第一关键点对应的M个第二坐标可以表示为(x₁，y₁)，(x₂，y₂)…(x_M，y_M)。

S1013：根据第一关键点以及第二坐标，对第二人脸图像进行人脸对齐操作，得到待识别人脸图像。

在本申请的实施例中，不同的第二人脸图像中人脸所在的位置可能不同，例如有的第二人脸图像中的人脸是歪着头的，有的第二人脸图像中的人脸是正着头的，本申请中通过对第二人脸图像进行人脸对齐操作，通过仿射变换，使得每个第二人脸图像中的人脸的五官所在的水平位置相同，具体地，可以将每个第二人脸图像中的人脸的两眼中心的连线水平。

根据第一关键点以及第二坐标，对第二人脸图像进行人脸对齐操作时，在一个具体的实施例中，当第一关键点中包括第二人脸图像中的人脸的左右眼中心、鼻尖、左右嘴角的五个点时，可以根据左右眼中心、鼻尖、左右嘴角五点位置，对第二人脸图像进行人脸对齐操作，具体地可以使左右眼中心点连线水平，左右嘴角连线水平且中心位于两眼连线的中垂线上，鼻尖位于两眼连线的中垂线上。将进行人脸对齐操作后的第二人脸图像作为待识别人脸图像。

S1014：基于第一关键点在待识别人脸图像中的位置，确定待识别人脸图像中第一关键点的第一坐标。

在本申请的实施例中，对第二人脸图像进行人脸对齐操作得到该第二人脸图像对应的待识别人脸图像后，由于第二人脸图像中的人脸与待识别人脸图像中的人脸没有改变，只是人脸所处图像中的位置改变了，因此待识别人脸图像中的第一关键点没有改变，但是每个第一关键点对应的坐标改变了。本申请中，可以基于第一关键点在待识别人脸图像中的位置，确定出待识别人脸图像中每个第一关键点对应的第一坐标。

S1015：根据第一坐标，确定出用于表示待识别人脸图像对应的第一关键点的位置的第一关键点特征向量。

在本申请的实施例中，根据待识别人脸图像中的每个第一关键点对应的第一坐标，对每个第一关键点对应的第一坐标进行降维处理，确定出用于表示待识别人脸图像对应的第一关键点的位置的第一关键点特征向量。具体地，若有M个第一关键点，则第一坐标有M个，由于第一坐标是二维坐标，所以共有2M维数据，本申请中可以通过降维处理将所有的第一关键点对应的第一坐标(即2M维数据)降维至L维向量(即包含L维数据，L<2M)，其中，降维处理的方法可以使用主成分分析法(PCA)，也可以使用其他降维方法，本申请对此不予限制。其中，第一关键点特征向量用于表示待识别人脸图像中所有的第一关键点的位置，每个待识别人脸图像对应一个第一关键点特征向量。

在一种可能的实施方式中，在执行步骤S1011获取第二人脸图像之前，具体还可以按照以下步骤执行：

S10111：采集包含有人脸的第一原始图像。

在本申请的实施例中，第一原始图像可以是实时采集的，也可以是历史时刻采集的。第一原始图像可以是包含有人脸的、且未经过任何处理的原始图像。第一原始图像可以通过监控摄像头、电脑摄像头和手机摄像头等设备进行采集。

S10112：使用检测算法对第一原始图像进行检测，得到第一原始图像上的第一人脸边界框。

在本申请的实施例中，使用检测算法对第一原始图像进行检测时，具体可以使用SSD(Single Shot MultiBox Detector)检测算法对第一原始图像进行检测。第一人脸边界框可以是使用检测算法在第一原始图像上标注出的仅包含有人脸、头发和部分背景的人脸区域边框。在一个具体的实施例中，第一原始图像中可能包含有待识别对象(即人)的全身，使用检测算法进行检测后可以在第一原始图像中标注出一个第一人脸边界框，该第一人脸边界框所包含的区域中仅包含有人脸、头发和部分背景的人脸区域。

图2示出了本申请实施例所提供的第一人脸边界框位置示意图，如图2所示，在本申请的实施例中，通过SSD检测算法获取第一原始图像中的第一人脸边界框的四个角的坐标，分别为(x_s，y_s)，(x_e，y_s)，(x_s，y_e)和(x_e，y_e)，其中(x_s，y_s)和(x_e，y_e)分别是SSD检测算法得到的第一人脸边界框的左上点和右下点的坐标。

S10113：使用预设缩放比例对第一人脸边界框进行调整，得到第二人脸边界框；其中，预设缩放比例与人脸关键点检测模型为一一对应关系。

在本申请的实施例中，由于需要使用人脸关键点检测模型对第二人脸图像进行检测，得到第一关键点的坐标，所以第二人脸图像需要满足该人脸关键点检测模型的检测条件。若直接使用SSD检测算法得到的第一人脸边界框对第一原始图像进行截取后得到的人脸图像，则该人脸图像不一定能够满足该人脸关键点检测模型的检测条件。因此本申请中需要预先使用该人脸关键点检测模型所对应的预设缩放比例，对SSD检测算法标注出的第一人脸边界框进行调整得到第二人脸边界框，再使用调整后的第二人脸边界框对第一原始图像进行截取，可以得到满足该人脸关键点检测模型的检测条件的第二人脸图像。

如图2所示，使用预设缩放比例对第一人脸边界框进行调整时，具体可以根据第一人脸边界框的左上点和右下点的坐标，计算出第一人脸边界框的中心点坐标(x_c，y_c)，具体可以根据以下公式进行计算：

分别计算第一人脸边界框的四条边与中心点之间的距离，取距离最大值为d，通过设置上下左右四个方向的预设缩放比例s₁、s₂、s₃、s₄，使用s₁、s₂、s₃、s₄分别乘d得到新的四条边与中心点之间的距离，将新的四条边作为第二人脸边界框的四条边，得到第二人脸边界框。

S10114：使用第二人脸边界框对第一原始图像进行截取，得到第二人脸图像。

在本申请的实施例中，第二人脸边界框是标注在第一原始图像上的四条边，使用第二人脸边界框的四条边对第一原始图像进行截取(分割)，将截取下来的、第二人脸边界框所围成的图像作为第二人脸图像。

在一种可能的实施方式中，在执行步骤S103根据第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集时，具体可以按照以下步骤执行：

S1031：针对预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量，计算出该第二关键点特征向量与第一关键点特征向量的相似度。

在本申请的实施例中，预设的第一数据集中包含有第二预设个数的第一人脸图像，每个第一人脸图像对应一个表示该第一人脸图像的第二关键点的位置的第二关键点特征向量。本申请中从第一数据集中选取目标第一人脸图像时，具体可以针对第一数据集中的每个(第一人脸图像对应的)第二关键点特征向量，逐个计算第一关键点特征向量与各个第二关键点特征向量之间的相似度。具体地，共得到第二预设个数的相似度。

在本申请的实施例中，相似度可以使用距离度量方法计算，具体地相似度可以为皮尔逊相关系数，相似系数绝对值越大，相关度越高，也可以为欧氏距离，欧氏距离越小，相似度越高。

S1032：根据相似度由高到低的顺序，依次在第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集。

在本申请的实施例中，对相似度由高到低进行排序(排列)，根据相似度由高到低的顺序，依次在第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集。

在一种可能的实施方式中，在执行步骤S104根据第二数据集中的目标第一人脸图像以及每个目标第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量时，具体可以按照以下步骤执行：

S1041：根据目标第一人脸图像对应的第一表情标签，计算出第二数据集中每个第一表情标签对应的目标第一人脸图像的个数。

在本申请的实施例中，每个目标第一人脸图像对应一个第一表情标签，每个第一表情标签可以对应多个目标第一人脸图像。连续步骤S104中的实施例，假设第一表情标签的种类分别为开心、生气、厌恶、恐惧、悲伤、惊讶、蔑视和中性，共8种；第一预设个数为512(即有512个目标第一人脸图像)。分别计算出第二数据集中每个第一表情标签对应的目标第一人脸图像的个数，例如其中有349个目标第一人脸图像对应的第一表情标签为开心，88个目标第一人脸图像对应的第一表情标签为生气，45个目标第一人脸图像对应的第一表情标签为悲伤，30个目标第一人脸图像对应的第一表情标签为惊讶，其余第一表情标签对应的目标第一人脸图像的个数为零。

S1042：根据第二数据集中每个第一表情标签对应的目标第一人脸图像的个数，计算出每个第一表情标签在第二数据集中的第一概率，以及确定出第一概率对应的第一概率向量。

连续步骤S1041中的实施例，根据第二数据集中每个第一表情标签对应的目标第一人脸图像的个数，可以计算出开心表情标签对应的第一概率为349/512＝0.68，生气表情标签对应的第一概率为0.17，悲伤表情标签对应的第一概率为0.09，惊讶表情标签对应的第一概率为0.06，其余第一表情标签对应的第一概率为0。

根据每个第一表情标签对应的第一概率，可以确定出第一概率向量＝[开心，生气，厌恶，恐惧，悲伤，惊讶，蔑视，中性]＝[0.68，0.17，0，0，0.09，0.06，0，0]。

在一种可能的实施方式中，在执行步骤S103根据第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集之前，具体还可以按照以下步骤执行：

S10301：获取第三数据集；其中，第三数据集中包括第二预设个数的第三人脸图像以及每个第三人脸图像对应的第一表情标签，第三数据集中每个第一表情标签对应的第三人脸图像的个数相同。

在本申请的实施例中，在获取第三数据集之前，首先需要获取第二预设个数的包含有人脸的第二原始图像以及每个第二原始图像对应的第一表情标签，具体地，第二预设个数的第二原始图像中每个第一表情标签对应的第二原始图像的个数相同。

针对每个第二原始图像，使用检测算法对该第二原始图像进行检测，得到该第二原始图像上的第三人脸边界框；使用预设缩放比例对该第三人脸边界框进行调整，得到第四人脸边界框；使用第四人脸边界框对该第二原始图像进行截取，得到第三人脸图像。将第二预设个数的第二原始图像所对应的第二预设个数的第三人脸图像，以及每个第三人脸图像对应的第一表情标签作为第三数据集。

S10302：针对每个第三人脸图像，将该第三人脸图像输入到人脸关键点检测模型中，得到该第三人脸图像对应的第二关键点以及第二关键点对应的第三坐标。

在本申请的实施例中，针对每个第三人脸图像，将该第三人脸图像输入到训练好的基于卷积神经网络的人脸关键点检测模型中，在人脸关键点检测模型中检测出该第三人脸图像中的第二关键点以及第二关键点对应的第三坐标。具体地，第二关键点可以是第三人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点等，每个第二关键点对应一个该第二关键点的第三坐标。每个第三人脸图像可以对应多个第二关键点。

S10303：针对每个第三人脸图像，根据该第三人脸图像对应的第二关键点以及第三坐标，对该第三人脸图像进行人脸对齐操作，得到第一人脸图像。

在本申请的实施例中，通过对第三人脸图像进行人脸对齐操作，通过仿射变换，使得每个第三人脸图像中的人脸的五官所在的水平位置相同，具体地，可以将每个第三人脸图像中的人脸的两眼中心的连线水平，符合人脸的生理学知识。

针对每个第三人脸图像，根据该第三人脸图像对应的第二关键点以及第三坐标，对该第三人脸图像进行人脸对齐操作时，具体地，当第二关键点中包括第三人脸图像中的人脸的左右眼中心、鼻尖、左右嘴角的五个点时，可以根据左右眼中心、鼻尖、左右嘴角五点位置，对第三人脸图像进行人脸对齐操作，具体地可以使左右眼中心点连线水平，左右嘴角连线水平且中心位于两眼连线的中垂线上，鼻尖位于两眼连线的中垂线上。将进行人脸对齐操作后的第三人脸图像作为第一人脸图像。

S10304：针对每个第一人脸图像，基于第二关键点在该第一人脸图像中的位置，确定该第一人脸图像中第二关键点的第四坐标。

在本申请的实施例中，针对每个第三人脸图像，对该第三人脸图像进行人脸对齐操作得到该第三人脸图像对应的第一人脸图像后，由于该第三人脸图像中的人脸与第一人脸图像中的人脸没有改变，只是人脸所处图像中的位置改变了，因此该第一人脸图像中的第二关键点没有改变，但是每个第二关键点对应的坐标改变了。本申请中，可以基于第二关键点在第一人脸图像中的位置，确定出第一人脸图像中每个第二关键点对应的第四坐标。

S10305：针对每个第一人脸图像，根据该第一人脸图像对应的第四坐标，得到用于表示该第一人脸图像中第二关键点的位置的第二关键点特征向量，以将第二预设个数的第一人脸图像、每个第一人脸图像对应的第一表情标签以及每个第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量确定为预设的第一数据集。

在本申请的实施例中，针对每个第一人脸图像，根据该第一人脸图像对应的第四坐标，得到用于表示该第一人脸图像中第二关键点的位置的第二关键点特征向量。具体地，每个第一人脸图像对应一个第二关键点特征向量，每个第二关键点特征向量用于表示与其对应的第一人脸图像中所有的第二关键点的位置。将第二预设个数的第一人脸图像、每个第一人脸图像对应的第一表情标签、每个第一人脸图像对应的第二关键点特征向量确定为预设的第一数据集。

在本申请的实施例中，表情识别包括两个阶段：模型训练阶段和表情识别阶段。其中，模型训练阶段是指训练表情识别模型的阶段，该阶段使用训练样本图像进行训练，得到表情识别模型，该表情识别模型包括：卷积神经网络和全连接层。表情识别阶段是指利用模型训练阶段训练完成后的表情识别模型进行表情识别的阶段，具体可参见图1。下面对模型训练阶段进行详细说明。

在一种可能的实施方式中，在执行步骤S101获取待识别人脸图像以及待识别人脸图像对应的第一关键点的第一坐标之前，具体还可以按照以下步骤执行：

S1001：获取训练样本图像、训练样本图像对应的第二表情标签以及用于表示第三关键点的位置的第三关键点特征向量；其中，第三关键点包括训练样本图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种。

在本申请的实施例中，在获取训练样本图像、训练样本图像对应的第二表情标签以及用于表示第三关键点的位置的第三关键点特征向量之前，首先需要获取第三预设个数的包含有人脸的第三原始图像，以及每个第三原始图像对应的第二表情标签。具体地，第二表情标签的种类与第一表情标签的种类相同。

针对每个第三原始图像，使用检测算法对该第三原始图像进行检测，得到该第三原始图像上的第五人脸边界框；使用预设缩放比例对该第五人脸边界框进行调整，得到第六人脸边界框；使用第六人脸边界框对该第三原始图像进行截取，得到该第三原始图像对应的第四人脸图像。

针对每个第四人脸图像，将该第四人脸图像输入到人脸关键点检测模型中，得到该第四人脸图像对应的第三关键点，以及每个第三关键点对应的第五坐标；针对每个第四人脸图像，根据该第四人脸图像对应的第三关键点以及第五坐标，对该第四人脸图像进行人脸对齐操作，得到该第四人脸图像对应的第五人脸图像；基于第三关键点在第五人脸图像中的位置，确定第五人脸图像中第三关键点的第六坐标；将所有的第五人脸图像、每个第五人脸图像中第三关键点的第六坐标以及每个第五人脸图像对应的第二表情标签作为第五数据集。

对第五数据集中的第五人脸图像进行数据扩充，数据扩充包括水平翻转、随机裁剪和增加噪声中的一种或多种，得到数据扩充后新增的第六人脸图像；针对数据扩充后新增的第六人脸图像，由于数据扩充后新增的第六人脸图像中与第五人脸图像中的人脸没有改变，只是第六人脸图像中人脸的位置改变了，所以第六人脸图像中人脸的第三关键点没有改变，只是人脸的第三关键点的位置坐标改变了，因此基于第三关键点在第六人脸图像中的位置，确定第六人脸图像中第三关键点的第七坐标。

将第五数据集中的第五人脸图像、第五人脸图像中第三关键点的第六坐标和每个第五人脸图像对应的第二表情标签，以及数据扩充后新增的第六人脸图像、第六人脸图像中第三关键点的第七坐标和每个第六人脸图像对应的第二表情标签确定为训练样本集，并将训练样本集中的第五人脸图像和第六人脸图像作为训练样本图像，将第五人脸图像中第三关键点的第六坐标和第六人脸图像中第三关键点的第七坐标确定为训练样本图像的第八坐标。此时训练样本集中包括训练样本图像、每个训练样本图像对应的第二表情标签以及每个训练样本图像中第三关键点的第八坐标。

针对每个训练样本图像，根据该训练样本图像中第三关键点的第八坐标，确定出用于表示该训练样本图像对应的第三关键点的位置的第三关键点特征向量。获取训练样本图像、训练样本图像对应的第二表情标签、以及每个训练样本图像对应的第三关键点特征向量。其中，第三关键点包括训练样本图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种。

S1002：将训练样本图像输入到待训练的卷积神经网络中，得到用于表示训练样本图像的人脸特征的第三人脸特征向量。

在本申请的实施例中，针对每个训练样本图像，将该训练样本图像输入到待训练的卷积神经网络中，得到用于表示该训练样本图像的人脸特征的第三人脸特征向量。具体地，每个训练样本图像对应一个第三人脸特征向量。

S1003：根据第三关键点特征向量与第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的样本第一人脸图像，以将选取出的样本第一人脸图像作为第四数据集；其中，第三关键点特征向量与样本第一人脸图像对应的第二关键点特征向量之间的相似度高于第三关键点特征向量与其他第一人脸图对应的第二关键点特征向量像之间的相似度。

在本申请的实施例中，建立第一数据集的过程在模型训练阶段之前完成。在本申请中，针对每个训练样本图像，根据该训练样本图像对应的第三关键点特征向量与第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的样本第一人脸图像，其中，该训练样本图像对应的第三关键点特征向量与该训练样本图像对应的样本第一人脸图像所对应的第二关键点特征向量之间的相似度，高于该训练样本图像对应的第三关键点特征向量与第一数据集中其他第一人脸图像所对应的第二关键点特征向量之间的相似度。

具体地，针对每个训练样本图像，计算出该训练样本图像对应的第三关键点特征向量与第一数据集中的每个第二关键点特征向量之间的相似度，即每个训练样本图像对应第二预设个数的相似度。针对每个训练样本图像，根据该训练样本图像对应的相似度由高到低的顺序，依次在第一数据集中选取出该训练样本图像对应的第一预设个数的样本第一人脸图像，以将选取出的该训练样本图像对应的样本第一人脸图像作为该训练样本图像对应的第四数据集。即每个训练样本图像对应一个第四数据集。

S1004：根据第四数据集中的样本第一人脸图像以及每个样本第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第四数据集中的第二概率以及第二概率对应的第二概率向量。

在本申请的实施例中，每个第四数据集中均包括第一预设个数的样本第一人脸图像、以及每个样本第一人脸图像对应的第一表情标签。根据第四数据集中的样本第一人脸图像以及每个样本第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第四数据集中的第二概率以及第二概率对应的第二概率向量。

具体地，针对每个训练样本图像，根据该训练样本图像所对应的第四数据集中的样本第一人脸图像对应的第一表情标签，计算出该第四数据集中每个第一表情标签对应的样本第一人脸图像的个数。再根据该第四数据集中每个第一表情标签对应的样本第一人脸图像的个数，计算出该第四数据集中每个第一表情标签在第四数据集中的第二概率，以及确定出第二概率对应的第二概率向量。其中第二概率向量用于表示每个第一表情标签在第四数据集中的概率。

S1005：将第三人脸特征向量和第二概率向量融合后，输入到包含有待训练的全连接层和归一化指数函数的待训练分类模型中，确定训练样本图像的所属的第二表情类别。

在本申请的实施例中，针对每个训练样本图像，将该训练样本图像对应的第三人脸特征向量和第二概率向量进行融合，将融合后的特征向量输入到包含有待训练的全连接层和归一化指数函数(softmax函数)的待训练分类模型中，具体地，将融合后的特征向量输入到待训练的全连接层中，得到预测出的该训练样本图像属于每个第一表情标签的分值，该预测出的分值表示该训练样本图像属于每个第一表情标签的可能性的大小。再将全连接层输出的结果输入到归一化指数函数中，得到该训练样本图像属于每个第一表情标签的概率。根据该训练样本图像属于每个第一表情标签的概率，确定该训练样本图像所属的第二表情类别。

S1006：根据训练样本图像对应的第二表情标签和第二表情类别，计算交叉熵损失数值。

在本申请的实施例中，针对每个训练样本图像，根据该训练样本图像对应的第二表情标签和第二表情类别，计算交叉熵损失数值。

S1007：当交叉熵损失数值不小于预设损失数值时，使用交叉熵损失数值对待训练的卷积神经网络和待训练的全连接层进行本轮训练。

在本申请的实施例中，针对每个训练样本图像，当该训练样本图像对应的交叉熵损失数值不小于预设损失数值时，表示预测出的该训练样本图像所属的第二表情类别不够准确，需要使用交叉熵损失数值对待训练的卷积神经网络和待训练的全连接层进行本轮训练。

S1008：当交叉熵损失数值小于预设损失数值时，停止训练，得到训练完成后的卷积神经网络和训练完成后的全连接层。

在本申请的实施例中，针对每个训练样本图像，当该训练样本图像对应的交叉熵损失数值小于预设损失数值时，表示预测出的该训练样本图像所属的第二表情类别准确率达到要求，可以停止训练，此时得到训练完成后的卷积神经网络和训练完成后的全连接层。

实施例二：

基于相同的技术构思，本申请实施例还提供一种识别装置，图3示出了本申请实施例所提供的一种识别装置的结构示意图，如图3所示，该装置包括：

第一获取模块301，用于获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量；其中，第一关键点包括待识别人脸图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种；

第一输入模块302，用于将待识别人脸图像输入到训练完成后的卷积神经网络中，得到用于表示待识别人脸图像的人脸特征的第一人脸特征向量；

第一选取模块303，用于根据第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集；其中，第一关键点特征向量与目标第一人脸图像对应的第二关键点特征向量之间的相似度高于第一关键点特征向量与其他第一人脸图像对应的第二关键点特征向量之间的相似度；第一数据集中包含有第二预设个数的第一人脸图像、每个第一人脸图像对应的第一表情标签以及每个第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量；

第一确定模块304，用于根据第二数据集中的目标第一人脸图像以及每个目标第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量；

第二输入模块305，用于将第一人脸特征向量和第一概率向量融合后，输入到包含有训练完成后的全连接层和归一化指数函数的分类模型中，确定待识别人脸图像所属的第一表情类别。

可选的，还包括：

第二获取模块，用于在前述第一获取模块301获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量之前，获取第二人脸图像；

第三输入模块，用于将第二人脸图像输入到人脸关键点检测模型中，得到该第二人脸图像对应的第一关键点，以及第一关键点对应的第二坐标；

第一对齐模块，用于根据第一关键点以及第二坐标，对第二人脸图像进行人脸对齐操作，得到待识别人脸图像；

第二确定模块，用于基于第一关键点在待识别人脸图像中的位置，确定待识别人脸图像中第一关键点的第一坐标；

第三确定模块，用于根据第一坐标，确定出用于表示待识别人脸图像对应的第一关键点的位置的第一关键点特征向量。

可选的，还包括：

采集模块，用于在前述第二获取模块获取第二人脸图像之前，采集包含有人脸的第一原始图像；

检测模块，用于使用检测算法对第一原始图像进行检测，得到第一原始图像上的第一人脸边界框；

调整模块，用于使用预设缩放比例对第一人脸边界框进行调整，得到第二人脸边界框；其中，预设缩放比例与人脸关键点检测模型为一一对应关系；

截取模块，用于使用第二人脸边界框对第一原始图像进行截取，得到第二人脸图像。

可选的，在前述第一选取模块303用于根据第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集时，具体用于：

针对预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量，计算出该第二关键点特征向量与第一关键点特征向量的相似度；

根据相似度由高到低的顺序，依次在第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集。

可选的，在前述第一确定模块304在用于根据第二数据集中的目标第一人脸图像以及每个目标第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第二数据集中的第一概率以及第一概率对应的第一概率向量时，具体用于：

根据目标第一人脸图像对应的第一表情标签，计算出第二数据集中每个第一表情标签对应的目标第一人脸图像的个数；

根据第二数据集中每个第一表情标签对应的目标第一人脸图像的个数，计算出每个第一表情标签在第二数据集中的第一概率，以及确定出第一概率对应的第一概率向量。

可选的，还包括：

第三获取模块，在前述第一选取模块303根据第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集之前，用于获取第三数据集；其中，第三数据集中包括第二预设个数的第三人脸图像以及每个第三人脸图像对应的第一表情标签，第三数据集中每个第一表情标签对应的第三人脸图像的个数相同；

第四输入模块，用于针对每个第三人脸图像，将该第三人脸图像输入到人脸关键点检测模型中，得到该第三人脸图像对应的第二关键点以及第二关键点对应的第三坐标；

第二对齐模块，用于针对每个第三人脸图像，根据该第三人脸图像对应的第二关键点以及第三坐标，对该第三人脸图像进行人脸对齐操作，得到第一人脸图像；

第四确定模块，用于针对每个第一人脸图像，基于第二关键点在该第一人脸图像中的位置，确定该第一人脸图像中第二关键点的第四坐标；

第五确定模块，用于针对每个第一人脸图像，根据该第一人脸图像对应的第四坐标，得到用于表示该第一人脸图像中第二关键点的位置的第二关键点特征向量，以将第二预设个数的第一人脸图像、每个第一人脸图像对应的第一表情标签以及每个第一人脸图像对应的用于表示该第一人脸图像的第二关键点的位置的第二关键点特征向量确定为预设的第一数据集。

可选的，还包括：

第四获取模块，用于在前述第一获取模块301获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量之前，获取训练样本图像、训练样本图像对应的第二表情标签以及用于表示第三关键点的位置的第三关键点特征向量；其中，第三关键点包括训练样本图像中人脸的面部轮廓点、各器官轮廓点和各器官中心点中的至少一种；

第五输入模块，用于将训练样本图像输入到待训练的卷积神经网络中，得到用于表示训练样本图像的人脸特征的第三人脸特征向量；

第二选取模块，用于根据第三关键点特征向量与第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从第一数据集中选取出第一预设个数的样本第一人脸图像，以将选取出的样本第一人脸图像作为第四数据集；其中，第三关键点特征向量与样本第一人脸图像对应的第二关键点特征向量之间的相似度高于第三关键点特征向量与其他第一人脸图像对应的第二关键点特征向量之间的相似度；

第六确定模块，用于根据第四数据集中的样本第一人脸图像以及每个样本第一人脸图像对应的第一表情标签，确定出每个第一表情标签在第四数据集中的第二概率以及第二概率对应的第二概率向量；

第六输入模块，用于将第三人脸特征向量和第二概率向量融合后，输入到包含有待训练的全连接层和归一化指数函数的待训练分类模型中，确定训练样本图像的所属的第二表情类别；

计算模块，用于根据训练样本图像对应的第二表情标签和第二表情类别，计算交叉熵损失数值；

训练模块，用于当交叉熵损失数值不小于预设损失数值时，使用交叉熵损失数值对待训练的卷积神经网络和待训练的全连接层进行本轮训练；

停止模块，用于当交叉熵损失数值小于预设损失数值时，停止训练，得到训练完成后的卷积神经网络和训练完成后的全连接层。

实施例三：

基于相同的技术构思，本申请实施例还提供一种电子设备，图4示出了本申请实施例所提供的一种电子设备的结构示意图，如图4所示，该电子设备400包括：处理器401、存储器402和总线403，存储器存储有处理器可执行的机器可读指令，当电子设备运行时，处理器401与存储器402之间通过总线403通信，处理器401执行机器可读指令，以执行实施例以中所述的方法步骤。

实施例四：

本申请实施例四还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行实施例一中所述的方法步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别方法，其特征在于，包括：

2.根据权利要求1所述的识别方法，其特征在于，所述获取待识别人脸图像以及用于表示第一关键点的位置的第一关键点特征向量之前，还包括：

获取第二人脸图像；

3.根据权利要求2所述的识别方法，其特征在于，所述获取第二人脸图像之前，还包括：

采集包含有人脸的第一原始图像；

使用检测算法对所述第一原始图像进行检测，得到所述第一原始图像上的第一人脸边界框；

使用预设缩放比例对所述第一人脸边界框进行调整，得到第二人脸边界框；其中，所述预设缩放比例与所述人脸关键点检测模型为一一对应关系；

4.根据权利要求1所述的识别方法，其特征在于，所述根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集，包括：

5.根据权利要求1所述的识别方法，其特征在于，所述根据所述第二数据集中的所述目标第一人脸图像以及每个所述目标第一人脸图像对应的所述第一表情标签，确定出每个所述第一表情标签在所述第二数据集中的第一概率以及所述第一概率对应的第一概率向量，包括：

6.根据权利要求1所述的识别方法，其特征在于，所述根据所述第一关键点特征向量与预设的第一数据集中每个第一人脸图像对应的第二关键点特征向量的相似度，从所述第一数据集中选取出第一预设个数的目标第一人脸图像，以将选取出的目标第一人脸图像作为第二数据集之前，还包括：

7.根据权利要求1所述的识别方法，其特征在于，所述获取待识别人脸图像以及所述待识别人脸图像对应的第一关键点的第一坐标之前，还包括：

8.一种识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的识别方法的步骤。