CN114202791A

CN114202791A - 面部情绪识别模型的训练方法、情绪识别方法及相关设备

Info

Publication number: CN114202791A
Application number: CN202111461044.0A
Authority: CN
Inventors: 陈柯宇; 张唯; 丁彧; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-18

Abstract

本公开提供一种面部情绪识别模型的训练方法、情绪识别方法及相关设备。能够收集自然语言中与情绪相关一些情绪词汇，然后搜集每个情绪词汇对应的人脸图像，并利用情绪词汇对人脸图像进行标注形成训练样本集，对预先构建的初始网络模型进行训练，得到面部情绪识别模型，再利用面部情绪识别模型对面部情绪识别处理。这样，由于面部情绪识别模型与自然语言表达空间一致，因此利用面部情绪识别模型进行面部情绪识别的结果更加符合人类自然感知的真实情绪，情绪识别更加精确。

Description

面部情绪识别模型的训练方法、情绪识别方法及相关设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种面部情绪识别模型的训练方法、情绪识别方法及相关设备。

背景技术

人的面部神态能够大量反应出人的内心运动，因此观察人脸的视觉变化一直以来都是鉴别人的情绪状态的最佳方式。在计算机视觉，人机交互以及计算心理学领域，构建人工标注的人脸情绪数据集并采用深度网络模型进行图像分类学习，是一项具有研究价值和落地意义的工作。

传统的人脸情绪识别方法/数据集都建立在基础的情绪表示模型上，即包括七种基本情绪：中性，开心，伤心，惊讶，害怕，生气，厌恶等。然而人的面部情绪是复杂的，光靠这基础的七种情绪无法对人的面部情绪表达完整，这样就会导致人脸情绪识别不准确的问题。

发明内容

有鉴于此，本公开的目的在于提出一种面部情绪识别模型的训练方法、情绪识别方法及相关设备，用以解决或部分解决上述技术问题。

基于上述目的，本公开的第一方面提供了一种面部情绪识别模型的训练方法，包括：

获取与情绪相关的多个情绪词汇，将所述多个情绪词汇整合形成情绪词汇集合；

搜集与所述情绪词汇集合中的每个所述情绪词汇对应的人脸图像，利用所述情绪词汇对所述对应的人脸图像进行标注，将标注后的人脸图像作为训练样本集，其中，一个所述情绪词汇对应搜集到多个所述人脸图像；

将所述训练样本集中的人脸图像依次输入至预先构建的初始网络模型中进行训练处理，并依据所述初始网络模型每轮训练的输出结果和所述训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整；当所述初始网络模型达到预设的收敛条件时，将所述初始网络模型作为用于面部情绪识别的面部情绪识别模型。

在一些示例性实施例中，所述获取与情绪相关的多个情绪词汇，将所述多个情绪词汇整合形成情绪词汇集合，包括：

从语言词汇库中筛选与情绪相关的多个待选词汇；

对多个所述待选词汇采用众包方式进行选定，去除不能进行对应情绪表达的待选词汇，将剩余的待选词汇作为情绪词汇；

对所述情绪词汇进行整合形成情绪词汇集合。

在一些示例性实施例中，所述对多个所述待选词汇采用众包方式进行选定，去除不能进行对应情绪表达的待选词汇，将剩余的待选词汇作为情绪词汇，包括：

根据每个所述待选词汇生成对应的调查数据，将所述调查数据通过网络进行发布，以供调查者通过终端设备接收所述网络传送的所述调查数据，并对所述调查数据进行是否能表达对应情绪的投票，生成对应的投票信息；

接收各个调查者通过终端设备反馈的投票信息，去除所述投票信息中不能表达对应情绪的待选词汇，将剩余的待选词汇作为情绪词汇。

在一些示例性实施例中，所述搜集与所述情绪词汇集合中的每个所述情绪词汇对应的人脸图像，利用所述情绪词汇对所述对应的人脸图像进行标注，将标注后的人脸图像作为训练样本集，包括：

将所述情绪词汇集合中的每个所述情绪词汇作为搜索标签进行搜索，获取与所述搜索标签对应的多个人脸图像，利用所述搜索标签对应的情绪词汇对所述多个人脸图像进行标注，将标注后的人脸图像存储至数据库中；

利用预先构建的人脸表情编码模型对所述数据库中标注后的人脸图像进行过滤处理，得到过滤后的人脸图像；

对所述过滤后的人脸图像进行随机采样，将采样结果输出至评判者的显示端，以供评判者通过所述显示端对所述过滤后的人脸图像对应标注的情绪词汇进行是否匹配的评判，生成评判结果；

接收各个评判者通过显示端反馈的评判结果，计算评判结果为匹配的占比，删除所述占比小于预定比值对应的过滤后的人脸图像，将剩余的过滤后的人脸图像以及对应标注的情绪词汇作为训练样本集。

在一些示例性实施例中，利用预先构建的人脸表情编码模型对所述数据库中标注后的人脸图像进行过滤处理，得到过滤后的人脸图像，包括：

从多个情绪词汇中依次确定相应的目标情绪词汇；

从所述数据库中获取所述目标情绪词汇对应的多个所述标注后的人脸图像作为待过滤图像；

利用预先构建的人脸表情编码模块对所述待过滤图像进行聚类处理，得到至少一个聚类结果；

保留数量最多的聚类结果，去除其他聚类结果，将所述数量最多的聚类结果作为过滤后的人脸图像。

在一些示例性实施例中，所述将所述训练样本集中的人脸图像输入至预先构建的初始网络模型中进行训练处理，并依据训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整，具体包括：

基于卷积算子深度神经网络预先构建具有输入层、多个隐藏层和输出层的初始网络模型；

将所述训练样本集中的人脸图像输入至所述初始网络模型的输入层，所述输入层对所述输入的人脸图像进行预处理后发送至所述隐藏层，经过多个所述隐藏层分析之后，生成分析结果发送至输出层，所述输出层将所述分析结果进行处理生成各种情绪的预测概率值，从各种情绪的预测概率值中筛选最大预测概率值对应的目标情绪，所述输出层将所述目标情绪输出；

根据所述目标情绪与输入的人脸图像对应标注的情绪词汇的差异性计算损失函数，根据所述损失函数对所述初始网络模型的各层参数进行调整，并从所述训练样本集中获取下一个人脸图像输入至所述初始网络模型进行训练处理。

在一些示例性实施例中，在所述多个隐藏层中的第一个隐藏层中嵌入预先获得的不同情绪之间的相似度矩阵；

所述输入层对所述输入的人脸图像进行预处理后发送至所述隐藏层，经过多个所述隐藏层分析之后，生成分析结果发送至输出层，包括：

所述输入层对所述输入的人脸图像进行预处理后发送至所述第一个隐藏层；

所述第一个隐藏层根据所述相似度矩阵对所述输入的人脸图像进行情绪特征提取，将提取的所述情绪特征发送至剩余的隐藏层依次进行情绪分析，最后一个隐藏层将分析结果发送至输出层。

在一些示例性实施例中，所述初始网络模型的输入层和多个隐藏层由两个孪生的VGGNet平行组成。

基于同一个发明构思，本公开的第二方面提供了一种面部情绪识别模型的情绪识别方法，包括：

接收待识别的面部图像，将所述面部图像输入至利用第一方面所述的面部情绪识别模型的训练方法得到的所述面部情绪识别模型中；

利用所述面部情绪识别模型对所述待识别的面部图像进行情绪分析处理，确定所述待识别的面部图像对应的各个情绪词汇的待定概率值，筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。

在一些示例性实施例中，所述面部情绪识别模型包括：输入层、多个隐藏层和输出层，所述多个隐藏层中第一个隐藏层嵌入预先获得的不同情绪之间的相似度矩阵；

所述面部情绪识别模型对所述待识别的面部图像进行情绪分析处理，确定所述待识别的面部图像对应的各个情绪词汇的待定概率值，筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出，包括：

所述待识别的面部图像输入至所述输入层，所述输入层对所述待识别的面部图像进行预处理，将预处理之后的面部图像输入至所述第一个隐藏层；

所述第一个隐藏层根据所述相似度矩阵对所述预处理之后的面部图像进行情绪特征提取，将提取的所述情绪特征发送至剩余的隐藏层依次进行情绪分析，得到所述待识别的面部图像对应的各个情绪词汇的待定概率值，最后一个隐藏层将各个所述待定概率值发送至所述输出层；

所述输出层从各个所述待定概率值中筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。

基于同一个发明构思，本公开的第三方面提供了一种面部情绪识别模型的训练装置，包括：

词汇获取模块，被配置为获取与情绪相关的多个词汇，将所述多个词汇分别与对应的情绪进行对应形成多个情绪词汇，将所述多个情绪词汇整合形成情绪词汇集合；

人脸图像搜集模块，被配置为搜集与所述情绪词汇集合中的每个所述情绪词汇对应的人脸图像，利用所述情绪词汇对所述对应的人脸图像进行标注，将标注后的人脸图像作为训练样本集，其中，一个所述情绪词汇对应搜集到多个所述人脸图像；

训练处理模块，被配置为将所述训练样本集中的人脸图像依次输入至预先构建的初始网络模型中进行训练处理，并依据所述初始网络模型每轮训练的输出结果和所述训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整；当所述初始网络模型达到预设的收敛条件时，将所述初始网络模型作为用于面部情绪识别的面部情绪识别模型。

基于同一个发明构思，本公开的第四方面提供了一种面部情绪识别模型的情绪识别装置，包括：

接收模块，被配置为接收待识别的面部图像，将所述面部图像输入至利用第一方面所述的面部情绪识别模型的训练方法得到的所述面部情绪识别模型中；

情绪识别模块，被配置为利用所述面部情绪识别模型对所述待识别的面部图像进行情绪分析处理，确定所述待识别的面部图像对应的各个情绪词汇的待定概率值，筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。

基于同一个发明构思，本公开的第五方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的面部情绪识别模型的训练方法，或者，如第二方面所述的面部情绪识别模型的情绪识别方法。

基于同一个发明构思，本公开的第六方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述的面部情绪识别模型的训练方法，或者，第二方面所述的面部情绪识别模型的情绪识别方法。

从上面所述可以看出，本公开提供的面部情绪识别模型的训练方法、情绪识别方法及相关设备，能够收集自然语言中与情绪相关一些情绪词汇，然后搜集每个情绪词汇对应的人脸图像，并利用情绪词汇对人脸图像进行标注形成训练样本集，对预先构建的初始网络模型进行训练，得到面部情绪识别模型。这样，由于面部情绪识别模型与自然语言表达空间一致，因此利用面部情绪识别模型进行面部情绪识别的结果更加符合人类自然感知的真实情绪，情绪识别更加精确。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开示例性实施例的应用场景示意图；

图2为本公开实施例的面部情绪识别模型的训练方法的流程图；

图3为本公开实施例的面部情绪识别模型的情绪识别方法的流程图；

图4为本公开实施例的面部情绪识别模型对应输出的一组图像的情绪识别结果图。

图5为本公开实施例的面部情绪识别模型的训练装置的结构框图；

图6为本公开实施例的面部情绪识别模型的情绪识别装置的结构框图；

图7为本公开实施例的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

相关技术中的人脸情绪表示模型，根据表征情绪的方法和数量，可以分为以下三类：

1、基本情绪表示模型：由上世纪末期心理学领域的研究者提出，一般包含几种通用的基本情绪类别，如：中性，开心，伤心，惊讶，害怕，生气，厌恶等。

2、复合情绪表示模型：在基本情绪表示模型的基础上，部分研究者提出使用两种不同的基本情绪用于刻画更为细致的复合情绪，如“既开心又惊讶”，“既害怕又厌恶”等。

3、多维度表示模型：基于心理学家概况总结的几种情绪表达维度，如愉悦度、唤醒度等，可以将任意情绪种类表达为各个维度的连续值所构成的集合。

基于上述三类的表述，对应的缺点包括：

1、基本情绪模型只能用于刻画几类稀疏的情绪类别，与人类真实内心千变万化的情绪状态相去甚远。

2、复合情绪模型虽然一定程度上弥补了基本情绪模型刻画情绪数量少的缺点，但是其本身依然受限于几类基本情绪定义，且并非所有基本情绪都能合理地组合搭配以构成新的情绪实例。

3、多维度表示模型虽然理论上可以表示任意情绪种类，但是其本身必须掌握目标情绪的多维度评分；在认知心理学和情绪理论研究中，目前尚没有学术界达成一致的情绪评价方法，因此，为任意情绪种类设定多维度评分仍然缺乏合理的参考标准。

基于上述情况本公开的实施方式提出了一种AI下棋模型的分级处理方法、装置及相关设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

为了方便理解，下面对本公开实施例中涉及的名词进行解释：

神经网络(Artificial Neural Networks，ANNs)：根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型，设计相应的学习算法，模拟人脑的某种智能活动，然后在技术上实现出来用以解决实际问题。

VGGNet(Visual Geometry Group Net)：2014年，牛津大学计算机视觉组(VisualGeometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络：VGGNet探索了卷积神经网络的深度与其性能之间的关系，成功地构筑了16～19层深的卷积神经网络，证明了增加网络的深度能够在一定程度上影响网络最终的性能，使错误率大幅下降，同时拓展性又很强，迁移到其它图片数据上的泛化性也非常好。

情绪词汇，代表能够表达人类心理感情的词语。

众包方式：一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。

本公开的方案旨在提供一种面部情绪识别模型的训练方法、情绪识别方法及相关设备，能够得到与自然语言表达空间一致的面部情绪识别模型，进行情绪识别的结果更加符合人类自然感知的真实情绪，情绪识别更加精确。

参考图1，其为本公开实施例提供的面部情绪识别模型的训练方法、情绪识别方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中，终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant，PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器102用于向终端设备101的用户提供情绪识别服务，终端设备101中安装有与服务器102通信的客户端，用户可通过该客户端输入待识别的面部图像。用户通过该客户端将待识别的面部图像发送给服务器102，服务器102将待识别的面部图像输入预先训练的面部情绪识别模型，获得面部情绪识别模型输出的情绪识别结果，然后将情绪识别结果发送给客户端，客户端向用户展示处理后情绪识别结果，以完成对待识别的面部图像进行情绪识别的任务。

数据存储系统103中存储有大量训练数据，该训练数据包括标注了对应情绪词汇的人脸图像。服务器102可基于大量训练数据对初始网络模型进行训练，使得训练后得到的面部情绪识别模型能够对面部图像进行情绪识别，使得情绪识别的结果更加符合人类自然感知的真实情绪，情绪识别更加精确。

下面结合图1的应用场景，来描述根据本公开示例性实施方式的面部情绪识别模型的训练方法、情绪识别方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

参考图2，本公开实施例的面部情绪识别模型的训练方法，包括以下步骤：

步骤201，获取与情绪相关的多个情绪词汇，将所述多个情绪词汇整合形成情绪词汇集合。

具体实施时，该步骤201包括：

步骤2011，从语言词汇库中筛选与情绪相关的多个待选词汇。

其中，语言词汇库可以是下列至少之一：中文库、英文库、日文库、韩文库、饿文库、法文库、德文库以及阿拉伯文库等，具体可以根据对应的环境需求以及对应的地方语言进行选择。从中选择各个关于情绪的词汇，将这些词汇作为待选词汇。

步骤2012，对多个所述待选词汇采用众包方式进行选定，去除不能进行对应情绪表达的待选词汇，将剩余的待选词汇作为情绪词汇。

具体实施时，由于从语言词库中筛选出来的与情绪相关的待选词汇比较多，其中存在一些与情绪无关的词汇，需要将这些无关词汇删除。但是如何确定其中的词汇哪个属于无关词汇难度比较大，因此选用众包的方式，让大众进行选择，这样能够获知不同年龄、不同行业、不同性格的人对这些待选词汇的情绪认知。

其中，众包方式具体实施时，具体过程包括：

步骤20121，根据每个所述待选词汇生成对应的调查数据，将所述调查数据通过网络进行发布，以供调查者通过终端设备接收所述网络传送的所述调查数据，并对所述调查数据进行是否能表达对应情绪的投票，生成对应的投票信息。

例如，其中的一个待选词语的调查数据为：请问“火冒三丈”是能够正确表达生气情绪的词语，如果是，请您确认对应代表生气的等级“由低到高，分别为一级、二级和三级”；如果否，请您直接点击“否”。

步骤20122，接收各个调查者通过终端设备反馈的投票信息，去除所述投票信息中不能表达对应情绪的待选词汇，将剩余的待选词汇作为情绪词汇。

具体实施时，可以将上述生成的调查数据分发至不同年龄、不同行业、不同性别的各类人群对应的终端上，人群可以自行选择是否参与调查，如果参与调查，可以直接根据提示进行投票即可。这样，就会接收到各个调查者通过终端设备反馈的投票信息，汇总投票信息的投票结果，统计各个待选词汇对应的投票结果为“是”的投票数量，将投票数量低于最低阈值(例如，10票)的待选词汇删除。剩余的待选词汇即为经过大众投票一致确认的可以代表相应情绪的情绪词汇。

这样，通过众包方式得到的情绪词汇更加贴合大众的情感认知。

步骤2013，对所述情绪词汇进行整合形成情绪词汇集合。

具体实施时，将得到的多个情绪词汇按照首字母的顺序进行排列整合，或者按照笔画的数量进行排列整合，或者按照其他设定的方式进行排列整合，整合为情绪词汇集合。

步骤202，搜集与所述情绪词汇集合中的每个所述情绪词汇对应的人脸图像，利用所述情绪词汇对所述对应的人脸图像进行标注，将标注后的人脸图像作为训练样本集，其中，一个所述情绪词汇对应搜集到多个所述人脸图像。

具体实施时，该步骤包括：

步骤2021，将所述情绪词汇集合中的每个所述情绪词汇作为搜索标签进行搜索，获取与所述搜索标签对应的多个人脸图像，利用所述搜索标签对应的情绪词汇对所述多个人脸图像进行标注，将标注后的人脸图像存储至数据库中。

步骤2022，利用预先构建的人脸表情编码模型对所述数据库中标注后的人脸图像进行过滤处理，得到过滤后的人脸图像。

其中，人脸表情编码模型可以是利用神经网络预先构建得到的。

具体过程包括：

步骤20221，从多个情绪词汇中依次确定相应的目标情绪词汇。

步骤20222，从所述数据库中获取所述目标情绪词汇对应的多个所述标注后的人脸图像作为待过滤图像。

步骤20223，利用预先构建的人脸表情编码模块对所述待过滤图像进行聚类处理，得到至少一个聚类结果。

步骤20224，保留数量最多的聚类结果，去除其他聚类结果，将所述数量最多的聚类结果作为过滤后的人脸图像。

通过上述方案，能够利用人脸表情编码模型，对每个情绪词汇下的人脸图像集合进行自动化过滤，去除与大部分人脸图像表情不一致的噪点人脸图像，进而得到由大部分人脸图像作为过滤后的人脸图像。这样对各个情绪词汇的多个所述标注后的人脸图像进行去噪过滤处理，使得得到的过滤后的人脸图像更能表示对应的情绪词汇，代表性更强。

其中，每个情绪词汇对应过滤一次，如果有K个情绪词汇，需要利用人脸表情编码模型进行去噪过滤K次。

步骤2023，对所述过滤后的人脸图像进行随机采样，将采样结果输出至评判者的显示端，以供评判者通过所述显示端对所述过滤后的人脸图像对应标注的情绪词汇进行是否匹配的评判，生成评判结果。

步骤2024，接收各个评判者通过显示端反馈的评判结果，计算评判结果为匹配的占比，删除所述占比小于预定比值对应的过滤后的人脸图像，将剩余的过滤后的人脸图像以及对应标注的情绪词汇作为训练样本集。

通过上述方案，对每个情绪词汇下的人脸图像进行自动化过滤，去除与大部分图像表情不一致的噪点图像。然后人工随机抽检，对每个情绪标签下过滤后的人脸图像进行随机采样，由一批双盲测试者判断采样的人脸图像与对应的情绪词汇是否相符，对于人工评判一致性不佳的图像进行剔除。这样就可以将最终得到的人脸图像以及对应标注的情绪词汇作为训练样本。

步骤203，将所述训练样本集中的人脸图像依次输入至预先构建的初始网络模型中进行训练处理，并依据所述初始网络模型每轮训练的输出结果和所述训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整。

具体实施时，包括：

步骤2031，基于卷积算子深度神经网络预先构建具有输入层、多个隐藏层和输出层的初始网络模型。

具体实施时，预先在所述多个隐藏层中的第一个隐藏层中嵌入预先获得的不同情绪之间的相似度矩阵。

其中，初始网络模型的输入层和多个隐藏层由两个孪生的VGGNet平行组成。

步骤2032，将所述训练样本集中的人脸图像输入至所述初始网络模型的输入层，所述输入层对所述输入的人脸图像进行预处理后发送至所述隐藏层，经过多个所述隐藏层分析之后，生成分析结果发送至输出层，所述输出层将所述分析结果进行处理生成各种情绪的预测概率值，从各种情绪的预测概率值中筛选最大预测概率值对应的目标情绪，所述输出层将所述目标情绪输出。

具体实施时，所述输入层对所述输入的人脸图像进行预处理后发送至所述第一个隐藏层；所述第一个隐藏层根据所述相似度矩阵对所述输入的人脸图像进行情绪特征提取，将提取的所述情绪特征发送至剩余的隐藏层依次进行情绪分析。计算两个孪生的VGGNet得到的512维差值特征作为分析结果，最后一个隐藏层将分析结果发送至由数层全连接网络层构成的输出层。

进一步利用数层全连接网络层进行处理，从而得到K(K代表情绪种类数量)维预测概率值。从K维预测概率值中筛选最大预测概率值对应的目标情绪作为结果输出。

步骤2033，根据所述目标情绪与输入的人脸图像对应标注的情绪词汇的差异性计算损失函数，根据所述损失函数对所述初始网络模型的各层参数进行调整，并从所述训练样本集中获取下一个人脸图像输入至所述初始网络模型进行训练处理。

具体实施时，采用的损失函数为交叉熵损失函数，利用交叉熵损失函数对初始网络模型进行监督约束，通过反向传播的方式对初始网络模型的各层参数进行调整。利用训练样本中各个标注后的人脸图像不断的重复上述过程，进而对初始网络模型不断的进行训练，使得交叉熵损失函数不断收敛。

步骤204，当所述初始网络模型达到预设的收敛条件时，将所述初始网络模型作为用于面部情绪识别的面部情绪识别模型。

具体实施时，预设的收敛条件可以是所有的训练全部训练完成，或者对应得到的交叉熵损失函数得到的损失值小于等于预设的收敛值，其中，损失值越小情绪识别的精度越高。

通过上述实施例描述的方案，能够收集自然语言中与情绪相关一些情绪词汇，然后搜集每个情绪词汇对应的人脸图像，并利用情绪词汇对人脸图像进行标注形成训练样本集，对预先构建的初始网络模型进行训练，得到面部情绪识别模型。这样，由于面部情绪识别模型与自然语言表达空间一致，因此利用面部情绪识别模型进行面部情绪识别的结果更加符合人类自然感知的真实情绪，情绪识别更加精确。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，本公开实施例还提供了一种面部情绪识别模型的情绪识别方法，参考图3，所述的面部情绪识别模型的情绪识别方法包括以下步骤：

步骤301，接收待识别的面部图像，将所述面部图像输入至面部情绪识别模型中，其中，面部情绪识别模型利用上述任一实施例的面部情绪识别模型的训练方法得到的。

具体实施时，所述面部情绪识别模型包括：输入层、多个隐藏层和输出层，所述多个隐藏层中第一个隐藏层嵌入预先获得的不同情绪之间的相似度矩阵。这样就可以利用相似度矩阵对面部图像进行情绪特征提取。

步骤302，利用所述面部情绪识别模型对所述待识别的面部图像进行情绪分析处理，确定所述待识别的面部图像对应的各个情绪词汇的待定概率值，筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。

具体实施时，包括：

步骤3021，所述待识别的面部图像输入至所述输入层，所述输入层对所述待识别的面部图像进行预处理，将预处理之后的面部图像输入至所述第一个隐藏层。

步骤3022，所述第一个隐藏层根据所述相似度矩阵对所述预处理之后的面部图像进行情绪特征提取，将提取的所述情绪特征发送至剩余的隐藏层依次进行情绪分析，得到所述待识别的面部图像对应的各个情绪词汇的待定概率值，最后一个隐藏层将各个所述待定概率值发送至所述输出层。

步骤3023，所述输出层从各个所述待定概率值中筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。如图4所示，为一组面部图像的情绪识别结果。

通过上述方案，利用预先训练得到的面部情绪识别模型，能够进行更加符合人类自然感知的真实情绪的情绪识别过程，精准的识别面部图像对应的情绪，提高情绪识别效果。

参考图5，基于与上述任意面部情绪识别模型的训练方法实施例相同的发明构思，本公开实施例还提供了一种面部情绪识别模型的训练装置，包括：

词汇获取模块501，被配置为获取与情绪相关的多个词汇，将所述多个词汇分别与对应的情绪进行对应形成多个情绪词汇，将所述多个情绪词汇整合形成情绪词汇集合；

人脸图像搜集模块502，被配置为搜集与所述情绪词汇集合中的每个所述情绪词汇对应的人脸图像，利用所述情绪词汇对所述对应的人脸图像进行标注，将标注后的人脸图像作为训练样本集，其中，一个所述情绪词汇对应搜集到多个所述人脸图像；

训练处理模块503，被配置为将所述训练样本集中的人脸图像依次输入至预先构建的初始网络模型中进行训练处理，并依据所述初始网络模型每轮训练的输出结果和所述训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整；当所述初始网络模型达到预设的收敛条件时，将所述初始网络模型作为用于面部情绪识别的面部情绪识别模型。

在一些可选的实施方式中，所述词汇获取模块501包括：

筛选单元，被配置为从语言词汇库中筛选与情绪相关的多个待选词汇；

众包选定单元，被配置为对多个所述待选词汇采用众包方式进行选定，去除不能进行对应情绪表达的待选词汇，将剩余的待选词汇作为情绪词汇；

整合单元，被配置为对所述情绪词汇进行整合形成情绪词汇集合。

在一些可选的实施方式中，众包选定单元具体被配置为：

根据每个所述待选词汇生成对应的调查数据，将所述调查数据通过网络进行发布，以供调查者通过终端设备接收所述网络传送的所述调查数据，并对所述调查数据进行是否能表达对应情绪的投票，生成对应的投票信息；接收各个调查者通过终端设备反馈的投票信息，去除所述投票信息中不能表达对应情绪的待选词汇，将剩余的待选词汇作为情绪词汇。

在一些可选的实施方式中，所述人脸图像搜集模块502包括：

搜索单元，被配置为将所述情绪词汇集合中的每个所述情绪词汇作为搜索标签进行搜索，获取与所述搜索标签对应的多个人脸图像，利用所述搜索标签对应的情绪词汇对所述多个人脸图像进行标注，将标注后的人脸图像存储至数据库中；

过滤单元，被配置为利用预先构建的人脸表情编码模型对所述数据库中标注后的人脸图像进行过滤处理，得到过滤后的人脸图像；

评判单元，被配置为对所述过滤后的人脸图像进行随机采样，将采样结果输出至评判者的显示端，以供评判者通过所述显示端对所述过滤后的人脸图像对应标注的情绪词汇进行是否匹配的评判，生成评判结果；

计算单元，被配置为接收各个评判者通过显示端反馈的评判结果，计算评判结果为匹配的占比，删除所述占比小于预定比值对应的过滤后的人脸图像，将剩余的过滤后的人脸图像以及对应标注的情绪词汇作为训练样本集。

在一些可选的实施方式中，所述过滤单元具体被配置为：

从多个情绪词汇中依次确定相应的目标情绪词汇；从所述数据库中获取所述目标情绪词汇对应的多个所述标注后的人脸图像作为待过滤图像；利用预先构建的人脸表情编码模块对所述待过滤图像进行聚类处理，得到至少一个聚类结果；保留数量最多的聚类结果，去除其他聚类结果，将所述数量最多的聚类结果作为过滤后的人脸图像。

在一些可选的实施方式中，训练处理模块503具体包括：

构建单元，被配置为基于卷积算子深度神经网络预先构建具有输入层、多个隐藏层和输出层的初始网络模型；

训练处理单元，被配置为将所述训练样本集中的人脸图像输入至所述初始网络模型的输入层，所述输入层对所述输入的人脸图像进行预处理后发送至所述隐藏层，经过多个所述隐藏层分析之后，生成分析结果发送至输出层，所述输出层将所述分析结果进行处理生成各种情绪的预测概率值，从各种情绪的预测概率值中筛选最大预测概率值对应的目标情绪，所述输出层将所述目标情绪输出；

训练调整单元，被配置为根据所述目标情绪与输入的人脸图像对应标注的情绪词汇的差异性计算损失函数，根据所述损失函数对所述初始网络模型的各层参数进行调整，并从所述训练样本集中获取下一个人脸图像输入至所述初始网络模型进行训练处理。

在一些可选的实施方式中，所述构建单元，还被配置为在所述多个隐藏层中的第一个隐藏层中嵌入预先获得的不同情绪之间的相似度矩阵；

所述训练处理单元还被配置为：

所述输入层对所述输入的人脸图像进行预处理后发送至所述第一个隐藏层；所述第一个隐藏层根据所述相似度矩阵对所述输入的人脸图像进行情绪特征提取，将提取的所述情绪特征发送至剩余的隐藏层依次进行情绪分析，最后一个隐藏层将分析结果发送至输出层。

在一些可选的实施方式中，所述初始网络模型的输入层和多个隐藏层由两个孪生的VGGNet平行组成。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的面部情绪识别模型的训练方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

参考图6，基于与上述任意面部情绪识别模型的情绪识别方法实施例相同的发明构思，本公开实施例还提供了一种面部情绪识别模型的情绪识别装置，包括：

接收模块601，被配置为接收待识别的面部图像，将所述面部图像输入至利用上述实施例所述的面部情绪识别模型的训练方法得到的所述面部情绪识别模型中；

情绪识别模块602，被配置为利用所述面部情绪识别模型对所述待识别的面部图像进行情绪分析处理，确定所述待识别的面部图像对应的各个情绪词汇的待定概率值，筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。

在一些可选的实施方式中，所述面部情绪识别模型包括：输入层、多个隐藏层和输出层，所述多个隐藏层中第一个隐藏层嵌入预先获得的不同情绪之间的相似度矩阵；

所述情绪识别模块602还被配置为：

所述待识别的面部图像输入至所述输入层，所述输入层对所述待识别的面部图像进行预处理，将预处理之后的面部图像输入至所述第一个隐藏层；所述第一个隐藏层根据所述相似度矩阵对所述预处理之后的面部图像进行情绪特征提取，将提取的所述情绪特征发送至剩余的隐藏层依次进行情绪分析，得到所述待识别的面部图像对应的各个情绪词汇的待定概率值，最后一个隐藏层将各个所述待定概率值发送至所述输出层；所述输出层从各个所述待定概率值中筛选待定概率值超过设定阈值的情绪词汇作为输出情绪进行输出。

上述实施例的装置用于实现前述任一实施例中相应的面部情绪识别模型的情绪识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一实施例所述的面部情绪识别模型的训练方法，或者上述任意一实施例所述的面部情绪识别模型的情绪识别方法。

图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器710、存储器720、输入/输出接口730、通信接口740和总线750。其中处理器710、存储器720、输入/输出接口730和通信接口740通过总线750实现彼此之间在设备内部的通信连接。

处理器710可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器720可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器720可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器720中，并由处理器710来调用执行。

输入/输出接口730用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口740用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线750包括一通路，在设备的各个组件(例如处理器710、存储器720、输入/输出接口730和通信接口740)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器710、存储器720、输入/输出接口730、通信接口740以及总线750，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的面部情绪识别模型的训练方法，或者上述任意一实施例相应的面部情绪识别模型的情绪识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的面部情绪识别模型的训练方法，或者上述任意一实施例所述的面部情绪识别模型的情绪识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的面部情绪识别模型的训练方法，或者上述任意一实施例所述的面部情绪识别模型的情绪识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种面部情绪识别模型的训练方法，其特征在于，包括：

将所述训练样本集中的人脸图像依次输入至预先构建的初始网络模型中进行训练处理，并依据所述初始网络模型每轮训练的输出结果和所述训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整；

当所述初始网络模型达到预设的收敛条件时，将所述初始网络模型作为用于面部情绪识别的面部情绪识别模型。

2.根据权利要求1所述的面部情绪识别模型的训练方法，其特征在于，所述获取与情绪相关的多个情绪词汇，将所述多个情绪词汇整合形成情绪词汇集合，包括：

从语言词汇库中筛选与情绪相关的多个待选词汇；

对所述情绪词汇进行整合形成情绪词汇集合。

3.根据权利要求2所述的面部情绪识别模型的训练方法，其特征在于，所述对多个所述待选词汇采用众包方式进行选定，去除不能进行对应情绪表达的待选词汇，将剩余的待选词汇作为情绪词汇，包括：

4.根据权利要求1所述的面部情绪识别模型的训练方法，其特征在于，所述搜集与所述情绪词汇集合中的每个所述情绪词汇对应的人脸图像，利用所述情绪词汇对所述对应的人脸图像进行标注，将标注后的人脸图像作为训练样本集，包括：

5.根据权利要求4所述的面部情绪识别模型的训练方法，其特征在于，利用预先构建的人脸表情编码模型对所述数据库中标注后的人脸图像进行过滤处理，得到过滤后的人脸图像，包括：

从多个情绪词汇中依次确定相应的目标情绪词汇；

6.根据权利要求1所述的面部情绪识别模型的训练方法，其特征在于，所述将所述训练样本集中的人脸图像输入至预先构建的初始网络模型中进行训练处理，并依据训练样本集中对应标注的情绪词汇对所述初始网络模型进行参数调整，具体包括：

7.根据权利要求6所述的面部情绪识别模型的训练方法，其特征在于，在所述多个隐藏层中的第一个隐藏层中嵌入预先获得的不同情绪之间的相似度矩阵；

8.根据权利要求6或7所述的面部情绪识别模型的训练方法，其特征在于，所述初始网络模型的输入层和多个隐藏层由两个孪生的VGGNet平行组成。

9.一种面部情绪识别模型的情绪识别方法，其特征在于，包括：

接收待识别的面部图像，将所述面部图像输入至利用权利要求1-8任一项所述的面部情绪识别模型的训练方法得到的所述面部情绪识别模型中；

10.根据权利要求9所述的面部情绪识别模型的情绪识别方法，其特征在于，所述面部情绪识别模型包括：输入层、多个隐藏层和输出层，所述多个隐藏层中第一个隐藏层嵌入预先获得的不同情绪之间的相似度矩阵；

11.一种面部情绪识别模型的训练装置，其特征在于，包括：

12.一种面部情绪识别模型的情绪识别装置，其特征在于，包括：

接收模块，被配置为接收待识别的面部图像，将所述面部图像输入至利用权利要求1至8任一项所述的面部情绪识别模型的训练方法得到的所述面部情绪识别模型中；

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的面部情绪识别模型的训练方法，或者，如权利要求9或10所述的面部情绪识别模型的情绪识别方法。

14.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至8任意一项所述的面部情绪识别模型的训练方法，或者，权利要求9或10所述的面部情绪识别模型的情绪识别方法。