CN115588227A

CN115588227A - 情绪识别方法、装置、电子设备和存储介质

Info

Publication number: CN115588227A
Application number: CN202211401340.6A
Authority: CN
Inventors: 邵博; 奚昌凤; 沙文; 殷保才; 李超龙; 殷兵; 胡金水
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-01-10

Abstract

本发明提供一种情绪识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别人员的语音数据和图像数据；基于语音数据和所述图像数据进行情绪识别，得到待识别人员的情绪类别；基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，通过多模态的情绪信息实现了高效准确的情绪识别，克服了传统方案中情绪识别精度不高，以及对于算力要求较高，以致应用范围受限的缺陷，能够在不依赖硬件条件的情况下，保证高召回率，提高了情绪识别的精确度和准确率，不仅减少了运行系统的资源占用，还延长了硬件的使用期限，保证了资源的充分利用，降低了运行成本。

Description

情绪识别方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种情绪识别方法、装置、电子设备和存储介质。

背景技术

随着科学技术的发展，人们不再满足于基于单一方式(如键盘、鼠标、屏幕等)的人机交互，期望计算机具有自然的情感交互能力，此种大环境下，情绪识别应运而生，并在多种领域下得到了落地应用，例如，自动驾驶领域、智能客服领域、智能教育领域等。

目前，情绪识别方案大多是在图像信息的基础上进行的，即是利用图像中的人脸特征进行情绪识别，以得到用户情绪，但是，上述方案的精度往往不高，并且此类方案对于算力有着较高要求，通常无法在嵌入式设备上运行，应用范围狭小，局限性显著。

发明内容

本发明提供一种情绪识别方法、装置、电子设备和存储介质，用以解决现有技术中情绪识别精度不高，以及对于算力要求较高，以致应用范围受限的缺陷，实现了情绪识别的精确度和准确率的提升。

本发明提供一种情绪识别方法，包括：

确定待识别人员的语音数据和图像数据；

基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别；

基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度。

根据本发明提供的一种情绪识别方法，所述基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度，包括：

基于所述嘴部关键点的位置信息，确定所述待识别人员的嘴部纵横比；

基于所述嘴部纵横比，确定所述待识别人员在所述情绪类别下的情绪强度。

根据本发明提供的一种情绪识别方法，所述基于所述嘴部纵横比，确定所述待识别人员在所述情绪类别下的情绪强度，包括：

确定所述情绪类别所对应的情绪强度阈值；

若所述嘴部纵横比大于所述情绪强度阈值，则确定所述待识别人员在所述情绪类别下的情绪强度重；

否则，确定所述待识别人员在所述情绪类别下的情绪强度轻。

根据本发明提供的一种情绪识别方法，所述基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，包括：

在所述情绪类别为非正常情绪类别的情况下，基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息。

根据本发明提供的一种情绪识别方法，所述基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别，包括：

基于情绪识别模型，对所述语音数据和所述图像数据进行特征提取，并对特征提取所得语音特征和图像特征进行特征融合，基于特征融合所得的融合特征进行情绪识别，得到所述待识别人员的情绪类别；

所述情绪识别模型基于样本人员的样本语音数据和样本图像数据，以及情绪类别标签训练得到。

根据本发明提供的一种情绪识别方法，所述情绪识别模型基于如下步骤训练得到：

基于教师情绪识别模型，对所述样本语音数据和所述样本图像数据进行情绪识别，得到所述样本人员的教师情绪概率分布；

基于训练阶段的情绪识别模型，对所述样本语音数据和所述样本图像数据进行情绪识别，得到所述样本人员的学生情绪概率分布；

基于所述教师情绪概率分布，以及所述学生情绪概率分布，确定蒸馏损失，并基于所述蒸馏损失，对所述训练阶段的情绪识别模型进行参数调整，得到情绪识别模型。

根据本发明提供的一种情绪识别方法，所述基于所述蒸馏损失，对所述训练阶段的情绪识别模型进行参数调整，得到情绪识别模型，包括：

基于所述蒸馏损失，对所述训练阶段的情绪识别模型进行参数调整，得到第一情绪识别模型；

对所述第一情绪识别模型进行模型量化，得到所述情绪识别模型。

本发明还提供一种情绪识别装置，包括：

数据确定单元，用于确定待识别人员的语音数据和图像数据；

情绪识别单元，用于基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别；

强度确定单元，用于基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的情绪识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的情绪识别方法。

本发明提供的情绪识别方法、装置、电子设备和存储介质，通过语音数据和图像数据进行情绪识别，得到待识别人员的情绪类别；基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，通过多模态的情绪信息实现了高效准确的情绪识别，并且能够在不依赖硬件条件的情况下，保证高召回率，提高了情绪识别的精确度和准确率，进而实现情绪识别效果的优化，不仅减少了运行系统的资源占用，还延长了硬件的使用期限，保证了资源的充分利用，降低了运行成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的情绪识别方法的流程示意图；

图2是本发明提供的情绪强度确定过程的示意图；

图3是本发明提供的人脸关键点的示意图；

图4是本发明提供的模型训练过程的示意图；

图5是本发明提供的模型量化过程的示意图；

图6是本发明提供的情绪识别方法的总体框架图；

图7是本发明提供的情绪识别装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在进行情绪识别时大多是以图像信息为依据，即是通过特定的特征提取模块，从图像信息中提取人脸特征，以根据人脸特征进行情绪识别，但是此类方案的精度大多不高，识别得到的用户情绪的可信度较低，并且，此类方案大多对于设备算力有着较高的要求，因而往往无法在嵌入式设备上运行，导致其应用范围受限，普适性不佳。

对此，本发明提供一种情绪识别方法，旨在结合多模态的信息，高效准确的进行情绪识别，并根据表情中变化最丰富的嘴部关键点进行情绪的辅助识别，以确定对应情绪类别下的情绪强度，能够在不依赖硬件条件的情况下，保证高召回率，提高了情绪识别的精确度和准确率，进而实现情绪识别效果的优化，不仅减少了运行系统的资源占用，还延长了硬件的使用期限，此外还减轻了设备存储和带宽传输的压力，过滤掉了大量无用的留痕数据，保证了设备的轻便性。图1是本发明提供的情绪识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别人员的语音数据和图像数据；

具体地，在进行情绪识别之前，首先需要确定待识别人员，而由于本发明实施例中的情绪识别为多模态层面的，因此，需确定待识别人员多个模态下可以用于情绪识别的数据，本发明实施例中该数据可以是音频模态的语音数据，以及图像模态的图像数据，而除此之外，用于情绪识别的数据还可以是文本模态的数据、行为模态的数据等。

并且，为保证音频模态和图像模态的语音数据和图像数据所表征的情绪信息的一致性，本发明实施例中要求语音数据和图像数据来源相同，即语音数据和图像数据需源自于同一多模态数据，该多模态数据可以是音视频数据，通过音视频数据即可分离得到同一来源下音频模态的语音数据，以及图像模态的图像数据。

其中，音视频数据可以是从实时录制的音视频数据流中截取的一段音视频数据，例如，可以预先设定音视频数据的时长，在录制的过程中，每隔预设时长对音视频数据流进行一次截取，从而得到最新录制的一段预设时长的音视频数据；也可以是从已经录制完成的音视频数据中截取的一段音视频数据，或者是已录制完成的整段音视频数据。

需要说明的是，在得到音视频数据后，还需对音视频数据进行模态分离，以得到音频模态和图像模态的初始数据，为使此部分初始数据的规格与后续进行情绪识别的情绪识别模型的输入窗的尺寸相适配，本发明实施例中还可对初始数据进行时间区间划分，即可以利用预设时间窗，对初始数据进行切分，如此即可得到音频模态的语音数据和图像模态的图像数据。此处，预设时间窗的窗长是固定的，其可以根据实际情况预先设定。

另外，值得注意的是，若截取音视频数据流所用的预设时长与预设时间窗的窗长恰好相等，则从截取得到的音视频数据中分离出来的初始数据的规格也能够符合情绪识别模型的输入要求，此种情况下，无需对分离得到的初始数据进行时间区间划分。

相应地，若分离得到的初始数据的时长小于预设时间窗的窗长，则需对对应模态的初始数据进行复制和拼接，即复制多份该模态的初始数据，并将复制的初始数据与原有的该模态的初始数据进行拼接，以使拼接后的初始数据对应的时长能够大于或等于预设时间窗的窗长，此后即可对拼接后的初始数据进行时间区间划分。

此外，语音数据和图像数据构成的数据组可以是一个也可以是多个，在数据组为多个的情况下，需确定每一数据组归属的情绪类别，以及情绪类别对应的情绪强度，即需对每一数据组进行情绪识别，以确定其对应的情绪类别，以及待识别人员在情绪类别下的情绪强度。

步骤120，基于语音数据和图像数据进行情绪识别，得到待识别人员的情绪类别；

具体地，在步骤110中，确定待识别人员的语音数据和图像数据之后，可以执行步骤120，应用语音数据和图像数据，确定待识别人员的情绪类别，这一过程具体可以包括如下步骤：

首先，可以对待识别人员的语音数据和图像数据分别进行特征提取，以分别提取语音数据和图像数据中能够表征待识别人员的情绪信息的特征，从而得到待识别人员的语音特征和图像特征；

需要说明的是，此处针对于语音数据和图像数据的特征提取过程可以通过特征提取器实现，但是针对两类数据的特征提取器不同，本发明实施例中为语音数据设置能够挖掘待识别人员语音层面的情绪信息，例如，语气所表征的情绪、音量所表征的情绪、音调所表征的情绪；为图像数据设置能够挖掘待识别人员图像层面的情绪信息，例如，表情所表征的情绪、姿势所表征的情绪、行为所表征的情绪等。

随即，即可对特征提取所得的语音特征和图像特征在特征层面进行融合，即可以对语音特征和图像特征进行特征融合，以得到融合特征，此处的特征融合过程可以是以语音特征和图像特征之间的相关性为基准进行的，即可以依据语音特征和图像特征之间的相关性，对语音特征和图像特征在特征层面进行融合，从而得到融合特征；

而值得注意的是，基于两者之间的相关性进行特征融合，不仅能够使融合特征蕴含语音层面的情绪信息，还可以使其囊括图像层面下多个能够作用于情绪识别的情绪信息；并且，以语音特征和图像特征之间的相关性为前提，进行特征融合，还能够使融合特征增添情绪表征相关的细微特征，此细微特征在相似情绪的识别层面具有关键性的作用，即可以区分具有相似表情、神态、动作等的情绪，能够为情绪识别准确率和精确度的提升提供了关键性的助力。

随后，可以基于此融合特征进行情绪识别，以确定待识别人员的情绪类别，具体可以是，以融合特征为基准，对待识别人员进行情绪识别，即可以通过分类器进行情绪区分，可以得到待识别人员的情绪概率分布，该情绪概率分布中包括待识别人员对应的各个情绪类别，以及归属于各个情绪类别的概率；

此后，即可依据待识别人员的情绪概率分布，确定待识别人员的情绪类别，此处可以是直接从情绪概率分布中确定最大概率，以及最大概率对应的情绪类别，将此情绪类别作为待识别人员的语音数据和图像数据所对应的情绪类别。需要说明的是，本发明实施例中进行情绪识别在得到待识别人员的情绪类别的同时，还可以得到该情绪类别的置信度，即其对应的概率。

本发明实施例中，根据特征融合所得的融合特征进行情绪识别，能够很好的弥补传统方案中仅基于人脸特征进行情绪识别时，忽略了语音信息，以及图像信息中能够表征情绪的其他因素，以致情绪识别精度不高，以及对于具有相似表观现象(如表情、神态、动作等)的情绪易出现误判的缺陷，提升了情绪识别的精确度。

而值得注意的是，在应用语音数据和图像数据进行情绪识别之前，为加快情绪识别的进程，本发明实施例中可以引入数据池化的方法，同时融合时间信息，以在对数据进行降维的同时，增强两者之间的关联性，即可以对语音数据和图像数据进行数据池化，并保证两者在时序上的一致性，从而提升情绪识别的精确度和准确率。

步骤130，基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度。

具体地，经过步骤120，得到待识别人员的情绪类别之后，为进一步提升情绪识别的精确度，本发明实施例中，还可以进行情绪强度的检测，以确定待识别人员在情绪类别下的情绪强度，具体过程包括：

考虑到人的面部器官中，嘴唇最能够体现情绪变化，即其在不同情绪下的变化最为丰富，差别最为明显。并且，各类基本表情的极限状态中，嘴唇肌肉的动作均不同，因而，本发明实施例中可以从待识别人员的嘴唇入手，以借助嘴部关键点计算嘴部状态进行情绪的辅助识别，从而提高整个情绪识别过程的精确度和准确率。

本发明实施例中，首先可以对待识别人员进行人脸检测，以得到待识别人员人脸关键点中的嘴部关键点，具体可以是，依据待识别人员的图像数据，对其进行人脸检测，从而得到待识别人员的人脸关键点及其位置信息，并从中确定嘴部关键点及其位置信息；

随即，可以利用嘴部关键点中各个关键点的位置信息，确定待识别人员的嘴部状态，并据此嘴部状态对待识别人员进行情绪强度的判别，从而确定待识别人员在其归属的情绪类别下的情绪强度。

本发明提供的情绪识别方法，通过语音数据和图像数据进行情绪识别，得到待识别人员的情绪类别；基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，通过多模态的情绪信息实现了高效准确的情绪识别，进而实现情绪识别效果的优化，克服了传统方案中情绪识别精度不高，以及对于算力要求较高，以致应用范围受限的缺陷，能够在不依赖硬件条件的情况下，保证高召回率，提高了情绪识别的精确度和准确率，不仅减少了运行系统的资源占用，还延长了硬件的使用期限，保证了资源的充分利用，降低了运行成本。

基于上述实施例，图2是本发明提供的情绪强度确定过程的示意图，如图2所示，步骤130中，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，包括：

步骤210，基于嘴部关键点的位置信息，确定待识别人员的嘴部纵横比；

步骤220，基于嘴部纵横比，确定待识别人员在情绪类别下的情绪强度。

具体地，步骤130中，依据嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度的过程，可以包括以下步骤：

步骤210，首先可以以嘴部关键点的位置信息为基准，计算待识别人员的嘴部纵横比，图3是本发明提供的人脸关键点的示意图，如图3所示，可以利用嘴部关键点中的上嘴唇关键点和下嘴唇关键点，计算待识别人员嘴部的长宽比(Mouth Aspect Ratio，MAR)，即待识别人员的嘴部纵横比；

步骤220，随即可以利用此嘴部纵横比，确定待识别人员的嘴部状态，即其嘴部的动作，例如，拉长、缩短、平贴、伸展等，并据此嘴部状态，评估待识别人员在对应情绪类别下的情绪强度。

基于上述实施例，步骤220包括：

确定情绪类别所对应的情绪强度阈值；

若嘴部纵横比大于情绪强度阈值，则确定待识别人员在情绪类别下的情绪强度重；

否则，确定待识别人员在情绪类别下的情绪强度轻。

具体地，步骤220中，依据待识别人员的嘴部纵横比，确定待识别人员在对应情绪类别下的情绪强度的过程，具体可以包括：

首先，需要确定待识别人员的情绪类别对应的情绪强度阈值，由于不同情绪类别在待识别人员的嘴部所反映出来的嘴部动作、肌肉状态等不同，即其映射于嘴部的表现不同，因而在评判待识别人员的情绪强度时，不同情绪类别的评判标准应不同，故此处需确定待识别人员归属的情绪类别所对应的情绪强度阈值；此处的情绪强度阈值为用于评判对应情绪类别轻重程度的数值，其可以根据实际情况相应调整；

进一步地，若待识别人员的嘴部纵横比大于其情绪类别所对应的情绪强度阈值，即待识别人员处于该情绪类别时其情绪在嘴部上的反应明显，即嘴部动作幅度较大，肌肉状态变化明显，此时可以确定待识别人员在该情绪类别下的情绪强度重。

对应地，若待识别人员的嘴部纵横比小于等于其情绪类别所对应的情绪强度阈值，即待识别人员处于该情绪类别时其情绪在嘴部上的反应细微，即嘴部动作幅度较小，肌肉状态变化不明显，此时可以确定待识别人员在该情绪类别下的情绪强度轻。

以高兴和悲伤为例，对情绪强度的判别过程进行说明：

待识别人员的情绪类别为高兴时，其对应的情绪强度阈值可以是0.6，此时若MAR大于0.6，则可以确定待识别人员高兴程度重；反之，若MAR小于等于0.6，则可以确定待识别人员高兴程度轻。

待识别人员的情绪类别为悲伤时，其对应的情绪强度阈值可以是0.2，此时若MAR大于0.2，则可以确定待识别人员悲伤程度重；反之，若MAR小于等于0.2，则可以确定待识别人员悲伤程度轻。

基于上述实施例，嘴部纵横比的计算公式如下式所示：

参见图3可知，式中P₆₁为嘴部关键点中上嘴唇内边缘左侧关键点，P₆₇则为下嘴唇内边缘左侧关键点，P₆₃为上嘴唇内边缘右侧关键点，P₆₅为下嘴唇内边缘右侧关键点，P₆₀为嘴唇内边缘左侧关键点，P₆₄为嘴唇内边缘右侧关键点，MAR为嘴部纵横比。

基于上述实施例，步骤130中，基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，包括：

在情绪类别为非正常情绪类别的情况下，基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息。

具体地，步骤130中，依据图像数据进行人脸检测，以得到待识别人员的嘴部关键点的位置信息的过程，具体可以包括：

首先，确定待识别人员的情绪类别归属的情绪大类，即其情绪类别是正常情绪类别，还是非正常情绪类别；

本发明实施例中，正常情绪类别下只包含正常这一类情绪，非正常情绪类别下包含生气、高兴和悲伤三类情绪。

随即，在待识别人员的情绪类别为非正常情绪类别的情况下，即其情绪类别为生气、高兴、悲伤中的任意一种的情况下，可以以其图像数据为基准，对待识别人员进行人脸检测，以得到其人脸关键点及其位置信息，并从中确定嘴部关键点及其位置信息。

对应地，在待识别人员的情绪类别为正常情绪类别的情况下，则无需对其进行人脸检测。

基于上述实施例，步骤120包括：

基于情绪识别模型，对语音数据和图像数据进行特征提取，并对特征提取所得语音特征和图像特征进行特征融合，基于特征融合所得的融合特征进行情绪识别，得到待识别人员的情绪类别；

情绪识别模型基于样本人员的样本语音数据和样本图像数据，以及情绪类别标签训练得到。

具体地，步骤120中，利用语音数据和图像数据进行情绪识别，以得到待识别人员的情绪类别的过程，具体包括如下步骤：

本发明实施例中，应用语音数据和图像数据进行情绪识别的过程，可以借助情绪识别模型实现，即首先可以将待识别人员的语音数据和图像数据输入至情绪识别模型，以通过情绪识别模型中对应的特征提取器分别对语音数据和图像数据进行特征提取，以提取语音数据和图像数据中能够表征待识别人员的情绪信息的特征，从而得到对应特征提取器输出的待识别人员的语音特征和图像特征；

需要说明的是，此处的特征提取器可以是在卷积神经网络(ConvolutionalNeural Networks，CNN)和长短期记忆网络(Long Short-Term Memory，LSTM)的基础上构建的，经过该特征提取器进行特征提取后，能够得到高维特征(512维)。

随即，可以将特征提取器输出的语音特征和图像特征输入至情绪识别模型中的特征融合层，以在特征层面对两者进行融合，即可以在特征融合层中，对语音特征和图像特征进行特征融合，以得到融合特征，此处的特征融合过程可以是在语音特征和图像特征之间的相关性的基础上进行的，即可以以语音特征和图像特征之间的相关性为基准，通过特征融合层对语音特征和图像特征进行特征融合，从而得到特征融合层输出的待识别人员的融合特征；

随后，可以将特征融合层输出的融合特征输入至情绪识别模型中的分类层，融合特征在经过分类层后可以得到单峰的高斯分布，即待识别人员的情绪概率分布，此处可以理解为四类情绪(正常、生气、高兴和悲伤)的概率；而后，即可据此情绪概率分布，确定待识别人员的情绪类别，即可直接从情绪概率分布中确定最大概率，并将最大概率对应的情绪类别作为待识别人员的情绪类别。

而在将语音数据和图像数据输入至情绪识别模型之前，还可以应用样本人员的样本语音数据和样本图像数据，以及情绪类别标签预先训练得到情绪识别模型，此处为降低对于算力的要求，减少对于资源的占用，可以对模型进行压缩和加速，因而可以采用知识蒸馏的方式，应用样本人员的样本语音数据和样本图像数据，对教师情绪识别模型进行蒸馏训练，以得到情绪识别模型。

具体训练方式可以是：首先，收集大量样本人员的样本语音数据和样本图像数据，并对样本语音数据和样本图像数据进行情绪类别标注，得到情绪类别标签，获取教师情绪识别模型，此处的教师情绪识别模型可以是根据样本语音数据和样本图像数据，以及情绪类别标签训练得到的，也可以是直接获取原先部署在云端的情绪识别模型；随后，基于样本语音数据和样本图像数据，以及教师情绪识别模型针对样本语音数据和样本图像数据输出的教师情绪概率分布，对教师情绪识别模型进行蒸馏训练，从而得到训练完成的情绪识别模型。

本发明实施例提供的方法，通过对教师情绪识别模型进行蒸馏训练方式，得到情绪识别模型，在保证情绪识别的精确度和准确率的同时，压缩了模型规模，降低了运算量。

此外，值得注意的是，在应用语音数据和图像数据进行情绪识别之前，为加快情绪识别的进程，使得情绪识别模型能够快速运算，本发明实施例中可以引入数据池化的方法，同时融合时间信息，以在对数据进行降维的同时，增强两者之间的关联性，即可以对语音数据和图像数据进行数据池化，并保证两者在时序上的一致性，从而提升情绪识别的精确度和准确率。

基于上述实施例，图4是本发明提供的模型训练过程的示意图，如图4所示，情绪识别模型基于如下步骤训练得到：

步骤410，基于教师情绪识别模型，对样本语音数据和样本图像数据进行情绪识别，得到样本人员的教师情绪概率分布；

步骤420，基于训练阶段的情绪识别模型，对样本语音数据和样本图像数据进行情绪识别，得到样本人员的学生情绪概率分布；

步骤430，基于教师情绪概率分布，以及学生情绪概率分布，确定蒸馏损失，并基于蒸馏损失，对训练阶段的情绪识别模型进行参数调整，得到情绪识别模型。

考虑到边缘计算设备的计算能力与云端的能力差距较大，而性能极佳的模型往往对于算力要求较高、通常规模庞大，难以直接部署在低算力设备上，而能够直接部署的模型效果往往堪忧，因而，为了满足快速响应的需求，就需对有限的资源充分进行充分利用，在保证情绪识别效果的前提下，降低对于内存的占用，提升使用效率，如此即可更好的降低运行成本，具体在本发明实施例中可以对模型进行压缩和加速，即缩减模型规模，降低运算量。

此处，教师情绪识别模型是相较于能够部署于低算力设备上的情绪识别模型而言，模型规模更大、更加复杂、任务执行效果更优的情绪识别模型。为了在低算力设备上部署规模更小的情绪识别模型，可以利用教师-学生网络的思想，进行知识迁移，此处的知识迁移，是指将教师模型中的知识迁移到学生模型，从而提高学生模型的网络性能。

其中，教师模型即教师情绪识别模型，学生模型即最终部署在低算力设备上的情绪识别模型，知识迁移的过程，即为知识蒸馏。通过对教师情绪识别模型的蒸馏训练，可以得到情绪识别模型，该情绪识别模型的性能更加接近教师情绪识别模型的性能。

具体地，情绪识别模型的训练过程其实是根据情绪识别任务的蒸馏损失值，对训练阶段的情绪识别模型进行参数调整的过程。其中，蒸馏损失值是基于教师情绪识别模型和训练阶段的情绪识别模型分别输出的教师声学特征概率分布和学生声学特征概率分布确定的。

参见图4可知，情绪识别模型的训练过程中：

步骤410，可以样本语音数据和样本图像数据输入至教师情绪识别模型，教师情绪识别模型根据输入的样本语音数据和样本图像数据进行情绪识别，并对应输出样本人员的情绪概率分布，记为教师情绪概率分布；

步骤420，可以将样本语音数据和样本图像数据输入至训练阶段的情绪识别模型，训练阶段的情绪识别模型根据样本语音数据和样本图像数据进行情绪识别，并输出样本人员的情绪概率分布，记为学生情绪概率分布；

此处，教师情绪概率分布和学生情绪概率分布均用于反映样本人员的样本语音数据和样本图像数据属于各个情绪类别的概率或者得分，教师情绪概率分布和学生情绪概率分布的区别在于输出两者的模型不同，教师情绪概率分布来自于承担教师角色的教师情绪识别模型，学生情绪概率分布来自于承担学生角色的训练阶段的情绪识别模型。

步骤430，在基于教师情绪识别模型和训练阶段的情绪识别模型分别得到针对相同样本语音数据和样本图像数据的情绪概率分布后，即可结合教师情绪概率分布和学生情绪概率分布之间的差距，确定该情绪识别任务的蒸馏损失值。此处，蒸馏损失值可以采用KLD(Kullback-Leibler Distance，交叉熵的距离)准则进行表示；而后，即可将蒸馏损失值作用于训练阶段的情绪识别模型，即对训练阶段的情绪识别模型进行参数调整，从而得到情绪识别模型。需要说明的是，训练阶段的情绪识别模型可以是根据设备计算资源构建的。

本发明实施例提供的方法，在传统情绪识别模型的基础上，引入了针对于情绪识别任务的教师情绪识别模型，根据教师情绪识别模型输出的教师情绪概率分布，以及训练阶段的情绪识别模型输出的学生情绪概率分布之间的差距确定蒸馏损失值，并根据蒸馏损失值对训练阶段的情绪识别模型进行参数迭代，从而得到训练完成的情绪识别模型，在保证情绪识别模型本身运算量和模型规模尽可能小的前提下，提高了通过情绪识别模型进行情绪识别的实现效果。

基于上述实施例，图5是本发明提供的模型量化过程的示意图，如图5所示，步骤430中，基于蒸馏损失，对训练阶段的情绪识别模型进行参数调整，得到情绪识别模型，包括：

步骤510，基于蒸馏损失，对训练阶段的情绪识别模型进行参数调整，得到第一情绪识别模型；

步骤520，对第一情绪识别模型进行模型量化，得到情绪识别模型。

具体地，步骤430中，利用蒸馏损失值，对训练阶段的情绪识别模型进行参数调整，从而得到情绪识别模型的过程，包括如下步骤：

步骤510，将蒸馏损失值作用于训练阶段的情绪识别模型，即以蒸馏损失值为参考，对训练阶段的情绪识别模型进行参数调整，从而得到第一情绪识别模型；

由于通过蒸馏训练得到的第一情绪识别模型，在运算效率上得到了极大的提升，但具体应用于低算力设备上时，本发明实施例中，还可以在前向部署阶段，利用工程手段进行进一步的前向推理效率优化。

考虑到嵌入式设备大多都支持neon指令集，可以较好的支持int8量化的计算，并且加速效果十分明显，在全int8的场景下，工程优化落地的效率可以达到2倍左右。

步骤520，鉴于此，本发明实施例中可以采用量化策略，对蒸馏训练得到的第一情绪识别模型进行模型量化，具体可以是，采用8比特量化方式，将float的数据转成int8的数据，然后两个float的乘法转变为了两个int8的乘法，而后，即可将获得int32的数据恢复成float32的数据。

本发明实施例提供的方法，降低了对于设备算力的需求，可以应用于大多数设备，尤其是在低算力设备(如嵌入式设备、工控机等)上有着极为明显的优势，加速效果十分明显，运算效率极佳。

基于上述实施例，图6是本发明提供的情绪识别方法的总体框架图，如图6所示，该方法包括：

首先，确定待识别人员的语音数据和图像数据；

随即，基于语音数据和图像数据进行情绪识别，得到待识别人员的情绪类别，具体可以是，基于情绪识别模型，对语音数据和图像数据进行特征提取，并对特征提取所得语音特征和图像特征进行特征融合，基于特征融合所得的融合特征进行情绪识别，得到待识别人员的情绪类别；情绪识别模型基于样本人员的样本语音数据和样本图像数据，以及情绪类别标签训练得到；

其中，情绪识别模型训练过程为：基于教师情绪识别模型，对样本语音数据和样本图像数据进行情绪识别，得到样本人员的教师情绪概率分布；基于训练阶段的情绪识别模型，对样本语音数据和样本图像数据进行情绪识别，得到样本人员的学生情绪概率分布；基于教师情绪概率分布，以及学生情绪概率分布，确定蒸馏损失，并基于蒸馏损失，对训练阶段的情绪识别模型进行参数调整，得到情绪识别模型。

进一步地，基于蒸馏损失，对训练阶段的情绪识别模型进行参数调整，得到情绪识别模型，包括：基于蒸馏损失，对训练阶段的情绪识别模型进行参数调整，得到第一情绪识别模型；对第一情绪识别模型进行模型量化，得到情绪识别模型。

随后，基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，具体可以是，在情绪类别为非正常情绪类别的情况下，基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员的嘴部纵横比；基于嘴部纵横比，确定待识别人员在情绪类别下的情绪强度。

其中，基于嘴部纵横比，确定待识别人员在情绪类别下的情绪强度，包括：确定情绪类别所对应的情绪强度阈值；若嘴部纵横比大于情绪强度阈值，则确定待识别人员在情绪类别下的情绪强度重；否则，确定待识别人员在情绪类别下的情绪强度轻。

本发明实施例提供的方法，通过语音数据和图像数据进行情绪识别，得到待识别人员的情绪类别；基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，通过多模态的情绪信息实现了高效准确的情绪识别，进而实现情绪识别效果的优化，克服了传统方案中情绪识别精度不高，以及对于算力要求较高，以致应用范围受限的缺陷，能够在不依赖硬件条件的情况下，保证高召回率，提高了情绪识别的精确度和准确率，不仅减少了运行系统的资源占用，还延长了硬件的使用期限，保证了资源的充分利用，降低了运行成本。

下面对本发明提供的情绪识别装置进行描述，下文描述的情绪识别装置与上文描述的情绪识别方法可相互对应参照。

图7是本发明提供的情绪识别装置的结构示意图，如图7所示，该装置包括：

数据确定单元710，用于确定待识别人员的语音数据和图像数据；

情绪识别单元720，用于基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别；

强度确定单元730，用于基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度。

本发明提供的情绪识别装置，通过语音数据和图像数据进行情绪识别，得到待识别人员的情绪类别；基于图像数据进行人脸检测，得到待识别人员的嘴部关键点的位置信息，基于嘴部关键点的位置信息，确定待识别人员在情绪类别下的情绪强度，通过多模态的情绪信息实现了高效准确的情绪识别，进而实现情绪识别效果的优化，克服了传统方案中情绪识别精度不高，以及对于算力要求较高，以致应用范围受限的缺陷，能够在不依赖硬件条件的情况下，保证高召回率，提高了情绪识别的精确度和准确率，不仅减少了运行系统的资源占用，还延长了硬件的使用期限，保证了资源的充分利用，降低了运行成本。

基于上述实施例，强度确定单元730用于：

确定所述情绪类别所对应的情绪强度阈值；

基于上述实施例，强度确定单元730用于：

基于上述实施例，情绪识别单元720用于：

基于上述实施例，所述装置还包括模型训练单元，用于：

基于上述实施例，模型训练单元用于：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行情绪识别方法，该方法包括：确定待识别人员的语音数据和图像数据；基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别；基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的情绪识别方法，该方法包括：确定待识别人员的语音数据和图像数据；基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别；基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的情绪识别方法，该方法包括：确定待识别人员的语音数据和图像数据；基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别；基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种情绪识别方法，其特征在于，包括：

确定待识别人员的语音数据和图像数据；

2.根据权利要求1所述的情绪识别方法，其特征在于，所述基于所述嘴部关键点的位置信息，确定所述待识别人员在所述情绪类别下的情绪强度，包括：

3.根据权利要求2所述的情绪识别方法，其特征在于，所述基于所述嘴部纵横比，确定所述待识别人员在所述情绪类别下的情绪强度，包括：

确定所述情绪类别所对应的情绪强度阈值；

4.根据权利要求1至3中任一项所述的情绪识别方法，其特征在于，所述基于所述图像数据进行人脸检测，得到所述待识别人员的嘴部关键点的位置信息，包括：

5.根据权利要求1至3中任一项所述的情绪识别方法，其特征在于，所述基于所述语音数据和所述图像数据进行情绪识别，得到所述待识别人员的情绪类别，包括：

6.根据权利要求5所述的情绪识别方法，其特征在于，所述情绪识别模型基于如下步骤训练得到：

7.根据权利要求6所述的情绪识别方法，其特征在于，所述基于所述蒸馏损失，对所述训练阶段的情绪识别模型进行参数调整，得到情绪识别模型，包括：

8.一种情绪识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的情绪识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的情绪识别方法。