CN116935480B

CN116935480B - 一种情绪识别方法及装置

Info

Publication number: CN116935480B
Application number: CN202311197822.9A
Authority: CN
Inventors: 王亚楠; 罗莉; 包国栋
Original assignee: Sichuan Tiandi Honghua Navigation Equipment Co ltd
Current assignee: Sichuan Tiandi Honghua Navigation Equipment Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-29
Anticipated expiration: 2043-09-18
Also published as: CN116935480A

Abstract

本发明提供了一种情绪识别方法及装置，属于人工智能技术领域，通过将第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行运算，可以融合同一时刻用户的语言表达、面部表情表达、眼神表达所蕴含的情绪信息，有助于避免用户本人自身有意无意的主观表达修饰所导致的情绪识别错误，提高情绪识别的准确度。

Description

一种情绪识别方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种情绪识别方法及装置。

背景技术

人类情感在人们的社会交往中发挥着重要作用，情感计算成为人机交互、人工智能的最重要研究领域之一。

现有的情绪健康分析方法和分析系统是多种多样的，包括基于人脸表情的情绪识别方法、基于语音的情绪识别方法、基于文字的情绪分析方法等，但这些情绪分析识别系统多数是基于其中一种或两种情绪特征而构建的情感识别模型。研究表明：人的情绪和心理压力是一种综合因素表征的结果，仅仅通过人脸识别、语音识别、文字识别中的一种或两种对人情绪和心理压力进行判定，其结果易造成误判；当前方法研究开发的情绪心理压力诊断或治疗系统，情绪心理压力准确率低，不能够提供良好的用户体验。

有鉴于此，需要对现有技术进行改进，因此提出本发明。

发明内容

针对现有技术存在的以上问题，本发明提供了一种情绪识别方法及装置，目的是为了解决以上问题中的至少一个，以提高情绪识别的精度。

第一方面，本发明提供一种情绪识别方法，包括：

根据外部指令，采集用户当前情绪数据；

根据用户当前情绪数据和预先训练的情绪识别模型，确定用户当前的情绪识别结果；

其中，采集用户当前情绪数据包括采集用户当前的语音交互数据、面部表情数据和眼动数据；

预先训练的情绪识别模型包括基于语音交互数据、面部表情数据和眼动数据进行训练的第一情绪识别模型，以及基于第一情绪识别模型输出的第一情绪识别结果进行再次训练的第二情绪识别模型；

其中，第一情绪识别模型包括基于语音交互数据进行训练的第一语言情绪识别模型、基于面部表情数据进行训练的第一面部情绪识别模型、基于眼动数据进行训练的第一眼部情绪识别模型；第一情绪识别结果包括第一语言情绪识别模型输出的第一语言情绪识别结果、第一面部情绪识别模型输出的第一面部情绪识别结果以及第一眼部情绪识别模型输出的第一眼部情绪识别结果；第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行训练。

进一步地，采集用户当前情绪数据，包括：采集用户当前的人机语音交互数据；采集用户当前的面部表情数据；采集用户当前的眼动数据。

进一步地，第一情绪识别模型和第二情绪识别模型均采用深度学习方法。

进一步地，第一语言情绪识别模型根据所采集的语音交互数据，进行语义分析，进而获得估计的第一语言情绪识别结果。

进一步地，第一面部情绪识别模型根据所采集的面部表情数据，进而获得估计的第一面部情绪识别结果。

进一步地，第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行训练，包括：

当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的任一项情绪识别结果的准确度低于预设阈值时，则不采信该项情绪识别结果，采用剩余两项情绪识别结果作为第二情绪识别模型的输入；

当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的两项及以上的情绪识别结果的准确度低于预设阈值时，则不采信当前的情绪数据，重新采集用户的情绪数据用于下一次确定用户当前的情绪识别结果。

第二方面，本发明还提供一种情绪识别装置，包括：

采集模块，用于根据外部指令，采集用户当前情绪数据；

估算模块，用于根据用户当前情绪数据和预先训练的情绪识别模型，确定用户当前的情绪识别结果；

与现有技术相比，本发明至少具有以下有益效果：

由于情绪是受多方面因素的影响，与现有技术中单独基于语音、面部表情、或眼神等单模态信息情绪估计结果相比，本发明的技术方案融合了语言、面部表情、眼动的信息来评估用户的当前情绪，可以提供更加接近用户的真实情绪识别结果，提高了用户情绪识别的准确度。

通过将第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行训练，如此设置，可极大地避免上述单模态信息情绪识别结果不稳定、不可靠的问题，进而极大地提高情绪识别的准确性。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

本发明提供一种情绪识别方法，包括：

根据外部指令，采集用户当前情绪数据；

根据用户当前情绪数据和预先训练的情绪识别模型，确定用户当前的情绪识别结果。

在上述步骤中，所述外部指令来自用户本人所授权的情绪识别指令。如此设置，只有在用户授权后、接收到外部指令要求的情况下启动情绪识别，开始采集用户当前情绪数据，可以消除用户对隐私数据泄露的顾虑，最大程度上保护用户隐私，提高用户体验。

进一步地，采集用户当前情绪数据包括采集用户当前的语音交互数据、面部表情数据和眼动数据。第一方面，人脸部的表情包含着非常丰富的表现人体行为的信息，是人们表达其个人情绪的一种重要表现形式，也是人类进行非语言形式交流的一种有效方式。人们可以通过对别人脸部表情的判断来理解对方的心理活动，也可以通过脸部的表情表达出自己的思想情感。据统计，人类情感的表达绝大部分直接可直接体现在面部表情上，其次是眼神，最后才是语言表达，由此可见面部表情在情感表达上所占重要的地位。第二方面，眼睛是心灵的窗户，眼神所传达的信息能真实地反映出人们当前的情绪状态，相应地，眼动信号是人对于客观刺激的直接主观表达，可以直接反映人们的情绪状态的变化。第三方面，语言可以反映人们的情绪状态，但语言也容易被修饰而隐藏人们的真实情绪，同时语言在特定语境下的语义也是相当丰富的，通过人机交互引导用户在特定语境下的对话来获取用户当前的语音交互数据可以作为面部表情数据、眼动数据的有效补充。如此设置，由于情绪是受多方面因素的影响，与现有技术中单独基于语音、面部表情、或眼神等单模态信息情绪估计结果相比，本发明的技术方案融合了语言、面部表情、眼动的信息来评估用户的当前情绪，可以提供更加接近用户的真实情绪识别结果，提高了用户情绪识别的精度。

进一步地，预先训练的情绪识别模型包括基于语音交互数据、面部表情数据和眼动数据进行训练的第一情绪识别模型，以及基于第一情绪识别模型输出的第一情绪识别结果进行再次训练的第二情绪识别模型；

进一步地，采集用户当前情绪数据，包括：

采集用户当前的人机语音交互数据；例如，一方面，通过移动智能设备如移动手机的扬声器来与用户进行互动，传递引导用户在特定语境下的对话；另一方面，通过移动手机的麦克风来记录用户相应的语音数据，以便用于后续的情绪识别。

采集用户当前的面部表情数据；例如，可通过移动智能设备如移动手机的摄像头实时采集用户的面部表情数据，当然，也可以通过其他可采集用户面部表情数据的设备，此处不做限制。

采集用户当前的眼动数据，例如，可通过移动智能设备如移动手机的摄像头实时采集用户的面部表情数据，当然，也可以通过其他可采集用户面部表情数据的设备，此处不做限制。

进一步地，第一情绪识别模型和第二情绪识别模型均采用深度学习方法。深度学习方法具有智能性，且通过大量用户的语言、面部表情、眼动数据训练、学习后，基于语言、面部表情、眼动的单模态情绪识别准确度已可达80%以上。在本实施例中，第二情绪识别模型可以采用多模态神经网络模型。

进一步地，第一语言情绪识别模型根据所采集的语音交互数据，进行语义分析，进而获得估计的第一语言情绪识别结果。在本实施例中，第一语言情绪识别模型可采用循环神经网络（RNN）、长短期记忆神经网络（LSTM）等，第一语言情绪识别模型的输入层数据为人机语音交互数据，包括用户的语音数据和与用户互动的机器互动数据，输出层为第一语言情绪识别结果，包括高兴、惊讶、厌恶、恐惧、愤怒、悲伤。

进一步地，第一面部情绪识别模型根据所采集的面部表情数据，进而获得估计的第一面部情绪识别结果。人脸表情包含了丰富的表达人类情感的信息，人们可以通过人脸的表情来判断一个人的状态和心理活动；在医疗领域，可以通过对病人的表情监测来判断病人是否有了疼痛，面瘫患者诊断；在计算机图形学中，利用表情参数对虚拟人物的面部表情变化进行控制；还可以将其应用于开发娱乐产品。表情识别主要分为以下几个步骤：数据输入、预处理、特征提取、特征降维、分类识别；具体而言，首先需要准备训练所需的表情数据，表情数据由摄像头等设备采集得到；例如采用移动手机对准用户面部进行视频录制；在获得表情数据之后，需先对视频数据的每一帧图片进行灰度化预处理，之后再进行特征提取，建立具有良好的可判别性的表情特征，如采用局部二值模式特征算子提取图像局部纹理特征，其计算简单且效果好；之后再进行特征降维以减少运算量，最后训练分类器，得出人脸表情识别模型。在本实施例中，可以选用主成分分析方法作为特征降维算法，可以选取残差网络、带注意力模型的卷积神经网络、或支持向量机作为情绪分类器。第一面部情绪识别模型的输入层数据为面部表情数据，输出层为第一面部情绪识别结果，包括高兴、惊讶、厌恶、恐惧、愤怒、悲伤。

进一步地，第一眼部情绪识别模型根据所采集的眼动数据，进而获得估计的第一眼部情绪识别结果。在人机交互中，眼动信号被认为是研究用户行为和认知的重要方法，研究结果表明，在情绪消极和积极的刺激下，瞳孔大小明显大于中性刺激，这说明自主神经系统对高度唤起的情绪刺激很敏感。此外，在中性刺激物引起听觉刺激的情况下，女性受试者的瞳孔反应明显大于男性。因此，系统选择的刺激会显着影响受试者的生理反应和主观体验，在情感计算中，可以使用瞳孔大小变化、注视时间、眼跳、眨眼作为计算机输入信号。在本实施例中，第一眼部情绪识别模型可采用循环神经网络（RNN）、长短期记忆神经网络（LSTM）等，第一眼部情绪识别模型的输入层数据为眼动数据，包括瞳孔大小、注视时间、眼跳次数、眨眼次数等数据，输出层为第一眼动情绪识别结果，包括高兴、惊讶、厌恶、恐惧、愤怒、悲伤。

如前所述，现有技术中，单独基于语音、面部表情、或眼神等单模态信息情绪估计结果往往由于用户本人自身有意无意的主观表达修饰以及单项较大的测试误差导致单模态信息情绪识别结果往往随机性较大，基于此，进一步地，将第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行训练，如此设置，可极大地避免上述单模态信息情绪识别结果不稳定、不可靠的问题，进而极大地提高情绪识别的准确性。具体来说，可基于机器大量学习结果得出语言情绪识别结果、面部情绪识别结果以及眼部情绪识别结果各自的预设阈值用于滤除主要由测试误差所带来的随机性；基于此，当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的任一项情绪识别结果的准确度低于预设阈值时，表明该项情绪识别结果的测试误差高，则不采信该项情绪识别结果，采用剩余两项情绪识别结果作为第二情绪识别模型的输入；当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的两项及以上的情绪识别结果的准确度低于预设阈值时，则不采信当前的情绪数据，重新采集用户的情绪数据用于下一次确定用户当前的情绪识别结果。另一方面，与输入层为语音数据、面部表情数据、眼动数据，输出层为表情识别结果的单级深度学习模型相比，两级深度学习模型由于可以极大程度上避免由于某一类型数据自身采集误差所导致的较大最终情绪识别结果偏差，同时，两级深度学习模型所需的训练样本量更少、学习时长更短，效率和精度都更高。

当将第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果作为第二情绪识别模型的输入数据时，可以根据用户个性人为设置三项情绪识别结果的初始权重，第一面部情绪识别结果、第一眼部情绪识别结果、第一语言情绪识别结果的权重分配依次下降，具体而言，第一面部情绪识别结果、第一眼部情绪识别结果、第一语言情绪识别结果的权重配比为55: 34: 11。

通过将第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行运算，可以融合同一时刻用户的语言表达、面部表情表达、眼神表达所蕴含的情绪信息，有助于避免用户本人自身有意无意的主观表达修饰所导致的情绪识别错误，提高情绪识别的准确度。

实施例二：

对应于上述实施例一，本发明还提供一种情绪识别装置，包括：

采集模块，用于根据外部指令，采集用户当前情绪数据；所述采集模块具体而言可以是具有麦克风、扬声器和摄像头的设备，既可以是集成上述功能的单一设备，如智能移动手机；也可以是分立的设备。

最后，还需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种情绪识别方法，其特征在于，包括：

根据外部指令，采集用户当前情绪数据；所述外部指令来自用户本人所授权的情绪识别指令；

根据用户当前情绪数据和预先训练的情绪识别模型，确定所述用户当前的情绪识别结果；

其中，所述采集用户当前情绪数据包括采集用户当前的语音交互数据、面部表情数据和眼动数据；

所述预先训练的情绪识别模型包括基于语音交互数据、面部表情数据和眼动数据进行训练的第一情绪识别模型，以及基于第一情绪识别模型输出的第一情绪识别结果进行运算的第二情绪识别模型；

其中，所述第一情绪识别模型包括基于语音交互数据进行训练的第一语言情绪识别模型、基于面部表情数据进行训练的第一面部情绪识别模型、基于眼动数据进行训练的第一眼部情绪识别模型；所述第一情绪识别结果包括第一语言情绪识别模型输出的第一语言情绪识别结果、第一面部情绪识别模型输出的第一面部情绪识别结果以及第一眼部情绪识别模型输出的第一眼部情绪识别结果；所述第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行运算；

所述第二情绪识别模型根据第一眼部情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的至少两者进行运算，包括：

当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的任一项情绪识别结果的准确度低于预设阈值时，则不采信该项情绪识别结果，采用剩余两项情绪识别结果作为所述第二情绪识别模型的输入；

当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的两项及以上的情绪识别结果的准确度低于预设阈值时，则不采信当前的情绪数据，重新采集用户的情绪数据用于下一次确定所述用户当前的情绪识别结果；第一面部情绪识别结果、第一眼部情绪识别结果、第一语言情绪识别结果的权重配比为55: 34: 11。

2.根据权利要求1所述的方法，其特征在于，所述采集用户当前情绪数据，包括：采集用户当前的人机语音交互数据；采集用户当前的面部表情数据；采集用户当前的眼动数据。

3.根据权利要求1所述的方法，其特征在于，所述第一情绪识别模型和第二情绪识别模型均采用深度学习方法。

4.根据权利要求1所述的方法，其特征在于，所述第一语言情绪识别模型根据所采集的语音交互数据，进行语义分析，进而获得估计的第一语言情绪识别结果。

5.根据权利要求1所述的方法，其特征在于，所述第一面部情绪识别模型根据所采集的面部表情数据，进而获得估计的第一面部情绪识别结果。

6.一种情绪识别装置，其特征在于，包括：

采集模块，用于根据外部指令，采集用户当前情绪数据；所述外部指令来自用户本人所授权的情绪识别指令；

估算模块，用于根据用户当前情绪数据和预先训练的情绪识别模型，确定所述用户当前的情绪识别结果；

当第一语言情绪识别结果、第一面部情绪识别结果以及第一眼部情绪识别结果中的两项及以上的情绪识别结果的准确度低于预设阈值时，则不采信当前的情绪数据，重新采集用户的情绪数据用于下一次确定所述用户当前的情绪识别结果；

第一面部情绪识别结果、第一眼部情绪识别结果、第一语言情绪识别结果的权重配比为55: 34: 11。