CN113128284A

CN113128284A - 一种多模态情感识别方法和装置

Info

Publication number: CN113128284A
Application number: CN201911415527.XA
Authority: CN
Inventors: 胡志飞; 李庆洋; 王冰玉; 宫保伟; 田敏杰
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16

Abstract

本申请实施例提供了一种多模态情感识别方法及装置，该方法利用目标对象的多模态数据，进行特征提取以及融合分类操作，得到融合识别结果，并根据该融合识别结果确定出目标对象的情感状态。具体的，获取目标对象的多模态数据；利用预训练的多模态情感识别模型对所述多模态数据进行特征提取，得到多模态特征；基于所述多模态特征，进行融合分类操作，得到融合识别结果；根据所述融合识别结果，确定所述目标对象的情感状态。由于目标对象的情感状态可以通过多种不同模态的数据体现，因此融合目标对象的多种模态数据中的情感信息，对目标对象的情感状态进行检测，能够得到更准确的情感识别结果。

Description

一种多模态情感识别方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种多模态情感识别方法和装置。

背景技术

情感识别一直是模式识别领域的热门话题，它有利于人们的社会沟通和活动。在人们的生活和交往的过程中，包含各种表达内心情感的方式，然而面部表情是其中最直接、最容易和最具表现力的方式并且容易被研究者们获取。目前针对表情的单模态的情感识别技术已经相对成熟，但因其信息的单一性使得识别效果往往不够可靠精确。鉴于此，如何获得更加可靠稳定的情感识别结果值得进一步研究。

发明内容

本申请实施例提供了一种多模态情感识别方法及装置，能够结合多模态数据对目标对象进行情感识别，提高准确性。

有鉴于此，本申请实施例一方面提供了一种多模态情感识别方法，所述方法包括：

获取目标对象的多模态数据；

利用预训练的多模态特征提取模型对所述多模态数据进行特征提取，得到多模态特征；

基于所述多模态特征，进行融合分类操作，得到融合识别结果；

根据所述融合识别结果，确定所述目标对象的情感状态。

可选的，所述基于所述多模态特征，进行融合分类操作，得到融合识别结果包括：基于所述多模态特征，对所述多模态特征分别进行分类，得到多模态情感识别结果；

对所述多模态情感识别结果进行融合，得到所述融合识别结果。

可选的，所述基于所述多模态特征，进行融合分类操作，得到融合识别结果包括：

基于所述多模态特征，对所述多模态特征中进行融合，将得到的融合特征进行分类，得到所述融合识别结果。

可选的，所述方法还包括：

获取多个不同检测对象对应的多组多模态检测数据；

根据所述多组多模态检测数据对预构建的多模态特征提取模型进行训练，直到所述多模态特征提取模型处于收敛状态。

可选的，所述方法还包括：

获取所述目标对象的音频数据和视频数据；

则所述获取目标对象的多模态数据包括：

对所述音频数据进行语音识别，获取语音数据和文本数据；

对所述视频数据进行图像预处理，获取图像数据；

将所述语音数据、所述文本数据和所述图像数据作为所述多模态数据。

可选的，所述方法还包括：

对所述目标对象的情感状态进行提示。

本申请实施例另一方面提供了一种多模态情感识别装置，所述装置包括获取单元、特征提取单元、融合单元和确定单元：

所述获取单元，用于获取目标对象的多模态数据；

所述特征提取单元，用于利用预训练的多模态特征提取模型对所述多模态数据进行特征提取，得到多模态特征；

所述融合单元，用于基于所述多模态特征，进行融合分类操作，得到融合识别结果；

所述确定单元，用于根据所述融合识别结果，确定所述目标对象的情感状态。

可选的，所述融合单元，还用于：

基于所述多模态特征，对所述多模态特征分别进行分类，得到多模态情感识别结果；

可选的，所述融合单元，还用于：

可选的，所述装置还包括训练单元：

所述获取单元，还用于获取多个不同检测对象对应的多组多模态检测数据；

所述训练单元，还用于根据所述多组多模态检测数据对预构建的多模态特征提取模型进行训练，直到所述多模态特征提取模型处于收敛状态。

从上述技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种多模态情感识别方法，该方法利用目标对象的多模态数据，进行特征提取以及融合分类操作，得到融合识别结果，并根据该融合识别结果确定出目标对象的情感状态。具体的，获取目标对象的多模态数据；利用预训练的多模态情感识别模型对所述多模态数据进行特征提取，得到多模态特征；基于所述多模态特征，进行融合分类操作，得到融合识别结果；根据所述融合识别结果，确定所述目标对象的情感状态。由于目标对象的情感状态可以通过多种不同模态的数据体现，因此融合目标对象的多种模态数据中的情感信息，对目标对象的情感状态进行检测，能够得到更准确的情感识别结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的多模态情感识别方法的流程示意图；

图2为本申请实施例提供的晚期融合的流程示意图；

图3为本申请实施例提供的一种基于晚期融合的多模态情感识别方法的流程示意图；

图4为本申请提供的语音情感识别的流程示意图；

图5为本申请提供的文本情感识别的流程示意图；

图6为本申请提供的图像情感识别的流程示意图；

图7为本申请实施例提供的早期融合的流程示意图；

图8为本申请实施例提供的基于晚期融合方式的多模态情感识别方法的应用场景图；

图9为本申请实施例提供的多模态情感识别装置的结构示意图。

具体实施方式

下面结合附图对本申请实施例提供的多模态情感识别方法及相关装置进行介绍。

随着人工智能技术的发展，情感识别技术也被逐渐应用于生活的方方面面，例如，识别驾驶员的情感状态，实现人车交互；服务行业中，识别客户的情感状态，从而判断服务的质量等等。然而，利用现有的情感识别方法得到的情感识别结果准确度较低，其原因在于，现有的情感识别方法只关注到单模态数据中包含的信息，没有考虑到除此之外的其他模态数据，具有一定的局限性，从而造成情感识别结果准确性较低。

为了提高情感识别准确度，本申请实施例提供了一种多模态情感识别方法，该方法将目标对象的多种模态数据作为先验信息，输入到预先训练好的多模态情感识别模型中，检测出目标对象的情感状态。由于目标对象的情感状态可以通过多种不同模态的数据体现，利用多情感识别模型对多种模态数据中的情感信息进行特征提取，并进行融合分类操作，综合考虑了目标对象不同行为所表征的情感状态，以此提高了情感识别的准确度。

应理解，本申请实施例提供的多模态情感识别方法可以应用于服务器，具体可以为应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。本申请实施例提供的多情感识别方法还可以独立应用于终端设备，具体可以为计算机、个人数字助理(Personal Digital Assitant,PDA)、平板电脑、智能手机等。

需要说明的是，本申请实施例提供的多模态情感识别方法可以应用于不同的目标对象以适用于不同的应用场景，例如，在汽车领域，可以针对驾驶员，进行多模态情感识别；在客服领域，可以针对客户，进行多模态情感识别等。在实际应用中，可以根据具体的应用场景决定，在此不作任何限定。

为了便于理解本申请实施例提供的技术方案，下面以服务器作为执行主体，对本申请实施例提供的方法进行具体介绍。

参见图1，图1为本申请实施例提供的多模态情感识别方法的流程示意图。如图1所示，该方法包括以下步骤：

步骤S101：获取目标对象的多模态数据。

可以理解的是，人类对于他人情感识别主要是通过视觉和听觉来完成的，即主要是通过语音声调的情感识别、语言文字的情感识别以及人脸的情感识别来完成的。在人工智能技术中，通过模拟人类情感识别模式，将语音声调、语音文字以及视频图像作为机器学习的先验信息，对预先构建的模型进行训练，实现对目标对象情感状态的检测。基于此，服务器可以通过获取待检测目标对象的多种模态数据，例如语音数据、文本数据和图像数据，对目标对象的情感状态进行检测。

本申请提供了一种可行的实施方式，即获取目标对象的音频数据和视频数据；对所述音频数据进行语音识别后，获取语音数据和文本数据；对所述视频数据进行图像预处理，获取图像数据。

在实际应用中，可以利用信息采集设备获取上述音频数据和视频数据，例如，利用麦克风获取音频数据，利用摄像头获取视频数据。采集到音视频数据后，将该音视频数据上传到服务器，服务器对该音视频数据进行处理，得到多模态数据，该多模态数据包括语音数据、文本数据和图像数据。

其中，文本数据可以不直接采集，服务器可以通过配置语音识别软件将音频数据携带的语音数据转换而来。服务器对视频数据的处理，可以包括从视频数据中抽取关键帧作为图像数据，以及图像预处理过程。其中，图像预处理过程可以进一步提高对图像的识别率。例如，当选取图像中的人脸进行情感识别时，可以将图像数据中的每张图片进行图像分割、人脸对齐、数据增强以及(亮度)归一化等处理，以此突出需要检测的人脸区域，或者说，增强图像数据中的人脸特征，从而帮助提高后续对于人脸的情感识别准确度。

步骤S102：利用预训练的多模态情感识别模型对所述多模态数据进行特征提取，得到多模态特征。

服务器获取到可以处理的多模态数据后，就可以利用预先训练好的多模态特征提取模型对多模态数据进行情感识别。

若多模态数据包括上述语音数据、文本数据或图像数据，则所述多模态特征提取模型分别对应包括语音情感识别模型、文本情感识别模型和图像特征提取模型。

可以理解的是，上述多模态特征提取模型可以对多模态数据进行特征提取，提取出多模态情感特征，主要取决于多模态特征提取模型对于多模态数据的特征提取性能，而多模态情感识别模型的特征提取性能与该模型的训练过程密切相关。

在一种可行的实施方式中，获取多个不同检测对象对应的多组多模态检测数据；根据所述多组多模态检测数据对预构建的多模态特征提取模型进行训练，直到所述多模态特征提取模型处于收敛状态。

也就是说，对多模态特征提取模型进行训练之前，通常需要获取大量的训练样本。针对本申请实施例提供的多模态特征提取模型，需要获取多个不同的检测对象对应的多组检测数据，其中，每组检测数据包括检测模态数据和所述检测模态数据对应的情感类型标注标签。

具体的，若所述多模态数据包括上述语音数据、文本数据和图像数据，则所述检测模态数据包括检测语音数据和所述检测语音数据对应的情感类别标注标签、检测文本数据和所述检测文本数据对应的情感类别标注标签以及检测图像数据和所述检测图像数据对应的情感类别标注标签。

具体训练时，服务器可以将训练样本中的多模态数据输入到预构建的多模态特征提取模型中，然后获取该模型输出的目标对象的处于不同情绪状态的互斥概率；进而，利用该互斥概率和训练样本中的情感状态标注标签反复迭代训练直至模型处于收敛状态。

在利用语音特征提取模型对语音数据进行特征提取的过程中，语音特征提取模型可以是预训练的情感空间描述模型对语音数据进行特征提取，得到语音特征，例如声强、响度、音高、基音周期和基音频率等等。其中，情感空间描述模型可以采用深度学习中的神经网络搭建而成，例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)等。

利用文本特征提取模型对文本数据进行特征提取的过程，可以理解为对文本进行语法和语义等多个层面的分析，具体处理过程可以包括：对语句进行拆分、去除语句中表征情感状态的冗余信息，例如，去除停当词、分词、标注词等。基于此，文本特征提取子模块可以从文本数据中提取出表达文本情感倾向性的情感词作为文本特征，用于后续对于目标对象的情感识别。

图像特征提取模型可以采用面部动作编码系统、基于肌肉的模型、三维线框模型、基于肢体动作模型或者基于深度学习模型对图像数据进行特征提取，得到图像特征。

其中，图像特征提取模型可以基于深度学习(例如CNN、RNN等神经网络)提取图像数据中的目标对象的面部表情作为图像特征，用于对后续目标对象的情感识别。

步骤S103：基于所述多模态特征，进行融合分类操作，得到融合识别结果。

基于多模态特征，本申请提供了两种融合方式(晚期融合和早期融合)进行融合分类操作，得到融合识别结果。

具体的晚期融合方式为：基于所述多模态特征，对所述多模态特征分别进行分类，得到多模态情感识别结果；对所述多模态情感识别结果进行融合，得到所述融合识别结果。

为了便于理解，参见图2，图2为本申请实施例提供的晚期融合的流程示意图。

如图2所示，以多模态数据包括文本数据X、图像数据Y和语音数据Z为例，分别利用分类器(Classifier1,Classifier2和Classifier3)进行分类，对应得到文本情感识别结果w1、图像情感识别结果w2和语音情感识别结果w3，从而，利用融合分类器(Classifier)对w1,w2和w3进行融合，得到融合识别结果。

参见图3，图3为本申请实施例提供的一种基于晚期融合的多模态情感识别方法的流程示意图。在图3所示的方法中，该多模态数据包括语音数据、文本数据和图像数据。其中，可以选择语音特征、文本特征和图像特征中的至少一种进行融合分类，得到融合识别结果。

为了更好地理解上述三种模态情感识别过程，下面结合附图，对本申请提供的模态情感识别过程进行介绍。

参见图4，图4为本申请提供的语音情感识别的流程示意图。

如图4所示，利用信息采集设备对自然语音进行语音信号采集，通过数字语音信号处理后，获取服务器能够处理的数据，进而，利用情感空间描述模型进行情感特征提取，得到语音情感特征，从而，利用语料库对该语音情感特征进行分类，得到语音识别结果。

参见图5，图5为本申请提供的文本情感识别的流程示意图。

如图5所示，服务器可以利用上述语音数据进行语音识别，得到文本语句，进而，对该文本语句进行语句析分、简化，并利用高斯混合模型(Gaussian Mixture Model,GMM)进行文本情感特征提取，提取出表达文本情感倾向性的情感词，并进行特征向量转化得到文本特征，从而，利用情感词库对该文本特征进行分类，得到文本情感识别结果。

参见图6，图6为本申请提供的图像情感识别的流程示意图。

如图6所示，服务器首先对获取的图像数据进行预处理，即对图像或图像序列进行人脸检测，并进行人脸对齐、数据增强和(亮度)归一化后，利用深度神经网络进行特征提取，得到图像特征，从而，利用浅层分类器对该图像特征进行分类，得到图像情感识别模型。其中，深度神经网络可以为：CNN、RNN、深度信念网络(Deep Belief Networks,DBN)、去噪自动编码器(Denoising Auto-Encoder,DAE)以及生成对抗网络(Generative AdversarialNetwork,GAN)等。

基于上述，晚期融合模块是对多模态情感识别结果进行融合，得到融合识别结果，并用于后续确定目标对象的情感状态。其中，对多种情感识别结果进行融合可以理解为利用融合分类器对多种情感识别结果进行加权平均处理。

可以理解的是，上述晚期融合是对多模态情感识别结果进行融合，下面将对早期融合过程做具体介绍。

具体的早期融合方式为：基于所述多模态特征，对所述多模态特征中进行融合，将得到的融合特征进行分类，得到所述融合识别结果。

为了便于理解，参见图7，图7为本申请实施例提供的早期融合的流程示意图。

如图7所示，服务器获取文本数据X、图像数据Y和语音数据Z后，利用多模态特征提取模型对X,Y和Z分别进行特征提取得到语音特征h_x,图像特征h_y和语音特征h_z，进而，对三种模态特征h_x,h_y和h_z进行融合得到融合特征h_m，从而，利用分类器softmax对该融合特征进行分类，得到融合分类结果。

需要说明的是，在实际应用中，可以根据情况决定具体采用的上述晚期融合方式还是早期融合方式，在此不做限定。

步骤S104：根据所述融合识别结果，确定所述目标对象的情感状态。

可以理解的是，最终确定出的目标对象的情感状态是基于融合识别结果确定出的最大概率的情感状态。对于该情感状态，可以根据目标对象进行划分。为了更好地理解，下表1以驾驶员作为目标对象给出情感状态识别类型及说明。

表1情感状态识别类型及说明

序号	情感类别	说明
			1	开心	驾驶员表情愉悦、说话语调轻快
2	愤怒	驾驶员遇他人有危险驾驶动作或“路怒症”
			3	疲劳	驾驶员睡眠不足、长时间驾驶
4	紧张	驾驶员路遇超出自己预判的突发事件
			5	中性	驾驶员平静、正常驾驶

可以理解的是，上述只是对于识别驾驶员的情感可能存在的状态类别做出地示例性介绍，针对不同的目标对象，可以适应性的匹配对应的情感状态识别类别，例如情感状态还可以包括，例如，悲伤、惭愧、羞耻、自豪等其他任意可能的情绪状态，在此不作任何限定。

可以理解的是，服务器预测出目标对象的情感状态后，可以将该情感状态预测结果进行提示，例如，以文本的形式在显示屏中显示，也可以以语音的形式播报该检测结果等等。

上述实施例提供的多模态情感识别方法，该方法利用目标对象的多模态数据，进行特征提取以及融合分类操作，得到融合识别结果，并根据该融合识别结果确定出目标对象的情感状态。具体的，获取目标对象的多模态数据；利用预训练的多模态情感识别模型对所述多模态数据进行特征提取，得到多模态特征；基于所述多模态特征，进行融合分类操作，得到融合识别结果；根据所述融合识别结果，确定所述目标对象的情感状态。由于目标对象的情感状态可以通过多种不同模态的数据体现，因此融合目标对象的多种模态数据中的情感信息，对目标对象的情感状态进行检测，能够得到更准确的情感识别结果。

针对上述描述的多模态情感识别方法，下面结合附图，对本申请提供的基于晚期融合方式的多模态情感识别方法的应用场景进行介绍。

参见图8，图8为本申请实施例提供的基于晚期融合方式的多模态情感识别方法的应用场景图。为了更好地理解，下面针对汽车领域，将目标对象设定为驾驶员作为示例，以车载终端执行该方法进行说明。

如图8所示，在汽车内执行多模态情感识别方法时，可以利用摄像头采集车内驾驶员的视频数据，利用麦克风采集车内驾驶员的音频数据，并上传到车载终端。进而，车载终端对该音视频进行处理，获取多模态数据，即语音数据、图像数据和文本数据。进一步地，车载终端基于深度学习的多模态情感识别算法对多模态数据进行特征提取，即利用CNN模型对图像数据进行特征提取，利用RNN对语音数据和文本数据分别进行特征提取，得到多模态特征，即图像特征、语音特征和文本特征。从而，对该多模态特征进行融合分类，并确定出驾驶员的情感状态，并以标记形式实时地展示在车载终端界面上。

针对上述描述的多模态情感识别方法，本申请实施例还提供了对应的多模态情感识别装置，以使上述多模态情感识别方法在实际中应用及实现。

参见图9，图9为本申请实施例提供的多模态情感识别装置的结构示意图，该多模态情感识别装置900包括获取单元901、特征提取单元902、融合单元903和确定单元904：

所述获取单元901，用于获取目标对象的多模态数据；

所述特征提取单元902，用于利用预训练的多模态特征提取模型对所述多模态数据进行特征提取，得到多模态特征；

所述融合单元903，用于基于所述多模态特征，进行融合分类操作，得到融合识别结果；

所述确定单元904，用于根据所述融合识别结果，确定所述目标对象的情感状态。

上述实施例提供的多模态情感识别装置，利用目标对象的多模态数据，进行特征提取以及融合分类操作，得到融合识别结果，并根据该融合识别结果确定出目标对象的情感状态。具体的，获取目标对象的多模态数据；利用预训练的多模态情感识别模型对所述多模态数据进行特征提取，得到多模态特征；基于所述多模态特征，进行融合分类操作，得到融合识别结果；根据所述融合识别结果，确定所述目标对象的情感状态。由于目标对象的情感状态可以通过多种不同模态的数据体现，因此融合目标对象的多种模态数据中的情感信息，对目标对象的情感状态进行检测，能够得到更准确的情感识别结果。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多模态情感识别方法，其特征在于，所述方法包括：

获取目标对象的多模态数据；

根据所述融合识别结果，确定所述目标对象的情感状态。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多模态特征，进行融合分类操作，得到融合识别结果包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述多模态特征，进行融合分类操作，得到融合识别结果包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个不同检测对象对应的多组多模态检测数据；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述目标对象的音频数据和视频数据；

则所述获取目标对象的多模态数据包括：

对所述音频数据进行语音识别，获取语音数据和文本数据；

对所述视频数据进行图像预处理，获取图像数据；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述目标对象的情感状态进行提示。

7.一种多模态情感识别装置，其特征在于，所述装置包括获取单元、特征提取单元、融合单元和确定单元：

所述获取单元，用于获取目标对象的多模态数据；

8.根据权利要求7所述的装置，其特征在于，所述融合单元，还用于：

9.根据权利要求7所述的装置，其特征在于，所述融合单元，还用于：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括训练单元：