CN113111855A

CN113111855A - 一种多模态情感识别方法、装置、电子设备及存储介质

Info

Publication number: CN113111855A
Application number: CN202110486305.8A
Authority: CN
Inventors: 罗红; 田瑞濛; 孙岩
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-13
Anticipated expiration: 2041-04-30
Also published as: CN113111855B

Abstract

本发明实施例提供了一种多模态情感识别方法、装置、电子设备及存储介质，该方法包括：提取待识别视频中目标待识别人物的第一特征信息，基于预先得到的个性化差异消除参数对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；将消除个性化差异后的第一特征信息输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果。通过使用个性化差异消除参数，可以在一定程度上降低第一特征信息的个性化特征，并且由于预先训练得到的情感识别模型具有更少的特异性，因此，该预先训练得到的情感识别模型输出的待识别视频的情感识别结果的准确度较高。

Description

一种多模态情感识别方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种多模态情感识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展和普及，人们越来越依赖计算机的人机交互能力，而情感识别将能够在一定程度上让计算机像人一样识别和表达情感，使人机交互更加自然。情感识别具有广阔的应用前景，例如，在教育领域，通过识别学生的面部表情和视线聚焦位置来判断学生的听讲专注程度；在医疗领域，采集病人的面部和语音信号来实时分析其是否出现情感异常状况；在娱乐领域，通过自动化识别海量视频中的人物情绪，提供特定情绪的视频素材检索服务。

情感识别是指计算机对采集到的与受试者相关的视频、音频、文本等信息进行分析和处理，从而得出受试者的情感状态的过程。目前，在进行情感识别时，通常是采用包括语音信号、面部图像、对话文本等训练样本的训练集来训练情感识别模型，并采用包括语音信号、面部图像、对话文本等测试样本的测试集来测试训练完成的情感识别模型的准确度，在准确度符合要求时，使用该训练完成的情感识别模型对待识别的视频、音频或者文本等信息进行情感识别。

然而，发明人发现，由于人物的面部表情、语音信息等都均具有特异性，因此，在使用该情感识别模型对与视频样本中的人物不同的受试者的视频进行情感识别时，识别的准确度往往比较低。

发明内容

本发明实施例的目的在于提供一种多模态情感识别方法、装置、电子设备及存储介质，以实现提高情感识别的准确度。具体技术方案如下：

第一方面，本发明实施例提供了一种多模态情感识别方法，该方法包括：

提取待识别视频中目标待识别人物的特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，第二特征信息的种类与第一特征信息的种类相同；

将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果，其中，预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

第二方面，本发明实施例提供了一种多模态情感识别装置，该装置包括：

提取模块，用于提取待识别视频中目标待识别人物的特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

消除模块，用于基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，第二特征信息的种类与第一特征信息的种类相同；

识别模块，用于将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果，其中，预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

第三方面，本发明实施例还提供了一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，上述任一实施例所示的一种多模态情感识别方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所示的一种多模态情感识别方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例所示的一种多模态情感识别方法的步骤。

本发明实施例有益效果：

本发明实施例提供的一种多模态情感识别方法、装置、电子设备及存储介质，在对待识别视频进行情感识别时，可以先提取待识别视频中目标待识别人物的第一特征信息，然后基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；最后，将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果。

在本发明实施例中，由于该预先得到的个性化差异消除参数，是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，该中性情感表示视频样本中的人物不具有明显的情感倾向，而相比其他情感类型，情感识别模型往往对中性情感识别的准确度更高，因此，根据中性情感的视频样本计算的个性化差异消除参数具有更高的可信度。使用该个性化差异消除参数，对第一特征信息进行个性化差异消除，可以在一定程度上降低人物的特异性，并且，由于预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。因此，该预先训练得到的情感识别模型也具有较少的特异性，从而可以使得在将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中后，该预先训练得到的情感识别模型输出的待识别视频的情感识别结果的准确度较高。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例的一种多模态情感识别方法第一种实施方式的流程图；

图2为本发明实施例的获取个性化差异消除参数的方法的流程图；

图3为本发明实施例的一种对情感识别模型进行训练的方法的流程图；

图4为本发明实施例的一种多模态情感识别方法第二种实施方式的流程图；

图5为本发明实施例的一种多模态情感识别方法第三种实施方式的流程图；

图6为本发明实施例的一种多模态情感识别装置的结构示意图；

图7为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，在使用视频样本训练情感识别模型时，由于没有消除人物的面部表情、语音信息的特异性，该特异性主要指不同人物之间的差别，因此，训练得到的情感识别模型也往往具有特异性，这种特异性使得该情感识别模型只能对包含视频样本中的人物的待识别视频进行识别，当该待识别视频中不包含视频样本中的人物时，识别的准确度往往比较低。

为了解决现有技术中存在的问题，本发明实施例提供了一种多模态情感识别方法、装置、电子设备及存储介质，以实现提高情感识别的准确度。

下面，首先对本发明实施例的一种多模态情感识别方法进行介绍，如图1所示，为本发明实施例的一种多模态情感识别方法第一种实施方式的流程图，该方法可以包括：

S110，提取待识别视频中目标待识别人物的第一特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

S120，基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，第二特征信息的种类与第一特征信息的种类相同；

S130，将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果，其中，预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

在一些示例中，在对待识别视频进行多模态情感识别时，可以先提取该待识别视频中目标人物的特征信息，也即，第一特征信息。然后基于第一特征信息，对待识别视频进行多模态情感识别。该目标人物为该待识别视频中的任一人物。

在又一些示例中，上述的第一特征信息为多种特征信息，该多种特征信息可以是待识别视频中的人脸特征信息、语音特征信息以及语音特征信息对应的文本特征信息中的至少两种特征信息。因此，在本发明实施例中，可以提取该待识别视频的人脸特征信息、该待识别视频的语音特征信息以及该待识别视频的文本特征信息。

在又一些示例中，在提取该待识别视频的语音特征信息时，可以先对该待识别视频进行分帧处理，然后对分帧处理后的待识别视频采用滑动窗口和滤波的方式来提取该待识别视频的语音特征信息，该语音特征信息可以包括：基频轮廓特征、响度特征、梅尔倒谱系数、线谱频率和发声概率等可以表征情感的特征；

在提取该待识别视频的人脸特征信息时，可以使用人脸特征提取神经网络来进行提取，该人脸特征信息可以包括：脸部轮廓以及眼睛、眉毛、鼻子、嘴巴等关键五官位置信息，

在又一些示例中，在提取该人脸特征信息后，可以将提取的人脸特征信息转换为基于坐标的特征信息，并作为该人脸特征信息。

在一些示例中，在对待识别视频进行多模态情感识别时，为了提高情感识别的准确度，可以先基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除。

在又一些示例中，上述的待识别视频可以包含一个待识别人物，也可以包含多个待识别人物，该预先得到的个性化差异消除参数可以是一组参数，也可以是多组参数。

当该待识别视频包含一个待识别人物，该个性化差异消除参数是一组参数，并且，得到该个性化差异消除参数所使用的第二特征信息与上述的第一特征信息相似时，可以直接使用该个性化差异消除参数对上述的第一特征信息进行个性化差异消除。

在又一些示例中，当该第一特征信息为两种特征信息时，对应的，该一组个性化差异消除参数为两个，此时，可以将该两个个性化差异消除参数分别与对应的两种特征信息相乘，从而可以得到消除个性化差异后的两种特征信息。

当该第一特征信息为三种特征信息时，对应的，该一组个性化差异消除参数为三个，此时，可以将该三个个性化差异消除参数分别与对应的三种特征信息相乘，从而可以得到消除个性化差异后的三种特征信息。

在一些示例中，由于该预先得到的个性化差异消除参数，是基于视频样本集中每个视频样本的第二特征信息和该视频样本的包括中性情感标签和非中性情感标签的第一情感标签得到的，该中性情感表示视频样本中的人物不具有明显的情感倾向，而当人物不具有明显的情感倾向时，各个人物之间具有更多的相似性特征，较少的个性化特征，因此，得到的个性化差异消除参数可以反映各个人物之间的特征的相似性，则，使用该个性化差异消除参数可以在一定程度上，降低人物的个性化特征。

当预先得到的个性化差异消除参数为多组个性化差异消除参数时，本发明实施例可以基于预先得到的个性化差异消除参数，通过如下方式对第一特征信息进行个性化差异消除：

步骤A1，基于第一特征信息，从预先得到的多组个性化差异消除参数中，选择目标个性化差异消除参数，其中，视频样本集中每个包含同一样本人物的第一视频样本子集，对应一组个性化差异消除参数，每组个性化差异消除参数，是根据对应的第一视频样本子集的第二特征信息、该第一视频样本子集中各个视频样本的中性情感标签和非中性情感标签得到的，每个视频样本具有一种情感标签；

步骤A2，基于目标个性化差异消除参数，对第一特征信息进行个性化差异消除。

在一些示例中，该待识别视频包含一个待识别人物，该个性化差异消除参数是多组参数时，可以先获取该多组个性化差异消除参数中每组个性化差异消除参数对应的第二特征信息，然后计算每组个性化差异消除参数对应的第二特征信息与第一特征信息的相似度，然后选择与第一特征信息的相似度最高的第二特征信息所对应的一组个性化差异消除参数作为目标个性化差异消除参数。然后基于该目标个性化差异消除参数，对该第一特征信息进行个性化差异消除。

在一些示例中，在基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除之前，还可以对个性化差异消除参数标注对应的样本人物的类别，然后在获取到待识别视频时，对待识别视频标注该待识别视频的类别，进而可以在多组个性化差异消除参数中，查找与该待识别视频具有相同类别的个性化差异消除参数为目标个性化差异消除参数。进而基于该目标个性化差异消除参数，对该第一特征信息进行个性化差异消除。

当该待识别视频包含多个待识别人物，该个性化差异消除参数是多组参数时，在本发明实施例中，可以将任一个待识别人物作为目标待识别人物，然后通过上述的步骤A1和步骤A2对每个目标待识别人物对应的第一特征信息进行个性化差异消除。

在本发明实施例中，由于该预先得到的个性化差异消除参数，是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，该中性情感表示视频样本中的人物不具有明显的情感倾向，而相比其他情感类型，情感识别模型往往对中性情感识别的准确度更高，因此，根据中性情感的视频样本计算的个性化差异消除参数具有更高的可信度。使用该个性化差异消除参数，对第一特征信息进行个性化差异消除，可以在一定程度上降低人物的特异性，并且，由于预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。因此，该预先训练得到的情感识别模型也具有较少的特异性，从而可以使得在将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中后，该预先训练得到的情感识别模型输出的待识别视频的情感识别结果的准确度较高。

在一些示例中，本发明实施例还提供了一种获取个性化差异消除参数的方法，如图2所示，为本发明实施例的获取个性化差异消除参数的方法的流程图，该方法可以包括：

S201，提取视频样本集中每个视频样本的第二特征信息；

S202，确定视频样本集中第N-1次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第一平均值，和视频样本集的第一视频样本子集中第N-1次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第二平均值，其中，第一视频样本子集为视频样本集中包含同一样本人物的视频样本的集合；每个视频样本具有一种情感标签，N大于或等于2，第1次迭代时视频样本集中的各个视频样本的情感标签均为预先标记的；

S203，基于第一平均值和第二平均值，确定第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数；

S204，基于第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第N-1次迭代时第一视频样本子集对应的消除个性化差异后的第二特征信息；

S205，基于第N-1次迭代时第一视频样本子集对应的消除个性化差异后的第二特征信息，对第一视频样本子集中的视频样本进行二分类，得到第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本和标记有非中性情感标签的视频样本；

S206，确定第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本的第二特征信息的第三平均值和视频样本集中第N次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第四平均值；

S207，基于第三平均值和第四平均值，确定第N次迭代得到的第一视频样本子集的待定个性化差异消除参数；

S208，基于第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本、第N次迭代时标记有非中性情感标签的视频样本、第N-1次迭代得到的标记有中性情感标签的视频样本以及第N-1次迭代得到的标记有非中性情感标签的视频样本，确定第一视频样本子集的标签改变率；

S209，判断第一视频样本子集的标签改变率是否小于或等于预设改变率阈值，如果是，执行步骤S210，如果否，执行步骤S211；

S210，将第N次迭代得到的第一视频样本子集的待定个性化差异消除参数，确定为第一视频样本子集的个性化差异消除参数；

S211，将第N次迭代得到的第一视频样本子集的待定个性化差异消除参数，作为第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，并执行步骤S204。

在一些示例中，在本发明实施例中，为了得到个性化差异消除参数，可以先提取视频样本集中每个视频样本的第二特征信息，该第二特征信息的种类和第一特征信息的种类相同。可以理解的是，这里提取视频样本集中每个视频样本的第二特征信息所采用的方式，与提取待识别视频的第一特征信息所采用的方式可以相同，也可以不同，这里不作限定。

在又一些示例中，语音特征信息可以采用open Smile2.3工具进行提取，该工具支持wav、pcm(Pulse Code Modulation，脉冲编码调制)、mp3等多种格式的音频文件输入，该工具的配置文件为“emobase2010.conf”，配置输出文件格式为CSV(Comma-SeparatedValues，逗号分隔值)。

人脸特征信息可以采用Dlib工具提取，该工具可定位脸部轮廓、眼睛、眉毛、鼻子、嘴巴等关键五官位置信息，并提供face embedding功能，将人脸编码为128维向量，之后使用CLM(Constrained local model，约束局部模型)算法对生成的特征向量进行仿射变换，消除姿势、光照、遮挡等影响，达到人脸特征对齐的目的。

在提取出视频样本集中每个视频样本的第二特征信息后，在第1次迭代时，可以先对视频样本集中的各个视频样本标记情感标签。

具体的，可以针对包含同一样本人物的视频样本的第一视频样本子集，从该第一视频样本子集中，随机选择预设数量的视频样本标记为中性情感，将该第一视频样本子集中，除该预设数量的视频样本外的其他样本标记为非中性情感。

然后计算该第一视频样本子集中标记有中性情感标签的视频样本的第二特征信息的第二平均值，和视频样本集中标记有中性情感标签的视频样本的第二特征信息的第一平均值，进而可以基于该第一平均值和第二平均值，计算第1次迭代得到的第一视频样本子集的待定个性化差异消除参数。

在一些示例中，可以将该第一平均值与第二平均值相除，得到第1次迭代得到的第一视频样本子集的待定个性化差异消除参数。

在又一些示例中，当该第二特征信息包括人脸特征信息和语音特征信息时，该第一平均值可以包括：人脸特征信息对应的第一平均值和语音特征信息对应的第一平均值；该第二平均值可以包括人脸特征信息对应的第二平均值和语音特征信息对应的第二平均值；

此时，可以将人脸特征信息对应的第一平均值与人脸特征信息对应的第二平均值相除，得到人脸特征信息对应的待定个性化差异消除参数，将语音特征信息对应的第一平均值与语音特征信息对应的第二平均值相除，得到语音特征信息对应的待定个性化差异消除参数，因此，第1次迭代得到的第一视频样本子集的待定个性化差异消除参数可以包括：人脸特征信息对应的待定个性化差异消除参数和语音特征信息对应的待定个性化差异消除参数。

例如，假设该第一视频样本子集中标记有中性情感标签的视频样本的人脸特征信息对应的第二平均值为

视频样本集中所有标记有中性情感标签的视频样本的人脸特征信息对应的第一平均值为M_ref，则人脸特征信息对应的待定个性化差异消除参数为：

假设该第一视频样本子集中标记有中性情感标签的视频样本的语音特征信息对应的第二平均值为

视频样本集中所有标记有中性情感标签的视频样本的语音特征信息对应的第一平均值为F_ref，则语音特征信息对应的待定个性化差异消除参数为：

然后可以基于第1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第一视频样本子集对应的消除个性化差异后的第二特征信息；

进而可以将该第一视频样本子集对应的消除个性化差异后的第二特征信息，输入至预先设置的二分类模型中，以对该第一视频样本子集中的视频样本进行二分类，以将该第一视频样本子集中的各个视频样本分为中性情感或者非中性情感。其中，该预先设置的二分类模型可以是线性支持向量机的二分类模型。

在将该第一视频样本子集对应的消除个性化差异后的第二特征信息，输入至预先设置的二分类模型后，该预先设置的二分类模型可以输出该第一视频样本子集中各个视频样本是何种情感的概率，从而可以实现对第一视频样本子集中各个视频样本的二分类。

在一些示例中，在基于第1次迭代得到的人脸特征信息对应的待定个性化差异消除参数对人脸特征信息进行个性化差异消除后，可以得到消除个性化差异后的人脸特征信息，在基于第1次迭代得到的语音特征信息对应的待定个性化差异消除参数对语音特征信息进行个性化差异消除后，可以得到消除个性化差异后的语音特征信息。

此时，可以将消除个性化差异后的人脸特征信息和消除个性化差异后的语音特征信息输入至上述的预先设置二分类模型中，该预先设置的二分类模型可以基于人脸特征信息得到的该第一视频样本子集中各个视频样本属于中性情感的概率；也可以基于语音特征信息得到的该第一视频样本子集中各个视频样本属于中性情感的概率；

然后，针对该第一视频样本子集中每个视频样本，对基于人脸特征得到的该视频样本属于中性情感的概率和基于语音特征信息得到的该视频样本属于中性情感的概率进行加权融合，从而可以得到该视频样本属于中性情感的概率。

例如，对于第一视频样本子集中的任一视频样本，假设该视频样本基于人脸特征得到的该视频样本属于中性情感的概率

该视频基于语音特征信息得到的该视频样本属于中性情感的概率为

则该视频样本属于中性情感的概率为：

其中，α和为β为预设的权重系数，α+β＝1。

可以理解的是，当上述的第二特征信息为大于2个时，也可以采用与上述加权融合的方式相同或相似的方式进行加权融合，以得到第一视频样本子集中各个视频样本属于中性情感的概率。

在得到该视频样本属于中性情感的概率后，当该概率大于或等于预设概率阈值时，则可以说明该视频样本中的人物属于中性情感，可以给该视频样本标记中性情感标签。这样，可以得到该第一视频样本子集中第2次迭代时标记有中性情感标签的视频样本和标记有非中性情感标签的视频样本；

然后可以计算第一视频样本子集中第2次迭代时标记有中性情感标签的视频样本的第二特征信息的第三平均值和视频样本集中第2次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第四平均值；再基于第三平均值和第四平均值，确定第2次迭代得到的第一视频样本子集的待定个性化差异消除参数；

在得到第2次迭代得到的第一视频样本子集的待定个性化差异消除参数后，为了确定是否可以将该待定个性化差异消除参数作为该第一视频样本子集的个性化差异消除参数，可以基于第一视频样本子集中第2次迭代时标记有中性情感标签的视频样本、第2次迭代时标记有非中性情感标签的视频样本、第1次迭代得到的标记有中性情感标签的视频样本以及第1次迭代得到的标记有非中性情感标签的视频样本，确定第一视频样本子集的标签改变率；

具体的，可以统计两次迭代时，第一视频样本子集中情感标签发生改变的视频样本的数量，然后将该第一视频样本子集中情感标签发生改变的视频样本的数量与该第一视频样本子集中所有视频样本的数量相除，可以得到该第一视频样本子集的标签改变率；

可以理解的是，该情感标签发生改变的视频样本可以包括：中性情感标签变为非中性情感标签的视频样本和非中性情感标签变为中性情感标签的视频样本。

当该第一视频样本子集的标签改变率小于或等于预设改变率阈值，则可以说明该第一视频样本子集中各个视频样本的情感标签相对准确，此时，可以将第2次迭代得到的第一视频样本子集的待定个性化差异消除参数，确定为第一视频样本子集的个性化差异消除参数；

当该第一视频样本子集的标签改变率大于预设改变率阈值，则可以说明该第一视频样本子集中的各个视频样本的情感标签还不够准确，此时，可以将第2次迭代得到的第一视频样本子集的待定个性化差异消除参数，作为第1次迭代得到的第一视频样本子集的待定个性化差异消除参数，并执行基于第1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第1次迭代时第一视频样本子集对应的消除个性化差异后的第二特征信息的步骤。

这样，重复进行N-1次迭代，可以得到第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，当得到第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数后，可以执行步骤S204～S211，以便得到每个第一视频样本子集对应的个性化差异消除参数。

在一些示例中，在得到每个第一视频样本子集对应的个性化差异消除参数后，本发明实施例还提供了一种对情感识别模型进行训练的方法，如图3所示，为本发明实施例的一种对情感识别模型进行训练的方法的流程图，该方法可以包括：

S310，获取视频样本集中每个第一视频样本子集的个性化差异消除参数和该第一视频样本子集的第二特征信息；

S320，针对每个第一视频样本子集，基于第一视频样本子集的个性化差异消除参数和该第一视频样本子集的第二特征信息，确定该第一视频样本子集的消除个性化差异后的第二特征信息；

S330，基于所有第一视频样本子集的消除个性化差异后的第二特征信息和对应的第二情感标签，对预设的情感识别模型进行训练，得到预先训练得到的情感识别模型。

在一些示例中，在得到每个第一视频样本子集对应的个性化差异消除参数后，可以获取该第一视频样本子集的第二特征信息，然后基于该第一视频样本子集的个性化差异消除参数和该第一视频样本子集的第二特征信息，确定该第一视频样本子集的消除个性化差异后的第二特征信息。

最后，基于所有第一视频样本子集的消除个性化差异后的第二特征信息和对应的第二情感标签，对预设的情感识别模型进行训练，得到预先训练得到的情感识别模型。这样，便可以得到上述的预先训练得到的情感识别模型。

在一些示例中，为了降低训练情感识别模型过程中的时间开销，在发明实施例中，可以在得到每个第一视频样本子集的消除个性化差异后的第二特征信息后，将每个第一视频样本子集的消除个性化差异后的第二特征信息，变换为位于预设取值区间的第二特征信息；

例如，将将每个第一视频样本子集的消除个性化差异后的第二特征信息，变换为位于0至1取值区间的第二特征信息。

在一些示例中，在进行变换时，可以采用现有技术中的变换算法，例如，可以采用z-score标准化算法或者Min-Max标准化算法。

在得到位于预设取值区间的第二特征信息后，可以基于第一视频样本子集的位于预设取值区间的第二特征信息和和对应的第二情感标签，对预设的情感识别模型进行训练，得到预先训练得到的情感识别模型。

在图1所示的一种多模态情感识别方法的基础上，本发明实施例还提供了一种可能的实现方式，如图4所示，为本发明实施例的一种多模态情感识别方法第二种实施方式的流程图，该方法可以包括：

S410，提取待识别视频中目标待识别人物的第一特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

S420，基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，第二特征信息的种类与第一特征信息的种类相同；

S430，将消除个性化差异后的第一特征信息，变换为位于预设取值区间的第一特征信息；

S440，将位于预设取值区间的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果，其中，预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

在一些示例中，为了降低识别过程中的时间开销，在本发明实施例中，可以在得到消除个性化差异后的第一特征信息后，可以将消除个性化差异后的第一特征信息，变换为位于预设取值区间的第一特征信息；

例如，将消除个性化差异后的第一特征信息，变换为位于0至1取值区间的第一特征信息。

在得到位于预设取值区间的第一特征信息后，可以将位于预设取值区间的第一特征信息，输入至预先训练得到的情感识别模型中，该预先训练得到的情感识别模型可以输出该待识别视频的情感识别结果，这样便可以得到待识别视频的情感识别结果。

可以理解的是，本发明实施例中的步骤S410～S420与第一种实施方式中的步骤S110～S120相同或相似，这里不再赘述。

在图1所示的一种多模态情感识别方法的基础上，本发明实施例还提供了一种可能的实现方式，如图5所示，为本发明实施例的一种多模态情感识别方法第三种实施方式的流程图，该方法可以包括：

S510，提取待识别视频中目标待识别人物的第一特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

S520，基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，第二特征信息的种类与第一特征信息的种类相同；

S530，将消除个性化差异后的第一特征信息中的不同种类特征信息输入至对应的特征抽取子模型，得到多个特征抽取子模型输出的多个经抽取后的特征信息；

S540，将多个经抽取后的特征信息输入至特征融合子模型，得到特征融合子模型采用注意力特征融合算法进行特征融合后输出的特征融合后的特征信息；

S550，将特征融合后的特征信息，输入至分类子模型，得到分类子模型输出的与待识别视频对应的情感类别。其中，预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

在一些示例中，上述的预先训练得到的情感识别模型包括多个特征抽取子模型、特征融合子模型以及分类子模型，多个特征抽取子模型的数量与第二特征信息的种类数相同；每个子模型对应第二特征信息中的一种特征信息；

例如，该多个特征抽取子模型可以包括语音特征抽取子模型、人脸特征抽取子模型和/或文本特征抽取子模型中的至少两个子模型。

因此，在本发明实施例中，可以将消除个性化差异后的第一特征信息中的不同种类特征信息输入至对应的特征抽取子模型，得到多个特征抽取子模型输出的多个经抽取后的特征信息；

例如，将消除个性化差异后的第一特征信息中的人脸特征信息输入至人脸特征抽取子模型，得到该人脸特征抽取子模型输出的经抽取后的人脸特征信息，将消除个性化差异后的第一特征信息中的语音特征信息输入至语音特征抽取子模型，得到该语音特征抽取子模型输出的经抽取后的语音特征信息。经过特征抽取，可以保留更具有代表性的特征，进而可以降低后续分类时的复杂度。

在一些示例中，语音特征抽取子模型可以采用CNN(Convolutional NeuralNetworks，卷积神经网络)网络架构，该CNN网络架构为现有技术中的网络架构，这里不再赘述。人脸特征抽取子模型可以采用3D-CNN网络架构，该3D-CNN网络架构也为现有技术中的网络架构，这里不再赘述。

在得到该多个经抽取后的特征信息后，可以将该多个经抽取后的特征信息输入至特征融合子模型，该特征融合子模型采用注意力特征融合算法进行特征融合后，然后输出特征融合后的特征信息。经过特征融合，可以降低后续分类时的复杂度。

在一些示例中，通过采用自注意力特征融合算法，自适应的对每种特征生成相应权重，使融合后的特征信息更专注于对情感识别贡献度高的特征。从而可以提高后续分类的准确度。

最后，将特征融合后的特征信息，输入至分类子模型，从而可以得到分类子模型输出的与待识别视频对应的情感类别。

可以理解的是，本发明实施例中的步骤S510～S520与第一种实施方式中的步骤S110～S120相同或相似，这里不再赘述。

相应于上述的方法实施例，本发明实施例还提供了一种多模态情感识别装置，如图6所示，该装置可以包括：

提取模块610，用于提取待识别视频中目标待识别人物的第一特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

消除模块620，用于基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，第二特征信息的种类与第一特征信息的种类相同；

识别模块630，用于将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果，其中，预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

本发明实施例提供的一种多模态情感识别装置，在对待识别视频进行情感识别时，可以先提取待识别视频中目标待识别人物的第一特征信息，然后基于预先得到的个性化差异消除参数，对第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；最后，将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果。

在一些示例中，消除模块620，具体用于：

在预先得到的个性化差异消除参数为多组个性化差异消除参数时，基于第一特征信息，从预先得到的多组个性化差异消除参数中，选择目标个性化差异消除参数，其中，视频样本集中每个包含同一样本人物的第一视频样本子集，对应一组个性化差异消除参数，每组个性化差异消除参数，是根据对应的第一视频样本子集的第二特征信息、该第一视频样本子集中各个视频样本的中性情感标签和非中性情感标签得到的，每个视频样本具有一种情感标签；

基于目标个性化差异消除参数，对第一特征信息进行个性化差异消除。

在一些示例中，消除模块620，具体用于：

获取多组个性化差异消除参数中每组个性化差异消除参数对应的第二特征信息；

计算每组个性化差异消除参数对应的第二特征信息与第一特征信息的相似度，选择与第一特征信息的相似度最高的第二特征信息所对应的一组个性化差异消除参数作为目标个性化差异消除参数。

在一些示例中，消除模块620，还用于：从预先得到的多组个性化差异消除参数中，查找与待识别视频具有相同人物类别的个性化差异消除参数作为目标个性化差异消除参数。

在一些示例中，该装置还包括：

个性化差异消除参数获取模块，用于：

提取视频样本集中每个视频样本的第二特征信息；

确定视频样本集中第N-1次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第一平均值，和视频样本集的第一视频样本子集中第N-1次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第二平均值，其中，第一视频样本子集为视频样本集中包含同一样本人物的视频样本的集合；每个视频样本具有一种情感标签，N大于或等于2，第1次迭代时视频样本集中的各个视频样本的情感标签均为预先标记的；

基于第一平均值和第二平均值，确定第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数；

基于第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第N-1次迭代时第一视频样本子集对应的消除个性化差异后的第二特征信息；

基于第N-1次迭代时第一视频样本子集对应的消除个性化差异后的第二特征信息，对第一视频样本子集中的视频样本进行二分类，得到第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本和标记有非中性情感标签的视频样本；

确定第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本的第二特征信息的第三平均值和视频样本集中第N次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第四平均值；

基于第三平均值和第四平均值，确定第N次迭代得到的第一视频样本子集的待定个性化差异消除参数；

基于第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本、第N次迭代时标记有非中性情感标签的视频样本、第N-1次迭代得到的标记有中性情感标签的视频样本以及第N-1次迭代得到的标记有非中性情感标签的视频样本，确定第一视频样本子集的标签改变率；

在第一视频样本子集的标签改变率小于或等于预设改变率阈值时，将第N次迭代得到的第一视频样本子集的待定个性化差异消除参数，确定为第一视频样本子集的个性化差异消除参数；

否则，将第N次迭代得到的第一视频样本子集的待定个性化差异消除参数，作为第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，并执行基于第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第N-1次迭代时第一视频样本子集对应的消除个性化差异后的第二特征信息的步骤；

在一些示例中，该装置还包括：情感识别模型训练模块，用于：

获取视频样本集中每个第一视频样本子集的个性化差异消除参数和该第一视频样本子集的第二特征信息；

针对每个第一视频样本子集，基于第一视频样本子集的个性化差异消除参数和该第一视频样本子集的第二特征信息，确定该第一视频样本子集的消除个性化差异后的第二特征信息，

基于所有第一视频样本子集的消除个性化差异后的第二特征信息和对应的第二情感标签，对预设的情感识别模型进行训练，得到预先训练得到的情感识别模型。

在一些示例中，个性化差异消除参数获取模块：具体用于：

将每个第一视频样本子集的消除个性化差异后的第二特征信息，变换为位于预设取值区间的第二特征信息；基于第一视频样本子集的位于预设取值区间的第二特征信息和和对应的第二情感标签，对预设的情感识别模型进行训练，得到预先训练得到的情感识别模型。

在一些示例中，该装置还包括：第二变换模块，用于在将消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果之前，将消除个性化差异后的第一特征信息，变换为位于预设取值区间的第一特征信息；

在一些示例中，该识别模块630，具体用于：

将位于预设取值区间的第一特征信息，输入至预先训练得到的情感识别模型中，得到待识别视频的情感识别结果。

在一些示例中，预先训练得到的情感识别模型包括多个特征抽取子模型、特征融合子模型以及分类子模型，多个特征抽取子模型的数量与第二特征信息的种类数相同；每个子模型对应第二特征信息中的一种特征信息；

在一些示例中，识别模块630，具体用于：

将消除个性化差异后的第一特征信息中的不同种类特征信息输入至对应的特征抽取子模型，得到多个特征抽取子模型输出的多个经抽取后的特征信息；

将多个经抽取后的特征信息输入至特征融合子模型，得到特征融合子模型采用注意力特征融合算法进行特征融合后输出的特征融合后的特征信息；

将特征融合后的特征信息，输入至分类子模型，得到分类子模型输出的与待识别视频对应的情感类别。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述任一实施例所示的一种多模态情感识别方法的步骤，例如，可以实现如下步骤：

提取待识别视频中目标待识别人物的第一特征信息，其中，待识别视频为包含至少一个待识别人物的视频，第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例所示的一种多模态情感识别方法的步骤，例如，可以实现如下步骤：

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例所示的一种多模态情感识别方法的步骤，例如，可以实现如下步骤：

本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行执行上述任一实施例所示的一种多模态情感识别方法的步骤，例如，可以实现如下步骤：

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及计算机可读存储介质等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多模态情感识别方法，其特征在于，所述方法包括：

提取待识别视频中目标待识别人物的第一特征信息，其中，所述待识别视频为包含至少一个待识别人物的视频，所述第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

基于预先得到的个性化差异消除参数，对所述第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；其中，所述预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，所述第二特征信息的种类与所述第一特征信息的种类相同；

将所述消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到所述待识别视频的情感识别结果，其中，所述预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

2.根据权利要求1所述的方法，其特征在于，在所述预先得到的个性化差异消除参数为多组个性化差异消除参数时，所述基于预先得到的个性化差异消除参数，对所述第一特征信息进行个性化差异消除，包括：

基于所述第一特征信息，从预先得到的多组个性化差异消除参数中，选择目标个性化差异消除参数，其中，所述视频样本集中每个包含同一样本人物的第一视频样本子集，对应一组个性化差异消除参数，每组个性化差异消除参数，是根据对应的第一视频样本子集的第二特征信息、该第一视频样本子集中各个视频样本的中性情感标签和非中性情感标签得到的，每个视频样本具有一种情感标签；

基于所述目标个性化差异消除参数，对所述第一特征信息进行个性化差异消除。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一特征信息，从预先得到的多组个性化差异消除参数中，选择目标个性化差异消除参数，包括：

获取所述多组个性化差异消除参数中每组个性化差异消除参数对应的第二特征信息；

计算每组个性化差异消除参数对应的第二特征信息与所述第一特征信息的相似度；

选择与所述第一特征信息的相似度最高的第二特征信息所对应的一组个性化差异消除参数作为目标个性化差异消除参数。

4.根据权利要求2或3所述的方法，其特征在于，每组个性化差异消除参数，是通过以下方式得到的：

提取所述视频样本集中每个视频样本的第二特征信息；

确定所述视频样本集中第N-1次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第一平均值，和所述视频样本集的第一视频样本子集中第N-1次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第二平均值，其中，N大于或等于2，第1次迭代时所述视频样本集中的各个视频样本的情感标签均为预先标记的；

基于所述第一平均值和所述第二平均值，确定第N-1次迭代得到的所述第一视频样本子集的待定个性化差异消除参数；

基于所述第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对所述第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第N-1次迭代时所述第一视频样本子集对应的消除个性化差异后的第二特征信息；

基于所述第N-1次迭代时所述第一视频样本子集对应的消除个性化差异后的第二特征信息，对所述第一视频样本子集中的视频样本进行二分类，得到第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本和标记有非中性情感标签的视频样本；

确定所述第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本的第二特征信息的第三平均值和所述视频样本集中第N次迭代得到的标记有中性情感标签的视频样本的第二特征信息的第四平均值；

基于所述第三平均值和所述第四平均值，确定第N次迭代得到的所述第一视频样本子集的待定个性化差异消除参数；

基于所述第一视频样本子集中第N次迭代时标记有中性情感标签的视频样本、第N次迭代时标记有非中性情感标签的视频样本、第N-1次迭代得到的标记有中性情感标签的视频样本以及第N-1次迭代得到的标记有非中性情感标签的视频样本，确定所述第一视频样本子集的标签改变率；

在所述第一视频样本子集的标签改变率小于或等于预设改变率阈值时，将所述第N次迭代得到的所述第一视频样本子集的待定个性化差异消除参数，确定为所述第一视频样本子集的个性化差异消除参数；

否则，将所述第N次迭代得到的所述第一视频样本子集的待定个性化差异消除参数，作为所述第N-1次迭代得到的所述第一视频样本子集的待定个性化差异消除参数，并执行所述基于所述第N-1次迭代得到的第一视频样本子集的待定个性化差异消除参数，对所述第一视频样本子集中的视频样本的第二特征信息进行个性化差异消除，得到第N-1次迭代时所述第一视频样本子集对应的消除个性化差异后的第二特征信息的步骤；

预先训练得到的情感识别模型，是通过以下步骤得到的：

获取所述视频样本集中每个第一视频样本子集的个性化差异消除参数和该第一视频样本子集的第二特征信息；

基于所有第一视频样本子集的消除个性化差异后的第二特征信息和对应的第二情感标签，对预设的情感识别模型进行训练，得到所述预先训练得到的情感识别模型。

5.根据权利要求4所述的方法，其特征在于，在所述基于所有第一视频样本子集的消除个性化差异后的第二特征信息和对应的第二情感标签，对预设的情感识别模型进行训练，得到所述预先训练得到的情感识别模型之前，所述方法还包括：

将每个所述第一视频样本子集的消除个性化差异后的第二特征信息，变换为位于预设取值区间的第二特征信息；

所述基于所有第一视频样本子集的消除个性化差异后的第二特征信息和对应的第二情感标签，对预设的情感识别模型进行训练，得到所述预先训练得到的情感识别模型，包括：

基于所述第一视频样本子集的位于预设取值区间的第二特征信息和和对应的第二情感标签，对预设的情感识别模型进行训练，得到所述预先训练得到的情感识别模型。

6.根据权利要求5所述的方法，其特征在于，在所述将所述消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到所述待识别视频的情感识别结果之前，所述方法还包括：

将所述消除个性化差异后的第一特征信息，变换为位于所述预设取值区间的第一特征信息；

所述将所述消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到所述待识别视频的情感识别结果，包括：

将所述位于所述预设取值区间的第一特征信息，输入至预先训练得到的情感识别模型中，得到所述待识别视频的情感识别结果。

7.根据权利要求1所述的方法，其特征在于，所述预先训练得到的情感识别模型包括多个特征抽取子模型、特征融合子模型以及分类子模型，所述多个特征抽取子模型的数量与所述第二特征信息的种类数相同；每个所述子模型对应所述第二特征信息中的一种特征信息；

将所述消除个性化差异后的第一特征信息中的不同种类特征信息输入至对应的特征抽取子模型，得到所述多个特征抽取子模型输出的多个经抽取后的特征信息；

将所述多个经抽取后的特征信息输入至所述特征融合子模型，得到所述特征融合子模型采用注意力特征融合算法进行特征融合后输出的特征融合后的特征信息；

将所述特征融合后的特征信息，输入至所述分类子模型，得到所述分类子模型输出的与所述待识别视频对应的情感类别。

8.一种多模态情感识别装置，其特征在于，所述装置包括：

提取模块，用于提取待识别视频中目标待识别人物的第一特征信息，其中，所述待识别视频为包含至少一个待识别人物的视频，所述第一特征信息为多种特征信息，每个待识别人物均具有多种特征信息；

消除模块，用于基于预先得到的个性化差异消除参数，对所述第一特征信息进行个性化差异消除，得到消除个性化差异后的第一特征信息；所述预先得到的个性化差异消除参数是基于视频样本集中每个视频样本的第二特征信息、该视频样本的中性情感标签和非中性情感标签得到的，所述第二特征信息的种类与所述第一特征信息的种类相同；

识别模块，用于将所述消除个性化差异后的第一特征信息，输入至预先训练得到的情感识别模型中，得到所述待识别视频的情感识别结果，其中，所述预先训练得到的情感识别模型是基于消除个性化差异后的第二特征信息训练得到的。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。