CN118094296A

CN118094296A - 情感识别方法、装置、设备、介质及程序产品

Info

Publication number: CN118094296A
Application number: CN202410319999.XA
Authority: CN
Inventors: 顾晓娜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2024-03-20
Filing date: 2024-03-20
Publication date: 2024-05-28

Abstract

本申请提供一种情感识别方法、装置、设备、介质及程序产品，涉及情感识别技术领域，以解决现有情感识别准确性较低的问题。本方法包括对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征；将表情模态特征、语音模态特征和姿态模态特征进行两两交替融合，得到六组双模态特征；将六组双模态特征、表情模态特征、语音模态特征和姿态模态特征进行融合，得到融合情感特征；对融合情感特征进行情感分类，得到情感识别结果；其中，六组双模态特征中表情模态特征、语音模态特征和姿态模态特征的融合权重与表情模态特征、语音模态特征和姿态模态特征两两交替融合的顺序相关。本申请可以提高情感识别的正确率。

Description

情感识别方法、装置、设备、介质及程序产品

技术领域

本申请涉及情感识别技术领域，特别涉及一种情感识别方法、装置、设备、介质及程序产品。

背景技术

人工智能的发展已从机器智能发展到感知智能，并逐步迈向认知智能。人机交互作为认知智能的一种表现方式，离不开情感识别技术的支持。以往的情感识别技术大多是建立在单一模态的基础上，识别率低、鲁棒性差，因此，越来越多的工作点集中在多模态情感识别上。

针对多模态情感特征融合问题，现有技术中主要使用卷积神经网络进行多模态情感特征融合，在特征层融合中加入注意力机制，赋予更有利于情感识别的特征以高权重，由于权重取值不准确，导致情感识别准确性较低。

发明内容

本申请实施例提供一种情感识别方法、装置、设备、介质及程序产品，以解决现有情感识别准确性较低的问题。

为解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供一种情感识别方法，包括：

对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征；

将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征；

将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征；

对所述融合情感特征进行情感分类，得到情感识别结果；

其中，所述六组双模态特征中所述表情模态特征、所述语音模态特征和所述姿态模态特征的融合权重与所述表情模态特征、所述语音模态特征和所述姿态模态特征两两交替融合的顺序相关。

可选地，所述将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征，包括：

将所述表情模态特征作为值向量Value和键向量Key，以及所述姿态模态特征作为查询向量Query输入键稀疏Transformer结构进行融合，得到第一双模态特征；

将所述表情模态特征作为Query，以及所述姿态模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第二双模态特征；

将所述表情模态特征作为Value和Key，以及所述语音模态特征作为Query输入键稀疏Transformer结构进行融合，得到第三双模态特征；

将所述表情模态特征作为Query，以及所述语音模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第四双模态特征；

将所述姿态模态特征作为Value和Key，以及所述语音模态特征作为Query输入键稀疏Transformer结构进行融合，得到第五双模态特征；

将所述姿态模态特征作为Query，以及所述语音模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第六双模态特征；

所述六组双模态特征包括所述第一双模态特征、所述第二双模态特征、所述第三双模态特征、所述第四双模态特征、所述第五双模态特征和所述第六双模态特征。

可选地，在将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征之前，所述方法还包括：

依次将所述六组双模态特征输入空间金字塔池化层进行池化，得到所述六组双模态特征分别对应的多个特征矩阵；

将所述六组双模态特征分别对应的多个特征矩阵输入空间注意力模块，得到所述六组双模态特征分别对应的多个加权后的特征矩阵；

将所述六组双模态特征分别对应的多个加权后的特征矩阵进行扁平化连接，得到六组目标双模态特征；

所述将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征，包括：

将所述六组目标双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征。

可选地，所述对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征，包括：

将所述目标音视频分解为图像序列；

基于图像序列中图像的相关性，从所述图像序列中选取N个图像，N为正整数；

对所述N个图像进行截取，得到表情图像序列和动作图像序列，所述表情图像序列为所述表情模态特征，所述动作图像序列为所述姿态模态特征；

对所述目标音视频中的目标音频进行切割，得到N-1个切割音频序列；

对所述目标音频和所述N-1个切割后的音频进行语谱提取，得到所述语音模态特征，所述语音模态特征包括所述目标音频和所述N-1个切割后的音频对应的语谱图。

可选地，所述对所述目标音频和所述N-1个切割后的音频进行语谱提取，得到所述语音模态特征，包括：

分别对所述目标音频和所述N-1个切割后的音频进行一阶语谱图和梅尔语谱图提取，得到N个一阶语谱图和N个梅尔语谱图；

将所述N个一阶语谱图分别与所述N个梅尔语谱图进行拼接，得到N个拼接图像，所述语音模态特征包括所述N个拼接图像。

可选地，所述将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征，包括：

将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征输入深度置信网络进行训练，得到所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征的权重；

根据所述权重对所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征。

第二方面，本申请实施例提供一种情感识别装置，包括：

提取模块，用于对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征；

第一融合模块，用于将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征；

第二融合模块，用于将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征；

分类模块，用于对所述融合情感特征进行情感分类，得到情感识别结果；

第三方面，本申请实施例提供一种电子设备，包括处理器，所述处理器用于：

对所述融合情感特征进行情感分类，得到情感识别结果；

第四方面，本申请实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上述第一方面所述的情感识别方法的步骤。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的情感识别方法的步骤。

第六方面，本申请实施例提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上述第一方面所述的情感识别方法的步骤。

本申请实施例中，上述情感识别方法包括对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征，将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征，将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征，对所述融合情感特征进行情感分类，得到情感识别结果，其中，所述六组双模态特征中所述表情模态特征、所述语音模态特征和所述姿态模态特征的融合权重与所述表情模态特征、所述语音模态特征和所述姿态模态特征两两交替融合的顺序相关，使得所述六组双模态特征不仅包含了各模态特征之间的相关性，还包含了各模态特征之间的差异性，并实现对不同时间段模态特征的融合，从而能够提高情感识别的正确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种情感识别方法的流程图；

图2是本申请实施例提供的一种键稀疏Transformer计算流程的示意图；

图3是本申请实施例提供的一种互注意力模块的结构图；

图4是本申请实施例提供的一种空间金字塔池化层的结构图；

图5是本申请实施例提供的一种情感识别系统的结构图；

图6是本申请实施例提供的一种情感识别装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，提出了一种情感识别方法，以解决现有情感识别准确性较低的问题。

参见图1，图1是本申请实施例提供的一种情感识别方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征。

具体地，上述表情模态特征和姿态模态特征可以是图像序列，可以是通过对视频进行分帧并截取对应部分得到的，上述语音模态特征可以是对音频进行提取得到二维结构的语谱图。

步骤102、将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征。

具体地，上述两两交替融合可以理解为将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两组合进行融合，并且在对每个组合进行融合时可以交换模态输入的顺序改变输出结果。例如，对所述表情模态特征和所述语音模态特征进行融合时，可以通过交换模态输入进行两次融合，分别得到以表情模态特征为主的融合特征，以及以语音模态特征为主的融合特征。

上述将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，可以是将表情模态特征-语音模态特征、语音模态特征-表情模态特征、表情模态特征-姿态模态特征、姿态模态特征-表情模态特征、姿态模态特征-语音模态特征和语音模态特征-姿态模态特征分别输入至融合网络中进行融合，得到对应的六组融合情感特征。

示例性的，以A模态特征和B模态特征作为融合网络的输入，A模态特征中的信息通过键稀疏Transformer(Key-Sparse Transformer,KS-Transformer)结构注入到B模态特征中，经过多层交互，两模态中的情感信息得到充分交互，从而获得具有模态相关性的融合特征。

需要说明的是，多层交互可以是融合网络采用两层的键稀疏Transformer结构，进行多层交互可以是将第一层键稀疏Transformer结构输出的双模态特征与转置后的双模态特征再次进行融合。

步骤103、将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征。

具体地，将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，可以理解为不同时间阶段的情感特征融合，所述表情模态特征、所述语音模态特征和所述姿态模态特征表示为初始时间的模态特征，所述六组双模态特征为中间时间的模态特征。

步骤104、对所述融合情感特征进行情感分类，得到情感识别结果；

具体地，上述对所述融合情感特征进行情感分类具体可以是对所述融合情感特征使用softmax方法进行情感分类，上述情感识别结果可以是用于表征所述目标音视频的情感类型，例如可以是高兴、生气、难过等。

上述融合权重可以理解为在两两特征进行融合时，对特征赋予的相对重要性，两两交替融合的顺序理解为在两次融合时分别以对方作为权重的衡量标准。例如，对所述表情模态特征和所述语音模态特征进行融合时，可以交换模态输入，利用语音模态特征作为表情模态特征的权重的衡量标准，得到以表情模态特征为主的融合特征，利用表情模态特征作为语音模态特征的权重的衡量标准，得到以语音模态特征为主的融合特征。

具体地，上述第一双模态特征为以所述表情模态特征为主的双模态特征，上述第二双模态特征为以所述姿态模态特征为主的双模态特征，上述第三双模态特征为以所述表情模态特征为主的双模态特征，上述第四双模态特征为以所述语音模态特征为主的双模态特征，上述第五双模态特征为以所述姿态模态特征为主的双模态特征，上述第六双模态特征为以所述语音模态特征为主的双模态特征。

示例性的，图2是本申请实施例提供的一种键稀疏Transformer计算流程的示意图，如图2所示，以表情和语音两个模态特征为例：

将表情图像序列作为A模态特征，作为Value和Key，在图2中表现为V、K，将语音图像序列作为A模态特征，作为Query，在图2中表现为Q，将两种模态特征输入至键稀疏Transformer结构中进行融合，如图2所示：

以表情模态特征A和语音模态特征B为例，表情模态特征的帧序列表现为K(k₁,k₂,...,k_j)、V(v₁,v₂,...,v_i)，其中W(w_ij)为权重矩阵，权重矩阵的每一行，代表着表情序列V每一项所分配到的注意力权重，把表情序列V中每一项的所有注意力权重相加，得到的和值为该项在整个表情序列中的重要性，每项的权重都不同，重要的项应分配更高的权重；从中挑选k项，这些项具有较大的和值，保留其注意力权重，其他项权重清零，最后与V做矩阵乘积，attn为注意力计算的输出。

该实施方式中，上述情感识别方法包括将所述表情模态特征作为值向量Value和键向量Key，以及所述姿态模态特征作为查询向量Query输入键稀疏Transformer结构进行融合，得到第一双模态特征；将所述表情模态特征作为Query，以及所述姿态模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第二双模态特征；将所述表情模态特征作为Value和Key，以及所述语音模态特征作为Query输入键稀疏Transformer结构进行融合，得到第三双模态特征；将所述表情模态特征作为Query，以及所述语音模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第四双模态特征；将所述姿态模态特征作为Value和Key，以及所述语音模态特征作为Query输入键稀疏Transformer结构进行融合，得到第五双模态特征；将所述姿态模态特征作为Query，以及所述语音模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第六双模态特征，使得所述六组双模态特征不仅包含了各模态特征之间的相关性，还包含了各模态特征之间的差异性，从而能够进一步提高情感识别的正确率。

具体地，上述六组双模态特征中的每一组双模态特征均分别对应多个特征矩阵，对每一组双模态特征进行不同尺度的池化操作得到多个特征矩阵，多个特征矩阵的大小不同。上述空间注意力模块可以是用于根据空间相关性对不同空间位置的特征赋予不同的权重。上述扁平化连接可以是将矩阵转换为一维数组，再将多个一维数组端对端地拼接成一个更长的一维数组。

示例性的，图3是本申请实施例提供的一种互注意力模块的结构图，如图3所示，互注意力模块(Cascaded Cross-Attention Block，CCAB)是由两层的键稀疏Transformer结构(Key-Sparse Transformer,KS-Transformer)以及一层空间金字塔汇集池化层组合而成。

其中，A模态特征和B模态特征在键稀疏Transformer结构中经过多层交互，得到具有模态相关性的融合特征。经过多层交互之后的融合特征再输入到空间金字塔池化层，进行多个不同尺度的池化操作。图4是本申请实施例提供的一种空间金字塔池化层的结构图，如图4所示，对于输入的特征图，利用不同的卷积核分别得到1*1、3*3、6*6和8*8特征矩阵，其中保持1*1和3*3两个矩阵不变，将得到的6*6和8*8的矩阵加入空间注意力模块，从而捕捉该特征矩阵的空间相关性，然后再将这四个矩阵进行扁平化连接，将其变成一个向量，最后得到这110个采样点点数之后，再通过一个空间注意力模块，再次捕捉其空间相关性，得到更新后的110个代表点。

该实施方式中，上述情感识别方法包括依次将所述六组双模态特征输入空间金字塔池化层进行池化，得到所述六组双模态特征分别对应的多个特征矩阵，将所述六组双模态特征分别对应的多个特征矩阵输入空间注意力模块，得到所述六组双模态特征分别对应的多个加权后的特征矩阵，将所述六组双模态特征分别对应的多个加权后的特征矩阵进行扁平化连接，得到六组目标双模态特征，使得对所述六组双模态特征进行降维的同时，实现了特征的进一步提取，进而可以减少所需训练算力，从而能够进一步提高情感识别率。

将所述目标音视频分解为图像序列；

具体地，上述目标音视频可以是指结合音频和视频的媒体形式。上述将所述目标音视频分解为图像序列可以是使用Opencv接口将目标音视频分解为图像序列。上述图像序列中图像的相关性可以理解为图像之间的相似性。

示例性的，上述基于图像序列中图像的相关性，从所述图像序列中选取N个图像的具体过程如下：

假设图像序列中的图像尺寸大小为224*224，长度为128，则选取特征图上相同空间位置的值，构成一个特征向量，则得到224*224共50176个128维的向量，由此重构图像序列，使用以下算法计算每一个向量的关联矩阵R(P_i)：

其中，P_i为第i个128维的向量，P_j为该向量中的第j维，M_i为50176个128维的向量，k表示采用Top-k关系值方法。

通过计算第j维向量的每一个维度与其余相同时间距离的维度的关系，并对结果做归一化，再使用Top-k关系值方法，丢弃结果较低的P_i，留下k个结果。例如，为方便后续输入模型需要，k可以取8，重构图像序列，得到尺寸为224*224*8的图像序列，该图像序列相比直接等间隔选取8帧图像序列，捕获到了图像序列在时域上的相关性。

具体地，上述对所述N个图像进行截取，得到表情图像序列和动作图像序列，可以是通过Dlib库来截取人脸、动作，得到表情和动作图像序列。上述对所述目标音视频中的目标音频进行切割，得到N-1个切割音频序列具体可以是利用依赖包Spicy库中的接口将所述目标音视频转为目标音频，再使用pydub库对目标音频切割为N-1段，切割重叠时间可以设置为0.1s，以此保留音频序列相关性。上述语音模态特征包括N个语谱图，具体为所述目标音频对应的语谱图和所述N-1个切割后的音频对应的语谱图。

需要说明的是，根据实验可知，对目标音频进行切割后仍对原始的完整目标音频进行语音模态特征提取，可以提高情感识别效果。

该实施方式中，上述情感识别方法将所述目标音视频分解为图像序列，基于图像序列中图像的相关性，从所述图像序列中选取N个图像，对所述N个图像进行截取，得到表情图像序列和动作图像序列，对所述目标音视频中的目标音频进行切割，得到N-1个切割音频序列，对所述目标音频和所述N-1个切割后的音频进行语谱提取，得到所述语音模态特征，所述语音模态特征包括所述目标音频和所述N-1个切割后的音频对应的语谱图，使得提取到的表情模态特征、语音模态特征和姿态模态特征能较好地表征所述目标音视频。

示例性的，假设N为8，则分别对7段切割后的音频序列和原始的音频序列提取一阶语谱图以及提取梅尔频率倒谱系数得到对数梅尔(Log-Mel)语谱图，在时间通道上拼接这两个语谱图，最终得到总共8帧语音图像序列作为语音模态特征。

具体地，上述权重可以理解为所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征对于最终情感识别正确率的影响程度。

该实施方式中，上述情感识别方法将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征输入深度置信网络进行训练，得到所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征的权重，并根据所述权重对所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征，可以实现原始的单模态特征与双模态特征不同时间阶段的融合，深度置信网络通过自下而上的无监督训练，学习融合不同时间段的情感特征，可以训练得到三种单模态情感特征及六组双模态融合情感特征对于最终情感识别正确率的影响程度，进而得到融合情感特征，从而能够提高情感识别正确率。

示例性的，上述情感识别方法可以应用于情感识别系统，实现端到端的情感特征识别，图5是本申请实施例提供的一种情感识别系统的结构图，如图5所示，所述情感识别系统包括两个子网络：基于互注意力的多层次融合网络以及基于深度置信网络的多阶段融合网络，第一个子网络由串联的互注意力模块组合而成，用于捕获不同模态之间的相关性特征以及差异性特征；第二个子网络通过自下而上的无监督训练，使各模态可以在不同的时间段进行特征融合，增强融合特征的非线性表达能力，提高多模态情感识别效果。其中，如图3所示，互注意力模块是由两层的键稀疏Transformer结构以及一层空间金字塔汇集池化层组合而成，用于更好地利用各模态特征之间的关系。

该情感识别系统多层次使用互注意力机制，相比于卷积神经网络，更适用于数据量较少的数据库，动态地判断表情、姿态中的重要部位、语音中的关键帧，对每个模态之间的关系直接建模，交替输入表情、语音和姿态的情感特征，多层次融合各个模态之间的信息，通过空间金字塔池化层进行特征降维，所需训练算力更少，情感识别率更高；通过使用深度置信网络融合各模态情感特征，融合了不同时间段的情感特征，无监督训练获得每种融合情感特征的权重，提高融合特征的非线性表达能力，加强了两个子网络之间的联系度，从而降低网络的复杂度。

参见图6，图6是本申请实施例提供的一种情感识别装置的结构示意图，如图6所示，情感识别装置600包括：

提取模块601，用于对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征；

第一融合模块602，用于将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征；

第二融合模块603，用于将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征；

分类模块604，用于对所述融合情感特征进行情感分类，得到情感识别结果；

可选地，所述第一融合模块包括：

第一融合单元，用于将所述表情模态特征作为值向量Value和键向量Key，以及所述姿态模态特征作为查询向量Query输入键稀疏Transformer结构进行融合，得到第一双模态特征；

第二融合单元，用于将所述表情模态特征作为Query，以及所述姿态模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第二双模态特征；

第三融合单元，用于将所述表情模态特征作为Value和Key，以及所述语音模态特征作为Query输入键稀疏Transformer结构进行融合，得到第三双模态特征；

第四融合单元，用于将所述表情模态特征作为Query，以及所述语音模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第四双模态特征；

第五融合单元，用于将所述姿态模态特征作为Value和Key，以及所述语音模态特征作为Query输入键稀疏Transformer结构进行融合，得到第五双模态特征；

第六融合单元，用于将所述姿态模态特征作为Query，以及所述语音模态特征作为Value和Key输入键稀疏Transformer结构进行融合，得到第六双模态特征；

可选地，所述装置还包括：

池化模块，用于依次将所述六组双模态特征输入空间金字塔池化层进行池化，得到所述六组双模态特征分别对应的多个特征矩阵；

加权模块，用于将所述六组双模态特征分别对应的多个特征矩阵输入空间注意力模块，得到所述六组双模态特征分别对应的多个加权后的特征矩阵；

连接模块，用于将所述六组双模态特征分别对应的多个加权后的特征矩阵进行扁平化连接，得到六组目标双模态特征；

所述第二融合模块包括：

第七融合单元，用于将所述六组目标双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征。

可选地，所述提取模块包括：

分解单元，用于将所述目标音视频分解为图像序列；

选取单元，用于基于图像序列中图像的相关性，从所述图像序列中选取N个图像，N为正整数；

截取单元，用于对所述N个图像进行截取，得到表情图像序列和动作图像序列，所述表情图像序列为所述表情模态特征，所述动作图像序列为所述姿态模态特征；

切割单元，用于对所述目标音视频中的目标音频进行切割，得到N-1个切割音频序列；

提取单元，用于对所述目标音频和所述N-1个切割后的音频进行语谱提取，得到所述语音模态特征，所述语音模态特征包括所述目标音频和所述N-1个切割后的音频对应的语谱图。

可选地，所述提取单元具体用于：

可选地，所述第二融合模块包括：

训练单元，用于将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征输入深度置信网络进行训练，得到所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征的权重；

第八融合单元，用于根据所述权重对所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征。

需要说明的是，本申请实施例提供的情感识别装置是能够执行上述情感识别方法的装置，则上述情感识别方法实施例中的所有实现方式均适用于该装置，且均能达到相同或相似的有益效果。为避免重复说明，本实施例不再赘述。

具体的，参见图7所示，本申请实施例还提供了一种电子设备，包括总线701、收发机702、天线703、总线接口704、处理器705和存储器706。

处理器705用于：

对所述融合情感特征进行情感分类，得到情感识别结果；

在图7中，总线架构(用总线701来代表)，总线701可以包括任意数量的互联的总线和桥，总线701将包括由处理器705代表的一个或多个处理器和存储器706代表的存储器的各种电路链接在一起。总线701还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口704在总线701和收发机702之间提供接口。收发机702可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器705处理的数据通过天线703在无线介质上进行传输，进一步，天线703还接收数据并将数据传送给处理器705。

处理器705负责管理总线701和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器706可以被用于存储处理器705在执行操作时所使用的数据。

可选地，处理器705可以是中央处理器(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)。

可选地，处理器705具体用于：

可选地，处理器705还用于：

处理器705具体用于：

可选地，处理器705具体用于：

将所述目标音视频分解为图像序列；

可选地，处理器705具体用于：

需要说明的是，本申请实施例提供的电子设备是能够执行上述情感识别方法的装置，则上述情感识别方法实施例中的所有实现方式均适用于该电子设备，且均能达到相同或相似的有益效果。为避免重复说明，本实施例不再赘述。

本申请实施例还提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现上述情感识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述情感识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例还提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现上述情感识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种情感识别方法，其特征在于，包括：

对所述融合情感特征进行情感分类，得到情感识别结果；

2.根据权利要求1所述的方法，其特征在于，所述将所述表情模态特征、所述语音模态特征和所述姿态模态特征进行两两交替融合，得到六组双模态特征，包括：

3.根据权利要求1所述的方法，其特征在于，在将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对目标音视频进行特征提取，得到表情模态特征、语音模态特征和姿态模态特征，包括：

将所述目标音视频分解为图像序列；

5.根据权利要求4所述的方法，其特征在于，所述对所述目标音频和所述N-1个切割后的音频进行语谱提取，得到所述语音模态特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述六组双模态特征、所述表情模态特征、所述语音模态特征和所述姿态模态特征进行融合，得到融合情感特征，包括：

7.一种情感识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的情感识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的情感识别方法的步骤。

10.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的情感识别方法的步骤。