CN114419509A

CN114419509A - 一种多模态情感分析方法、装置及电子设备

Info

Publication number: CN114419509A
Application number: CN202210081912.0A
Authority: CN
Inventors: 刘志中; 周斌; 孟令强; 初佃辉; 黄光玉
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-29
Anticipated expiration: 2042-01-24
Also published as: CN114419509B

Abstract

本申请实施例公开了一种多模态情感分析方法、装置及电子设备。该多模态情感分析方法能够基于目标视频的至少三个单模态数据通过特征级融合及决策级融合的混合融合策略进行情感分析，相较于单模态情感分析模型，融合多模态特征的情感分析方法更好地利用多种模态之间的交互信息以更有效地反映用户的真实情感，且通过结合混合融合策略进行情感分析能有效提高情感分析结果的准确性。

Description

一种多模态情感分析方法、装置及电子设备

技术领域

本申请涉及信息处理技术领域，特别是涉及一种多模态情感分析方法、装置及电子设备。

背景技术

随着科学技术的快速发展，许多社交网站应运而生，如微博、贴吧等，大量用户在社交网站以文本、音频、视频等多种方式来发表观点，海量社交媒体数据的形态不再局限于单一的文本模态，而是呈现为庞大的多样化的模态信息，如文本模态、视觉模态及语音模态等。近年来，基于单模态数据的情感分析方法在用户满意度分析、舆情监控等方面取得了丰富的成果，但这些方法不能有效处理多个模态数据，不能充分利用信息的多样性。

为了充分利用多个模态数据中蕴藏的信息，多模态情感分析(MultimodalSentiment Analysis)逐渐成为情感分析领域的研究热点。多模态情感分析是在单模态情感分析的基础上，从文本、图像或音频等数据中对用户观点、情感状态等进行挖掘的研究。多模态数据往往蕴含着更丰富的情感信息，通过对文本、音频和视频等多种模态数据进行信息挖掘并有效地融合利用，可以更好地指导分析减少分类错误，从而提高情感分析结果的准确性。这对于舆情监控、商品推荐和研究用户反馈等众多实际应用具有重大的应用价值。

多模态情感分析除了需要捕获单个模态的内部特征，还需要研究如何整合文本、语音、视频等多模态数据的特征，从中获得更加丰富、准确的多模态特征表示，提高多模态情感分析模型的有效性与鲁棒性。在多模态数据融合中，存在特征级融合(feature-levelfusion)与决策级融合(decision-level fusion)两种融合机制。特征级融合通常是将多种模态的特征向量进行拼接，形成融合的多模态特征向量，实现多模态信息的交互。决策级融合机制首先将每个模态的特征进行独立分析，将分析结果融合为决策向量以获得最终的决策结果。在决策级融合中，首先为每种模态建立不同的模型，然后通过平均、加权求和、多数投票或深度神经网络来组合它们的决策。决策级融合的优点是模块化程度较高，可以通过对输出层的微调，从预先训练的单模态模型中构建多模态模型。

上述的多模态情感分析方法通常在特定视图的动态建模方面有很强的能力，其性能也优于单模态模型。然而，该融合机制在跨模态建模方面存在不足，不能很好的捕捉多种模态之间的联系。

当然，目前也有研究混合融合类的情感分析模型。混合融合是特征级融合和决策级融合的结合，这种融合方法结合了特征级融合和决策级融合的优点。比如，Gunes等人结合视频中的面部表情和姿态提出一种基于视觉的多模态情感分析框架，从视频序列中自动识别面部表情和手势特征进行特征级融合，随后将分析结果用乘积和加权的方法进行决策级融合得到最终的识别结果。因此，已有的混合融合策略在进行特征级和决策级融合时，进行融合的模态较为单一，不能很好的学习多个模态数据之间的交互信息，情感分析结果准确率并不是很高。

因此，在进行情感分析时，如何有效提高多个模态数据之间的信息融合度以提高情感分析结果，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了一种多模态情感分析方法、装置及电子设备，能够有效提高多个模态数据之间的信息融合度以提高情感分析结果准确性。

本申请提供了如下方案：

第一方面，提供一种多模态情感分析方法，所述多模态情感分析方法包括：

基于任一目标视频在任一单位时间内的至少三个单模态数据分别获得相应的至少三个深度上下文特征；

基于所述至少三个深度上下文特征进行特征级融合以分别获得第一多模态特征及第二多模态特征；

对所述第一多模态特征及所述第二多模态特征进行决策级融合以获得所述任一目标视频在任一单位时间的目标情感类别。

在一种较佳的实施方式中，所述基于任一目标视频在任一单位时间内的至少三个单模态数据分别获得相应的至少三个深度上下文特征，包括：

分别提取任一目标视频的任一单位时间内的至少三个单模态数据；

基于所述至少三个单模态数据分别通过与当前单模态数据对应的BiGRU网络获得至少三个深度上下文特征；

将所述至少三个深度上下文特征通过全连接层均映射到相同的维度。

在一种较佳的实施方式中，基于所述至少三个深度上下文特征进行特征级融合以分别获得第一多模态特征及第二多模态特征，包括：

基于相同维度的所述至少三个深度上下文特征进行两两双模态注意力融合获得至少三个双模态特征；

基于所述至少三个双模态特征中的任一双模态特征，以及所述任一双模态特征所不包括的深度上下文特征，通过注意力融合获得第一多模态特征；

基于所述至少三个双模态特征以及所述至少三个深度上下文特征，通过拼接融合获得第二多模态特征。

在一种较佳的实施方式中，所述基于所述至少三个双模态特征中的任一双模态特征，以及所述任一双模态特征所不包括的深度上下文特征，通过注意力融合获得第一多模态特征，包括：

基于所述至少三个双模态特征中的任一双模态特征通过全连接层降维，以与所述任一双模态特征所不包括的深度上下文特征维度一致；

将降维后的所述至少三个双模态特征中的任一双模态特征与所述任一双模态特征所不包括的深度上下文特征的转置，通过矩阵乘积得到相应的三模态交互矩阵；

基于任意一个所述三模态交互矩阵及相应的双模态特征所不包括的深度上下文特征获得相应的三模态注意力矩阵；

基于任意一个三模态注意力矩阵及相应的双模态特征矩阵获得相应的三模态交互注意力矩阵；

基于所有所述三模态交互注意力矩阵拼接获得所述第一多模态特征。

在一种较佳的实施方式中，所述基于任意一个三模态交互矩阵及相应的双模态特征所不包括的深度上下文特征获得相应的三模态注意力矩阵，包括：

基于任意一个三模态交互矩阵，通过Softmax函数计算得到相应的三模态概率分布矩阵；

基于所述三模态概率分布矩阵及相应双模态特征所不包括的深度上下文特征，通过矩阵乘积得到相应的三模态注意力矩阵。

在一种较佳的实施方式中，所述基于任意一个三模态注意力矩阵及相应的双模态特征矩阵获得相应的三模态交互注意力矩阵，包括：

基于任意一个三模态注意力矩阵及相应的双模态特征矩阵通过哈达玛乘积操作获得相应的三模态交互注意力矩阵。

在一种较佳的实施方式中，所述基于所述至少三个双模态特征以及所述至少三个深度上下文特征，通过拼接融合获得第二多模态特征，包括：

将所述至少三个双模态特征进行拼接获得拼接后三模态特征；

将所述拼接后三模态特征降维并经注意力机制计算相应的注意力分布获得带注意力信息的三模态特征；

将所述带注意力信息的三模态特征与所述至少三个深度上下文特征拼接获得所述第二多模态特征。

在一种较佳的实施方式中，对所述第一多模态特征及所述第二多模态特征进行决策级融合以获得所述任一目标视频在任一单位时间的目标情感类别，包括：

基于预设分类器对所述第一多模态特征进行分类获得第一分类概率分数，基于预设分类器对所述第二多模态特征进行分类获得第二分类概率分数；

基于所述第一分类概率分数及所述第二分类概率分数进行决策融合获得目标决策级融合结果；

基于预设的决策及融合结果与情感类别的对应关系获得与所述目标决策级融合结果对应的所述任一目标视频在任一单位时间的目标情感类别。

第二方面，提供一种多模态情感分析装置，所述装置包括：

获取模块，用于基于任一目标视频在任一单位时间内的至少三个单模态数据分别获得相应的至少三个深度上下文特征；

第一融合模块，用于基于所述至少三个深度上下文特征进行特征级融合以分别获得第一多模态特征及第二多模态特征；

第二融合模块，用于对所述第一多模态特征及所述第二多模态特征进行决策级融合以获得所述任一目标视频在任一单位时间的目标情感类别。

第三方面，提供一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，本申请提出一种多模态情感分析方法、装置及电子设备，该多模态情感分析方法基于目标视频的至少三个单模态数据通过特征级融合及决策级融合的混合融合策略进行情感分析，较于单模态情感分析模型，融合多模态特征的情感分析模方法更好地利用多种模态之间的交互信息以更有效地反映用户的真实情感，且通过结合混合融合策略进行情感分析能有效提高情感分析结果的准确性；

通过本申请实施例，本申请提出的多模态情感分析方法通过采用的BiGRU网络所包括的两个方向的GRU来捕捉数据的上下文信息以获得深度上下文特征，从而提高数据量以进一步提高情感分析结果的准确性；

通过本申请实施例，本申请提出的多模态情感分析方法在特征级和决策级融合时对三种模态进行融合，并将注意力机制引入融合过程中，使多模态联合特征减少冗余信息，更准确地预测目标视频的情感。

当然，实施本申请的任一方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本申请实施例提供的方法流程图；

图2是本实施例提供的三模态注意力融合获得三模态交互注意力矩阵的示意图；

图3本申请实施例提供的装置结构图；

图4本申请实施例提供的系统的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例

参见图1，本实施例提供一种多模态情感分析方法，该方法包括如下步骤：

S1、基于任一目标视频在任一单位时间内的至少三个单模态数据分别获得相应的至少三个深度上下文特征。

具体地，步骤S1包括：

S11、分别提取任一目标视频的任一单位时间内的至少三个单模态数据。

本实施例对于单位时间长度不做限制，可以是预设视频帧，也可以为完整的目标视频。需要说明的是，本实施例中的至少三个单模态数据以同一时间轴为参考。

在具体的视频情感分析场景下，至少三个单模态数据(即单模态数据的原始特征)至少包括语音特征x^A、文本特征x^T、视觉特征x^V。为了便于描述，本实施例以仅研究该三个模态数据为例作示例性说明，但并不以此为限。

当然，本实施例分别通过不同的预设特征提取模型进行语音特征x^A、文本特征x^T、视觉特征x^V的特征提取。

需要说明的是，本实施例采用CMU-MOSI数据集或CMU-MOSEI数据集进行训练及验证以获得对本实施例涉及的所有模型。

示例性的，为了得到可靠的特征输入并高效地加载数据，对于CMU-MOSI数据集，本实施例使用CMU-MOSI数据集特征。其中，文本特征、视觉特征和语音特征分别用卷积神经网络、3D-CNN和OpenSMILE来提取。文本特征、语音特征和视觉特征的嵌入维度分别为100、100和73。对于CMU-MOSEI数据集，本实施例使用Poria等人提供的CMU-MOSEI数据集，该数据集中的文本特征由GloVe embedding提取，视觉特征由Facets提取，语音特征由CovaRep提取。

S12、基于所述至少三个单模态数据分别通过与当前单模态数据对应的BiGRU网络获得至少三个深度上下文特征。

BiGRU包含两个方向的GRU，正向GRU用来捕获数据的上文信息，反向GRU用来捕获数据的下文信息。鉴于BiGRU可以提取数据的上下文信息，本实施例选用BiGRU进行单模态数据深度上下文特征的提取。

具体地，语音数据x^A通过第一BiGRU网络获得第一深度上下文特征，文本数据x^T通过第二BiGRU网络获得第二深度上下文特征，视觉数据x^V通过第三BiGRU网络获得第三深度上下文特征。第一BiGRU网络、第二BiGRU网络与第三BiGRU网络可以相同或不同，本实施例不做限制。

当然，此处的第一BiGRU网络、第二BiGRU网络、第三BiGRU网络均指基于BiGRU网络训练获得的模型。

示例性的，本实施例在进行BiGRU网络相应模型训练时，可使用300个神经元或200个神经元的BiGRU网络进行。

S13、将所述至少三个深度上下文特征通过全连接层均映射到相同的维度。

在具体的多模态情感分析场景下，假设一段视频中有u个话语，三种单模态数据的原始特征分别表示为

BiGRU对单模态原始特征

进行编码，其中m∈{T,A,V}。设

表示文本、语音和视觉模态的第t个特征，

为单模态第t个特征的前向隐藏层状态，

为单模态第t个特征的反向隐藏层状态。BiGRU的隐藏层状态由前向隐藏层状态

和反向隐藏层状态

拼接得到。其中，

及

的计算公式如(1)-(3)所示：

其中，

表示拼接操作。

将文本、语音和视觉数据的原始特征x^Τ、

和x^V分别经过BiGRU编码后，得到完整视频序列的文本、语音和视觉模态深度上下文特征X^Τ、

和X^V。随后，将所得到的文本、语音和视觉深度上下文特征X^Τ、

和X^V输入全连接层，分别得到降维后的文本深度上下文特征T、降维后的视觉深度上下文特征V与降维后的语音深度上下文特征A(以下涉及的各深度上下文特征即指降维后结果，将不再强调降维)。以文本模态为例，提取降维后文本深度上下文特征的过程如公式(4)、(5)所示：

X^Τ＝BiGRU(x^Τ) (4)

T＝Dense(X^Τ) (5)

其中，

d表示全连接层的神经元个数。BiGRU(·)表示双向门控循环单元，Dense(·)表示全连接层。经同样的方法可以得到语音上下文特征

和视觉上下文特征

S2、基于至少三个深度上下文特征进行特征级融合以分别获得第一多模态特征及第二多模态特征。

特征级融合通常是将多种模态的特征向量进行拼接，形成融合的多模态特征向量，实现多模态信息的交互。

具体地，步骤S2包括：

S21、基于相同维度的所述至少三个深度上下文特征进行两两双模态注意力融合获得至少三个双模态特征。

本实施例采用的双模态注意力融合有助于捕获相邻模态之间的交互信息，并且能够关注交互信息中的重要信息。在实际应用场景下，为了捕捉双模态之间的交互信息，在获得单模态数据的深度上下文特征后，采用双模态注意力融合机制将文本-语音、语音-视觉、文本-视觉特征进行两两融合。

首先，考虑两个模态信息的交互，以文本-视觉模态为例，其计算如公式(6)所示；

其中，V和T表示从分别BiGRU网络中获取的视觉深度上下文特征矩阵和文本深度上下文特征矩阵，分别包含了文本和视觉模态的深度上下文信息。T^Τ表示文本深度上下文特征矩阵的转置，V^Τ表示视觉深度上下文特征矩阵的转置，

表示矩阵乘积操作。

在获得两个模态信息的交互矩阵后，使用Softmax函数来计算交互矩阵M₁与M₂中的概率分布分数，得到两个注意力分布矩阵

N₁和N₂的计算公式如(7)、(8)所示：

其中，N₁(i,j)表示文本模态的第i个特征和视觉模态的第j个特征的相关性分数，分数越高代表两个特征的相关性越强。

然后，将注意力分布矩阵N₁、N₂与文本上下文特征矩阵和视觉上下文特征矩阵分别进行矩阵乘积，得到注意力矩阵

接着，将注意力矩阵O₁、O₂分别与视觉上下文特征矩阵V和文本上下文特征矩阵T进行哈达玛乘积，得到交互注意力矩阵

最后，将交互注意力矩阵A₁和A₂通过拼接操作获得融合的文本-视觉双模态特征

其计算过程如公式(9)-(11)所示：

A₁＝O₁⊙V & A₂＝O₂⊙T (10)

其中，

表示矩阵乘积操作，

表示拼接操作,⊙表示哈达玛乘积操作，这种基于元素的矩阵乘法有利于关注多模态特征的重要信息。采用同样的方法可得到融合的文本-语音双模态特征BF_AT以及融合的视觉-语音双模态特征BF_VA。

S22、基于所述至少三个双模态特征中的任一双模态特征，以及所述任一双模态特征所不包括的深度上下文特征，通过注意力融合获得第一多模态特征。

进一步，步骤S22包括：

S22a、基于所述至少三个双模态特征中的任一双模态特征通过全连接层降维，以与所述任一双模态特征所不包括的深度上下文特征维度一致；

S22b、将降维后的所述至少三个双模态特征中的任一双模态特征与所述任一双模态特征所不包括的深度上下文特征的转置，通过矩阵乘积得到相应的三模态交互矩阵；

S22c、基于任意一个所述三模态交互矩阵及相应的双模态特征所不包括的深度上下文特征获得相应的三模态注意力矩阵；

在一种实施方式中，步骤S22c包括：

S22c1、基于任意一个三模态交互矩阵，通过Softmax函数计算得到相应的三模态概率分布矩阵；

S22c2、基于所述三模态概率分布矩阵及相应双模态特征所不包括的深度上下文特征，通过矩阵乘积得到相应的三模态注意力矩阵。

S22d、基于任意一个三模态注意力矩阵及相应的双模态特征矩阵获得相应的三模态交互注意力矩阵；

在一种实施方式中，步骤S22d包括：

S22d1、基于任意一个三模态注意力矩阵及相应的双模态特征矩阵通过哈达玛乘积操作获得相应的三模态交互注意力矩阵。

S22e、基于所有所述三模态交互注意力矩阵拼接获得所述第一多模态特征。

由于双模态注意力融合方法一次只能捕获两个模态之间的交互信息，为了捕获三个模态之间深层次的交互信息，本文在双模态注意力融合的基础上，本文提出了一种三模态注意力融合方法，该方法将捕获的双模态交互信息和其未包含的单模态特征信息进行融合，从而更好的捕获三种模态的深层交互信息。

首先，将双模态注意力融合后得到的双模态特征BF_VT，馈送至全连接层进行特征降维得到降维后的双模态特征

使其维度与单模态上下文特征的维度保持一致；然后，将降维后的双模态特征矩阵F_VT与语音上下文特征矩阵的转置A^Τ，通过矩阵乘积操作得到三模态交互矩阵

最后，利用Softmax函数计算三模态交互矩阵F_VTA中话语的概率分布分数，得到三模态概率分布矩阵

其计算过程如公式(12)-(14)所示：

F_VT＝Dense(BF_VT) (12)

F’_VTA＝Softmax(F_VTA)

其中，Dense(·)表示全连接层，

表示矩阵乘积操作。

为了获取三种模态之间的相关性和贡献度分配，本文将三模态概率分布矩阵F’_VTA与语音上下文特征A，通过矩阵乘积操作得到三模态注意力矩阵

然后，将三模态注意力矩阵P_VTA与双模态特征矩阵F_VT，通过哈达玛乘积操作得到三模态交互注意力矩阵

其计算过程如公式(15)、(16)所示：

P’_VTA＝P_VTA⊙F_VT (16)

其中，

表示矩阵乘积操作，⊙表示哈达玛乘积操作，三模态注意力融合过程如图2所示。

采用同样的方法，可以得到三模态交互注意力矩阵P’_ATV和P’_VAT；最后，将得到的三个三模态交互注意力矩阵P’_VTA、P’_ATV、P’_VAT进行拼接，得到最终的三模态特征

其计算过程如公式(17)所示：

其中，

表示拼接操作。

S23、基于所述至少三个双模态特征以及所述至少三个深度上下文特征，通过拼接融合获得第二多模态特征。

进一步，步骤S23包括：

S231、将所述至少三个双模态特征进行拼接获得拼接后三模态特征；

S232、将所述拼接后三模态特征降维并经注意力机制计算相应的注意力分布获得带注意力信息的三模态特征；

S233、将所述带注意力信息的三模态特征与所述至少三个深度上下文特征拼接获得所述第二多模态特征。

为了充分利用三模态数据中蕴藏的信息，本文将所有双模态特征和单模态特征输入拼接融合模块进行特征级融合。

在实际应用场景下，首先，将双模态注意力融合得到的三组双模态特征(视觉-文本特征、语音-文本特征和语音-视觉特征)进行拼接，得到拼接后的三模态特征

该特征中包含了所有的双模态特征信息；接着，将拼接得到的三模态特征B_VAT经过全连接层进行特征降维，得到降维后的三模态特征

然后，将降维后的三模态特征C_VAT经自注意力机制[36]计算其注意力分布，增强相关信息的交互，得到带有注意力信息的三模态特征

最后，将所有的单模态特征与带有注意力信息的三模态特征S_VAT进行拼接，得到另一组三模态特征

其计算过程如公式(18)-(21)所示：

C_VAT＝Dense(B_VAT) (19)

S_VAT＝SelfAttention(C_VAT) (20)

其中，

表示拼接操作，Dense(·)表示全连接层，SelfAttention(·)表示自注意力机制。

S3、对第一多模态特征及第二多模态特征进行决策级融合以获得任一目标视频在任一单位时间的目标情感类别。

具体地，步骤S3包括：

S31、基于预设分类器对所述第一多模态特征进行分类获得第一分类概率分数，基于预设分类器对所述第二多模态特征进行分类获得第二分类概率分数；

S32、基于所述第一分类概率分数及所述第二分类概率分数进行决策融合获得目标决策级融合结果；

S33、基于预设的决策及融合结果与情感类别的对应关系获得与所述目标决策级融合结果对应的所述任一目标视频在任一单位时间的目标情感类别。

决策级融合方法是一种高层次的融合，决策级融合是在每个模态独立预分类的基础上，通过对不同模态分类结果的融合得到最终的分类结果，它的优点是抗干扰性和容错性比较好，多个特征的错误通常是不相关的，不会因为一种特征的识别准确度不好，而导致整体的识别准确度下降，即不会造成错误结果的进一步累加。而决策级融合策略是实现决策级融合的关键。目前，已经存在多种决策级融合方法，包括加和、乘积、使用权重、最大/最小/中值、多数投票等。

由于不同的情感特征对情感状态的影响是有差别的，对情感的识别率也有所不同。示例性的，本实施例使用Maximum规则进行决策级融合。具体操作为：首先，使用softmax分类器对三模态注意力融合模块和拼接融合模块得到的两组三模态特征TF_VAT和CF_VAT进行单独分类，每个分类器的输出被视为一个分类分数。之后，从分类器中获得了两组三模态特征分类的概率分数。最后，采用Maximum规则对两组三模态特征分类结果进行决策级融合。其计算过程如公式(22)-(24)所示：

l₁＝Softmax(W₁×CF_VAT+b₁) (22)

l₂＝Softmax(W₂×TF_VAT+b₂) (23)

L＝Maximum(l₁,l₂) (24)

其中，l₁、l₂分别为两组三模态特征经Softmax分类器得到的分类概率分数，W₁、W₂,b₁、b₂为Softmax层的权重和偏置，L为分类的最终标签。

当然，该多模态情感分析方法还包括：预先构建多模态情感分析模型，本实施例对此不作具体描述。

综上所述，本实施例提供的多模态情感分析方法基于目标视频的至少三个单模态数据通过特征级融合及决策级融合的混合融合策略进行情感分析，较于单模态情感分析模型，融合多模态特征的情感分析模方法更好地利用多种模态之间的交互信息以更有效地反映用户的真实情感，且通过结合混合融合策略进行情感分析能有效提高情感分析结果的准确性；

通过本申请实施例，本申请提出的多模态情感分析方法通过采用的BiGRU网络所包括的两个方向的GRU来捕捉数据得上下文信息以获得深度上下文特征，从而提高数据量以进一步提高情感分析结果的准确性；

与上述的多模态情感分析方法相对应的，本实施例还提供一种多模态情感分析装置，参见图3，该装置具体可以包括：

具体地，获取模块包括：

提取单元，用于分别提取任一目标视频的任一单位时间内的至少三个单模态数据；

第一处理单元，用于基于所述至少三个单模态数据分别通过与当前单模态数据对应的BiGRU网络获得至少三个深度上下文特征；

降维单元，用于将所述至少三个深度上下文特征通过全连接层均映射到相同的维度。

第一融合模块包括：

第一融合单元，用于基于相同维度的所述至少三个深度上下文特征进行两两双模态注意力融合获得至少三个双模态特征；

第二融合单元，用于基于所述至少三个双模态特征中的任一双模态特征，以及所述任一双模态特征所不包括的深度上下文特征，通过注意力融合获得第一多模态特征；

第三融合单元，用于基于所述至少三个双模态特征以及所述至少三个深度上下文特征，通过拼接融合获得第二多模态特征。

进一步，第二融合单元包括：

第一处理子单元，用于基于所述至少三个双模态特征中的任一双模态特征通过全连接层降维，以与所述任一双模态特征所不包括的深度上下文特征维度一致；

第二处理子单元，用于将降维后的所述至少三个双模态特征中的任一双模态特征与所述任一双模态特征所不包括的深度上下文特征的转置，通过矩阵乘积得到相应的三模态交互矩阵；

第三处理子单元，用于基于任意一个所述三模态交互矩阵及相应的双模态特征所不包括的深度上下文特征获得相应的三模态注意力矩阵；

第四处理子单元，用于基于任意一个三模态注意力矩阵及相应的双模态特征矩阵获得相应的三模态交互注意力矩阵；

第五处理子单元，基于所有所述三模态交互注意力矩阵拼接获得所述第一多模态特征。

第三处理子单元具体用于：

第四处理子单元具体用于：

第五处理子单元具体用于：

第二融合模块包括：

第一处理单元，用于基于预设分类器对所述第一多模态特征进行分类获得第一分类概率分数，基于预设分类器对所述第二多模态特征进行分类获得第二分类概率分数；

第四融合单元，用于基于所述第一分类概率分数及所述第二分类概率分数进行决策融合获得目标决策级融合结果；

匹配单元，用于基于预设的决策及融合结果与情感类别的对应关系获得与所述目标决策级融合结果对应的所述任一目标视频在任一单位时间的目标情感类别。

关于实施例中多模态情感分析装置的未详述部分，可以参见前述多模态情感分析方法中的记载，这里不再赘述。

需要说明的是，上述实施例提供的多模态情感分析装置在触发多模态情感分析业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，本实施例提供的多模态情感分析装置与提供的多模态情感分析方法的实施例属于同一构思，即该装置是基于该方法的，其具体实现过程详见方法实施例，这里不再赘述。

另外本申请实施例还提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

其中，图4示例性的展示出了计算机系统1500的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CXU(Central Xrocessing Unit，中央处理器)、微处理器、应用专用集成电路(AXXlication SXecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)1522。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出设备，以实现信息输入及输出。输入/输出设备可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接网络设备(图中未示出)，以实现本设备与其他设备的通信交互。其中网络设备可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的数据下，即可以理解并实施。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多模态情感分析方法，其特征在于，所述分析方法包括：

2.如权利要求1所述的多模态情感分析方法，其特征在于，所述基于任一目标视频在任一单位时间内的至少三个单模态数据分别获得相应的至少三个深度上下文特征，包括：

3.如权利要求1所述的多模态情感分析方法，其特征在于，基于所述至少三个深度上下文特征进行特征级融合以分别获得第一多模态特征及第二多模态特征，包括：

4.如权利要求3所述的多模态情感分析方法，其特征在于，所述基于所述至少三个双模态特征中的任一双模态特征，以及所述任一双模态特征所不包括的深度上下文特征，通过注意力融合获得第一多模态特征，包括：

5.根据权利要求4所述的多模态情感分析方法，其特征在于，所述基于任意一个三模态交互矩阵及相应的双模态特征所不包括的深度上下文特征获得相应的三模态注意力矩阵，包括：

6.根据权利要求4所述的多模态情感分析方法，其特征在于，所述基于任意一个三模态注意力矩阵及相应的双模态特征矩阵获得相应的三模态交互注意力矩阵，包括：

7.根据权利要求3所述的多模态情感分析方法，其特征在于，所述基于所述至少三个双模态特征以及所述至少三个深度上下文特征，通过拼接融合获得第二多模态特征，包括：

8.如权利要求1所述的多模态情感分析方法，其特征在于，对所述第一多模态特征及所述第二多模态特征进行决策级融合以获得所述任一目标视频在任一单位时间的目标情感类别，包括：

9.一种多模态情感分析装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及