CN115858728A

CN115858728A - 一种基于多模态数据的情感分析方法

Info

Publication number: CN115858728A
Application number: CN202211537877.5A
Authority: CN
Inventors: 刘志中; 黄光玉; 孟令强; 孙宇航; 初佃辉
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-28

Abstract

一种基于多模态数据的情感分析方法，包括以下操作：将至少三种单模态数据进行单模态深度上下文特征提取处理，生成至少三种单模态深度上下文特征信息；将所述至少三种单模态深度上下文特征信息进行跨模态融合处理，生成至少六种跨模态特征信息；将所述至少六种跨模态特征信息进行双模态注意力机制融合处理，生成至少三种一级多模态特征信息；将所述至少三种一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；将所述二级多模态融合特征信息和三级多模态融合特征信息进行决策级融合处理，生成多模态情感分类结果。该方法能够兼顾模态信息之间的连贯性和交互性，获得的结果具有较高的准确度。

Description

一种基于多模态数据的情感分析方法

技术领域

本发明涉及数据处理技术领域，具体为一种基于多模态数据的情感分析方法。

背景技术

近年来，随着各种社交媒体和社交网络的流行，越来越多的用户使用包含文本、音频、图像在内的多模态数据(例如：发布在YouTube、Tik Tok等平台的视频、发布在Facebook的图片、文字评论等)在社交媒体上表达自己的看法或观点。大量的多模态数据中蕴含着丰富的情感信息，利用两个及两个以上模态数据预测情感信息的过程，称为多模态情感分析(Multimodal Sentiment Analysis，MSA)。多模态数据进行情感分析将有利于了解用户对某些事件的态度和看法，在舆论分析、商品推荐、抑郁症治疗反馈等方面具有很大的应用价值。此外，近年来的研究表明，与单模态情感分析模型相比，多模态情感分析模型在处理社交媒体情感数据时具有更强的鲁棒性，并在情感分析准确率方面取得了显著的改进。

随着机器学习在多模态情感分析领域中表现出强大的学习能力以及广泛应用，多模态情感分析取得了不错的研究成果。多模态情感分析除了需要充分挖掘每个模态内部的情感信息之外，其核心挑战是对多模态数据之间的交互融合进行建模。因为，不同模态数据之间通常包含补充信息，多模态数据交互融合能够学习到多模态数据之间的互补信息和重要性差异。

在多模态情感分析领域，传统的情感分析方法主要使用特征级融合方法和决策级融合方法对文本、音频和图像等多模态数据进行融合。目前，已经提出了大量的情感分析深度学习模型。例如：基于上下文感知的RNN模型(Recurrent Neural Networks，循环神经网络)能够有效地利用和捕获所有模态对话的上下文情感信息，使当前情感信息包含上下文信息，能够发现上下文信息对当前情感信息的影响，有效地分析当前的情感状态；MISA(Machine Intelligence Service Assistant，机器智能服务助理)的多模态情感分析框架，能把每个模态划分为两个不同的子空间用来学习模态表示，以帮助模态数据融合过程；张量融合网络模型中三次使用笛卡尔积分别对文本、图像、音频中的单模态、双模态、三模态特征进行建模，但其复杂度较高，不便于操作；一种门控多模态单元模型，该模型使用乘法门决定模态如何影响单元的激活；一种多模态注意网络，使用一种多模态聚焦机制，选择性融合三个模态信息。以上模型在多模态数据输入时直接将多模态特征向量进行拼接融合，忽略了不同模态特征之间的语义差异，没有建立起不同模态间的交互关系，并且存在较大噪声干扰。

近年来，基于注意力机制的多模态数据融合方法被广泛应用，其中最具代表性的模型是Transformer，该模型利用多头注意力机制来学习模态信息之间的依赖关系，并且可以实现并行化处理，能够有效地提高多模态机器学习模型的效率。现有技术当中将Transformer应用到多模态情感分析模型中，能够取得了较好的效果。现有技术已在基于Transformer的多模态情感分析模型上来融合不同模态特征，该方法在Transformer的基础上引入了模态强化单元，利用来自源模态的信息强化目标模态，从而实现异步序列的多模态融合。

在多模态情感分析中，现有技术往往很难考虑单模态内部特征的表示，也很难考虑到模态之间的交互，不能很好地兼顾模态之间人类情绪之间的连贯性和多模态情感数据之间的特征交互融合。

发明内容

本发明的目的是提供了一种基于多模态数据的情感分析方法，能够兼顾模态的连贯性和交互性，获得较为准确的多模态情感分类结果。

本发明技术方案如下：一种基于多模态数据的情感分析方法，包括以下操作：将至少三种单模态数据进行单模态深度上下文特征提取处理，生成至少三种单模态深度上下文特征信息；将所述至少三种单模态深度上下文特征信息进行跨模态融合处理，生成至少六种跨模态特征信息；将所述至少六种跨模态特征信息进行双模态注意力机制融合处理，生成至少三种一级多模态特征信息；将所述至少三种一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；将所述二级多模态融合特征信息和三级多模态融合特征信息进行决策级融合处理，生成多模态情感分类结果。

如上所述的一种基于多模态数据的情感分析方法，所述生成至少六种跨模态特征信息的操作中，具体包括：将任意一种所述至少三种单模态深度上下文特征信息作为目标模态信息，其他任意一种单模态深度上下文特征信息作为辅助模态信息，经Transformer的跨模态融合处理，得到所述至少六种跨模态特征信息。

其中，所述经Transformer的跨模态融合处理的过程中，Transformer的跨模态融合具体包括位置编码层处理、多头注意力机制层Ⅰ处理、残差连接和归一化层处理、前馈神经网络层处理和残差连接和归一化层Ⅱ处理；将所述目标模态信息和辅助模态信息进行位置编码层处理，得到位置信息；将所述位置信息进行多头注意力机制层处理，得到目标辅助模态特征信息；将所述目标模态信息和目标辅助模态特征信息进行残差连接和归一化层Ⅰ处理，得到目标辅助模态稳定信息；将所述目标辅助模态稳定信息进行前馈神经网络层处理，得到目标辅助模态增强信息；将所述目标辅助模态稳定信息和目标辅助模态增强信息进行残差连接和归一化层Ⅱ处理，得到所述跨模态特征信息。

如上所述的一种基于多模态数据的情感分析方法，所述生成至少三种一级多模态特征信息的操作中，具体包括：基于所述至少六种跨模态特征信息中，含有相同目标模态信息的至少两种跨模态特征信息，经双模态注意力机制融合处理，得到所述至少三种一级多模态特征信息。

其中，所述经双模态注意力机制融合处理的操作中，具体包括：将所述含有相同目标模态信息的至少两种跨模态特征信息的向量及其分别对应的转置向量进行矩阵乘积分别运算，得到至少两种匹配矩阵；将所述至少两种匹配矩阵进行Softmax函数计算，得到至少两种概率分布分数；将所述至少两种概率分布分数和跨模态特征信息进行矩阵乘积和哈达玛乘积依次运算，得到至少两种注意力矩阵；将所有所述注意力矩阵进行拼接融合，得到所述一级多模态特征信息。

如上所述的一种基于多模态数据的情感分析方法，所述生成二级多模态融合特征信息和三级多模态融合特征信息中，具体包括，将所有所述一级多模态特征信息进行拼接融合处理，得到所述二级多模态融合特征信息；将所述至少三种一级多模态特征信息中的任意两种一级多模态特征信息，以及所述任意两种一级多模态特征信息所不包括的单模态深度上下文特征信息进行拼接融合处理，得到至少三种次二级多模态融合特征信息，将所有所述次二级多模态融合特征信息进行拼接融合处理，得到所述三级多模态融合特征信息。

本发明还提供了一种基于多模态数据的情感分析装置，其特征在于，包括：单模态深度上下文特征提取模块，用于提取单模态深度上下文特征信息，生成单模态深度上下文特征信息；跨模态融合模块，用于将输入的所述单模态深度上下文特征信息进行跨模态融合处理，生成跨模态特征信息；双模态注意力机制融合模块，用于将输入的所述跨模态特征信息进行交互融合处理，生成一级多模态特征信息；拼接融合模块，用于将输入的所述一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；决策级融合模块，用于将输入的所述二级多模态融合特征信息和三级多模态融合特征信息进行决策级融合，生成多模态情感分类标签。

其中，所述跨模态融合模块包括位置编码层、多头注意力机制层、残差连接和归一化层Ⅰ、前馈神经网络层和残差连接和归一化层Ⅱ；位置编码层，用于将输入的所述目标模态信息和辅助模态信息进行位置编码层处理，生成所述位置信息；多头注意力机制层，用于将输入的所述位置信息进行多头注意力机制层处理，生成所述目标辅助模态特征信息；残差连接和归一化层Ⅰ，用于将输入的所述目标模态信息和目标辅助模态特征信息进行残差连接和归一化层Ⅰ处理，生成所述目标辅助模态稳定信息；前馈神经网络层，用于将输入的所述目标辅助模态稳定信息进行前馈神经网络层处理，生成所述目标辅助模态增强信息；残差连接和归一化层Ⅱ，用于将所述目标辅助模态稳定信息和目标辅助模态增强信息进行残差连接和归一化层Ⅱ处理，生成所述跨模态特征信息。

本发明还提供了一种基于多模态数据的情感分析设备，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现所述的一种基于多模态数据的情感分析方法。

本发明还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现所述的一种基于多模态数据的情感分析方法。

本发明的有益效果在于：

(1)本发明提供的一种基于多模态数据的情感分析方法，将至少三种单模态数据进行单模态深度上下文特征提取、跨模态融合、双模态注意力机制融合、拼接融合和决策级融合处理，能够在对模态数据信息的提取、强化、融合和分析的基础上，兼顾模态数据信息的连贯性和交互性，该情感分析方法具有较好的情感分析功能，最终获得的情感分类标签结果具有较高准确率和精确度，具有较好的情感分析价值。

(2)本发明提供的一种基于多模态数据的情感分析方法，基于BiGRU进行模态上下文信息提取，能够捕获单模态深度上下文特征信息之间的重要性差异，增强单模态深度上下文特征信息之间的连贯性和互补性，有助于提升情感分析的准确度。

(3)本发明提供的一种基于多模态数据的情感分析方法，将一种单模态深度上下文特征信息作为目标模态信息，其他任意一种单模态深度上下文特征信息作为辅助模态信息，将目标模态信息分别与不同的辅助模态信息，生成跨模态特征信息；通过基于Transformer跨模态交互融合模块进行交互融合，能够解决多模态情感数据之间交互融合的不足问题，增强模态间的关联性和互补性，捕获多模态数据之间的重要性差异，提高多模态情感分析方法的准确度。

(4)本发明提供的一种基于多模态数据的情感分析方法，使用双模态注意力机制融合模块融合跨模态特征信息，生成一级多模态特征信息；可以有效捕获不同跨模态特征信息之间的交互信息，并且能更多的关注不同跨模态特征信息包含的情感特征之间的重要情感信息，并减少冗余信息。

(5)本发明提供的一种基于多模态数据的情感分析方法，将两种一级多模态特征信息与它们所不包括一种单模态深度上下文特征信息进行融合，同时拼接融合模块处理所有一级多模态特征信息，通过拼接融合模块对不同模态特征信息进行拼接融合操作，充分考虑到不同模态特征信息之间的相关性和互补性，进一步加强了多模态特征信息之间的情感信息交互融合。

附图说明

通过阅读下文优选实施方式的详细描述，本申请的方案和优点对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1为实施例中分析方法的流程示意图；

图2为实施例中基于BiGRU与Transformer的多模态情感识别流程示意图；

图3为实施例中基于Transformer的跨模态融合模块示意图。

图4为实施例中分析装置的结构示意图。

图5为实施例中分析设备的结构示意图。

具体实施方式

下面将结合附图更详细地描述本公开的示例性实施方式。

实施例

本实施例提供一种基于多模态数据的情感分析方法，参见图1，包括：

S10、将至少三种单模态数据进行单模态深度上下文特征提取处理，生成至少三种单模态深度上下文特征信息；

S11、将所述至少三种单模态深度上下文特征信息进行跨模态融合处理，生成至少六种跨模态特征信息；

S12、将所述至少六种跨模态特征信息进行双模态注意力机制融合处理，生成至少三种一级多模态特征信息；

S13、将所述至少三种一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；

S14、将所述二级多模态融合特征信息和三级多模态融合特征信息进行决策级融合处理，生成多模态情感分类结果。

在本实施中，为快速获得多模态情感分类结果，本发明的申请人仅选取了三种单模态数据(文本单模态数据、图像单模态数据和音频单模态数据)进行分析，但并不代表本发明提供的分析方法不适用于超过三种的单模态数据分析。

基于以上三种单模态数据，本实施例提供的一种基于多模态数据的情感分析方法，具体操作为：

将三种单模态数据进行单模态深度上下文特征提取处理，生成三种单模态深度上下文特征信息；

将所述三种单模态深度上下文特征信息进行跨模态融合处理，生成六种跨模态特征信息；

将所述六种跨模态特征信息进行双模态注意力机制融合处理，生成三种一级多模态特征信息；

将所述三种一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；

将所述二级多模态融合特征信息和三级多模态融合特征信息进行决策级融合处理，生成多模态情感分类结果。

详细步骤为：

1、生成三种单模态深度上下文特征信息

本实施例选用三种不同的单模态数据，参见图2，分别为文本单模态数据T_R，图像单模态数据V_R和音频单模态数据A_R，为更好的关注单模态数据的上下文内容关系，更好的建模人类连续变化的情感状态，本实施例选用BiGRU的单模态深度上下文特征提取模块进行T_R、V_R和V_R的单模态深度上下文特征提取。

其中，BiGRU包含两个方向GRU，正向GRU用来捕获单模态数据的上文信息，反向GRU用来捕获单模态数据的下文信息。假设一段视频有u个话语片段，则三种单模态数据被表示为T_R∈R^u×300，V_R∈R^u×35，A_R∈R^u×74，计算公式如公式(1-3)所示：

其中，m∈{T_R，V_R，A_R}。以文本单模态数据为例，

是当前数据的输入，/>

是当前数据经过BiGRU的输出，/>

为文本单模态数据前向隐藏层状态的输出，/>

为文本单模态数据反向隐藏层状态的输出，w_t，v_t分别为/>

的对应权重，b_t表示t时刻隐藏层状态所对应的偏置。

具体的，为了捕获每个单模态数据的深度上下文特征信息，首先，将T_R，V_R，A_R分别输入到三个独立的BiGRU中；然后，经过Dense层，得到T∈R^u×d(文本单模态深度上下文特征信息)，V∈R^u×d(图像单模态深度上下文特征信息)，A∈R^u×d(音频单模态深度上下文特征信息)。

V′_R＝BiGRU(V_R) (4)

V＝Dense(V′_R) (5)

其中，d是Dense层的神经元个数，Dense()代表全连接层。以V_R为例，计算公式如公式(4)和公式(5)所示。V′_R表示V_R经过BiGRU提取后得到的次图像单模态深度上下文特征信息，将V′_R通过全连接层降维后得到图像单模态深度上下文特征信息V。类似的T，A也分别是经过全连接层降维后得到的文本单模态深度上下文特征信息和音频单模态深度上下文特征信息。

2、生成六种跨模态特征信息

传统的神经网络模型忽略了模态特征信息之间的交互融合，并且存在时效性低、产生过拟合等缺点，而Transformer具有多头注意力机制，能够实现模态特征信息之间的并行处理，使模型训练具备高时效性，而且，同时具备学习长距离依赖关系的能力，能够学习出整条序列的全局表征。且Transformer的跨模态融合处理的目的是实现不同单模态深度上下文特征信息的交互融合，增强模态间的关联性和互补性，捕获信息之间的重要性差异，提高分析方法的精度。

因此，在本实施例中，参见图3，本申请的发明人基于Transformer的跨模态融合模块对T、V、A三种单模态深度上下文特征信息进行跨模态融合处理。其中，Transformer的跨模态融合模块由位置编码层、多头注意力机制层、残差连接和归一化层Ⅰ、前馈神经网络层以及残差连接和归一化层Ⅱ组成。其中，残差连接和归一化层Ⅰ和残差连接和归一化层Ⅱ的功能设置相同，均为了在加快模型训练速度的基础上输出完整信息，所以我们在实施例当中不区分残差连接和归一化层Ⅰ和残差连接和归一化层Ⅱ，均用残差连接和归一化层表示。因此，跨模态融合处理包括位置编码层处理、多头注意力机制层处理、残差连接和归一化层处理以及前馈神经网络层处理。

在进行跨模态融合处理中，首先，将三种单模态深度上下文特征信息中的任意一个作为目标模态信息；然后，其他两个单模态深度上下文特征信息中的任意一个作为辅助模态信息；最后基于Transformer的跨模态融合模块进行跨模态融合处理，从而得到六种跨模态特征信息。

以T为目标模态信息，A为辅助模态信息为例，来阐述生成跨模态特征信息的过程。

首先，考虑到单模态深度上下文特征信息T和A的顺序关系，采用位置编码层分别构建T和A在序列中的相对或绝对位置，生成位置信息。其中，位置编码层用PE表示，PE与单模态深度上下文特征信息具有相同的维度，计算公式如公式(6)和公式(7)所示：

在PE中，pos表示单词在话语中的位置，当单词在偶数位置时，使用正弦编码，在奇数位置时，使用余弦编码。d表示PE的维度，i表示词向量中的位置维度，2i表示偶数的维度，2i+1表示奇数维度。

其次，将具有位置编码信息的位置信息放入多头注意力机制中执行并行处理。多头注意力机制由h个自注意力机制组成，能够同时对多个单模态深度上下文特征信息进行并行处理，自注意力机制计算公式如公式(8-10)所示：

在自注意力机制中，查询向量(Query)定义为

键向量(Key)定义为

值向量(Value)定义为/>

其中，/>

为T线性变换后计算查询向量的权重矩阵、/>

为A线性变换后计算键向量的权重矩阵、/>

为A线性变换后计算值向量的权重矩阵。

将经过h个自注意力机制后的位置信息进行拼接操作，并与权重矩阵W^o进行乘法操作，生成目标辅助模态特征信息。

多头注意力机制的计算过程如下：

Multihead(Q_T，K_A，V_A)＝Concat(head₁，.....，head_h)W^o (12)

在多头注意力机制中，Q_T为T的查询向量，K_A为A的键向量，V_A为A生成的值向量，

分别为T、A、A线性变换后计算查询向量、键向量、值向量的权重矩阵，W^o∈R^d×d为多头注意力机制中的线性变换权重矩阵，h表示自注意力头的个数，Concat操作为将h个自注意力机制进行拼接融合。

多头自注意力机制层可利用多个查询向量并行地计算输入信息中的多个情感信息。每个自注意力机制对输入情感信息的关注点不同，因此，多个自注意力机制会获取不同的情感特征信息。最后，再将这些自注意力机制进行拼接融合。

之后，将通过多头注意力机制得到的目标辅助模态特征信息，与目标模态信息(文本单模态深度上下文特征信息)通过残差连接和归一化层得到的目标辅助模态稳定信息Z_A→T，计算公式如公式(13)所示：

Z_A→T＝LayerNorm(T+Multihead(Q_T，K_A，V_A) (13)

在残差连接和归一化层中，为了避免梯度消失的问题，将T和Multihead(Q_T，K_A，V_A)进行残差连接，为了加快模型训练的速度，提高模型训练的稳定性，采用LayerNorm对残差连接结果进行归一化层操作。

然后，将Z_A→T输入到前馈神经网络中，从而得到目标辅助模态增强信息FFN(Z_A→T)。在前馈神经网络层中有两层，第一层的激活函数是ReLU，第二层是一个线性激活函数，输入和输出之间是不存在依赖关系的。前馈神经网络层的计算公式如公式(14)所示：

FFN(Z_A→T)＝max(0，Z_A→TW₁+b₁)W₂+b₂ (14)

在前馈神经网络层中，W₁，W₂为前馈层的权重矩阵，b₁，b₂为前馈层的偏置。多头注意力机制对复杂过程的拟合程度不够，所以可以通过前馈神经网络层来增强模态表达情感状态的能力。

最后，再将FFN(Z_A→T)和Z_A→T通过残差连接和归一化层可以得到以T为目标模态信息，A为辅助模态信息的跨模态特征信息X_A→T∈R^u×d，计算公式如公式(15)所示：

X_A→_T＝LayerNorm(Z_A→T+FFN(Z_A→T)) (15)

类似的，基于Transformer进行跨模态融合处理可以得到：以T为目标模态信息，V为辅助模态信息的跨模态特征信息X_V→T∈R^u×d；以V为目标模态信息，A为辅助模态信息的跨模态特征信息X_A→V∈R^u×d；以V为目标模态信息，T为辅助模态信息的跨模态特征信息x_T→V∈R^u×d；以A为目标模态信息，V为辅助模态信息的跨模态特征信息X_V→A∈R^u×d；以A为目标模态信息，T为辅助模态信息的跨模态特征信息X_T→A∈R^u×d。

3、生成三种一级多模态特征信息

为了使六种跨模态特征信息(X_A→T、X_V→T、X_A→V、X_T→V、X_V-→A和X_T→A)进行更好的信息融合，本实施例采取的方法是：将含有相同目标模态信息的两种跨模态特征信息经双模态注意力机制融合模块进行双模态注意力机制融合处理，以此得到最终的三种一级多模态特征信息。

以X_V→T和X_A→T进行双模态注意力机制融合处理为例，计算公式如公式(16-21)所示：

N₁＝soft max(M₁) (17)

N₂＝soft max(M₂) (18)

A₁＝O₁·X_V→T&A₂＝O₂·X_A→T (20)

Y_T＝concat(A₁，A₂) (21)

首先，将X_V→T和X_A→T跨模态特征信息分别通过矩阵乘积得到一对匹配矩阵M₁，M₂∈R^u×u。

其中，

是以T为目标模态信息，V为辅助模态信息交互融合的特征向量的转置向量，/>

是以T为目标模态信息，A为辅助模态信息交互融合的特征向量的转置向量。

接着，使用Softmax函数来计算M₁，M₂中的概率分布分数N₁，N₂；矩阵乘积运算N₁和X_A→T，以及M₁和X_V→T得到O₁，O₂；哈达玛乘积运算O₁和X_V→T，以及O₂和X_A→r，分别得到注意力矩阵A₁，A₂；拼接融合注意力矩阵A₁，A₂，获得以T为目标模态信息的一级多模态特征信息Y_T∈R^u ^×2d。

其中，concat()为拼接操作，

是矩阵乘积操作，·是哈达玛乘积操作(Hadamardproduct)，这种基于模态的矩阵乘法有利于关注多模态特征的重要信息，运用同样的方法可得到以A为目标模态信息的一级多模态特征信息Y_A∈R^u×2d，以V为目标模态信息的一级多模态特征信息Y_V∈R^u×2d。

双模态注意力机制融合模块可以有效捕获不同跨模态特征信息之间的交互信息，并且能更多的关注不同跨模态特征信息所包含的模态情感特征之间的重要情感信息，减少冗余信息。

4、生成二级多模态融合特征信息和三级多模态融合特征信息

在本实施例中，生成二级多模态融合特征信息的方法为：将所有一级多模态特征信息(Y_T，Y_A和Y_V)通过拼接融合模块进行拼接融合处理，得到二级多模态融合信息(TF_TAV)。

在本实施例中，生成三级多模态融合特征信息的方法为：将三种一级多模态特征信息(Y_T，Y_A和Y_V)中的任意两种一级多模态特征信息(Y_V，Y_T或Y_A，Y_T或Y_V，Y_A)，和未包含的一种单模态深度上下文特征信息(A或V或T)通过拼接融合模块进行拼接融合处理，得到次二级多模态特征信息(P_VTA或P_ATV或P_VAT)。最后，将所有次二级多模态特征信息(P_VTA和P_ATV和P_VAT)进行拼接融合得到三级多模态融合特征信息(CF_TAV)，计算公式如公式(22-26)所示：

TF_TAV＝Concat(Y_T，Y_A，Y_V) (22)

P_VTA＝Concat(Y_V，Y_T，A) (23)

P_ATV＝Concat(Y_A，Y_T，V) (24)

P_VAT＝Concat(Y_V，Y_A，T) (25)

CF_TAV＝Concat(P_VTA，P_ATV,P_VAT) (26)

其中，concat()是拼接融合操作，TF_TAV∈R^u×6d是Y_T，Y_A，Y_V经过拼接融合得到的二级多模态融合信息，P_VTA∈R^u×5d是Y_V，Y_T和A经过拼接融合得到一种次二级多模态特征信息，采用相同的拼接融合操作，可以得到另外两种次二级多模态特征信息P_ATV，P_VAT∈R^u×5d。最后，将P_ATV，P_VAT，P_VTA进行拼接操作得到三级多模态融合特征信息CF_TAV∈R^u×15d。

通过拼接融合模块对不同模态特征信息进行拼接融合操作，充分考虑到不同模态特征信息之间的相关性和互补性，加强多模态特征信息之间的情感信息交互融合，为决策级融合模块提供了有效的基础。

5、生成多模态情感分类结果

在本实施例中，本发明的申请人使用决策级融合模块对TF_TAV和CF_TAV进行决策级融合处理，得到最终的多模态情感分类结果。

决策级融合可使得每个多模态特征信息能够独立地进行预分类，最终的分类结果是基于不同模态的输出的融合。不同的情感特征对情感状态的影响是有差别的，对情感的准确率也会有所不同。

首先，分别对TF_TAV和CF_TAV分别用softmax函数进行情感分析，每个分类器的输出被视为一个情感分类分数。本实施例从分类器中获得了TF_TAV和CF_TAV的情感分类的概率分数。随后采用Maximum规则对TF_TAV和CF_TAV的情感分类结果进行决策级融合。计算公式如公式(27-29)所示：

l₁＝Soft max(W₁CF_TAV+b₁) (27)

l₂＝Soft max(W₂TFT_AV+b₂) (28)

L＝Maximum(l₁，l₂) (29)

其中，l₁、l₂分别为TF_TAV和CF_TAV经Softmax函数得到的分类概率分数，W,b为Softmax层的权重和偏置，L为最终的多模态情感分类结果。

决策级融合的抗干扰性能和容错性能比较好，多个情感特征的错误通常是不相关的，不会因为一种情感特征的识别准确度不好而导致整体的识别准确度下降，即不会造成错误结果的进一步累加。

以上，本发明公开的一种基于多模态数据的情感分析装置，参见图4，通过模型建立单模态深度上下文特征提取模块、跨模态融合模块、双模态注意力机制融合模块、拼接融合模块和决策级融合模块，执行了本发明公开的一种基于多模态数据的情感分析方法的全部步骤，该装置可单独设置在硬件中。

其中，跨模态融合模块由位置编码层、多头注意力机制层、残差连接和归一化层I、前馈神经网络层和残差连接和归一化层II组成，残差连接和归一化层I和残差连接和归一化层II相同。

另外，本发明公开的一种基于多模态数据的情感分析设备，参见图5，包括处理器和存储器，其中，处理器执行存储器中保存的计算机程序时实现上述实施例公开的一种基于多模态数据的情感分析方法。

同时，本发明还提供了一种计算机可读存储介质，用于存储计算机程序，其中，计算机程序被处理器执行时实现上述实施例公开的一种基于多模态数据的情感分析方法。

为验证本实施例提供的情感分析方法的可行性，本申请的发明人做了相关实验，基于CMU-MOSI数据集和CMU-MOSEI数据集做对比实验、模态消融实验和模块消融实验，来评估本申请提出的情感分析方法的效果。

1、实验设置

(1)选取数据集

为验证提本申请提出的方法的效果，分别在CMU-MOSI(CMU Multi-modalOpinion-level Sentiment Intensity)数据集和CMU-MOSEI(CMU Multi-modal OpinionSentiment and Emotion Intensity)数据集上进行方法效果检验。

其中CMU-MOSI数据集是多模态情感分析任务上的流行基准数据集。该数据集由许多YouTube视频博客或Vlog组成，CMU-MOSI数据集收集了89位演讲者的视频,演讲者在博客中陈述他们对某个话题的看法或意见，由2199个视频片段组成。每句话都有一个与之相对应的情感标签。本实施例采用了52段视频(1150个话语)作为训练集、10段视频(297个话语)作为验证集和31段视频(752个话语)作为测试集。

CMU-MOSEI数据集是目前最大的多模态情感分析数据集，涉及1000名不同的演讲者和250个不同的主题，涵盖了更广泛的主题。该数据集包含3228个视频和22676个话语。本实施例中采用了2250段视频(16216个话语)作为训练集，300段视频(1835个话语)作为验证集，678段视频(4625个话语)作为测试集。CMU-MOSEI标注方式与CMU-MOSI相同。CMU-MOSI数据集中的每个片段标记为积极情感或消极情感，而在CMU-MOSEI数据集中，情感标签是在-3到+3的连续范围内。然而，在本工作中，将CMU-MOSEI的标签投影到两分类中，其中值大于等于零时表示积极情感，值小于零时表示消极情感。

(2)特征提取

为了获取视频中的文本、音频和图像特征信息，采用卡内基梅隆大学提供的多模态数据分析工具CMU-Multimodal Data SDK进行提取。对于提取CMU-MOSEI数据集中的文本模态数据，首先，将视频中的每个话语进行转录，然后将其表示为Glove词向量，再输入至卷积神经网络中提取文本特征信息。图像特征信息由Facets2提取，音频特征信息由CpvaRep提取。关于文本、图像和音频的话语级特征信息的维度分别为300、35和74。

相比之下，对于MOSI数据集，分别用卷积神经网络、3D-CNN模型和OpenSMILE来提取文本、图像和音频特征。对于文本、图像和音频，话语级特征信息的维度分别为100、100和73。

(3)参数设置及评价标准

为检验本实施例提出的方法的效果，在CMU-MOSI和CMU-MOSEI数据集上进行了相关的实验。基于Tensorflow2.6版本后端支持的Keras深度学习架构。对于BiGRU，使用包含200个神经元的BiGRU来分别提取三种单模态数据，设置Dropout＝0.5。然后，将三种单模态深度上下文特征信息馈送入含有100个神经元组成的全连接层。利用全连接层，将三个单模态深度上下文特征信息映射到相同的维度。在全连接层使用Tanh激活函数并将Dropout设置为0.4，在分类层使用Softmax函数进行分类。经Softmax函数分类后馈送入决策级融合层进行决策融合，得到最终的情感分类结果。

训练时，分别选取交叉熵误差作为损失函数，采用Adam优化器来优化参数。训练批次大小为32，共进行50次迭代。为了验证本实施例提供的情感分析方法的有效性，我们在MOSI数据集和MOSEI数据集上评估情感分类的准确率(Acc)。为了衡量本实施例提供的情感分析方法的精确度，使用weighted average F1值(F1-score)作为分类评价指标，它通过与量化值的比较来粗略地估计本实施例提供的情感分析方法的效果。

2、对比实验

本实施例提供的情感分析方法，分别在CMU-MOSI数据集和CMU-MOSEI数据集上进行训练、测试，并选取了目前流行的几种多模态情感分析方法进行对比，实验结果如表1所示。

MISA：模态不变和特定的表示将要素投影到具有特殊限制的两个独立空间中。然后，在这些模态特征上完成融合。

MFM：为了增强模型捕捉模态内和模态间动态的稳健性，提出了针对多模式数据和标签的联合生成-判别目标的优化。

EF-LSTM：在单个特征向量中串联每个时间步的不同模式，并将其用作LSTM的输入。

Multilogue-Ne：该模型使用来自所有通道的信息来学习给定话语的多个状态向量，然后，运用双模态注意力机制，试图更好地捕捉所有可用模态之间的关系。

Self-MM：自监督多任务学习为每个通道分配一个带有自动生成标签的单模态训练任务，目的是调整梯度反向传播。

MMMU-BA：一种基于循环神经网络的多模态注意力框架，该框架利用上下文信息预测话语级情感。

MulT：提出了利用Transformer结构对多模态数据序列进行交互过程建模。

TCM-LSTM：提出一种时态卷积多模态LSTM模型，该模型以文本模态特征信息为主导，音频模态特征信息和图像模态特征信息为辅助，用LSTM从不同的角度学习跨模态信息。

RAVEN：对非言语子词序列的细粒度结构进行建模，并基于非言语线索动态移动词表示。

DFF-ATMF：提出了一种多特征融合和多模态融合的融合策略，以提高情感分析的准确性。

BTMEAM：本实施例提供的方法。

表1：CMU-MOSI和CMU-MOSEI数据集上的实验结果比较

表1中的实验结果显示，在MOSI数据集上，本实施例提供的情感分析方法的Acc值达到了82.58％，F1-Score值达到了82.56％，与其他模型提供的方法相比，准确率和F1-Score值都是最高的；在MOSEI数据集上，本实施例提供的情感分析方法的Acc值达到了85.01％，F1-Score值达到了84.89％，与其他模型提供的方法相比，Acc值和F1-Score值都是最高的；说明本实施例提供的情感分析方法所获得的结果具有较高的准确率和精确度。

3、模态消融实验

多模态情感数据相比于单模态情感数据包含更加丰富的情感信息，更能表现出用户的真实情感，为了探索本实施例提供的情感分析方法中不同模态的重要性差异和模态之间的相互作用，以及分析本实施例提供的情感分析方法中每个模块的对情感分析的影响，分别在CMU-MOSEI和CMU-MOSI数据集上进行了消融实验，实验结果参见表2。

单模态的消融实验：针对单模态特征信息的输入，首先，每个单模态数据经过BiGRU学习模态的上下文特征之后，输入全连接层中进行降维；然后，通过Transformer中的Encoder模块学习模态内不同特征之间的权重信息；最后，用Softmax函数进行情感分析。

双模态的消融实验：针对双模态特征信息的输入，首先，将两个不同的单模态数据经过BiGRU模块，生成单模态深度上下文特征信息；然后，分别以其中一个单模态深度上下文特征信息为目标模态，另一个单模态深度上下文特征信息为辅助模态通过基于Transformer的跨模态融合模块学习不同模态特征之间的交互作用，得到两组跨模态特征信息；其次，使用Softmax函数分别对两组跨模态特征信息进行情感分析；最后，将Softmax函数分类后的情感类别概率馈送入决策级融合层进行决策融合，得到最终的情感分类结果。

三模态的消融实验：针对三模态特征信息的输入，则使用本实施例提供的方法来处理。

表2：在CMU-MOSI和CMU-MOSEI数据集的模态消融实验结果

从CMU-MOSI和CMU-MOSEI两个数据集的单模态情感分析中显示，文本模态的情感分析的Acc值和F1-Score值都是最好的。这是因为文本模态所包含的情感特征更为显著，相较于音频和图像模态，文本模态情感信息中所包含的冗余信息更少，更有利于识别用户情感状态。从双模态的实验结果显示，音频模态和图像模态包含的情感特征信息存在较多的冗余信息和噪声干扰，而文本模态在情感分析中起主导作用。在融合三模态情感特征信息后，取得了最好的效果。

模态消融实验的结果表明，当三种模态情感特征信息用于情感分析时效果最优，这也充分说明了相对于单模态情感特征信息，融合和提取多模态情感特征信息能够更有效的识别用户的真实情感，即本实施例提供的情感分析方法能够更有效识别用户真实情感，具有较好的情感分析功能。

4、模块消融实验

本实施例提供的情感分析方法主要由四个模块组成：单模态深度上下文特征提取模块；跨模态融合模块；双模态注意力机制融合模块；决策级融合模块；实验中以本实施例提供的完整方法为基准进行如下的消融实验。实验结果参见表3。

BTMEAM—BG：首先，删除单模态深度上下文特征提取模块；然后，将三个模态的特征向量首先放入全连接层进行降维；然后，继续执行模型后面的操作步骤。

BTMEAM—Tf：首先，删除跨模态融合模块；然后，将经过全连接层之后的单模态特征信息组合成三组双模态特征信息；其次，在通过双模态注意力机制融合模块进行融合；最后，继续执行模型后面的操作步骤。

BTMEAM—Bi：首先，用拼接融合模块取代双模态注意力机制融合模块；然后，将跨模态融合模块得到的跨模态特征信息进行拼接融合；最后，继续执行模型后面的操作步骤。

BTMEAM—Dl：首先，将双模态注意力机制融合模块输出的三种一级多模态特征信息进行拼接融合成一个二级多模态融合特征信息；然后，用softmax函数对这个二级多模态融合特征信息进行情感分类，取代了决策级融合模块。

BTMEAM：以本实施例提供的完整方法进行操作。

表3：在CMU-MOSI和CMU-MOSEI数据集的模型消融实验结果

从表3显示的实验结果可知，在MOSI数据集和MOSEI数据集上，本实施例提供的情感分析方法的Acc值和F1-Score值均最高，说明通过使用单模态深度上下文特征提取模块、跨模态融合模块、双模态注意力机制融合模块和决策级融合模块对单模态数据进行提取、强化、融合和分析，最终得到的多模态情感分类标签结果具有高的情感分析参考价值。

在上述的实验当中，本实施例提供的情感分析方法实验结果均获得最好的Acc值和F1-Score值，表明了在多模态情感分析当中交互融合的必要性，同时，也证明了情感特征的连贯性和捕捉长期的模态特征依赖关系，能够有效提高情感分析的效果。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据的情感分析方法，其特征在于，包括以下操作：

将至少三种单模态数据进行单模态深度上下文特征提取处理，生成至少三种单模态深度上下文特征信息；

将所述至少三种单模态深度上下文特征信息进行跨模态融合处理，生成至少六种跨模态特征信息；

将所述至少六种跨模态特征信息进行双模态注意力机制融合处理，生成至少三种一级多模态特征信息；

将所述至少三种一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；

2.根据权利要求1所述的情感分析方法，其特征在于，所述生成至少六种跨模态特征信息的操作中，具体包括：

将任意一种所述至少三种单模态深度上下文特征信息作为目标模态信息，其他任意一种单模态深度上下文特征信息作为辅助模态信息，经Transformer的跨模态融合处理，得到所述至少六种跨模态特征信息。

3.根据权利要求2所述的情感分析方法，其特征在于，所述经Transformer的跨模态融合处理的过程中，Transformer的跨模态融合具体包括位置编码层处理、多头注意力机制层处理、残差连接和归一化层Ⅰ处理、前馈神经网络层处理和残差连接和归一化层Ⅱ处理；

将所述目标模态信息和辅助模态信息进行位置编码层处理，得到位置信息；

将所述位置信息进行多头注意力机制层处理，得到目标辅助模态特征信息；

将所述目标模态信息和目标辅助模态特征信息进行残差连接和归一化层Ⅰ处理，得到目标辅助模态稳定信息；

将所述目标辅助模态稳定信息进行前馈神经网络层处理，得到目标辅助模态增强信息；

将所述目标辅助模态稳定信息和目标辅助模态增强信息进行残差连接和归一化层Ⅱ处理，得到所述跨模态特征信息。

4.根据权利要求1所述的情感分析方法，其特征在于，所述生成至少三种一级多模态特征信息的操作中，具体包括：

基于所述至少六种跨模态特征信息中，含有相同目标模态信息的至少两种跨模态特征信息，经双模态注意力机制融合处理，得到所述至少三种一级多模态特征信息。

5.根据权利要求4所述的情感分析方法，其特征在于，所述经双模态注意力机制融合处理的操作中，具体包括：

将所述含有相同目标模态信息的至少两种跨模态特征信息的向量及其分别对应的转置向量进行矩阵乘积分别运算，得到至少两种匹配矩阵；

将所述至少两种匹配矩阵进行Softmax函数计算，得到至少两种概率分布分数；

将所述至少两种概率分布分数和跨模态特征信息进行矩阵乘积和哈达玛乘积依次运算，得到至少两种注意力矩阵；

将所有所述注意力矩阵进行拼接融合，得到所述一级多模态特征信息。

6.根据权利要求1所述的情感分析方法，其特征在于，将所述生成二级多模态融合特征信息和三级多模态融合特征信息中，具体包括，

将所有所述一级多模态特征信息进行拼接融合处理，得到所述二级多模态融合特征信息；

将所述至少三种一级多模态特征信息中的任意两种一级多模态特征信息，以及所述任意两种一级多模态特征信息所不包括的单模态深度上下文特征信息进行拼接融合处理，得到至少三种次二级多模态融合特征信息，将所有所述次二级多模态融合特征信息进行拼接融合处理，得到所述三级多模态融合特征信息。

7.一种基于多模态数据的情感分析装置，其特征在于，包括：

单模态深度上下文特征提取模块，用于提取单模态深度上下文特征信息，生成单模态深度上下文特征信息；

跨模态融合模块，用于将输入的所述单模态深度上下文特征信息进行跨模态融合处理，生成跨模态特征信息；

双模态注意力机制融合模块，用于将输入的所述跨模态特征信息进行交互融合处理，生成一级多模态特征信息；

拼接融合模块，用于将输入的所述一级多模态特征信息进行拼接融合处理，生成二级多模态融合特征信息和三级多模态融合特征信息；

决策级融合模块，用于将输入的所述二级多模态融合特征信息和三级多模态融合特征信息进行决策级融合，生成多模态情感分类标签。

8.根据权利要求7所述的情感分析装置，其特征在于，所述跨模态融合模块包括位置编码层、多头注意力机制层、残差连接和归一化层Ⅰ、前馈神经网络层和残差连接和归一化层Ⅱ；

位置编码层，用于将输入的所述目标模态信息和辅助模态信息进行位置编码层处理，生成所述位置信息；

多头注意力机制层，用于将输入的所述位置信息进行多头注意力机制层处理，生成所述目标辅助模态特征信息；

残差连接和归一化层Ⅰ，用于将输入的所述目标模态信息和目标辅助模态特征信息进行残差连接和归一化层Ⅰ处理，生成所述目标辅助模态稳定信息；

前馈神经网络层，用于将输入的所述目标辅助模态稳定信息进行前馈神经网络层处理，生成所述目标辅助模态增强信息；

残差连接和归一化层Ⅱ，用于将所述目标辅助模态稳定信息和目标辅助模态增强信息进行残差连接和归一化层Ⅱ处理，生成所述跨模态特征信息。

9.一种基于多模态数据的情感分析设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现所述权利要求1-6中任一项所述的一种基于多模态数据的情感分析方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1-6中任一项所述的一种基于多模态数据的情感分析方法。