CN116563751B

CN116563751B - 一种基于注意力机制的多模态情感分析方法及系统

Info

Publication number: CN116563751B
Application number: CN202310423904.4A
Authority: CN
Inventors: 吴珺; 郑欣丽; 袁子健; 王江鹏; 吴俊伟; 聂万宇
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2024-02-06
Anticipated expiration: 2043-04-19
Also published as: CN116563751A

Abstract

本发明提供一种基于注意力机制的多模态情感分析方法及系统，属于深度学习技术领域，包括：对多模态情感分析数据集合进行预处理，得到多模态数据向量；将多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；将多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；确定融合后多模态特征的情感极性，输出情感分析结果。本发明采用双层双向GRU模型能有效学习视频数据中的文本和音频的时序特征，具有结构简单、学习速度快以及连接的注意力层能更很好的提取重要特征的特点，且采用低秩张量融合模型能降低多模态数据维度，提升运算速率和判断准确率。

Description

一种基于注意力机制的多模态情感分析方法及系统

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于注意力机制的多模态情感分析方法及系统。

背景技术

人类对周遭事物的感知和交互是丰富多样的，是基于视觉、听觉、嗅觉、味觉和触觉等多种模式共同构成的，同样的，计算机对单模态特征的学习和研究已经不再满足现代科学的追求。随着科技的发展，人工智能领域的研究已经获得了优异的成果，并成功应用在自然语言处理、图像识别、推荐系统、目标检测等多个领域。

结合人工智能在不同领域的单模态学习算法和技术，学者们开启了对多模态融合方法的研究，由两种或两种以上模态组成的数据称之为多模态数据，常见的数据模态有文本、图片、音频、视频、混合数据等，多模态数据融合负责将多个模态的信息进行有效的整合，汲取不同模态的优点，完成对信息的整合。与单模态识别技术相比，多模态融合技术安全性更高、实用性更广、可靠性更高，多模态融合在情感分析领域也有着重要应用，面对互联网平台分享的庞大数据，文本不再能很好的反映人类的情感，视频、语音、图像等数据辅助着人们表达自己的情绪，也为计算机提供了更丰富的数据类型。

发明内容

本发明提供一种基于注意力机制的多模态情感分析方法及系统，用以解决现有技术中针对多模态情感的分析处理存在片面性和单一性的缺陷。

第一方面，本发明提供一种基于注意力机制的多模态情感分析方法，包括：

从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；

将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；

将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；

确定所述融合后多模态特征的情感极性，输出情感分析结果。

第二方面，本发明还提供一种基于注意力机制的多模态情感分析系统，包括：

输入模块，用于从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；

特征提取模块，用于将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；

特征融合模块，用于将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；

输出模块，用于确定所述融合后多模态特征的情感极性，输出情感分析结果。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于注意力机制的多模态情感分析方法。

本发明提供的基于注意力机制的多模态情感分析方法及系统，通过采用双层双向GRU模型能有效学习视频数据中的文本和音频的时序特征，具有结构简单、学习速度快以及连接的注意力层能更很好的提取重要特征的特点，且采用低秩张量融合模型能降低多模态数据维度，提升运算速率和判断准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于注意力机制的多模态情感分析方法的流程示意图；

图2是本发明提供的基于注意力机制的双层双向GRU多模态情感分析方法的网络结构图；

图3是本发明提供的用于特征提取的基于注意力机制的双层双向GRU网络结构图；

图4是本发明提供的用于特征融合低秩张量融合模型结构图；

图5是本发明提供的基于注意力机制的多模态情感分析系统的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对目前对于多模态情感分析中存在的局限，本发明提出一种新的基于注意力机制的多模态情感分析方法，旨在用特征提取技术和多模态融合技术来学习人类的情感极性，从文本的内容、音频的轻重缓急以及图像中人类的面部表情等特征来学习情感表达的方式，实现更高效快捷的情感分析方法。

图1是本发明实施例提供的基于注意力机制的多模态情感分析方法的流程示意图之一，如图1所示，包括：

步骤100：从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；

步骤200：将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；

步骤300：将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；

步骤400：确定所述融合后多模态特征的情感极性，输出情感分析结果。

本发明实施例通过对待分析视频数据中的多模态情感分析数据集合进行预处理，该数据类型包括文本、音频和图像，将预处理后的数据输入至基于注意力机制的双向双层GRU网络中，进行特征提取得到多模态特征向量，将各类型的多模态特征向量分别输入低秩张量融合模型中进行特征融合，并对齐三个模态向量，得到三维笛卡尔积模型，再将其映射回低维输出向量，对融合后的多模态特征进行分析，得到情感极性的输出，包括正向情感和负向情感。

具体地，如图2所示的网络结构图中，第一步是输入模块，将多模态情感数据集中的文本Text、音频Audio和图像Vision进行预处理后，输入至第二步特征提取模块的双层双向门控循环单元(Gate Recurrent Unit，GRU)网络(BiGRU)中，再分别进入两层的注意力模块(Attention_1和Attention_2)中，特别地，文本的注意力模块后还连接一个全连接层和对应的激活函数(FC+Gelu)，第三步进行特征融合，由特征融合模块中的低秩张量融合模型进行特征张量融合，得到融合后的多模态特征，第四步在输出模块中对融合后的多模态特征进行情感分类，得到情感分析输出结果。

本发明通过采用双层双向GRU模型能有效学习视频数据中的文本和音频的时序特征，具有结构简单、学习速度快以及连接的注意力层能更很好的提取重要特征的特点，且采用低秩张量融合模型能降低多模态数据维度，提升运算速率和判断准确率。

基于上述实施例，步骤100包括：

基于文本将所述待分析视频数据划分为多个段落，将所述文本中的每一段文字与所述多个段落的音频和图像分别进行对应，得到文本数据集、音频数据集和图像数据集；

对所述文本数据集进行截断或填补至预设文本长度，得到文本序列，采用预设词嵌入将所述文本序列编码为单词向量序列，得到预处理文本数据集；

对所述音频数据集进行增强和降噪，采用预设声学分析框架提取音频特征，得到预处理音频数据集；

对所述图像数据集进行增强和降噪，采用预设AI开源库提取视觉特征，得到预处理图像数据集；

利用预设对齐标注软件分别对所述预处理文本数据集、预处理音频数据集和预处理图像数据集进行单词粒度对齐，得到文本模态数据向量、音频模态数据向量和图像模态数据向量。

具体地，本发明实施例从待分析视频数据中获取多模态情感分析数据集合之后，对多模态情感分析数据集合进行预处理，具体包括：

首先以文本为基准将视频划分为段落，每一段文字对应该时段的音频和图像，得到由文本Text、音频Audio和图像Vision三种模态组成的多模态情感数据集。

然后对三种模态分别进行预处理操作，对文本数据进行截断或填补到50的长度，再使用300维的Glove进行词嵌入操作，将文本序列编码为单词向量序列；对音频数据进行增强和降噪，使用COVAREP声学分析框架提取音频特征；对图像数据进行增强和降噪，使用Facet1库为提取视觉特征。

最后使用P2FA进行单词对其，在单词粒度上对齐三种模态，得到文本模态的数据向量T＝(t₁,t₂,…,t_n)，n为文本模态向量长度；图像模态的数据向量A＝(a₁,a₂,…,a_m)，m为音频模态向量长度，图像模态的数据向量V＝(v₁,v₂,…,v_l)，l为图像模态向量长度。

基于上述实施例，步骤200包括：

将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层，得到文本特征向量；

将音频模态数据向量依次输入至双层双向GRU网络和注意力模块，得到音频特征向量；

将图像模态数据向量依次输入至双层双向GRU网络和注意力模块，得到图像特征向量。

其中，所述将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层，得到文本特征向量，包括：

通过堆叠GRU单元对所述文本模态数据向量进行更新和遗忘，得到文本正向隐藏层状态、文本负向隐藏层状态、文本正向输出和文本负向输出；

确定文本学习参数矩阵，将所述文本正向隐藏层状态、所述文本负向隐藏层状态、所述文本正向输出和所述文本负向输出输入至所述注意力模块的第一层注意力机制，通过激活函数得到第一层文本正向特征和第二层文本负向特征；

确定文本学习权重，将所述第一层文本正向特征和所述第二层文本负向特征输入至所述注意力模块的第二层注意力机制，得到第二层文本特征；

将所述第二层文本特征输入至所述全连接层和激活函数，得到所述文本特征向量。

其中，所述将音频模态数据向量依次输入至双层双向GRU网络和注意力模块，得到音频特征向量，包括：

通过堆叠GRU单元对所述音频模态数据向量进行更新和遗忘，得到音频正向隐藏层状态、音频负向隐藏层状态、音频正向输出和音频负向输出；

确定音频学习参数矩阵，将所述音频正向隐藏层状态、所述音频负向隐藏层状态、所述音频正向输出和所述音频负向输出输入至所述注意力模块的第一层注意力机制，通过激活函数得到第一层音频正向特征和第二层音频负向特征；

确定音频学习权重，将所述第一层音频正向特征和所述第二层音频负向特征输入至所述注意力模块的第二层注意力机制，得到所述音频特征向量。

其中，所述将图像模态数据向量依次输入至双层双向GRU网络和注意力模块，得到图像特征向量，包括：

通过堆叠GRU单元对所述图像模态数据向量进行更新和遗忘，得到图像正向隐藏层状态、图像负向隐藏层状态、图像正向输出和图像负向输出；

确定图像学习参数矩阵，将所述图像正向隐藏层状态、所述图像负向隐藏层状态、所述图像正向输出和所述图像负向输出输入至所述注意力模块的第一层注意力机制，通过激活函数得到第一层图像正向特征和第二层图像负向特征；

确定图像学习权重，将所述第一层图像正向特征和所述第二层图像负向特征输入至所述注意力模块的第二层注意力机制，得到所述图像特征向量。

具体地，将文本模态数据向量T＝(t₁,t₂,…,t_n)，音频A＝(a₁,a₂,…,a_m)和图像V＝(v₁,v₂,…,v_l)三种模态输入基于注意力机制的双向双层GRU网络中，进行特征抽取，如图3所示的用于特征提取的基于注意力机制的双层双向GRU网络结构图，上下两层均包含前向隐藏层和后向隐藏层，以T＝(t₁,t₂,…,t_n)为例，每个隐藏层中的单元cell对应处理T中的一个元素。

以文本模态数据向量为例，首先将文本向量T＝(t₁,t₂,…,t_n)输入双层双向GRU网络，在堆叠的GRU单元中进行更新和遗忘得到文本的正向隐藏层状态负向隐层状态h_t ^-，以及文本经过GRU的输出G_T＝(G_t1,G_t2,…,G_tn)，因为是双向GRU网络，输出G_T可以分为正向输出G_T ⁺和负向输出G_T ^-；

类似的，音频向量经过双层双向GRU网络得到正向隐藏层状态h_a ⁺，负向隐层状态h_a ^-，以及音频经过GRU的输出G_A＝(G_a1,G_a2,…,G_am)，图像向量经过双层双向GRU网络得到正向隐藏层状态h_v ⁺，负向隐层状态h_v ^-，以及图像经过GRU的输出G_V＝(G_v1,G_v2,…,G_vl)。

再将h_t ⁺、h_t ^-、G_T ⁺、和输入注意力模块中，经过第一层注意力机制Attention_1进行单模态特征融合，得到：

其中，是文本特征向量经过Attention_1得到的正向特征，/>是文本特征向量是经过Attention_1得到的负向特征，W_T是需要学习的参数矩阵，relu和tanh是激活函数。

将和/>输入第二层注意力机制Attention_2，得到：

其中，F_T是文本向量经过基于注意力机制的双层双向GRU模型得到的最终文本特征，θ_T是需要学习的权重；

类似的，音频特征G_A＝(G_a1,G_a2,…,G_a,)经过两层注意力机制，得到：

其中，是音频特征向量经过Attention_1得到的正向特征，/>是音频特征向量是经过Attention_1得到的负向特征，F_A是音频向量经过基于注意力机制的双层双向GRU模型得到的最终音频特征，θ_A是需要学习的权重；

类似的，图像特征G_V＝(G_v1,G_v2,…,G_vl)经过两层注意力机制，得到

其中，是图像特征向量经过Attention_1得到的正向特征，/>是图像特征向量是经过Attention_1得到的负向特征，F_V是图像向量经过基于注意力机制的双层双向GRU模型得到的最终图像特征，θ_V是需要学习的权重；

最终特征提取模块得到文本特征向量F_T＝(F_t1,F_t2,…,F_tn)、音频特征向量F_A＝(F_a1,F_a2,…,F_am)和图像特征向量F_V＝(F_v1,F_v2,…,F_vl)。

需要说明的是，在文本模态的注意力模块后单独添加一个全连接层FC，来降低文本特征的维度，其大小和F_T维度相同，并使用gelu作为激活函数。

基于上述实施例，步骤300包括：

分别在文本特征向量、音频特征向量和图像特征向量之后增加特征值为1的向量，得到文本特征、音频特征和图像特征；

将所述文本特征、所述音频特征和所述图像特征输入至所述低秩张量融合模型，得到多模态融合三维张量；

基于所述特征值为1的向量作为交点，由所述多模态融合三维张量构建三维笛卡尔积模型；

确定学习权重张量和偏移量，采用线性层函数计算所述三维笛卡尔积模型、所述学习权重张量和所述偏移量，得到线性层输出向量；

确定最小有效分解秩，基于所述最小有效分解秩对所述线性层输出向量进行分解，得到所述融合后多模态特征，所述融合后多模态特征包括文本模态权重张量、音频模态权重张量和图像模态权重张量。

具体地，将文本特征向量F_T＝(F_t1,F_t2,…,F_tn)，音频特征向量F_A＝(F_a1,F_a2,…,F_am)，图像特征向量F_V＝(F_v1,F_v2,…,F_vl)输入低秩张量融合模型(Low-rank MultimodalFusion，LMF)中，进行特征融合，如图4所示。

在每个模态特征后附加一个特征值为1的向量，用来存储不同模态间的信息交互，得到文本特征Z_T、音频特征Z_A和图像特征Z_V；

对三个模态以附加特征1为交点，构建一个三维笛卡尔积模型，得到：

其中，Z表示三个模态融合得到的三维张量；

将张量Z映射回一个低维向量空间，得到特征融合模块的输出h：

h＝g(Z；W，b)＝W·Z+b

其中，g()是线性层函数，h是由Z通过线性层产生的向量，W是需学习的权重张量，b是偏移量。

向量h可以分解为：

其中，r是使得分解有效的最小的秩，W_T是文本模态的权重张量，W_A是音频模态的权重张量，W_V是图像模态的权重张量，Z表示三个模态融合得到的三维张量，_T表示文本特征，Z_A表示音频特征，Z_V表示图像特征。

基于上述实施例，步骤400包括：

在所述低秩张量融合模型依次连接三个全连接层和一个决策层，所述三个全连接层的大小依次降低；

将所述融合后多模态特征输入至所述三个全连接层，得到输出单值；

将所述输出单值输入所述决策层，映射至样本空间，若确定所述输出单值大于等于0，则输出情感极性为正值，否则为负值。

具体地，本发明实施例将得到的向量h输入至分类模块中，经过三个全连接层减低维度，最后得到一个单值输出ρ，将ρ输入决策层中，映射到一个样本空间，当ρ≥0时，情感极性为正，ρ＜0时，情感极性为负。

本发明实施例采用L1 Loss损失函数和AdamW优化器作为网络的处理。

其中，MAE表示平方绝对误差，_i表示样本标签的情感值大小，表示预测值大小，n表示总的样本数。

特别地，本发明实施例使用公开数据集CMU-MOSI，该数据集是来自YouTube电影评论的93个观点视频的集合，每个视频由多个观点片段组成，每个片段都标注了范围为[-3,3]的情绪，其中-3表示高度负面，3表示高度正面。

下面对本发明提供的基于注意力机制的多模态情感分析系统进行描述，下文描述的基于注意力机制的多模态情感分析系统与上文描述的基于注意力机制的多模态情感分析方法可相互对应参照。

图5是本发明实施例提供的基于注意力机制的多模态情感分析系统的结构示意图，如图5所示，包括：输入模块51、特征提取模块52、特征融合模块53和输出模块54，其中：

输入模块51用于从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；特征提取模块52用于将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；特征融合模块53用于将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；输出模块54用于确定所述融合后多模态特征的情感极性，输出情感分析结果。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于注意力机制的多模态情感分析方法，该方法包括：从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；确定所述融合后多模态特征的情感极性，输出情感分析结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于注意力机制的多模态情感分析方法，该方法包括：从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；确定所述融合后多模态特征的情感极性，输出情感分析结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于注意力机制的多模态情感分析方法，该方法包括：从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量；将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量；将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征；确定所述融合后多模态特征的情感极性，输出情感分析结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于注意力机制的多模态情感分析方法，其特征在于，包括：

确定所述融合后多模态特征的情感极性，输出情感分析结果；

其中，所述将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取，得到多模态特征向量，包括：

将图像模态数据向量依次输入至双层双向GRU网络和注意力模块，得到图像特征向量；

2.根据权利要求1所述的基于注意力机制的多模态情感分析方法，其特征在于，所述从待分析视频数据中获取多模态情感分析数据集合，对所述多模态情感分析数据集合进行预处理，得到多模态数据向量，包括：

3.根据权利要求1所述的基于注意力机制的多模态情感分析方法，其特征在于，所述将音频模态数据向量依次输入至双层双向GRU网络和注意力模块，得到音频特征向量，包括：

4.根据权利要求1所述的基于注意力机制的多模态情感分析方法，其特征在于，所述将图像模态数据向量依次输入至双层双向GRU网络和注意力模块，得到图像特征向量，包括：

5.根据权利要求1所述的基于注意力机制的多模态情感分析方法，其特征在于，所述将所述多模态特征向量输入至低秩张量融合模型中进行特征融合，获得融合后多模态特征，包括：

6.根据权利要求1所述的基于注意力机制的多模态情感分析方法，其特征在于，所述确定所述融合后多模态特征的情感极性，输出情感分析结果，包括：

7.一种基于注意力机制的多模态情感分析系统，其特征在于，包括：

输出模块，用于确定所述融合后多模态特征的情感极性，输出情感分析结果；

其中，所述特征提取模块具体用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于注意力机制的多模态情感分析方法。