CN115544279A - 一种基于协同注意力的多模态情感分类方法及其应用 - Google Patents

一种基于协同注意力的多模态情感分类方法及其应用 Download PDF

Info

Publication number
CN115544279A
CN115544279A CN202211241308.6A CN202211241308A CN115544279A CN 115544279 A CN115544279 A CN 115544279A CN 202211241308 A CN202211241308 A CN 202211241308A CN 115544279 A CN115544279 A CN 115544279A
Authority
CN
China
Prior art keywords
modal
text
modulation
mode
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211241308.6A
Other languages
English (en)
Other versions
CN115544279B (zh
Inventor
师飘
胡敏
时雪峰
李泽中
任福继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202211241308.6A priority Critical patent/CN115544279B/zh
Publication of CN115544279A publication Critical patent/CN115544279A/zh
Application granted granted Critical
Publication of CN115544279B publication Critical patent/CN115544279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于协同注意力的多模态情感分类方法及其应用,包括:1获取多模态人物情感视频数据集,并进行预处理;2构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;4构建情感预测模块;5多模态情感的分类预测输出。本发明通过构建协同注意力模块,对文本引导的听觉特征和文本引导的视觉特征进行相关分析,促进非语言模态的情感表达,并在多模态门控网络的调整下,使得模态之间数据充分交互,符合人类对多模态情感的综合判断过程,最终提升情感判别的精度。

Description

一种基于协同注意力的多模态情感分类方法及其应用
技术领域
本发明涉及时序BiLSTM,BART预训练模型,Transformer注意力机制以及基于多模态协同调制的交互注意力机制。通过协同注意力、深度典型相关分析以及多模态门控机制,降低多模态语义鸿沟的影响,提高非语言模态的情感表达,实现多模态视频数据集(听觉,文本,视觉)的情感分类,属于多模态的情感计算领域。
背景技术
在5G大发展的当下,人们不再依赖于文字或图片进行信息的表达和传递,短视频成为了主流的信息载体,包含声音、视觉、听觉的小视频成为了人们情感的宣泄方式。这种多模态技术的应用,一方面帮助了用户更好地进行情感的表达和记录,另一方面促进了视频内容的精准理解。此类技术的应用,也为个性化平台提供更好地用户服务,提升用户体验和用户黏性,进而提高产品的竞争优势。多模态情感分析在全民小视频创作的浪潮下,具有重要的社会意义。情感判别的深入研究也为人机交互的发展奠定基础,并为机器人情感陪护、情感检测等方面具有重要的意义。因此为了促进模态之间的特征交互,弥合模态间的语义鸿沟,提高情感判别的精度,设计优良的网络模型进行多模态情感分析具有十分重要的意义。
但对于现有的多模态数据样本,多种模态类型的数据共享一个统一的标签,因此不同模态数据对于情感标签的贡献度是不同的。这就产生了不同模态之间的语义鸿沟,进而导致情感不确定性的表达,甚至是情感鸿沟的出现。因此使用单一模态进行情感的判别必然存在很大的局限性。人类在进行情感交流的过程中,是根据视觉、听觉和文本信息的共同决策进行判断,信息之间有主次,也有干扰偏移。现有技术并没有充分挖掘多模态的表示,以及模态信息之间的差异性和互补性,而这些均是多模态情感计算的重点研究内容。现有的多模态处理技术,较多使用基于早期融合或后期融合的多模态特征表达,或者是基于两者的混合方法,可以实现一定的情感判别效果。特征的表达对于多模态的情感判别是至关重要的环节,因此交互模态的特征提取也成为网络设计的关键。经典的基于Transformer算法的多模态情感研究,取得了较好的研究成果。但是并没有考虑不同模态的协同辅助关系,也没有对模态偏移进行很好的度量。经实验以及大量文献调研得知,文本的情感表达是最强烈和多模态标签的关系也是最为紧密的。但是现有研究没有充分运用文本模态深层辅助视觉和听觉模态的特征学习,因此无法获取更有情感表达能力的非语言特征。现有技术也没有将不同模态之间的辅助约束关系考虑到网络的设计中去,不符合人类对于情感判别的一般过程,且不同模态数据对于整体模型的贡献也没有考虑进去,最终导致多模态的情感检测效果较差。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于协同注意力的多模态情感分类方法及其应用,以期采用深度典型相关分析和门控机制,深入分析模态之间的交互关系,计算模态之间的偏移量,以有效降低模态之间的语义鸿沟,并显著提高情感判别的精度,从而有利于人工智能对于人类情感的解读,进而提升人机交互领域的用户体验。
本发明为解决技术问题采用如下技术方案:
本发明一种基于协同注意力的多模态情感分类方法的特点在于,是按如下步骤进行:
步骤1、获取多模态人物情感视频数据集,将其中一段多模态数据集的真实标签记为y,并将该段多模态数据集中的听觉模态序列样本记为Ua,视觉模态序列样本记为Uv,文本模态序列样本记为Ut
将所述视觉模态序列样本Uv输入可堆叠的双向BiLSTM网络进行预处理,输出视觉模态的初始表达特征Rv
将所述听觉模态序列样本Ua使用wav2vec 2.0模型进行预处理,输出听觉模态的初始表达特征Ra
使用Prompt提示学习的方法对所述文本模态序列样本Ut进行预处理,得到文本模态提示序列样本U′t,再将U′t输入至BART预训练模型中进行处理,输出文本模态的初始表达特征Rt
将视觉模态的初始表达特征Rv、听觉模态的初始表达特征Ra和文本模态的初始表达特征Rt中任意一个初始表达特征记为Rs,s∈{a,v,t};
步骤2、构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;
步骤2.1、所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE构成;
步骤2.1.1、第j层的文本引导的协同注意力模块TCAj利用式(1)对视觉模态的初始表达特征Rv或听觉模态的初始表达特征Ra以及文本模态的初始表达特征Rt进行处理,得到文本协同注意力Xj t→f
Figure BDA0003884339850000031
式(1)中,Rf代表视觉模态的初始表达特征Rv和听觉模态的初始表达特征Ra中的任意一个初始表达特征,TCAj(·)表示文本引导的协同注意力模块TCAj所做的操作;
步骤2.1.2、第j层的模态内的自注意力模块ITEj利用式(2)对同一种初始表达特征Rs,s∈{a,v,t}进行处理,得到模态内自注意力
Figure BDA0003884339850000032
Figure BDA0003884339850000033
式(2)中,ITEj(·)表示ITEj模块所做的操作;
步骤2.2、使用跨模态调制网络获取多模态调制特征;
步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(2)对初始表达特征Rt进行处理,得到第J层模态内的自注意力模块ITEJ输出的文本模态调制特征
Figure BDA0003884339850000034
并简记为Mt
步骤2.2.2、第j层的模态内的自注意力模块ITEj根据式(2)对初始表达特征Rf进行处理,得到模态内自注意力
Figure BDA0003884339850000035
再由第j层的文本引导的协同注意力模块TCAj利用式(3)对
Figure BDA0003884339850000036
和Mt进行处理,得到文本增强模态的输出特征
Figure BDA0003884339850000037
从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后,得到第J层文本引导的协同注意力模块TCAJ输出的文本逐级指导下的模态调制特征
Figure BDA0003884339850000038
并简记为Mf
Figure BDA0003884339850000039
式(3)中,Mf代表文本指导下的听觉模态调制特征Ma和文本指导下的视觉模态调制特征Mv的任意一个模态调制特征;
步骤2.4、计算跨模态调制网络的阶段损失;
将跨模态调制网络中输出Ma的听觉网络分支记为fa,将跨模态调制网络中输出Mv的视觉网络分支记为fv,令Wv和Wa分别表示所述视觉网络分支fv和听觉网络分支fa的权重参数,令
Figure BDA00038843398500000310
Figure BDA00038843398500000311
分别表示视觉模态和听觉模态的仿射变换向量,利用(4)求解最大关联的子空间,得到最优参数
Figure BDA0003884339850000041
Figure BDA0003884339850000042
式(4)中,corr(·)表示求解变量的相关系数,
Figure BDA0003884339850000043
表示
Figure BDA0003884339850000044
的转置,
Figure BDA0003884339850000045
表示
Figure BDA0003884339850000046
的转置,
Figure BDA0003884339850000047
表示最优视觉模态的仿射变换向量,
Figure BDA0003884339850000048
表示最优听觉模态的仿射变换向量,
Figure BDA0003884339850000049
表示所述视觉网络分支fv的最优权重参数,
Figure BDA00038843398500000410
表示听觉网络分支fa的最优权重参数;
利用式(5)建立模态相关损失函数LTCCA
Figure BDA00038843398500000411
步骤3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;
步骤3.1、以文本模态调制特征Mt作为引导调制向量,听觉模态调制特征Ma和视觉模态调制特征Mv作为被引导调制向量,使用多模态门控网络,获取最终文本引导的门控调制模态表达向量Ft
步骤3.1.1、所述多模态门控网络使用式(6)和式(7)计算引导向量和被引导调制向量所产生的视觉模态门控向量Gv和听觉模态门控向量Ga
Figure BDA00038843398500000412
Figure BDA00038843398500000413
式(6)和式(7)中,
Figure BDA00038843398500000414
表示矩阵乘法操作,
Figure BDA00038843398500000415
表示Mt的转置,Wgv和Wga分别表示视觉模态和听觉模态门控操作的权重矩阵,bv和ba分别表示视觉模态和听觉模态的偏置向量,σ(·)表示sigmoid函数;
步骤3.1.2、所述多模态门控网络利用式(8)计算视觉和听觉模态相对于文本模态的偏移向量St
St=Gv⊙(WtvMv)+Ga⊙(WtaMa)+bt (8)
式(8)中,Wtv为视觉模态相对于文本模态的权重矩阵,Wta为听觉模态相对于文本模态的权重矩阵,⊙表示Hadamard乘积,bt为文本模态的偏置向量;
步骤3.1.3、所述多模态门控网络利用式(9)获取最终文本引导的门控调制模态表达向量Ft
Ft=Mt+δSt (9)
式(9)中,δ表示比例因子,且
Figure BDA0003884339850000051
||·||2表示对应向量的欧几里得范数,
Figure BDA0003884339850000052
为超参数;
步骤3.2、以视觉模态特征Mv作为引导调制向量,Ma和Mt作为被引导调制向量,按照式(6)-式(9)的过程,获得最终视觉引导的门控调制模态表达向量Fv
步骤3.3、以听觉模态特征Ma作为引导调制向量,Mv和Mt作为被引导调制向量,按照式(6)-式(9)的过程,获得最终听觉引导的门控调制模态表达向量Fa
步骤4构建情感预测模块;
步骤4.1、所述情感预测模块将多模态的门控调制模态表达向量{Fs|s=a,v,t}进行向量拼接得到多模态融合特征F=[Fa;Fv;Ft];
步骤4.2、所述情感预测模块将多模态融合特征F输入至带有注意力机制的全连接模块,从而利用式(10)得到中间融合特征F′:
Figure BDA0003884339850000053
式(10)中,GELU为激活函数,
Figure BDA0003884339850000054
Figure BDA0003884339850000055
分别表示多模态融合过程中第一个和第二个线性变换的权重矩阵,
Figure BDA0003884339850000056
Figure BDA0003884339850000057
表示两个线性变换的偏置向量,SE(·)表示挤压和激励的注意力机制操作;
所述情感预测模块使用式(11)对多模态情感进行深层预测得到一段多模态数据集的预测标签
Figure BDA0003884339850000058
Figure BDA0003884339850000059
式(11)中,
Figure BDA00038843398500000510
表示多模态融合过程中最后一个线性变换的权重矩阵,
Figure BDA00038843398500000511
表示第三个线性变换的偏置向量;
步骤4.3、使用式(12)构建总损失函数Loss:
Figure BDA00038843398500000512
式(12)中,α和β为超参数;LCE表示交叉熵损失;
步骤5多模态情感的分类预测输出;
基于多模态人物情感视频数据集,利用梯度下降法对所述跨模态调制网络、多模态门控网络和情感预测模块进行训练,并计算总损失函数Loss,当训练迭代次数达到设定的次数时,训练停止,从而得到最优的多模态情感分类模型,用于对未知的多模态数据的情感类别进行识别。
本发明所述的一种基于协同注意力的多模态情感分类方法的特点也在于,所述步骤2.1.1包括:
所述第j层的文本引导的协同注意力模块TCAj由第j个多头注意力部分MH-ATTj以及第j个门控线性单元GLUj构成,j=1,2,…,J;
第j个多头注意力部分MH-ATTj按照式(13)对初始表达特征Rs,s∈{a,v,t}进行处理得到对应的第j个查询向量
Figure BDA0003884339850000061
第j个关键词向量
Figure BDA0003884339850000062
以及第j个值向量Vt j,从而利用式(14)得到第j层多头注意力Mj
Figure BDA0003884339850000063
式(13)中,
Figure BDA0003884339850000064
表示第j个多头注意力部分MH-ATTj的线性变换的参数矩阵;
Figure BDA0003884339850000065
式(14)中,MH-ATTj(·)表示多头注意力函数;
所述第j个门控线性单元GLUj利用式(15)对Mj进行残差处理后得到中间特征
Figure BDA0003884339850000066
再利用式(16)得到文本协同注意力Xj t→f
Figure BDA0003884339850000067
式(15)中,LN(·)表示层归一化处理操作;
Figure BDA0003884339850000068
式(16)中,GELU为激活函数,⊙表示Hadamard乘积,W1 j
Figure BDA0003884339850000069
Figure BDA00038843398500000610
分别表示第j个门控线性单元GLUj的三个线性变换的权重矩阵,
Figure BDA00038843398500000611
Figure BDA00038843398500000612
表示三个线性变换的偏置向量。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述多模态情感分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述多模态情感分类方法的步骤。
与已有技术相比,本发明的有益效果在于:
1、本发明针对多模态数据之间存在的异质性间隙和模态融合问题,提出了一个新的研究思路:首先使用基于协同注意力的跨模态调制网络将特征提取和数据有机融合为一体,提高了方法的处理效率。同时使用深度典型相关分析,计算模态特征之间的关联性,并将特征映射到新的空间,使得后期分类器能够更容易找到分类超平面,最后使用多模态门控机制,进一步弥合模态间的语义鸿沟,提升了情感判别的精度,促进了人机交互的发展。
2、本发明构建了一个基于Transformer结构的协同注意力模块,首先使用门控线性单元GLU替代原始FFN全连接操作,有效降低了网络深层的噪声干扰,然后结合多头注意力机制MH-ATT进行交替堆叠而成。且本发明所提出的协同注意力模块,基于文本分析算法具有更深厚的研究历史,且包含更多与情绪相关的信息,视觉和听觉信息相比文本信息,具有更大可能混淆情感的判别。因此在文本模态的参与下,通过对非文本特征进行逐级协同指导的方法,实现了跨模态特征的深层交互,促进了非语言特征的情感表达能力,也增加了文本信息的丰富度,以及最终提高了多模态情感判别的精度。
3、不同于经典CCA(Canonical CorrelationAnalysis)和DCCA(Deep CanonicalCorrelation Analysis)算法,本发明所提的TCCA是基于Transformer的CCA方法的新架构。针对本发明文本指导下的听觉特征和文本指导下的视觉特征,提取了深层非线性特征之后,使用TCCA相关分析,最大化模态间的相关性,最小化模态内的散布信息。TCCA方法相比于DCCA中所用卷积方法,TCCA所得特征拟合能力更强,相比CCA可以更好地去除不同模态的噪声干扰。
4、针对多模态融合的核心问题,即异质性间隙问题,本发明提出多模态门控机制,利用矩阵相乘,求解模态映射向量,衡量模态相似度。不仅计算语言模态和非语言模态之间的偏移,同时计算其中视觉和听觉模态相对于其他两个模态之间的偏移向量,并使用权重融合引导调制向量和偏移向量。全面度量了模态之间的距离,进一步降低了模态鸿沟的影响。这种动态的融合机制,也符合人类对于多模态数据处理的判断过程,提高了情感分析的精度。
5、与现有的多模态情感检测方法不同,本发明方法使用新颖的BART文本预训练模型,且加入PromptLearning提示学习的方法,将人为的规则加入预训练模型,使模型可以更好地理解人的指令,也更充分地运用到预训练模型中丰富的语言知识,促进了情感分类模型的学习。此模型相比较BERT的优势是对噪声的适应性强,是对兼具了上下文语境信息和自回归特性的transformer模型的拓展,BART吸收了BERT的双向encoder和GPT的从左至右的decoder特征,因此模型具有更好的鲁棒性,最终可提高情感判别的精度。
附图说明
图1为本发明整体结构流程图;
图2为本发明中基于协同注意力的跨模态调制网络结构图;
图3本发明算法使用t-SNE可视化聚类效果示例图;
图4为本发明中文本引导的协同注意力TCA模块展开结构图;
图5为本发明中多模态门控网络示例结构图;
图6为本发明中模态调制与门控偏移的向量空间示意图。
具体实施方式
本实施例中,一种基于协同注意力的多模态情感分类方法,深入分析了模态之间的辅助关联,通过构建协同注意力模块,对文本引导的听觉特征和文本引导的视觉特征进行相关分析,寻找模态之间的偏移量,有效降低了模态之间的语义鸿沟,促进非语言模态的情感表达,并在多模态门控网络的调整下,使得模态之间数据充分交互,符合人类对多模态情感的综合判断过程,最终提升情感判别的精度;该方法的整理流程如图1所示,其步骤包括:首先经过模块1,获取多模态数据集,并进行预处理;然后构建模块2,基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;再经过模块3,多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;最后构建模块4,情感预测模块并输出多模态情感的分类预测结果。具体来说,该方法是按如下步骤进行:
步骤1、获取多模态人物情感视频数据集,本实施例中,使用的是CMU-MOSI,CMU-MOSEI以及IEMOCAP数据集,研究所包含的CMU数据来自于真实环境的YouTube网站,而IEMOCAP采集自实验室环境,不同的数据来源也是为了更充分全面地验证本发明;将其中一段多模态数据集的真实标签记为y,并将此段多模态数据集中的听觉模态序列样本记为Ua,视觉模态序列样本记为Uv,文本模态序列样本记为Ut
如图1中的模块1所示,将视觉模态序列样本Uv输入可堆叠的双向BiLSTM网络进行预处理,输出视觉模态的初始表达特征Rv
将听觉模态序列样本Ua使用wav2vec 2.0模型进行预处理,输出听觉模态的初始表达特征Ra
使用Prompt提示学习的方法对文本模态序列样本Ut进行预处理,在原始文本序列中加入提示词“this emotionpolarity is”,得到文本模态提示序列样本U′t=[Ut,this,emotion,polarity,is,<Lable>],其中<Lable>表示对应文本的情感分类,再将U′t输入至BART预训练模型中进行处理,输出文本模态的初始表达特征Rt
将视觉模态的初始表达特征Rv、听觉模态的初始表达特征Ra和文本模态的初始表达特征Rt中任意一个初始表达特征记为Rs,s∈{a,v,t};
步骤2、构建基于协同注意力的跨模态调制网络,如图2所示,并在相关损失的监督下,获得最终的模态调制特征表达;
为确定协同注意力模块的引导模态,本发明中使用t-SNE可视化工具对单模态的情感的聚类效果的示例图,如图3所示,其中(a)表示视觉模态的聚类效果,(b)表示听觉模态聚类效果,(c)表示文本模态聚类效果;观察可得,仅使用单独模态进行的聚类效果表明,文本模态所包含的情感最为丰富,而视觉模态最差;图3中,两类标记(叉号和圆点)表示二分类的情感属性,图(a)中仅使用视觉模态的分类效果更分散且混乱,对比图(c)文本分类效果,更紧凑,且两类标记区分较为明显。基于此,可以总结得到,文本模态包含更多与情绪相关的信息,视觉和听觉信息相比文本信息,具有更大可能混淆情感的判别。因此基于文本的情感表达是最强烈和多模态标签的关系也是最为紧密的,本发明算法将文本模态作为引导模态,结合视觉和听觉特征进行网络学习。利用文本去辅助理解听觉和视觉模态,可以获取更有情感表达能力的非语言特征,也增加了文本信息的丰富度,最终更全面提取多模态情感特征,提高多模态情感的分类效果。
步骤2.1、如图2所示,所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块Text-guidedCo-Attention(TCA)和J层可堆叠的模态内的自注意力模块InteriorTransformer Encoder(ITE)构成,本实施例中,J=5;
步骤2.1.1、第j层的文本引导的协同注意力模块TCAj利用式(1)对视觉模态的初始表达特征Rv或听觉模态的初始表达特征Ra以及文本模态的初始表达特征Rt进行处理,得到文本协同注意力Xj t→f
Figure BDA0003884339850000101
式(1)中,Rf代表视觉模态的初始表达特征Rv和听觉模态的初始表达特征Ra中的任意一个初始表达特征,TCAj(·)表示文本引导的协同注意力模块TCAj所做的操作,如图4所示为本发明中文本引导的协同注意力TCA模块展开结构图;
步骤2.1.1具体包括:
第j层的文本引导的协同注意力模块TCAj由第j个多头注意力部分MH-ATTj以及第j个门控线性单元GLUj构成,j=1,2,…,J;
第j个多头注意力部分MH-ATTj按照式(2)对初始表达特征Rs,s∈{a,v,t}进行处理得到对应的第j个查询向量
Figure BDA0003884339850000102
第j个关键词向量
Figure BDA0003884339850000103
以及第j个值向量Vt j,从而利用式(3)得到第j层多头注意力Mj
Figure BDA0003884339850000104
式(2)中,
Figure BDA0003884339850000105
表示第j个多头注意力部分MH-ATTj的线性变换的参数矩阵;
Figure BDA0003884339850000106
式(3)中,MH-ATTj(·)表示多头注意力函数;
第j个门控线性单元GLUj,如图4中的虚线框所示区域,利用式(4)对Mj进行残差处理后得到中间特征
Figure BDA0003884339850000107
再利用式(5)得到文本协同注意力Xj t→f
Figure BDA0003884339850000108
式(4)中,LN(·)表示层归一化处理操作;
Figure BDA0003884339850000109
式(5)中,GELU为激活函数,⊙表示Hadamard乘积,W1 j
Figure BDA00038843398500001010
Figure BDA00038843398500001011
分别表示第j个门控线性单元GLUj的三个线性变换的权重矩阵,如图4所示,三个线性变换分别为Linear1、Linear2、Linear3,
Figure BDA00038843398500001012
Figure BDA00038843398500001013
表示三个线性变换的偏置向量。
步骤2.1.2、第j层的模态内的自注意力模块ITEj利用式(6)对同一种初始表达特征Rs,s∈{a,v,t}进行处理,得到模态内自注意力
Figure BDA0003884339850000111
Figure BDA0003884339850000112
式(6)中,ITEj(·)表示ITEj模块所做的操作,也即使用门控线性单元GLU替代原始全连接FFN的Transformer编码器操作;
具体为将上述式(2)调整为
Figure BDA0003884339850000113
然后使用式(3)-式(5)求解所述模态内注意力
Figure BDA0003884339850000114
步骤2.2、使用跨模态调制网络获取多模态调制特征;
步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(6)对初始表达特征Rt进行处理,如图2所示,得到第J层模态内的自注意力模块ITEJ输出的文本模态调制特征
Figure BDA0003884339850000115
并简记为Mt
步骤2.2.2、第j层的模态内的自注意力模块ITEj根据式(6)对初始表达特征Rf进行处理,得到模态内自注意力
Figure BDA0003884339850000116
再由第j层的文本引导的协同注意力模块TCAj利用式(7)对
Figure BDA0003884339850000117
和Mt进行处理,得到文本增强模态的输出特征
Figure BDA0003884339850000118
从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后,如图2所示,得到第J层文本引导的协同注意力模块TCAJ输出的文本逐级指导下的模态调制特征
Figure BDA0003884339850000119
并简记为Mf
Figure BDA00038843398500001110
式(7)中,Mf代表文本指导下的听觉模态调制特征Ma和文本指导下的视觉模态调制特征Mv的任意一个模态调制特征;
步骤2.4、计算跨模态调制网络的阶段损失;
如图1中的模块2所示,针对文本指导下的听觉模态调制特征Ma和文本指导下的视觉模态调制特征Mv,提取了深层非线性特征之后,基于Transformer的深度典型相关分析Transformer Canonical CorrelationAnalysis(TCCA)来调整跨模态调制的网络参数,并在LTCCA相关损失的监督下,最大化模态间的相关性,最小化模态内的散布信息,获得最终的模态调制特征表达;
将跨模态调制网络中输出Ma的听觉网络分支记为fa,将跨模态调制网络中输出Mv的视觉网络分支记为fv,令Wv和Wa分别表示视觉网络分支fv和听觉网络分支fa的权重参数,通过标准反向传播训练网络的权重,以最大化CCA目标,令
Figure BDA0003884339850000121
Figure BDA0003884339850000122
分别表示视觉模态和听觉模态的仿射变换向量,利用(8)求解最大关联的子空间,得到最优参数
Figure BDA0003884339850000123
Figure BDA0003884339850000124
式(8)中,corr(·)表示求解变量的相关系数,
Figure BDA0003884339850000125
表示
Figure BDA0003884339850000126
的转置,
Figure BDA0003884339850000127
表示
Figure BDA0003884339850000128
的转置,
Figure BDA0003884339850000129
表示最优视觉模态的仿射变换向量,
Figure BDA00038843398500001210
表示最优听觉模态的仿射变换向量,
Figure BDA00038843398500001211
表示视觉网络分支fv的最优权重参数,
Figure BDA00038843398500001212
表示听觉网络分支fa的最优权重参数;
利用式(9)建立模态相关损失函数LTCCA
Figure BDA00038843398500001213
步骤3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;
本发明设计的多模态门控网络不仅计算语言模态和非语言模态之间的偏移,同时计算其中视觉和听觉模态相比其他两个模态之间的偏移向量,并使用权重融合引导调制向量和偏移向量。全面度量了模态之间的距离,进一步降低了模态鸿沟的影响。这种动态的融合机制,也符合了人类对于多模态数据处理的判断过程,提高了系统对于情感分析的精度。
步骤3.1、以文本模态调制特征Mt作为引导调制向量,听觉模态调制特征Ma和视觉模态调制特征Mv作为被引导调制向量,使用多模态门控网络,如图5所示,多模态门控网络示例结构图,获取最终文本引导的门控调制模态表达向量Ft
步骤3.1.1、多模态门控网络使用式(10)和式(11)计算引导向量和被引导调制向量所产生的视觉模态门控向量Gv和听觉模态门控向量Ga
Figure BDA00038843398500001214
Figure BDA00038843398500001215
式(10)和式(11)中,
Figure BDA00038843398500001216
表示矩阵乘法操作,
Figure BDA00038843398500001217
表示Mt的转置,Wgv和Wga分别表示视觉模态和听觉模态门控操作的权重矩阵,bv和ba分别表示视觉模态和听觉模态的偏置向量,σ(·)表示sigmoid函数,利用矩阵相乘,求解模态映射向量,衡量模态相似度,可以更好的解决模态之间异构性间隙的问题;
步骤3.1.2、多模态门控网络利用式(12)计算视觉和听觉模态相对于文本模态的偏移向量St
St=Gv⊙(WtvMv)+Ga⊙(WtaMa)+bt (12)
式(12)中,Wtv为视觉模态相对于文本模态的权重矩阵,和Wta为听觉模态相对于文本模态的权重矩阵,⊙表示Hadamard乘积,bt为文本模态的偏置向量;
步骤3.1.3、多模态门控网络利用式(13)获取最终文本引导的门控调制模态表达向量Ft
Ft=Mt+δSt (13)
式(13)中,δ表示比例因子,且
Figure BDA0003884339850000131
||·||2表示对应向量的欧几里得范数,为了防止视觉和听觉模态的偏移向量的幅值与原始文本模态相比过大,导致在向量表示空间中新的门控调制模态与真实情感信息相比差距过大,因此引入比例因子,
Figure BDA0003884339850000132
为超参数,本发明中设置为1;
此时模态之间的变换关系可以使用图6,模态调制与门控偏移的向量空间示意图来表达,首先确定多模态中的被引导向量,图6是以听觉模态的初始表达向量Ra作为被引导向量(P1向量所示位置),以此为例,在以文本模态作为引导调制向量Mt(P3向量所示位置)的引导下(虚曲线所示),被引导向量Ra达到了一个新的位置,成为被引导调制向量Ma(P2向量所示位置),接着使用上述式(10)-式(13)获取文模态的偏移向量St(P4向量所示位置),并结合(实曲线所示)引导调制向量Mt和被引导调制向量Ma,获得文本引导的门控调制模态表达向量Ft(P5向量所示位置),假设P6向量所示位置所在位置即为多模态情感原始表示向量,可以观察到,随着跨模态的调制以及模态门控网络所得的偏移向量,最终的门控调制模态表达向量更加接近原始表达向量的位置。
步骤3.2、以视觉模态特征Mv作为引导调制向量,Ma和Mt作为被引导调制向量,按照式(10)-式(13)的过程,获得最终视觉引导的门控调制模态表达向量Fv
步骤3.3、以听觉模态特征Ma作为引导调制向量,Mv和Mt作为被引导调制向量,按照式(10)-式(13)的过程,获得最终听觉引导的门控调制模态表达向量Fa
步骤4构建情感预测模块,如图1中的模块4;
步骤4.1、情感预测模块将多模态的门控调制模态表达向量{Fs|s=a,v,t}进行向量拼接得到多模态融合特征F=[Fa;Fv;Ft];
步骤4.2、情感预测模块将多模态融合特征F输入至带有注意力机制的全连接模块,从而利用式(14)得到中间融合特征F′:
Figure BDA0003884339850000141
式(14)中,GELU为激活函数,W1 m
Figure BDA0003884339850000142
分别表示多模态融合过程中第一个和第二个线性变换的权重矩阵,
Figure BDA0003884339850000143
Figure BDA0003884339850000144
表示两个线性变换的偏置向量,SE(·)表示Squeeze-and-Excitation Networks挤压和激励的注意力机制操作;
情感预测模块使用式(15)对多模态情感进行深层预测得到一段多模态数据集的预测标签
Figure BDA0003884339850000145
Figure BDA0003884339850000146
式(15)中,
Figure BDA0003884339850000147
表示多模态融合过程中最后一个线性变换的权重矩阵,
Figure BDA0003884339850000148
表示第三个线性变换的偏置向量;
步骤4.3、使用式(16)构建总损失函数Loss:
Figure BDA0003884339850000149
式(16)中,α和β为超参数,本实施例中均设置为0.5;LCE表示交叉熵损失;
步骤5多模态情感的分类预测输出;
基于多模态人物情感视频数据集,利用梯度下降法对跨模态调制网络、多模态门控网络和情感预测模块进行训练,并计算总损失函数Loss,当训练迭代次数达到设定的次数时,本实施例中设置为40个epoch,训练停止,从而得到最优的多模态情感分类模型,用于对未知的多模态数据的情感类别进行识别。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行所述存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。

Claims (4)

1.一种基于协同注意力的多模态情感分类方法,其特征在于,是按如下步骤进行:
步骤1、获取多模态人物情感视频数据集,将其中一段多模态数据集的真实标签记为y,并将该段多模态数据集中的听觉模态序列样本记为Ua,视觉模态序列样本记为Uv,文本模态序列样本记为Ut
将所述视觉模态序列样本Uv输入可堆叠的双向BiLSTM网络进行预处理,输出视觉模态的初始表达特征Rv
将所述听觉模态序列样本Ua使用wav2vec 2.0模型进行预处理,输出听觉模态的初始表达特征Ra
使用Prompt提示学习的方法对所述文本模态序列样本Ut进行预处理,得到文本模态提示序列样本U′t,再将U′t输入至BART预训练模型中进行处理,输出文本模态的初始表达特征Rt
将视觉模态的初始表达特征Rv、听觉模态的初始表达特征Ra和文本模态的初始表达特征Rt中任意一个初始表达特征记为Rs,s∈{a,v,t};
步骤2、构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;
步骤2.1、所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE构成;
步骤2.1.1、第j层的文本引导的协同注意力模块TCAj利用式(1)对视觉模态的初始表达特征Rv或听觉模态的初始表达特征Ra以及文本模态的初始表达特征Rt进行处理,得到文本协同注意力Xj t→f
Figure FDA0003884339840000011
式(1)中,Rf代表视觉模态的初始表达特征Rv和听觉模态的初始表达特征Ra中的任意一个初始表达特征,TCAj(·)表示文本引导的协同注意力模块TCAj所做的操作;
步骤2.1.2、第j层的模态内的自注意力模块ITEj利用式(2)对同一种初始表达特征Rs,s∈{a,v,t}进行处理,得到模态内自注意力
Figure FDA0003884339840000021
Figure FDA0003884339840000022
式(2)中,ITEj(·)表示ITEj模块所做的操作;
步骤2.2、使用跨模态调制网络获取多模态调制特征;
步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(2)对初始表达特征Rt进行处理,得到第J层模态内的自注意力模块ITEJ输出的文本模态调制特征
Figure FDA0003884339840000023
并简记为Mt
步骤2.2.2、第j层的模态内的自注意力模块ITEj根据式(2)对初始表达特征Rf进行处理,得到模态内自注意力
Figure FDA0003884339840000024
再由第j层的文本引导的协同注意力模块TCAj利用式(3)对
Figure FDA0003884339840000025
和Mt进行处理,得到文本增强模态的输出特征
Figure FDA0003884339840000026
从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后,得到第J层文本引导的协同注意力模块TCAJ输出的文本逐级指导下的模态调制特征
Figure FDA0003884339840000027
并简记为Mf
Figure FDA0003884339840000028
式(3)中,Mf代表文本指导下的听觉模态调制特征Ma和文本指导下的视觉模态调制特征Mv的任意一个模态调制特征;
步骤2.4、计算跨模态调制网络的阶段损失;
将跨模态调制网络中输出Ma的听觉网络分支记为fa,将跨模态调制网络中输出Mv的视觉网络分支记为fv,令Wv和Wa分别表示所述视觉网络分支fv和听觉网络分支fa的权重参数,令
Figure FDA0003884339840000029
Figure FDA00038843398400000210
分别表示视觉模态和听觉模态的仿射变换向量,利用(4)求解最大关联的子空间,得到最优参数
Figure FDA00038843398400000211
Figure FDA00038843398400000212
式(4)中,corr(·)表示求解变量的相关系数,
Figure FDA00038843398400000213
表示
Figure FDA00038843398400000214
的转置,
Figure FDA00038843398400000215
表示
Figure FDA00038843398400000216
的转置,
Figure FDA00038843398400000217
表示最优视觉模态的仿射变换向量,
Figure FDA00038843398400000218
表示最优听觉模态的仿射变换向量,
Figure FDA00038843398400000219
表示所述视觉网络分支fv的最优权重参数,
Figure FDA00038843398400000220
表示听觉网络分支fa的最优权重参数;
利用式(5)建立模态相关损失函数LTCCA
Figure FDA0003884339840000031
步骤3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;
步骤3.1、以文本模态调制特征Mt作为引导调制向量,听觉模态调制特征Ma和视觉模态调制特征Mv作为被引导调制向量,使用多模态门控网络,获取最终文本引导的门控调制模态表达向量Ft
步骤3.1.1、所述多模态门控网络使用式(6)和式(7)计算引导向量和被引导调制向量所产生的视觉模态门控向量Gv和听觉模态门控向量Ga
Figure FDA0003884339840000032
Figure FDA0003884339840000033
式(6)和式(7)中,
Figure FDA0003884339840000034
表示矩阵乘法操作,
Figure FDA0003884339840000035
表示Mt的转置,Wgv和Wga分别表示视觉模态和听觉模态门控操作的权重矩阵,bv和ba分别表示视觉模态和听觉模态的偏置向量,σ(·)表示sigmoid函数;
步骤3.1.2、所述多模态门控网络利用式(8)计算视觉和听觉模态相对于文本模态的偏移向量St
St=Gv⊙(WtvMv)+Ga⊙(WtaMa)+bt (8)
式(8)中,Wtv为视觉模态相对于文本模态的权重矩阵,Wta为听觉模态相对于文本模态的权重矩阵,⊙表示Hadamard乘积,bt为文本模态的偏置向量;
步骤3.1.3、所述多模态门控网络利用式(9)获取最终文本引导的门控调制模态表达向量Ft
Ft=Mt+δSt (9)
式(9)中,δ表示比例因子,且
Figure FDA0003884339840000036
||·||2表示对应向量的欧几里得范数,
Figure FDA0003884339840000037
为超参数;
步骤3.2、以视觉模态特征Mv作为引导调制向量,Ma和Mt作为被引导调制向量,按照式(6)-式(9)的过程,获得最终视觉引导的门控调制模态表达向量Fv
步骤3.3、以听觉模态特征Ma作为引导调制向量,Mv和Mt作为被引导调制向量,按照式(6)-式(9)的过程,获得最终听觉引导的门控调制模态表达向量Fa
步骤4构建情感预测模块;
步骤4.1、所述情感预测模块将多模态的门控调制模态表达向量{Fs|s=a,v,t}进行向量拼接得到多模态融合特征F=[Fa;Fv;Ft];
步骤4.2、所述情感预测模块将多模态融合特征F输入至带有注意力机制的全连接模块,从而利用式(10)得到中间融合特征F′:
Figure FDA0003884339840000041
式(10)中,GELU为激活函数,
Figure FDA0003884339840000042
Figure FDA0003884339840000043
分别表示多模态融合过程中第一个和第二个线性变换的权重矩阵,
Figure FDA0003884339840000044
Figure FDA0003884339840000045
表示两个线性变换的偏置向量,SE(·)表示挤压和激励的注意力机制操作;
所述情感预测模块使用式(11)对多模态情感进行深层预测得到一段多模态数据集的预测标签
Figure FDA0003884339840000046
Figure FDA0003884339840000047
式(11)中,
Figure FDA0003884339840000048
表示多模态融合过程中最后一个线性变换的权重矩阵,
Figure FDA0003884339840000049
表示第三个线性变换的偏置向量;
步骤4.3、使用式(12)构建总损失函数Loss:
Figure FDA00038843398400000410
式(12)中,α和β为超参数;LCE表示交叉熵损失;
步骤5多模态情感的分类预测输出;
基于多模态人物情感视频数据集,利用梯度下降法对所述跨模态调制网络、多模态门控网络和情感预测模块进行训练,并计算总损失函数Loss,当训练迭代次数达到设定的次数时,训练停止,从而得到最优的多模态情感分类模型,用于对未知的多模态数据的情感类别进行识别。
2.根据权利要求1所述的一种基于协同注意力的多模态情感分类方法,其特征在于,所述步骤2.1.1包括:
所述第j层的文本引导的协同注意力模块TCAj由第j个多头注意力部分MH-ATTj以及第j个门控线性单元GLUj构成,j=1,2,…,J;
第j个多头注意力部分MH-ATTj按照式(13)对初始表达特征Rs,s∈{a,v,t}进行处理得到对应的第j个查询向量
Figure FDA0003884339840000051
第j个关键词向量
Figure FDA0003884339840000052
以及第j个值向量
Figure FDA0003884339840000053
从而利用式(14)得到第j层多头注意力Mj
Figure FDA0003884339840000054
式(13)中,
Figure FDA0003884339840000055
表示第j个多头注意力部分MH-ATTj的线性变换的参数矩阵;
Figure FDA0003884339840000056
式(14)中,MH-ATTj(·)表示多头注意力函数;
所述第j个门控线性单元GLUj利用式(15)对Mj进行残差处理后得到中间特征
Figure FDA0003884339840000057
再利用式(16)得到文本协同注意力
Figure FDA0003884339840000058
Figure FDA0003884339840000059
式(15)中,LN(·)表示层归一化处理操作;
Figure FDA00038843398400000510
式(16)中,GELU为激活函数,⊙表示Hadamard乘积,
Figure FDA00038843398400000511
Figure FDA00038843398400000512
分别表示第j个门控线性单元GLUj的三个线性变换的权重矩阵,
Figure FDA00038843398400000513
Figure FDA00038843398400000514
表示三个线性变换的偏置向量。
3.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述多模态情感分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
4.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述多模态情感分类方法的步骤。
CN202211241308.6A 2022-10-11 2022-10-11 一种基于协同注意力的多模态情感分类方法及其应用 Active CN115544279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211241308.6A CN115544279B (zh) 2022-10-11 2022-10-11 一种基于协同注意力的多模态情感分类方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211241308.6A CN115544279B (zh) 2022-10-11 2022-10-11 一种基于协同注意力的多模态情感分类方法及其应用

Publications (2)

Publication Number Publication Date
CN115544279A true CN115544279A (zh) 2022-12-30
CN115544279B CN115544279B (zh) 2024-01-26

Family

ID=84734021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211241308.6A Active CN115544279B (zh) 2022-10-11 2022-10-11 一种基于协同注意力的多模态情感分类方法及其应用

Country Status (1)

Country Link
CN (1) CN115544279B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN116502075A (zh) * 2023-06-28 2023-07-28 吉林大学 一种多模态水下自主航行器状态检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法
CN114969458A (zh) * 2022-06-28 2022-08-30 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法
CN114973062A (zh) * 2022-04-25 2022-08-30 西安电子科技大学 基于Transformer的多模态情感分析方法
CN115063709A (zh) * 2022-04-14 2022-09-16 齐鲁工业大学 基于跨模态注意与分层融合的多模态情感分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法
CN115063709A (zh) * 2022-04-14 2022-09-16 齐鲁工业大学 基于跨模态注意与分层融合的多模态情感分析方法及系统
CN114973062A (zh) * 2022-04-25 2022-08-30 西安电子科技大学 基于Transformer的多模态情感分析方法
CN114969458A (zh) * 2022-06-28 2022-08-30 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AYUSH KUMAR AND JITHENDRA VEPA: "Gated Mechanism for Attention Based Multi Modal Sentiment Analysis", 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, pages 4477 - 4481 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN115983280B (zh) * 2023-01-31 2023-08-15 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN116502075A (zh) * 2023-06-28 2023-07-28 吉林大学 一种多模态水下自主航行器状态检测方法及系统
CN116502075B (zh) * 2023-06-28 2023-09-12 吉林大学 一种多模态水下自主航行器状态检测方法及系统

Also Published As

Publication number Publication date
CN115544279B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Gu et al. Unidoc: Unified pretraining framework for document understanding
Pham et al. Seq2seq2sentiment: Multimodal sequence to sequence models for sentiment analysis
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN115544279B (zh) 一种基于协同注意力的多模态情感分类方法及其应用
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
Viji et al. A hybrid approach of Weighted Fine-Tuned BERT extraction with deep Siamese Bi–LSTM model for semantic text similarity identification
Cheng et al. Aspect-based sentiment analysis with component focusing multi-head co-attention networks
CN110348024A (zh) 基于法律知识图谱的智能识别系统
CN115455970A (zh) 一种多模态语义协同交互的图文联合命名实体识别方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
Mozafari et al. BAS: an answer selection method using BERT language model
CN113392265A (zh) 多媒体处理方法、装置及设备
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
Parvin et al. Transformer-based local-global guidance for image captioning
CN117010907A (zh) 一种基于语音和图像识别的多模态客户服务方法及系统
CN116450787A (zh) 一种基于多模态知识增强的生成式对话方法和系统
Wang et al. DeepEmotionNet: Emotion mining for corporate performance analysis and prediction
Zhu et al. Knowledge-based BERT word embedding fine-tuning for emotion recognition
Wang et al. Information-enhanced hierarchical self-attention network for multiturn dialog generation
Naik et al. Video captioning using sentence vector-enabled convolutional framework with short-connected lstm
Wu et al. Inferring users' emotions for human-mobile voice dialogue applications
Singh et al. Next-LSTM: a novel LSTM-based image captioning technique
Cai et al. Multi-view and attention-based bi-lstm for weibo emotion recognition
Zhu et al. Elementary discourse units with sparse attention for multi-label emotion classification
Zhang et al. Knowledge-aware attentive wasserstein adversarial dialogue response generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant