CN114118200B - 一种基于注意力引导双向胶囊网络的多模态情感分类方法 - Google Patents

一种基于注意力引导双向胶囊网络的多模态情感分类方法 Download PDF

Info

Publication number
CN114118200B
CN114118200B CN202111120932.6A CN202111120932A CN114118200B CN 114118200 B CN114118200 B CN 114118200B CN 202111120932 A CN202111120932 A CN 202111120932A CN 114118200 B CN114118200 B CN 114118200B
Authority
CN
China
Prior art keywords
modal
text
capsule
attention
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111120932.6A
Other languages
English (en)
Other versions
CN114118200A (zh
Inventor
孔万增
刘栋军
唐佳佳
金宣妤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111120932.6A priority Critical patent/CN114118200B/zh
Publication of CN114118200A publication Critical patent/CN114118200A/zh
Application granted granted Critical
Publication of CN114118200B publication Critical patent/CN114118200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于注意力引导双向胶囊网络的多模态情感分类方法。由于具有可训练的视点不变变换特性,胶囊网络目前在分析多模态学习的异质性问题上已经证明了它的有效性。在预处理阶段,本发明提供了多模态动态交互增强模块,在特征层面上显式地增强了跨模态同质性,这有利于模型在更加紧凑的局部公共空间内有效地执行多模态解耦过程。在此基础上,提出了基于注意力引导的双向胶囊网络(ABCN),通过新的双向动态路由机制来探索全局多模态公共消息。然后,利用全局多模态上下文来指导多模态动态路由过程,同时研究每个模态的全局最优公共线索。这大大提高了学习效率,并提供了在所有模式之间架起桥梁的优越能力。

Description

一种基于注意力引导双向胶囊网络的多模态情感分类方法
技术领域
本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,涉及一种基于注意力引导双向胶囊网络的多模态情感分类方法,具体是一种基于胶囊网络学习以及注意力机制的注意力引导的双向胶囊网络技术,对多模态信息进行双向探索解耦及融合,从而判断被试情感状态的方法。
背景技术
多模态学习提高了人们对人工智能系统的兴趣,语言、声学和视觉模式被广泛用于分析相关的研究任务。直观上,单个模态能够从特定的角度分析与任务相关的信息,而多种模态的整合则有利于我们有效地推理出多模态信息的复杂而全面的含义。由于不同内容之间的深度推理,相应的融合模型学会隐式地将联合的和本质的跨模态相互关联纳入最终的多模态表示。然而,传统的多模态情感分类方法在处理模态差异方面存在局限性,这并不能有效地减少模式之间的冗余。最近,基于胶囊的网络在计算机视觉中,借助可训练的视点不变变换,在捕获各种来源之间的部分-整体关系方面取得了显著的性能,因此受到了广泛的关注。但是,上述技术只是通过自下而上的注意力来关注表示层和输出层之间的空间关系。这确实忽略了多模态之间内在的上下文关系,未能为每个模态提供全局指导,导致局部次优解耦过程。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于注意力引导双向胶囊网络的多模态情感分类方法。在预处理阶段,提出了多模态动态交互增强模块,以显式地增加原始特征空间的跨模态同质性,这自然为我们提供了在更紧凑的局部公共空间内有效执行多模态解耦任务的好处。此外,通过设计新的双向动态路由机制,提出了探索全局最优多模态公共信息的注意力引导的双向胶囊网络(ABCN)。具体来说,ABCN采用自上向下的基于注意力的模块(Transformer的编码器),直接在特性级别提取内在的多模态上下文。然后,利用全局多模态上下文来指导多模态动态路由过程,使得学习模型具有在所有模态的指导下同时挖掘各模态上下文感知公共特性的强大能力。换句话说,全局最优推理流可以在多种模态之间有效度量。值得注意的是,与传统的胶囊网络相比,我们基于胶囊的架构用提出的多头卷积组件代替了变换矩阵。这在保持胶囊框架优点的同时,考虑了所需的卷积特性,从而提出了多路、全面的信息流。
一种基于注意力引导双向胶囊网络的多模态情感分类方法,采用的网络包括多模态动态交互增强模块和ABCN。多模态动态交互增强模块用于增强特征水平上的跨模态同质性。ABCN用于探索全局多模态公共线索。
该方法的具体步骤如下:
步骤1、获取多模态数据。
提取被测对象的三种模态数据;三种模态数据分别记为
Figure BDA0003277119760000021
Ti(i∈{a,v,t})是时域维度的尺寸,di(i∈{a,v,t})是每一个时刻的特征向量的长度。
步骤2、对三种模态数据进行交互增强。
步骤3、注意力引导的双向胶囊网络。
3-1.以步骤2的输出作为输入,通过注意力引导的双向胶囊网络提取全局多模态公共信息;注意力引导的双向胶囊网络包括低层多模态表示胶囊
Figure BDA0003277119760000022
和高层模态感知公共胶囊
Figure BDA0003277119760000023
其中,Nu和Nv分别为低层和高层胶囊的数量;
每个低层多模态表示胶囊ui,均进行卷积投影,得到新的胶囊
Figure BDA0003277119760000024
如下:
Figure BDA0003277119760000025
其中,Conv(·)为卷积组件;kernel为可变卷积核。
进一步建立多头的投票矩阵
Figure BDA0003277119760000026
如下:
Figure BDA0003277119760000027
其中,s为卷积投影头的序数;kernel为第s个可变卷积核;i=1,2,...,Nu。
3-2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文;第s个头的多模态上下文atten[s]的表达式如下:
Figure BDA0003277119760000028
其中,Tran(·)表示Transformer的编码器。
3-3.采用具有Nv迭代的动态路由过程,获取多种模态之间的全局最优公共表示;在每次迭代时,利用耦合系数
Figure BDA0003277119760000029
来分析
Figure BDA00032771197600000210
Figure BDA00032771197600000211
之间的信息流,该耦合系数
Figure BDA00032771197600000212
通过基于初始化为0的临时累积变量
Figure BDA00032771197600000213
计算得到,具体表达式如下:
Figure BDA0003277119760000031
3-4.以胶囊
Figure BDA0003277119760000032
的加权和为基础,并借助相应的
Figure BDA0003277119760000033
和多模态上下文atten[s],获得高层胶囊
Figure BDA0003277119760000034
如下:
Figure BDA0003277119760000035
3-5.通过卷积操作,多头的高层胶囊
Figure BDA0003277119760000036
集成到最终的模态感知公共信息{coma,comv,comt}中;然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common=conv(concat(coma,comv,comt),kernel)。
步骤四、将步骤三所得的多模态公共表示common输入线性分类层,将输出信息与情感类别标签进行对比,得到被测对象在提取被测数据时所处的情感分类情况。
作为优选,步骤1中所述的三种模态数据分别为音频模态Xa、视频模态Xv、文本模态Xt
作为优选,步骤2中,采用多模态动态交互增强模块对三种模态数据进行交互增强。多模态动态交互增强模块包括一个或多个进程头;每个进程头包括一个或多个自适应迭代。进程头数量为M;每个进程头中自适应迭代的数量为N。
多模态动态交互增强模块获取文本感知的音频表示
Figure BDA0003277119760000037
的过程如下:
对于单个进程头情况,
Figure BDA0003277119760000038
Figure BDA0003277119760000039
将先被输入模块中以寻找相似系数;经过N次迭代的文本增强的音频表示
Figure BDA00032771197600000310
公式如下:
Figure BDA00032771197600000311
Figure BDA00032771197600000312
其中,
Figure BDA00032771197600000313
为第m个进程头的第n次自适应迭代得到的文本增强音频表示,
Figure BDA00032771197600000314
为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示,
Figure BDA00032771197600000315
为第m个进程头的第i次自适应迭代得到的文本增强音频表示。softmax(·)表示softmax函数运算。m=1,2,...,M。
利用每个进程头迭代得到的文本增强的音频表示
Figure BDA00032771197600000316
获取多路文本增强表示Xa MulHead,并进一步获取文本感知的音频表示
Figure BDA00032771197600000317
计算过程如下:
Figure BDA00032771197600000318
Figure BDA0003277119760000041
其中,concat(·)为多头的连接函数;Conv(·)为卷积组件。
获取文本感知的音频表示
Figure BDA0003277119760000042
的过程与获取文本感知的音频表示
Figure BDA0003277119760000043
的过程相同;之后,将
Figure BDA0003277119760000044
Figure BDA0003277119760000045
以学习得到的第一比例Ca和第二比例Cv加到文本模态Xt中,获得增强的文本模态
Figure BDA0003277119760000046
具体如下:
Figure BDA0003277119760000047
作为优选,三种模态数据用于识别被测对象所处的公众情感基准;公众情感基准共有两种,分别为正类情感和负类情感。
作为优选,步骤三中,利用HingeLoss函数参与分析非线性信息,减少模态注意公共信息之间的差异;具体如下:
Figure BDA0003277119760000048
其中,SimilarityLoss为相似性误差;max(·)为取最大值运算;D(·)为查找向量运算。
计算差异性误差DifferenceLoss的表达式如下:
Figure BDA0003277119760000049
其中,
Figure BDA00032771197600000410
是弗罗贝尼乌斯范数。spei(i∈a,v,t)为模态的私有信息。
本发明还提供一种多模态情感分类系统,其包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现前述的多模态情感分类方法。
所述的存储器是一种机器可读存储介质,其存储的机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前述的多模态情感分类方法。
本发明的有益效果如下:
1.本发明提出了多模态动态交互增强模块,以显式增强音频模态(视频模态)和文本模态之间的跨模态同质性,生成文本增强的音频(视频)表示,也代表局部跨模态公共信息。
2.本发明中的多模态动态交互增强模块直接突出双线性交互特性空间的跨模态依赖性,允许显式地促进和增强双模态同质性;为我们提供了强大的能力,以有效地从特征空间探索潜在的和内在的模态共享的共同信息。
3.本发明在单头跨模态增强模块的基础上,进一步建立多头跨模态增强网络,采集多路文本增强表示;此外,还引入了卷积组件对多路文本增强表示进行分析,从而更加深入探索文本增强信息之间的潜在交互,生成更加紧凑的文本感知的音频表示。
4.本发明中的多模态动态交互增强模块使ABCN能够在更紧凑的局部公共空间内有效地执行多模态解耦任务;也就是说,ABCN可以专注于更加紧凑的表达空间,而不是原来庞大复杂的表达空间;这确实大大提高了学习效率,并提供了基于局部次最优公共空间研究全局最优公共信息流的优越能力。
5.本发明将线性替换为卷积投影,得到新的胶囊,其包含了理想的卷积非线性性质;这允许更细粒度的底层胶囊相对于高层胶囊的投影过程。
6.本发明将上述单头卷积投影设计扩展到拥有可变卷积核的多头情况;多头机制确实有潜力促成低层胶囊与高层胶囊之间的多路、全面的信息流。
7.本发明进一步应用了的多模态上下文来指导动态路由过程,赋予了学习模型强大的能力,可以在所有模态的指导下,同时度量每个模态的上下文感知公共特性;也就是说,全局最优多模态推理流可以在多模态表示胶囊和公共胶囊之间有效学习,生成更有甄别性的原生表示。
附图说明
图1为本发明方法流程图;
图2为本发明方法整体架构图;
图3为本发明提供的多模态动态交互增强模块示意图;
图4为本发明提供的注意力引导的双向胶囊网络示意图。
具体实施方式
下面结合附图,对本发明方法做详细描述。
如图1和2所示,一种基于注意力引导双向胶囊网络的多模态情感分类方法,具体步骤如下:
如图1所示,该方法采用的基于注意力引导双向胶囊网络包括两个重要组成部分:1)多模态动态交互增强模块,用于增强特征水平上的跨模态同质性;2)ABCN,用于探索全局多模态公共线索。包括以下步骤:
步骤1、获取多模态数据
多模态数据表示多种类型模态数据:例如音频模态、视频模态、文本模态;多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强任务表现;两种公众情感基准由音频、视频和文本三种模态组成;两种公众情感基准分别为正类(积极)情感和负类(消极)情感。三种模态表示形式分别为
Figure BDA0003277119760000061
Ti(i∈{a,v,t})分别是三种模态时域维度的尺寸,di(i∈{a,v,t})分别是三种模态每一个时刻的特征向量的长度;为简便起见,我们采用线性函数对{Xa,Xv,Xt}进行分析处理得到相同的特征维数di,即da=dv=dt
步骤2、多模态动态交互增强模块
提出了如图2和3所示的多模态动态交互增强模块,以显式增强Xa(Xv)和Xt之间的跨模态同质性,生成文本增强的音频(视频)表示,以及音频和视频共同增强的文本表示,也代表局部跨模态公共信息;具体来说,所提出的多模态动态交互增强模块由M个进程头组成,每个进程头由N个自适应迭代组成;直观地说,多头机制允许在多视角下提取跨模态依赖关系,在双线性跨模态空间中得到综合的相互关系;对于单头情况,
Figure BDA0003277119760000062
Figure BDA0003277119760000063
将先被输入模块中以寻找相似系数(图3);经过N次迭代的文本增强的音频表示
Figure BDA0003277119760000064
公式如下:
Figure BDA0003277119760000065
Figure BDA0003277119760000066
其中,
Figure BDA0003277119760000067
为第m个进程头的第n次自适应迭代得到的文本增强音频表示,
Figure BDA0003277119760000068
为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示,
Figure BDA0003277119760000069
为第m个进程头的第i次自适应迭代得到的文本增强音频表示。softmax(·)表示softmax函数运算。m=1,2,...,M。
在迭代的第一阶段,采用点积运算将不同的模态显式投影到双线性交互特征空间Xa·Xt中,其中Xa·Xt的信息表示跨模态的相互关系;随后,引入softmax函数,分析音频模态中的话语如何受到文本模态中的话语的影响,得到文本模态对音频模态的影响系数;然后,利用得到的影响系数对原始音频模态进行处理,实现文本增强的音频表示;换句话说,直接突出双线性交互特性空间的跨模态依赖性,允许显式地促进和增强双模态同质性;这确实为我们提供了强大的能力,以有效地从特征空间探索潜在的和内在的模态共享的共同信息;在第一轮迭代的基础上,下一轮迭代利用前一轮迭代的输出动态更新双线性跨模态子空间;也就是说,将之前文本增强的音频表示作为输入数据交付给下一个迭代,并潜在地用于探索新的双线性交互子空间;之前的低阶双线性子空间
Figure BDA0003277119760000071
作为以下高阶双线性子空间
Figure BDA0003277119760000072
的动态移位(残差项),得到更加紧凑和健壮的双线性跨模态交互子空间;注意Xv的过程与Xa相似;
Figure BDA0003277119760000073
Figure BDA0003277119760000074
在单头跨模态增强模块的基础上,进一步建立多头跨模态增强网络,采集多路文本增强表示Xa MulHead,concat(·)为多头的连接函数;Conv(·)为卷积组件;此外,还引入了卷积组件对Xa MulHead进行分析,从而更加深入探索文本增强信息
Figure BDA0003277119760000075
之间的潜在交互,生成更加紧凑的文本感知的音频表示
Figure BDA0003277119760000076
根据相似的方法获得文本感知的视频表示
Figure BDA0003277119760000077
之后,将
Figure BDA0003277119760000078
Figure BDA0003277119760000079
以学习得到的第一比例Ca和第二比例Cv加到文本模态Xt中,获得增强的文本模态
Figure BDA00032771197600000710
具体如下:
Figure BDA00032771197600000711
步骤3、注意力引导的双向胶囊网络(ABCN)
以增强模块的输出作为输入,通过ABCN来进一步研究全局多模态公共信息;直观地说,增强模块使ABCN能够在更紧凑的局部公共空间内有效地执行多模态解耦任务;也就是说,ABCN可以专注于更加紧凑的表达空间,而不是原来庞大复杂的表达空间;这确实大大提高了学习效率,并提供了基于局部次最优公共空间研究全局最优公共信息流的优越能力;
如图2和4所示,ABCN主要由低层多模态表示胶囊
Figure BDA00032771197600000712
和高层模态感知公共胶囊
Figure BDA00032771197600000713
组成;其中,Nu和Nv分别为低层和高层胶囊的数量;在传统的胶囊网络中,每个ui乘以一个可训练的变换矩阵Wij,得到投票矩阵
Figure BDA00032771197600000714
表示较低层ui相对于较高层胶囊vj的投影:
Figure BDA00032771197600000715
与传统的胶囊网络相比,我们将线性Wij替换为卷积投影,得到新的
Figure BDA00032771197600000716
包含了理想的卷积非线性性质;这允许更细粒度的底层胶囊ui相对于高层胶囊vj的投影过程,其中Conv(·)为卷积组件;kernel是可变卷积核,可变卷积核为卷积组件进行卷积操作时所采用卷积核,本质是一个权重矩阵;投票矩阵
Figure BDA00032771197600000717
表示较低层ui相对于较高层胶囊vj的投影:
Figure BDA0003277119760000081
此外,我们将上述单头卷积投影设计扩展到拥有可变卷积核的多头情况;实际上,多头机制确实有潜力促成低层胶囊ui与高层胶囊vj之间的多路、全面的信息流,其中s为具体的卷积投影头,
Figure BDA0003277119760000082
对应第s个卷积投影头的投票矩阵:
Figure BDA0003277119760000083
值得注意的是,胶囊网络自下而上的注意力只能分析低级表示胶囊
Figure BDA0003277119760000084
与高级普通胶囊
Figure BDA0003277119760000085
之间的部分-整体(空间)关系;这只突出了一小部分低级胶囊ui的贡献,而完全忽略了多模态表示
Figure BDA0003277119760000086
中内在和本质的上下文信息,导致在
Figure BDA0003277119760000087
Figure BDA0003277119760000088
之间的局部次优推理流;因此,在这项工作中,我们利用Transformer的编码器直接从表现空间中挖掘内在的多模态上下文;形式上,第s个头的多模态上下文atten[s]定义如下,
Figure BDA0003277119760000089
分别为第一个和第Nu个投票矩阵:
Figure BDA00032771197600000810
其中,Tran表示Transformer的编码器;随后,采用具有Nv迭代的动态路由过程,探索多种模态之间的全局最优公共表示;在每次迭代时,利用耦合系数
Figure BDA00032771197600000811
来分析
Figure BDA00032771197600000812
Figure BDA00032771197600000813
之间的信息流,该耦合系数
Figure BDA00032771197600000814
是基于初始化为0的临时累积变量
Figure BDA00032771197600000815
计算的;具体流程如下,其中
Figure BDA00032771197600000816
分别为第1到第Nv个耦合系数、第1到第Nv个临时累积变量:
Figure BDA00032771197600000817
然后,高层胶囊
Figure BDA00032771197600000818
表示为
Figure BDA00032771197600000819
的加权和,并借助相应的
Figure BDA00032771197600000820
和多模态上下文线索atten[s];从本质上讲,与传统的胶囊网络中
Figure BDA00032771197600000821
只依赖于
Figure BDA00032771197600000822
Figure BDA00032771197600000823
不同,我们的模型进一步应用了atten[s]来指导动态路由过程并更新
Figure BDA00032771197600000824
这确实赋予了学习模型强大的能力,可以在所有模态的指导下,同时度量每个模态(ui)的上下文感知公共特性;也就是说,全局最优多模态推理流可以在多模态表示胶囊ui和公共胶囊vj之间有效学习,生成更有甄别性的原生表示;
Figure BDA00032771197600000825
当多头设置为2时,每个模态可以计算2个对应的模态感知公共信息
Figure BDA00032771197600000826
然后,通过卷积操作,公共信息可以进一步集成到最终的模态感知公共信息{coma,comv,comt}中;例如,
Figure BDA0003277119760000091
然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示中:common=conv(concat(coma,comv,comt),kernel);
如前所述,卷积投影被用来分析底层胶囊ui,它允许卷积非线性表示;因此,我们引入HingeLoss函数参与分析非线性信息,以减少模态注意公共信息之间的差异:
Figure BDA0003277119760000092
其中,SimilarityLoss为相似性误差;max(·)为取最大值运算;D(·)为查找向量运算,comi和comj会被赋予一个独立的向量。
此外,在我们的工作中,每个spei(i∈a,v,t)是模态的私有信息,由模态私有信息提取块(ABCN)来获得,
Figure BDA0003277119760000093
是弗罗贝尼乌斯范数。然后,按照MISA的约束设计,差异性误差公式为:
Figure BDA0003277119760000094
最后,将最终的融合信息输入线性分类层,将输出信息与情感类别标签进行对比,得到最终的分类结果。
如表1所示,使用本发明与现有多种多模态融合方法同时在多模态情感数据库CMU-MOSI进行情感状态判别任务。此外,还引入了以下评价指标来分析模型的性能:平均绝对误差(MAE)、皮尔逊相关(Corr)、二分类精度(Acc-2)、F-Score(F1)、七分类精度(Acc-7)。事实上,存在两种不同的方法来测量Acc-2和F1。1)在(Zadeh et al.2018b)的工作中,负类的标注范围为[-3,0),而非负类的标注范围为[0,3]。2)在(Tsai et al.2019)的工作中,负类和正类的范围分别为[-3,0)和(0,3]。使用标记-/-来区分不同的策略,其中左边的值表示1),右边的值表示2)。比较衡量多个现有多模态融合方法可知,本发明的结果都优于现有融合模型,证明了本发明所提出方法的有效性。
表1
Figure BDA0003277119760000095
Figure BDA0003277119760000101

Claims (5)

1.一种基于注意力引导双向胶囊网络的多模态情感分类方法,其特征在于:步骤1、获取多模态数据;
提取被测对象的三种模态数据;所述的三种模态数据分别为音频模态Xa、视频模态Xv、文本模态Xt;三种模态数据分别记为
Figure FDA0004145791610000011
Ti(i∈{a,v,t})是时域维度的尺寸,di(i∈{a,v,t})是每一个时刻的特征向量的长度;
步骤2、对三种模态数据进行交互增强;
采用多模态动态交互增强模块对三种模态数据进行交互增强;多模态动态交互增强模块包括一个或多个进程头;每个进程头包括一个或多个自适应迭代;进程头数量为M;每个进程头中自适应迭代的数量为N;
多模态动态交互增强模块获取文本感知的音频表示
Figure FDA0004145791610000012
的过程如下:
对于单个进程头情况,
Figure FDA0004145791610000013
Figure FDA0004145791610000014
将先被输入模块中以寻找相似系数;经过N次迭代的文本增强的音频表示
Figure FDA0004145791610000015
公式如下:
Figure FDA0004145791610000016
Figure FDA0004145791610000017
其中,
Figure FDA0004145791610000018
为第m个进程头的第n次自适应迭代得到的文本增强音频表示,
Figure FDA0004145791610000019
为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示,
Figure FDA00041457916100000110
为第m个进程头的第i次自适应迭代得到的文本增强音频表示;softmax(·)表示softmax函数运算;m=1,2,...,M;
利用每个进程头迭代得到的文本增强的音频表示
Figure FDA00041457916100000111
获取多路文本增强表示Xa MulHead,并进一步获取文本感知的音频表示
Figure FDA00041457916100000112
计算过程如下:
Figure FDA00041457916100000113
Figure FDA00041457916100000114
其中,concat(·)为多头的连接函数;Conv(·)为卷积组件;
获取文本感知的音频表示
Figure FDA00041457916100000115
的过程与获取文本感知的音频表示
Figure FDA00041457916100000116
过程相同;之后,将
Figure FDA0004145791610000021
Figure FDA0004145791610000022
以学习得到的第一比例Ca和第二比例Cv加到文本模态Xt中,获得增强的文本模态
Figure FDA0004145791610000023
具体如下:
Figure FDA0004145791610000024
步骤3、注意力引导的双向胶囊网络;
3-1.以步骤2的输出作为输入,通过注意力引导的双向胶囊网络提取全局多模态公共信息;注意力引导的双向胶囊网络包括低层多模态表示胶囊
Figure FDA0004145791610000025
和高层模态感知公共胶囊
Figure FDA0004145791610000026
其中,Nu和Nv分别为低层和高层胶囊的数量;
每个低层多模态表示胶囊ui,均进行卷积投影,得到新的胶囊
Figure FDA0004145791610000027
如下:
Figure FDA0004145791610000028
其中,Conv(·)为卷积组件;kernel为可变卷积核;
进一步建立多头的投票矩阵
Figure FDA0004145791610000029
如下:
Figure FDA00041457916100000210
其中,s为卷积投影头的序数;kernel为第s个可变卷积核;i=1,2,...,Nu;
3-2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文;第s个头的多模态上下文atten[s]的表达式如下:
Figure FDA00041457916100000211
其中,Tran(·)表示Transformer的编码器;
3-3.采用具有Nv迭代的动态路由过程,获取多种模态之间的全局最优公共表示;在每次迭代时,利用耦合系数
Figure FDA00041457916100000212
来分析
Figure FDA00041457916100000213
Figure FDA00041457916100000214
之间的信息流,该耦合系数
Figure FDA00041457916100000215
通过基于初始化为0的临时累积变量
Figure FDA00041457916100000216
计算得到,具体表达式如下:
Figure FDA00041457916100000217
3-4.以胶囊
Figure FDA00041457916100000218
的加权和为基础,并借助相应的
Figure FDA00041457916100000219
和多模态上下文atten[s],获得高层胶囊
Figure FDA00041457916100000220
如下:
Figure FDA00041457916100000221
3-5.通过卷积操作,多头的高层胶囊
Figure FDA00041457916100000222
集成到最终的模态感知公共信息{coma,comv,comt}中;然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common=conv(concat(coma,comv,comt),kernel);
步骤四、将步骤三所得的多模态公共表示common输入线性分类层,将输出信息与情感类别标签进行对比,得到被测对象在提取被测数据时所处的情感分类情况。
2.根据权利要求1所述的一种基于注意力引导双向胶囊网络的多模态情感分类方法,其特征在于:三种模态数据用于识别被测对象所处的公众情感基准;公众情感基准共有两种,分别为正类情感和负类情感。
3.根据权利要求1所述的一种基于注意力引导双向胶囊网络的多模态情感分类方法,其特征在于:步骤三中,利用HingeLoss函数参与分析非线性信息,减少模态注意公共信息之间的差异;具体如下:
Figure FDA0004145791610000031
其中,SimilarityLoss为相似性误差;max(·)为取最大值运算;D(·)为查找向量运算;
计算差异性误差DifferenceLoss的表达式如下:
Figure FDA0004145791610000032
其中,
Figure FDA0004145791610000033
是弗罗贝尼乌斯范数;spei(i∈a,v,t)为模态私有信息。
4.一种多模态情感分类系统,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-3任一项所述的方法。
5.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-3任一项所述的方法。
CN202111120932.6A 2021-09-24 2021-09-24 一种基于注意力引导双向胶囊网络的多模态情感分类方法 Active CN114118200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111120932.6A CN114118200B (zh) 2021-09-24 2021-09-24 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111120932.6A CN114118200B (zh) 2021-09-24 2021-09-24 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Publications (2)

Publication Number Publication Date
CN114118200A CN114118200A (zh) 2022-03-01
CN114118200B true CN114118200B (zh) 2023-05-12

Family

ID=80441178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111120932.6A Active CN114118200B (zh) 2021-09-24 2021-09-24 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Country Status (1)

Country Link
CN (1) CN114118200B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329036B (zh) * 2022-03-16 2022-07-05 中山大学 一种基于注意力机制的跨模态特征融合系统
CN115331460B (zh) * 2022-07-25 2024-05-14 武汉理工大学 一种基于深度强化学习的大规模交通信号控制方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522548A (zh) * 2018-10-26 2019-03-26 天津大学 一种基于双向交互神经网络的文本情感分析方法
CN110826336B (zh) * 2019-09-18 2020-11-06 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110728997B (zh) * 2019-11-29 2022-03-22 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测系统
CN112256918B (zh) * 2020-11-17 2021-07-06 中国计量大学 一种基于多模态动态路由的短视频点击率预测方法
CN112883167A (zh) * 2021-03-18 2021-06-01 江西师范大学 基于层次化自制力机制胶囊网络的文本情感分类模型
CN112801219B (zh) * 2021-03-22 2021-06-18 华南师范大学 一种多模态情感分类方法、装置及设备
CN113283234B (zh) * 2021-05-28 2022-05-06 天津大学 一种基于胶囊网络的情感分类方法
CN113257281B (zh) * 2021-07-02 2021-09-21 四川省人工智能研究院(宜宾) 一种对多模态情绪识别进行层次不确定性量化估计的方法

Also Published As

Publication number Publication date
CN114118200A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
US11886815B2 (en) Self-supervised document representation learning
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN114118200B (zh) 一种基于注意力引导双向胶囊网络的多模态情感分类方法
CN111985538A (zh) 基于语义辅助注意力机制的小样本图片分类模型及方法
CN113837265B (zh) 基于联合域分离表示分层图融合网络的多模态情感分析方法
Zhang et al. Learning implicit class knowledge for RGB-D co-salient object detection with transformers
Dang et al. An improved hand gesture recognition system using keypoints and hand bounding boxes
CN112418166A (zh) 一种基于多模态信息的情感分布学习方法
Li et al. Robustness comparison between the capsule network and the convolutional network for facial expression recognition
Li et al. Multi-level correlation mining framework with self-supervised label generation for multimodal sentiment analysis
Lu et al. Coordinated-joint translation fusion framework with sentiment-interactive graph convolutional networks for multimodal sentiment analysis
CN116246279A (zh) 一种基于clip背景知识的图文特征融合方法
Yang et al. Self-adaptive context and modal-interaction modeling for multimodal emotion recognition
CN114926716A (zh) 一种学习参与度识别方法、装置、设备及可读存储介质
Wang et al. A cross modal hierarchical fusion multimodal sentiment analysis method based on multi-task learning
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Zhang et al. Cross-modal transformer with language query for referring image segmentation
CN107633259B (zh) 一种基于稀疏字典表示的跨模态学习方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
Nabati et al. Multimodal video-text matching using a deep bifurcation network and joint embedding of visual and textual features
Jia et al. Semantic association enhancement transformer with relative position for image captioning
Javaid et al. Manual and non-manual sign language recognition framework using hybrid deep learning techniques
Huan et al. Learning deep cross-scale feature propagation for indoor semantic segmentation
Rallis et al. Bidirectional long short-term memory networks and sparse hierarchical modeling for scalable educational learning of dance choreographies
Miah et al. Multi-stream graph-based deep neural networks for skeleton-based sign language recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant