CN114118200B - 一种基于注意力引导双向胶囊网络的多模态情感分类方法 - Google Patents
一种基于注意力引导双向胶囊网络的多模态情感分类方法 Download PDFInfo
- Publication number
- CN114118200B CN114118200B CN202111120932.6A CN202111120932A CN114118200B CN 114118200 B CN114118200 B CN 114118200B CN 202111120932 A CN202111120932 A CN 202111120932A CN 114118200 B CN114118200 B CN 114118200B
- Authority
- CN
- China
- Prior art keywords
- modal
- text
- capsule
- attention
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 239000002775 capsule Substances 0.000 title claims abstract description 64
- 230000008451 emotion Effects 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 40
- 230000008846 dynamic interplay Effects 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 5
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000008878 coupling Effects 0.000 claims description 7
- 238000010168 coupling process Methods 0.000 claims description 7
- 238000005859 coupling reaction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 6
- 241000006302 Usnea Species 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 101100268668 Caenorhabditis elegans acc-2 gene Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000009022 nonlinear effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000007963 capsule composition Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于注意力引导双向胶囊网络的多模态情感分类方法。由于具有可训练的视点不变变换特性,胶囊网络目前在分析多模态学习的异质性问题上已经证明了它的有效性。在预处理阶段,本发明提供了多模态动态交互增强模块,在特征层面上显式地增强了跨模态同质性,这有利于模型在更加紧凑的局部公共空间内有效地执行多模态解耦过程。在此基础上,提出了基于注意力引导的双向胶囊网络(ABCN),通过新的双向动态路由机制来探索全局多模态公共消息。然后,利用全局多模态上下文来指导多模态动态路由过程,同时研究每个模态的全局最优公共线索。这大大提高了学习效率,并提供了在所有模式之间架起桥梁的优越能力。
Description
技术领域
本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,涉及一种基于注意力引导双向胶囊网络的多模态情感分类方法,具体是一种基于胶囊网络学习以及注意力机制的注意力引导的双向胶囊网络技术,对多模态信息进行双向探索解耦及融合,从而判断被试情感状态的方法。
背景技术
多模态学习提高了人们对人工智能系统的兴趣,语言、声学和视觉模式被广泛用于分析相关的研究任务。直观上,单个模态能够从特定的角度分析与任务相关的信息,而多种模态的整合则有利于我们有效地推理出多模态信息的复杂而全面的含义。由于不同内容之间的深度推理,相应的融合模型学会隐式地将联合的和本质的跨模态相互关联纳入最终的多模态表示。然而,传统的多模态情感分类方法在处理模态差异方面存在局限性,这并不能有效地减少模式之间的冗余。最近,基于胶囊的网络在计算机视觉中,借助可训练的视点不变变换,在捕获各种来源之间的部分-整体关系方面取得了显著的性能,因此受到了广泛的关注。但是,上述技术只是通过自下而上的注意力来关注表示层和输出层之间的空间关系。这确实忽略了多模态之间内在的上下文关系,未能为每个模态提供全局指导,导致局部次优解耦过程。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于注意力引导双向胶囊网络的多模态情感分类方法。在预处理阶段,提出了多模态动态交互增强模块,以显式地增加原始特征空间的跨模态同质性,这自然为我们提供了在更紧凑的局部公共空间内有效执行多模态解耦任务的好处。此外,通过设计新的双向动态路由机制,提出了探索全局最优多模态公共信息的注意力引导的双向胶囊网络(ABCN)。具体来说,ABCN采用自上向下的基于注意力的模块(Transformer的编码器),直接在特性级别提取内在的多模态上下文。然后,利用全局多模态上下文来指导多模态动态路由过程,使得学习模型具有在所有模态的指导下同时挖掘各模态上下文感知公共特性的强大能力。换句话说,全局最优推理流可以在多种模态之间有效度量。值得注意的是,与传统的胶囊网络相比,我们基于胶囊的架构用提出的多头卷积组件代替了变换矩阵。这在保持胶囊框架优点的同时,考虑了所需的卷积特性,从而提出了多路、全面的信息流。
一种基于注意力引导双向胶囊网络的多模态情感分类方法,采用的网络包括多模态动态交互增强模块和ABCN。多模态动态交互增强模块用于增强特征水平上的跨模态同质性。ABCN用于探索全局多模态公共线索。
该方法的具体步骤如下:
步骤1、获取多模态数据。
步骤2、对三种模态数据进行交互增强。
步骤3、注意力引导的双向胶囊网络。
其中,Conv(·)为卷积组件;kernel为可变卷积核。
其中,s为卷积投影头的序数;kernel为第s个可变卷积核;i=1,2,...,Nu。
3-2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文;第s个头的多模态上下文atten[s]的表达式如下:
其中,Tran(·)表示Transformer的编码器。
3-5.通过卷积操作,多头的高层胶囊集成到最终的模态感知公共信息{coma,comv,comt}中;然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common=conv(concat(coma,comv,comt),kernel)。
步骤四、将步骤三所得的多模态公共表示common输入线性分类层,将输出信息与情感类别标签进行对比,得到被测对象在提取被测数据时所处的情感分类情况。
作为优选,步骤1中所述的三种模态数据分别为音频模态Xa、视频模态Xv、文本模态Xt。
作为优选,步骤2中,采用多模态动态交互增强模块对三种模态数据进行交互增强。多模态动态交互增强模块包括一个或多个进程头;每个进程头包括一个或多个自适应迭代。进程头数量为M;每个进程头中自适应迭代的数量为N。
其中,为第m个进程头的第n次自适应迭代得到的文本增强音频表示,为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示,为第m个进程头的第i次自适应迭代得到的文本增强音频表示。softmax(·)表示softmax函数运算。m=1,2,...,M。
其中,concat(·)为多头的连接函数;Conv(·)为卷积组件。
作为优选,三种模态数据用于识别被测对象所处的公众情感基准;公众情感基准共有两种,分别为正类情感和负类情感。
作为优选,步骤三中,利用HingeLoss函数参与分析非线性信息,减少模态注意公共信息之间的差异;具体如下:
其中,SimilarityLoss为相似性误差;max(·)为取最大值运算;D(·)为查找向量运算。
计算差异性误差DifferenceLoss的表达式如下:
本发明还提供一种多模态情感分类系统,其包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现前述的多模态情感分类方法。
所述的存储器是一种机器可读存储介质,其存储的机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前述的多模态情感分类方法。
本发明的有益效果如下:
1.本发明提出了多模态动态交互增强模块,以显式增强音频模态(视频模态)和文本模态之间的跨模态同质性,生成文本增强的音频(视频)表示,也代表局部跨模态公共信息。
2.本发明中的多模态动态交互增强模块直接突出双线性交互特性空间的跨模态依赖性,允许显式地促进和增强双模态同质性;为我们提供了强大的能力,以有效地从特征空间探索潜在的和内在的模态共享的共同信息。
3.本发明在单头跨模态增强模块的基础上,进一步建立多头跨模态增强网络,采集多路文本增强表示;此外,还引入了卷积组件对多路文本增强表示进行分析,从而更加深入探索文本增强信息之间的潜在交互,生成更加紧凑的文本感知的音频表示。
4.本发明中的多模态动态交互增强模块使ABCN能够在更紧凑的局部公共空间内有效地执行多模态解耦任务;也就是说,ABCN可以专注于更加紧凑的表达空间,而不是原来庞大复杂的表达空间;这确实大大提高了学习效率,并提供了基于局部次最优公共空间研究全局最优公共信息流的优越能力。
5.本发明将线性替换为卷积投影,得到新的胶囊,其包含了理想的卷积非线性性质;这允许更细粒度的底层胶囊相对于高层胶囊的投影过程。
6.本发明将上述单头卷积投影设计扩展到拥有可变卷积核的多头情况;多头机制确实有潜力促成低层胶囊与高层胶囊之间的多路、全面的信息流。
7.本发明进一步应用了的多模态上下文来指导动态路由过程,赋予了学习模型强大的能力,可以在所有模态的指导下,同时度量每个模态的上下文感知公共特性;也就是说,全局最优多模态推理流可以在多模态表示胶囊和公共胶囊之间有效学习,生成更有甄别性的原生表示。
附图说明
图1为本发明方法流程图;
图2为本发明方法整体架构图;
图3为本发明提供的多模态动态交互增强模块示意图;
图4为本发明提供的注意力引导的双向胶囊网络示意图。
具体实施方式
下面结合附图,对本发明方法做详细描述。
如图1和2所示,一种基于注意力引导双向胶囊网络的多模态情感分类方法,具体步骤如下:
如图1所示,该方法采用的基于注意力引导双向胶囊网络包括两个重要组成部分:1)多模态动态交互增强模块,用于增强特征水平上的跨模态同质性;2)ABCN,用于探索全局多模态公共线索。包括以下步骤:
步骤1、获取多模态数据
多模态数据表示多种类型模态数据:例如音频模态、视频模态、文本模态;多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强任务表现;两种公众情感基准由音频、视频和文本三种模态组成;两种公众情感基准分别为正类(积极)情感和负类(消极)情感。三种模态表示形式分别为Ti(i∈{a,v,t})分别是三种模态时域维度的尺寸,di(i∈{a,v,t})分别是三种模态每一个时刻的特征向量的长度;为简便起见,我们采用线性函数对{Xa,Xv,Xt}进行分析处理得到相同的特征维数di,即da=dv=dt;
步骤2、多模态动态交互增强模块
提出了如图2和3所示的多模态动态交互增强模块,以显式增强Xa(Xv)和Xt之间的跨模态同质性,生成文本增强的音频(视频)表示,以及音频和视频共同增强的文本表示,也代表局部跨模态公共信息;具体来说,所提出的多模态动态交互增强模块由M个进程头组成,每个进程头由N个自适应迭代组成;直观地说,多头机制允许在多视角下提取跨模态依赖关系,在双线性跨模态空间中得到综合的相互关系;对于单头情况,和将先被输入模块中以寻找相似系数(图3);经过N次迭代的文本增强的音频表示公式如下:
其中,为第m个进程头的第n次自适应迭代得到的文本增强音频表示,为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示,为第m个进程头的第i次自适应迭代得到的文本增强音频表示。softmax(·)表示softmax函数运算。m=1,2,...,M。
在迭代的第一阶段,采用点积运算将不同的模态显式投影到双线性交互特征空间Xa·Xt中,其中Xa·Xt的信息表示跨模态的相互关系;随后,引入softmax函数,分析音频模态中的话语如何受到文本模态中的话语的影响,得到文本模态对音频模态的影响系数;然后,利用得到的影响系数对原始音频模态进行处理,实现文本增强的音频表示;换句话说,直接突出双线性交互特性空间的跨模态依赖性,允许显式地促进和增强双模态同质性;这确实为我们提供了强大的能力,以有效地从特征空间探索潜在的和内在的模态共享的共同信息;在第一轮迭代的基础上,下一轮迭代利用前一轮迭代的输出动态更新双线性跨模态子空间;也就是说,将之前文本增强的音频表示作为输入数据交付给下一个迭代,并潜在地用于探索新的双线性交互子空间;之前的低阶双线性子空间作为以下高阶双线性子空间的动态移位(残差项),得到更加紧凑和健壮的双线性跨模态交互子空间;注意Xv的过程与Xa相似;
在单头跨模态增强模块的基础上,进一步建立多头跨模态增强网络,采集多路文本增强表示Xa MulHead,concat(·)为多头的连接函数;Conv(·)为卷积组件;此外,还引入了卷积组件对Xa MulHead进行分析,从而更加深入探索文本增强信息之间的潜在交互,生成更加紧凑的文本感知的音频表示根据相似的方法获得文本感知的视频表示之后,将与以学习得到的第一比例Ca和第二比例Cv加到文本模态Xt中,获得增强的文本模态具体如下:
步骤3、注意力引导的双向胶囊网络(ABCN)
以增强模块的输出作为输入,通过ABCN来进一步研究全局多模态公共信息;直观地说,增强模块使ABCN能够在更紧凑的局部公共空间内有效地执行多模态解耦任务;也就是说,ABCN可以专注于更加紧凑的表达空间,而不是原来庞大复杂的表达空间;这确实大大提高了学习效率,并提供了基于局部次最优公共空间研究全局最优公共信息流的优越能力;
如图2和4所示,ABCN主要由低层多模态表示胶囊和高层模态感知公共胶囊组成;其中,Nu和Nv分别为低层和高层胶囊的数量;在传统的胶囊网络中,每个ui乘以一个可训练的变换矩阵Wij,得到投票矩阵表示较低层ui相对于较高层胶囊vj的投影:
与传统的胶囊网络相比,我们将线性Wij替换为卷积投影,得到新的包含了理想的卷积非线性性质;这允许更细粒度的底层胶囊ui相对于高层胶囊vj的投影过程,其中Conv(·)为卷积组件;kernel是可变卷积核,可变卷积核为卷积组件进行卷积操作时所采用卷积核,本质是一个权重矩阵;投票矩阵表示较低层ui相对于较高层胶囊vj的投影:
此外,我们将上述单头卷积投影设计扩展到拥有可变卷积核的多头情况;实际上,多头机制确实有潜力促成低层胶囊ui与高层胶囊vj之间的多路、全面的信息流,其中s为具体的卷积投影头,对应第s个卷积投影头的投票矩阵:
值得注意的是,胶囊网络自下而上的注意力只能分析低级表示胶囊与高级普通胶囊之间的部分-整体(空间)关系;这只突出了一小部分低级胶囊ui的贡献,而完全忽略了多模态表示中内在和本质的上下文信息,导致在和之间的局部次优推理流;因此,在这项工作中,我们利用Transformer的编码器直接从表现空间中挖掘内在的多模态上下文;形式上,第s个头的多模态上下文atten[s]定义如下,分别为第一个和第Nu个投票矩阵:
其中,Tran表示Transformer的编码器;随后,采用具有Nv迭代的动态路由过程,探索多种模态之间的全局最优公共表示;在每次迭代时,利用耦合系数来分析和之间的信息流,该耦合系数是基于初始化为0的临时累积变量计算的;具体流程如下,其中分别为第1到第Nv个耦合系数、第1到第Nv个临时累积变量:
然后,高层胶囊表示为的加权和,并借助相应的和多模态上下文线索atten[s];从本质上讲,与传统的胶囊网络中只依赖于和不同,我们的模型进一步应用了atten[s]来指导动态路由过程并更新这确实赋予了学习模型强大的能力,可以在所有模态的指导下,同时度量每个模态(ui)的上下文感知公共特性;也就是说,全局最优多模态推理流可以在多模态表示胶囊ui和公共胶囊vj之间有效学习,生成更有甄别性的原生表示;
当多头设置为2时,每个模态可以计算2个对应的模态感知公共信息然后,通过卷积操作,公共信息可以进一步集成到最终的模态感知公共信息{coma,comv,comt}中;例如,然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示中:common=conv(concat(coma,comv,comt),kernel);
如前所述,卷积投影被用来分析底层胶囊ui,它允许卷积非线性表示;因此,我们引入HingeLoss函数参与分析非线性信息,以减少模态注意公共信息之间的差异:
其中,SimilarityLoss为相似性误差;max(·)为取最大值运算;D(·)为查找向量运算,comi和comj会被赋予一个独立的向量。
最后,将最终的融合信息输入线性分类层,将输出信息与情感类别标签进行对比,得到最终的分类结果。
如表1所示,使用本发明与现有多种多模态融合方法同时在多模态情感数据库CMU-MOSI进行情感状态判别任务。此外,还引入了以下评价指标来分析模型的性能:平均绝对误差(MAE)、皮尔逊相关(Corr)、二分类精度(Acc-2)、F-Score(F1)、七分类精度(Acc-7)。事实上,存在两种不同的方法来测量Acc-2和F1。1)在(Zadeh et al.2018b)的工作中,负类的标注范围为[-3,0),而非负类的标注范围为[0,3]。2)在(Tsai et al.2019)的工作中,负类和正类的范围分别为[-3,0)和(0,3]。使用标记-/-来区分不同的策略,其中左边的值表示1),右边的值表示2)。比较衡量多个现有多模态融合方法可知,本发明的结果都优于现有融合模型,证明了本发明所提出方法的有效性。
表1
Claims (5)
1.一种基于注意力引导双向胶囊网络的多模态情感分类方法,其特征在于:步骤1、获取多模态数据;
提取被测对象的三种模态数据;所述的三种模态数据分别为音频模态Xa、视频模态Xv、文本模态Xt;三种模态数据分别记为Ti(i∈{a,v,t})是时域维度的尺寸,di(i∈{a,v,t})是每一个时刻的特征向量的长度;
步骤2、对三种模态数据进行交互增强;
采用多模态动态交互增强模块对三种模态数据进行交互增强;多模态动态交互增强模块包括一个或多个进程头;每个进程头包括一个或多个自适应迭代;进程头数量为M;每个进程头中自适应迭代的数量为N;
其中,为第m个进程头的第n次自适应迭代得到的文本增强音频表示,为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示,为第m个进程头的第i次自适应迭代得到的文本增强音频表示;softmax(·)表示softmax函数运算;m=1,2,...,M;
其中,concat(·)为多头的连接函数;Conv(·)为卷积组件;
步骤3、注意力引导的双向胶囊网络;
其中,Conv(·)为卷积组件;kernel为可变卷积核;
其中,s为卷积投影头的序数;kernel为第s个可变卷积核;i=1,2,...,Nu;
3-2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文;第s个头的多模态上下文atten[s]的表达式如下:
其中,Tran(·)表示Transformer的编码器;
3-5.通过卷积操作,多头的高层胶囊集成到最终的模态感知公共信息{coma,comv,comt}中;然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common=conv(concat(coma,comv,comt),kernel);
步骤四、将步骤三所得的多模态公共表示common输入线性分类层,将输出信息与情感类别标签进行对比,得到被测对象在提取被测数据时所处的情感分类情况。
2.根据权利要求1所述的一种基于注意力引导双向胶囊网络的多模态情感分类方法,其特征在于:三种模态数据用于识别被测对象所处的公众情感基准;公众情感基准共有两种,分别为正类情感和负类情感。
4.一种多模态情感分类系统,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-3任一项所述的方法。
5.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111120932.6A CN114118200B (zh) | 2021-09-24 | 2021-09-24 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111120932.6A CN114118200B (zh) | 2021-09-24 | 2021-09-24 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114118200A CN114118200A (zh) | 2022-03-01 |
CN114118200B true CN114118200B (zh) | 2023-05-12 |
Family
ID=80441178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111120932.6A Active CN114118200B (zh) | 2021-09-24 | 2021-09-24 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118200B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114329036B (zh) * | 2022-03-16 | 2022-07-05 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
CN115331460B (zh) * | 2022-07-25 | 2024-05-14 | 武汉理工大学 | 一种基于深度强化学习的大规模交通信号控制方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522548A (zh) * | 2018-10-26 | 2019-03-26 | 天津大学 | 一种基于双向交互神经网络的文本情感分析方法 |
CN110826336B (zh) * | 2019-09-18 | 2020-11-06 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN110728997B (zh) * | 2019-11-29 | 2022-03-22 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测系统 |
CN112256918B (zh) * | 2020-11-17 | 2021-07-06 | 中国计量大学 | 一种基于多模态动态路由的短视频点击率预测方法 |
CN112883167A (zh) * | 2021-03-18 | 2021-06-01 | 江西师范大学 | 基于层次化自制力机制胶囊网络的文本情感分类模型 |
CN112801219B (zh) * | 2021-03-22 | 2021-06-18 | 华南师范大学 | 一种多模态情感分类方法、装置及设备 |
CN113283234B (zh) * | 2021-05-28 | 2022-05-06 | 天津大学 | 一种基于胶囊网络的情感分类方法 |
CN113257281B (zh) * | 2021-07-02 | 2021-09-21 | 四川省人工智能研究院(宜宾) | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
-
2021
- 2021-09-24 CN CN202111120932.6A patent/CN114118200B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114118200A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886815B2 (en) | Self-supervised document representation learning | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN114118200B (zh) | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 | |
CN111985538A (zh) | 基于语义辅助注意力机制的小样本图片分类模型及方法 | |
CN113837265B (zh) | 基于联合域分离表示分层图融合网络的多模态情感分析方法 | |
Zhang et al. | Learning implicit class knowledge for RGB-D co-salient object detection with transformers | |
Dang et al. | An improved hand gesture recognition system using keypoints and hand bounding boxes | |
CN112418166A (zh) | 一种基于多模态信息的情感分布学习方法 | |
Li et al. | Robustness comparison between the capsule network and the convolutional network for facial expression recognition | |
Li et al. | Multi-level correlation mining framework with self-supervised label generation for multimodal sentiment analysis | |
Lu et al. | Coordinated-joint translation fusion framework with sentiment-interactive graph convolutional networks for multimodal sentiment analysis | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
Yang et al. | Self-adaptive context and modal-interaction modeling for multimodal emotion recognition | |
CN114926716A (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
Wang et al. | A cross modal hierarchical fusion multimodal sentiment analysis method based on multi-task learning | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
Zhang et al. | Cross-modal transformer with language query for referring image segmentation | |
CN107633259B (zh) | 一种基于稀疏字典表示的跨模态学习方法 | |
CN114169408A (zh) | 一种基于多模态注意力机制的情感分类方法 | |
Nabati et al. | Multimodal video-text matching using a deep bifurcation network and joint embedding of visual and textual features | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Javaid et al. | Manual and non-manual sign language recognition framework using hybrid deep learning techniques | |
Huan et al. | Learning deep cross-scale feature propagation for indoor semantic segmentation | |
Rallis et al. | Bidirectional long short-term memory networks and sparse hierarchical modeling for scalable educational learning of dance choreographies | |
Miah et al. | Multi-stream graph-based deep neural networks for skeleton-based sign language recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |