CN112612936B - 一种基于对偶转换网络的多模态情感分类方法 - Google Patents

一种基于对偶转换网络的多模态情感分类方法 Download PDF

Info

Publication number
CN112612936B
CN112612936B CN202011581373.4A CN202011581373A CN112612936B CN 112612936 B CN112612936 B CN 112612936B CN 202011581373 A CN202011581373 A CN 202011581373A CN 112612936 B CN112612936 B CN 112612936B
Authority
CN
China
Prior art keywords
modal
dual
mode
information
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011581373.4A
Other languages
English (en)
Other versions
CN112612936A (zh
Inventor
孔万增
唐佳佳
李康
金宣妤
张建海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011581373.4A priority Critical patent/CN112612936B/zh
Publication of CN112612936A publication Critical patent/CN112612936A/zh
Application granted granted Critical
Publication of CN112612936B publication Critical patent/CN112612936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于对偶转换网络的多模态情感分类方法。本发明结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。其次,在此基础上构建的分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,从而采用一维卷积层进行融合操作,能够进一步挖掘多模态信息之间的高层次互补信息,是对当前情感识别领域的多模态融合框架的有效补充。

Description

一种基于对偶转换网络的多模态情感分类方法
技术领域
本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,具体涉及一种基于对偶转换网络的多模态情感分类方法,具体是一种基于对偶学习以及注意力机制的对偶转换融合网络技术,对多模态信息进行双向长时分层融合,从而判断被试情感状态的方法。
背景技术
情感分析领域通常包含文本数据,视频数据以及语音数据。在以往的研究中,验证了这些单模态数据中包含着与情感状态相关的判别信息。同时,研究发现,这些单模态数据之间存在的一致性和互补性能够有效解释多模态数据内部的关联表征,并且能够进一步增强模型表达能力及稳定性,提升情感任务分析性能。
现有的基于转换网络的多模态融合模型,由于所包含的自注意力机制能够一定程度上减轻多模态数据之间的不对齐问题带来的影响,因此引起了广泛关注。具体操作为,在一个模态转换为另一个模态的过程中,提取转换过程中的中间表示作为多模态融合信息。但是当某一种模态数据缺失时,中间融合数据将会缺少来自于这种模态数据的贡献,极大影响模型表现。此外,现有转换融合模型的核心模块通常采用标准的转换模型,导致模型过于笨重(即模型包含大量的参数)。另一方面,现有转换模型通常只把文本数据作为源模态,即只考虑文本到音频的转换以及文本到视频的单向转换,而并没有考虑到更复杂多样的模态转换例子,例如从音频到文本的反向转换以及视频-音频数据之间的双向转换,将会缺少更高层次的多模态融合信息,从而影响最终的任务表现。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于对偶转换网络的多模态情感分类方法。首先,构建对偶转换融合网络模块,该模块包含相互耦合的两个转换器,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息(融合信息对应于转换器中间层的输出数据)。其中,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着,在此基础上构建了一个分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,进一步采用一维卷积层进行高层次的多模态融合,从而进行情感状态判别。
本发明所采用的技术方案是:
一种基于对偶转换网络的多模态分层融合方法,包括以下步骤:
步骤1、获取多模态数据
多模态数据表示多种类型模态数据:例如音频模态、视频模态、文本模态等;
多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强任务表现;
步骤2、多模态信息数据预处理:抽取多模态信息线性变换初级表征
为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
Xm=f(Zm)=Wm*Zm+bm 公式(1)
其中
Figure BDA0002866000010000021
为第m个模态的初级表征,Zm为第m个模态的原始数据,Wm为第m个模态的线性网络的权重矩阵,bm为线性网络的偏置向量,Tm为时域维度的尺寸,dm为每一个时刻的特征向量的长度;
步骤3、基于对偶转换网络,对任意两模态信息构建闭环交互:
多模态分层融合框架中包含的核心处理模块之一为对偶转换网络模块,而对偶转换网络模块中包含若干个对偶转换网络;每个对偶转换网络用于获得第i个模态Ai与第j个模态Aj之间的跨模态交互融合信息;
对偶转换网络包含两个转换器,分别是主转换器
Figure BDA0002866000010000022
以及对偶转换器
Figure BDA0002866000010000023
其中
Figure BDA0002866000010000024
用于将源模态Ai转换为目标模态Aj
Figure BDA0002866000010000025
用于将源模态Aj转换为目标模态Ai;上述转换器采用Transformer所包含的编码器(encoder),其中的核心思想为注意力机制,即通过特定运算获取信息中与任务更相关的部分,具体是通过查询矩阵Q,关键矩阵K以及实值矩阵V,可以计算得到对应的注意力因子以及重要部分信息;
所述主转换器
Figure BDA0002866000010000026
以步骤2得到的模态Ai和Aj的初级表征Xi以及Xj作为输入数据,即Xi为源模态表征,Xj为目标模态表征;将Xi分别输入三个线性转换网络,得到对应的查询矩阵
Figure BDA0002866000010000027
关键矩阵
Figure BDA0002866000010000028
以及实值矩阵
Figure BDA0002866000010000029
Figure BDA00028660000100000210
(即对应于Xi在三个不同空间内的高维表征),表示如下:
Figure BDA0002866000010000031
Figure BDA0002866000010000032
Figure BDA0002866000010000033
其中
Figure BDA0002866000010000034
Figure BDA0002866000010000035
以及
Figure BDA0002866000010000036
是分别对应于
Figure BDA0002866000010000037
Figure BDA0002866000010000038
以及
Figure BDA0002866000010000039
的线性网络的权重矩阵;
Figure BDA00028660000100000310
为模态Ai的时域维度尺寸,
Figure BDA00028660000100000311
为线性转换网络的输出向量尺寸;
基于查询矩阵
Figure BDA00028660000100000312
以及关键矩阵
Figure BDA00028660000100000313
可以计算得到源模态Ai中的注意力因子矩阵
Figure BDA00028660000100000314
再根据注意力因子矩阵和实值矩阵
Figure BDA00028660000100000315
相作用,得到模态Ai内部元素在时域上的长时相关性;由于模态Aj为转换器的目标模态,则模态Ai内部的长时相关性对应于模态Aj的生成信息Xj’,即伪Xj
Figure BDA00028660000100000316
所述对偶转换器
Figure BDA00028660000100000317
以Xj’作为输入数据,Xi为目标模态表征,得到对应于模态Ai的生成信息
Figure BDA00028660000100000318
即伪Xi
以上的过程对应于基于Ai的对偶学习过程,包含主任务和对偶任务,其中将Xi转换为Xj’的过程为主任务,而基于Xj’生成Xi’的过程为对偶任务;首先将Xi作为主转换器
Figure BDA00028660000100000319
的源输入数据(source input),得到伪Xj(Xj’),此处需计算判别误差||Xj-Xj’||;再将主转换器的输出数据——Xj’作为对偶转换器
Figure BDA00028660000100000320
的源输入数据,得到伪Xi(Xi’),此处需计算重构误差
Figure BDA00028660000100000321
因此基于Ai的主任务和对偶任务构成了半个闭环;
而基于Aj的对偶学习过程,主任务是将Xj转换为Xi’,而基于Xi’生成Xj’的过程为对偶任务;首先将Xj作为对偶转换器
Figure BDA00028660000100000322
的源输入数据,得到伪Xi(Xi’),此处需计算判别误差||Xi-Xi’||;再将对偶转换器的输出数据——Xi’作为主转换器
Figure BDA00028660000100000323
的源输入数据,得到伪Xj(Xj’),此处需计算重构误差
Figure BDA00028660000100000324
Figure BDA0002866000010000041
基于Aj的主任务和对偶任务同样构成了半个闭环;
以上训练过程需要计算两个判别误差以及两个重构误差,即对应的损失函数为min
Figure BDA0002866000010000042
当损失函数达到阈值δ时,则结束训练;
因此,当联合基于Ai和Aj的对偶学习过程时,这两个对偶学习任务就构成了完整的闭环,能够进一步增强模型的鲁棒性,同时能确保主转换器
Figure BDA0002866000010000043
以及对偶转换器
Figure BDA0002866000010000044
中间层的输出信息同时包含了模态Ai以及模态Aj的信息,实现了跨模态之间的双向、长时交互性信息的整合;当主转换器
Figure BDA0002866000010000045
以及对偶转换器
Figure BDA0002866000010000046
训练完毕后,若目标模态Aj信息缺失时,我们也可以有效地依据模态Ai的信息实现模态Ai以及模态Aj之间的跨模态融合操作,即能有效地应对多模态学习中存在的固有问题——模态缺失问题;
步骤4、多模态信息的卷积融合操作;
根据步骤3可得到任意模态Ai和模态Aj的对偶转换网络输出为:
Figure BDA0002866000010000047
Figure BDA0002866000010000048
其中L为编码器的总层数;
将所有对应同一个源模态的融合信息按照时域维度拼接:
Figure BDA0002866000010000049
其中M为模态的总个数,
Figure BDA00028660000100000410
为拼接操作;
再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
Figure BDA00028660000100000411
其中Conv1D为一维卷积函数,K为卷积核;
最终将以上信息拼接得到最终的融合信息:
Figure BDA00028660000100000412
将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。
本发明的有益效果是:本发明结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着,在此基础上构建了一个分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,进一步采用一维卷积层进行高层次的多模态融合,是对当前情感识别领域的多模态融合框架的有效补充。
附图说明
图1为本发明方法流程图;
图2为对偶转换网络示意图;
图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图;
图4为三模态融合示意图。
具体实施方式
下面结合附图,对本发明方法做详细描述。
图1为本发明多模态情感分析方法流程图。
本发明方法基于对偶转换网络的多模态情感分析方法,如图1所示。
步骤1、获取多模态信息数据
在备试执行特定情感任务下,记录备试的文本模态数据、语音模态数据以及视频模态数据。
步骤2、多模态信息数据预处理
为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
Xm=f(Zm)=Wm*Zm+bm 公式(1)
其中
Figure BDA0002866000010000051
为第m个模态的初级表征,Zm为第m个模态的原始数据,Wm为第m个模态的线性网络的权重矩阵,bm为线性网络的偏置向量,Tm为时域维度的尺寸,dm为每一个时刻的特征向量的长度;
步骤3、基于对偶转换网络,对任意两模态信息构建3个闭环交互,得到音频模态-视频模态闭环交互,音频模态-文本模态闭环交互,文本模态-视频模态闭环交互。
音频模态-视频模态闭环交互为例:
音频模态(以A表示)和视频模态(以V表示)作为对偶转换网络模块的输入数据。对偶转换网络总共包含两个转换器,分别是主转换器TranA→V以及对偶转换器TranV→A,TranA→V对应的任务是将源模态A转换为目标模态V,对应的,TranV→A的任务是将源模态V转换为目标模态A。这里的转换器采用Transformer所包含的encoder。
对于主转换器TranA→V而言,根据步骤1得到的模态A和V的初级表征XA以及XV作为TranA→V的输入数据,其中XA为源模态表征,XV为目标模态表征。首先将XA分别输入三个线性转换网络,得到对应的查询矩阵QA、关键矩阵KA以及实值矩阵VA,表示如下:
Figure BDA0002866000010000061
Figure BDA0002866000010000062
Figure BDA0002866000010000063
基于查询矩阵QA以及关键矩阵KA可以计算得到源模态A中的注意力因子矩阵,则将该注意力因子矩阵和实值矩阵相作用,可以得到模态A内部的长时相关性,我们先假定其为对应于模态V的虚假生成信息XV’,如下所示:
Figure BDA0002866000010000064
类似的,将XV’作为对偶转换器TranV→A的源模态数据,则XA为目标模态表征,得到对应于模态A的虚假生成信息XA’=TranV→A(XV’,XA)。以上的过程对应于主任务,而对偶任务相对于主任务而言,是将XV作为源模态表征,而XA作为目标模态表征。因此,对偶任务和主任务构成了封闭的环状结构,能够有效增强模型的鲁棒性,同时能确保主转换器TranA→V以及对偶转换器TranV→A中间层的输出信息同时包含了模态A以及模态V的信息,实现了跨模态之间的双向、长时交互性信息的整合。当主转换器TranA→V以及对偶转换器TranV→A训练完毕后,若目标模态V信息缺失时,我们也可以有效地依据模态A的信息实现模态A以及模态V之间的跨模态融合操作,即能有效地应对多模态学习中存在的固有问题——模态缺失问题。
步骤4、多模态信息的卷积融合操作;
基于步骤3,模态A和模态V的对偶转换网络输出为:
[TranA→V L/2,V’]=TranA→V(A,V)
[TranV→A L/2,A’]=TranV→A(V,A) 公式(4)
模态A和模态T(文本数据)的对偶转换网络输出为:
[TranA→T L/2,T’]=TranA→T(A,T)
[TranT→A L/2,A’]=TranT→A(T,A) 公式(5)
模态V和模态T的对偶转换网络输出为:
[TranV→T L/2,T’]=TranV→T(V,T)
[TranT→V L/2,V’]=TranT→V(T,V) 公式(6)
将所有对应同一个源模态的融合信息按照时域维度拼接:
Figure BDA0002866000010000071
Figure BDA0002866000010000072
Figure BDA0002866000010000073
再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
Figure BDA0002866000010000074
Figure BDA0002866000010000075
Figure BDA0002866000010000076
最终将以上信息拼接得到最终的融合信息:
Figure BDA0002866000010000077
将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图。在此基础上,图4为三个模态A、V以及T的多模态融合流程图。
如表1所示,本发明与八种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、MELD上进行情感状态判别任务,t为文本数据(text),v为视频数据(video),a为语音数据(audio),表中结果为情感二分类任务对应的精确度。比较衡量多个现有多模态融合方法可知,本发明的结果都优于现有融合模型,证明了本发明所提出方法的有效性。
表1.结果对比表
Figure BDA0002866000010000081

Claims (7)

1.一种基于对偶转换网络的多模态情感分类方法,其特征在于包括以下步骤:
步骤1、获取多模态数据;
步骤2、多模态信息数据预处理:抽取多模态信息线性变换初级表征
为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
Xm=f(Zm)=Wm*Zm+bm 公式(1)
其中
Figure FDA0003471377430000011
为第m个模态的初级表征,Zm为第m个模态的原始数据,Wm为第m个模态的线性网络的权重矩阵,bm为线性网络的偏置向量,Tm为时域维度的尺寸,dm为每一个时刻的特征向量的长度;
步骤3、基于对偶转换网络,对任意两模态信息构建闭环交互:
每个闭环包括基于Ai和Aj模态的两个对偶学习任务;
基于Ai模态的对偶学习过程,包含主任务和对偶任务;其中主任务是利用主转换器
Figure FDA0003471377430000012
将Ai模态初级表征Xi转换为Xj′的过程,对偶任务是利用对偶转换器
Figure FDA0003471377430000013
基于Xj′生成Xi′的过程;
基于Aj模态的对偶学习过程,包含主任务和对偶任务,其中主任务是利用主转换器
Figure FDA0003471377430000014
将Aj模态初级表征Xj转换为Xi′,对偶任务是利用对偶转换器
Figure FDA0003471377430000015
基于Xi′生成Xj′的过程;
步骤4、多模态信息的卷积融合操作;
根据步骤3可得到任意模态Ai和模态Aj的对偶转换网络输出为:
Figure FDA0003471377430000016
Figure FDA0003471377430000017
其中L为编码器的总层数;
将所有对应同一个源模态的融合信息按照时域维度拼接:
Figure FDA0003471377430000018
其中M为模态的总个数,
Figure FDA0003471377430000019
为拼接操作;
再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
Figure FDA00034713774300000110
其中Conv1D为一维卷积函数,K为卷积核;
最终将以上信息拼接得到最终的融合信息:
Figure FDA0003471377430000021
将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。
2.根据权利要求1所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于主转换器
Figure FDA0003471377430000022
以步骤2得到的模态Ai和Aj的初级表征Xi以及Xj作为输入数据,即Xi为源模态表征,Xj为目标模态表征;将Xi分别输入三个线性转换网络,得到对应的查询矩阵
Figure FDA0003471377430000023
关键矩阵
Figure FDA0003471377430000024
以及实值矩阵
Figure FDA0003471377430000025
Figure FDA0003471377430000026
表示如下:
Figure FDA0003471377430000027
Figure FDA0003471377430000028
Figure FDA0003471377430000029
其中
Figure FDA00034713774300000210
以及
Figure FDA00034713774300000211
是分别对应于
Figure FDA00034713774300000212
以及
Figure FDA00034713774300000213
的线性网络的权重矩阵;
Figure FDA00034713774300000214
为模态Ai的时域维度尺寸,
Figure FDA00034713774300000215
为线性转换网络的输出向量尺寸;
基于查询矩阵
Figure FDA00034713774300000216
以及关键矩阵
Figure FDA00034713774300000217
可以计算得到源模态Ai中的注意力因子矩阵
Figure FDA00034713774300000218
再根据注意力因子矩阵和实值矩阵
Figure FDA00034713774300000219
相作用,得到模态Ai内部元素在时域上的长时相关性;由于模态Aj为转换器的目标模态,则模态Ai内部的长时相关性对应于模态Aj的生成信息Xj′,即伪Xj
Figure FDA00034713774300000220
所述对偶转换器
Figure FDA00034713774300000221
以Xj′作为输入数据,Xi为目标模态表征,得到对应于模态Ai的生成信息
Figure FDA00034713774300000222
即伪Xi
3.据权利要求1所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于基于Ai模态的对偶学习过程具体是先将Xi作为主转换器
Figure FDA00034713774300000223
的源输入数据,得到伪Xj,即Xj′,并计算判别误差||Xj-Xj′||;再将主转换器
Figure FDA0003471377430000031
的输出Xj′作为对偶转换器
Figure FDA0003471377430000032
的源输入数据,得到伪Xi,即Xi′,并计算重构误差
Figure FDA0003471377430000033
Figure FDA0003471377430000034
4.根据权利要求3所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于基于Aj模态的对偶学习过程具体是先将Xj作为对偶转换器
Figure FDA0003471377430000035
的源输入数据,得到伪Xi(Xi′),并计算判别误差||Xi-Xi′||;再将对偶转换器的输出数据--Xi′作为主转换器
Figure FDA0003471377430000036
的源输入数据,得到伪Xj(Xj′),并计算重构误差
Figure FDA0003471377430000037
Figure FDA0003471377430000038
5.根据权利要求4所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于闭环的损失函数为
Figure FDA0003471377430000039
Figure FDA00034713774300000310
6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-5任一项所述的方法。
7.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-5任一项所述的方法。
CN202011581373.4A 2020-12-28 2020-12-28 一种基于对偶转换网络的多模态情感分类方法 Active CN112612936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581373.4A CN112612936B (zh) 2020-12-28 2020-12-28 一种基于对偶转换网络的多模态情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581373.4A CN112612936B (zh) 2020-12-28 2020-12-28 一种基于对偶转换网络的多模态情感分类方法

Publications (2)

Publication Number Publication Date
CN112612936A CN112612936A (zh) 2021-04-06
CN112612936B true CN112612936B (zh) 2022-03-08

Family

ID=75248348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581373.4A Active CN112612936B (zh) 2020-12-28 2020-12-28 一种基于对偶转换网络的多模态情感分类方法

Country Status (1)

Country Link
CN (1) CN112612936B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254741B (zh) * 2021-06-16 2021-09-28 苏州大学 基于融合模态内和模态间关系的数据处理方法及系统
CN118113886A (zh) * 2023-12-04 2024-05-31 书行科技(北京)有限公司 模态信息生成方法、装置、电子设备及存储介质
CN118038499B (zh) * 2024-04-12 2024-07-19 北京航空航天大学 一种基于模态转换的跨模态行人再识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444277B (zh) * 2019-07-19 2023-03-28 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
CN111581405B (zh) * 2020-04-26 2021-10-26 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111553295B (zh) * 2020-05-01 2023-05-09 北京邮电大学 基于自注意力机制的多模态情感识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的多模态情感识别方法研究;张园园;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN112612936A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112612936B (zh) 一种基于对偶转换网络的多模态情感分类方法
Wu et al. Multimodal large language models: A survey
WO2020093761A1 (zh) 一种面向软件缺陷知识的实体、关系联合抽取方法
CN112633010A (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN116628490A (zh) 图文音多模态预训练模型方法、装置、电子设备和介质
CN113779996B (zh) 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
JP2022006173A (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN111061951A (zh) 一种基于双层自注意力评论建模的推荐模型
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN118114188B (zh) 基于多视角和分层融合的虚假新闻检测方法
CN116126341A (zh) 模型编译方法、装置、计算机设备及计算机可读存储介质
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及系统
CN114926716B (zh) 一种学习参与度识别方法、装置、设备及可读存储介质
CN117235114A (zh) 基于跨模态语义与混合反事实训练的检索方法
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
Zhao et al. Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis
CN116932770A (zh) 基于模态间交互的多模态知识图谱实体对齐方法及系统
CN116522107A (zh) 一种具有鲁棒性的多模态情感分析方法
CN117034186A (zh) 基于关联信息的知识库融合方法及系统
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN114936552A (zh) 未对齐行为信息动态调整单词表示的多模态情感识别方法
Gupta et al. Attention-free based dual-encoder mechanism for Aspect-based Multimodal Sentiment Recognition
CN112698833A (zh) 一种基于局部和全局特征的特征依恋代码味道检测方法
CN113409769A (zh) 基于神经网络模型的数据识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant