CN112612936B - 一种基于对偶转换网络的多模态情感分类方法 - Google Patents
一种基于对偶转换网络的多模态情感分类方法 Download PDFInfo
- Publication number
- CN112612936B CN112612936B CN202011581373.4A CN202011581373A CN112612936B CN 112612936 B CN112612936 B CN 112612936B CN 202011581373 A CN202011581373 A CN 202011581373A CN 112612936 B CN112612936 B CN 112612936B
- Authority
- CN
- China
- Prior art keywords
- modal
- dual
- mode
- information
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种基于对偶转换网络的多模态情感分类方法。本发明结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。其次,在此基础上构建的分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,从而采用一维卷积层进行融合操作,能够进一步挖掘多模态信息之间的高层次互补信息,是对当前情感识别领域的多模态融合框架的有效补充。
Description
技术领域
本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,具体涉及一种基于对偶转换网络的多模态情感分类方法,具体是一种基于对偶学习以及注意力机制的对偶转换融合网络技术,对多模态信息进行双向长时分层融合,从而判断被试情感状态的方法。
背景技术
情感分析领域通常包含文本数据,视频数据以及语音数据。在以往的研究中,验证了这些单模态数据中包含着与情感状态相关的判别信息。同时,研究发现,这些单模态数据之间存在的一致性和互补性能够有效解释多模态数据内部的关联表征,并且能够进一步增强模型表达能力及稳定性,提升情感任务分析性能。
现有的基于转换网络的多模态融合模型,由于所包含的自注意力机制能够一定程度上减轻多模态数据之间的不对齐问题带来的影响,因此引起了广泛关注。具体操作为,在一个模态转换为另一个模态的过程中,提取转换过程中的中间表示作为多模态融合信息。但是当某一种模态数据缺失时,中间融合数据将会缺少来自于这种模态数据的贡献,极大影响模型表现。此外,现有转换融合模型的核心模块通常采用标准的转换模型,导致模型过于笨重(即模型包含大量的参数)。另一方面,现有转换模型通常只把文本数据作为源模态,即只考虑文本到音频的转换以及文本到视频的单向转换,而并没有考虑到更复杂多样的模态转换例子,例如从音频到文本的反向转换以及视频-音频数据之间的双向转换,将会缺少更高层次的多模态融合信息,从而影响最终的任务表现。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于对偶转换网络的多模态情感分类方法。首先,构建对偶转换融合网络模块,该模块包含相互耦合的两个转换器,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息(融合信息对应于转换器中间层的输出数据)。其中,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着,在此基础上构建了一个分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,进一步采用一维卷积层进行高层次的多模态融合,从而进行情感状态判别。
本发明所采用的技术方案是:
一种基于对偶转换网络的多模态分层融合方法,包括以下步骤:
步骤1、获取多模态数据
多模态数据表示多种类型模态数据:例如音频模态、视频模态、文本模态等;
多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强任务表现;
步骤2、多模态信息数据预处理:抽取多模态信息线性变换初级表征
为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
Xm=f(Zm)=Wm*Zm+bm 公式(1)
步骤3、基于对偶转换网络,对任意两模态信息构建闭环交互:
多模态分层融合框架中包含的核心处理模块之一为对偶转换网络模块,而对偶转换网络模块中包含若干个对偶转换网络;每个对偶转换网络用于获得第i个模态Ai与第j个模态Aj之间的跨模态交互融合信息;
对偶转换网络包含两个转换器,分别是主转换器以及对偶转换器其中用于将源模态Ai转换为目标模态Aj,用于将源模态Aj转换为目标模态Ai;上述转换器采用Transformer所包含的编码器(encoder),其中的核心思想为注意力机制,即通过特定运算获取信息中与任务更相关的部分,具体是通过查询矩阵Q,关键矩阵K以及实值矩阵V,可以计算得到对应的注意力因子以及重要部分信息;
所述主转换器以步骤2得到的模态Ai和Aj的初级表征Xi以及Xj作为输入数据,即Xi为源模态表征,Xj为目标模态表征;将Xi分别输入三个线性转换网络,得到对应的查询矩阵关键矩阵以及实值矩阵 (即对应于Xi在三个不同空间内的高维表征),表示如下:
基于查询矩阵以及关键矩阵可以计算得到源模态Ai中的注意力因子矩阵再根据注意力因子矩阵和实值矩阵相作用,得到模态Ai内部元素在时域上的长时相关性;由于模态Aj为转换器的目标模态,则模态Ai内部的长时相关性对应于模态Aj的生成信息Xj’,即伪Xj:
以上的过程对应于基于Ai的对偶学习过程,包含主任务和对偶任务,其中将Xi转换为Xj’的过程为主任务,而基于Xj’生成Xi’的过程为对偶任务;首先将Xi作为主转换器的源输入数据(source input),得到伪Xj(Xj’),此处需计算判别误差||Xj-Xj’||;再将主转换器的输出数据——Xj’作为对偶转换器的源输入数据,得到伪Xi(Xi’),此处需计算重构误差因此基于Ai的主任务和对偶任务构成了半个闭环;
而基于Aj的对偶学习过程,主任务是将Xj转换为Xi’,而基于Xi’生成Xj’的过程为对偶任务;首先将Xj作为对偶转换器的源输入数据,得到伪Xi(Xi’),此处需计算判别误差||Xi-Xi’||;再将对偶转换器的输出数据——Xi’作为主转换器的源输入数据,得到伪Xj(Xj’),此处需计算重构误差 基于Aj的主任务和对偶任务同样构成了半个闭环;
因此,当联合基于Ai和Aj的对偶学习过程时,这两个对偶学习任务就构成了完整的闭环,能够进一步增强模型的鲁棒性,同时能确保主转换器以及对偶转换器中间层的输出信息同时包含了模态Ai以及模态Aj的信息,实现了跨模态之间的双向、长时交互性信息的整合;当主转换器以及对偶转换器训练完毕后,若目标模态Aj信息缺失时,我们也可以有效地依据模态Ai的信息实现模态Ai以及模态Aj之间的跨模态融合操作,即能有效地应对多模态学习中存在的固有问题——模态缺失问题;
步骤4、多模态信息的卷积融合操作;
根据步骤3可得到任意模态Ai和模态Aj的对偶转换网络输出为:
其中L为编码器的总层数;
将所有对应同一个源模态的融合信息按照时域维度拼接:
再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
其中Conv1D为一维卷积函数,K为卷积核;
最终将以上信息拼接得到最终的融合信息:
将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。
本发明的有益效果是:本发明结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着,在此基础上构建了一个分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,进一步采用一维卷积层进行高层次的多模态融合,是对当前情感识别领域的多模态融合框架的有效补充。
附图说明
图1为本发明方法流程图;
图2为对偶转换网络示意图;
图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图;
图4为三模态融合示意图。
具体实施方式
下面结合附图,对本发明方法做详细描述。
图1为本发明多模态情感分析方法流程图。
本发明方法基于对偶转换网络的多模态情感分析方法,如图1所示。
步骤1、获取多模态信息数据
在备试执行特定情感任务下,记录备试的文本模态数据、语音模态数据以及视频模态数据。
步骤2、多模态信息数据预处理
为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
Xm=f(Zm)=Wm*Zm+bm 公式(1)
步骤3、基于对偶转换网络,对任意两模态信息构建3个闭环交互,得到音频模态-视频模态闭环交互,音频模态-文本模态闭环交互,文本模态-视频模态闭环交互。
音频模态-视频模态闭环交互为例:
音频模态(以A表示)和视频模态(以V表示)作为对偶转换网络模块的输入数据。对偶转换网络总共包含两个转换器,分别是主转换器TranA→V以及对偶转换器TranV→A,TranA→V对应的任务是将源模态A转换为目标模态V,对应的,TranV→A的任务是将源模态V转换为目标模态A。这里的转换器采用Transformer所包含的encoder。
对于主转换器TranA→V而言,根据步骤1得到的模态A和V的初级表征XA以及XV作为TranA→V的输入数据,其中XA为源模态表征,XV为目标模态表征。首先将XA分别输入三个线性转换网络,得到对应的查询矩阵QA、关键矩阵KA以及实值矩阵VA,表示如下:
基于查询矩阵QA以及关键矩阵KA可以计算得到源模态A中的注意力因子矩阵,则将该注意力因子矩阵和实值矩阵相作用,可以得到模态A内部的长时相关性,我们先假定其为对应于模态V的虚假生成信息XV’,如下所示:
类似的,将XV’作为对偶转换器TranV→A的源模态数据,则XA为目标模态表征,得到对应于模态A的虚假生成信息XA’=TranV→A(XV’,XA)。以上的过程对应于主任务,而对偶任务相对于主任务而言,是将XV作为源模态表征,而XA作为目标模态表征。因此,对偶任务和主任务构成了封闭的环状结构,能够有效增强模型的鲁棒性,同时能确保主转换器TranA→V以及对偶转换器TranV→A中间层的输出信息同时包含了模态A以及模态V的信息,实现了跨模态之间的双向、长时交互性信息的整合。当主转换器TranA→V以及对偶转换器TranV→A训练完毕后,若目标模态V信息缺失时,我们也可以有效地依据模态A的信息实现模态A以及模态V之间的跨模态融合操作,即能有效地应对多模态学习中存在的固有问题——模态缺失问题。
步骤4、多模态信息的卷积融合操作;
基于步骤3,模态A和模态V的对偶转换网络输出为:
[TranA→V L/2,V’]=TranA→V(A,V)
[TranV→A L/2,A’]=TranV→A(V,A) 公式(4)
模态A和模态T(文本数据)的对偶转换网络输出为:
[TranA→T L/2,T’]=TranA→T(A,T)
[TranT→A L/2,A’]=TranT→A(T,A) 公式(5)
模态V和模态T的对偶转换网络输出为:
[TranV→T L/2,T’]=TranV→T(V,T)
[TranT→V L/2,V’]=TranT→V(T,V) 公式(6)
将所有对应同一个源模态的融合信息按照时域维度拼接:
再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
最终将以上信息拼接得到最终的融合信息:
将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图。在此基础上,图4为三个模态A、V以及T的多模态融合流程图。
如表1所示,本发明与八种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、MELD上进行情感状态判别任务,t为文本数据(text),v为视频数据(video),a为语音数据(audio),表中结果为情感二分类任务对应的精确度。比较衡量多个现有多模态融合方法可知,本发明的结果都优于现有融合模型,证明了本发明所提出方法的有效性。
表1.结果对比表
Claims (7)
1.一种基于对偶转换网络的多模态情感分类方法,其特征在于包括以下步骤:
步骤1、获取多模态数据;
步骤2、多模态信息数据预处理:抽取多模态信息线性变换初级表征
为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
Xm=f(Zm)=Wm*Zm+bm 公式(1)
步骤3、基于对偶转换网络,对任意两模态信息构建闭环交互:
每个闭环包括基于Ai和Aj模态的两个对偶学习任务;
步骤4、多模态信息的卷积融合操作;
根据步骤3可得到任意模态Ai和模态Aj的对偶转换网络输出为:
其中L为编码器的总层数;
将所有对应同一个源模态的融合信息按照时域维度拼接:
再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
其中Conv1D为一维卷积函数,K为卷积核;
最终将以上信息拼接得到最终的融合信息:
将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。
2.根据权利要求1所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于主转换器以步骤2得到的模态Ai和Aj的初级表征Xi以及Xj作为输入数据,即Xi为源模态表征,Xj为目标模态表征;将Xi分别输入三个线性转换网络,得到对应的查询矩阵关键矩阵以及实值矩阵 表示如下:
基于查询矩阵以及关键矩阵可以计算得到源模态Ai中的注意力因子矩阵再根据注意力因子矩阵和实值矩阵相作用,得到模态Ai内部元素在时域上的长时相关性;由于模态Aj为转换器的目标模态,则模态Ai内部的长时相关性对应于模态Aj的生成信息Xj′,即伪Xj:
6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-5任一项所述的方法。
7.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581373.4A CN112612936B (zh) | 2020-12-28 | 2020-12-28 | 一种基于对偶转换网络的多模态情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581373.4A CN112612936B (zh) | 2020-12-28 | 2020-12-28 | 一种基于对偶转换网络的多模态情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112612936A CN112612936A (zh) | 2021-04-06 |
CN112612936B true CN112612936B (zh) | 2022-03-08 |
Family
ID=75248348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011581373.4A Active CN112612936B (zh) | 2020-12-28 | 2020-12-28 | 一种基于对偶转换网络的多模态情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612936B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254741B (zh) * | 2021-06-16 | 2021-09-28 | 苏州大学 | 基于融合模态内和模态间关系的数据处理方法及系统 |
CN118113886A (zh) * | 2023-12-04 | 2024-05-31 | 书行科技(北京)有限公司 | 模态信息生成方法、装置、电子设备及存储介质 |
CN118038499B (zh) * | 2024-04-12 | 2024-07-19 | 北京航空航天大学 | 一种基于模态转换的跨模态行人再识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178389A (zh) * | 2019-12-06 | 2020-05-19 | 杭州电子科技大学 | 基于多通道张量池化的多模态深度分层融合情感分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444277B (zh) * | 2019-07-19 | 2023-03-28 | 重庆邮电大学 | 一种基于多生成多对抗的多模态脑部mri图像双向转换方法 |
CN111581405B (zh) * | 2020-04-26 | 2021-10-26 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN111553295B (zh) * | 2020-05-01 | 2023-05-09 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
-
2020
- 2020-12-28 CN CN202011581373.4A patent/CN112612936B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178389A (zh) * | 2019-12-06 | 2020-05-19 | 杭州电子科技大学 | 基于多通道张量池化的多模态深度分层融合情感分析方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的多模态情感识别方法研究;张园园;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112612936A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112612936B (zh) | 一种基于对偶转换网络的多模态情感分类方法 | |
Wu et al. | Multimodal large language models: A survey | |
WO2020093761A1 (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN112633010A (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN116628490A (zh) | 图文音多模态预训练模型方法、装置、电子设备和介质 | |
CN113779996B (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
JP2022006173A (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN111061951A (zh) | 一种基于双层自注意力评论建模的推荐模型 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN118114188B (zh) | 基于多视角和分层融合的虚假新闻检测方法 | |
CN116126341A (zh) | 模型编译方法、装置、计算机设备及计算机可读存储介质 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN114926716B (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
CN117235114A (zh) | 基于跨模态语义与混合反事实训练的检索方法 | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
Zhao et al. | Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis | |
CN116932770A (zh) | 基于模态间交互的多模态知识图谱实体对齐方法及系统 | |
CN116522107A (zh) | 一种具有鲁棒性的多模态情感分析方法 | |
CN117034186A (zh) | 基于关联信息的知识库融合方法及系统 | |
CN116204643A (zh) | 一种基于多任务学习知识增强的级联标签分类方法 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN114936552A (zh) | 未对齐行为信息动态调整单词表示的多模态情感识别方法 | |
Gupta et al. | Attention-free based dual-encoder mechanism for Aspect-based Multimodal Sentiment Recognition | |
CN112698833A (zh) | 一种基于局部和全局特征的特征依恋代码味道检测方法 | |
CN113409769A (zh) | 基于神经网络模型的数据识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |