CN115034227B - 一种基于多模态互注意融合的渐进式多任务情感分析方法 - Google Patents
一种基于多模态互注意融合的渐进式多任务情感分析方法 Download PDFInfo
- Publication number
- CN115034227B CN115034227B CN202210742276.1A CN202210742276A CN115034227B CN 115034227 B CN115034227 B CN 115034227B CN 202210742276 A CN202210742276 A CN 202210742276A CN 115034227 B CN115034227 B CN 115034227B
- Authority
- CN
- China
- Prior art keywords
- fusion
- mode
- features
- emotion
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 200
- 230000008451 emotion Effects 0.000 title claims abstract description 143
- 238000004458 analytical method Methods 0.000 title claims abstract description 96
- 230000000750 progressive effect Effects 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000013461 design Methods 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 72
- 238000007781 pre-processing Methods 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000011229 interlayer Substances 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态互注意融合的渐进式多任务情感分析方法,该方法基于多模态数据相融共生的特点,设计全视角闭环互注意融合模块,融合模块级内提出闭环互注意多模态融合网络,级间提出全视角分级融合机制,增强多模态数据的融合效果;针对复杂语境下单模态个性语义缺失、个性与共性语义无法协同的问题,提出渐进式多任务情感分析框架,框架第一层多模态融合子任务挖掘多模态共性语义,单模态子任务保留单模态个性语义,然后提出双重决策融合策略从第二层高层特征和第三层决策两个维度增强子任务间的交互,增强多模态情感分析算法的适应复杂语境的能力,在CH‑SIMS数据集上的测试结果显示了本发明准确率高、参数量小的综合优势。
Description
技术领域
本发明属于自然语言处理领域,特别是涉及一种基于多模态互注意融合的渐进式多任务情感分析方法。
背景技术
情感分析技术通过智能分析数据进而预测其中体现出的情感倾向,在社会舆情挖掘、企业信息分析等领域具有重要的现实意义和应用价值。在社会舆情挖掘方面,通过分析大众对社会热点的点评可以有效掌握舆论走向,保持健康和谐网络环境;在企业信息分析方面,通过分析社会对企业的评价,为企业的战略规划提供决策依据,提升企业竞争力。随着智能终端的大量普及,爆炸性增长的多模态数据为多模态情感分析奠定了坚实的数据基础,基于深度学习的多模态情感分析算法相比与单模态情感分析算法和基于传统特征的情感分析算法进一步提升了分析效果。
基于深度学习的多模态情感分析算法虽然可以在一定程度上提升分析效果,但是仍然存在一些问题。多模态融合过程中,多模态数据融合角度、深度有限,导致模态间的交互性和关联性不足,融合特征情感倾向可能存在偏差。仅分析多模态情感倾向的单任务多模态情感分析算法单纯的追求多模态共性表达,导致单模态个性语义缺失。仅有的多任务情感分析算法中单模态情感分析任务和多模态情感分析任务相互独立,导致彼此间相互促进和制约关系没有得到充分利用,模态间个性和共性语义无法兼顾。现实场景的情感表达是复杂多样的,有的热烈张扬、有的含蓄内敛、有的存在隐喻反讽,在这种语境相对复杂的情况下,目前的多模态情感分析算法的分析效果不好。
发明内容
针对目前基于深度学习的多模态情感分析算法,本发明提供了一种基于多模态互注意融合的渐进式多任务情感分析方法。
本发明采用如下技术方案来实现:
一种基于多模态互注意融合的渐进式多任务情感分析方法,包括以下步骤:
1)待分析的音频、文本和视觉三种模态特征输入到数据预处理模块,去除各单模态特征中的冗余信息、进行数据规范化,得到三种模态预处理特征;
2)将三种模态预处理特征输入到渐进式多任务情感分析框架,框架的第一层任务是并行的三个单模态和一个多模态融合情感分析子任务,三种模态预处理特征分别输入到第一层中的单模态情感分析子任务得到单模态情感决策,一起输入到多模态融合情感分析子任务,由多模态融合模块进行三种模态特征融合得到多模态融合特征,根据融合特征得到多模态融合情感决策,第一层子任务的高层特征和情感决策作用于双重决策融合模块;
3)双重决策融合模块包括渐进式多任务情感分析框架的第二层和第三层子任务,第二层子任务在特征维度上对第一层子任务高层特征进行拼接融合,利用单模态语义差异补充多模态融合语义,得到高层特征融合情感决策,第三层子任务从决策维度上均衡前两层子任务的情感决策得到最终的情感分析结果。
本发明进一步的改进在于,步骤1)中,文本特征的上下文场景对文本语义具有更为重要的意义,音频和视觉的特征值冗余信息比较多,根据不同模态的数据特性设计不同的单模态特征处理子网络,视觉与音频特征预处理子网络结构相似,单模态特征分别输入各单模态特征预处理子网络得到单模态预处理特征。
本发明进一步的改进在于,步骤2)中,单模态预处理特征分别输入到单模态情感分析子任务得到单模态情感分析决策,各单模态情感分析子任务网络设计相似,均为由tanh激活的三层全连接网络层构成,三种单模态预处理特征一起输入多模态融合情感分析子任务,首先通过设计的全视角闭环互注意融合模块,然后由tanh激活的两层全连接网络层进行特征降维得到多模态融合情感分析决策。
本发明进一步的改进在于,为了取得文本上下文词向量的长期依赖关系,文本特征预处理子网络首先采用LSTM网络处理文本特征,接着设计dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止文本特征预处理子网络过拟合,然后由tanh激活的全连接层增加文本特征处理子网络的非线性,利用BN层对文本特征数据进行归一化处理得到文本预处理特征,视觉、音频特征预处理子网络的相似,以音频预处理子网络的设计为例:首先通过时序取均值去除部分信息冗余,添加dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止音频特征预处理子网络过拟合,然后由tanh激活的全连接层增加音频特征处理子网络的非线性,利用BN层对音频特征数据进行归一化处理得到音频预处理特征。
本发明进一步的改进在于,三种单模态预处理特征输入到全视角闭环互注意融合模块,首先经过多模态特征融合阶段的两级多模态闭环互注意结构,每一级包括3个跨模态注意力融合机制,包括transV(·)、transA(·)、transT(·)分别代表视频、音频、文本引导的跨模态注意力融合机制,3个跨模态注意力融合机制网络结构相似,三种单模态预处理特征经过融合顺序为transV1(·)~transA1(·)~transT1(·)的第一级多模态闭环互注意结构,先通过transV1(·)进行视频预处理特征Iv和文本预处理特征It的跨模态融合生成视频-文本融合特征transV1(·)先通过全连接网络将Iv映射成视频查询向量Q,将It映射成文本关键向量K和文本值向量V,transV1(·)实现视频文本跨模态融合的具体流程采用式(1)-(4)表示:
π=Q·KT (1)
π'=softmax(π+mask) (3)
接着通过transA1(·)利用音频预处理特征约束视频-文本融合特征得到音频-视频-文本融合特征,然后将文本预处理特征和音频-视频-文本融合特征输入到transT1(·)生成文本-视频-音频-文本的闭环互注意融合特征,第一级多模态闭环互注意结构采用式(5)-(7)表示:
其中Iv、Ia、It分别表示视频、音频、文本预处理特征,分别表示transV(·)、transA(·)、transT(·)输出的融合特征;
级间调整融合顺序,第二级从不同角度进行特征融合,第二级的融合顺序设计为transA2(·)~transV2(·)~transT2(·),第一级transV1(·)输入是Iv和It,与之不同的是transA2(·)的输入是Ia与第一级融合特征第二级其他跨模态注意机制结构的输入与第一级类似,得到第二级融合特征/>
接着在多模态自注意阶段,将第二级融合特征输入到使用多模态自注意机制transM(·),多模态自注意机制与其他跨模态注意力机制网络结构相似,最终生成多模态全视角闭环互注意融合特征ζ,采用式(8)表示:
本发明进一步的改进在于,步骤3)中,双重决策融合模块包括高层特征融合和决策融合,高层特征融合将第一层并行分任务的最后一层全连接输入的高层情感特征进行拼接,将拼接特征输入到由特征融合网络中得到高层特征融合情感分析决策,然后,决策融合设置可自动学习的权重参数作为前两层子任务情感决策的权重值,在网络的训练过程中,自动学习最优的权重分配值均衡各子任务的情感决策得到最终的情感决策结果,三层任务间层层递进,共同构成了渐进式多任务情感分析框架。
本发明进一步的改进在于,第一层子任务中文本高层特征ht、视频高层特征hv、音频高层特征ha、多模态融合高层特征hm经过拼接,利用全连接网络对拼接特征进行降维得到高层特征融合情感决策,前两层的情感决策有文本情感决策视频情感决策/>音频情感决策/>多模态融合情感决策/>高层特征融合情感决策/>设计多任务均衡的决策权值学习网络,自动学习各子任务情感决策的最优分配wt,wv,wa,wm,wf得到最终的情感分析结果/>具体均衡方式采用式(9)示:
本发明进一步的改进在于,采用回归模型约束得到的情感分析预测结果,优化目标有4个:3个单模态的预测损失和1个决策融合预测损失;除了不同的训练损失外,通过l2范数对共享参数的特征提取网络、数据预处理网络进行稀疏,防止过拟合,还可以让本发明优化求解变得稳定和快速;因此,个人情感分析的优化目标Loss采用式(10)表示为:
其中N是训练个人评论样本的数量,其中ε∈{t,a,v,d}、j∈{t,a,v};t,a,v,d分别表示文本、音频、视觉、决策融合子任务;表示采用的是MSEloss表示模态ε中第n个样本的训练损失;在优化目标中,Wj是模态j和多模态任务中的共享参数,δε是平衡不同预测结果的超参数,βε分别表示共用子网络的权值衰减步长。
本发明至少具有如下有益的技术效果:
本发明提供的一种基于多模态互注意融合的渐进式多任务情感分析方法。该方法提出多模态多视角分级融合理念,通过设计全视角闭环互注意融合模块,级内提出闭环互注意多模态融合网络,级间提出全视角分级融合机制,增强多模态数据的融合效果。同时提出渐进式多任务情感分析框架,第一层任务在挖掘多模态共性语义的同时保留单模态个性语义,然后提出双重决策融合策略从第二层高层特征和第三层决策两个维度增强子任务间的交互,增强多模态情感分析算法的适应能力,提升分析准确率。
进一步,本发明中的闭环互注意多模态融合网络,闭环互注意网络中的三个跨模态注意力融合机制约束模态间语义相关性的同时,由注意力权值和参与特征融合的次数加强重要情感特征生成跨模态融合特征,第一级以视频跨模态融合机制—音频跨模态融合机制—文本跨模态融合机制连接,视频跨模态融合机制生成的视频-文本跨模态融合特征输入音频跨模态融合机制,由音频再次约束,最终第一级闭环互注意多模态融合网络输出三种模态相互约束的文本-音频-视频-文本闭环互注意的融合特征。
进一步,本发明中的全视角闭环互注意融合模块,考虑不同模态间的语义相关性存在差异这一特点,提出了多视角分级融合理念,每一级内,构造结构各异的特征提取网络,增强多模态融合模块输入特征的语义丰富程度,然后利用闭环互注意多模态融合网络进行多模态融合;级间采用全视角分级融合机制,通过调整模态间融合顺序获取多视角多模态融合特征,最终实现任何两种模态的融合都会受到第三种模态约束的多模态互注意目的,从而减少由于某种模态语义偏激造成的融合特征偏差。
进一步,本发明中的渐进式多任务情感分析框架,第一层设计并行的单模态情感分析任务和多模态融合情感分析任务,保留各单模态完整个性语义的同时获取多模态共性语义特征,为了充分挖掘单模态个性语义和多模态共性语义之间的相互作用关系,保证用于情感分析任务语义的全面性,双重决策融合策略首先将第一层各子任务的高层特征进行融合,以此作为第二层子任务,然后,为了充分利用多任务之间的相互促进和制约关系使其作用于最终的情感分析任务,在最后一层对前两层子任务的情感决策进行了加权融合,最终实现多模态共性互补增强和个性共性间的均衡,提升了情感分析算法的分析准确率和复杂语境的适应能力。
综上所述,本发明提供一种基于多模态互注意融合的渐进式多任务情感分析方法。本发明基于多模态数据相融共生的特点,提出多模态多视角分级融合理念,通过设计全视角闭环互注意融合模块,级内提出闭环互注意多模态融合网络,级间提出全视角分级融合机制调整融合顺序,从不同角度挖掘多模态数据的相关性,增强多模态数据的融合效果。针对单模态个性语义缺失并无法实现与多模态共性语义统筹兼顾的问题,本发明提出了渐进式多任务情感分析框架,框架中有三层任务,三层任务层层递进,相互关联。从整体上来看,本发明从数据和任务两个层面增强情感分析算法的分析能力,有效避免复杂语境下由于单模态情感偏向导致分析结果产生误差的问题,提升算法的分析准确率增强复杂语境适应能力,具有良好的应用价值。
附图说明
图1为本发明基于多模态互注意融合的渐进式多任务情感分析方法流程图。
图2为本发明中跨模态注意力融合机制的流程图。
图3为本发明中全视角闭环互注意融合模块的流程图。
图4为本发明中的双重决策融合策略的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明提出一种基于多模态互注意融合的渐进式多任务情感分析方法,包括以下几个步骤:
1)各模态深度语义特征由数据预处理子网络后输入到第一层三个单模态和一个多模态融合情感分析子任务,保留完整单模态个性语义,融合多模态数据挖掘多模态共性语义,分别得到各单模态、多模态融合情感决策。
2)将第一层各子任务中最后一层全连接输入的高层特征输入到第二层高层特征融合子任务中,对各子任务高层特征进行融合并利用全连接网络进行降维,挖掘第一层子任务间个性语义和共性语义关联,得到高层特征融合情感决策。
3)第三层子任务中的多任务情感决策均衡机制对第一层、第二层子任务产生的情感决策进行加权融合,得到最终的情感分析结果。
具体来说,第一层三个单模态子任务分别利用全连接网络对三种单模态预处理特征进行降维,根据各单模态预处理特征得到情感分析结果作为单模态情感分析决策。第一层中的多模态融合子任务通过设计全视角闭环互注意融合模块对三种模态特征进行融合,再利用全连接网络对三融合特征进行降维,根据融合特征得到情感分析结果作为多模态融合情感分析决策。
全视角闭环互注意融合模块如图2所示,文本、音频、视觉三种单模态预处理特征输入到全视角闭环互注意融合模块,首先经过多模态特征融合阶段的两级多模态闭环互注意结构,每一级包括3个跨模态注意力融合机制(transV(·)、transA(·)、transT(·)分别代表视频、音频、文本引导的跨模态注意力融合机制),3个跨模态注意力融合机制网络结构相似,如图3所示,三种单模态预处理特征经过融合顺序为transV1(·)~transA1(·)~transT1(·)的第一级多模态闭环互注意结构,先通过transV1(·)进行视频预处理特征Iv和文本预处理特征It的跨模态融合生成视频-文本融合特征transV1(·)先通过全连接网络将Iv映射成视频查询向量Q,将It映射成文本关键向量K和文本值向量V,transV1(·)实现视频文本跨模态融合的具体流程采用式(1)-(4)表示:
π=Q·KT (1)
π'=softmax(π+mask) (3)
接着通过transA1(·)利用音频预处理特征约束视频-文本融合特征得到音频-视频-文本融合特征,然后将文本预处理特征和音频-视频-文本融合特征输入到transT1(·)生成文本-视频-音频-文本的闭环互注意融合特征,第一级多模态闭环互注意结构采用式(5)-(7)表示:
其中Iv、Ia、It分别表示视频、音频、文本预处理特征,分别表示transV(·)、transA(·)、transT(·)输出的融合特征。
级间调整融合顺序,第二级从不同角度进行特征融合,第二级的融合顺序设计为transA2(·)~transV2(·)~transT2(·),第一级transV1(·)输入是Iv和It,与之不同的是transA2(·)的输入是Ia与第一级融合特征第二级其他跨模态注意机制结构的输入与第一级类似,得到第二级融合特征/>
接着在多模态自注意阶段,将第二级融合特征输入到使用多模态自注意机制transM(·),多模态自注意机制与其他跨模态注意力机制网络结构相似,最终生成多模态全视角闭环互注意融合特征ζ,采用式(8)表示:
第一层子任务中文本高层特征ht、视频高层特征hv、音频高层特征ha、多模态融合高层特征hm输入到第二层高层特征融合子任务,各高层特征经过拼接,利用全连接网络对拼接特征进行降维得到高层特征融合情感决策前两层子任务得到的情感决策有文本情感决策/>视频情感决策/>音频情感决策/>多模态融合情感决策/>高层特征融合情感决策/>在第三层设计多任务均衡的决策权值学习网络,自动学习各子任务情感决策的最优分配wt,wv,wa,wm,wf得到最终的情感分析结果/>具体均衡方式采用式(9)示:
本发明采用的是回归模型,优化目标有4个:3个单模态的预测损失和1个决策融合预测损失。除了不同的训练损失外,通过l2范数对共享参数的特征提取网络、数据预处理网络进行稀疏,防止过拟合,还可以让优化求解变得稳定和快速。因此,个人情感分析的优化目标Loss可采用式(10)表示为:
其中N是训练个人评论样本的数量,其中ε∈{t,a,v,d}、j∈{t,a,v}。t,a,v,d分别表示文本、音频、视觉、决策融合子任务。表示采用的是MSEloss表示模态ε中第n个样本的训练损失。在优化目标中,Wj是模态j和多模态任务中的共享参数,δε是平衡不同预测结果的超参数,βε分别表示共用子网络的权值衰减步长。
本发明在CH-SMIS情感分析数据集上进行训练、测试,CH-SMIS情感分析数据集不仅具有多模态数据的情感标签还有文本、视觉、音频单模态标签。数据集提供文本、视觉、音频的原始特征,特征维度分别为39*768、55*709、400*33。该数据集以6:2:2的比例被划分为训练集、验证集和测试集。本发明基于Pytorch搭建网络架构并进行训练、测试。其中文本、视觉、音频预处理子网络全连接层的输出维度分别设置为64、64、16。第一层文本、视觉、音频、多模态融合的高层特征维度分别为64、64、16、64。采用Adam优化器训练网络,设置初始学习率为0.001。训练完成后保存模型并进行测试,测试指标包括二分类准确率、三分类准确率、五分类准确率、F1分数、绝对误差、相关度、参数量,与当前单任务情感分析算法及多任务情感分析算法进行对比,结果如表1所示。根据测试结果,本发明提出的基于多模态互注意融合的渐进式多任务情感分析方法(MMSA)相比于表1上栏的所有单任务情感分析算法在参数量以外的所有指标上均有提升,相比于表1下栏的多任务情感分析算法在五分类准确率和参数量以外的所有指标上均有提升,相比于五分类准确率更优的BIMHA算法,本发明算法参数量不到其
表1本发明在CH-SIMS数据集上的评估结果
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (3)
1.一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,包括以下步骤:
1)待分析的音频、文本和视觉三种模态特征输入到数据预处理模块,去除各单模态特征中的冗余信息、进行数据规范化,得到三种模态预处理特征;
2)将三种模态预处理特征输入到渐进式多任务情感分析框架,框架的第一层任务是并行的三个单模态和一个多模态融合情感分析子任务,三种模态预处理特征分别输入到第一层中的单模态情感分析子任务得到单模态情感决策,一起输入到多模态融合情感分析子任务,由多模态融合模块进行三种模态特征融合得到多模态融合特征,根据融合特征得到多模态融合情感决策,第一层子任务的高层特征和情感决策作用于双重决策融合模块;
模态预处理特征分别输入到单模态情感分析子任务得到单模态情感分析决策,各单模态情感分析子任务网络设计相似,均为由tanh激活的三层全连接网络层构成,三种单模态预处理特征一起输入多模态融合情感分析子任务,首先通过设计的全视角闭环互注意融合模块,然后由tanh激活的两层全连接网络层进行特征降维得到多模态融合情感分析决策;
为了取得文本上下文词向量的长期依赖关系,文本特征预处理子网络首先采用LSTM网络处理文本特征,接着设计dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止文本特征预处理子网络过拟合,然后由tanh激活的全连接层增加文本特征处理子网络的非线性,利用BN层对文本特征数据进行归一化处理得到文本预处理特征,视觉、音频特征预处理子网络的相似,以音频预处理子网络的设计为例:首先通过时序取均值去除部分信息冗余,添加dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止音频特征预处理子网络过拟合,然后由tanh激活的全连接层增加音频特征处理子网络的非线性,利用BN层对音频特征数据进行归一化处理得到音频预处理特征;
三种单模态预处理特征输入到全视角闭环互注意融合模块,首先经过多模态特征融合阶段的两级多模态闭环互注意结构,每一级包括3个跨模态注意力融合机制,包括transV(·)、transA(·)、transT(·)分别代表视频、音频、文本引导的跨模态注意力融合机制,3个跨模态注意力融合机制网络结构相似,三种单模态预处理特征经过融合顺序为transV1(·)~transA1(·)~transT1(·)的第一级多模态闭环互注意结构,先通过transV1(·)进行视频预处理特征Iv和文本预处理特征It的跨模态融合生成视频-文本融合特征transV1(·)先通过全连接网络将Iv映射成视频查询向量Q,将It映射成文本关键向量K和文本值向量V,transV1(·)实现视频文本跨模态融合的具体流程采用式(1)-(4)表示:
π=Q·KT (1)
π'=softmax(π+mask) (3)
接着通过transA1(·)利用音频预处理特征约束视频-文本融合特征得到音频-视频-文本融合特征,然后将文本预处理特征和音频-视频-文本融合特征输入到transT1(·)生成文本-视频-音频-文本的闭环互注意融合特征,第一级多模态闭环互注意结构采用式(5)-(7)表示:
其中Iv、Ia、It分别表示视频、音频、文本预处理特征,分别表示transV(·)、transA(·)、transT(·)输出的融合特征;
级间调整融合顺序,第二级从不同角度进行特征融合,第二级的融合顺序设计为transA2(·)~transV2(·)~transT2(·),第一级transV1(·)输入是Iv和It,与之不同的是transA2(·)的输入是Ia与第一级融合特征第二级其他跨模态注意机制结构的输入与第一级类似,得到第二级融合特征/>
接着在多模态自注意阶段,将第二级融合特征输入到使用多模态自注意机制transM(·),多模态自注意机制与其他跨模态注意力机制网络结构相似,最终生成多模态全视角闭环互注意融合特征ζ,采用式(8)表示:
3)双重决策融合模块包括渐进式多任务情感分析框架的第二层和第三层子任务,第二层子任务在特征维度上对第一层子任务高层特征进行拼接融合,利用单模态语义差异补充多模态融合语义,得到高层特征融合情感决策,第三层子任务从决策维度上均衡前两层子任务的情感决策得到最终的情感分析结果;
双重决策融合模块包括高层特征融合和决策融合,高层特征融合将第一层并行分任务的最后一层全连接输入的高层情感特征进行拼接,将拼接特征输入到由特征融合网络中得到高层特征融合情感分析决策,然后,决策融合设置可自动学习的权重参数作为前两层子任务情感决策的权重值,在网络的训练过程中,自动学习最优的权重分配值均衡各子任务的情感决策得到最终的情感决策结果,三层任务间层层递进,共同构成了渐进式多任务情感分析框架;
第一层子任务中文本高层特征ht、视频高层特征hv、音频高层特征ha、多模态融合高层特征hm经过拼接,利用全连接网络对拼接特征进行降维得到高层特征融合情感决策,前两层的情感决策有文本情感决策视频情感决策/>音频情感决策/>多模态融合情感决策高层特征融合情感决策/>设计多任务均衡的决策权值学习网络,自动学习各子任务情感决策的最优分配wt,wv,wa,wm,wf得到最终的情感分析结果/>具体均衡方式采用式(9)示:
2.根据权利要求1所述的一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,步骤1)中,文本特征的上下文场景对文本语义具有更为重要的意义,音频和视觉的特征值冗余信息比较多,根据不同模态的数据特性设计不同的单模态特征处理子网络,视觉与音频特征预处理子网络结构相似,单模态特征分别输入各单模态特征预处理子网络得到单模态预处理特征。
3.根据权利要求1所述的一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,采用回归模型约束得到的情感分析预测结果,优化目标有4个:3个单模态的预测损失和1个决策融合预测损失;因此,个人情感分析的优化目标Loss采用式(10)表示为:
其中N是训练个人评论样本的数量,其中ε∈{t,a,v,d}、j∈{t,a,v};t,a,v,d分别表示文本、音频、视觉、决策融合子任务;表示采用的是MSEloss表示模态ε中第n个样本的训练损失;在优化目标中,Wj是模态j和多模态任务中的共享参数,δε是平衡不同预测结果的超参数,βε分别表示共用子网络的权值衰减步长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742276.1A CN115034227B (zh) | 2022-06-28 | 2022-06-28 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742276.1A CN115034227B (zh) | 2022-06-28 | 2022-06-28 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034227A CN115034227A (zh) | 2022-09-09 |
CN115034227B true CN115034227B (zh) | 2024-04-19 |
Family
ID=83126946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210742276.1A Active CN115034227B (zh) | 2022-06-28 | 2022-06-28 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034227B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937B (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115658935B (zh) * | 2022-12-06 | 2023-05-02 | 北京红棉小冰科技有限公司 | 一种个性化评论生成方法及装置 |
CN116204850B (zh) * | 2023-03-14 | 2023-11-03 | 匀熵智能科技(无锡)有限公司 | 基于动态梯度和多视图协同注意力的多模态情感分析方法 |
CN116563751B (zh) * | 2023-04-19 | 2024-02-06 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN114386515A (zh) * | 2022-01-13 | 2022-04-22 | 合肥工业大学 | 基于Transformer算法的单模态标签生成和多模态情感判别方法 |
CN114419509A (zh) * | 2022-01-24 | 2022-04-29 | 烟台大学 | 一种多模态情感分析方法、装置及电子设备 |
-
2022
- 2022-06-28 CN CN202210742276.1A patent/CN115034227B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN114386515A (zh) * | 2022-01-13 | 2022-04-22 | 合肥工业大学 | 基于Transformer算法的单模态标签生成和多模态情感判别方法 |
CN114419509A (zh) * | 2022-01-24 | 2022-04-29 | 烟台大学 | 一种多模态情感分析方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
一种融合上下文特征的中文隐式情感分类模型;潘东行;袁景凌;李琳;盛德明;;计算机工程与科学;20200229(第02期);第341-350页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115034227A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115034227B (zh) | 一种基于多模态互注意融合的渐进式多任务情感分析方法 | |
Xue et al. | Fine-tuning BERT for joint entity and relation extraction in Chinese medical text | |
CN113987179B (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
Ezen-Can et al. | Unsupervised classification of student dialogue acts with query-likelihood clustering | |
CN114091466B (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
Tu et al. | Sentiment-emotion-and context-guided knowledge selection framework for emotion recognition in conversations | |
Polignano et al. | AlBERTo: Modeling Italian social media language with BERT | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
Wu et al. | Aspect-level sentiment classification based on location and hybrid multi attention mechanism | |
CN114912419A (zh) | 基于重组对抗的统一机器阅读理解方法 | |
CN116992361A (zh) | 基于注意力机制的多模态融合与情感识别方法 | |
Tong et al. | A Multimodel‐Based Deep Learning Framework for Short Text Multiclass Classification with the Imbalanced and Extremely Small Data Set | |
Ai et al. | A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning | |
Liu et al. | Accurate emotion strength assessment for seen and unseen speech based on data-driven deep learning | |
Zhou et al. | Text sentiment analysis based on a new hybrid network model | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
Xiao et al. | Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning | |
CN116091045B (zh) | 一种基于知识图谱的通信网络运维方法和运维装置 | |
Huang et al. | Exploring the effect of emotions in human–machine dialog: an approach toward integration of emotional and rational information | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
Dudarin et al. | A Technique to Pre-trained Neural Network Language Model Customization to Software Development Domain | |
Sun et al. | A new view of multi-modal language analysis: Audio and video features as text “Styles” | |
Zhang et al. | A multi-perspective global–local interaction framework for identifying dialogue acts and sentiments of dialogue utterances jointly | |
CN111274399A (zh) | 一种基于自然语言预处理的公共数据分级方法 | |
Hung et al. | Novelty fused image and text models based on deep neural network and transformer for multimodal sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |