CN113642332B - 一种融合多级语义信息的多模态讽刺识别系统方法 - Google Patents
一种融合多级语义信息的多模态讽刺识别系统方法 Download PDFInfo
- Publication number
- CN113642332B CN113642332B CN202110919005.4A CN202110919005A CN113642332B CN 113642332 B CN113642332 B CN 113642332B CN 202110919005 A CN202110919005 A CN 202110919005A CN 113642332 B CN113642332 B CN 113642332B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- data
- semantic information
- level semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 11
- 239000012634 fragment Substances 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000008451 emotion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 235000009508 confectionery Nutrition 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000008909 emotion recognition Effects 0.000 claims description 3
- 235000000396 iron Nutrition 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 239000000047 product Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种融合多级语义信息的多模态讽刺识别系统方法,所述方法通过融合多级语义信息来分析多模态数据,然后以讽刺识别模块来判别多模态数据中是否存在讽刺感;在生成多模态数据时,以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息,以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段,以语义融合模块融合图文数据的中级、高级语义信息;本发明能够提取图文模态数据的特征表示及图文数据中的中级语义信息,通过注意力机制融合多模态数据,并关联图文模态的中级语义,分析多模态数据中是否存在讽刺感。
Description
技术领域
本发明涉及多模态信息识别领域,尤其是一种融合多级语义信息的多模态讽刺识别系统方法。
背景技术
讽刺属于一种特殊的情感表达方式,是用户通过夸张、比喻等手法使自己所发表的观点产生更深层次的含义。随着网络文化的不断发展,用户表达自己观点的方式越发多样化,通过讽刺的手法表达自己的观点愈发流行,在当前网络平台中,仅通过传统情感分析、观点发掘方法分析用户观点态度存在较大局限,难以有效利用产品评论、论坛讨论等内容中的信息,通过识别讽刺有利于分析用户真实的观点态度,提高情感分析、观点发掘任务的精确度,
但由于讽刺是一种隐式的情绪表达方法,识别讽刺需要深入理解数据的语义信息,对单一模态数据进行讽刺识别存在着缺乏上下文信息、实现困难等问题。随着深度学习技术的进步,近年来对于多模态融合技术的研究得到了快速的发展,多模态融合任务通过设计模态融合策略,使不同模态的数据相互补充,为下游任务提供更丰富的信息。目前基于多模态融合技术的情感分析、图文检索等任务正在趋于成熟并得到广泛应用。
多模态讽刺识别作为多模态融合任务的下游任务,其研究重点围绕各模态的语义信息展开,通过分析各模态数据间的潜在联系,为讽刺识别模型提供更丰富的上下文信息。目前应用于社交媒体的多模态讽刺识别方法首先针对各模态数据特点,采用多种深度学习网络模型提取图像、文本的特征表示,而后通过注意力机制、图神经网络等深度学习算法将不同模态的数据映射至相同的维度空间进行模态融合,较好的解决了不同模态间数据分布差异的问题。通过注意力机制能够较好的通过关联图文相关内容进行分析,现有的多模态讽刺识别模型围绕多模态融合策略进行了大量的研究,但讽刺感源于关联图文数据后,分析图文语义产生的不协调感,现有方法在设计模态融合策略过程中,未考虑到语义理解是一个循序渐进的过程,模型缺乏对语义变化过程的刻画,导致讽刺识别精度受限。在融合图文数据后,如何发掘其中存在的语义不协调进而提高讽刺识别精度,是多模态讽刺识别任务存在的主要挑战。
发明内容
本发明提出一种融合多级语义信息的多模态讽刺识别系统方法,能够提取图文模态数据的特征表示及图文数据中的中级语义信息,通过注意力机制融合多模态数据,并关联图文模态的中级语义,分析多模态数据中是否存在讽刺感。
一种融合多级语义信息的多模态讽刺识别系统方法,所述方法通过融合多级语义信息来分析多模态数据,然后以讽刺识别模块来判别多模态数据中是否存在讽刺感;在生成多模态数据时,以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息,以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段,以语义融合模块融合图文数据的中级、高级语义信息。
所述特征提取模块提取不同模态数据的特征表示时,可在提取图文特征表示的同时,提取其中所包含的中级语义信息;具体方法为:
方法A1、对于文本数据,采用Glove编码获取本文的词嵌入信息,文本内容经过编码后得到T={t1,t2,...,tn},其中,为单词i的词嵌入表示,通过将文本特征表示输入BiLSTM网络得到文本数据的隐藏层表示:
Mtext=BiLSTM(T) 公式一;
方法A2、对于图像数据,采用RepVGG网络模型进行图像特征提取,为提升所得图像语义的丰富性,采用去除RevVGG模型中的平均池化层的方法,将RepVGG的通道输出作为图像数据的区域特征:
Mregion=RepVGG(I) 公式二;
其中,
ri表示图像各个区域的特征表示;为优化图像数据与文本数据的融合,通过线性层对图像特征进行维度转化,得到图像隐藏层表示为:
Mimage=tanh(W*RepVGG(I)+b) 公式四;
方法A3、当提取文本数据中的话题信息及图像数据中的ANPs(adjective-nounpairs)作为各模态数据的中级语义信息时,采用Glove编码获取其词嵌入信息,利用tweet话题包含的前后关联,通过BiLSTM网络模型对ANPs及话题进行编码得到其上下文表示TANP、Ttopic;
方法A4、当部分文本数据中不包含话题内容,同时不同的ANP对模型产生的影响也存在不同时,通过自注意力机制进一步提取TANP及Ttopic的特征表示:
Ta,t=BiLSTM(ANPs,Topic) 公式五;
αa,t=softmax(ua,t) 公式七;
其中,a,t∈{ANPs,Topic},通过上下文向量UT将ANPs与话题映射至同一维度空间,得到ua,t用于衡量每个ANP与话题的权重,而后通过Softmax函数得到注意力分布αa,t,最终计算得到ANPs与话题的特征表示va,vt,在此基础上,串联va,vt,经过线性层连接ANP及话题特征,得到数据的属性特征表示vattr,使用vattr对本文特征提取中所用到的BiLSTM网络编码层进行初始化,即
vattr=W[va:vt]+b 公式九。
当图文融合模块通过分析图文数据间的语义联系来提取产生讽刺感的关键片段时,采用实体差异注意力机制,通过将注意力权重集中于图文数据间中的差异内容,来优化识别易产生讽刺感的图文片段,包括以下方法;
设提取的特征表示Mtext·Mimage分别为文本、图像较原始的低级语义特征,为提升所得到的图文语义信息的抽象度,在进行图文融合前,以自注意力机制提取图文数据的特征表示:
vtext,vimage=SelfATT(Mtext,Mimage) 公式九;
然后将vtext,vimage与图像、文本所提取的特征表示通过实体差异注意力机制进行融合,首先将图文自注意力计算的结果vtext,vimage与前文所提取的图像、文本隐藏表示进行注意力计算,而后将图文特征表示减去注意力计算的结果,从而使模型将特征提取的重点由图文间的关联信息转移至图像、文本数据中的关键词汇、关键画面,表述为:
p=tanh(WpMm+bp) 公式十一;
q=tanh(Wqvn+bq) 公式十二;
β=softmax(p*g) 公式十三;
Hm=Mm-β 公式十四;
其中,m,n∈{text,image}表示图像、文本两种不同模态,vn即通过自注意力机制提取得到的图、文特征,Mm为前文特征提取模块所得到的图像、文本数据表示,β为模态间点积注意力计算的结果,为对差异信息增强后的图文特征表示。
所述语义融合模块在融合社交媒体平台图文数据的中级、高级语义信息时,其方法为:在图像情感分析任务执行,所述图像情感分析任务中,ANPs以形容词、名词组合的方式描述图像,被视为图像数据的中级语义信息;所述社交媒体平台中以话题作为对文本内容的高度概括,对文本情绪识别存在重要影响,即被视为文本数据的中级语义信息;在讽刺感受模态间的语义变化影响下,通过将属性特征vattr与图文融合结果Gm进一步的融合,形成多模态数据语义理解的过程,表述为:
s=tanh(WsHm+bs) 公式十五;
t=tanh(Wtvattr+bt) 公式十六;
其中,m∈{text,image}为图像、文本两种不同模态,Lm为文本模态序列长度或图像区域数,vn即融合中级语义信息后的图文特征表示。
当讽刺识别模块对多模态数据进行讽刺识别时,采用以下方法,
通过将所提取的多级语义特征vtext·vimage·vattr串联后应用于讽刺识别中,即在经过两个线性层的维度转换后,通过Sigmod函数将模型结果用于二分类任务中,表述为
ytext=Relu(Wt[vtext:vattr]+bt) 公式十九;
yimage=Relu(Wi[vimage:vattr]+bi) 公式二十;
其中,ytext·yimage为经过线性层进行维度转换后的特征表示,为最终模型分类的结果,采用交叉熵作为模型的损失函数:
其中,yi为数据中第i个样例的标签,为模型预测结果,L2为L2范数,λ为衡量该范数的权重。
所述yi取值1时识别为讽刺,取值0时识别为非讽刺。
所述方法基于融合多级语义信息的多模态讽刺识别系统实施,针对社交媒体领域的多模态数据信息,该系统使用的多模态讽刺识别模型在训练阶段,根据信息的前向传播和误差的后向传播进行调整,以逐步优化模型的目标函数。
本发明所述方法针对社交媒体领域的多模态数据,包含图像、文本内容,能够针对不同模态数据提取相应数据的隐藏表示,同时提取各模态数据的中级语义信息,同时设计了一种新颖的实体差异注意力机制,在融合图文数据的同时提取数据中易产生讽刺感的关键片段,最后采用点积注意力机制融合各模态数据的中级、高级语义信息,并将融合后的结果应用于讽刺识别。这种融合多级语义的多模态讽刺识别方法相较于传统的方法,能够在融合图像、文本数据后进一步分析数据中产生讽刺感的关键片段,刻画语义理解过程;能够融合图文数据的中级、高级语义信息,分析其中存在的不协调感,有效提高讽刺识别精确度。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是本发明的示意图。
具体实施方式
如图所示,一种融合多级语义信息的多模态讽刺识别系统方法,所述方法通过融合多级语义信息来分析多模态数据,然后以讽刺识别模块来判别多模态数据中是否存在讽刺感;在生成多模态数据时,以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息,以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段,以语义融合模块融合图文数据的中级、高级语义信息。
所述特征提取模块提取不同模态数据的特征表示时,可在提取图文特征表示的同时,提取其中所包含的中级语义信息;具体方法为:
方法A1、对于文本数据,采用Glove编码获取本文的词嵌入信息,文本内容经过编码后得到T={t1,t2,...,tn},其中,为单词i的词嵌入表示,通过将文本特征表示输入BiLSTM网络得到文本数据的隐藏层表示:
Mtext=BiLSTM(T) 公式一;
方法A2、对于图像数据,采用RepVGG网络模型进行图像特征提取,为提升所得图像语义的丰富性,采用去除RevVGG模型中的平均池化层的方法,将RepVGG的通道输出作为图像数据的区域特征:
Mregion=RepVGG(I) 公式二;
其中,
ri表示图像各个区域的特征表示;为优化图像数据与文本数据的融合,通过线性层对图像特征进行维度转化,得到图像隐藏层表示为:
Mimage=tanh(W*RepVGG(I)+b) 公式四;
方法A3、当提取文本数据中的话题信息及图像数据中的ANPs(adjective-nounpairs)作为各模态数据的中级语义信息时,采用Glove编码获取其词嵌入信息,利用tweet话题包含的前后关联,通过BiLSTM网络模型对ANPs及话题进行编码得到其上下文表示TANP、Ttopic;
方法A4、当部分文本数据中不包含话题内容,同时不同的ANP对模型产生的影响也存在不同时,通过自注意力机制进一步提取TANP及Ttopic的特征表示:
Ta,t=BiLSTM(ANPs,Topic) 公式五;
αa,t=softmax(ua,t) 公式七;
其中,a,t∈{ANPs,Topic},通过上下文向量UT将ANPs与话题映射至同一维度空间,得到ua,t用于衡量每个ANP与话题的权重,而后通过Softmax函数得到注意力分布αa,t,最终计算得到ANPs与话题的特征表示va,vt,在此基础上,串联va,vt,经过线性层连接ANP及话题特征,得到数据的属性特征表示vattr,使用vattr对本文特征提取中所用到的BiLSTM网络编码层进行初始化,即
vattr=W[va:vt]+b 公式九。
当图文融合模块通过分析图文数据间的语义联系来提取产生讽刺感的关键片段时,采用实体差异注意力机制,通过将注意力权重集中于图文数据间中的差异内容,来优化识别易产生讽刺感的图文片段,包括以下方法;
设提取的特征表示Mtext·Mimage分别为文本、图像较原始的低级语义特征,为提升所得到的图文语义信息的抽象度,在进行图文融合前,以自注意力机制提取图文数据的特征表示:
vtext,vimage=SelfATT(Mtext,Mimage) 公式九;
然后将vtext,vimage与图像、文本所提取的特征表示通过实体差异注意力机制进行融合,首先将图文自注意力计算的结果vtext,vimage与前文所提取的图像、文本隐藏表示进行注意力计算,而后将图文特征表示减去注意力计算的结果,从而使模型将特征提取的重点由图文间的关联信息转移至图像、文本数据中的关键词汇、关键画面,表述为:
p=tanh(WpMm+bp) 公式十一;
q=tanh(Wqvn+bq) 公式十二;
β=softmax(p*q) 公式十三;
Hm=Mm-β 公式十四;
其中,m,n∈{text,image}表示图像、文本两种不同模态,vn即通过自注意力机制提取得到的图、文特征,Mm为前文特征提取模块所得到的图像、文本数据表示,β为模态间点积注意力计算的结果,为对差异信息增强后的图文特征表示。
所述语义融合模块在融合社交媒体平台图文数据的中级、高级语义信息时,其方法为:在图像情感分析任务执行,所述图像情感分析任务中,ANPs以形容词、名词组合的方式描述图像,被视为图像数据的中级语义信息;所述社交媒体平台中以话题作为对文本内容的高度概括,对文本情绪识别存在重要影响,即被视为文本数据的中级语义信息;在讽刺感受模态间的语义变化影响下,通过将属性特征vattr与图文融合结果Hm进一步的融合,形成多模态数据语义理解的过程,表述为:
s=tanh(WsHm+bs) 公式十五;
t=tank(Wtvattr+bt) 公式十六;
其中,m∈{text,image}为图像、文本两种不同模态,Lm为文本模态序列长度或图像区域数,vm即融合中级语义信息后的图文特征表示。
当讽刺识别模块对多模态数据进行讽刺识别时,采用以下方法,
通过将所提取的多级语义特征vtext·vimage·vattr串联后应用于讽刺识别中,即在经过两个线性层的维度转换后,通过Sigmod函数将模型结果用于二分类任务中,表述为
ytext=Relu(Wt[vtext:vattr]+bt) 公式十九;
yimage=Relu(Wi[vimage:vattr]+bi) 公式二十;
其中,ytext·yimage为经过线性层进行维度转换后的特征表示,为最终模型分类的结果,采用交叉熵作为模型的损失函数:
其中,yi为数据中第i个样例的标签,为模型预测结果,L2为L2范数,λ为衡量该范数的权重。
所述yi取值1时识别为讽刺,取值0时识别为非讽刺。
所述方法基于融合多级语义信息的多模态讽刺识别系统实施,针对社交媒体领域的多模态数据信息,该系统使用的多模态讽刺识别模型在训练阶段,根据信息的前向传播和误差的后向传播进行调整,以逐步优化模型的目标函数。
Claims (3)
1.一种融合多级语义信息的多模态讽刺识别系统方法,其特征在于:所述方法通过融合多级语义信息来分析多模态数据,然后以讽刺识别模块来判别多模态数据中是否存在讽刺感;在生成多模态数据时,以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息,以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段,以语义融合模块融合图文数据的中级、高级语义信息;
所述特征提取模块提取不同模态数据的特征表示时,可在提取图文特征表示的同时,提取其中所包含的中级语义信息;具体方法为:
方法A1、对于文本数据,采用Glove编码获取本文的词嵌入信息,文本内容经过编码后得到T={t1,t2,...,tn},其中,为单词i的词嵌入表示,通过将文本特征表示输入BiLSTM网络得到文本数据的隐藏层表示:
Mtext=BiLSTM(T) 公式一;
方法A2、对于图像数据,采用RepVGG网络模型进行图像特征提取,为提升所得图像语义的丰富性,采用去除RevVGG模型中的平均池化层的方法,将RepVGG的通道输出作为图像数据的区域特征:
Mregion=RepVG6(I) 公式二;
其中,
ri表示图像各个区域的特征表示;为优化图像数据与文本数据的融合,通过线性层对图像特征进行维度转化,得到图像隐藏层表示为:
Mimage=tanh(W*RepVG6(I)+b) 公式四;
方法A3、当提取文本数据中的话题信息及图像数据中的ANPs(adjective-noun pairs)作为各模态数据的中级语义信息时,采用Glove编码获取其词嵌入信息,利用tweet话题包含的前后关联,通过BiLSTM网络模型对ANPs及话题进行编码得到其上下文表示TANP、Ttopic;
方法A4、当部分文本数据中不包含话题内容,同时不同的ANP对模型产生的影响也存在不同时,通过自注意力机制进一步提取TANP及Ttopic的特征表示:
Ta,t=BiLSTM(ANPs,Topic) 公式五;
αa,t=softmax(ua,t) 公式七;
其中,a,t∈{ANPs,Topic},通过上下文向量UT将ANPs与话题映射至同一维度空间,得到ua,t用于衡量每个ANP与话题的权重,而后通过Softmax函数得到注意力分布αa,t,最终计算得到ANPs与话题的特征表示va,vt,在此基础上,串联va,vt,经过线性层连接ANP及话题特征,得到数据的属性特征表示vattr,使用vattr对本文特征提取中所用到的BiLSTM网络编码层进行初始化,即
vattr=W[va:vt]+b 公式九;
当图文融合模块通过分析图文数据间的语义联系来提取产生讽刺感的关键片段时,采用实体差异注意力机制,通过将注意力权重集中于图文数据间中的差异内容,来优化识别易产生讽刺感的图文片段,包括以下方法;
设提取的特征表示Mtext,Mimage分别为文本、图像较原始的低级语义特征,为提升所得到的图文语义信息的抽象度,在进行图文融合前,以自注意力机制提取图文数据的特征表示:
vtext,vimage=SelfATT(Mtext,Mimage)
然后将vtext,vimage与图像、文本所提取的特征表示通过实体差异注意力机制进行融合,首先将图文自注意力计算的结果vtext,vimage与前文所提取的图像、文本隐藏表示进行注意力计算,而后将图文特征表示减去注意力计算的结果,从而使模型将特征提取的重点由图文间的关联信息转移至图像、文本数据中的关键词汇、关键画面,表述为:
p=tanh(WpMm+bp) 公式十一;
q=tanh(Wqvn+bq) 公式十二;
β=softmax(p*q) 公式十三;
Hm=Mm-β 公式十四;
其中,m,n∈{text,image}表示图像、文本两种不同模态,vn即通过自注意力机制提取得到的图、文特征,Min为前文特征提取模块所得到的图像、文本数据表示,β为模态间点积注意力计算的结果,为对差异信息增强后的图文特征表示;
所述语义融合模块在融合社交媒体平台图文数据的中级、高级语义信息时,其方法为:在图像情感分析任务执行,所述图像情感分析任务中,ANPs以形容词、名词组合的方式描述图像,被视为图像数据的中级语义信息;所述社交媒体平台中以话题作为对文本内容的高度概括,对文本情绪识别存在重要影响,即被视为文本数据的中级语义信息;在讽刺感受模态间的语义变化影响下,通过将属性特征vattr与图文融合结果Hm进一步的融合,形成多模态数据语义理解的过程,表述为:
s=tanh(WsHm+bs) 公式十五;
t=tanh(Wtvattr+bt) 公式十六;
其中,m∈{text,image}为图像、文本两种不同模态,Lm为文本模态序列长度或图像区域数,vm即融合中级语义信息后的图文特征表示;
当讽刺识别模块对多模态数据进行讽刺识别时,采用以下方法,
通过将所提取的多级语义特征vtext,vimage,vattr串联后应用于讽刺识别中,即在经过两个线性层的维度转换后,通过Sigmod函数将模型结果用于二分类任务中,表述为
ytext=Relu(Wt[vtext:vattr]+bt) 公式十九;
yimage=Relu(Wi[vimage:vattr]+bi) 公式二十;
其中,ytext,yimage为经过线性层进行维度转换后的特征表示,为最终模型分类的结果,采用交叉熵作为模型的损失函数:
其中,yi为数据中第i个样例的标签,为模型预测结果,L2为L2范数,λ为衡量该范数的权重。
2.根据权利要求1所述的一种融合多级语义信息的多模态讽刺识别系统方法,其特征在于:所述yi取值1时识别为讽刺,取值0时识别为非讽刺。
3.根据权利要求1所述的一种融合多级语义信息的多模态讽刺识别系统方法,其特征在于:所述方法基于融合多级语义信息的多模态讽刺识别系统实施,针对社交媒体领域的多模态数据信息,该系统使用的多模态讽刺识别模型在训练阶段,根据信息的前向传播和误差的后向传播进行调整,以逐步优化模型的目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110919005.4A CN113642332B (zh) | 2021-08-11 | 2021-08-11 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110919005.4A CN113642332B (zh) | 2021-08-11 | 2021-08-11 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642332A CN113642332A (zh) | 2021-11-12 |
CN113642332B true CN113642332B (zh) | 2023-11-14 |
Family
ID=78420825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110919005.4A Active CN113642332B (zh) | 2021-08-11 | 2021-08-11 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642332B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398961B (zh) * | 2021-12-28 | 2023-05-05 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN116402063B (zh) * | 2023-06-09 | 2023-08-15 | 华南师范大学 | 多模态讽刺识别方法、装置、设备以及存储介质 |
CN117251791B (zh) * | 2023-11-08 | 2024-01-26 | 天津大学 | 基于图的全局语义感知的多模态反讽检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN112966135A (zh) * | 2021-02-05 | 2021-06-15 | 华中科技大学 | 一种基于注意力机制和门控机制的图文检索方法和系统 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113191154A (zh) * | 2021-03-04 | 2021-07-30 | 浙江师范大学 | 基于多模态图神经网络的语义分析方法、系统和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516085B (zh) * | 2019-07-11 | 2022-05-17 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
-
2021
- 2021-08-11 CN CN202110919005.4A patent/CN113642332B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN112966135A (zh) * | 2021-02-05 | 2021-06-15 | 华中科技大学 | 一种基于注意力机制和门控机制的图文检索方法和系统 |
CN113191154A (zh) * | 2021-03-04 | 2021-07-30 | 浙江师范大学 | 基于多模态图神经网络的语义分析方法、系统和存储介质 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
Non-Patent Citations (2)
Title |
---|
融合图像注意力的多模态机器翻译模型;李霞;马骏腾;覃世豪;;中文信息学报(07);全文 * |
面向社交媒体的反讽识别;罗观柱;赵妍妍;秦兵;刘挺;;智能计算机与应用(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642332A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642332B (zh) | 一种融合多级语义信息的多模态讽刺识别系统方法 | |
CN113158875B (zh) | 基于多模态交互融合网络的图文情感分析方法及系统 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN110807122B (zh) | 一种基于深度互信息约束的图文跨模态特征解纠缠方法 | |
CN113627482B (zh) | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN110599592B (zh) | 一种基于文本的三维室内场景重建方法 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN112633364A (zh) | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 | |
CN106997341A (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN112287105B (zh) | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN110415071A (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN111061951A (zh) | 一种基于双层自注意力评论建模的推荐模型 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN114722202A (zh) | 基于双向双层注意力lstm网络的多模态情感分类方法及系统 | |
CN113807307B (zh) | 一种用于视频多行为识别的多模态联合学习方法 | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN116775855A (zh) | 基于Bi-LSTM的TextRank中文摘要自动生成方法 | |
Lu et al. | Exploration and application of graphic design language based on artificial intelligence visual communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liao Xiangwen Inventor after: Weng Yuchen Inventor after: Wei Dongchun Inventor after: Wu Junyi Inventor after: He Jia Inventor before: Liao Xiangwen Inventor before: Weng Yuzhen Inventor before: Wei Dongchun Inventor before: Wu Junyi Inventor before: He Jia |
|
GR01 | Patent grant | ||
GR01 | Patent grant |