CN117251791A - 基于图的全局语义感知的多模态反讽检测方法 - Google Patents

基于图的全局语义感知的多模态反讽检测方法 Download PDF

Info

Publication number
CN117251791A
CN117251791A CN202311477745.2A CN202311477745A CN117251791A CN 117251791 A CN117251791 A CN 117251791A CN 202311477745 A CN202311477745 A CN 202311477745A CN 117251791 A CN117251791 A CN 117251791A
Authority
CN
China
Prior art keywords
text
graph
image
fusion
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311477745.2A
Other languages
English (en)
Other versions
CN117251791B (zh
Inventor
王龙标
魏燚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202311477745.2A priority Critical patent/CN117251791B/zh
Publication of CN117251791A publication Critical patent/CN117251791A/zh
Application granted granted Critical
Publication of CN117251791B publication Critical patent/CN117251791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于图的全局语义感知的多模态反讽检测方法。文本特征和图像特征作为单模态图生成模块的输入;构建单模态图生成模块;获得文本图特征和视觉图特征作为文本引导的图融合模块的输入;文本图特征和视觉图特征输入到文本引导的图融合模块中进行训练,使得损失函数最小,得到文本模态和视觉模态融合后的多模态图;将融合后的多模态图投影到语义空间;将测试样本输入到语义空间,通过K最邻近算法选择K个语义最相关的样本,最后通过投票机制完成讽刺检测。创新地引入了利用全局语义一致性的新范式和基于标签的图对比学习能够辅助讽刺检测模块提取到语义特征以及利用全局语义一致性信息。

Description

基于图的全局语义感知的多模态反讽检测方法
技术领域
本发明属于自然语言处理技术领域,具体为一种基于图的全局语义感知的多模态反讽检测方法。
背景技术
多模态反讽检测技术是对图像和文本结合的图文对进行识别。随着网络社交媒体的普及和发展,人们通常使用网络社交媒体发布含有图像和文本的带有讽刺意味的帖子表达自己的情感,如何准确的检测讽刺性帖子并分析其中蕴含的情感受到学术界和工业界越来越多的关注,这些情感信息的提取和利用在产品推广、舆情分析以及网络监管具有重要的意义。由于图神经网络在构建多模态图的分类任务中取得巨大的成功,基于图像和文本模态的反讽检测技术可以看作是分类任务,因此讽刺检测方法不再局限于传统的文本或图像等单模态数据,而是基于文本和视觉模态结合的讽刺识别方法。但是该研究方法仍然存在许多的挑战,例如多模态特征难以融合、模态冗余信息等都会对分类准确率造成影响。
近年来,讽刺识别技术在多模态领域的研究进展主要集中于融合视觉模态信息和文本模态信息。由于图神经网络在学习图结构数据方面具有巨大潜力,自然的将其应用于讽刺识别的空间特征提取网络中。然而,仅仅捕捉文本模态信息对复杂的讽刺识别任务是不充分的。所以图像作为一种互补的输入模态,在图神经网络中捕捉图像的语义信息,表现出对讽刺识别任务的有效性。Aniruddha Ghosh等人探索讽刺背景或讽刺制造者的情绪作为附加线索对文本中的一致性等级建模,成为了讽刺识别技术的主流之一,但它局限于文本的输入,没有考虑到图像蕴含的信息。作为改进Schifanella等人设计文本和视觉特征应用于多模态讽刺检测任务,随后Bin Liang等人应用图神经网络在模态之间绘制复杂的情感联系进行讽刺检测,能够高效的捕捉文本和图像之间的矛盾关系。基于图神经网络绘制复杂的情感关系进行多模态讽刺检测在近期的研究中十分有效,但是没有考虑利用现有的全局语义一致性以及多种模态图融合模型不能直接感知推理过程。
发明内容
本发明的目的是为了解决传统的基于多模态图进行多模态反讽检测时存在的无法利用全局语义一致性信息以及传统的多模态图融合模型无法感知推理过程使基于图的表示的语义相关性降低,导致识别准确率低。
本发明的技术方案为基于图的全局语义感知的多模态反讽检测方法,包括如下步骤:
S1 对于数据集中的每一文本-图像对(T,I),使用预训练的BERTbase模型将文本T转换为token序列,调整图像I大小为224*224并划分成r个32*32的图像块得到块序列/>,将/>输入在ImageNet-1k上预训练的具有两个多层感知器的ViT-B/32模型获得图像特征/>,文本特征/>和图像特征/>作为单模态图生成模块的输入;
S2 构建单模态图生成模块;
S3 将所述步骤S1中的文本特征和图像特征/>分别输入至单模态图生成模块,所得到的文本图特征/>和视觉图特征/>作为文本引导的图融合模块的输入;
S4 构建文本引导的图融合模块;
S5将所述步骤S3中获得的文本图特征和视觉图特征输入到所述步骤S4中构建的文本引导的图融合模块中进行训练,使得文本引导的图融合模块的损失函数最小,得到文本模态和视觉模态融合后的多模态图;
S6 将所述步骤S5得到的文本模态和视觉模态融合后的多模态图投影到语义空间训练,得到训练完成的图融合模块的语义空间;
S7 将测试样本输入到所述步骤S6中的图融合模块的语义空间,通过K最邻近算法选择K个语义最相关的样本,最后通过投票机制完成基于文本图像对的讽刺检测。
进一步,所述步骤S4构建文本引导的图融合模块,包括以下两部分:模态融合和文本表示增强与降维;
(1)模态融合
模态融合分支选用M个堆叠交叉注意力层对齐和融合文本和图像模态,具体的,文本图结点作为query以捕捉视觉图结点中的矛盾情感,在每一交叉注意力层,和/>作为一个交叉注意力模块的输入,计算公式为:
(1)
其中,d为投影矩阵的维度,,/>和/>分别为query,key和value投影矩阵;
省去交叉注意力层的残差连接和层归一化以简化模型,获取到最后一个注意力层的结点表示为,其中s表示输出节点个数;由于融合过程使用文本引导的图融合模块,将文本作为query,所以这里的s和文本图特征/>中s的大小一致。
(2)文本表示增强与降维
使用残余文本注意力获得讽刺分类的最终图形表示,计算公式为:
(2)
(3)
(4)
(5)
其中,为文本增强后的文本图表示,/>为最后一个注意力层的第i个结点,/>为第i个文本图表示,/>和/>为注意力学习参数,/>和/>为偏置常数,/>为归一化后的文本图表示,[,]表示连接操作,GELU是激活函数,/>为偏置常数,/>,/>
文本引导的图融合模块是对图神经网络的改进,文本引导的图融合模块利用基于标签的图对比学习算法进行优化,通过图对比损失函数区分图特征进而增强语义空间中基于图的语义相关性。利用对比学习的关键是如何构建正面或负面的例子,传统的对比学习由于只使用一个正面例子不仅依赖于复杂的数据增强来扩大对比对并且只选择一个正面例子是不合理的。具体地,基于标签的图对比学习算法使具有相同标签的基于图的特征在语义空间中强制具有语义一致性,使得K最邻近算法检索到的K个样本更有可能具有与预测样本相同的标签。
进一步, 所述步骤S5文本引导的图融合模块的损失函数计算公式如下:
(1)交叉熵损失函数
(6)
其中,为注意力学习参数,/>为偏置常数;
(2)图对比损失函数
基于标签的图对比损失算法主要分为两步:
第一步:根据批次中的讽刺标签生成没有遮掩的标签
第二步:计算样本和样本间的相似度矩阵,并且使用未遮掩标签/>和相似度矩阵/>计算对比损失函数/>
具体的,图对比损失函数算法过程如下:
输入:讽刺标签L,规定所有样本分为两类:讽刺为1,非讽刺为0;文本引导的图融合模型,文本-图像对x,C表示Lc的长度,S表示L的长度;
输出:基于标签的图对比损失函数
算法过程:根据输入中的标签信息L,收集每个批次中各样本所对应的相同标签的正样本,并将正样本位置信息存储成没有遮掩的标签;接着,根据文本引导的图融合模型,计算出每一个样本的图融合特征/>,并利用/>函数计算出不同图融合特征之间的相似度矩阵/>;最后根据没有遮掩的标签/>中的正样本位置索引来检索/>中对应的相似度值,将对应的相似度值进行累加求和取平均,得到基于标签的图对比损失函数,并输出/>
(3)图融合模块损失函数
(7)
其中,是用来平衡不同损失的超参数。
本发明的有益效果在于:克服了传统的基于多模态图进行多模态反讽检测时存在的无法利用全局语义一致性信息以及传统的多模态图融合模型无法感知推理过程导致基于图的表示的语义相关性降低以及识别准确率低的问题。
本发明在图神经网络的基础上创新地引入了利用全局语义一致性的新范式和基于标签的图对比学习能够辅助讽刺检测模块提取到语义特征以及利用全局语义一致性信息。
由于数据分布不平衡,GGSAM在宏观指标的改进比其它指标更显著。总的来说,GGSAM在所有指标上都实现了最佳性能,展现出探索基于图的语义感知的优势。
与最先进的HKEmodel相比,GGSAM准确率的提升超过1.28%,与大多数以前最好的模型改进幅度不到1%相比,GGSAM具有显著的改进。
GGSAM超越所有先前的基线模型。具体地,在多模态情感识别任务中GGSAM比当前最先进的模型MGNNS的准确率高出很多,这个显著地改进证明了GGSAM在多模态任务中十分具有潜力。
具体实施方式
下面将结合实施例对本发明做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
本发明基于图的全局语义感知的多模态反讽检测方法,具体如下:
对于测试样本,这里一般为待检测的多模态讽刺推文,假设其文本为“the viewfrom my classroom,lovely weather.”,图像的内容为下雨后潮湿的街道。该推文的文本表达天气的美好,而图像表达天气的恶劣。
S1 对于训练数据集中的每一推文,使用预训练的BERTbase模型将文本转换为token序列得到表达好天气的文本特征。对于推文中的图像,调整图像I大小为224*224并划分成r个32*32的图像块得到块序列/>,将/>输入在ImageNet-1k上预训练的具有两个多层感知器的ViT-B/32模型获得表达恶劣天气的图像特征/>。该推文的文本特征/>和图像特征/>作为单模态图生成模块的输入。
S2 构建单模态图生成模块。
S3 将步骤S1从推文提取到的表达天气状况的文本特征和图像特征/>分别输入至单模态图生成模块,所得到的文本图特征/>和视觉图特征作为文本引导的图融合模块的输入。
S4 构建文本引导的图融合模块;
所述步骤S4构建文本引导的图融合模块包括两个部分:模态融合和文本表示增强与降维;
(1)模态融合
模态融合分支选用M个堆叠交叉注意力层对齐和融合文本和图像两种模态,具体的,表达天气美好的文本图结点作为query以捕捉表达天气恶劣的视觉图结点中的矛盾情感,在每一交叉注意力层,和/>作为一个交叉注意力模块的输入,计算公式为:
(1)
其中,d为投影矩阵的维度,,/>和/>分别为query,key和value投影矩阵;
省去交叉注意力层的残差连接和层归一化以简化模型;最后一个注意力层的s个结点表示为
(2)文本表示增强与降维
使用残余文本注意力获得讽刺分类的最终图形表示,计算公式为:
(2)
(3)
(4)
(5)
其中,为文本增强后的文本图表示,/>为最后一个注意力层的第i个结点,/>为第i个文本图表示,/>和/>为注意力学习参数,/>和/>为偏置常数,/>为归一化后的文本图表示,[,]表示连接操作,GELU是激活函数,/>为偏置常数,/>,/>
文本引导的图融合模块是对图神经网络的改进,文本引导的图融合模块利用基于标签的图对比学习算法进行优化,通过图对比损失函数区分图特征进而增强语义空间中基于图的语义相关性。利用对比学习的关键是如何构建正面或负面的例子,传统的对比学习由于只使用一个正面例子不仅依赖于复杂的数据增强来扩大对比对并且只选择一个正面例子是不合理的。具体地,基于标签的图对比学习算法使具有相同标签的基于图的特征在语义空间中强制具有语义一致性,使得K最邻近算法检索到的K个样本更有可能具有与待检测样本相同的标签。
S5 将步骤S3中的文本图特征和视觉图特征/>输入到步骤S4构建的文本引导的图融合模块中进行训练,使得文本引导的图融合模块的损失函数最小,得到文本模态和视觉模态融合后的多模态图;
进一步, 所述步骤S5文本引导的图融合模块的损失函数计算公式如下:
(1)交叉熵损失函数
(6)
其中,为注意力学习参数,/>为偏置常数;
(2)图对比损失函数
基于标签的图对比损失算法主要分为两步:
第一步:根据批次中的讽刺标签生成没有遮掩的标签
第二步:计算样本和样本间的相似度矩阵,并且使用未遮掩标签/>和相似度矩阵/>计算对比损失函数/>
具体的,图对比损失函数算法如下:
输入:讽刺标签L,规定所有样本分为两类:讽刺为1,非讽刺为0;文本引导的图融合模型Φ(),文本-图像对x,C表示Lc的长度,S表示L的长度;
输出:基于标签的图对比损失函数
算法过程:根据输入中的标签信息L,收集每个批次中各样本所对应的相同标签的正样本,并将正样本位置信息存储成没有遮掩的标签;接着,根据文本引导的图融合模型Φ(),计算出每一个样本的图融合特征/>,并利用/>函数计算出不同图融合特征之间的相似度矩阵/>;最后根据没有遮掩的标签/>中的正样本位置索引来检索/>中对应的相似度值,将对应的相似度值进行累加求和取平均,得到基于标签的图对比损失函数,并输出/>
(3)图融合模块损失函数
(7)
其中,是用来平衡不同损失的超参数。
S6 将所述步骤S5得到的文本模态和视觉模态融合后的多模态图投影到语义空间训练,得到训练完成的图融合模块的语义空间;。
S7 将待检测推文输入到所述步骤S6中训练完成的图融合模块的语义空间,通过K最邻近算法选择K个语义最相关的样本,根据相关样本的标签通过投票机制完成该推文的讽刺检测。
表1
在公开的多模态反讽检测数据集上测试不同模型以及GGSAM的性能,如表1所示。其中,*表示基于图的模型。使用准确率、精确率、召回率和F1-score评估模型性能,同时使用宏观平均得分避免数据分布不平衡的干扰并充分评估模型性能。由表1可知,由于数据分布不平衡,GGSAM在宏观指标的改进比其它指标更显著。总的来说,GGSAM在所有指标上都实现了最佳性能,展现出探索基于图的语义感知的优势。
与最先进的HKEmodel相比,GGSAM准确率的提升超过1.28%,与大多数以前最好的模型改进幅度不到1%相比,GGSAM具有显著的改进。
与之前的模型相比,GGSAM计算量小,GGSAM没有额外的可训练参数,计算成本主要在需要将数据集中的所有示例与多模态图融合模型前向传递来对比基于图的语义空间。为了避免冗余计算,在语义空间中预先制作基于图的语义表示。因此,唯一的计算消耗是计算语义空间中预测案例和N个实施例之间的欧式距离。
GGSAM在多模态分析任务中具有通用性,为了评估所提出的模型是否可以应用于其他多模态分析任务,在Tumblr数据集上进行多模态情感分析实验。
表2
表2显示了以前的基线方法与GGSAM的性能比较,由表可知,GGSAM超越所有先前的基线模型。具体地,在多模态情感识别任务中GGSAM比当前最先进的模型MGNNS的准确率提高7.23%,这个显著的改进证明GGSAM在多模态任务中十分具有潜力。

Claims (2)

1.基于图的全局语义感知的多模态反讽检测方法,其特征在于,包括如下步骤:
S1 对于数据集中的每一文本-图像对(T,I),使用预训练的BERTbase模型将文本T转换为token序列,调整图像I大小并划分成r个图像块得到块序列,将/>输入在ImageNet-1k上预训练的具有两个多层感知器的ViT-B/32模型获得图像特征/>,文本特征/>和图像特征/>作为单模态图生成模块的输入;
S2 构建单模态图生成模块;
S3 将所述步骤S1中的文本特征和图像特征/>分别输入至单模态图生成模块,获得的文本图特征/>和视觉图特征/>
S4 构建文本引导的图融合模块;
S5 将所述步骤S3中获得的文本图特征和视觉图特征输入到所述步骤S4中构建的文本引导的图融合模块中进行训练,使得文本引导的图融合模块的损失函数最小,得到文本模态和视觉模态融合后的多模态图;
S6 将所述步骤S5得到的文本模态和视觉模态融合后的多模态图投影到语义空间训练,得到训练完成的图融合模块的语义空间;
S7 将测试样本输入到所述步骤S6中的图融合模块的语义空间,通过K最邻近算法选择K个语义最相关的样本,最后通过投票机制完成基于文本图像对的讽刺检测;
所述步骤S4构建文本引导的图融合模块包括两个部分:模态融合和文本表示增强与降维;
(1)模态融合
模态融合选用M个堆叠交叉注意力层对齐和融合文本、图像模态,文本图结点作为query以捕捉视觉图结点中的矛盾情感,在每一交叉注意力层,和/>作为交叉注意力模块的输入,计算公式为:
(1)
其中,d为投影矩阵的维度,,/>和/>分别为query,key和value投影矩阵;
省去交叉注意力层的残差连接和层归一化以简化模型,获取到最后一个注意力层的结点表示为,其中s表示输出节点个数;
由于融合过程使用文本引导的图融合模块,将文本作为query,所以这里的s和文本图特征中s的大小一致;
(2)文本表示增强与降维
使用残余文本注意力获得讽刺分类的最终图形表示,计算公式为:
(2)
(3)
(4)
(5)
其中,为文本增强后的文本图表示,/>为最后一个注意力层的第i个结点,/>为第i个文本图表示,/>和/>为注意力学习参数,/>和/>为偏置常数,/>为归一化后的文本图表示,[,]表示连接操作,GELU是激活函数,/>为偏置常数,/>,/>为使用残余文本注意力获得讽刺分类的最终图形表示。
2.根据权利要求1所述的方法, 其特征在于,所述步骤S5文本引导的图融合模块的损失函数计算公式如下:
(1)交叉熵损失函数
(6)
其中,为注意力学习参数,/>为偏置常数;
(2)图对比损失函数
基于标签的图对比学习算法主要分为两步:
第一步:根据批次中的讽刺标签生成没有遮掩的标签
第二步:计算样本和样本间的相似度矩阵,并且使用未遮掩标签/>和相似度矩阵/>来计算图对比损失函数/>
图对比损失函数算法如下:
输入:讽刺标签L,规定所有样本分为两类:讽刺为1,非讽刺为0;文本引导的图融合模型,文本-图像对x,C表示Lc的长度,S表示L的长度;
输出:基于标签的图对比损失函数
根据输入中的标签信息L,收集每个批次中各样本所对应的相同标签的正样本,并将正样本位置信息存储成没有遮掩的标签
根据文本引导的图融合模型,计算出每一个样本的图融合特征/>,并利用函数计算出不同图融合特征之间的相似度矩阵/>
最后,根据没有遮掩的标签中的正样本位置索引来检索/>中对应的相似度值,将对应的相似度值进行累加求和取平均,得到基于标签的图对比损失函数/>,并输出
(3)图融合模块损失函数
(7)
其中,是用来平衡不同损失的超参数。
CN202311477745.2A 2023-11-08 2023-11-08 基于图的全局语义感知的多模态反讽检测方法 Active CN117251791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311477745.2A CN117251791B (zh) 2023-11-08 2023-11-08 基于图的全局语义感知的多模态反讽检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311477745.2A CN117251791B (zh) 2023-11-08 2023-11-08 基于图的全局语义感知的多模态反讽检测方法

Publications (2)

Publication Number Publication Date
CN117251791A true CN117251791A (zh) 2023-12-19
CN117251791B CN117251791B (zh) 2024-01-26

Family

ID=89131535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311477745.2A Active CN117251791B (zh) 2023-11-08 2023-11-08 基于图的全局语义感知的多模态反讽检测方法

Country Status (1)

Country Link
CN (1) CN117251791B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117640947A (zh) * 2024-01-24 2024-03-01 羚客(杭州)网络技术有限公司 视频图像的编码方法、物品检索方法、电子设备、介质
CN117892205A (zh) * 2024-03-15 2024-04-16 华南师范大学 多模态讽刺检测方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535894A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 基于条件融合的多模态反讽检测方法
CN113642332A (zh) * 2021-08-11 2021-11-12 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN116611024A (zh) * 2023-05-16 2023-08-18 南开大学 一种基于事实和情感对立性的多模态反讽检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535894A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 基于条件融合的多模态反讽检测方法
CN113642332A (zh) * 2021-08-11 2021-11-12 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN116611024A (zh) * 2023-05-16 2023-08-18 南开大学 一种基于事实和情感对立性的多模态反讽检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN LIANGE ETC.: ""Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network"", 《PROCEEDINGS OF THE 60TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, pages 1766 - 1774 *
YIWEI WEI ETC.: ""Tackling Modality Heterogeneity with Multi-View Calibration Network for Multimodal Sentiment Detection"", 《PROCEEDINGS OF THE 61ST ANNUAL MEETIONG OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, pages 5240 - 5245 *
兰红等: ""深度融合图像文本特征的文本引导图像修复"", 《计算机应用研究》, vol. 40, no. 7 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117640947A (zh) * 2024-01-24 2024-03-01 羚客(杭州)网络技术有限公司 视频图像的编码方法、物品检索方法、电子设备、介质
CN117640947B (zh) * 2024-01-24 2024-05-10 羚客(杭州)网络技术有限公司 视频图像的编码方法、物品检索方法、电子设备、介质
CN117892205A (zh) * 2024-03-15 2024-04-16 华南师范大学 多模态讽刺检测方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN117251791B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN117251791B (zh) 基于图的全局语义感知的多模态反讽检测方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN116702091B (zh) 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN110956044A (zh) 一种基于注意力机制的司法场景用文案输入识别分类方法
CN115712740B (zh) 多模态蕴含增强图像文本检索的方法和系统
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN114332679A (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
CN113312530A (zh) 一种以文本为核心的多模态情感分类方法
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN113656660A (zh) 跨模态数据的匹配方法、装置、设备及介质
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN115100664A (zh) 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
Niu Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi-Feature Extraction
CN116758558A (zh) 基于跨模态生成对抗网络的图文情感分类方法及系统
CN115631504A (zh) 一种基于双模态图网络信息瓶颈的情感识别方法
Thuseethan et al. Multimodal deep learning framework for sentiment analysis from text-image web Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant