CN117251791A

CN117251791A - 基于图的全局语义感知的多模态反讽检测方法

Info

Publication number: CN117251791A
Application number: CN202311477745.2A
Authority: CN
Inventors: 王龙标; 魏燚伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2023-12-19
Anticipated expiration: 2043-11-08
Also published as: CN117251791B

Abstract

本发明公开一种基于图的全局语义感知的多模态反讽检测方法。文本特征和图像特征作为单模态图生成模块的输入；构建单模态图生成模块；获得文本图特征和视觉图特征作为文本引导的图融合模块的输入；文本图特征和视觉图特征输入到文本引导的图融合模块中进行训练，使得损失函数最小，得到文本模态和视觉模态融合后的多模态图；将融合后的多模态图投影到语义空间；将测试样本输入到语义空间，通过K最邻近算法选择K个语义最相关的样本，最后通过投票机制完成讽刺检测。创新地引入了利用全局语义一致性的新范式和基于标签的图对比学习能够辅助讽刺检测模块提取到语义特征以及利用全局语义一致性信息。

Description

基于图的全局语义感知的多模态反讽检测方法

技术领域

本发明属于自然语言处理技术领域，具体为一种基于图的全局语义感知的多模态反讽检测方法。

背景技术

多模态反讽检测技术是对图像和文本结合的图文对进行识别。随着网络社交媒体的普及和发展，人们通常使用网络社交媒体发布含有图像和文本的带有讽刺意味的帖子表达自己的情感，如何准确的检测讽刺性帖子并分析其中蕴含的情感受到学术界和工业界越来越多的关注，这些情感信息的提取和利用在产品推广、舆情分析以及网络监管具有重要的意义。由于图神经网络在构建多模态图的分类任务中取得巨大的成功，基于图像和文本模态的反讽检测技术可以看作是分类任务，因此讽刺检测方法不再局限于传统的文本或图像等单模态数据，而是基于文本和视觉模态结合的讽刺识别方法。但是该研究方法仍然存在许多的挑战，例如多模态特征难以融合、模态冗余信息等都会对分类准确率造成影响。

近年来，讽刺识别技术在多模态领域的研究进展主要集中于融合视觉模态信息和文本模态信息。由于图神经网络在学习图结构数据方面具有巨大潜力，自然的将其应用于讽刺识别的空间特征提取网络中。然而，仅仅捕捉文本模态信息对复杂的讽刺识别任务是不充分的。所以图像作为一种互补的输入模态，在图神经网络中捕捉图像的语义信息，表现出对讽刺识别任务的有效性。Aniruddha Ghosh等人探索讽刺背景或讽刺制造者的情绪作为附加线索对文本中的一致性等级建模，成为了讽刺识别技术的主流之一，但它局限于文本的输入，没有考虑到图像蕴含的信息。作为改进Schifanella等人设计文本和视觉特征应用于多模态讽刺检测任务，随后Bin Liang等人应用图神经网络在模态之间绘制复杂的情感联系进行讽刺检测，能够高效的捕捉文本和图像之间的矛盾关系。基于图神经网络绘制复杂的情感关系进行多模态讽刺检测在近期的研究中十分有效，但是没有考虑利用现有的全局语义一致性以及多种模态图融合模型不能直接感知推理过程。

发明内容

本发明的目的是为了解决传统的基于多模态图进行多模态反讽检测时存在的无法利用全局语义一致性信息以及传统的多模态图融合模型无法感知推理过程使基于图的表示的语义相关性降低，导致识别准确率低。

本发明的技术方案为基于图的全局语义感知的多模态反讽检测方法，包括如下步骤:

S1 对于数据集中的每一文本-图像对（T,I），使用预训练的BERTbase模型将文本T转换为token序列，调整图像I大小为224*224并划分成r个32*32的图像块得到块序列/>，将/>输入在ImageNet-1k上预训练的具有两个多层感知器的ViT-B/32模型获得图像特征/>，文本特征/>和图像特征/>作为单模态图生成模块的输入；

S2 构建单模态图生成模块；

S3 将所述步骤S1中的文本特征和图像特征/>分别输入至单模态图生成模块，所得到的文本图特征/>和视觉图特征/>作为文本引导的图融合模块的输入；

S4 构建文本引导的图融合模块；

S5将所述步骤S3中获得的文本图特征和视觉图特征输入到所述步骤S4中构建的文本引导的图融合模块中进行训练，使得文本引导的图融合模块的损失函数最小，得到文本模态和视觉模态融合后的多模态图；

S6 将所述步骤S5得到的文本模态和视觉模态融合后的多模态图投影到语义空间训练，得到训练完成的图融合模块的语义空间；

S7 将测试样本输入到所述步骤S6中的图融合模块的语义空间，通过K最邻近算法选择K个语义最相关的样本，最后通过投票机制完成基于文本图像对的讽刺检测。

进一步,所述步骤S4构建文本引导的图融合模块，包括以下两部分：模态融合和文本表示增强与降维；

(1)模态融合

模态融合分支选用M个堆叠交叉注意力层对齐和融合文本和图像模态，具体的，文本图结点作为query以捕捉视觉图结点中的矛盾情感，在每一交叉注意力层，和/>作为一个交叉注意力模块的输入，计算公式为：

（1）

其中，d为投影矩阵的维度，，/>和/>分别为query,key和value投影矩阵；

省去交叉注意力层的残差连接和层归一化以简化模型，获取到最后一个注意力层的结点表示为，其中s表示输出节点个数；由于融合过程使用文本引导的图融合模块，将文本作为query，所以这里的s和文本图特征/>中s的大小一致。

(2)文本表示增强与降维

使用残余文本注意力获得讽刺分类的最终图形表示，计算公式为：

（2）

（3）

（4）

（5）

其中，为文本增强后的文本图表示，/>为最后一个注意力层的第i个结点，/>为第i个文本图表示，/>和/>为注意力学习参数，/>和/>为偏置常数，/>为归一化后的文本图表示，[,]表示连接操作，GELU是激活函数，/>为偏置常数，/>，/>；

文本引导的图融合模块是对图神经网络的改进，文本引导的图融合模块利用基于标签的图对比学习算法进行优化，通过图对比损失函数区分图特征进而增强语义空间中基于图的语义相关性。利用对比学习的关键是如何构建正面或负面的例子，传统的对比学习由于只使用一个正面例子不仅依赖于复杂的数据增强来扩大对比对并且只选择一个正面例子是不合理的。具体地，基于标签的图对比学习算法使具有相同标签的基于图的特征在语义空间中强制具有语义一致性，使得K最邻近算法检索到的K个样本更有可能具有与预测样本相同的标签。

进一步，所述步骤S5文本引导的图融合模块的损失函数计算公式如下：

(1)交叉熵损失函数

（6）

其中，为注意力学习参数，/>为偏置常数；

(2)图对比损失函数

基于标签的图对比损失算法主要分为两步：

第一步：根据批次中的讽刺标签生成没有遮掩的标签；

第二步：计算样本和样本间的相似度矩阵，并且使用未遮掩标签/>和相似度矩阵/>计算对比损失函数/>；

具体的，图对比损失函数算法过程如下：

输入：讽刺标签L，规定所有样本分为两类：讽刺为1，非讽刺为0；文本引导的图融合模型，文本-图像对x，C表示Lc的长度，S表示L的长度；

输出：基于标签的图对比损失函数；

算法过程：根据输入中的标签信息L，收集每个批次中各样本所对应的相同标签的正样本，并将正样本位置信息存储成没有遮掩的标签；接着，根据文本引导的图融合模型，计算出每一个样本的图融合特征/>，并利用/>函数计算出不同图融合特征之间的相似度矩阵/>；最后根据没有遮掩的标签/>中的正样本位置索引来检索/>中对应的相似度值，将对应的相似度值进行累加求和取平均，得到基于标签的图对比损失函数，并输出/>。

(3)图融合模块损失函数

（7）

其中，是用来平衡不同损失的超参数。

本发明的有益效果在于：克服了传统的基于多模态图进行多模态反讽检测时存在的无法利用全局语义一致性信息以及传统的多模态图融合模型无法感知推理过程导致基于图的表示的语义相关性降低以及识别准确率低的问题。

本发明在图神经网络的基础上创新地引入了利用全局语义一致性的新范式和基于标签的图对比学习能够辅助讽刺检测模块提取到语义特征以及利用全局语义一致性信息。

由于数据分布不平衡，GGSAM在宏观指标的改进比其它指标更显著。总的来说，GGSAM在所有指标上都实现了最佳性能，展现出探索基于图的语义感知的优势。

与最先进的HKEmodel相比，GGSAM准确率的提升超过1.28%，与大多数以前最好的模型改进幅度不到1%相比，GGSAM具有显著的改进。

GGSAM超越所有先前的基线模型。具体地，在多模态情感识别任务中GGSAM比当前最先进的模型MGNNS的准确率高出很多，这个显著地改进证明了GGSAM在多模态任务中十分具有潜力。

具体实施方式

下面将结合实施例对本发明做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

本发明基于图的全局语义感知的多模态反讽检测方法，具体如下：

对于测试样本，这里一般为待检测的多模态讽刺推文，假设其文本为“the viewfrom my classroom，lovely weather.”，图像的内容为下雨后潮湿的街道。该推文的文本表达天气的美好，而图像表达天气的恶劣。

S1 对于训练数据集中的每一推文，使用预训练的BERTbase模型将文本转换为token序列得到表达好天气的文本特征。对于推文中的图像，调整图像I大小为224*224并划分成r个32*32的图像块得到块序列/>，将/>输入在ImageNet-1k上预训练的具有两个多层感知器的ViT-B/32模型获得表达恶劣天气的图像特征/>。该推文的文本特征/>和图像特征/>作为单模态图生成模块的输入。

S2 构建单模态图生成模块。

S3 将步骤S1从推文提取到的表达天气状况的文本特征和图像特征/>分别输入至单模态图生成模块，所得到的文本图特征/>和视觉图特征作为文本引导的图融合模块的输入。

S4 构建文本引导的图融合模块；

所述步骤S4构建文本引导的图融合模块包括两个部分：模态融合和文本表示增强与降维；

(1)模态融合

模态融合分支选用M个堆叠交叉注意力层对齐和融合文本和图像两种模态，具体的，表达天气美好的文本图结点作为query以捕捉表达天气恶劣的视觉图结点中的矛盾情感，在每一交叉注意力层，和/>作为一个交叉注意力模块的输入，计算公式为：

（1）

省去交叉注意力层的残差连接和层归一化以简化模型；最后一个注意力层的s个结点表示为；

(2)文本表示增强与降维

（2）

（3）

（4）

（5）

文本引导的图融合模块是对图神经网络的改进，文本引导的图融合模块利用基于标签的图对比学习算法进行优化，通过图对比损失函数区分图特征进而增强语义空间中基于图的语义相关性。利用对比学习的关键是如何构建正面或负面的例子，传统的对比学习由于只使用一个正面例子不仅依赖于复杂的数据增强来扩大对比对并且只选择一个正面例子是不合理的。具体地，基于标签的图对比学习算法使具有相同标签的基于图的特征在语义空间中强制具有语义一致性，使得K最邻近算法检索到的K个样本更有可能具有与待检测样本相同的标签。

S5 将步骤S3中的文本图特征和视觉图特征/>输入到步骤S4构建的文本引导的图融合模块中进行训练，使得文本引导的图融合模块的损失函数最小，得到文本模态和视觉模态融合后的多模态图；

(1)交叉熵损失函数

（6）

其中，为注意力学习参数，/>为偏置常数；

(2)图对比损失函数

基于标签的图对比损失算法主要分为两步：

第一步：根据批次中的讽刺标签生成没有遮掩的标签；

具体的，图对比损失函数算法如下：

输入：讽刺标签L，规定所有样本分为两类：讽刺为1，非讽刺为0；文本引导的图融合模型Φ()，文本-图像对x，C表示Lc的长度，S表示L的长度；

输出：基于标签的图对比损失函数；

算法过程：根据输入中的标签信息L，收集每个批次中各样本所对应的相同标签的正样本，并将正样本位置信息存储成没有遮掩的标签；接着，根据文本引导的图融合模型Φ()，计算出每一个样本的图融合特征/>，并利用/>函数计算出不同图融合特征之间的相似度矩阵/>；最后根据没有遮掩的标签/>中的正样本位置索引来检索/>中对应的相似度值，将对应的相似度值进行累加求和取平均，得到基于标签的图对比损失函数，并输出/>。

(3)图融合模块损失函数

（7）

其中，是用来平衡不同损失的超参数。

S6 将所述步骤S5得到的文本模态和视觉模态融合后的多模态图投影到语义空间训练，得到训练完成的图融合模块的语义空间；。

S7 将待检测推文输入到所述步骤S6中训练完成的图融合模块的语义空间，通过K最邻近算法选择K个语义最相关的样本，根据相关样本的标签通过投票机制完成该推文的讽刺检测。

表1

在公开的多模态反讽检测数据集上测试不同模型以及GGSAM的性能，如表1所示。其中，*表示基于图的模型。使用准确率、精确率、召回率和F1-score评估模型性能，同时使用宏观平均得分避免数据分布不平衡的干扰并充分评估模型性能。由表1可知，由于数据分布不平衡，GGSAM在宏观指标的改进比其它指标更显著。总的来说，GGSAM在所有指标上都实现了最佳性能，展现出探索基于图的语义感知的优势。

与之前的模型相比，GGSAM计算量小，GGSAM没有额外的可训练参数，计算成本主要在需要将数据集中的所有示例与多模态图融合模型前向传递来对比基于图的语义空间。为了避免冗余计算，在语义空间中预先制作基于图的语义表示。因此，唯一的计算消耗是计算语义空间中预测案例和N个实施例之间的欧式距离。

GGSAM在多模态分析任务中具有通用性，为了评估所提出的模型是否可以应用于其他多模态分析任务，在Tumblr数据集上进行多模态情感分析实验。

表2

表2显示了以前的基线方法与GGSAM的性能比较，由表可知，GGSAM超越所有先前的基线模型。具体地，在多模态情感识别任务中GGSAM比当前最先进的模型MGNNS的准确率提高7.23%，这个显著的改进证明GGSAM在多模态任务中十分具有潜力。

Claims

1.基于图的全局语义感知的多模态反讽检测方法，其特征在于，包括如下步骤:

S1 对于数据集中的每一文本-图像对（T,I），使用预训练的BERTbase模型将文本T转换为token序列，调整图像I大小并划分成r个图像块得到块序列，将/>输入在ImageNet-1k上预训练的具有两个多层感知器的ViT-B/32模型获得图像特征/>，文本特征/>和图像特征/>作为单模态图生成模块的输入；

S2 构建单模态图生成模块；

S3 将所述步骤S1中的文本特征和图像特征/>分别输入至单模态图生成模块，获得的文本图特征/>和视觉图特征/>；

S4 构建文本引导的图融合模块；

S5 将所述步骤S3中获得的文本图特征和视觉图特征输入到所述步骤S4中构建的文本引导的图融合模块中进行训练，使得文本引导的图融合模块的损失函数最小，得到文本模态和视觉模态融合后的多模态图；

S7 将测试样本输入到所述步骤S6中的图融合模块的语义空间，通过K最邻近算法选择K个语义最相关的样本，最后通过投票机制完成基于文本图像对的讽刺检测；

(1)模态融合

模态融合选用M个堆叠交叉注意力层对齐和融合文本、图像模态，文本图结点作为query以捕捉视觉图结点中的矛盾情感，在每一交叉注意力层，和/>作为交叉注意力模块的输入，计算公式为：

（1）

省去交叉注意力层的残差连接和层归一化以简化模型，获取到最后一个注意力层的结点表示为，其中s表示输出节点个数；

由于融合过程使用文本引导的图融合模块，将文本作为query，所以这里的s和文本图特征中s的大小一致；

(2)文本表示增强与降维

（2）

（3）

（4）

（5）

其中，为文本增强后的文本图表示，/>为最后一个注意力层的第i个结点，/>为第i个文本图表示，/>和/>为注意力学习参数，/>和/>为偏置常数，/>为归一化后的文本图表示，[,]表示连接操作，GELU是激活函数，/>为偏置常数，/>，/>为使用残余文本注意力获得讽刺分类的最终图形表示。

2.根据权利要求1所述的方法, 其特征在于，所述步骤S5文本引导的图融合模块的损失函数计算公式如下：

(1)交叉熵损失函数

（6）

其中，为注意力学习参数，/>为偏置常数；

(2)图对比损失函数

基于标签的图对比学习算法主要分为两步：

第一步：根据批次中的讽刺标签生成没有遮掩的标签；

第二步：计算样本和样本间的相似度矩阵，并且使用未遮掩标签/>和相似度矩阵/>来计算图对比损失函数/>；

图对比损失函数算法如下：

输出：基于标签的图对比损失函数；

根据输入中的标签信息L，收集每个批次中各样本所对应的相同标签的正样本，并将正样本位置信息存储成没有遮掩的标签；

根据文本引导的图融合模型，计算出每一个样本的图融合特征/>，并利用函数计算出不同图融合特征之间的相似度矩阵/>；

最后，根据没有遮掩的标签中的正样本位置索引来检索/>中对应的相似度值，将对应的相似度值进行累加求和取平均，得到基于标签的图对比损失函数/>，并输出；

(3)图融合模块损失函数

（7）

其中，是用来平衡不同损失的超参数。