CN117371456A

CN117371456A - 一种基于特征融合的多模态讽刺检测方法及系统

Info

Publication number: CN117371456A
Application number: CN202311305211.1A
Authority: CN
Inventors: 代克丽; 卢尧; 任福临; 钱凌寒; 杨鸣; 马骏; 顾彬仕; 徐华泽; 陈赛赛; 欧朱建; 沈彬彬
Original assignee: Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Current assignee: Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-09

Abstract

本发明公开了一种基于特征融合的多模态讽刺检测方法及系统，该方法包括以下步骤：获取待检测文本中的外部知识即形容词‑名词对，后特征表示为A，分别将待检测文本对应的文本模态和图像模态分别特征表示为T和I；采用多头交叉注意机制表示每对多模态输入的文本‑图像的浅层一致性分数以及文本‑外部知识的浅层一致性分数；利用图注意网络计算文本‑图像的深层一致性分数s_l和文本‑外部知识的深层一致性分数使用激活函数和线性层整合得到预测结果y。本发明结合文本、图像和形容词‑名词对三个模态，建立了知识强化型的多模态讽刺检测模型，在与文本、图像两种模态良好结合的基础上，提供更多元、有效的信息，并获得了更好的性能。

Description

一种基于特征融合的多模态讽刺检测方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于特征融合的多模态讽刺检测方法及系统。

背景技术

早期的讽刺检测通常针对纯文本模态，着重利用从不同语言文本中提取的各种设计好的离散特征[1]，包括单词情感、标点[2]和表情符号[3]、词性标签[4]等，对讽刺语言进行建模。其后，研究人员开始利用深度学习技术来获得更精确的文本语义表示，如Ghosh和Veale提出的带有CNN和RNN分层器的讽刺检测模型[5]；Zhang等人将Bi-GRU模型获得的目标推文嵌入与人为设计的上下文特征连接起来，在完全基于特征的系统的基础上获得了极大进步[6]。除了文本本身的内容以外，用户历史行为特征和社交背景[7]以及构建社交网络的方法[8]也对纯文本讽刺检测提供了一定价值。Bamman和Smith利用人为设计的作者、听众和反馈特征来促进讽刺检测的实现[9]；Amir等人利用可训练的用户嵌入来增强CNN分类模型的性能[10]；Wu等人基于嵌入、情感特征和同步特征构建了一个密集连接LSTM的多任务模型[11]。

然而，随着现代社交媒体平台上多模态消息的快速增长，单模态讽刺检测方法无法有效地结合视觉等信息来提高讽刺检测性能，在复杂多变的多模态社交媒体中效果有限，多模态讽刺检测研究开始受到更多关注。Schifanella等人首次定义了多模态讽刺检测任务并公开了一个含有文本和图像两种模态的多模态讽刺检测数据集[12]。在此基础上，Pan等人[13]和Liang等人[14]分别利用BERT和图神经网络对模态内和模态间不一致性进行了建模，同时利用文本和图像两种模态信息，实现了多模态讽刺检测。

但是，传统的多模态讽刺检测拘泥于文本和图像两个基本模态，而忽略了各种外部知识对讽刺检测提供的影响和帮助。Li等人[15]和Veale等人[16]通过实验指出，常识对于讽刺检测至关重要；Cai等人提出基于预训练的ResNet模型，在图像分类任务模型的基础上，通过预测提取每张图像的五个表示图像属性的词语，作为讽刺检测的外部知识[17]；在此基础上，Liu等人以由图像生成相关的字幕语句为外部知识，并构建了层次融合模型，使各模态特征进行深层次融合，实现讽刺检测[18]。

上述现有技术均忽略了不同模态融合的跨度和鸿沟，没有充分利用模态间更深层次的重要联系；并且，大多数多模态讽刺检测仍拘泥于文本和图像两个基本模态，而忽略了各种外部知识对讽刺检测提供的影响和帮助，因此，检测的准确度有待提高。

引用的相关文章列举如下：

[1]oma′sˇPta′cˇek,Ivan Habernal,and Jun Hong.2014.Sarcasm detectionon czech and english twitter.In Proceedings of COLING 2014,the 25thInternational Conference on Computational Linguistics:Technical Papers,pages213–223.

[2]M.Bouazizi and T.Ohtsuki.2015.Sarcasm detection in twitter:”allyour products are incredibly amazing！！！”-aretheyreally？In 2015IEEE GlobalCommunications Conference,pages 1–6.

[3]Bjarke F,Alan M,Anders S,et al.2017.Using millions of emojioccurrences to learn any-domain representations for detecting sentiment,emotion and sarcasm.arXiv:1708.00524v2,2017.

[4]Ellen Riloff,Ashequl Qadir,Prafulla Surve,et al.2013.Sarcasm asContrast between a Positive Sentiment and Negative Situation.In Proceedingsof the 2013Conference on Empirical Methods in Natural Language Processing,pages 704–714.

[5]Aniruddha Ghosh and Dr.Tony Veale.2016.Fracking sarcasm usingneural network.In Proceedings of the 7th Workshop on Computational Approachesto Subjectivity,Sentiment and Social Media Analysis,pages 161–169.

[6]Meishan Zhang,Yue Zhang,and Guohong Fu.2016.Tweet sarcasmdetection using deep neural network.In Proceeding of COLING 2016,The 26^thInternational Conference on Computational Linguistics:Technical Papers,pages2449-2460.

[7]Ashwin Rajadesingan,Reza Zafarani,and Huan Liu.2015.SarcasmDetection on Twitter:ABehavioral Modeling Approach.In Proceedings of theEighth ACM International Conference on Web Search and Data Mining,pages 97–106.

[8]Joan Plepi and Lucie Flek.2021.Perceived and Intended SarcasmDetection with Graph Attention Networks.arXiv preprint arXiv:2110.04001.

[9]David Bamman and Noah A.Smith.2015.Contextualized sarcasmdetection on twitter.IProceedings of the International Association for theAdvancement of Artificial Intelligence Conference on Weblogs and SocialMedia.Austin 2015,pages 574-577

[10]Silvio Amir,Byron C.Wallace,Hao Lyu,et al.2016.Modelling contextwithuser embeddings for sarcasm detection in social media.CoRR,abs/1607.00976.

[11]Chuhan Wu,Fangzhao Wu,Sixing Wu,et al.2018.Thu ngn at semeval-2018task 3:Tweet irony detection with densely connected lstm and multi-tasklearning.InProceedings of The 12th International Workshop on SemanticEvaluation,pages 51–56.

[12]Rossano Schifanella,Paloma de Juan,Joel R.Tetreault,etal.2016.Detectingsarcasm in multimodal social platforms.In Proceedings of the2016 ACM Conference onMultimedia Conference,MM 2016,Amsterdam,TheNetherlands,October 15-19,2016,pages 1136–1145.

[13]Hongliang Pan,Zheng Lin,Peng Fu,et al.2020.Modeling intraandinter-modality incongruity for multi-modal sarcasm detection.In Findingsof the Associationfor Computational Linguistics:EMNLP 2020,pages 1383–1392.

[14]Bin Liang,Chenwei Lou,Xiang Li,et al.2021.Multi-modal sarcasmdetectionwith interactive in-modal and cross-modal graphs.In MM’21:ACMMultimedia Conference,Virtual Event,China,October 20-24,2021,pages 4707–4715.

[15]Jiangnan Li,Hongliang Pan,Zheng Lin,et al.2021a.Sarcasm detectionwithcommonsense knowledge.In IEEE/ACM Transactions on Audio,Speech andLanguageProcessing,vol.29,pages 3192–3201.

[16]Tony Veale and Yanfen Hao.2010.Detecting ironic intent increativecomparisons.In ECAI 2010-19th European Conference on ArtificialIntelligence,Lisbon,Portugal,August 16-20,2010,Proceedings,volume 215 ofFrontiers in Artificial Intelligenceand Applications,pages 765–770.

[17]Yitao Cai,Huiyu Cai,and Xiaojun Wan.2019.Multi-modal sarcasmdetection intwitter with hierarchical fusion model.In Proceedings of the 57thConference of theAssociation for Computational Linguistics,ACL 2019,Florence,Italy,July 28-August 2,2019,Volume 1:Long Papers,pages 2506–2515.

[18]Hui Liu,Wenya Wang,and Haoliang Li.2022.Towards Multi-ModalSarcasmDetection via Hierarchical Congruity Modeling with KnowledgeEnhancement.InProceedings of the 2022 Conference on Empirical Methods inNatural Language Processing,pages 4995–5006.

[19]Bin Liang,Chenwei Lou,Xiang Li,et al.2022.Multi-modal sarcasmdetection via cross-modal graph convolutional network.In Proceedings of the60th Annual Meeting of the Association for Computational Linguistics(Volume1:Long Papers),ACL2022,Dublin,Ireland,May 22-27,2022,pages 1767–1777。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于特征融合的多模态讽刺检测方法，解决了上述背景技术中提出的技术问题，本发明还提供一种基于特征融合的多模态讽刺检测系统。

技术方案：根据本发明的第一方面，提供基于特征融合的多模态讽刺检测方法，包括：

S1获取待检测文本中的外部知识即形容词-名词对，后特征表示为A，分别将待检测文本对应的文本模态和图像模态分别特征表示为T和I；

S2采用多头交叉注意机制表示每对多模态输入的文本-图像的浅层一致性分数s_e以及文本-外部知识的浅层一致性分数

S3分别构建文本模态和图像模态的无向、自循环图，并利用图注意网络计算文本-图像的深层一致性分数s_l和文本-外部知识的深层一致性分数

S4根据在浅层和深层融合中得到的文本-图像的浅层一致性分数s_e、文本-外部知识的浅层一致性分数文本-图像的深层一致性分数s_l和文本-外部知识的深层一致性分数/>使用激活函数和线性层整合得到初步的预测结果y；

S5使用交叉熵损失函数，对上述模型进行端到端的训练，得到预测结果y'∈{0,1}，其中，1表示具有讽刺性，0表示没有讽刺性。

进一步的，包括：

所述步骤S1具体包括以下步骤：

S11采用预训练后的BERT模型和一个额外添加的多层感知机MLP对文本模态进行特征表示，所述BERT模型包括多层双向Transformer编码器，将BERT模型编码器的最后一层输出作为文本模态嵌入的初始化，此后，经过多层感知机进行维度变换；

S12将每一个给定的大小的图像划分为大小相同的多个图像序列，利用预训练后的基于ImageNet的图像分类ViT模型对图像进行特征提取，在提取特征后加入一个双层的多层感知机MLP，得到最终图像模态特征表示；

S13提取若干形容词-名词对，并留下分值最高的五对作为图像的外部知识，并采用预训练后的BERT模型和一个额外添加的多层感知机MLP对形容词-名词对模态特征表示。

进一步的，包括：

所述步骤S2具体包括以下步骤：

S21利用多头交叉注意机制将文本和图像在同一空间中对齐，表示为：

其中，head_i为第i个交叉注意力的输出，softmax()为归一化函数，为第i个交叉注意力的第一权重参数，具体的，其/>表示查询的投影矩阵，n为待检测文本序列划分的文本标记总数，d为BERT模型的隐藏大小，h为交叉注意力的总数，1≤i≤h,/>为第i个交叉注意力的第二权重参数，/>表示键的投影矩阵，/>为第i个交叉注意力的第三权重参数，具体的，/>表示值的投影矩阵；T为转置符号；

S22将所有head_i通过一个双层多层感知机和参差连接，不断对文本表示序列进行更新，学习对多模态关联有意义的元素，记为：

其中，为所述视觉模态对齐后的文本模态特征表示，norm()为归一化函数，MLP()为维度变换函数；

S23由于不同的文本标记会对讽刺检测任务造成不同程度的影响，利用全连接层和softmax激活函数来计算每个文本标记的重要性分数；

每对多模态输入的文本-图像浅层一致性分数表示为：

其中，W_e和b_e为全连接层的可训练参数，且表示与每张图像r部分对应的文本-图像浅层一致性分数；

S24由图像提取的形容词-名词对与更新后的在经过多头交叉注意模型后，同时更新形容词-名词对特征和文本特征，记为A^k和/>

S25利用相似矩阵通过全连接层和softmax激活函数得到文本-外部知识浅层一致性分数：

进一步的，包括：

所述步骤S3具体包括：

S31文本图：计算文本标记之间的依赖关系，作为文本图的边，以各文本标记作为文本图节点；

视觉图：以图像序列{p₁,p₂,...,p_r}作为视觉图节点，并通过几何关系直接相连，构成视觉图的边，

S32形容词-名词对模态：其在深层融合中仍然采用经过浅层融合更新后的形容词-名词对特征A^k进行特征融合；

S33在构建无向、循环图后，由多层图注意网络的自注意层衡量相应节点传播信息的权重，并将更新后的浅层文本特征和图像特征I沿模态图的边传播，分别得到文本和图像模态的深层特征表示；

S34利用与浅层融合相同的方法计算文本-图像深层一致性分数s_l和文本-外部知识深层一致性分数

进一步的，包括：

所述步骤S33中，文本和图像模态的深层特征表示实现步骤包括：

S331根据预设的图卷积算法，获得所述多层图注意力网络的各层的特征向量，其中，节点i与相邻节点j之间的注意力分数和第l+1层节点特征计算如下：

其中，为所述多层图注意力网络的第l层的第i个节点与第j个邻居节点之间的注意力得分，LeakyReLU()为激活函数，v_l为所述多层图注意网络的第l层的可学习参数片偏置，Θ_l为所述多层图注意力网络第l层的权重参数，/>为所述多层图注意力网络的第l层的第i个节点的特征向量，j，k表示邻居节点，/>和/>分别为多层图注意力网络的第l层的第j，k个邻居节点的特征向量，N_i为第i个节点的邻居节点集合，/>为所述多层图注意力网络的第l层的第i个节点与自身之间的注意力得分；

S332采用步骤S331相同的方法计算视觉图的节点特征；

S333得到深层文本和图像特征表示，如下：

进一步的，包括：

所述步骤S34包括：

S341由于构建文本图时可能会产生错误的依赖树，提出利用浅层文本特征的加权和来串联深层文本/>创建句子嵌入：

其中，W_c为可训练的权重参数，b_c为偏置参数；

S342利用与浅层融合相同的方法计算文本-图像深层一致性分数s_l和文本-外部知识深层一致性分数分别记为：

其中，W_l和为可训练的权重参数，b_l和/>为偏置参数，Q_l、/>与S23、S25中的计算方法相同，均为相似矩阵，表示为：

进一步的，包括：

所述步骤S4具体包括：

S41分别计算图像序列和形容词-名词对的注意力分数，衡量各部分的重要性：

p_v＝softmax(IW_v+b_v)

p_k＝softmax(AW_v ^k+b_v ^k)；

其中，W_v，W_v ^k为可训练的权重参数，b_v，b_v ^k为偏置参数；

S42利用各部分注意力和一致性分数，使用ReLU激活函数和两个线性层进行整合，得到初步分类：

S43使用交叉熵损失函数，并对上述的模型进行端到端的训练，得到预测结果。

另一方面，本发明还提供基于特征融合的多模态讽刺检测系统，该系统包括：

多模态特征提取模块，用于获取待检测文本中的外部知识即形容词-名词对，后特征表示为A，分别将待检测文本对应的文本模态和图像模态分别特征表示为T和I；

浅层融合模块，用于采用多头交叉注意机制表示每对多模态输入的文本-图像的浅层一致性分数s_e以及文本-外部知识的浅层一致性分数k表示外部知识knowledge，在这里只是一个角标，用以与文本-图像浅层一致性分数进行区分，没有其它数学意义。

深层融合模块，用于分别构建文本模态和图像模态的无向、自循环图，并利用图注意网络计算文本-图像的深层一致性分数s_l和文本-外部知识的深层一致性分数

分类预测模块，用于根据在浅层和深层融合中得到的文本-图像的浅层一致性分数s_e、文本-外部知识的浅层一致性分数文本-图像的深层一致性分数s_l和文本-外部知识的深层一致性分数/>使用激活函数和线性层整合得到初步的预测结果y；

训练模块，用于使用交叉熵损失函数，对上述模型进行端到端的训练，得到预测结果y'∈{0,1}，其中，1表示具有讽刺性，0表示没有讽刺性。

进一步的，包括：

所述多模态特征提取模块具体包括：

文本特征表示单元，用于采用预训练后的BERT模型和一个额外添加的多层感知机MLP对文本模态进行特征表示，所述BERT模型包括多层双向Transformer编码器，将BERT模型编码器的最后一层输出作为文本模态嵌入的初始化，此后，经过多层感知机进行维度变换；

图像特征表示，用于将每一个给定的大小的图像划分为大小相同的多个图像序列，利用预训练后的基于ImageNet的图像分类ViT模型对图像进行特征提取，在提取特征后加入一个双层的多层感知机MLP，得到最终图像模态特征表示；

外部知识特征表示，用于提取若干形容词-名词对，并留下分值最高的五对作为图像的外部视觉语义知识，并采用预训练后的BERT模型和一个额外添加的多层感知机MLP对形容词-名词对模态特征表示。

最后，本发明还提供一种计算机设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的基于特征融合的多模态讽刺检测方法的步骤。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明考虑到形容词-名词对对图像细微特征的捕捉能力，受到层次融合模型的启发，结合文本、图像和形容词-名词对三个模态，建立了知识强化型的多模态讽刺检测模型，在与文本、图像两种模态良好结合的基础上，提供更多元、有效的信息，并获得了更好的性能。

(2)本发明以ChatGPT为代表，对大规模预训练语言模型在讽刺检测领域的应用现状和未来发展方向进行了评估。本发明及其它本领域模型效果均优于ChatGPT的讽刺检测结果。

附图说明

图1为本发明实施例所述的基于特征融合的多模态讽刺检测方法流程图；

图2为本发明实施例所述的基于特征融合的多模态讽刺检测系统的结构图；

图3为本发明实施例所述的文本、图像以及外部知识特征表示流程图；

图4为本发明实施例所述的浅层一致性分数计算流程图；

图5为本发明实施例所述的深层一致性分数计算流程图；

图6为本发明实施例所述的文本和图像模态的深层特征表示流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明知识增强型多模态讽刺检测任务描述如下：根据给定的文本、图像和外部知识输入(X_T,X_i,X_K)，得到二分类输出y∈{0,1}。其中，1表示具有讽刺性，0表示没有讽刺性。本发明提出了基于层次特征融合的多模态讽刺检测模型，在文本模态和图像模态的基础上添加了形容词-名词对，作为外部知识，实现知识增强型多模态讽刺检测。

利用讽刺语言通常具有的语义冲突特点，通过对比模态之间语义的一致程度，得到讽刺检测结果。

利用预训练后的BERT(Bidirectional Encoder Representation fromTransformers)和ViT(Vision Transformer)对文本、图像和由图像提取的形容词-名词对三个模态分别进行特征提取；

采用浅层融合和深层融合相结合的方式，分别采用多头交叉注意机制和图注意机制，实现层次特征融合；

最后，通过得到的一致性分数，进行分类预测，得到最终的二分类结果

首先，如图1所示，本发明提供基于特征融合的多模态讽刺检测方法，该方法包括：

如图3所示，步骤S1具体包括以下步骤：

S11采用预训练后的BERT模型和一个额外添加的多层感知机(Multi-layerPerceptron)MLP对文本模态进行特征表示，BERT模型包括多层双向Transformer编码器，将BERT模型编码器的最后一层输出作为文本模态嵌入的初始化，此后，经过多层感知机进行维度变换。

具体的，将给定的文本序列划分成n个标记(token)，记为：

X_T＝{w₁,w₂,...,w_n} (1)

BERT包括多层双向Transformer编码器，将BERT编码器的最后一层输出作为文本模态嵌入的初始化。此后，经过多层感知机进行维度变换；

多层感知机作为一个简单的全连接线性分类层，能够对BERT的输出进行维度变换。经过上述操作，得到文本模态特征编码，记为：

T＝[t₁,t₂,...,t_n] (2)

其中，d表示BERT模型的隐藏大小。

S12将每一个给定的大小的图像划分为大小相同的多个图像序列，利用预训练后的基于ImageNet的图像分类ViT模型对图像进行特征提取，在提取特征后加入一个双层的多层感知机MLP，得到最终图像模态特征表示。

对于图像模态，利用预训练后的ViT模型和多层感知机进行特征表示。首先，将每一个给定的大小为L_h×L_w的图像X_I重塑为224×224的图像，然后将重塑后的图像划分为大小相同的r部分(r＝49)。将划分后的图像序列记为：

P＝{p₁，p₂，...p_r} (3)

此后，利用基于ImageNet的图像分类模型ViT进行特征提取。

由于在图像分类的过程中含有丰富的图像表示标签，本发明提取ViT最终分类层之前的特征，作为图像模态嵌入初始化。

与文本模态类似，为了使图像特征与文本特征在空间上实现对齐，在提取特征后同样加入一个双层的多层感知机，得到最终图像特征表示，记为：

I＝[i₁,i₂,...,i_r] (4)。

对于形容词-名词对模态，需要先由图像提取对应信息，之后利用与文本标记相同的方式进行特征表示。首先，提取对每张图像提取相关的1200个形容词-名词对，并留下分值最高的五对作为图像的外部视觉语义知识，表示如下：

其中，N表示对于每张图片，形容词-名词对的数量；每对p_i包含一个形容词A_i和一个名词N_i，以及与图像对应的概率值p_i，记p_i＝[(A_i,N_i),p_i]。

此后，采取与文本模态相同的特征提取方式，即预训练后的BERT和一个额外添加的多层感知机，将形容词-名词对特征表示记为：

A＝[a₁,a₂,a₃,a₄,a₅] (6)

S2采用多头交叉注意机制表示每对多模态输入的文本-图像的浅层一致性分数s_e以及文本-外部知识的浅层一致性分数k表示外部知识knowledge，在这里只是一个角标，用以与文本-图像浅层一致性分数进行区分，没有其它数学意义。

如图4所示，步骤S2具体包括以下步骤：

其中，head_i为第i个交叉注意力的输出，softmax()为归一化函数，为第i个交叉注意力的第一权重参数，具体的，其/>表示查询的投影矩阵，n为待检测文本序列划分的文本标记总数，d为BERT模型的隐藏大小，h为交叉注意力的总数，1≤i≤h,/>为第i个交叉注意力的第二权重参数，/>表示键的投影矩阵，/>为第i个交叉注意力的第三权重参数，具体的，其/>表示值的投影矩阵；T为转置符号；

每对多模态输入的文本-图像浅层一致性分数表示为：

其中，W_e和b_e为全连接层的可训练参数，且为了对比模态间语义的一致程度，定义内积初步表示文本标记和图像块之间的一致性得分，/>表示与每张图像r部分对应的文本-图像浅层一致性分数；

S24由图像提取的形容词-名词对与更新后的在经过多头交叉注意模型后，同时更新形容词-名词对特征和文本特征，记为A^k和/>与S22相似，可以表示为：

A^k＝norm(A+MLP([head₁||head₂||...||head_hk]))

为了更好地利用模态中更复杂的结构，比如文本标记之间的依赖关系、图像不同区域之间的关联等，本发明利用图注意网络(graph attention networks,GAT)，进行深层融合，对多模态特征进行进一步提取和融合。

在深层特征融合前，需要对文本模态和图像模态分别构建无向、自循环图，用于计算各模态深层特征。对于文本模态，计算文本标记之间的依赖关系，作为文本图的边，以各文本标记作为文本图节点；

对于图像模态，以图像块{p₁,p₂,...,p_r}为视觉图节点，并通过几何关系直接相连，构成视觉图的边。

对于形容词-名词对模态，由于构成元素是彼此独立的词组，不容易与文本模态或图像模态一样构建外部知识图，在深层融合中仍然采用经过浅层融合更新后的形容词-名词对特征A^k，进行特征融合。计算文本-图像深层一致性分数和文本-外部知识深层一致性分数。

在构建模态图后，由图注意网络的自注意层衡量相应节点传播信息的权重，并将更新后的浅层文本特征和图像特征I沿模态图的边传播，分别学习文本和图像模态的深层特征表示。

如图5所示，步骤S3具体包括：

S33在构建无向、循环图后，由多层图注意网络的自注意层衡量相应节点传播信息的权重，并将更新后的浅层文本特征和图像特征I沿模态图的边传播，分别得到文本和图像模态的深层特征表示。

如图6所示，步骤S33中，文本和图像模态的深层特征表示实现步骤包括：

其中，为所述多层图注意力网络的第l层的第i个节点与第j个邻居节点之间的注意力得分，LeakyReLU()为激活函数，v_l为所述多层图注意网络的第l层的可学习参数片偏置，Θ_l为所述多层图注意力网络第l层的权重参数，/>为所述多层图注意力网络的第l层的第i个节点的特征向量，j，k表示邻居节点，/>和/>分别为多层图注意力网络的第l层的第j，k个邻居节点的特征向量，N_i为第i个节点的邻居节点集合，/>为所述多层图注意力网络的第l层的第i个节点与自身之间的注意力得分。其中，当/>中的l＝0时，就是/>由在浅层融合中更新后的文本特征/>进行初始化。

S332采用步骤S331相同的方法计算视觉图的节点特征

S333从步骤S331和S332得到深层文本和图像特征表示，如下：

S34利用与浅层融合相同的方法计算文本-图像深层一致性分数s_l和文本-外部知识深层一致性分数具体的：

/>

其中，W_c为可训练的权重参数，b_c为偏置参数；

因为深层融合时文本特征不再根据外部知识特征进行更新了，所以两处均用即可。I和A也是在上述相似矩阵Q_l、/>中用到的。

S4根据在浅层和深层融合中得到的文本-图像的浅层一致性分数s_e、文本-外部知识的浅层一致性分数文本-图像的深层一致性分数s_l和文本-外部知识的深层一致性分数/>使用激活函数和线性层整合得到初步的预测结果y。

步骤S4具体包括：

p_v＝softmax(IW_v+b_v) (18)

p_k＝softmax(AW_v ^k+b_v ^k)； (19)

为了说明本发明的积极效果，进行了对比实验，如下：

本发明使用Cai等人收集公开的多模态讽刺数据集，即现有技术[18]对模型进行评估，该数据集为讽刺检测领域常用的数据集之一。原始数据集中的每一条样本由一段文本和一个关联图像构成，在数据预处理中丢弃了明显包含“sarcasm”、“sarcastic”、“irony”、“ironic”等讽刺字样的数据，防止对讽刺结果造成干扰；利用SentiBank提取与每张图像相关的五组形容词-名词对，对本发明的表现进行测试。

对比实验采用的评估指标分别为准确率(Acc)和F1值。以纯文本、纯图像和多模态的多种模型为基准，通过所有模型在同一个多模态讽刺检测测试集上的实验结果，对讽刺检测效果进行比较。

表1对比实验结果

对比实验结果如表1所示。其中，层次融合基准模型是本发明主要受到启发的模型，采用图像和文本两种模态，没有添加外部知识。MsdBERT[13]和层次融合基准模型结果由开源代码运行得到，其余模型结果摘自Liang等人和Liu等人[18]的对比实验结果。本发明的实验结果略高于层次融合基准模型及其它模型，证明了本发明技术的有效性。

ChatGPT讽刺检测实验

随着自然语言处理技术的发展，大规模预训练语言模型驱动的智能人机对话逐渐成为研究热点。其中，由于ChatGPT在人机对话方面表现出的优秀性能，与其相关的研究在自然处理领域备受关注。实验采用对比实验所述讽刺检测数据测试集，通过给定提示(prompt)格式，使ChatGPT进行讽刺分类，通过预测结果的准确率对其讽刺检测表现进行评估，并与本发明实验结果进行比较。由于GPT-3.5仅支持纯文本对话，实验只进行文本模态和形容词-名词对模态上的讽刺检测。

表2ChatGPT实验结果

/>

如表2所示，ChatGPT利用两种模态类型的实验结果都明显低于本发明技术及现有的其它纯文本讽刺检测模型。此外，加入外部知识后，ChatGPT的讽刺检测准确率反而有所降低。由于由图像提取的外部知识只是对图像细节进行更具体的表征，在没有图像模态的辅助下，仅通过的外部知识对图像进行概括有失偏颇；另外，与主流的多模态讽刺检测模型不同，当同时利用多种模态信息时，本领域模型通常只根据模态间或者模态内存在冲突来判定讽刺，而ChatGPT在某些情况下会更多地受到外部知识的影响，更改原先针对文本信息的判断。

另一方面，请参阅图2，图2为本申请一个实施例提供的多模态讽刺检测系统的结构示意图，该系统可以通过软件、硬件或两者的结合实现多模态讽刺识别方法的全部或一部分，该装置包括：

进一步的，包括：

所述多模态特征提取模块具体包括：

本申请一个实施例提供了一种计算机设备的结构，计算机设备包括：处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序；计算机设备可以存储有多条指令，指令适用于由处理器加载并执行上述图1至图6所述实施例的方法步骤，具体执行过程可以参见图1至图6所述实施例的具体说明，在此不进行赘述。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行检测方法步骤，具体执行过程可以参见所示图1至图6所述实施例的具体说明，在此不进行赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于特征融合的多模态讽刺检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于特征融合的多模态讽刺检测方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求2所述的基于特征融合的多模态讽刺检测方法，其特征在于，所述步骤S2具体包括以下步骤：

其中，head_i为第i个交叉注意力的输出，softmax()为归一化函数，为第i个交叉注意力的第一权重参数，具体的，其/>表示查询的投影矩阵，n为待检测文本序列划分的文本标记总数，d为BERT模型的隐藏大小，h为交叉注意力的总数，1≤i≤h，/>为第i个交叉注意力的第二权重参数，/>表示键的投影矩阵，/>为第i个交叉注意力的第三权重参数，具体的，/>表示值的投影矩阵；T为转置符号；

每对多模态输入的文本-图像浅层一致性分数表示为：

4.根据权利要求3所述的基于特征融合的多模态讽刺检测方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求4所述的基于特征融合的多模态讽刺检测方法，其特征在于，所述步骤S33中，文本和图像模态的深层特征表示实现步骤包括：

S332采用步骤S331相同的方法计算视觉图的节点特征；

S333得到深层文本和图像特征表示，如下：

6.根据权利要求5所述的基于特征融合的多模态讽刺检测方法，其特征在于，所述步骤S34包括：

其中，W_c为可训练的权重参数，b_c为偏置参数；

其中，W_l和W_l ^k为可训练的权重参数，b_l和为偏置参数，Q_l、/>与S23、S25中的计算方法相同，均为相似矩阵，表示为：

7.根据权利要求1所述的基于特征融合的多模态讽刺检测方法，其特征在于，所述步骤S4具体包括：

p_v＝soft max(IW_v+b_v)

p_k＝soft max(AW_v ^k+b_v ^k)；

8.一种基于特征融合的多模态讽刺检测系统，其特征在于，该系统包括：

浅层融合模块，用于采用多头交叉注意机制表示每对多模态输入的文本-图像的浅层一致性分数s_e以及文本-外部知识的浅层一致性分数

9.根据权利要求8所述基于特征融合的多模态讽刺检测系统，其特征在于，所述多模态特征提取模块具体包括：

10.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于特征融合的多模态讽刺检测方法的步骤。