CN114036993A

CN114036993A - 基于多尺度跨模态神经网络的多模态讽刺对象检测方法

Info

Publication number: CN114036993A
Application number: CN202111204835.5A
Authority: CN
Inventors: 孙霖; 王跻权; 邵美芝; 刘益; 郑增威
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-11

Abstract

本发明涉及一种基于多尺度跨模态神经网络的多模态讽刺对象检测方法，包括步骤：获取一定量的包含讽刺意味且带有图像的推特文本作为基础数据集；结合图像和文本上下文对照信息，对基础数据集中的图文对进行标注；设计多模态讽刺对象检测神经网络。本发明的有益效果是：本发明设计并构建了多模态讽刺对象检测神经网络，包括文本信息编码器、图像信息编码器、B2M转换器、跨模态编码器(MCE)、M2N转换网络、文本讽刺对象检测网络(TSTI)和图像讽刺对象检测网络，结合图像和文本来检测推特文本中的文本讽刺对象和图像讽刺对象；本发明相比较于已有的方法具有更高的性能。

Description

基于多尺度跨模态神经网络的多模态讽刺对象检测方法

技术领域

本发明属于社交推文的讽刺对象检测领域，尤其涉及一种基于多尺度跨模态编码神经网络的社交推文多模态讽刺对象检测方法。

背景技术

讽刺是一种情绪，人们用积极的或强化积极的词语来表达自己的消极情绪。它有能力掩饰说话者的敌意，从而增强对听者的嘲笑或幽默效果。讽刺在Twitter等社交媒体平台上非常流行，自动讽刺对象检测(STI)在客户服务、意见挖掘、在线骚扰检测等方面具有重要意义。

识别讽刺需要了解人们的真实情感。之前的研究主要集中在文本模态方面，提出了基于规则的、基于统计分类器的以及基于社会语言特征的深度学习模型等方法。现有的讽刺分析研究主要集中在讽刺检测(SD)和文本讽刺对象检测(STI)两个方面，其中讽刺检测又分为文本讽刺检测和多模态讽刺检测。传统的讽刺检测被定义为文本中讽刺或非讽刺情感的二元分类，即文本讽刺检测。早期的方法是基于讽刺模式规则或统计模型，如SVM或logistic回归。

最近，深度学习技术越来越受欢迎，词嵌入和LSTM/CNN模型被人们采用。随着学者们对神经网络注意力机制的不断研究，基于自注意力机制的Transformer模型又逐渐取代了LSTM/CNN模型成为了更好的文本讽刺检测解决方案。基于图像的多模态讽刺检测(MSD)也得到了越来越多的研究关注。Schifanella等人首先将此任务作为多模式分类问题来处理，将视觉和文本特征连接起来，并使用支持向量机(SVM)或由完全连接和softmax层组成的神经网络来检测讽刺。Cai等人将输入模式扩展为文本、图像和图像属性的三重组合，并提出了一种用于讽刺检测的分层融合模型。

为了深化讽刺分析领域的研究，近年来讽刺对象检测(STI)同样得到了很好的研究。STI的对象是在讽刺性文本中标记出被嘲笑或嘲笑的目标词。一个接近STI的问题是面向目标的情感分类(TSC)。TSC的对象是识别情感表达的实体，无论是消极的还是积极的。在实践中，STI比TSC更难，因为讽刺是一种更高层次的情感认知。相关研究结果显示，tweet上的精确匹配(EM)准确率约为30。

就像仅用文本来判断是否为讽刺是不够的一样(人们为此提出了多模态讽刺检测)，仅用文本模态来检测讽刺目标同样是不够和不完整的。有些时候，如果不从图像中获得额外信息，根本无法发觉文本是否包含讽刺意味，检测讽刺的对象也就无从谈起；而另一些时候，讽刺的对象并不会明确地出现在文本中，而是只存在于图像当中。这些都说明了讽刺对象检测结合图像的必要性。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于多尺度跨模态神经网络的多模态讽刺对象检测方法。

这种基于多尺度跨模态神经网络的多模态讽刺对象检测方法，包括以下步骤：

步骤1、获取一定量的包含讽刺意味且带有图像的推特文本作为基础数据集(原始未标记数据集)，基础数据集中每个样本均为图像与文本一一对应的图文对，表示为[image,sentence]；

步骤2、结合图像和文本上下文对照信息，对基础数据集中的图文对进行标注，标注内容包括文本讽刺对象和图像讽刺对象，保存标注的结果；然后筛选出至少包含一个文本讽刺对象或一个图像讽刺对象的样本数据，构成多模态讽刺对象检测数据集，并将多模态讽刺对象检测数据集划分为训练集、验证集和测试集；

步骤3、设计多模态讽刺对象检测神经网络；将多模态讽刺对象检测数据集划分后得到的训练集输入多模态讽刺对象检测神经网络，对多模态讽刺对象检测神经网络进行训练；每完成一轮训练后，将验证集输入到多模态讽刺对象检测神经网络中验证其性能；多模态讽刺对象检测神经网络为多任务神经网络，包括文本信息编码器、图像信息编码器、B2M转换器、跨模态编码器(MCE)、M2N转换网络、文本讽刺对象检测网络(TSTI)和图像讽刺对象检测网络(VSTI)；

步骤4、将训练好的多模态讽刺对象检测神经网络部署在服务器上，对社交推文进行讽刺对象检测，输出可视化处理后的讽刺对象检测结果。

作为优选，步骤3具体包括如下步骤：

步骤3.1、多模态讽刺对象检测神经网络采用文本信息编码器和图像信息编码器分别对文本和图像进行单独编码；

步骤3.2、利用B2M转换器将图像的特征表示转换到与文本的特征表示相同的维度上，将经过尺度转换后的图像特征表示进行压平操作，并将图像特征的张量与文本特征的张量进行拼接；将拼接后的图像特征的张量与文本特征的张量输入到跨模态编码器中进行跨模态建模，建立模态之间的关联，并将跨模态编码器的输出按照图像特征和文本特征进行切断；

步骤3.3、再利用M2N转换网络将跨模态编码器输出的图像特征表示转换到原来的维度上；

步骤3.4、最后将文本特征表示、图像特征表示分别输入到文本讽刺对象检测网络和图像讽刺对象检测网络中，输出检测结果；

设

为文本特征表示的训练数据集合，则文本讽刺对象检测网络的损失函数为：

上式中，i表示样本序号；M表示总样本数，x⁽ⁱ⁾表示第i个样本的文本句子，y⁽ⁱ⁾表示第i个样本文本对应的讽刺对象标签；

图像讽刺对象检测网络的损失函数为：

L_VSTI＝L_b+L_o

上式中，L_b为边界框回归损失，L_o为对象分数损失；

则多模态讽刺对象检测神经网络的损失函数为：

L_MSTI＝L_TSTI+L_VSTI

将损失函数L_MSTI作为多模态讽刺对象检测神经网络训练的优化目标；

步骤3.5、保存验证结果最好的多模态讽刺对象检测神经网络对应的网络权重，并将测试集输入到多模态讽刺对象检测神经网络中进行测试，获得测试结果；

步骤3.6、重复多次执行步骤3.4至步骤3.5，根据步骤3.5得到的测试结果，调节多模态讽刺对象检测神经网络的超参数，训练并测试多模态讽刺对象检测神经网络，直到得出在测试集上性能表现最好的超参数，保存该超参数，将该超参数作为多模态讽刺对象检测神经网络的权重来使用。

作为优选，步骤4具体包括如下步骤：

步骤4.1、设计多模态讽刺对象检测神经网络的调用接口和输出接口，将推特图文对输入到调用接口中，调用接口接收图片与文本一一对应的多模态推特图文对，调用接口过滤掉仅提供文本或图像的单一模态的推文；调用接口将图片与文本一一对应的推特图文对传输给多模态讽刺对象检测神经网络；

步骤4.2、分别对多模态推特图文对中的图片和文本进行预处理；

步骤4.3、使用多模态讽刺对象检测神经网络对图片与文本一一对应的多模态推特图文进行讽刺对象检测，由多模态讽刺对象检测神经网络的输出接口输出讽刺对象的检测结果；

步骤4.4、神经网络直接输出的检测结果往往具有可读性极差的特点，因此设置讽刺对象检测输出接口，对多模态讽刺对象检测神经网络输出的讽刺对象检测结果进行可视化处理；并输出给用户。

作为优选，步骤2具体为：结合图像和文本上下文对照信息，采用BIO序列标注法对基础数据集中的文本讽刺对象进行标注，采用边界框标注法对基础数据集中的图像讽刺对象进行标注，采用文本文件保存标注的结果；然后筛选出至少包含一个文本讽刺对象或一个图像讽刺对象的样本数据，构成多模态讽刺对象检测数据集；并采用随机划分法将多模态讽刺对象检测数据集划分为训练集、验证集和测试集。

作为优选，步骤3采用自然语言处理领域内序列标注问题中常用的F1分数以及问答系统问题中常用的确切匹配准确率(EM)作为文本讽刺对象检测任务的性能指标；采用目标检测任务中常用的AP、AP₅₀和AP₇₅作为图像讽刺对象检测任务的性能指标；步骤3中文本讽刺对象检测网络为双向LSTM网络，图像讽刺对象检测网络为YOLOv4。

作为优选，步骤3.1采用预训练语言模型作为文本信息编码器，对文本特征进行抽取和编码表示，选取预训练语言模型最后一层的输出作为文本的最终表示；预训练语言模型为BERT、RoBERT或BERTweets；采用卷积神经网络CSPDarkNet53作为图像信息编码器进行图像特征提取，将卷积神经网络CSPDarkNet53后三层的输出分别作为神经网络提取出来的尺度为19*19*1024、38*38*512和76*76*256的图像特征，将三种的尺度的图像特征都输入到多模态讽刺对象检测神经网络中。

作为优选，步骤3.6中调节多模态讽刺对象检测神经网络的超参数的方式为：在一定范围内随机选择超参数进行组合，然后遍历所有的超参数组合。

作为优选，步骤4将训练好的多模态讽刺对象检测神经网络部署在搭建了NVIDIARTX3090GPU的Linux服务器上，以保证对单个样本和批量样本的检测速度。

作为优选，步骤4.2中对多模态推特图文对中的图片和文本进行预处理时，对文本进行分词，将文本中的每个单词区分开，将每个单词转化为token，以方便在后续的步骤中对文本单词进行one-hot编码；对图片进行缩放和像素正则化等归一化处理，满足多模态讽刺对象检测神经网络对输入图片的要求；步骤4.4中对多模态讽刺对象检测神经网络输出的讽刺对象检测结果进行可视化处理的方式为：在图片中将视觉讽刺对象用边界框标注出来，在文本中将文本讽刺对象用[ST]标签标注出来。

本发明的有益效果是：

本发明构建了一个多模态讽刺对象检测数据集，并引入了针对社交媒体数据的多模态讽刺对象检测(MSTI)，它将文本讽刺对象检测和图像讽刺对象检测这两个任务结合起来，作为一个完整的任务，基于多尺度跨模态编码器的多任务神经网络进行处理；MSTI任务是从推文中的文本和图片中检测讽刺对象。

本发明还设计并构建了多模态讽刺对象检测神经网络，包括文本信息编码器、图像信息编码器、B2M转换器、跨模态编码器(MCE)、M2N转换网络、文本讽刺对象检测网络(TSTI)和图像讽刺对象检测网络，结合图像和文本来检测推特文本中的文本讽刺对象和图像讽刺对象；本发明相比较于已有的方法具有更高的性能。

附图说明

图1为本发明实施例中用于讽刺推文中多模态讽刺对象的实时检测方法的流程图；

图2为本发明实施例中对多模态讽刺对象检测网络进行训练的流程图；

图3为本发明实施例中多模态讽刺对象检测神经网络的检测流程图；

图4为本发明实施例中多模态讽刺对象检测神经网络的网络结构图；

图5为本发明实施例中多尺度跨模态编码器神经网络的尺度转换流程图；

图6为本发明实施例中多尺度跨模态编码器网络的尺度转换网络结构图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

实施例一

本申请实施例一提供了如图1所示基于多尺度跨模态编码神经网络的社交推文多模态讽刺对象检测方法，用于讽刺推文中多模态讽刺对象的实时检测：

S101、训练多模态讽刺对象检测神经网络；

直接初始化的神经网络是无法直接工作的，因此需要根据已有的数据集对构建的神经网络进行训练。在训练集上训练完毕后，用测试集对训练得到的神经网络权重进行性能测试，得到评价结果。不断地重复上述过程，并通过在测试接上的评价结果不断地调节有关的超参数(针对文本讽刺对象检测任务的Exact Match(EM,绝对匹配率)、F1分数；针对视觉讽刺对象检测的AP、AP₅₀、AP₇₅)，最终得到一个在测试集上性能表现最好的结果作为最终网络模型权重来使用。

S102、获取带有讽刺含义的多模态推文的图片文本对；

首先，设置了能够接收多模态讽刺推文的样本输入接口，供使用者提供其需要检测的多模态讽刺推文。本方法针对的是图片与文本一一对应的对模态讽刺推文，因此如果仅提供文本或图像这种单一模态的推文则会被直接过滤。样本输入接口得到需要进行检测的多模态讽刺推文后，会将推文传输给进行后续步骤的系统。

S103、对多模态讽刺推文的图片和文本分别进行预处理；

首先，需要对多模态讽刺推文的句子文本进行必要的分词，将每个单词区分开之后，还需要将每个单词转化为token以方便在后续的步骤中对文本单词进行编码；其次，需要对图片进行一些基本的预处理，包括缩放和像素正则化等，以满足神经网络对输入图片的要求。

S104、使用多模态讽刺对象检测神经网络模型对多模态讽刺推文进行讽刺对象检测；

将经过预处理步骤的多模态讽刺推文的图片和文本输入到神经网络中，并由神经网络的输出端输出讽刺对象的检测结果。将神经网络部署在搭建了NVIDIA RTX3090 GPU的Linux服务器中，以保证对单个样本和批量样本的检测速度。

S105、对神经网络输出的检测结果进行可视化处理并输出给用户

神经网络直接输出的检测结果往往具有可读性极差的特点，因此设置了讽刺对象检测输出接口对该检测结果进行可视化处理，即在图片中将视觉讽刺对象用边界框标注出来，在文本中将文本讽刺对象用[ST]标签标注出来。并将可视化之后的检测结果输出给用户。

实施例二

在实施例一的基础上，本申请实施例二提供了实施例一中步骤S101的具体实现方式，如图2所示：

S201、搜集训练所需要的多模态讽刺推文数据；

如前文发明内容中所述，从相关论文《Multi-Modal Sarcasm Detection inTwitter with Hierarchical Fusion Model》所使用的多模态讽刺检测数据集中筛选出正样本，即带有讽刺含义的样本，作为基础数据。

S202、进行数据标注，并划分数据集；

在已有的讽刺数据集的基础上进行多模态讽刺对象的标注，包括视觉讽刺对象标注和文本讽刺对象标注，得到一个有标记的数据集。然后按照合适的比例将该数据集划分为训练集、验证集和测试集。

S203、对神经网络模型进行训练

使用训练集对多模态讽刺对象神经网络模型进行训练，每训练一个轮次，用验证集对网络模型的性能进行测试，记录下模型的评价结果并保存该轮的模型权重。每一次完整的训练过程会训练100个轮次，然后选出在验证集表现最好的那一个轮次的模型权重在测试集上进行测试，并记录下测试结果作为该训练的最终评价结果。

S204、修改超参数，训练出尽可能优的模型

不断修改神经网络模型的超参数设置，并不断重复步骤S203，直到得到一个几乎难以超越的测试结果，以该结果所对应的模型权重作为神经网络模型训练的最终结果。最终的超参数表如下表1所示：

表1神经网络模型的超参数表

超参数	值
		BiLSTM隐藏层尺寸	768
BiLSTM层数	2
		注意力头的数量	12
小批量大小	8
		优化器	Adam
学习率	1e-4
		预训练模型的学习率	1e-5
Dropout率	0.5

将一些已有的多模态模型并与本实施例的方法进行比较，比较结果如下表2所示，表中单位均为％：

表2多模态讽刺对象检测神经网络与现有多模态模型性能比较表

	EM	F1	AP	AP<sub>50</sub>	AP<sub>75</sub>
						VL-BERT	30.9	42.0	25.7	40.5	26.7
Unicoder-VL	30.5	41.7	25.5	40.8	26.9
						UNITER	30.0	40.5	25.9	41.1	26.8
Our Model	37.2	47.9	32.6	51.9	34.6

由表2可以看出，本发明的方法相比较于已有的方法具有更高的性能。

S205、部署多模态讽刺对象检测神经网络模型

将训练好的神经网络模型权重部署到服务器上，用户通过特定的接口便可与服务器进行通讯并使用讽刺对象检测功能。

实施例三

在实施例一至二的基础上，本申请实施例三提供了实施例一中步骤S104的具体实现方式，如图3和4所示：

S301、输入处理好的神经网络图文对；

将经过了预处理步骤的多模态讽刺对象检测数据样本的图像和文本输入到神经网络中，神经网络将分别对两种模态的数据进行对应的处理。对文本数据进行one-hot编码，对图像数据归一化处理。

S302、对文本进行特征提取和表示；

对模态讽刺推文的文本被输入到预训练语言模型(例如BERT、RoBERT或者BERTweets等)中，由预训练语言模型对文本特征进行抽取和编码表示，选取模型的最后一层的输出作为文本的最终表示；

S303、对图像进行多尺度特征提取；

使用卷积神经网络CSPDarkNet53作为图像特征提取网络，将该卷积网络的后三层的输出分别作为神经网络提取出来的三种尺度的图像特征(分别为19*19*1024，38*38*512和76*76*256三种尺度)。将三种尺度的图像特征都输入到后续的神经网络中。

S304、通过多尺度跨模态编码器对两种模态的特征表示进行编码；

对抽取出来的图像特征输入到B2M转换网络中进行尺度变换，并将文本的特征表示和变换后的图像特征表示一同输入到多尺度跨模态编码器网络中，该网络将输出图像和文本的跨模态表示，再将图像跨模态表示输入到M2N转换网络中进行编码，还原到原有的尺度上。

S305、文本讽刺对象检测；

将文本的跨模态表示输入到双向LSTM网络中，再将双向LSTM网络的输出输入到条件随机场中进行文本讽刺对象的序列标注，然后输出文本讽刺对象的检测结果。

S306、图像讽刺对象检测；

将图像的跨模态表示输入到YOLOv4的Neck和Head网络中，进行视觉讽刺对象的边界框预测，然后输出视觉讽刺对象的检测结果。

实施例四

在实施例一至三的基础上，本申请实施例四提供了实施例三中步骤S304的具体实现方式，如图5和图6所示：

S401、图像特征表示的尺度转换；

为了满足跨模态编码器的输入需要，将卷积网络提取出的三个不同尺度的图像特征输入到B2M转换器网络中进行尺度转换，将三个特征表示转换到相同的尺度上；

S402、多模态特征表示的拼接；

将经过尺度转换后的三个图像特征表示进行压平操作，即将维度为(grid,grid,d)张量转化为维度为(gird*grid,d)的张量，并将这三个表示图像特征的张量与文本特征的张量拼接起来。

S403、多尺度跨模态编码；

将拼接后的多模态特征表示输入到跨模态编码器网络中进行跨模态建模，建立模态之间的关联，并将该网络的输出作为两种模态的跨模态表示，该网络的输出张量与输入张量的维度完全相同。

S404、多模态特征表示的切断；

将跨模态编码器输出的跨模态表示按照两种模态进行切断，并对图像的跨模态表示按照步骤S402的压平操作的反向操作进行维度转换，即将维度为(grid*grid,d)张量转化为维度为(gird,grid,d)的张量，从而得到三个同尺度的图像跨模态特征表示。

S405、图像的跨模态特征表示尺度转换

图6中网络左边部分为B2M网络，对CSPDarkNet53输出的三个尺度的图像特征进行尺度变换，然后输入到多尺度跨模态编码器(MCE)中；右边部分为M2N网络，分别将MCE输出的三个特征还原为原有的尺度。

将三个尺度相同的图像跨模态特征表示输入到M2N转化网络中，进行图像特征表示的尺度还原，将还原成步骤S401中的图像特征表示的原有尺度，从而方便输入到后续的YOLOv4网络中进行边界框的预测。

Claims

1.一种基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于，包括以下步骤：

步骤1、获取一定量的包含讽刺意味且带有图像的推特文本作为基础数据集，基础数据集中每个样本均为图像与文本一一对应的图文对；

步骤3、设计多模态讽刺对象检测神经网络；将多模态讽刺对象检测数据集划分后得到的训练集输入多模态讽刺对象检测神经网络，对多模态讽刺对象检测神经网络进行训练；每完成一轮训练后，将验证集输入到多模态讽刺对象检测神经网络中验证其性能；多模态讽刺对象检测神经网络包括文本信息编码器、图像信息编码器、B2M转换器、跨模态编码器、M2N转换网络、文本讽刺对象检测网络和图像讽刺对象检测网络；

2.根据权利要求1所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于，步骤3具体包括如下步骤：

设

图像讽刺对象检测网络的损失函数为：

L_VSTI＝L_b+L_o

上式中，L_b为边界框回归损失，L_o为对象分数损失；

则多模态讽刺对象检测神经网络的损失函数为：

L_MSTI＝L_TSTI+L_VSTI

3.根据权利要求1所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于，步骤4具体包括如下步骤：

步骤4.4、设置讽刺对象检测输出接口，对多模态讽刺对象检测神经网络输出的讽刺对象检测结果进行可视化处理；并输出给用户。

4.根据权利要求1所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于，步骤2具体为：结合图像和文本上下文对照信息，采用BIO序列标注法对基础数据集中的文本讽刺对象进行标注，采用边界框标注法对基础数据集中的图像讽刺对象进行标注，采用文本文件保存标注的结果；然后筛选出至少包含一个文本讽刺对象或一个图像讽刺对象的样本数据，构成多模态讽刺对象检测数据集；并采用随机划分法将多模态讽刺对象检测数据集划分为训练集、验证集和测试集。

5.根据权利要求1所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于：步骤3采用F1分数以及确切匹配准确率作为文本讽刺对象检测任务的性能指标；采用AP、AP₅₀和AP₇₅作为图像讽刺对象检测任务的性能指标；步骤3中文本讽刺对象检测网络为双向LSTM网络，图像讽刺对象检测网络为YOLOv4。

6.根据权利要求2所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于：步骤3.1采用预训练语言模型作为文本信息编码器，对文本特征进行抽取和编码表示，选取预训练语言模型最后一层的输出作为文本的最终表示；预训练语言模型为BERT、RoBERT或BERTweets；采用卷积神经网络CSPDarkNet53作为图像信息编码器进行图像特征提取，将卷积神经网络CSPDarkNet53后三层的输出分别作为神经网络提取出来的尺度为19*19*1024、38*38*512和76*76*256的图像特征，将三种的尺度的图像特征都输入到多模态讽刺对象检测神经网络中。

7.根据权利要求2所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于，步骤3.6中调节多模态讽刺对象检测神经网络的超参数的方式为：在一定范围内随机选择超参数进行组合，然后遍历所有的超参数组合。

8.根据权利要求1所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于：步骤4将训练好的多模态讽刺对象检测神经网络部署在搭建了NVIDIA RTX3090GPU的Linux服务器上。

9.根据权利要求3所述基于多尺度跨模态神经网络的多模态讽刺对象检测方法，其特征在于：步骤4.2中对多模态推特图文对中的图片和文本进行预处理时，对文本进行分词，将文本中的每个单词区分开，将每个单词转化为token；对图片进行缩放和像素正则化；步骤4.4中对多模态讽刺对象检测神经网络输出的讽刺对象检测结果进行可视化处理的方式为：在图片中将视觉讽刺对象用边界框标注出来，在文本中将文本讽刺对象用[ST]标签标注出来。