CN116935410A

CN116935410A - 数据分类方法、设备及存储介质

Info

Publication number: CN116935410A
Application number: CN202311022704.4A
Authority: CN
Inventors: 徐睿峰; 王冰冰; 黄仕爵; 梁斌; 涂耿
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-10-24

Abstract

本申请公开了一种数据分类方法、设备及存储介质。该数据分类方法包括：获取待分类的目标图像和目标图像内的文本数据；对目标图像以及文本数据分别进行特征提取，得到图像特征和文本特征；利用第一注意力模型对图像特征和文本特征进行处理，得到目标特征；利用目标特征对目标图像进行分类处理，得到目标图像的分类结果。上述方案，能够提高目标图像的分类结果的准确度。

Description

数据分类方法、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种数据分类方法、设备及存储介质。

背景技术

近年来，出现了很多对图像进行分类的方法以及对文本进行分类的方法，例如对图像中包含的动物进行分类，得到动物所属的类别，或者对文本进行分类判断文本中格式等，因为图像数据和文本数据为不同模态，对于包含文本的图像，目前只能提取图像中的图像数据或者单独提取图像中的文本，暂时没有较好的方式能够综合图像数据和文本数据对图像进行分类，这种只能使用单一模态的数据进行分类的方式使得分类结果不太准确，急需一种能够对包含文字的图像根据图像包含的文本内容和图像数据融合进行分类的方式。

发明内容

本申请至少提供一种数据分类方法、设备及存储介质。

本申请提供了一种数据分类方法，包括：获取待分类的目标图像和目标图像内的文本数据；对目标图像以及文本数据分别进行特征提取，得到图像特征和文本特征；利用第一注意力模型对图像特征和文本特征进行处理，得到目标特征；利用目标特征对目标图像进行分类处理，得到目标图像的分类结果。

本申请提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述数据分类方法。

本申请提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述数据分类方法。

上述方案，在对获取待分类的目标图像和目标图像内的文本数据，进行特征提取，得到图像特征和文本特征之后，利用第一注意力模型对图像特征和文本特征进行处理，能够实现图像特征和文本特征之间进行信息的交互，从而得到目标特征，然后利用该目标特征对目标图像进行分类处理，得到目标图像的分类结果，相对于使用单一的图像特征或者文本特征得到的分类结果而言，本方案得到的分类结果更为准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请数据分类方法一实施例的流程示意图；

图2是本申请数据分类方法一实施例中目标图像的示意图；

图3是本申请数据分类方法中步骤S14的子流程示意图；

图4是本申请数据分类方法一实施例示出分型网络的结构示意图；

图5是本申请数据分类装置一实施例的结构示意图；

图6是本申请电子设备一实施例的结构示意图；

图7是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本申请提供一些数据分类方法以及装置。该数据分类方法的应用场景包括但不限于社交媒体信息分析、品牌营销和舆情监测。例如，应用在社交媒体信息分析中，待分类的目标图像可以是在社交媒体上进行信息传递的表情包。分类结果可以是表情包的类别标签消极、中立以及积极，也可以是根据需求设置的任务类别的标签。数据分类方法的执行主体可以是数据分类装置，例如，数据分类装置可以是终端设备或服务器或其它处理设备，其中，终端设备可以为用于数据分类的设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备等。在一些可能的实现方式中，该数据分类方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图1，图1是本申请数据分类方法一实施例的流程示意图。具体而言，数据分类方法可以包括如下步骤：

步骤S11：获取待分类的目标图像和目标图像内的文本数据。

本方案中数据分类方法可以由数据分类模型执行，示例性地，数据分类模型的输入可以是目标图像和目标图像内的文本数据，数据分类模型的输出为分类结果。数据分类模型中可以包括多个模型或模块，各模型或模块如下述，此处不做赘述。

待分类的目标图像可以是二维图像，也可以是三维图像。待分类的目标图像可以是静态图像，也可以是动态图像，还可以由连续的图像帧组成的视频。待分类的目标图像可以是内嵌有文字的图片，也可以是将图片外围文字和图片合成的图像。待分类的目标图像可以是广告海报、表情包、幻灯片演示文稿、商标、用户界面设计、漫画、报纸、图文结合的社交媒体帖子等图片与文字的组合。目标图像内的文本数据可以是目标图像中的内嵌文字，也可以是目标图像中图片外围的文字。目标图像内的文本数据可以是动态文字，也可以是静态文字。文本数据至少一个词语构成。例如，文本数据可以是一个段落，也可以是一句话等，关于文本数据的具体形式此处不做具体限定。词语可以是单个汉字、多个汉字、英文字母以及多个英文字母等一种或多种语言组成的词语。关于词语的具体形式此处不做具体限定。待分类的目标图像可以表示为x^v。目标图像内的文本数据表示为x^t，x^t可以表示具有L_t个Token的文本数据。Token是文本处理的基本单位，可以是单词、子词(如词根、词缀)或字符等。

获取待分类的目标图像的方式可以是利用在线网站下载、通过搜索引擎查找并下载、利用应用商店下载等。本申请以待分类的目标图像为表情包为例。在一些应用场景中，获取待分类的目标图像的方式可以是利用在线表情包网站下载。表情包网站可以是EmojiCopy、GIPHY、Tenor等。在一些应用场景中，获取待分类的目标图像的方式可以是通过搜索引擎查找并下载。用户可以是在社交媒体平台上搜索相关的标签或关键词查找并下载。社交媒体平台可以是微博、微信、Telegram等。在一些应用场景中，获取待分类的目标图像的方式可以是利用应用商店下载。用户可以在应用商店中搜索表情包相关的应用程序，在应用程序中下载表情包。此处仅为举例说明，并不限定待分类的目标图像的获取方式。

获取目标图像内的文本数据的方式可以是使用OCR技术识别、图像编辑工具提取、人工输入等。本申请以待分类的目标图像为表情包为例。在一些应用场景中，获取目标图像内的文本数据的方式可以是使用OCR技术，将表情包中的文本数据进行识别和转换，得到可编辑文本。例。在一些应用场景中，获取目标图像内的文本数据的方式可以是利用图像编辑工具中的文字提取工具或选择工具，对表情包中的文字进行选择并复制到文本编辑器中，得到文本编辑器中的文本数据。在一些应用场景中，获取目标图像内的文本数据的方式可以是人工输入。对于数据量较小的文本数据，可以通过手动输入或者语音输入的方式来获取表情包中的文本数据。此处仅为举例说明，并不限定目标图像内的文本数据的获取方式。

步骤S12：对目标图像以及文本数据分别进行特征提取，得到图像特征和文本特征。

对目标图像以及文本数据分别进行特征提取的方式可以是使用任意具备特征提取功能的网络，或使用具备特征提取功能的算法。其中，对目标图像进行特征提取的特征提取网络可以是移动网络(MobileNet)、视觉几何组网络Visual GeometryGroup Network(VGGNet)和残差网络Residual Network(ResNet)等等或其变种。例如，VGGNet16、VGGNet19、ResNet50等。对文本数据进行特征提取的特征提取网络可以是MultilingualBERT、BERT-base、BERT-large、或Roberta等等。

在一些应用场景中，对目标图像以及文本数据分别进行特征提取的方式可以是利用数据分类模型中特征提取模型，特征提取模型可以包括第一提取子模型、第二提取子模型以及映射子模块。在一些应用场景中，可以将目标图像调整为224×224×3，将调整后的目标图像输入到第一提取模型中，第一提取模型可以是VGG16网络。示例性地，利用第一提取子模型中对目标图像进行特征提取。其中，第一提取子模型可以是5个最大池化层和16个加权层构成的VGG16网络。池化层的作用在目标图像调整为224×224×3基础上进行的空间降采样，有助于提取主要特征并减少参数数量。加权层指的是带有参数的层，加权层可以由多个(例如13个、14个等任意个数)卷积层和多个(例如3个、4个等任意个数)全连接层组成。卷积层作用是运用卷积操作提取特征。全连接层作用是对数据进行分类。可以认为，将将目标图像调整为224×224×3输入到VGG16网络，得到第一特征其中，第一特征的输出维度可以为4096，N表示表情包图像的数量。第一特征可以表示为e^v，e^v＝VGG16(x^v)。

在一些应用场景中，可以将目标图像调整为224×224×3，将调整后的目标图像输入到第一提取模型中，第一提取模型可以是ResNet50网络。示例性地，利用第一提取子模型中对目标图像进行特征提取。其中，第一提取子模型可以是由一个3层卷积层和一个全连接层构成的ResNet50网络。3层卷积层可以是3层7×7×64卷积层，每层16个构建块。一般将ResNet50网络中最后两层的结果作为输出的第一特征，得到第一特征其中，第一特征维度可以为2048，N表示表情包图像的数量。具体地，可以将ResNet50网络中应该是倒数第二层的结果作为输出的第一特征，也即是卷积层最后一层的结果作为输出的第一特征，输出的第一特征维度可以为2048。在不需要分类的时候，可以省去全连接层。第一特征可以表示为e^v，e^v＝ResNet50(x^v)。

在一些应用场景中，可以利用一种或多种网络组合构成的第二提取子模型对文本数据进行特征提取。第二提取子模型可以使用不同的特殊符号标记输入序列的位置。示例性地，第二提取子模型可以是Multilingual BERT(M-BERT)。将文本数据x^t输入到第二提取子模型，x^t可以表示为L_t个Token的文本数据可以经过M-BERT模型，得到第二特征其中，N可以表示Token的数量，N也可以表示文本的数量。d_t表示第二特征相应的隐藏层表示的维度，第二特征维度可以为768。第二特征可以表示为e^t，其中，[CLS]标记位于输入序列的开头，可以用于表示整个序列的分类任务。[SEP]标记位于输入序列的不同部分之间，用于分隔不同的句子或文本片段。可以认为，对于每个文本数据对应的输入序列，可以在开头添加CLS标记，可以在两个句子之间添加SEP标记。这些特殊符号可以使第二提取子模型能够更好地理解整个句子或文本片段的语境和关联性。

在此基础上，将目标图像输入到第一特征子模型得到的第一特征，以及文本数据输入到第二提取子模型得到的第二特征分别输入到一个或多个映射子模块，得到图像特征和文本特征。映射子模块可以是网络模型，也可以是算法模块。在一些应用场景中，可以利用一种或多种网络组合构成的映射子模块对第一特征和第二特征进行映射，得到图像特征和文本特征。示例性地，第一特征可以输入到投影层p^v(·)，得到图像特征第二特征可以输入到投影层p^t(·)，得到文本特征/>其中，d_h表示隐藏向量的特征维度，可以是超参数，可以是用户自行设置。文本特征h^t可以是部分或全部文本数据对应的文本特征。在一些应用场景中，文本特征h^t可以是文本数据中[CLS]标记对应的部分文本特征。在一些应用场景中，文本特征h^t可以是文本数据中[SEP]标记对应的部分文本特征。具体地，本申请的该映射子模块中d_h可以设置为512。每个投影层都被实现为一个具有ReLU激活函数的密集层。投影层的作用可以是对输入的特征进行非线性变换，d_h维的隐藏向量是经过非线性变化的结果。映射子模块的作用可以是将得到所有输入的特征维度进行统一。

步骤S13：利用第一注意力模型对图像特征和文本特征进行处理，得到目标特征。

第一注意力模型可以是根据输入的重要性分配相应的注意力权重。对输入的图像特征和文本特征赋予不同的权重，得到目标特征。利用第一注意力模型可以对图像特征指导的不一致的文本特征进行优先级排序，也即是对输入的图像特征和文本特征赋予不同的权重。在一些应用场景中，数据分类模型中的第一注意力模型可以包括第一自注意子模块、第一残差子模块、第一转换子模块以及第二残差子模块。第一注意力模型的各模块可以是网络模型，也可以是算法模块。

在一些应用场景中，第一自注意子模块可以是一种自注意力模型。示例性地，第一自注意子模块可以是ransformer模型，是一种基于自注意力机制(self-attention)的深度学习模型，主要应用于自然语言处理任务。其核心思想是通过注意力机制来建立输入序列中各个位置之间的依赖关系，而不依赖于传统的循环神经网络或卷积神经网络。这种自注意力机制使得Transformer能够并行处理序列中的信息，具有更好的计算效率。

第一自注意子模块中可以有多个子模块来执行多个步骤，执行的步骤可以是确定查询键值对、确定头部数量、线性映射、相似度计算、注意力权重归一化、上下文计算、多头融合以及输出计算等等。在一些应用场景中，确定查询键值对可以是通过输入序列确定查询键值对中的查询数据Q(Query)与键数据K(Key)以及值数据V(Value)。示例性地，可以通过图像特征和文本特征输入第一自注意子模块的输入序列确定查询数据Q，键数据K，值数据V。在一些应用场景中，确定头部数量可以是首先需要确定应该使用多少个头部。这是一个超参数，可以根据任务的需求进行调整。在一些应用场景中，线性映射可以是对查询数据Q与键数据K以及值数据V分别进行线性映射，将其转换为适合头部计算的维度。这通常涉及到使用权重矩阵对查询键值对进行矩阵乘法运算和激活函数的作用。查询键值对中每个查询数据Q，键数据K，值数据V的线性映射是独立的，且每个头部都有自己独立的线性映射。在一些应用场景中，相似度计算可以是对于每个头部，计算查询数据与键数据之间的相似度。通常采用点积(Dot Product)、加性模型(Additive Model)或其他可学习的权重矩阵来计算相似度。这一步骤可以产生一个表示查询数据与键数据相关性的注意力权重。在一些应用场景中，注意力权重归一化可以是对计算得到的注意力权重进行归一化处理，使每个头部的权重都保持在[0,1]的范围内，并且总和为1。可以采用Softmax函数对注意力权重进行归一化。在一些应用场景中，上下文计算可以是使用注意力权重对值数据进行加权求和，得到每个头部的上下文向量。具体地，对每个头部，通过将注意力权重与对应的值数据相乘，得到该头部的上下文向量。在一些应用场景中，多头融合可以是将所有头部的上下文向量进行拼接或加权平均，得到最终的多头上下文向量。拼接方式通常用于Transformer等模型中，加权平均方式可以通过给每个头部分配不同的权重来实现。在一些应用场景中，输出计算可以是对多头上下文向量进行线性映射和激活函数操作，得到最终的头部计算结果，作为第一自注意子模块的输出。也即是，得到的最终的头部计算结果可以是第一自注意子模块的输出，第一自注意输出。将第一自注意子模块得到的第一自注意输出，输入到第一残差子模块中。

在一些应用场景中，第一残差子模块和第二残差子模块可以是一种残差连接机制。示例性地，第一残差子模块和第二残差子模块可以是Add&Norm模块。经过第一残差子模块和第二残差子模块分别得到第一残差输出和第二残差输出。Add可以表示残差连接(Residual Connection)用于防止网络退化。Add操作可以是指将输入值与网络层的输出值进行直接相加。通过将输入值与输出值相加，可以传递输入的原始信息和梯度，缓解梯度消失和信息损失的问题。Norm可以表示层归一化(LayerNormalization)，用于对每一层的激活值进行归一化。Norm操作可以是指对相加后的结果进行归一化操作，可以提高模型的训练稳定性和泛化能力。在一些应用场景中，第一转换子模块可以将得到的输入进行非线性转换。示例性地，第一转换子模块可以是一个基于非线性激活函数的前馈网络FN。可以认为，在注意力机制中，输入序列的注意力权重仅仅是线性变换的结果。在注意力机制之后引入非线性变换，经过第一转换子模块得到的转换输出可以是更丰富的非线性特征表示。

示例性地，数据分类模型中的第一注意力模型可以包括第一自注意子模块、第一残差子模块、第一转换子模块以及第二残差子模块。数据分类模型中的第一注意力模型的输入可以是图像特征和文本特征。利用第一自注意子模块计算图像特征和文本特征对应的注意力权重，得到第一自注意输出。利用第一残差子模块对第一自注意输出进行残差连接和归一化处理，得到第一残差输出。利用第一转换子模块对第一残差输出进行非线性变换，得到第一转换输出。利用第二残差子模块对第一转换输出进行残差连接和归一化处理，得到第二残差输出。第二残差输出可以是图像特征和文本特征经过第一注意力模型得到的输出。

在一些应用场景中，第二残差输出可以是利用第一注意力模型对图像特征和文本特征进行处理，得到的目标特征。在一些应用场景中，可以将第二残差输出与图像特征和/或文本特征进行融合，得到新的特征。该新的特征可以是利用第一注意力模型对图像特征和文本特征进行处理，得到的目标特征。

可以认为，基于第一注意力模型Transformer，结合图像特征和文本特征，可以实现提高图像特征和文本特征之间的交互，也即是可以提高目标图像和文本数据的交互，从而使目标图像的分类结果更准确。

在一些实施例中，上述步骤S13可以包括以下步骤：首先，利用图像特征确定第一注意力模型中第一查询键值对的查询数据，利用文本特征确定第一查询键值对的键数据和值数据。其次，基于第一查询键值对，确定第一注意力模型输出的第一候选特征。然后，将第一候选特征、图像特征和/或文本特征进行融合，得到目标特征。

查询键值对可以是在自注意机制中被表示为一组向量的输入序列。查询键值对中可以包括查询数据Q(Query)、键数据K(Key)以及值数据V(Value)。

利用图像特征确定第一注意力模型中第一查询键值对的查询数据，利用文本特征确定第一查询键值对的键数据和值数据的步骤可以是：将图像特征以及文本特征输入数据分类模型中第一注意力模型的第一自注意子模块。在第一自注意子模块中，图像特征确定第一查询键值对中的查询数据Q，文本特征确定第一查询键值对中的键数据K以及值数据V。示例性地，通过图像特征和文本特征输入第一自注意子模块，确定第一查询键值对。可以是图像特征输入第一自注意子模块，得到的第一查询键值对中的查询数据Q。可以是文本特征/>输入第一自注意子模块，得到的第一查询键值对中的键数据K和值数据V。其中，第一查询键值对中的查询数据Q、键数据K、值数据V均由h^v,h^t基于权重W_Q,W_k,/>计算而来。第一查询键值对中的查询数据Q可以表示为Q＝h^vW_Q，键数据K可以表示为K＝h^tW_K，值数据V可以为V＝h^tW_V。

基于第一查询键值对，确定第一注意力模型输出的第一候选特征可以是以下步骤：其中，第一自注意子模块执行步骤中确定头部数量、线性映射、相似度计算、注意力权重归一化、上下文计算可以是第一自注意子模块中的每一个头部的过程。具体地，计算第一自注意子模块中的第i个头部过程可参考公式(1)：

其中，d_k可以是第i个头部计算的维度。m可以是头部的总数量，m是超参数，可以用户自行设置，一般为12。/> 是可学习的参数。σ表示softmax函数。可以认为，Att_i(h^v,h^t)可以表示第一自注意子模块执行步骤中上下文计算得到的第i个头部的上下文向量。

在此基础上，第一自注意子模块执行多头融合以及输出计算步骤可以是然后将m个头的输出拼接起来，并通过一个线性变换来产生最终的输出。具体地，可参考公式(2)：

M-Att(h^v,h^t)＝[Att₁(h^v,h^t),...,Att_m(h^v,h^t)]W^o 公式(2)；

其中，W^o是可学习的训练参数，可以是权重矩阵。M-Att(h^v,h^t)可以作为第一自注意子模块得到的第一自注意输出，将其输入到第一残差子模块中，得到第一残差输出。

利用第一残差子模块对第一自注意输出进行残差连接和归一化处理，得到第一残差输出。利用第一转换子模块对第一残差输出进行非线性变换，得到转换输出。利用第二残差子模块对转换输出进行残差连接和归一化处理，得到第二残差输出。在此基础上，第一自注意输出经过第一残差子模块和第一转换子模块以及第二残差子模块得到的第二残差输出可以表示第一候选特征。示例性地，通过第一自注意输出得到第一候选特征的过程可参考公式(3)：

H_inter＝FN(M-Att(h^v,h^t))

公式(3)；

其中，第一转换子模块可以表示为一个基于非线性激活函数的前馈网络，FN为前馈网络。H_inter可以表示第一候选特征。

然后，将第一候选特征、图像特征和/或文本特征进行融合，得到目标特征。根据需求，第一候选特征、图像特征和/或文本特征进行融合的方式不同。在一些应用场景中，将第一候选特征、图像特征和/或文本特征分别输入到独立的网络中，并在后续的网络层中进行特征融合。可以使用全连接层、汇合层或其他适合的网络结构来实现特征的融合，得到融合结果。在一些应用场景中，可以使用注意力机制可以自动学习第一候选特征、图像特征和/或文本特征之间的关联性和重要性。可以通过计算第一候选特征、图像特征和/或文本特征的注意力权重，并将它们乘以相应的特征向量来获得加权融合后的特征表示，得到融合结果。在一些应用场景中，可以为第一候选特征、图像特征和/或文本特征分别赋予不同的权重，然后将它们的特征进行加权融合，得到融合结果。权重可以根据任务需求、特征重要性等因素进行调节。在一些应用场景中，将第一候选特征、图像特征和/或文本特征进行拼接，形成一个综合的特征表示。可以在多个特征之间添加拼接操作。然后，这个综合的特征向量可以输入到分类器或其他模型中进行进一步处理。在一些应用场景中，可以是将第一候选特征与图像特征进行融合得到目标特征。在一些应用场景中，可以是将第一候选特征与文本特征进行融合得到目标特征。在一些应用场景中，可以是将第一候选特征与图像特征以及文本特征进行融合得到目标特征。示例性地，可以是通过将第一候选特征H_inter、图像特征h^v和/或文本特征h^t进行拼接，得到融合结果H_mul，该融合结果H_mul可以是目标特征。

在一些实施例中，数据分类方法还可以包括以下步骤：首先，基于第一候选特征，判断目标图像中是否含有隐喻信息。其次，响应于目标图像中不包含隐喻信息，利用第二注意力模型对文本特征进行处理，得到第二候选特征。然后，上述将第一候选特征、图像特征和/或文本特征进行融合，得到目标特征的步骤可以包括以下步骤：将图像特征和文本特征中一者或两者同第二候选特征以及第一候选特征进行融合，得到目标特征。

隐喻信息可以是指通过目标图像中所呈现的具体图像、表情和情绪来传达一种隐含的、非直接的含义或信息。给定一个目标图像，包括图片和文字，隐喻信息主要表现为两种概念的映射，分别称为源域和目标域。源域表示目标图像中的具体图像或表情，而目标域表示与之相关联的隐含概念、含义或信息。通过源域和目标域之间的映射，目标图像能够在视觉和语义层面上共同传达隐喻信息。隐喻信息可以是源域和目标域中的相应的信息。

基于第一候选特征，判断目标图像中是否含有隐喻信息的步骤可以是利用语义分析模型对第一候选特征进行上下文推断，得到隐喻判断结果。也可以是对第一候选特征中的词汇、实体或短语进行语义关联，识别隐喻含义，得到隐喻判断结果。还可以是分析特征中的情感色彩、语气、修辞和暗示，来判断是否存在隐喻信息，得到隐喻判断结果。

在一些实施例中，基于第一候选特征，判断目标图像中是否含有隐喻信息，上述步骤可以包括以下步骤：首先，利用预设分类模型对第一候选特征进行隐喻类别预测，得到预测结果。其次，响应于预测结果为第一预设值，则确定目标图像中存在隐喻信息。或，响应于预测结果为第二预设值，则确定目标图像中不存在隐喻信息。然后，其中，预设分类模型基于带有隐喻类别标签的样本图像及样本图像中包含的样本文本训练得到。

预设分类模型可以是数据分类模型中的隐喻预测模块。预测结果可以是第一候选特征进行隐喻类别预测得到的是否含有隐喻信息。第一预设值与第二预设值可以是一个固定值，也可以是一个固定的数值区间，还可以是固定的分类标签。在一些应用场景中，预测结果可以是0或1。0可以表示为不含有隐喻信息，1可以表示含有隐喻信息。在一些应用场景中，预测结果可以是0-0.5或0.5-1。0-0.5可以表示为不含有隐喻信息，0.5-1可以表示含有隐喻信息。在一些应用场景中，预测结果可以是有或无。有可以表示为不含有隐喻信息，无可以表示含有隐喻信息。在一些应用场景中，可以利用数据分类模型中的隐喻预测模块来判断目标图像中是否含有隐喻信息。隐喻预测模块可以是网络模块，也可以是算法模块。其中，隐喻预测模块可以是在训练数据分类模型之前训练得到的，或者域数据分类模型同步训练得到的。示例性地，数据分类模型中的隐喻预测模块可以是由一个线性层和一个用于每个类别概率分布的softmax函数构成。可以通过标准的梯度下降算法来最小化交叉熵损失来训练隐喻预测模块，可参考公式(4)：

其中，可以是使用该隐喻预测模块单独的可学习参数训练而来的。b_MR可以是偏置。y_MR和/>是隐喻类别任务的真实结果和预测结果。Θ_MR表示模型的所有可训练参数，λ_MR可以表示为L2正则化系数。可以认为，隐喻预测模块基于带有隐喻类别标签的样本图像及样本图像中包含的样本文本训练得到。利用这个损失函数对数据分类模型中的参数进行调整。可以认为，利用隐喻预测模块，得到预测结果可以是先判断表情包中是否含有隐喻信息。如果有隐喻信息，再将隐喻信息对应的数据输入数据分类模型中，可以实现防止隐喻信息泄露。

在一些实施例中，响应于目标图像中不包含隐喻信息，利用第二注意力模型对文本特征进行处理，得到第二候选特征，可以包括以下步骤：首先，利用文本特征确定第二注意力模型中第二查询键值对的查询数据、键数据和值数据。然后，基于第二查询键值对，确定第二注意力模型输出的第二候选特征。

第二注意力模型可以是根据输入的重要性分配相应的注意力权重。在一些应用场景中，第二自注意子模块可以是一种自注意力模型。示例性地，第二自注意子模块可以是ransformer模型。第二注意力模型的输入可以是文本特征。在一些应用场景中，数据分类模型中的第二注意力模型可以包括第二自注意子模块、第三残差子模块、第二转换子模块以及第四残差子模块。第一注意力模型的各模块可以是网络模型，也可以是算法模块。其中，第二自注意子模块中可以有多个子模块，来执行多个步骤，执行的步骤可以是确定查询键值对、确定头部数量、线性映射、相似度计算、注意力权重归一化、上下文计算、多头融合以及输出计算等等。可以认为，第二注意力模型中的第二自注意子模块、第三残差子模块、第二转换子模块以及第四残差子模块与第一注意力模型中的第一自注意子模块、第一残差子模块、第一转换子模块以及第二残差子模块分别对应，且作用相同，此处不再赘述。

在一些应用场景中，第二注意力模型的输入可以是文本特征中的全部文本特征。其中，利用文本特征确定第二注意力模型中第二查询键值对的查询数据、键数据和值数据的步骤，可以是利用全部文本特征确定第二查询键值对的查询数据，以及将文本特征在第一注意力模型中得到第一查询键值对中的键数据和值数据确定为第二查询键值对的键数据和值数据。

在一些应用场景中，第二注意力模型的输入可以是文本特征中的部分文本特征以及全部文本特征。其中，利用文本特征确定第二注意力模型中第二查询键值对的查询数据、键数据和值数据的步骤，可以是利用全部文本特征确定第二查询键值对的查询数据，利用文本数据中[CLS]标记对应的部分文本特征确定第二查询键值对中的键数据，利用文本数据中[SEP]标记对应的部分文本特征确定第二查询键值对中的值数据。可以认为，如果不含有隐喻信息时，可以利用文本数据中[CLS]标记对应的部分文本特征以及文本数据中[SEP]标记对应的部分文本特征确定第二查询键值对中的键数据以及值数据可以实现控制单一变量，使得第二注意力模型输出的第二候选特征，特征表示更精确。

在此基础上，基于第二查询键值对，确定第二注意力模型输出的第二候选特征可以是将第二查询键值对作为第二自注意子模块中的确定查询键值对的步骤。示例性地，将得到的第二查询键值对作为执行第二自注意子模块中确定查询键值对的输出，依次执行之后的步骤，得到第二自注意输出。利用第三残差子模块对第二自注意输出进行残差连接和归一化处理，得到第三残差输出。利用第二转换子模块对第三残差输出进行非线性变换，得到第二转换输出。利用第二残差子模块对第二转换输出进行残差连接和归一化处理，得到第四残差输出。第四残差输出可以是基于第二查询键值对，确定第二注意力模型输出的第二候选特征。示例性地，第二候选特征可以表示为H₂。

在一些实施例中，上述将第一候选特征、图像特征和/或文本特征进行融合，得到目标特征的步骤可以包括以下步骤：将图像特征和文本特征中一者或两者同第二候选特征以及第一候选特征进行融合，得到目标特征。

根据需求，将图像特征和文本特征中一者或两者同第二候选特征以及第一候选特征进行融合的方式不同。在一些应用场景中，融合的方式可以为拼接操作。在一些应用场景中，可以是将第二候选特征、第一候选特征与图像特征进行融合得到目标特征。在一些应用场景中，可以是将第二候选特征、第一候选特征与文本特征进行融合得到目标特征。在一些应用场景中，可以是将第二候选特征、第一候选特征与图像特征以及文本特征进行融合得到目标特征。示例性地，可以是通过将图像特征h^v和文本特征h^t中一者或两者同第二候选特征H₂、第一候选特征H_inter进行拼接，得到融合结果H_mul，该融合结果H_mul可以是目标特征。

在一些实施例中，数据分类方法还可以包括以下步骤：首先，获取目标图像的源域文本和目标域文本，目标域文本用于表示目标图像中所包含对象的所属类别，源域文本为部分或全部文本数据。然后，对源域文本和目标域文本分别进行特征提取，得到源域特征和目标域特征。最后，响应于目标图像中包含隐喻信息，利用第二注意力模型对源域特征，目标域特征和文本特征进行处理，得到第三候选特征。

目标图像的目标域文本可以用于表示目标图像中所包含对象的所属类别。目标图像的源域文本可以表示为部分或全部文本数据。示例性地，如图2所示，图2是本申请数据分类方法一实施例中目标图像的示意图。目标图像内的文本数据可以是“my friend’sreaction when ask for an extra answer sheet in exam”。隐喻信息由源域文本myfriend(我的朋友)和目标域文本cat(猫)组成。可以理解的是，隐喻信息可以是传达一个潜在的消息，当我在考试中要求额外的答题表时，我的朋友和图像中的猫一样震惊。总的来说，在本申请中，隐喻信息可以是隐喻文本，分别包括源域文本和目标域文本。示例性地，如图2所示的目标图像可以是表情包。上述基于第一候选特征，判断目标图像中是否含有隐喻信息中预测结果可以表示为包含隐喻信息，也可以表示为True。源域文本可以表示为myfriend(我的朋友)。目标域文本可以表示为cat(猫)。

在对数据分类模型进行训练过程中，目标图像、文本数据、目标域文本和源域文本是训练集中包含的，在对数据分类模型训练完成之后，数据分类模型在运用过程中，获取目标域文本和源域文本的方式可以是使用者人工输入或者利用预设的网络模型对目标图像和文本数据进行目标域文本提取和源域文本提取。

对源域文本和目标域文本分别进行特征提取，可以是将源域文本和目标域文本分别输入一个或多个第二提取子模型，将第二提取子模型的输出经过一个或多个映射子模块。示例性地，第二提取子模型可以是Multilingual BERT(M-BERT)。L_s个Token的源域文本可以经过M-BERT模型，得到第三特征其中，N可以表示Token的数量，N也可以表示源域文本的数量。d_s表示第三特征相应的隐藏层表示的维度，第三特征维度可以为768。第三特征可以表示为e^s，/> L_g个Token的目标域文本可以经过M-BERT模型，得到第四特征/>其中，N可以表示Token的数量，N也可以表示目标域文本的数量。d_g表示第四特征相应的隐藏层表示的维度，第四特征维度可以为768。第四特征可以表示为e^g，/>其中，[CLS]标记位于输入序列的开头，可以用于表示整个序列的分类任务。[SEP]标记位于输入序列的不同部分之间，用于分隔不同的句子或文本片段。

示例性地，将源域文本和目标域文本经过第二提取子模型得到的输出第三特征和第四特征，分别输入一个或多个映射子模块，得到源域特征和目标域特征。第三特征可以输入到投影层p^s(·)，得到源域特征第四特征可以输入到投影层p^g(·)，得到目标域特征/>其中，d_h表示隐藏向量的特征维度，可以是超参数，可以是用户自行设置。

在一些实施例中，上述响应于目标图像中包含隐喻信息，利用第二注意力模型对源域特征，目标域特征和文本特征进行处理，得到第三候选特征，可以包括以下步骤：首先，利用源域特征确定第二注意力模型中第三查询键值对的键数据，利用目标域特征确定第三查询键值对的值数据，利用文本特征确定第三查询键值对的查询数据。其次，基于第三查询键值对，确定第二注意力模型输出的第三候选特征。

目标图像中包含隐喻信息，可以是目标图像内中包含源域文本和目标域文本。示例性地，利用源域特征确定第二注意力模型中第三查询键值对的键数据，利用目标域特征确定第三查询键值对的值数据，利用文本特征确定第三查询键值对的查询数据可以是：示例性地，通过源域特征和目标域特征以及文本特征输入第二自注意子模块，确定第三查询键值对。可以是文本特征输入第二自注意子模块，得到的第三查询键值对中的查询数据Q。可以是源域特征/>输入第二自注意子模块，得到的第三查询键值对中的键数据K。可以是目标域特征/>输入第二自注意子模块，得到的第三查询键值对中的数据V。其中，第三查询键值对中的查询数据Q、键数据K、值数据V分别由h^t，h^s，h^g基于权重W_Q,W_k,/>计算而来。第三查询键值对中的查询数据Q可以表示为Q＝h^tW_Q，键数据K可以表示为K＝h^sW_K，值数据V可以为V＝h^gW_V。

在此基础上，基于第三查询键值对，确定第二注意力模型输出的第三候选特征可以是将第三查询键值对作为第二自注意子模块中的确定查询键值对的步骤。示例性地，将得到的第三查询键值对作为执行第二自注意子模块中确定查询键值对的输出，依次执行之后的步骤，得到第二自注意输出。可参考公式(5)和公式(6)：

M-Att(h^t,h^s,h^g)＝[Att₁(h^t,h^s,h^g),...,Att_n(h^t,h^s,h^g)]W^j 公式(6)；

其中，d_l可以是第i个头部计算的维度。n可以是头部的总数量，n是超参数，可以用户自行设置，一般为12。/> 是可学习的参数。σ表示softmax函数。可以认为，Att_i(h^t,h^s,h^g)可以表示第二自注意子模块执行步骤中上下文计算得到的第i个头部的上下文向量。/> 可学习的训练参数，可以是权重矩阵。M-Att(h^t,h^s,h^g)可以作为第二自注意子模块得到的第二自注意输出。

利用第三残差子模块对第二自注意输出进行残差连接和归一化处理，得到第三残差输出。利用第二转换子模块对第三残差输出进行非线性变换，得到第二转换输出。利用第二残差子模块对第二转换输出进行残差连接和归一化处理，得到第四残差输出。在此基础上，第四残差输出可以是基于第三查询键值对，确定第二注意力模型输出的第三候选特征。示例性地，通过第二自注意输出得到第三候选特征的过程可参考公式(7)：

H_intra＝FN(M-Att(h^t,h^s,h^g))

公式(7)；

其中，第二转换子模块可以表示为一个基于非线性激活函数的前馈网络，FN为前馈网络。H_intra可以表示第三候选特征。

可以认为，文字模态可以包括文本数据、源域文本以及目标域文本。隐喻信息可以作为文字模态。将源域文本以及目标域文本对应的源域特征以及目标与特征输入第二注意力模型，可以实现学习文本数据和隐喻信息的一致性(语义一致性、修辞一致性、文化一致性以及情感一致性)。通过保持文本和隐喻信息的一致性，可以提高沟通的准确性、效果和理解度，促进有效的信息传递，使目标图像的分类结果更准确。

在一些实施例中，将第一候选特征、图像特征和/或文本特征进行融合，得到目标特征，上述步骤可以包括以下步骤：将图像特征和文本特征中一者或两者同、源域特征和目标域特征中的一者或两者、第三候选特征以及第一候选特征进行融合，得到目标特征。

根据需求，将图像特征和文本特征中一者或两者同、源域特征和目标域特征中的一者或两者、第三候选特征以及第一候选特征进行融合的方式不同。在一些应用场景中，融合的方式可以是对各特征进行相加。在一些应用场景中，融合的方式可以为拼接操作。

在一些应用场景中，可以是将第三候选特征、第一候选特征与图像特征以及源域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与文本特征以及源域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与图像特征以及文本特征和源域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与图像特征以及目标域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与文本特征以及目标域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与图像特征以及文本特征和目标域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与图像特征以及源域特征和目标域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征与文本特征以及源域特征和目标域特征进行融合得到目标特征。在一些应用场景中，可以是将第三候选特征、第一候选特征、图像特征、文本特征、源域特征和目标域特征进行融合得到目标特征。示例性地，可以是通过将图像特征h^v和文本特征h^t中一者或两者同、源域特征h^s和目标域特征h^g中一者或两者、第三候选特征H_intra、第一候选特征H_inter进行拼接，得到融合结果H_mul，该融合结果H_mul可以是目标特征。

步骤S14：利用目标特征对目标图像进行分类处理，得到目标图像的分类结果。

目标图像经过分类处理，得到的目标图像的分类结果可以是根据用户需求设置的任务类别。分类结果可以是根据表情类型、角色认定、主题或场景认定、姿势认定、特定含义分类等等。示例性地，分类结果还可以是情感分类、意图分类、攻击分类的预测标签。

利用目标特征对目标图像进行分类处理可以是直接利用目标特征进行分类，也可以是利用目标特征和目标图像进行融合，得到的目标融合结果，对目标融合结果进行分类。在一些应用场景中，分类任务可以是网络，也可以算法模块来执行的。示例性地，对于分类任务，可以选择支持向量机(SVM)、随机森林(Random Forest)、梯度提升机(GradientBoosting Machine)等机器学习模型，或者卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等深度学习模型。示例性地，如图2所示的目标图像可以是表情包。目标图像的分类结果可以是情感分类、意图分类、攻击分类的预测标签。其中，情感分类的预测标签可以表示为love(爱)。意图分类的预测标签可以表示为entertaining(娱乐)。攻击分类的预测标签可以表示为non-offensive(友善)。

请参阅图3，图3是本申请数据分类方法中步骤S14的子流程示意图。如图3所示，本公开实施例提供的数据分类方法中步骤S14可以包括如下步骤：

在一些实施例中，分类结果为多个，每一分类结果对应一个分类任务，上述步骤S14可以包括步骤S141至步骤S144：

步骤S141：利用包含至少一个线性层的多个第一线性模块，分别对目标特征进行处理，得到多个第一进阶特征。

第一进阶特征的数量与各分类任务的排列组合数量相同，每一第一进阶特征对应至少一种任务组合。第一线性模块可以是对目标特征进行线性变换，也可以是对目标特征进行特征组合。利用包含至少一个线性层的多个第一线性模块，分别对目标特征进行处理，得到多个第一进阶特征，第一进阶特征的数量与各分类任务的排列组合数量相同，每一第一进阶特征对应至少一种任务组合。各分类任务的排列组合数量可以表示为2^a-1，其中a可以表示为分类任务的种类。在一些应用场景中，可以利用数据分类模型中的至少一个线性层的多个第一线性模块对目标特征进行处理，得到多个第一进阶特征。示例性地，以三个分类任务为例。三个分类可以是情感分类任务，意图分类任务以及攻击分类任务。三个分类任务的排列组合数量可以为7，第一进阶特征的数量与各分类任务的排列组合数量相同，第一进阶特征的数量也为7。其中，s表示情感分类任务，i表示意图分类任务，o表示攻击分类任务。第一进阶特征可以表示为单任务特征、双任务特征以及三任务特征。每一第一进阶特征对应至少一种任务组合可以是三任务特征为H_s,i,o，双任务特征为H_s,i,H_s,o,H_i,o，单任务特征为H_s,H_i,H_o。可以认为，一种任务组合可以是单任务特征中H_s,H_i,H_o对应的s表示情感分类任务，i表示意图分类任务，o表示攻击分类任务。

步骤S142：对于每一分类任务，将与分类任务相关的第一进阶特征进行融合，得到分类任务相关的第二进阶特征。

根据需求，可以选择不同的融合方式。与分类任务相关的第一进阶特征可以是任一分类任务的对应存在的所有第一进阶特征。示例性地，可以利用数据分类模型中的第一融合模块，将与分类任务相关的第一进阶特征进行融合，得到分类任务相关的第二进阶特征。进行融合的方式可以是拼接操作，可以表示为具体地，分类任务可以表示为s表示情感分类任务，i表示意图分类任务，o表示攻击分类任务。分类任务s相关的第二进阶特征可以表示为/>分类任务i相关的第二进阶特征可以表示为分类任务o相关的第二进阶特征可以表示为

在一些实施例中，上述步骤S142之前，数据分类方法还包括以下步骤：首先，对于其中一个单任务，将单任务对应的至少部分第一进阶特征进行融合，得到单任务对应的融合特征。然后，对于其中一个多任务组合，将多任务组合中各单任务的排列组合对应的第一进阶特征进行融合，得到多任务组合对应的融合特征。接着，利用包含至少一个门控层的多个第二门控模块，分别对各融合特征进行更新，得到各任务组合对应的新的第一进阶特征，第一门控模块的数量与各分类任务排列组合数量相同。

根据需求，可以选择不同的融合方式。其中，一个单任务可以表示为一个单任务组合。单任务对应的融合特征可以是将任一分类任务的对应存在的所有第一进阶特征的融合，也即是，将单任务对应的至少部分第一进阶特征进行融合。示例性地，可以利用数据分类模型中的第一融合模块，将单任务对应的至少部分第一进阶特征进行融合，得到单任务对应的融合特征。进行融合的方式可以是拼接操作，可以表示为具体地，单任务可以表示为s表示情感分类任务，i表示意图分类任务，o表示攻击分类任务。单任务s对应的融合特征可以表示为/>单任务i对应的融合特征可以表示为单任务o对应的融合特征可以表示为

多任务组合可以表示多个类别分类任务的组合，其中多任务组合中的任务数量可以由任务类别决定。多任务组合可以是双任务，也可以是三任务，还可以是四任务。多任务组合对应的融合特征可以是将多任务中所有单任务的第一进阶特征进行排列组合，将符合该排列组合的第一进阶特征进行融合。也即是，将多任务中各单任务的排列组合对应的第一进阶特征进行融合，得到多任务对应的融合特征。所有单任务的第一进阶特征进行排列组合可以表示为2^a-1，其中a可以表示为分类任务的种类。示例性地，可以利用数据分类模型中的第一融合模块，将多任务中各单任务的排列组合对应的第一进阶特征进行融合，得到多任务对应的融合特征。进行融合的方式可以是拼接操作，可以表示为具体地，多任务组合中的双任务组合可以表示为(s,i)，(s,o)，(i,o)。双任务组合中的所有单任务的第一进阶特征进行排列组合，该排列组合数量可以是3。双任务组合(s,i)对应的融合特征可以表示为/>双任务组合(s,o)对应的融合特征可以表示为/> 双任务组合o对应的融合特征可以表示为/>多任务组合中的三任务组合可以表示为(s,i,o)。三任务组合中的所有单任务的第一进阶特征进行排列组合，该排列组合数量可以是7。三任务组合(s,i,o)对应的融合特征可以表示为

接着，利用包含至少一个门控层的多个第二门控模块，分别对各融合特征进行更新，得到各任务组合对应的新的第一进阶特征，第一门控模块的数量与各分类任务排列组合数量相同。

第二门控模块中可以包含线性变换和自注意机制。第二门控模块可以是对输入进行信息更新。第二门控模块的数量与各分类任务排列组合数量相同。各分类任务排列组合数量可以表示为2^a-1，其中a可以表示为分类任务的种类。在一些应用场景中，可以利用数据分类模型中的多个第二门控模块，分别对各融合特征进行更新，得到各任务组合对应的新的第一进阶特征。第二门控模块可以是由至少一个门控层的多个第二门控模块构成的。示例性地，对于三种任务类别，第二门控模块可以是三个门控层的七个第二门控模块构成的。门控层的类别可以由任务组合的数量决定。单任务对应的新的第一进阶特征可以表示为双任务组合对应的新的第一进阶特征可以表示为/>三任务组合对应的新的第一进阶特征可以表示为/>具体地，利用数据分类模型中的第二门控模块，得到各任务组合对应的新的第一进阶特征的过程可参考公式(8)：

其中，单任务可以对应第二门控模块Gate₁，双任务组合可以对应第二门控模块Gate₂，三任务组合可以对应第二门控模块Gate₃。

在一些实施例中，上述步骤S142可以包括以下步骤：首先，利用包含至少一个线性层的多个第二线性模块，分别对分类任务相关的新的第一进阶特征进行处理，得到多个变换特征。随后，对于每一分类任务，将与变换特征进行融合，得到分类任务相关的第二进阶特征。

首先，利用包含至少一个线性层的多个第二线性模块，分别对分类任务相关的新的第一进阶特征进行处理，得到多个变换特征。

第二线性模块可以是对新的第一进阶特征进行线性变换，也可以是对新的第一进阶特征进行特征组合。利用包含至少一个线性层的多个第二线性模块，分别对新的第一进阶特征进行处理，得到多个变换特征，变换特征的数量与各分类任务的排列组合数量相同，每一变换特征对应至少一种任务组合。各分类任务的排列组合数量可以表示为2^a-1，其中a可以表示为分类任务的种类。在一些应用场景中，可以利用数据分类模型中的至少一个线性层的多个第二线性模块对新的第一进阶特征进行处理，得到多个变换特征。示例性地，以三个分类任务为例。三个分类可以是情感分类任务，意图分类任务以及攻击分类任务。三个分类任务的排列组合数量可以为7，变换特征的数量与各分类任务的排列组合数量相同，变换特征的数量也为7。其中，s表示情感分类任务，i表示意图分类任务，o表示攻击分类任务。变换特征可以表示为单任务特征对应的单任务变换特征、双任务特征对应的双任务变换特征以及三任务特征对应的三任务变换特征。每一变换特征对应至少一种任务组合可以是三任务变换特征为双任务变换特征为/>单任务变换特征为/>

随后，对于每一分类任务，将与变换特征进行融合，得到分类任务相关的第二进阶特征。

根据需求，可以选择不同的融合方式。与分类任务相关的变换特征可以是任一分类任务的对应存在的所有变换特征。示例性地，可以利用数据分类模型中的第二融合模块，将与分类任务相关的变换特征进行融合，得到分类任务相关的第二进阶特征。进行融合的方式可以是拼接操作，可以表示为具体地，分类任务可以表示为s表示情感分类任务，i表示意图分类任务，o表示攻击分类任务。分类任务s相关的第二进阶特征可以表示为分类任务i相关的第二进阶特征可以表示为/>分类任务o相关的第二进阶特征可以表示为/>

步骤S143：利用包含至少一个门控层的多个第一门控模块，分别对各第二进阶特征进行更新，得到各分类任务对应的第三进阶特征。

第一门控模块的数量与分类任务的数量相同。第一门控模块可以包含线性变换和自注意机制。第一门控模块可以是对输入进行信息更新。第一门控模块的数量与各分类任务排列组合数量相同。各分类任务排列组合数量可以表示为2^a-1，其中a可以表示为分类任务的种类。在一些应用场景中，可以利用数据分类模型中的多个第一门控模块，分别对各融合特征进行更新，得到各任务组合对应的新的第一进阶特征。第一门控模块可以是由至少一个门控层的多个第一门控模块构成的。示例性地，对于三种任务类别，第一门控模块可以是三个门控层的七个第一门控模块构成的。门控层的类别可以由任务组合的数量决定。

第一门控模块可以包含线性变换和自注意机制。第一门控模块可以是对输入进行信息更新。第一门控模块的数量与分类任务种类的数量相同。在一些应用场景中，可以利用数据分类模型中的第一门控模块，分别对各第二进阶特征进行更新，得到各分类任务对应的第三进阶特征。第一门控模块可以是由至少一个门控层的多个第一门控模块构成的。示例性地，对于三种任务类别，第一门控模块可以是三个门控层的三个第一门控模块构成的。分类任务种类可以是情感分类任务、意图分类任务以及攻击分类任务。第一门控模块的数量可以由分类任务种类的数量决定。其中，门控层可以是Gate_SA，Gate_ID，Gate_OD。分类任务s对应的第三进阶特征可以表示为U_s。分类任务i对应的第三进阶特征可以表示为U_i。分类任务o对应的第三进阶特征可以表示为U_o。

具体地，可以利用数据分类模型中的第一门控模块，各分类任务对应的第三进阶特征的过程可参考公式(9)和公式(10)：

其中，情感分类任务可以对应第一门控模块Gate_SA，意图分类任务可以对应第一门控模块Gate_ID，攻击分类任务可以对应第一门控模块Gate_oD。可以理解的是，公式(9)可以表示分类任务s相关的第二进阶特征分

类任务i相关的第二进阶特征分类任务o相关的第二进阶特征/>利用数据分类模型中的第一门控模块，各分类任务对应的第三进阶特征。公式(10)可以表示分类任务s相关的第二进阶特征分类任务i相关的第二进阶特征/> 分类任务o相关的第二进阶特征/>利用数据分类模型中的第一门控模块，各分类任务对应的第三进阶特征。可以认为，数据分类模型中的第一门控模块Gate_sA，Gate_ID，Gate_OD可以聚合每个单独任务的任务特定知识。

步骤S144：基于各第三进阶特征，得到各分类任务的分类结果。

可以是将各第三进阶特征分别输入一个或多个结果分类模型。在一些应用场景中，可以利用数据分类模型中的结果分类模型对第三进阶特征进行分类。不同结果分类模型可以与不同的损失函数相结合，对结果分类模型进行训练。使用训练好的结果分类模型对第三进阶特征进行预测和分类。将第三进阶特征输入结果分类模型，得到结果分类模型的输出。并根据输出结果进行分类判断，得到分类结果。在应用过程中，用户可以根据分类结果执行后续的处理。在训练过程中，可以根据分类结果确定数据分类模型的损失，然后根据该损失对数据分类模型的参数进行调整。

示例性地，第三进阶特征可以是U_s，U_i，U_o。结果分类模型可以是softmax层。损失函数可以是交叉熵损失函数。通过softmax函数可以得到分类任务的预测结果。预测结果可以表示为情感类别意图类别/>和攻击类别/>最小化训练每个任务时的交叉熵损失，并最小化每个任务，训练数据分类模型的过程，可参考公式(11)：

其中，y_k和可以分别对应是情感分类、意图分类、攻击分类任务的真实标签和预测结果。Θ_k表示模型的所有可训练参数，λ_k表示L2正则化系数，其中k∈{SA,ID,OD}。

可以理解的是，目标图像可以是表情包。通过上述方案可以实现细粒度表情包分析。上述方案结合隐喻信息，更细致地分析表情包，提高细粒度表情包分析的准确度。上述方案从多模态和多任务的角度出发，充分利用第一注意力模型和第二注意力模型的不一致信息，以及不同任务之间的交互性，从而提升细粒度表情包分析的性能。

为更好地理解本方案提供的数据分类模型，请参阅图4。数据分类模型中可以包括特征提取模型，第一注意力模型，第二注意力模型，隐喻预测模块，多个第一线性模块，第一融合模块，多个第二门控模块，多个第二线性模块，第二融合模块，多个第一门控模块，结果分类模型。其中，特征提取模型可以包括第一提取子模型，第二提取子模型，多个映射子模块。第一注意力模型可以包括第一自注意子模块、第一残差子模块、第一转换子模块以及第二残差子模块。第二注意力模型可以包括第二自注意子模块、第三残差子模块、第二转换子模块以及第四残差子模块。

数据分类模型的输入可以是一个目标图片以及目标图像内的文本数据，还可以是目标图片，目标图像内的文本数据和源域文本以及目标域文本。利用数据分类模型中的第一提取子模型对目标图像进行特征提取，得到第一特征。利用数据分类模型中的第二提取子模型对目标图像内的文本数据和源域文本以及目标域文本分别进行特征提取，分别得到第二特征和第三特征以及第四特征。然后，利用数据分类模型中的一个或多个映射子模块对第一特征、第二特征、第三特征以及第四特征分别进行映射，分别得到图像特征、文本特征、源域特征以及目标域特征。

图像特征和文本特征输入数据分类模型中的第一注意力模型，得到目标特征的过程如上述，此处不再赘述。

可以利用数据分类模型中的隐喻预测模块对第一候选特征进行隐喻信息判断，得到隐喻信息预测结果。在一些应用场景中，隐喻信息预测结果可以是数据分类模型的最终输出。

图像特征和文本特征输入数据分类模型中的第一注意力模型，源域特征和目标域特征和/或文本特征输入数据分类模型中的第二注意力模型，得到目标特征的过程如上述，此处不再赘述。

在一些应用场景中，利用数据分类模型中的多个第一线性模块对目标特征进行线性变换，得到多个第一进阶特征。然后，利用数据分类模型中的第二融合模块对第一进阶特征进行特征融合，得到第二进阶特征。随后，利用数据分类模型中的多个第一门控模块对第二进阶特征进行信息更新，得到第三进阶特征。

在一些应用场景中，利用数据分类模型中的多个第一线性模块对目标特征进行线性变换，得到多个第一进阶特征。然后，利用数据分类模型中的第一融合模块对多个进阶特征进行特征融合，得到第一融合特征。接着，利用数据分类模型中的多个第二门控模块对融合特征进行信息更新，得到新的第一进阶特征。接着，利用数据分类模型中的多个第二线性模块对新的第一进阶特征进行线性变换，得到变换特征。然后，利用数据分类模型中的多个第二线性模块对变换特征进行特征融合，得到第二进阶特征。随后，利用数据分类模型中的多个第一门控模块对第二进阶特征进行信息更新，得到第三进阶特征。

在一些应用场景中，可以利用数据分类模型中的结果分类模型对目标特征进行分类处理，得到目标图像的分类结果。在一些应用场景中，可以利用数据分类模型中的结果分类模型对第三进阶特征进行分类处理，得到目标图像的分类结果。

在此基础上，数据分类模型的最终输出可以是目标图像的分类结果，也可以是目标图像的分类结果以及隐喻信息预测结果。

请参阅图5，图5是本申请数据分类装置一实施例的结构示意图。数据分类装置50包括获取模块51、提取模块52、处理模块53以及分类模块54。获取模块51，用于获取待分类的目标图像和目标图像内的文本数据；提取模块52，用于对目标图像以及文本数据分别进行特征提取，得到图像特征和文本特征；处理模块53，用于利用第一注意力模型对图像特征和文本特征进行处理，得到目标特征；分类模块54，用于利用目标特征对目标图像进行分类处理，得到目标图像的分类结果。

各模块执行的功能请参考数据分类方法，此处不再赘述。

请参阅图6，图6是本申请电子设备一实施例的结构示意图。电子设备60包括存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述数据分类方法实施例中的步骤。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器，此外，电子设备60还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述数据分类方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

请参阅图7，图7为本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质70，其上存储有程序指令701，程序指令701被处理器执行时实现上述任一数据分类方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims

1.一种数据分类方法，其特征在于，包括：

获取待分类的目标图像和所述目标图像内的文本数据；

对所述目标图像以及所述文本数据分别进行特征提取，得到图像特征和文本特征；

利用第一注意力模型对所述图像特征和所述文本特征进行处理，得到目标特征；

利用所述目标特征对所述目标图像进行分类处理，得到所述目标图像的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述利用第一注意力模型对所述图像特征和所述文本特征进行处理，得到目标特征，包括：

利用所述图像特征确定所述第一注意力模型中第一查询键值对的查询数据，利用所述文本特征确定所述第一查询键值对的键数据和值数据；

基于所述第一查询键值对，确定所述第一注意力模型输出的第一候选特征；

将所述第一候选特征、所述图像特征和/或所述文本特征进行融合，得到所述目标特征。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述第一候选特征，判断所述目标图像中是否含有隐喻信息；

响应于所述目标图像中不包含所述隐喻信息，利用第二注意力模型对所述文本特征进行处理，得到第二候选特征；

所述将所述第一候选特征、所述图像特征和/或所述文本特征进行融合，得到所述目标特征，包括：

将所述图像特征和所述文本特征中一者或两者同所述第二候选特征以及所述第一候选特征进行融合，得到所述目标特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述目标图像的源域文本和目标域文本，所述目标域文本用于表示所述目标图像中所包含对象的所属类别，所述源域文本为部分或全部所述文本数据；

对所述源域文本和所述目标域文本分别进行特征提取，得到源域特征和目标域特征；

响应于所述目标图像中包含所述隐喻信息，利用第二注意力模型对源域特征，目标域特征和所述文本特征进行处理，得到第三候选特征；

将所述图像特征和所述文本特征中一者或两者同、所述源域特征和所述目标域特征中的一者或两者、所述第三候选特征以及所述第一候选特征进行融合，得到所述目标特征。

5.根据权利要求4所述的方法，其特征在于，所述响应于所述目标图像中不包含所述隐喻信息，利用第二注意力模型对所述文本特征进行处理，得到第二候选特征，包括：

利用所述文本特征确定所述第二注意力模型中第二查询键值对的查询数据、键数据和值数据；

基于所述第二查询键值对，确定所述第二注意力模型输出的第二候选特征；

或，所述响应于所述目标图像中包含所述隐喻信息，利用第二注意力模型对源域特征，目标域特征和所述文本特征进行处理，得到第三候选特征，包括：

利用所述源域特征确定所述第二注意力模型中第三查询键值对的键数据，利用所述目标域特征确定所述第三查询键值对的值数据，利用所述文本特征确定所述第三查询键值对的查询数据；

基于所述第三查询键值对，确定所述第二注意力模型输出的第三候选特征。

6.根据权利要求3所述的方法，其特征在于，所述基于所述第一候选特征，判断所述目标图像中是否含有隐喻信息，包括：

利用预设分类模型对所述第一候选特征进行隐喻类别预测，得到预测结果；

响应于所述预测结果为第一预设值，则确定所述目标图像中存在隐喻信息；或，响应于所述预测结果为第二预设值，则确定所述目标图像中不存在隐喻信息；

其中，所述预设分类模型基于带有隐喻类别标签的样本图像及所述样本图像中包含的样本文本训练得到。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述分类结果为多个，每一所述分类结果对应一个分类任务，所述利用所述目标特征对所述目标图像进行分类处理，得到所述目标图像的分类结果，包括：

利用包含至少一个线性层的多个第一线性模块，分别对所述目标特征进行处理，得到多个第一进阶特征，所述第一进阶特征的数量与各所述分类任务的排列组合数量相同，每一所述第一进阶特征对应至少一种任务组合；

对于每一分类任务，将与所述分类任务相关的第一进阶特征进行融合，得到所述分类任务相关的第二进阶特征；

利用包含至少一个门控层的多个第一门控模块，分别对各所述第二进阶特征进行更新，得到各所述分类任务对应的第三进阶特征，所述第一门控模块的数量与所述分类任务的数量相同；

基于各所述第三进阶特征，得到各所述分类任务的分类结果。

8.根据权利要求7所述的方法，其特征在于，在所述对于每一分类任务，将与所述分类任务相关的第一进阶特征进行融合，得到所述分类任务相关的第二进阶特征之前，所述方法还包括：

对于其中一个单任务，将所述单任务对应的至少部分第一进阶特征进行融合，得到所述单任务对应的融合特征；

对于其中一个多任务组合，将所述多任务组合中各单任务的排列组合对应的第一进阶特征进行融合，得到所述多任务组合对应的融合特征；

利用包含至少一个门控层的多个第二门控模块，分别对各所述融合特征进行更新，得到各任务组合对应的新的第一进阶特征，所述第二门控模块的数量与各所述分类任务排列组合数量相同；

所述对于每一分类任务，将与所述分类任务相关的第一进阶特征进行融合，得到所述分类任务相关的第二进阶特征，包括：

利用包含至少一个线性层的多个第二线性模块，分别对所述分类任务相关的新的第一进阶特征进行处理，得到多个变换特征；

对于每一分类任务，将与所述变换特征进行融合，得到所述分类任务相关的第二进阶特征。

9.一种电子设备，其特征在于，包括：存储器和处理器，其中，所述存储器存储有程序指令，所述处理器从所述存储器调取所述程序指令以执行如权利要求1-8任一项所述的数据分类方法。

10.一种计算机可读存储介质，其特征在于，包括：存储有程序文件，所述程序文件被处理器执行时用于实现如权利要求1-8任一项所述的数据分类方法。