CN117421641A

CN117421641A - 一种文本分类的方法、装置、电子设备及可读存储介质

Info

Publication number: CN117421641A
Application number: CN202311706021.0A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Jiezi Yuntu Space Technology Co ltd; Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Jiezi Yuntu Space Technology Co ltd; Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-01-19
Anticipated expiration: 2043-12-13
Also published as: CN117421641B

Abstract

本申请涉及计算机技术领域，提供了一种文本分类的方法、装置、电子设备及可读存储介质。该方法包括：获取待分类文本以及与待分类文本对应的特征图像；使用多模态预训练模型待分类文本进行特征提取，得到文本特征向量；使用图像识别模型对特征图像进行特征提取，得到初步图像特征向量；基于文本特征向量对初步图像特征向量进行级联融合得到融合特征向量；将融合特征向量输入至分类模型中，得到分类结果。本申请通过图像特征对文本特征补充的方式，解决了文本分类方法中分类准确度不高的技术问题。

Description

一种文本分类的方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本分类的方法、装置、电子设备及可读存储介质。

背景技术

在计算机领域中，随着自然语言处理技术的不断发展，文本分类作为自然语言处理的任务之一，被应用于许多方面，比如消息的主题分类、用户意图识别、情感分析等，在现有技术中大多将多模态消息中的文本信息直接进行分类，随着消息内容的丰富，继续采用消息内容中单一模态的文本信息对文本内容进行分类结果的准确度不断下降。

有鉴于此，文本分类亟需使用多模态信息进行分类的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种文本分类的方法、装置、电子设备及可读存储介质，以解决现有技术中文本分类准确度不高的问题。

本申请实施例的第一方面，提供了一种文本分类的方法，包括：

获取待分类文本以及与待分类文本对应的特征图像；

使用多模态预训练模型待分类文本进行特征提取，得到文本特征向量；

使用图像识别模型对特征图像进行特征提取，得到初步图像特征向量；

基于文本特征向量对初步图像特征向量进行级联融合得到融合特征向量；

将融合特征向量输入至分类模型中，得到分类结果。

本申请实施例的第二方面，提供了一种文本分类的装置，包括：

获取模块，用于获取待分类文本以及与待分类文本对应的特征图像；

第一提取模块，使用多模态预训练模型待分类文本进行特征提取，得到文本特征向量；

第二提取模块，使用图像识别模型对特征图像进行特征提取，得到初步图像特征向量；

融合模块，用于基于文本特征向量对初步图像特征向量进行级联融合得到融合特征向量；

执行模块，用于将融合特征向量输入至分类模型中，得到分类结果。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过获取待分类文本和与待分类文本对应的特征图像，使用多模态预训练模型提取待分类文本得到文本特征向量，以及使用图像识别模型提取特征图像得到图像特征向量，为了强化待分类文本与特征图像之间的关系，使用文本特征向量对图像特征向量进行级联融合得到融合特征向量，使用融合特征向量进行通过分类模型得到分类结果，由于输入至分类模型的融合特征向量中包括了与文本信息对应的特征图像，加强了待分类文本与特征图像的联系，从而提高了文本分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图；

图2是本申请实施例提供的一种文本分类的方法的流程示意图；

图3是本申请提供的一种文本分类的方法的实施例示意图；

图4是本申请实施例提供的一种文本分类的装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括第一终端设备1、第二终端设备2和第三终端设备3、服务器4以及网络5。

第一终端设备1、第二终端设备2和第三终端设备3可以是硬件，也可以是软件。当第一终端设备1、第二终端设备2和第三终端设备3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当第一终端设备1、第二终端设备2和第三终端设备3为软件时，其可以安装在如上所述的电子设备中。第一终端设备1、第二终端设备2和第三终端设备3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，第一终端设备1、第二终端设备2和第三终端设备3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为第一终端设备1、第二终端设备2和第三终端设备3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为第一终端设备1、第二终端设备2和第三终端设备3提供各种服务的多个软件或软件模块，也可以是为第一终端设备1、第二终端设备2和第三终端设备3提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本申请实施例对此不作限制。

用户可以通过第一终端设备1、第二终端设备2和第三终端设备3经由网络5和服务器4建立通信连接，以接收或发送信息等。具体的，在用户将待分类文本以及与待分类文本对应的特征图像导入到服务器4之后，服务器4将使用多模态预训练模型待分类文本进行特征提取，得到文本特征向量；使用图像识别模型对特征图像进行特征提取，得到初步图像特征向量；基于文本特征向量对初步图像特征向量进行级联融合得到融合特征向量；将融合特征向量输入至分类模型中，得到分类结果。

需要说明的是，第一终端设备1、第二终端设备2和第三终端设备3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

图2是本申请实施例提供的一种文本分类的方法的流程示意图。图2的文本分类的方法可以由图1的终端设备或服务器执行。如图2所示，该文本分类的方法包括：

S201，获取待分类文本以及与待分类文本对应的特征图像。

具体的，待分类文本从多模态信息中提取得到，其中，模态指人接受信息的特定方式，例如视频、音频、图像和文字等，在本实施例中，待分类文本和特征图像均由多模态信息中提取得到，待分类文本和特征图像的内容的关联性较强。

通过获取待分类文本和与待分类文本对应的特征图像，方便模型执行待分类文本进行分类时结合与待分类文本对应的特征图像，提高文本分类的准确性。

S202，使用多模态预训练模型对待分类文本进行特征提取，得到文本特征向量。

具体的，多模态预训练模型用于将输入的待分类文本输出为离散的词向量作为文本特征向量，可以使用BLIP、CLIP模型作为多模态预训练模型，采用编码器对待分类文本进行处理，将待分类文本转化为文本特征向量。文本特征向量指表示文本信息的数值化向量，能够有效地捕捉到文本的关键信息，如词语的重要性、语义关系等，从而为后续的文本分析、分类或识别提供分析基础。

此外，在使用多模态预训练模型对待分类文本进行特征提取之前，还包括了对文本信息的预处理，处理过程包括但不限于去除符号、分词、去除停用词。其中，去除符号可以消除文本中的标点符号、数字等无关紧要的信息，使得模型能够更专注于处理文本的主要语义内容；分词指将连续的文本序列切分成一系列单独的词汇的过程，可以更好地理解和分析文本内容；去除停用词指去除在文本中频繁出现但对于理解文本主要内容没有太大帮助的词，例如“的”、“是”、“在”等，对待分类文本进行预处理，可以减少噪声，提高了文本特征向量提取的准确性。

通过使用多模态预训练模型对待分类文本进行提取，将待分类文本特征向量化，可以更好的利用机器学习算法对文本数据进行处理和分析，使得文本分类的结果更加的准确。

S203，使用图像识别模型对特征图像进行特征提取，得到初步图像特征向量。

具体的，图像识别模型在本实施例中用于对特征图像进行特征提取，例如ResNet模型和ViT模型，将特征图像处理得到图像特征向量，其中的图片特征向量是一种数学表示，用于描述如颜色、纹理和形状等图像的关键信息；作为一个示例，ResNet模型是典型的卷积神经网络，通过卷积层、池化层等操作来提取图像的特征得到图像特征向量，具体的，卷积层可以抽取图像的局部特征，例如边缘、纹理等几何和形状信息；池化层则用于降低特征的空间分辨率，同时保留最重要的信息。

通过使用图像识别模型作为图像编码器对特征图像进行提取，将特征图像特征向量化，有利于之后将图像特征与文本特征进行结合，提高文本分类的准确性。

S204，基于文本特征向量对初步图像特征向量进行级联融合得到融合特征向量。

具体的，级联融合是一种多模态融合的方式，在本实施例中，指将图片的多尺度特征，与文本特征进行注意力融合，可以充分利用两种不同模态的信息，提高文本分类的准确性。

通过使用基于文本特征向量对初步图像特征向量进行级联融合的多模态融合操作，可以同时使用文本和图像两种模态的特征，加强了模型的性能，提高了文本分类的准确性。

S205，将融合特征向量输入至分类模型中，得到分类结果。

具体地，在本实施例中，将融合特征向量输入至分类模型中，其中的分类模型可以在全连接层进行文本的分类处理，全连接层的作用是对输入数据进行线性变换，从而学习数据的分布式特征表示，并起到分类器的作用。

根据本申请实施例提供的技术方案，通过获取待分类文本和与待分类文本对应的特征图像，使用多模态预训练模型提取待分类文本中的文本特征得到文本特征向量，以及使用图像识别模型提取特征图像中的图像特征得到初步图像特征向量，在文本分类中，由于图像与文本的信息相关，采用将文本特征向量对初步图像特征向量进行级联融合的多模态融合方式得到融合特征向量，由于融合特征向量中充分利用了文本与图像中的特征，将融合特征向量输入至分类模型中得到的文本分类结果更加的准确。

在一些实施例中，使用文本特征向量对图像特征向量进行级联融合得到融合特征向量，包括：

对初步图像特征向量进行分级采样，得到多个级别的图像特征向量；

分别对每个图像特征向量与文本特征向量进行注意力计算，得到对应各图像特征向量的双重交叉注意力权重；

对初步图像特征向量与所有交叉注意力权重进行拼接，得到融合特征向量。

具体地，进行级联融合的图片的多尺度特征在对初步图像特征特征向量进行了分级采样获取，可以得到多个级别的图像的多尺度特征，通过对初步图像特征特征向量进行了分级采样，可以充分利用图像的特征。例如，将初步图像特征连续的进行特征提取，得到图像的多个图像特征向量，以获取到图像不同层次的信息。多重注意力在本实施例中指图片特征对文本特征的注意力权重和文本特征对图片特征的注意力权重，作为一个示例，其计算公式为：

；

其中，为注意力向量；/>为查询向量；/>为键向量；/>为值向量；/>为/>的维度。在该公式中，首先计算/>和K的相似性得到权重系数/>，之后将/>除以/>进行缩放，减少数值大小，然后将权重系数归一化处理，在本实施中使用Softmax函数进行归一化处理，最后将权重向量和相应的/>进行相乘得到注意力向量。其中，/>用于表示目标的关注信息；/>用于表示源数据的特征或标识，和/>进行匹配，计算与/>的相似度，从而决定对哪些源数据进行关注；/>用于表示源数据的实际内容，根据注意力权重对源数据进行加权求和，从而得到与/>相关的信息。

根据本申请实施例提供的技术方案，通过将初步图像特征向量进行分级采样，得到多个级别的图像特征向量的多尺度特征，将这些图像特征向量分别与文本特征向量进行注意力计算，得到的双重交叉注意力权重充分的对文本与特征图像的相关性进行了描述，将初步图像特征与获得的所有交叉注意力权重进行拼接，得到的融合特征向量由于充分利用了图像中的特征，描述了特征图片与文本之间的相关性，使得在使用融合特征向量进行文本分类更加的准确。

此外，作为本申请的一个实施例，对初步图像特征进行采样，得到第一图像特征向量；对第一图像特征向量进行采样，得到第二图像特征向量；对第二图像特征向量进行采样，得到第三图像特征向量，其中，第一图像特征向量、第二图像特征向量和第三图像特征向量作为初步图像特征向量多个级别的图像特征向量，将第一图像特征向量作为Q，将文本特征向量作为K、V，利用transformer模型进行注意力计算得到第一图像特征向量对文本特征向量的注意力权重，将文本特征向量作为Q，将第一图像特征向量作为K、V，利用transformer模型进行注意力计算得到文本特征向量对第一图像特征向量的注意力权重；将第二图像特征向量作为Q，将文本特征向量作为K、V，利用transformer模型进行注意力计算得到第二图像特征向量对文本特征向量的注意力权重，将文本特征向量作为Q，将第二图像特征向量作为K、V，利用transformer模型进行注意力计算得到文本特征向量对第二图像特征向量的注意力权重；将第三图像特征向量作为Q，将文本特征向量作为K、V，利用transformer模型进行注意力计算得到第三图像特征向量对文本特征向量的注意力权重，将文本特征向量作为Q，将第三图像特征向量作为K、V，利用transformer模型进行注意力计算得到文本特征向量对第三图像特征向量的注意力权重，此时双重交叉注意力权重指图像特征向量对文本特征向量的注意力权重和文本特征向量对图像特征向量的注意力权重。然后将初步图像特征向量、第一图像特征向量对文本特征向量的注意力权重、文本特征向量对第一图像特征向量的注意力权重、第二图像特征向量对文本特征向量的注意力权重、文本特征向量对第二图像特征向量的注意力权重、第三图像特征向量对文本特征向量的注意力权重、文本特征向量对第三图像特征向量的注意力权重进行拼接，其拼接方式可以为拼接，将拼接的多维向量作为融合特征向量。其拼接公式为：

；

其中，A为融合特征向量，I为初步图像特征向量，为第一图像特征向量对文本特征向量的注意力权重，/>为文本特征向量对第一图像特征向量的注意力权重，/>为第二图像特征向量对文本特征向量的注意力权重，/>为文本特征向量对第二图像特征向量的注意力权重，/>为第三图像特征向量对文本特征向量的注意力权重，/>为文本特征向量对第三图像特征向量的注意力权重。

在一些实施例中，在得到分类结果之后，还包括：

获取与待分类文本对应的预设标签，预设标签指待分类文本的真实类别；

根据分类结果和预设标签计算分类损失；

根据分类损失更新分类模型的参数。

具体的，预设标签提供了待分类文本的真实类别，根据分类结果和预设标签计算分类损失的方式不做限制，其中，分类结果包括了文本的类别和该类别对应的概率，并将最大概率的文本类别作为最终的结果，作为示例，采用交叉熵损失函数计算分类损失，计算交叉熵损失函数的计算公式为，其中y表示真实类别标签，p表示模型预测出的概率值。交叉熵函数是一种常用于分类问题的损失函数，它衡量的是模型预测结果和真实标签之间的差异。

根据本实施例提供的技术方案，通过获取与待分类文本对应的预设标签作为待分类文本的真实类别，使用该标签与分类结果得到分类损失，根据分类损失调整和优化分类模型的参数，使得模型能够更好地拟合数据，提高了分类结果的准确性。

在一些实施例中，在所述得到分类结果之后，还包括：

将文本特征向量和初步图像特征向量映射到同一模态空间，得到文本特征向量和初步图像特征向量的对齐损失；

将融合特征向量输入至文本重构模型，得到文本重构结果，根据文本重构结果得到文本重构损失；

将融合特征向量输入至图像重构模型，得到重构图像，根据重构图像和特征图像得到图像重构损失；

获取与待分类文本对应的预设标签，预设标签指待分类文本的真实类别，根据分类结果和预设标签计算分类损失；

整合对齐损失、文本重构损失、图像重构损失和分类损失得到模型总损失；

根据模型总损失更新分类模型的参数。

具体的，将文本特征向量和初步图像特征向量映射到同一模态空间可以消除图像和文本之间的模态差异，使得它们能够更直接地进行关联和匹配。文本重构模型指将融合特征向量中的文本特征进行筛选并进行重构，得到重构后的文本。文本重构损失用于衡量文本重构结果与待分类文本之间的差异。图像重构模型将输入的融合特征向量中提取图像特征，并进行重构得到重构图像。图像重构损失用于衡量重构图像与特征图像之间的差异。整合模型总损失的方式本实施例不做限制，例如，可以使用加权平均的方法将损失结合起来，形成模型的总损失，具体的权重可以根据每个任务的重要性来确定。

根据本实例提供的技术方案，通过将文本特征向量和初步图像特征向量映射到同一模态空间，得到文本特征向量和初步图像特征向量的对齐损失，有效地捕捉到两种模态之间的相互关系，接着，将融合特征向量输入至文本重构模型，得到文本重构结果，并根据这个结果计算文本重构损失，然后，将融合特征向量输入至图像重构模型，得到重构图像，并根据这个重构图像和原始的特征图像计算图像重构损失。获取与待分类文本对应的预设标签，并根据模型的分类结果和预设标签计算分类损失，最后整合对齐损失、文本重构损失、图像重构损失和分类损失，得到模型的总损失，根据这个总损失来更新模型的参数，以优化模型的性能，提高分类模型分类结果的准确性。

此外，在一些实施例中，将文本特征向量和初步图像特征向量映射到同一模态空间，得到文本特征向量和初步图像特征向量的对齐损失，包括：

将初步图像特征向量和文本特征向量输入至映射模型，得到多模态图像特征向量和多模态文本特征向量，其中多模态图像特征向量和多模态文本特征向量处于同一个模态空间；

根据多模态图像特征向量和多模态文本特征向量通过均方差损失函数计算，得到对齐损失。

具体的，多模态图像特征向量和多模态文本特征向量处于同一个模态空间，可以寻找到图像和文本之间的相互关系和匹配程度，作为示例，该映射模型中使用的公式如下：

；

其中指多模态图像特征向量，指多模态文本特征向量，/>指模型在映射图像特征向量的参数，/>指在映射文本特征向量的参数，/>指初步图像特征向量，/>指文本特征向量。

根据多模态图像特征向量和多模态文本特征向量获取对齐损失采用均方差损失函数进行计算，其公式如下：

；

其中，指对齐损失，/>指输入的待识别文本的数量。

此外，通过最小化均方差的方式对实现待识别文本与特征图像的特征对齐，最小化图像特征向量和文本特征向量之间的差距，使得它们在潜在空间中更加接近，进而实现图像和文本的有效对齐，提高了图像和文本之间的关联性和匹配性能。

根据本实例提供的技术方案，通过使用映射模型将初步图像特征向量和文本特征向量映射到同一个模态空间，得到的多模态图像特征向量和多模态文本特征向量实现了特征图像和待识别文本之间的对齐，然后通过均方差损失函数对多模态图像特征向量和所述多模态文本特征向量进行计算，得到对齐损失，度量模型图待识别文本和特征图像之间的差距，在之后使用对齐损失对模型进行优化，可以提高图像和文本之间的关联性，提高文本分类的准确性。

此外，在一些实施例中，将融合特征向量输入至文本重构模型，得到文本重构结果，根据文本重构结果得到文本重构损失，包括：

将融合特征向量输入至全连接层，得到加强融合特征向量；

将加强融合特征向量输入至文本解码模型，得到文本重构特征向量；

通过softmax激活函数对文本重构特征向量进行重构，得到文本重构特征向量对应的词汇以及词汇对应的概率作为文本重构结果；

根据文本重构结果通过交叉熵函数计算，得到文本重构损失。

具体的，全连接层在卷积神经网络中起到分类器的作用，全连接层将前一层的输出，经过一系列如卷积、池化和激活函数等操作后映射到隐层特征空间的特征向量，整合并转化这些特征信息为一个新的特征向量，也就是加强融合特征向量。文本解码模型用于将加强融合特征向量转化为可以识别的文本重构特征向量，可以采用transformer模型的解码器，该解码器由多个子层构成，每个子层包括多头自注意力层和编码器-解码器注意力层，其中，多头自注意力层允许模型关注输入序列中的不同部分，而编码器-解码器注意力层则使解码器能够参考编码器的输出。作为示例，该文本解码模型可以串联2个transformer的解码器，可以更好地处理序列到序列的任务，生成更加准确的文本重构特征向量。Softmax激活函数，也称为归一化指数函数，是深度学习中常用的一种激活函数，其主要功能是将任意实数映射到0和1之间，从而将输出转化为概率值。在本实施例中，Softmax激活函数将文本重构特征向量输出为包含有对应概率的词汇，以使的文本重构结果可通过交叉熵函数计算得到文本重构损失。

根据本实施例提供的技术方案，通过将融合特征向量输入至全连接层可以进一步提取和强化特征信息，得到加强融合特征向量。接着，将加强融合特征向量输入至文本解码模型中，使特征向量转化为可以被理解的文本信息，从而得到文本重构特征向量，然后，通过softmax激活函数对文本重构特征向量进行重构，由于softmax函数可以将模型的输出转化为概率分布，这样得到最可能的词汇序列，得到词汇以及词汇对应的概率，作为文本重构结果，文本重构结果通过交叉熵函数计算，得到文本重构损失，使用文本重构损失可以对文本重构模型进行优化，最小化文本重构损失，可以使得重构出的文本更加接近待分类文本。

此外，在一些实施例中，将融合特征向量输入至图像重构模型，得到重构图像，根据重构图像和特征图像得到图像重构损失，包括：

将融合特征向量输入至全连接层，得到加强融合特征向量；

将加强融合特征向量输入至图像解码模型，得到图像重构特征向量；

基于图像重构特征向量进行重构，得到重构图像；

根据重构图像和特征图像通过均方差损失函数进行计算，得到图像重构损失。

具体的，图像解码模型用于将加强融合特征向量解码为进行重构的图像重构特征向量，作为示例可以为transformer模型的解码器，由于transformer可以起到分类的作用，将加强融合特征向量中的图像特征进行分类，得到了图像重构特征向量，为了更深入地挖掘特征信息并提高模型的表达能力，可以串联多个transformer模型的解码器进行解码，作为示例，可以串联4个transformer模型的解码器，以使模型生成更准确的重构结果。基于图像重构特征向量进行重构的方式可以为使用多个全连接层进行图像重构，将图像重构特征向量映射回原始图像的空间位置，从而得到重构后的图像。

根据本实施例提供的技术方案，将融合特征向量输入至全连接层可以进一步提取和强化特征信息，得到加强融合特征向量。接着，将加强融合特征向量输入至图像解码模型中，对加强融合特征向量进行解码操作，得到图像重构特征向量，图像重构特征向量是对原始图像的一种近似表示，携带了原始图像的关键信息，然后，我们基于这个图像重构特征向量进行重构，得到重构图像，最后，使用的是均方差损失函数计算重构图像和原始特征图像之间的差异，得到图像重构损失，评估重构效果的好坏，由于均方差损失函数计算的是重构图像和原始图像之间每个像素点的差的平方的期望值，期望值越小，重构效果越好，所以可通过最小化图像重构损失，使得重构出的文本更加接近特征图像。

图3是本申请提供的一种文本分类的方法的实施例示意图，如图3所示，该文本分类的方法包括：

输入待分类文本，将输入的待分类文本通过多模态预训练模型得到文本特征向量；输入特征图像，将输入的特征图像通过图像识别模型得到初步图像特征向量，为了充分利用图像特征和文本特征，将待分类文本与特征图像通过级联融合模型进行融合，得到融合特征向量。将包含有文本特征向量和图像特征向量的融合特征向量输入至分类模型中，得到带分类文本的分类结果。在得到分类结果之后，将文本特征向量和初步图像特征经过映射模型进行向量对齐，并得到对齐损失、将融合特征向量通过图片重构模型得到图片重构损失、将融合特征向量通过文本重构模型得到文本重构损失、根据分类结果得到模型的分类损失，整合对齐损失、图片重构损失、文本重构损失和分类损失得到模型的总损失对分类模型进行逐步优化，提高分类的结果准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图4是本申请实施例提供的一种文本分类的装置的示意图。如图4所示，该文本分类的装置包括：

获取模块401，用于获取待分类文本以及与待分类文本对应的特征图像；

第一提取模块402，使用多模态预训练模型待分类文本进行特征提取，得到文本特征向量；

第二提取模块403，使用图像识别模型对特征图像进行特征提取，得到初步图像特征向量；

融合模块404，用于基于文本特征向量对初步图像特征向量进行级联融合得到融合特征向量；

执行模块405，用于将融合特征向量输入至分类模型中，得到分类结果。

在一些实施例中，融合模块具体用于对所述初步图像特征向量进行分级采样，得到多个级别的图像特征向量；分别对每个所述图像特征向量与所述文本特征向量进行注意力计算，得到对应各所述图像特征向量的双重交叉注意力权重；对所述初步图像特征向量与所有所述交叉注意力权重进行拼接，得到融合特征向量。

在一些实施例中，执行模块之后还包括第一优化模块，该第一优化模块用于获取与所述待分类文本对应的预设标签，所述预设标签指所述待分类文本的真实类别；根据所述分类结果和所述预设标签计算分类损失；根据所述分类损失更新所述分类模型的参数。

在一些实施例中，执行模块之后还包括第二优化模块，该第二优化模块用于将所述文本特征向量和所述初步图像特征向量映射到同一模态空间，得到所述文本特征向量和所述初步图像特征向量的对齐损失；将所述融合特征向量输入至文本重构模型，得到文本重构结果，根据所述文本重构结果得到文本重构损失；将所述融合特征向量输入至图像重构模型，得到重构图像，根据所述重构图像和所述特征图像得到图像重构损失；获取与所述待分类文本对应的预设标签，所述预设标签指所述待分类文本的真实类别，根据所述分类结果和所述预设标签计算分类损失；整合所述对齐损失、所述文本重构损失、所述图像重构损失和所述分类损失得到模型总损失；根据所述模型总损失更新所述分类模型的参数。

此外，在一些实施例中，第二优化模块具体用于将所述初步图像特征向量和所述文本特征向量输入至映射模型，得到多模态图像特征向量和多模态文本特征向量，其中所述多模态图像特征向量和所述多模态文本特征向量处于同一个模态空间；根据所述多模态图像特征向量和所述多模态文本特征向量通过均方差损失函数计算，得到对齐损失。

此外，在一些实施例中，第二优化模块具体还用于将所述融合特征向量输入至全连接层，得到加强融合特征向量；将所述加强融合特征向量输入至文本解码模型，得到文本重构特征向量；通过softmax激活函数对所述文本重构特征向量进行重构，得到所述文本重构特征向量对应的词汇以及所述词汇对应的概率作为文本重构结果；根据所述文本重构结果通过交叉熵函数计算，得到文本重构损失。

此外，在一些实施例中，第二优化模块具体还用于将所述融合特征向量输入至全连接层，得到加强融合特征向量；将所述加强融合特征向量输入至图像解码模型，得到图像重构特征向量；基于图像重构特征向量进行重构，得到重构图像；根据所述重构图像和所述特征图像通过均方差损失函数进行计算，得到图像重构损失。

图5是本申请实施例提供的电子设备5的示意图。如图5所示，该实施例的电子设备5包括：处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器501可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器502可以是电子设备5的内部存储单元，例如，电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备，例如，电子设备5上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质（例如计算机可读存储介质）中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类的方法，其特征在于，包括：

获取待分类文本以及与所述待分类文本对应的特征图像；

使用多模态预训练模型对所述待分类文本进行特征提取，得到文本特征向量；

使用图像识别模型对所述特征图像进行特征提取，得到初步图像特征向量；

基于所述文本特征向量对所述初步图像特征向量进行级联融合得到融合特征向量；

将所述融合特征向量输入至分类模型中，得到分类结果。

2.根据权利要求1所述的文本分类的方法，其特征在于，基于所述文本特征向量对所述初步图像特征向量进行级联融合得到融合特征向量，包括：

对所述初步图像特征向量进行分级采样，得到多个级别的图像特征向量；

分别对每个所述图像特征向量与所述文本特征向量进行注意力计算，得到对应各所述图像特征向量的双重交叉注意力权重；

对所述初步图像特征向量与所有所述交叉注意力权重进行拼接，得到融合特征向量。

3.根据权利要求1所述的文本分类的方法，其特征在于，在所述得到分类结果之后，还包括：

获取与所述待分类文本对应的预设标签，所述预设标签指所述待分类文本的真实类别；

根据所述分类结果和所述预设标签计算分类损失；

根据所述分类损失更新所述分类模型的参数。

4.根据权利要求1所述的文本分类的方法，其特征在于，在所述得到分类结果之后，还包括：

将所述文本特征向量和所述初步图像特征向量映射到同一模态空间，得到所述文本特征向量和所述初步图像特征向量的对齐损失；

将所述融合特征向量输入至文本重构模型，得到文本重构结果，根据所述文本重构结果得到文本重构损失；

将所述融合特征向量输入至图像重构模型，得到重构图像，根据所述重构图像和所述特征图像得到图像重构损失；

获取与所述待分类文本对应的预设标签，所述预设标签指所述待分类文本的真实类别，根据所述分类结果和所述预设标签计算分类损失；

整合所述对齐损失、所述文本重构损失、所述图像重构损失和所述分类损失得到模型总损失；

根据所述模型总损失更新所述分类模型的参数。

5.根据权利要求4所述的文本分类的方法，其特征在于，将所述文本特征向量和所述初步图像特征向量映射到同一模态空间，得到所述文本特征向量和所述初步图像特征向量的对齐损失，包括：

将所述初步图像特征向量和所述文本特征向量输入至映射模型，得到多模态图像特征向量和多模态文本特征向量，其中所述多模态图像特征向量和所述多模态文本特征向量处于同一个模态空间；

根据所述多模态图像特征向量和所述多模态文本特征向量通过均方差损失函数计算，得到对齐损失。

6.根据权利要求4所述的文本分类的方法，其特征在于，将所述融合特征向量输入至文本重构模型，得到文本重构结果，根据所述文本重构结果得到文本重构损失，包括：

将所述融合特征向量输入至全连接层，得到加强融合特征向量；

将所述加强融合特征向量输入至文本解码模型，得到文本重构特征向量；

通过softmax激活函数对所述文本重构特征向量进行重构，得到所述文本重构特征向量对应的词汇以及所述词汇对应的概率作为文本重构结果；

根据所述文本重构结果通过交叉熵函数计算，得到文本重构损失。

7.根据权利要求4所述的文本分类的方法，其特征在于，将所述融合特征向量输入至图像重构模型，得到重构图像，根据所述重构图像和所述特征图像得到图像重构损失，包括：

将所述加强融合特征向量输入至图像解码模型，得到图像重构特征向量；

基于所述图像重构特征向量进行重构，得到重构图像；

根据所述重构图像和所述特征图像通过均方差损失函数进行计算，得到图像重构损失。

8.一种文本分类的装置，其特征在于，包括：

获取模块，用于获取待分类文本以及与所述待分类文本对应的特征图像；

第一提取模块，使用多模态预训练模型对所述待分类文本进行特征提取，得到文本特征向量；

第二提取模块，使用图像识别模型对所述特征图像进行特征提取，得到初步图像特征向量；

融合模块，用于基于所述文本特征向量对所述初步图像特征向量进行级联融合得到融合特征向量；

执行模块，用于将所述融合特征向量输入至分类模型中，得到分类结果。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。