CN117435739A

CN117435739A - 图像文本分类的方法及装置

Info

Publication number: CN117435739A
Application number: CN202311765808.4A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-01-23
Anticipated expiration: 2043-12-21
Also published as: CN117435739B

Abstract

本公开涉及计算机视觉与自然语言处理技术领域，提供了一种图像文本分类的方法及装置。该方法包括：根据待识别文本和待识别图像进行对比学习，获取相似度特征向量；对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；分别利用注意力机制得到第一表示特征向量、第二表示特征向量、第三表示特征向量；将表示特征向量进行融合处理，得到第二图文融合特征向量；最后基于第二图文融合特征向量对待识别文本图像进行分类，得到待识别图像与文本的分类结果。解决了现有技术中存在当文本图像不匹配时图像干扰文本分类结果的问题，提高了文本分类结果的准确度。

Description

图像文本分类的方法及装置

技术领域

本公开涉及计算机视觉与自然语言处理技术领域，尤其涉及一种图像文本分类的方法及装置。

背景技术

文本分类是自然语言处理和文本挖掘中的一项重要任务。它的应用范围非常广泛，如情感分类、问题分类和欺骗检测。为了更好地理解文本，常常会加入图像，一方面丰富了文本内容，另一方面也有助于理解文本，带来更多的信息表示。但是借助于图像对文本进行分类理解时也可能出现文本图像不匹配的情况，这样导致图像影响了文本分类的准确度。

发明内容

有鉴于此，本公开实施例提供了一种图像文本分类的方法、装置、电子设备及可读存储介质，以解决现有技术中存在当文本图像不匹配时图像干扰文本分类结果的问题。

本公开实施例的第一方面，提供了一种图像文本分类的方法，包括：根据待识别文本和待识别图像进行对比学习，获取待识别文本与待识别图像之间的相似度特征向量；对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；对第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量；对待识别文本的第一特征向量待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量；对待识别图像的第一特征向量和待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量；对第一表示特征向量、第二表示特征向量、第三表示特征向量进行融合处理，得到第二图文融合特征向量；基于第二图文融合特征向量对待识别文本进行分类，得到待识别文本的分类结果，分类结果用于指代待识别文本的对象的类别结果。

本公开实施例的第二方面，提供了一种图像文本分类的装置，包括：对比学习模块，用于根据待识别文本和待识别图像进行对比学习，获取待识别文本与待识别图像之间的相似度特征向量；第一融合模块，用于对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；第一注意力处理模块，用于对第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量；第二注意力处理模块，用于对待识别文本的第一特征向量和待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量；第三注意力处理模块，用于对待识别图像的第一特征向量和待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量；第二融合模块，用于对第一表示特征向量、第二表示特征向量、第三表示特征向量进行融合处理，得到第二图文融合特征向量；分类模块，用于基于第二图文融合特征向量对待识别文本进行分类，得到待识别文本的分类结果，分类结果用于指代待识别文本的对象的类别结果。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：将待识别文本和待识别图像进行对比学习，通过对比学习获取待识别文本和待识别图像之间的相似度特征向量，相似度特征向量能够表示待识别图像和待识别文本之间的联合关系，再将待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量，将不同模态的数据拼接结合起来，从而获得更丰富、更全面的信息表示。再将第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量。通过编码处理使得第一图文融合特征向量在进行注意力处理之前可以具备更好的可处理性，能够更方便地被图像文本分类网络所接受和处理；后面通过注意力处理可以融合与表达图像信息和文本信息，使得对一些重要的信息能够更加的关注。相应地，通过注意力机制，计算图像和文本之间的相关性，得到第二表示特征向量和第三表示特征向量。再接着，将第一表示特征向量、第二表示特征向量、第三表示特征向量进行拼接融合处理，得到第二图文融合特征向量，再基于第二图文融合特征向量对待识别文本进行分类，得到分类结果。本公开提出的方法考虑了图像文本之间的相似度特征，计算图像和文本之间的相似度，所以在出现图文不匹配的时候，也能使用该方法对待识别文本进行分类，解决了现有技术中存在当文本图像不匹配时图像干扰文本分类结果的问题，提高了文本分类结果的准确度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种图像文本分类的方法的流程示意图；

图3是本公开实施例提供的另一种图像文本分类的方法的流程示意图；

图4是本公开实施例提供的再一种图像文本分类的方法的流程示意图；

图5是本公开实施例提供的一种图像文本分类装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种图像文本分类的方法和装置。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本公开实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。具体地，服务器4可以根据待识别文本和待识别图像进行对比学习，获取相似度特征向量；对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；分别利用注意力机制得到第一表示特征向量、第二表示特征向量、第三表示特征向量；将表示特征向量进行融合处理，得到第二图文融合特征向量；最后基于第二图文融合特征向量对待识别文本图像进行分类，得到待识别图像与文本的分类结果。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种图像文本分类的方法的流程示意图。图2的图像文本分类方法可以由图1的终端或服务器执行。如图2所示，该图像文本分类方法包括：

步骤201，根据待识别文本和待识别图像进行对比学习，获取待识别文本与待识别图像之间的相似度特征向量。

在一些实施例中，待识别文本和待识别图像可以是一篇新闻报道中的文字与图像。对比学习主要通过对比不同样本的相似性和差异性来学习。对于两个不同的样本，若上述两个样本在某个特征空间中距离相近，则判定它们是相似的。本公开提供了一种图像文本分类网络，通过该网络可以对图像文本进行分类，该网络包括图文特征对比学习模块，通过图文特征对比学习模块，可以计算待识别文本和待识别图像之间的相似度，可以得到待识别文本和待识别图像之间的相似度特征向量。

在一些实施例中，待识别文本和待识别图像是两种不同的信息载体，它们之间存在着一定的互补性。通过获取待识别文本和待识别图像之间的相似度特征向量，可以有效地将文本和图像的信息融合在一起，从而得到更全面、更丰富的信息，进一步理解和表达文本和图像所表达的语义信息。

步骤202，对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量。

具体地，对待识别文本进行特征提取，得到待识别文本的第一特征向量；对待识别图像进行特征提取，得到待识别图像的第一特征向量。例如，待识别图像的第一特征向量可以用于描述图像特征，例如图像特征可以包括颜色、纹理、形状等等；待识别文本的第一特征向量文本可以用于描述文本特征，例如文本特征可以包括词频、词向量、语义特征等等。文本和图像是不同模态的信息，将待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行拼接融合处理可以将多源信息整合在一起，从而得到更准确、更真实，更丰富、更全面的信息。

步骤203，对第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量。

具体地，第一图文融合特征向量包含待识别图像和待识别文本的共同特征，对第一图文融合特征向量进行编码处理，比如标准化归一化等，从而使得后续步骤包括对其进行自注意力处理等能够更加顺利地进行。通过编码处理，将第一图文融合特征向量转换为图像文本分类网络可以识别的形式，然后利用图像文本分类网络对第一图文融合特征向量进行注意力处理，得到更准确的结果。

在一些实施例中，注意力处理可以理解为对输入的信息进行选择和优先处理的过程，注意力机制可以帮助模型对信息进行有效的处理，比如在一些情况下，文本信息可能更为重要，而在另一些情况下，图像信息可能更为关键，注意力机制可以根据输入特征向量，进行权重的分配和调整，从而图像文本分类网络对一些重要的特征进行更多的关注和处理，从而使得图像文本分类网络能够更好地学习和表示图像文本特征。

步骤204，对待识别文本的第一特征向量和待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量。

具体地，待识别图像对应的文本特征向量可以通过对待识别图像的第一特征向量进行文本解码得到，对待识别图像的第一特征向量进行文本解码是一种跨模态生成过程，基于文本解码器将图像特征向量映射为自然语言序列特征，通过解码器中可以捕捉到待识别图像的特征，并生成与图像相关的文本特征向量，即待识别图像对应的文本特征向量。

对待识别文本的第一特征向量和待识别图像对应的文本特征向量进行注意力处理，将待识别文本的第一特征向量和待识别图像对应的文本特征向量作为输入，并计算出两者之间的权重关系，计算待识别文本的第一特征向量和待识别图像对应的文本特征向量的相似度关系，从而得到更加准确的特征表示，即第二表示特征向量。

步骤205，对待识别图像的第一特征向量和待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量。

具体地，待识别文本对应的图像特征向量可以通过对待识别文本的第一特征向量经过图像解码得到，通过图像解码器生成与输入文本特征向量相对应的图片特征向量，从而实现了从文本特征到图像特征的跨模态转换。

将待识别图像的第一特征向量和待识别文本对应的图像特征向量进行注意力处理是将待识别图像的第一特征向量和待识别文本对应的图像特征向量输入到图像文本分类网络的注意力层，并计算两者之间的权重关系，计算待识别图像的第一特征向量和待识别文本对应的图像特征向量之间的相似度，输出得到更加准确的特征表示，即第三表示特征向量。

步骤206，对第一表示特征向量、第二表示特征向量和第三表示特征向量进行融合处理，得到第二图文融合特征向量。

具体地，对第一表示特征向量、第二表示特征向量、第三表示特征向量进行融合处理为特征拼接过程，将多个特征进行拼接，可以捕捉到更多的信息，当某些特征失效时，其他特征可以弥补其不足，从而提高模型的鲁棒性；同时，通过将不同特征进行拼接，可以将它们的信息融合起来，提供更多的输入数据，可以增加模型的学习能力，提高模型的性能，以便得到更好的分类结果。

步骤207，基于第二图文融合特征向量对待识别文本进行分类，得到待识别文本的分类结果，分类结果用于指代待识别文本的对象的类别结果。

具体地，上述图像文本分类网络还包括激活函数网络层和全连接层，将第二图文融合特征向量输入到激活函数的网络层，通过该激活函数的网络层进行融合特征，得到相应的输出，再将该输出输入至全连接层，得到图像文本的最终分类结果，分类结果用于指代待识别文本的对象的类别结果，上述激活函数可以为ReLU激活函数。

在相关技术中，文本图像分类是自然语言处理和文本挖掘中的一项重要任务，它的应用范围非常广泛，如情感分类、问题分类和欺骗检测。但在现实的应用场景中，常常会出现图像文本不匹配的情况。比如许多营销号在发布信息时，常常会从网络上爬取一些图片用于丰富信息内容，这种图片往往与文本信息不符合，最终使得关于该篇信息的分类不准确。本公开针对上述问题，提供了一种图像文本分类网络，将待识别文本和待识别图像进行对比学习，通过对比学习获取待识别文本和待识别图像之间的相似度特征向量，相似度特征向量能够表示待识别图像和待识别文本之间的联合关系，再将待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量，将不同模态的数据拼接结合起来，从而获得更丰富、更全面的信息表示。再将第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量。通过编码处理使得第一图文融合特征向量在进行注意力处理之前可以具备更好的可处理性，能够更方便地被图像文本分类网络所接受和处理；后面通过注意力处理可以融合与表达图像信息和文本信息，使得对一些重要的信息能够更加的关注。相应地，通过注意力机制，计算图像和文本之间的相关性，得到第二表示特征向量和第三表示特征向量。再接着，将第一表示特征向量、第二表示特征向量、第三表示特征向量进行拼接融合处理，得到第二图文融合特征向量，再基于第二图文融合特征向量对待识别文本进行分类，得到分类结果。本公开提出的方法考虑了图像文本之间的相似度特征，计算图像和文本之间的相似度，所以在出现图文不匹配的时候，也能使用该方法对待识别文本进行分类，解决了现有技术中存在当文本图像不匹配时图像干扰文本分类结果的问题，提高了文本分类的准确性。

在一些实施例中，根据待识别文本和待识别图像进行对比学习，获取待识别文本与待识别图像之间的相似度特征向量，包括：将待识别文本输入第一文本识别模型进行特征提取，得到待识别文本的第二特征向量；将待识别图像输入字符识别模型进行字符提取，得到待识别图像的文本；将待识别图像的文本输入第二文本识别模型进行特征提取，得到待识别图像的文本的特征向量；将待识别图像输入图像识别模型进行特征提取，得到待识别图像的特征向量；将待识别图像的特征向量和待识别图像的文本的特征向量进行拼接，得到待识别图像的第二特征向量；基于待识别文本的第二特征向量和待识别图像的第二特征向量，确定待识别文本和待识别图像之间的相似度特征向量。

具体地，第一文本识别模型和第二文本识别模型可以用于提取待识别文本的特征，例如，Bert模型或者对比语言－图像预训练（Contrastive Language-Image Pre-Training，CLIP）模型。在本公开实施例中，可以将对比语言－图像预训练模型设置为文本识别模型。CLIP模型是一种基于对比学习的多模态模型，通过文本－图像对模型进行训练，使得模型学习到文本－图像对的匹配关系。CLIP模型包含两个部分：图像编码器和文本编码器，其中文本编码器用于提取文本的特征，图像编码器用于提取图像的特征，例如通过CLIP模型中的文本编码器可以对待识别文本进行特征提取，得到待识别文本的第二特征向量。

具体地，字符识别模型是一种基于深度学习的技术，通过字符识别模型可以将图像中的文字转换为可以编辑和可以搜索的文本格式。在一些实施例中，待识别图像上有一些字符，待识别图像中的字符与图像一起构成了待识别图像，字符与图像都传达表示信息。通过字符识别模型对待识别图像上的字符进行字符提取，从而得到待识别图像的文本。对图像上的字符进行字符提取主要可以分为三个大步骤：预处理、图像分割、文字识别。预处理主要包括对待识别图像进行灰度化、二值化、噪声去除以及倾斜矫正等等；图像分割也可以成为文字切分，在待识别图像中的字符为一段多行文本的情况下，文字切分包含了行切分与字符切分两个步骤；最后是文字识别，将切分后得到的小块图片进行特征提取得到文字的特征向量，再将图片扫描的文字提取的特征向量与特征模板库进行模板粗分类和模板细匹配，识别出字符，得到待识别图像的文本。再将待识别图像的文本输入第二文本识别模型进行特征提取，得到待识别图像的文本的特征向量。

具体地，图像识别模型在本公开中可以用于提取待识别图像的特征，例如，卷积神经网络或者对比语言－图像预训练模型。在本公开的实施例中，可以将对比语言－图像预训练模型设置为图像识别模型，通过对比语言－图像预训练模型中的图像编码器将待识别图像的文本进行特征提取，得到待识别图像的文本的特征向量。对待识别图像进行特征提取并将其转化为特征向量，可以提高图像处理任务的效率和精度，同时方便计算机理解与处理图像信息。

在一些实施例中，待识别图像中包括图像和字符，对待识别图像进行处理可以获取图像和字符。将待识别图像的特征向量和待识别图像的文本的特征向量进行拼接，将待识别图像的特征向量和待识别图像的文本的特征向量融合起来，得到更加全面的特征向量，即待识别图像的第二特征向量。

将待识别文本的第二特征向量和待识别图像的第二特征向量进行比较，计算两者之间的相似度，根据计算出的相似度确定待识别文本和待识别图像之间的相似度特征向量。相似度特征向量可以用于表示输入的待识别图像和待识别文本之间的相似度，从而支持后续的跨模态信息处理任务。

在一些实施例中，基于待识别文本的第二特征向量和待识别图像的第二特征向量，确定待识别文本和待识别图像之间的相似度特征向量，包括：通过第一文本编码器对待识别文本的第二特征向量进行编码处理，得到待识别文本的第一编码结果；通过图像编码器对待识别图像的第二特征向量进行编码处理，得到待识别图像的第一编码结果；根据待识别文本的第一编码结果和待识别图像的第一编码结果，确定待识别文本和待识别图像之间的相似度特征向量。

具体地，第一文本编码器用于对待识别文本的第二特征向量进行编码处理，第一文本编码器可以是深度学习模型中的循环神经网络或者转换器（transformer）模型等等。通过第一文本编码器进行编码处理后得到待识别文本的第一编码结果，该编码结果可以更全面地表示待识别文本的特征。图像编码器用于对待识别图像的第二特征向量进行编码处理，图像编码器包括但不限于卷积神经网络、视觉转换器（vision transformer）模型等等，通过图像编码器进行编码处理后得到待识别图像的第一编码结果，该编码结果可以更全面的表示待识别图像的特征。并且，得到的待识别文本的第一编码结果和待识别图像的第一编码结果处于同一向量空间，从而有利于更好地计算待识别文本的第一编码结果和待识别图像的第一编码结果之间的相似度，得到待识别图像和待识别文本之间的相似度，根据待识别图像和待识别文本之间的相似度，得到待识别文本和待识别图像之间的相似度特征向量。

在一些实施例中，上述图文特征对比学习模块300可以包括字符识别模型301、第二文本识别模型302、图像识别模型303、特征拼接模块304、图像编码器305、第一文本识别模型306、第一文本编码器307，其结构如图3所示，将待识别文本输入第一文本识别模型306进行特征提取，得到待识别文本的第二特征向量，将待识别图像输入字符识别模型301进行字符提取，得到待识别图像的文本，将待识别图像的文本输入第二文本识别模型302进行特征提取，得到待识别图像的文本的特征向量，再将待识别图像输入图像识别模型303进行特征提取，得到待识别图像的特征向量，将待识别图像的特征向量和待识别图像的文本的特征向量输入特征拼接模块304进行特征拼接，得到待识别图像的第二特征向量。通过第一文本编码器307对待识别文本的第二特征向量进行编码处理，得到待识别文本的第一编码结果，通过图像编码器305对待识别图像的第二特征向量进行编码处理，得到待识别图像的第一编码结果；根据待识别文本的第一编码结果和待识别图像的第一编码结果，确定待识别文本和待识别图像之间的相似度特征向量。

在一些实施例中，对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理之前，还包括：通过第二文本编码器对待识别文本进行特征提取，得到待识别文本的第一特征向量；通过visiontransformer对待识别图像进行特征提取，得到待识别图像的第一特征向量。

具体地，第二文本编码器在本公开中可以对待识别文本进行特征提取，得到待识别文本的第一特征向量。第二文本编码器可以是基于Transformer模型的文本编码器，将待识别文本输入基于Transformer模型的文本编码器，将待识别文本中的每个词语或单词映射为一个向量，经过Transformer模型的多头注意力机制和全连接层进行处理，捕捉待识别文本之间的关系，将待识别文本转换为一定维度的待识别文本的第一特征向量，从而有利于后续的特征向量融合处理乃至文本分类。

具体地，vision transformer是一种深度学习模型，应用于图像，可以将图像转换为特征向量。基于vision transformer，将待识别图像划分切割为N个图像块，每个图像块被映射为一个向量，将这些向量输入至vision transformer中，经过多个注意力机制和全连接层处理后，得到述待识别图像的第一特征向量。通过视觉转换器模型可以捕捉到待识别图像的全局信息以及重要信息，从而更好地理解和表示待识别图像，得到的待识别图像的第一特征向量有利于后续的特征向量融合处理。

在一些实施例中，对第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量，包括：通过编码器对第一图文融合特征向量进行编码处理，得到第一图文融合特征向量的编码结果；将第一图文融合特征向量的编码结果进行自注意力处理，计算得到注意力权重，根据注意力权重进行加权求和，得到第一表示特征向量。

具体地，上述编码器可以设置为基于转换器模型的编码器，第一图文融合特征向量包含了待识别图像的特征以及待识别文本的特征以及待识别文本与待识别图像之间的共同特征，对第一图文融合特征向量进行编码处理，例如标准化归一化等，可以将第一图文融合特征向量转换为图像文本分类网络更易接受的形式，从而可以利用图像文本分类网络对第一图文融合特征向量进行后续的自注意力处理。

自注意力机制目的注意到整个输入中各个部分之间的相关性。在一些实施例中，将第一图文融合特征向量的编码结果进行线性映射，得到相应的查询向量、键向量和值向量，再将查询向量和键向量相乘并传递给softmax函数进行归一化处理，可以得到注意力权重，再将注意力权重与值向量相乘进行加权求和，最后输出得到第一表示特征向量。通过自注意力处理可以学习第一图文融合特征向量它本身之间的关联性，对一些重要的特征进行更多的关注和处理，从而使得模型能够更好地学习和表示特征。

在一些实施例中，对待识别文本的第一特征向量和待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量，包括：通过文本解码器对待识别图像的第一特征向量进行解码处理，得到待识别图像对应的文本特征向量；将待识别文本的第一特征向量作为键向量与值向量将待识别图像对应的文本特征向量作为查询向量进行交叉注意力处理，得到第二表示特征向量。

具体地，文本解码器可以设置为基于转换器模型的文本解码器，它可以将输入的图像特征转化为解码后的文本特征，是一种跨模态的生成过程，基于文本解码器将图像特征向量映射为自然语言序列特征，通过解码器中可以捕捉到待识别图像的特征，并生成与图像相关的文本特征向量，即待识别图像对应的文本特征向量。将待识别文本的第一特征向量作为键向量和值向量，将待识别图像对应的文本特征向量作为查询向量，将查询向量和键向量相乘并传递给softmax函数进行归一化处理，得到注意力权重，再将注意力权重与值向量相乘进行加权求和，最后输出得到第二表示特征向量。计算待识别文本的第一特征向量和待识别图像对应的文本特征向量的相似度关系，从而得到更加准确的特征表示即第二表示特征向量。

在一些实施例中，对待识别图像的第一特征向量和待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量，包括：通过图像解码器对待识别文本的第一特征向量进行解码处理，得到待识别文本对应的图像特征向量；将待识别图像的第一特征向量作为键向量与值向量将待识别文本对应的图像特征向量作为查询向量进行交叉注意力处理，得到第三表示特征向量。

具体地，图像解码器可以设置为基于转换器模型的图像解码器，它可以将输入的文本特征转化为解码后的图像特征，是一种跨模态的生成过程，基于图像解码器将自然语言序列特征向量映射为图像特征，通过解码器中可以捕捉到待识别文本的特征，并生成与文本相关的图像特征向量，即待识别文本对应的图像特征向量。将待识别图像的第一特征向量作为键向量和值向量，将待识别文本对应的图像特征向量作为查询向量，将查询向量和键向量相乘并传递给softmax函数进行归一化处理，得到注意力权重，再将注意力权重与值向量相乘进行加权求和，最后输出得到第三表示特征向量。计算待识别图像的第一特征向量和待识别文本对应的图像特征向量的相似度关系，从而得到更加准确的特征表示即第三表示特征向量。

在一些实施例中，图像文本分类网络主要由以下结构构成，图文特征对比学习模块300、视觉转换器模型402、第二文本编码器403、特征拼接模块404、编码器405、文本解码器406、交叉注意力处理模块407、图像解码器408、交叉注意力处理409、自注意力处理模块410、融合处理模块411，如图4所示。通过第二文本编码器403对待识别文本进行特征提取，得到待识别文本的第一特征向量，通过视觉转换器模型402对待识别图像进行特征提取，得到待识别图像的第一特征向量，将待识别文本和待识别图像通过图文特征对比学习模块300进行对比学习，获取待识别文本与待识别图像之间的相似度特征向量；将待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量输入至特征拼接模块406进行特征拼接，得到第一图文融合特征向量。通过编码器405对第一图文融合特征向量进行编码处理，得到第一图文融合特征向量的编码结果；将第一图文融合特征向量的编码结果输入自注意力处理模块410进行自注意力处理，计算得到注意力权重，根据注意力权重进行加权求和，得到第一表示特征向量。通过文本解码器406对待识别图像的第一特征向量进行解码处理，得到待识别图像对应的文本特征向量；将待识别文本的第一特征向量作为键向量与值向量将待识别图像对应的文本特征向量作为查询向量输入交叉注意力处理模块407进行交叉注意力处理，得到第二表示特征向量。通过图像解码器408对待识别文本的第一特征向量进行解码处理，得到待识别文本对应的图像特征向量；将待识别图像的第一特征向量作为键向量与值向量将待识别文本对应的图像特征向量作为查询向量输入交叉注意力处理模块409进行交叉注意力处理，得到第三表示特征向量。接着将第一表示特征向量、第二表示特征向量、第三表示特征向量输入融合处理模块411进行融合处理，得到第二图文融合特征向量；最后基于第二图文融合特征向量对待识别文本进行分类，得到待识别文本的分类结果，分类结果用于指代待识别文本的对象的类别结果。

在一些实施例中，根据待识别文本和待识别图像进行对比学习之前，还包括：获取对比学习训练集，对比学习训练集包括多张图像、多条文本、多张图像对应的标签和多条文本对应的标签，其中图像对应的标签用于指示图像所属的对象，文本对应的标签用于指示文本所属的对象；其中存在图像对应的标签和文本对应的标签相同的情况；基于对比学习训练集，利用对比损失函数对待训练的对比学习模型进行训练，得到目标损失值；在目标损失值小于或等于预设值的情况下，得到训练完成的对比学习模型。

具体地，此过程为图像文本分类网络中的对比学习模型的训练过程。通过上述对比损失函数，对于两个标签相同的样本，使得它们在特征空间内的距离尽可能地近，对于两个标签不同的样本，使得它们在特征空间内的距离尽可能地远。通过上述对比损失函数计算得到目标损失值，直至目标损失值小于或等于预设值的情况下，得到训练完成的对比学习模型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种图像文本分类装置的示意图。如图5所示，该图像文本分类装置包括：

对比学习模块501，用于根据待识别文本和待识别图像进行对比学习，获取待识别文本与待识别图像之间的相似度特征向量；

第一融合模块502，用于对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；

第一注意力处理模块503，用于对第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量；

第二注意力处理模块504，用于对待识别文本的第一特征向量和待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量；

第三注意力处理模块505，用于对待识别图像的第一特征向量和待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量；

第二融合模块506，用于对第一表示特征向量、第二表示特征向量、第三表示特征向量进行融合处理，得到第二图文融合特征向量；

分类模块507，用于基于第二图文融合特征向量对待识别文本进行分类，得到待识别文本的分类结果，分类结果用于指代待识别文本的对象的类别结果。

根据本公开实施例提供的技术方案，通过对比学习模块501将待识别文本和待识别图像进行对比学习，通过对比学习获取待识别文本和待识别图像之间的相似度特征向量，相似度特征向量能够表示待识别图像和待识别文本之间的联合关系，再通过第一融合模块502将待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量，将不同模态的数据拼接结合起来，从而获得更丰富、更全面的信息表示。再通过第一注意力处理模块503将第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量。通过编码处理使得第一图文融合特征向量在进行注意力处理之前可以具备更好的可处理性，能够更方便地被图像文本分类网络所接受和处理；后面通过注意力处理可以融合与表达图像信息和文本信息，使得对一些重要的信息能够更加的关注。相应地，通过第二注意力处理模块504、第三注意力处理模块505的注意力机制，计算图像和文本之间的相关性，得到第二表示特征向量和第三表示特征向量。再接着，通过第二融合模块506将第一表示特征向量、第二表示特征向量、第三表示特征向量进行拼接融合处理，得到第二图文融合特征向量，再通过分类模块507基于第二图文融合特征向量对待识别文本进行分类，得到分类结果。本公开提出的方法考虑了图像文本之间的相似度特征，计算图像和文本之间的相似度，所以在出现图文不匹配的时候，也能使用该方法对待识别文本进行分类，解决了现有技术中存在当文本图像不匹配时图像干扰文本分类结果的问题.

在一些实施例中，对比学习模块具体用于，将待识别文本输入文本识别模型进行特征提取，得到待识别文本的第二特征向量；将待识别图像输入字符识别模型进行字符提取，得到待识别图像的文本；将待识别图像的文本输入文本识别模型进行特征提取，得到待识别图像的文本的特征向量；将待识别图像输入图像识别模型进行特征提取，得到待识别图像的特征向量；将待识别图像的特征向量和待识别图像的文本的特征向量进行拼接，得到待识别图像的第二特征向量；基于待识别文本的第二特征向量和待识别图像的第二特征向量，确定待识别文本和待识别图像之间的相似度特征向量。

在一些实施例中，对比学习模块包括编码单元，具体用于，包括：通过第一文本编码器对待识别文本的第二特征向量进行编码处理，得到待识别文本的第一编码结果；通过图像编码器对待识别图像的第二特征向量进行编码处理，得到待识别图像的第一编码结果；根据待识别文本的第一编码结果和待识别图像的第一编码结果，确定待识别文本和待识别图像之间的相似度特征向量。

在一些实施例中，还包括特征提取模块，用于对待识别文本与待识别图像之间的相似度特征向量、待识别图像的第一特征向量、以及待识别文本的第一特征向量进行融合处理之前：通过第二文本编码器对待识别文本进行特征提取，得到待识别文本的第一特征向量；通过视觉转换器模型对待识别图像进行特征提取，得到待识别图像的第一特征向量。

在一些实施例中，第一注意力处理模块具体用于，通过编码器对第一图文融合特征向量进行编码处理，得到第一图文融合特征向量的编码结果；将第一图文融合特征向量的编码结果进行自注意力处理，计算得到注意力权重，根据注意力权重进行加权求和，得到第一表示特征向量。

在一些实施例中，第二注意力处理模块具体用于，通过文本解码器对待识别图像的第一特征向量进行解码处理，得到待识别图像对应的文本特征向量；将待识别文本的第一特征向量作为键向量与值向量将待识别图像对应的文本特征向量作为查询向量进行交叉注意力处理，得到第二表示特征向量。

在一些实施例中，第三注意力处理模块具体用于，通过图像解码器对待识别文本的第一特征向量进行解码处理，得到待识别文本对应的图像特征向量；将待识别图像的第一特征向量作为键向量与值向量将待识别文本对应的图像特征向量作为查询向量进行交叉注意力处理，得到第三表示特征向量。

在一些实施例中，还包括训练模块，用于根据待识别文本和待识别图像进行对比学习之前，获取对比学习训练集，对比学习训练集包括多张图像、多条文本、多张图像对应的标签和多条文本对应的标签，其中图像对应的标签用于指示图像所属的对象，文本对应的标签用于指示文本所属的对象；其中存在图像对应的标签和文本对应的标签相同的情况；基于对比学习训练集，利用对比损失函数对待训练的对比学习模型进行训练，得到目标损失值；在目标损失值小于或等于预设值的情况下，得到训练完成的对比学习模型。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图6是本公开实施例提供的电子设备6的示意图。如图6所示，该实施例的电子设备6包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。

电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器601可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器602可以是电子设备6的内部存储单元，例如，电子设备6的硬盘或内存。存储器602也可以是电子设备6的外部存储设备，例如，电子设备6上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质（例如计算机可读存储介质）中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种图像文本分类的方法，其特征在于，包括：

根据待识别文本和待识别图像进行对比学习，获取所述待识别文本与所述待识别图像之间的相似度特征向量；

对所述待识别文本与所述待识别图像之间的相似度特征向量、所述待识别图像的第一特征向量、以及所述待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；

对所述第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量；

对所述待识别文本的第一特征向量和所述待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量；

对所述待识别图像的第一特征向量和所述待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量；

对所述第一表示特征向量、所述第二表示特征向量、所述第三表示特征向量进行融合处理，得到第二图文融合特征向量；

基于所述第二图文融合特征向量对所述待识别文本进行分类，得到所述待识别文本的分类结果，所述分类结果用于指代所述待识别文本的对象的类别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据待识别文本和待识别图像进行对比学习，获取所述待识别文本与所述待识别图像之间的相似度特征向量，包括：

将所述待识别文本输入第一文本识别模型进行特征提取，得到所述待识别文本的第二特征向量；

将所述待识别图像输入字符识别模型进行字符提取，得到所述待识别图像的文本；

将所述待识别图像的文本输入第二文本识别模型进行特征提取，得到所述待识别图像的文本的特征向量；

将所述待识别图像输入图像识别模型进行特征提取，得到所述待识别图像的特征向量；

将所述待识别图像的特征向量和所述待识别图像的文本的特征向量进行拼接，得到所述待识别图像的第二特征向量；

基于所述待识别文本的第二特征向量和所述待识别图像的第二特征向量，确定所述待识别文本和所述待识别图像之间的所述相似度特征向量。

3.根据权利要求2所述的方法，其特征在于，所述基于所述待识别文本的第二特征向量和所述待识别图像的第二特征向量，确定所述待识别文本和所述待识别图像之间的所述相似度特征向量，包括：

通过第一文本编码器对所述待识别文本的第二特征向量进行编码处理，得到所述待识别文本的第一编码结果；

通过图像编码器对所述待识别图像的第二特征向量进行编码处理，得到所述待识别图像的第一编码结果；

根据所述待识别文本的第一编码结果和所述待识别图像的第一编码结果，确定所述待识别文本和所述待识别图像之间的所述相似度特征向量。

4.根据权利要求1所述的方法，其特征在于，所述对所述待识别文本与所述待识别图像之间的相似度特征向量、所述待识别图像的第一特征向量、以及所述待识别文本的第一特征向量进行融合处理之前，还包括：

通过第二文本编码器对所述待识别文本进行特征提取，得到所述待识别文本的第一特征向量；

通过视觉转换器模型对所述待识别图像进行特征提取，得到所述待识别图像的第一特征向量。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量，包括：

通过编码器对所述第一图文融合特征向量进行编码处理，得到所述第一图文融合特征向量的编码结果；将所述第一图文融合特征向量的编码结果进行自注意力处理，计算得到注意力权重，根据所述注意力权重进行加权求和，得到所述第一表示特征向量。

6.根据权利要求1所述的方法，其特征在于，所述对所述待识别文本的第一特征向量和所述待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量，包括：

通过文本解码器对所述待识别图像的第一特征向量进行解码处理，得到所述待识别图像对应的文本特征向量；

将所述待识别文本的第一特征向量作为键向量与值向量将所述待识别图像对应的文本特征向量作为查询向量进行交叉注意力处理，得到所述第二表示特征向量；

所述对所述待识别图像的第一特征向量和所述待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量，包括：

通过图像解码器对所述待识别文本的第一特征向量进行解码处理，得到所述待识别文本对应的图像特征向量；

将所述待识别图像的第一特征向量作为键向量与值向量将所述待识别文本对应的图像特征向量作为查询向量进行交叉注意力处理，得到所述第三表示特征向量。

7.根据权利要求1所述的方法，其特征在于，所述根据待识别文本和待识别图像进行对比学习之前，还包括：

获取对比学习训练集，所述对比学习训练集包括多张图像、多条文本、多张所述图像对应的标签和多条所述文本对应的标签，其中所述图像对应的标签用于指示所述图像所属的对象，所述文本对应的标签用于指示所述文本所属的对象；其中存在所述图像对应的标签和所述文本对应的标签相同的情况；

基于所述对比学习训练集，利用对比损失函数对待训练的对比学习模型进行训练，得到目标损失值；

在所述目标损失值小于或等于预设值的情况下，得到训练完成的对比学习模型。

8.一种图像文本分类装置，其特征在于，包括：

对比学习模块，用于根据待识别文本和待识别图像进行对比学习，获取所述待识别文本与所述待识别图像之间的相似度特征向量；

第一融合模块，用于对所述待识别文本与所述待识别图像之间的相似度特征向量、所述待识别图像的第一特征向量、以及所述待识别文本的第一特征向量进行融合处理，得到第一图文融合特征向量；

第一注意力处理模块，用于对所述第一图文融合特征向量进行编码处理和注意力处理，得到第一表示特征向量；

第二注意力处理模块，用于对所述待识别文本的第一特征向量和所述待识别图像对应的文本特征向量进行注意力处理，得到第二表示特征向量；

第三注意力处理模块，用于对所述待识别图像的第一特征向量和所述待识别文本对应的图像特征向量进行注意力处理，得到第三表示特征向量；

第二融合模块，用于对所述第一表示特征向量、所述第二表示特征向量、所述第三表示特征向量进行融合处理，得到第二图文融合特征向量；

分类模块，用于基于所述第二图文融合特征向量对所述待识别文本进行分类，得到所述待识别文本的分类结果，所述分类结果用于指代所述待识别文本的对象的类别结果。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。