CN117893861A

CN117893861A - 一种图文处理方法及装置

Info

Publication number: CN117893861A
Application number: CN202311794995.9A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-04-16

Abstract

本公开涉及图文处理技术领域，提供了一种图文处理方法及装置。该方法包括：对文本数据和图像数据进行特征提取，得到对应的特征向量；对文本数据对应的特征向量和图像数据对应的全局特征向量进行多模态融合，再以分区的方式对图像数据进行特征提取并预测分类，得到多个分类结果文本特征向量；对两种向量进行多模态融合，得到局部图文融合特征向量；对全局图文融合特征向量和局部图文融合特征向量进行特征拼接，并进行自注意力学习，得到图文匹配特征向量，提升了对大规模图片数据和文本数据多模态表征的学习效果，解决了由于视觉特征和文本特征的维度不同，导致提升了模态编码器学习图像与文本之间的交互难度的问题。

Description

一种图文处理方法及装置

技术领域

本公开涉及图文处理技术领域，尤其涉及一种图文处理方法及装置。

背景技术

在各种视觉语言和图文处理任务中，大规模视觉和语言表征学习都效果显著。常规情况下，大多采用基于Transformer的多模态编码器，对图像特征和文本特征进行联合建模。但是由于视觉特征和文本特征是不对齐的，导致多模态编码器学习图像与文本之间的交互具有难度，常规方法是通过多模态编码器将图像特征与文本特征融合在一起，但广泛使用的图像和文本数据集来自于网络，本身存在噪声过大或者文本描述不详尽等情况。

由此可见，现有技术中存在由于视觉特征和文本特征的维度不同，导致提升了模态编码器学习图像与文本之间的交互难度的问题。

发明内容

有鉴于此，本公开实施例提供了一种图文处理方法及装置，以解决现有技术中由于视觉特征和文本特征的维度不同，导致提升了模态编码器学习图像与文本之间的交互难度的问题。

本公开实施例的第一方面，提供了一种图文处理方法，包括：获取待识别对象的数据，待识别对象的数据包含文本数据和图像数据，对文本数据进行特征提取，得到文本数据对应的特征向量，对图像数据进行特征提取，得到图像数据对应的全局特征向量；对文本数据对应的特征向量和图像数据对应的全局特征向量进行多模态融合，得到待识别对象的数据对应的全局图文融合特征向量；以分区的方式对图像数据进行特征提取，得到图像数据对应的多个局部图片特征向量；对图像数据对应的多个局部图片特征向量进行预测分类，得到图像数据对应的多个分类结果文本数据；对图像数据对应的多个分类结果文本数据进行特征提取，得到图像数据对应的多个分类结果文本特征向量；对图像数据对应的多个局部图片特征向量和图像数据对应的多个分类结果文本特征向量进行多模态融合，得到待识别对象的数据对应的局部图文融合特征向量；对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量。

本公开实施例的第二方面，提供了一种图文处理装置，包括：获取模块，用于获取待识别对象的数据，待识别对象的数据包含文本数据和图像数据，对文本数据进行特征提取，得到文本数据对应的特征向量，对图像数据进行特征提取，得到图像数据对应的全局特征向量；第一处理模块，用于对文本数据对应的特征向量和图像数据对应的全局特征向量进行多模态融合，得到待识别对象的数据对应的全局图文融合特征向量；第二处理模块，用于以分区的方式对图像数据进行特征提取，得到图像数据对应的多个局部图片特征向量；第三处理模块，用于对图像数据对应的多个局部图片特征向量进行预测分类，得到图像数据对应的多个分类结果文本数据；第四处理模块，用于对图像数据对应的多个分类结果文本数据进行特征提取，得到图像数据对应的多个分类结果文本特征向量；第五处理模块，用于对图像数据对应的多个局部图片特征向量和图像数据对应的多个分类结果文本特征向量进行多模态融合，得到待识别对象的数据对应的局部图文融合特征向量；第六处理模块，用于对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：通过获取待识别对象的数据，并将待识别对象的数据中包含的文本数据和图像数据分别进行特征提取，并将提取后得到的文本数据的特征向量和图像数据的特征向量进行多模态融合得到对应的融合特征向量，分区提取局部特征进行预测分类，再对分类结果进行特征提取得到分类结果对应的多个文本向量，将局部图片特征向量和文本向量进行多模态融合得到对应的局部图文融合向量，将局部融合向量和前述得到的全局融合向量进行拼接并自注意力学习得到图文匹配特征向量，以此实现了将文本数据和图像数据维度对齐，提升了视觉和语言表征学习的效果，降低了噪声文本的影响，提升了该图文处理方法的适用性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种图文处理方法的流程示意图；

图3是本公开实施例提供的一种图文处理方法的一种应用场景的流程示意图；

图4是本公开实施例提供的一种图文处理装置的结构示意图；

图5是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种图文处理方法和装置。

为了更好地理解，本公开方案的专业术语包括：对比语言-图像预训练(Contrastive Language-Image Pre-training，CLIP)模型、递归金字塔网络(RecursivePyramid Network，RPN)，其中，CLIP模型可以用于提取文本特征向量、或者图片全局特征向量，RPN可以用于对图像数据特征提取后的提取结果进行分区检测，转换成多个候选检测框。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。具体地，服务器4可以从终端设备1、2或3获取待识别对象的数据，并将待识别对象的数据中包含的文本数据和图像数据分别进行特征提取，并将提取后得到的文本数据的特征向量和图像数据的特征向量进行多模态融合得到对应的融合特征向量，分区提取局部特征进行预测分类，再对分类结果进行特征提取得到分类结果对应的多个文本向量，将局部图片特征向量和文本向量进行多模态融合得到对应的局部图文融合向量，将局部融合向量和前述得到的全局融合向量进行拼接并自注意力学习得到图文匹配特征向量。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种图文处理方法的流程示意图。图2的图文处理方法可以由图1的服务器执行。如图2所示，该图文处理方法包括：

步骤201，获取待识别对象的数据，待识别对象的数据包含文本数据和图像数据，对文本数据进行特征提取，得到文本数据对应的特征向量，对图像数据进行特征提取，得到图像数据对应的全局特征向量。

具体的，该图文处理方法应用于图文处理模型，待识别对象的数据可以作为该图文处理模型的输入数据，可以是文本数据和图像数据，其中，待识别对象可以是包含一个对象的文本数据和包含一个对象的图像数据，例如，作为一个示例，包含一个对象的文本数据内容为“一个苹果”，包含一个对象的图像数据为图片1，则待识别对象的数据即为包含“一个苹果”文本对应的数据和图片1对应的数据。

文本数据对应的特征向量可以由CLIP模型提取特征转换得到，例如，作为一个示例，将上述实施例中包含一个对象的文本数据“一个苹果”输入CLIP模型中，得到对应的文本特征向量，用于获取全局构图能力和提升单个对象生成的准确率，将高维度的文本数据转换成低维度的特征向量，降低了文本数据的维度，减少了计算量和存储空间的需求，为后续处理流程提供了便利，能够更好地捕捉文本中的语义信息和表达方式，降低了数据预处理的难度和复杂性，提高了该图文处理方法的效率和准确性。

图像数据对应的全局特征向量可以通过CLIP模型对图像数据进行特征提取及转换得到，例如，作为一个示例，将前述实施例中包含一个对象的图像数据图片1输入CLIP模型中，通过对图片1整体的全部特征进行提取转换，得到对应的图像全局特征向量，用于反映图片1整体的所有特征，以此将高维度的图像数据转换成低维度的特征向量，降低了图像数据的维度，减少了计算量和存储空间的需求，全局特征向量提高了该图文处理方法的鲁棒性和稳定性。

步骤202，对文本数据对应的特征向量和图像数据对应的全局特征向量进行多模态融合，得到待识别对象的数据对应的全局图文融合特征向量。

具体的，全局图文融合特征向量可以通过将文本数据对应的特征向量和图像数据对应的全局特征向量输入至多模态编码器中进行多模态融合处理得到，用于反映输入的图片数据和文本数据的整体特征。

多模态编码器可以是Transformer编码器，多模态融合处理过程包括：首先将文本特征向量和图像全局特征向量分别输入到Transformer编码器的输入层，通过Transformer编码器前向传播，将文本特征向量和图像全局特征向量逐步转换，在前向传播过程中，每个编码器通过非线性激活函数对文本特征向量和图像全局特征向量进行线性变换，将处理结果其传递给下一个编码器，且每个编码器都会通过注意力机制来计算文本特征向量和图像全局特征向量与所有在传播过程中得到的特征向量之间的权重。以此提升了特征提取和融合的效果，最后将Transformer编码器中最后一层的特征向量输出，该特征向量为全局图文融合特征向量。

步骤203，以分区的方式对图像数据进行特征提取，得到图像数据对应的多个局部图片特征向量。

具体的，局部图片特征向量用于反映输入图片的局部特征，可以通过对图像数据进行特征提取，并对提取结果进行分区检测，以及对检测结果进行特征提取得到，其中，分区检测可以通过RPN进行处理，以此提升了该图文处理方法的准确性，提高了整体的鲁棒性。

例如，输入为图片1，作为一个示例，先将图片1输入至骨干网络进行特征提取，得到图片1对应的特征向量，然后将图片1对应的特征向量输入至RPN，将图片1逐步上采样得到不同层级的多个图像，将图片1对应的特征向量逐步下采样得到不同层级的多个特征向量，将不同层级的多个图像和多个特征进行融合，得到不同层级的融合特征向量，将融合特征向量输入至递归卷积层中进行处理，得到不同层级的图片1检测结果，为图片1对应的多个候选检测框，将多个候选检测框输入至CLIP模型中，通过依次提取每个候选检测框所反映的图片1的局部特征，得到多个图片1对应的局部图片特征向量。

步骤204，对图像数据对应的多个局部图片特征向量进行预测分类，得到图像数据对应的多个分类结果文本数据。

具体的，分类结果文本数据可以是以文本形式表示的分类结果，分类结果包括但不限于动物类别或植物类别等，分类结果文本数据可以通过将多个局部图片特征向量输入至预测分类模型得到，例如，作为一个示例，将图片1对应的多个局部图片特征向量输入至预测分类模型，得到包含多个局部图片特征向量对应的分类结果的分类结果集合，从分类结果集合中筛选出多个有效分类结果，有效分类结果为图像数据对应的多个分类结果文本数据，通过筛选有效分类结果提高了该预测分类模型的精确性，通过对局部图片特征向量进行预测分类，提升了对图片数据学习的准确性。

步骤205，对图像数据对应的多个分类结果文本数据进行特征提取，得到图像数据对应的多个分类结果文本特征向量。

具体的，通过将图像数据对应的多个分类结果文本数据输入至CLIP模型进行特征提取并转换得到对应的文本特征向量，该文本特征向量的数量与分类结果文本数据数量相等，且每个文本特征向量对应一个分类结果文本数据，以此降低了分类结果的维度，减少了数据的处理量，提升了处理效率。

例如，作为一个示例，分类结果文本数据可以为“水果”，将其输入至CLIP模型，通过CLIP模型对文本数据进行特征提取得到对应的文本特征向量，该文本特征向量对应的文本数据为“一个苹果”。

步骤206，对图像数据对应的多个局部图片特征向量和图像数据对应的多个分类结果文本特征向量进行多模态融合，得到待识别对象的数据对应的局部图文融合特征向量。

具体的，局部图文融合特征向量可以通过将图像数据对应的多个局部图片特征向量和图像数据对应的多个分类结果文本特征向量输入至多模态编码器中进行多模态融合处理得到，用于反映输入的图片数据以及对应的文本数据的局部特征。

多模态编码器如前述步骤所详述，可以是Transformer编码器，多模态融合处理过程包括：首先将多个分类结果文本特征向量和多个局部图片特征向量分别输入到Transformer编码器的输入层，通过Transformer编码器前向传播，将分类结果文本特征向量和局部图片特征向量逐步转换，在前向传播过程中，每个编码器通过非线性激活函数对分类结果文本特征向量和局部图片特征向量进行线性变换，将处理结果其传递给下一个编码器，且每个编码器都会通过注意力机制来计算分类结果文本特征向量和局部图片特征向量与所有在传播过程中得到的特征向量之间的权重。以此提升了特征提取和融合的效果，最后将Transformer编码器中最后一层的特征向量输出，该特征向量为局部图文融合特征向量。

例如，作为一个示例，分类结果文本特征向量分别有A、B、C三个，对应的局部图片特征向量分别有a、b、c三个，将A、B、C向量和a、b、c向量分别输入至Transformer编码器，通过卷积神经网络对特征向量进行融合处理，将融合后的特征向量输入至全连接层中进行特征提取，得到一个局部图文融合特征向量d，并输出。

步骤207，对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量。

具体的，图文匹配特征向量可以是一种用于描述图像和文本之间相似性的向量表示，通过将高维度的图像和文本降维得到特征向量，提升了该图文处理方法的处理效率，将图文匹配拼接起来得到整体向量表示，提升了该图文处理方法的适用范围。

自注意力学习是通过自注意力机制实现的，自注意力机制可以视为一个特征提取层，它通过给定输入特征，进行自注意力计算，从而提取出输入特征中的重要信息，本公开中的自注意力学习是基于将待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量拼接后的拼接向量输入至Transformer编码器中进行处理实现的，自注意力学习后得到的图文匹配特征向量表达的是输入特征的整体分布和局部关系，而不是单个特征的重要性，这种机制可以有效地提取出输入特征中的重要信息，提高模型的性能。

例如，输入文本为“一个苹果”，输入图片为图片1，作为一个示例，将图片1对应的待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行相加拼接，拼接后将拼接结果输入至Transformer编码器中，通过自注意力学习将图片1和对应的输入文本“一个苹果”的图文对应的图文匹配特征向量。

根据本公开实施例提供的技术方案，通过获取待识别对象的数据，并将待识别对象的数据中包含的文本数据和图像数据分别进行特征提取，并将提取后得到的文本数据的特征向量和图像数据的特征向量进行多模态融合得到对应的融合特征向量，分区提取局部特征进行预测分类，再对分类结果进行特征提取得到分类结果对应的多个文本向量，将局部图片特征向量和分类结果对应的文本向量进行多模态融合得到对应的局部图文融合向量，将局部融合向量和前述得到的全局融合向量进行拼接并自注意力学习得到图文匹配特征向量，以此实现了将文本数据和图像数据维度对齐，提升了视觉和语言表征学习的效果，降低了噪声文本的影响，提升了该图文处理方法的适用性。

在一些实施例中，在得到待识别对象的数据对应的图文匹配特征向量之后，还包括：将待识别对象的数据对应的图文匹配特征向量输入至图文检索模型，对待识别对象的数据对应的图文匹配特征向量进行预测分类，得到待识别对象的数据对应的多个图文匹配标签和多个图文匹配标签对应的分数；对多个图文匹配标签对应的分数进行检索排序，得到图文匹配标签序列，并根据图文匹配标签序列，确定分数最大值对应的图文匹配标签为该图文检索模型的检索结果。

具体的，本公开中的图文处理模型中包括图文检索模型，该图文检索模型可以为一种用于从图像和文本数据中提取和比较信息的模型，常用于跨模态检索任务，该模型将图像和文本转换为特征向量，并使用这些特征向量来计算它们之间的相似度。

在本公开中由于该图文处理方法已将输入的图片数据和文本数据进行了匹配并降维成向量化表征，在图文检索模型的应用中可以将图文匹配特征向量直接进行相似度计算。

例如，作为一个示例，将图文匹配特征向量a输入至图文检索模型中，通过图文检索模型进行预测分类处理，得到多个图文匹配标签和多个图文匹配标签对应的分数，可以为标签a1对应的分数为0.3；标签a2对应的分数为0.2；标签a3对应的分数为0.5，对以上分数进行排序并选取最大值0.5，则该图文检索结果为标签a3。

根据本公开实施例提供的技术方案，通过将图文匹配特征向量输入至图文检索模型中，对图文匹配特征向量进行预测分类，得到待识别对象对应的多个图文匹配标签和多个图文匹配标签对应的分数，将多个分数进行检索排序，并从中选取分数最高的作为此次检索结果进行输出，以此减少了图文检索模型对输入的图像和文本进行特征提取并融合的过程，提升了模型的运作效率，提高了检索结果的精确性。

在一些实施例中，以分区的方式对图像数据进行特征提取，得到图像数据对应的多个局部图片特征向量，包括：对图像数据进行特征提取，得到图像信息特征向量；对图像信息特征向量进行区域生成，得到图像数据对应的多个候选检测框；对图像数据对应的多个候选检测框进行特征提取，得到图像数据对应的多个局部图片特征向量。

具体的，候选检测框可以为用于目标检测的候选区域，用于提高模型运算效率和准确性，通过对候选区域的进一步处理，可以更准确地检测出图像中的目标物体，候选检测框的中心是图像的中心坐标，宽度和高度分别是物体在水平方向和垂直方向的尺寸，因此，输出的是一个包含四个元素的向量，包括物体的左上角坐标(x1,y1)和右下角坐标(x2,y2)，以及图像的宽度和高度，这四个元素描述了对应图像的位置和大小，因此可以视为一个向量。

通过将图像数据输入至骨干网络进行特征提取，得到图像信息特征向量，再将图像信息特征向量输入至RPN，经过区域生成多个候选检测框，将多个候选检测框输入至CLIP模型，进行特征提取，得到每个候选检测框对应的局部图片特征，例如，作为一个示例，将图片1输入至骨干网络生成图片1对应的信息特征向量，将图片1和图片1对应的信息特征向量输入至RPN，先将图片1逐步上采样得到不同层级的多个图像，再将图片1对应的信息特征向量逐步下采样得到不同层级的多个特征向量，将相同层级的图像和特征向量进行融合得到多个不同层级的融合特征向量，最后将多个不同层级的融合特征向量输入至递归卷积层中处理得到不同层级的图片1的多个候选检测框，将多个候选检测框输入至CLIP模型，进行特征提取，得到每个候选检测框对应的局部图片特征向量，每一个局部图片特征向量都包含了图片1的局部特征信息。

根据本公开实施例提供的技术方案，通过对图像数据进行特征提取，得到对应的特征向量，再将特征向量通过RPN进行区域生成多个候选检测框，并对候选检测框进行特征提取得到多个局部图片特征向量，以此提升了该图文处理方法的准确性，增强了鲁棒性。

在一些实施例中，对图像数据对应的多个局部图片特征向量进行预测分类，得到图像数据对应的多个分类结果文本数据，包括：对各个候选检测框对应的局部图片特征向量进行分类处理，得到图像数据对应的各个分类结果文本数据和分类结果文本数据对应的各个置信度分数；根据预设的置信度阈值对分类结果文本数据对应的各个置信度分数进行筛选，得到多个有效置信度分数；根据多个有效置信度分数，确定图像数据对应的多个分类结果文本数据。

具体的，分类结果文本数据可以为经过分类模型处理后，从文本数据中提取出的分类信息，包括但不限于主题类别、情感倾向或者实体识别等。

置信度分数可以为每个分类结果文本数据对应的置信度，用于表示对应分类结果的权重大小，可以是0.2、0.6、0.05等，在此处不做限定。

预设的置信度阈值可以是用于区分置信度区间预先设置的阈值，可以是0.3、0.5或者0.08等，在此处不做限定。

通过将各个候选检测框对应的局部图片特征向量输入至检测头中，进行检测分类，其中，检测头可以由多个卷积层和全连接网络组成，通过检测头的检测分类得到每个检测框对应的分类结果和置信度分数，根据预设的置信度阈值将置信度分数进行筛选，当置信度分数大于置信度阈值的情况下，该置信度分数对应的候选检测框为有效检测框，通过筛选得到多个检测框对应的局部图片特征向量和对应的多个分类结果文本数据。

例如，作为一个示例，将候选检测框L、M、N输入至检测头中，经过卷积和全连接处理，得到L对应的分类结果文本为“一个苹果”，置信度分数为0.8，M对应的分类结果文本为“一个桃子”，置信度分数为0.1，N对应的分类结果文本为“一个梳子”，置信度分数为0.1，预设置信度阈值为0.5，则置信度分数大于0.5为有效置信度分数，则置信度分数0.8对应的候选检测框L为有效检测框，得到有效检测框L对应的分类结果文本数据“一个苹果”。

根据本公开实施例提供的技术方案，通过对各个候选检测框对应的局部图片特征向量进行检测处理，得到每个候选检测框对应的分类结果文本数据和每个候选检测框对应的置信度分数，再根据预设置信度阈值，将大于预设置信度阈值的置信度分数筛选出来作为有效置信度分数，这些置信度分数所对应的分类结果文本数据作为处理结果输出，以此降低了噪声数据对该图文处理方法的影响程度，提升了处理精确性，提高了处理效率。

在一些实施例中，对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量，包括：对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行相加处理，得到待识别对象的数据对应的图文匹配拼接向量；对待识别对象的数据对应的图文匹配拼接向量进行分解处理，得到待识别对象的数据对应的单元向量；对待识别对象的数据对应的单元向量进行加权处理，得到待识别对象的数据对应的加权单元向量；对待识别对象的数据对应的加权单元向量进行聚合处理，得到待识别对象的数据对应的图文匹配特征向量。

具体的，待识别对象的数据对应的图文匹配拼接向量可以由待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量相加得到，用于在后续步骤中进行学习和融合。

单元向量可以由上述拼接向量分解得到，每个单元向量中包含一个特征向量，用于表示待识别对象的数据的一种特征。

加权单元向量可以通过计算每个单元向量与其他所有单元向量之间的相似性得到对应的权重分布，将权重分布应用于单元向量得到。

先将全局图文融合特征向量和局部图文融合特征向量相加得到拼接向量，将拼接向量输入至Transformer编码器进行特征向量的自注意力学习，具体实现步骤包括：将输入的拼接向量分解为多个单元向量，每个单元向量中包含一个特征向量，对每个单元向量计算权重，表示该单元向量与其他所有单元向量之间的相似性，得到一个权重序列，将该权重序列应用于单元向量得到加权单元向量，将加权单元向量进行聚合，得到图文匹配特征向量。

根据本公开实施例提供的技术方案，通过将全局图文融合特征向量和局部图文融合特征向量相加，得到对应的拼接向量，再将拼接向量输入至Transformer编码器，通过分解处理，得到多个单元向量，对单元向量进行权重计算得到加权单元向量，再对加权单元向量进行聚合处理得到图文匹配特征向量，以此有效的提取出特征向量中的重要信息，提高了该图文处理方法的整体性能，增强了该图文处理方法的表达能力，扩大了适用范围。

在一些实施例中，在获取待识别对象的数据之前，还包括：获取训练样本集合，训练样本集合中包含多个训练样本，各个训练样本均包含文本训练数据和图像训练数据，其中文本训练数据用于表征图像训练数据的标签；对各个训练样本进行特征提取，得到文本训练特征向量和图像训练全局特征向量；根据图像训练全局特征向量，对文本训练特征向量进行指数归一化处理，得到全局文本图像相似度，根据文本训练特征向量，对图像训练全局特征向量进行指数归一化处理，得到全局图像文本相似度，并根据全局图像文本相似度和全局文本图像相似度，确定第一对比损失；对文本训练特征向量和图像训练全局特征向量进行多模态融合，得到训练样本对应的全局图文融合特征向量；将图像训练数据输入至骨干网络进行特征提取，得到图像训练数据对应的特征向量；对图像训练数据对应的特征向量进行分区识别，得到图像训练数据对应的训练候选检测框序列；对图像训练数据对应的训练候选检测框序列进行特征提取，得到多个训练候选检测框对应的局部图片特征向量；对各个训练候选检测框对应的局部图片特征向量进行分类筛选，得到多个图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本数据，并根据图像训练数据对应的分类结果文本数据和图像训练数据的标签，确定检测损失；对图像训练数据对应的分类结果文本数据进行特征提取，得到图像训练数据对应的分类结果文本特征向量；根据图像训练数据对应的局部图片有效特征向量，对图像训练数据对应的分类结果文本特征向量进行指数归一化处理，得到局部文本图像相似度，根据图像训练数据对应的分类结果文本特征向量，对图像训练数据对应的局部图片有效特征向量进行指数归一化处理，得到局部图像文本相似度，并根据局部图像文本相似度和局部文本图像相似度，确定第二对比损失；对图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本特征向量进行多模态融合，得到训练样本对应的局部图文融合特征向量；对训练样本对应的全局图文融合特征向量和训练样本对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量，并根据待识别对象的数据对应的图文匹配特征向量和训练样本，确定图文匹配损失；通过循环迭代的方式，更新图文匹配特征向量的生成方法中的参数。

具体的，训练样本集合可以是包含多个文本数据和图像数据的集合，用于该图文处理方法的训练过程，其中文本数据用于表征对应的图像数据的真实标签。

可以通过CLIP模型对训练样本进行特征提取，得到文本训练特征向量和图像训练全局特征向量。

将文本特征向量和图像特征向量分为两个队列，可以通过指数移动平均方法分别计算两个队列中文本特征向量和图像特征向量对应的文本平滑特征向量和图像平滑特征向量，根据每一个文本特征向量和图像特征向量，将对应的文本平滑特征向量和图像平滑特征向量进行指数归一化，得到对应的相似度，并根据相似度与标签得到对应的第一对比损失。

将文本训练特征向量和图像训练全局特征向量输入至Transformer编码器进行多模态融合，得到训练样本对应的全局图文融合特征向量。

图像训练数据对应的特征向量可以通过将图像训练数据输入至骨干网络进行特征提取得到。

训练候选检测框序列包含多个训练候选检测框，通过对图像训练数据对应的特征向量进行分区识别，得到多个训练候选检测框，每一个训练候选检测框内包含图像训练数据的局部特征信息。

将多个训练候选检测框输入至CLIP模型进行特征提取，得到每个训练候选检测框对应的局部图片特征向量，用于反映图像训练数据的局部特征信息。

通过将各个训练候选检测框对应的局部图片特征向量输入至检测头中，进行检测分类，其中，检测头可以由多个卷积层和全连接网络组成，通过检测头的检测分类得到每个检测框对应的分类结果和置信度分数，根据预设的置信度阈值将置信度分数进行筛选，当置信度分数大于置信度阈值的情况下，该置信度分数对应的候选检测框为有效检测框，通过筛选得到多个检测框对应的局部图片特征向量和对应的多个分类结果文本数据，根据分类结果文本数据和图像时局的标签，得到检测损失，其中，检测损失可以是一种基于二分类交叉熵损失的动态缩放损失函数，通过一个动态缩放因子，可以动态降低训练过程中易区分样本的权重。

将图像训练数据对应的分类结果文本数据输入至CLIP模型中进行特征提取，得到图像训练数据对应的分类结果文本特征向量。

将分类结果文本特征向量和局部图片有效特征向量分为两个队列，可以通过指数移动平均方法分别计算两个队列中分类结果文本特征向量和局部图片有效特征向量对应的分类结果文本平滑特征向量和局部图片有效平滑特征向量，根据每一个分类结果文本特征向量和局部图片有效特征向量，对对应的分类结果文本平滑特征向量和局部图片有效平滑特征向量进行指数归一化，得到对应的相似度，并根据相似度与标签得到对应的第二对比损失。

将图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本特征向量输入至Transformer编码器进行多模态融合，得到训练样本对应的局部图文融合特征向量。

对训练样本对应的全局图文融合特征向量和训练样本对应的局部图文融合特征向量进行相加，得到对应的拼接向量，通过对拼接向量进行自注意力学习，包括：将输入的拼接向量分解为多个单元向量，每个单元向量中包含一个特征向量，对每个单元向量计算权重，表示该单元向量与其他所有单元向量之间的相似性，得到一个权重序列，将该权重序列应用于单元向量得到加权单元向量，将加权单元向量进行聚合，得到图文匹配特征向量，根据待识别对象的数据对应的图文匹配特征向量和训练样本，得到图文匹配损失。

根据本公开实施例提供的技术方案，通过该图文处理方法的训练过程，包含根据训练样本集合确定每个文本训练数据和每个图像训练数据对应的文本训练特征向量和图像训练全局特征向量，对这两种特征向量进行指数归一化处理，得到对应的全局文本图像相似度和全局图像文本相似度，以及第一对比损失，将文本训练特征向量和图像训练全局特征向量进行多模态融合，得到训练样本对应的全局图文融合特征向量，通过骨干网络对图像训练数据进行特征提取得到对应的特征向量，并对特征向量进行分区识别，得到图像训练数据对应的训练候选检测框序列，对序列中的各个检测框进行特征提取，得到局部图片特征向量，再对局部图片特征向量进行分类筛选，得到多个图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本数据和检测损失，对图像训练数据对应的分类结果文本数据进行特征提取，得到图像训练数据对应的分类结果文本特征向量，通过计算指数归一化得到局部图像文本相似度和局部文本图像相似度以及第二对比损失，对图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本特征向量进行多模态融合，得到训练样本对应的局部图文融合特征向量，将二者进行相加后自注意力学习，得到图文匹配特征向量和图文匹配损失，根据各处损失对整体方法中的对应参数进行更新，以此实现了将文本数据和图像数据维度对齐，提升了视觉和语言表征学习的效果，降低了噪声文本的影响，提升了该图文处理方法的适用性，提高了该图文处理方法的鲁棒性。

在一些实施例中，对图像训练数据对应的特征向量进行分区识别，得到图像训练数据对应的训练候选检测框序列，包括：对图像训练数据进行上采样，得到多个不同层级的上采样训练图像；对图像训练数据对应的特征向量进行下采样，得到多个不同层级的下采样特征向量；对多个不同层级的图像训练数据对应的上采样训练图像和多个不同层级的图像训练数据对应的下采样特征向量进行融合处理，得到多个不同层级的图像训练数据对应的融合特征向量；对多个不同层级的图像训练数据对应的融合特征向量进行递归卷积，得到图像训练数据对应的训练候选检测框序列。

具体的，对图像训练数据对应的特征向量进行分区识别可以通过将图像训练数据对应的特征向量输入至RPN进行处理得到，例如，输入为图片1和图片1的特征向量，作为一个示例，将图片1对应的特征向量输入至RPN，对图片1逐步上采样得到不同层级的多个图像，将图片1对应的特征向量逐步下采样得到不同层级的多个特征向量，将不同层级的多个图像和多个特征进行融合，得到不同层级的融合特征向量，将融合特征向量输入至递归卷积层中进行处理，得到不同层级的图片1检测结果，为图片1对应的多个候选检测框，将多个候选检测框输入至CLIP模型中，通过依次提取每个候选检测框所反映的图片1的局部特征，得到多个图片1对应的局部图片特征向量。

根据本公开实施例提供的技术方案，通过对图像训练数据及其对应的特征向量分别进行上采样和下采样，得到多个不同层级的上采样训练图像和下采样特征向量，将多个不同层级的上采样训练图像和下采样特征向量融合后进行递归卷积得到多个训练候选检测框，以此提升了训练效率，提高了该图文处理方法的性能和表达能力。

图3是本公开实施例提供的图文处理方法的一种应用场景的流程示意图，如图3所示，该图像生成模型的一种应用场景的流程包括：

1.全局图文对比学习：学习图像数据和文本数据的全局信息，具体流程如下：

该图文处理方法的数据输入是文本T和图片I。

1.1输入文本T，基于CLIP模型提取文本特征T_G。

1.2输入图片I，基于CLIP模型提取图片全局特征I_G。

1.3图文对比学习损失1：为了在图文融合前学习到更好的单模态表示，计算归一化后的图像到文本、文本到图像的相似度，得到图文对比学习损失1，可表示为L_itc1。

1.4多模态编码器1：将文本特征向量T_G、图片全局特征向量I_G，输入到Transformer的编码器中，得到全局图文融合特征向量E_global-it。

2.局部图文对比学习，输入图片，通过目标检测模型检测图片中的物体并预测分类，学习局部的图文信息，具体流程如下：

2.1输入图片，通过视觉骨干网络(如Resnet50)，提取图片中特征向量I_O。

2.2将2.1步得到的特征向量I_O，输入到RPN网络，得到N个候选检测框。

2.3将2.2步得到的N个检测框，输入到CLIP模型中依次提取每个检测框的局部图片特征其中i＝1...N。

2.4检测头：将2.3步得到的N个局部图片特征，输入到由3个卷积和一个全连接网络组成的检测头中，得到每个检测框的检测框分类结果和置信度分数/>其中i＝1...N。

2.5预测检测框类别：将2.4步得到的分类结果根据置信度分数进行筛选，当时(此处设为0.5)，才认为候选检测框有效，筛选后得到的n个检测框的局部图片特征、分类结果表示为/>其中k＝1...n,n≤N。

2.6检测损失：采用focal损失作为检测损失，可表示为L_det。

2.7文本特征提取：将2.5步得到的检测框，输入到CLIP模型，得到其中k＝1...n,n≤N。

2.8图文对比学习损失2：2.3步得到的局部图片特征，通过2.5步的筛选，得到其中k＝1...n,n≤N。

将匹配k个和/>依次计算局部图文对比损失，损失表示为L_itc2。

2.9多模态编码器2：将2.7步得到的文本特征2.3步得到的局部图片特征/>输入到Transformer的编码器中，得到局部图文融合特征E_local-it。

3.图文匹配学习

3.1特征拼接：将1.4步得到的全局图文融合特征E_global-it和2.9步得到的局部图文融合特征E_local-it，进行特征拼接得到E＝[E_global-it,E_local-ir]。

3.2自注意力学习：将3.1步得到的特征输入到Transformer的解码器中，进行特征的自注意力学习得到特征E_decoder。

3.3图文匹配损失：将3.2步得到的特征，输入到全连接层中，做二分类，判断输入的图片数据和文本数据是否为一对，损失可表示为L_itm。

最后，训练总体损失：L＝L_itc1+L_itc2+L_itm。

该图文处理方法的流程实现了将文本数据和图像数据维度对齐，提升了视觉和语言表征学习的效果，降低了噪声文本的影响，提升了该图文处理方法的适用性。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的一种图文处理装置的结构示意图。如图4所示，该图文处理装置装置包括：

获取模块401，用于获取待识别对象的数据，待识别对象的数据包含文本数据和图像数据，对文本数据进行特征提取，得到文本数据对应的特征向量，对图像数据进行特征提取，得到图像数据对应的全局特征向量；

第一处理模块402，用于对文本数据对应的特征向量和图像数据对应的全局特征向量进行多模态融合，得到待识别对象的数据对应的全局图文融合特征向量；

第二处理模块403，用于以分区的方式对图像数据进行特征提取，得到图像数据对应的多个局部图片特征向量；

第三处理模块404，用于对图像数据对应的多个局部图片特征向量进行预测分类，得到图像数据对应的多个分类结果文本数据；

第四处理模块405，用于对图像数据对应的多个分类结果文本数据进行特征提取，得到图像数据对应的多个分类结果文本特征向量；

第五处理模块406，用于对图像数据对应的多个局部图片特征向量和图像数据对应的多个分类结果文本特征向量进行多模态融合，得到待识别对象的数据对应的局部图文融合特征向量；

第六处理模块407，用于对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量。

根据本公开实施例提供的技术方案，该图文处理装置可以通过获取待识别对象的数据，并将待识别对象的数据中包含的文本数据和图像数据分别进行特征提取，并将提取后得到的文本数据的特征向量和图像数据的特征向量进行多模态融合得到对应的融合特征向量，分区提取局部特征进行预测分类，再对分类结果进行特征提取得到分类结果对应的多个文本向量，将局部图片特征向量和文本向量进行多模态融合得到对应的局部图文融合向量，将局部融合向量和前述得到的全局融合向量进行拼接并自注意力学习得到图文匹配特征向量，以此实现了将文本数据和图像数据维度对齐，提升了视觉和语言表征学习的效果，降低了噪声文本的影响，提升了该图文处理方法的适用性。

在一些实施例中，上述图文处理装置还用于，将待识别对象的数据对应的图文匹配特征向量输入至图文检索模型，对待识别对象的数据对应的图文匹配特征向量进行预测分类，得到待识别对象的数据对应的多个图文匹配标签和多个图文匹配标签对应的分数；对多个图文匹配标签对应的分数进行检索排序，得到图文匹配标签序列，并根据图文匹配标签序列，确定分数最大值对应的图文匹配标签为该图文检索模型的检索结果。

在一些实施例中，第二处理模块403具体用于，对图像数据进行特征提取，得到图像信息特征向量；对图像信息特征向量进行区域生成，得到图像数据对应的多个候选检测框；对图像数据对应的多个候选检测框进行特征提取，得到图像数据对应的多个局部图片特征向量。

在一些实施例中，第三处理模块404具体用于，对各个候选检测框对应的局部图片特征向量进行分类处理，得到图像数据对应的各个分类结果文本数据和分类结果文本数据对应的各个置信度分数；根据预设的置信度阈值对分类结果文本数据对应的各个置信度分数进行筛选，得到多个有效置信度分数；根据多个有效置信度分数，确定图像数据对应的多个分类结果文本数据。

在一些实施例中，第六处理模块407具体用于，对待识别对象的数据对应的全局图文融合特征向量和待识别对象的数据对应的局部图文融合特征向量进行相加处理，得到待识别对象的数据对应的图文匹配拼接向量；对待识别对象的数据对应的图文匹配拼接向量进行分解处理，得到待识别对象的数据对应的单元向量；对待识别对象的数据对应的单元向量进行加权处理，得到待识别对象的数据对应的加权单元向量；对待识别对象的数据对应的加权单元向量进行聚合处理，得到待识别对象的数据对应的图文匹配特征向量。

在一些实施例中，上述图文处理装置还用于，获取训练样本集合，训练样本集合中包含多个训练样本，各个训练样本均包含文本训练数据和图像训练数据，其中文本训练数据用于表征图像训练数据的标签；对各个训练样本进行特征提取，得到文本训练特征向量和图像训练全局特征向量；根据图像训练全局特征向量，对文本训练特征向量进行指数归一化处理，得到全局文本图像相似度，根据文本训练特征向量，对图像训练全局特征向量进行指数归一化处理，得到全局图像文本相似度，并根据全局图像文本相似度和全局文本图像相似度，确定第一对比损失；对文本训练特征向量和图像训练全局特征向量进行多模态融合，得到训练样本对应的全局图文融合特征向量；将图像训练数据输入至骨干网络进行特征提取，得到图像训练数据对应的特征向量；对图像训练数据对应的特征向量进行分区识别，得到图像训练数据对应的训练候选检测框序列；对图像训练数据对应的训练候选检测框序列进行特征提取，得到多个训练候选检测框对应的局部图片特征向量；对各个训练候选检测框对应的局部图片特征向量进行分类筛选，得到多个图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本数据，并根据图像训练数据对应的分类结果文本数据和图像训练数据的标签，确定检测损失；对图像训练数据对应的分类结果文本数据进行特征提取，得到图像训练数据对应的分类结果文本特征向量；根据图像训练数据对应的局部图片有效特征向量，对图像训练数据对应的分类结果文本特征向量进行指数归一化处理，得到局部文本图像相似度，根据图像训练数据对应的分类结果文本特征向量，对图像训练数据对应的局部图片有效特征向量进行指数归一化处理，得到局部图像文本相似度，并根据局部图像文本相似度和局部文本图像相似度，确定第二对比损失；对图像训练数据对应的局部图片有效特征向量和图像训练数据对应的分类结果文本特征向量进行多模态融合，得到训练样本对应的局部图文融合特征向量；对训练样本对应的全局图文融合特征向量和训练样本对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到待识别对象的数据对应的图文匹配特征向量，并根据待识别对象的数据对应的图文匹配特征向量和训练样本，确定图文匹配损失；通过循环迭代的方式，更新图文匹配特征向量的生成方法中的参数。

在一些实施例中，对图像训练数据对应的特征向量进行分区识别，得到图像训练数据对应的训练候选检测框序列具体用于，对图像训练数据进行上采样，得到多个不同层级的上采样训练图像；对图像训练数据对应的特征向量进行下采样，得到多个不同层级的下采样特征向量；对多个不同层级的图像训练数据对应的上采样训练图像和多个不同层级的图像训练数据对应的下采样特征向量进行融合处理，得到多个不同层级的图像训练数据对应的融合特征向量；对多个不同层级的图像训练数据对应的融合特征向量进行递归卷积，得到图像训练数据对应的训练候选检测框序列。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的电子设备5的示意图。如图5所示，该实施例的电子设备5包括：处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器501可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器502可以是电子设备5的内部存储单元，例如，电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备，例如，电子设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种图文处理方法，其特征在于，包括：

获取待识别对象的数据，所述待识别对象的数据包含文本数据和图像数据，对所述文本数据进行特征提取，得到所述文本数据对应的特征向量，对所述图像数据进行特征提取，得到所述图像数据对应的全局特征向量；

对所述文本数据对应的特征向量和所述图像数据对应的全局特征向量进行多模态融合，得到所述待识别对象的数据对应的全局图文融合特征向量；

以分区的方式对所述图像数据进行特征提取，得到所述图像数据对应的多个局部图片特征向量；

对所述图像数据对应的多个局部图片特征向量进行预测分类，得到所述图像数据对应的多个分类结果文本数据；

对所述图像数据对应的多个分类结果文本数据进行特征提取，得到所述图像数据对应的多个分类结果文本特征向量；

对所述图像数据对应的多个局部图片特征向量和所述图像数据对应的多个分类结果文本特征向量进行多模态融合，得到所述待识别对象的数据对应的局部图文融合特征向量；

对所述待识别对象的数据对应的全局图文融合特征向量和所述待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到所述待识别对象的数据对应的图文匹配特征向量。

2.根据权利要求1所述的图文处理方法，其特征在于，在所述得到所述待识别对象的数据对应的图文匹配特征向量之后，还包括：

将所述待识别对象的数据对应的图文匹配特征向量输入至图文检索模型，对所述待识别对象的数据对应的图文匹配特征向量进行预测分类，得到所述待识别对象的数据对应的多个图文匹配标签和多个图文匹配标签对应的分数；

对所述多个图文匹配标签对应的分数进行检索排序，得到图文匹配标签序列，并根据所述图文匹配标签序列，确定分数最大值对应的图文匹配标签为该图文检索模型的检索结果。

3.根据权利要求1所述的图文处理方法，其特征在于，所述以分区的方式对所述图像数据进行特征提取，得到所述图像数据对应的多个局部图片特征向量，包括：

对所述图像数据进行特征提取，得到图像信息特征向量；

对所述图像信息特征向量进行区域生成，得到所述图像数据对应的多个候选检测框；

对所述图像数据对应的多个候选检测框进行特征提取，得到所述图像数据对应的多个局部图片特征向量。

4.根据权利要求1所述的图文处理方法，其特征在于，所述对所述图像数据对应的多个局部图片特征向量进行预测分类，得到所述图像数据对应的多个分类结果文本数据，包括：

对各个候选检测框对应的局部图片特征向量进行分类处理，得到所述图像数据对应的各个分类结果文本数据和所述分类结果文本数据对应的各个置信度分数；

根据预设的置信度阈值对所述分类结果文本数据对应的各个置信度分数进行筛选，得到多个有效置信度分数；

根据多个所述有效置信度分数，确定所述图像数据对应的多个分类结果文本数据。

5.根据权利要求1所述的图文处理方法，其特征在于，所述对所述待识别对象的数据对应的全局图文融合特征向量和所述待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到所述待识别对象的数据对应的图文匹配特征向量，包括：

对所述待识别对象的数据对应的全局图文融合特征向量和所述待识别对象的数据对应的局部图文融合特征向量进行相加处理，得到所述待识别对象的数据对应的图文匹配拼接向量；

对所述待识别对象的数据对应的图文匹配拼接向量进行分解处理，得到所述待识别对象的数据对应的单元向量；

对所述待识别对象的数据对应的单元向量进行加权处理，得到所述待识别对象的数据对应的加权单元向量；

对所述待识别对象的数据对应的加权单元向量进行聚合处理，得到所述待识别对象的数据对应的图文匹配特征向量。

6.根据权利要求1所述的图文处理方法，其特征在于，在所述获取待识别对象的数据之前，还包括：

获取训练样本集合，所述训练样本集合中包含多个训练样本，各个所述训练样本均包含文本训练数据和图像训练数据，其中所述文本训练数据用于表征所述图像训练数据的标签；

对各个所述训练样本进行特征提取，得到文本训练特征向量和图像训练全局特征向量；

根据所述图像训练全局特征向量，对所述文本训练特征向量进行指数归一化处理，得到全局文本图像相似度，根据所述文本训练特征向量，对所述图像训练全局特征向量进行指数归一化处理，得到全局图像文本相似度，并根据所述全局图像文本相似度和所述全局文本图像相似度，确定第一对比损失；

对所述文本训练特征向量和图像训练全局特征向量进行多模态融合，得到所述训练样本对应的全局图文融合特征向量；

将所述图像训练数据输入至骨干网络进行特征提取，得到所述图像训练数据对应的特征向量；

对所述图像训练数据对应的特征向量进行分区识别，得到所述图像训练数据对应的训练候选检测框序列；

对所述图像训练数据对应的训练候选检测框序列进行特征提取，得到多个训练候选检测框对应的局部图片特征向量；

对各个所述训练候选检测框对应的局部图片特征向量进行分类筛选，得到多个所述图像训练数据对应的局部图片有效特征向量和所述图像训练数据对应的分类结果文本数据，并根据所述图像训练数据对应的分类结果文本数据和所述图像训练数据的标签，确定检测损失；

对所述图像训练数据对应的分类结果文本数据进行特征提取，得到所述图像训练数据对应的分类结果文本特征向量；

根据所述图像训练数据对应的局部图片有效特征向量，对所述图像训练数据对应的分类结果文本特征向量进行指数归一化处理，得到局部文本图像相似度，根据所述图像训练数据对应的分类结果文本特征向量，对所述图像训练数据对应的局部图片有效特征向量进行指数归一化处理，得到局部图像文本相似度，并根据所述局部图像文本相似度和所述局部文本图像相似度，确定第二对比损失；

对所述图像训练数据对应的局部图片有效特征向量和所述图像训练数据对应的分类结果文本特征向量进行多模态融合，得到所述训练样本对应的局部图文融合特征向量；

对所述训练样本对应的全局图文融合特征向量和所述训练样本对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到所述待识别对象的数据对应的图文匹配特征向量，并根据所述待识别对象的数据对应的图文匹配特征向量和所述训练样本，确定图文匹配损失；

通过循环迭代的方式，更新所述图文匹配特征向量的生成方法中的参数。

7.根据权利要求6所述的图文处理方法，其特征在于，所述对所述图像训练数据对应的特征向量进行分区识别，得到所述图像训练数据对应的训练候选检测框序列，包括：

对所述图像训练数据进行上采样，得到多个不同层级的上采样训练图像；

对所述图像训练数据对应的特征向量进行下采样，得到多个不同层级的下采样特征向量；

对多个所述不同层级的所述图像训练数据对应的上采样训练图像和多个所述不同层级的所述图像训练数据对应的下采样特征向量进行融合处理，得到多个不同层级的所述图像训练数据对应的融合特征向量；

对多个所述不同层级的所述图像训练数据对应的融合特征向量进行递归卷积，得到所述图像训练数据对应的训练候选检测框序列。

8.一种图文处理装置，其特征在于，包括：

获取模块，用于获取待识别对象的数据，所述待识别对象的数据包含文本数据和图像数据，对所述文本数据进行特征提取，得到所述文本数据对应的特征向量，对所述图像数据进行特征提取，得到所述图像数据对应的全局特征向量；

第一处理模块，用于对所述文本数据对应的特征向量和所述图像数据对应的全局特征向量进行多模态融合，得到所述待识别对象的数据对应的全局图文融合特征向量；

第二处理模块，用于以分区的方式对所述图像数据进行特征提取，得到所述图像数据对应的多个局部图片特征向量；

第三处理模块，用于对所述图像数据对应的多个局部图片特征向量进行预测分类，得到所述图像数据对应的多个分类结果文本数据；

第四处理模块，用于对所述图像数据对应的多个分类结果文本数据进行特征提取，得到所述图像数据对应的多个分类结果文本特征向量；

第五处理模块，用于对所述图像数据对应的多个局部图片特征向量和所述图像数据对应的多个分类结果文本特征向量进行多模态融合，得到所述待识别对象的数据对应的局部图文融合特征向量；

第六处理模块，用于对所述待识别对象的数据对应的全局图文融合特征向量和所述待识别对象的数据对应的局部图文融合特征向量进行特征拼接，并将拼接结果进行自注意力学习，得到所述待识别对象的数据对应的图文匹配特征向量。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。