CN112990297A

CN112990297A - 多模态预训练模型的训练方法、应用方法及装置

Info

Publication number: CN112990297A
Application number: CN202110262221.6A
Authority: CN
Inventors: 霍宇琦; 张曼黎; 刘光镇; 卢志武; 窦志成; 金琴; 赵鑫; 宋睿华; 文继荣
Original assignee: Renmin University of China; Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Renmin University of China; Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-18
Anticipated expiration: 2041-03-10
Also published as: CN112990297B

Abstract

本申请提出一种多模态预训练模型的训练方法、应用方法及装置，该方法包括：构建双塔结构的多模态预训练模型；获取包括正样本图文对的正样本数据集和包括负样本图文对的负样本数据集；根据正样本数据集和负样本数据集训练多模态预训练模型，多模态预训练模型包括用于对正样本图文对和负样本图文对进行图文相似度对比学习的跨模态对比学习模块。本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法，对图像和文本模态都构建大量负样本，模型表达能力强，提高了图文对的处理精度。该模型计算图文间的整体相似度，根据相似度判断图文是否对应，基于图文弱相关假设，更贴合实际应用中图文对中图文间语义弱相关的实际情况。

Description

多模态预训练模型的训练方法、应用方法及装置

技术领域

本申请属于计算机应用技术领域，具体涉及一种多模态预训练模型的训练方法、应用方法及装置。

背景技术

近年来，预训练模型已成为自然语言处理(NLP，Natural Language Processing)研究领域的热门话题。涉及多种模态信息交互的多模态预训练模型适用于更多的应用场景，如针对图文对的多模态预训练模型逐渐受到广泛关注。

目前，相关技术中提供了一些处理图文对的多模态预训练模型，这些多模态预训练模型假设输入的图文对中文本与图像之间存在强语义相关性，通过判断文本中包括的单词与图像所展示的内容之间是否存在语义对应关系，来确定输入的图文对中的文本与图像是否对应。

但实际应用中图文对中图像与文本之间不一定存在强语义相关性，上述相关技术通过单词与图像的语义对应关系来判断文本与图像是否对应，准确性很低。

发明内容

本申请提出一种多模态预训练模型的训练方法、应用方法及装置，本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法，对图像和文本模态都构建大量负样本，模型表达能力强，提高了图文对的处理精度。该模型计算图文间的整体相似度，根据相似度判断图文是否对应，基于图文弱相关假设，更贴合实际应用中图文对中图文间语义弱相关的实际情况。

本申请第一方面实施例提出了一种多模态预训练模型的训练方法，包括：

构建双塔结构的多模态预训练模型；

获取正样本数据集和负样本数据集，所述正样本数据集包括正样本图文对，所述负样本数据集包括负样本图文对；

根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型，所述多模态预训练模型包括跨模态对比学习模块，所述跨模态对比学习模块用于对所述正样本图文对和所述负样本图文对进行图文相似度对比学习。

在本申请的一些实施例中，所述构建双塔结构的多模态预训练模型，包括：

将图像编码器和图像动量编码器均与第一全连接层连接；

将文本编码器和文本动量编码器均与第二全连接层连接；

将所述第一全连接层和所述第二全连接层均与多层感知机连接；

将所述多层感知机与跨模态对比学习模块连接，得到双塔结构的多模态预训练模型。

在本申请的一些实施例中，所述根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型，包括：

在当前训练周期，将至少一个所述正样本图文对和多个所述负样本图文对输入所述多模态预训练模型；

通过所述图像编码器获得第一正样本图文对中图像对应的正样本图像特征向量；通过所述图像动量编码器获得每个所述负样本图文对中图像对应的负样本图像特征向量；

通过所述第一全连接层将所述正样本图像特征向量和每个所述负样本图像特征向量拼接为图像特征向量序列；

通过所述文本编码器提取第一正样本图文对中文本对应的正样本文本特征向量；通过所述文本动量编码器提取每个所述负样本图文对中文本对应的负样本文本特征向量；

通过所述第二全连接层将所述正样本文本特征向量和每个所述负样本文本特征向量拼接成文本特征向量序列；

通过所述多层感知机将所述图像特征向量序列和所述文本特征向量序列映射至同一空间下；

根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列，通过所述跨模态对比学习模块进行图文相似度对比学习。

在本申请的一些实施例中，所述根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列，通过所述跨模态对比学习模块进行图文相似度对比学习，包括：

通过所述跨模态对比学习模块分别计算所述正样本图像特征向量与所述文本特征向量序列中每个文本特征向量之间的相似度，得到图-文相似度序列；

通过所述跨模态对比学习模块分别计算所述正样本文本特征向量与所述图像特征向量序列中每个图像特征向量之间的相似度，得到文-图相似度序列；

根据所述图-文相似度序列，通过检索损失函数计算所述正样本图像特征向量与所述每个文本特征向量之间的检索损失值，得到图-文损失序列；

根据所述文-图相似度序列，通过所述检索损失函数计算所述正样本文本特征向量与所述每个图像特征向量之间的检索损失值，得到文-图损失序列；

根据所述图-文损失序列和所述文-图损失序列，确定当前训练周期的最终损失值。

在本申请的一些实施例中，所述确定当前训练周期的最终损失值之后，还包括：

若已训练周期数大于或等于预设训练次数，则从已训练周期中确定最终损失值最小的训练周期，将最终损失值最小的训练周期对应的模型参数及所述多模态预训练模型的模型结构确定为最终训练好的多模态预训练模型；

若已训练周期数小于预设训练次数，则根据所述最终损失值调整模型参数，根据调整后的模型参数进行下一周期的训练。

本申请第二方面的实施例提供了一种多模态预训练模型的应用方法，包括：

获取待检测图文对和多个负样本图文对；

通过上述第一方面所述的训练方法训练的多模态预训练模型对所述待检测图文对和所述多个负样本图文对进行图文相似度对比，确定所述待检测图文对包括的图像和文本是否相互对应。

本申请第三方面的实施例提供了一种多模态预训练模型的应用方法，包括：

根据待检索文本，通过上述第一方面所述的训练方法训练的多模态预训练模型从预设图像库中搜索与所述待检索文本对应的图像；或者，根据待检索图像，通过所述多模态预训练模型从预设文本库中搜索与所述待检索图像对应的文本；或者，

根据待处理文本和所述多模态预训练模型，生成所述待处理文本对应的图像；或者，根据待处理图像和所述多模态预训练模型，生成所述待处理图像对应的文本。

本申请第四方面的实施例提供了一种多模态预训练模型的训练装置，其特征在于，包括：

模型构建模块，用于构建双塔结构的多模态预训练模型；

数据集获取模块，用于获取正样本数据集和负样本数据集，所述正样本数据集包括正样本图文对，所述负样本数据集包括负样本图文对；

模型训练模块，用于根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型，所述多模态预训练模型包括跨模态对比学习模块，所述跨模态对比学习模块用于对所述正样本图文对和所述负样本图文对进行图文相似度对比学习。

本申请第五方面的实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述第一方面所述的方法。

本申请第六方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述第一方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，多模态预训练模型采用了双塔结构和跨模态对比学习算法，对于图像模态和文本模态都构建了对应的大量负样本，提高了多模态预训练模型中神经网络的表达能力，提高了处理图文对的精度。多模态预训练模型计算文本与图像整体之间的相似度，根据相似度来判断文本与图像是否对应，是基于图文弱相关的假设，不通过单词与图像的语义对应关系来判断文本与图像是否对应，更加贴合实际应用中图文对包括的图像与文本之间语义弱相关的实际情况，提高图文互检的准确性。且多模态预训练模型的网络结构灵活，方便在实际场景中快速部署，可应用到任意的图文交互的应用场景中。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请一实施例所提供的一种多模态预训练模型的训练方法的流程图；

图2示出了本申请一实施例所提供的多模态预训练模型的结构示意图；

图3示出了本申请一实施例所提供的图像编码器的结构示意图；

图4示出了本申请一实施例所提供的图文对的示意图；

图5示出了本申请一实施例所提供的一种多模态预训练模型的训练流程图；

图6示出了本申请一实施例所提供的多模态预训练模型的另一训练流程图；

图7示出了本申请一实施例所提供的图像编码器的特征提取流程图；

图8示出了本申请一实施例所提供的一种多模态预训练模型的应用方法的流程图；

图9示出了本申请一实施例所提供的多模态预训练模型的另一种应用方法的流程图；

图10示出了本申请一实施例所提供的多模态预训练模型的另一种应用方法的流程图；

图11示出了本申请一实施例所提供的一种多模态预训练模型的训练装置的结构示意图；

图12示出了本申请一实施例所提供的一种电子设备的结构示意图；

图13示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

下面结合附图来描述根据本申请实施例提出的一种多模态预训练模型的训练方法、应用方法及装置。

本申请实施例提供了一种多模态预训练模型的训练方法，该方法通过训练的多模态预训练模型来计算文本与图像整体之间的相似度，根据相似度来判断文本与图像是否对应，是基于图文弱相关的假设的，不通过单词与图像的语义对应关系来判断文本与图像是否对应，更加贴合实际应用中图文对包括的图像与文本之间语义弱相关的实际情况，提高图文互检的准确性。且多模态预训练模型中采用了双塔结构和跨模态对比学习算法，并且对于图像模态和文本模态都构建了对应的大量负样本，提高了多模态预训练模型中神经网络的表达能力，提高了处理图文对的精度。且多模态预训练模型的网络结构灵活，方便在实际场景中快速部署，可应用到任意的图文交互的应用场景中。

参见图1，该方法具体包括以下步骤：

步骤101：构建双塔结构的多模态预训练模型。

如图2所示，将图像编码器和图像动量编码器均与第一全连接层连接；将文本编码器和文本动量编码器均与第二全连接层连接；将第一全连接层和第二全连接层均与多层感知机连接；将多层感知机与跨模态对比学习模块连接，得到双塔结构的多模态预训练模型。

其中，图像编码器用于提取正样本图文对中图像对应的正样本图像特征向量，图像动量编码器用于提取负样本图文对中图像对应的负样本图像特征向量，第一全连接层用于将提取的正样本图像特征向量和负样本图像特征向量拼接在一起得到图像特征向量序列。文本编码器用于提取正样本图文对中文本对应的正样本文本特征向量，文本动量编码器用于提取负样本图文对中文本对应的负样本文本特征向量，第二全连接层用于将提取的正样本文本特征向量与负样本文本特征向量拼接在一起得到文本特征向量序列。多层感知机用于将图像特征向量序列与文本特征向量序列映射到同一空间下，多层感知机可以采用多层单模态Transformer。跨模态对比学习模块用于对处于同一空间下的图像特征向量序列与文本特征向量序列进行图文相似度对比学习。

如图3所示为本申请实施例所采用的图像编码器的结构示意图，该图像编码器包括图像目标检测器、特征图提取模块和池化层，图像目标检测器和特征图提取模块均与池化层连接。图像目标检测器用于提取图像的边框，特征图提取模块用于提取图像的特征图，然后在池化层中利用边框对提取的特征图进行池化得到图像对应的图像特征向量。图像目标检测器可以采用Faster RCNN(Faster Region-CNN)。特征图提取模块可以采用CNN(ConvolutionalNeuralNetworks，卷积神经网络)，如采用EfficientNet L2。池化层可以采用ROI Pooling(Region of Interest Pooling)。在本申请实施例中特征图提取模块所采用的神经网络可以方便地替换为任意能够提取图像特征的神经网络。

上述图像动量编码器的结构与上述图像编码器的结构相似，在此不再赘述。上述文本编码器和文本动量编码器可以采用Roberta-Large(Robust optimize bertapproachLarge)。

在本申请实施例中，上述各网络模块所采用的算法或网络均为示例性的，本申请实施例并不限制各网络模块所采用的算法或网络，实际应用中可根据需求选用能够实现各网络模块的功能的算法或网络。

通过本步骤的操作构建出多模态预训练模型后，通过如下步骤102和103的操作来训练该模型。

步骤102：获取正样本数据集和负样本数据集，正样本数据集包括正样本图文对，负样本数据集包括负样本图文对。

正样本数据集中包括大量的正样本图文对，负样本数据集包括大量的负样本图文对。图4示出了图文对的示意图，图4中(a)图为图文语义强相关的图文对示意图，(b)为图文语义弱相关的图文对示意图。本申请实施例是基于图文语义弱相关假设的，上述正样本数据集和负样本数据集中即包括图4中(a)所示的图文强相关的一类图文对，也包括图4中(b)所示的图文弱相关的一类图文对。

步骤103：根据正样本数据集和负样本数据集训练多模态预训练模型，多模态预训练模型包括跨模态对比学习模块，跨模态对比学习模块用于对正样本图文对和负样本图文对进行图文相似度对比学习。

通过步骤102获得作为训练集的正样本数据集和负样本数据集后，如图5所示，通过如下步骤S1-S7的操作来训练该多模态预训练模型，具体包括：

S1：在当前训练周期，将至少一个正样本图文对和多个负样本图文对输入多模态预训练模型。

多模态预训练模型具有自己的batch size(批量大小)，batch size规定了多模态预训练模型可以并行处理的图文对的数目。在当前训练周期，从正样本数据集中获取至少一个正样本图文对，从负样本数据集中获取多个负样本图文对。将获取的至少一个正样本图文对和多个负样本图文对输入多模态预训练模型。其中，输入的正样本图文对和负样本图文对的总数目等于batch size的值。

本申请实施例中，可以每个周期向多模态预训练模型中输入一个正样本图文对和多个负样本图文对，通过多模态预训练模型对比学习该一个正样本图文对与多个负样本图文对之间的图文相似度。也可以每个周期输入多个正样本图文对和多个负样本图文对，通过多模态预训练模型分别对比学习这多个正样本图文对和多个负样本图文对之间的图文相似度，其中每个正样本图文对所对应的多个负样本图文对可以相同，也可以不相同。

S2：通过图像编码器获得第一正样本图文对中图像对应的正样本图像特征向量；通过图像动量编码器获得每个负样本图文对中图像对应的负样本图像特征向量。

对于输入多模态预训练模型的每个正样本图文对，提取图像特征向量的操作均相同，本申请实施例以第一正样本图文对为例进行说明，第一正样本图文对为当前训练周期输入多模态预训练模型的任一正样本图文对。通过图像编码器提取第一正样本图文对中图像对应的正样本图像特征向量。具体地，先通过图像目标检测器提取第一正样本图文对中图像的边框，同时通过特征图提取模块提取第一正样本图文对中图像的特征图，然后通过池化层利用该边框对提取的特征图进行池化处理，得到第一正样本图文对中图像对应的正样本图像特征向量。

对于当前训练周期输入的每个负样本图文对，均分别通过图像动量编码器获得每个负样本图文对中图像对应的负样本图像特征向量。获得负样本图像特征向量的具体过程与获得正样本图像特征向量的具体过程相似，在此不再赘述。

S3：通过第一全连接层将正样本图像特征向量和每个负样本图像特征向量拼接为图像特征向量序列，然后执行步骤S6。

将图像编码器获得的正样本图像特征向量和图像动量编码器获得的每个负样本图像特征向量输入第一全连接层。通过第一全连接层将该正样本图像特征向量和每个负样本图像特征向量拼接为图像特征向量序列。

S4：通过文本编码器提取第一正样本图文对中文本对应的正样本文本特征向量；通过文本动量编码器提取每个负样本图文对中文本对应的负样本文本特征向量。

正样本文本特征向量的提取与负样本文本特征向量的提取是同步进行的。

S5：通过第二全连接层将正样本文本特征向量和每个负样本文本特征向量拼接成文本特征向量序列。

将文本编码器提取出的正样本文本特征向量和文本动量编码器提取的每个负样本文本特征向量输入第二全连接层。通过第二全连接层将该正样本文本特征向量和每个负样本文本特征向量拼接成文本特征向量序列。

如图5所示，上述S2和S3是顺序执行的，S4和S5是顺序执行的，而这两个分支是并行执行的，即图像特征向量序列的获得和文本特征向量序列的获得是并行执行的。

S6：通过多层感知机将图像特征向量序列和文本特征向量序列映射至同一空间下。

将步骤S3获得的图像特征向量序列和步骤S5获得的文本特征向量序列输入多层感知机中，通过多层感知机将图像特征向量序列和文本特征向量序列映射至同一空间下。

S7：根据正样本图像特征向量、正样本文本特征向量、处于同一空间下的图像特征向量序列和文本特征向量序列，通过跨模态对比学习模块进行图文相似度对比学习。

最后将步骤S2获得的正样本图像特征向量、S4获得的正样本文本特征向量，以及步骤S6获得的处于同一空间下的图像特征向量序列和文本特征向量序列输入跨模态对比学习模块，通过跨模态对比学习模块进行图文相似度对比学习。

具体地，通过跨模态对比学习模块分别计算正样本图像特征向量与文本特征向量序列中每个文本特征向量之间的相似度，得到图-文相似度序列。其中，图-文相似度序列中包括正样本图像特征向量与正样本文本特征向量之间的正例图-文相似度，也包括正样本图像特征向量与每个负样本文本特征向量之间的负例图-文相似度。通过跨模态对比学习模块分别计算正样本文本特征向量与图像特征向量序列中每个图像特征向量之间的相似度，得到文-图相似度序列。其中，文-图相似度序列中包括正样本文本特征向量与正样本图像特征向量之间的正例文-图相似度，也包括正样本文本特征向量与每个负样本图像特征向量之间的负例文-图相似度。

跨模态对比学习模块的最终目标函数为从上述负例和正例相似度中找到唯一的正例相似度，即找到正样本图文对中唯一对应自身图像特征的自身文本特征。或者找到正样本图文对中唯一对应自身文本特征的自身图像特征。通过这种跨模态对比学习算法可以持续优化多模态预训练模型中的图像编码器与文本编码器。

通过上述方式获得图-文相似度序列和文-图相似度序列之后，根据图-文相似度序列，通过检索损失函数计算正样本图像特征向量与每个文本特征向量之间的检索损失值，得到图-文损失序列。根据文-图相似度序列，通过检索损失函数计算正样本文本特征向量与每个图像特征向量之间的检索损失值，得到文-图损失序列。最后根据图-文损失序列和文-图损失序列，确定当前训练周期的最终损失值。该最终损失值即为图-文损失序列与文-图损失序列之和。

通过上述方式确定出当前训练周期的最终损失值后，将当前已训练周期数与预设训练次数进行比较，若已训练周期数大于或等于预设训练次数，则从已训练周期中确定最终损失值最小的训练周期，将最终损失值最小的训练周期对应的模型参数及多模态预训练模型的模型结构确定为最终训练好的多模态预训练模型。若已训练周期数小于预设训练次数，则根据当前训练周期的最终损失值调整模型参数，根据调整后的模型参数，按照上述步骤S1-S7的操作继续进行下一周期的训练，直至已训练周期数大于或等于预设训练次数时得到训练好的多模态预训练模型。

为了便于理解上述多模态预训练模型的训练过程，下面结合附图进行说明。如图6所示，图像A为正样本图文对中的图像，文本A为正样本图文对中的文本。图像B为负样本图文对中的图像，文本B为负样本图文对中的文本。f^I(*)包括通过图像目标检测器提取的图像A的边框以及通过特征图提取模块提取的图像A的特征图。

为通过池化层利用图像A的边框对图像A的特征图进行池化处理得到的正样本图像特征向量。

包括通过图像动量编码器中的图像目标检测器提取的图像B的边框以及通过图像动量编码器中的特征图提取模块提取的图像B的特征图。Q^I为通过图像动量编码器中的池化层利用图像B的边框对图像B的特征图进行池化处理得到的负样本图像特征向量。

为文本动量编码器，Q^T为通过文本动量编码器提取的文本B对应的负样本文本特征向量，f^T(*)为文本编码器，

为通过文本编码器提取的文本A对应的正样本文本特征向量。

正样本图像特征向量

和负样本图像特征向量Q^I通过第一全连接层拼接为图像特征向量序列，并通过多层感知机将图像特征向量序列映射到预设空间下。其中，图像特征向量序列中

为正样本图像特征向量，

表示多个负样本图像特征向量。正样本文本特征向量

和负样本文本特征向量Q^T通过第二全连接层拼接为文本特征向量序列，并通过多层感知机将文本特征向量序列映射到上述预设空间下，从而使文本特征向量序列与图像特征向量序列处于相同空间下。其中，文本特征向量序列中

为正样本文本特征向量，

表示多个负样本文本特征向量。

根据正样本图像特征向量

和文本特征向量序列

通过跨模态对比学习模块分别计算正样本图像特征向量

与文本特征向量序列

中每个文本特征向量之间的图-文相似度，然后依据计算的每个图-文相似度通过检索损失函数计算每个图-文相似度对应的检索损失值，得到图-文损失序列L_I2T。以及，根据正样本文本特征向量

和图像特征向量序列

通过跨模态对比学习模块分别计算正样本文本特征向量

与图像特征向量序列

中每个图像特征向量之间的文-图相似度，然后依据计算的每个文-图相似度通过检索损失函数计算每个文-图相似度对应的检索损失值，得到文-图损失序列L_T2I。将图-文损失序列L_I2T与文-图损失序列L_T2I相加，得到当前训练周期的最终损失值L。

对于图像编码器对图像特征向量的提取过程，如图7所示，正样本图文对中的图像A，通过图像目标检测器提取图像A的边框，图7中图像目标检测器采用了Faster RCNN。同时采用特征图提取模块提取图像A的特征图，图7中特征图提取模块采用CNN进行特征图提取。然后通过池化层ROI Pooling利用图像A的边框对图像A的特征图进行池化处理得到图像A的正样本图像特征向量，图7中的SA表示多层感知机，通过多层感知机将图像A的正样本图像特征向量映射到预设空间下。

本申请实施例还提供了一种多模态预训练模型的应用方法，该方法所采用的多模态预训练模型即为上述任一实施例所述的训练方法训练得到的多模态预训练模型。参见图8，该应用方法具体包括：

步骤201：获取待检测图文对和多个负样本图文对。

步骤202：通过上述训练的多模态预训练模型对待检测图文对和多个负样本图文对进行图文相似度对比，确定待检测图文对包括的图像和文本是否相互对应。

具体地，将待检测图文对和多个负样本图文对输入上述训练的多模态预训练模型中，通过图像编码器提取待检测图文对中图像对应的正样本图像特征向量，通过图像动量编码器提取每个负样本图文对中图像对应的负样本图像特征向量。以及，通过文本编码器提取待检测图文对中文本对应的正样本文本特征向量，通过文本动量编码器提取每个负样本图文对中文本对应的负样本文本特征向量。然后通过第一全连接层将正样本图像特征向量与每个负样本图像特征向量拼接成图像特征向量序列，通过第二全连接层将正样本文本特征向量与每个负样本文本特征向量拼接成文本特征向量序列。通过多层感知机将图像特征向量序列和文本特征向量序列映射到同一空间下。然后通过跨模态对比学习模块分别计算正样本图像特征向量与文本特征向量序列中每个文本特征向量之间的相似度，得到图-文相似度序列。通过跨模态对比学习模块分别计算正样本文本特征向量与图像特征向量序列中每个图像特征向量之间的相似度，得到文-图相似度序列。从图-文相似度序列中选择出相似度最高的图-文相似度，以及从文-图相似度序列中选择出相似度最高的文-图相似度。若相似度最高的图-文相似度为正样本图像特征向量与正样本文本特征向量之间的相似度，且相似度最高的文-图相似度为正样本文本特征向量与正样本图像特征向量之间的相似度，则确定待检测图文对包括的图像和文本是相互对应的。否则，确定待检测图文对包括的图像和文本不是相互对应的

在本申请实施例中，采用训练的多模态预训练模型来确定待检测图文对包括的图像和文本是否相互对应，该多模态预训练模型采用了双塔结构和跨模态对比学习算法，对于图像模态和文本模态都构建了对应的大量负样本，提高了多模态预训练模型中神经网络的表达能力，提高了图文互检精度。多模态预训练模型计算文本与图像整体之间的相似度，根据相似度来判断文本与图像是否对应，是基于图文弱相关的假设，不通过单词与图像的语义对应关系来判断文本与图像是否对应，更加贴合实际应用中图文对包括的图像与文本之间语义弱相关的实际情况，提高图文互检的准确性。

本申请实施例提供了另一种多模态预训练模型的应用方法，该方法所采用的多模态预训练模型即为上述任一实施例所述的训练方法训练得到的多模态预训练模型。参见图9中(a)图所示，该应用方法具体包括：

步骤301：获取待检索文本。

步骤302：根据待检索文本，通过上述训练的多模态预训练模型从预设图像库中搜索与待检索文本对应的图像。

具体地，获取待检索文本，将待检索文本与预设图像库中的图像输入上述训练的多模态预训练模型中，通过文本编码器提取待检测文本对应的文本特征向量。通过图像编码器提取预设图像库中每个图像对应的图像特征向量，通过第一全连接层将每个图像特征向量拼接成图像特征向量序列。通过多层感知机将图像特征向量序列和上述文本特征向量映射到同一空间下。然后通过跨模态对比学习模块分别计算文本特征向量与图像特征向量序列中每个图像特征向量之间的相似度，得到文-图相似度序列。从文-图相似度序列中选择出相似度最高的文-图相似度，将相似度最高的文-图相似度对应的图像特征向量所属的图像确定为与待检索文本对应的图像。或者，将相似度最高的文-图相似度与预设阈值比较，若相似度最高的文-图相似度大于或等于预设阈值，则将相似度最高的文-图相似度对应的图像特征向量所属的图像确定为与待检索文本对应的图像。否则，确定预设图像库中不存在与待检索文本对应的图像。

除了上述依据文本检索对应的图像外，本申请实施例还可以依据图像检索对应的文本，实现准确地图文互检。如图9中(b)图所示，具体通过以下步骤实现依据图像检索对应的文本：

步骤303：获取待检索图像。

步骤304：根据待检索图像，通过多模态预训练模型从预设文本库中搜索与待检索图像对应的文本。

具体地，获取待检索图像，将待检索图像与预设文本库中的文本输入上述训练的多模态预训练模型中，通过图像编码器提取待检测图像对应的图像特征向量。通过文本编码器提取预设文本库中每个文本对应的文本特征向量，通过第二全连接层将每个文本特征向量拼接成文本特征向量序列。通过多层感知机将文本特征向量序列和上述图像特征向量映射到同一空间下。然后通过跨模态对比学习模块分别计算图像特征向量与文本特征向量序列中每个文本特征向量之间的相似度，得到图-文相似度序列。从图-文相似度序列中选择出相似度最高的图-文相似度，将相似度最高的图-文相似度对应的文本特征向量对应的文本确定为与待检索图像对应的文本。或者，将相似度最高的图-文相似度与预设阈值比较，若相似度最高的图-文相似度大于或等于预设阈值，则将相似度最高的图-文相似度对应的文本特征向量对应的文本确定为与待检索图像对应的文本。否则，确定预设文本库中不存在与待检索图像对应的文本。

在本申请实施例中，采用训练的多模态预训练模型来进行图文互检，该多模态预训练模型采用了双塔结构和跨模态对比学习算法，对于图像模态和文本模态都构建了对应的大量负样本，提高了多模态预训练模型中神经网络的表达能力，提高了图文互检精度。多模态预训练模型计算文本与图像整体之间的相似度，根据相似度来判断进行文本或图像的检索，是基于图文弱相关的假设，不通过单词与图像的语义对应关系来判断文本与图像是否对应，更加贴合实际应用中图文对包括的图像与文本之间语义弱相关的实际情况，提高图文互检的准确性。

本申请实施例提供了一种多模态预训练模型的应用方法，该方法所采用的多模态预训练模型即为上述任一实施例所述的训练方法训练得到的多模态预训练模型。参见图10中(a)图所示，该应用方法具体包括：

步骤401：获取待处理文本。

步骤402：根据待处理文本和多模态预训练模型，生成待处理文本对应的图像。

具体地，获取待处理文本，将待处理文本输入上述任一实施例训练得到的多模态预训练模型中，在此基础上增加其他的预训练任务进行多任务预训练，例如增加基于文本生成图像的预训练任务，从而实现生成待处理文本对应的图像。

除了上述依据文本生成图像外，本申请实施例还可以依据图像生成对应的文本。如图10中(b)图所示，具体通过以下步骤实现依据图像生成文本：

步骤403：获取待处理图像。

步骤404：根据待处理图像和多模态预训练模型，生成待处理图像对应的文本。

具体地，获取待处理图像，将待处理图像输入上述任一实施例训练得到的多模态预训练模型中，在此基础上增加其他的预训练任务进行多任务预训练，例如增加基于图像生成文本的预训练任务，从而实现生成待处理图像对应的文本。

在本申请实施例中，采用训练的多模态预训练模型来进行图文相互转换生成，该多模态预训练模型采用了双塔结构和跨模态对比学习算法，对于图像模态和文本模态都构建了对应的大量负样本，提高了多模态预训练模型中神经网络的表达能力，提高了图文相互转换生成的准确性。多模态预训练模型计算文本与图像整体之间的相似度，是基于图文弱相关的假设，不通过单词与图像的语义对应关系来判断文本与图像是否对应，更加贴合实际应用中图文对包括的图像与文本之间语义弱相关的实际情况，提高图文相互生成的准确性。

上述图9和图10所示的多模态预训练模型的应用方法仅示意性地示出了多模态预训练模型的几种应用场景，实际应用中该多模态预训练模型可应用至任意与图像和文本相互匹配相关的场景中。例如，可以利用该多模态预训练模型对外提供图文特征表示以及图文匹配度的API(Application Programming Interface，应用程序接口)，在下游任务中非常方便部署，特别是能够利用向量引擎极大地提高图文互检的效率。本申请实施例并不限制该多模态预训练模型的应用场景，实际应用中可根据需求来使用该多模态预训练模型。

本申请实施例还提供一种多模态预训练模型的训练装置，该装置用于执行上述任一实施例提供的多模态预训练模型的训练方法。参见图11，该装置包括：

模型构建模块1101，用于构建双塔结构的多模态预训练模型；

数据集获取模块1102，用于获取正样本数据集和负样本数据集，正样本数据集包括正样本图文对，负样本数据集包括负样本图文对；

模型训练模块1103，用于根据正样本数据集和负样本数据集训练多模态预训练模型，多模态预训练模型包括跨模态对比学习模块，跨模态对比学习模块用于对正样本图文对和负样本图文对进行图文相似度对比学习。

模型构建模块1101，用于将图像编码器和图像动量编码器均与第一全连接层连接；将文本编码器和文本动量编码器均与第二全连接层连接；将第一全连接层和第二全连接层均与多层感知机连接；将多层感知机与跨模态对比学习模块连接，得到双塔结构的多模态预训练模型。

模型训练模块1103，用于在当前训练周期，将至少一个正样本图文对和多个负样本图文对输入多模态预训练模型；通过图像编码器获得第一正样本图文对中图像对应的正样本图像特征向量；通过图像动量编码器获得每个负样本图文对中图像对应的负样本图像特征向量，第一正样本图文对为输入的任一正样本图文对；通过第一全连接层将正样本图像特征向量和每个负样本图像特征向量拼接为图像特征向量序列；通过文本编码器提取第一正样本图文对中文本对应的正样本文本特征向量；通过文本动量编码器提取每个负样本图文对中文本对应的负样本文本特征向量；通过第二全连接层将正样本文本特征向量和每个负样本文本特征向量拼接成文本特征向量序列；通过多层感知机将图像特征向量序列和文本特征向量序列映射至同一空间下；根据正样本图像特征向量、正样本文本特征向量、处于同一空间下的图像特征向量序列和文本特征向量序列，通过跨模态对比学习模块进行图文相似度对比学习。

模型训练模块1103，用于通过跨模态对比学习模块分别计算正样本图像特征向量与文本特征向量序列中每个文本特征向量之间的相似度，得到图-文相似度序列；通过跨模态对比学习模块分别计算正样本文本特征向量与图像特征向量序列中每个图像特征向量之间的相似度，得到文-图相似度序列；根据图-文相似度序列，通过检索损失函数计算正样本图像特征向量与每个文本特征向量之间的检索损失值，得到图-文损失序列；根据文-图相似度序列，通过检索损失函数计算正样本文本特征向量与每个图像特征向量之间的检索损失值，得到文-图损失序列；根据图-文损失序列和文-图损失序列，确定当前训练周期的最终损失值。

模型训练模块1103，还用于若已训练周期数大于或等于预设训练次数，则从已训练周期中确定最终损失值最小的训练周期，将最终损失值最小的训练周期对应的模型参数及多模态预训练模型的模型结构确定为最终训练好的多模态预训练模型；若已训练周期数小于预设训练次数，则根据最终损失值调整模型参数，根据调整后的模型参数进行下一周期的训练。

本申请的上述实施例提供的多模态预训练模型的训练装置与本申请实施例提供的多模态预训练模型的训练方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种电子设备，以执行上述多模态预训练模型的训练方法或执行上述多模态预训练模型的应用方法。请参考图12，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图12所示，电子设备12包括：处理器1200，存储器1201，总线1202和通信接口1203，所述处理器1200、通信接口1203和存储器1201通过总线1202连接；所述存储器1201中存储有可在所述处理器1200上运行的计算机程序，所述处理器1200运行所述计算机程序时执行本申请前述任一实施方式所提供的多模态预训练模型的训练方法或应用方法。

其中，存储器1201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口1203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线1202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器1201用于存储程序，所述处理器1200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述多模态预训练模型的训练方法或应用方法可以应用于处理器1200中，或者由处理器1200实现。

处理器1200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1200读取存储器1201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的多模态预训练模型的训练方法或应用方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的多模态预训练模型的训练方法或应用方法对应的计算机可读存储介质，请参考图13，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的多模态预训练模型的训练方法或应用方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的多模态预训练模型的训练方法或应用方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多模态预训练模型的训练方法，其特征在于，包括：

构建双塔结构的多模态预训练模型；

2.根据权利要求1所述的方法，其特征在于，所述构建双塔结构的多模态预训练模型，包括：

将图像编码器和图像动量编码器均与第一全连接层连接；

将文本编码器和文本动量编码器均与第二全连接层连接；

3.根据权利要求2所述的方法，其特征在于，所述根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型，包括：

通过所述图像编码器获得第一正样本图文对中图像对应的正样本图像特征向量；通过所述图像动量编码器获得每个所述负样本图文对中图像对应的负样本图像特征向量，所述第一正样本图文对为输入的任一正样本图文对；

4.根据权利要求3所述的方法，其特征在于，所述根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列，通过所述跨模态对比学习模块进行图文相似度对比学习，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定当前训练周期的最终损失值之后，还包括：

6.一种多模态预训练模型的应用方法，其特征在于，包括：

获取待检测图文对和多个负样本图文对；

通过权利要求1-5任一项所述的训练方法训练的多模态预训练模型对所述待检测图文对和所述多个负样本图文对进行图文相似度对比，确定所述待检测图文对包括的图像和文本是否相互对应。

7.一种多模态预训练模型的应用方法，其特征在于，包括：

根据待检索文本，通过权利要求1-5任一项所述的训练方法训练的多模态预训练模型从预设图像库中搜索与所述待检索文本对应的图像；或者，根据待检索图像，通过所述多模态预训练模型从预设文本库中搜索与所述待检索图像对应的文本；或者，

8.一种多模态预训练模型的训练装置，其特征在于，包括：

模型构建模块，用于构建双塔结构的多模态预训练模型；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。