CN114022735A

CN114022735A - 视觉语言预训练模型的训练方法、装置、设备及介质

Info

Publication number: CN114022735A
Application number: CN202111321649.XA
Authority: CN
Inventors: 曾妍; 张新松; 李航
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-08
Anticipated expiration: 2041-11-09
Also published as: US20240119725A1; CN114022735B; WO2023082915A1

Abstract

本申请提供了一种视觉语言预训练模型的训练方法、装置、设备及介质，该方法包括：获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：第一图像与第一图像的描述文本构成的第一配对组、第一图像的局部图像与局部图像的描述文本构成的第二配对组，N为大于1的整数，第一图像是N幅图像中的任一图像；根据N幅图像各自对应的配对组对视觉语言预训练模型进行训练，使得模型可以学习到图像的更多细节特征与描述文本的一一对应关系，从而可以更好地适应于下游任务。

Description

视觉语言预训练模型的训练方法、装置、设备及介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视觉语言预训练模型的训练方法、装置、设备及介质。

背景技术

通常训练装置可以通过大量的图像以及该图像的文本描述构成的配对组可以训练视觉语言预训练模型，进一步地，训练装置可以对该视觉语言预训练模型进行微调，使得经过微调后的视觉语言预训练模型可以应用在图文检索任务、视觉问答任务、视觉推理任务和视觉基础训练等下游业务中。因此，视觉语言预训练模型的训练过程至关重要，其直接影响着下游任务的执行效果。

目前存在一些如像素-来自Transformer的双向编码器表示(Pixel-Bidirectional Encoder Representations from Transformers，Pixel-BERT)、无框限制的端到端视觉语言预训练(Seeing Out of tHe bOx，SOHO)、无需卷积或区域标注的视觉语言模型(Vision-and-Language Transformer without convolution or regionsupervision，ViLT)、先对齐再理解的视觉语言模型(ALign BEfore Fuse，ALBEF)等视觉语言预训练模型，训练装置对这类模型的训练都是通过图像以及图像的文本描述构成的配对组进行的，然而这使得模型只学习到了这种粗粒度的配对组，导致经过训练后的模型不能更好地适应于下游任务。

发明内容

本申请提供一种视觉语言预训练模型的训练方法、装置、设备及介质，使得训练后的视觉语言预训练模型可以更好的适应于下游任务。

第一方面，本申请提供一种视觉语言预训练模型的训练方法，包括：获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：第一图像与第一图像的描述文本构成的第一配对组、第一图像的局部图像与局部图像的描述文本构成的第二配对组，N为大于1的整数，第一图像是N幅图像中的任一图像；根据N幅图像各自对应的配对组对视觉语言预训练模型进行训练。

第二方面，本申请提供一种视觉语言预训练模型的训练装置，包括：获取模块和训练模块，其中，获取模块用于获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：第一图像与第一图像的描述文本构成的第一配对组、第一图像的局部图像与局部图像的描述文本构成的第二配对组，N为大于1的整数，第一图像是N幅图像中的任一图像；训练模块用于根据N幅图像各自对应的配对组对视觉语言预训练模型进行训练。

第三方面，提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。

第四方面，提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

第五方面，提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

第六方面，提供一种计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

通过本申请技术方案，电子设备可以通过图像以及其对应的描述文本构成的粗粒度的配对组，以及，图像的局部图像以及该局部图像对应的描述文本构成的细粒度的配对组来训练视觉语言预训练模型，使得模型可以学习到图像的更多细节特征与描述文本的一一对应关系，从而可以更好地适应于下游任务。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视觉语言预训练模型的训练方法；

图2为本申请实施例提供的图像与对应的描述文本构成的配对组的示意图；

图3为本申请实施例提供的局部区域图像与对应的描述文本构成的配对组的示意图；

图4为本申请实施例提供的物体图像与对应的描述文本构成的配对组的示意图；

图5为本申请实施例提供的视觉语言预训练模型的训练过程和应用过程的流程图；

图6为本申请实施例提供的视觉语言预训练模型的示意图；

图7为本申请实施例提供的转换模块的示意图；

图8为本申请实施例提供的基于检测视觉任务的模型训练示意图；

图9为本申请实施例提供的基于建模相关性任务的模型训练示意图；

图10为本申请实施例提供的一种视觉语言预训练模型的训练装置1000的示意图；

图11是本申请实施例提供的电子设备1100的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请技术方案之前，下面先对本申请技术方案的相关知识进行阐述：

视觉语言预训练模型

视觉语言预训练模型的训练过程可以包括：预训练(Pre-Training)阶段和微调(Fine-Tuning)阶段。其中，在预训练阶段，可以使用大量图像-描述文本构成的配对组来训练视觉语言预训练模型。在微调阶段，可以使用少量数据来微调语言预训练模型。

应理解的是，视觉语言预训练模型也被称为视觉语言模型或者预训练的视觉语言模型(Pre-Trained Vision Language Model)。

如上所述，目前存在一些如Pixel-BERT、SOHO、ViLT、ALBEF等视觉语言预训练模型，训练装置对这类模型的训练都是通过图像以及图像的文本描述构成的配对组进行的，然而这使得模型只学习到了这种粗粒度的配对组，导致经过训练后的模型不能更好的适应于下游任务。

为了解决上述技术问题，本申请通过图像以及其对应的描述文本构成的粗粒度的配对组，以及，图像的局部图像以及该局部图像对应的描述文本构成的细粒度的配对组来训练视觉语言预训练模型，使得模型可以学习到图像的更多细节特征与描述文本的一一对应关系，从而可以更好地适应于下游任务。

下面将对本申请技术方案进行详细阐述：

图1为本申请实施例提供的一种视觉语言预训练模型的训练方法，该方法可以由台式电脑、笔记本电脑、平板等电子设备执行，本申请对此不做限制，如图1所示，该方法包括如下步骤：

S110：获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：第一图像与第一图像的描述文本构成的第一配对组、第一图像的局部图像与局部图像的描述文本构成的第二配对组，N为大于1的整数，第一图像是N幅图像中的任一图像；

S120：根据N幅图像各自对应的配对组对视觉语言预训练模型进行训练。

应理解的是，N幅图像各自对应的配对组构成视觉语言预训练模型的训练集，该训练集用于训练视觉语言预训练模型。

在一些可实现方式中，第一图像的局部图像是第一图像的局部区域图像和/或物体图像，相应的，局部图像的描述文本包括：局部区域图像和/或物体图像的描述文本。

应理解的是，局部区域图像可以包括一个或者多个物体图像，也就是说，第一图像、局部区域图像和物体图像的粒度大小顺序是：第一图像的粒度大于局部区域图像的粒度，局部区域图像的粒度大于物体图像的粒度。

示例性地，图2示例性地示出了4幅图像，每幅图像下的描述文本是该图像对应的描述文本；图3示例性地示出了2幅图像，其中，矩形框所框的两个区域都是局部区域图像，每幅局部区域图像下的描述文本是该局部区域图像对应的描述文本；图4示例性地示出了3幅图像，其中，矩形框所框的两个区域都是物体图像，每幅物体图像下的描述文本是该物体图像对应的描述文本。

为了更好地训练视觉语言预训练模型，电子设备可以对组对视觉语言预训练模型进行多任务训练。

在一些可实现方式中，多任务包括：检测视觉任务和建模相关性任务，但不限于此。其中，检测视觉任务是根据局部图像的描述文本，检测局部图像的任务；建模相关性任务是建立第一图像与N幅图像各自对应的配对组中任一描述文本的相关性、局部图像与N幅图像各自对应的配对组中任一描述文本的相关性的任务。

应理解的是，由检测视觉任务的定义可知，电子设备通过检测视觉任务对视觉语言预训练模型的训练，使得该模型可以学习到配对组内部的情况，即局部图像与局部图像对应的描述文本之间的对应关系。由建模相关性任务的定义可知，电子设备通过建模相关性任务对视觉语言预训练模型的训练，使得该模型可以学习到配对组之间的情况，即任一图像与任一描述文本之间的对应关系，该任一图像可以是整幅图像，也可以是整幅图像中的局部图像。

应理解的是，模型训练过程中损失函数的建立至关重要，而检测视觉任务和建模相关性任务对应的损失函数可以是如下情况，但不限于此：

检测视觉任务的损失函数包括以下至少一项：L1损失函数、交并比(Interp overUnion，IoU)损失函数，或者，检测视觉任务的损失函数包括以下至少一项：L2损失函数、IoU损失函数，总之，本申请对检测视觉任务的损失函数不做限制。

需要说明的是，若检测视觉任务的损失函数包括多项，则电子设备在计算该检测视觉任务的损失时，可以对这多项损失进行求和，或者求加权平均值。

L1损失函数也就是L1范数损失函数，也被称为最小绝对值偏差或者最小绝对值误差，总的来说，就是把目标值与估计值的绝对差值的总和最小化，具体可以参考公式(4)：

其中，S表示目标值与估计值的绝对差值的总和；x_i表示任一局部图像的描述文本；f(x_i)表示经过视觉语言预训练模型的预测得到的x_i所对应的预测值，该预测值是一局部图像；Y_i是x_i所对应的目标值，也就是实际对应的局部图像；n表示训练集中所有局部图像所对应的描述文本的数量。

L2损失函数也就是L2范数损失函数，也被称为最小平方误差，总的来说，就是把目标值与估计值的差值的平方和最小化，具体可以参考公式(5)：

其中，S表示目标值与估计值的差值的平方和；x_i表示任一局部图像的描述文本；f(x_i)表示经过视觉语言预训练模型的预测得到的x_i所对应的预测值，该预测值是一局部图像；Y_i是x_i所对应的目标值，也就是实际对应的局部图像；n表示训练集中所有局部图像所对应的描述文本的数量。

IoU是计算同一描述文本所对应的预测局部图像与真实局部图像的交并比，具体可以参见公式(6)：

进一步地，电子设备可以对训练集中所有局部图像对应的描述文本所对应的IoU求和再求平均值，以得到最终的IoU损失。

在一些可实现方式中，建模相关性任务对应的损失函数包括以下至少一项，但不限于此：对比损失、交叉熵损失、掩码语言模型(Masked Language Modeling，MLM)损失，总之，本申请对建模相关性任务对应的损失函数不做限制。

需要说明的是，若建模相关性任务对应的损失函数包括多项，则电子设备在计算该建模相关性任务的损失时，可以对这多项损失进行求和，或者求加权平均值。

应理解的是，在计算对比损失、交叉熵损失以及MLM损失时，都是基于图像的图像表示和描述文本的文本表示进行的，其中，该图像可以是整幅图像，这时该图像表示也被称为该图像的全局表示，或者，该图像可以是局部图像，这时该图像表示也被称为该局部图像所在的整幅图像的局部表示。

应理解的是，在本申请中，图像表示指的是图像经过编码之后的表示向量，文本表示指的是文本经过编码之后的表示向量。

在一些可实现方式中，电子设备可以采用如下公式(7)计算训练集中每幅图像对应的图像表示与该图像表示实际对应的文本表示的对比损失，最后对这些对比损失求和，或者求加权平均值，以得到最终的对比损失：

其中，A_i表示训练集中第i幅图像对应的图像表示，B_i表示与第i幅图像构成配对组的描述文本对应的文本表示，B_j表示训练集中第j幅图像构成配对组的描述文本对应的文本表示，m表示训练集中包括的描述文本的数量，S表示第i幅图像对应的图像表示与该图像表示实际对应的文本表示的对比损失。

在一些可实现方式中，电子设备可以采用公式(8)计算交叉熵损失：

其中，m可以取值为训练集中所有图像数量的二倍，这里的图像包括：整幅图像以及局部图像，n表示配对类型的数量，在本申请中，n＝2，这是因为配对类型包括：配对成功类型和配对失败类型，p(x_ij)表示第i个配对组是第j个配对类型的真实概率，q(x_ij)表示第i个配对组是第j个配对类型的预测概率。

应理解的是，m之所以取值为训练集中所有图像数量的二倍，是因为在计算交叉熵损失时，针对任一个图像，只需要选择其对应的真实描述文本，对它们进行交叉熵损失预测，以及，选择其对应另一个非真实描述文本，对它们进行交叉熵损失预测即可。

示例性地，假设第i个图像对应的真实描述文本是第i个描述文本，并且该第i个图像对应的预测描述文本是第i个描述文本的概率是0.7，该第i个图像对应的预测描述文本不是第i个描述文本的概率是0.3，也就是说，该第i个图像与第i个描述文本的预测匹配成功的概率是0.7，该第i个图像与第i个描述文本的预测匹配失败的概率是0.3，那么电子设备可以计算该第i个图像和该第i个描述文本对应的交叉熵损失为-(0*log(0.3)+1*log(0.7))。

应理解的是，MLM损失是针对训练集中的描述文本而言的，其计算过程可以参考现有的MLM损失计算方法，本申请对此不再赘述。

在一些可实现方式中，电子设备在求得检测视觉任务和建模相关性任务对应的损失之后，可以对损失求和或者求平均，当该最终得到的损失达到最小或者收敛时，则停止模型训练，或者，当迭代次数达到预设阈值时，则停止模型训练，总之，本申请对模型的训练停止条件不做限制。

进一步地，电子设备在对视觉语言预训练模型进行训练之后，还可以对视觉语言预训练模型进行微调，以适应于不同的下游任务，例如：如图5所示，通过多个第一配对组、多个第二配对组构成的训练集可以对视觉语言预训练模型进行训练，输出一个训练后的视觉语言预训练模型，为了便于区分训练前和训练后的视觉语言预训练模型，图5中将训练前的视觉语言预训练模型称为视觉语言预训练模型，将训练后的视觉语言预训练模型称为预训练模型。进一步地，可以通过多模态下游任务语料微调预训练模型，应理解的是，这里的多模态任务语料指的是包括视觉和语言两种模态的任务语料。更进一步地，经过微调之后的预训练模型可以应用于如图文检索任务、视觉问答任务、视觉推理任务和视觉基础训练等下游业务中。

综上，在本申请中，电子设备可以通过图像以及其对应的描述文本构成的粗粒度的配对组，以及，图像的局部图像以及该局部图像对应的描述文本构成的细粒度的配对组来训练视觉语言预训练模型，使得模型可以学习到图像的更多细节特征与描述文本的一一对应关系，从而可以更好地适应于下游任务。

进一步地，电子设备可以对视觉语言预训练模型进行多任务训练，例如：通过检测视觉任务和建模相关性任务来对视觉语言预训练模型进行训练，如上所述，电子设备通过检测视觉任务对视觉语言预训练模型的训练，使得该模型可以学习到配对组内部的情况，通过建模相关性任务对视觉语言预训练模型的训练，使得该模型可以学习到配对组之间的情况，使得模型可以进一步地学习到图像的更多细节特征与描述文本的一一对应关系，从而可以更好地适应于下游任务。

下面对本申请提供的视觉语言预训练模型进行介绍：

图6为本申请实施例提供的视觉语言预训练模型的示意图，如图6所示，该视觉语言预训练模型包括：转换模块、第一转换器和第二转换器，其中，该模型的输入是N幅图像各自对应的配对组，转换模块用于对第一图像进行编码，得到第一图像的全局表示，并根据第一图像的全局表示和局部图像对局部图像进行编码，得到第一图像的局部表示；第一转换器用于对第一图像的描述文本进行编码，得到第一图像的文本表示，并对局部图像的描述文本进行编码，得到局部图像的文本表示；第二转换器用于对第一图像的全局表示、第一图像的局部表示、第一图像的文本表示和局部图像的文本表示进行编码，得到第一图像的多模态表示。

图7为本申请实施例提供的转换模块的示意图，如图7所示，该转换模块包括：卷积层、第三转换器和第四转换器，其中，卷积层用于对第一图像进行卷积处理，得到第一图像的卷积处理结果；第三转换器用于对第一图像的卷积处理结果进行编码，得到第一图像的全局表示；第四转换器用于对第一图像的全局表示和局部图像进行处理，得到第一图像的局部表示。

在一些可实现方式中，该卷积层是Conv2d Layer，但不限于此。

在一些可实现方式中，第三转换器也就是一个N层的Transformer，N＝6或12等，本申请对此不做限制。

在一些可实现方式中，第四转换器也就是一个N层的Transformer，N＝6或12等，本申请对此不做限制。

在一些可实现方式中，第一转换器也就是一个N层的Transformer，N＝6或12等，本申请对此不做限制。

在一些可实现方式中，第二转换器也就是一个N层的Transformer，N＝6或12等，本申请对此不做限制。应理解的是，由于第二转换器可以对图像表示(包括图像的全局表示和局部表示)以及文本表示进行处理，因此，该第二转换器也被称为多模态转换器。

图8为本申请实施例提供的基于检测视觉任务的模型训练示意图，如图8所示，在第二转换器得到第一图像的多模态表示之后，电子设备可以通过线性层(Linear Layer)和激活层(Sigmoid)对该多模态表示进行处理，并基于此得到关于检测视觉任务的损失。

图9为本申请实施例提供的基于建模相关性任务的模型训练示意图，如图9所示，假设该建模相关性任务对应的损失函数包括：对比损失、交叉熵损失和MLM损失，其中，对比损失是根据第一转换器输出的文本表示和转换模块输出的第一图像的全局表示和局部表示计算得到的，而交叉熵损失和MLM损失可以在整个12层进行。

下面将本申请得到的视觉语言预训练模型与通过现有技术训练得到的视觉语言预训练模型，应用于图文检索任务、视觉问答任务、视觉推理任务和视觉基础训练下游业务，来比较本申请技术方案与现有技术方案之间的优劣情况：

图文检索任务，其主要是通过图像来检索对应描述文本，或者通过描述文本来检索对应的图像，典型的图文检索任务有Retrieval COCO和Retrieval Flickr，表1主要在Retrieval Flickr30K的1K测试集和Retrieval COCO的5K测试集上进行测评。

视觉问答任务，其主要根据图像以及对应的描述问题来回答问题的任务。典型的视觉问答任务可以是VQA。

视觉推理任务，其主要是判断描述文本是否能够正确的描述图像，典型的视觉推理任务可以是NLVR^2。

视觉基础训练，其主要是在图像中圈出和描述文本对应的区域的任务，典型的视觉基础训练可以是RefCOCO。本申请主要考察两种设定下的模型能力，一种是弱监督场景，即不提供边界框相关的标注信息进行模型训练；另外一种是利用边界框(bbox)的监督信号。

表1

其中，训练语料为4M，表示使用了400万图文进行模型训练；训练语料为14M，表示使用了1400万图文进行模型训练。

综上，通过表1的测评结果可知，通过本申请所训练得到的模型，其更加适用于下游任务。

图10为本申请实施例提供的一种视觉语言预训练模型的训练装置1000的示意图，如图10所示，该装置1000包括：获取模块1010和训练模块1020，其中，获取模块1010用于获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：第一图像与第一图像的描述文本构成的第一配对组、第一图像的局部图像与局部图像的描述文本构成的第二配对组，N为大于1的整数，第一图像是N幅图像中的任一图像；训练模块1020用于根据N幅图像各自对应的配对组对视觉语言预训练模型进行训练。

在一些可实现方式中，训练模块1020具体用于：根据N幅图像各自对应的配对组对视觉语言预训练模型进行多任务训练。

在一些可实现方式中，多任务包括：检测视觉任务和建模相关性任务；其中，检测视觉任务是根据局部图像的描述文本，检测局部图像的任务；建模相关性任务是建立第一图像与N幅图像各自对应的配对组中任一描述文本的相关性、局部图像与N幅图像各自对应的配对组中任一描述文本的相关性的任务。

在一些可实现方式中，视觉语言预训练模型包括：

转换模块，用于对第一图像进行编码，得到第一图像的全局表示，并根据第一图像的全局表示和局部图像对局部图像进行编码，得到第一图像的局部表示；

第一转换器，用于对第一图像的描述文本进行编码，得到第一图像的文本表示，并对局部图像的描述文本进行编码，得到局部图像的文本表示；

第二转换器，用于对第一图像的全局表示、第一图像的局部表示、第一图像的文本表示和局部图像的文本表示进行编码，得到第一图像的多模态表示。

在一些可实现方式中，转换模块包括：

卷积层，用于对第一图像进行卷积处理，得到第一图像的卷积处理结果；

第三转换器，用于对第一图像的卷积处理结果进行编码，得到第一图像的全局表示；

第四转换器，用于对第一图像的全局表示和局部图像进行处理，得到第一图像的局部表示。

在一些可实现方式中，局部图像包括：第一图像的局部区域图像和/或物体图像；相应的，局部图像的描述文本包括：局部区域图像和/或物体图像的描述文本。

在一些可实现方式中，装置1000还包括：微调模块1030，用于在训练模块1020根据N幅图像各自对应的配对组对视觉语言预训练模型进行训练之后，对视觉语言预训练模型进行微调。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图10所示的装置1000可以执行图1对应的方法实施例，并且装置1000中的各个模块的前述和其它操作和/或功能分别为了实现图1中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置1000。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图11是本申请实施例提供的电子设备1100的示意性框图。

如图11所示，该电子设备1100可包括：

存储器1111和处理器1120，该存储器1111用于存储计算机程序，并将该程序代码传输给该处理器1120。换言之，该处理器1120可以从存储器1111中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器1120可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器1120可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器1111包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1111中，并由该处理器1120执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图11所示，该电子设备还可包括：

收发器1130，该收发器1130可连接至该处理器1120或存储器1111。

其中，处理器1120可以控制该收发器1130与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器1130可以包括发射机和接收机。收发器1130还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种视觉语言预训练模型的训练方法，其特征在于，包括：

获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：所述第一图像与所述第一图像的描述文本构成的第一配对组、所述第一图像的局部图像与所述局部图像的描述文本构成的第二配对组，N为大于1的整数，所述第一图像是所述N幅图像中的任一图像；

根据所述N幅图像各自对应的配对组对视觉语言预训练模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述根据所述N幅图像各自对应的配对组对视觉语言预训练模型进行训练，包括：

根据所述N幅图像各自对应的配对组对所述视觉语言预训练模型进行多任务训练。

3.根据权利要求2所述的方法，其特征在于，所述多任务包括：检测视觉任务和建模相关性任务；

其中，所述检测视觉任务是根据所述局部图像的描述文本，检测所述局部图像的任务；所述建模相关性任务是建立所述第一图像与所述N幅图像各自对应的配对组中任一描述文本的相关性、所述局部图像与所述N幅图像各自对应的配对组中任一描述文本的相关性的任务。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述视觉语言预训练模型包括：

转换模块，用于对所述第一图像进行编码，得到所述第一图像的全局表示，并根据所述第一图像的全局表示和所述局部图像对所述局部图像进行编码，得到所述第一图像的局部表示；

第一转换器，用于对所述第一图像的描述文本进行编码，得到所述第一图像的文本表示，并对所述局部图像的描述文本进行编码，得到所述局部图像的文本表示；

第二转换器，用于对所述第一图像的全局表示、所述第一图像的局部表示、所述第一图像的文本表示和所述局部图像的文本表示进行编码，得到所述第一图像的多模态表示。

5.根据权利要求4所述的方法，其特征在于，所述转换模块包括：

卷积层，用于对所述第一图像进行卷积处理，得到所述第一图像的卷积处理结果；

第三转换器，用于对所述第一图像的卷积处理结果进行编码，得到所述第一图像的全局表示；

第四转换器，用于对所述第一图像的全局表示和所述局部图像进行处理，得到所述第一图像的局部表示。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述局部图像包括：所述第一图像的局部区域图像和/或物体图像；

所述局部图像的描述文本包括：所述局部区域图像和/或所述物体图像的描述文本。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述N幅图像各自对应的配对组对视觉语言预训练模型进行训练之后，还包括：

对所述视觉语言预训练模型进行微调。

8.一种视觉语言预训练模型的训练装置，其特征在于，包括：

获取模块，用于获取N幅图像各自对应的配对组，其中，第一图像的配对组包括：所述第一图像与所述第一图像的描述文本构成的第一配对组、所述第一图像的局部图像与所述局部图像的描述文本构成的第二配对组，N为大于1的整数，所述第一图像是所述N幅图像中的任一图像；

训练模块，用于根据所述N幅图像各自对应的配对组对视觉语言预训练模型进行训练。

9.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至7中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述的方法。