CN116167434B

CN116167434B - 一种弱监督视觉语言预训练模型的训练方法和装置

Info

Publication number: CN116167434B
Application number: CN202310445450.0A
Authority: CN
Inventors: 刘洋; 陈驰; 李鹏; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-04
Anticipated expiration: 2043-04-24
Also published as: CN116167434A

Abstract

本发明提供一种弱监督视觉语言预训练模型的训练方法和装置，包括：选定若干个对齐的图文对，并将每一个图文对作为一个图文锚点对；基于图片数据集/文本数据集中每一个图片/文本与每一个图片锚点/文本锚点的相似度，确定图片数据集/文本数据集中每一个图片/文本的相对表征；根据图片数据集中每一个图片的相对表征和文本数据集中每一个文本的相对表征，构建伪平行图文数据集；利用伪平行图文数据集训练视觉语言预训练模型。本发明使用相对表征来作为图片和文本的统一表示，在相对表征的基础上构建高质量的伪平行数据，并利用伪平行数据训练的弱监督视觉语言预训练模型，以使模型具有更强跨模态理解能力。

Description

一种弱监督视觉语言预训练模型的训练方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种弱监督视觉语言预训练模型的训练方法和装置。

背景技术

视觉语言预训练模型是在大规模图文数据集上预训练的，用于学习图片内容和自然语言文本的联合表征。预训练完成后，微调视觉语言预训练模型，即可迁移到视觉语言理解任务（例如视觉问答、视觉推理、视觉蕴含、跨模态检索等）上。

目前，常采用有监督视觉语言预训练或者弱监督有监督视觉语言预训练方式训练模型。前者对对齐的图文数据对进行学习以获得跨模态理解能力，但是对齐的图文数据对往往需要进行人工标注或数据清洗，数据开销大。后者基于图片局部区域（region）-文本标签（tag）的对齐信息来表示图片和文本，构建的伪平行数据质量不高，训练出的模型的跨模态理解能力较差。

因此，亟需提供一种新的弱监督视觉语言预训练模型的训练方法。

发明内容

为解决上述问题，本发明提供一种弱监督视觉语言预训练模型的训练方法和装置，将图片/文本与选定图片锚点/文本锚点的相似度作为图片/文本的相对表征，以实现不同模态（图片和文本）的统一表示，而后在相对表征的基础上构建高质量的伪平行数据，并利用伪平行数据训练的弱监督视觉语言预训练模型，以使模型具有更强跨模态理解能力。

第一方面，本发明提供一种弱监督视觉语言预训练模型的训练方法，所述方法包括：

选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；

基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；

基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；

根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；

利用所述伪平行图文数据集训练视觉语言预训练模型。

根据本发明提供的弱监督视觉语言预训练模型的训练方法，所述基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征，包括：

对于所述图片数据集中每一个图片，将所述图片与每一个图片锚点的相似性所构成的相似性矩阵作为所述图片的相对表征；

所述基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征，包括：

对于所述文本数据集中每一个文本，将所述文本与每一个文本锚点的相似性所构成的相似性矩阵作为所述文本的相对表征。

根据本发明提供的弱监督视觉语言预训练模型的训练方法，

所述图片与任一图片锚点的相似度的确定过程，包括：

将所述图片代入视觉预训练模型中，得到第一输出；

将所述任一图片锚点代入所述视觉预训练模型中，得到第二输出；

将所述第一输出与所述第二输出的余弦相似度作为所述图片与所述任一图片锚点的相似度；

所述文本与任一文本锚点的相似度的确定过程，包括：

将所述文本代入文本预训练模型中，得到第三输出；

将所述任一文本锚点代入所述文本预训练模型中，得到第四输出；

将所述第三输出与所述第四输出的余弦相似度作为所述文本与所述任一文本锚点的相似度。

根据本发明提供的弱监督视觉语言预训练模型的训练方法，所述根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集，包括：

对于所述图片数据集中每一个图片，计算所述图片的相对表征与所述文本数据集中每一个文本的相对表征之间的余弦相似度；

查找最大的余弦相似度对应的文本；

将所述图片与所述文本构成的图文对作为所述图片对应的伪平行图文对；

利用所述图片数据集所有图片各自对应的伪平行图文对，生成所述伪平行图文数据集。

以所述文本数据集中每一个文本的相对表征为输入，以所述文本数据集中每一个文本为输出，构建文本生成模型；

针对所述图片数据集中每一个图片，将所述图片的相对表征输入至所述文本生成模型中，得到所述文本生成模型输出的文本；

将所述文本与所述图片构成的图文对作为所述图片对应的伪平行图文对；

利用所述图片数据集所有图片各自对应的伪平行图文对生成伪平行图文数据集。

根据本发明提供的弱监督视觉语言预训练模型的训练方法，所述利用所述伪平行图文数据集训练视觉语言预训练模型，包括：

将所述图片数据集中的每一个图片输入至目标检测器中，得到所述图片数据集中的每一个图片的标签词序列；

将所述图片数据集中的每一个图片的标签词序列进行标签词随机遮盖处理，并利用所述图片数据集中的每一个图片及其对应的随机遮盖处理后的标签词序列构建第一数据集；

将所述伪平行图文数据集中每一条伪平行图文对中的文本进行分词随机遮盖处理，得到第二数据集；

将所述伪平行图文数据集中每一条伪平行图文对作为正例，将所述伪平行图文数据集中每一条伪平行图文对中的文本随机替换为其它文本后得到的图文对作为负例，构建第三数据集；

利用所述第一数据集进行被遮盖标签词预测任务，利用所述第二数据集进行被遮盖分词预测任务，利用所述第三数据集进行二分类任务，并以所述被遮盖标签词预测任务的预测损失、所述被遮盖分词预测任务的预测损失和所述二分类任务的分类损失的加权和为损失函数，训练所述视觉语言预训练模型。

根据本发明提供的弱监督视觉语言预训练模型的训练方法，所述被遮盖标签词预测任务的预测损失的表达式为：

；

其中，x为所述图片数据集中的图片，

为所述图片数据集，/>

为标签词序列中被遮盖标签词，/>

为标签词序列中未遮盖标签词，/>

为/>

对应的候选词联合概率分布和真值之间的交叉熵；

所述被遮盖分词预测任务的预测损失的表达式为：

；

其中，

为所述第二数据集中与/>

对应的文本，/>

为所述第二数据集，/>

为/>

中被遮盖分词，/>

为/>

中未遮盖分词，/>

为/>

对应的候选词联合概率分布和真值之间的交叉熵；

所述二分类任务的分类损失的表达式为：

；

其中，

为所述第三数据集，/>

为所述第三数据集中与/>

对应的文本，/>

为标签，其为正例时取值1，为负例时取值0，/>

为/>

对应的概率分布和真值之间的交叉熵。

第二方面，本发明提供一种弱监督视觉语言预训练模型的训练装置，所述装置包括：

锚点选定模块，用于选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；

图片相对表征表示模块，用于基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；

文本相对表征表示模块，用于基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；

伪平行图文数据集构建模块，用于根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；

训练模块，用于利用所述伪平行图文数据集训练视觉语言预训练模型。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述弱监督视觉语言预训练模型的训练方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述弱监督视觉语言预训练模型的训练方法。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的弱监督视觉语言预训练模型的训练方法的流程示意图；

图2是本发明提供的单模态相对表征的示意图；

图3是本发明提供的弱监督视觉语言预训练模型的训练装置的结构示意图；

图4是本发明提供的实现弱监督视觉语言预训练模型的训练方法的电子设备的结构示意图；

附图标记：

410：处理器；420：通信接口；430：存储器；440：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明的弱监督视觉语言预训练模型的训练方法和装置。

第一方面，本发明提供一种弱监督视觉语言预训练模型的训练方法，如图1所示，所述方法包括：

S11、选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；

S12、基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；

S13、基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；

S14、根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；

S15、利用所述伪平行图文数据集训练视觉语言预训练模型。

可以理解的是，本发明伪平行图文数据集是利用大规模单模态图文数据构建的，其本质是一种弱对齐的图文数据集。使用伪平行图文数据集训练视觉语言预训练模型可以减轻对图文对齐数据的依赖，避免大规模图文对齐数据的数据收集、人工标注和数据清洗所带来的数据开销大的问题。同时，本发明伪平行图文数据集是基于单模态图片、文本的相对表征构建的，而图片/文本的相对表征是基于图片/文本相对于选定的图片锚点/文本锚点的相似度确定的，不存在现有弱监督视觉语言预训练方式中，使用局部信息构建跨模态伪平行数据而导致的存在信息丢失现象，伪平行数据质量不高的问题。

本发明提供一种弱监督视觉语言预训练模型的训练方法，包括：选定若干个对齐的图文对，并将每一个图文对作为一个图文锚点对；基于图片数据集/文本数据集中每一个图片/文本与每一个图片锚点/文本锚点的相似度，确定图片数据集/文本数据集中每一个图片/文本的相对表征；根据图片数据集中每一个图片的相对表征和文本数据集中每一个文本的相对表征，构建伪平行图文数据集；利用伪平行图文数据集训练视觉语言预训练模型。本发明使用相对表征来作为图片和文本的统一表示，在相对表征的基础上构建高质量的伪平行数据，并利用伪平行数据训练的弱监督视觉语言预训练模型，以使模型具有更强跨模态理解能力。

具体的，所述S12中，对于所述图片数据集中每一个图片，将所述图片与每一个图片锚点的相似性所构成的相似性矩阵作为所述图片的相对表征；

优选的，所述图片与任一图片锚点的相似度的确定过程，包括：

将所述图片代入视觉预训练模型中，得到第一输出；

将所述任一图片锚点代入视觉预训练模型中，得到第二输出；

将所述第一输出与所述第二输出的余弦相似度作为所述图片与所述任一图片锚点的相似度。

假设

，/>

为第/>

个图文锚点对，/>

为第/>

个图片锚点，/>

为第/>

个文本锚点，/>

为图文锚点对的总数。那么，对于图片数据集中的一张图片/>

，它的相对表征为：/>

，其中，/>

，

为视觉预训练模型。

这里，视觉预训练模型，是用来学习图片特征的，可以采用现有的AlexNet模型，VGG模型，GoogLeNet模型，ResNet模型和DenseNet模型等。

本发明中图片和文本的相对表征是类似的，也即所述S13中，对于所述文本数据集中每一个文本，将所述文本与每一个文本锚点的相似性所构成的相似性矩阵作为所述文本的相对表征。

优选的，所述文本与任一文本锚点的相似度的确定过程，包括：

将所述文本代入文本预训练模型中，得到第三输出；

将所述任一文本锚点代入文本预训练模型中，得到第四输出；

相应的，对于文本数据集中的一个文本

，它的相对表征为：

，其中，/>

，

为文本预训练模型。这里，文本预训练模型是用来学习文本特征的，可以采用现有的BERT模型、GPT模型、XLNet模型、RoBERTa模型、ALBERT模型和ELECTRA模型等。

图2是单模态相对表征的示意图，可以与图片模态和文本模态的相对表征相对应。

可以看出，通过单模态（图片/文本）的相对表征以及作为锚点的对齐图文对，实现了不同模态（图片、文本）的统一表示，为后续伪平行图文数据集的建立奠定基础。

具体的，在使用相对表征构建图片、文本统一表示空间的基础上，本发明提出两种伪平行图文数据集构建方法；

具体的，第一种为通过检索方式构建伪平行图文数据集，具体包括：

查找最大的余弦相似度对应的文本；

该方式简单来说是为每张图片选择相对表征距离最小的文本作为伪平行数据，用公式表示为：

；

其中，

为图片数据集中第/>

个图片，/>

为文本数据集，/>

为文本数据集中与/>

余弦相似度最大的文本。

第二种为通过检索方式构建伪平行图文数据集，具体包括：

该方式简单来说是通过纯文本语料训练一个输入为相对表征，输出为文本的文本生成模型，因此将任意一张图片的相对表征输入模型，即可得到文本输出，该文本输出即为该图片的伪平行数据。

表1给出了本发明伪平行图文数据集和现有技术的伪平行图文数据集的图文一致性分数对比图。事实证明，本发明伪平行图文数据集的质量优于现有技术。

表1

表1中，CLLPScore是使用CLLP模型计算的图文一致性分数，Retrv(Tag)是指用标签词来检索得到伪平行图文数据集的方法，Retrv(Relrep)是指用相对表征来检索得到伪平行图文数据集的方法，Rel2Cap是指用相对表征来生成伪平行图文数据集的方法。

本发明给出的两种伪平行图文数据集构建方法，均以依赖于图片相对表征以及文本相对表征，而该相对表征是对单模态特征的整体表示，不存在局部信息丢失问题，伪平行图文数据集的数据质量高。

具体的，所述S15，包括：

S15.1：将所述图片数据集中的每一个图片输入至目标检测器中，得到所述图片数据集中的每一个图片的标签词序列；

对图片数据集中一张图片

，通过一个目标检测器获取图片中存在的所有实体，其中第/>

个实体的标签词为/>

，所有实体的总数记为/>

。将图片/>

所有实体的标签词拼接，即得到图片/>

的标签词序列/>

。需要说明的是，实体的标签词是实体的类型描述，例如人、羊、影子等。标签词序列是标签词的有序序列，例如：

。

S15.2：将所述图片数据集中的每一个图片的标签词序列进行标签词随机遮盖处理，并利用所述图片数据集中的每一个图片及其对应的随机遮盖处理后的标签词序列构建第一数据集；

随机遮盖标签词，例如，随机遮盖

中的部分标签词，得到/>

。

S15.3：将所述伪平行图文数据集中每一条伪平行图文对中的文本进行分词随机遮盖处理，得到第二数据集；

随机遮盖分词和随机遮盖标签词是一样的，在此不再赘述。

S15.4：将所述伪平行图文数据集中每一条伪平行图文对作为正例，将所述伪平行图文数据集中每一条伪平行图文对中的文本随机替换为其它文本后得到的图文对作为负例，构建第三数据集；

这里，其它文本为任一与原文本不同的文本，并不局限于伪平行图文数据集中的文本。本发明将所述伪平行图文数据集以及基于所述伪平行图文数据集构建的负例数据集汇总得到第三数据集。

S15.5：利用所述第一数据集进行被遮盖标签词预测任务，利用所述第二数据集进行被遮盖分词预测任务，利用所述第三数据集进行二分类任务，并以所述被遮盖标签词预测任务的预测损失、所述被遮盖分词预测任务的预测损失和所述二分类任务的分类损失的加权和为损失函数，训练所述视觉语言预训练模型。

本发明对视觉语言预训练模型进行多种任务联合训练，这里多种任务包括被遮盖标签词预测任务的预测损失、被遮盖分词预测任务的预测损失和二分类任务。因此，需要对图片数据集和伪平行图文数据集进行预处理，得到适用于被遮盖标签词预测任务的第一数据集、适用于被遮盖分词预测任务的第二数据集以及适用于二分类任务的第三数据集，同时还需要构建被遮盖标签词预测任务的预测损失、被遮盖分词预测任务的预测损失和二分类任务的分类函数。

进一步的，所述被遮盖标签词预测任务的预测损失的表达式为：

；

其中，

为所述图片数据集中的图片，/>

为所述图片数据集，/>

为标签词序列中被遮盖标签词，/>

为标签词序列中未遮盖标签词，/>

为/>

对应的候选词联合概率分布和真值之间的交叉熵；

所述被遮盖分词预测任务的预测损失的表达式为：

；

其中，

为所述第二数据集中与/>

对应的文本，/>

为所述第二数据集，/>

为/>

中被遮盖分词，/>

为/>

中未遮盖分词，/>

为/>

对应的候选词联合概率分布和真值之间的交叉熵；

所述二分类任务的分类损失的表达式为：

；

其中，

为所述第三数据集，/>

为所述第三数据集中与/>

对应的文本，/>

为标签，其为正例时取值1，为负例时取值0，/>

为/>

对应的概率分布和真值之间的交叉熵。

例如：对于被遮盖标签词预测任务而言，随机遮盖

中的部分标签词得到/>

。其中未被遮盖标签词（即people, shirt, …, boot等）为/>

，被遮盖标签词（即所有[MASK]位置）为/>

。利用图像

和未被遮盖标签词进行被遮盖标签词/>

（shirt和shadow）预测。被遮盖分词预测任务的同样的，在此不再赘述。

对于二分类任务而言，所述第三数据集中的伪平行图文对，部分是正例，部分是负例；将任一伪平行图文对，预测其是正例/负例。

本发明可以应用到各种视觉语言下游任务中，例如视觉问答、视觉推理、视觉蕴含、跨模态检索等任务。表2给出了一些现有的弱监督视觉语言预训练模型和本发明视觉语言预训练模型在这四种下游任务上的表现，如表2所示，本发明视觉语言预训练模型的跨模态更为优越。

表2

其中，U-VisualBERT、U-VisualBERT_VinVL、-VLA、VLMixre、E2E-UVLP都是现有的弱监督视觉语言预训练模型，RELIT是本发明视觉语言预训练模型，VQA是视觉问答任务，NLV是自然语言视觉推理任务，VE是视觉蕴含任务，Flickr30k是跨模态检索所使用的数据集名称，Test-Dev、Test-P以及(VE)Test都是表征测试集上的准确率的指标，R@1、R@5以及R@10分别表示检索结果中最相关的第1个，前5个和前10个中有没有正确答案。

本发明通过对视觉语言预训练模型进行多种任务训练，进一步帮助视觉语言预训练模型学习不同粒度的跨模态联系，提升视觉语言预训练模型的跨模态理解能力。

第二方面，对本发明提供的弱监督视觉语言预训练模型的训练装置进行描述，下文描述的弱监督视觉语言预训练模型的训练装置与上文描述的弱监督视觉语言预训练模型的训练方法可相互对应参照。图3示例了弱监督视觉语言预训练模型的训练装置的结构示意图，如图3所示，所述装置包括：

锚点选定模块21，用于选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；

图片相对表征表示模块22，用于基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；

文本相对表征表示模块23，用于基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；

伪平行图文数据集构建模块24，用于根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；

训练模块25，用于利用所述伪平行图文数据集训练视觉语言预训练模型。

本发明提供一种弱监督视觉语言预训练模型的训练装置，包括：选定若干个对齐的图文对，并将每一个图文对作为一个图文锚点对；基于图片数据集/文本数据集中每一个图片/文本与每一个图片锚点/文本锚点的相似度，确定图片数据集/文本数据集中每一个图片/文本的相对表征；根据图片数据集中每一个图片的相对表征和文本数据集中每一个文本的相对表征，构建伪平行图文数据集；利用伪平行图文数据集训练视觉语言预训练模型。本发明使用相对表征来作为图片和文本的统一表示，在相对表征的基础上构建高质量的伪平行数据，并利用伪平行数据训练的弱监督视觉语言预训练模型，以使模型具有更强跨模态理解能力。

在上述各实施例的基础上，作为一个可选的实施例，所述图片相对表征表示模块，具体用于：

所述文本相对表征表示模块，具体用于：

在上述各实施例的基础上，作为一个可选的实施例，所述图片与任一图片锚点的相似度的确定过程，包括：

将所述图片代入视觉预训练模型中，得到第一输出；

所述文本与任一文本锚点的相似度的确定过程，包括：

将所述文本代入文本预训练模型中，得到第三输出；

在上述各实施例的基础上，作为一个可选的实施例，所述伪平行图文数据集构建模块，包括：

余弦相似度计算单元，用于对于所述图片数据集中每一个图片，计算所述图片的相对表征与所述文本数据集中每一个文本的相对表征之间的余弦相似度；

查找单元，用于查找最大的余弦相似度对应的文本；

第一设定单元，用于将所述图片与所述文本构成的图文对作为所述图片对应的伪平行图文对；

第一生成单元，用于利用所述图片数据集所有图片各自对应的伪平行图文对，生成所述伪平行图文数据集。

在上述各实施例的基础上，作为一个可选的实施例，所述伪平行图文数据集构建模块，或者包括：

文本生成模型构建单元，用于以所述文本数据集中每一个文本的相对表征为输入，以所述文本数据集中每一个文本为输出，构建文本生成模型；

输入单元，用于针对所述图片数据集中每一个图片，将所述图片的相对表征输入至所述文本生成模型中，得到所述文本生成模型输出的文本；

第二设定单元，用于将所述文本与所述图片构成的图文对作为所述图片对应的伪平行图文对；

第二生成单元，用于利用所述图片数据集所有图片各自对应的伪平行图文对生成伪平行图文数据集。

在上述各实施例的基础上，作为一个可选的实施例，，所述训练模块，包括：

标签词序列生成单元，用于将所述图片数据集中的每一个图片输入至目标检测器中，得到所述图片数据集中的每一个图片的标签词序列；

第一数据集构建单元，用于将所述图片数据集中的每一个图片的标签词序列进行标签词随机遮盖处理，并利用所述图片数据集中的每一个图片及其对应的随机遮盖处理后的标签词序列构建第一数据集；

第二数据集构建单元，用于将所述伪平行图文数据集中每一条伪平行图文对中的文本进行分词随机遮盖处理，得到第二数据集；

第三数据集构建单元，用于将所述伪平行图文数据集中每一条伪平行图文对作为正例，将所述伪平行图文数据集中每一条伪平行图文对中的文本随机替换为其它文本后得到的图文对作为负例，构建第三数据集；

训练单元，用于利用所述第一数据集进行被遮盖标签词预测任务，利用所述第二数据集进行被遮盖分词预测任务，利用所述第三数据集进行二分类任务，并以所述被遮盖标签词预测任务的预测损失、所述被遮盖分词预测任务的预测损失和所述二分类任务的分类损失的加权和为损失函数，训练所述视觉语言预训练模型。

在上述各实施例的基础上，作为一个可选的实施例，所述被遮盖标签词预测任务的预测损失的表达式为：

；

其中，

为所述图片数据集中的图片，/>

为所述图片数据集，/>

为标签词序列中被遮盖标签词，/>

为标签词序列中未遮盖标签词，/>

为/>

对应的候选词联合概率分布和真值之间的交叉熵；

所述被遮盖分词预测任务的预测损失的表达式为：

；

其中，

为所述第二数据集中与/>

对应的文本，/>

为所述第二数据集，/>

为/>

中被遮盖分词，/>

为/>

中未遮盖分词，/>

为/>

对应的候选词联合概率分布和真值之间的交叉熵；

所述二分类任务的分类损失的表达式为：

其中，

为所述第三数据集，/>

为所述第三数据集中与/>

对应的文本，/>

为标签，其为正例时取值1，为负例时取值0，/>

为/>

对应的概率分布和真值之间的交叉熵。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行弱监督视觉语言预训练模型的训练方法，该方法包括：选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；利用所述伪平行图文数据集训练视觉语言预训练模型。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的弱监督视觉语言预训练模型的训练方法，该方法包括：选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；利用所述伪平行图文数据集训练视觉语言预训练模型。

第五方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的弱监督视觉语言预训练模型的训练方法，该方法包括：选定若干个对齐的图文对，并将每一个所述图文对作为一个图文锚点对；基于图片数据集中每一个图片与每一个图片锚点的相似度，确定所述图片数据集中每一个图片的相对表征；基于文本数据集中每一个文本与每一个文本锚点的相似度，确定所述文本数据集中每一个文本的相对表征；根据所述图片数据集中每一个图片的相对表征和所述文本数据集中每一个文本的相对表征，构建伪平行图文数据集；利用所述伪平行图文数据集训练视觉语言预训练模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。