CN116912616A

CN116912616A - 图文预训练模型的训练方法、训练装置及电子设备

Info

Publication number: CN116912616A
Application number: CN202310673660.5A
Authority: CN
Inventors: 乔冠辉; 单斌; 吴凌翔; 尹维冲; 李芝; 孙宇; 王金桥
Original assignee: Institute of Automation of Chinese Academy of Science; Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-10-20

Abstract

本发明提供一种图文预训练模型的训练方法、训练装置及电子设备，涉及深度学习技术领域，该方法包括：构建初始图文预训练模型，初始图文预训练模型包含生成器模块和判别器模块，生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器，跨模态融合编码器用于融合图像编码器和文本编码器输出的特征；针对每种预训练任务，基于生成器模块的生成结果对判别器模块进行训练，并基于训练后的判别器模块，得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配，从而能够在各种图文下游任务中取得更好的效果。

Description

图文预训练模型的训练方法、训练装置及电子设备

技术领域

本发明涉及深度学习技术领域，尤其涉及一种图文预训练模型的训练方法、训练装置及电子设备。

背景技术

随着深度学习Transformer(变压器)结构的兴起，预训练模型正在计算机视觉领域和自然语言处理领域以惊人的速度发展，并主导了这些领域的各种先进技术。在这两个领域的结合处——图文跨模态领域，预训练模型也取得了惊人的效果，并在多个下游任务上获得了优势地位，如图文检索、视觉语言推理、视觉问答等。

与纯文本的自然语言处理领域不同，图文的各种任务需要模型不仅理解文本含义，而且需要对输入的图像有足够理解，才能在各种下游任务上取得优异效果，困难的下游任务更是需要模型具备足够的推理能力，通过图像和文本表达的含义作出一定的推理才能完成任务。因此，如何训练图文预训练模型使之在各种图文下游任务中取得良好的效果，是业界亟需解决的技术问题。

发明内容

针对现有技术存在的问题，本发明提供一种图文预训练模型的训练方法、训练装置及电子设备。

第一方面，本发明提供一种图文预训练模型的训练方法，包括：

构建初始图文预训练模型，所述初始图文预训练模型包含生成器模块和判别器模块，所述生成器模块和所述判别器模块均包含图像编码器、文本编码器和跨模态融合编码器，所述跨模态融合编码器用于融合所述图像编码器和所述文本编码器输出的特征；

针对每种预训练任务，基于所述生成器模块的生成结果对所述判别器模块进行训练，并基于训练后的所述判别器模块，得到目标图文预训练模型。

可选地，所述判别器模块的分类头对于所有预训练任务统一为二分类头。

可选地，所述基于所述生成器模块的生成结果对所述判别器模块进行训练，包括：

将预训练任务对应的训练样本输入所述生成器模块，根据所述生成器模块的生成结果确定困难样本；

基于所述困难样本对所述判别器模块进行训练。

可选地，所述根据所述生成器模块的生成结果确定困难样本，包括：

将所述生成器模块生成错误结果的负样本或负样本对确定为困难样本。

可选地，所述判别器模块的训练方式包括：

在基于随机选择的训练样本对所述判别器模块训练预设步数后，开始训练所述生成器模块，并基于每一次训练后的所述生成器模块，对所述判别器模块进行多次训练。

可选地，所述生成器模块的分类头为与预训练任务相匹配的多分类头。

可选地，所述预训练任务包括文本掩码预测任务和图文匹配任务。

第二方面，本发明还提供一种图文预训练模型的训练装置，包括：

构建模块，用于构建初始图文预训练模型，所述初始图文预训练模型包含生成器模块和判别器模块，所述生成器模块和所述判别器模块均包含图像编码器、文本编码器和跨模态融合编码器，所述跨模态融合编码器用于融合所述图像编码器和所述文本编码器输出的特征；

训练模块，用于针对每种预训练任务，基于所述生成器模块的生成结果对所述判别器模块进行训练，并基于训练后的所述判别器模块，得到目标图文预训练模型。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述第一方面所述的图文预训练模型的训练方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述第一方面所述的图文预训练模型的训练方法。

本发明提供的图文预训练模型的训练方法、训练装置及电子设备，通过在基于单流融合编码器结构的初始图文预训练模型中添加生成器模块，基于生成器模块的生成结果训练判别器模块，使得最终得到的目标图文预训练模型能够与下游任务完全匹配，从而能够在各种图文下游任务中取得更好的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的图文预训练模型的训练方法的流程示意图；

图2为现有技术提供的单流融合编码器的结构示意图；

图3为本发明提供的文本掩码预测任务示意图；

图4为本发明提供的图文匹配任务示意图；

图5为本发明提供的图文预训练模型的训练装置的结构示意图；

图6为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图文跨模态模型根据不同的框架结构可以分为以下几种：1.单流融合编码器结构；2.双流融合编码器结构；3.双塔编码器结构。

第一种单流融合编码器结构，能够将所有经过处理后的数据融合到一个统一的框架当中，VisualBERT和V-LBERT正是这种结构的代表，为了区分不同模态的数据，它们利用特征向量作为标志，给不同模态数据分配了不同的特征向量，添加到处理后的输入数据中。Oscar模型在此基础上，将图片中提取到的物体标签作为另一种特征数据输入到网络中，取得了进一步提升。而随着图像编码器ViT的发展，越来越多的图文预训练模型不再使用目标检测器来提取图像特征，而是直接使用图像编码器对输入图片做处理，达到了端到端提取的效果。

第二种双流融合编码器结构，与单流融合编码器结构最大的区别在于融合的方式不同。单流融合时采用的是自注意力机制，将所有输入的数据看做一个单独的块，块与块之间做自注意力机制来融合特征。而双流融合编码器，采用交叉自注意力机制来融合文本和图像编码器提取后的特征。ViL-BERT、LXMERT和ALBEF均是以这种架构为基础来实现预训练模型的，这种类型的结构有效地帮助模型将输入数据编码成一种更容易理解的方式。

第三种双塔编码器结构最为简单，它只有两个编码器来提取特征，没有上层的融合模块，仅仅使用损失函数的计算来融合图文两模态的特征。正是由于这种结构的简单方便，更大的数据、更多的参数被应用到该结构上。CLIP模型和ALIGN模型分别使用了四亿和十二亿图文数据对来实现双塔编码器结构，并使用对比学习损失函数进行训练数据，最终达到了惊人的效果，尤其是在零样本分类任务上。

本发明基于第一种单流融合编码器结构，提出了添加生成器模块来提升图文预训练模型的效果。

图1为本发明提供的图文预训练模型的训练方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤100、构建初始图文预训练模型，初始图文预训练模型包含生成器模块和判别器模块，生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器，跨模态融合编码器用于融合图像编码器和文本编码器输出的特征。

步骤101、针对每种预训练任务，基于生成器模块的生成结果对判别器模块进行训练，并基于训练后的判别器模块，得到目标图文预训练模型。

具体地，本发明基于单流融合编码器结构，通过添加生成器模块来提升图文预训练模型的效果。图2为现有技术提供的单流融合编码器的结构示意图，如图2所示，单流融合编码器的框架主要分为三个部分：图像编码器、文本编码器和跨模态融合编码器。三个编码器形成品字结构，由下至上，数据流动构成完整的模型框架图。对于图像数据部分来说，首先图像经过切分处理成若干块(图2中以带1、2、3、4编号的方框示例一张内容为滑雪者的图像，该图像经切分处理成4块，其他附图中涉及类似的部分不再赘述)，每个块再经过特征映射输入到图像编码器中，图像编码器对图像提取特征之后，输入到跨模态融合编码器中等待特征融合；对于文本数据部分来说，输入的文本通过字典映射为不同的特征输入到文本编码器中，文本编码器对不同的输入文本提取相应的特征输入到跨模态融合编码器当中；最终，跨模态融合编码器将图像编码器和文本编码器处理后的特征一同输入进去，利用自注意力机制和全连接网络来逐层融合两个模态的特征，最终输出每个模块相对应的特征。输出的特征，在第一个位置被定义为开始符，该特征可以添加各种分类头来完成不同的任务，后续的图文匹配任务就是基于该分类头进行的特征分类。而后续的所有特征同样可以添加分类头来适应不同的任务。

本发明实施例中，首先可以构建初始图文预训练模型，该初始图文预训练模型包含生成器模块和判别器模块，生成器模块和判别器模块均为单流融合编码器结构的网络，生成器模块用于训练判别器模块，针对每种预训练任务，都基于生成器模块的生成结果对判别器模块进行训练，判别器模块训练好之后，便可以对判别器模块根据下游任务替换相应的分类头得到最终的目标图文预训练模型。

在一些实施例中，可以在已有单流融合编码器品字结构的基础上，将模型结构中的网络层数调低、参数量减少构成生成器模块，生成器模块相比判别器模块结构更加简单，可以使生成器模块具有快速学习数据分布的能力，但又保持高效率。

可选地，预训练任务可以包括文本掩码预测任务和图文匹配任务。

图3为本发明提供的文本掩码预测任务示意图，如图3所示，文本掩码预测任务是一个重要的预训练任务，该任务主要是为了判断输入到判别器的文本是否被替换的。首先，将原始数据，即图像和文本经过一定比例的掩码处理得到掩码后的数据，该掩码后的数据输入到生成器模块，生成器模块能够生成与原始数据相同形状的数据，如图3所示中，原始的文本为“滑雪者”，但经过生成器模块生成之后变成了“男人”，生成器模块的生成结果输入判别器模块，判别器模块去判断哪条文本被生成器模块替换过。同样，对于图像数据，原始图像中编号2部分的图像块，掩码处理后经过生成器模块生成，变成了别的内容(图中X)的图像块，判别器模块的作用就是去判断哪个图像块被生成器模块替换过。

从图3可以看出，通过添加生成器模块，在文本掩码预测任务中输入判别器模块的文本和图像并不是掩码处理的文本和图像，从而可以保证最终训练好的目标图文预训练模型与下游任务能够完全匹配。相比之下，现有的图文预训练模型在文本掩码预测任务中对原始数据进行掩码处理后输入模型进行训练，而实际上，下游任务并不会有掩码作为输入的情况，因此就会造成训练出的模型与下游精调任务并不匹配，在实际的下游任务上表现不佳。

本发明提供的图文预训练模型的训练方法，通过在基于单流融合编码器结构的初始图文预训练模型中添加生成器模块，基于生成器模块的生成结果训练判别器模块，使得最终得到的目标图文预训练模型能够与下游任务完全匹配，从而能够在各种图文下游任务中取得更好的效果。

可选地，判别器模块的分类头对于所有预训练任务统一为二分类头。

具体地，现有的图文预训练模型针对不同的预训练任务采用不同的分类头，例如，对于文本掩码预测任务来说，文本掩码预测任务需要预测掩码位置的单词，常见的字典中上万个单词，需要几万分类的分类头，计算几万分类的损失函数，文本分类任务类别过多会导致训练效率低下。

因此，本发明提出图文跨模态预训练模型统一判别的方案，将判别器模块的分类头替换为二分类头，删除了多分类任务，仅使用二分类判别任务来对所有预训练任务进行统一判别，从而使所有的预训练任务都能使用二分类损失函数来计算，降低了模型的计算量，提高了运行效率又保持了精度。

例如，预训练模型主要处理的任务有图文匹配任务和文本掩码预测任务，由于图文匹配任务本身即为二分类任务，故无需变动，主要是文本掩码预测任务改动为仅用二分类来判别。文本掩码预测任务需要预测掩码位置的单词，常见的字典中上万个单词，故需要计算几万分类的损失函数，但经改动后，只需要判别器模块判断此位置有没有变动即可，被生成器模块替换为1，没有被替换为0。与生成器模块仅预测掩码位置不同，判别器模块判断时需要将文本中的所有位置进行判别。尽管如此，其计算量还是远远小于计算几万分类的损失函数。

对于生成器模块，可选地，本发明中生成器模块的分类头可以是与预训练任务相匹配的多分类头。例如，图文匹配任务为二分类任务，生成器模块的分类头可以是二分类头，文本掩码预测任务是多分类任务，生成器模块的分类头可以是多分类头。本发明中术语“多”是指两个或两个以上。

可选地，基于生成器模块的生成结果对判别器模块进行训练，包括：

将预训练任务对应的训练样本输入生成器模块，根据生成器模块的生成结果确定困难样本；

基于困难样本对判别器模块进行训练。

具体地，针对现有图文预训练模型困难样本太少导致判别任务过于简单的问题，本发明可以通过生成器模块来产生大量的困难样本对判别器模块进行训练，从而能有效提升判别器模块的训练效果。

例如，对于具体的某一预训练任务，可以将该预训练任务对应的训练样本(正负样本或正负样本对)输入到生成器模块，根据生成器模块的生成结果确定困难样本，将这些困难样本输入到判别器模块当中进行判断，判别器模块需要更精确的语义理解才能得出准确的判断，以此来提升模型训练效果，提高模型训练效率。

可选地，根据生成器模块的生成结果确定困难样本，包括：

将生成器模块生成错误结果的负样本或负样本对确定为困难样本。

例如，在一些实施例中，通过生成器模块来产生困难样本，该困难样本可主要针对两种预训练任务，分别为图文匹配任务和文本掩码预测任务。对图文匹配任务来说，生成器模块接收均衡的正负样本对，其中正样本对代表数据中图片和文本是匹配的，负样本对代表图片和文本是不匹配的，生成器模块将不匹配的负样本对筛选出来，产生困难的负样本对，该困难负样本对输入到判别器当中进行判别，能够有效提升判别器的判别效率。对文本掩码预测任务来说，生成器模块接收到带有掩码的自然语言文本，在掩码位置，生成器需要将被掩码的单词预测出来，如果该位置被预测正确，说明被掩码的单词是容易样本，如果该位置被预测错误，说明该掩码单词是困难样本，生成器模块将筛选后的困难样本输入到判别器当中进行判断，判别器需要更精确的语义理解才能判断出何处被生成器替换了，以此来达到提高模型训练效率的目的。

图4为本发明提供的图文匹配任务示意图，如图4所示，图文匹配任务是为了判断输入的图文数据对是否为匹配的数据，为了使模型有这种判断的能力，在构造数据时即构造相同比例的正负样本对。本发明的模型对于正样本对的处理是无论生成器模块判断是否正确，均输入到判别器模块当中，对于负样本对的处理是，只有生成器模块判断错误的负样本对，才能被视为困难样本输入到判别器模块中，否则调整为正样本。图4中仅列出了对负样本的处理，如图所示，输入的图1文2、图2文3、图3文4和图4文1均为负样本对，经过生成器模块判断之后，对于图1文2和图2文3，生成器模块判断其为正样本对，图3文4和图4文1生成器模块判断为负样本对。由此说明，图1文2和图2文3是困难样本，是不容易被判断的样本，而图3文4和图4文1是简单样本，很容易被判断的样本，因此不属于困难样本，将其调整为正样本输入到判别器模块当中。通过这种方式，判别器模块能够接受到大量来自生成器模块筛选过后的困难样本，能有效提高判别器模块的训练效率。

可选地，判别器模块的训练方式包括：

在基于随机选择的训练样本对判别器模块训练预设步数后，开始训练生成器模块，并基于每一次训练后的生成器模块，对判别器模块进行多次训练。

具体地，由于生成器模块模型层数少，参数量小，因此很容易拟合训练数据，而判别器模块参数量大，所需要的训练时间就更久，为了使判别器模块与生成器模块能够对抗训练，不至于生成器模块训练太快而判别器模块学习太慢，本发明提出使用联合阶段式训练的方法来训练两个模块。

具体来说，对于判别器模块，由于其网络层数更深，参数量更大，学习也就越慢，因此可以使判别器先训练一定轮数；对于生成器模块，由于其网络层数浅，参数量更小，学习非常快，因此可以在训练时每隔一定步数才训练一次生成器模块。例如，可以在前预设步数中(该预设步数可以根据训练需要灵活设置，具体不做限定)，先不训练生成器模块，而是使用随机选择的训练样本来代替生成器模块生成的困难样本，在训练生成器模块的过程中，训练N次判别器模块(其中N大于1，N的取值可以根据训练需要灵活设置，具体不做限定)，仅训练一次生成器模块，并且还可以通过降低生成器模块的学习率使得其损失函数值下降更为平滑。通过这些方式能够有效地降低生成器模块的学习效率，使得其学习速度能与判别器模块保持一致，最终产出效果优异的判别器模型。

虽然生成器模块与判别器模块之间没有任何梯度关联，但生成器模块的输出数据需要输入到判别器模块当中，降低生成器模块的学习效率，有助于模型渐进式由易到难地学习数据分布。

以实际操作进行举例，联合阶段式训练可以先训练5000步判别器模块，再开始训练生成器模块，训练生成器模块时，判别器模块训练10次，生成器模块才训练1次，判别器模块的学习率是生成器模块的100倍。在前5000步训练判别器模块时，其困难样本均由数据随机生成，随机生成的困难样本对于判别器模块来说是非常容易判别的，这提高了判别器模块在训练时应对简单样本的能力，从而更加平滑地过渡到生成器模块提供的困难样本上。

与现有图文跨模态预训练大模型相比，本发明有效提高了图文预训练大模型在下游任务上的效果，在视觉推理、图文检索等任务上均比现有图文预训练大模型有提升。

下面对本发明提供的图文预训练模型的训练装置进行描述，下文描述的图文预训练模型的训练装置与上文描述的图文预训练模型的训练方法可相互对应参照。

图5为本发明提供的图文预训练模型的训练装置的结构示意图，如图5所示，该装置包括：

构建模块500，用于构建初始图文预训练模型，初始图文预训练模型包含生成器模块和判别器模块，生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器，跨模态融合编码器用于融合图像编码器和文本编码器输出的特征；

训练模块510，用于针对每种预训练任务，基于生成器模块的生成结果对判别器模块进行训练，并基于训练后的判别器模块，得到目标图文预训练模型。

基于困难样本对判别器模块进行训练。

可选地，根据生成器模块的生成结果确定困难样本，包括：

可选地，判别器模块的训练方式包括：

可选地，生成器模块的分类头为与预训练任务相匹配的多分类头。

可选地，预训练任务包括文本掩码预测任务和图文匹配任务。

在此需要说明的是，本发明提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图6为本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各实施例提供的任一所述图文预训练模型的训练方法。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是，本发明提供的电子设备，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的任一所述图文预训练模型的训练方法。

在此需要说明的是，本发明提供的非暂态计算机可读存储介质，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图文预训练模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的图文预训练模型的训练方法，其特征在于，所述判别器模块的分类头对于所有预训练任务统一为二分类头。

3.根据权利要求1所述的图文预训练模型的训练方法，其特征在于，所述基于所述生成器模块的生成结果对所述判别器模块进行训练，包括：

基于所述困难样本对所述判别器模块进行训练。

4.根据权利要求3所述的图文预训练模型的训练方法，其特征在于，所述根据所述生成器模块的生成结果确定困难样本，包括：

5.根据权利要求1至4任一项所述的图文预训练模型的训练方法，其特征在于，所述判别器模块的训练方式包括：

6.根据权利要求1至4任一项所述的图文预训练模型的训练方法，其特征在于，所述生成器模块的分类头为与预训练任务相匹配的多分类头。

7.根据权利要求1至4任一项所述的图文预训练模型的训练方法，其特征在于，所述预训练任务包括文本掩码预测任务和图文匹配任务。

8.一种图文预训练模型的训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图文预训练模型的训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图文预训练模型的训练方法。