CN115526259A

CN115526259A - 一种多模态预训练模型的训练方法和装置

Info

Publication number: CN115526259A
Application number: CN202211204122.3A
Authority: CN
Inventors: 刘洋; 陈驰; 李鹏; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-27

Abstract

本发明提供一种多模态预训练模型的训练方法和装置，构建包含多模态图文信息处理网络的多模态预训练模型；构建弱对齐图像‑文本数据集；其中，弱对齐图像‑文本数据集包含文本数据集、图像‑标签数据集和图像‑指代描述数据集；利用弱对齐图像‑文本数据集训练多模态预训练模型。本发明多模态图文信息处理网络可以直接处理多模态图文信息，无需外部模型辅助提取图像特征，推理能力强。同时，采用弱对齐图像‑文本数据集来训练多模态预训练模型，减轻对人工标注的图像‑文本对齐数据的依赖，避免使用对齐的大规模图像‑文本数据集来训练多模态预训练模型出现的数据开销大的问题。

Description

一种多模态预训练模型的训练方法和装置

技术领域

本发明涉及无监督机器学习技术领域，尤其涉及一种多模态预训练模型的训练方法和装置。

背景技术

随着迁移学习技术的不断发展，一系列图文多模态预训练(Pre-trainMultimodal Model)模型广泛兴起，比如UNITER、VinVL、CLIP、DALL·E等。这些多模态预训练模型通常使用大规模数据集在较为简单的任务上进行预训练。预训练完成后，根据特定的下游任务(例如视觉问答任务、图文检索任务等)微调多模态预训练模型的参数，并用于相应下游任务的执行中，提升相应下游任务的执行效果。

现有技术中的多模态预训练模型，大多数使用对齐的大规模图像-文本数据集来进行预训练以获得跨模态理解能力。但是对齐的大规模图像-文本数据往往需要进行人工标注或数据清洗，数据开销过高。少数使用非对齐的图像-文本数据集来进行预训练，跨模态能力相对较差，并且预训练过程需要外部模型辅助提取图像的特征向量，存在推理效率相对低下的问题。

因此，亟需提供一种能够充分利用非对齐的图像数据集和文本数据集训练具有高跨模态理解能力的多模态预训练模型方法。

发明内容

本发明提供一种多模态预训练模型的训练方法和装置，采用弱对齐图像-文本数据集来训练多模态预训练模型，减轻对人工标注的图像-文本对齐数据的依赖，避免使用对齐的大规模图像-文本数据集来训练多模态预训练模型出现的数据开销大的问题，训练的多模态预训练模型可以直接处理多模态图文信息，无需外部模型辅助提取图像特征，避免使用非对齐的图像-文本数据集来训练多模态预训练模型存在的推理效率相对低下的问题，同时通过对多模态预训练模型进行被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的联合训练，避免使用非对齐的图像-文本数据集来训练多模态预训练模型出现的跨模态能力相对较差的问题。

第一方面，本发明提供一种多模态预训练模型的训练方法，所述方法包括：

构建包含多模态图文信息处理网络的多模态预训练模型；

构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；

利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；

其中，所述图像-标签数据集中的样本，由图像及其对应的标签词文本序列构成；图像对应的标签词文本序列由图像中所有实体的标签词拼接而成；

所述图像-指代描述数据集中的样本，由图像及其对应的指代描述构成。

根据本发明提供的多模态预训练模型的训练方法，所述图像-标签数据集的生成过程，包括：

获取图像数据集；

对于所述图像数据集中的每一张图像，通过目标检测器获取所述图像中存在的所有实体；

基于所述图像中存在的所有实体，生成所述图像对应的标签词文本序列；

利用所述图像数据集中的每一张图像及其对应的标签词文本序列，生成所述图像-标签数据集。

根据本发明提供的多模态预训练模型的训练方法，所述图像-指代描述数据集的生成过程，包括：

从所述所有实体中剔除重叠实体，并利用余下的实体构建第一实体集合；

利用所述第一实体集合中任一实体以及与所述任一实体具有相同标签词的实体构建第二实体集合；

基于所述任一实体的标签词以及所述第二实体集合中每一个实体的大小和位置，生成所述任一实体的指代描述；

将所述任一实体的指代描述作为所述图像对应的指代描述；

利用所述图像数据集中的每一张图像及其对应的指代描述，生成所述图像-指代描述数据集。

根据本发明提供的多模态预训练模型的训练方法，所述利用所述弱对齐图像-文本数据集训练所述多模态预训练模型，包括：

对所述图像-标签数据集中的每一条样本进行第一预处理，以得到第一数据集；

对所述图像-指代描述数据集中的每一条样本进行第二预处理，以得到第二数据集；

对所述文本数据集中的每一条样本进行第三预处理，以得到第三数据集；

利用多模态图文信息处理网络，生成所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量；

利用所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量，对所述多模态预训练模型进行被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的联合训练；

其中，所述第一预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

随机遮盖样本中标签词文本序列的部分标签词得到带有遮盖标注的标签词文本序列；

所述第二预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

确定样本中的指代描述对应的分词序列；

所述第三预处理至少包括：

确定样本中文本对应的文本分词序列；

随机遮盖所述文本分词序列中的部分分词得到带有遮盖标注的文本分词序列。

根据本发明提供的多模态预训练模型的训练方法，所述多模态图文信息处理网络包括：文本嵌入层、视觉编码器和多模态编码器；所述利用多模态图文信息处理网络，生成所述第一数据集中每一条样本对应的多模态表征向量，包括：

利用所述文本嵌入层将所述第一数据集中每一条样本的带有遮盖标注的标签词文本序列转换为文本词向量；

利用所述视觉编码器确定所述第一数据集中每一条样本的图像块序列对应的图像特征向量；

利用所述多模态编码器融合由所述第一数据集中每一条样本的带有遮盖标注的标签词文本序列转换的文本词向量和所述第一数据集中每一条样本的图像块序列对应的图像特征向量，得到所述第一数据集中每一条样本对应的多模态表征向量；

所述利用多模态图文信息处理网络，生成所述第二数据集中每一条样本对应的多模态表征向量，包括：

利用所述文本嵌入层将所述第二数据集中每一条样本的指代描述分词序列转换为文本词向量；

利用所述视觉编码器确定所述第二数据集中每一条样本的图像块序列对应的图像特征向量；

利用所述多模态编码器融合由所述第二数据集中每一条样本的指代描述分词序列转换的文本词向量和所述第二数据集中每一条样本的图像块序列对应的图像特征向量，得到所述第二数据集中每一条样本对应的多模态表征向量；

所述利用多模态图文信息处理网络，生成所述第三数据集中每一条样本对应的多模态表征向量，包括：

利用所述文本嵌入层将所述第三数据集中每一条样本的带有遮盖标注的文本分词序列转换为文本词向量；

将由所述第三数据集中每一条样本的带有遮盖标注的文本分词序列转换的文本词向量作为所述第三数据集中每一条样本对应的多模态表征向量。

根据本发明提供的多模态预训练模型的训练方法，所述利用所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量，对所述多模态预训练模型进行被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的联合训练，包括：

利用所述第一数据集中每一条样本对应的多模态表征向量预测所述第一数据集中每一条样本的被遮盖标签词；

利用所述第二数据集中每一条样本对应的多模态表征向量预测所述第二数据集中每一条样本对应的指代实体在所述第二数据集中每一条样本对应的图像中的位置；

所述第三数据集中每一条样本对应的多模态表征向量预测所述第三数据集中每一条样本的被遮盖分词；

计算所述第一数据集的被遮盖标签词预测损失；

计算所述第二数据集的指代实体位置预测损失；

计算所述第三数据集的被遮盖分词预测损失；

以所述第一数据集的被遮盖标签词预测损失、所述第二数据集的指代实体位置预测损失和所述第三数据集的被遮盖分词预测损失的总和为训练损失，优化所述多模态预训练模型的参数；

重复上述操作，直至所述多模态预训练模型收敛。

根据本发明提供的多模态预训练模型的训练方法，所述第一数据集的被遮盖标签词预测损失

的计算公式如下：

其中，(I，L_tag)表示图像I及其对应的标签词文本序列L_tag所组成的样本，

为图像-标签数据集，T_m为标签词文本序列L_tag中遮盖标签词对应的文本词向量，T_\m为标签词文本序列L_tag中未遮盖标签词对应的文本词向量，V为图像I的图像块序列对应的图像特征向量，logP(T_m|T_\m，V)为标签词文本序列L_tag中遮盖标签词对应的候选词联合概率分布和真值之间的交叉熵；

所述第二数据集的指代描述分词序列所指代的实体的位置预测损失

的计算公式如下：

其中，(I，L_exp)表示图像I及其对应的指代描述所组成的样本，

为图像-指代描述数据集，M为

中包含的图像数量，

为R_I与

之间的软骰子损失，

为R_I与

之间的二元交叉熵损失，R_I为图像I的真实遮罩，表示图像I的N个图像块分别对应的概率函数，

为图像I的预测遮罩，表示图像I的N个图像块分别对应的概率函数，

为R_I中第i个图像块对应的概率函数，

为

中第i个图像块对应的概率函数，概率函数取值0或者1，当取值0时代表不存在指代实体，当取值1时代表存在指代实体；

所述第三数据集的被遮盖分词预测损失

的计算公式如下：

其中，

为文本数据集，T_m*为文本L对应的文本分词序列中遮盖分词对应的文本词向量，T_\m*为文本L对应的文本分词序列中未遮盖分词对应的文本词向量，logP(T_m*|T_\m*)为文本L对应的文本分词序列中遮盖分词对应的候选词联合概率分布和真值之间的交叉熵。

第二方面，本发明提供一种多模态预训练模型的训练装置，所述装置包括：

第一构建模块，用于构建包含多模态图文信息处理网络的多模态预训练模型；

第二构建模块，用于构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；

训练模块，用于利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述多模态预训练模型的训练方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述多模态预训练模型的训练方法。

本发明提供的一种多模态预训练模型的训练方法和装置，包括：构建包含多模态图文信息处理网络的多模态预训练模型；多模态图文信息处理网络具有直接处理多模态图文信息的能力，无需外部模型辅助提取图片特征，具有更快的推理速度，实用性更强。构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；其中，所述图像-标签数据集中的样本，由图像及其对应的标签词文本序列构成；图像对应的标签词文本序列由图像中所有实体的标签词拼接而成；所述图像-指代描述数据集中的样本，由图像及其对应的指代描述构成。训练时使用的弱对齐图像-文本数据，能够减少对人工标注的跨模态对齐数据的依赖，大幅减少了训练多模态预训练模型的数据开销，同时弱对齐图像-文本数据能够帮助多模态预训练模型学习不同粒度的跨模态联系，从而提升模型的跨模态理解能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种多模态预训练模型的训练方法的流程示意图；

图2是本发明提供的一种多模态预训练模型的训练装置的结构示意图；

图3是本发明提供的实现多模态预训练模型的训练方法的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明的一种多模态预训练模型的训练方法和装置。

第一方面，本发明提供一种多模态预训练模型的训练方法，如图1所示，所述方法包括：

S11、构建包含多模态图文信息处理网络的多模态预训练模型；

本发明想要在不使用对齐的图像-文本数据集的情况下训练得到多模态预训练模型，减轻对人工标注的图像-文本对齐数据的依赖，避免使用对齐的大规模图像-文本数据集来训练多模态预训练模型出现的数据开销大的问题，还想要使多模态预训练模型自身具备处理多模态图文信息的能力，避免现有使用非对齐的图像-文本数据集来训练多模态预训练模型的方法中借助外部模型辅助处理图文信息存在的推理效率相对低下的问题。因此，先构建一个包含多模态图文信息处理网络的多模态预训练模型，多模态图文信息处理网络包括文本嵌入层、视觉编码器与多模态编码器，文本嵌入层和视觉编码器与多模态编码器相连。文本嵌入层用于将分词后的文本序列转化为对应的文本词向量。视觉编码器用于提取图像的图像特征向量。多模态编码器用于融合文本词向量和图像特征向量，以生成多模态表征向量，用于进行多模态预训练任务。其中，视觉编码器可以采用预训练视觉Transformer如ViT或Swin-Transformer，并可使用相应的模型参数进行初始化；多模态编码器采用BERT架构，并使用BERT-base模型进行参数初始化；文本嵌入层使用BERT-base的相应参数进行初始化。

S12、构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；

为了让帮助多模态预训练模型学习不同粒度的跨模态联系，提高多模态预训练模型的跨模态理解能力，本发明选用了弱对齐图像-文本数据集来进行多模态预训练模型训练。

S13、利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；

本发明提供的一种多模态预训练模型的训练方法，在多模态预训练模型中构建了具有直接处理多模态图文信息的能力的多模态图文信息处理网络，使得其无需外部模型辅助提取图片特征，具有更快的推理速度，实用性更强；训练多模态预训练模型时使用的弱对齐图像-文本数据，减少对人工标注的跨模态对齐数据的依赖，大幅减少了训练多模态预训练模型的数据开销，同时弱对齐图像-文本数据能够帮助多模态预训练模型学习不同粒度的跨模态联系，从而提升模型的跨模态理解能力。

本发明多模态预训练模型训练适用于多种现实应用场景，例如视觉问答、图文检索等多模态任务场景。

在应用于视觉问答时，构建视觉问答数据集，该视觉问答数据集中每一个样本由图片、问题以及问题的真实答案构成；利用视觉问答数据集，在多模态预训练模型的基础上训练视觉问答模型；将目标图片以及对应的问题输入视觉问答模型中，即可得到问题的答案。

在应用于图文检索时，构建图文检索数据集，该图文检索数据集由图片、图片的真实描述文本(正例)以及多个与图片错误或无关的描述文本(负例)构成；利用图文检索数据集，在多模态预训练模型的基础上训练图文检索模型；将目标图像以及一组文本输入图文检索模型，即可得到与目标图像对应的文本。当然，一个文本与多个图像的图文检索，是一样的原理，在此不做赘述。

在上述各实施例的基础上，作为一种可选的实施例，所述图像-标签数据集的生成过程，包括：

获取图像数据集；对于所述图像数据集中的每一张图像，通过目标检测器获取所述图像中存在的所有实体；基于所述图像中存在的所有实体，生成所述图像对应的标签词文本序列；利用所述图像数据集中的每一张图像及其对应的标签词文本序列，生成所述图像-标签数据集。

具体的，本发明需要在图像数据集和文本数据集的基础上生成弱对齐图像-文本数据集，例如对于

对图像数据集中的图像I，通过一个目标检测器获取图像中存在的所有实体，其中第j个实体的标签对应的标签词为o_j，对应在图像中的位置b_j，所有实体的总数记为K。这里，第/个实体的在图像中的位置b_j可以用多种方式表示，例如以矩形边界框b_j＝[x₁，y₁，x₂，y₂]的形式表示，其中x₁，y₁为边界框左上角的坐标，x₂，y₂为边界框右下角的坐标。将图像I所有实体的标签词拼接，即得到图片I对应的标签文本序列L_tag＝[o₁，o₂，…，o_K]，并得到图像标签数据对(I，L_tag)，图像数据集中所有图像的图像标签数据对构成集合

集合

即为图像-标签数据集。

需要说明的是，实体的标签词是实体的类型描述，例如人、羊、影子等。标签文本序列是标签词的有序序列，例如：L_tag＝[people，hair，shirt，...，shadow，boot]。

本发明对图像数据集进行智能处理，以无需人工标注的方式得到图像-标签弱对齐数据集，为多模态预训练模型的训练提供数据基础。

在上述各实施例的基础上，作为一种可选的实施例，所述图像-指代描述数据集的生成过程，包括：

将所述任一实体的指代描述作为所述图像对应的指代描述；

具体的，对图像数据集中的图像I，首先去除重叠的实体，以避免同一个实体不同部分被错认为不同实体；

然后随机选择一个实体，其标签词和边界框记为(o_k，b_k)。

之后，选择图像I中其它具有标签词o_k的实体，记为

再之后，根据标签词o_k以及这些实体的相对大小和位置，启发式地生成相应的文本描述，即得到图像I中(o_k，b_k)对应的指代描述L_exp，并得到的图像指代描述数据对即为(I，L_exp)；

最后，所有图像的图像指代描述数据对构成集合

即

为图像-指代描述数据集。

示例性地，对于示例图片，去除重叠的实体，并随机选择实体“sheep”并记录其位置L1，基于随机选择的实体“sheep”，在示例图片中找到其他同样标签“sheep”的实体(位置为L2、L3、L4…)，位置L1处的“sheep”与其它位置“sheep”大小相似，且位于其它位置“sheep”的左侧，因此启发式的生成指代描述为L_exp＝“smaller white sheep on theright”。该示例图片与指代描述为L_exp＝“smaller white sheep on the right”即得到图像指代描述数据对。

与图像-标签弱对齐数据集同样，本发明对图像数据集进行智能处理，以无需人工标注的方式得到图像-指代描述弱对齐数据集，为多模态预训练模型的训练提供数据基础。

在上述各实施例的基础上，作为一种可选的实施例，所述利用所述弱对齐图像-文本数据集训练所述多模态预训练模型，包括：

可以理解的是，本发明对多模态预训练模型进行多种任务联合训练，这里多种任务包括被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务，因此，需要预处理图像-标签数据集得到适用于遮盖标签词预测任务的样本数据集、预处理图像-指代描述数据集得到适用于指代描述匹配任务的样本数据集以及预处理文本数据集得到适用于被遮盖分词预测任务的样本数据集。

即本发明通过多模态图文信息处理网络得到每一个输入的样本的跨模态表达。

其中，所述第一预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

所述第二预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

确定样本中的指代描述对应的分词序列；

所述第三预处理至少包括：

确定样本中文本对应的文本分词序列；

将样本中的图像切割为N块，例如，对于图片I，将其切分为N＝14*14＝196个块；

随机遮盖标签词，例如，随机遮盖L_tag＝[people，hair，shirt，...，shadow，boot]中的部分标签词，得到[people，[MASK]，shirt，...，[MASK]，boot]。随机遮盖分词与其处理方式一致，不一一赘述。

本发明通过多模态图文信息处理网络直接处理多模态图文信息，得到多模态表征向量，以用于对多模态预训练模型的多种任务训练。同时，通过对多模态预训练模型进行多种任务训练，进一步帮助多模态预训练模型学习不同粒度的跨模态联系。

在上述各实施例的基础上，作为一种可选的实施例，所述多模态图文信息处理网络包括：文本嵌入层、视觉编码器和多模态编码器；所述利用多模态图文信息处理网络，生成所述第一数据集中每一条样本对应的多模态表征向量，包括：

示例性的，对于图像I切分成的N个图像块，通过视觉编码器提取其图像特征向量V＝[v₁，v₂，…，v_N]。

对于文本L对应的分词序列，通过文本嵌入层转化为文本词向量T＝[t₁，t₂，…，t_SD]，SD为分词序列长度。

本发明通过文本嵌入层、视觉编码器和多模态编码器构成的所述多模态图文信息处理网络，完成对文本特征以及图像特征的提取、文本特征与图像特征的融合表示，辅助实现多个任务的多模态预训练模型的训练。

在上述各实施例的基础上，作为一种可选的实施例，所述利用所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量，对所述多模态预训练模型进行被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的联合训练，包括：

计算所述第一数据集的被遮盖标签词预测损失；

计算所述第二数据集的指代实体位置预测损失；

计算所述第三数据集的被遮盖分词预测损失；

重复上述操作，直至所述多模态预训练模型收敛。

具体的，利用文本数据集

以及弱对齐多模态数据集

和

通过设计的预训练任务训练多模态预训练模型，完整描述如下：

遮盖标签词预测任务：

对于图片标签数据集

进行遮盖标签词预测任务。

对于

中的每一个数据对(I，L_tag)，随机遮盖L_tag中部分标签词，并利用其他未遮盖标签词以及图像信息进行遮盖标签词预测。

例如：随机遮盖L_tag＝[people，hair，shirt，...，shadow，boot]中的部分标签词得到[people，[MASK]，shirt，...，[MASK]，boot]。将[people，[MASK]，shirt，...，[MASK]，boot]通过文本嵌入层转化为文本词向量，其中未被遮盖部分(即people，shirt，...，boot等)对应文本词向量为T_\m，遮盖部分(即所有[MASK]位置)对应文本词向量为T_m。将图像I通过图像编码器提取其图像特征向量。通过多模态编码器融合[people，[MASK]，shirt，...，[MASK]，boot]对应的文本词向量和图像I对应的图像特征向量，得到被遮盖部分的跨模态表征，利用跨模态表征进行遮盖标签词(shirt和shadow)预测。这一部分损失由

表示。

指代描述匹配任务：

对于图像-指代描述数据集

进行指代描述匹配任务。对于

中的每一个数据对(I，L_exp)，根据指代描述L_exp来预测指代物(指代描述多对应的实体)在图片I上的具体位置。

具体的，将L_exp(形如L_exp＝“smaller white sheep on the right”)中的通过文本嵌入层获得文本词向量。图像I通过图像编码器提取图像特征向量。根据指代物(“sheep”)的边界框，生成对应的图像块遮罩R∈{0，1}^N，其中值为0代表对应的图像块不包含该实体，值为1代表对应图像块包含该实体。多模态预训练模型根据多模态编码器的输出，给每一个图像块预测一个0到1之间的概率值，代表对应图像块包含该实体的概率，即多模态预训练模型相应预测一个预测遮罩

指代描述匹配任务要求最小化模型预测误差，这一部分损失由

表示。

被遮盖分词预测任务对于文本数据集

中的文本L，进行分词遮盖预测任务。随机遮盖文本L分词序列中部分分词，并利用未遮盖分词预测遮盖分词。该部分没有图像作为输入，因而也不需要图像编码器参与训练。这一部分的损失由

表示。

最终，总的训练损失为

本发明根据弱对齐多模态数据集进行多种任务训练多模态预训练模型，提升多模态预训练模型的跨模态理解能力。

在上述各实施例的基础上，作为一种可选的实施例，所述第一数据集的被遮盖标签词预测损失

的计算公式如下：

其中，(j，L_tag)表示图像I及其对应的标签词文本序列L_tag所组成的样本，

需要理解的是，对于遮盖标签词，预测结果为词表中每一个词的概率用候选词概率分布表示，标签词文本序列中多个遮盖标签词的候选词概率分布表示点乘结果即为候选词联合概率分布；真值是由标签词文本序列中遮盖标签词对应的真实结果确定的。

的计算公式如下：

为图像-指代描述数据集，M为

中包含的图像数量，

为R_I与

之间的软骰子损失，

为R_I与

为R_I中第i个图像块对应的概率函数，

为

所述第三数据集的被遮盖分词预测损失

的计算公式如下：

其中，

logP(T_m*|T_\m*)与logP(T_m|T_\m，V)类似，在此不做赘述。

本发明提供被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的损失计算公式，为多模态预训练模型的参数优化提供方便。

第二方面，对本发明提供的多模态预训练模型的训练装置进行描述，下文描述的多模态预训练模型的训练装置与上文描述的多模态预训练模型的训练方法可相互对应参照。图2示例了多模态预训练模型的训练装置的结构示意图，如图2所示，所述装置包括：

第一构建模块21，用于构建包含多模态图文信息处理网络的多模态预训练模型；

第二构建模块22，用于构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；

训练模块23，用于利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；

本发明提供的一种多模态预训练模型的训练装置，在多模态预训练模型中构建了具有直接处理多模态图文信息的能力的多模态图文信息处理网络，使得其无需外部模型辅助提取图片特征，具有更快的推理速度，实用性更强；训练多模态预训练模型时使用的弱对齐图像-文本数据，减少对人工标注的跨模态对齐数据的依赖，大幅减少了训练多模态预训练模型的数据开销，同时弱对齐图像-文本数据能够帮助多模态预训练模型学习不同粒度的跨模态联系，从而提升模型的跨模态理解能力。

在上述各实施例的基础上，作为一种可选的实施例，所述装置还包括图像-标签数据集生成模块，所述图像-标签数据集生成模块，包括：

图像数据集获取单元，用于获取图像数据集；

实体检测单元，用于对于所述图像数据集中的每一张图像，通过目标检测器获取所述图像中存在的所有实体；

标签词文本序列生成单元，用于基于所述图像中存在的所有实体，生成所述图像对应的标签词文本序列；

图像-标签数据集生成单元，用于利用所述图像数据集中的每一张图像及其对应的标签词文本序列，生成所述图像-标签数据集。

在上述各实施例的基础上，作为一种可选的实施例，所述装置还包括：图像-指代描述数据集生成模块，所述图像-指代描述数据集生成模块，包括：

第一实体集合构建单元，用于从所述所有实体中剔除重叠实体，并利用余下的实体构建第一实体集合；

第二实体集合构建单元，用于利用所述第一实体集合中任一实体以及与所述任一实体具有相同标签词的实体构建第二实体集合；

指代描述生成单元，用于基于所述任一实体的标签词以及所述第二实体集合中每一个实体的大小和位置，生成所述任一实体的指代描述；

定义单元，用于将所述任一实体的指代描述作为所述图像对应的指代描述；

图像-指代描述数据集生成单元，用于利用所述图像数据集中的每一张图像及其对应的指代描述，生成所述图像-指代描述数据集。

在上述各实施例的基础上，作为一种可选的实施例，所述训练模块，包括：

第一预处理单元，用于对所述图像-标签数据集中的每一条样本进行第一预处理，以得到第一数据集；

第二预处理单元，用于对所述图像-指代描述数据集中的每一条样本进行第二预处理，以得到第二数据集；

第三预处理单元，用于对所述文本数据集中的每一条样本进行第三预处理，以得到第三数据集；

多模态表征向量生成单元，用于利用多模态图文信息处理网络，生成所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量；

多任务训练单元，用于利用所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量，对所述多模态预训练模型进行被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的联合训练；

其中，所述第一预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

所述第二预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

确定样本中的指代描述对应的分词序列；

所述第三预处理至少包括：

确定样本中文本对应的文本分词序列；

在上述各实施例的基础上，作为一种可选的实施例，所述多模态表征向量生成单元，包括：多模态表征向量第一生成子模块、多模态表征向量第一生成子模块和多模态表征向量第一生成子模块；

所述多模态表征向量第一生成子模块，包括：

第一文本词向量生成子单元，用于利用所述文本嵌入层将所述第一数据集中每一条样本的带有遮盖标注的标签词文本序列转换为文本词向量；

第一图像特征向量子单元，用于利用所述视觉编码器确定所述第一数据集中每一条样本的图像块序列对应的图像特征向量；

第一融合子单元，用于利用所述多模态编码器融合由所述第一数据集中每一条样本的带有遮盖标注的标签词文本序列转换的文本词向量和所述第一数据集中每一条样本的图像块序列对应的图像特征向量，得到所述第一数据集中每一条样本对应的多模态表征向量；

所述多模态表征向量第二生成子模块，包括：

第二文本词向量生成子单元，用于利用所述文本嵌入层将所述第二数据集中每一条样本的指代描述分词序列转换为文本词向量；

第二图像特征向量子单元，用于利用所述视觉编码器确定所述第二数据集中每一条样本的图像块序列对应的图像特征向量；

第二融合子单元，用于利用所述多模态编码器融合由所述第二数据集中每一条样本的指代描述分词序列转换的文本词向量和所述第二数据集中每一条样本的图像块序列对应的图像特征向量，得到所述第二数据集中每一条样本对应的多模态表征向量；

所述多模态表征向量第三生成子模块，包括：

第三文本词向量生成子单元，用于利用所述文本嵌入层将所述第三数据集中每一条样本的带有遮盖标注的文本分词序列转换为文本词向量；

定义子单元，用于将由所述第三数据集中每一条样本的带有遮盖标注的文本分词序列转换的文本词向量作为所述第三数据集中每一条样本对应的多模态表征向量。

在上述各实施例的基础上，作为一种可选的实施例，所述多任务训练单元，包括：

第一预测子模块，用于利用所述第一数据集中每一条样本对应的多模态表征向量预测所述第一数据集中每一条样本的被遮盖标签词；

第二预测子模块，用于利用所述第二数据集中每一条样本对应的多模态表征向量预测所述第二数据集中每一条样本对应的指代实体在所述第二数据集中每一条样本对应的图像中的位置；

第三预测子模块，用于所述第三数据集中每一条样本对应的多模态表征向量预测所述第三数据集中每一条样本的被遮盖分词；

第一计算子模块，用于计算所述第一数据集的被遮盖标签词预测损失；

第二计算子模块，用于计算所述第二数据集的指代实体位置预测损失；

第三计算子模块，用于计算所述第三数据集的被遮盖分词预测损失；

优化子模块，用于以所述第一数据集的被遮盖标签词预测损失、所述第二数据集的指代实体位置预测损失和所述第三数据集的被遮盖分词预测损失的总和为训练损失，优化所述多模态预训练模型的参数；

重复子模块，用于重复上述操作直至所述多模态预训练模型收敛。

的计算公式如下：

的计算公式如下：

为图像-指代描述数据集，M为

中包含的图像数量，

为R_I与

之间的软骰子损失，

为R_I与

为R_I中第i个图像块对应的概率函数，

为

所述第三数据集的被遮盖分词预测损失

的计算公式如下：

其中，

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行多模态预训练模型的训练方法，该方法包括：构建包含多模态图文信息处理网络的多模态预训练模型；构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；其中，所述图像-标签数据集中的样本，由图像及其对应的标签词文本序列构成；图像对应的标签词文本序列由图像中所有实体的标签词拼接而成；所述图像-指代描述数据集中的样本，由图像及其对应的指代描述构成。此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的多模态预训练模型的训练方法，该方法包括：构建包含多模态图文信息处理网络的多模态预训练模型；构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；其中，所述图像-标签数据集中的样本，由图像及其对应的标签词文本序列构成；图像对应的标签词文本序列由图像中所有实体的标签词拼接而成；所述图像-指代描述数据集中的样本，由图像及其对应的指代描述构成。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多模态预训练模型的训练方法，该方法包括：构建包含多模态图文信息处理网络的多模态预训练模型；构建弱对齐图像-文本数据集；其中，所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集；利用所述弱对齐图像-文本数据集训练所述多模态预训练模型；其中，所述图像-标签数据集中的样本，由图像及其对应的标签词文本序列构成；图像对应的标签词文本序列由图像中所有实体的标签词拼接而成；所述图像-指代描述数据集中的样本，由图像及其对应的指代描述构成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态预训练模型的训练方法，其特征在于，所述方法包括：

构建包含多模态图文信息处理网络的多模态预训练模型；

2.根据权利要求1所述的多模态预训练模型的训练方法，其特征在于，所述图像-标签数据集的生成过程，包括：

获取图像数据集；

3.根据权利要求2所述的多模态预训练模型的训练方法，其特征在于，所述图像-指代描述数据集的生成过程，包括：

将所述任一实体的指代描述作为所述图像对应的指代描述；

4.根据权利要求1～3任一项所述的多模态预训练模型的训练方法，其特征在于，所述利用所述弱对齐图像-文本数据集训练所述多模态预训练模型，包括：

其中，所述第一预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

所述第二预处理至少包括：

将样本中的图像切割为N块得到对应的图像块序列；

确定样本中的指代描述对应的分词序列；

所述第三预处理至少包括：

确定样本中文本对应的文本分词序列；

5.根据权利要求4所述的多模态预训练模型的训练方法，其特征在于，所述多模态图文信息处理网络包括：文本嵌入层、视觉编码器和多模态编码器；所述利用多模态图文信息处理网络，生成所述第一数据集中每一条样本对应的多模态表征向量，包括：

6.根据权利要求4所述的多模态预训练模型的训练方法，其特征在于，所述利用所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量，对所述多模态预训练模型进行被遮盖标签词预测任务，指代描述匹配任务和被遮盖分词预测任务的联合训练，包括：

计算所述第一数据集的被遮盖标签词预测损失；

计算所述第二数据集的指代实体位置预测损失；

计算所述第三数据集的被遮盖分词预测损失；

重复上述操作，直至所述多模态预训练模型收敛。

7.根据权利要求6所述的多模态预训练模型的训练方法，其特征在于，所述第一数据集的被遮盖标签词预测损失

的计算公式如下：

其中，(I,L_tag)表示图像I及其对应的标签词文本序列L_tag所组成的样本，

为图像-标签数据集，T_m为标签词文本序列L_tag中遮盖标签词对应的文本词向量，T_\m为标签词文本序列L_tag中未遮盖标签词对应的文本词向量，V为图像I的图像块序列对应的图像特征向量，logP(T_m|T_\m,V)为标签词文本序列L_tag中遮盖标签词对应的候选词联合概率分布和真值之间的交叉熵；