CN114970721A

CN114970721A - 多语言多模态预训练模型的训练方法、装置及电子设备

Info

Publication number: CN114970721A
Application number: CN202210589947.5A
Authority: CN
Inventors: 曾妍; 周王春澍; 罗傲; 张新松
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-30

Abstract

本公开涉及一种多语言多模态预训练模型的训练方法、装置及电子设备，尤其涉及机器学习技术领域。该方法包括：获取配对样本集，配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；将配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；其中，目标文本为任意语言类型，第一语言文本与第二语言文本的语言类型不同。

Description

多语言多模态预训练模型的训练方法、装置及电子设备

技术领域

本公开涉及机器学习技术领域，尤其涉及一种多语言多模态预训练模型的训练方法、装置及电子设备。

背景技术

一些数据资源丰富的语言下的图片文本配对数据(image-text pairs)足以进行多模态预训练，但是有些数据资源较少的语言下难以收集到足够的训练数据，无法使得多模态预训练技术能够应用在各种语言下，亟需一种可以在多语言下具有多模态理解能力的模型

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多语言多模态预训练模型的训练方法、装置及电子设备，可以得到的多语言多模态预训练模型可以实现多语言多模态的理解能力。为了实现上述目的，本公开实施例提供的技术方案如下：

第一方面，提供一种多语言多模态预训练模型的训练方法，包括：

获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；

将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；

其中，所述目标文本为任意语言类型，所述第一语言文本与所述第二语言文本的语言类型不同。

作为本公开实施例一种可选的实施方式，所述将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：

将所述图文配对数据和所述平行配对数据，交替基于统一多语言多模态模型框架进行预训练，以得到所述多语言多模态预训练模型。

作为本公开实施例一种可选的实施方式，将所述配对样本集，基于所述统一多语言多模态模型框架进行预训练的训练目标，包括：

针对目标配对数据的对比学习；

和/或，

所述目标配对数据中包括被掩码文本，针对目标配对数据中的被掩码文本进行复原；

其中，所述目标配对数据包括所述图文配对数据或所述平行配对数据。

作为本公开实施例一种可选的实施方式，所述通过所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：

对目标配对数据进行编码，得到第一编码信息和第二编码信息，所述目标配对数据包括所述图文配对数据或所述平行配对数据；

将所述第一编码信息和所述第二编码信息输入N层特征融合模型，N为大于或等于1的整数；

将所述N层特征融合模型的第一输出结果输入线性层进行处理，得到第一处理结果，基于所述第一处理结果和第一损失函数，确定第一损失参数；

基于所述第一损失参数，更新所述统一多语言多模态模型框架的模型参数。

作为本公开实施例一种可选的实施方式，所述第一损失函数包括：匹配损失函数和/或CMLM损失函数。

作为本公开实施例一种可选的实施方式，所述方法还包括：

基于所述第一编码信息、所述第二编码信息以及第二损失函数，确定第二损失参数；

基于所述第二损失参数，更新所述统一多语言多模态模型框架的模型参数。

作为本公开实施例一种可选的实施方式，所述第二损失函数为对比学习损失函数。

作为本公开实施例一种可选的实施方式，所述目标配对数据为所述图文配对数据，所述第一编码信息为所述图像的编码信息，所述第二编码信息为所述目标文本的编码信息；

所述目标配对数据为所述平行配对数据，所述第一编码信息为所述第一语言文本的编码信息，所述第二编码信息为所述第二语言文本的编码信息。

第二方面，提供一种多语言多模态预训练模型的训练装置，包括：

获取模块，用于获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；

预训练模块，用于将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；

作为本公开实施例一种可选的实施方式，所述预训练模块，具体用于：

针对目标配对数据的对比学习；

和/或，

作为本公开实施例一种可选的实施方式，所述预训练模块包括：

编码器，用于对目标配对数据进行编码，得到第一编码信息和第二编码信息，所述目标配对数据包括所述图文配对数据或所述平行配对数据；

N层特征融合模型，用于接收输入的所述第一编码信息和所述第二编码信息，并输出第一输入结果，N为大于或等于1的整数；

线性层，用于接收第一输出结果，并根据所述第一输出结果处理得到第一处理结果；

损失计算模块，用于基于所述第一处理结果和第一损失函数，确定第一损失参数；

更新模块，用于基于所述第一损失参数，更新所述统一多语言多模态模型框架的模型参数。

作为本公开实施例一种可选的实施方式，所述损失计算模块，还用于：基于所述第一编码信息、所述第二编码信息以及第二损失函数，确定第二损失参数；

所述更新模块，还用于：基于所述第二损失参数，更新所述统一多语言多模态模型框架的模型参数。

第三方面，提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的多语言多模态预训练模型的训练方法。

第四方面，提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的多语言多模态预训练模型的训练方法。

第五方面，提供一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的多语言多模态预训练模型的训练方法。

本公开实施例提供的多语言多模态预训练模型的训练方法，首先获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；然后将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型目标文本为任意语言类型，第一语言文本与第二语言文本的语言类型不同。通过该方案，由于图文配对数据包括了含义相关的图片和文本，平行配对数据包括了语义相近的两种不同语言文本，可以看出图文配对数据和平行配对数据均是针对同一个实质的两种表示的配对数据，因此将图文配对数据和平行配对数据，基于统一多语言多模态模型框架进行预训练，就可以得到多语言多模态预训练模型，这样在配对样本集中如果包括有数据资源丰富的语言类型所对应的文本时，就可以实现将数据资源丰富的语言类型的多模态理解能力，迁移到其他的语言类型，从而可以使得得到的多语言多模态预训练模型实现多语言多模态的理解能力。

进一步的，这种方式无需进行大量数据的翻译，可以降低资源消耗，并且提高训练得到的多语言多模态预训练模型的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种多语言多模态预训练模型的训练方法的流程示意图；

图2为本公开实施例提供的基于统一多语言多模态模型框架进行预训练的示意图；

图3为本公开实施例提供的统一多语言多模态模型框架的示意图；

图4为本公开实施例提供的另一种多语言多模态预训练模型的训练方法的流程示意图；

图5对本公开实施例提供的多语言多模态预训练模型进行下游任务微调的示意图；

图6为本公开实施例提供的一种视觉问答任务的示意图；

图7为本公开实施例提供的一种视觉推理任务的示意图；

图8为本公开实施例提供的一种多语言多模态预训练模型的训练装置的结构框图；

图9为本公开实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

多模态指的是多种模态的信息，可以包括：视觉信息、语言信息等，多模态理解任务是指同时理解视觉信息(vision)和语言信息(language)来解决相关问题，例如:跨模态检索任务(image-text retrieval)，视觉问答任务(visual question answering)，视觉推理任务(visual reasoning)等等。通常使用预训练的多模态模型来提高下游多模态理解任务的效果。

一些数据资源丰富的语言下的图片文本配对数据(image-text pairs)足以进行多模态预训练，但是有些数据资源较少的语言下难以收集到足够的训练数据，无法使得多模态预训练技术能够应用在各种语言下。

由于多语言多模态预训练(即多语言下的多模态预训练)缺乏直接的训练数据，即各种语言下的图片和文本配对数据，因此主要可以通过以下两种方式替代各种语言下的图片和文本配对数据：

(1)以一种多任务的多语言多模态预训练(Learning UniversalRepresentations via Multitask Multilingual Multimodal Pre-training，M3P)为代表的工作，使用图片和英语文本的配对数据和非平行的多语言数据进行替代，M3P通过多任务预训练目标将多语言预训练和多模态预训练结合将以不同方式出现的对象或以不同语言表达的文本映射到一个公共语义空间。这种方法以英语为支点，利用多任务训练共享参数，尝试将英语多模态能力迁移到其它语言。

其中，非平行的多语言数据是指不相关的不同语言的文本数据。

(2)以通用跨语言跨模态视觉和语言预训练(Universal Cross-lingual Cross-modal Vision-and-Language Pre-training，UC2)为代表的工作，利用翻译系统，将英语图片文本配对数据翻译到其它语言，以此构建各种语言下的图片文本配对数据进行训练。

其中，为了解决图像数据集多语言字幕的稀缺问题，首先通过机器翻译(MT)将现有的仅英语数据集与其他语言进行扩充，然后，构建各种语言下的图片文本配对数据。

以上两种方法都属于多语言和多模态的多任务训练，通过参数共享，希望模型能将高资源语言(例如：英语/中文)的多模态理解能力，迁移到其他低资源语言下。一般认为，训练出的多语言多模态预训练模型的实验结果需要远好于翻译测试(translate-test)的结果，在实际中应用时才能达到准确度要求，但是按照最新的研究跨模式任务和语言的迁移学习基准(A Benchmark for Transfer Learning across Modalities,Tasks,andLanguages，IGLUE)对上述目前两种方法训练的多语言多模态预训练模型进行详细实验分析后发现，实验结果远远差于“translate-test”的准确度，因此上述两种方法难以在实际中应用。

为了解决上述问题，本公开实施例提供了一种多语言多模态预训练模型的训练方法、装置及电子设备，由于图文配对数据包括了含义相关的图片和文本，平行配对数据包括了语义相近的两种不同语言文本，可以看出图文配对数据和平行配对数据均是针对同一个实质的两种表示的配对数据，因此将图文配对数据和平行配对数据，基于统一多语言多模态模型框架进行预训练，就可以得到多语言多模态预训练模型，这样在配对样本集中如果包括有数据资源丰富的语言类型所对应的文本时，就可以实现将数据资源丰富的语言类型的多模态理解能力，迁移到其他的语言类型，从而可以使得得到的多语言多模态预训练模型实现多语言多模态的理解能力，这种方式无需进行大量数据的翻译，可以降低资源消耗，并且提高训练得到的多语言多模态预训练模型的准确度。

本公开实施例中，上述多语言多模态预训练模型的训练方法，可以应用于多语言多模态预训练模型的训练装置和电子设备，该多语言多模态预训练模型的训练装置可以为电子设备中用于实现该多语言多模态预训练模型的训练方法的功能模块或者功能实体。其中，该电子设备包括但不限于：服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中，用户设备包括但不限于电脑、智能手机、平板电脑等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，计算机设备可单独运行来实现本公开，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本公开。其中，计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用(Virtual PrivateNetwork，VPN)网络等。

如图1所示，为本公开实施例提供的一种多语言多模态预训练模型的训练方法的流程示意图，该方法包括：

101、获取配对样本集。

其中，配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据。

上述目标文本为任意语言类型，第一语言文本与第二语言文本的语言类型不同。

上述平行配对数据是指第一语言文本与第二语言文本的含义相同，语言类型不同。上述目标文本和第一语言文本的可以为语义相近的文本，目标文本和第一语言文本也可以为语义不相关的文本。

示例性的，图文配对数据可以为图片和英文文本的配对数据，平行配对数据可以为英文文本和中文文本的配对数据。

102、将配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型。

在一些实施例中，将配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：将图文配对数据和平行配对数据，交替基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型。

上述将图文配对数据和平行配对数据，交替基于统一多语言多模态模型框架进行预训练包括：先将图文配对数据基于统一多语言多模态模型框架进行预训练，之后将平行配对数据基于统一多语言多模态模型框架进行预训练，之后再将图文配对数据基于统一多语言多模态模型框架进行预训练，以此循环基于统一多语言多模态模型框架进行预训练；或者，先将平行配对数据基于统一多语言多模态模型框架进行预训练，之后将图文配对数据基于统一多语言多模态模型框架进行预训练，之后再将平行配对数据基于统一多语言多模态模型框架进行预训练，以此循环基于统一多语言多模态模型框架进行预训练。这样交替进行训练的方式可以达到更好的训练效果。

需要说明的是，本公开实施例中配对样本集中可以包括大量的图文配对数据和大量的平行配对数据，在预训练过程中，每次输入的图文配对数据和平行配对数据可以与上一次的不同。

示例性的，如图2所示为本公开实施例提供的基于统一多语言多模态模型框架进行预训练的示意图，图2中可以看出，该统一多语言多模态模型框架的输入包括：图文配对数据和平行配对数据。其中，每进行一轮预训练，可以输入图文配对数据和平行配对数据中的一种配对数据。

如图3所示，为本公开实施例提供的统一多语言多模态模型框架的示意图，该统一多语言多模态模型框架包括：文本编码器301，以及图像/文本编码器302，特征融合模型303，该特征融合模型(Transformer模型)303中包括自注意力层3031、交叉注意力层3032、以及前向传播层(feed forward)3033，线性层304。

其中，该文本编码器301可以为跨语言文本编码器，该图像/文本编码器302可以为具有文本编码器和图像编码器功能的编码器。上述特征融合模型303为Transformer模型，具体可以是N层Transformer模型。

上述Transformer模型中的自注意力层3031接收文本编码器301编码后得到的文本编码信息，利用自注意力机制(self-attention)学习目标句(即文本编码信息)内部的关系，之后将输出给到交叉注意力层3032，交叉注意力层3032接收图像/文本编码器302编码后得到的图像/文本编码信息，交叉注意力层3032通过交叉注意力机制(encoder-decoderattention)来学习图像/文本编码信息与文本编码信息之间的关系，并将学习结果输入到前向传播层3033进行解码，就可以得到解码后的输出，将解码后的输出输入到线性层304进行处理，得到最后的输出，

其中，可以通过线性层304处理后的处理结果和匹配损失函数和/或基于条件的掩膜语言模型(conditioned masked language modeling，CMLM)损失函数，可以计算匹配损失参数和/或CMLM损失参数，文本编码器301编码后得到的文本编码信息和图像/文本编码器302编码后得到的图像/文本编码信息以及对比学习损失函数，可以计算对比学习损失参数。

在一些实施例中，如图4所示，为本公开实施例提供的另一种多语言多模态预训练模型的训练方法的流程示意图，上述通过所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型的过程中，需要执行一次或多次以下步骤401至406：

401、对目标配对数据进行编码，得到第一编码信息和第二编码信息。

其中，目标配对数据包括图文配对数据或平行配对数据。

在一些实施例中，在目标配对数据为图文配对数据的情况下，第一编码信息为图像的编码信息，第二编码信息为目标文本的编码信息。

结合上述图3所示，在目标配对数据为图文配对数据的情况下，可以将图片输入到图像/文本编码器302，以编码得到第一编码信息，将目标文本输入到文本编码器303，以编码得到第二编码信息。

在一些实施例中，在目标配对数据为平行配对数据的情况下，第一编码信息为第一语言文本的编码信息，第二编码信息为第二语言文本的编码信息。

结合上述图3所示，在目标配对数据为图文配对数据的情况下，可以将第一语言文本输入到图像/文本编码器302，以编码得到第一编码信息，将第二语言文本输入到文本编码器303，以编码得到第二编码信息。

402、将第一编码信息和第二编码信息输入N层特征融合模型。

其中，N为大于或等于1的整数。

上述将第一编码信息和第二编码信息输入N层特征融合模型可以是将第一编码信息输入到图3所示的特征融合模型303中的交叉注意力层3032，将第二编码信息输入到图3所示的特征融合模型303中的自注意力层3031。

403、将特征融合模型的第一输出结果输入线性层进行处理，得到第一处理结果，基于第一处理结果和第一损失函数，确定第一损失参数。

其中，第一损失函数包括：匹配损失函数和/或CMLM损失函数。

404、基于第一损失参数，更新统一多语言多模态模型框架的模型参数。

可选的，还可以包括以下步骤5和步骤6：

405、基于第一编码信息、第二编码信息以及第二损失函数，确定第二损失参数。

406、基于第二损失参数，更新统一多语言多模态模型框架的模型参数。

其中，第二损失函数为对比学习损失函数。

在将所述配对样本集，基于所述统一多语言多模态模型框架进行预训练的训练目标包括以下至少一种训练目标：

a)针对目标配对数据的对比学习；

该训练目标可以包括但不限于以下至少一种方式实现：

一种方式为：通过上述对比学习损失函数计算对比学习损失参数，并基于该对比学习损失参数更新统一多语言多模态模型框架的模型参数。

另一种方式为：通过上述匹配损失函数计算匹配损失参数，并基于该匹配损失参数更新统一多语言多模态模型框架的模型参数。

b)针对目标配对数据中的被掩码文本进行复原。

其中，目标配对数据中包括被掩码文本，基于CMLM损失函数计算CMLM损失参数，并基于CMLM损失参数更新统一多语言多模态模型框架的模型参数，这样可以实现基于图片或者另一语言的文本，对于被掩码的文本进行复原。

由于图文配对数据包括了含义相关的图片和文本，平行配对数据包括了语义相近的两种不同语言文本，可以看出图文配对数据和平行配对数据均是针对同一个实质的两种表示的配对数据，而本公开实施例中多语言多模态的预训练过程是拉近同一个实质的两种表示，对同一个实质的两种表示进行最大互信息优化。基于此本公开实施例提出，通过统一多语言多模态模型框架，基于图文配对数据和平行配对数据进行预训练，这样通过平行配对数据的输入可以拉近不同语言相同词汇/概念之间的联系，能有效地帮助将高资源语言(例如：英语/中文)的多模态理解能力，迁移到其他低资源语言下。

如果给定两个随机变量A和B，I(A,B)代表两个随机变量A和B的互信息，即代表它们之间的相关性。此处，定义A＝a，B＝b是针对同一实质的两个不同表示，这两个表示可以是图文配对数据，也可以是平行配对数据。在本发明中使用到的上述三个损失函数(对比学习损失函数、CMLM损失函数和匹配损失函数)对应的损失参数都可以归类为最大化互信息I(A,B)的下界，即最小化信息噪声对比估计损失(info Noise Contrastive Estimationloss，InfoNCE)。

InfoNCE函数如下公式(1)所示：

其中，f_θ是基于参数θ的函数，f_θ∈R，R是实数集，

是一个集合，包含一个正样本b和

个负样本，E_p(A,)代表期望，exp(*)为指数幂函数e^*。

上述对比学习损失函数是上述InfoNCE损失的对称形式，上述对比学习损失函数如下公式(2)所示：

其中，

分别是A、B集合的大小，并且等于训练的批量数据(batch)大小，E_p(A,B)代表期望，exp(*)为指数幂函数e^*。

当统一多语言多模态模型框架输入是图文配对数据时，函数

当模型输入是平行配对数据时，

其中，

和

分别是图像/文本编码器和文本编码器在各自特殊的符号[CLS]位置的[CLS]输出向量，g_v和g_w是两个函数，分别将[CLS]输出向量映射为较低维的特征表示，τ是可学习的参数，其中，[CLS]这个符号是用来从所有位置接收和总结有用信息的，[CLS]的上下文表示将被用作下游任务中句子的表示。本公开实施例中，上述图像/文本编码器得到的第一编码信息、或者文本编码器得到的第二编码信息是由[CLS]输出向量和其余各个token对应位置的输出向量组成的。

类似的，在融合模型的[CLS]输出向量(即

)后的匹配损失函数，也可以看作InfoNCE损失函数的对称形式，上述匹配损失函数可以表示为下述公式(3)：

在匹配损失函数中，可以为每个正样本对(a,b)在当前训练batch中采样1个负样本，然后针对所有样本对判断这些样本对中的两个样本是否匹配(是否是正样本对)。在此处

其中g_m是多层感知机网络，

是参数化向量。

类似的，CMLM损失函数也可以表示为最大化上下文信息

和

中被遮盖的词元(token)W_i之间的互信息，其中，

代表部分被遮盖的文本输入，b是相对应的图像或翻译文本(即另一种语言的文本)，该CMLM损失函数可以如下公式(4)所示：

其中,

是融合模型在w_i位置上的输出向量。ψ(w)是一个用来将词元(token)w映射为一个参数化向量的查找函数,v代表完整词表。

通过上述公式(2)、公式(3)和公式(4)的表示形式，可以获知本公开实施例中的三种损失函数，均为针对同一个实质的两种表示进行最大互信息优化。基于此本公开实施例通过统一多语言多模态模型框架，基于图文配对数据和平行配对数据进行预训练，这样通过平行配对数据的输入可以拉近不同语言相同词汇/概念之间的联系，并且通过上述三种损失函数可以进行最大互信息优化，能有效地帮助将高资源语言(例如：英语/中文)的多模态理解能力，迁移到其他低资源语言下。

如图5所示，为对本公开实施例提供的多语言多模态预训练模型进行下游任务微调的示意图，在基于图2得到多语言多模态预训练模型之后，还可以基于多模态的下游任务语料，对该多语言多模态预训练模型进行下游任务微调，将微调后的多语言多模态预训练模型用于实现下游任务，该下游任务可以为多模态理解任务。其中，该多模态下游任务语料，包括针对下游任务配置的多种语言的任务语料(即文本)，上述下游任务可以包括：图文检索任务(Retrieval)、视觉文档任务(VQA)和视觉推理任务(NLVR^2)等。其中，图文检索任务：考察模型通过文本检索相关图片的能力，以及通过图片检索相关文本的能力；视觉问答任务：该任务考察模型根据图片回答问题的能力；视觉推理任务：该任务考察模型是否能判断文字是否正确描述了图片。

示例性的，如图6所示，为本公开实施例提供的一种视觉问答任务的示意图，该任务中给出了两个动物的图片，并给出了文本“哪个动物更大？”以及对应的答案“兔子”。通过识别图片，可以得到文本描述的问题和答案。

示例性的，如图7所示，为本公开实施例提供的一种视觉推理任务的示意图，该任务中给出了文本“左边的图片中有两只狗”，并给出了左右两张图片，通过该文本结合左右两张图片，可以判断出该文字是否正确描述了左边图片中狗的数量。

如下表1所示，在公开的多语言多模态任务榜单IGLUE上，在零次学习(zero-shot)测评方式中，本公开实施例的多语言多模态预训练方法大幅超过了当前最前沿的模型，例如：M3P、UC2。此外，综合全部任务来看，本公开实施例的多语言多模态预训练方法首次超过了最好的translate-test的效果，说明了本公开实施例的多语言多模态预训练方法的实用性。

其中，zero-shot：使用英语数据微调多语言多模态预训练模型，然后直接在其他多个语言上进行测试。translate-test：将其它语言的数据翻译到英语，然后使用英语模型进行测试。一般认为，zero-shot的多语言多模态预训练模型需要超过“translate-test”才能用于实际。

表1

其中，xGQA表示多语言视觉问答任务(Cross-lingual Grounded QuestionAnswering)，XVNLI表示多语言视觉自然语言推理任务(Cross-lingual Visual NaturalLanguage Inference)、MaRVL表示多元文化视觉语言推理任务(Multicultural Reasoningover Vision and Language)、xFlickr&CO表示基于Flickr30K和COCO测试集的多语言图文检索任务(multilingual image-text retrieval on Flickr30K and COCO test split)、WIT表示基于维基百科的图文数据集(Wikipedia-based Image Text dataset)、UNITER表示通用图像-文本表示学习(UNiversal Image-TExt Representation Learning)、mUNITER表示用mBERT模型初始化的UNTIER(UNITER initialized with mBERT)、xUNITER表示用XLM-R模型初始化的UNITER(UNITER initialized with XLM-R)、XLM-R表示多语言语言模型-ROBERTa(Crosslingual language model-RoBERTa)、RoBERTa表示鲁棒优化BERT方法(Robustly optimized BERT approach)、BERT表示双向编码器表示翻译(BidirectionalEncoder Representations from Transformers)、mBERT表示多语言BERT(multilingualBERT)、Visual BERT表示视觉BERT、VL-BERT表示视觉-语言BERT(Visual-LinguisticBERT)。

本公开实施例提供的多语言多模态预训练模型的训练方法，首先获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；然后将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型目标文本为任意语言类型，第一语言文本与第二语言文本的语言类型不同。通过该方案，由于图文配对数据包括了含义相关的图片和文本，平行配对数据包括了语义相近的两种不同语言文本，可以看出图文配对数据和平行配对数据均是针对同一个实质的两种表示的配对数据，因此将图文配对数据和平行配对数据，基于统一多语言多模态模型框架进行预训练，就可以得到多语言多模态预训练模型，这样在配对样本集中如果包括有数据资源丰富的语言类型所对应的文本时，就可以实现将数据资源丰富的语言类型的多模态理解能力，迁移到其他的语言类型，从而可以使得得到的多语言多模态预训练模型实现多语言多模态的理解能力，这种方式无需进行大量数据的翻译，可以降低资源消耗，并且提高训练得到的多语言多模态预训练模型的准确度。

如图8所示，本公开实施例提供的一种多语言多模态预训练模型的训练装置的结构框图，该装置包括：

获取模块801，用于获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；

预训练模块802，用于将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；

作为本公开实施例一种可选的实施方式，作为本公开实施例一种可选的实施方式，所述预训练模块802，具体用于：

针对目标配对数据的对比学习；

和/或，

作为本公开实施例一种可选的实施方式，所述预训练模块802包括：

编码器8021，用于对目标配对数据进行编码，得到第一编码信息和第二编码信息，所述目标配对数据包括所述图文配对数据或所述平行配对数据；

N层特征融合模型8022，用于接收输入的所述第一编码信息和所述第二编码信息，并输出第一输入结果，N为大于或等于1的整数；

线性层8023，用于接收第一输出结果，并根据所述第一输出结果处理得到第一处理结果；

损失计算模块8024，用于基于所述第一处理结果和第一损失函数，确定第一损失参数；

更新模块8025，用于基于所述第一损失参数，更新所述统一多语言多模态模型框架的模型参数。

作为本公开实施例一种可选的实施方式，所述损失计算模块8024，还用于：基于所述第一编码信息、所述第二编码信息以及第二损失函数，确定第二损失参数；

所述更新模块8025，还用于：基于所述第二损失参数，更新所述统一多语言多模态模型框架的模型参数。

如图9所示，为本公开实施例提供的一种电子设备的硬件结构示意图，该电子设备包括：处理器901、存储器902及存储在所述存储器902上并可在所述处理器901上运行的计算机程序，所述计算机程序被所述处理器901执行时实现上述方法实施例中的多语言多模态预训练模型的训练方法的各个过程。且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例提供一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述方法实施例中多语言多模态预训练模型的训练方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本发明实施例提供一种计算程序产品，该计算机程序产品存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中多语言多模态预训练模型的训练方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本公开中，处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是图形处理器(Graphics processing unit，GPU)、其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开中，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

本公开中，计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多语言多模态预训练模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：

3.根据权利要求1所述的方法，其特征在于，将所述配对样本集，基于所述统一多语言多模态模型框架进行预训练的训练目标，包括：

针对目标配对数据的对比学习；

和/或，

4.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一损失函数包括：匹配损失函数和/或基于条件的掩膜语言模型CMLM损失函数。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述第二损失函数为对比学习损失函数。

8.根据权利要求4所述的方法，其特征在于，

所述目标配对数据为所述图文配对数据，所述第一编码信息为所述图像的编码信息，所述第二编码信息为所述目标文本的编码信息；

9.一种多语言多模态预训练模型的训练装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述预训练模块包括：

11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的多语言多模态预训练模型的训练方法。

12.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的多语言多模态预训练模型的训练方法。