CN113283551A

CN113283551A - 多模态预训练模型的训练方法、训练装置及电子设备

Info

Publication number: CN113283551A
Application number: CN202110828433.6A
Authority: CN
Inventors: 李子中; 李飞阳; 史雅雅; 薛娇
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-08-20
Anticipated expiration: 2041-07-22
Also published as: CN113283551B

Abstract

本申请提供了一种多模态预训练模型的训练方法、训练装置及电子设备。本申请通过将每一组图文对产生的图像特征向量和文本特征向量输入至多模态预训练模型完成对多模态预训练模型的训练。其中图像特征向量包括了第一类图像特征向量和第二类图像特征向量。第一类图像特征向量包括原始图片的全局特征，第二类图像特征向量包括原始图片的局部特征和局部特征的位置坐标。本申请中设置第二类图像特征向量可以将强相关的视觉‑语义场景准确的描述。本申请提供的多模态预训练模型的训练方法可以大量的节约在预训练时所花费的时间和计算资源，得到一个需要少量的数据就能够快速准确的进行文匹配的多模态预训练模型。

Description

多模态预训练模型的训练方法、训练装置及电子设备

技术领域

本申请涉及计算机应用技术领域，具体涉及一种多模态预训练模型的训练方法、训练装置及电子设备。

背景技术

随着迁移学习技术的不断发展，一系列大规模的语言预训练模型 (PretrainLanguage Model) 以及图文多模态预训练 (Pretrain Multi-Modal Model) 模型广泛兴起，比如BERT，GPT-3，T5，CLIP等。这些预训练模型通常使用大规模的数据集在较为简单的任务上进行预训练。预训练完成后，用户再根据特定的下游任务加载预训练模型的参数后继续进行微调，便可以让预训练模型在相关下游任务上取得显著的性能提升。

目前，存在一些需要对图文信息进行检索的问题，即需要建立预训练模型以实现对图文信息的识别。传统的，图文检索的预训练模型主要是基于文本的图文检索模型。基于文本的图文检索沿用了传统的文本检索技术，数据库并不会对图片的内容来进行分析，而只是记录图像的名称和尺寸，图像注解的文字内容，以及人工给出的标签。在文本检索图片时，用户一般以关键短词的形式来查询图片，或者去特定类别的目录下寻找目标图像。以这种方式进行图文检索，不仅需要花费大量的时间和人力来对图片进行标注，而且检索机制并不能在真正意义上“理解”图片中描述的内容，从而不能实现文本与图片的在同一个语义空间下的“对齐”。

当然目前对图文信息进行检索时，也会采用基于内容的直接搜索模型，比如多模态预训练模型。在预训练阶段，多模态预训练模型会看到大量的<图片-文本>数据对，多模态预训练模型在训练过程中将文本图片编码，在多模态预训练模型内部或者目标函数中进行图片-文本语义的对齐，并产出同一语义空间的特征向量。通过计算特征向量的相似度来判断与当前图片/文本内容最相近的文本/图片，从而进行图文检索。

目前，图文多模态预训练模型开始在英文社区火爆起来，相关的改进模型与预训练技术也纷纷出现。遗憾的是，ViLBERT，CLIP以及DALL·E（三者均是基于内容进行图文检索的预训练模型）在训练过程中使用的文本均为英文文本，使其无法拥有中文文本检索与被检索的能力。

对于中文社区来说，目前有人民大学与中科院计算所联合发布的中文通用多模态预训练模型悟道·文澜，也有阿里达摩院发布的最大多模态预训练模型M6。其中，悟道·文澜模型是双塔模型模型，与CLIP的模型结构类似，在文本的预训练中使用了对比学习的方式来构造负样本。M6模型构建了一个基于自注意力机制 (Self-Attention) 的转换模型，兼具文本和图像特征向量提取与文本图片生成两种功能。

但是悟道·文澜模型是一个具有10亿参数的大规模预训练模型。而M6模型更是一个具有1000亿参数的超大规模的多模态预训练模型，这两种预训练模型都非常庞大。目前，急需提供一种通过少量的数据就能够快速准确的进行图文匹配的多模态预训练模型，该多模态预训练模型可以大量的节约在预训练时所花费的时间和计算资源。

发明内容

有鉴于此，为了能够更好地完成图文检索的任务，本申请提供了一种通用的多模态预训练模型的训练方法、训练装置及电子设备。本申请提供的所述多模态预训练模型能够适用于强相关的视觉-语义场景，减少了预训练所花费的时间和计算资源，相比于悟道·文澜模型与M6模型来说，既准确又迅速。

本申请提供一种多模态预训练模型的训练方法，包括：

构建多模态预训练模型，所述多模态预训练模型为双塔模型；

提供图文样本数据，所述图文样本数据中包括多个图文对；每一组所述图文对包括图片信息和文本信息；

将每一组所述图文对中所包括的所述文本信息输入至所述多模态预训练模型的文本侧，以获取每一组所述图文对的文本特征向量；

将每一组所述图文对中所包括的所述图片信息输入至所述多模态预训练模型的图像侧，以获取每一组所述图文对的图像特征向量，其中所述图像特征向量包括第一类图像特征向量和第二类图像特征向量；

根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型。

在一个实施例中，所述获取每一组所述图文对的图像特征向量的步骤包括：

获取所述图片信息中的所述第一类图像特征向量，所述第一类图像特征向量为全局特征向量；

获取所述图片信息中的所述第二类图像特征向量，所述第二类图像特征向量为局部特征向量；

将所述第一类图像特征向量和所述第二类图像特征向量连接到一起，并输入至全连接层进行维度变换，以得到所述图像特征向量，所述图像特征向量和所述文本特征向量为同一语义空间下的特征向量。

在一个实施例中，所述获取所述图片信息中的所述第二类图像特征向量的具体步骤包括：

目标检测器对图片进行目标检测，获取所述图片中的目标物体特征以及所述目标物体的位置坐标特征；

将所述目标物体特征和所述位置坐标特征输入至自注意力层；

对所述目标物体特征和所述位置坐标特征进行融合，以得到所述第二类图像特征向量。

在一个实施例中，所述获取每一组所述图文对的文本特征向量的步骤包括：

采用词粒度模型对所述文本信息进行分词，以得到多个标记序列；

将所述多个标记序列输入至转换层，以转换得到所述文本特征向量。

在一个实施例中，所述根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型的步骤，包括：

计算每一组所述文本特征向量和所述图像特征向量之间的相关性；

评价所述相关性计算结果的高低；

当所述相关性的计算结果在预设范围内趋于稳定，或者当所述相关性的计算结果高于预设相关阈值时，停止对所述多模态预训练模型的训练。

在一个实施例中，所述评价所述相关性计算结果的高低的步骤包括：

对所述图文样本数据中的所述文本特征向量和所述图像特征向量做点积运算，得到点积运算结果；

将所述点积运算结果与所述图片信息、所述文本信息进行对比，并采用交叉熵损失函数计算损失值；

根据所述损失值的大小来评价所述相关性计算结果的高低。

在一个实施例中，所述图文样本数据包括300万语义一致的中文图文对。

本申请还提供一种多模态预训练模型的训练装置，包括：

模型构建模块，用于构建多模态预训练模型，所述多模态预训练模型为双塔模型；

样本数据获取模块，用于获取图文样本数据，所述图文样本数据中包括多个图文对；每一组所述图文对包括图片信息和文本信息；

特征向量获取模块，用于获取每一组所述图文对的文本特征向量，以及用于获取每一组所述图文对的图像特征向量，其中所述图像特征向量包括第一类图像特征向量和第二类图像特征向量；

模型训练模块，用于根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型。

本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述任一项所述的方法。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述任一项所述的方法。

本申请通过将每一组所述图文对产生的所述图像特征向量和所述文本特征向量输入至所述多模态预训练模型完成对所述多模态预训练模型的训练。其中所述图像特征向量包括了所述第一类图像特征向量和所述第二类图像特征向量。所述第一类图像特征向量包括原始图片的全局特征，所述第二类图像特征向量包括原始图片的局部特征和局部特征的位置坐标。本申请中设置所述第二类图像特征向量可以将强相关的视觉-语义场景准确的描述。本申请提供的所述多模态预训练模型的训练方法可以得到一个需要少量的数据就能够快速准确的进行文匹配的所述多模态预训练模型。并且所述多模态预训练模型可以大量的节约在预训练时所花费的时间和计算资源。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一个实施例提供的多模态预训练模型的训练方法的步骤流程图；

图2为本申请一个实施例提供的多模态预训练模型的训练方法中特征向量的生成流程图；

图3为本申请一个实施例提供的多模态预训练模型的训练方法的训练逻辑示意图；

图4为本申请一个实施例提供的多模态预训练模型的训练方法中特征向量相似度计算示意图；

图5为本申请一个实施例提供的多模态预训练模型的训练装置结构示意图；

图6为本申请一个实施例提供的电子设备的结构示意图。

附图标记：

多模态预训练模型的训练装置10

模型构建模块11

样本数据获取模块12

特征向量获取模块13

模型训练模块14。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请提供的方案中，采用基于内容的图文检索方法。所谓基于内容的图文检索方法是根据图像本身的语义内容以及上下文联系进行查找的。数据库中收录图像的语义特征，图像以其内容作为检索来检索出和其特征相似的其他图像或文本。基于内容的图文检索方式是直接根据图像所描述的内容来进行查找，所以一般会比文本检索得到的结果要更加精准。

本申请的技术方案采用基于内容的直接搜索模型方式来进行图文检索。即数据库需要真正地理解图片中的“内容”，根据图片内容来选取其最合适的对应文本。直接搜索模型的一般做法是分别对图片和文本进行编码，然后利用目标函数使模型计算得到的图片空间和文本空间尽可能地融合，之后再通过计算图片空间对应产出的图像特征向量与文本空间对应产出的文本特征向量 (embedding) 之间的内积来进行图片与文本的相似度计算。也就是说，语义越匹配的图片和文本对应的特征向量之间的相似度分数越高，语义越不匹配的图片和文本对应的特征向量之间的相似度分数越低。这样，不管是对于图片检索文本任务还是文本检索图片任务，模型都可以根据数据库内图片与文本之间的相似度分数来给出最相关的结果。本申请训练的所述多模态预训练模型在此之上，添加了图片内所含有的目标特征信息作为图片的额外信息输入模型，使其能够更好地理解图片内容，从而实现更加高效的图文检索。

综上，本申请训练的所述多模态预训练模型旨在预训练出的一个可以计算出图片与文本在同一语义空间下的特征向量的图文多模态模型来实现高效的图文检索功能。

具体的，请参阅图1和图2，图1为本申请一个实施例提供的多模态预训练模型的训练方法的步骤流程图。本申请提供一种多模态预训练模型的训练方法，包括：

S01，构建多模态预训练模型，所述多模态预训练模型为双塔模型。所述多模态预训练模型是未经过数据训练的原始模型，所述多模态预训练模型中的参数是随机的、初始化的参数。

S02，提供图文样本数据，所述图文样本数据中包括多个图文对；每一组所述图文对包括图片信息和文本信息。所述图文样本数据包括训练集用于提供数据实现对所述多模态预训练模型中的参数修改。将所述图文样本数据中的所述图文对分别输入所述多模态预训练模型，对所述多模态预训练模型进行优化处理，并时刻记录所述多模态预训练模型的优化参数结果。

S03，将每一组所述图文对中所包括的所述文本信息输入至所述多模态预训练模型的文本侧，以获取每一组所述图文对的文本特征向量。请参阅图2，图2中示出了获取文本特征向量的大致步骤。首先将“两个人在树下的白色栏杆前骑马”的文本信息发送至语言预训练模型中，经过所述语言预训练模型从所述文本信息中提取所述文本特征向量。具体的所述语言预训练模型可以是现有的能够实现中文预训练的模型，比如悟道·文澜模型或者M6模型。

S04，将每一组所述图文对中所包括的所述图片信息输入至所述多模态预训练模型的图像侧，以获取每一组所述图文对的图像特征向量。其中所述图像特征向量包括第一类图像特征向量和第二类图像特征向量。

具体的，所述第一类图像特征向量包括原始图片的全局特征。所述第二类图像特征向量包括目标物体的位置坐标和目标物体的局部特征（比如包括：树、人、马等的具体特征，具体是一个人骑马，还是两个人骑马。具体骑马的人是穿着粉色衣服，还是穿着蓝色衣服）。具体请参阅图2，图2中示出了获取图像特征向量的大致步骤。其中，所述图片预训练模型二中提取的是图片的局部特征和局部特征的位置坐标。所述图片预训练模型二可以将所述局部特征和所述局部特征的位置坐标转换为所述第二类图像特征向量。所述第一类图像特征向量和所述第二类图像特征向量经过维度变换合成图像特征向量。

本步骤中，所述第二类图像特征向量的设置能够实现图文的强相关性。所述第二类图像特征向量的设置使得所述多模态预训练模型更丰富，所述多模态预训练模型能够将图片中所含有的目标特征作为图片的额外信息。所述多模态预训练模型训练完成后可以更快更准确的实现图文识别。

S05，根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型。

本步骤中，所述多模态预训练模型经过大量的所述图文样本数据进行训练，将随机的、初始化的参数调整为能够快速、准确的实现图文识别的应用参数。所述多模态预训练模型训练完成后便可以执行图文识别的任务。所述多模态预训练模型既可以实现图片到文字的识别过程，又可以实现文字到图片的识别过程。即，所述多模态预训练模型可以使用图片搜索对应的文本描述，也可以使用文本来搜索对应图片。

通过本申请提供的所述多模态预训练模型的训练方法可以得到一个能够适用于强相关的视觉-语义场景，减少预训练所花费的时间和计算资源的多模态预训练模型。本申请中所述多模态预训练模型的训练方法的训练时间相比于悟道·文澜模型与M6模型来说更短，训练得到的所述多模态预训练模型的识别准确率更高。

请再次参阅图2，在一个实施例中，所述获取每一组所述图文对的图像特征向量的步骤包括：

获取所述图片信息中的所述第一类图像特征向量，所述第一类图像特征向量为全局特征向量。本步骤中，可以通过卷积神经网络获取所述图片信息中的所述第一类图像特征向量。图2中的所述图片预训练模型一可以是包括卷积神经网络的训练模型。

获取所述图片信息中的所述第二类图像特征向量，所述第二类图像特征向量为局部特征向量。图2中的所述图片预训练模型二可以是能够提取局部目标特征的训练模型。

将所述第一类图像特征向量和所述第二类图像特征向量连接到一起，并输入至全连接层进行维度变换，以得到所述图像特征向量，所述图像特征向量和所述文本特征向量为同一语义空间下的特征向量。本步骤中实现了图片与文本之间的强相关性，便于后续所述多模态预训练模型对于图像文本对的准确识别。

目标检测器对图片进行目标检测，获取所述图片中的目标物体特征以及所述目标物体的位置坐标特征。本步骤中所述目标检测器可以设置为detectron2检测器。

将所述目标物体特征和所述位置坐标特征输入至自注意力层。所述自注意力层即self-attention layer，可以是所述图片预训练模型二的一部分。

对所述目标物体特征和所述位置坐标特征进行融合，以得到所述第二类图像特征向量。本步骤中，融合的过程即对所述第一类图像特征向量和所述第二类图像特征向量进行维度变换的过程。

采用词粒度BERT模型对所述文本信息进行分词，以得到多个标记序列。本步骤中，发明点在于采用了词粒度BERT模型。传统的模型中的 token 通常是细粒度的，对于像英语这样的语言，token 是单词或子词；对于像中文这样的语言，则是单个汉字。例如在英语中有多个单词表达式构成的自然词汇单元，因此使用粗粒度标记化（tokenization）似乎也是合理的。词粒度BERT模型是将词语作为粒度进行研究的。

本实施例中，文本信息从输入端输入后经过分词处理得到一个token序列，这个token序列再经过转换层得到文本特征向量，完成了模型对文本的编码。

请参阅图3，在一个实施例中，所述根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型的步骤，包括：

计算每一组所述文本特征向量和所述图像特征向量之间的相关性。本步骤中，可以按照所述文本特征向量和所述图像特征向量之间余弦相似度 (Cosine Similarity) 的方式进行相关性计算。

评价所述相关性计算结果的高低。本步骤中，评价所述相关性的方法有很多，比如可以比较余弦函数的图像来确定所述文本特征向量和所述图像特征向量之间相关性的高低。

本步骤中设置了所述多模态预训练模型训练的截止时间，具体的比如所述多模态预训练模型训练的截止时间可以设置为当所述相关性的计算结果高于预设相关阈值时，停止对所述多模态预训练模型的训练。

请参阅图4，在一个实施例中，所述评价所述相关性计算结果的高低的步骤包括：

对所述图文样本数据中的所述文本特征向量和所述图像特征向量做点积运算，得到点积运算结果。

将所述点积运算结果与所述图片信息、所述文本信息进行对比，并采用交叉熵损失函数计算损失值。

根据所述损失值的大小来评价所述相关性计算结果的高低。所述损失值越小，所述相关性计算结果越高。

本实施例中的发明点在于，采用了交叉熵损失函数计算损失值。交叉熵损失函数只关注相似度最高的图像-文本的语义是否相同，不惩罚语义不相关但计算结果为相似度最高的图像-文本对，从而减少了模型预训练的计算量。如图4所示，模型文本侧与图像侧的输出所述文本特征向量和所述图像特征向量分别两两做点积，点积结果最高的即为模型计算出的与该图片/文本最匹配的文本/图片，将该结果与真实数据对比，使用交叉熵损失函数算出损失值。

在一个实施例中，所述图文样本数据包括300万语义一致的中文图文对。众所周知，足够多的训练数据可以让模型能够在预训练时学到更多的经验知识，更好地进行图文检索任务。因此本申请翻译了谷歌开源的概念性说明（Conceptual Captions）图文数据集作为预训练数据集（所述图文样本数据），来更好地进行模型的预训练。ConceptualCaptions 是一个广泛涵盖日常生活的各个领域，具有300万语义一致的图文对的大规模英文数据集。本申请将Conceptual Captions的英文文本翻译成中文文本，构造了300万语义一致的中文文本-图像对，比目前开源的最大规模的中文图文对数据集 AI Challenger 多了250万图文对数据。

本申请中，验证所述多模态预训练模型的训练效果时，对3万个图文对都运算了一遍，任意抓出一张图片，用该图片对应的特征向量与这3万个文本特征向量计算距离。找到前1个、前5个、前10个距离所述图像特征向量最近的文本。观察找到的前1个、前5个、前10个文本是不是该图片对应的文本，如果是，说明所述多模态预训练模型找到正确答案。本申请提供的模型与悟道·文澜模型进行的验证对比结果如下表1所示：

表1为本申请的所述模型与图文检索召回率对比表

Recall@1表示召回的图片或者文本的数量

结合上述所述多模态预训练模型的训练效果验证结果，本申请提供的所述多模态预训练模型有以下两个明显优势：

第一、本申请训练得到的所述多模态预训练模型实现了视觉-语义的强相关，更加关注图片与文本的细节描述，检索结果更加精准。表1所示，与悟道·文澜模型相比，本申请的模型的在数据集AI Challenger上的文本检索图片召回率要高出1%～5%，文本检索图片的召回率基本持平（悟道·文澜模型召回率的数据来源为论文WenLan: Bridging Visionand Language by Large-Scale Multi-Modal Pre-Training。由于M6模型没有做公开数据集的实验，所以无法比较其验证结果）。这说明本申请的模型利用添加所述第二图像特征向量（局部特征）的方式实现了视觉-语义的强相关联系，使检索结果能够更加精准。

第二、本申请提供的所述多模态预训练模型的训练方法采用的模型参数规模小，计算特征向量的速度更快，预训练时间短。

相比于悟道·文澜模型10亿参数与M6模型1000亿参数的大规模多模态预训练模型，本申请提供的所述多模态预训练模型只有约1.4亿的参数，在8张Tesla V100上的预训练周期为1天，不仅节约了大量的时间与计算资源，也让本申请提供的所述多模态预训练模型在计算图片和文本特征向量的时间大大缩短。

请参阅图5，在一个实施例中，本申请还提供一种多模态预训练模型的训练装置10，包括：模型构建模块11、样本数据获取模块12、特征向量获取模块13和模型训练模块14。

所述模型构建模块11用于构建多模态预训练模型，所述多模态预训练模型为双塔模型。

所述样本数据获取模块12用于获取图文样本数据，所述图文样本数据中包括多个图文对。每一组所述图文对包括图片信息和文本信息。

所述特征向量获取模块13用于获取每一组所述图文对的文本特征向量，以及用于获取每一组所述图文对的图像特征向量，其中所述图像特征向量包括第一类图像特征向量和第二类图像特征向量。

所述模型训练模块14用于根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型。

本实施例中，所述多模态预训练模型的训练装置10 包括模型构建模块11、样本数据获取模块12、特征向量获取模块13和模型训练模块14。经过所述多模态预训练模型的训练装置10训练完成后，所述多模态预训练模型可以将强相关的视觉-语义场景准确的描述。本申请提供的所述多模态预训练模型的训练装置10可以训练出一个需要少量的数据就能够快速准确的进行文匹配的所述多模态预训练模型。并且所述多模态预训练模型可以大量的节约在预训练时所花费的时间和计算资源。本申请中训练所述多模态预训练模型的训练时间相比于悟道·文澜模型与M6模型来说更短，训练得到的所述多模态预训练模型的识别准确率更高。

请参阅图6，在一个实施例中，本申请还提供一种电子设备20，包括存储器21、处理器22及存储在所述存储器上并可在所述处理器上运行的计算机程序。所述处理器22可以为一个或多个。所述处理器22运行所述计算机程序以实现上述任一项所述的方法。所述存储器21用于存储一个或多个程序。当所述一个或多个程序被所述一个或多个处理器22执行，使得所述一个或多个处理器22实现如上述任一所述的多模态预训练模型的训练方法。

在一个实施例中，本申请提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一所述的多模态预训练模型的训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多模态预训练模型的训练方法，其特征在于，包括：

2.根据权利要求1中所述的多模态预训练模型的训练方法，其特征在于，所述获取每一组所述图文对的图像特征向量的步骤包括：

3.根据权利要求2中所述的多模态预训练模型的训练方法，其特征在于，所述获取所述图片信息中的所述第二类图像特征向量的具体步骤包括：

4.根据权利要求3中所述的多模态预训练模型的训练方法，其特征在于，所述获取每一组所述图文对的文本特征向量的步骤包括：

5.根据权利要求4中所述的多模态预训练模型的训练方法，其特征在于，所述根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型的步骤，包括：

评价所述相关性计算结果的高低；

6.根据权利要求5中所述的多模态预训练模型的训练方法，其特征在于，所述评价所述相关性计算结果的高低的步骤包括：

根据所述损失值的大小来评价所述相关性计算结果的高低。

7.根据权利要求1所述的多模态预训练模型的训练方法，其特征在于，所述图文样本数据包括300万语义一致的中文图文对。

8.一种多模态预训练模型的训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。