CN114419351A

CN114419351A - 图文预训练模型训练、图文预测模型训练方法和装置

Info

Publication number: CN114419351A
Application number: CN202210108283.6A
Authority: CN
Inventors: 王腾; 姜文浩; 郑锋
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-29

Abstract

本申请涉及一种图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中进行图文匹配程度评估，得到初始图文匹配程度，并使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，并进行迭代训练得到目标图文预训练模型。采用本方法能够提高训练的准确性。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

图文预训练模型训练、图文预测模型训练方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，出现了使用图像和文本进行任务预测技术，比如，视觉问答、图文检测、视觉常识推理等。目前，通常在预训练模型的基础上进一步进行训练来得到图文预测模型，从而可以提高图文预测模型的训练效果。在训练预训练模型时，通常使用图像编码器和语言编码器分别进行预训练，来得到预训练模型。然而，通过独立训练的方法在预训练期间无法学习到跨模态的信息，从而导致得到的预训练模型的准确性降低，进而导致训练得到的图文预测模型的准确性降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高预训练模型的准确性，进而提高图文预测模型的准确性的图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一方面，本申请提供了一种图文预训练模型训练方法。所述方法包括：

获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征；

基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中；

通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；

通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；

基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息；

基于训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

在其中一个实施例中，所述计算所述训练图像与所述训练文本之间的相似程度，基于所述相似程度和所述图文匹配程度进行损失计算，得到匹配损失信息，包括：

获取训练图像对应的训练对象类别信息，并计算所述训练对象类别信息对应的类别权重向量；

基于所述训练文本进行词权重向量计算，得到词权重向量，并计算所述类别权重向量与所述类别权重向量之间的权重向量相似程度；

计算所述权重向量相似程度与所述图文匹配程度之间的最小平方误差，得到所述匹配损失信息。

另一方面，本申请还提供了一种图文预训练模型训练装置。所述装置包括：

特征获取模块，用于获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征；

特征掩盖模块，用于基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中；

匹配模块，用于通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；

交互模块，用于通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；

损失计算模块，用于基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息；

训练模块，用于基于训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

另一方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

另一方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

另一方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述图文预训练模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，并通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，然后计算训练模型损失信息，使用训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，其中，通过评估图文匹配程度，再通过图文匹配程度进行跨模态信息交互来训练图片预训练模型，从而可以使训练得到的图文预训练模型提高了准确性，进而可以使训练得到基于图像和文本进行跨模态预测的模型提高准确性。

一方面，本申请提供了一种图文预测模型训练方法。所述方法包括：

获取图文预测训练样本和对应的图文预测标签；

获取图文预训练模型，将图文预训练模型作为初始图文预测模型；

图文预训练模型是通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于训练模型损失信息进行训练得到的；

将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果；

计算图文预测结果与图文预测标签之间的预测损失信息，基于预测损失信息训练初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型，目标图文预测模型用于使用图像和文本进行跨模态预测。

另一方面，本申请还提供了一种图文预测模型训练装置。所述装置包括：

样本获取模块，用于获取图文预测训练样本和对应的图文预测标签；

模型获取模块，用于获取图文预训练模型，将图文预训练模型作为初始图文预测模型；图文预训练模型是通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于训练模型损失信息进行训练得到的；

训练预测模块，用于将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果；

模型得到模块，用于计算图文预测结果与图文预测标签之间的预测损失信息，基于预测损失信息训练初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型，目标图文预测模型用于使用图像和文本进行跨模态预测。

获取图文预测训练样本和对应的图文预测标签；

上述图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取图文预测训练样本和对应的图文预测标签，并获取图文预训练模型，将图文预训练模型作为初始图文预测模型，将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果；计算图文预测结果与图文预测标签之间的预测损失信息，基于预测损失信息训练初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型。其中，由于图文预训练模型是通过评估图文匹配程度，再通过图文匹配程度进行跨模态信息交互来训练得到的，从而可以使训练得到的图文预训练模型提高了准确性，然后使用图文预训练模型进一步训练得到目标图文预测模型，从而提高了目标图文预测模型的准确性，进而提高了使用图像和文本进行跨模态预测的准确性。

附图说明

图1为一个实施例中图文预训练模型训练方法的应用环境图；

图2为一个实施例中图文预训练模型训练方法的流程示意图；

图3为一个实施例中得到训练原始特征的流程示意图；

图4为一个实施例中得到训练目标特征的流程示意图；

图5为一个实施例中得到训练交互特征的流程示意图；

图6为一个实施例中得到图文匹配程度的流程示意图；

图7为另一个实施例中得到训练交互特征的流程示意图；

图8为一个实施例中得到初始字符交互向量的流程示意图；

图9为一个实施例中得到初始区域交互向量的流程示意图；

图10为一个实施例中得到最终目标图文预训练模型的流程示意图；

图11为一个实施例中得到训练模型损失信息的流程示意图；

图12为一个实施例中得到图像特征损失信息的流程示意图；

图13为一个实施例中图文预测模型训练方法的流程示意图；

图14为一个具体实施例中图文预训练模型训练方法的流程示意图；

图15为一个具体实施例中图文预训练模型的框架示意图；

图16为一个实施例中图文预训练模型训练装置的结构框图；

图17为一个实施例中图文预测模型训练装置的结构框图；

图18为一个实施例中计算机设备的内部结构图；

图19为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的图像处理、文本处理等技术，具体通过如下实施例进行说明:

本申请实施例提供的图文预训练模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。服务器104根据终端102发送到模型训练指令可以从数据存储系统中获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征；然后服务器104基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中；服务器104通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；服务器104通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；服务器104基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息；服务器104基于训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、飞行器等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

在一个实施例中，如图2所示，提供了一种图文预训练模型训练方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征。

其中，训练图像原始特征是指训练图像中对象对应的特征，训练文本原始特征是指训练文本符合化后得到的特征，可以是文本中词对应的序列。

具体地，服务器可以直接从数据库中获取到训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征。服务器也可以获取到终端上传的训练图像原始特征和训练文本原始特征。服务器还可以从提供数据的服务方获取到训练图像原始特征和训练文本原始特征

在一个实施例中，服务器可以从数据库中获取到训练图像和训练文本，然后提取到训练图像原始特征和训练文本原始特征。其中，可以从数据库中的训练文本集和训练图像集中随机采样，得到训练图像和训练文本，即训练图像和训练文本可以是有关联的，也可以是未存在关联的。

步骤204，基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中。

其中，特征掩盖是指将原始特征中的特征值变换为人为设置好的值。训练图像目标特征是指存在被掩盖特征的训练图像特征。训练文本目标特征是指存在被掩盖特征的训练文本特征。初始图文预训练模型是模型参数初始化的图文预训练模型，该模型是需要预训练的。

具体地，服务器可以对训练图像原始特征和训练文本原始特征中的特征随机进行特征掩盖，也可以按照预先设置好的位置将训练图像原始特征和训练文本原始特征中该位置的特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征。然后，服务器建立初始图文预训练模型，即将图文预训练模型的模型参数初始化，其中，可以是随机初始化、为零初始化、高斯分布初始化等等。再将得到的训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中进行训练。

在一个实施例中，服务器从训练图像原始特征中随机选取对象特征，将该随机选取的对象特征进行特征掩盖，从而得到训练图像目标特征，同时记录选取的对象特征在训练图像原始特征中的位置。然后可以在训练文本原始特征中随机选取文本词特征，将该文本词特征进行特征掩盖，从而得到训练文本目标特征。然后将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中进行训练。

步骤206，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度。

其中，初始图文匹配程度是指训练时得到的训练图像和训练文本的匹配程度。

具体地，服务器中的初始图文预训练模型使用初始的图文匹配程度评估参数对训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度。该初始的图文匹配程度评估参数是训练时使用的模型参数。

步骤208，通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征。

其中，跨模态信息交互是指使训练图像的信息与训练文本的信息进行交互。初始图像交互特征是指训练时得到的具有文本信息的训练图像特征。初始文本交互特征是指训练时得到的具有图像信息的训练文本特征。该初始图像交互特征和初始文本交互特征是预测得到的训练图像和训练文本对应的完整的特征。

具体地，服务器通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行跨越注意力特征提取，然后使用初始图文匹配程度对提取得到的跨越注意力特征进行加权计算，得到初始图像交互特征和初始文本交互特征。其中，当训练图像与训练文本的匹配程度较高时，则加强图像模态与文本模态的交互，当训练图像与训练文本的匹配程度较弱时，则减少图像模态与文本模态的交互。

步骤210，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息。

具体地，服务器计算训练图像原始特征与初始图像交互特征之间的误差，并计算训练文本原始特征与初始图像交互特征之间的误差，再计算初始图片匹配程度的误差，最后计算所有误差的总和，得到训练模型损失信息。

步骤212，基于训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

其中，目标图文预训练模型是指训练完成时得到的模型。训练完成条件是指训练得到目标图文预训练模型的条件，包括但不限于训练迭代次数达到最大迭代次数、模型损失信息达到预设阈值和模型参数不再发生变化。

具体地，服务器使用训练模型损失信息更新初始图文预训练模型中的模型参数，得到更新后的图文预训练模型，然后将更新后的图文预训练模型作为初始图文预训练模型，并进行下一次迭代，即服务器返回获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征的步骤迭代执行，也可以返回基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中的步骤迭代执行，直到达到训练完成条件时，将达到训练完成条件时的初始图文预训练模型作为目标图文预训练模型，该目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

上述图文预训练模型训练方法，通过将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，并通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，然后计算训练模型损失信息，使用训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，其中，通过评估图文匹配程度，再通过图文匹配程度进行跨模态信息交互来训练图片预训练模型，从而可以使训练得到的图文预训练模型提高了准确性，进而可以使训练得到基于图像和文本进行跨模态预测的模型提高准确性。

在一个实施例中，如图3所示，步骤202，获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征，包括：

步骤302，获取训练样本，训练样本包括训练图像和训练文本；

步骤304，将训练文本进行字符级别的文本翻译，得到训练文本全量表示向量和训练文本字符表示向量，基于训练文本全量表示向量和训练文本字符表示向量得到训练文本原始特征。

其中，训练样本是指训练时使用的样本，可以是从训练图像集中和训练文本集中随机选取得到的。训练文本全量表示向量用于表征训练文本的全局信息。训练文本字符表示向量是指训练文本中词对应的表征向量。训练文本中每个词都可以有对应的训练文本字符表示向量。

具体地，服务器可以从数据库中可以从训练样本集中随机选取到训练样本，该训练样本集可以是从训练图像集中和训练文本集中随机选取训练图像和训练文本得到的。然后服务器将训练文本进行字符级别的文本翻译，得到训练文本全量表示向量和训练文本字符表示向量，其中，服务器可以使用文本翻译模型进行字符级别的文本翻译，该文本翻译模型可以是向量化模型，比如可以使用BERT(Bidirectional Encoder Representation fromTransformers，即双向Transformer)文本向量化模型。然后将训练文本全量表示向量和训练文本字符表示向量按照文本中词的顺序依次进行拼接，得到训练文本原始特征。

在一个具体的实施例中，服务器可以使用标准模型token将文本句子符号化为一个subword token(子词)组成的序列，得到训练文本原始特征。

步骤306，基于训练图像进行目标对象分类识别，得到训练图像全量表示向量、训练对象类别表征向量和训练对象区域表征向量，基于训练对象类别表征向量和训练对象区域表征向量得到训练图像原始特征。

其中，训练图像全量表示向量用于表征训练图像对应的全局信息。训练对象类别表征向量是指训练图像中对象的类别对应的表征向量。训练对象区域表征向量是指训练图像中对象所在图像区域对应的表征向量。

具体地，服务器使用图像目标对象检测模型对训练图像进行目标对象检测，即进行目标对象的分类识别，得到训练对象类别表征向量和训练对象区域表征向量，并确定训练图像全量表示向量，其中，训练图像中有多个目标对象，就得到多个训练对象类别表征向量和每个训练对象类别表征向量对应的训练对象区域表征向量。然后将训练对象类别表征向量和训练对象区域表征向量拼接得到训练图像原始特征。

在一个具体的实施例中，服务器可以使用目标检测器，比如Faster RCNN(图像目标检测模型)，提取多个目标对象框，并提取目标对象的类别信息作为图像对象标签，基于图像对象标签得到训练对象类别表征向量，并根据目标对象框确定训练对象区域表征向量。

在上述实施例中，通过进行文本翻译和图像识别来得到训练文本原始特征和训练图像原始特征，提高了得到的训练文本原始特征和训练图像原始特征的准确性。

在一个实施例中，如图4所示，步骤204，基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，包括：

步骤402，从训练文本原始特征包含的训练文本字符表示向量中随机确定当前字符表示向量；

步骤404，将训练文本原始特征中的当前字符表示向量替换为预设文本掩盖向量，得到训练文本目标特征。

其中，当前字符表示向量是指需要进行掩盖的词对应的字符表示向量。预设文本掩盖向量是预先设置好的用于对训练文本中的词进行掩盖的向量，该向量可以是全零向量。

具体地，服务器从训练文本原始特征包含的训练文本字符表示向量中随机选择一个训练文本字符表示向量作为要进行掩盖的向量，即得到当前字符表示向量，然后将训练文本原始特征中当前字符表示向量替换为预设文本掩盖向量，训练文本原始特征中的其他向量保持不变，从而得到训练文本目标特征。

步骤406，从训练图像目标特征包含的训练对象类别表征向量和训练对象区域表征向量中随机确定当前对象类别表征向量和当前对象区域表征向量。

步骤408，将训练图像目标特征中的当前对象类别表征向量替换为预设图像对象掩盖向量，并将训练图像目标特征中的当前对象区域表征向量替换为预设图像区域掩盖向量，得到训练图像目标特征。

其中，当前对象类别表征向量是指训练图像中需要进行掩盖的对象的类别表征向量。当前对象区域表征向量是指训练图像中需要进行掩盖的对象的区域表征向量，该当前对象区域表征向量与所述当前对象类别表征向量对应，是训练图像中同一对象的类别表征向量和区域表征向量。预设图像对象掩盖向量是指预先设置好的用于将训练图像中对象类别表征向量进行掩盖的向量，可以是全零向量。预设图像区域掩盖向量是指预先设置好的用于将训练图像中对象区域表征向量进行掩盖的向量，可以是全零向量。

具体地，服务器从训练图像目标特征包含的训练对象类别表征向量随机选取当前对象类别表征向量，并从训练图像目标特征包含的训练对象区域表征向量选取当前对象类别表征向量对应的训练对象区域表征向量作为当前对象区域表征向量。然后服务器将训练图像目标特征中的当前对象类别表征向量替换为预设图像对象掩盖向量，训练图像目标特征中的其他对象类别表征向量保持不变。然后将训练图像目标特征中的当前对象区域表征向量替换为预设图像区域掩盖向量，训练图像目标特征中的其他对象区域表征向量保持不变，从而得到训练图像目标特征。

在上述实施例中，通过使用预设的掩盖向量对训练文本原始特征和训练图像原始特征进行随机掩盖，从而提高了得到训练文本目标特征和训练图像目标特征的效率。

在一个实施例中，如图5所示，步骤206，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，包括：

步骤502，通过初始图文预训练模型对训练目标图像特征进行自注意力特征提取，得到初始图像自注意力特征；

步骤504，通过初始图文预训练模型对训练目标文本特征进行自注意力特征提取，得到初始文本自注意力特征。

其中，初始图像自注意力特征是指训练时通过自注意力提取到的图像特征。初始文本自注意力特征是指训练时通过自注意力提取到的文本特征。

具体地，服务器中的通过初始图文预训练模型通过图像自注意力层对训练目标图像特征进行自注意力特征提取，得到初始图像自注意力特征，并通过文本自注意力层对训练目标文本特征进行自注意力特征提取，得到初始文本自注意力特征，其中，该图像自注意力层和文本自注意力层的层结构相同，初始化参数相同。在一个实施例中，图像自注意力层和文本自注意力层的初始化参数也可以不同。

步骤506，通过初始图文预训练模型对初始图像自注意力特征和初始文本自注意力特征进行匹配程度评估，得到训练图文匹配程度，

具体地，服务器通过初始图文预训练模型中的匹配程度评估层对初始图像自注意力特征和初始文本自注意力特征进行匹配程度评估，得到训练图文匹配程度。

步骤208，即通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，包括：

步骤508，通过初始图文预训练模型使用训练图文匹配程度、初始图像自注意力特征和初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征。

具体地，服务器可以使用训练图文匹配程度、初始图像自注意力特征和初始文本自注意力特征通过跨模态信息交互层进行跨模态信息交互，得到跨模态信息交互层的输出，即得到训练图像交互特征和训练文本交互特征。

上述实施例中，服务器中初始图文预训练模型先进行自注意力特征的提取，然后使用自注意力特征进行匹配程度评估和跨模态信息交互，提高了匹配程度评估的准确性和跨模态信息交互的准确性。

在一个实施例中，初始图文预训练模型包括初始图文预测网络，初始图文预测网络包括初始图像自注意力网络、初始文本自注意力网络和初始匹配网络；

步骤206，即通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，包括：

将目标图像特征输入到初始图文预训练模型中的初始图像自注意力网络中进行自注意力特征提取，得到初始图像自注意力特征；

将目标文本特征输入到初始图文预训练模型中的初始文本自注意力网络中进行自注意力特征提取，得到初始文本自注意力特征；

将初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量输入到初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到图文匹配程度。

其中，初始图文预测网络是指网络参数初始化的图文预测网络，该图文预测网络用于预测输入数据中被掩盖的内容。初始图像自注意力网络是训练时的图像自注意力网络，该图像自注意力网络用于对图像进行自注意力特征提取。初始文本自注意力网络是训练时的文本自注意力网络，该文本自注意力网络用于对文本进行自注意力特征提取。初始匹配网络是指训练时的匹配网络，该匹配网络用于进行匹配程度评估。

具体地，服务器通过初始图文预训练模型中的初始图像自注意力网络和初始图像自注意力网络并行进行自注意力特征提取，得到初始图像自注意力特征和初始文本自注意力特征，即初始图像自注意力网络和初始图像自注意力网络是初始图文预训练模型中的两个分支网络。然后再将初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量输入到初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到图文匹配程度。通过使用初始图像全量表示向量和的初始文本全量表示向量进行匹配程度评估，从而提高了得到图文匹配程度的准确性。

在一个实施例中，也可以直接使用初始图像自注意力特征和初始文本自注意力特征输入到初始匹配网络进行匹配程度评估，得到图文匹配程度，进一步提高了得到的图文匹配程度的准确性。

在一个实施例中，如图6所示，步骤508，即将初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量输入到初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到图文匹配程度，包括：

步骤602，将初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量输入到初始图文预训练模型中的初始匹配网络中；

步骤604，通过初始匹配网络分别对初始图像全量表示向量和初始文本全量表示向量进行加权，得到加权图像表示向量和加权文本表示向量。

具体地，服务器使用初始匹配网络中需要进行训练的权重参数对初始图像全量表示向量和初始文本全量表示向量进行加权，其中，使用初始匹配网络中的图像权重参数对初始图像全量表示向量进行加权，使用初始匹配网络汇总的文本权重参数对初始文本全量表示向量进行加权，从而得到加权图像表示向量和加权文本表示向量。

步骤606，通过初始匹配网络计算加权图像表示向量和加权文本表示向量的向量和，得到匹配程度向量。

具体地，匹配程度向量是用于表征训练图像和训练文本匹配程度的向量，服务器通过计算加权图像表示向量和加权文本表示向量的向量和，得到匹配程度向量。在一个实施例中，在得到向量和后，服务器再将向量和与初始匹配网络中的偏置参数进行相加，得到匹配程度向量。

步骤608，通过初始匹配网络将匹配程度向量进行激活，得到图文匹配程度。

具体地，服务器可以使用激活函数对匹配程度向量进行激活，即将匹配程度向量的权值限制在[0,1]之间。其中，越接近于0代表训练图像和训练文本的匹配程度弱，而接近于1代表训练图像和训练文本的匹配程度强。激活函数可以使用S型函数，比如Sigmoid函数。

在一个具体的实施例中，使用如下所示的公式(1)计算得到图文匹配程度。

α＝σ(W_αwq^w+W_αrq^r+b) 公式(1)

其中，α是指图文匹配程度。w和b是初始匹配网络中可学习的参数。W_αw是指文本权重参数。q^w是指初始图像全量表示向量。是指W_αr是指图像权重参数。q^r是指初始图像全量表示向量，σ(·)是指Sigmoid函数。

在上述实施例中，通过使用初始匹配网络进行训练图像和训练文本的匹配程度评估，从而可以使得到的图文匹配程度更加的准确。

在一个实施例中，初始图文预训练模型包括初始图文预测网络，初始图文预测网络包括初始图像跨越注意力网络和初始文本跨越注意力网络；

如图7所示，步骤508，即通过初始图文预训练模型使用训练图文匹配程度、初始图像自注意力特征和初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征，包括：

步骤702，将初始文本自注意力特征中的初始文本全量表示向量与初始图像自注意力特征中的初始类别自注意力向量和初始区域自注意力向量输入到初始文本跨越注意力网络中进行跨模态信息交互，得到初始文本全量交互向量。

其中，初始文本跨越注意力网络是指需要进行训练的文本跨越注意力网络，该文本跨越注意力网络用于提取具有图像信息的文本全量表征向量。

具体地，服务器将初始文本全量表示向量、初始类别自注意力向量、初始区域自注意力向量输入到初始文本跨越注意力网络中进行跨模态信息交互，即通过cross-attention(跨越注意力)网络的尺度点乘注意力机制(scaled dot-product attention)对初始文本全量表示向量、初始类别自注意力向量、初始区域自注意力向量进行尺度点乘注意力运算，输出初始文本全量交互向量。

在一个具体的实施例中，服务器可以使用如下所示的公式(2)计算得到初始文本全量交互向量。

其中，

是指初始文本全量交互向量，Att(·)是指尺度点乘注意力机制，q^w是指初始文本全量表示向量，{r₁,r₂,...,r_N}是指初始图像自注意力特征中的除初始图像全量表示向量以外的N(正整数)个向量，包括各个初始类别自注意力向量和对应的初始区域自注意力向量。

步骤704，基于训练图文匹配程度和初始文本全量交互特征对初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，基于初始文本全量交互向量和初始字符交互向量得到训练文本交互特征。

具体地，服务器使用训练图文匹配程度对初始字符自注意力向量进行门控，即对初始文本自注意力特征中的初始字符自注意力向量使用该训练图文匹配程度和初始文本全量交互特征进行加权更新，得到更新后的初始字符交互向量，最后根据更新后的初始字符交互向量和初始文本全量交互向量得到训练文本交互特征。

步骤706，将初始图像全量表示向量与初始字符自注意力向量输入到初始图像跨越注意力网络中进行跨模态信息交互，得到初始图像全量交互向量。

其中，初始图像跨越注意力网络是指需要进行训练的图像跨越注意力网络，该图像跨越注意力网络用于提取具有文本信息的图像全量表征向量。

具体地，服务器将初始图像全量表示向量与初始字符自注意力向量输入到初始图像跨越注意力网络中进行跨模态信息交互，即通过cross-attention(跨越注意力)网络的尺度点乘注意力机制((scaled dot-product attention))对初始图像全量表示向量与初始字符自注意力向量进行尺度点乘注意力运算，输出初始图像全量交互向量。

在一个具体的实施例中，服务器可以使用如下所示的公式(3)计算得到初始图像全量交互向量。

其中，

是指初始图像全量交互向量，Att(·)是指尺度点乘注意力机制，q^r是指初始图像全量表示向量，{w₁,w₂,...,w_T}是指初始文本自注意力特征中的除初始文本全量表示向量以外的向量，包括T(正整数)个初始字符自注意力向量。

步骤708，基于训练图文匹配程度和初始图像全量交互向量分别对初始类别自注意力向量和初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，基于初始图像全量交互向量、初始类别交互向量和初始区域交互向量得到训练图像交互特征。

具体地，服务器使用训练图文匹配程度对初始类别自注意力向量和初始区域自注意力向量进行门控，即对初始类别自注意力向量和初始区域自注意力向量使用该训练图文匹配程度和初始图像全量交互特征进行加权更新，得到更新后的始类别交互向量和初始区域交互向量，最后根据更新后的始类别交互向量和初始区域交互向量和初始图像全量交互向量得到训练图像交互特征。

在一个实施例中，初始图文预测网络包括初始图像自注意力网络、初始文本自注意力网络、初始匹配网络、初始图像跨越注意力网络和初始文本跨越注意力网络，通过将训练目标图像特征和训练目标文本特征输入到初始图文预测网络中，通过初始图像自注意力网络、初始文本自注意力网络、初始匹配网络、初始图像跨越注意力网络和初始文本跨越注意力网络进行掩盖内容的预测，输出预测的结果即训练图像交互特征和训练文本交互特征。

在上述实施例中，通过使用图像跨越注意力网络和文本跨越注意力网络进行跨模态信息的交互，从而提高跨模态信息交互的准确性。

在一个实施例中，如图8所示，步骤704，基于训练图文匹配程度和初始文本全量交互特征对初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，包括：

步骤802，使用训练图文匹配程度对初始字符自注意力向量进行加权，得到加权字符自注意力特征。

具体地，服务器计算训练图文匹配程度与所述初始字符自注意力向量的乘积，得到加权后的字符自注意力向量，即得到加权字符自注意力特征。

步骤804，基于训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用全量交互特征权重对初始文本全量交互特征进行加权，得到加权文本全量交互特征。

其中，全量交互特征权重是用于对全量交互特征进行加权的权重，可以对文本全量交互特征进行加权，也可以对图像全量交互特征进行加权。

具体地，训练图文匹配程度和全量交互特征权重的总和为目标值，该目标值可以是预先设置好的，比如，可以为1。此时，计算目标值与该训练图文匹配程度的差，得到全量交互特征权重，然后计算全量交互特征权重与初始文本全量交互特征的乘积，得到加权后的文本全量交互特征，即加权文本全量交互特征。

步骤806，计算加权字符自注意力特征和加权文本全量交互特征的特征和，得到初始字符交互向量。

具体地，服务器将加权字符自注意力特征与该加权文本全量交互特征进行相加，得到初始字符交互向量。

在一个具体的实施例中，服务器使用如下所示的公式(4)计算初始字符交互向量。

其中，

是指第t个初始字符交互向量，a是指训练图文匹配程度，

是指初始文本全量交互向量。w_t是指第t个初始字符自注意力向量。

在上述实施例中，通过使用训练图文匹配程度对初始字符自注意力向量进行加权，并使用全量交互特征权重对初始文本全量交互特征进行加权，从而得到最终的初始字符交互向量，能够提高得到的初始字符交互向量的准确性。

在一个实施例中，如图9所示，步骤708，基于训练图文匹配程度和初始图像全量交互向量分别对初始类别自注意力向量和初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，包括：

步骤902，使用训练图文匹配程度对初始类别自注意力向量进行加权，得到加权类别自注意力特征，使用训练图文匹配程度对初始区域自注意力向量进行加权，得到加权区域自注意力特征。

具体地，服务器直接计算训练图文匹配程度分别与初始类别自注意力向量和初始区域自注意力向量的乘积，得到加权类别自注意力特征和加权区域自注意力特征。

步骤904，基于训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用全量交互特征权重对初始图像全量交互向量进行加权，得到加权图像全量交互特征。

具体地，服务器获取到已设置好的目标值，计算该目标值与训练图文匹配程度的差，得到权利交互特征权重，然后再计算全量交互特征权重与初始图像全量交互向量的乘积，得到加权图像全量交互特征。

步骤906，计算加权类别自注意力特征与加权图像全量交互特征的特征和，得到初始类别交互向量，计算加权区域自注意力特征与加权图像全量交互特征的特征和，得到初始区域交互向量。

具体地，服务器将加权类别自注意力特征与加权图像全量交互特征进行相加，再将加权区域自注意力特征与加权图像全量交互特征进行加权，得到初始类别交互向量和该初始类别交互向量对应的初始区域交互向量。

在一个具体的实施例中，服务器使用如下所示的公式(5)计算初始类别交互向量或初始区域交互向量。

其中，

是指训练图像交互特征中除初始图像全量交互向量以外的第n个向量，可以是初始类别交互向量，也可以是初始区域交互向量，a是指训练图文匹配程度，

是指初始图像全量交互向量。r_n是指初始文本自注意力特征中除初始图像全量表征向量以外的第n个向量，可以是初始类别自注意力向量，也可以是初始区域自注意力向量。

在上述实施例中，训练图文匹配程度分别对初始类别自注意力向量和初始区域自注意力向量进行加权，并通过使用全量交互特征权重对初始图像全量交互向量进行加权，得到加权图像全量交互特征，从而得到初始类别交互向量和初始区别交互向量，提高了得到的交互向量的准确性。

在一个实施例中，初始图文预训练模型包括至少两个初始图文预测网络，至少两个初始图文预测网络首尾连接；

如图10所示，该图像预训练模型训练方法，还包括：

步骤1002，获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征，

步骤1004，将前向训练图像交互特征和前向训练文本交互特征输入到后向初始图文预测网络中，得到输出的后向训练图像交互特征和后向训练文本交互特征。

其中，前向初始图文预测网络和后向初始图文预测网络的网络结构完全相同，网络参数不同。网络顺序是前向初始图文预测网络在前，后向初始图文预测网络在后，即输入模型的数据先经过前向初始图文预测网络进行网络计算，得到前向初始图文预测网络的输出结果后，将前向初始图文预测网络的输出结果再经过后向初始图文预测网络进行网络计算。

具体地，服务器建立包括至少两个初始图文预测网络的初始图文预训练模型，即依次将每个初始图文预测网络进行首尾连接，得到初始图文预训练模型，其中，每个初始图文预测网络中都可以包括初始图像自注意力网络、初始文本自注意力网络、初始匹配网络、初始图像跨越注意力网络和初始文本跨越注意力网络。

在训练时服务器将训练图像目标特征和所述训练文本目标特征输入到初始图文预训练模型中，初始图文预训练模型通过第一个初始图文预测网络进行图文预测，输出的训练图像交互特征和训练文本交互特征，然后将第一个初始图文预测网络作为前向初始图文预测网络，获取到输出的训练图像交互特征和作为前向训练图像交互特征，获取到输出的训练文本交互特征作为前向训练文本交互特征。然后将前向训练图像交互特征和前向训练文本交互特征输入到接下来的初始图文预测网络，即后向初始图文预测网络中，得到输出的后向训练图像交互特征和后向训练文本交互特征。

步骤1006，将后向初始图文预测网络作为前向初始图文预测网络，并返回获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征的步骤执行，直到未存在后向图文预测网络时，将未存在后向图文预测网络时的前向训练图像交互特征作为最终训练图像交互特征，将未存在后向图文预测网络时的前向训练文本交互特征作为最终训练文本交互特征。

其中，未存在后向图文预测网络是指初始图文预训练模型中没有下一个初始图文预测网络，即输入的数据经过了最后一个初始图文预测网络的预测。

具体地，服务器再将输出的结果输入到下一个初始图文预测网络中，即将后向初始图文预测网络作为前向初始图文预测网络，将输出的后向训练图像交互特征和后向训练文本交互特征作为前向训练图像交互特征和前向训练文本交互特征，并返回到获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征的步骤迭代执行，直到经过所有的初始图文预测网络时，将最后一个初始图文预测网络输出的训练图像交互特征作为最终训练图像交互特征，训练文本交互特征作为最终训练文本交互特征。

步骤1008，基于训练图像原始特征、训练文本原始特征、最终训练图像交互特征、最终训练文本交互特征进行特征损失计算，得到最终训练特征损失信息，并计算训练图像与训练文本之间的相似程度，基于相似程度和未存在后向图文预测网络的最终图文匹配程度进行匹配损失计算，得到最终训练匹配损失信息。

其中，未存在后向图文预测网络的最终图文匹配程度是指最后一个图文预测网络计算得到的图文匹配程度。

具体地，服务器使用最终输出的最终训练图像交互特征和最终训练文本交互特征分别与训练图像原始特征和训练文本原始特征进行损失计算，得到最终训练特征损失信息，然后再计算训练图像与训练文本之间的相似程度，基于相似程度和未存在后向图文预测网络的最终图文匹配程度进行匹配损失计算，得到最终训练匹配损失信息

步骤1010，基于最终训练特征损失信息和最终训练匹配损失信息训练初始图文预训练模型，直到达到最终训练完成条件时，得到最终目标图文预训练模型。

具体地，服务器使用最终训练特征损失信息和最终训练匹配损失信息通过梯度下降算法反向更新初始图文预训练模型中的每个初始图文预测网络，得到更新后的图文预训练模型。将更新后的图文预训练模型作为初始图文预训练模型，并进行下一次迭代，即服务器返回获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征的步骤迭代执行，也可以返回基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中的步骤迭代执行，直到达到最终训练完成条件时，将达到最终训练完成条件时的初始图文预训练模型作为最终目标图文预训练模型。最终训练完成条件是指最终目标图文预训练模型的训练完成条件，包括但不限于训练迭代次数达到最大迭代次数、模型损失信息达到预设最终阈值和模型参数不再发生变化。

在上述实施例中，通过使用至少两个初始图文预测网络来建立初始图文预训练模型，然后对建立的初始图文预训练模型进行训练，从而得到最终目标图文预训练模型，能够进一步提高得到的最终目标图文预训练模型的准确性。

在一个实施例中，如图11所示，步骤210，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息，包括步骤：

步骤1102，基于图像原始特征、文本原始特征、图像交互特征、文本交互特征进行特征损失计算，得到特征损失信息；

步骤1104，计算训练图像与训练文本之间的相似程度，基于相似程度和图文匹配程度进行损失计算，得到匹配损失信息；

步骤1106，计算特征损失信息和匹配损失信息的信息和，得到训练模型损失信息。

其中，特征损失信息用于表征原始特征和交互特征之间的误差。匹配损失信息用于表征训练图像和训练文本的相似程度与图文匹配程度之间的误差。

具体地，服务器可以使用预设图像损失函数计算图像原始特征与图像交互特征的误差，得到图像特征损失信息，然后在使用预设文本损失函数计算文本原始特征与文本交互特征的误差，得到文本特征损失信息，然后计算图像特征损失与文本特征损失的和，得到特征损失信息。然后服务器再计算训练图像与训练文本之间的相似程度，使用预设匹配度的损失函数计算相似程度与图文匹配程度之间的误差，得到匹配损失信息。

在一个实施例中，步骤1102，基于图像原始特征、文本原始特征、图像交互特征、文本交互特征进行特征损失计算，得到特征损失信息，包括步骤：

计算图像原始特征与图像交互特征之间的交叉熵误差，得到图像特征损失信息；计算文本原始特征与文本交互特征之间的交叉熵误差，得到文本特征损失信息；计算图像特征损失信息和文本特征损失信息的信息和，得到特征损失信息。

具体地，服务器使用交叉熵损失函数来计算原始特征与交互特征之间的误差，然后计算所有的误差总和，得到特征损失信息，比如，可以使用cross-entropy loss作为交叉熵损失函数来计算交叉熵误差。

在一个实施例中，如图12所示，计算图像原始特征与图像交互特征之间的交叉熵误差，得到图像特征损失信息，包括：

步骤1202，按照预设类别替换位置从图像原始特征中获取目标对象类别表征向量，并按照预设区域替换位置从图像原始特征中获取目标对象区域表征向量。

其中，预设类别替换位置是指预先设置好的需要掩盖的图像类别对应的向量位置。预设区域替换位置是指预先设置好的需要掩盖图像类别对应的图像区域的向量位置。目标对象类别表征向量是指需要掩盖的图像类别在掩盖前原始的表征向量。目标对象区域表征向量是指需要掩盖的图像区域在掩盖前原始的表征向量。

具体地，服务器根据预设类别替换位置从图像原始特征中确定在掩盖之前的目标对象类别表征向量，同时，根据按照预设区域替换位置从图像原始特征中确定在掩盖之前的目标对象区域表征向量。

步骤1204，按照预设类别替换位置从图像交互特征中获取目标对象类别交互向量，并按照预设类别替换位置从图像交互特征中获取目标对象区域交互向量。

其中，目标对象类别交互向量是指需要掩盖的图像类别在掩盖后预测得到的表征向量。目标对象区域交互向量是指需要掩盖的图像区域在掩盖后预测得到的表征向量。

具体地，服务器从图像交互特征中确定预设类别替换位置处对应的向量，得到目标对象类别交互向量。同时从图像交互特征中确定预设类别替换位置处对应的向量得到目标对象区域交互向量。

步骤1206，计算目标对象类别表征向量与目标对象类别交互向量之间的交叉熵误差，得到类别向量损失信息，并计算目标对象区域表征向量与目标对象区域交互向量之间的交叉熵误差，得到区域向量损失信息。

具体地，服务器使用交叉熵损失函数计算目标对象类别表征向量与目标对象类别交互向量之间的误差，即得到类别向量损失信息，该类别向量损失信息用于表征掩盖前的类别表征向量和掩盖后预测得到的类别表征向量之间的误差。同时使用交叉熵损失函数计算目标对象区域表征向量与目标对象区域交互向量之间的误差，得到区域向量损失信息，该区域向量损失信息用于表征掩盖前的对象区域表征向量和掩盖后预测得到的对象区域表征向量之间的误差。

步骤1208，计算类别向量损失信息和区域向量损失信息的信息和，得到图像向量损失信息，将图像向量损失信息作为图像特征损失信息。

具体地，服务器将类别向量损失信息和区域向量损失信息的进行信息相加，得到图像向量损失信息，该图像向量损失信息用于表征被掩盖位置处原始向量和预测向量的误差。服务器将图像向量损失信息作为图像特征损失信息，从而提高了得到的图像特征损失信息的准确性。

在一个实施例中，计算文本原始特征与文本交互特征之间的交叉熵误差，得到文本特征损失信息，包括：

基于预设文本替换位置从文本原始特征中获取到被预设文本掩盖向量替换的目标字符表示向量；并基于预设文本替换位置从文本交互特征中获取到目标字符交互向量；计算目标字符表示向量和目标字符交互向量之间的交叉熵误差，得到文本向量损失信息，将替换向量损失信息作为文本特征损失信息。

其中，预设文本替换位置是指预先设置好的文本中的需要掩盖的词的位置。目标字符表示向量是指目标字符掩盖前的原始向量。目标字符交互向量是指目标字符掩盖后预测得到的向量。

具体地，服务器从文本原始特征中确定预设文本替换位置处对应的向量，得到目标字符表示向量，并从文本交互特征中确定预设文本替换位置处对应的向量，得到目标字符交互向量

在一个实施例中，步骤1104，即计算训练图像与训练文本之间的相似程度，基于相似程度和图文匹配程度进行损失计算，得到匹配损失信息，包括步骤：

将训练图像与训练文本分别输入到已训练的语义特征提取模型中，得到训练图像语义特征和训练文本语义特征；计算训练图像语义特征与训练文本语义特征的模型相似程度；计算模型相似程度与图文匹配程度之间的最小平方误差，得到匹配损失信息。

其中，语义特征提取模型是指用于提取语义特征的模型，是预先训练好的。

具体地，服务器将训练图像与训练文本分别输入到已训练的语义特征提取模型中，比如，该语义特征提取模型可以是使用BERT算法训练得到的神经网络模型，通过语义特征提取模型提取训练图像对应的语义特征，得到训练图像语义特征，通过语义特征提取模型提取训练文本对应的语义特征，得到训练文本语义特征，然后使用相似度算法计算训练图像语义特征与训练文本语义特征之间的相似度，得到模型相似程度，其中，相似度算法可以是欧式距离相似度算法、余弦相似度算法等等。然后使用最小平方误差来计算模型相似程度与图文匹配程度之间的误差，得到匹配损失信息。

在上述实施例中，通过使用已训练的语义特征提取模型提取语义特征，然后再计算语义特征之间的模型相似程度，通过该模型相似程度计算与图文匹配程度之间的最小平方误差，得到匹配损失信息，从而提高了得到的匹配损失信息的准确性。

获取训练图像对应的训练对象类别信息，并计算训练对象类别信息对应的类别权重向量；

基于训练文本进行词权重向量计算，得到词权重向量，并计算类别权重向量与类别权重向量之间的权重向量相似程度；

计算权重向量相似程度与图文匹配程度之间的最小平方误差，得到匹配损失信息。

具体地，服务器还可以使用TD-IDF(词频-逆文档频率)算法来计算训练图像与训练文本之间的相似程度。即通过算训练对象类别信息对应的类别权重向量，再计算训练文本中各个词权值向量，然后计算计算类别权重向量与类别权重向量之间的权重向量相似程度，根据权重向量相似程度计算与图文匹配程度之间的最小平方误差，得到匹配损失信息。

在一个具体的实施例中，服务器可以使用如下所示的公式(6)计算得到匹配损失信息。

其中，L_match是指匹配损失信息，a是指图文匹配程度，s是指训练文本和训练图像的相似程度。

在一个具体的实施例中，服务器可以使用如下所示的公式(7)计算得到训练模型损失信息。

L_total＝L_MLM+λ₁(L_MTM+L_MRM)+λ₂L_match 公式(7)

其中，L_total是指训练模型损失信息，L_MLM是指文本特征损失信息，L_MTM是指类别向量损失信息，L_MRM区域向量损失信息，L_match是指匹配损失信息。λ₁是指权衡视觉信息与文本信息的系数，λ₂是指控制匹配程度损失的系数

在上述实施例中，通过计算训练图像对应的损失信息和训练文本对应的损失信息，从而得到训练模型损失信息，提高了得到的训练模型损失信息的准确性。

在一个实施例中，如图13所示，提供了一种图文预测模型训练方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤1302，获取图文预测训练样本和对应的图文预测标签。

其中，图文预测训练样本是指在进行图文预测训练时使用的样本，包括图像和文本。图文预测标签是指图像预测训练时使用的标签，该标签是图像预测结果对应的真实结果。

具体地，服务器从数据库中获取图文预测训练样本和对应的图文预测标签，也可以从提供数据服务的服务方获取到图文预测训练样本和对应的图文预测标签。服务器还可以从业务方获取到图文预测训练样本和对应的图文预测标签。服务器还可以获取到终端上传的图文预测训练样本和对应的图文预测标签。

步骤1302，获取图文预训练模型，将图文预训练模型作为初始图文预测模型；图文预训练模型是通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于训练模型损失信息进行训练得到的。

其中，图文预训练模型可以是上述图文预训练模型训练方法中任意一实施例训练得到的模型。图文预训练模型和初始图文预测模型的模型结构相同。

具体地，服务器获取图文预训练模型中的预训练参数，将图文预训练模型中的预训练参数作为初始图文预测模型的初始化参数。其中，服务器可与预先通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于训练模型损失信息进行训练得到图文预训练模型。

步骤1306将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果。

具体地，服务器将图文预测训练样本输入到初始图文预测模型中，服务器对训练样本进行自注意力特征提取，得到图像自注意力特征和文本自注意力特征，然后将图像自注意力特征和文本自注意力特征进行匹配程度评估，得到图文匹配程度，然后使用图文匹配程度、图像自注意力特征和文本自注意力特征进行跨模态信息交互，得到输出的图像交互特征和文本交互特征，基于所述图像交互特征和文本交互特征确定对应的图文预测结果。

步骤1308计算图文预测结果与图文预测标签之间的预测损失信息，基于预测损失信息训练初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型，目标图文预测模型用于使用图像和文本进行跨模态预测。

具体地，服务器使用预先设置好的损失函数计算图文预测结果与图文预测标签之间的误差，得到预测损失信息，然后使用预测损失信息反向更新初始图文预测模型，得到更新后的图文预测模型。此时进行循环迭代，即将更新后的图文预测模型作为初始图文预测模型，并返回获取图文预测训练样本，将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果的步骤迭代执行，直到达到预测训练完成条件时，得到目标图文预测模型，该目标图文预测模型用于使用图像和文本进行跨模态预测。

在一个实施例中，训练得到的目标图文预测模型是目标图文问答模型。比如，服务器获取到老虎图像和问句“图像中的对象是什么”，将该图像和该问句输入到目标图文问答模型中进行答复语句预测，得到输出图像交互特征和文本交互特征，再根据图像交互特征和文本交确定回复语句“图像中的对象是动物老虎”。

上述图文预测模型训练方法，通过获取图文预测训练样本和对应的图文预测标签，并获取图文预训练模型，将图文预训练模型作为初始图文预测模型，将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果；计算图文预测结果与图文预测标签之间的预测损失信息，基于预测损失信息训练初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型。其中，由于图文预训练模型是通过评估图文匹配程度，再通过图文匹配程度进行跨模态信息交互来训练得到的，从而可以使训练得到的图文预训练模型提高了准确性，然后使用图文预训练模型进一步训练得到目标图文预测模型，从而提高了目标图文预测模型的准确性，进而提高了使用图像和文本进行跨模态预测的准确性。

在一个具体的实施例中，如图14所示，提供一种图像预训练模型训练方法示意图，包括以下步骤：

步骤1402，获取训练样本，训练样本包括训练图像和训练文本，将训练文本进行字符级别的文本翻译，得到训练文本全量表示向量和训练文本字符表示向量，基于训练文本全量表示向量和训练文本字符表示向量得到训练文本原始特征。

步骤1404，基于训练图像进行目标对象分类识别，得到训练图像全量表示向量、训练对象类别表征向量和训练对象区域表征向量，基于训练对象类别表征向量和训练对象区域表征向量得到训练图像原始特征。

步骤1406，基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中。

步骤1408，通过初始图文预训练模型对训练目标图像特征进行自注意力特征提取，得到初始图像自注意力特征，并对训练目标文本特征进行自注意力特征提取，得到初始文本自注意力特征。

步骤1410，通过初始图文预训练模型对初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量分别进行加权，得到加权图像表示向量和加权文本表示向量，计算加权图像表示向量和加权文本表示向量的向量和，得到匹配程度向量，将匹配程度向量进行激活，得到图文匹配程度。

步骤1412，通过初始图文预训练模型对初始文本自注意力特征中的初始文本全量表示向量与初始图像自注意力特征中的初始类别自注意力向量和初始区域自注意力向量进行跨越注意力特征提取，得到初始文本全量交互向量。

步骤1414，通过初始图文预训练模型基于训练图文匹配程度和初始文本全量交互特征对初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，基于初始文本全量交互向量和初始字符交互向量得到训练文本交互特征。

步骤1416，通过初始图文预训练模型对初始图像全量表示向量与初始字符自注意力向量进行跨越注意力特征提取，得到初始图像全量交互向量，基于训练图文匹配程度和初始图像全量交互向量分别对初始类别自注意力向量和初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，基于初始图像全量交互向量、初始类别交互向量和初始区域交互向量得到训练图像交互特征。

步骤1418，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息；基于训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型。

在一个具体的实施例中，如图15所示，提供一种图像预训练模型的训练框架示意图，具体来说：

服务器从文本集和图像集中随机选取到训练语句“我刚从水中钓上来的鱼”和训练图像，将训练语句符号化为一个subword token组成的序列，并使用目标检测器(FasterRCNN)首先提取多个目标框，并提取目标的类别信息，将目标的类别信息作为图像标签，根据图像标签和目标区域的帖子组成视觉模态的token序列。然后随机选取序列中的token进行掩盖，比如，将训练语句序列中“水中”对应的向量替换为全零向量，同时将训练图像序列中“人”所在的区域和人的标签对应的向量替换为全零向量，得到文本目标特征和图像目标特征。然后将文本目标特征和图像目标特征输入到初始图文预训练模型中，该图文预训练模型包括N个图文预测网络。

以一个图文预测网络为例来说，将文本目标特征和图像目标特征分别输入到自注意力(self-attention)层中进行自注意力特征提取，得到图像自注意力特征表示为{q^w,w_1,w_2,…,w_T}和文本自注意力特征表示{q^r,r_1,r_2,…,r_N}，其中，q^w与q^r分别代表两个特殊的token，用以捕捉文本与图像的全局信息。然后使用图像自注意力特征和文本自注意力特征进行图文匹配程度评估，得到图文匹配程度。然后将图文匹配程度、q^w和{r_1,r_2,…,r_N}输入到文本跨域注意力(cross-attention)层进行跨模态信息交互，得到输出的文本全量交互特征，然后使用文本全量交互特征和图文匹配程度对{w,w_2,…,w_T}进行更新，最终得到训练文本交互特征。

同时将图文匹配程度、q^r和{w,w_2,…,w_T}输入到图像跨域注意力层进行跨模态信息交互，得到输出的图像全量交互特征，然后使用图像全量交互特征和图文匹配程度对{r_1,r_2,…,r_N}进行更新，最终得到训练图像交互特征。然后经过多层的self-attention与cross-attention处理，最后输出最终的训练文本交互特征和最终的训练图像交互特征，该最终的训练文本交互特征和最终的训练图像交互特征预测出被掩盖的token向量。

然后服务器使用终的训练文本交互特征和最终的训练图像交互特征进行损失信息计算，得到训练模型损失信息，基于训练模型损失信息使用梯度下降算法反向更新初始图文预训练模型，直到达到预训练完成条件时，得到目标图文预训练模型。

在一个具体的实施例中，该图文预训练模型训应用在图文问答场景中，具体来说：

服务器获取图文问答训练样本和对应的图文问答回复标签；获取图文预训练模型，将图文预训练模型作为初始图文问答模型；将图文问答训练样本输入到初始图文问答模型中，得到图文问答训练样本对应的图文问答结果；计算图文问答结果与图文问答回复标签之间的预测损失信息，基于预测损失信息训练初始图文问答模型，当达到预测训练完成条件时，得到目标图文问答模型。

服务器将目标图文问答模型进行部署并使用。在使用时，服务器获取终端发送的图像和询问语句，将图像和询问语句输入到目标图文问答模型中，得到输出的图像交互特征和文本交互特征，根据输出的图像交互特征和文本交互特征确定回复语句，然后将回复语句返回给终端。终端展示回复语句。

在一个具体的实施例中，该图像预训练模型训练方法应用在图文检索场景中，具体来说：

服务器获取到服务器获取图文检索训练样本和对应的图文检索结果标签；获取图文预训练模型，将图文预训练模型作为初始图文检索模型；将图文问检索训练样本输入到初始图文问答模型中，得到图文检索训练样本对应的图文预测检索结果；计算图文预测检索结果与图文检索结果标签之间的预测损失信息，基于预测损失信息训练初始图文检索模型，当达到预测训练完成条件时，得到目标图文检索模型。

服务器将目标图文检索模型进行部署并使用。在使用时，服务器获取终端发送的图像和检索语句，将图像和检索语句输入到目标图文检索模型中，得到输出的图像交互特征和文本交互特征，根据输出的图像交互特征和文本交互特征确定要检索的图文对象，然后将要检索的图文对象在图文数据库中检测对应的图像和文本，然后将检索到的图像和文本返回给终端。终端展示回复语句。比如，可以是对新闻进行检索。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图文预训练模型训练方法的图文预训练模型训练装置和图文预测模型训练方法的图文预测模型训练方法。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图文预训练模型训练装置或图文预测模型训练装置实施例中的具体限定可以参见上文中对于图文预训练模型训练方法或者图文预测模型训练方法的限定，在此不再赘述。

在一个实施例中，如图16所示，提供了一种图文预训练模型训练装置1600，包括：特征获取模块1602、特征掩盖模块1604、匹配模块1606、交互模块1608、损失计算模块1610和训练模块1612，其中：

特征获取模块1602，用于获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征；

特征掩盖模块1604，用于基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中；

匹配模块1606，用于通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；

交互模块1608，用于通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；

损失计算模块1610，用于基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息；

训练模块1612，用于基于训练模型损失信息训练初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

在一个实施例中，特征获取模块1602还用于获取训练样本，训练样本包括训练图像和训练文本；将训练文本进行字符级别的文本翻译，得到训练文本全量表示向量和训练文本字符表示向量，基于训练文本全量表示向量和训练文本字符表示向量得到训练文本原始特征；基于训练图像进行目标对象分类识别，得到训练图像全量表示向量、训练对象类别表征向量和训练对象区域表征向量，基于训练对象类别表征向量和训练对象区域表征向量得到训练图像原始特征。

在一个实施例中，特征掩盖模块1604还用于从训练文本原始特征包含的训练文本字符表示向量中随机确定当前字符表示向量；将训练文本原始特征中的当前字符表示向量替换为预设文本掩盖向量，得到训练文本目标特征；从训练图像目标特征包含的训练对象类别表征向量和训练对象区域表征向量中随机确定当前对象类别表征向量和当前对象区域表征向量；将训练图像目标特征中的当前对象类别表征向量替换为预设图像对象掩盖向量，并将训练图像目标特征中的当前对象区域表征向量替换为预设图像区域掩盖向量，得到训练图像目标特征。

在一个实施例中，匹配模块1606还用于通过初始图文预训练模型对训练目标图像特征进行自注意力特征提取，得到初始图像自注意力特征；通过初始图文预训练模型对训练目标文本特征进行自注意力特征提取，得到初始文本自注意力特征；通过初始图文预训练模型对初始图像自注意力特征和初始文本自注意力特征进行匹配程度评估，得到训练图文匹配程度；

交互模块1608还用于通过初始图文预训练模型使用训练图文匹配程度、初始图像自注意力特征和初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征。

在一个实施例中，初始图文预训练模型包括初始图文预测网络，初始图文预测网络包括初始图像自注意力网络、初始文本自注意力网络和初始匹配网络；匹配模块1606，包括：

自注意力提取单元，用于将目标图像特征输入到初始图文预训练模型中的初始图像自注意力网络中进行自注意力特征提取，得到初始图像自注意力特征；将目标文本特征输入到初始图文预训练模型中的初始文本自注意力网络中进行自注意力特征提取，得到初始文本自注意力特征；

匹配评估单元，用于将初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量输入到初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到图文匹配程度。

在一个实施例中，匹配评估单元还用于将初始图像自注意力特征中的初始图像全量表示向量和初始文本自注意力特征中的初始文本全量表示向量输入到初始图文预训练模型中的初始匹配网络中；通过初始匹配网络分别对初始图像全量表示向量和初始文本全量表示向量进行加权，得到加权图像表示向量和加权文本表示向量；通过初始匹配网络计算加权图像表示向量和加权文本表示向量的向量和，得到匹配程度向量；通过初始匹配网络将匹配程度向量进行激活，得到图文匹配程度。

交互模块1608，包括：

文本交互单元，用于将初始文本自注意力特征中的初始文本全量表示向量与初始图像自注意力特征中的初始类别自注意力向量和初始区域自注意力向量输入到初始文本跨越注意力网络中进行跨模态信息交互，得到初始文本全量交互向量；基于训练图文匹配程度和初始文本全量交互特征对初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，基于初始文本全量交互向量和初始字符交互向量得到训练文本交互特征；

图像交互单元，用于将初始图像全量表示向量与初始字符自注意力向量输入到初始图像跨越注意力网络中进行跨模态信息交互，得到初始图像全量交互向量；基于训练图文匹配程度和初始图像全量交互向量分别对初始类别自注意力向量和初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，基于初始图像全量交互向量、初始类别交互向量和初始区域交互向量得到训练图像交互特征。

在一个实施例中，文本交互单元还用于使用训练图文匹配程度对初始字符自注意力向量进行加权，得到加权字符自注意力特征；基于训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用全量交互特征权重对初始文本全量交互特征进行加权，得到加权文本全量交互特征；计算加权字符自注意力特征和加权文本全量交互特征的特征和，得到初始字符交互向量。

在一个实施例中，图像交互单元还用于使用训练图文匹配程度对初始类别自注意力向量进行加权，得到加权类别自注意力特征；使用训练图文匹配程度对初始区域自注意力向量进行加权，得到加权区域自注意力特征；基于训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用全量交互特征权重对初始图像全量交互向量进行加权，得到加权图像全量交互特征；计算加权类别自注意力特征与加权图像全量交互特征的特征和，得到初始类别交互向量；计算加权区域自注意力特征与加权图像全量交互特征的特征和，得到初始区域交互向量；

图文预训练模型训练装置1600，还包括：

最终训练模块，用于获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征，将前向训练图像交互特征和前向训练文本交互特征输入到后向初始图文预测网络中，得到输出的后向训练图像交互特征和后向训练文本交互特征；将后向初始图文预测网络作为前向初始图文预测网络，并返回获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征的步骤执行，直到未存在后向图文预测网络时，将未存在后向图文预测网络时的前向训练图像交互特征作为最终训练图像交互特征，将未存在后向图文预测网络时的前向训练文本交互特征作为最终训练文本交互特征；基于训练图像原始特征、训练文本原始特征、最终训练图像交互特征、最终训练文本交互特征进行特征损失计算，得到最终训练特征损失信息，并计算训练图像与训练文本之间的相似程度，基于相似程度和未存在后向图文预测网络的最终图文匹配程度进行匹配损失计算，得到最终训练匹配损失信息；基于最终训练特征损失信息和最终训练匹配损失信息训练初始图文预训练模型，直到达到最终训练完成条件时，得到最终目标图文预训练模型。

在一个实施例中，损失计算模块1610，包括：

特征损失计算单元，用于基于图像原始特征、文本原始特征、图像交互特征、文本交互特征进行特征损失计算，得到特征损失信息；

匹配损失计算单元，用于计算训练图像与训练文本之间的相似程度，基于相似程度和图文匹配程度进行损失计算，得到匹配损失信息；

和计算单元，用于计算特征损失信息和匹配损失信息的信息和，得到训练模型损失信息。

在一个实施例中，特征损失计算单元还用于计算图像原始特征与图像交互特征之间的交叉熵误差，得到图像特征损失信息；计算文本原始特征与文本交互特征之间的交叉熵误差，得到文本特征损失信息；计算图像特征损失信息和文本特征损失信息的信息和，得到特征损失信息。

在一个实施例中，特征损失计算单元还用于按照预设类别替换位置从图像原始特征中获取目标对象类别表征向量，并按照预设区域替换位置从图像原始特征中获取目标对象区域表征向量；按照预设类别替换位置从图像交互特征中获取目标对象类别交互向量，并按照预设类别替换位置从图像交互特征中获取目标对象区域交互向量；计算目标对象类别表征向量与目标对象类别交互向量之间的交叉熵误差，得到类别向量损失信息，并计算目标对象区域表征向量与目标对象区域交互向量之间的交叉熵误差，得到区域向量损失信息；计算类别向量损失信息和区域向量损失信息的信息和，得到图像向量损失信息，将图像向量损失信息作为图像特征损失信息。

在一个实施例中，特征损失计算单元还用于基于预设文本替换位置从文本原始特征中获取到被预设文本掩盖向量替换的目标字符表示向量；并基于预设文本替换位置从文本交互特征中获取到目标字符交互向量；计算目标字符表示向量和目标字符交互向量之间的交叉熵误差，得到文本向量损失信息，将替换向量损失信息作为文本特征损失信息。

在一个实施例中，匹配损失计算单元还用于将训练图像与训练文本分别输入到已训练的语义特征提取模型中，得到训练图像语义特征和训练文本语义特征；计算训练图像语义特征与训练文本语义特征的模型相似程度；计算模型相似程度与图文匹配程度之间的最小平方误差，得到匹配损失信息。

在一个实施例中，匹配损失计算单元还用于获取训练图像对应的训练对象类别信息，并计算训练对象类别信息对应的类别权重向量；基于训练文本进行词权重向量计算，得到词权重向量，并计算类别权重向量与类别权重向量之间的权重向量相似程度；计算权重向量相似程度与图文匹配程度之间的最小平方误差，得到匹配损失信息。

在一个实施例中，如图17所示，提供了一种图文预测模型训练装置1700，包括：样本获取模块1702、模型获取模块1704、训练预测模块1706和模型得到模块1708，其中：

样本获取模块1702，用于获取图文预测训练样本和对应的图文预测标签；

模型获取模块1704，用于获取图文预训练模型，将图文预训练模型作为初始图文预测模型；图文预训练模型是通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中，通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于训练模型损失信息进行训练得到的；

训练预测模块1706，用于将图文预测训练样本输入到初始图文预测模型中，得到图文预测训练样本对应的图文预测结果；

模型得到模块1708，用于计算图文预测结果与图文预测标签之间的预测损失信息，基于预测损失信息训练初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型，目标图文预测模型用于使用图像和文本进行跨模态预测。

上述图文预训练模型训练装置或者图文预测模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图18所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练文本集和训练图像集。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图文预训练模型训练方法或图文预测模型训练方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图19所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图文预训练模型训练方法或者图文预测模型训练方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图18或19中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图文预训练模型训练方法，其特征在于，所述方法包括：

基于所述训练图像原始特征和所述训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将所述训练图像目标特征和所述训练文本目标特征输入到初始图文预训练模型中；

通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；

通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；

基于所述训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和所述初始图片匹配程度进行模型损失计算，得到训练模型损失信息；

基于所述训练模型损失信息训练所述初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，所述目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

2.根据权利要求1所述的方法，其特征在于，所述获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征，包括：

获取训练样本，所述训练样本包括训练图像和训练文本；

将所述训练文本进行字符级别的文本翻译，得到训练文本全量表示向量和训练文本字符表示向量，基于训练文本全量表示向量和训练文本字符表示向量得到所述训练文本原始特征；

基于所述训练图像进行目标对象分类识别，得到训练图像全量表示向量、训练对象类别表征向量和训练对象区域表征向量，基于所述训练对象类别表征向量和训练对象区域表征向量得到所述训练图像原始特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述训练图像原始特征和所述训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，包括：

从所述训练文本原始特征包含的训练文本字符表示向量中随机确定当前字符表示向量；

将所述训练文本原始特征中的当前字符表示向量替换为预设文本掩盖向量，得到所述训练文本目标特征；

从所述训练图像目标特征包含的训练对象类别表征向量和训练对象区域表征向量中随机确定当前对象类别表征向量和当前对象区域表征向量；

将所述训练图像目标特征中的当前对象类别表征向量替换为预设图像对象掩盖向量，并将所述训练图像目标特征中的当前对象区域表征向量替换为预设图像区域掩盖向量，得到所述训练图像目标特征。

4.根据权利要求1所述的方法，其特征在于，通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，包括：

通过所述初始图文预训练模型对所述训练目标图像特征进行自注意力特征提取，得到初始图像自注意力特征；

通过所述初始图文预训练模型对所述训练目标文本特征进行自注意力特征提取，得到初始文本自注意力特征；

通过所述初始图文预训练模型对所述初始图像自注意力特征和所述初始文本自注意力特征进行匹配程度评估，得到训练图文匹配程度；

所述通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，包括：

通过所述初始图文预训练模型使用所述训练图文匹配程度、所述初始图像自注意力特征和所述初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述初始图文预训练模型包括初始图文预测网络，所述初始图文预测网络包括初始图像自注意力网络、初始文本自注意力网络和初始匹配网络；

所述通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，包括：

将所述目标图像特征输入到所述初始图文预训练模型中的初始图像自注意力网络中进行自注意力特征提取，得到所述初始图像自注意力特征；

将所述目标文本特征输入到所述初始图文预训练模型中的初始文本自注意力网络中进行自注意力特征提取，得到所述初始文本自注意力特征；

将所述初始图像自注意力特征中的初始图像全量表示向量和所述初始文本自注意力特征中的初始文本全量表示向量输入到所述初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到所述图文匹配程度。

6.根据权利要求5所述的方法，其特征在于，将所述初始图像自注意力特征中的初始图像全量表示向量和所述初始文本自注意力特征中的初始文本全量表示向量输入到所述初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到所述图文匹配程度，包括：

将所述初始图像自注意力特征中的初始图像全量表示向量和所述初始文本自注意力特征中的初始文本全量表示向量输入到所述初始图文预训练模型中的初始匹配网络中；

通过所述初始匹配网络分别对所述初始图像全量表示向量和所述初始文本全量表示向量进行加权，得到加权图像表示向量和加权文本表示向量；

通过所述初始匹配网络计算所述加权图像表示向量和加权文本表示向量的向量和，得到匹配程度向量；

通过所述初始匹配网络将所述匹配程度向量进行激活，得到所述图文匹配程度。

7.根据权利要求4所述的方法，其特征在于，所述初始图文预训练模型包括初始图文预测网络，所述初始图文预测网络包括初始图像跨越注意力网络和初始文本跨越注意力网络；

所述通过所述初始图文预训练模型使用所述训练图文匹配程度、所述初始图像自注意力特征和所述初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征，包括：

将所述初始文本自注意力特征中的初始文本全量表示向量与所述初始图像自注意力特征中的初始类别自注意力向量和初始区域自注意力向量输入到所述初始文本跨越注意力网络中进行跨模态信息交互，得到初始文本全量交互向量；

基于所述训练图文匹配程度和所述初始文本全量交互特征对所述初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，基于所述初始文本全量交互向量和所述初始字符交互向量得到所述训练文本交互特征；

将所述初始图像全量表示向量与所述初始字符自注意力向量输入到初始图像跨越注意力网络中进行跨模态信息交互，得到初始图像全量交互向量；

基于所述训练图文匹配程度和所述初始图像全量交互向量分别对所述初始类别自注意力向量和所述初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，基于所述初始图像全量交互向量、所述初始类别交互向量和所述初始区域交互向量得到所述训练图像交互特征。

8.根据权利要求7所述的方法，其特征在于，所述基于所述训练图文匹配程度和所述初始文本全量交互特征对所述初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，包括：

使用所述训练图文匹配程度对所述初始字符自注意力向量进行加权，得到加权字符自注意力特征；

基于所述训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用所述全量交互特征权重对所述初始文本全量交互特征进行加权，得到加权文本全量交互特征；

计算所述加权字符自注意力特征和所述加权文本全量交互特征的特征和，得到所述初始字符交互向量。

9.根据权利要求7所述的方法，其特征在于，所述基于所述训练图文匹配程度和所述初始图像全量交互向量分别对所述初始类别自注意力向量和所述初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，包括：

使用所述训练图文匹配程度对所述初始类别自注意力向量进行加权，得到加权类别自注意力特征；

使用所述训练图文匹配程度对所述初始区域自注意力向量进行加权，得到加权区域自注意力特征；

基于所述训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用所述全量交互特征权重对所述初始图像全量交互向量进行加权，得到加权图像全量交互特征；

计算所述加权类别自注意力特征与所述加权图像全量交互特征的特征和，得到所述初始类别交互向量；

计算所述加权区域自注意力特征与所述加权图像全量交互特征的特征和，得到所述初始区域交互向量。

10.根据权利要求1所述的方法，其特征在于，所述初始图文预训练模型包括至少两个初始图文预测网络，所述至少两个初始图文预测网络首尾连接；

所述方法，还包括：

获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征，

将所述前向训练图像交互特征和所述前向训练文本交互特征输入到后向初始图文预测网络中，得到输出的后向训练图像交互特征和后向训练文本交互特征；

将所述后向初始图文预测网络作为前向初始图文预测网络，并返回获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征的步骤执行，直到未存在后向图文预测网络时，将未存在后向图文预测网络时的前向训练图像交互特征作为最终训练图像交互特征，将未存在后向图文预测网络时的前向训练文本交互特征作为最终训练文本交互特征；

基于所述训练图像原始特征、训练文本原始特征、最终训练图像交互特征、最终训练文本交互特征进行特征损失计算，得到最终训练特征损失信息，并计算所述训练图像与所述训练文本之间的相似程度，基于所述相似程度和未存在后向图文预测网络的最终图文匹配程度进行匹配损失计算，得到最终训练匹配损失信息；

基于所述最终训练特征损失信息和所述最终训练匹配损失信息训练所述初始图文预训练模型，直到达到最终训练完成条件时，得到最终目标图文预训练模型。

11.根据权利要求1所述的方法，其特征在于，基于所述训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和所述初始图片匹配程度进行模型损失计算，得到训练模型损失信息，包括：

基于所述图像原始特征、文本原始特征、图像交互特征、文本交互特征进行特征损失计算，得到特征损失信息；

计算所述训练图像与所述训练文本之间的相似程度，基于所述相似程度和所述图文匹配程度进行损失计算，得到匹配损失信息；

计算所述特征损失信息和所述匹配损失信息的信息和，得到所述训练模型损失信息。

12.根据权利要求11所述的方法，其特征在于，所述基于所述图像原始特征、文本原始特征、图像交互特征、文本交互特征进行特征损失计算，得到特征损失信息，包括：

计算所述图像原始特征与所述图像交互特征之间的交叉熵误差，得到图像特征损失信息；

计算所述文本原始特征与所述文本交互特征之间的交叉熵误差，得到文本特征损失信息；

计算所述图像特征损失信息和所述文本特征损失信息的信息和，得到所述特征损失信息。

13.根据权利要求12所述的方法，其特征在于，所述计算所述图像原始特征与所述图像交互特征之间的交叉熵误差，得到图像特征损失信息，包括：

按照预设类别替换位置从所述图像原始特征中获取目标对象类别表征向量，并按照预设区域替换位置从所述图像原始特征中获取目标对象区域表征向量；

按照所述预设类别替换位置从所述图像交互特征中获取目标对象类别交互向量，并按照所述预设类别替换位置从所述图像交互特征中获取目标对象区域交互向量；

计算所述目标对象类别表征向量与所述目标对象类别交互向量之间的交叉熵误差，得到类别向量损失信息，并计算所述目标对象区域表征向量与所述目标对象区域交互向量之间的交叉熵误差，得到区域向量损失信息；

计算所述类别向量损失信息和所述区域向量损失信息的信息和，得到图像向量损失信息，将所述图像向量损失信息作为所述图像特征损失信息。

14.根据权利要求12所述的方法，其特征在于，所述计算所述文本原始特征与所述文本交互特征之间的交叉熵误差，得到文本特征损失信息，包括：

基于预设文本替换位置从所述文本原始特征中获取到被预设文本掩盖向量替换的目标字符表示向量；

并基于所述预设文本替换位置从所述文本交互特征中获取到目标字符交互向量；

计算所述目标字符表示向量和所述目标字符交互向量之间的交叉熵误差，得到文本向量损失信息，将所述替换向量损失信息作为所述文本特征损失信息。

15.根据权利要求11所述的方法，其特征在于，所述计算所述训练图像与所述训练文本之间的相似程度，基于所述相似程度和所述图文匹配程度进行损失计算，得到匹配损失信息，包括：

将所述训练图像与所述训练文本分别输入到已训练的语义特征提取模型中，得到训练图像语义特征和训练文本语义特征；

计算所述训练图像语义特征与所述训练文本语义特征的模型相似程度；

计算所述模型相似程度与所述图文匹配程度之间的最小平方误差，得到所述匹配损失信息。

16.一种图文预测模型训练方法，其特征在于，所述方法包括：

获取图文预测训练样本和对应的图文预测标签；

获取图文预训练模型，将所述图文预训练模型作为初始图文预测模型；

所述图文预训练模型是通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将所述训练图像目标特征和所述训练文本目标特征输入到初始图文预训练模型中，通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于所述训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和所述初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于所述训练模型损失信息进行训练得到的；

将所述图文预测训练样本输入到所述初始图文预测模型中，得到所述图文预测训练样本对应的图文预测结果；

计算所述图文预测结果与所述图文预测标签之间的预测损失信息，基于所述预测损失信息训练所述初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型，所述目标图文预测模型用于使用图像和文本进行跨模态预测。

17.一种图文预训练模型训练装置，其特征在于，所述装置包括：

特征掩盖模块，用于基于所述训练图像原始特征和所述训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将所述训练图像目标特征和所述训练文本目标特征输入到初始图文预训练模型中；

匹配模块，用于通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；

交互模块，用于通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；

损失计算模块，用于基于所述训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和所述初始图片匹配程度进行模型损失计算，得到训练模型损失信息；

训练模块，用于基于所述训练模型损失信息训练所述初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，所述目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。

18.一种图文预测模型训练装置，其特征在于，所述装置包括：

模型获取模块，用于获取图文预训练模型，将所述图文预训练模型作为初始图文预测模型；所述图文预训练模型是通过将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，将所述训练图像目标特征和所述训练文本目标特征输入到初始图文预训练模型中，通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，基于所述训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和所述初始图片匹配程度进行模型损失计算，得到训练模型损失信息，并基于所述训练模型损失信息进行训练得到的；

训练预测模块，用于将所述图文预测训练样本输入到所述初始图文预测模型中，得到所述图文预测训练样本对应的图文预测结果；

模型得到模块，用于计算所述图文预测结果与所述图文预测标签之间的预测损失信息，基于所述预测损失信息训练所述初始图文预测模型，当达到预测训练完成条件时，得到目标图文预测模型，所述目标图文预测模型用于使用图像和文本进行跨模态预测。

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。