CN116484224A

CN116484224A - 一种多模态预训练模型的训练方法、装置、介质及设备

Info

Publication number: CN116484224A
Application number: CN202310468534.6A
Authority: CN
Inventors: 谯轶轩; 姜鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-25

Abstract

本发明涉及计算机技术领域和医疗领域，公开了一种多模态预训练模型的训练方法、装置、介质及设备，包括：获取训练样本集；依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；依次将训练样本中的文本通过分词的方式，生成文本特征向量；根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练；获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件；如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。通过该方法，能够提高多模态预训练模型的训练效率。

Description

一种多模态预训练模型的训练方法、装置、介质及设备

技术领域

本发明涉及计算机技术领域和医疗领域，尤其涉及一种多模态预训练模型的训练方法、装置、介质及设备。

背景技术

多模态预训练模型可以对两种或两种以上模态的数据进行训练与学习，进而能够通过在大规模数据上的预训练，学习到不同模态之间的对应关系。比如，文本和图片的语义信息之间的对应关系。

现有的图片文本的多模态预训练模型，在图像特征提取方面需要耗费大量的时间。一方面，在模型进行学习之前，需要通过目标检测器提取图片中相应的图像特征，然后再基于提取后的图像特征进行训练与学习。另一方面，在使用模型时，模型也会对用户输入的图片，通过目标检测器提取图像特征，然后基于提取后的图像特征进行分析与预测。比如，在线上问诊的应用场景中，用户通过客户端上传症状图片，模型需要对上述图片提取图像特征。现有技术中，通过目标检测器线上提取图像特征，会导致用户的等待时间过长，影响了用户的问诊体验感。

由于目标检测器也是一种经过深度学习后得到的模型，是一种通过特定的算法代码，让计算机从一张图像中找出若干特定目标的模型。因此，目标检测器在提取图像特征的过程中，会耗费大量的时间。不仅如此，通过目标检测器，对每张图片进行图像特征提取后，需要在本地存储每张图片的图像特征信息，对计算机造成较大的存储压力。因此，亟须一种技术方案，能够在多模态预训练模型在训练的过程中，减少在图像特征提取模块中的时间投入，并且能够保证模型训练后的效果，进一步提高多模态预训练模型的训练效率。

发明内容

本发明提供一种多模态预训练模型的训练方法、装置、介质及设备，以解决现有技术中，多模态预训练模型的训练效率不高、提取图像特征时间过长的技术问题，进一步推动图文匹配训练在医疗领域中的广泛应用。

第一方面，提供了一种多模态预训练模型的训练方法，包括：

获取训练样本集，其中，所述训练样本集中包括多组训练样本，每一组训练样本包括：图片信息和文本信息；

依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；

依次将训练样本中的文本通过分词的方式，生成文本特征向量；

根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，其中，所述图文匹配任务模块是基于神经网络算法建立的模型，用于预测图片信息和文本信息是否相互匹配；

获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件；

如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。

第二方面，提供了一种多模态预训练模型的训练装置，包括：

获取训练样本集模块：用于获取训练样本集，其中，所述训练样本集中包括多组训练样本，每一组训练样本包括：图片信息和文本信息；

生成图像特征向量模块：用于依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；

生成文本特征向量模块：用于依次将训练样本中的文本通过分词的方式，生成文本特征向量；

图文匹配任务训练模块：用于根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，其中，所述图文匹配任务模块是基于神经网络算法建立的模型，用于预测图片信息和文本信息是否相互匹配；

第一检测模块：用于获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件；

图文匹配任务再次训练模块：用于如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。

第三方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述多模态预训练模型的训练方法的步骤。

第四方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述多模态预训练模型的训练方法的步骤。

上述多模态预训练模型的训练方法、装置、存储介质及电子设备，首先，获取训练样本集；然后，依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；依次将训练样本中的文本通过分词的方式，生成文本特征向量；根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练；最后，通过第一检测样本集，判断图文匹配任务模块是否达到训练条件；如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。

本申请，通过将训练样本中的图片分隔成多个子图片的方式，生成图像特征向量，相对于现有技术通过目标检测器提取图像特征向量，所耗费的时间和资源成本更少；并且，本申请侧重于对任务模块的设计与训练，通过在多模态预训练模型中设定图文匹配任务，在图文匹配任务模块上多次训练，直至满足训练条件停止结束，能够减少图像特征提取时间，并且保证了模型训练后的效果，进一步提高多模态预训练模型的训练效率，加速图文匹配训练训练在医疗领域中广泛应用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中多模态预训练模型的训练方法的一应用环境示意图；

图2是本发明一实施例中多模态预训练模型的训练方法的一流程示意图；

图3是本发明一实施例中图像特征向量生成的说明示意图；

图4是本发明另一实施例中多模态预训练模型的训练框架图；

图5是本发明另一实施例中多模态预训练模型的训练方法的一流程示意图；

图6是本发明一实施例中多模态预训练模型的训练装置的一结构示意图；

图7是本发明一实施例中计算机设备的一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1所示，图1是本发明一实施例中多模态预训练模型的训练方法的一应用环境示意图。该多模态预训练模型的训练系统包括客户端和服务端，基于训练完成后的多模态预训练模型可以在上述系统完成。比如，用户通过客户端输入图片和/或文本信息，客户端通过网络将图片和/或文本信息传输给服务端，由服务端对用户所输入的图片和/或文本信息进行判断，并作出后续的相应输出动作，传输给客户端。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

上述多模态预训练模型的训练方法可以应用于多个领域，比如，线上教学、数字医疗等领域。在线上教学的应用场景中，客户端会输出一张场景图片信息，用户基于所看到的场景图片信息，输入一段场景描述信息。此时，将上述文字描述信息传送给服务端，服务端基于预测模型，对上述文字信息和客户端所输出的图片信息进行匹配预测，反馈用户相应信息，并通过客户端进行显示。

在数字医疗的应用场景中，用户通过客户端输入的图片信息为就诊图片信息和症状描述文字信息，就诊图片信息可以包括，报告单、能反映疾病症状的身体部位图片等。此时，将上述图片和文字信息传送给服务端，服务端基于预测模型，对上述图片和文字信息进行分析与处理，反馈用户相应信息，并通过客户端进行显示。

上述应用场景中的预测模型，是通过本申请实施例中多模态预训练模型的训练方法所生成的模型。下面通过具体的实施例对本发明进行详细的描述。

请参阅图2所示，图2是本发明一实施例中多模态预训练模型的训练方法的一流程示意图，包括如下步骤：

S101：获取训练样本集，其中，所述训练样本集中包括多组训练样本，每一组训练样本包括：图片信息和文本信息。

本申请实施例中的训练样本集，可以采用公开的大规模Image Captioning数据集作为训练的数据。Image Captioning是指用自然语言描述图像中的视觉内容，通常采用一个视觉理解系统和一个能够生成有意义的、语法正确的句子的语言模型，常被称为看图说话、图像描述、图像字幕等。比如，Image Captioning数据集中的COCOcaptions数据集一共包含123287张图片及对应的616767个描述。需要说明的是，本申请实施例中的预训练模型是多模态的，即预训练的数据至少包括两种及两种以上的形态。本申请实施例，主要对图片和文本两种类型的数据进行预训练。因此，训练样本集中的每一组训练样本包括图片信息及对应的文本信息。

与此同时，本申请实施例中的训练样本集，也可以结合业务场景，采用历史的业务数据。比如，每一组训练样本可以包括：医疗或教育业务中的图片及文本信息。图片可以为检查单、报告单、反映疾病症状的图片等。文本可以为各种疾病症状的文字描述等。

S102：依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量。在一种实施方式中，可以包括如下步骤：

A1：将训练样本中的图片分隔成多个子图片；

A2：获取多个子图片信息，并从多个子图片信息中分别提取多个子图像特征信息；

A3：将多个子图像特征信息进行拼接，得到训练样本中的图片的图像特征向量。

相对于现有技术，本申请实施例没有通过目标检测器提取图像特征向量，而是通过将图片分隔成多个子图片的方式进行图像特征向量的提取，能够减少计算机的计算时间及存储资源的成本。请参阅图3所示，图3是本发明一实施例中图像特征向量生成的说明示意图。比如，可以将图片分隔成9个子图片，所形成的每个子图片信息可以为三维矩阵的信息，包括子图片的高、宽和通道数，其中彩色图片的通道数为3。然后，通过线性变换矩阵，将上述三维的矩阵信息转换为一维向量，比如，转换为768维的向量。最后，将9个768维的向量进行拼接，得到训练样本中的图片的图像特征向量。

S103：依次将训练样本中的文本通过分词的方式，生成文本特征向量。

本申请实施例中的文本可以为英文的文本，也可以为中文的文本。英文的文本可以采用NLTK(Natural Language Tool Kit)自然语言处理工具包进行分词，中文的文本可以采用jieba库进行分词，其中，jieba库是Python中的中文分词第三方库。同样地，对于分词后的每个字，也通过线性变换矩阵，统一转换为768维的向量，得到训练样本中的文本的文本特征向量。

S104：根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，其中，所述图文匹配任务模块用于预测图片信息和文本信息是否相互匹配。

本申请实施例中的图文匹配任务模块为多模态预训练模型中的任务子模块，主要是用于预测图片信息和文本信息是否相互匹配。比如一张狗的图片和猫的文本描述就是不相互匹配的图片信息和文本信息。需要说明的是多模态预训练模型中的任务模块可以有多个，图文匹配任务模块为多模态预训练模型的任务模块之一。根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，可以将图像特征向量和文本特征向量进行拼接后生成多模态特征向量，作为输入，传输给Bert模型进行训练。Bert模型是一种基于神经网络算法的预训练模型，通过跟踪序列数据中的关系来学习具体地含义。

S105：获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件。在一种实施方式中，可以包括以下步骤：

B1：依次将所述检测样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；

B2：依次将所述检测样本中的文本通过分词的方式，生成文本特征向量；

B3：根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行检测，输出第一检测结果；

B4：根据第一检测结果，判断图文匹配任务模块是否达到训练条件。

同样地，对第一检测样本集中的检测样本，依次通过分隔成多个子图片的方式及分词的方式，生成图像特征向量和文本特征向量，然后输入多模态预训练模型进行检测。比如，第一检测样本集中的检测样本的图片是一个男孩在草地上踢球的图片，那么检测样本的文字可以是“一个男孩在踢球”的文字描述，也可以是“一个女孩在跳跃”的文字描述。其中，前者的文字描述与图片组成的检测样本为正样本，后者的文字描述与图片组成的检测样本为负样本。

将检测样本输入多模态预训练模型中，对图文匹配任务模块进行检测。在模型的设置中，可以定义正样本的输出值为1，负样本的输出值为0。如果将正样本输入模型中进行检测，得到的输出值应当尽量与输出值1接近。比如，可以定义，输出值应当大于0.9，如果大于0.9，则说明此次模型中图文匹配任务模块通过了此次样本的检测。同样地，如果将负样本输入模型中进行检测，得到的输出值应当尽量与输出值0接近。比如，可以定义，输出值应当小于0.1，如果小于0.1，则说明此次模型中图文匹配任务模块通过了此次样本的检测。

为了判断图文匹配任务模块是否达到训练条件，需要通过多组检测样本来进行检测。在图文匹配任务模块中，可以预先定义第一训练通过阈值，比如为95％，即如果检测了100次，其中模型中的图文匹配任务模块共计95次通过了样本的检测，那么，则说明图文匹配任务模块达到了训练条件。

S106：如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。

比如，如果如果检测了100次，其中模型中的图文匹配任务模块只有80次通过了样本的检测，那么，则说明图文匹配任务模块没有达到训练条件，就需要对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。具体地，可以采用随机梯度下降算法SGD对训练样本集中的参数进行更新，进一步加快训练速度。

在另外一种实施方式中，多模态预训练模型中的任务模块还包括图文近似度任务模块，请参阅图4所示，图4是本发明另一实施例中多模态预训练模型的训练框架图。依次将训练样本中的图片和文本分别生成图像特征向量和文本特征向量，然后输入Bert模型的transformer层，对模型中的图文匹配任务模块和图文近似度任务模块进行训练。请参阅图5所示，图5是本发明另一实施例中多模态预训练模型的训练方法的一流程示意图，包括如下步骤：

S201：获取训练样本集，其中，所述训练样本集中包括多组训练样本，每一组训练样本包括：图片信息和文本信息。

S202：依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量。

S203：依次将训练样本中的文本通过分词的方式，生成文本特征向量。

S204：根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，其中，所述图文匹配任务模块用于预测图片信息和文本信息是否相互匹配。

S205：根据所述图像特征向量和所述文本特征向量，对图文近似度任务模块进行训练，其中，所述图文近似度任务模块用于预测图片信息和文本信息匹配的近似度。

本申请实施例中的图文匹配任务模块和图文近似度任务模块具体是为了实现模型中的两个不同任务。其中，图文匹配任务模块用于预测图片信息和文本信息是否相互匹配；图文近似度任务模块用于预测图片信息和文本信息匹配的近似度。比如，上文中举例的，一个男孩在草地上踢球的图片，如果文字描述为“一个人在踢球”，那么该文字描述与图片是相互匹配的，但是匹配的近似度不高。如果文字描述为“一个男人在草地上踢球”，那么文字描述与图片不仅是相互匹配的，而且匹配的近似度高。

再比如，在线上问诊的业务场景中。用户上传了一张皮肤带有红疹包块的图片，如果文字描述为“皮肤疾病症状”，那么该文字描述与图片是相互匹配的，但是匹配的近似度不高。如果文字描述为“湿疹症状”，那么文字描述与图片不仅是相互匹配的，而且匹配的近似度高。

S206：获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件。

S207：如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。

S208：获取第二检测样本集，并通过第二检测样本集判断图文近似度任务模块是否达到训练条件。

C1：依次将所述检测样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；

C2：依次将所述检测样本中的文本通过分词的方式，生成文本特征向量；

C3：根据所述图像特征向量和所述文本特征向量，对图文近似度任务模块进行检测，输出第二检测结果；

C4：根据第二检测结果，判断图文匹配任务模块是否达到训练条件。

S209：如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文近似度任务模块进行再次训练，直至达到训练条件时结束训练。

采取对图文匹配任务模块进行检测的类似方式，通过第二检测样本集判断图文近似度任务模块是否达到训练条件。比如，第二检测样本集中的检测样本的图片是一个男孩在草地上踢球的图片，那么检测样本的文字可以是“一个人在踢球”的文字描述，也可以是“一个男人在草地上踢球”的文字描述。其中，前者的文字描述与图片组成的检测样本为近似度低的样本，后者的文字描述与图片组成的检测样本为近似度高的样本。

将检测样本输入多模态预训练模型中，对图文近似度任务模块进行检测。在模型的设置中，可以定义近似度高的样本的输出值为1，近似度低的样本的输出值为0.6。如果将近似度高的样本输入模型中进行检测，得到的输出值应当尽量与输出值1接近。比如，可以定义，输出值应当大于0.9，如果大于0.9，则说明此次模型中图文近似度任务模块通过了此次样本的检测。同样地，如果将近似度低的样本输入模型中进行检测，得到的输出值应当尽量与输出值0.5接近。比如，可以定义，输出值应当大于0.5并且小于0.7，如果输出值在上述区间内，则说明此次模型中图文匹配任务模块通过了此次样本的检测。

为了判断图文近似度任务模块是否达到训练条件，需要通过多组检测样本来进行检测。在图文近似度任务模块中，可以预先定义第二训练通过阈值，比如为98％，即如果检测了100次，其中模型中的图文近似度任务模块共计98次通过了样本的检测，那么，则说明图文近似度任务模块达到了训练条件。

需要说明的是，对图文匹配任务模块和图文近似度任务模块的检测，既可以分别根据第一训练通过阈值和第二训练通过阈值的通过标准，同步进行检测。在一种实施方式中，也可以在图文匹配任务模块达到训练条件后，对图文近似度任务模块进行检测，直至图文近似度任务模块也达到训练条件。比如，当图文匹配任务模块达到训练条件后，再获取第二检测样本集，并通过第二检测样本集判断图文近似度任务模块是否达到训练条件。由于图文近似度任务模块实现的任务功能，是在图文匹配任务模块实现任务功能的基础之上。因此，当图文匹配任务模块达到训练条件后，再对图文近似度任务模块进行检测，会进一步提高多模态预训练模型的训练效率。

可见，在本申请实施例中，通过将训练样本中的图片分隔成多个子图片的方式，来生成图像特征向量，相对于现有技术，通过目标检测器提取图像特征向量，所耗费的时间和资源成本更少；并且，本申请侧重于对任务模块的设计与训练，通过在多模态预训练模型中设定图文匹配任务及图文近似度任务，并在图文匹配任务及图文近似度任务模块上多次训练，直至满足训练条件停止结束，能够在减少图像特征提取时间的基础上，保证模型训练后的效果，进一步提高多模态预训练模型的训练效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。此外，术语“包括”及其变体要被解读为“包括但不限于”的开放式术语。

在一实施例中，提供一种多模态预训练模型的训练装置，该训练装置与上述实施例中多模态预训练模型的训练方法一一对应。如图6所示，该训练装置包括：获取训练样本集模块301、生成图像特征向量模块302、生成文本特征向量模块303、图文匹配任务训练模块304、第一检测模块305、图文匹配任务再次训练模块306、图文近似度任务训练模块307、第二检测模块308及图文近似度任务再次训练模块309。各功能模块详细说明如下：

确定获取训练样本集模块301：用于获取训练样本集，其中，所述训练样本集中包括多组训练样本，每一组训练样本包括：图片信息和文本信息。

生成图像特征向量模块302：用于依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量。

生成文本特征向量模块303：用于依次将训练样本中的文本通过分词的方式，生成文本特征向量。

图文匹配任务训练模块304：用于根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，其中，所述图文匹配任务模块用于预测图片信息和文本信息是否相互匹配。

第一检测模块305：用于获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件。

图文匹配任务再次训练模块306：用于如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文匹配任务模块进行再次训练，直至达到训练条件时结束训练。

图文近似度任务训练模块307：用于根据所述图像特征向量和所述文本特征向量，对图文近似度任务模块进行训练，其中，所述图文近似度任务模块用于预测图片信息和文本信息匹配的近似度。

第二检测模块308：用于获取第二检测样本集，并通过第二检测样本集判断图文近似度任务模块是否达到训练条件。

图文近似度任务再次训练模块309：用于如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文近似度任务模块进行再次训练，直至达到训练条件时结束训练。

在一种实施方式中，生成图像特征向量模块302，还用于：

将训练样本中的图片分隔成多个子图片；

获取多个子图片信息，并从多个子图片信息中分别提取多个子图像特征信息；

将多个子图像特征信息进行拼接，得到训练样本中的图片的图像特征向量。

在一种实施方式中，第一检测模块305，还用于：

依次将所述检测样本中的图片通过分隔成多个子图片的方式，生成图像特征向量；

依次将所述检测样本中的文本通过分词的方式，生成文本特征向量；

根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行检测，输出第一检测结果；

根据第一检测结果，判断图文匹配任务模块是否达到训练条件。

在一种实施方式中，第一检测模块305，还用于：

判断第一检测结果的值是否大于或等于图文匹配任务模块的第一训练通过阈值；

如果大于或等于，则说明图文匹配任务模块已经达到了训练条件，否则，说明未达到训练条件。

在一种实施方式中，第二检测模块308，还用于：

根据所述图像特征向量和所述文本特征向量，对图文近似度任务模块进行检测，输出第二检测结果；

根据第二检测结果，判断图文近似度任务模块是否达到训练条件。

在一种实施方式中，第二检测模块308，还用于：

判断第二检测结果的值是否大于或等于图文近似度任务模块的第二训练通过阈值；

如果大于或等于，则说明图文近似度任务模块已经达到了训练条件，否则，说明未达到训练条件。

本发明提供了一种多模态预训练模型的训练装置，通过将训练样本中的图片分隔成多个子图片的方式，来生成图像特征向量，相对于现有技术中，通过目标检测器提取图像特征向量，所耗费的时间和资源成本更少；并且，本申请侧重于对任务模块的设计与训练，通过在多模态预训练模型中设定图文匹配任务及图文近似度任务，并在图文匹配任务及图文近似度任务模块上多次训练，直至满足训练条件停止结束，能够在减少图像特征提取时间的基础上，保证模型训练后的效果，进一步提高多模态预训练模型的训练效率。

关于多模态预训练模型的训练装置的具体限定可以参见上文中多模态预训练模型的训练方法的限定，在此不再赘述。上述多模态预训练模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态预训练模型的训练方法的功能或步骤。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

根据所述图像特征向量和所述文本特征向量，对图文匹配任务模块进行训练，其中，所述图文匹配任务模块用于预测图片信息和文本信息是否相互匹配；

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

需要说明的是，上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤，可对应参阅前述方法实施例中的相关描述，为避免重复，这里不再一一描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种多模态预训练模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述依次将训练样本中的图片通过分隔成多个子图片的方式，生成图像特征向量，包括：

将训练样本中的图片分隔成多个子图片；

3.根据权利要求1所述的方法，其特征在于，所述第一检测样本集中包括多组检测样本，每一组检测样本包括：图片信息和文本信息，所述获取第一检测样本集，并通过第一检测样本集判断图文匹配任务模块是否达到训练条件，包括：

4.根据权利要求3所述的方法，其特征在于，所述图文匹配任务模块中预先定义了第一训练通过阈值，所述根据第一检测结果，判断图文匹配任务模块是否达到训练条件，包括：

5.根据权利要求1所述的方法，其特征在于，所述依次将训练样本中的文本通过分词的方式，生成文本特征向量之后，还包括；

根据所述图像特征向量和所述文本特征向量，对图文近似度任务模块进行训练，其中，所述图文近似度任务模块用于预测图片信息和文本信息匹配的近似度；

获取第二检测样本集，并通过第二检测样本集判断图文近似度任务模块是否达到训练条件；

如果没有达到训练条件，则对所述训练样本集进行参数更新，并对图文近似度任务模块进行再次训练，直至达到训练条件时结束训练。

6.根据权利要求5所述的方法，其特征在于，所述第二检测样本集中包括多组检测样本，每一组检测样本包括：图片信息和文本信息，所述获取第二检测样本集，并通过第二检测样本集判断图文近似度任务模块是否达到训练条件，包括：

7.根据权利要6所述的方法，其特征在于，所述图文近似度任务模块中预先定义了第二训练通过阈值，所述根据第二检测结果，判断图文近似度任务模块是否达到训练条件，包括：

8.一种多模态预训练模型的训练装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被配置为运行时执行权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括处理器和存储器，其中所述存储器中存储有计算机程序，所述处理器被配置为运行所述计算机程序以执行权利要求1至7中任一项所述的方法。