CN114118417A

CN114118417A - 一种多模态预训练方法、装置、设备及介质

Info

Publication number: CN114118417A
Application number: CN202210103823.1A
Authority: CN
Inventors: 范宝余; 李仁刚; 赵雅倩; 郭振华
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-03-01

Abstract

本申请公开了一种多模态预训练方法、装置、设备及介质，包括：将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；预设神经网络模型中包括预设的Dropout层；基于不同次的模型输出构建正样本对；基于正样本对计算训练损失，并利用训练损失更新预设神经网络模型，直到训练损失收敛，得到多模态预训练后的网络模型。这样，将多模态训练样本数据多次输入预设神经网络模型，预设神经网络模型在每次处理输入数据时，均通过Dropout层随机的对隐藏层中的部分神经元进行了删除，基于不同次的模型输出构建正样本对，针对多个模态均能够构建正样本对，更易于扩充正样本对规模，从而提升模型性能。

Description

一种多模态预训练方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种多模态预训练方法、装置、设备及介质。

背景技术

人通过视觉、听觉、嗅觉等多种模态信息了解周围世界。但当前人工智能学科的发展一定程序上可以说是模态割裂的，被细分为CV（即Computer Vision计算机视觉）、NLP（即Natural Language Processing，自然语言处理）自然语言处理、语音处理3个单模态子领域。当前人工智能与人类智能差距之一被认为是多模态信息的智能化理解。近年来，多模态智能的研究越来越得到学界的关注，随着计算机视觉和自然语言处理领域不断融合，衍生出越来越多的跨模态研究课题，例如视觉问答、视觉导航、跨模态图文检索等。从模型设计的角度，多模态智能也广泛吸纳了单模态智能的成功经验，类似于单模态任务“预训练+微调”范式（CV模型通常在ImageNet上预训练，在下游任务上微调，代表模型ResNet（即Residual Network，残差网络）；NLP任务通常在大数据语料上自监督预训练，在下游任务微调，代表模型BERT（即(Bidirectional Encoder Representations from Transformers，Transformer的双向编码器表示）、GPT（即Generative Pre-Training，生成式的预训练）），随着UNITER、LXMERT等多模态预训练模型的提出，“预训练+微调”也成为了多模态智能的主流方法。由于视觉和语言天然的语义鸿沟，如何进行模态语义对齐是多模态预训练的核心问题。对比式学习着重于学习同类实例之间的共同特征（即缩小正样本距离），区分非同类实例之间的不同之处（即扩大负样本距离）。目前主流的对比学习方法是，将输入做两种不同的数据增强变换，约束神经网络的输出特征的一致性，其中，同一个输入不同数据增强得到的两个样本构成正样本对，不同样本之间构成负样本对。对比学习对于解决多模态预训练中的跨模态语义对齐问题，具有非常大的潜力。

目前，对比学习在多模态预训练中的研究可大概分为单流（即文本和图像经过同一个编码器进行编码）和双流（即文本和图像经过不同的编码器编码）两种模式，单流以UNIMO为代表，双流以CLIP为代表。多模态预训练数据集通常以图文对的方式构建。UNIMO通过对文本进行多种方式的改写，例如回译（即将文本翻译为中间语言再翻译回来，例如英文-中文-英文）、片段改写等，生成多个文本的副本，构成多个图文对正样本。该方法仅针对文本模态进行了数据扩充，且正样本数量受限于文本改写方式多样性的限制。CLIP使用匹配的图文对作为一对正样本，不同图文对之间构成负样本。该方法正样本数量受限于多模态数据集规模，需要规模庞大的标注数据支撑。

发明内容

有鉴于此，本申请的目的在于提供一种多模态预训练方法、装置、设备及介质，针对多个模态均能够构建正样本对，更易于扩充正样本对规模，从而提升模型性能。其具体方案如下：

第一方面，本申请实施例公开了一种多模态预训练方法，包括：

将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout层；

基于不同次的所述模型输出构建正样本对；

基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。

可选的，所述基于不同次的所述模型输出构建正样本对，包括：

基于同一模态的训练样本数据对应的不同次的所述模型输出构建正样本对；

和/或，基于不同模态的训练样本数据对应的不同次的所述模型输出构建正样本对。

可选的，所述预设神经网络模型为一个编码器；

相应的，所述将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出，包括：

将多模态训练样本数据多次输入所述编码器，得到该编码器的多次输出。

可选的，所述预设神经网络模型包括不同模态对应的不同编码器；

将不同模态的训练样本数据分别多次输入不同模态各自对应的编码器，得到不同模态各自对应的编码器的多次输出。

可选的，所述预设神经网络模型包括不同模态对应的不同编码器，以及多模态对应的统一编码器；

将不同模态的训练样本数据分别多次输入不同模态各自对应的编码器，得到不同模态各自对应的编码器的多次输出；

每得到一次不同模态各自对应的编码器的输出，则将各编码器的输出均输入所述统一编码器，得到所述统一编码器的输出。

可选的，所述多模态训练样本数据包括文本训练样本数据、图像训练样本数据以及语音训练样本数据中的至少两种数据。

可选的，所述预设神经网络模型中每个隐藏层后均包括一个预设的Dropout层。

第二方面，本申请公开了一种多模态预训练装置，包括：

模型输出获取模块，用于将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout层；

正样本对构建模块，用于基于不同次的所述模型输出构建正样本对；

模型更新模块，用于基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。

第三方面，本申请公开了一种电子设备，包括处理器和存储器；其中，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序以前述的多模态预训练方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的多模态预训练方法。

可见，本申请将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout层，然后基于不同次的所述模型输出构建正样本对，并基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。也即，本申请在预设神经网络模型中预设了Dropout层，将多模态训练样本数据多次输入预设神经网络模型，预设神经网络模型在每次处理输入数据时，均通过Dropout层随机的对隐藏层中的部分神经元进行了删除，相当于通过多次Dropout实现了多个相似的模型，这样，基于不同次的模型输出构建正样本对，针对多个模态均能够构建正样本对，更易于扩充正样本对规模，从而提升模型性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种多模态预训练方法流程图；

图2为本申请公开的一种具体的Dropout示意图；

图3为本申请公开的一种具体的单流多模态预训练比对学习示意图；

图4为本申请公开的一种具体的多流多模态预训练对比学习示意图；

图5为本申请公开的一种具体的混流多模态预训练比对学习示意图；

图6为本申请公开的一种多模态预训练装置结构示意图；

图7为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，对比学习在多模态预训练中的研究可大概分为单流和双流两种模式，单流以UNIMO为代表，双流以CLIP为代表。多模态预训练数据集通常以图文对的方式构建。UNIMO通过对文本进行多种方式的改写，例如回译、片段改写等，生成多个文本的副本，构成多个图文对正样本。该方法仅针对文本模态进行了数据扩充，且正样本数量受限于文本改写方式多样性的限制。CLIP使用匹配的图文对作为一对正样本，不同图文对之间构成负样本。该方法正样本数量受限于多模态数据集规模，需要规模庞大的标注数据支撑。为此，本申请提供了一种多模态预训练方案，针对多个模态均能够构建正样本对，更易于扩充正样本对规模，从而提升模型性能。

参见图1所示，本申请实施例公开了一种多模态预训练方法，包括：

步骤S11：将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout（即正则化）层。

在具体的实施方式中，所述多模态训练样本数据包括文本训练样本数据、图像训练样本数据以及语音训练样本数据中的至少两种数据。

进一步的，在一些实施例中，所述预设神经网络模型中每个隐藏层后均包括一个预设的Dropout层。在另一些实施例中，所述预设神经网络模型中指定的一个或者多个隐藏层后包括预设的Dropout层。

并且，在具体的实施方式中，可以确定Dropout比例，Dropout层基于Dropout比例进行Dropout处理，随机的删除隐藏层的神经元。例如，参见图2所示，图2为本申请实施例提供的一种具体的Dropout示意图。图中虚线圆表示Dropout处理删除的隐藏层神经元。

在第一种实施方式中，所述预设神经网络模型为一个编码器；相应的，所述将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出，包括：将多模态训练样本数据多次输入所述编码器，得到该编码器的多次输出。

也即，本申请实施例可以适用于单流多模态预训练比对学习，在具体的实施方式中，可以对不同模态的原始数据进行token化处理，得到不同模态的token化数据；将所述不同模态的token化数据拼接，得到多模态训练样本数据；将所述多模态训练样本数据多次输入所述编码器。

在第二种实施方式中，所述预设神经网络模型包括不同模态对应的不同编码器；相应的，所述将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出，包括：将不同模态的训练样本数据分别多次输入不同模态各自对应的编码器，得到不同模态各自对应的编码器的多次输出。

也即，本申请实施例可以适用于多流多模态预训练比对学习，在具体的实施方式中，所述将多模态训练样本数据多次输入预设神经网络模型，包括：

对不同模态的原始数据进行token化处理，得到不同模态的token化数据；将所述不同模态的token化数据分别多次输入各自对应的编码器。

在第三种实施方式中，所述预设神经网络模型包括不同模态对应的不同编码器，以及多模态对应的统一编码器；相应的，所述将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出，包括：将不同模态的训练样本数据分别多次输入不同模态各自对应的编码器，得到不同模态各自对应的编码器的多次输出；每得到一次不同模态各自对应的编码器的输出，则将各编码器的输出均输入所述统一编码器，得到所述统一编码器的输出。

也即，本申请实施例可适用于混流多模态比对学习，在具体的实施方式中，所述将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出，包括：对不同模态的原始数据进行token化处理，得到不同模态的token化数据；将所述不同模态的token化数据分别多次、依次输入各自对应的编码器以统一编码器。

步骤S12：基于不同次的所述模型输出构建正样本对。

在第一种实施方式中，可以基于同一模态的训练样本数据对应的不同次的所述模型输出构建正样本对。

例如，正样本对可以为文本训练样本数据对应的不同次的模型输出、语音训练样本数据对应的不同次的模型输出、图像训练样本数据对应的不同次的模型数据。

在第二种实施方式中，可以基于不同模态的训练样本数据对应的不同次的所述模型输出构建正样本对。

例如，正样本对可以为文本训练样本以及语音训练样本数据对应的不同的模型输出。

在第三种实施方式中，可以基于同一模态的训练样本数据对应的不同次的所述模型输出构建正样本对、以及基于不同模态的训练样本数据对应的不同次的所述模型输出构建正样本对。

例如，参见图3所示，图3为本申请实施例公开的一种单流多模态预训练比对学习示意图。本申请可以获取训练数据集，训练数据集中任一多模态训练样本数据为包括文本训练样本数据、图像训练样本数据以及语音训练样本数据的训练样本数据组，如图3所示，编码器的输入数据中，文本中的任一正方形表示一个文本训练样本数据、图像中的任一正方形表示一个图像训练样本数据、语音中的任一正方形表示一个语音训练样本数据。文本、图像、语音中第一个样本数据组成的样本数据组表示一个多模态训练样本数据，文本、图像、语音中第二个样本、第三个样本、第四个样本数据以此类推。图3中Dropout-1、Dropout-2、Dropout-3…Dropout-N表示N次Dropout构建的N个子网络，可以理解的是，Dropout层对神经元的删除是随机的，所以多次输入多模态训练样本数据相当于构建了多个相似的子网络。需要指出的是，传统单流多模态预训练方法通过将文本、图像Token化后拼接到一起输入共同的编码器，通过对比学习约束输出一致性，实现视觉语言跨模态预训练。本申请可以将输入模态扩充为文本、图像、语音，当然在另外一些实施方式中，任意两模态可随机组合构成两模态预训练模型，例如文本-语音、图像-语音等，然后通过多次Dropout构建N个模型子网络，由于该方案可同时作用于所有模态，所以，在传统对比学习基础上（图3中原始跨模态正样本对为基于传统比对学习构建的正样本对），本申请还可以额外构建：跨子网络文本正样本对：不同子网络对应文本Token；跨子网络图像正样本对：不同子网络对应图像Token；跨子网络语音正样本对：不同子网络对应语音Token；跨子网络跨模态正样本对：不同子网络不同模态对应Token，任意两子网络、任意两模态随机组合，构成跨子网络跨模态互学习。

例如，参见图4所示，图4为本申请实施例公开的一种具体的多流多模态预训练对比学习示意图。本申请可以获取训练数据集，训练数据集中任一多模态训练样本数据为包括文本训练样本数据、图像训练样本数据以及语音训练样本数据的训练样本数据组，如图4所示，各编码器的输入数据中，文本中的任一正方形表示一个文本训练样本数据、图像中的任一正方形表示一个图像训练样本数据、语音中的任一正方形表示一个语音训练样本数据。文本、图像、语音中第一个样本数据组成的样本数据组表示一个多模态训练样本数据，文本、图像、语音中第二个样本、第三个样本、第四个样本数据以此类推。图4中Dropout-1、Dropout-2、Dropout-3…Dropout-N表示N次Dropout构建的N个子网络，可以理解的是，Dropout层对神经元的删除是随机的，所以多次输入多模态训练样本数据相当于构建了多个相似的子网络。需要指出的是，

传统双流多模态预训练方法通过将文本、图像Token化后各自经过独立编码器，约束输出一致性，实现视觉语言跨模态预训练。本本申请将输入模态扩充为文本、图像、语音，当然在另外一些实施方式中，任意两模态可随机组合构成两模态预训练模型，例如文本-语音、图像-语音等，然后通过多次 Dropout构建N个模型子网络，由于该方案可同时作用于所有模态，所以，在传统对比学习基础上（图4中原始跨模态正样本对为基于传统比对学习构建的正样本对），本申请还可以额外构建：跨子网络文本正样本对：不同子网络对应文本Token；跨子网络图像正样本对：不同子网络对应图像Token；跨子网络语音正样本对：不同子网络对应语音Token；跨子网络跨模态正样本对：不同子网络不同模态对应Token，任意两子网络、任意两模态随机组合，构成跨子网络跨模态互学习。

例如，参见图5所示，图5为本申请实施例公开的一种混流多模态预训练比对学习示意图。本申请可以获取训练数据集，训练数据集中任一多模态训练样本数据为包括文本训练样本数据、图像训练样本数据以及语音训练样本数据的训练样本数据组，如图5所示，编码器的输入数据中，文本中的任一正方形表示一个文本训练样本数据、图像中的任一正方形表示一个图像训练样本数据、语音中的任一正方形表示一个语音训练样本数据。文本、图像、语音中第一个样本数据组成的样本数据组表示一个多模态训练样本数据，文本、图像、语音中第二个样本、第三个样本、第四个样本数据以此类推。图5中Dropout-1、Dropout-2、Dropout-3…Dropout-N表示N次Dropout构建的N个子网络，可以理解的是，Dropout层对神经元的删除是随机的，所以多次输入多模态训练样本数据相当于构建了多个相似的子网络。本申请提出的对比学习方法还可以扩展到目前尚没有相关对比学习研究工作的混合多流多模态预训练模型中。传统混合双流多模态预训练方法通过将文本、图像Token化后各自经过独立编码器，然后再将输出拼接到一起输入到一个统一的多模态编码器中，实现视觉语言跨模态预训练。本申请首先将输入模态扩充为文本、图像、语音，当然在另一些实施例中，任意两模态可随机组合构成两模态预训练模型，例如文本-语音、图像-语音等，然后通过多Dropout构建N个模型子网络，由于该方法可同时作用于所有模态，所以，在传统对比学习基础上（图5中原始跨模态正样本对为基于传统比对学习构建的正样本对），本申请还可以额外构建：跨子网络文本正样本对：不同子网络对应文本Token；跨子网络图像正样本对：不同子网络对应图像Token；跨子网络语音正样本对：不同子网络对应语音Token；跨子网络跨模态正样本对：不同子网络不同模态对应Token，任意两子网络、任意两模态随机组合，构成跨子网络跨模态互学习。

也即，本申请提供的方案，可以通过拼接语音Token或添加语音编码器，能够构建图像、文本、语音三模态学习，并且，通过多次Dropout构建多个多模态预训练模型子网络，在传统对比学习基础，额外构建跨子网络文本正样本对、跨子网络图像正样本对、跨子网络语音正样本对、跨子网络跨模态正样本对，并且，跨子网络跨模态正样本对构建过程中，通过不同子网络不同模态对应Token，任意两子网络、任意两模态随机组合，构成跨子网络跨模态互学习。并且，本申请可以适用于单流多模态预训练、多流多模态预训练、混合多流多模态预训练。

步骤S13：基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。

在具体的实施方式中，本实施例利用对比学习损失函数，并基于所述正样本对计算训练损失。其中，采用的对比学习损失函数可兼容目前所有传统对比学习损失函数，包括但不限于InfoNCE、KL散度等。

并且，基于本申请提供的多模态预训练方案，可兼容目前所有传统多模态预训练任务，此外，还可以在原始多模态预训练任务的基础上，增加跨子网络的互学习任务，例如，跨模态图文匹配、音文匹配、跨模态问答等。

例如，多模态训练样本数据包括文本训练样本数据和语音训练样本数据，将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出基于不同次的所述模型输出构建正样本对；基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型，在模型应用阶段，当获取到文本数据，则利用该多模态预训练后的网络模型输出该文本数据对应的语音。

可见，本申请实施例将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout层，然后基于不同次的所述模型输出构建正样本对，并基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。也即，本申请在预设神经网络模型中预设了Dropout层，将多模态训练样本数据多次输入预设神经网络模型，预设神经网络模型在每次处理输入数据时，均通过Dropout层随机的对隐藏层中的部分神经元进行了删除，相当于通过多次Dropout实现了多个相似的模型，这样，基于不同次的模型输出构建正样本对，针对多个模态均能够构建正样本对，更易于扩充正样本对规模，从而提升模型性能。

参见图6所示，本申请实施例公开了一种多模态预训练装置，包括：

模型输出获取模块11，用于将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout层；

正样本对构建模块12，用于基于不同次的所述模型输出构建正样本对；

模型更新模块13，用于基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。

可见，本申请实施例将多模态训练样本数据多次输入预设神经网络模型，得到所述多模态训练样本数据对应的多次模型输出；其中，所述预设神经网络模型中包括预设的Dropout层，然后基于不同次的所述模型输出构建正样本对，并基于所述正样本对计算训练损失，并利用所述训练损失更新所述预设神经网络模型，直到所述训练损失收敛，得到多模态预训练后的网络模型。也即，本申请在预设神经网络模型中预设了Dropout层，将多模态训练样本数据多次输入预设神经网络模型，预设神经网络模型在每次处理输入数据时，均通过Dropout层随机的对隐藏层中的部分神经元进行了删除，相当于通过多次Dropout层实现了多个相似的模型，这样，基于不同次的模型输出构建正样本对，针对多个模态均能够构建正样本对，更易于扩充正样本对规模，从而提升模型性能。

在具体的实施方式中，正样本对构建模块12，具体用于基于同一模态的训练样本数据对应的不同次的所述模型输出构建正样本对；和/或，基于不同模态的训练样本数据对应的不同次的所述模型输出构建正样本对。

在第一种具体的实施方式中，所述预设神经网络模型为一个编码器；

相应的，所述模型输出获取模块11，具体用于将多模态训练样本数据多次输入所述编码器，得到该编码器的多次输出。

在第二种具体的实施方式中，所述预设神经网络模型包括不同模态对应的不同编码器；

相应的，所述模型输出获取模块11，具体用于将不同模态的训练样本数据分别多次输入不同模态各自对应的编码器，得到不同模态各自对应的编码器的多次输出。

在第三种具体的实施方式中，所述预设神经网络模型包括不同模态对应的不同编码器，以及多模态对应的统一编码器；

相应的，所述模型输出获取模块11，具体用于将不同模态的训练样本数据分别多次输入不同模态各自对应的编码器，得到不同模态各自对应的编码器的多次输出；每得到一次不同模态各自对应的编码器的输出，则将各编码器的输出均输入所述统一编码器，得到所述统一编码器的输出。

其中，所述多模态训练样本数据包括文本训练样本数据、图像训练样本数据以及语音训练样本数据中的至少两种数据。

在一种实施方式中，所述预设神经网络模型中每个隐藏层后均包括一个预设的Dropout层。

参见图7所示，本申请实施例公开了一种电子设备20，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，前述实施例公开的多模态预训练方法。

关于上述多模态预训练方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

并且，所述存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26；其中，所述电源23用于为所述电子设备20上的各硬件设备提供工作电压；所述通信接口24能够为所述电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的多模态预训练方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种多模态预训练方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多模态预训练方法，其特征在于，包括：

基于不同次的所述模型输出构建正样本对；

2.根据权利要求1所述的多模态预训练方法，其特征在于，所述基于不同次的所述模型输出构建正样本对，包括：

3.根据权利要求1所述的多模态预训练方法，其特征在于，所述预设神经网络模型为一个编码器；

4.根据权利要求1所述的多模态预训练方法，其特征在于，所述预设神经网络模型包括不同模态对应的不同编码器；

5.根据权利要求1所述的多模态预训练方法，其特征在于，所述预设神经网络模型包括不同模态对应的不同编码器，以及多模态对应的统一编码器；

6.根据权利要求1所述的多模态预训练方法，其特征在于，所述多模态训练样本数据包括文本训练样本数据、图像训练样本数据以及语音训练样本数据中的至少两种数据。

7.根据权利要求1至6任一项所述的多模态预训练方法，其特征在于，所述预设神经网络模型中每个隐藏层后均包括一个预设的Dropout层。

8.一种多模态预训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和存储器；其中，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序以实现如权利要求1至7任一项所述的多模态预训练方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多模态预训练方法。