CN113591902A

CN113591902A - 基于多模态预训练模型的跨模态理解与生成方法和装置

Info

Publication number: CN113591902A
Application number: CN202110653593.1A
Authority: CN
Inventors: 刘静; 朱欣鑫; 刘飞; 郭龙腾
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-11-02
Anticipated expiration: 2041-06-11
Also published as: CN113591902B

Abstract

本发明提供一种基于多模态预训练模型的跨模态理解与生成方法和装置，方法包括：确定待处理的多模态信息，多模态信息包括图像、文本和音频；将多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到多模态信息的融合表示，将融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果。本发明提供的方法和装置，结合图像、文本和音频三个模态进行理解与生成，实现了信息的充分应用。跨模态理解和跨模态生成两个任务的结合，使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建，从而进一步提高跨模态理解与生成的准确性。

Description

基于多模态预训练模型的跨模态理解与生成方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于多模态预训练模型的跨模态理解与生成方法和装置。

背景技术

多模态预训练是一个跨越多个领域、涉及多种模态信息的交叉学科。该任务旨在大规模训练一个统一框架，从而实现各种跨模态理解与生成任务，比如图像识别、图像生成、视觉问答、文本生成等。

目前在进行多模态预训练时，常见的方法和框架多只考虑单个模态或者两个模态，例如图像和文本，又例如视频和文本，极容易忽略周围环境中普遍存在的其他信息，影响跨模态理解和生成的效果。且目前的多模态通常只关注跨模态理解，或者只关注跨模态生成，若要实现跨模态理解和生成通常需要训练两个相互独立框架，导致了大量的计算资源和时间成本的损失。

发明内容

本发明提供一种基于多模态预训练模型的跨模态理解与生成方法和装置，用以解决现有的跨模态理解与生成的问题。

本发明提供一种基于多模态预训练模型的跨模态理解与生成方法，包括：

确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；

将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；

所述理解和/或生成单元包括理解模块和生成模块，其中所述理解模块基于所述融合表示执行跨模态理解任务，所述生成模块基于所述融合表示执行跨模态生成任务。

根据本发明提供的一种基于多模态预训练模型的跨模态理解与生成方法，所述将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果，包括：

将所述图像、文本和音频输入至所述多模态预训练模型的单模态编码器，得到所述单模态编码器输出的图像特征、文本特征和音频特征；

将所述图像特征、文本特征和音频特征输入至所述多模态预训练模型的跨模态编码器，得到所述跨模态编码器输出的融合表示，所述融合表示是基于所述图像特征、文本特征和音频特征之间的跨模态关联确定的；

将所述融合表示输入至所述理解模块，得到所述理解模块输出的理解结果，和/或，将所述融合表示输入至所述生成模块，得到所述生成模块输出的生成结果。

根据本发明提供的一种基于多模态预训练模型的跨模态理解与生成方法，所述多模态预训练模型是基于元素级建模、模态级建模和样本级建模中的至少一种训练得到的；

所述元素级建模是基于样本多模态信息中任一元素掩盖模态信息和其他完整模态信息，预测所述任一元素掩盖模态信息中被掩盖的元素；

所述模态级建模是基于样本多模态信息中的两种完整模态信息，重构与所述两种完整模态信息相匹配的第三种模态信息；

所述样本级建模是基于随机组合的三种模态信息，预测所述三种模态信息之间的匹配关系。

根据本发明提供的一种基于多模态预训练模型的跨模态理解与生成方法，所述元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模中的至少一种；

所述掩盖文本建模的目标函数是基于被掩盖的文本元素和预测所得的文本元素确定的；

所述掩盖图像建模的目标函数是基于被掩盖的图像元素和预测所得的图像元素的特征和分类确定的；

所述掩盖音频建模的目标函数是基于被掩盖的音频元素和预测所得的音频元素的特征之差和相似性确定的。

根据本发明提供的一种基于多模态预训练模型的跨模态理解与生成方法，所述模态级建模包括文本重构和/或图像重构；

所述文本重构的目标函数是基于重构文本和样本文本确定的；

所述图像重构的目标函数是基于重构图像和样本图像确定的。

根据本发明提供的一种基于多模态预训练模型的跨模态理解与生成方法，所述样本级建模的目标函数是基于预测所得匹配关系和所述随机组合的三种模态信息的实际匹配关系确定的。

根据本发明提供的一种基于多模态预训练模型的跨模态理解与生成方法，所述理解和/或生成单元用于图像分类、语义理解、语音识别、以图搜文、以文搜图、视觉问答中的至少一种。

本发明还提供一种基于多模态预训练模型的跨模态理解与生成装置，包括：

多模态确定单元，用于确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；

多模态预训练单元，用于将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示；

任务执行单元，用于将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述基于多模态预训练模型的跨模态理解与生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于多模态预训练模型的跨模态理解与生成方法的步骤。

本发明提供的基于多模态预训练模型的跨模态理解与生成方法和装置，通过多模态预训练模型，结合图像、文本和音频三个模态进行理解与生成，实现了信息的充分应用，有助于提高跨模态理解与生成的可靠性和准确性。跨模态理解和跨模态生成两个任务的结合，使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建，从而进一步提高跨模态理解与生成的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于多模态预训练模型的跨模态理解与生成方法的流程示意图；

图2是本发明提供的图像解码器的结构示意图；

图3是本发明提供的多模态预训练模型的建模示意图；

图4是本发明提供的基于多模态预训练模型的跨模态理解与生成装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

多模态预训练是指在大规模的多模态数据集上训练一个通用模型，然后只需要甚至不需要微调便能处理各种下游的跨模态任务。在自然语言处理领域，基于Transformer模型架构的预训练实现了巨大的成功。随后，该研究范式被引入到多模态领域。当前涌现出许多工作，提出各种多模态预训练方法。然而这些工作存在两个缺陷。第一，当前的工作只考虑视觉和文本两种模态，忽视了普遍存在的音频信息；第二，当前的工作要么只关注多模态理解任务，要么只关注跨模态生成任务，无法联合地处理这两类不同任务。为了解决上述缺陷，本发明实施例提供了一种跨模态理解与生成方法。

图1是本发明提供的基于多模态预训练模型的跨模态理解与生成方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待处理的多模态信息，多模态信息包括图像、文本和音频。

具体地，待处理的多模态信息即需要进行跨模态理解和/或跨模态生成的信息，多模态信息包含三种模态的信息，分别是图像、文本和音频。多模态信息中的图像、文本和音频是相互匹配的，例如一组多模态信息中的图像中包含了蓝天、白云、草地、小狗等目标，文本是“天气晴朗，小狗在草地上玩耍”，音频是小狗的叫声。

步骤120，将所述多模态信息输入至多模态预训练模型，学习多模态信息的相互关联，得到多模态信息的融合表示。

步骤130，将融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；

理解和/或生成单元包括理解模块和生成模块，其中理解模块基于融合表示执行跨模态理解任务，生成模块基于融合表示执行跨模态生成任务。

具体地，基于多模态预训练的跨模态理解与生成，可以通过多模态预训练模型和理解和/或生成单元实现。

其中，多模态预训练模型不同于通常所见的在视觉和文本上进行跨模态的模型，在关注视觉模态和文本模态的同时，还考虑了普遍存在周围环境中的音频模态，从而实现了信息的充分应用，有助于提高多模型信息特征提取的全面充分，从而提高跨模态理解和生成的可靠性和准确性。此处，多模态预训练模型不仅需要提取输入的多模态信息中图像、文本和音频各自的特征，还需要在此基础上，学习图像、文本和音频各自的特征之间的相互关联，进而对图像、文本和音频各自的特征之间的关联性进行编码，从而得到既能够反映图像、文本和音频各模态的特征、又能够反映图像、文本和音频之间跨模态的关联性的特征，即融合表示。

理解和/或生成单元可以是将跨模态理解与跨模态生成一体化的模型结构，具体包括分别用于实现跨模态理解的理解模块和/或用于实现跨模态生成的生成模块。

经由多模态预训练模型提取编码所得的融合表示，既作为理解模块的输入，也作为生成模块的输入：理解模块可以基于输入的融合表示，执行跨模态理解任务，此处的跨模态理解任务可以是图像分类、语义理解、语音识别、以图搜文、以文搜图和视觉问答中的一种或者多种；生成模块可以基于输入的融合表示，执行跨模态生成任务，此处的跨模态生成任务可以是图像生成任务，也可以是文本生成任务，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过多模态预训练模型，结合图像、文本和音频三个模态进行理解与生成，实现了信息的充分应用，有助于提高跨模态理解与生成的可靠性和准确性。跨模态理解和跨模态生成两个任务的结合，使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建，从而进一步提高跨模态理解与生成的准确性。

基于上述实施例，多模态预训练模型包括单模态编码器和跨模态编码器，其中单模态编码器用于针对单个模态的输入进行特征编码，跨模态编码器用于在各个单模态编码的基础上进行跨模态的关联性编码。

相应地，步骤120和步骤130包括：

步骤121，将图像、文本和音频输入至多模态预训练模型的单模态编码器，得到单模态编码器输出的图像特征、文本特征和音频特征。

此处，单模态编码器可以包含图像编码器、文本编码器和音频编码器，图像编码器用于对输入的图像进行特征编码并输出图像特征，文本编码器用于对输入的文本进行特征编码并输出文本特征，音频编码器用于对输入的音频进行特征编码并输出音频特征。上述三个单模态的编码器相互之间不存在关联，仅用于编码各自对应模态的特征。

需要说明的是，图像编码器、文本编码器和音频编码器均可以采用目前对应模态下成熟的特征编码结构实现，本发明实施例对不作具体限定。

进一步地，图像编码器可以使用在Visual Genome数据集上预训练好的Faster R-CNN来从图像中提取各个目标区域的目标区域特征和位置坐标信息，然后将目标区域特征和位置坐标信息通过两个线性层映射到同一空间，再相加得到最终的图像特征。文本编码器可以使用可学习的word embedding来提取文本中每个单词的特征表示，然后将各个单词的特征表示与各个单次在文本中的位置特征相加得到最终的文本特征。音频编码器可以使用预训练的wav2vec 2.0框架来得到音频特征。

步骤122，将图像特征、文本特征和音频特征输入至多模态预训练模型的跨模态编码器，得到跨模态编码器输出的融合表示，融合表示是基于图像特征、文本特征和音频特征之间的跨模态关联确定的。

具体地，跨模态编码器用于提取并编码图像特征、文本特征和音频特征之间的关联，从而得到融合表示。融合表示的提取和编码可以通过跨模态编码器内置的注意力机制实现，例如跨模态编码器可以基于Transformer的编码器(Transformer Encoder)来建模不同模态之间的关联，Transformer Encoder是由多个层堆叠而成的，每层均包含多头注意力机制(multi-head attention)和前馈神经网络(feed-forward network)两个主要组件，其中多头注意力机制可以建立任意位置上的元素之间的关联，具有高度的灵活性；而前馈神经网络能使特征进一步非线性化。

步骤130，将融合表示输入至理解模块，得到理解模块输出的理解结果，和/或，将融合表示输入至生成模块，得到生成模块输出的生成结果。

具体地，在得到融合表示之后，即可将融合表示输入到理解模块，由理解模型针对融合表示进行跨模态理解，从而输出理解结果；也可将融合表示输入到生成模块，由生成模态针对融合表示进行跨模态生成，从而输出生成结果。

进一步地，生成模块可以包括文本解码器和/或图像解码器，其中文本解码器可以用于执行文本重构任务，将融合表示输入到文本解码器之后，即可由文本解码器基于融合表示进行文本重构，此处文本解码器可以使用基于Transformer的解码器(TransformerDecoder)的结构，Transformer Decoder包含带有掩码的多头注意力机制和前馈神经网络，可以在此基础上通过自回归的方式来重构文本；

图像解码器可以用于执行图像重构任务，将融合表示输入到图像解码器之后，即可由图像解码器基于融合表示进行图像重构。此处图像解码器可以使用如图2所示的结构，图像解码器可以包括Transformer decoder和预训练的离散变分自编码器(dVAE)，首先通过Transformer decoder将融合表示解码成为图像中各个区域的类别(image code)，然后在embedding空间中查找各类别对应的特征，从而得到映射到embedding空间的重构图像特征，随后将重构图像特征送入dVAE解码器，通过在dVAE解码器中进行上采样来恢复图像的原始分辨率，从而得到重构图像。图2中的空白图块用于表示在embedding空间中查找各类别对应的特征以获取重构图像特征的过程。

基于上述任一实施例，在执行步骤120之前，需要预先训练多模态预训练模型。本发明实施例中，多模态预训练模型的训练可以从元素级、模态级和样本级三个不同层级中的至少一个维度上执行，此处三个不同层级上的训练分别是元素级建模(Token-LevelModeling)、模态级建模(Modality-Level Modeling)和样本级建模(Sample-LevelModeling)。

本发明实施例提供的方法，通过三级预训练，使得多模态预训练模型能够更好地理解不同模态的语义以及它们之间的对应关系，同时也使多模态预训练模型具有处理各种下游任务的能力，包括理解和生成任务。

基于上述任一实施例，元素级建模是基于样本多模态信息中任一元素掩盖模态信息和其他完整模态信息，预测该元素掩盖模态信息中被掩盖的元素。

具体地，元素指的是单个模态信息中的部分信息。对应到图像、文本和音频三种模态中，分别可以是图像中的一个或多个目标区域，文本中的一个或多个单词，音频中的一帧或多帧信息。元素级建模，是针对于作为样本的多模态信息，即样本多模态信息的三种模态中，将其中任意一种模态信息的部分元素掩盖起来，以构成元素掩盖模态信息，并且保留三种模态中另外两种模态的完整模态信息，通过元素掩盖模态信息和另外两种模态的完整模态信息，预测元素掩盖模态信息中被掩盖的元素。

进一步地，元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模中的至少一种。

其中，掩盖文本建模是指对样本多模态信息中的文本的部分元素进行掩盖，得到元素掩盖文本，并且保留样本多模态信息中完整的图像和音频。在此基础上，应用多模态预训练模型，基于元素掩盖文本和完整的图像、音频，预测文本中被掩盖的元素。

掩盖文本建模的目标函数即基于被掩盖的文本元素和预测所得的文本元素确定的，其中被掩盖的文本元素即元素掩盖文本被掩盖的部分，预测所得的文本元素即通过掩盖文本建模预测所得的文本元素，建模目标在于使得被掩盖的文本元素和预测所得的文本元素尽量相同。

掩盖文本建模的目标函数

可以通过负对数似然得到：

其中，T_m是被掩盖的文本单词，即被掩盖的文本元素，T_\m是未被掩盖的文本单词，即元素掩盖文本，V是图像模态，A是音频模态，D是数据集，θ是模型参数，P_θ(T_m|T_\m，V，A)是多模态预训练模型，

是平均期望，即对目标函数值在整个数据集上求取平均。

掩盖图像建模是指对样本多模态信息中的图像的部分目标区域进行掩盖，得到元素掩盖图像，并且保留样本多模态信息中完整的文本和音频。在此基础上，应用多模态预训练模型，基于元素掩盖图像和完整的文本、音频，预测图像中被掩盖的元素。

掩盖图像建模的目标函数即基于被掩盖的图像元素和预测所得的图像元素确定的，其中被掩盖的图像元素即元素掩盖图像被掩盖的部分目标区域，预测所得的图像元素即通过掩盖图像建模预测所得的图像目标区域，建模目标在于使得被掩盖的图像元素和预测所得的图像元素尽量相同。

掩盖图像建模的目标函数

可以定义为：

其中，V_m是被掩盖的图像区域，V_\m是未被掩盖的图像区域，即元素掩盖图像，T是文本模态，A是音频模态。f_θ(V_m|T，V_\m，A)为掩盖图像的目标函数。

进一步地，掩盖图像建模在比较被掩盖的图像元素和预测所得的图像元素时，既考虑两者的特征是否相似，也考虑两者所属的类型是否相似。因此，上述目标函数

可以具体化为两个子目标，分别为掩盖图像特征回归和掩盖区域分类。掩盖图像特征回归的目标函数可以是L2回归损失(L2 regression loss)，被定义为如下：

其中，h_θ为跨模态编码器的输出，h_θ(V_m)是预测所得的图像元素的特征。

掩盖区域分类的目标函数被定义为如下：

其中，CE(·)表示交叉熵损失(cross-entropy loss)，g_θ(·)表示跨模态编码器的输出，gt(·)表示ground-truth类别标签。

掩盖音频建模是指对多模态信息中的音频的部分音频元素进行掩盖，得到元素掩盖音频，并且保留样本多模态信息中完整的文本和图像。在此基础上，应用多模态预训练模型，基于元素掩盖音频和完整的文本、图像，预测音频中被掩盖的元素。

掩盖音频建模的目标函数即基于被掩盖的音频元素和预测所得的音频元素确定的，其中被掩盖的音频元素即元素掩盖音频被掩盖的部分，预测所得的音频元素即通过掩盖音频建模预测所得的音频元素，建模目标在于使得被掩盖的音频元素和预测所得的音频元素尽量相同。

掩盖音频建模的目标函数

可以定义为：

其中，A_m是被掩盖的音频元素，A_\m是未被掩盖的音频元素，即元素掩盖音频，f_θ(A_m|T，V，A_\m)为掩盖音频的目标函数。

进一步地，掩盖音频建模在比较被掩盖的音频元素和预测所得的音频元素时，既考虑两者的特征之间的差距，也考虑两者的特征之间的相似程度。

相应地，掩盖音频建模的目标函数可以基于被掩盖的音频元素和预测所得的音频元素的特征之差和相似性确定。因此，上述目标函数

可以具体化为两个子目标，分别为掩盖音频特征回归和对比学习损失。掩盖音频特征回归的目标是最小化预测所得的音频元素的特征特征和被掩盖的音频元素的特征之间的L2回归损失，被定义如下：

其中，h_θ为跨模态编码器的输出，h_θ(A_m)是预测所得的音频元素的特征。

对比学习损失被定义为如下：

其中，sim(·，·)表示cosine相似度。

基于上述任一实施例，模态级建模是基于样本多模态信息中的两种完整模态信息，重构/生成与两种完整模态信息相匹配的第三种模态信息。

具体地，样本多模态信息中共包含三种模态信息，在进行模态级建模时，可以随机掩盖样本多模态信息中的一种模态信息，通过剩余的两种模态信息，重构或者生成被掩盖的模态信息。

进一步地，模态级建模包括文本重构和/或图像重构。

其中，文本重构是指基于样本多模态信息中的图像模态和音频模态，重构样本模态信息中与图像模态和音频模态相匹配的文本。文本重构的目标函数是基于重构文本和样本文本确定的，其中重构文本即基于多模态预训练模型和生成模块进行文本重构得到的文本模态，样本文本即与样本多模态信息中的图像模态和音频模态相匹配的文本，样本文本可以是样本多模态信息中被掩盖的文本。

文本重构可以使用基于Transformer decoder，以自回归的方式生成文本序列。目标函数

可以是负对数似然(negative log-likelihood)，定义如下：

其中，

表示已重构的部分文本，

表示即将重构的剩余文本部分。P_θ为似然函数。

图像重构是指基于样本多模态信息中的文本模态和音频模态，重构样本模态信息中与文本模态和音频模态相匹配的图像。图像重构的目标函数是基于重构图像和样本图像确定的，其中重构图像即基于多模态预训练模型和生成模块进行图像重构得到的图像模态，样本图像即与样本多模态信息中的文本模态和音频模态相匹配的图像，样本图像可以是样本多模态信息中被掩盖的图像。

图像重构可以采用Transformer decoder和dVAE实现。dVAE包括编码器和解码器两部分。具体实现可以采用两阶段训练方式，首先单独训练dVAE，然后再训练Transformer解码器。具体重构过程中，用自回归的方式训练Transformer解码器，使之生成图像索引序列。根据图像索引找到对应的图像特征，将图像特征送入dVAE的解码器来恢复原始分辨率。图像重构的目标函数

如下：

其中，

表示已重构的部分图像，

表示即将重构的剩余图像部分。

基于上述任一实施例，样本级建模是基于随机组合的三种模态信息，预测三种模态信息之间的匹配关系。

具体地，不同于样本多模态信息中的三种模态信息之间相互匹配，样本级建模是随机组合不同样本多模态信息中的三种模态信息，并通过多模态预训练模型判断一同输入的三种模态信息之间是否相互匹配，即三种模态信息是否来自同一样本多模态信息。

针对每一个样本多模态信息，可以随机地替换其中一种或两种模态信息，然后模型需要预测具体哪个模态被替换掉。一共会产生五种情况：(1)只有图像不匹配；(2)只有文本不匹配；(3)只有音频不匹配；(4)三者都不匹配；(5)三者都匹配，即没有模态被取代。

样本级建模任务可以选取多模态预训练模型的跨模态编码器中对应第一个单词([CLS]类别单词)的输出作为三个模态的联合表示，然后送入分类器来预测属于哪一种情况。目标函数

是基于预测所得匹配关系和随机组合的三种模态信息的实际匹配关系确定的，具体可以是交叉熵损失，被定义如下：

其中，BCE(·，·)表示二值交叉熵损失(binary cross-entropy loss)，s_θ(T，V，A)表示预测所得的匹配分数，gt(T，V，A)表示ground-truth标签，即随机组合的三种模态信息的实际匹配关系。

基于上述任一实施例，图3是本发明提供的跨模态理解与生成模型的建模示意图，如图3所示，跨模态理解与生成模型包括多模态预训练模型与理解和/或生成单元。元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模，元素级建模是应用三种单模态编码器，以及跨模态编码器实现的。元素级掩盖下，输入的文本可以是“a[MASK]skiing onski boards”，输入的图像可以是图像中各个目标区域和被掩盖的区域，输入的音频可以是各帧音频以及被掩盖的部分音频，其中被掩盖的部分均可以通过[MASK]表示。在此基础上，结合多模态预训练模型中的单模态编码器和跨模态编码器，即可实现掩盖文本建模、掩盖图像建模和掩盖音频建模，例如对应的掩盖文本建模可以是[MASK]部分的单词，例如“person”。

模态级建模包括文本重构和图像重构。其中文本重构是基于多模态预训练模型和文本解码器实现的，图像重构是基于多模态预训练模型和图像解码器实现的，模态级掩盖下，被完全掩盖的文本可以整体标识为T_[MASK]，被完全掩盖的图像可以整体标识为V_[MASK]，被完整掩盖的音频可以整体标识为A_[MASK]。在此基础上进行文本重构，可以得到完整的重构文本，例如“a person skiing on ski boards”，进行图像重构，可以得到完整的重构图像。

样本级建模是基于多模态预训练模型和分类器实现的。多模态预训练模型和分类器可以对随机组合的三种模态的信息进行匹配关系判断，并输出其匹配结果。

基于上述任一实施例，理解和/或生成单元用于图像分类、语义理解、语音识别、以图搜文、以文搜图、视觉问答中的至少一种。

具体地，针对图像分类这一理解任务，本发明实施例测试了只输入单个模态、输入两种模态和输入全部三种模态的分类性能。从表1可以看到，本发明实施例提出的方法(本文方法)在同等条件下(即只输入图像)显著地超过了ResNet-50和ResNet-101的分类结果。当输入更多模态信息时，性能可以被进一步改进，验证了建模更多模态信息的重要性。

表1在Open Images验证集上的图像分类结果

针对跨模态检索这一理解任务，例如以图搜文、以文搜图等，本发明实施例同样进行了测试。从表2展示的各种跨模态检索的结果可知，在以图搜文和以文搜图任务上，本发明实施例提供的方法显著地超过ViLBERT方法。对比以文搜图的结果，以文-音搜图的结果更高，说明了使用更多模态信息能够改进检索性能。

表2在Open Images 5K测试集上的跨模态检索结果

针对视觉问答这一生成问题，本发明实施例使用视觉问答数据集VQA 2.0来评价模型性能。如表3所示，与其他方法相比，本发明实施例提供的方法使用更少的数据量来预训练(本文方法只使用OpenImages数据集，而其他方法使用多个数据集)，然而实现有竞争力的性能。

表3在视觉问答任务上的结果

针对语音识别任务，本发明实施例共选取三种方法(ESPnet、Baidu API、IBM API)进行比较，其中ESPnet是一个基于深度神经网络的方法，BaiduAPI和IBMAPI是两个分别来自百度公司和IBM公司的语音识别工具。从表4中可以看到，本发明实施例提供的方法实现更低的错误率。

表4在Open Images 5K测试集上的语音识别结果

此外，为了进一步地验证本发明实施例提出的预训练任务的效果，本发明实施例采取了剥离实验，分别去掉不同的预训练任务，在OpenImages验证集上进行图像分类实验来评价模型性能。结果如表5所示，去掉任何一个预训练任务都会导致性能出现显著的下降，验证了所提出的三级预训练任务是有效的。

表5在Open Images验证集上的剥离实验结果

下面对本发明提供的基于多模态预训练模型的跨模态理解与生成装置进行描述，下文描述的跨模态理解与生成装置与上文描述的跨模态理解与生成方法可相互对应参照。

图4是本发明提供的跨模态理解与生成装置的结构示意图，如图4所示，该装置包括：

多模态确定单元410，用于确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；

多模态预训练单元420，用于将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示。

任务执行单元430，用于将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；

本发明实施例提供的装置，通过多模态预训练模型，结合图像、文本和音频三个模态进行理解与生成，实现了信息的充分应用，有助于提高跨模态理解与生成的可靠性和准确性。跨模态理解和跨模态生成两个任务的结合，使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建，从而进一步提高跨模态理解与生成的准确性。

基于上述任一实施例，所述多模态预训练单元420用于：

基于上述任一实施例，所述多模态预训练模型是基于元素级建模、模态级建模和样本级建模中的至少一种训练得到的；

所述模态级建模是基于样本多模态信息中的两种完整模态信息，重构/生成与所述两种完整模态信息相匹配的第三种模态信息；

基于上述任一实施例，所述元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模中的至少一种；

基于上述任一实施例，所述模态级建模包括文本重构和/或图像重构；

基于上述任一实施例，所述样本级建模的目标函数是基于预测所得匹配关系和所述随机组合的三种模态信息的实际匹配关系确定的。

基于上述任一实施例，所述理解和/或生成单元用于图像分类、语义理解、语音识别、以图搜文、以文搜图、视觉问答中的至少一种。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行跨模态理解与生成方法，该方法包括：确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；所述理解和/或生成单元包括理解模块和生成模块，其中所述理解模块基于所述融合表示执行跨模态理解任务，所述生成模块基于所述融合表示执行跨模态生成任务。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的跨模态理解与生成方法，该方法包括：确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；所述理解和/或生成单元包括理解模块和生成模块，其中所述理解模块基于所述融合表示执行跨模态理解任务，所述生成模块基于所述融合表示执行跨模态生成任务。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的跨模态理解与生成方法，该方法包括：确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；所述理解和/或生成单元包括理解模块和生成模块，其中所述理解模块基于所述融合表示执行跨模态理解任务，所述生成模块基于所述融合表示执行跨模态生成任务。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多模态预训练模型的跨模态理解与生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果，包括：

3.根据权利要求1所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述多模态预训练模型是基于元素级建模、模态级建模和样本级建模中的至少一种训练得到的；

4.根据权利要求3所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模中的至少一种；

5.根据权利要求3所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述模态级建模包括文本重构和/或图像重构；

6.根据权利要求3所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述样本级建模的目标函数是基于预测所得匹配关系和所述随机组合的三种模态信息的实际匹配关系确定的。

7.根据权利要求1至6中任一项所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述理解和/或生成单元用于图像分类、语义理解、语音识别、以图搜文、以文搜图、视觉问答中的至少一种。

8.一种基于多模态预训练模型的跨模态理解与生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于多模态预训练模型的跨模态理解与生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于多模态预训练模型的跨模态理解与生成方法的步骤。