CN117875395A

CN117875395A - 多模态预训练模型的训练方法、装置及存储介质

Info

Publication number: CN117875395A
Application number: CN202311727947.8A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-04-12

Abstract

本申请涉及人工智能领域，提供了一种多模态预训练模型的训练方法、装置及存储介质，该方法包括：对输入图像文本进行预处理，得到图像特征和文本特征，并基于图像特征和文本特征，得到图文特征和图文注意力特征；对以上特征进行处理得到第一特征；将第一特征输入到多模态集成编码器进行编码，并基于编码后的特征与第一特征，得到第二特征；利用自适应权重算法对文本特征进行计算得到自适应特征，并将自适应特征与第二特征输入至解码器，得到输出的目标文本；最后根据图像特征和文本特征、第二融合特征以及所述目标文本计算对应的损失函数，利用得到的损失函数对模型进行训练。本申请解决了现有预训练模型在复杂下游识别任务中表现不佳的问题。

Description

多模态预训练模型的训练方法、装置及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种多模态预训练模型的训练方法、装置及存储介质。

背景技术

多模态预训练模型是一种具有多种输入模态的先进模型，通过联合学习多种数据表示方式，可以更全面地理解和表达语义信息。这种模型可以应用于各种下游任务中，例如自然语言处理、图像识别、语音识别等，从而提高模型在不同任务中的表现。

现有的图像文本预训练模型可以从大规模的图像－文本对中学习通用的跨模态特征表示，这种模型通常采用图像－文本匹配、图像－文本对比学习等方式来聚合和对齐图像和文本信息。此外，现在技术还有采用跨模态的融合编码来学习图像－文本对信息，但这种方式往往需要大量的推理资源用于计算所有可能的图像－文本对的相似性分数，这对于大规模的数据集来说，需要大量的计算资源和时间。预训练好的模型通常可以用于对下游的图像文本任务进行微调，以适应特定的需求。然而，通过上述训练方法得到的模型往往对于复杂的下游任务，如图文分类任务，效果并不理想。在面对这些任务时，模型可能会表现出一定的局限性，无法准确地理解和处理复杂的文本图像信息。

发明内容

有鉴于此，本申请实施例提供了一种多模态预训练模型的训练方法、装置及存储介质，以解决现有预训练模型在复杂下游识别任务中表现不佳的问题。

本申请实施例的第一方面，提供了一种多模态预训练模型的训练方法，包括：对输入图像和输入文本进行预处理，得到与输入图像和输入文本对应的图像特征和文本特征，并基于图像特征和文本特征，得到图文特征和图文注意力特征；对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理，得到第一融合特征；利用多模态集成编码器对第一融合特征进行处理，得到多模态集成编码器输出的多模态集成编码特征，并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征；利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征，并将自适应特征与第二融合特征输入至第一解码器，得到第一解码器输出的目标文本；根据图像特征和文本特征、第二融合特征以及目标文本，分别计算对应的损失函数，利用对应的损失函数对模型参数进行反向更新，以对模型进行训练。

本申请实施例的第二方面，提供了一种多模态预训练模型的训练装置，包括：输入模块，被配置为对输入图像和输入文本进行预处理，得到与输入图像和输入文本对应的图像特征和文本特征，并基于图像特征和文本特征，得到图文特征和图文注意力特征；融合模块，被配置为对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理，得到第一融合特征；编码模块，被配置为利用多模态集成编码器对第一融合特征进行处理，得到多模态集成编码器输出的多模态集成编码特征，并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征；自适应模块，被配置为利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征，并将自适应特征与第二融合特征输入至第一解码器，得到第一解码器输出的目标文本；训练模块，被配置为根据图像特征和文本特征、第二融合特征以及目标文本，分别计算对应的损失函数，利用对应的损失函数对模型参数进行反向更新，以对模型进行训练。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：

通过对输入图像和输入文本进行预处理，得到对应特征，并在此基础上得到图文特征和图文注意力特征；对得到的所有进行融合处理，得到第一融合特征；利用多模态集成编码器对第一融合特征进行处理，得到多模态集成编码特征，并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征；利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征，并将自适应特征与第二融合特征输入至第一解码器，得到第一解码器输出的目标文本；最后根据图像特征和文本特征、第二融合特征以及目标文本，分别计算对应的损失函数，利用对应的损失函数对模型参数进行反向更新，以对模型进行训练，由于多模态集成编码特征包含多种模态的特征，且通过自适应计算的自适应特征可以更好地与多种模态的特征进行融合，使得通过第一解码器输出的目标文本可以更好的学习图文的对齐，同时通过多个损失函数的共同作用，可以帮助模型更好地理解图像和文本之间的关系，进而提高其语言生成和理解的能力，因此得到的模型进行微调后可以更好的处理复杂下游任务。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多模态预训练模型的训练方法的流程示意图；

图2是本申请实施例提供的另一种多模态预训练模型的训练方法的流程示意图；

图3是本申请实施例提供的一种多模态集成编码器的工作流程示意图；

图4是本申请实施例提供的一种多模态预训练模型的训练装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

本申请的说明书和权利要求书中的术语“第一”“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，需要说明的是，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性地包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面将结合附图详细说明根据本申请实施例的一种多模态预训练模型的训练方法、装置及存储介质。

图1是本申请实施例提供的一种多模态预训练模型的训练方法的流程示意图。如图1所示，该方法包括：

S101，对输入图像和输入文本进行预处理，得到与输入图像和输入文本对应的图像特征和文本特征，并基于图像特征和文本特征，得到图文特征和图文注意力特征。

将输入图像和输入文本信息进行预处理，可以将两种信息形式统一到一个框架下进行处理，即将不同的信息形式转化为一种通用的表示方式，使模型可以更好地理解和处理这些信息，此外，通过编码处理可以提取出图像和文本中的关键信息，例如图像中的物体、颜色、纹理等，以及文本中的关键词、语法结构等，便于后续任务的处理。

通过图像特征和文本特征，可以得到图文特征，这样可以同时利用图像和文本的信息，此外，通过将图像特征和文本特征，还可以得到图文注意力特征，该图文注意力特征不仅包含了原始的图像和文本信息，同时还包含了它们之间的注意力关系，使得这种注意力关系可以帮助模型更好地理解图像和文本之间的关联，从而产生更准确的响应。

S102，对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理，得到第一融合特征。

S103，利用多模态集成编码器对第一融合特征进行处理，得到多模态集成编码器输出的多模态集成编码特征，并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征。

本申请的多模态集成编码器可以处理多种模态的数据，例如，图像、语音、文本等多种数据类型的输入，该编码器可以在不同模态之间建立共享的编码器网络，将不同的模态数据融合为统一的特征向量进行处理。

将多模态集成编码特征与第一融合特征进行融合得到第二融合特征，以便得到更多的有用信息，需要说明的是，可以通过残差连接块连接多模态集成编码特征和第一融合特征，这样可以保留更多原始信息、更好地传播梯度以及增加模型深度，并带来更好的优化结果，提高模型的表示能力和学习能力，进而提升模型在各种任务中的性能表现。

S104，利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征，并将自适应特征与第二融合特征输入至第一解码器，得到第一解码器输出的目标文本。

自适应权重即可以根据输入数据中特征的重要程度自动地进行权重调整，自适应权重可以用于提高模型对输入数据的表示能力，以帮助深度学习模型更好地理解输入数据，并减少冗余信息的影响。在本申请中可以根据输入文本中的关键词或上下文信息自动学习和调整权重分配，通过该机制，模型可以在处理文本时自动关注重要的单词、短语或句子，提高模型在文本分类、文本生成等任务中的性能。

自适应权重算法能够计算文本特征中每个token的重要程度，同时随着输入文本的变化改变算法中计算系数，以此根据输入中不同token的重要程度自动调整权重分配，来提高模型的训练效果。

解码器能够将进行编码处理的输入图像和输入文本转换为最终的输出形式，例如目标语言、目标文本和图像。

进一步地，将自适应特征与第二融合特征输入到第一解码器，以自回归的方式得到最终输出，该解码器可以综合利用不同来源的特征信息，因为自适应特征根据输入文本的重要性进行权重计算，可以突出文本中的关键部分，而第二融合特征则提供了另一方面的信息，两者的融合能够更全面地揭示文本的含义和特征，同时可以更好地学习图文的对齐，以便为后续处理更加复杂的下游任务提供基础。

S105，根据图像特征和文本特征、第二融合特征以及目标文本，分别计算对应的损失函数，利用对应的损失函数对模型参数进行反向更新，以对模型进行训练。

在一些实施例中，对输入图像和输入文本进行预处理，得到与输入图像和输入文本对应的图像特征和文本特征，并基于图像特征和文本特征，得到图文特征和图文注意力特征，包括：对输入图像和输入文本进行向量化表示，得到向量化表示后的图像特征和文本特征，其中输入图像被划分为多个图像块，输入文本被划分为多个词，并基于划分的图像块生成图像特征，基于划分地词生成文本特征；将图像特征和文本特征进行拼接处理，得到图文特征；将图像特征和文本特征进行注意力计算，得到图文注意力特征。

具体地，向量化表示可以将图像和文本转换为具有相同维度的向量，使得它们可以在同一空间中进行比较和分析，对输入图像和输入文本进行向量化表示，能够得到向量化表示后的图像特征和文本特征，以便能够进行后续的处理和分析。对于输入图像，向量化表示可以将图像转换为像素矩阵，每个像素点可以表示为向量形式，从而得到图像的特征向量。对于输入文本，向量化表示可以将文本转换为词向量或字符向量，每个单词或字符都可以表示为向量形式，从而得到文本的特征向量。

作为一示例，例如，对于输入图像(其可以表示为i∈R^H×W×C的三维张量)，其维度分别为高度H、宽度W和通道数C，接下来，输入图像被调整为一个由N个图像块组成的序列，其中N是通过将图像的高度和宽度除以给定的P²来计算的(这里P是每个图像块的分辨率、其可以表示为N＝HW/P²)。这个过程可以将图像分解成一系列的小块，以便从不同的角度和尺度来观察输入图像，从而提取出更多的特征。此外，再将输入图像调整为由N个图片块组成的序列之后，对于每个图像块，可以增加一个[I_CLS]标志，这个标志用于学习输入图像的全局信息，例如图像类别，以便帮助模型在学习过程中更好地理解图像的全局内容，从而更准确地提取特征。同时增加一个位置嵌入I_pos和类型嵌入I_type，帮助模型更好地理解图像块的内容和上下文信息，最终的输入图像可以表示为的向量形式，最后，将其映射到一个新的维度空间，用于后续的分类和识别任务，即

对于输入文本，首先可以使用字节对编码(Byte Pair Encoding，BPE)进行分词，BPE是一种词编码方法，可以将最常见的词素(比如单词的一部分)编码为一个字节，而非常见的2个或3个字节。例如，hello会被分解为["he","ll","lo"]。这种方法使得模型可以处理更大范围的词汇，而不会因为词汇量过大而导致的内存不足。然后，在输入文本中添加[T_CLS]和[T_SEP]，这两个标记是特殊的标记，分别用于表示句子的开始和结束，[T_CLS]可以用于学习文本的全局信息，比如整个句子的语义。[T_SEP]可以用于区分不同的句子，例如在一系列句子中，每个句子都会以[T_SEP]开始。最后，文本的输入被表示为单词嵌入、位置嵌入和类型嵌入的组合，单词嵌入将每个单词表示为一个高维向量，这个向量可以捕捉单词的语义信息，例如，cat和dog的单词嵌入可能会因为它们的语义相似而接近；位置嵌入可以表示每个词素在句子中的位置，这可以帮助模型理解句子的结构；类型嵌入可以表示每个词素的类型(如名词，动词等)，这可以帮助模型理解句子的语法，最终，输入文本可以表示为的向量形式，最后，将其映射到一个新的维度空间，用于后续的分类和识别任务，即/>

进一步地，可以将图像特征和文本特征拼接起来形成图文特征，这样可以形成一个具有更大维度的向量，包含了图像和文本的联合信息，该联合信息可以帮助模型更好地理解输入并产生更准确的响应。同时通过计算图像特征和文本特征的注意力权重，形成了一个新的图文注意力特征/>，该图文注意力特征不仅包含了原始的图像和文本信息，同时还包含了它们之间的注意力关系，这种注意力关系可以帮助模型更好地理解图像和文本之间的关联，从而产生更准确的响应。

需要说明的是，具体的向量化方法可以根据识别任务的需求进行设定，在此本实施例并不做具体限定。

本实施例通过将输入图像和输入文本进行向量化处理，以便更好地将图像和文本转化为适合模型处理的数据形式，同时通过拼接图像特征和文本特征，以及计算注意力权重，可以使得模型更加关注于图像和文本之间的重要区域。

此外，在一些实施例中，对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理，得到第一融合特征，包括：对图像特征、文本特征、图文特征以及图文注意力特征通过层归一化进行融合，得到第一融合特征。

具体地，层归一化(Layer Normalization)是一种用于神经网络中的归一化技术，与批归一化(Batch Normalization)不同，层归一化是针对每个样本的特征进行归一化，而不是对不同批次的样本进行归一化。

在融合图像特征、文本特征、图文特征以及图文注意力特征时，层归一化可以将每一层的特征进行归一化处理，保证它们的分布具有相似的均值和方差，有助于减少不同特征之间的量级差异，提高特征的表示能力和学习效果。

通过层归一化将不同类型的特征进行归一化处理，使得它们的数值范围相似，以便更好地进行融合，这样可以避免某些特征占主导地位，导致其他特征的贡献被忽略，此外，需要说明的是，层归一化还有助于防止神经网络在训练过程中出现梯度消失或梯度爆炸的问题，提高网络的稳定性和收敛速度。

本实施例通过层归一化对不同特征进行融合，可以使得不同类型的特征具有一致的分布，提高特征的表达能力和融合效果，并提高网络的稳定性和训练效果。

另外，在一些实施例中，利用多模态集成编码器对第一融合特征进行处理，得到多模态集成编码器输出的多模态集成编码特征，包括：利用多模态集成编码器中的多头注意力网络对第一融合特征进行处理，并将处理后的第一融合特征输入至多模态集成编码器的集成前馈网络中进行训练，得到多模态集成编码特征。

具体地，本申请的多模态集成编码器包括多头注意力网络和集成前馈网络，多头注意力网络是一种基于注意力机制的神经网络结构，在处理多模态数据时可以通过自适应学习对不同模态的重要性进行加权，可以将输入的特征分成多个通道并对每个通道进行不同的注意力计算，以实现对不同维度特征的重点关注。

需要说明的是，集成前馈网络是本申请多模态集成编码器中的一种网络结构，该集成前馈网络包括多个不同类型的前馈网络，对于输入到多头注意力网络进行处理之后的特征，该集成前馈网络可以根据不同的数据类型，调用相应的前馈网络进行训练学习，以便学习不同类型的输入特征，进而学习不同的模态以及模态之间的联系。

本实施例的多模态集成编码器可以处理多种模式的数据，通过多头注意力网络来选择合适的前馈网络进行训练，并通过集成前馈网络中的不同前馈网络来处理不同类型的输入数据，使得模型可以更好地处理不同模式的数据，提高了模型的鲁棒性和泛化能力。

在一些实施例中，集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。

具体地，本实施例的集成前馈网络由四种前馈网络组成：图像前馈网络(I-FFN)、文本前馈网络(T-FFN)、图文前馈网络(IT-FFN)以及图文注意力前馈网络(Att-IT-FFN)，并且每种前馈网络可以由3层的卷积网络组成。

具体来说，图像前馈网络(I-FFN)用于处理图像特征，包括对图像的卷积处理和图像特征的提取。文本前馈网络(T-FFN)用于处理文本特征，包括对文本的卷积处理和文本特征的提取。图文前馈网络(IT-FFN)用于处理图文特征，包括对图像和文本的联合卷积处理和图文特征的提取。图文注意力前馈网络(Att-IT-FFN)则进一步针对图文注意力特征进行处理，包括对注意力特征的融合和提取。每种前馈网络在训练过程中，可以根据不同的输入数据类型进行切换和组合，以实现对不同模态数据的处理，通过使用卷积网络进行特征提取，这些前馈网络可以提取出更加高效、有表达力的特征表示，从而为多模态集成编码器提供更加强大和准确的特征表示能力。

需要说明的是，使用3层卷积网络是为了更好地提取多模态数据中的特征。相对于浅层的卷积网络，深层卷积网络可以提取更加复杂和高维的特征，更好地表达图像和文本等模态数据的特征差异，此外，使用三层卷积网络也可以增加模型的非线性能力，更好地拟合训练数据，并提高模型的泛化能力和准确性。

另外，在一些实施例中，利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征，包括：将文本特征输入至第二解码器，利用第二解码器对文本特征进行解码，得到文本解码特征；利用卷积层对文本解码特征进行卷积处理，其中卷积处理用以学习文本解码特征的自适应权重；利用自适应权重算法对处理后的文本解码特征进行自适应权重计算，确定文本解码特征中每个子特征的权重值；根据子特征的权重值，确定自适应特征。

具体地，由于经过向量化处理得到的文本特征并不能直接表示文本内容，需要进一步解码才能生成可读的文本表示，可以将进行预处理(向量化处理)后的目标文本输入到第二解码器，利用第二解码器将文本特征转换为可读的文本表示(文本解码特征)。

作为一示例，本实施例可以采用标准Transformer作为文本解码器(第一解码器)，利用Transformer模型优秀的序列生成能力，便于学习到文本的语义和上下文关系，并输出与原始文本对应的自然语言文本，进而将文本特征转换为可读的文本表示(文本解码特征)。

此外，在许多深度学习应用中，模型的性能往往取决于输入特征的表示能力，本实施例通过自适应权重机制，模型可以根据输入中不同token(子特征)的重要程度自动调整权重分配，从而更好地聚焦于对目标任务有帮助的信息，自适应权重可以让模型更好地捕捉输入的语义信息，用来提高对语义相关的词汇和短语的表示权值，减轻噪声和冗余信息对模型输出的影响，从而在输出结果方面表现得更好。

具体来说，本实施例利用一个卷积层对得到的文本解码特征进行卷积操作，通过卷积操作，可以自适应地调整文本解码特征的权重，使得模型可以更加关注某些特征，而忽略其他不太相关的特征，即相比于传统的方法，本实施例可以利用该卷积层额外学习到一个自适应的权重W_i，通过该自适应权重，模型可以自适应地决定哪些特征对于后续的解码过程更加重要，此时，每一个token(子特征)可以通过下列自适应权重算法进行计算：

其中，其中W_i为需要学习的自适应权重；即每一个token的重要程度将会随着W_i的变化而变化，即随着输入的文本特征动态调整，进一步地，通过计算每一个子特征的权重值，可以得到自适应特征用于后续处理。

本实施例通过自适应权重计算得到的特征可以帮助模型更好地理解输入数据并减少冗余信息，有助于提高模型的精度和可靠性，并使模型更具优化性能。

此外，在一些实施例中，根据图像特征和文本特征、第二融合特征以及目标文本，分别计算对应的损失函数，利用对应的损失函数对模型参数进行反向更新，以对模型进行训练，包括：根据图像特征以及文本特征计算图像-文本对比损失函数；根据多模态编码器输出的多模态集成编码特征计算图像-文本匹配损失函数；根据第一解码器输出的目标文本计算语言建模损失函数；利用图像-文本对比损失函数、图像-文本匹配损失函数以及语言建模损失函数对模型参数进行方向更新，以对模型进行训练。

具体地，模型训练过程中使用了三种损失函数，分别是图文对比损失函数、图文匹配损失函数和语言建模损失函数。

图文对比损失：该损失函数的目标是让模型学会将相似的图像和文本配对在一起，具体实现方式可以通过计算图像特征和文本特征之间的余弦相似度，然后使用对比损失函数进行优化，具体可以使用对比损失(如三元组损失或N-pair损失)，鼓励正样本(图像和对应文本)的相似度大于负样本(图像和不相关文本)的相似度，在此不进行具体限定。

图文匹配损失：该损失函数的目标是让模型学会判断一幅图像和一个文本描述是否匹配，对于本申请的多模态集成编码器，可以通过计算多模态集成编码特征中的图像表示和文本表示的相似性，来衡量图像和文本的匹配程度，具体可以通过二分类任务来实现，对于每个图像－文本对，模型可以输出一个标签表示它们是否匹配。

语言建模损失：该损失函数的目标是让模型能够生成符合语言规则的目标文本，对于第一解码器输出的目标文本，可以使用交叉熵损失函数来优化这个过程，对于每个生成的token，计算其预测概率和真实概率之间的差异，以更好地完成文本的输出。

本实例通过使用图像-文本对比损失函数、图像-文本匹配损失函数和语言建模损失函数，计算模型的损失，并通过优化算法对模型参数进行更新，从而进行训练，以提高模型的性能，使得模型能够处理相对复杂的下游任务。

图2是本申请实施例提供的另一种多模态预训练模型的训练方法的流程示意图，如图2所示：

首先，输入到模型的图片和文本将会被进行预处理，即将不同的信息形式转化为一种通用的表示方式，使模型可以更好地理解和处理这些信息，基于上述的预处理操作，可以得到对应的图像特征和文本特征，在此基础之上，即可对图像特征和文本特征进行拼接和注意力计算，得到图文特征及图文注意力特征，以得到一个包含图像和文本的联合信息的向量以及包含它们之间的注意力关系的向量。

然后，可以对图像特征、文本特征、图文特征以及图文注意力特征通过层归一化进行融合，得到第一融合特征，使得不同类型的特征具有一致的分布，提高特征的表达能力和融合效果，并提高网络的稳定性和训练效果。

其次，利用多模态集成编码器能处理多种模态数据的特性，将第一融合特征输入到多模态集成编码器中，通过其中的多头注意力网络对第一融合特征进行处理，实现对不同维度特征的重点关注，并将处理后的第一融合特征输入至多模态集成编码器的集成前馈网络中进行训练，得到更加高效以及有表达力的特征表示的多模态集成编码特征，并将其与第一融合特征进行融合，得到特征信息更加丰富的第二融合特征。

再然后，利用第二解码器将文本特征转换为可读的文本表示(文本解码特征)，并利用卷积层对该文本解码特征进行卷积处理，其中卷积处理用以学习文本解码特征的自适应权重；利用自适应权重算法对处理后的文本解码特征进行自适应权重计算，模型可以根据输入中不同token(子特征)的重要程度自动调整权重分配，从而更好地聚焦于对目标任务有帮助的信息，即能够更好地突出文本中的重要信息，进而得到的自身适应特征，可以更好地将文本特征融合到第二融合特征中。

最后，将自适应特征与第二融合特征输入到第一解码器，以自回归的方式生成目标，便于更好的学习图文的对齐，进而得到最终的输出。

图3是本申请实施例提供的一种多模态集成编码器的工作流程示意图，如图3：

本申请的多模态集成编码器，包括多头注意力网络和集成前馈网络，输入到多模态集成编码器的数据首先后经过共享的多头注意力网络进行处理，该多头注意力网络在处理多模态数据时可以通过自适应学习对不同模态的重要性进行加权，可以将输入的特征分成多个通道并对每个通道进行不同的注意力计算，以实现对不同维度特征的重点关注。然后，根据不同的输入数据的类型，可以调取集成前馈网络中与该数据类型对应的前馈网络进行训练，例如，本申请的集成前馈网络包括图像、文本、图文和图文注意力前馈网络，每种前馈网络可由3层卷积网络组成，用于处理不同特征。训练时可根据输入数据类型切换组合，使用卷积网络提取高效特征表示，为多模态集成编码器提供强大准确的特征表示能力。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不一一赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应该对本申请实施例的过程构成任何限定。

图4是本申请实施例提供的一种多模态预训练模型的训练装置的示意图。

如图4所示，该装置包括：

输入模块401，被配置为对输入图像和输入文本进行预处理，得到与输入图像和输入文本对应的图像特征和文本特征，并基于图像特征和文本特征，得到图文特征和图文注意力特征；

融合模块402，被配置为对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理，得到第一融合特征；

编码模块403，被配置为利用多模态集成编码器对第一融合特征进行处理，得到多模态集成编码器输出的多模态集成编码特征，并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征；

自适应模块404，被配置为利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征，并将自适应特征与第二融合特征输入至第一解码器，得到第一解码器输出的目标文本；

训练模块405，被配置为根据图像特征和文本特征、第二融合特征以及目标文本，分别计算对应的损失函数，利用对应的损失函数对模型参数进行反向更新，以对模型进行训练。

在一些实施例中，输入模块401还用于对输入图像和输入文本进行向量化表示，得到向量化表示后的图像特征和文本特征，其中输入图像被划分为多个图像块，输入文本被划分为多个词，并基于划分的图像块生成图像特征，基于划分的词生成文本特征；将图像特征和文本特征进行拼接处理，得到图文特征；将图像特征和文本特征进行注意力计算，得到图文注意力特征。

在一些实施例中，融合模块402还用于对图像特征、文本特征、图文特征以及图文注意力特征通过层归一化进行融合，得到第一融合特征。

在一些实施例中，编码模块403还用于利用多模态集成编码器中的多头注意力网络对第一融合特征进行处理，并将处理后的第一融合特征输入至多模态集成编码器的集成前馈网络中进行训练，得到多模态集成编码特征。

在一些实施例中，编码模块403还用于集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。

在一些实施例中，自适应模块404还用于将文本特征输入至第二解码器，利用第二解码器对文本特征进行解码，得到文本解码特征；利用卷积层对文本解码特征进行卷积处理，其中卷积处理用以学习文本解码特征的自适应权重；利用自适应权重算法对处理后的文本解码特征进行自适应权重计算，确定文本解码特征中每个子特征的权重值；根据子特征的权重值，确定自适应特征。

在一些实施例中，训练模块405还用于根据图像特征以及文本特征计算图像-文本对比损失函数；根据多模态编码器输出的多模态集成编码特征计算图像-文本匹配损失函数；根据第一解码器输出的目标文本计算语言建模损失函数；利用图像-文本对比损失函数、图像-文本匹配损失函数以及语言建模损失函数对模型参数进行方向更新，以对模型进行训练。

本申请实施例提供的装置能够实现上述方法实施例的所有方法步骤，并能达到相同的技术效果，在此不再赘述。

图5是本申请实施例提供的电子设备5的示意图。如图5所示，该实施例的电子设备5包括：处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器501可以是中央处理单元(Central Processing Unit，CPU)，也可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器502可以是电子设备5的内部存储单元，例如，电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备，例如，电子设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其他程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种多模态预训练模型的训练方法，其特征在于，包括：

对输入图像和输入文本进行预处理，得到与所述输入图像和输入文本对应的图像特征和文本特征，并基于所述图像特征和文本特征，得到图文特征和图文注意力特征；

对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理，得到第一融合特征；

利用多模态集成编码器对所述第一融合特征进行处理，得到所述多模态集成编码器输出的多模态集成编码特征，并将所述多模态集成编码特征与所述第一融合特征进行融合得到第二融合特征；

利用自适应权重算法对所述文本特征进行自适应权重计算得到自适应特征，并将所述自适应特征与所述第二融合特征输入至第一解码器，得到所述第一解码器输出的目标文本；

根据所述图像特征和文本特征、所述第二融合特征以及所述目标文本，分别计算对应的损失函数，利用所述对应的损失函数对模型参数进行反向更新，以对模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述对输入图像和输入文本进行预处理，得到与所述输入图像和输入文本对应的图像特征和文本特征，并基于所述图像特征和文本特征，得到图文特征和图文注意力特征，包括：

对输入图像和输入文本进行向量化表示，得到向量化表示后的所述图像特征和文本特征，其中所述输入图像被划分为多个图像块，所述输入文本被划分为多个词，并基于划分的图像块生成所述图像特征，基于划分的词生成所述文本特征；

将所述图像特征和文本特征进行拼接处理，得到所述图文特征；

将所述图像特征和文本特征进行注意力计算，得到所述图文注意力特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理，得到第一融合特征，包括：

对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征通过层归一化进行融合，得到所述第一融合特征。

4.根据权利要求1所述的方法，其特征在于，所述利用多模态集成编码器对所述第一融合特征进行处理，得到所述多模态集成编码器输出的多模态集成编码特征，包括：

利用所述多模态集成编码器中的多头注意力网络对第一融合特征进行处理，并将处理后的第一融合特征输入至所述多模态集成编码器的集成前馈网络中进行训练，得到所述多模态集成编码特征。

5.根据权利要求4所述的方法，其特征在于，所述集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。

6.根据权利要求1所述的方法，其特征在于，所述利用自适应权重算法对所述文本特征进行自适应权重计算得到自适应特征，包括：

将所述文本特征输入至第二解码器，利用所述第二解码器对所述文本特征进行解码，得到文本解码特征；

利用卷积层对所述文本解码特征进行卷积处理，其中所述卷积处理用以学习所述文本解码特征的自适应权重；

利用所述自适应权重算法对处理后的文本解码特征进行自适应权重计算，确定所述文本解码特征中每个子特征的权重值；

根据所述子特征的权重值，确定所述自适应特征。

7.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征和文本特征、所述第二融合特征以及所述目标文本，分别计算对应的损失函数，利用所述对应的损失函数对模型参数进行反向更新，以对模型进行训练，包括：

根据所述图像特征以及文本特征计算图像-文本对比损失函数；

根据所述多模态编码器输出的所述多模态集成编码特征计算图像-文本匹配损失函数；

根据所述第一解码器输出的所述目标文本计算语言建模损失函数；

利用所述图像-文本对比损失函数、图像-文本匹配损失函数以及语言建模损失函数对模型参数进行方向更新，以对模型进行训练。

8.一种多模态预训练模型的训练装置，其特征在于，包括：

输入模块，被配置为对输入图像和输入文本进行预处理，得到与所述输入图像和输入文本对应的图像特征和文本特征，并基于所述图像特征和文本特征，得到图文特征和图文注意力特征；

融合模块，被配置为对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理，得到第一融合特征；

编码模块，被配置为利用多模态集成编码器对所述第一融合特征进行处理，得到所述多模态集成编码器输出的多模态集成编码特征，并将所述多模态集成编码特征与所述第一融合特征进行融合得到第二融合特征；

自适应模块，被配置为利用自适应权重算法对所述文本特征进行自适应权重计算得到自适应特征，并将所述自适应特征与所述第二融合特征输入至第一解码器，得到所述第一解码器输出的目标文本；

训练模块，被配置为根据所述图像特征和文本特征、所述第二融合特征以及所述目标文本，分别计算对应的损失函数，利用所述对应的损失函数对模型参数进行反向更新，以对模型进行训练。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。