CN116010899A

CN116010899A - 多模态数据处理及预训练模型的预训练方法、电子设备

Info

Publication number: CN116010899A
Application number: CN202310005564.3A
Authority: CN
Inventors: 李晨亮; 徐海洋; 田俊峰; 王玮; 严明; 闭彬; 叶加博; 陈河宏; 徐国海; 张佶; 黄松芳
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-25

Abstract

本申请实施例提供了一种多模态数据处理及预训练模型的预训练方法、电子设备，其中，多模态数据处理方法包括：获取待处理的模态数据，并将所述模态数据输入预设的模态数据处理模型，其中，所述模态数据处理模型基于训练完成的预训练模型进行任务迁移获得，所述模态数据处理模型包括多个特征融合部分，所述多个特征融合部分以所述模态数据中文本数据的文本特征为基础，以模态数据中图像数据的图像特征为辅助，将图像特征加和和拼接至文本特征中，以获得拼接特征；至少通过所述特征融合部分获得的拼接特征，对所述模态数据进行任务处理，并根据处理结果获得预设模态的任务数据。通过本申请实施例，能够提升对多模态数据处理的准确度。

Description

多模态数据处理及预训练模型的预训练方法、电子设备

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种多模态数据处理、一种预训练模型的预训练方法、以及一种电子设备。

背景技术

随着人工智能领域在自然语言处理技术上的发展，可有效迁移并应用至各种下游自然语言处理场景中的预训练语言模型得到了广泛使用。因预训练语言模型强大的学习能力，逐渐从应用于单模态文本场景过渡到了可以应用于多模态场景。

但在包括文本数据和图像数据的多模态场景中，文本数据通常很短且高度抽象，而图像数据则与此相反，可形成具有丰富信息且较长的视觉序列。由此，导致基于训练完成的预训练模型进行多模态数据处理时，因文本数据的数据量远小于图像数据，导致最终的多模态数据处理结果失真。例如，在图1所示对多模态数据的处理方式中，使用视觉编码器获得图像特征，使用文本编码器获得文本特征，进而，简单地将图像特征和文本特征串联起来作为输入，实现图像特征和文本特征的融合。然后，通过自注意力机制，从底层对齐模态。这种方式中，对图像数据和文本数据这两种模态数据进行了同等处理，因模态数据的不对称(文本特征的数据量远少于图像特征)，尤其是当不同模态数据之间的数据密度或序列长度存在较大差异时，都会使得模型产生不准确的结果。

因此，如何降低此种场景下，文本特征和图像特征融合时的不对称性，以提高多模态数据处理的准确度，成为亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种多模态数据处理及预训练模型的预训练方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种多模态数据处理方法，包括：获取待处理的模态数据，并将所述模态数据输入预设的模态数据处理模型，其中，所述模态数据处理模型基于训练完成的预训练模型进行任务迁移获得，所述模态数据处理模型包括多个特征融合部分，所述多个特征融合部分以所述模态数据中文本数据的文本特征为基础，以模态数据中图像数据的图像特征为辅助，将所述图像特征加和和拼接至所述文本特征中，以获得拼接特征；至少通过所述特征融合部分获得的拼接特征，对所述模态数据进行任务处理，并根据处理结果获得预设模态的任务数据。

根据本申请实施例的第二方面，提供了一种预训练模型的预训练方法，其中，所述预训练模型包括视觉编码器、文本编码器、多个特征融合部分和解码器；所述方法包括：

获取用于对所述预训练模型进行预训练的训练样本，所述训练样本包括图像样本数据和所述图像样本数据对应的文本样本数据；通过所述视觉编码器对所述图像样本数据进行编码处理，获得图像样本特征，并且，通过所述文本编码器对所述文本样本特征进行编码处理，获得文本样本特征；将所述图像样本特征和所述文本样本特征输入所述多个特征融合部分，以通过所述多个特征融合部分以所述文本样本特征为基础，以所述图像样本特征为辅助，将所述图像样本特征加和和拼接至所述文本样本特征中，以获得拼接特征；将所述拼接特征输入所述解码器，以预测生成预设模态的模态样本数据；基于所述模态样本数据和预设的损失函数，对所述多模态数据处理模型进行预训练。

根据本申请实施例的第三方面，提供了另一种多模态数据处理方法，包括：获取待处理的图像数据；通过预设的模态数据处理模型，获得所述图像数据对应的描述文本数据，所述描述文本数据用于对所述图像数据的内容进行描述，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如第二方面所述的方法训练获得。

根据本申请实施例的第四方面，提供了再一种多模态数据处理方法，包括：获取待处理的图像数据和用于对所述图像数据中的内容进行检索的文本检索要求数据；通过预设的模态数据处理模型，从所述图像数据中检索获得所述文本检索要求数据对应的检索结果，所述检索结果用于通过文本说明对所述图像数据进行检索获得的图像内容结果，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如第二方面所述的方法训练获得。

根据本申请实施例的第五方面，提供了又一种多模态数据处理方法，包括：获取待处理的图像数据和所述图像数据对应的文本问题数据；通过预设的模态数据处理模型，获得基于所述图像数据的文本答案数据，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如第二方面所述的方法训练获得。

根据本申请实施例的第六方面，提供了另外一种多模态数据处理方法，包括：获取待处理的图像数据和用于对所述图像数据中的目标进行定位的文本定位请求数据；通过预设的模态数据处理模型，基于所述图像数据获得所述所述目标的定位信息，所述定位信息用于通过文本说明所述目标在所述图像数据中的位置，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如第二方面所述的方法训练获得。

根据本申请实施例的第七方面，提供了一种多模态数据处理方法，包括：获取待处理的模态数据；接收通过交互界面输入的、用于对所述模态数据进行处理的模态数据处理模型的信息；调用所述信息所指示的模态数据处理模型，以对所述模态数据进行处理，并根据处理结果获得预设模态的任务数据，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如第二方面所述的方法训练获得。

根据本申请实施例的第八方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一至七方面任一所述方法对应的操作。

根据本申请实施例的第九方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一至七方面任一所述的方法。

根据本申请实施例提供的方案，在进行多模态数据处理场景，尤其是文本数据和图像数据的处理场景中，使用了预设的模态数据处理模型。因该模型中的多个特征融合部分可以以文本特征为基础，以图像特征为辅助，为文本特征进行图像特征的加和和拼接，从而使得在以文本特征为基础以图像特征为辅助时，既不会使图像特征掩没或对文本特征产生较大的影响，又可以使得文本特征可携带丰富的图像信息，或者说，可以图像信息为文本特征的补充。由此，虽然文本数据的数量仍然小于图像数据，但因图像特征的参与，可有效避免这种数据的不对称，从而获得更能准确表达图像信息的文本特征，提升对多模态数据处理的准确度。进而，也实现了更为精准和高效的任务处理。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为现有技术的一种多模态数据处理的模型示意图；

图2为适用本申请实施例方案的示例性系统的示意图；

图3A为根据本申请实施例一的一种预训练模型的预训练方法的步骤流程图；

图3B为图3A所示实施例中的一种预训练模型的结构示意图；

图4A为根据本申请实施例二的一种多模态数据处理方法的步骤流程图；

图4B为图4A所示实施例中的第一种场景示例的示意图；

图4C为图4A所示实施例中的第二种场景示例的示意图；

图4D为图4A所示实施例中的第三种场景示例的示意图；

图4E为图4A所示实施例中的第四种场景示例的示意图；

图5为根据本申请实施例三的一种多模态数据处理方法的步骤流程图；

图6为根据本申请实施例四的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图2示出了一种适用本申请实施例方案的示例性系统。如图2所示，该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106，图2中示例为多个用户设备。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，在一些实施例中，模态数据处理模型基于训练完成的预训练模型进行任务迁移获得，该模态数据处理模型包括多个特征融合部分，用于基于模态数据中文本数据的文本特征进行模态数据中图像数据的图像特征的加和和拼接，以获得融合处理后的文本特征。其中，不同的数据存在形式或数据来源均可被称之为一种模态，模态数据意指以某种模态存在的数据，如图像数据或文本数据，多模态数据则意指由两种或两种以上的模态形成的数据。在一些实施例中，云服务端102通过模态数据处理模型获得待处理的模态数据对应的文本特征，进而，基于该文本特征进行相应任务的处理，并获得最终的任务数据。作为可选的示例，在一些实施例中，云服务端102还可以被用于对所述预训练模型的预训练。作为另一示例，在一些实施例中，云服务端102还可以被用于将预训练完成的述预训练模型迁移至下游任务。作为另一示例，在一些实施例中，云服务端102还可以接收用户设备106的多模态数据数据处理请求，并将处理后的数据返回用户设备106。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于与用户交互的任何一个或多个用户设备。在一些实施例中，用户设备106可以向云服务端102发送多模态数据数据处理请求及所请求的多模态数据的信息，以使云服务端102基于该请求进行多模态数据处理。以及，在一些实施例中，用户设备106可以接收云服务端102返回的多模态数据处理结果。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

基于上述系统，以下通过多个实施例对本申请的方案进行说明。

为便于理解本申请实施例的方案，以下结合图3A和图3B，首先对本申请实施例中使用的预训练模型的预训练过程进行说明。

实施例一

首先，如图3B所示，本申请实施例中的预训练模型包括视觉编码器、文本编码器、多个特征融合部分和解码器。图3B中多个特征融合部分简单示意为2个，但本领域技术人员应当明了，在实际应用中，本领域技术人员可以根据实际需求设置更多个特征融合部分。此外，本申请实施例中，若无特殊说明，“多个”、“多种”、“多层”等与“多”有关的数量均意指两个及两个以上。

由图3B中可见，在至少部分特征融合部分(如10个特征融合部分中的1个、或2个、或3个…或9个、亦或10个)中，可以使得这部分中的每个特征融合部分中，包括有多个多模态特征加和层和一个多模态特征拼接层。在文本特征输入每个多模态特征加和层后，该多模态特征加和层会将图像特征加和进文本特征中后，再进行文本特征提取。在最后一个多模态特征加和层输入提取的文本特征后，该文本特征又会通过多模态特征拼接层与最初输入当前特征融合部分的图像特征进行加和，以形成拼接特征。在相邻的两个特征融合部分之间，前一特征融合部分的输出，即拼接特征会作为后一特征融合部分的输入。对于多模态特征加和层来说，其具有较快的计算速度，但可能会损失部分视觉信息即图像特征，而对于多模态特征拼接层来说，其可有效保留视觉信息但速度较慢。通过多模态特征加和层和多模态特征拼接层的结合，能够在速度和信息之间取得有效平衡，获得更好的特征提取结果。

基于此，本实施例的预训练模型的预训练方法如图3A所示，其包括：

步骤S202：获取用于对预训练模型进行预训练的训练样本。

其中，训练样本包括图像样本数据和图像样本数据对应的文本样本数据。与图像样本数据对应的文本样本数据与图像中的内容有关。例如，图像中有一只小狗，则对应的文本样本数据可以为“一只小狗坐在门前”，或者为“图中是否存在小狗？”，或者为“请标记出图中小狗的位置”，等等，本申请实施例对图像样本数据及其对应的文本样本数据的具体实现不作限制。但不限于此，训练样本中还会包含一部分负样本，例如，图像中并没有小狗，但文本样本数据为“一只小狗坐在门前”等。通过正负训练样本的结合，可以使得训练出来的模型更为鲁棒和强壮。

步骤S204：通过视觉编码器对图像样本数据进行编码处理，获得图像样本特征，并且，通过文本编码器对文本样本特征进行编码处理，获得文本样本特征。

视觉编码器和文本编码器的具体实现可由本领域技术人员根据实际需求采用适当的编码器结构实现，包括但不限于基于Transformer结构的编码器等。Transformer是一种基于注意力Attention机制的编码器-解码器结构，通过引入Attention机制，Transformer能够更为高效地提取出与模型任务相关的目标特征。

视觉编码器和文本编码器连接首个特征融合部分，具体为首个特征融合部分的首层多模态加和层。其中，视觉编码器的输入为图像样本数据对应的向量，输出为图像编码向量，即图像样本特征；文本编码器的输入为文本样本数据对应的向量，输出为文本编码向量，即文本样本特征。

步骤S206：将图像样本特征和文本样本特征输入多个特征融合部分，以通过多个特征融合部分以文本样本特征为基础，以图像样本特征为辅助，将图像样本特征加和和拼接至文本样本特征中，以获得拼接特征。

多模态特征加和层用于使用图像样本特征对文本样本特征进行特征加和，并基于加和后的特征进行文本特征提取。多模态特征拼接层用于对文本特征提取结果和图像样本特征进行特征拼接。示例性地，特征加和层可直接的特征加和或通过co-attention(互注意力)机制的方式，对文本样本特征和图像样本特征加和。

以图3B所示模型结构为示例，在第一个特征融合部分，文本编码器输出的文本样本特征被输入至第一个多模态特征加和层，在该多模态特征加和层，图像编码器输出的图像样本特征V1被用于与文本样本特征T11进行加和；然后，该多模态特征加和层对加和了图像样本特征V1后的文本样本特征T11进行特征提取，得到第一个多模态特征加和层输出的文本样本特征T12。该第一个多模态特征加和层输出的文本样本特征T12被输入至第二个多模态特征加和层，在该层，文本样本特征T12再次与图像编码器输出的图像样本特征V1进行加和；然后，该多模态特征加和层对再次加和了图像样本特征V1后的文本样本特征T12进行特征提取，得到第二个多模态特征加和层输出的文本样本特征T13。依此类推，直至第一个特征融合部分的最后一个多模态特征加和层。

假设，以第一个特征融合部分的多模态特征加和层为两个为例，则，如前所述，第二个多模态特征加和层会输出文本样本特征T13。接着，该文本样本特征T13将和图像样本特征V1一起输入多模态特征拼接层进行特征拼接，在拼接后，文本样本特征融合了图像样本特征的信息，同样，图像样本特征中也融合了文本样本特征的信息。

拼接后的特征仍然分为两部分，包括与原图像样本特征相同维度的新图像样本特征，简单表示为V2，以及与原文本样本特征相同维度的新文本样本特征，简单表示为T21。

接着，在第二个特征融合部分，其第一个多模态特征加和层，图像样本特征V2被用于与文本样本特征T21进行加和；然后，该多模态特征加和层对加和了图像样本特征V2后的文本样本特征T21进行特征提取，得到第一个多模态特征加和层输出的文本样本特征T22。该第一个多模态特征加和层输出的文本样本特征T22被输入至第二个多模态特征加和层，在该层，文本样本特征T22再次与图像编码器输出的图像样本特征V2进行加和；然后，该多模态特征加和层对再次加和了图像样本特征V2后的文本样本特征T22进行特征提取，得到第二个多模态特征加和层输出的文本样本特征T23。

接着，该文本样本特征T23将和图像样本特征V2一起输入第二个特征融合部分的多模态特征拼接层进行特征拼接，在拼接后，文本样本特征融合了图像样本特征的信息，同样，图像样本特征中也融合了文本样本特征的信息。若当前特征融合部分为模型的最后一个特征融合部分，则该次拼接后的特征将不再进行划分，将以完整的拼接特征的形式输入后续的解码器。

步骤S208：将拼接特征输入解码器，以预测生成预设模态的模态样本数据。

因该拼接特征有效融合了文本信息和图像信息，成为跨模态特征数据，因此，将其输入文本解码器后，可有效进行文本生成的学习，以预测获得相应模态的模态样本数据。本申请实施例中，该预设模态主要为文本模态。

通过该解码器，可预测生成诸如图像描述文本的文本样本数据，或者如图像文本检索的检索结果文本样本数据，或者如视觉问答的答案文本样本数据，或者为视觉定位结果的文本样本数据等。解码器最终预测生成的结果与预训练的任务有关，在实现应用中，本领域技术人员根据实际需要，采用与预训练任务相适配的训练样本及损失函数，以及相匹配的解码器的任务设置即可。

本申请实施例中，对解码器的具体实现结构不作限制，可选地，可采用基于Transformer结构的解码器等。

步骤S210：基于模态样本数据和预设的损失函数，对多模态数据处理模型进行预训练。

其中，如前所述，损失函数可由本领域技术人员根据实际任务，设置相匹配的损失函数即可，本申请实施例中，对损失函数的具体实现不作限制。在一种可行方式中，该损失函数可以为自监督损失函数。

在获得了解码器预测输出的模态样本数据之后，基于预设的损失函数可获得相应的损失值。进而，可基于该损失值对预训练模型进行训练，直至达到训练终止条件，如达到预设的训练次数，或者损失值满足预设阈值等。

通过本实施例，在预训练模型的训练过程中，在其每个特征融合部分，将两种模态融合方式相结合，首先通过多模态特征加和层让图像样本特征和文本样本特征相融合，以大幅提升模型的训练速度，之后会通过多模态特征拼接层让两个模态连接融合。最后，输出的跨模态的拼接特征被输入文本解码器中，用于文本生成的学习。由此，使得训练获得的预训练模型同时具有理解和生成能力，且能够生成更为准确的结果数据。

预训练模型在训练完成后，后续会在下游任务上使用该模型。则，针对下游任务的特性，可以通过对该预训练模型进行精调的方式实现任务迁移，从而达到提高下游任务的模型训练效率的目的。以下实施例，基于进行了任务迁移后的预训练模型实现，为便于区分，将用于下游任务的预训练模型称为模态数据处理模型。

以下，对使用模态数据处理模型进行多模态数据处理的方法进行说明。

实施例二

参照图4A，示出了根据本申请实施例二的一种多模态数据处理方法的步骤流程图。

本实施例的多模态数据处理方法包括以下步骤：

步骤S302：获取待处理的模态数据，并将该模态数据输入预设的模态数据处理模型。

不同的数据存在形式或数据来源均可被称之为一种模态，模态数据意指以某种模态存在的数据，如图像数据或文本数据，多模态数据则意指由两种或两种以上的模态形成的数据。本实施例中，待处理的模态数据通常为多模态数据，如为图像数据及其对应的文本数据的形式。但不限于此，本实施例的模态数据处理模型同样可对单模态即图像数据的情况进行处理，下文将具体说明。

如前所述，本实施例中的模态数据处理模型为通过前述实施例一中训练获得的预训练模型进行任务迁移获得的模型，其同样包括多个特征融合部分，多个特征融合部分以模态数据中文本数据的文本特征为基础，以模态数据中图像数据的图像特征为辅助，将图像特征加和和拼接至文本特征中，以获得拼接特征。其中，特征融合部分包括多模态特征加和层和多模态特征拼接层；多模态特征加和层用于使用图像数据对应的图像特征对文本数据对应的文本特征进行特征加和，并基于加和后的特征进行文本特征提取；多模态特征拼接层，用于对文本特征提取结果和图像特征进行特征拼接，以获得拼接特征。

步骤S304：至少通过特征融合部分获得的拼接特征，对模态数据进行任务处理，并根据处理结果获得预设模态的任务数据。

与实施例一中的预训练模型类似，本实施例中的模态数据处理模型也包括有视觉编码器、文本编码器和解码器。其中，视觉编码器用于对待处理图像数据进行编码，以生成用于输入首个特征融合部分的初始的图像特征；文本编码器用于对待处理文本数据进行编码，以生成用于输入首个特征融合部分的初始的文本特征；解码器用于根据多个特征融合部分对模态数据输出的拼接特征，解码生成预设模态的任务数据。

在此基础上，当待处理的模态数据包括待处理图像数据和与待处理图像数据相对应的待处理文本数据时，上述至少通过特征融合部分获得的拼接特征，对模态数据进行任务处理可以实现为：针对多个特征融合部分中的某个特征融合部分，接收输入该特征融合部分的图像特征和文本特征，其中，首个特征融合部分接收的图像特征为待处理图像数据对应的图像特征，接收的文本特征为待处理文本数据对应的文本特征；通过该特征融合部分的多模态特征加和层，使用图像特征对文本特征进行特征加和，基于加和后的特征进行文本特征提取，获得加和后文本特征；通过该特征融合部分的多模态特征拼接层对加和后文本特征和图像特征进行特征拼接，并将特征拼接的结果作为下一特征融合部分的输入，直至获得最后一个特征融合部分输出的拼接特征；基于最后一个特征融合部分输出的拼接特征，对所述图像数据和文本数据进行任务处理。

示例性地，以模态数据处理模型包括两个特征融合部分，且两个特征融合部分均包括两个多模态特征加和层和一个多模态特征拼接层为例。

在第一个特征融合部分，文本编码器输出的文本特征被输入至第一个多模态特征加和层，在该多模态特征加和层，图像编码器输出的图像特征V’1被用于与文本特征T’11进行加和；然后，该多模态特征加和层对加和了图像特征V’1后的文本特征T’11进行特征提取，得到第一个多模态特征加和层输出的文本特征T’12。该第一个多模态特征加和层输出的文本特征T’12被输入至第二个多模态特征加和层，在该层，文本特征T’12再次与图像编码器输出的图像特征V’1进行加和；然后，该多模态特征加和层对再次加和了图像特征V’1后的文本特征T’12进行特征提取，得到第二个多模态特征加和层输出的文本特征T’13。依此类推，直至第一个特征融合部分的最后一个多模态特征加和层。

接着，该文本特征T’13将和图像特征V’1一起输入多模态特征拼接层进行特征拼接，在拼接后，文本特征融合了图像特征的信息，同样，图像特征中也融合了文本特征的信息。

拼接后的特征仍然分为两部分，包括与原图像特征相同维度的新图像特征，简单表示为V’2，以及与原文本特征相同维度的新文本特征，简单表示为T’21。

接着，在第二个特征融合部分，其第一个多模态特征加和层，图像特征V’2被用于与文本特征T’21进行加和；然后，该多模态特征加和层对加和了图像特征V’2后的文本特征T’21进行特征提取，得到第一个多模态特征加和层输出的文本特征T’22。该第一个多模态特征加和层输出的文本特征T’22被输入至第二个多模态特征加和层，在该层，文本特征T’22再次与图像编码器输出的图像特征V’2进行加和；然后，该多模态特征加和层对再次加和了图像特征V’2后的文本特征T’22进行特征提取，得到第二个多模态特征加和层输出的文本特征T’23。

接着，该文本特征T’23将和图像特征V’2一起输入第二个特征融合部分的多模态特征拼接层进行特征拼接，在拼接后，文本特征融合了图像特征的信息，同样，图像特征中也融合了文本特征的信息。

进而，第二个特征融合部分输出的完整的拼接特征将被输入解码器，以进行相应的任务处理，包括但不限于图像文本检索任务、视觉问答任务、视觉定位任务等。

而当待处理的模态数据仅为待处理图像数据时，上述至少通过特征融合部分获得的拼接特征，对模态数据进行任务处理可以实现为：针对多个特征融合部分中的某个特征融合部分，接收输入该特征融合部分的图像特征，其中，首个特征融合部分接收的图像特征为待处理图像数据对应的图像特征；通过该特征融合部分的多模态特征拼接层对图像特征进行特征处理，并将处理结果作为下一特征融合部分的输入，直至获得最后一个特征融合部分输出的拼接特征；基于最后一个特征融合部分输出的拼接特征，对图像数据进行任务处理。

仍以图3B中所示模型结构为示例，当输入模型的数据仅为图像数据时，因无文本数据，则对文本数据处理的模型部分，包括：文本解码器及主要进行文本特征提取的多模态特征加和层，将不再发挥作用。图像数据在通过视觉编码器进行编码，获得图像特征后，会通过多模态特征拼接层进行处理，此时，虽然没有文本特征与图像特征进行拼接，但因模型经训练阶段的参数调整，多模态特征拼接层将会从图像特征中提取到更为丰富的信息。经第一个多模态特征拼接层输出的图像特征，会被输入下一个多模态特征拼接层再次进行处理，进一步提取出更为丰富的图像特征。为便于说明，本申请实施例中，统一将多模态特征拼接层输出的特征统称为拼接特征。但在该种场景中，拼接特征主要为图像特征。最后一个多模态特征拼接层输出的拼接特征被输入解码器，以进行相应的任务处理，如生成图像描述文本的处理等。

不管是待处理的模态数据包括图像数据和文本数据，还是待处理的模态数据为图像数据，根据模态数据的处理结果获得的预设模态的任务数据可以为以下至少之一：基于待处理图像数据生成的文本数据(如图像描述任务、图像文本检索任务、视觉问答任务等)和/或图像定位数据(如视觉定位任务等)。

可见，通过本实施例，在进行多模态数据处理场景，尤其是文本数据和图像数据的处理场景中，使用了预设的模态数据处理模型。因该模型中的多个特征融合部分可以以文本特征为基础，以图像特征为辅助，为文本特征进行图像特征的加和和拼接，从而使得在以文本特征为基础以图像特征为辅助时，既不会使图像特征掩没或对文本特征产生较大的影响，又可以使得文本特征可携带丰富的图像信息，或者说，可以图像信息为文本特征的补充。由此，虽然文本数据的数量仍然小于图像数据，但因图像特征的参与，可有效避免这种数据的不对称，从而获得更能准确表达图像信息的文本特征，提升对多模态数据处理的准确度。进而，也实现了更为精准和高效的任务处理。

以下，以多个场景为示例，对上述过程进行示例性说明。

第一个场景-图像描述任务场景：

该场景中，基于前述模态数据处理模型，实现图像描述任务的过程可包括：获取待处理的图像数据；通过预设的模态数据处理模型，获得图像数据对应的描述文本数据，该描述文本数据用于对图像数据的内容进行描述，模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，如通过实施例一中所述的方法训练获得的模型。

例如，如图4B中所示，图像内容为某人坐于沙发上看书，其前桌子上的智能音箱在播放歌曲。该图像被输入模态数据处理模型后，依次通过视觉编码器-多个特征融合部分(多个特征融合部分的多模态特征拼接层)-解码器的处理，可输出相应的针对该图像的描述文本数据，如“有位女士坐于沙发上看书，并且，在收听前面桌子上的智能音箱播放的歌曲”等。

第二个场景-图像文本检索任务场景：

该场景中，基于前述模态数据处理模型，实现图像描述任务的过程可包括：获取待处理的图像数据和用于对图像数据中的内容进行检索的文本检索要求数据；通过预设的模态数据处理模型，从图像数据中检索获得文本检索要求数据对应的检索结果，检索结果用于通过文本说明对图像数据进行检索获得的图像内容结果，模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，如通过实施例一中所述的方法训练获得的模型。

例如，如图4C中所示，图像内容为某人坐于沙发上看书，其前桌子上的智能音箱在播放歌曲。其对应的文本检索要求数据为“图像中是否有人？”。该图像及文本检索要求数据被输入模态数据处理模型后，依次通过(视觉编码器+文本编码器)-多个特征融合部分-解码器的处理，可输出针对该图像的文本检索要求数据的文本形式的检索结果，如“有人”。

第三个场景-视觉问答任务场景：

该场景中，基于前述模态数据处理模型，实现图像描述任务的过程可包括：获取待处理的图像数据和图像数据对应的文本问题数据；通过预设的模态数据处理模型，获得基于图像数据的文本答案数据，模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，如通过实施例一中所述的方法训练获得的模型。

例如，如图4D中所示，图像内容为某人坐于沙发上看书，其前桌子上的智能音箱在播放歌曲。其对应的文本问题数据为“图像中的人在干吗？”。该图像及文本问题数据被输入模态数据处理模型后，依次通过(视觉编码器+文本编码器)-多个特征融合部分-解码器的处理，可输出针对该图像的文本问题数据的答案文本，如“图像中的人在读书”。

第四个场景-视觉定位任务场景：

该场景中，基于前述模态数据处理模型，实现图像描述任务的过程可包括：获取待处理的图像数据和用于对图像数据中的目标进行定位的文本定位请求数据；通过预设的模态数据处理模型，基于图像数据获得所述目标的定位信息，定位信息用于通过文本说明目标在图像数据中的位置，模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，如通过实施例一中所述的方法训练获得的模型。

例如，如图4E中所示，图像内容为某人坐于沙发上看书，其前桌子上的智能音箱在播放歌曲。其对应的文本定位请求数据为“图像中的智能音箱在什么位置？”。该图像及文本定位请求数据被输入模态数据处理模型后，依次通过(视觉编码器+文本编码器)-多个特征融合部分-解码器的处理，可输出针对该图像的文本定位请求数据确定的定位信息，如“图像中的智能音箱在沙发前面的桌子上，图像坐标XXXXXX”。

可见，进行了任务迁移后的预训练模型可有效应用于下游的各种任务场景中。

需要说明的是，上述多个场景仅为示例性说明，本申请实施例的方案不限于上述场景。此外，在上述多模态数据处理方法及上述场景示例中，部分步骤的描述较为简单，本领域技术人员可参照实施例一中的相关描述实现这些步骤，在此不再赘述。

实施例三

参照图5，示出了根据本申请实施例三的一种多模态数据处理方法的步骤流程图。

在某些场景中，后台服务端也可能存在相关的工作人员，因此，本申请实施例的方案也可实现为借助于后台工作人员的方案，以在存在多个模态数据处理模型时，准确确定所需的模态数据处理模型。

基于此，本实施例的多模态数据处理方法包括以下步骤：

步骤S301：获取待处理的模态数据。

本实施例中，待处理的模态数据可以为多模态数据，如，图像数据及其对应的文本数据。但不限于此，单模态数据如图像数据的情况也可同样适用于本实施例的方案。

步骤S303：接收通过交互界面输入的、用于对模态数据进行处理的模态数据处理模型的信息。

此种情况下，系统会提供交互界面，在该交互界面中可显示待处理的模态数据，以及至少一个待使用的模态数据处理模型的信息。用户可通过勾选或点选的方式，选择需要使用的模态数据处理模型。

步骤S305：调用所述信息所指示的模态数据处理模型，以对模态数据进行处理，并根据处理结果获得预设模态的任务数据。

其中，模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，预训练模型如通过前述实施例一中所述方法训练获得的模型。该模态数据处理模型包括多个特征融合部分，多个特征融合部分以模态数据中文本数据的文本特征为基础，以模态数据中图像数据的图像特征为辅助，将图像特征加和和拼接至文本特征中，以获得拼接特征；进而，至少通过特征融合部分获得的拼接特征，对模态数据进行任务处理，并根据处理结果获得预设模态的任务数据。

可选地，预设模态的任务数据可以包括以下至少之一：基于待处理图像数据生成的文本数据(如图像描述任务、图像文本检索任务、视觉问答任务等)和/或图像定位数据(如视觉定位任务等)。

通过本实施例，使用模态数据处理模型对模态数据进行处理，因该模型中的多个特征融合部分可以以文本特征为基础，以图像特征为辅助，为文本特征进行图像特征的加和和拼接，从而使得在以文本特征为基础以图像特征为辅助时，既不会使图像特征掩没或对文本特征产生较大的影响，又可以使得文本特征可携带丰富的图像信息，或者说，可以图像信息为文本特征的补充。从而，有效避免了多模态数据的不对称，提升了对多模态数据处理的准确度，也实现了更为精准和高效的任务处理。此外，通过交互界面，实现了后台工作人员对模态数据处理模型的筛选和控制，提高了方案灵活性。

本实施例中部分步骤的实现描述较为简单，具体实现时，可参照前述多个实施例中相关部分的描述即可。

实施例四

参照图6，示出了根据本申请实施例四的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图6所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它电子设备或服务器进行通信。

处理器402，用于执行程序410，具体可以执行上述任一方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是CPU，或者是特定集成电路ASIC(ApplicationSpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具有可执行指令，该可执行指令在执行时可使得处理器402执行前述多个方法实施例中任一实施例所描述的方法对应的操作。

程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述多个方法实施例中的任一所述的方法。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。

此外，需要说明的是，本申请实施例所涉及到的与用户有关的信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于对模型进行训练的样本数据、用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种多模态数据处理方法，包括：

获取待处理的模态数据，并将所述模态数据输入预设的模态数据处理模型，其中，所述模态数据处理模型基于训练完成的预训练模型进行任务迁移获得，所述模态数据处理模型包括多个特征融合部分，所述多个特征融合部分以所述模态数据中文本数据的文本特征为基础，以模态数据中图像数据的图像特征为辅助，将所述图像特征加和和拼接至所述文本特征中，以获得拼接特征；

至少通过所述特征融合部分获得的拼接特征，对所述模态数据进行任务处理，并根据处理结果获得预设模态的任务数据。

2.根据权利要求1所述的方法，其中，所述特征融合部分包括多模态特征加和层和多模态特征拼接层；

所述多模态特征加和层用于使用所述图像数据对应的图像特征对所述文本数据对应的文本特征进行特征加和，并基于加和后的特征进行文本特征提取；

所述多模态特征拼接层，用于对文本特征提取结果和所述图像特征进行特征拼接，以获得拼接特征。

3.根据权利要求2所述的方法，其中，当所述待处理的模态数据包括待处理图像数据和与所述待处理图像数据相对应的待处理文本数据时，所述至少通过所述特征融合部分获得的拼接特征，对所述模态数据进行任务处理，包括：

针对所述多个特征融合部分中的某个特征融合部分，接收输入该特征融合部分的图像特征和文本特征，其中，首个特征融合部分接收的图像特征为所述待处理图像数据对应的图像特征，接收的文本特征为所述待处理文本数据对应的文本特征；

通过该特征融合部分的多模态特征加和层，使用所述图像特征对所述文本特征进行特征加和，基于加和后的特征进行文本特征提取，获得加和后文本特征；

通过该特征融合部分的多模态特征拼接层对加和后文本特征和所述图像特征进行特征拼接，并将特征拼接的结果作为下一特征融合部分的输入，直至获得最后一个特征融合部分输出的拼接特征；

基于最后一个特征融合部分输出的拼接特征，对所述图像数据和文本数据进行任务处理。

4.根据权利要求2所述的方法，其中，当所述待处理的模态数据为待处理图像数据时，所述至少通过所述特征融合部分获得的拼接特征，对所述模态数据进行任务处理，包括：

针对所述多个特征融合部分中的某个特征融合部分，接收输入该特征融合部分的图像特征，其中，首个特征融合部分接收的图像特征为所述待处理图像数据对应的图像特征；

通过该特征融合部分的多模态特征拼接层对所述图像特征进行特征处理，并将处理结果作为下一特征融合部分的输入，直至获得最后一个特征融合部分输出的拼接特征；

基于最后一个特征融合部分输出的拼接特征，对所述图像数据进行任务处理。

5.根据权利要求3或4所述的方法，其中，所述模态数据处理模型还包括：连接于所述多个特征融合部分之前的视觉编码器和文本编码器；

所述视觉编码器用于对所述待处理图像数据进行编码，以生成用于输入首个特征融合部分的初始的图像特征；

所述文本编码器用于对所述待处理文本数据进行编码，以生成用于输入首个特征融合部分的初始的文本特征。

6.根据权利要求5所述的方法，其中，所述模态数据处理模型还包括：连接于所述多个特征融合部分之后的解码器；

所述解码器用于根据所述多个特征融合部分输出的拼接特征，解码生成预设模态的任务数据。

7.根据权利要求1-4任一项所述的方法，其中，当所述待处理的模态数据至少包括待处理图像数据时，所述预设模态的任务数据包括以下至少之一：基于所述待处理图像数据生成的文本数据和/或图像定位数据。

8.一种预训练模型的预训练方法，其中，所述预训练模型包括视觉编码器、文本编码器、多个特征融合部分和解码器；所述方法包括：

获取用于对所述预训练模型进行预训练的训练样本，所述训练样本包括图像样本数据和所述图像样本数据对应的文本样本数据；

通过所述视觉编码器对所述图像样本数据进行编码处理，获得图像样本特征，并且，通过所述文本编码器对所述文本样本特征进行编码处理，获得文本样本特征；

将所述图像样本特征和所述文本样本特征输入所述多个特征融合部分，以通过所述多个特征融合部分以所述文本样本特征为基础，以所述图像样本特征为辅助，将所述图像样本特征加和和拼接至所述文本样本特征中，以获得拼接特征；

将所述拼接特征输入所述解码器，以预测生成预设模态的模态样本数据；

基于所述模态样本数据和预设的损失函数，对所述多模态数据处理模型进行预训练。

9.一种多模态数据处理方法，包括：

获取待处理的模态数据；

接收通过交互界面输入的、用于对所述模态数据进行处理的模态数据处理模型的信息；

调用所述信息所指示的模态数据处理模型，以对所述模态数据进行处理，并根据处理结果获得预设模态的任务数据，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如权利要求8所述的方法训练获得。

10.一种多模态数据处理方法，包括：

获取待处理的图像数据；

通过预设的模态数据处理模型，获得所述图像数据对应的描述文本数据，所述描述文本数据用于对所述图像数据的内容进行描述，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如权利要求8所述的方法训练获得。

11.一种多模态数据处理方法，包括：

获取待处理的图像数据和用于对所述图像数据中的内容进行检索的文本检索要求数据；

通过预设的模态数据处理模型，从所述图像数据中检索获得所述文本检索要求数据对应的检索结果，所述检索结果用于通过文本说明对所述图像数据进行检索获得的图像内容结果，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如权利要求8所述的方法训练获得。

12.一种多模态数据处理方法，包括：

获取待处理的图像数据和所述图像数据对应的文本问题数据；

通过预设的模态数据处理模型，获得基于所述图像数据的文本答案数据，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如权利要求8所述的方法训练获得。

13.一种多模态数据处理方法，包括：

获取待处理的图像数据和用于对所述图像数据中的目标进行定位的文本定位请求数据；

通过预设的模态数据处理模型，基于所述图像数据获得所述目标的定位信息，所述定位信息用于通过文本说明所述目标在所述图像数据中的位置，所述模态数据处理模型为基于训练完成的预训练模型进行任务迁移后获得的模型，所述预训练模型通过如权利要求8所述的方法训练获得。

14.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-13中任一项所述的方法对应的操作。