CN117764115A

CN117764115A - 多模态模型的多任务预训练方法、多模态识别方法及设备

Info

Publication number: CN117764115A
Application number: CN202311591998.2A
Authority: CN
Inventors: 蔡沅沅; 万根顺; 熊世富; 高建清; 潘嘉; 付中华
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-26

Abstract

本申请公开了一种多模态模型的多任务预训练方法、多模态识别方法及设备，多模态模型包括多模态深度神经网络模型及任务类型编码器，在获取到不同类型的多模态识别任务所对应的多模态训练数据后，为多模态训练数据标记对应的任务类型标识，在多模态模型训练过程通过任务类型编码器对多模态训练数据标记的任务类型标识进行编码，编码结果输入多模态深度神经网络模型，且多模态深度神经网络模型的输入还包括多模态训练数据，通过一个多模态模型同时对多种不同类型的多模态训练数据进行训练，训练后的多模态模型具有对多种不同类型的多模态信息建模的能力，该能力可以通过任务类型标识进行选择调用，节省了训练资源。

Description

多模态模型的多任务预训练方法、多模态识别方法及设备

技术领域

本申请涉及人工智能技术领域，更具体的说，是涉及一种多模态模型的多任务预训练方法、多模态识别方法及设备。

背景技术

随着人工智能技术的发展，越来越多的领域涉及到多模态识别，如基于多模态数据的唇语识别、语音识别、情感识别、图像语义识别等等。

在自动多模态识别领域中，针对端到端的深度学习多模态识别方法，由于带有精确标注的多模态数据较稀缺而无标注的数据资源非常丰富，故多模态模型大多需要先使用大量无标注的多模态数据进行预训练，使模型获得一定的多模态数据信息抽取和建模能力，再附加相应下游任务解码模型，使用少量标注数据，进行下游任务微调训练，使其具有特定任务的识别能力，实现相应的多模态识别功能。

然而多模态识别任务存在多种类型，如前所述的唇语识别、语音识别、情感识别、图像语义识别等等，如果需要实现多种类型的多模态识别功能，现有技术一般使用多种类型的多模态数据对多个多模态模型进行不同种类的预训练，得到预训练后的多个不同的多模态模型，使得预训练后的不同多模态模型具有对应类型的多模态识别能力。但预训练多个多模态模型需要大量的时间成本与显卡资源，代价较大。

发明内容

鉴于上述问题，提出了本申请以便提供一种多模态模型的多任务预训练方法、多模态识别方法、装置、设备及存储介质，以降低多模态模型多任务预训练过程的成本开销。具体方案如下：

第一方面，提供了一种多模态模型的多任务预训练方法，所述多模态模型包括多模态深度神经网络模型及任务类型编码器，方法包括：

获取不同类型的多模态识别任务所对应的多模态训练数据，所述多模态训练数据包括音频模态、视觉模态、文本模态中至少两种模态的训练数据；

为所述多模态训练数据标记对应的任务类型标识；

采用标记有任务类型标识的多模态训练数据，按照设定的预训练任务对所述多模态模型进行预训练，训练时所述多模态训练数据作为所述多模态深度神经网络模型的输入，所述多模态训练数据标记的任务类型标识通过所述任务类型编码器进行编码，编码结果也作为所述多模态深度神经网络模型的输入。

优选地，为所述多模态训练数据标记对应的任务类型标识的过程，包括：

按照所述多模态训练数据的来源，确定所述多模态训练数据的数据类型；

根据所述多模态训练数据的数据类型，为所述多模态训练数据标记对应的任务类型标识。

优选地，根据所述多模态训练数据的数据类型，为所述多模态训练数据标记对应的任务类型标识的过程，包括：

参考预设的数据类型与任务类型标识间的对应关系，确定所述多模态训练数据的任务类型标识；

或，

参考预设的数据类型与数据属性标签间的对应关系，确定所述多模态训练数据所具备的属性标签，所述属性标签用于表示多模态训练数据所具备的数据特点；

参考预设的每一类型多模态识别任务对训练数据的属性要求，确定所述多模态训练数据所具备的属性标签所满足的目标属性要求，并将所述目标属性要求所对应的多模态识别任务的任务类型标识标记给所述多模态训练数据。

优选地，所述多模态深度神经网络模型包括音频特征提取模块、视觉特征提取模块、文本特征提取模块中的至少两种模块，以及，多模态特征编码器；

其中，所述音频特征提取模块用于提取输入的音频模态数据的音频特征并送入所述多模态特征编码器，所述视觉特征提取模块用于提取输入的视觉模态数据的视觉特征并送入所述多模态特征编码器，所述文本特征提取模块用于提取输入的文本模态数据的文本特征并送入所述多模态特征编码器；

所述多模态特征编码器用于对输入的特征进行深层次编码，得到多模态编码特征。

优选地，所述任务类型标识为任务类型ID编号。

优选地，由预训练后的所述多模态模型分别拼接不同任务类型的下游解码器模块，得到处理不同类型任务的多模态识别模型，该方法还包括：

对于处理每一类型任务的多模态识别模型，获取所述类型任务的有标注多模态训练数据，采用所述有标注多模态训练数据和所述类型任务的任务类型标识，对所述多模态识别模型进行微调训练。

第二方面，提供了一种多模态识别方法，包括：

获取待处理的多模态数据，并确定当前所要执行的多模态识别任务的目标任务类型标识；

调用与所述当前所要执行的多模态识别任务匹配的多模态识别模型，所述多模态识别模型为采用权利要求6的方法微调训练得到的用于处理所述当前所要执行的多模态识别任务的多模态识别模型；

将所述目标任务类型标识及所述待处理的多模态数据输入所述多模态识别模型，得到所述多模态识别模型输出的识别结果。

第三方面，提供了一种多模态模型的多任务预训练装置，所述多模态模型包括多模态深度神经网络模型及任务类型编码器，装置包括：

训练数据获取单元，用于获取不同类型的多模态识别任务所对应的多模态训练数据，所述多模态训练数据包括音频模态、视觉模态、文本模态中至少两种模态的训练数据；

任务类型标识确定单元，用于为所述多模态训练数据标记对应的任务类型标识；

预训练单元，用于采用标记有任务类型标识的多模态训练数据，按照设定的预训练任务对所述多模态模型进行预训练，训练时所述多模态训练数据作为所述多模态深度神经网络模型的输入，所述多模态训练数据标记的任务类型标识通过所述任务类型编码器进行编码，编码结果也作为所述多模态深度神经网络模型的输入。

优选地，由预训练后的所述多模态模型分别拼接不同任务类型的下游解码器模块，得到处理不同类型任务的多模态识别模型，该装置还包括：

下游微调训练单元，用于对于处理每一类型任务的多模态识别模型，获取所述类型任务的有标注多模态训练数据，采用所述有标注多模态训练数据和所述类型任务的任务类型标识，对所述多模态识别模型进行微调训练。

第四方面，提供了一种多模态识别装置，包括：

待处理数据获取单元，用于获取待处理的多模态数据，并确定当前所要执行的多模态识别任务的目标任务类型标识；

模型调用单元，用于调用与所述当前所要执行的多模态识别任务匹配的多模态识别模型，所述多模态识别模型为采用前述多模态模型的多任务预训练装置微调训练得到的用于处理所述当前所要执行的多模态识别任务的多模态识别模型；

计算单元，用于将所述目标任务类型标识及所述待处理的多模态数据输入所述多模态识别模型，得到所述多模态识别模型输出的识别结果。

第五方面，提供了一种多模态模型的多任务预训练设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如前所述的多模态模型的多任务预训练方法的各个步骤。

第六方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的多模态模型的多任务预训练方法的各个步骤。

借由上述技术方案，本申请提供的多模态模型在包括传统的多模态深度神经网络模型的基础上进一步增加了任务类型编码器，在获取到不同类型的多模态识别任务所对应的多模态训练数据后，为多模态训练数据标记对应的任务类型标识，进而采用标记有任务类型标识的多模态训练数据，按照设定的预训练任务对多模态模型进行预训练，训练过程通过任务类型编码器对多模态训练数据标记的任务类型标识进行编码，编码结果作为多模态深度神经网络模型的输入，且多模态深度神经网络模型的输入还包括多模态训练数据本身，由此可以实现通过一个多模态模型同时对多种不同类型的多模态训练数据进行训练，训练后的多模态模型具有对多种不同类型的多模态信息建模的能力，该能力可以通过任务类型标识进行选择调用，也即针对不同类型的下游任务，在向预训练后的多模态模型输入待处理的多模态数据的同时，可以一并输入任务类型标识，从而可以实现多种类型的下游任务的快速迁移，而不需要分别训练多个处理不同类型任务的多模态模型，大大降低了时间成本与显卡资源，节省了训练资源。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示例了一种多模态模型结构示意图；

图2示例了一种多模态模型的多任务预训练方法流程示意图；

图3示例了另一种多模态模型结构示意图；

图4示例了一种多模态模型的预训练框架示意图；

图5示例了一种多模态语音识别模型结构示意图；

图6示例了一种多模态情感识别模型结构示意图；

图7示例了一种多模态语音识别模型的微调训练框架示意图；

图8示例了一种多模态识别方法流程示意图；

图9示例了一种多模态模型的多任务预训练装置结构示意图；

图10示例了一种多模态识别装置结构示意图；

图11示例了一种多模模型的多任务预训练设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种利用任务类型标识进行基于多类型多模态数据的多模态模型预训练方案，可以通过一个携带有任务类型编码器的多模态模型，实现基于多类型的多模态数据进行预训练，使得训练后的多模态模型具备对多种不同类型的多模态信息建模的能力，该能力可以通过任务类型标识选择调用，进一步通过在预训练后的多模态模型上添加不同的下游任务解码模块，可以得到处理不同下游任务的多模态识别模型，进而对相应的任务数据进行处理，以得到多模态识别结果。

本申请预训练的多模态模型可以适用于处理多种不同类型的多模态识别任务，包括但不限于：

图像识别和分类：给定一张图片，将其分类到不同的类别，并且根据图片生成相应的文字描述。

视频理解：对视频进行理解，包括视频中的物体识别、行为识别等。

语音识别和生成：将语音转化为文字，或者将文字转化为语音。

自然语言处理：对自然语言进行处理，包括情感分析、语言翻译等。

跨模态检索：在图像、文本、音频等多种类型的数据中，检索与某一模态对应的信息。

多模态交互：实现不同模态之间的交互，例如语音与手势的结合、视觉与触觉的结合等。

多模态学习：通过结合不同模态的数据，提高学习效果和理解能力。

下面结合前述的应用场景，对本申请提供的方法流程进行介绍。

本申请提供的方法可以分为多模态模型训练阶段和推理阶段，训练阶段即对多模态模型进行多任务预训练，以及对预训练后的多模态模型使用下游有标注的任务数据进行微调训练得到具体的多模态识别模型的阶段，推理阶段即利用微调训练后的多模态识别模型进行下游任务的多模态识别的过程。其中，训练阶段和推理阶段可以部署于相同的设备中，也可以部署于不同的设备中。例如，训练阶段可以部署于云端或者服务器中，推理阶段则可以部署于智能终端中，如手机、平板、智能车、机器人或者穿戴设备中等。

为便于理解，本申请分别对训练阶段和推理阶段的流程进行介绍。

一、训练阶段

在介绍多模态模型的预训练方法之前，首先对多模态模型的结构进行说明。

如图1所示，本实施例提供的多模态模型在包含传统的多模态深度神经网络模型的基础上，进一步包含有任务类型编码器。

其中，多模态深度神经网络模型可以选用多种网络结构，示例如可以选择经典的适用于序列建模的模型结构Transformer，等。

多模态数据可以作为多模态深度神经网络模型的输入。此外，为了实现通过一个多模态模型对多种不同类型的多模态数据进行学习，可以确定多模态数据的任务类型标识，进而将任务类型标识通过任务类型编码器进行编码，编码结果一并输入到多模态深度神经网络模型中进行处理。

结合图2所述，本申请的多模态模型的多任务预训练方法可以包括如下步骤：

步骤S100、获取不同类型的多模态识别任务所对应的多模态训练数据。

具体地，多模态识别任务有多种不同的类型，如前文介绍的语音识别、情感识别、目标检测、事件监测、图像识别和分类等等，对于每一种类型的多模态识别任务，需要采用对应的多模态训练数据对模型进行预训练。本实施例中为了训练得到能够同时处理多种不同类型的多模态识别任务的多模态模型，可以获取各类型的多模态识别任务所对应的多模态训练数据。其中，多模态训练数据可以包括音频模态、视觉模态、文本模态中至少两种模态的训练数据。

其中，多模态训练数据可以通过公开的数据集获取，也可以从其它合法渠道获取。

步骤S110、为所述多模态训练数据标记对应的任务类型标识。

具体地，上一步骤中是按照多模态识别任务的类型来获取对应的多模态训练数据，也即可以得到多模态训练数据及多模态识别任务的类型间的对应关系，在此基础上，可以为多模态训练数据标记对应的任务类型标识。其中，任务类型标识用于唯一表示多模态识别任务的类型，不同类型的多模态识别任务的任务类型标识不同，从而方便通过任务类型标识来区分不同的多模态识别任务。

任务类型标识可以通过任务类型编码ID的形式体现，如任务类型ID从0开始依序取不同整数，分别代表不同类型的多模态识别任务。此外，任务类型标识还可以采用设定的字符、符号、图标、图像、音频等形式来体现，保证不同的多模态识别任务的任务类型标识的唯一性及可编码性即可。为了便于表述，下文实施例中以任务类型编码ID来表示任务类型标识。

步骤S120、采用标记有任务类型标识的多模态训练数据，对包含多模态深度神经网络模型及任务类型编码器的多模态模型进行预训练。

具体地，可以按照设定的预训练任务对多模态模型进行预训练，训练时结合图1所示，多模态训练数据作为多模态深度神经网络模型的输入，多模态训练数据标记的任务类型标识通过任务类型编码器进行编码，编码结果也作为多模态深度神经网络模型的输入，使得多模态模型可以根据任务类型标识对输入的多模态训练数据进行对应模式的学习，获得不同数据特征的提取和建模能力。通过对多种任务类型的多模态训练数据进行学习，预训练后的多模态模型可以获得对不同类型多模态数据的建模编码能力，该能力可以通过任务类型标识进行选择调用。

其中，预训练任务可以包括多种，示例如：掩蔽文本预测、掩蔽图像预测、图片-文本对齐等等。

本申请提供的多模态模型在包括传统的多模态深度神经网络模型的基础上进一步增加了任务类型编码器，在获取到不同类型的多模态识别任务所对应的多模态训练数据后，为多模态训练数据标记对应的任务类型标识，进而采用标记有任务类型标识的多模态训练数据，按照设定的预训练任务对多模态模型进行预训练，训练过程通过任务类型编码器对多模态训练数据标记的任务类型标识进行编码，编码结果作为多模态深度神经网络模型的输入，且多模态深度神经网络模型的输入还包括多模态训练数据本身，由此可以实现通过一个多模态模型同时对多种不同类型的多模态训练数据进行训练，训练后的多模态模型具有对多种不同类型的多模态信息建模的能力，该能力可以通过任务类型标识进行选择调用，也即针对不同类型的下游任务，在向预训练后的多模态模型输入待处理的多模态数据的同时，可以一并输入任务类型标识，从而可以实现多种类型的下游任务的快速迁移，而不需要分别训练多个处理不同类型任务的多模态模型，大大降低了时间成本与显卡资源，节省了训练资源。

进一步对上述实施例中步骤S110，为多模态训练数据标记对应的任务类型标识的过程进行说明。

一种可选的方式下，若步骤S100中可以明确获取的多模态训练数据所属的多模态识别任务的类型，则可以直接为对应的多模态训练数据标记对应的任务类型标识。示例如，从已公开的每一类型的多模态识别任务对应的训练数据集中获取多模态训练数据，则可以直接为获取的多模态训练数据标记其所属的多模态识别任务的任务类型标识。

另一种可选的方式下，可以通过多种数据源来获取不同的多模态训练数据，进一步可以根据数据来源对多模态训练数据进行数据类型的标记。以音频和视频模态的多模态训练数据为例，对多模态训练数据的数据类型的标记包括但不限于：影视剧、纪录片、话剧、访谈节目、综艺节目、相声、小品、情景剧、新闻发布会、体育解说、游戏解说、监控视频、网络课堂等数据类型。

可以理解的是，不同类型数据具有其独特的属性特点，仍以音、视频多模态训练数据为例，其属性特点如：数据是否包含人脸、是否存在语音、人脸与语音是否同步且一致、人脸是否存在明显的表情或情绪、视频与语音是否具有相关性等。由此可知，不同类型的多模态训练数据可能适用于不同类型的多模态识别任务，因此本实施例中可以根据多模态训练数据的数据类型，为多模态训练数据标记对应的任务类型标识。

示例性的，本申请可以预先建立数据类型与任务类型标识间的对应关系，具有对应关系的目标数据类型和目标任务类型标识之间满足：所述目标数据类型的多模态训练数据可以作为目标任务类型标识的多模态识别任务的训练数据。如，小品类型的多模态训练数据可以作为多模态语音识别类型任务的训练数据。

在此基础上可以参考预设的数据类型与任务类型标识间的对应关系，确定多模态训练数据的任务类型标识，也即为多模态训练数据标记对应的任务类型标识。

再一种可选的示例中，如前所述，不同数据类型的多模态训练数据拥有其个性化的属性特点，本申请可以预先收集各类型多模态训练数据的属性特点，进而制作数据属性标签集合。如数据是否包含人脸标签、是否存在语音标签、人脸与语音是否同步且一致标签、人脸是否存在明显的表情或情绪标签、视频与语音是否具有相关性标签等。在此基础上，可以建立数据类型与数据属性标签间的对应关系。进一步，参考该预设的数据类型与数据属性标签间的对应关系，确定多模态训练数据所具备的属性标签。

另一方面，每一种类型的多模态识别任务对训练数据也存在一定的属性要求，示例如，多模态语音识别任务要求训练数据包含人脸且存在语音，同时人脸和语音同步且一致。可知每一种类型的多模态识别任务对训练数据所存在的属性要求也可以整理为对训练数据所要具备的属性标签的要求。也即，可以预先整理得到每一类型多模态识别任务对训练数据的属性要求。在此基础上，可以确定多模态训练数据所具备的属性标签所满足的目标属性要求，进而将目标属性要求所对应的多模态识别任务的任务类型标识标记给所述多模态训练数据。

也即，多模态训练数据和多模态识别任务之间通过属性标签建立起对应关系，进而可以为多模态训练数据标记对应的任务类型标识。

本实施例中示例几种不同类型的多模型训练数据与任务类型标识间的对应关系：

小品和访谈节目等语言类节目中往往包含大量人脸且存在语音，同时人脸与语音同步且一致，则针对此语言类节目的多模态训练数据可以标记为多模态语音识别任务(任务类型标识示例如ID：0)、多模态语音活动性检测任务(示例如ID：1)、多模态语音分离任务(示例如ID：2)和多模态语音视频合成类型任务(示例如ID：3)。

小品、话剧和影视剧等音视频数据中包含人脸且人脸上会存在较明显的表情或情绪，则针对此类多模态训练数据可以标记为多模态情感识别等任务(示例如ID：4)。

体育解说和游戏解说等音视频数据中，视频画面与音频语音具有强相关性，则针对此类多模态训练数据可以标记为多模态目标检测任务(示例如ID：5)、多模态事件检测任务(示例如ID：6)。

监控视频数据中的视频与音频具有强相关性，则针对此类多模态训练数据可以标记为多模态事件检测任务(示例如ID：6)。

在本申请的一些实施例中，进一步对多模态模型的结构进行说明。

如图3所示，多模态模型包括多模态深度神经网络模型和任务类型编码器。其中，多模态深度神经网络模型可以包括音频特征提取模块、视觉特征提取模块、文本特征提取模块中的至少两种模块(图3示例的为同时包含三种模块的情况)，以及，多模态特征编码器。

其中，输入的多模态数据经过模态分类，音频模态的数据送入音频特征提取模块，视觉模态的数据送入视觉特征提取模块、文本模态的数据送入文本特征提取模块，三种特征提取模块提取的特征经过特征融合后送入多模态特征编码器，多模态特征编码器对输入的特征进行深层次编码，得到多模态编码特征。

其中，多模态特征编码器可以采用多种结构的编码器，示例如可以选择Transformer的编码器Encoder。

针对上述图3示例的多模态模型，本申请实施例中提供了一种多模态模型的预训练框架，通过教师模型对多模态模型(可以认为学生模型)进行预训练，具体过程可以参照图4所示：

图4中多模态特征编码器采用Transformer Encoder结构，分别设置了学生模型和教师模型，两个模型的结构完全相同，学生模型为所要训练的模型，在迭代训练过程中不断更新学生模型的参数，且将学生模型的参数赋予给教师模型。

多模态训练数据进行模态分离并各自提取特征后经过特征融合，得到融合特征。融合特征一条分支直接输入到教师模型，另一条分支经过特征掩蔽后送入学生模型。同时，任务类别标识经过编码后的结果分别送入学生模型和教师模型。

学生模型提取到多模态掩蔽编码特征，与教师模型提取到的多模态编码特征(作为训练目标)计算MSE损失，并按照损失值来更新模型参数，直至达到设定训练结束条件后，由音频特征提取模块、视觉特征提取模块、文本特征提取模块任务类型编码器和学生模型组成预训练后的多模态模型。

可以理解的是，图4仅示例了一种预训练任务下对多模态模型的训练方式，除此之外还可以采用其他的预训练任务对多模态模型进行训练，本实施例不再赘述。

在得到预训练后的多模态模型之后，可以进一步在多模态模型之后拼接不同任务类型的下游解码器模块，得到处理不同类型任务的多模态识别模型，进而使用对应类型任务场景下少量含标注的多模态训练数据和对应任务类型标识对多模态识别模型进行微调训练，使各下游多模态识别模型获得相应任务场景下的多模态识别能力。

参照图5和图6，其中图5示例的为在预训练后的多模态模型上拼接多模态语音识别解码器，得到多模态语音识别模型。图6示例的为在预训练后的多模态模型上拼接多模情感识别解码器，得到多模态情感识别模型。当然图5和图6仅示例了两种可选的例子，除此之外还可以拼接其它任务类型的下游解码器模块，得到处理其他类型任务的多模态识别模型。

进一步地，对于得到的处理每一下游任务的多模态识别模型，其任务类型编码器的输入也随着下游任务的类型而固定，如图5，对于多模态语音识别模型，其任务类型编码器的输入即固定为多模态语音识别任务标识。如图6，对于多模态情感识别模型，其任务类型编码器的输入即固定为多模态情感识别任务标识。

参照图7，其示例了对于多模态语音识别模型的微调训练过程。

图7以多模态语音识别模型为例，首先获取多模态语音识别任务对应的带标注训练数据，对其进行音视频数据分离，并通过音频特征提取模块提取音频特征，通过视觉特征提取模块提取视觉特征，并经过特征融合，将融合特征送入多模态特征编码器，即图7所示的Transformer Encoder。同时，将多模态语音识别任务对应的任务类型标识(图7中以ID：0作为任务类型标识)通过任务类型编码器进行编码，编码结果也送入TransformerEncoder。Transformer Encoder编码得到输出的多模态编码特征，多模态编码特征进一步送入多模态语音识别解码器，经过解码得到模型输出的语音识别结果，与音视频数据标签之间计算交叉熵损失，并基于计算的损失值更新多模态语音识别模型的参数，直至达到设定训练结束条件为止，得到微调训练后的多模态语音识别模型。

二、推理阶段

基于前述实施例介绍的模型训练阶段的实施方案，可以得到处理不同类型任务的多模态识别模型，在使用对应类型任务场景下少量含标注的多模态训练数据和对应任务类型标识对多模态识别模型进行微调训练，使各下游多模态识别模型获得相应任务场景下的多模态识别能力。

本实施例中基于微调训练后的多模态识别模型，介绍一种多模态识别方法，参照图8所示，具体包括如下步骤：

步骤S200、获取待处理的多模态数据，并确定当前所要执行的多模态识别任务的目标任务类型标识。

如前文所述，

多模态识别任务有多种类型，本步骤中可以根据当前所要进行的多模态识别任务，获取对应的待处理的多模态数据。以多模态语音识别为例，待处理的多模态数据可以包括音视频数据。

进一步，确定当前所要执行的多模态识别任务的目标任务类型标识，该目标任务类型标识与多模态模型预训练阶段所采用的多模态识别任务的任务类型标识保持一致。以前文预训练阶段对多模态语音识别任务定义的任务类型标识ID：0为例，若当前所要执行的多模态识别任务为多模态语音识别，则此处确定的目标任务类型标识也为ID：0。

步骤S210、调用与当前所要执行的多模态识别任务匹配的多模态识别模型。

具体地，经过前文模型训练阶段可以得到多种处理不同类型任务的下游多模态识别模型。本实施例中在确定了当前所要执行的多模态识别任务后，调用该任务匹配的多模态识别模型，该多模态识别模型为采用前文方法微调训练得到的用于处理所述当前所要执行的多模态识别任务的多模态识别模型。以当前所要执行的多模态识别任务为多模态语音识别任务为例，此处调用的模型为前文微调训练后的多模态语音识别模型。

步骤S220、将所述目标任务类型标识及所述待处理的多模态数据输入所述多模态识别模型，得到所述多模态识别模型输出的识别结果。

具体地，结合多模态识别模型的结构可知，目标任务类型标识通过任务类型编码器进行编码，编码结果送入多模态深度神经网络模型。同时，将待处理的多模态数据也作为多模态深度神经网络模型的输入，利用多模态深度神经网络模型进行编码，编码结果送入下游解码器模块进行解码，得到解码输出的识别结果。

本实施例提供的多模态识别方法，可以采用前文微调训练后的多模态识别模型，将待处理的多模态数据及任务类型标识送入多模态识别模型，即可借助多模态识别模型对当前所要执行的任务场景下的多模态识别能力，处理得到识别结果。

下面对本申请实施例提供的多模态模型的多任务预训练装置进行描述，下文描述的多模态模型的多任务预训练装置与上文描述的多模态模型的多任务预训练方法可相互对应参照。

参见图9，图9为本申请实施例公开的一种多模态模型的多任务预训练装置结构示意图。

如图9所示，该装置可以包括：

训练数据获取单元11，用于获取不同类型的多模态识别任务所对应的多模态训练数据，所述多模态训练数据包括音频模态、视觉模态、文本模态中至少两种模态的训练数据；

任务类型标识确定单元12，用于为所述多模态训练数据标记对应的任务类型标识；

预训练单元13，用于采用标记有任务类型标识的多模态训练数据，按照设定的预训练任务对所述多模态模型进行预训练，训练时所述多模态训练数据作为所述多模态深度神经网络模型的输入，所述多模态训练数据标记的任务类型标识通过所述任务类型编码器进行编码，编码结果也作为所述多模态深度神经网络模型的输入。

可选的，上述任务类型标识确定单元为所述多模态训练数据标记对应的任务类型标识的过程，包括：

可选的，上述任务类型标识确定单元根据所述多模态训练数据的数据类型，为所述多模态训练数据标记对应的任务类型标识的过程，包括：

或，

进一步地，由预训练后的所述多模态模型分别拼接不同任务类型的下游解码器模块，得到处理不同类型任务的多模态识别模型，该装置还包括：

本申请实施例进一步提供了一种多模态识别装置，下文描述的多模态识别装置与上文描述的多模态识别方法可相互对应参照。

参见图10，图10为本申请实施例公开的一种多模态识别装置结构示意图。

如图10所示，该装置可以包括：

待处理数据获取单元21，用于获取待处理的多模态数据，并确定当前所要执行的多模态识别任务的目标任务类型标识；

模型调用单元22，用于调用与所述当前所要执行的多模态识别任务匹配的多模态识别模型，所述多模态识别模型为采用前述包含下游微调训练单元的多模态模型的多任务预训练装置微调训练得到的用于处理所述当前所要执行的多模态识别任务的多模态识别模型；

计算单元23，用于将所述目标任务类型标识及所述待处理的多模态数据输入所述多模态识别模型，得到所述多模态识别模型输出的识别结果。

本申请实施例提供的多模态模型的多任务预训练装置可应用于多模态模型的多任务预训练设备。可选的，图11示出了多模态模型的多任务预训练设备的硬件结构框图，参照图11，设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：实现前述多模态模型的多任务预训练方法的各个步骤。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：实现前述多模态模型的多任务预训练方法的各个步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态模型的多任务预训练方法，其特征在于，所述多模态模型包括多模态深度神经网络模型及任务类型编码器，方法包括：

为所述多模态训练数据标记对应的任务类型标识；

2.根据权利要求1所述的方法，其特征在于，为所述多模态训练数据标记对应的任务类型标识的过程，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述多模态训练数据的数据类型，为所述多模态训练数据标记对应的任务类型标识的过程，包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述多模态深度神经网络模型包括音频特征提取模块、视觉特征提取模块、文本特征提取模块中的至少两种模块，以及，多模态特征编码器；

5.根据权利要求1所述的方法，其特征在于，所述任务类型标识为任务类型ID编号。

6.根据权利要求1-5任一项所述的方法，其特征在于，由预训练后的所述多模态模型分别拼接不同任务类型的下游解码器模块，得到处理不同类型任务的多模态识别模型，该方法还包括：

7.一种多模态识别方法，其特征在于，包括：

8.一种多模态模型的多任务预训练装置，其特征在于，所述多模态模型包括多模态深度神经网络模型及任务类型编码器，装置包括：

9.根据权利要求8所述的装置，其特征在于，由预训练后的所述多模态模型分别拼接不同任务类型的下游解码器模块，得到处理不同类型任务的多模态识别模型，该装置还包括：

10.一种多模态识别装置，其特征在于，包括：

模型调用单元，用于调用与所述当前所要执行的多模态识别任务匹配的多模态识别模型，所述多模态识别模型为采用权利要求9的装置微调训练得到的用于处理所述当前所要执行的多模态识别任务的多模态识别模型；

11.一种多模态模型的多任务预训练设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～6中任一项所述的多模态模型的多任务预训练方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～6中任一项所述的多模态模型的多任务预训练方法的各个步骤。