CN117194985A

CN117194985A - 一种多模态多任务训练系统及多模态多任务训练方法

Info

Publication number: CN117194985A
Application number: CN202311204931.9A
Authority: CN
Inventors: 李蒙
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-08
Anticipated expiration: 2043-09-18
Also published as: CN117194985B

Abstract

本发明涉及计算机领域，提供了一种多模态多任务训练系统及多模态多任务训练方法。该系统包括：至少一个预训练模型、至少一个第一适配器组和至少一个第二适配器组；各模态数据分别对应的预训练模型用于获取模态数据，根据模态数据输出模态数据的第一中间层特征；各目标任务分别对应的第一适配器组用于根据与第一适配器组连接的预训练模型输出的第一中间层特征，得到各目标任务分别对应的各模态数据的第二中间层特征；各目标任务分别对应的第二适配器组用于根据第二适配器组对应的第一适配器组输出的第二中间层特征，得到各目标任务对应的各模态数据的第三中间层特征。通过本发明，减少多模态多任务预训练模型在训练过程中的参数量和计算量。

Description

一种多模态多任务训练系统及多模态多任务训练方法

技术领域

本发明涉及计算机领域，尤其涉及一种多模态多任务训练系统及多模态多任务训练方法。

背景技术

在全双工对话系统中涉及到很多不同的任务及模态，如无效对话拒识、意图理解、语义判不停、情绪识别等任务，以及语音模态、文本模态等模态。随着深度学习与预训练技术的发展，将单项任务的预训练模型或者单个模态的预训练模型得到的关联关系，应用到神经网络等深度学习模型上，使得深度学习模型的识别准确性更高，如来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers，BERT)、无监督语音预训练模型等。但是当模态数量、任务数量增加时，基于多个模态多个任务的预训练模型的方案往往都需要很大的模型参数量和计算量，使得整个对话系统的计算和存储成本大大增加。

发明内容

为减少基于多模态多任务的预训练模型在构建过程中的参数量和计算量，本发明提出了一种多模态多任务训练系统及多模态多任务训练方法。

第一方面，本发明提供了一种多模态多任务训练系统，系统包括：

至少一个预训练模型、至少一个第一适配器组和至少一个第二适配器组；第一适配器组中包括至少一个第一适配器，第二适配器组中包括至少一个第二适配器；一个预训练模型对应一种模态数据；一个目标任务对应至少一个第一适配器组、至少一个预训练模型和一个第二适配器组，对于同一目标任务，第一适配器组与预训练模型一一对应；

各模态数据分别对应的预训练模型用于获取模态数据，根据模态数据输出模态数据的第一中间层特征，第一中间层特征用于表征模态数据中的第一关联关系；

各目标任务分别对应的第一适配器组用于根据与第一适配器组连接的预训练模型输出的第一中间层特征，得到各目标任务分别对应的各模态数据的第二中间层特征，第二中间层特征用于表征模态数据中的第二关联关系；

各目标任务分别对应的第二适配器组用于根据第二适配器组对应的第一适配器组输出的第二中间层特征，得到各目标任务对应的各模态数据的第三中间层特征，第三中间层特征用于表征模态数据中的第三关联关系，模态数据中的关联关系用于训练预设模型，预设模型用于执行目标任务。

考虑到在全双工对话系统中，基于多模态多任务的预训练任务过程中需要分别对多个模态数据的预训练模型、多个任务的预训练模型中的关联关系、数据特征进行训练计算，从而获取多个模态数据、多个任务的预训练模型，在该训练过程中，计算量较大，模型中的参数会出现重复计算的问题，通过上述系统，同一种模态数据对应同一预训练模型，不同种类的模态数据对应不同的预训练模型1，同一种模态数据对应的预训练模型1中参数相同，不同的目标任务对应不同的第一适配器组，对于同一模态数据，预训练模型1的第一中间层特征在经过一次计算后保持不变，也就是说预训练模型中的参数固定，只需要根据不同的目标任务训练不同的第一适配器组2，无需整体重复训练预训练模型，同时通过第二适配器组3对同一目标任务的不同模态数据的第二中间层特征进行融合，得到每一个目标任务的多模态数据中的关联关系，相对于相关技术来说，预训练模型中的参数量、计算量以及存储成本均得到减少，避免同一模态数据对应的预训练模型中参数的重复计算，最终完成多模态多任务的预训练任务。

在一种可选的实施方式中，预训练模型包括多层依次连接的Transformer网络层，第一适配器组中的第一适配器与第一适配器组对应的预训练模型中Transformer网络层对应连接，第二适配器组中的第二适配器与第二适配器组对应的第一适配器组中的第一适配器对应连接；

若Transformer网络层存在上层Transformer网络层，Transformer网络层用于根据上层Transformer网络层输出的第一中间层特征，得到Transformer网络层的第一中间层特征；

若Transformer网络层不存在上层Transformer网络层，Transformer网络层用于获取模态数据，根据模态数据得到Transformer网络层的第一中间层特征；

若第一适配器存在上一个第一适配器，第一适配器用于根据第一适配器对应的Transformer网络层输出的第一中间层特征，以及上一个第一适配器输出的第二中间层特征，得到第一适配器的第二中间层特征；

若第一适配器不存在上一个第一适配器，第一适配器用于根据第一适配器对应的Transformer网络层输出的第一中间层特征，得到第一适配器的第二中间层特征；

若第二适配器存在上一个第二适配器，第二适配器用于根据第二适配器对应的第一适配器输出的第二中间层特征，以及上一个第二适配器输出的第三中间层特征，得到第二适配器的第三中间层特征；

若第二适配器不存在上一个第二适配器，第二适配器用于根据第二适配器对应的第一适配器输出的第二中间层特征，得到第二适配器的第三中间层特征。

在一种可选的实施方式中，Transformer网络层包括注意力模块，第一适配器中包括注意力层，注意力模块中神经元的权重与Transformer网络层对应的第一适配器的注意力层中的神经元的权重相同。

在一种可选的实施方式中，第一适配器还包括第一下采样层、第一激活函数、第一上采样层、第一归一化层和第一残差模块，注意力层、第一下采样层、第一激活函数、第一上采样层、第一归一化层、第一残差模块依次连接；

将第一中间层特征输入至注意力层，依次经过第一下采样层、第一激活函数、第一上采样层、第一归一化层，得到第四中间层特征；

将第四中间层特征和第一中间层特征输入至第一残差模块，得到第二中间层特征。

在一种可选的实施方式中，第二适配器包括第二下采样层、第二激活函数、第二上采样层、第二归一化层和第二残差模块，第二下采样层、第二激活函数、第二上采样层、第二归一化层和第二残差模块依次连接；

将第二中间层特征输入至第二下采样层，依次经过第二激活函数、第二上采样层、第二归一化层，得到第五中间层特征；

将第五中间层特征和第二中间层特征输入至第二残差模块，得到第三中间层特征。

在一种可选的实施方式中，下采样层和上采样网络均为全连接网络。

在一种可选的实施方式中，激活函数为Relu激活函数。

第二方面，本发明还提供了一种多模态多任务训练方法，该方法包括：

获取目标任务；

根据目标任务确定模态数据；

将模态数据输入到多模态多任务训练系统中，得到模态数据中的关联关系，关联关系用于对预设模型进行训练得到训练后的预设模型，训练后的预设模型用于执行目标任务，多模态多任务训练系统为如第一方面或第一方面的任一实施方式中的多模态多任务训练系统。

考虑到在全双工对话系统中，基于多模态多任务的预训练任务过程中需要分别对多个模态数据的预训练模型、多个任务的预训练模型中的关联关系、数据特征进行训练计算，从而获取多个模态数据、多个任务的预训练模型，在该训练过程中，计算量较大，模型中的参数会出现重复计算的问题，通过上述方法，利用上述实施例中的多模态多任务训练系统，通过一次训练，即可得到多个模态数据多个任务所需要的关联关系，相较于相关技术来说，预训练模型中的参数量、计算量以及存储成本均得到减少，避免同一模态数据对应的预训练模型中参数的重复计算，最终完成多模态多任务的预训练任务。

第三方面，本发明还提供了一种计算机设备，包括存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行第二方面或第二方面的任一实施方式的多模态多任务训练方法的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第二方面或第二方面的任一实施方式的多模态多任务训练方法的步骤。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例提出的一种多模态多任务训练系统的结构框图；

图2是在一示例中，第一适配器的结构示意图；

图3是在一示例中，第二适配器的结构示意图；

图4是根据一示例性实施例提出的一种多模态多任务训练方法的流程图；

图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

为减少基于多模态多任务的预训练模型在预训练过程中的参数量和计算量，本发明提出了一种多模态多任务训练系统及多模态多任务训练方法。

图1是根据一示例性实施例提出的一种多模态多任务训练系统的结构框图。该系统包括至少一个预训练模型1、至少一个第一适配器组2和至少一个第二适配器组3；第一适配器组2中包括至少一个第一适配器，第二适配器组3中包括至少一个第二适配器；一个预训练模型1对应一种模态数据；一个目标任务对应至少一个第一适配器组2、至少一个预训练模型1和一个第二适配器组3，对于同一目标任务，第一适配器组2与预训练模型1一一对应。

在一可选实施例中，在全双工对话系统中，目标任务包括但不限于无效对话拒识、意图理解、语义判不停、情绪识别等。

在一可选实施例中，不同的目标任务对应的模态数据不同。示例性地，情感识别这一目标任务对应的模态数据是语音数据，语义判不停这一目标任务对应的模态数据是文本数据和语音数据。

各模态数据分别对应的预训练模型1用于获取模态数据，根据模态数据输出模态数据的第一中间层特征，第一中间层特征用于表征模态数据中的第一关联关系。

在一可选实施例中，模态数据包括文本数据、语音数据等等，在此不做具体限制。

在一可选实施例中，同一模态数据对应的预训练模型1相同，不同模态数据对应的预训练模型1不同。示例性地，语音数据对应的预训练模型可以为data2vec2预训练模型，文本数据对应的预训练模型可以为(Robustly Optimized Bidirectional EncoderRepresentation from Transformers，RoBERT)roberta预训练模型。

在一可选实施例中，第一中间层特征表征的是一种模态数据中的关联关系。

在一可选实施例中，对于同一个目标任务来说，不同模态数据中的关联关系并不相同。

在一可选实施例中，对于同一个目标任务来说，当该目标任务是单模态的目标任务时，则不需要配置第二适配器组，当该目标任务为多模态的目标任务时，则需要配置第二适配器组，以进行多模态的融合。

各目标任务分别对应的第一适配器组2用于根据与第一适配器组2连接的预训练模型1输出的第一中间层特征，得到各目标任务分别对应的各模态数据的第二中间层特征，第二中间层特征用于表征模态数据中的第二关联关系。

在一可选实施例中，第二中间层特征表征的是在同一个目标任务中，一种模态数据中的关联关系。

在一可选实施例中，对于不同的目标任务来说，相同模态数据中的关联关系并不相同。

各目标任务分别对应的第二适配器组3用于根据第二适配器组3对应的第一适配器组2输出的第二中间层特征，得到各目标任务对应的各模态数据的第三中间层特征，第三中间层特征用于表征模态数据中的第三关联关系，模态数据中的关联关系用于训练预设模型，预设模型用于执行目标任务。

在一可选实施例中，第三中间层特征表征的是在同一个目标任务中，所有模态数据中的关联关系。

在一可选实施例中，中间层特征包括但不限于模态数据中的语义特征、情感特征等等，在此不做具体限制。

在图1中，预训练模型1包括多层依次连接的Transformer网络层，第一适配器组2中的第一适配器与第一适配器组2对应的预训练模型1中Transformer网络层对应连接，第二适配器组3中的第二适配器与第二适配器组3对应的第一适配器组2中的第一适配器对应连接。

若Transformer网络层存在上层Transformer网络层，Transformer网络层用于根据上层Transformer网络层输出的第一中间层特征，得到Transformer网络层的第一中间层特征。

若Transformer网络层不存在上层Transformer网络层，Transformer网络层用于获取模态数据，根据模态数据得到Transformer网络层的第一中间层特征。

若第一适配器存在上一个第一适配器，第一适配器用于根据第一适配器对应的Transformer网络层输出的第一中间层特征，以及上一个第一适配器输出的第二中间层特征，得到第一适配器的第二中间层特征。

若第一适配器不存在上一个第一适配器，第一适配器用于根据第一适配器对应的Transformer网络层输出的第一中间层特征，得到第一适配器的第二中间层特征。

若第二适配器存在上一个第二适配器，第二适配器用于根据第二适配器对应的第一适配器输出的第二中间层特征，以及上一个第二适配器输出的第三中间层特征，得到第二适配器的第三中间层特征。

在一可选实施例中，可以为多层Transformer网络层中的任意一层构建第一适配器。第一适配器可以与Transformer网络层一一对应，也可以根据任务复杂程度选择需要的Transformer网络层构建第一适配器。任务越复杂，第一适配器的个数越多。图2是第一适配器的结构示意图。Transformer网络层11包括注意力模块(attention模块)，第一适配器中包括注意力层，注意力模块中神经元的权重与Transformer网络层对应的第一适配器的注意力层中的神经元的权重相同。在Transformer网络层11的注意力模块基础上，通过第二适配器进一步挖掘目标任务中每一种模态数据的中间层特征，使计算得到的模态数据中的关联关系更加准确。

在图2中，第一适配器还包括第一下采样层、第一激活函数、第一上采样层、第一归一化层和第一残差模块。注意力层、第一下采样层、第一激活函数、第一上采样层、第一归一化层、第一残差模块依次连接。

在一可选实施例中，第一下采样层和第一上采样层均为一层全连接网络。第一下采样层用于进行N倍的下采样，目的是减少第一适配器的参数量和计算量。第一上采样层用于进行N倍的上采样。

在一可选实施例中，第一激活函数可以为Relu激活函数，用于实现非线性变换。

在图2中，将第一中间层特征输入至注意力层，依次经过第一下采样层、第一激活函数、第一上采样层、第一归一化层，得到第四中间层特征。将第四中间层特征和第一中间层特征输入至第一残差模块，得到第二中间层特征。

在本发明实施例中，第一残差模块将述第四中间层特征和第一中间层特征求和，目的是解决梯度弥散、缓解过拟合等等。

图3是第二适配器的结构示意图。第二适配器包括第二下采样层、第二激活函数、第二上采样层、第二归一化层和第二残差模块，第二下采样层、第二激活函数、第二上采样层、第二归一化层和第二残差模块依次连接。

在一可选实施例中，第二下采样层和第二上采样层同样为一层全连接网络。第二下采样层用于进行N倍的下采样，目的是减少第二适配器的参数量和计算量。第二上采样层用于进行N倍的上采样。

在一可选实施例中，第二激活函数也可以为Relu激活函数，用于实现非线性变换。

在图3中，将第二中间层特征输入至第二下采样层，依次经过第二激活函数、第二上采样层、第二归一化层，得到第五中间层特征。将第五中间层特征和第二中间层特征输入至第二残差模块，得到第三中间层特征。

图4是根据一示例性实施例提出的一种多模态多任务训练方法的流程图。多模态多任务训练方法包括如下步骤S401至S403。

步骤S401：获取目标任务。

步骤S402：根据目标任务确定模态数据。

步骤S403：将模态数据输入到多模态多任务训练系统中，得到模态数据中的关联关系，关联关系用于对预设模型进行训练得到训练后的预设模型，训练后的预设模型用于执行目标任务，多模态多任务训练系统为如上述实施例中的多模态多任务训练系统。

在一示例中，以对110M参数量的roberta模型的7-12层Transformer网络搭配适配器的方案为例，训练的参数量为6层适配器中的训练参数，当上下采样倍数设置为6时，每增加一个单模态任务，总体训练参数量仅增加1.2M，整体参数量仅增加14M(6层适配器的参数量)；而每增加一个多模态任务，整体训练参数量和模型参数量仅增加6层多模态适配器的参数量，即1.2M。

图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图5所示，该设备包括一个或多个处理器510以及存储器520，存储器520包括持久内存、易失内存和硬盘，图5中以一个处理器510为例。该设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器510可以为中央处理器(Central Processing Unit，CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器520作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中多模态多任务训练方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述任意一种多模态多任务训练方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的信号输入。输出装置540可包括显示屏等显示设备。

一个或者多个模块存储在存储器520中，当被一个或者多个处理器510执行时，执行如图4所示的方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图4所示的实施例中的相关描述。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态多任务训练系统，其特征在于，所述系统包括：至少一个预训练模型、至少一个第一适配器组和至少一个第二适配器组；所述第一适配器组中包括至少一个第一适配器，所述第二适配器组中包括至少一个第二适配器；一个预训练模型对应一种模态数据；一个目标任务对应至少一个第一适配器组、至少一个预训练模型和一个第二适配器组，对于同一目标任务，所述第一适配器组与所述预训练模型一一对应；

各模态数据分别对应的预训练模型用于获取模态数据，根据所述模态数据输出所述模态数据的第一中间层特征，所述第一中间层特征用于表征所述模态数据中的第一关联关系；

各目标任务分别对应的第一适配器组用于根据与所述第一适配器组连接的预训练模型输出的第一中间层特征，得到各目标任务分别对应的各模态数据的第二中间层特征，所述第二中间层特征用于表征所述模态数据中的第二关联关系；

各目标任务分别对应的第二适配器组用于根据所述第二适配器组对应的第一适配器组输出的第二中间层特征，得到各目标任务对应的各模态数据的第三中间层特征，所述第三中间层特征用于表征所述模态数据中的第三关联关系，所述模态数据中的关联关系用于训练预设模型，所述预设模型用于执行目标任务。

2.根据权利要求1所述的系统，其特征在于，所述预训练模型包括多层依次连接的Transformer网络层，所述第一适配器组中的第一适配器与所述第一适配器组对应的预训练模型中Transformer网络层对应连接，所述第二适配器组中的第二适配器与所述第二适配器组对应的第一适配器组中的第一适配器对应连接；

若所述Transformer网络层存在上层Transformer网络层，所述Transformer网络层用于根据上层Transformer网络层输出的第一中间层特征，得到所述Transformer网络层的第一中间层特征；

若所述Transformer网络层不存在上层Transformer网络层，所述Transformer网络层用于获取所述模态数据，根据所述模态数据得到所述Transformer网络层的第一中间层特征；

若所述第一适配器存在上一个第一适配器，所述第一适配器用于根据所述第一适配器对应的Transformer网络层输出的第一中间层特征，以及上一个第一适配器输出的第二中间层特征，得到所述第一适配器的第二中间层特征；

若所述第一适配器不存在上一个第一适配器，所述第一适配器用于根据所述第一适配器对应的Transformer网络层输出的第一中间层特征，得到所述第一适配器的第二中间层特征；

若所述第二适配器存在上一个第二适配器，所述第二适配器用于根据所述第二适配器对应的第一适配器输出的第二中间层特征，以及上一个第二适配器输出的第三中间层特征，得到所述第二适配器的第三中间层特征；

若所述第二适配器不存在上一个第二适配器，所述第二适配器用于根据所述第二适配器对应的第一适配器输出的第二中间层特征，得到所述第二适配器的第三中间层特征。

3.根据权利要求2所述的系统，其特征在于，所述Transformer网络层包括注意力模块，所述第一适配器中包括注意力层，所述注意力模块中神经元的权重与所述Transformer网络层对应的第一适配器的注意力层中的神经元的权重相同。

4.根据权利要求3所述的系统，其特征在于，所述第一适配器还包括第一下采样层、第一激活函数、第一上采样层、第一归一化层和第一残差模块，所述注意力层、所述第一下采样层、所述第一激活函数、所述第一上采样层、所述第一归一化层、所述第一残差模块依次连接；

将所述第一中间层特征输入至所述注意力层，依次经过所述第一下采样层、所述第一激活函数、所述第一上采样层、所述第一归一化层，得到第四中间层特征；

将所述第四中间层特征和所述第一中间层特征输入至所述第一残差模块，得到所述第二中间层特征。

5.根据权利要求1所述的系统，其特征在于，所述第二适配器包括第二下采样层、第二激活函数、第二上采样层、第二归一化层和第二残差模块，所述第二下采样层、所述第二激活函数、所述第二上采样层、所述第二归一化层和所述第二残差模块依次连接；

将所述第二中间层特征输入至所述第二下采样层，依次经过所述第二激活函数、所述第二上采样层、所述第二归一化层，得到第五中间层特征；

将所述第五中间层特征和所述第二中间层特征输入至所述第二残差模块，得到所述第三中间层特征。

6.根据权利要求4或5所述的系统，其特征在于，所述下采样层和所述上采样网络均为全连接网络。

7.根据权利要求4或5所述的系统，其特征在于，所述激活函数为Relu激活函数。

8.一种多模态多任务训练方法，其特征在于，所述方法包括：

获取目标任务；

根据所述目标任务确定模态数据；

将所述模态数据输入到多模态多任务训练系统中，得到所述模态数据中的关联关系，所述关联关系用于对预设模型进行训练得到训练后的预设模型，训练后的预设模型用于执行所述目标任务，所述多模态多任务训练系统为如权利要求1至7中任一项所述的多模态多任务训练系统。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求8所述的多模态多任务训练方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求8所述的多模态多任务训练方法的步骤。