CN112131342A

CN112131342A - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN112131342A
Application number: CN202010928247.5A
Authority: CN
Inventors: 柴琛林; 李航
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-25

Abstract

本申请实施例提供了一种模型训练方法、装置、设备及存储介质，该方法包括：获取多组第一训练数据，多组第一训练数据对应的任务类型不同，且每组第一训练数据包括：至少一种第一模态信息；通过多组第一训练数据训练预训练语言模型。即在本申请实施例中，可以通过多种任务类型的训练数据训练预训练语言模型，由于任务类型多样，而不同的任务类型对预训练语言模型中参数的训练的侧重点不同，因此综合不同任务类型的训练数据对模型进行训练，可以实现对模型的各个参数更加全面的训练，从而可以提高预训练语言模型的精度。

Description

模型训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，并且更具体地，涉及一种模型训练方法、装置、设备及存储介质。

背景技术

目前许多信息查询技术都综合运用了自然语言处理、信息检索、人工智能等技术。例如：智能问答技术是综合运用了自然语言处理、信息检索、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同，自动问答系统以自然语音句子提问，通过预训练语言模型的处理，返回用户想要的答案，其中模型的精度决定了输出答案的准确性，而模型的训练影响着模型的精度，如何训练模型，以提高模型精度是本申请亟待解决的技术问题。

发明内容

本申请实施例提供一种模型训练方法、装置、设备及存储介质。

第一方面，本申请实施例提供一种模型训练方法，包括：获取多组第一训练数据，所述多组第一训练数据对应的任务类型不同，且每组所述第一训练数据包括：至少一种第一模态信息；通过所述多组第一训练数据训练预训练语言模型。

第二方面，本申请实施例提供一种模型训练装置，包括：第一获取模块和第一训练模块，其中，第一获取模块用于获取多组第一训练数据，所述多组第一训练数据对应的任务类型不同，且每组所述第一训练数据包括：至少一种第一模态信息；第一训练模块用于通过所述多组第一训练数据训练预训练语言模型。

第三方面，提供了一种电子设备，包括：

处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面的方法。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面的方法。

在本申请实施例中，终端设备可以通过多种任务类型的训练数据训练预训练语言模型，由于任务类型多样，而不同的任务类型对预训练语言模型中参数的训练的侧重点不同，因此综合不同任务类型的训练数据对模型进行训练，可以实现对模型的各个参数更加全面的训练，从而可以提高预训练语言模型的精度。

进一步地，本申请实施例通过预训练语言模型实现端到端的输入和输出，即该预训练语言模型是基于神经网络的模型，只需要将至少一种模态信息输入至该模型，即可输出多模态信息。这种端到端的输入和输出方式可以提高信息处理效率。

更进一步地，本申请实施例基于神经网络的模型进行信息处理，而不是基于传统的机器学习模型或者是人工规则进行信息处理，相对于基于传统的机器学习模型或者是人工规则的信息处理方式，本申请基于神经网络模型的信息处理方式可以提高信息处理效率。

附图说明

图1A是本申请一实施例提供的智能问答场景示意图；

图1B是本申请一实施例提供的智能问答场景示意图；

图2为本申请一实施例提供的多模态信息处理过程的示意图；

图3为本申请一实施例提供的图像模态的问题示意图；

图4为本申请一实施例提供的一种模型训练方法的流程图；

图5为本申请另一实施例提供的一种模型训练方法的流程图；

图6为本申请一实施例提供的对至少一种第二参考信息的处理方法流程图；

图7为本申请另一实施例提供的对至少一种第二参考信息的处理方法流程图；

图8为本申请一实施例提供的预训练语言模型的示意图；

图9为本申请另一实施例提供的预训练语言模型的示意图；

图10为本申请再一实施例提供的预训练语言模型的示意图；

图11为本申请又一实施例提供的预训练语言模型的示意图；

图12为本申请一实施例提供的一种模型训练装置1200的示意图；

图13是本申请实施例提供的电子设备1300的示意性框图。

具体实施方式

如上所述，模型的精度决定了输出答案的准确性，而模型的训练影响着模型的精度，如何训练模型，以提高模型精度是本申请亟待解决的技术问题。

为了解决上述技术问题，本申请的发明构思是通过多任务来训练预训练语言模型。

本申请实施例的技术方案可适用于如下场景，但不限于此：

场景一：智能问答场景，例如：用户可以进入如图1A所示的智能问答界面，用户在该智能问答界面上的交互即为一种智能问答场景。图1A目前所示的是图像模态问题，用户还可以在该界面上输入语音、视频、文本等模态的问题。可选地，用户可以点击终端上的某插件、图标或者虚拟按钮，以进入该智能问答界面。其中，智能问答界面的呈现方式多种多样，图1A所示的是一种智能问答界面，图1B是用户点击某应用(Application，APP)上的“客服”图标，进入的另一种智能问答界面。

场景二：其他预测场景，例如：预测当前句子的下一个句子，或者预测句子间的连贯性。

应理解的是，在本申请实施例中，终端设备可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备等，本申请实施例对此不作限制。

下面将对本申请实施例的技术方案进行详细阐述：

下面将重点介绍预训练语言模型的训练过程以及预训练语言模型的功能。其中，对预训练语言模型的训练可以分为无监督训练和有监督训练。

示例性地，以应用于智能问答场景为例，图2为本申请一实施例提供的多模态信息处理过程的示意图，如图2所示，有监督训练中需要对数据进行标注，即输入模型的数据包括如下两元组<至少一种模态问题，多模态答案>，或者，输入模型的数据包括如下三元组<至少一种模态问题，至少一个参考信息，多模态答案>，该参考信息是模态问题的参考信息，也被描述为参考资料。进一步地，可以通过标注的数据对预训练语言模型进行训练。

更进一步地，可以向训练后的预训练语言模型输入至少一种模态问题，或者输入二元组<至少一种模态问题，至少一个参考信息>，通过预训练语言模型可以对输入的数据进行处理，如向量表征和信息融合，最后输出多模态答案。

需要说明的是，在本申请实施例中，一种模态可以是文本模态、语音模态、图像模态或者视频模态。即至少一种模态问题可以包括：文本模态的问题、语音模态的问题、图像模态的问题、视频模态的问题中的至少一种。多模态答案包括：文本模态的答案、语音模态的答案、图像模态的答案、视频模态的答案中的至少两种。至少一种参考信息也被称为至少一种模态的参考信息，其可以包括：文本模态的参考信息、语音模态的参考信息、图像模态的参考信息、视频模态的参考信息中的至少一种。

针对至少一种模态问题，进行示例性说明：假设针对“将进酒是哪个朝代哪个人写的”问题，文本模态的问题，即“将进酒是哪个朝代哪个人写的”文本。语音模态的问题，即“将进酒是哪个朝代哪个人写的”语音。图像模态的问题，如图3所示。视频模态的问题，可以是关于“将进酒是哪个朝代哪个人写的”的一段视频。

针对多种模态答案，进行示例性说明：假设针对“将进酒是哪个朝代哪个人写的”问题，文本模态答案可以是“将进酒是唐代诗人李白写的”文本。语音模态答案，即“将进酒是唐代诗人李白写的”语音。图像模态答案，如图像中显示“将进酒是唐代诗人李白写的”。视频模态答案，可以是关于“将进酒是唐代诗人李白写的”的一段视频。

针对至少一种模态的参考信息，进行示例性说明：假设针对“将进酒是哪个朝代哪个人写的”问题，文本参考信息可以是将进酒的内容。文本参考信息还可以是关于李白的简介。语音参考信息可以是将进酒的朗诵。图像参考信息可以是包括将进酒内容的图像。视频参考信息可以是关于将进酒的诗词解析视频。

应理解的是，在本申请实施例中，一种模态问题对应的参考信息的模态可以和该模态问题的模态相同，也可以不同，本申请实施例对此不作限制。例如：文本模态问题可以对应文本模态的参考信息，有可以对应语音、图像或者视频等模态的参考信息。

应理解的是，上述一种模态可以是本申请实施例中的至少一种第一模态信息的一种模态，也可以是至少一种第一模态信息对应的第一参考信息的一种模态，可以是本申请实施例中的至少一种第二模态信息的一种模态，也可以是至少一种第二模态信息对应的至少一种模态信息的一种模态，还可以是至少一种第二模态信息对应的第二参考信息的一种模态，可以是本申请实施例中的至少一种第三模态信息的一种模态，也可以是至少一种第三模态信息对应的多模态信息的一种模态，还可以是至少一种第三模态信息对应的第三参考信息的一种模态。

应理解的是，至少一种模态信息的参考信息是与至少一种模态信息相关的参考信息，该至少一种模态信息的参考信息可以用于辅助获取预训练模型最终输出的模态信息。例如：至少一种第三模态信息的至少一种第三参考信息用于辅助获取至少一种第三模态信息对应的多模态信息。至少一种第一模态信息的至少一种第一参考信息用于辅助获取至少一种第一模态信息对应的至少一种模态信息。至少一种参考信息也可以用于辅助获取有监督训练过程中的模态信息，例如：至少一种第二模态信息对应的至少一种第二参考信息可以用于辅助获取有监督训练过程中至少一种第二模态信息对应的至少一种模态信息。

可选地，上述参考信息可以是通过搜索引擎获取到的关于模态信息的参考信息。

下面将对预训练语言模型的训练过程进行阐述：

图4为本申请一实施例提供的一种模型训练方法的流程图，该方法的执行主体可以是终端设备的部分或者全部，其中终端设备的部分可以是终端设备的处理器，该方法的执行主体还可以是终端设备和服务器，即图4中一部分步骤由终端设备执行，另一部分步骤由服务器执行，本申请对此不做限制。如图4所示，该方法包括：

步骤S410：获取多组第一训练数据，多组第一训练数据对应的任务类型不同，且每组第一训练数据包括：至少一种第一模态信息。

步骤S420：通过多组第一训练数据训练预训练语言模型。

可选地，在本申请实施例中，多组第一训练数据对应的任务类型包括以下至少两种：智能问答类型、预测当前句子的下一个句子的预测类型、预测句子间的连贯性的预测类型。本申请实施例对训练数据的任务类型不作限制。

需要说明的是，在本申请中的“句子”可以是各种模态的句子，例如是文本模态、语音模态、图像模态或者视频模态的句子。

可选地，第一训练数据还包括：至少一种第一模态信息对应的至少一种第一参考信息。

应理解的是，本实施例是对预训练语言模型的无监督训练过程。

可选地，通过第一训练数据训练预训练语言模型时，即第一训练数据需要输入预训练语言模型，通过该预训练语言模型对第一训练数据进行向量表征以及信息融合，以得到融合后的向量，并根据融合后的向量得到第一训练数据对应的多模态信息，通过该多模态信息对预训练语言模型中的参数进行调整。

可选地，通过该预训练语言模型对第一训练数据进行向量表征以及信息融合，以得到融合后的向量可以通过如下方式实现，但不限于此：

可选地，在获取到至少一种第一模态信息对应的多个第三表征向量和至少一种第一参考信息对应的多个第四表征向量之后，可以通过对这些第三表征向量和第四表征向量进行求和，或者求内积等，以得到融合后的向量。

可选地，针对每个元素对应的第三表征向量或者第四表征向量，与该元素之后和/或之前的元素的第三表征向量或者第四表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

可选地，针对每个元素对应的第四表征向量或者第四表征向量的特征信息，与该元素之后和/或之前的元素的第三表征向量或者第四表征向量的特征信息进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

可选地，在获取到至少一种第一模态信息对应的多个第三表征向量之后，可以通过对这些第三表征向量进行求和，或者求内积等，以得到融合后的向量。

可选地，针对每个元素对应的第一表征向量，与该元素之后和/或之前的元素的第三表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

可选地，针对每个元素对应的第三表征向量的特征信息，与该元素之后和/或之前的元素的第三表征向量的特征信息进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

可选地，任一个第三表征向量用于表征第一模态信息中任一个元素的时空信息、内容或者类型。

可选地，任一个第四表征向量用于表征第一参考信息中任一个元素的时空信息、内容或者类型。

综上，在本申请实施例中，可以通过多种任务类型的训练数据训练预训练语言模型，由于任务类型多样，而不同的任务类型对预训练语言模型中参数的训练的侧重点不同，因此综合不同任务类型的训练数据对模型进行训练，可以实现对模型的各个参数更加全面的训练，从而可以提高预训练语言模型的精度。

图5为本申请另一实施例提供的一种模型训练方法的流程图，该方法的执行主体可以是终端设备的部分或者全部，其中终端设备的部分可以是终端设备的处理器，该方法的执行主体还可以是终端设备和服务器，即图5中一部分步骤由终端设备执行，另一部分步骤由服务器执行，本申请对此不做限制。如图5所示，该方法包括：

步骤S510：获取多组第二训练数据，多组第二训练数据对应的任务类型不同，且每组第二训练数据包括：至少一种第二模态信息和至少一种第二模态信息对应的至少一种模态信息。

步骤S520：通过多组第二训练数据训练预训练语言模型。

可选地，在本申请实施例中，多组第二训练数据对应的任务类型包括以下至少两种：智能问答类型、预测当前句子的下一个句子的预测类型、预测句子间的连贯性的预测类型。本申请实施例对训练数据的任务类型不作限制。

以应用于智能问答场景为例，第二模态信息可以是第二模态问题，其对应的至少一种模态信息可以是至少一种模态答案。

可选地，第二训练数据还包括：至少一种第二模态信息对应的至少一种第二参考信息。

应理解的是，本实施例是对预训练语言模型的有监督训练过程。

可选地，通过第二训练数据训练预训练语言模型时，即第二训练数据需要输入预训练语言模型，通过该预训练语言模型对第二训练数据进行向量表征以及信息融合，以得到融合后的向量，并根据融合后的向量得到第二训练数据对应的多模态信息，通过该多模态信息对预训练语言模型中的参数进行调整。

应理解的是，通过该预训练语言模型对第二训练数据进行向量表征以及信息融合，以得到融合后的向量可参考通过该预训练语言模型对上述第一模态信息的处理过程，或者参考通过该预训练语言模型对上述第一模态信息和第一参考信息的处理过程，本申请实施例对此不再赘述。

需要说明的是，图5对应的有监督训练过程与图4对应的无监督训练过程可以结合执行，也可以独立执行，本申请实施例对此不作限制。

可选地，还可以根据至少一种第二模态信息，对至少一种第二参考信息进行处理，得到至少一种第二模态信息对应的至少一种模态信息。

可选地，该处理包括：提取、改写、组合中的至少一项。

需要说明的是，本申请实施例对提取、改写、组合的顺序和次数不作限制，例如：先对至少一种第二参考信息进行提取，再执行改写、组合。也可以先对第二参考信息进行改写，再执行组合、提取。下面通过具体示例进行说明：

示例一：图6为本申请一实施例提供的对至少一种第二参考信息的处理方法流程图，如图6所示，该方法包括如下步骤：

步骤S610：在至少一种第二参考信息中提取至少一种第二模态信息的相关内容。

步骤S620：根据相关内容，得到至少一种第二模态信息对应的至少一种模态信息。

示例性地，假设第二模态信息是“将进酒是哪个朝代哪个人写的”，在至少一种第二参考信息中提取的相关内容可以是将进酒的全部内容或者片段。也可以是李白的简介等。

可选地，可以将相关内容确定为至少一种第二模态信息对应的至少一种模态信息。或者，根据至少一种第二模态信息，对相关内容进行改写，以得到至少一种第二模态信息对应的至少一种模态信息。或者，根据至少一种第二模态信息，对相关内容进行改写，并对改写后的内容进行组合，以得到至少一种第二模态信息对应的至少一种模态信息。

示例性地，假设第二模态信息是“将进酒是哪个朝代哪个人写的”，将将进酒的全部内容或者片段作为至少一种第二模态信息对应的至少一种模态信息。

示例性地，假设第二模态信息是“将进酒是哪个朝代哪个人写的”，对李白的简介进行改写，如李白的简介是：李白(701-762)，字太白，盛唐最杰出的诗人，也是我国文学史上继屈原之后又一伟大的浪漫主义诗人，素有“诗仙”之称。经过局部改写，得到如下内容：李白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”，该内容作为至少一种第二模态信息对应的至少一种模态信息。

示例性地，假设第二模态信息是“将进酒是哪个朝代哪个人写的”，将将进酒的全部内容或者片段和经过改写后的内容：白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”，进行组合，作为至少一种第二模态信息对应的至少一种模态信息。

需要说明的是，本申请实施例中的组合可以是对信息的合并，比如对A信息和B信息的组合，得到的结果是<A信息，B信息>。

示例二：图7为本申请另一实施例提供的对至少一种第二参考信息的处理方法流程图，如图7所示，该方法包括如下步骤：

步骤S710：对至少一种第二参考信息进行改写，得到改写内容。

步骤S720：根据改写内容，得到至少一种第二模态信息对应的至少一种模态信息。

可选地，可以将改写内容确定为至少一种第二模态信息对应的至少一种模态信息。或者，根据至少一种第二模态信息，对改写内容进行组合，以得到至少一种第二模态信息对应的至少一种模态信息。

示例性地，假设第二模态信息是“将进酒是哪个朝代哪个人写的”，至少一种第二参考信息对应的改写内容可以是：李白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”。可以将改写内容作为至少一种第二模态信息对应的至少一种模态信息。

示例性地，假设一改写内容为李白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”。另一改写内容是：李白与杜甫并称为“李杜”，可以将这两个改写内容进行组合，并得到至少一种第二模态信息对应的至少一种模态信息。

综上，在本申请实施例的有监督训练过程中，可以对至少一种第二参考信息进行提取、改写、组合等处理，得到至少一种第二模态信息对应的至少一种模态信息，即上述至少一种模态信息无需通过人工或者机器学习模型获取，而是通过提取、改写、组合等处理得到的，从而可以提高信息获取效率以及信息精度。

下面对预训练语言模型的功能进行阐述：

可选地，预训练语言模型包括：输入层、处理层和输出层。输入层用于获取至少一种第三模态信息。处理层用于根据至少一种第三模态信息，确定至少一种第三模态信息对应的多模态信息。输出层用于输出多模态信息。

可选地，输入层还用于获取至少一种第三模态信息对应的至少一种第三参考信息。相应的，处理层具体用于：根据至少一种第三模态信息和至少一种第三参考信息，确定至少一种第三模态信息对应的多模态信息。

可选地，处理层包括：表示子层和融合子层。表示子层用于：针对至少一种第三模态信息中每一种第三模态信息，将第三模态信息映射为多个第一表征向量。针对至少一种第三参考信息中每一种第三参考信息，将第三参考信息映射为多个第二表征向量。融合子层用于对至少一种第三模态信息对应的多个第一表征向量和至少一种第三参考信息对应的多个第二表征向量进行融合，得到融合后的向量。输出层具体用于根据融合后的向量确定至少一种第三模态信息对应的多模态信息。

应理解的是，如上所述，本申请实施例可以应用于智能问答场景，这种情况下，第三模态信息是第三模态问题，第三模态信息对应的多模态信息为多模态答案。本申请实施例还可以应用于其他预测场景，如预测当前句子的下一个句子，或者，预测句子之间的连贯性，这种情况下，第三模态信息是第三模态句子，第三模态信息对应的多模态信息为多模态句子。

可选地，任一个第一表征向量用于表征第三模态信息中任一个元素的时空信息、内容或者类型。

示例性地，假设第三模态信息为文本模态问题：“将进酒是哪个朝代哪个人写的”，文本中的每个字即为第三模态信息的一个元素，针对每个元素都对应多个第一表征向量，例如元素“将”可以对应时空信息、内容和类型。该时空信息包括：时间和/或空间信息，例如：“将”的时间信息可以是它的输入时间，通过该时间信息可以确定每句话之间，以及每句话内部的各个字之间的时间先后顺序。“将”的空间信息可以是它在文本中的空间坐标。“将”的内容也可以通过坐标来表示，例如：(1,1)表示的是“将”这个字。“将”的类型也就是它所在的第三模态信息的类型，比如：该第三模态信息的类型是问题类型。

需要说明的是，对于图像、语音、视频等其他模态信息，其对应的第一表征向量与文本模态信息对应的第一表征向量类似，本申请实施例对此不再赘述。

可选地，任一个第二表征向量用于表征第三参考信息中任一元素的时空信息、内容或者类型。

示例性地，假设参考信息为文本模态参考信息，其内容是李白的简介，文本中的每个字即为参考信息的一个元素，针对每个元素都对应多个第二表征向量，例如元素“李”可以对应时空信息、内容和类型。该时空信息包括：时间和/或空间信息，例如：“李”的时间信息可以是它的获取时间，通过该时间信息可以确定每句话之间，以及每句话内部的各个字之间的时间先后顺序。“李”的空间信息可以是它在文本中的空间坐标。“李”的内容也可以通过坐标来表示，例如：(1,2)表示的是“李”这个字。“李”的类型也就是它所在的参考信息的类型，比如：该参考信息的类型是参考信息类型。

需要说明的是，对于图像、语音、视频等其他模态的参考信息，其对应的第二表征向量与文本模态信息对应的第二表征向量类似，本申请实施例对此不再赘述。

可选地，在获取到至少一种第三模态信息对应的多个第一表征向量和至少一种第三参考信息对应的多个第二表征向量之后，可以通过对这些第一表征向量和第二表征向量进行求和，或者求内积等，以得到融合后的向量。如图8所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第三模态信息，可选的，还可以获取至少一种第三参考信息。表示子层可以用于将每种第三模态信息映射为多个第一表征向量，将每种第三参考信息映射为多个第二表征向量。融合子层用于可以通过对这些第一表征向量和第二表征向量进行求和，或者求内积等，以得到融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量或者第二表征向量，与该元素之后和/或之前的元素的第一表征向量或者第二表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。如图9所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第三模态信息，可选的，还可以获取至少一种第三参考信息。表示子层可以用于将每种第三模态信息映射为多个第一表征向量，将每种第三参考信息映射为多个第二表征向量。融合子层用于针对每个元素对应的第一表征向量或者第二表征向量，与该元素之后和/或之前的元素的第一表征向量或者第二表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量或者第二表征向量的特征信息，与该元素之后和/或之前的元素的第一表征向量或者第二表征向量的特征信息进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

可选地，处理层包括：表示子层和融合子层。表示子层用于针对至少一种第三模态信息中每一种第三模态信息，将每种第三模态信息映射为多个第一表征向量，任一个第一表征向量用于表征第三模态信息中任一个元素的空间信息、内容或者类型。融合子层用于对至少一种第三模态信息对应的多个第一表征向量进行融合，得到融合后的向量。输出层具体用于根据融合后的向量确定至少一种第三模态信息对应的多模态信息。

可选地，在获取到至少一种第三模态信息对应的多个第一表征向量之后，可以通过对这些第一表征向量进行求和，或者求内积等，以得到融合后的向量。如图10所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第三模态信息。表示子层可以用于将每种第三模态信息映射为多个第一表征向量。融合子层用于可以通过对这些第一表征向量进行求和，或者求内积等，以得到融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量，与该元素之后和/或之前的元素的第一表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。如图11所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第三模态信息。表示子层可以用于将每种第三模态信息映射为多个第一表征向量。融合子层用于针对每个元素对应的第一表征向量，与该元素之后和/或之前的元素的第一表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量的特征信息，与该元素之后和/或之前的元素的第一表征向量的特征信息进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

综上，在本申请实施例中，一方面，预训练语言模型可以根据至少一种第三模态信息，确定至少一种第三模态信息对应的多模态信息，即在本申请实施例中，实现了单模态或者多模态信息输入，和，多模态信息输出，相对于单模态信息输入输出的方式，这种单模态或者多模态信息输入，和，多模态信息输出可以满足用户对信息多样性呈现的需求，也可以提高该多模态信息处理方法的适用性。另一方面，本申请实施例通过预训练语言模型实现端到端的输入和输出，即该预训练语言模型是基于神经网络的模型，只需要将至少一种模态信息输入至该模型，即可输出多模态信息。这种端到端的输入和输出方式可以提高信息处理效率。此外，本申请实施例基于神经网络的模型进行信息处理，相对于基于传统的机器学习模型或者是人工规则的信息处理方式，本申请基于神经网络模型的信息处理方式可以提高信息处理效率。

图12为本申请一实施例提供的一种模型训练装置1200的示意图，如图12所示，该装置包括：第一获取模块1210和第一训练模块1220，其中，第一获取模块1210用于获取多组第一训练数据，多组第一训练数据对应的任务类型不同，且每组第一训练数据包括：至少一种第一模态信息。第一训练模块1220用于通过多组第一训练数据训练预训练语言模型。

可选地，该装置还包括：第二获取模块1230和第二训练模块1240，第二获取模块1230用于获取多组第二训练数据，多组第二训练数据对应的任务类型不同，且每组第二训练数据包括：至少一种第二模态信息和至少一种第二模态信息对应的至少一种模态信息。第二训练模块1240用于通过多组第二训练数据训练预训练语言模型。

可选地，装置还包括：处理模块1250，用于根据至少一种第二模态信息，对至少一种第二参考信息进行处理，得到至少一种第二模态信息对应的至少一种模态信息。

可选地，处理模块1250具体用于：在至少一种第二参考信息中提取至少一种第二模态信息的相关内容。根据相关内容，得到至少一种第二模态信息对应的至少一种模态信息。

可选地，处理模块1250具体用于：将相关内容确定为至少一种第二模态信息对应的至少一种模态信息。或者，根据至少一种第二模态信息，对相关内容进行改写，以得到至少一种第二模态信息对应的至少一种模态信息。或者，根据至少一种第二模态信息，对相关内容进行改写，并对改写后的内容进行组合，以得到至少一种第二模态信息对应的至少一种模态信息。

可选地，处理模块1250具体用于：对至少一种第二参考信息进行改写，得到改写内容。根据改写内容，得到至少一种第二模态信息对应的至少一种模态信息。

可选地，处理模块1250具体用于：将改写内容确定为至少一种第二模态信息对应的至少一种模态信息。或者，根据至少一种第二模态信息，对改写内容进行组合，以得到至少一种第二模态信息对应的至少一种模态信息。

可选地，输入层还用于获取至少一种第三模态信息对应的至少一种第三参考信息。

相应的，处理层具体用于：根据至少一种第三模态信息和至少一种第三参考信息，确定至少一种第三模态信息对应的多模态信息。

可选地，处理层包括：表示子层和融合子层。表示子层用于：针对至少一种第三模态信息中每一种第三模态信息，将第三模态信息映射为多个第一表征向量，任一个第一表征向量用于表征第三模态信息中任一个元素的空间信息、内容或者类型。针对至少一种第三参考信息中每一种第三参考信息，将第三参考信息映射为多个第二表征向量，任一个第二表征向量用于表征第三参考信息中任一元素的空间信息、内容或者类型。融合子层用于对至少一种第三模态信息对应的多个第一表征向量和至少一种第三参考信息对应的多个第二表征向量进行融合，得到融合后的向量。输出层具体用于根据融合后的向量确定至少一种第三模态信息对应的多模态信息。

可选地，处理层包括：表示子层和融合子层。表示子层用于针对至少一种第三模态信息中每一种第三模态信息，将第三模态信息映射为多个第一表征向量，任一个第一表征向量用于表征第三模态信息中任一个元素的空间信息、内容或者类型。融合子层用于对至少一种第三模态信息对应的多个第一表征向量进行融合，得到融合后的向量。输出层具体用于根据融合后的向量确定至少一种第三模态信息对应的多模态信息。

可选地，第三模态信息为第三模态问题，多模态信息为多模态答案。

可选地，多组第一训练数据对应的任务类型包括以下至少两种：智能问答类型、预测当前句子的下一个句子的预测类型、预测句子间的连贯性的预测类型。

可选地，至少一种第一模态信息的一种模态是文本模态、语音模态、图像模态或者视频模态。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图12所示的装置1200可以执行图4至图7对应的方法实施例，并且装置1200中的各个模块的前述和其它操作和/或功能分别为了实现图4至图7中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置1200。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图13是本申请实施例提供的电子设备1300的示意性框图。

如图13所示，该电子设备1300可包括：

存储器1310和处理器1320，该存储器1310用于存储计算机程序，并将该程序代码传输给该处理器1320。换言之，该处理器1320可以从存储器1310中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器1320可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器1320可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器1310包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1310中，并由该处理器1320执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备1300中的执行过程。

如图13所示，该电子设备1300还可包括：

收发器1330，该收发器1330可连接至该处理器1320或存储器1310。

其中，处理器1320可以控制该收发器1330与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器1330可以包括发射机和接收机。收发器1330还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备1300中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请实施例还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

获取多组第一训练数据，所述多组第一训练数据对应的任务类型不同，且每组所述第一训练数据包括：至少一种第一模态信息；

通过所述多组第一训练数据训练预训练语言模型。

2.根据权利要求1所述的方法，其特征在于，所述第一训练数据还包括：所述至少一种第一模态信息对应的至少一种第一参考信息。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取多组第二训练数据，所述多组第二训练数据对应的任务类型不同，且每组所述第二训练数据包括：至少一种第二模态信息和所述至少一种第二模态信息对应的至少一种模态信息；

通过所述多组第二训练数据训练所述预训练语言模型。

4.根据权利要求3所述的方法，其特征在于，所述第二训练数据还包括：所述至少一种第二模态信息对应的至少一种第二参考信息。

5.根据权利要求4所述的方法，其特征在于，还包括：

根据所述至少一种第二模态信息，对所述至少一种第二参考信息进行处理，得到所述至少一种第二模态信息对应的至少一种模态信息。

6.根据权利要求5所述的方法，其特征在于，所述对所述至少一种第二参考信息进行处理，得到所述至少一种第二模态信息对应的至少一种模态信息，包括：

在所述至少一种第二参考信息中提取所述至少一种第二模态信息的相关内容；

根据所述相关内容，得到所述至少一种第二模态信息对应的至少一种模态信息。

7.根据权利要求6所述的方法，其特征在于，所述根据所述相关内容，得到所述至少一种第二模态信息对应的至少一种模态信息，包括：

将所述相关内容确定为所述至少一种第二模态信息对应的至少一种模态信息；或者，

根据所述至少一种第二模态信息，对所述相关内容进行改写，以得到所述至少一种第二模态信息对应的至少一种模态信息；或者，

根据所述至少一种第二模态信息，对所述相关内容进行改写，并对改写后的内容进行组合，以得到所述至少一种第二模态信息对应的至少一种模态信息。

8.根据权利要求5所述的方法，其特征在于，所述对所述至少一种第二参考信息进行处理，得到所述至少一种第二模态信息对应的至少一种模态信息，包括：

对所述至少一种第二参考信息进行改写，得到改写内容；

根据所述改写内容，得到所述至少一种第二模态信息对应的至少一种模态信息。

9.根据权利要求8所述的方法，其特征在于，所述根据所述改写内容，得到所述至少一种第二模态信息对应的至少一种模态信息，包括：

将所述改写内容确定为所述至少一种第二模态信息对应的至少一种模态信息；或者，

根据所述至少一种第二模态信息，对所述改写内容进行组合，以得到所述至少一种第二模态信息对应的至少一种模态信息。

10.根据权利要求1所述的方法，其特征在于，所述预训练语言模型包括：输入层、处理层和输出层；

所述输入层用于获取至少一种第三模态信息；

所述处理层用于根据所述至少一种第三模态信息，确定所述至少一种第三模态信息对应的多模态信息；

所述输出层用于输出所述多模态信息。

11.根据权利要求10所述的方法，其特征在于，

所述输入层还用于获取所述至少一种第三模态信息对应的至少一种第三参考信息；

相应的，所述处理层具体用于：

根据所述至少一种第三模态信息和所述至少一种第三参考信息，确定所述至少一种第三模态信息对应的多模态信息。

12.根据权利要求11所述的方法，其特征在于，所述处理层包括：表示子层和融合子层；

所述表示子层用于：

针对所述至少一种第三模态信息中每一种第三模态信息，将所述第三模态信息映射为多个第一表征向量，任一个所述第一表征向量用于表征所述第三模态信息中任一个元素的空间信息、内容或者类型；

针对所述至少一种第三参考信息中每一种第三参考信息，将所述第三参考信息映射为多个第二表征向量，任一个所述第二表征向量用于表征所述第三参考信息中任一元素的空间信息、内容或者类型；

所述融合子层用于对所述至少一种第三模态信息对应的多个第一表征向量和所述至少一种第三参考信息对应的多个第二表征向量进行融合，得到融合后的向量；

所述输出层具体用于根据所述融合后的向量确定所述至少一种第三模态信息对应的多模态信息。

13.根据权利要求11所述的方法，其特征在于，所述处理层包括：表示子层和融合子层；

所述表示子层用于针对所述至少一种第三模态信息中每一种第三模态信息，将所述第三模态信息映射为多个第一表征向量，任一个所述第一表征向量用于表征所述第三模态信息中任一个元素的空间信息、内容或者类型；

所述融合子层用于对所述至少一种第三模态信息对应的多个第一表征向量进行融合，得到融合后的向量；

14.根据权利要求10-13任一项所述的方法，其特征在于，所述第三模态信息为第三模态问题，所述多模态信息为多模态答案。

15.根据权利要求1-13任一项所述的方法，其特征在于，所述多组第一训练数据对应的任务类型包括以下至少两种：智能问答类型、预测当前句子的下一个句子的预测类型、预测句子间的连贯性的预测类型。

16.根据权利要求1-13任一项所述的方法，其特征在于，所述至少一种第一模态信息的一种模态是文本模态、语音模态、图像模态或者视频模态。

17.一种模型训练装置，其特征在于，包括：

第一获取模块，用于获取多组第一训练数据，所述多组第一训练数据对应的任务类型不同，且每组所述第一训练数据包括：至少一种第一模态信息；

第一训练模块，用于通过所述多组第一训练数据训练预训练语言模型。

18.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至16中任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至16中任一项所述的方法。